如何报告必应机器人(Bingbot)相关问题
必应机器人(Bingbot)是必应(Bing)用于抓取网页(即 “网络爬虫”)的工具名称。必应机器人的职责是在互联网中查找各网站上新增及更新的页面,以便对这些页面进行处理并纳入索引。在必应机器人抓取某个网站时,会查看该网站的 robots.txt 文件,以获取网站所有者 / 网站管理员设置的特殊指令。必应机器人会遵循 robots.txt 文件中的规则,包括 “抓取延迟(crawl-delay)” 设置;若未设置抓取延迟,则会参考 “抓取控制(Crawl Control)” 功能中网站管理员提供的参数。
必应机器人会结合 robots.txt 规则与 “抓取控制” 规则及提示信息,合理判断访问您网站页面的频率,这一机制被称为 “抓取礼貌性(Crawl Politeness)”。不过,仍可能出现您认为必应机器人 “不够礼貌” 的情况 —— 例如,其访问您网站页面的频率超出了您的承受范围(即 “过度抓取”)。
报告过度抓取问题
若您认为必应机器人存在过度抓取网站或未遵守 robots.txt 规则的情况,可按以下步骤操作:
- 验证您所监测到的机器人流量是否确实来自合法的必应机器人服务器:您可通过查看用户代理字符串(User-agent string,任何人都可轻松伪造此信息)及 IP 地址进行初步判断,最终需使用 “验证必应机器人(Verify Bingbot)” 工具完成验证。
- 确认流量来自真实的必应机器人后,若您尚未采取过相关措施,可通过以下第 3、4 或 5 种方法减少爬虫流量:
- 利用 “抓取控制(Crawl Control)” 功能,在网站访问高峰时段降低抓取速度。
- 在 robots.txt 文件中添加 “抓取延迟(crawl-delay)” 指令。示例如下:plaintext
User-agent: Bingbot Crawl-delay: 5
抓取延迟(crawl-delay)用于限制必应机器人可抓取的页面数量,其定义了一个 “小时间窗口”(1 至 20 秒),在此窗口内必应机器人仅能从您的网站抓取一个 URL。例如:- 若将抓取延迟设为 5(即指令为 “每 5 秒抓取 1 个 URL”),则必应机器人每天可抓取 17280 个 URL;
- 若将抓取延迟增至 10,则每天仅能抓取 8640 个 URL。抓取延迟数值越高(最高为 20),必应机器人抓取的页面数量就越少。
- 若已完成步骤 1 和步骤 2,但问题仍未解决,可联系必应网站管理员支持(Bing Webmaster Support):
- 填写所需的信息字段;
- 在 “您遇到的问题类型是什么?(What type of problem do you have?)” 下拉菜单中,选择 “抓取问题(Crawling issue)”;
- 在 “您需要哪方面的帮助?(What do you need help with?)” 下拉菜单中,选择 “必应抓取频率过高(Bing is crawling too much)”,该选项可提供即时解决方案;
- 若问题仍未解决,将 “是否仍有疑问?(Do you still have a question?)” 选项切换为 “是(Yes)”,描述具体问题后点击 “获取帮助(Get Help)”。
- 您通常会在 24-48 小时内收到回复。请注意,在您报告过度抓取问题后,支持团队下一步可能会要求您提供 “特定时间段内显示必应机器人活动情况的服务器日志样本”,请提前准备好相关文件。

