了解 CDN如何与搜索引擎爬网程序(特别是 Google 的爬网程序)交互,以及如何对爬网错误进行故障排除。
概述
很多CDN(例:cloudflare)将搜索引擎爬网程序和机器人列入白名单。
一、调整 Google 和 Bing 爬网速率
为优化 CDN 性能,Google 和 Bing 为正常使用 CDN 服务的网站分配特殊的爬网速率。特殊爬网速率不会给搜索引擎优化 (SEO) 和搜索引擎结果页面 (SERP) 造成负面影响。要更改针对 Bing 和 Google 的爬网速率,请按照以下指导来操作:
- 通过查阅 Google 文档来更改 Google 爬网速率。
- 按照 Bing 文档中的指导来更改 Bing 爬网速率:
二、防止爬网错误
查看以下建议来防止爬网程序错误:
- 使用第三方工具监控您网站的性能和可用性:
- 请勿通过 CDN应用中的防火墙规则或 IP 访问规则来阻止 Google 爬网程序 IP 地址。
注意:通过查阅有关验证 Googe 机器人 IP 地址的 Google 文档,确认 IP 地址归属于 Google。
- 请勿通过 CDN 应用中的防火墙规则或 IP 访问规则来阻止美国。
- 请勿在您的 .htaccess、服务器配置、robots.txt 或 Web 应用程序中阻止 Google 或 Bing 用户代理。
- 请勿允许抓取 /cdn-cgi/ 目录下的文件。此路径由 Cloudflare 在内部使用,Google 抓取此路径时会遇到错误。通过 robots.txt 禁止抓取 cdn-cgi:
Disallow: /cdn-cgi/
爬网错误故障排除
如下为最常报告的爬网错误的故障排除步骤:
HTTP 4XX 错误
HTTP 4XX 错误是最常见的爬网错误类型。cdn将这些错误从您的 Web 服务器传递给 Google。这些错误可能由不同的原因造成,如 Web 服务器上缺少页面或 HTML 中存在格式错误的链接。具体解决方案视实际遇到的问题而异。
HTTP 5XX 错误
HTTP 5XX 错误表明 CDN或您的源站 Web 服务器遇到内部错误。要排查爬网错误与站点中断之间的关系,请监控您的源站 Web 服务器的运行状况。监控您的网站通过 CDN连接和直接连接源站 Web 服务器 IP 地址的运行状况,从而确定导致错误的原因在于 CDN还是您的源站 Web 服务器。
相关资源