有外部链接,并且Google已经看到它们很多时候我们会陷入这样的陷阱,认为 Google 需要读取 URL 的 HTML 来对其进行索引。但事实并非如此。当 Google 检测到某个网站的多个链接被 robots.txt 阻止时,会出现一种奇怪的效果:它无法抓取该链接,但可以将其编入没有内容的索引。很明显,如果没有标题、H1、内容等,该 URL 的定位永远不会很好,但这并不妨碍 Google 将其作为非常具体或品牌搜索的结果提供。
发生这种情况时,您有线索可以检测到它:
在 Google Search Console 中,它告中:“已阻止但已编入索引”。
搜索此网址时,您将在 Google 代码段描述中看到,由于 Robots.txt 屏蔽,因此未显示任何描述。
在这些情况下,很多时候只需等待,Google 最终会从索引中删除这些 URL,因为他们看不到其中的任何价值。至少,尤其是当它们是非常重要的 URL(例如品牌或主页)时;如果没有 的话,几乎不可能让它们消失noindex。
案例 3. Googlebot 对 robots.txt 暂时失明
在 IKAUE,我们将 Google 在不知道我们对 WhatsApp 电话号码数据 网站进行更改的情况下花费的时间称为“Googlebot 失明”。也就是说,从我们进行更改到 Googlebot 通过已更改的 URL 并可以读取它所经过的时间。每个 URL 的时间都不同,在非常远的 URL 中,它可能会很大,但在 robots.txt 文件中,它要短得多。
Google 在向我们的网站请求 URL 时
始终需要知道它是否有权访问该 URL,但它并不总是请求 robots.txt 来了解这一点。相反,它会“缓存”(保存在内存中)robot.txt 的内容 24 小时,因此您不必一次又一次向您的网站索取。
也就是说,如果Googlebot在10小时前读取了您
的robots.txt,即使您现在对 司提供三种不同的套餐可供 其进行更改,它也不会再次请求,直到14小时后,它才会意识到它已更改,因此不会付费注意它。这就是“robots.txt 盲区时间”。
这意味着您可以阻止 robots.txt 中的某些网址,并让 Google 继续访问它们几个小时,而它并不知道已进行更改。当发生这种情况时,并不是 Google 不 v 关注 robots.txt,而是它还没有读取它。但是,在网站发生重大更改(例如迁移或新版本)时,如果让 Google 访问 捷克数字数据 您不希望其在 24 小时内读取的 URL,可能会造成很大的损害。这是大多数 SEO“X 文件”的起源,这些文件声称 Google 输入了被禁止的 URL,您应该密切关注它。