搜索算法曝光:谷歌搜索 API 文档泄露
从本质上说,谷歌的搜索算法是影响互联网搜索结果的最大因素之一。它决定谁能排在最前面,享受最大的流量份额,谁又会被限制在网络的黑暗角落——也就是搜索结果的第二页等等。 它是我们数字世界中最重要的系统。多年来,该系统的工作原理在很大程度上一直是个谜,但现在已不再是谜。昨天刚刚公开的 Google 搜索文档泄露,将数千页所谓的排名算法因素暴露在我们面前。
泄漏 关于该文档是“泄露”还是“发现”存在一些争议。但我们确实知道的是,API 文档(可能是意外地)被实时推送到 GitHub 上,然后在那里被发现。 这些文件中的数千页似乎来自谷歌内部的内容 API 仓库,让我们前所未有地了解谷歌搜索及其排名算法的工作原理。
关于 Google 搜索 API 文档的简要介绍
据报道,这是 Google 搜索内容仓库 API 的内部文档。 文献表明,截至 2024 年 3 月,此信息准确无误。 API 文档中列出了 2,596 个模块,其中包含 14,014 个属性。
这些就是我们所谓的排名因素或特征,但并非所有属性都可视为排名算法的一部分。 文档没有提供这些排名因素的权重如何。 问题就在这里:这份文档中发现的几个因素是谷歌曾表示过他们没有跟踪过的、也没有纳入其算法中的因素。 这对于 SEO 行业来说是无价的,并且毫无疑问将在可预见的未来指导我们如何进行 SEO。
另一个争论的话题是这些文件是否真实。关于这一点,我们目前知道的情况如下:
该文档位于 GitHub 上,并于 2024 年 3 月至 5 月期间短暂公开过。 该文档包含指向私人 GitHub 存储库和内部页面的链接——这些需要特定的、具有 Google 凭证的登录才能访问。 该文档使用了与公共 Google API 文档中类似的符号样式、格式以及流程/模块/功能名称和参考。
前谷歌员工表示,几乎每个谷歌团队都有类似的文档,其中包含各种 API 属性和模块的解释和定义。 毫无疑问,谷歌既不会否认也不会证实这是他们的作品。但到目前为止,所有迹象都表明这份文件是真实的,尽管我仍然提醒大家,对从中了解到的一切持怀疑态度。
更新:2024 年 5 月 29 日,谷歌发言人向表了以下声明: “我们提醒大家,不要基于脱离背景、过时或不完整的信息对搜索做出不准确的假设。我们已经分享了大量有关搜索工作原理以及我们的系统权衡的因素类型的信息,同时还努力保护我们搜索结果的完整性,防止其被操纵。 ”
我们从谷歌搜索文档泄露事件中学到了什么
我们需要筛选 2,500 多份技术文档,目前我们获得的见解只是冰山一角。我预计社区将花几个月(甚至几年)的时间分析这次泄漏,以获得更多适用于 SEO 的见解。 其他文章已经深入探讨了这个问题。但是如果你很难理解这些分析中的所有技术术语,下面是迄今为止泄漏中发现的关注点的快速而简单的摘要: Google 使用了一种叫做“Twiddlers”的功能。
这些功能可以帮助重新对页面进行排名(例如提升或降级计算)。 内容可能因多种原因被降级,例如 SERP 信号(即用户行为)表明不满意、链接与目标网站不匹配、使用完全匹配的域、产品评论、位置或性内容。 Google 会保留其曾索引过的每个页面的每个版本的副本。
但是,它在分析页面时仅使用任何给定 URL 的最近 20 次更改。 Google 使用一种名为“ siteAuthority ” 的域名权威指标 Google 使用一个名为“ NavBoost ”的系统,其中有一个使用点击数据来评估页面的模块。 Google 会跟踪每次会话期间哪个搜索结果的点击次数最长。 Google 有一个“沙盒”,根据网站年龄或缺乏信任信号将网站隔离到其中。通过名为“ hostAge ”的属性来指示
可能与最后一点有关,但文档中有
即使 Google 多年来从 手机号数据库列表 未提及 PageRank,反向链接的数量、多样性和来源仍然非常重要。 标题标签针对关键词进行优化并且与搜索查询相匹配非常重要。 “ siteFocusScore ”属性衡量网站对某一主题的关注程度。 发布日期和页面更新频率决定了内容的“新鲜度”,这也很重要。 链接的字体大小和文本粗细是 Google 关注的方面。看来,Google 更欢迎较大的链接。
作者注:这并不是搜索引擎的排名算法第一次被泄露。我在 2023 年报道了Yandex 黑客攻击及其对 SEO 的影响,你会发现这两个搜索引擎使用的排名因素有很多相似之处。 SEO 的行动要点 我尽我所能查看了尽可能多的泄露的“排名功能”,以及 Rand Fishkin和 Mike King的原始文章。
从中,我有一些见解想与其他 SEO 人员和想知道如何进行 SEO 的网站管理员分享。 链接很重要——链接价值受多种因素影响 链接仍然很重要。令人震惊吗?其实并不。这是我和其他 SEO 一直在说的话,即使如今与链接相关的指南几乎很少出现在 Google 新闻和更新中。
不过,我们需要在站外 SEO 策略中强调链接的多样性和相关性
来自文档的一些见解: 引用域的主页的 PageRank(也称为主页信任)会影响链接的值。 索引层级很重要。定期更新和访问的内容属于最高层级,并为您的排名提供更多价值。 如果您希望站外 SEO 确实为您的网站带来一些好处,那么请专注于从具有权威性的网站以及新鲜的或位于顶级的页面建立链接。
一些公关可能会有所帮助——新闻出版物往往会因为很好地满足了这些因素而带来最好的结果。 至于访客帖子,没有明确的迹象表明这些帖子会损害您的网站,但我绝对不会将其作为玩弄系统的一种方式。相反,要明智地对待您的外展活动,并将其视为您在寻找新业务合作伙伴时应做的事情。 瞄准成功点击 点击次数是排名因素这一事实并不令人意外。
尽管 Google 团队表示,点击次数是用户行为以及网页满足搜索意图程度的最明确指标。 谷歌的全部工作就是提供您想要的答案,那么为什么他们不提升那些似乎能够做到这一点的网页呢? 您的策略的核心应该是创造出色的用户体验。为用户提供正确答案的优质内容是您做到这一点的方法。瞄准合格的流量是您做到这一点的方法。构建一个美观、功能齐全的网站是您做到这一点的方法。 不要只选择点击诱饵标题标签和元描述,还要注重确保用户从您的网站获得他们需要的内容。 作者注:如果您自从引入 EEAT 和 HCU 概念以来就没有关注过页面质量,那么现在是时候关注了。以下是我为 HCU 制定的排名指南,可以帮助您入门。
保持页面更新
内容新鲜度是 Google 所 面向新电子商务企业家的直销业务理念 寻找的,基于属性,它们分别是署名,URL 和页面内容中的日期。 除此之外,一个有趣的基于点击的测量方法是“最后一次良好点击”。所有这些都在与索引信号相关的模块中,这表明过时的页面和内容衰减会影响您的排名。 警惕您网站上的哪些页面没有为其 SERP 排名带来预期的点击量。应审核过时的帖子,以确保内容具有最新且准确的信息,以帮助用户进行搜索。
这应该会使这些帖子恢复活力并增加点击量,从而防止内容衰减。 如果您网站上的内容支柱不再像以前那样吸引流量,那么开始做这件事就显得尤为重要。 建立专业知识和权威 谷歌确实会注意到网页上的实体,其中包括很多东西,但我想要关注的是那些与你的作者相关的实体。 EEAT 的概念相当模糊 — 因为对网站及其作者的“专业性”和“权威性”进行评分是模糊的。
因此,很多 SEO 对此持怀疑态度。 然而,“作者”属性的存在与文档中实体的深入映射相结合,表明在您的网站上拥有一位知名的作者是有一定分量的。 因此,应用作者标记,创建作者简介页面和档案,并在您的网站上展示您的官方个人资料以证明您的专业知识
建立您的域名权威 经过无数次的问答和采访,其中有“我们没有任何类似域名权威”、“我们没有网站权威分数”之类的说法,我们发现确实存在一个名为“ 虽然我们不知道这个指标具体是如何计算的,也不知道它对您网站的整体得分有何影响,但我们知道它对您的排名确实很重要。
那么,你需要做什么来提高网站权威性呢?很简单——继续遵循最佳实
践和白帽 SEO,你应该 GE 列表 能够在你的领域内提升你的权威性。 坚守自己的定位 说到细分市场 — — 我发 有趣。似乎在特定主题内构建越来越多的内容被认为是一件好事。 作者注: 在这种情况下,嵌入是机器用来理解页面上使用的单词之间的语义和相关性的东西。 这是其他 SEO 之前假设的。毕竟,你写的文章越多,你就越有可能成为该主题的权威,对吧? 但如今,任何人都可以利用人工智能针对特定主题撰写大量博客,那么如何才能脱颖而出(并避免听起来不自然和垃圾的风险?) 这就是作者实体和链接建设发挥作用的地方。
我确实认为优质内容应该通过链接建设工作来补充,作为一种方式来表明,“我是拥有这些资历的权威,而其他人也认为我是该主题的权威。” 重点 Google 搜索文档泄露事件中的大部分见解都是 SEO 人员花了数月(甚至数年)研究的结果。然而,现在我们的许多猜测都有确凿的证据,只要我们的理论确实是最佳实践。 我从这次泄密事件中得到的最大启示是:谷歌依靠用户行为(特别是点击数据和点击后行为)来找到最佳内容。其他排名因素对此进行了补充。
进行优化以让用户点击并停留在您的页面上,您应该会看到排名的提升。 既然这些排名因素已经泄露,Google 能移除它们吗?他们可以,但他们不太可能移除他们花费数年时间构建的算法中的重要属性。 因此,我的建议是遵循这些现已验证的 SEO 实践,并对此次泄密事件之后的任何 Google 声明保持高度批判性。