首頁 » 因为没有完整的互联网代表

因为没有完整的互联网代表

可视化
链接图因其抓取优先级而存在偏差。,所以每个链接图,甚至谷歌的链接图,都是网络的有偏见的样本。想象一下下面的图片是网络。每个点代表互联网上的一个页面,绿色包围的点代表谷歌对网络某些部分的虚构索引。

当然并不是唯一抓取网络的组织

Moz、Majestic、Ahrefs 和 SEMrush 等其他组织都有自己的抓取优先级,这会导致不同的链接索引。

在上面的示例中,您可以看到不同的链接提供商尝试像 Google 一样对网络 按行业划分的特定数据库 进行索引。链接数据提供者 1(紫色)在构建类似于 Google 的模型方面做得很好。虽然不是很大,但是是成比例的。链接数据提供商 2(蓝色)的索引要大得多,并且可能与链接数据提供商 1 相比具有更多与 Google 相同的链接,但这是非常不成比例的。那么,我们如何衡量这种比例呢?而哪个数据集与谷歌的比例最大呢?

方法论

第一步是确定用于分析

相对论测量。谷歌没有向我们提供有关其链接图的太多信息。我 关于视频广告的 6 个误解 们所拥有的只是 Google Search Console 中的内容。我们可以使用的最佳来源是引用域计数。特别是,我们想看看我们所说的引用域链接对。引用域链接对类似于ask.com->mlb.com:9,444,这意味着ask.com 链接到mlb.com 9,444 次。

步骤
确定 Google Search Console 中 100 多个网站的根链接域对和值
对 Ahrefs、Moz、Majestic Fresh、Majestic Historic、SEMrush 进行相同的确定
假设泊松分布,将每个数据集的引用域链接对与 Google 进行比较
对每个数据集的性能进行相互比较的模拟(即:Moz 与 Maj、Ahrefs 与 SEMrush、Moz 与 SEMrush 等)
分析结果
结果

当正面交锋时乍一看似乎有一些明

显的赢家。在正面交锋中,Moz 击败了 Ahrefs,但总体而言,Moz 和 Ahrefs 的表现相当均衡。 Moz、Ahrefs 和 SEMrush 似乎比 Majestic Fresh 和 Majestic Historic 好得多。真的是这样吗?为什么?

事实证明,索引大小和比例相关性之间存在反比关系。这似乎有悖常理,索引越大难道不应该更接近谷歌吗?不完全是。

这意味着什么?

每个组织都必须创建爬网优先级策略。当您发现数百 美国数据库  万个链接时,您必须优先考虑接下来要抓取的链接。 Google 有抓取优先级,Moz、Majestic、Ahrefs 和 SEMrush 也是如此。您可能会选择优先考虑很多不同的事情……

您可以优先考虑链接发现

如果您想构建一个非常大的索引,您可以优先抓取历史上提供过新链接的网站上的页面。
您可能会优先考虑内容的独特性。如果您想构建一个搜索引擎,您可能会优先查找与您以前见过的页面不同的页面。您可以选择对历史上提供唯一数据且几乎没有重复内容的域进行爬网。
您可能会优先考虑内容的新鲜度。如果您想让搜索引擎保持最新状态,您可能会优先抓取经常更改的页面。
您可以优先考虑内容价值,首先根据该页面的入站链接数量抓取最重要的 URL。
组织的抓取优先级很可能会融合其中一些功能,但很难像 Google 那样设计一个完全一样的功能。想象一下,您不想爬行网络,而是想爬树。你必须想出一个爬树策略。

返回頂端