考虑到这个博客的读者群,很有可能你本周会花一些时间来查看越来越多的链接数据工具中的反向链接。我们知道反向链接仍然是Google排名算法中最重要的部分之一。我们倾向于将这些链接数据集视为面值,部分原因是它们都是我们所拥有的。但是当你的排名上线时,是否有更好的方法来获得最佳的数据集?我们应该如何评估Moz, Majestic,Ahrefs和SEMrush这些不同的链接索引 的质量?从历史上看,这个指数质量问题已有4种常见方法……
- 广度:我们可能会选择查看任何给定服务报告的链接根域的数量。我们知道引用域与搜索排名密切相关,因此根据它发现和索引的唯一域数来判断链接索引是有意义的。
- 深度:我们也可以选择查看Web爬网的深度,更多地关注索引中的URL总数,而不是引用域的多样性。
- 链接重叠:更复杂的方法可能会计算索引与Google网站管理员工具共有的链接数量。
- 新鲜度:最后,我们可能会选择查看指数的新鲜度。索引中有多少百分比的链接仍在使用?
有很多非常好的研究(有些比其他人更新)使用这些技术,当你有机会时值得检查:
- 内置 Moz,Majestic,GWT,Ahrefs和搜索指标的可见分析
- SEOBook Moz,Majestic,Ahrefs和Ayima的比较
- MatthewWoodward 研究Ahrefs,Majestic,Moz,Raven和SEO Spyglass
- 营销信号分析Moz,Majestic,Ahrefs和GWT
- 排名在Moz,Majestic,Ahrefs和Link Research Tools之间进行比较
- StoneTemple对Moz和Majestic的研究
虽然这些都非常适合解决上述方法,但所有这些方法都存在特殊限制。他们错过了确定链接索引值所需的最重要指标之一:Google链接图的比例表示 。所以在Angular Marketing,我们决定仔细看看。
Google Search Console数据的比例表示
那么,为什么确定比例代表性很重要呢?我们使用的许多最重要和最有价值的指标都建立在比例模型上。PageRank,MozRank,CitationFlow和Ahrefs Rank在性质上是成比例的。数据集中任何一个URL的得分都与数据集中的其他URL相关。如果数据集有偏差,则结果有偏差。
可视化
链接图因其爬网优先级而存在偏差。由于互联网没有完整的表示形式,因此每个链接图(甚至Google)都是一个有偏见的网络样本。想象一下,下面的图片是网络的。每个点代表互联网上的一个页面,绿色包围的点代表谷歌网络某些部分的虚构索引。
当然,Google并不是唯一一个抓取网络的组织。其他组织,如Moz, Majestic,Ahrefs和SEMrush都有自己的抓取优先级,这会导致不同的链接索引。在上面的示例中,您可以看到不同的链接提供商尝试像Google一样为网络编制索引。链接数据提供者1(紫色)在构建类似于Google的模型方面做得很好。它不是很大,但它是成比例的。链接数据提供者2(蓝色)具有更大的索引,并且可能与链接数据提供者1的谷歌有更多共同的链接,但它是高度不成比例的。那么,我们将如何衡量这种比例?哪个数据集最适合Google?
方法
第一步是确定用于分析的相对性测量。Google没有向我们提供有关其链接图的大量信息。我们所拥有的只是Google Search Console中的内容。我们可以使用的最佳来源是引用域计数。特别是,我们想看一下我们称之为 域链接对的内容。一提到域连杆对会是这样的ask.com-> mlb.com:9444这意味着ask.com链接MLB.com的9444倍。
脚步
- 在Google Search Console中确定根链接域对和值到100多个网站
- 为Ahrefs,Moz,Majestic Fresh,Majestic Historic,SEMrush确定相同的内容
- 假设泊松分布,将每个数据集的引用域链接对与Google进行比较
- 运行每个数据集的性能模拟(即:Moz vs Maj,Ahrefs vs SEMrush,Moz vs SEMrush,et al。)
- 分析结果
结果
当面对面放置时,乍一看似乎有一些明显的赢家。Moz和Ahrefs在对阵Ahrefs的比赛中表现出色,Moz和Ahrefs的表现非常均衡。Moz,Ahrefs和SEMrush似乎远远超过Majestic Fresh和Majestic Historic。那是真的吗?为什么?
事实证明,指数大小和比例相关性之间存在反比关系。这可能看起来有悖常理,不应该更大的指数更接近谷歌吗?不完全是。这是什么意思?
每个组织都必须创建爬网优先级策略。当您发现数百万个链接时,您必须优先考虑下一个可能会抓取的链接。谷歌有一个抓取优先级,Moz,Majestic,Ahrefs和SEMrush也是如此。你可能会选择许多不同的东西来优先考虑……
- 您可以优先考虑链接发现。如果要构建非常大的索引,可以优先在历史上提供新链接的站点上抓取页面。
- 您可以优先考虑内容的唯一性。如果您想构建一个搜索引擎,您可能会优先查找与您之前看到的页面不同的页面。您可以选择对历史上提供唯一数据和少量重复内容的域进行爬网。
- 您可以优先考虑内容新鲜度。如果您希望保持搜索引擎的最新状态,则可以优先抓取经常更改的网页。
- 您可以优先考虑内容值,首先根据该页面的入站链接数抓取最重要的URL。
机会是,组织的抓取优先级将混合其中一些功能,但很难设计一个与谷歌完全一样的功能。想象一下,你不想爬网,而是想爬树。你必须想出一个爬树策略。
- 你决定爬上你在每个十字路口看到的最长的分支。
- 你的一个朋友决定爬上他到达的第一个新分支,不管它有多长。
- 你的另一个朋友决定爬上她到达的第一个新分支,只有当她看到另一个分支离开它时。
尽管有不同的攀爬策略,但每个人都选择相同的第一个分支,每个人都选择相同的第二个分支。早期只有很多不同的选择。但随着登山者越走越远,他们的选择最终会产生不同的结果。对于Google,Moz,Majestic,Ahrefs和SEMrush等网络抓取工具来说,情况完全相同。爬网越大,爬网优先级越大会导致差异。这不是缺陷; 这只是野兽的本质。但是,我们并没有完全迷失。一旦我们知道索引大小与差异的关系,我们就可以推断出抓取优先级与Google的相似程度。不幸的是,我们必须小心谨慎。我们只有一些数据点可供使用,因此很难确定这部分分析。特别值得一提的是,Majestic相对于它的索引大小会随着它的增长而变得更好,除非谷歌坚持旧数据(这可能是一个重要的发现本身)。在这一点上,我们很可能无法做出这样的结论。
那么我们该怎么办?
假设您有一个域名或网址列表,您希望了解它们的相对值。你的过程可能看起来像这样……
- 检查“打开站点资源管理器”以查看是否所有URL都在其索引中。如果是这样,您正在查看最有可能与Google链接图成比例的指标。
- 如果索引中没有出现任何链接,请移动到Ahrefs并使用他们的Ahrefs排名,如果您只需要一个类似PageRank的度量标准。
- 如果Ahrefs的索引中缺少任何链接,或者您需要与信任相关的内容,请转到Majestic Fresh。
- 最后,使用Majestic Historic(突飞猛进)可用的最大覆盖范围。
重要的是要指出,您要检查的所有URL都在单个索引中的可能性随着度量标准的准确性降低而增加。考虑到Majestic数据的大小,您不能忽略它们,因为您不太可能从其数据中获得空值回答。如果有什么事情是真的,那么再一次从尽可能多的数据源获取数据是有意义的 。没有Moz,没有Majestic的最广泛的数据,或没有Ahrefs的中间的所有数据,你将无法得到最大比例的数据。
那么SEMrush呢?他们正在取得进展,但他们没有公布任何在这种特殊情况下有用的相关统计数据。也许我们希望很快就可以从他们那里看到他们已经很有希望的指数!
链接图形行业的建议
我们所听到的所有这些都是大数据 ; 我们几乎从未听说过好的数据。我知道Moz,Majestic,Ahrefs,SEMrush和其他团队都有兴趣模仿谷歌,但我很想看到一些组织反对更多数据的吸引力,支持更像谷歌的更好的数据数据。它可以从测试各种抓取策略开始,看看它们是否产生的结果与Google Search Console中共享的数据更相似。拥有最像谷歌的数据肯定是一个值得赢得的冠军。