SEO工具行业如何开发技术标准

SEO技术领域可以从技术标准的建立中获得巨大的利益。谷歌自己的规范的实现在我们的工具中是不一致的,并且可以让经验较少的SEO工作人员相信他们的网站比他们的更好。

就像W3C在1994年对协议标准的定义和1998年的网页标准项目(WaSP)标准化编码实践一样,轮到我们对我们的软件进行操控,并为接下来要做的事情做好准备。

SEO工具行业如何开发技术标准
SEO工具行业如何开发技术标准

如果您听过这个,就请阻止我。12月4日,我收到了一封来自深度爬行和抓取的邮件,告诉我我的账户已经失去了信用。不过,这没有任何意义,因为我的计费周期刚刚在几天前重启——坦白地来说,我们从10月开始就没有真正使用过这个工具,就像您在屏幕截图中看到的那样。我还是应该有一百万的信誉度。

登录后,我记起我现在更喜欢其他工具了。注意到,在最近几个月里,像On-Page.org 和Botify这样的竞争对手的进步,我发现自己对我的订阅感到很恼火。

我仍然有一个帐户的唯一原因是历史客户端数据被锁定在平台中。当然,您可以导出多种.CSVs,但是接下来怎么做呢?没有简单的方法将我的历史数据从深度爬行和抓取移动到On-Page或Botify。

这是因为SEO工具行业没有技术标准。每种工具都有一种截然不同的方法来处理它们的爬行和抓取方式,以及数据是如何存储和最终导出的。

作为SEO的实践者,我们所做的很多工作就是在这些不同的数据源上规范化数据,然后才能得到分析的结果。(也就是说,除非你把所有的工具都展示给您看,否则您就会看到你的脸。)有人可能会反驳说,许多其他学科都要求您做同样的事情,比如市场研究,但是您可能忽略了这样一个事实:这些只是不同的工具,以不同的方式存储相同的数据。

至于在平台之间进行迁移,只有企业级的提供者,如Searchmetrics、Linkdex、SEOClarity、Conductor和BrightEdge,它们之间有相互之间迁移的系统。然而,这仍然需要定制的数据导入来实现。

网页标准的先例

每个行业都有某种非营利性的管理机构来制定标准。具体到网络,我们有五个主要的管理机构:

万维网联盟(W3C)—他们定义了开放的网页标准,并负责HTTP和HTML、CSS和JavaScript等协议的标准化。

国际标准化组织(ISO)—尽管他们似乎不明白首字母缩写是如何工作的,但ISO已经为网络的几个组件定义了七个规范。

Unicode联合会 他们为Unicode开发了字符编码标准,以确保国际上的可计算性。

因特网工程任务组 (IETF)—他们定义了因特网协议套件的技术标准,并从W3C接管了HTTP标准。

欧洲信息和通信系统标准化协会(ECMA) —他们定义了JavaScript的规范版本。在ECMA存在之前,基于每个浏览器中的实现,JavaScript有五个不同的版本。

然而,对于SEO软件,并没有这样的管理机构。这意味着,SEO工具本质上是市场营销技术的Internet Explorer,决定了它们将会和不支持的标准和特性——有时甚至不考虑更大的环境。虽然严酷的,但却是事实。

如果您深入研究某些工具,您会发现它们通常不考虑谷歌已经发布了明确准则的场景。因此,这些工具可能无法提供关于站点执行(或不执行)原因的完整描述。

例如,谷歌指定JavaScript对于页面的移动版本和桌面版本之间的重定向是合适的,而且没有SEO工具可以识别它。另外,不管最近的302与301的辩论如何,该规范说,对于这些类型的重定向,您应该使用302。没有一个工具能够足够聪明地确定返回302的页面是否应该返回302。尽管谷歌将根据HTTP头部做出决定,但对HTTP头部的审查也是不一致的。

那么,为什么没有技术标准呢?

通常,当组织或组织集合在一起来决定这些标准时,标准的开发就会发生。如果这个标准最终被认为是可行的,并且软件公司会继续实施,那么用户就会倾向于使用这个标准,并且会自己自掏腰包投票。

那么,是什么阻止了SEO工具行业整合并发布技术标准呢?这是这几件事…

专有的好处。SEO工具提供的许多内容都来自于谷歌所创造的真空度。例如,谷歌从来没有给我们提供一个可靠的PageRank值,也没有一种简单的方法来确定一个网站是否是垃圾邮件,所以像Moz这样的公司已经开发了他们的专有域名权重和垃圾邮件评分指标。同时,Majestic有自己的基于PageRank概念的外推度量,但是如果您有一个发现的链接,而没有另一个链接,那么如何将引用流和信任流与Moz的度量进行协调呢?在Moz的例子中,他们能够很好地植入他们的标志,因为域权威已经取代了PageRank,成为人们用来确定链接值的流行手段。根据我的经验,在美国,很少有人在讨论链接的价值时提到权重或Ahrefs的度量标准。但是,允许最终用户将页面权威(Moz)转换为引用流(Majestic)为URL评级(Ahrefs)的这些措施的某些第三方标准化将使所有的数据更加可用。事实是,围绕这些指标进行的思维共享确实是一种专有的优势。就像现代Edison和Tes的BrightEdge诉Searchmetrics一案中所指出的,这些公司中的一些公司似乎更关心那些专有的优势,而不是提供最好的分析。

相对不够成熟的行业。人们喜欢提起SEO的存在年龄还不够大,不足够让人信任。然而,这个行业并不比网络本身的存在有年轻多少。从长远来看,谷歌比SEO行业还年轻,而且它在许多行业都制定了标准。人们很难接受这样的观点,即该行业的年轻人应该为缺乏标准负责。

行业政治。这也许是SEMPO可以做的,但该组织近年来试图为SEO行业制定一个道德守则,并且遇到了很多政治冲突。我对SEMPO的来龙去脉和它的政治历史一无所知,但我怀疑任何一个政党都很难为网络标准插上旗帜。各机构和品牌可能需要联合起来,利用它们的集体影响力来实现这一目标。

价值是什么?

建立标准有利于SEO社区,以及客户和我们工作的网站。这对工具提供者本身没有任何好处,因为这将要求他们在它们的路线图(或它们出于任何其他原因而决定不进行的技术更改)中进行更改。由于在不同平台之间移动的便利性,这也会使它们面临客户流失的风险。

最终,SEO工具的技术标准的价值归结为更好的能力,更好的用户体验,以及鼓励更多的围绕创意特性的竞争。但更具体地说,它有助于以下几点:

努力消除错误教育。SEO的行业被错误的教育所困扰,其中大部分是由于被动的疏忽,以跟上最新的趋势和变化,而不是主动的无知的产生。我们建立工具作为捷径。换句话说,我们指望我们的工具是计算机,但有时它们被放在不知道底层数学的人们面前。标准的实施将有助于确保这些SEO工作人员保持同步,或者至少他们的分析更可能是准确的。

数据可移植性。从一个工具到下一个工具的能力在大多数软件中都存在。从浏览器到电子邮件到CRMs再到营销自动化平台,甚至谷歌本身,用户通常都可以下载他们的全部数据,上传到另一个工具中,并立即使用它。尽管我们空间中的每一个工具对应该如何识别和分析事物有不同的解释,但它们都使用相同的输入来创建这些输出,因此,如果标准到位,就不应该很难采取行动。

跟上谷歌的能力。在谷歌的网站管理员文档中有许多建议是许多SEO软件没有遵循或实现的。

最低特征要求。尽管由于各种原因,每个工具提供程序都有自己的功能子集,但也有一些工具提供程序没有达到用户期望的最低要求。例如,您可能期望任何关键字研究工具都能够为您提供基于关键字的搜索量和历史搜索量趋势。您还希望该工具具有一个允许分析扩展的API。为工具类型建立最低限度的特性需求将确保您使用的任何工具都至少能够实现相同的目标。这正是谷歌对广告词API所做的,也是为什么对SEO软件进行打击的原因,因为它们没有实现管理广告词活动所需的最低功能。

什么需要标准化?

那么标准化过程从何而来呢?为了满足这些需求,需要在各个平台之间保持一致吗?当然,这是争论的话题,但我的建议是:

1.链接指标

理想情况下,对于如何将空间中的所有不同链接度量相互转换,将有一个共同的理解。这里的技术障碍有两个。

第一,每个提供者使用自己的评估,然后偏离原始的PageRank算法排名,即它们自己的专有公式,但是这些公式是不公开的。第二,他们各自爬行和抓取网页的不同部分。

如果所有链接提供程序都要爬行和抓取Common Crawl并公布结果数据,那么第一个问题就无关紧要了。

Common Crawl是一个公共存档文件,其最新迭代特性为17.2亿页。任何人都可以下载并处理它作为一种网络分析手段。(在过去,我领导了一些项目,我们使用Common Crawl作为语料库来提取影响者数据,并确定中断的链接机会。)但是我却走岔道了。)

如果Moz、Majestic和Ahrefs公开处理普通的爬行和抓取,他们都可以提供彼此的指标,或者更现实地说,用户可以将Ahrefs和Majestic的指标转变为更广泛理解的Moz指标。

有一点需要注意的是,Moz现在为普通的爬行和抓取提供种子URL列表,我不清楚这是否会对研究产生偏见。我怀疑不是这样,因为所有的链接索引都只能在这个场景中爬行和抓取Common Crawl URLs。

尽管这个开放链接指标的想法很可能是一个白日梦,但更现实、更有价值的是,建立了一套新的与提供者无关的指标,所有链接索引都必须提供这些指标。

当然,它们都为我们提供了链接根域的数量和链接的总数,但是,在删除所有链接之后,能够将所有数据集绑定在一起的新的质量度量方法将使集合数据更加可用。

2. 爬行和抓取能力

谷歌的爬行和抓取能力已经有了很大的进步。除了Screaming Frog,据我所知,所有的SEO工具仍然以他们一贯的方式爬行和抓取。所有的SEO工具执行分析的基础上下载的HTML,而不是渲染的网页。

至此,当谷歌能够呈现整个页面并根据初始的JavaScript转换做出决策时,很难相信您的SEO工具报告的是什么。

在网关规范中,需要使用爬行和抓取工具来向您提供您希望如何爬行和抓取的选项,而不只是让您指定您的用户代理。

在底层,除了文本驱动的搜索引擎爬虫之外,这些爬行工具还需要使用Headless Chromium或者无头的QTWebkit(PhantomJS),目的是更密切地模拟谷歌的体验。

3.爬行和抓取数据

不管爬网提供了什么,都应该指定一个标准,即所有爬网提供程序都要按照标准顺序交付这些列。它们都应该以相同的格式进行导出,这可能被称为.CDF文件。这将为这些出口需要包括的内容和顺序确定最低要求。

但是,我们不希望限制工具提供程序交付更多内容的能力,因此导出文件确实可以包含其他列的数据。相反,所有的工具都需要导入到特定的列。

4.排名

就我个人而言,我认为我们需要重新考虑作为一个行业的排名。排名报告在一个不真实存在的环境中,并且忽略了特定的用户上下文。搜索的未来越来越多地关注于这些特定的用户环境以及它们如何对结果产生巨大的影响。

事实上,我建议应该对每个人开放,并免费提供给每个人。既然谷歌不打算提供这种服务,那就得该一群人来实现了。

我们都在通过一种扩大搜索量的方法从谷歌那里窃取排名;每种工具都有自己的方法。如果相反,有一个集中的数据存储,排名是通过分布式手段或复杂的僵尸网络,每个人都可以访问,从而使任何人都可以访问完整的SERP数据?那么,工具提供者将面临提供增强以使数据更有价值的挑战。

STAT曾经提供了一个法典,在20万个以上的关键字上提供了免费的排名。我相信这是朝着实现我的理想的正确方向迈出的一大步。我还认为STAT是公司增强数据并允许您进一步定制这些增强功能的一个很好的例子。

尽管如此,我还是希望看到来自所有提供商的级别跟踪的最低规范说明,包括:

粒度地理定位。许多排名工具允许您针对一个特定的城市或者邮政编码。谷歌浏览器的Geolocation Emulator允许您将您的位置指定为低纬度和纵向坐标,并且排名会对这种特殊性做出反应。

特定的移动环境。最低规格应该包括选择不同浏览器和移动型号变体的能力,而不仅仅是“智能手机”。例如,Safari在iPhone6和Chrome上的排名。

全面SERP测量。此时仅测量搜索结果页(SERP)的有机组成部分是有误导性的。至少,应该对有偿和有机之间的相互作用以及各种SERP特性(例如,新闻结果、本地包、特色片段)进行一些衡量,使自然排名不可见。此外,将Google Search Console中的CTR数据输入此内容可以为您提供关于如何执行的更多可操作的详细信息。

分割。随着谷歌和SEO工作人员朝着集群关键字的方向发展,能够在你的排名系统中分割关键词是很有价值的。对这一点的支持应该是常见的;用户应该能够上载特定的CSV格式,以便于进行简单的分段,并且理想的情况下,工具应该根据标准化的分类法建议分组。谷歌的分类法在这里可能行得通。

5.内容分析

尽管谷歌在几年前已经从一个字符串转移到另一个东西,但是仍然有一些人通过关键词密度和H1标签定位的镜头来检查搜索结果。谷歌已经宣布,实体分析是他们开始理解查询的地方。

下图说明了他们是如何做到这一点的。在这个例子中,他们打破了这样的疑问:“当天使赢得世界系列赛时,谁是美国总统呢?” 进入美国总统、天使和世界系列,然后系统地改进他们对这些概念的理解,直到他们能够将他们的关系和问题联系起来解决。

SEO工具在内容分析方面的成熟度并不高。NLP、TF IDF和LDA工具已经取代了关键字密度的概念,但是大多数爬行和抓取工具在检查页面时并没有考虑这些方法。

爬行和抓取工具的最小规格应该是它提取实体并计算主题建模分数。在TF*IDF的情况下,出现这种情况的一个主要障碍是是否有排名,因为计算需要审查其他排名文件,但公开排名倡议可以支持这一努力。

让我们从草图开始

当然,这些是我的观点,从另一个角度来看,这篇文章可能会被误解为我的SEO工具行业的特性请求列表。这正是我们应该做的。

相反的是,这应该是一种协作性的努力作法,以最优秀和最聪明的人来建立一个标准,这个标准随着现代SEO和不断变化的搜索引擎的能力而增长。

工具提供者可以聚集在一起开发标准,就像搜索引擎聚集在一起开发Schema.org一样。然而,缺乏对工具提供者的价值使得这不太可能。也许一些机构或者搜索行业的媒体可以联合起来,实现这一目标。这些人更客观,对那些公司本身没有既得利益。

或者有人可以从这个开始,看看谁最终做出了贡献。

尽管如此,我还是创建了一个草案,称为网关规范,采用了与GitHub上的W3C HTML规范类似的格式。尽管在选择Git来管理这个问题时遇到了一些障碍,但我还是认为这是一个更好的方法。这类规范将需要深入讨论,而GitHub提供了这样做的便利。

为了参与进来,您需要使用存储库,对文档进行任何编辑或添加,然后提交一个请求。这里概述了所有这些步骤。