在分析抓取数据时不要低估高级过滤的力量(二)

前面文章中我们提到到两个软件DeepCrawl 和Screaming Frog,在《在分析抓取数据时不要低估高级过滤的力量(一)》中已经介绍了DeepCrawl 软件的使用方法,下面我们将为大家介绍另个一工具Screaming Frog。

在分析抓取数据时不要低估高级过滤的力量
在分析抓取数据时不要低估高级过滤的力量

Screaming Frog进行过滤

对于Screaming Frog,过滤器没有那么健壮,但是您仍然可以在UI中过滤数据。但是有许多人不知道这一点,但是正则表达式在搜索框中得到了支持。因此,您可以使用您在 DeepCrawl(或其他地方)中使用的任何正则表达式,通过报告类型在Screaming Frog中过滤 URLs。

例如,检查响应代码并希望能够通过目录快速检查这些 URLs这个方法呢?然后使用管道字符来包含特定的页面类型或目录(或模式)。您将看到基于正则表达式的报告更改。

并且您可以利用预过滤的报告,然后在您自己的过滤上进行分层。例如,您可以检查一些带有长标题的页面,然后使用正则表达式进行筛选,以开始显示特定的页面类型或模式。

这种过滤器适用于所有的专栏!因此,您可以为该特定报告中列出的任何列使用正则表达式。例如,下面我将从包含规范URLs标签中的所有URLs开始,然后我将使用“不被索引”来显示包含元机器人标签的URLs。

如果一个URL没有被索引,那么它就不应该包含规范的URL标记(两者是互相攻击)。Rel规范告诉引擎,它是索引的首选URL,而使用不被索引的元机器人标记则告诉引擎不要索引URL。但是这没有任何意义。这只是一个简单而快速举地例子,您可以在Screaming Frog中进行过滤。注意:Screaming Frog有一个“规范错误”的报告,但是这是在UI中过滤掉表面问题的一种快速解决方法。

从导出的角度上来看,不幸的是不能只可以导出过滤后的数据。但是您可以快速地将过滤后的数据复制并粘贴到Excel中。谁能知道呢,也许在Screaming Frog上,聪明的人也许会建立一个“出口过滤数据”选项。

总结:都是在过滤器中

我在网站上爬行和分析抓取数据这两个方面花费了很多的时间,我也不能过于强调过滤的力量。当您添加正则表达式支持时,您可以真正开始对数据进行切片和切割,以解决潜在的问题。您能越快地解决表面的一些问题,你就能越快地解决这些问题了。对于拥有数万、数十万甚至上百万页面的大型站点来说,这一点尤其十分重要。

在分析抓取数据时不要低估高级过滤的力量(一)

在帮助客户处理主要的算法更新、解决技术SEO问题等方面上的一些问题时候,我经常对大型站点进行审计。这几乎总是需要一个彻底的站点爬行(通常是在一个固定的生命周期中有几次爬行)。当您使用SEO时,搜索引擎会对网站造成严重破坏,为了集中您的分析,您需要对这些抓取数据进行切片和切割。

在分析抓取数据时不要低估高级过滤的力量
在分析抓取数据时不要低估高级过滤的力量

有了良好的数据过滤,您就可以知道经常出现可能导致严重问题的页面类型、部分或子域的问题所在。一旦出现问题,您可以对这些领域进行深入分析,以更好地理解核心问题,然后解决需要去解决的问题。

从搜索引擎蜘蛛的角度上看,我已经介绍了我在Search Engine Land的两个最爱的软件,DeepCrawl 和Screaming Frog。这两种工具都是优秀的工具,我通常在企业爬行时使用“DeepCrawl”,同时也会使用“Screaming Frog”来进行爬行,这是一种更专注的方法。(注:我会使用DeepCrawl在访问客户顾问委员会。)在我看来,使用DeepCrawl和Screaming Frog的组合就像是使用出了杀手锏,我经常会说当使用这两种工具时,效果会加倍。

下面,我将介绍几个在这两种工具中使用过滤的例子,这样您就可以对我所引用的内容有大致的了解和感觉。通过过滤抓取数据,您就可以对站点的特定区域进行隔离和处理了,以进行进一步的分析。当您开始这样做的时候,您也不会不放心了。所以让我们开始吧。

使用DeepCrawl过滤:

可转位的页面

让我们从一个基本的,但是很重要的过滤器开始。在几个级别上,内容质量问题可能会有很大的问题,而且您肯定希望确保这些问题不会出现在可索引的页面上。当谷歌从质量的角度评估一个网站时,它会把您的整个网站都考虑进去。这当然也会包括所有被索引的页面。这是来自John Mueller的一段视频来解释这个问题的。

因此,当您在站点上出现问题时,最好是要通过可索引的URLs来过滤该列表,以便将您的分析集中在可能损害站点质量的页面上。但是我并不是说要忽略其他的URLs,因为它们没有被索引!您也应该完全关注他们。请记住,用户正在与这些页面进行交互,您不希望与用户合作地不愉快。在深入研究内容和/或其他质量问题时,隔离可以被索引的页面是很聪明的做法。

精简的内容+正则表达式=很棒的内容

对于喜欢正则表达式的人来说,我有好消息要告诉你们。DeepCrawl支持高级过滤的正则表达式。因此,您可以选择一个过滤器,然后选择“匹配正则表达式”或“不匹配正则表达式”来执行一些筛选。对了,有一个“不匹配正则表达式”筛选器可以开始清除您想要排除的URLs 和包含的URLs,这是非常棒的方法。

例如,让我们从使用管道字符开始,在过滤器中组合三个不同的目录形式。管道字符在正则表达式中则表示“或者”。

或者,排除特定的目录,然后将重点放在仅以两个或三个字符结尾的URLs上的方法怎样(这是我认为在特定审计期间从内容的角度看问题的一个URLs 的实际例子):

或者,将页面类型的正则表达式与字数相混合,以确定页面类型或目录的真正精简的页面的方法怎么样?这就是为什么过滤功能如此强大(以及节省时间)的原因。

您可以想象到这幅画面。您可以包含或排除任何类型的URLs或模式。您可以在过滤器上层层筛选,以提高您的报告。聚焦大型的爬行效果是令人惊奇的。

典型问题: 响应标题

去年,我写了一篇文章,内容讨论如何检查X-Robots-Tag,以排除潜在危险的机器人指令(因为它们可以通过头部响应传递,并且肉眼是看不见的)。在大型站点上,这可能是非常危险的,因为当页面表面上看起来很好时,但实际上页面可能会被错误地索引。

当然,您也可以通过头部响应来设置rel规范。但是这可能会导致一些奇怪的问题(如果您不知道如何设置rel规范,这可能会让您抓狂)。在某些情况下,您可以为一个URL使用多个规范标记(一个通过头部响应,另一个在超文本标记语言中)。当这一切发生的时候,谷歌可以忽略所有的规范标签,就像他们在博客中提到的与rel规范的共同错误一样。

通过检查“没有有效规范标记”的“页面”,然后通过rel规范头URL和rel规范超文本标记语言 URL进行过滤,就可以解决所有有这个问题的URLs。然后,您可以与您的开发团队一起来确定为什么会发生这些代码的问题。

在URL找到了!识别错误链接的来源

在大规模的爬行过程中,毫无疑问您会遇到爬行错误(如404s、500s和其他的一些错误)。仅仅知道URLs返回错误通常还不够。您确实还需要跟踪这些URLs在站点之间链接位置的。

您想要在规模上解决问题,但是又不仅仅是一次性解决问题。为了做到这一点,可以从任何爬行错误报告(或者从非200报告)中“找到”URLs来过滤。然后,您可以使用正则表达式来呈现页面类型和/或目录,这些目录可能与返回爬行错误的页面会有很大的链接。

双重检查AMP URLs :所有的rel链接

想使用加速移动页面(AMP)吗?要双击您在超文本标记语言中使用rel=amphtml引用的URLs ,您可以检查“所有rel链接”报告并通过amphtml进行过滤。然后您可以为“URL”应用另一个过滤器,以确保这些是您所引用的真正的amp URL。再一次说明,这只是一个简单的例子,是为了说明过滤是如何揭露表面的一些邪恶问题的。

下载过滤的CSV

我提供了几个例子是在关于深入分析爬行数据时,您可以使用高级过滤。但是当您想要导出这些数据的时候呢?由于您在过滤方面进行了如此出色的工作,您肯定不希望在导出时丢失过滤后的数据。

由于这个原因,DeepCrawl有一个强大的选项来“生成过滤的CSV”。通过使用这个特性,您可以轻松地导出过滤后的数据,而不是整个事情的经过。然后您可以进一步分析Excel或者发送给您的团队和/或客户。