在分析抓取数据时不要低估高级过滤的力量

在分析抓取数据时不要低估高级过滤的力量(二)

前面文章中我们提到到两个软件DeepCrawl 和Screaming Frog,在《在分析抓取数据时不要低估高级过滤的力量(一)》中已经介绍了DeepCrawl 软件的使用方法,下面我们将为大家介绍另个一工具Screaming Frog。

在分析抓取数据时不要低估高级过滤的力量
在分析抓取数据时不要低估高级过滤的力量

Screaming Frog进行过滤

对于Screaming Frog,过滤器没有那么健壮,但是您仍然可以在UI中过滤数据。但是有许多人不知道这一点,但是正则表达式在搜索框中得到了支持。因此,您可以使用您在 DeepCrawl(或其他地方)中使用的任何正则表达式,通过报告类型在Screaming Frog中过滤 URLs。

例如,检查响应代码并希望能够通过目录快速检查这些 URLs这个方法呢?然后使用管道字符来包含特定的页面类型或目录(或模式)。您将看到基于正则表达式的报告更改。

并且您可以利用预过滤的报告,然后在您自己的过滤上进行分层。例如,您可以检查一些带有长标题的页面,然后使用正则表达式进行筛选,以开始显示特定的页面类型或模式。

这种过滤器适用于所有的专栏!因此,您可以为该特定报告中列出的任何列使用正则表达式。例如,下面我将从包含规范URLs标签中的所有URLs开始,然后我将使用“不被索引”来显示包含元机器人标签的URLs。

如果一个URL没有被索引,那么它就不应该包含规范的URL标记(两者是互相攻击)。Rel规范告诉引擎,它是索引的首选URL,而使用不被索引的元机器人标记则告诉引擎不要索引URL。但是这没有任何意义。这只是一个简单而快速举地例子,您可以在Screaming Frog中进行过滤。注意:Screaming Frog有一个“规范错误”的报告,但是这是在UI中过滤掉表面问题的一种快速解决方法。

从导出的角度上来看,不幸的是不能只可以导出过滤后的数据。但是您可以快速地将过滤后的数据复制并粘贴到Excel中。谁能知道呢,也许在Screaming Frog上,聪明的人也许会建立一个“出口过滤数据”选项。

总结:都是在过滤器中

我在网站上爬行和分析抓取数据这两个方面花费了很多的时间,我也不能过于强调过滤的力量。当您添加正则表达式支持时,您可以真正开始对数据进行切片和切割,以解决潜在的问题。您能越快地解决表面的一些问题,你就能越快地解决这些问题了。对于拥有数万、数十万甚至上百万页面的大型站点来说,这一点尤其十分重要。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注