Patrick Stox向我们介绍了如何使用一种集群分析工具来可视化网站,并确定改善其链接结构的机会。
与Gephi的PageRank和Page Groups的简单可视化
去年4月,Search Engine Land的贡献者保Paul Shapiro写了一篇关于计算内部网页排名的精彩文章。这篇文章概述了一种查看网站内部链接的方法,以确定网站页面的重要性。这是非常强大的,但我认为Paul的概念可以更容易使用。他使用了R,这是一种用于统计计算的语言和环境,而输出基本上就是一堆数字。
我想向你们展示如何在Gephi中做同样的事情,用几个按钮而不是一堆代码——而且,只要点击几下,你就能以一种让你自豪的方式展示你的客户的方式来可视化数据。我将向您展示如何获得这个结果,作为一个示例,说明Gephi如何在您的SEO工作中发挥作用。您将能够看到哪些页面是您网站上最强大的页面,确定页面如何按主题分组,并识别一些常见的网站问题,如爬行错误或内部链接不良。然后,我将描述一些想法,把这个概念带到极客的下一个层次。
Gephi是什么?
Gephi是一种免费的开源软件,用于绘制网络图,通常用于表示计算机网络和社交媒体网络。它是一个简单的基于Java的桌面程序,运行在Windows、Mac或Linux上。虽然当前版本的Gephi值是0.9.1,但是我建议您下载以前的版本0.9.0,或者以后版本0.9.2。这样您就可以在这里进行跟踪,并且您可以避免当前版本的安全漏洞和头痛。(如果你最近没有做过,你可能也需要在你的电脑上安装Java。)
1.从爬行和抓取你的网站和收集数据开始
我通常用Screaming Frog来爬行和抓取。由于我们对这里的页面感兴趣,而不是其他文件,所以您需要从爬行和抓取数据中排除一些东西。要做到这一点,那些使用付费版软件的人应该实现我接下来要描述的设置。(如果你使用的是免费版本,它会限制你收集500个URLs,并且不允许你调整设置,我将解释接下来要做什么。)进入“配置”》“蜘蛛”,你会看到下面的屏幕截图。
与Gephi的PageRank和Page Groups的简单可视化
让你的比赛取得最好的成绩。我通常也会将.*(png|jpg|jpg|gif)$添加到“配置”》“排除”以删除图像,Screaming Frog有时会在爬行和抓取报告中留下这些图像。要开始爬行和抓取了,把你的站点的URL放在左上角的空间(如下图所示)。然后单击“开始”,等待爬行和抓取完成。当你的爬行和抓取完成后,去“批量导出”》“所有的链接”。您将希望将“类型文件”更改为“.csv”并保存您的文件。
与Gephi的PageRank和Page Groups的简单可视化
清理电子表格
删除包含“All Inlinks”的第一行。删除第一列“Type。”将“目的”列重命名为“目标”。删除“源”和“目标”之外的所有其他列。保存编辑后的文件(再次检查以确保文件类型是.csv)。如果想要在图上显示这种类型的数据,还可以选择状态代码或锚文本等其他列。我将解释如何使用的主要两个字段是“源”和“目标”。如果你使用的是“Screaming Frog”的免费版本,你需要做大量的清理工作来过滤图片、CSS和JavaScript文件。
在Excel表格中,如果你点击“插入”并点击“表格”,你就会弹出一个窗口。确保您的数据已被正确定义,单击“我的表有头”,然后单击okay。现在,在“目标”列的右上方选择箭头,将出现一个搜索框。使用它过滤表,以识别包含不同文件类型的扩展的行,例如.js或。 css。一旦您对所有的表行有一个违规的文件类型,选择并删除这些行的所有信息。对于上述文件类型和任何图像文件类型,如.jpg,.jpeg,.png,.gif,.bmp或其他的类型都要这样做。完成后,需要再次将文件保存为a.csv。
2.使用Gephi来可视化爬行和抓取数据
与Gephi的PageRank和Page Groups的简单可视化
导入数据
在打开应用程序的弹出窗口中,点击“新项目”。然后选择“File”“导入电子表格”。选择你的.csv文件,并确保“分隔符”设置为“逗号”和“桌面”,设置为“边表”。如果需要做大量的Excel数据清理工作,请确保在导入数据之前已经清除了数据中的任何空白行。单击“Next”,并确保在点击“Finish”之前检查“创建缺失的节点”。为了我们的目的——可视化内部链接——“Edges”是内部链接,而“Nodes”是网站上的单个页面。(注意:如果您偶然发现了一个内存错误,您可以通过下面的指南来增加在Gephi中分配的内存数量。)如果你有一个真正的大数据集,或者想要组合多个数据集,你可以把多个文件导入Gephi。一旦所有的数据都在“数据实验室”中,你就可以切换到“概述”。在这里,你可能会看到一个像下面这样的黑盒子。别担心,我们马上就会做得很好。
与Gephi的PageRank和Page Groups的简单可视化
计算网页排名和模块化
在“统计”选项卡中,运行“网页排名”和“模块化”。(如果你看不到“统计”选项卡,请选择“窗口”和“统计”)。我建议为网页排名使用默认设置,但对于模块化,我将取消“使用权重”。这将在新列中添加关于页面的数据,这些数据将用于可视化。
与Gephi的PageRank和Page Groups的简单可视化
您可能需要几次运行模块化,以达到您想要的方式。模块化将那些彼此连接的页面连接到模块化组或类(每个类都由一个数字表示)。你会想要形成一组大到足以让你有意义但又足够小的页面。毕竟,您正在群集,所以将所有的页面分组成两个或三个组可能会带来许多不一样的东西。但是如果您最终得到200个集群,这也不是那么有用。如果有疑问,目标应该是更多的群体,因为许多群体可能非常小,主要群体仍然应该公开。别担心,我会在一分钟内教你如何检查和调整你的群组。(注意:低模块性会给你更多的组,而更高的模块性会给你更少的组。用分数来调整,而不是整个数字,因为小的变化会带来很大的变化。)
调整你的模块化设置
让我们看看我们做了什么。将选项卡更改为“数据实验室”,并查看“数据表”。在这里,您将找到用于网页排名和模块化类的新列。网页排名的数字应该与Paul Shapiro文章中提到的数字一致,但是你不用做任何编码就能得到这些数字。(记住,这些是内部的网页排名数字,而不是我们通常所说的“网页排名”)。模块化类将一个数字分配给每个页面,这样高度互连的页面就会收到相同的数字。使用右上角的过滤功能来隔离每个页面组,并查看一些URLs,以查看这些链接是如何接近的。如果页面最终出现在错误的模块化类中,那么您可能需要重新调整设置,或者它可能表明您在连接相关内容方面做得不好。请记住,您的模块化是基于内部链接的,而不是页面上的内容,所以它是识别那些通常链接在一起的东西,而不是那些应该链接在一起的。
在我的例子中,我选择了一家律师事务所,并且在默认设置下,当我按照模块化进行分类时,我最终得到了如下的细分:我可能在一些调整中做得更好:
分类0=伤害
分类1= 家庭
分类2 = 一些随机页面
分类3=刑事
分类4=流量
分类5= DWI
分类6 = 若干随机页面
您可以回到“概述”选项卡,并继续进行调整,直到您对页面组感到满意。即使是多次使用相同的数字运行模块化,每次都可能产生不同的结果,因此可能需要花费一些时间才能达到您对结果满意的程度。
我们用布局来画一个图。我之前向你们承诺过一个可视化的,你们可能想知道我们什么时候到达那个地方。让我们把那个黑方块变成一个更容易理解的形象化的图形。进入“概述”“布局”。在左边的下拉框中,它说“-选择一个布局,”选择“ForceAtlas 2”。
与Gephi的PageRank和Page Groups的简单可视化
现在你只需要播放这些设置,直到你得到一个你觉得舒服的视觉效果。(如果你迷路了,点击图像左侧的小放大镜图像,它就会居中并放大图像,所以在屏幕上都可以看到。)对于上面的星型模式,我已经将“缩放”设置为1000和“重力”为0.7,但是其余的都是默认设置。你可能会使用的主要两种设置是缩放和重力。缩放控制了可视化的大小;它设置的越高,你的图形就越稀疏。理解重力最简单的方法就是把这些节点想象为行星。当你重力的时候,这把所有的东西都拉得更近了。你可以通过检查“更强的重力”箱和调整重力值来调整它。还有其他一些选项,每个选项的效果都在接口中进行了解释。不要犹豫和他们一起玩(你总可以把它转回来),看看是否有什么东西能让你的视觉更清晰。
我们想要展示什么?
在我们的示例案例中,我们希望显示模块化(页面组)和内部的网页排名。我发现这样做的最佳方法是根据基于网页排名和基于模块化的颜色来调整节点的大小。在“外观”窗口中,选择“节点”、“大小”(第二个图标),在“排序”选项卡中有“选择属性”的下拉菜单,选择“网页排名”。选择一些大小并单击“运行”,直到更重要的节点与其他节点区分开来。在下面的屏幕截图中,我的最小尺寸设置为100,最大尺寸为1000。根据网页排名设置节点的大小可以帮助您轻松地识别出您网站上的重要页面——它们更大。
与Gephi的PageRank和Page Groups的简单可视化
为了将具有模块化的页面组可视化,我们仍然希望在“外观”窗口中,但是这次我们想要选择“颜色”(第一个图标)、“节点”和“分区”。在“选择属性”的下拉框中,选择“模块化类”。有些默认的颜色是填充的,但是如果你想要改变它们,“调色板”有一个蓝色的链接。在选项板中,如果单击“生成”,您可以根据在运行模块时获得的数量来指定要显示的颜色的数量。在我的例子中,第2和第6类并不是很重要,所以我点击它们的颜色,然后把它们变成黑色。如果您只想显示一个特定的主题,那么只需要改变一个模块化类的颜色,而将其他的类作为另一种颜色。
与Gephi的PageRank和Page Groups的简单可视化
变化的可视化
您可能希望对节点进行标记,以便我们知道它们所代表的页面。要添加一个带有URL的标签,我们需要返回“Data Laboratory”选项卡并选择数据表。底部有一个“复制数据到其他列”的框,我们想要将“Id”复制到“Label”中,以获得显示的URLs。这个过程类似于边。如果您从爬行和抓取中保存了锚文本,您可以用锚文本标记每条边缘。回到“预览”选项卡,您将希望选择如何显示您的可视化显示。我通常在预设选项中选择“默认曲线”,但很多人喜欢“默认设置”。改变标签的字体大小和比例大小将帮助它们以不同大小的方式显示。只需在预览选项卡中进行设置,让它显示你想要的方式。
在下面的可视化图中,我关闭了节点和边缘标签,这样我就不会泄露我使用过的特定法律公司网站的身份。在很大程度上,他们已经做好了将页面和内部链接进行分组的工作。如果我在电子表格中从Screaming Frog中离开了锚文本列,那么我可以将每个内部链接(行)显示为一个边缘标签,并将每个页面链接到(圆圈)作为一个节点标签。
与Gephi的PageRank和Page Groups的简单可视化
大数据集的Gephi值
对于更大的数据集,你仍然可以使用Gephi,尽管你的图形可能看起来更像一个星图。我绘制了Search Engine Land的内部链接,但我必须将缩放比例调整到5000,并在ForceAtlas 2设置中调整到重力0.2。您仍然可以为网页排名和模块化进行计算,但是您可能需要将节点大小更改为巨大的,以查看图表上的任何数据。正如前面所描述的,您可能还需要向调色板添加更多的颜色,因为在这个大小的数据集中,可能有许多更独特的模块化类。这就是在上色之前,SEL的图像是什么样的。
与Gephi的PageRank和Page Groups的简单可视化
为什么这些都很重要?
Gephi可以用来显示各种各样的问题。我曾经在我的SEO文章的未来发表过一篇文章,我展示了HTTPS和HTTP之间的分离。此外,它还可以发现一些可能被客户认为非常重要的部分,而这些客户端内部并没有很好地连接在内部。通常,由于重力的影响,这些距离会更遥远,你可能想要从相关的主题页面中链接到它们。告诉客户你需要更多的内部链接是一回事,但是向他们展示一个他们认为重要的页面实际上是非常孤立的,这就容易得多了。下面的图片是通过简单地改变我的模块化,直到我只有两个组的时候才创建的。这是因为我在自己的爬行和抓取中同时拥有http和https链接,并且我降低了模块化,直到我只有两个组,其中与http最相关的是http》。HTTP页面和HTTPS》HTTPS页面。
还有很多其他的东西可以给你带来线索。寻找单独的节点。您可能会发现大量的稀疏页面,甚至是爬行和抓取错误。蜘蛛陷阱可能表现为一种无穷无尽的页面,而没有正确分组的页面可能意味着你没有从最相关的页面内部链接它们。一个内部链接的网站可能看起来更像一个圆圈,而不是一颗星星,我不会认为这是一个问题,即使颜色并不总是一致的。你必须记住,每个网站都是独一无二的,每一个可视化都是不同的。
与Gephi的PageRank和Page Groups的简单可视化
很难解释每一种可能性,但如果你尝试其中一些,你就会看到一些常见的问题,甚至可能出现一些新的和不同的问题。这些可视化将帮助您帮助客户理解您一直在谈论的问题。我向你保证,你的客户会喜欢他们的。如果您想创建静态图像,Gephi有许多导出选项,比如.png、.svg或.pdf。更多的乐趣是导出供在网页上使用,这样您就可以创建一个交互式体验。要做到这一点,请查看Gephi Plugins —特别是SigmaJS导出器和Gexf-JS Web Viewer。
我们还能和Gephi做些什么?
添加关于链接的补充信息
如果你有一个可以识别链接位置的搜索引擎蜘蛛爬虫,你可以根据链接的位置来调整你的边缘的重量。举例来说,我们给每个主要的内容链接一个比一个导航或页脚链接更高的值。这允许我们根据链接的权重来改变内部的网页排名计算,根据它们的位置确定链接的权重。这可能会显示出一个更准确的表述,即谷歌是如何根据他们的位置来评估这些链接的。这允许我们根据链接的权重来改变内部的网页排名计算,根据它们的位置确定链接的权重。这可能会显示出一个更准确的表述,即谷歌是如何根据他们的位置来评估这些链接的。
引入第三方指标以获得更全面的视图
到目前为止,我们一直在做的可视化工作是基于内部的网页排名计算,并假定所有页面在开始时都是同等的。当然,我们知道,这不是谷歌看待事物的方式,因为每一页都有来自外部网站的不同强度、类型和相关性的链接。为了使我们的可视化更加复杂和有用,我们可以改变它来获取第三方的力量指标,而不是内部的网页排名。对于这些信息,有许多不同的可能来源,例如Moz Page Authority, Ahrefs URL Rating, 或者Majestic Citation Flow 或者Trust FlowMoz。这些都可以,所以选择你最喜欢的。结果应该是搜索引擎对网站的更准确的描述,就像我们现在把页面的力量考虑进去一样。
我们可以从上面创建的相同文件开始,以显示内部网页排名。在Gephi中,我们将进入“数据实验室”选项卡,确保我们处于“节点”选项卡中。有一个“导出表”选项,您可以将您的列导出到a.csv文件。在Excel表格中打开导出文件,并创建一个新列,无论您想要什么名称。我之所以叫它“CF”,是因为我在我的例子中使用了Majestic Citation Flow。
现在,让我们合并第三方数据。在我从Gephi导出的电子表格中,我复制了Majestic的数据,它在一列中有页面,在第二列有Citation Flow。现在我们需要把这个数据和第一个数据结合起来,你可以使用一个VLOOKUP公式来做这个。
首先,选择Majestic的数据——这两个列——并使其成为一个命名范围。要做到这一点,请到插入下拉菜单并选择名称。从那里,选择“定义”选项,并命名你的Majestic数据范围,无论你喜欢什么。对于我们的例子,我们称之为“majestic”。
然后回到原始数据集中的“CF”列。单击第一个空白单元格和类型=VLOOKUP(A2,majestic,2,FALSE),然后在键盘上点击“Enter”。把这个复制到所有其他的“CF”条目,双击盒子底部右边的小方块。这个公式使用列A-URL-作为键的数据,然后将其与宏伟数据中的相同URL匹配。然后,它会转到宏伟数据的下一列——我们正在寻找的外部网页排名数据——并将其拉入CF列。
接下来,您将需要单击CF列顶部的列字母,以选择列中的所有内容。点击“CTRL+C”来复制,然后点击右键,在弹出的菜单中“粘贴特殊”,然后选择“值”。“这是用实际数字替换我们的公式。现在,我们可以删除第三方数据的范围,并将我们的文件保存为.csv。
与Gephi的PageRank和Page Groups的简单可视化
回到Gephi和“数据实验室”,我们想要点击“导入电子表格”来拉入我们刚刚制作的表格。选择。创建.csv文件。这一次,与前面的步骤不同,我们希望将“表格”更改为“Nodes table”。“单击”Next“并确保”强制节点创建为新节点“未检查,然后单击”完成。“这应该用包含CF的修改表来替换节点数据表。在应用程序屏幕的底部,您将看到一个按钮,用于“将数据复制到其他列”。我们只是想选择“CF”,在“Copy to”中,我们想要选择“网页排名”。现在,我们使用的是第三方外部网页排名数据,而不是生成的内部网页排名数据。回到“概览”选项卡,我们希望查看“外观”,并再次点击“应用”。现在,我们的节点应该根据我们的雄伟CF数据的相对强度来进行大小调整。在我的图表中,你可以看到网站上最强大的页面,考虑到页面强度的外部度量。
与Gephi的PageRank和Page Groups的简单可视化
你可以从这张图片中看出很多。当你打开标签时,你可以看到每个圆圈代表的是哪个页面。颜色表示哪个分组,圆圈的大小表示页面的相对强度。这些点越远,页面的内部链接就越少。您可以通过每种颜色的节点数来判断,客户端创建了最多的内容,以及在吸引外部链接方面取得了哪些成功。例如,你可以看到有很多紫色的点,表明这可能是公司的一个重要的实践领域,他们正在围绕它创造大量的内容。问题是较大的紫色点离中心较远,这表明它们内部并没有很好的联系。我可以告诉你,许多极远的点都是博客文章。尽管他们在博客和其他页面之间做了很好的工作,但他们在网站上推广自己的博客文章却做得很差。
总结
我希望您喜欢使用您自己的数据,并对Gephi如何帮助您为自己和您的客户可视化重要的可操作数据有了很好的了解。
欢迎与我们交流您的想法。
上述内容是由dreamhost中文指南(http://dreamhost.cn/ )为大家提供的,如果您想了解更多信息,请继续关注dreamhost中文指南,如果您想转载此内容,请注明出处。