跳出率

什么是 Googlebot?

Googlebot 只是 Google 编写的一个计算机程序,它会抓取网页并将网页添加到其索引中,Googlebot是 Google 用来收集所需信息并构建可搜索网络索引的网络爬虫。Googlebot 有移动和桌面爬虫,以及专门用于新闻、图片和视频的爬虫。

谷歌还有更多的爬虫用于特定任务,每个爬虫都会用称为“用户代理”的不同文本字符串来标识自己。 Googlebot一直保持最新,这意味着它可以像用户在最新的 Chrome 浏览器中一样查看网站。

Googlebot 在数千台机器上运行。它们决定在网站上抓取的速度和内容。他们有时也会减慢爬行速度,一面网站超负荷。

什么是网络爬虫?

网络爬虫,又称蜘蛛或机器人,是一种自动程序,可浏览和收集互联网数据。它的工作原理是“爬取”网站,下载其内容并将其存储在巨大的数据库中。

网络爬虫对于许多任务都至关重要,例如索引网站、监控网站更新以及收集数据进行数据分析。网络爬虫被编程为跟踪网站内的链接并转到其他网站。

Googlebot 是 Google 的网络爬虫或机器人,其他搜索引擎也有自己的机器人。机器人通过链接爬取网页。它会查找和读取新内容和更新内容,并建议应将哪些内容添加到索引中。当然,索引是 Google 的大脑。所有知识都驻留在索引中。Google 使用多台计算机将其爬虫发送到网络的每个角落,以查找这些页面并查看其中的内容。

Googlebot 如何工作?

Googlebot 使用站点地图和以前抓取过程中发现的链接数据库来确定下一步要去哪里。每当抓取工具在网站上发现新链接时,它都会将其添加到下次要访问的页面列表中。如果网络抓取工具发现链接发生变化或链接断开,它会注意到这一点,以便更新索引。该程序会确定抓取页面的频率。为了确保 Googlebot 可以正确地为你的网站编制索引,你必须检查其可抓取性。如果网站可供抓取工具使用,它们就会经常访问。

不同的机器人和爬虫

有几种不同的机器人。例如,AdSense 和 AdsBot 检查广告质量,而 Mobile Apps Android 检查 Android 应用。所有这些不同的机器人都有不同的用户代理来识别它们。对我们来说,这些是最重要的:

Name User-agent
Googlebot (desktop) Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36 Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot (mobile) Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot Video Googlebot-Video/1.0
Googlebot Images Googlebot-Image/1.0
Googlebot News Googlebot News

Googlebot 如何访问的网站

要了解 Googlebot 访问你网站的频率以及它在网站上执行的操作,可以深入研究日志文件或打开Google Search Console的“抓取”部分。如果你想执行高级操作来优化网站的抓取性能,则可以使用Kibana或Screaming Frog 的SEO 日志文件分析器工具。

Google 不会分享各种机器人使用的 IP 地址列表,因为这些地址经常更改。要查明是否有真正的 Googlebot 访问你的网站,可以进行反向 IP 查找。垃圾邮件发送者或伪造者可以轻松伪造用户代理名称,但无法伪造 IP 地址。以下是Google验证 Googlebot 有效性的示例。

你可以使用robots.txt 来确定 Googlebot 如何访问网站的各个部分。但是,如果以错误的方式执行此操作,可能会完全阻止抓取工具的访问。这会将你的网站从索引中删除。

Google 搜索控制台

Search Console 是检查网站可抓取性最重要的工具之一。在这里,你可以验证 Googlebot 如何查看你的网站。还可以获得需要修复的抓取错误列表。在 Search Console 中,还可以要求 Googlebot 重新抓取你的网站。

针对 Googlebot 进行优化

让 Googlebot更快地抓取你的网站 是一个相当技术性的过程,归根结底就是要消除阻止抓取工具正确访问网站的技术障碍。这是一个相当技术性的过程,但你应该熟悉它。如果 Google 无法完美地抓取你的网站,它就永远无法排名。找到这些错误并修复它们!

如何控制 Googlebot

Google 为你提供了几种控制抓取和索引内容的方法。

控制爬行的方法

  • txt  – 你网站上的此文件允许你控制抓取的内容。
  • Nofollow  – Nofollow 是一个链接属性或元机器人标签 ,建议不应关注某个链接。它仅被视为提示,因此可能会被忽略。
  • 更改你的抓取速度- Google Search Console 中的此工具 可让你减慢 Google 的抓取速度。

控制索引的方法

  • 删除内容 – 如果删除页面,则没有任何内容可供索引。这样做的缺点是其他人也无法访问它。
  • 限制对内容的访问 – Google 不会登录网站,因此任何类型的密码保护或身份验证都会阻止其查看内容。
  • Noindex  – 元机器人标签中的 noindex 告诉搜索引擎不要为你的页面建立索引。
  • URL 删除工具 – Google 给这个工具的名称有点误导,因为它的工作方式是暂时隐藏内容。 Google 仍会看到并抓取此内容,但这些页面不会出现在搜索结果中。
  • txt(仅限图像)  – 阻止 Googlebot 图像抓取意味着你的图像不会被编入索引。

如果你不确定应该使用哪种索引控件,请查看我们关于从 Google 搜索中删除 URL 的帖子中的流程图。

结论

Googlebot 是访问网站的小机器人。如果你为网站做出了技术上合理的选择,它就会经常访问。如果你定期添加新内容,它就会更频繁地访问。有时,每当你对网站进行大规模更改时,需要立即调用这个可爱的小爬虫,以便更改能够尽快反映在搜索结果中。

品牌关键词

联系我们

联系电话:13665461054 或者表单留言

谷歌快速排名秘诀

免费获取《谷歌快速排名秘诀-4.0》

---这些都是埃克森数字营销多年SEO总结而来的实践经验汇聚而成

请放心,我们只会偶尔发几封有干货的邮件,你的信息我们会严格保密。

注:订阅后请一定,一定,一定到您的邮箱中确认您的订阅,这样才能收到我们的《谷歌快速排名秘诀》!!!