优选文章

Robots.txt(搜索引擎抓取协议)

Share on facebook
Share on twitter
Share on linkedin
Share on email
robotx.txt

文章目录

robots.txt

什么是Robots.txt?

Robots.txt 是一个网站文件,它告诉搜索引擎蜘蛛不要抓取网站的某些页面或某些部分。大多数主流搜索引擎(包括谷歌、必应和雅虎)都承认并尊重 Robots.txt 请求。

为什么Robots.txt很重要?

大多数网站不需要 robots.txt 文件。

因为谷歌通常可以找到并索引你网站上所有重要的页面。

并且它们会自动不索引不重要的页面或者重复内容页面。

使用 robots.txt 文件有三个主要原因。

阻止非公开页面被搜索引擎索引: 有时你的网站上有不希望被索引的页面。例如,可能有一个网页的临时版本。或者登录页面。这些页面需要存在。但是你不希望其他人到这些页面上来。在这种情况下,你可以使用 robots.txt 来阻止搜索引擎爬虫和机器人访问这些页面。

最大化抓取预算: 如果你很难把所有页面都编入索引,那么你可能会遇到抓取预算问题。通过使用 robots.txt 屏蔽不重要的页面,让谷歌机器人可以花费更多的预算在真正重要的页面上。

防止对资源进行索引: 使用元指令可以像 Robots.txt 一样防止页面被索引。然而,元指令对于多媒体资源并不能有效地工作,比如 pdf 和图片。这就是 robots.txt 发挥作用的地方。

总之:Robots.txt 告诉搜索引擎蜘蛛不要在你的网站上抓取特定的页面。

你可以在谷歌搜索控制台中检查你网站已经索引了多少页面。

谷歌搜索控制台已经索引的页面

如果这个数字与你希望索引的页面数量相匹配,则不需要使用 Robots.txt 文件。

但是,如果这个数字高于你的预期(并且你注意到已索引的 url 中有很多不应该被索引) ,那么是时候为你的网站创建一个 robots.txt 文件了。

最佳实践

创建 Robots.txt 文件

你的第一步是为你的网站创建一个 robots.txt 文件。

作为一个文本文件,你可以使用 Windows 记事本创建一个。

无论最终如何制作 robots.txt 文件,其格式都是完全相同的:

User-agent: X
Disallow: Y

User-agent是你正在与之对话的特定搜索引擎机器人。

“Disallow”后面的内容都是你想要屏蔽的页面或部分。

例如:

User-agent: googlebot
Disallow: /images

这条抓取协议会告诉谷歌机器人不要索引你网站图片。

你也可以使用星号(*)来代表正在和你网站对话的任何搜索引擎机器人。

例如:

User-agent: *
Disallow: /images

这条抓取协议会告诉任何和所有搜索引擎蜘蛛不要索引你网站的图片文件。

这只是使用 robots.txt 文件的众多方法之一。这个来自谷歌的指南有更多关于robots.txt的详细信息,你可以使用不同的规则来阻止或允许抓取机器人从你网站读取不同页面。

搜索引擎抓取规则

使你的 Robots.txt 文件容易找到

一旦你有了 robots.txt 文件,就可以让它上线了。

从技术上讲,你可以把 robots.txt 文件放在网站的任何主目录中。

但是为了增加找到 robots.txt 文件的几率,埃克森数字营销建议把它放在:

https://example.com/robots.txt

(注意 robots.txt 文件是区分大小写的,所以一定要在文件名中使用小写的“ r”)

检查错误

正确地设置 robots.txt 文件非常重要。一个错误可能会导致整个站点被取消索引。

谷歌有一个专门的机器人测试工具,你可以使用:

它会向你显示 robots.txt 文件… 以及它发现的任何错误和警告:

正如你所看到的,我们阻止蜘蛛爬行我们的 WP 后台管理页面。

Robots.txt VS. 元指令(Meta Directives)

既然可以使用“ noindex”元标记在页面级别组织页面被索引,为什么还要使用 robots.txt 呢?

有三种情况下,应该使用robots.txt文件: 

  • 正如埃克森数字营销上面内容中讲过的,noindex 标记很难在多媒体资源(如视频和 pdf文件)上实现。
  • 此外,如果你有成千上万的页面需要屏蔽索引,有时候用 robots.txt 屏蔽整个页面比手动添加 noindex 标签更容易。
  • 还有一些边缘情况,你不想谷歌蜘蛛浪费任何抓取预算在带有 noindex 标签的页面上。还是尽量使用robots.txt吧。

在这三种边缘情况之外,董哥建议使用 meta 指令而不是 robots.txt。它更容易实现。而且误操作导致整站被取消索引的可能性也更小。

了解更多

了解 robots.txt 文件: 关于如何使用和解释 robots.txt 的有用指南。

什么是 Robots.txt 文件?(SEO + 关键因素概述) : 一个关于 robots.txt 不同使用案例的视频,全程干货无废话。

Share on facebook
Share on twitter
Share on linkedin
Share on email

发表评论

You have to agree to the comment policy.

谷歌快速排名秘诀

订阅邮件,免费获取《谷歌快速排名秘诀-4.0》
(2021-9-23更新)

请放心,董哥只会偶尔发几封有干货的邮件,你的信息我们会严格保密。