上海robots文件指南大全!
robots.txt 文件是告诉搜索引擎它可以和不能进入您网站的主要方式之一,所有主要的搜索引擎都支持它提供的基本功能,但其中一些引擎响应一些额外的规则,这些规则也很有用。本指南涵盖了在您的网站上使用 robots.txt 的所有方法。
一、什么是 robots.txt 文件?
1、抓取指令
robots.txt 文件是许多抓取指令之一。我们有所有这些的指南,您可以在这里找到它们。
robots.txt 文件是由搜索引擎(和其他系统)读取的文本文件。robots.txt 文件也称为“机器人排除协议”,是早期搜索引擎开发人员达成共识的结果。它不是任何标准组织制定的官方标准;尽管所有主要搜索引擎都遵守它。
二、robots.txt 文件有什么作用?
1、缓存
搜索引擎通常会缓存 robots.txt 的内容,这样他们就不需要继续下载它,但通常每天会刷新几次。这意味着对指令的更改通常会很快反映出来。
搜索引擎通过抓取页面来发现网络并将其编入索引。当他们爬行时,他们会发现并跟踪链接。这会将它们从站点 A带到站点 B再到站点 C,依此类推。但是在搜索引擎访问 它以前从未遇到过的域中的任何页面之前,它会打开该域的 robots.txt 文件。这让他们知道他们可以访问该站点上的哪些 URL(以及不允许访问哪些 URL)。
三、应该把我的 robots.txt 文件放在哪里?
robots.txt 文件应始终位于您域的根目录下。因此,如果您的域是www.seozatan.com,则应该在https://www.seozatan.com/robots.txt
将 robots.txt 文件实际称为 robots.txt 也非常重要。该名称区分大小写,因此请正确使用,否则将无法正常工作。
三、使用 robots.txt 的利弊
1、优点:管理抓取预算
一般认为,搜索蜘蛛到达网站时,会根据网站的权限/规模/声誉预先确定“允许”抓取多少页面(或者,它将花费多少资源/时间,以及服务器响应的效率如何)。SEO 称其为爬行预算。
如果你认为你的网站有爬行预算的问题,从您的网站的不重要的部分“浪费”能源则阻止搜索引擎可能意味着他们转而关注其部分做的事。
有时阻止搜索引擎抓取您网站的问题部分可能是有益的,尤其是在必须进行大量 SEO 清理的网站上。整理好东西后,就可以让它们放回原处了。
2、关于阻塞查询参数的说明
爬网预算特别重要的一种情况是您的站点使用大量查询字符串参数来过滤或排序 列表。假设您有 10 个不同的查询参数,每个参数都有不同的值,可以任意组合使用(例如多色和尺码的T 恤)。这会导致许多可能的有效 URL,所有这些 URL 都可能被抓取。阻止查询参数被抓取将有助于确保搜索引擎只抓取您网站的主要 URL,而不会陷入您否则会创建的巨大陷阱。
3、缺点:不从搜索结果中删除页面
即使您可以使用 robots.txt 文件告诉蜘蛛它不能在您网站上的哪个位置,您 也不能 使用它告诉搜索引擎不要在搜索结果中显示哪些网址 - 换句话说,阻止它不会阻止它被索引。如果搜索引擎找到足够多的指向该 URL 的链接,它将包含它,它只是不知道该页面上有什么。所以你的结果会是这样的:
如果您想可靠地阻止页面显示在搜索结果中,则需要使用元机器人 noindex标签。这意味着,为了找到noindex标签,搜索引擎必须能够访问该页面,所以 不要 用 robots.txt 阻止它。
四、无索引指令
过去可以在 robots.txt 中添加“noindex”指令,从 Google 的搜索结果中删除网址,并避免出现这些“片段”。这不再受支持(从技术上讲,从来没有)。
1、缺点:不传播链接值
如果搜索引擎无法抓取页面,则它无法在该页面上的链接之间传播链接值。当一个页面被 robots.txt 阻止时,它就是一个死胡同。任何可能流入(并通过)该页面的链接值都将丢失。
五、搜索引擎蜘蛛最常见的用户代理
以下是您可以在 robots.txt 文件中用于匹配最常用搜索引擎的用户代理列表:
-
搜索引擎场地用户代理
-
百度一般baiduspider
-
百度图片baiduspider-image
-
百度移动的baiduspider-mobile
-
百度消息baiduspider-news
-
百度视频baiduspider-video
-
必应一般bingbot
-
必应一般msnbot
-
必应图像和视频msnbot-media
-
必应广告adidxbot
-
谷歌一般Googlebot
-
谷歌图片Googlebot-Image
-
谷歌移动的Googlebot-Mobile
-
谷歌消息Googlebot-News
-
谷歌视频Googlebot-Video
-
谷歌广告Mediapartners-Google
-
谷歌广告词AdsBot-Google
-
雅虎!一般slurp
-
Yandex一般yandex
六、禁止指令
任何指令块中的第二行都是该Disallow行。您可以使用这些行中的一行或多行,指定指定蜘蛛无法访问站点的哪些部分。空Disallow行意味着您没有禁止任何内容,因此基本上这意味着蜘蛛可以访问您网站的所有部分。
下面的示例将阻止所有“监听”robots.txt 的搜索引擎抓取您的网站。
用户代理:* 禁止:/
仅少一个字符,下面的示例将 允许 所有搜索引擎抓取您的整个网站。
用户代理: * 禁止:
下面的示例将阻止 biadu 抓取Photo您网站上的目录 - 以及其中的所有内容。
用户代理:biadu 禁止:/照片
这意味着目录的所有子目录/Photo也不会被爬取。它 不会 阻止 biadu 抓取/photo目录,因为这些行区分大小写。
这也会阻止 biadu 访问包含 的 URL /Photo,例如/Photography/.
七、如何使用通配符/正则表达式
“官方”,robots.txt 标准不支持正则表达式或通配符,但是,所有主要搜索引擎都理解它。这意味着您可以使用这样的行来阻止文件组:
禁止:/*.php 禁止:/copyrighted- images /*.jpg
在上面的例子中,*扩展为它匹配的任何文件名。请注意,该行的其余部分仍然区分大小写,因此上面的第二行不会阻止被调用的文件/copyrighted-images/example.JPG被抓取。
一些搜索引擎(如 Google)允许使用更复杂的正则表达式,但请注意,一些搜索引擎可能无法理解此逻辑。添加的最有用的功能是$,它表示 URL 的结尾。在以下示例中,您可以看到它的作用:
禁止:/*.php$
这意味着/index.php不能被索引,但/index.php?p=1 可以 被索引。当然,这仅在非常特定的情况下才有用,而且非常危险:很容易解除您实际上不想解除封锁的事物。
八、XML 站点地图的站点地图指令
使用该sitemap指令,您可以告诉搜索引擎(特别是baidu、Bing、Yandex 和 Google)在哪里可以找到您的 XML 站点地图。当然,您也可以使用各自的网站管理员工具解决方案将您的 XML 站点地图提交给每个搜索引擎,我们强烈建议您这样做,因为搜索引擎网站管理员工具程序将为您提供有关您网站的许多有价值的信息。如果您不想这样做,sitemap在 robots.txt 中添加一行是一个不错的快速选择。
站点地图:https://www.seozatan.com/sitemap.xml