Robots协议文件是什么,robots文件的作用是什么?

日期：2024-03-20 作者：攻硬营销

Robots.txt是网站管理员创建的文本文件，用于指示网络机器人，通常是搜索引擎机器人如何抓取其网站上的网页。robots.txt文件是机器人排除协议REP的一部分，该协议是一组Web标准，用于管理机器人如何抓取网络，访问和索引内容，以及将内容提供给用户。

REP还包括元机器人等指令，以及关于搜索引擎应如何处理链接。例如“跟随”或“nofollow”的页面，子目录或站点范围的说明。实际上，robots.txt文件指示某些用户代理，网络爬行软件是否可以抓取网站的某些部分。这些爬行指令通过“禁止”或“允许”某些或所有用户代理的行为来指定机器人抓取哪些内容。

基本格式：

用户代理【User-agent:】：用户代理名称【什么是User Agent?User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。】

禁止【Disallow: 】：不要抓取URL字符串【disallow是什么意思？是禁止任何蜘蛛抓取该网站的任何目录】

这两行被认为是一个完整的robots.txt文件，尽管一个机器人文件可以包含多行用户代理和指令(即，禁止，允许，爬行延迟等)。

在具有多个用户代理指令的robots.txt文件中，每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户。如果文件包含适用于多个用户代理的规则，则网络爬虫程序将遵循最具体的指令组。

以下是http://www.kelaiseo.com/robots.txt网站上robots.txt的几个示例：

User-agent: * 【允许所有搜索引擎访问网站所有内容】

Disallow: /plus/ad_js.php【禁止访问 /plus/ad_js.php这个文件夹的所有内容】

Disallow: /plus/advancedsearch.php

Disallow: /plus/car.php

Disallow: /plus/carbuyaction.php

Disallow: /plus/shops_buyaction.php

Disallow: /plus/erraddsave.php

Disallow: /plus/posttocar.php

Disallow: /plus/disdls.php

Disallow: /plus/feedback_js.php

Disallow: /plus/mytag_js.php

Disallow: /plus/rss.php

Disallow: /plus/search.php

Disallow: /plus/recommend.php

Disallow: /plus/stow.php

Disallow: /plus/count.php

Disallow: /include

Disallow: /templets

搜索引擎有两个主要工作：

1、抓取网络以发现内容。

2、索引该内容，以便可以向正在寻找信息的搜索者提供信息。

robots文件的作用：

1、可以屏蔽网站内一些打不开的链接，也就是死链接

2、可以屏蔽搜索引擎蜘蛛访问网站内重复的内容和重复的页面

3、阻止搜索引擎访问网站的隐私性的内容。

4、阻止搜索引擎访问网站的后台内容。

5、告诉搜索引擎那些内容是需要被访问的。指定爬网延迟，以便在爬网程序一次加载多个内容时防止服务器过载

6、防止搜索引擎索引您网站上的某些文件(图像，PDF等)

为了抓取网站，搜索引擎会从一个网站爬取到另一个网站的链接。最终会抓取数十亿个链接和网站。这种爬行行为有时被称为“蜘蛛”。到达网站后，在爬取网站之前，搜索爬虫会查找robots.txt文件。网络爬虫程序将在继续浏览页面之前首先读取该文件。由于robots.txt文件包含有关搜索引擎应如何抓取的信息，因此在此处找到信息指示特定网站上的进一步抓取操作。如果robots.txt文件并没有包含禁止用户代理活动的任何指示【或如果网站没有robots.txt文件】，网络爬虫会继续抓取网站上的其他信息。如果您的站点上没有要控制用户代理访问的区域，则可能根本不需要robots.txt文件。

上一篇：如何查看网站的爬虫协议?robots协议怎么查看

下一篇：Robots协议文件怎么写？robots文件放在哪里？

Robots协议文件是什么,robots文件的作用是什么?

相关推荐