Robots协议文件是什么,robots文件的作用是什么?
日期:2024-03-20 作者:攻硬营销
Robots.txt是网站管理员创建的文本文件,用于指示网络机器人,通常是搜索引擎机器人如何抓取其网站上的网页。robots.txt文件是机器人排除协议REP的一部分,该协议是一组Web标准,用于管理机器人如何抓取网络,访问和索引内容,以及将内容提供给用户。
REP还包括元机器人等指令,以及关于搜索引擎应如何处理链接。例如“跟随”或“nofollow”的页面,子目录或站点范围的说明。实际上,robots.txt文件指示某些用户代理,网络爬行软件是否可以抓取网站的某些部分。这些爬行指令通过“禁止”或“允许”某些或所有用户代理的行为来指定机器人抓取哪些内容。
基本格式:
用户代理【User-agent:】:用户代理名称【什么是User Agent?User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。】
禁止【Disallow: 】:不要抓取URL字符串【disallow是什么意思?是禁止任何蜘蛛抓取该网站的任何目录】
这两行被认为是一个完整的robots.txt文件,尽管一个机器人文件可以包含多行用户代理和指令(即,禁止,允许,爬行延迟等)。
在具有多个用户代理指令的robots.txt文件中,每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户。如果文件包含适用于多个用户代理的规则,则网络爬虫程序将遵循最具体的指令组。
以下是http://www.kelaiseo.com/robots.txt网站上robots.txt的几个示例:
User-agent: * 【允许所有搜索引擎访问网站所有内容】
Disallow: /plus/ad_js.php【禁止访问 /plus/ad_js.php这个文件夹的所有内容】
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
搜索引擎有两个主要工作:
1、抓取网络以发现内容。
2、索引该内容,以便可以向正在寻找信息的搜索者提供信息。
robots文件的作用:
1、可以屏蔽网站内一些打不开的链接,也就是死链接
2、可以屏蔽搜索引擎蜘蛛访问网站内重复的内容和重复的页面
3、阻止搜索引擎访问网站的隐私性的内容。
4、阻止搜索引擎访问网站的后台内容。
5、告诉搜索引擎那些内容是需要被访问的。指定爬网延迟,以便在爬网程序一次加载多个内容时防止服务器过载
6、防止搜索引擎索引您网站上的某些文件(图像,PDF等)
为了抓取网站,搜索引擎会从一个网站爬取到另一个网站的链接。最终会抓取数十亿个链接和网站。这种爬行行为有时被称为“蜘蛛”。到达网站后,在爬取网站之前,搜索爬虫会查找robots.txt文件。网络爬虫程序将在继续浏览页面之前首先读取该文件。由于robots.txt文件包含有关搜索引擎应如何抓取的信息,因此在此处找到信息指示特定网站上的进一步抓取操作。如果robots.txt文件并没有包含禁止用户代理活动的任何指示【或如果网站没有robots.txt文件】,网络爬虫会继续抓取网站上的其他信息。如果您的站点上没有要控制用户代理访问的区域,则可能根本不需要robots.txt文件。