robots.txt介绍

robots.txt概述

robots.txt是一个存放在网站根目录下的ASCII编码文件，用于告诉搜索引擎爬虫这个站点中有哪些内容是不应该被抓取的，哪些又是可以获取的。在爬取页面之前，爬虫会查看网站的robots.txt文件以确认不应该爬取的页面。robots.txt并非规范，而是约定俗成，有些爬虫机器人会遵守这一规范，有些则并不会。以下是Cloudflare对robots.txt的介绍：

Robots.txt 文件是针对机器人的一组指令。该文件包含在大多数网站的源文件中。Robots.txt 文件主要用于管理 Web 爬网程序类的良性机器人活动。
每个站点的robots.txt仅适用于所在协议、主机和端口号都相同的页面，Google对其解释如下：

robots.txt 文件仅适用于所在的协议、主机和端口内的路径。也就是说，https://example.com/robots.txt 中的规则仅适用于 https://example.com/ 中的文件，而不适用于子网域（如 https://m.example.com/）或备用协议（如 http://example.com/）。

robots.txt文件由一个或多个组组成，每个组都以User-agent开头，内容则由多条规则（指令）组成，每条规则占一行。
爬虫会从上到下处理组，一个用户代理（User-agent）仅能匹配一个组，如果同一用户代理有多个组，则会在处理之前讲这些内容合并到一个分组中。
规则的内容区分大小写
- 规则区分大小写。例如，disallow: /file.asp 适用于 https://www.example.com/file.asp，但不适用于 https://www.example.com/FILE.asp。
以#开头的行即为注释行，处理过程中会忽略这些内容。

使用Sitemap可以标记网站地图的所在位置，这个xml文件中通常包含需要被搜索引擎抓取、索引的所有页面。
1
Sitemap: https://www.domain.com/sitemap.xml
如果没有向搜索引擎主动提交网站地图，那么机器人可以Sitemap标识的网站地图快速获知需要被爬取的页面。
Sitemap一般写在robots.txt文件的开头或结尾，可以使用多条Sitemap标识多个sitemap.xml文件的路径。