网站优化robots.txt的原理与设置

来源：www.hunanwangzhan.com 发表时间：2021-09-15 作者：网站建设

Jun
2015

【导语】现在，简洁的设计已经成为一些网站的主流，网站简洁不是简单，虽然这种风格的网站给人看着相对简单，但经过一些其它图片或元素的组合，会给网站带来一种大气的感觉，所以，一个简洁的网站可以最大化的提升用户体验。

做过网站优化的朋友都知道，搜索引擎蜘蛛爬行抓取网站时首先会去访问根目录下的robots.txt文件，如果robots文件存在，则会根据robots文件内设置的规则进行爬行抓取，如果文件不存在则会顺着首页进行抓取，那么robots文件的工作原理是什么呢？如何对robots.txt文件进行设置

一、robots.txt的工作原理

robots.txt是一个纯文本的文件，文件的名字必须全部小写，并且放置在网站的根目录下面，通过文件中的规则声明网站哪些内容不想被搜索引擎蜘蛛抓取收录，或者指定某个搜索引擎不能收录robots.txt也叫做爬虫协议，遵循爬虫协议的搜索引擎蜘蛛，都会根据协议的内容对网站进行爬虫抓取的。

二、robots.txt的设置

1.User-agent的设置

在"robots.txt"文件中，如果有多条 User-agent 记录说明有多个 robot 会受到"robots.txt"的限制，对该文件来说，至少要有一条 User-agent 记录。如果该项的值设为*，则对任何 robot均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。

2.Disallow的设置

这个值可以是一条完整的路径，也可以是路径的非空前缀，以 Disallow 项的值开头的URL不会被 robot 访问。

3.Allow的设置

与 Disallow 项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以 Allow项的值开头的 URL是允许robot访问的。

合理的运用robots.txt文件对网站优化能起到很大的作用，比如当网站出现死链的时候，可以通过robots.txt文件进行屏蔽，这样就不会影响到网站的排名，另外还可以在robots.txt添加网站地图URL，能有效的帮助搜索引擎蜘蛛对网站内容的爬行抓取。

上一篇：学习网页设计需要注意哪些方面的问题

下一篇：企业网站如何优化才能提升网站权重

网站优化robots.txt的原理与设置

151 7314 0967