外链代发包收录,纯手工外链代发就找老客外链吧

站长新闻

您的位置:老客外链吧 > 站长新闻 > SEO >

robots.txt协议的写法,对其SEO的作用

文章来源:老客SEO 作者:老客SEO 人气:10 时间2019-10-18 09:00:59

f04da2db11220faeba191b

1,robots.txt是什么鬼?

我们都知道txt是纯文本的意思,而robots是机器人的意思,所以robots.txt文件就是给机器人看的,那么也就是给我们搜索引擎蜘蛛看的;robots.txt遵循的一个规范文本,它告诉搜索引擎(Google、百度、360、搜狗等)哪些网页可以抓取,那些网页不可以抓取。蜘蛛 spider(Googlebot/Baiduspider)来抓取你的网站页面的时候,会首先访问你的网站/robots.txt路径看是否存在,如果没有则全站抓取,否则按照设置规则进行抓取和索引。

比如:淘宝的robots.txt规则:                                

User-agent: Baiduspider                                                                

Disallow: /                                                                                          

User-agent: baiduspider                                                                    

Disallow: /

它的意思就是屏蔽百度蜘蛛的抓取;    

 

2,robots.txt作用

(1)、屏蔽一些死链,屏蔽一些关于网站后台,内部信息,会员资料的页面,对网站的隐私有明显的保护效果;比如前几年淘宝的支付宝用户信息泄露事件,一时间许多用户的资料都在谷歌搜索页面出现,支付宝也怪不了goole,所以后来淘宝屏蔽了搜索引擎的全站抓取。

(2)屏蔽动态页面,比如我们通过url重写将动态网址静态化为永久固定链接之后,就可以通过robots.txt设置权限,阻止Google或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,SEO优化起到了很明显的作用,重复页面多了必定给搜索引擎不好的印象!

3,robots.txt存放位置:

一般我们创建好robots.txt直接上传到网站根目录下面,放于其他目录均为无效;因为一个robots.txt只能控制相同协议,相同端口,相同站点的网页抓取策略。

4,robots.txt的写法:

规则语句:(1)User-agent:指定对哪些爬虫生效(Google的spider是“Googlebot”,百度是“Baiduspider”);(2)Disallow:指定要屏蔽的网址  Allow:指明允许spider访问和索引的目录;

通配符:*匹配任意个字符;/要拦截的网页(例如Disallow/要屏蔽整个网站的意思);$匹配url结束

可能上面大家看得模糊;下面我们举例说明:

禁止Google/百度等所有搜索引擎访问整个网站

User-agent: *
Disallow: /

只允许Google spider: Googlebot访问您的网站,禁止百度等其他搜索引擎

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

使用美元符号”$”设置禁止访问某一后缀的文件
   (只允许访问以”.html”格式的网页文件。)

User-agent: *
Allow: .html$
Disallow: /

阻止google、百度等所有搜索引擎访问网站中所有带有?的动态网址页面

User-agent: *
Disallow: /*?*

5,robots.txt正确与否的检查:

登陆百度站长平台,侧栏找到robots,选择自己的网站,点击检测并更新!如下图所示:文件生效则说明规则写入正确!

QQ截图20160131202441

总结:robots.txt 协议对于新站长来说有点陌生有点难度,要掌握这种写法是需要花时间来操练的;需要熟记规则。说一个题外话题:robots.txt可能没有太大的作用甚至对于某些站来说根本没有任何价值,但是作为一名合作的SEO 合格的站长我们必须掌握懂得!

联系我们

在线服务 外链咨询 二维码

扫码添加微信:juxia_com