Robots作用和写作方法
大家好,因为昨晚帮别人弄电脑比较晚,所以昨晚的博文今天早上来发。
大家一定在想,蜗牛seo? 你分享了很久的破文章,虽然有点和谐seo但没有一个是真的seo的东西!所以今天蜗牛开始和大家分享真相 “做”seo的东西。今天蜗牛和大家分享的是第一个在开始做网站的时候应该理解的东东,也是蜘蛛第一个访问一个网站的东东。一定有人猜出是什么 东了吧。对,就是Robots作用和写作方法。
下面就听 蜗牛seo 说说吧!
一??? 什么是robots?有什么用?
“Robots萝卜丝被一些同龄人称为萝卜丝,是搜索引擎的机器协议。全称为网络爬虫排除协议。网站通过Robots协议告诉搜索引擎哪些页面可以捕获,哪些页面不能捕获。
因为如果抓取网站的许多目录是有风险的,或者因为利益而不能抓取,你需要告诉蜘蛛侠你的网站是否允许。
Robots是放在网站根目录下面,名称为:robots.txt
二??? Robot指令是什么?
Robots 的指令很简单,只有三个指令,一般我们也会把地图放在上面,方便蜘蛛进站抓完Robots直接沿着地图爬。
User-agent: 该指令定义了该指令下面的内容对蜘蛛有效。默认情况下,所有蜘蛛都被允许捕获。如果该指令指定了特定的蜘蛛,则该指令下的内容对特定的蜘蛛有效。
Disallow: 这个指令定义了蜘蛛被禁止捕获的原因,有些人可能认为网站当然希望被捕获。错了,如果是背景或隐私文件,我相信没有人愿意被捕获。
Allow: 该指令定义了允许蜘蛛捕捉的内容。如果允许某些内容和所有其他内容被拒绝,则可以使用该指令。大多数网站只使用禁止指令。
Sitemap: 顾名思义,就是我们常说的网站地图。这里我们就不详细介绍网站地图了,蜗牛WEO下一节会详细介绍给大家 站点地图? 功能和用法。我们把网站地图放在Robots下面,蜘蛛可以直接访问Robots访问你的地图位置。
三??? Robots的写法
1??? User-agent: 用来定义蜘蛛名:常见的蜘蛛名包括:Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider。
2??? Disallow:
用来定义蜘蛛不允许抓取的内容,robots最难用,最常见的问题是Disallow指令。或整个robots本质在于Disallow,学好这个指令的用法,就能写出完美的。Robots.接下来,我将使用我们最常用的一些Disallow列出用法。
全站禁止抓:
Disallow: /
禁止按目录下woniuseo目录抓取:
Disallow: /woniuseo/
禁止按目录下woniuseo单页在目录下woniuseo.html被抓取:
Disallow:/woniuseo/woniuseo.html
全站禁止包含?抓取页面:
Disallow: ?/*?*
全站禁止包含woniuseo抓取页面:
Disallow: ?/*woniuseo*
禁止全站后缀.aspx抓取页面:
Disallow:? /*.aspx$
禁止全站后缀.jpg抓取文件:
Disallow:/*.jpb$
3. Allow:
允许命令一般不单独拿来使用,允许命令一般是先允许某个目录被抓取,然后再禁止其它所有页面被抓取。
允许所有页面被捕获:
Allow: /
允许woniuseo抓取目录:
Allow: /woniuseo/
允许抓取.html的页面:
Allow: /*.html$
允许抓取.jpg的图片:
Allow: /*.jpg$
四??? Robots的应用
蜗牛自己的网站robots文件是这样写的:User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /tag/Disallow: /wp-config.phpAllow: /
sitemap:http://www.woniuseo.com/sitemap.xml
禁止所有搜索引擎抓取所有页面:User-agent: *
Disallow: /
禁止百度蜘蛛抓取所有页面:User-agent: Baiduspider
Disallow: ?/
由于与百度的利益,淘宝自2008年以来就禁止百度抓取其所有页面。
只允许百度蜘蛛抓取所有页面:User-agent: Baiduspider
Allow: ?/
User-agent: *
Disallow: /
禁止所有蜘蛛抓取特定的目录和页面,允许其他所有:User-agent: *
Disallow: ?/sys-admin/
Disallow:? /aboutwoniu.html
Allow: ?/
只允许蜘蛛抓.html的页面与.jpg的图片:User-agent:*
Allow: /*.html$
Allow: /*.jpg$
Disallow:/
禁止捕获所有动态页面,允许其他页面:User-agent: *
Disallow:? /*?*
Allow:? /
允许在某个目录下捕获某个目录,禁止其他目录User-agent: *
Disallow:/woniuseo/
五??? 关于robots网络事件
淘宝封杀2008年9月8日,淘宝宣布禁止百度爬虫,百度不情愿地遵守了爬虫协议。因为一旦协议被破坏,用户的隐私和利益就无法得到保障,搜索网站也无法谈论人性关怀
京东封杀2011年10月25日,京东商城正式屏蔽了一淘网的搜索爬虫,防止一淘网抓取其内容。
BE违规抓取Evay美国BE拍卖公司无视Ebey公司网站 robots协议终于在2000年2月被告上法庭,最终被判刑Be侵权。
360搜索无视robots协议360综合搜索于2012年8月被指控违反robots该协议被业界指为违规警告。
如果您在阅读上述指令后有任何疑问,请访问蜗牛seo留言或直接加入博客 蜗牛seo.cn/tag/seoboke/ target=_blank class=infotextkey>seo博客 找博主看大家的官方群Disallow该怎么写才对?关于Robots有很多用法,蜗牛seo 这里不能一一列举。如果你是对的Robots还有疑问。请访问蜗牛seo.cn/tag/seoboke/ target=_blank class=infotextkey>seo博客”。在这里,我会给大家量答案。此外,我将在我的博客中分享更多seo相关知识,希望能对大家有所了解seo道路有一点帮助。
以上就是Robots作用和写作方法的全部内容,