5个月前 (06-03)  SEO优化 |   抢沙发  25 
文章评分 12 次,平均分 5.0

robots.txt是一个纯文本文件,在这个文件中网站管理复者可以声明该网站中不想被robots访问的部分制,或指定搜索引擎只收录指定的内容。当一个搜索引擎蜘蛛(或者搜索引擎机器人等)访问我们的站点时,首先都会检查该站点根目录下是否存在robots.txt文件,如果存在,搜索引擎蜘蛛就会按照该文件中的内容设定来确定访问的范围。如果该文件不存在,那么搜索机器人就会顺着网站链接直接抓取。

其实我们大部分站长使用robots.txt的主要作用是告诉搜索引擎蜘蛛或者爬虫网站下哪些内容可以抓取,哪些内容不能抓取。网站可以没有robots.txt文件,搜索引擎蜘蛛默认会抓取网站的所有页面内容或者文件,对搜索引擎爬虫没有任何的影响,但是如果大家想控制蜘蛛的检索间隔时间,就必须用robots.txt来控制。

SEO优化之详解robots.txt及基本用法

robots.txt其实并不是一种规范,而是约定俗成的爬取规则,一般主流的搜索引擎蜘蛛都是遵循robots.txt的规则来索引页面,但是某些不正规的爬虫不会遵循,所以说robots.txt对正规的搜索引擎有效,对一些灰色的搜索引擎无效,如果网站目录下有私密文件,博主建议设置密码或者登陆用户才能访问。

robots.txt文件内容应该如何编辑呢?格式又是什么样呢?博主跟大家举个例子:还是用宝塔面板来创建一个名为robots.txt的纯文本文件。如果我们禁止所有搜索引擎访问网站的所有部分的话

User-agent: *

Disallow: /

如果我们需要某一个搜索引擎的抓取的话,比如百度,禁止百度索引我们的网站的话

User-agent: Baiduspider

Disallow: /

如果我们禁止Google索引我们的网站的话,其实跟示例3一样,就是User-agent:头文件的蜘蛛名字改成谷歌Googlebot即可

User-agent: Googlebot

Disallow: /

如果我们禁止除Google外的一切搜索引擎索引我们的网站话

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

如果我们禁止除百度外的一切搜索引擎索引我们的网站的话

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

如果我们需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引的话

User-agent: *

Disallow: /css/

Disallow: /admin/

Disallow: /images/

如果我们允许蜘蛛访问我们网站的某个目录中的某些特定网址的话

User-agent: *

Allow: /css/my

Allow: /admin/html

Allow: /images/index

Disallow: /css/

Disallow: /admin/

Disallow: /images/

 

 

除特别注明外,本站所有文章均为叶荣添原创,转载请注明出处来自https://www.wzxiaolou.com/149.html

关于

发表评论

表情 格式

暂无评论

切换注册

登录

忘记密码 ?

切换登录

注册

您是第 2200 位访客, 您的IP是:[35.168.62.171]