欢迎来到 0713网站目录
登录

注:以下BaiDuSpider等于百度蜘蛛、Googlebot等于google蜘蛛、Sogou Spider等于搜狗蜘蛛



一、问题

因某些原因,搜索引擎蜘蛛抓取网站占用很大流量,如图:

网站访问日志也可看见很多蜘蛛爬行记录。


如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则网站在百度等搜索引擎中的收录和排名将会丢失,造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器(不限流量)。



二、认识、学习

我们知道,搜索引擎都遵守互联网robots协议,可通过robots.txt来进行限制。先对robots.txt一些实例说明,然后根据上面网站情况进行规则设置,通过上面截图可以看出BaiDuSpider占用流量非常大,首先在网站跟目录下面建立一个robots.txt文件。

1. 禁止所有搜索引擎访问网站的任何部分 

  User-agent: * 

Disallow: / 

2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file) 

  User-agent: * 

  Allow: 

3. 禁止某个搜索引擎的访问(禁止BaiDuSpider

  User-agent: BaiDuSpider 

Disallow: / 

4. 允许某个搜索引擎的访问 

  User-agent: Baiduspider 

allow:/ 

5.禁止二个目录搜索引擎访问

    User-agent: *

Disallow: /admin/

Disallow: /install/

6. 仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /

7. 禁止百度搜索引擎抓取你网站上的所有图片

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

三、     问题解决(规则设置)

根据以上实例,经过分析网站日志,主要是百度抓取图片占用了流量,他还有两个目录也不希望搜索引擎抓取,设置规则如下解决:

User-agent: *
Disallow: /admin/
Disallow: /install/

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

因为搜索引擎索引数据库的更新需要时间。虽然蜘蛛已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。也就是说设置限制之后日志还会看见蜘蛛爬行,逐渐会降低抓取直到完全生效,这种问题会持续一段时间。如果您需要尽快屏蔽,访问以下帮助中心进行投诉,搜索引擎就会较快处理。

 

如果设置后无效(或部分蜘蛛不遵守robots协议,可以用:使用伪静态规则拦截蜘蛛访问 http://www.west.cn/faq/list.asp?unid=662 )

 

四、Baiduspider抓取次数太多造成的带宽堵塞,影响网站正常访问如何解决?

访问百度站长工具http://zhanzhang.baidu.com/ ,注册用户名登录,先添加网站通过验证。


然后到网页抓取》抓取频次》当前抓取频次过大如何解决?提示内容:

您可以按照如下方法依次进行排查及解决频次过大问题:

1、如果您觉得Baiduspider 抓取了您认为的无价值链接, 请更新网站robots.txt进行屏蔽抓取,然后到robots工具页面操作生效。

2、如果Baiduspider的抓取影响了您网站的正常访问,请到抓取频次上限调整页面进行抓取频次上限下调。

3、若以上方法均不能解决问题,请到反馈中心反馈


建议采用第二个方法,调整百度抓取频次上限。以下截图为“频次上限调整页面”,如影响访问,可把值适当调整小。

1.png


 

五、     知识加强

为更详细了解蜘蛛爬行原理和robots.txt写法,建议详细阅读以下标准资料:

其他办法: 使用伪静态规则拦截蜘蛛访问  http://www.west.cn/faq/list.asp?unid=662

BaiDuSpider帮助中心    http://www.baidu.com/search/spider.html

Googlebot帮助中心    http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=182072

Sogou Spider帮助中心  http://www.sogou.com/docs/help/webmasters.htm

Robots.txt 详细介绍:http://baike.baidu.com/view/1280732.htm

baidu提供标准robots.txt写法:http://www.baidu.com/search/robots.html



如果按流程禁止了百度蜘蛛访问但是仍有百度蜘蛛访问的,请直接反馈给百度公司调查处理:
http://tousu.baidu.com/webmaster/suggest 

http://zhanzhang.baidu.com/feedback/index 


特别提示:

推荐

最新

最新文章

Linux系统下已经设置只读文件还是被修改的解决办法
驾考新“捷径”?注意“免考包过”的诈骗陷阱!
不刷牙睡觉VS不刷牙吃早餐,哪个更伤身?答案出乎意料
[原创]批量替换网站程序中的gotoip域名
爱干净的你,这些卫生“好习惯”可能正在“偷”走你的健康!这3个看似偷懒的行为其实没毛病!
网站被反向代理方式镜像处理方法
刘诗诗|绝美
好消息!确定国内 eSIM 要来,但这些设备不能用
地产海报|围炉煮茶活动海报
如何禁用危险的http方法,如TRACE,OPTIONS
虚拟主机设置mime类型(json不能使用需设置)
西部数码网站搭建步骤
李兰迪|壁纸
discuz、ecshop、帝国cms部署https(ssl)后会员无法登录
𝗦𝗵𝗮𝗿𝗲 | 秦岚高清壁纸
壁纸 | 张碧晨抹胸鱼尾裙写真
为什么访问网站的时候,网址后面出现随机?jdfwkey=0plwb1字符,是否影响正常访问?
网站没排名:为什么网站在Google上没有排名?
[原创]织梦程序(DeDeCms)常见问题集锦
谷歌SEO外链怎么做?18种高质量外链建设指南(含实操方法)

猜你想看

6问微服务到底靠不靠谱?
住酒店时“最脏”的5样东西,听一个内部员工说的,能不碰就别碰
这家民宿就在怀柔,与自然融为一体美爆了,我住过一次就不想走了
盐煎肉和回锅肉,区别到底在哪里?大厨为你分享,咸辣适中又入味
职场干货!从零开始,才能接近问题的真相
IT业仍是应届本科生第二大就业领域,但收入优势已缩小
姨妈期,究竟要不要喝红糖水
红酒别再直接喝了,学会这样做,入秋后露一手,家人朋友都爱喝
6年换车和开到报废,哪个划算?帮你算清这笔账
为什么雨有味道?
调肉馅饺子,牢记“3放2不放”,保证饺子鲜嫩可口,营养又解馋
逆水寒手游平民职业推荐,0氪玩什么职业好,泡服神游官网
劳动合同的期限分为哪几种?
买更贵的火花塞能提升动力吗?
一分钟就能快速入睡的小窍门,你也来试试?
一款安神有助睡眠的汤,对用脑过度、记忆力下降的高考生有良效
冬天开车上路,你还在预热5分钟吗?可千万别!
40岁的女性开始缴纳社保,怎么样缴纳,才能获得较高的养老金?
《逆水寒手游》杨雄石秀任务,喂饭级攻略
首保后到底要不要继续在4S店保养?是按里程去还是按时间去保养?