1. 首页
  2. SEO优化教程
  3. SEO优化理论
  4. 百度搜索引擎:网站爬取工作压力的方法!

百度搜索引擎:网站爬取工作压力的方法!

近期百度站长俱乐部的Lee发了一篇,关于百度蜘蛛(Baidu spider)抓取失败导致流量流失的原因和影响,感觉很有借鉴意义。下面是原文: 首先说明,spider的抓取失败分为两种:百度自身系统问题、外界站长问题。 这里主要是和各位站长的交流,所以着重说下“外界站长问题”导致的抓取失败,并且影响到站点从百度获得的流量问题。 目前百度spider 系统中能够统计到的失败分为几种: 1, UA/IP封禁 对于百度的

  最近百度站长工具俱乐部队的Lee发过一篇,有关百度爬虫(Baiduspider)爬取不成功造成 总流量外流的缘故和危害,觉得很有效仿实际意义。下边是全文:

  最先表明,spider的爬取不成功分成二种:百度搜索本身系统软件难题、外部网站站长难题。

  这儿主要是和诸位网站站长的沟通交流,因此主要说下“外部网站站长难题”造成 的爬取不成功,而且危害到网站从百度搜索得到的总流量难题。

  现阶段百度搜索spider系统软件中可以统计分析到的不成功分成几类:

  1,UA/IP禁封

  针对百度搜索的ua或是IP开展禁封,会造成 百度搜索不可以取得成功爬取您的网站,进而不可以取得成功爬取新网页页面,及其将以前早已捉到的网页页面判断为死链接,并会开展清除,那样最后造成 网站得到的总流量降低。除此之外,还会继续有一些假冒百度搜索spider的爬取和收集,能够应用DNS查取方法来明确爬取来源于的ip是不是归属于百度搜索,避免 误禁封。

  参考文献:Baiduspider普遍常见问题

  2,工作压力过大的不经意禁封

  最先,大家会依据网站的经营规模,浏览量等信息内容,创建一个有效的网站爬取工作压力。可是会出现一些列外,在工作压力操纵不太好的状况下,网络服务器会依据本身负载开展防御性的不经意禁封,针对那样的状况,假如工作压力过大,请在回到码中尽可能不必应用404,提议回到503(其含意是“ServiceUnavailable”)。那样百度搜索spider会一段时间再说试着爬取这一连接,假如哪个時间网站空余,那它便会被取得成功爬取了。

  3,网站服务项目不稳定&拆换服务项目

  尽可能的确保您的网址平稳,假如必须临时换服务项目,必须临时让旧服务项目可以应用一段时间,而且做301跳转,尽量避免重做产生的总流量损害。尽管百度搜索spider如今对301跳转的回应周期时间较长,但大家還是强烈推荐大伙儿那么做。

  除开之上详细介绍的典型性禁封,也有一些别的非典型的,例如:refer、ua舞弊、js等,这种禁封都是造成 百度搜索不成功,进而把早已捉到的网页页面开展删掉,或是不可以取得成功爬取html页面,那样会立即危害到网址的总流量。

  最终,期待网站站长尽可能维持网站的平稳,针对临时不愿被百度搜索爬取的网页页面,应用恰当的回到码告之百度搜索,假如的确不愿被百度搜索爬取或是数据库索引,能够写robots信息内容告之。

  除此之外,大家也会尽较大 将会去爬取全部一切正常网站的內容,而且搞好对网站工作压力的操纵。

 

转载请注明: 爱推站 » 百度搜索引擎:网站爬取工作压力的方法!

相关文章

评论列表(0)

发表评论