1. 首页
  2. SEO优化教程
  3. SEO优化理论
  4. 百度网站优化软件:假如融合TF*IDF的一些要素

百度网站优化软件:假如融合TF*IDF的一些要素

经常会看到,好多网站面包屑上的位置标题会被加上链接,像下面这种: 京东的面包屑 同样也有下面这种位置标题没有链接的面包屑,如下图: 中关村面包屑 大概猜想了一下,这在搜索引擎计算中会有一定的影响。 从搜索引擎原理的角度看,页面上的文本和链接是分开处理的。正文提取的时候,是将页面上的文本信息单独提取处理,而把页面上的链接等等会被提取到另一个表中去。TF(词频)计算的时候,是依靠页面上的文本进行计算。猜想,页面上的链接锚文本会被过滤掉,

  常常会见到,许多网址面包屑上的部位题目会被再加连接,像下边这类:

  京东商城的面包屑

  一样也是下边这类部位题目沒有连接的面包屑,如下图:

  北京中关村面包屑

  大约猜测了一下,这在百度搜索引擎测算中也有一定的危害。

  从百度搜索引擎基本原理的角度观察,网页页面上的文字和连接是分离解决的。文章正文获取的情况下,是将网页页面上的文字信息内容独立获取解决,而把网页页面上的连接这些会被获取到另一个表格中去。TF(词频)测算的情况下,是借助网页页面上的文字开展测算。猜测,网页页面上的连接锚点链接会被过虑掉,不参加TF的测算。

  下边用GSA做的一些检测来认证猜想:

  干了2个网页页面,內容彻底一样,网页页面上带三个用以检测的词【国平涛子66699303】,词正中间用空格符分隔。

  gnbase-nolink.html是纯写出去的,gnbase-link.html是用三个连接将词偏向自身(自链)。

  纯文本and带连接

  检测結果以下:

  各自检索:国平、涛子、66699303排行在前面的全是没有连接的网页页面gnbase-nolink.html。

  从图中看,没有连接的文字在引言的情况下,将正中间的空格符去祛除了,把三个词联接在一起。

  殊不知link网页页面的自链实际效果沒有反映出去,换句话说是自身偏向自身的锚点链接沒有立即出現文字好用。

  PS:检测的情况下粗心大意没了,link这一网页页面是14号早已爬取并百度收录过的,nolink是15号新再加去的,刚开始检测link显示信息的时间为2012-05-14,之后发觉后改了一下网页页面,GSA全自动再次爬取了一次,link网页页面的时间才同歩到15号。在检索三个检测词的情况下,link尽管爬取早,可是排行却沒有后爬取的纯文字网页页面高。但是在检索网页页面题目的情况下,還是先爬取的link网页页面排行高。

  不难看出,网页页面文字会参于网页页面的TF测算,连接锚点链接被清除出外。

  附则一些检索数据信息:

  百度关键字|网址|排行

  华为手机時间安全法|360buy|1

  华为手机時间安全法杨玉柱|kongfz|1

  华为手机時间安全法杨玉柱|360buy|4

  再生勇士9|360buy|1

  再生勇士9施鸥|kongfz|3

  再生勇士9施鸥|360buy|4

  。。。。

  出現那么一个状况就是说,360buy许多小说名字排行非常好,可是再加创作者名以后,排行就很不理想化,乃至换页都找不着。点一下看过网页页面,小说名字一般全是文字方式出現,而创作者出現的情况下用连接偏向了创作者的网页页面。

  假如融合TF*IDF的一些要素看来得话,小说名字与检索词中间得到了非常好的关联性,而创作者由于沒有参加到网页页面TF的测算,沒有得到相对的评分。当只检索【小说名字】的情况下,小说名字的TF*IDF相关性可以了,排行前边;但检索【小说名字+创作者】时,TF*IDF(小说名字)+TF*IDF(创作者)的值没做到排行前例的规定。

 

转载请注明: 爱推站 » 百度网站优化软件:假如融合TF*IDF的一些要素

相关文章

评论列表(0)

发表评论