1. 首页
  2. SEO优化教程
  3. SEO优化理论
  4. 深圳网络优化:TF*IDF公式计算是什么?

深圳网络优化:TF*IDF公式计算是什么?

TF-IDF算法已经被很多专业的SEO工作者所熟知,它是一种用于资讯检索与资讯探勘的常用加权技术,运用到网页分析中就是对于网页中的相关关键词进行加权,分析众多网页中某个特定关键词的相关网页关键词权值,并在最后的排序算法中给予科学的依据。 首先看一看TF*IDF公式:TF*IDF值 = TF×IDF(TF乘以IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×l

  TF-IDF优化算法早已被许多 技术专业的SEO工作人员所熟识,这是一种用以新闻资讯查找与新闻资讯探勘的常见权重计算技术性,应用到网页页面剖析中就是说针对网页页面中的行业关键词开展权重计算,剖析诸多网页页面中某一特殊关键字的有关网页页面关键字权值,并在最终的快速排序算法中给与科学研究的根据。

  最先看一看TF*IDF公式计算:TF*IDF值=TF×IDF(TF乘于IDF)=1+logTF(t,d)×IDF(t)=1+logTF(t,d)×log(N/DF(t))。为何剖析这一公式计算呢?由于一个网页页面的TF-IDF值越大,网页页面中文字內容与数据库索引词越有关,其可以在百度搜索引擎上得到的权值就会越高,针对中后期的网页页面的排列可以出示挺大的适用。

  TF*IDF中TF词频(TermFrequency),表达百度词条在某一文本文档中出現的頻率,而IDF反文本文档頻率(InverseDocumentFrequency)表达假如包括百度词条t的文本文档数量越低,IDF越大,则表明百度词条t具备非常好的类型区别工作能力,用公式计算表达IDF能够写成:IDF(t)=log(N/DF(t))。DF(t)表达包括有某一搜索关键词(以t为意味着)的文本文档数,N表达互联网技术的总网页页面数。

  看这种定义没办法了解深入,给大伙儿举一个事例,大伙儿就可以非常好地懂了。

  运用TF-IDF表述“SEO确诊”网站排名状况

  比如“SEO确诊”这一关键字的网页页面排列,人们查排名前十中三个网址有关这一词有关语句的一些词频呈现剖析:

  排到第二的是站长论坛的SEO确诊,她们的“SEO”和“确诊”的词频各自是41和46,“SEO确诊”的词频是20;

  排到第三的网址是长沙市的一家企业,她们的“SEO”和“确诊”的词频各自是12和4,“SEO确诊”的词频是1;

  我的细嗅蔷薇blog网站排名网站排名第十,网址中“SEO”词频最大,做到84,“确诊”的词频是7,“SEO确诊”的词频是4。

  检索查询关于“SEO确诊”的网页页面约1,530,000个,“SEO”和“确诊”是百度搜索限制约100,000,000个,取N=10000亿。因此三个网页页面三个关键字的TF*IDF值做下边的测算:

  1、先测算三个词的IDF值:

  SEO:IDF=log(N/DF(t))=log(10000/1)=4

  确诊:IDF=log(N/DF(t))=log(10000/1)=4

  SEO确诊:IDF=log(N/DF(t))=log(10000/0.015)=7-log15≈6

  2、测算三个词的TF值:

  三站的关键字SEO的TF值:

  长沙市:TF=log(TF(t,d))=log12≈1.1

  站长论坛:TF=log(TF(t,d))=log41≈1.64

  细嗅蔷薇:TF=log(TF(t,d))=log84≈1.92

  三站的关键字确诊的TF值:

  长沙市:TF=log(TF(t,d))=log4≈0.63

  站长论坛:TF=log(TF(t,d))=log46≈1.68

  细嗅蔷薇:TF=log(TF(t,d))=log7≈0.84

  三站的关键字SEO确诊的TF值:

  长沙市:TF=log(TF(t,d))=log1=0

  站长论坛:TF=log(TF(t,d))=log20≈1.45

  细嗅蔷薇:TF=log(TF(t,d))=log4≈0.63

  3、三个站三个词的TF*IDF数值:

  TF*IDF值SEO确诊SEO确诊

  长沙站5.13.521

  站长论坛7.567.729.7

  细嗅蔷薇8.684.464.78

  从上边的表中人们能够清楚的看得出,我的网站“SEO”的TF*IDF值最大,站长论坛的“确诊”和“SEO确诊”TF*IDF值最大。

  假如单纯性从TF*IDF值推算出来的关联性而言,“SEO确诊”这一词的网站排名站长论坛的关联性是最大的,应当得到更强的网站排名,我的网站网站排名应当在彼此之间(大前天的网站排名确实在彼此之间),长沙站应当在最终,可是和具体的結果来看是有一定的差别的。这表明网址自然排名的要素也有别的的一些较为关键的要素,比如网址总体权重值,单独网页页面权重值和品质,外链,和客户的互动(即客户体验),这种全是人们必须考虑到的。

  此外,同一个网址相较为看来TF*IDF值,长沙站与我的细嗅蔷薇blog要提高网站排名,针对关键字“SEO”网站排名的规定就较为高,“SEO”网站排名起根本性功效,而站长论坛中“SEO确诊”的网站排名具有根本性的功效,关键字“SEO”网站排名针对其网站排名起伏危害要小。这一点有一定的依据,比如大前天我的网站“SEO确诊”网站排名第三,那时候“SEO”关键字排名第十页,如今掉来到23页,网站排名就降低到第十,因此多应用TF*IDF科学研究可以协助人们发觉许多 关键字排名状况,并目的性的制订SEO提升对策。

  自然,这一测算全是根据理想化情况的,可是也可以表明一些SEO状况的造成缘故,要是人们可以把握TF*IDF优化算法的基础观念,随后应用到seo优化中,必定可以尽快优化推广,比如我的网站,减少“SEO”这一词针对搜索引擎排名的危害,将会可以尽快操纵网页页面的关键字“SEO确诊”的网站排名。

 

转载请注明: 爱推站 » 深圳网络优化:TF*IDF公式计算是什么?

相关文章

评论列表(0)

发表评论