欧美一级特黄aaaaaa大片在线观看_国产成人91_日韩一区二区三区福利视频_91av视频在线_日韩一区二区精品_在线视频亚洲

<b>TF-IDF框架與其可以衍生到的SEO知識</b>

作者:Lgo100 來源:未知 2012-03-14 23:58:11 閱讀 我要評論 直達商品

  這是一篇關于搜索引擎排序基本TF-IDF框架的普及文章,并非網上偶然可見的一些泛泛而談甚至斷章取義的內容,而是連系搜索引擎的理論,和自己不雅察看到的較多實例所總結的切實的常識。雖然可能相對斗勁難以理解,但相信我,這些用來理解的侍舊鎖對是值得的。

  寫這篇文章主若是為了對后面一篇《seo實踐》系列的文章中要提到的一些內容先寫好基本理論,就不放到正篇瑯縵沔去占用篇幅了。

  本文先引用一段張俊林的《這就是搜索引擎》中對于TF-IDF框架的概述。因為原文較長,這里概述下我所認為的重點,或許會有概述不足之處,所以更具體的內容舉薦看原書。

  (注:“TF-IDF”或“TF*IDF”是寫法習慣問題,書賭暌姑的是TF*IDF,不意味著兩者之間有區別)

  TF-IDF事理概述

  當用戶在搜索引擎搜索一個辭書時辰,它會將詞去和索引庫內的文檔去進行匹配計較,將和詞語最相關的必然數目的文檔掏出,介入后續的排名計較。此處“最相關”的量化指標被成為“權值”,而對于絕年夜年夜都搜索引擎,權值的計較中TF*IDF框架都是斗勁主要的一部門。其中被首要考慮到的因子為:詞頻TF和逆文檔頻率IDF。

  詞頻因子(TF)

  TF計較因子代表了詞頻,即一個單詞在文檔中呈現的次數。一般來說,詞剖ё俳高越顯得文檔和該詞相關,就應該給以這個單詞更高的權重。

  具體計較詞頻因子的時辰,基于分歧的起點,可以采納分歧的計較公式。最簡單的體例是直接操作詞頻數,好比一個文檔中某單詞呈現5次,它的TF值就是5。

  一種詞頻因子的變體計較公式是:W = 1+log(TF)

  即將詞頻數值TF取Log值來作為詞頻權值,好比單詞在文檔中呈現4次,其詞頻因子權值為3,公式中的數字1是為了滑膩計較之用。因為如不美觀TF值為1的情形下,取Log后值為0,即原本呈現了一次的單詞,按照這種體例計較會認為這個單詞年夜來沒有在文檔中呈現過,為了避免這種情形,采用+1的體例來進行滑膩。之所以要對詞頻取Log,是基于如下考慮:即使也述單詞呈現了10次,也應該在計較特征權制癱,比呈現1次的情形權值年夜10倍,所以插手Log機制按捺這種過年夜的差異。

  還有種斗勁主要的變體計較公式將文檔的長度也納入考慮。因為與短文檔對比的話,長文檔內所有單辭書TF值會普遍比短文檔的值高。這邊不詳提了。

  逆文檔頻率因子(IDF)

  IDF代表的是文檔集結規模的一種全局因子,它只和給定的文檔集結有關,與具體文檔無關。所以IDF考慮的不是文檔自己的特征,而是特征單詞之間的相對主要性。

  計較公式如下:IDF = log(N/n)

  其中N代表文檔集結中總共有若干好多個文檔,而n代表特征單詞在此魷父多個文檔中呈現過,即文檔頻率。由公式可以,當越多的文檔包含某個單詞時,則其IDF質ё俳小,意味著這個詞區分分歧文檔的能力越差。

  TF*IDF框架

  TF-IDF值的計較公式為:

  Weight = TF * IDF

  當這個質ё俳年夜時,文檔就與該詞越相關。

  百度所現實運用的

  對于百度,TF-IDF框架自然是被運用到的。但對于單個索引詞排名時,TF-IDF不是關頭詞排名的抉擇性身分。百度的排名素質是概率檢索模子。

  按照我以前對百度上做過的簡單統計剖析,百度對于TF計較至少運用了上述的Log滑膩計較體例。除了前面提到的之外,當一個關頭辭書呈現次數跨越必然閾制癱,其TF值會跟著呈現次數的增多,而繼續以Log形式使排名下降。

  因為有這個機制存在,所以一個頁面膳縵沔每個辭書TF-IDF值是有各自分歧的上限的,這對于seo是一個很主要的概念。

  可以自己用來現實體驗TF-IDF計較的最簡單體例

  雖然不很切當,但先將一篇文章中某關頭詞呈現的次數記為TF值,此外到Google搜索該詞,將該辭書搜索結不美觀總數目作為DF值。然后將TF除以DF,就可以獲得最簡單的TF-IDF值了。

  盡管這樣的計較很是粗略可能沒什么現實意義,但照此現實計較一次往后就會對TF-IDF輕易理解得多。

  seo衍生

  舉個實例,好比“噴碼機價錢”一詞,它會被百度分成“噴碼機”和“價錢”二詞。(題外話,分詞與否也應該是取決于數據而非自己直覺的,如不美觀往后有機緣我會寫寫自己比濫暌姑過的一些體例。但有些人常用的年夜百度快照來看關頭詞高亮部門來判定分詞,是沒有任何事實基本的,沒什么價值。)

  到Google去分袂搜索下“噴碼機”和“價錢”二詞,“噴碼機”的結不美觀年夜約是20,600,000個,“價錢”則對應年夜約1,850,000,000個搜索結不美觀,后者的DF值年夜約高前者百倍。(之所以不到百度去搜索,因為百度顯示搜索結不美觀數目上限為1億個)

  在這種情形下,哪怕“噴碼機”和“價錢”二詞都在一篇文檔中呈現不異的次數,后者也會因為IDF因子的影響,而導致權質ё俁遠低于前者。

  是以,一般情形下只有當“噴碼機”這個詞權值高的頁面,才有機允ё仝“噴碼機價錢”這個辭書排名上獲得好的默示,和“價錢”此詞權值的關系很小。因為無論若何,“價錢”此辭書權值是不成能經由過程TF-IDF軌則獲得太多的。

  所以至少對于百度而言,想零丁做“噴碼機價錢”這種辭書排名的話,一般要用“噴碼機”排名本就很高的著陸頁來做,否則相對會難的多。

  最后

  限于自己的seo水平,無法妄論seo是否應該去對搜索引擎進行很深切的體味,而且至少主不美觀角度上,我認為seo在搜索引擎事理瑯縵沔鉆太深是意義不年夜的工作。但前面提到的,我想只應該算是必需把握的基本,如不美觀連對搜索引擎最經典的基本算法都沒有花過任何精神去體味的話,又談何與搜索引擎打交道呢?

        原文:http://semwatch.org/2012/03/tf-idf/


  推薦閱讀

  <b>SEO診斷:為客戶網站帶來準確的顧客</b>

A5站長網seo瘴幌團隊(http://seo.admin5.com)經常會碰著一些客戶咨詢為何網站流量不少,天天也都有年夜量的用戶咨詢,為什么最終沒有成為自己的顧客此類的問題,其實,這樣的問題是最常見的,也就是站長們天天都在津>>>詳細閱讀


本文標題:<b>TF-IDF框架與其可以衍生到的SEO知識</b>

地址:http://www.geekbao.cn/a/34/20120314/40638.html

頂一下

樂購科技部分新聞及文章轉載自互聯網,供讀者交流和學習,若有涉及作者版權等問題請及時與我們聯系,以便更正、刪除或按規定辦理。感謝所有提供資訊的網站,歡迎各類媒體與樂購科技進行文章共享合作。

網友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網友評論(點擊查看更多條評論)
友情提示: 登錄后發表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 欧美日韩亚洲国产 | 欧美第一页在线观看 | 亚洲第一免费视频 | 欧美日韩精品一区二区三区高清视频 | 日韩免费观看 | 国产成人亚洲综合一区 | 国产精品美女流白浆视频 | 欧美国产日韩综合 | 高h肉肉视频在线播放观看 福利视频一区二区三区 | 日韩欧美在线视频 | 色综合久久中文字幕综合网 | 国产91在线九色 | 国产成人久久精品一区二区三区 | 欧美91精品久久久久网免费 | 大色欧美 | 欧美综合图片区 | 日韩欧美一区二区在线 | 国产成人综合久久精品亚洲 | 亚洲国产激情一区二区三区 | 亚洲毛片免费看 | 亚洲电影中文字幕 | 中文字幕一区二区三区四区 | 国产不卡一区 | 另类欧美日韩 | 欧美视频免费看 | 免费在线看a | 亚洲欧洲日韩综合 | 国产一区亚洲二区三区毛片 | 国产精品成人麻豆专区 | 激情综合网站 | 国产一区二区在线免费观看 | 亚洲韩精品欧美一区二区三区 | 伊人操 | 亚洲精品国产第七页在线 | 国产在线观看免费 | 成人国产精品视频 | 我被公睡做舒服爽中文字幕 | 久久精品国产亚洲精品2020 | 国产精品亚洲精品不卡 | 国产不卡视频在线 | 国产日韩中文字幕 |