今天我們講解一下TF-IDF關鍵詞加權算法,其實這個算法是早期的搜索引擎算法,就跟現在的關鍵詞密度算法差不多,當然這個算法目前一定是在進行改進,大家看到的網絡上的TF-IDF算法都是一些轉載以前的文章,且非常復雜難懂,也講不到根本點上,所以本篇文章我會加入一些自己的研究總結進去,使這個算法更加通俗易懂,有些地方我稍做改進,是希望能夠讓新手朋友更加容易理解!
很多朋友也會質疑,那么這是早期的算法,現在還有用么,對我們SEO到底有什么實際幫助那?這里告訴你,其實還是有用的,對SEO方面也是有幫助的,但是大家記住,現在百度的排名是多維的,這只是排名算法的一個細節而已,不要心急,下面我們會詳細講解!
TF-IDF是什么意思?
TF則為:關鍵詞頻率,當前關鍵詞在整篇文章(分詞)詞庫中的占比!
IDF則為:逆向文件頻率/正向文件頻率,逆向文件頻率主要用于在分詞中,消除一些關鍵詞的輔助詞,例如“的、是、怎么”這類輔助詞,正向文件頻率則為你當前包含關鍵詞的文章數量占據總網站文章數量的總占比或者說頻率。
TF-IDF:即用TF關鍵詞頻率 乘以 IDF逆向/正向文件頻率,而得出的一個綜合值,后面說詳細用處!
如何求TF詞頻?
這個是非常簡單的,公式為:TF = W/D;
W = 這篇文章分詞后所包含當前關鍵詞的數量;
D = 這篇文章分詞后所有詞匯的數量!
TF = 當前關鍵詞,在頁面中出現的頻率,稱為詞頻!
舉例:一篇文章分詞后,有100組詞,其中SEO出現10詞,那么套入公式 10/100 = 0.1 當前的詞頻是0.1。
這里注意:關鍵詞密度與詞頻還是有一點區別的。關鍵詞密度 = 關鍵詞出現次數x關鍵詞字數/文章總字數(不含標題)x100%,雖然意思有點差不多,但是不要搞混這兩者的關系!
如何求IDF逆向/正向文件頻率?
逆向文件頻率 = 總文章數 / 包含關鍵詞的文章
正向文件頻率 = 包含關鍵詞的文章 / 總文章數
舉例:你網站中總共有100篇文章,其中包含SEO的文章有10篇,我們帶入公式。
逆向文件頻率 = 100 / 10 = 10;
正向文件頻率 = 10 / 100 = 0.1;
TF-IDF值怎么求那?
非常簡單了,TF-IDF 即是 TF乘以IDF,我們直接套用上面的案例數據!
逆向TF-IDF = 0.1 * 10 = 1;
正向TF-IDF = 0.1 * 0.1 = 0.01;
下面我們來講解一下TF-IDF的實際應用!
TF詞頻越高相關性越好(排名也就越好)
我們想一下,如果當前頁面的關鍵詞數量越多,是不是證明詞頻越大,詞頻越大是不是證明頁面相關度越好,當然相關排名就會比較高,這個算法引用于“關鍵詞密度”算法,正常保持在2%-8%之間就可以了!
TF詞頻可以提取頁面重點關鍵詞
我們一般做優化,文章中的tag聚合標簽和頁面關鍵詞是非常重要的,搜索引擎通過關鍵字直接就可以明白,我們的頁面的主題內容,同時tag聚合標簽如果定位的精準直接可以分類我們的頁面文章,文章類型分類會更精準,更加利于用戶體驗,正常而言我們人為定義tag標簽和網頁關鍵字是不精準的,我們想一下,如果某一個關鍵詞在當前文章中詞頻最高,是不是就是說,是我們的核心關鍵詞那?這個是當然的了!
如何用TF詞頻去找核心詞那?其實網絡上有工具的,我們直接百度“TF-IDF分詞工具”然后把文章復制進去,點擊分詞,在右邊就會按照頻率的高-》低進行排列,我們把前面詞頻高的關鍵詞提取出來即可!

TF詞頻可以用于尋找更精準的相關文章
在頁面布局的時候,一般來說右側都是推薦文章、相關文章,來誘導用戶進行點擊,我們是不是可以這樣認為,相關推薦越精準的文章,用戶點擊量就越高那?用戶點擊量越高的網站百度就會有一定的優待,權重評分就會增加!一般開源CMS網站的相關推薦,都是用標題識別技術來進行相關推薦的,但這樣并不精準,我們打一個比方,SEO內頁優化,SEO外鏈優化,都含有SEO,但是內容確是不精準的,頁面點擊量就會降低!
使用TF-IDF來尋找相關文章的方法原理很簡單,精準度非常好,這邊來講解一個,TF-IDF會自動提取所有文章的TF詞頻,把每篇文章前20個最高詞頻進行相互對比,如果符合率達到10個以上,即可做為相關推薦文章。這種方式可以讓文章的相關性在90%以上,可以說是非常精準的了。
IDF逆向文件頻率主要用于過濾噪音詞
IDF逆向文件頻率主要用于消除分詞中的輔助字,我舉個例子“seo優化的方法”如果用TF-IDF來進行分詞的話,你會發現會分成“seo、優化、方法”輔助字“的”消失了,TF-IDF的逆向文件頻率就是消除一些輔助字的,也稱為消除噪音字,(原理就不詳細講了,因為用軟件直接就可以操作,沒有必要學這些東西,會增加你認知難度,主要這一塊也不重要)!

TF詞頻 * IDF正向文件頻率 則為排名的關鍵點!
這塊是一個重點,如果某一個關鍵詞TF頻率越高,網站中包含這個關鍵詞的文章越多的話,那么這個關鍵詞的排名相對來說就會越好。
這邊舉一個例子:首頁所有的文字通過分詞后,變成了1000個詞組“seo”在這個詞組中更出現了100次,TF頻率就為:100/1000 = 0.1;
如果你的網站中有1000篇文章,有100篇文章包括了這個關鍵詞,正向IDF頻率就是:100/1000 = 0.1;
那么當前的 TF-IDF:0.1*0.1 = 0.01;
在舉第二個例子:首頁分詞后,變成1000個詞組“基礎知識”在詞組中共出現了120詞,TF頻率為:120/1000 = 0.12;
同樣,如果網站中有1000篇文章,有120篇文章包含了這個關鍵詞,正向IDF頻率就是:120/1000 = 0.12;
那么當前的 TF-IDF:0.12*0.12 = 0.0144;
“seo”的TF-IDF是:0.01,而“基礎知識”的TF-IDF是:0.0144,很顯然本站關鍵詞“基礎知識”排名要高于關鍵詞“seo”!
同樣道理,你與你的競爭對手,如果你的正向TF-IDF值小于競爭對手的,那么你的排名在這一方面就要低于你的競爭對手,所以說增加正向TF-IDF值可以有效提升我們的網站排名的!
好了,今天的TF-IDF加權算法就講解到這里,核心思路就是TF詞頻和IDF的正向文件頻率的增加是可以有效增加排名的,另外如果大家可以從這篇文章學到知識的話,那么大家可以參加我們黑帽百科SEO實戰SEO培訓,我們有一套絕對有效的排名技術,同時包括“網站建設-》實戰排名-》成交轉化-》項目包裝”等這一些列的教程培訓,價格非常優惠,課程通俗易懂,零基礎的朋友均可參加學習,同時也包售后這一塊,可以幫助新手朋友在非常短的時間內學會SEO這項技能,并且自己可以獨立完成建站、排名關鍵詞到首頁等技術操作!
