網站(zhàn)布局之TF-IDF算(suàn)法,說白(bái)了(le)在我理(lǐ)解來(lái),這(zhè)個算(suàn)法就是通過一個的數學計(jì)算(suàn),來(lái)确定每個詞在文(wén)章中的權重,從(cóng)而得到(dào)一篇文(wén)章的關于詞的帶權重的向量,知(zhī)道(dào)了(le)這(zhè)個以後就好(hǎo)辦了(le),之後什(shén)麽文(wén)章關鍵字提取、概述、不同的文(wén)章之前的相似性比較都引刃而解了(le)。
求一個詞的權重就用(yòng)到(dào)TF-IDF算(suàn)法,其實TF-IDF算(suàn)法是分爲TF(Term Frequency,縮寫爲TF)與IDF(Inverse Document Frequency,縮寫爲IDF)的計(jì)算(suàn)。
說起來(lái)也(yě)簡單,TF就是這(zhè)個詞在文(wén)章中的詞頻,出現(xiàn)的次數比上(shàng)文(wén)章的總次數或者出現(xiàn)次數最高(gāo)的詞的個數。而IDF則是表示TF-IDF算(suàn)法分母上(shàng)加一是爲了(le)防止分母爲零。
TF-IDF
這(zhè)個數學的表達式也(yě)符合情理(lǐ),如果關鍵字(除去“的”、“爲了(le)”之類的去除字)在越多的文(wén)檔中出現(xiàn),它在本篇文(wén)章中的權重自(zì)然就低(dī)了(le),舉個簡單的例子:給你(nǐ)一個關鍵字計(jì)算(suàn)機,你(nǐ)一點也(yě)不知(zhī)道(dào)這(zhè)貨表達的意思,因爲(從(cóng)這(zhè)個算(suàn)法角度講)它在太多的文(wén)章中出現(xiàn),但(dàn)是如果你(nǐ)的關鍵字爲0day就不一樣了(le),包含它的文(wén)檔數遠遠小(xiǎo)于包含關鍵字“計(jì)算(suàn)機”的文(wén)檔數。由此,如果在同一篇文(wén)章裏,如果“0day”與“計(jì)算(suàn)機”的TF(詞頻)相同,IDF就可以保證“0day”的權重較高(gāo)了(le)。
基本的算(suàn)法就是這(zhè)樣了(le),其實很(hěn)簡單,但(dàn)是這(zhè)個算(suàn)法是基于這(zhè)樣一個前提,關鍵詞越重要,出現(xiàn)的頻率越高(gāo)。同時(shí)忽略了(le)詞出現(xiàn)位置的影響,所以這(zhè)個算(suàn)法存在漏洞。
|