資料分析概念大全 - TF, IDF, TF-IDF, Text Classification 樣樣來
一句話解釋TF-IDF『用來從一段文字/一個語料庫中,給越重要的字詞/文檔,越高的加權分數』
TF-IDF
你看,TF - IDF ,前面的TF是Term Frequency的縮寫,後面的IDF是Inverse Document Frequency的縮寫,合在一起則說明了它如何計算出誰是相對比較重要的字詞。
TF-IDF 有點像是互相牽制的感覺,前面的TF是Term Frequency的縮寫,後面的IDF是Inverse Document Frequency的縮寫。
綜合兩個公式值相乘,便得到我們今天介紹的TF-IDF值
字詞的重要性隨著 在文本出現的頻率越高則越高(TF);在不同文本檔案間出現的次數越高則反而降低(DF)。
更白話一點:一個單字在一篇文章中出現的次數越多,那麼這個單字就越重要,但是如果這個單字在其他文章中也出現很多次,那麼這個單字就越不重要。
Term Frequency (tf)
上圖取自:【資料分析概念大全|認識文本分析】對文本重點字詞加權的TF-IDF方法
我們先把拆解出來的每個詞在各檔案出現的次數,一一列出,組成矩陣。
nt,d{n_{t,d} ...