tf-idfについて頭に入れたから一度アウトプットしてみる。
tf-idfとは、文書中から特徴語を抽出するためのアルゴリズムである。
文書dに含まれるある語tに対応するtf-idf値が大きければ大きいほど、tはdの特徴をより表している語である。
tf-idfは、tf(term frequency)とidf(inverse document frequency)によって構成される。
tfは、文書中の単語の出現頻度を表す。当然、文書中によく現れる単語は文書の特徴を表すと言える。
idfは、その語がどれだけ多くの文書に含まれているかを表す。これは、多くの文書中に表れる単語はある一つの文書の特徴語にはなりえないと言う事を表す(a, the等)。
文書d中によく出現し、なおかつその他の文書にはあまり出現しない単語tは、tf-idfによってdの特徴語として抽出される。
具体的な計算法などは他のページを参照してほしい。
http://ja.wikipedia.org/wiki/Tf-idf
http://d.hatena.ne.jp/deepfolte/20080421/1208786699
http://chalow.net/2005-10-12-1.html
0 件のコメント:
コメントを投稿