自然言語処理スレッド その2
at TECH
53:37
07/03/14 00:03:17
>>50 オーム社の本でもTF法と紹介されてるので合ってると思います。
>>51 perlで作ってます。
perlは遅いイメージがあると思いますが、ハッシュを使うと頻出語の調査は簡単に素早くできますよ
use MeCab;
use Encode;
my $m = new MeCab::Tagger("");
my %tf;#頻出語のハッシュ変数
sub TermFreq
{
my ($str) = @_;
my $n = $m->parseToNode($str);#形態素解析
while ($n = $n->{next}) {#次の形態素を取り出す
my $word = $n->{surface};#単語
$tf{$word}++;#単語のハッシュ変数の出現回数を1増やす
}
return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート
}
とりあえず1文字とか名詞以外は除外でもいいと思います。 実際は、複合語を扱えるようにしたりとか工夫が面白いです。
ベイズ推定によるニュース分類もやってますが、単語の出現回数も同じ手法で作ってます。
次ページ続きを表示1を表示最新レス表示スレッドの検索類似スレ一覧話題のニュースおまかせリスト▼オプションを表示暇つぶし2ch
5504日前に更新/189 KB
担当:undef