自然言語処理スレッド　その２

自然言語処理スレッド　その２ at TECH

53:37
07/03/14 00:03:17
>>50 オーム社の本でもTF法と紹介されてるので合ってると思います。

>>51 perlで作ってます。
perlは遅いイメージがあると思いますが、ハッシュを使うと頻出語の調査は簡単に素早くできますよ

use MeCab;
use Encode;
my $m = new MeCab::Tagger("");
my %tf;#頻出語のハッシュ変数

sub TermFreq
{
my ($str) = @_;

my $n = $m->parseToNode($str);#形態素解析

while ($n = $n->{next}) {#次の形態素を取り出す
my $word = $n->{surface};#単語
$tf{$word}++;#単語のハッシュ変数の出現回数を１増やす
}
return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート
}

とりあえず1文字とか名詞以外は除外でもいいと思います。実際は、複合語を扱えるようにしたりとか工夫が面白いです。

ベイズ推定によるニュース分類もやってますが、単語の出現回数も同じ手法で作ってます。

次ページ

続きを表示

1を表示