自然言語処理スレッド その2 at TECH
[2ch|▼Menu]
53:37
07/03/14 00:03:17
>>50 オーム社の本でもTF法と紹介されてるので合ってると思います。

>>51 perlで作ってます。
perlは遅いイメージがあると思いますが、ハッシュを使うと頻出語の調査は簡単に素早くできますよ

use MeCab;
use Encode;
my $m = new MeCab::Tagger("");
my %tf;#頻出語のハッシュ変数

sub TermFreq
{
my ($str) = @_;

my $n = $m->parseToNode($str);#形態素解析

while ($n = $n->{next}) {#次の形態素を取り出す
my $word = $n->{surface};#単語
$tf{$word}++;#単語のハッシュ変数の出現回数を1増やす
}
return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート
}

とりあえず1文字とか名詞以外は除外でもいいと思います。 実際は、複合語を扱えるようにしたりとか工夫が面白いです。

ベイズ推定によるニュース分類もやってますが、単語の出現回数も同じ手法で作ってます。



次ページ
続きを表示
1を表示
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

5504日前に更新/189 KB
担当:undef