自然言語処理スレッド その2
at TECH
[
2ch
|
▼Menu
]
■コピペモード
□
スレを通常表示
□
オプションモード
□このスレッドのURL
■項目テキスト
50:素人 07/03/13 02:11:20 >>37,48,49 なるほど。勉強になりました m(_ _)m この方法はtf-idfを用いた重要文の抽出で認識あってますでしょうか? 聞きかじりなので、tf-idfも詳しくわかっていない状態です。間違っていたらすみません。 51:デフォルトの名無しさん 07/03/13 09:35:44 >>37 こういうのって何言語で作るの? 52:デフォルトの名無しさん 07/03/13 18:34:02 やっぱむつかしいなこういうの 53:37 07/03/14 00:03:17 >>50 オーム社の本でもTF法と紹介されてるので合ってると思います。 >>51 perlで作ってます。 perlは遅いイメージがあると思いますが、ハッシュを使うと頻出語の調査は簡単に素早くできますよ use MeCab; use Encode; my $m = new MeCab::Tagger(""); my %tf;#頻出語のハッシュ変数 sub TermFreq { my ($str) = @_; my $n = $m->parseToNode($str);#形態素解析 while ($n = $n->{next}) {#次の形態素を取り出す my $word = $n->{surface};#単語 $tf{$word}++;#単語のハッシュ変数の出現回数を1増やす } return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート } とりあえず1文字とか名詞以外は除外でもいいと思います。 実際は、複合語を扱えるようにしたりとか工夫が面白いです。 ベイズ推定によるニュース分類もやってますが、単語の出現回数も同じ手法で作ってます。
次ページ
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
レスジャンプ
mixiチェック!
Twitterに投稿
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch
5390日前に更新/189 KB
担当:undef