日本語入力総合スレッド 4 at LINUX
[2ch|▼Menu]
531:login:Penguin
09/12/05 03:42:11 9GvwFt3/
>>528
「N-gramと適当なコードだけでIM界に殴り込み」
というのは ChaIME がまさにそうだと思うんだが……
予測部分に関しては Social-IME な。Social-IME の変換部分は Anthy だが、
予測部分は Google N-gram と適当なコードで書かれている。
ネタで作るなら上記のようなのでもいいが、
ちゃんと毎日使われるものを作るなら整備されたコーパスが必要、ってこと。

URLリンク(blogs.technet.com)

あと、PageRank は現在素のままでは使われていないし、
複雑怪奇な機械学習(ランキング)の結果出しているはずだよ。
ちゃんと使われるものにするためには、
少しの改良どころじゃなくだいぶ改良しないといけないはず。
(ChaIME が使われないのは辞書のサイズが 2GB あるから)

>>530
サジェストもネットは使っていない。
マニアックな用語にしろ、予測候補にしろ、ウェブから抽出したデータをオフラインで使っている。
それらを50MBの辞書サイズに落とし、速度も落とさなかったところがたぶん偉いところ。


次ページ
続きを表示
1を表示
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

5108日前に更新/175 KB
担当:undef