形態素解析と日本語処理

[表示 : 全て最新50 1-99 101- 201- 301- 2chのread.cgiへ]
Update time : 05/09 09:30 / Filesize : 68 KB / Number-of Response : 339
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

形態素解析と日本語処理

1 名前：デフォルトの名無しさん [05/01/25 07:38:01 ]: 日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。
これを形態素解析といいます。
このスレでは、その形態素解析について語っていきましょう。
280 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 12:15:07 ]: JavaScriptからIMEを少しだけ弄れたようなきが。
多分JavaScriptよりもっと干渉できるやつでも使ってるんじゃないの？DirectXとか。
281 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 22:14:27 ]: >>280
chasen.org/~taku/software/ajax/imekwic/

連休中なので、動いていない？
282 名前：デフォルトの名無しさん mailto:sage [2007/05/07(月) 09:59:40 ]: こっち。
ajaxime.chasen.org/index.html
283 名前：デフォルトの名無しさん [2007/08/31(金) 15:47:46 ]: sage
284 名前：デフォルトの名無しさん mailto:sage [2007/09/01(土) 13:46:11 ]: そもそも、公式文章でも方言のような専門用語や表現方法が多様しているのに
地方や皇族、政治、あらゆる専門分野、日本語が１つだと定義すれば扱えない
言葉や用語だらけになる。
会話言葉と目的別文章でも激しく特定できない。
>>1
>まず単語や品詞に分ける必要があります。
機械的な言葉の分類遊びならともかく。。。。。。
これは正しいとはいえない。言葉というのは柔軟性があり生き物である。
別ける時点で意味が変更されることもある。ある程度まとまった文節で
巨大辞書で判断するのが妥当でしょう。
文法で明らかに変でも通常の言葉として扱われているものとかＮＨＫとかで
時々解説放送がある。それらは言葉が生き物であることを証明するもので、
日本語は言葉として扱うのではなく、概念として扱うべきです。
翻訳が正しくても作成者の意味が通じないのでは翻訳としてはできそこないです。
日本語を正しく扱えるには価値観とその雰囲気、心を読み解く抽象認識処理が
必須になるでしょう。
285 名前：デフォルトの名無しさん mailto:sage [2007/09/01(土) 20:28:27 ]: と、へんてこ日本語モドキで力説されてもなあ。
286 名前：デフォルトの名無しさん [2007/09/02(日) 08:49:46 ]: 拓ちゃんがいるのに
最近のグーグルの調子はおかしいよね
287 名前：デフォルトの名無しさん mailto:sage [2007/09/05(水) 19:11:28 ]: >>276
anthy-agent にひらがな入力する方法はないのかな。
288 名前：デフォルトの名無しさん mailto:sage [2007/12/19(水) 18:41:14 ]: 質問です！！
yahoo!の形態素解析使ってるんですがreadingがうまく表示されません。
surface pos readingと表示させようとしたら
美しい　形容詞　形容詞　となぜか、readingにも品詞が入ってるみたいな気がします。
reading単体で使ってもなぜか品詞が返ってきます。

どなたか助けてください。。。
289 名前：デフォルトの名無しさん mailto:age [2007/12/19(水) 18:42:48 ]: ageマス。
290 名前：デフォルトの名無しさん mailto:age [2007/12/19(水) 18:43:54 ]: 必死で申し訳ありませんが、ルビーを使ってます。
291 名前：デフォルトの名無しさん [2008/02/04(月) 10:20:29 ]: 形態素まで行かずに単語分解だけをしようと思います
言語を文書から自動生成したい

こんなのありますよ　参考に

辞書不要の形態素解析エンジン「マリモ」とは　www.atmarkit.co.jp/news/200708/15/mooter.html
292 名前：デフォルトの名無しさん [2008/02/04(月) 10:24:54 ]: 各文書を特徴づける重要語を計算して、
どの文書でも重要でない単語を無視すれば良い単語帳が作れるはず

TF・IDF法
nlp.nagaokaut.ac.jp/wiki/wiki.cgi/term?page=TF%A1%A6IDF
293 名前：デフォルトの名無しさん [2008/02/04(月) 11:16:52 ]: d.hatena.ne.jp/nskt0628/
ここなかなかいいよ
294 名前：デフォルトの名無しさん [2008/02/04(月) 12:16:30 ]: 類似語とそうでないものを判別するにはどうすればいいですか

類似語　
勝利　大勝利

類似語でない
本人日本人
カウントアカウント
京都東京都
295 名前：デフォルトの名無しさん mailto:sage [2008/02/04(月) 12:18:23 ]: お前が今分けた手順でおｋ
296 名前：デフォルトの名無しさん [2008/02/04(月) 12:25:33 ]: >>295
自動化したいのですが　こういうやつはどうやればできますか
labs.preferred.jp/reflexa/
297 名前：デフォルトの名無しさん [2008/02/04(月) 12:35:09 ]: 類似語が分類できるならば、単語分解もそこに含まれるから
類似語の分類をするルーチン作ろうぜ
298 名前：デフォルトの名無しさん [2008/02/04(月) 13:47:37 ]: 単語らしさはどうやって判定したらいいですか
あと形態素解析はあまり有効でない気がします
何故ならば日本語研究が必須になってしまう為です　韓国や中国に対応できないし

素解・・・あり得ない
形態素・・・ある
本語・・・あり得ない
日本語・・・ある

というのを数値的に表したいものです
299 名前：デフォルトの名無しさん [2008/02/04(月) 22:40:26 ]: 日本語の文法の知識が全くない状態から、品詞分解とその接続を求めることは出来るのでしょうか
300 名前：デフォルトの名無しさん [2008/02/04(月) 22:46:53 ]: 類似単語が判れば、それを同一視することで類似文書が判りますね
１単語のズレのある類似文書から品詞分解が判りますかね
たとえば
僕は釣りをします　→　僕　は　釣り　を　します
私は料理をしますわ　→　私　は　料理　を　しますわ　→　僕　は　料理　を　します

とすると、釣りと料理は同じ分類だと判明します
301 名前：デフォルトの名無しさん mailto:sage [2008/02/04(月) 22:51:21 ]: >>298
文法研究をすっ飛ばして考えるなら、
文章のログから部分共通文字列を探せば見つかるような気がする。
302 名前：デフォルトの名無しさん [2008/02/05(火) 00:22:01 ]: 圧縮接尾辞配列っていいみたいだけどわかる人いますか
303 名前：デフォルトの名無しさん [2008/02/05(火) 00:57:54 ]: 圧縮接尾辞配列ってブロックソーティング、Burrows-Wheeler変換やるみたいだね
304 名前：デフォルトの名無しさん [2008/02/05(火) 06:37:27 ]: バカ過ぎる
305 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 09:54:40 ]: >>294
京都と東京都は、地名として考えたら類似じゃない？
306 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 11:15:02 ]: 狂都
東狂都
307 名前：デフォルトの名無しさん [2008/02/05(火) 11:42:17 ]: 圧縮接尾辞配列を調べたけど、大規模なインディックスにはむかないと思う
インディックスサイズが小さくできても
ウェブページのようにメモリに全て載せられないなら検索速くならないし・・・
308 名前：デフォルトの名無しさん [2008/02/05(火) 11:44:29 ]: 向いているのはCHMの代わりになる位だな　
ファイルサイズ小さくできてサイズの3～5倍のメモリ消費ですむだろうから
309 名前：デフォルトの名無しさん [2008/02/05(火) 11:55:19 ]: ↓こう書いてあるけど絶対にこの方針ではgoogleの足下にも及ばないと予測する

「Googleの弱点を克服したアルゴリズムによる検索エンジンを世界で初めて実装した」
Sedue：圧縮接尾辞配列を実装した初の商用検索エンジン
itpro.nikkeibp.co.jp/article/NEWS/20070209/261537/
310 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 19:13:35 ]: >>309
接尾語処理なんて、google以前から大抵の検索エンジンでやってたことなのに・・・
311 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 20:19:16 ]: suffix arrayでぐぐっとけ、カスが
312 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 22:12:20 ]: バカ過ぎる(笑)
313 名前：デフォルトの名無しさん [2008/02/06(水) 12:52:48 ]: 各単語の出現確率を調べておきもっとも確率の高い分割をもとめればいいと思う

たとえば、日本語はご存じの通り、文章が単語で区切られていません、なら

日　本語　は　ご　存じ　の通　り、　文　章が　単　語で区　切られて　い　ま　せん　の確率は0.01%

日本語　は　ご存じ　の　通り　、　文章　が　単語　で　区切られて　いません　だと10%

とか計算できればよい
314 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 21:24:05 ]: >>313
ひょっとしてマルコフ連鎖のことを言いたい？
315 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 22:35:11 ]: 文字列をビット単位で連鎖の統計取ればデータ蓄積量の多さによっていつかは統計的な形態素解析器ができるはず！！！！１１１
316 名前：デフォルトの名無しさん [2008/02/07(木) 04:54:43 ]: >>314
マルコフ連鎖とは違う
前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
317 名前：デフォルトの名無しさん [2008/02/07(木) 05:05:06 ]: もっとも単語になりやすそうな部分で区切ることで計算量は減らせるはず
たとえば、文書が１単語となる確率が高いなら、次のように分割され残りの文書は短い

たとえば、日本語はご存じの通り、

文章

が単語で区切られていません
318 名前：デフォルトの名無しさん [2008/02/07(木) 05:16:59 ]: first loaded.
319 名前：デフォルトの名無しさん [2008/02/07(木) 05:30:29 ]: 　
日本語￥n+xは￥n+x単語￥n+xに￥n+x拠って￥n+x区切られ￥n+xます￥n+x。　
ですが￥n+x、￥n+x詳細￥n+xの￥n+x作成￥n+xは￥n+x大変￥n+xな￥n+x事￥n+xでしょう￥n+x… 　　
320 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 07:21:39 ]: >>316
だからマルコフ連鎖をA*探索したのとどう違うんだって？
321 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 21:14:40 ]: naist-jdic ﾏﾀﾞ－?
322 名前：デフォルトの名無しさん [2008/02/07(木) 23:29:31 ]: >>320
前後のつながりだけじゃないって書いてるじゃん。
323 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 23:36:23 ]: ＞前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
ここをもうちょっと formal な形で言わないと伝わらないと思われ
どういう確率モデルを想定しているのか。つーか俺にも伝わってない
単語分割をマルコフ連鎖でモデル化したのなら >320 の指摘通りだと思うのだが
324 名前：デフォルトの名無しさん mailto:sage [2008/02/10(日) 16:31:23 ]: このへんとか
www.amazon.co.jp/%E8%A8%80%E8%AA%9E%E3%81%A8%E8%A8%88%E7%AE%97-4-%E7%A2%BA%E7%8E%87%E7%9A%84%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB-%E5%8C%97-%E7%A0%94%E4%BA%8C/dp/4130654047
325 名前：デフォルトの名無しさん mailto:sage [2008/02/10(日) 16:37:25 ]: >>324
ああ、その本はいい本だよ。B4のゼミとかに丁度いいんじゃないかな。
326 名前：デフォルトの名無しさん mailto:sage [2008/02/11(月) 08:21:36 ]: 結局313が何を言いたかったのかは謎なまま時は過ぎてゆく…
327 名前：デフォルトの名無しさん [2008/02/23(土) 13:44:46 ]: 音声の検索システムできた。
328 名前：デフォルトの名無しさん mailto:sage [2008/02/23(土) 14:13:43 ]: ソースうp
329 名前：デフォルトの名無しさん [2008/03/27(木) 07:31:14 ]: >MySQLおよびPostgreSQLで日本語キーワードインデック
>スを実現しているもの(Sennaおよびtextsearch-ja)は、
>現在バックエンドエンジンとしてMecabを推奨してい
>るようです。

あるフォーラムあらのコピーですが、本道だとすると、
すごいですね？！ AppleのOSXの日本語処理もMecab?

Mecabの一人勝ちか。
330 名前：デフォルトの名無しさん mailto:sage [2008/03/29(土) 01:45:22 ]: >>329
>AppleのOSXの日本語処理もMecab?

そうなん?
Mac OS X には Language Analysis Manager というのがあるけど。
ありゃ、リファレンスを見ると Leopard から deprecated だな。
331 名前：デフォルトの名無しさん mailto:sage [2008/04/05(土) 11:11:05 ]: >>330
おっと、ちょっと調べたら確かにMeCabが使われてるね。知らんかった。
332 名前：デフォルトの名無しさん mailto:sage [2008/04/05(土) 23:48:58 ]: なさけねえな、Apple
スピーチ周りでVocaloid時代を十数年先取りしてた企業のくせに
自社技術捨ててオープン物に蔵換えか
そろそろジョブズ氏ねよ
333 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 06:31:49 ]: >>332
初音ミクのApple版でも出せってかw
まー形態素解析ってメインは日本語とかでしょ。アジア方面はもともと「二の次」感が。

オープンソースで手に入る共通な技術があったなら使わせてもらう、というのが流れ
なのかなあと。もう何から何まで自家製というんじゃなくて、企業として独自性を
打ち出す部分だけ頑張る、みたいな感じなんじゃないかな。
334 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:37:41 ]: しょうがないよ、マック信者は舶来物信者だから、アジア方面に力を入れないほうが売れるんだよ。
335 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 21:10:16 ]: ただのりあぽーか。
336 名前：デフォルトの名無しさん mailto:sage [2008/04/22(火) 02:47:39 ]: blog界隈で信者のMac IMEを褒めたたえる声が目立つと思ったら、
オープンものに頼った結果ってことか。
奴らの言う最先端とやらは素晴らしい技術力だことで（呆

MS-IMEの糞っぷりも失笑ものだが、
Macの信仰のしどころの間違いっぷりは抱腹絶倒だな
337 名前：デフォルトの名無しさん mailto:sage [2008/04/22(火) 07:44:33 ]: Mac に IME なんて無いけどな。
338 名前：デフォルトの名無しさん mailto:sage [2008/04/27(日) 00:53:20 ]: 今はもうInput Method EditorのEはつけずにIMって呼び方のほうが一般的じゃない？

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef