形態素解析と日本語処理

[表示 : 全て最新50 1-99 101- 201- 301- 2chのread.cgiへ]
Update time : 05/09 09:30 / Filesize : 68 KB / Number-of Response : 339
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

形態素解析と日本語処理

1 名前：デフォルトの名無しさん [05/01/25 07:38:01 ]: 日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。
これを形態素解析といいます。
このスレでは、その形態素解析について語っていきましょう。
2 名前：デフォルトの名無しさん [05/01/25 07:58:59 ]: Prolog屋なのですが、この分野の知識は全くありません。
勉強させてください。
3 名前：デフォルトの名無しさん mailto:sage [05/01/25 08:01:53 ]: 自然言語処理スレッド
pc5.2ch.net/test/read.cgi/tech/1011988273/
4 名前：デフォルトの名無しさん [05/01/25 08:13:52 ]: お、茶筌ネタかい？いいねぇ。
5 名前：デフォルトの名無しさん mailto:sage [05/01/25 08:38:39 ]: まずは、漢字、ひらがな、カタカナ、句読点、記号などで分ける。
それから?
6 名前：デフォルトの名無しさん [05/01/25 08:52:32 ]: 分けるとどうなるんだろう？
試してみますかね。
7 名前：デフォルトの名無しさん mailto:sage [05/01/25 10:35:40 ]: それくらいなら頭ん中で試せば十分だろ。
8 名前：デフォルトの名無しさん mailto:sage [05/01/25 11:16:33 ]: 次に品詞でわけてみるる。

今日は良い天気ですね。
↓
今日|は|良い|天気|です|ね|。

(は(今日((天気 (良い ) です)ね)))

「今日は」は２通りの解釈がある。

こんにち|は|良い|天気|です|ね|。

きょう|は|良い|天気|です|ね|。
9 名前：デフォルトの名無しさん [05/01/25 11:29:05 ]: もう1通りあるんじゃない？

こんにちは|良い|天気|です|ね|。
10 名前：デフォルトの名無しさん mailto:sage [05/01/25 11:29:45 ]: 漢字かな混じりの文章はわかりやすいですが、ディクテーション情報(音素から組んだ文章、要は全部ひらがなとかローマ字）から形態素分析って可能なんでしょうか？
人はどのように判断しているんでしょうかね？
11 名前：デフォルトの名無しさん mailto:sage [05/01/25 11:30:54 ]: 何か良い死霊ないの？
12 名前：デフォルトの名無しさん mailto:sage [05/01/25 11:45:23 ]: ここではきものをぬいでください
13 名前：デフォルトの名無しさん [05/01/25 13:04:03 ]: あしがりのわをかけやまのかずのきのわをかずさねもかずさかずとも

あれもしかしてあしがらだったか
14 名前：大原ゆき mailto:sage [05/01/25 13:24:00 ]: 大原ゆきが華麗に2get
15 名前：デフォルトの名無しさん mailto:sage [05/01/25 14:11:19 ]: ?
16 名前：デフォルトの名無しさん [05/01/25 14:17:03 ]: www.unixuser.org/~euske/doc/postag/index.html
17 名前：デフォルトの名無しさん mailto:sage [05/01/25 19:06:20 ]: きょうはいしゃにいく

今日歯医者に行く
今日は医者に行く
18 名前：デフォルトの名無しさん mailto:sage [05/01/25 20:06:04 ]: こっちは初心者スレ？
19 名前：デフォルトの名無しさん mailto:sage [05/01/25 20:13:33 ]: >>18
どちらかというと、より特化したスレ。
20 名前：デフォルトの名無しさん mailto:sage [05/01/25 20:20:37 ]: すもももももももものうち
21 名前：デフォルトの名無しさん [05/01/25 21:45:51 ]: 最初に区切りとなる文字を探すところから始める?
22 名前：デフォルトの名無しさん mailto:sage [05/01/25 21:52:35 ]: プロが来ないと駄スレの予感…
23 名前：デフォルトの名無しさん mailto:sage [05/01/25 22:01:41 ]: 形態素解析システム茶筌
ttp://chasen.naist.jp/hiki/ChaSen/
24 名前：デフォルトの名無しさん mailto:sage [05/01/25 22:22:19 ]: はんかくかたかなはやめろ

半角カタカナ早めろ
半角カタカナは止めろ

単なる誤変換スレ化？
25 名前：デフォルトの名無しさん mailto:sage [05/01/25 23:28:36 ]: >>22
すでに研究されつくされたテーマって気がするが。
1はスレ立ててないで、論文探した方がいいんじゃないの？
26 名前：デフォルトの名無しさん mailto:sage [05/01/25 23:29:37 ]: >>25
本当にそうかな？
もしそうなら完璧にできるソフトが存在するはずだ。
27 名前：デフォルトの名無しさん mailto:sage [05/01/25 23:34:31 ]: そうとも限らんだろ。
完璧にできるソフトが作れるはずの論文が存在するはずだ、
ならいえるかも知れないが。
28 名前：デフォルトの名無しさん mailto:sage [05/01/25 23:39:03 ]: もしくは完璧に作るのは不可能だ、という論文な。
29 名前：デフォルトの名無しさん mailto:sage [05/01/25 23:44:04 ]: >>28
その手の論文は数十年後に破られるのがありがちな話なので、それはなんとも。
30 名前：デフォルトの名無しさん mailto:sage [05/01/26 03:59:06 ]: >>29
> その手の論文は数十年後に破られるのがありがちな話なので、

実例キボン
31 名前：デフォルトの名無しさん mailto:sage [05/01/26 06:28:42 ]: 完璧に出来てるだろ
茶筅とか
あとは辞書を増やすだけ
32 名前：デフォルトの名無しさん mailto:sage [05/01/26 07:03:44 ]: 統計推論型のはまだ全然
33 名前：デフォルトの名無しさん mailto:sage [05/01/26 15:03:57 ]: なんつーか先が無さそうでかわいそうな分野だよね
34 名前：デフォルトの名無しさん mailto:あげ [05/01/27 06:45:35 ]: じゃあこのスレで日本語変換システムを一つ作るってのはどうだ？
かんなやうんぬは丸っきりクソだろ？
35 名前：デフォルトの名無しさん mailto:sage [05/01/27 07:01:31 ]: 名前は「ぬるぽ」
36 名前：デフォルトの名無しさん [05/01/27 07:10:51 ]: >>34
Windows用なら参加する。
37 名前：デフォルトの名無しさん mailto:& [05/01/27 07:50:52 ]: 形態素解析のアルゴリズムさえできれば、WindowsでもXでも使えるだろう。
38 名前：デフォルトの名無しさん mailto:sage [05/01/27 09:12:34 ]: UnicodeかShift_JISかeuc-jpか。文字コード多いよ。低レベルの処理ではデータ構造を抽象化すると遅くなるから、高位のメソッドを抽象化しないと。
gchは抽象化された符号なし文字。
typedef unsigned int uint;
inline gch*GchNext(gch*);
inline gch*GchPrev(gch*,gch*);
inline uint GchLen(gch*);
39 名前：デフォルトの名無しさん mailto:sage [05/01/27 09:59:27 ]: まず、お前のエロ雑誌に出現する品詞をKAKASIかCHASENかJUMAN使って統計してくれ。
40 名前：デフォルトの名無しさん mailto:sage [05/01/27 10:11:38 ]: >39
をっさん、何を統計するだ？

品詞の数、品詞の並び方のパターン、パターンのパターン…。
文法上の属性か？
41 名前：デフォルトの名無しさん mailto:sage [05/01/27 13:38:18 ]: まあどうがんばってもATOKには勝ち目ないし
42 名前：デフォルトの名無しさん mailto:sage [05/01/27 19:53:40 ]: まずはどういう設計にするのかを決めないと。データだけあっても仕方がない。
43 名前：デフォルトの名無しさん mailto:sage [05/01/27 19:54:42 ]: いや、データさえあれば簡単だ。俺なら１日で組める。
44 名前：デフォルトの名無しさん mailto:sage [05/01/27 20:03:54 ]: >>43
それだったら君個人で作ればいいじゃない。
45 名前：44 mailto:sage [05/01/27 20:06:18 ]: ごめん、全言撤回。
46 名前：デフォルトの名無しさん mailto:sage [05/01/27 20:07:13 ]: だからデータがねえっつってんだろ。
日本語わからねえのか？
おまえこそ形態素解析勉強して日本語読めるようになれよ。
47 名前：44 mailto:sage [05/01/27 20:07:54 ]: ×全
○前
48 名前：デフォルトの名無しさん mailto:sage [05/01/27 20:11:09 ]: >>46
どんなアルゴリズムにするつもりなの？
データが豊富にあったら良い物ができるの？本当に？
49 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:00:31 ]: アルゴリズムなんて問題じゃない。
何度も言うが、必要なのはデータとデータ構造だ。
50 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:10:05 ]: 文法データならCHASENとKAKASIからXMLパーサ使って借りてこい。
他のちまちましたデータは辞書.comや省庁回ってこい。
51 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:13:24 ]: ポータルサイトも膨大な情報を分類しているだろ
52 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:19:24 ]: 細かい実装はうんぬの公開情報見ればいいだろ。今は変換先読みとWeb辞書連携が主流だ。
53 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:20:58 ]: なんでそんなに堅実に作ろうとするんだろう。
新規性はないの？
54 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:25:59 ]: 日本語ワープロの元祖では変換候補を木構造でしぼりこんでいく単純なものだ。それこそデータがあれば一日で作れる。
大学のwebに逝けば変換方法の論文は腐るほど見付かる。ぐぐれ！
55 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:28:46 ]: >>54
うん、知ってる。
56 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:32:22 ]: ここで作れるのは、特定の用途に特化した入力補助エンジンと概念データベースくらいだろ？違うか？
57 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:35:22 ]: いちいち探すのマンドクサイ。誰か秘密基地作れよ
58 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:50:31 ]: ａを任意の名詞節とする。文「ａを食べる」をJUMANやKAKASIなどで統語的に調べ、機械的に品詞並びにする。
文「ａを食べる」が真の場合、ａは食べ物に分類される。このように、その文の真偽から食べ物かどうかを知ることができる。
文が偽の場合、その文はどんな文脈にあるか？
59 名前：デフォルトの名無しさん mailto:sage [05/01/27 21:57:24 ]: >58
夢や空想、憶測などの心の中の出来事や会話などの文脈に多い。～と思う、～と言う、考える。
また、物語や体験談などでは以前の勘違いを打ち消すことが多い。
60 名前：デフォルトの名無しさん mailto:sage [05/01/27 22:01:56 ]: このように、比較的規則的に書かれた文書から概念の意味や分類法を抽出できるはずだ。
61 名前：デフォルトの名無しさん mailto:sage [05/01/27 22:10:14 ]: >60
要するに、２ちゃんねるみたいな不規則なソースから知能を作るのは無理そうだな。
62 名前：デフォルトの名無しさん mailto:sage [05/01/27 22:12:10 ]: >>61
2ちゃんねるは日本語としておかしい文章が多いけれど、規則性がないとは言えない
と思うような気がするでそ
63 名前：デフォルトの名無しさん mailto:sage [05/01/27 22:25:10 ]: そこで「知能とインターフェースの段階的進化法」を唱える！
64 名前：デフォルトの名無しさん mailto:sage [05/01/28 11:10:05 ]: 「ん」を「そ」に変えれば２ちゃん語っぽくなる
65 名前：デフォルトの名無しさん [05/01/29 21:59:33 ]: 形態素解析された誤りの含まれた文章を、文字マルコフ連鎖で誤りの場所を
探したのですが上手く誤りの場所を探すことができませんでした。
何かいい方法はないでしょうか？アドバイスください、よろしくお願いします。
66 名前：デフォルトの名無しさん [05/01/29 23:44:34 ]: >>65
出来の良い売り物を買えばよいです
67 名前：デフォルトの名無しさん mailto:sage [05/01/30 01:34:18 ]: >>65
総当たり
68 名前：デフォルトの名無しさん mailto:sage [05/01/30 05:45:19 ]: >>33
> なんつーか先が無さそうでかわいそうな分野だよね
ある手法のことをウェブで比較的あっさり批判してる人がいて、批判された方
がマジでキレてるのには笑った。同じ専門分野の研究者として悲しいとか恥か
しい、みたいなことまで書き連ねてた。

批判の内容が正当なのか間違ってるのかは自分は門外漢だから判断できん。で
も研究の上で不当な批判を受けるのなんか当たり前。誤解や不当な評価があっ
たら、無視したっていいし、冷静に反論してもいい。

細かいことを感情的にウジウジつつくようになってるのはタコツボ化してる何
よりの証拠だね。
69 名前：デフォルトの名無しさん mailto:sage [05/01/30 15:12:04 ]: >>65
単純にマルコフ連鎖だけを頼りにすると、助詞が邪魔になってうまくいかないって意味？
70 名前：デフォルトの名無しさん mailto:sage [05/01/30 15:25:47 ]: つーか、どんなレベルの誤りを検出しようとしている？
71 名前：デフォルトの名無しさん mailto:sage [05/01/30 15:42:05 ]: >>70の文章だと全体に下線がつくレベル。
72 名前：デフォルトの名無しさん mailto:sage [05/01/30 16:14:15 ]: >>65
ベイズ推定使え。
73 名前：デフォルトの名無しさん mailto:sage [05/01/30 16:39:53 ]: >>72
bayesはどう考えても無茶だろ(藁
74 名前：６５です [05/01/31 00:11:16 ]: 音声認識装置によって書籍を何文か出力させて、これをマルコフ連鎖モデル
にかけて置換誤りなどの誤りの場所を探したいのですが誤りのある部分が閾値を
下回ってくれず上手くいきませんでした。これは音声認識装置は単語区切り（形態素解析）
で文章を出力しているので文字マルコフでは有効ではないということなのでしょうか？
上手く探すいい方法はないでしょうか？（構文解析とか使うのかなあ？）
詳しい方、アドバイスもらえないでしょうか。長文でゴメンナサイ。
75 名前：デフォルトの名無しさん mailto:sage [05/01/31 01:45:11 ]: 閾値を厳しくする
76 名前：デフォルトの名無しさん [05/01/31 03:31:01 ]: 誰かがいぜんやってたが、２ｃｈのスレを形態素解析する。そしてマップを作る。
そこまではそいつがやってたが、精度をあげ、リンクなども絡めて
新しい掲示板のトップメニューとして確立したらどう？
まったく新しいインデックスになるよ。KnoppixのHPで紹介されてる
ウェブの中での自分の位置みたいな地図を
掲示板に特化して作るわけ。
そうするとインデックスからスレ同士の関係が把握しやすい。

例えば総合の質問スレにレスつけるか専用の質問スレにレスつけるかどうか
検索せずに目的のスレの大体の場所がわかる。そのスレから引用されてる、
もしくは言及されてる単語が載っているほかのスレも判る。

って、WebProgの新しい掲示板作るスレで言ったらまったく相手にされなかったよ
77 名前：デフォルトの名無しさん [05/01/31 08:18:43 ]: それと同じことはベイズ推定を利用したメールのフィルタリング機能やWikiの機能として
既に実現されてるけどな。
78 名前：デフォルトの名無しさん mailto:sage [05/01/31 18:38:30 ]: このスレ全体的に他のスレよりレベル高杉。
もう少しかみ砕いて、わかりやすく説明してください
79 名前：デフォルトの名無しさん mailto:sage [05/01/31 20:12:49 ]: マルコフとかベイズとか日本語の解析するなら日本人だしてこいや。
名前出せるほどのものがあるかどうかはしらんが…。
80 名前：デフォルトの名無しさん mailto:sage [05/01/31 21:36:48 ]: >>78
2・3の専門用語が出ているけれど、この世界では当り前だから、要は慣れです。
知っているか知っていないかの違いですね。
しかも、それほど複雑でも無いので、自分で調べてください。
81 名前：デフォルトの名無しさん mailto:sage [05/01/31 22:50:45 ]: >>76
スレタイ検索に実装して、関連スレを検索可能にするのも楽しそうだけど
82 名前：デフォルトの名無しさん [05/01/31 23:49:38 ]: >>76
カキコしている人が無意識のうちにやってるカテゴライズを
もう一回やり直すのね。
83 名前：デフォルトの名無しさん mailto:sage [05/02/01 01:44:42 ]: >>76
形態素分析なんかしないで、スレの内容を適当にベクトル化して
クラスタリングでもしてみるのも面白いかもしれない。
84 名前：デフォルトの名無しさん mailto:sage [05/02/01 02:00:57 ]: >>83
自分で何言ってるかわかってないだろ。
ベクトル化の前に形態素解析(でもn-gramでもいいけどさ)があるんだろ。
85 名前：デフォルトの名無しさん [05/02/01 02:09:14 ]: 形態素解析せずにスレの内容をベクトル化する方法を教えてください
86 名前：デフォルトの名無しさん mailto:sage [05/02/01 04:16:29 ]: >>85
文字種でベクトル化
日本語の場合、結構いけるかもよ
87 名前：デフォルトの名無しさん [05/02/06 02:01:36 ]: 例
www.touchgraph.com/TGGoogleBrowser.php?start=unit.aist.go.jp/it/knoppix/
88 名前：デフォルトの名無しさん mailto:sage [05/02/09 01:03:38 ]: 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
用いれば簡単にできます。
ただし、問題は、そのためには、各種辞書とかが必要です。
もちろん、それに伴う、確率値とか、コストとか。

さらに、連語とか、複合語とかをどのようにあつかうかとか、
未知語(辞書にない言葉)とかをどのように扱うとか、
いろいろな問題があります。

そこらあたりをなんとかかいぬぐり実用に達しているのが、茶筅とか
その部類の有名な形態素解析な感じです。

研究的にはやりつくした感はありますが、実用にはほど遠いと思います。
これはもはや情報処理というよりは言語学の力を借りないと難しいな
と、個人的には思います。
89 名前：デフォルトの名無しさん mailto:sage [05/02/09 04:54:41 ]: >>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
「ヴィタビ」(もしくはビタビ)ってんだよ。
90 名前：デフォルトの名無しさん [05/02/09 08:37:26 ]: えっと、kakasi のいわゆる「お知らせ問題」は、
もうどうしようもない事実として受け止めるしかないんでしょうか？
ofo.jp/osakana/diary20030522.phtml

POPFile とかも kakasi を使ってるんで、
なんとか解決方法 & パッチは無いものかと思っているんですが。
91 名前：デフォルトの名無しさん mailto:sage [05/02/09 08:53:35 ]: >>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
> 用いれば簡単にできます。

理屈としてはヴィタビがいいけど、実際に使われるのはA*が多いだろ。
92 名前：デフォルトの名無しさん mailto:sage [05/02/09 11:46:08 ]: >>90
「お知らせ」なら「知らせ」で検索させた後で
「お」が付く文脈かどうか判定するフロントエンド作れ。
93 名前：デフォルトの名無しさん [05/02/11 21:17:11 ]: おまいら、教えて下さい。
漏れのマシンは別に一太郎やらATOKやらはインスコしてないのに
C:\Program Files\Justsystem\JSLIB32\AddWord2.exe
なんてものがあります。で、バージョン情報を見たら
「Js形態素解析登録ﾌﾟﾛｸﾞﾗﾑ」とかってなってますた。これってなんですか？
どうしてこんなもんが入ってるか調べる方法とかありますか？
94 名前：デフォルトの名無しさん mailto:sage [05/02/11 21:42:32 ]: スレ違い
95 名前：93 mailto:sage [05/02/11 23:38:49 ]: 　　　　〃〃∩ 　_, ,_
　　　　　⊂⌒（　つД｀）
　　　　　　｀ヽ_ ノ ⊂ノ
　　　　　　　　　　　　　　グスグス・・

　　　　　　　∩
　　　　　⊂⌒(　　_, ,_）　ｸﾞｽﾝ・・・。
　　　　　　｀ヽ_つ ⊂ノ
96 名前：デフォルトの名無しさん mailto:sage [05/02/12 10:01:04 ]: 取りあえずそれを立ち上げて
www.sysinternals.com/ntw2k/freeware/procexp.shtml
こういうのでどのプロセスが他に起動するか見てみればどう？

もしくは他のソフトを一個一個試してみてその形態素解析の奴が一緒に
立ち上がった瞬間を見ておくしかないな。

サービスの一つに関連付けられてるかもしれんし。

わかったら何のためのプログラムか、何に使えるのか報告ヨロ
97 名前：デフォルトの名無しさん [05/02/12 15:00:27 ]: 教えてください。
昨年からJuman-4.0を使っています。
これはどのような特徴を持ったソフトなのですか。
98 名前：デフォルトの名無しさん mailto:sage [05/02/12 15:05:38 ]: >>97
chasen.org/~taku/blog/archives/2004/02/chasen_2.html
99 名前：デフォルトの名無しさん [05/02/12 17:23:44 ]: 文楽の義太夫なんか聴く場合、7・5調の音数律のような意識を
働かさないと理解しがたい。少なくとも私には。
こういうものがメインにはなりえないだろうが、並列処理で
音数律解析が働いている、なんてことはできないものだろうか。
100 名前：デフォルトの名無しさん [05/02/12 21:34:30 ]: 日本語の文を形態素解析すると、構文木を作成できると思います。
その構文木から動詞基準で格構造を抽出する方法ってあるでしょうか？？
意味解析が利用できれば可能なのでしょうか・・

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef