形態素解析と日本語処理

形態素解析と日本語処 ..

245:デフォルトの名無しさん
06/09/13 04:24:11
>>243
＞複合語の抽出には形態素解析とは別のアプローチが必要
「従来の形態素解析」とは、なんじゃ・・・・
形態素解析について詳しい訳じゃないけど、複合語抽出を
構文解析とみるか、形態素解析と見るかで言えば、形態素解析の範疇だと思うけど、
「いいや,構文解析だ！！」と叱られてしまうと、嫌な気分になって言い返せないし、
「これこれこういう理由が有って構文解析だ！！」と言われると一つ勉強になるので
ありがたい。

とわいえ、形態素解析、複合語抽出、構文解析、と言う話も有るとも思うし。

246:デフォルトの名無しさん
06/09/15 04:05:27
複合語を形態素として取り出す
だなんて意味不明なレス相手にマジレス乙

247:デフォルトの名無しさん
06/09/15 16:32:39
質問者の要求がそういうことだから不可能だと書いてるんじゃ

248:242
06/09/23 23:37:34
回答ありがとうございます。
つまり形態素解析後、「エキゾチック」と「マグナム」の組み合わせが
未知のものであるか？という判定を何らかの方法で行わないと、
複合語を不明単語として取り出すことはできないということですね。

オタ同士の会話だと、即席の複合語がその場で作られたりすることも
あるので、難しいですね・・・。

249:デフォルトの名無しさん
06/09/24 00:28:24
そもそも一意の解析結果を得ることが不可能だと気づけ。
「エキゾチック＋マグナム」が98%、「エキゾチックマグナム」が1%、その他が1%、
みたいな解析結果のほうが、現象の記述としてより忠実。

250:デフォルトの名無しさん
06/09/24 07:29:35
ネイティブ（つまり日本人）に聞いたとしても
「エキゾチックマグナム」を1語と思うか2語と思うかは意見が分かれるだろうからね

251:デフォルトの名無しさん
06/10/10 19:18:09
mecabと一緒に配布されてる辞書を可変して流用したいけど、著作権的に大丈夫だろうか。

252:デフォルトの名無しさん
06/10/10 19:21:22
>>249
その辺は使用頻度＝単語の区分けという認識で問題ないのでは？

253:デフォルトの名無しさん
06/10/10 19:22:10
まあ辞書自体に頻度表がついてるものはないがｗ

254:デフォルトの名無しさん
06/10/10 19:27:55
>>253
形態素辞書ならたいてい付いているんじゃないの？

255:デフォルトの名無しさん
06/10/10 20:18:15
>>254
そんなのが本屋売ってるかよ

256:デフォルトの名無しさん
06/10/10 23:18:07
>>255
広東語でおｋ

257:デフォルトの名無しさん
06/10/11 03:27:58
形態素的辞書没有

258:デフォルトの名無しさん
06/10/11 12:21:56
中国語の形態素解析

259:デフォルトの名無しさん
06/10/11 14:16:40
漢語的形態素解析

260:デフォルトの名無しさん
06/10/12 12:28:22
例えば「書きながら」をmecabにかけると、

書き：動詞,自立,*,*,五段・カ行イ音便,連用形,書く,カキ,カキ
ながら：助詞,接続助詞,*,*,*,*,ながら,ナガラ,ナガラ

が吐かれるけど、辞書を見ると「書き」自体の文字情報はなく、
あるのは「書く,カキ,カキ」だけ。
活用の解析はどうやってるんだろう。
単純に読みだけを見るとしても、漢字1文字=読みのカナ1文字とは限らないし。

261:デフォルトの名無しさん
06/10/12 19:23:37
書き＋カ行イ音便つう形態素辞書エントリーだけで、
書か(ない)、書き(ます)、書く、書け、書こう
みたいな検索が全部ひっかかる、それだけの話だと思うけど。

262:デフォルトの名無しさん
06/10/12 19:25:39
>>252
使用頻度∝単語区分けの適合確率
だろｗｗｗｗ

263:文学
06/12/18 03:52:31
mecabで読み仮名を取得するには
どうやればいいのでしょうか？

264:デフォルトの名無しさん
06/12/18 12:43:32
まにゅある嫁

265:デフォルトの名無しさん
06/12/25 20:00:37
民明書房刊「マニュアル嫁」
第六章結婚前後の諸心得
　第二節甘美な新婚旅行

　- 入浴をするとき -
夫としては、
「どうです、一緒に入りませんか」
　というのが一応のエチケットとなっている。しかしお互いにまだ清浄な関係
である場合には、新婦としていきなりその言葉に従い、いそいそとして夫につ
いて行くのはどうかと思う。初夜が済むまでは矢張り、ほのかな羞恥の色を漂
わせながら、にこやかに
「ええ、でも、あとでいただきますわ」
　と柔かく辞退して別々に入浴する方が好ましい。夫としてもそれが花嫁のエ
チケットだと思って、しつこくすすめないことである。
　しかし初夜が済んでからは、最早や完全な夫婦となったのであるから、二人
で入る方が却ってよろしい。そうだからといって、矢張り女としてのはにかみ
は忘れてはならない。湯船に入るときでも
「おねがい、向う向いてて」
　などといっておいて、静かに入る。また湯船の中でも、乳のあたりへはタオ
ルを軽く当てて、ともかく露骨になるようなことは避けなければならない。

266:デフォルトの名無しさん
06/12/25 21:01:31
>>265
わっふる、わっふる

267:デフォルトの名無しさん
06/12/26 01:15:36
YOMIのRESTってどうやって使うんすか？

268:デフォルトの名無しさん
07/01/02 03:50:30
URLﾘﾝｸ(e8y.net)

!!!

269:デフォルトの名無しさん
07/01/02 04:44:54
何故かcgiコードが丸見え

270:デフォルトの名無しさん
07/02/02 12:06:30
NTTが作ったすももってどうやれば入手できるの？
なんかデッドリンクで公開ページがないんだけど。
mecabより強力なら是非手に入れたい。
ついでにage

271:デフォルトの名無しさん
07/02/07 15:14:44
MORPHOLOGY

↑なんか異常にかっこいい

272:デフォルトの名無しさん
07/05/03 18:18:07
外国人がローマ字で表記した口語体の日本語を
漢字仮名まじりの通常の表記に効率的に
変換するために役立ちそうなソフトウェアを
探しています。

例：
kekkou kireinagakkou zyanai
結構　奇麗な学校　じゃない

全自動変換では間違いが多そうなので，ソフトウェアが
提示するいくつかの変換候補の中から，正しいものを日
本人のオペレータが選ぶ，という作業を考えています。

少しでも作業効率を上げるためのヒント，ソフトウェア
などはございますでしょうか？

273:デフォルトの名無しさん
07/05/03 23:05:46
例を見る限り形態素に分かれているかいないかは任意か
面倒くさいなり

274:デフォルトの名無しさん
07/05/04 01:18:55
ローマ字のテキストをソフトに音読させて、それを聞きながら
オペレータがワープロ入力するのが一番速そうな気がする。

275:デフォルトの名無しさん
07/05/04 21:57:06
>>272
それは俺らが日本語を入力するとき使うのと同じ仮名漢字変換に、
何らかの方法でテキストを渡せばできそう。

276:デフォルトの名無しさん
07/05/04 21:59:35
>>272
LinuxならAnthyでできたよ。最後の(space)は変換用。
$ echo "kekkou kireinagakkou zyanai(space)" | anthy-agent
(3 ((UL RV) "結構" 0 7) ((UL) "きれいな" 0 4) ((UL) "学校じゃない" 0 3))

277:デフォルトの名無しさん
07/05/04 22:03:33
>>274
速記をなめてね？

278:デフォルトの名無しさん
07/05/05 23:36:56
>>275
はい、そこまでは理解できますが、実際にどのような
方法で可能かが分かりません。

>>276
素晴らしく分かりやすい実例までありがとうございます。
Anthyを試してみます。

279:デフォルトの名無しさん
07/05/06 10:31:03
そういやajaxでIMEってのあったよね
あれ、どういう仕組みなんだろ

280:デフォルトの名無しさん
07/05/06 12:15:07
JavaScriptからIMEを少しだけ弄れたようなきが。
多分JavaScriptよりもっと干渉できるやつでも使ってるんじゃないの？DirectXとか。

281:デフォルトの名無しさん
07/05/06 22:14:27
>>280
URLﾘﾝｸ(chasen.org)

連休中なので、動いていない？

282:デフォルトの名無しさん
07/05/07 09:59:40
こっち。
URLﾘﾝｸ(ajaxime.chasen.org)

283:デフォルトの名無しさん
07/08/31 15:47:46
sage

284:デフォルトの名無しさん
07/09/01 13:46:11
そもそも、公式文章でも方言のような専門用語や表現方法が多様しているのに
地方や皇族、政治、あらゆる専門分野、日本語が１つだと定義すれば扱えない
言葉や用語だらけになる。
会話言葉と目的別文章でも激しく特定できない。
>>1
>まず単語や品詞に分ける必要があります。
機械的な言葉の分類遊びならともかく。。。。。。
これは正しいとはいえない。言葉というのは柔軟性があり生き物である。
別ける時点で意味が変更されることもある。ある程度まとまった文節で
巨大辞書で判断するのが妥当でしょう。
文法で明らかに変でも通常の言葉として扱われているものとかＮＨＫとかで
時々解説放送がある。それらは言葉が生き物であることを証明するもので、
日本語は言葉として扱うのではなく、概念として扱うべきです。
翻訳が正しくても作成者の意味が通じないのでは翻訳としてはできそこないです。
日本語を正しく扱えるには価値観とその雰囲気、心を読み解く抽象認識処理が
必須になるでしょう。

285:デフォルトの名無しさん
07/09/01 20:28:27
と、へんてこ日本語モドキで力説されてもなあ。

286:デフォルトの名無しさん
07/09/02 08:49:46
拓ちゃんがいるのに
最近のグーグルの調子はおかしいよね

287:デフォルトの名無しさん
07/09/05 19:11:28
>>276
anthy-agent にひらがな入力する方法はないのかな。

288:デフォルトの名無しさん
07/12/19 18:41:14
質問です！！
yahoo!の形態素解析使ってるんですがreadingがうまく表示されません。
surface pos readingと表示させようとしたら
美しい　形容詞　形容詞　となぜか、readingにも品詞が入ってるみたいな気がします。
reading単体で使ってもなぜか品詞が返ってきます。

どなたか助けてください。。。

289:デフォルトの名無しさん
07/12/19 18:42:48
ageマス。

290:デフォルトの名無しさん
07/12/19 18:43:54
必死で申し訳ありませんが、ルビーを使ってます。

291:デフォルトの名無しさん
08/02/04 10:20:29
形態素まで行かずに単語分解だけをしようと思います
言語を文書から自動生成したい

こんなのありますよ　参考に

辞書不要の形態素解析エンジン「マリモ」とは　URLﾘﾝｸ(www.atmarkit.co.jp)

292:デフォルトの名無しさん
08/02/04 10:24:54
各文書を特徴づける重要語を計算して、
どの文書でも重要でない単語を無視すれば良い単語帳が作れるはず

TF・IDF法
URLﾘﾝｸ(nlp.nagaokaut.ac.jp)

293:デフォルトの名無しさん
08/02/04 11:16:52
URLﾘﾝｸ(d.hatena.ne.jp)
ここなかなかいいよ

294:デフォルトの名無しさん
08/02/04 12:16:30
類似語とそうでないものを判別するにはどうすればいいですか

類似語　
勝利　大勝利

類似語でない
本人日本人
カウントアカウント
京都東京都

295:デフォルトの名無しさん
08/02/04 12:18:23
お前が今分けた手順でおｋ

296:デフォルトの名無しさん
08/02/04 12:25:33
>>295
自動化したいのですが　こういうやつはどうやればできますか
URLﾘﾝｸ(labs.preferred.jp)

297:デフォルトの名無しさん
08/02/04 12:35:09
類似語が分類できるならば、単語分解もそこに含まれるから
類似語の分類をするルーチン作ろうぜ

298:デフォルトの名無しさん
08/02/04 13:47:37
単語らしさはどうやって判定したらいいですか
あと形態素解析はあまり有効でない気がします
何故ならば日本語研究が必須になってしまう為です　韓国や中国に対応できないし

素解・・・あり得ない
形態素・・・ある
本語・・・あり得ない
日本語・・・ある

というのを数値的に表したいものです

299:デフォルトの名無しさん
08/02/04 22:40:26
日本語の文法の知識が全くない状態から、品詞分解とその接続を求めることは出来るのでしょうか

300:デフォルトの名無しさん
08/02/04 22:46:53
類似単語が判れば、それを同一視することで類似文書が判りますね
１単語のズレのある類似文書から品詞分解が判りますかね
たとえば
僕は釣りをします　→　僕　は　釣り　を　します
私は料理をしますわ　→　私　は　料理　を　しますわ　→　僕　は　料理　を　します

とすると、釣りと料理は同じ分類だと判明します

301:デフォルトの名無しさん
08/02/04 22:51:21
>>298
文法研究をすっ飛ばして考えるなら、
文章のログから部分共通文字列を探せば見つかるような気がする。

302:デフォルトの名無しさん
08/02/05 00:22:01
圧縮接尾辞配列っていいみたいだけどわかる人いますか

303:デフォルトの名無しさん
08/02/05 00:57:54
圧縮接尾辞配列ってブロックソーティング、Burrows-Wheeler変換やるみたいだね

304:デフォルトの名無しさん
08/02/05 06:37:27
バカ過ぎる

305:デフォルトの名無しさん
08/02/05 09:54:40
>>294
京都と東京都は、地名として考えたら類似じゃない？

306:デフォルトの名無しさん
08/02/05 11:15:02
狂都
東狂都

307:デフォルトの名無しさん
08/02/05 11:42:17
圧縮接尾辞配列を調べたけど、大規模なインディックスにはむかないと思う
インディックスサイズが小さくできても
ウェブページのようにメモリに全て載せられないなら検索速くならないし・・・

308:デフォルトの名無しさん
08/02/05 11:44:29
向いているのはCHMの代わりになる位だな　
ファイルサイズ小さくできてサイズの3～5倍のメモリ消費ですむだろうから

309:デフォルトの名無しさん
08/02/05 11:55:19
↓こう書いてあるけど絶対にこの方針ではgoogleの足下にも及ばないと予測する

「Googleの弱点を克服したアルゴリズムによる検索エンジンを世界で初めて実装した」
Sedue：圧縮接尾辞配列を実装した初の商用検索エンジン
URLﾘﾝｸ(itpro.nikkeibp.co.jp)

310:デフォルトの名無しさん
08/02/05 19:13:35
>>309
接尾語処理なんて、google以前から大抵の検索エンジンでやってたことなのに・・・

311:デフォルトの名無しさん
08/02/05 20:19:16
suffix arrayでぐぐっとけ、カスが

312:デフォルトの名無しさん
08/02/05 22:12:20
バカ過ぎる(笑)

313:デフォルトの名無しさん
08/02/06 12:52:48
各単語の出現確率を調べておきもっとも確率の高い分割をもとめればいいと思う

たとえば、日本語はご存じの通り、文章が単語で区切られていません、なら

日　本語　は　ご　存じ　の通　り、　文　章が　単　語で区　切られて　い　ま　せん　の確率は0.01%

日本語　は　ご存じ　の　通り　、　文章　が　単語　で　区切られて　いません　だと10%

とか計算できればよい

314:デフォルトの名無しさん
08/02/06 21:24:05
>>313
ひょっとしてマルコフ連鎖のことを言いたい？

315:デフォルトの名無しさん
08/02/06 22:35:11
文字列をビット単位で連鎖の統計取ればデータ蓄積量の多さによっていつかは統計的な形態素解析器ができるはず！！！！１１１

316:デフォルトの名無しさん
08/02/07 04:54:43
>>314
マルコフ連鎖とは違う
前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの

317:デフォルトの名無しさん
08/02/07 05:05:06
もっとも単語になりやすそうな部分で区切ることで計算量は減らせるはず
たとえば、文書が１単語となる確率が高いなら、次のように分割され残りの文書は短い

たとえば、日本語はご存じの通り、

文章

が単語で区切られていません

318:デフォルトの名無しさん
08/02/07 05:16:59
first loaded.

319:デフォルトの名無しさん
08/02/07 05:30:29
　
日本語￥n+xは￥n+x単語￥n+xに￥n+x拠って￥n+x区切られ￥n+xます￥n+x。　
ですが￥n+x、￥n+x詳細￥n+xの￥n+x作成￥n+xは￥n+x大変￥n+xな￥n+x事￥n+xでしょう￥n+x… 　　

320:デフォルトの名無しさん
08/02/07 07:21:39
>>316
だからマルコフ連鎖をA*探索したのとどう違うんだって？

321:デフォルトの名無しさん
08/02/07 21:14:40
naist-jdic ﾏﾀﾞ－?

322:デフォルトの名無しさん
08/02/07 23:29:31
>>320
前後のつながりだけじゃないって書いてるじゃん。

323:デフォルトの名無しさん
08/02/07 23:36:23
＞前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
ここをもうちょっと formal な形で言わないと伝わらないと思われ
どういう確率モデルを想定しているのか。つーか俺にも伝わってない
単語分割をマルコフ連鎖でモデル化したのなら >320 の指摘通りだと思うのだが

324:デフォルトの名無しさん
08/02/10 16:31:23
このへんとか
URLﾘﾝｸ(www.amazon.co.jp)

325:デフォルトの名無しさん
08/02/10 16:37:25
>>324
ああ、その本はいい本だよ。B4のゼミとかに丁度いいんじゃないかな。

326:デフォルトの名無しさん
08/02/11 08:21:36
結局313が何を言いたかったのかは謎なまま時は過ぎてゆく…

327:デフォルトの名無しさん
08/02/23 13:44:46
音声の検索システムできた。

328:デフォルトの名無しさん
08/02/23 14:13:43
ソースうp

329:デフォルトの名無しさん
08/03/27 07:31:14
>MySQLおよびPostgreSQLで日本語キーワードインデック
>スを実現しているもの(Sennaおよびtextsearch-ja)は、
>現在バックエンドエンジンとしてMecabを推奨してい
>るようです。

あるフォーラムあらのコピーですが、本道だとすると、
すごいですね？！ AppleのOSXの日本語処理もMecab?

Mecabの一人勝ちか。

330:デフォルトの名無しさん
08/03/29 01:45:22
>>329
>AppleのOSXの日本語処理もMecab?

そうなん?
Mac OS X には Language Analysis Manager というのがあるけど。
ありゃ、リファレンスを見ると Leopard から deprecated だな。

331:デフォルトの名無しさん
08/04/05 11:11:05
>>330
おっと、ちょっと調べたら確かにMeCabが使われてるね。知らんかった。

332:デフォルトの名無しさん
08/04/05 23:48:58
なさけねえな、Apple
スピーチ周りでVocaloid時代を十数年先取りしてた企業のくせに
自社技術捨ててオープン物に蔵換えか
そろそろジョブズ氏ねよ

333:デフォルトの名無しさん
08/04/07 06:31:49
>>332
初音ミクのApple版でも出せってかw
まー形態素解析ってメインは日本語とかでしょ。アジア方面はもともと「二の次」感が。

オープンソースで手に入る共通な技術があったなら使わせてもらう、というのが流れ
なのかなあと。もう何から何まで自家製というんじゃなくて、企業として独自性を
打ち出す部分だけ頑張る、みたいな感じなんじゃないかな。

334:デフォルトの名無しさん
08/04/07 19:37:41
しょうがないよ、マック信者は舶来物信者だから、アジア方面に力を入れないほうが売れるんだよ。

335:デフォルトの名無しさん
08/04/09 21:10:16
ただのりあぽーか。

336:デフォルトの名無しさん
08/04/22 02:47:39
blog界隈で信者のMac IMEを褒めたたえる声が目立つと思ったら、
オープンものに頼った結果ってことか。
奴らの言う最先端とやらは素晴らしい技術力だことで（呆

MS-IMEの糞っぷりも失笑ものだが、
Macの信仰のしどころの間違いっぷりは抱腹絶倒だな

337:デフォルトの名無しさん
08/04/22 07:44:33
Mac に IME なんて無いけどな。

338:デフォルトの名無しさん
08/04/27 00:53:20
今はもうInput Method EditorのEはつけずにIMって呼び方のほうが一般的じゃない？