- 1 名前:デフォルトの名無しさん [05/01/25 07:38:01 ]
- 日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。 これを形態素解析といいます。 このスレでは、その形態素解析について語っていきましょう。
- 289 名前:デフォルトの名無しさん mailto:age [2007/12/19(水) 18:42:48 ]
- ageマス。
- 290 名前:デフォルトの名無しさん mailto:age [2007/12/19(水) 18:43:54 ]
- 必死で申し訳ありませんが、ルビーを使ってます。
- 291 名前:デフォルトの名無しさん [2008/02/04(月) 10:20:29 ]
- 形態素まで行かずに単語分解だけをしようと思います
言語を文書から自動生成したい こんなのありますよ 参考に 辞書不要の形態素解析エンジン「マリモ」とは www.atmarkit.co.jp/news/200708/15/mooter.html
- 292 名前:デフォルトの名無しさん [2008/02/04(月) 10:24:54 ]
- 各文書を特徴づける重要語を計算して、
どの文書でも重要でない単語を無視すれば良い単語帳が作れるはず TF・IDF法 nlp.nagaokaut.ac.jp/wiki/wiki.cgi/term?page=TF%A1%A6IDF
- 293 名前:デフォルトの名無しさん [2008/02/04(月) 11:16:52 ]
- d.hatena.ne.jp/nskt0628/
ここなかなかいいよ
- 294 名前:デフォルトの名無しさん [2008/02/04(月) 12:16:30 ]
- 類似語とそうでないものを判別するにはどうすればいいですか
類似語 勝利 大勝利 類似語でない 本人 日本人 カウント アカウント 京都 東京都
- 295 名前:デフォルトの名無しさん mailto:sage [2008/02/04(月) 12:18:23 ]
- お前が今分けた手順でおk
- 296 名前:デフォルトの名無しさん [2008/02/04(月) 12:25:33 ]
- >>295
自動化したいのですが こういうやつはどうやればできますか labs.preferred.jp/reflexa/
- 297 名前:デフォルトの名無しさん [2008/02/04(月) 12:35:09 ]
- 類似語が分類できるならば、単語分解もそこに含まれるから
類似語の分類をするルーチン作ろうぜ
- 298 名前:デフォルトの名無しさん [2008/02/04(月) 13:47:37 ]
- 単語らしさはどうやって判定したらいいですか
あと形態素解析はあまり有効でない気がします 何故ならば日本語研究が必須になってしまう為です 韓国や中国に対応できないし 素解・・・あり得ない 形態素・・・ある 本語・・・あり得ない 日本語・・・ある というのを数値的に表したいものです
- 299 名前:デフォルトの名無しさん [2008/02/04(月) 22:40:26 ]
- 日本語の文法の知識が全くない状態から、品詞分解とその接続を求めることは出来るのでしょうか
- 300 名前:デフォルトの名無しさん [2008/02/04(月) 22:46:53 ]
- 類似単語が判れば、それを同一視することで類似文書が判りますね
1単語のズレのある類似文書から品詞分解が判りますかね たとえば 僕は釣りをします → 僕 は 釣り を します 私は料理をしますわ → 私 は 料理 を しますわ → 僕 は 料理 を します とすると、釣りと料理は同じ分類だと判明します
- 301 名前:デフォルトの名無しさん mailto:sage [2008/02/04(月) 22:51:21 ]
- >>298
文法研究をすっ飛ばして考えるなら、 文章のログから部分共通文字列を探せば見つかるような気がする。
- 302 名前:デフォルトの名無しさん [2008/02/05(火) 00:22:01 ]
- 圧縮接尾辞配列っていいみたいだけどわかる人いますか
- 303 名前:デフォルトの名無しさん [2008/02/05(火) 00:57:54 ]
- 圧縮接尾辞配列ってブロックソーティング、Burrows-Wheeler変換やるみたいだね
- 304 名前:デフォルトの名無しさん [2008/02/05(火) 06:37:27 ]
- バカ過ぎる
- 305 名前:デフォルトの名無しさん mailto:sage [2008/02/05(火) 09:54:40 ]
- >>294
京都と東京都は、地名として考えたら類似じゃない?
- 306 名前:デフォルトの名無しさん mailto:sage [2008/02/05(火) 11:15:02 ]
- 狂都
東狂都
- 307 名前:デフォルトの名無しさん [2008/02/05(火) 11:42:17 ]
- 圧縮接尾辞配列を調べたけど、大規模なインディックスにはむかないと思う
インディックスサイズが小さくできても ウェブページのようにメモリに全て載せられないなら検索速くならないし・・・
- 308 名前:デフォルトの名無しさん [2008/02/05(火) 11:44:29 ]
- 向いているのはCHMの代わりになる位だな
ファイルサイズ小さくできてサイズの3〜5倍のメモリ消費ですむだろうから
- 309 名前:デフォルトの名無しさん [2008/02/05(火) 11:55:19 ]
- ↓こう書いてあるけど絶対にこの方針ではgoogleの足下にも及ばないと予測する
「Googleの弱点を克服したアルゴリズムによる検索エンジンを世界で初めて実装した」 Sedue:圧縮接尾辞配列を実装した初の商用検索エンジン itpro.nikkeibp.co.jp/article/NEWS/20070209/261537/
- 310 名前:デフォルトの名無しさん mailto:sage [2008/02/05(火) 19:13:35 ]
- >>309
接尾語処理なんて、google以前から大抵の検索エンジンでやってたことなのに・・・
- 311 名前:デフォルトの名無しさん mailto:sage [2008/02/05(火) 20:19:16 ]
- suffix arrayでぐぐっとけ、カスが
- 312 名前:デフォルトの名無しさん mailto:sage [2008/02/05(火) 22:12:20 ]
- バカ過ぎる(笑)
- 313 名前:デフォルトの名無しさん [2008/02/06(水) 12:52:48 ]
- 各単語の出現確率を調べておきもっとも確率の高い分割をもとめればいいと思う
たとえば、日本語はご存じの通り、文章が単語で区切られていません、なら 日 本語 は ご 存じ の通 り、 文 章が 単 語で区 切られて い ま せん の確率は0.01% 日本語 は ご存じ の 通り 、 文章 が 単語 で 区切られて いません だと10% とか計算できればよい
- 314 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 21:24:05 ]
- >>313
ひょっとしてマルコフ連鎖のことを言いたい?
- 315 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 22:35:11 ]
- 文字列をビット単位で連鎖の統計取ればデータ蓄積量の多さによっていつかは統計的な形態素解析器ができるはず!!!!111
- 316 名前:デフォルトの名無しさん [2008/02/07(木) 04:54:43 ]
- >>314
マルコフ連鎖とは違う 前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
- 317 名前:デフォルトの名無しさん [2008/02/07(木) 05:05:06 ]
- もっとも単語になりやすそうな部分で区切ることで計算量は減らせるはず
たとえば、文書が1単語となる確率が高いなら、次のように分割され残りの文書は短い たとえば、日本語はご存じの通り、 文章 が単語で区切られていません
- 318 名前:デフォルトの名無しさん [2008/02/07(木) 05:16:59 ]
- first loaded.
- 319 名前:デフォルトの名無しさん [2008/02/07(木) 05:30:29 ]
-
日本語¥n+xは¥n+x単語¥n+xに¥n+x拠って¥n+x区切られ¥n+xます¥n+x。 ですが¥n+x、¥n+x詳細¥n+xの¥n+x作成¥n+xは¥n+x大変¥n+xな¥n+x事¥n+xでしょう¥n+x…
- 320 名前:デフォルトの名無しさん mailto:sage [2008/02/07(木) 07:21:39 ]
- >>316
だからマルコフ連鎖をA*探索したのとどう違うんだって?
- 321 名前:デフォルトの名無しさん mailto:sage [2008/02/07(木) 21:14:40 ]
- naist-jdic マダ−?
- 322 名前:デフォルトの名無しさん [2008/02/07(木) 23:29:31 ]
- >>320
前後のつながりだけじゃないって書いてるじゃん。
- 323 名前:デフォルトの名無しさん mailto:sage [2008/02/07(木) 23:36:23 ]
- >前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
ここをもうちょっと formal な形で言わないと伝わらないと思われ どういう確率モデルを想定しているのか。つーか俺にも伝わってない 単語分割をマルコフ連鎖でモデル化したのなら >320 の指摘通りだと思うのだが
- 324 名前:デフォルトの名無しさん mailto:sage [2008/02/10(日) 16:31:23 ]
- このへんとか
www.amazon.co.jp/%E8%A8%80%E8%AA%9E%E3%81%A8%E8%A8%88%E7%AE%97-4-%E7%A2%BA%E7%8E%87%E7%9A%84%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB-%E5%8C%97-%E7%A0%94%E4%BA%8C/dp/4130654047
- 325 名前:デフォルトの名無しさん mailto:sage [2008/02/10(日) 16:37:25 ]
- >>324
ああ、その本はいい本だよ。B4のゼミとかに丁度いいんじゃないかな。
- 326 名前:デフォルトの名無しさん mailto:sage [2008/02/11(月) 08:21:36 ]
- 結局313が何を言いたかったのかは謎なまま時は過ぎてゆく…
- 327 名前:デフォルトの名無しさん [2008/02/23(土) 13:44:46 ]
- 音声の検索システムできた。
- 328 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 14:13:43 ]
- ソースうp
- 329 名前:デフォルトの名無しさん [2008/03/27(木) 07:31:14 ]
- >MySQLおよびPostgreSQLで日本語キーワードインデック
>スを実現しているもの(Sennaおよびtextsearch-ja)は、 >現在バックエンドエンジンとしてMecabを推奨してい >るようです。 あるフォーラムあらのコピーですが、本道だとすると、 すごいですね?! AppleのOSXの日本語処理もMecab? Mecabの一人勝ちか。
- 330 名前:デフォルトの名無しさん mailto:sage [2008/03/29(土) 01:45:22 ]
- >>329
>AppleのOSXの日本語処理もMecab? そうなん? Mac OS X には Language Analysis Manager というのがあるけど。 ありゃ、リファレンスを見ると Leopard から deprecated だな。
- 331 名前:デフォルトの名無しさん mailto:sage [2008/04/05(土) 11:11:05 ]
- >>330
おっと、ちょっと調べたら確かにMeCabが使われてるね。知らんかった。
- 332 名前:デフォルトの名無しさん mailto:sage [2008/04/05(土) 23:48:58 ]
- なさけねえな、Apple
スピーチ周りでVocaloid時代を十数年先取りしてた企業のくせに 自社技術捨ててオープン物に蔵換えか そろそろジョブズ氏ねよ
- 333 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 06:31:49 ]
- >>332
初音ミクのApple版でも出せってかw まー形態素解析ってメインは日本語とかでしょ。アジア方面はもともと「二の次」感が。 オープンソースで手に入る共通な技術があったなら使わせてもらう、というのが流れ なのかなあと。もう何から何まで自家製というんじゃなくて、企業として独自性を 打ち出す部分だけ頑張る、みたいな感じなんじゃないかな。
- 334 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:37:41 ]
- しょうがないよ、マック信者は舶来物信者だから、アジア方面に力を入れないほうが売れるんだよ。
- 335 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 21:10:16 ]
- ただのりあぽーか。
- 336 名前:デフォルトの名無しさん mailto:sage [2008/04/22(火) 02:47:39 ]
- blog界隈で信者のMac IMEを褒めたたえる声が目立つと思ったら、
オープンものに頼った結果ってことか。 奴らの言う最先端とやらは素晴らしい技術力だことで(呆 MS-IMEの糞っぷりも失笑ものだが、 Macの信仰のしどころの間違いっぷりは抱腹絶倒だな
- 337 名前:デフォルトの名無しさん mailto:sage [2008/04/22(火) 07:44:33 ]
- Mac に IME なんて無いけどな。
- 338 名前:デフォルトの名無しさん mailto:sage [2008/04/27(日) 00:53:20 ]
- 今はもうInput Method EditorのEはつけずにIMって呼び方のほうが一般的じゃない?
|

|