形態素解析と日本語処理

[表示 : 全て最新50 1-99 101- 201- 301- 2chのread.cgiへ]
Update time : 05/09 09:30 / Filesize : 68 KB / Number-of Response : 339
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

形態素解析と日本語処理

1 名前：デフォルトの名無しさん [05/01/25 07:38:01 ]: 日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。
これを形態素解析といいます。
このスレでは、その形態素解析について語っていきましょう。
199 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 10:52:26 ]: おめでたいも何も、学習機構なんかどこにも実装されてないじゃないの。
なんでこここんなレベル低いの。
200 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 11:59:11 ]: >>199
学習機構がないなんて言っちゃうレベル低いのはお前
201 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 12:05:15 ]: んー、じゃあ手許にソース一式と辞書があるんで
このどこに学習機構があるのか教えてちょ
202 名前：デフォルトの名無しさん [2005/09/13(火) 16:14:18 ]: なんでこんなに荒れてんだｗ

コーパスから確率モデルを計算してるのは確かだから
そういう意味では学習しているけど
毎回モデルを計算しているのではなく
毎回計算しているのはコストだろ
203 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 16:24:18 ]: 最近あまりにしょうもないレスが多かったもんで。
正直おとなげなかった。スマソ
204 名前：デフォルトの名無しさん mailto:sage [2005/09/14(水) 01:31:54 ]: 官能小説のエロさを形態素解析による数値化という研究を考えて
教授のところにいってきたんだけど5時間正座させられてお説教された
ひどい
205 名前：デフォルトの名無しさん mailto:sage [2005/09/15(木) 01:53:47 ]: つまらんネタだ
206 名前：デフォルトの名無しさん mailto:sage [2005/09/15(木) 03:07:38 ]: >>204
当たり前だ馬鹿。

おまえ自分の論文見せてくれって言われたとき困らないとでも思ったのか？
207 名前：デフォルトの名無しさん mailto:sage [2005/09/15(木) 05:53:09 ]: 感性情報処理とかそれっぽい言葉を絡めて書けば普通に通りそうなもんだけどな。
形態素解析でエロさが出るかバカという点では教授に同意。
208 名前：デフォルトの名無しさん mailto:sage [2005/09/16(金) 23:03:16 ]: 文学部なら普通に通りそうなテーマだな、
そつぎょうかだいせいさく　くらいの軽いノリで
209 名前：デフォルトの名無しさん mailto:sage [2005/09/16(金) 23:23:41 ]: 料理本の単語を○にするとエロくなる事について。
210 名前：デフォルトの名無しさん [2005/10/08(土) 00:05:44 ]: MeCab: 形態素解析エンジンをコマンドラインで使う事って可能ですか？
　/bin/mecab -Oyomi "今日は良い天気ですね。"
見たいな感じです。
エロい人お願いします。
211 名前：デフォルトの名無しさん [2005/10/08(土) 04:17:19 ]: PHPからMeCabやkakasiを利用可能ですか？
出来るならどの様に使うか教えてください。
212 名前：デフォルトの名無しさん [2005/10/10(月) 03:56:52 ]: 条件付確率場って何？
213 名前：デフォルトの名無しさん mailto:sage [2005/10/17(月) 00:07:07 ]: らふぁてー
214 名前：デフォルトの名無しさん [2005/11/11(金) 22:09:52 ]: 最近暇だったので bayes とか弄ってた。
英語コーパスを元に、thisisapen を this/is/a/pen に区切ってみたり。
"t-h" の確率を "t- -h" の確率と比較して正規化して合計するだけだが、
未知語もそれなりに上手く分けられる予感。超遅いが。

で、これをどうやって日本語の形態素解析に応用すればいいのかが
分からん。英語みたいに既に区切られた分けられた情報に頼るってのも、
結局辞書を人様が作ってるみたいで、なんかヤダ。

教えてエラい人！
215 名前：デフォルトの名無しさん mailto:sage [2005/11/11(金) 22:57:37 ]: >>214
たくさんテキスト食わせて比較してみたら～
216 名前：仕様書無しさん mailto:sage [2005/11/12(土) 21:20:29 ]: >>214
カナを一旦ローマ字（訓令式がいい）に変換してから処理してみ。
活用の処理が一気に楽になるから。
217 名前：仕様書無しさん mailto:sage [2005/11/15(火) 22:07:43 ]: 日本語文用の、語彙ベースの検索エンジン（用言は語幹で検索、
体言は異表記も認める）を作ってみたのだが、
・Web上のどのサイトを検索対象にするか
・インデクスはすでに存在するとして、鍵語の集まりから
効率よく対象のページを検索する問合せ（SQLを想定）はどう
生成するか
で詰まっている。小規模な検索（たとえば自分のマシンにある.txt
ファイルだけを対象とするとか）だったら悩まなくて済むのだが、
なんか面白い用途ってないもんだろうか。
218 名前：デフォルトの名無しさん mailto:sage [2005/11/15(火) 22:30:44 ]: 昔はえろえろあった、おもしろい機能を持ったサーチエンジンも
ほとんど淘汰されて消えちゃったからね。

正規表現で検索できるサーチエンジンとか作らない？
#小規模検索はestraireがありゃいいや
219 名前：仕様書無しさん mailto:sage [2005/11/15(火) 23:05:26 ]: > 正規表現で検索できるサーチエンジンとか作らない？
それってgrepって言わないか？(^_^;)
冗談はともかく、その部分は
・インデクスにどんな情報を持たせるか（インデクスDB設計）
・インデクスを抱えてるDBサーバにどんな問合せをするか（DBインタフェース）
・問合せに対して、どれだけレスポンスを上げるか（探索戦略および
チューニングの問題）
なので、形態素解析とか日本語処理とかとは別の話題かと。
DBインタフェースの一部として、自然言語インタフェースとか考えるなら
また別なのだが。
220 名前：デフォルトの名無しさん mailto:sage [2005/11/16(水) 11:29:06 ]: 正規表現検索で有用なインデックスがつけられるものなら、
とっくにRDBMSについてると思う……。
221 名前：デフォルトの名無しさん mailto:sage [2005/11/18(金) 13:21:33 ]: えらくタイミングよくestraierに正規表現サポートが入ったな
222 名前：ハーピィ mailto:sage [2005/12/05(月) 02:45:15 ]: E・∇・ﾖﾉｼ　＜222ｹﾞｯﾄ♫
223 名前：Mb [2006/03/14(火) 22:37:45 ]: 復帰age
224 名前：http://www.vector.co.jp/soft/win95/util/se072729.html mailto:http://msdn2.microsoft.com/ja-jp/library/h2k70f3s.aspx [2006/03/18(土) 20:27:21 ]: TextSS　のWindowsXP(Professional)64bit化おながいします

もしくは64bitにネイティブ対応したテキスト置換ソフトありますか？
225 名前：デフォルトの名無しさん [2006/04/10(月) 21:57:43 ]: あげとくね。
226 名前：デフォルトの名無しさん mailto:sage [2006/04/11(火) 15:06:25 ]: 漢字の文字コードが読み仮名情報を保持してれば、
形態素解析って楽になると思うんだけど、そんな仕様ないの？
227 名前：デフォルトの名無しさん [2006/04/11(火) 16:20:34 ]: これは何の釣りだ？
228 名前：デフォルトの名無しさん [2006/04/11(火) 21:42:17 ]: >>226
www.doraneko.org/webauth/ruby/19981221/Overview.html
これのこと？

実際の現場では、形態素解析ソフトを使って文章にルビふってるけども？
229 名前：デフォルトの名無しさん [2006/04/27(木) 09:14:19 ]: 茶筌やめかぶが覚えてる学習用コーパスって何万語位何ですか？

めかぶが自力でコーパスの学習出来るので遊んでみたいのですが、
学習コーパスをどの位用意しなきゃならないか、わからないので。
230 名前：デフォルトの名無しさん mailto:sage [2006/04/27(木) 17:23:39 ]: IPADICとかなしに、巨大なコーパスから辞書を作る、
そんな方法ってないんかのう。
231 名前：デフォルトの名無しさん [2006/04/27(木) 18:42:23 ]: >>230
圧縮ソフトのアルゴリズムが利用できるかも？
辞書式ってのは、よくでてくるビット列に短い符号を割り当てるんだから、
そのあたりを応用すれば、単語としてよくあるものが抽出されると思う。
ただし品詞タグ付は無理だろうけど。

このアイデアはどう？

で、めかぶや茶筌が動くコーパスはどの位の大きさが必要なのかなぁ？
だれか知ってる人いない？
232 名前：デフォルトの名無しさん mailto:sage [2006/04/27(木) 19:06:56 ]: ハッシュでインデックス作って放り込めば100万語くらいは軽いんじゃない？
つか、俺はそうやってる。
233 名前：デフォルトの名無しさん [2006/04/27(木) 19:18:10 ]: >>232
それは>>230へ対する回答？
それとも>>231へ対する回答？

辞書で100万語は多すぎるし(辞書になってない)
学習コーパスの必要量なら、文章が良くわからない。
234 名前：デフォルトの名無しさん [2006/04/27(木) 22:13:57 ]: 日本語を書くと意味解析して、それにそったプログラムに変換し
コンパイルして実行してくれる研究プロジェクトはありますか？
235 名前：デフォルトの名無しさん mailto:sage [2006/04/27(木) 22:50:44 ]: 正直もうn-gramで良いと思いました。
236 名前：デフォルトの名無しさん [2006/04/28(金) 07:20:22 ]: >>234
計算機言語が覚えられない程度の馬鹿は、
日本語でも業務をまともに記述できないから、
そんな研究しても無意味だと思うけど、
やってる人はいると思う。
237 名前：デフォルトの名無しさん mailto:sage [2006/08/25(金) 22:38:25 ]: こーんな感じにぐわーっとやってくれ。ぐわあああっと。
238 名前：デフォルトの名無しさん [2006/08/26(土) 02:05:17 ]: >>235
ｳﾘもｳﾘも
239 名前：デフォルトの名無しさん [2006/08/31(木) 21:50:25 ]: 不明単語を抽出するってどうやるんですか？
240 名前：デフォルトの名無しさん mailto:sage [2006/08/31(木) 21:52:24 ]: わかってるたんごをぜんぶとっぱらって
のこったのがふめいたんごー
241 名前：デフォルトの名無しさん mailto:sage [2006/08/31(木) 21:59:26 ]: >>240
分かっている単語が無いです。
どこかにフリーの単語辞書はありますか？
茶筌についてきますか？
242 名前：デフォルトの名無しさん mailto:sage [2006/08/31(木) 22:04:22 ]: [XXxXXxx] 12:28 フッ・・・だが！俺のエキゾチックマグナムをもってすればっ！

みたいな文から「エキゾチックマグナム」を不明単語として抽出したいです。
茶筌でできますか？

あとベイズって

P = [馬][鹿] / ( [馬][鹿] + [^馬][^鹿] )

みたいな感じで使うものなんですか？
243 名前：デフォルトの名無しさん mailto:sage [2006/09/01(金) 07:43:11 ]: 「エキゾチック」と「マグナム」が既知の単語になっている限り
形態素解析器で「エキゾチックマグナム」を形態素として取り出すのは不可能と思われ
解析できてしまうからね

複合語の抽出には形態素解析とは別のアプローチが必要
244 名前：デフォルトの名無しさん mailto:sage [2006/09/02(土) 12:33:38 ]: メーカ子会社左遷者の楽園
245 名前：デフォルトの名無しさん [2006/09/13(水) 04:24:11 ]: >>243
＞複合語の抽出には形態素解析とは別のアプローチが必要
「従来の形態素解析」とは、なんじゃ・・・・
形態素解析について詳しい訳じゃないけど、複合語抽出を
構文解析とみるか、形態素解析と見るかで言えば、形態素解析の範疇だと思うけど、
「いいや,構文解析だ！！」と叱られてしまうと、嫌な気分になって言い返せないし、
「これこれこういう理由が有って構文解析だ！！」と言われると一つ勉強になるので
ありがたい。

とわいえ、形態素解析、複合語抽出、構文解析、と言う話も有るとも思うし。
246 名前：デフォルトの名無しさん mailto:sage [2006/09/15(金) 04:05:27 ]: 複合語を形態素として取り出す
だなんて意味不明なレス相手にマジレス乙
247 名前：デフォルトの名無しさん mailto:sage [2006/09/15(金) 16:32:39 ]: 質問者の要求がそういうことだから不可能だと書いてるんじゃ
248 名前：242 mailto:sage [2006/09/23(土) 23:37:34 ]: 回答ありがとうございます。
つまり形態素解析後、「エキゾチック」と「マグナム」の組み合わせが
未知のものであるか？という判定を何らかの方法で行わないと、
複合語を不明単語として取り出すことはできないということですね。

オタ同士の会話だと、即席の複合語がその場で作られたりすることも
あるので、難しいですね・・・。
249 名前：デフォルトの名無しさん mailto:sage [2006/09/24(日) 00:28:24 ]: そもそも一意の解析結果を得ることが不可能だと気づけ。
「エキゾチック＋マグナム」が98%、「エキゾチックマグナム」が1%、その他が1%、
みたいな解析結果のほうが、現象の記述としてより忠実。
250 名前：デフォルトの名無しさん mailto:sage [2006/09/24(日) 07:29:35 ]: ネイティブ（つまり日本人）に聞いたとしても
「エキゾチックマグナム」を1語と思うか2語と思うかは意見が分かれるだろうからね
251 名前：デフォルトの名無しさん [2006/10/10(火) 19:18:09 ]: mecabと一緒に配布されてる辞書を可変して流用したいけど、著作権的に大丈夫だろうか。
252 名前：デフォルトの名無しさん mailto:sage [2006/10/10(火) 19:21:22 ]: >>249
その辺は使用頻度＝単語の区分けという認識で問題ないのでは？
253 名前：デフォルトの名無しさん mailto:sage [2006/10/10(火) 19:22:10 ]: まあ辞書自体に頻度表がついてるものはないがｗ
254 名前：デフォルトの名無しさん [2006/10/10(火) 19:27:55 ]: >>253
形態素辞書ならたいてい付いているんじゃないの？
255 名前：デフォルトの名無しさん mailto:sage [2006/10/10(火) 20:18:15 ]: >>254
そんなのが本屋売ってるかよ
256 名前：デフォルトの名無しさん mailto:sage [2006/10/10(火) 23:18:07 ]: >>255
広東語でおｋ
257 名前：デフォルトの名無しさん mailto:sage [2006/10/11(水) 03:27:58 ]: 形態素的辞書没有
258 名前：デフォルトの名無しさん [2006/10/11(水) 12:21:56 ]: 中国語の形態素解析
259 名前：デフォルトの名無しさん mailto:sage [2006/10/11(水) 14:16:40 ]: 漢語的形態素解析
260 名前：デフォルトの名無しさん [2006/10/12(木) 12:28:22 ]: 例えば「書きながら」をmecabにかけると、

書き：動詞,自立,*,*,五段・カ行イ音便,連用形,書く,カキ,カキ
ながら：助詞,接続助詞,*,*,*,*,ながら,ナガラ,ナガラ

が吐かれるけど、辞書を見ると「書き」自体の文字情報はなく、
あるのは「書く,カキ,カキ」だけ。
活用の解析はどうやってるんだろう。
単純に読みだけを見るとしても、漢字1文字=読みのカナ1文字とは限らないし。
261 名前：デフォルトの名無しさん mailto:sage [2006/10/12(木) 19:23:37 ]: 書き＋カ行イ音便つう形態素辞書エントリーだけで、
書か(ない)、書き(ます)、書く、書け、書こう
みたいな検索が全部ひっかかる、それだけの話だと思うけど。
262 名前：デフォルトの名無しさん mailto:sage [2006/10/12(木) 19:25:39 ]: >>252
使用頻度∝単語区分けの適合確率
だろｗｗｗｗ
263 名前：文学 mailto:sage [2006/12/18(月) 03:52:31 ]: mecabで読み仮名を取得するには
どうやればいいのでしょうか？
264 名前：デフォルトの名無しさん mailto:sage [2006/12/18(月) 12:43:32 ]: まにゅある嫁
265 名前：デフォルトの名無しさん mailto:sage [2006/12/25(月) 20:00:37 ]: 民明書房刊「マニュアル嫁」
第六章結婚前後の諸心得
　第二節甘美な新婚旅行

　- 入浴をするとき -
夫としては、
「どうです、一緒に入りませんか」
　というのが一応のエチケットとなっている。しかしお互いにまだ清浄な関係
である場合には、新婦としていきなりその言葉に従い、いそいそとして夫につ
いて行くのはどうかと思う。初夜が済むまでは矢張り、ほのかな羞恥の色を漂
わせながら、にこやかに
「ええ、でも、あとでいただきますわ」
　と柔かく辞退して別々に入浴する方が好ましい。夫としてもそれが花嫁のエ
チケットだと思って、しつこくすすめないことである。
　しかし初夜が済んでからは、最早や完全な夫婦となったのであるから、二人
で入る方が却ってよろしい。そうだからといって、矢張り女としてのはにかみ
は忘れてはならない。湯船に入るときでも
「おねがい、向う向いてて」
　などといっておいて、静かに入る。また湯船の中でも、乳のあたりへはタオ
ルを軽く当てて、ともかく露骨になるようなことは避けなければならない。
266 名前：デフォルトの名無しさん mailto:sage [2006/12/25(月) 21:01:31 ]: >>265
わっふる、わっふる
267 名前：デフォルトの名無しさん mailto:sage [2006/12/26(火) 01:15:36 ]: YOMIのRESTってどうやって使うんすか？
268 名前：デフォルトの名無しさん mailto:sage [2007/01/02(火) 03:50:30 ]: ttp://e8y.net/repos/lou_trans/lou.cgi

!!!
269 名前：デフォルトの名無しさん mailto:sage [2007/01/02(火) 04:44:54 ]: 何故かcgiコードが丸見え
270 名前：デフォルトの名無しさん mailto:age [2007/02/02(金) 12:06:30 ]: NTTが作ったすももってどうやれば入手できるの？
なんかデッドリンクで公開ページがないんだけど。
mecabより強力なら是非手に入れたい。
ついでにage
271 名前：デフォルトの名無しさん mailto:sage [2007/02/07(水) 15:14:44 ]: MORPHOLOGY

↑なんか異常にかっこいい
272 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 18:18:07 ]: 外国人がローマ字で表記した口語体の日本語を
漢字仮名まじりの通常の表記に効率的に
変換するために役立ちそうなソフトウェアを
探しています。

例：
kekkou kireinagakkou zyanai
結構　奇麗な学校　じゃない

全自動変換では間違いが多そうなので，ソフトウェアが
提示するいくつかの変換候補の中から，正しいものを日
本人のオペレータが選ぶ，という作業を考えています。

少しでも作業効率を上げるためのヒント，ソフトウェア
などはございますでしょうか？
273 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 23:05:46 ]: 例を見る限り形態素に分かれているかいないかは任意か
面倒くさいなり
274 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 01:18:55 ]: ローマ字のテキストをソフトに音読させて、それを聞きながら
オペレータがワープロ入力するのが一番速そうな気がする。
275 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:57:06 ]: >>272
それは俺らが日本語を入力するとき使うのと同じ仮名漢字変換に、
何らかの方法でテキストを渡せばできそう。
276 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:59:35 ]: >>272
LinuxならAnthyでできたよ。最後の(space)は変換用。
$ echo "kekkou kireinagakkou zyanai(space)" | anthy-agent
(3 ((UL RV) "結構" 0 7) ((UL) "きれいな" 0 4) ((UL) "学校じゃない" 0 3))
277 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 22:03:33 ]: >>274
速記をなめてね？
278 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 23:36:56 ]: >>275
はい、そこまでは理解できますが、実際にどのような
方法で可能かが分かりません。

>>276
素晴らしく分かりやすい実例までありがとうございます。
Anthyを試してみます。
279 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 10:31:03 ]: そういやajaxでIMEってのあったよね
あれ、どういう仕組みなんだろ
280 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 12:15:07 ]: JavaScriptからIMEを少しだけ弄れたようなきが。
多分JavaScriptよりもっと干渉できるやつでも使ってるんじゃないの？DirectXとか。
281 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 22:14:27 ]: >>280
chasen.org/~taku/software/ajax/imekwic/

連休中なので、動いていない？
282 名前：デフォルトの名無しさん mailto:sage [2007/05/07(月) 09:59:40 ]: こっち。
ajaxime.chasen.org/index.html
283 名前：デフォルトの名無しさん [2007/08/31(金) 15:47:46 ]: sage
284 名前：デフォルトの名無しさん mailto:sage [2007/09/01(土) 13:46:11 ]: そもそも、公式文章でも方言のような専門用語や表現方法が多様しているのに
地方や皇族、政治、あらゆる専門分野、日本語が１つだと定義すれば扱えない
言葉や用語だらけになる。
会話言葉と目的別文章でも激しく特定できない。
>>1
>まず単語や品詞に分ける必要があります。
機械的な言葉の分類遊びならともかく。。。。。。
これは正しいとはいえない。言葉というのは柔軟性があり生き物である。
別ける時点で意味が変更されることもある。ある程度まとまった文節で
巨大辞書で判断するのが妥当でしょう。
文法で明らかに変でも通常の言葉として扱われているものとかＮＨＫとかで
時々解説放送がある。それらは言葉が生き物であることを証明するもので、
日本語は言葉として扱うのではなく、概念として扱うべきです。
翻訳が正しくても作成者の意味が通じないのでは翻訳としてはできそこないです。
日本語を正しく扱えるには価値観とその雰囲気、心を読み解く抽象認識処理が
必須になるでしょう。
285 名前：デフォルトの名無しさん mailto:sage [2007/09/01(土) 20:28:27 ]: と、へんてこ日本語モドキで力説されてもなあ。
286 名前：デフォルトの名無しさん [2007/09/02(日) 08:49:46 ]: 拓ちゃんがいるのに
最近のグーグルの調子はおかしいよね
287 名前：デフォルトの名無しさん mailto:sage [2007/09/05(水) 19:11:28 ]: >>276
anthy-agent にひらがな入力する方法はないのかな。
288 名前：デフォルトの名無しさん mailto:sage [2007/12/19(水) 18:41:14 ]: 質問です！！
yahoo!の形態素解析使ってるんですがreadingがうまく表示されません。
surface pos readingと表示させようとしたら
美しい　形容詞　形容詞　となぜか、readingにも品詞が入ってるみたいな気がします。
reading単体で使ってもなぜか品詞が返ってきます。

どなたか助けてください。。。
289 名前：デフォルトの名無しさん mailto:age [2007/12/19(水) 18:42:48 ]: ageマス。
290 名前：デフォルトの名無しさん mailto:age [2007/12/19(水) 18:43:54 ]: 必死で申し訳ありませんが、ルビーを使ってます。
291 名前：デフォルトの名無しさん [2008/02/04(月) 10:20:29 ]: 形態素まで行かずに単語分解だけをしようと思います
言語を文書から自動生成したい

こんなのありますよ　参考に

辞書不要の形態素解析エンジン「マリモ」とは　www.atmarkit.co.jp/news/200708/15/mooter.html
292 名前：デフォルトの名無しさん [2008/02/04(月) 10:24:54 ]: 各文書を特徴づける重要語を計算して、
どの文書でも重要でない単語を無視すれば良い単語帳が作れるはず

TF・IDF法
nlp.nagaokaut.ac.jp/wiki/wiki.cgi/term?page=TF%A1%A6IDF
293 名前：デフォルトの名無しさん [2008/02/04(月) 11:16:52 ]: d.hatena.ne.jp/nskt0628/
ここなかなかいいよ
294 名前：デフォルトの名無しさん [2008/02/04(月) 12:16:30 ]: 類似語とそうでないものを判別するにはどうすればいいですか

類似語　
勝利　大勝利

類似語でない
本人日本人
カウントアカウント
京都東京都
295 名前：デフォルトの名無しさん mailto:sage [2008/02/04(月) 12:18:23 ]: お前が今分けた手順でおｋ
296 名前：デフォルトの名無しさん [2008/02/04(月) 12:25:33 ]: >>295
自動化したいのですが　こういうやつはどうやればできますか
labs.preferred.jp/reflexa/
297 名前：デフォルトの名無しさん [2008/02/04(月) 12:35:09 ]: 類似語が分類できるならば、単語分解もそこに含まれるから
類似語の分類をするルーチン作ろうぜ
298 名前：デフォルトの名無しさん [2008/02/04(月) 13:47:37 ]: 単語らしさはどうやって判定したらいいですか
あと形態素解析はあまり有効でない気がします
何故ならば日本語研究が必須になってしまう為です　韓国や中国に対応できないし

素解・・・あり得ない
形態素・・・ある
本語・・・あり得ない
日本語・・・ある

というのを数値的に表したいものです
299 名前：デフォルトの名無しさん [2008/02/04(月) 22:40:26 ]: 日本語の文法の知識が全くない状態から、品詞分解とその接続を求めることは出来るのでしょうか
300 名前：デフォルトの名無しさん [2008/02/04(月) 22:46:53 ]: 類似単語が判れば、それを同一視することで類似文書が判りますね
１単語のズレのある類似文書から品詞分解が判りますかね
たとえば
僕は釣りをします　→　僕　は　釣り　を　します
私は料理をしますわ　→　私　は　料理　を　しますわ　→　僕　は　料理　を　します

とすると、釣りと料理は同じ分類だと判明します
301 名前：デフォルトの名無しさん mailto:sage [2008/02/04(月) 22:51:21 ]: >>298
文法研究をすっ飛ばして考えるなら、
文章のログから部分共通文字列を探せば見つかるような気がする。
302 名前：デフォルトの名無しさん [2008/02/05(火) 00:22:01 ]: 圧縮接尾辞配列っていいみたいだけどわかる人いますか
303 名前：デフォルトの名無しさん [2008/02/05(火) 00:57:54 ]: 圧縮接尾辞配列ってブロックソーティング、Burrows-Wheeler変換やるみたいだね
304 名前：デフォルトの名無しさん [2008/02/05(火) 06:37:27 ]: バカ過ぎる
305 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 09:54:40 ]: >>294
京都と東京都は、地名として考えたら類似じゃない？
306 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 11:15:02 ]: 狂都
東狂都
307 名前：デフォルトの名無しさん [2008/02/05(火) 11:42:17 ]: 圧縮接尾辞配列を調べたけど、大規模なインディックスにはむかないと思う
インディックスサイズが小さくできても
ウェブページのようにメモリに全て載せられないなら検索速くならないし・・・
308 名前：デフォルトの名無しさん [2008/02/05(火) 11:44:29 ]: 向いているのはCHMの代わりになる位だな　
ファイルサイズ小さくできてサイズの3～5倍のメモリ消費ですむだろうから
309 名前：デフォルトの名無しさん [2008/02/05(火) 11:55:19 ]: ↓こう書いてあるけど絶対にこの方針ではgoogleの足下にも及ばないと予測する

「Googleの弱点を克服したアルゴリズムによる検索エンジンを世界で初めて実装した」
Sedue：圧縮接尾辞配列を実装した初の商用検索エンジン
itpro.nikkeibp.co.jp/article/NEWS/20070209/261537/
310 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 19:13:35 ]: >>309
接尾語処理なんて、google以前から大抵の検索エンジンでやってたことなのに・・・
311 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 20:19:16 ]: suffix arrayでぐぐっとけ、カスが
312 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 22:12:20 ]: バカ過ぎる(笑)
313 名前：デフォルトの名無しさん [2008/02/06(水) 12:52:48 ]: 各単語の出現確率を調べておきもっとも確率の高い分割をもとめればいいと思う

たとえば、日本語はご存じの通り、文章が単語で区切られていません、なら

日　本語　は　ご　存じ　の通　り、　文　章が　単　語で区　切られて　い　ま　せん　の確率は0.01%

日本語　は　ご存じ　の　通り　、　文章　が　単語　で　区切られて　いません　だと10%

とか計算できればよい
314 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 21:24:05 ]: >>313
ひょっとしてマルコフ連鎖のことを言いたい？
315 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 22:35:11 ]: 文字列をビット単位で連鎖の統計取ればデータ蓄積量の多さによっていつかは統計的な形態素解析器ができるはず！！！！１１１
316 名前：デフォルトの名無しさん [2008/02/07(木) 04:54:43 ]: >>314
マルコフ連鎖とは違う
前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
317 名前：デフォルトの名無しさん [2008/02/07(木) 05:05:06 ]: もっとも単語になりやすそうな部分で区切ることで計算量は減らせるはず
たとえば、文書が１単語となる確率が高いなら、次のように分割され残りの文書は短い

たとえば、日本語はご存じの通り、

文章

が単語で区切られていません
318 名前：デフォルトの名無しさん [2008/02/07(木) 05:16:59 ]: first loaded.
319 名前：デフォルトの名無しさん [2008/02/07(木) 05:30:29 ]: 　
日本語￥n+xは￥n+x単語￥n+xに￥n+x拠って￥n+x区切られ￥n+xます￥n+x。　
ですが￥n+x、￥n+x詳細￥n+xの￥n+x作成￥n+xは￥n+x大変￥n+xな￥n+x事￥n+xでしょう￥n+x… 　　
320 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 07:21:39 ]: >>316
だからマルコフ連鎖をA*探索したのとどう違うんだって？
321 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 21:14:40 ]: naist-jdic ﾏﾀﾞ－?
322 名前：デフォルトの名無しさん [2008/02/07(木) 23:29:31 ]: >>320
前後のつながりだけじゃないって書いてるじゃん。
323 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 23:36:23 ]: ＞前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
ここをもうちょっと formal な形で言わないと伝わらないと思われ
どういう確率モデルを想定しているのか。つーか俺にも伝わってない
単語分割をマルコフ連鎖でモデル化したのなら >320 の指摘通りだと思うのだが
324 名前：デフォルトの名無しさん mailto:sage [2008/02/10(日) 16:31:23 ]: このへんとか
www.amazon.co.jp/%E8%A8%80%E8%AA%9E%E3%81%A8%E8%A8%88%E7%AE%97-4-%E7%A2%BA%E7%8E%87%E7%9A%84%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB-%E5%8C%97-%E7%A0%94%E4%BA%8C/dp/4130654047
325 名前：デフォルトの名無しさん mailto:sage [2008/02/10(日) 16:37:25 ]: >>324
ああ、その本はいい本だよ。B4のゼミとかに丁度いいんじゃないかな。
326 名前：デフォルトの名無しさん mailto:sage [2008/02/11(月) 08:21:36 ]: 結局313が何を言いたかったのかは謎なまま時は過ぎてゆく…
327 名前：デフォルトの名無しさん [2008/02/23(土) 13:44:46 ]: 音声の検索システムできた。
328 名前：デフォルトの名無しさん mailto:sage [2008/02/23(土) 14:13:43 ]: ソースうp
329 名前：デフォルトの名無しさん [2008/03/27(木) 07:31:14 ]: >MySQLおよびPostgreSQLで日本語キーワードインデック
>スを実現しているもの(Sennaおよびtextsearch-ja)は、
>現在バックエンドエンジンとしてMecabを推奨してい
>るようです。

あるフォーラムあらのコピーですが、本道だとすると、
すごいですね？！ AppleのOSXの日本語処理もMecab?

Mecabの一人勝ちか。
330 名前：デフォルトの名無しさん mailto:sage [2008/03/29(土) 01:45:22 ]: >>329
>AppleのOSXの日本語処理もMecab?

そうなん?
Mac OS X には Language Analysis Manager というのがあるけど。
ありゃ、リファレンスを見ると Leopard から deprecated だな。
331 名前：デフォルトの名無しさん mailto:sage [2008/04/05(土) 11:11:05 ]: >>330
おっと、ちょっと調べたら確かにMeCabが使われてるね。知らんかった。
332 名前：デフォルトの名無しさん mailto:sage [2008/04/05(土) 23:48:58 ]: なさけねえな、Apple
スピーチ周りでVocaloid時代を十数年先取りしてた企業のくせに
自社技術捨ててオープン物に蔵換えか
そろそろジョブズ氏ねよ
333 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 06:31:49 ]: >>332
初音ミクのApple版でも出せってかw
まー形態素解析ってメインは日本語とかでしょ。アジア方面はもともと「二の次」感が。

オープンソースで手に入る共通な技術があったなら使わせてもらう、というのが流れ
なのかなあと。もう何から何まで自家製というんじゃなくて、企業として独自性を
打ち出す部分だけ頑張る、みたいな感じなんじゃないかな。
334 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:37:41 ]: しょうがないよ、マック信者は舶来物信者だから、アジア方面に力を入れないほうが売れるんだよ。
335 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 21:10:16 ]: ただのりあぽーか。
336 名前：デフォルトの名無しさん mailto:sage [2008/04/22(火) 02:47:39 ]: blog界隈で信者のMac IMEを褒めたたえる声が目立つと思ったら、
オープンものに頼った結果ってことか。
奴らの言う最先端とやらは素晴らしい技術力だことで（呆

MS-IMEの糞っぷりも失笑ものだが、
Macの信仰のしどころの間違いっぷりは抱腹絶倒だな
337 名前：デフォルトの名無しさん mailto:sage [2008/04/22(火) 07:44:33 ]: Mac に IME なんて無いけどな。
338 名前：デフォルトの名無しさん mailto:sage [2008/04/27(日) 00:53:20 ]: 今はもうInput Method EditorのEはつけずにIMって呼び方のほうが一般的じゃない？

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef