自然言語処理スレッド　その３

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 2chのread.cgiへ]
Update time : 06/30 10:02 / Filesize : 148 KB / Number-of Response : 538
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

自然言語処理スレッド　その３

1 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 20:31:21 ]: このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。

前スレ：自然言語処理スレッド　その２
pc11.2ch.net/test/read.cgi/tech/1173105287/

次スレは>>980
321 名前：片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2011/12/17(土) 15:50:41.62 ]: りんごが　３こ　あります。
さとしくんは　１こ　たべました。
りんごは　のこり　なんこに　なったでしょう。
322 名前：片山博文MZ ◆0lBZNi.Q7evd [2011/12/17(土) 16:18:38.32 ]: おすしを２こたべました。
今、さらに３こをたべました。
ぜんぶでなんこたべたことになりますか？
323 名前：デフォルトの名無しさん mailto:sage [2011/12/17(土) 16:23:55.78 ]: しかもひらがなかよ！！
324 名前：デフォルトの名無しさん mailto:sage [2011/12/17(土) 21:36:55.37 ]: >>322
それは難しすぎる
高騰プログラミング技術が必要だ
325 名前：デフォルトの名無しさん mailto:sage [2011/12/17(土) 22:06:38.73 ]: 論理命題に落としこむとか対応付けたり出来ないか
食べる　→　マイナス
飛ぶ　→　マイナス
みたいに
326 名前：デフォルトの名無しさん mailto:sage [2011/12/18(日) 10:32:38.36 ]: >>321 食べる→マイナス
>>322 食べる→プラス

プログラミングじゃなくて言語学を専門でやらないと無理

ちなみに >>322 の「さらに」は皿のことだからな、間違うなよ！！！
327 名前：デフォルトの名無しさん mailto:sage [2011/12/18(日) 10:39:53.34 ]: いったん人の読める形に変換するとか。

おすしを２こたべました。
↓
私は2個のお鮨を食べた。
328 名前：デフォルトの名無しさん mailto:sage [2011/12/18(日) 10:55:36.82 ]: 小学校低学年向けだとすると
文脈情報を極端にカットしてるケースも多いと思われ

あらかじめ問題作成者と連携を取って
使用可能な単語リストや文型が完全に定義された状態からのスタートなら
わからなくもない
329 名前：片山博文MZ ◆0lBZNi.Q7evd [2011/12/18(日) 12:18:55.16 ]: 少なくとも時系列記憶ができないといけない。
330 名前：デフォルトの名無しさん [2011/12/19(月) 22:35:08.20 ]: 今、自然言語の本を読んでいるのですが、質問させてください
PythonでNLTKを使った解説がありますが、このモジュールは日本語でも使えますか?
関数など見ていると、英語圏のように、スペースにて文字を区切ることを前提にしている様ですし、
品詞タガーだけでなく、N-gram関数でさえも一単語（英語）と一文字（日本語）で、
日本語の場合と（仕方ないですが）挙動が違ってきますし

・日本語を解析する際にもNLTKが使用できるのか
・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか

を教えて頂けませんでしょうか?
331 名前：デフォルトの名無しさん mailto:sage [2011/12/19(月) 23:17:52.27 ]: >>330
・日本語を解析する際にもNLTKが使用できるのか
自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな

・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか
日本語用のNLTKみたいなのはないと思うので大体は自分で書く
なにをするのかによるけどngramとかなんかだったらmecab + pythonですぐ書けるし（速度は別にして）
332 名前：デフォルトの名無しさん mailto:sage [2011/12/19(月) 23:28:43.31 ]: >>330
書籍『入門自然言語処理』 O'Reilly Japan, 2010 の第12章「Python による日本語自然言語処理」
の内容が公開されてるよ。ChaSenやMeCabによる形態素解析とNLTKを連携させる話しが載ってる。
個人的にはこの章が追加されてるだけでも本書を買う価値があると思うよ。

nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html
333 名前：デフォルトの名無しさん [2011/12/19(月) 23:38:01.74 ]: >自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな
なるほど、やはりそうですか
本を読んでいて、「これ日本語で使えるか？」と思っておりました
ストップワードを削除するとか言うRTEFeatureExtractorは元より、他の関数達も、（日本とかは世界では独特でしょうから当然ですが）欧米型の文書構造を考えているので
使うのは厳しいだろうなとは思いました
中には日本語でも使えるものもあるとは思いますが

自分は元々PHPでN-gramとかMecabとか書いたり使ったりしていたのですが、めんどくさくなってきた&自然言語はPythonみたいなものがあってPythonを学習しました
しかし、となるとPython使う意味がなくなったような気もしますが、Pythonは統計計算系のライブラリなど充実していると聞きました
自然処理として、入門的な所で言うと、ナイーブベイズなどのライブラリとかそういうのはやはり皆さんは使われているのでしょうか？
関係ないとは思いますが、この場合（ライブラリを使う場合）も日本語の問題はやはりあるのでしょうか？
334 名前：デフォルトの名無しさん [2011/12/19(月) 23:41:01.14 ]: >>332
ありがとうございます
ネットにて検索いたしました

まぁ、読めば分かるのかもしれませんが、そのように形態素とNLTKを連携させた場合、上記で書きましたようなNLTKの関数などはやはり使えないのでしょうか？
335 名前：デフォルトの名無しさん mailto:sage [2011/12/19(月) 23:52:35.08 ]: (´･ω･`)ｼﾗﾝｶﾞﾅ
336 名前：デフォルトの名無しさん mailto:sage [2011/12/19(月) 23:57:06.37 ]: >>333
python以外あんまやったことないんで、間違った意見かもしれないけど
確かにライブラリは充実してると思う（自分はあまりつかわないけど）
ナイーブベイズくらいなら自分で書いちゃうけど、例えばSVMだったらlibsvmとか使う
まあこれはPHPでも使えるけど
だから、自分が使いやすければ言語はなんでもいいと思うよ
ただ、言語処理だとpythonとかrubyを使ってる人が多いから、
ネットに転がってるソースを見るときに楽ってのはある
337 名前：デフォルトの名無しさん [2011/12/20(火) 00:26:51.64 ]: でもPythonやRubyってVBと同じくらい糞言語に見えると思うんだよな。
PHP使ってるところからして。
338 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 19:25:09.19 ]: 質問させてください
N-gramを使用した場合、形態素解析と違い、
自分で品詞タガー、チャンキングなど作成する実装をしないといけないと思うのですが、
それらのように、N-gramのその後に行うべき処理はどういうものがあるのかを教えていただけませんでしょうか？

N-gramを行えというのはどの本や資料でも書かれていますが、そのままだと、品詞も分からず、
そもそも["今日”, "日か", "から", "から"]など単語として成り立っていないので、
どのようにかして結合し、単語にしなければいけないと思います

欧米の場合はN-gramを使えば単語に分かれているのでそのままでもいいのでしょうが、
日本語の場合はそのように、N-gram後の事が書かれていません

N-gram後に何をどういう手順で行えばいいのかアドバイスを頂けないでしょうか？
また、そのような事の書かれているサイトや書籍などありましたら教えていただきたいと思います
339 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 19:28:01.58 ]: 文字に対するngramなのか、単語に対するngramなのか、
まずそこをはっきりさせないと。
340 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 19:54:24.24 ]: >>339
一般的にN-gramアルゴリズムでは文字N-gramが書かれていると思いますので、文字N-gramです
341 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 20:40:57.74 ]: で、文字ngramを使ったPOS taggerを作りたいの？
それとも文字ngramを使ったchunkerを作りたいの？
最終的に何をしたいのか不明のままでは
taggingやchunkingが必要かどうかすら不明なんだけ
342 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 20:59:05.66 ]: >>341
まずN-gramから単語に・・・と思ったのですが、
そもそもの問題として質問させてください（すみません）
皆さんはN-gramの後に単語に作り直さないのでしょうか？
タガー、チャンク作成は必須なのかなと勝手に思っていたのですが
Mecabなども品詞は出てきますし

例えば、ナイーブベイズとかピアソンなどで類似性をはかるにはまず単語にしなければいけないと思うのですが
違うのでしょうか？

自分は、ある文章をクラス（ジャンル）分けしようと考えているのですが、
その為には品詞、特に名詞（後は動詞）を使うのがいいと思いました
Mecabならば出来ますが、N-gramでやろうとすると、文字に分割した後が何をすればいいのかいまいち分かりませんで

とにかく、N-gram -> 相関性やクラスタリングなどの式に送る　ということをしたいと思っております
343 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:14:49.61 ]: 品詞使いたいなら素直にmecab使えよ
なんでn-gram使いたんだ？
344 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:24:19.12 ]: mecabがいいと自分は楽だと思ったのですが、新語や他国後を扱う機会が想定されまして
辞書の追加、インデックスなど後々めんどうだと思いまして
で、N-gramを使った実装をテストしてみようと思ったのですが、分割したものを単語にまとめなおすという情報が、検索の仕方が悪いのかもしれませんが出てきませんでした
単にN-gram テキストマイニングとか、その後処理とかいくつかやってはみたのですが

まず単語に直せさえすれば欧米のようにチャンク文法とかへ繋げる事が出来るとは思ったのですが
色々と考えてみたのですが非常に難しいでした
日本語でN-gramを使っている人やGoogleを始め、他の検索エンジンでもN-gramを採用しているところもあるという事実から出来ないことはないとは思うのですが
345 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:35:07.71 ]: N-gramは漏れなしで全て登録が基本。
346 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:36:46.37 ]: 知識なしの統計のみで単語分割はN-gramとは別の話題。
なんでもかんでもN-gramで解決すると思うな。
347 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:43:24.10 ]: 教師なし単語分割の最前線。ベイズ meets 言語モデル
d.hatena.ne.jp/mamoruk/20090325/p1

教師なし　統計　言語 - Google 検索
https://www.google.com/search?q=%E6%95%99%E5%B8%AB%E3%81%AA%E3%81%97%E3%80%80%E7%B5%B1%E8%A8%88%E3%80%80%E8%A8%80%E8%AA%9E
348 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:48:11.51 ]: 翻訳やIMEを作るのでなく、容量食ってでも漏れなし検索したいときに全パータンを登録するのがN-gram
349 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:48:49.66 ]: そもそもやりたいのは文章分類なんだよね？
それなら新語はそんなにクリティカルじゃないと思うんだけど
どうしてもn-gram使いたいんだったら、2から5くらいでn-gram作ってやって
それぞれでSVMで分類してやれば？
形態素で分類したほうが精度いいと思うけどね
350 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:50:41.18 ]: 長くなってすみません　m(_ _)m

教えて頂きたいのですが、「漏れなしで全て登録が基本」というのがちょっと分からなかったのですが、
日本語の場合は欧米系と違い、N-gramで単語単語が取得できません
で、自分など読んでる本とか、Web上の情報など欧米系のものが主になってきてしまっているので、
その感覚で考えてしまっているので混乱または難しく考えているのかもしれませんが、
日本語の場合はそもそも単語に戻す処理をするのでしょうか？
それとも、欧米系とは根本から異なり、上記のように["今日”, "日か", "から", "から"]のような構造を保持し、
それを（単語として戻さずに）検索などの処理に当てるのでしょうか？

その根本的な部分がまず分かっていないと思います
ただ、戻さないとナイーブベイズとか後処理へ持って行けないので訳が分からなくなります（苦笑）
形態素解析だけでは本当の意味でのテキストマイニングなど出来ないんじゃないかと思います
351 名前：350 mailto:sage [2011/12/20(火) 21:52:48.13 ]: おおっ、350書いてる間に大量の返答ありがとうございます
先にお礼を述べさせていただきたいと思います

今からレスを一つ一つ確認いたします
352 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:58:39.34 ]: 人間が理解可能な言語構造のない検索対象。

"n-gram"　dna配列 - Google 検索
https://www.google.com/search?q=%22n-gram%22%E3%80%80dna%E9%85%8D%E5%88%97
353 名前：350 mailto:sage [2011/12/20(火) 22:07:13.91 ]: なるほどッ！
皆さん、レスありがとうございます
自分の場合、まず検索エンジンの文章を読んだために形態素とN-gramが比較の対象になっていたのですね
（自分は検索エンジンを作るつもりではありませんでしたが）
形態素よりもN-gramの方がいいと書かれていた（メリットが強調されていた）為に、
まずN-gramが先に来てしまっていたのだと思います
それと何度も書いていますが、欧米系の処理方法が頭にあったので

日本語の場合はクラスタリングとか統計的に使う場合は形態素解析がメインで、N-gramは殆どないという事ですね
教師なし形態素解析というのは少し前に知って、ネット上でザッと目を通したのですが、
良く分からないから後回しにしようと思っておりました
関連にてやはりきちんと読んでみようと思います

"人間が理解可能な言語構造のない検索対象"というのは言葉の表現を聞いただけでとてつもなく難しそうな
感じがしますが、読んでみます
354 名前：デフォルトの名無しさん mailto:sage [2011/12/21(水) 04:33:48.34 ]: 1～N Gramが最も確実な検索。
形態素は、そのうちで登録しないものを取り除いた検索。
検索されないだろう物を除外。
355 名前：デフォルトの名無しさん mailto:sage [2011/12/21(水) 04:51:48.14 ]: 日本語相手にngramを使う場合、
検索なら文字ngram
分類なら形態素解析した後で単語ngram

ただし、文字ngramでも自動分類に使うことはできる。
もちろん形態素解析したほうが精度いいけどね。
多国語を同じスキームで処理することが目的なら、
文字ngramで自動分類やクラスタリングするのも
頭から否定してかかるほど的外れでもない。

この場合は文字ngramの種類数が莫大になるから
うまくfeature selectionしてやる必要があるだろうね。

がんばれ。
356 名前：デフォルトの名無しさん mailto:sage [2011/12/21(水) 22:17:52.87 ]: 今、KNPにて
reed.kuee.kyoto-u.ac.jp/nl-resource/knp-form.html
文章打って試してみたのですが、Cabochaとか、こういう係り受け解析ってのは何に使うものなのですか？

何かグラフのように出力されましたが、これが何なのかな、と思います
基本的に何の目的で使うものなのでしょうか?

Juman
reed.kuee.kyoto-u.ac.jp/nl-resource/juman-form.html
とかは分かるのですが
357 名前：デフォルトの名無しさん mailto:sage [2011/12/22(木) 00:01:55.70 ]: 特徴
KyTeaには以下の機能が揃っています：

単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。
読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。
線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。

<a href="www.phontron.com/kytea/index-ja.html">KyTea (京都テキスト解析ツールキット)</a>
358 名前：デフォルトの名無しさん mailto:sage [2011/12/22(木) 08:30:14.66 ]: >>356
ついこないだからknp使い始めたにわかがマジレスすると、係り受け木を利用することで単語列よりは文の意味的なものを扱いやすくなります。

まず、係り受けっていうのは、語の修飾関係を表している、情報を付け足す向きを表しているものです。

私が本を読んだ、という文の係り受けは
私が→読んだ
本を→読んだ
これを木の形にするとknpとかの出力になります。
359 名前：デフォルトの名無しさん mailto:sage [2011/12/22(木) 08:39:07.33 ]: そのうえで大量の文書の特定の固有名詞への係り受けをクラスタリングすると、特定の固有名詞に対する評価が分析できるとかじゃないかな
360 名前：デフォルトの名無しさん mailto:sage [2011/12/22(木) 23:16:55.44 ]: >>358
なるほど
レスありがとうございます

私が→読んだ
本を→読んだ
のようなものの精度を上げるのは難しい仕事だと思いますが、コンピュータに文脈の意味を誤解させない・・・というか、
品詞分解などなどで間違わせないようにする機能と理解して宜しいのでしょうか？

>>359
なるほど
関連性、親密性のようなものも判断できるということですね
361 名前：デフォルトの名無しさん [2011/12/27(火) 17:28:18.65 ]: かな漢字変換の実装を行なっていて
後ろ向き探索をA*アルゴリズムで行い、n-best解を求めたいのですが
どのように実装すればよろしいのでしょうか。
現在、前向き探索をコスト最小法で行なっていて、
ある文字で終わるノードのコストはわかっています。

できれば、Rubyでの実装法を教えていただけるとありがたいです。
スレ違いでしたら申し訳ございません。
362 名前：デフォルトの名無しさん mailto:sage [2011/12/27(火) 17:47:58.30 ]: >>361
A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まるが？
363 名前：デフォルトの名無しさん [2011/12/27(火) 17:54:34.37 ]: >>362
A*の実装法がよくわからないのです。
前向き探索を一度やっていると効率よくA*を出きるというのですが
具体的にどのように書いていけば良いのかわからなくて…
Ruby(というか、プログラム)初心者なもので、ご教授いただけるとありがたいです。
364 名前：デフォルトの名無しさん mailto:sage [2011/12/28(水) 01:13:32.79 ]: >>362
「A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まる」ってのは本当なんかね・・・

ここにもA*でおｋって書いてあるけどいまいち信用出来ない・・・
d.hatena.ne.jp/tkng/20090302/1235958257

これって「k shortest simple paths 問題（コスト付きグラフにおけるk番目に短い経路（ループする経路は除く）を求める問題）」だよね。
365 名前：デフォルトの名無しさん mailto:sage [2011/12/28(水) 12:33:21.23 ]: d.hatena.ne.jp/octech/20070712#1184210094
d.hatena.ne.jp/nitoyon/20100126/dijkstra_aster_visualize
d.hatena.ne.jp/gan2/20071127/1196157611
www.sousakuba.com/Programming/algo_root.html
efcl.info/adiary/%E3%83%80%E3%82%A4%E3%82%AF%E3%82%B9%E3%83%88%E3%83%A9%E6%B3%95%EF%BC%88%E6%9C%80%E7%9F%AD%E7%B5%8C%E8%B7%AF%E5%95%8F%E9%A1%8C%EF%BC%89
www.deqnotes.net/acmicpc/dijkstra/
www.me.sophia.ac.jp/or/lab/ishizuka/OC/spath_00.html
d.hatena.ne.jp/g940425/20100812/1281624557
ja.wikipedia.org/wiki/A*
www.infor.kanazawa-it.ac.jp/~koblab/home/d1504310/acm/dochtml/47_.html
366 名前：デフォルトの名無しさん mailto:sage [2011/12/28(水) 19:15:58.02 ]: 自分の読んだ本には例えば「僕は今日高校生になります」と「僕は今日川に泳ぎに行きました」という２文があった場合、（簡単な為名詞、動詞だけにします）
　x(今日) = (n("僕"), n("高校生"), n("川"), n("泳ぐ")) = (1, 1, 0, 0)
とか、(n("今日"-1), n("今日"+1), ...) = ()
という様な色々な表現法でベクトルで表し、それらに文書の類似性として、ピアソン相関係数とかコサイン類似度などを使用するようですが、分からない点があります

文書の群があった場合、それらをまずクラスタリングや分類器にてクラス分けし、その後で類似性を上記の様に計算するのだと思いますが、
例えば、10個の文書群でも相互に計算する場合、9+8+....+1通りありますし、
文書自体も1000語とかあれば類似度計算自体も大変だと思います
これがもし文書が何千個もあれば、膨大な類似計算が必要になると思います

こういう場合、どのようにして対処すれば宜しいのでしょうか?
何か他にいい類似度を測る計算法だとか、アルゴリズムとかありましたら教えていただきたいのですが
367 名前：デフォルトの名無しさん mailto:sage [2011/12/28(水) 20:18:02.05 ]: >>364
n個の到達解S1,...,Snを得た後で残された全ての可能な経路について
h()がadmissibleであれば、あとは自明だよね？
368 名前：デフォルトの名無しさん [2011/12/29(木) 07:11:16.75 ]: テイラー展開がある大域的な領域の各点で可能な関数は、その領域において解析的である（またはその領域上の解析関数であるという）。
大方収束したと考えてよろしいのでは。
369 名前：デフォルトの名無しさん mailto:sage [2011/12/29(木) 09:26:16.23 ]: A*もダイクストラもたいしてかわらない。
まずダイクストラで組むんだ。
違いは最短距離を予測するヒューリスティック関数の作り方が難しいだけ。
370 名前：デフォルトの名無しさん mailto:sage [2011/12/29(木) 09:34:58.74 ]: A*よりもそれを適用するためのかな仮名漢字変換用データの収集・選択が難しいだろ。
371 名前：デフォルトの名無しさん [2011/12/31(土) 00:23:59.89 ]: 361です。皆様、解説ありがとうございます。
まだ、全部に目を通せていない＆実装できる環境にしばらく行けないのですが
参考にまた、勉強してみようと思います。
372 名前：デフォルトの名無しさん [2011/12/31(土) 04:01:16.07 ]: >>365
ありがと。
373 名前：片山博文MZ ◆0lBZNi.Q7evd [2011/12/31(土) 15:55:06.49 ]: 自然言語処理を１から勉強したいです。
いい本とかサイトとかあったら教えてください。
374 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 15:59:45.49 ]: >>373
大学に行きなよ。
375 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 17:18:13.41 ]: >>373
ネットで探してみなよ
私は大卒じゃないけれど、何とか勉強していけそう
あなたも興味があるなら、頑張って
376 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 18:38:43.43 ]: >>375
最初はいいんだけど、おそらくある程度のところになると大学で学ばないときつい
特に、プロの実践の場での使用となると・・・
377 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 20:04:49.39 ]: >>373
とりあえず、「入門自然言語処理」を読んで、自然言語処理の勉強会にいけ。TokyoNLPとか、DSIRNLPとか。
378 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 23:02:14.64 ]: 赤ちゃんプレイでしたら申し訳ございません。
379 名前：デフォルトの名無しさん [2012/01/01(日) 02:03:48.30 ]: 勉強会はありがたいですよねー。
詰まったときは、聞くことも出来るしさ
大学行くか、独学か…お好きな方を
どちらにしても、目標あるって良いよね ;)
380 名前：片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2012/01/01(日) 13:26:45.84 ]: >>374-379 皆さんありがとうございます。
381 名前：デフォルトの名無しさん [2012/01/02(月) 12:24:14.38 ]: >>376
大学がじゃないと厳しいと思えるのは何ですか？
何か一つでもあげてもらえば参考になります
382 名前：デフォルトの名無しさん mailto:sage [2012/01/02(月) 18:20:05.70 ]: >>381
最終的に何がしたいかにもよるけど、基礎をやろうとすると独学や企業では難しいかもしれない。
言語学よりな話とか、論文の読み方、研究の仕方、とかね。機械学習とかはよほどマニアックな話でなければ企業でもやれるんでないの。

あと、独学だとモチベーションの保ちかたとか趣味レベルを超えた時の目標とか難しそう。
383 名前：片山博文MZ!omikuji ◆0lBZNi.Q7evd mailto:sage [2012/01/03(火) 14:14:10.89 ]: 何でみんなUnicodeを使わないの？ Lispで使えなかったから？
384 名前：デフォルトの名無しさん mailto:sage [2012/01/03(火) 14:31:34.94 ]: どう考えても企業の方が上だろ。
アメリカのようにビジネス、実践を重視して、即戦力になる大学なら別だが。
日本の大学は、ちょっと知識がある程度になるだけ。
即戦力、リーダーなどに抜擢されたりしない。
385 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 05:50:25.78 ]: 社会人厨は巣に帰れよ。

だいたいの日本の企業はアメリカのように先端の研究をしない。
ほとんどの企業は世界と競争できる研究なんて全くしてない。
386 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 15:09:13.18 ]: ジャストシステムとか
富士通とか
ＮＴＴ系のどっか
387 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 15:12:49.33 ]: 日本企業が世界で戦えないレベルとしたらいまごろ外資に占領されてるだろう。
388 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 23:21:15.36 ]: 今自然言語の練習でニュースサイトの分類などしようと思っているのですが、この場合、クラスタリング、分類器などどんなものを使うのが一番いいのでしょうか？
ニューラルネットワークが一番いいのかもしれませんが良く分かりません
例えば、「野田総理が辞任しました」のような記事を同類にまとめるとか、スポーツ記事の中でもサッカーや野球にわけるとかです
SVMはナイーブベイズよりも精度が高いようですが、ある程度の記事数になると処理の重さなどにより逆にナイーブベイズの方が有利とかあるようです
自分はSVMがカーネルの所がまだハッキリと理解できないでいるのですが

今日R言語でのテキストマイニングの本を読んでみたのですが、なんとユークリッドで分けていました
ユークリッドで大丈夫なのかなとか思ったのですが、上記の場合どのようなアルゴリズムを使用するのが一般的には有利なのでしょうか？
実装や環境にもよるとは思うのですが、一応アドバイス頂けたらと思います
自分の名前も知らないアルゴリズムが最適だったりするかもしれないと思いまして
389 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 01:25:30.73 ]: >>388
内容からすると、分類よりもクラスタリングがしたいようなので、まずはk-meansから試してみるとよいのでは。
390 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 09:23:03.37 ]: >>388
アルゴリズムは主に速度を向上させるだけ。分類するための基準づくりが重要。
まったく違う物を同一と判定したらどんなアルゴリズムでも分類できない。
391 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 09:26:27.86 ]: たとえば類似画像検索で、どれを類似と見なすかを設定すれば
あとは効率悪くても総当たりで比較可能。
アルゴリズムで分類の効率化はできても、どれも同一と見なすかは人間の判断・指定がいる。
392 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 10:18:01.09 ]: 自然言語処理を１から勉強したいです。
393 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 18:31:41.25 ]: とりあえず>>390-391は自然言語処理もアルゴリズム論も全くの無知であることはわかった。
394 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 18:48:04.25 ]: 潜在意味解析は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、
それらに関連した概念の集合を生成することで、その関係を分析する技術である。
出現行列では、各文書における用語の出現を表した文書-単語マトリクスが使われる。
この行列の各成分の重み付けには tf-idfが用いられることが多い。
この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、単語はその相対的重要性を反映するために強く重み付けされる。
出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。
したがって、用語と文書は概念を介して間接的に関連付けられる。
応用
この新たな概念空間は以下のような場面で利用される。
概念空間での文書の比較（データ・クラスタリング、文書分類、など）
翻訳文書群の基本セットを分析した後、異なる言語間で類似の文書を探す（言語間検索）。
用語間の関係を探す（類義性や多義性）。
用語群によるクエリを与えられたとき、それを概念空間で解釈し、一致する文書群を探す（情報検索）。
潜在意味解析 - Wikipedia

TF-IDFで遊んでみた - uncertain world
d.hatena.ne.jp/rin1024/20090926/1253940572
395 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 18:56:15.79 ]: 文書を特徴付ける語の選択が分類精度を決めるから
それがダメだったらどんなに高級なアルゴリズムを使ったとしても正確な分類はできない。
アルゴリズムは主に計算量、速度の差につながる。
396 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:01:24.42 ]: >>369 >>370と似通っているが、言語処理はアルゴリズムの優劣だけでは決まらないんだ。
ヒューリスティックな部分、機械的にはできそうにない特徴付けが本質的に重要。
397 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:08:37.45 ]: と言われていた将棋で、非ヒューリスティックが圧倒的に出し抜いた例を見ちゃったからなぁ
398 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:13:49.12 ]: >>397
ありゃでかい突破だよなあ。
言語学主流派のグランドセオリーからすりゃ、同じように機械的にいけるはずなんだよねえ。
399 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:14:29.85 ]: ボナンザは特徴の重みを機械的に決定したのであって、特徴抽出は手動だぞ。
400 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:18:02.14 ]: ボナンザは元にした6万局の棋譜データから、評価関数のパラメータを自動生成している。
ただし、パラメータは自動生成だが、何を評価するかは保木自身が決めている。
棋譜からパラメータを自動生成することで、開発者の主観を排除した評価関数は強みでもあるが、同時に弱みでもある。
当初、Bonanzaは序盤で大駒を切ることが多かったが、これは大駒の点数が他のソフトに比べて低く設定されているためであり、
人間の感覚に反するこの設定は、自動生成に由来するものであった。
Bonanza - Wikipedia
401 名前：デフォルトの名無しさん mailto:sage [2012/01/06(金) 10:28:24.91 ]: Blunder のアルゴリズム

Blunder の評価関数は、以下の項目から成る 6668140個の要素を持つ特徴ベクトルを用いている。
www.computer-shogi.org/wcsc21/appeal/Blunder/Blunder.pdf
402 名前：デフォルトの名無しさん [2012/01/06(金) 23:51:53.36 ]: で？
403 名前：デフォルトの名無しさん mailto:sage [2012/01/07(土) 10:56:57.00 ]: 特徴量なんか、とりあえず考えられるだけ全部突っ込めよ。今の学習アルゴリズムは人が一つ一つ作った程度の特徴の数じゃ悪影響なんてまず出ない。それでだめなら特徴選択考えてみればいいだろ。
404 名前：デフォルトの名無しさん mailto:sage [2012/01/07(土) 11:23:26.39 ]: 重要な特徴を入力し損なえば失敗だ。
機械学習でもヒューステリックが必要。
405 名前：デフォルトの名無しさん mailto:sage [2012/01/07(土) 11:26:56.69 ]: あと単語・品詞分解がほぼ正確にできたとして、そのあとどうやって学習させるんだ?
文書の種類ごとに、単語の重要度は変化する気はするが。
学習させる方法が難しい。
406 名前：デフォルトの名無しさん [2012/01/18(水) 10:04:55.40 ]: 寒中見舞いは、寒さのために相手の健康を気づかうたよりですが、
賀状の返礼や喪中の方への挨拶、賀状をくれた方への欠礼の知らせ
にも適しています。

モノの応用
407 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 01:47:33.04 ]: ドキュメント中に含まれる特定の単語2つの関連性を数値化したいんですが良い方法が思いつきません。
よければアドバイスお願い致します
408 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 02:44:23.16 ]: Tsujii Lab. Enshu3 -- Latent Semantic Analysis (LSA)
www-tsujii.is.s.u-tokyo.ac.jp/enshu3/lsa.htm

目次
www.gifu-nct.ac.jp/elec/deguchi/sotsuron/yoshimura/node1.html

潜在意味解析 - Wikipedia
ja.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E6%84%8F%E5%91%B3%E8%A7%A3%E6%9E%90

pLSA(pLSI)用共起行列の作成 - かがぴーの雑記帳
d.hatena.ne.jp/kagamiuta/20110609/1307550239

うぃとげんしゅたいん: Probabilistic Latent Semantic Analysis : PLSA （Rで実装）
wg-stein.blogspot.com/2009/11/probabilistic-latent-semantic-analysis.html
409 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 04:02:56.10 ]: 連続音声認識システムに使用するアルゴリズム
unicorn.ike.tottori-u.ac.jp/murakami/doctor/node6.html

ビタビアルゴリズム
www.yobology.info/text/viterbi/viterbi.htm

簡単なラティス構築とビタビアルゴリズム - Negative/Positive Thinking
d.hatena.ne.jp/jetbead/20111025/1319499732

Khafra - A Phrase-based DP Beam Search Decoder -
www.nlp.mibel.cs.tsukuba.ac.jp/khafra/

ソフトウェア特論講義資料グラフ探索，問題解決
www.jsk.t.u-tokyo.ac.jp/~inaba/soft4/soft4-search/soft4-search.html
410 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 04:33:56.81 ]: 【PC班】日本語入力ソフトの単語予測アルゴリズムに関する考察 : ブツリブログ
blog.livedoor.jp/eikophys/archives/51880269.html

Python による日本語自然言語処理
nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html

文節をどう区切るか
www4.airnet.ne.jp/koabe/com_inet/im/bunsetsu.html
411 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 05:09:46.05 ]: かな漢字変換システムのしくみ
web.archive.org/web/20040815062904/http://www.tomo.gr.jp/wakaru/1.txt

第３章　コンピュータで文章から単語を取り出す方法 - 長岡技科大自然言語処理研究室
https://sites.google.com/a/jnlp.org/lab/kajiwara/shu-ji-shao-jie-zi-ran-yan-yu-chu-likotohajime-yan-yewo-juee-hui-huanodekirukonpyuta/di3zhang-konpyutade-wen-zhangkara-dan-yuwo-quri-chusu-fang-fa

ビタビアルゴリズム - Wikipedia
ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0
412 名前：デフォルトの名無しさん mailto:sage [2012/01/26(木) 03:38:46.40 ]: 特異値分解 - Wikipedia
ja.wikipedia.org/wiki/%E7%89%B9%E7%95%B0%E5%80%A4%E5%88%86%E8%A7%A3

潜在意味解析 - Wikipedia
ja.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E6%84%8F%E5%91%B3%E8%A7%A3%E6%9E%90
413 名前：デフォルトの名無しさん mailto:sage [2012/01/26(木) 08:34:04.08 ]: このスレはおまえのお勉強ノートじゃねぇんだ
414 名前：デフォルトの名無しさん mailto:sage [2012/01/28(土) 14:13:32.43 ]: 平仮名にすると区切るのが難しいと思うけど辞書なしでできる物なのか。

蜂は花の蜜を吸う

はちははなのみつをすう
415 名前：デフォルトの名無しさん mailto:sage [2012/01/28(土) 19:06:44.47 ]: 文書の1～4バイトの出現回数をしらべてどこで区切るかの方法=アルゴリズムが判らん。
416 名前：片山博文MZ ◆0lBZNi.Q7evd [2012/02/05(日) 13:50:34.97 ]: 「iPhoneとiPadで動作するスマートな日本語入力システムを2013年までに
Appleに提案せよ。さもなくば日本人の生産性を10%低下させる。」
という脅迫状がJ社に届いた。あなたはJ社の営業部社員である。
あなたならどうする？
417 名前：片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2012/02/05(日) 13:55:41.07 ]: JUST SYSTEMは、iPad用のIMEを開発できるのかなぁ。
418 名前：デフォルトの名無しさん [2012/02/06(月) 10:53:32.79 ]: IDEの間違いじゃないの
419 名前：デフォルトの名無しさん mailto:sage [2012/02/06(月) 10:58:18.63 ]: 「かな漢」って言えばいいやん
420 名前：デフォルトの名無しさん [2012/02/06(月) 18:13:38.32 ]: ウェブサイト向け「NRI連想検索（銘柄）」サービスを開始
www.nri.co.jp/news/2008/080321_2.html

＞ウェブ上に公開されているリソース情報からキーワードを抽出し、独自のルールをもとに
＞上場企業との関連度及びキーワード間の関連度を定義したデータベース（連想辞書）を作成します。

動詞は語尾変化も含めて、助詞や助動詞（「～である」「～から」）も全て含めて、
国語辞典コーパスで「VF符号化」することは可能ですか。また「VF符号化」できない
ところは別表記にして、例えば「きゃりーぱみゅぱみゅ」のような過去には無かった
最新のキーワードがあれば、それはそれで別に編集しておくとか。

『VF符号化は、あらかじめ生成した辞書を用いて可変長の文字列を固定長の符号に
置き換えることで圧縮する（図5）。』
it.impressbm.co.jp/e/2012/01/16/4163?page=0%2C2

それからあらゆる分野の電子書籍百万冊を、年代別分野別に「共起語」を調べて統計化すると
いった試みは行われているのですか。例えば「選挙」と「出馬」について、「杉村太蔵は今年、
衆議院選挙に出馬する。」とかで一文ごとに区切って、共起率についての統計数字を算出
することは可能ですか。

『レンマ化とは，基本形（base form）あるいは辞書に載っている語形に，語尾変化している
語をまとめることである．レンマとは，つまり，語尾変化をする部分を除いて，変化をし
ない同じ語幹を持つ語のまとまりを指す.』
『まず，本研究では，共起語のレンジを bigram に限定して論文コーパスと雑誌コーパスの
データを取った．これはすべての語の組み合わせを対象とするため，レンジを広げると計
算が複雑すぎるからである．』
homepage3.nifty.com/yukie-k/publication/23.pdf
421 名前：デフォルトの名無しさん mailto:sage [2012/02/06(月) 19:41:08.38 ]: なにがしたいん

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef