自然言語処理スレッド ..
784:デフォルトの名無しさん
08/02/12 13:22:52
どのレベルで「きつい」と言ってるかによるなあ
最長一致とかでは全然話にならないとかいうレベルなら確かにきついかも
785:デフォルトの名無しさん
08/02/14 18:49:17
cabochaとknp、どっちの精度がいい?
786:デフォルトの名無しさん
08/02/14 21:47:34
>>785
普通の係り受けと同格の区別までさせたければknpしかない
cabochaのは配布ページにも書いてあるけどあくまでも「簡易」同格判別
というか中の人のweb日記によると次バージョンではなくなってるってさ
ついでにボヤキ
しかしjuman品詞体系は癖が強くてもう嫌じゃー
誰かmecab-ipadic形態素解析使ってknpっぽいことするの作ってBSD or LGPL or GPLで公開してくれない?
787:デフォルトの名無しさん
08/02/16 20:51:13
許してやれよ
788:デフォルトの名無しさん
08/02/16 21:22:23
自分で作れ
789:デフォルトの名無しさん
08/02/16 21:39:07
歴史的仮名遣いの文の形態素解析やってる人居るかな?
先行研究例があったら教えてほしい
790:デフォルトの名無しさん
08/02/16 21:43:28
>>789
それは自然言語処理というよりむしろ計算言語学の領域と思われ
791:デフォルトの名無しさん
08/02/17 08:42:34
現代仮名遣の形態素解析は自然言語処理なのに
歴史的仮名遣の形態素解析は計量言語学になるん?
水谷先生あたりがやってないですかねとあてずっぽうを言ってみる。
792:デフォルトの名無しさん
08/02/19 13:47:15
LREC2008の航空券を調べているが、日本/モロッコ往復は、安いのが
見つからない。うちの研究室では、今回の出張は4名が限度だ。
793:デフォルトの名無しさん
08/02/20 21:52:33
情報理論のいい入門書知ってる人いる?
794:デフォルトの名無しさん
08/02/20 22:02:38
スレ違い
795:デフォルトの名無しさん
08/02/20 22:10:51
そこをなんとか
796:デフォルトの名無しさん
08/02/20 22:13:43
amazon.co.jp
797:デフォルトの名無しさん
08/02/20 22:18:52
レビュー少ないんだよなぁ
798:デフォルトの名無しさん
08/02/20 22:19:40
あんたが書けば?
799:デフォルトの名無しさん
08/02/20 22:22:53
無茶言うわ
読む本探してる人間に
800:デフォルトの名無しさん
08/02/20 22:24:42
スレ違いのほうがよほど無茶
801:デフォルトの名無しさん
08/02/20 22:27:37
そんなにスレ違いかねぇ
自然言語処理の基礎なんじゃないの?
802:デフォルトの名無しさん
08/02/20 22:31:22
情報理論がベースになっている領域もあれば、
そうでない領域もある。
さあ、適切なスレをみつけてそっち逝け。
803:デフォルトの名無しさん
08/02/21 03:22:56
知らないなら知らないって言えばいいのに
恥ずかしいやつ
804:デフォルトの名無しさん
08/02/21 07:33:21
知らないよー^^
805:デフォルトの名無しさん
08/02/21 07:35:09
恥ずかしい捨て台詞だなwwwwwwwww
806:デフォルトの名無しさん
08/02/21 09:29:07
入門書(笑)
知ってる人いる?(笑)
807:デフォルトの名無しさん
08/02/21 10:30:01
空気を読まずマジレス
URLリンク(www.inference.phy.cam.ac.uk)
808:デフォルトの名無しさん
08/02/21 10:38:23
ここ年齢層高いんだろ?
助教とか准教授がこういうアホな煽りしてるかと思うと、涙が出てくる
809:デフォルトの名無しさん
08/02/21 17:59:48
はいはい、いい本が見つかるといいなw
810:デフォルトの名無しさん
08/02/21 19:56:04
>>807
ありがとう。
今日その本を図書館で見たら、結構出来が良かった。
買ってみる。
811:デフォルトの名無しさん
08/02/21 23:58:00
pdf版が落とせるから無理に買う必要ないぞ
812:デフォルトの名無しさん
08/02/22 02:50:14
ってか洋書じゃん
日本語版ないの?
813:デフォルトの名無しさん
08/02/22 07:28:08
洋書に抵抗のある研究者ってどうなのよ?
814:デフォルトの名無しさん
08/02/22 07:37:06
Referencesには原著のタイトルを書くからオッケーオッケー
815:デフォルトの名無しさん
08/02/22 10:34:12
日本人が日本語の本を好んでも別に悪くは無い。
無ければ洋書を読む。あるなら日本語を読む。
それの何が悪い。
むしろ、洋書も和書も読めないヤツが山ほど居るわけだが・・・。
彼らは自覚あるんだろうか。
816:デフォルトの名無しさん
08/02/22 19:08:42
URLリンク(www.amazon.co.jp)
これはどう?
817:デフォルトの名無しさん
08/02/22 19:15:54
>>815
学生ならともかく、研究者が原著にあたらないのは問題あると思われ。
ましてや>>814のような行為は言語道断だろ。
818:デフォルトの名無しさん
08/02/22 19:48:38
いずれにしろスレ違いなスレで質問して
煽れば答えがもらえると思ってる時点でろくなもんじゃねぇ
819:デフォルトの名無しさん
08/02/22 20:16:07
>>815
スレ違いで粘着して情報を要求しておいて洋書だとブーたれるヤツが一人いるわけだが・・・。
彼は自覚あるんだろうか。
820:デフォルトの名無しさん
08/02/22 20:45:54
つゆとり
821:デフォルトの名無しさん
08/02/22 23:30:37
このスレのオッサンきめぇな
いい年して幼稚な煽りするなよ・・・
822:デフォルトの名無しさん
08/02/23 06:13:43
はいはい、ぼくちゃんはゆとりで生きていこうね。
823:デフォルトの名無しさん
08/02/23 14:30:17
>>822
だから自分の年考えろよ、恥ずかしくならんのか?
824:デフォルトの名無しさん
08/02/23 14:31:24
そいつは単なる門外漢のアホだよ
825:デフォルトの名無しさん
08/02/23 14:32:37
自演醜ス
826:デフォルトの名無しさん
08/02/23 14:46:23
(・∀・)クスクス
827:デフォルトの名無しさん
08/02/23 15:14:44
改訂版がもうすぐ出る。
URLリンク(www.cs.colorado.edu)
828:デフォルトの名無しさん
08/02/23 15:55:53
>>827
第1版の正誤表は凄まじいことになってたからな。
ほとんど本文と同じぐらいの分量の正誤表ってどうよ。
829:デフォルトの名無しさん
08/02/23 16:26:55
だから和書を出せと・・・
830:デフォルトの名無しさん
08/02/23 16:51:51
和訳と翻訳の違いって何?w
831:デフォルトの名無しさん
08/02/23 16:52:35
>>827
Martinはカンファレンスで直接会ったことあるけどいい人だよ。
832:デフォルトの名無しさん
08/02/23 20:29:52
マーティンってくまくましててかわいい♥
833:デフォルトの名無しさん
08/02/23 20:53:24
どうやらみたいなゆとり学部生はスレ違いのようですな
834:デフォルトの名無しさん
08/02/23 22:42:27
>>833
日本語が読めません・・・!!!
835:デフォルトの名無しさん
08/02/23 22:46:06
>>834
大丈夫
それは日本語じゃないから読めなくて当然
836:デフォルトの名無しさん
08/02/23 23:15:37
ジュラフスキは、学部が文科系の言語学科。
現職もスタンフォード大の(コンピュータ・
サイエンスではない)言語学科?
837:デフォルトの名無しさん
08/02/24 01:18:30
あーなつかしいスレ発見。
2chの対象のスレッド内の形態素集合からその板の形態素集合の平均を引いて
求めた特徴的形態素集合の上位のものを抜き出して、その形態素を含む行
およびそれにレスしている行だけを抜き出して要約を作成するとかやったなあ・・・。
うまく動いたけどすごく重かった。
838:デフォルトの名無しさん
08/02/24 01:25:04
疑似コードだとこんな感じ。
こんだけのことをするためにえらく苦労した思い出が・・・。
uniqueTokenMap = tokenMap(target) - TokenMapAverage(board)
uniqueTokens = sort(uniqueTokenMap)[0:20]
uniqueResList = grepRes(target, uniqueTokens)
print(uniqueResList)
839:デフォルトの名無しさん
08/02/24 09:32:36
それならBayesianな生成モデルたてた方が面白そうだな。
840:デフォルトの名無しさん
08/02/24 18:31:18
くらし安心ベイジアン
841:デフォルトの名無しさん
08/02/24 18:38:51
SOMで最大クラスタを抽出するのもアリだな
842:デフォルトの名無しさん
08/02/25 10:11:20
いやダメだろjk・・・
843:デフォルトの名無しさん
08/03/06 16:57:07
ho
844:デフォルトの名無しさん
08/03/07 15:20:11
言語処理とセマンティックをもちいた検索だって
URLリンク(journal.mycom.co.jp)
845:デフォルトの名無しさん
08/03/07 19:46:22
つまんねえなそれ
846:デフォルトの名無しさん
08/03/08 13:31:54
NTTがそれぐらいしてるだろ
847:デフォルトの名無しさん
08/03/08 15:21:39
この手の検索は俺は失敗すると思うんだがな。
必ずしも自然言語で問い合わせるのが楽かと言えば、俺はNoだと思うし。
コンピュータを操作するのに、対話型にすべきとか言ってるのも、俺は正気じゃないと思う。
アプリケーションの起動に、音声認識で起動するのすら煩わしいのに、対話なんかしたら・・・。
何でも人に近づけりゃ良いってもんじゃねぇぞ。
使いどころがわかってない商売人と、研究者が組んだってこの程度しか出てこないんだろうが・・・。
848:デフォルトの名無しさん
08/03/08 17:41:08
>>847
漏れもそう思う
ただGUIvsCUIみたく結局はとっつきのいい方に流れていく気がしないでもない
それぐらいだったらせめて日本人がデファクトスタンダードとって大儲けして呉とも思う
849:デフォルトの名無しさん
08/03/08 18:41:50
自然言語検索でも、なにが知りたいかをちゃんと表現できる人は少ないだろうしなぁ。
850:デフォルトの名無しさん
08/03/08 22:40:33
自然言語検索にしても、より良い結果を得ようとして最適化したら
結局は人間相手に使う言葉とは別物になってしまうという罠
851:デフォルトの名無しさん
08/03/13 09:48:10
オントロジーって役立つの?
852:デフォルトの名無しさん
08/03/13 11:36:21
オントロジー(笑)
セマンティック(笑)
853:デフォルトの名無しさん
08/03/13 12:19:43
自然言語処理って役立つの?
854:デフォルトの名無しさん
08/03/13 14:40:42
FEPとかIMEは自然言語処理じゃないの?
SKKやらTUT-Codeみたいなのは知らんが。
855:デフォルトの名無しさん
08/03/14 09:10:09
自然言語処理(笑)
人工知能(笑)
856:デフォルトの名無しさん
08/03/17 18:57:44
久しぶりに見に行ったらnaist-jdicがうpしてICOT条項外れてるね
URLリンク(sourceforge.jp)
このスレって実はnaist関係者いないんじゃね?
857:デフォルトの名無しさん
08/03/17 19:38:18
前も言ったが俺はnaist関係者じゃないぞ
naist出身の知り合いが居るだけだ
858:デフォルトの名無しさん
08/03/17 21:17:11
debian関係で知ったけど、別にここに書くことでもないかと思ってた。
859:デフォルトの名無しさん
08/03/18 14:43:52
駒場、結構繁盛してるね
860:デフォルトの名無しさん
08/03/18 19:10:18
日本における自然言語処理の分野で今もっとも活発な順に並べると
どんな感じなの?
東大
京大
NAIST
阪大
徳島大
鳥取大
こんな感じ?
861:デフォルトの名無しさん
08/03/18 20:18:47
>860
URLリンク(nlp2008.anlp.jp)
の著者名(所属)の所属をカウントしてみれば、多少の傾向はわかるかもしれない。
本数が多い→活発,が成り立つかは疑問だが。
明日の懇親会にでもでてみれば名無しさんにも会えて
各組織の活発さもわかるかもしれないよ・・・。
862:デフォルトの名無しさん
08/03/18 21:29:09
>>861
そんなドメな学会、あんまり参考にならないのでは。
863:デフォルトの名無しさん
08/03/18 22:16:14
今週東大でなんかやるみたいじゃん
864:デフォルトの名無しさん
08/03/19 12:11:03
>860
下3つは無い
865:デフォルトの名無しさん
08/03/19 19:39:38
要所の研究をやったかどうかで言えば>>860が近いが
活発かといわれると、下2つはありえない。
それ以前に、阪大は自然言語処理の分野では大して・・・。
何故そこに阪大があるのか理解できない。
866:デフォルトの名無しさん
08/03/21 08:23:36
今日は東大で機械翻訳のシンポジウム〜
867:デフォルトの名無しさん
08/03/21 22:27:21
明日は東京女子大で社会言語科学会
プログラムをみるとATRが目立つな
868:デフォルトの名無しさん
08/03/22 01:37:53
最近のATRは露骨な成果稼ぎの為に
質の悪い人材・バイトを大量に引っかき集めとるからな・・・
869:デフォルトの名無しさん
08/03/22 06:57:33
一粒で二度おいしかったり、ね。
870:デフォルトの名無しさん
08/03/22 07:55:17
atrの質低下ってそんなに著しいの?
871:デフォルトの名無しさん
08/03/22 10:03:24
ATRの成果稼ぎってより、周辺の学生の成果稼ぎってのもあるような…。
872:デフォルトの名無しさん
08/03/22 12:55:58
研究を第三セクターでやろうというのがそもそも失敗だったと思う
873:デフォルトの名無しさん
08/03/22 17:38:16
何もかもが中途半端だよな、atr
874:デフォルトの名無しさん
08/03/23 17:35:31
つーか文系やら三流理系はもうお腹いっぱい
外国人留学生をもっと取り入れろ。
三流理系は「作る系」に導入し生産的な環境を拡大せよ。
それすら出来ないエセ理系は、諦めろ。
文系はトップクラスの一部だけで良い。
本当にこのままでは堕ちる一方だぞ。
別にATRに対してじゃなくて、全体に対して言ってることだけれども。
成果稼ぎとインチキ研究ばっかしてお茶濁してるんじゃねぇよ。
俺が学生の頃(7年ほど前)から、相当堕ちてしまったと”現場”で感じるようになった。
つーことは、きっと教育・育成の現場レベルではもっと酷いんだろうな。
これでは日本の機関から人材を取る気が起きない。
875:デフォルトの名無しさん
08/03/23 17:56:14
留学生だろうがなんだろうが玉石混交なのは何も変わらない
876:デフォルトの名無しさん
08/03/23 18:06:38
7年前というと、俺が学生だった頃(15年前)から見るとだいぶ落ちた後だな。
877:デフォルトの名無しさん
08/03/23 20:02:04
人が居ないからって、何も国内の粗悪な学生使わなくても
留学生使えばいいじゃんって話でしょ。
>>874の話は2年くらい前の研究現場に居るとかなり同意出来るんだが、
問題は、既に学生を指揮する立場の研究者の質まで落ちつつあるという事
優秀な人には相当逃げられてる。
上が悪いから、もうどうにもならん。
878:デフォルトの名無しさん
08/03/23 21:41:34
なんでそこで外国人留学生が出てくるのか分からん
どうせ帰るし、日本で就職したとしても奴らは日本で消費せずに本国に送金するだけだろ
879:デフォルトの名無しさん
08/03/24 02:26:33
教育機関じゃないのに、なんで後のことを考えるんだ?
その後国に帰ろうがどこに就職しようが知ったこったねぇ。
選択肢を増やし極力優秀な人材を使うべきだ。と言う話だろうに。
880:デフォルトの名無しさん
08/03/24 05:55:09
留学生に優秀な人材は少ないぞ。いないわけではないにせよ。
881:デフォルトの名無しさん
08/03/24 07:20:37
>>880
アメリカのように留学生にとって魅力的な大学が増えれば、
日本にいる留学生の質も上がるんだろうけどね。
あと、せっかくいい留学生が来ても、学生は英語で日常会話できないし、
教授も英語で講義できないしで、すぐに孤立してやる気をなくしてしまう。
まずは優秀な教授を育てるところから始めないと。
882:デフォルトの名無しさん
08/03/24 10:01:54
留学生が日本語を勉強すればいいじゃん
英語できない教授なんているの?
どこ大?
883:デフォルトの名無しさん
08/03/24 13:19:33
881は明らかにろくな大学行ってないw
884:デフォルトの名無しさん
08/03/24 15:42:21
ですよねー
885:881
08/03/24 19:37:54
一応宮廷ですよ。
もちろん教員は英語普通に話せるよ。
でも授業を全部英語でやるのはまた別の話。
886:デフォルトの名無しさん
08/03/25 00:14:52
「一応宮廷」じゃ分解能に欠けていて話にならん。どこよ。
887:デフォルトの名無しさん
08/03/25 00:21:09
あんまり追求しないでやれよ
888:デフォルトの名無しさん
08/03/25 06:06:18
最大でもたった7校しかないのに分解能に欠けているって・・・プ
889:デフォルトの名無しさん
08/03/25 07:31:42
授業を英語で出来ない教授なんているの?
どこ大?
890:デフォルトの名無しさん
08/03/25 08:16:57
やろうと思えばできるけどやらないって話だろ
日本人が大半の現状でやる意味もないけどな
なんて言ってると日本語のわからない外人が入ってこないから負のスパイラルなんだけどな
891:デフォルトの名無しさん
08/03/25 16:06:06
> 日本人が大半の現状でやる意味もないけどな
どこの話? その認識。いまどき珍しいというか遅れてるというか。
892:デフォルトの名無しさん
08/03/25 18:44:39
その場で適した言語を使うべきであって
言語が何だからどうこうなると言う話でもない。
何か、英語でやればメリットでもあるというの?
この辺はプログラミング言語にも言えることだが・・・。
893:デフォルトの名無しさん
08/03/25 20:05:04
>>892
学術界の共通言語は英語です。
日本人学生は英語でのディスカッションの経験が少なすぎ。
だから教授になっても対等な勝負ができない。
たまにがんばってる先生がいるかと思うと、ヨーロッパやアメリカ帰りだったりするし。
894:デフォルトの名無しさん
08/03/25 20:32:21
>>892
自分でその場その場で言語選択出来るほど、外国語が使えるならな。
残念ながら、英語が出来ない学生が多いので、練習の意味も込めてやるべき。
プログラミング言語だって、VBでもC♯でも、その場で適しているならば使えば良いとは思うし
Cで全てやるのが偉いわけでもないが
VBしか出来ないなら問題。
んで、やらないだけって言ってる人は
基本的に、やれないと俺は思う。
経験が足りない人間が外国語で高度なディスカッション出来るとは思えない。
895:デフォルトの名無しさん
08/03/25 20:35:19
少なくとも大学院の講義は英語でやった方がいいよね〜
896:デフォルトの名無しさん
08/03/26 01:23:37
うちの大学は3年から一部の授業や試験は英語でやってたが
897:デフォルトの名無しさん
08/03/26 07:41:29
うちの大学は学部1年から英語で講義をやってたけど?
ってことになるからそういう話はイクナイ
でも実際俺がいたところはそうだったw
898:デフォルトの名無しさん
08/03/26 16:08:31
どこ?
899:デフォルトの名無しさん
08/04/02 09:08:06
>>868
それって URLリンク(www.slc.atr.jp) のことなの?
質の悪い人材って誰?
900:デフォルトの名無しさん
08/04/02 11:46:07
普段資源整理やらコーパス集めに借り出されてる人材は、そんなページに載らない。
あと、ATRつっても自然言語処理とは限らない。似た研究が結構あるからそっちかもしれん。
>>898
文系の大学だと山ほどあるなw
901:デフォルトの名無しさん
08/04/03 22:27:35
っていうか、>>899のページに載っている人はみんなかなり前から
いた人達だと思うぞ。
902:デフォルトの名無しさん
08/04/10 20:58:25
ATRとNiCTとJSTが契約している翻訳会社の質が悪い
903:デフォルトの名無しさん
08/04/12 00:33:01
NAISTの自然言語関係について、学内の雰囲気知ってる人います?
工藤さんが卒業されたインパクトとか含めて、どんな感じなんでしょうか。
904:デフォルトの名無しさん
08/04/12 02:35:43
これまたダイレクトな質問だなwww
905:デフォルトの名無しさん
08/04/12 16:32:04
そろそろ新入生の研究室配属決定の時期か?
906:デフォルトの名無しさん
08/04/12 18:43:36
やっぱり>>903がデリケートな質問であるような状況なのかな…
不安だ
907:デフォルトの名無しさん
08/04/12 18:50:45
>>906がどこへ行っても上手くやれないだろうということは分かった。
908:デフォルトの名無しさん
08/04/12 20:49:06
最近の雰囲気は知らないが,
工藤氏やたつを氏が在籍したのは昔のこと。
今は特に目立つ人材は居ないのでは。
909:デフォルトの名無しさん
08/04/12 22:04:28
彼らは辞めてから特に有名になっただけでは・・・。
在籍中も、そりゃ無名ではなかったけど、そんなに有名でもなかったし。
そもそも、形態素解析器が一般人(非研究者)にメジャーになったのが、彼らが辞めた後だからなぁ・・・。
それ以前だと、高林氏のnamazuとかkakasiで有名だったか。
何にしても、研究のレベルはともかく、
成果物を広く使えるようにしている研究室は強いな。
910:デフォルトの名無しさん
08/04/30 03:01:03
今自分の居る研究室が、強烈に居心地悪くなった・・・orz
うちの主力が鬱入っちゃって潰れたもんだから。。。
俺らが無能だから悪いんだがね。
911:デフォルトの名無しさん
08/04/30 05:37:35
よくあること。うちの職場でもそうだし。
大体1匹狼状態を作ると、ますますそいつ以外触れなくなって悪循環に陥る。
最初は、些細なきっかけなんだがな・・・
プロジェクト管理やってるやつの責任は重大だよ。
912:デフォルトの名無しさん
08/05/25 14:14:41
自然言語業界は頭が命だから、どうしてもごく一部のすごい人と
大多数のワナビーって構図になるよね。
by ワナビーの一人
913:デフォルトの名無しさん
08/05/28 01:51:20
lrec2008。金持がないと出来ない学問。
914:デフォルトの名無しさん
08/05/28 02:00:20
学問・・・・・・か?
915:デフォルトの名無しさん
08/05/28 16:34:32
>>912
ワナビー的には、どの辺が難しいというか、壁を感じて
いるんでしょう?
FSNLPと東大出版会の「確率的言語モデル」をきちんと読めば、
標準的な所はかなりすっと行くような気もするけど..。
916:デフォルトの名無しさん
08/05/28 17:00:37
>>915
それはお勉強。誰でもできる。問題なのは研究。これは才能がいる。
917:デフォルトの名無しさん
08/05/28 20:57:14
才能といい切ってしまっていいんだろうか。
912の人はどう思っているのかな。
918:デフォルトの名無しさん
08/05/28 21:37:23
才能というか、暗記しかしてこなかった馬鹿とは違うやつらだろ。
919:デフォルトの名無しさん
08/06/05 20:10:35
言い換えの為に、データ形式の類語辞書を探してるんだけど何か無い?
920:デフォルトの名無しさん
08/06/08 09:37:21
第2版。
Speech and Language Processing (2nd Edition) (Hardcover)by Daniel Jurafsky (Author), James H. Martin (Author)
URLリンク(www.amazon.com)
Hardcover: 1024 pages
Publisher: Prentice Hall; 2 edition (May 26, 2008)
Language: English
ISBN-10: 0131873210
ISBN-13: 978-0131873216
Product Dimensions: 9.4 x 6.9 x 1.6 inches
Shipping Weight: 3.5 pounds (View shipping rates and policies)
Average Customer Review: No customer reviews yet. Be the first.
Amazon.com Sales Rank: #22,897 in Books (See Bestsellers in Books)
Popular in these categories: (What's this?)
#2 in Books > Computers & Internet > Computer Science > Artificial Intelligence > Machine Vision
#2 in Books > Computers & Internet > Software > Voice Recognition
#2 in Books > Computers & Internet > Software > Business > Speech Processing
921:デフォルトの名無しさん
08/06/18 23:53:19
>>915
いや、その本頑張って読んでるけど難しすぎ…。
今EMアルゴリズムのところで詰まってます。
44ページの(2.33)なのですが、
「また、ジェンセンの不等式より、次が成り立つ。
Σ[y]P[θ](y|x[i])(log(P[θ](y|x[i])/P[θ ̄](y|x[i])) >= 0
」
とありますが、これは 8ページ、(1.20)・(1.21)の
「P(x)、Q(x) を確率分布とするとき、不等式
log(x) <= x - 1
より、次が成り立つ。
Σ[x]P(x)log(Q(x)/P(x)) <= Σ[x]P(x)((Q(x)/P(x)) - 1) = Σ[x]Q(x) - Σ[x]P(x) = 0
」
これの、log の中で Q(x) と P(x) が入れ替わって、符号が逆に→不等号が逆になった
パターンですよね。
Jensen の不等式は使ってないように見えるのですが…
私の勘違いなんでしょうか。
使っているのが Jensen の不等式だろうと、log(x) < x - 1 だろうとどっちでも
いいじゃないかと言われそうですが、気になって先に進めません。
おわかりの方いらっしゃったらよろしくお願いします。
922:デフォルトの名無しさん
08/06/19 02:05:32
(2.33)はKLダイバージェンスは常に正ですよ、というだけだけど、
>>921に書かれている通り、別にJensenの不等式を
使わなくても証明できるね。
無理に?使うなら、Jensenの不等式はf(x)が凸なとき
E[f(x)]≦f(E[x])ということなので、f(x)=log(x)として
-Σplog(p/q)=Σplog(q/p)=E_p[log(q/p)]
≦log(E_p[q/p])=log(Σq/p・p)=log(1)=0
よってΣplog(p/q)≧0、
でいいんじゃないかな。
923:デフォルトの名無しさん
08/06/19 02:16:03
確かに、そこは書き方が難しいね。
でも全部そうだってことではないので、がんがれ。
924:デフォルトの名無しさん
08/06/19 23:49:10
>>922
なるほどー。わかりました。
それにしても、EM アルゴリズムのあたりは難しい…。
式も補って読まないといけないし。
HMM に適用する場合について読んでいるのですが、
117ページの(4.27)は
まず素直に適用すると
Q(M, M ̄) = Σq[1, T]P(q[1, T]|o[1, T], M)log(P(o[1, T], q[1, T]| M ̄)
だけど、P(q[1, T], o[1, T]|M) = P(q[1, T]|o[1, T], M) * P(o[1, T]|M) だから
P(q[1, T]|o[1, T], M) = P(q[1, T], o[1, T]|M) / P(o[1, T]|M)
なので、(4.27)の
Q(M, M ̄) = (1 / P(o[1, T]|M)Σq[1, T]P(q[1, T], o[1, T]|M)log(P(o[1, T], q[1, T]| M ̄)
となるわけですよね。
こうやって書くといかにも当たり前のようだけど、本の中でもう1〜2行でいいから
途中の式を挟んでくれたらわかりやすいのに…と思うけど、
このへんがすらすらわかるぐらいじゃないと NLP やっていけないのだろうか…
925:デフォルトの名無しさん
08/06/20 07:08:05
>>924
まあ論文書こうと思ったら、それぐらい導出できないとなあ。
でも一番大事なのはEMをどう適用するかだと思うよ。
926:デフォルトの名無しさん
08/06/22 01:11:39
また「確率的言語モデル」からの質問です。
115ページの前向き・後ろ向きアルゴリズムのところで、
(4.21)の式の 2行目から 3行目で、分母が
P(X[t] = q[i], X[t + 1] = q[j], o[1, T] | M)
= α[t](i) * a[i, j] * b[j](o[t + 1])β[t + i](j)
となっているのはどうしてでしょうか。
α[t](i) は「モデル M が o[1, t] を生成して、時刻 t で状態 q[i] に到達する確率」(110ページ)、
β[t](i) は「状態 q[i] から始まる状態遷移によって o[t + 1, T] が生成される確率」(112ページ)
ですよね。
ということは、上の式は単純に
α[t](i) * β[t](j)
となりそうな気がするのですが。
よろしくお願いします。
927:デフォルトの名無しさん
08/06/24 01:20:42
926です。
もう少し考えてみたのですが、
β[t](j) には b[j](o[t + 1])、つまり t + 1 の時点で状態 q[j] がo[t + 1] を生成する
確率が入っていないですね。
でも、そう考えると 115ページ (4.21) 式の分母は
α[t](i)b[j](o[t + 1])β[t + 1](j)
となりそうです。
やはり、a[i, j] は余計な気がするのですが…。
引き続き、おわかりの方がいらっしゃったらお願いします。
928:デフォルトの名無しさん
08/06/24 01:35:17
ちょっと混乱してました。
最初の β[t](j) は β[t + 1](j) の間違いです。
まとめると、
β[t](i) は i から始まる状態遷移が o[t + 1, T] を生成する確率。
つまり、
α[t](i) * β[t](i)
が、状態 i を通った確率。
i から j に状態遷移した確率を求める時、β[t + 1][j] には
q[j] が o[t + 1] を生成した確率が含まれていないので、
α[t](i) * b[j](o[t + 1]) * β[t + 1](j)
になる。
これが私の考えなのですが、115ページの (4.21) と比べると a[i, j] が足りません。
よろしくお願いします。
929:915=922
08/06/24 21:50:21
ここは教科書質問スレではないので、細かい質問は
周りの人か、先生に聞いた方がいいと思う。
それより、書き込みを見ていて何となく感じるのですが、
日本語だからという理由で、最初に「確率的言語モデル」を頭から
読もうとしていないだろうか。
その必要はないと思う。
それより、FSNLP(これは複雑な計算はないし、個人的には熟読に値すると
思う)を読んで、>>925の人が言っているように、何がしたいのか、次に
何を読めばいいのか、を考えるのがお薦め。
その時に、EMなりHMMなりを理解する参考書の一つとして
「確率的言語モデル」を使うのがいいんじゃないだろうか。
もし本の記述がわからなくても、検索すれば、日本語でも
もっといい説明が見つかるはず。
実際、EMについて知りたければNeal&Hinton(1998)を読んだ方がいいし、
HMMについてはRabiner(1989)の素晴らしいチュートリアルを読むべき。
どちらも、Googleで調べればわかります。
ちなみに、>>924-928のような質問に答えてくれる人が周りに
いない場合は、ぜひNAISTへどうぞ、
とOB乙な書き込みをしてみるテスト。w
930:デフォルトの名無しさん
08/06/25 00:09:54
>>929さん
アドバイスありがとうございます。
FSNLP も読んでいるのですが、質問するなら日本語の本からのほうがいいかと思って
「確率的言語モデル」のほうを例に出しました。
ちなみに>>928までの問題は自己解決しました。
なんであんな馬鹿なことを書いたのか…
「モデルが q[i] を通って o[1, t] を生成した尤度」と
「モデルが q[i], q[j] を通って o[1, t] を生成した尤度」を比べるのだから、
当然 a[i, j] は掛けないといけないですね。
HMM と EM をやっているのは、CRF・MRF(まだ到達していないので違いすら
よくわかっていませんが)による構文解析をやりたいと思っているからです。
具体的には、
URLリンク(chasen.org)
「部分木に基づくマルコフ確率場と言語解析への適用」を理解することを
とりあえずの目標にしています。
そのためには、形態素解析の HMM からCRF につながる流れと、
構文解析の内側・外側アルゴリズムをまずは勉強しなければと、
HMM と HMM のパラメータ推定のところをやっているわけです。
道は遠い…。
質問できる人、いないですねぇ。
NAIST はちょうど来月受けるところです。
京大と迷っているのですが…。
OB の方お勧めということでしたら心強いですね。
ですが、当面は質問できる人がいないという状況は変わらないので、
どうしてもわからないことがあったら、答えを期待せずにまた書いてみるかもしれません。
931:デフォルトの名無しさん
08/06/28 01:55:04
目標が決まっているなら、それに近い方の院を選んだ方が、
色々な意味でいいんじゃないかな。
少なくとも、名前で選ばない方がいいと思う。
ちなみに、工藤氏もそうですが、NAISTで機械学習的に活躍している人
の多くは京大・東大から、自分の大学の院を選ばずにNAISTに
来た人達(結果的に)、ということに注意。
個人的には、係り受け解析は重要な課題ですが、
ある意味「業界」的なテーマなので、本当に自分が興味があることは
係り受け解析なのか、もしそうだとしたら現状の何が問題なのか、を常に
考えておいて欲しいなあと思いました。
先生にも質問できないと厳しいね。
頑張って下さい。
932:デフォルトの名無しさん
08/06/29 14:43:09
>>930
構文解析そのものを研究課題にしたいのか、
君の研究課題で利用する技術要素として構文解析があるのか、
ちゃんと落ち着いて考えておいたほうがいいよ。
前者の世界に踏み込むのなら、>>931の言う通り業界全体を向こうに回して勝負する覚悟がいるし、
後者の場合には自分のやりたい本当の課題のほうをしっかり説明できないと誤解されることになる。
933:デフォルトの名無しさん
08/06/29 16:30:54
>>932
やりたいのは中国語の構文解析です。
中国語は構文解析の前に品詞を確定してしまうとうまくいかないので、
形態素解析→構文解析ではなく、単語区切り→品詞タグ付け&構文解析という
流れでできないかと。
京大は NICT の中国語翻訳を担当しているということなので、それが志望理由になっています。
用例翻訳を中心とするようですが、よい用例翻訳のためにはよい構文解析が
必要だというのは当たり前のことですよね。
どうもこのへんはおろそかにされている感がありますが。
ところで、私は新しいことがやりたいというよりも、どちらかというと「応用」に
興味があるんですけど、これって研究の場である大学院ではどうなんでしょうね。
自然言語処理をやっていると、人による能力の違いを痛感します。
自分がいくら勉強したところでたかがしれている。
それでも、優れた人の研究成果を利用して、実地に応用するという
一段階下のことならできるかもしれない。例えば、>>930の論文を理解して、
それを例えば中国語の形態素・構文解析に応用できれば、自分程度の人間にとっては
上出来だ、というような発想で。
934:デフォルトの名無しさん
08/06/29 21:20:20
>>933
研究開発としてはいいと思うよ。すごく面白いと思う。
ただ、それが学位論文に直結するかどうかは別問題。
ただシステム作りましただけじゃ学位は出ない。
自分が学術界にどんな貢献ができるのかを考えてみて、
どういう形で研究として成立するのか、何を成果とするのか、
そこが大事じゃないかな。
935:デフォルトの名無しさん
08/07/01 00:53:40
>>933 の後半
ずばり、そういう人のために修士課程があるんじゃないかな。
全員が世界最先端の研究をする必要はないし、専門知識をベースにして
「応用」する人も社会に必要だと思う。
研究としては、>>934で心配されていることもありますが、
中国語に特有の事情や知識というものが必ずあるはずなので、
それをいかに洗い出して統計的にうまく扱うかで研究のセンスが問われる
というか、それで修士としては充分良い研究になると思う。
それと、上であがっている論文は特に内容が濃い方だし、
工藤氏も最初からこのレベルの論文が書けた訳ではないと
思うので、あまり恐れすぎなくてもいいのでは..という気もします。
修士なら就職した後でも、もしまた研究ができる/したいと思うことがあれば、
社会人で博士課程に入るという道もあるんじゃないでしょうか。
936:デフォルトの名無しさん
08/07/16 10:11:09
自然言語処理の研究者って
どうしてそろいもそろって質問のメールに答えてくれないんだろう
やっぱりなれ合いなわけ?
937:デフォルトの名無しさん
08/07/16 10:31:20
いや、質問のレベルが相手していられない程低いから。
938:デフォルトの名無しさん
08/07/16 11:51:49
質問メールの返事がこないことから「なれあい」という結論を導出してしまうような推論エンジンの持ち主は
この業界(分野)には向いていないと思われ。
939:デフォルトの名無しさん
08/07/16 14:24:25
ここに質問を貼り付けておけば暇な人が答えるだろうよ
940:デフォルトの名無しさん
08/07/16 18:12:15
面識がない奴には返事寄越さないよ
メールが来たことないって奴は
レベルが低くて当てにされてないんだけどさ
俺の知り合いでそいつが知っているであろう名前を出してメールを書くと
やっと返事を寄越す
持ち回りで年次大会優秀発表賞やら長尾賞やら貰ってるようなのばっかりだ
941:デフォルトの名無しさん
08/07/16 19:39:55
俺も時々見ず知らずの人から質問メールが来るけど原則全部に返信してるぞ
942:デフォルトの名無しさん
08/07/16 21:52:56
時々なら返しようもあろうが・・・
943:デフォルトの名無しさん
08/07/16 22:08:45
回答は完全にボランティアだからなぁ
944:デフォルトの名無しさん
08/07/17 05:59:07
俺なんかに質問来たら
1つ1つ丁寧に返してるぞ。
大物になっちゃうと・・・
やっぱ人ってそうなっちゃうんだろうなぁ・・・。
945:デフォルトの名無しさん
08/07/17 09:20:54
>>944
いや、物理的な制約じゃないの?
そんな立場になったことがないからわからんけど、一日に数十通も来たら手に負えないだろ。
946:デフォルトの名無しさん
08/07/17 09:24:40
そんな奴この分野に居るのか?
947:デフォルトの名無しさん
08/07/17 10:21:59
>回答は完全にボランティア
自分のライブラリや論文やら手法を広めたいと思うなら
そういう考えを持つべきでない
広めたいと思うけど対価が必要だ、と考えている奴に限って
Linuxの上でgccやGLibを使って平気な顔をしている
仲間内だけでライブラリとデータを使い回し論文を量産
他者の質問には答えない
だから馴れ合いって言ってる
948:デフォルトの名無しさん
08/07/17 10:39:45
>>947
いいから、宿題は自分の力で解けや。
949:デフォルトの名無しさん
08/07/17 10:56:30
ボランティアの意味を取り違えてる馬鹿が多いんだよな
950:デフォルトの名無しさん
08/07/17 12:02:11
> 仲間内だけでライブラリとデータを使い回し論文を量産
> 他者の質問には答えない
図星だな
951:デフォルトの名無しさん
08/07/17 15:55:08
今日の夜あたりは祇園祭に繰り出すんだろうなあ
952:デフォルトの名無しさん
08/07/17 16:01:02
>>947
こんなところで悔しがってもどうにもならないし
期待を裏切られたくらいで悪態つくような奴は相手しなくて正解だろうよ
953:デフォルトの名無しさん
08/07/18 00:07:53
よしっ NAIST合格!
受かったから書くけど、試験があんなんだと不安だなぁ。
OBの人のページにも受ければ受かるみたいに書いてあったし。
どうやって質を維持しているのか不思議だ。
一般社会での無名さがいい方向にフィルタとして働いてるのかな。
954:デフォルトの名無しさん
08/07/18 08:38:13
おめでとう
955:デフォルトの名無しさん
08/07/18 08:43:07
コード公開したらしたで、「うちの環境でコンパイルできん。なんとかしろ」とか
勝手にコード書き変えておきながら「論文と違う結果が出たぞ。」とか
どうでもいいメールが増えるんだよな。
こういうのにいちいち対応すると研究する時間がなくなる。
956:デフォルトの名無しさん
08/07/18 11:00:24
>>955
>コード公開したらしたで、「うちの環境でコンパイルできん。なんとかしろ」
コンパイルできないような欠陥ソースを公開するのが悪い
>こういうのにいちいち対応すると研究する時間がなくなる。
こんな対応のメールを書くのに何日もかからないだろ
要領悪すぎw
957:デフォルトの名無しさん
08/07/18 11:39:29
悔しさ爆発
958:デフォルトの名無しさん
08/07/18 12:29:31
>>956
わかってないなあw
どうでもいいtoyプログラムならまだしも、マジメな自然言語処理で高効率めざしていて
sparcでもx86でもalphaでも、bsdでもlinuxでもultrixでも他のunicenでも動くソース書くのが
どれだけ大変かわかるか?
959:デフォルトの名無しさん
08/07/18 12:45:17
門外漢のあしらい方は学んでおいたほうがいい
960:デフォルトの名無しさん
08/07/18 14:10:39
>>958
気にするな。
自分の環境が唯一で、皆同じだと思ってるアフォが居るのは
そのアフォ以外には良く知られた事実だ。
961:デフォルトの名無しさん
08/07/18 16:05:27
まぁ、どう考えても単なるバグで
こいつ本当にコンパイルできたんか?ってのもあるけどな・・・。
962:デフォルトの名無しさん
08/07/18 17:42:25
>>953
おめ。
俺の時は倍率4倍だったよ。
まあぶっちゃけ、玉石混淆ということかも。
一般社会にとってはわりと無名でもいいが、学部生には有名でないといかんね。
963:デフォルトの名無しさん
08/07/18 23:30:49
京大は最近いい噂聞かないけど、実際のところどうなん?
自分の印象としては、Juman・KNP以降それにしがみついてばかりで、
格フレームの抽出だの些細なことに汲々としているという感じだけど。
964:デフォルトの名無しさん
08/07/18 23:33:08
格フレームの抽出が些細だというなら
NLP自体全般的に些細なことに汲々としているという感じジャマイカ?
965:デフォルトの名無しさん
08/07/19 08:46:09
つーか、些細なことに汲々としていないNLPがあったら教えてほしい。
966:デフォルトの名無しさん
08/07/19 10:51:55
例えばJumanやKNPは些細なことじゃないってことだろ。
最新レス表示スレッドの検索類似スレ一覧話題のニュースおまかせリスト▼オプションを表示暇つぶし2ch
5392日前に更新/189 KB
担当:undef