自然言語処理スレッド　その３

[表示 : 全て最新50 1-99 101- 2chのread.cgiへ]
Update time : 05/09 13:38 / Filesize : 48 KB / Number-of Response : 181
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

自然言語処理スレッド　その３

1 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 20:31:21 ]: このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。

前スレ：自然言語処理スレッド　その２
pc11.2ch.net/test/read.cgi/tech/1173105287/

次スレは>>980
114 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 11:58:52 ]: 形態素解析も依存構造解析も構文解析の一種
115 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 12:00:19 ]: ここって随分低レベルになったり、
逆に、自然言語処理の研究者(M、Dr含む)が書き込んでるっぽいなぁってレスがあったりで
波がすごいなｗ
116 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 12:30:15 ]: >>114
ありがとう。同じグループとして繋がりました。

>>115
すみません。まったくの素人です。
たまたま検索エンジンでこちらががヒットして、気になったことを質問しました。

大量にある文書から個人情報の箇所を自動的に隠蔽したく (例：鈴木様 <<人名>>様)、
そういう技術を探していました。市販の商品もあるようですが、手元のマシンで動かして確かめ
たり、理解を進めたいと思っています。

もし形態素解析で「人名」が特定できるなら、その部分を除去して元に戻すことで望む動作に
ならないかと期待しています。　
実データを用いてどこまでできるか、何はできないか知りたいと思っています。
117 名前：デフォルトの名無しさん mailto:sage [2009/12/02(水) 02:30:42 ]: >>101
よくあるのは特異値分解していくつかの特異ベクトルを基底に選んで低次元に投射するってのだね。
そういうオーソドックスな事はやってみた？
118 名前：デフォルトの名無しさん mailto:sage [2009/12/15(火) 18:35:53 ]: (つд⊂)ｴｰﾝ
119 名前：デフォルトの名無しさん mailto:sage [2009/12/15(火) 20:39:43 ]: dosita
120 名前：デフォルトの名無しさん mailto:sage [2009/12/15(火) 21:54:04 ]: 俺も今泣きたい。
121 名前：デフォルトの名無しさん mailto:sage [2009/12/19(土) 08:21:24 ]: nasite?
122 名前：デフォルトの名無しさん mailto:sage [2010/01/03(日) 17:02:06 ]: なにが
123 名前：デフォルトの名無しさん mailto:sage [2010/01/15(金) 09:43:12 ]: 部外者です。
つまらない質問なんですけど、例えば「住んでいて」という言葉を「住んでて」と略したりしますよね？
これは文法的には間違っているけど、通じますよね？
こういった言葉の翻訳の場合、どのような処理をするもんなんでしょうか？
普通に考えると、辞書的な処理とか、略す規則を求めるとかなんでしょうけど、
もっと別の方法ってあるんですかね？
124 名前：デフォルトの名無しさん mailto:sage [2010/01/15(金) 13:22:00 ]: い抜き言葉とか、ら抜き言葉とか
一応決まった規則があるから、それで処理するだけかと

もっと本気で分析するなら、音素関係を見て
どういう音素の繋がりがあった時に、どの音を抜くかとか
そういうのもあるとは思うけど
125 名前：デフォルトの名無しさん mailto:sage [2010/01/15(金) 13:57:41 ]: >>123
間違ってないよ。
君の知らない文法があるってだけ。
126 名前：デフォルトの名無しさん mailto:sage [2010/01/15(金) 23:55:33 ]: >>123
音素コーパスから統計処理。
127 名前：デフォルトの名無しさん [2010/01/23(土) 13:22:01 ]: >>117
特異値分解が、クラスタリングで重要なことがわかったけど
これを実行することが難しい。
128 名前：デフォルトの名無しさん [2010/01/23(土) 14:23:24 ]: でかい疎行列の特異値を計算するライブラリないですか?
129 名前：デフォルトの名無しさん [2010/01/23(土) 14:33:59 ]: 特異値分解が、全ての相関度を計算するコストより
かかったら意味ないな。
経験的に、多くのベクトルと関連があって直行に近い数個のベクトル
を選んでおく方が良いか。
130 名前：デフォルトの名無しさん [2010/01/23(土) 14:38:18 ]: 特異値分解できれば、相関度に影響の少ない次元を
数値的に削れるけど、時間がかかりすぎる気がしてきたから
これはやめるか。
131 名前：デフォルトの名無しさん mailto:sage [2010/01/23(土) 15:12:54 ]: っていうか、どうやってお前ら特徴ベクトル作ってんの？
片方の軸は単語として、もう片方は各文？
中身は頻度かtf・idfだと思うけど・・・
132 名前：129 mailto:sage [2010/01/23(土) 15:53:03 ]: 直交基底を始めに適当に作って
その基底でいくつかのサンプルをプロットしたときに
良く分布するものを選ぶことにした。
これなら次元を落とす作業の準備はほぼ一瞬ですむ。
133 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 09:15:25 ]: 卒論か何かかなぁ。
学部生が一人でやってるなら仕方ないけど、サーベイしなさ過ぎだぞ。
大規模疎行列の特異値分解についてはsvdpackcを探せ。
この中のlanczos法プログラム(las2.c)を使え。
具体的な使い方については茨大の新納先生の↓が参考になる。
nlp.dse.ibaraki.ac.jp/~shinnou/papers.html

他にも色々言いたいことはあるが面倒だからやめとくw
134 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 09:16:52 ]: おっとすまん、そこの「SVDPACKCとその語義判別問題への利用」という論文だ。
135 名前：デフォルトの名無しさん [2010/01/24(日) 09:48:06 ]: サンクス
136 名前：デフォルトの名無しさん [2010/01/24(日) 16:47:18 ]: SVDPACKCの使い方みたのですが大規模疎行列は無理みたいでした。
1-3万　*　2000くらいが限度だと厳しいです。
シュミットの直交化を使って、正規直交基底を沢山作っておき、そこへサンプルをプロットして
分散(標準偏差)の良い上位k個を選んで、k次元に落とすことにしました。
137 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 17:18:02 ]: 研究屋が言う「大規模」と、実務屋が必要とする「大規模」は
字面は同じでも意味が全然違うというわな
138 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 17:49:44 ]: まったく、ほんとに出来の悪い学生だな。
ちったぁ自分で工夫しろ。
仮にsvdpackcをそのまま使うにしても、25000x2000でダメだったのは512Mのメモリの場合と書いてあるだろ。
今時数十GB位のメモリ使えるだろ。

>>137
計算機の世界では数字さえ出てくれば意味は同じですよ。
賢い実務屋さんなら人をクサすような事ばかりじゃなくて、こういう時にはみんなどうしているのか教えてやってよ。
139 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 18:02:20 ]: とりあえず64bit環境用意しないと、話が進まないけどな

>>138
単一のハードウェアに数十GB単位のメモリが仮に載せられたとして
それをそのまま利用できると思ってるのは所詮解説論文しか書けない実装出来無い奴の頭だ
どこかの頭の悪い文系SEと同じ

ちなみに、大規模計算機の数十GBは、分散型だから、単一ではせいぜい数GB程度のメモリ
これを分散型にする場合、SVDをそういうアルゴリズムに落とさないといけないと言う問題が待っててだなｒｙ
140 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 18:34:18 ]: おっとそれは俺が4年前に通った道だ
141 名前：136 [2010/01/24(日) 18:40:46 ]: 個人のPCで他アプリを同時に動かす環境で使いたいのですが。メモリは多くて200Mが限度と思います。
142 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 18:57:21 ]: >>141
誰かが答えを呉れるのを待ってるのかもしれないけど、自分で調べた事柄と
自分の考えたをそれぞれ説明して、疑問点を明確にしないと
もう誰も答えないと思うよ。
143 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 19:13:06 ]: メモリが200しかないんだろ？
200しかない所に300はつっこめないだろ？

じゃあどうするの？
魔法使いじゃないんだから、メモリにツッコむには
・データを何らかの前処理で圧縮する
・メモリ以外を活用する
・サンプリング
の3つしか無いと思うんだが
144 名前：デフォルトの名無しさん mailto:sage [2010/01/25(月) 04:20:38 ]: メモリを買ってくる
145 名前：デフォルトの名無しさん mailto:sage [2010/01/25(月) 09:16:05 ]: 仮想記憶？
146 名前：129 [2010/01/25(月) 19:35:04 ]: 疎な10万次元ベクトルを、100次元以下に縮めたら、
0ベクトルになる率が多くて使えなかった。
何の変換もしない元のデータのままて゜頻度の少ない単語を無視して
次元圧縮するのが確実に有効っぽい。
147 名前：デフォルトの名無しさん mailto:sage [2010/01/25(月) 23:01:01 ]: 目的が何か知らないけど（潜在的な意味繋がりを使いたいとかならともかく）
次元圧縮そのものが目的なら、頻度で切って
そこから更に次元圧縮するのって、何か無駄に見えるが・・・
頻度で切るなら圧縮意味なくね？
148 名前：129 [2010/01/26(火) 10:33:44 ]: 100万　-　1000万件ほどの文書のクラスタリングをしたいのですが。
計算量を減らすために次元を減らしたいのですが。
149 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 07:50:51 ]: この分野を勉強してみたいと思うのですが、入門書とかおすすめのサイトを教えていただけませんか？
150 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 09:17:25 ]: とりあえず、ずばり「自然言語処理」がタイトルに入ってる本が何冊かある。
151 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:28:04 ]: 自然言語処理って、ぶっちゃけ何でも屋だからなぁ・・・
漠然と自然言語処理を勉強するっていったって・・・

ちなみに、今世間で騒がれてる
検索エンジン、日本語入力、機械翻訳、なんて言うメジャーな自然言語処理の応用例と言われてるツールは
どっちかと言うと、この分野じゃ本流じゃないからな。
152 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:31:39 ]: > 日本語入力、機械翻訳

これが専門の人から教わったので、俺にとっては自然言語処理というとこれなんだがw
153 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:39:59 ]: 最近はGoogleや集合知ブームのせいか知らないけど
統計的な言語処理が流行ってるなぁ・・・

統語的な話しとか、生成文法とかの話はどこへやら・・
154 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:56:47 ]: 「計量」言語学なんて用語もあるように、統計的な手法も歴史はあるんだけどね。
155 名前：デフォルトの名無しさん [2010/01/29(金) 18:41:06 ]: K-meams法の最適解(最適な中心)は固有値(ベクトル)計算で決まるみたいだね。
ここに書いてあった。普通のK-meamsで試行錯誤するより固有値計算した方が
かかる時間は半分になるそうだ。

スペクトラルクラスタリング
d.hatena.ne.jp/mrcarrot/20100117/1263735597

スペクトラルクラスタリングは次元圧縮しながらKmeansする手法
d.hatena.ne.jp/mamoruk/20090128/p1
156 名前：デフォルトの名無しさん mailto:sage [2010/01/29(金) 18:46:06 ]: こんな線形代数の初歩しかやってない事が2001-2003年頃まで知られて無かったらしい。当たり前すぎて誰も論文かかなかっただけかも。
157 名前：デフォルトの名無しさん [2010/01/29(金) 19:02:22 ]: 日本語で書いてあるより詳しい資料見つけてきた。
固有ベクトル求めてK-meamsやるソフトウェアは無いと思うんで作りたんだけど実力がない。
だれか。

スペクトラルクラスタリング
nlp.dse.ibaraki.ac.jp/~shinnou/zemi2008/Rclustering/r-motegi-0624.pdf
部分時系列クラスタリングの理論的基礎
www.research.ibm.com/trl/people/ide/2006_JSAI_Ide.ppt
縮約類似度行列を用いたスペクトラル手法によるクラスタリング結果の改善
nlp.dse.ibaraki.ac.jp/~shinnou/paper/sig-kbs-07-79.pdf
158 名前：デフォルトの名無しさん [2010/01/29(金) 21:39:33 ]: 逆に言うとK-meansが正確に高速にとけると
固有値、ベクトル計算できるってことだな。特殊なやつだけだけど。
いまかんがえたやつだけど、1万個なら100クラスタ*100個に分けて
クラスタの中心とそのノルムを計算して、
ノルムはクラスタの散らばり度を表すから
その小さい物を、ほかのクラスタの散らばり度を無くす様に配置転換していけばいとおもうな。
ここで、良い場所がなければ101個目のクラスタを作って良いとする。
1つのクラスタが一番散らばりが少なくなるからどこかで止めないといけないが。
159 名前：デフォルトの名無しさん mailto:sage [2010/01/31(日) 09:38:09 ]: みなさん、どれくらいの機械使ってるもんなのかな。

スペック足りないからもっとゴツいの買ってほしいんだが、
「お前のコードがヘボいからだ！」と言われそうだ。
ヘボいのは（たぶん）事実だから、あんまり強気に出られない。

運用の方のスペックは割と情報があるけど、開発の方のスペックがどうなっているのか
見たことがない。
160 名前：デフォルトの名無しさん mailto:sage [2010/01/31(日) 13:12:35 ]: >>159
用途やデータの規模によるところが大きいかと。
161 名前：デフォルトの名無しさん mailto:sage [2010/01/31(日) 15:02:14 ]: いやそりゃ重々わかってるんだけどさ…
162 名前：149 mailto:sage [2010/02/01(月) 14:36:40 ]: 趣味である言語の自分用の機械翻訳ツールを作ってみようと思ってるんですが、
どこから勉強すべきか分からないんです。
自然言語処理の基礎から勉強するのは遠回り過ぎますか？
163 名前：デフォルトの名無しさん mailto:sage [2010/02/01(月) 22:02:29 ]: >>162
楽しむだけなら、
www.amazon.co.jp/dp/4766501101/
なんか読むだけでいいんじゃないか。
164 名前：デフォルトの名無しさん [2010/02/04(木) 11:46:45 ]: >>153
日本語限定のことはあまり価値無い
全世界や未知語や宇宙語でも共通するのが良い
165 名前：デフォルトの名無しさん [2010/02/04(木) 14:32:23 ]: 671番さん
57行目でclassまたはinterfaceがありません。
です。
すみませんがよろしくおねがいします。
166 名前：デフォルトの名無しさん mailto:sage [2010/02/04(木) 18:15:03 ]: 対話コーパスの隣接対について、自動的にタグ付けするアルゴリズムってどこかで研究されてる？
167 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 00:29:16 ]: >>139
今時数十GBがそんな特別なもんかよおい・・・
ていうか、それをそのまま使えない環境なんて捨てちまえよ、おい・・・
いずれにせよサーベイしなさすぎだな、みんな。
168 名前：162 mailto:sage [2010/02/05(金) 00:42:53 ]: >>163
レスが遅れましたがありがとうございます。
読んでみます
169 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 04:43:32 ]: ググることをしないIR専門家(自称)
170 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 05:22:17 ]: むしろググるな
論文探すって言う意味なら良いけど、
それなら、もっと良い方法あるだろ。
IR専門家なら、参考にするのは、査読付き論文のみにするだろｊｋ
171 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 05:24:33 ]: >>167
サーベイでどうにかなるもんだいじゃないだろ
元論文だって、結果の裏で細かい実装上の苦労があんだよ
そのノウハウ蓄積無しに、サーベイサーベイ言ってもなぁ・・・
172 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 07:02:47 ]: サーベイばっかしてて研究進まない香具師
173 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 08:40:15 ]: サーベイと言ったらとりあえずはIEEE-CS DLとACM DLは常識だと思った俺が悪かった。すまん。
174 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 20:43:08 ]: >>173
そいつら、やたら使い難いじゃん。ググルスカラのほうが遥かにマシ。
175 名前：デフォルトの名無しさん mailto:sage [2010/02/12(金) 11:52:51 ]: >>159
Core i7にメモリ8GB。
マシンパワーで片付くものなら片付けちゃった方がいい。
開発用ならなおさら、ちょこっと試したい事をイージーに試せる方がいい。
もっともっとメモリ欲しいとおねだり中。
176 名前：デフォルトの名無しさん mailto:sage [2010/02/12(金) 12:49:29 ]: もうみんな64bit化はデフォなんだ。
ところで、複数マシンで処理する場合、みんな何使ってる？
やっぱMPI？
177 名前：デフォルトの名無しさん mailto:sage [2010/02/19(金) 11:19:49 ]: >>148
亀レスで悪いけど、もともとかなりの疎行列だと思うんだけど、どうして次元削減する必要あるの？
178 名前：デフォルトの名無しさん mailto:sage [2010/02/19(金) 18:12:21 ]: >>177
？？？あまりにも疎だから次元減らしたいんじゃね？
179 名前：デフォルトの名無しさん mailto:sage [2010/02/21(日) 23:07:06 ]: >>178
疎ならコンパクトに表現できんじゃん。
次元減らして何がしたいんだろ。
180 名前：デフォルトの名無しさん mailto:sage [2010/02/22(月) 19:01:31 ]: 表現がコンパクトなだけで空間としては全然コンパクトじゃない罠

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef