[表示 : 全て 最新50 1-99 101- 2chのread.cgiへ]
Update time : 05/09 13:38 / Filesize : 48 KB / Number-of Response : 181
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

自然言語処理スレッド その3



1 名前:デフォルトの名無しさん mailto:sage [2009/02/20(金) 20:31:21 ]
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。


前スレ:自然言語処理スレッド その2
pc11.2ch.net/test/read.cgi/tech/1173105287/

次スレは>>980

139 名前:デフォルトの名無しさん mailto:sage [2010/01/24(日) 18:02:20 ]
とりあえず64bit環境用意しないと、話が進まないけどな

>>138
単一のハードウェアに数十GB単位のメモリが仮に載せられたとして
それをそのまま利用できると思ってるのは所詮解説論文しか書けない実装出来無い奴の頭だ
どこかの頭の悪い文系SEと同じ

ちなみに、大規模計算機の数十GBは、分散型だから、単一ではせいぜい数GB程度のメモリ
これを分散型にする場合、SVDをそういうアルゴリズムに落とさないといけないと言う問題が待っててだなry



140 名前:デフォルトの名無しさん mailto:sage [2010/01/24(日) 18:34:18 ]
おっとそれは俺が4年前に通った道だ

141 名前:136 [2010/01/24(日) 18:40:46 ]
個人のPCで他アプリを同時に動かす環境で使いたいのですが。メモリは多くて200Mが限度と思います。

142 名前:デフォルトの名無しさん mailto:sage [2010/01/24(日) 18:57:21 ]
>>141
誰かが答えを呉れるのを待ってるのかもしれないけど、自分で調べた事柄と
自分の考えたをそれぞれ説明して、疑問点を明確にしないと
もう誰も答えないと思うよ。

143 名前:デフォルトの名無しさん mailto:sage [2010/01/24(日) 19:13:06 ]
メモリが200しかないんだろ?
200しかない所に300はつっこめないだろ?

じゃあどうするの?
魔法使いじゃないんだから、メモリにツッコむには
・データを何らかの前処理で圧縮する
・メモリ以外を活用する
・サンプリング
の3つしか無いと思うんだが

144 名前:デフォルトの名無しさん mailto:sage [2010/01/25(月) 04:20:38 ]
メモリを買ってくる

145 名前:デフォルトの名無しさん mailto:sage [2010/01/25(月) 09:16:05 ]
仮想記憶?

146 名前:129 [2010/01/25(月) 19:35:04 ]
疎な10万次元ベクトルを、100次元以下に縮めたら、
0ベクトルになる率が多くて使えなかった。
何の変換もしない元のデータのままて゜頻度の少ない単語を無視して
次元圧縮するのが確実に有効っぽい。

147 名前:デフォルトの名無しさん mailto:sage [2010/01/25(月) 23:01:01 ]
目的が何か知らないけど(潜在的な意味繋がりを使いたいとかならともかく)
次元圧縮そのものが目的なら、頻度で切って
そこから更に次元圧縮するのって、何か無駄に見えるが・・・
頻度で切るなら圧縮意味なくね?



148 名前:129 [2010/01/26(火) 10:33:44 ]
100万 - 1000万件ほどの文書のクラスタリングをしたいのですが。
計算量を減らすために次元を減らしたいのですが。

149 名前:デフォルトの名無しさん mailto:sage [2010/01/28(木) 07:50:51 ]
この分野を勉強してみたいと思うのですが、入門書とかおすすめのサイトを教えていただけませんか?

150 名前:デフォルトの名無しさん mailto:sage [2010/01/28(木) 09:17:25 ]
とりあえず、ずばり「自然言語処理」がタイトルに入ってる本が何冊かある。

151 名前:デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:28:04 ]
自然言語処理って、ぶっちゃけ何でも屋だからなぁ・・・
漠然と自然言語処理を勉強するっていったって・・・

ちなみに、今世間で騒がれてる
検索エンジン、日本語入力、機械翻訳、なんて言うメジャーな自然言語処理の応用例と言われてるツールは
どっちかと言うと、この分野じゃ本流じゃないからな。

152 名前:デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:31:39 ]
> 日本語入力、機械翻訳

これが専門の人から教わったので、俺にとっては自然言語処理というとこれなんだがw

153 名前:デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:39:59 ]
最近はGoogleや集合知ブームのせいか知らないけど
統計的な言語処理が流行ってるなぁ・・・

統語的な話しとか、生成文法とかの話はどこへやら・・

154 名前:デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:56:47 ]
「計量」言語学なんて用語もあるように、統計的な手法も歴史はあるんだけどね。

155 名前:デフォルトの名無しさん [2010/01/29(金) 18:41:06 ]
K-meams法の最適解(最適な中心)は固有値(ベクトル)計算で決まるみたいだね。
ここに書いてあった。普通のK-meamsで試行錯誤するより固有値計算した方が
かかる時間は半分になるそうだ。


スペクトラルクラスタリング
d.hatena.ne.jp/mrcarrot/20100117/1263735597

スペクトラルクラスタリングは次元圧縮しながらKmeansする手法
d.hatena.ne.jp/mamoruk/20090128/p1

156 名前:デフォルトの名無しさん mailto:sage [2010/01/29(金) 18:46:06 ]
こんな線形代数の初歩しかやってない事が2001-2003年頃まで知られて無かったらしい。当たり前すぎて誰も論文かかなかっただけかも。

157 名前:デフォルトの名無しさん [2010/01/29(金) 19:02:22 ]
日本語で書いてあるより詳しい資料見つけてきた。
固有ベクトル求めてK-meamsやるソフトウェアは無いと思うんで作りたんだけど実力がない。
だれか。


スペクトラルクラスタリング
nlp.dse.ibaraki.ac.jp/~shinnou/zemi2008/Rclustering/r-motegi-0624.pdf
部分時系列クラスタリングの 理論的基礎
www.research.ibm.com/trl/people/ide/2006_JSAI_Ide.ppt
縮約類似度行列を用いたスペクトラル手法による クラスタリング結果の改善
nlp.dse.ibaraki.ac.jp/~shinnou/paper/sig-kbs-07-79.pdf



158 名前:デフォルトの名無しさん [2010/01/29(金) 21:39:33 ]
逆に言うとK-meansが正確に高速にとけると
固有値、ベクトル計算できるってことだな。特殊なやつだけだけど。
いまかんがえたやつだけど、1万個なら100クラスタ*100個に分けて
クラスタの中心とそのノルムを計算して、
ノルムはクラスタの散らばり度を表すから
その小さい物を、ほかのクラスタの散らばり度を無くす様に配置転換していけばいとおもうな。
ここで、良い場所がなければ101個目のクラスタを作って良いとする。
1つのクラスタが一番散らばりが少なくなるからどこかで止めないといけないが。

159 名前:デフォルトの名無しさん mailto:sage [2010/01/31(日) 09:38:09 ]
みなさん、どれくらいの機械使ってるもんなのかな。

スペック足りないからもっとゴツいの買ってほしいんだが、
「お前のコードがヘボいからだ!」と言われそうだ。
ヘボいのは(たぶん)事実だから、あんまり強気に出られない。

運用の方のスペックは割と情報があるけど、開発の方のスペックがどうなっているのか
見たことがない。

160 名前:デフォルトの名無しさん mailto:sage [2010/01/31(日) 13:12:35 ]
>>159
用途やデータの規模によるところが大きいかと。

161 名前:デフォルトの名無しさん mailto:sage [2010/01/31(日) 15:02:14 ]
いやそりゃ重々わかってるんだけどさ…


162 名前:149 mailto:sage [2010/02/01(月) 14:36:40 ]
趣味である言語の自分用の機械翻訳ツールを作ってみようと思ってるんですが、
どこから勉強すべきか分からないんです。
自然言語処理の基礎から勉強するのは遠回り過ぎますか?


163 名前:デフォルトの名無しさん mailto:sage [2010/02/01(月) 22:02:29 ]
>>162
楽しむだけなら、
www.amazon.co.jp/dp/4766501101/
なんか読むだけでいいんじゃないか。

164 名前:デフォルトの名無しさん [2010/02/04(木) 11:46:45 ]
>>153
日本語限定のことはあまり価値無い
全世界や未知語や宇宙語でも共通するのが良い

165 名前:デフォルトの名無しさん [2010/02/04(木) 14:32:23 ]
671番さん
57行目でclassまたはinterfaceがありません。
です。
すみませんがよろしくおねがいします。

166 名前:デフォルトの名無しさん mailto:sage [2010/02/04(木) 18:15:03 ]
対話コーパスの隣接対について、自動的にタグ付けするアルゴリズムってどこかで研究されてる?

167 名前:デフォルトの名無しさん mailto:sage [2010/02/05(金) 00:29:16 ]
>>139
今時数十GBがそんな特別なもんかよおい・・・
ていうか、それをそのまま使えない環境なんて捨てちまえよ、おい・・・
いずれにせよサーベイしなさすぎだな、みんな。




168 名前:162 mailto:sage [2010/02/05(金) 00:42:53 ]
>>163
レスが遅れましたがありがとうございます。
読んでみます

169 名前:デフォルトの名無しさん mailto:sage [2010/02/05(金) 04:43:32 ]
ググることをしないIR専門家(自称)

170 名前:デフォルトの名無しさん mailto:sage [2010/02/05(金) 05:22:17 ]
むしろググるな
論文探すって言う意味なら良いけど、
それなら、もっと良い方法あるだろ。
IR専門家なら、参考にするのは、査読付き論文のみにするだろjk

171 名前:デフォルトの名無しさん mailto:sage [2010/02/05(金) 05:24:33 ]
>>167
サーベイでどうにかなるもんだいじゃないだろ
元論文だって、結果の裏で細かい実装上の苦労があんだよ
そのノウハウ蓄積無しに、サーベイサーベイ言ってもなぁ・・・

172 名前:デフォルトの名無しさん mailto:sage [2010/02/05(金) 07:02:47 ]
サーベイばっかしてて研究進まない香具師

173 名前:デフォルトの名無しさん mailto:sage [2010/02/05(金) 08:40:15 ]
サーベイと言ったらとりあえずはIEEE-CS DLとACM DLは常識だと思った俺が悪かった。すまん。


174 名前:デフォルトの名無しさん mailto:sage [2010/02/05(金) 20:43:08 ]
>>173
そいつら、やたら使い難いじゃん。ググルスカラのほうが遥かにマシ。

175 名前:デフォルトの名無しさん mailto:sage [2010/02/12(金) 11:52:51 ]
>>159
Core i7にメモリ8GB。
マシンパワーで片付くものなら片付けちゃった方がいい。
開発用ならなおさら、ちょこっと試したい事をイージーに試せる方がいい。
もっともっとメモリ欲しいとおねだり中。


176 名前:デフォルトの名無しさん mailto:sage [2010/02/12(金) 12:49:29 ]
もうみんな64bit化はデフォなんだ。
ところで、複数マシンで処理する場合、みんな何使ってる?
やっぱMPI?

177 名前:デフォルトの名無しさん mailto:sage [2010/02/19(金) 11:19:49 ]
>>148
亀レスで悪いけど、もともとかなりの疎行列だと思うんだけど、どうして次元削減する必要あるの?




178 名前:デフォルトの名無しさん mailto:sage [2010/02/19(金) 18:12:21 ]
>>177
???あまりにも疎だから次元減らしたいんじゃね?

179 名前:デフォルトの名無しさん mailto:sage [2010/02/21(日) 23:07:06 ]
>>178
疎ならコンパクトに表現できんじゃん。
次元減らして何がしたいんだろ。


180 名前:デフォルトの名無しさん mailto:sage [2010/02/22(月) 19:01:31 ]
表現がコンパクトなだけで空間としては全然コンパクトじゃない罠






[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧](*・∀・)<48KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef