自然言語処理スレッド ..
[2ch|▼Menu]
141:136
10/01/24 18:40:46
個人のPCで他アプリを同時に動かす環境で使いたいのですが。メモリは多くて200Mが限度と思います。

142:デフォルトの名無しさん
10/01/24 18:57:21
>>141
誰かが答えを呉れるのを待ってるのかもしれないけど、自分で調べた事柄と
自分の考えたをそれぞれ説明して、疑問点を明確にしないと
もう誰も答えないと思うよ。

143:デフォルトの名無しさん
10/01/24 19:13:06
メモリが200しかないんだろ?
200しかない所に300はつっこめないだろ?

じゃあどうするの?
魔法使いじゃないんだから、メモリにツッコむには
・データを何らかの前処理で圧縮する
・メモリ以外を活用する
・サンプリング
の3つしか無いと思うんだが

144:デフォルトの名無しさん
10/01/25 04:20:38
メモリを買ってくる

145:デフォルトの名無しさん
10/01/25 09:16:05
仮想記憶?

146:129
10/01/25 19:35:04
疎な10万次元ベクトルを、100次元以下に縮めたら、
0ベクトルになる率が多くて使えなかった。
何の変換もしない元のデータのままて゜頻度の少ない単語を無視して
次元圧縮するのが確実に有効っぽい。

147:デフォルトの名無しさん
10/01/25 23:01:01
目的が何か知らないけど(潜在的な意味繋がりを使いたいとかならともかく)
次元圧縮そのものが目的なら、頻度で切って
そこから更に次元圧縮するのって、何か無駄に見えるが・・・
頻度で切るなら圧縮意味なくね?

148:129
10/01/26 10:33:44
100万 - 1000万件ほどの文書のクラスタリングをしたいのですが。
計算量を減らすために次元を減らしたいのですが。

149:デフォルトの名無しさん
10/01/28 07:50:51
この分野を勉強してみたいと思うのですが、入門書とかおすすめのサイトを教えていただけませんか?

150:デフォルトの名無しさん
10/01/28 09:17:25
とりあえず、ずばり「自然言語処理」がタイトルに入ってる本が何冊かある。

151:デフォルトの名無しさん
10/01/28 17:28:04
自然言語処理って、ぶっちゃけ何でも屋だからなぁ・・・
漠然と自然言語処理を勉強するっていったって・・・

ちなみに、今世間で騒がれてる
検索エンジン、日本語入力、機械翻訳、なんて言うメジャーな自然言語処理の応用例と言われてるツールは
どっちかと言うと、この分野じゃ本流じゃないからな。

152:デフォルトの名無しさん
10/01/28 17:31:39
> 日本語入力、機械翻訳

これが専門の人から教わったので、俺にとっては自然言語処理というとこれなんだがw

153:デフォルトの名無しさん
10/01/28 17:39:59
最近はGoogleや集合知ブームのせいか知らないけど
統計的な言語処理が流行ってるなぁ・・・

統語的な話しとか、生成文法とかの話はどこへやら・・

154:デフォルトの名無しさん
10/01/28 17:56:47
「計量」言語学なんて用語もあるように、統計的な手法も歴史はあるんだけどね。

155:デフォルトの名無しさん
10/01/29 18:41:06
K-meams法の最適解(最適な中心)は固有値(ベクトル)計算で決まるみたいだね。
ここに書いてあった。普通のK-meamsで試行錯誤するより固有値計算した方が
かかる時間は半分になるそうだ。


スペクトラルクラスタリング
URLリンク(d.hatena.ne.jp)

スペクトラルクラスタリングは次元圧縮しながらKmeansする手法
URLリンク(d.hatena.ne.jp)

156:デフォルトの名無しさん
10/01/29 18:46:06
こんな線形代数の初歩しかやってない事が2001-2003年頃まで知られて無かったらしい。当たり前すぎて誰も論文かかなかっただけかも。

157:デフォルトの名無しさん
10/01/29 19:02:22
日本語で書いてあるより詳しい資料見つけてきた。
固有ベクトル求めてK-meamsやるソフトウェアは無いと思うんで作りたんだけど実力がない。
だれか。


スペクトラルクラスタリング
URLリンク(nlp.dse.ibaraki.ac.jp)
部分時系列クラスタリングの 理論的基礎
URLリンク(www.research.ibm.com)
縮約類似度行列を用いたスペクトラル手法による クラスタリング結果の改善
URLリンク(nlp.dse.ibaraki.ac.jp)

158:デフォルトの名無しさん
10/01/29 21:39:33
逆に言うとK-meansが正確に高速にとけると
固有値、ベクトル計算できるってことだな。特殊なやつだけだけど。
いまかんがえたやつだけど、1万個なら100クラスタ*100個に分けて
クラスタの中心とそのノルムを計算して、
ノルムはクラスタの散らばり度を表すから
その小さい物を、ほかのクラスタの散らばり度を無くす様に配置転換していけばいとおもうな。
ここで、良い場所がなければ101個目のクラスタを作って良いとする。
1つのクラスタが一番散らばりが少なくなるからどこかで止めないといけないが。

159:デフォルトの名無しさん
10/01/31 09:38:09
みなさん、どれくらいの機械使ってるもんなのかな。

スペック足りないからもっとゴツいの買ってほしいんだが、
「お前のコードがヘボいからだ!」と言われそうだ。
ヘボいのは(たぶん)事実だから、あんまり強気に出られない。

運用の方のスペックは割と情報があるけど、開発の方のスペックがどうなっているのか
見たことがない。

160:デフォルトの名無しさん
10/01/31 13:12:35
>>159
用途やデータの規模によるところが大きいかと。

161:デフォルトの名無しさん
10/01/31 15:02:14
いやそりゃ重々わかってるんだけどさ…


162:149
10/02/01 14:36:40
趣味である言語の自分用の機械翻訳ツールを作ってみようと思ってるんですが、
どこから勉強すべきか分からないんです。
自然言語処理の基礎から勉強するのは遠回り過ぎますか?


163:デフォルトの名無しさん
10/02/01 22:02:29
>>162
楽しむだけなら、
URLリンク(www.amazon.co.jp)
なんか読むだけでいいんじゃないか。

164:デフォルトの名無しさん
10/02/04 11:46:45
>>153
日本語限定のことはあまり価値無い
全世界や未知語や宇宙語でも共通するのが良い

165:デフォルトの名無しさん
10/02/04 14:32:23
671番さん
57行目でclassまたはinterfaceがありません。
です。
すみませんがよろしくおねがいします。

166:デフォルトの名無しさん
10/02/04 18:15:03
対話コーパスの隣接対について、自動的にタグ付けするアルゴリズムってどこかで研究されてる?

167:デフォルトの名無しさん
10/02/05 00:29:16
>>139
今時数十GBがそんな特別なもんかよおい・・・
ていうか、それをそのまま使えない環境なんて捨てちまえよ、おい・・・
いずれにせよサーベイしなさすぎだな、みんな。


168:162
10/02/05 00:42:53
>>163
レスが遅れましたがありがとうございます。
読んでみます

169:デフォルトの名無しさん
10/02/05 04:43:32
ググることをしないIR専門家(自称)

170:デフォルトの名無しさん
10/02/05 05:22:17
むしろググるな
論文探すって言う意味なら良いけど、
それなら、もっと良い方法あるだろ。
IR専門家なら、参考にするのは、査読付き論文のみにするだろjk

171:デフォルトの名無しさん
10/02/05 05:24:33
>>167
サーベイでどうにかなるもんだいじゃないだろ
元論文だって、結果の裏で細かい実装上の苦労があんだよ
そのノウハウ蓄積無しに、サーベイサーベイ言ってもなぁ・・・

172:デフォルトの名無しさん
10/02/05 07:02:47
サーベイばっかしてて研究進まない香具師

173:デフォルトの名無しさん
10/02/05 08:40:15
サーベイと言ったらとりあえずはIEEE-CS DLとACM DLは常識だと思った俺が悪かった。すまん。


174:デフォルトの名無しさん
10/02/05 20:43:08
>>173
そいつら、やたら使い難いじゃん。ググルスカラのほうが遥かにマシ。

175:デフォルトの名無しさん
10/02/12 11:52:51
>>159
Core i7にメモリ8GB。
マシンパワーで片付くものなら片付けちゃった方がいい。
開発用ならなおさら、ちょこっと試したい事をイージーに試せる方がいい。
もっともっとメモリ欲しいとおねだり中。


176:デフォルトの名無しさん
10/02/12 12:49:29
もうみんな64bit化はデフォなんだ。
ところで、複数マシンで処理する場合、みんな何使ってる?
やっぱMPI?

177:デフォルトの名無しさん
10/02/19 11:19:49
>>148
亀レスで悪いけど、もともとかなりの疎行列だと思うんだけど、どうして次元削減する必要あるの?


178:デフォルトの名無しさん
10/02/19 18:12:21
>>177
???あまりにも疎だから次元減らしたいんじゃね?

179:デフォルトの名無しさん
10/02/21 23:07:06
>>178
疎ならコンパクトに表現できんじゃん。
次元減らして何がしたいんだろ。


180:デフォルトの名無しさん
10/02/22 19:01:31
表現がコンパクトなだけで空間としては全然コンパクトじゃない罠


最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

5390日前に更新/48 KB
担当:undef