自然言語処理スレッド　その３

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 2chのread.cgiへ]
Update time : 06/30 10:02 / Filesize : 148 KB / Number-of Response : 538
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

自然言語処理スレッド　その３

1 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 20:31:21 ]: このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。

前スレ：自然言語処理スレッド　その２
pc11.2ch.net/test/read.cgi/tech/1173105287/

次スレは>>980
2 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 20:33:59 ]: 形態素解析
- Juman: nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html
- ChaSen: chasen.naist.jp/hiki/ChaSen/
- KAKASI: kakasi.namazu.org/
- MeCab: mecab.sourceforge.net/

依存構造解析
- KNP: nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html
- CaboCha: chasen.org/~taku/software/cabocha/

Namazu
- namazu: www.namazu.org/
3 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 20:35:44 ]: 関連スレ

形態素解析と日本語処理
pc11.2ch.net/test/read.cgi/tech/1106606281/
4 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 21:18:03 ]: 拠り所にする文法規則ってあるじゃん
めかぶならIPAとか
でも諸説あってどれか定められない
どの文法が機械処理に向いてるんだろう

ってずっと考えてるだけで実装が進まない
5 名前：デフォルトの名無しさん mailto:sage [2009/02/21(土) 03:51:37 ]: 　　　　　　　／/
　　　　　／　 /　　　ﾊﾟｶｯ
　　　　 //⌒)∩＿＿∩
　　　　/.|　.| ノ　　　　　ヽ
　　　 /　|　| 　●　　　● | 　　　　
　　　/ 　|　彡　　( _●_)　ミ　まピョーん☆
　　 /　　|　ヽ　　|∪|　　/＿
　　/／　│　　　ヽノ　　＼／
　　"￣￣￣￣￣￣￣（..ノ
6 名前：デフォルトの名無しさん mailto:sage [2009/02/28(土) 19:31:31 ]: mecab の ipa (naist-jdic) は文法体系ってか品詞体系だと思うけど、
あの体系自体は機械処理に向けて作られたものなので、
考えて進まないくらいならあれでやっていいと思うが。
7 名前：デフォルトの名無しさん [2009/03/06(金) 14:05:39 ]: 文書の重要度　(まともらしい、スパムらしいなど)　はどう計ればいいですか。
人間が学習させると、未知の文書、外国語の文書に対応できません。
圧縮してサイズが激減する物は、重要でないと言えると思いますが
減らない物が重要とは言えないです。JPGが重要文書になってしまいます。
もし日本語の特徴を学習してしまうと、アラビア語、バルト語、ムー大陸語に対応できません。
人間が認識可能であるらしいこと、価値ある文書であるらしいことを判別したいんです。
8 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 14:10:49 ]: 無理
9 名前：7 [2009/03/06(金) 14:27:54 ]: 無理って事は無いと思うんです。
たとえば、英語なら使われる文字は40文字程度、日本語なら6000文字程度など限定的ですし、
平仮名や、「は」「が」が良く出現するとかの特徴で言語らしい判別は出来そうですが。
10 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 14:35:46 ]: 教師付き学習でもカオスになりそうだな
11 名前：デフォルトの名無しさん [2009/03/06(金) 14:38:32 ]: もともとの目標を書きます。
全文検索エンジンを作ろうとして、その性能を評価したいんです。
重要文書が上位に検索されるように、インディックス作成時のパラメータを調整したいんです。
そこで重要文書を別の方法で得点づける必要が出てきます。
12 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 14:41:19 ]: ＞もし日本語の特徴を学習してしまうと、アラビア語、バルト語、ムー大陸語に対応できません。
特定の言語に最適化するつもりは無いんだろ？

＞たとえば、英語なら使われる文字は40文字程度、日本語なら6000文字程度など限定的ですし、
＞平仮名や、「は」「が」が良く出現するとかの特徴で言語らしい判別は出来そうですが。
だったら特定の言語の特徴は関係ないだろ。
13 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 14:43:04 ]: ランダムに打たれた文字、AA、普通の文書くらいの判別ならできるが
スパムとまともな文書(これらは主観的な判断)を見分けるには
重要度について客観的に評価できる形で厳密に定義する必要がある
14 名前：デフォルトの名無しさん [2009/03/06(金) 14:44:11 ]: >>12
それは、例で出したんです。　多言語でも、頻出する語がある程度の割合ででるはずです。
「a」「the」「is」など。
15 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 14:49:00 ]: >圧縮してサイズが激減する物は、重要でない
うそ臭いな
16 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 15:20:27 ]: 14のいうスパムは意味のない文書のことではなくて
言語の体をなしていない文書のことなのか？
それだとDMや文章系のコピペは重要で詩性の強い文学や歌詞は
重要ではないことになるぞ
17 名前：デフォルトの名無しさん [2009/03/06(金) 15:30:45 ]: 想像する重要でない文書は、同じ単語、文が頻繁に現れる物、どんな人間も理解できない文書です。
コピペ文も理解できるなら重要と見なします。　
コピペが同一文書に連続すれば、たとえば圧縮することで情報量が少ない事がわかります。
歌詞や文学もほぼ誰にも理解できないなら、価値を減らしたいです。
古代文字で現在解読されていなくても、古代人には理解できるなら価値を高めたいです。
18 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 15:41:25 ]: 仮に可能であったとして完成したとしたら
これほど無用なものは無いな
19 名前：デフォルトの名無しさん [2009/03/06(金) 15:41:43 ]: 下準備として、辞書無しで単語分割したいのですが良い方法ありますか。　あと類似単語を見つける方法ありますか。
類似文書については、たとえば3byteの固定長語の出現回数を測定してベクトル空間法を使えば簡単そうです。
20 名前：デフォルトの名無しさん [2009/03/06(金) 15:45:06 ]: >>18
グーグルの方法だと、リンクの入力を計測しますから
新規の文書の価値は低く、名の知れたサイトの価値は高いです。
新規の文書や、リンクのない検索で使えると思いますが。
21 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 15:53:34 ]: エントロピー次第って事か
22 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 17:30:47 ]: 重要度とかいう俺様指標をきちんと定義しろよな。
あとは情報検索の入門書でも読め。
23 名前：デフォルトの名無しさん [2009/03/06(金) 18:36:44 ]: 文書の重要度ではないのですが、自分で考えた重要単語( indexに登録すべき語 )の求め方を書きます。
3-gramで全文検索して、不要単語は登録しない物を目指してます。
たとえばabcが、全100万文書中20文書出現するとします。x=100万/20　or　log(100万/20)とおきます。
abcが多くの文書で出現すればxは小さい値になり、abcはそれを含む文書を特徴づける単語ではありません。
もし大きい値であれば、abcは重要単語と見なせます。そしてその周囲の語も重要である可能性が高いです。
本来の区切りが3バイトとは限らない為です。そこでbを中心に左右に　(線形的に)　値を減らながら値を割り振ります(加算します)。
これを全単語に対して行うことで、indexに登録すべき文書範囲が決まります。
24 名前：デフォルトの名無しさん [2009/03/06(金) 18:47:19 ]: 23の方法である単語に対し、文書ごとの重要度が求められるのですが
この結果がホントに重要文書順を出力するのか調べたいんです。
たとえば、x = C + (100万/20) ^ r とした方がいいとか、
値を割り振るときに等比的に減少された方が良いとか、
考慮すべき所があります。
25 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 19:20:02 ]: 頼む。

辞書無しで単語分割すること。　
辞書無しで類似単語を見つけること。
知識無しで文書がスパムでないことを定量化すること。
文書の分類(言語、エンコード、分野などで分類)すること。

単語分割にはViterbi 、A*がいいらしい。
26 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 14:20:42 ]: 全文検索するにはエンコードを特定しないと駄目だな。　
SJISとEUCでN-gramで登録しても一方の検索がHITしない。
登録時はそのままにして
検索時に、全てのエンコードに変換して検索かけるという手はあるが
世界各国対応とすると検索回数が10回以上になる。
エンコードを決めて、N-gramするなら全ての言語の知識がいる。
どうすればいい?
27 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 14:36:35 ]: 知識無しでエンコードする方法考えた。
ベクトル空間法で文書を分類し、つながりの確率から単語分割する。
頻出単語の昇順に番号を付ける。
もし同一言語でエンコードが異なる物は、単語のつながり方に関係があるはずで
上で付けた番号どおしで変換できる。
28 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 14:50:07 ]: しかし手間かかるから現実的でない。自動判別できるソフトを使うべきか
29 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 20:11:28 ]: サポートする全言語の知識はどうやろうが必要だと思うけど……。
スパムかどうかは普通読む人次第(読む人に関係なくスパムと見なされて
いるのはアダルトかアフィリエイトかな、現在のところ。)だから、
読む人と無関係な基準を作れたとして、それが意味あるとは思えない。
「重要度」というオレオレ単語をどうにかしる
30 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 20:27:47 ]: 文書、言語として成り立っている物は正常なんです。
アダルトでも文法が正しく読めるならいいんです。
日本人の多くはアラビア語はわかりませんが、文法が正しく理解可能ならいいんです。
JPGファイルは情報量は多いですが、人間が理解できません。
適切なエントロピーである事が一つの条件になると思いますが厳密な定義はわかりません。
31 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 20:30:03 ]: いま試しに、言語の知識なしで、まともな文書を生成する事をやってます。
文書データは使いますが、文法や分かち書き辞書などは使いません。
32 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 21:20:42 ]: よー分からんが

Colorless green ideas sleep furiously.

というのは文法的には正しいのに意味をなさない文として有名だけど、
これは OK ってことだよね。

単語分割くらいならがんばればできると思うけど、それ以上は難しいかも。
単語分割はエントロピー的なもので教師なしに分割するという話は腐るほど
あるので、検索すれば出てくると思うけど……

最近の話だったら

ttp://nl-ipsj.r.dl.itc.u-tokyo.ac.jp/NL190program.html

ベイズ階層言語モデルによる教師なし形態素解析

○持橋大地, 山田武士, 上田修功(NTTコミュニケーション科学基礎研究所)

言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの
出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いな
い形態素解析を可能にする。これにより, 教師データの存在しない古文や
話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。

だと思う
33 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 22:13:56 ]: たとえば、　私　俺　わたくし　オレ　が似ていることを決定することもなかなか難しい。
プログラマは、国語学の知識は無いとして、品詞分解や文法として正しい文を組み立てられる物か。
34 名前：デフォルトの名無しさん mailto:sage [2009/03/08(日) 13:09:54 ]: >>33
それは周辺の文脈を使って単語クラスタリングすればある程度分かるし、
そこまで言語学の知識なくても、周辺の N 単語を使うとか、
bag-of-words を使うとかすればいいし。
品詞を決めようとすると正解タグづきコーパスがないと難しいんじゃないかなぁ
35 名前：デフォルトの名無しさん [2009/03/08(日) 13:32:09 ]: 品詞名は決まらなくて良いんです。
本来、動詞、名詞と分類されるグループに含まれるっぽいという事がわかれば。
そのほか、英文とドイツ語が混在している文書ならは、英語っぽい、ドイツ語っぽいとかいう分類もあります。
でも今は単語分解してます。　辞書無しで短時間で分解したいんですが難しいです。
たとえば2バイトごとのつながりの計測はすぐに済みますが、
その統計を使ってabcdeというつながりが高確率であり得ると出ても、2語しか比較してないので
実際に文書から出現回数を求めてみないとわかりません。　このチェックを毎回していたら大分時間掛かります。
36 名前：デフォルトの名無しさん [2009/03/08(日) 14:45:46 ]: 繋がる部分は長めになるけど、分割部分は2バイトあればわかるか。
たとえば、abcxyが、本来abcとxyにわかれるならば、bcとxyのつながりに比べてcxのつながりは弱い。
37 名前：デフォルトの名無しさん mailto:sage [2009/03/08(日) 14:51:50 ]: だから品詞名が必要ないなら単語分割したあとクラスタリングすればいい、
って言っているんだが。。。それが動詞っぽいクラスタであるか名詞っぽい
クラスタであるかは人間が見て分かるだけで、クラスタリングでは自動で
クラスタのラベルはつけないし。

あと前も書いたけど辞書なしで単語分割する手法も研究レベルでは
たくさんあるし、そういうの参考にすればいいんじゃないの？　
短時間でできるかどうかは自分で実装したことないので分かんないけど。

どちらかというと暗号解読系の技術に近いことがしたいのかもね。
サイモン・シンの「暗号解読」はちょうど未知の言語の判別問題について
どんな手法があるか書いてあるね。古代の言語(文字)の解読の話題も
書いてあったと思うので、そういうの読んでみたらいいんじゃない
38 名前：デフォルトの名無しさん mailto:sage [2009/03/08(日) 14:58:28 ]: 重要度順に並べるとどうなるか脳内でシミュレーションできない？
たとえばこのスレで重要度が高くなって欲しいレスと低くなって欲しいレスは
どういうの？
39 名前：デフォルトの名無しさん [2009/03/08(日) 15:11:53 ]: ほとんど空白ばかりの文書、JPGの中身をコピペした文書は重要でありません。
エントロピーが適度で、人間が先を予測出来る文書が重要らしいと思うのですが厳密にはわかりません。
そこでまず人間に重要らしいと思わせられる文書を自動生成されてみようと思いました。

>>37
ﾄﾝ。　サイモン・シン読んでみます。　
もともとの目標が全文検索エンジンを作る事なので、知識0のままで高速にindexを作りたいんです。
40 名前：デフォルトの名無しさん mailto:sage [2009/03/08(日) 18:48:42 ]: 言語と絵の境界は曖昧だよ。
41 名前：デフォルトの名無しさん mailto:sage [2009/03/08(日) 23:16:30 ]: >>39 ああ、そうするとデータ圧縮系の話が興味あると思う。
どのように符号化すれば圧縮限界に近づくかとかそういうことだよね。

でも自然言語はあえて冗長な部分があったり
(70% 削っても人間は元の文が復元できるとかいう実験結果があった。
数字はいいかげん)、一次元の尺度ではうまくいかないんじゃないかなぁと思う。

機能語は単純な頻度とか圧縮率で抽出できると思うけど、
内容語は頻度もそんなにないし曖昧性もあるし。
機能語だけに着目して言語判定できるかというとそういうものでもないし。

前文字コード判別でバイト列の N グラムを作って判別したことあるよ。
この場合単語分割する必要すらないんで……。

知識ゼロで作るのは研究としては意味あるけどねー
精度的にはまだまだなんで、かなりブラッシュアップが必要だと思うよ
42 名前：デフォルトの名無しさん mailto:sage [2009/03/16(月) 14:43:57 ]: スレ違い
43 名前：デフォルトの名無しさん mailto:sage [2009/03/23(月) 19:33:21 ]: は？
44 名前：デフォルトの名無しさん mailto:sage [2009/03/23(月) 22:58:51 ]: >>43
しね
45 名前：デフォルトの名無しさん [2009/06/19(金) 04:51:03 ]: つながりの確率を求めて単語分割したいんだけど2バイト同士のつながりの統計を取ろうとすれば、
4バイト(int) * 2の32乗　の記憶域が必要になる。(出てこない文字を削れば減るが)
単語は、2語より長くなるから、もっと記憶域を使うことになる。
たとえば、「プログラ」のあと、「ム」「ミング」が来やすいという統計を取ろうとすれば
相当の記憶域が必要。　どうすればいいんでしょうか?
x,y,z,v,wを16bit数とし、「プログラム」の個数を数えるには sum[x][y][z][v][w]という配列にアクセスするようなものと思うのですが。
46 名前：デフォルトの名無しさん [2009/06/19(金) 04:55:45 ]: 全角で8語くらいまでの統計が求められれば、たくさん自動学習させることで、
どんな既存の辞書も使う事無しに精度はかなり良いと思います。
PPM圧縮を調べたのですが、長い単語の対処方法がわかりません。
47 名前：デフォルトの名無しさん [2009/06/19(金) 13:52:06 ]: 頻出する　(2語、4バイトの)　単語が求め、それに2バイトを割り当てて
再び、4バイトの単語の統計をとれば、長い単語が求められそうです。
48 名前：デフォルトの名無しさん [2009/09/12(土) 07:03:04 ]: 特徴語、重要語の求め方教えて。　
辞書による単語分割は使わず。
中国語、漢語でも可能な方法。
49 名前：48 [2009/09/12(土) 08:07:55 ]: 何度もデータを読みに行くのは辞めたい。　一度のロードで済ましたい。時間食うので。
例えば、一度目の読み込みで単語辞書を決定し、2度目で単語の回数を測定するとか。
5Gのデータ群だと、2回読めば10Gになり時間食う。
読み込みは、一度だけでいい方法ありますか。
50 名前：デフォルトの名無しさん mailto:sage [2009/09/12(土) 11:41:37 ]: >>49
64bitOSで32GBくらいRAMを積めばOK。
51 名前：48 [2009/09/12(土) 17:38:28 ]: 再読み込み、巨大メモリを使って
試行錯誤せず　(計算多くせず)　済む方法が知りたいです。
辞書無しの方法がいいです。
52 名前：デフォルトの名無しさん mailto:sage [2009/09/12(土) 20:43:09 ]: 5Gを全て使わずとも適当にさっぴいてやればいい
53 名前：48 [2009/09/12(土) 20:54:34 ]: 具体的には、500Mを利用して単語辞書を作成するとかですか?
5Gは複数ファイルの合計値です。　
各ファイル毎に特徴語を求めたいです。
辞書に漏れた単語のランク付けがうまくいかないと思うのですが?
54 名前：デフォルトの名無しさん [2009/09/12(土) 20:58:45 ]: 単語辞書だと、「単語」「辞書」に分かれますが、「語辞」と間違えて抜き出したら
「単語」や「辞書」が一つも出現せず、「語辞」が多く出る文書の特徴語と同じになってしまいます。
これをどのように回避するのかが重要と思うのですが?
55 名前：デフォルトの名無しさん mailto:sage [2009/09/12(土) 21:35:43 ]: クラスタリングで、文書のドメイン特定してから
そのドメインにおいて、単語辞書　を　単語　辞書　とすべきか　単　語辞　書　にすべきかを
HMMなり使って最大になる分割を決めればいい。

と、素人ながらに思ったが。
特徴語が同じになるって話だから、そもそもクラスタリングがうまく行かない可能性が高いかｗ
56 名前：デフォルトの名無しさん [2009/09/12(土) 21:47:51 ]: 短時間、辞書無し、何言語でも、特徴語を抜き出したいです。
HMMは、確率的に最も有り得る単語分割を決定するって事でしょうか。
これを行ってからだと相当時間食いそうなのが難点です。
57 名前：デフォルトの名無しさん mailto:sage [2009/09/12(土) 23:06:47 ]: それは無理。
辞書ありの形態素解析器ですら、使ってるんですから。
確率使わずに、最適な分割例を決めるとか、無理でしょｗ
58 名前：デフォルトの名無しさん [2009/09/12(土) 23:11:23 ]: 確率は使うのは良いんですが、膨大な時間を使うのを回避したいです。
59 名前：デフォルトの名無しさん [2009/09/12(土) 23:15:43 ]: 特徴語を決定するのに、全ての単語の単語分割が必要なのかどうかも疑問です。
60 名前：デフォルトの名無しさん [2009/09/13(日) 03:53:43 ]: まずビタピ(ビーム)サーチやってみます。　ABCDはそれぞれ1語(16bit)としたとき
分割方法は8とおりありますが、Aが1000回出現してABは5回出現ならABが繋がる確率は1/200でしょうか?
一方でBが10回しか出現しないとすれば1/2になりますが、これは少ない方(確率の高い方)を採用すれば性格でしょうか?

ABCD
ABC-D
AB-CD
AB-C-D
A-BCD
A-BC-D
A-B-CD
A-B-C-D
61 名前：60 [2009/09/13(日) 06:16:05 ]: 2語の統計とっても、ABCDなど3語以上の出現確率が不明だ。
3語、4語、5語と統計取るのはメモリ容量から実現難しい。　
2語(16bit)でやる人は多いと思いますが、3語以上の確率はどう求めますか?
62 名前：デフォルトの名無しさん mailto:sage [2009/09/13(日) 11:39:25 ]: >45辺りから全力で間違った方向に進んでいるような気がする。
疎行列とか連想配列とか使えよ。
63 名前：デフォルトの名無しさん mailto:sage [2009/09/13(日) 14:36:47 ]: 便乗の質問です

>>60
A 1000回
AB 5回
B 10回

こんな場合だとAとABとBを単語として認識することになるんでしょうか。
もしABがあった場合、これはどの単語が出現したとカウントするんでしょう。
AとABとB、三つともカウントですか？
64 名前：60 [2009/09/13(日) 15:07:26 ]: >>63
カウントは、出現したやつは全部カウントしないと統計取る意味ないじゃないですか。
よく繋がる語を、単語と見なすんです。
同じ語の繋がりでも文意によっては変わるんです。日本語変換と同じです。
65 名前：デフォルトの名無しさん mailto:sage [2009/09/13(日) 16:18:06 ]: なるほど。
語Aと語Bの複合語ABがあった時にもA, B, ABを全部カウントですね。
辞書ありの形態素解析なんかでは最長一致の事が多いから、ABだけですよね。
66 名前：デフォルトの名無しさん [2009/09/18(金) 08:41:15 ]: 必要と思うので、グーグルのメモリ管理、mapとicuの導入方法をここに記す。
いまから調べる。　windows XP 32bit visual c++ 2008を元にする。
67 名前：デフォルトの名無しさん mailto:sage [2009/09/26(土) 23:32:43 ]: 文章のクラスタリングをするために適当な固定次元の特徴ベクトルで表現できないかと思っています
どんなベクトル表現が適切でしょうか
68 名前：デフォルトの名無しさん mailto:sage [2009/09/26(土) 23:55:25 ]: 日本語処理はrubyが充実しててpython使ってる人があまりいない気がする
69 名前：デフォルトの名無しさん mailto:sage [2009/09/26(土) 23:56:36 ]: それは完全に気のせいです
70 名前：デフォルトの名無しさん mailto:sage [2009/09/27(日) 09:25:54 ]: I18Nのハンドリングは自然言語処理と基本的に関係ありませんから。
71 名前：デフォルトの名無しさん [2009/09/27(日) 12:21:03 ]: >>67
2文字か3文字(32-48bit)ごとの統計を取って、2の32乗のベクトルと見なす。
そのベクトルのうち直交しているものをいくつか選び出す。
たとうば、20個選べば、20次元の座標に、それぞれの文書を特徴づけられる。
72 名前：デフォルトの名無しさん mailto:sage [2009/09/28(月) 01:07:42 ]: 自然語処理って強化学習と相性よさそうなのに
あんまり話を聞かないのは，ダメだってことかな
73 名前：71 [2009/09/28(月) 08:03:50 ]: >>67
一緒に作るか?前から文書分類しようと考えていた
74 名前：デフォルトの名無しさん mailto:sage [2009/09/28(月) 08:29:39 ]: ベイジアンスパムフィルタは、判定結果（あるいはその判定を人間がさらに判定した結果）に
もとづいて学習させてるじゃない？
75 名前：デフォルトの名無しさん mailto:sage [2009/09/28(月) 08:56:48 ]: >>71
意味通じない
76 名前：71 [2009/09/28(月) 14:14:58 ]: >>75
ABCDEFG・・・は2バイト文字とする。
ABC、BCD、CDE・・はそれぞれ一回ずつ出現する。出現した物をカウントする。
すると、2の48乗次元ベクトル空間が得られる。
似ている文書では、同じ箇所がカウントされやすくそのベクトルの類似がはかれる。
これでは、計算量の点から、クラスタリングが困難なので
直行している基底をいくつか選んで射影をとってクラスタする。
すると、20次元くらいなどにおさえられる。
77 名前：デフォルトの名無しさん mailto:sage [2009/09/28(月) 17:50:03 ]: 文字コードが一文字nビットm文字単位だとだと(mn)^2次元ですか。
どうしてそう無駄なパラメータ入れるかな。
78 名前：デフォルトの名無しさん [2009/10/09(金) 10:16:43 ]: 高速クラスタリング考えた。偶然良いクラスタに入る法、良いクラスタを選択する法の2つ。
※クラスタの中心を求めるコストは無視できるとする。

前者。
データを100個、1000個など一定数になるように等分する。N等分されたとする。
クラスタnの中心を求めてそれと離れている　(関係が薄い)　ものをクラスタn+1へ移す。
n=Nのときだけ、クラスタ0へ移すか、新規クラスタへ移すかを選択する。
次クラスタへ移す条件=悶値を徐々に上げていくことで分割が完了する。

後者。
始めにクラスタの中心を関係が薄いもの　(直行しているベクトル)　同士で選び出す。
0 < a < b < 1を適当に設定して、クラスタの中心との内積値がbを超えたら、そのクラスタに属すものとする。
すべてのクラスタの中心との内積値が、a未満ならどこにも属さない新規クラスタとする。
こっちは一度の走査で分割が完了する。
79 名前：78 [2009/10/09(金) 10:23:47 ]: 後者は、内積値が最大になるクラスタへ移すのが最善だけど、
時間食うので、bを超えたらそこにしてしまいます。
より良いクラスタがある可能性はあります。
後者で荒く分割　(a,bは0に近い)　してから前者を用いるのもいいかもしれません。
80 名前：デフォルトの名無しさん mailto:sage [2009/10/09(金) 10:48:26 ]: >>78
どこが高速なの？
81 名前：78 [2009/10/09(金) 11:01:06 ]: 前者をK-means法と比較すると、
クラスタに合わないもの(悶値以下のもの)は、そのまま次のクラスタへ入れてしまう所。
たまたまそこが良かったらそのままにする。
K-means法は合うところを試行錯誤して選ぶ。

後者は、一度の走査で入る場所を確定できる。
82 名前：デフォルトの名無しさん mailto:sage [2009/10/09(金) 11:47:09 ]: >>81
前者は収束が鬼のように遅くなるだけの気がするけど？
83 名前：デフォルトの名無しさん [2009/10/09(金) 12:19:02 ]: 文書分類するやついま作ってる。それを動かしてもらうとわかりやすいはず。
84 名前：デフォルトの名無しさん mailto:sage [2009/10/09(金) 17:03:33 ]: >>78 >>81
悶値って何？
閾値じゃなくて？
85 名前：デフォルトの名無しさん [2009/10/09(金) 17:40:07 ]: まちがえて似た字を当てはめたかも?
86 名前：デフォルトの名無しさん [2009/10/09(金) 17:42:28 ]: ｽﾏﾝ
いきち　= 閾値は、字だけみた事あって読みを知らなかった。
87 名前：デフォルトの名無しさん [2009/10/09(金) 17:45:25 ]: 閾値の読み方
閾値の本来の読み方は「いきち」で、「しきいち」は慣用読み。「閾」の字は日本人になじみが薄く、第二次大戦後、当用漢字外とされたため、字義である「敷居（しきい）」の語を当てたものと思われる。「閾」の訓読みは「しきみ」。

しきい値 - Wikipedia
88 名前：デフォルトの名無しさん [2009/10/20(火) 10:36:29 ]: 日本語の判定テストレポート

対象ソフト。
universalchardet-1.0.3 code.google.com/p/juniversalchardet/
icu4c-4_2_1 site.icu-project.org/
nkf-2.0.9　sourceforge.jp/projects/nkf/releases/
libguess-0.2.0-d7　www.honeyplanet.jp/download.html

対象サンプル。
一部文字化けを含むネット上ニュースまたはwindowsXPのバイナリファイル。
個数　バイナリ　2300、　UTF8 5200、　SJIS 4100、　JIS 3800、　EUC-JP 2000

速度。
libguessがもっとも速くこれを1としたときの比較。　ICU 185、 nkf 30、　universalchardet 10

正解率。
libguess　0.99971(5個)、　ICU 0.9996(6個)、 nkf 0.998567(25個)、　universalchardet 0.969221(537個)

まとめ。
libguess( 関数　guess_jp)とnkfは日本語限定の判定。　
ICUとuniversalchardetは判定可能な全ての言語での判定。
ICUは一致率60未満でバリナリと判定しこのとき4つのバイナリが西ヨーロッパ言語、2つのEUCが中国語となった。中国語と判定されたケースはもともと漢字が多く言語判定ではICUがもっとも正確といえる。
nkfの25個はSJISをバイナリと誤認した。universalchardetは、バイナリを言語、言語をバイナリなど間違えるケースが多発した。
日本語限定であればlibguess。　世界各国語が対象なら判定速度は遅いがICUがいい。
89 名前：デフォルトの名無しさん [2009/10/20(火) 10:43:02 ]: ↑
正解率の括弧は、間違えた個数です。
90 名前：デフォルトの名無しさん [2009/10/24(土) 18:54:24 ]: >>83
おい、はやく報告しろ。
91 名前：デフォルトの名無しさん mailto:sage [2009/11/02(月) 19:16:16 ]: アイデアのみで実装してないけど、自然言語処理にウェーブレット
使ったらどうだろう？
92 名前：デフォルトの名無しさん [2009/11/05(木) 09:17:25 ]: >>90
クラスタリングは諦めた。
それほど関連のある文書は多くない。
正しい分類が出来たところでほとんどは関連がない。
対象はたとえば世界中の文書。
ある一つの文書を指定したとき、関連する文書をサーチするのでいいや。
これは少ししたら上げる
93 名前：デフォルトの名無しさん mailto:sage [2009/11/10(火) 09:32:42 ]: やっと悪金解除された・・・

>>92
それはデータが少ないからじゃないのか？
どの位のデータなんだ？
94 名前：デフォルトの名無しさん [2009/11/11(水) 05:16:35 ]: 100万件を10個程度ずつ10万個に分類したところで意味があるか。
人間にとって価値がないと思う。
いかに速く分類できたという数値測定は意味あるだろうが・
95 名前：デフォルトの名無しさん [2009/11/11(水) 05:22:36 ]: 100万件の分類には相当時間かかるから、人間がデータを与えたら
それと似た文書を高速で検索できれば十分という考えになった。
100万などやったら、数時間～一日とかかかるだろ。ずれなく分類使用した場合。
96 名前：デフォルトの名無しさん [2009/11/16(月) 16:17:41 ]: >>90
重要そうな文書を指定個数だけ勝手に判断して、
それと類似する文書を抜き出すのは出来た。
クラスタリングは全てを分類しなければならず大変だが
これなら短時間で可能。
97 名前：デフォルトの名無しさん mailto:sage [2009/11/17(火) 07:48:06 ]: ふう、悪金解除されたと思ったらまたされて、ようやく解除された・・・

お、ちゃんと進めてるみたいじゃん。
それってk-NN検索だね。
でもそれを効率良く(高速に)行なおうとすると索引が必要になって、
索引作りって半ばクラスタリングしてるようなもんになってない？

ところで100万文書というとかなりのもんだけど、やっぱウェブ？
98 名前：デフォルトの名無しさん mailto:sage [2009/11/17(火) 08:38:35 ]: 昨日まちがえて Tully's cafe でキャラメルマキアート頼んでしまったが
店員さんは適当にキャラメルトッピングのホットコーヒーを作ってくれた
99 名前：デフォルトの名無しさん [2009/11/23(月) 09:51:13 ]: 特徴ベクトルを抜き出す部分までは言語処理だけど
クラスタリングは別分野になるな。
画像でも、ベクトルさえ抽出できていたら
分類するのは言語でも共通するから。
100 名前：デフォルトの名無しさん [2009/11/23(月) 11:04:56 ]: ファイル群の特徴ベクトル抽出に一時間掛かったとしても
ほぼ無視出来るほどの時間だろう。
これに比べて分類は数倍-数十倍掛かるだろうから。
あと、クラスタリングより類似画像抽出のほうが困難と思った。
大きな分類だけではなく、ひとつひとつの対応まで必要だから。
これを高速で行えれば言語でも使える。
101 名前：デフォルトの名無しさん [2009/11/23(月) 11:10:51 ]: 基底となるベクトルを3つ、4つなど数個を設定して
それとの類似度を計算して3次元、4次元座標に移し替えれば
クラスタリングしやすいと思った。
これを計算量は3n、 4nで分類に比べた無視出来る程度。
これで距離が近い物は元々似ている可能性があり
離れていれば、元々似ていないことが決定する。
102 名前：デフォルトの名無しさん [2009/11/27(金) 00:39:26 ]: わかち書きってどのようなアルゴリズムでやるんですか。
辞書は与えられたとして最長一致にしたいのですが。
103 名前：102 [2009/11/27(金) 05:21:43 ]: 簡単かと思っていたら、LZH ZIPなど圧縮法と関係あるみたいですね。
圧縮は辞書から最長一列を求めることなので。
104 名前：デフォルトの名無しさん mailto:sage [2009/11/27(金) 05:42:45 ]: ChaSenのソース読めばわかるよ。
色んなやり方があるけど、
基本的には当然、辞書の中の単語で文を切っていく
切っていくときに、単語の出現頻度を加味しながら、評価関数をmax(min)する組み合わせを探すだけ。
ChaSenなんかは、単語の頻度だけじゃなくて、品詞も見てて、
ある品詞が来たときに次の品詞は何になるかって情報を使ってるのね。(条件付き確率ってやつ)
(もしかすると、品詞情報を使って解くと言うより、品詞を当てるために使ってるのかもしれんが・・・)

で、ここまで書いてて俺がわかんなくなったんだけどｗ
あれってHMMをモデルに使ってるらしいけど、一体何を隠れ状態にしてるの？
品詞？単語？
あと、HMMつっても、解くときってどうやってるの？
確かMeCabがViterbiを使って高速に解くように改良したってどっかで書いてたけど
逆に、ChaSenの時は、HMMを何で解いてたの？まさか全探索してないよね？ｗ
105 名前：デフォルトの名無しさん [2009/11/27(金) 05:48:33 ]: それは最もあり得る探索では
最長一致を高速に求めたいのですが
106 名前：デフォルトの名無しさん mailto:sage [2009/11/27(金) 05:54:37 ]: 最長一致を高速に求めるなら、全文検索のお話じゃだめなの？
多分、SuffixTree(or Array)なりを作るような感じになると思うけど・・・
多分そっちだと、どうやって高速に作って、枝刈りしてリソース押さえるかって問題になるけど・・
でも、ちょい研究としては古いかな・・・。
107 名前：デフォルトの名無しさん [2009/11/27(金) 06:01:01 ]: ここいくとそれほど古い話でもないようだけど。
研究は知らないけど、コピーと同等の速度で分かち書きを出力できればいいけど。

DO++: LZ法再び
DO++: 最長一致文字列の話

hillbig.cocolog-nifty.com/do/2008/10/lz-5ed2.html
hillbig.cocolog-nifty.com/do/2008/07/post_2e1d.html
108 名前：デフォルトの名無しさん mailto:sage [2009/11/27(金) 06:09:19 ]: ほほー、これは知らなかった。
BWT法とかよりいけそうなのか・・・。
うちはSuffixArrayで色々やってきたんだけど、
Treeに比べればメモリ的には優しいけど、それでも大変なんだよな・・・
なんせ一切端折らずに全ての位置情報を付加すれば、
文字数分のintなりlongの位置情報が必要になっちまうから・・・
109 名前：デフォルトの名無しさん [2009/11/27(金) 06:10:01 ]: 全文検索に使いたいんですけど、結局の所、
分かち書きしなくても、辞書に登録と検索は可能なんですよね。
N-gramでやれば。　
分割して無駄省けば、辞書サイズと検索精度は上がりますが。
検索目的で考えれば、品詞分解にやってる人は無駄だと思います。
それ以外で、MeCabやChaSen使うのはかなり少数な気がします
110 名前：デフォルトの名無しさん [2009/11/27(金) 06:24:07 ]: SuffixArrayやBWT法は一時期きょうみ持ったけど、
大きな欠点として新規データの追加が行えないので離れた。
構築時間も掛かるし。zipなど定番と同程度、同圧縮になれば
全文検索出来る分のメリットはあるけど。
これ実現したら、世界標準の圧縮になり得るけど。
111 名前：デフォルトの名無しさん [2009/11/27(金) 06:34:58 ]: Suffix Array、BWTは、O(n)で実現できるようですけど、
10nでも100nでも、O(n)ですからね。
圧縮と書き込み完了までの合計がコピーの5倍以内だったらいいけど。
112 名前：デフォルトの名無しさん mailto:sage [2009/11/28(土) 18:04:51 ]: 　　 ┏┓┏┓ 　　　　　┏━━━━━━┓ 　┏┓ 　┏━━━━┓┏━━┓
　　 ┃┃┃┃ 　　　　　┗━━━━━┓┃ 　┃┃ 　┗━━┓┏┛┃┏┓┃
┏━┛┗┛┗━━━┓ 　┏━━━━━┛┗┓┃┃ 　┏━━┛┗┓┃┗┛┃
┃┏┓┏┓┏━━┓┃ 　┗━━━━━━┓┃┃┃ 　┗━━┓┏┛┗━━┛
┃┃┃┃┃┃ 　　┃┃ 　┏━━━┓ 　　┃┃┃┃ 　┏━━┛┗┓
┃┃┃┃┃┃┏━┛┗┓┃┏━┓┃ 　　┃┃┃┃ 　┃┏━┓┏┛
┃┃┃┃┃┃┃┏┓┏┛┃┃ 　┃┃ 　　┃┃┃┃ 　┃┃ 　┃┃
┃┗┛┗┛┃┃┗┛┃ 　┃┗━┛┗━━┛┃┃┗┓┃┗━┛┃
┗━━━━┛┗━━┛ 　┗━━━━━━━┛┗━┛┗━━━┛
113 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 11:47:52 ]: >>2 にある依存構造解析というのは、構文解析 (下記) とは意味が異なるの？

ttp://ja.wikipedia.org/wiki/%E6%A7%8B%E6%96%87%E8%A7%A3%E6%9E%90
114 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 11:58:52 ]: 形態素解析も依存構造解析も構文解析の一種
115 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 12:00:19 ]: ここって随分低レベルになったり、
逆に、自然言語処理の研究者(M、Dr含む)が書き込んでるっぽいなぁってレスがあったりで
波がすごいなｗ
116 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 12:30:15 ]: >>114
ありがとう。同じグループとして繋がりました。

>>115
すみません。まったくの素人です。
たまたま検索エンジンでこちらががヒットして、気になったことを質問しました。

大量にある文書から個人情報の箇所を自動的に隠蔽したく (例：鈴木様 <<人名>>様)、
そういう技術を探していました。市販の商品もあるようですが、手元のマシンで動かして確かめ
たり、理解を進めたいと思っています。

もし形態素解析で「人名」が特定できるなら、その部分を除去して元に戻すことで望む動作に
ならないかと期待しています。　
実データを用いてどこまでできるか、何はできないか知りたいと思っています。
117 名前：デフォルトの名無しさん mailto:sage [2009/12/02(水) 02:30:42 ]: >>101
よくあるのは特異値分解していくつかの特異ベクトルを基底に選んで低次元に投射するってのだね。
そういうオーソドックスな事はやってみた？
118 名前：デフォルトの名無しさん mailto:sage [2009/12/15(火) 18:35:53 ]: (つд⊂)ｴｰﾝ
119 名前：デフォルトの名無しさん mailto:sage [2009/12/15(火) 20:39:43 ]: dosita
120 名前：デフォルトの名無しさん mailto:sage [2009/12/15(火) 21:54:04 ]: 俺も今泣きたい。
121 名前：デフォルトの名無しさん mailto:sage [2009/12/19(土) 08:21:24 ]: nasite?
122 名前：デフォルトの名無しさん mailto:sage [2010/01/03(日) 17:02:06 ]: なにが
123 名前：デフォルトの名無しさん mailto:sage [2010/01/15(金) 09:43:12 ]: 部外者です。
つまらない質問なんですけど、例えば「住んでいて」という言葉を「住んでて」と略したりしますよね？
これは文法的には間違っているけど、通じますよね？
こういった言葉の翻訳の場合、どのような処理をするもんなんでしょうか？
普通に考えると、辞書的な処理とか、略す規則を求めるとかなんでしょうけど、
もっと別の方法ってあるんですかね？
124 名前：デフォルトの名無しさん mailto:sage [2010/01/15(金) 13:22:00 ]: い抜き言葉とか、ら抜き言葉とか
一応決まった規則があるから、それで処理するだけかと

もっと本気で分析するなら、音素関係を見て
どういう音素の繋がりがあった時に、どの音を抜くかとか
そういうのもあるとは思うけど
125 名前：デフォルトの名無しさん mailto:sage [2010/01/15(金) 13:57:41 ]: >>123
間違ってないよ。
君の知らない文法があるってだけ。
126 名前：デフォルトの名無しさん mailto:sage [2010/01/15(金) 23:55:33 ]: >>123
音素コーパスから統計処理。
127 名前：デフォルトの名無しさん [2010/01/23(土) 13:22:01 ]: >>117
特異値分解が、クラスタリングで重要なことがわかったけど
これを実行することが難しい。
128 名前：デフォルトの名無しさん [2010/01/23(土) 14:23:24 ]: でかい疎行列の特異値を計算するライブラリないですか?
129 名前：デフォルトの名無しさん [2010/01/23(土) 14:33:59 ]: 特異値分解が、全ての相関度を計算するコストより
かかったら意味ないな。
経験的に、多くのベクトルと関連があって直行に近い数個のベクトル
を選んでおく方が良いか。
130 名前：デフォルトの名無しさん [2010/01/23(土) 14:38:18 ]: 特異値分解できれば、相関度に影響の少ない次元を
数値的に削れるけど、時間がかかりすぎる気がしてきたから
これはやめるか。
131 名前：デフォルトの名無しさん mailto:sage [2010/01/23(土) 15:12:54 ]: っていうか、どうやってお前ら特徴ベクトル作ってんの？
片方の軸は単語として、もう片方は各文？
中身は頻度かtf・idfだと思うけど・・・
132 名前：129 mailto:sage [2010/01/23(土) 15:53:03 ]: 直交基底を始めに適当に作って
その基底でいくつかのサンプルをプロットしたときに
良く分布するものを選ぶことにした。
これなら次元を落とす作業の準備はほぼ一瞬ですむ。
133 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 09:15:25 ]: 卒論か何かかなぁ。
学部生が一人でやってるなら仕方ないけど、サーベイしなさ過ぎだぞ。
大規模疎行列の特異値分解についてはsvdpackcを探せ。
この中のlanczos法プログラム(las2.c)を使え。
具体的な使い方については茨大の新納先生の↓が参考になる。
nlp.dse.ibaraki.ac.jp/~shinnou/papers.html

他にも色々言いたいことはあるが面倒だからやめとくw
134 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 09:16:52 ]: おっとすまん、そこの「SVDPACKCとその語義判別問題への利用」という論文だ。
135 名前：デフォルトの名無しさん [2010/01/24(日) 09:48:06 ]: サンクス
136 名前：デフォルトの名無しさん [2010/01/24(日) 16:47:18 ]: SVDPACKCの使い方みたのですが大規模疎行列は無理みたいでした。
1-3万　*　2000くらいが限度だと厳しいです。
シュミットの直交化を使って、正規直交基底を沢山作っておき、そこへサンプルをプロットして
分散(標準偏差)の良い上位k個を選んで、k次元に落とすことにしました。
137 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 17:18:02 ]: 研究屋が言う「大規模」と、実務屋が必要とする「大規模」は
字面は同じでも意味が全然違うというわな
138 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 17:49:44 ]: まったく、ほんとに出来の悪い学生だな。
ちったぁ自分で工夫しろ。
仮にsvdpackcをそのまま使うにしても、25000x2000でダメだったのは512Mのメモリの場合と書いてあるだろ。
今時数十GB位のメモリ使えるだろ。

>>137
計算機の世界では数字さえ出てくれば意味は同じですよ。
賢い実務屋さんなら人をクサすような事ばかりじゃなくて、こういう時にはみんなどうしているのか教えてやってよ。
139 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 18:02:20 ]: とりあえず64bit環境用意しないと、話が進まないけどな

>>138
単一のハードウェアに数十GB単位のメモリが仮に載せられたとして
それをそのまま利用できると思ってるのは所詮解説論文しか書けない実装出来無い奴の頭だ
どこかの頭の悪い文系SEと同じ

ちなみに、大規模計算機の数十GBは、分散型だから、単一ではせいぜい数GB程度のメモリ
これを分散型にする場合、SVDをそういうアルゴリズムに落とさないといけないと言う問題が待っててだなｒｙ
140 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 18:34:18 ]: おっとそれは俺が4年前に通った道だ
141 名前：136 [2010/01/24(日) 18:40:46 ]: 個人のPCで他アプリを同時に動かす環境で使いたいのですが。メモリは多くて200Mが限度と思います。
142 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 18:57:21 ]: >>141
誰かが答えを呉れるのを待ってるのかもしれないけど、自分で調べた事柄と
自分の考えたをそれぞれ説明して、疑問点を明確にしないと
もう誰も答えないと思うよ。
143 名前：デフォルトの名無しさん mailto:sage [2010/01/24(日) 19:13:06 ]: メモリが200しかないんだろ？
200しかない所に300はつっこめないだろ？

じゃあどうするの？
魔法使いじゃないんだから、メモリにツッコむには
・データを何らかの前処理で圧縮する
・メモリ以外を活用する
・サンプリング
の3つしか無いと思うんだが
144 名前：デフォルトの名無しさん mailto:sage [2010/01/25(月) 04:20:38 ]: メモリを買ってくる
145 名前：デフォルトの名無しさん mailto:sage [2010/01/25(月) 09:16:05 ]: 仮想記憶？
146 名前：129 [2010/01/25(月) 19:35:04 ]: 疎な10万次元ベクトルを、100次元以下に縮めたら、
0ベクトルになる率が多くて使えなかった。
何の変換もしない元のデータのままて゜頻度の少ない単語を無視して
次元圧縮するのが確実に有効っぽい。
147 名前：デフォルトの名無しさん mailto:sage [2010/01/25(月) 23:01:01 ]: 目的が何か知らないけど（潜在的な意味繋がりを使いたいとかならともかく）
次元圧縮そのものが目的なら、頻度で切って
そこから更に次元圧縮するのって、何か無駄に見えるが・・・
頻度で切るなら圧縮意味なくね？
148 名前：129 [2010/01/26(火) 10:33:44 ]: 100万　-　1000万件ほどの文書のクラスタリングをしたいのですが。
計算量を減らすために次元を減らしたいのですが。
149 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 07:50:51 ]: この分野を勉強してみたいと思うのですが、入門書とかおすすめのサイトを教えていただけませんか？
150 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 09:17:25 ]: とりあえず、ずばり「自然言語処理」がタイトルに入ってる本が何冊かある。
151 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:28:04 ]: 自然言語処理って、ぶっちゃけ何でも屋だからなぁ・・・
漠然と自然言語処理を勉強するっていったって・・・

ちなみに、今世間で騒がれてる
検索エンジン、日本語入力、機械翻訳、なんて言うメジャーな自然言語処理の応用例と言われてるツールは
どっちかと言うと、この分野じゃ本流じゃないからな。
152 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:31:39 ]: > 日本語入力、機械翻訳

これが専門の人から教わったので、俺にとっては自然言語処理というとこれなんだがw
153 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:39:59 ]: 最近はGoogleや集合知ブームのせいか知らないけど
統計的な言語処理が流行ってるなぁ・・・

統語的な話しとか、生成文法とかの話はどこへやら・・
154 名前：デフォルトの名無しさん mailto:sage [2010/01/28(木) 17:56:47 ]: 「計量」言語学なんて用語もあるように、統計的な手法も歴史はあるんだけどね。
155 名前：デフォルトの名無しさん [2010/01/29(金) 18:41:06 ]: K-meams法の最適解(最適な中心)は固有値(ベクトル)計算で決まるみたいだね。
ここに書いてあった。普通のK-meamsで試行錯誤するより固有値計算した方が
かかる時間は半分になるそうだ。

スペクトラルクラスタリング
d.hatena.ne.jp/mrcarrot/20100117/1263735597

スペクトラルクラスタリングは次元圧縮しながらKmeansする手法
d.hatena.ne.jp/mamoruk/20090128/p1
156 名前：デフォルトの名無しさん mailto:sage [2010/01/29(金) 18:46:06 ]: こんな線形代数の初歩しかやってない事が2001-2003年頃まで知られて無かったらしい。当たり前すぎて誰も論文かかなかっただけかも。
157 名前：デフォルトの名無しさん [2010/01/29(金) 19:02:22 ]: 日本語で書いてあるより詳しい資料見つけてきた。
固有ベクトル求めてK-meamsやるソフトウェアは無いと思うんで作りたんだけど実力がない。
だれか。

スペクトラルクラスタリング
nlp.dse.ibaraki.ac.jp/~shinnou/zemi2008/Rclustering/r-motegi-0624.pdf
部分時系列クラスタリングの理論的基礎
www.research.ibm.com/trl/people/ide/2006_JSAI_Ide.ppt
縮約類似度行列を用いたスペクトラル手法によるクラスタリング結果の改善
nlp.dse.ibaraki.ac.jp/~shinnou/paper/sig-kbs-07-79.pdf
158 名前：デフォルトの名無しさん [2010/01/29(金) 21:39:33 ]: 逆に言うとK-meansが正確に高速にとけると
固有値、ベクトル計算できるってことだな。特殊なやつだけだけど。
いまかんがえたやつだけど、1万個なら100クラスタ*100個に分けて
クラスタの中心とそのノルムを計算して、
ノルムはクラスタの散らばり度を表すから
その小さい物を、ほかのクラスタの散らばり度を無くす様に配置転換していけばいとおもうな。
ここで、良い場所がなければ101個目のクラスタを作って良いとする。
1つのクラスタが一番散らばりが少なくなるからどこかで止めないといけないが。
159 名前：デフォルトの名無しさん mailto:sage [2010/01/31(日) 09:38:09 ]: みなさん、どれくらいの機械使ってるもんなのかな。

スペック足りないからもっとゴツいの買ってほしいんだが、
「お前のコードがヘボいからだ！」と言われそうだ。
ヘボいのは（たぶん）事実だから、あんまり強気に出られない。

運用の方のスペックは割と情報があるけど、開発の方のスペックがどうなっているのか
見たことがない。
160 名前：デフォルトの名無しさん mailto:sage [2010/01/31(日) 13:12:35 ]: >>159
用途やデータの規模によるところが大きいかと。
161 名前：デフォルトの名無しさん mailto:sage [2010/01/31(日) 15:02:14 ]: いやそりゃ重々わかってるんだけどさ…
162 名前：149 mailto:sage [2010/02/01(月) 14:36:40 ]: 趣味である言語の自分用の機械翻訳ツールを作ってみようと思ってるんですが、
どこから勉強すべきか分からないんです。
自然言語処理の基礎から勉強するのは遠回り過ぎますか？
163 名前：デフォルトの名無しさん mailto:sage [2010/02/01(月) 22:02:29 ]: >>162
楽しむだけなら、
www.amazon.co.jp/dp/4766501101/
なんか読むだけでいいんじゃないか。
164 名前：デフォルトの名無しさん [2010/02/04(木) 11:46:45 ]: >>153
日本語限定のことはあまり価値無い
全世界や未知語や宇宙語でも共通するのが良い
165 名前：デフォルトの名無しさん [2010/02/04(木) 14:32:23 ]: 671番さん
57行目でclassまたはinterfaceがありません。
です。
すみませんがよろしくおねがいします。
166 名前：デフォルトの名無しさん mailto:sage [2010/02/04(木) 18:15:03 ]: 対話コーパスの隣接対について、自動的にタグ付けするアルゴリズムってどこかで研究されてる？
167 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 00:29:16 ]: >>139
今時数十GBがそんな特別なもんかよおい・・・
ていうか、それをそのまま使えない環境なんて捨てちまえよ、おい・・・
いずれにせよサーベイしなさすぎだな、みんな。
168 名前：162 mailto:sage [2010/02/05(金) 00:42:53 ]: >>163
レスが遅れましたがありがとうございます。
読んでみます
169 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 04:43:32 ]: ググることをしないIR専門家(自称)
170 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 05:22:17 ]: むしろググるな
論文探すって言う意味なら良いけど、
それなら、もっと良い方法あるだろ。
IR専門家なら、参考にするのは、査読付き論文のみにするだろｊｋ
171 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 05:24:33 ]: >>167
サーベイでどうにかなるもんだいじゃないだろ
元論文だって、結果の裏で細かい実装上の苦労があんだよ
そのノウハウ蓄積無しに、サーベイサーベイ言ってもなぁ・・・
172 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 07:02:47 ]: サーベイばっかしてて研究進まない香具師
173 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 08:40:15 ]: サーベイと言ったらとりあえずはIEEE-CS DLとACM DLは常識だと思った俺が悪かった。すまん。
174 名前：デフォルトの名無しさん mailto:sage [2010/02/05(金) 20:43:08 ]: >>173
そいつら、やたら使い難いじゃん。ググルスカラのほうが遥かにマシ。
175 名前：デフォルトの名無しさん mailto:sage [2010/02/12(金) 11:52:51 ]: >>159
Core i7にメモリ8GB。
マシンパワーで片付くものなら片付けちゃった方がいい。
開発用ならなおさら、ちょこっと試したい事をイージーに試せる方がいい。
もっともっとメモリ欲しいとおねだり中。
176 名前：デフォルトの名無しさん mailto:sage [2010/02/12(金) 12:49:29 ]: もうみんな64bit化はデフォなんだ。
ところで、複数マシンで処理する場合、みんな何使ってる？
やっぱMPI？
177 名前：デフォルトの名無しさん mailto:sage [2010/02/19(金) 11:19:49 ]: >>148
亀レスで悪いけど、もともとかなりの疎行列だと思うんだけど、どうして次元削減する必要あるの？
178 名前：デフォルトの名無しさん mailto:sage [2010/02/19(金) 18:12:21 ]: >>177
？？？あまりにも疎だから次元減らしたいんじゃね？
179 名前：デフォルトの名無しさん mailto:sage [2010/02/21(日) 23:07:06 ]: >>178
疎ならコンパクトに表現できんじゃん。
次元減らして何がしたいんだろ。
180 名前：デフォルトの名無しさん mailto:sage [2010/02/22(月) 19:01:31 ]: 表現がコンパクトなだけで空間としては全然コンパクトじゃない罠
181 名前：デフォルトの名無しさん mailto:sage [2010/03/08(月) 00:36:43 ]: 知識なし、形態素分解なしでキーフレーズ抽出できるもの?
まず候補の分解までいければ、統計的手法で重要語を選べそうだけど。
知識なしで、単語分解と連結する語の特定するにはどうすればいい?
182 名前：デフォルトの名無しさん mailto:sage [2010/03/08(月) 00:41:05 ]: 文書から学習したら連結する単語のいくつかは判明するけど
すべて網羅は無理。漢字・カタカナのみで最長部分を選べばよさげだけど。
ひらがな・数字をどうするか。漢数字でない数字を含むキーワードやひらがなを含むものもある。
1月18日などはスルーしたいところ。
183 名前：デフォルトの名無しさん mailto:sage [2010/03/08(月) 01:14:57 ]: 辞書もコーパスもなしなら文字種の変わり目で区切るしかないんじゃないの
まあ「できる。」とか「のだった。」が最頻出になるのがオチだとおもうけど
184 名前：デフォルトの名無しさん mailto:sage [2010/03/09(火) 18:24:15 ]: >>181
ぱっと思いついた方法。
まず、n-gramをN=1からN=10ぐらいまで取る。
次に、低位の出現率のchainと高位の出現率を比べてみて
大きな差があったらそいつは単語っぽいと思っていいのでは。
185 名前：デフォルトの名無しさん mailto:sage [2010/03/10(水) 01:17:31 ]: ちゃんと論文読めｗ
ノンパラメトリックの形態素解析はもう研究され尽くしてる
今更そんなレベル低い事やっても意味がない
186 名前：デフォルトの名無しさん mailto:sage [2010/03/10(水) 07:44:56 ]: >>185
自分は言語処理やってる人間じゃないんだが、とある事情で形態素解析をやる必要が出てきた。
もちろん辞書の類は無しで。
もしよかったら参考になる文献か論文を教えてほしい。
そのまま実装に持っていけるくらいのアルゴリズムまで示されているとさらにありがたい。
187 名前：デフォルトの名無しさん mailto:sage [2010/03/10(水) 17:44:44 ]: >>185
機械学習だろ。
文書が1つ～10つくらいの少しでも出来るのか。
188 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 01:28:52 ]: 出来るか出来ないかはともかく
既に先行研究がたくさんあるのに、今更１から原始的な方法を取る意味はない
189 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 02:32:06 ]: 少ない文書で知識なしで分解するソース上げてから言ってもらおう
190 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 03:40:16 ]: ベイズなんとかを有意に計算できるくらいにはコーパスが必要なんじゃないの
191 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 08:58:43 ]: 何でもいいから一冊くらい本を通読してから質問しろよ。

とある企業のサーバシステムをまかされました。良い本を教えてください。
とか言われて、まともな回答ができると思うのか。
192 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 09:56:46 ]: 技術屋によくいるタイプなんだけど、ちょっと質問すると「うーん」とうなって「それだけじゃなんとも…あれは？これは？それは？」と逆に質問されまくる。
そういう時は「あんたコミュ能力不足だね」と言ってやる。
193 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 10:28:44 ]: >>192
お客様扱いされたいなら、コンサルに金を払え、池沼。
194 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 12:27:09 ]: >>192 コミュ能力不足は、一発で回答を期待してるのに、十分な情報を与えてないおまえだ。
195 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 14:48:22 ]: つーか、「とある事情で形態素解析をやる必要が出てきた」だけなら
「めかぶでも使っとけお前の仕事なんてねーよ」で終わるレベル
196 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 16:09:05 ]: >>195
>　もちろん辞書の類は無しで。

コミュ力不足ｗ
197 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 17:30:47 ]: 辞書不可とか「辞書作るのとかめんどくせーし」ってだけだろ。おまえのコミュ力が心配だわ
198 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 20:35:09 ]: >>197
そういう決め付けはコミュ不足の典型例だな
199 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 20:36:16 ]: >>185
といいながら、具体的なアルゴリズム名や文献を例示できるほどには詳しくないのですねw
200 名前：デフォルトの名無しさん mailto:sage [2010/03/11(木) 20:42:03 ]: 決めつけも何も事実だし
201 名前：デフォルトの名無しさん mailto:sage [2010/03/12(金) 04:56:18 ]: 事実と推測の区別がつかない人がコミュ力とかwww
202 名前：デフォルトの名無しさん mailto:sage [2010/03/13(土) 05:27:16 ]: 久々に見たらなんか盛り上がってて嬉しいぞ
203 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 15:51:15 ]: 論理的には同じことを言っている文章を検出する方法はないのでしょうか
日本語を論理式に変換するようなものがあるといいのですが
204 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 16:06:24 ]: あるといえばあるしないといえなくもない
205 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 18:10:10 ]: >>204
検索キーワードだけでも教えていただけませんでしょうか
206 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 18:51:43 ]: 専門業者に頼んだほうがいいんじゃないの

自分で同義語辞書作ってたら何年かかることやら
207 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 13:37:15 ]: >>203
英語ならあるのかな？
208 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 14:19:35 ]: I'll be back.
と
See you later.
は論理的には同じ？
209 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 20:32:53 ]: 最後は人出で探すから大まかに検出できるだけでいいんだ
210 名前：デフォルトの名無しさん mailto:sage [2010/04/16(金) 15:53:54 ]: mecabを日本語のhtmlにかけると、htmlのタグまで処理してしまうんだけど
日本語文字列だけ判別して処理する方法はないの？
kakasiはあったみたいだけど
211 名前：デフォルトの名無しさん mailto:sage [2010/04/16(金) 16:39:58 ]: d.hatena.ne.jp/niitsuma/20100416/1271403446
P2P web検索エンジン　yacy www.yacy.net/　を日本語でも使えるようにしてみた
212 名前：デフォルトの名無しさん mailto:sage [2010/04/16(金) 22:53:02 ]: 　京都大霊長類研究所（愛知県犬山市）人類進化モデル研究センターで昨年
３月～今月までに、飼育中のニホンザル１５頭が急死していたことが２８日、
かった。

　死因は不明で、感染症の疑いもあるという。

　同センターによると、死んだニホンザルは昨年６頭、今年９頭。いずれも血液中の
血小板や赤血球、白血球の数が減少する「再生不良性貧血」を発症していた。ただ、
病気と急死の因果関係がはっきりせず、死因は特定できていないという。

　また、一つの飼育室で複数のサルが発症していることなどから、感染症の疑いも
あるという。２００１～０２年にも再生不良性貧血の症状があった６頭が急死したが、
死因は分かっていない。

　同センターでは約１０００頭を飼育しているが、ニホンザル以外での発症例はなく、
平井啓久センター長は「今夏以降、死因を本格的に調べている。分かり次第、
公表したい」と話している。

読売新聞　2009年12月28日19時56分
www.yomiuri.co.jp/science/news/20091228-OYT1T01061.htm
213 名前：デフォルトの名無しさん mailto:sage [2010/05/19(水) 18:31:38 ]: いまこのスレ見つけて、ｗｋｔｋしながらみてみたのだが、、
質問してるやつらが、痛すぎるなあ。
214 名前：デフォルトの名無しさん mailto:sage [2010/05/19(水) 19:15:31 ]: 2ｃｈはそんな場所。そこが面白いところでもある
215 名前：デフォルトの名無しさん mailto:sage [2010/05/31(月) 12:11:20 ]: 未知言語に対して、ほぼ必ず区切りになる部分の見つけ方わかりますか?
例えば、英語だと空白やDOT、日本語だと、。が区切りなりますが。

たとえば　「。」　→　「丸」　と置き換えた場合でも、言語の構成・仕組みから
「丸」は特別で区切りと判明できる方法です。
216 名前：デフォルトの名無しさん mailto:agemasu [2010/05/31(月) 12:12:03 ]: あげます。
217 名前：デフォルトの名無しさん mailto:agemasu [2010/05/31(月) 12:26:04 ]: ABCと語が出現したとき。

Aの総数と、ABの総数
Bの総数と、ABの総数
Bの総数と、BCの総数
Cの総数と、BCの総数

などを比較して、
ABとBCはどちらも繋がりにくい事を判定すればいいか。
= AB、BCは単語を構成しない(らしい)としてBが区切りと判定する。
218 名前：デフォルトの名無しさん mailto:sage [2010/05/31(月) 16:09:41 ]: 上のほうで辞書なしとかノンパラメトリックとかいってるのがそれだ。あとはぐぐれ。
219 名前：デフォルトの名無しさん mailto:agemasu [2010/05/31(月) 17:46:08 ]: サンクス
220 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:15:13 ]: 周辺確率でぐぐれ
221 名前：人工痴脳 [2010/06/26(土) 22:01:07 ]: 遅レスですまん。

>>123
> つまらない質問なんですけど、例えば「住んでいて」という言葉を
> 「住んでて」と略したりしますよね？
> これは文法的には間違っているけど、通じますよね？
補助動詞「行く」「置く」「居る」の三つは省略がある。
ex.「ずっと住んでく」「とりあえず住んどく」「いま住んでる」
222 名前：人工痴脳 mailto:sage [2010/06/26(土) 22:09:35 ]: >>181
> 知識なし、形態素分解なしでキーフレーズ抽出できるもの？
可能ではあるが精度が上がらんから、辞書作ったほうが早い。
頭っから見てって、ひらがなから非ひらがなに変わるところで切り、
ひとつ前を見て「お」「ご」だったら接頭語かどうかチェックする、
という手で相当いける。
まあ、そこまでやらんでも、すでにフリーの辞書があるから
それ使え。
ゲーム製作技術板の『人工知能or人工無脳作ろうぜ』スレ参照。
223 名前：人工痴脳 mailto:sage [2010/06/26(土) 22:36:34 ]: >>203
> 論理的には同じことを言っている文章を検出する方法はないのでしょうか
> 日本語を論理式に変換するようなものがあるといいのですが
様相論理が役に立つかもしれん。
坂井秀寿『日本語の文法と論理』勁草書房とか。
224 名前：デフォルトの名無しさん [2010/07/03(土) 11:20:19 ]: UTF16LE UTF16BEを検出出来るソフトはないようだ。
判定方法判ったので、ソフトで間違えた場合の応急処置として使ってみてくれ。
このyの値が1/2より下回ればUTF16LE、上回ればUTF16BE。

int n; int cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<s.size(); n++) cnt[n%2]+=s[n]<32?1:0;
double y=(double)cnt[0]/cnt[1];
cout<<y<<endl;
225 名前：224 [2010/07/03(土) 11:22:29 ]: 訂正。

このyの値が1/2より

→

このyの値が1より

上位ビット、下位ビットが不均衡になる所に注目する。
226 名前：デフォルトの名無しさん [2010/07/03(土) 11:55:48 ]: UTF16LEとUTF16BEが間違えるな。
文字化けがあれば大小関係がかわるし。
227 名前：デフォルトの名無しさん [2010/07/03(土) 12:57:55 ]: ボム無しUTF16LEとUTF16BEの判定方法判りますか
228 名前：デフォルトの名無しさん [2010/07/03(土) 13:29:00 ]: UTF16の判定は0の個数だけ判定したらうまくいった。ただし英数字が十分にあること。

int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[0] > 0.7*cnt[1] ) return 2; // UTF-16BE
return 0; }
229 名前：デフォルトの名無しさん mailto:sage [2010/07/03(土) 13:39:20 ]: ヒューリスティックだねぇ
230 名前：デフォルトの名無しさん [2010/07/03(土) 14:32:02 ]: 修正

int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if(cnt[0]==0 || cnt[1]==0 ) return 0;
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[1] < 0.7*cnt[0] ) return 2; // UTF-16BE
return 0; }
231 名前：デフォルトの名無しさん mailto:sage [2010/07/03(土) 14:32:33 ]: 連続した文字が「同じ文字区分に属している確率」を見ればいいんじゃない？
232 名前：デフォルトの名無しさん [2010/07/06(火) 04:51:26 ]: >>227
察するにＣかなんか使ってるようだが、
Ｊａｖａかなんかに乗り換えたほうが
たぶん長期的に見れば楽だと思うぞ。
Ｃの文字列はヌル・ターミネートだから、
文字列の中にヌル文字が入ってると結構ややこしいことになるし、
文字列のような可変長データの動的割当を気にしていると
開発効率があまりよろしくない。

Ｊａｖａが厄介な点も一つだけあって、
ｃｈａｒがｓｉｇｎｅｄであってｕｎｓｉｇｎｅｄじゃない。
高速ですべての部分文字列の辞書引き（直積検索という）を
行なうとき、Ｇｏｏｇｌｅでも使われてる
「ダプル配列法」（本当は、もっと素朴なトリプル配列法のほうが
面倒臭くないし効率もいいのでおれはそっちを使ってる）を
使おうとすると、配列の参照点→配列の参照点＋バイアスという
相対移動が出てくるときにマイナスの移動が生じ、
範囲外参照で落ちるということがある。
まあ、そこに配慮してコードを書けばいいだけの話なんだが、
文字コードのせいでプログラムとアルゴリズムの対応が直感的に
取りづらいというのはあまり気分がよろしくない。
233 名前：デフォルトの名無しさん mailto:sage [2010/07/06(火) 21:29:23 ]: Javaのcharは符号無しですが何か?
234 名前：デフォルトの名無しさん mailto:sage [2010/07/07(水) 09:09:42 ]: >>233
ごめん byte だ。
char はでかすぎてダブル配列法を使うと場所食ってたまらん。
235 名前：デフォルトの名無しさん [2010/07/07(水) 17:43:13 ]: 文書の類似度計るのに多く出る単語は価値を低くして
滅多に出ない単語も価値を低くしたいのですが。
後者は、前者と対立して価値を高くすべきと思われますが、ここを無視すれば計算時間が短縮出来ます。
価値が一定値以下の単語はカットしたいのですが、上側と下側をカットするにはどうしたらいいですか。
236 名前：デフォルトの名無しさん mailto:sage [2010/07/07(水) 19:06:27 ]: w_i = 0
これでバッチリ。
237 名前：デフォルトの名無しさん mailto:sage [2010/07/07(水) 19:13:07 ]: 普通にヒストグラム取って25パーセンタイルと75パーセンタイルでカットするとかじゃ駄目なのか？
238 名前：デフォルトの名無しさん [2010/07/07(水) 21:06:19 ]: サンクスです。
上と下も同一パラメータでカットしたかったのですが。
総量と分散でに分けてカットすることにします。
どの文書にも10個ずつ現れるなら分散0でカットして
合計数が少なすぎ多すぎでカットします。
239 名前：デフォルトの名無しさん [2010/07/07(水) 21:10:21 ]: >>237
二十年以上昔から
駄目っぽいことが判ってるらしい。
上側は用言や副詞や動名詞
下側は固有名詞と
だいたい傾向が分かっていて、
類似度を計るときは、通称「百科語」と呼ばれる
単語を使うことになっているのだが、
ここんとこに漢語の合成語が入ってくるのが難物なのだ。
漢語の合成語を自動検出するシステムを作って
ふるいに掛けてみたら、
二十万語を越しても一向に頭打ちになる様子がないので
怖くなってやめたと、たしか高橋秀俊先生が
書いていらっしゃった。

最近ではシソーラスを作るのが基本だが、
手間が半端じゃねぇというので
あまり好かれない。

>>235 もたぶんそういった流れなんだろうと思う。
240 名前：デフォルトの名無しさん [2010/07/07(水) 21:14:30 ]: 自分の場合は、単語は普通の単語でなくN-gramなんですが。
HTMLをテキストとして読み込むと、文書を特徴付けないタグ関連が上位にきて
ここら辺が精度のためにカットして、下位は精度より計算量削減のため削ります。
241 名前：デフォルトの名無しさん [2010/07/07(水) 21:20:29 ]: 普通の単語では、長いものは短い物より現れにくく
経験としての単語同士の価値の補正が必要になり不便です。
いまは、UTF16　(上のレスは自分です)　で2語または3語で回数数えてやってます。
242 名前：デフォルトの名無しさん mailto:sage [2010/07/07(水) 21:25:18 ]: >>239
今時の計算機ならいけるかもしれんな。
IPADICから合成語を除いた上で、2語で1語になるものを、ウェブ上で端から集めるとか
そんな方法ででけるかな。
243 名前：デフォルトの名無しさん mailto:sage [2010/07/07(水) 22:29:13 ]: >>242
辞書がこなれてくるまでに
多少人手で編修する必要はあると思うが、
基本いけそうに思う。
「割愛する」が「割＋愛する」と
解析されてしまうとかいった類の
不測の事態っつーのがけっこうあったりするので。
244 名前：デフォルトの名無しさん mailto:sage [2010/07/07(水) 22:39:45 ]: 割礼
245 名前：デフォルトの名無しさん mailto:sage [2010/07/08(木) 20:23:38 ]: >>244
むしろ熱愛
246 名前：デフォルトの名無しさん mailto:sage [2010/08/08(日) 10:47:10 ]: MeCabってどういう仕組みなんですか？
文字列abcがあり、辞書に[a], [b], [c], [a, b], [b, c], [a, b, c]の形態素情報があった場合、
もっとも繋がりの高い形態素の連鎖状況を見てそれを出力するんですか？
（例えば[a][b][c]よりも[a, b][c]となっている確率の方が高い場合、後者を選択）
品詞情報からp(x|y)を判断する方法もあると思いますが、特定の形態素に対してp(x|y)を算出するのに辞書情報を用いる方法が分かりません。
247 名前：デフォルトの名無しさん mailto:sage [2010/08/08(日) 12:08:54 ]: >>246
CRF
248 名前：デフォルトの名無しさん mailto:sage [2010/09/09(木) 23:03:51 ]: c++でmecab使ってるんだけど
直接stringを解析ってできないの？
今はいちいちstringからcharに変換してる
249 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 03:36:30 ]: >>248
なかったはず。
いちいち変換と言っても tagger.parse(str.c_str()) くらいだし、ユーティリティのマクロでも書けば？
250 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 09:49:32 ]: >>249
ありがと！
そうしてみる
それにしてもmecabをc++で書いてる人ってあんまいないね
みんなperl使ってるわ
251 名前：デフォルトの名無しさん mailto:sage [2010/09/13(月) 16:37:00 ]: 統計ならR
画像ならOpenCV
みたいな定番があるけど
自然言語処理でこれが定番みたいなものはないの？
252 名前：デフォルトの名無しさん mailto:sage [2010/09/13(月) 19:04:34 ]: Python
ツールが揃ってるのが大きい。

Perlはもう時代遅れ気味で
新しいツールはPythonばかり。
253 名前：デフォルトの名無しさん mailto:sage [2010/09/13(月) 19:08:03 ]: >>252
質問(>>251)しているのは、プログラミング言語ではなくて
アプリケーションあるいはミドルウェアに属すソフトウェアだと思うんだが？
254 名前：デフォルトの名無しさん mailto:sage [2010/09/13(月) 19:36:57 ]: >>251
めかぶ
255 名前：デフォルトの名無しさん mailto:sage [2010/09/13(月) 23:01:40 ]: >>252
日本語でも大丈夫なのかな？
もしよかったら日本語OKなライブラリを教えて。
256 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 00:56:20 ]: でもネットに転がってるソースってまだPerlが全然多ないか？
参考にしたいから勉強しようと思ってたけど
遅れ気味って言われると今からやるのは抵抗あるな
257 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 01:07:21 ]: 今からperlやるのは
今からwin95使うようなもんだろ
258 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 02:17:32 ]: そりゃあ最近まではPerlが主流だったから既存のソースは多いよ。
ただ、これからはPythonが主流なので最先端の実装はPythonでリリースされるのが多い。
Perlでは新しいツールはあまり作られなくなるだろうね。
259 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 15:01:04 ]: POPFileを今も使ってる
perlはまだまだ現役
260 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 22:21:06 ]: 別にどっちでもいいよ。目的は、所望の処理ができることだから。
261 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 08:45:04 ]: とりあえず自然言語処理ではmatlabやRに相当するものはないということでいいんだね
262 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 09:54:27 ]: >>261
日本語ならNAISTが開発している一連の形態要素解析/言語解析ライブラリ群、
コーパス/辞書管理ツール群がmatlabやRに相当するものになるのではないかと。
ちなみに既出の形態要素解析ライブラリMeCab(そしてChaSen)もNAIST生まれ。
ただ、数学に無知な人がmatlabやRを使いこなせないのと同じ理由で、
統語的意味論とか統計的言語解析みたいな言語理論を理解していないと使えないけどね。
263 名前：デフォルトの名無しさん mailto:sage [2010/09/18(土) 09:53:53 ]: NAISTの成果物 (MeCab, ChaSen等) と、京都大学の成果物 (JUMAN, KNP等) は
どちらが優れる？
264 名前：デフォルトの名無しさん mailto:sage [2010/09/18(土) 09:56:47 ]: アイちゃん
265 名前：262 mailto:sage [2010/09/18(土) 11:59:16 ]: >>263
ナゼそこで個別のパッケージを比較せずに開発元組織を比較しようとする？
お前は本物のサルだな
266 名前：デフォルトの名無しさん mailto:sage [2010/09/29(水) 13:36:12 ]: mecabをc++で使ってて、解析したnode->surfaceから表層系を取り出したいんだけど
charから指定した文字数を吐くような関数ってある？
char型の文字を指定した文字数だけstring型に移す関数でもいいんだけど
やっぱstrncpy使わないとダメか？
267 名前：デフォルトの名無しさん mailto:sage [2010/09/29(水) 21:43:47 ]: 質問がよく判らんが、sprintf(destination, "%.*s", length, source)という話なのだろうか
268 名前：デフォルトの名無しさん mailto:sage [2010/11/05(金) 19:02:00 ]: Natural Language Processing with Pythonの和訳本がようやく出るね
twitterでは5月ころ出るって言ってたのにｗ
でも日本語処理の章も追加されてるししょうがないのか
269 名前：デフォルトの名無しさん [2010/12/15(水) 02:04:41 ]: 緊張浮上
270 名前：デフォルトの名無しさん mailto:sage [2010/12/17(金) 11:17:19 ]: 日本語処理に関する、ゴミみたいな記事が追加されただけだろ
271 名前：デフォルトの名無しさん mailto:sage [2010/12/17(金) 16:02:20 ]: とゴミが言いました。
272 名前：デフォルトの名無しさん mailto:sage [2010/12/17(金) 23:15:15 ]: 読んだけどいい本だったよ
273 名前：デフォルトの名無しさん mailto:sage [2010/12/19(日) 09:00:36 ]: 基本的に英語での処理?
英語ってスペースで区切れば簡単に英単語抽出できそうだよね。
274 名前：デフォルトの名無しさん mailto:sage [2010/12/19(日) 20:49:42 ]: そう思ってる椰子はステマーの奥深さを知らない初学者。
275 名前：デフォルトの名無しさん mailto:sage [2010/12/20(月) 12:22:31 ]: ステマー？
動詞の活用とか副詞のlyとか接頭語接尾語に関する用語か？
276 名前：デフォルトの名無しさん mailto:sage [2010/12/21(火) 16:22:53 ]: ってかこの分野って需要ある？
277 名前：デフォルトの名無しさん mailto:sage [2010/12/21(火) 16:37:24 ]: www.youtube.com/watch?v=fUsdOFlG7Rg
過疎りかたがはんぱない
278 名前：デフォルトの名無しさん mailto:sage [2010/12/22(水) 13:12:06 ]: 機械翻訳の技術について書かれた本とかサイトとかないかな？
今どんなことが問題になっててどんなアプローチされてるのかとか知りたいんだけど
279 名前：デフォルトの名無しさん mailto:sage [2010/12/22(水) 13:51:54 ]: ｸﾞｸﾞﾚ
280 名前：デフォルトの名無しさん mailto:sage [2010/12/22(水) 14:42:20 ]: ググれは最強だからな
281 名前：デフォルトの名無しさん mailto:sage [2010/12/22(水) 19:22:41 ]: Google Scholar で 1,770,000 件。
scholar.google.co.jp/scholar?q=Machine+translation
282 名前：デフォルトの名無しさん mailto:sage [2010/12/27(月) 00:14:25 ]: >>278
誰かまとめてくれ。
自然言語処理の分野で。
283 名前：デフォルトの名無しさん mailto:sage [2010/12/27(月) 17:19:32 ]: 自然言語処理では、
造語とか、略語とか、若者言葉とか、
特殊な言葉はどうやって処理してるんだ?

特別な辞書（キーワードリスト）でも作っておけばいいのか?
284 名前：デフォルトの名無しさん mailto:sage [2010/12/27(月) 18:34:53 ]: 文部省的な「文法」（橋本文法とかね）に従ってきっちり処理できるような文は、
現実に通用してる文のごく一部でしかないので、自然言語処理ではもっと適当に
現実に合わせて処理しています。

つまり特殊な言葉とかそういうくくりはなくて、単に処理する必要がある（ありそうな）
単語は片っ端から辞書に登録されているわけ。
285 名前：デフォルトの名無しさん mailto:sage [2010/12/27(月) 20:05:52 ]: 誤字脱字があっても平気？
286 名前：デフォルトの名無しさん mailto:sage [2011/01/03(月) 15:49:33 ]: みんな言語処理でどんなことしようとしてるの？
287 名前：デフォルトの名無しさん mailto:sage [2011/01/03(月) 15:53:16 ]: 金儲け
288 名前：デフォルトの名無しさん mailto:sage [2011/01/03(月) 20:27:33 ]: 人工無能
289 名前：デフォルトの名無しさん mailto:sage [2011/01/04(火) 10:47:20 ]: 英語の勉強に活用。
290 名前：デフォルトの名無しさん mailto:sage [2011/01/04(火) 16:34:24 ]: >>289
どーやってんだ？
291 名前：デフォルトの名無しさん mailto:sage [2011/01/04(火) 18:57:18 ]: ステマーの奥深さを知らないのか
292 名前：デフォルトの名無しさん mailto:sage [2011/01/06(木) 10:35:39 ]: >>290
たとえば、
nltk.chat.chatbots()
を使うとbotと会話できるｗ
293 名前：デフォルトの名無しさん mailto:sage [2011/01/06(木) 17:32:09 ]: どのアルゴリズムもパラメータサーチは結局は手動で勘なのか
全然進歩してないな
294 名前：デフォルトの名無しさん mailto:sage [2011/01/08(土) 21:44:34 ]: そんなことないだろ。
295 名前：デフォルトの名無しさん mailto:sage [2011/01/21(金) 04:16:22 ]: 四ヶ月ぐらい取り組んできた成果が出てきた
日本語限定だが自然言語処理を根本からひっくり返せるかもしれぬ
どこで発表すべき迷うな
296 名前：デフォルトの名無しさん mailto:sage [2011/01/21(金) 05:37:28 ]: ここでもいいよ
すごそうだぬ
297 名前：デフォルトの名無しさん mailto:sage [2011/01/22(土) 03:10:01 ]: 入門書の良い本紹介してくれませんか？
298 名前：デフォルトの名無しさん mailto:sage [2011/01/22(土) 16:59:54 ]: 入門自然言語処理
299 名前：デフォルトの名無しさん mailto:sage [2011/02/16(水) 16:06:35 ]: CRFって離散変数しか扱えないの？
300 名前：デフォルトの名無しさん mailto:sage [2011/02/28(月) 16:58:57.74 ]: 本屋にpythonでテキストマイニングする本が積まれてた
ここみるとみんなrubyのような気もするんだけど
pythonの方が実は使われてたりするの？
301 名前：デフォルトの名無しさん mailto:sage [2011/02/28(月) 17:01:17.55 ]: www.oreilly.co.jp/books/9784873114705/
これこれ
302 名前：デフォルトの名無しさん mailto:sage [2011/02/28(月) 17:38:29.76 ]: >>300
少なくとも国際的には圧倒的にpythonが主流。
303 名前：デフォルトの名無しさん mailto:sage [2011/02/28(月) 19:44:46.83 ]: Pythonは機械学習・データマイニングなどのライブラリが充実してる
304 名前：デフォルトの名無しさん mailto:sage [2011/04/14(木) 10:42:58.45 ]: そういえばRってあんまりみないね
pythonなんだ
305 名前：デフォルトの名無しさん mailto:sage [2011/04/15(金) 12:29:50.40 ]: 入門自然言語処理って面白い？
306 名前：デフォルトの名無しさん mailto:sage [2011/04/15(金) 22:02:21.49 ]: おいしいよ
307 名前：デフォルトの名無しさん mailto:sage [2011/04/16(土) 00:51:56.42 ]: どういうこっちゃねん
308 名前：デフォルトの名無しさん mailto:sage [2011/09/06(火) 04:22:16.58 ]: 人工無能botを作りたいんですがおすすめの本とかありますか？
309 名前：デフォルトの名無しさん mailto:sage [2011/09/06(火) 19:04:56.93 ]: 誰でもできるtwitterbotの作り方。
310 名前：デフォルトの名無しさん [2011/09/08(木) 23:46:18.94 ]: tf,idfのidfの式に+1する理由って何ですか？
0にしないため？
311 名前：デフォルトの名無しさん mailto:sage [2011/09/09(金) 11:07:33.37 ]: ラプラスさんに訊け
312 名前：デフォルトの名無しさん mailto:sage [2011/09/09(金) 20:37:53.87 ]: 表記は tf*idf じゃないのかな？
313 名前：デフォルトの名無しさん mailto:sage [2011/09/12(月) 12:15:22.92 ]: tf☆idf
314 名前：デフォルトの名無しさん mailto:sage [2011/10/08(土) 11:38:27.96 ]: しょうもないことをいってすまんかった。話を続けてくれ。
315 名前：デフォルトの名無しさん [2011/12/13(火) 23:33:05.83 ]: 皆さんは使っているのは
距離：コサイン類似度
クラスタリング：k-means
分類：SVM
って感じなのでしょうか？

どんなもの使用しているのか教えていただけませんでしょうか？
316 名前：デフォルトの名無しさん mailto:sage [2011/12/14(水) 22:25:36.63 ]: 目的によるんじゃないの？どうしてそう特定できるのだろう？
317 名前：片山博文MZ ◆0lBZNi.Q7evd [2011/12/17(土) 14:37:13.95 ]: 他のスレでも書いていますが、小学校２年生ぐらいの算数の文章問題を
解析して答えを導きたいとき、どのような処理を行えばよいのでしょうか。
単純な計算は解けます。困っているのは日本語の処理です。
318 名前：デフォルトの名無しさん mailto:sage [2011/12/17(土) 14:43:36.71 ]: 数学者が扱うようなかっちり定義された問題なら
まだわからなくもない
319 名前：デフォルトの名無しさん mailto:sage [2011/12/17(土) 15:15:20.87 ]: >>317
具体例だしてよ
320 名前：片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2011/12/17(土) 15:47:24.77 ]: すずめが　５わいます。　そこへ２わとんできました。
すずめは　みんなで　なんわに　なったでしょう。
321 名前：片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2011/12/17(土) 15:50:41.62 ]: りんごが　３こ　あります。
さとしくんは　１こ　たべました。
りんごは　のこり　なんこに　なったでしょう。
322 名前：片山博文MZ ◆0lBZNi.Q7evd [2011/12/17(土) 16:18:38.32 ]: おすしを２こたべました。
今、さらに３こをたべました。
ぜんぶでなんこたべたことになりますか？
323 名前：デフォルトの名無しさん mailto:sage [2011/12/17(土) 16:23:55.78 ]: しかもひらがなかよ！！
324 名前：デフォルトの名無しさん mailto:sage [2011/12/17(土) 21:36:55.37 ]: >>322
それは難しすぎる
高騰プログラミング技術が必要だ
325 名前：デフォルトの名無しさん mailto:sage [2011/12/17(土) 22:06:38.73 ]: 論理命題に落としこむとか対応付けたり出来ないか
食べる　→　マイナス
飛ぶ　→　マイナス
みたいに
326 名前：デフォルトの名無しさん mailto:sage [2011/12/18(日) 10:32:38.36 ]: >>321 食べる→マイナス
>>322 食べる→プラス

プログラミングじゃなくて言語学を専門でやらないと無理

ちなみに >>322 の「さらに」は皿のことだからな、間違うなよ！！！
327 名前：デフォルトの名無しさん mailto:sage [2011/12/18(日) 10:39:53.34 ]: いったん人の読める形に変換するとか。

おすしを２こたべました。
↓
私は2個のお鮨を食べた。
328 名前：デフォルトの名無しさん mailto:sage [2011/12/18(日) 10:55:36.82 ]: 小学校低学年向けだとすると
文脈情報を極端にカットしてるケースも多いと思われ

あらかじめ問題作成者と連携を取って
使用可能な単語リストや文型が完全に定義された状態からのスタートなら
わからなくもない
329 名前：片山博文MZ ◆0lBZNi.Q7evd [2011/12/18(日) 12:18:55.16 ]: 少なくとも時系列記憶ができないといけない。
330 名前：デフォルトの名無しさん [2011/12/19(月) 22:35:08.20 ]: 今、自然言語の本を読んでいるのですが、質問させてください
PythonでNLTKを使った解説がありますが、このモジュールは日本語でも使えますか?
関数など見ていると、英語圏のように、スペースにて文字を区切ることを前提にしている様ですし、
品詞タガーだけでなく、N-gram関数でさえも一単語（英語）と一文字（日本語）で、
日本語の場合と（仕方ないですが）挙動が違ってきますし

・日本語を解析する際にもNLTKが使用できるのか
・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか

を教えて頂けませんでしょうか?
331 名前：デフォルトの名無しさん mailto:sage [2011/12/19(月) 23:17:52.27 ]: >>330
・日本語を解析する際にもNLTKが使用できるのか
自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな

・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか
日本語用のNLTKみたいなのはないと思うので大体は自分で書く
なにをするのかによるけどngramとかなんかだったらmecab + pythonですぐ書けるし（速度は別にして）
332 名前：デフォルトの名無しさん mailto:sage [2011/12/19(月) 23:28:43.31 ]: >>330
書籍『入門自然言語処理』 O'Reilly Japan, 2010 の第12章「Python による日本語自然言語処理」
の内容が公開されてるよ。ChaSenやMeCabによる形態素解析とNLTKを連携させる話しが載ってる。
個人的にはこの章が追加されてるだけでも本書を買う価値があると思うよ。

nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html
333 名前：デフォルトの名無しさん [2011/12/19(月) 23:38:01.74 ]: >自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな
なるほど、やはりそうですか
本を読んでいて、「これ日本語で使えるか？」と思っておりました
ストップワードを削除するとか言うRTEFeatureExtractorは元より、他の関数達も、（日本とかは世界では独特でしょうから当然ですが）欧米型の文書構造を考えているので
使うのは厳しいだろうなとは思いました
中には日本語でも使えるものもあるとは思いますが

自分は元々PHPでN-gramとかMecabとか書いたり使ったりしていたのですが、めんどくさくなってきた&自然言語はPythonみたいなものがあってPythonを学習しました
しかし、となるとPython使う意味がなくなったような気もしますが、Pythonは統計計算系のライブラリなど充実していると聞きました
自然処理として、入門的な所で言うと、ナイーブベイズなどのライブラリとかそういうのはやはり皆さんは使われているのでしょうか？
関係ないとは思いますが、この場合（ライブラリを使う場合）も日本語の問題はやはりあるのでしょうか？
334 名前：デフォルトの名無しさん [2011/12/19(月) 23:41:01.14 ]: >>332
ありがとうございます
ネットにて検索いたしました

まぁ、読めば分かるのかもしれませんが、そのように形態素とNLTKを連携させた場合、上記で書きましたようなNLTKの関数などはやはり使えないのでしょうか？
335 名前：デフォルトの名無しさん mailto:sage [2011/12/19(月) 23:52:35.08 ]: (´･ω･`)ｼﾗﾝｶﾞﾅ
336 名前：デフォルトの名無しさん mailto:sage [2011/12/19(月) 23:57:06.37 ]: >>333
python以外あんまやったことないんで、間違った意見かもしれないけど
確かにライブラリは充実してると思う（自分はあまりつかわないけど）
ナイーブベイズくらいなら自分で書いちゃうけど、例えばSVMだったらlibsvmとか使う
まあこれはPHPでも使えるけど
だから、自分が使いやすければ言語はなんでもいいと思うよ
ただ、言語処理だとpythonとかrubyを使ってる人が多いから、
ネットに転がってるソースを見るときに楽ってのはある
337 名前：デフォルトの名無しさん [2011/12/20(火) 00:26:51.64 ]: でもPythonやRubyってVBと同じくらい糞言語に見えると思うんだよな。
PHP使ってるところからして。
338 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 19:25:09.19 ]: 質問させてください
N-gramを使用した場合、形態素解析と違い、
自分で品詞タガー、チャンキングなど作成する実装をしないといけないと思うのですが、
それらのように、N-gramのその後に行うべき処理はどういうものがあるのかを教えていただけませんでしょうか？

N-gramを行えというのはどの本や資料でも書かれていますが、そのままだと、品詞も分からず、
そもそも["今日”, "日か", "から", "から"]など単語として成り立っていないので、
どのようにかして結合し、単語にしなければいけないと思います

欧米の場合はN-gramを使えば単語に分かれているのでそのままでもいいのでしょうが、
日本語の場合はそのように、N-gram後の事が書かれていません

N-gram後に何をどういう手順で行えばいいのかアドバイスを頂けないでしょうか？
また、そのような事の書かれているサイトや書籍などありましたら教えていただきたいと思います
339 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 19:28:01.58 ]: 文字に対するngramなのか、単語に対するngramなのか、
まずそこをはっきりさせないと。
340 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 19:54:24.24 ]: >>339
一般的にN-gramアルゴリズムでは文字N-gramが書かれていると思いますので、文字N-gramです
341 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 20:40:57.74 ]: で、文字ngramを使ったPOS taggerを作りたいの？
それとも文字ngramを使ったchunkerを作りたいの？
最終的に何をしたいのか不明のままでは
taggingやchunkingが必要かどうかすら不明なんだけ
342 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 20:59:05.66 ]: >>341
まずN-gramから単語に・・・と思ったのですが、
そもそもの問題として質問させてください（すみません）
皆さんはN-gramの後に単語に作り直さないのでしょうか？
タガー、チャンク作成は必須なのかなと勝手に思っていたのですが
Mecabなども品詞は出てきますし

例えば、ナイーブベイズとかピアソンなどで類似性をはかるにはまず単語にしなければいけないと思うのですが
違うのでしょうか？

自分は、ある文章をクラス（ジャンル）分けしようと考えているのですが、
その為には品詞、特に名詞（後は動詞）を使うのがいいと思いました
Mecabならば出来ますが、N-gramでやろうとすると、文字に分割した後が何をすればいいのかいまいち分かりませんで

とにかく、N-gram -> 相関性やクラスタリングなどの式に送る　ということをしたいと思っております
343 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:14:49.61 ]: 品詞使いたいなら素直にmecab使えよ
なんでn-gram使いたんだ？
344 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:24:19.12 ]: mecabがいいと自分は楽だと思ったのですが、新語や他国後を扱う機会が想定されまして
辞書の追加、インデックスなど後々めんどうだと思いまして
で、N-gramを使った実装をテストしてみようと思ったのですが、分割したものを単語にまとめなおすという情報が、検索の仕方が悪いのかもしれませんが出てきませんでした
単にN-gram テキストマイニングとか、その後処理とかいくつかやってはみたのですが

まず単語に直せさえすれば欧米のようにチャンク文法とかへ繋げる事が出来るとは思ったのですが
色々と考えてみたのですが非常に難しいでした
日本語でN-gramを使っている人やGoogleを始め、他の検索エンジンでもN-gramを採用しているところもあるという事実から出来ないことはないとは思うのですが
345 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:35:07.71 ]: N-gramは漏れなしで全て登録が基本。
346 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:36:46.37 ]: 知識なしの統計のみで単語分割はN-gramとは別の話題。
なんでもかんでもN-gramで解決すると思うな。
347 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:43:24.10 ]: 教師なし単語分割の最前線。ベイズ meets 言語モデル
d.hatena.ne.jp/mamoruk/20090325/p1

教師なし　統計　言語 - Google 検索
https://www.google.com/search?q=%E6%95%99%E5%B8%AB%E3%81%AA%E3%81%97%E3%80%80%E7%B5%B1%E8%A8%88%E3%80%80%E8%A8%80%E8%AA%9E
348 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:48:11.51 ]: 翻訳やIMEを作るのでなく、容量食ってでも漏れなし検索したいときに全パータンを登録するのがN-gram
349 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:48:49.66 ]: そもそもやりたいのは文章分類なんだよね？
それなら新語はそんなにクリティカルじゃないと思うんだけど
どうしてもn-gram使いたいんだったら、2から5くらいでn-gram作ってやって
それぞれでSVMで分類してやれば？
形態素で分類したほうが精度いいと思うけどね
350 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:50:41.18 ]: 長くなってすみません　m(_ _)m

教えて頂きたいのですが、「漏れなしで全て登録が基本」というのがちょっと分からなかったのですが、
日本語の場合は欧米系と違い、N-gramで単語単語が取得できません
で、自分など読んでる本とか、Web上の情報など欧米系のものが主になってきてしまっているので、
その感覚で考えてしまっているので混乱または難しく考えているのかもしれませんが、
日本語の場合はそもそも単語に戻す処理をするのでしょうか？
それとも、欧米系とは根本から異なり、上記のように["今日”, "日か", "から", "から"]のような構造を保持し、
それを（単語として戻さずに）検索などの処理に当てるのでしょうか？

その根本的な部分がまず分かっていないと思います
ただ、戻さないとナイーブベイズとか後処理へ持って行けないので訳が分からなくなります（苦笑）
形態素解析だけでは本当の意味でのテキストマイニングなど出来ないんじゃないかと思います
351 名前：350 mailto:sage [2011/12/20(火) 21:52:48.13 ]: おおっ、350書いてる間に大量の返答ありがとうございます
先にお礼を述べさせていただきたいと思います

今からレスを一つ一つ確認いたします
352 名前：デフォルトの名無しさん mailto:sage [2011/12/20(火) 21:58:39.34 ]: 人間が理解可能な言語構造のない検索対象。

"n-gram"　dna配列 - Google 検索
https://www.google.com/search?q=%22n-gram%22%E3%80%80dna%E9%85%8D%E5%88%97
353 名前：350 mailto:sage [2011/12/20(火) 22:07:13.91 ]: なるほどッ！
皆さん、レスありがとうございます
自分の場合、まず検索エンジンの文章を読んだために形態素とN-gramが比較の対象になっていたのですね
（自分は検索エンジンを作るつもりではありませんでしたが）
形態素よりもN-gramの方がいいと書かれていた（メリットが強調されていた）為に、
まずN-gramが先に来てしまっていたのだと思います
それと何度も書いていますが、欧米系の処理方法が頭にあったので

日本語の場合はクラスタリングとか統計的に使う場合は形態素解析がメインで、N-gramは殆どないという事ですね
教師なし形態素解析というのは少し前に知って、ネット上でザッと目を通したのですが、
良く分からないから後回しにしようと思っておりました
関連にてやはりきちんと読んでみようと思います

"人間が理解可能な言語構造のない検索対象"というのは言葉の表現を聞いただけでとてつもなく難しそうな
感じがしますが、読んでみます
354 名前：デフォルトの名無しさん mailto:sage [2011/12/21(水) 04:33:48.34 ]: 1～N Gramが最も確実な検索。
形態素は、そのうちで登録しないものを取り除いた検索。
検索されないだろう物を除外。
355 名前：デフォルトの名無しさん mailto:sage [2011/12/21(水) 04:51:48.14 ]: 日本語相手にngramを使う場合、
検索なら文字ngram
分類なら形態素解析した後で単語ngram

ただし、文字ngramでも自動分類に使うことはできる。
もちろん形態素解析したほうが精度いいけどね。
多国語を同じスキームで処理することが目的なら、
文字ngramで自動分類やクラスタリングするのも
頭から否定してかかるほど的外れでもない。

この場合は文字ngramの種類数が莫大になるから
うまくfeature selectionしてやる必要があるだろうね。

がんばれ。
356 名前：デフォルトの名無しさん mailto:sage [2011/12/21(水) 22:17:52.87 ]: 今、KNPにて
reed.kuee.kyoto-u.ac.jp/nl-resource/knp-form.html
文章打って試してみたのですが、Cabochaとか、こういう係り受け解析ってのは何に使うものなのですか？

何かグラフのように出力されましたが、これが何なのかな、と思います
基本的に何の目的で使うものなのでしょうか?

Juman
reed.kuee.kyoto-u.ac.jp/nl-resource/juman-form.html
とかは分かるのですが
357 名前：デフォルトの名無しさん mailto:sage [2011/12/22(木) 00:01:55.70 ]: 特徴
KyTeaには以下の機能が揃っています：

単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。
読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。
線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。

<a href="www.phontron.com/kytea/index-ja.html">KyTea (京都テキスト解析ツールキット)</a>
358 名前：デフォルトの名無しさん mailto:sage [2011/12/22(木) 08:30:14.66 ]: >>356
ついこないだからknp使い始めたにわかがマジレスすると、係り受け木を利用することで単語列よりは文の意味的なものを扱いやすくなります。

まず、係り受けっていうのは、語の修飾関係を表している、情報を付け足す向きを表しているものです。

私が本を読んだ、という文の係り受けは
私が→読んだ
本を→読んだ
これを木の形にするとknpとかの出力になります。
359 名前：デフォルトの名無しさん mailto:sage [2011/12/22(木) 08:39:07.33 ]: そのうえで大量の文書の特定の固有名詞への係り受けをクラスタリングすると、特定の固有名詞に対する評価が分析できるとかじゃないかな
360 名前：デフォルトの名無しさん mailto:sage [2011/12/22(木) 23:16:55.44 ]: >>358
なるほど
レスありがとうございます

私が→読んだ
本を→読んだ
のようなものの精度を上げるのは難しい仕事だと思いますが、コンピュータに文脈の意味を誤解させない・・・というか、
品詞分解などなどで間違わせないようにする機能と理解して宜しいのでしょうか？

>>359
なるほど
関連性、親密性のようなものも判断できるということですね
361 名前：デフォルトの名無しさん [2011/12/27(火) 17:28:18.65 ]: かな漢字変換の実装を行なっていて
後ろ向き探索をA*アルゴリズムで行い、n-best解を求めたいのですが
どのように実装すればよろしいのでしょうか。
現在、前向き探索をコスト最小法で行なっていて、
ある文字で終わるノードのコストはわかっています。

できれば、Rubyでの実装法を教えていただけるとありがたいです。
スレ違いでしたら申し訳ございません。
362 名前：デフォルトの名無しさん mailto:sage [2011/12/27(火) 17:47:58.30 ]: >>361
A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まるが？
363 名前：デフォルトの名無しさん [2011/12/27(火) 17:54:34.37 ]: >>362
A*の実装法がよくわからないのです。
前向き探索を一度やっていると効率よくA*を出きるというのですが
具体的にどのように書いていけば良いのかわからなくて…
Ruby(というか、プログラム)初心者なもので、ご教授いただけるとありがたいです。
364 名前：デフォルトの名無しさん mailto:sage [2011/12/28(水) 01:13:32.79 ]: >>362
「A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まる」ってのは本当なんかね・・・

ここにもA*でおｋって書いてあるけどいまいち信用出来ない・・・
d.hatena.ne.jp/tkng/20090302/1235958257

これって「k shortest simple paths 問題（コスト付きグラフにおけるk番目に短い経路（ループする経路は除く）を求める問題）」だよね。
365 名前：デフォルトの名無しさん mailto:sage [2011/12/28(水) 12:33:21.23 ]: d.hatena.ne.jp/octech/20070712#1184210094
d.hatena.ne.jp/nitoyon/20100126/dijkstra_aster_visualize
d.hatena.ne.jp/gan2/20071127/1196157611
www.sousakuba.com/Programming/algo_root.html
efcl.info/adiary/%E3%83%80%E3%82%A4%E3%82%AF%E3%82%B9%E3%83%88%E3%83%A9%E6%B3%95%EF%BC%88%E6%9C%80%E7%9F%AD%E7%B5%8C%E8%B7%AF%E5%95%8F%E9%A1%8C%EF%BC%89
www.deqnotes.net/acmicpc/dijkstra/
www.me.sophia.ac.jp/or/lab/ishizuka/OC/spath_00.html
d.hatena.ne.jp/g940425/20100812/1281624557
ja.wikipedia.org/wiki/A*
www.infor.kanazawa-it.ac.jp/~koblab/home/d1504310/acm/dochtml/47_.html
366 名前：デフォルトの名無しさん mailto:sage [2011/12/28(水) 19:15:58.02 ]: 自分の読んだ本には例えば「僕は今日高校生になります」と「僕は今日川に泳ぎに行きました」という２文があった場合、（簡単な為名詞、動詞だけにします）
　x(今日) = (n("僕"), n("高校生"), n("川"), n("泳ぐ")) = (1, 1, 0, 0)
とか、(n("今日"-1), n("今日"+1), ...) = ()
という様な色々な表現法でベクトルで表し、それらに文書の類似性として、ピアソン相関係数とかコサイン類似度などを使用するようですが、分からない点があります

文書の群があった場合、それらをまずクラスタリングや分類器にてクラス分けし、その後で類似性を上記の様に計算するのだと思いますが、
例えば、10個の文書群でも相互に計算する場合、9+8+....+1通りありますし、
文書自体も1000語とかあれば類似度計算自体も大変だと思います
これがもし文書が何千個もあれば、膨大な類似計算が必要になると思います

こういう場合、どのようにして対処すれば宜しいのでしょうか?
何か他にいい類似度を測る計算法だとか、アルゴリズムとかありましたら教えていただきたいのですが
367 名前：デフォルトの名無しさん mailto:sage [2011/12/28(水) 20:18:02.05 ]: >>364
n個の到達解S1,...,Snを得た後で残された全ての可能な経路について
h()がadmissibleであれば、あとは自明だよね？
368 名前：デフォルトの名無しさん [2011/12/29(木) 07:11:16.75 ]: テイラー展開がある大域的な領域の各点で可能な関数は、その領域において解析的である（またはその領域上の解析関数であるという）。
大方収束したと考えてよろしいのでは。
369 名前：デフォルトの名無しさん mailto:sage [2011/12/29(木) 09:26:16.23 ]: A*もダイクストラもたいしてかわらない。
まずダイクストラで組むんだ。
違いは最短距離を予測するヒューリスティック関数の作り方が難しいだけ。
370 名前：デフォルトの名無しさん mailto:sage [2011/12/29(木) 09:34:58.74 ]: A*よりもそれを適用するためのかな仮名漢字変換用データの収集・選択が難しいだろ。
371 名前：デフォルトの名無しさん [2011/12/31(土) 00:23:59.89 ]: 361です。皆様、解説ありがとうございます。
まだ、全部に目を通せていない＆実装できる環境にしばらく行けないのですが
参考にまた、勉強してみようと思います。
372 名前：デフォルトの名無しさん [2011/12/31(土) 04:01:16.07 ]: >>365
ありがと。
373 名前：片山博文MZ ◆0lBZNi.Q7evd [2011/12/31(土) 15:55:06.49 ]: 自然言語処理を１から勉強したいです。
いい本とかサイトとかあったら教えてください。
374 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 15:59:45.49 ]: >>373
大学に行きなよ。
375 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 17:18:13.41 ]: >>373
ネットで探してみなよ
私は大卒じゃないけれど、何とか勉強していけそう
あなたも興味があるなら、頑張って
376 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 18:38:43.43 ]: >>375
最初はいいんだけど、おそらくある程度のところになると大学で学ばないときつい
特に、プロの実践の場での使用となると・・・
377 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 20:04:49.39 ]: >>373
とりあえず、「入門自然言語処理」を読んで、自然言語処理の勉強会にいけ。TokyoNLPとか、DSIRNLPとか。
378 名前：デフォルトの名無しさん mailto:sage [2011/12/31(土) 23:02:14.64 ]: 赤ちゃんプレイでしたら申し訳ございません。
379 名前：デフォルトの名無しさん [2012/01/01(日) 02:03:48.30 ]: 勉強会はありがたいですよねー。
詰まったときは、聞くことも出来るしさ
大学行くか、独学か…お好きな方を
どちらにしても、目標あるって良いよね ;)
380 名前：片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2012/01/01(日) 13:26:45.84 ]: >>374-379 皆さんありがとうございます。
381 名前：デフォルトの名無しさん [2012/01/02(月) 12:24:14.38 ]: >>376
大学がじゃないと厳しいと思えるのは何ですか？
何か一つでもあげてもらえば参考になります
382 名前：デフォルトの名無しさん mailto:sage [2012/01/02(月) 18:20:05.70 ]: >>381
最終的に何がしたいかにもよるけど、基礎をやろうとすると独学や企業では難しいかもしれない。
言語学よりな話とか、論文の読み方、研究の仕方、とかね。機械学習とかはよほどマニアックな話でなければ企業でもやれるんでないの。

あと、独学だとモチベーションの保ちかたとか趣味レベルを超えた時の目標とか難しそう。
383 名前：片山博文MZ!omikuji ◆0lBZNi.Q7evd mailto:sage [2012/01/03(火) 14:14:10.89 ]: 何でみんなUnicodeを使わないの？ Lispで使えなかったから？
384 名前：デフォルトの名無しさん mailto:sage [2012/01/03(火) 14:31:34.94 ]: どう考えても企業の方が上だろ。
アメリカのようにビジネス、実践を重視して、即戦力になる大学なら別だが。
日本の大学は、ちょっと知識がある程度になるだけ。
即戦力、リーダーなどに抜擢されたりしない。
385 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 05:50:25.78 ]: 社会人厨は巣に帰れよ。

だいたいの日本の企業はアメリカのように先端の研究をしない。
ほとんどの企業は世界と競争できる研究なんて全くしてない。
386 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 15:09:13.18 ]: ジャストシステムとか
富士通とか
ＮＴＴ系のどっか
387 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 15:12:49.33 ]: 日本企業が世界で戦えないレベルとしたらいまごろ外資に占領されてるだろう。
388 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 23:21:15.36 ]: 今自然言語の練習でニュースサイトの分類などしようと思っているのですが、この場合、クラスタリング、分類器などどんなものを使うのが一番いいのでしょうか？
ニューラルネットワークが一番いいのかもしれませんが良く分かりません
例えば、「野田総理が辞任しました」のような記事を同類にまとめるとか、スポーツ記事の中でもサッカーや野球にわけるとかです
SVMはナイーブベイズよりも精度が高いようですが、ある程度の記事数になると処理の重さなどにより逆にナイーブベイズの方が有利とかあるようです
自分はSVMがカーネルの所がまだハッキリと理解できないでいるのですが

今日R言語でのテキストマイニングの本を読んでみたのですが、なんとユークリッドで分けていました
ユークリッドで大丈夫なのかなとか思ったのですが、上記の場合どのようなアルゴリズムを使用するのが一般的には有利なのでしょうか？
実装や環境にもよるとは思うのですが、一応アドバイス頂けたらと思います
自分の名前も知らないアルゴリズムが最適だったりするかもしれないと思いまして
389 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 01:25:30.73 ]: >>388
内容からすると、分類よりもクラスタリングがしたいようなので、まずはk-meansから試してみるとよいのでは。
390 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 09:23:03.37 ]: >>388
アルゴリズムは主に速度を向上させるだけ。分類するための基準づくりが重要。
まったく違う物を同一と判定したらどんなアルゴリズムでも分類できない。
391 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 09:26:27.86 ]: たとえば類似画像検索で、どれを類似と見なすかを設定すれば
あとは効率悪くても総当たりで比較可能。
アルゴリズムで分類の効率化はできても、どれも同一と見なすかは人間の判断・指定がいる。
392 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 10:18:01.09 ]: 自然言語処理を１から勉強したいです。
393 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 18:31:41.25 ]: とりあえず>>390-391は自然言語処理もアルゴリズム論も全くの無知であることはわかった。
394 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 18:48:04.25 ]: 潜在意味解析は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、
それらに関連した概念の集合を生成することで、その関係を分析する技術である。
出現行列では、各文書における用語の出現を表した文書-単語マトリクスが使われる。
この行列の各成分の重み付けには tf-idfが用いられることが多い。
この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、単語はその相対的重要性を反映するために強く重み付けされる。
出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。
したがって、用語と文書は概念を介して間接的に関連付けられる。
応用
この新たな概念空間は以下のような場面で利用される。
概念空間での文書の比較（データ・クラスタリング、文書分類、など）
翻訳文書群の基本セットを分析した後、異なる言語間で類似の文書を探す（言語間検索）。
用語間の関係を探す（類義性や多義性）。
用語群によるクエリを与えられたとき、それを概念空間で解釈し、一致する文書群を探す（情報検索）。
潜在意味解析 - Wikipedia

TF-IDFで遊んでみた - uncertain world
d.hatena.ne.jp/rin1024/20090926/1253940572
395 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 18:56:15.79 ]: 文書を特徴付ける語の選択が分類精度を決めるから
それがダメだったらどんなに高級なアルゴリズムを使ったとしても正確な分類はできない。
アルゴリズムは主に計算量、速度の差につながる。
396 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:01:24.42 ]: >>369 >>370と似通っているが、言語処理はアルゴリズムの優劣だけでは決まらないんだ。
ヒューリスティックな部分、機械的にはできそうにない特徴付けが本質的に重要。
397 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:08:37.45 ]: と言われていた将棋で、非ヒューリスティックが圧倒的に出し抜いた例を見ちゃったからなぁ
398 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:13:49.12 ]: >>397
ありゃでかい突破だよなあ。
言語学主流派のグランドセオリーからすりゃ、同じように機械的にいけるはずなんだよねえ。
399 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:14:29.85 ]: ボナンザは特徴の重みを機械的に決定したのであって、特徴抽出は手動だぞ。
400 名前：デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:18:02.14 ]: ボナンザは元にした6万局の棋譜データから、評価関数のパラメータを自動生成している。
ただし、パラメータは自動生成だが、何を評価するかは保木自身が決めている。
棋譜からパラメータを自動生成することで、開発者の主観を排除した評価関数は強みでもあるが、同時に弱みでもある。
当初、Bonanzaは序盤で大駒を切ることが多かったが、これは大駒の点数が他のソフトに比べて低く設定されているためであり、
人間の感覚に反するこの設定は、自動生成に由来するものであった。
Bonanza - Wikipedia
401 名前：デフォルトの名無しさん mailto:sage [2012/01/06(金) 10:28:24.91 ]: Blunder のアルゴリズム

Blunder の評価関数は、以下の項目から成る 6668140個の要素を持つ特徴ベクトルを用いている。
www.computer-shogi.org/wcsc21/appeal/Blunder/Blunder.pdf
402 名前：デフォルトの名無しさん [2012/01/06(金) 23:51:53.36 ]: で？
403 名前：デフォルトの名無しさん mailto:sage [2012/01/07(土) 10:56:57.00 ]: 特徴量なんか、とりあえず考えられるだけ全部突っ込めよ。今の学習アルゴリズムは人が一つ一つ作った程度の特徴の数じゃ悪影響なんてまず出ない。それでだめなら特徴選択考えてみればいいだろ。
404 名前：デフォルトの名無しさん mailto:sage [2012/01/07(土) 11:23:26.39 ]: 重要な特徴を入力し損なえば失敗だ。
機械学習でもヒューステリックが必要。
405 名前：デフォルトの名無しさん mailto:sage [2012/01/07(土) 11:26:56.69 ]: あと単語・品詞分解がほぼ正確にできたとして、そのあとどうやって学習させるんだ?
文書の種類ごとに、単語の重要度は変化する気はするが。
学習させる方法が難しい。
406 名前：デフォルトの名無しさん [2012/01/18(水) 10:04:55.40 ]: 寒中見舞いは、寒さのために相手の健康を気づかうたよりですが、
賀状の返礼や喪中の方への挨拶、賀状をくれた方への欠礼の知らせ
にも適しています。

モノの応用
407 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 01:47:33.04 ]: ドキュメント中に含まれる特定の単語2つの関連性を数値化したいんですが良い方法が思いつきません。
よければアドバイスお願い致します
408 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 02:44:23.16 ]: Tsujii Lab. Enshu3 -- Latent Semantic Analysis (LSA)
www-tsujii.is.s.u-tokyo.ac.jp/enshu3/lsa.htm

目次
www.gifu-nct.ac.jp/elec/deguchi/sotsuron/yoshimura/node1.html

潜在意味解析 - Wikipedia
ja.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E6%84%8F%E5%91%B3%E8%A7%A3%E6%9E%90

pLSA(pLSI)用共起行列の作成 - かがぴーの雑記帳
d.hatena.ne.jp/kagamiuta/20110609/1307550239

うぃとげんしゅたいん: Probabilistic Latent Semantic Analysis : PLSA （Rで実装）
wg-stein.blogspot.com/2009/11/probabilistic-latent-semantic-analysis.html
409 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 04:02:56.10 ]: 連続音声認識システムに使用するアルゴリズム
unicorn.ike.tottori-u.ac.jp/murakami/doctor/node6.html

ビタビアルゴリズム
www.yobology.info/text/viterbi/viterbi.htm

簡単なラティス構築とビタビアルゴリズム - Negative/Positive Thinking
d.hatena.ne.jp/jetbead/20111025/1319499732

Khafra - A Phrase-based DP Beam Search Decoder -
www.nlp.mibel.cs.tsukuba.ac.jp/khafra/

ソフトウェア特論講義資料グラフ探索，問題解決
www.jsk.t.u-tokyo.ac.jp/~inaba/soft4/soft4-search/soft4-search.html
410 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 04:33:56.81 ]: 【PC班】日本語入力ソフトの単語予測アルゴリズムに関する考察 : ブツリブログ
blog.livedoor.jp/eikophys/archives/51880269.html

Python による日本語自然言語処理
nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html

文節をどう区切るか
www4.airnet.ne.jp/koabe/com_inet/im/bunsetsu.html
411 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 05:09:46.05 ]: かな漢字変換システムのしくみ
web.archive.org/web/20040815062904/http://www.tomo.gr.jp/wakaru/1.txt

第３章　コンピュータで文章から単語を取り出す方法 - 長岡技科大自然言語処理研究室
https://sites.google.com/a/jnlp.org/lab/kajiwara/shu-ji-shao-jie-zi-ran-yan-yu-chu-likotohajime-yan-yewo-juee-hui-huanodekirukonpyuta/di3zhang-konpyutade-wen-zhangkara-dan-yuwo-quri-chusu-fang-fa

ビタビアルゴリズム - Wikipedia
ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0
412 名前：デフォルトの名無しさん mailto:sage [2012/01/26(木) 03:38:46.40 ]: 特異値分解 - Wikipedia
ja.wikipedia.org/wiki/%E7%89%B9%E7%95%B0%E5%80%A4%E5%88%86%E8%A7%A3

潜在意味解析 - Wikipedia
ja.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E6%84%8F%E5%91%B3%E8%A7%A3%E6%9E%90
413 名前：デフォルトの名無しさん mailto:sage [2012/01/26(木) 08:34:04.08 ]: このスレはおまえのお勉強ノートじゃねぇんだ
414 名前：デフォルトの名無しさん mailto:sage [2012/01/28(土) 14:13:32.43 ]: 平仮名にすると区切るのが難しいと思うけど辞書なしでできる物なのか。

蜂は花の蜜を吸う

はちははなのみつをすう
415 名前：デフォルトの名無しさん mailto:sage [2012/01/28(土) 19:06:44.47 ]: 文書の1～4バイトの出現回数をしらべてどこで区切るかの方法=アルゴリズムが判らん。
416 名前：片山博文MZ ◆0lBZNi.Q7evd [2012/02/05(日) 13:50:34.97 ]: 「iPhoneとiPadで動作するスマートな日本語入力システムを2013年までに
Appleに提案せよ。さもなくば日本人の生産性を10%低下させる。」
という脅迫状がJ社に届いた。あなたはJ社の営業部社員である。
あなたならどうする？
417 名前：片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2012/02/05(日) 13:55:41.07 ]: JUST SYSTEMは、iPad用のIMEを開発できるのかなぁ。
418 名前：デフォルトの名無しさん [2012/02/06(月) 10:53:32.79 ]: IDEの間違いじゃないの
419 名前：デフォルトの名無しさん mailto:sage [2012/02/06(月) 10:58:18.63 ]: 「かな漢」って言えばいいやん
420 名前：デフォルトの名無しさん [2012/02/06(月) 18:13:38.32 ]: ウェブサイト向け「NRI連想検索（銘柄）」サービスを開始
www.nri.co.jp/news/2008/080321_2.html

＞ウェブ上に公開されているリソース情報からキーワードを抽出し、独自のルールをもとに
＞上場企業との関連度及びキーワード間の関連度を定義したデータベース（連想辞書）を作成します。

動詞は語尾変化も含めて、助詞や助動詞（「～である」「～から」）も全て含めて、
国語辞典コーパスで「VF符号化」することは可能ですか。また「VF符号化」できない
ところは別表記にして、例えば「きゃりーぱみゅぱみゅ」のような過去には無かった
最新のキーワードがあれば、それはそれで別に編集しておくとか。

『VF符号化は、あらかじめ生成した辞書を用いて可変長の文字列を固定長の符号に
置き換えることで圧縮する（図5）。』
it.impressbm.co.jp/e/2012/01/16/4163?page=0%2C2

それからあらゆる分野の電子書籍百万冊を、年代別分野別に「共起語」を調べて統計化すると
いった試みは行われているのですか。例えば「選挙」と「出馬」について、「杉村太蔵は今年、
衆議院選挙に出馬する。」とかで一文ごとに区切って、共起率についての統計数字を算出
することは可能ですか。

『レンマ化とは，基本形（base form）あるいは辞書に載っている語形に，語尾変化している
語をまとめることである．レンマとは，つまり，語尾変化をする部分を除いて，変化をし
ない同じ語幹を持つ語のまとまりを指す.』
『まず，本研究では，共起語のレンジを bigram に限定して論文コーパスと雑誌コーパスの
データを取った．これはすべての語の組み合わせを対象とするため，レンジを広げると計
算が複雑すぎるからである．』
homepage3.nifty.com/yukie-k/publication/23.pdf
421 名前：デフォルトの名無しさん mailto:sage [2012/02/06(月) 19:41:08.38 ]: なにがしたいん
422 名前：デフォルトの名無しさん mailto:sage [2012/02/06(月) 20:17:02.73 ]: ステマだろ
423 名前：デフォルトの名無しさん [2012/02/07(火) 19:39:45.45 ]: 動態保存
424 名前：デフォルトの名無しさん [2012/02/08(水) 14:28:18.04 ]: FYI:

日本語入力を支える技術という本を書きました - 射撃しつつ前転
d.hatena.ne.jp/tkng/20120203/1328248554

日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界
www.amazon.co.jp/dp/4774149934
425 名前：デフォルトの名無しさん [2012/02/09(木) 08:34:43.52 ]: ただのステマ
426 名前：デフォルトの名無しさん mailto:sage [2012/02/09(木) 09:21:46.96 ]: 嫌儲にカエレ（・A・）
427 名前：デフォルトの名無しさん [2012/02/10(金) 16:15:24.87 ]: 単語の重要度は一意的でないな。
たんなる「A」と「血液型はA」ではAの重要度が違う。
これを正しく認識できないものは駄目だな。
428 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 22:16:12.81 ]: 20周くらい周回遅れの人が来たよ
429 名前：デフォルトの名無しさん mailto:sage [2012/02/13(月) 14:05:23.88 ]: www.ntts.co.jp/products/knowledgeocean/qanda.html

＞文章を単語（一般的に）に分割して、品詞情報や読みなどの情報を取得する処理のことです。

それでは格助詞「に」についての、以下のような詳細な分析は可能ですか？

また『大統領に選ばれる』の意味としては，「大統領として（誰かが）選ばれる」，
大統領によって（誰かが）選ばれる」，「大統領が選ぶことができる」の少なくとも３通りの解釈
www.adm.fukuoka-u.ac.jp/fu844/home2/Ronso/Kogaku/T83/T8300_0023.pdf

＞Knowledgeoceanでは、単語間の距離（単語の数）を指定して、共起度をカウントしています。

以下のような「主客関係」も考慮した共起度算定も可能ですか？

たとえば、以下の（８）においては「豚」と「人」との階層の違いによって
「豚が人を殺す」のではなく「人が豚を殺す」ことが明らかであるので能格構文を用い
ないが、（９）においてはそのような「有生性原理」が働かないので能格構文によって
主客関係を明示しなければならない。
www.lang.nagoya-u.ac.jp/proj/genbunronshu/22-1/kondo.pdf

また類義語にしても微妙に大きく違っていたりする場合もあるようですが、統計化できますか？

「起きる」と「生じる」
問題が起きるは84件、問題が生じるは63件。
事件が起きるは301件、事件が生じるは1件。
（毎日新聞記事　2003年）
www.ninjal.ac.jp/products-k/syokai/press/07_01/press07_01_2.pdf
430 名前：デフォルトの名無しさん mailto:sage [2012/02/13(月) 14:15:22.82 ]: NTTソフトウェア　猪尾（いお）です。
お世話になっております。

このたびはお問い合わせいただきまして、ありがとうございました。

下記質問について確認いたしましたが、
弊社テキストマイニング製品（Knowledgeocean：ナレッジオーシャン）では、
簡易な共起抽出機能しかありませんので、
下記質問していただいた分析をできる機能がありません。

申し訳ございませんが、
よろしくお願いいたします。
431 名前：片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2012/02/13(月) 15:54:59.12 ]: IME作れって言われても。専門外だもんなぁ。。。
432 名前：デフォルトの名無しさん mailto:sage [2012/02/17(金) 18:07:56.86 ]: スーパーコンピュータを使って、百万冊の書籍を、文節単位に区切って、それら全ての共起関係を調べられないだろうか。

シソーラスやオントロジーがあると話しましたが、実はそれを作ること自体が大変なのです。
世の中には無数の単語があります。1万～ 2万ではなく、100万以上の単語がありますし、
フレーズの意味的関係も考えなくてはいけません。
フレーズまで考えだすと、恐らく億単位では収まらないくらいの表現があると思います。
www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf

また共起関係と一口に言っても、どちらが主格でどちらが目的格になるのかについての統計も必要。
例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
433 名前：デフォルトの名無しさん mailto:sage [2012/02/17(金) 18:42:44.10 ]: ＞例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
窮鼠猫を咬むの喩えでも判るように、有り得ないとは限らないから困る。
実際、ヌーなどの大型の草食動物は(撃退するために)ライオンを襲う。
434 名前：デフォルトの名無しさん mailto:sage [2012/02/17(金) 19:18:59.30 ]: >>432
「ウサギはライオンに襲い掛かった」もありえることを>>432自体が証明している。
435 名前：デフォルトの名無しさん [2012/02/18(土) 08:33:22.85 ]: >>434
>>433
千に一つ万に一つの稀有な例は除外ということで良いと思う。

とりあえず「ウサギ」と「ライオン」の関係についての、一般的な共起データベースを作っておきたい。
436 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 08:44:53.11 ]: 自然言語処理では、千に一つとか万に一つぐらいなら、
「いつも起こる」と同義なぐらい高い確率ですよ。
437 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 09:32:26.35 ]: ところで本当にライオンは「ウサギ」を狩ることがあるんでしょうかね。
438 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 10:23:20.84 ]: 「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。

「太陽が雲に隠れる」はあっても、「雲が太陽に隠れる」はありえない。
「机の上にリンゴを置く」はあっても、「リンゴの上に机を置く」はありえない。
「壁に貼られたチラシ」はあっても、「チラシに貼られた壁」はありえない。

共起関係と一口に言っても、動詞を介した主格と目的格についての区別ができたら良いと思う。
主格・目的格・動詞の三角関係を明らかにした共起データベースが見たい。
439 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 10:34:07.39 ]: >>438
あなたの言う「あり得ない」は、自然言語処理では十分にあり得る話ばかり。
せいぜい「十分なコーパスがあれば統計的に有意な差が出るだろう」程度です。
440 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 10:35:11.41 ]: >>438
形式概念分析(Formal Concept Analyze, FCA)でググると、ヒントが見つけられるよ
441 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 10:39:48.36 ]: >>438
頭の中で考えればそうかもしれないが、実際のデータは別だよ。
極端に言えば「意図的に作られた情報」として「あり得ないと考えたケース」が
登場するかもしれない。やると分かるが、それほど千差万別なので難しい。
442 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 11:00:21.35 ]: お、情報処理学会誌の特集が「不自然言語処理」だ
443 名前：デフォルトの名無しさん [2012/02/18(土) 12:43:10.17 ]: >>438
＞「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。

下剤入りの正露丸
お昼のモーニングショー

イルカのわき毛
しっぽの無いヘビ
カバのかば焼き

夜中になると　台所を這い回る　タワシ
ミミズの骨折
カエルのクロール
アジの開き直り

七三にわけた　オシリ
脱毛に悩む毛虫

毛の生えたミートボール
つぶつぶ入りマムシドリンク

あったら怖い　あったら怖い
三三七拍子を打つ心臓

この世にそんな恐ろしいものが　あったら怖いよ
あったら怖い　あったら怖い　あったら怖いセレナーデ

あったらコワイセレナーデ　嘉門達夫：作
www.geocities.co.jp/MusicHall/6654/attarakowai.htm
444 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 12:53:32.51 ]: >>438
＞「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。

例えば「食べた」という動詞に関する文がたくさんあります。
「せんべいとケーキを食べた」は「両方食べた」という意味なので、「ケーキ」にかかります。
「先生とケーキを食べた」は、「一緒に食べた」ことになります。
「クッキーとケーキを食べた」なら両方食べたという意味になります。
www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf

「形式概念分析」は、今後ますます進化すると思う。
445 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 13:42:00.00 ]: 白い恋人とケーキを食べた
446 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 14:51:51.64 ]: >>444
「先生とケーキを食べた」は、
女教師をスイーツに誘った後でホテルにいったんだろ？
447 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 15:03:13.40 ]: 鴎の玉子を食べた
固有名詞と一般名詞でだいぶ事情が異なる
448 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 15:30:44.54 ]: >>446
そりは「先生を食べちゃった」という解釈っすか？w

それなら>>445も「(病弱で色白な)恋人と(一緒に)ケーキを食べた」という解釈もできる

これ、単なるダジャレやらヘリクツという意味で終わらず、
「自然言語処理における暗喩(あんゆ)の解釈」という難しい問題を提起することになるね
449 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 18:25:21.80 ]: >>448
そういうこと。
自由文には隠喩とか皮肉とか、単なる述語論理や係り受け構造では掬い取れない要素がいっぱいだよな。
それを分析できないというのは構わない。
しかし、ある手法を提案する時に隠喩や皮肉が無いことを前提にした手法というのは、
自然言語処理の技術としては、ちょっと不味い。
450 名前：デフォルトの名無しさん mailto:sage [2012/02/18(土) 22:23:35.22 ]: 最近この手の話題が増えたよね。サービス品質、正誤は問われないのだろうか？

【話題/IT】ネットのつぶやきを解析、電車の遅れ速報--東芝が新サービス [02/18]
anago.2ch.net/test/read.cgi/bizplus/1329566810/

運行情報サービスのイメージ。遅れや運休があると判断した路線名に
「！」が付き、「つぶやき」の内容も確認できる
ttp://www.asahi.com/digital/internet/images/TKY201202180142.jpg
ttp://www.asahi.com/digital/internet/TKY201202180141.html
451 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:34:10.52 ]: 人間が一番安価なセンサー
問題はノイズ除去

２ちゃんねるやツイッターからノイズが除去出来れば
452 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 03:28:38.20 ]: >>451
なにも残らなかったり
453 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 09:18:51.64 ]: ゴミ情報を紛れ込ませることに喜びを感じるバカが必ず出てくるから、それをどう排除するか、だね。

古くからある手法としては、そもそも参加者を限定する（サロン、アカデミア、ギルド等）とか、
出来ては消える新しいネット利用メディアのように、バカが集まるまでの時間を利用して、
焼畑農業的にやる、という方法（金と手間はかからないが、心が折れる人間が一定数出る、
という人材焼畑という側面がある）、
2ちゃんねるのようにある程度の規模にできれば、良情報の絶対数がそれなりに
あるんだからいいじゃん、と開き直る、etc
454 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 09:34:35.70 ]: >>453
最近知ったんだけど、Amazon のレビューも、「Amazon Vine 先取りプログラム」という招待制が導入された
みたいだ。詳細は次の解説のとおり。これも評判の質を向上させようという試みなのだろうね。

> ttp://www.amazon.co.jp/gp/vine/help
> Amazon Vine 先取りプログラム?（以下、「本プログラム」）とは、お客様に予約商品や新商品のサンプルを
> ご利用いただき、ご意見やご感想をカスタマーレビューとして投稿いただく、招待制プログラムです。
> 本プログラムのメンバーとなるお客様は、他のお客様の役に立つ率直なカスタマーレビューを投稿している
> 実績があります。Amazon.co.jpでは、各仕入先から提供されたサンプルを、メンバーに無料でお送りします。
> 投稿されたレビューは、レビューガイドラインに違反している場合を除き、修正、編集されません。そのため、
> メンバーは商品に対する意見を自由に書くことができます。
455 名前：デフォルトの名無しさん [2012/02/20(月) 09:58:41.32 ]: とりあえず「子なし女性」についての、一般的な共起データベースを作っておきたい。
456 名前：デフォルトの名無しさん [2012/02/21(火) 02:17:39.73 ]: >>451
それ自体はもう既に2ちゃんネラーがノイズ元になってることがはっきりしてるから、
2ちゃん用語を元に元から除去すればノイズがなくなることは実証実験済みだな。
457 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 04:54:13.97 ]: そして2ちゃんには元々信号なんてなかったことが実証される。
458 名前：片山博文MZ ◆0lBZNi.Q7evd [2012/02/23(木) 11:29:08.96 ]: social-ime.imeのソースはどこにあるんだ？
459 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 11:38:31.75 ]: 問題はノイズを発生させる馬鹿じゃなくて
情報の品質を確認しない馬鹿をどう取り扱うかだ

天気予報を１００％うのみにする馬鹿は冷たい雨に打たれるがよい
460 名前：デフォルトの名無しさん mailto:sage [2012/02/26(日) 03:07:09.03 ]: ベイジアンフィルタでスレをフィルタできる2chブラウザはある。
461 名前：デフォルトの名無しさん mailto:sage [2012/03/09(金) 00:26:44.91 ]: 語彙概念構造の仕様ってどっかに無い？
462 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 12:47:39.86 ]: >>460
ニュース速報のスレを話題のジャンルごとにカテゴライズしてある
アンテナ・まとめサイトを作ればアフィリエイトでウハウハだなと、
スレタイ偽装スレも含めて95%くらいの精度で振り分けるところまで作ったものの
例の件で無かったことにしたのを今思い出したぞこの野郎
463 名前：デフォルトの名無しさん [2012/04/13(金) 14:33:34.33 ]: ■多様な表現から主語・目的語等を判別する述語項構造解析技術
「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な正解データ
から自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、述語に対する
主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定することができます。
この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。

■国内最大級のシソーラス「日本語語彙大系」等の言語資源
高度な言語解析に必要な様々な言語データベースを独自に構築し、研究に活用しています。それらの一部は
「日本語語彙大系」、「日本語の語彙特性」、「基本語データベース」などの書籍として出版しています。

www.kecl.ntt.co.jp/rps/research/innovative/research_innovative04.html
464 名前：デフォルトの名無しさん [2012/04/14(土) 08:46:19.73 ]: 　「する」の例で考えると，「トランプをする」「調査をする」のヲ格の意味は，「す
る」の具体的な内容であり，「彼を叩く」「ケーキを食べる」のようなヲ格とは異
なる。一方で，フィルモア（1975）に「判断，想像のような心理事象の内容」が
対象格にあることを考えると，このような「動作の内容」が対象格の範疇であっ
ても整合性がないわけではない。ところが，「青い目をしている」のヲ格は意味
を抽出することが難しい。動作の内容でも，動作の対象でもなく，このヲ格名詞
句は動詞に対して対等な要素として存在するとは考えられない。あえて言うなら
ば，「述語の表す状態の具体的内容」である。この他に「問題とする」「医者にす
る」のト格，ニ格は事柄の認定の目標，変化の結果を表すので，目標格とした。「頭
痛がする」のガ格は動作の表す具体的な内容とすれば対象格となる。ただし，こ
こで断っておきたいのは，これらを既存の意味格の中に位置づけようとすると些
かはみ出す形となり，特異な存在であることが浮き彫りにされることである。こ
れが「する」という動詞の特質でもある。
libir.soka.ac.jp/dspace/bitstream/10911/3244/1/nn21-033.pdf
465 名前：デフォルトの名無しさん [2012/04/14(土) 09:41:01.59 ]: 　２００９年７月現在、収容語数は４２万語で最多と考えている。
　ボトムアップでの作成により名詞のみでなく動詞、形容詞、形容動詞、副詞、代名詞、
擬態語さらに慣用句までを収容している。時事的な用語の積極採択、地名を除いて固有名詞
は含めない編集方針としている。言葉を探すのを目的とする人間の感覚に沿った分類とした。
色の分類時に、「はでな色」、「暖かい色」とする例が挙げられる。言葉の意味空間は、
１次元ではなく、例えば、「料理」は、材料・地域・調理法の３次元でありこの様に複数の
観点で分類している。「現在」に対する、「明日」、「翌日」、「過去」に対しては、
「翌日」が意味を持つ様に分類作業における揺れを吸収している。
www.issj.net/mm/mm0406/mm0406-3-9s.html

ここではオントロジー技術の動向把握をテストすることを目的とするため、「オントロジー」
と共起する用語の共起関係ネットワークだけを示す (図 4)。図から分かるように、
オントロジーに関連しそうな「セマンティックWeb」や「テキストマイニング」「情報抽出」
などの技術用語、「構築」「検索」などの関連語が関係付けられている。しかし、必ずしも
すぐにその関係の意味を推測できない用語も多く、この図によってオントロジー研究の
全体像が分かったとは言い難い。
sigswo.org/papers/SIG-SWO-A701/SIG-SWO-A701-02.pdf

この候補数は，かな漢字変換の候補選択に比較すれば少ない値であるが，理想的な自動訂正を
目指すならば，提示候補数は１に近いほどよい．したがって，この平均候補数を自動訂正の評価基
準にすることが可能だと言えよう．
今回の実験に用いた格フレーム辞書は，自動抽出した直後では，「が格」が欠落しているものが
ほとんどであった．これは，実際の文章では主語の省略が頻繁に起こるためであると考えられる．ま
た，「が格」に前置される名詞の意味素性は，「人間」，「団体・組織」，「システム」，「プログラム」
がほとんどであった．このことから，「が格」の欠落を自動補正することが可能だと思われる．
dspace.wul.waseda.ac.jp/dspace/bitstream/2065/425/12/Honbun-05_03.pdf
466 名前：デフォルトの名無しさん mailto:sage [2012/04/14(土) 09:49:45.57 ]: あらまし本稿では，タグの共起と類似画像を利用して，画像に対して有効なタグをユーザに提示するシステムを提
案する．十分にタグ付けされた Web 画像のデータベースから，タグの共起に加えて類似画像の関連語も抽出すること
で，多様で精度の高い関連語をユーザに提示する．また，ユーザが新たに付与したタグを入力のタグに含め，関連語
の再検索を行うことで，さらに新しい関連語を抽出することができる．16002 枚の画像を対象にして，タグの共起の
みを用いる手法，また類似画像のみを用いる手法と比較実験を行った結果，提案手法はより多くの有効な関連語を抽
出できることがわかった．また，これらの有効なタグを入力タグに追加し，関連語の再検索を行うことにより，新た
に有効な関連語を抽出できることも明らかになった．
www.ieice.org/~de/DEWS/DEWS2008/proceedings/files/e10/e10-5.pdf

?Webに関するオープンな標準を開発しているW3Cは、データの意味を記述する為の言語(正確にモデルと構文ですが、
分かり易くする為に言語と言います)として、RDF(Resource Description Framework)を開発しました。
?RDFは、主語と述語と目的語とから構成される意味モデル(トリプル、日本語では「三つ組み」と言います)を有し、意味モ
デルを記述する為の構文と語彙とを規定しています。
(注)トリプルのモデルは、非常に単純な様に思えますが、RDFでは、開集合、閉集合、トリプルを主語又は目的
語とするReification等の複雑なモデルを包含しています。
?RDFで記述された情報は、RDFの意味モデルと一対一に対応する様になっています。
?即ち、RDFで記述された情報の意味を、RDFの仕様に則して、解釈するならば、誰もが同じ意味として把握する事が可能
となります。
s-web.sfc.keio.ac.jp/conference2012/0202-shimizu.pdf
467 名前：デフォルトの名無しさん [2012/04/17(火) 19:11:42.06 ]: 少なくとも二つ以上の Infobox に現れる属性は全体の 3 割程度（8,612 個）であるが，その
ような属性の共通性に基づく Infobox 間の関係性を示したのが図 3 である．二つの Infobox
間に共通属性があれば，Infobox 間につながりがあるとみなす．つながりの重みは Jaccard
係数で求め，図では上位 10,000 本のエッジを示している．ネットワーク図は Cytoscapeを
用いて，ばねモデルで描画している．図から，類似した Infobox がクラスターを形成して
いることがわかる．つまり概念的に類似した Infobox は共通属性を多く持つことを示している．
www-kasm.nii.ac.jp/papers/takeda/11/hamasaki11gnsw.pdf
468 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 23:38:10.55 ]: CKY法で構文解析するブログラムをつくっています。簡単な文法はできたので、英語に挑戦しようとネットで文法探したけど、バークレイ大？の確率文脈自由文法しか見つからず頓挫しています。とりあえず解析ができれば良いので、手頃な文法があれば教えてください。
469 名前：デフォルトの名無しさん [2012/04/28(土) 19:50:45.94 ]: ドラエモンをドラエモン絵描き歌でスクリプト化するように、この世の全ての物体をスクリプト化できたらいいなと思う。
470 名前：デフォルトの名無しさん [2012/04/28(土) 20:00:04.16 ]: 「ドラエモン」は未来のロボットとして描かれた架空のアニメキャラクターであるが、
後に「ドラエモン絵描き歌」が考案され、誰もがドラエモンを描くことができるようになった。
471 名前：デフォルトの名無しさん mailto:sage [2012/04/28(土) 20:32:42.49 ]: あの絵描き歌は偉大だったな
当時いろいろアニメの絵描き歌があったけど、実際に描けたのはドラえもんだけだった
ポイントは歌よりもキャラ造形なのだろうけど
472 名前：デフォルトの名無しさん [2012/05/02(水) 17:33:06.58 ]: 4.3 語末一致検索
日本語の複合語はほとんどの場合、意味や品詞を決定する用語が語末に、修飾する用語が前
方にくる．この性質に着目して語末が同じ用語を取り出すと同じ意味の用語が集められ、狭義
語を集めたのと同じような効果を持たせることができる．
例えば「トンボ」をキーにして検索すると、語末が一致として下記の用語が表示される．
　狭義語　　「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
　ノイズ　　「竹トンボ」「尻切れトンボ」「極楽トンボ」
　漏れ　　　「オニヤンマ」「ギンヤンマ」
　　「トンボ」という言葉を比ゆ的に用いている場合にノイズになる．
www.gengokk.co.jp/the_gengo_NLP.pdf
473 名前：デフォルトの名無しさん [2012/05/02(水) 17:37:24.14 ]: 自然言語処理教科書　コンピュータサイエンスの注目分野を概観！
Ｉ／Ｏ　ＢＯＯＫＳ
赤間世紀／著　第二Ｉ　Ｏ編集部／編集
出版社名：工学社
出版年月： 2012年1月
ISBNコード： 978-4-7775-1658-2
(4-7775-1658-X)
税込価格： 2,415円
頁数・縦：１５９Ｐ　２１ｃｍ
出荷の目安：通常１～２日で出荷します
(GW期間の出荷/配送について)
www.e-hon.ne.jp/bec/SA/Detail?refShinCode=0100000000000032700426&Action_id=121&Sza_id=C0
474 名前：デフォルトの名無しさん [2012/05/03(木) 20:01:32.44 ]: <Sale>中国語版の書籍<文系・理系・ＩＴの諸分野>(格安)
ttp://lang-8.com/194279/journals/1457398/
475 名前：デフォルトの名無しさん mailto:sage [2012/05/06(日) 13:08:10.70 ]: 結局自然に処理するにはどうすればいいの？
476 名前：デフォルトの名無しさん mailto:sage [2012/05/06(日) 15:50:03.94 ]: 自然を処理するんだよ
477 名前：デフォルトの名無しさん [2012/05/18(金) 18:08:51.24 ]: www.ibm.com/developerworks/forums/thread.jspa?messageID=14818331

＞スーパーコンピュータで百万冊の書籍を統計分析

２チャンネラー百万人を動員して、それらの一文一文を人力で解析するというやり方も考えられる。
修飾語についても、何が何をどのように修飾しているのかを分析する。

小学校で「ことばのきまり」を学んでおれば、誰でも簡単にできるはずだ。
478 名前：デフォルトの名無しさん mailto:sage [2012/05/19(土) 02:09:33.10 ]: それが正しいかどうかの判定はどうするの？
479 名前：デフォルトの名無しさん mailto:sage [2012/05/19(土) 02:58:58.51 ]: 2ちゃんねるで「日本語でおk」と言われちゃう奴が
毎日幾人も現れるようなこの世の中で...
480 名前：デフォルトの名無しさん [2012/05/19(土) 07:53:25.24 ]: >>478
「ことばのきまり」を小中学校で学んでおれば、百点満点中で７０点くらいは取れるはず。
481 名前：デフォルトの名無しさん mailto:sage [2012/05/19(土) 08:00:06.16 ]: デジタルヘルス 1 (デジタルヘルスシリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/3/25)
新品: ￥ 31,500
4 中古品￥ 30,173より
デジタルヘルス 2――いざ新産業創出へ医療・健康・介護が変わる (デジタルヘルスシリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/11/22)
新品: ￥ 31,500
www.tsutaya.co.jp/works/41011503.html
482 名前：デフォルトの名無しさん mailto:sage [2012/05/19(土) 08:11:50.98 ]: ２チャンネラーって本当は何人？
483 名前：デフォルトの名無しさん mailto:sage [2012/05/19(土) 09:35:46.94 ]: そんなどうでもいいことで２ちゃんねらー百万人が動員できるわけないだろ
現実を見ろ
484 名前：デフォルトの名無しさん [2012/05/19(土) 20:33:48.82 ]: 文を形態素解析器にかけ、品詞によりノード作成
例：水は水素と酸素の化合物である。
↓
水は/水素と/酸素の/化合物である
↓
文節の自立語(名詞・形容詞・形容動詞)をノードにする
(動詞については、リンキングワードとする)
133.41.33.194/nagi/cmm/ppt/cmapmaker.ppt

RDF：意味記述ができる
? データの意味を記述する方法は提供している．
? 統一した意味モデル
? 意味モデルに準拠してアプリケーションが処理す
ること，各アプリケーションが「同一のRDFは
同一の意味を持つこと」を認識できる．
www.jaist.ac.jp/~hideaki/class/K225/pdf/11K225-14.pdf

意味ネットワークとは本質的には概念間の2項
関係の集合である
1. 動物は生物である is-a(動物、生物)
2. 動物は動く property(動物、動く)
3. 動物は呼吸する property(動物、呼吸する)
4. 犬は動物である is-a(犬、動物)
5. 犬の性格は人なつこい characteristic-of(犬、人なつこい)
www.nm.cs.uec.ac.jp/assets/files/JinkouChinouRon/ai02.pdf
485 名前：デフォルトの名無しさん mailto:sage [2012/05/20(日) 00:09:15.81 ]: セマンティックウェブ（笑）
もう残念でしたとか言いようがないだろ
486 名前：デフォルトの名無しさん mailto:sage [2012/05/20(日) 08:48:14.02 ]: なんでもかんでも残念って決めつける人って、残念だよねw
487 名前：デフォルトの名無しさん mailto:sage [2012/05/20(日) 17:42:49.42 ]: RDFは筋が悪い。もう結論は出ている。
少なくとも自然言語を相手にするには決定的にダメ。
488 名前：デフォルトの名無しさん mailto:sage [2012/05/20(日) 21:11:18.03 ]: >>486
セマンティックウェブという1例しか出していないのに
「なんでもかんでも残念って決めつける人」と決めつける残念な人だったか
489 名前：デフォルトの名無しさん [2012/05/21(月) 15:57:53.43 ]: >>487
>少なくとも自然言語を相手にするには決定的にダメ。

２ちゃんねらー百万人では、まだ足りないのか？

ツイッターとフェイスブックを合わせて５００万ではどうだ？
490 名前：デフォルトの名無しさん mailto:sage [2012/05/21(月) 16:20:30.83 ]: 突然コーパスの話にすり替える>>489の負け犬っぷりw
491 名前：デフォルトの名無しさん mailto:sage [2012/05/21(月) 16:50:19.57 ]: そして>>489の冗談を真に受ける馬鹿っぷりｗｗ
492 名前：デフォルトの名無しさん mailto:sage [2012/05/21(月) 18:32:02.11 ]: 冗談？>>489のどこが面白いの？
493 名前：デフォルトの名無しさん mailto:sage [2012/05/21(月) 19:11:28.79 ]: 話変わるけど皆さん大学で体系的に言語処理を学んだ感じですか？
独学でヒッソリみたいな人はいないのだろうか
494 名前：デフォルトの名無しさん mailto:sage [2012/05/21(月) 20:37:00.75 ]: >>492
怒りでチンコが勃起してるのか？
495 名前：デフォルトの名無しさん mailto:sage [2012/05/21(月) 20:50:36.09 ]: >>494
消えろこの知能障害！
496 名前：デフォルトの名無しさん mailto:sage [2012/05/22(火) 11:00:02.74 ]: まぁ、>489は面白くないんだけどね。
497 名前：デフォルトの名無しさん mailto:sage [2012/05/22(火) 14:42:03.65 ]: あれ、もしかして、地球人全員動員すれば可能じゃね？
498 名前：デフォルトの名無しさん mailto:sage [2012/05/22(火) 22:14:07.87 ]: >>493
自然言語処理は、通り一遍のこと以上を教えられる先生はまだそんなに多くないので、
それ専門にやってる先生がいない大学のレベルなら、独学でもいけるように思う。
499 名前：デフォルトの名無しさん mailto:sage [2012/05/23(水) 23:15:29.50 ]: 最近は機械学習とn-gramだけ分かればいいからな
500 名前：デフォルトの名無しさん mailto:sage [2012/05/24(木) 08:23:36.97 ]: >>499
自然言語処理が専門だけど、n-gramとか難しすぎてさっぱりだよ。
501 名前：デフォルトの名無しさん [2012/05/24(木) 15:04:22.30 ]: ＞例：水は水素と酸素の化合物である。

例えば「水」「氷」「水蒸気」については、「凍る」「溶ける」「蒸発する」「気化する」など、
様々な動詞を挟んでRFDデータベースが作成される。「凍る」と「溶ける」は反対語、
「蒸発する」と「気化する」は類義語であるが、「蒸発する」は「人間が行方不明になる」の意味もある。
けれども人間は蒸発はしても気化はしない。RFDデータベースにより、類義語の微妙な違いを理解させる。
「同一ではないが類似」について、共通点と相違点を、RFDデータベースにより明らかにしていきたい。

「たけし」と「たけし軍団」は違うけれど、「イェニチェリ」と「イェニチェリ軍団」は同じであることが分からないといけません。
www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf

これもRDFデータベースが充実していれば、「たけし」と「たけし軍団」ではRDFデータベースは全く違うが、
「イェニチェリ」と「イェニチェリ軍団」は似たようなRFDデータベース関係となることが理解されよう。
更に言えば百万冊の書籍について一文一文、いつ何処で誰が何をしたか、あるいは何が何にどうしたかを、
２チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
502 名前：デフォルトの名無しさん mailto:sage [2012/05/24(木) 20:10:56.93 ]: 言語観がナイーブすぎ
503 名前：デフォルトの名無しさん mailto:sage [2012/05/25(金) 07:33:54.44 ]: >２チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
この一文だけで妄言だと分かる
504 名前：デフォルトの名無しさん mailto:sage [2012/05/25(金) 20:26:58.58 ]: >>420
> ご利用いただきまして、ありがとうございます。
> また、こちらからの返信が遅れましたことをお詫び申し上げます。
>
> お問い合わせの件でございますが、担当者より下記の回答がございましたので、ご
> 確認いただけますようお願いいたします。
>
>
> 膨大なテキストデータの圧縮にVF符号化を使うと、データの符号化・復号化のための
> オーバーヘッドが発生するため、高速で質問応答の計算を行う状況では、こういっ
> た手法は用いないのが一般的です。
> このため十分なディスク容量と、インメモリで解答を計算できるような大容量メモ
> リを搭載したシステムを利用します。
505 名前：デフォルトの名無しさん mailto:sage [2012/05/26(土) 22:08:43.24 ]: >>500
俺の知ってるn-gramは学部生で分からなかったら
アホレベルだと思うんだけどなぁ

専門の奴でも難しく感じるくらいの
n-gramが他にあるのか？
506 名前：デフォルトの名無しさん mailto:sage [2012/05/27(日) 10:47:17.10 ]: むしろ簡単すぎ、役に立たな過ぎで
逆にわからないと感じてしまうとか
507 名前：デフォルトの名無しさん mailto:sage [2012/05/27(日) 16:37:26.17 ]: 自然言語処理でN-gram以上に役立つものなんて存在しないだろ
508 名前：デフォルトの名無しさん mailto:sage [2012/05/28(月) 20:50:41.16 ]: 最初にオライリーの自然言語処理入門買ったけど選択ミスだった
妙に分厚いのでなんでも網羅してるだろうと思ったら大間違い
何ら本質的な事は書いてなくて、ツールの使い方がダラダラ続くだけ
その後確率的言語モデル系の本に出会ってようやく言語処理の取っ掛かりが掴めた
509 名前：デフォルトの名無しさん mailto:sage [2012/05/29(火) 15:29:23.97 ]: 折角だからその役に立った本をステマしてってよ。
510 名前：デフォルトの名無しさん mailto:sage [2012/05/29(火) 16:14:22.27 ]: 確率的言語モデルでググってみたら？
511 名前：デフォルトの名無しさん mailto:sage [2012/05/29(火) 17:10:35.24 ]: テキストマイニングみたいなものではなく
係り受け解析や述語項構造解析をがんばってほしい
512 名前：デフォルトの名無しさん mailto:sage [2012/06/02(土) 05:48:26.55 ]: >>505
n-gramはただ出現数を数えただけでもSVMに放り込むか検索のキーに使うかって感じでもちろん使えます。
でも、文の出現確率をうまく近似するためのスムージングとか、巨大なn-gramモデルを扱うためのデータ構造やらプルーニングやらで、面倒で奥深く最近もまだ研究が続いているのですよ。

とは言え、使うだけならSRILMとかあるので、理解する必要かあるかはやりたいこと次第だけれど。
513 名前：デフォルトの名無しさん mailto:sage [2012/06/06(水) 18:20:56.54 ]: １ヶ月近く前の5/11にお問い合わせ頂いておりました件ですが、
大変申し訳ございません、
弊社内で担当割りがされないままの状態が今になって発覚いたしました。
大変失礼いたしました。

今更で大変恐縮ですが、お問い合わせに対応させて頂けたらと思っております。

＜いただいたお問い合わせ＞
wacom.jp/jp/company/news_detail.php?id=426

＞双方がPCとペンタブレットを使用して同じ教材を閲覧するとともに、手書きで書き
込みをし合うことができるため、

数式についても、インターネットクラウドサービス上で『データ化』してやり取りできるということですか。

数式入力パネルを使用して数式を入力および訂正する
windows.microsoft.com/ja-JP/windows7/Use-Math-Input-Panel-to-write-and-correct-math-equations

数学の入試問題は数式と図形と日本語の混合ですが、ワコムの手書き入力システムは
それにも対応して『デジタル化』できますか。
Windows7に手書き数式入力パネルが用意されているのだから、それと連携するクラウ
ドシステムがあってもよさそうな気がしますが。

（2003年の東大）円周率は3.05より大きいことを証明せよ。
d.hatena.ne.jp/LM-7/20070310/1173504483

例えばこうした証明問題についても、手書きの解答記述を図形も含めてデジタル化できますか。
これは平方根でこれは微分でこれは行列でこれは三角形でこれは円でこれは放物線だ、と。
更に言えば、類似の問題を検索する機能は開発されているのですか。
514 名前：デフォルトの名無しさん mailto:sage [2012/06/06(水) 18:22:08.87 ]: 【要望】
手書きのOCRは誤認識が多いが、原稿用紙のようにマス目を設定したり、あるいは文
脈から誤認識を検出するシステムが求められる。

実験では、文字誤りモデルの有効性を検証するためにOCR 誤り訂正システムを実装し
た。実験の結果、文字正解率 97.2% の高いベースラインに対して 12.5% の認識誤り
を訂正することができた。
www.phontron.com/paper/neubig09nlp.pdf

図形についてもこれは楕円なのか円なのかというのも、解答記述の数式から推測する
アルゴリズムとか。上の証明問題は「円周率」と書いてあるから、関連する曲線図形
も「円」であることは認識できるはず（あるいは楕円や放物線や双曲線を用いて円周
率を証明する方法が考えられるか）。また「閾値」が怪しいようなら、いくつかの選
択候補を提示するとか。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

＜回答＞
仰る通り数式入力パネルを使用してのデジタルでの数式入力は可能（対応アプリが必要）です。
弊社、または現時点での弊社パートナー様のシステムで
クラウド上でデジタル数式をやりとりするといったサービスはございません。
数式のデジタル化は文字認識という意味では可能ですし、通常の文字も文字認識変換は
Windows7（またはVista）の機能で可能です。
ただ、それに「連携」という意味でのクラウドサービスについては分りかねます。
実際に弊社の液晶ペンタブレットの実機をお貸出しして検証いただくことは可能です。

大変恐れ入りますが、差し支えなければ篠田様のご職業を伺ってもよろしいでしょうか？
本件の対応につき、直接お電話などさせていただければ幸いでございます。
もしよろしければご連絡先お電話番号をおしらせいただけますでしょうか。

何卒よろしくお願い申し上げます。
515 名前：デフォルトの名無しさん mailto:sage [2012/06/07(木) 12:14:48.07 ]: NLTKのバージョン2がリリース
NLTK 2 Release Highlights | StreamHacker
streamhacker.com/2012/06/03/nltk-2-release-highlights/

NLTK 2.0.1、別名NLTK 2は、最近リリースされました、
何以下は、私のお気に入りの変更点、新機能、およびからのハイライトであるのChangeLog 。
516 名前：デフォルトの名無しさん mailto:sage [2012/06/07(木) 12:37:23.65 ]: >>515
日本語でOK w

以下は、私が気に入った変更点、新機能、ChangeLogからの抜粋です。

程度の訳でいいのかな。
517 名前：デフォルトの名無しさん mailto:sage [2012/06/07(木) 12:44:43.12 ]: >>516
google翻訳です。
518 名前：デフォルトの名無しさん mailto:sage [2012/06/07(木) 21:06:44.89 ]: >>517
なぜここにgoogle翻訳なんか投げる必要が
519 名前：デフォルトの名無しさん mailto:sage [2012/06/08(金) 07:32:09.58 ]: 自然言語処理スレだから自然言語処理の力を使ったのだろう
「自分の作ったドックフードを食え」
の精神に則ったよい心がけだと思うわ
520 名前：デフォルトの名無しさん mailto:sage [2012/06/16(土) 16:09:52.73 ]: 生成文法ってやつあるけど
自然言語処理と何か関係あったり役立つことありますか？
521 名前：デフォルトの名無しさん mailto:sage [2012/06/16(土) 20:48:49.43 ]: 自然言語処理の基礎としてたいてい生成文法の話はやるけど？
522 名前：デフォルトの名無しさん [2012/06/17(日) 00:29:43.78 ]: やるけど、役に立つのか？
523 名前：デフォルトの名無しさん mailto:sage [2012/06/17(日) 01:50:38.02 ]: 否が応でも勝手に頭にたたき込まれているから問題ない。
というか、文系の言語学の連中より我々の方があれをまともに使っている。
524 名前：デフォルトの名無しさん mailto:sage [2012/06/17(日) 03:44:24.23 ]: 何が「問題ない」で、何が「というか」なんだ？
525 名前：デフォルトの名無しさん mailto:sage [2012/06/17(日) 12:56:59.56 ]: 正直やればわかるとしか言いようがないな
526 名前：デフォルトの名無しさん mailto:sage [2012/06/17(日) 17:19:37.17 ]: >>520
研究として自然言語処理をするなら知っておくとよいかもしれません、という程度です。視野を広げる意味で。
言語学で使われているような生成文法を使ってどうこうする、ということは今のところ無いです。
527 名前：デフォルトの名無しさん mailto:sage [2012/06/17(日) 19:40:38.48 ]: >>525
つまり答えられませんってことだろ
528 名前：デフォルトの名無しさん mailto:sage [2012/06/18(月) 11:53:26.56 ]: そう思うなら好きにしろ。
あとで「そんな便利なものがあったのか」と泣く自由はあるからな。
529 名前：デフォルトの名無しさん [2012/06/21(木) 21:56:17.12 ]: LFGも生成文法？！　これはMicrosoftが
自然言語処理エンジンに使用している。
チョムスキーのは，言語学者の遊び。
530 名前：デフォルトの名無しさん mailto:sage [2012/06/22(金) 08:08:51.20 ]: 違うよ。
チョムスキーの理論を唯一まじめに使っているのは我々だけだということ。
531 名前：デフォルトの名無しさん mailto:sage [2012/06/22(金) 10:41:12.81 ]: 言語学者にいぢめられたバカが必死、なのか？
532 名前：デフォルトの名無しさん mailto:sage [2012/06/22(金) 10:47:23.23 ]: >>531
頭が悪いやつだな。
言語学者の仕事と我々の仕事は違うんだよ。連中は実装しない。
533 名前：デフォルトの名無しさん mailto:sage [2012/06/22(金) 14:39:53.35 ]: 無知なやつだな。
534 名前：デフォルトの名無しさん mailto:sage [2012/06/26(火) 02:07:25.61 ]: >>532
もしかして、HPSGパーザーを作ってる方でしょうか。であれば、生成文法は基礎として必要なのは確かですね。
前に生成文法が自然言語処理に必要ないと言ったのは、別にHPSGを否定したかったのではなく、自然言語処理一般では使わないという意味でした。ただ他には目立った用途がない以上、当面必要ない人にまで勉強するべきとはいえないと思います。
535 名前：デフォルトの名無しさん mailto:sage [2012/06/26(火) 09:23:31.89 ]: hello worldを書くのに必要ないから、プログラミングに数学はいらない、みたいな意見だな。
536 名前：デフォルトの名無しさん mailto:sage [2012/06/26(火) 18:54:27.63 ]: >>535
パーザーはhello world ほど、誰もがかける必要があるプログラムではありませんし、生成文法は数学ほど重要ではないと言う意見です。
537 名前：デフォルトの名無しさん mailto:sage [2012/06/28(木) 10:36:05.94 ]: 荒れたおかげでまともな人も来たようだな

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef