[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 2chのread.cgiへ]
Update time : 06/30 10:02 / Filesize : 148 KB / Number-of Response : 538
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

自然言語処理スレッド その3



1 名前:デフォルトの名無しさん mailto:sage [2009/02/20(金) 20:31:21 ]
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。


前スレ:自然言語処理スレッド その2
pc11.2ch.net/test/read.cgi/tech/1173105287/

次スレは>>980

369 名前:デフォルトの名無しさん mailto:sage [2011/12/29(木) 09:26:16.23 ]
A*もダイクストラもたいしてかわらない。
まずダイクストラで組むんだ。
違いは最短距離を予測するヒューリスティック関数の作り方が難しいだけ。

370 名前:デフォルトの名無しさん mailto:sage [2011/12/29(木) 09:34:58.74 ]
A*よりもそれを適用するためのかな仮名漢字変換用データの収集・選択が難しいだろ。

371 名前:デフォルトの名無しさん [2011/12/31(土) 00:23:59.89 ]
361です。皆様、解説ありがとうございます。
まだ、全部に目を通せていない&実装できる環境にしばらく行けないのですが
参考にまた、勉強してみようと思います。


372 名前:デフォルトの名無しさん [2011/12/31(土) 04:01:16.07 ]
>>365
ありがと。

373 名前:片山博文MZ ◆0lBZNi.Q7evd [2011/12/31(土) 15:55:06.49 ]
自然言語処理を1から勉強したいです。
いい本とかサイトとかあったら教えてください。

374 名前:デフォルトの名無しさん mailto:sage [2011/12/31(土) 15:59:45.49 ]
>>373
大学に行きなよ。

375 名前:デフォルトの名無しさん mailto:sage [2011/12/31(土) 17:18:13.41 ]
>>373
ネットで探してみなよ
私は大卒じゃないけれど、何とか勉強していけそう
あなたも興味があるなら、頑張って

376 名前:デフォルトの名無しさん mailto:sage [2011/12/31(土) 18:38:43.43 ]
>>375
最初はいいんだけど、おそらくある程度のところになると大学で学ばないときつい
特に、プロの実践の場での使用となると・・・


377 名前:デフォルトの名無しさん mailto:sage [2011/12/31(土) 20:04:49.39 ]
>>373
とりあえず、「入門自然言語処理」を読んで、自然言語処理の勉強会にいけ。TokyoNLPとか、DSIRNLPとか。



378 名前:デフォルトの名無しさん mailto:sage [2011/12/31(土) 23:02:14.64 ]
赤ちゃんプレイでしたら申し訳ございません。

379 名前:デフォルトの名無しさん [2012/01/01(日) 02:03:48.30 ]
勉強会はありがたいですよねー。
詰まったときは、聞くことも出来るしさ
大学行くか、独学か…お好きな方を
どちらにしても、目標あるって良いよね ;)

380 名前:片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2012/01/01(日) 13:26:45.84 ]
>>374-379 皆さんありがとうございます。

381 名前:デフォルトの名無しさん [2012/01/02(月) 12:24:14.38 ]
>>376
大学がじゃないと厳しいと思えるのは何ですか?
何か一つでもあげてもらえば参考になります


382 名前:デフォルトの名無しさん mailto:sage [2012/01/02(月) 18:20:05.70 ]
>>381
最終的に何がしたいかにもよるけど、基礎をやろうとすると独学や企業では難しいかもしれない。
言語学よりな話とか、論文の読み方、研究の仕方、とかね。機械学習とかはよほどマニアックな話でなければ企業でもやれるんでないの。

あと、独学だとモチベーションの保ちかたとか趣味レベルを超えた時の目標とか難しそう。

383 名前:片山博文MZ!omikuji ◆0lBZNi.Q7evd mailto:sage [2012/01/03(火) 14:14:10.89 ]
何でみんなUnicodeを使わないの? Lispで使えなかったから?

384 名前:デフォルトの名無しさん mailto:sage [2012/01/03(火) 14:31:34.94 ]
どう考えても企業の方が上だろ。
アメリカのようにビジネス、実践を重視して、即戦力になる大学なら別だが。
日本の大学は、ちょっと知識がある程度になるだけ。
即戦力、リーダーなどに抜擢されたりしない。

385 名前:デフォルトの名無しさん mailto:sage [2012/01/04(水) 05:50:25.78 ]
社会人厨は巣に帰れよ。

だいたいの日本の企業はアメリカのように先端の研究をしない。
ほとんどの企業は世界と競争できる研究なんて全くしてない。

386 名前:デフォルトの名無しさん mailto:sage [2012/01/04(水) 15:09:13.18 ]
ジャストシステムとか
富士通とか
NTT系のどっか

387 名前:デフォルトの名無しさん mailto:sage [2012/01/04(水) 15:12:49.33 ]
日本企業が世界で戦えないレベルとしたらいまごろ外資に占領されてるだろう。



388 名前:デフォルトの名無しさん mailto:sage [2012/01/04(水) 23:21:15.36 ]
今自然言語の練習でニュースサイトの分類などしようと思っているのですが、この場合、クラスタリング、分類器などどんなものを使うのが一番いいのでしょうか?
ニューラルネットワークが一番いいのかもしれませんが良く分かりません
例えば、「野田総理が辞任しました」のような記事を同類にまとめるとか、スポーツ記事の中でもサッカーや野球にわけるとかです
SVMはナイーブベイズよりも精度が高いようですが、ある程度の記事数になると処理の重さなどにより逆にナイーブベイズの方が有利とかあるようです
自分はSVMがカーネルの所がまだハッキリと理解できないでいるのですが

今日R言語でのテキストマイニングの本を読んでみたのですが、なんとユークリッドで分けていました
ユークリッドで大丈夫なのかなとか思ったのですが、上記の場合どのようなアルゴリズムを使用するのが一般的には有利なのでしょうか?
実装や環境にもよるとは思うのですが、一応アドバイス頂けたらと思います
自分の名前も知らないアルゴリズムが最適だったりするかもしれないと思いまして


389 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 01:25:30.73 ]
>>388
内容からすると、分類よりもクラスタリングがしたいようなので、まずはk-meansから試してみるとよいのでは。

390 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 09:23:03.37 ]
>>388
アルゴリズムは主に速度を向上させるだけ。分類するための基準づくりが重要。
まったく違う物を同一と判定したらどんなアルゴリズムでも分類できない。

391 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 09:26:27.86 ]
たとえば類似画像検索で、どれを類似と見なすかを設定すれば
あとは効率悪くても総当たりで比較可能。
アルゴリズムで分類の効率化はできても、どれも同一と見なすかは人間の判断・指定がいる。

392 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 10:18:01.09 ]
自然言語処理を1から勉強したいです。

393 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 18:31:41.25 ]
とりあえず>>390-391は自然言語処理もアルゴリズム論も全くの無知であることはわかった。

394 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 18:48:04.25 ]
潜在意味解析は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、
それらに関連した概念の集合を生成することで、その関係を分析する技術である。
出現行列では、各文書における用語の出現を表した文書-単語マトリクスが使われる。
この行列の各成分の重み付けには tf-idfが用いられることが多い。
この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、単語はその相対的重要性を反映するために強く重み付けされる。
出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。
したがって、用語と文書は概念を介して間接的に関連付けられる。
応用
この新たな概念空間は以下のような場面で利用される。
概念空間での文書の比較(データ・クラスタリング、文書分類、など)
翻訳文書群の基本セットを分析した後、異なる言語間で類似の文書を探す(言語間検索)。
用語間の関係を探す(類義性や多義性)。
用語群によるクエリを与えられたとき、それを概念空間で解釈し、一致する文書群を探す(情報検索)。
潜在意味解析 - Wikipedia


TF-IDFで遊んでみた - uncertain world
d.hatena.ne.jp/rin1024/20090926/1253940572

395 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 18:56:15.79 ]
文書を特徴付ける語の選択が分類精度を決めるから
それがダメだったらどんなに高級なアルゴリズムを使ったとしても正確な分類はできない。
アルゴリズムは主に計算量、速度の差につながる。

396 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:01:24.42 ]
>>369>>370と似通っているが、言語処理はアルゴリズムの優劣だけでは決まらないんだ。
ヒューリスティックな部分、機械的にはできそうにない特徴付けが本質的に重要。

397 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:08:37.45 ]
と言われていた将棋で、非ヒューリスティックが圧倒的に出し抜いた例を見ちゃったからなぁ



398 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:13:49.12 ]
>>397
ありゃでかい突破だよなあ。
言語学主流派のグランドセオリーからすりゃ、同じように機械的にいけるはずなんだよねえ。

399 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:14:29.85 ]
ボナンザは特徴の重みを機械的に決定したのであって、特徴抽出は手動だぞ。

400 名前:デフォルトの名無しさん mailto:sage [2012/01/05(木) 19:18:02.14 ]

ボナンザは元にした6万局の棋譜データから、評価関数のパラメータを自動生成している。
ただし、パラメータは自動生成だが、何を評価するかは保木自身が決めている。
棋譜からパラメータを自動生成することで、開発者の主観を排除した評価関数は強みでもあるが、同時に弱みでもある。
当初、Bonanzaは序盤で大駒を切ることが多かったが、これは大駒の点数が他のソフトに比べて低く設定されているためであり、
人間の感覚に反するこの設定は、自動生成に由来するものであった。
Bonanza - Wikipedia

401 名前:デフォルトの名無しさん mailto:sage [2012/01/06(金) 10:28:24.91 ]
Blunder のアルゴリズム

Blunder の評価関数は、以下の項目から成る 6668140個の要素を持つ特徴ベクトルを用いている。
www.computer-shogi.org/wcsc21/appeal/Blunder/Blunder.pdf

402 名前:デフォルトの名無しさん [2012/01/06(金) 23:51:53.36 ]
で?

403 名前:デフォルトの名無しさん mailto:sage [2012/01/07(土) 10:56:57.00 ]
特徴量なんか、とりあえず考えられるだけ全部突っ込めよ。今の学習アルゴリズムは人が一つ一つ作った程度の特徴の数じゃ悪影響なんてまず出ない。それでだめなら特徴選択考えてみればいいだろ。

404 名前:デフォルトの名無しさん mailto:sage [2012/01/07(土) 11:23:26.39 ]
重要な特徴を入力し損なえば失敗だ。
機械学習でもヒューステリックが必要。

405 名前:デフォルトの名無しさん mailto:sage [2012/01/07(土) 11:26:56.69 ]
あと単語・品詞分解がほぼ正確にできたとして、そのあとどうやって学習させるんだ?
文書の種類ごとに、単語の重要度は変化する気はするが。
学習させる方法が難しい。

406 名前:デフォルトの名無しさん [2012/01/18(水) 10:04:55.40 ]
寒中見舞いは、寒さのために相手の健康を気づかうたよりですが、
賀状の返礼や喪中の方への挨拶、賀状をくれた方への欠礼の知らせ
にも適しています。

モノの応用


407 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 01:47:33.04 ]
ドキュメント中に含まれる特定の単語2つの関連性を数値化したいんですが良い方法が思いつきません。
よければアドバイスお願い致します



408 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 02:44:23.16 ]
Tsujii Lab. Enshu3 -- Latent Semantic Analysis (LSA)
www-tsujii.is.s.u-tokyo.ac.jp/enshu3/lsa.htm


目次
www.gifu-nct.ac.jp/elec/deguchi/sotsuron/yoshimura/node1.html


潜在意味解析 - Wikipedia
ja.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E6%84%8F%E5%91%B3%E8%A7%A3%E6%9E%90


pLSA(pLSI)用共起行列の作成 - かがぴーの雑記帳
d.hatena.ne.jp/kagamiuta/20110609/1307550239


うぃとげんしゅたいん: Probabilistic Latent Semantic Analysis : PLSA (Rで実装)
wg-stein.blogspot.com/2009/11/probabilistic-latent-semantic-analysis.html

409 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 04:02:56.10 ]
連続音声認識システムに使用するアルゴリズム
unicorn.ike.tottori-u.ac.jp/murakami/doctor/node6.html


ビタビアルゴリズム
www.yobology.info/text/viterbi/viterbi.htm


簡単なラティス構築とビタビアルゴリズム - Negative/Positive Thinking
d.hatena.ne.jp/jetbead/20111025/1319499732


Khafra - A Phrase-based DP Beam Search Decoder -
www.nlp.mibel.cs.tsukuba.ac.jp/khafra/


ソフトウェア特論 講義資料 グラフ探索,問題解決
www.jsk.t.u-tokyo.ac.jp/~inaba/soft4/soft4-search/soft4-search.html

410 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 04:33:56.81 ]
【PC班】日本語入力ソフトの単語予測アルゴリズムに関する考察 : ブツリブログ
blog.livedoor.jp/eikophys/archives/51880269.html


Python による日本語自然言語処理
nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html


文節をどう区切るか
www4.airnet.ne.jp/koabe/com_inet/im/bunsetsu.html

411 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 05:09:46.05 ]
かな漢字変換システムのしくみ
web.archive.org/web/20040815062904/http://www.tomo.gr.jp/wakaru/1.txt

第3章 コンピュータで文章から単語を取り出す方法 - 長岡技科大 自然言語処理研究室
https://sites.google.com/a/jnlp.org/lab/kajiwara/shu-ji-shao-jie-zi-ran-yan-yu-chu-likotohajime-yan-yewo-juee-hui-huanodekirukonpyuta/di3zhang-konpyutade-wen-zhangkara-dan-yuwo-quri-chusu-fang-fa


ビタビアルゴリズム - Wikipedia
ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0

412 名前:デフォルトの名無しさん mailto:sage [2012/01/26(木) 03:38:46.40 ]

特異値分解 - Wikipedia
ja.wikipedia.org/wiki/%E7%89%B9%E7%95%B0%E5%80%A4%E5%88%86%E8%A7%A3


潜在意味解析 - Wikipedia
ja.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E6%84%8F%E5%91%B3%E8%A7%A3%E6%9E%90

413 名前:デフォルトの名無しさん mailto:sage [2012/01/26(木) 08:34:04.08 ]
このスレはおまえのお勉強ノートじゃねぇんだ

414 名前:デフォルトの名無しさん mailto:sage [2012/01/28(土) 14:13:32.43 ]
平仮名にすると区切るのが難しいと思うけど辞書なしでできる物なのか。



蜂は花の蜜を吸う

はちははなのみつをすう

415 名前:デフォルトの名無しさん mailto:sage [2012/01/28(土) 19:06:44.47 ]
文書の1〜4バイトの出現回数をしらべてどこで区切るかの方法=アルゴリズムが判らん。

416 名前:片山博文MZ ◆0lBZNi.Q7evd [2012/02/05(日) 13:50:34.97 ]
「iPhoneとiPadで動作するスマートな日本語入力システムを2013年までに
Appleに提案せよ。さもなくば日本人の生産性を10%低下させる。」
という脅迫状がJ社に届いた。あなたはJ社の営業部社員である。
あなたならどうする?

417 名前:片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2012/02/05(日) 13:55:41.07 ]
JUST SYSTEMは、iPad用のIMEを開発できるのかなぁ。



418 名前:デフォルトの名無しさん [2012/02/06(月) 10:53:32.79 ]
IDEの間違いじゃないの

419 名前:デフォルトの名無しさん mailto:sage [2012/02/06(月) 10:58:18.63 ]
「かな漢」って言えばいいやん

420 名前:デフォルトの名無しさん [2012/02/06(月) 18:13:38.32 ]
ウェブサイト向け「NRI連想検索(銘柄)」サービスを開始
www.nri.co.jp/news/2008/080321_2.html

>ウェブ上に公開されているリソース情報からキーワードを抽出し、独自のルールをもとに
>上場企業との関連度及びキーワード間の関連度を定義したデータベース(連想辞書)を作成します。

動詞は語尾変化も含めて、助詞や助動詞(「〜である」「〜から」)も全て含めて、
国語辞典コーパスで「VF符号化」することは可能ですか。また「VF符号化」できない
ところは別表記にして、例えば「きゃりーぱみゅぱみゅ」のような過去には無かった
最新のキーワードがあれば、それはそれで別に編集しておくとか。

『VF符号化は、あらかじめ生成した辞書を用いて可変長の文字列を固定長の符号に
置き換えることで圧縮する(図5)。』
it.impressbm.co.jp/e/2012/01/16/4163?page=0%2C2

それからあらゆる分野の電子書籍百万冊を、年代別分野別に「共起語」を調べて統計化すると
いった試みは行われているのですか。例えば「選挙」と「出馬」について、「杉村太蔵は今年、
衆議院選挙に出馬する。」とかで一文ごとに区切って、共起率についての統計数字を算出
することは可能ですか。

『レンマ化とは,基本形(base form)あるいは辞書に載っている語形に,語尾変化している
語をまとめることである.レンマとは,つまり,語尾変化をする部分を除いて,変化をし
ない同じ語幹を持つ語のまとまりを指す.』
『まず,本研究では,共起語のレンジを bigram に限定して論文コーパスと雑誌コーパスの
データを取った.これはすべての語の組み合わせを対象とするため,レンジを広げると計
算が複雑すぎるからである.』
homepage3.nifty.com/yukie-k/publication/23.pdf

421 名前:デフォルトの名無しさん mailto:sage [2012/02/06(月) 19:41:08.38 ]
なにがしたいん

422 名前:デフォルトの名無しさん mailto:sage [2012/02/06(月) 20:17:02.73 ]
ステマだろ

423 名前:デフォルトの名無しさん [2012/02/07(火) 19:39:45.45 ]
動態保存

424 名前:デフォルトの名無しさん [2012/02/08(水) 14:28:18.04 ]
FYI:

日本語入力を支える技術という本を書きました - 射撃しつつ前転
d.hatena.ne.jp/tkng/20120203/1328248554

日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界
www.amazon.co.jp/dp/4774149934



425 名前:デフォルトの名無しさん [2012/02/09(木) 08:34:43.52 ]
ただのステマ

426 名前:デフォルトの名無しさん mailto:sage [2012/02/09(木) 09:21:46.96 ]
嫌儲にカエレ(・A・)

427 名前:デフォルトの名無しさん [2012/02/10(金) 16:15:24.87 ]
単語の重要度は一意的でないな。
たんなる「A」と「血液型はA」ではAの重要度が違う。
これを正しく認識できないものは駄目だな。



428 名前:デフォルトの名無しさん mailto:sage [2012/02/11(土) 22:16:12.81 ]
20周くらい周回遅れの人が来たよ

429 名前:デフォルトの名無しさん mailto:sage [2012/02/13(月) 14:05:23.88 ]
www.ntts.co.jp/products/knowledgeocean/qanda.html

>文章を単語(一般的に)に分割して、品詞情報や読みなどの情報を取得する処理のことです。

それでは格助詞「に」についての、以下のような詳細な分析は可能ですか?

また『大統領に選ばれる』の意味としては,「大統領として(誰かが)選ばれる」,
大統領によって(誰かが)選ばれる」,「大統領が選ぶことができる」の少なくとも3通りの解釈
www.adm.fukuoka-u.ac.jp/fu844/home2/Ronso/Kogaku/T83/T8300_0023.pdf

>Knowledgeoceanでは、単語間の距離(単語の数)を指定して、共起度をカウントしています。

以下のような「主客関係」も考慮した共起度算定も可能ですか?

たとえば、以下の(8)においては「豚」と「人」との階層の違いによって
「豚が人を殺す」のではなく「人が豚を殺す」ことが明らかであるので能格構文を用い
ないが、(9)においてはそのような「有生性原理」が働かないので能格構文によって
主客関係を明示しなければならない。
www.lang.nagoya-u.ac.jp/proj/genbunronshu/22-1/kondo.pdf

また類義語にしても微妙に大きく違っていたりする場合もあるようですが、統計化できますか?

「起きる」と「生じる」
問題が起きるは84件、問題が生じるは63件。
事件が起きるは301件、事件が生じるは1件。
(毎日新聞記事 2003年)
www.ninjal.ac.jp/products-k/syokai/press/07_01/press07_01_2.pdf

430 名前:デフォルトの名無しさん mailto:sage [2012/02/13(月) 14:15:22.82 ]
NTTソフトウェア 猪尾(いお)です。
お世話になっております。

このたびはお問い合わせいただきまして、ありがとうございました。

下記質問について確認いたしましたが、
弊社テキストマイニング製品(Knowledgeocean:ナレッジオーシャン)では、
簡易な共起抽出機能しかありませんので、
下記質問していただいた分析をできる機能がありません。

申し訳ございませんが、
よろしくお願いいたします。

431 名前:片山博文MZ ◆0lBZNi.Q7evd mailto:sage [2012/02/13(月) 15:54:59.12 ]
IME作れって言われても。専門外だもんなぁ。。。

432 名前:デフォルトの名無しさん mailto:sage [2012/02/17(金) 18:07:56.86 ]
スーパーコンピュータを使って、百万冊の書籍を、文節単位に区切って、それら全ての共起関係を調べられないだろうか。

シソーラスやオントロジーがあると話しましたが、実はそれを作ること自体が大変なのです。
世の中には無数の単語があります。1万〜 2万ではなく、100万以上の単語がありますし、
フレーズの意味的関係も考えなくてはいけません。
フレーズまで考えだすと、恐らく億単位では収まらないくらいの表現があると思います。
www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf

また共起関係と一口に言っても、どちらが主格でどちらが目的格になるのかについての統計も必要。
例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。


433 名前:デフォルトの名無しさん mailto:sage [2012/02/17(金) 18:42:44.10 ]
>例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
窮鼠猫を咬むの喩えでも判るように、有り得ないとは限らないから困る。
実際、ヌーなどの大型の草食動物は(撃退するために)ライオンを襲う。

434 名前:デフォルトの名無しさん mailto:sage [2012/02/17(金) 19:18:59.30 ]
>>432
「ウサギはライオンに襲い掛かった」もありえることを>>432自体が証明している。

435 名前:デフォルトの名無しさん [2012/02/18(土) 08:33:22.85 ]
>>434
>>433
千に一つ万に一つの稀有な例は除外ということで良いと思う。

とりあえず「ウサギ」と「ライオン」の関係についての、一般的な共起データベースを作っておきたい。

436 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 08:44:53.11 ]
自然言語処理では、千に一つとか万に一つぐらいなら、
「いつも起こる」と同義なぐらい高い確率ですよ。

437 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 09:32:26.35 ]
ところで本当にライオンは「ウサギ」を狩ることがあるんでしょうかね。



438 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 10:23:20.84 ]
「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。

「太陽が雲に隠れる」はあっても、「雲が太陽に隠れる」はありえない。
「机の上にリンゴを置く」はあっても、「リンゴの上に机を置く」はありえない。
「壁に貼られたチラシ」はあっても、「チラシに貼られた壁」はありえない。

共起関係と一口に言っても、動詞を介した主格と目的格についての区別ができたら良いと思う。
主格・目的格・動詞の三角関係を明らかにした共起データベースが見たい。

439 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 10:34:07.39 ]
>>438
あなたの言う「あり得ない」は、自然言語処理では十分にあり得る話ばかり。
せいぜい「十分なコーパスがあれば統計的に有意な差が出るだろう」程度です。

440 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 10:35:11.41 ]
>>438
形式概念分析(Formal Concept Analyze, FCA)でググると、ヒントが見つけられるよ

441 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 10:39:48.36 ]
>>438
頭の中で考えればそうかもしれないが、実際のデータは別だよ。
極端に言えば 「意図的に作られた情報」 として「あり得ないと考えたケース」が
登場するかもしれない。やると分かるが、それほど千差万別なので難しい。

442 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 11:00:21.35 ]
お、情報処理学会誌の特集が「不自然言語処理」だ

443 名前:デフォルトの名無しさん [2012/02/18(土) 12:43:10.17 ]
>>438
>「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。

下剤入りの正露丸
お昼のモーニングショー

イルカのわき毛
しっぽの無いヘビ
カバのかば焼き

夜中になると 台所を這い回る タワシ
ミミズの骨折
カエルのクロール
アジの開き直り

七三にわけた オシリ
脱毛に悩む毛虫

毛の生えたミートボール
つぶつぶ入りマムシドリンク

あったら怖い あったら怖い
三三七拍子を打つ心臓

この世にそんな恐ろしいものが あったら怖いよ
あったら怖い あったら怖い あったら怖いセレナーデ

あったらコワイセレナーデ 嘉門達夫:作
www.geocities.co.jp/MusicHall/6654/attarakowai.htm

444 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 12:53:32.51 ]
>>438
>「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。

例えば「食べた」という動詞に関する文がたくさんあります。
「せんべいとケーキを食べた」は「両方食べた」という意味なので、「ケーキ」にかかります。
「先生とケーキを食べた」は、「一緒に食べた」ことになります。
「クッキーとケーキを食べた」なら両方食べたという意味になります。
www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf

「形式概念分析」は、今後ますます進化すると思う。

445 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 13:42:00.00 ]
白い恋人とケーキを食べた

446 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 14:51:51.64 ]
>>444
「先生とケーキを食べた」は、
女教師をスイーツに誘った後でホテルにいったんだろ?

447 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 15:03:13.40 ]
鴎の玉子を食べた
固有名詞と一般名詞でだいぶ事情が異なる



448 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 15:30:44.54 ]
>>446
そりは「先生を食べちゃった」という解釈っすか?w

それなら>>445も「(病弱で色白な)恋人と(一緒に)ケーキを食べた」という解釈もできる

これ、単なるダジャレやらヘリクツという意味で終わらず、
「自然言語処理における暗喩(あんゆ)の解釈」という難しい問題を提起することになるね


449 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 18:25:21.80 ]
>>448
そういうこと。
自由文には隠喩とか皮肉とか、単なる述語論理や係り受け構造では掬い取れない要素がいっぱいだよな。
それを分析できないというのは構わない。
しかし、ある手法を提案する時に隠喩や皮肉が無いことを前提にした手法というのは、
自然言語処理の技術としては、ちょっと不味い。

450 名前:デフォルトの名無しさん mailto:sage [2012/02/18(土) 22:23:35.22 ]
最近この手の話題が増えたよね。サービス品質、正誤は問われないのだろうか?

【話題/IT】ネットのつぶやきを解析、電車の遅れ速報--東芝が新サービス [02/18]
anago.2ch.net/test/read.cgi/bizplus/1329566810/

運行情報サービスのイメージ。遅れや運休があると判断した路線名に
「!」が付き、「つぶやき」の内容も確認できる
ttp://www.asahi.com/digital/internet/images/TKY201202180142.jpg
ttp://www.asahi.com/digital/internet/TKY201202180141.html

451 名前:デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:34:10.52 ]
人間が一番安価なセンサー
問題はノイズ除去

2ちゃんねるやツイッターからノイズが除去出来れば

452 名前:デフォルトの名無しさん mailto:sage [2012/02/19(日) 03:28:38.20 ]
>>451
なにも残らなかったり

453 名前:デフォルトの名無しさん mailto:sage [2012/02/19(日) 09:18:51.64 ]
ゴミ情報を紛れ込ませることに喜びを感じるバカが必ず出てくるから、それをどう排除するか、だね。

古くからある手法としては、そもそも参加者を限定する(サロン、アカデミア、ギルド等)とか、
出来ては消える新しいネット利用メディアのように、バカが集まるまでの時間を利用して、
焼畑農業的にやる、という方法(金と手間はかからないが、心が折れる人間が一定数出る、
という人材焼畑という側面がある)、
2ちゃんねるのようにある程度の規模にできれば、良情報の絶対数がそれなりに
あるんだからいいじゃん、と開き直る、etc

454 名前:デフォルトの名無しさん mailto:sage [2012/02/19(日) 09:34:35.70 ]
>>453
最近知ったんだけど、Amazon のレビューも、「Amazon Vine 先取りプログラム」 という招待制が導入された
みたいだ。詳細は次の解説のとおり。これも評判の質を向上させようという試みなのだろうね。

> ttp://www.amazon.co.jp/gp/vine/help
> Amazon Vine 先取りプログラム?(以下、「本プログラム」)とは、お客様に予約商品や新商品のサンプルを
> ご利用いただき、ご意見やご感想をカスタマーレビューとして投稿いただく、招待制プログラムです。
> 本プログラムのメンバーとなるお客様は、他のお客様の役に立つ率直なカスタマーレビューを投稿している
> 実績があります。Amazon.co.jpでは、各仕入先から提供されたサンプルを、メンバーに無料でお送りします。
> 投稿されたレビューは、レビューガイドラインに違反している場合を除き、修正、編集されません。そのため、
> メンバーは商品に対する意見を自由に書くことができます。

455 名前:デフォルトの名無しさん [2012/02/20(月) 09:58:41.32 ]
とりあえず「子なし女性」についての、一般的な共起データベースを作っておきたい。

456 名前:デフォルトの名無しさん [2012/02/21(火) 02:17:39.73 ]
>>451
それ自体はもう既に2ちゃんネラーがノイズ元になってることがはっきりしてるから、
2ちゃん用語を元に元から除去すればノイズがなくなることは実証実験済みだな。

457 名前:デフォルトの名無しさん mailto:sage [2012/02/21(火) 04:54:13.97 ]
そして2ちゃんには元々信号なんてなかったことが実証される。



458 名前:片山博文MZ ◆0lBZNi.Q7evd [2012/02/23(木) 11:29:08.96 ]
social-ime.imeのソースはどこにあるんだ?

459 名前:デフォルトの名無しさん mailto:sage [2012/02/23(木) 11:38:31.75 ]
問題はノイズを発生させる馬鹿じゃなくて
情報の品質を確認しない馬鹿をどう取り扱うかだ

天気予報を100%うのみにする馬鹿は冷たい雨に打たれるがよい

460 名前:デフォルトの名無しさん mailto:sage [2012/02/26(日) 03:07:09.03 ]
ベイジアンフィルタでスレをフィルタできる2chブラウザはある。

461 名前:デフォルトの名無しさん mailto:sage [2012/03/09(金) 00:26:44.91 ]
語彙概念構造の仕様ってどっかに無い?

462 名前:デフォルトの名無しさん mailto:sage [2012/03/12(月) 12:47:39.86 ]
>>460
ニュース速報のスレを話題のジャンルごとにカテゴライズしてある
アンテナ・まとめサイトを作ればアフィリエイトでウハウハだなと、
スレタイ偽装スレも含めて95%くらいの精度で振り分けるところまで作ったものの
例の件で無かったことにしたのを今思い出したぞこの野郎

463 名前:デフォルトの名無しさん [2012/04/13(金) 14:33:34.33 ]
■多様な表現から主語・目的語等を判別する述語項構造解析技術
「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な正解データ
から自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、述語に対する
主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定することができます。
この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。

■国内最大級のシソーラス「日本語語彙大系」等の言語資源
高度な言語解析に必要な様々な言語データベースを独自に構築し、研究に活用しています。それらの一部は
「日本語語彙大系」、「日本語の語彙特性」、「基本語データベース」などの書籍として出版しています。

www.kecl.ntt.co.jp/rps/research/innovative/research_innovative04.html

464 名前:デフォルトの名無しさん [2012/04/14(土) 08:46:19.73 ]
 「する」の例で考えると,「トランプをする」「調査をする」のヲ格の意味は,「す
る」の具体的な内容であり,「彼を叩く」「ケーキを食べる」のようなヲ格とは異
なる。一方で,フィルモア(1975)に「判断,想像のような心理事象の内容」が
対象格にあることを考えると,このような「動作の内容」が対象格の範疇であっ
ても整合性がないわけではない。ところが,「青い目をしている」のヲ格は意味
を抽出することが難しい。動作の内容でも,動作の対象でもなく,このヲ格名詞
句は動詞に対して対等な要素として存在するとは考えられない。あえて言うなら
ば,「述語の表す状態の具体的内容」である。この他に「問題とする」「医者にす
る」のト格,ニ格は事柄の認定の目標,変化の結果を表すので,目標格とした。「頭
痛がする」のガ格は動作の表す具体的な内容とすれば対象格となる。ただし,こ
こで断っておきたいのは,これらを既存の意味格の中に位置づけようとすると些
かはみ出す形となり,特異な存在であることが浮き彫りにされることである。こ
れが「する」という動詞の特質でもある。
libir.soka.ac.jp/dspace/bitstream/10911/3244/1/nn21-033.pdf

465 名前:デフォルトの名無しさん [2012/04/14(土) 09:41:01.59 ]
 2009年7月現在、収容語数は42万語で最多と考えている。
 ボトムアップでの作成により名詞のみでなく動詞、形容詞、形容動詞、副詞、代名詞、
擬態語さらに慣用句までを収容している。時事的な用語の積極採択、地名を除いて固有名詞
は含めない編集方針としている。言葉を探すのを目的とする人間の感覚に沿った分類とした。
色の分類時に、「はでな色」、「暖かい色」とする例が挙げられる。言葉の意味空間は、
1次元ではなく、例えば、「料理」は、材料・地域・調理法の3次元でありこの様に複数の
観点で分類している。「現在」に対する、「明日」、「翌日」、「過去」に対しては、
「翌日」が意味を持つ様に分類作業における揺れを吸収している。
www.issj.net/mm/mm0406/mm0406-3-9s.html

ここではオントロジー技術の動向把握をテストすることを目的とするため、「オントロジー」
と共起する用語の共起関係ネットワークだけを示す (図 4)。図から分かるように、
オントロジーに関連しそうな「セマンティックWeb」や「テキストマイニング」「情報抽出」
などの技術用語、「構築」「検索」などの関連語が関係付けられている。しかし、必ずしも
すぐにその関係の意味を推測できない用語も多く、この図によってオントロジー研究の
全体像が分かったとは言い難い。
sigswo.org/papers/SIG-SWO-A701/SIG-SWO-A701-02.pdf

この候補数は,かな漢字変換の候補選択に比較すれば少ない値であるが,理想的な自動訂正を
目指すならば,提示候補数は1に近いほどよい.したがって,この平均候補数を自動訂正の評価基
準にすることが可能だと言えよう.
今回の実験に用いた格フレーム辞書は,自動抽出した直後では,「が格」が欠落しているものが
ほとんどであった.これは,実際の文章では主語の省略が頻繁に起こるためであると考えられる.ま
た,「が格」に前置される名詞の意味素性は,「人間」,「団体・組織」,「システム」,「プログラム」
がほとんどであった.このことから,「が格」の欠落を自動補正することが可能だと思われる.
dspace.wul.waseda.ac.jp/dspace/bitstream/2065/425/12/Honbun-05_03.pdf

466 名前:デフォルトの名無しさん mailto:sage [2012/04/14(土) 09:49:45.57 ]
あらまし 本稿では,タグの共起と類似画像を利用して,画像に対して有効なタグをユーザに提示するシステムを提
案する.十分にタグ付けされた Web 画像のデータベースから,タグの共起に加えて類似画像の関連語も抽出すること
で,多様で精度の高い関連語をユーザに提示する.また,ユーザが新たに付与したタグを入力のタグに含め,関連語
の再検索を行うことで,さらに新しい関連語を抽出することができる.16002 枚の画像を対象にして,タグの共起の
みを用いる手法,また類似画像のみを用いる手法と比較実験を行った結果,提案手法はより多くの有効な関連語を抽
出できることがわかった.また,これらの有効なタグを入力タグに追加し,関連語の再検索を行うことにより,新た
に有効な関連語を抽出できることも明らかになった.
www.ieice.org/~de/DEWS/DEWS2008/proceedings/files/e10/e10-5.pdf

?Webに関するオープンな標準を開発しているW3Cは、データの意味を記述する為の言語(正確にモデルと構文ですが、
分かり易くする為に言語と言います)として、RDF(Resource Description Framework)を開発しました。
?RDFは、主語と述語と目的語とから構成される意味モデル(トリプル、日本語では「三つ組み」と言います)を有し、意味モ
デルを記述する為の構文と語彙とを規定しています。
(注)トリプルのモデルは、非常に単純な様に思えますが、RDFでは、開集合、閉集合、トリプルを主語又は目的
語とするReification等の複雑なモデルを包含しています。
?RDFで記述された情報は、RDFの意味モデルと一対一に対応する様になっています。
?即ち、RDFで記述された情報の意味を、RDFの仕様に則して、解釈するならば、誰もが同じ意味として把握する事が可能
となります。
s-web.sfc.keio.ac.jp/conference2012/0202-shimizu.pdf

467 名前:デフォルトの名無しさん [2012/04/17(火) 19:11:42.06 ]
少なくとも二つ以上の Infobox に現れる属性は全体の 3 割程度(8,612 個)であるが,その
ような属性の共通性に基づく Infobox 間の関係性を示したのが図 3 である.二つの Infobox
間に共通属性があれば,Infobox 間につながりがあるとみなす.つながりの重みは Jaccard
係数で求め,図では上位 10,000 本のエッジを示している.ネットワーク図は Cytoscapeを
用いて,ばねモデルで描画している.図から,類似した Infobox がクラスターを形成して
いることがわかる.つまり概念的に類似した Infobox は共通属性を多く持つことを示している.
www-kasm.nii.ac.jp/papers/takeda/11/hamasaki11gnsw.pdf



468 名前:デフォルトの名無しさん mailto:sage [2012/04/25(水) 23:38:10.55 ]
CKY法で構文解析するブログラムをつくっています。簡単な文法はできたので、英語に挑戦しようとネットで文法探したけど、バークレイ大?の確率文脈自由文法しか見つからず頓挫しています。とりあえず解析ができれば良いので、手頃な文法があれば教えてください。


469 名前:デフォルトの名無しさん [2012/04/28(土) 19:50:45.94 ]
ドラエモンをドラエモン絵描き歌でスクリプト化するように、この世の全ての物体をスクリプト化できたらいいなと思う。

470 名前:デフォルトの名無しさん [2012/04/28(土) 20:00:04.16 ]
「ドラエモン」は未来のロボットとして描かれた架空のアニメキャラクターであるが、
後に「ドラエモン絵描き歌」が考案され、誰もがドラエモンを描くことができるようになった。

471 名前:デフォルトの名無しさん mailto:sage [2012/04/28(土) 20:32:42.49 ]
あの絵描き歌は偉大だったな
当時いろいろアニメの絵描き歌があったけど、実際に描けたのはドラえもんだけだった
ポイントは歌よりもキャラ造形なのだろうけど

472 名前:デフォルトの名無しさん [2012/05/02(水) 17:33:06.58 ]
4.3 語末一致検索
日本語の複合語はほとんどの場合、意味や品詞を決定する用語が語末に、修飾する用語が前
方にくる.この性質に着目して語末が同じ用語を取り出すと同じ意味の用語が集められ、狭義
語を集めたのと同じような効果を持たせることができる.
例えば「トンボ」をキーにして検索すると、語末が一致として下記の用語が表示される.
 狭義語  「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
 ノイズ  「竹トンボ」「尻切れトンボ」「極楽トンボ」
 漏れ   「オニヤンマ」「ギンヤンマ」
  「トンボ」という言葉を比ゆ的に用いている場合にノイズになる.
www.gengokk.co.jp/the_gengo_NLP.pdf

473 名前:デフォルトの名無しさん [2012/05/02(水) 17:37:24.14 ]
自然言語処理教科書 コンピュータサイエンスの注目分野を概観!
I/O BOOKS
赤間世紀/著 第二I O編集部/編集
出版社名 : 工学社
出版年月 : 2012年1月
ISBNコード : 978-4-7775-1658-2
(4-7775-1658-X)
税込価格 : 2,415円
頁数・縦 : 159P 21cm
出荷の目安 : 通常1〜2日で出荷します
(GW期間の出荷/配送について)
www.e-hon.ne.jp/bec/SA/Detail?refShinCode=0100000000000032700426&Action_id=121&Sza_id=C0

474 名前:デフォルトの名無しさん [2012/05/03(木) 20:01:32.44 ]
<Sale>中国語版の書籍<文系・理系・ITの諸分野>(格安)
ttp://lang-8.com/194279/journals/1457398/

475 名前:デフォルトの名無しさん mailto:sage [2012/05/06(日) 13:08:10.70 ]
結局自然に処理するにはどうすればいいの?

476 名前:デフォルトの名無しさん mailto:sage [2012/05/06(日) 15:50:03.94 ]
自然を処理するんだよ


477 名前:デフォルトの名無しさん [2012/05/18(金) 18:08:51.24 ]
www.ibm.com/developerworks/forums/thread.jspa?messageID=14818331

>スーパーコンピュータで百万冊の書籍を統計分析

2チャンネラー百万人を動員して、それらの一文一文を人力で解析するというやり方も考えられる。
修飾語についても、何が何をどのように修飾しているのかを分析する。

小学校で「ことばのきまり」を学んでおれば、誰でも簡単にできるはずだ。



478 名前:デフォルトの名無しさん mailto:sage [2012/05/19(土) 02:09:33.10 ]
それが正しいかどうかの判定はどうするの?

479 名前:デフォルトの名無しさん mailto:sage [2012/05/19(土) 02:58:58.51 ]
2ちゃんねるで「日本語でおk」と言われちゃう奴が
毎日幾人も現れるようなこの世の中で...

480 名前:デフォルトの名無しさん [2012/05/19(土) 07:53:25.24 ]
>>478
「ことばのきまり」を小中学校で学んでおれば、百点満点中で70点くらいは取れるはず。

481 名前:デフォルトの名無しさん mailto:sage [2012/05/19(土) 08:00:06.16 ]
デジタルヘルス 1 (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/3/25)
新品: ¥ 31,500
4 中古品 ¥ 30,173より
デジタルヘルス 2――いざ新産業創出へ医療・健康・介護が変わる (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/11/22)
新品: ¥ 31,500
www.tsutaya.co.jp/works/41011503.html

482 名前:デフォルトの名無しさん mailto:sage [2012/05/19(土) 08:11:50.98 ]
2チャンネラーって本当は何人?

483 名前:デフォルトの名無しさん mailto:sage [2012/05/19(土) 09:35:46.94 ]
そんなどうでもいいことで2ちゃんねらー百万人が動員できるわけないだろ
現実を見ろ


484 名前:デフォルトの名無しさん [2012/05/19(土) 20:33:48.82 ]
文を形態素解析器にかけ、品詞によりノード作成
例:水は水素と酸素の化合物である。

水は/水素と/酸素の/化合物である

文節の自立語(名詞・形容詞・形容動詞)をノードにする
(動詞については、リンキングワードとする)
133.41.33.194/nagi/cmm/ppt/cmapmaker.ppt

RDF:意味記述ができる
? データの意味を記述する方法は提供している.
? 統一した意味モデル
? 意味モデルに準拠してアプリケーションが処理す
ること,各アプリケーションが「同一のRDFは
同一の意味を持つこと」を認識できる.
www.jaist.ac.jp/~hideaki/class/K225/pdf/11K225-14.pdf

意味ネットワークとは本質的には概念間の2項
関係の集合である
1. 動物は生物である is-a(動物、生物)
2. 動物は動く property(動物、動く)
3. 動物は呼吸する property(動物、呼吸する)
4. 犬は動物である is-a(犬、動物)
5. 犬の性格は人なつこい characteristic-of(犬、人なつこい)
www.nm.cs.uec.ac.jp/assets/files/JinkouChinouRon/ai02.pdf

485 名前:デフォルトの名無しさん mailto:sage [2012/05/20(日) 00:09:15.81 ]
セマンティックウェブ(笑)
もう残念でしたとか言いようがないだろ


486 名前:デフォルトの名無しさん mailto:sage [2012/05/20(日) 08:48:14.02 ]
なんでもかんでも残念って決めつける人って、残念だよねw

487 名前:デフォルトの名無しさん mailto:sage [2012/05/20(日) 17:42:49.42 ]
RDFは筋が悪い。もう結論は出ている。
少なくとも自然言語を相手にするには決定的にダメ。



488 名前:デフォルトの名無しさん mailto:sage [2012/05/20(日) 21:11:18.03 ]
>>486
セマンティックウェブという1例しか出していないのに
「なんでもかんでも残念って決めつける人」と決めつける残念な人だったか

489 名前:デフォルトの名無しさん [2012/05/21(月) 15:57:53.43 ]
>>487
>少なくとも自然言語を相手にするには決定的にダメ。

2ちゃんねらー百万人では、まだ足りないのか?

ツイッターとフェイスブックを合わせて500万ではどうだ?

490 名前:デフォルトの名無しさん mailto:sage [2012/05/21(月) 16:20:30.83 ]
突然コーパスの話にすり替える>>489の負け犬っぷりw


491 名前:デフォルトの名無しさん mailto:sage [2012/05/21(月) 16:50:19.57 ]
そして>>489の冗談を真に受ける馬鹿っぷりww

492 名前:デフォルトの名無しさん mailto:sage [2012/05/21(月) 18:32:02.11 ]
冗談?>>489のどこが面白いの?

493 名前:デフォルトの名無しさん mailto:sage [2012/05/21(月) 19:11:28.79 ]
話変わるけど皆さん大学で体系的に言語処理を学んだ感じですか?
独学でヒッソリみたいな人はいないのだろうか

494 名前:デフォルトの名無しさん mailto:sage [2012/05/21(月) 20:37:00.75 ]
>>492
怒りでチンコが勃起してるのか?

495 名前:デフォルトの名無しさん mailto:sage [2012/05/21(月) 20:50:36.09 ]
>>494
消えろこの知能障害!

496 名前:デフォルトの名無しさん mailto:sage [2012/05/22(火) 11:00:02.74 ]
まぁ、>489は面白くないんだけどね。

497 名前:デフォルトの名無しさん mailto:sage [2012/05/22(火) 14:42:03.65 ]
あれ、もしかして、地球人全員動員すれば可能じゃね?




498 名前:デフォルトの名無しさん mailto:sage [2012/05/22(火) 22:14:07.87 ]
>>493
自然言語処理は、通り一遍のこと以上を教えられる先生はまだそんなに多くないので、
それ専門にやってる先生がいない大学のレベルなら、独学でもいけるように思う。

499 名前:デフォルトの名無しさん mailto:sage [2012/05/23(水) 23:15:29.50 ]
最近は機械学習とn-gramだけ分かればいいからな




500 名前:デフォルトの名無しさん mailto:sage [2012/05/24(木) 08:23:36.97 ]
>>499
自然言語処理が専門だけど、n-gramとか難しすぎてさっぱりだよ。

501 名前:デフォルトの名無しさん [2012/05/24(木) 15:04:22.30 ]
>例:水は水素と酸素の化合物である。

例えば「水」「氷」「水蒸気」については、「凍る」「溶ける」「蒸発する」「気化する」など、
様々な動詞を挟んでRFDデータベースが作成される。「凍る」と「溶ける」は反対語、
「蒸発する」と「気化する」は類義語であるが、「蒸発する」は「人間が行方不明になる」の意味もある。
けれども人間は蒸発はしても気化はしない。RFDデータベースにより、類義語の微妙な違いを理解させる。
「同一ではないが類似」について、共通点と相違点を、RFDデータベースにより明らかにしていきたい。

「たけし」と「たけし軍団」は違うけれど、「イェニチェリ」と「イェニチェリ軍団」は同じであることが分からないといけません。
www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf

これもRDFデータベースが充実していれば、「たけし」と「たけし軍団」ではRDFデータベースは全く違うが、
「イェニチェリ」と「イェニチェリ軍団」は似たようなRFDデータベース関係となることが理解されよう。
更に言えば百万冊の書籍について一文一文、いつ何処で誰が何をしたか、あるいは何が何にどうしたかを、
2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。

502 名前:デフォルトの名無しさん mailto:sage [2012/05/24(木) 20:10:56.93 ]
言語観がナイーブすぎ

503 名前:デフォルトの名無しさん mailto:sage [2012/05/25(金) 07:33:54.44 ]
>2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
この一文だけで妄言だと分かる


504 名前:デフォルトの名無しさん mailto:sage [2012/05/25(金) 20:26:58.58 ]
>>420
> ご利用いただきまして、ありがとうございます。
> また、こちらからの返信が遅れましたことをお詫び申し上げます。
>
> お問い合わせの件でございますが、担当者より下記の回答がございましたので、ご
> 確認いただけますようお願いいたします。
>
>
> 膨大なテキストデータの圧縮にVF符号化を使うと、データの符号化・復号化のための
> オーバーヘッドが発生するため、高速で質問応答の計算を行う状況では、こういっ
> た手法は用いないのが一般的です。
> このため十分なディスク容量と、インメモリで解答を計算できるような大容量メモ
> リを搭載したシステムを利用します。

505 名前:デフォルトの名無しさん mailto:sage [2012/05/26(土) 22:08:43.24 ]
>>500
俺の知ってるn-gramは学部生で分からなかったら
アホレベルだと思うんだけどなぁ

専門の奴でも難しく感じるくらいの
n-gramが他にあるのか?

506 名前:デフォルトの名無しさん mailto:sage [2012/05/27(日) 10:47:17.10 ]
むしろ簡単すぎ、役に立たな過ぎで
逆にわからないと感じてしまうとか

507 名前:デフォルトの名無しさん mailto:sage [2012/05/27(日) 16:37:26.17 ]
自然言語処理でN-gram以上に役立つものなんて存在しないだろ




508 名前:デフォルトの名無しさん mailto:sage [2012/05/28(月) 20:50:41.16 ]
最初にオライリーの自然言語処理入門買ったけど選択ミスだった
妙に分厚いのでなんでも網羅してるだろうと思ったら大間違い
何ら本質的な事は書いてなくて、ツールの使い方がダラダラ続くだけ
その後確率的言語モデル系の本に出会ってようやく言語処理の取っ掛かりが掴めた

509 名前:デフォルトの名無しさん mailto:sage [2012/05/29(火) 15:29:23.97 ]
折角だからその役に立った本をステマしてってよ。

510 名前:デフォルトの名無しさん mailto:sage [2012/05/29(火) 16:14:22.27 ]
確率的言語モデルでググってみたら?

511 名前:デフォルトの名無しさん mailto:sage [2012/05/29(火) 17:10:35.24 ]
テキストマイニングみたいなものではなく
係り受け解析や述語項構造解析をがんばってほしい



512 名前:デフォルトの名無しさん mailto:sage [2012/06/02(土) 05:48:26.55 ]
>>505
n-gramはただ出現数を数えただけでもSVMに放り込むか検索のキーに使うかって感じでもちろん使えます。
でも、文の出現確率をうまく近似するためのスムージングとか、巨大なn-gramモデルを扱うためのデータ構造やらプルーニングやらで、面倒で奥深く最近もまだ研究が続いているのですよ。

とは言え、使うだけならSRILMとかあるので、理解する必要かあるかはやりたいこと次第だけれど。

513 名前:デフォルトの名無しさん mailto:sage [2012/06/06(水) 18:20:56.54 ]
1ヶ月近く前の5/11にお問い合わせ頂いておりました件ですが、
大変申し訳ございません、
弊社内で担当割りがされないままの状態が今になって発覚いたしました。
大変失礼いたしました。

今更で大変恐縮ですが、お問い合わせに対応させて頂けたらと思っております。


<いただいたお問い合わせ>
wacom.jp/jp/company/news_detail.php?id=426

>双方がPCとペンタブレットを使用して同じ教材を閲覧するとともに、手書きで書き
込みをし合うことができるため、

数式についても、インターネットクラウドサービス上で『データ化』してやり取りできるということですか。

数式入力パネルを使用して数式を入力および訂正する
windows.microsoft.com/ja-JP/windows7/Use-Math-Input-Panel-to-write-and-correct-math-equations


数学の入試問題は数式と図形と日本語の混合ですが、ワコムの手書き入力システムは
それにも対応して『デジタル化』できますか。
Windows7に手書き数式入力パネルが用意されているのだから、それと連携するクラウ
ドシステムがあってもよさそうな気がしますが。

(2003年の東大)円周率は3.05より大きいことを証明せよ。
d.hatena.ne.jp/LM-7/20070310/1173504483

例えばこうした証明問題についても、手書きの解答記述を図形も含めてデジタル化できますか。
これは平方根でこれは微分でこれは行列でこれは三角形でこれは円でこれは放物線だ、と。
更に言えば、類似の問題を検索する機能は開発されているのですか。

514 名前:デフォルトの名無しさん mailto:sage [2012/06/06(水) 18:22:08.87 ]
【要望】
手書きのOCRは誤認識が多いが、原稿用紙のようにマス目を設定したり、あるいは文
脈から誤認識を検出するシステムが求められる。

実験では、文字誤りモデルの有効性を検証するためにOCR 誤り訂正システムを実装し
た。実験の結果、文字正解率 97.2% の高いベースラインに対して 12.5% の認識誤り
を訂正することができた。
www.phontron.com/paper/neubig09nlp.pdf

図形についてもこれは楕円なのか円なのかというのも、解答記述の数式から推測する
アルゴリズムとか。上の証明問題は「円周率」と書いてあるから、関連する曲線図形
も「円」であることは認識できるはず(あるいは楕円や放物線や双曲線を用いて円周
率を証明する方法が考えられるか)。また「閾値」が怪しいようなら、いくつかの選
択候補を提示するとか。

========================

<回答>
仰る通り数式入力パネルを使用してのデジタルでの数式入力は可能(対応アプリが必要)です。
弊社、または現時点での弊社パートナー様のシステムで
クラウド上でデジタル数式をやりとりするといったサービスはございません。
数式のデジタル化は文字認識という意味では可能ですし、通常の文字も文字認識変換は
Windows7(またはVista)の機能で可能です。
ただ、それに「連携」という意味でのクラウドサービスについては分りかねます。
実際に弊社の液晶ペンタブレットの実機をお貸出しして検証いただくことは可能です。

大変恐れ入りますが、差し支えなければ篠田様のご職業を伺ってもよろしいでしょうか?
本件の対応につき、直接お電話などさせていただければ幸いでございます。
もしよろしければご連絡先お電話番号をおしらせいただけますでしょうか。

何卒よろしくお願い申し上げます。

515 名前:デフォルトの名無しさん mailto:sage [2012/06/07(木) 12:14:48.07 ]
NLTKのバージョン2がリリース
NLTK 2 Release Highlights | StreamHacker
streamhacker.com/2012/06/03/nltk-2-release-highlights/

NLTK 2.0.1、別名NLTK 2は 、最近リリースされました、
何以下は、私のお気に入りの変更点、新機能、およびからのハイライトであるのChangeLog 。

516 名前:デフォルトの名無しさん mailto:sage [2012/06/07(木) 12:37:23.65 ]
>>515
日本語でOK w

以下は、私が気に入った変更点、新機能、ChangeLogからの抜粋です。

程度の訳でいいのかな。

517 名前:デフォルトの名無しさん mailto:sage [2012/06/07(木) 12:44:43.12 ]
>>516
google翻訳です。



518 名前:デフォルトの名無しさん mailto:sage [2012/06/07(木) 21:06:44.89 ]
>>517
なぜここにgoogle翻訳なんか投げる必要が

519 名前:デフォルトの名無しさん mailto:sage [2012/06/08(金) 07:32:09.58 ]
自然言語処理スレだから自然言語処理の力を使ったのだろう
「自分の作ったドックフードを食え」
の精神に則ったよい心がけだと思うわ


520 名前:デフォルトの名無しさん mailto:sage [2012/06/16(土) 16:09:52.73 ]
生成文法ってやつあるけど
自然言語処理と何か関係あったり役立つことありますか?

521 名前:デフォルトの名無しさん mailto:sage [2012/06/16(土) 20:48:49.43 ]
自然言語処理の基礎としてたいてい生成文法の話はやるけど?

522 名前:デフォルトの名無しさん [2012/06/17(日) 00:29:43.78 ]
やるけど、役に立つのか?


523 名前:デフォルトの名無しさん mailto:sage [2012/06/17(日) 01:50:38.02 ]
否が応でも勝手に頭にたたき込まれているから問題ない。
というか、文系の言語学の連中より我々の方があれをまともに使っている。

524 名前:デフォルトの名無しさん mailto:sage [2012/06/17(日) 03:44:24.23 ]
何が「問題ない」で、何が「というか」なんだ?

525 名前:デフォルトの名無しさん mailto:sage [2012/06/17(日) 12:56:59.56 ]
正直やればわかるとしか言いようがないな

526 名前:デフォルトの名無しさん mailto:sage [2012/06/17(日) 17:19:37.17 ]
>>520
研究として自然言語処理をするなら知っておくとよいかもしれません、という程度です。視野を広げる意味で。
言語学で使われているような生成文法を使ってどうこうする、ということは今のところ無いです。

527 名前:デフォルトの名無しさん mailto:sage [2012/06/17(日) 19:40:38.48 ]
>>525
つまり答えられませんってことだろ




528 名前:デフォルトの名無しさん mailto:sage [2012/06/18(月) 11:53:26.56 ]
そう思うなら好きにしろ。
あとで「そんな便利なものがあったのか」と泣く自由はあるからな。

529 名前:デフォルトの名無しさん [2012/06/21(木) 21:56:17.12 ]
LFGも生成文法?! これはMicrosoftが
自然言語処理エンジンに使用している。
チョムスキーのは,言語学者の遊び。

530 名前:デフォルトの名無しさん mailto:sage [2012/06/22(金) 08:08:51.20 ]
違うよ。
チョムスキーの理論を唯一まじめに使っているのは我々だけだということ。

531 名前:デフォルトの名無しさん mailto:sage [2012/06/22(金) 10:41:12.81 ]
言語学者にいぢめられたバカが必死、なのか?

532 名前:デフォルトの名無しさん mailto:sage [2012/06/22(金) 10:47:23.23 ]
>>531
頭が悪いやつだな。
言語学者の仕事と我々の仕事は違うんだよ。連中は実装しない。

533 名前:デフォルトの名無しさん mailto:sage [2012/06/22(金) 14:39:53.35 ]
無知なやつだな。

534 名前:デフォルトの名無しさん mailto:sage [2012/06/26(火) 02:07:25.61 ]
>>532
もしかして、HPSGパーザーを作ってる方でしょうか。であれば、生成文法は基礎として必要なのは確かですね。
前に生成文法が自然言語処理に必要ないと言ったのは、別にHPSGを否定したかったのではなく、自然言語処理一般では使わないという意味でした。ただ他には目立った用途がない以上、当面必要ない人にまで勉強するべきとはいえないと思います。


535 名前:デフォルトの名無しさん mailto:sage [2012/06/26(火) 09:23:31.89 ]
hello worldを書くのに必要ないから、プログラミングに数学はいらない、みたいな意見だな。

536 名前:デフォルトの名無しさん mailto:sage [2012/06/26(火) 18:54:27.63 ]
>>535
パーザーはhello world ほど、誰もがかける必要があるプログラムではありませんし、生成文法は数学ほど重要ではないと言う意見です。

537 名前:デフォルトの名無しさん mailto:sage [2012/06/28(木) 10:36:05.94 ]
荒れたおかげでまともな人も来たようだな









[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<148KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef