- 1 名前:デフォルトの名無しさん [05/01/25 07:38:01 ]
- 日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。 これを形態素解析といいます。 このスレでは、その形態素解析について語っていきましょう。
- 131 名前:119 [05/02/16 13:28:15 ]
- >123 ありがとうございました。
- 132 名前:デフォルトの名無しさん mailto:sage [05/02/16 18:32:08 ]
- ここは良スレですね
- 133 名前:デフォルトの名無しさん mailto:sage [05/02/16 19:38:16 ]
- >>117
> 3ヶ月かかったとのことで、今日のProlog観は全然通用しない。 この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…
- 134 名前:デフォルトの名無しさん mailto:sage [05/02/16 20:31:56 ]
- >>124
>自然言語をパースするためなら、Perlがいいねぇ。 CPANから欧米語のTaggerモジュールが手に入る。 (ただし、あまり精度はよくない。) search.cpan.org/~acoburn/Lingua-EN-Tagger-0.06/Tagger.pm 他のコンピュータ言語で、Tagger, Parserなどのライブラリー、モジュール が無料で公開されているのはありますか?
- 135 名前:デフォルトの名無しさん mailto:sage [05/02/16 21:37:37 ]
- >>134
pythonのmonty taggerはちょっと遅いけど速度に厳しい用途でなければ それほど問題ない。parserもいくつか見かけた。
- 136 名前:135 mailto:sage [05/02/16 21:41:59 ]
- NLP Toolkit nltk.sourceforge.net/
Monty Tagger web.media.mit.edu/~hugo/montytagger/ MontyLingua web.media.mit.edu/~hugo/montylingua/index.html
- 137 名前:デフォルトの名無しさん mailto:sage [05/02/16 23:29:35 ]
- なんかよくわかんないけどリンク針
OpenNLP opennlp.sourceforge.net/ OpenNLP Maxent maxent.sourceforge.net/ Grok grok.sourceforge.net/ OpenNLP Leo leonlp.sourceforge.net/ OpenCCG, the OpenNLP CCG Library openccg.sourceforge.net/ nlpFarm nlpfarm.sourceforge.net/
- 138 名前:デフォルトの名無しさん [05/02/17 12:25:41 ]
- >133
> この一連の流れは今のNLP観で言語選択する話だと思っていたのだが… 117のここの部分は、Prologが最初は何の目的で作られたか。その時点で、 可能な技術はどんなものだったかという話に脱線していますね。
- 139 名前:デフォルトの名無しさん [05/02/17 20:57:44 ]
- >>138
今のNLP観で言語選択すると英語だよな。
- 140 名前:デフォルトの名無しさん mailto:sage [05/02/18 03:08:43 ]
- >>139
おじいちゃん、おむつからウンコがはみ出てますよ。
- 141 名前:デフォルトの名無しさん [05/02/18 22:41:52 ]
- 正規表現エンジンってどうやって作るのかな?
- 142 名前:デフォルトの名無しさん mailto:sage [05/02/19 01:20:34 ]
- FAを作る。
- 143 名前:デフォルトの名無しさん mailto:sage [05/02/20 14:25:59 ]
- >>142
FAって単語が分かれば>>141は書き込まないと思われ。
- 144 名前:デフォルトの名無しさん mailto:sage [05/02/20 22:52:12 ]
- Football Assosiation
- 145 名前:デフォルトの名無しさん mailto:sage [05/02/21 02:49:23 ]
- Final Answer
- 146 名前:デフォルトの名無しさん mailto:sage [05/02/21 04:03:44 ]
- fuck anal
- 147 名前:デフォルトの名無しさん [05/02/21 17:18:49 ]
- 作る話してるときにFAって単語がどうとか言い出すのはどうかと思う。
- 148 名前:デフォルトの名無しさん [05/02/23 13:53:29 ]
- Futtoboru Awaa
- 149 名前:デフォルトの名無しさん mailto:sage [05/02/23 14:27:38 ]
- FusiAnasan
- 150 名前:デフォルトの名無しさん [05/02/23 15:06:16 ]
- Finite Automaton(有限オートマトン)
- 151 名前:デフォルトの名無しさん mailto:sage [05/02/23 15:40:48 ]
- Flets ADSL
- 152 名前:デフォルトの名無しさん mailto:sage [05/02/24 10:52:17 ]
- Free Agent
- 153 名前:デフォルトの名無しさん mailto:sage [05/02/24 16:19:06 ]
- Fighting Arts
- 154 名前:デフォルトの名無しさん mailto:sage [05/02/28 12:44:17 ]
- Fujikofujio A
- 155 名前:M.B. [05/03/03 10:52:04 ]
- Java 使って、チャート法ベースの
形態素解析システム組んだのはいいが、 係り受けの処理とどうやって融合したらいいかよくわからん。 チャート法っつーのは本来構文解析によく使われる手法だっつーのだが、 日本語みたいなForth もどきの文法構造を持った言語だと、 BNF みたいな形での抽象的な構文法の記述がうまくいかん。 誰か解決策を知らないか?
- 156 名前:デフォルトの名無しさん [05/03/03 15:31:37 ]
- サーチクロスって,形態素解析してません,なんて書いてあったんだけど,
じゃ,どうやってインデックス作ってるんだろう. N-gram じゃないだろうしなぁ.インデックスサイズから考えても.
- 157 名前:M.B. [05/03/03 19:33:04 ]
- >>156
解析精度が低くていいなら、手法はそれなりにあると思われ。 英文用のスペルチェッカーなんかはそうした経験則の集大成だし。 漢字以外の文字から漢字に変わる点でぶった切って、 切れたものの末尾から附属語らしき要素を取りつくしてくだけで、 インデックス用のキー文字列は作れるしね。 あとは検索用の文字列に同じ処理を施して、それをキーにして候補を かき集めて、それからじっくりマッチするかどうかチェックしてけばいい。
- 158 名前:デフォルトの名無しさん mailto:sage [05/03/03 21:27:46 ]
- >>155
係り受けなんて品詞で辿れるもんじゃないの? 自分で文章組み立てる手順とか考えた事ある? つーか何のためにチャート法にしたの?
- 159 名前:M.B. [05/03/03 21:53:32 ]
- > 係り受けなんて品詞で辿れるもんじゃないの?
日本語だと省略が多いもんだから、 「嬉しいです」の「連体形+用言(助動詞)」みたいに、 ある程度長いスパンで見ないと係り受けの関係が見えないケースが多いのよ。 だから、体言ごとに格を推定して、動詞のほうから必要な格を割り出して、 余ってる体言が出ないようにするとかいった手続きが、 係り受けの推定には必要なわけ。 > つーか何のためにチャート法にしたの? かな漢字変換もできる双方向の解析システム作ってたら、 結果的にそうなっちゃった。 「はくさいやだいこんなどのやさいが」は、切り方によって 「白砂 嫌だ こんな どの 野菜が」みたいな いろんな屑候補が出てくるのだが、これをバックトラックで処理してると 同じ処理を何度もやることになって具合が悪い。 チャート法なら同じ部分の解析は一度しかされないし、 見込みのありそうな候補に絞って探索するとかいった制御も楽。
- 160 名前:デフォルトの名無しさん mailto:sage [05/03/04 12:20:33 ]
- 日本語XLEは?
- 161 名前:M.B. [05/03/04 16:25:06 ]
- 技法っつーか解析戦術レベルでは有効だろうし、
チャート法に代表される、並列処理にもってきやすい技法とも 併用可能なので、実用化っつー部分では要チェックと思われ。 ただ、「意味に即した解析」をうまく取り込むには、 職人芸的な技巧が要求されるので、「機械翻訳の質を上げる」みたいな 意味に踏み込んだ処理をやろうとすると、使いこなせるのは ごく一部の特殊な才能を持った人なんじゃないかなぁ、と思う。 本当にできる人は、かな漢字変換に使われる「接続テーブル法」とかの 制約の中でも、意味処理に近いことをやってたしね。
- 162 名前:デフォルトの名無しさん mailto:sage [05/03/05 13:37:38 ]
- >>155
補強項処理を追加したら? つまり文法記述中にJAVAのプログラムを記述する。 補強項つきの文法をいったんJAVAプログラムに落とすために、コンパイラコンパイラを 作る必要があるが、たいした手間ではないでしょう。 チャートパーサは、ちょっと変更すれば、そのまま使えるはず。
- 163 名前:デフォルトの名無しさん [05/03/05 13:44:33 ]
- KAKASIがやってる処理ってこういうの?
お?[亜-Kア-ヶー -◯Α-ωА-я0-9a-zA-Z]+[あ-んー]*[!?!?。、]? | [あ-んア-ヶー]+[!?!?。、]?
- 164 名前:デフォルトの名無しさん mailto:sage [05/03/05 15:56:11 ]
- 人工無能スレってないの?
昔あったような・・・
- 165 名前:デフォルトの名無しさん mailto:sage [05/03/05 16:31:33 ]
- 日本語解析って大変だよね。
わりに合わない気がするし。 文字コードの問題もあるし。 これが必ず正しい!って毎回答えが決まるわけでもないし。 おまえら形態素解析して何に使ってますか?
- 166 名前:デフォルトの名無しさん [05/03/05 16:41:20 ]
- >>165 サイトの全文検索
- 167 名前:M.B. [05/03/05 20:52:53 ]
- >>165
聴覚障害者や外国人向けの、漢字かな交じり文の読解支援。 読みがわからんと国語辞典が引けんので、 漢和辞典を引くしかなく、けっこうツラい。 「冷たい」と「冷える」、「下ろす」と「下がる」、 「生やす」と「生む」等、「漢和辞典引いて 読みを調べて国語辞典引いて活用形調べて どれがマッチするか確認して……」とかいった手続きが 必要な語はけっこうある。それ以外にも、 「入れない」がイレナイかハイレナイか、「行った」が イッタかオコナッタかわからないとかいった問題もある。 辞書引きの自動化だけでも、助かる人はけっこういる。
- 168 名前:デフォルトの名無しさん mailto:sage [05/03/06 00:00:40 ]
- マルコフ連鎖で前後関係の統計をとればほとんどいけると思われます
- 169 名前:デフォルトの名無しさん mailto:sage [05/03/06 06:14:22 ]
- マルコフ連鎖厨出現
このスレの運命やいかに?!
- 170 名前:M.B. [05/03/06 07:40:32 ]
- >>162
いまあるシステム自体がコンパイラ・コンパイラに近いので、 C 言語のインライン・アセンブラとかJava のJSP みたいな方法で 実装はできそうだな。 考えてみる。サンクスコ。
- 171 名前:デフォルトの名無しさん mailto:sage [05/03/06 12:11:17 ]
- マールーコーフ!
マールーコーフ! マールーコーフ! マールーコーフ! ハイ!fgg'いつもやるのは緑の積分!
- 172 名前:デフォルトの名無しさん mailto:sage [05/03/07 04:07:36 ]
- www.antlr.org/
- 173 名前:デフォルトの名無しさん [int 2ch =05/04/02(土) 04:36:47 ]
- ボクにマルコフ連鎖を丁寧に教えて!
- 174 名前:デフォルトの名無しさん [int 2ch =05/04/02(土) 14:32:01 ]
- >>173
これでも嫁。 markun.cs.shinshu-u.ac.jp/learn/probability/i_04-00.html
- 175 名前:デフォルトの名無しさん mailto:sage [2005/04/19(火) 20:27:42 ]
- だめだこりゃ
- 176 名前:デフォルトの名無しさん mailto:sage [2005/05/16(月) 10:06:00 ]
- そんなことなら俺に聞きゃよかったのに
- 177 名前:Mb [2005/07/21(木) 21:09:26 ]
- 長岡技術科学大学の自然言語処理掲示板が
いつの間にか消えているのだが、 誰か消息を知らないか。
- 178 名前:デフォルトの名無しさん mailto:sage [2005/07/23(土) 13:57:52 ]
- う、自然言語処理研究室が出来てたなんてしらんかった…。
- 179 名前:デフォルトの名無しさん mailto:sage [2005/08/18(木) 05:57:51 ]
- ,:::-、 __
,,r 〈:::::::::) ィ::::::ヽ 〃 ,::::;r‐'´ ヽ::ノ ,'::;' /::/ __ l:::l l::::l /:::::) ,:::::、 ji |::::ヽ j::::l、ゝ‐′ ゙:;;:ノ ,j:l }:::::::ヽ!::::::::ゝ、 <:::.ァ __ノ::;! パンダー! . {::::::::::::::::::::::::::::`='=‐'´:::::::::/ ';::::::::::::ト、::::::::::::::i^i::::::::::::/ `ー--' ヽ:::::::::::l l;;;;::::ノ `ー-" 【ラッキーレス】 このレスを見た人はコピペでもいいので 10分以内に3つのスレへ貼り付けてください。 そうすれば14日後好きな人から告白されるわ宝くじは当たるわ 出世しまくるわ体の悪い所全部治るわでえらい事です。
- 180 名前:デフォルトの名無しさん [2005/09/02(金) 22:23:43 ]
- JUMANてルールベースやん
なにあの手作り感w
- 181 名前:デフォルトの名無しさん [2005/09/03(土) 01:11:52 ]
- 統計的アプローチではないでしょうか。
- 182 名前:デフォルトの名無しさん mailto:sage [2005/09/03(土) 01:27:22 ]
- HERMANてベーブルースやん
- 183 名前:デフォルトの名無しさん mailto:sage [2005/09/03(土) 03:19:23 ]
- Hermesは?
- 184 名前:デフォルトの名無しさん mailto:sage [2005/09/03(土) 03:38:25 ]
- HERMESってトリスメギストスやん
- 185 名前:デフォルトの名無しさん mailto:sage [2005/09/03(土) 14:53:15 ]
- 逆さに読んでもストスギメスリト
- 186 名前:デフォルトの名無しさん mailto:sage [2005/09/04(日) 11:54:07 ]
- >>185
頭大丈夫?
- 187 名前:デフォルトの名無しさん [2005/09/04(日) 21:11:32 ]
- JUMANが最強なの?
- 188 名前:デフォルトの名無しさん mailto:sage [2005/09/05(月) 14:57:26 ]
- www.asahi-net.or.jp/~cs8k-cyu/chmap/index.html
- 189 名前:名無しさん@そうだ選挙に行こう [2005/09/11(日) 17:40:25 ]
- 形態素解析ってもう成熟しきってるでしょ?
- 190 名前:名無しさん@そうだ選挙に行こう mailto:sage [2005/09/11(日) 18:22:28 ]
- よさげなアイデアがない
特に日本語の場合は一般に認知された文法が役立たずな事がわかっただけか
- 191 名前:名無しさん@そうだ選挙に行こう mailto:sage [2005/09/11(日) 18:47:56 ]
- 現状より性能を上げるなら意味論と語彙論に踏み込まざるを得ないからね。
- 192 名前:名無しさん@そうだ選挙に行こう [2005/09/11(日) 20:03:14 ]
- 大体文法なんて暇な言語学者が適当に思いつきで構築したものだろ?
だったらおおざっぱな品詞だけを定義して あとはタグ付きの巨大なコーパスで学習させた方がよくね?
- 193 名前:デフォルトの名無しさん mailto:sage [2005/09/12(月) 06:58:13 ]
- ・おおざっぱな品詞だけを定義して
・あとはタグ付きの巨大なコーパスで学習させた方がよくね ぷげら 学習アルゴリズムだけで、後は自動で人工知能とかできたら、いいねぇ(w
- 194 名前:デフォルトの名無しさん [2005/09/12(月) 12:14:20 ]
- 形態素解析は人工知能じゃないけどねー
- 195 名前:デフォルトの名無しさん mailto:sage [2005/09/12(月) 13:31:58 ]
- だから「できたら、いいねぇ」で「(w」なんでしょ。
- 196 名前:デフォルトの名無しさん mailto:sage [2005/09/12(月) 16:15:53 ]
- Chasenは192の方法
- 197 名前:デフォルトの名無しさん mailto:sage [2005/09/13(火) 01:21:08 ]
- ChaSenがcorpusで学習!!? なんか凄い勘違いしてるんでないかい。
- 198 名前:デフォルトの名無しさん mailto:sage [2005/09/13(火) 07:24:08 ]
- 文法だけでできてると思ってるの!?
おめでたいな。
- 199 名前:デフォルトの名無しさん mailto:sage [2005/09/13(火) 10:52:26 ]
- おめでたいも何も、学習機構なんかどこにも実装されてないじゃないの。
なんでこここんなレベル低いの。
- 200 名前:デフォルトの名無しさん mailto:sage [2005/09/13(火) 11:59:11 ]
- >>199
学習機構がないなんて言っちゃうレベル低いのはお前
- 201 名前:デフォルトの名無しさん mailto:sage [2005/09/13(火) 12:05:15 ]
- んー、じゃあ手許にソース一式と辞書があるんで
このどこに学習機構があるのか教えてちょ
- 202 名前:デフォルトの名無しさん [2005/09/13(火) 16:14:18 ]
- なんでこんなに荒れてんだw
コーパスから確率モデルを計算してるのは確かだから そういう意味では学習しているけど 毎回モデルを計算しているのではなく 毎回計算しているのはコストだろ
- 203 名前:デフォルトの名無しさん mailto:sage [2005/09/13(火) 16:24:18 ]
- 最近あまりにしょうもないレスが多かったもんで。
正直おとなげなかった。スマソ
- 204 名前:デフォルトの名無しさん mailto:sage [2005/09/14(水) 01:31:54 ]
- 官能小説のエロさを形態素解析による数値化という研究を考えて
教授のところにいってきたんだけど5時間正座させられてお説教された ひどい
- 205 名前:デフォルトの名無しさん mailto:sage [2005/09/15(木) 01:53:47 ]
- つまらんネタだ
- 206 名前:デフォルトの名無しさん mailto:sage [2005/09/15(木) 03:07:38 ]
- >>204
当たり前だ馬鹿。 おまえ自分の論文見せてくれって言われたとき困らないとでも思ったのか?
- 207 名前:デフォルトの名無しさん mailto:sage [2005/09/15(木) 05:53:09 ]
- 感性情報処理とかそれっぽい言葉を絡めて書けば普通に通りそうなもんだけどな。
形態素解析でエロさが出るかバカという点では教授に同意。
- 208 名前:デフォルトの名無しさん mailto:sage [2005/09/16(金) 23:03:16 ]
- 文学部なら普通に通りそうなテーマだな、
そつぎょうかだいせいさく くらいの軽いノリで
- 209 名前:デフォルトの名無しさん mailto:sage [2005/09/16(金) 23:23:41 ]
- 料理本の単語を○にするとエロくなる事について。
- 210 名前:デフォルトの名無しさん [2005/10/08(土) 00:05:44 ]
- MeCab: 形態素解析エンジンをコマンドラインで使う事って可能ですか?
/bin/mecab -Oyomi "今日は良い天気ですね。" 見たいな感じです。 エロい人お願いします。
- 211 名前:デフォルトの名無しさん [2005/10/08(土) 04:17:19 ]
- PHPからMeCabやkakasiを利用可能ですか?
出来るならどの様に使うか教えてください。
- 212 名前:デフォルトの名無しさん [2005/10/10(月) 03:56:52 ]
- 条件付確率場って何?
- 213 名前:デフォルトの名無しさん mailto:sage [2005/10/17(月) 00:07:07 ]
- らふぁてー
- 214 名前:デフォルトの名無しさん [2005/11/11(金) 22:09:52 ]
- 最近暇だったので bayes とか弄ってた。
英語コーパスを元に、thisisapen を this/is/a/pen に区切ってみたり。 "t-h" の確率を "t- -h" の確率と比較して正規化して合計するだけだが、 未知語もそれなりに上手く分けられる予感。超遅いが。 で、これをどうやって日本語の形態素解析に応用すればいいのかが 分からん。英語みたいに既に区切られた分けられた情報に頼るってのも、 結局辞書を人様が作ってるみたいで、なんかヤダ。 教えてエラい人!
- 215 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 22:57:37 ]
- >>214
たくさんテキスト食わせて比較してみたら〜
- 216 名前:仕様書無しさん mailto:sage [2005/11/12(土) 21:20:29 ]
- >>214
カナを一旦ローマ字(訓令式がいい)に変換してから処理してみ。 活用の処理が一気に楽になるから。
- 217 名前:仕様書無しさん mailto:sage [2005/11/15(火) 22:07:43 ]
- 日本語文用の、語彙ベースの検索エンジン(用言は語幹で検索、
体言は異表記も認める)を作ってみたのだが、 ・Web上のどのサイトを検索対象にするか ・インデクスはすでに存在するとして、鍵語の集まりから 効率よく対象のページを検索する問合せ(SQLを想定)はどう 生成するか で詰まっている。小規模な検索(たとえば自分のマシンにある.txt ファイルだけを対象とするとか)だったら悩まなくて済むのだが、 なんか面白い用途ってないもんだろうか。
- 218 名前:デフォルトの名無しさん mailto:sage [2005/11/15(火) 22:30:44 ]
- 昔はえろえろあった、おもしろい機能を持ったサーチエンジンも
ほとんど淘汰されて消えちゃったからね。 正規表現で検索できるサーチエンジンとか作らない? #小規模検索はestraireがありゃいいや
- 219 名前:仕様書無しさん mailto:sage [2005/11/15(火) 23:05:26 ]
- > 正規表現で検索できるサーチエンジンとか作らない?
それってgrepって言わないか?(^_^;) 冗談はともかく、その部分は ・インデクスにどんな情報を持たせるか(インデクスDB設計) ・インデクスを抱えてるDBサーバにどんな問合せをするか(DBインタフェース) ・問合せに対して、どれだけレスポンスを上げるか(探索戦略および チューニングの問題) なので、形態素解析とか日本語処理とかとは別の話題かと。 DBインタフェースの一部として、自然言語インタフェースとか考えるなら また別なのだが。
- 220 名前:デフォルトの名無しさん mailto:sage [2005/11/16(水) 11:29:06 ]
- 正規表現検索で有用なインデックスがつけられるものなら、
とっくにRDBMSについてると思う……。
- 221 名前:デフォルトの名無しさん mailto:sage [2005/11/18(金) 13:21:33 ]
- えらくタイミングよくestraierに正規表現サポートが入ったな
- 222 名前:ハーピィ mailto:sage [2005/12/05(月) 02:45:15 ]
- E・∇・ヨノシ <222ゲット♫
- 223 名前:Mb [2006/03/14(火) 22:37:45 ]
- 復帰age
- 224 名前:http://www.vector.co.jp/soft/win95/util/se072729.html mailto:http://msdn2.microsoft.com/ja-jp/library/h2k70f3s.aspx [2006/03/18(土) 20:27:21 ]
- TextSS のWindowsXP(Professional)64bit化おながいします
もしくは64bitにネイティブ対応したテキスト置換ソフトありますか?
- 225 名前:デフォルトの名無しさん [2006/04/10(月) 21:57:43 ]
- あげとくね。
- 226 名前:デフォルトの名無しさん mailto:sage [2006/04/11(火) 15:06:25 ]
- 漢字の文字コードが読み仮名情報を保持してれば、
形態素解析って楽になると思うんだけど、そんな仕様ないの?
- 227 名前:デフォルトの名無しさん [2006/04/11(火) 16:20:34 ]
- これは何の釣りだ?
- 228 名前:デフォルトの名無しさん [2006/04/11(火) 21:42:17 ]
- >>226
www.doraneko.org/webauth/ruby/19981221/Overview.html これのこと? 実際の現場では、形態素解析ソフトを使って文章にルビふってるけども?
- 229 名前:デフォルトの名無しさん [2006/04/27(木) 09:14:19 ]
- 茶筌やめかぶが覚えてる学習用コーパスって何万語位何ですか?
めかぶが自力でコーパスの学習出来るので遊んでみたいのですが、 学習コーパスをどの位用意しなきゃならないか、わからないので。
- 230 名前:デフォルトの名無しさん mailto:sage [2006/04/27(木) 17:23:39 ]
- IPADICとかなしに、巨大なコーパスから辞書を作る、
そんな方法ってないんかのう。
- 231 名前:デフォルトの名無しさん [2006/04/27(木) 18:42:23 ]
- >>230
圧縮ソフトのアルゴリズムが利用できるかも? 辞書式ってのは、よくでてくるビット列に短い符号を割り当てるんだから、 そのあたりを応用すれば、単語としてよくあるものが抽出されると思う。 ただし品詞タグ付は無理だろうけど。 このアイデアはどう? で、めかぶや茶筌が動くコーパスはどの位の大きさが必要なのかなぁ? だれか知ってる人いない?
|

|