形態素解析と日本語処理

[表示 : 全て最新50 1-99 101- 201- 301- 2chのread.cgiへ]
Update time : 05/09 09:30 / Filesize : 68 KB / Number-of Response : 339
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

形態素解析と日本語処理

1 名前：デフォルトの名無しさん [05/01/25 07:38:01 ]: 日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。
これを形態素解析といいます。
このスレでは、その形態素解析について語っていきましょう。
110 名前：108 [05/02/15 09:33:07 ]: >108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、

これは形態素解析が終わってから後の話です。
111 名前：デフォルトの名無しさん mailto:sage [05/02/15 12:15:27 ]: >>108
> 自然言語を
> 解析するために作られた言語ですから。

そんな話は初耳だな。

>>110
> >108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、
>
> これは形態素解析が終わってから後の話です。

自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。
112 名前：デフォルトの名無しさん [05/02/15 12:40:03 ]: >111 Prologを作ったのはマルセイユ大学ですが、
これは自然言語を解析するツールとして作られました。
論理式をそのまま言語にしてみたらというアイデアではあったようですが
言語として設計されたわけではありません。
>自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。
完全性の問題を問われない程度のものなら、済むんじゃないですか。
113 名前：デフォルトの名無しさん mailto:sage [05/02/15 15:34:34 ]: >>112
自然言語をパースするためではなくて、「自然言語処理」一般だろ。
まず専用のパーサで自然言語の文を術語論理に翻訳した上で、
その論理式を用いて知識推論をしようとした、じゃないのか？
自然言語の文を直接Prologでパースするなんて悪い冗談だ。
114 名前：デフォルトの名無しさん mailto:sage [05/02/15 15:39:30 ]: >>104
> 自然言語処理に向いてるプログラミング言語って、
> やっぱりCですか？

NLP関連でpythonを使う人も多い。
有名なAI: Modern ApproachのPeter Norvigもpythonについて色々書いている。
www.norvig.com/
115 名前：デフォルトの名無しさん [05/02/15 15:48:49 ]: 1971-2年の話で、当時の学問的環境も想像し難いし、1973年に書かれた
仏語の論文も読んだことがないので、どういう意図だったかわからない。
ただ、「悪い冗談」であるかどうかも皆目判っていなかったのではないか？
116 名前：デフォルトの名無しさん [05/02/15 16:32:04 ]: >>109 これはちょっとわからないな…
117 名前：デフォルトの名無しさん [05/02/15 16:35:59 ]: >113
>まず専用のパーサで自然言語の文を術語論理に翻訳した上で、
そうそう。専用のパーサは無かったと思う。
マルセイユ版Prologが動いて、append/3が発見されるまで
3ヶ月かかったとのことで、今日のProlog観は全然通用しない。
少なくとも知識推論しようとしたなどということはなさそう。
118 名前：デフォルトの名無しさん mailto:sage [05/02/15 17:58:54 ]: >>117
> 少なくとも知識推論しようとしたなどということはなさそう。

AlainやPhilippeが書いた最初のprologプログラムは人間の質問に答える自動
応答システムです。
119 名前：117 [05/02/15 18:52:43 ]: >118 それは知りませんでした。この件について全然知識が無いので
なにか資料等残っているならぜひ教えてください。
120 名前：デフォルトの名無しさん mailto:sage [05/02/15 19:21:39 ]: 「小論文、コンピューターで自動採点　入試センターが試作」
www.asahi.com/national/update/0215/019.html

これマジか？本当にこんなものがもう実用段階に入ってるのか？
だとしたら俺らがやろうとしてることって一体何なんだ？
121 名前：デフォルトの名無しさん mailto:sage [05/02/15 19:43:18 ]: >>120
型にはまった人間ばかり評価されるのはなんだかなぁと思った
122 名前：デフォルトの名無しさん mailto:sage [05/02/15 19:59:26 ]: >>120
採点が楽になるってだけの理由で採用するのはどうかと思うし、
どの程度の性能か具体的に示されていない所が疑問ではあるな。

同等の評価を受けた物であっても、大きく評価が変わるケースが1%でもあれば、それだけでは使い物にならないわけで･･
123 名前：デフォルトの名無しさん mailto:sage [05/02/16 09:00:57 ]: >>119
ttp://www.lim.univ-mrs.fr/~colmer/ArchivesPublications/HistoireProlog/19november92.pdf
124 名前：デフォルトの名無しさん mailto:sage [05/02/16 11:09:42 ]: 自然言語をパースするためなら、Perlがいいねぇ。
正規表現は、最強。ライブラリも豊富で最初から自分で作る必要もない。
125 名前：デフォルトの名無しさん mailto:sage [05/02/16 11:21:16 ]: >>104
Cで書いてあるエンジンって速さを優先してるからじゃない？
String Operationが優れていてそこそこOOPに対応してる言語なら
JavaでもPerlでも。Pythonはどうよ。
RegExpの使いやすさは結構重要かと。
126 名前：デフォルトの名無しさん [05/02/16 11:43:38 ]: >>109 みたいな係り受けを分析するフリーのライブラリってないんですか教えてください。
127 名前：デフォルトの名無しさん mailto:sage [05/02/16 13:04:25 ]: 昔、C と Perl の正規表現速度対決のページを見た。
Perl の方が機能豊富なのに速かった気がするんだけど、どうなんだろう。
まぁ、ベンチマークなんてあてにはできないのだけど。
128 名前：デフォルトの名無しさん mailto:sage [05/02/16 13:07:47 ]: >>126
KNPとかmsrlだろ。
129 名前：デフォルトの名無しさん mailto:sage [05/02/16 13:10:35 ]: >>127
あなた、正規表現のエンジンがPerlで書いてあるわけじゃないんだから。
機能の豊富さとそのルールを使わないマッチングの速度も関係ないし。
130 名前：デフォルトの名無しさん [05/02/16 13:13:46 ]: >>128 ありがとうございますぐぐります
131 名前：119 [05/02/16 13:28:15 ]: >123 ありがとうございました。
132 名前：デフォルトの名無しさん mailto:sage [05/02/16 18:32:08 ]: ここは良スレですね
133 名前：デフォルトの名無しさん mailto:sage [05/02/16 19:38:16 ]: >>117
> 3ヶ月かかったとのことで、今日のProlog観は全然通用しない。

この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…
134 名前：デフォルトの名無しさん mailto:sage [05/02/16 20:31:56 ]: >>124
>自然言語をパースするためなら、Perlがいいねぇ。
CPANから欧米語のTaggerモジュールが手に入る。
（ただし、あまり精度はよくない。）

search.cpan.org/~acoburn/Lingua-EN-Tagger-0.06/Tagger.pm

他のコンピュータ言語で、Tagger, Parserなどのライブラリー、モジュール
が無料で公開されているのはありますか？
135 名前：デフォルトの名無しさん mailto:sage [05/02/16 21:37:37 ]: >>134
pythonのmonty taggerはちょっと遅いけど速度に厳しい用途でなければ
それほど問題ない。parserもいくつか見かけた。
136 名前：135 mailto:sage [05/02/16 21:41:59 ]: NLP Toolkit nltk.sourceforge.net/
Monty Tagger web.media.mit.edu/~hugo/montytagger/
MontyLingua web.media.mit.edu/~hugo/montylingua/index.html
137 名前：デフォルトの名無しさん mailto:sage [05/02/16 23:29:35 ]: なんかよくわかんないけどリンク針

OpenNLP opennlp.sourceforge.net/
OpenNLP Maxent maxent.sourceforge.net/
Grok grok.sourceforge.net/
OpenNLP Leo leonlp.sourceforge.net/
OpenCCG, the OpenNLP CCG Library openccg.sourceforge.net/
nlpFarm nlpfarm.sourceforge.net/
138 名前：デフォルトの名無しさん [05/02/17 12:25:41 ]: >133
> この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…
117のここの部分は、Prologが最初は何の目的で作られたか。その時点で、
可能な技術はどんなものだったかという話に脱線していますね。
139 名前：デフォルトの名無しさん [05/02/17 20:57:44 ]: >>138
今のNLP観で言語選択すると英語だよな。
140 名前：デフォルトの名無しさん mailto:sage [05/02/18 03:08:43 ]: >>139
おじいちゃん、おむつからウンコがはみ出てますよ。
141 名前：デフォルトの名無しさん [05/02/18 22:41:52 ]: 正規表現エンジンってどうやって作るのかな？
142 名前：デフォルトの名無しさん mailto:sage [05/02/19 01:20:34 ]: FAを作る。
143 名前：デフォルトの名無しさん mailto:sage [05/02/20 14:25:59 ]: >>142
FAって単語が分かれば>>141は書き込まないと思われ。
144 名前：デフォルトの名無しさん mailto:sage [05/02/20 22:52:12 ]: Football Assosiation
145 名前：デフォルトの名無しさん mailto:sage [05/02/21 02:49:23 ]: Final Answer
146 名前：デフォルトの名無しさん mailto:sage [05/02/21 04:03:44 ]: fuck anal
147 名前：デフォルトの名無しさん [05/02/21 17:18:49 ]: 作る話してるときにFAって単語がどうとか言い出すのはどうかと思う。
148 名前：デフォルトの名無しさん [05/02/23 13:53:29 ]: Futtoboru Awaa
149 名前：デフォルトの名無しさん mailto:sage [05/02/23 14:27:38 ]: FusiAnasan
150 名前：デフォルトの名無しさん [05/02/23 15:06:16 ]: Finite Automaton（有限オートマトン）
151 名前：デフォルトの名無しさん mailto:sage [05/02/23 15:40:48 ]: Flets ADSL
152 名前：デフォルトの名無しさん mailto:sage [05/02/24 10:52:17 ]: Free Agent
153 名前：デフォルトの名無しさん mailto:sage [05/02/24 16:19:06 ]: Fighting　Arts
154 名前：デフォルトの名無しさん mailto:sage [05/02/28 12:44:17 ]: Fujikofujio A
155 名前：M.B. [05/03/03 10:52:04 ]: Java 使って、チャート法ベースの
形態素解析システム組んだのはいいが、
係り受けの処理とどうやって融合したらいいかよくわからん。
チャート法っつーのは本来構文解析によく使われる手法だっつーのだが、
日本語みたいなForth もどきの文法構造を持った言語だと、
BNF みたいな形での抽象的な構文法の記述がうまくいかん。
誰か解決策を知らないか？
156 名前：デフォルトの名無しさん [05/03/03 15:31:37 ]: サーチクロスって，形態素解析してません，なんて書いてあったんだけど,
じゃ，どうやってインデックス作ってるんだろう．
N-gram じゃないだろうしなぁ．インデックスサイズから考えても．
157 名前：M.B. [05/03/03 19:33:04 ]: >>156
解析精度が低くていいなら、手法はそれなりにあると思われ。
英文用のスペルチェッカーなんかはそうした経験則の集大成だし。
漢字以外の文字から漢字に変わる点でぶった切って、
切れたものの末尾から附属語らしき要素を取りつくしてくだけで、
インデックス用のキー文字列は作れるしね。
あとは検索用の文字列に同じ処理を施して、それをキーにして候補を
かき集めて、それからじっくりマッチするかどうかチェックしてけばいい。
158 名前：デフォルトの名無しさん mailto:sage [05/03/03 21:27:46 ]: >>155
係り受けなんて品詞で辿れるもんじゃないの？
自分で文章組み立てる手順とか考えた事ある？
つーか何のためにチャート法にしたの？
159 名前：M.B. [05/03/03 21:53:32 ]: > 係り受けなんて品詞で辿れるもんじゃないの？
日本語だと省略が多いもんだから、
「嬉しいです」の「連体形＋用言（助動詞）」みたいに、
ある程度長いスパンで見ないと係り受けの関係が見えないケースが多いのよ。
だから、体言ごとに格を推定して、動詞のほうから必要な格を割り出して、
余ってる体言が出ないようにするとかいった手続きが、
係り受けの推定には必要なわけ。
> つーか何のためにチャート法にしたの？
かな漢字変換もできる双方向の解析システム作ってたら、
結果的にそうなっちゃった。
「はくさいやだいこんなどのやさいが」は、切り方によって
「白砂　嫌だこんな　どの　野菜が」みたいな
いろんな屑候補が出てくるのだが、これをバックトラックで処理してると
同じ処理を何度もやることになって具合が悪い。
チャート法なら同じ部分の解析は一度しかされないし、
見込みのありそうな候補に絞って探索するとかいった制御も楽。
160 名前：デフォルトの名無しさん mailto:sage [05/03/04 12:20:33 ]: 日本語XLEは？
161 名前：M.B. [05/03/04 16:25:06 ]: 技法っつーか解析戦術レベルでは有効だろうし、
チャート法に代表される、並列処理にもってきやすい技法とも
併用可能なので、実用化っつー部分では要チェックと思われ。
ただ、「意味に即した解析」をうまく取り込むには、
職人芸的な技巧が要求されるので、「機械翻訳の質を上げる」みたいな
意味に踏み込んだ処理をやろうとすると、使いこなせるのは
ごく一部の特殊な才能を持った人なんじゃないかなぁ、と思う。
本当にできる人は、かな漢字変換に使われる「接続テーブル法」とかの
制約の中でも、意味処理に近いことをやってたしね。
162 名前：デフォルトの名無しさん mailto:sage [05/03/05 13:37:38 ]: >>155
補強項処理を追加したら？
つまり文法記述中にJAVAのプログラムを記述する。
補強項つきの文法をいったんJAVAプログラムに落とすために、コンパイラコンパイラを
作る必要があるが、たいした手間ではないでしょう。
チャートパーサは、ちょっと変更すれば、そのまま使えるはず。
163 名前：デフォルトの名無しさん [05/03/05 13:44:33 ]: KAKASIがやってる処理ってこういうの？

お?[亜-黑ア-ヶー　-◯Α-ωА-я0-9a-zA-Z]+[あ-んー]*[!?！？。、]?
|
[あ-んア-ヶー]+[!?！？。、]?
164 名前：デフォルトの名無しさん mailto:sage [05/03/05 15:56:11 ]: 人工無能スレってないの？
昔あったような・・・
165 名前：デフォルトの名無しさん mailto:sage [05/03/05 16:31:33 ]: 日本語解析って大変だよね。
わりに合わない気がするし。
文字コードの問題もあるし。
これが必ず正しい！って毎回答えが決まるわけでもないし。

おまえら形態素解析して何に使ってますか？
166 名前：デフォルトの名無しさん [05/03/05 16:41:20 ]: >>165 サイトの全文検索
167 名前：M.B. [05/03/05 20:52:53 ]: >>165
聴覚障害者や外国人向けの、漢字かな交じり文の読解支援。
読みがわからんと国語辞典が引けんので、
漢和辞典を引くしかなく、けっこうツラい。
「冷たい」と「冷える」、「下ろす」と「下がる」、
「生やす」と「生む」等、「漢和辞典引いて
読みを調べて国語辞典引いて活用形調べて
どれがマッチするか確認して……」とかいった手続きが
必要な語はけっこうある。それ以外にも、
「入れない」がイレナイかハイレナイか、「行った」が
イッタかオコナッタかわからないとかいった問題もある。
辞書引きの自動化だけでも、助かる人はけっこういる。
168 名前：デフォルトの名無しさん mailto:sage [05/03/06 00:00:40 ]: マルコフ連鎖で前後関係の統計をとればほとんどいけると思われます
169 名前：デフォルトの名無しさん mailto:sage [05/03/06 06:14:22 ]: マルコフ連鎖厨出現
このスレの運命やいかに？！
170 名前：M.B. [05/03/06 07:40:32 ]: >>162
いまあるシステム自体がコンパイラ・コンパイラに近いので、
C 言語のインライン・アセンブラとかJava のJSP みたいな方法で
実装はできそうだな。
考えてみる。サンクスコ。
171 名前：デフォルトの名無しさん mailto:sage [05/03/06 12:11:17 ]: マールーコーフ！
マールーコーフ！
マールーコーフ！
マールーコーフ！
ハイ！fgg'いつもやるのは緑の積分！
172 名前：デフォルトの名無しさん mailto:sage [05/03/07 04:07:36 ]: www.antlr.org/
173 名前：デフォルトの名無しさん [int 2ch ＝05/04/02(土) 04:36:47 ]: ボクにマルコフ連鎖を丁寧に教えて！
174 名前：デフォルトの名無しさん [int 2ch ＝05/04/02(土) 14:32:01 ]: >>173
これでも嫁。
markun.cs.shinshu-u.ac.jp/learn/probability/i_04-00.html
175 名前：デフォルトの名無しさん mailto:sage [2005/04/19(火) 20:27:42 ]: だめだこりゃ
176 名前：デフォルトの名無しさん mailto:sage [2005/05/16(月) 10:06:00 ]: そんなことなら俺に聞きゃよかったのに
177 名前：Mb [2005/07/21(木) 21:09:26 ]: 長岡技術科学大学の自然言語処理掲示板が
いつの間にか消えているのだが、
誰か消息を知らないか。
178 名前：デフォルトの名無しさん mailto:sage [2005/07/23(土) 13:57:52 ]: う、自然言語処理研究室が出来てたなんてしらんかった…。
179 名前：デフォルトの名無しさん mailto:sage [2005/08/18(木) 05:57:51 ]: 　　　　　　　　　,:::-､　　　　__
　　　　　　,,r 　　〈:::::::::）　　　ｨ::::::ヽ
　　　　〃　　,::::;r‐'´ 　　　ヽ::ノ
　　　　,'::;' 　　/::/ 　__
　　　l:::l 　　ｌ::::ｌ　/:::::) 　 ,:::::､　ｊi
　　　　|::::ヽ　ｊ::::ｌ、ゝ‐′ 　ﾞ:;;:ﾉ　,j:l
　　　　}:::::::ヽ!::::::::ゝ、 <:::.ｧ＿_ノ::;! 　パンダー！
.　　　{::::::::::::::::::::::::::::`='=‐'´:::::::::/
　　　　';::::::::::::ﾄ､::::::::::::::i＾i::::::::::::/
　　　｀ｰ--'　ヽ:::::::::::ｌ l;;;;::::ノ
　　　　　　　　　　`ｰ-"

【ラッキーレス】
このレスを見た人はコピペでもいいので
10分以内に3つのスレへ貼り付けてください。
そうすれば１４日後好きな人から告白されるわ宝くじは当たるわ
出世しまくるわ体の悪い所全部治るわでえらい事です。
180 名前：デフォルトの名無しさん [2005/09/02(金) 22:23:43 ]: JUMANてルールベースやん
なにあの手作り感ｗ
181 名前：デフォルトの名無しさん [2005/09/03(土) 01:11:52 ]: 統計的アプローチではないでしょうか。
182 名前：デフォルトの名無しさん mailto:sage [2005/09/03(土) 01:27:22 ]: HERMANてベーブルースやん
183 名前：デフォルトの名無しさん mailto:sage [2005/09/03(土) 03:19:23 ]: Hermesは?
184 名前：デフォルトの名無しさん mailto:sage [2005/09/03(土) 03:38:25 ]: HERMESってトリスメギストスやん
185 名前：デフォルトの名無しさん mailto:sage [2005/09/03(土) 14:53:15 ]: 逆さに読んでもストスギメスリト
186 名前：デフォルトの名無しさん mailto:sage [2005/09/04(日) 11:54:07 ]: >>185
頭大丈夫？
187 名前：デフォルトの名無しさん [2005/09/04(日) 21:11:32 ]: JUMANが最強なの？
188 名前：デフォルトの名無しさん mailto:sage [2005/09/05(月) 14:57:26 ]: www.asahi-net.or.jp/~cs8k-cyu/chmap/index.html
189 名前：名無しさん＠そうだ選挙に行こう [2005/09/11(日) 17:40:25 ]: 形態素解析ってもう成熟しきってるでしょ？
190 名前：名無しさん＠そうだ選挙に行こう mailto:sage [2005/09/11(日) 18:22:28 ]: よさげなアイデアがない
特に日本語の場合は一般に認知された文法が役立たずな事がわかっただけか
191 名前：名無しさん＠そうだ選挙に行こう mailto:sage [2005/09/11(日) 18:47:56 ]: 現状より性能を上げるなら意味論と語彙論に踏み込まざるを得ないからね。
192 名前：名無しさん＠そうだ選挙に行こう [2005/09/11(日) 20:03:14 ]: 大体文法なんて暇な言語学者が適当に思いつきで構築したものだろ？
だったらおおざっぱな品詞だけを定義して
あとはタグ付きの巨大なコーパスで学習させた方がよくね？
193 名前：デフォルトの名無しさん mailto:sage [2005/09/12(月) 06:58:13 ]: ・おおざっぱな品詞だけを定義して
・あとはタグ付きの巨大なコーパスで学習させた方がよくね

ぷげら

学習アルゴリズムだけで、後は自動で人工知能とかできたら、いいねぇ（ｗ
194 名前：デフォルトの名無しさん [2005/09/12(月) 12:14:20 ]: 形態素解析は人工知能じゃないけどねー
195 名前：デフォルトの名無しさん mailto:sage [2005/09/12(月) 13:31:58 ]: だから「できたら、いいねぇ」で「（ｗ」なんでしょ。
196 名前：デフォルトの名無しさん mailto:sage [2005/09/12(月) 16:15:53 ]: Chasenは192の方法
197 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 01:21:08 ]: ChaSenがcorpusで学習!!?　なんか凄い勘違いしてるんでないかい。
198 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 07:24:08 ]: 文法だけでできてると思ってるの！？
おめでたいな。
199 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 10:52:26 ]: おめでたいも何も、学習機構なんかどこにも実装されてないじゃないの。
なんでこここんなレベル低いの。
200 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 11:59:11 ]: >>199
学習機構がないなんて言っちゃうレベル低いのはお前
201 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 12:05:15 ]: んー、じゃあ手許にソース一式と辞書があるんで
このどこに学習機構があるのか教えてちょ
202 名前：デフォルトの名無しさん [2005/09/13(火) 16:14:18 ]: なんでこんなに荒れてんだｗ

コーパスから確率モデルを計算してるのは確かだから
そういう意味では学習しているけど
毎回モデルを計算しているのではなく
毎回計算しているのはコストだろ
203 名前：デフォルトの名無しさん mailto:sage [2005/09/13(火) 16:24:18 ]: 最近あまりにしょうもないレスが多かったもんで。
正直おとなげなかった。スマソ
204 名前：デフォルトの名無しさん mailto:sage [2005/09/14(水) 01:31:54 ]: 官能小説のエロさを形態素解析による数値化という研究を考えて
教授のところにいってきたんだけど5時間正座させられてお説教された
ひどい
205 名前：デフォルトの名無しさん mailto:sage [2005/09/15(木) 01:53:47 ]: つまらんネタだ
206 名前：デフォルトの名無しさん mailto:sage [2005/09/15(木) 03:07:38 ]: >>204
当たり前だ馬鹿。

おまえ自分の論文見せてくれって言われたとき困らないとでも思ったのか？
207 名前：デフォルトの名無しさん mailto:sage [2005/09/15(木) 05:53:09 ]: 感性情報処理とかそれっぽい言葉を絡めて書けば普通に通りそうなもんだけどな。
形態素解析でエロさが出るかバカという点では教授に同意。
208 名前：デフォルトの名無しさん mailto:sage [2005/09/16(金) 23:03:16 ]: 文学部なら普通に通りそうなテーマだな、
そつぎょうかだいせいさく　くらいの軽いノリで
209 名前：デフォルトの名無しさん mailto:sage [2005/09/16(金) 23:23:41 ]: 料理本の単語を○にするとエロくなる事について。
210 名前：デフォルトの名無しさん [2005/10/08(土) 00:05:44 ]: MeCab: 形態素解析エンジンをコマンドラインで使う事って可能ですか？
　/bin/mecab -Oyomi "今日は良い天気ですね。"
見たいな感じです。
エロい人お願いします。
211 名前：デフォルトの名無しさん [2005/10/08(土) 04:17:19 ]: PHPからMeCabやkakasiを利用可能ですか？
出来るならどの様に使うか教えてください。
212 名前：デフォルトの名無しさん [2005/10/10(月) 03:56:52 ]: 条件付確率場って何？
213 名前：デフォルトの名無しさん mailto:sage [2005/10/17(月) 00:07:07 ]: らふぁてー
214 名前：デフォルトの名無しさん [2005/11/11(金) 22:09:52 ]: 最近暇だったので bayes とか弄ってた。
英語コーパスを元に、thisisapen を this/is/a/pen に区切ってみたり。
"t-h" の確率を "t- -h" の確率と比較して正規化して合計するだけだが、
未知語もそれなりに上手く分けられる予感。超遅いが。

で、これをどうやって日本語の形態素解析に応用すればいいのかが
分からん。英語みたいに既に区切られた分けられた情報に頼るってのも、
結局辞書を人様が作ってるみたいで、なんかヤダ。

教えてエラい人！
215 名前：デフォルトの名無しさん mailto:sage [2005/11/11(金) 22:57:37 ]: >>214
たくさんテキスト食わせて比較してみたら～
216 名前：仕様書無しさん mailto:sage [2005/11/12(土) 21:20:29 ]: >>214
カナを一旦ローマ字（訓令式がいい）に変換してから処理してみ。
活用の処理が一気に楽になるから。
217 名前：仕様書無しさん mailto:sage [2005/11/15(火) 22:07:43 ]: 日本語文用の、語彙ベースの検索エンジン（用言は語幹で検索、
体言は異表記も認める）を作ってみたのだが、
・Web上のどのサイトを検索対象にするか
・インデクスはすでに存在するとして、鍵語の集まりから
効率よく対象のページを検索する問合せ（SQLを想定）はどう
生成するか
で詰まっている。小規模な検索（たとえば自分のマシンにある.txt
ファイルだけを対象とするとか）だったら悩まなくて済むのだが、
なんか面白い用途ってないもんだろうか。
218 名前：デフォルトの名無しさん mailto:sage [2005/11/15(火) 22:30:44 ]: 昔はえろえろあった、おもしろい機能を持ったサーチエンジンも
ほとんど淘汰されて消えちゃったからね。

正規表現で検索できるサーチエンジンとか作らない？
#小規模検索はestraireがありゃいいや
219 名前：仕様書無しさん mailto:sage [2005/11/15(火) 23:05:26 ]: > 正規表現で検索できるサーチエンジンとか作らない？
それってgrepって言わないか？(^_^;)
冗談はともかく、その部分は
・インデクスにどんな情報を持たせるか（インデクスDB設計）
・インデクスを抱えてるDBサーバにどんな問合せをするか（DBインタフェース）
・問合せに対して、どれだけレスポンスを上げるか（探索戦略および
チューニングの問題）
なので、形態素解析とか日本語処理とかとは別の話題かと。
DBインタフェースの一部として、自然言語インタフェースとか考えるなら
また別なのだが。
220 名前：デフォルトの名無しさん mailto:sage [2005/11/16(水) 11:29:06 ]: 正規表現検索で有用なインデックスがつけられるものなら、
とっくにRDBMSについてると思う……。
221 名前：デフォルトの名無しさん mailto:sage [2005/11/18(金) 13:21:33 ]: えらくタイミングよくestraierに正規表現サポートが入ったな
222 名前：ハーピィ mailto:sage [2005/12/05(月) 02:45:15 ]: E・∇・ﾖﾉｼ　＜222ｹﾞｯﾄ♫
223 名前：Mb [2006/03/14(火) 22:37:45 ]: 復帰age
224 名前：http://www.vector.co.jp/soft/win95/util/se072729.html mailto:http://msdn2.microsoft.com/ja-jp/library/h2k70f3s.aspx [2006/03/18(土) 20:27:21 ]: TextSS　のWindowsXP(Professional)64bit化おながいします

もしくは64bitにネイティブ対応したテキスト置換ソフトありますか？
225 名前：デフォルトの名無しさん [2006/04/10(月) 21:57:43 ]: あげとくね。
226 名前：デフォルトの名無しさん mailto:sage [2006/04/11(火) 15:06:25 ]: 漢字の文字コードが読み仮名情報を保持してれば、
形態素解析って楽になると思うんだけど、そんな仕様ないの？
227 名前：デフォルトの名無しさん [2006/04/11(火) 16:20:34 ]: これは何の釣りだ？
228 名前：デフォルトの名無しさん [2006/04/11(火) 21:42:17 ]: >>226
www.doraneko.org/webauth/ruby/19981221/Overview.html
これのこと？

実際の現場では、形態素解析ソフトを使って文章にルビふってるけども？
229 名前：デフォルトの名無しさん [2006/04/27(木) 09:14:19 ]: 茶筌やめかぶが覚えてる学習用コーパスって何万語位何ですか？

めかぶが自力でコーパスの学習出来るので遊んでみたいのですが、
学習コーパスをどの位用意しなきゃならないか、わからないので。
230 名前：デフォルトの名無しさん mailto:sage [2006/04/27(木) 17:23:39 ]: IPADICとかなしに、巨大なコーパスから辞書を作る、
そんな方法ってないんかのう。
231 名前：デフォルトの名無しさん [2006/04/27(木) 18:42:23 ]: >>230
圧縮ソフトのアルゴリズムが利用できるかも？
辞書式ってのは、よくでてくるビット列に短い符号を割り当てるんだから、
そのあたりを応用すれば、単語としてよくあるものが抽出されると思う。
ただし品詞タグ付は無理だろうけど。

このアイデアはどう？

で、めかぶや茶筌が動くコーパスはどの位の大きさが必要なのかなぁ？
だれか知ってる人いない？
232 名前：デフォルトの名無しさん mailto:sage [2006/04/27(木) 19:06:56 ]: ハッシュでインデックス作って放り込めば100万語くらいは軽いんじゃない？
つか、俺はそうやってる。
233 名前：デフォルトの名無しさん [2006/04/27(木) 19:18:10 ]: >>232
それは>>230へ対する回答？
それとも>>231へ対する回答？

辞書で100万語は多すぎるし(辞書になってない)
学習コーパスの必要量なら、文章が良くわからない。
234 名前：デフォルトの名無しさん [2006/04/27(木) 22:13:57 ]: 日本語を書くと意味解析して、それにそったプログラムに変換し
コンパイルして実行してくれる研究プロジェクトはありますか？
235 名前：デフォルトの名無しさん mailto:sage [2006/04/27(木) 22:50:44 ]: 正直もうn-gramで良いと思いました。
236 名前：デフォルトの名無しさん [2006/04/28(金) 07:20:22 ]: >>234
計算機言語が覚えられない程度の馬鹿は、
日本語でも業務をまともに記述できないから、
そんな研究しても無意味だと思うけど、
やってる人はいると思う。
237 名前：デフォルトの名無しさん mailto:sage [2006/08/25(金) 22:38:25 ]: こーんな感じにぐわーっとやってくれ。ぐわあああっと。
238 名前：デフォルトの名無しさん [2006/08/26(土) 02:05:17 ]: >>235
ｳﾘもｳﾘも
239 名前：デフォルトの名無しさん [2006/08/31(木) 21:50:25 ]: 不明単語を抽出するってどうやるんですか？
240 名前：デフォルトの名無しさん mailto:sage [2006/08/31(木) 21:52:24 ]: わかってるたんごをぜんぶとっぱらって
のこったのがふめいたんごー
241 名前：デフォルトの名無しさん mailto:sage [2006/08/31(木) 21:59:26 ]: >>240
分かっている単語が無いです。
どこかにフリーの単語辞書はありますか？
茶筌についてきますか？
242 名前：デフォルトの名無しさん mailto:sage [2006/08/31(木) 22:04:22 ]: [XXxXXxx] 12:28 フッ・・・だが！俺のエキゾチックマグナムをもってすればっ！

みたいな文から「エキゾチックマグナム」を不明単語として抽出したいです。
茶筌でできますか？

あとベイズって

P = [馬][鹿] / ( [馬][鹿] + [^馬][^鹿] )

みたいな感じで使うものなんですか？
243 名前：デフォルトの名無しさん mailto:sage [2006/09/01(金) 07:43:11 ]: 「エキゾチック」と「マグナム」が既知の単語になっている限り
形態素解析器で「エキゾチックマグナム」を形態素として取り出すのは不可能と思われ
解析できてしまうからね

複合語の抽出には形態素解析とは別のアプローチが必要
244 名前：デフォルトの名無しさん mailto:sage [2006/09/02(土) 12:33:38 ]: メーカ子会社左遷者の楽園
245 名前：デフォルトの名無しさん [2006/09/13(水) 04:24:11 ]: >>243
＞複合語の抽出には形態素解析とは別のアプローチが必要
「従来の形態素解析」とは、なんじゃ・・・・
形態素解析について詳しい訳じゃないけど、複合語抽出を
構文解析とみるか、形態素解析と見るかで言えば、形態素解析の範疇だと思うけど、
「いいや,構文解析だ！！」と叱られてしまうと、嫌な気分になって言い返せないし、
「これこれこういう理由が有って構文解析だ！！」と言われると一つ勉強になるので
ありがたい。

とわいえ、形態素解析、複合語抽出、構文解析、と言う話も有るとも思うし。
246 名前：デフォルトの名無しさん mailto:sage [2006/09/15(金) 04:05:27 ]: 複合語を形態素として取り出す
だなんて意味不明なレス相手にマジレス乙
247 名前：デフォルトの名無しさん mailto:sage [2006/09/15(金) 16:32:39 ]: 質問者の要求がそういうことだから不可能だと書いてるんじゃ
248 名前：242 mailto:sage [2006/09/23(土) 23:37:34 ]: 回答ありがとうございます。
つまり形態素解析後、「エキゾチック」と「マグナム」の組み合わせが
未知のものであるか？という判定を何らかの方法で行わないと、
複合語を不明単語として取り出すことはできないということですね。

オタ同士の会話だと、即席の複合語がその場で作られたりすることも
あるので、難しいですね・・・。
249 名前：デフォルトの名無しさん mailto:sage [2006/09/24(日) 00:28:24 ]: そもそも一意の解析結果を得ることが不可能だと気づけ。
「エキゾチック＋マグナム」が98%、「エキゾチックマグナム」が1%、その他が1%、
みたいな解析結果のほうが、現象の記述としてより忠実。
250 名前：デフォルトの名無しさん mailto:sage [2006/09/24(日) 07:29:35 ]: ネイティブ（つまり日本人）に聞いたとしても
「エキゾチックマグナム」を1語と思うか2語と思うかは意見が分かれるだろうからね
251 名前：デフォルトの名無しさん [2006/10/10(火) 19:18:09 ]: mecabと一緒に配布されてる辞書を可変して流用したいけど、著作権的に大丈夫だろうか。
252 名前：デフォルトの名無しさん mailto:sage [2006/10/10(火) 19:21:22 ]: >>249
その辺は使用頻度＝単語の区分けという認識で問題ないのでは？
253 名前：デフォルトの名無しさん mailto:sage [2006/10/10(火) 19:22:10 ]: まあ辞書自体に頻度表がついてるものはないがｗ
254 名前：デフォルトの名無しさん [2006/10/10(火) 19:27:55 ]: >>253
形態素辞書ならたいてい付いているんじゃないの？
255 名前：デフォルトの名無しさん mailto:sage [2006/10/10(火) 20:18:15 ]: >>254
そんなのが本屋売ってるかよ
256 名前：デフォルトの名無しさん mailto:sage [2006/10/10(火) 23:18:07 ]: >>255
広東語でおｋ
257 名前：デフォルトの名無しさん mailto:sage [2006/10/11(水) 03:27:58 ]: 形態素的辞書没有
258 名前：デフォルトの名無しさん [2006/10/11(水) 12:21:56 ]: 中国語の形態素解析
259 名前：デフォルトの名無しさん mailto:sage [2006/10/11(水) 14:16:40 ]: 漢語的形態素解析
260 名前：デフォルトの名無しさん [2006/10/12(木) 12:28:22 ]: 例えば「書きながら」をmecabにかけると、

書き：動詞,自立,*,*,五段・カ行イ音便,連用形,書く,カキ,カキ
ながら：助詞,接続助詞,*,*,*,*,ながら,ナガラ,ナガラ

が吐かれるけど、辞書を見ると「書き」自体の文字情報はなく、
あるのは「書く,カキ,カキ」だけ。
活用の解析はどうやってるんだろう。
単純に読みだけを見るとしても、漢字1文字=読みのカナ1文字とは限らないし。
261 名前：デフォルトの名無しさん mailto:sage [2006/10/12(木) 19:23:37 ]: 書き＋カ行イ音便つう形態素辞書エントリーだけで、
書か(ない)、書き(ます)、書く、書け、書こう
みたいな検索が全部ひっかかる、それだけの話だと思うけど。
262 名前：デフォルトの名無しさん mailto:sage [2006/10/12(木) 19:25:39 ]: >>252
使用頻度∝単語区分けの適合確率
だろｗｗｗｗ
263 名前：文学 mailto:sage [2006/12/18(月) 03:52:31 ]: mecabで読み仮名を取得するには
どうやればいいのでしょうか？
264 名前：デフォルトの名無しさん mailto:sage [2006/12/18(月) 12:43:32 ]: まにゅある嫁
265 名前：デフォルトの名無しさん mailto:sage [2006/12/25(月) 20:00:37 ]: 民明書房刊「マニュアル嫁」
第六章結婚前後の諸心得
　第二節甘美な新婚旅行

　- 入浴をするとき -
夫としては、
「どうです、一緒に入りませんか」
　というのが一応のエチケットとなっている。しかしお互いにまだ清浄な関係
である場合には、新婦としていきなりその言葉に従い、いそいそとして夫につ
いて行くのはどうかと思う。初夜が済むまでは矢張り、ほのかな羞恥の色を漂
わせながら、にこやかに
「ええ、でも、あとでいただきますわ」
　と柔かく辞退して別々に入浴する方が好ましい。夫としてもそれが花嫁のエ
チケットだと思って、しつこくすすめないことである。
　しかし初夜が済んでからは、最早や完全な夫婦となったのであるから、二人
で入る方が却ってよろしい。そうだからといって、矢張り女としてのはにかみ
は忘れてはならない。湯船に入るときでも
「おねがい、向う向いてて」
　などといっておいて、静かに入る。また湯船の中でも、乳のあたりへはタオ
ルを軽く当てて、ともかく露骨になるようなことは避けなければならない。
266 名前：デフォルトの名無しさん mailto:sage [2006/12/25(月) 21:01:31 ]: >>265
わっふる、わっふる
267 名前：デフォルトの名無しさん mailto:sage [2006/12/26(火) 01:15:36 ]: YOMIのRESTってどうやって使うんすか？
268 名前：デフォルトの名無しさん mailto:sage [2007/01/02(火) 03:50:30 ]: ttp://e8y.net/repos/lou_trans/lou.cgi

!!!
269 名前：デフォルトの名無しさん mailto:sage [2007/01/02(火) 04:44:54 ]: 何故かcgiコードが丸見え
270 名前：デフォルトの名無しさん mailto:age [2007/02/02(金) 12:06:30 ]: NTTが作ったすももってどうやれば入手できるの？
なんかデッドリンクで公開ページがないんだけど。
mecabより強力なら是非手に入れたい。
ついでにage
271 名前：デフォルトの名無しさん mailto:sage [2007/02/07(水) 15:14:44 ]: MORPHOLOGY

↑なんか異常にかっこいい
272 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 18:18:07 ]: 外国人がローマ字で表記した口語体の日本語を
漢字仮名まじりの通常の表記に効率的に
変換するために役立ちそうなソフトウェアを
探しています。

例：
kekkou kireinagakkou zyanai
結構　奇麗な学校　じゃない

全自動変換では間違いが多そうなので，ソフトウェアが
提示するいくつかの変換候補の中から，正しいものを日
本人のオペレータが選ぶ，という作業を考えています。

少しでも作業効率を上げるためのヒント，ソフトウェア
などはございますでしょうか？
273 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 23:05:46 ]: 例を見る限り形態素に分かれているかいないかは任意か
面倒くさいなり
274 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 01:18:55 ]: ローマ字のテキストをソフトに音読させて、それを聞きながら
オペレータがワープロ入力するのが一番速そうな気がする。
275 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:57:06 ]: >>272
それは俺らが日本語を入力するとき使うのと同じ仮名漢字変換に、
何らかの方法でテキストを渡せばできそう。
276 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:59:35 ]: >>272
LinuxならAnthyでできたよ。最後の(space)は変換用。
$ echo "kekkou kireinagakkou zyanai(space)" | anthy-agent
(3 ((UL RV) "結構" 0 7) ((UL) "きれいな" 0 4) ((UL) "学校じゃない" 0 3))
277 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 22:03:33 ]: >>274
速記をなめてね？
278 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 23:36:56 ]: >>275
はい、そこまでは理解できますが、実際にどのような
方法で可能かが分かりません。

>>276
素晴らしく分かりやすい実例までありがとうございます。
Anthyを試してみます。
279 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 10:31:03 ]: そういやajaxでIMEってのあったよね
あれ、どういう仕組みなんだろ
280 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 12:15:07 ]: JavaScriptからIMEを少しだけ弄れたようなきが。
多分JavaScriptよりもっと干渉できるやつでも使ってるんじゃないの？DirectXとか。
281 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 22:14:27 ]: >>280
chasen.org/~taku/software/ajax/imekwic/

連休中なので、動いていない？
282 名前：デフォルトの名無しさん mailto:sage [2007/05/07(月) 09:59:40 ]: こっち。
ajaxime.chasen.org/index.html
283 名前：デフォルトの名無しさん [2007/08/31(金) 15:47:46 ]: sage
284 名前：デフォルトの名無しさん mailto:sage [2007/09/01(土) 13:46:11 ]: そもそも、公式文章でも方言のような専門用語や表現方法が多様しているのに
地方や皇族、政治、あらゆる専門分野、日本語が１つだと定義すれば扱えない
言葉や用語だらけになる。
会話言葉と目的別文章でも激しく特定できない。
>>1
>まず単語や品詞に分ける必要があります。
機械的な言葉の分類遊びならともかく。。。。。。
これは正しいとはいえない。言葉というのは柔軟性があり生き物である。
別ける時点で意味が変更されることもある。ある程度まとまった文節で
巨大辞書で判断するのが妥当でしょう。
文法で明らかに変でも通常の言葉として扱われているものとかＮＨＫとかで
時々解説放送がある。それらは言葉が生き物であることを証明するもので、
日本語は言葉として扱うのではなく、概念として扱うべきです。
翻訳が正しくても作成者の意味が通じないのでは翻訳としてはできそこないです。
日本語を正しく扱えるには価値観とその雰囲気、心を読み解く抽象認識処理が
必須になるでしょう。
285 名前：デフォルトの名無しさん mailto:sage [2007/09/01(土) 20:28:27 ]: と、へんてこ日本語モドキで力説されてもなあ。
286 名前：デフォルトの名無しさん [2007/09/02(日) 08:49:46 ]: 拓ちゃんがいるのに
最近のグーグルの調子はおかしいよね
287 名前：デフォルトの名無しさん mailto:sage [2007/09/05(水) 19:11:28 ]: >>276
anthy-agent にひらがな入力する方法はないのかな。
288 名前：デフォルトの名無しさん mailto:sage [2007/12/19(水) 18:41:14 ]: 質問です！！
yahoo!の形態素解析使ってるんですがreadingがうまく表示されません。
surface pos readingと表示させようとしたら
美しい　形容詞　形容詞　となぜか、readingにも品詞が入ってるみたいな気がします。
reading単体で使ってもなぜか品詞が返ってきます。

どなたか助けてください。。。
289 名前：デフォルトの名無しさん mailto:age [2007/12/19(水) 18:42:48 ]: ageマス。
290 名前：デフォルトの名無しさん mailto:age [2007/12/19(水) 18:43:54 ]: 必死で申し訳ありませんが、ルビーを使ってます。
291 名前：デフォルトの名無しさん [2008/02/04(月) 10:20:29 ]: 形態素まで行かずに単語分解だけをしようと思います
言語を文書から自動生成したい

こんなのありますよ　参考に

辞書不要の形態素解析エンジン「マリモ」とは　www.atmarkit.co.jp/news/200708/15/mooter.html
292 名前：デフォルトの名無しさん [2008/02/04(月) 10:24:54 ]: 各文書を特徴づける重要語を計算して、
どの文書でも重要でない単語を無視すれば良い単語帳が作れるはず

TF・IDF法
nlp.nagaokaut.ac.jp/wiki/wiki.cgi/term?page=TF%A1%A6IDF
293 名前：デフォルトの名無しさん [2008/02/04(月) 11:16:52 ]: d.hatena.ne.jp/nskt0628/
ここなかなかいいよ
294 名前：デフォルトの名無しさん [2008/02/04(月) 12:16:30 ]: 類似語とそうでないものを判別するにはどうすればいいですか

類似語　
勝利　大勝利

類似語でない
本人日本人
カウントアカウント
京都東京都
295 名前：デフォルトの名無しさん mailto:sage [2008/02/04(月) 12:18:23 ]: お前が今分けた手順でおｋ
296 名前：デフォルトの名無しさん [2008/02/04(月) 12:25:33 ]: >>295
自動化したいのですが　こういうやつはどうやればできますか
labs.preferred.jp/reflexa/
297 名前：デフォルトの名無しさん [2008/02/04(月) 12:35:09 ]: 類似語が分類できるならば、単語分解もそこに含まれるから
類似語の分類をするルーチン作ろうぜ
298 名前：デフォルトの名無しさん [2008/02/04(月) 13:47:37 ]: 単語らしさはどうやって判定したらいいですか
あと形態素解析はあまり有効でない気がします
何故ならば日本語研究が必須になってしまう為です　韓国や中国に対応できないし

素解・・・あり得ない
形態素・・・ある
本語・・・あり得ない
日本語・・・ある

というのを数値的に表したいものです
299 名前：デフォルトの名無しさん [2008/02/04(月) 22:40:26 ]: 日本語の文法の知識が全くない状態から、品詞分解とその接続を求めることは出来るのでしょうか
300 名前：デフォルトの名無しさん [2008/02/04(月) 22:46:53 ]: 類似単語が判れば、それを同一視することで類似文書が判りますね
１単語のズレのある類似文書から品詞分解が判りますかね
たとえば
僕は釣りをします　→　僕　は　釣り　を　します
私は料理をしますわ　→　私　は　料理　を　しますわ　→　僕　は　料理　を　します

とすると、釣りと料理は同じ分類だと判明します
301 名前：デフォルトの名無しさん mailto:sage [2008/02/04(月) 22:51:21 ]: >>298
文法研究をすっ飛ばして考えるなら、
文章のログから部分共通文字列を探せば見つかるような気がする。
302 名前：デフォルトの名無しさん [2008/02/05(火) 00:22:01 ]: 圧縮接尾辞配列っていいみたいだけどわかる人いますか
303 名前：デフォルトの名無しさん [2008/02/05(火) 00:57:54 ]: 圧縮接尾辞配列ってブロックソーティング、Burrows-Wheeler変換やるみたいだね
304 名前：デフォルトの名無しさん [2008/02/05(火) 06:37:27 ]: バカ過ぎる
305 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 09:54:40 ]: >>294
京都と東京都は、地名として考えたら類似じゃない？
306 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 11:15:02 ]: 狂都
東狂都
307 名前：デフォルトの名無しさん [2008/02/05(火) 11:42:17 ]: 圧縮接尾辞配列を調べたけど、大規模なインディックスにはむかないと思う
インディックスサイズが小さくできても
ウェブページのようにメモリに全て載せられないなら検索速くならないし・・・
308 名前：デフォルトの名無しさん [2008/02/05(火) 11:44:29 ]: 向いているのはCHMの代わりになる位だな　
ファイルサイズ小さくできてサイズの3～5倍のメモリ消費ですむだろうから
309 名前：デフォルトの名無しさん [2008/02/05(火) 11:55:19 ]: ↓こう書いてあるけど絶対にこの方針ではgoogleの足下にも及ばないと予測する

「Googleの弱点を克服したアルゴリズムによる検索エンジンを世界で初めて実装した」
Sedue：圧縮接尾辞配列を実装した初の商用検索エンジン
itpro.nikkeibp.co.jp/article/NEWS/20070209/261537/
310 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 19:13:35 ]: >>309
接尾語処理なんて、google以前から大抵の検索エンジンでやってたことなのに・・・
311 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 20:19:16 ]: suffix arrayでぐぐっとけ、カスが
312 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 22:12:20 ]: バカ過ぎる(笑)
313 名前：デフォルトの名無しさん [2008/02/06(水) 12:52:48 ]: 各単語の出現確率を調べておきもっとも確率の高い分割をもとめればいいと思う

たとえば、日本語はご存じの通り、文章が単語で区切られていません、なら

日　本語　は　ご　存じ　の通　り、　文　章が　単　語で区　切られて　い　ま　せん　の確率は0.01%

日本語　は　ご存じ　の　通り　、　文章　が　単語　で　区切られて　いません　だと10%

とか計算できればよい
314 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 21:24:05 ]: >>313
ひょっとしてマルコフ連鎖のことを言いたい？
315 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 22:35:11 ]: 文字列をビット単位で連鎖の統計取ればデータ蓄積量の多さによっていつかは統計的な形態素解析器ができるはず！！！！１１１
316 名前：デフォルトの名無しさん [2008/02/07(木) 04:54:43 ]: >>314
マルコフ連鎖とは違う
前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
317 名前：デフォルトの名無しさん [2008/02/07(木) 05:05:06 ]: もっとも単語になりやすそうな部分で区切ることで計算量は減らせるはず
たとえば、文書が１単語となる確率が高いなら、次のように分割され残りの文書は短い

たとえば、日本語はご存じの通り、

文章

が単語で区切られていません
318 名前：デフォルトの名無しさん [2008/02/07(木) 05:16:59 ]: first loaded.
319 名前：デフォルトの名無しさん [2008/02/07(木) 05:30:29 ]: 　
日本語￥n+xは￥n+x単語￥n+xに￥n+x拠って￥n+x区切られ￥n+xます￥n+x。　
ですが￥n+x、￥n+x詳細￥n+xの￥n+x作成￥n+xは￥n+x大変￥n+xな￥n+x事￥n+xでしょう￥n+x… 　　
320 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 07:21:39 ]: >>316
だからマルコフ連鎖をA*探索したのとどう違うんだって？
321 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 21:14:40 ]: naist-jdic ﾏﾀﾞ－?
322 名前：デフォルトの名無しさん [2008/02/07(木) 23:29:31 ]: >>320
前後のつながりだけじゃないって書いてるじゃん。
323 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 23:36:23 ]: ＞前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
ここをもうちょっと formal な形で言わないと伝わらないと思われ
どういう確率モデルを想定しているのか。つーか俺にも伝わってない
単語分割をマルコフ連鎖でモデル化したのなら >320 の指摘通りだと思うのだが
324 名前：デフォルトの名無しさん mailto:sage [2008/02/10(日) 16:31:23 ]: このへんとか
www.amazon.co.jp/%E8%A8%80%E8%AA%9E%E3%81%A8%E8%A8%88%E7%AE%97-4-%E7%A2%BA%E7%8E%87%E7%9A%84%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB-%E5%8C%97-%E7%A0%94%E4%BA%8C/dp/4130654047
325 名前：デフォルトの名無しさん mailto:sage [2008/02/10(日) 16:37:25 ]: >>324
ああ、その本はいい本だよ。B4のゼミとかに丁度いいんじゃないかな。
326 名前：デフォルトの名無しさん mailto:sage [2008/02/11(月) 08:21:36 ]: 結局313が何を言いたかったのかは謎なまま時は過ぎてゆく…
327 名前：デフォルトの名無しさん [2008/02/23(土) 13:44:46 ]: 音声の検索システムできた。
328 名前：デフォルトの名無しさん mailto:sage [2008/02/23(土) 14:13:43 ]: ソースうp
329 名前：デフォルトの名無しさん [2008/03/27(木) 07:31:14 ]: >MySQLおよびPostgreSQLで日本語キーワードインデック
>スを実現しているもの(Sennaおよびtextsearch-ja)は、
>現在バックエンドエンジンとしてMecabを推奨してい
>るようです。

あるフォーラムあらのコピーですが、本道だとすると、
すごいですね？！ AppleのOSXの日本語処理もMecab?

Mecabの一人勝ちか。
330 名前：デフォルトの名無しさん mailto:sage [2008/03/29(土) 01:45:22 ]: >>329
>AppleのOSXの日本語処理もMecab?

そうなん?
Mac OS X には Language Analysis Manager というのがあるけど。
ありゃ、リファレンスを見ると Leopard から deprecated だな。
331 名前：デフォルトの名無しさん mailto:sage [2008/04/05(土) 11:11:05 ]: >>330
おっと、ちょっと調べたら確かにMeCabが使われてるね。知らんかった。
332 名前：デフォルトの名無しさん mailto:sage [2008/04/05(土) 23:48:58 ]: なさけねえな、Apple
スピーチ周りでVocaloid時代を十数年先取りしてた企業のくせに
自社技術捨ててオープン物に蔵換えか
そろそろジョブズ氏ねよ
333 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 06:31:49 ]: >>332
初音ミクのApple版でも出せってかw
まー形態素解析ってメインは日本語とかでしょ。アジア方面はもともと「二の次」感が。

オープンソースで手に入る共通な技術があったなら使わせてもらう、というのが流れ
なのかなあと。もう何から何まで自家製というんじゃなくて、企業として独自性を
打ち出す部分だけ頑張る、みたいな感じなんじゃないかな。
334 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:37:41 ]: しょうがないよ、マック信者は舶来物信者だから、アジア方面に力を入れないほうが売れるんだよ。
335 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 21:10:16 ]: ただのりあぽーか。
336 名前：デフォルトの名無しさん mailto:sage [2008/04/22(火) 02:47:39 ]: blog界隈で信者のMac IMEを褒めたたえる声が目立つと思ったら、
オープンものに頼った結果ってことか。
奴らの言う最先端とやらは素晴らしい技術力だことで（呆

MS-IMEの糞っぷりも失笑ものだが、
Macの信仰のしどころの間違いっぷりは抱腹絶倒だな
337 名前：デフォルトの名無しさん mailto:sage [2008/04/22(火) 07:44:33 ]: Mac に IME なんて無いけどな。
338 名前：デフォルトの名無しさん mailto:sage [2008/04/27(日) 00:53:20 ]: 今はもうInput Method EditorのEはつけずにIMって呼び方のほうが一般的じゃない？

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef