[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 2chのread.cgiへ]
Update time : 01/06 13:42 / Filesize : 188 KB / Number-of Response : 765
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

mozc / Google 日本語入力 #1



1 名前:login:Penguin [2010/05/13(木) 11:58:50 ID:e7jJ/yN9]
code.google.com/p/mozc/
ref.
sourceforge.jp/magazine/10/05/11/0335246
googlejapan.blogspot.com/2010/05/google_10.html

360 名前:login:Penguin mailto:sage [2010/06/05(土) 09:19:22 ID:fhMYXk7C]
人力でどうこうやるのはGoogleの文化じゃないんだろう。


361 名前:login:Penguin mailto:sage [2010/06/05(土) 09:29:33 ID:r9Lhvdmg]
なんじゃこりゃ系の登録

わーほりいぎりす 2239 2239 8157 ワーホリイギリス
ーとくん 2239 2319 6228 ートくん
ーままさん 2239 2319 7097 ーママさん
ヾの 2239 2239 8280 ヾノ
ぇんと 2239 243 7023 ヴェンと
いきちやん 2303 2303 8986 益暢
けんてんのう 2303 2239 7136 謙天皇
(孝謙天皇?)
このごろろ 2290 2239 7931 このごろろ
こんじょうてんのう 2239 2239 7590 今上天皇
(きんじょう)
こんすか 2979 2239 7552 今スカ
こんすたじお 2979 2239 7788 今スタジオ
こんすたっふ 2979 2239 7540 今スタッフ
こんすとれす 2979 2239 7788 今ストレス
こんすぽーつ 2979 2239 7626 今スポーツ
こんすーぱー 2979 2239 7227 今スーパー
こんせいかつ 2979 2234 7293 今生活
こんせいふ 2979 2239 7841 今政府
こんせいり 2979 2234 7849 今整理
こんせいり 2979 2239 7392 今生理
こんせけん 2979 2239 6929 今世間
こんせっけい 2979 2234 7924 今設計
こんせっと 2979 2239 7746 今セット
こんせつめい 2979 2234 7180 今説明
こんせぶん 2979 2301 6735 今セブン

適切な表現も混じってるかもしれないが、収録するほどでもないだろと

362 名前:login:Penguin mailto:sage [2010/06/05(土) 09:38:44 ID:r9Lhvdmg]
>>360
まあなあ。

Google IMEの辞書ぐらい質を量で押し切ればいいんだろうけど、
現状だと中途半端な感じ

363 名前:login:Penguin mailto:sage [2010/06/05(土) 10:12:08 ID:D5PsWP6U]
>>358
しつこいな変換精度くんw
辞書以外のところでmozcがどう変換精度が優れてるのか説明してみろ

364 名前:login:Penguin mailto:sage [2010/06/05(土) 10:38:19 ID:FvoE5wGr]
anthyがバカってことを認められないバカが一匹いるなw

365 名前:login:Penguin mailto:sage [2010/06/05(土) 10:43:36 ID:GieRvdIi]
変な日本語w

366 名前:login:Penguin mailto:sage [2010/06/05(土) 11:44:27 ID:r9Lhvdmg]
こんな記法もあるのか?
{こうたろう/ひろたろう} 2303 2303 5867 廣太郎

あとゴミっぽい収録語の続き
ヶせっと 2239 2239 8037 ヶセット
ヶらヶら 2239 2239 7784 ヶラヶラ
ぁでふぉるまにあこれくしょん 2239 2239 8118 ぁでふぉるまにあこれくしょん
んたーねっと 2239 2239 8085 ンターネット
んでぃーず 2239 2239 8230 ンディーズ
んぷさいと 2239 2239 8410 ンプサイト
んぷふぁいやー 2239 2239 8385 ンプファイヤー
んらんど 2310 2310 5391 ンランド

中黒付きの未知語は取れない?
ばらくおばま 2239 2239 7916 バラクオバマ
バラク・オバマ無し

変わった読みかたのチェックが甘い?
ばり 2239 2239 6859 尿

どこかで出てたご変換(「誤変換」が出ないし「誤」もなかなか出ない)
あいぱっど iPod

「がい 買い」も出にくい。「臥位」よりも後。
「あと 後」の優先度も低いなあ。
「よりも|あと」だと7番目。
「あと」単体でも「跡」より下になる。

367 名前:login:Penguin mailto:sage [2010/06/05(土) 12:26:17 ID:R3XOmDMP]
>>366
イって打ったあと、ンターネットって打ったりする人のために・・

368 名前:login:Penguin mailto:sage [2010/06/05(土) 12:44:57 ID:D5PsWP6U]
>>364
結局変換精度の説明は出来ないってことですね?w



369 名前:login:Penguin mailto:sage [2010/06/05(土) 13:27:13 ID:r9Lhvdmg]
単漢字で出にくいもの。

「ち 日」出るのが早すぎ。そもそも必要?
「こ 子」なかなか出ない。
「だん 男」なかなか出ない。
「くん 組ん」出るのが早すぎ。「君」「くん」を優先。
「じん 腎」出るのが早すぎ。「人」を優先。
「かみ 上」最優先にするものではないと思う。「紙」「神」を優先。
「せい 生」全然出てこない。かなり下にある。
「とう 頭/冬/島など」なかなか出てこない。
「かい 回」なかなか出ない。
「きょう 強」なかなか出ない。
「じ 時」なかなか出ない。
「さる 申」「猿」を優先。

「そよぐ」普通に変換すると「そよぐ」になるが、
「戦ぐ」が第一にサジェストされるのはなぜ?
こういうケース結構ある。

「たんさん 単三」候補がない。

370 名前:login:Penguin mailto:sage [2010/06/05(土) 14:58:33 ID:7VLh6t0e]
>>368
そんなこと言ってると、mozcの変換精度が他と比べてたいしたことないってこと
説明してよと言いたくなるじゃないか。

371 名前:login:Penguin mailto:sage [2010/06/05(土) 15:17:11 ID:R3XOmDMP]
まあ何はともあれAnthy以外に選択肢ができたのはいいことだ。

372 名前:login:Penguin mailto:sage [2010/06/05(土) 16:19:04 ID:SieYDk6Z]
? ATOKがあるじゃん。

373 名前:login:Penguin mailto:sage [2010/06/05(土) 16:32:36 ID:ZADDM2Q0]
>>367
ゴミとか言ってる奴は変換辞書を国語辞典かなにかと勘違いしてるんじゃないの?

基本的には自動収集で大は小を兼ねるって思想だよな、元々の辞書に比べて足りない方が問題。
ケチくさい奴は他の変換使ってればいいよ。

検索屋の発想だから、悪影響のあるゴミはルールで排除って感じでしょ?
結局そこんとこがグーグルの肝なのでフリーになってない訳で。

374 名前:login:Penguin mailto:sage [2010/06/05(土) 17:21:43 ID:rTZo1uGy]
ヶセットは〜個セット、ヶラヶラは笑い声の擬音かな
「こせっと」「けらけら」の読みで変換できるといいね

ところで、「か」「が」「こ」で「ヶ」が出ない

375 名前:login:Penguin mailto:sage [2010/06/05(土) 17:44:16 ID:D5PsWP6U]
>>370
変換精度云々言い出したのは、Googleとmozcをマンセーしてるやつの方。
一般的には選択肢が増えた程度の認識しかない。

376 名前:login:Penguin mailto:sage [2010/06/05(土) 18:00:55 ID:r9Lhvdmg]
>>373
>>362 >>359

>>374
> ヶセットは〜個セット
そうだな。
しかし「けせっと」だと「毛セット」、
「こせっと」だと「小セット」になって、
「ヶセット」が出ない。
sannxkesetto、とかじゃないと出ないな。

Google IMEの辞書から秘密情報を取り除いて、
低頻度の表現をバッサリ削ったもののほうが、
精度としては良くなる気がする。

377 名前:login:Penguin mailto:sage [2010/06/05(土) 18:13:22 ID:r9Lhvdmg]
Mozcで困るのは、先々の方針がよくわからないことだなあ。
これだけ早く設定ツール出すんだったら、
mozc-configの人もCUIまででやめてたんじゃないかな。
(止めてたんじゃないかな、が出ない。)
辞書をチェックするにしてもツール作るにしても
ムダデマ(無駄手間、が出ない)になる恐れがある。
あとで嫌な思いしないように(ように、の順位低い)、
眺める程度のことしかできない。

変換確認にしたって辞書がゴソッと変わったらイチからやり直しだもんな。

378 名前:login:Penguin mailto:sage [2010/06/05(土) 18:31:21 ID:ZADDM2Q0]
>>376
取り除いたら出なくなって駄目駄目だろ。
品詞別にフィルタでも掛けてたんじゃないの?



379 名前:login:Penguin mailto:sage [2010/06/05(土) 18:42:40 ID:ZADDM2Q0]
mozcの作りは聞いた限りでは意外と教科書通りというか、オーソドックスな印象を受ける。
むしろ、最新研究てんこ盛りの筈のanthyの結果が振るわないのがおかしいんだよ。
辞書に関してはmozcに流用しただけで評価されているのだから問題は無さそうなのに。

380 名前:login:Penguin mailto:sage [2010/06/05(土) 19:12:30 ID:ZADDM2Q0]
>>377
選択肢を増やすことを、無駄手間と考えてしまうエコノミックアニマルこそ開発にとって問題なのかもしれない。
例えばGCCがあったからこそ他の開発ツールが対抗して無償化したりした訳で、それと同じだと考えればいい。
大体そんなこと言ってたら、gtkだのqtとかこそ無駄手間でバカバカしい。

381 名前:login:Penguin mailto:sage [2010/06/05(土) 19:58:50 ID:r9Lhvdmg]
時々語尾がおかしいな。
そんなやつが痛な (いたな)
冷静な自分が板 (いた)

やっぱ人名弱いな。
損|正義

やっぱ中黒なしだけか。
ジョニーデップ

現時点での感想。
・ある程度の長さを入力した時の第一表記は筋がいい。
・しかしよくある第二表記を選ぼうとするとなかなか見つからないことがある。
・短い読み入力だと精度がぐっと落ちる。
・特に単漢字に関しては頻出語がなかなか出てこなかったり、
頻出語に変な読みを当てたものが上位に来たり。
(人がチェックしていないのでしかたない)

ちょっとずつ変換する人や、
推敲して部分修正を繰り返す人は、
変換精度のギャップに戸惑うかも。

テストはぜんぶ素もずくでやった。
他の人もテストしてくれるとありがたいな

382 名前:login:Penguin mailto:sage [2010/06/05(土) 20:24:21 ID:ZADDM2Q0]
>>381
実証は大切だけど、そもそも辞書眺めてれば気がつくよ。
ipadic辞書を人がチェックしてないということは有り得なくて、
元々変換とは逆の目的の、漢字を読み下したり解析するための辞書だったからってだけでしょ。

追加分も手動だとかどっかに書いてなかったっけ?
まあフィルタが封印されている以上、吟味するしかないんだろうけど。

383 名前:login:Penguin mailto:sage [2010/06/05(土) 22:54:03 ID:9mDSEu8Q]
>>381
そうやっていちいちダメ変換を調べること自体は悪くないんだけど、
やっぱりある程度のカバレッジを持ったテストデータを作って自動で評価できるようにしないとダメだと思うよ

細かい問題を直したら他のところがおかしくなるなんてざらにあるだろうし、
何でもほいほい辞書に足せば精度が上がるというものでもなかろう

384 名前:login:Penguin mailto:sage [2010/06/05(土) 23:31:30 ID:EmRTT+mM]
>>372
ibusで使えたっけ

385 名前:login:Penguin mailto:sage [2010/06/06(日) 00:45:41 ID:OSNssyVe]
ibus-mozcだよ。

386 名前:login:Penguin mailto:sage [2010/06/06(日) 02:57:14 ID:7kplvdM/]
「云いました」「そんなふうに言いました」みたいに
「いいました」がずれるのは、品詞が細かすぎるからかもなあ。

いい 1258 1258 3354 云い
いい 1258 1258 5388 謂い
いい 1259 1259 0 いい
いい 1268 1268 0 言い

1258 動詞,自立,*,*,五段・ワ行促音便,連用形,*
1259 動詞,自立,*,*,五段・ワ行促音便,連用形,いう
1260 動詞,自立,*,*,五段・ワ行促音便,連用形,いく
1261 動詞,自立,*,*,五段・ワ行促音便,連用形,おこなう
1262 動詞,自立,*,*,五段・ワ行促音便,連用形,おもう
1263 動詞,自立,*,*,五段・ワ行促音便,連用形,使う
1264 動詞,自立,*,*,五段・ワ行促音便,連用形,思う
1265 動詞,自立,*,*,五段・ワ行促音便,連用形,行う
1266 動詞,自立,*,*,五段・ワ行促音便,連用形,行く
1267 動詞,自立,*,*,五段・ワ行促音便,連用形,行なう
1268 動詞,自立,*,*,五段・ワ行促音便,連用形,言う
1269 動詞,自立,*,*,五段・ワ行促音便,連用形,買う
1270 動詞,自立,*,*,五段・ワ行促音便,連用形,違う

「いい/言い」を1258にしたら常に前に出るんだろうな、
少なくとも頻度的には。

前に言葉がないとき1259/1268が弱すぎるのかなあ

387 名前:login:Penguin mailto:sage [2010/06/06(日) 07:05:02 ID:icwZ8Ez7]
いいま 2239 2291 6486 言いま
じゃないの?

388 名前:login:Penguin mailto:sage [2010/06/06(日) 08:18:04 ID:zbnKys/K]
mozc-server+dict入れられないんだけど



389 名前:login:Penguin mailto:sage [2010/06/06(日) 18:53:11 ID:7kplvdM/]
>>387
そうかもと思ったが、違うかもねー。
品詞 2239/2291 言いま の頻度を上げたところで、
品詞 1258/1258 云い にはあまり影響しないんじゃないかな。

単純に同品詞の 1258/1258 言い を作るほうが確実に潰せる。
「他に影響あるかも」と不安になるのであれば、
0 みたいな極端な頻度じゃなく (元の頻度 + 2000) 言い ぐらいにしておけばいい。

何にしても品詞体系をもうちょっと簡素化するか、
1259以降の特殊品詞の項目を1258の一般品詞にも重複登録するほうが
いいんじゃないかと思った。

こんな感じ。
いい 1258 1258 2000 いい
いい 1258 1258 2000 言い
いい 1258 1258 3354 云い
いい 1258 1258 5388 謂い
いい 1259 1259 0 いい
いい 1268 1268 0 言い

抑えめの頻度で登録すればそれほど悪影響もないと思う

390 名前:login:Penguin mailto:sage [2010/06/06(日) 19:07:38 ID:icwZ8Ez7]
>>389
汎用品詞の登録を増やしても先祖帰りするだけでしょ。
接続コストの実測値でパターンが似通っているならクラスタ化しても問題ないと思うけど、
そんなデータあるの?

391 名前:login:Penguin mailto:sage [2010/06/06(日) 22:07:07 ID:NlLwXMcQ]
「おーすとこ」ってやったらサジェストにオーストコリアが出てくるのはさすが。

392 名前:login:Penguin mailto:sage [2010/06/07(月) 03:47:24 ID:szI55KPJ]
はやくQt依存を切ってGtkにしろよ
libqtなんて入れたくないんだよ

393 名前:login:Penguin mailto:sage [2010/06/07(月) 04:18:46 ID:9HlTgDD4]
グーグルアースもQtだし、社の方針でしょ
KDEに乗り換える人が増えそう

394 名前:login:Penguin mailto:sage [2010/06/07(月) 05:00:56 ID:y4gOikgu]
>>392
Gtk版を作ればええやん

395 名前:login:Penguin mailto:sage [2010/06/07(月) 22:43:32 ID:mmfdo0Vn]
工学系で使える辞書欲しいな

396 名前:login:Penguin mailto:sage [2010/06/07(月) 22:53:41 ID:P9Ov0s9m]
>>381
短いとやっぱ弱いのかな?
おもわんが重ワンとなるのに
そうはおもわんと入れるとそうは思わんとちゃんと変換される。
わりと区切って入力するのでちょっと戸惑う。

397 名前:login:Penguin mailto:sage [2010/06/07(月) 23:08:44 ID:LJSwkYCS]
思い
思うとき
思えば
オモワン

なんだろうなこれ。

398 名前:login:Penguin mailto:sage [2010/06/07(月) 23:29:43 ID:LJSwkYCS]
思わぬ が変化したのが 思わん なのか、日本語って難しいな。



399 名前:login:Penguin mailto:sage [2010/06/08(火) 05:34:28 ID:B/3137Xj]
難しいっつうより頭がおかしい。

400 名前:login:Penguin mailto:sage [2010/06/08(火) 10:43:12 ID:X+aW8Khr]
>>396
「思う」という動詞が他動詞で、必ずその前に節を持つからかな?
「思わん」も「ん」が否定の助動詞「ぬ」の音便化なら、未然形に活用してるだけで、
特に不思議でも難しくもないと思うけど。

思わ/ない(ぬ、ん)
思い/ます
思う
思う/とき
思え/ば
思え

401 名前:login:Penguin mailto:sage [2010/06/08(火) 11:58:56 ID:umojQr77]
思はぬ → 思わぬ → 思わん

402 名前:login:Penguin mailto:sage [2010/06/08(火) 15:53:25 ID:M67rsOKg]
>>400
完成した文章を1文単位で分析して頻度を出した場合、
「xxxxである。思わん。xxxx。」みたいな表現はまず出てこない。
だから「思わん」単体だと全然優先されないのかも。

でも実際の入力では考え考え入力するわけだから、
1-3文節ずつぐらいで入力することが多いのだろう。
推敲の過程で「思わん」だけを入力することもよくあるはず。

1文単位で分析して語の結びつきを調べるだけでなく、
1-3文節ぐらいでの優先度も加味して辞書の頻度を出せたらいいのかもね。

まあこれを簡易にやるとしたら、
「思わん」の表記と頻度情報を
汎用動詞のところにも追加することかな。
(手元に資料がないので「思わん」の品詞がどうなってるかわからんけど)
>>389みたいな感じ

403 名前:login:Penguin mailto:sage [2010/06/08(火) 20:56:27 ID:M67rsOKg]
www.google.com/codesearch?q="TODO"+package:"mozc.googlecode.com/svn"
TODO 99件ですか。確かに大変そう。

trunk/src/converter/candidate_filter.cc
136: // This is a temporal workaround for fixing "おそう" => "御|総"
137: // TODO(taku): remove it after intorducing a word clustering for noun.
138: if (candidate_size >= 3 && candidate->nodes.size() > 1 &&

一時的とはいえ、場当たり的にフィルタ作ってもキリがないかも

404 名前:login:Penguin mailto:sage [2010/06/09(水) 22:18:15 ID:nAHqWJMV]
mozc 空気嫁内
anthy 食う清めない

どっちも馬鹿だorz

405 名前:login:Penguin mailto:sage [2010/06/09(水) 22:21:21 ID:f1C41BBe]
空気を読めない、が正しい日本語であって、
変な日本語まで相手にしないといけないからIMって大変だよな。

406 名前:login:Penguin mailto:sage [2010/06/09(水) 22:33:39 ID:Ws4Lks8p]
空気嫁を辞書に載せる必要あるのかって

407 名前:login:Penguin mailto:sage [2010/06/09(水) 22:36:40 ID:RIVNiz1o]
損なことは主っていません
(そんなことは思っていません)

辞書いじったからかと心配したら、
デフォのもずくでもこうだった

>>404
「てにをは」抜きはユーザのバカもちょっとある。
リロードしたら>>405が書いてたか

408 名前:login:Penguin mailto:sage [2010/06/09(水) 23:12:10 ID:nAHqWJMV]
mozc それは位置理あるぜ
Anthy それは一理あるぜ

やっぱmozc馬鹿だ
変換精度とか言ってた馬鹿出てこい



409 名前:login:Penguin mailto:sage [2010/06/09(水) 23:12:47 ID:SiUAEJXW]
>>406
とりあえずオレのTENGAに謝ってくれるかね

410 名前:login:Penguin mailto:sage [2010/06/09(水) 23:15:32 ID:nAHqWJMV]
>>407
mozc そんなことは主っていません
Anthy そんなことは思っていません

やっぱmozc馬鹿だ
↓こういう馬鹿
364 名前:login:Penguin [sage]: 2010/06/05(土) 10:38:19 ID:FvoE5wGr
anthyがバカってことを認められないバカが一匹いるなw


411 名前:login:Penguin mailto:sage [2010/06/09(水) 23:22:03 ID:NYLHc+6y]
一度変換したらサジェストで出るのが賢いって事じゃないの?
物を知らない奴とバカな奴は別だな。

412 名前:login:Penguin mailto:sage [2010/06/09(水) 23:26:36 ID:mucBmdtX]
ごくわずかな部分を見て全体をわかったつもりになる馬鹿

413 名前:login:Penguin mailto:sage [2010/06/09(水) 23:36:17 ID:qhED6547]
>>408
あなたが使っているAnthyは「素」のAnthy?
それともUTUMIさんのModified Anthy?

私はmozcもAnthyもどちらか一方に肩入れするつもりは無いが、
変換精度とかいう話を持ち出すのであれば、どちらも「素」の状態で、
なおかつ、未学習の状態で比較すべきだと思うが。

414 名前:login:Penguin mailto:sage [2010/06/09(水) 23:50:28 ID:h+8Jcbr2]
ずっとそんな状態で使うわけじゃないんだから、
その条件で比較する意味なくね?
例えばその条件でanthyの方が優れているとしても、
使うにつれ個人用の学習データが小さい素のanthyのが
素のmozcより使いにくく感じるだろうし。

415 名前:login:Penguin mailto:sage [2010/06/10(木) 01:23:25 ID:mbMJMOce]
>>413
お前が、それじゃ辞書の初期の重みづけを判別するだけってことすら理解出来ない
知能ってことは理解してあげた。

416 名前:login:Penguin mailto:sage [2010/06/10(木) 01:25:38 ID:rK/aqtCT]
>>415
日本語でおk

417 名前:login:Penguin mailto:sage [2010/06/10(木) 01:38:32 ID:f9YWW83E]
>>413
変換精度に辞書は関係ないと思うんだ。
UTUMI氏の辞書追加してGoogleってすげーってか。

418 名前:login:Penguin mailto:age [2010/06/10(木) 08:03:02 ID:YeHzUdmw]
anthy擁護し続けてる一匹のバカはニホンゴもまともにかけないんだから
変換精度がどうのこうのの問題以前だw



419 名前:login:Penguin mailto:sage [2010/06/10(木) 08:14:27 ID:YW5C5UEV]
多さ、
が出てこないで大さになるのには閉口した。
Rev28

420 名前:login:Penguin mailto:sage [2010/06/10(木) 12:23:39 ID:sjq9s/0m]
>>417>>418
コテつけて他の人と区別できるようにしてから
二人で殴り合いしてくれないか

421 名前:login:Penguin mailto:sage [2010/06/10(木) 18:04:01 ID:f9YWW83E]
>>418
バカじゃなくて馬鹿
ニホンゴじゃなくて日本語
かけない→書けない
確かにお前は日本語もまともに書けないね。

422 名前:login:Penguin mailto:sage [2010/06/10(木) 18:26:27 ID:fPMmYVAZ]
そんなことは思っていません

423 名前:login:Penguin mailto:sage [2010/06/11(金) 18:00:40 ID:7svKIEvM]
目糞と鼻糞が罵り合ってるスレと聞いてやって来ましたw
>>417が目糞で、>>418が鼻糞ですか?

424 名前:login:Penguin mailto:sage [2010/06/11(金) 19:18:48 ID:dbkzlWEr]
>>423
いえ、耳くそですキリッ

425 名前:login:Penguin mailto:sage [2010/06/11(金) 19:26:16 ID:7svKIEvM]
>>424
耳糞さんも参戦ですか!?
目糞、鼻糞、耳糞の3竦みはどうなっているのでしょうか?


426 名前:login:Penguin mailto:sage [2010/06/11(金) 21:31:44 ID:HBiF4xvh]
なんか、使ってると少しずつ馬鹿になってない?
UTSUMIさん辞書を追加した直後は、オレ的に一発目で9割以上思い通りに変換してくれるように
なった印象があったんだけど、最近ちょいちょい変な変換するようになってきたような気がする。
一発目でほぼちゃんと変換してくれるので文節とか全然気にしてなかったせいなのか、辞書を
追加した副作用なのかよくわからんけど。
なんかチャーリー・ゴードンを思い出したぜ。

427 名前:login:Penguin mailto:sage [2010/06/12(土) 00:40:01 ID:LX/B/Aqs]
勝手に辞書追加しておいて文句言ってもダメだと何回言われたらわかるんだ

428 名前:login:Penguin mailto:sage [2010/06/12(土) 00:42:14 ID:CoCYPUhz]
説教房



429 名前:login:Penguin mailto:sage [2010/06/12(土) 00:47:55 ID:g96ojhEY]
UTUMI氏の辞書追加して変換精度とかほざいてた馬鹿涙目www



430 名前:login:Penguin mailto:sage [2010/06/12(土) 02:45:59 ID:vZS9Vjdk]
>>427
目糞乙。
>>429
鼻糞乙。

431 名前:login:Penguin mailto:sage [2010/06/12(土) 09:24:21 ID:HwPSTama]
mozc きょう体
Anthy 筐体

ちょw

432 名前:login:Penguin mailto:sage [2010/06/12(土) 09:37:18 ID:Ba4d1iMj]
時代は変わる→mozc
自大は変わる→anthy

433 名前:login:Penguin mailto:sage [2010/06/12(土) 12:39:17 ID:vZS9Vjdk]
比較するなら、ちゃんとした一文で行うことも必要。
おれAnthyもmozcも無印じゃないから報告できないけど。

434 名前:login:Penguin mailto:sage [2010/06/12(土) 12:46:22 ID:g96ojhEY]
>>433
つまりおまえも、UTUMI氏の辞書で変換精度とか言ってる目糞くんか

435 名前:login:Penguin mailto:sage [2010/06/12(土) 16:08:11 ID:p2A/0vlu]
だれか
mozc vs anthyのスレを作ってそっちに誘導してやって。
スレが作れないから。

436 名前:login:Penguin mailto:sage [2010/06/12(土) 17:57:36 ID:qhFozSGF]
とりあえず、辞書のフォーマットは、よみと品詞相当の左右の文脈IDの組と頻度と変換語で計5要素使ってるって事でいいの?
で、公開版に含まれていないのは、自動収集の膨大な単語と、精密な頻度データと、ググル八分で有名なお得意の不正語フィルタ
って事で合ってる?

437 名前:login:Penguin mailto:sage [2010/06/13(日) 02:42:49 ID:JhkzJet+]
>>436
公開版のフォーマットは合ってるけど、
非公開版は何せ非公開なのでわからない。

sourceforge.jp/magazine/10/05/11/0335246
> Google日本語入力の辞書データはGoogle検索のランキング・
> インデクシングアルゴリズムを反映するような単語の頻度情報を含む

Google検索での単語ランキングとインデクス作成アルゴリズムは隠したい、
ということかな。

> 自動収集の膨大な単語と、ランキングデータ
これは入ってる。

> ググル八分で有名なお得意の不正語フィルタ
これは入ってるかどうかわからない。

短い読みを入力するとズタボロになるっていうのは、
MS-IMEがちょっと前に経験したことだよね。
MSがそれをどう克服したか、っていうのがヒントになるのかも。

変換アルゴリズム変更も含めていろいろ考えていらっしゃるようなので、
twitter.com/taku910/status/15785334647
まったりと期待
(Mozc以外のアルゴリズムのことかもしれないけど)

438 名前:login:Penguin mailto:sage [2010/06/13(日) 06:12:08 ID:IohsGueo]
現状もずくに足りない単語いくつかあるみたいだから、一文節で変換できないものをリストアップするのはいいかもね



439 名前:login:Penguin mailto:sage [2010/06/13(日) 07:32:51 ID:JhkzJet+]
最終的にはMozcとGoogle IMEの辞書は同じものになるんじゃないかな。
Google社内の人だってWindowsとChrome OSとで同じ変換結果が欲しいだろう。

語彙数を減らしてランキング精度も落とした辞書なら、
公開に大きな支障はないんじゃないかな。
もともと及川さんは「辞書だけ配ったら」って言ってたようだし。
twitter.com/mamoruk/status/15055959325
> プロダクトマネージャの及川って人がいて、
> なんかIME作るの大変そうだから辞書だけ配ったら、と言ったんですね。

秋後半にChrome OSが出るんだっけ?
www.itmedia.co.jp/news/articles/1006/03/news022.html
てことは9月頃にはMozcがどういう形になるか確定するんじゃない

440 名前:login:Penguin mailto:sage [2010/06/13(日) 13:36:49 ID:SDyczpAN]
>>421
当て字の馬鹿よりはバカの方が自然だと思う。

莫迦。

441 名前:login:Penguin [2010/06/13(日) 14:11:06 ID:kc5+QLJB]
しらんけど
しらんケド
シランケド
白んケド

442 名前:login:Penguin mailto:sage [2010/06/13(日) 14:13:03 ID:kc5+QLJB]
しらんけれど
白んけれど

知りませんわ
知りませんことよ
知らないです
知るかボケ
シーラ内
知らな言ったら
知っとるけ

443 名前:login:Penguin mailto:sage [2010/06/13(日) 16:46:26 ID:ubyQDCwZ]
なんか変な呪文を見せられてシラケる。

444 名前:login:Penguin mailto:sage [2010/06/13(日) 18:41:24 ID:fkFT0NTC]
IMEの変換精度って定量的な評価基準ってあんのかね。
論文とかあったりする?

445 名前:login:Penguin mailto:sage [2010/06/13(日) 19:06:30 ID:voBenHq7]
変換精度より学習能力の方が重要な気がしてきた。

446 名前:login:Penguin mailto:sage [2010/06/14(月) 20:37:05 ID:cFzAXehZ]
目糞と鼻糞の戦いに決着着いたの?
もっと、罵り合って欲しいな。

447 名前:login:Penguin mailto:sage [2010/06/14(月) 20:44:38 ID:itjtAE+X]
安thyの糞ブリは誰もが思うことなのに、Gに対する憎しみの余り安thyを擁護する池沼ブリw

448 名前:login:Penguin mailto:sage [2010/06/15(火) 09:56:22 ID:WWgmOQND]
>>447
午後
五後
御後
碁後
伍後

さすがmozcの変換精度はすばらしいw



449 名前:login:Penguin mailto:sage [2010/06/15(火) 16:53:38 ID:eTqgSqS2]
>>448
なにそれ?
地方ローカルの変換精度??

450 名前:login:Penguin mailto:sage [2010/06/16(水) 08:23:23 ID:aoHW7luQ]
>>449
ごごをmozcで変換してみろよカス

451 名前:login:Penguin mailto:sage [2010/06/16(水) 17:41:20 ID:wWoolAjK]
>>450
午後
午后
ご後
ごご
ゴゴ
gogo
GOGO
gogo


自分で好きな辞書いれて使えばいいんじゃない?
ttp://www.geocities.jp/ep3797/mozc_01.html

452 名前:login:Penguin mailto:sage [2010/06/16(水) 19:28:46 ID:Gp0Lw4o3]
r30きてるよ!

453 名前:login:Penguin mailto:sage [2010/06/17(木) 08:30:23 ID:9frVqmCm]
>>451
私家版辞書で、Googleってすげー、mozcってすげーってか
mozcは私家版辞書で変換精度も向上しますキリッ
さすがmozcすげーぜwww

454 名前:login:Penguin mailto:sage [2010/06/17(木) 08:44:24 ID:9frVqmCm]
>>452
そうそう
毎度のことながらまたbuildに必要なソフトが増えてるから、そのままbuildしてbuildできねーとか書くなよな
とくにGoogle妄信的マンセー野郎はな

455 名前:login:Penguin mailto:sage [2010/06/17(木) 11:30:57 ID:nd3z9T0m]
なんという自演……


456 名前:login:Penguin mailto:sage [2010/06/17(木) 13:02:40 ID:XA+wvXLt]
わかりやすいanthyバカ自演w

457 名前:login:Penguin mailto:sage [2010/06/17(木) 13:56:54 ID:9frVqmCm]
自演だって・・・
なんちゅう単純な思考


458 名前:login:Penguin mailto:sage [2010/06/17(木) 16:48:51 ID:7Jb8hXGr]
>>453
当たり前なことを興奮しながら言うな
気に入ったIMEと辞書を組み合わせて使えばいい



459 名前:login:Penguin mailto:sage [2010/06/17(木) 16:53:19 ID:mnF1tUm+]
まずはデフォの辞書で精度上げようぜ、って話じゃなかったっけ。

460 名前:login:Penguin mailto:sage [2010/06/17(木) 16:59:11 ID:7Jb8hXGr]
>>459
そんなのGoogle次第じゃないの?
オープンソースのプロジェクトなんだし
派生版とか野良辞書とか組み合わせて使うほうがLinuxっぽくていいと思うけどね
何でも受身(デフォルト)で使うならLinuxなんていらないんじゃないか






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<188KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef