1 名前:login:Penguin [2010/05/13(木) 11:58:50 ID:e7jJ/yN9] code.google.com/p/mozc/ ref. sourceforge.jp/magazine/10/05/11/0335246 googlejapan.blogspot.com/2010/05/google_10.html
376 名前:login:Penguin mailto:sage [2010/06/05(土) 18:00:55 ID:r9Lhvdmg] >>373 >>362 >>359 >>374 > ヶセットは〜個セット そうだな。 しかし「けせっと」だと「毛セット」、 「こせっと」だと「小セット」になって、 「ヶセット」が出ない。 sannxkesetto、とかじゃないと出ないな。 Google IMEの辞書から秘密情報を取り除いて、 低頻度の表現をバッサリ削ったもののほうが、 精度としては良くなる気がする。
377 名前:login:Penguin mailto:sage [2010/06/05(土) 18:13:22 ID:r9Lhvdmg] Mozcで困るのは、先々の方針がよくわからないことだなあ。 これだけ早く設定ツール出すんだったら、 mozc-configの人もCUIまででやめてたんじゃないかな。 (止めてたんじゃないかな、が出ない。) 辞書をチェックするにしてもツール作るにしても ムダデマ(無駄手間、が出ない)になる恐れがある。 あとで嫌な思いしないように(ように、の順位低い)、 眺める程度のことしかできない。 変換確認にしたって辞書がゴソッと変わったらイチからやり直しだもんな。
378 名前:login:Penguin mailto:sage [2010/06/05(土) 18:31:21 ID:ZADDM2Q0] >>376 取り除いたら出なくなって駄目駄目だろ。 品詞別にフィルタでも掛けてたんじゃないの?
379 名前:login:Penguin mailto:sage [2010/06/05(土) 18:42:40 ID:ZADDM2Q0] mozcの作りは聞いた限りでは意外と教科書通りというか、オーソドックスな印象を受ける。 むしろ、最新研究てんこ盛りの筈のanthyの結果が振るわないのがおかしいんだよ。 辞書に関してはmozcに流用しただけで評価されているのだから問題は無さそうなのに。
380 名前:login:Penguin mailto:sage [2010/06/05(土) 19:12:30 ID:ZADDM2Q0] >>377 選択肢を増やすことを、無駄手間と考えてしまうエコノミックアニマルこそ開発にとって問題なのかもしれない。 例えばGCCがあったからこそ他の開発ツールが対抗して無償化したりした訳で、それと同じだと考えればいい。 大体そんなこと言ってたら、gtkだのqtとかこそ無駄手間でバカバカしい。
381 名前:login:Penguin mailto:sage [2010/06/05(土) 19:58:50 ID:r9Lhvdmg] 時々語尾がおかしいな。 そんなやつが痛な (いたな) 冷静な自分が板 (いた) やっぱ人名弱いな。 損|正義 やっぱ中黒なしだけか。 ジョニーデップ 現時点での感想。 ・ある程度の長さを入力した時の第一表記は筋がいい。 ・しかしよくある第二表記を選ぼうとするとなかなか見つからないことがある。 ・短い読み入力だと精度がぐっと落ちる。 ・特に単漢字に関しては頻出語がなかなか出てこなかったり、 頻出語に変な読みを当てたものが上位に来たり。 (人がチェックしていないのでしかたない) ちょっとずつ変換する人や、 推敲して部分修正を繰り返す人は、 変換精度のギャップに戸惑うかも。 テストはぜんぶ素もずくでやった。 他の人もテストしてくれるとありがたいな
382 名前:login:Penguin mailto:sage [2010/06/05(土) 20:24:21 ID:ZADDM2Q0] >>381 実証は大切だけど、そもそも辞書眺めてれば気がつくよ。 ipadic辞書を人がチェックしてないということは有り得なくて、 元々変換とは逆の目的の、漢字を読み下したり解析するための辞書だったからってだけでしょ。 追加分も手動だとかどっかに書いてなかったっけ? まあフィルタが封印されている以上、吟味するしかないんだろうけど。
383 名前:login:Penguin mailto:sage [2010/06/05(土) 22:54:03 ID:9mDSEu8Q] >>381 そうやっていちいちダメ変換を調べること自体は悪くないんだけど、 やっぱりある程度のカバレッジを持ったテストデータを作って自動で評価できるようにしないとダメだと思うよ 細かい問題を直したら他のところがおかしくなるなんてざらにあるだろうし、 何でもほいほい辞書に足せば精度が上がるというものでもなかろう
384 名前:login:Penguin mailto:sage [2010/06/05(土) 23:31:30 ID:EmRTT+mM] >>372 ibusで使えたっけ
385 名前:login:Penguin mailto:sage [2010/06/06(日) 00:45:41 ID:OSNssyVe] ibus-mozcだよ。
386 名前:login:Penguin mailto:sage [2010/06/06(日) 02:57:14 ID:7kplvdM/] 「云いました」「そんなふうに言いました」みたいに 「いいました」がずれるのは、品詞が細かすぎるからかもなあ。 いい 1258 1258 3354 云い いい 1258 1258 5388 謂い いい 1259 1259 0 いい いい 1268 1268 0 言い 1258 動詞,自立,*,*,五段・ワ行促音便,連用形,* 1259 動詞,自立,*,*,五段・ワ行促音便,連用形,いう 1260 動詞,自立,*,*,五段・ワ行促音便,連用形,いく 1261 動詞,自立,*,*,五段・ワ行促音便,連用形,おこなう 1262 動詞,自立,*,*,五段・ワ行促音便,連用形,おもう 1263 動詞,自立,*,*,五段・ワ行促音便,連用形,使う 1264 動詞,自立,*,*,五段・ワ行促音便,連用形,思う 1265 動詞,自立,*,*,五段・ワ行促音便,連用形,行う 1266 動詞,自立,*,*,五段・ワ行促音便,連用形,行く 1267 動詞,自立,*,*,五段・ワ行促音便,連用形,行なう 1268 動詞,自立,*,*,五段・ワ行促音便,連用形,言う 1269 動詞,自立,*,*,五段・ワ行促音便,連用形,買う 1270 動詞,自立,*,*,五段・ワ行促音便,連用形,違う 「いい/言い」を1258にしたら常に前に出るんだろうな、 少なくとも頻度的には。 前に言葉がないとき1259/1268が弱すぎるのかなあ
387 名前:login:Penguin mailto:sage [2010/06/06(日) 07:05:02 ID:icwZ8Ez7] いいま 2239 2291 6486 言いま じゃないの?
388 名前:login:Penguin mailto:sage [2010/06/06(日) 08:18:04 ID:zbnKys/K] mozc-server+dict入れられないんだけど
389 名前:login:Penguin mailto:sage [2010/06/06(日) 18:53:11 ID:7kplvdM/] >>387 そうかもと思ったが、違うかもねー。 品詞 2239/2291 言いま の頻度を上げたところで、 品詞 1258/1258 云い にはあまり影響しないんじゃないかな。 単純に同品詞の 1258/1258 言い を作るほうが確実に潰せる。 「他に影響あるかも」と不安になるのであれば、 0 みたいな極端な頻度じゃなく (元の頻度 + 2000) 言い ぐらいにしておけばいい。 何にしても品詞体系をもうちょっと簡素化するか、 1259以降の特殊品詞の項目を1258の一般品詞にも重複登録するほうが いいんじゃないかと思った。 こんな感じ。 いい 1258 1258 2000 いい いい 1258 1258 2000 言い いい 1258 1258 3354 云い いい 1258 1258 5388 謂い いい 1259 1259 0 いい いい 1268 1268 0 言い 抑えめの頻度で登録すればそれほど悪影響もないと思う
390 名前:login:Penguin mailto:sage [2010/06/06(日) 19:07:38 ID:icwZ8Ez7] >>389 汎用品詞の登録を増やしても先祖帰りするだけでしょ。 接続コストの実測値でパターンが似通っているならクラスタ化しても問題ないと思うけど、 そんなデータあるの?
391 名前:login:Penguin mailto:sage [2010/06/06(日) 22:07:07 ID:NlLwXMcQ] 「おーすとこ」ってやったらサジェストにオーストコリアが出てくるのはさすが。
392 名前:login:Penguin mailto:sage [2010/06/07(月) 03:47:24 ID:szI55KPJ] はやくQt依存を切ってGtkにしろよ libqtなんて入れたくないんだよ
393 名前:login:Penguin mailto:sage [2010/06/07(月) 04:18:46 ID:9HlTgDD4] グーグルアースもQtだし、社の方針でしょ KDEに乗り換える人が増えそう
394 名前:login:Penguin mailto:sage [2010/06/07(月) 05:00:56 ID:y4gOikgu] >>392 Gtk版を作ればええやん
395 名前:login:Penguin mailto:sage [2010/06/07(月) 22:43:32 ID:mmfdo0Vn] 工学系で使える辞書欲しいな
396 名前:login:Penguin mailto:sage [2010/06/07(月) 22:53:41 ID:P9Ov0s9m] >>381 短いとやっぱ弱いのかな? おもわんが重ワンとなるのに そうはおもわんと入れるとそうは思わんとちゃんと変換される。 わりと区切って入力するのでちょっと戸惑う。
397 名前:login:Penguin mailto:sage [2010/06/07(月) 23:08:44 ID:LJSwkYCS] 思い 思うとき 思えば オモワン なんだろうなこれ。
398 名前:login:Penguin mailto:sage [2010/06/07(月) 23:29:43 ID:LJSwkYCS] 思わぬ が変化したのが 思わん なのか、日本語って難しいな。
399 名前:login:Penguin mailto:sage [2010/06/08(火) 05:34:28 ID:B/3137Xj] 難しいっつうより頭がおかしい。
400 名前:login:Penguin mailto:sage [2010/06/08(火) 10:43:12 ID:X+aW8Khr] >>396 「思う」という動詞が他動詞で、必ずその前に節を持つからかな? 「思わん」も「ん」が否定の助動詞「ぬ」の音便化なら、未然形に活用してるだけで、 特に不思議でも難しくもないと思うけど。 思わ/ない(ぬ、ん) 思い/ます 思う 思う/とき 思え/ば 思え
401 名前:login:Penguin mailto:sage [2010/06/08(火) 11:58:56 ID:umojQr77] 思はぬ → 思わぬ → 思わん
402 名前:login:Penguin mailto:sage [2010/06/08(火) 15:53:25 ID:M67rsOKg] >>400 完成した文章を1文単位で分析して頻度を出した場合、 「xxxxである。思わん。xxxx。」みたいな表現はまず出てこない。 だから「思わん」単体だと全然優先されないのかも。 でも実際の入力では考え考え入力するわけだから、 1-3文節ずつぐらいで入力することが多いのだろう。 推敲の過程で「思わん」だけを入力することもよくあるはず。 1文単位で分析して語の結びつきを調べるだけでなく、 1-3文節ぐらいでの優先度も加味して辞書の頻度を出せたらいいのかもね。 まあこれを簡易にやるとしたら、 「思わん」の表記と頻度情報を 汎用動詞のところにも追加することかな。 (手元に資料がないので「思わん」の品詞がどうなってるかわからんけど) >>389 みたいな感じ
403 名前:login:Penguin mailto:sage [2010/06/08(火) 20:56:27 ID:M67rsOKg] www.google.com/codesearch?q= "TODO"+package:"mozc.googlecode.com/svn " TODO 99件ですか。確かに大変そう。 trunk/src/converter/candidate_filter.cc 136: // This is a temporal workaround for fixing "おそう" => "御|総" 137: // TODO(taku): remove it after intorducing a word clustering for noun. 138: if (candidate_size >= 3 && candidate->nodes.size() > 1 && 一時的とはいえ、場当たり的にフィルタ作ってもキリがないかも
404 名前:login:Penguin mailto:sage [2010/06/09(水) 22:18:15 ID:nAHqWJMV] mozc 空気嫁内 anthy 食う清めない どっちも馬鹿だorz
405 名前:login:Penguin mailto:sage [2010/06/09(水) 22:21:21 ID:f1C41BBe] 空気を読めない、が正しい日本語であって、 変な日本語まで相手にしないといけないからIMって大変だよな。
406 名前:login:Penguin mailto:sage [2010/06/09(水) 22:33:39 ID:Ws4Lks8p] 空気嫁を辞書に載せる必要あるのかって
407 名前:login:Penguin mailto:sage [2010/06/09(水) 22:36:40 ID:RIVNiz1o] 損なことは主っていません (そんなことは思っていません) 辞書いじったからかと心配したら、 デフォのもずくでもこうだった >>404 「てにをは」抜きはユーザのバカもちょっとある。 リロードしたら>>405 が書いてたか
408 名前:login:Penguin mailto:sage [2010/06/09(水) 23:12:10 ID:nAHqWJMV] mozc それは位置理あるぜ Anthy それは一理あるぜ やっぱmozc馬鹿だ 変換精度とか言ってた馬鹿出てこい
409 名前:login:Penguin mailto:sage [2010/06/09(水) 23:12:47 ID:SiUAEJXW] >>406 とりあえずオレのTENGAに謝ってくれるかね
410 名前:login:Penguin mailto:sage [2010/06/09(水) 23:15:32 ID:nAHqWJMV] >>407 mozc そんなことは主っていません Anthy そんなことは思っていません やっぱmozc馬鹿だ ↓こういう馬鹿 364 名前:login:Penguin [sage]: 2010/06/05(土) 10:38:19 ID:FvoE5wGr anthyがバカってことを認められないバカが一匹いるなw
411 名前:login:Penguin mailto:sage [2010/06/09(水) 23:22:03 ID:NYLHc+6y] 一度変換したらサジェストで出るのが賢いって事じゃないの? 物を知らない奴とバカな奴は別だな。
412 名前:login:Penguin mailto:sage [2010/06/09(水) 23:26:36 ID:mucBmdtX] ごくわずかな部分を見て全体をわかったつもりになる馬鹿
413 名前:login:Penguin mailto:sage [2010/06/09(水) 23:36:17 ID:qhED6547] >>408 あなたが使っているAnthyは「素」のAnthy? それともUTUMIさんのModified Anthy? 私はmozcもAnthyもどちらか一方に肩入れするつもりは無いが、 変換精度とかいう話を持ち出すのであれば、どちらも「素」の状態で、 なおかつ、未学習の状態で比較すべきだと思うが。
414 名前:login:Penguin mailto:sage [2010/06/09(水) 23:50:28 ID:h+8Jcbr2] ずっとそんな状態で使うわけじゃないんだから、 その条件で比較する意味なくね? 例えばその条件でanthyの方が優れているとしても、 使うにつれ個人用の学習データが小さい素のanthyのが 素のmozcより使いにくく感じるだろうし。
415 名前:login:Penguin mailto:sage [2010/06/10(木) 01:23:25 ID:mbMJMOce] >>413 お前が、それじゃ辞書の初期の重みづけを判別するだけってことすら理解出来ない 知能ってことは理解してあげた。
416 名前:login:Penguin mailto:sage [2010/06/10(木) 01:25:38 ID:rK/aqtCT] >>415 日本語でおk
417 名前:login:Penguin mailto:sage [2010/06/10(木) 01:38:32 ID:f9YWW83E] >>413 変換精度に辞書は関係ないと思うんだ。 UTUMI氏の辞書追加してGoogleってすげーってか。
418 名前:login:Penguin mailto:age [2010/06/10(木) 08:03:02 ID:YeHzUdmw] anthy擁護し続けてる一匹のバカはニホンゴもまともにかけないんだから 変換精度がどうのこうのの問題以前だw
419 名前:login:Penguin mailto:sage [2010/06/10(木) 08:14:27 ID:YW5C5UEV] 多さ、 が出てこないで大さになるのには閉口した。 Rev28
420 名前:login:Penguin mailto:sage [2010/06/10(木) 12:23:39 ID:sjq9s/0m] >>417 と>>418 は コテつけて他の人と区別できるようにしてから 二人で殴り合いしてくれないか
421 名前:login:Penguin mailto:sage [2010/06/10(木) 18:04:01 ID:f9YWW83E] >>418 バカじゃなくて馬鹿 ニホンゴじゃなくて日本語 かけない→書けない 確かにお前は日本語もまともに書けないね。
422 名前:login:Penguin mailto:sage [2010/06/10(木) 18:26:27 ID:fPMmYVAZ] そんなことは思っていません
423 名前:login:Penguin mailto:sage [2010/06/11(金) 18:00:40 ID:7svKIEvM] 目糞と鼻糞が罵り合ってるスレと聞いてやって来ましたw >>417 が目糞で、>>418 が鼻糞ですか?
424 名前:login:Penguin mailto:sage [2010/06/11(金) 19:18:48 ID:dbkzlWEr] >>423 いえ、耳くそですキリッ
425 名前:login:Penguin mailto:sage [2010/06/11(金) 19:26:16 ID:7svKIEvM] >>424 耳糞さんも参戦ですか!? 目糞、鼻糞、耳糞の3竦みはどうなっているのでしょうか?
426 名前:login:Penguin mailto:sage [2010/06/11(金) 21:31:44 ID:HBiF4xvh] なんか、使ってると少しずつ馬鹿になってない? UTSUMIさん辞書を追加した直後は、オレ的に一発目で9割以上思い通りに変換してくれるように なった印象があったんだけど、最近ちょいちょい変な変換するようになってきたような気がする。 一発目でほぼちゃんと変換してくれるので文節とか全然気にしてなかったせいなのか、辞書を 追加した副作用なのかよくわからんけど。 なんかチャーリー・ゴードンを思い出したぜ。
427 名前:login:Penguin mailto:sage [2010/06/12(土) 00:40:01 ID:LX/B/Aqs] 勝手に辞書追加しておいて文句言ってもダメだと何回言われたらわかるんだ
428 名前:login:Penguin mailto:sage [2010/06/12(土) 00:42:14 ID:CoCYPUhz] 説教房
429 名前:login:Penguin mailto:sage [2010/06/12(土) 00:47:55 ID:g96ojhEY] UTUMI氏の辞書追加して変換精度とかほざいてた馬鹿涙目www
430 名前:login:Penguin mailto:sage [2010/06/12(土) 02:45:59 ID:vZS9Vjdk] >>427 目糞乙。 >>429 鼻糞乙。
431 名前:login:Penguin mailto:sage [2010/06/12(土) 09:24:21 ID:HwPSTama] mozc きょう体 Anthy 筐体 ちょw
432 名前:login:Penguin mailto:sage [2010/06/12(土) 09:37:18 ID:Ba4d1iMj] 時代は変わる→mozc 自大は変わる→anthy
433 名前:login:Penguin mailto:sage [2010/06/12(土) 12:39:17 ID:vZS9Vjdk] 比較するなら、ちゃんとした一文で行うことも必要。 おれAnthyもmozcも無印じゃないから報告できないけど。
434 名前:login:Penguin mailto:sage [2010/06/12(土) 12:46:22 ID:g96ojhEY] >>433 つまりおまえも、UTUMI氏の辞書で変換精度とか言ってる目糞くんか
435 名前:login:Penguin mailto:sage [2010/06/12(土) 16:08:11 ID:p2A/0vlu] だれか mozc vs anthyのスレを作ってそっちに誘導してやって。 スレが作れないから。
436 名前:login:Penguin mailto:sage [2010/06/12(土) 17:57:36 ID:qhFozSGF] とりあえず、辞書のフォーマットは、よみと品詞相当の左右の文脈IDの組と頻度と変換語で計5要素使ってるって事でいいの? で、公開版に含まれていないのは、自動収集の膨大な単語と、精密な頻度データと、ググル八分で有名なお得意の不正語フィルタ って事で合ってる?
437 名前:login:Penguin mailto:sage [2010/06/13(日) 02:42:49 ID:JhkzJet+] >>436 公開版のフォーマットは合ってるけど、 非公開版は何せ非公開なのでわからない。 sourceforge.jp/magazine/10/05/11/0335246 > Google日本語入力の辞書データはGoogle検索のランキング・ > インデクシングアルゴリズムを反映するような単語の頻度情報を含む Google検索での単語ランキングとインデクス作成アルゴリズムは隠したい、 ということかな。 > 自動収集の膨大な単語と、ランキングデータ これは入ってる。 > ググル八分で有名なお得意の不正語フィルタ これは入ってるかどうかわからない。 短い読みを入力するとズタボロになるっていうのは、 MS-IMEがちょっと前に経験したことだよね。 MSがそれをどう克服したか、っていうのがヒントになるのかも。 変換アルゴリズム変更も含めていろいろ考えていらっしゃるようなので、 twitter.com/taku910/status/15785334647 まったりと期待 (Mozc以外のアルゴリズムのことかもしれないけど)
438 名前:login:Penguin mailto:sage [2010/06/13(日) 06:12:08 ID:IohsGueo] 現状もずくに足りない単語いくつかあるみたいだから、一文節で変換できないものをリストアップするのはいいかもね
439 名前:login:Penguin mailto:sage [2010/06/13(日) 07:32:51 ID:JhkzJet+] 最終的にはMozcとGoogle IMEの辞書は同じものになるんじゃないかな。 Google社内の人だってWindowsとChrome OSとで同じ変換結果が欲しいだろう。 語彙数を減らしてランキング精度も落とした辞書なら、 公開に大きな支障はないんじゃないかな。 もともと及川さんは「辞書だけ配ったら」って言ってたようだし。 twitter.com/mamoruk/status/15055959325 > プロダクトマネージャの及川って人がいて、 > なんかIME作るの大変そうだから辞書だけ配ったら、と言ったんですね。 秋後半にChrome OSが出るんだっけ? www.itmedia.co.jp/news/articles/1006/03/news022.html てことは9月頃にはMozcがどういう形になるか確定するんじゃない
440 名前:login:Penguin mailto:sage [2010/06/13(日) 13:36:49 ID:SDyczpAN] >>421 当て字の馬鹿よりはバカの方が自然だと思う。 莫迦。
441 名前:login:Penguin [2010/06/13(日) 14:11:06 ID:kc5+QLJB] しらんけど しらんケド シランケド 白んケド
442 名前:login:Penguin mailto:sage [2010/06/13(日) 14:13:03 ID:kc5+QLJB] しらんけれど 白んけれど 知りませんわ 知りませんことよ 知らないです 知るかボケ シーラ内 知らな言ったら 知っとるけ
443 名前:login:Penguin mailto:sage [2010/06/13(日) 16:46:26 ID:ubyQDCwZ] なんか変な呪文を見せられてシラケる。
444 名前:login:Penguin mailto:sage [2010/06/13(日) 18:41:24 ID:fkFT0NTC] IMEの変換精度って定量的な評価基準ってあんのかね。 論文とかあったりする?
445 名前:login:Penguin mailto:sage [2010/06/13(日) 19:06:30 ID:voBenHq7] 変換精度より学習能力の方が重要な気がしてきた。
446 名前:login:Penguin mailto:sage [2010/06/14(月) 20:37:05 ID:cFzAXehZ] 目糞と鼻糞の戦いに決着着いたの? もっと、罵り合って欲しいな。
447 名前:login:Penguin mailto:sage [2010/06/14(月) 20:44:38 ID:itjtAE+X] 安thyの糞ブリは誰もが思うことなのに、Gに対する憎しみの余り安thyを擁護する池沼ブリw
448 名前:login:Penguin mailto:sage [2010/06/15(火) 09:56:22 ID:WWgmOQND] >>447 午後 五後 御後 碁後 伍後 さすがmozcの変換精度はすばらしいw
449 名前:login:Penguin mailto:sage [2010/06/15(火) 16:53:38 ID:eTqgSqS2] >>448 なにそれ? 地方ローカルの変換精度??
450 名前:login:Penguin mailto:sage [2010/06/16(水) 08:23:23 ID:aoHW7luQ] >>449 ごごをmozcで変換してみろよカス
451 名前:login:Penguin mailto:sage [2010/06/16(水) 17:41:20 ID:wWoolAjK] >>450 午後 午后 ご後 ごご ゴゴ gogo GOGO gogo 自分で好きな辞書いれて使えばいいんじゃない? ttp://www.geocities.jp/ep3797/mozc_01.html
452 名前:login:Penguin mailto:sage [2010/06/16(水) 19:28:46 ID:Gp0Lw4o3] r30きてるよ!
453 名前:login:Penguin mailto:sage [2010/06/17(木) 08:30:23 ID:9frVqmCm] >>451 私家版辞書で、Googleってすげー、mozcってすげーってか mozcは私家版辞書で変換精度も向上しますキリッ さすがmozcすげーぜwww
454 名前:login:Penguin mailto:sage [2010/06/17(木) 08:44:24 ID:9frVqmCm] >>452 そうそう 毎度のことながらまたbuildに必要なソフトが増えてるから、そのままbuildしてbuildできねーとか書くなよな とくにGoogle妄信的マンセー野郎はな
455 名前:login:Penguin mailto:sage [2010/06/17(木) 11:30:57 ID:nd3z9T0m] なんという自演……
456 名前:login:Penguin mailto:sage [2010/06/17(木) 13:02:40 ID:XA+wvXLt] わかりやすいanthyバカ自演w
457 名前:login:Penguin mailto:sage [2010/06/17(木) 13:56:54 ID:9frVqmCm] 自演だって・・・ なんちゅう単純な思考
458 名前:login:Penguin mailto:sage [2010/06/17(木) 16:48:51 ID:7Jb8hXGr] >>453 当たり前なことを興奮しながら言うな 気に入ったIMEと辞書を組み合わせて使えばいい
459 名前:login:Penguin mailto:sage [2010/06/17(木) 16:53:19 ID:mnF1tUm+] まずはデフォの辞書で精度上げようぜ、って話じゃなかったっけ。
460 名前:login:Penguin mailto:sage [2010/06/17(木) 16:59:11 ID:7Jb8hXGr] >>459 そんなのGoogle次第じゃないの? オープンソースのプロジェクトなんだし 派生版とか野良辞書とか組み合わせて使うほうがLinuxっぽくていいと思うけどね 何でも受身(デフォルト)で使うならLinuxなんていらないんじゃないか
461 名前:login:Penguin mailto:sage [2010/06/17(木) 19:00:14 ID:iNMpus7y] >>459 Googleのデフォルトの辞書の定義次第でしょ。 Googleが色々弄った辞書をデフォルトですって言われれば それがデフォルトな訳だし。 さあ、もっと目糞と鼻糞の掴み合いの取っ組み合いを魅せてくれw
462 名前:login:Penguin mailto:sage [2010/06/17(木) 23:37:35 ID:O9N+TpoV] SCIM対応になって、実質誰でも使えるようになったわけだが、 なんでいまさらSCIM対応??
463 名前:login:Penguin mailto:sage [2010/06/18(金) 01:45:02 ID:IRUjfEYT] sj3辞書の単語使ったmozcとかどうか?
464 名前:login:Penguin mailto:sage [2010/06/18(金) 02:11:30 ID:IRUjfEYT] そういえばさ、2chブラウザのログなんかをコーパスに使って頻度値を書き換えてみたらどうなるのかとかって やってみた人居ないのかな?
465 名前:login:Penguin mailto:sage [2010/06/18(金) 17:29:22 ID:179siXes] >>464 2chからのデータで頻度値を書き換える意味ってあるのか? 日本語を正しく使えない奴らの集まりだぞw
466 名前:login:Penguin mailto:sage [2010/06/18(金) 17:37:11 ID:CO7JxFy0] 会話が成立してないもんな
467 名前:login:Penguin mailto:sage [2010/06/19(土) 03:52:58 ID:zfGxTSJm] r30 だけど、濁音語で濁音なしでないと変換できないことが多いような。 例えば 寿司三昧 とかくのに、 すしざんまい ではだめで、 すしさんまい としないと変換出来ない。 何となくだけど、もとの辞書と変換アルゴリズムのコンボで起きてる希ガス
468 名前:login:Penguin mailto:sage [2010/06/19(土) 13:31:46 ID:Mym/g2aK] 郵便番号辞書が追加出来ない $ ../../dictionary/gen_zip_code_seed.py --zip_code=KEN_ALL.CSV --jigyosyo=JIGYOSYO.CSV > ./zip_code_seed.tsv ../../dictionary/gen_zip_code_seed.py: line 43: The tool for generating zip code dictionary. Input files are shift-jis csv. Output lines will be printed as utf-8. usage: ./gen_zip_code_seed.py --zip_code=zip_code.csv --jigyosyo=jigyosyo.csv > zip_code_seed.tsv Zip code sample input line: 01101,060: No such file or directory ../../dictionary/gen_zip_code_seed.py: line 46: __author__: コマンドが見つかりません
469 名前:login:Penguin mailto:sage [2010/06/19(土) 14:31:04 ID:l3MgG8Oj] >>468 python ../../dictionary/gen_zip_code_seed.py … でやってみそ。 mozcのビルド関連のpythonスクリプトは1行目に #!/usr/bin/python 的なのが書かれてないのが多い。 もしかしたら全部書かれてないかも。
470 名前:login:Penguin mailto:sage [2010/06/19(土) 16:53:26 ID:iMfoCnRm] code.google.com/p/mozc/issues/detail?id=15 dictionary.gypのパッチもあてたほうがいいかもしれない。
471 名前:login:Penguin mailto:sage [2010/06/19(土) 19:16:12 ID:l3MgG8Oj] おれもにほんおうえんでいそがしい。 ↓ オレも日本脳炎で忙しい。 「にほんおうえん」が「日本脳炎」て、辞書にはそんな情報ないんだけど。 正しい文法じゃないけど、あんまりじゃないか。 ていうか、n の打ち漏らしとかも意識してるんか?
472 名前:login:Penguin mailto:sage [2010/06/19(土) 19:21:38 ID:G/AvUYZN] >>471 ちゃんと変換されたぞ? 俺も日本応援で忙しい。
473 名前:login:Penguin mailto:sage [2010/06/19(土) 19:37:06 ID:CBTzBt9M] >>471 おれも472と同じだ。0.11.365.1 学習なし で利用してる。 バージョンはなに? どんな環境で使ってる?
474 名前:login:Penguin mailto:sage [2010/06/19(土) 19:55:53 ID:l3MgG8Oj] >>473 mozc は r29、学習は有り。 ちょっとあとで ~/.mozc 消してやり直してみる。 もちろん、過去に日本脳炎と変換したことはなかったし、単に「にほんおうえん」 では「日本脳炎」という候補はあがってこない。
475 名前:login:Penguin mailto:sage [2010/06/19(土) 20:18:56 ID:Mym/g2aK] いまビルドしたばっかりだが、結果は>>471 とおなじ なぜか似た様な変換で おれはにほんおうえんでいそがしいは 俺は日本応援で忙しい と正しく変換される
476 名前:login:Penguin mailto:sage [2010/06/19(土) 23:24:46 ID:kbul/T1y] けっきょくmozcもいまいちでAnthyの二の舞か…