- 1 名前:login:Penguin [2010/05/13(木) 11:58:50 ID:e7jJ/yN9]
- code.google.com/p/mozc/
ref. sourceforge.jp/magazine/10/05/11/0335246 googlejapan.blogspot.com/2010/05/google_10.html
- 281 名前:login:Penguin mailto:sage [2010/06/02(水) 16:51:06 ID:KEng9W8y]
- ていうかnon-freeぐらい珍しくもないだろ
- 282 名前:login:Penguin mailto:sage [2010/06/02(水) 16:57:43 ID:5crcoY3W]
- ライセンスを発行した上でライセンス以外のお願いをするというのは
あまり褒められたものではないとは思うよ。 ありとかなしじゃなくて記述しているかしてないかだけが意味するのにね。 ライセンスってそうゆうもんだって理解してたんだが。 鬼車のrubyマージ騒動みたいになっちゃうよ。
- 283 名前:login:Penguin mailto:sage [2010/06/02(水) 17:00:56 ID:1sMEC1wh]
- 他人のライセンスを制約するならともかく
自身の著作物にコメントするのは何も問題ない
- 284 名前:login:Penguin mailto:sage [2010/06/02(水) 17:04:19 ID:5crcoY3W]
- >>283
うん。そこをトラブルしないために、自分の著作物に新たなライセンスを加えて しまえばいいというのは当然だとおもうよ。加えないのに別のお願いをする場合 そのライセンスと矛盾するならば当然作者に問題があるし、矛盾しないならば なんのトラブルもならないだろう。
- 285 名前:login:Penguin mailto:sage [2010/06/02(水) 17:19:02 ID:QoktT3oR]
- まあ、よくないわな。しこりが残る
Google曰く「Mozcのバイナリ配布は避けてください」
- 286 名前:login:Penguin mailto:sage [2010/06/02(水) 17:22:49 ID:02i5Uj0J]
- バイナリをわければ済む話。
- 287 名前:login:Penguin mailto:sage [2010/06/02(水) 17:40:27 ID:nCOjwefR]
- >>280
ソースパッケージに突っ込むのは勝手だけど、 有効にするのは各自でビルドオプション付けてねってことでしょ。 「意識的に」各自でやってもらわないと、 Googleにワケの分からないことを報告するバカが大量発生するから。 何よりも今は開発初期段階だから、デフォルト状態での報告が欲しい。 Googleにしてみればこう。 ユーザ「Mozc最高だぜ」 Google「(うんうん)」 ユーザ「人名xxxxもアレな名詞xxxxも出てくるぜ」 Google「(ん???)」 Google発表「基本的にはデフォルトで使うのが一番精度が高いのであります」 それに非公式辞書追加を知らずして 「Googleさん辞書追加ありがとー!!」とか言われても、 Googleも辞書作者も甲斐がないだろ? >>278 debianだと2ch辞書を選択制にしたりとか、 gentooだとmplayerとか?のビルドオプション選ばせたりとか。 「各自で意識的に選んでね」というのはよくある方式よ。 文句あるなら選択ダイアログ出せばいいじゃん。 辞書がアドオン形式ならパッケージ名で明確に分割できるけど、 Mozcは全部一体だからしょうがない。 バイナリ禁止自体は昔LAMEで見たような気がする
- 288 名前:login:Penguin mailto:sage [2010/06/02(水) 17:51:17 ID:02i5Uj0J]
- >>287
Anthyよりmozcの方が変換精度が高いとか言ってるやつらはみんなそれだよな。 同じ辞書を追加した状態でのAnthyとmozcは大差ないだろ。
- 289 名前:login:Penguin mailto:sage [2010/06/02(水) 18:01:18 ID:grruSKdq]
- LAMEのバイナリ配布は特許にひっかかる恐れがあるからではなかったかと。
今回の問題とは若干違うような。 >「意識的に」各自でやってもらわないと、 >Googleにワケの分からないことを報告するバカが大量発生するから。 >何よりも今は開発初期段階だから、デフォルト状態での報告が欲しい。 これはほぼ同意。
- 290 名前:login:Penguin mailto:sage [2010/06/02(水) 18:02:11 ID:nCOjwefR]
- まあどうしてもバイナリ配布したくて(各自でビルドすりゃいいことだと思うけど)、
非公式版であることをハッキリさせたいのであれば、 デフォルトのバイナリパッケージ+差分パッチぐらいか? パッチで非公式バイナリを意識的に「再現」させるという形。 しかし自分好みにしたいんだったら自分でビルドくらいは当たり前じゃねえの? それに辞書作者の意向つうかMozcプロジェクトの現状レベル考えたら、 今はデフォルト状態でテストしたほうがいい。 原作者が「余計な辞書入れたら精度下がる」つってんだしさ
- 291 名前:login:Penguin mailto:sage [2010/06/02(水) 18:50:57 ID:9TUUxqr0]
- バイナリ配布が基本的に禁止というと思い出すのがかつてのqmail。
- 292 名前:login:Penguin [2010/06/02(水) 19:06:18 ID:/GEmtGf2]
- >>289-290
辞書作者もそう思ってるだろうが、 それならなんでバイナリ配布OKのライセンスで配布するのか分からない
- 293 名前:login:Penguin mailto:sage [2010/06/02(水) 19:26:14 ID:O5aiTgdT]
- ぶっちゃけリポジトリを公開したら、webの注意書きなんて読むような
聞き分けのいい人じゃなくてタコ以外使うわけないだろ。 特にubuntuなんでデフォルトで対応しているのに、作っておきながら 組み込んでますなんて意味不明だ。 しかも、バグ報告は送るなといってるけど、じゃあ誰に送るんだ? お前が引き受けろよ、そうでなければ公開すべきじゃない。
- 294 名前:login:Penguin mailto:sage [2010/06/02(水) 19:29:49 ID:1sMEC1wh]
- >>292
もとはModifiedAnthy向けに公開されていた辞書だから Mozc用に改めてライセンスをいじっても仕方ない
- 295 名前:login:Penguin mailto:sage [2010/06/02(水) 19:37:51 ID:CGmWTyeQ]
- >>293
誰に言っているのか知らないが、俺のubuntuで apt-get install ibus-mozc とやってもインストールできない。本当にデフォルトで対応してるの?
- 296 名前:login:Penguin mailto:sage [2010/06/02(水) 19:44:23 ID:x5YErinu]
- >>293
日本語が不自由な人のような
- 297 名前:login:Penguin mailto:sage [2010/06/02(水) 20:00:24 ID:OEd5PW/N]
- >>293
すまん、意味不明すぎて何をいってるのかさっぱりわからん。
- 298 名前:login:Penguin mailto:sage [2010/06/02(水) 20:00:48 ID:9DErp56Y]
- >>295
Currently, we only support Ubuntu 9.10 and 10.04 for building Mozc. code.google.com/p/mozc/wiki/LinuxBuildInstructions
- 299 名前:login:Penguin mailto:sage [2010/06/02(水) 20:02:49 ID:t70gHhyq]
- >>295
リポジトリは加えなくてはダメ 加えても性能のいいModifiedAnthyは使うなといわれた 初心者にはibus-mozicの魅力が薄れた いまここ
- 300 名前:login:Penguin mailto:sage [2010/06/02(水) 20:04:18 ID:L1cbISCc]
- anthyがいいとか言ってる池沼レベルの人間がまだいるんだな
- 301 名前:login:Penguin mailto:sage [2010/06/02(水) 20:07:31 ID:w3pItDF+]
- >>288 とかもね。
- 302 名前:login:Penguin mailto:sage [2010/06/02(水) 20:08:54 ID:fe2DcE2M]
- 人それぞれさ、お気に入りのを使えば良いだけ
- 303 名前:login:Penguin mailto:sage [2010/06/02(水) 20:17:47 ID:RpWCZxYd]
- Google -IMEって変換エンジンはVJEの流用だったっけ?
- 304 名前:login:Penguin mailto:sage [2010/06/02(水) 20:41:06 ID:HiSOFHLt]
- >>303
そんな話どこで読んだの?
- 305 名前:login:Penguin mailto:sage [2010/06/02(水) 20:48:51 ID:408ZUOE4]
- >>267
ども、UNIX的手法だったんですね。全然身についてないなあこういう即席データ処理。 >>268 >> SKKのスモール辞書辺りの単語は網羅されているのか比較 >くだらねー。 >それに単に網羅したって意味ないよ。 >要らない単語削って頻度指定して…とやらないとな。 >ためしにユーザ辞書として一律にインポートしてみれば。 なにが言いたいのかさっぱりです。 デフォルト辞書で網羅してたら辞書インポートする必要無いのでは? その場合の追加辞書という意味では、まあ確かに意味が無いですが、 判断の為の辞書内容の分析が下らないというのは意味不明です。 抜けている単語を抽出して、それが本当に変換出来ないのか確認してみるのは、 やみくもに探したり、ひたすらバグ報告を待つより早いのでは?
- 306 名前:login:Penguin mailto:sage [2010/06/02(水) 21:22:35 ID:408ZUOE4]
- >>287
そもそも、純正版と改造版を共存できるようにしたほうがわかり易いんじゃないですかね? ビルドしない人にとっては意識できないままで、単純に退化したとしか思わないでしょうし。
- 307 名前:login:Penguin mailto:sage [2010/06/02(水) 21:31:19 ID:RpWCZxYd]
- >>304
あー、ごめん、VJE使ってるのはYahoo!の方だったわ。
- 308 名前:login:Penguin mailto:sage [2010/06/02(水) 21:35:29 ID:408ZUOE4]
- Google SONY連合ということで、mozcにsj3を合体させたらなにができるんだろうか?
- 309 名前:login:Penguin mailto:sage [2010/06/02(水) 21:58:00 ID:nCOjwefR]
- >>305
だからさ、やってみりゃいいじゃん。 S辞書とMozcデフォルト辞書の差分だろ? SKK辞書は動詞の形式が特殊だから、 単純に比較できるのは名詞系だけかもな。 > デフォルト辞書で網羅してたら辞書インポートする必要無いのでは? 網羅してるかどうか分からんのでしょ? 試しにやってみて動作を確認すればと言ったわけよ。 Mozcのユーザ辞書のシステム辞書に対する優先度は知らないんだけど、 「漏れてる」と判断された短い単語がたくさんあれば、 おかしな変換結果が大量に発生して、 単純差分じゃ意味がないことがすぐに分かると思ったから。 実際どうなるかは俺も知らん。 Mozcのデフォルト辞書は長年編集されてきて収録数も膨大なIPAdicでしょ? > SKKのスモール辞書辺りの単語は網羅されているのか比較 こんな発想おれにはないよ。「スモール」辞書と比較? バカだなあ、と思いつつも、 >>305が意外な発見をして本家に有益な貢献をするのかもなあ
- 310 名前:login:Penguin mailto:sage [2010/06/02(水) 22:35:24 ID:nCOjwefR]
- >>305
とりあえずやってみた。 雑にやったものだからソースとかは出さねえよ。 確認したのは「存在しない表記」だけな。読みは無視。 SKK-Sには重複除いて4581の表記がある。 このうち単漢字・アルファベット・記号以外で Mozcデフォルト辞書に入っていないのは次の通り。 仮名漢字変換 全角仮名 半角仮名 半角片仮名 日帰 最寄 相変 見掛 見落 記事選択 以上。 単漢字は自分で探してくれ。 記事選択とかは分けて変換できると思うので、 全部網羅されてると言っていい。 じゃあな
- 311 名前:login:Penguin mailto:sage [2010/06/02(水) 22:41:13 ID:408ZUOE4]
- >>309
詳しいやり方がわかりませんので、簡単にできるなら是非どうぞ。 とりあえず茶筅やメカブの辞書をgrepして眺めているだけですが、 IPAdicはあくまで形態素のコーパスで、熟語は音声処理用かなんかの逆変換で使いにくい 短い単語とかは結構足りないんじゃないかって気がします。 例えば宮城県で探しても大学の名前しかでてこなくて県名単体すら入ってない。 Mozcの辞書も傾向は似ていますが、unicodeな単語とかも入ってて 多少改善してる感じは気のせいでしょうか?
- 312 名前:login:Penguin mailto:sage [2010/06/02(水) 23:00:23 ID:408ZUOE4]
- っと入れ違いでした
>>310 どうもです。とりあえず予想通りって事ですよね。 単漢字の漏れというのはどうなんですかね? まあ扱いは難しそうですが。
- 313 名前:login:Penguin mailto:sage [2010/06/03(木) 00:50:31 ID:0C19uf7w]
- >>311
なにがしたいのか意味が分からないのだけど 「宮城」「県」が入っていれば 「宮城県」は変換できる。 というか、個々のパーツで変換できるならそれを辞書に登録しておく意味はない。 ディスクの無駄だし。 短い単位で解析できるように、というのが UniDic。 自分でクロールしてきたデータに UniDic の MeCab をかけてコーパス作ればいいんじゃないかな
- 314 名前:login:Penguin mailto:sage [2010/06/03(木) 00:59:29 ID:wmng9tJY]
- >というか、個々のパーツで変換できるならそれを辞書に登録しておく意味はない。
そもそも大規模コーパスというのはそういう方針とは思えませんが? パーツの頻度を掛け算した予測頻度を実際の頻度が上回るのであれば登録するべきでしょう。
- 315 名前:login:Penguin mailto:sage [2010/06/03(木) 09:15:19 ID:1uwN98gG]
- >>300-301
私家版辞書追加して、さすがGoogleって言ってる馬鹿約2名発見しますた。
- 316 名前:login:Penguin mailto:sage [2010/06/03(木) 09:29:34 ID:1uwN98gG]
- 確かに午後と打ちたければ、午と打って後と打てばいいよなwww
それとも午後の紅茶と打って、の紅茶を削るか?w もうアホかと。
- 317 名前:login:Penguin mailto:sage [2010/06/03(木) 10:29:33 ID:cLHYQIlM]
- >>42
つきはWakame(ワカメ)だな
- 318 名前:login:Penguin mailto:sage [2010/06/03(木) 11:03:56 ID:yHIg/azl]
- いやcombだろ
- 319 名前:login:Penguin mailto:sage [2010/06/03(木) 11:43:56 ID:8rrDcIso]
- libiconvェ…
- 320 名前:login:Penguin mailto:sage [2010/06/03(木) 12:20:21 ID:r9B8lAgG]
- uim-mozcのビルド方法おしえてくだい
- 321 名前:login:Penguin mailto:sage [2010/06/03(木) 12:38:19 ID:dyOLzhIN]
- # make; make; make clean
- 322 名前:login:Penguin mailto:sage [2010/06/03(木) 13:37:11 ID:u1itOj+L]
- >>320
code.google.com/p/macuim/source/browse/trunk/Mozc/build
- 323 名前:login:Penguin mailto:sage [2010/06/03(木) 14:11:44 ID:zicLG5/c]
- mozcは低能糞ソフトでまともに使えないから、中の辞書だけが欲しいんだよね。
mozcの辞書はどこに置いてあって どうやってplaintextに変換できるわけ?
- 324 名前:login:Penguin mailto:sage [2010/06/03(木) 15:01:06 ID:bG0s/qhN]
- 糞で低能な奴に「低能糞ソフト」呼ばわりされるmozcとその開発陣は不憫だな。
- 325 名前:login:Penguin mailto:sage [2010/06/03(木) 15:07:37 ID:0C19uf7w]
- >>314
そうか? 「宮城県」は「宮城」と「県」であって、 「宮城(固有名詞)」の左に来る品詞と「県(接尾辞)」の右に来る品詞は違うのに、 登録してしまうと区別できなくなってしまう。 連接コストまで考えると単語の頻度だけで簡単に決まるものではないので、 なんでもかんでも登録するとむしろ精度悪化することもあるんじゃないかなあ。 (くっつけても品詞が変わらないものはくっつけたものを登録してもいいと思うが)
- 326 名前:login:Penguin mailto:sage [2010/06/03(木) 16:11:34 ID:uFbeO/du]
- 結局、AnthyとMozcってどこが違うの?
Ubuntuで使ってるけど、はじめからあるAnthyよりはMozcの方がよさげだけど
- 327 名前:login:Penguin mailto:sage [2010/06/03(木) 16:30:35 ID:AE+ltDI6]
- >>326
anthyは開発停止してたんじゃなかったっけ? mozcは開発公開が始まったばかり。 かなり初期の段階だから、開発協力者だけにしたい状態じゃないかな。 だから、辞書のバイナリうんぬんの話もでる。 stableちかくまで普通は待ったほうがいいだろうね。それでもanthyよりmozcの ほうがいいように思う。
- 328 名前:login:Penguin mailto:sage [2010/06/03(木) 16:50:09 ID:8XZFMkrD]
- >>327
> anthyは開発停止してたんじゃなかったっけ? 再開したよ。 sourceforge.jp/projects/anthy/lists/archive/dev/2010-May/003705.html
- 329 名前:login:Penguin mailto:sage [2010/06/03(木) 17:30:21 ID:xiIjB+In]
- >>326
anthyは親指シフトに対応している
- 330 名前:login:Penguin mailto:sage [2010/06/03(木) 18:24:16 ID:u1itOj+L]
- 辞書が同じなら云々言ってる人たちは文節ごとに変換してる人たちでしょ。
文章で変換すれば違いは一目瞭然。
- 331 名前:login:Penguin mailto:sage [2010/06/03(木) 18:26:44 ID:wmng9tJY]
- >>355
県の後ろにつながるの品詞と、宮城県の後ろにつながる品詞は大差ない。 つまり語頭と語尾の文脈IDを継承すれば済む話。
- 332 名前:login:Penguin mailto:sage [2010/06/03(木) 18:28:03 ID:wmng9tJY]
- >>325 失礼
- 333 名前:login:Penguin mailto:sage [2010/06/03(木) 19:31:44 ID:HrnMknGo]
- >>330
筋がいいのはMozcだけど、 IPAdicのせいか文章を細かく区切りすぎるような感じはしてる。 「ご|ご」とか「する|シ」みたいな感じで。 ある程度の長さを入力すれば改善するけど、 やっぱりちょっと細かい感じはするな。 語尾とか複合語の切り方がおかしくなるときがある。 Anthyだとdepgraphだったか語のつながりをある程度まとめてくれるので、 「細かい」って感じはしない。 複合語もcompound.tか何かに大量登録されてるしな。 IPAdicは文章を単語に分割するツールでも使われてるんだっけ。 短い単語に比重がかかりすぎな感じがちょっとする。 複合語を大量追加+短い単語の優先度をちょっと下げる、 くらいの調整はいるかもね。 ちょっと使った感想なんで勘違いかもしれん
- 334 名前:login:Penguin mailto:sage [2010/06/03(木) 19:59:43 ID:AE+ltDI6]
- >>333
そうだなぁ。検索するときには文章をキーワードにすることはないから、 検索屋さんが作ってるだけに、切り替えみたいなのは欲しいかも。 ibusのプラグインでSKK一発切り替えがあればなぁ。と変態的に思ってる。 mozcの一番良い使い方はおおよそ感じ取れるようになったけど、 やっぱり文節ごとに変換させるのはあまり良くなさそうだな。
- 335 名前:login:Penguin mailto:sage [2010/06/03(木) 20:00:21 ID:eXkP2joF]
- anthyを頻りに擁護するバカがいついてる模様
- 336 名前:login:Penguin mailto:sage [2010/06/03(木) 20:56:17 ID:0C19uf7w]
- >>331
あなた中国出身? (煽りじゃなくてね) 後ろにつながる品詞は同じだが、 県の前に接続する品詞と、宮城の前に接続する品詞が違うという話。 「宮城県に出張に行った」は言うけど「県に出張に行った」は言わないでしょ? あと、確かに左文脈と右文脈は別々に定義できるようになっているけど、 実際の辞書は左文脈ID=右文脈IDなので、やっぱり区別できないと思うよ。
- 337 名前:login:Penguin mailto:sage [2010/06/03(木) 21:44:04 ID:PxaC1S8F]
- uze-
- 338 名前:login:Penguin mailto:sage [2010/06/03(木) 21:52:20 ID:pPPT4Ls/]
- 一般名詞と接尾の「県」は別個に登録されているから区別できるんじゃないのか?
- 339 名前:login:Penguin mailto:sage [2010/06/03(木) 22:26:56 ID:wmng9tJY]
- >>336
宮城県に 県に 言うでしょ。
- 340 名前:login:Penguin mailto:sage [2010/06/03(木) 23:00:05 ID:wmng9tJY]
- 駅名なんかをみると、左文脈IDと右文脈IDが異なっている複合語を見かけるけど、幻覚なんだろうか?
それとも、変換エンジンが無視しているって話?
- 341 名前:login:Penguin mailto:sage [2010/06/04(金) 01:57:57 ID:ZO43vMX/]
- コンパイル中暇だからソース漁ってたら…
これは酷い mozc.googlecode.com/svn/trunk/src/data/dictionary/suggestion_filter.txt
- 342 名前:login:Penguin mailto:sage [2010/06/04(金) 02:06:05 ID:kzCJPyMQ]
- いまさら。
- 343 名前:login:Penguin mailto:sage [2010/06/04(金) 02:14:04 ID:ZO43vMX/]
- あれ?
mozcってLinuxだけだよね? Windows用のプログラムも混じってない?
- 344 名前:login:Penguin mailto:sage [2010/06/04(金) 04:21:19 ID:4TzFfVhZ]
- いまさら。
- 345 名前:login:Penguin mailto:sage [2010/06/04(金) 06:17:40 ID:mBX7YmR0]
- 私家版辞書を追加したmozcを変換効率だなどと頻りに擁護するバカがいついてる模様
- 346 名前:login:Penguin mailto:sage [2010/06/04(金) 10:04:52 ID:NpMgVDdo]
- PCが無いと「頻りに」なんて漢字出てこないバカどもの議論ってこと?
- 347 名前:login:Penguin mailto:sage [2010/06/04(金) 11:01:45 ID:sE1oayZo]
- 345はただの基地外なので放置推奨
- 348 名前:login:Penguin mailto:sage [2010/06/04(金) 13:00:07 ID:mBX7YmR0]
- >>335 >>347
>>345
- 349 名前:login:Penguin mailto:sage [2010/06/04(金) 17:15:10 ID:YpJdVChb]
- mozc/ipc/unix_ipc.ccだとローカルソケット(socket AF_UNIX)使っていて、
mozc/ipc/win32_ipc.ccだと名前付きパイプ(CreateNamedPipe)使っているけど、 ローカルソケット(socket AF_UNIX)をwindowsでそのまま使わなかった理由はなんなのだろう。
- 350 名前:login:Penguin mailto:sage [2010/06/04(金) 19:08:43 ID:YpJdVChb]
- 自己解決した。たぶん理由は2つ
1.IPスタック WindowsのAF_UNIXソケットはIPスタックを回避できない 2.セキュリティ上の問題 WindowsのgetsocketoptはSO_PEERCREDが使えないため、 アクセス元の情報を取得出来ない これを避けるには名前付きパイプを使えばいいのか...な...たぶん
- 351 名前:login:Penguin mailto:sage [2010/06/04(金) 19:38:47 ID:2qDpkCoq]
- もずく酢
- 352 名前:login:Penguin mailto:sage [2010/06/04(金) 19:46:47 ID:ov5hWS+Q]
- iBus立ち上がらねぇぇぇええええ
藻屑はインストール出来て設定まで出来ているのに・・・・・ @SUSE
- 353 名前:login:Penguin mailto:sage [2010/06/04(金) 20:06:23 ID:QQcLRn+n]
- そういえば、モズクの辞書を逆にメカブで使ったら性能どうなるんだろ?
- 354 名前:login:Penguin mailto:sage [2010/06/04(金) 22:07:20 ID:kzCJPyMQ]
- mozc の辞書ってそんなにいいの?
- 355 名前:login:Penguin mailto:sage [2010/06/05(土) 02:12:01 ID:lBoLIUKF]
- >>352 ん?iBus何か難しいことあったっけ?シェルからibus-daemonでどんなエラー出てる?
- 356 名前:login:Penguin mailto:sage [2010/06/05(土) 06:19:24 ID:D5PsWP6U]
- >>354
mozcの辞書がいいのではなく、UTUMIさんの辞書がいいだけ。 それを勘違いしてGoogleってスゲーって言ってるバカが、変換効率がいいとかいってるだけの話。
- 357 名前:login:Penguin mailto:sage [2010/06/05(土) 06:49:54 ID:xabQhbJd]
- たしかにUTUMIさんの辞書はいい
mozc使う人は素のmozcの能力を見極めて 改良に努めるべき。
- 358 名前:login:Penguin mailto:age [2010/06/05(土) 08:30:41 ID:g/NHqkpU]
- >>356
しつこいなanthy君w
- 359 名前:login:Penguin mailto:sage [2010/06/05(土) 09:10:15 ID:r9Lhvdmg]
- Mozcのデフォルト辞書はあんまり人の目でチェックされてない感じがする。
「べっさつ」と入力して方向キーの↓を押し続けると、 別冊すてき 別冊家庭画 別冊花 別冊すてきな奥さん、家庭画報、花とゆめ、が途中で切れたのかな。 べびーざら 2239 2318 6181 ベビーザら 「ベビーザらス」だな。 未知語の自動収集精度が良くないのかもなあ。 いや全体的にはそこそこの精度なのかもしれないが、 ノーチェックで収録してしまう感覚がまずいのかも。 わかりやすいのは「ん」ではじまるやつ。 ンコ気持、ンコさん、ンコたち、ンコちゃん、ンバーワン、ンピングカー、 ンブラー、ンプ場... 全くチェックしてないんだろうなあ。 きちんとしたIPAdic+雑な自動収集語という感じ。 頻度設定も怪しいところが。 「ふくらはぎ」と入力すると「フクラハギ」が第一候補。 よく使われるのは平仮名表記のはず。 何度か話でてると思うけど、短い文節だと極端に精度下がるのも気になる。 (入力終えて部分修正するときに、目的の表現がなかなか出てこないことがある) 「云い始めた」が第一候補になったり。 「そんな事を言い始めた」だと「言い始めた」になるんだが。
- 360 名前:login:Penguin mailto:sage [2010/06/05(土) 09:19:22 ID:fhMYXk7C]
- 人力でどうこうやるのはGoogleの文化じゃないんだろう。
- 361 名前:login:Penguin mailto:sage [2010/06/05(土) 09:29:33 ID:r9Lhvdmg]
- なんじゃこりゃ系の登録
わーほりいぎりす 2239 2239 8157 ワーホリイギリス ーとくん 2239 2319 6228 ートくん ーままさん 2239 2319 7097 ーママさん ヾの 2239 2239 8280 ヾノ ぇんと 2239 243 7023 ヴェンと いきちやん 2303 2303 8986 益暢 けんてんのう 2303 2239 7136 謙天皇 (孝謙天皇?) このごろろ 2290 2239 7931 このごろろ こんじょうてんのう 2239 2239 7590 今上天皇 (きんじょう) こんすか 2979 2239 7552 今スカ こんすたじお 2979 2239 7788 今スタジオ こんすたっふ 2979 2239 7540 今スタッフ こんすとれす 2979 2239 7788 今ストレス こんすぽーつ 2979 2239 7626 今スポーツ こんすーぱー 2979 2239 7227 今スーパー こんせいかつ 2979 2234 7293 今生活 こんせいふ 2979 2239 7841 今政府 こんせいり 2979 2234 7849 今整理 こんせいり 2979 2239 7392 今生理 こんせけん 2979 2239 6929 今世間 こんせっけい 2979 2234 7924 今設計 こんせっと 2979 2239 7746 今セット こんせつめい 2979 2234 7180 今説明 こんせぶん 2979 2301 6735 今セブン 適切な表現も混じってるかもしれないが、収録するほどでもないだろと
- 362 名前:login:Penguin mailto:sage [2010/06/05(土) 09:38:44 ID:r9Lhvdmg]
- >>360
まあなあ。 Google IMEの辞書ぐらい質を量で押し切ればいいんだろうけど、 現状だと中途半端な感じ
- 363 名前:login:Penguin mailto:sage [2010/06/05(土) 10:12:08 ID:D5PsWP6U]
- >>358
しつこいな変換精度くんw 辞書以外のところでmozcがどう変換精度が優れてるのか説明してみろ
- 364 名前:login:Penguin mailto:sage [2010/06/05(土) 10:38:19 ID:FvoE5wGr]
- anthyがバカってことを認められないバカが一匹いるなw
- 365 名前:login:Penguin mailto:sage [2010/06/05(土) 10:43:36 ID:GieRvdIi]
- 変な日本語w
- 366 名前:login:Penguin mailto:sage [2010/06/05(土) 11:44:27 ID:r9Lhvdmg]
- こんな記法もあるのか?
{こうたろう/ひろたろう} 2303 2303 5867 廣太郎 あとゴミっぽい収録語の続き ヶせっと 2239 2239 8037 ヶセット ヶらヶら 2239 2239 7784 ヶラヶラ ぁでふぉるまにあこれくしょん 2239 2239 8118 ぁでふぉるまにあこれくしょん んたーねっと 2239 2239 8085 ンターネット んでぃーず 2239 2239 8230 ンディーズ んぷさいと 2239 2239 8410 ンプサイト んぷふぁいやー 2239 2239 8385 ンプファイヤー んらんど 2310 2310 5391 ンランド 中黒付きの未知語は取れない? ばらくおばま 2239 2239 7916 バラクオバマ バラク・オバマ無し 変わった読みかたのチェックが甘い? ばり 2239 2239 6859 尿 どこかで出てたご変換(「誤変換」が出ないし「誤」もなかなか出ない) あいぱっど iPod 「がい 買い」も出にくい。「臥位」よりも後。 「あと 後」の優先度も低いなあ。 「よりも|あと」だと7番目。 「あと」単体でも「跡」より下になる。
- 367 名前:login:Penguin mailto:sage [2010/06/05(土) 12:26:17 ID:R3XOmDMP]
- >>366
イって打ったあと、ンターネットって打ったりする人のために・・
- 368 名前:login:Penguin mailto:sage [2010/06/05(土) 12:44:57 ID:D5PsWP6U]
- >>364
結局変換精度の説明は出来ないってことですね?w
- 369 名前:login:Penguin mailto:sage [2010/06/05(土) 13:27:13 ID:r9Lhvdmg]
- 単漢字で出にくいもの。
「ち 日」出るのが早すぎ。そもそも必要? 「こ 子」なかなか出ない。 「だん 男」なかなか出ない。 「くん 組ん」出るのが早すぎ。「君」「くん」を優先。 「じん 腎」出るのが早すぎ。「人」を優先。 「かみ 上」最優先にするものではないと思う。「紙」「神」を優先。 「せい 生」全然出てこない。かなり下にある。 「とう 頭/冬/島など」なかなか出てこない。 「かい 回」なかなか出ない。 「きょう 強」なかなか出ない。 「じ 時」なかなか出ない。 「さる 申」「猿」を優先。 「そよぐ」普通に変換すると「そよぐ」になるが、 「戦ぐ」が第一にサジェストされるのはなぜ? こういうケース結構ある。 「たんさん 単三」候補がない。
- 370 名前:login:Penguin mailto:sage [2010/06/05(土) 14:58:33 ID:7VLh6t0e]
- >>368
そんなこと言ってると、mozcの変換精度が他と比べてたいしたことないってこと 説明してよと言いたくなるじゃないか。
- 371 名前:login:Penguin mailto:sage [2010/06/05(土) 15:17:11 ID:R3XOmDMP]
- まあ何はともあれAnthy以外に選択肢ができたのはいいことだ。
- 372 名前:login:Penguin mailto:sage [2010/06/05(土) 16:19:04 ID:SieYDk6Z]
- ? ATOKがあるじゃん。
- 373 名前:login:Penguin mailto:sage [2010/06/05(土) 16:32:36 ID:ZADDM2Q0]
- >>367
ゴミとか言ってる奴は変換辞書を国語辞典かなにかと勘違いしてるんじゃないの? 基本的には自動収集で大は小を兼ねるって思想だよな、元々の辞書に比べて足りない方が問題。 ケチくさい奴は他の変換使ってればいいよ。 検索屋の発想だから、悪影響のあるゴミはルールで排除って感じでしょ? 結局そこんとこがグーグルの肝なのでフリーになってない訳で。
- 374 名前:login:Penguin mailto:sage [2010/06/05(土) 17:21:43 ID:rTZo1uGy]
- ヶセットは〜個セット、ヶラヶラは笑い声の擬音かな
「こせっと」「けらけら」の読みで変換できるといいね ところで、「か」「が」「こ」で「ヶ」が出ない
- 375 名前:login:Penguin mailto:sage [2010/06/05(土) 17:44:16 ID:D5PsWP6U]
- >>370
変換精度云々言い出したのは、Googleとmozcをマンセーしてるやつの方。 一般的には選択肢が増えた程度の認識しかない。
- 376 名前:login:Penguin mailto:sage [2010/06/05(土) 18:00:55 ID:r9Lhvdmg]
- >>373
>>362 >>359 >>374 > ヶセットは〜個セット そうだな。 しかし「けせっと」だと「毛セット」、 「こせっと」だと「小セット」になって、 「ヶセット」が出ない。 sannxkesetto、とかじゃないと出ないな。 Google IMEの辞書から秘密情報を取り除いて、 低頻度の表現をバッサリ削ったもののほうが、 精度としては良くなる気がする。
- 377 名前:login:Penguin mailto:sage [2010/06/05(土) 18:13:22 ID:r9Lhvdmg]
- Mozcで困るのは、先々の方針がよくわからないことだなあ。
これだけ早く設定ツール出すんだったら、 mozc-configの人もCUIまででやめてたんじゃないかな。 (止めてたんじゃないかな、が出ない。) 辞書をチェックするにしてもツール作るにしても ムダデマ(無駄手間、が出ない)になる恐れがある。 あとで嫌な思いしないように(ように、の順位低い)、 眺める程度のことしかできない。 変換確認にしたって辞書がゴソッと変わったらイチからやり直しだもんな。
- 378 名前:login:Penguin mailto:sage [2010/06/05(土) 18:31:21 ID:ZADDM2Q0]
- >>376
取り除いたら出なくなって駄目駄目だろ。 品詞別にフィルタでも掛けてたんじゃないの?
- 379 名前:login:Penguin mailto:sage [2010/06/05(土) 18:42:40 ID:ZADDM2Q0]
- mozcの作りは聞いた限りでは意外と教科書通りというか、オーソドックスな印象を受ける。
むしろ、最新研究てんこ盛りの筈のanthyの結果が振るわないのがおかしいんだよ。 辞書に関してはmozcに流用しただけで評価されているのだから問題は無さそうなのに。
- 380 名前:login:Penguin mailto:sage [2010/06/05(土) 19:12:30 ID:ZADDM2Q0]
- >>377
選択肢を増やすことを、無駄手間と考えてしまうエコノミックアニマルこそ開発にとって問題なのかもしれない。 例えばGCCがあったからこそ他の開発ツールが対抗して無償化したりした訳で、それと同じだと考えればいい。 大体そんなこと言ってたら、gtkだのqtとかこそ無駄手間でバカバカしい。
- 381 名前:login:Penguin mailto:sage [2010/06/05(土) 19:58:50 ID:r9Lhvdmg]
- 時々語尾がおかしいな。
そんなやつが痛な (いたな) 冷静な自分が板 (いた) やっぱ人名弱いな。 損|正義 やっぱ中黒なしだけか。 ジョニーデップ 現時点での感想。 ・ある程度の長さを入力した時の第一表記は筋がいい。 ・しかしよくある第二表記を選ぼうとするとなかなか見つからないことがある。 ・短い読み入力だと精度がぐっと落ちる。 ・特に単漢字に関しては頻出語がなかなか出てこなかったり、 頻出語に変な読みを当てたものが上位に来たり。 (人がチェックしていないのでしかたない) ちょっとずつ変換する人や、 推敲して部分修正を繰り返す人は、 変換精度のギャップに戸惑うかも。 テストはぜんぶ素もずくでやった。 他の人もテストしてくれるとありがたいな
|

|