- 1 名前:login:Penguin [2010/05/13(木) 11:58:50 ID:e7jJ/yN9]
- code.google.com/p/mozc/
ref. sourceforge.jp/magazine/10/05/11/0335246 googlejapan.blogspot.com/2010/05/google_10.html
- 246 名前:login:Penguin mailto:sage [2010/06/01(火) 16:16:29 ID:0n41Qhbr]
- Googleの人自身が追加辞書に否定的だからなあ。
twitter.com/taku910/status/15075896507 通常どんなIMEでもデフォルト状態が一番性能が高いように設計されています。 はてな辞書などをデフォルトで有効にしていいものをしていないのは、 精度が下がるからです。 手元で実験していますが基本デフォルト状態が一番良くて ユーザ辞書でもなんでも余計な物を突っ込むと精度が落ちます。 6:13 PM May 30th webから ただ文章表現って多様だから、 とあるケースでの精度がいかに良くても、 ある人にとっては全体としてイマイチだったりすることもある。 「基本デフォルト状態が一番性能が高い」とはちょっと思い上がりかもなあ。 ちょっと前まで県名を変換できなかった完成度だし、 はてな辞書にしても、単純に全部足したら精度は落ちるけど、 選別したうえで必要なものを足せばそれなりに使える。 なによりGoogleの秘密版の辞書って余計なものの盛り合わせじゃね? 辞書は色々あっていいと思う。ハッカーにしてみればうぜーのかもしれないが。 ただ今はバグ出しとか必要なので、デフォルトで使ってみるのも大事。 ディストリ標準で非公式辞書を最初から埋め込むのはまだ早い。 メーリングリストで注意喚起したって見てるやつほとんどいねえしな。 アイコンがないのも現状の完成度を暗示してると思うので、 あえて足すことはない。 あ関係ないけどHideaki ABEさんmozc-configの開発お疲れ様でした。 公式版はQt依存めんどくせえのでちょろっと使わせていただくかもしれません。 ABEさん自身が使ってるのであればフリーズすることもないのでは。 それとGoogleのひとIssues報告放置しすぎ(出張中か?)
- 247 名前:login:Penguin mailto:sage [2010/06/01(火) 16:23:50 ID:Khp/NcXq]
- >>245
は?なにが?
- 248 名前:login:Penguin mailto:sage [2010/06/01(火) 16:31:12 ID:XI8koRaq]
- >>246
辞書の育成はセンスもあるからな。 作者が最適化している辞書だとしても それより優れたものは現れるかもしれない。チューニングする人しだいだね。 ま、遺伝的アルゴリズムみたいなもんだからね。 良いセンスの人がチューニングした辞書がオープンソースとして公開されたら たすかるからね。
- 249 名前:login:Penguin mailto:sage [2010/06/01(火) 16:34:29 ID:Khp/NcXq]
- それはそれ
ID:XI8koRaqみたいなアホが知らずにgoogleとは違う辞書を使ってフィードバックするようなことがあれば、迷惑な話。
- 250 名前:login:Penguin mailto:sage [2010/06/01(火) 17:17:22 ID:X3cZthyj]
- >>246
そもそもデフォルト状態って、大規模コーパス版のことだろ。 エンジンの設計が同じならIPADic使ってる時点で性能落ちてるんじゃないか? そこから追加した微妙な部分が付属辞書にあってそれが肝だってことなら、 どういう方針で調整がなされたのか誰か差分取って調べてくれないかな? ユーザー辞書は登録時に頻度情報が入れられないので変換精度が落ちるに決まってるじゃん 組み込み追加辞書の場合は頻度情報入ってるから全然違うと思うけど。 しかしその頻度情報の精度というのが母集団、つまりコーパスデータによるから まんべんなく集めてるグーグルより桁が落ちるかもとか、統計学的にデータまぜるなきけん、 って話なだけでしょ。 結局、GPSのわざと下げられている精度をどうやって向上させるかみたいな話なんだから、 中の人なら否定するに決まってる。
- 251 名前:login:Penguin mailto:sage [2010/06/01(火) 17:19:24 ID:+xUAPRzh]
- GPSの軍用コードはすべてにおいて民間用を超えるわけではないらしいけど
戦時に精度低下があれば補正値知ってると良いかもしれないけど
- 252 名前:login:Penguin mailto:sage [2010/06/01(火) 17:22:17 ID:6lXEiumK]
- 午後を入力するのに、「ご」と「ご」を区切るなよ
- 253 名前:login:Penguin mailto:sage [2010/06/01(火) 17:39:27 ID:XI8koRaq]
- >>249
粘着お断りです。ごめんね。
- 254 名前:login:Penguin mailto:sage [2010/06/01(火) 18:15:44 ID:Khp/NcXq]
- ID:XI8koRaq
- 255 名前:login:Penguin mailto:sage [2010/06/01(火) 18:28:50 ID:0n41Qhbr]
- >>246
> そもそもデフォルト状態って、大規模コーパス版のことだろ。 そうなのかな? Google辞書だったら開発者が意図しようがしまいが、 「はてな辞書」の語彙は収集されて有効になってると思う。 まあ直接聞かないと分からんが
- 256 名前:login:Penguin mailto:sage [2010/06/01(火) 18:29:31 ID:0n41Qhbr]
- あ >>250 だった
- 257 名前:login:Penguin mailto:sage [2010/06/01(火) 18:55:15 ID:X3cZthyj]
- >>255
追加単語そのものより、漏れが出る事が問題な気がする。 >>252とかもそうでしょ。
- 258 名前:login:Penguin mailto:sage [2010/06/01(火) 19:24:49 ID:XI8koRaq]
- ごご か。 変換してないな。
英英辞典とか そのへんの言葉が漏れてたりもするし、 いまはこまめに辞書を育てるしかないなぁ。とはおもってるよ。 それでもanthyよりは使い易いけど、
- 259 名前:login:Penguin mailto:sage [2010/06/01(火) 19:40:59 ID:iRw/MYCq]
- 辞書の問題っていちいちバグトラッカーにあげることになんの?
いちいちめんどくさいよね。 「はりつけて」で「貼り付けて」がでない。
- 260 名前:login:Penguin mailto:sage [2010/06/01(火) 19:47:12 ID:biQ6ox7/]
- そういうのは鍛えりゃいいだけだよな
- 261 名前:login:Penguin mailto:sage [2010/06/01(火) 19:53:01 ID:iRw/MYCq]
- >>260
そんなこと言い出したら何でもそうじゃん。 UTSUMIさんの名詞辞書をもってしても「ポルチオ」がないのはしょうがないかなとは思うが。
- 262 名前:login:Penguin mailto:sage [2010/06/01(火) 20:01:56 ID:biQ6ox7/]
- Anthyのデフォルト状態とかひどいもんだからな
- 263 名前:login:Penguin mailto:sage [2010/06/01(火) 20:26:01 ID:2EYeyyHj]
- ライフサイエンス辞書が登録できるようにしてくれ
あれがないと話にならん
- 264 名前:login:Penguin mailto:sage [2010/06/02(水) 00:05:59 ID:qoQj5wV4]
- 誰かフォークするものはおらんのか!
誰か!
- 265 名前:login:Penguin mailto:sage [2010/06/02(水) 01:29:17 ID:HiSOFHLt]
- >>244
そういう話を当のブログにコメントで書いてあげたら? URL 書けないならそれができるのは君しかいないんだから。
- 266 名前:login:Penguin mailto:sage [2010/06/02(水) 01:40:28 ID:408ZUOE4]
- とりあえずSKKのスモール辞書辺りの単語は網羅されているのか比較してみた人居る?
っていうか>>200のツール教えて欲しいな。
- 267 名前:200 mailto:sage [2010/06/02(水) 02:05:04 ID:w3pItDF+]
- >>266
辞書ファイルの読みと漢字だけを sed で抽出して sort -u したものを、 sort -m して uniq -d して wc -l しただけ。だったはず。 ていうか、細かいこともうすっかり忘れてて愕然としている俺がいる。
- 268 名前:login:Penguin mailto:sage [2010/06/02(水) 02:33:17 ID:nCOjwefR]
- >>263
Google日本語入力、ATOKやことえり辞書のインポートに対応 internet.watch.impress.co.jp/docs/news/20100319_355796.html Google IME/Mozcのユーザ辞書は同じ形式のはずだから、 Windowsで何とかインポートしてLinuxに持っていけば使えるはず。 LSD(なんつう名前だ)はMS-IMEシステム辞書形式だから、 バイナリエディタでいじらないとインポートできないかもな。 >>266 meisiは0601では重複ないはず。 jinmeiは重複チェックしてないはず。 同じのをModified Anthyでも使ってるから。 の割には重複少ないな。 まあ収録数多いから比率的に小さくなるか。 > SKKのスモール辞書辺りの単語は網羅されているのか比較 くだらねー。 それに単に網羅したって意味ないよ。 要らない単語削って頻度指定して…とやらないとな。 ためしにユーザ辞書として一律にインポートしてみれば。 しかしこんな「要望」によく応えたもんだよ。「当然のこと」とか「絶対対応するべき!」とか。 日本のLinuxユーザのレベルを示したスレ↓。 > Linuxユーザーにこそ必要なものです。 www.google.com/support/forum/p/ime/thread?tid=4d9cb7b1ce293ed1&hl=ja > Linuxユーザは共同でプロジェクトをより良いモノに完成させたい意識は > マックやWindowsのユーザよりも高く、 経験的にはWindowsユーザのほうが人数多いぶん反響あるし、 より良くしたいという人も多いんじゃねえかなー
- 269 名前:login:Penguin mailto:sage [2010/06/02(水) 03:07:20 ID:HDGBUJC9]
- >>268
そりゃ単純に母数が大きいだけじゃないか? Linuxは開発コミュニティへの貢献意識が強いユーザが多いというより そういう人間しかLinuxを使ってないという側面がある
- 270 名前:login:Penguin mailto:sage [2010/06/02(水) 03:26:40 ID:fMpvOFIK]
- >>269
> そういう人間しかLinuxを使ってないという側面がある それはないわ
- 271 名前:login:Penguin mailto:sage [2010/06/02(水) 03:32:32 ID:7kI2YFS9]
- >>268
LSDは確かことえり形式の辞書がダウンロードできたはず。 ちなみに名前はあえてそういうのを狙ったんだとさ。
- 272 名前:login:Penguin mailto:sage [2010/06/02(水) 06:43:02 ID:02i5Uj0J]
- >>265
コメントしましたがなにか? きみに言われる筋合いはない。
- 273 名前:login:Penguin mailto:sage [2010/06/02(水) 06:46:10 ID:02i5Uj0J]
- >>268
で、Google側は辞書の提供はなく、ユーザ側は辞書よこせだったわけだw もうアホかと。
- 274 名前:login:Penguin mailto:sage [2010/06/02(水) 07:10:05 ID:5crcoY3W]
- >>268
> しかしこんな「要望」によく応えたもんだよ。… そりゃ 戦略上のことをいうとgoogleって自社osつくるんだし 日本での普及を考えたらimeは無視できないのは当然かと。 web tvがどんなことになるのかわからないけど、こっちでも 重要な役割でしょうしね。 また、脱msのものを普及させようと思ったらこの辺の周辺のことって 無視できないからね。 だから、答えたとしても利益があるんだろうね。 まるでウインドウズユーザーのような連中の声って、その辺を 機敏に感じるにはよいのかもね。 ないものは作れという思想のもとでlinuxを利用しているものから見れば 苦笑いの連中だけど、それだけ昔よりは普及してきているという証でも あるんだろうね。彼らを蔑んでみるのはわからんでもないけどね。
- 275 名前:login:Penguin mailto:sage [2010/06/02(水) 10:03:44 ID:HiSOFHLt]
- >>272
ならいいけど。 「なにか」とか言われても URL わからないから コメントしたかどうかおれにはわからなかったよ。
- 276 名前:login:Penguin mailto:sage [2010/06/02(水) 14:43:48 ID:SuZRONSu]
- 何の話をしてるかわからなかったが
linux.ikoinoba.net/index.php?UID=1275323887 のことを言っているのか ここの「またまた帰ってきた某所の匿名」と「ID:Khp/NcXq」は同一人物だろう 「某はてなのブログ」がどこかはわからなかった
- 277 名前:login:Penguin mailto:sage [2010/06/02(水) 15:02:37 ID:02i5Uj0J]
- >>276
某はてなはそこではない。
- 278 名前:login:Penguin [2010/06/02(水) 15:40:49 ID:SVlKWBuX]
- Linux界隈でバイナリ配布禁止をはじめて見た
- 279 名前:login:Penguin mailto:sage [2010/06/02(水) 15:44:09 ID:HiSOFHLt]
- >>278
禁止はしてないでしょ。
- 280 名前:login:Penguin [2010/06/02(水) 16:32:49 ID:SVlKWBuX]
- 禁止と言っているようなものだろ
これで配布したら 作者の気持ちを考えないなんてサイテー と喚く馬鹿が大量発生する
- 281 名前:login:Penguin mailto:sage [2010/06/02(水) 16:51:06 ID:KEng9W8y]
- ていうかnon-freeぐらい珍しくもないだろ
- 282 名前:login:Penguin mailto:sage [2010/06/02(水) 16:57:43 ID:5crcoY3W]
- ライセンスを発行した上でライセンス以外のお願いをするというのは
あまり褒められたものではないとは思うよ。 ありとかなしじゃなくて記述しているかしてないかだけが意味するのにね。 ライセンスってそうゆうもんだって理解してたんだが。 鬼車のrubyマージ騒動みたいになっちゃうよ。
- 283 名前:login:Penguin mailto:sage [2010/06/02(水) 17:00:56 ID:1sMEC1wh]
- 他人のライセンスを制約するならともかく
自身の著作物にコメントするのは何も問題ない
- 284 名前:login:Penguin mailto:sage [2010/06/02(水) 17:04:19 ID:5crcoY3W]
- >>283
うん。そこをトラブルしないために、自分の著作物に新たなライセンスを加えて しまえばいいというのは当然だとおもうよ。加えないのに別のお願いをする場合 そのライセンスと矛盾するならば当然作者に問題があるし、矛盾しないならば なんのトラブルもならないだろう。
- 285 名前:login:Penguin mailto:sage [2010/06/02(水) 17:19:02 ID:QoktT3oR]
- まあ、よくないわな。しこりが残る
Google曰く「Mozcのバイナリ配布は避けてください」
- 286 名前:login:Penguin mailto:sage [2010/06/02(水) 17:22:49 ID:02i5Uj0J]
- バイナリをわければ済む話。
- 287 名前:login:Penguin mailto:sage [2010/06/02(水) 17:40:27 ID:nCOjwefR]
- >>280
ソースパッケージに突っ込むのは勝手だけど、 有効にするのは各自でビルドオプション付けてねってことでしょ。 「意識的に」各自でやってもらわないと、 Googleにワケの分からないことを報告するバカが大量発生するから。 何よりも今は開発初期段階だから、デフォルト状態での報告が欲しい。 Googleにしてみればこう。 ユーザ「Mozc最高だぜ」 Google「(うんうん)」 ユーザ「人名xxxxもアレな名詞xxxxも出てくるぜ」 Google「(ん???)」 Google発表「基本的にはデフォルトで使うのが一番精度が高いのであります」 それに非公式辞書追加を知らずして 「Googleさん辞書追加ありがとー!!」とか言われても、 Googleも辞書作者も甲斐がないだろ? >>278 debianだと2ch辞書を選択制にしたりとか、 gentooだとmplayerとか?のビルドオプション選ばせたりとか。 「各自で意識的に選んでね」というのはよくある方式よ。 文句あるなら選択ダイアログ出せばいいじゃん。 辞書がアドオン形式ならパッケージ名で明確に分割できるけど、 Mozcは全部一体だからしょうがない。 バイナリ禁止自体は昔LAMEで見たような気がする
- 288 名前:login:Penguin mailto:sage [2010/06/02(水) 17:51:17 ID:02i5Uj0J]
- >>287
Anthyよりmozcの方が変換精度が高いとか言ってるやつらはみんなそれだよな。 同じ辞書を追加した状態でのAnthyとmozcは大差ないだろ。
- 289 名前:login:Penguin mailto:sage [2010/06/02(水) 18:01:18 ID:grruSKdq]
- LAMEのバイナリ配布は特許にひっかかる恐れがあるからではなかったかと。
今回の問題とは若干違うような。 >「意識的に」各自でやってもらわないと、 >Googleにワケの分からないことを報告するバカが大量発生するから。 >何よりも今は開発初期段階だから、デフォルト状態での報告が欲しい。 これはほぼ同意。
- 290 名前:login:Penguin mailto:sage [2010/06/02(水) 18:02:11 ID:nCOjwefR]
- まあどうしてもバイナリ配布したくて(各自でビルドすりゃいいことだと思うけど)、
非公式版であることをハッキリさせたいのであれば、 デフォルトのバイナリパッケージ+差分パッチぐらいか? パッチで非公式バイナリを意識的に「再現」させるという形。 しかし自分好みにしたいんだったら自分でビルドくらいは当たり前じゃねえの? それに辞書作者の意向つうかMozcプロジェクトの現状レベル考えたら、 今はデフォルト状態でテストしたほうがいい。 原作者が「余計な辞書入れたら精度下がる」つってんだしさ
- 291 名前:login:Penguin mailto:sage [2010/06/02(水) 18:50:57 ID:9TUUxqr0]
- バイナリ配布が基本的に禁止というと思い出すのがかつてのqmail。
- 292 名前:login:Penguin [2010/06/02(水) 19:06:18 ID:/GEmtGf2]
- >>289-290
辞書作者もそう思ってるだろうが、 それならなんでバイナリ配布OKのライセンスで配布するのか分からない
- 293 名前:login:Penguin mailto:sage [2010/06/02(水) 19:26:14 ID:O5aiTgdT]
- ぶっちゃけリポジトリを公開したら、webの注意書きなんて読むような
聞き分けのいい人じゃなくてタコ以外使うわけないだろ。 特にubuntuなんでデフォルトで対応しているのに、作っておきながら 組み込んでますなんて意味不明だ。 しかも、バグ報告は送るなといってるけど、じゃあ誰に送るんだ? お前が引き受けろよ、そうでなければ公開すべきじゃない。
- 294 名前:login:Penguin mailto:sage [2010/06/02(水) 19:29:49 ID:1sMEC1wh]
- >>292
もとはModifiedAnthy向けに公開されていた辞書だから Mozc用に改めてライセンスをいじっても仕方ない
- 295 名前:login:Penguin mailto:sage [2010/06/02(水) 19:37:51 ID:CGmWTyeQ]
- >>293
誰に言っているのか知らないが、俺のubuntuで apt-get install ibus-mozc とやってもインストールできない。本当にデフォルトで対応してるの?
- 296 名前:login:Penguin mailto:sage [2010/06/02(水) 19:44:23 ID:x5YErinu]
- >>293
日本語が不自由な人のような
- 297 名前:login:Penguin mailto:sage [2010/06/02(水) 20:00:24 ID:OEd5PW/N]
- >>293
すまん、意味不明すぎて何をいってるのかさっぱりわからん。
- 298 名前:login:Penguin mailto:sage [2010/06/02(水) 20:00:48 ID:9DErp56Y]
- >>295
Currently, we only support Ubuntu 9.10 and 10.04 for building Mozc. code.google.com/p/mozc/wiki/LinuxBuildInstructions
- 299 名前:login:Penguin mailto:sage [2010/06/02(水) 20:02:49 ID:t70gHhyq]
- >>295
リポジトリは加えなくてはダメ 加えても性能のいいModifiedAnthyは使うなといわれた 初心者にはibus-mozicの魅力が薄れた いまここ
- 300 名前:login:Penguin mailto:sage [2010/06/02(水) 20:04:18 ID:L1cbISCc]
- anthyがいいとか言ってる池沼レベルの人間がまだいるんだな
- 301 名前:login:Penguin mailto:sage [2010/06/02(水) 20:07:31 ID:w3pItDF+]
- >>288 とかもね。
- 302 名前:login:Penguin mailto:sage [2010/06/02(水) 20:08:54 ID:fe2DcE2M]
- 人それぞれさ、お気に入りのを使えば良いだけ
- 303 名前:login:Penguin mailto:sage [2010/06/02(水) 20:17:47 ID:RpWCZxYd]
- Google -IMEって変換エンジンはVJEの流用だったっけ?
- 304 名前:login:Penguin mailto:sage [2010/06/02(水) 20:41:06 ID:HiSOFHLt]
- >>303
そんな話どこで読んだの?
- 305 名前:login:Penguin mailto:sage [2010/06/02(水) 20:48:51 ID:408ZUOE4]
- >>267
ども、UNIX的手法だったんですね。全然身についてないなあこういう即席データ処理。 >>268 >> SKKのスモール辞書辺りの単語は網羅されているのか比較 >くだらねー。 >それに単に網羅したって意味ないよ。 >要らない単語削って頻度指定して…とやらないとな。 >ためしにユーザ辞書として一律にインポートしてみれば。 なにが言いたいのかさっぱりです。 デフォルト辞書で網羅してたら辞書インポートする必要無いのでは? その場合の追加辞書という意味では、まあ確かに意味が無いですが、 判断の為の辞書内容の分析が下らないというのは意味不明です。 抜けている単語を抽出して、それが本当に変換出来ないのか確認してみるのは、 やみくもに探したり、ひたすらバグ報告を待つより早いのでは?
- 306 名前:login:Penguin mailto:sage [2010/06/02(水) 21:22:35 ID:408ZUOE4]
- >>287
そもそも、純正版と改造版を共存できるようにしたほうがわかり易いんじゃないですかね? ビルドしない人にとっては意識できないままで、単純に退化したとしか思わないでしょうし。
- 307 名前:login:Penguin mailto:sage [2010/06/02(水) 21:31:19 ID:RpWCZxYd]
- >>304
あー、ごめん、VJE使ってるのはYahoo!の方だったわ。
- 308 名前:login:Penguin mailto:sage [2010/06/02(水) 21:35:29 ID:408ZUOE4]
- Google SONY連合ということで、mozcにsj3を合体させたらなにができるんだろうか?
- 309 名前:login:Penguin mailto:sage [2010/06/02(水) 21:58:00 ID:nCOjwefR]
- >>305
だからさ、やってみりゃいいじゃん。 S辞書とMozcデフォルト辞書の差分だろ? SKK辞書は動詞の形式が特殊だから、 単純に比較できるのは名詞系だけかもな。 > デフォルト辞書で網羅してたら辞書インポートする必要無いのでは? 網羅してるかどうか分からんのでしょ? 試しにやってみて動作を確認すればと言ったわけよ。 Mozcのユーザ辞書のシステム辞書に対する優先度は知らないんだけど、 「漏れてる」と判断された短い単語がたくさんあれば、 おかしな変換結果が大量に発生して、 単純差分じゃ意味がないことがすぐに分かると思ったから。 実際どうなるかは俺も知らん。 Mozcのデフォルト辞書は長年編集されてきて収録数も膨大なIPAdicでしょ? > SKKのスモール辞書辺りの単語は網羅されているのか比較 こんな発想おれにはないよ。「スモール」辞書と比較? バカだなあ、と思いつつも、 >>305が意外な発見をして本家に有益な貢献をするのかもなあ
- 310 名前:login:Penguin mailto:sage [2010/06/02(水) 22:35:24 ID:nCOjwefR]
- >>305
とりあえずやってみた。 雑にやったものだからソースとかは出さねえよ。 確認したのは「存在しない表記」だけな。読みは無視。 SKK-Sには重複除いて4581の表記がある。 このうち単漢字・アルファベット・記号以外で Mozcデフォルト辞書に入っていないのは次の通り。 仮名漢字変換 全角仮名 半角仮名 半角片仮名 日帰 最寄 相変 見掛 見落 記事選択 以上。 単漢字は自分で探してくれ。 記事選択とかは分けて変換できると思うので、 全部網羅されてると言っていい。 じゃあな
- 311 名前:login:Penguin mailto:sage [2010/06/02(水) 22:41:13 ID:408ZUOE4]
- >>309
詳しいやり方がわかりませんので、簡単にできるなら是非どうぞ。 とりあえず茶筅やメカブの辞書をgrepして眺めているだけですが、 IPAdicはあくまで形態素のコーパスで、熟語は音声処理用かなんかの逆変換で使いにくい 短い単語とかは結構足りないんじゃないかって気がします。 例えば宮城県で探しても大学の名前しかでてこなくて県名単体すら入ってない。 Mozcの辞書も傾向は似ていますが、unicodeな単語とかも入ってて 多少改善してる感じは気のせいでしょうか?
- 312 名前:login:Penguin mailto:sage [2010/06/02(水) 23:00:23 ID:408ZUOE4]
- っと入れ違いでした
>>310 どうもです。とりあえず予想通りって事ですよね。 単漢字の漏れというのはどうなんですかね? まあ扱いは難しそうですが。
- 313 名前:login:Penguin mailto:sage [2010/06/03(木) 00:50:31 ID:0C19uf7w]
- >>311
なにがしたいのか意味が分からないのだけど 「宮城」「県」が入っていれば 「宮城県」は変換できる。 というか、個々のパーツで変換できるならそれを辞書に登録しておく意味はない。 ディスクの無駄だし。 短い単位で解析できるように、というのが UniDic。 自分でクロールしてきたデータに UniDic の MeCab をかけてコーパス作ればいいんじゃないかな
- 314 名前:login:Penguin mailto:sage [2010/06/03(木) 00:59:29 ID:wmng9tJY]
- >というか、個々のパーツで変換できるならそれを辞書に登録しておく意味はない。
そもそも大規模コーパスというのはそういう方針とは思えませんが? パーツの頻度を掛け算した予測頻度を実際の頻度が上回るのであれば登録するべきでしょう。
- 315 名前:login:Penguin mailto:sage [2010/06/03(木) 09:15:19 ID:1uwN98gG]
- >>300-301
私家版辞書追加して、さすがGoogleって言ってる馬鹿約2名発見しますた。
- 316 名前:login:Penguin mailto:sage [2010/06/03(木) 09:29:34 ID:1uwN98gG]
- 確かに午後と打ちたければ、午と打って後と打てばいいよなwww
それとも午後の紅茶と打って、の紅茶を削るか?w もうアホかと。
- 317 名前:login:Penguin mailto:sage [2010/06/03(木) 10:29:33 ID:cLHYQIlM]
- >>42
つきはWakame(ワカメ)だな
- 318 名前:login:Penguin mailto:sage [2010/06/03(木) 11:03:56 ID:yHIg/azl]
- いやcombだろ
- 319 名前:login:Penguin mailto:sage [2010/06/03(木) 11:43:56 ID:8rrDcIso]
- libiconvェ…
- 320 名前:login:Penguin mailto:sage [2010/06/03(木) 12:20:21 ID:r9B8lAgG]
- uim-mozcのビルド方法おしえてくだい
- 321 名前:login:Penguin mailto:sage [2010/06/03(木) 12:38:19 ID:dyOLzhIN]
- # make; make; make clean
- 322 名前:login:Penguin mailto:sage [2010/06/03(木) 13:37:11 ID:u1itOj+L]
- >>320
code.google.com/p/macuim/source/browse/trunk/Mozc/build
- 323 名前:login:Penguin mailto:sage [2010/06/03(木) 14:11:44 ID:zicLG5/c]
- mozcは低能糞ソフトでまともに使えないから、中の辞書だけが欲しいんだよね。
mozcの辞書はどこに置いてあって どうやってplaintextに変換できるわけ?
- 324 名前:login:Penguin mailto:sage [2010/06/03(木) 15:01:06 ID:bG0s/qhN]
- 糞で低能な奴に「低能糞ソフト」呼ばわりされるmozcとその開発陣は不憫だな。
- 325 名前:login:Penguin mailto:sage [2010/06/03(木) 15:07:37 ID:0C19uf7w]
- >>314
そうか? 「宮城県」は「宮城」と「県」であって、 「宮城(固有名詞)」の左に来る品詞と「県(接尾辞)」の右に来る品詞は違うのに、 登録してしまうと区別できなくなってしまう。 連接コストまで考えると単語の頻度だけで簡単に決まるものではないので、 なんでもかんでも登録するとむしろ精度悪化することもあるんじゃないかなあ。 (くっつけても品詞が変わらないものはくっつけたものを登録してもいいと思うが)
- 326 名前:login:Penguin mailto:sage [2010/06/03(木) 16:11:34 ID:uFbeO/du]
- 結局、AnthyとMozcってどこが違うの?
Ubuntuで使ってるけど、はじめからあるAnthyよりはMozcの方がよさげだけど
- 327 名前:login:Penguin mailto:sage [2010/06/03(木) 16:30:35 ID:AE+ltDI6]
- >>326
anthyは開発停止してたんじゃなかったっけ? mozcは開発公開が始まったばかり。 かなり初期の段階だから、開発協力者だけにしたい状態じゃないかな。 だから、辞書のバイナリうんぬんの話もでる。 stableちかくまで普通は待ったほうがいいだろうね。それでもanthyよりmozcの ほうがいいように思う。
- 328 名前:login:Penguin mailto:sage [2010/06/03(木) 16:50:09 ID:8XZFMkrD]
- >>327
> anthyは開発停止してたんじゃなかったっけ? 再開したよ。 sourceforge.jp/projects/anthy/lists/archive/dev/2010-May/003705.html
- 329 名前:login:Penguin mailto:sage [2010/06/03(木) 17:30:21 ID:xiIjB+In]
- >>326
anthyは親指シフトに対応している
- 330 名前:login:Penguin mailto:sage [2010/06/03(木) 18:24:16 ID:u1itOj+L]
- 辞書が同じなら云々言ってる人たちは文節ごとに変換してる人たちでしょ。
文章で変換すれば違いは一目瞭然。
- 331 名前:login:Penguin mailto:sage [2010/06/03(木) 18:26:44 ID:wmng9tJY]
- >>355
県の後ろにつながるの品詞と、宮城県の後ろにつながる品詞は大差ない。 つまり語頭と語尾の文脈IDを継承すれば済む話。
- 332 名前:login:Penguin mailto:sage [2010/06/03(木) 18:28:03 ID:wmng9tJY]
- >>325 失礼
- 333 名前:login:Penguin mailto:sage [2010/06/03(木) 19:31:44 ID:HrnMknGo]
- >>330
筋がいいのはMozcだけど、 IPAdicのせいか文章を細かく区切りすぎるような感じはしてる。 「ご|ご」とか「する|シ」みたいな感じで。 ある程度の長さを入力すれば改善するけど、 やっぱりちょっと細かい感じはするな。 語尾とか複合語の切り方がおかしくなるときがある。 Anthyだとdepgraphだったか語のつながりをある程度まとめてくれるので、 「細かい」って感じはしない。 複合語もcompound.tか何かに大量登録されてるしな。 IPAdicは文章を単語に分割するツールでも使われてるんだっけ。 短い単語に比重がかかりすぎな感じがちょっとする。 複合語を大量追加+短い単語の優先度をちょっと下げる、 くらいの調整はいるかもね。 ちょっと使った感想なんで勘違いかもしれん
- 334 名前:login:Penguin mailto:sage [2010/06/03(木) 19:59:43 ID:AE+ltDI6]
- >>333
そうだなぁ。検索するときには文章をキーワードにすることはないから、 検索屋さんが作ってるだけに、切り替えみたいなのは欲しいかも。 ibusのプラグインでSKK一発切り替えがあればなぁ。と変態的に思ってる。 mozcの一番良い使い方はおおよそ感じ取れるようになったけど、 やっぱり文節ごとに変換させるのはあまり良くなさそうだな。
- 335 名前:login:Penguin mailto:sage [2010/06/03(木) 20:00:21 ID:eXkP2joF]
- anthyを頻りに擁護するバカがいついてる模様
- 336 名前:login:Penguin mailto:sage [2010/06/03(木) 20:56:17 ID:0C19uf7w]
- >>331
あなた中国出身? (煽りじゃなくてね) 後ろにつながる品詞は同じだが、 県の前に接続する品詞と、宮城の前に接続する品詞が違うという話。 「宮城県に出張に行った」は言うけど「県に出張に行った」は言わないでしょ? あと、確かに左文脈と右文脈は別々に定義できるようになっているけど、 実際の辞書は左文脈ID=右文脈IDなので、やっぱり区別できないと思うよ。
- 337 名前:login:Penguin mailto:sage [2010/06/03(木) 21:44:04 ID:PxaC1S8F]
- uze-
- 338 名前:login:Penguin mailto:sage [2010/06/03(木) 21:52:20 ID:pPPT4Ls/]
- 一般名詞と接尾の「県」は別個に登録されているから区別できるんじゃないのか?
- 339 名前:login:Penguin mailto:sage [2010/06/03(木) 22:26:56 ID:wmng9tJY]
- >>336
宮城県に 県に 言うでしょ。
- 340 名前:login:Penguin mailto:sage [2010/06/03(木) 23:00:05 ID:wmng9tJY]
- 駅名なんかをみると、左文脈IDと右文脈IDが異なっている複合語を見かけるけど、幻覚なんだろうか?
それとも、変換エンジンが無視しているって話?
- 341 名前:login:Penguin mailto:sage [2010/06/04(金) 01:57:57 ID:ZO43vMX/]
- コンパイル中暇だからソース漁ってたら…
これは酷い mozc.googlecode.com/svn/trunk/src/data/dictionary/suggestion_filter.txt
- 342 名前:login:Penguin mailto:sage [2010/06/04(金) 02:06:05 ID:kzCJPyMQ]
- いまさら。
- 343 名前:login:Penguin mailto:sage [2010/06/04(金) 02:14:04 ID:ZO43vMX/]
- あれ?
mozcってLinuxだけだよね? Windows用のプログラムも混じってない?
- 344 名前:login:Penguin mailto:sage [2010/06/04(金) 04:21:19 ID:4TzFfVhZ]
- いまさら。
- 345 名前:login:Penguin mailto:sage [2010/06/04(金) 06:17:40 ID:mBX7YmR0]
- 私家版辞書を追加したmozcを変換効率だなどと頻りに擁護するバカがいついてる模様
- 346 名前:login:Penguin mailto:sage [2010/06/04(金) 10:04:52 ID:NpMgVDdo]
- PCが無いと「頻りに」なんて漢字出てこないバカどもの議論ってこと?
|

|