[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 2chのread.cgiへ]
Update time : 01/06 13:42 / Filesize : 188 KB / Number-of Response : 765
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

mozc / Google 日本語入力 #1



1 名前:login:Penguin [2010/05/13(木) 11:58:50 ID:e7jJ/yN9]
code.google.com/p/mozc/
ref.
sourceforge.jp/magazine/10/05/11/0335246
googlejapan.blogspot.com/2010/05/google_10.html

231 名前:login:Penguin mailto:sage [2010/05/31(月) 21:18:42 ID:Ol5eUFST]
UTSUMIさんの辞書が更新された。
で、それと知らず使ってる人が誤解するのを危惧してる。

232 名前:login:Penguin mailto:sage [2010/05/31(月) 21:20:46 ID:Ol5eUFST]
いや違う、辞書は更新されてないか。
SF.netのフィードの配信遅すぎ。

233 名前:login:Penguin mailto:sage [2010/05/31(月) 22:27:56 ID:G2NqXecX]
mozcのプロパティの一般タブで
候補選択ショートカット を A-Lにしても
候補表示窓では1-9になっちゃってるね。
実質A-Lは使えないみたい。

234 名前:login:Penguin mailto:sage [2010/05/31(月) 23:53:43 ID:HhhYtfRc]
219です。
昨日はいろいろと、mozc関連のファイル消したりしましたがダメでした。(もちろん0.11.365.102です)

>>229
qt関連は入っておりません。
mozcの設定に関して重要なのでしょうか?


texが使えないので10.04には当分のあいだ手を出せません…

235 名前:login:Penguin mailto:sage [2010/05/31(月) 23:57:49 ID:4NQTaTq8]
>>234
Sawa氏のやめて自分でビルドして入れろ。

236 名前:login:Penguin mailto:sage [2010/06/01(火) 08:58:36 ID:Khp/NcXq]
>>226
鯖というより、パッケージングしてる人かな?
パッケージングしてる人が複数いるようだけど、ばらばらにやるのではなくチームとしてやってくれるといいんだけど。
それまでは素性のわからんやつのPPAは躊躇する。

237 名前:login:Penguin mailto:sage [2010/06/01(火) 09:22:43 ID:Khp/NcXq]
某はてなのブログにコメントしてる人
ブロガーの義務でもなんでもないのに、UTSUMI氏の辞書入りPPAを紹介して、UTSUMIに迷惑かけなきゃいいけど。

238 名前:login:Penguin mailto:sage [2010/06/01(火) 09:24:13 ID:Khp/NcXq]
>>237
最後の敬称が抜けてた。
UTUMIに迷惑かけなきゃ→UTSUMI氏に迷惑かけなきゃ

239 名前:login:Penguin mailto:sage [2010/06/01(火) 12:43:06 ID:4zExM02R]
>>236
自分でビルドするから楽しいんだろうが。
自分でやれ。



240 名前:login:Penguin mailto:sage [2010/06/01(火) 12:53:30 ID:XI8koRaq]
>>237
そこまで書くなら url書けよ。


241 名前:login:Penguin mailto:sage [2010/06/01(火) 13:34:08 ID:Khp/NcXq]
>>239
だから自分でビルドしてると言ってるじゃん。
>>240
書こうと思ったけど、ブログ主に迷惑掛かると思ったからやめた。
そのくらいggrks

242 名前:login:Penguin mailto:sage [2010/06/01(火) 13:35:45 ID:Khp/NcXq]
ごめん。ID変わってた。
>>235もおれな。

243 名前:login:Penguin mailto:sage [2010/06/01(火) 13:41:31 ID:XI8koRaq]
>>241
だったら、ブログへの愚痴をここに書くなよ。
わけわからん。

244 名前:login:Penguin mailto:sage [2010/06/01(火) 13:55:12 ID:Khp/NcXq]
>>243
一般論として捉えればいいこと。
例えば、Sawa氏が、UTUMI氏の趣旨を理解して辞書を同梱したとして、ホームページにその旨を書いたとしても
それを紹介する第三者が、単にリンクとか手順だけ紹介したら意味はない。
これはたとえ話なので、はてなのブログの話はSawa氏のリポジトリのことではないが、趣旨はそういうこと。

245 名前:login:Penguin mailto:sage [2010/06/01(火) 14:42:35 ID:XI8koRaq]
>>244
? かなり自己中だとおもう。

246 名前:login:Penguin mailto:sage [2010/06/01(火) 16:16:29 ID:0n41Qhbr]
Googleの人自身が追加辞書に否定的だからなあ。

twitter.com/taku910/status/15075896507
通常どんなIMEでもデフォルト状態が一番性能が高いように設計されています。
はてな辞書などをデフォルトで有効にしていいものをしていないのは、
精度が下がるからです。
手元で実験していますが基本デフォルト状態が一番良くて
ユーザ辞書でもなんでも余計な物を突っ込むと精度が落ちます。
6:13 PM May 30th webから

ただ文章表現って多様だから、
とあるケースでの精度がいかに良くても、
ある人にとっては全体としてイマイチだったりすることもある。
「基本デフォルト状態が一番性能が高い」とはちょっと思い上がりかもなあ。
ちょっと前まで県名を変換できなかった完成度だし、
はてな辞書にしても、単純に全部足したら精度は落ちるけど、
選別したうえで必要なものを足せばそれなりに使える。
なによりGoogleの秘密版の辞書って余計なものの盛り合わせじゃね?

辞書は色々あっていいと思う。ハッカーにしてみればうぜーのかもしれないが。
ただ今はバグ出しとか必要なので、デフォルトで使ってみるのも大事。
ディストリ標準で非公式辞書を最初から埋め込むのはまだ早い。
メーリングリストで注意喚起したって見てるやつほとんどいねえしな。
アイコンがないのも現状の完成度を暗示してると思うので、
あえて足すことはない。

あ関係ないけどHideaki ABEさんmozc-configの開発お疲れ様でした。
公式版はQt依存めんどくせえのでちょろっと使わせていただくかもしれません。
ABEさん自身が使ってるのであればフリーズすることもないのでは。
それとGoogleのひとIssues報告放置しすぎ(出張中か?)

247 名前:login:Penguin mailto:sage [2010/06/01(火) 16:23:50 ID:Khp/NcXq]
>>245
は?なにが?

248 名前:login:Penguin mailto:sage [2010/06/01(火) 16:31:12 ID:XI8koRaq]
>>246
辞書の育成はセンスもあるからな。
作者が最適化している辞書だとしても
それより優れたものは現れるかもしれない。チューニングする人しだいだね。
ま、遺伝的アルゴリズムみたいなもんだからね。
良いセンスの人がチューニングした辞書がオープンソースとして公開されたら
たすかるからね。

249 名前:login:Penguin mailto:sage [2010/06/01(火) 16:34:29 ID:Khp/NcXq]
それはそれ
ID:XI8koRaqみたいなアホが知らずにgoogleとは違う辞書を使ってフィードバックするようなことがあれば、迷惑な話。



250 名前:login:Penguin mailto:sage [2010/06/01(火) 17:17:22 ID:X3cZthyj]
>>246
そもそもデフォルト状態って、大規模コーパス版のことだろ。
エンジンの設計が同じならIPADic使ってる時点で性能落ちてるんじゃないか?
そこから追加した微妙な部分が付属辞書にあってそれが肝だってことなら、
どういう方針で調整がなされたのか誰か差分取って調べてくれないかな?

ユーザー辞書は登録時に頻度情報が入れられないので変換精度が落ちるに決まってるじゃん
組み込み追加辞書の場合は頻度情報入ってるから全然違うと思うけど。
しかしその頻度情報の精度というのが母集団、つまりコーパスデータによるから
まんべんなく集めてるグーグルより桁が落ちるかもとか、統計学的にデータまぜるなきけん、
って話なだけでしょ。

結局、GPSのわざと下げられている精度をどうやって向上させるかみたいな話なんだから、
中の人なら否定するに決まってる。


251 名前:login:Penguin mailto:sage [2010/06/01(火) 17:19:24 ID:+xUAPRzh]
GPSの軍用コードはすべてにおいて民間用を超えるわけではないらしいけど
戦時に精度低下があれば補正値知ってると良いかもしれないけど

252 名前:login:Penguin mailto:sage [2010/06/01(火) 17:22:17 ID:6lXEiumK]
午後を入力するのに、「ご」と「ご」を区切るなよ

253 名前:login:Penguin mailto:sage [2010/06/01(火) 17:39:27 ID:XI8koRaq]
>>249
粘着お断りです。ごめんね。

254 名前:login:Penguin mailto:sage [2010/06/01(火) 18:15:44 ID:Khp/NcXq]
ID:XI8koRaq

255 名前:login:Penguin mailto:sage [2010/06/01(火) 18:28:50 ID:0n41Qhbr]
>>246
> そもそもデフォルト状態って、大規模コーパス版のことだろ。

そうなのかな?
Google辞書だったら開発者が意図しようがしまいが、
「はてな辞書」の語彙は収集されて有効になってると思う。
まあ直接聞かないと分からんが

256 名前:login:Penguin mailto:sage [2010/06/01(火) 18:29:31 ID:0n41Qhbr]
>>250 だった

257 名前:login:Penguin mailto:sage [2010/06/01(火) 18:55:15 ID:X3cZthyj]
>>255
追加単語そのものより、漏れが出る事が問題な気がする。
>>252とかもそうでしょ。

258 名前:login:Penguin mailto:sage [2010/06/01(火) 19:24:49 ID:XI8koRaq]
ごご か。 変換してないな。
英英辞典とか そのへんの言葉が漏れてたりもするし、
いまはこまめに辞書を育てるしかないなぁ。とはおもってるよ。
それでもanthyよりは使い易いけど、


259 名前:login:Penguin mailto:sage [2010/06/01(火) 19:40:59 ID:iRw/MYCq]
辞書の問題っていちいちバグトラッカーにあげることになんの?
いちいちめんどくさいよね。

「はりつけて」で「貼り付けて」がでない。



260 名前:login:Penguin mailto:sage [2010/06/01(火) 19:47:12 ID:biQ6ox7/]
そういうのは鍛えりゃいいだけだよな

261 名前:login:Penguin mailto:sage [2010/06/01(火) 19:53:01 ID:iRw/MYCq]
>>260
そんなこと言い出したら何でもそうじゃん。

UTSUMIさんの名詞辞書をもってしても「ポルチオ」がないのはしょうがないかなとは思うが。

262 名前:login:Penguin mailto:sage [2010/06/01(火) 20:01:56 ID:biQ6ox7/]
Anthyのデフォルト状態とかひどいもんだからな

263 名前:login:Penguin mailto:sage [2010/06/01(火) 20:26:01 ID:2EYeyyHj]
ライフサイエンス辞書が登録できるようにしてくれ
あれがないと話にならん

264 名前:login:Penguin mailto:sage [2010/06/02(水) 00:05:59 ID:qoQj5wV4]
誰かフォークするものはおらんのか!
誰か!

265 名前:login:Penguin mailto:sage [2010/06/02(水) 01:29:17 ID:HiSOFHLt]
>>244
そういう話を当のブログにコメントで書いてあげたら?
URL 書けないならそれができるのは君しかいないんだから。

266 名前:login:Penguin mailto:sage [2010/06/02(水) 01:40:28 ID:408ZUOE4]
とりあえずSKKのスモール辞書辺りの単語は網羅されているのか比較してみた人居る?
っていうか>>200のツール教えて欲しいな。

267 名前:200 mailto:sage [2010/06/02(水) 02:05:04 ID:w3pItDF+]
>>266
辞書ファイルの読みと漢字だけを sed で抽出して sort -u したものを、
sort -m して uniq -d して wc -l しただけ。だったはず。
ていうか、細かいこともうすっかり忘れてて愕然としている俺がいる。

268 名前:login:Penguin mailto:sage [2010/06/02(水) 02:33:17 ID:nCOjwefR]
>>263
Google日本語入力、ATOKやことえり辞書のインポートに対応
internet.watch.impress.co.jp/docs/news/20100319_355796.html
Google IME/Mozcのユーザ辞書は同じ形式のはずだから、
Windowsで何とかインポートしてLinuxに持っていけば使えるはず。
LSD(なんつう名前だ)はMS-IMEシステム辞書形式だから、
バイナリエディタでいじらないとインポートできないかもな。

>>266
meisiは0601では重複ないはず。
jinmeiは重複チェックしてないはず。
同じのをModified Anthyでも使ってるから。
の割には重複少ないな。
まあ収録数多いから比率的に小さくなるか。

> SKKのスモール辞書辺りの単語は網羅されているのか比較
くだらねー。
それに単に網羅したって意味ないよ。
要らない単語削って頻度指定して…とやらないとな。
ためしにユーザ辞書として一律にインポートしてみれば。

しかしこんな「要望」によく応えたもんだよ。「当然のこと」とか「絶対対応するべき!」とか。
日本のLinuxユーザのレベルを示したスレ↓。
> Linuxユーザーにこそ必要なものです。
www.google.com/support/forum/p/ime/thread?tid=4d9cb7b1ce293ed1&hl=ja

> Linuxユーザは共同でプロジェクトをより良いモノに完成させたい意識は
> マックやWindowsのユーザよりも高く、
経験的にはWindowsユーザのほうが人数多いぶん反響あるし、
より良くしたいという人も多いんじゃねえかなー

269 名前:login:Penguin mailto:sage [2010/06/02(水) 03:07:20 ID:HDGBUJC9]
>>268
そりゃ単純に母数が大きいだけじゃないか?
Linuxは開発コミュニティへの貢献意識が強いユーザが多いというより
そういう人間しかLinuxを使ってないという側面がある



270 名前:login:Penguin mailto:sage [2010/06/02(水) 03:26:40 ID:fMpvOFIK]
>>269
> そういう人間しかLinuxを使ってないという側面がある
それはないわ

271 名前:login:Penguin mailto:sage [2010/06/02(水) 03:32:32 ID:7kI2YFS9]
>>268
LSDは確かことえり形式の辞書がダウンロードできたはず。
ちなみに名前はあえてそういうのを狙ったんだとさ。

272 名前:login:Penguin mailto:sage [2010/06/02(水) 06:43:02 ID:02i5Uj0J]
>>265
コメントしましたがなにか?
きみに言われる筋合いはない。

273 名前:login:Penguin mailto:sage [2010/06/02(水) 06:46:10 ID:02i5Uj0J]
>>268
で、Google側は辞書の提供はなく、ユーザ側は辞書よこせだったわけだw
もうアホかと。

274 名前:login:Penguin mailto:sage [2010/06/02(水) 07:10:05 ID:5crcoY3W]
>>268
> しかしこんな「要望」によく応えたもんだよ。…

そりゃ 戦略上のことをいうとgoogleって自社osつくるんだし
日本での普及を考えたらimeは無視できないのは当然かと。
web tvがどんなことになるのかわからないけど、こっちでも
重要な役割でしょうしね。
また、脱msのものを普及させようと思ったらこの辺の周辺のことって
無視できないからね。
だから、答えたとしても利益があるんだろうね。

まるでウインドウズユーザーのような連中の声って、その辺を
機敏に感じるにはよいのかもね。

ないものは作れという思想のもとでlinuxを利用しているものから見れば
苦笑いの連中だけど、それだけ昔よりは普及してきているという証でも
あるんだろうね。彼らを蔑んでみるのはわからんでもないけどね。

275 名前:login:Penguin mailto:sage [2010/06/02(水) 10:03:44 ID:HiSOFHLt]
>>272
ならいいけど。
「なにか」とか言われても URL わからないから
コメントしたかどうかおれにはわからなかったよ。

276 名前:login:Penguin mailto:sage [2010/06/02(水) 14:43:48 ID:SuZRONSu]
何の話をしてるかわからなかったが
linux.ikoinoba.net/index.php?UID=1275323887
のことを言っているのか
ここの「またまた帰ってきた某所の匿名」と「ID:Khp/NcXq」は同一人物だろう
「某はてなのブログ」がどこかはわからなかった

277 名前:login:Penguin mailto:sage [2010/06/02(水) 15:02:37 ID:02i5Uj0J]
>>276
某はてなはそこではない。

278 名前:login:Penguin [2010/06/02(水) 15:40:49 ID:SVlKWBuX]
Linux界隈でバイナリ配布禁止をはじめて見た

279 名前:login:Penguin mailto:sage [2010/06/02(水) 15:44:09 ID:HiSOFHLt]
>>278
禁止はしてないでしょ。



280 名前:login:Penguin [2010/06/02(水) 16:32:49 ID:SVlKWBuX]
禁止と言っているようなものだろ
これで配布したら

作者の気持ちを考えないなんてサイテー

と喚く馬鹿が大量発生する

281 名前:login:Penguin mailto:sage [2010/06/02(水) 16:51:06 ID:KEng9W8y]
ていうかnon-freeぐらい珍しくもないだろ

282 名前:login:Penguin mailto:sage [2010/06/02(水) 16:57:43 ID:5crcoY3W]
ライセンスを発行した上でライセンス以外のお願いをするというのは
あまり褒められたものではないとは思うよ。

ありとかなしじゃなくて記述しているかしてないかだけが意味するのにね。
ライセンスってそうゆうもんだって理解してたんだが。

鬼車のrubyマージ騒動みたいになっちゃうよ。

283 名前:login:Penguin mailto:sage [2010/06/02(水) 17:00:56 ID:1sMEC1wh]
他人のライセンスを制約するならともかく
自身の著作物にコメントするのは何も問題ない

284 名前:login:Penguin mailto:sage [2010/06/02(水) 17:04:19 ID:5crcoY3W]
>>283
うん。そこをトラブルしないために、自分の著作物に新たなライセンスを加えて
しまえばいいというのは当然だとおもうよ。加えないのに別のお願いをする場合
そのライセンスと矛盾するならば当然作者に問題があるし、矛盾しないならば
なんのトラブルもならないだろう。

285 名前:login:Penguin mailto:sage [2010/06/02(水) 17:19:02 ID:QoktT3oR]
まあ、よくないわな。しこりが残る

Google曰く「Mozcのバイナリ配布は避けてください」

286 名前:login:Penguin mailto:sage [2010/06/02(水) 17:22:49 ID:02i5Uj0J]
バイナリをわければ済む話。


287 名前:login:Penguin mailto:sage [2010/06/02(水) 17:40:27 ID:nCOjwefR]
>>280
ソースパッケージに突っ込むのは勝手だけど、
有効にするのは各自でビルドオプション付けてねってことでしょ。
「意識的に」各自でやってもらわないと、
Googleにワケの分からないことを報告するバカが大量発生するから。
何よりも今は開発初期段階だから、デフォルト状態での報告が欲しい。

Googleにしてみればこう。
ユーザ「Mozc最高だぜ」
Google「(うんうん)」
ユーザ「人名xxxxもアレな名詞xxxxも出てくるぜ」
Google「(ん???)」
Google発表「基本的にはデフォルトで使うのが一番精度が高いのであります」

それに非公式辞書追加を知らずして
「Googleさん辞書追加ありがとー!!」とか言われても、
Googleも辞書作者も甲斐がないだろ?

>>278
debianだと2ch辞書を選択制にしたりとか、
gentooだとmplayerとか?のビルドオプション選ばせたりとか。
「各自で意識的に選んでね」というのはよくある方式よ。
文句あるなら選択ダイアログ出せばいいじゃん。
辞書がアドオン形式ならパッケージ名で明確に分割できるけど、
Mozcは全部一体だからしょうがない。

バイナリ禁止自体は昔LAMEで見たような気がする

288 名前:login:Penguin mailto:sage [2010/06/02(水) 17:51:17 ID:02i5Uj0J]
>>287
Anthyよりmozcの方が変換精度が高いとか言ってるやつらはみんなそれだよな。
同じ辞書を追加した状態でのAnthyとmozcは大差ないだろ。

289 名前:login:Penguin mailto:sage [2010/06/02(水) 18:01:18 ID:grruSKdq]
LAMEのバイナリ配布は特許にひっかかる恐れがあるからではなかったかと。
今回の問題とは若干違うような。

>「意識的に」各自でやってもらわないと、
>Googleにワケの分からないことを報告するバカが大量発生するから。
>何よりも今は開発初期段階だから、デフォルト状態での報告が欲しい。

これはほぼ同意。



290 名前:login:Penguin mailto:sage [2010/06/02(水) 18:02:11 ID:nCOjwefR]
まあどうしてもバイナリ配布したくて(各自でビルドすりゃいいことだと思うけど)、
非公式版であることをハッキリさせたいのであれば、
デフォルトのバイナリパッケージ+差分パッチぐらいか?
パッチで非公式バイナリを意識的に「再現」させるという形。

しかし自分好みにしたいんだったら自分でビルドくらいは当たり前じゃねえの?
それに辞書作者の意向つうかMozcプロジェクトの現状レベル考えたら、
今はデフォルト状態でテストしたほうがいい。
原作者が「余計な辞書入れたら精度下がる」つってんだしさ

291 名前:login:Penguin mailto:sage [2010/06/02(水) 18:50:57 ID:9TUUxqr0]
バイナリ配布が基本的に禁止というと思い出すのがかつてのqmail。

292 名前:login:Penguin [2010/06/02(水) 19:06:18 ID:/GEmtGf2]
>>289-290
辞書作者もそう思ってるだろうが、
それならなんでバイナリ配布OKのライセンスで配布するのか分からない

293 名前:login:Penguin mailto:sage [2010/06/02(水) 19:26:14 ID:O5aiTgdT]
ぶっちゃけリポジトリを公開したら、webの注意書きなんて読むような
聞き分けのいい人じゃなくてタコ以外使うわけないだろ。
特にubuntuなんでデフォルトで対応しているのに、作っておきながら
組み込んでますなんて意味不明だ。
しかも、バグ報告は送るなといってるけど、じゃあ誰に送るんだ?
お前が引き受けろよ、そうでなければ公開すべきじゃない。

294 名前:login:Penguin mailto:sage [2010/06/02(水) 19:29:49 ID:1sMEC1wh]
>>292
もとはModifiedAnthy向けに公開されていた辞書だから
Mozc用に改めてライセンスをいじっても仕方ない

295 名前:login:Penguin mailto:sage [2010/06/02(水) 19:37:51 ID:CGmWTyeQ]
>>293
誰に言っているのか知らないが、俺のubuntuで
apt-get install ibus-mozc
とやってもインストールできない。本当にデフォルトで対応してるの?

296 名前:login:Penguin mailto:sage [2010/06/02(水) 19:44:23 ID:x5YErinu]
>>293
日本語が不自由な人のような

297 名前:login:Penguin mailto:sage [2010/06/02(水) 20:00:24 ID:OEd5PW/N]
>>293
すまん、意味不明すぎて何をいってるのかさっぱりわからん。

298 名前:login:Penguin mailto:sage [2010/06/02(水) 20:00:48 ID:9DErp56Y]
>>295
Currently, we only support Ubuntu 9.10 and 10.04 for building Mozc.
code.google.com/p/mozc/wiki/LinuxBuildInstructions

299 名前:login:Penguin mailto:sage [2010/06/02(水) 20:02:49 ID:t70gHhyq]
>>295
リポジトリは加えなくてはダメ
加えても性能のいいModifiedAnthyは使うなといわれた
初心者にはibus-mozicの魅力が薄れた

いまここ



300 名前:login:Penguin mailto:sage [2010/06/02(水) 20:04:18 ID:L1cbISCc]
anthyがいいとか言ってる池沼レベルの人間がまだいるんだな

301 名前:login:Penguin mailto:sage [2010/06/02(水) 20:07:31 ID:w3pItDF+]
>>288 とかもね。

302 名前:login:Penguin mailto:sage [2010/06/02(水) 20:08:54 ID:fe2DcE2M]
人それぞれさ、お気に入りのを使えば良いだけ

303 名前:login:Penguin mailto:sage [2010/06/02(水) 20:17:47 ID:RpWCZxYd]
Google -IMEって変換エンジンはVJEの流用だったっけ?

304 名前:login:Penguin mailto:sage [2010/06/02(水) 20:41:06 ID:HiSOFHLt]
>>303
そんな話どこで読んだの?

305 名前:login:Penguin mailto:sage [2010/06/02(水) 20:48:51 ID:408ZUOE4]
>>267
ども、UNIX的手法だったんですね。全然身についてないなあこういう即席データ処理。

>>268
>> SKKのスモール辞書辺りの単語は網羅されているのか比較
>くだらねー。
>それに単に網羅したって意味ないよ。
>要らない単語削って頻度指定して…とやらないとな。
>ためしにユーザ辞書として一律にインポートしてみれば。

なにが言いたいのかさっぱりです。
デフォルト辞書で網羅してたら辞書インポートする必要無いのでは?
その場合の追加辞書という意味では、まあ確かに意味が無いですが、
判断の為の辞書内容の分析が下らないというのは意味不明です。

抜けている単語を抽出して、それが本当に変換出来ないのか確認してみるのは、
やみくもに探したり、ひたすらバグ報告を待つより早いのでは?


306 名前:login:Penguin mailto:sage [2010/06/02(水) 21:22:35 ID:408ZUOE4]
>>287
そもそも、純正版と改造版を共存できるようにしたほうがわかり易いんじゃないですかね?
ビルドしない人にとっては意識できないままで、単純に退化したとしか思わないでしょうし。

307 名前:login:Penguin mailto:sage [2010/06/02(水) 21:31:19 ID:RpWCZxYd]
>>304
あー、ごめん、VJE使ってるのはYahoo!の方だったわ。

308 名前:login:Penguin mailto:sage [2010/06/02(水) 21:35:29 ID:408ZUOE4]
Google SONY連合ということで、mozcにsj3を合体させたらなにができるんだろうか?

309 名前:login:Penguin mailto:sage [2010/06/02(水) 21:58:00 ID:nCOjwefR]
>>305
だからさ、やってみりゃいいじゃん。
S辞書とMozcデフォルト辞書の差分だろ?

SKK辞書は動詞の形式が特殊だから、
単純に比較できるのは名詞系だけかもな。

> デフォルト辞書で網羅してたら辞書インポートする必要無いのでは?
網羅してるかどうか分からんのでしょ?
試しにやってみて動作を確認すればと言ったわけよ。
Mozcのユーザ辞書のシステム辞書に対する優先度は知らないんだけど、
「漏れてる」と判断された短い単語がたくさんあれば、
おかしな変換結果が大量に発生して、
単純差分じゃ意味がないことがすぐに分かると思ったから。
実際どうなるかは俺も知らん。

Mozcのデフォルト辞書は長年編集されてきて収録数も膨大なIPAdicでしょ?
> SKKのスモール辞書辺りの単語は網羅されているのか比較
こんな発想おれにはないよ。「スモール」辞書と比較?
バカだなあ、と思いつつも、
>>305が意外な発見をして本家に有益な貢献をするのかもなあ



310 名前:login:Penguin mailto:sage [2010/06/02(水) 22:35:24 ID:nCOjwefR]
>>305
とりあえずやってみた。
雑にやったものだからソースとかは出さねえよ。
確認したのは「存在しない表記」だけな。読みは無視。

SKK-Sには重複除いて4581の表記がある。
このうち単漢字・アルファベット・記号以外で
Mozcデフォルト辞書に入っていないのは次の通り。

仮名漢字変換
全角仮名
半角仮名
半角片仮名
日帰
最寄
相変
見掛
見落
記事選択

以上。
単漢字は自分で探してくれ。
記事選択とかは分けて変換できると思うので、
全部網羅されてると言っていい。

じゃあな

311 名前:login:Penguin mailto:sage [2010/06/02(水) 22:41:13 ID:408ZUOE4]
>>309
詳しいやり方がわかりませんので、簡単にできるなら是非どうぞ。

とりあえず茶筅やメカブの辞書をgrepして眺めているだけですが、
IPAdicはあくまで形態素のコーパスで、熟語は音声処理用かなんかの逆変換で使いにくい
短い単語とかは結構足りないんじゃないかって気がします。
例えば宮城県で探しても大学の名前しかでてこなくて県名単体すら入ってない。
Mozcの辞書も傾向は似ていますが、unicodeな単語とかも入ってて
多少改善してる感じは気のせいでしょうか?

312 名前:login:Penguin mailto:sage [2010/06/02(水) 23:00:23 ID:408ZUOE4]
っと入れ違いでした
>>310
どうもです。とりあえず予想通りって事ですよね。
単漢字の漏れというのはどうなんですかね?
まあ扱いは難しそうですが。

313 名前:login:Penguin mailto:sage [2010/06/03(木) 00:50:31 ID:0C19uf7w]
>>311
なにがしたいのか意味が分からないのだけど
「宮城」「県」が入っていれば
「宮城県」は変換できる。
というか、個々のパーツで変換できるならそれを辞書に登録しておく意味はない。
ディスクの無駄だし。
短い単位で解析できるように、というのが UniDic。
自分でクロールしてきたデータに UniDic の MeCab をかけてコーパス作ればいいんじゃないかな

314 名前:login:Penguin mailto:sage [2010/06/03(木) 00:59:29 ID:wmng9tJY]
>というか、個々のパーツで変換できるならそれを辞書に登録しておく意味はない。
そもそも大規模コーパスというのはそういう方針とは思えませんが?

パーツの頻度を掛け算した予測頻度を実際の頻度が上回るのであれば登録するべきでしょう。

315 名前:login:Penguin mailto:sage [2010/06/03(木) 09:15:19 ID:1uwN98gG]
>>300-301
私家版辞書追加して、さすがGoogleって言ってる馬鹿約2名発見しますた。


316 名前:login:Penguin mailto:sage [2010/06/03(木) 09:29:34 ID:1uwN98gG]
確かに午後と打ちたければ、午と打って後と打てばいいよなwww
それとも午後の紅茶と打って、の紅茶を削るか?w
もうアホかと。

317 名前:login:Penguin mailto:sage [2010/06/03(木) 10:29:33 ID:cLHYQIlM]
>>42
つきはWakame(ワカメ)だな

318 名前:login:Penguin mailto:sage [2010/06/03(木) 11:03:56 ID:yHIg/azl]
いやcombだろ

319 名前:login:Penguin mailto:sage [2010/06/03(木) 11:43:56 ID:8rrDcIso]
libiconvェ…



320 名前:login:Penguin mailto:sage [2010/06/03(木) 12:20:21 ID:r9B8lAgG]
uim-mozcのビルド方法おしえてくだい

321 名前:login:Penguin mailto:sage [2010/06/03(木) 12:38:19 ID:dyOLzhIN]
# make; make; make clean


322 名前:login:Penguin mailto:sage [2010/06/03(木) 13:37:11 ID:u1itOj+L]
>>320
code.google.com/p/macuim/source/browse/trunk/Mozc/build

323 名前:login:Penguin mailto:sage [2010/06/03(木) 14:11:44 ID:zicLG5/c]
mozcは低能糞ソフトでまともに使えないから、中の辞書だけが欲しいんだよね。

mozcの辞書はどこに置いてあって
どうやってplaintextに変換できるわけ?


324 名前:login:Penguin mailto:sage [2010/06/03(木) 15:01:06 ID:bG0s/qhN]
糞で低能な奴に「低能糞ソフト」呼ばわりされるmozcとその開発陣は不憫だな。

325 名前:login:Penguin mailto:sage [2010/06/03(木) 15:07:37 ID:0C19uf7w]
>>314
そうか? 「宮城県」は「宮城」と「県」であって、
「宮城(固有名詞)」の左に来る品詞と「県(接尾辞)」の右に来る品詞は違うのに、
登録してしまうと区別できなくなってしまう。
連接コストまで考えると単語の頻度だけで簡単に決まるものではないので、
なんでもかんでも登録するとむしろ精度悪化することもあるんじゃないかなあ。
(くっつけても品詞が変わらないものはくっつけたものを登録してもいいと思うが)

326 名前:login:Penguin mailto:sage [2010/06/03(木) 16:11:34 ID:uFbeO/du]
結局、AnthyとMozcってどこが違うの?
Ubuntuで使ってるけど、はじめからあるAnthyよりはMozcの方がよさげだけど

327 名前:login:Penguin mailto:sage [2010/06/03(木) 16:30:35 ID:AE+ltDI6]
>>326
anthyは開発停止してたんじゃなかったっけ?
mozcは開発公開が始まったばかり。

かなり初期の段階だから、開発協力者だけにしたい状態じゃないかな。
だから、辞書のバイナリうんぬんの話もでる。
stableちかくまで普通は待ったほうがいいだろうね。それでもanthyよりmozcの
ほうがいいように思う。

328 名前:login:Penguin mailto:sage [2010/06/03(木) 16:50:09 ID:8XZFMkrD]
>>327
> anthyは開発停止してたんじゃなかったっけ?
再開したよ。
sourceforge.jp/projects/anthy/lists/archive/dev/2010-May/003705.html

329 名前:login:Penguin mailto:sage [2010/06/03(木) 17:30:21 ID:xiIjB+In]
>>326
anthyは親指シフトに対応している



330 名前:login:Penguin mailto:sage [2010/06/03(木) 18:24:16 ID:u1itOj+L]
辞書が同じなら云々言ってる人たちは文節ごとに変換してる人たちでしょ。
文章で変換すれば違いは一目瞭然。

331 名前:login:Penguin mailto:sage [2010/06/03(木) 18:26:44 ID:wmng9tJY]
>>355
県の後ろにつながるの品詞と、宮城県の後ろにつながる品詞は大差ない。
つまり語頭と語尾の文脈IDを継承すれば済む話。






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<188KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef