1 名前:とりあえず立ててみた [05/02/24 00:07:38 ] プログラムにおける文字コードの取り扱いについて議論する統一スレッド です。 ほぼ前スレ 【UTF8】文字コード変換【SJIS】 pc5.2ch.net/test/read.cgi/tech/1063177450/ 参考ホームページ Unicode Home Page www.unicode.org/ Java Character Encodings www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
528 名前:デフォルトの名無しさん mailto:sage [2005/10/22(土) 15:49:02 ] 日本の漢字って中国からパクったわりに発音どれもあってなさそうだよね、 日本らしくする為に名前全部ひらがな表記とかすればいい
529 名前:デフォルトの名無しさん mailto:sage [2005/10/22(土) 18:35:02 ] バカなのか釣りなのか
530 名前:デフォルトの名無しさん mailto:sage [2005/10/22(土) 23:43:48 ] >>528 訓読みって知ってる?
531 名前:デフォルトの名無しさん mailto:sage [2005/10/23(日) 09:03:09 ] 中国人も自国の文字のわりに発音どれもあってなさそうだわな。
532 名前:デフォルトの名無しさん mailto:sage [2005/10/23(日) 09:12:33 ] 表意なのに形すら違うからな。
533 名前:デフォルトの名無しさん mailto:sage [2005/10/23(日) 22:11:11 ] >>530 きっと訓読みがない国の人なんだよ
534 名前:デフォルトの名無しさん mailto:sage [2005/10/24(月) 01:51:29 ] >>528 >>528 >>528 >>528 >>528
535 名前:デフォルトの名無しさん mailto:sage [2005/11/06(日) 13:08:33 ] 新人名用漢字の「たまひよ」名前ランキング women.benesse.ne.jp/hakase/sitemap/ranking.htm
536 名前:デフォルトの名無しさん mailto:sage [2005/11/07(月) 20:24:40 ] 人気の漢字を見ると、凜と凛の入力ミス多発の予感
537 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 05:32:18 ] 「同一の字種」だからどっちでもいいのでは? つうかよくわからん「同一の字種」。
538 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 09:02:17 ] 「1字種1字体の原則は維持するが、 例外的に1字種について2字体を認めることを排斥するものではない。」 よくわからんねえ。どっちでもいいんだか、区別せよと言うんだか
539 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 14:49:15 ] そもそも凜は凛の正字だからこちらの字体が人名用漢字として登録されたけど、 誰も使わないものだからなし崩しに凛も新人名用漢字として認められるようになった。 IMEから凜を簡単に入力できないというのも大きかったと思われ
540 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 16:25:27 ] _ ∩ ( ゚∀゚)彡 包摂!包摂! ( ⊂彡 | | し ⌒J
541 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 16:37:04 ] でもって、この場合は「康熙字典」の字体の方が 俗字とされる「凛」だったりするわけで、 こっちが広く使われる由来だったりするんだろうか。これも分かりにくいなあ。
542 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 17:06:26 ] www.taishukan.co.jp/kanji/qa_shape.html#Q3048 こんな所にQ&Aがあった。 >「凛(りん)」の右下の部分が「示」ではなく「禾」になっている字が、パソコンで出ないのですが、どうしてでしょうか?
543 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 17:07:41 ] jvn.jp/jp/JVN%2318282718/006082/index.html 正規化しなきゃしないでIDNの脆弱性だフィッシングだと 何をやっても文句を言われて大変ですなあ
544 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 17:12:36 ] >>542 IMEが変換しない(少なくとも当初の)理由は83JIS以前の機器で字が出ないから 「誤って」使われないようにするためだったと思われ 実際にはJIS(X 0208)に収録されている文字でさえこうなんだから Shift_JISじゃ出せない文字なんてよほど強力に使用を推進しなきゃ 普及させられるわけないよなあ
545 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 18:58:48 ] もっともだ。この先も、90JISまでのフォントしか持っていない機器がある以上、 Vistaに新フォントが搭載されようが、JISX0213:2004の新しい文字なんて、 デフォルトの設定のままでポンポン出てくるなんて、無理な話だってことね。
546 名前:デフォルトの名無しさん mailto:sage [2005/11/08(火) 22:34:39 ] MicrosoftはIMEのデフォルト設定で印刷標準字体を優先して出すと言ってるけどね。 「2004JISでカモメの字体が訂正」とか不勉強にもほどがある記事が大真面目で IT系のニュースサイトにすら掲載されるんだから どれだけ鷗を使えることが知られていないか分かろうってもんだ
547 名前:デフォルトの名無しさん mailto:sage [2005/11/09(水) 05:14:37 ] 堯槇遙および凛が人名用漢字に追加されたのに瑤と煕が追加されなかったのは なんで?
548 名前:デフォルトの名無しさん mailto:sage [2005/11/09(水) 05:32:30 ] 南堂さんが圧力をかけなかったから。
549 名前:デフォルトの名無しさん mailto:sage [2005/11/09(水) 06:35:10 ] 妄想を鵜呑みにしてる奴発見
550 名前:デフォルトの名無しさん mailto:sage [2005/11/09(水) 07:31:43 ] >>547 単純に頻度が足りなかっただけ
551 名前:デフォルトの名無しさん mailto:sage [2005/11/09(水) 07:43:06 ] 何しろ頻度が足りていれば 糞,屍,呪,癌,姦まで追加の検討対象になったくらいだし
552 名前:デフォルトの名無しさん mailto:sage [2005/11/09(水) 08:58:08 ] パブリックコメントに出したら、糞,屍,呪,癌,姦なんて入れるな! という批判が多く出たおかげで、やっと削除できたというほどに 「常用平易」なら入れろという最高裁判決に困ってたみたい
553 名前:デフォルトの名無しさん mailto:sage [2005/11/10(木) 01:27:27 ] 俺は「常用平易なら入れろ」に賛成だけどな。 意味的に不適切な字を削除しても無意味なことは あくま君問題の結末が証明していると思うんだが。
554 名前:デフォルトの名無しさん mailto:sage [2005/11/10(木) 09:58:09 ] 常用平易でも除外されてる文字があるのが謎
555 名前:デフォルトの名無しさん mailto:sage [2005/11/10(木) 16:01:55 ] 南堂さんが(ry
556 名前:デフォルトの名無しさん mailto:sage [2005/11/10(木) 18:43:07 ] もうそのネタは秋(ry
557 名前:デフォルトの名無しさん mailto:sage [2005/11/10(木) 20:20:28 ] 「糞」や「尻」を入れるんなら同程度に頻度の高い「肛」も入れろ、 第二水準差別するなゴルァという俺のコメントは黙殺されたけどな。
558 名前:デフォルトの名無しさん mailto:sage [2005/11/10(木) 23:51:35 ] 委員「また、『やらないか?』か!」
559 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 00:54:57 ] > 同程度に頻度の高い の根拠が不明
560 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 07:23:31 ] 膣と肛門が同程度の頻度 根拠は不明
561 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 13:01:36 ] >膣と肛門が同程度の頻度 両刀使いだから
562 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 14:10:21 ] 多くの文字コードに対応した外国産のWinアプリを使用しているのですがこのアプリで SJISを指定して「ゾ」の文字を保存すると「ソ」、「 ] 」、16進でいうと 0x83, 0x5c, 0x5d と 3バイトで保存されてしまうのです。SJISの文字コード表でみると「ゾ」は、0x83,0x5d の ようなのでこれはバグなのでしょうか?メモ帳などでこれを開くと「ソ」、「 ] 」と2文字で 表示されます。
563 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 14:18:53 ] 転はどうですか?
564 名前:562 mailto:sage [2005/11/11(金) 16:30:44 ] >>563 レス遅れました。 「貼」「 ] 」の2文字(3バイト)になりますね。2バイト目が0x5dの文字がダメってことですか。 でも(当たり前かもしれないが)このアプリで読み込めばちゃんと「ゾ」とか「転」とか表示 されるんですよね。そもそも3バイトにエンコードってありなんでしょうか?
565 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 16:48:49 ] どういう訳か知らんが、閉じブラケット ] (0x5d) の手前に バックスラッシュ \ (0x5c) を入れたいんだろうな もちろんこんな処理は不正
566 名前:562 mailto:sage [2005/11/11(金) 17:00:49 ] >>565 なるほど0x5cは \ でしたか。そのアプリが ] の前に \ を入れたい 理由は分かりました。やっぱりアプリのバグのようです。 ありがとうございました。
567 名前:557 [2005/11/11(金) 23:40:44 ] 厳密に言えば、「尻」が圧倒的に多くて使用度数 3279 回 (1422位)。 続いて「肛」の 811 回 (2208位) と「糞」の 773 回 (2236位) がほとんど 同じ。上位3000位まで取って候補を選定したんだから、ずいぶん上位に 入ってることが分かると思う。 これは、表外漢字字体表の選定にも今回の人名用漢字表の選定でも決定的な 役割を果たした(新)凸版調査の順位そのものなので >>561 の推測は間違い。 ちなみに、人名漢字のパブコメは、数が多すぎて、委員は法務省のまとめを 見ただけで、個別のコメントに目を通してはいないだろうと思う。 さらに言うと、驚くべきことに「膣」(399回、2623位)よりも「腟」(820回、 2197位) の方が多かったりする。それなのに印刷標準字体が「膣」であると いうことに、この問題を理解する鍵がある。
568 名前:デフォルトの名無しさん mailto:sage [2005/11/12(土) 01:59:37 ] 第二水準差別するなってそういう意味か。 第二水準の文字全部入れろとか言うよくいるアホかと思った
569 名前:デフォルトの名無しさん mailto:sage [2005/11/12(土) 08:56:48 ] とりあえず「腟」は解体新書を出すときに作られた字だと言う話を思い出した。
570 名前:デフォルトの名無しさん mailto:sage [2005/11/12(土) 09:26:40 ] 腟=肉+室=にくむろか。 エロイな。
571 名前:デフォルトの名無しさん mailto:sage [2005/11/12(土) 11:34:54 ] >>553 > 意味的に不適切な字を削除しても無意味なことは > あくま君問題の結末が証明していると思うんだが。 糞・尻が使えなくても久素・史理で「くそ・しり」と読ませるのは 許されるのだから無意味といったこと?
572 名前:デフォルトの名無しさん mailto:sage [2005/11/12(土) 11:39:07 ] かな文字もあるしな。
573 名前:デフォルトの名無しさん mailto:sage [2005/11/12(土) 11:57:25 ] ほとんど同意してしまう部分があるけど、 人名用漢字として選定する権限と責任のある仕組みの上では、 漢字は選定できても、読みは制限できないという点で別問題かも とは思ってしまう。 もっとも人名用漢字の制度を設ける必要あるかないかに直結するかな。
574 名前:デフォルトの名無しさん mailto:sage [2005/11/13(日) 12:07:48 ] 本当は怖い親権の濫用
575 名前:デフォルトの名無しさん mailto:sage [2005/11/13(日) 13:49:27 ] 地名って一水、二水の範囲で網羅してるの?
576 名前:デフォルトの名無しさん mailto:sage [2005/11/13(日) 23:52:13 ] 行政地名は網羅してるけど 地名はそれだけではない罠
577 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 02:26:50 ] 年賀状の宛先が書けないケースもあるってこと? それとも、歴史上の地名とかの話?
578 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 07:28:54 ] 大たわ(山+定)とか。JISどころかCJK ExtBにもGT書体にもない。 年賀状に書く必要のある地名なのかどうか知らないけど。
579 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 12:37:01 ] 山にはよくあるけど >大たわ 尾根部分だから殆ど人住んでないだろーな。 山小屋なら「○○小屋」で通じるから住所いらないし。
580 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 12:59:14 ] 「山偏に定」と書いて「撓」の当て字とかあるな。 こういうの当て字っていうのか?
581 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 14:37:34 ] >>575 pyrite.s54.xrea.com/timei/
582 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 16:38:54 ] 「タワ」って鞍部(尾根の釣り下がった部分)のことだろ? 要するに「垂れている」ってことなんだけど。(タル、タルミなど) 乢、垰とも書くよな。 道が尾根をクロスして登り下りすると峠になる。
583 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 19:29:29 ] >581 すごいの見付けた かわだ 西広門田 どーゆー配分だこれ
584 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 20:33:41 ] MS IMEの人名/地名モードもATOK2005も 「かわだ」で変換できるのがさすが。難読地名の代表なのかな。 かな文字より漢字の方が多いんじゃ、ふつう配分できんだろー
585 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 22:13:10 ] 流石て…フツウ ヤン... 川渡(カワド)が別の読みの地名とクッツイタという説があったような。
586 名前:デフォルトの名無しさん mailto:sage [2005/11/15(火) 09:44:31 ] MS IMEの変換モードが「一般」だと「りん」で「凛」は出ても「凜」は出ないから、 パソコンで出ないなんて話になるんだろうけど、 「人名/地名」モードに変えればどっちも出るし、一度「凜」使えば一般モードに戻してもOK。 これもフツウ。それすらしないから「凛」が大杉。
587 名前:デフォルトの名無しさん mailto:sage [2005/11/15(火) 10:40:26 ] そういうわけで>>539 の > なし崩しに凛も新人名用漢字として認められるようになった。 だとすると・・・
588 名前:デフォルトの名無しさん mailto:sage [2005/11/15(火) 23:07:31 ] JISの地名漏れ多すぎじゃね? こんなもん?
589 名前:デフォルトの名無しさん mailto:sage [2005/11/17(木) 00:13:14 ] 個人的にはこの程度で済んでるんならかなりマシな部類だと思うが…
590 名前:デフォルトの名無しさん mailto:sage [2005/11/19(土) 03:14:33 ] 78JISは「国土行政区画総覧使用漢字」昭和47年版の3251字をすべて収録した。 それ以後にJIS漢字にもないような難しい漢字の地名が新設されたとは思えないから JIS漢字の地名の漏れはそのままこの資料の漏れと言っていい。 いわゆる「幽霊漢字」の多くもこの資料が典拠だし
591 名前:デフォルトの名無しさん mailto:sage [2005/11/19(土) 03:20:56 ] だから>>576 に書いたように > 行政地名は網羅してるけど > 地名はそれだけではない罠
592 名前:デフォルトの名無しさん mailto:sage [2005/11/19(土) 04:10:51 ] 俺もASCIIコード圏に生まれたかったよママン
593 名前:デフォルトの名無しさん [2005/11/19(土) 07:59:34 ] >>590 国土行政区画総覧じゃなくて日本行政区画便覧を使ってたらまた違ってたかもなぁ
594 名前:デフォルトの名無しさん mailto:sage [2005/11/19(土) 10:58:32 ] >>592 現代において文字コードに困らないのは結局ASCIIだけだしな ISO-8859-Xたちもそれはそれで化け化けらしいし
595 名前:デフォルトの名無しさん mailto:sage [2005/11/19(土) 13:55:48 ] >>592 それは、アメリカに生まれたかったということで宜しいか? #ヒント:ASCIIのフルスペリング まぁ実際、英語を母国語とする英国でさえ一部文字コードがASCIIではないからねぇ。
596 名前:デフォルトの名無しさん mailto:sage [2005/11/19(土) 18:11:48 ] ブリテンにはスコットランドもウェールズもあるからね。
597 名前:デフォルトの名無しさん mailto:sage [2005/11/19(土) 18:14:56 ] ついでに言うとアメリカも今ではスペイン語人口が多い罠。
598 名前:デフォルトの名無しさん mailto:sage [2005/11/19(土) 21:14:44 ] ASCIIには、ユーロもポンドもないからねえ。
599 名前:デフォルトの名無しさん mailto:sage [2005/11/19(土) 22:05:10 ] つーかいい加減アメリカもメートル使えよな いつまでもインチとかフィートとか言ってんじゃねーよ
600 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 03:28:00 ] ASCIIにバックスラッシュが入ったのは、“/\”で and を、“\/”で or を表現したかったALGOL厨の陰謀らしい。 Latin-1に、"oeリガチャ"(フランス語で、「心臓」とかを表すのに使う。超必須)が入らなかったのは、÷を入れたかったドイツの数学者の陰謀らしい。 ちなみに、Latin-1の0xFF (y diaeresis) を使う単語は、仏語に4つしかなく、そのいずれもがほとんど一般には使われないらしい。
601 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 03:54:33 ] つまり0xFFにoeリガチャを割り当てなかったフランス人ワロス、てことでFA?
602 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 04:18:55 ] どこも日本みたいな過ち犯してんのかよ だせーなー
603 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 06:56:21 ] ISO-8859-1 の元になった DEC のコードでは「oeリガチャ」は確かに×÷の位置に 定義されてるね。「yダイアレシス」は今とは別の位置に定義されていて、大文字 もあったが、アイスランド語が書けるようにしようとか下手に色気を出したので、 アサッテの位置に追いだされたようだ。
604 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 08:35:02 ] そして文字コード指定のない(あるいは欠けてしまった)ISO-8859シリーズは、 日本の場合より悪いことに、コンピュータによる推測が絶望的だったりする。 どいつもこいつも0x20〜0x7Fと0xA0〜0xFFを使うことに変わりはないので、 日本のように「文字コードによってはこのバイトは使わない」ということがない。 (まず使わないだろう、というヒューリスティックな推測はできるけど) しかしどこの文字コードも主に政治の結果が色濃いのが笑えるなw
605 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 08:47:04 ] Latin-1って名前もあれだよな、ドイツ語入ってんのに。
606 名前:557 mailto:sage [2005/11/20(日) 12:41:23 ] >>600 最近某所でそんな話を不味いノンアルコールビールを飲みながら聞いたんだが…。
607 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 12:57:53 ] そこでヨーロッパ人にとってはUTF-8サイコー 判定間違えて文字化けもしないぜウホッとなるわけですよ
608 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 14:01:01 ] 日本は文字化け先進国 なれって怖いよねあたりまえのように数種扱い続けてる
609 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 14:20:19 ] >>608 漢字ひらがなカタカナalphabetが混在する物を当たり前のように扱ってきたからかもしれんw
610 名前:デフォルトの名無しさん mailto:sage [2005/11/20(日) 14:57:13 ] >>607 まあそれはユーロ記号の件が一番大きいんだけどな。 それ以前にも何度か混乱していた時期があると聞いたが、どうやって乗り越えたのやら。
611 名前:デフォルトの名無しさん mailto:sage [2005/11/21(月) 23:48:16 ] 責任の一端はTeXにあるという説を提唱してみる。 やつが余計なお世話をしなければ、いかに愚鈍なヤンキーといえども 「あれ、文字、全然足りなくね?」 と即座に気づいたであろう。
612 名前:デフォルトの名無しさん mailto:sage [2005/11/25(金) 03:59:16 ] ASCIIにバックスラッシュが入ったのは、R.W.Bemerが、ALGOLのand と or を使えるようにしたかったため。 彼のホームページに経緯が詳述してあったけど、1年前に癌で死んでホームページが消されてから、 そのあたりの資料も一切合財が雲散霧消してしまった。
613 名前:デフォルトの名無しさん mailto:sage [2005/11/25(金) 04:13:34 ] le «ÿ» est utilise en gallois et en vieux francais. On le recontre encore aujourd'hui dans des toponymes comme «l'Haÿe-les-Roese», des noms comme «de Croÿ», «Louÿ», or des expressions comme «kir à l'aÿ». Cette lettre est extremement rare et son insertion dans ISO 8859-1 est pour le moins insolite.
614 名前:デフォルトの名無しさん mailto:sage [2005/11/25(金) 08:13:17 ] >>612 URLは? それが本当ならwaybackmachineに残ってそうなものだが。
615 名前:デフォルトの名無しさん mailto:sage [2005/11/25(金) 08:30:02 ] Character histories: notes on some Ascii code positions www.cs.tut.fi/~jkorpela/latin1/ascii-hist.html ASCIIの誕生←ここの参考文献[4]に載っているかも。 kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications/ASCII.html
616 名前:デフォルトの名無しさん mailto:sage [2005/11/25(金) 21:06:40 ] >>615 > Character histories: notes on some Ascii code positions > www.cs.tut.fi/~jkorpela/latin1/ascii-hist.html そっからリンクがあったんだが、ドメイン屋にのっとられてる上に robots.txtでwayback machineが弾かれてて軒並消滅してた。
617 名前:デフォルトの名無しさん mailto:sage [2005/11/25(金) 21:42:02 ] 作業中だったら言ってくれよ 同じ末路たどってたゴール手前
618 名前:デフォルトの名無しさん [2005/11/28(月) 21:23:52 ] 嘆や漢の右側だけの文字って文字コードはあります?できれば、旧字体のがあればいいんですけど...
619 名前:デフォルトの名無しさん mailto:sage [2005/11/29(火) 00:37:17 ] U+26C29にある。JIS(第4水準)やUnicodeの例示字形では新字体だけど 旧字体も包摂されてるはず
620 名前:デフォルトの名無しさん mailto:sage [2005/11/29(火) 01:12:43 ] 般若心経は全部出るようになったんですかね
621 名前:デフォルトの名無しさん mailto:sage [2005/11/29(火) 07:38:47 ] もともと般若心経で JIS X 0208 になかった字は「罣」がひとつ だけで、これは補助漢字にも X 0213 にもはいっているから とうぜん出るでしょう。
622 名前:デフォルトの名無しさん mailto:sage [2005/11/29(火) 08:00:07 ] >>621 もうひとつ「埵」も X 0208 になかった字だけれど、 これも補助漢字・X 0213 の両方にある。
623 名前:デフォルトの名無しさん mailto:sage [2005/11/29(火) 09:38:26 ] もしかして、鳩摩羅什訳だと>>621 で、玄奘三蔵訳だと>>622 という違い?
624 名前:デフォルトの名無しさん mailto:sage [2005/11/29(火) 17:57:43 ] 四 圭 これは?あとどうやって出したのその漢字
625 名前:デフォルトの名無しさん mailto:sage [2005/11/29(火) 18:11:20 ] ヒント:数値文字参照
626 名前:デフォルトの名無しさん mailto:sage [2005/12/01(木) 01:56:19 ] >>604 ISO-8859シリーズの判別にはEncaが使えるかもしれない。 ttp://trific.ath.cx/software/enca/ EUC-JP,KR,CNとかBig5の区別をするのに各言語の文字 出現頻度を使いたいんだが、どこかにリソースないかな? 日本語のデータはメーリングリストのログ等で準備できるんだが、 中国語、韓国語なんかはgoogleすらできないんだorz
627 名前:デフォルトの名無しさん mailto:sage [2005/12/01(木) 02:11:18 ] 完成記念 観自在菩薩行深般若波羅蜜多時照見五蘊皆空度一切苦厄 舎利子色不異空空不異色色即是空空即是色受想行識亦復如是 舎利子是諸法空相不生不滅不垢不浄不増不減是故空中無色 無受想行識無眼耳鼻舌身意無色声香味触法 無眼界乃至無意識界無無明亦無無明尽乃至無老死亦無老死尽 無苦集滅道無智亦無得以無所得故菩提薩埵依般若波羅蜜多 故心無罣礙無罣礙故無有恐怖遠離一切顛倒夢想究竟涅槃 三世諸仏依般若波羅蜜多故得阿耨多羅三藐三菩提 故知般若波羅蜜多是大神呪是大明呪是無上呪是無等等呪 能除一切苦真実不虚故説般若波羅蜜多呪即説呪曰 羯諦羯諦波羅羯諦波羅僧羯諦菩提娑婆訶
628 名前:626 mailto:sage [2005/12/01(木) 04:38:12 ] 2年以上前に同じことを考えた人がいた。 libcharguessというのでCJKのエンコーディングは判別可能みたい。 開発が停止しているのが残念だが、いちおう使えるのでよしとするw ttp://sourceforge.net/projects/libcharguess/