- 1 名前:デフォルトの名無しさん [03/09/10 16:04]
- 文字コード変換について語りましょう♪
- 993 名前:デフォルトの名無しさん mailto:sage [05/02/23 21:35:57 ]
- 文字コード統一スレ 1文字目
プログラムにおける文字コードの取り扱いについて議論する統一スレッド です。 ほぼ前スレ 【UTF8】文字コード変換【SJIS】 pc5.2ch.net/test/read.cgi/tech/1063177450/ 参考ホームページ Unicode Home Page www.unicode.org/ Java Character Encodings www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm こんなんでどうですか?
- 994 名前:デフォルトの名無しさん mailto:sage [05/02/23 21:49:38 ]
- >>970
結局んとこは確率になるからなぁ 特に極短い文だとね IMultiLanguage2::DetectInputCodepage でもできるけど識別率はどんなもんだろ 試してないからわからんが中国語とかも識別できるだろうからいいかも? あとは>>691ででてた ttp://www.gprj.net/dev/tips/net/txtenc.shtml これか? これも識別率はわからん C#だけど
- 995 名前:デフォルトの名無しさん mailto:sage [05/02/23 23:39:52 ]
- >>994
多分みんな作ったことあるんだろうな(笑) 俺もある。 短い文だと誤判定が多くなるねー。 いわゆる「半角カタカナ」などというものが滅んでしまえば、かなり楽なんだが。 # 正確にはカタカナのJIS X 0201の方 泥臭いけど、日本語としての特徴を使えば認識率はあがるよ。 漢字ばかりになることはないとか、ひらがなは半分以上であるとか、そういうので点数をつける。 EUC-JPとしてみれば10点、Shift-JISなら25点というふうに。
- 996 名前:デフォルトの名無しさん mailto:sage [05/02/23 23:45:39 ]
- もとの質問の対象がURL中の文字列つーのがきついよね。
- 997 名前:デフォルトの名無しさん mailto:sage [05/02/23 23:56:34 ]
- >>993 に一票
>>995 gaucheの実装がそんな感じだね。ソースも切り取りやすくてすてき。
- 998 名前:993 mailto:sage [05/02/23 23:58:43 ]
- 立てられませんでした。どなたかお願いします。
- 999 名前:デフォルトの名無しさん mailto:sage [05/02/23 23:59:22 ]
- 999
- 1000 名前:デフォルトの名無しさん mailto:sage [05/02/24 00:00:14 ]
- 1000ならunicode死滅
- 1001 名前:1001 [Over 1000 Thread]
- このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。
|

|