- 1 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 01:26:03 ]
- プログラマーなら一度は煩わされたことのある文字コードについてのスレです。
ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、 合成文字、ソート、TRON、外字コード、その他について語り合いましょう。 各言語での文字列の扱いについての質問もOKです。 基本マッターリ、ささ、茶でもどうぞ。 ■過去スレ 文字コード総合スレ part1 pc11.2ch.net/test/read.cgi/tech/1031028205/ 文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/ 文字コード総合スレ part3 pc11.2ch.net/test/read.cgi/tech/1180250376/ 文字コード総合スレ part4 pc11.2ch.net/test/read.cgi/tech/1228052369/
- 4 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 01:29:08 ]
- ■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え 内部的には Unicode -> CP932 -> CP5022x って変換な気もする ・人名をソートかけたらバストサイズ順の並びになる? ・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか ・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる) ・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた? ・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題 ・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。 Macではフォントによっては表示されないし、フォントによっては表示される ・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に 機種依存文字はサポートされるか? ・Safari文字コード変換のバグは ・Microsoft文字コード変換のバグは ・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件 ・なぜ携帯業界はunicode化しないのか? ・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか ・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
- 5 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 01:30:45 ]
- ・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない ・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか) ・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES ・UnicodeとUTF-8の違いは? ・日本のCJK Ext.D Submissionに{魚針}が含まれてる件 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針) ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。 中国ではってレベルじゃねーぞ。 ・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで) サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い) ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。 ・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。 ・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。 ・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ ・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか ・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。 ・Unicodeサニタイズが面倒になるのか ・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉 ・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。 ・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定 → ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
- 6 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 01:31:39 ]
- ■ライブラリ
IBM Globalization - ICU www-306.ibm.com/software/globalization/icu/ NKF32.DLL www.vector.co.jp/soft/win95/util/se020949.html www1.ttcn.ne.jp/~kaneto/dll/nkf32dll.html バベル tricklib.com/cxx/ex/babel/ バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。 tricklib.com/cxx/ex/babel/scoremap.csv mlang msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx iconv www.gnu.org/software/libiconv/ ICU www.icu-project.org/
- 7 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 11:23:37 ]
- RedHatで狽ェ文字化けする。
・(総和の)狽ノついて cp932でRedHatに持ち込んで、iconvでutf-8に変換できるが表示が化ける。 iconvでeuc-jpには変換できない。 win端末上でeuc-jpとして保存した場合、cygwinのiconvで他のコードに変換できない。 →euc-jpとしては存在しない文字扱い? ・(ギリシャ文字の)Σについて コード変換は問題ないが、viで開くと1カラム幅の文字と認識するようだ。
|

|