- 476 名前:デフォルトの名無しさん mailto:sage [2012/02/07(火) 21:51:23.32 ]
- 結局同じ文章に外国語入り混じらせて使いたい?
分かった分かった。お前ら黙れ。4バイトで世界中の文字全部平等に並べ直そう。な。 -> ISO/IEC 10646 ちょっとまって同じ事やろうとしてるんだけど。2byteで。 -> Unicode 足並みそろえよか。4byteやけど上2byte全部0の実質Unicodeでやってこや。 おうアジアの土人ども、母国語の文字数すら数えられんのに大きい顔すんなよ? 迷惑なんだから、似たような文字はガンガン同じにまとめとけ。(CJK統合漢字) -> 10646とUnicodeサブセット メンゴメンゴ。65536個じゃ足らんかったわw Unicodeの2byte2つ組み合わせる方針にします。 2つのbyteのうち前後どっちを先にするかは文章の始めに印を付けて表すことにしましょう。(BOM) 素直に全部前から読む時はビッグエンディアン、天邪鬼さんはリトルエンディアンってことで。 でもでも、やっぱよく使う文字とよく使わない文字が同じビット数占拠するのもバカらしいんでー、 よく使う文字(BMPの文字)は2byte単体、それ以外は2つくっつけて表す事にします。(サロゲートペア) -> UTF-16 結局くっつけるんかいwwwそれやったらasciiとの互換も考えれwww 1文字あたりのバイト数は可変長だけどasciiの文字しか使わなかったらasciiと一緒になる。 -> UTF-8 サロゲートペアは甘え。容量も懐も大きいとこ見せろ。 Unicodeをそのまま直書きで4byte固定符号化方式。どや。 Unicodeの文字並び(U+00303Dとか)がそのまんま0000303Dで分かりやすい。 -> UTF-32
|

|