- 161 名前:login:Penguin [01/10/29 08:42 ID:fAUo4XEm.net]
- 第1水準、第2水準など無視して部首順に並べ直した時点で
よく使う漢字のコード領域が連続してないので、どんなに 圧縮したとしても同じだけには縮まない。 せめて両仮名だけでもU+07ffまでに入れておけば、UTF-8で 日本語を書いた時のデータ量が2割ほど縮んだのに。 もし、基本的な punctuation と漢字の頻度上位500文字(率 では8割を超える。)も2バイトで表せる範囲にあったなら、 EUCの数%増し程度だったのに…。 大陸中国・台湾・日本全部ひっくるめた使用頻度計算する のって、客観的方法が無くて難しいだろうけどさ。
|

|