UnicodeとUTF-8の違いは？　その2

[表示 : 全て最新50 1-99 101- 201- 2chのread.cgiへ]
Update time : 05/09 15:01 / Filesize : 50 KB / Number-of Response : 202
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:age [2010/05/27(木) 14:17:17 ]: 前スレでなんとなくわかったのですが、インディアンがどうとかいうあたりで
話について行けなくなりました。
8 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 15:55:44 ]: >>3
{UTF-8, UTF-16}　∈ Unicode

こういう包含関係があるのがUnicodeとUTF-8との違いだよ
9 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 16:16:19 ]: それは
{UTF-8仕様, UTF-16仕様}　∈ Unicode規格
の話な。
ここで議論しているのはUnicode規格でなくUnicode文字集合の話だ。
10 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 16:23:30 ]: えっ
11 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 17:28:25 ]: なんでこんなしょもないスレの次スレなんか立てるんだよ...
12 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 17:30:29 ]: せめてスレタイを汎用化してほしかった。
Unicode総合スレとか。
13 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 18:23:10 ]: とりあえず前スレ

UnicodeとUTF-8の違いは？
pc12.2ch.net/test/read.cgi/tech/1177930957/
14 名前：デフォルトの名無しさん [2010/05/27(木) 18:28:31 ]: Unicode ⊃ { USC-2, UCS-4, UTF-8, UTF-16 }
USC-2 : 1文字2バイトの文字集合
USC-4 : 1文字4バイトの文字集合
UTF-8 : 文字コードを文字集合にマッピングする変換規則の一つ（ひとつの文字を表す文字コードの長さは1バイトから6バイト）
UTF-16 : 文字コードを文字集合にマッピングする変換規則の一つ（ひとつの文字を表す文字コードの長さは2バイト（但し一部の文字は二つの文字コードを使って一つの文字を表す））
15 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:25:25 ]: ところでお前らUnicodeって言ったらUnicodeコンソーシアムの規格かISO/IEC10646か
どっちを指すわけ？
Unicodeコンソーシアムの規格にはUCSなんて概念は無いわけで。
16 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:30:55 ]: それを知るためにここにきますた
17 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:33:26 ]: UTFは文字コードをUCSの文字集合に割り当てる為の実装手段って事か。
UTF-8は文字集合にUCS-4を使っているみたいだけど
UCS-4は1文字4バイトとあるのにUTF-8は1文字1～6バイトと可変とある。
UTFによって1文字に使うバイトが変わるならUCS-4の1文字4バイトってのは一体何の基準なんだ
と思ったらUCS-4自身もUCS-4の文字集合を使うための実装手段として使えるんだな。
その際に1文字が4バイトになると、なるほど。
18 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:35:14 ]: UTF-8って1～6じゃなくて1～4バイトの可変じゃねーの？
19 名前：デフォルトの名無しさん [2010/05/27(木) 19:45:34 ]: >>18
セキュリティーにうるさい環境では4バイトまでしか認めないけど、20年
前から絶対防御を実現しているLinux等は、いまだに6バイトまで許容して
います。
まあ、JavaやWindowsは脆弱すぎるってことです。
20 名前：デフォルトの名無しさん [2010/05/27(木) 19:49:19 ]: >>18
フラットな4バイト空間をどうやって1から4バイトの可変長の空間に詰め込むんだよ。
21 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:52:12 ]: >>19
意味わかんね。何で仕様の話にセキュリティーが出てくるんだよ。

>>19
規格嫁。Unicode 5.2.0の2.5章にUTF-8は最大4バイトと書いてある。
22 名前：デフォルトの名無しさん [2010/05/27(木) 19:54:49 ]: >>21
意味がわからなかったら危険。
23 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:54:58 ]: >>21 ISO 10646 対応ってことでそ
24 名前：21 mailto:sage [2010/05/27(木) 19:55:48 ]: >>19
どうやって詰め込むかは3.9章に書いてある。
25 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:03:32 ]: 煽りあい気味の意見交換は前スレで散々やったからこのスレでは控えめに行こうぜ

5バイト以上のUTF-8についてwikipediaに分かりやすくまとまってたので引用
ja.wikipedia.org/wiki/UTF-8#.E3.82.BB.E3.82.AD.E3.83.A5.E3.83.AA.E3.83.86.E3.82.A3
｜セキュリティ
｜
｜UTF-8のエンコード体系には冗長性があり、同じ文字を符号化するのに複数の表現が考えられる。
｜かつてはそのような表現も許容されていたが、ディレクトリトラバーサルなどの対策として行われる
｜文字列検査を冗長な表現によりすり抜ける手法が知られるようになったため、現在の仕様では最も
｜短いバイト数による表現以外は不正なUTF-8シーケンスとみなさなければならない。[9]
｜
｜ISO/IEC 10646の定義が5バイト以上の表現を許容していることにより、正しくない実装をおこったバグ
｜のあるシステムにおいてエンコード時にバッファオーバーフローが発生する可能性も指摘されている。
26 名前：24 mailto:sage [2010/05/27(木) 20:07:20 ]: アンカミスったし(>>19→>>20)、ageちまった。スマン。

でもUnicodeっていったらUnicodeコンソーシアムの規格じゃねーの？
ISO 10646って言ったらUnicodeじゃなくてUCSっつーイメージがある。偏見？
27 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:24:45 ]: >>19
JavaやWindowsには既知の『正しくない実装をおこったバグ』が存在
しているということですね。
具体的にWindowsのKB番号など教えていただけないでしょうか。
28 名前：デフォルトの名無しさん [2010/05/27(木) 20:33:16 ]: >>27
いや、ノーガード戦法こそ唯一絶対のセキュリティーって話。
セキュリティーが甘いからノーガード戦法が出来ないんだろ？
29 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:35:38 ]: よくわかりませんが、Linuxはノーガードということなのですね。凄いです。
30 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:38:21 ]: Windows：細かいところが甘いから6バイトまで使えるところを４バイトに縛って強制的に安全化を図っている
Linux：細かいところまで大丈夫なので４バイト縛りなどのセキュリティーを入れる必要がない

って事が言いたいんでしょ。
31 名前：デフォルトの名無しさん [2010/05/27(木) 20:45:39 ]: >>30
いや、さすがにそこまでは言っていない。
というか、細かいバグの多さならLinuxが最高峰だし。
32 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:55:39 ]: >>15
ISO/IEC 10646はUnicodeではありません。
よってUTF-8が6バイトとか、UCSがどうとか言っている奴はスレ違いということで。
33 名前：デフォルトの名無しさん [2010/05/27(木) 20:56:24 ]: ただ、ノーガード戦法がセキュアって言うのは常識だろ。
たとえば、Linuxで広範に使われているlibxml2。
これは、エンティティー参照によく知られるバグを持っているけど、
そのまま使うと危険だから、賢い人なら自力で回避して使う。
Gnomeはlibxml2をそのまま使っているから、実際危険な使い方が出来る。
だから、賢い人ならGnomeを使わず、TWM+XFMで環境を構築する。
こうやって賢く安全な使い方が普通に出来てしまうのがLinuxの良い
ところだ。
Windowsではどうだ？
エクスプローラに脆弱性があるからと言って、代替製品に置き換えて
使う人がどれだけいる？
つまり、与えられたセキュリティーなど無意味。
何も与えない、ノーガードこそが一番安全なのだ。
34 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:59:00 ]: >>33はクレイジー
35 名前：デフォルトの名無しさん [2010/05/27(木) 21:08:46 ]: >>34
クレイジーってなんだよ？
Linuxが6バイト許容なのもエンティティー参照の問題もセキュリティーの
啓蒙のためにそうなっているんだよ。
痛い目にあえば、ユーザーは気をつけるようになるだろ？
「誰も信用するな」がセキュリティーの基本原則だ。
こういった啓蒙活動のおかげでLinuxユーザーは賢くなり、Linuxは最高の
セキュリティーを手に入れることが出来た。
これがフルオープンの力だ。
36 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 21:14:00 ]: ふむふむ、Linuxは広範囲に使われている基幹dllに脆弱性があっても修正されないのか
37 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 21:15:32 ]: これ以上俺の腹筋を痛めないで欲しいなぁ
38 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 22:20:07 ]: >>14
UTF-8に関しては日本語が3バイト、英数字が1バイト
UTF-16は日本語が2バイト、英数字が2バイトで

日本語の量が多いファイルではUTF-16が容量節約に適して
日本語より英数字が多いファイルではUTF-8が容量節約に適しているって
解説しているサイトがあったなあ
39 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 22:27:12 ]: そもそもASCIIコードと互換性のないUTF-16なんてなんで作ったの？
40 名前：デフォルトの名無しさん [2010/05/27(木) 23:34:42 ]: 移行できると思っていた
41 名前：デフォルトの名無しさん [2010/05/28(金) 00:01:05 ]: アメリカ野郎にとってはASCIIで対応してる文字にわざわざ２バイト以上使うなんてクレイジーでしかないからね
42 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 01:12:07 ]: ASCIIは永遠に使われ続けるだろ
43 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 01:12:12 ]: たかが１バイト増えるだけだが
1が2になると倍だしな
44 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 19:17:26 ]: wikipediaのUTF-8の項目に
＞UTF-8はISO/IEC 10646(UCS)とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。
とあるのですが一般的に使われているUTF-8はISO/IEC 10646を使ったものですか？それともUnicodeを使ったものですか？
ttp://ja.wikipedia.org/wiki/UTF-8
45 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 22:17:36 ]: >>44
実際に使われているUTF-8のデータから、両者の違いを見分けることはできないと思うよ。

文字集合がUCS-2だUCS-4だって言ったところで、Unicodeで定義されない文字がある訳じゃ無い。

ついでにUCS-4はUnicodeと同じ21bitの範囲までしか文字を入れない決まりになったしね。
46 名前：デフォルトの名無しさん mailto:sage [2010/05/29(土) 22:54:03 ]: ⅠⅡⅢとか①②③ってなんの問題が?
47 名前：デフォルトの名無しさん mailto:sage [2010/05/30(日) 11:09:31 ]: 機種によってコードが違ったり無かったりしたからな
48 名前：デフォルトの名無しさん mailto:sage [2010/05/30(日) 21:18:26 ]: >>41
でも日本人の場合、EUCとかSJISで対応してる文字にわざわざ３バイト以上使う
クレイジーな奴が多いんだよな・・・
49 名前：デフォルトの名無しさん mailto:sage [2010/05/31(月) 03:08:55 ]: UTF-8って日本語3バイトになるのか
知らんかった
50 名前：デフォルトの名無しさん mailto:sage [2010/05/31(月) 21:57:26 ]: そりゃあ日本独自のそれこそガラパゴスよりは全世界共通のグローバルの方が見た目かっこいいからだろうな。
51 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 01:28:22 ]: SJISは海外アプリが食ってくれない事が多々あるし、EUCは日本人でも使ってる奴が少ない。
最大でもせいぜい1.5倍にしか増えないなら、使う価値は十分あると思うが。
52 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 05:17:40 ]: >>46
Unicode的には全く問題ない。
53 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 10:09:44 ]: 外国の混じりにしたらとたんにSJISのソースじゃやっていけなくなった・・
まあ直接埋め込む方が悪いがｗ
54 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 18:50:01 ]: >>44
そらUnicodeだろ。IANAもRFC3629もUnicode。

>>46
シフトJISで後から追加された文字。いわゆる機種依存文字なのでWinのシフトJISを
Macに持って行くと文字化けする。Unicode系のコードでやりとりすれば>>52の言うとおり問題無い
55 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 20:31:22 ]: UNIXやLINAXはEUCなのになんでEUCが世界を支配してないの?
56 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 20:42:29 ]: えっ普通LinuxはUTF-8じゃないの？
それはともかく多言語を同時に扱えない文字コードはちょっと・・・
57 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 22:01:20 ]: PARLだかパールだか
サーバーサードスクリプトがはやったときどのプロバイダもFTPでEUCのHtmlをアップさせてたじゃん
58 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 22:14:20 ]: >>55
基本的に殆どのソフトウエアのコア部分は海外で作られる。
Windows、Mac OS X、Linux、FreeBSD、NetBSD、OpenBSD、
Plan9、gcc、glibc、perl、php、Python、vi、emacs等

海外のプログラマの人達が使ってる文字はASCIIが基本で、
その範囲を超える文字はマルチバイト文字として特殊な扱いに属する。

マルチバイト文字には歴史的に数多くの種類があるけれど、(日本ならshift-jis、euc、jis等)
その一つ一つに対応したプログラムを個別に書くのは非常に手間が掛かってかったるいし、
自分が使っていない言語の事は良く分からないので、取っつきにくいという問題もある。

その点Unicodeは各国語の文字が単一の文字集合に入っているし、
その取り扱い方法も規定されているので、Unicodeを扱えるように
プログラムを書けば、各国語の文字を扱えるようになるという便利さがある。
59 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 22:17:00 ]: >>57
今perlはutf-8がデフォルト文字コードだよ。
60 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 02:22:38 ]: perlはスクリプトをutf-8で書いて、入力時に希望の文字コードからutf-8に変換して、
出力時にutf-8から好きな希望の文字コードに変換する、という方法が確立されたかららくちん
61 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 06:08:30 ]: >>55
Unicode系じゃないとコンパイル時と実行時に文字コードの情報が必要になって
面倒なんだよ。Unicodeならその国の文字は読めなくても文字化けしない。
62 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 20:47:12 ]: WindowsServerとSQLServerが無料になったら使う
63 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 20:50:27 ]: お前は一生シフトJIS使ってればいーよ
64 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 03:36:54 ]: すんげー亀レスだったりレスつけすぎだったりだけど規制解除がうれしくてはしゃいでるだけだから許してちょ
あと、UCSってあんまり知らないんで誰か教えてちょ。あれは文字コード表なの？エンコーディングなの？
>>3
> ・UTF-8とインディアンの関係は？
まず、インディアンじゃなくてエンディアン。そしてUTF-8ではエンディアンは関係ない。
>・UnicodeとUTF-8が別モノなのにBOMがUnicodeのしるしというのがよくわからない
Unicodeのしるしというよりも、UTF-8のしるし。昔、HTMLで文字コードをうまく認識させるために上の方に

って書くって小ワザが使われていた時期があったんだが、それと同じようなもの。

>>4
>BOMはUnicode（≒UTF-16と思っていいか？）には必須
なくてもいい。あったら簡単に判別できるよってだけ。
Unicode≒UTF-16は、実質そうなのだけど、あえてそう思わないようにしたいところ。

"≒"って書いてあるのでサロゲートペアは考えないことにする。
UTF-8とかのテキストエンコーディングを知る上で重要になる、文字コード表+コード変換規則という組み合わせを大事にしたい。
UTF-16はあえて「数字をそのまんま返す」という変換をしていると考える。あるいは、コード変換規則はバイト列から表番号への型変換だと考えてもいい。

>>55
わずかに、日本じゃeuc-jpが使われてて、韓国じゃeuc-krが使われてるだけ。
両者に互換性はないし、他の非ASCII文字が必要な国ではまた別の文字コードが使われてるし、世界支配には全然至らない。

例えば、俺が何かソフト書くとき、日本語には対応させる気になっても、手間かけてまで中国語・韓国語には対応させたいとは思わない。
多分、アメリカ人から見たら、わざわざ手間かけて日本語、中国語、韓国語に対応したいとは思ってないんだろう。

Unicodeは、その手間を最小限に抑えられる。
もともと特殊な文字コードが必要なら、Unicodeを使えば勝手に世界中の言語に対応してくれることになる。
そういうのが不用なアメリカ人だって、Unicodeにさえしてくれれば世界中の言語に対応したのを作れるといったら、それくらいの手間はかけてくれるかもしれない。
65 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 06:47:00 ]: 知ってるぜ。昔HTMLで文字コードを認識させるために

って書いたんだよな。他人が見たらびっくりだ

> UCSってあんまり知らないんで
たふん
　UCS→規格ISO/IEC 10646のこと
　UCS-2/UCS-4→テキストエンコーディング
UCSの文字集合は、何だろうね。規格で定められているのかな。
66 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 09:31:39 ]: UTF-8のプレーンテキスツで利用させてもらうわ「美乳」
67 名前：65 mailto:sage [2010/06/03(木) 13:20:36 ]: >>66
すまん説明が悪かった。
EUC-JPのHTMLページを文字化けさせない時に「美乳」を使う。
UTF-8ならBOMがあればいいでしょ。
68 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 17:56:40 ]: >>65
UCSは文字集合で、エンコーディングじゃ無いよ。
69 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 21:32:43 ]: ホームページのファミコン.icoだかfamicon.icoってなに?
70 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:04:03 ]: faviconだろ
71 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:07:46 ]: ｆａｖｏｒｉｔｅ　ｉｃｏｎの略だろ。
お気に入りに追加するときに自動的にダウンロードされる。
72 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:27:36 ]: ていうか、unicodeどころか文字ですらない。
73 名前：デフォルトの名無しさん mailto:sage [2010/06/04(金) 19:08:15 ]: そういやSolarisってUCS-4なのな。
マイクロソフトももう少しUnicode対応が遅ければUTF-32採用されていただろうに。
74 名前：デフォルトの名無しさん mailto:sage [2010/06/05(土) 03:51:23 ]: UCS-4 or UTF-32の何がそんなに嬉しいのかね。
コードポイントは32bitの固定長だけど、
どのみち結合文字があるから1文字は可変長なのにね。
75 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 04:41:01 ]: 一文字何バイトにしようと
半角カナの濁点や合成用濁点をその前の仮名文字と組み合わせる必要が
なくなるわけじゃないのにね。
76 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 06:42:54 ]: 読めない読む必要のない言語はトーフで十分なんだから
末端ユーザの文書なんて不可逆にEUC等のローカルコードに変換して保持すりゃ十分だよne
77 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 06:43:58 ]: Unicode←→EUC-JPの変換がどれだけ地雷原なのかも知らんのか…
78 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 09:53:54 ]: >>76
その文書を入力として読み込むことがないのなら。
入力しなけりゃ、二度と出力もできないが。
79 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 10:18:53 ]: >>77
unicodeに戻す必要があるのならね
80 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 10:43:25 ]: >>74
code pointとgraphemeの区別が付いていないんだろうね。
文字として扱う場合はいずれにしても可変長処理になるから、UTF-16の
サロゲートペアとかも些末な問題なんだけど、延々的外れな主張が繰り返される。
81 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:37:03 ]: >>77
マッピングテーブル2回通すだけだろ
82 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:44:02 ]: >>81
そのテーブルが問題なんだよ
83 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:59:58 ]: FirefoxからEUC-JPの掲示板に投稿すると一部の文字がIEで読めなくなるとか
Safariから円記号を投稿すると文字化けするとか
いずれもUTF-8なら問題ない
84 名前：81 mailto:sage [2010/06/06(日) 22:10:50 ]: >>82
何か問題ある？
UTF-32→(普通のマッピング)→SJIS→(IBM拡張をマッピング)→SJIS→(計算式)→JIS→(計算式)→EUC
でしょ。
一つ目のテーブルはUnicodeコンソーシアムのtxtファイルからソース生成した。
二つ目のテーブルはシコシコと自作した。
85 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 22:26:20 ]: EUC-JPはいらない子過ぎる･･･
86 名前：81 mailto:sage [2010/06/06(日) 22:27:45 ]: ああ思い出した。マッピングテーブル作る時に「X 0208」「NEC特殊」「NEC選定IBM拡張」「IBM拡張」
とマッピング先が複数候補有るので小細工が必要だったかも。
どの文字領域で重複してるか一文字ずつ調べてく単純作業が必要だった。
計算式と一般公開データだけでできると思ったら確実にはまるね。
87 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 23:06:38 ]: フロントエンドプロセッサを日本語に訳すと?
88 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 00:07:36 ]: 前の方を処理してくれる女
89 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 07:46:06 ]: >>86
Shift-JISとCP932でマッピングが違う記号がいくつかあるし
90 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:32:29 ]: イミフメ。CP932がシフトJISじゃないとでも？
91 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:41:05 ]: ￡がU+00A3になったりU+FFE1になったりして困った経験がないんだろうな
92 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:44:23 ]: 色色問題あるけど、代表はasciiのバックスラッシュをJISの円記号と解釈する(cp932)かJISのバックスラッシュと解釈する(sjis)かだな。
93 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 16:08:34 ]: おまいらの言う「sjis」って何よ？
JIS X 0213に\(5Ch)をUnicodeのどの文字にマッピングするかなんて書いてあったっけ？
94 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 16:33:29 ]: お前ら本当にUnicode好きだな。
そろそろ次スレ立てるか？
スレタイは「Unicode総合スレU+0003」
95 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 19:07:09 ]: お前３行目言いたいだけだろ
96 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 21:31:22 ]: お
そ
ス
97 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 00:17:09 ]: 誰もCP932と「sjis」の違いを説明できないんですね。残念です。

で「sjis」って何よ？
定義は？
98 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 01:03:23 ]: sjisはJIS X 0208:1997のシフト符号化表現
cp932はANSIコードページの932
規格が違う、としか言いようがない。
日本のチョコレートがベルギーではチョコレートとみなされなかったりするのと同じようなもんだ。
99 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 02:22:52 ]: ttp://ja.wikipedia.org/wiki/Microsoft%E3%82%B3%E3%83%BC%E3%83%89%E3%83%9A%E3%83%BC%E3%82%B8932
【SJIS】
Shift_JISの短縮形

【Shift_JIS】
「シフトJIS」のIANA登録名。

【シフトJIS】
JIS X 0208符号化文字集合を一定の規則に従ってシフトした文字符号化方式。

【CP932】
MS-DOSと Windowsにおける日本語コードページを表す用語。
「Windows-31J」が制定されるまでは、OEMベンダによって文字集合が違う。

【Windows-31J】
Windows 3.1(J)のリリースに合わせて、マイクロソフトがIBMとNECのコードを
統合して作った符号化文字集合。

まとめ：
・SJIS
　… 狭義ではJIS X 0208:1997のシフト符号化表現のこと。
　　　広義ではシフトJIS系文字コード全般を指す。(CP932も含む)

・CP932
… DOSやWinにおいて、日本語コードページを指す用語。
　　Win3.1以降ならその実体はWindows-31Jだが、古いverやDOSでは
　　バージョンにより実体が異なる。

これでどうでしょ。
間違ってたら適当に修正よろ。
100 名前：97 mailto:sage [2010/06/20(日) 02:37:16 ]: >>98,99
そのJIS X 0208にUnicodeとのマッピングが書いてあるのかよ。話をすり替えるな。

俺はJIS X 0213とwww.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT
ぐらいしか知らない。
>>89の言う「Shift-JISのマッピング」って一体何なのよ？
101 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:03:44 ]: そういや、なんで異字体セレクタって後置なの？
前置にしとけば、何か漢字1文字読んだ後に異字体セレクタなんて付いてない可能性高いのに
念のためもう1文字読む、という手間が省ける気がするのだが。
102 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:10:06 ]: >>100
いや、誰がどう言おうと、sjisの定義はそれなんだから仕方ない。
>>89が言いたかったのは波ダッシュ問題のことだとは思うけど、
それはsjisの定義そのものとも、sjisとは何かとも関係がない。
103 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:12:52 ]: >>102
いや、関係ないは言い過ぎだな。
sjisがJIS X 0208:1997に完全に基づいてるとしたら、それをUnicodeに変換するときは
JIS punctuationに従うって考えるのが自然だろうし。
104 名前：100 mailto:sage [2010/06/20(日) 03:52:34 ]: >>101
付随する物が基本となる物に続くのが論理的、とかフォントレンダリングが単純化される、
みたいな言い訳が2.11章に書いてあった気がする。

>>103
「JIS Punctuationに従う」って何？
「sjis」とUnicodeとのマッピングがどこに書いてあるのか、具体的に教えてくれ。
105 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 07:35:23 ]: >>104
>「sjis」とUnicodeとのマッピングがどこに書いてあるのか、具体的に教えてくれ。

規格化されていないのでどこにも書いてない。
106 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 08:28:19 ]: CP932
ttp://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT

JIS X 0208とShift-JIS
ttp://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/
107 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 12:41:09 ]: >>104
> 付随する物が基本となる物に続くのが論理的、とかフォントレンダリングが単純化される、
なるほど。
けど論理性はともかく、レンダリングが単純化されるって、どういう風にされるんだ？

> 「sjis」とUnicodeとのマッピング
よくわかんないけど、sjisがjisをシフトさせたもので、unicodeにjisとunicodeの対応があるんだったら、
sjisをjisに変換してjisをunicodeに変換したものがマッピングに当たるんじゃないの？
>>105の言う通り、規格化はされてないようだから、それで納得できない人もいるかもしれないけど。

> 「JIS Punctuationに従う」って何？
だって、JIS PunctuationのWAVE DASHに対応する文字がjisの中にないとおかしいじゃん。
だったら、sjisの中にWAVE DASHに対応する文字がないとおかしいじゃん。
unicodeの規格には「ないとおかしい」って書いてないだろうから、なくてもいいのかもしれないけど。
108 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 19:08:06 ]: >>106
obsoleteかよ。しかも半角円記号がA5にマッピングされてるじゃねーか。
そんな実装存在すんの？

>>107
>>89,91,92の言うsjisのマッピングって、存在するかどうか怪しい>>106のことなのか？　空想乙

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef