UnicodeとUTF-8の違いは？　その2

[表示 : 全て最新50 1-99 101- 201- 2chのread.cgiへ]
Update time : 05/09 15:01 / Filesize : 50 KB / Number-of Response : 202
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:age [2010/05/27(木) 14:17:17 ]: 前スレでなんとなくわかったのですが、インディアンがどうとかいうあたりで
話について行けなくなりました。
39 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 22:27:12 ]: そもそもASCIIコードと互換性のないUTF-16なんてなんで作ったの？
40 名前：デフォルトの名無しさん [2010/05/27(木) 23:34:42 ]: 移行できると思っていた
41 名前：デフォルトの名無しさん [2010/05/28(金) 00:01:05 ]: アメリカ野郎にとってはASCIIで対応してる文字にわざわざ２バイト以上使うなんてクレイジーでしかないからね
42 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 01:12:07 ]: ASCIIは永遠に使われ続けるだろ
43 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 01:12:12 ]: たかが１バイト増えるだけだが
1が2になると倍だしな
44 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 19:17:26 ]: wikipediaのUTF-8の項目に
＞UTF-8はISO/IEC 10646(UCS)とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。
とあるのですが一般的に使われているUTF-8はISO/IEC 10646を使ったものですか？それともUnicodeを使ったものですか？
ttp://ja.wikipedia.org/wiki/UTF-8
45 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 22:17:36 ]: >>44
実際に使われているUTF-8のデータから、両者の違いを見分けることはできないと思うよ。

文字集合がUCS-2だUCS-4だって言ったところで、Unicodeで定義されない文字がある訳じゃ無い。

ついでにUCS-4はUnicodeと同じ21bitの範囲までしか文字を入れない決まりになったしね。
46 名前：デフォルトの名無しさん mailto:sage [2010/05/29(土) 22:54:03 ]: ⅠⅡⅢとか①②③ってなんの問題が?
47 名前：デフォルトの名無しさん mailto:sage [2010/05/30(日) 11:09:31 ]: 機種によってコードが違ったり無かったりしたからな
48 名前：デフォルトの名無しさん mailto:sage [2010/05/30(日) 21:18:26 ]: >>41
でも日本人の場合、EUCとかSJISで対応してる文字にわざわざ３バイト以上使う
クレイジーな奴が多いんだよな・・・
49 名前：デフォルトの名無しさん mailto:sage [2010/05/31(月) 03:08:55 ]: UTF-8って日本語3バイトになるのか
知らんかった
50 名前：デフォルトの名無しさん mailto:sage [2010/05/31(月) 21:57:26 ]: そりゃあ日本独自のそれこそガラパゴスよりは全世界共通のグローバルの方が見た目かっこいいからだろうな。
51 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 01:28:22 ]: SJISは海外アプリが食ってくれない事が多々あるし、EUCは日本人でも使ってる奴が少ない。
最大でもせいぜい1.5倍にしか増えないなら、使う価値は十分あると思うが。
52 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 05:17:40 ]: >>46
Unicode的には全く問題ない。
53 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 10:09:44 ]: 外国の混じりにしたらとたんにSJISのソースじゃやっていけなくなった・・
まあ直接埋め込む方が悪いがｗ
54 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 18:50:01 ]: >>44
そらUnicodeだろ。IANAもRFC3629もUnicode。

>>46
シフトJISで後から追加された文字。いわゆる機種依存文字なのでWinのシフトJISを
Macに持って行くと文字化けする。Unicode系のコードでやりとりすれば>>52の言うとおり問題無い
55 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 20:31:22 ]: UNIXやLINAXはEUCなのになんでEUCが世界を支配してないの?
56 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 20:42:29 ]: えっ普通LinuxはUTF-8じゃないの？
それはともかく多言語を同時に扱えない文字コードはちょっと・・・
57 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 22:01:20 ]: PARLだかパールだか
サーバーサードスクリプトがはやったときどのプロバイダもFTPでEUCのHtmlをアップさせてたじゃん
58 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 22:14:20 ]: >>55
基本的に殆どのソフトウエアのコア部分は海外で作られる。
Windows、Mac OS X、Linux、FreeBSD、NetBSD、OpenBSD、
Plan9、gcc、glibc、perl、php、Python、vi、emacs等

海外のプログラマの人達が使ってる文字はASCIIが基本で、
その範囲を超える文字はマルチバイト文字として特殊な扱いに属する。

マルチバイト文字には歴史的に数多くの種類があるけれど、(日本ならshift-jis、euc、jis等)
その一つ一つに対応したプログラムを個別に書くのは非常に手間が掛かってかったるいし、
自分が使っていない言語の事は良く分からないので、取っつきにくいという問題もある。

その点Unicodeは各国語の文字が単一の文字集合に入っているし、
その取り扱い方法も規定されているので、Unicodeを扱えるように
プログラムを書けば、各国語の文字を扱えるようになるという便利さがある。
59 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 22:17:00 ]: >>57
今perlはutf-8がデフォルト文字コードだよ。
60 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 02:22:38 ]: perlはスクリプトをutf-8で書いて、入力時に希望の文字コードからutf-8に変換して、
出力時にutf-8から好きな希望の文字コードに変換する、という方法が確立されたかららくちん
61 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 06:08:30 ]: >>55
Unicode系じゃないとコンパイル時と実行時に文字コードの情報が必要になって
面倒なんだよ。Unicodeならその国の文字は読めなくても文字化けしない。
62 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 20:47:12 ]: WindowsServerとSQLServerが無料になったら使う
63 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 20:50:27 ]: お前は一生シフトJIS使ってればいーよ
64 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 03:36:54 ]: すんげー亀レスだったりレスつけすぎだったりだけど規制解除がうれしくてはしゃいでるだけだから許してちょ
あと、UCSってあんまり知らないんで誰か教えてちょ。あれは文字コード表なの？エンコーディングなの？
>>3
> ・UTF-8とインディアンの関係は？
まず、インディアンじゃなくてエンディアン。そしてUTF-8ではエンディアンは関係ない。
>・UnicodeとUTF-8が別モノなのにBOMがUnicodeのしるしというのがよくわからない
Unicodeのしるしというよりも、UTF-8のしるし。昔、HTMLで文字コードをうまく認識させるために上の方に

って書くって小ワザが使われていた時期があったんだが、それと同じようなもの。

>>4
>BOMはUnicode（≒UTF-16と思っていいか？）には必須
なくてもいい。あったら簡単に判別できるよってだけ。
Unicode≒UTF-16は、実質そうなのだけど、あえてそう思わないようにしたいところ。

"≒"って書いてあるのでサロゲートペアは考えないことにする。
UTF-8とかのテキストエンコーディングを知る上で重要になる、文字コード表+コード変換規則という組み合わせを大事にしたい。
UTF-16はあえて「数字をそのまんま返す」という変換をしていると考える。あるいは、コード変換規則はバイト列から表番号への型変換だと考えてもいい。

>>55
わずかに、日本じゃeuc-jpが使われてて、韓国じゃeuc-krが使われてるだけ。
両者に互換性はないし、他の非ASCII文字が必要な国ではまた別の文字コードが使われてるし、世界支配には全然至らない。

例えば、俺が何かソフト書くとき、日本語には対応させる気になっても、手間かけてまで中国語・韓国語には対応させたいとは思わない。
多分、アメリカ人から見たら、わざわざ手間かけて日本語、中国語、韓国語に対応したいとは思ってないんだろう。

Unicodeは、その手間を最小限に抑えられる。
もともと特殊な文字コードが必要なら、Unicodeを使えば勝手に世界中の言語に対応してくれることになる。
そういうのが不用なアメリカ人だって、Unicodeにさえしてくれれば世界中の言語に対応したのを作れるといったら、それくらいの手間はかけてくれるかもしれない。
65 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 06:47:00 ]: 知ってるぜ。昔HTMLで文字コードを認識させるために

って書いたんだよな。他人が見たらびっくりだ

> UCSってあんまり知らないんで
たふん
　UCS→規格ISO/IEC 10646のこと
　UCS-2/UCS-4→テキストエンコーディング
UCSの文字集合は、何だろうね。規格で定められているのかな。
66 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 09:31:39 ]: UTF-8のプレーンテキスツで利用させてもらうわ「美乳」
67 名前：65 mailto:sage [2010/06/03(木) 13:20:36 ]: >>66
すまん説明が悪かった。
EUC-JPのHTMLページを文字化けさせない時に「美乳」を使う。
UTF-8ならBOMがあればいいでしょ。
68 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 17:56:40 ]: >>65
UCSは文字集合で、エンコーディングじゃ無いよ。
69 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 21:32:43 ]: ホームページのファミコン.icoだかfamicon.icoってなに?
70 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:04:03 ]: faviconだろ
71 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:07:46 ]: ｆａｖｏｒｉｔｅ　ｉｃｏｎの略だろ。
お気に入りに追加するときに自動的にダウンロードされる。
72 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:27:36 ]: ていうか、unicodeどころか文字ですらない。
73 名前：デフォルトの名無しさん mailto:sage [2010/06/04(金) 19:08:15 ]: そういやSolarisってUCS-4なのな。
マイクロソフトももう少しUnicode対応が遅ければUTF-32採用されていただろうに。
74 名前：デフォルトの名無しさん mailto:sage [2010/06/05(土) 03:51:23 ]: UCS-4 or UTF-32の何がそんなに嬉しいのかね。
コードポイントは32bitの固定長だけど、
どのみち結合文字があるから1文字は可変長なのにね。
75 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 04:41:01 ]: 一文字何バイトにしようと
半角カナの濁点や合成用濁点をその前の仮名文字と組み合わせる必要が
なくなるわけじゃないのにね。
76 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 06:42:54 ]: 読めない読む必要のない言語はトーフで十分なんだから
末端ユーザの文書なんて不可逆にEUC等のローカルコードに変換して保持すりゃ十分だよne
77 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 06:43:58 ]: Unicode←→EUC-JPの変換がどれだけ地雷原なのかも知らんのか…
78 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 09:53:54 ]: >>76
その文書を入力として読み込むことがないのなら。
入力しなけりゃ、二度と出力もできないが。
79 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 10:18:53 ]: >>77
unicodeに戻す必要があるのならね
80 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 10:43:25 ]: >>74
code pointとgraphemeの区別が付いていないんだろうね。
文字として扱う場合はいずれにしても可変長処理になるから、UTF-16の
サロゲートペアとかも些末な問題なんだけど、延々的外れな主張が繰り返される。
81 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:37:03 ]: >>77
マッピングテーブル2回通すだけだろ
82 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:44:02 ]: >>81
そのテーブルが問題なんだよ
83 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:59:58 ]: FirefoxからEUC-JPの掲示板に投稿すると一部の文字がIEで読めなくなるとか
Safariから円記号を投稿すると文字化けするとか
いずれもUTF-8なら問題ない
84 名前：81 mailto:sage [2010/06/06(日) 22:10:50 ]: >>82
何か問題ある？
UTF-32→(普通のマッピング)→SJIS→(IBM拡張をマッピング)→SJIS→(計算式)→JIS→(計算式)→EUC
でしょ。
一つ目のテーブルはUnicodeコンソーシアムのtxtファイルからソース生成した。
二つ目のテーブルはシコシコと自作した。
85 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 22:26:20 ]: EUC-JPはいらない子過ぎる･･･
86 名前：81 mailto:sage [2010/06/06(日) 22:27:45 ]: ああ思い出した。マッピングテーブル作る時に「X 0208」「NEC特殊」「NEC選定IBM拡張」「IBM拡張」
とマッピング先が複数候補有るので小細工が必要だったかも。
どの文字領域で重複してるか一文字ずつ調べてく単純作業が必要だった。
計算式と一般公開データだけでできると思ったら確実にはまるね。
87 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 23:06:38 ]: フロントエンドプロセッサを日本語に訳すと?
88 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 00:07:36 ]: 前の方を処理してくれる女
89 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 07:46:06 ]: >>86
Shift-JISとCP932でマッピングが違う記号がいくつかあるし
90 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:32:29 ]: イミフメ。CP932がシフトJISじゃないとでも？
91 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:41:05 ]: ￡がU+00A3になったりU+FFE1になったりして困った経験がないんだろうな
92 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:44:23 ]: 色色問題あるけど、代表はasciiのバックスラッシュをJISの円記号と解釈する(cp932)かJISのバックスラッシュと解釈する(sjis)かだな。
93 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 16:08:34 ]: おまいらの言う「sjis」って何よ？
JIS X 0213に\(5Ch)をUnicodeのどの文字にマッピングするかなんて書いてあったっけ？
94 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 16:33:29 ]: お前ら本当にUnicode好きだな。
そろそろ次スレ立てるか？
スレタイは「Unicode総合スレU+0003」
95 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 19:07:09 ]: お前３行目言いたいだけだろ
96 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 21:31:22 ]: お
そ
ス
97 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 00:17:09 ]: 誰もCP932と「sjis」の違いを説明できないんですね。残念です。

で「sjis」って何よ？
定義は？
98 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 01:03:23 ]: sjisはJIS X 0208:1997のシフト符号化表現
cp932はANSIコードページの932
規格が違う、としか言いようがない。
日本のチョコレートがベルギーではチョコレートとみなされなかったりするのと同じようなもんだ。
99 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 02:22:52 ]: ttp://ja.wikipedia.org/wiki/Microsoft%E3%82%B3%E3%83%BC%E3%83%89%E3%83%9A%E3%83%BC%E3%82%B8932
【SJIS】
Shift_JISの短縮形

【Shift_JIS】
「シフトJIS」のIANA登録名。

【シフトJIS】
JIS X 0208符号化文字集合を一定の規則に従ってシフトした文字符号化方式。

【CP932】
MS-DOSと Windowsにおける日本語コードページを表す用語。
「Windows-31J」が制定されるまでは、OEMベンダによって文字集合が違う。

【Windows-31J】
Windows 3.1(J)のリリースに合わせて、マイクロソフトがIBMとNECのコードを
統合して作った符号化文字集合。

まとめ：
・SJIS
　… 狭義ではJIS X 0208:1997のシフト符号化表現のこと。
　　　広義ではシフトJIS系文字コード全般を指す。(CP932も含む)

・CP932
… DOSやWinにおいて、日本語コードページを指す用語。
　　Win3.1以降ならその実体はWindows-31Jだが、古いverやDOSでは
　　バージョンにより実体が異なる。

これでどうでしょ。
間違ってたら適当に修正よろ。
100 名前：97 mailto:sage [2010/06/20(日) 02:37:16 ]: >>98,99
そのJIS X 0208にUnicodeとのマッピングが書いてあるのかよ。話をすり替えるな。

俺はJIS X 0213とwww.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT
ぐらいしか知らない。
>>89の言う「Shift-JISのマッピング」って一体何なのよ？
101 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:03:44 ]: そういや、なんで異字体セレクタって後置なの？
前置にしとけば、何か漢字1文字読んだ後に異字体セレクタなんて付いてない可能性高いのに
念のためもう1文字読む、という手間が省ける気がするのだが。
102 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:10:06 ]: >>100
いや、誰がどう言おうと、sjisの定義はそれなんだから仕方ない。
>>89が言いたかったのは波ダッシュ問題のことだとは思うけど、
それはsjisの定義そのものとも、sjisとは何かとも関係がない。
103 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:12:52 ]: >>102
いや、関係ないは言い過ぎだな。
sjisがJIS X 0208:1997に完全に基づいてるとしたら、それをUnicodeに変換するときは
JIS punctuationに従うって考えるのが自然だろうし。
104 名前：100 mailto:sage [2010/06/20(日) 03:52:34 ]: >>101
付随する物が基本となる物に続くのが論理的、とかフォントレンダリングが単純化される、
みたいな言い訳が2.11章に書いてあった気がする。

>>103
「JIS Punctuationに従う」って何？
「sjis」とUnicodeとのマッピングがどこに書いてあるのか、具体的に教えてくれ。
105 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 07:35:23 ]: >>104
>「sjis」とUnicodeとのマッピングがどこに書いてあるのか、具体的に教えてくれ。

規格化されていないのでどこにも書いてない。
106 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 08:28:19 ]: CP932
ttp://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT

JIS X 0208とShift-JIS
ttp://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/
107 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 12:41:09 ]: >>104
> 付随する物が基本となる物に続くのが論理的、とかフォントレンダリングが単純化される、
なるほど。
けど論理性はともかく、レンダリングが単純化されるって、どういう風にされるんだ？

> 「sjis」とUnicodeとのマッピング
よくわかんないけど、sjisがjisをシフトさせたもので、unicodeにjisとunicodeの対応があるんだったら、
sjisをjisに変換してjisをunicodeに変換したものがマッピングに当たるんじゃないの？
>>105の言う通り、規格化はされてないようだから、それで納得できない人もいるかもしれないけど。

> 「JIS Punctuationに従う」って何？
だって、JIS PunctuationのWAVE DASHに対応する文字がjisの中にないとおかしいじゃん。
だったら、sjisの中にWAVE DASHに対応する文字がないとおかしいじゃん。
unicodeの規格には「ないとおかしい」って書いてないだろうから、なくてもいいのかもしれないけど。
108 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 19:08:06 ]: >>106
obsoleteかよ。しかも半角円記号がA5にマッピングされてるじゃねーか。
そんな実装存在すんの？

>>107
>>89,91,92の言うsjisのマッピングって、存在するかどうか怪しい>>106のことなのか？　空想乙
109 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 19:29:48 ]: >>108
>>91-92は存在するか検証可能だろ。波ダッシュ問題見逃してるのはなんでか知らないけど。

{sjis, cp932}からunicodeじゃなくてutf8から{sjis, cp932}だけど。
iconv (GNU libc) 2.9
Copyright (C) 2008 Free Software Foundation, Inc.
使って波ダッシュを変換。マイナーな処理系だと言うなら、勝手に言うがよろし。

$ echo ～ | iconv -f utf8 -t cp932 | od
0000000 060201 000012
0000003
$ echo ～ | iconv -f utf8 -t sjis | od
iconv: 位置 0 で不正な入力シーケンスがありました
0000000
110 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 20:16:15 ]: >>109
波ダッシュ変換して何がうれしいのか。

今度は「sjisのUnicodeマッピングとはiconvコマンドの実装のこと」ですか。
よくもまあ言うことがコロコロ変わるもんだ。

ついでにそのiconvは半角￥をA5に変換するのかな？

最初から「cp932以外はマッピングが規格化されてないのでcp932とそれ以外のシフトJIS系実装でマッピングが異なる」って言えばいいんだよ。
111 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 20:21:04 ]: なんで「俺様のまとめ」を、他人に最初から要求するんだろうこういう馬鹿って
112 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 20:38:46 ]: まとめを要求したいのではなく89と91の表現が不適切だと言いたいのではないだろうか。
110(=90?)はCP932もシフトJISだと言いたいんだろう。

確かにsjisのUnicodeマッピングは定義が曖昧すぎる。
113 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 21:57:57 ]: >>110
え？うれしくないの？超うれしいじゃん。

> よくもまあ言うことがコロコロ変わるもんだ。
もともと俺、sjisのunicodeマッピングが何かについては言及してなかったんだけど、誰と勘違いした？

> ついでにそのiconvは半角￥をA5に変換するのかな？
ならなかったけど、人の言ったことにまで責任は取らない。
手順もソフトも覚えてないが過去になったことはあるけど。

> cp932以外はマッピングが規格化されてないのでcp932とそれ以外のシフトJIS系実装でマッピングが異なる
明らかな間違い。規格化されていないことは、マッピングが異なる理由ではない。
114 名前：99 ◆SmULsZQKBg mailto:sage [2010/06/22(火) 00:43:33 ]: 相手を誰かと買い違いして、喧嘩腰になってる方が見受けられるのでトリ付けた方が良いかも。

散々問題になってる>89は、>81を
　「X 0208」「NEC特殊」「NEC選定IBM拡張」「IBM拡張」 → CP932 (=Windows-31J)
と解釈した上で、Shift-JIS（=JIS X 0208）という別のキャラセットもあると述べてるだけかと。
（両者は別のキャラセットとして、IANAに別個に登録されてます。）
具体的に何が問題になるかも、>92で示されてます罠。
115 名前：99 ◆SmULsZQKBg mailto:sage [2010/06/22(火) 00:44:44 ]: 訂正。>81じゃなくて>86ですね。同一人物ですが。
116 名前：99 ◆SmULsZQKBg mailto:sage [2010/06/22(火) 00:54:25 ]: 今更ながら>77の言う「地雷」の意味が何となく分かった。
ttp://ja.wikipedia.org/wiki/EUC-JP

>84の変換方法だと、Windowsなら良いかもしれないけど
他で問題がありそうな予感が。（検証してないけど）
117 名前：デフォルトの名無しさん mailto:sage [2010/06/22(火) 08:42:27 ]: おかしい人は相手をせず放置するのがいちばんですよ。

でもここはおかしい人隔離スレかw
118 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 08:36:14 ]: >>114
待て待て。Shift-JISはIANAに登録されていないし、IANAはUnicodeとのマッピングは定めていないぞ。
話と関係なくね？
119 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 09:02:52 ]: 規格化されてないなら、デファクトスタンダードな処理系を基準にするしかないじゃん。
そしたら結局のところ、sjisとcp932はマッピングが違う、という最初から出てた話に。
120 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 18:25:46 ]: そうしたら>>90がまた「cp932もsjisだ」って言い出すだろ。
それともsjisのデファクトスタンダードって何かあるの？
121 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 18:39:42 ]: PC9801のROMに入ってるか否かだ
122 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 23:15:53 ]: PC9801のROMにIBM拡張漢字は入ってないぞ
初代には第二水準漢字すら入ってなかった
123 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 23:40:12 ]: >118
ttp://ja.wikipedia.org/wiki/Shift_JIS
「Shift_JISの標準化」の項
IANAも「Shift_JIS」という名前で登録している。

でもよく読むとX0208じゃなくてX0213の方なのかな?
124 名前：デフォルトの名無しさん mailto:sage [2010/06/24(木) 00:03:25 ]: >>123
sjisそのものは標準規格があるけど、sjisをunicodeに変換する方法については規格がない、という話。

>>120
デファクトスタンダード選ぶなら、GNU iconv以上にメジャーな処理系ってなに？
125 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 01:21:33 ]: >124
sjis-Unicodeのマッピングが公式に定義されて無いのは別に否定してませんが…
ただ「sjis」という文字とコードのマッピング（要はキャラセット）はIANAに登録されてるでそ。
それを無いとか言うもんだから>123を提示したまでですが。

あとメジャーかどうか知らないけど、IBMがICUっての公開してますよ。>処理系
126 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 02:13:15 ]: >>125
ちゃんと読もうよ。
わかんないことには口を出さないこと。
勘違いしてたのなら素直に謝ること。
それだけだよ。
127 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 09:44:14 ]: JIS X 0208:1997の附属書1は規格じゃないの? 「規定」って書いてるんだけど。
標準じゃなくてガラパゴスだとか?
128 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 14:45:37 ]: >>125
sjisとShift-JISとShift_JISを一緒にしないでくれ。IANAに登録されているのはShift_JIS。

>>124
また話がループするようなことを。規格化されているのはShift_JISX0213。
断じてsjisではない。
129 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 15:10:13 ]: >>123
X0201とX0208だよ。
www.iana.org/assignments/character-sets

>>124
デファクトスタンダードはやっぱりJavaでそ。
130 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 20:00:00 ]: >>128
それに関しては、もはや揚げ足取りではないのかい？
cp932とShift_JISX0213は別物だが、sjis, Shift_JIS, Shift-JIS, shiftjis, ... を
Shift_JISX0213の通称として扱っていいんじゃないの。

それともShift_JISX0213と別物で、よく似た名前の別規格or独自仕様って何かある？
131 名前：128 mailto:sage [2010/06/27(日) 22:38:28 ]: >>130
揚げ足を取るつもりはないけど。
少なくともShift_JISはIANAに登録されていて別格。狭義のシフトJISを指す。
それに対しsjis,Shift-JISは定義の無い通称で、広義のシフトJISでは？
両者は明確に区別されるべきだと思う。
少なくとも>>99のSJISがShift_JISの略っていうのは嘘。
132 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 23:03:12 ]: >128
そこまでの厳密さを求める割に、IANAに登録されてる/されてないという流れに対して、
「Shift_JISX0213」を持ち出すのはおかしいと思わないのかい。
それJISでは正式採用されてても、IANAじゃまだドラフトのはず。
133 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 03:14:55 ]: >>131
Shift_JISって名前出しつつIANA Shift_JISと別のエンコーディングの話する場合はないといえるのかい？
俺と君との2人だけの議論だったら、単語の使い方を明確にしておくのは有効だろうが、
何人いるのかも分からないし、そのうち何人が全部のレス読んでるか分からない、単発ばかりかもしれない場所でそれをやってもろくなことにならないと思うよ。

できる限り、文脈で判断して、違いを分かってる人は必要に応じて明確に違いを明示した言葉遣いをするのが一番マシだと思うんだ。
134 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 11:17:31 ]: unicodeと関係ない話は他でやってくれ。
わかったのはCP932以外のシフトジス系はunicodeとの対応が規格化されていないってことだ。
135 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 11:21:55 ]: X0208←→Unicodeが存在して、X0208←→シフト符号化表現が存在するのに、
シフト符号化表現←→Unicodeが存在しないとはこれいかに？
136 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 12:31:41 ]: なんでこう、脊髄反射するんだろうな。
137 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 13:53:54 ]: やけどしないように、かな
138 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 21:00:17 ]: 脊髄反射した結果、炎上してるのになぁ。
反省とかしないのかね。
139 名前：デフォルトの名無しさん [2010/06/28(月) 21:44:51 ]: >>135
X 0208←→Unicodeは何処に書かれてるの？おせーてくださいまし。
あとX 0201の存在もお忘れ無く・・・

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef