[表示 : 全て 最新50 1-99 101- 201- 2chのread.cgiへ]
Update time : 05/09 15:01 / Filesize : 50 KB / Number-of Response : 202
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

UnicodeとUTF-8の違いは? その2



1 名前:デフォルトの名無しさん mailto:age [2010/05/27(木) 14:17:17 ]
前スレでなんとなくわかったのですが、インディアンがどうとかいうあたりで
話について行けなくなりました。

67 名前:65 mailto:sage [2010/06/03(木) 13:20:36 ]
>>66
すまん説明が悪かった。
EUC-JPのHTMLページを文字化けさせない時に「美乳」を使う。
UTF-8ならBOMがあればいいでしょ。

68 名前:デフォルトの名無しさん mailto:sage [2010/06/03(木) 17:56:40 ]
>>65
UCSは文字集合で、エンコーディングじゃ無いよ。

69 名前:デフォルトの名無しさん mailto:sage [2010/06/03(木) 21:32:43 ]
ホームページのファミコン.icoだかfamicon.icoってなに?

70 名前:デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:04:03 ]
faviconだろ

71 名前:デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:07:46 ]
favorite iconの略だろ。
お気に入りに追加するときに自動的にダウンロードされる。

72 名前:デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:27:36 ]
ていうか、unicodeどころか文字ですらない。

73 名前:デフォルトの名無しさん mailto:sage [2010/06/04(金) 19:08:15 ]
そういやSolarisってUCS-4なのな。
マイクロソフトも もう少しUnicode対応が遅ければUTF-32採用されていただろうに。

74 名前:デフォルトの名無しさん mailto:sage [2010/06/05(土) 03:51:23 ]
UCS-4 or UTF-32の何がそんなに嬉しいのかね。
コードポイントは32bitの固定長だけど、
どのみち結合文字があるから1文字は可変長なのにね。

75 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 04:41:01 ]
一文字何バイトにしようと
半角カナの濁点や合成用濁点をその前の仮名文字と組み合わせる必要が
なくなるわけじゃないのにね。



76 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 06:42:54 ]
読めない読む必要のない言語はトーフで十分なんだから
末端ユーザの文書なんて不可逆にEUC等のローカルコードに変換して保持すりゃ十分だよne

77 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 06:43:58 ]
Unicode←→EUC-JPの変換がどれだけ地雷原なのかも知らんのか…

78 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 09:53:54 ]
>>76
その文書を入力として読み込むことがないのなら。
入力しなけりゃ、二度と出力もできないが。

79 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 10:18:53 ]
>>77
unicodeに戻す必要があるのならね

80 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 10:43:25 ]
>>74
code pointとgraphemeの区別が付いていないんだろうね。
文字として扱う場合はいずれにしても可変長処理になるから、UTF-16の
サロゲートペアとかも些末な問題なんだけど、延々的外れな主張が繰り返される。

81 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:37:03 ]
>>77
マッピングテーブル2回通すだけだろ

82 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:44:02 ]
>>81
そのテーブルが問題なんだよ

83 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:59:58 ]
FirefoxからEUC-JPの掲示板に投稿すると一部の文字がIEで読めなくなるとか
Safariから円記号を投稿すると文字化けするとか
いずれもUTF-8なら問題ない

84 名前:81 mailto:sage [2010/06/06(日) 22:10:50 ]
>>82
何か問題ある?
UTF-32→(普通のマッピング)→SJIS→(IBM拡張をマッピング)→SJIS→(計算式)→JIS→(計算式)→EUC
でしょ。
一つ目のテーブルはUnicodeコンソーシアムのtxtファイルからソース生成した。
二つ目のテーブルはシコシコと自作した。

85 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 22:26:20 ]
EUC-JPはいらない子過ぎる・・・



86 名前:81 mailto:sage [2010/06/06(日) 22:27:45 ]
ああ思い出した。マッピングテーブル作る時に「X 0208」「NEC特殊」「NEC選定IBM拡張」「IBM拡張」
とマッピング先が複数候補有るので小細工が必要だったかも。
どの文字領域で重複してるか一文字ずつ調べてく単純作業が必要だった。
計算式と一般公開データだけでできると思ったら確実にはまるね。

87 名前:デフォルトの名無しさん mailto:sage [2010/06/06(日) 23:06:38 ]
フロントエンドプロセッサを日本語に訳すと?

88 名前:デフォルトの名無しさん mailto:sage [2010/06/07(月) 00:07:36 ]
前の方を処理してくれる女

89 名前:デフォルトの名無しさん mailto:sage [2010/06/07(月) 07:46:06 ]
>>86
Shift-JISとCP932でマッピングが違う記号がいくつかあるし


90 名前:デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:32:29 ]
イミフメ。CP932がシフトJISじゃないとでも?

91 名前:デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:41:05 ]
£がU+00A3になったりU+FFE1になったりして困った経験がないんだろうな

92 名前:デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:44:23 ]
色色問題あるけど、代表はasciiのバックスラッシュをJISの円記号と解釈する(cp932)かJISのバックスラッシュと解釈する(sjis)かだな。


93 名前:デフォルトの名無しさん mailto:sage [2010/06/07(月) 16:08:34 ]
おまいらの言う「sjis」って何よ?
JIS X 0213に\(5Ch)をUnicodeのどの文字にマッピングするかなんて書いてあったっけ?

94 名前:デフォルトの名無しさん mailto:sage [2010/06/07(月) 16:33:29 ]
お前ら本当にUnicode好きだな。
そろそろ次スレ立てるか?
スレタイは「Unicode総合スレU+0003」

95 名前:デフォルトの名無しさん mailto:sage [2010/06/07(月) 19:07:09 ]
お前3行目言いたいだけだろ



96 名前:デフォルトの名無しさん mailto:sage [2010/06/07(月) 21:31:22 ]




97 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 00:17:09 ]
誰もCP932と「sjis」の違いを説明できないんですね。残念です。

で「sjis」って何よ?
定義は?

98 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 01:03:23 ]
sjisはJIS X 0208:1997のシフト符号化表現
cp932はANSIコードページの932
規格が違う、としか言いようがない。
日本のチョコレートがベルギーではチョコレートとみなされなかったりするのと同じようなもんだ。

99 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 02:22:52 ]
ttp://ja.wikipedia.org/wiki/Microsoft%E3%82%B3%E3%83%BC%E3%83%89%E3%83%9A%E3%83%BC%E3%82%B8932
【SJIS】
Shift_JISの短縮形

【Shift_JIS】
「シフトJIS」のIANA登録名。

【シフトJIS】
JIS X 0208符号化文字集合を一定の規則に従ってシフトした文字符号化方式。

【CP932】
MS-DOSと Windowsにおける日本語コードページを表す用語。
「Windows-31J」が制定されるまでは、OEMベンダによって文字集合が違う。

【Windows-31J】
Windows 3.1(J)のリリースに合わせて、マイクロソフトがIBMとNECのコードを
統合して作った符号化文字集合。

まとめ:
・SJIS
 … 狭義ではJIS X 0208:1997のシフト符号化表現のこと。
   広義ではシフトJIS系文字コード全般を指す。(CP932も含む)

・CP932
… DOSやWinにおいて、日本語コードページを指す用語。
  Win3.1以降ならその実体はWindows-31Jだが、古いverやDOSでは
  バージョンにより実体が異なる。

これでどうでしょ。
間違ってたら適当に修正よろ。

100 名前:97 mailto:sage [2010/06/20(日) 02:37:16 ]
>>98,99
そのJIS X 0208にUnicodeとのマッピングが書いてあるのかよ。話をすり替えるな。

俺はJIS X 0213とwww.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT
ぐらいしか知らない。
>>89の言う「Shift-JISのマッピング」って一体何なのよ?

101 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:03:44 ]
そういや、なんで異字体セレクタって後置なの?
前置にしとけば、何か漢字1文字読んだ後に異字体セレクタなんて付いてない可能性高いのに
念のためもう1文字読む、という手間が省ける気がするのだが。

102 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:10:06 ]
>>100
いや、誰がどう言おうと、sjisの定義はそれなんだから仕方ない。
>>89が言いたかったのは波ダッシュ問題のことだとは思うけど、
それはsjisの定義そのものとも、sjisとは何かとも関係がない。

103 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:12:52 ]
>>102
いや、関係ないは言い過ぎだな。
sjisがJIS X 0208:1997に完全に基づいてるとしたら、それをUnicodeに変換するときは
JIS punctuationに従うって考えるのが自然だろうし。

104 名前:100 mailto:sage [2010/06/20(日) 03:52:34 ]
>>101
付随する物が基本となる物に続くのが論理的、とかフォントレンダリングが単純化される、
みたいな言い訳が2.11章に書いてあった気がする。

>>103
「JIS Punctuationに従う」って何?
「sjis」とUnicodeとのマッピングがどこに書いてあるのか、具体的に教えてくれ。

105 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 07:35:23 ]
>>104
>「sjis」とUnicodeとのマッピングがどこに書いてあるのか、具体的に教えてくれ。

規格化されていないのでどこにも書いてない。



106 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 08:28:19 ]
CP932
ttp://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT

JIS X 0208とShift-JIS
ttp://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/

107 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 12:41:09 ]
>>104
> 付随する物が基本となる物に続くのが論理的、とかフォントレンダリングが単純化される、
なるほど。
けど論理性はともかく、レンダリングが単純化されるって、どういう風にされるんだ?

> 「sjis」とUnicodeとのマッピング
よくわかんないけど、sjisがjisをシフトさせたもので、unicodeにjisとunicodeの対応があるんだったら、
sjisをjisに変換してjisをunicodeに変換したものがマッピングに当たるんじゃないの?
>>105の言う通り、規格化はされてないようだから、それで納得できない人もいるかもしれないけど。

> 「JIS Punctuationに従う」って何?
だって、JIS PunctuationのWAVE DASHに対応する文字がjisの中にないとおかしいじゃん。
だったら、sjisの中にWAVE DASHに対応する文字がないとおかしいじゃん。
unicodeの規格には「ないとおかしい」って書いてないだろうから、なくてもいいのかもしれないけど。

108 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 19:08:06 ]
>>106
obsoleteかよ。しかも半角円記号がA5にマッピングされてるじゃねーか。
そんな実装存在すんの?

>>107
>>89,91,92の言うsjisのマッピングって、存在するかどうか怪しい>>106のことなのか? 空想乙

109 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 19:29:48 ]
>>108
>>91-92は存在するか検証可能だろ。波ダッシュ問題見逃してるのはなんでか知らないけど。

{sjis, cp932}からunicodeじゃなくてutf8から{sjis, cp932}だけど。
iconv (GNU libc) 2.9
Copyright (C) 2008 Free Software Foundation, Inc.
使って波ダッシュを変換。マイナーな処理系だと言うなら、勝手に言うがよろし。

$ echo 〜 | iconv -f utf8 -t cp932 | od
0000000 060201 000012
0000003
$ echo 〜 | iconv -f utf8 -t sjis | od
iconv: 位置 0 で不正な入力シーケンスがありました
0000000


110 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 20:16:15 ]
>>109
波ダッシュ変換して何がうれしいのか。

今度は「sjisのUnicodeマッピングとはiconvコマンドの実装のこと」ですか。
よくもまあ言うことがコロコロ変わるもんだ。

ついでにそのiconvは半角¥をA5に変換するのかな?

最初から「cp932以外はマッピングが規格化されてないのでcp932とそれ以外のシフトJIS系実装でマッピングが異なる」って言えばいいんだよ。

111 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 20:21:04 ]
なんで「俺様のまとめ」を、他人に最初から要求するんだろうこういう馬鹿って

112 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 20:38:46 ]
まとめを要求したいのではなく89と91の表現が不適切だと言いたいのではないだろうか。
110(=90?)はCP932もシフトJISだと言いたいんだろう。

確かにsjisのUnicodeマッピングは定義が曖昧すぎる。

113 名前:デフォルトの名無しさん mailto:sage [2010/06/20(日) 21:57:57 ]
>>110
え?うれしくないの?超うれしいじゃん。

> よくもまあ言うことがコロコロ変わるもんだ。
もともと俺、sjisのunicodeマッピングが何かについては言及してなかったんだけど、誰と勘違いした?

> ついでにそのiconvは半角¥をA5に変換するのかな?
ならなかったけど、人の言ったことにまで責任は取らない。
手順もソフトも覚えてないが過去になったことはあるけど。

> cp932以外はマッピングが規格化されてないのでcp932とそれ以外のシフトJIS系実装でマッピングが異なる
明らかな間違い。規格化されていないことは、マッピングが異なる理由ではない。

114 名前:99 ◆SmULsZQKBg mailto:sage [2010/06/22(火) 00:43:33 ]
相手を誰かと買い違いして、喧嘩腰になってる方が見受けられるのでトリ付けた方が良いかも。

散々問題になってる>89は、>81を
 「X 0208」「NEC特殊」「NEC選定IBM拡張」「IBM拡張」 → CP932 (=Windows-31J)
と解釈した上で、Shift-JIS(=JIS X 0208)という別のキャラセットもあると述べてるだけかと。
(両者は別のキャラセットとして、IANAに別個に登録されてます。)
具体的に何が問題になるかも、>92で示されてます罠。

115 名前:99 ◆SmULsZQKBg mailto:sage [2010/06/22(火) 00:44:44 ]
訂正。>81じゃなくて>86ですね。同一人物ですが。



116 名前:99 ◆SmULsZQKBg mailto:sage [2010/06/22(火) 00:54:25 ]
今更ながら>77の言う「地雷」の意味が何となく分かった。
ttp://ja.wikipedia.org/wiki/EUC-JP

>84の変換方法だと、Windowsなら良いかもしれないけど
他で問題がありそうな予感が。(検証してないけど)

117 名前:デフォルトの名無しさん mailto:sage [2010/06/22(火) 08:42:27 ]
おかしい人は相手をせず放置するのがいちばんですよ。

でもここはおかしい人隔離スレかw

118 名前:デフォルトの名無しさん mailto:sage [2010/06/23(水) 08:36:14 ]
>>114
待て待て。Shift-JISはIANAに登録されていないし、IANAはUnicodeとのマッピングは定めていないぞ。
話と関係なくね?

119 名前:デフォルトの名無しさん mailto:sage [2010/06/23(水) 09:02:52 ]
規格化されてないなら、デファクトスタンダードな処理系を基準にするしかないじゃん。
そしたら結局のところ、sjisとcp932はマッピングが違う、という最初から出てた話に。

120 名前:デフォルトの名無しさん mailto:sage [2010/06/23(水) 18:25:46 ]
そうしたら>>90がまた「cp932もsjisだ」って言い出すだろ。
それともsjisのデファクトスタンダードって何かあるの?

121 名前:デフォルトの名無しさん mailto:sage [2010/06/23(水) 18:39:42 ]
PC9801のROMに入ってるか否かだ

122 名前:デフォルトの名無しさん mailto:sage [2010/06/23(水) 23:15:53 ]
PC9801のROMにIBM拡張漢字は入ってないぞ
初代には第二水準漢字すら入ってなかった

123 名前:デフォルトの名無しさん mailto:sage [2010/06/23(水) 23:40:12 ]
>118
ttp://ja.wikipedia.org/wiki/Shift_JIS
「Shift_JISの標準化」の項
IANAも「Shift_JIS」という名前で登録している。

でもよく読むとX0208じゃなくてX0213の方なのかな?

124 名前:デフォルトの名無しさん mailto:sage [2010/06/24(木) 00:03:25 ]
>>123
sjisそのものは標準規格があるけど、sjisをunicodeに変換する方法については規格がない、という話。

>>120
デファクトスタンダード選ぶなら、GNU iconv以上にメジャーな処理系ってなに?

125 名前:デフォルトの名無しさん mailto:sage [2010/06/27(日) 01:21:33 ]
>124
sjis-Unicodeのマッピングが公式に定義されて無いのは別に否定してませんが…
ただ「sjis」という文字とコードのマッピング(要はキャラセット)はIANAに登録されてるでそ。
それを無いとか言うもんだから>123を提示したまでですが。

あとメジャーかどうか知らないけど、IBMがICUっての公開してますよ。>処理系



126 名前:デフォルトの名無しさん mailto:sage [2010/06/27(日) 02:13:15 ]
>>125
ちゃんと読もうよ。
わかんないことには口を出さないこと。
勘違いしてたのなら素直に謝ること。
それだけだよ。

127 名前:デフォルトの名無しさん mailto:sage [2010/06/27(日) 09:44:14 ]
JIS X 0208:1997の附属書1は規格じゃないの? 「規定」って書いてるんだけど。
標準じゃなくてガラパゴスだとか?

128 名前:デフォルトの名無しさん mailto:sage [2010/06/27(日) 14:45:37 ]
>>125
sjisとShift-JISとShift_JISを一緒にしないでくれ。IANAに登録されているのはShift_JIS。

>>124
また話がループするようなことを。規格化されているのはShift_JISX0213。
断じてsjisではない。

129 名前:デフォルトの名無しさん mailto:sage [2010/06/27(日) 15:10:13 ]
>>123
X0201とX0208だよ。
www.iana.org/assignments/character-sets

>>124
デファクトスタンダードはやっぱりJavaでそ。

130 名前:デフォルトの名無しさん mailto:sage [2010/06/27(日) 20:00:00 ]
>>128
それに関しては、もはや揚げ足取りではないのかい?
cp932とShift_JISX0213は別物だが、sjis, Shift_JIS, Shift-JIS, shiftjis, ... を
Shift_JISX0213の通称として扱っていいんじゃないの。

それともShift_JISX0213と別物で、よく似た名前の別規格or独自仕様って何かある?

131 名前:128 mailto:sage [2010/06/27(日) 22:38:28 ]
>>130
揚げ足を取るつもりはないけど。
少なくともShift_JISはIANAに登録されていて別格。狭義のシフトJISを指す。
それに対しsjis,Shift-JISは定義の無い通称で、広義のシフトJISでは?
両者は明確に区別されるべきだと思う。
少なくとも>>99のSJISがShift_JISの略っていうのは嘘。

132 名前:デフォルトの名無しさん mailto:sage [2010/06/27(日) 23:03:12 ]
>128
そこまでの厳密さを求める割に、IANAに登録されてる/されてないという流れに対して、
「Shift_JISX0213」を持ち出すのはおかしいと思わないのかい。
それJISでは正式採用されてても、IANAじゃまだドラフトのはず。

133 名前:デフォルトの名無しさん mailto:sage [2010/06/28(月) 03:14:55 ]
>>131
Shift_JISって名前出しつつIANA Shift_JISと別のエンコーディングの話する場合はないといえるのかい?
俺と君との2人だけの議論だったら、単語の使い方を明確にしておくのは有効だろうが、
何人いるのかも分からないし、そのうち何人が全部のレス読んでるか分からない、単発ばかりかもしれない場所でそれをやってもろくなことにならないと思うよ。

できる限り、文脈で判断して、違いを分かってる人は必要に応じて明確に違いを明示した言葉遣いをするのが一番マシだと思うんだ。

134 名前:デフォルトの名無しさん mailto:sage [2010/06/28(月) 11:17:31 ]
unicodeと関係ない話は他でやってくれ。
わかったのはCP932以外のシフトジス系はunicodeとの対応が規格化されていないってことだ。

135 名前:デフォルトの名無しさん mailto:sage [2010/06/28(月) 11:21:55 ]
X0208←→Unicodeが存在して、X0208←→シフト符号化表現が存在するのに、
シフト符号化表現←→Unicodeが存在しないとはこれいかに?



136 名前:デフォルトの名無しさん mailto:sage [2010/06/28(月) 12:31:41 ]
なんでこう、脊髄反射するんだろうな。

137 名前:デフォルトの名無しさん mailto:sage [2010/06/28(月) 13:53:54 ]
やけどしないように、かな

138 名前:デフォルトの名無しさん mailto:sage [2010/06/28(月) 21:00:17 ]
脊髄反射した結果、炎上してるのになぁ。
反省とかしないのかね。

139 名前:デフォルトの名無しさん [2010/06/28(月) 21:44:51 ]
>>135
X 0208←→Unicodeは何処に書かれてるの?おせーてくださいまし。
あとX 0201の存在もお忘れ無く・・・

140 名前:デフォルトの名無しさん mailto:sage [2010/06/28(月) 21:44:58 ]
>134は「規格」を「IANAのobsoleteではない規格」に限定しないと、真にならんかと。

141 名前:デフォルトの名無しさん mailto:sage [2010/06/28(月) 23:17:23 ]
>>140
IANAじゃなくてUnicodeコンソーシアムのまちがいだよね?
あとobsoleteじゃないってのはデフォかと。

142 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 02:29:00 ]
なんだ、そしたらもう、cp932は規格通りにUnicodeと変換可能だけど、
Shift_JISもiso-2022-jpもUnicodeと変換する規格なんてないからUnicode化は諦めたらいいんじゃないの。

143 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:00:59 ]
まあそうだな。だから>>110みたいな意見が出て来るし、実際に実装が乱立している。
>>113はどのあたりが間違いだと言ってるのか気になるけど。

144 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:03:36 ]
>>143
「規格化されていないことは、マッピングが異なる理由ではない」 って書いてあるじゃん。

145 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:05:04 ]
>>143
ついでに、ここで「だから」という文脈で>>110を出してくるのはおかしい。



146 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:13:54 ]
お前ら規格にこだわりすぎ。規格がなければ変換できないかのように言うのはミスリーディング。
>>142とそれに賛同してる奴は、本気で書いてるとすればキチガイに近いレベルのバカだ。

例えば上でiconvが出てたが、あれは規格がなくてもできてる。
いくつかの記号では実装によって食い違いが出るかもしれないが、それが一体何だって言うんだ?
cp932

147 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:14:59 ]
すまん。途中でかいてしまった。

cp932じゃなくShift_JISで書かれた文章なんて、そんなに数ないだろうに。

148 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:57:16 ]
>>144
じゃあOracleのSJISとJavaのSJISでマッピングが異なるのは何故なの? きちんと規格化されてないからじゃないの。 

>>146
いや規格化されていないと困るだろ。マッピングが異なるなんて致命的。

149 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 09:59:33 ]
だからその致命的なことがすでに世の中に蔓延していますよ、というのが現実なのだがw

150 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 21:18:07 ]
>148
>じゃあOracleのSJISとJavaのSJISでマッピングが異なるのは何故なの? きちんと規格化されてないからじゃないの。 
各々の環境で「SJIS」が指してる規格が違うだけかと。
OracleはX0208(cp932にも変更可)で、Javaはcp932らしい。
ttp://otndnld.oracle.co.jp/skillup/oracle9i/1_1/index.html
ttp://www.ingrid.org/java/i18n/encoding/shift_jis.html
まぁ最初からきちんと規格化されてりゃ、こんな事にはならなかったんだろうけど。

151 名前:デフォルトの名無しさん mailto:sage [2010/06/29(火) 21:28:46 ]
>OracleはX0208(cp932にも変更可)
すんませんこれエンコーディングとしてcp932も選べるってだけですね。
SJISの実体をcp932に定義できる、とも読めてしまう気がしたので念のため訂正。

152 名前:デフォルトの名無しさん mailto:sage [2010/06/30(水) 00:11:26 ]
>>148
例えば、OracleのSJISが規格化されたとしたら、cp932とOracle SJISのマッピングは同じになると思うかい?
>>110が書いたのはそういうこと。

>>148
君は、PC(サーバとかじゃなくてPCだぞ)を使う上で1byteの大きさが決まっていなくて困ったことはあるかい?
例えば、この文章をUnicodeに変換するとして、何が致命的になりうる?

153 名前:デフォルトの名無しさん [2010/06/30(水) 02:41:09 ]
>>150
違うぞ。
OracleのSJISはCP932から「〜」の一文字だけ異なる独自マッピング。
JavaのSJISはCP932とはほど遠い、iconvのsjisに近いマッピング。
規格化なんて何処にもされていない。

>>148
もし規格化されてたら同じになったんじゃない?
たった1文字だけ違うなんてなかっただろう。

154 名前:デフォルトの名無しさん mailto:sage [2010/06/30(水) 09:49:58 ]
>>153
今のをそのまま規格化したとしたら?

155 名前:デフォルトの名無しさん mailto:sage [2010/07/02(金) 12:03:20 ]
UTF16の1文字で表した年号って今後の年号のために
4つくらい予備をとってあるんだね。
とはいえ、これ残してると後々困ることが起きそうだねー。
結構使われてたりするんだろうか。



156 名前:デフォルトの名無しさん mailto:sage [2010/07/02(金) 12:06:34 ]
予備はもう全部使いきったんじゃなかったっけ。



157 名前:デフォルトの名無しさん mailto:sage [2010/07/02(金) 13:56:04 ]
UTF16の、って意味わかんないんだが。
エンコーディングを指定する意味は?

158 名前:デフォルトの名無しさん mailto:sage [2010/07/02(金) 18:25:49 ]

こーゆー文字を書くためのコードはどこに載ってるの?

159 名前:デフォルトの名無しさん mailto:sage [2010/07/02(金) 18:59:06 ]
ttp://www.unicode.org/

160 名前:むぎゅう [2010/07/02(金) 19:11:12 ]
>>157
細けーこたー(略

>>158
www.unicode.org/Public/5.2.0/charts/CodeCharts-noHan.pdf
10進16進の変換は自分でやれ。

161 名前:デフォルトの名無しさん mailto:sage [2010/07/02(金) 21:04:21 ]
pdf・・・

162 名前:デフォルトの名無しさん mailto:sage [2010/07/02(金) 21:27:00 ]
utf・・・

163 名前:デフォルトの名無しさん mailto:sage [2010/07/05(月) 04:13:53 ]
なんで2chはシフトジスなのに改行はラインフィードのみなの?

164 名前:デフォルトの名無しさん mailto:sage [2010/07/05(月) 08:01:55 ]
こっちはUnicodeスレかと思ったらそうでもないのね。

165 名前:デフォルトの名無しさん mailto:sage [2010/07/05(月) 10:06:08 ]
>>163
sjis使ってることと改行コードは関係ないよ。2chのサーバがUnixだからだろうけど。



166 名前:デフォルトの名無しさん mailto:sage [2010/07/05(月) 14:59:38 ]
改行コード1バイトにするだけで10%近く圧縮されるからな

167 名前:デフォルトの名無しさん mailto:sage [2010/07/05(月) 16:15:17 ]
それで、SJISとUTF-8の圧縮率の話に戻って・・・






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧](*・∀・)<50KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef