UnicodeとUTF-8の違いは？

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 07/03 06:05 / Filesize : 124 KB / Number-of Response : 631
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

UnicodeとUTF-8の違いは？

1 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:02:37 ]: ビッグインディアンとかなんとかかんとか
266 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 05:12:00 ]: 16ビットで世界の文字を網羅出来るなんてマジで思っていたのかね
267 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 12:30:06 ]: １０年も昔の環境じゃできるだけリソース消費を抑えたいってのはわかるし
３オクテットじゃ扱いにくいし４じゃ多すぎるしで話がまとまらなかったんだろうな。
268 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 21:05:02 ]: 単純に中国で既にコード化されてる分で漢字の量はOKとか考えてたんじゃないか
269 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 21:49:38 ]: そもそもそのやり方じゃ足りねえと文句付けたのは中国
270 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 23:28:49 ]: 増やす気まんまんだったわけだな
271 名前：デフォルトの名無しさん [2008/02/12(火) 06:48:24 ]: UCS-2とUTF-16の違いがわからない
272 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 08:14:34 ]: サロゲートペアでの拡張があるのがUTF-16、それがなくて16ビットだけなのがUCS-2
273 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 10:54:25 ]: WindowsXPのメモ帳で保存しようとすると
アンジーがデフォルトになってるんだけどシフトジスってのがみあたらないんだが。でも日本語ドキュメントがうまく保存される。
つまり、
アンジー = シフトジス
だと思う。
274 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 17:08:33 ]: メモ帳の選択肢のANSIというのは、
現在使用中の言語のANSIコードページの文字コードということ。
日本語の場合、それはコードページ932、つまりMicrosoftのShift_JIS。

言語の設定を変えれば、当然ANSIで保存するときの文字コードも変化する。
275 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 17:30:56 ]: >>274 そういう意味だったのか !
276 名前：271 [2008/02/12(火) 23:05:35 ]: >>272
では、Windowsの内部コードというか、hogehogeW系のUNICODE APIは、
UCS-2かUTF-16なのでしょうか？
277 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 23:10:22 ]: Windows 2000以降はUTF-16
それ以前はUCS-2(つまりサロゲートに対応していなかった)
278 名前：271 [2008/02/12(火) 23:49:03 ]: サロゲートがいまいちわからん
2バイトで足りないから、上位、下位にわけたってことは、
UCS-2が2バイトとで、サロゲートのあるUTF-16は上下合わせて4バイトってこと？
279 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 23:58:17 ]: そうだよ
280 名前：デフォルトの名無しさん mailto:sage [2008/02/13(水) 00:04:43 ]: >>278
単に未使用領域の2文字分を組み合わせて使ってUCS-2に無い分の文字を表わそうというだけの話だから
・UCS-2 → そもそもその文字が無い
・UTF-16→ その部分だけ4バイト。UCS-2にもある文字は2バイト
という事になる
281 名前：271 [2008/02/13(水) 04:00:14 ]: >>280
なるほど足りないところだけ4バイトか
つまり、可変長なのね。
2バイト固定かと思ってたよ＞UTF-16
へえ
282 名前：デフォルトの名無しさん mailto:sage [2008/02/13(水) 10:43:50 ]: へえへえへえ
283 名前：デフォルトの名無しさん mailto:sage [2008/02/13(水) 23:46:44 ]: >>281
そう。だからUTF-16の２バイトの部分がUCS-2と同じっていうメリットがあるんよ。
４バイト部分はあんまり使わない部分だからサロゲートペアっつう２つ合わせる方式で表わしてる。
284 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 03:42:37 ]: UCS-2=文字コード、UTF-16＝文字エンコーディング
じゃなかったっけ？

UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。
285 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 08:16:40 ]: UCSは文字集合。
UTFはエンコーディング。

文字コードというあいまいな語はこういう議論では避けるべき。
286 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 08:20:31 ]: >UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。

Unicodeではエンコーディングをencoding formとencoding schemeの二段階に
分けていてそのへんややこしいことになってる。
287 名前：デフォルトの名無しさん [2008/02/14(木) 10:39:55 ]: 　国試では、｢UNICODEとは、全ての文字体系が収まる"2byte"の文字コード｣というのが正解答だったりする件。
いつからバイト長が固定されたんだよタコ。
288 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 10:48:36 ]: 3.0未満のUnicodeかよorz
289 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 11:09:02 ]: 2byteだったら1.xじゃない？
290 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 12:55:03 ]: それぞれの構造が単純じゃないから説明するのが面倒だな。
291 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 14:52:35 ]: >>284
ユニコードに関係した規格として、次の2つがある。
ユニコードコンソーシアムの「Unicode」。
ISO/IECの「ISO/IEC 10646 Universal Multiple-Octet Coded Character Set」。

前者の規格に含まれる符号化（エンコーディング）がUTF-8、UTF-16、UTF-32など。
後者の規格に含まれる符号化がUCS-2とUCS-4、UTF-8など。

UTF-8が両方に収録されているけど、同一と思って差し支えない。
292 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 15:26:33 ]: >>284

UCSは文字集合。

そしてその文字集合から2バイトで表せる部分を切り取ってきて
そのまんま使うのがUCS-2

それを拡張して使用できる文字範囲を広げたのがUTF-16

UTF-8は別のアプローチの符号化方法
293 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 21:00:42 ]: >>289
それ以前に1バイト=8ビットとは限らない
294 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 21:04:49 ]: どういう場合に１バイト８ビットじゃなくなるの？
295 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 21:13:58 ]: マシンがPDP-11だったりした場合
296 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 21:26:35 ]: JIS X 0208/0213の規格名ではわざわざ「7ビット及び8ビットの…」と言ってるだろ。
1バイトが8ビットとは限らないからだ。
それに対してUCSは>>291にあるとおり"Universal Multiple-Octet..."で
8ビットであることを明確化している
297 名前：デフォルトの名無しさん mailto:sage [2008/02/15(金) 00:08:33 ]: 1バイト≠8ビットな処理系でUTFを扱うようなケースはほぼないんじゃない？
298 名前：デフォルトの名無しさん mailto:sage [2008/02/15(金) 07:07:52 ]: UTF-7もdeprecatedになったしな
299 名前：デフォルトの名無しさん mailto:sage [2008/02/15(金) 10:17:45 ]: UTF-9の時代だろ
300 名前：デフォルトの名無しさん mailto:sage [2008/02/15(金) 10:50:34 ]: ｴｲﾌﾟﾘﾙﾌｰﾙにはまだ早いぜ
301 名前：デフォルトの名無しさん mailto:sage [2008/02/16(土) 01:39:08 ]: >>295
PDP-11 は 16bit マシンだぞ．DEC-10/20（36bit マシン）のことか？
302 名前：295 mailto:sage [2008/02/16(土) 08:58:39 ]: すまん

>>301 それです
303 名前：デフォルトの名無しさん mailto:sage [2008/02/16(土) 11:03:02 ]: Latin-1の設定になってしまってるMySQLにUTF-8ぶっこんでもちゃんと動くんだけど
無理にset character set utf8してアクセスするとかえって文字化けしてしまう
そのままつかってたほうがいい？
304 名前：デフォルトの名無しさん mailto:sage [2008/02/16(土) 11:30:47 ]: MySQLのバージョンは?
4バイト以上のBMP外を表すシーケンスに対応したのは6.0以降だから
それより古いバージョンではLatin-1ということにして
変換は自分で行うとかの小細工が必要
305 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 01:56:53 ]: きっと、PDP-8の12bitなんですよ（を
306 名前：デフォルトの名無しさん [2008/02/17(日) 09:46:31 ]: Unisys機(旧UNIVAC系の古い汎用機)では、
1文字=6/8/9/12ビットと、4通りあったりする。
（1ワード=36ビットのマシンの生き残り）
307 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 13:41:02 ]: ユニコードのインディアンて？
308 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 14:54:58 ]: >>307
インド人です。アメリカ原住民のことは、ネイティブアメリカンと呼んでください。
309 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 15:19:14 ]: 原住民的にはむしろインディアンの方がいいらしいけど
310 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 15:59:19 ]: エンディアンの語源を考えるとインディアンと表記しても間違いじゃないなぁ。
311 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 02:18:31 ]: 9bitはPDP-10だろ。過去にかなり真面目に議論されたし、ちゃんとRFCも出てるぞ。
www.rfc-editor.org/rfc/rfc4042.txt
>306の言うとおり、昔は１バイト6bitだってあった。ISO646だって、7bit の他に6bit版の文字コードも
規定されてたし。近年の改正で6bit文字コード規定は残念ながら消滅してしまったけどね。
312 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 08:36:24 ]: みかんはリトルエンディアンの方が白い筋がよく取れるそうだ。

でも皮が硬いときはビッグエンディアンかなー。
313 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 12:17:51 ]: シフトジスとMSPゴシックは違うものだろうか？
314 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 12:29:34 ]: >>287
Unicodeは規格/標準の名前なのになあ。
検索とか比較とか符号化とか、文字に関する処理について書いてある。
www.unicode.org/glossary/#unicode
www.unicode.org/faq/basic_q.html#a
315 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 12:30:44 ]: >>291
付録CにUCS-2, UCS-4について、
ISO 10646との関係が書いてありますね。
316 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 22:15:13 ]: >>313
全然別物。
Shift_JIS = エンコーディング
MSPゴシック = フォント名
317 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 05:59:06 ]: 文字コードをMS明朝で保存するのはどうやる？
318 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 06:12:40 ]: >>317
仕事の都合上、いやいやPC使ってんなら会社で聞け。
そうじゃないなら、もっと基礎から学び直せ。
319 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 09:06:33 ]: >>317
おまえはどこのPython使いだ？
320 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 15:21:52 ]: あなたはお風呂に入るとき
みかんから食べますか？
それとも山に登りますか？
321 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 16:31:47 ]: VB.NET2005だとまだエンコードクラスにMSPゴシックがないけど
できるだけ早く対応して欲しい。
322 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 20:25:57 ]: つまらないから帰れ
ネタじゃないならなおさらさっさと帰れ
323 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 21:59:36 ]: IDEのフォントをＭＳＰゴシックにすれば解決？
324 名前：デフォルトの名無しさん mailto:sage [2008/02/25(月) 10:55:59 ]: なんで半角文字の範囲まとまってないんだよファッキン！！
325 名前：デフォルトの名無しさん mailto:sage [2008/02/25(月) 11:04:20 ]: すみません、取り乱しました。
326 名前：デフォルトの名無しさん [2008/03/07(金) 11:56:50 ]: unicodeに含まれる文字には番号はついてるんでしょ。
どうしてそれは使えないの？
327 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 11:59:19 ]: >>326
どこからの話の流れか分からないが、
それ（コードポイント）をそのまま使う符号化には
UTF-32, UCS-4, UCS-2がある。
328 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 12:55:57 ]: ありがとさんです。
329 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 15:58:57 ]: UTF-32, UCS-4, UCS-2はどう違うの？
330 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 16:08:50 ]: UTF-32/UCS-4
1文字32ビット。
現在では2つとも同じ中身。
どの規格に含まれているかというだけの違い。>>291に書いてある。

UCS-2
1文字16ビット。U+10000以上のコードポイントを持つ文字は表現できない。
331 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 16:13:56 ]: UTF-32 は U+110000 以上は無いんじゃ？
332 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 16:16:36 ]: もうめんどくさいから今までの全部廃止してUTF-256とかに統一して欲しい
333 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 16:55:24 ]: まったくだな
334 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 18:30:27 ]: バイトオーダーも固定して64byteぐらいにしておけばいい。
335 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 18:50:01 ]: そうだね余裕がある事はすばらしい事だね。
336 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 19:03:36 ]: アルファベット件の馬鹿共のせいで混迷しているのだ
337 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 19:08:01 ]: そういやIPAとUnicodeの対応表みたいなのってないの？
338 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 20:25:10 ]: webos-goodies.jp/archives/51072404.html
339 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 20:34:37 ]: Microsoft Visual UTF-2008 Professional Edition
340 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 21:22:58 ]: >>331
UCS-4もU+110000以上は使わないことになった。
>>330に「現在では」と書かれているのはそのへんの含みがあると思われる
341 名前：デフォルトの名無しさん mailto:sage [2008/03/11(火) 09:39:54 ]: Unicode識別子についての日本語資料ってない？
342 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 15:18:27 ]: UTF-8にBOMついてるとまともに動かないソフトが多すぎて嫌すぎる
もっと細分化して、細かく細部まで決めてくれないとどーしよーもないな、実際
343 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 15:41:24 ]: アンジーってサイモンとガーファンクルだったような
344 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 19:21:59 ]: UTF-8ってBOMつけるんだっけ？
345 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 19:32:18 ]: RFC 3629 の 6. を見よ
346 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 19:37:18 ]: なる、つけるべきではないのか。
347 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 19:43:49 ]: いや、ついていても受け入れるべき
MySQLみたいにそもそもUTF-8を理解してない馬鹿げたソフト多すぎ
348 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 20:25:36 ]: >>346 一般には違う。
付けるべきじゃないのは、UTF-8であることが上位層で規定されている場合。
349 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 20:28:49 ]: BOMはエンコードを判別するためのものじゃないべさ。
Byte Order Markなんだから。
350 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 20:52:02 ]: つまりメモ帳のあの動作は正しいわけか
351 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 21:18:54 ]: >>349

まぁ元々はそうだったんだけど UTF-8に於いてはUTF-8であることを
あらわすシグネチャという位置付けにされた。

まぁ1バイト文字で済む国はシグネチャなくても全然問題ないんだろうけど
マルチバイト文字使ってる国ではシグネチャない場合は、エンコード誤認の
可能性があるからな。　UTF-8決めうちのソフトならいいんだけど
352 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 21:20:13 ]: 勝手に追加するのはどうかと思うが、テキストファイルの頭にBOMついてるからって
誤動作する方が確実におかしい、無視すべき
353 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 21:24:25 ]: #!/usr/bin/env hogehoge

とかをBOM付きで保存すると死ぬって本当？
354 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 22:37:41 ]: ASCIIにしか対応していないものから見たらBOMはゴミ以外の何者でもないから
355 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 22:41:24 ]: UTF-8対応してるといいながら駄目なソフトが多いって話だろ？
356 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 23:30:28 ]: ASCIIだったらそもそもBOMは無いだろ
そしてASCII範囲外に対応してるならBOMあっても問題ないし
357 名前：デフォルトの名無しさん mailto:sage [2008/03/13(木) 02:15:31 ]: 俺はドラゴンボールが揃ったらBOMを廃止する。
それからDIS 10646.1、いやごめんなんでもない
358 名前：デフォルトの名無しさん [2008/03/13(木) 03:32:52 ]: ＢＯＭよりスーパー写真塾の方がエロイよな。
359 名前：デフォルトの名無しさん mailto:sage [2008/03/13(木) 05:19:48 ]: むかしのエロ本のオンナはそのままのかおだが
いまのエロ本は整形オンナばっかり
360 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 20:31:17 ]: UTF-8にBOMなんか辞めようと
そもそも、BOM=Byte Order Mark で、UTF-16、UCS-2、UTF-32、UCS-4なんかで使うものだし
そいつ(BOM)をそのままUTF-8変換した値がBOMもどきだし

Visual Studio 2005なんかはUTF-8でソース管理出来るみたいだな
今のPRJはLinuxでUTF-16使ってるから文字列は全てリソース扱い、っつかASCIIだろうとそうすべきではあるけど
ソースコードにUTF-16をhexでどかどか書いても見づらいだけだ
だけど、データ管理はUTF-16のがいい。サロゲートペアなんて使うことはまず無いし、１文字=2バイトと見なして差し支えなければ楽でいい
UTF-8は最近ISO 10646だっけ、RFCだっけ、あれUnicode.orgだっけ？規格変更で1～4バイトの可変長になって、それとともにUTF-32の領域も狭くなったみたいだが

XMLなんかはエンコーディング付いてるから問題ないし、ソースもSJISやEUCさえなんとかなれば別に問題らしいものはない気がする＞UTF-8
UTF-8自体ASCIIコンパチだしね
361 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 20:59:22 ]: UTF-32は最初からU+10FFFFまでだよ
362 名前：デフォルトの名無しさん [2008/03/20(木) 21:01:17 ]: お前ら説明下手すぎだろ。
もっと俺にわかるように産業で説明しなさい。
363 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 21:10:47 ]: >ソースもSJISやEUCさえなんとかなれば

これがなんとかならないから　UTF-8にBOMが存在しているんだろうけどね。
364 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:18:25 ]: >>360
>エンコーディング付いてるから問題ないし
そういう場合はBOMを付けるなとちゃんと書いてある
ttp://tools.ietf.org/html/rfc3629#section-6

BOMを付けるのはあくまでもそれがUTF-8と確定できない場合だけだから問題ないだろ
それともエンコード不明のテキストファイルを力技でエンコード推測するのが正しいとでも？
あるいはテキストファイル＝UTF-8として統一するつもり？
Latin-1とかはそうそう無くならないと思うぞ
365 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:24:46 ]: エンコード不明のテキストファイルを力技でエンコード推測するのが正しい
366 名前：デフォルトの名無しさん mailto:sage [2008/03/21(金) 09:46:07 ]: BOMダセエと思うが、
BOMも処理できないUnicode処理系は氏ねよ。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef