1 名前:デフォルトの名無しさん [2007/05/27(日) 16:19:36 ] プログラムにおける各種文字コードの処理について語りましょう♪ ■前スレ 文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/ ■参考サイト Unicode Home Page www.unicode.org/ Java Character Encodings www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
384 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:53:04 ] > それに「レガシー」とはいうものの、メールでもウェブページでもまだバリバリに > 使われてるわけだし。 まだ使われているものをサポートすることは別に反対してない。 現在誰も使ってないどころかかつて使われたことすらないものを 「よかれと思って」付け足そうとする奴は氏ねと言ってる。 ISO-2022-JP-MSとか(頓挫したけど) NEC選定IBM拡張漢字とIBM拡張漢字にVS付けて区別するとか 正気とは思えない
385 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:53:56 ] JIS X 0213のせいで日本の悲惨さ倍増w
386 名前:352 mailto:sage [2008/03/17(月) 04:46:50 ] 皆さんどうも。 Win上だと例えばcharset=EUC-JPだけど実はCP51932なHTMLとかは あんまり問題にならないのかもしれませんが、非Winだとそうでもなくて、 ちょっと情報を必要としていました。 ウェブブラウザとかメールソフトとかデータベースとか、日本人が開発の 中心にいないものも少なくないんじゃないですかね。そうすると日本語の エンコーディングに関するバグの説明とか、面倒ですね。
387 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 05:01:27 ] 糞会社が勝手に文字集合を独自拡張するのがまずいのであって、 受け手が四苦八苦しているのが悪いわけではない。
388 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 08:01:19 ] どうでもいいけどWin3より前の時代にアメリカの技術者と話をするときに、 通訳が「漢字」を"chinese characters"と訳すのには閉口させられたなぁ。 現物見せてやっと話が噛み合ったよ。
389 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:18:12 ] ややこしいが漢字を Chinese characters としている和英辞書があるんだよな。 大昔、千年以上前の日本人にとっては、漢字≒中国語文字かもしれないが 現代の日本人が漢字といえば国字 Japanese characters で漢字体のものを 指すのが普通だな。 通訳は空気を読むべきだと思うが、通訳が頼りない場合は 漢字だと誤訳・誤解されるおそれがあるので日本文字 Japanese characters と 言ったほうがいいかも。
390 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:31:27 ] 普通「漢字」は「ひらがな」「カタカナ」を含まないけど、 文字コードの世界では、含めて「漢字」ということがあるからややこしい。 本来の狭い意味での「漢字」なら、 Japanese Charactersの中のChinese Charactersってことで問題ないはずだけど。
391 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:37:28 ] 最近はKanjiで通じるようになってきたから嬉しい。
392 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:38:11 ] もうKanjiでおk
393 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:44:23 ] CJK Unified Ideographs のことだろ、Kanji って ってな、合ってるんだけど間違ってる理解が今後増えそうで嫌だ
394 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:48:45 ] >>391 >>392 それってひらがな、かたかなは含む?
395 名前:388 mailto:sage [2008/03/17(月) 12:55:49 ] あー、そんときは通訳が(理由は忘れたが)席を外したんで、 隙を狙って"Kanji is Japanese special character, not only Chinese."みたいなことを言った希ガス。 当然向こうは"???"となったから、「現物を見せましょう」という流れに持ってった。 # んで、「Windowsじゃそんな文字出せない」みたいなこと言われたんだよなw
396 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 13:15:36 ] >>394 391でも392でも無いけど、俺の知っている範囲では「含まない」。 たとえば、日本語学習者とか、日本の漫画やアニメのファンが "HiraganaやKatakanaは何とかなるけど、Kanjiはホントに難しいyo" とか、そういう風に口にする。
397 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 13:52:28 ] >>394 文字コードのことをちゃんと勉強してる技術者には、 KanjiっていえばHan charactersのうち日本語で使われてる文字だって伝わる。 Unicode万歳って感じだわ。
398 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 15:17:07 ] JISの「漢字集合」にはひらがなカタカナも含んだな
399 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 19:06:02 ] JIS X 0208の「漢字集合」だとラテン文字やキリル文字まで含むけど、 「漢字」だと漢字だけだよな。
400 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 23:49:15 ] JIS X 0208の「非漢字」のうち1文字はUnicodeでは漢字扱いだったな Unicode 1.0では非漢字領域にもあったけどUnicode 1.1でunifyされたらしい と安岡センセイか誰かの日記で読んだ
401 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 00:22:44 ] 更級日記?
402 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 07:53:24 ] "仝" だっけ。一部の人にはハートマーク差し替え記号として知られるw "〆" は文字だっけ? JIS では記号だけど。
403 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 08:03:36 ] >>402 〆は0208由来の非漢字と補助漢字由来の漢字が両方入ってる EUC-JPとラウンドトリップコンバージョンを確保する必要があるから
404 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 12:50:52 ] unicodeで アファベットかどうかやひらがなかどうかやカタカナかどうかとか 文字種別みたいなものをロジック的に判別する方法ありますか? それともSJISとかみたいに力任せですか? あと濁点の「が」と「が」みたいなのを正規化する方法って決まってませんか?
405 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 13:11:04 ] >>404 >文字種 そういうAPIがあるプログラム言語とかライブラリ使え どれがどの文字種かは >>unicode.org >正規化 決まってる >>uniocde.org
406 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 15:00:42 ] >>405 >正規化 結合文字の正規化目的でNFCを使うとCJK互換漢字でハマるから注意
407 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 20:19:07 ] 「神」が化けるとかだっけ
408 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 22:28:39 ] internet.watch.impress.co.jp/www/column/ogata/sp25.htm
409 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 00:28:49 ] Unicodeの正規化といえば、MediaWikiが外部から入力された文字列を全部正規化しやがって、 互換漢字を入力できずに困ったことがあったわ。
410 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 07:34:46 ] >>407 ファイル名が Unicode ベースなファイルシステムだと何らかの正規化がなされていると 思うけど、同じ場所に「b」という名前のファイルと「神」とのいう名前のファイルを作ろうと したら、どうなるべきなのかな?
411 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 07:43:42 ] >>410 手元のWindowsXP/NTFSだと U+00C4 と A+U0308 を別々に作れた、なので正規化はしてないっぽい。 MacOSXだと作れないだろうね。
412 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 10:01:39 ] >>410 > > 何らかの正規化がなされていると思うけど Mac OS Xくらいしか知らないよ。 Windows, UNIX系ではないんじゃない?
413 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 10:08:51 ] >>411 MacOSXでも作れる。 OSXのVFSはNFDに準じたファイル名の正規化を行うが、互換漢字は対象外
414 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 14:30:19 ] >>413 VFSじゃないだろ? CarbonとHFS+でやってんじゃない? すくなくとも10.3の調査ではそうだった。 だからターミナルからUFSやNFS上にファイルを作成すれば、 ファイル名はNFDされてなかった。
415 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 17:17:53 ] >>412 ほんとに? 正規化されてないUnicodeでファイル名を扱うっていうのは 混乱を招くような気がするのだが...
416 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 18:49:29 ] データそのものを正規化してしまうような仕組みは嬉しくないなあ。 正規化はソートや検索の時に動的にしてくれたほうが嬉しい。
417 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 19:02:26 ] >>416 ヘテロな環境で正規化の方法が違った場合、 USBサムドライブで困るよね。
418 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 20:53:24 ] >>414 Technical Q&A QA1173 Text Encoding in VFS developer.apple.com/jp/qa/qa2001/qa1173.html developer.apple.com/qa/qa2001/qa1173.html
419 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 21:16:22 ] >>418 この文章だと10.2の頃からそうなっているみたいだけどそれは嘘。 Darwinのソースコード&テストで調べた。
420 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 23:00:27 ] >>415 むしろ下手な正規化(大文字と小文字の同一視とか)をされるより 個々のアプリでの扱いに任せてもらった方が混乱は少ないよ
421 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 23:19:28 ] 小文字と大文字の同一視は、 Mac, Winでそうだから避けられないのかねえ。 カタカナとひらがなはどうなんだとかきりがないねえ。
422 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 00:29:04 ] >>420 そうじゃなくて、NFCとかNFDとか、上に出てたでしょ。
423 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 00:54:10 ] >>419 まあ「VFS API」というのが実際に何を意味するかですかね。もしかして UNIX の ファイルアクセス用の API (システムコール)程度の意味なのかも。 かつ HFS+ のことだけを念頭においているのかも。NFS とかは「例外」扱いだし。 実際 UFS や NFS は正規化はしないですね > Mac OS X
424 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 01:41:14 ] >>409 MediaWikiでは正規化されたくない文字は文字参照にするしかないね それでも項目名には使えない
425 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 01:43:01 ] >>421 つ[Collation] ただし事前処理として正規化が前提になってるのでもし互換漢字のソート順を 統合漢字と変えたかったりしたら使えない
426 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 07:50:55 ] >>423 HFS+オンリーで「VFSが」というもの…w
427 名前:デフォルトの名無しさん [2008/03/20(木) 23:07:19 ] OS:WindowsXPproSP2 アプリ:DreamWeaverMX DreamWeaverMXでhtmlファイルを新規作成したとき、<META>タグは以下の記述でした。 <meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS"> ここではcharsetで文字コードShift_JISを指定していますが、ページをIE6.0以降で見られることを想定した場合に 文字化けをできるだけ減らすためには、charsetの値はどのようにすればいいのでしょうか?
428 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:26:38 ] そのままでいいよ
429 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:50:02 ] 板違いだからweb制作でも行け
430 名前:デフォルトの名無しさん mailto:sage [2008/03/21(金) 12:26:11 ] >>428-429 了解。ありがとう
431 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 16:34:58 ] EUC-JP と宣言しながら CP51932 なウェブページがかなりあるのに CP51932 相当の IANA 名を定義するような動きはなかったんですかね。 Shift_JIS と Windows-31J の区別はあるんだし。
432 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 00:50:39 ] CP51932だってどうしてわかるの
433 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 08:29:22 ] >>431 どれぐらい多いの? 日本語で書かれているウェブページのうち、何%がEUC-JPと宣言されてい て、そのうち何%が実際はCP51932なの?
434 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 09:39:56 ] windows-31jって、今からでもwindows-932にならんかね。aliasでもいいんだけど。 他のwindows-コードページの番号ってなってるコードページと一貫性がない。
435 名前:デフォルトの名無しさん [2008/03/24(月) 11:06:44 ] 0x81〜0x9Fの文字がある=Shift-JIS 0xFD〜0xEFの文字がある=EUC って解釈でいい?
436 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 14:55:39 ] まさか
437 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 19:59:20 ] そんな楽で良いなら
438 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 20:04:29 ] 世の中に一体いくつの文字コードがあることか
439 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 20:06:57 ] UNICODEの存在意義がなくなる
440 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:08:24 ] >>434 Microsoftがietf-charsetsに提案してたようだが例によって途中からgdgd mail.apps.ietf.org/ietf/charsets/msg01618.html こんなだからみんな面倒な登録手続きなんか無視して 好き勝手にcharset使い出してカオスになるんだろうな。 そういやISO-2022-JP-2004の登録手続きはどうなりましたか安岡センセイ www.jstage.jst.go.jp/article/johokanri/50/2/67/_pdf/-char/ja/ こんなもの書いてる暇があったらShift_JIS-2004登録してください 規格通りに使いたくても使えないじゃないですか
441 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:09:56 ] もう全部x-つけといたらいいよ。
442 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:16:39 ] つーかさー mail.apps.ietf.org/ietf/charsets/msg01783.html なんでMartin Duerstセンセイともあろうお方が今さらこんなこと言ってるの? RFC 1192ご覧になったことあります? つーか > We also wish to thank the following people who contributed in many > ways towards this document. > Zhang Zhoucai Martin J. Duerst 見てないはずがないんだけど。 何でcharset-extensionとcharset-editionはみんなに無視されたのに 今度はうまくいくとか無邪気に思い込めるわけ?
443 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:17:15 ] RFC 1922の間違いorz
444 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:23:06 ] >>440 いやそのドキュメントは有意義だと思うよ。 ちゃんとまとめて、読めるようにしとかないと、 独自コード乱発は加速するばかりだから。
445 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 01:19:23 ] >>431 CP51932 相当の IANA 名をWindows-31Jって言うんじゃね? テキストエンコーディングが何だろうと、文字集合は同じでしょ。
446 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:35:01 ] >>445 IANA charsetの「charset」は文字集合+符号化方式のセット
447 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:38:59 ] >>440 Martinセンセイにドキュメントがないだとか色々突っ込まれて力尽きてたはず。 使いたいなら後をついで進めるといいのかもしれないけど、 必要なドキュメントをJISが握ってる以上難しい気もしないでもない。
448 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:56:26 ] 流れぶった切ってすまん。 日立のEBCDIKコード表探してるんだけど、 www.wdic.org/w/WDIC/EBCDIK とか www.pleasuresky.co.jp/ebcdic.php3 とかじゃなくて 日立が提示してるオリジナルがいいんだけど、どっかにないですかね?
449 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 12:01:21 ] www.pleasuresky.co.jp/images/ebcdic.gif
450 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 12:04:00 ] >>449 なにこの汚いコードは
451 名前:デフォルトの名無しさん [2008/03/25(火) 12:13:23 ] 文字コードの判別、変換に挫折した… 情けねぇ…
452 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 18:13:48 ] EBCDIC くらいは知っとこうぜ
453 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:14:53 ] >>444 ドキュメントの有意義さは否定しないけど 実際にWebページやメールでそのドキュメントの通りに使えというなら 使えるようにしてくれなきゃ話が始まらない >>447 俺はUnicodeでいいと思ってるからなー 使いたい人ががんばってくださいとしか がんばらないで勝手に使うという最悪の選択だけはくれぐれもやめてほしい
454 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:21:11 ] UpperCharで 小文字 0xED40 \ が 大文字 0xFA5C \ に変換されるのですが、この辺わかりやすく説明しているサイトないでしょうか〜
455 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:35:00 ] >>454 support.microsoft.com/kb/170559/ja
456 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:41:47 ] >>455 非常に勉強になったよ。 ありがとう!
457 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 02:30:15 ] >>453 > 実際にWebページやメールでそのドキュメントの通りに使えというなら 言ってないw
458 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 02:37:51 ] なるほど > ケータイの絵文字や、CP932のIBM拡張文字など はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに 直接書いてはいない。でもそれなら何で今インターネットで使えるJIS X 0208:1997 ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの? Shift_JIS-2004の絵文字のうち > 「♪」以外は収録されていなかった そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?
459 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 08:47:40 ] 結局世の中の流れとしてはこんな感じ? 1. いわゆるレガシーエンコーディングの、ベンダー毎の拡張みたいのは今後積極的 にはサポートされない。 -> 新たに IANA に登録されてたりすることはない? -> charset にない文字を使っているようなのは化けてもしょうがないって感じ? 2. IBM拡張漢字、絵文字等をどうしても使いたい場合は Unicode で。 -> Windows-31J は IANA に登録されてるからアリ?
460 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 09:54:22 ] Windowsで扱える文字一覧みたいなものはどこかにないでしょうか?
461 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 12:14:50 ] コードページ毎で良ければここはどう。 www.microsoft.com/globaldev/reference/cphome.mspx
462 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:04:19 ] >>460 U+0000からU+10FFFFまで扱えるよ
463 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:10:39 ] >>461 ちゃんと資料があったんですね。ありがとうございます。
464 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:12:18 ] >>462 すいません、ちゃんとフォントがあって表示できる またはIMEから入力できるものという意味でした。
465 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:20:32 ] >>458 >> ケータイの絵文字や、CP932のIBM拡張文字など >はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに >直接書いてはいない。 IANA charset登録済みのもの。 >でもそれなら何で今インターネットで使えるJIS X 0208:1997 >ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの? なんでだろうねぇ。 Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。 >> 「♪」以外は収録されていなかった >そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの? 使っていい、Unicodeに登録されているんで、UTF-8を指定すればよい。 もちろん、JIS X 0213系のエンコーディングはダメ。
466 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 18:55:27 ] > Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。 他にも>>440 の資料は突っ込みどころ大杉。 > JISにもUnicodeにも違反しており 未使用領域を使用禁止にしているJIS X 0208/0213と違ってUnicodeでPUAを 使うこと自体は何も規格に違反してない。いわば文字化けするのはUnicodeの仕様。 > Windows Vistaの方が、ある意味、正しい動作だと言える。 どっちかが正しい動作だと言うこと自体ミスリーディング。 規格を守っていても「字体化け」するのがJISやUnicodeの「仕様」。 もちろん安岡センセイがそんな初歩的なこと知らないはずがないので 確信犯なんだろうけど(とくに後者)。
467 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:05:38 ] しかし、文字コード関連は政治的な位置からものを書く人間が多すぎるな
468 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:16:54 ] 文字コードはもともと政治の道具です
469 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:22:49 ] オタク好きするんだよ。政治というか、勢力争いの話はね。 そういうのが存在する分野の話になると、そこにばっかフォーカスすることになる。 それだけを固めた例としては、ゲーハー板。
470 名前:デフォルトの名無しさん mailto:sage [2008/03/28(金) 00:04:05 ] >467 だったらネタ振ってくれ。例えばNew ASCII配列とか。
471 名前:デフォルトの名無しさん mailto:sage [2008/03/28(金) 05:47:01 ] 例まで絞るくらいなら、その話題を自分が振ればいいのに。
472 名前:デフォルトの名無しさん mailto:sage [2008/03/29(土) 13:19:21 ] EBCDICとEBCDIKの違いがあるのも政治的な理由からですか?
473 名前:デフォルトの名無しさん mailto:sage [2008/03/29(土) 15:58:10 ] メリケン野郎にはカナなんかいらんからだろ。
474 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 02:19:37 ] ICU のこのページ→ demo.icu-project.org/icu-bin/convexp なんだけど、 Aliasってことは「等価な」エンコーディングって扱いなのかな? もしそうだとすると日本語のエンコーディングに関しては鬱なような...
475 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 04:31:26 ] ちょっと横レスですが。 >>472-473 EBCDIKってのは日立方言だよ。 ネットではEBCDIC(カタカナ版)のことだと説明してることが多いけど、 誰かがそう書いたのをよく調べもせずに孫引きで書いている奴が多いだけ。
476 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 11:19:36 ] >474 「Converters with conflicting aliases」とか。 ibm-942-P12A-1999とibm-943-p15A-2003が 両方ともaliasにcp932を持ってる事の説明が付かないけど?
477 名前:デフォルトの名無しさん mailto:sage [2008/04/04(金) 11:08:02 ] さて Unicode 5.1のリリース予定日がやってまいりました
478 名前:デフォルトの名無しさん mailto:sage [2008/04/05(土) 21:55:19 ] 無事リリースされますた。 StandardizedVariants.htmlにIVDに関する言及が追加されますた
479 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 02:55:20 ] また新しい文字コードが一つ増えただけになるのか、それとも統合されるべく方向に行っているのか。 まったくこのスレのネタすら分からないけど、基本的にutf-8かutf-32?使っておけばよい? 16はなんか面倒とか聞いた覚えがあるが今はそこまで調べる気力なし…。
480 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:49:53 ] >>479 基本的に UTF-8 使っておけばよし UTF-32、というか32ビットでの処理はアプリが内部で使う場合の話で 文字コードとして意識する必要はないよ
481 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:58:00 ] 内部処理も行処理程度だとUTF-8のままってのが多いしね。
482 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 12:53:51 ] ユニコードで唯一の功績は UTF-8 を発明したこと。 提案したのは部外者だけど。
483 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:02:59 ] 功績か? utf-8って好き嫌いがはっきりしている気がする。
484 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:07:05 ] 日本語が3〜4バイトになるからなあ。 まあ仕方が無いのは分かるが。