文字コード総合スレ part3

文字コード総合スレ p ..

348:デフォルトの名無しさん
08/03/12 09:29:53
>>344
1.5倍程度でけちけちするな、多言語化ってのはそういうもんだ。
マジレスするとUTF-8側にメリットがあるというよりも、
UTF-16側がサロゲートペアやバイトオーダー、ASCII非互換、guessしずらいなど、
いろいろと面倒なのでUTF-8の方がよい。

349:デフォルトの名無しさん
08/03/12 10:57:52
WindowsがUTF-16なんで、自分のプログラムもUTF-16です。

350:デフォルトの名無しさん
08/03/12 23:33:43
ケチ臭いことを言うんだったら、ASCIIの制御文字の部分の方が勿体無いと思うけどね。
ホントにASCIIてクソだなあ。

351:デフォルトの名無しさん
08/03/13 02:21:38
ASCIIが7bitで治まってくれていて良かった。
ISO 8859-1みたいなんじゃなくて、ASCIIが8bit、
×も≠も欲しいなんて言い出さなくて本当に良かった。
奴等が重ね打ち馬鹿で本当に良かった。

352:デフォルトの名無しさん
08/03/13 19:16:38
すみません、
EUC-JP 系のエンコーディング（含 eucJP-ms, CP5132）においてどういう文字が
割り当てられているかを知りたいのですが、いいウェブページはないでしょうか。

353:デフォルトの名無しさん
08/03/13 20:07:35
>>2

354:デフォルトの名無しさん
08/03/13 20:25:25
そーいや、opengroup の eucjp-ms とユニコードの変換表のページはもう見れないのかな？

355:デフォルトの名無しさん
08/03/13 21:04:03
utf8がascii互換でソースに書いたり、ファイルに書き出すには一番使い勝手はいいと思う。
WinならAPIとの互換性のために、メモリ上はutf16が良い。Shift_JISに変更する気はあんまり起きない。
パーサーなどで、コードポイントを等間隔で扱いたいときにはutf32にしてる。

356:デフォルトの名無しさん
08/03/13 21:27:56
>>353
やはりそこら辺ぐらいですか?

まずは1バイト部分が気になっていたのですが、

>また、16進数で「21」～「7E」の文字にASCIIとJIS X 0201ローマ文字のいずれを使うかは、
>歴史的にはASCIIの方が正しいのですが、実際には使う人の自由にまかされます。

ということは例えば0x5cはreverse solidusでもyen signでも好きな方使え、ということ
なのかな? とほほー。

357:デフォルトの名無しさん
08/03/13 21:41:13
すみません、機種依存文字は、どうして、存在しますか、？
ローマ数字とか、文字化ける、現象の、ことです

358:デフォルトの名無しさん
08/03/13 22:03:50
各ベンダが似て非なる文字コードを使い続けたから。

359:デフォルトの名無しさん
08/03/13 22:22:37
似て非なる文字コードが多くて、判定をミスるからでそ。

360:デフォルトの名無しさん
08/03/13 22:28:35
>>354
numa氏が転載してくれてる
URLﾘﾝｸ(blog.livedoor.jp)

361:デフォルトの名無しさん
08/03/13 22:40:03
>>359
表示できない文字のことを言っている。>>357

362:デフォルトの名無しさん
08/03/13 22:41:16
>>357
お国はどちらで？

363:デフォルトの名無しさん
08/03/13 23:17:28
西村京太郎が書き込んだんだよ。

364:デフォルトの名無しさん
08/03/14 09:14:19
>>352
URLﾘﾝｸ(legacy-encoding.sourceforge.jp)
多分こっちの方がいい。
なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。
eucJP-0201 が JIS X 0201 Roman。

365:352
08/03/14 09:55:43
>>364
ありがとうございます。

>なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。
>eucJP-0201 が JIS X 0201 Roman。

なるほど。JIS X 0201 Roman はマイナーですね。
なお、今ググったら ICU のサイトもヒットしたので、そっちも参照してみます。
iconv や Perl-Encode なんかはこの辺どうなってるのかな。
しかし EUC-JP 系ってナニゲにタチが悪いですね。下手すると SJIS 系より悪いのではw

366:デフォルトの名無しさん
08/03/14 11:08:59
IANA charset repositoryのは、きっちり決まっているから何も問題ないぞ?

独自改変があるのは、どのコードでも同じだし。
その辺まで全部気にしたいのなら、Windows上でベンダー共同の文字拡張、
firefoxのEUC拡張とか、いろいろありすぎてやってられないと思う。

367:デフォルトの名無しさん
08/03/14 11:59:42
>>365
iconv は glibc iconv と libiconv と森山さんのパッチ済み libiconv と Citrus iconv でも違って、
「EUC-JP」での \x00-\x7F までは ASCII と考えていい、これは IANA で定義されてるから。
ただ、それより多バイトは実装による。

Perl/Encode は Shift_JIS も EUC-JP も \x00-\x7F は ASCII だね。

なお、Shift_JIS は IANA 定義では \x00-\x7F が JISX 0201Roman なことに注意。
これにしたがっている実装はあまりないが、たまにあるので地雷。
ていうか、Shift_JIS でなく Windows-31J/CP932 を使えばトラブルは少ないのでこちらの方が回避は楽。

368:352
08/03/14 13:43:47
>>366 >>367
どうも有益な情報をありがとうございます。

文字コード処理にどのぐらい挙動の幅を持たせるかとかを悩んでいます。
>>365さんも書かれてますが、例えばHTMLでcharset=Shift_JIS or EUC-JPとなっている
が、拡張漢字のコードが入ってた場合（これは結構ある）にどうするかとか。
あと、差のある部分（全角記号等）をどっちだと思って処理するかとか。

369:デフォルトの名無しさん
08/03/14 14:01:57
サーバ側で、かつ、どのクライアントに対してもきっちりやりたいなら、
User-Agent: をみて、独自の拡張、改変にちゃんと対応するしかない。

firefoxのケースはググれば出てくる。
CP51932関連も読んでおいた方がいい。

370:デフォルトの名無しさん
08/03/15 06:16:20
>>365
Shift_JISだって、CP932、Shift_JISX0213、Shift_JIS-2004などの変種がある。
むかし補助漢字を無理やり埋め込む変種もあった。

> Windows上でベンダー共同の文字拡張、

eucJP-ms?

371:デフォルトの名無しさん
08/03/15 09:41:00
> 補助漢字を無理やり埋め込む変種もあった。
kwsk
そういう噂は聞いたことあるけど実際にどんな仕様だったのか調べてもわからない

372:デフォルトの名無しさん
08/03/15 10:19:31
>>370
> Shift_JISX0213、Shift_JIS-2004などの変種がある。
これって名前以外に違いあるんだっけ？

373:デフォルトの名無しさん
08/03/15 10:41:07
Shift_JISX0213は、JIS X 0212:2000に、
Shift_JIS-2004は、JIS X 0212:2004に基づいている。
UCS互換文字が10文字追加されている。

追加だから、表示などの用途に限れば、
Shift_JIS-2004だけで十分だが、
文字集合チェックしたければ区別する必要がある。
(>>352はそういうことをEUC-JPについて知りたいようだったので書いた)

374:デフォルトの名無しさん
08/03/15 10:54:07
そもそもサポートする必要ないよ、とか言ってみる。
増やせば増やすほど混乱の種が増す。
とくに「レガシー」エンコーディングプロジェクトのくせに新しいことをやりたがる奴らは
まとめて氏ね

375:デフォルトの名無しさん
08/03/15 10:58:43
BMP氏ね

376:デフォルトの名無しさん
08/03/15 11:00:35
時代はPNGです(そっちか)

377:デフォルトの名無しさん
08/03/15 11:26:08
>>373
thx

378:デフォルトの名無しさん
08/03/15 13:22:46
>>372
当時のfj.kanjiにいくつかの提案をまとめた記事があったはず。

379:デフォルトの名無しさん
08/03/15 14:11:30
うーんGoogle Groupsには残ってないようだ
当時ニュースグループには参加してなかったからログを探すのが困難だ

380:デフォルトの名無しさん
08/03/15 16:42:56
>>374
>そもそもサポートする必要ないよ、とか言ってみる。

世界中のソフトが足並みを揃えられればいいんだけどね。
現実的にはより「好意的に」データを処理してくれるアプリの方が
ユーザーのウケが良くて、困ったものだ。

それに「レガシー」とはいうものの、メールでもウェブページでもまだバリバリに
使われてるわけだし。

381:デフォルトの名無しさん
08/03/15 16:54:50
なにせここも Shift-JIS だしな

382:デフォルトの名無しさん
08/03/15 18:46:28
>>380
さすがにShift_JIS-2004をサポートした方がユーザーの受けがいいってことはないだろ
むしろ円記号や名簿の高橋さんが文字化けする! とか苦情が増えそうな気がする

383:デフォルトの名無しさん
08/03/15 18:47:21
> 世界中のソフトが
日本中のソフトだけだろ。
最近のソフトやプロトコルは日本人が口出ししない限りUTF-8のみなんて珍しくもないぞ

384:デフォルトの名無しさん
08/03/15 18:53:04
> それに「レガシー」とはいうものの、メールでもウェブページでもまだバリバリに
> 使われてるわけだし。
まだ使われているものをサポートすることは別に反対してない。
現在誰も使ってないどころかかつて使われたことすらないものを
「よかれと思って」付け足そうとする奴は氏ねと言ってる。
ISO-2022-JP-MSとか(頓挫したけど)
NEC選定IBM拡張漢字とIBM拡張漢字にVS付けて区別するとか
正気とは思えない

385:デフォルトの名無しさん
08/03/15 18:53:56
JIS X 0213のせいで日本の悲惨さ倍増w

386:352
08/03/17 04:46:50
皆さんどうも。
Win上だと例えばcharset=EUC-JPだけど実はCP51932なHTMLとかは
あんまり問題にならないのかもしれませんが、非Winだとそうでもなくて、
ちょっと情報を必要としていました。

ウェブブラウザとかメールソフトとかデータベースとか、日本人が開発の
中心にいないものも少なくないんじゃないですかね。そうすると日本語の
エンコーディングに関するバグの説明とか、面倒ですね。

387:デフォルトの名無しさん
08/03/17 05:01:27
糞会社が勝手に文字集合を独自拡張するのがまずいのであって、
受け手が四苦八苦しているのが悪いわけではない。

388:デフォルトの名無しさん
08/03/17 08:01:19
どうでもいいけどWin3より前の時代にアメリカの技術者と話をするときに、
通訳が「漢字」を"chinese characters"と訳すのには閉口させられたなぁ。
現物見せてやっと話が噛み合ったよ。

389:デフォルトの名無しさん
08/03/17 12:18:12
ややこしいが漢字を Chinese characters としている和英辞書があるんだよな。
大昔、千年以上前の日本人にとっては、漢字≒中国語文字かもしれないが
現代の日本人が漢字といえば国字 Japanese characters で漢字体のものを
指すのが普通だな。

通訳は空気を読むべきだと思うが、通訳が頼りない場合は
漢字だと誤訳・誤解されるおそれがあるので日本文字 Japanese characters と
言ったほうがいいかも。

390:デフォルトの名無しさん
08/03/17 12:31:27
普通「漢字」は「ひらがな」「カタカナ」を含まないけど、
文字コードの世界では、含めて「漢字」ということがあるからややこしい。

本来の狭い意味での「漢字」なら、
Japanese Charactersの中のChinese Charactersってことで問題ないはずだけど。

391:デフォルトの名無しさん
08/03/17 12:37:28
最近はKanjiで通じるようになってきたから嬉しい。

392:デフォルトの名無しさん
08/03/17 12:38:11
もうKanjiでおｋ

393:デフォルトの名無しさん
08/03/17 12:44:23
CJK Unified Ideographs のことだろ、Kanji って
ってな、合ってるんだけど間違ってる理解が今後増えそうで嫌だ

394:デフォルトの名無しさん
08/03/17 12:48:45
>>391 >>392
それってひらがな、かたかなは含む?

395:388
08/03/17 12:55:49
あー、そんときは通訳が(理由は忘れたが)席を外したんで、
隙を狙って"Kanji is Japanese special character, not only Chinese."みたいなことを言った希ガス。
当然向こうは"???"となったから、「現物を見せましょう」という流れに持ってった。
# んで、「Windowsじゃそんな文字出せない」みたいなこと言われたんだよなw

396:デフォルトの名無しさん
08/03/17 13:15:36
>>394
391でも392でも無いけど、俺の知っている範囲では「含まない」。

たとえば、日本語学習者とか、日本の漫画やアニメのファンが
"HiraganaやKatakanaは何とかなるけど、Kanjiはホントに難しいyo"
とか、そういう風に口にする。

397:デフォルトの名無しさん
08/03/17 13:52:28
>>394
文字コードのことをちゃんと勉強してる技術者には、
KanjiっていえばHan charactersのうち日本語で使われてる文字だって伝わる。

Unicode万歳って感じだわ。

398:デフォルトの名無しさん
08/03/17 15:17:07
JISの「漢字集合」にはひらがなカタカナも含んだな

399:デフォルトの名無しさん
08/03/17 19:06:02
JIS X 0208の「漢字集合」だとラテン文字やキリル文字まで含むけど、
「漢字」だと漢字だけだよな。

400:デフォルトの名無しさん
08/03/17 23:49:15
JIS X 0208の「非漢字」のうち1文字はUnicodeでは漢字扱いだったな
Unicode 1.0では非漢字領域にもあったけどUnicode 1.1でunifyされたらしい
と安岡センセイか誰かの日記で読んだ

401:デフォルトの名無しさん
08/03/18 00:22:44
更級日記？

402:デフォルトの名無しさん
08/03/18 07:53:24
"仝" だっけ。一部の人にはハートマーク差し替え記号として知られるw
"〆" は文字だっけ？　JIS では記号だけど。

403:デフォルトの名無しさん
08/03/18 08:03:36
>>402
〆は0208由来の非漢字と補助漢字由来の漢字が両方入ってる
EUC-JPとラウンドトリップコンバージョンを確保する必要があるから

404:デフォルトの名無しさん
08/03/18 12:50:52
unicodeで
アファベットかどうかやひらがなかどうかやカタカナかどうかとか
文字種別みたいなものをロジック的に判別する方法ありますか？
それともSJISとかみたいに力任せですか？
あと濁点の「が」と「かﾞ」みたいなのを正規化する方法って決まってませんか？

405:デフォルトの名無しさん
08/03/18 13:11:04
>>404

>文字種
そういうAPIがあるプログラム言語とかライブラリ使え
どれがどの文字種かは >>unicode.org

>正規化
決まってる >>uniocde.org

406:デフォルトの名無しさん
08/03/18 15:00:42
>>405
>正規化
結合文字の正規化目的でNFCを使うとCJK互換漢字でハマるから注意

407:デフォルトの名無しさん
08/03/18 20:19:07
「神」が化けるとかだっけ

408:デフォルトの名無しさん
08/03/18 22:28:39
URLﾘﾝｸ(internet.watch.impress.co.jp)

409:デフォルトの名無しさん
08/03/19 00:28:49
Unicodeの正規化といえば、MediaWikiが外部から入力された文字列を全部正規化しやがって、
互換漢字を入力できずに困ったことがあったわ。

410:デフォルトの名無しさん
08/03/19 07:34:46
>>407
ファイル名が Unicode ベースなファイルシステムだと何らかの正規化がなされていると
思うけど、同じ場所に「神」という名前のファイルと「神」とのいう名前のファイルを作ろうと
したら、どうなるべきなのかな?

411:デフォルトの名無しさん
08/03/19 07:43:42
>>410
手元のWindowsXP/NTFSだと U+00C4 と A+U0308 を別々に作れた、なので正規化はしてないっぽい。
MacOSXだと作れないだろうね。

412:デフォルトの名無しさん
08/03/19 10:01:39
>>410
> > 何らかの正規化がなされていると思うけど

Mac OS Xくらいしか知らないよ。
Windows, UNIX系ではないんじゃない？

413:デフォルトの名無しさん
08/03/19 10:08:51
>>411
MacOSXでも作れる。
OSXのVFSはNFDに準じたファイル名の正規化を行うが、互換漢字は対象外

414:デフォルトの名無しさん
08/03/19 14:30:19
>>413
VFSじゃないだろ?
CarbonとHFS+でやってんじゃない?

すくなくとも10.3の調査ではそうだった。
だからターミナルからUFSやNFS上にファイルを作成すれば、
ファイル名はNFDされてなかった。

415:デフォルトの名無しさん
08/03/19 17:17:53
>>412
ほんとに? 正規化されてないUnicodeでファイル名を扱うっていうのは
混乱を招くような気がするのだが...

416:デフォルトの名無しさん
08/03/19 18:49:29
データそのものを正規化してしまうような仕組みは嬉しくないなあ。
正規化はソートや検索の時に動的にしてくれたほうが嬉しい。

417:デフォルトの名無しさん
08/03/19 19:02:26
>>416
ヘテロな環境で正規化の方法が違った場合、
USBサムドライブで困るよね。

418:デフォルトの名無しさん
08/03/19 20:53:24
>>414
Technical Q&A QA1173
Text Encoding in VFS
URLﾘﾝｸ(developer.apple.com)
URLﾘﾝｸ(developer.apple.com)

419:デフォルトの名無しさん
08/03/19 21:16:22
>>418
この文章だと10.2の頃からそうなっているみたいだけどそれは嘘。
Darwinのソースコード＆テストで調べた。

420:デフォルトの名無しさん
08/03/19 23:00:27
>>415
むしろ下手な正規化(大文字と小文字の同一視とか)をされるより
個々のアプリでの扱いに任せてもらった方が混乱は少ないよ

421:デフォルトの名無しさん
08/03/19 23:19:28
小文字と大文字の同一視は、
Mac, Winでそうだから避けられないのかねえ。
カタカナとひらがなはどうなんだとかきりがないねえ。

422:デフォルトの名無しさん
08/03/20 00:29:04
>>420
そうじゃなくて、NFCとかNFDとか、上に出てたでしょ。

423:デフォルトの名無しさん
08/03/20 00:54:10
>>419
まあ「VFS API」というのが実際に何を意味するかですかね。もしかして UNIX の
ファイルアクセス用の API （システムコール）程度の意味なのかも。
かつ HFS+ のことだけを念頭においているのかも。NFS とかは「例外」扱いだし。

実際 UFS や NFS は正規化はしないですね > Mac OS X

424:デフォルトの名無しさん
08/03/20 01:41:14
>>409
MediaWikiでは正規化されたくない文字は文字参照にするしかないね
それでも項目名には使えない

425:デフォルトの名無しさん
08/03/20 01:43:01
>>421
つ[Collation]
ただし事前処理として正規化が前提になってるのでもし互換漢字のソート順を
統合漢字と変えたかったりしたら使えない

426:デフォルトの名無しさん
08/03/20 07:50:55
>>423
HFS+オンリーで「VFSが」というもの…w

427:デフォルトの名無しさん
08/03/20 23:07:19
OS：WindowsXPproSP2
アプリ：DreamWeaverMX

DreamWeaverMXでhtmlファイルを新規作成したとき、<META>タグは以下の記述でした。
<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">

ここではcharsetで文字コードShift_JISを指定していますが、ページをIE6.0以降で見られることを想定した場合に
文字化けをできるだけ減らすためには、charsetの値はどのようにすればいいのでしょうか？

428:デフォルトの名無しさん
08/03/20 23:26:38
そのままでいいよ

429:デフォルトの名無しさん
08/03/20 23:50:02
板違いだからweb制作でも行け

430:デフォルトの名無しさん
08/03/21 12:26:11
>>428-429
了解。ありがとう

431:デフォルトの名無しさん
08/03/23 16:34:58
EUC-JP と宣言しながら CP51932 なウェブページがかなりあるのに
CP51932 相当の IANA 名を定義するような動きはなかったんですかね。
Shift_JIS と Windows-31J の区別はあるんだし。

432:デフォルトの名無しさん
08/03/24 00:50:39
CP51932だってどうしてわかるの

433:デフォルトの名無しさん
08/03/24 08:29:22
>>431
どれぐらい多いの？
日本語で書かれているウェブページのうち、何%がEUC-JPと宣言されてい
て、そのうち何%が実際はCP51932なの？

434:デフォルトの名無しさん
08/03/24 09:39:56
windows-31jって、今からでもwindows-932にならんかね。aliasでもいいんだけど。
他のwindows-コードページの番号ってなってるコードページと一貫性がない。

435:デフォルトの名無しさん
08/03/24 11:06:44
0x81～0x9Fの文字がある=Shift-JIS
0xFD～0xEFの文字がある=EUC
って解釈でいい？

436:デフォルトの名無しさん
08/03/24 14:55:39
まさか

437:デフォルトの名無しさん
08/03/24 19:59:20
そんな楽で良いなら

438:デフォルトの名無しさん
08/03/24 20:04:29
世の中に一体いくつの文字コードがあることか

439:デフォルトの名無しさん
08/03/24 20:06:57
UNICODEの存在意義がなくなる

440:デフォルトの名無しさん
08/03/25 00:08:24
>>434
Microsoftがietf-charsetsに提案してたようだが例によって途中からｇｄｇｄ
URLﾘﾝｸ(mail.apps.ietf.org)
こんなだからみんな面倒な登録手続きなんか無視して
好き勝手にcharset使い出してカオスになるんだろうな。

そういやISO-2022-JP-2004の登録手続きはどうなりましたか安岡センセイ
URLﾘﾝｸ(www.jstage.jst.go.jp)
こんなもの書いてる暇があったらShift_JIS-2004登録してください
規格通りに使いたくても使えないじゃないですか

441:デフォルトの名無しさん
08/03/25 00:09:56
もう全部x-つけといたらいいよ。

442:デフォルトの名無しさん
08/03/25 00:16:39
つーかさー
URLﾘﾝｸ(mail.apps.ietf.org)
なんでMartin Duerstセンセイともあろうお方が今さらこんなこと言ってるの?
RFC 1192ご覧になったことあります? つーか
> We also wish to thank the following people who contributed in many
> ways towards this document.
> Zhang Zhoucai Martin J. Duerst
見てないはずがないんだけど。

何でcharset-extensionとcharset-editionはみんなに無視されたのに
今度はうまくいくとか無邪気に思い込めるわけ?

443:デフォルトの名無しさん
08/03/25 00:17:15
RFC 1922の間違いorz

444:デフォルトの名無しさん
08/03/25 00:23:06
>>440
いやそのドキュメントは有意義だと思うよ。
ちゃんとまとめて、読めるようにしとかないと、
独自コード乱発は加速するばかりだから。

445:デフォルトの名無しさん
08/03/25 01:19:23
>>431
CP51932 相当の IANA 名をWindows-31Jって言うんじゃね？
テキストエンコーディングが何だろうと、文字集合は同じでしょ。

446:デフォルトの名無しさん
08/03/25 11:35:01
>>445
IANA charsetの「charset」は文字集合+符号化方式のセット

447:デフォルトの名無しさん
08/03/25 11:38:59
>>440
Martinセンセイにドキュメントがないだとか色々突っ込まれて力尽きてたはず。
使いたいなら後をついで進めるといいのかもしれないけど、
必要なドキュメントをJISが握ってる以上難しい気もしないでもない。

448:デフォルトの名無しさん
08/03/25 11:56:26
流れぶった切ってすまん。
日立のEBCDIKコード表探してるんだけど、
URLﾘﾝｸ(www.wdic.org) とか
URLﾘﾝｸ(www.pleasuresky.co.jp) とかじゃなくて
日立が提示してるオリジナルがいいんだけど、どっかにないですかね？

449:デフォルトの名無しさん
08/03/25 12:01:21
URLﾘﾝｸ(www.pleasuresky.co.jp)

450:デフォルトの名無しさん
08/03/25 12:04:00
>>449
なにこの汚いコードは

451:デフォルトの名無しさん
08/03/25 12:13:23
文字コードの判別、変換に挫折した…
情けねぇ…

452:デフォルトの名無しさん
08/03/25 18:13:48
EBCDIC くらいは知っとこうぜ

453:デフォルトの名無しさん
08/03/25 21:14:53
>>444
ドキュメントの有意義さは否定しないけど
実際にWebページやメールでそのドキュメントの通りに使えというなら
使えるようにしてくれなきゃ話が始まらない
>>447
俺はUnicodeでいいと思ってるからなー
使いたい人ががんばってくださいとしか
がんばらないで勝手に使うという最悪の選択だけはくれぐれもやめてほしい

454:デフォルトの名無しさん
08/03/25 21:21:11
UpperCharで
小文字 0xED40 纊
が
大文字 0xFA5C 纊
に変換されるのですが、この辺わかりやすく説明しているサイトないでしょうか～

455:デフォルトの名無しさん
08/03/25 21:35:00
>>454
URLﾘﾝｸ(support.microsoft.com)

456:デフォルトの名無しさん
08/03/25 21:41:47
>>455
非常に勉強になったよ。
ありがとう！

457:デフォルトの名無しさん
08/03/26 02:30:15
>>453
> 実際にWebページやメールでそのドキュメントの通りに使えというなら

言ってないw

458:デフォルトの名無しさん
08/03/26 02:37:51
なるほど
> ケータイの絵文字や、CP932のIBM拡張文字など
はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに
直接書いてはいない。でもそれなら何で今インターネットで使えるJIS X 0208:1997
ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの?
Shift_JIS-2004の絵文字のうち
> 「♪」以外は収録されていなかった
そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?

459:デフォルトの名無しさん
08/03/26 08:47:40
結局世の中の流れとしてはこんな感じ?

1. いわゆるレガシーエンコーディングの、ベンダー毎の拡張みたいのは今後積極的
にはサポートされない。
　-> 新たに IANA に登録されてたりすることはない?
　-> charset にない文字を使っているようなのは化けてもしょうがないって感じ?

2. IBM拡張漢字、絵文字等をどうしても使いたい場合は Unicode で。
　-> Windows-31J は IANA に登録されてるからアリ?

460:デフォルトの名無しさん
08/03/26 09:54:22
Windowsで扱える文字一覧みたいなものはどこかにないでしょうか？

461:デフォルトの名無しさん
08/03/26 12:14:50
コードページ毎で良ければここはどう。
URLﾘﾝｸ(www.microsoft.com)

462:デフォルトの名無しさん
08/03/26 13:04:19
>>460
U+0000からU+10FFFFまで扱えるよ

463:デフォルトの名無しさん
08/03/26 13:10:39
>>461
ちゃんと資料があったんですね。ありがとうございます。

464:デフォルトの名無しさん
08/03/26 13:12:18
>>462
すいません、ちゃんとフォントがあって表示できる
またはIMEから入力できるものという意味でした。

465:デフォルトの名無しさん
08/03/26 13:20:32
>>458
>> ケータイの絵文字や、CP932のIBM拡張文字など
>はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに
>直接書いてはいない。
IANA charset登録済みのもの。

>でもそれなら何で今インターネットで使えるJIS X 0208:1997
>ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの?
なんでだろうねぇ。
Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。

>> 「♪」以外は収録されていなかった
>そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?
使っていい、Unicodeに登録されているんで、UTF-8を指定すればよい。
もちろん、JIS X 0213系のエンコーディングはダメ。

466:デフォルトの名無しさん
08/03/27 18:55:27
> Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。
他にも>>440の資料は突っ込みどころ大杉。
> JISにもUnicodeにも違反しており
未使用領域を使用禁止にしているJIS X 0208/0213と違ってUnicodeでPUAを
使うこと自体は何も規格に違反してない。いわば文字化けするのはUnicodeの仕様。
> Windows Vistaの方が、ある意味、正しい動作だと言える。
どっちかが正しい動作だと言うこと自体ミスリーディング。
規格を守っていても「字体化け」するのがJISやUnicodeの「仕様」。

もちろん安岡センセイがそんな初歩的なこと知らないはずがないので
確信犯なんだろうけど(とくに後者)。

467:デフォルトの名無しさん
08/03/27 20:05:38
しかし、文字コード関連は政治的な位置からものを書く人間が多すぎるな

468:デフォルトの名無しさん
08/03/27 20:16:54
文字コードはもともと政治の道具です

469:デフォルトの名無しさん
08/03/27 20:22:49
オタク好きするんだよ。政治というか、勢力争いの話はね。
そういうのが存在する分野の話になると、そこにばっかフォーカスすることになる。

それだけを固めた例としては、ゲーハー板。

470:デフォルトの名無しさん
08/03/28 00:04:05
>467
だったらネタ振ってくれ。例えばNew ASCII配列とか。

471:デフォルトの名無しさん
08/03/28 05:47:01
例まで絞るくらいなら、その話題を自分が振ればいいのに。

472:デフォルトの名無しさん
08/03/29 13:19:21
EBCDICとEBCDIKの違いがあるのも政治的な理由からですか？

473:デフォルトの名無しさん
08/03/29 15:58:10
メリケン野郎にはカナなんかいらんからだろ。

474:デフォルトの名無しさん
08/03/30 02:19:37
ICU のこのページ→ URLﾘﾝｸ(demo.icu-project.org) なんだけど、
Aliasってことは「等価な」エンコーディングって扱いなのかな?
もしそうだとすると日本語のエンコーディングに関しては鬱なような...

475:デフォルトの名無しさん
08/03/30 04:31:26
ちょっと横レスですが。

>>472-473
EBCDIKってのは日立方言だよ。
ネットではEBCDIC(カタカナ版)のことだと説明してることが多いけど、
誰かがそう書いたのをよく調べもせずに孫引きで書いている奴が多いだけ。

476:デフォルトの名無しさん
08/03/30 11:19:36
>474
「Converters with conflicting aliases」とか。
ibm-942-P12A-1999とibm-943-p15A-2003が
両方ともaliasにcp932を持ってる事の説明が付かないけど？

477:デフォルトの名無しさん
08/04/04 11:08:02
さて
Unicode 5.1のリリース予定日がやってまいりました

478:デフォルトの名無しさん
08/04/05 21:55:19
無事リリースされますた。
StandardizedVariants.htmlにIVDに関する言及が追加されますた

479:デフォルトの名無しさん
08/04/06 02:55:20
また新しい文字コードが一つ増えただけになるのか、それとも統合されるべく方向に行っているのか。
まったくこのスレのネタすら分からないけど、基本的にutf-8かutf-32?使っておけばよい?
16はなんか面倒とか聞いた覚えがあるが今はそこまで調べる気力なし…。

480:デフォルトの名無しさん
08/04/06 10:49:53
>>479
基本的に UTF-8 使っておけばよし

UTF-32、というか32ビットでの処理はアプリが内部で使う場合の話で
文字コードとして意識する必要はないよ

481:デフォルトの名無しさん
08/04/06 10:58:00
内部処理も行処理程度だとUTF-8のままってのが多いしね。

482:デフォルトの名無しさん
08/04/06 12:53:51
ユニコードで唯一の功績は UTF-8 を発明したこと。
提案したのは部外者だけど。

483:デフォルトの名無しさん
08/04/06 20:02:59
功績か?
utf-8って好き嫌いがはっきりしている気がする。

484:デフォルトの名無しさん
08/04/06 20:07:05
日本語が３～４バイトになるからなあ。
まあ仕方が無いのは分かるが。

485:デフォルトの名無しさん
08/04/06 21:08:59
>>482
Unicodeのエンコード方式の一つとしてはそうなのかもしれんが…
一長一短な気もするけど、今後Unicode対応アプリを作る上ではUTF-8はchar*で扱える
面だけ取れば悪くはないのかも
XMLとかもさ
だけど、結局ファイルやストリームから読み取る分にはUTF-8でいいけど、1～4バイトの
可変長ってのがね
処理内部はUTF-16として扱うのが一番楽だね１文字２バイトと単純計算できるし、
今はサロゲートペアのことを意識する必要が無いから

文字列はそもそもリソース定義すべきだから、ソース中に文字列で埋め込まないんであれば
エンコード方式さえはっきりしてればどうでもいいや
それより、SJISでコメント書いたソースをWindowsエミュレータやリビジョン管理(ClearCaseやCVS、SVN)
で使って、実機やテスト機(Linux)ではEUCだとコンパイル時にコメントが改行されてたりするんだよねｗ
うちんとこでは、Lunuxビルドはmakefileの中でnkfで文字コード変換されてるが…

486:デフォルトの名無しさん
08/04/06 21:19:34
> 今はサロゲートペアのことを意識する必要が無いから
いつかサロゲートペア対応に改良する暇はあるの？
初めからUTF-32にすればいいだろ。

487:デフォルトの名無しさん
08/04/06 21:26:20
ユニコードはエンコード方式がわかっても日本語とは限らないんだな。
CJKでしかないから。

488:485
08/04/06 21:33:50
>>486
Unicode 4.0を見てみたｗ
どう見ても、当面サロゲートペアを使う必要はなさそうだなあｗ
UTF-32でもいいんだけどさ、やっぱ１文字で４バイトってやだなー
特に理由ないんだけどさ
U+10000～を使うことが明らかなら別だけど、使わないしさ

>>487
CJKというか、CJKVのようだけどね
Unicodeは言語を識別するためのものじゃないし、それは別途ISO 639なり使って
管理するとかじゃないの？

489:デフォルトの名無しさん
08/04/06 21:37:48
今の仕様書を1990年に持っていけたらもっとマシなコード体系が出来上がるんだろうなあ…

490:485
08/04/06 21:43:44
>>489
時はバブル、んな将来的なことどうでもいいとか思われそうだがｗ
Y2Kなんて、もっと早急に対応してればあんなに世間が騒ぐこともなかったんだし
結局何も起きなかったけどさｗ

491:デフォルトの名無しさん
08/04/06 21:58:14
世の中の悪い事態の多くは、そうなることが予測不能だったからではなく、
そうなるとわかっているけど対処しなかったから起こったんだ、
とつい最近どっかで読んだけど、まったくだｗ

492:デフォルトの名無しさん
08/04/06 22:12:38
その意味では正に、
「過去に戻れても、やはり同じようになるよ」だな。

493:デフォルトの名無しさん
08/04/06 23:09:49
>>485
>今はサロゲートペアのことを意識する必要が無いから
さすがにもう時間の問題でしょ。
そろそろ JIS X 0213 が要求に入り始めるだろうし。

494:デフォルトの名無しさん
08/04/07 01:51:07
UTF-8は大好きですよ

495:485
08/04/07 08:49:15
>>493
JIS X0213はさすがに困ったちゃんな規格を作ってくれたもんだなぁと思いつつも、いわゆる第三～第四水準に
ようやく人名漢字として略されてたものとかが扱えるとかどうとかで恩恵を受ける人もいるんだろうか？
サロゲートペアを扱うとなると、１文字=2バイトの原則が壊れるんだよなぁ

そういや、2000年だかから中国のGB2312の拡張規格GB18030は、中国大陸における文字表示可能な機器の
全てが対応する必要があるとか訊いて社内で騒ぎになって、Windows2000ではGB18030フォンとパックやら
変なAPIで4バイト文字対応してたとおもうんだけど、こいつはUnicodeとどう親和性を取るつもりなのかな？
規格上はGB18030はISO/IEC 10646を丸ごと飲み込んじゃう規格なんだけど…

496:デフォルトの名無しさん
08/04/07 13:42:22
>>485
>今はサロゲートペアのことを意識する必要が無いから

サロゲートペア以外にも合成文字とかあるんですけど。

497:デフォルトの名無しさん
08/04/07 19:05:39
>>496
MacOS-Xの「ヒ+゜」とかね。
いつ「普通の」データとして飛び込んでくるか分かったもんじゃない。

498:デフォルトの名無しさん
08/04/07 19:12:03
何しろあれが正規形の一つだからな。

499:485
08/04/07 19:41:16
>>496
確かに…
合成文字はヤだなぁ
あと、くっつき方がキモいデーヴァナーガリー文字とかその類も…

500:デフォルトの名無しさん
08/04/07 20:01:44
>>497
Mac持ってないけど「ピ」は合成されてるの？
JISX0213の「か゜」とかじゃなくて？

501:デフォルトの名無しさん
08/04/07 20:26:25
>>500
>>413のNFD

502:デフォルトの名無しさん
08/04/07 20:46:58
>>485
もう現実を見るんだ。
固定バイトの文字コードなんて所詮夢だったんだよ。

503:デフォルトの名無しさん
08/04/07 21:20:35
それでも32bitあればなんとか…

504:デフォルトの名無しさん
08/04/07 21:25:05
HYPHEN-MINUSって文字が誕生した時からこの世はカオスさ

505:デフォルトの名無しさん
08/04/07 22:26:30
UTF-8は0x10入らないようにして欲しいなぁ。

506:485
08/04/08 09:22:27
>>502
そうか、やはりそうなのか…
固定バイトはもはや夢物語なんだなorz
合成文字といえば、ヨーロッパのラテン文字事情なんとかならんのでしょうか？？？
ローカライズにあたって、文字列検索の曖昧検索を行うわけなのだが、Aとキーされようと、
アクセントが付いてようとウムラウトだろうと引っかからないといけないのはまぁいいとして…
A+アクセントとかはやめて欲しいのだがｗ
いったい、ヨーロッパは何言語あるんだYO!

507:デフォルトの名無しさん
08/04/08 09:43:20
L10nされたあいまい検索は、各言語のネイティブの専門家によるアドバイスが
ないとムリポ。
（「エ」と「ヱ」を同一視するかどうかなんて日本人でも判断に困るだろ？）

508:485
08/04/08 11:31:51
>>507
だよねー
今月号の「NEWTON」を読んだら、ラテン語のアルファベットは当初英語で使われるものとほぼ
同じだったとか？
その後に、フランス語やらでアクセント記号が付けられたとかどうとか…
てっきり、逆だと思ってたんだが、Unicode 1.0策定時にCJKの統合に当たってルーツの異なる文字で
似ている物を同一視しようとした件、ラテン語圏でもやはりアクセント記号はそれくらい意味のある文化
の一つなんだろうか…

幸い、自分は合成文字には今のところ携わることはなさそうだが…
中国国家標準のGB 18030をどうにかしてもらいたい…
GB 2312、ASCII、ISO/IEC 10646をうまいこと包含しているという点ではうまいこと考えたなと関心
出来るんだけど、結局は1～4バイトのマルチバイト文字ってワケで、ISO/IEC 10646を包含したとしても
変なジレンマ作ってるだけだし…
そもそも、CJKのグリフが U+3400～U+4DFE、U+4E00～U+9FFEまでしか割り振られてないじゃんか！
BMP面で足りるじゃんかー！

509:デフォルトの名無しさん
08/04/08 13:30:47
>>507
ラテン語ネイティブも、油断してると、
JIS X 0208のFULLWIDTH LATIN (CAPTAL) LETTER *ってのがあるしね。
自前で実装しようとするとHALFWIDTHへの正規化を忘れちゃう。

>>508
表音音文字元祖のフェニキア文字の子孫の
ギリシャ文字でさえ発音記号はないからね。

アクセント記号はcollationの時にも、
取り払ってソートするか付いたままソートするか、
国によって標準的な取り扱いが違って難しい。

510:デフォルトの名無しさん
08/04/08 20:21:30
そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。

>>GB18030
Unicodeに変換して処理するだけなんだから別に関係ないでしょ

511:デフォルトの名無しさん
08/04/08 20:49:23
他国の心配する前に日本語の処理くらいまともにやってくれ

512:485
08/04/08 21:02:50
>>510
いやいや、GB 18030は現状はUnicodeでグリフのある領域はカバーしてるけど、Unicodeに無い
民族文字やらをどんどん増やす思惑があるらしい…
だったらその思惑をUnicodeコンソーシアムで提起して貰いたいものなんだが…

>>511
俺の文章？orz
どうせローカライズ以前に、各国の文言を用意するのは翻訳チームのすることで、俺は関わってないし

513:デフォルトの名無しさん
08/04/08 21:05:12
自国で独自路線に突っ走りまくってる日本じゃないんだからお前ごときが
他国の心配しなくてもちゃんと国際提案してくるからむしろ日本NBの怠慢ぶりを
何とかしてくれってば

514:デフォルトの名無しさん
08/04/08 21:21:00
そこでJIS第五水準ですよ

515:485
08/04/08 21:46:47
>>513
これは>>513の現場もそうだろうと思うのだが、日本人のSEに限らずPMに至るまで、
日本における標準化についてまともに考えている奴っている？
C++を理解するのにISO/IEC 14882を読んだり、仕様書を書くときに主語をちゃんと
付けることを意識するとかさ？
今俺が書いてる文章なんかは支離滅裂だけどorz

>>514
JIS X0213の二の舞はやめようよｗ

516:デフォルトの名無しさん
08/04/08 22:14:13
＞仕様書を書くときに主語をちゃんと付けることを意識するとかさ？
書かないまでも、意識していないと所謂「とんでも」文書ができあがるわけだが。
# 「マウスボタンが押すとウインドウが表示します」とか。

517:デフォルトの名無しさん
08/04/08 22:40:59
＞５１２
UNICODE的に、新規コードポイントの追加は、
まずは国内規格、次にUNICODEって順番じゃなかったっけ？

518:デフォルトの名無しさん
08/04/08 23:31:00
だから、ウニコードやまりゃいいじゃん

519:デフォルトの名無しさん
08/04/09 00:23:03
はやくExt-C出せー

520:デフォルトの名無しさん
08/04/09 02:59:07
>>515
なんで俺の職場の話がいきなり出てくるのか意味不明だが
日本における標準化の試みは
学者が机上の空論をあーでもないこーでもないと小田原評定のごとくこねくり回した
挙げ句黒船に全部持って行かれるのが通例。
URLﾘﾝｸ(www.itscj.ipsj.or.jp)
の異体字アーキテクチャの検討なんて絵に描いたようだ

521:デフォルトの名無しさん
08/04/09 08:47:51
んー、
動画フォーマットとかはそうでもない気がするけど？

522:デフォルトの名無しさん
08/04/09 09:00:50
mbcs/wcs
ISLISP
IPv6, Mobile IP

この辺は日本の団体が組織的に関わってるよ。

523:デフォルトの名無しさん
08/04/09 09:29:05
個人名で論文や案を提出してレビューする形にしないと、
>>520が多い状況はなかなか改善できないと思う。
本来、案もレビューも書かない奴の意見なんて聞く必要ないんだ。

524:デフォルトの名無しさん
08/04/09 13:14:54
意味のあることを何も言えない奴って、無視されると
意味のあることを言った奴より怒るんだよね。

525:デフォルトの名無しさん
08/04/09 23:39:09
>>523-524
* Ideographic Variation Databaseという対案が明確に示されてる
* 日本は>>520を国際提案していない
話にもならんね

526:デフォルトの名無しさん
08/04/11 14:34:46
>>501
Mac OS XのHFS+は、
さらにアルファベットの大文字小文字の同一視もやってるよな。

ファイル名としては大文字小文字が保存されているけど、
比較ではcase ignoreだからFooがあればfooでopenする。
FULLWIDTHなアルファベットも同じ。

ただしFULLWIDTHとHALFWIDTHな文字は同一視しない。
WIDTH範疇が同じ場合に限り大文字小文字を区別。

527:デフォルトの名無しさん
08/04/11 15:11:34
＞WIDTH範疇が同じ場合に限り大文字小文字を区別。
×区別
○同一視

こうですか?

528:デフォルトの名無しさん
08/04/11 18:52:47
>>510
>そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。

そういえば Unicode で日本語の文字列をソートした場合、普通はどんな並び順に
なるんでしょうか/なるべきなんでしょうか。Collation のライブラリ毎に違うんでしょうか。
unicode.org の TR10 とか見てみましたがよくわかりませんでした。

529:デフォルトの名無しさん
08/04/11 20:02:25
>>526
Case SensitiveなHFS+もあるよ。
同一視する文字や使えない文字はファイルシステム毎に異なるから
あるファイル名が使えるかは単純には判断出来ない。

530:デフォルトの名無しさん
08/04/12 03:00:11
>>529
既にインストーラでは選べないんじゃない?
昔使ってたが、馬鹿アプリで問題発生したので使わなくなった。
アプリ内のファイルがCapitalizedなのに、
アプリが全部大文字でアクセスしてたw

531:デフォルトの名無しさん
08/04/17 22:38:32
URLﾘﾝｸ(std.dkuug.dk)
トンパ文字の提案キター

532:デフォルトの名無しさん
08/04/18 06:22:15
URLﾘﾝｸ(std.dkuug.dk)
ARIB互換漢字についてアメリカとイギリスからIVSを使えよボケと突っ込まれてるｗ

533:デフォルトの名無しさん
08/04/18 21:35:34
これからIVSを積極的に導入してくなら、現在異体字なのに別のコードポイントを
与えられている文字はIVSに吸収してくるとスッキリするんだけど。
今までのしがらみで無理かな。

534:デフォルトの名無しさん
08/04/18 21:48:21
標準に入らなくても、基準とデータは有意義に使われると思うよ。

535:デフォルトの名無しさん
08/04/18 22:25:21
原規格分離規則があるから、全部統一は無理

536:デフォルトの名無しさん
08/04/19 00:09:08
原規格分離規則ってCJK Unified Ideographs領域のみ適用で、
それ以降に定義された領域では使わないっていうアレか。

537:デフォルトの名無しさん
08/04/19 03:41:26
>>533
既存の互換漢字を削除はあり得ないけど、これから追加しようとしたら突っ込まれて当然だろう

538:デフォルトの名無しさん
08/04/20 11:42:06
Uniocde 5.1の文字一覧マダー(aary
URLﾘﾝｸ(www.unicode.org)
予告期限は過ぎてるんだけど

あともう5.2.0のディレクトリあって吹いたｗ

539:デフォルトの名無しさん
08/04/26 22:57:20
TIP URLﾘﾝｸ(www.unicode.org) 甲骨文字

540:デフォルトの名無しさん
08/04/26 23:04:50
文字コードとグリフを同じに扱おうとしたつけだ
いいじゃねぇの？

541:デフォルトの名無しさん
08/04/27 11:10:56
>>538
来てる

542:デフォルトの名無しさん
08/04/27 20:49:59
ところでT書体はまだですか

543:デフォルトの名無しさん
08/04/28 03:56:41
>>542
URLﾘﾝｸ(www.sakamura-lab.org)
4月中の公開は無理そう
つーか以前は「2006年春」って言っててそれもブッチしてなかったっけ

544:デフォルトの名無しさん
08/04/28 13:30:01
URLﾘﾝｸ(std.dkuug.dk)
結局ARIB互換漢字の追加は受理されたようだ

545:デフォルトの名無しさん
08/04/28 14:19:01
ARIBの仕様書が公開されてた
URLﾘﾝｸ(www.arib.or.jp)
JIS X 0213の指示には私用終端バイトを使って
JIS X 0208の独自拡張をESC 2/4 4/2で指示するという変態仕様
逆だろ…

546:デフォルトの名無しさん
08/04/29 08:16:41
まったくの初心者です。
↓のコードは何でしょうか？
17163542

何て書いてあるのか、教えてください
よろしく

547:デフォルトの名無しさん
08/04/29 08:20:26
板違い。こちらへどうぞ
URLﾘﾝｸ(love6.2ch.net)

548:デフォルトの名無しさん
08/04/29 08:23:07
>>547
すみません。
文字コードじゃないんですか？

549:デフォルトの名無しさん
08/04/29 09:10:30
こちらへどうぞ。
URLﾘﾝｸ(google.com)

550:デフォルトの名無しさん
08/05/01 06:43:38
>>543
やっぱり無理ですた

551:デフォルトの名無しさん
08/05/17 07:02:50
とあるアプリの文字エンコーディングの挙動が変だなと思ったので
問い合わせたら、「Win上のIEの挙動と同じにしている」とのこと。

具体的にはEUC-JPで0x5cが円記号で表示されるのですが。
これってreverse solidusが正解じゃなかったでしたっけ?
確かWinだとここら辺、フォントレベルでおかしなことをしてるんでしたっけ?

しかし正直なところもはやWinやIEの挙動を無視することもできず... トホホ。

次ページ