[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 05/09 17:12 / Filesize : 157 KB / Number-of Response : 671
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

文字コード総合スレ part3



1 名前:デフォルトの名無しさん [2007/05/27(日) 16:19:36 ]
プログラムにおける各種文字コードの処理について語りましょう♪

■前スレ
文字コード総合スレ part2
pc11.2ch.net/test/read.cgi/tech/1143375639/

■参考サイト
Unicode Home Page
www.unicode.org/
Java Character Encodings
www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm


334 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 01:09:46 ]
もともとUnicode的にUTF-16の絡みで10FFFFまでになって、
おれにAmd2:2006で追従したんじゃないっけ。
どちらにしろ、今はどちらも4byteまで。
www.rfc-editor.org/rfc/rfc3629.txt 参考までにRFC

335 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 02:42:04 ]
なるほど。納得できたありがとう。

336 名前:デフォルトの名無しさん [2008/02/06(水) 18:15:44 ]
いつの間にかIVS(漢字のVS)正式に決定してた。
www.unicode.org/ivd/index.html

337 名前:333 mailto:sage [2008/02/07(木) 08:54:13 ]
>>334
そうみたいね
俺古いRFC見てたわ

338 名前:デフォルトの名無しさん [2008/02/19(火) 23:13:06 ]
U+FDD0〜U+FDEFが使用禁止になったのって何でだろう?

339 名前:デフォルトの名無しさん mailto:sage [2008/02/22(金) 20:04:35 ]
JIS X 0221:2007規格票の8. 注記3によると
「符号化文字でないことが保証された数値を必要とする内部処理」に使用するためだそうだ。
例として「表を終了させる、テキストの終わりを通知するなど」が挙げられてる

340 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 03:05:40 ]
文字コードふぜいが表の終了とか意識するな。

341 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 08:30:49 ]
文字集合はともかく、
符合化方式がその辺りを考慮するのは当然。

342 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 09:17:36 ]
あとU+FFFFはBMPの最後のコードだから番兵に使うことを特に意識している
U+FFFEは言うまでもなくBOM判別用



343 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 13:25:24 ]
ASCII にだってコントロールコードの領域があるしね

344 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 02:47:39 ]
文字コードとやらに興味を抱き、とりあえずユニコードが標準と知り、
番号からUTF-16を使っていたのですが、
このスレの人は何を主に使っているのですか?
検索をしていると16よりも8の話題のほうが見つかるので、
実は8のほうがいいのかなと悩んだりしています。

345 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 03:08:25 ]
つか、今、同じテキストファイルを変換してみたのですけれども、
よくよく考えたらUTF-8は可変で日本語の文章に関しては、
全てを2バイトで扱うUTF-16に比べて、
日本語部分を3バイトで扱うUTF-8は情報量が多いほど、
容量が無駄に大きくなってしまいませんか?
1.5倍ですよね。それを補うほどの使い勝手の良さがあるのでしょうか。

346 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 03:14:34 ]
南北アメリカや西ヨーロッパの多く言語は平均すると一文字当たり2オクテット未満であらわせる。

347 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 03:27:30 ]
後は1要素が1byteに収まるから扱いが楽、とか

まぁ日本語を基準に考えてる時点でUnicodeの思想から外れてる気はする

348 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 09:29:53 ]
>>344
1.5倍程度でけちけちするな、多言語化ってのはそういうもんだ。
マジレスするとUTF-8側にメリットがあるというよりも、
UTF-16側がサロゲートペアやバイトオーダー、ASCII非互換、guessしずらいなど、
いろいろと面倒なのでUTF-8の方がよい。

349 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 10:57:52 ]
WindowsがUTF-16なんで、自分のプログラムもUTF-16です。

350 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 23:33:43 ]
ケチ臭いことを言うんだったら、ASCIIの制御文字の部分の方が勿体無いと思うけどね。
ホントにASCIIてクソだなあ。


351 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 02:21:38 ]
ASCIIが7bitで治まってくれていて良かった。
ISO 8859-1みたいなんじゃなくて、ASCIIが8bit、
×も≠も欲しいなんて言い出さなくて本当に良かった。
奴等が重ね打ち馬鹿で本当に良かった。

352 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 19:16:38 ]
すみません、
EUC-JP 系のエンコーディング(含 eucJP-ms, CP5132)においてどういう文字が
割り当てられているかを知りたいのですが、いいウェブページはないでしょうか。



353 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 20:07:35 ]
>>2


354 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 20:25:25 ]
そーいや、opengroup の eucjp-ms とユニコードの変換表のページはもう見れないのかな?

355 名前:デフォルトの名無しさん [2008/03/13(木) 21:04:03 ]
utf8がascii互換でソースに書いたり、ファイルに書き出すには一番使い勝手はいいと思う。
WinならAPIとの互換性のために、メモリ上はutf16が良い。Shift_JISに変更する気はあんまり起きない。
パーサーなどで、コードポイントを等間隔で扱いたいときにはutf32にしてる。

356 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 21:27:56 ]
>>353
やはりそこら辺ぐらいですか?

まずは1バイト部分が気になっていたのですが、

>また、16進数で「21」〜「7E」の文字にASCIIとJIS X 0201ローマ文字のいずれを使うかは、
>歴史的にはASCIIの方が正しいのですが、実際には使う人の自由にまかされます。

ということは例えば0x5cはreverse solidusでもyen signでも好きな方使え、ということ
なのかな? とほほー。

357 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 21:41:13 ]
すみません、機種依存文字は、どうして、存在しますか、?
ローマ数字とか、文字化ける、現象の、ことです

358 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:03:50 ]
各ベンダが似て非なる文字コードを使い続けたから。

359 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:22:37 ]
似て非なる文字コードが多くて、判定をミスるからでそ。

360 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:28:35 ]
>>354
numa氏が転載してくれてる
blog.livedoor.jp/numa2666/archives/50980727.html

361 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:40:03 ]
>>359
表示できない文字のことを言っている。>>357


362 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:41:16 ]
>>357
お国はどちらで?



363 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 23:17:28 ]
西村京太郎が書き込んだんだよ。

364 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 09:14:19 ]
>>352
legacy-encoding.sourceforge.jp/wiki/
多分こっちの方がいい。
なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。
eucJP-0201 が JIS X 0201 Roman。

365 名前:352 mailto:sage [2008/03/14(金) 09:55:43 ]
>>364
ありがとうございます。

>なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。
>eucJP-0201 が JIS X 0201 Roman。

なるほど。JIS X 0201 Roman はマイナーですね。
なお、今ググったら ICU のサイトもヒットしたので、そっちも参照してみます。
iconv や Perl-Encode なんかはこの辺どうなってるのかな。
しかし EUC-JP 系ってナニゲにタチが悪いですね。下手すると SJIS 系より悪いのではw

366 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 11:08:59 ]
IANA charset repositoryのは、きっちり決まっているから何も問題ないぞ?

独自改変があるのは、どのコードでも同じだし。
その辺まで全部気にしたいのなら、Windows上でベンダー共同の文字拡張、
firefoxのEUC拡張とか、いろいろありすぎてやってられないと思う。


367 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 11:59:42 ]
>>365
iconv は glibc iconv と libiconv と 森山さんのパッチ済み libiconv と Citrus iconv でも違って、
「EUC-JP」での \x00-\x7F までは ASCII と考えていい、これは IANA で定義されてるから。
ただ、それより多バイトは実装による。

Perl/Encode は Shift_JIS も EUC-JP も \x00-\x7F は ASCII だね。

なお、Shift_JIS は IANA 定義では \x00-\x7F が JISX 0201Roman なことに注意。
これにしたがっている実装はあまりないが、たまにあるので地雷。
ていうか、Shift_JIS でなく Windows-31J/CP932 を使えばトラブルは少ないのでこちらの方が回避は楽。

368 名前:352 mailto:sage [2008/03/14(金) 13:43:47 ]
>>366 >>367
どうも有益な情報をありがとうございます。

文字コード処理にどのぐらい挙動の幅を持たせるかとかを悩んでいます。
>>365さんも書かれてますが、例えばHTMLでcharset=Shift_JIS or EUC-JPとなっている
が、拡張漢字のコードが入ってた場合(これは結構ある)にどうするかとか。
あと、差のある部分(全角記号等)をどっちだと思って処理するかとか。

369 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 14:01:57 ]
サーバ側で、かつ、どのクライアントに対してもきっちりやりたいなら、
User-Agent: をみて、独自の拡張、改変にちゃんと対応するしかない。

firefoxのケースはググれば出てくる。
CP51932関連も読んでおいた方がいい。

370 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 06:16:20 ]
>>365
Shift_JISだって、CP932、Shift_JISX0213、Shift_JIS-2004などの変種がある。
むかし補助漢字を無理やり埋め込む変種もあった。

> Windows上でベンダー共同の文字拡張、

eucJP-ms?

371 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 09:41:00 ]
> 補助漢字を無理やり埋め込む変種もあった。
kwsk
そういう噂は聞いたことあるけど実際にどんな仕様だったのか調べてもわからない

372 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 10:19:31 ]
>>370
> Shift_JISX0213、Shift_JIS-2004などの変種がある。
これって名前以外に違いあるんだっけ?



373 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 10:41:07 ]
Shift_JISX0213は、JIS X 0212:2000に、
Shift_JIS-2004は、JIS X 0212:2004に基づいている。
UCS互換文字が10文字追加されている。

追加だから、表示などの用途に限れば、
Shift_JIS-2004だけで十分だが、
文字集合チェックしたければ区別する必要がある。
(>>352はそういうことをEUC-JPについて知りたいようだったので書いた)


374 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 10:54:07 ]
そもそもサポートする必要ないよ、とか言ってみる。
増やせば増やすほど混乱の種が増す。
とくに「レガシー」エンコーディングプロジェクトのくせに新しいことをやりたがる奴らは
まとめて氏ね

375 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 10:58:43 ]
BMP氏ね

376 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 11:00:35 ]
時代はPNGです(そっちか)

377 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 11:26:08 ]
>>373
thx

378 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 13:22:46 ]
>>372
当時のfj.kanjiにいくつかの提案をまとめた記事があったはず。

379 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 14:11:30 ]
うーんGoogle Groupsには残ってないようだ
当時ニュースグループには参加してなかったからログを探すのが困難だ

380 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 16:42:56 ]
>>374
>そもそもサポートする必要ないよ、とか言ってみる。

世界中のソフトが足並みを揃えられればいいんだけどね。
現実的にはより「好意的に」データを処理してくれるアプリの方が
ユーザーのウケが良くて、困ったものだ。

それに「レガシー」とはいうものの、メールでもウェブページでもまだバリバリに
使われてるわけだし。

381 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 16:54:50 ]
なにせここも Shift-JIS だしな

382 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:46:28 ]
>>380
さすがにShift_JIS-2004をサポートした方がユーザーの受けがいいってことはないだろ
むしろ円記号や名簿の高橋さんが文字化けする! とか苦情が増えそうな気がする



383 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:47:21 ]
> 世界中のソフトが
日本中のソフトだけだろ。
最近のソフトやプロトコルは日本人が口出ししない限りUTF-8のみなんて珍しくもないぞ

384 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:53:04 ]
> それに「レガシー」とはいうものの、メールでもウェブページでもまだバリバリに
> 使われてるわけだし。
まだ使われているものをサポートすることは別に反対してない。
現在誰も使ってないどころかかつて使われたことすらないものを
「よかれと思って」付け足そうとする奴は氏ねと言ってる。
ISO-2022-JP-MSとか(頓挫したけど)
NEC選定IBM拡張漢字とIBM拡張漢字にVS付けて区別するとか
正気とは思えない

385 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:53:56 ]
JIS X 0213のせいで日本の悲惨さ倍増w

386 名前:352 mailto:sage [2008/03/17(月) 04:46:50 ]
皆さんどうも。
Win上だと例えばcharset=EUC-JPだけど実はCP51932なHTMLとかは
あんまり問題にならないのかもしれませんが、非Winだとそうでもなくて、
ちょっと情報を必要としていました。

ウェブブラウザとかメールソフトとかデータベースとか、日本人が開発の
中心にいないものも少なくないんじゃないですかね。そうすると日本語の
エンコーディングに関するバグの説明とか、面倒ですね。

387 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 05:01:27 ]
糞会社が勝手に文字集合を独自拡張するのがまずいのであって、
受け手が四苦八苦しているのが悪いわけではない。

388 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 08:01:19 ]
どうでもいいけどWin3より前の時代にアメリカの技術者と話をするときに、
通訳が「漢字」を"chinese characters"と訳すのには閉口させられたなぁ。
現物見せてやっと話が噛み合ったよ。

389 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:18:12 ]
ややこしいが漢字を Chinese characters としている和英辞書があるんだよな。
大昔、千年以上前の日本人にとっては、漢字≒中国語文字かもしれないが
現代の日本人が漢字といえば国字 Japanese characters で漢字体のものを
指すのが普通だな。

通訳は空気を読むべきだと思うが、通訳が頼りない場合は
漢字だと誤訳・誤解されるおそれがあるので日本文字 Japanese characters と
言ったほうがいいかも。

390 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:31:27 ]
普通「漢字」は「ひらがな」「カタカナ」を含まないけど、
文字コードの世界では、含めて「漢字」ということがあるからややこしい。

本来の狭い意味での「漢字」なら、
Japanese Charactersの中のChinese Charactersってことで問題ないはずだけど。

391 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:37:28 ]
最近はKanjiで通じるようになってきたから嬉しい。

392 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:38:11 ]
もうKanjiでおk



393 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:44:23 ]
CJK Unified Ideographs のことだろ、Kanji って
ってな、合ってるんだけど間違ってる理解が今後増えそうで嫌だ

394 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:48:45 ]
>>391>>392
それってひらがな、かたかなは含む?

395 名前:388 mailto:sage [2008/03/17(月) 12:55:49 ]
あー、そんときは通訳が(理由は忘れたが)席を外したんで、
隙を狙って"Kanji is Japanese special character, not only Chinese."みたいなことを言った希ガス。
当然向こうは"???"となったから、「現物を見せましょう」という流れに持ってった。
# んで、「Windowsじゃそんな文字出せない」みたいなこと言われたんだよなw

396 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 13:15:36 ]
>>394
391でも392でも無いけど、俺の知っている範囲では「含まない」。

たとえば、日本語学習者とか、日本の漫画やアニメのファンが
"HiraganaやKatakanaは何とかなるけど、Kanjiはホントに難しいyo"
とか、そういう風に口にする。

397 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 13:52:28 ]
>>394
文字コードのことをちゃんと勉強してる技術者には、
KanjiっていえばHan charactersのうち日本語で使われてる文字だって伝わる。

Unicode万歳って感じだわ。

398 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 15:17:07 ]
JISの「漢字集合」にはひらがなカタカナも含んだな

399 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 19:06:02 ]
JIS X 0208の「漢字集合」だとラテン文字やキリル文字まで含むけど、
「漢字」だと漢字だけだよな。

400 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 23:49:15 ]
JIS X 0208の「非漢字」のうち1文字はUnicodeでは漢字扱いだったな
Unicode 1.0では非漢字領域にもあったけどUnicode 1.1でunifyされたらしい
と安岡センセイか誰かの日記で読んだ

401 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 00:22:44 ]
更級日記?

402 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 07:53:24 ]
"仝" だっけ。一部の人にはハートマーク差し替え記号として知られるw
"〆" は文字だっけ? JIS では記号だけど。



403 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 08:03:36 ]
>>402
〆は0208由来の非漢字と補助漢字由来の漢字が両方入ってる
EUC-JPとラウンドトリップコンバージョンを確保する必要があるから

404 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 12:50:52 ]
unicodeで
アファベットかどうかやひらがなかどうかやカタカナかどうかとか
文字種別みたいなものをロジック的に判別する方法ありますか?
それともSJISとかみたいに力任せですか?
あと濁点の「が」と「が」みたいなのを正規化する方法って決まってませんか?


405 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 13:11:04 ]
>>404

>文字種
そういうAPIがあるプログラム言語とかライブラリ使え
どれがどの文字種かは >>unicode.org

>正規化
決まってる >>uniocde.org

406 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 15:00:42 ]
>>405
>正規化
結合文字の正規化目的でNFCを使うとCJK互換漢字でハマるから注意

407 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 20:19:07 ]
「神」が化けるとかだっけ

408 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 22:28:39 ]
internet.watch.impress.co.jp/www/column/ogata/sp25.htm

409 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 00:28:49 ]
Unicodeの正規化といえば、MediaWikiが外部から入力された文字列を全部正規化しやがって、
互換漢字を入力できずに困ったことがあったわ。

410 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 07:34:46 ]
>>407
ファイル名が Unicode ベースなファイルシステムだと何らかの正規化がなされていると
思うけど、同じ場所に「b」という名前のファイルと「神」とのいう名前のファイルを作ろうと
したら、どうなるべきなのかな?

411 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 07:43:42 ]
>>410
手元のWindowsXP/NTFSだと U+00C4 と A+U0308 を別々に作れた、なので正規化はしてないっぽい。
MacOSXだと作れないだろうね。

412 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 10:01:39 ]
>>410
> > 何らかの正規化がなされていると思うけど

Mac OS Xくらいしか知らないよ。
Windows, UNIX系ではないんじゃない?




413 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 10:08:51 ]
>>411
MacOSXでも作れる。
OSXのVFSはNFDに準じたファイル名の正規化を行うが、互換漢字は対象外

414 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 14:30:19 ]
>>413
VFSじゃないだろ?
CarbonとHFS+でやってんじゃない?

すくなくとも10.3の調査ではそうだった。
だからターミナルからUFSやNFS上にファイルを作成すれば、
ファイル名はNFDされてなかった。

415 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 17:17:53 ]
>>412
ほんとに? 正規化されてないUnicodeでファイル名を扱うっていうのは
混乱を招くような気がするのだが...

416 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 18:49:29 ]
データそのものを正規化してしまうような仕組みは嬉しくないなあ。
正規化はソートや検索の時に動的にしてくれたほうが嬉しい。

417 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 19:02:26 ]
>>416
ヘテロな環境で正規化の方法が違った場合、
USBサムドライブで困るよね。


418 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 20:53:24 ]
>>414
Technical Q&A QA1173
Text Encoding in VFS
developer.apple.com/jp/qa/qa2001/qa1173.html
developer.apple.com/qa/qa2001/qa1173.html

419 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 21:16:22 ]
>>418
この文章だと10.2の頃からそうなっているみたいだけどそれは嘘。
Darwinのソースコード&テストで調べた。


420 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 23:00:27 ]
>>415
むしろ下手な正規化(大文字と小文字の同一視とか)をされるより
個々のアプリでの扱いに任せてもらった方が混乱は少ないよ

421 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 23:19:28 ]
小文字と大文字の同一視は、
Mac, Winでそうだから避けられないのかねえ。
カタカナとひらがなはどうなんだとかきりがないねえ。

422 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 00:29:04 ]
>>420
そうじゃなくて、NFCとかNFDとか、上に出てたでしょ。



423 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 00:54:10 ]
>>419
まあ「VFS API」というのが実際に何を意味するかですかね。もしかして UNIX の
ファイルアクセス用の API (システムコール)程度の意味なのかも。
かつ HFS+ のことだけを念頭においているのかも。NFS とかは「例外」扱いだし。

実際 UFS や NFS は正規化はしないですね > Mac OS X

424 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 01:41:14 ]
>>409
MediaWikiでは正規化されたくない文字は文字参照にするしかないね
それでも項目名には使えない

425 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 01:43:01 ]
>>421
つ[Collation]
ただし事前処理として正規化が前提になってるのでもし互換漢字のソート順を
統合漢字と変えたかったりしたら使えない

426 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 07:50:55 ]
>>423
HFS+オンリーで「VFSが」というもの…w

427 名前:デフォルトの名無しさん [2008/03/20(木) 23:07:19 ]
OS:WindowsXPproSP2
アプリ:DreamWeaverMX

DreamWeaverMXでhtmlファイルを新規作成したとき、<META>タグは以下の記述でした。
<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">

ここではcharsetで文字コードShift_JISを指定していますが、ページをIE6.0以降で見られることを想定した場合に
文字化けをできるだけ減らすためには、charsetの値はどのようにすればいいのでしょうか?

428 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:26:38 ]
そのままでいいよ

429 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:50:02 ]
板違いだからweb制作でも行け

430 名前:デフォルトの名無しさん mailto:sage [2008/03/21(金) 12:26:11 ]
>>428-429
了解。ありがとう

431 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 16:34:58 ]
EUC-JP と宣言しながら CP51932 なウェブページがかなりあるのに
CP51932 相当の IANA 名を定義するような動きはなかったんですかね。
Shift_JIS と Windows-31J の区別はあるんだし。

432 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 00:50:39 ]
CP51932だってどうしてわかるの



433 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 08:29:22 ]
>>431
どれぐらい多いの?
日本語で書かれているウェブページのうち、何%がEUC-JPと宣言されてい
て、そのうち何%が実際はCP51932なの?


434 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 09:39:56 ]
windows-31jって、今からでもwindows-932にならんかね。aliasでもいいんだけど。
他のwindows-コードページの番号ってなってるコードページと一貫性がない。

435 名前:デフォルトの名無しさん [2008/03/24(月) 11:06:44 ]
0x81〜0x9Fの文字がある=Shift-JIS
0xFD〜0xEFの文字がある=EUC
って解釈でいい?

436 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 14:55:39 ]
まさか

437 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 19:59:20 ]
そんな楽で良いなら

438 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 20:04:29 ]
世の中に一体いくつの文字コードがあることか

439 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 20:06:57 ]
UNICODEの存在意義がなくなる

440 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:08:24 ]
>>434
Microsoftがietf-charsetsに提案してたようだが例によって途中からgdgd
mail.apps.ietf.org/ietf/charsets/msg01618.html
こんなだからみんな面倒な登録手続きなんか無視して
好き勝手にcharset使い出してカオスになるんだろうな。

そういやISO-2022-JP-2004の登録手続きはどうなりましたか安岡センセイ
www.jstage.jst.go.jp/article/johokanri/50/2/67/_pdf/-char/ja/
こんなもの書いてる暇があったらShift_JIS-2004登録してください
規格通りに使いたくても使えないじゃないですか

441 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:09:56 ]
もう全部x-つけといたらいいよ。

442 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:16:39 ]
つーかさー
mail.apps.ietf.org/ietf/charsets/msg01783.html
なんでMartin Duerstセンセイともあろうお方が今さらこんなこと言ってるの?
RFC 1192ご覧になったことあります? つーか
> We also wish to thank the following people who contributed in many
> ways towards this document.
> Zhang Zhoucai Martin J. Duerst
見てないはずがないんだけど。

何でcharset-extensionとcharset-editionはみんなに無視されたのに
今度はうまくいくとか無邪気に思い込めるわけ?



443 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:17:15 ]
RFC 1922の間違いorz

444 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:23:06 ]
>>440
いやそのドキュメントは有意義だと思うよ。
ちゃんとまとめて、読めるようにしとかないと、
独自コード乱発は加速するばかりだから。

445 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 01:19:23 ]
>>431
CP51932 相当の IANA 名をWindows-31Jって言うんじゃね?
テキストエンコーディングが何だろうと、文字集合は同じでしょ。

446 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:35:01 ]
>>445
IANA charsetの「charset」は文字集合+符号化方式のセット

447 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:38:59 ]
>>440
Martinセンセイにドキュメントがないだとか色々突っ込まれて力尽きてたはず。
使いたいなら後をついで進めるといいのかもしれないけど、
必要なドキュメントをJISが握ってる以上難しい気もしないでもない。

448 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:56:26 ]
流れぶった切ってすまん。
日立のEBCDIKコード表探してるんだけど、
www.wdic.org/w/WDIC/EBCDIK とか
www.pleasuresky.co.jp/ebcdic.php3 とかじゃなくて
日立が提示してるオリジナルがいいんだけど、どっかにないですかね?

449 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 12:01:21 ]
www.pleasuresky.co.jp/images/ebcdic.gif

450 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 12:04:00 ]
>>449
なにこの汚いコードは

451 名前:デフォルトの名無しさん [2008/03/25(火) 12:13:23 ]
文字コードの判別、変換に挫折した…
情けねぇ…

452 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 18:13:48 ]
EBCDIC くらいは知っとこうぜ



453 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:14:53 ]
>>444
ドキュメントの有意義さは否定しないけど
実際にWebページやメールでそのドキュメントの通りに使えというなら
使えるようにしてくれなきゃ話が始まらない
>>447
俺はUnicodeでいいと思ってるからなー
使いたい人ががんばってくださいとしか
がんばらないで勝手に使うという最悪の選択だけはくれぐれもやめてほしい

454 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:21:11 ]
UpperCharで
小文字 0xED40 \

大文字 0xFA5C \
に変換されるのですが、この辺わかりやすく説明しているサイトないでしょうか〜


455 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:35:00 ]
>>454
support.microsoft.com/kb/170559/ja

456 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:41:47 ]
>>455
非常に勉強になったよ。
ありがとう!

457 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 02:30:15 ]
>>453
> 実際にWebページやメールでそのドキュメントの通りに使えというなら

言ってないw

458 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 02:37:51 ]
なるほど
> ケータイの絵文字や、CP932のIBM拡張文字など
はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに
直接書いてはいない。でもそれなら何で今インターネットで使えるJIS X 0208:1997
ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの?
Shift_JIS-2004の絵文字のうち
> 「♪」以外は収録されていなかった
そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?

459 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 08:47:40 ]
結局世の中の流れとしてはこんな感じ?

1. いわゆるレガシーエンコーディングの、ベンダー毎の拡張みたいのは今後積極的
にはサポートされない。
 -> 新たに IANA に登録されてたりすることはない?
 -> charset にない文字を使っているようなのは化けてもしょうがないって感じ?

2. IBM拡張漢字、絵文字等をどうしても使いたい場合は Unicode で。
 -> Windows-31J は IANA に登録されてるからアリ?

460 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 09:54:22 ]
Windowsで扱える文字一覧みたいなものはどこかにないでしょうか?

461 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 12:14:50 ]
コードページ毎で良ければここはどう。
www.microsoft.com/globaldev/reference/cphome.mspx

462 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:04:19 ]
>>460
U+0000からU+10FFFFまで扱えるよ



463 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:10:39 ]
>>461
ちゃんと資料があったんですね。ありがとうございます。

464 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:12:18 ]
>>462
すいません、ちゃんとフォントがあって表示できる
またはIMEから入力できるものという意味でした。

465 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:20:32 ]
>>458
>> ケータイの絵文字や、CP932のIBM拡張文字など
>はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに
>直接書いてはいない。
IANA charset登録済みのもの。

>でもそれなら何で今インターネットで使えるJIS X 0208:1997
>ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの?
なんでだろうねぇ。
Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。

>> 「♪」以外は収録されていなかった
>そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?
使っていい、Unicodeに登録されているんで、UTF-8を指定すればよい。
もちろん、JIS X 0213系のエンコーディングはダメ。




466 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 18:55:27 ]
> Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。
他にも>>440の資料は突っ込みどころ大杉。
> JISにもUnicodeにも違反しており
未使用領域を使用禁止にしているJIS X 0208/0213と違ってUnicodeでPUAを
使うこと自体は何も規格に違反してない。いわば文字化けするのはUnicodeの仕様。
> Windows Vistaの方が、ある意味、正しい動作だと言える。
どっちかが正しい動作だと言うこと自体ミスリーディング。
規格を守っていても「字体化け」するのがJISやUnicodeの「仕様」。

もちろん安岡センセイがそんな初歩的なこと知らないはずがないので
確信犯なんだろうけど(とくに後者)。

467 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:05:38 ]
しかし、文字コード関連は政治的な位置からものを書く人間が多すぎるな

468 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:16:54 ]
文字コードはもともと政治の道具です

469 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:22:49 ]
オタク好きするんだよ。政治というか、勢力争いの話はね。
そういうのが存在する分野の話になると、そこにばっかフォーカスすることになる。

それだけを固めた例としては、ゲーハー板。

470 名前:デフォルトの名無しさん mailto:sage [2008/03/28(金) 00:04:05 ]
>467
だったらネタ振ってくれ。例えばNew ASCII配列とか。

471 名前:デフォルトの名無しさん mailto:sage [2008/03/28(金) 05:47:01 ]
例まで絞るくらいなら、その話題を自分が振ればいいのに。

472 名前:デフォルトの名無しさん mailto:sage [2008/03/29(土) 13:19:21 ]
EBCDICとEBCDIKの違いがあるのも政治的な理由からですか?



473 名前:デフォルトの名無しさん mailto:sage [2008/03/29(土) 15:58:10 ]
メリケン野郎にはカナなんかいらんからだろ。

474 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 02:19:37 ]
ICU のこのページ→ demo.icu-project.org/icu-bin/convexp なんだけど、
Aliasってことは「等価な」エンコーディングって扱いなのかな?
もしそうだとすると日本語のエンコーディングに関しては鬱なような...

475 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 04:31:26 ]
ちょっと横レスですが。

>>472-473
EBCDIKってのは日立方言だよ。
ネットではEBCDIC(カタカナ版)のことだと説明してることが多いけど、
誰かがそう書いたのをよく調べもせずに孫引きで書いている奴が多いだけ。

476 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 11:19:36 ]
>474
「Converters with conflicting aliases」とか。
ibm-942-P12A-1999とibm-943-p15A-2003が
両方ともaliasにcp932を持ってる事の説明が付かないけど?

477 名前:デフォルトの名無しさん mailto:sage [2008/04/04(金) 11:08:02 ]
さて
Unicode 5.1のリリース予定日がやってまいりました

478 名前:デフォルトの名無しさん mailto:sage [2008/04/05(土) 21:55:19 ]
無事リリースされますた。
StandardizedVariants.htmlにIVDに関する言及が追加されますた

479 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 02:55:20 ]
また新しい文字コードが一つ増えただけになるのか、それとも統合されるべく方向に行っているのか。
まったくこのスレのネタすら分からないけど、基本的にutf-8かutf-32?使っておけばよい?
16はなんか面倒とか聞いた覚えがあるが今はそこまで調べる気力なし…。

480 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:49:53 ]
>>479
基本的に UTF-8 使っておけばよし

UTF-32、というか32ビットでの処理はアプリが内部で使う場合の話で
文字コードとして意識する必要はないよ

481 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:58:00 ]
内部処理も行処理程度だとUTF-8のままってのが多いしね。

482 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 12:53:51 ]
ユニコードで唯一の功績は UTF-8 を発明したこと。
提案したのは部外者だけど。



483 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:02:59 ]
功績か?
utf-8って好き嫌いがはっきりしている気がする。

484 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:07:05 ]
日本語が3〜4バイトになるからなあ。
まあ仕方が無いのは分かるが。

485 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:08:59 ]
>>482
Unicodeのエンコード方式の一つとしてはそうなのかもしれんが…
一長一短な気もするけど、今後Unicode対応アプリを作る上ではUTF-8はchar*で扱える
面だけ取れば悪くはないのかも
XMLとかもさ
だけど、結局ファイルやストリームから読み取る分にはUTF-8でいいけど、1〜4バイトの
可変長ってのがね
処理内部はUTF-16として扱うのが一番楽だね1文字2バイトと単純計算できるし、
今はサロゲートペアのことを意識する必要が無いから

文字列はそもそもリソース定義すべきだから、ソース中に文字列で埋め込まないんであれば
エンコード方式さえはっきりしてればどうでもいいや
それより、SJISでコメント書いたソースをWindowsエミュレータやリビジョン管理(ClearCaseやCVS、SVN)
で使って、実機やテスト機(Linux)ではEUCだとコンパイル時にコメントが改行されてたりするんだよねw
うちんとこでは、Lunuxビルドはmakefileの中でnkfで文字コード変換されてるが…

486 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:19:34 ]
> 今はサロゲートペアのことを意識する必要が無いから
いつかサロゲートペア対応に改良する暇はあるの?
初めからUTF-32にすればいいだろ。

487 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:26:20 ]
ユニコードはエンコード方式がわかっても日本語とは限らないんだな。
CJKでしかないから。

488 名前:485 mailto:sage [2008/04/06(日) 21:33:50 ]
>>486
Unicode 4.0を見てみたw
どう見ても、当面サロゲートペアを使う必要はなさそうだなあw
UTF-32でもいいんだけどさ、やっぱ1文字で4バイトってやだなー
特に理由ないんだけどさ
U+10000〜を使うことが明らかなら別だけど、使わないしさ

>>487
CJKというか、CJKVのようだけどね
Unicodeは言語を識別するためのものじゃないし、それは別途ISO 639なり使って
管理するとかじゃないの?

489 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:37:48 ]
今の仕様書を1990年に持っていけたらもっとマシなコード体系が出来上がるんだろうなあ…

490 名前:485 mailto:sage [2008/04/06(日) 21:43:44 ]
>>489
時はバブル、んな将来的なことどうでもいいとか思われそうだがw
Y2Kなんて、もっと早急に対応してればあんなに世間が騒ぐこともなかったんだし
結局何も起きなかったけどさw

491 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:58:14 ]
世の中の悪い事態の多くは、そうなることが予測不能だったからではなく、
そうなるとわかっているけど対処しなかったから起こったんだ、
とつい最近どっかで読んだけど、まったくだw

492 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 22:12:38 ]
その意味では正に、
「過去に戻れても、やはり同じようになるよ」だな。



493 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 23:09:49 ]
>>485
>今はサロゲートペアのことを意識する必要が無いから
さすがにもう時間の問題でしょ。
そろそろ JIS X 0213 が要求に入り始めるだろうし。

494 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 01:51:07 ]
UTF-8は大好きですよ

495 名前:485 mailto:sage [2008/04/07(月) 08:49:15 ]
>>493
JIS X0213はさすがに困ったちゃんな規格を作ってくれたもんだなぁと思いつつも、いわゆる第三〜第四水準に
ようやく人名漢字として略されてたものとかが扱えるとかどうとかで恩恵を受ける人もいるんだろうか?
サロゲートペアを扱うとなると、1文字=2バイトの原則が壊れるんだよなぁ

そういや、2000年だかから中国のGB2312の拡張規格GB18030は、中国大陸における文字表示可能な機器の
全てが対応する必要があるとか訊いて社内で騒ぎになって、Windows2000ではGB18030フォンとパックやら
変なAPIで4バイト文字対応してたとおもうんだけど、こいつはUnicodeとどう親和性を取るつもりなのかな?
規格上はGB18030はISO/IEC 10646を丸ごと飲み込んじゃう規格なんだけど…

496 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 13:42:22 ]
>>485
>今はサロゲートペアのことを意識する必要が無いから

サロゲートペア以外にも合成文字とかあるんですけど。

497 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:05:39 ]
>>496
MacOS-Xの「ヒ+゜」とかね。
いつ「普通の」データとして飛び込んでくるか分かったもんじゃない。

498 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:12:03 ]
何しろあれが正規形の一つだからな。

499 名前:485 mailto:sage [2008/04/07(月) 19:41:16 ]
>>496
確かに…
合成文字はヤだなぁ
あと、くっつき方がキモいデーヴァナーガリー文字とかその類も…

500 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:01:44 ]
>>497
Mac持ってないけど「ピ」は合成されてるの?
JISX0213の「か゜」とかじゃなくて?

501 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:26:25 ]
>>500
>>413のNFD


502 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:46:58 ]
>>485
もう現実を見るんだ。
固定バイトの文字コードなんて所詮夢だったんだよ。



503 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:20:35 ]
それでも32bitあればなんとか…

504 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:25:05 ]
HYPHEN-MINUSって文字が誕生した時からこの世はカオスさ

505 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 22:26:30 ]
UTF-8は0x10入らないようにして欲しいなぁ。

506 名前:485 mailto:sage [2008/04/08(火) 09:22:27 ]
>>502
そうか、やはりそうなのか…
固定バイトはもはや夢物語なんだなorz
合成文字といえば、ヨーロッパのラテン文字事情なんとかならんのでしょうか???
ローカライズにあたって、文字列検索の曖昧検索を行うわけなのだが、Aとキーされようと、
アクセントが付いてようとウムラウトだろうと引っかからないといけないのはまぁいいとして…
A+アクセントとかはやめて欲しいのだがw
いったい、ヨーロッパは何言語あるんだYO!

507 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 09:43:20 ]
L10nされたあいまい検索は、各言語のネイティブの専門家によるアドバイスが
ないとムリポ。
(「エ」と「ヱ」を同一視するかどうかなんて日本人でも判断に困るだろ?)

508 名前:485 mailto:sage [2008/04/08(火) 11:31:51 ]
>>507
だよねー
今月号の「NEWTON」を読んだら、ラテン語のアルファベットは当初英語で使われるものとほぼ
同じだったとか?
その後に、フランス語やらでアクセント記号が付けられたとかどうとか…
てっきり、逆だと思ってたんだが、Unicode 1.0策定時にCJKの統合に当たってルーツの異なる文字で
似ている物を同一視しようとした件、ラテン語圏でもやはりアクセント記号はそれくらい意味のある文化
の一つなんだろうか…

幸い、自分は合成文字には今のところ携わることはなさそうだが…
中国国家標準のGB 18030をどうにかしてもらいたい…
GB 2312、ASCII、ISO/IEC 10646をうまいこと包含しているという点ではうまいこと考えたなと関心
出来るんだけど、結局は1〜4バイトのマルチバイト文字ってワケで、ISO/IEC 10646を包含したとしても
変なジレンマ作ってるだけだし…
そもそも、CJKのグリフが U+3400〜U+4DFE、U+4E00〜U+9FFEまでしか割り振られてないじゃんか!
BMP面で足りるじゃんかー!

509 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 13:30:47 ]
>>507
ラテン語ネイティブも、油断してると、
JIS X 0208のFULLWIDTH LATIN (CAPTAL) LETTER *ってのがあるしね。
自前で実装しようとするとHALFWIDTHへの正規化を忘れちゃう。

>>508
表音音文字元祖のフェニキア文字の子孫の
ギリシャ文字でさえ発音記号はないからね。

アクセント記号はcollationの時にも、
取り払ってソートするか付いたままソートするか、
国によって標準的な取り扱いが違って難しい。

510 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:21:30 ]
そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。

>>GB18030
Unicodeに変換して処理するだけなんだから別に関係ないでしょ

511 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:49:23 ]
他国の心配する前に日本語の処理くらいまともにやってくれ

512 名前:485 mailto:sage [2008/04/08(火) 21:02:50 ]
>>510
いやいや、GB 18030は現状はUnicodeでグリフのある領域はカバーしてるけど、Unicodeに無い
民族文字やらをどんどん増やす思惑があるらしい…
だったらその思惑をUnicodeコンソーシアムで提起して貰いたいものなんだが…

>>511
俺の文章?orz
どうせローカライズ以前に、各国の文言を用意するのは翻訳チームのすることで、俺は関わってないし



513 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 21:05:12 ]
自国で独自路線に突っ走りまくってる日本じゃないんだからお前ごときが
他国の心配しなくてもちゃんと国際提案してくるからむしろ日本NBの怠慢ぶりを
何とかしてくれってば

514 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 21:21:00 ]
そこでJIS第五水準ですよ

515 名前:485 mailto:sage [2008/04/08(火) 21:46:47 ]
>>513
これは>>513の現場もそうだろうと思うのだが、日本人のSEに限らずPMに至るまで、
日本における標準化についてまともに考えている奴っている?
C++を理解するのにISO/IEC 14882を読んだり、仕様書を書くときに主語をちゃんと
付けることを意識するとかさ?
今俺が書いてる文章なんかは支離滅裂だけどorz

>>514
JIS X0213の二の舞はやめようよw

516 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 22:14:13 ]
>仕様書を書くときに主語をちゃんと付けることを意識するとかさ?
書かないまでも、意識していないと所謂「とんでも」文書ができあがるわけだが。
# 「マウスボタンが押すとウインドウが表示します」とか。

517 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 22:40:59 ]
>512
UNICODE的に、新規コードポイントの追加は、
まずは国内規格、次にUNICODEって順番じゃなかったっけ?

518 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 23:31:00 ]
だから、ウニコードやまりゃいいじゃん


519 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 00:23:03 ]
はやくExt-C出せー

520 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 02:59:07 ]
>>515
なんで俺の職場の話がいきなり出てくるのか意味不明だが
日本における標準化の試みは
学者が机上の空論をあーでもないこーでもないと小田原評定のごとくこねくり回した
挙げ句黒船に全部持って行かれるのが通例。
www.itscj.ipsj.or.jp/domestic/mojicode/index.html
の異体字アーキテクチャの検討なんて絵に描いたようだ

521 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 08:47:51 ]
んー、
動画フォーマットとかはそうでもない気がするけど?

522 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 09:00:50 ]
mbcs/wcs
ISLISP
IPv6, Mobile IP

この辺は日本の団体が組織的に関わってるよ。




523 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 09:29:05 ]
個人名で論文や案を提出してレビューする形にしないと、
>>520が多い状況はなかなか改善できないと思う。
本来、案もレビューも書かない奴の意見なんて聞く必要ないんだ。

524 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 13:14:54 ]
意味のあることを何も言えない奴って、無視されると
意味のあることを言った奴より怒るんだよね。

525 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 23:39:09 ]
>>523-524
* Ideographic Variation Databaseという対案が明確に示されてる
* 日本は>>520を国際提案していない
話にもならんね

526 名前:デフォルトの名無しさん [2008/04/11(金) 14:34:46 ]
>>501
Mac OS XのHFS+は、
さらにアルファベットの大文字小文字の同一視もやってるよな。

ファイル名としては大文字小文字が保存されているけど、
比較ではcase ignoreだからFooがあればfooでopenする。
FULLWIDTHなアルファベットも同じ。

ただしFULLWIDTHとHALFWIDTHな文字は同一視しない。
WIDTH範疇が同じ場合に限り大文字小文字を区別。

527 名前:デフォルトの名無しさん mailto:sage [2008/04/11(金) 15:11:34 ]
>WIDTH範疇が同じ場合に限り大文字小文字を区別。
×区別
○同一視

こうですか?

528 名前:デフォルトの名無しさん mailto:sage [2008/04/11(金) 18:52:47 ]
>>510
>そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。

そういえば Unicode で日本語の文字列をソートした場合、普通はどんな並び順に
なるんでしょうか/なるべきなんでしょうか。Collation のライブラリ毎に違うんでしょうか。
unicode.org の TR10 とか見てみましたがよくわかりませんでした。

529 名前:デフォルトの名無しさん mailto:sage [2008/04/11(金) 20:02:25 ]
>>526
Case SensitiveなHFS+もあるよ。
同一視する文字や使えない文字はファイルシステム毎に異なるから
あるファイル名が使えるかは単純には判断出来ない。

530 名前:デフォルトの名無しさん mailto:sage [2008/04/12(土) 03:00:11 ]
>>529
既にインストーラでは選べないんじゃない?
昔使ってたが、馬鹿アプリで問題発生したので使わなくなった。
アプリ内のファイルがCapitalizedなのに、
アプリが全部大文字でアクセスしてたw

531 名前:デフォルトの名無しさん mailto:sage [2008/04/17(木) 22:38:32 ]
std.dkuug.dk/jtc1/sc2/wg2/docs/n3425.pdf
トンパ文字の提案キター

532 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 06:22:15 ]
std.dkuug.dk/jtc1/sc2/wg2/docs/n3409.pdf
ARIB互換漢字についてアメリカとイギリスからIVSを使えよボケと突っ込まれてるw



533 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 21:35:34 ]
これからIVSを積極的に導入してくなら、現在異体字なのに別のコードポイントを
与えられている文字はIVSに吸収してくるとスッキリするんだけど。
今までのしがらみで無理かな。

534 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 21:48:21 ]
標準に入らなくても、基準とデータは有意義に使われると思うよ。

535 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 22:25:21 ]
原規格分離規則があるから、全部統一は無理

536 名前:デフォルトの名無しさん mailto:sage [2008/04/19(土) 00:09:08 ]
原規格分離規則ってCJK Unified Ideographs領域のみ適用で、
それ以降に定義された領域では使わないっていうアレか。

537 名前:デフォルトの名無しさん mailto:sage [2008/04/19(土) 03:41:26 ]
>>533
既存の互換漢字を削除はあり得ないけど、これから追加しようとしたら突っ込まれて当然だろう

538 名前:デフォルトの名無しさん mailto:sage [2008/04/20(日) 11:42:06 ]
Uniocde 5.1の文字一覧マダー(aary
ttp://www.unicode.org/Public/5.1.0/charts/
予告期限は過ぎてるんだけど

あともう5.2.0のディレクトリあって吹いたw

539 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 22:57:20 ]
TIP www.unicode.org/roadmaps/tip/ 甲骨文字


540 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 23:04:50 ]
文字コードとグリフを同じに扱おうとしたつけだ
いいじゃねぇの?


541 名前:デフォルトの名無しさん mailto:age? [2008/04/27(日) 11:10:56 ]
>>538
来てる

542 名前:デフォルトの名無しさん mailto:sage [2008/04/27(日) 20:49:59 ]
ところでT書体はまだですか



543 名前:デフォルトの名無しさん mailto:sage [2008/04/28(月) 03:56:41 ]
>>542
www.sakamura-lab.org/FONT/
4月中の公開は無理そう
つーか以前は「2006年春」って言っててそれもブッチしてなかったっけ

544 名前:デフォルトの名無しさん mailto:sage [2008/04/28(月) 13:30:01 ]
std.dkuug.dk/jtc1/sc2/wg2/docs/n3475.pdf
結局ARIB互換漢字の追加は受理されたようだ

545 名前:デフォルトの名無しさん mailto:sage [2008/04/28(月) 14:19:01 ]
ARIBの仕様書が公開されてた
www.arib.or.jp/english/html/overview/doc/2-STD-B24v5_1-1p3.pdf
JIS X 0213の指示には私用終端バイトを使って
JIS X 0208の独自拡張をESC 2/4 4/2で指示するという変態仕様
逆だろ…

546 名前:デフォルトの名無しさん [2008/04/29(火) 08:16:41 ]
まったくの初心者です。
↓のコードは何でしょうか?
17163542

何て書いてあるのか、教えてください
よろしく


547 名前:デフォルトの名無しさん mailto:sage [2008/04/29(火) 08:20:26 ]
板違い。こちらへどうぞ
love6.2ch.net/mystery/

548 名前:デフォルトの名無しさん [2008/04/29(火) 08:23:07 ]
>>547
すみません。
文字コードじゃないんですか?


549 名前:デフォルトの名無しさん mailto:sage [2008/04/29(火) 09:10:30 ]
こちらへどうぞ。
ttp://google.com/

550 名前:デフォルトの名無しさん mailto:sage [2008/05/01(木) 06:43:38 ]
>>543
やっぱり無理ですた

551 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 07:02:50 ]
とあるアプリの文字エンコーディングの挙動が変だなと思ったので
問い合わせたら、「Win上のIEの挙動と同じにしている」とのこと。

具体的にはEUC-JPで0x5cが円記号で表示されるのですが。
これってreverse solidusが正解じゃなかったでしたっけ?
確かWinだとここら辺、フォントレベルでおかしなことをしてるんでしたっけ?

しかし正直なところもはやWinやIEの挙動を無視することもできず... トホホ。

552 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 08:02:14 ]
>>551
「円記号で表示される」だけだと、
エンコーディングレベルで何かやってるのか、
単にフォントがU+005Cを円記号で表示してるだけなのかわからんな。

後者ならフォント変えれば REVERSE SOLIDUS に見えるでしょ。



553 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 08:23:48 ]
IEと同じというなら後者だな。
Tahomaとかの欧文フォントならバックスラッシュ、
フォントリンクでかな漢字も表示出来ていい感じ。

554 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 09:44:03 ]
501ですが、
アプリはMac OS Xのエディタです。なんでWin上での技術的背景ではなく
ユーザーエクスペリエンスを問題にしている、とでもいいますか。
IEを「普通に」使ってる分にはEUC-JPの0x5cは円に見える訳ですよね。
あえて欧文フォントを割り当ててバックスラッシュを表示できてもそれはある意味
「化けている」のではないでしょうか。
あるいはIEはあくまでもEUC-JPの0x5cに対してU+005cを表示していて、それが
どう見えるかはフォントやユーザの設定次第、とでも理解すべきでしょうか。

でもIE、確かASCIIやUTF-8だとデフォで0x5cはバックスラッシュ... ややこしいなあ。

555 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 11:48:24 ]
なんでエディタの名前を書かないんだろう
人の話を聞く気がないならチラシの裏にでも書き捨てろ

556 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 12:15:02 ]
>>554
実際にIE使ってみればわかるだろクズ

557 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 12:24:31 ]
>>554
文字コードと文字フォントは別物だよ。
だから、
> あるいはIEはあくまでもEUC-JPの0x5cに対してU+005cを表示していて、それが
> どう見えるかはフォントやユーザの設定次第、とでも理解すべきでしょうか。
でOK。EUC-JPに限らずな。

558 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 15:10:46 ]
>>551
0x5cというかU+005Cは、ASCIIやJIS X 0213だとUniccode基準で「REVERSE SOLIDUS」でなければおかしいけど、
一般的な日本語エンコードだとJIS X 0201基準だから「YEN SIGN」が正しい。

WindowsのOS標準和文フォントだと、0x5cというかU+005Cは「YEN SIGN」で実装。
Mac OS XのOS標準和文フォントだと、0x5cというかU+005Cは「REVERSE SOLIDUS」で実装。

Windows版のSafariでも、Shift_JIS/EUC-JP/ISO-2022-JPといった日本語エンコードなHTMLでは
和文フォントでも欧文フォントでも0x5cというかU+005CがU+00A5実装Glyph(YEN SIGN)でエイリアス表示され、
それ以外(UTF-8とか)だとフォントのU+005C実装Glyphでダイレクトに表示される。

Mozilla系ブラウザソフトでも「about:config」で、
“layout.enable_japanese_specific_transform  default  boolean  false”を
“layout.enable_japanese_specific_transform  user set  boolean  true”と設定変更すると、Safariと同じ挙動になる。

559 名前:558 mailto:sage [2008/05/17(土) 15:18:28 ]
>>554
Mac OS Xのエディタでも、設定で0x5cというかU+005CをフォントのU+005Cでダイレクトに表示するか
U+00A5実装Glyph(YEN SIGN)でエイリアス表示かで選択できるものがある。
ttp://pc.watch.impress.co.jp/docs/2006/0907/macos03.htm
ttp://pc.watch.impress.co.jp/docs/2006/0907/macos03_03.jpg

Windowsの方が日本のローカル規格的には親和な設計ではあるけど国際基準的にはいろいろ問題がある。
Mac OS Xだと国際基準的には親和な設計ではあるけど日本のローカル規格的にはいろいろ問題がある。
だから、Mac OS XやマルチプラットフォームなアプリだとOSやアプリレベルでWindowsとは違う日本ローカル規格対処策をしているものがある。

560 名前:デフォルトの名無しさん mailto:sage [2008/05/18(日) 15:24:37 ]
>>558
> Mac OS XのOS標準和文フォントだと、
> 0x5cというかU+005Cは「REVERSE SOLIDUS」で実装。

Mac OS Xだと、
内部SJISアプリの0x5CはYEN SIGN(CMapは83pvまたは90pv)、
内部UnicodeアプリのU+005Cは(標準では)REVERSE SOLIDUS(CMapはUniJIS)。


561 名前:デフォルトの名無しさん mailto:sage [2008/05/18(日) 22:56:43 ]
>>559
親和うんぬんの段落はちょっと短絡だろ。

もともとREVERSE SOLIDUSが要求されるところで、(例えば\n)
YEN SIGNを使ったり、YEN SIGNを表示に使ったりしていた過去があるんだから、
そんな単純に割り切れないよ。

562 名前:デフォルトの名無しさん [2008/05/18(日) 23:23:33 ]
ESC(BとESC(Jですら同じ扱いだからねぇ。UTF-8はそれこそ・・・



563 名前:デフォルトの名無しさん mailto:sage [2008/05/19(月) 20:40:22 ]
Vistaで実装されたとかいうJISX213で使われてるSJIS2004、Unicode3.2、EUC2004ってどうなってんのわかりません

Unicodeで実装されてる第三、第四水準漢字ってSJISにちゃんとマッピングされてんですかね。
なんか規則性なく適当に散りばめてるだけな気がするんで
一文字一文字マッピングされてる場所指定する等で対応しないと対応出来ないのかな?

JISX213レベルでのUnicode-SJIS-EUC全部の対応表があれば嬉しいんですが、そんなのって無いですかね

564 名前:デフォルトの名無しさん mailto:sage [2008/05/19(月) 20:48:10 ]
VistaのはJIS X 0213にある文字がUnicodeベースで使えるというだけで、
JIS2004自体に対応しているわけじゃなかったような。

565 名前:デフォルトの名無しさん mailto:sage [2008/05/19(月) 21:39:56 ]
>>563-564
Vistaの公式ページで資料もフォントも配布されているというのに、
「されたとかいう」
「どうなってんのわかりません」
「そんなのって無いですかね」
「じゃなかったような」
とかいうヤツってナンなの?ゆとり?
ttp://www.microsoft.com/japan/windows/products/windowsvista/jp_font/
ttp://www.microsoft.com/downloads/details.aspx?FamilyID=f7d758d2-46ff-4c55-92f2-69ae834ac928&DisplayLang=ja

566 名前:デフォルトの名無しさん mailto:sage [2008/05/19(月) 21:50:06 ]
エンコーディングの話してるのに、フォントの資料を持ってきて
何いってんだか

567 名前:デフォルトの名無しさん mailto:sage [2008/05/19(月) 22:04:09 ]
>>566
これだからゆとりは困る。
これがエンコーディングの資料ではないとでも?

・Windows Vista ならびに Windows Server 2008 における JIS2004 対応に関する詳細資料
ホワイトペーパー「Microsoft Windows Vista および Windows Server 2008 における JIS X 0213:2004 (JIS2004) 対応について」(Version 1.2) は、こちら(XPS 形式、PDF 形式) をご参照ください。

・JIS X 0213:2004 / Unicode 実装ガイド
この実装ガイドでは、JIS 文字コードが Unicode 対応の JIS X 0213:2004 へ変更されたことに伴いアプリケーションへ与える影響および対応策などについて説明します。(XPS 形式 1.88 MB、PDF 形式 1.34 MB)

568 名前:デフォルトの名無しさん mailto:sage [2008/05/19(月) 22:08:01 ]
ゆとりゆとり言う奴に限って自分では質問に答えられない。

569 名前:デフォルトの名無しさん mailto:sage [2008/05/19(月) 22:59:39 ]
>>563
Vistaの実装ではShift_JIS-2004やEUC-JIS-2004には対応していません。
JIS X 0213はUnicodeのレパートリとして実装されています。
必要なら自分で変換してください。

570 名前:デフォルトの名無しさん mailto:sage [2008/05/20(火) 21:20:03 ]
>>569
オレオレ変換はやめてくれ
Shift_JISにはマッピングされていないから無理だと思っていただいた方が将来の人が助かる

571 名前:デフォルトの名無しさん mailto:sage [2008/05/20(火) 21:43:15 ]
自ら学び自ら考える力を身に付けるための教育(笑)

572 名前:デフォルトの名無しさん mailto:sage [2008/05/20(火) 22:52:15 ]
CP932なんて使ってないしShift_JIS-2004のためにも消えてくれ。



573 名前:デフォルトの名無しさん mailto:sage [2008/05/20(火) 22:58:09 ]
>>572
お前が使っていなくても、世間が使っている。
ほんと、DOS/Windowsの呪縛の1つだな。

574 名前:デフォルトの名無しさん mailto:sage [2008/05/20(火) 23:15:09 ]
2chはCP932だとおもっていたが如何

575 名前:デフォルトの名無しさん mailto:sage [2008/05/20(火) 23:15:15 ]
>>572
青空ウンコ工作員乙

576 名前:デフォルトの名無しさん [2008/05/25(日) 00:59:45 ]
www.unicode.org/roadmaps/tip/
いつの間にかUnicodeの3面をTertiary Ideographic Plane(第三漢字面)とすることが決まってた。
現時点では1字も定義されてないが古代漢字や甲骨文字を収録するみたいだ。

577 名前:デフォルトの名無しさん mailto:sage [2008/05/25(日) 01:08:50 ]
>>576
これは便利だ

578 名前:デフォルトの名無しさん mailto:sage [2008/05/25(日) 16:02:10 ]
>>539で既出

579 名前:デフォルトの名無しさん [2008/05/30(金) 01:20:21 ]
Unicodeって、色々バージョンがあるみたいだが。
非Unicodeな文字コードとのマッピングが変わることってある?
基本的には予約領域に新しい文字が追加されていくj形という認識で合ってるのかな?

580 名前:デフォルトの名無しさん mailto:sage [2008/05/30(金) 06:35:56 ]
各ベンダーのマッピングは文字が追加されなくてもそれぞれ違う。
そもそも一対一対応ですらない。
例えば、support.microsoft.com/kb/170559

581 名前:デフォルトの名無しさん mailto:sage [2008/05/30(金) 20:36:13 ]
IRGの追っかけやってれば知ってるだろうけどCNS11643とのマッピングはしょっちゅう変わってる

582 名前:デフォルトの名無しさん mailto:sage [2008/05/31(土) 12:20:35 ]
資金があればいい加減に文字コードを統一したいよな。
文字コード多すぎるだろう。
10年前のシステムならばしかたがないにしても、
現代のハードウェアやソフトウェアの質を考えたら、
行動を起こしてもいいと思うんだがなあ。
ビルちゃん、気まぐれで動かないかなあ。



583 名前:デフォルトの名無しさん mailto:sage [2008/05/31(土) 13:16:57 ]
資金とかの問題じゃないような。

584 名前:デフォルトの名無しさん mailto:sage [2008/05/31(土) 13:36:15 ]
現在の世の中に存在するコンピュータでも全てがMBやGB単位のメモリを積んでる訳じゃないんだ。

585 名前:デフォルトの名無しさん mailto:sage [2008/05/31(土) 14:17:36 ]
すみません、質問させてください。
ワードで文書を作成する際に文字コードを指定されました(JIS-X0208-1982).
しかしこの意味が全くわかりません。

普通にワードの画面を開いて文書作成しただけではこのコードにならないということでしょうか?
ググってみると、記号について何年かごとに改正されてきたコードらしいのですが
1983はあっても1982がみつかりません。また、これをワードでの文書作成時に
どう使うのかが理解できません。

ワードでの文書作成時に「挿入」から記号を挿入する際に何か特殊なことをする必要が
あるのでしょうか?その場合、どうすればいいのでしょうか?
画面下にドロップダウンがあってunicode とかJISとか選べるみたいだったのでやったのですが、
この0208というが見つからないし、途方にくれています。
ズブの素人なので、わかりやすく説明していただけると助かります。おねがいします。

586 名前:デフォルトの名無しさん mailto:sage [2008/05/31(土) 15:58:22 ]
> ビルちゃん、気まぐれで動かないかなあ。

ビルちゃんはちゃんと動いているだろ。

気まぐれなのは相変わらずだが。(w

587 名前:デフォルトの名無しさん mailto:sage [2008/05/31(土) 16:02:21 ]
そのビルちゃんって、いま何兆円ぐらい持ってるの?
7ぐらい?

588 名前:デフォルトの名無しさん mailto:sage [2008/05/31(土) 17:53:33 ]
文字コードじゃなくて、文字集合を指定されただけじゃねーの。

589 名前:デフォルトの名無しさん mailto:sage [2008/05/31(土) 22:17:23 ]
>>582
> ビルちゃん、気まぐれで動かないかなあ。

一番動かないで欲しい人ですが?

590 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 00:32:59 ]
>>585
超初心者向け質問スレがちゃんとあるというのに、こんな超廃人スレに来てるKYなヤツってナンなの?ゆとり?

【マジレス】超初心者の質問に答えるスレ93【エスパー】
ttp://pc11.2ch.net/test/read.cgi/win/1212070324/

591 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 00:49:35 ]
プログラム技術@2ch掲示板
ttp://pc11.2ch.net/tech/

この板はプログラムを作る人のための板です。

プログラム・ソフトの使い方は PC 初心者板やソフトウェア板へ。
ウイルス、ハッキング・クラッキングを求めるような発言は禁止です。
Javascript は Web 制作板、CGI は Web プログラミング板へ。
業界談義、愚痴はプログラマ板へどうぞ。
ゲーム関係の話題はゲーム製作板へどうぞ。
ネタ、板とは関係の無い話題はご遠慮ください。

592 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 02:36:02 ]
JIS-X0208-1982はJIS X 0208:1983の間違いだろう。
いわゆる機種依存文字だけ気にしていればいいんじゃね?

>588さん
俺の予想では、文字集合を指定されたんじゃなくて、
WordがシフトJISで保存すると勘違いした奴が、1978から1983改訂の際の
文字の入れ替えについて改訂後のことだと言いたかったに一票。



593 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 03:13:41 ]
>>592
ありがとうございます!
私もこんなこと言われたの初めてで、びっくりした上、1982なんか
ないのに驚いたんですが、1983のことですかとは聞けなくて・・・。
本当にありがとうございました。

594 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 03:30:43 ]
>>593
「聞けなくて」じゃなくて聞けよ。プログラマーだろ?
想像でなく正確な仕様と要件にもとづいて仕事してくれ。

たとえば
www.webstore.jsa.or.jp/webstore/Com/FlowControl.jsp?lang=jp&bunsyoId=JIS+X+0208%3A1997&dantaiCd=JIS&status=1&pageNo=0
ではX 0208の履歴に1983はありませんが、って言えばいい。

595 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 03:34:42 ]
間違えた。
誤: 1983はありませんが
正: 1982はありませんが

つーか寝ようよ。そーゆートコだけプログラマーなのな。

596 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 11:34:51 ]
>>594
すいません、私、プログラマーとかじゃないんですよ^^;
パソコンについては、平均的な知識しかない書類作成係でして・・・・
この指示も書類作成にあたって渡されたんです。

1983の件を聞けないのは、この指示を出した技術者が、なんというか、
瞬間湯沸かし器なので、彼のプライドを傷つけるようなことをいったら(
1983のことですか?といっただけでも)、大変なことになるので・・・


597 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 11:42:56 ]
>>596
>>591をもう一度読んで

598 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 12:22:46 ]
あ、ごめんね、ここの人達は専門の人達だろうから
初心者板にいる人達よりもレベルが高いと思ってきたんだ。
初心者板は起動に関してのトラブルとかばっかりだったし・・

でも、回答くれた方、ありがとう。本当に助かりました。

599 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 12:30:00 ]
ところで、システム開発の際に>>585みたいに1983版を指定された場合、
どこで規格を入手すればいいんですかね。教えてエロい人

600 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 13:06:40 ]
ところで、システム開発の際にVisualStudio2008を指定された場合、
どこでそれを入手すればいいんですかね。

601 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 13:41:51 ]
ところで、システム開発の際にwin98を指定された場合、
どこでそれを入手すればいいんですかね。

602 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 15:15:12 ]
JISも売り物なんだから買え



603 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 15:56:38 ]
まぁ、JIS2004の文字を使うなって意味だったんだろうな

604 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 17:16:39 ]
こっちでいくら専門家いても指示した当人と話す以上にわかるわけないだろうに。
それでもし間違ってたらどうすんだ。

605 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 22:00:59 ]
>>594
プログラマとしてのプライドを持った奴なら、自分で「ズブの素人」なんて言うわけわけねーだろ、常識で考えて。
しかも全角数字使ってる時点で585を超初心者だと見抜けない594ってってナンなの?ゆとり?

>>598
「あ、ごめんね」じゃねーだろ。
2ちゃんねるのルールが守れないなら、2ちゃんねるに来るな。

>>600-601
それは文字コードの話じゃねーだろ。

606 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 23:04:25 ]
何このスレ

607 名前:デフォルトの名無しさん mailto:sage [2008/06/01(日) 23:05:07 ]
サザエさんの家ににしこりが入るところに見えませんか?

608 名前:デフォルトの名無しさん mailto:sage [2008/06/02(月) 03:32:03 ]
>>602
過去の版の入手方法がわかんないってことでしょ。
www.jisc.go.jp/jis-act/reading.html
ぱっと見たけど見つからなかった。電話番号書いてあるから訊くのが早そうだな。

>>605
>>594だが何でそこまで言われにゃならんかね。
多くのプログラマーが全角英数字を毛嫌いするのは知ってるが、個人的にはありだと思うが。
少なくとも官庁相手に出す文書は全角にしてる。「Java」とか「議事録4月10日」とか。
上のリンク先でも「JIS X 0201」とか「7ビット及び8ビットの2バイト情報」
って書いてるだろ。

ついでにプログラ「マー」って書いたら俺も超初心者扱いか。

609 名前:デフォルトの名無しさん mailto:sage [2008/06/02(月) 04:45:04 ]
ならJISの規格票でいわゆる全角英数がどういう扱い受けてるのかくらい知ってるだろ

610 名前:デフォルトの名無しさん mailto:sage [2008/06/02(月) 04:49:40 ]
半角だとFAXのとき潰れてしまうます

611 名前:デフォルトの名無しさん mailto:sage [2008/06/02(月) 06:07:08 ]
608は「全角数字使用の585を超初心者だと見抜けないためにゆとりといわれた」ことに不満を主張しているようだが、それとJISでの全角数字のあつかいとは関係なくね?
これだけ使われてるんだし。でも585が(・∀・)カエレ!なのは同意

612 名前:デフォルトの名無しさん mailto:sage [2008/06/02(月) 09:35:02 ]
このスレに居てmohtaを知らんとは言わせん



613 名前:デフォルトの名無しさん mailto:sage [2008/06/02(月) 15:47:06 ]
誰だっけ?昔うさげにいた人?

614 名前:デフォルトの名無しさん mailto:sage [2008/06/02(月) 18:35:11 ]
「うさげ」も何年かぶりに聞いた単語だな

615 名前:デフォルトの名無しさん mailto:sage [2008/06/02(月) 18:49:35 ]
ということにしたいのですね。

616 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 00:02:01 ]
>>608
ならUnicode StandardでいわゆるEAST ASIAN WIDTHがどういう扱いを受けてるのかくらい知ってるだろ?
それなのにこの場に及んでNORMALIZATIONされていない文字をまだ「ありだと思う」と言い張るその姿勢は実に見苦しい。

>>610
半角は潰れるが全角なら潰れないだと?
そんな文字サイズなら漢字は潰れまくりじゃねーか。

>>611
全角数字の扱いだけではない。
厚顔無恥で教えて君オーラ全開な文章から585の人間性を推し量れない608の稚拙さに問題がある。

>>612
知らん。
ゆとりの俺にも教えてくれ。

617 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 00:12:58 ]
>>616
今はアラビア数字の世の中なので。

618 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 00:24:02 ]
EAST ASIAN WIDTHやNORMALIZATIONが何なのか理解できない617ってナンなの?ゆとり?
ttp://www.unicode.org/reports/tr11/
ttp://www.unicode.org/reports/tr15/

619 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 00:37:45 ]
JIS X 208:1983の話にUNICODEもちだしてくんなよ。

620 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 00:47:49 ]
>>619
今はユニコードの世の中なので。

621 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 01:38:20 ]
ナンなの?ゆとり?

622 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 02:32:46 ]
カレーはライスに限る



623 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 02:52:09 ]
こないだのザ!鉄腕!DASH!!で新しいDASH村住人のバングラディッシュ人がカレー作ってたんだよ。
ナンみたいなヤツも作ってたんだけど確か違う名前だったような?あれってナンな(ry
ttp://www.ntv.co.jp/dash/village/05_ryou/2008/05/

624 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 02:59:42 ]
全角英数字がJIS X 0208では「原則として使用しない」で、Unicode規格でも
Restrictなのはわかるが、JISとUnicode規格読んでないとゆとりなんて、
このスレ、ハードル高すぎだっての。

とりあえず次スレは
【ナンなの?】文字コード総合スレ part4【←ゆとり?】
でおねがいします。

625 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 03:09:12 ]
>>622
カレーと云えばナン。カレーにライスは邪道。
ttp://food8.2ch.net/test/read.cgi/curry/1103503719/

>>624
空気嫁

626 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 10:48:10 ]
> >>612
> 知らん。
> ゆとりの俺にも教えてくれ。

ttp://www.imasy.or.jp/~yotti/rfc1554jp.txt
これを書いた人

627 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 10:55:11 ]
>>626
JP-2って名前は良くなかったな。

628 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 21:53:57 ]
>>626
「mohta うさげ」でググってみたんだが、ゆとりの俺に状況が理解できん。

その昔、うさげというコミュニティが存在していて、そこにはmohtaと呼ばれる伝説の荒らしが常駐してた。
その荒らしがISO-2022-JP-2の規格の根本をまとめ上げたものの、荒らしが作った規格には反発が強く世間には定着しなかった・・・、ってことでおk?

それより何でこの話がㇳ突然出てきたんだ?
ISO-2022-JP-2と全角英数字と何の関係あるんだよ?
全然わかんね。



てか、ググったら木村浩一さんのサイトにこのスレがコピペされてるのを発見w
ttp://www.kt.rim.or.jp/%7ekbk/zakkicho/08/zakkicho0806a.html#D20080602

629 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 22:51:53 ]
>>625
カレーと云えば飲み物。噛んで食べるヤツは邪道。・゚・(ノД`)・゚・。ウエエェェン
ttp://news24.2ch.net/test/read.cgi/mnewsplus/1212452680/

630 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 23:03:40 ]
ああ、あれね、函数の引数をひとつにするやつ。

631 名前:デフォルトの名無しさん mailto:sage [2008/06/03(火) 23:13:51 ]
世界で最も完成されたカレー、それは・・・
ttp://wiredvision.jp/news/200805/2008050121.html

>>629
これだな
ttp://mamono.2ch.net/test/read.cgi/newsplus/1212380001/

632 名前:デフォルトの名無しさん mailto:sage [2008/06/04(水) 10:14:43 ]
カレー食いたくなった



633 名前:デフォルトの名無しさん mailto:sage [2008/06/04(水) 10:34:23 ]
>>628
voidとか、lalaとか、現代版はotsuneとか、ちょっと前に言われた「モヒカン」タイプの
元祖のような奴がmohta。暴れるという形容は適用されるけど、荒らしとは違う。
mohtaの特異な点として、JIS X 0208に統一して文章を書くという性質が挙げられる。
>>626のRFC翻訳でもそれをやっている)
Unicode化の流れに対抗したけど、というあたりは多勢に無勢というか。

634 名前:デフォルトの名無しさん mailto:sage [2008/06/04(水) 10:36:12 ]
ひとつ書き忘れた
うさげ == fj.net.usage

635 名前:デフォルトの名無しさん mailto:sage [2008/06/04(水) 10:38:43 ]
野暮な奴だなお前

636 名前:デフォルトの名無しさん mailto:sage [2008/06/04(水) 13:56:27 ]
>>635
fj の「3馬鹿」も mohta、 lala は聞かなくなったな…
void は所を mixi に移してあいかわあらず暴れてるらしいが…


637 名前:デフォルトの名無しさん mailto:sage [2008/06/04(水) 16:47:29 ]
> mohtaの特異な点として、JIS X 0208に統一して文章を書く
ホントだワロタ
原文: www.ietf.org/rfc/rfc1554.txt
mhota訳: www.imasy.or.jp/~yotti/rfc1554jp.txt

一部メールアドレスまで全角だw

638 名前:デフォルトの名無しさん mailto:sage [2008/06/04(水) 19:30:43 ]
ゆとり一歩手前の俺ですがvoidだけは見たことがある。 他はシラネ

639 名前:デフォルトの名無しさん mailto:sage [2008/06/05(木) 00:10:29 ]
>>633-634
ありがとう。
なんとなくわかったかも知れん。
「Unicode化の流れに対抗したけど、というあたりは多勢に無勢」とかは、青空文庫工作員と同じ構図なんだな。
つまり、全角英数字を使うヤツは「超初心者」か「極右(笑)」ってことか。

> ちょっと前に言われた「モヒカン」タイプ
知らん。
ゆとりの俺にも教えてく(ry

バブル世代にとっての「ちょっと前」は、ゆとり世代にとっては「大昔」なんだが・・・。

>>638
ゆとりの俺ですがvoidという名前だけは噂に聞いたことがあるw

640 名前:デフォルトの名無しさん mailto:sage [2008/06/05(木) 00:32:52 ]
そんなこと知っても何のプラスにもならないから
もう深追いしないほうがいいよ。

641 名前:デフォルトの名無しさん mailto:sage [2008/06/05(木) 00:34:51 ]
ここが「“2”ちゃんねる」なのは、このスレ的にどうなの?
「?」もこのスレでは全角の方が多いようだけど

642 名前:デフォルトの名無しさん mailto:sage [2008/06/05(木) 01:16:29 ]
管理人が「2ちゃんねる」と全角数字で表記しているんだから、それをわざわざ半角にするのはおかしくね?
疑問符とか感嘆符の類はどっちでも良くね



643 名前:デフォルトの名無しさん mailto:sage [2008/06/05(木) 01:44:44 ]
小腹が減ったとき食べるカレーヌードルの旨さは異常
ttp://food8.2ch.net/test/read.cgi/curry/1071495811/

644 名前:641 mailto:sage [2008/06/05(木) 01:51:37 ]
えーと補足すると、全角/半角というのは単に表示側の表示の問題であって
概念的には同じ文字なので半角にNORMALIZEされた形にすべき、
ってのが昔のvoidの主張だった気がする。JIS X 0208もUnicodeも規格はそういう
考えだったと思う。それがこのスレ的にどうなのかなと。
たとえばUnicodeテキストでWinの「〜(U+2015)」とMacの「〜(U+2014)」が混ざってたら俺としては
2015に正規化したくなる。でも全角半角は事実上すべての環境で表示される字の大きさが
異なるので同じ文字としては扱いたくないなーと。

645 名前:デフォルトの名無しさん mailto:sage [2008/06/05(木) 02:02:01 ]
カレーパンのうた、すげぇw
ttp://www.geocities.jp/jugongordie/old/curryfla/curryfla.html

>>644
まぁ細かいこと気にするな
( ゚Д゚)⊃ ○ < カレーパン食え
ttp://food8.2ch.net/test/read.cgi/bread/1092166761/

646 名前:644 mailto:sage [2008/06/05(木) 02:56:34 ]
間違えた。カレーパン喰ってくる。
(誤) Winの「〜(U+2015)」とMacの「〜(U+2014)」
(正) Winの「‖(U+2225)」とMacの「‖(U+2016)」

ん? いつから双柱って傾いて表示されるようになった? Vistaから?

647 名前:デフォルトの名無しさん mailto:sage [2008/06/06(金) 00:53:19 ]


648 名前:デフォルトの名無しさん mailto:sage [2008/06/06(金) 06:36:11 ]
itpro.nikkeibp.co.jp/article/COLUMN/20061221/257533/
の図12

649 名前:デフォルトの名無しさん mailto:sage [2008/06/08(日) 00:31:44 ]
IVS対応ATOKマダー(AAry
appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1435_ivs-demo-irg30.pdf
>>646
メイリオだともっと露骨に斜め45度の線2本で表示される。
まあちゃんと研究してるんだろう。角度とか

650 名前:デフォルトの名無しさん mailto:sage [2008/06/13(金) 07:22:05 ]
Last Resort Font
www.unicode.org/policies/lastresortfont_eula.html
てっきりエイプリルフールネタだと思ってたのに本気でグリフをUnicodeに収録するつもり
なんだろうか

651 名前:デフォルトの名無しさん mailto:sage [2008/06/13(金) 18:24:17 ]
>>650
グリフをUnicodeに収録?

まともかく、文字が表示されないときにそれが単にグリフがないせいなのか
Unicodeの範囲に入っていないせいなのかわかるとうれしいけどね。
で前者の場合にはだいたいどこら辺の文字かもわかると。
フォントの自動置換が働く場合には特に。

652 名前:デフォルトの名無しさん mailto:sage [2008/06/13(金) 22:20:54 ]
appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1470KXRemainder.pdf
ようやく見出し文字を全部符号化したUnicode康煕字典が作れるようになるのか。
韓国なんかUNC(緊急に必要な文字)を1万字くらい収録しる! とか無理難題言ってるのに
日本の謙虚さは異常。大漢和の未収録文字くらい提案したって罰は当たらないと
思うんだが



653 名前:デフォルトの名無しさん mailto:sage [2008/06/13(金) 23:34:12 ]
日本語みたいにひらがなで書けばいいみたいなのができないから
しゃーないのかなと思う所はある。

654 名前:デフォルトの名無しさん mailto:sage [2008/06/13(金) 23:41:09 ]
韓国はハングル専用で日本より脱漢字は進んでいるはずなんだけどな

655 名前:デフォルトの名無しさん mailto:sage [2008/06/13(金) 23:41:53 ]
そのハングルが合成文字で凄まじい組み合わせ数あるから・・・

656 名前:デフォルトの名無しさん mailto:sage [2008/06/13(金) 23:43:09 ]
今回提案されてるのは全部漢字な件

657 名前:デフォルトの名無しさん mailto:sage [2008/06/13(金) 23:44:50 ]
そうだったのか・・・

658 名前:デフォルトの名無しさん mailto:sage [2008/06/13(金) 23:53:23 ]
Ideographicなんとかグループだから表音文字は対象外だろjk

659 名前:デフォルトの名無しさん mailto:sage [2008/06/14(土) 00:20:59 ]
表音文字の癖にコード空間を浪費するハングルは、ほんと迷惑文字。

660 名前:デフォルトの名無しさん mailto:sage [2008/06/14(土) 12:48:40 ]
インド人の爪の垢を煎じて飲ませたいな
(インド系文字もハングル式に実装すると数千字分くらいのコードポイントは平気で使う)

661 名前:デフォルトの名無しさん mailto:sage [2008/06/15(日) 02:14:47 ]
俺、ハングルのことは全くと言っていいほど知らないんだが、
それ実際にやったら描画・文字幅計算とかアラビア文字みたいにややこしいことにならない?

662 名前:デフォルトの名無しさん mailto:sage [2008/06/15(日) 02:30:44 ]
いちおうOpenTypeのグリフ置換の機能を使った組合型の実装例はある
(Hangeul Jamoブロックを使った奴ね)
Mac OS Xは(互換漢字と一部の記号を除いて)NFDだからHFS Plusのボリューム上では
ハングルはバラバラになって記録されてる



663 名前:デフォルトの名無しさん mailto:sage [2008/06/15(日) 02:47:33 ]
小学生の頃はどんな漢字も部首の組み合わせで表現できると信じていたのを思い出す。

664 名前:デフォルトの名無しさん mailto:sage [2008/06/15(日) 03:32:42 ]
日本政府はわざわざ常用漢字と表外字で字体の違いを発生させて
部首の組み合わせによる表現をやりにくくしてるし

665 名前:デフォルトの名無しさん [2008/06/17(火) 12:24:24 ]
ハングルは大移動なんかしないで従来のコードで表せない字母の組み合わせは
U+1100〜のHangeul Jamoブロックの組み合わせで表すことにすればよかったのに。
それかどうしても全ての組み合わせのコードが必要なら追加分はBMP外にするべきだったと思う。

666 名前:デフォルトの名無しさん mailto:sage [2008/06/17(火) 12:54:01 ]
BMPを占有しすぎだな。
ttp://www.unicode.org/roadmaps/bmp/

667 名前:デフォルトの名無しさん mailto:sage [2008/06/17(火) 20:06:18 ]
>>665
> 従来のコードで表せない字母の組み合わせは
> U+1100〜のHangeul Jamoブロックの組み合わせで表す
Unicode 1.1までははそうするつもりだったのに全部収録させるためだけに
Hangul and ComputerがUnicode Consortiumのフルメンバーになったりしてだな
www.unicode.org/history/contributors.html

668 名前:デフォルトの名無しさん mailto:sage [2008/06/19(木) 10:54:24 ]
JIS以降、日本の文字コードで試行錯誤したのをそのままトレースしてるようだなw

669 名前:デフォルトの名無しさん mailto:sage [2008/06/19(木) 22:29:01 ]
日本がやったのは試行錯誤じゃなくて一学者によるゲリラ活動。

670 名前:デフォルトの名無しさん mailto:sage [2008/06/19(木) 23:14:36 ]
今も続く混乱を考えると一学者だけじゃないな






[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<157KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef