[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 05/09 17:12 / Filesize : 157 KB / Number-of Response : 671
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

文字コード総合スレ part3



1 名前:デフォルトの名無しさん [2007/05/27(日) 16:19:36 ]
プログラムにおける各種文字コードの処理について語りましょう♪

■前スレ
文字コード総合スレ part2
pc11.2ch.net/test/read.cgi/tech/1143375639/

■参考サイト
Unicode Home Page
www.unicode.org/
Java Character Encodings
www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm


445 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 01:19:23 ]
>>431
CP51932 相当の IANA 名をWindows-31Jって言うんじゃね?
テキストエンコーディングが何だろうと、文字集合は同じでしょ。

446 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:35:01 ]
>>445
IANA charsetの「charset」は文字集合+符号化方式のセット

447 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:38:59 ]
>>440
Martinセンセイにドキュメントがないだとか色々突っ込まれて力尽きてたはず。
使いたいなら後をついで進めるといいのかもしれないけど、
必要なドキュメントをJISが握ってる以上難しい気もしないでもない。

448 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:56:26 ]
流れぶった切ってすまん。
日立のEBCDIKコード表探してるんだけど、
www.wdic.org/w/WDIC/EBCDIK とか
www.pleasuresky.co.jp/ebcdic.php3 とかじゃなくて
日立が提示してるオリジナルがいいんだけど、どっかにないですかね?

449 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 12:01:21 ]
www.pleasuresky.co.jp/images/ebcdic.gif

450 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 12:04:00 ]
>>449
なにこの汚いコードは

451 名前:デフォルトの名無しさん [2008/03/25(火) 12:13:23 ]
文字コードの判別、変換に挫折した…
情けねぇ…

452 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 18:13:48 ]
EBCDIC くらいは知っとこうぜ

453 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:14:53 ]
>>444
ドキュメントの有意義さは否定しないけど
実際にWebページやメールでそのドキュメントの通りに使えというなら
使えるようにしてくれなきゃ話が始まらない
>>447
俺はUnicodeでいいと思ってるからなー
使いたい人ががんばってくださいとしか
がんばらないで勝手に使うという最悪の選択だけはくれぐれもやめてほしい



454 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:21:11 ]
UpperCharで
小文字 0xED40 \

大文字 0xFA5C \
に変換されるのですが、この辺わかりやすく説明しているサイトないでしょうか〜


455 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:35:00 ]
>>454
support.microsoft.com/kb/170559/ja

456 名前:デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:41:47 ]
>>455
非常に勉強になったよ。
ありがとう!

457 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 02:30:15 ]
>>453
> 実際にWebページやメールでそのドキュメントの通りに使えというなら

言ってないw

458 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 02:37:51 ]
なるほど
> ケータイの絵文字や、CP932のIBM拡張文字など
はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに
直接書いてはいない。でもそれなら何で今インターネットで使えるJIS X 0208:1997
ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの?
Shift_JIS-2004の絵文字のうち
> 「♪」以外は収録されていなかった
そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?

459 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 08:47:40 ]
結局世の中の流れとしてはこんな感じ?

1. いわゆるレガシーエンコーディングの、ベンダー毎の拡張みたいのは今後積極的
にはサポートされない。
 -> 新たに IANA に登録されてたりすることはない?
 -> charset にない文字を使っているようなのは化けてもしょうがないって感じ?

2. IBM拡張漢字、絵文字等をどうしても使いたい場合は Unicode で。
 -> Windows-31J は IANA に登録されてるからアリ?

460 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 09:54:22 ]
Windowsで扱える文字一覧みたいなものはどこかにないでしょうか?

461 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 12:14:50 ]
コードページ毎で良ければここはどう。
www.microsoft.com/globaldev/reference/cphome.mspx

462 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:04:19 ]
>>460
U+0000からU+10FFFFまで扱えるよ

463 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:10:39 ]
>>461
ちゃんと資料があったんですね。ありがとうございます。



464 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:12:18 ]
>>462
すいません、ちゃんとフォントがあって表示できる
またはIMEから入力できるものという意味でした。

465 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:20:32 ]
>>458
>> ケータイの絵文字や、CP932のIBM拡張文字など
>はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに
>直接書いてはいない。
IANA charset登録済みのもの。

>でもそれなら何で今インターネットで使えるJIS X 0208:1997
>ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの?
なんでだろうねぇ。
Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。

>> 「♪」以外は収録されていなかった
>そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?
使っていい、Unicodeに登録されているんで、UTF-8を指定すればよい。
もちろん、JIS X 0213系のエンコーディングはダメ。




466 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 18:55:27 ]
> Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。
他にも>>440の資料は突っ込みどころ大杉。
> JISにもUnicodeにも違反しており
未使用領域を使用禁止にしているJIS X 0208/0213と違ってUnicodeでPUAを
使うこと自体は何も規格に違反してない。いわば文字化けするのはUnicodeの仕様。
> Windows Vistaの方が、ある意味、正しい動作だと言える。
どっちかが正しい動作だと言うこと自体ミスリーディング。
規格を守っていても「字体化け」するのがJISやUnicodeの「仕様」。

もちろん安岡センセイがそんな初歩的なこと知らないはずがないので
確信犯なんだろうけど(とくに後者)。

467 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:05:38 ]
しかし、文字コード関連は政治的な位置からものを書く人間が多すぎるな

468 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:16:54 ]
文字コードはもともと政治の道具です

469 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:22:49 ]
オタク好きするんだよ。政治というか、勢力争いの話はね。
そういうのが存在する分野の話になると、そこにばっかフォーカスすることになる。

それだけを固めた例としては、ゲーハー板。

470 名前:デフォルトの名無しさん mailto:sage [2008/03/28(金) 00:04:05 ]
>467
だったらネタ振ってくれ。例えばNew ASCII配列とか。

471 名前:デフォルトの名無しさん mailto:sage [2008/03/28(金) 05:47:01 ]
例まで絞るくらいなら、その話題を自分が振ればいいのに。

472 名前:デフォルトの名無しさん mailto:sage [2008/03/29(土) 13:19:21 ]
EBCDICとEBCDIKの違いがあるのも政治的な理由からですか?

473 名前:デフォルトの名無しさん mailto:sage [2008/03/29(土) 15:58:10 ]
メリケン野郎にはカナなんかいらんからだろ。



474 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 02:19:37 ]
ICU のこのページ→ demo.icu-project.org/icu-bin/convexp なんだけど、
Aliasってことは「等価な」エンコーディングって扱いなのかな?
もしそうだとすると日本語のエンコーディングに関しては鬱なような...

475 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 04:31:26 ]
ちょっと横レスですが。

>>472-473
EBCDIKってのは日立方言だよ。
ネットではEBCDIC(カタカナ版)のことだと説明してることが多いけど、
誰かがそう書いたのをよく調べもせずに孫引きで書いている奴が多いだけ。

476 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 11:19:36 ]
>474
「Converters with conflicting aliases」とか。
ibm-942-P12A-1999とibm-943-p15A-2003が
両方ともaliasにcp932を持ってる事の説明が付かないけど?

477 名前:デフォルトの名無しさん mailto:sage [2008/04/04(金) 11:08:02 ]
さて
Unicode 5.1のリリース予定日がやってまいりました

478 名前:デフォルトの名無しさん mailto:sage [2008/04/05(土) 21:55:19 ]
無事リリースされますた。
StandardizedVariants.htmlにIVDに関する言及が追加されますた

479 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 02:55:20 ]
また新しい文字コードが一つ増えただけになるのか、それとも統合されるべく方向に行っているのか。
まったくこのスレのネタすら分からないけど、基本的にutf-8かutf-32?使っておけばよい?
16はなんか面倒とか聞いた覚えがあるが今はそこまで調べる気力なし…。

480 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:49:53 ]
>>479
基本的に UTF-8 使っておけばよし

UTF-32、というか32ビットでの処理はアプリが内部で使う場合の話で
文字コードとして意識する必要はないよ

481 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:58:00 ]
内部処理も行処理程度だとUTF-8のままってのが多いしね。

482 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 12:53:51 ]
ユニコードで唯一の功績は UTF-8 を発明したこと。
提案したのは部外者だけど。

483 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:02:59 ]
功績か?
utf-8って好き嫌いがはっきりしている気がする。



484 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:07:05 ]
日本語が3〜4バイトになるからなあ。
まあ仕方が無いのは分かるが。

485 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:08:59 ]
>>482
Unicodeのエンコード方式の一つとしてはそうなのかもしれんが…
一長一短な気もするけど、今後Unicode対応アプリを作る上ではUTF-8はchar*で扱える
面だけ取れば悪くはないのかも
XMLとかもさ
だけど、結局ファイルやストリームから読み取る分にはUTF-8でいいけど、1〜4バイトの
可変長ってのがね
処理内部はUTF-16として扱うのが一番楽だね1文字2バイトと単純計算できるし、
今はサロゲートペアのことを意識する必要が無いから

文字列はそもそもリソース定義すべきだから、ソース中に文字列で埋め込まないんであれば
エンコード方式さえはっきりしてればどうでもいいや
それより、SJISでコメント書いたソースをWindowsエミュレータやリビジョン管理(ClearCaseやCVS、SVN)
で使って、実機やテスト機(Linux)ではEUCだとコンパイル時にコメントが改行されてたりするんだよねw
うちんとこでは、Lunuxビルドはmakefileの中でnkfで文字コード変換されてるが…

486 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:19:34 ]
> 今はサロゲートペアのことを意識する必要が無いから
いつかサロゲートペア対応に改良する暇はあるの?
初めからUTF-32にすればいいだろ。

487 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:26:20 ]
ユニコードはエンコード方式がわかっても日本語とは限らないんだな。
CJKでしかないから。

488 名前:485 mailto:sage [2008/04/06(日) 21:33:50 ]
>>486
Unicode 4.0を見てみたw
どう見ても、当面サロゲートペアを使う必要はなさそうだなあw
UTF-32でもいいんだけどさ、やっぱ1文字で4バイトってやだなー
特に理由ないんだけどさ
U+10000〜を使うことが明らかなら別だけど、使わないしさ

>>487
CJKというか、CJKVのようだけどね
Unicodeは言語を識別するためのものじゃないし、それは別途ISO 639なり使って
管理するとかじゃないの?

489 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:37:48 ]
今の仕様書を1990年に持っていけたらもっとマシなコード体系が出来上がるんだろうなあ…

490 名前:485 mailto:sage [2008/04/06(日) 21:43:44 ]
>>489
時はバブル、んな将来的なことどうでもいいとか思われそうだがw
Y2Kなんて、もっと早急に対応してればあんなに世間が騒ぐこともなかったんだし
結局何も起きなかったけどさw

491 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:58:14 ]
世の中の悪い事態の多くは、そうなることが予測不能だったからではなく、
そうなるとわかっているけど対処しなかったから起こったんだ、
とつい最近どっかで読んだけど、まったくだw

492 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 22:12:38 ]
その意味では正に、
「過去に戻れても、やはり同じようになるよ」だな。

493 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 23:09:49 ]
>>485
>今はサロゲートペアのことを意識する必要が無いから
さすがにもう時間の問題でしょ。
そろそろ JIS X 0213 が要求に入り始めるだろうし。



494 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 01:51:07 ]
UTF-8は大好きですよ

495 名前:485 mailto:sage [2008/04/07(月) 08:49:15 ]
>>493
JIS X0213はさすがに困ったちゃんな規格を作ってくれたもんだなぁと思いつつも、いわゆる第三〜第四水準に
ようやく人名漢字として略されてたものとかが扱えるとかどうとかで恩恵を受ける人もいるんだろうか?
サロゲートペアを扱うとなると、1文字=2バイトの原則が壊れるんだよなぁ

そういや、2000年だかから中国のGB2312の拡張規格GB18030は、中国大陸における文字表示可能な機器の
全てが対応する必要があるとか訊いて社内で騒ぎになって、Windows2000ではGB18030フォンとパックやら
変なAPIで4バイト文字対応してたとおもうんだけど、こいつはUnicodeとどう親和性を取るつもりなのかな?
規格上はGB18030はISO/IEC 10646を丸ごと飲み込んじゃう規格なんだけど…

496 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 13:42:22 ]
>>485
>今はサロゲートペアのことを意識する必要が無いから

サロゲートペア以外にも合成文字とかあるんですけど。

497 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:05:39 ]
>>496
MacOS-Xの「ヒ+゜」とかね。
いつ「普通の」データとして飛び込んでくるか分かったもんじゃない。

498 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:12:03 ]
何しろあれが正規形の一つだからな。

499 名前:485 mailto:sage [2008/04/07(月) 19:41:16 ]
>>496
確かに…
合成文字はヤだなぁ
あと、くっつき方がキモいデーヴァナーガリー文字とかその類も…

500 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:01:44 ]
>>497
Mac持ってないけど「ピ」は合成されてるの?
JISX0213の「か゜」とかじゃなくて?

501 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:26:25 ]
>>500
>>413のNFD


502 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:46:58 ]
>>485
もう現実を見るんだ。
固定バイトの文字コードなんて所詮夢だったんだよ。

503 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:20:35 ]
それでも32bitあればなんとか…



504 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:25:05 ]
HYPHEN-MINUSって文字が誕生した時からこの世はカオスさ

505 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 22:26:30 ]
UTF-8は0x10入らないようにして欲しいなぁ。

506 名前:485 mailto:sage [2008/04/08(火) 09:22:27 ]
>>502
そうか、やはりそうなのか…
固定バイトはもはや夢物語なんだなorz
合成文字といえば、ヨーロッパのラテン文字事情なんとかならんのでしょうか???
ローカライズにあたって、文字列検索の曖昧検索を行うわけなのだが、Aとキーされようと、
アクセントが付いてようとウムラウトだろうと引っかからないといけないのはまぁいいとして…
A+アクセントとかはやめて欲しいのだがw
いったい、ヨーロッパは何言語あるんだYO!

507 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 09:43:20 ]
L10nされたあいまい検索は、各言語のネイティブの専門家によるアドバイスが
ないとムリポ。
(「エ」と「ヱ」を同一視するかどうかなんて日本人でも判断に困るだろ?)

508 名前:485 mailto:sage [2008/04/08(火) 11:31:51 ]
>>507
だよねー
今月号の「NEWTON」を読んだら、ラテン語のアルファベットは当初英語で使われるものとほぼ
同じだったとか?
その後に、フランス語やらでアクセント記号が付けられたとかどうとか…
てっきり、逆だと思ってたんだが、Unicode 1.0策定時にCJKの統合に当たってルーツの異なる文字で
似ている物を同一視しようとした件、ラテン語圏でもやはりアクセント記号はそれくらい意味のある文化
の一つなんだろうか…

幸い、自分は合成文字には今のところ携わることはなさそうだが…
中国国家標準のGB 18030をどうにかしてもらいたい…
GB 2312、ASCII、ISO/IEC 10646をうまいこと包含しているという点ではうまいこと考えたなと関心
出来るんだけど、結局は1〜4バイトのマルチバイト文字ってワケで、ISO/IEC 10646を包含したとしても
変なジレンマ作ってるだけだし…
そもそも、CJKのグリフが U+3400〜U+4DFE、U+4E00〜U+9FFEまでしか割り振られてないじゃんか!
BMP面で足りるじゃんかー!

509 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 13:30:47 ]
>>507
ラテン語ネイティブも、油断してると、
JIS X 0208のFULLWIDTH LATIN (CAPTAL) LETTER *ってのがあるしね。
自前で実装しようとするとHALFWIDTHへの正規化を忘れちゃう。

>>508
表音音文字元祖のフェニキア文字の子孫の
ギリシャ文字でさえ発音記号はないからね。

アクセント記号はcollationの時にも、
取り払ってソートするか付いたままソートするか、
国によって標準的な取り扱いが違って難しい。

510 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:21:30 ]
そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。

>>GB18030
Unicodeに変換して処理するだけなんだから別に関係ないでしょ

511 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:49:23 ]
他国の心配する前に日本語の処理くらいまともにやってくれ

512 名前:485 mailto:sage [2008/04/08(火) 21:02:50 ]
>>510
いやいや、GB 18030は現状はUnicodeでグリフのある領域はカバーしてるけど、Unicodeに無い
民族文字やらをどんどん増やす思惑があるらしい…
だったらその思惑をUnicodeコンソーシアムで提起して貰いたいものなんだが…

>>511
俺の文章?orz
どうせローカライズ以前に、各国の文言を用意するのは翻訳チームのすることで、俺は関わってないし

513 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 21:05:12 ]
自国で独自路線に突っ走りまくってる日本じゃないんだからお前ごときが
他国の心配しなくてもちゃんと国際提案してくるからむしろ日本NBの怠慢ぶりを
何とかしてくれってば



514 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 21:21:00 ]
そこでJIS第五水準ですよ

515 名前:485 mailto:sage [2008/04/08(火) 21:46:47 ]
>>513
これは>>513の現場もそうだろうと思うのだが、日本人のSEに限らずPMに至るまで、
日本における標準化についてまともに考えている奴っている?
C++を理解するのにISO/IEC 14882を読んだり、仕様書を書くときに主語をちゃんと
付けることを意識するとかさ?
今俺が書いてる文章なんかは支離滅裂だけどorz

>>514
JIS X0213の二の舞はやめようよw

516 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 22:14:13 ]
>仕様書を書くときに主語をちゃんと付けることを意識するとかさ?
書かないまでも、意識していないと所謂「とんでも」文書ができあがるわけだが。
# 「マウスボタンが押すとウインドウが表示します」とか。

517 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 22:40:59 ]
>512
UNICODE的に、新規コードポイントの追加は、
まずは国内規格、次にUNICODEって順番じゃなかったっけ?

518 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 23:31:00 ]
だから、ウニコードやまりゃいいじゃん


519 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 00:23:03 ]
はやくExt-C出せー

520 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 02:59:07 ]
>>515
なんで俺の職場の話がいきなり出てくるのか意味不明だが
日本における標準化の試みは
学者が机上の空論をあーでもないこーでもないと小田原評定のごとくこねくり回した
挙げ句黒船に全部持って行かれるのが通例。
www.itscj.ipsj.or.jp/domestic/mojicode/index.html
の異体字アーキテクチャの検討なんて絵に描いたようだ

521 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 08:47:51 ]
んー、
動画フォーマットとかはそうでもない気がするけど?

522 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 09:00:50 ]
mbcs/wcs
ISLISP
IPv6, Mobile IP

この辺は日本の団体が組織的に関わってるよ。


523 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 09:29:05 ]
個人名で論文や案を提出してレビューする形にしないと、
>>520が多い状況はなかなか改善できないと思う。
本来、案もレビューも書かない奴の意見なんて聞く必要ないんだ。



524 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 13:14:54 ]
意味のあることを何も言えない奴って、無視されると
意味のあることを言った奴より怒るんだよね。

525 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 23:39:09 ]
>>523-524
* Ideographic Variation Databaseという対案が明確に示されてる
* 日本は>>520を国際提案していない
話にもならんね

526 名前:デフォルトの名無しさん [2008/04/11(金) 14:34:46 ]
>>501
Mac OS XのHFS+は、
さらにアルファベットの大文字小文字の同一視もやってるよな。

ファイル名としては大文字小文字が保存されているけど、
比較ではcase ignoreだからFooがあればfooでopenする。
FULLWIDTHなアルファベットも同じ。

ただしFULLWIDTHとHALFWIDTHな文字は同一視しない。
WIDTH範疇が同じ場合に限り大文字小文字を区別。

527 名前:デフォルトの名無しさん mailto:sage [2008/04/11(金) 15:11:34 ]
>WIDTH範疇が同じ場合に限り大文字小文字を区別。
×区別
○同一視

こうですか?

528 名前:デフォルトの名無しさん mailto:sage [2008/04/11(金) 18:52:47 ]
>>510
>そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。

そういえば Unicode で日本語の文字列をソートした場合、普通はどんな並び順に
なるんでしょうか/なるべきなんでしょうか。Collation のライブラリ毎に違うんでしょうか。
unicode.org の TR10 とか見てみましたがよくわかりませんでした。

529 名前:デフォルトの名無しさん mailto:sage [2008/04/11(金) 20:02:25 ]
>>526
Case SensitiveなHFS+もあるよ。
同一視する文字や使えない文字はファイルシステム毎に異なるから
あるファイル名が使えるかは単純には判断出来ない。

530 名前:デフォルトの名無しさん mailto:sage [2008/04/12(土) 03:00:11 ]
>>529
既にインストーラでは選べないんじゃない?
昔使ってたが、馬鹿アプリで問題発生したので使わなくなった。
アプリ内のファイルがCapitalizedなのに、
アプリが全部大文字でアクセスしてたw

531 名前:デフォルトの名無しさん mailto:sage [2008/04/17(木) 22:38:32 ]
std.dkuug.dk/jtc1/sc2/wg2/docs/n3425.pdf
トンパ文字の提案キター

532 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 06:22:15 ]
std.dkuug.dk/jtc1/sc2/wg2/docs/n3409.pdf
ARIB互換漢字についてアメリカとイギリスからIVSを使えよボケと突っ込まれてるw

533 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 21:35:34 ]
これからIVSを積極的に導入してくなら、現在異体字なのに別のコードポイントを
与えられている文字はIVSに吸収してくるとスッキリするんだけど。
今までのしがらみで無理かな。



534 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 21:48:21 ]
標準に入らなくても、基準とデータは有意義に使われると思うよ。

535 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 22:25:21 ]
原規格分離規則があるから、全部統一は無理

536 名前:デフォルトの名無しさん mailto:sage [2008/04/19(土) 00:09:08 ]
原規格分離規則ってCJK Unified Ideographs領域のみ適用で、
それ以降に定義された領域では使わないっていうアレか。

537 名前:デフォルトの名無しさん mailto:sage [2008/04/19(土) 03:41:26 ]
>>533
既存の互換漢字を削除はあり得ないけど、これから追加しようとしたら突っ込まれて当然だろう

538 名前:デフォルトの名無しさん mailto:sage [2008/04/20(日) 11:42:06 ]
Uniocde 5.1の文字一覧マダー(aary
ttp://www.unicode.org/Public/5.1.0/charts/
予告期限は過ぎてるんだけど

あともう5.2.0のディレクトリあって吹いたw

539 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 22:57:20 ]
TIP www.unicode.org/roadmaps/tip/ 甲骨文字


540 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 23:04:50 ]
文字コードとグリフを同じに扱おうとしたつけだ
いいじゃねぇの?


541 名前:デフォルトの名無しさん mailto:age? [2008/04/27(日) 11:10:56 ]
>>538
来てる

542 名前:デフォルトの名無しさん mailto:sage [2008/04/27(日) 20:49:59 ]
ところでT書体はまだですか

543 名前:デフォルトの名無しさん mailto:sage [2008/04/28(月) 03:56:41 ]
>>542
www.sakamura-lab.org/FONT/
4月中の公開は無理そう
つーか以前は「2006年春」って言っててそれもブッチしてなかったっけ



544 名前:デフォルトの名無しさん mailto:sage [2008/04/28(月) 13:30:01 ]
std.dkuug.dk/jtc1/sc2/wg2/docs/n3475.pdf
結局ARIB互換漢字の追加は受理されたようだ

545 名前:デフォルトの名無しさん mailto:sage [2008/04/28(月) 14:19:01 ]
ARIBの仕様書が公開されてた
www.arib.or.jp/english/html/overview/doc/2-STD-B24v5_1-1p3.pdf
JIS X 0213の指示には私用終端バイトを使って
JIS X 0208の独自拡張をESC 2/4 4/2で指示するという変態仕様
逆だろ…






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<157KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef