文字コード総合スレ part3

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 05/09 17:12 / Filesize : 157 KB / Number-of Response : 671
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

文字コード総合スレ part3

1 名前：デフォルトの名無しさん [2007/05/27(日) 16:19:36 ]: プログラムにおける各種文字コードの処理について語りましょう♪

■前スレ
文字コード総合スレ part2
pc11.2ch.net/test/read.cgi/tech/1143375639/

■参考サイト
Unicode Home Page
www.unicode.org/
Java Character Encodings
www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
411 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 07:43:42 ]: >>410
手元のWindowsXP/NTFSだと U+00C4 と A+U0308 を別々に作れた、なので正規化はしてないっぽい。
MacOSXだと作れないだろうね。
412 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 10:01:39 ]: >>410
> > 何らかの正規化がなされていると思うけど

Mac OS Xくらいしか知らないよ。
Windows, UNIX系ではないんじゃない？
413 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 10:08:51 ]: >>411
MacOSXでも作れる。
OSXのVFSはNFDに準じたファイル名の正規化を行うが、互換漢字は対象外
414 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 14:30:19 ]: >>413
VFSじゃないだろ?
CarbonとHFS+でやってんじゃない?

すくなくとも10.3の調査ではそうだった。
だからターミナルからUFSやNFS上にファイルを作成すれば、
ファイル名はNFDされてなかった。
415 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 17:17:53 ]: >>412
ほんとに? 正規化されてないUnicodeでファイル名を扱うっていうのは
混乱を招くような気がするのだが...
416 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 18:49:29 ]: データそのものを正規化してしまうような仕組みは嬉しくないなあ。
正規化はソートや検索の時に動的にしてくれたほうが嬉しい。
417 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 19:02:26 ]: >>416
ヘテロな環境で正規化の方法が違った場合、
USBサムドライブで困るよね。
418 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 20:53:24 ]: >>414
Technical Q&A QA1173
Text Encoding in VFS
developer.apple.com/jp/qa/qa2001/qa1173.html
developer.apple.com/qa/qa2001/qa1173.html
419 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 21:16:22 ]: >>418
この文章だと10.2の頃からそうなっているみたいだけどそれは嘘。
Darwinのソースコード＆テストで調べた。
420 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 23:00:27 ]: >>415
むしろ下手な正規化(大文字と小文字の同一視とか)をされるより
個々のアプリでの扱いに任せてもらった方が混乱は少ないよ
421 名前：デフォルトの名無しさん mailto:sage [2008/03/19(水) 23:19:28 ]: 小文字と大文字の同一視は、
Mac, Winでそうだから避けられないのかねえ。
カタカナとひらがなはどうなんだとかきりがないねえ。
422 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 00:29:04 ]: >>420
そうじゃなくて、NFCとかNFDとか、上に出てたでしょ。
423 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 00:54:10 ]: >>419
まあ「VFS API」というのが実際に何を意味するかですかね。もしかして UNIX の
ファイルアクセス用の API （システムコール）程度の意味なのかも。
かつ HFS+ のことだけを念頭においているのかも。NFS とかは「例外」扱いだし。

実際 UFS や NFS は正規化はしないですね > Mac OS X
424 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 01:41:14 ]: >>409
MediaWikiでは正規化されたくない文字は文字参照にするしかないね
それでも項目名には使えない
425 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 01:43:01 ]: >>421
つ[Collation]
ただし事前処理として正規化が前提になってるのでもし互換漢字のソート順を
統合漢字と変えたかったりしたら使えない
426 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 07:50:55 ]: >>423
HFS+オンリーで「VFSが」というもの…w
427 名前：デフォルトの名無しさん [2008/03/20(木) 23:07:19 ]: OS：WindowsXPproSP2
アプリ：DreamWeaverMX

DreamWeaverMXでhtmlファイルを新規作成したとき、<META>タグは以下の記述でした。
<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">

ここではcharsetで文字コードShift_JISを指定していますが、ページをIE6.0以降で見られることを想定した場合に
文字化けをできるだけ減らすためには、charsetの値はどのようにすればいいのでしょうか？
428 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:26:38 ]: そのままでいいよ
429 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:50:02 ]: 板違いだからweb制作でも行け
430 名前：デフォルトの名無しさん mailto:sage [2008/03/21(金) 12:26:11 ]: >>428-429
了解。ありがとう
431 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 16:34:58 ]: EUC-JP と宣言しながら CP51932 なウェブページがかなりあるのに
CP51932 相当の IANA 名を定義するような動きはなかったんですかね。
Shift_JIS と Windows-31J の区別はあるんだし。
432 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 00:50:39 ]: CP51932だってどうしてわかるの
433 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 08:29:22 ]: >>431
どれぐらい多いの？
日本語で書かれているウェブページのうち、何%がEUC-JPと宣言されてい
て、そのうち何%が実際はCP51932なの？
434 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 09:39:56 ]: windows-31jって、今からでもwindows-932にならんかね。aliasでもいいんだけど。
他のwindows-コードページの番号ってなってるコードページと一貫性がない。
435 名前：デフォルトの名無しさん [2008/03/24(月) 11:06:44 ]: 0x81～0x9Fの文字がある=Shift-JIS
0xFD～0xEFの文字がある=EUC
って解釈でいい？
436 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 14:55:39 ]: まさか
437 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 19:59:20 ]: そんな楽で良いなら
438 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 20:04:29 ]: 世の中に一体いくつの文字コードがあることか
439 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 20:06:57 ]: UNICODEの存在意義がなくなる
440 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:08:24 ]: >>434
Microsoftがietf-charsetsに提案してたようだが例によって途中からｇｄｇｄ
mail.apps.ietf.org/ietf/charsets/msg01618.html
こんなだからみんな面倒な登録手続きなんか無視して
好き勝手にcharset使い出してカオスになるんだろうな。

そういやISO-2022-JP-2004の登録手続きはどうなりましたか安岡センセイ
www.jstage.jst.go.jp/article/johokanri/50/2/67/_pdf/-char/ja/
こんなもの書いてる暇があったらShift_JIS-2004登録してください
規格通りに使いたくても使えないじゃないですか
441 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:09:56 ]: もう全部x-つけといたらいいよ。
442 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:16:39 ]: つーかさー
mail.apps.ietf.org/ietf/charsets/msg01783.html
なんでMartin Duerstセンセイともあろうお方が今さらこんなこと言ってるの?
RFC 1192ご覧になったことあります? つーか
> We also wish to thank the following people who contributed in many
> ways towards this document.
> Zhang Zhoucai Martin J. Duerst
見てないはずがないんだけど。

何でcharset-extensionとcharset-editionはみんなに無視されたのに
今度はうまくいくとか無邪気に思い込めるわけ?
443 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:17:15 ]: RFC 1922の間違いorz
444 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 00:23:06 ]: >>440
いやそのドキュメントは有意義だと思うよ。
ちゃんとまとめて、読めるようにしとかないと、
独自コード乱発は加速するばかりだから。
445 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 01:19:23 ]: >>431
CP51932 相当の IANA 名をWindows-31Jって言うんじゃね？
テキストエンコーディングが何だろうと、文字集合は同じでしょ。
446 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:35:01 ]: >>445
IANA charsetの「charset」は文字集合+符号化方式のセット
447 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:38:59 ]: >>440
Martinセンセイにドキュメントがないだとか色々突っ込まれて力尽きてたはず。
使いたいなら後をついで進めるといいのかもしれないけど、
必要なドキュメントをJISが握ってる以上難しい気もしないでもない。
448 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 11:56:26 ]: 流れぶった切ってすまん。
日立のEBCDIKコード表探してるんだけど、
www.wdic.org/w/WDIC/EBCDIK とか
www.pleasuresky.co.jp/ebcdic.php3 とかじゃなくて
日立が提示してるオリジナルがいいんだけど、どっかにないですかね？
449 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 12:01:21 ]: www.pleasuresky.co.jp/images/ebcdic.gif
450 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 12:04:00 ]: >>449
なにこの汚いコードは
451 名前：デフォルトの名無しさん [2008/03/25(火) 12:13:23 ]: 文字コードの判別、変換に挫折した…
情けねぇ…
452 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 18:13:48 ]: EBCDIC くらいは知っとこうぜ
453 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:14:53 ]: >>444
ドキュメントの有意義さは否定しないけど
実際にWebページやメールでそのドキュメントの通りに使えというなら
使えるようにしてくれなきゃ話が始まらない
>>447
俺はUnicodeでいいと思ってるからなー
使いたい人ががんばってくださいとしか
がんばらないで勝手に使うという最悪の選択だけはくれぐれもやめてほしい
454 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:21:11 ]: UpperCharで
小文字 0xED40 纊
が
大文字 0xFA5C 纊
に変換されるのですが、この辺わかりやすく説明しているサイトないでしょうか～
455 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:35:00 ]: >>454
support.microsoft.com/kb/170559/ja
456 名前：デフォルトの名無しさん mailto:sage [2008/03/25(火) 21:41:47 ]: >>455
非常に勉強になったよ。
ありがとう！
457 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 02:30:15 ]: >>453
> 実際にWebページやメールでそのドキュメントの通りに使えというなら

言ってないw
458 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 02:37:51 ]: なるほど
> ケータイの絵文字や、CP932のIBM拡張文字など
はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに
直接書いてはいない。でもそれなら何で今インターネットで使えるJIS X 0208:1997
ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの?
Shift_JIS-2004の絵文字のうち
> 「♪」以外は収録されていなかった
そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?
459 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 08:47:40 ]: 結局世の中の流れとしてはこんな感じ?

1. いわゆるレガシーエンコーディングの、ベンダー毎の拡張みたいのは今後積極的
にはサポートされない。
　-> 新たに IANA に登録されてたりすることはない?
　-> charset にない文字を使っているようなのは化けてもしょうがないって感じ?

2. IBM拡張漢字、絵文字等をどうしても使いたい場合は Unicode で。
　-> Windows-31J は IANA に登録されてるからアリ?
460 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 09:54:22 ]: Windowsで扱える文字一覧みたいなものはどこかにないでしょうか？
461 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 12:14:50 ]: コードページ毎で良ければここはどう。
www.microsoft.com/globaldev/reference/cphome.mspx
462 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:04:19 ]: >>460
U+0000からU+10FFFFまで扱えるよ
463 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:10:39 ]: >>461
ちゃんと資料があったんですね。ありがとうございます。
464 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:12:18 ]: >>462
すいません、ちゃんとフォントがあって表示できる
またはIMEから入力できるものという意味でした。
465 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:20:32 ]: >>458
>> ケータイの絵文字や、CP932のIBM拡張文字など
>はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに
>直接書いてはいない。
IANA charset登録済みのもの。

>でもそれなら何で今インターネットで使えるJIS X 0208:1997
>ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの?
なんでだろうねぇ。
Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。

>> 「♪」以外は収録されていなかった
>そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?
使っていい、Unicodeに登録されているんで、UTF-8を指定すればよい。
もちろん、JIS X 0213系のエンコーディングはダメ。
466 名前：デフォルトの名無しさん mailto:sage [2008/03/27(木) 18:55:27 ]: > Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。
他にも>>440の資料は突っ込みどころ大杉。
> JISにもUnicodeにも違反しており
未使用領域を使用禁止にしているJIS X 0208/0213と違ってUnicodeでPUAを
使うこと自体は何も規格に違反してない。いわば文字化けするのはUnicodeの仕様。
> Windows Vistaの方が、ある意味、正しい動作だと言える。
どっちかが正しい動作だと言うこと自体ミスリーディング。
規格を守っていても「字体化け」するのがJISやUnicodeの「仕様」。

もちろん安岡センセイがそんな初歩的なこと知らないはずがないので
確信犯なんだろうけど(とくに後者)。
467 名前：デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:05:38 ]: しかし、文字コード関連は政治的な位置からものを書く人間が多すぎるな
468 名前：デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:16:54 ]: 文字コードはもともと政治の道具です
469 名前：デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:22:49 ]: オタク好きするんだよ。政治というか、勢力争いの話はね。
そういうのが存在する分野の話になると、そこにばっかフォーカスすることになる。

それだけを固めた例としては、ゲーハー板。
470 名前：デフォルトの名無しさん mailto:sage [2008/03/28(金) 00:04:05 ]: >467
だったらネタ振ってくれ。例えばNew ASCII配列とか。
471 名前：デフォルトの名無しさん mailto:sage [2008/03/28(金) 05:47:01 ]: 例まで絞るくらいなら、その話題を自分が振ればいいのに。
472 名前：デフォルトの名無しさん mailto:sage [2008/03/29(土) 13:19:21 ]: EBCDICとEBCDIKの違いがあるのも政治的な理由からですか？
473 名前：デフォルトの名無しさん mailto:sage [2008/03/29(土) 15:58:10 ]: メリケン野郎にはカナなんかいらんからだろ。
474 名前：デフォルトの名無しさん mailto:sage [2008/03/30(日) 02:19:37 ]: ICU のこのページ→ demo.icu-project.org/icu-bin/convexp なんだけど、
Aliasってことは「等価な」エンコーディングって扱いなのかな?
もしそうだとすると日本語のエンコーディングに関しては鬱なような...
475 名前：デフォルトの名無しさん mailto:sage [2008/03/30(日) 04:31:26 ]: ちょっと横レスですが。

>>472-473
EBCDIKってのは日立方言だよ。
ネットではEBCDIC(カタカナ版)のことだと説明してることが多いけど、
誰かがそう書いたのをよく調べもせずに孫引きで書いている奴が多いだけ。
476 名前：デフォルトの名無しさん mailto:sage [2008/03/30(日) 11:19:36 ]: >474
「Converters with conflicting aliases」とか。
ibm-942-P12A-1999とibm-943-p15A-2003が
両方ともaliasにcp932を持ってる事の説明が付かないけど？
477 名前：デフォルトの名無しさん mailto:sage [2008/04/04(金) 11:08:02 ]: さて
Unicode 5.1のリリース予定日がやってまいりました
478 名前：デフォルトの名無しさん mailto:sage [2008/04/05(土) 21:55:19 ]: 無事リリースされますた。
StandardizedVariants.htmlにIVDに関する言及が追加されますた
479 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 02:55:20 ]: また新しい文字コードが一つ増えただけになるのか、それとも統合されるべく方向に行っているのか。
まったくこのスレのネタすら分からないけど、基本的にutf-8かutf-32?使っておけばよい?
16はなんか面倒とか聞いた覚えがあるが今はそこまで調べる気力なし…。
480 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:49:53 ]: >>479
基本的に UTF-8 使っておけばよし

UTF-32、というか32ビットでの処理はアプリが内部で使う場合の話で
文字コードとして意識する必要はないよ
481 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:58:00 ]: 内部処理も行処理程度だとUTF-8のままってのが多いしね。
482 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 12:53:51 ]: ユニコードで唯一の功績は UTF-8 を発明したこと。
提案したのは部外者だけど。
483 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:02:59 ]: 功績か?
utf-8って好き嫌いがはっきりしている気がする。
484 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:07:05 ]: 日本語が３～４バイトになるからなあ。
まあ仕方が無いのは分かるが。
485 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:08:59 ]: >>482
Unicodeのエンコード方式の一つとしてはそうなのかもしれんが…
一長一短な気もするけど、今後Unicode対応アプリを作る上ではUTF-8はchar*で扱える
面だけ取れば悪くはないのかも
XMLとかもさ
だけど、結局ファイルやストリームから読み取る分にはUTF-8でいいけど、1～4バイトの
可変長ってのがね
処理内部はUTF-16として扱うのが一番楽だね１文字２バイトと単純計算できるし、
今はサロゲートペアのことを意識する必要が無いから

文字列はそもそもリソース定義すべきだから、ソース中に文字列で埋め込まないんであれば
エンコード方式さえはっきりしてればどうでもいいや
それより、SJISでコメント書いたソースをWindowsエミュレータやリビジョン管理(ClearCaseやCVS、SVN)
で使って、実機やテスト機(Linux)ではEUCだとコンパイル時にコメントが改行されてたりするんだよねｗ
うちんとこでは、Lunuxビルドはmakefileの中でnkfで文字コード変換されてるが…
486 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:19:34 ]: > 今はサロゲートペアのことを意識する必要が無いから
いつかサロゲートペア対応に改良する暇はあるの？
初めからUTF-32にすればいいだろ。
487 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:26:20 ]: ユニコードはエンコード方式がわかっても日本語とは限らないんだな。
CJKでしかないから。
488 名前：485 mailto:sage [2008/04/06(日) 21:33:50 ]: >>486
Unicode 4.0を見てみたｗ
どう見ても、当面サロゲートペアを使う必要はなさそうだなあｗ
UTF-32でもいいんだけどさ、やっぱ１文字で４バイトってやだなー
特に理由ないんだけどさ
U+10000～を使うことが明らかなら別だけど、使わないしさ

>>487
CJKというか、CJKVのようだけどね
Unicodeは言語を識別するためのものじゃないし、それは別途ISO 639なり使って
管理するとかじゃないの？
489 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:37:48 ]: 今の仕様書を1990年に持っていけたらもっとマシなコード体系が出来上がるんだろうなあ…
490 名前：485 mailto:sage [2008/04/06(日) 21:43:44 ]: >>489
時はバブル、んな将来的なことどうでもいいとか思われそうだがｗ
Y2Kなんて、もっと早急に対応してればあんなに世間が騒ぐこともなかったんだし
結局何も起きなかったけどさｗ
491 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:58:14 ]: 世の中の悪い事態の多くは、そうなることが予測不能だったからではなく、
そうなるとわかっているけど対処しなかったから起こったんだ、
とつい最近どっかで読んだけど、まったくだｗ
492 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 22:12:38 ]: その意味では正に、
「過去に戻れても、やはり同じようになるよ」だな。
493 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 23:09:49 ]: >>485
>今はサロゲートペアのことを意識する必要が無いから
さすがにもう時間の問題でしょ。
そろそろ JIS X 0213 が要求に入り始めるだろうし。
494 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 01:51:07 ]: UTF-8は大好きですよ
495 名前：485 mailto:sage [2008/04/07(月) 08:49:15 ]: >>493
JIS X0213はさすがに困ったちゃんな規格を作ってくれたもんだなぁと思いつつも、いわゆる第三～第四水準に
ようやく人名漢字として略されてたものとかが扱えるとかどうとかで恩恵を受ける人もいるんだろうか？
サロゲートペアを扱うとなると、１文字=2バイトの原則が壊れるんだよなぁ

そういや、2000年だかから中国のGB2312の拡張規格GB18030は、中国大陸における文字表示可能な機器の
全てが対応する必要があるとか訊いて社内で騒ぎになって、Windows2000ではGB18030フォンとパックやら
変なAPIで4バイト文字対応してたとおもうんだけど、こいつはUnicodeとどう親和性を取るつもりなのかな？
規格上はGB18030はISO/IEC 10646を丸ごと飲み込んじゃう規格なんだけど…
496 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 13:42:22 ]: >>485
>今はサロゲートペアのことを意識する必要が無いから

サロゲートペア以外にも合成文字とかあるんですけど。
497 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:05:39 ]: >>496
MacOS-Xの「ヒ+゜」とかね。
いつ「普通の」データとして飛び込んでくるか分かったもんじゃない。
498 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:12:03 ]: 何しろあれが正規形の一つだからな。
499 名前：485 mailto:sage [2008/04/07(月) 19:41:16 ]: >>496
確かに…
合成文字はヤだなぁ
あと、くっつき方がキモいデーヴァナーガリー文字とかその類も…
500 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:01:44 ]: >>497
Mac持ってないけど「ピ」は合成されてるの？
JISX0213の「か゜」とかじゃなくて？
501 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:26:25 ]: >>500
>>413のNFD
502 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:46:58 ]: >>485
もう現実を見るんだ。
固定バイトの文字コードなんて所詮夢だったんだよ。
503 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:20:35 ]: それでも32bitあればなんとか…
504 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:25:05 ]: HYPHEN-MINUSって文字が誕生した時からこの世はカオスさ
505 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 22:26:30 ]: UTF-8は0x10入らないようにして欲しいなぁ。
506 名前：485 mailto:sage [2008/04/08(火) 09:22:27 ]: >>502
そうか、やはりそうなのか…
固定バイトはもはや夢物語なんだなorz
合成文字といえば、ヨーロッパのラテン文字事情なんとかならんのでしょうか？？？
ローカライズにあたって、文字列検索の曖昧検索を行うわけなのだが、Aとキーされようと、
アクセントが付いてようとウムラウトだろうと引っかからないといけないのはまぁいいとして…
A+アクセントとかはやめて欲しいのだがｗ
いったい、ヨーロッパは何言語あるんだYO!
507 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 09:43:20 ]: L10nされたあいまい検索は、各言語のネイティブの専門家によるアドバイスが
ないとムリポ。
（「エ」と「ヱ」を同一視するかどうかなんて日本人でも判断に困るだろ？）
508 名前：485 mailto:sage [2008/04/08(火) 11:31:51 ]: >>507
だよねー
今月号の「NEWTON」を読んだら、ラテン語のアルファベットは当初英語で使われるものとほぼ
同じだったとか？
その後に、フランス語やらでアクセント記号が付けられたとかどうとか…
てっきり、逆だと思ってたんだが、Unicode 1.0策定時にCJKの統合に当たってルーツの異なる文字で
似ている物を同一視しようとした件、ラテン語圏でもやはりアクセント記号はそれくらい意味のある文化
の一つなんだろうか…

幸い、自分は合成文字には今のところ携わることはなさそうだが…
中国国家標準のGB 18030をどうにかしてもらいたい…
GB 2312、ASCII、ISO/IEC 10646をうまいこと包含しているという点ではうまいこと考えたなと関心
出来るんだけど、結局は1～4バイトのマルチバイト文字ってワケで、ISO/IEC 10646を包含したとしても
変なジレンマ作ってるだけだし…
そもそも、CJKのグリフが U+3400～U+4DFE、U+4E00～U+9FFEまでしか割り振られてないじゃんか！
BMP面で足りるじゃんかー！
509 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 13:30:47 ]: >>507
ラテン語ネイティブも、油断してると、
JIS X 0208のFULLWIDTH LATIN (CAPTAL) LETTER *ってのがあるしね。
自前で実装しようとするとHALFWIDTHへの正規化を忘れちゃう。

>>508
表音音文字元祖のフェニキア文字の子孫の
ギリシャ文字でさえ発音記号はないからね。

アクセント記号はcollationの時にも、
取り払ってソートするか付いたままソートするか、
国によって標準的な取り扱いが違って難しい。
510 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:21:30 ]: そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。

>>GB18030
Unicodeに変換して処理するだけなんだから別に関係ないでしょ
511 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:49:23 ]: 他国の心配する前に日本語の処理くらいまともにやってくれ

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef