文字コード総合スレ part3

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 05/09 17:12 / Filesize : 157 KB / Number-of Response : 671
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

文字コード総合スレ part3

1 名前：デフォルトの名無しさん [2007/05/27(日) 16:19:36 ]: プログラムにおける各種文字コードの処理について語りましょう♪

■前スレ
文字コード総合スレ part2
pc11.2ch.net/test/read.cgi/tech/1143375639/

■参考サイト
Unicode Home Page
www.unicode.org/
Java Character Encodings
www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
481 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:58:00 ]: 内部処理も行処理程度だとUTF-8のままってのが多いしね。
482 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 12:53:51 ]: ユニコードで唯一の功績は UTF-8 を発明したこと。
提案したのは部外者だけど。
483 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:02:59 ]: 功績か?
utf-8って好き嫌いがはっきりしている気がする。
484 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:07:05 ]: 日本語が３～４バイトになるからなあ。
まあ仕方が無いのは分かるが。
485 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:08:59 ]: >>482
Unicodeのエンコード方式の一つとしてはそうなのかもしれんが…
一長一短な気もするけど、今後Unicode対応アプリを作る上ではUTF-8はchar*で扱える
面だけ取れば悪くはないのかも
XMLとかもさ
だけど、結局ファイルやストリームから読み取る分にはUTF-8でいいけど、1～4バイトの
可変長ってのがね
処理内部はUTF-16として扱うのが一番楽だね１文字２バイトと単純計算できるし、
今はサロゲートペアのことを意識する必要が無いから

文字列はそもそもリソース定義すべきだから、ソース中に文字列で埋め込まないんであれば
エンコード方式さえはっきりしてればどうでもいいや
それより、SJISでコメント書いたソースをWindowsエミュレータやリビジョン管理(ClearCaseやCVS、SVN)
で使って、実機やテスト機(Linux)ではEUCだとコンパイル時にコメントが改行されてたりするんだよねｗ
うちんとこでは、Lunuxビルドはmakefileの中でnkfで文字コード変換されてるが…
486 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:19:34 ]: > 今はサロゲートペアのことを意識する必要が無いから
いつかサロゲートペア対応に改良する暇はあるの？
初めからUTF-32にすればいいだろ。
487 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:26:20 ]: ユニコードはエンコード方式がわかっても日本語とは限らないんだな。
CJKでしかないから。
488 名前：485 mailto:sage [2008/04/06(日) 21:33:50 ]: >>486
Unicode 4.0を見てみたｗ
どう見ても、当面サロゲートペアを使う必要はなさそうだなあｗ
UTF-32でもいいんだけどさ、やっぱ１文字で４バイトってやだなー
特に理由ないんだけどさ
U+10000～を使うことが明らかなら別だけど、使わないしさ

>>487
CJKというか、CJKVのようだけどね
Unicodeは言語を識別するためのものじゃないし、それは別途ISO 639なり使って
管理するとかじゃないの？
489 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:37:48 ]: 今の仕様書を1990年に持っていけたらもっとマシなコード体系が出来上がるんだろうなあ…
490 名前：485 mailto:sage [2008/04/06(日) 21:43:44 ]: >>489
時はバブル、んな将来的なことどうでもいいとか思われそうだがｗ
Y2Kなんて、もっと早急に対応してればあんなに世間が騒ぐこともなかったんだし
結局何も起きなかったけどさｗ
491 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:58:14 ]: 世の中の悪い事態の多くは、そうなることが予測不能だったからではなく、
そうなるとわかっているけど対処しなかったから起こったんだ、
とつい最近どっかで読んだけど、まったくだｗ
492 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 22:12:38 ]: その意味では正に、
「過去に戻れても、やはり同じようになるよ」だな。
493 名前：デフォルトの名無しさん mailto:sage [2008/04/06(日) 23:09:49 ]: >>485
>今はサロゲートペアのことを意識する必要が無いから
さすがにもう時間の問題でしょ。
そろそろ JIS X 0213 が要求に入り始めるだろうし。
494 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 01:51:07 ]: UTF-8は大好きですよ
495 名前：485 mailto:sage [2008/04/07(月) 08:49:15 ]: >>493
JIS X0213はさすがに困ったちゃんな規格を作ってくれたもんだなぁと思いつつも、いわゆる第三～第四水準に
ようやく人名漢字として略されてたものとかが扱えるとかどうとかで恩恵を受ける人もいるんだろうか？
サロゲートペアを扱うとなると、１文字=2バイトの原則が壊れるんだよなぁ

そういや、2000年だかから中国のGB2312の拡張規格GB18030は、中国大陸における文字表示可能な機器の
全てが対応する必要があるとか訊いて社内で騒ぎになって、Windows2000ではGB18030フォンとパックやら
変なAPIで4バイト文字対応してたとおもうんだけど、こいつはUnicodeとどう親和性を取るつもりなのかな？
規格上はGB18030はISO/IEC 10646を丸ごと飲み込んじゃう規格なんだけど…
496 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 13:42:22 ]: >>485
>今はサロゲートペアのことを意識する必要が無いから

サロゲートペア以外にも合成文字とかあるんですけど。
497 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:05:39 ]: >>496
MacOS-Xの「ヒ+゜」とかね。
いつ「普通の」データとして飛び込んでくるか分かったもんじゃない。
498 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:12:03 ]: 何しろあれが正規形の一つだからな。
499 名前：485 mailto:sage [2008/04/07(月) 19:41:16 ]: >>496
確かに…
合成文字はヤだなぁ
あと、くっつき方がキモいデーヴァナーガリー文字とかその類も…
500 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:01:44 ]: >>497
Mac持ってないけど「ピ」は合成されてるの？
JISX0213の「か゜」とかじゃなくて？
501 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:26:25 ]: >>500
>>413のNFD
502 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:46:58 ]: >>485
もう現実を見るんだ。
固定バイトの文字コードなんて所詮夢だったんだよ。
503 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:20:35 ]: それでも32bitあればなんとか…
504 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:25:05 ]: HYPHEN-MINUSって文字が誕生した時からこの世はカオスさ
505 名前：デフォルトの名無しさん mailto:sage [2008/04/07(月) 22:26:30 ]: UTF-8は0x10入らないようにして欲しいなぁ。
506 名前：485 mailto:sage [2008/04/08(火) 09:22:27 ]: >>502
そうか、やはりそうなのか…
固定バイトはもはや夢物語なんだなorz
合成文字といえば、ヨーロッパのラテン文字事情なんとかならんのでしょうか？？？
ローカライズにあたって、文字列検索の曖昧検索を行うわけなのだが、Aとキーされようと、
アクセントが付いてようとウムラウトだろうと引っかからないといけないのはまぁいいとして…
A+アクセントとかはやめて欲しいのだがｗ
いったい、ヨーロッパは何言語あるんだYO!
507 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 09:43:20 ]: L10nされたあいまい検索は、各言語のネイティブの専門家によるアドバイスが
ないとムリポ。
（「エ」と「ヱ」を同一視するかどうかなんて日本人でも判断に困るだろ？）
508 名前：485 mailto:sage [2008/04/08(火) 11:31:51 ]: >>507
だよねー
今月号の「NEWTON」を読んだら、ラテン語のアルファベットは当初英語で使われるものとほぼ
同じだったとか？
その後に、フランス語やらでアクセント記号が付けられたとかどうとか…
てっきり、逆だと思ってたんだが、Unicode 1.0策定時にCJKの統合に当たってルーツの異なる文字で
似ている物を同一視しようとした件、ラテン語圏でもやはりアクセント記号はそれくらい意味のある文化
の一つなんだろうか…

幸い、自分は合成文字には今のところ携わることはなさそうだが…
中国国家標準のGB 18030をどうにかしてもらいたい…
GB 2312、ASCII、ISO/IEC 10646をうまいこと包含しているという点ではうまいこと考えたなと関心
出来るんだけど、結局は1～4バイトのマルチバイト文字ってワケで、ISO/IEC 10646を包含したとしても
変なジレンマ作ってるだけだし…
そもそも、CJKのグリフが U+3400～U+4DFE、U+4E00～U+9FFEまでしか割り振られてないじゃんか！
BMP面で足りるじゃんかー！
509 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 13:30:47 ]: >>507
ラテン語ネイティブも、油断してると、
JIS X 0208のFULLWIDTH LATIN (CAPTAL) LETTER *ってのがあるしね。
自前で実装しようとするとHALFWIDTHへの正規化を忘れちゃう。

>>508
表音音文字元祖のフェニキア文字の子孫の
ギリシャ文字でさえ発音記号はないからね。

アクセント記号はcollationの時にも、
取り払ってソートするか付いたままソートするか、
国によって標準的な取り扱いが違って難しい。
510 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:21:30 ]: そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。

>>GB18030
Unicodeに変換して処理するだけなんだから別に関係ないでしょ
511 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:49:23 ]: 他国の心配する前に日本語の処理くらいまともにやってくれ
512 名前：485 mailto:sage [2008/04/08(火) 21:02:50 ]: >>510
いやいや、GB 18030は現状はUnicodeでグリフのある領域はカバーしてるけど、Unicodeに無い
民族文字やらをどんどん増やす思惑があるらしい…
だったらその思惑をUnicodeコンソーシアムで提起して貰いたいものなんだが…

>>511
俺の文章？orz
どうせローカライズ以前に、各国の文言を用意するのは翻訳チームのすることで、俺は関わってないし
513 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 21:05:12 ]: 自国で独自路線に突っ走りまくってる日本じゃないんだからお前ごときが
他国の心配しなくてもちゃんと国際提案してくるからむしろ日本NBの怠慢ぶりを
何とかしてくれってば
514 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 21:21:00 ]: そこでJIS第五水準ですよ
515 名前：485 mailto:sage [2008/04/08(火) 21:46:47 ]: >>513
これは>>513の現場もそうだろうと思うのだが、日本人のSEに限らずPMに至るまで、
日本における標準化についてまともに考えている奴っている？
C++を理解するのにISO/IEC 14882を読んだり、仕様書を書くときに主語をちゃんと
付けることを意識するとかさ？
今俺が書いてる文章なんかは支離滅裂だけどorz

>>514
JIS X0213の二の舞はやめようよｗ
516 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 22:14:13 ]: ＞仕様書を書くときに主語をちゃんと付けることを意識するとかさ？
書かないまでも、意識していないと所謂「とんでも」文書ができあがるわけだが。
# 「マウスボタンが押すとウインドウが表示します」とか。
517 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 22:40:59 ]: ＞５１２
UNICODE的に、新規コードポイントの追加は、
まずは国内規格、次にUNICODEって順番じゃなかったっけ？
518 名前：デフォルトの名無しさん mailto:sage [2008/04/08(火) 23:31:00 ]: だから、ウニコードやまりゃいいじゃん
519 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 00:23:03 ]: はやくExt-C出せー
520 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 02:59:07 ]: >>515
なんで俺の職場の話がいきなり出てくるのか意味不明だが
日本における標準化の試みは
学者が机上の空論をあーでもないこーでもないと小田原評定のごとくこねくり回した
挙げ句黒船に全部持って行かれるのが通例。
www.itscj.ipsj.or.jp/domestic/mojicode/index.html
の異体字アーキテクチャの検討なんて絵に描いたようだ
521 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 08:47:51 ]: んー、
動画フォーマットとかはそうでもない気がするけど？
522 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 09:00:50 ]: mbcs/wcs
ISLISP
IPv6, Mobile IP

この辺は日本の団体が組織的に関わってるよ。
523 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 09:29:05 ]: 個人名で論文や案を提出してレビューする形にしないと、
>>520が多い状況はなかなか改善できないと思う。
本来、案もレビューも書かない奴の意見なんて聞く必要ないんだ。
524 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 13:14:54 ]: 意味のあることを何も言えない奴って、無視されると
意味のあることを言った奴より怒るんだよね。
525 名前：デフォルトの名無しさん mailto:sage [2008/04/09(水) 23:39:09 ]: >>523-524
* Ideographic Variation Databaseという対案が明確に示されてる
* 日本は>>520を国際提案していない
話にもならんね
526 名前：デフォルトの名無しさん [2008/04/11(金) 14:34:46 ]: >>501
Mac OS XのHFS+は、
さらにアルファベットの大文字小文字の同一視もやってるよな。

ファイル名としては大文字小文字が保存されているけど、
比較ではcase ignoreだからFooがあればfooでopenする。
FULLWIDTHなアルファベットも同じ。

ただしFULLWIDTHとHALFWIDTHな文字は同一視しない。
WIDTH範疇が同じ場合に限り大文字小文字を区別。
527 名前：デフォルトの名無しさん mailto:sage [2008/04/11(金) 15:11:34 ]: ＞WIDTH範疇が同じ場合に限り大文字小文字を区別。
×区別
○同一視

こうですか?
528 名前：デフォルトの名無しさん mailto:sage [2008/04/11(金) 18:52:47 ]: >>510
>そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。

そういえば Unicode で日本語の文字列をソートした場合、普通はどんな並び順に
なるんでしょうか/なるべきなんでしょうか。Collation のライブラリ毎に違うんでしょうか。
unicode.org の TR10 とか見てみましたがよくわかりませんでした。
529 名前：デフォルトの名無しさん mailto:sage [2008/04/11(金) 20:02:25 ]: >>526
Case SensitiveなHFS+もあるよ。
同一視する文字や使えない文字はファイルシステム毎に異なるから
あるファイル名が使えるかは単純には判断出来ない。
530 名前：デフォルトの名無しさん mailto:sage [2008/04/12(土) 03:00:11 ]: >>529
既にインストーラでは選べないんじゃない?
昔使ってたが、馬鹿アプリで問題発生したので使わなくなった。
アプリ内のファイルがCapitalizedなのに、
アプリが全部大文字でアクセスしてたw
531 名前：デフォルトの名無しさん mailto:sage [2008/04/17(木) 22:38:32 ]: std.dkuug.dk/jtc1/sc2/wg2/docs/n3425.pdf
トンパ文字の提案キター
532 名前：デフォルトの名無しさん mailto:sage [2008/04/18(金) 06:22:15 ]: std.dkuug.dk/jtc1/sc2/wg2/docs/n3409.pdf
ARIB互換漢字についてアメリカとイギリスからIVSを使えよボケと突っ込まれてるｗ
533 名前：デフォルトの名無しさん mailto:sage [2008/04/18(金) 21:35:34 ]: これからIVSを積極的に導入してくなら、現在異体字なのに別のコードポイントを
与えられている文字はIVSに吸収してくるとスッキリするんだけど。
今までのしがらみで無理かな。
534 名前：デフォルトの名無しさん mailto:sage [2008/04/18(金) 21:48:21 ]: 標準に入らなくても、基準とデータは有意義に使われると思うよ。
535 名前：デフォルトの名無しさん mailto:sage [2008/04/18(金) 22:25:21 ]: 原規格分離規則があるから、全部統一は無理
536 名前：デフォルトの名無しさん mailto:sage [2008/04/19(土) 00:09:08 ]: 原規格分離規則ってCJK Unified Ideographs領域のみ適用で、
それ以降に定義された領域では使わないっていうアレか。
537 名前：デフォルトの名無しさん mailto:sage [2008/04/19(土) 03:41:26 ]: >>533
既存の互換漢字を削除はあり得ないけど、これから追加しようとしたら突っ込まれて当然だろう
538 名前：デフォルトの名無しさん mailto:sage [2008/04/20(日) 11:42:06 ]: Uniocde 5.1の文字一覧マダー(aary
ttp://www.unicode.org/Public/5.1.0/charts/
予告期限は過ぎてるんだけど

あともう5.2.0のディレクトリあって吹いたｗ
539 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 22:57:20 ]: TIP www.unicode.org/roadmaps/tip/ 甲骨文字
540 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 23:04:50 ]: 文字コードとグリフを同じに扱おうとしたつけだ
いいじゃねぇの？
541 名前：デフォルトの名無しさん mailto:age? [2008/04/27(日) 11:10:56 ]: >>538
来てる
542 名前：デフォルトの名無しさん mailto:sage [2008/04/27(日) 20:49:59 ]: ところでT書体はまだですか
543 名前：デフォルトの名無しさん mailto:sage [2008/04/28(月) 03:56:41 ]: >>542
www.sakamura-lab.org/FONT/
4月中の公開は無理そう
つーか以前は「2006年春」って言っててそれもブッチしてなかったっけ
544 名前：デフォルトの名無しさん mailto:sage [2008/04/28(月) 13:30:01 ]: std.dkuug.dk/jtc1/sc2/wg2/docs/n3475.pdf
結局ARIB互換漢字の追加は受理されたようだ
545 名前：デフォルトの名無しさん mailto:sage [2008/04/28(月) 14:19:01 ]: ARIBの仕様書が公開されてた
www.arib.or.jp/english/html/overview/doc/2-STD-B24v5_1-1p3.pdf
JIS X 0213の指示には私用終端バイトを使って
JIS X 0208の独自拡張をESC 2/4 4/2で指示するという変態仕様
逆だろ…
546 名前：デフォルトの名無しさん [2008/04/29(火) 08:16:41 ]: まったくの初心者です。
↓のコードは何でしょうか？
17163542

何て書いてあるのか、教えてください
よろしく
547 名前：デフォルトの名無しさん mailto:sage [2008/04/29(火) 08:20:26 ]: 板違い。こちらへどうぞ
love6.2ch.net/mystery/
548 名前：デフォルトの名無しさん [2008/04/29(火) 08:23:07 ]: >>547
すみません。
文字コードじゃないんですか？
549 名前：デフォルトの名無しさん mailto:sage [2008/04/29(火) 09:10:30 ]: こちらへどうぞ。
ttp://google.com/
550 名前：デフォルトの名無しさん mailto:sage [2008/05/01(木) 06:43:38 ]: >>543
やっぱり無理ですた
551 名前：デフォルトの名無しさん mailto:sage [2008/05/17(土) 07:02:50 ]: とあるアプリの文字エンコーディングの挙動が変だなと思ったので
問い合わせたら、「Win上のIEの挙動と同じにしている」とのこと。

具体的にはEUC-JPで0x5cが円記号で表示されるのですが。
これってreverse solidusが正解じゃなかったでしたっけ?
確かWinだとここら辺、フォントレベルでおかしなことをしてるんでしたっけ?

しかし正直なところもはやWinやIEの挙動を無視することもできず... トホホ。
552 名前：デフォルトの名無しさん mailto:sage [2008/05/17(土) 08:02:14 ]: >>551
「円記号で表示される」だけだと、
エンコーディングレベルで何かやってるのか、
単にフォントがU+005Cを円記号で表示してるだけなのかわからんな。

後者ならフォント変えれば REVERSE SOLIDUS に見えるでしょ。
553 名前：デフォルトの名無しさん mailto:sage [2008/05/17(土) 08:23:48 ]: IEと同じというなら後者だな。
Tahomaとかの欧文フォントならバックスラッシュ、
フォントリンクでかな漢字も表示出来ていい感じ。
554 名前：デフォルトの名無しさん mailto:sage [2008/05/17(土) 09:44:03 ]: 501ですが、
アプリはMac OS Xのエディタです。なんでWin上での技術的背景ではなく
ユーザーエクスペリエンスを問題にしている、とでもいいますか。
IEを「普通に」使ってる分にはEUC-JPの0x5cは円に見える訳ですよね。
あえて欧文フォントを割り当ててバックスラッシュを表示できてもそれはある意味
「化けている」のではないでしょうか。
あるいはIEはあくまでもEUC-JPの0x5cに対してU+005cを表示していて、それが
どう見えるかはフォントやユーザの設定次第、とでも理解すべきでしょうか。

でもIE、確かASCIIやUTF-8だとデフォで0x5cはバックスラッシュ... ややこしいなあ。
555 名前：デフォルトの名無しさん mailto:sage [2008/05/17(土) 11:48:24 ]: なんでエディタの名前を書かないんだろう
人の話を聞く気がないならチラシの裏にでも書き捨てろ
556 名前：デフォルトの名無しさん mailto:sage [2008/05/17(土) 12:15:02 ]: >>554
実際にIE使ってみればわかるだろクズ
557 名前：デフォルトの名無しさん mailto:sage [2008/05/17(土) 12:24:31 ]: >>554
文字コードと文字フォントは別物だよ。
だから、
> あるいはIEはあくまでもEUC-JPの0x5cに対してU+005cを表示していて、それが
> どう見えるかはフォントやユーザの設定次第、とでも理解すべきでしょうか。
でOK。EUC-JPに限らずな。
558 名前：デフォルトの名無しさん mailto:sage [2008/05/17(土) 15:10:46 ]: >>551
0x5cというかU+005Cは、ASCIIやJIS X 0213だとUniccode基準で「REVERSE SOLIDUS」でなければおかしいけど、
一般的な日本語エンコードだとJIS X 0201基準だから「YEN SIGN」が正しい。

WindowsのOS標準和文フォントだと、0x5cというかU+005Cは「YEN SIGN」で実装。
Mac OS XのOS標準和文フォントだと、0x5cというかU+005Cは「REVERSE SOLIDUS」で実装。

Windows版のSafariでも、Shift_JIS/EUC-JP/ISO-2022-JPといった日本語エンコードなHTMLでは
和文フォントでも欧文フォントでも0x5cというかU+005CがU+00A5実装Glyph(YEN SIGN)でエイリアス表示され、
それ以外(UTF-8とか)だとフォントのU+005C実装Glyphでダイレクトに表示される。

Mozilla系ブラウザソフトでも「about:config」で、
“layout.enable_japanese_specific_transform　　default　　boolean　　false”を
“layout.enable_japanese_specific_transform　　user set　　boolean　　true”と設定変更すると、Safariと同じ挙動になる。
559 名前：558 mailto:sage [2008/05/17(土) 15:18:28 ]: >>554
Mac OS Xのエディタでも、設定で0x5cというかU+005CをフォントのU+005Cでダイレクトに表示するか
U+00A5実装Glyph(YEN SIGN)でエイリアス表示かで選択できるものがある。
ttp://pc.watch.impress.co.jp/docs/2006/0907/macos03.htm
ttp://pc.watch.impress.co.jp/docs/2006/0907/macos03_03.jpg

Windowsの方が日本のローカル規格的には親和な設計ではあるけど国際基準的にはいろいろ問題がある。
Mac OS Xだと国際基準的には親和な設計ではあるけど日本のローカル規格的にはいろいろ問題がある。
だから、Mac OS XやマルチプラットフォームなアプリだとOSやアプリレベルでWindowsとは違う日本ローカル規格対処策をしているものがある。
560 名前：デフォルトの名無しさん mailto:sage [2008/05/18(日) 15:24:37 ]: >>558
> Mac OS XのOS標準和文フォントだと、
> 0x5cというかU+005Cは「REVERSE SOLIDUS」で実装。

Mac OS Xだと、
内部SJISアプリの0x5CはYEN SIGN（CMapは83pvまたは90pv）、
内部UnicodeアプリのU+005Cは（標準では）REVERSE SOLIDUS（CMapはUniJIS）。
561 名前：デフォルトの名無しさん mailto:sage [2008/05/18(日) 22:56:43 ]: >>559
親和うんぬんの段落はちょっと短絡だろ。

もともとREVERSE SOLIDUSが要求されるところで、(例えば\n)
YEN SIGNを使ったり、YEN SIGNを表示に使ったりしていた過去があるんだから、
そんな単純に割り切れないよ。
562 名前：デフォルトの名無しさん [2008/05/18(日) 23:23:33 ]: ESC(BとESC(Jですら同じ扱いだからねぇ。UTF-8はそれこそ・・・
563 名前：デフォルトの名無しさん mailto:sage [2008/05/19(月) 20:40:22 ]: Vistaで実装されたとかいうJISX213で使われてるSJIS2004、Unicode3.2、EUC2004ってどうなってんのわかりません

Unicodeで実装されてる第三、第四水準漢字ってSJISにちゃんとマッピングされてんですかね。
なんか規則性なく適当に散りばめてるだけな気がするんで
一文字一文字マッピングされてる場所指定する等で対応しないと対応出来ないのかな？

JISX213レベルでのUnicode-SJIS-EUC全部の対応表があれば嬉しいんですが、そんなのって無いですかね
564 名前：デフォルトの名無しさん mailto:sage [2008/05/19(月) 20:48:10 ]: VistaのはJIS X 0213にある文字がUnicodeベースで使えるというだけで、
JIS2004自体に対応しているわけじゃなかったような。
565 名前：デフォルトの名無しさん mailto:sage [2008/05/19(月) 21:39:56 ]: >>563-564
Vistaの公式ページで資料もフォントも配布されているというのに、
「されたとかいう」
「どうなってんのわかりません」
「そんなのって無いですかね」
「じゃなかったような」
とかいうヤツってナンなの？ゆとり？
ttp://www.microsoft.com/japan/windows/products/windowsvista/jp_font/
ttp://www.microsoft.com/downloads/details.aspx?FamilyID=f7d758d2-46ff-4c55-92f2-69ae834ac928&DisplayLang=ja
566 名前：デフォルトの名無しさん mailto:sage [2008/05/19(月) 21:50:06 ]: エンコーディングの話してるのに、フォントの資料を持ってきて
何いってんだか
567 名前：デフォルトの名無しさん mailto:sage [2008/05/19(月) 22:04:09 ]: >>566
これだからゆとりは困る。
これがエンコーディングの資料ではないとでも？

・Windows Vista ならびに Windows Server 2008 における JIS2004 対応に関する詳細資料
ホワイトペーパー「Microsoft Windows Vista および Windows Server 2008 における JIS X 0213:2004 (JIS2004) 対応について」(Version 1.2) は、こちら(XPS 形式、PDF 形式) をご参照ください。

・JIS X 0213:2004 / Unicode 実装ガイド
この実装ガイドでは、JIS 文字コードが Unicode 対応の JIS X 0213:2004 へ変更されたことに伴いアプリケーションへ与える影響および対応策などについて説明します。(XPS 形式 1.88 MB、PDF 形式 1.34 MB)
568 名前：デフォルトの名無しさん mailto:sage [2008/05/19(月) 22:08:01 ]: ゆとりゆとり言う奴に限って自分では質問に答えられない。
569 名前：デフォルトの名無しさん mailto:sage [2008/05/19(月) 22:59:39 ]: >>563
Vistaの実装ではShift_JIS-2004やEUC-JIS-2004には対応していません。
JIS X 0213はUnicodeのレパートリとして実装されています。
必要なら自分で変換してください。
570 名前：デフォルトの名無しさん mailto:sage [2008/05/20(火) 21:20:03 ]: >>569
オレオレ変換はやめてくれ
Shift_JISにはマッピングされていないから無理だと思っていただいた方が将来の人が助かる
571 名前：デフォルトの名無しさん mailto:sage [2008/05/20(火) 21:43:15 ]: 自ら学び自ら考える力を身に付けるための教育(笑)
572 名前：デフォルトの名無しさん mailto:sage [2008/05/20(火) 22:52:15 ]: CP932なんて使ってないしShift_JIS-2004のためにも消えてくれ。
573 名前：デフォルトの名無しさん mailto:sage [2008/05/20(火) 22:58:09 ]: >>572
お前が使っていなくても、世間が使っている。
ほんと、DOS/Windowsの呪縛の1つだな。
574 名前：デフォルトの名無しさん mailto:sage [2008/05/20(火) 23:15:09 ]: 2chはCP932だとおもっていたが如何
575 名前：デフォルトの名無しさん mailto:sage [2008/05/20(火) 23:15:15 ]: >>572
青空ｳﾝｺ工作員乙
576 名前：デフォルトの名無しさん [2008/05/25(日) 00:59:45 ]: www.unicode.org/roadmaps/tip/
いつの間にかUnicodeの3面をTertiary Ideographic Plane(第三漢字面)とすることが決まってた。
現時点では1字も定義されてないが古代漢字や甲骨文字を収録するみたいだ。
577 名前：デフォルトの名無しさん mailto:sage [2008/05/25(日) 01:08:50 ]: >>576
これは便利だ
578 名前：デフォルトの名無しさん mailto:sage [2008/05/25(日) 16:02:10 ]: >>539で既出
579 名前：デフォルトの名無しさん [2008/05/30(金) 01:20:21 ]: Unicodeって、色々バージョンがあるみたいだが。
非Unicodeな文字コードとのマッピングが変わることってある？
基本的には予約領域に新しい文字が追加されていくj形という認識で合ってるのかな？
580 名前：デフォルトの名無しさん mailto:sage [2008/05/30(金) 06:35:56 ]: 各ベンダーのマッピングは文字が追加されなくてもそれぞれ違う。
そもそも一対一対応ですらない。
例えば、support.microsoft.com/kb/170559
581 名前：デフォルトの名無しさん mailto:sage [2008/05/30(金) 20:36:13 ]: IRGの追っかけやってれば知ってるだろうけどCNS11643とのマッピングはしょっちゅう変わってる

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef