1 名前:デフォルトの名無しさん [2007/05/27(日) 16:19:36 ] プログラムにおける各種文字コードの処理について語りましょう♪ ■前スレ 文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/ ■参考サイト Unicode Home Page www.unicode.org/ Java Character Encodings www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
458 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 02:37:51 ] なるほど > ケータイの絵文字や、CP932のIBM拡張文字など はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに 直接書いてはいない。でもそれなら何で今インターネットで使えるJIS X 0208:1997 ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの? Shift_JIS-2004の絵文字のうち > 「♪」以外は収録されていなかった そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの?
459 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 08:47:40 ] 結局世の中の流れとしてはこんな感じ? 1. いわゆるレガシーエンコーディングの、ベンダー毎の拡張みたいのは今後積極的 にはサポートされない。 -> 新たに IANA に登録されてたりすることはない? -> charset にない文字を使っているようなのは化けてもしょうがないって感じ? 2. IBM拡張漢字、絵文字等をどうしても使いたい場合は Unicode で。 -> Windows-31J は IANA に登録されてるからアリ?
460 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 09:54:22 ] Windowsで扱える文字一覧みたいなものはどこかにないでしょうか?
461 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 12:14:50 ] コードページ毎で良ければここはどう。 www.microsoft.com/globaldev/reference/cphome.mspx
462 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:04:19 ] >>460 U+0000からU+10FFFFまで扱えるよ
463 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:10:39 ] >>461 ちゃんと資料があったんですね。ありがとうございます。
464 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:12:18 ] >>462 すいません、ちゃんとフォントがあって表示できる またはIMEから入力できるものという意味でした。
465 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 13:20:32 ] >>458 >> ケータイの絵文字や、CP932のIBM拡張文字など >はインターネットで使うべきでないとは書いてるけど、代わりに何を使えとは確かに >直接書いてはいない。 IANA charset登録済みのもの。 >でもそれなら何で今インターネットで使えるJIS X 0208:1997 >ベースのShift_JISではなくわざわざShift_JIS-2004に言及してるの? なんでだろうねぇ。 Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。 >> 「♪」以外は収録されていなかった >そうだけどそれらは使っていいの? いいならcharsetパラメータには何を指定すればいいの? 使っていい、Unicodeに登録されているんで、UTF-8を指定すればよい。 もちろん、JIS X 0213系のエンコーディングはダメ。
466 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 18:55:27 ] > Windows-31Jとして登録済みの「CP932」の方がマシだと思うんだけど。 他にも>>440 の資料は突っ込みどころ大杉。 > JISにもUnicodeにも違反しており 未使用領域を使用禁止にしているJIS X 0208/0213と違ってUnicodeでPUAを 使うこと自体は何も規格に違反してない。いわば文字化けするのはUnicodeの仕様。 > Windows Vistaの方が、ある意味、正しい動作だと言える。 どっちかが正しい動作だと言うこと自体ミスリーディング。 規格を守っていても「字体化け」するのがJISやUnicodeの「仕様」。 もちろん安岡センセイがそんな初歩的なこと知らないはずがないので 確信犯なんだろうけど(とくに後者)。
467 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:05:38 ] しかし、文字コード関連は政治的な位置からものを書く人間が多すぎるな
468 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:16:54 ] 文字コードはもともと政治の道具です
469 名前:デフォルトの名無しさん mailto:sage [2008/03/27(木) 20:22:49 ] オタク好きするんだよ。政治というか、勢力争いの話はね。 そういうのが存在する分野の話になると、そこにばっかフォーカスすることになる。 それだけを固めた例としては、ゲーハー板。
470 名前:デフォルトの名無しさん mailto:sage [2008/03/28(金) 00:04:05 ] >467 だったらネタ振ってくれ。例えばNew ASCII配列とか。
471 名前:デフォルトの名無しさん mailto:sage [2008/03/28(金) 05:47:01 ] 例まで絞るくらいなら、その話題を自分が振ればいいのに。
472 名前:デフォルトの名無しさん mailto:sage [2008/03/29(土) 13:19:21 ] EBCDICとEBCDIKの違いがあるのも政治的な理由からですか?
473 名前:デフォルトの名無しさん mailto:sage [2008/03/29(土) 15:58:10 ] メリケン野郎にはカナなんかいらんからだろ。
474 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 02:19:37 ] ICU のこのページ→ demo.icu-project.org/icu-bin/convexp なんだけど、 Aliasってことは「等価な」エンコーディングって扱いなのかな? もしそうだとすると日本語のエンコーディングに関しては鬱なような...
475 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 04:31:26 ] ちょっと横レスですが。 >>472-473 EBCDIKってのは日立方言だよ。 ネットではEBCDIC(カタカナ版)のことだと説明してることが多いけど、 誰かがそう書いたのをよく調べもせずに孫引きで書いている奴が多いだけ。
476 名前:デフォルトの名無しさん mailto:sage [2008/03/30(日) 11:19:36 ] >474 「Converters with conflicting aliases」とか。 ibm-942-P12A-1999とibm-943-p15A-2003が 両方ともaliasにcp932を持ってる事の説明が付かないけど?
477 名前:デフォルトの名無しさん mailto:sage [2008/04/04(金) 11:08:02 ] さて Unicode 5.1のリリース予定日がやってまいりました
478 名前:デフォルトの名無しさん mailto:sage [2008/04/05(土) 21:55:19 ] 無事リリースされますた。 StandardizedVariants.htmlにIVDに関する言及が追加されますた
479 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 02:55:20 ] また新しい文字コードが一つ増えただけになるのか、それとも統合されるべく方向に行っているのか。 まったくこのスレのネタすら分からないけど、基本的にutf-8かutf-32?使っておけばよい? 16はなんか面倒とか聞いた覚えがあるが今はそこまで調べる気力なし…。
480 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:49:53 ] >>479 基本的に UTF-8 使っておけばよし UTF-32、というか32ビットでの処理はアプリが内部で使う場合の話で 文字コードとして意識する必要はないよ
481 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 10:58:00 ] 内部処理も行処理程度だとUTF-8のままってのが多いしね。
482 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 12:53:51 ] ユニコードで唯一の功績は UTF-8 を発明したこと。 提案したのは部外者だけど。
483 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:02:59 ] 功績か? utf-8って好き嫌いがはっきりしている気がする。
484 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 20:07:05 ] 日本語が3〜4バイトになるからなあ。 まあ仕方が無いのは分かるが。
485 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:08:59 ] >>482 Unicodeのエンコード方式の一つとしてはそうなのかもしれんが… 一長一短な気もするけど、今後Unicode対応アプリを作る上ではUTF-8はchar*で扱える 面だけ取れば悪くはないのかも XMLとかもさ だけど、結局ファイルやストリームから読み取る分にはUTF-8でいいけど、1〜4バイトの 可変長ってのがね 処理内部はUTF-16として扱うのが一番楽だね1文字2バイトと単純計算できるし、 今はサロゲートペアのことを意識する必要が無いから 文字列はそもそもリソース定義すべきだから、ソース中に文字列で埋め込まないんであれば エンコード方式さえはっきりしてればどうでもいいや それより、SJISでコメント書いたソースをWindowsエミュレータやリビジョン管理(ClearCaseやCVS、SVN) で使って、実機やテスト機(Linux)ではEUCだとコンパイル時にコメントが改行されてたりするんだよねw うちんとこでは、Lunuxビルドはmakefileの中でnkfで文字コード変換されてるが…
486 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:19:34 ] > 今はサロゲートペアのことを意識する必要が無いから いつかサロゲートペア対応に改良する暇はあるの? 初めからUTF-32にすればいいだろ。
487 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:26:20 ] ユニコードはエンコード方式がわかっても日本語とは限らないんだな。 CJKでしかないから。
488 名前:485 mailto:sage [2008/04/06(日) 21:33:50 ] >>486 Unicode 4.0を見てみたw どう見ても、当面サロゲートペアを使う必要はなさそうだなあw UTF-32でもいいんだけどさ、やっぱ1文字で4バイトってやだなー 特に理由ないんだけどさ U+10000〜を使うことが明らかなら別だけど、使わないしさ >>487 CJKというか、CJKVのようだけどね Unicodeは言語を識別するためのものじゃないし、それは別途ISO 639なり使って 管理するとかじゃないの?
489 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:37:48 ] 今の仕様書を1990年に持っていけたらもっとマシなコード体系が出来上がるんだろうなあ…
490 名前:485 mailto:sage [2008/04/06(日) 21:43:44 ] >>489 時はバブル、んな将来的なことどうでもいいとか思われそうだがw Y2Kなんて、もっと早急に対応してればあんなに世間が騒ぐこともなかったんだし 結局何も起きなかったけどさw
491 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 21:58:14 ] 世の中の悪い事態の多くは、そうなることが予測不能だったからではなく、 そうなるとわかっているけど対処しなかったから起こったんだ、 とつい最近どっかで読んだけど、まったくだw
492 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 22:12:38 ] その意味では正に、 「過去に戻れても、やはり同じようになるよ」だな。
493 名前:デフォルトの名無しさん mailto:sage [2008/04/06(日) 23:09:49 ] >>485 >今はサロゲートペアのことを意識する必要が無いから さすがにもう時間の問題でしょ。 そろそろ JIS X 0213 が要求に入り始めるだろうし。
494 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 01:51:07 ] UTF-8は大好きですよ
495 名前:485 mailto:sage [2008/04/07(月) 08:49:15 ] >>493 JIS X0213はさすがに困ったちゃんな規格を作ってくれたもんだなぁと思いつつも、いわゆる第三〜第四水準に ようやく人名漢字として略されてたものとかが扱えるとかどうとかで恩恵を受ける人もいるんだろうか? サロゲートペアを扱うとなると、1文字=2バイトの原則が壊れるんだよなぁ そういや、2000年だかから中国のGB2312の拡張規格GB18030は、中国大陸における文字表示可能な機器の 全てが対応する必要があるとか訊いて社内で騒ぎになって、Windows2000ではGB18030フォンとパックやら 変なAPIで4バイト文字対応してたとおもうんだけど、こいつはUnicodeとどう親和性を取るつもりなのかな? 規格上はGB18030はISO/IEC 10646を丸ごと飲み込んじゃう規格なんだけど…
496 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 13:42:22 ] >>485 >今はサロゲートペアのことを意識する必要が無いから サロゲートペア以外にも合成文字とかあるんですけど。
497 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:05:39 ] >>496 MacOS-Xの「ヒ+゜」とかね。 いつ「普通の」データとして飛び込んでくるか分かったもんじゃない。
498 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 19:12:03 ] 何しろあれが正規形の一つだからな。
499 名前:485 mailto:sage [2008/04/07(月) 19:41:16 ] >>496 確かに… 合成文字はヤだなぁ あと、くっつき方がキモいデーヴァナーガリー文字とかその類も…
500 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:01:44 ] >>497 Mac持ってないけど「ピ」は合成されてるの? JISX0213の「か゜」とかじゃなくて?
501 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:26:25 ] >>500 >>413 のNFD
502 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 20:46:58 ] >>485 もう現実を見るんだ。 固定バイトの文字コードなんて所詮夢だったんだよ。
503 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:20:35 ] それでも32bitあればなんとか…
504 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 21:25:05 ] HYPHEN-MINUSって文字が誕生した時からこの世はカオスさ
505 名前:デフォルトの名無しさん mailto:sage [2008/04/07(月) 22:26:30 ] UTF-8は0x10入らないようにして欲しいなぁ。
506 名前:485 mailto:sage [2008/04/08(火) 09:22:27 ] >>502 そうか、やはりそうなのか… 固定バイトはもはや夢物語なんだなorz 合成文字といえば、ヨーロッパのラテン文字事情なんとかならんのでしょうか??? ローカライズにあたって、文字列検索の曖昧検索を行うわけなのだが、Aとキーされようと、 アクセントが付いてようとウムラウトだろうと引っかからないといけないのはまぁいいとして… A+アクセントとかはやめて欲しいのだがw いったい、ヨーロッパは何言語あるんだYO!
507 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 09:43:20 ] L10nされたあいまい検索は、各言語のネイティブの専門家によるアドバイスが ないとムリポ。 (「エ」と「ヱ」を同一視するかどうかなんて日本人でも判断に困るだろ?)
508 名前:485 mailto:sage [2008/04/08(火) 11:31:51 ] >>507 だよねー 今月号の「NEWTON」を読んだら、ラテン語のアルファベットは当初英語で使われるものとほぼ 同じだったとか? その後に、フランス語やらでアクセント記号が付けられたとかどうとか… てっきり、逆だと思ってたんだが、Unicode 1.0策定時にCJKの統合に当たってルーツの異なる文字で 似ている物を同一視しようとした件、ラテン語圏でもやはりアクセント記号はそれくらい意味のある文化 の一つなんだろうか… 幸い、自分は合成文字には今のところ携わることはなさそうだが… 中国国家標準のGB 18030をどうにかしてもらいたい… GB 2312、ASCII、ISO/IEC 10646をうまいこと包含しているという点ではうまいこと考えたなと関心 出来るんだけど、結局は1〜4バイトのマルチバイト文字ってワケで、ISO/IEC 10646を包含したとしても 変なジレンマ作ってるだけだし… そもそも、CJKのグリフが U+3400〜U+4DFE、U+4E00〜U+9FFEまでしか割り振られてないじゃんか! BMP面で足りるじゃんかー!
509 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 13:30:47 ] >>507 ラテン語ネイティブも、油断してると、 JIS X 0208のFULLWIDTH LATIN (CAPTAL) LETTER *ってのがあるしね。 自前で実装しようとするとHALFWIDTHへの正規化を忘れちゃう。 >>508 表音音文字元祖のフェニキア文字の子孫の ギリシャ文字でさえ発音記号はないからね。 アクセント記号はcollationの時にも、 取り払ってソートするか付いたままソートするか、 国によって標準的な取り扱いが違って難しい。
510 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:21:30 ] そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。 >>GB18030 Unicodeに変換して処理するだけなんだから別に関係ないでしょ
511 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 20:49:23 ] 他国の心配する前に日本語の処理くらいまともにやってくれ
512 名前:485 mailto:sage [2008/04/08(火) 21:02:50 ] >>510 いやいや、GB 18030は現状はUnicodeでグリフのある領域はカバーしてるけど、Unicodeに無い 民族文字やらをどんどん増やす思惑があるらしい… だったらその思惑をUnicodeコンソーシアムで提起して貰いたいものなんだが… >>511 俺の文章?orz どうせローカライズ以前に、各国の文言を用意するのは翻訳チームのすることで、俺は関わってないし
513 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 21:05:12 ] 自国で独自路線に突っ走りまくってる日本じゃないんだからお前ごときが 他国の心配しなくてもちゃんと国際提案してくるからむしろ日本NBの怠慢ぶりを 何とかしてくれってば
514 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 21:21:00 ] そこでJIS第五水準ですよ
515 名前:485 mailto:sage [2008/04/08(火) 21:46:47 ] >>513 これは>>513 の現場もそうだろうと思うのだが、日本人のSEに限らずPMに至るまで、 日本における標準化についてまともに考えている奴っている? C++を理解するのにISO/IEC 14882を読んだり、仕様書を書くときに主語をちゃんと 付けることを意識するとかさ? 今俺が書いてる文章なんかは支離滅裂だけどorz >>514 JIS X0213の二の舞はやめようよw
516 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 22:14:13 ] >仕様書を書くときに主語をちゃんと付けることを意識するとかさ? 書かないまでも、意識していないと所謂「とんでも」文書ができあがるわけだが。 # 「マウスボタンが押すとウインドウが表示します」とか。
517 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 22:40:59 ] >512 UNICODE的に、新規コードポイントの追加は、 まずは国内規格、次にUNICODEって順番じゃなかったっけ?
518 名前:デフォルトの名無しさん mailto:sage [2008/04/08(火) 23:31:00 ] だから、ウニコードやまりゃいいじゃん
519 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 00:23:03 ] はやくExt-C出せー
520 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 02:59:07 ] >>515 なんで俺の職場の話がいきなり出てくるのか意味不明だが 日本における標準化の試みは 学者が机上の空論をあーでもないこーでもないと小田原評定のごとくこねくり回した 挙げ句黒船に全部持って行かれるのが通例。 www.itscj.ipsj.or.jp/domestic/mojicode/index.html の異体字アーキテクチャの検討なんて絵に描いたようだ
521 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 08:47:51 ] んー、 動画フォーマットとかはそうでもない気がするけど?
522 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 09:00:50 ] mbcs/wcs ISLISP IPv6, Mobile IP この辺は日本の団体が組織的に関わってるよ。
523 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 09:29:05 ] 個人名で論文や案を提出してレビューする形にしないと、 >>520 が多い状況はなかなか改善できないと思う。 本来、案もレビューも書かない奴の意見なんて聞く必要ないんだ。
524 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 13:14:54 ] 意味のあることを何も言えない奴って、無視されると 意味のあることを言った奴より怒るんだよね。
525 名前:デフォルトの名無しさん mailto:sage [2008/04/09(水) 23:39:09 ] >>523-524 * Ideographic Variation Databaseという対案が明確に示されてる * 日本は>>520 を国際提案していない 話にもならんね
526 名前:デフォルトの名無しさん [2008/04/11(金) 14:34:46 ] >>501 Mac OS XのHFS+は、 さらにアルファベットの大文字小文字の同一視もやってるよな。 ファイル名としては大文字小文字が保存されているけど、 比較ではcase ignoreだからFooがあればfooでopenする。 FULLWIDTHなアルファベットも同じ。 ただしFULLWIDTHとHALFWIDTHな文字は同一視しない。 WIDTH範疇が同じ場合に限り大文字小文字を区別。
527 名前:デフォルトの名無しさん mailto:sage [2008/04/11(金) 15:11:34 ] >WIDTH範疇が同じ場合に限り大文字小文字を区別。 ×区別 ○同一視 こうですか?
528 名前:デフォルトの名無しさん mailto:sage [2008/04/11(金) 18:52:47 ] >>510 >そのへんはそのうちCollationライブラリが何とかしてくれるから問題ない。 そういえば Unicode で日本語の文字列をソートした場合、普通はどんな並び順に なるんでしょうか/なるべきなんでしょうか。Collation のライブラリ毎に違うんでしょうか。 unicode.org の TR10 とか見てみましたがよくわかりませんでした。
529 名前:デフォルトの名無しさん mailto:sage [2008/04/11(金) 20:02:25 ] >>526 Case SensitiveなHFS+もあるよ。 同一視する文字や使えない文字はファイルシステム毎に異なるから あるファイル名が使えるかは単純には判断出来ない。
530 名前:デフォルトの名無しさん mailto:sage [2008/04/12(土) 03:00:11 ] >>529 既にインストーラでは選べないんじゃない? 昔使ってたが、馬鹿アプリで問題発生したので使わなくなった。 アプリ内のファイルがCapitalizedなのに、 アプリが全部大文字でアクセスしてたw
531 名前:デフォルトの名無しさん mailto:sage [2008/04/17(木) 22:38:32 ] std.dkuug.dk/jtc1/sc2/wg2/docs/n3425.pdf トンパ文字の提案キター
532 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 06:22:15 ] std.dkuug.dk/jtc1/sc2/wg2/docs/n3409.pdf ARIB互換漢字についてアメリカとイギリスからIVSを使えよボケと突っ込まれてるw
533 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 21:35:34 ] これからIVSを積極的に導入してくなら、現在異体字なのに別のコードポイントを 与えられている文字はIVSに吸収してくるとスッキリするんだけど。 今までのしがらみで無理かな。
534 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 21:48:21 ] 標準に入らなくても、基準とデータは有意義に使われると思うよ。
535 名前:デフォルトの名無しさん mailto:sage [2008/04/18(金) 22:25:21 ] 原規格分離規則があるから、全部統一は無理
536 名前:デフォルトの名無しさん mailto:sage [2008/04/19(土) 00:09:08 ] 原規格分離規則ってCJK Unified Ideographs領域のみ適用で、 それ以降に定義された領域では使わないっていうアレか。
537 名前:デフォルトの名無しさん mailto:sage [2008/04/19(土) 03:41:26 ] >>533 既存の互換漢字を削除はあり得ないけど、これから追加しようとしたら突っ込まれて当然だろう
538 名前:デフォルトの名無しさん mailto:sage [2008/04/20(日) 11:42:06 ] Uniocde 5.1の文字一覧マダー(aary ttp://www.unicode.org/Public/5.1.0/charts/ 予告期限は過ぎてるんだけど あともう5.2.0のディレクトリあって吹いたw
539 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 22:57:20 ] TIP www.unicode.org/roadmaps/tip/ 甲骨文字
540 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 23:04:50 ] 文字コードとグリフを同じに扱おうとしたつけだ いいじゃねぇの?
541 名前:デフォルトの名無しさん mailto:age? [2008/04/27(日) 11:10:56 ] >>538 来てる
542 名前:デフォルトの名無しさん mailto:sage [2008/04/27(日) 20:49:59 ] ところでT書体はまだですか
543 名前:デフォルトの名無しさん mailto:sage [2008/04/28(月) 03:56:41 ] >>542 www.sakamura-lab.org/FONT/ 4月中の公開は無理そう つーか以前は「2006年春」って言っててそれもブッチしてなかったっけ
544 名前:デフォルトの名無しさん mailto:sage [2008/04/28(月) 13:30:01 ] std.dkuug.dk/jtc1/sc2/wg2/docs/n3475.pdf 結局ARIB互換漢字の追加は受理されたようだ
545 名前:デフォルトの名無しさん mailto:sage [2008/04/28(月) 14:19:01 ] ARIBの仕様書が公開されてた www.arib.or.jp/english/html/overview/doc/2-STD-B24v5_1-1p3.pdf JIS X 0213の指示には私用終端バイトを使って JIS X 0208の独自拡張をESC 2/4 4/2で指示するという変態仕様 逆だろ…
546 名前:デフォルトの名無しさん [2008/04/29(火) 08:16:41 ] まったくの初心者です。 ↓のコードは何でしょうか? 17163542 何て書いてあるのか、教えてください よろしく
547 名前:デフォルトの名無しさん mailto:sage [2008/04/29(火) 08:20:26 ] 板違い。こちらへどうぞ love6.2ch.net/mystery/
548 名前:デフォルトの名無しさん [2008/04/29(火) 08:23:07 ] >>547 すみません。 文字コードじゃないんですか?
549 名前:デフォルトの名無しさん mailto:sage [2008/04/29(火) 09:10:30 ] こちらへどうぞ。 ttp://google.com/
550 名前:デフォルトの名無しさん mailto:sage [2008/05/01(木) 06:43:38 ] >>543 やっぱり無理ですた
551 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 07:02:50 ] とあるアプリの文字エンコーディングの挙動が変だなと思ったので 問い合わせたら、「Win上のIEの挙動と同じにしている」とのこと。 具体的にはEUC-JPで0x5cが円記号で表示されるのですが。 これってreverse solidusが正解じゃなかったでしたっけ? 確かWinだとここら辺、フォントレベルでおかしなことをしてるんでしたっけ? しかし正直なところもはやWinやIEの挙動を無視することもできず... トホホ。
552 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 08:02:14 ] >>551 「円記号で表示される」だけだと、 エンコーディングレベルで何かやってるのか、 単にフォントがU+005Cを円記号で表示してるだけなのかわからんな。 後者ならフォント変えれば REVERSE SOLIDUS に見えるでしょ。
553 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 08:23:48 ] IEと同じというなら後者だな。 Tahomaとかの欧文フォントならバックスラッシュ、 フォントリンクでかな漢字も表示出来ていい感じ。
554 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 09:44:03 ] 501ですが、 アプリはMac OS Xのエディタです。なんでWin上での技術的背景ではなく ユーザーエクスペリエンスを問題にしている、とでもいいますか。 IEを「普通に」使ってる分にはEUC-JPの0x5cは円に見える訳ですよね。 あえて欧文フォントを割り当ててバックスラッシュを表示できてもそれはある意味 「化けている」のではないでしょうか。 あるいはIEはあくまでもEUC-JPの0x5cに対してU+005cを表示していて、それが どう見えるかはフォントやユーザの設定次第、とでも理解すべきでしょうか。 でもIE、確かASCIIやUTF-8だとデフォで0x5cはバックスラッシュ... ややこしいなあ。
555 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 11:48:24 ] なんでエディタの名前を書かないんだろう 人の話を聞く気がないならチラシの裏にでも書き捨てろ
556 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 12:15:02 ] >>554 実際にIE使ってみればわかるだろクズ
557 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 12:24:31 ] >>554 文字コードと文字フォントは別物だよ。 だから、 > あるいはIEはあくまでもEUC-JPの0x5cに対してU+005cを表示していて、それが > どう見えるかはフォントやユーザの設定次第、とでも理解すべきでしょうか。 でOK。EUC-JPに限らずな。
558 名前:デフォルトの名無しさん mailto:sage [2008/05/17(土) 15:10:46 ] >>551 0x5cというかU+005Cは、ASCIIやJIS X 0213だとUniccode基準で「REVERSE SOLIDUS」でなければおかしいけど、 一般的な日本語エンコードだとJIS X 0201基準だから「YEN SIGN」が正しい。 WindowsのOS標準和文フォントだと、0x5cというかU+005Cは「YEN SIGN」で実装。 Mac OS XのOS標準和文フォントだと、0x5cというかU+005Cは「REVERSE SOLIDUS」で実装。 Windows版のSafariでも、Shift_JIS/EUC-JP/ISO-2022-JPといった日本語エンコードなHTMLでは 和文フォントでも欧文フォントでも0x5cというかU+005CがU+00A5実装Glyph(YEN SIGN)でエイリアス表示され、 それ以外(UTF-8とか)だとフォントのU+005C実装Glyphでダイレクトに表示される。 Mozilla系ブラウザソフトでも「about:config」で、 “layout.enable_japanese_specific_transform default boolean false”を “layout.enable_japanese_specific_transform user set boolean true”と設定変更すると、Safariと同じ挙動になる。