- 1 名前:デフォルトの名無しさん [2007/05/27(日) 16:19:36 ]
- プログラムにおける各種文字コードの処理について語りましょう♪
■前スレ 文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/ ■参考サイト Unicode Home Page www.unicode.org/ Java Character Encodings www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
- 267 名前:デフォルトの名無しさん mailto:sage [2007/12/06(木) 20:33:43 ]
- >>265
円記号問題どころの騒ぎじゃなくなります メインフレーム各社の独自コードにはそういう変態割り当てをしたものが けっこうあるけど
- 268 名前:デフォルトの名無しさん mailto:sage [2007/12/06(木) 20:52:49 ]
- >>266
スマン あたり orz 3.0 と現行のを調べた。 レンジは 3.0 だと U+4DFF まで、5.0 だと U+4DBF まで、 中身が入ってるのは U+4DB5 まで、で合ってます? 間に入ったのは Yijing Hexagram Symbols って八卦かよw
- 269 名前:デフォルトの名無しさん mailto:sage [2007/12/06(木) 22:09:16 ]
- >>268
うむ ちなみにU+9FA5の後ろには本当に文字が断続的に追加されてるな
- 270 名前:デフォルトの名無しさん mailto:sage [2007/12/06(木) 22:25:43 ]
- examples.oreilly.de/english_examples/nutshell/cjkv/adobe/
aj16.tar.Zが更新されてる pri108に対応していくつかのCIDにUnicodeが追加された模様
- 271 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 08:24:11 ]
- 第1〜第4+非漢字で11233字
補助漢字で6067字 補助漢字と第3,第4でかぶるのが約2900字 11233+6067−2900=14400字 8080H〜FFFFH=16384字
- 272 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 08:42:20 ]
- >>267
それはSHift-JIS固有の問題。
- 273 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 09:30:20 ]
- 何そのとんちんかんなレスはw
- 274 名前:272 mailto:sage [2007/12/07(金) 09:42:22 ]
- あ、ダメかw
言いたいのは1〜2バイトに収まるようにシンプルにしてほしいってこった
- 275 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 10:57:54 ]
- UCS-2の過ちを繰り返すのかよw
- 276 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 12:51:45 ]
- 繁体字とか簡体字とかハングルとか要らんだろw
- 277 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:41:14 ]
- ハングルという偉大な文字は必要ニダ!
- 278 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:47:08 ]
- 自分に必要なありとあらゆるソフトウェアを、その独自規格に準拠したもの
のみでまかなえるなら好きにすればー? # 文字コードが、文字集合を情報「交換」のために符号化したものである # ということを理解してないやつがこんなにも多いのは何故だ?
- 279 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:48:26 ]
- 漢字なんかいらんだろ(米国人(32))
- 280 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:59:54 ]
- その昔、Win3.1の時代に漢字対応の必要をアメリカ人に説明しようとしたら、
通訳が「Chinese Characters」って訳しやがって説明に苦労したもんだぜ。
- 281 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 15:02:01 ]
- もうUTF-8で全部解決だろ
- 282 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 16:58:25 ]
- Unicode の符号化という点ならそうだけど
Unicode に入れられそうもない変体仮名とかを 符号化する場合を考えると Unicode だけに 頼れないし
- 283 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 18:32:19 ]
- plain textは諦めてくださいと遠くからUnicode神の声が聴えてきました。
ところで変体仮名のみの文字集合は既に定義されているのですか? あるとすれば、どういう包接基準を採用しているのですか?
- 284 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 20:36:47 ]
- るりーる
- 285 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:04:53 ]
- >>272
>>265みたいなことをしたらShift_JISと同じ(もっと悪い)問題が起きるって 言ってるんだが。 >>282 入らないのは日本が入れろと言わないから。 異体字だって結局米国企業のAdobeが登録するまで日本は なーーーんにもしなかった。
- 286 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:05:18 ]
- >>283
とりあえずTRONにはあるようだ ja.wikipedia.org/wiki/%E4%BD%8F%E6%B0%91%E5%9F%BA%E6%9C%AC%E5%8F%B0%E5%B8%B3%E5%8F%8E%E9%8C%B2%E5%A4%89%E4%BD%93%E4%BB%AE%E5%90%8D
- 287 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:06:31 ]
- >>283
TRONコードに住民基本台帳収録変体仮名とその他の変体仮名が入ってる。 ということは住基統一コードにも変体仮名が入ってるのか
- 288 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:12:47 ]
- こういう文字をUnicodeに入れてくれって言う場合の
日本側の窓口はどこなんだろ。経産省? 密室でやらずに一回ぐらいパブリックコメントの募集してくれよ。
- 289 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:14:56 ]
- こんだけオープンにやってて密室もへったくれもあるか
std.dkuug.dk/jtc1/sc2/wg2/ IVDの前回の公開レビューだって www.unicode.org/ivd/pri/pri98/index.html 終了一週間くらい前になって気づいた俺が触れて回るまで 日本で取り上げているサイトが一切なかったという関心のなさっぷり それで密室とかなんとかいっても説得力のかけらもない
- 290 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:37:49 ]
- そこへ持ってゆく文字の選定をしている日本側の窓口の話をしてるんだが。
- 291 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 22:11:20 ]
- とりあえず、英語が読めない人は、翻訳者を雇わないと、
投稿手順すら分からないのではないかと。
- 292 名前:デフォルトの名無しさん mailto:sage [2007/12/07(金) 22:17:00 ]
- >>287
wikipediaにあるわw ja.wikipedia.org/wiki/%E4%BD%8F%E6%B0%91%E5%9F%BA%E6%9C%AC%E5%8F%B0%E5%B8%B3%E5%8F%8E%E9%8C%B2%E5%A4%89%E4%BD%93%E4%BB%AE%E5%90%8D www.chokanji.com/features/ckv4.html TRONは何でもぶちこみ方式だろうから、 まだ異体字の包接基準はないのかな。 かなり知識がないと無理だね。
- 293 名前:デフォルトの名無しさん mailto:sage [2007/12/09(日) 10:03:04 ]
- TRONはコード表はフリーなんだけど
その運用に事実上必要な異体字のデータベースで金稼いでるんだよね 超漢字検索で変体仮名を検索すると関連字として対応する漢字やひらがなが 出てくるし漢字から変体仮名を検索することもできる
- 294 名前:デフォルトの名無しさん mailto:sage [2007/12/09(日) 12:07:54 ]
- いっそ日本代表は無視してUTCのfull memberになったほうが話が早いかもしれない
英語力と金が必要だけど
- 295 名前:デフォルトの名無しさん mailto:sage [2008/01/02(水) 16:32:43 ]
- あけましておめでとうございます
結局JIS X 0221の改訂版は2007年中に出ませんでした。 JIS X 0213:2004で2004となるべきところが2003となるような誤植が 今回も発生するのでしょうか。
- 296 名前:デフォルトの名無しさん mailto:sage [2008/01/05(土) 01:13:42 ]
- >>295
えっまぢ!? そういや、12月20日前後の官報がデッドラインだと聞いてたんだけど、 チェックするの忘れてたよ。。。 あーあ、また関係者は地獄を見ることになるのかな・・・
- 297 名前:デフォルトの名無しさん mailto:sage [2008/01/05(土) 01:33:09 ]
- そうこうしている間にもamendmentは増えてゆく〜
- 298 名前:デフォルトの名無しさん mailto:sage [2008/01/05(土) 01:43:49 ]
- >>296
ietf-charsetsで外人が「Hey, 内容変更が何もないのにどうして-2003が-2004 になったんだい? (大意)」みたいなことを安岡センセイに聞いてたのを思い出した。 そりゃ知らないやつは不思議に思うよなあ
- 299 名前:デフォルトの名無しさん mailto:sage [2008/01/05(土) 06:06:50 ]
- ちゃんと出てるじゃん
制定年月日2007/12/20になってるから本当にギリギリだったみたいね
- 300 名前:デフォルトの名無しさん mailto:sage [2008/01/05(土) 07:17:14 ]
- JISCで閲覧できる規格票が
CJKU_SR.txtをわざわざ50MBのPDFにしてたりしてワロタ
- 301 名前:デフォルトの名無しさん mailto:sage [2008/01/12(土) 07:17:23 ]
- >>300
中の人が内規かなにかに従った結果なんだろうね
- 302 名前:デフォルトの名無しさん mailto:sage [2008/01/12(土) 12:12:01 ]
- 見た目までコントロールしたいからでしょ。
フォント環境の違いで誤解が生じないように。
- 303 名前:デフォルトの名無しさん mailto:sage [2008/01/12(土) 12:27:42 ]
- 仮にそうだとしてもフォントを埋め込めば済む話ではないの?
- 304 名前:デフォルトの名無しさん mailto:sage [2008/01/12(土) 12:28:15 ]
- ただ数字が並んでるだけなのにどう誤解するというのだ
そもそも正文がテキストファイルなんだが
- 305 名前:デフォルトの名無しさん mailto:sage [2008/01/16(水) 19:29:38 ]
- 質問です
ttp://www.ac.cyberhome.ne.jp/~mattn/cgi-bin/blosxom.cgi/etc/20071221111511.htm > 1文字毎をメモリに持つのではなく全てバイト列で処理すると言った方法の為、 > 他のアプリケーションとは違うi18n化の方法であり特殊ではあるが 普通のi18n対応アプリケーションは文字ごとに(codepointごとに?) メモリに確保して、文字配列として処理されることが多い、けれども バイト列で処理する…バイト列を喰わせても大丈夫な関数を用意して文字を操作する ttp://itpro.nikkeibp.co.jp/article/COLUMN/20071130/288467/ *Javaとかのアプローチはcodepointごとに文字を操作。(分解合成がめんどい) *Vimのアプローチはバイト列を独自関数で文字として操作。(patch workの集大成) oniguruma とか sakura editor とか emcode.pm とか身近にあるのは みんなpatch workの集大成なのですか?
- 306 名前:デフォルトの名無しさん mailto:sage [2008/01/16(水) 19:40:01 ]
- > 他のアプリケーションとは違うi18n化の方法であり特殊ではあるが
ん、じぶんの理解だとここの部分の意図が汲めなくなるか… 内部で Unicode の codepoint に従って処理しているソフトは あまりないけど…内部でなんらかのエンコードに変換して保持 してるソフトは多くて…でもVimはバイナリのまま保持するですよ…? というような意味とか? ああなんかよくわからなくなってきた…orz
- 307 名前:デフォルトの名無しさん mailto:sage [2008/01/16(水) 21:53:51 ]
- マルチバイト or ワイド文字と分解合成とは直交する問題だろ。
何が言いたいのだろう。
- 308 名前:デフォルトの名無しさん mailto:sage [2008/01/17(木) 13:22:34 ]
- まともなi18nの仕事で「patch workの集大成」でないものなんてないぞ。
全ての文字、言語に通じている人間なんていないのだから。
- 309 名前:デフォルトの名無しさん mailto:sage [2008/01/17(木) 14:09:39 ]
- 仕様が実際patch workだからな
というか言語というものがそもそも...
- 310 名前:デフォルトの名無しさん mailto:sage [2008/01/18(金) 14:46:18 ]
- >>307
anond.hatelabo.jp/20070902073806 >喫煙と、麻薬や飲酒は直交する問題だと思いますが… 直行する = 相関性のみられない事象のこと = 分けて論じるべき議題 うむ。まずじぶんは小学生あたりからやり直すべきか。 てか日本語って難しいな orz >>308-309 dくす。言語は日々の積み重ね。ちぃおぼえた
- 311 名前:デフォルトの名無しさん mailto:sage [2008/01/18(金) 15:00:13 ]
- homepage.mac.com/icbp90pink1/iblog2/B1108781646/C1540234484/E20061210205530/index.html
>「おそらく漢字ほど難しくないからそれほどでもないと思うけど、例えば >"than" を "then" と書く若者が増えてるよ。」っと言っていました。 >「それって全く意味が違うじゃん。」っと言ったら、「orthogonalだね。」と >言われました。「orthogonalって何?」と聞いたら、90℃(直角)との事。 >「何で180℃じゃないの?」っと聞いたら、「反対の意味って訳じゃないけど >(左右みたいな)、ぜんぜん違う意味だから、orthogonalって言うんだよ。」 >っと教えてくれました。面白い表現ですね! 『欧米かっ!』と言わざるを得ない…。 グラフをイメージして相関性云々とか考え出すと, なんで90度でねじれの関係になるんだ, とかわけかわからんかった orz
- 312 名前:デフォルトの名無しさん mailto:sage [2008/01/18(金) 15:52:55 ]
- >>310
> >>307 > anond.hatelabo.jp/20070902073806 > >喫煙と、麻薬や飲酒は直交する問題だと思いますが… > 直行する = 相関性のみられない事象のこと = 分けて論じるべき議題 誤変換かもしれないが、直交と直行を混同するようでは先がおもいやられる...
- 313 名前:デフォルトの名無しさん mailto:sage [2008/01/18(金) 16:25:40 ]
- 本来の意味で使ってる可能性も・・・
- 314 名前:デフォルトの名無しさん mailto:sage [2008/01/18(金) 17:07:36 ]
- >>310
文脈から汲めば、分けられないってことだろ とはいえ>>312みたいな態度が一番気に食わん
- 315 名前:デフォルトの名無しさん mailto:sage [2008/01/18(金) 17:59:53 ]
- 直交ずる〜というと2つのベクトルの内積(2直線の射影でもいいや)を考えるでしょ常考。
高校数学程度の概念は常識として知っておいてくださいな。
- 316 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 03:20:48 ]
- この文脈でそんな本来の意味の用語を使うわけないでしょ。
それくらい想像力働かせてくださいな。
- 317 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 07:02:46 ]
- 直交⇔互いに独立
∴2つのベクトルの内積(2直線の射影でもいいや)=0
- 318 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 07:08:44 ]
- 「2つのベクトルの内積(2直線の射影でもいいや)」が0以外の値を持つとき
それらは直交しない つまり「直交」については最初から一貫して「本来の意味」で使われているw 馬鹿は >>315
- 319 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 12:20:41 ]
- 数学総合スレはここですか?
- 320 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 14:12:35 ]
- >>319
直帰を許可します
- 321 名前:デフォルトの名無しさん mailto:sage [2008/01/21(月) 00:06:37 ]
- ん?この流れム板のどこかのスレで見た気が。デジャヴ?
- 322 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 01:45:55 ]
- SJIS2004とかJISX213系の文字コード表って無いですかね
どうも変換がうまくできない・・・
- 323 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 07:47:52 ]
- JISCにあるじゃん
- 324 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 23:27:43 ]
- JISCのPDFから手で書き取れと申すか
※無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます とりあえず機械可読な奴がほしかったらここでも見れ x0213.org/codetable/
- 325 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 23:32:34 ]
- >※無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
ごめんJISCを甘く見てた……
- 326 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 23:40:52 ]
- JISC・・・ひでえな。
- 327 名前:デフォルトの名無しさん mailto:sage [2008/02/01(金) 21:15:44 ]
- www.unicode.org落ちてる?
- 328 名前:デフォルトの名無しさん [2008/02/05(火) 21:26:41 ]
- Joel Spolsky氏のブログ翻訳「ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて」
Servlet Garden ≫ Unicode and Character Sets (Translation) www.t3.rim.or.jp/~yoko-k-h/java/servlet/2008/01/31/unicode-and-character-sets-translation.html
- 329 名前:デフォルトの名無しさん mailto:sage [2008/02/05(火) 23:42:35 ]
- Unicode Transformation Format 8 と UCS Transformation Format 8 で混乱するのだけど
それぞれをどう解釈したらいいんだろう?
- 330 名前:デフォルトの名無しさん mailto:sage [2008/02/05(火) 23:56:23 ]
- 略せばどっちもUTF-8。はい、同じ。
- 331 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 00:00:19 ]
- Unicode.orgがつけた名前
ISO/IECがつけた名前 中身おんなじ
- 332 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 00:11:42 ]
- 互換性あるのはわかったけど、Unicodeのが4バイト、
UCSのが6バイトみたいなこと書かれてたんで5バイト目以降は違うってことかな?
- 333 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 00:32:16 ]
- ISO/IEC 10646はAmd2:2006で、0群17面以降には永久に文字を追加しないことにしたから
UTF-8にしたときには5オクテット以上にはならない。 Uniocde.org的には、単に追加予定なしなだけなので、UTF-8は理屈上最長の 6オクテットまで使っていいけど、でも文字入ってないよ?状態。 だから、結局中身おんなじ
- 334 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 01:09:46 ]
- もともとUnicode的にUTF-16の絡みで10FFFFまでになって、
おれにAmd2:2006で追従したんじゃないっけ。 どちらにしろ、今はどちらも4byteまで。 www.rfc-editor.org/rfc/rfc3629.txt 参考までにRFC
- 335 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 02:42:04 ]
- なるほど。納得できたありがとう。
- 336 名前:デフォルトの名無しさん [2008/02/06(水) 18:15:44 ]
- いつの間にかIVS(漢字のVS)正式に決定してた。
www.unicode.org/ivd/index.html
- 337 名前:333 mailto:sage [2008/02/07(木) 08:54:13 ]
- >>334
そうみたいね 俺古いRFC見てたわ
- 338 名前:デフォルトの名無しさん [2008/02/19(火) 23:13:06 ]
- U+FDD0〜U+FDEFが使用禁止になったのって何でだろう?
- 339 名前:デフォルトの名無しさん mailto:sage [2008/02/22(金) 20:04:35 ]
- JIS X 0221:2007規格票の8. 注記3によると
「符号化文字でないことが保証された数値を必要とする内部処理」に使用するためだそうだ。 例として「表を終了させる、テキストの終わりを通知するなど」が挙げられてる
- 340 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 03:05:40 ]
- 文字コードふぜいが表の終了とか意識するな。
- 341 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 08:30:49 ]
- 文字集合はともかく、
符合化方式がその辺りを考慮するのは当然。
- 342 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 09:17:36 ]
- あとU+FFFFはBMPの最後のコードだから番兵に使うことを特に意識している
U+FFFEは言うまでもなくBOM判別用
- 343 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 13:25:24 ]
- ASCII にだってコントロールコードの領域があるしね
- 344 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 02:47:39 ]
- 文字コードとやらに興味を抱き、とりあえずユニコードが標準と知り、
番号からUTF-16を使っていたのですが、 このスレの人は何を主に使っているのですか? 検索をしていると16よりも8の話題のほうが見つかるので、 実は8のほうがいいのかなと悩んだりしています。
- 345 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 03:08:25 ]
- つか、今、同じテキストファイルを変換してみたのですけれども、
よくよく考えたらUTF-8は可変で日本語の文章に関しては、 全てを2バイトで扱うUTF-16に比べて、 日本語部分を3バイトで扱うUTF-8は情報量が多いほど、 容量が無駄に大きくなってしまいませんか? 1.5倍ですよね。それを補うほどの使い勝手の良さがあるのでしょうか。
- 346 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 03:14:34 ]
- 南北アメリカや西ヨーロッパの多く言語は平均すると一文字当たり2オクテット未満であらわせる。
- 347 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 03:27:30 ]
- 後は1要素が1byteに収まるから扱いが楽、とか
まぁ日本語を基準に考えてる時点でUnicodeの思想から外れてる気はする
- 348 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 09:29:53 ]
- >>344
1.5倍程度でけちけちするな、多言語化ってのはそういうもんだ。 マジレスするとUTF-8側にメリットがあるというよりも、 UTF-16側がサロゲートペアやバイトオーダー、ASCII非互換、guessしずらいなど、 いろいろと面倒なのでUTF-8の方がよい。
- 349 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 10:57:52 ]
- WindowsがUTF-16なんで、自分のプログラムもUTF-16です。
- 350 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 23:33:43 ]
- ケチ臭いことを言うんだったら、ASCIIの制御文字の部分の方が勿体無いと思うけどね。
ホントにASCIIてクソだなあ。
- 351 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 02:21:38 ]
- ASCIIが7bitで治まってくれていて良かった。
ISO 8859-1みたいなんじゃなくて、ASCIIが8bit、 ×も≠も欲しいなんて言い出さなくて本当に良かった。 奴等が重ね打ち馬鹿で本当に良かった。
- 352 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 19:16:38 ]
- すみません、
EUC-JP 系のエンコーディング(含 eucJP-ms, CP5132)においてどういう文字が 割り当てられているかを知りたいのですが、いいウェブページはないでしょうか。
- 353 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 20:07:35 ]
- >>2
- 354 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 20:25:25 ]
- そーいや、opengroup の eucjp-ms とユニコードの変換表のページはもう見れないのかな?
- 355 名前:デフォルトの名無しさん [2008/03/13(木) 21:04:03 ]
- utf8がascii互換でソースに書いたり、ファイルに書き出すには一番使い勝手はいいと思う。
WinならAPIとの互換性のために、メモリ上はutf16が良い。Shift_JISに変更する気はあんまり起きない。 パーサーなどで、コードポイントを等間隔で扱いたいときにはutf32にしてる。
- 356 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 21:27:56 ]
- >>353
やはりそこら辺ぐらいですか? まずは1バイト部分が気になっていたのですが、 >また、16進数で「21」〜「7E」の文字にASCIIとJIS X 0201ローマ文字のいずれを使うかは、 >歴史的にはASCIIの方が正しいのですが、実際には使う人の自由にまかされます。 ということは例えば0x5cはreverse solidusでもyen signでも好きな方使え、ということ なのかな? とほほー。
- 357 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 21:41:13 ]
- すみません、機種依存文字は、どうして、存在しますか、?
ローマ数字とか、文字化ける、現象の、ことです
- 358 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:03:50 ]
- 各ベンダが似て非なる文字コードを使い続けたから。
- 359 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:22:37 ]
- 似て非なる文字コードが多くて、判定をミスるからでそ。
- 360 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:28:35 ]
- >>354
numa氏が転載してくれてる blog.livedoor.jp/numa2666/archives/50980727.html
- 361 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:40:03 ]
- >>359
表示できない文字のことを言っている。>>357
- 362 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:41:16 ]
- >>357
お国はどちらで?
- 363 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 23:17:28 ]
- 西村京太郎が書き込んだんだよ。
- 364 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 09:14:19 ]
- >>352
legacy-encoding.sourceforge.jp/wiki/ 多分こっちの方がいい。 なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。 eucJP-0201 が JIS X 0201 Roman。
- 365 名前:352 mailto:sage [2008/03/14(金) 09:55:43 ]
- >>364
ありがとうございます。 >なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。 >eucJP-0201 が JIS X 0201 Roman。 なるほど。JIS X 0201 Roman はマイナーですね。 なお、今ググったら ICU のサイトもヒットしたので、そっちも参照してみます。 iconv や Perl-Encode なんかはこの辺どうなってるのかな。 しかし EUC-JP 系ってナニゲにタチが悪いですね。下手すると SJIS 系より悪いのではw
- 366 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 11:08:59 ]
- IANA charset repositoryのは、きっちり決まっているから何も問題ないぞ?
独自改変があるのは、どのコードでも同じだし。 その辺まで全部気にしたいのなら、Windows上でベンダー共同の文字拡張、 firefoxのEUC拡張とか、いろいろありすぎてやってられないと思う。
- 367 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 11:59:42 ]
- >>365
iconv は glibc iconv と libiconv と 森山さんのパッチ済み libiconv と Citrus iconv でも違って、 「EUC-JP」での \x00-\x7F までは ASCII と考えていい、これは IANA で定義されてるから。 ただ、それより多バイトは実装による。 Perl/Encode は Shift_JIS も EUC-JP も \x00-\x7F は ASCII だね。 なお、Shift_JIS は IANA 定義では \x00-\x7F が JISX 0201Roman なことに注意。 これにしたがっている実装はあまりないが、たまにあるので地雷。 ていうか、Shift_JIS でなく Windows-31J/CP932 を使えばトラブルは少ないのでこちらの方が回避は楽。
|

|