文字コード総合スレ part3

文字コード総合スレ p ..

222:デフォルトの名無しさん
07/11/25 10:36:33
あとからならどうとでも言える

カタカナだけでもいいから1バイトで処理したいという要求がどれだけ当時は切実だったことか

223:デフォルトの名無しさん
07/11/28 12:10:33
80年代前半は漢字が表示できないマシンがごろごろしてたし
1987年ごろのパソ通でも、漢字を使うと表示できないマシンが
あるから、カナ以外禁止というところもあったね。

224:デフォルトの名無しさん
07/11/28 14:01:29
テキストVRAMで漢字もOK、なPC9801も初期はJIS第2水準はオプションだったしなあ

225:デフォルトの名無しさん
07/11/28 18:40:35
>>224
初代は第1水準もオプション

226:デフォルトの名無しさん
07/11/28 18:44:17
テキストVRAMが歯抜けだったからね。＜無印PC-9801
オプションの漢字ROMボードを入れるとその隙間を埋めるRAMもついてきたってわけ。

227:デフォルトの名無しさん
07/11/29 21:02:51
おまえらいくつだよ・・おっさんばっかだな
まあ若い人は文字コードになんか興味ないか

228:デフォルトの名無しさん
07/11/29 21:29:00
28歳はおっさんですかそうですよね。

229:デフォルトの名無しさん
07/11/29 22:02:33
外見によっては22でもおっさん。

230:デフォルトの名無しさん
07/11/29 22:22:00
プログラマーは25才が卒業式です

231:226
07/11/30 00:24:07
>>227
失礼な。せめておばさんと呼べ。

232:デフォルトの名無しさん
07/11/30 07:21:18
時代背景を知らないと

テキストVRAMって文字サイズとか位置とか固定になっちゃうじゃんｗｗｗ
超バカスｗｗｗ
なんでグラフィックVRAMに全部書かないのｗｗｗ

とか言い出す奴がいそうだな。
8ビットマシンはグラフィックVRAMに漢字表示できるものもあったわけだが

233:デフォルトの名無しさん
07/11/30 08:53:49
武勇伝はチラシの裏でどうぞ
219はどうなった？

234:デフォルトの名無しさん
07/11/30 19:30:45
単にバイト列としてコンパイルしたいだけなら
#pragma setlocale("C") を入れときゃいいだけでは？

235:デフォルトの名無しさん
07/12/01 09:01:43
POSITION 160,100:PATTERN -16,KANJI$(4746)

236:デフォルトの名無しさん
07/12/01 16:08:27
KANJI$テラナツカシス

237:デフォルトの名無しさん
07/12/02 07:14:19
Unicodeはもうだめだな
サロゲートペア，異体字，半角カナ．．．問題ありすぎ
世界中の文字使えるったってほとんど意味無いしょ
第３水準で変な記号いっぱい追加されたけどそれも要らん
JISが大手PC・携帯メーカーに呼びかけて
MS，アップル，ドコモ，au，ソフトバンク，NEC，富士通，IBM
2バイト文字の最終統一規格を作るしかないんじゃないの？
8080H～FFFFHの16384字あれば十分

238:デフォルトの名無しさん
07/12/02 10:41:18
＞JISが大手PC・携帯メーカーに呼びかけて
逆だ。JISは大手に踊らされている御用団体だからね。
つーか、それができるのならJIS83辺りで統一できているはず。
# 実態は……言うまでもないよな。

＞8080H～FFFFHの16384字あれば十分
計算できる?

239:デフォルトの名無しさん
07/12/02 11:18:03
CJK互換漢字に4字追加されるみたい。

240:デフォルトの名無しさん
07/12/02 11:25:30
>>237
もうおなかいっぱい。
これ以上文字コードを増やさないでくれ。

241:デフォルトの名無しさん
07/12/02 11:45:05
しかも>>237のレベルでは…

242:デフォルトの名無しさん
07/12/02 18:39:01
UTF-8で統一されるのが楽かなあ
>>237
2バイト固定長はもう無理でしょう。というか固定長は結合文字の
存在もあるしコーディング上のメリットがないんだよなあ。
結合文字を考慮した文字検索アルゴリズムとかもうどうしていいんだか・・

243:デフォルトの名無しさん
07/12/02 19:06:21
TronコードでOK

244:デフォルトの名無しさん
07/12/02 20:31:22
>>243
TRONコードは、単に、すでにある文字集合をぶち込む枠組であって、
文字集合の整備は漢字の収集とかやったけど、処理の上位層について
TRON方面は概念を発表しただけで具体的なものは何も出てきて
いないし、現在の問題を何ら解決できるものではない。現状から見て、
たいした期待はできない。

245:デフォルトの名無しさん
07/12/03 01:24:14
グリフ単位での文字検索は諦めて、コードポイント単位で
やるしかないんじゃないの。当面は。

246:デフォルトの名無しさん
07/12/03 22:10:17
結合文字はそのコードポイントが別だから検索がめんどいんじゃないのか・・

247:デフォルトの名無しさん
07/12/03 22:22:07
このへんを実装すれば多分おｋ
URLﾘﾝｸ(www.unicode.org)
URLﾘﾝｸ(www.unicode.org)

248:デフォルトの名無しさん
07/12/03 23:03:38
UTF-8な文字「X」が文字コード AB CD EF で定義されているとして、
別の文字「Y」がこれらをシャッフルした文字コード（ AB EF CD など）で
定義されている、という組み合わせを探しています。
効率的な調べ方とかあるかしら？

249:デフォルトの名無しさん
07/12/03 23:14:28
たかだかx6だからベタでいいだろ。

250:デフォルトの名無しさん
07/12/04 01:18:41
>>249
char a[] = { 0xE3, 0x82, 0xA2, 0x00 };
char b[] = { 0xE3, 0xA2, 0x82, 0x00 };
ってしたときに、aは「ア」だけどbに割り当てられた文字はないでしょう？
そういうのをプログラム的に省きたかったんだ。無理っぽいなあ

251:デフォルトの名無しさん
07/12/04 01:25:35
>>250
んなこと悩んでいる間にベタで書けば5分掛からないだろ。わけわからん。
それともなんかのプログラムの動作中ってこと？

252:デフォルトの名無しさん
07/12/04 07:34:33

これって割り当てられてるってこと？

URLﾘﾝｸ(www.google.co.jp)
アの検索結果約 73,600,000 件中 1 - 10 件目 (0.05 秒)

URLﾘﾝｸ(www.google.co.jp)
㢂の検索結果約 2,740 件中 1 - 10 件目 (0.24 秒)

253:デフォルトの名無しさん
07/12/04 09:56:17
日本語の文字には無いけど、中国の文字にあるだろ

254:デフォルトの名無しさん
07/12/04 09:56:49
0xE3, 0xA2, 0x82 だから、文字コード 3882 だよ。

255:デフォルトの名無しさん
07/12/04 10:56:35
U+3882 はちゃんと ExtA に割りあてられてるな。
Windows なら Vista にするか対応フォントを入れれば見えるはず。

256:デフォルトの名無しさん
07/12/04 11:36:45
関数的に書くなら、
端から生成して、端からx6の組み合わせで生成して、
端からUTF-8になってないバイト列を落とすフィルタを通す、
という感じで書くかな。

257:デフォルトの名無しさん
07/12/04 12:05:37
>>251
AB CD EF は16進数の10～15ではなくて、6種類の変数A～Fという意味。

文字列処理関数のテストケースを書いてて、248 みたいな組み合わせが数通り欲しかったのさ。
文字コード一覧表を目視して解決しますた。あんがと。

>>255
ExtAってなんかの制御コード？

>>256
日本語フォントが用意されているかを調べる、というコードが書けない俺orz

258:デフォルトの名無しさん
07/12/04 12:28:23
「日本語フォント」なんて関係ないだろ。
「文字集合」で考えろ。

259:デフォルトの名無しさん
07/12/04 12:48:05
「UTF-8的にあり得る(3バイトの)バイト列」じゃなくて、
「UnicodeからJIS X 0208(あるいはCP932)にマップ可能なコードポイント」を抽出したいのか？
それはテーブル引くしかないような気がする。

260:デフォルトの名無しさん
07/12/04 12:53:57
ExtA = CJK Ideograph Extension A
U+3400～U+4DB5(Unicode3,4), U+4DBF(Unicode5)
いわゆる「機種依存文字」な漢字でUnicode2に入ってなかった奴が入った所と思った。確か

261:デフォルトの名無しさん
07/12/04 13:03:01
JIS X 0208あるいは指定した文字集合だけ考えればいいなら、

JIS X 0208の全ての区点コードをリストアップ ('あ'を例に)
↓
UTF-8の16進数表現に変換 (0xE3 0x81 0x82)
↓
バイト列をソートしたのものを一桁目に(CSV) (0x81 0x82 0xE3, 0xe3 0x81 0x82)
↓
一桁目でjoin (0x81 0x82 0xE3でjoin)
↓
join後、複数項目のあるものをリストアップ。

262:デフォルトの名無しさん
07/12/04 17:55:57
文字集合と符号化方式の概念が理解できてなかった。まさに>>259だ。

>>258、>>260-261
もthx!

263:デフォルトの名無しさん
07/12/04 23:52:17
>>233
ｽﾏﾝ、結局Linuxどうしてんのかレスなかったから見てなかった・・
Stringを自前で作って、各文字コード処理できるようにする方向でやってる

264:デフォルトの名無しさん
07/12/06 01:28:41
std::stringは結局役に立たんからね

265:デフォルトの名無しさん
07/12/06 19:00:37
EUC-JPって第2面をA121～FE7Eに配置できないのかな
第1バイトがA0～FFなら2バイト文字だと認識するようにすれば
いいと思うんだけど

266:デフォルトの名無しさん
07/12/06 20:32:41
>>260
U+4DBFに文字なんか割り当てられてたか?
ブロックの範囲と文字が収録されている範囲をごっちゃにしてる
通信用語の基礎知識あたりの鵜呑みじゃあるまいな

267:デフォルトの名無しさん
07/12/06 20:33:43
>>265
円記号問題どころの騒ぎじゃなくなります
メインフレーム各社の独自コードにはそういう変態割り当てをしたものが
けっこうあるけど

268:デフォルトの名無しさん
07/12/06 20:52:49
>>266
スマン
あたり
orz

3.0 と現行のを調べた。
レンジは 3.0 だと U+4DFF まで、5.0 だと U+4DBF まで、
中身が入ってるのは U+4DB5 まで、で合ってます？

間に入ったのは Yijing Hexagram Symbols って八卦かよw

269:デフォルトの名無しさん
07/12/06 22:09:16
>>268
うむ
ちなみにU+9FA5の後ろには本当に文字が断続的に追加されてるな

270:デフォルトの名無しさん
07/12/06 22:25:43
URLﾘﾝｸ(examples.oreilly.de)
aj16.tar.Zが更新されてる
pri108に対応していくつかのCIDにUnicodeが追加された模様

271:デフォルトの名無しさん
07/12/07 08:24:11
第１～第４＋非漢字で11233字
補助漢字で6067字
補助漢字と第３，第４でかぶるのが約2900字
11233＋6067－2900＝14400字
8080H～FFFFH＝16384字

272:デフォルトの名無しさん
07/12/07 08:42:20
>>267
それはSHift-JIS固有の問題。

273:デフォルトの名無しさん
07/12/07 09:30:20
何そのとんちんかんなレスはw

274:272
07/12/07 09:42:22
あ、ダメかｗ
言いたいのは1～2バイトに収まるようにシンプルにしてほしいってこった

275:デフォルトの名無しさん
07/12/07 10:57:54
UCS-2の過ちを繰り返すのかよw

276:デフォルトの名無しさん
07/12/07 12:51:45
繁体字とか簡体字とかハングルとか要らんだろｗ

277:デフォルトの名無しさん
07/12/07 13:41:14
ハングルという偉大な文字は必要ニダ！

278:デフォルトの名無しさん
07/12/07 13:47:08
自分に必要なありとあらゆるソフトウェアを、その独自規格に準拠したもの
のみでまかなえるなら好きにすればー?

# 文字コードが、文字集合を情報「交換」のために符号化したものである
# ということを理解してないやつがこんなにも多いのは何故だ?

279:デフォルトの名無しさん
07/12/07 13:48:26
漢字なんかいらんだろ（米国人(32)）

280:デフォルトの名無しさん
07/12/07 13:59:54
その昔、Win3.1の時代に漢字対応の必要をアメリカ人に説明しようとしたら、
通訳が「Chinese Characters」って訳しやがって説明に苦労したもんだぜ。

281:デフォルトの名無しさん
07/12/07 15:02:01
もうUTF-8で全部解決だろ

282:デフォルトの名無しさん
07/12/07 16:58:25
Unicode の符号化という点ならそうだけど
Unicode に入れられそうもない変体仮名とかを
符号化する場合を考えると Unicode だけに
頼れないし

283:デフォルトの名無しさん
07/12/07 18:32:19
plain textは諦めてくださいと遠くからUnicode神の声が聴えてきました。

ところで変体仮名のみの文字集合は既に定義されているのですか?
あるとすれば、どういう包接基準を採用しているのですか?

284:デフォルトの名無しさん
07/12/07 20:36:47
るりーる

285:デフォルトの名無しさん
07/12/07 21:04:53
>>272
>>265みたいなことをしたらShift_JISと同じ(もっと悪い)問題が起きるって
言ってるんだが。
>>282
入らないのは日本が入れろと言わないから。
異体字だって結局米国企業のAdobeが登録するまで日本は
なーーーんにもしなかった。

286:デフォルトの名無しさん
07/12/07 21:05:18
>>283
とりあえずTRONにはあるようだ
Wikipedia項目ﾘﾝｸ

287:デフォルトの名無しさん
07/12/07 21:06:31
>>283
TRONコードに住民基本台帳収録変体仮名とその他の変体仮名が入ってる。
ということは住基統一コードにも変体仮名が入ってるのか

288:デフォルトの名無しさん
07/12/07 21:12:47
こういう文字をUnicodeに入れてくれって言う場合の
日本側の窓口はどこなんだろ。経産省？

密室でやらずに一回ぐらいパブリックコメントの募集してくれよ。

289:デフォルトの名無しさん
07/12/07 21:14:56
こんだけオープンにやってて密室もへったくれもあるか
URLﾘﾝｸ(std.dkuug.dk)
IVDの前回の公開レビューだって
URLﾘﾝｸ(www.unicode.org)
終了一週間くらい前になって気づいた俺が触れて回るまで
日本で取り上げているサイトが一切なかったという関心のなさっぷり
それで密室とかなんとかいっても説得力のかけらもない

290:デフォルトの名無しさん
07/12/07 21:37:49
そこへ持ってゆく文字の選定をしている日本側の窓口の話をしてるんだが。

291:デフォルトの名無しさん
07/12/07 22:11:20
とりあえず、英語が読めない人は、翻訳者を雇わないと、
投稿手順すら分からないのではないかと。

292:デフォルトの名無しさん
07/12/07 22:17:00
>>287
wikipediaにあるわw
Wikipedia項目ﾘﾝｸ

URLﾘﾝｸ(www.chokanji.com)
TRONは何でもぶちこみ方式だろうから、
まだ異体字の包接基準はないのかな。
かなり知識がないと無理だね。

293:デフォルトの名無しさん
07/12/09 10:03:04
TRONはコード表はフリーなんだけど
その運用に事実上必要な異体字のデータベースで金稼いでるんだよね
超漢字検索で変体仮名を検索すると関連字として対応する漢字やひらがなが
出てくるし漢字から変体仮名を検索することもできる

294:デフォルトの名無しさん
07/12/09 12:07:54
いっそ日本代表は無視してUTCのfull memberになったほうが話が早いかもしれない
英語力と金が必要だけど

295:デフォルトの名無しさん
08/01/02 16:32:43
あけましておめでとうございます
結局JIS X 0221の改訂版は2007年中に出ませんでした。
JIS X 0213:2004で2004となるべきところが2003となるような誤植が
今回も発生するのでしょうか。

296:デフォルトの名無しさん
08/01/05 01:13:42
>>295

えっまぢ！？
そういや、12月20日前後の官報がデッドラインだと聞いてたんだけど、
チェックするの忘れてたよ。。。

あーあ、また関係者は地獄を見ることになるのかな・・・

297:デフォルトの名無しさん
08/01/05 01:33:09
そうこうしている間にもamendmentは増えてゆく～

298:デフォルトの名無しさん
08/01/05 01:43:49
>>296
ietf-charsetsで外人が「Hey, 内容変更が何もないのにどうして-2003が-2004
になったんだい? (大意)」みたいなことを安岡センセイに聞いてたのを思い出した。
そりゃ知らないやつは不思議に思うよなあ

299:デフォルトの名無しさん
08/01/05 06:06:50
ちゃんと出てるじゃん
制定年月日2007/12/20になってるから本当にギリギリだったみたいね

300:デフォルトの名無しさん
08/01/05 07:17:14
JISCで閲覧できる規格票が
CJKU_SR.txtをわざわざ50MBのPDFにしてたりしてワロタ

301:デフォルトの名無しさん
08/01/12 07:17:23
>>300
中の人が内規かなにかに従った結果なんだろうね

302:デフォルトの名無しさん
08/01/12 12:12:01
見た目までコントロールしたいからでしょ。
フォント環境の違いで誤解が生じないように。

303:デフォルトの名無しさん
08/01/12 12:27:42
仮にそうだとしてもフォントを埋め込めば済む話ではないの？

304:デフォルトの名無しさん
08/01/12 12:28:15
ただ数字が並んでるだけなのにどう誤解するというのだ
そもそも正文がテキストファイルなんだが

305:デフォルトの名無しさん
08/01/16 19:29:38
質問です
URLﾘﾝｸ(www.ac.cyberhome.ne.jp)
> 1文字毎をメモリに持つのではなく全てバイト列で処理すると言った方法の為、
> 他のアプリケーションとは違うi18n化の方法であり特殊ではあるが

普通のi18n対応アプリケーションは文字ごとに(codepointごとに?)
メモリに確保して、文字配列として処理されることが多い、けれども
バイト列で処理する…バイト列を喰わせても大丈夫な関数を用意して文字を操作する

URLﾘﾝｸ(itpro.nikkeibp.co.jp)

*Javaとかのアプローチはcodepointごとに文字を操作。(分解合成がめんどい)
*Vimのアプローチはバイト列を独自関数で文字として操作。(patch workの集大成)

oniguruma とか sakura editor とか emcode.pm とか身近にあるのは
みんなpatch workの集大成なのですか？

306:デフォルトの名無しさん
08/01/16 19:40:01
> 他のアプリケーションとは違うi18n化の方法であり特殊ではあるが

ん、じぶんの理解だとここの部分の意図が汲めなくなるか…

内部で Unicode の codepoint に従って処理しているソフトは
あまりないけど…内部でなんらかのエンコードに変換して保持
してるソフトは多くて…でもVimはバイナリのまま保持するですよ…?

というような意味とか? ああなんかよくわからなくなってきた…orz

307:デフォルトの名無しさん
08/01/16 21:53:51
マルチバイト or ワイド文字と分解合成とは直交する問題だろ。
何が言いたいのだろう。

308:デフォルトの名無しさん
08/01/17 13:22:34
まともなi18nの仕事で「patch workの集大成」でないものなんてないぞ。
全ての文字、言語に通じている人間なんていないのだから。

309:デフォルトの名無しさん
08/01/17 14:09:39
仕様が実際patch workだからな
というか言語というものがそもそも...

310:デフォルトの名無しさん
08/01/18 14:46:18
>>307
URLﾘﾝｸ(anond.hatelabo.jp)
>喫煙と、麻薬や飲酒は直交する問題だと思いますが…
直行する = 相関性のみられない事象のこと = 分けて論じるべき議題

うむ。まずじぶんは小学生あたりからやり直すべきか。
てか日本語って難しいな orz

>>308-309
㌧くす。言語は日々の積み重ね。ちぃおぼえた

311:デフォルトの名無しさん
08/01/18 15:00:13
URLﾘﾝｸ(homepage.mac.com)
>「おそらく漢字ほど難しくないからそれほどでもないと思うけど、例えば
>"than" を "then" と書く若者が増えてるよ。」っと言っていました。

>「それって全く意味が違うじゃん。」っと言ったら、「orthogonalだね。」と
>言われました。「orthogonalって何？」と聞いたら、90℃（直角）との事。

>「何で180℃じゃないの？」っと聞いたら、「反対の意味って訳じゃないけど
>（左右みたいな）、ぜんぜん違う意味だから、orthogonalって言うんだよ。」
>っと教えてくれました。面白い表現ですね！

『欧米かっ！』と言わざるを得ない…。
グラフをイメージして相関性云々とか考え出すと,
なんで90度でねじれの関係になるんだ, とかわけかわからんかった orz

312:デフォルトの名無しさん
08/01/18 15:52:55
>>310
> >>307
> URLﾘﾝｸ(anond.hatelabo.jp)
> >喫煙と、麻薬や飲酒は直交する問題だと思いますが…
> 直行する = 相関性のみられない事象のこと = 分けて論じるべき議題

誤変換かもしれないが、直交と直行を混同するようでは先がおもいやられる...

313:デフォルトの名無しさん
08/01/18 16:25:40
本来の意味で使ってる可能性も・・・

314:デフォルトの名無しさん
08/01/18 17:07:36
>>310
文脈から汲めば、分けられないってことだろ
とはいえ>>312みたいな態度が一番気に食わん

315:デフォルトの名無しさん
08/01/18 17:59:53
直交ずる～というと2つのベクトルの内積(2直線の射影でもいいや)を考えるでしょ常考。
高校数学程度の概念は常識として知っておいてくださいな。

316:デフォルトの名無しさん
08/01/19 03:20:48
この文脈でそんな本来の意味の用語を使うわけないでしょ。
それくらい想像力働かせてくださいな。

317:デフォルトの名無しさん
08/01/19 07:02:46
直交⇔互いに独立
∴2つのベクトルの内積(2直線の射影でもいいや)=0

318:デフォルトの名無しさん
08/01/19 07:08:44
「2つのベクトルの内積(2直線の射影でもいいや)」が0以外の値を持つとき
それらは直交しない

つまり「直交」については最初から一貫して「本来の意味」で使われているw

馬鹿は >>315

319:デフォルトの名無しさん
08/01/19 12:20:41
数学総合スレはここですか?

320:デフォルトの名無しさん
08/01/19 14:12:35
>>319
直帰を許可します

321:デフォルトの名無しさん
08/01/21 00:06:37
ん？この流れム板のどこかのスレで見た気が。デジャヴ？

322:デフォルトの名無しさん
08/01/30 01:45:55
SJIS2004とかJISX213系の文字コード表って無いですかね

どうも変換がうまくできない・・・

323:デフォルトの名無しさん
08/01/30 07:47:52
JISCにあるじゃん

324:デフォルトの名無しさん
08/01/30 23:27:43
JISCのPDFから手で書き取れと申すか
※無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
とりあえず機械可読な奴がほしかったらここでも見れ
URLﾘﾝｸ(x0213.org)

325:デフォルトの名無しさん
08/01/30 23:32:34
＞※無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
ごめんJISCを甘く見てた……

326:デフォルトの名無しさん
08/01/30 23:40:52
JISC・・・ひでえな。

327:デフォルトの名無しさん
08/02/01 21:15:44
www.unicode.org落ちてる?

328:デフォルトの名無しさん
08/02/05 21:26:41
Joel Spolsky氏のブログ翻訳「ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて」

Servlet Garden ≫ Unicode and Character Sets (Translation)
URLﾘﾝｸ(www.t3.rim.or.jp)

329:デフォルトの名無しさん
08/02/05 23:42:35
Unicode Transformation Format 8 と UCS Transformation Format 8 で混乱するのだけど
それぞれをどう解釈したらいいんだろう？

330:デフォルトの名無しさん
08/02/05 23:56:23
略せばどっちもUTF-8。はい、同じ。

331:デフォルトの名無しさん
08/02/06 00:00:19
Unicode.orgがつけた名前
ISO/IECがつけた名前
中身おんなじ

332:デフォルトの名無しさん
08/02/06 00:11:42
互換性あるのはわかったけど、Unicodeのが4バイト、
UCSのが6バイトみたいなこと書かれてたんで5バイト目以降は違うってことかな？

333:デフォルトの名無しさん
08/02/06 00:32:16
ISO/IEC 10646はAmd2:2006で、0群17面以降には永久に文字を追加しないことにしたから
UTF-8にしたときには5オクテット以上にはならない。

Uniocde.org的には、単に追加予定なしなだけなので、UTF-8は理屈上最長の
6オクテットまで使っていいけど、でも文字入ってないよ？状態。

だから、結局中身おんなじ

334:デフォルトの名無しさん
08/02/06 01:09:46
もともとUnicode的にUTF-16の絡みで10FFFFまでになって、
おれにAmd2:2006で追従したんじゃないっけ。
どちらにしろ、今はどちらも4byteまで。
URLﾘﾝｸ(www.rfc-editor.org) 参考までにRFC

335:デフォルトの名無しさん
08/02/06 02:42:04
なるほど。納得できたありがとう。

336:デフォルトの名無しさん
08/02/06 18:15:44
いつの間にかIVS(漢字のVS)正式に決定してた。
URLﾘﾝｸ(www.unicode.org)

337:333
08/02/07 08:54:13
>>334
そうみたいね
俺古いRFC見てたわ

338:デフォルトの名無しさん
08/02/19 23:13:06
U+FDD0～U+FDEFが使用禁止になったのって何でだろう?

339:デフォルトの名無しさん
08/02/22 20:04:35
JIS X 0221:2007規格票の8. 注記3によると
「符号化文字でないことが保証された数値を必要とする内部処理」に使用するためだそうだ。
例として「表を終了させる、テキストの終わりを通知するなど」が挙げられてる

340:デフォルトの名無しさん
08/02/23 03:05:40
文字コードふぜいが表の終了とか意識するな。

341:デフォルトの名無しさん
08/02/23 08:30:49
文字集合はともかく、
符合化方式がその辺りを考慮するのは当然。

342:デフォルトの名無しさん
08/02/23 09:17:36
あとU+FFFFはBMPの最後のコードだから番兵に使うことを特に意識している
U+FFFEは言うまでもなくBOM判別用

343:デフォルトの名無しさん
08/02/23 13:25:24
ASCII にだってコントロールコードの領域があるしね

344:デフォルトの名無しさん
08/03/12 02:47:39
文字コードとやらに興味を抱き、とりあえずユニコードが標準と知り、
番号からUTF-16を使っていたのですが、
このスレの人は何を主に使っているのですか？
検索をしていると16よりも8の話題のほうが見つかるので、
実は8のほうがいいのかなと悩んだりしています。

345:デフォルトの名無しさん
08/03/12 03:08:25
つか、今、同じテキストファイルを変換してみたのですけれども、
よくよく考えたらUTF-8は可変で日本語の文章に関しては、
全てを2バイトで扱うUTF-16に比べて、
日本語部分を3バイトで扱うUTF-8は情報量が多いほど、
容量が無駄に大きくなってしまいませんか?
1.5倍ですよね。それを補うほどの使い勝手の良さがあるのでしょうか。

346:デフォルトの名無しさん
08/03/12 03:14:34
南北アメリカや西ヨーロッパの多く言語は平均すると一文字当たり2オクテット未満であらわせる。

347:デフォルトの名無しさん
08/03/12 03:27:30
後は１要素が1byteに収まるから扱いが楽、とか

まぁ日本語を基準に考えてる時点でUnicodeの思想から外れてる気はする

348:デフォルトの名無しさん
08/03/12 09:29:53
>>344
1.5倍程度でけちけちするな、多言語化ってのはそういうもんだ。
マジレスするとUTF-8側にメリットがあるというよりも、
UTF-16側がサロゲートペアやバイトオーダー、ASCII非互換、guessしずらいなど、
いろいろと面倒なのでUTF-8の方がよい。

349:デフォルトの名無しさん
08/03/12 10:57:52
WindowsがUTF-16なんで、自分のプログラムもUTF-16です。

350:デフォルトの名無しさん
08/03/12 23:33:43
ケチ臭いことを言うんだったら、ASCIIの制御文字の部分の方が勿体無いと思うけどね。
ホントにASCIIてクソだなあ。

351:デフォルトの名無しさん
08/03/13 02:21:38
ASCIIが7bitで治まってくれていて良かった。
ISO 8859-1みたいなんじゃなくて、ASCIIが8bit、
×も≠も欲しいなんて言い出さなくて本当に良かった。
奴等が重ね打ち馬鹿で本当に良かった。

352:デフォルトの名無しさん
08/03/13 19:16:38
すみません、
EUC-JP 系のエンコーディング（含 eucJP-ms, CP5132）においてどういう文字が
割り当てられているかを知りたいのですが、いいウェブページはないでしょうか。

353:デフォルトの名無しさん
08/03/13 20:07:35
>>2

354:デフォルトの名無しさん
08/03/13 20:25:25
そーいや、opengroup の eucjp-ms とユニコードの変換表のページはもう見れないのかな？

355:デフォルトの名無しさん
08/03/13 21:04:03
utf8がascii互換でソースに書いたり、ファイルに書き出すには一番使い勝手はいいと思う。
WinならAPIとの互換性のために、メモリ上はutf16が良い。Shift_JISに変更する気はあんまり起きない。
パーサーなどで、コードポイントを等間隔で扱いたいときにはutf32にしてる。

356:デフォルトの名無しさん
08/03/13 21:27:56
>>353
やはりそこら辺ぐらいですか?

まずは1バイト部分が気になっていたのですが、

>また、16進数で「21」～「7E」の文字にASCIIとJIS X 0201ローマ文字のいずれを使うかは、
>歴史的にはASCIIの方が正しいのですが、実際には使う人の自由にまかされます。

ということは例えば0x5cはreverse solidusでもyen signでも好きな方使え、ということ
なのかな? とほほー。

357:デフォルトの名無しさん
08/03/13 21:41:13
すみません、機種依存文字は、どうして、存在しますか、？
ローマ数字とか、文字化ける、現象の、ことです

358:デフォルトの名無しさん
08/03/13 22:03:50
各ベンダが似て非なる文字コードを使い続けたから。

359:デフォルトの名無しさん
08/03/13 22:22:37
似て非なる文字コードが多くて、判定をミスるからでそ。

360:デフォルトの名無しさん
08/03/13 22:28:35
>>354
numa氏が転載してくれてる
URLﾘﾝｸ(blog.livedoor.jp)

361:デフォルトの名無しさん
08/03/13 22:40:03
>>359
表示できない文字のことを言っている。>>357

362:デフォルトの名無しさん
08/03/13 22:41:16
>>357
お国はどちらで？

363:デフォルトの名無しさん
08/03/13 23:17:28
西村京太郎が書き込んだんだよ。

364:デフォルトの名無しさん
08/03/14 09:14:19
>>352
URLﾘﾝｸ(legacy-encoding.sourceforge.jp)
多分こっちの方がいい。
なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。
eucJP-0201 が JIS X 0201 Roman。

365:352
08/03/14 09:55:43
>>364
ありがとうございます。

>なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。
>eucJP-0201 が JIS X 0201 Roman。

なるほど。JIS X 0201 Roman はマイナーですね。
なお、今ググったら ICU のサイトもヒットしたので、そっちも参照してみます。
iconv や Perl-Encode なんかはこの辺どうなってるのかな。
しかし EUC-JP 系ってナニゲにタチが悪いですね。下手すると SJIS 系より悪いのではw

366:デフォルトの名無しさん
08/03/14 11:08:59
IANA charset repositoryのは、きっちり決まっているから何も問題ないぞ?

独自改変があるのは、どのコードでも同じだし。
その辺まで全部気にしたいのなら、Windows上でベンダー共同の文字拡張、
firefoxのEUC拡張とか、いろいろありすぎてやってられないと思う。

367:デフォルトの名無しさん
08/03/14 11:59:42
>>365
iconv は glibc iconv と libiconv と森山さんのパッチ済み libiconv と Citrus iconv でも違って、
「EUC-JP」での \x00-\x7F までは ASCII と考えていい、これは IANA で定義されてるから。
ただ、それより多バイトは実装による。

Perl/Encode は Shift_JIS も EUC-JP も \x00-\x7F は ASCII だね。

なお、Shift_JIS は IANA 定義では \x00-\x7F が JISX 0201Roman なことに注意。
これにしたがっている実装はあまりないが、たまにあるので地雷。
ていうか、Shift_JIS でなく Windows-31J/CP932 を使えばトラブルは少ないのでこちらの方が回避は楽。

368:352
08/03/14 13:43:47
>>366 >>367
どうも有益な情報をありがとうございます。

文字コード処理にどのぐらい挙動の幅を持たせるかとかを悩んでいます。
>>365さんも書かれてますが、例えばHTMLでcharset=Shift_JIS or EUC-JPとなっている
が、拡張漢字のコードが入ってた場合（これは結構ある）にどうするかとか。
あと、差のある部分（全角記号等）をどっちだと思って処理するかとか。

369:デフォルトの名無しさん
08/03/14 14:01:57
サーバ側で、かつ、どのクライアントに対してもきっちりやりたいなら、
User-Agent: をみて、独自の拡張、改変にちゃんと対応するしかない。

firefoxのケースはググれば出てくる。
CP51932関連も読んでおいた方がいい。

370:デフォルトの名無しさん
08/03/15 06:16:20
>>365
Shift_JISだって、CP932、Shift_JISX0213、Shift_JIS-2004などの変種がある。
むかし補助漢字を無理やり埋め込む変種もあった。

> Windows上でベンダー共同の文字拡張、

eucJP-ms?

371:デフォルトの名無しさん
08/03/15 09:41:00
> 補助漢字を無理やり埋め込む変種もあった。
kwsk
そういう噂は聞いたことあるけど実際にどんな仕様だったのか調べてもわからない

372:デフォルトの名無しさん
08/03/15 10:19:31
>>370
> Shift_JISX0213、Shift_JIS-2004などの変種がある。
これって名前以外に違いあるんだっけ？

373:デフォルトの名無しさん
08/03/15 10:41:07
Shift_JISX0213は、JIS X 0212:2000に、
Shift_JIS-2004は、JIS X 0212:2004に基づいている。
UCS互換文字が10文字追加されている。

追加だから、表示などの用途に限れば、
Shift_JIS-2004だけで十分だが、
文字集合チェックしたければ区別する必要がある。
(>>352はそういうことをEUC-JPについて知りたいようだったので書いた)

374:デフォルトの名無しさん
08/03/15 10:54:07
そもそもサポートする必要ないよ、とか言ってみる。
増やせば増やすほど混乱の種が増す。
とくに「レガシー」エンコーディングプロジェクトのくせに新しいことをやりたがる奴らは
まとめて氏ね

375:デフォルトの名無しさん
08/03/15 10:58:43
BMP氏ね

376:デフォルトの名無しさん
08/03/15 11:00:35
時代はPNGです(そっちか)

377:デフォルトの名無しさん
08/03/15 11:26:08
>>373
thx

378:デフォルトの名無しさん
08/03/15 13:22:46
>>372
当時のfj.kanjiにいくつかの提案をまとめた記事があったはず。

379:デフォルトの名無しさん
08/03/15 14:11:30
うーんGoogle Groupsには残ってないようだ
当時ニュースグループには参加してなかったからログを探すのが困難だ

380:デフォルトの名無しさん
08/03/15 16:42:56
>>374
>そもそもサポートする必要ないよ、とか言ってみる。

世界中のソフトが足並みを揃えられればいいんだけどね。
現実的にはより「好意的に」データを処理してくれるアプリの方が
ユーザーのウケが良くて、困ったものだ。

それに「レガシー」とはいうものの、メールでもウェブページでもまだバリバリに
使われてるわけだし。

381:デフォルトの名無しさん
08/03/15 16:54:50
なにせここも Shift-JIS だしな

382:デフォルトの名無しさん
08/03/15 18:46:28
>>380
さすがにShift_JIS-2004をサポートした方がユーザーの受けがいいってことはないだろ
むしろ円記号や名簿の高橋さんが文字化けする! とか苦情が増えそうな気がする

383:デフォルトの名無しさん
08/03/15 18:47:21
> 世界中のソフトが
日本中のソフトだけだろ。
最近のソフトやプロトコルは日本人が口出ししない限りUTF-8のみなんて珍しくもないぞ

384:デフォルトの名無しさん
08/03/15 18:53:04
> それに「レガシー」とはいうものの、メールでもウェブページでもまだバリバリに
> 使われてるわけだし。
まだ使われているものをサポートすることは別に反対してない。
現在誰も使ってないどころかかつて使われたことすらないものを
「よかれと思って」付け足そうとする奴は氏ねと言ってる。
ISO-2022-JP-MSとか(頓挫したけど)
NEC選定IBM拡張漢字とIBM拡張漢字にVS付けて区別するとか
正気とは思えない

385:デフォルトの名無しさん
08/03/15 18:53:56
JIS X 0213のせいで日本の悲惨さ倍増w

386:352
08/03/17 04:46:50
皆さんどうも。
Win上だと例えばcharset=EUC-JPだけど実はCP51932なHTMLとかは
あんまり問題にならないのかもしれませんが、非Winだとそうでもなくて、
ちょっと情報を必要としていました。

ウェブブラウザとかメールソフトとかデータベースとか、日本人が開発の
中心にいないものも少なくないんじゃないですかね。そうすると日本語の
エンコーディングに関するバグの説明とか、面倒ですね。

387:デフォルトの名無しさん
08/03/17 05:01:27
糞会社が勝手に文字集合を独自拡張するのがまずいのであって、
受け手が四苦八苦しているのが悪いわけではない。

388:デフォルトの名無しさん
08/03/17 08:01:19
どうでもいいけどWin3より前の時代にアメリカの技術者と話をするときに、
通訳が「漢字」を"chinese characters"と訳すのには閉口させられたなぁ。
現物見せてやっと話が噛み合ったよ。

389:デフォルトの名無しさん
08/03/17 12:18:12
ややこしいが漢字を Chinese characters としている和英辞書があるんだよな。
大昔、千年以上前の日本人にとっては、漢字≒中国語文字かもしれないが
現代の日本人が漢字といえば国字 Japanese characters で漢字体のものを
指すのが普通だな。

通訳は空気を読むべきだと思うが、通訳が頼りない場合は
漢字だと誤訳・誤解されるおそれがあるので日本文字 Japanese characters と
言ったほうがいいかも。

390:デフォルトの名無しさん
08/03/17 12:31:27
普通「漢字」は「ひらがな」「カタカナ」を含まないけど、
文字コードの世界では、含めて「漢字」ということがあるからややこしい。

本来の狭い意味での「漢字」なら、
Japanese Charactersの中のChinese Charactersってことで問題ないはずだけど。

391:デフォルトの名無しさん
08/03/17 12:37:28
最近はKanjiで通じるようになってきたから嬉しい。

392:デフォルトの名無しさん
08/03/17 12:38:11
もうKanjiでおｋ

393:デフォルトの名無しさん
08/03/17 12:44:23
CJK Unified Ideographs のことだろ、Kanji って
ってな、合ってるんだけど間違ってる理解が今後増えそうで嫌だ

394:デフォルトの名無しさん
08/03/17 12:48:45
>>391 >>392
それってひらがな、かたかなは含む?

395:388
08/03/17 12:55:49
あー、そんときは通訳が(理由は忘れたが)席を外したんで、
隙を狙って"Kanji is Japanese special character, not only Chinese."みたいなことを言った希ガス。
当然向こうは"???"となったから、「現物を見せましょう」という流れに持ってった。
# んで、「Windowsじゃそんな文字出せない」みたいなこと言われたんだよなw

396:デフォルトの名無しさん
08/03/17 13:15:36
>>394
391でも392でも無いけど、俺の知っている範囲では「含まない」。

たとえば、日本語学習者とか、日本の漫画やアニメのファンが
"HiraganaやKatakanaは何とかなるけど、Kanjiはホントに難しいyo"
とか、そういう風に口にする。

397:デフォルトの名無しさん
08/03/17 13:52:28
>>394
文字コードのことをちゃんと勉強してる技術者には、
KanjiっていえばHan charactersのうち日本語で使われてる文字だって伝わる。

Unicode万歳って感じだわ。

398:デフォルトの名無しさん
08/03/17 15:17:07
JISの「漢字集合」にはひらがなカタカナも含んだな

399:デフォルトの名無しさん
08/03/17 19:06:02
JIS X 0208の「漢字集合」だとラテン文字やキリル文字まで含むけど、
「漢字」だと漢字だけだよな。

400:デフォルトの名無しさん
08/03/17 23:49:15
JIS X 0208の「非漢字」のうち1文字はUnicodeでは漢字扱いだったな
Unicode 1.0では非漢字領域にもあったけどUnicode 1.1でunifyされたらしい
と安岡センセイか誰かの日記で読んだ

401:デフォルトの名無しさん
08/03/18 00:22:44
更級日記？

402:デフォルトの名無しさん
08/03/18 07:53:24
"仝" だっけ。一部の人にはハートマーク差し替え記号として知られるw
"〆" は文字だっけ？　JIS では記号だけど。

403:デフォルトの名無しさん
08/03/18 08:03:36
>>402
〆は0208由来の非漢字と補助漢字由来の漢字が両方入ってる
EUC-JPとラウンドトリップコンバージョンを確保する必要があるから

404:デフォルトの名無しさん
08/03/18 12:50:52
unicodeで
アファベットかどうかやひらがなかどうかやカタカナかどうかとか
文字種別みたいなものをロジック的に判別する方法ありますか？
それともSJISとかみたいに力任せですか？
あと濁点の「が」と「かﾞ」みたいなのを正規化する方法って決まってませんか？

405:デフォルトの名無しさん
08/03/18 13:11:04
>>404

>文字種
そういうAPIがあるプログラム言語とかライブラリ使え
どれがどの文字種かは >>unicode.org

>正規化
決まってる >>uniocde.org

406:デフォルトの名無しさん
08/03/18 15:00:42
>>405
>正規化
結合文字の正規化目的でNFCを使うとCJK互換漢字でハマるから注意

407:デフォルトの名無しさん
08/03/18 20:19:07
「神」が化けるとかだっけ

408:デフォルトの名無しさん
08/03/18 22:28:39
URLﾘﾝｸ(internet.watch.impress.co.jp)

409:デフォルトの名無しさん
08/03/19 00:28:49
Unicodeの正規化といえば、MediaWikiが外部から入力された文字列を全部正規化しやがって、
互換漢字を入力できずに困ったことがあったわ。

410:デフォルトの名無しさん
08/03/19 07:34:46
>>407
ファイル名が Unicode ベースなファイルシステムだと何らかの正規化がなされていると
思うけど、同じ場所に「神」という名前のファイルと「神」とのいう名前のファイルを作ろうと
したら、どうなるべきなのかな?

411:デフォルトの名無しさん
08/03/19 07:43:42
>>410
手元のWindowsXP/NTFSだと U+00C4 と A+U0308 を別々に作れた、なので正規化はしてないっぽい。
MacOSXだと作れないだろうね。

412:デフォルトの名無しさん
08/03/19 10:01:39
>>410
> > 何らかの正規化がなされていると思うけど

Mac OS Xくらいしか知らないよ。
Windows, UNIX系ではないんじゃない？

413:デフォルトの名無しさん
08/03/19 10:08:51
>>411
MacOSXでも作れる。
OSXのVFSはNFDに準じたファイル名の正規化を行うが、互換漢字は対象外

414:デフォルトの名無しさん
08/03/19 14:30:19
>>413
VFSじゃないだろ?
CarbonとHFS+でやってんじゃない?

すくなくとも10.3の調査ではそうだった。
だからターミナルからUFSやNFS上にファイルを作成すれば、
ファイル名はNFDされてなかった。

415:デフォルトの名無しさん
08/03/19 17:17:53
>>412
ほんとに? 正規化されてないUnicodeでファイル名を扱うっていうのは
混乱を招くような気がするのだが...

416:デフォルトの名無しさん
08/03/19 18:49:29
データそのものを正規化してしまうような仕組みは嬉しくないなあ。
正規化はソートや検索の時に動的にしてくれたほうが嬉しい。

417:デフォルトの名無しさん
08/03/19 19:02:26
>>416
ヘテロな環境で正規化の方法が違った場合、
USBサムドライブで困るよね。

418:デフォルトの名無しさん
08/03/19 20:53:24
>>414
Technical Q&A QA1173
Text Encoding in VFS
URLﾘﾝｸ(developer.apple.com)
URLﾘﾝｸ(developer.apple.com)

419:デフォルトの名無しさん
08/03/19 21:16:22
>>418
この文章だと10.2の頃からそうなっているみたいだけどそれは嘘。
Darwinのソースコード＆テストで調べた。

420:デフォルトの名無しさん
08/03/19 23:00:27
>>415
むしろ下手な正規化(大文字と小文字の同一視とか)をされるより
個々のアプリでの扱いに任せてもらった方が混乱は少ないよ

421:デフォルトの名無しさん
08/03/19 23:19:28
小文字と大文字の同一視は、
Mac, Winでそうだから避けられないのかねえ。
カタカナとひらがなはどうなんだとかきりがないねえ。

422:デフォルトの名無しさん
08/03/20 00:29:04
>>420
そうじゃなくて、NFCとかNFDとか、上に出てたでしょ。

423:デフォルトの名無しさん
08/03/20 00:54:10
>>419
まあ「VFS API」というのが実際に何を意味するかですかね。もしかして UNIX の
ファイルアクセス用の API （システムコール）程度の意味なのかも。
かつ HFS+ のことだけを念頭においているのかも。NFS とかは「例外」扱いだし。

実際 UFS や NFS は正規化はしないですね > Mac OS X

424:デフォルトの名無しさん
08/03/20 01:41:14
>>409
MediaWikiでは正規化されたくない文字は文字参照にするしかないね
それでも項目名には使えない

425:デフォルトの名無しさん
08/03/20 01:43:01
>>421
つ[Collation]
ただし事前処理として正規化が前提になってるのでもし互換漢字のソート順を
統合漢字と変えたかったりしたら使えない

426:デフォルトの名無しさん
08/03/20 07:50:55
>>423
HFS+オンリーで「VFSが」というもの…w

427:デフォルトの名無しさん
08/03/20 23:07:19
OS：WindowsXPproSP2
アプリ：DreamWeaverMX

DreamWeaverMXでhtmlファイルを新規作成したとき、<META>タグは以下の記述でした。
<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">

ここではcharsetで文字コードShift_JISを指定していますが、ページをIE6.0以降で見られることを想定した場合に
文字化けをできるだけ減らすためには、charsetの値はどのようにすればいいのでしょうか？

428:デフォルトの名無しさん
08/03/20 23:26:38
そのままでいいよ

429:デフォルトの名無しさん
08/03/20 23:50:02
板違いだからweb制作でも行け

430:デフォルトの名無しさん
08/03/21 12:26:11
>>428-429
了解。ありがとう

431:デフォルトの名無しさん
08/03/23 16:34:58
EUC-JP と宣言しながら CP51932 なウェブページがかなりあるのに
CP51932 相当の IANA 名を定義するような動きはなかったんですかね。
Shift_JIS と Windows-31J の区別はあるんだし。

432:デフォルトの名無しさん
08/03/24 00:50:39
CP51932だってどうしてわかるの

433:デフォルトの名無しさん
08/03/24 08:29:22
>>431
どれぐらい多いの？
日本語で書かれているウェブページのうち、何%がEUC-JPと宣言されてい
て、そのうち何%が実際はCP51932なの？

434:デフォルトの名無しさん
08/03/24 09:39:56
windows-31jって、今からでもwindows-932にならんかね。aliasでもいいんだけど。
他のwindows-コードページの番号ってなってるコードページと一貫性がない。

435:デフォルトの名無しさん
08/03/24 11:06:44
0x81～0x9Fの文字がある=Shift-JIS
0xFD～0xEFの文字がある=EUC
って解釈でいい？

436:デフォルトの名無しさん
08/03/24 14:55:39
まさか

437:デフォルトの名無しさん
08/03/24 19:59:20
そんな楽で良いなら

438:デフォルトの名無しさん
08/03/24 20:04:29
世の中に一体いくつの文字コードがあることか

439:デフォルトの名無しさん
08/03/24 20:06:57
UNICODEの存在意義がなくなる

440:デフォルトの名無しさん
08/03/25 00:08:24
>>434
Microsoftがietf-charsetsに提案してたようだが例によって途中からｇｄｇｄ
URLﾘﾝｸ(mail.apps.ietf.org)
こんなだからみんな面倒な登録手続きなんか無視して
好き勝手にcharset使い出してカオスになるんだろうな。

そういやISO-2022-JP-2004の登録手続きはどうなりましたか安岡センセイ
URLﾘﾝｸ(www.jstage.jst.go.jp)
こんなもの書いてる暇があったらShift_JIS-2004登録してください
規格通りに使いたくても使えないじゃないですか

441:デフォルトの名無しさん
08/03/25 00:09:56
もう全部x-つけといたらいいよ。

次ページ