文字コード総合スレ part3

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 05/09 17:12 / Filesize : 157 KB / Number-of Response : 671
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

文字コード総合スレ part3

1 名前：デフォルトの名無しさん [2007/05/27(日) 16:19:36 ]: プログラムにおける各種文字コードの処理について語りましょう♪

■前スレ
文字コード総合スレ part2
pc11.2ch.net/test/read.cgi/tech/1143375639/

■参考サイト
Unicode Home Page
www.unicode.org/
Java Character Encodings
www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
237 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 07:14:19 ]: Unicodeはもうだめだな
サロゲートペア，異体字，半角カナ．．．問題ありすぎ
世界中の文字使えるったってほとんど意味無いしょ
第３水準で変な記号いっぱい追加されたけどそれも要らん
JISが大手PC・携帯メーカーに呼びかけて
MS，アップル，ドコモ，au，ソフトバンク，NEC，富士通，IBM
2バイト文字の最終統一規格を作るしかないんじゃないの？
8080H～FFFFHの16384字あれば十分
238 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 10:41:18 ]: ＞JISが大手PC・携帯メーカーに呼びかけて
逆だ。JISは大手に踊らされている御用団体だからね。
つーか、それができるのならJIS83辺りで統一できているはず。
# 実態は……言うまでもないよな。

＞8080H～FFFFHの16384字あれば十分
計算できる?
239 名前：デフォルトの名無しさん [2007/12/02(日) 11:18:03 ]: CJK互換漢字に4字追加されるみたい。
240 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 11:25:30 ]: >>237
もうおなかいっぱい。
これ以上文字コードを増やさないでくれ。
241 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 11:45:05 ]: しかも>>237のレベルでは…
242 名前：デフォルトの名無しさん [2007/12/02(日) 18:39:01 ]: UTF-8で統一されるのが楽かなあ
>>237
2バイト固定長はもう無理でしょう。というか固定長は結合文字の
存在もあるしコーディング上のメリットがないんだよなあ。
結合文字を考慮した文字検索アルゴリズムとかもうどうしていいんだか・・
243 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 19:06:21 ]: TronコードでOK
244 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 20:31:22 ]: >>243
TRONコードは、単に、すでにある文字集合をぶち込む枠組であって、
文字集合の整備は漢字の収集とかやったけど、処理の上位層について
TRON方面は概念を発表しただけで具体的なものは何も出てきて
いないし、現在の問題を何ら解決できるものではない。現状から見て、
たいした期待はできない。
245 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 01:24:14 ]: グリフ単位での文字検索は諦めて、コードポイント単位で
やるしかないんじゃないの。当面は。
246 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 22:10:17 ]: 結合文字はそのコードポイントが別だから検索がめんどいんじゃないのか・・
247 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 22:22:07 ]: このへんを実装すれば多分おｋ
www.unicode.org/reports/tr10/
www.unicode.org/reports/tr15/
248 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 23:03:38 ]: UTF-8な文字「X」が文字コード AB CD EF で定義されているとして、
別の文字「Y」がこれらをシャッフルした文字コード（ AB EF CD など）で
定義されている、という組み合わせを探しています。
効率的な調べ方とかあるかしら？
249 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 23:14:28 ]: たかだかx6だからベタでいいだろ。
250 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 01:18:41 ]: >>249
char a[] = { 0xE3, 0x82, 0xA2, 0x00 };
char b[] = { 0xE3, 0xA2, 0x82, 0x00 };
ってしたときに、aは「ア」だけどbに割り当てられた文字はないでしょう？
そういうのをプログラム的に省きたかったんだ。無理っぽいなあ
251 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 01:25:35 ]: >>250
んなこと悩んでいる間にベタで書けば5分掛からないだろ。わけわからん。
それともなんかのプログラムの動作中ってこと？
252 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 07:34:33 ]: これって割り当てられてるってこと？

ttp://www.google.co.jp/search?hl=ja&q=%E3%82%A2
アの検索結果約 73,600,000 件中 1 - 10 件目 (0.05 秒)

ttp://www.google.co.jp/search?hl=ja&q=%E3%A2%82
㢂の検索結果約 2,740 件中 1 - 10 件目 (0.24 秒)
253 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 09:56:17 ]: 日本語の文字には無いけど、中国の文字にあるだろ
254 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 09:56:49 ]: 0xE3, 0xA2, 0x82 だから、文字コード 3882 だよ。
255 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 10:56:35 ]: U+3882 はちゃんと ExtA に割りあてられてるな。
Windows なら Vista にするか対応フォントを入れれば見えるはず。
256 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 11:36:45 ]: 関数的に書くなら、
端から生成して、端からx6の組み合わせで生成して、
端からUTF-8になってないバイト列を落とすフィルタを通す、
という感じで書くかな。
257 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:05:37 ]: >>251
AB CD EF は16進数の10～15ではなくて、6種類の変数A～Fという意味。

文字列処理関数のテストケースを書いてて、248 みたいな組み合わせが数通り欲しかったのさ。
文字コード一覧表を目視して解決しますた。あんがと。

>>255
ExtAってなんかの制御コード？

>>256
日本語フォントが用意されているかを調べる、というコードが書けない俺orz
258 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:28:23 ]: 「日本語フォント」なんて関係ないだろ。
「文字集合」で考えろ。
259 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:48:05 ]: 「UTF-8的にあり得る(3バイトの)バイト列」じゃなくて、
「UnicodeからJIS X 0208(あるいはCP932)にマップ可能なコードポイント」を抽出したいのか？
それはテーブル引くしかないような気がする。
260 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:53:57 ]: ExtA = CJK Ideograph Extension A
U+3400～U+4DB5(Unicode3,4), U+4DBF(Unicode5)
いわゆる「機種依存文字」な漢字でUnicode2に入ってなかった奴が入った所と思った。確か
261 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 13:03:01 ]: JIS X 0208あるいは指定した文字集合だけ考えればいいなら、

JIS X 0208の全ての区点コードをリストアップ ('あ'を例に)
↓
UTF-8の16進数表現に変換 (0xE3 0x81 0x82)
↓
バイト列をソートしたのものを一桁目に(CSV) (0x81 0x82 0xE3, 0xe3 0x81 0x82)
↓
一桁目でjoin (0x81 0x82 0xE3でjoin)
↓
join後、複数項目のあるものをリストアップ。
262 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 17:55:57 ]: 文字集合と符号化方式の概念が理解できてなかった。まさに>>259だ。

>>258、>>260-261
もthx!
263 名前：デフォルトの名無しさん [2007/12/04(火) 23:52:17 ]: >>233
ｽﾏﾝ、結局Linuxどうしてんのかレスなかったから見てなかった・・
Stringを自前で作って、各文字コード処理できるようにする方向でやってる
264 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 01:28:41 ]: std::stringは結局役に立たんからね
265 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 19:00:37 ]: EUC-JPって第2面をA121～FE7Eに配置できないのかな
第1バイトがA0～FFなら2バイト文字だと認識するようにすれば
いいと思うんだけど
266 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 20:32:41 ]: >>260
U+4DBFに文字なんか割り当てられてたか?
ブロックの範囲と文字が収録されている範囲をごっちゃにしてる
通信用語の基礎知識あたりの鵜呑みじゃあるまいな
267 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 20:33:43 ]: >>265
円記号問題どころの騒ぎじゃなくなります
メインフレーム各社の独自コードにはそういう変態割り当てをしたものが
けっこうあるけど
268 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 20:52:49 ]: >>266
スマン
あたり
orz

3.0 と現行のを調べた。
レンジは 3.0 だと U+4DFF まで、5.0 だと U+4DBF まで、
中身が入ってるのは U+4DB5 まで、で合ってます？

間に入ったのは Yijing Hexagram Symbols って八卦かよw
269 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 22:09:16 ]: >>268
うむ
ちなみにU+9FA5の後ろには本当に文字が断続的に追加されてるな
270 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 22:25:43 ]: examples.oreilly.de/english_examples/nutshell/cjkv/adobe/
aj16.tar.Zが更新されてる
pri108に対応していくつかのCIDにUnicodeが追加された模様
271 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 08:24:11 ]: 第１～第４＋非漢字で11233字
補助漢字で6067字
補助漢字と第３，第４でかぶるのが約2900字
11233＋6067－2900＝14400字
8080H～FFFFH＝16384字
272 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 08:42:20 ]: >>267
それはSHift-JIS固有の問題。
273 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 09:30:20 ]: 何そのとんちんかんなレスはw
274 名前：272 mailto:sage [2007/12/07(金) 09:42:22 ]: あ、ダメかｗ
言いたいのは1～2バイトに収まるようにシンプルにしてほしいってこった
275 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 10:57:54 ]: UCS-2の過ちを繰り返すのかよw
276 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 12:51:45 ]: 繁体字とか簡体字とかハングルとか要らんだろｗ
277 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:41:14 ]: ハングルという偉大な文字は必要ニダ！
278 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:47:08 ]: 自分に必要なありとあらゆるソフトウェアを、その独自規格に準拠したもの
のみでまかなえるなら好きにすればー?

# 文字コードが、文字集合を情報「交換」のために符号化したものである
# ということを理解してないやつがこんなにも多いのは何故だ?
279 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:48:26 ]: 漢字なんかいらんだろ（米国人(32)）
280 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:59:54 ]: その昔、Win3.1の時代に漢字対応の必要をアメリカ人に説明しようとしたら、
通訳が「Chinese Characters」って訳しやがって説明に苦労したもんだぜ。
281 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 15:02:01 ]: もうUTF-8で全部解決だろ
282 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 16:58:25 ]: Unicode の符号化という点ならそうだけど
Unicode に入れられそうもない変体仮名とかを
符号化する場合を考えると Unicode だけに
頼れないし
283 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 18:32:19 ]: plain textは諦めてくださいと遠くからUnicode神の声が聴えてきました。

ところで変体仮名のみの文字集合は既に定義されているのですか?
あるとすれば、どういう包接基準を採用しているのですか?
284 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 20:36:47 ]: るりーる
285 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:04:53 ]: >>272
>>265みたいなことをしたらShift_JISと同じ(もっと悪い)問題が起きるって
言ってるんだが。
>>282
入らないのは日本が入れろと言わないから。
異体字だって結局米国企業のAdobeが登録するまで日本は
なーーーんにもしなかった。
286 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:05:18 ]: >>283
とりあえずTRONにはあるようだ
ja.wikipedia.org/wiki/%E4%BD%8F%E6%B0%91%E5%9F%BA%E6%9C%AC%E5%8F%B0%E5%B8%B3%E5%8F%8E%E9%8C%B2%E5%A4%89%E4%BD%93%E4%BB%AE%E5%90%8D
287 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:06:31 ]: >>283
TRONコードに住民基本台帳収録変体仮名とその他の変体仮名が入ってる。
ということは住基統一コードにも変体仮名が入ってるのか
288 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:12:47 ]: こういう文字をUnicodeに入れてくれって言う場合の
日本側の窓口はどこなんだろ。経産省？

密室でやらずに一回ぐらいパブリックコメントの募集してくれよ。
289 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:14:56 ]: こんだけオープンにやってて密室もへったくれもあるか
std.dkuug.dk/jtc1/sc2/wg2/
IVDの前回の公開レビューだって
www.unicode.org/ivd/pri/pri98/index.html
終了一週間くらい前になって気づいた俺が触れて回るまで
日本で取り上げているサイトが一切なかったという関心のなさっぷり
それで密室とかなんとかいっても説得力のかけらもない
290 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:37:49 ]: そこへ持ってゆく文字の選定をしている日本側の窓口の話をしてるんだが。
291 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 22:11:20 ]: とりあえず、英語が読めない人は、翻訳者を雇わないと、
投稿手順すら分からないのではないかと。
292 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 22:17:00 ]: >>287
wikipediaにあるわw
ja.wikipedia.org/wiki/%E4%BD%8F%E6%B0%91%E5%9F%BA%E6%9C%AC%E5%8F%B0%E5%B8%B3%E5%8F%8E%E9%8C%B2%E5%A4%89%E4%BD%93%E4%BB%AE%E5%90%8D

www.chokanji.com/features/ckv4.html
TRONは何でもぶちこみ方式だろうから、
まだ異体字の包接基準はないのかな。
かなり知識がないと無理だね。
293 名前：デフォルトの名無しさん mailto:sage [2007/12/09(日) 10:03:04 ]: TRONはコード表はフリーなんだけど
その運用に事実上必要な異体字のデータベースで金稼いでるんだよね
超漢字検索で変体仮名を検索すると関連字として対応する漢字やひらがなが
出てくるし漢字から変体仮名を検索することもできる
294 名前：デフォルトの名無しさん mailto:sage [2007/12/09(日) 12:07:54 ]: いっそ日本代表は無視してUTCのfull memberになったほうが話が早いかもしれない
英語力と金が必要だけど
295 名前：デフォルトの名無しさん mailto:sage [2008/01/02(水) 16:32:43 ]: あけましておめでとうございます
結局JIS X 0221の改訂版は2007年中に出ませんでした。
JIS X 0213:2004で2004となるべきところが2003となるような誤植が
今回も発生するのでしょうか。
296 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 01:13:42 ]: >>295

えっまぢ！？
そういや、12月20日前後の官報がデッドラインだと聞いてたんだけど、
チェックするの忘れてたよ。。。

あーあ、また関係者は地獄を見ることになるのかな・・・
297 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 01:33:09 ]: そうこうしている間にもamendmentは増えてゆく～
298 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 01:43:49 ]: >>296
ietf-charsetsで外人が「Hey, 内容変更が何もないのにどうして-2003が-2004
になったんだい? (大意)」みたいなことを安岡センセイに聞いてたのを思い出した。
そりゃ知らないやつは不思議に思うよなあ
299 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 06:06:50 ]: ちゃんと出てるじゃん
制定年月日2007/12/20になってるから本当にギリギリだったみたいね
300 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 07:17:14 ]: JISCで閲覧できる規格票が
CJKU_SR.txtをわざわざ50MBのPDFにしてたりしてワロタ
301 名前：デフォルトの名無しさん mailto:sage [2008/01/12(土) 07:17:23 ]: >>300
中の人が内規かなにかに従った結果なんだろうね
302 名前：デフォルトの名無しさん mailto:sage [2008/01/12(土) 12:12:01 ]: 見た目までコントロールしたいからでしょ。
フォント環境の違いで誤解が生じないように。
303 名前：デフォルトの名無しさん mailto:sage [2008/01/12(土) 12:27:42 ]: 仮にそうだとしてもフォントを埋め込めば済む話ではないの？
304 名前：デフォルトの名無しさん mailto:sage [2008/01/12(土) 12:28:15 ]: ただ数字が並んでるだけなのにどう誤解するというのだ
そもそも正文がテキストファイルなんだが
305 名前：デフォルトの名無しさん mailto:sage [2008/01/16(水) 19:29:38 ]: 質問です
ttp://www.ac.cyberhome.ne.jp/~mattn/cgi-bin/blosxom.cgi/etc/20071221111511.htm
> 1文字毎をメモリに持つのではなく全てバイト列で処理すると言った方法の為、
> 他のアプリケーションとは違うi18n化の方法であり特殊ではあるが

普通のi18n対応アプリケーションは文字ごとに(codepointごとに?)
メモリに確保して、文字配列として処理されることが多い、けれども
バイト列で処理する…バイト列を喰わせても大丈夫な関数を用意して文字を操作する

ttp://itpro.nikkeibp.co.jp/article/COLUMN/20071130/288467/

*Javaとかのアプローチはcodepointごとに文字を操作。(分解合成がめんどい)
*Vimのアプローチはバイト列を独自関数で文字として操作。(patch workの集大成)

oniguruma とか sakura editor とか emcode.pm とか身近にあるのは
みんなpatch workの集大成なのですか？
306 名前：デフォルトの名無しさん mailto:sage [2008/01/16(水) 19:40:01 ]: > 他のアプリケーションとは違うi18n化の方法であり特殊ではあるが

ん、じぶんの理解だとここの部分の意図が汲めなくなるか…

内部で Unicode の codepoint に従って処理しているソフトは
あまりないけど…内部でなんらかのエンコードに変換して保持
してるソフトは多くて…でもVimはバイナリのまま保持するですよ…?

というような意味とか? ああなんかよくわからなくなってきた…orz
307 名前：デフォルトの名無しさん mailto:sage [2008/01/16(水) 21:53:51 ]: マルチバイト or ワイド文字と分解合成とは直交する問題だろ。
何が言いたいのだろう。
308 名前：デフォルトの名無しさん mailto:sage [2008/01/17(木) 13:22:34 ]: まともなi18nの仕事で「patch workの集大成」でないものなんてないぞ。
全ての文字、言語に通じている人間なんていないのだから。
309 名前：デフォルトの名無しさん mailto:sage [2008/01/17(木) 14:09:39 ]: 仕様が実際patch workだからな
というか言語というものがそもそも...
310 名前：デフォルトの名無しさん mailto:sage [2008/01/18(金) 14:46:18 ]: >>307
anond.hatelabo.jp/20070902073806
>喫煙と、麻薬や飲酒は直交する問題だと思いますが…
直行する = 相関性のみられない事象のこと = 分けて論じるべき議題

うむ。まずじぶんは小学生あたりからやり直すべきか。
てか日本語って難しいな orz

>>308-309
㌧くす。言語は日々の積み重ね。ちぃおぼえた
311 名前：デフォルトの名無しさん mailto:sage [2008/01/18(金) 15:00:13 ]: homepage.mac.com/icbp90pink1/iblog2/B1108781646/C1540234484/E20061210205530/index.html
>「おそらく漢字ほど難しくないからそれほどでもないと思うけど、例えば
>"than" を "then" と書く若者が増えてるよ。」っと言っていました。

>「それって全く意味が違うじゃん。」っと言ったら、「orthogonalだね。」と
>言われました。「orthogonalって何？」と聞いたら、90℃（直角）との事。

>「何で180℃じゃないの？」っと聞いたら、「反対の意味って訳じゃないけど
>（左右みたいな）、ぜんぜん違う意味だから、orthogonalって言うんだよ。」
>っと教えてくれました。面白い表現ですね！

『欧米かっ！』と言わざるを得ない…。
グラフをイメージして相関性云々とか考え出すと,
なんで90度でねじれの関係になるんだ, とかわけかわからんかった orz
312 名前：デフォルトの名無しさん mailto:sage [2008/01/18(金) 15:52:55 ]: >>310
> >>307
> anond.hatelabo.jp/20070902073806
> >喫煙と、麻薬や飲酒は直交する問題だと思いますが…
> 直行する = 相関性のみられない事象のこと = 分けて論じるべき議題

誤変換かもしれないが、直交と直行を混同するようでは先がおもいやられる...
313 名前：デフォルトの名無しさん mailto:sage [2008/01/18(金) 16:25:40 ]: 本来の意味で使ってる可能性も・・・
314 名前：デフォルトの名無しさん mailto:sage [2008/01/18(金) 17:07:36 ]: >>310
文脈から汲めば、分けられないってことだろ
とはいえ>>312みたいな態度が一番気に食わん
315 名前：デフォルトの名無しさん mailto:sage [2008/01/18(金) 17:59:53 ]: 直交ずる～というと2つのベクトルの内積(2直線の射影でもいいや)を考えるでしょ常考。
高校数学程度の概念は常識として知っておいてくださいな。
316 名前：デフォルトの名無しさん mailto:sage [2008/01/19(土) 03:20:48 ]: この文脈でそんな本来の意味の用語を使うわけないでしょ。
それくらい想像力働かせてくださいな。
317 名前：デフォルトの名無しさん mailto:sage [2008/01/19(土) 07:02:46 ]: 直交⇔互いに独立
∴2つのベクトルの内積(2直線の射影でもいいや)=0
318 名前：デフォルトの名無しさん mailto:sage [2008/01/19(土) 07:08:44 ]: 「2つのベクトルの内積(2直線の射影でもいいや)」が0以外の値を持つとき
それらは直交しない

つまり「直交」については最初から一貫して「本来の意味」で使われているw

馬鹿は >>315
319 名前：デフォルトの名無しさん mailto:sage [2008/01/19(土) 12:20:41 ]: 数学総合スレはここですか?
320 名前：デフォルトの名無しさん mailto:sage [2008/01/19(土) 14:12:35 ]: >>319
直帰を許可します
321 名前：デフォルトの名無しさん mailto:sage [2008/01/21(月) 00:06:37 ]: ん？この流れム板のどこかのスレで見た気が。デジャヴ？
322 名前：デフォルトの名無しさん mailto:sage [2008/01/30(水) 01:45:55 ]: SJIS2004とかJISX213系の文字コード表って無いですかね

どうも変換がうまくできない・・・
323 名前：デフォルトの名無しさん mailto:sage [2008/01/30(水) 07:47:52 ]: JISCにあるじゃん
324 名前：デフォルトの名無しさん mailto:sage [2008/01/30(水) 23:27:43 ]: JISCのPDFから手で書き取れと申すか
※無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
とりあえず機械可読な奴がほしかったらここでも見れ
x0213.org/codetable/
325 名前：デフォルトの名無しさん mailto:sage [2008/01/30(水) 23:32:34 ]: ＞※無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
ごめんJISCを甘く見てた……
326 名前：デフォルトの名無しさん mailto:sage [2008/01/30(水) 23:40:52 ]: JISC・・・ひでえな。
327 名前：デフォルトの名無しさん mailto:sage [2008/02/01(金) 21:15:44 ]: www.unicode.org落ちてる?
328 名前：デフォルトの名無しさん [2008/02/05(火) 21:26:41 ]: Joel Spolsky氏のブログ翻訳「ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて」

Servlet Garden ≫ Unicode and Character Sets (Translation)
www.t3.rim.or.jp/~yoko-k-h/java/servlet/2008/01/31/unicode-and-character-sets-translation.html
329 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 23:42:35 ]: Unicode Transformation Format 8 と UCS Transformation Format 8 で混乱するのだけど
それぞれをどう解釈したらいいんだろう？
330 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 23:56:23 ]: 略せばどっちもUTF-8。はい、同じ。
331 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 00:00:19 ]: Unicode.orgがつけた名前
ISO/IECがつけた名前
中身おんなじ
332 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 00:11:42 ]: 互換性あるのはわかったけど、Unicodeのが4バイト、
UCSのが6バイトみたいなこと書かれてたんで5バイト目以降は違うってことかな？
333 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 00:32:16 ]: ISO/IEC 10646はAmd2:2006で、0群17面以降には永久に文字を追加しないことにしたから
UTF-8にしたときには5オクテット以上にはならない。

Uniocde.org的には、単に追加予定なしなだけなので、UTF-8は理屈上最長の
6オクテットまで使っていいけど、でも文字入ってないよ？状態。

だから、結局中身おんなじ
334 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 01:09:46 ]: もともとUnicode的にUTF-16の絡みで10FFFFまでになって、
おれにAmd2:2006で追従したんじゃないっけ。
どちらにしろ、今はどちらも4byteまで。
www.rfc-editor.org/rfc/rfc3629.txt 参考までにRFC
335 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 02:42:04 ]: なるほど。納得できたありがとう。
336 名前：デフォルトの名無しさん [2008/02/06(水) 18:15:44 ]: いつの間にかIVS(漢字のVS)正式に決定してた。
www.unicode.org/ivd/index.html
337 名前：333 mailto:sage [2008/02/07(木) 08:54:13 ]: >>334
そうみたいね
俺古いRFC見てたわ

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef