文字コード総合スレ part3

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 05/09 17:12 / Filesize : 157 KB / Number-of Response : 671
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

文字コード総合スレ part3

1 名前：デフォルトの名無しさん [2007/05/27(日) 16:19:36 ]: プログラムにおける各種文字コードの処理について語りましょう♪

■前スレ
文字コード総合スレ part2
pc11.2ch.net/test/read.cgi/tech/1143375639/

■参考サイト
Unicode Home Page
www.unicode.org/
Java Character Encodings
www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
212 名前：デフォルトの名無しさん mailto:sage [2007/11/24(土) 02:48:07 ]: なんかさ、gccのワイドリテラルの扱いってへんてこな感じね。
gcc3.4よか前だと単に1Byteを4Byteに展開するだけで何の文字コードでもなく、
3.4以上だとUTF-32LEになってるかのような動き。
さらにvc(UTF-16LE)とのクロスでの開発を考えると頭が痛くなるなあ・・
Win/Linuxのクロスでやってる人って内部コードってなににしてる？
213 名前：デフォルトの名無しさん mailto:sage [2007/11/24(土) 02:52:40 ]: >>212
ワイド文字をリテラルでは使わない。
UTF-8から変換。
214 名前：デフォルトの名無しさん mailto:sage [2007/11/24(土) 03:07:35 ]: ま、そだよね。基本的にはリテラルに日本語入れなきゃ円満なんだよね。
3.4以降はexec-charsetでどうとでもできそうだけど、古いのは・・
ソースをUTF-8にすればなんとか日本語入れてもコンパイルはできるか。
あぁ、でもvc7とかはUTF-8のソース確か受け付けなかったような。
ソースくらいは変換するべきか。面倒だな・・いろいろ。
215 名前：デフォルトの名無しさん mailto:sage [2007/11/24(土) 04:02:12 ]: 全部\uxxxxで書いちゃえ。
216 名前：デフォルトの名無しさん mailto:sage [2007/11/24(土) 04:22:36 ]: うほ、なげやり
でもそれすらgccいけるけどvcは\u使えないとか罠があったり。。
いろいろ実験して、バッドノウハウだけ増えたな・・
vc,gccともソースがUTF-16系は不可、vcはシグニチャなしUTF-8ソース不可、
逆にgccはシグニチャありUTF-8ソース不可・・
217 名前：デフォルトの名無しさん mailto:sage [2007/11/24(土) 04:45:06 ]: いや、やっぱvcはUTF-8はBOMありなしどっちもだめだなぁ。ソースによる
みたいだ。最低だなsjisしか受け付けないのか・・。vc8なら平気かもしれないけど
vc ソースsjis 内部UTF-16LE(コンパイル時L変換)
gcc3.3以下ソースsjis(リテラルに"表"とかだめ) 内部UTF-8(実行時iconv変換)
gcc3.4以上ソースsjis 内部UTF-8(input-charset=cp932でgccでコンパイル時変換)
こんなしか選択肢がないような。あぁ、CVSで変換するとかならソースはもっと
自由度あるか。だりーな、Unicode対応・・。もうsjis/eucでいい気がしてきた。
218 名前：デフォルトの名無しさん mailto:sage [2007/11/24(土) 15:53:48 ]: vcがutf-8ダメだってのは、何がだめだっての？
219 名前：デフォルトの名無しさん mailto:sage [2007/11/24(土) 17:14:21 ]: vc7で、UTF-8のソースだと
#define XX "あ"
とかあるとだめだけど
#define XX "ああ"
だと平気。たぶんsjisとして処理してるから日本語リテラルが奇数バイト
だとだめみたいな感じ。
220 名前：デフォルトの名無しさん mailto:sage [2007/11/24(土) 23:51:33 ]: vc8使え。終了
221 名前：デフォルトの名無しさん mailto:sage [2007/11/25(日) 10:34:26 ]: 00h～1Fh　制御文字
20h～7Fh　各国共通（1バイト文字）
80h～FFh　各国自由（1／2バイト文字）

16ビットPCを出すときに思い切って半角カナを廃止して
80h以降は日本では2バイト文字専用にすれば良かった
つーか70年代末期の最初のPCを出すときに80h以降は
予約領域かPCG領域にすれば良かったんだよな
222 名前：デフォルトの名無しさん mailto:sage [2007/11/25(日) 10:36:33 ]: あとからならどうとでも言える

カタカナだけでもいいから1バイトで処理したいという要求がどれだけ当時は切実だったことか
223 名前：デフォルトの名無しさん mailto:sage [2007/11/28(水) 12:10:33 ]: 80年代前半は漢字が表示できないマシンがごろごろしてたし
1987年ごろのパソ通でも、漢字を使うと表示できないマシンが
あるから、カナ以外禁止というところもあったね。
224 名前：デフォルトの名無しさん mailto:sage [2007/11/28(水) 14:01:29 ]: テキストVRAMで漢字もOK、なPC9801も初期はJIS第2水準はオプションだったしなあ
225 名前：デフォルトの名無しさん mailto:sage [2007/11/28(水) 18:40:35 ]: >>224
初代は第1水準もオプション
226 名前：デフォルトの名無しさん mailto:sage [2007/11/28(水) 18:44:17 ]: テキストVRAMが歯抜けだったからね。＜無印PC-9801
オプションの漢字ROMボードを入れるとその隙間を埋めるRAMもついてきたってわけ。
227 名前：デフォルトの名無しさん mailto:sage [2007/11/29(木) 21:02:51 ]: おまえらいくつだよ・・おっさんばっかだな
まあ若い人は文字コードになんか興味ないか
228 名前：デフォルトの名無しさん mailto:sage [2007/11/29(木) 21:29:00 ]: 28歳はおっさんですかそうですよね。
229 名前：デフォルトの名無しさん mailto:sage [2007/11/29(木) 22:02:33 ]: 外見によっては22でもおっさん。
230 名前：デフォルトの名無しさん mailto:sage [2007/11/29(木) 22:22:00 ]: プログラマーは25才が卒業式です
231 名前：226 mailto:sage [2007/11/30(金) 00:24:07 ]: >>227
失礼な。せめておばさんと呼べ。
232 名前：デフォルトの名無しさん mailto:sage [2007/11/30(金) 07:21:18 ]: 時代背景を知らないと

テキストVRAMって文字サイズとか位置とか固定になっちゃうじゃんｗｗｗ
超バカスｗｗｗ
なんでグラフィックVRAMに全部書かないのｗｗｗ

とか言い出す奴がいそうだな。
8ビットマシンはグラフィックVRAMに漢字表示できるものもあったわけだが
233 名前：デフォルトの名無しさん mailto:sage [2007/11/30(金) 08:53:49 ]: 武勇伝はチラシの裏でどうぞ
219はどうなった？
234 名前：デフォルトの名無しさん mailto:sage [2007/11/30(金) 19:30:45 ]: 単にバイト列としてコンパイルしたいだけなら
#pragma setlocale("C") を入れときゃいいだけでは？
235 名前：デフォルトの名無しさん mailto:sage [2007/12/01(土) 09:01:43 ]: POSITION 160,100:PATTERN -16,KANJI$(4746)
236 名前：デフォルトの名無しさん mailto:sage [2007/12/01(土) 16:08:27 ]: KANJI$テラナツカシス
237 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 07:14:19 ]: Unicodeはもうだめだな
サロゲートペア，異体字，半角カナ．．．問題ありすぎ
世界中の文字使えるったってほとんど意味無いしょ
第３水準で変な記号いっぱい追加されたけどそれも要らん
JISが大手PC・携帯メーカーに呼びかけて
MS，アップル，ドコモ，au，ソフトバンク，NEC，富士通，IBM
2バイト文字の最終統一規格を作るしかないんじゃないの？
8080H～FFFFHの16384字あれば十分
238 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 10:41:18 ]: ＞JISが大手PC・携帯メーカーに呼びかけて
逆だ。JISは大手に踊らされている御用団体だからね。
つーか、それができるのならJIS83辺りで統一できているはず。
# 実態は……言うまでもないよな。

＞8080H～FFFFHの16384字あれば十分
計算できる?
239 名前：デフォルトの名無しさん [2007/12/02(日) 11:18:03 ]: CJK互換漢字に4字追加されるみたい。
240 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 11:25:30 ]: >>237
もうおなかいっぱい。
これ以上文字コードを増やさないでくれ。
241 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 11:45:05 ]: しかも>>237のレベルでは…
242 名前：デフォルトの名無しさん [2007/12/02(日) 18:39:01 ]: UTF-8で統一されるのが楽かなあ
>>237
2バイト固定長はもう無理でしょう。というか固定長は結合文字の
存在もあるしコーディング上のメリットがないんだよなあ。
結合文字を考慮した文字検索アルゴリズムとかもうどうしていいんだか・・
243 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 19:06:21 ]: TronコードでOK
244 名前：デフォルトの名無しさん mailto:sage [2007/12/02(日) 20:31:22 ]: >>243
TRONコードは、単に、すでにある文字集合をぶち込む枠組であって、
文字集合の整備は漢字の収集とかやったけど、処理の上位層について
TRON方面は概念を発表しただけで具体的なものは何も出てきて
いないし、現在の問題を何ら解決できるものではない。現状から見て、
たいした期待はできない。
245 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 01:24:14 ]: グリフ単位での文字検索は諦めて、コードポイント単位で
やるしかないんじゃないの。当面は。
246 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 22:10:17 ]: 結合文字はそのコードポイントが別だから検索がめんどいんじゃないのか・・
247 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 22:22:07 ]: このへんを実装すれば多分おｋ
www.unicode.org/reports/tr10/
www.unicode.org/reports/tr15/
248 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 23:03:38 ]: UTF-8な文字「X」が文字コード AB CD EF で定義されているとして、
別の文字「Y」がこれらをシャッフルした文字コード（ AB EF CD など）で
定義されている、という組み合わせを探しています。
効率的な調べ方とかあるかしら？
249 名前：デフォルトの名無しさん mailto:sage [2007/12/03(月) 23:14:28 ]: たかだかx6だからベタでいいだろ。
250 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 01:18:41 ]: >>249
char a[] = { 0xE3, 0x82, 0xA2, 0x00 };
char b[] = { 0xE3, 0xA2, 0x82, 0x00 };
ってしたときに、aは「ア」だけどbに割り当てられた文字はないでしょう？
そういうのをプログラム的に省きたかったんだ。無理っぽいなあ
251 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 01:25:35 ]: >>250
んなこと悩んでいる間にベタで書けば5分掛からないだろ。わけわからん。
それともなんかのプログラムの動作中ってこと？
252 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 07:34:33 ]: これって割り当てられてるってこと？

ttp://www.google.co.jp/search?hl=ja&q=%E3%82%A2
アの検索結果約 73,600,000 件中 1 - 10 件目 (0.05 秒)

ttp://www.google.co.jp/search?hl=ja&q=%E3%A2%82
㢂の検索結果約 2,740 件中 1 - 10 件目 (0.24 秒)
253 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 09:56:17 ]: 日本語の文字には無いけど、中国の文字にあるだろ
254 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 09:56:49 ]: 0xE3, 0xA2, 0x82 だから、文字コード 3882 だよ。
255 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 10:56:35 ]: U+3882 はちゃんと ExtA に割りあてられてるな。
Windows なら Vista にするか対応フォントを入れれば見えるはず。
256 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 11:36:45 ]: 関数的に書くなら、
端から生成して、端からx6の組み合わせで生成して、
端からUTF-8になってないバイト列を落とすフィルタを通す、
という感じで書くかな。
257 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:05:37 ]: >>251
AB CD EF は16進数の10～15ではなくて、6種類の変数A～Fという意味。

文字列処理関数のテストケースを書いてて、248 みたいな組み合わせが数通り欲しかったのさ。
文字コード一覧表を目視して解決しますた。あんがと。

>>255
ExtAってなんかの制御コード？

>>256
日本語フォントが用意されているかを調べる、というコードが書けない俺orz
258 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:28:23 ]: 「日本語フォント」なんて関係ないだろ。
「文字集合」で考えろ。
259 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:48:05 ]: 「UTF-8的にあり得る(3バイトの)バイト列」じゃなくて、
「UnicodeからJIS X 0208(あるいはCP932)にマップ可能なコードポイント」を抽出したいのか？
それはテーブル引くしかないような気がする。
260 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:53:57 ]: ExtA = CJK Ideograph Extension A
U+3400～U+4DB5(Unicode3,4), U+4DBF(Unicode5)
いわゆる「機種依存文字」な漢字でUnicode2に入ってなかった奴が入った所と思った。確か
261 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 13:03:01 ]: JIS X 0208あるいは指定した文字集合だけ考えればいいなら、

JIS X 0208の全ての区点コードをリストアップ ('あ'を例に)
↓
UTF-8の16進数表現に変換 (0xE3 0x81 0x82)
↓
バイト列をソートしたのものを一桁目に(CSV) (0x81 0x82 0xE3, 0xe3 0x81 0x82)
↓
一桁目でjoin (0x81 0x82 0xE3でjoin)
↓
join後、複数項目のあるものをリストアップ。
262 名前：デフォルトの名無しさん mailto:sage [2007/12/04(火) 17:55:57 ]: 文字集合と符号化方式の概念が理解できてなかった。まさに>>259だ。

>>258、>>260-261
もthx!
263 名前：デフォルトの名無しさん [2007/12/04(火) 23:52:17 ]: >>233
ｽﾏﾝ、結局Linuxどうしてんのかレスなかったから見てなかった・・
Stringを自前で作って、各文字コード処理できるようにする方向でやってる
264 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 01:28:41 ]: std::stringは結局役に立たんからね
265 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 19:00:37 ]: EUC-JPって第2面をA121～FE7Eに配置できないのかな
第1バイトがA0～FFなら2バイト文字だと認識するようにすれば
いいと思うんだけど
266 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 20:32:41 ]: >>260
U+4DBFに文字なんか割り当てられてたか?
ブロックの範囲と文字が収録されている範囲をごっちゃにしてる
通信用語の基礎知識あたりの鵜呑みじゃあるまいな
267 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 20:33:43 ]: >>265
円記号問題どころの騒ぎじゃなくなります
メインフレーム各社の独自コードにはそういう変態割り当てをしたものが
けっこうあるけど
268 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 20:52:49 ]: >>266
スマン
あたり
orz

3.0 と現行のを調べた。
レンジは 3.0 だと U+4DFF まで、5.0 だと U+4DBF まで、
中身が入ってるのは U+4DB5 まで、で合ってます？

間に入ったのは Yijing Hexagram Symbols って八卦かよw
269 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 22:09:16 ]: >>268
うむ
ちなみにU+9FA5の後ろには本当に文字が断続的に追加されてるな
270 名前：デフォルトの名無しさん mailto:sage [2007/12/06(木) 22:25:43 ]: examples.oreilly.de/english_examples/nutshell/cjkv/adobe/
aj16.tar.Zが更新されてる
pri108に対応していくつかのCIDにUnicodeが追加された模様
271 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 08:24:11 ]: 第１～第４＋非漢字で11233字
補助漢字で6067字
補助漢字と第３，第４でかぶるのが約2900字
11233＋6067－2900＝14400字
8080H～FFFFH＝16384字
272 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 08:42:20 ]: >>267
それはSHift-JIS固有の問題。
273 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 09:30:20 ]: 何そのとんちんかんなレスはw
274 名前：272 mailto:sage [2007/12/07(金) 09:42:22 ]: あ、ダメかｗ
言いたいのは1～2バイトに収まるようにシンプルにしてほしいってこった
275 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 10:57:54 ]: UCS-2の過ちを繰り返すのかよw
276 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 12:51:45 ]: 繁体字とか簡体字とかハングルとか要らんだろｗ
277 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:41:14 ]: ハングルという偉大な文字は必要ニダ！
278 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:47:08 ]: 自分に必要なありとあらゆるソフトウェアを、その独自規格に準拠したもの
のみでまかなえるなら好きにすればー?

# 文字コードが、文字集合を情報「交換」のために符号化したものである
# ということを理解してないやつがこんなにも多いのは何故だ?
279 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:48:26 ]: 漢字なんかいらんだろ（米国人(32)）
280 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 13:59:54 ]: その昔、Win3.1の時代に漢字対応の必要をアメリカ人に説明しようとしたら、
通訳が「Chinese Characters」って訳しやがって説明に苦労したもんだぜ。
281 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 15:02:01 ]: もうUTF-8で全部解決だろ
282 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 16:58:25 ]: Unicode の符号化という点ならそうだけど
Unicode に入れられそうもない変体仮名とかを
符号化する場合を考えると Unicode だけに
頼れないし
283 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 18:32:19 ]: plain textは諦めてくださいと遠くからUnicode神の声が聴えてきました。

ところで変体仮名のみの文字集合は既に定義されているのですか?
あるとすれば、どういう包接基準を採用しているのですか?
284 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 20:36:47 ]: るりーる
285 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:04:53 ]: >>272
>>265みたいなことをしたらShift_JISと同じ(もっと悪い)問題が起きるって
言ってるんだが。
>>282
入らないのは日本が入れろと言わないから。
異体字だって結局米国企業のAdobeが登録するまで日本は
なーーーんにもしなかった。
286 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:05:18 ]: >>283
とりあえずTRONにはあるようだ
ja.wikipedia.org/wiki/%E4%BD%8F%E6%B0%91%E5%9F%BA%E6%9C%AC%E5%8F%B0%E5%B8%B3%E5%8F%8E%E9%8C%B2%E5%A4%89%E4%BD%93%E4%BB%AE%E5%90%8D
287 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:06:31 ]: >>283
TRONコードに住民基本台帳収録変体仮名とその他の変体仮名が入ってる。
ということは住基統一コードにも変体仮名が入ってるのか
288 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:12:47 ]: こういう文字をUnicodeに入れてくれって言う場合の
日本側の窓口はどこなんだろ。経産省？

密室でやらずに一回ぐらいパブリックコメントの募集してくれよ。
289 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:14:56 ]: こんだけオープンにやってて密室もへったくれもあるか
std.dkuug.dk/jtc1/sc2/wg2/
IVDの前回の公開レビューだって
www.unicode.org/ivd/pri/pri98/index.html
終了一週間くらい前になって気づいた俺が触れて回るまで
日本で取り上げているサイトが一切なかったという関心のなさっぷり
それで密室とかなんとかいっても説得力のかけらもない
290 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 21:37:49 ]: そこへ持ってゆく文字の選定をしている日本側の窓口の話をしてるんだが。
291 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 22:11:20 ]: とりあえず、英語が読めない人は、翻訳者を雇わないと、
投稿手順すら分からないのではないかと。
292 名前：デフォルトの名無しさん mailto:sage [2007/12/07(金) 22:17:00 ]: >>287
wikipediaにあるわw
ja.wikipedia.org/wiki/%E4%BD%8F%E6%B0%91%E5%9F%BA%E6%9C%AC%E5%8F%B0%E5%B8%B3%E5%8F%8E%E9%8C%B2%E5%A4%89%E4%BD%93%E4%BB%AE%E5%90%8D

www.chokanji.com/features/ckv4.html
TRONは何でもぶちこみ方式だろうから、
まだ異体字の包接基準はないのかな。
かなり知識がないと無理だね。
293 名前：デフォルトの名無しさん mailto:sage [2007/12/09(日) 10:03:04 ]: TRONはコード表はフリーなんだけど
その運用に事実上必要な異体字のデータベースで金稼いでるんだよね
超漢字検索で変体仮名を検索すると関連字として対応する漢字やひらがなが
出てくるし漢字から変体仮名を検索することもできる
294 名前：デフォルトの名無しさん mailto:sage [2007/12/09(日) 12:07:54 ]: いっそ日本代表は無視してUTCのfull memberになったほうが話が早いかもしれない
英語力と金が必要だけど
295 名前：デフォルトの名無しさん mailto:sage [2008/01/02(水) 16:32:43 ]: あけましておめでとうございます
結局JIS X 0221の改訂版は2007年中に出ませんでした。
JIS X 0213:2004で2004となるべきところが2003となるような誤植が
今回も発生するのでしょうか。
296 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 01:13:42 ]: >>295

えっまぢ！？
そういや、12月20日前後の官報がデッドラインだと聞いてたんだけど、
チェックするの忘れてたよ。。。

あーあ、また関係者は地獄を見ることになるのかな・・・
297 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 01:33:09 ]: そうこうしている間にもamendmentは増えてゆく～
298 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 01:43:49 ]: >>296
ietf-charsetsで外人が「Hey, 内容変更が何もないのにどうして-2003が-2004
になったんだい? (大意)」みたいなことを安岡センセイに聞いてたのを思い出した。
そりゃ知らないやつは不思議に思うよなあ
299 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 06:06:50 ]: ちゃんと出てるじゃん
制定年月日2007/12/20になってるから本当にギリギリだったみたいね
300 名前：デフォルトの名無しさん mailto:sage [2008/01/05(土) 07:17:14 ]: JISCで閲覧できる規格票が
CJKU_SR.txtをわざわざ50MBのPDFにしてたりしてワロタ
301 名前：デフォルトの名無しさん mailto:sage [2008/01/12(土) 07:17:23 ]: >>300
中の人が内規かなにかに従った結果なんだろうね
302 名前：デフォルトの名無しさん mailto:sage [2008/01/12(土) 12:12:01 ]: 見た目までコントロールしたいからでしょ。
フォント環境の違いで誤解が生じないように。
303 名前：デフォルトの名無しさん mailto:sage [2008/01/12(土) 12:27:42 ]: 仮にそうだとしてもフォントを埋め込めば済む話ではないの？
304 名前：デフォルトの名無しさん mailto:sage [2008/01/12(土) 12:28:15 ]: ただ数字が並んでるだけなのにどう誤解するというのだ
そもそも正文がテキストファイルなんだが
305 名前：デフォルトの名無しさん mailto:sage [2008/01/16(水) 19:29:38 ]: 質問です
ttp://www.ac.cyberhome.ne.jp/~mattn/cgi-bin/blosxom.cgi/etc/20071221111511.htm
> 1文字毎をメモリに持つのではなく全てバイト列で処理すると言った方法の為、
> 他のアプリケーションとは違うi18n化の方法であり特殊ではあるが

普通のi18n対応アプリケーションは文字ごとに(codepointごとに?)
メモリに確保して、文字配列として処理されることが多い、けれども
バイト列で処理する…バイト列を喰わせても大丈夫な関数を用意して文字を操作する

ttp://itpro.nikkeibp.co.jp/article/COLUMN/20071130/288467/

*Javaとかのアプローチはcodepointごとに文字を操作。(分解合成がめんどい)
*Vimのアプローチはバイト列を独自関数で文字として操作。(patch workの集大成)

oniguruma とか sakura editor とか emcode.pm とか身近にあるのは
みんなpatch workの集大成なのですか？
306 名前：デフォルトの名無しさん mailto:sage [2008/01/16(水) 19:40:01 ]: > 他のアプリケーションとは違うi18n化の方法であり特殊ではあるが

ん、じぶんの理解だとここの部分の意図が汲めなくなるか…

内部で Unicode の codepoint に従って処理しているソフトは
あまりないけど…内部でなんらかのエンコードに変換して保持
してるソフトは多くて…でもVimはバイナリのまま保持するですよ…?

というような意味とか? ああなんかよくわからなくなってきた…orz
307 名前：デフォルトの名無しさん mailto:sage [2008/01/16(水) 21:53:51 ]: マルチバイト or ワイド文字と分解合成とは直交する問題だろ。
何が言いたいのだろう。
308 名前：デフォルトの名無しさん mailto:sage [2008/01/17(木) 13:22:34 ]: まともなi18nの仕事で「patch workの集大成」でないものなんてないぞ。
全ての文字、言語に通じている人間なんていないのだから。
309 名前：デフォルトの名無しさん mailto:sage [2008/01/17(木) 14:09:39 ]: 仕様が実際patch workだからな
というか言語というものがそもそも...
310 名前：デフォルトの名無しさん mailto:sage [2008/01/18(金) 14:46:18 ]: >>307
anond.hatelabo.jp/20070902073806
>喫煙と、麻薬や飲酒は直交する問題だと思いますが…
直行する = 相関性のみられない事象のこと = 分けて論じるべき議題

うむ。まずじぶんは小学生あたりからやり直すべきか。
てか日本語って難しいな orz

>>308-309
㌧くす。言語は日々の積み重ね。ちぃおぼえた
311 名前：デフォルトの名無しさん mailto:sage [2008/01/18(金) 15:00:13 ]: homepage.mac.com/icbp90pink1/iblog2/B1108781646/C1540234484/E20061210205530/index.html
>「おそらく漢字ほど難しくないからそれほどでもないと思うけど、例えば
>"than" を "then" と書く若者が増えてるよ。」っと言っていました。

>「それって全く意味が違うじゃん。」っと言ったら、「orthogonalだね。」と
>言われました。「orthogonalって何？」と聞いたら、90℃（直角）との事。

>「何で180℃じゃないの？」っと聞いたら、「反対の意味って訳じゃないけど
>（左右みたいな）、ぜんぜん違う意味だから、orthogonalって言うんだよ。」
>っと教えてくれました。面白い表現ですね！

『欧米かっ！』と言わざるを得ない…。
グラフをイメージして相関性云々とか考え出すと,
なんで90度でねじれの関係になるんだ, とかわけかわからんかった orz
312 名前：デフォルトの名無しさん mailto:sage [2008/01/18(金) 15:52:55 ]: >>310
> >>307
> anond.hatelabo.jp/20070902073806
> >喫煙と、麻薬や飲酒は直交する問題だと思いますが…
> 直行する = 相関性のみられない事象のこと = 分けて論じるべき議題

誤変換かもしれないが、直交と直行を混同するようでは先がおもいやられる...

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef