1 名前:デフォルトの名無しさん [2007/05/27(日) 16:19:36 ] プログラムにおける各種文字コードの処理について語りましょう♪ ■前スレ 文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/ ■参考サイト Unicode Home Page www.unicode.org/ Java Character Encodings www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
313 名前:デフォルトの名無しさん mailto:sage [2008/01/18(金) 16:25:40 ] 本来の意味で使ってる可能性も・・・
314 名前:デフォルトの名無しさん mailto:sage [2008/01/18(金) 17:07:36 ] >>310 文脈から汲めば、分けられないってことだろ とはいえ>>312 みたいな態度が一番気に食わん
315 名前:デフォルトの名無しさん mailto:sage [2008/01/18(金) 17:59:53 ] 直交ずる〜というと2つのベクトルの内積(2直線の射影でもいいや)を考えるでしょ常考。 高校数学程度の概念は常識として知っておいてくださいな。
316 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 03:20:48 ] この文脈でそんな本来の意味の用語を使うわけないでしょ。 それくらい想像力働かせてくださいな。
317 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 07:02:46 ] 直交⇔互いに独立 ∴2つのベクトルの内積(2直線の射影でもいいや)=0
318 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 07:08:44 ] 「2つのベクトルの内積(2直線の射影でもいいや)」が0以外の値を持つとき それらは直交しない つまり「直交」については最初から一貫して「本来の意味」で使われているw 馬鹿は >>315
319 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 12:20:41 ] 数学総合スレはここですか?
320 名前:デフォルトの名無しさん mailto:sage [2008/01/19(土) 14:12:35 ] >>319 直帰を許可します
321 名前:デフォルトの名無しさん mailto:sage [2008/01/21(月) 00:06:37 ] ん?この流れム板のどこかのスレで見た気が。デジャヴ?
322 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 01:45:55 ] SJIS2004とかJISX213系の文字コード表って無いですかね どうも変換がうまくできない・・・
323 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 07:47:52 ] JISCにあるじゃん
324 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 23:27:43 ] JISCのPDFから手で書き取れと申すか ※無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます とりあえず機械可読な奴がほしかったらここでも見れ x0213.org/codetable/
325 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 23:32:34 ] >※無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます ごめんJISCを甘く見てた……
326 名前:デフォルトの名無しさん mailto:sage [2008/01/30(水) 23:40:52 ] JISC・・・ひでえな。
327 名前:デフォルトの名無しさん mailto:sage [2008/02/01(金) 21:15:44 ] www.unicode.org落ちてる?
328 名前:デフォルトの名無しさん [2008/02/05(火) 21:26:41 ] Joel Spolsky氏のブログ翻訳「ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて」 Servlet Garden ≫ Unicode and Character Sets (Translation) www.t3.rim.or.jp/~yoko-k-h/java/servlet/2008/01/31/unicode-and-character-sets-translation.html
329 名前:デフォルトの名無しさん mailto:sage [2008/02/05(火) 23:42:35 ] Unicode Transformation Format 8 と UCS Transformation Format 8 で混乱するのだけど それぞれをどう解釈したらいいんだろう?
330 名前:デフォルトの名無しさん mailto:sage [2008/02/05(火) 23:56:23 ] 略せばどっちもUTF-8。はい、同じ。
331 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 00:00:19 ] Unicode.orgがつけた名前 ISO/IECがつけた名前 中身おんなじ
332 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 00:11:42 ] 互換性あるのはわかったけど、Unicodeのが4バイト、 UCSのが6バイトみたいなこと書かれてたんで5バイト目以降は違うってことかな?
333 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 00:32:16 ] ISO/IEC 10646はAmd2:2006で、0群17面以降には永久に文字を追加しないことにしたから UTF-8にしたときには5オクテット以上にはならない。 Uniocde.org的には、単に追加予定なしなだけなので、UTF-8は理屈上最長の 6オクテットまで使っていいけど、でも文字入ってないよ?状態。 だから、結局中身おんなじ
334 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 01:09:46 ] もともとUnicode的にUTF-16の絡みで10FFFFまでになって、 おれにAmd2:2006で追従したんじゃないっけ。 どちらにしろ、今はどちらも4byteまで。 www.rfc-editor.org/rfc/rfc3629.txt 参考までにRFC
335 名前:デフォルトの名無しさん mailto:sage [2008/02/06(水) 02:42:04 ] なるほど。納得できたありがとう。
336 名前:デフォルトの名無しさん [2008/02/06(水) 18:15:44 ] いつの間にかIVS(漢字のVS)正式に決定してた。 www.unicode.org/ivd/index.html
337 名前:333 mailto:sage [2008/02/07(木) 08:54:13 ] >>334 そうみたいね 俺古いRFC見てたわ
338 名前:デフォルトの名無しさん [2008/02/19(火) 23:13:06 ] U+FDD0〜U+FDEFが使用禁止になったのって何でだろう?
339 名前:デフォルトの名無しさん mailto:sage [2008/02/22(金) 20:04:35 ] JIS X 0221:2007規格票の8. 注記3によると 「符号化文字でないことが保証された数値を必要とする内部処理」に使用するためだそうだ。 例として「表を終了させる、テキストの終わりを通知するなど」が挙げられてる
340 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 03:05:40 ] 文字コードふぜいが表の終了とか意識するな。
341 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 08:30:49 ] 文字集合はともかく、 符合化方式がその辺りを考慮するのは当然。
342 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 09:17:36 ] あとU+FFFFはBMPの最後のコードだから番兵に使うことを特に意識している U+FFFEは言うまでもなくBOM判別用
343 名前:デフォルトの名無しさん mailto:sage [2008/02/23(土) 13:25:24 ] ASCII にだってコントロールコードの領域があるしね
344 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 02:47:39 ] 文字コードとやらに興味を抱き、とりあえずユニコードが標準と知り、 番号からUTF-16を使っていたのですが、 このスレの人は何を主に使っているのですか? 検索をしていると16よりも8の話題のほうが見つかるので、 実は8のほうがいいのかなと悩んだりしています。
345 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 03:08:25 ] つか、今、同じテキストファイルを変換してみたのですけれども、 よくよく考えたらUTF-8は可変で日本語の文章に関しては、 全てを2バイトで扱うUTF-16に比べて、 日本語部分を3バイトで扱うUTF-8は情報量が多いほど、 容量が無駄に大きくなってしまいませんか? 1.5倍ですよね。それを補うほどの使い勝手の良さがあるのでしょうか。
346 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 03:14:34 ] 南北アメリカや西ヨーロッパの多く言語は平均すると一文字当たり2オクテット未満であらわせる。
347 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 03:27:30 ] 後は1要素が1byteに収まるから扱いが楽、とか まぁ日本語を基準に考えてる時点でUnicodeの思想から外れてる気はする
348 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 09:29:53 ] >>344 1.5倍程度でけちけちするな、多言語化ってのはそういうもんだ。 マジレスするとUTF-8側にメリットがあるというよりも、 UTF-16側がサロゲートペアやバイトオーダー、ASCII非互換、guessしずらいなど、 いろいろと面倒なのでUTF-8の方がよい。
349 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 10:57:52 ] WindowsがUTF-16なんで、自分のプログラムもUTF-16です。
350 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 23:33:43 ] ケチ臭いことを言うんだったら、ASCIIの制御文字の部分の方が勿体無いと思うけどね。 ホントにASCIIてクソだなあ。
351 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 02:21:38 ] ASCIIが7bitで治まってくれていて良かった。 ISO 8859-1みたいなんじゃなくて、ASCIIが8bit、 ×も≠も欲しいなんて言い出さなくて本当に良かった。 奴等が重ね打ち馬鹿で本当に良かった。
352 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 19:16:38 ] すみません、 EUC-JP 系のエンコーディング(含 eucJP-ms, CP5132)においてどういう文字が 割り当てられているかを知りたいのですが、いいウェブページはないでしょうか。
353 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 20:07:35 ] >>2
354 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 20:25:25 ] そーいや、opengroup の eucjp-ms とユニコードの変換表のページはもう見れないのかな?
355 名前:デフォルトの名無しさん [2008/03/13(木) 21:04:03 ] utf8がascii互換でソースに書いたり、ファイルに書き出すには一番使い勝手はいいと思う。 WinならAPIとの互換性のために、メモリ上はutf16が良い。Shift_JISに変更する気はあんまり起きない。 パーサーなどで、コードポイントを等間隔で扱いたいときにはutf32にしてる。
356 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 21:27:56 ] >>353 やはりそこら辺ぐらいですか? まずは1バイト部分が気になっていたのですが、 >また、16進数で「21」〜「7E」の文字にASCIIとJIS X 0201ローマ文字のいずれを使うかは、 >歴史的にはASCIIの方が正しいのですが、実際には使う人の自由にまかされます。 ということは例えば0x5cはreverse solidusでもyen signでも好きな方使え、ということ なのかな? とほほー。
357 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 21:41:13 ] すみません、機種依存文字は、どうして、存在しますか、? ローマ数字とか、文字化ける、現象の、ことです
358 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:03:50 ] 各ベンダが似て非なる文字コードを使い続けたから。
359 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:22:37 ] 似て非なる文字コードが多くて、判定をミスるからでそ。
360 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:28:35 ] >>354 numa氏が転載してくれてる blog.livedoor.jp/numa2666/archives/50980727.html
361 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:40:03 ] >>359 表示できない文字のことを言っている。>>357
362 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 22:41:16 ] >>357 お国はどちらで?
363 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 23:17:28 ] 西村京太郎が書き込んだんだよ。
364 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 09:14:19 ] >>352 legacy-encoding.sourceforge.jp/wiki/ 多分こっちの方がいい。 なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。 eucJP-0201 が JIS X 0201 Roman。
365 名前:352 mailto:sage [2008/03/14(金) 09:55:43 ] >>364 ありがとうございます。 >なお、IANA Charset では EUC-JP は ASCII だし、eucJP-ms, eucJP-ascii CP51932 も ASCII だぞ。 >eucJP-0201 が JIS X 0201 Roman。 なるほど。JIS X 0201 Roman はマイナーですね。 なお、今ググったら ICU のサイトもヒットしたので、そっちも参照してみます。 iconv や Perl-Encode なんかはこの辺どうなってるのかな。 しかし EUC-JP 系ってナニゲにタチが悪いですね。下手すると SJIS 系より悪いのではw
366 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 11:08:59 ] IANA charset repositoryのは、きっちり決まっているから何も問題ないぞ? 独自改変があるのは、どのコードでも同じだし。 その辺まで全部気にしたいのなら、Windows上でベンダー共同の文字拡張、 firefoxのEUC拡張とか、いろいろありすぎてやってられないと思う。
367 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 11:59:42 ] >>365 iconv は glibc iconv と libiconv と 森山さんのパッチ済み libiconv と Citrus iconv でも違って、 「EUC-JP」での \x00-\x7F までは ASCII と考えていい、これは IANA で定義されてるから。 ただ、それより多バイトは実装による。 Perl/Encode は Shift_JIS も EUC-JP も \x00-\x7F は ASCII だね。 なお、Shift_JIS は IANA 定義では \x00-\x7F が JISX 0201Roman なことに注意。 これにしたがっている実装はあまりないが、たまにあるので地雷。 ていうか、Shift_JIS でなく Windows-31J/CP932 を使えばトラブルは少ないのでこちらの方が回避は楽。
368 名前:352 mailto:sage [2008/03/14(金) 13:43:47 ] >>366 >>367 どうも有益な情報をありがとうございます。 文字コード処理にどのぐらい挙動の幅を持たせるかとかを悩んでいます。 >>365 さんも書かれてますが、例えばHTMLでcharset=Shift_JIS or EUC-JPとなっている が、拡張漢字のコードが入ってた場合(これは結構ある)にどうするかとか。 あと、差のある部分(全角記号等)をどっちだと思って処理するかとか。
369 名前:デフォルトの名無しさん mailto:sage [2008/03/14(金) 14:01:57 ] サーバ側で、かつ、どのクライアントに対してもきっちりやりたいなら、 User-Agent: をみて、独自の拡張、改変にちゃんと対応するしかない。 firefoxのケースはググれば出てくる。 CP51932関連も読んでおいた方がいい。
370 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 06:16:20 ] >>365 Shift_JISだって、CP932、Shift_JISX0213、Shift_JIS-2004などの変種がある。 むかし補助漢字を無理やり埋め込む変種もあった。 > Windows上でベンダー共同の文字拡張、 eucJP-ms?
371 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 09:41:00 ] > 補助漢字を無理やり埋め込む変種もあった。 kwsk そういう噂は聞いたことあるけど実際にどんな仕様だったのか調べてもわからない
372 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 10:19:31 ] >>370 > Shift_JISX0213、Shift_JIS-2004などの変種がある。 これって名前以外に違いあるんだっけ?
373 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 10:41:07 ] Shift_JISX0213は、JIS X 0212:2000に、 Shift_JIS-2004は、JIS X 0212:2004に基づいている。 UCS互換文字が10文字追加されている。 追加だから、表示などの用途に限れば、 Shift_JIS-2004だけで十分だが、 文字集合チェックしたければ区別する必要がある。 (>>352 はそういうことをEUC-JPについて知りたいようだったので書いた)
374 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 10:54:07 ] そもそもサポートする必要ないよ、とか言ってみる。 増やせば増やすほど混乱の種が増す。 とくに「レガシー」エンコーディングプロジェクトのくせに新しいことをやりたがる奴らは まとめて氏ね
375 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 10:58:43 ] BMP氏ね
376 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 11:00:35 ] 時代はPNGです(そっちか)
377 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 11:26:08 ] >>373 thx
378 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 13:22:46 ] >>372 当時のfj.kanjiにいくつかの提案をまとめた記事があったはず。
379 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 14:11:30 ] うーんGoogle Groupsには残ってないようだ 当時ニュースグループには参加してなかったからログを探すのが困難だ
380 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 16:42:56 ] >>374 >そもそもサポートする必要ないよ、とか言ってみる。 世界中のソフトが足並みを揃えられればいいんだけどね。 現実的にはより「好意的に」データを処理してくれるアプリの方が ユーザーのウケが良くて、困ったものだ。 それに「レガシー」とはいうものの、メールでもウェブページでもまだバリバリに 使われてるわけだし。
381 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 16:54:50 ] なにせここも Shift-JIS だしな
382 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:46:28 ] >>380 さすがにShift_JIS-2004をサポートした方がユーザーの受けがいいってことはないだろ むしろ円記号や名簿の高橋さんが文字化けする! とか苦情が増えそうな気がする
383 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:47:21 ] > 世界中のソフトが 日本中のソフトだけだろ。 最近のソフトやプロトコルは日本人が口出ししない限りUTF-8のみなんて珍しくもないぞ
384 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:53:04 ] > それに「レガシー」とはいうものの、メールでもウェブページでもまだバリバリに > 使われてるわけだし。 まだ使われているものをサポートすることは別に反対してない。 現在誰も使ってないどころかかつて使われたことすらないものを 「よかれと思って」付け足そうとする奴は氏ねと言ってる。 ISO-2022-JP-MSとか(頓挫したけど) NEC選定IBM拡張漢字とIBM拡張漢字にVS付けて区別するとか 正気とは思えない
385 名前:デフォルトの名無しさん mailto:sage [2008/03/15(土) 18:53:56 ] JIS X 0213のせいで日本の悲惨さ倍増w
386 名前:352 mailto:sage [2008/03/17(月) 04:46:50 ] 皆さんどうも。 Win上だと例えばcharset=EUC-JPだけど実はCP51932なHTMLとかは あんまり問題にならないのかもしれませんが、非Winだとそうでもなくて、 ちょっと情報を必要としていました。 ウェブブラウザとかメールソフトとかデータベースとか、日本人が開発の 中心にいないものも少なくないんじゃないですかね。そうすると日本語の エンコーディングに関するバグの説明とか、面倒ですね。
387 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 05:01:27 ] 糞会社が勝手に文字集合を独自拡張するのがまずいのであって、 受け手が四苦八苦しているのが悪いわけではない。
388 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 08:01:19 ] どうでもいいけどWin3より前の時代にアメリカの技術者と話をするときに、 通訳が「漢字」を"chinese characters"と訳すのには閉口させられたなぁ。 現物見せてやっと話が噛み合ったよ。
389 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:18:12 ] ややこしいが漢字を Chinese characters としている和英辞書があるんだよな。 大昔、千年以上前の日本人にとっては、漢字≒中国語文字かもしれないが 現代の日本人が漢字といえば国字 Japanese characters で漢字体のものを 指すのが普通だな。 通訳は空気を読むべきだと思うが、通訳が頼りない場合は 漢字だと誤訳・誤解されるおそれがあるので日本文字 Japanese characters と 言ったほうがいいかも。
390 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:31:27 ] 普通「漢字」は「ひらがな」「カタカナ」を含まないけど、 文字コードの世界では、含めて「漢字」ということがあるからややこしい。 本来の狭い意味での「漢字」なら、 Japanese Charactersの中のChinese Charactersってことで問題ないはずだけど。
391 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:37:28 ] 最近はKanjiで通じるようになってきたから嬉しい。
392 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:38:11 ] もうKanjiでおk
393 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:44:23 ] CJK Unified Ideographs のことだろ、Kanji って ってな、合ってるんだけど間違ってる理解が今後増えそうで嫌だ
394 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 12:48:45 ] >>391 >>392 それってひらがな、かたかなは含む?
395 名前:388 mailto:sage [2008/03/17(月) 12:55:49 ] あー、そんときは通訳が(理由は忘れたが)席を外したんで、 隙を狙って"Kanji is Japanese special character, not only Chinese."みたいなことを言った希ガス。 当然向こうは"???"となったから、「現物を見せましょう」という流れに持ってった。 # んで、「Windowsじゃそんな文字出せない」みたいなこと言われたんだよなw
396 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 13:15:36 ] >>394 391でも392でも無いけど、俺の知っている範囲では「含まない」。 たとえば、日本語学習者とか、日本の漫画やアニメのファンが "HiraganaやKatakanaは何とかなるけど、Kanjiはホントに難しいyo" とか、そういう風に口にする。
397 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 13:52:28 ] >>394 文字コードのことをちゃんと勉強してる技術者には、 KanjiっていえばHan charactersのうち日本語で使われてる文字だって伝わる。 Unicode万歳って感じだわ。
398 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 15:17:07 ] JISの「漢字集合」にはひらがなカタカナも含んだな
399 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 19:06:02 ] JIS X 0208の「漢字集合」だとラテン文字やキリル文字まで含むけど、 「漢字」だと漢字だけだよな。
400 名前:デフォルトの名無しさん mailto:sage [2008/03/17(月) 23:49:15 ] JIS X 0208の「非漢字」のうち1文字はUnicodeでは漢字扱いだったな Unicode 1.0では非漢字領域にもあったけどUnicode 1.1でunifyされたらしい と安岡センセイか誰かの日記で読んだ
401 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 00:22:44 ] 更級日記?
402 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 07:53:24 ] "仝" だっけ。一部の人にはハートマーク差し替え記号として知られるw "〆" は文字だっけ? JIS では記号だけど。
403 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 08:03:36 ] >>402 〆は0208由来の非漢字と補助漢字由来の漢字が両方入ってる EUC-JPとラウンドトリップコンバージョンを確保する必要があるから
404 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 12:50:52 ] unicodeで アファベットかどうかやひらがなかどうかやカタカナかどうかとか 文字種別みたいなものをロジック的に判別する方法ありますか? それともSJISとかみたいに力任せですか? あと濁点の「が」と「が」みたいなのを正規化する方法って決まってませんか?
405 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 13:11:04 ] >>404 >文字種 そういうAPIがあるプログラム言語とかライブラリ使え どれがどの文字種かは >>unicode.org >正規化 決まってる >>uniocde.org
406 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 15:00:42 ] >>405 >正規化 結合文字の正規化目的でNFCを使うとCJK互換漢字でハマるから注意
407 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 20:19:07 ] 「神」が化けるとかだっけ
408 名前:デフォルトの名無しさん mailto:sage [2008/03/18(火) 22:28:39 ] internet.watch.impress.co.jp/www/column/ogata/sp25.htm
409 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 00:28:49 ] Unicodeの正規化といえば、MediaWikiが外部から入力された文字列を全部正規化しやがって、 互換漢字を入力できずに困ったことがあったわ。
410 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 07:34:46 ] >>407 ファイル名が Unicode ベースなファイルシステムだと何らかの正規化がなされていると 思うけど、同じ場所に「b」という名前のファイルと「神」とのいう名前のファイルを作ろうと したら、どうなるべきなのかな?
411 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 07:43:42 ] >>410 手元のWindowsXP/NTFSだと U+00C4 と A+U0308 を別々に作れた、なので正規化はしてないっぽい。 MacOSXだと作れないだろうね。
412 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 10:01:39 ] >>410 > > 何らかの正規化がなされていると思うけど Mac OS Xくらいしか知らないよ。 Windows, UNIX系ではないんじゃない?
413 名前:デフォルトの名無しさん mailto:sage [2008/03/19(水) 10:08:51 ] >>411 MacOSXでも作れる。 OSXのVFSはNFDに準じたファイル名の正規化を行うが、互換漢字は対象外