1 名前:デフォルトの名無しさん [2007/05/27(日) 16:19:36 ] プログラムにおける各種文字コードの処理について語りましょう♪ ■前スレ 文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/ ■参考サイト Unicode Home Page www.unicode.org/ Java Character Encodings www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
2 名前:デフォルトの名無しさん mailto:sage [2007/05/27(日) 16:31:01 ] 漢字袋 kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/ 池田証寿 homepage3.nifty.com/shikeda/zatsubun.htm
3 名前:デフォルトの名無しさん mailto:sage [2007/05/27(日) 16:41:09 ] ■過去ログ ※◆ゲイの美容◆※ 01/01/21-01/01/23 <9> yasai.2ch.net/gay/kako/980/980019809.html ゲイの美容版・・・・・・ 01/07/17-01/07/22 <17> yasai.2ch.net/gay/kako/995/995353433.html ゲイの美容第3弾! 01/08/14-01/08/28 <28> yasai.2ch.net/gay/kako/997/997765965.html ゲイの美容第6弾! 01/11/21-01/11/27 <7> yasai.2ch.net/gay/kako/1006/10063/1006327106.html ゲイの美容 00/09/25-00/12/05 <981> piza.2ch.net/gay/kako/969/969815437.html
4 名前:デフォルトの名無しさん [2007/05/28(月) 20:22:23 ] 携帯でJIS X 0213の字使えるようにならないかな?
5 名前:デフォルトの名無しさん mailto:sage [2007/05/28(月) 20:30:52 ] それは絶対無理
6 名前:デフォルトの名無しさん mailto:sage [2007/05/29(火) 05:29:15 ] Shift_JIS-2004実装なら可能なんじゃね? iモード絵文字つぶしてそんな実装することはありえないと思うけど
7 名前:デフォルトの名無しさん mailto:sage [2007/05/29(火) 18:59:37 ] ASCII廃止されねーかな
8 名前:デフォルトの名無しさん [2007/05/31(木) 17:45:05 ] JIS X 0213を語呂合わせで「おにいさん」と呼んでるのは俺だけでしょうか?
9 名前:デフォルトの名無しさん mailto:sage [2007/05/31(木) 17:53:50 ] >>8 すれ違い。そういうのはこっちで。 UnicodeとUTF-8の違いは? pc11.2ch.net/test/read.cgi/tech/1177930957/
10 名前:デフォルトの名無しさん mailto:sage [2007/05/31(木) 19:42:07 ] 日本のCJK Ext.D Submissionに{魚針}が含まれてる件
11 名前:デフォルトの名無しさん mailto:sage [2007/05/31(木) 20:39:41 ] サヨリだったか?
12 名前:デフォルトの名無しさん mailto:sage [2007/05/31(木) 20:40:04 ] 針魚
13 名前:デフォルトの名無しさん mailto:sage [2007/06/01(金) 01:02:24 ] 884 名前:デフォルトの名無しさん[] 投稿日:2007/03/23(金) 20:48:30 他にVSで表す包摂扱いの字体差が大きい異体字には 何でよく見るのにJIS X 0213にも拡張Bにも無いんだろうと思ってた「撥」の拡張新字体なんかもあった。 「痙」の拡張新字体もあるがこれは中国簡体字のU+75C9に包摂するべきでは?「径」は中国の簡体字(旁がスの下にエ)と包摂されてるし。 「門」の手書きでよく使われる略字もあるが、これも「門」よりも中国簡体字のU+95E8のほうが近いからそっちの方が良いと思う。 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針) ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。 中国ではってレベルじゃねーぞ。 まあU+9FBC〜U+9FC2に追加されるはずの7文字もなぜか全部Unicode Submissionに 含まれてたりするからこれから精査して落とすんだろうけど。
14 名前:デフォルトの名無しさん mailto:sage [2007/06/01(金) 23:26:30 ] 意味でUnifyしたらだいぶ減るな
15 名前:デフォルトの名無しさん [2007/06/02(土) 20:15:29 ] Unicodeの14面の制御符号って今後増えるのかな?
16 名前:デフォルトの名無しさん mailto:sage [2007/06/02(土) 20:31:38 ] 2ちゃんねるVSハンガリー国家!? 一番クリックした国が優勝 ハンガリーではニュース、新聞などによる報道もあり、日本は苦戦を強いられています。 皆さんも、PCひとつで簡単にできますので、ご協力お願いします! URL貼れないので、VIPにある本スレ(クリックでスレタイ検索)に来ていただけるとありがたいです 理系の方などでクリックツール作成支援者も募集中です!
17 名前:デフォルトの名無しさん mailto:sage [2007/06/03(日) 13:17:37 ] >>15 VSが足りなくなったら増えるんじゃね?
18 名前:デフォルトの名無しさん mailto:sage [2007/06/03(日) 14:00:37 ] KPS 9566-2003の仕様書手に入らねえかなぁ
19 名前:デフォルトの名無しさん [2007/06/03(日) 21:16:17 ] VSが256個で足りなくなったらVS-257〜をVS-256の次から追加するとか。 でも一つの文字に256以上異体字があるなんて考えられんな。まあ、漢字で止める払うはねるとか点の向きとか厳しく区別すればすぐパンクするだろうが。 U+E0020〜U+E007Eにあるタグ専用の文字も非ASCIIに対応するのが追加されるかも知れん。 ttp://www.jagat.or.jp/story_memo_view.asp?StoryID=563 ここ見るとルビタグも提案されてたらしい。どうなったかは知らんが。 ひょっとしたらフォント指定とかサイズ指定の為のコードも追加されるかも?
20 名前:デフォルトの名無しさん mailto:sage [2007/06/03(日) 22:34:37 ] 色指定とか太さ指定とか傾き指定のコードとか!
21 名前:デフォルトの名無しさん mailto:sage [2007/06/04(月) 01:40:27 ] >>19 渡辺の辺の難しい奴はAJ16ですでに17個あるし文字鏡やGTには60個以上登録されてる から日本語の人名異体字を含む大規模文字セットがIVDを使おうとか考え始めたら 案外簡単に突破するかも。 千寿とか万寿を符号化するにはVSが1万個必要だし。こんなジョーク文書もあった。 Proposal: Use full plane-13 for the Han variation selector std.dkuug.dk/jtc1/sc2/wg2/docs/n2429.doc ルビタグはBMPにとっくに入ってる。
22 名前:デフォルトの名無しさん [2007/06/04(月) 15:14:08 ] 確か甲骨文字とか変体仮名とかは統合漢字に包摂されてたな。 ならそれらも将来的にはVSで規定されるかも?
23 名前:デフォルトの名無しさん mailto:sage [2007/06/05(火) 05:04:35 ] 甲骨文字は、典拠があるものに限って別に収録される予定。すでにIRGにも提出されてる。 ただし統合漢字のコードポイントで表すこと(つまり金文体フォントのようなものを実装すること) は妨げない
24 名前:デフォルトの名無しさん mailto:sage [2007/06/06(水) 00:47:01 ] ھەرپ ۋە بەلگىگە بىردىن نومۇر بېرى
25 名前:デフォルトの名無しさん mailto:sage [2007/06/07(木) 01:59:05 ] WG2でこれは統合できるだろ、というツッコミが多数来てExt.CがIRGに差し戻されたけど 各国からこれは人名用だ、という反論が多数来てとうとうこんな文書が出てきた www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1327SeparateArea.doc
26 名前:デフォルトの名無しさん [2007/06/08(金) 22:21:49 ] とあるプログラムが、ASCIIにしか対応していないハズなのですが、 UTF-8Nを渡しても、正常に動いているように見えます。 本稼働用に、動作確認したいのですが そこで、ASCIIしか考慮してない場合に渡すとまずい UTF-8Nの文字はありませんか?
27 名前:デフォルトの名無しさん [2007/06/08(金) 22:26:37 ] >>26 を試した文字は、 「ソースコード」や「表示」などのSJISではASCIIにすると文字化けになる文字です
28 名前:デフォルトの名無しさん mailto:sage [2007/06/08(金) 22:37:55 ] MSBが立ってる文字に対して特別扱いしてないなら、文字単位の処理さえなければ大丈夫の可能性が高い。(grepとか) 文字列を分割したり途中を切り出してたりしてるプログラムなら、おかしくなり得る。
29 名前:デフォルトの名無しさん mailto:sage [2007/06/08(金) 22:47:54 ] 26でUTF-8と言っておきながら、27でShift_JISの文字を例に挙げるとはよくわからない
30 名前:デフォルトの名無しさん [2007/06/08(金) 23:19:50 ] >>28 なるほど、切り出したり特殊な加工をしないかぎりは大丈夫ですか >>29 いや、たまたま知っていた文字コードを入力してみただけですので・・・
31 名前:デフォルトの名無しさん mailto:sage [2007/06/09(土) 00:04:26 ] >>26 ASCII じゃなくて Latin-1 で大丈夫なプログラムなら、 大抵は問題になる事はないと思われ。 7 ビット ASCII しか考慮してない場合は、 char が符号付きで、その値を unsigned char にキャストすることなしに int にする処理が書いてあった場合、 8 ビット目のある文字を渡すと負の値になって、 それでおかしくなる可能性はある。 Latin-1 対応なら、このあたりちゃんと処理してるかと。 UTF-8(N) は多バイトの場合全部 8 ビット目が立ってるから、 Shift-JIS みたいに 2 バイト目が \ になるかも・・・とかそういう事は起こらない。 ただ、もちろんこの文字を途中でぶった切るようなことをしたら、変になる可能性はある。 普通の検索は確か問題なかったと思う。 でも、正規表現には、 . が一文字じゃなくて一バイトという扱いになってしまうとか、影響がある。
32 名前:デフォルトの名無しさん mailto:sage [2007/06/09(土) 02:18:40 ] 80カラムにそろえるプログラムはおかしくなる。 バイトストリームとして扱うか、文字として扱うかによって違う。
33 名前:デフォルトの名無しさん mailto:sage [2007/06/09(土) 02:58:15 ] 日本でメールは76桁で折り返せという慣習になってるのは ISO-2022-JPのメッセージを80桁の端末に表示してるとき途中に折り返しが入ると 表示がおかしくなる可能性があるからだったな そういう心配のない欧米ではquoted-printableを使ってた
34 名前:デフォルトの名無しさん mailto:sage [2007/06/09(土) 07:20:16 ] そんな慣習がまかり通っていた頃に、quoted-printableはなかったよ。 大型機がやっているMTAに勝手に折り返すのが昔あったらしい。
35 名前:デフォルトの名無しさん mailto:sage [2007/06/09(土) 22:53:13 ] >>34 RFC1468でquoted-printableに言及してる。それは使わず75桁で折り返せと。 (今読み返したら76じゃなかった)
36 名前:デフォルトの名無しさん [2007/06/10(日) 18:39:07 ] >>31 詳細な解説、参考になりました。 Latin-1対応?というのが気になりますが、8bitを意識していないかどうか、 プログラム次第ということですね。 正規表現が問題あるのは痛いですね。(というか、そりゃそうだわな・・・)
37 名前:デフォルトの名無しさん mailto:sage [2007/06/10(日) 20:06:25 ] /あ.う/ は "あいう" にはマッチしない。 "い" が 3 バイトだから。 /あ...う/ なら引っかかる。 全角文字は大体 3 バイトだから、実用上は困らないかもしれない。 ギリシャ文字やキリル文字みたいに 2 バイトのものもあるけど。 /あ.*う/ は /あいう/ にひっかかるけど、/あえいう/ にも引っかかる。 ただ、/あ.う/ として、. が多バイト文字の 1 バイト目に引っかかることはないはず。 多バイト文字の 2 バイト目以降は、1 バイト目と必ず違うようになってるから。
38 名前:デフォルトの名無しさん mailto:sage [2007/06/10(日) 20:16:02 ] いつも思うんだが、 「75カラム(桁)で」というのはMUAにおける表示の問題だけだと思っていいのかな? ISO-2022-JPだと制御文字が入るからバイト数的には75を超えてしまうわけだが、 それによって影響を受けるMUA/MTAがあったりするんだろうか? そもそもカラム(文字列幅?)って概念は明確に定義されてる?
39 名前:デフォルトの名無しさん mailto:sage [2007/06/10(日) 21:48:45 ] >>38 80桁の端末での表示上の問題だから表示されないものはカウントしない 当然プロポーショナルフォントなんて高級なものは想定してない
40 名前:デフォルトの名無しさん [2007/06/13(水) 03:27:09 ] >>26 の件ですが、プログラム側にUNICODE対応のモードがありまして、それが無事に動きました。 お騒がせしてしまいました。 プログラムは、Squirrelっていう組み込みのスクリプト言語です。 ちなみに、このプログラムは、非UNICODEの場合でも、UTF-16 BOM付きUTF-8BOM付きの読み込みをサポートしているのですが、 UTF-16だと、読み込み時に wchar_t を charに変換するので、 読み込みで、エラーが出なくても 実質日本語が使えないという、困ったチャンでした。 (困ったチャンというか、その実装なら当り前ですけど) >>37 なるほど、正規表現だとそういうことになるんですね。
41 名前:デフォルトの名無しさん mailto:sage [2007/06/13(水) 08:19:59 ] >>35 RFC1468って1992年でしょ。 quoted-printableって用語がMIMEだからこれも90年代入ってからだし。 そんな最近の話じゃないよ。 行折り返しが問題になるのは、端末の問題じゃなくて、 ISO-2022-JP(元々JUNETコード)が行末でASCIIに戻すと規定されていたから。 ところが例えば大型で動いているMTAの中には、(BITNETとか) 80カラム以上あると、行を分割したり、切り捨てたりするヤツがいたから、 ISO-2022-JPを考慮しなければ、ISO-2022-JPでなくなってしまう。
42 名前:デフォルトの名無しさん mailto:sage [2007/06/13(水) 21:46:04 ] >>41 ということは、もしその手のMTAのことを今でも考慮するとしたら80「桁」以内じゃなくて 「バイト」以内で折り返さないとまずいということになるんですかね? 特にISO-2022-JPだとエスケープシーケンスが入るから前者と後者は明らかに 違うわけですが。 個人的にとあるMUAに関わっているんですが、非日本人の開発者/ユーザも もいるので(てゆうか彼らがメインだったりしてw) この手の処理をどうするか 悩ましかったりします。
43 名前:デフォルトの名無しさん mailto:sage [2007/06/15(金) 05:39:20 ] >>41 行末でASCIIに戻るのは原因と結果が逆のような。 そういう動作をする端末だかMTAだかが存在したからそう規定されたんでしょ
44 名前:デフォルトの名無しさん mailto:sage [2007/06/15(金) 08:31:30 ] 規定されれば、次はそれが何かの原因になることもあるだろ?
45 名前:デフォルトの名無しさん mailto:sage [2007/06/16(土) 20:51:50 ] そのために「慣用的な利用との互換性を目的としてだけ」とか但し書きが付くわけだが (RFC1468には付いてないけど)読まない奴はいるしな
46 名前:デフォルトの名無しさん mailto:sage [2007/06/17(日) 07:39:20 ] >>42 今はMIMEに従えばいいじゃん。 MUAが行を折り返すのは、余計なお世話だな。
47 名前:デフォルトの名無しさん mailto:sage [2007/06/18(月) 18:23:23 ] >>46 >今はMIMEに従えばいいじゃん。 えっと具体的にはMIMEの何に従うということですか? >MUAが行を折り返すのは、余計なお世話だな。 自分も個人的には改行は手で入れたい派なんですが、 ユーザーからの要望で自動改行機能を付けていたりします。
48 名前:デフォルトの名無しさん [2007/06/18(月) 18:33:39 ] OpenOfficeの最新バージョン(2.2)ではサロゲートペアにほぼ完全に対応してた。 (これ迄のバージョンではBMP外の文字は送り幅が変だったりもっと昔のバージョンでは保存したとき消失したりしてた。)
49 名前:デフォルトの名無しさん mailto:sage [2007/06/18(月) 19:07:29 ] 自動折り返しを実装するなら、まともな挙動にしてほ しい。 こんな滅茶苦茶な改行には、ほとほとうんざりしてい る。
50 名前:デフォルトの名無しさん mailto:sage [2007/06/18(月) 19:10:28 ] そんなの未だいいじゃん 。こんな改行された日に ゃ……誰かの台詞じゃ ないけれど、「泣ける 」。
51 名前:デフォルトの名無しさん mailto:sage [2007/06/19(火) 00:26:43 ] >>49 あれ、この処理じゃ駄目ですか? >>50 要は禁則処理が必須ってことですか。 国際化されたMUAでそれをちゃんとやろうとすると自明じゃないですね。 文字コードスレの範疇を超えてるかもw
52 名前:デフォルトの名無しさん mailto:sage [2007/06/19(火) 18:11:09 ] 禁則処理はDTP(もしくはエディタ)のレベルでそ
53 名前:デフォルトの名無しさん mailto:sage [2007/06/19(火) 22:30:59 ] Windows Vistaの文字コードについて質問なのですが。 「VistaはShift_JIS-2004に対応」って記事を見かけるんですが、 これは「JIS X 0213:2004」の字体がUnicodeから使えるという意味であって、 Shift_JIS-2004の文字コードでの編集や保存に対応してるということではないですよね? 業務用のテキスト処理のソフトをつくるのに確認したいのですが、実機がなくて。
54 名前:デフォルトの名無しさん mailto:sage [2007/06/19(火) 22:32:33 ] いや買ってこいよ
55 名前:デフォルトの名無しさん mailto:sage [2007/06/19(火) 22:54:35 ] じゃあ、お金くださいよ
56 名前:デフォルトの名無しさん mailto:sage [2007/06/19(火) 23:00:55 ] 業務用開発でそんな金すら出ないってなんだよ
57 名前:デフォルトの名無しさん mailto:sage [2007/06/20(水) 00:06:16 ] >>53 > 「VistaはShift_JIS-2004に対応」 その記事書いた奴が何か勘違いしてるか その記事を読んだおまえが何か勘違いしてる
58 名前:デフォルトの名無しさん [2007/06/20(水) 00:16:39 ] ちょっと板違いかもしれませんが文字コードっぽいスレを みつけられなかったのでここで失礼します。 だれかがsvnにcommitしたファイルが、英文字が全部 esc ( J "hoge" esc ( B みたいにiso-2022みたいなエスケープでかこまれてしまい、 diffが取れなくなって困ってるのですが(他にもemacsで C-sで検索が利かなくなったりとか)、 1. これは何というコードでしょうか? 2. どうやったら元に戻せますか? (ascii文字セットで表現できる範囲はasciiに) 3. いったい何をどうやったらこんなふうになるんでしょうか? 諸賢のアドバイスをお願いします。また、もっと良いスレがあったら 誘導お願いします。
59 名前:デフォルトの名無しさん mailto:sage [2007/06/20(水) 00:23:00 ] ESC ( J は JIS X 0201-Roman だな。 きっと backslash のかわりに円記号が使いたかったんだろう。
60 名前:デフォルトの名無しさん mailto:sage [2007/06/20(水) 00:25:50 ] もしくは tilde の代わりに overline 使いたかったか。
61 名前:デフォルトの名無しさん mailto:sage [2007/06/20(水) 00:52:12 ] ありがとん。 結局一旦日本語部分はEUCにして、残ったescape sequenceを scriptでがっさり削って解決しました。
62 名前:デフォルトの名無しさん mailto:sage [2007/06/20(水) 21:51:46 ] >>59-60 HTMLエディタには ESC ( J を使うものが多いらしい しかしURLの中の 0x7E は tilde のつもりだし JavaScriptのエスケープも backslash のつもりらしい
63 名前:デフォルトの名無しさん mailto:sage [2007/06/22(金) 09:26:11 ] すいません、はげしく既出だと思うんですが過去ログとか読めなかった ので質問させてください。 C++上でUTF8をbasic_stringのように扱えるクラスかテンプレートで フリーで使える奴ご存知の方いらっしゃいませんか? コンストラクタでUTF8の文字列をchar配列みたいな感じで受け取って、 [index]や*単項演算子でデコードした文字コード出てくる感じのがある とベストなんですが・・・。
64 名前:デフォルトの名無しさん mailto:sage [2007/06/22(金) 09:39:38 ] lib.locale.codecvt + basic_string<wchar_t>
65 名前:デフォルトの名無しさん mailto:age [2007/06/22(金) 17:28:50 ] すみません。教えてください。 あるプログラムに 0xB4 0xC1 0xBB 0xFA のEUC-JP文字列("漢字")を渡すと、 0xC2 0xB4 0xC3 0x81 0xC2 0xBB 0xC3 0xBA のようになってしまいます。 自分で見たてでは 0xC2が横につく,または,0x40を引いて0xC3を横につける という感じみたいなのですが、 何故こうなるのでしょうか。またその他の規則があるのでしょうか。
66 名前:デフォルトの名無しさん mailto:sage [2007/06/22(金) 18:22:49 ] あるプログラムって?
67 名前:デフォルトの名無しさん mailto:sage [2007/06/22(金) 19:15:09 ] tidy-libを使ったプログラムです。rawで読み込みさせてます。
68 名前:デフォルトの名無しさん mailto:sage [2007/06/22(金) 22:18:07 ] バベルのとーにすんでいるー
69 名前:デフォルトの名無しさん mailto:sage [2007/06/23(土) 06:55:12 ] >>65 Latin-1 から UTF-8 への変換がかかってるだけ。
70 名前:デフォルトの名無しさん mailto:sage [2007/06/23(土) 08:08:04 ] ほんとだ、iconv -f latin1 -t utf-8したら再現した。
71 名前:デフォルトの名無しさん mailto:sage [2007/06/23(土) 08:10:19 ] バビル二世現る
72 名前:65 mailto:sage [2007/06/23(土) 08:57:50 ] >>69 > Latin-1 から UTF-8 への変換がかかってるだけ。 おお、ありがとうございます。 >>70 iconvでたしかめたところ再現しました。 libiconvを使ってやるといけそうです。ありがとうございました。
73 名前:デフォルトの名無しさん mailto:sage [2007/06/24(日) 21:48:41 ] Unicode 吉野屋コピペを Flash 化してみた。 ttp://www5a.biglobe.ne.jp/~tmurakam/Flash/Unicode.html 超古いネタですまん。
74 名前:デフォルトの名無しさん mailto:sage [2007/06/25(月) 20:38:37 ] ポイント制で文字コードを判別するアルゴリズムってどんなライセンスなんですか?
75 名前:デフォルトの名無しさん mailto:sage [2007/06/25(月) 20:47:26 ] >>74 アルゴリズムとライセンスは別の話だろ? いったいおまいさんはなにを訊きたいんだ?
76 名前:デフォルトの名無しさん mailto:sage [2007/06/25(月) 21:25:04 ] アルゴリズムの特許が認められているので、 アルゴリズムにライセンスがある場合はある。 アルゴリズムにはコピーライトがない。 プログラムにはコピーライトがある。 >>74 が何を聞きたいか分からない。
77 名前:74 mailto:sage [2007/06/26(火) 01:03:32 ] じゃ、大幅に言い換えて sakuraエディッタのソースを参考に文字コード判別モジュールを作ったんですが これを含んだプログラムを素知らぬ顔で配布しちゃったらなんかやばい事になりますか? または 作者さんに配布の是非を問えば「No」とか「金払え」みたいな回答が高い確率で返ってくるでしょうか?
78 名前:デフォルトの名無しさん mailto:sage [2007/06/26(火) 01:33:59 ] >>77 sakuraエディッタとやらのライセンスを読めよ、馬鹿。 以上、終了。 はい、次の患者さんどうぞ。
79 名前:デフォルトの名無しさん mailto:sage [2007/06/26(火) 01:37:53 ] >>77 sakura_editor.at.infoseek.co.jp/faq.html
80 名前:デフォルトの名無しさん mailto:sage [2007/06/26(火) 01:39:19 ] まずはsakuraのライセンス確認したら?
81 名前:デフォルトの名無しさん mailto:sage [2007/06/26(火) 02:09:25 ] つーか「参考に」だけでどの程度類似してるか判断できると思ってんのか
82 名前:デフォルトの名無しさん mailto:sage [2007/06/26(火) 06:56:15 ] 文字コード関係ないやん。 nkfのコードならコピーライト表示するだけでコピー自由。
83 名前:デフォルトの名無しさん [2007/06/28(木) 09:37:25 ] >>73 ワロッシュw
84 名前:デフォルトの名無しさん [2007/07/01(日) 12:25:27 ] C/C++言語で UTF-8 の文字コードを読み込みたいのですが 対応する型は wchar でよかったでしょうか?
85 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 12:28:01 ] charやunsigned charなど あえてsinged charでも悪くないw。
86 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 12:32:29 ] >>84 よくなかったでしょうか?
87 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 12:41:14 ] >>84 char: charが符号ありの場合はunsigned charにキャストが必要なケースあり unsigned char: C++の場合は大量にreinterpret_castが必要になることを覚悟汁 wchar_t: よかったでしょうか?
88 名前:84 mailto:sage [2007/07/01(日) 12:55:56 ] >>87 wchar_t でしたありがとうございます TCHAR型を知っていると幸せになれますよ MS専用かもわかりませんが・・・ まだコードを書く前の 分からないことの整理中でして じっくりやりこんでいきます。
89 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 13:10:30 ] wchar_tがUTF-8って絶対にありえないと言えない (wchar_tがUTF-16な実装が存在するくらいだ)けど、 普通wchar_tと言ったらUCS-2、-4やUTF-16、-32とかだろう。
90 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 14:26:47 ] UTF-8 は unsigned char だな。 wchar_t は有り得ない。
91 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 14:30:35 ] >>90 string.hの関数とかに渡す時に いちいちreinterpret_cast<char*>すんの超うざくね?
92 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 19:56:53 ] そんな関数は使わない
93 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 22:25:14 ] char で操作して、必要な所で unsigned char にキャストかな。
94 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 22:32:33 ] 変換関数を用意しとけってmeyerタソが言ってた
95 名前:デフォルトの名無しさん mailto:sage [2007/07/01(日) 22:45:24 ] char* と unsigned char* の間に暗黙変換があればなあ。
96 名前:デフォルトの名無しさん mailto:sage [2007/07/02(月) 01:06:05 ] 「読み込む」とは何をしたいのかによるよな。 データとしてUCS-2になって欲しいのか、UTF-8のままでいいのか。
97 名前:デフォルトの名無しさん [2007/07/21(土) 17:05:03 ] 漢字の拡張Cが正式に決定するのはいつ頃かな?
98 名前:デフォルトの名無しさん mailto:sage [2007/07/22(日) 13:06:00 ] 早くて来年
99 名前:デフォルトの名無しさん mailto:sage [2007/07/23(月) 01:21:00 ] Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」で, 例えば 1-4-87 の「か゜」にマウスカーソルを合わせると Unicode: U+FD61809A UTF-16: 0x304B 0x309A Shift JIS: - JIS213: 1-04-87 と出てくるんですが,この「U+FD61809A」ってどういう意味なんでしょう? Unicode も ISO/IEC 10646 も今のところ U+10FFFF までしかありませんよね?
100 名前:デフォルトの名無しさん mailto:sage [2007/07/23(月) 10:54:46 ] サロゲートペア?
101 名前:デフォルトの名無しさん mailto:sage [2007/07/23(月) 13:13:34 ] >>99 U+304B, U+309A はサロゲートペアじゃないんだけど、 この2つをサロゲートペアに見立てて、 サロゲートペアからコードポイントを引き出す計算を 無理やり適用したら U+FD61809A になるんじゃね? いまやったけど ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000 が 0xFD61809A になる。
102 名前:デフォルトの名無しさん mailto:sage [2007/07/23(月) 13:56:31 ] こりゃ恥ずかしいバグだな。ベータ段階で誰も指摘しなかったのも...