1 名前:とりあえず立ててみた [05/02/24 00:07:38 ] プログラムにおける文字コードの取り扱いについて議論する統一スレッド です。 ほぼ前スレ 【UTF8】文字コード変換【SJIS】 pc5.2ch.net/test/read.cgi/tech/1063177450/ 参考ホームページ Unicode Home Page www.unicode.org/ Java Character Encodings www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
820 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 16:38:17 ] >>819 アメリカの選挙、特に大統領選の方式知ってる?
821 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 17:34:48 ] 日本はアメリカに常に YES なんだし選挙権いらないんじゃない?
822 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 17:57:12 ] スレタイ的にはUnicode追従という事でよろしいですね。
823 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 18:14:33 ] >>820 大統領選なら推薦人120人くらいになるんじゃない?ものすごく大きいと思うが。 まぁそうなるからもしアメリカに入るになっても選挙権はつけないとなるんだろうと言ってる。 そもそもアメリカに入るという話自体ありえないんだけどな。
824 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 18:16:36 ] もう属国だからね。
825 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 18:20:52 ] そんなに属国がいやならまずは核武装とエネルギー資源の確保をしないとなぁ・・・ あと食料自給率もどうにかしないと
826 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 18:24:00 ] 自民党が政権を持つ限りアメリカ追随のまま
827 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 18:27:00 ] 民主党になってもその点はほぼ同じだと思われ
828 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 19:30:19 ] 民主党の歴史を考えればな。つまり属国のまま。
829 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 20:18:18 ] アメリカの属国が嫌だという人間の大半は中国の属国にしたい奴か、鎖国したい奴のどっちか
830 名前:デフォルトの名無しさん [2006/01/30(月) 20:38:10 ] 自民党で括りなさんな。田中一族だって自民党だよ。
831 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 22:08:05 ] 戦争に全面的に協力して街壊してから 食料衣服もっていく日本の政治家達見てると ちゃんと義務教育とか終えたのか心配になっちゃうよね 靖国に感情的な奴もぐるだろうか、 今って太平洋戦争の時よりもあくどいように感じる 俺は零戦で突っ込む!誇りをもて!
832 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 22:10:24 ] お願いだからスレタイを見てください。
833 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 22:29:15 ] 世界征服して文字コードを強制統一スレが何か?
834 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 22:32:18 ] そりゃ中国とかモンゴルとかじゃね? 中国語は句読点が真中に来るのがどうも慣れない。なんだありゃ。
835 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 22:33:27 ] >833 まずは国内の統一からどーぞ
836 名前:デフォルトの名無しさん [2006/01/30(月) 22:46:06 ] 句読点を真中に打つのは台湾だけではありませんか。
837 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 23:22:49 ] 各国毎に文字コードを統一して、 それを UTF-64 に含めよう。
838 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 23:24:45 ] UCS64じゃなくて、UTF-64なんだ。
839 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 23:41:51 ] そうやってちまちま 16→32→64 てな流れでやるから あ、やっぱり足りね!とかってことになんだよ! 思い切っていっきに1024ぐらいまでいっとけ、な?
840 名前:デフォルトの名無しさん [2006/01/30(月) 23:42:40 ] UTF64か。全ての人に1群(256面)づつ割り当てて自由に使わせても 1000年くらいは持つだろうな。足りなくなる前はUTF128とUTF256を 標準化すれば銀河の寿命が尽きるまで安泰というわけだ。
841 名前:デフォルトの名無しさん mailto:sage [2006/01/31(火) 00:04:25 ] せっかく自主憲法制定しても、UTF-8で符号化ですか? TRONコー(ry
842 名前:デフォルトの名無しさん mailto:sage [2006/01/31(火) 00:06:00 ] >840 銀河評議会辺りから「んなローカルな文字コード使ってんじゃねーよ田舎モン」言われそうだw
843 名前:デフォルトの名無しさん [2006/01/31(火) 03:13:28 ] UTF4096 UTF16384 UTF65536 UTF131072 UTF1M UTF1G UTF1T もはやここまできたら文字の図形そのまんま転送してるのと同じ。
844 名前:デフォルトの名無しさん mailto:sage [2006/01/31(火) 07:37:28 ] >>843 マジメな話、将来的には全部画像ファイルになるかもな。 各種記憶メディアの容量は馬鹿でかくなり続けてるし、 CP'Uに処理速度もアホみたいに速くなってればOCR処理も一瞬で終わるし、 画像ファイルならフォントがなくて表示できないだとか、 ロケールの違いでうまく表示・処理できないなんて類のことから解放されるし。
845 名前:デフォルトの名無しさん mailto:sage [2006/01/31(火) 07:57:49 ] OCRした結果は何コードにするの?
846 名前:デフォルトの名無しさん mailto:sage [2006/01/31(火) 08:09:04 ] >>845 UTF-1024
847 名前:デフォルトの名無しさん mailto:sage [2006/01/31(火) 15:16:28 ] コードなんて内部でも必要とせず、 常に画像データで持ち比較の場合は画像類似度で判定。
848 名前:デフォルトの名無しさん [2006/01/31(火) 16:33:59 ] 文字コードに「日ペンの美子ちゃん」が追加される時代がくる
849 名前:デフォルトの名無しさん mailto:sage [2006/01/31(火) 23:59:52 ] そんな英語圏の連中にとってオーバースペックにもほどがある代物は 一部の日本人の妄想の中にしか存在しません
850 名前:デフォルトの名無しさん mailto:sage [2006/02/01(水) 00:09:51 ] 表示と印刷に限ればPDFがすでに実現してる
851 名前:デフォルトの名無しさん mailto:sage [2006/02/01(水) 00:13:11 ] 検索も結構いけてる > PDF
852 名前:デフォルトの名無しさん mailto:sage [2006/02/01(水) 00:48:24 ] STLPort 5.0.1をWindowsでビルドしたんだけど、UnitTestで3/329が通らない。 見てみると、std::use_facet<>のテストでのassert。 調べてみると、どうも「CP1252(Latin-1)な言語環境じゃなきゃ通らない」テストになってた。 しかも、use_facet<>の実装も間違ってる始末。 ポンド記号とかをGetLocaleInfoA()で取得した後、MultiByteToWideChar(CP_ACP)→WideCharToMultiByte(CP1252) なんて処理を行ってる。 これだから外人は…
853 名前:デフォルトの名無しさん mailto:sage [2006/02/01(水) 00:59:43 ] >>852 微妙にスレ違いな気がするぽ もっと適切なスレに逝け
854 名前:デフォルトの名無しさん mailto:sage [2006/02/01(水) 01:38:25 ] ここでいいと思う。
855 名前:デフォルトの名無しさん mailto:どう考えてもSTLスレのほうが適切・・・ [2006/02/01(水) 15:03:31 ] いや、やっぱりよくない
856 名前:デフォルトの名無しさん mailto:sage [2006/02/01(水) 15:23:10 ] まあいいじゃねえかよ。 言いたかったのは「これだから外人は」ってことなんだろうから。
857 名前:デフォルトの名無しさん [2006/02/04(土) 10:44:45 ] >>849 いや英語圏というか文字の種類が数十文字の言語にとっては 現時点でももうオーバースペックだよ。
858 名前:デフォルトの名無しさん mailto:sage [2006/02/04(土) 15:09:32 ] 一般人にとってはそうだろうね。 けどUnicodeなんかはベンダー主導の部分も大きくて、 英語圏のソフトウェアベンダーに取っては必要不可欠。 ドメスティックな奴は彼らにとってはわけわからんし。
859 名前:デフォルトの名無しさん mailto:sage [2006/02/04(土) 16:03:22 ] 英語圏の人間でも各種記号が増えるのは嬉しいんじゃないの。
860 名前:デフォルトの名無しさん mailto:sage [2006/02/04(土) 16:29:34 ] ¢ € £
861 名前:デフォルトの名無しさん [2006/02/04(土) 19:16:41 ] ユニコードってのは、最初はCJKなんて含んでいなかったんですよ。 8859シリーズが増えすぎて手に負えなくなって、しかたが無いから 16ビットにしてしまえと。まあ、確かに、欧米だけならBMPだけで 間に合っていただろうけど。
862 名前:デフォルトの名無しさん [2006/02/08(水) 03:38:36 ] bitmap にしてしまうと bmpstrcmp() とかいうイメージの比較関数を C言語に標準で用意する必要性が・・・。(リターン値は double で 何パーセント似ているかが返される)。
863 名前:デフォルトの名無しさん mailto:sage [2006/02/08(水) 04:28:05 ] BMPってBasic Multilingual Planeのことだろ・・・
864 名前:デフォルトの名無しさん mailto:sage [2006/02/08(水) 06:39:21 ] ハハ。以前打ち合わせ2時間やった帰り際に>>861 みたいなことを お客さんに言われたことがあるよ。どうしようかと思ったw
865 名前:デフォルトの名無しさん mailto:sage [2006/02/08(水) 22:52:42 ] >>862 フィッシングで釣り放題の予感
866 名前:デフォルトの名無しさん mailto:sage [2006/02/08(水) 23:02:44 ] > C言語に標準で 「言語情報や字体情報はリッチテキストで表せばいい」って 絵空事を言ってる人たちが意図的に触れない点ですな。 char→wchar_tすら遅々として進まないのに プログラミング言語の標準ライブラリとかOSのAPIがすべて文字列の代わりに XMLのマークアップとか受け取れるようになるなんて本気で思ってる人 どれくらいいるんでしょうかね。 ただでさえ > 英語圏の連中にとってオーバースペックにもほどがある のに。
867 名前:デフォルトの名無しさん mailto:sage [2006/02/09(木) 10:03:21 ] 欧米で日本語流行らないかな 漢字をおしゃれだと思ってる欧米人も少なくは無いんだろうが 身体に亀仙人とか彫っちゃう感覚なんだもんな 意味含めて1ヶ月流行らんかな
868 名前:デフォルトの名無しさん [2006/02/11(土) 02:51:33 ] 日本語をローマ字で書く程度ならそんなに苦労はしないかも知れないが、 実際には平仮名カタカナ漢字と3種類の文字を覚え、更に漢字の音読み 訓読みを覚えなければならないので全部使えるようになるまでは英語圏の やつらにはかなり大変なんじゃねえの?
869 名前:デフォルトの名無しさん mailto:sage [2006/02/11(土) 02:54:37 ] 日本はまだマシなものだ
870 名前:デフォルトの名無しさん [2006/02/11(土) 03:22:08 ] そうか? 要するに言葉を覚えるより文字を覚えるのが大変ということだが。 まあ、中国語とかも大変そうだが。
871 名前:デフォルトの名無しさん mailto:sage [2006/02/11(土) 07:57:24 ] 日本語を流暢に話す欧米人はそこそこみかけるが(TVでね) 仮名漢字交じりの文章をスラスラ書く欧米人は見たことないなぁ。
872 名前:デフォルトの名無しさん mailto:sage [2006/02/11(土) 09:53:17 ] >>871 それがいるんだ。
873 名前:デフォルトの名無しさん mailto:sage [2006/02/11(土) 11:56:00 ] 中には日本好きが高じすぎて、当の日本人より詳しいのも。 希出漢字の書き順まで完璧。知識階級に多い。
874 名前:デフォルトの名無しさん mailto:sage [2006/02/11(土) 12:57:05 ] 夏期休暇でアメリカに行った際の出来事。 LAで信号待ちをしていると 気の良さそうな2人組のお兄さんが、 「おまえは 日本人か?」と気さくに聞いてきました。 「そうだ」と答えると、「漢字のタトゥー (刺青)を 彫ったんだけど、 どういう意味か教えろよ」と言われ、差し出された腕を見ると 『武蔵』と彫ってありました。 「日本で最も有名な剣豪だよ」と伝えると 彼は満面の笑みを浮かべていました。 続いてもう一人が腕を差し出すと そこには『朝鮮』と大きく彫ってありました。 「KOREAだよ」と教えてあげた後の彼の悲しそうな顔が忘れられません。
875 名前:デフォルトの名無しさん mailto:sage [2006/02/11(土) 13:25:47 ] コピペ乙
876 名前:デフォルトの名無しさん mailto:sage [2006/02/11(土) 13:32:20 ] 全米が泣いた
877 名前:デフォルトの名無しさん mailto:sage [2006/02/11(土) 14:19:51 ] 「K-1ファイターだよ」と教えてあげた後の彼の悲しそうな顔が忘れられません。
878 名前:デフォルトの名無しさん mailto:sage [2006/02/11(土) 16:41:39 ] WinFX Runtime ComponentのJan CTPを入れて、Loose XAMLで >>125 みたいな指定が実際に可能である(エラーにならない)ことを確認した。 ただしXPではUniscribeが古いままなせいか、それとも単にまだ実装されていないのか、 メイリオや小塚明朝を指定しても実際に字形の切り替えは反映されなかった。
879 名前:デフォルトの名無しさん [2006/02/11(土) 22:10:48 ] はやっているのは日本語ではなくて中国語だという説も。 中国は簡体字だろうって? 台湾も香港も、大陸系でも欧米に往来するような連中は教養として 繁体字を書けますので。
880 名前:デフォルトの名無しさん mailto:sage [2006/02/13(月) 00:36:29 ] 正体字か常用漢字体かは見分けられるだろう
881 名前:デフォルトの名無しさん mailto:sage [2006/02/13(月) 22:33:39 ] >>879 海外の華僑は繁体字を使ってるんでしょ?
882 名前:デフォルトの名無しさん [2006/02/13(月) 23:32:35 ] 例えば、円のような字があれば紛れもなく日本語だろうけど、常用漢字体と いっても、それまで草の根で使われてきた字を公認したものもあるので、 単純には見分けられない。台湾香港の手書きの繁体字が日本の正字体 (康煕字典体)と一致しているわけでもない。活字は示偏で手書きはネ偏 とかいうのも普通です。
883 名前:デフォルトの名無しさん mailto:sage [2006/02/17(金) 20:16:11 ] UTS #37の承認キター www.unicode.org/reports/tr37/ で、AJ1-6の登録マダー? (AAry
884 名前:デフォルトの名無しさん mailto:sage [2006/02/21(火) 05:26:49 ] ietf-charsetsのメーリングリストがいつ行っても落ちてるんですけど 今さら新しいcharsetを登録したいやつなんかいないだろって感じですか? mail.apps.ietf.org/ietf/charsets/threads.html
885 名前:デフォルトの名無しさん mailto:sage [2006/02/21(火) 09:09:41 ] 前に揉めたから日本人ははねてるんだろうな(w
886 名前:デフォルトの名無しさん mailto:sage [2006/02/21(火) 23:48:33 ] ISO-2022-JP-3を事実上葬った太田センセイですか? 今となっては結果的にGJだった気もするが(w
887 名前:デフォルトの名無しさん mailto:sage [2006/02/22(水) 15:31:18 ] So?
888 名前:ハーピィ mailto:sage [2006/02/24(金) 11:51:00 ] E・∇・ヨノシ <888ゲット♫
889 名前:デフォルトの名無しさん [2006/02/26(日) 03:04:47 ] javaでISO-2022-JPからUTF-8への変換は出来るの?
890 名前:デフォルトの名無しさん mailto:sage [2006/02/26(日) 03:28:05 ] Java API でって事か?
891 名前:デフォルトの名無しさん [2006/02/26(日) 07:22:44 ] >>889 できる。
892 名前:デフォルトの名無しさん mailto:sage [2006/03/06(月) 06:49:17 ] ISO-2022-JP-2でG2にISO-8859-7が指示できるのは何のため?
893 名前:デフォルトの名無しさん mailto:sage [2006/03/06(月) 15:02:36 ] ギリシャ文字使うのにX0208使いたくなかったから。
894 名前:デフォルトの名無しさん mailto:sage [2006/03/06(月) 23:15:19 ] >>893 JIS X 0201カナ(´・ω・) カワイソス つーかマジでダブルスタンダードだとは誰も思わなかったのかね入れた奴らは
895 名前:デフォルトの名無しさん mailto:sage [2006/03/07(火) 00:15:34 ] むしろISO-8859-5あたりが指示できない方が問題じゃないかと。
896 名前:デフォルトの名無しさん mailto:sage [2006/03/07(火) 05:11:55 ] ロシヤ文字はkoi8のほうが標準だったからね。
897 名前:デフォルトの名無しさん mailto:sage [2006/03/09(木) 06:46:39 ] 結局ISO-2022で世界統一しようというのも日本人だけの妄想ってことだな
898 名前:デフォルトの名無しさん mailto:sage [2006/03/09(木) 12:06:46 ] X11はcompound textでやっていたけどね。 ISO-2022-JP-2みたいな文字(集合)利用制限付きはうまくいかなかった。 なんでもぶっ込み型しか利用されないのよね。 ctextにしてもunicodeにしても。
899 名前:デフォルトの名無しさん mailto:sage [2006/03/09(木) 12:55:15 ] ISO-2022-INTがRFCになってたらうまくいってたんだろうか
900 名前:デフォルトの名無しさん [2006/03/09(木) 13:49:16 ] _ ∩ < `∀´>彡 KPS9566!KPS9566! ( ⊂彡 | | し ⌒J
901 名前:デフォルトの名無しさん mailto:sage [2006/03/09(木) 15:34:39 ] DNSやURL w/UTF-8で、 似た文字を一つにUNIFYして正規化する、とかいうのどうなったの?
902 名前:デフォルトの名無しさん mailto:sage [2006/03/09(木) 20:06:02 ] よくわからんがとりあえずnameprepでぐぐってみれ
903 名前:デフォルトの名無しさん mailto:sage [2006/03/09(木) 23:41:59 ] もとはといえば最初に常用漢字とJISが違うという縦割り行政丸出しの時点で もうだめだったな・・・
904 名前:デフォルトの名無しさん mailto:sage [2006/03/10(金) 00:44:49 ] 俺的には昔より最近の「印刷標準字体」にたまげた
905 名前:野村 mailto:sage [2006/03/10(金) 06:54:06 ] >>903 その差を埋めようとしたのが83JISじゃないか! 何であんなに叩かれるんだ!
906 名前:デフォルトの名無しさん mailto:sage [2006/03/10(金) 07:52:03 ] 安易だからさ。
907 名前:デフォルトの名無しさん [2006/03/10(金) 17:46:20 ] >>905 非互換の変更で、朝日文字を採用したからでしょ。
908 名前:たちざき [2006/03/13(月) 13:29:45 ] Unicode FA11 は崎の異体字、大→立です。いわゆる「たちざき」 この JIS コードは 7975 だそうです。 たしかに手元のブラウザで EUC-JP F9F5 で表示できます。 しかし JIS X 0213-2004 の1面89区85点を見てもみあたりません。 www.itscj.ipsj.or.jp/ISO-IR/233.pdf どこを見れば「たちざき」が載っているのでしょうか?
909 名前:デフォルトの名無しさん mailto:sage [2006/03/13(月) 13:39:49 ] 1-47-82
910 名前:たちざき [2006/03/13(月) 13:46:25 ] >>909 ありがとうございました、無事見つかりました。 今まで区点コードとJISコードは 0x2020 の違いだけだと 思い込んでいたのですが、そうではないのでしょうか? JISコードと区点コードの間にも Unicode との マッピングのようなマッピングを持たなければならないのでしょうか?
911 名前:デフォルトの名無しさん mailto:sage [2006/03/13(月) 14:07:04 ] >>908 > この JIS コードは 7975 だそうです。 それはNEC選定IBM拡張文字としてのコードであって、正式な(?)JISコードじゃないから。
912 名前:たちざき [2006/03/13(月) 14:07:41 ] いま、下の変換表を見てみましたところ、 examples.oreilly.de/english_examples/nutshell/cjkv/adobe/jisx0213-all.txt EUC-JP F9F5 = JIS 7975 = 区点 1-89-85 = Unicode U+7CBC のようです。 U+7CBC は CJK Unified Idiograph で「憐」のつくりをへんに持ち、 「喩」の右下の二本の並行曲線をへんに持つ、変わった漢字です。 手元のブラウザで EUC-JP F9F5 は「たちざき」に見えているのですが。
913 名前:たちざき [2006/03/13(月) 14:11:06 ] >>911 え?そうだったんですか。丸付き数字とかだけかと思ってました。 ということは、EUC-JP F9F5 で「たちざき」が見えているこのコードは、 「えせ」EUC-JP ってことでしょうか?
914 名前:デフォルトの名無しさん mailto:sage [2006/03/13(月) 14:13:46 ] >>913 「えせ」ってのは響きが宜しくない。 「独自拡張された」EUC-JP(JIS X 0208ベース)ぐらいが適当か。
915 名前:デフォルトの名無しさん mailto:sage [2006/03/13(月) 14:14:25 ] 1-89-85が﨑な文字コードと1-47-82が﨑な文字コードは別の物だよ。
916 名前:たちざき mailto:sage [2006/03/13(月) 16:16:43 ] >>914 >>915 わかりました。DBの統合に際して 気をつけなければと思って調査しているのですが、 どうやらJIS X 0208 + 拡張文字ベースの EUC-JP と JIS X 0213 ベースの EUC-JP が混在しているようです。 マップを細かく切り替えながら乗り切ることにします。
917 名前:デフォルトの名無しさん mailto:sage [2006/03/13(月) 19:59:11 ] うわ、eucJP-openとEUC-JISX0213が混ざっているのですか・・・がんばってください・・・。 EUC-JISX0213はJIS X 0213を見ればいいとして、 eucJP-open(独自拡張されたEUC-JP)は、 www2d.biglobe.ne.jp/~msyk/charcode/cp932/eucJP-ms.html やここからいけるリンクの先をご覧になるとよろしいかと。
918 名前:デフォルトの名無しさん mailto:sage [2006/03/14(火) 00:11:27 ] ところでUnicode 5.0(ベータ)でUTF-8最後の2byte領域につっこまれたNKoってどこの文字か知ってる人います?
919 名前:デフォルトの名無しさん mailto:sage [2006/03/14(火) 01:00:14 ] >>913 むしろ丸付き数字はNEC拡張とJIS X 0213で互換性がある。
920 名前:デフォルトの名無しさん mailto:sage [2006/03/14(火) 08:02:42 ] std.dkuug.dk/jtc1/sc2/WG2/docs/n2765.pdf >Manden (or Manding) people live mainly in West Africa >literary dialect commonly known as Kangbe ‘the clear language’, and also known as N’Ko. これかなー