UnicodeとUTF-8の違いは？

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 2chのread.cgiへ]
Update time : 05/09 13:54 / Filesize : 116 KB / Number-of Response : 591
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

UnicodeとUTF-8の違いは？

1 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:02:37 ]: ビッグインディアンとかなんとかかんとか
75 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:44:55 ]: >>67
Unicodeコンソーシアムが作った文字集合がUnicode。
ISO 10646で定義された文字集合がUCS。
両者は、互換になるように働きかけあっているので、今のところ同じ文字集合と見なして問題ない。

一時期はUnicodeを符号化するのがUTF-?、UCSを符号化するのがUCS-?だったと俺は思うが、
今はISO 10646にUTF-8/16も収録されているらしい。
UTF-8/16の正式名称はUnicodeとUTFで違うが、実際の符号化の方法は同じで、
基の文字集合も上に書いたとおり同じだからどちらのUTF-8/16も実用上基本的に違いはない。
76 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:48:04 ]: UCS-4は、32ビット固定長の内31ビット使用し、UCSの全ての文字を符号化できる。
UCS-2は、16ビット固定長（16ビット使用）で、UCSのうち、BMP（基本多言語面）だけしか符号化できない。
UTF-32は、32ビット固定長の内21ビット使用し、Unicodeの全ての文字を符号化できる。
UTF-16は、16ビット/32ビット（サロゲートペア）の可変長で、Unicodeの全ての文字を符号化できる。
UnicodeのUTF-8は、8ビット単位、1-4オクテットの可変長で、Unicodeの全ての文字を符号化できる。
UCSのUTF-8は、8ビット単位、1-6オクテットの可変長で、UCSの全ての文字を符号化できる。

Unicodeは、UTF-16で全ての文字を符号化できることを念頭においているが、
UCSは、UCS-4で全ての文字を符号化できることを念頭においている。
77 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:48:19 ]: >>74
Unicodeでも多バイト問題は付いて回るし
EUC-JPとかISO-2022-JPでいいんじゃね？
78 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:52:58 ]: >>69
これくらいすっきりさせろ
UCS-4 = UCSのUTF-8
UTF-32 = UTF-16 = UnicodeのUTF-8
UCS-2 ⊆ UTF-32 ⊆ UCS-4
（そもそもUnicode ⊆ UCS）
79 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:54:52 ]: ISO-2022-JPはステートフルなので扱うのが大変。
UTF-8はEUC-JPより多くの文字が扱える。
Shift_JISはYENとかで困るから除外。
XMLのデフォルトエンコーディングはUTF-8。
80 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:05:23 ]: JISX0213（ニアリイコールVistaの文字セット）でサロゲートペアって
ハマりそうだよな。

string s="○";
assert( s.length==1 );

これが成り立たない場合があるっていうのも詐欺みたいな。
81 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:08:04 ]: 1区当たり94点しか使わないASCII絶対主義が狂ってると思う
コードポイントの5/7が使われないのはもったいなすぎ
82 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:17:25 ]: >>76
なるほど・・・だいぶ間違ってたなぁ。こうなるのかな？
BMP(16bit)⊂Unicode(21bit)⊂UCS(31bit)⊂世界の文字
UCS-4∈( UCS→(32bit) )
UCS-2∈( BMP→(16bit) )
(UCS)UTF-8∈( UCS→(8～48bit) )
(Unicode)UTF-8∈( Unicode→(8～32bit) )
UTF-16∈( BMP→(16bit) ∩ Unicode-BMP→(32bit) )
UTF-32∈( Unicode→(32bit) )

>>78
俺はずっと文字集合とエンコーディングがごっちゃになってたから
あんまり省略すると不安だったもんで
83 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:18:50 ]: >>80
「が」とかなら判るけど、○も文字的に２文字になるケースってあるの？
サロゲートペアだから2だとかでは、バイト長だから4という思想から
変わってないような。文字としてなら1以外ありえないと思うので、
そのassertが不成立ならstringクラスのバグ（か、lengthのバグ仕様）なんでは？
84 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:24:41 ]: 任意の文字って意味じゃね＞"○"
85 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 00:10:36 ]: あ゛、なるほど。でも任意の文字っていっても実装依存で
なるわけじゃなくて、そうなってもおかしくない文字（合字とか）で
なるだけじゃないの？言語的な文字数ではなくて内部的に確保した
記憶スロットの数を返すようなlengthはいくらなんでもバグだろう。
86 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 00:33:38 ]: >>83
いや、サロゲートペアだから２になるんだわ。
とりあえず.NETはそうなる。

msdn2.microsoft.com/ja-jp/library/system.string.length(VS.80).aspx
> Length プロパティは、このインスタンス内の Char オブジェクトの数を返します。Unicode 文字の数ではありません。

Javaもそうなるみたいだけど。

Java
java.sun.com/j2se/1.5.0/ja/docs/ja/api/java/lang/String.html#length()
> この文字列の長さを返します。長さは文字列内の 16 ビット Unicode 文字の数に等しくなります。

JavaScriptも多分？
87 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 01:48:47 ]: >>86
げーっ、そうなんだ。
「16ビットUnicode文字」の数なんて何の意味もないのにな。
「言語的な文字」の数かどうかだけが問題で、それ以外は
バイト数を返すのと同じこと（＝同じ問題を抱える）なのに。
88 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 02:08:02 ]: しかし、実際サロゲートペアの
文字なんかほとんど使われないわけで。

それなのにそれを考慮して処理速度を大幅に落とす方が俺は困る。
89 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 02:09:58 ]: Javaは仕様としてサロゲートペアを
そもそもサポートしないと決められてるはず。
90 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 03:25:03 ]: >>89
最近のJavaはちょっとサポートしている。
String.codePointCount() とか、Character.codePoint*() とか。
91 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 05:56:27 ]: >>87
プログラム組む人は、バイト数が欲しい
（書面の）文を書く人は、文字数が欲しい

strcatとかの標準関数が全滅するUTF-16なんて誰が考えたんだろな？
しかも、MSは標準にするし…
92 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 09:06:46 ]: 意味的にはもちろん文字数を返すのが理想なんだけど・・・
そもそもJavaなんて、ｓtringクラス作った時はサロゲートペアなんて無い時代じゃないの
93 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 09:23:29 ]: >>68
有り難う御座います、結構飛びますね
>>71
ゲームで使うライブラリが使うコードポイントを指定して
テクスチャに書くので決める必要があるからです
海外のフォントが使えなきゃ線画ができませんし
94 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:05:19 ]: >>91
バイト数を気にしてた頃はJIS X 0201カナも普通に使われてたから
SJISなんつー中途半端なモンが重宝されてたんだよな
95 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:35:00 ]: >>87
.NETの場合、文字数はSystem.Globalization.StringInfo.LengthInTextElementで得られる。
ほかにもStringInfoには、サロゲートペアを考慮して文字単位で操作するメソッドがいくつかある。

>>91
C89の時点で既にwchar_tはあった。
wcscpyなどの関数が入ったのはC95だった気がするが。

そのwchar_tは、今のWindowsだとUTF-16だが、
そもそもwchar_tことC/C++のワイド文字は固定長で処理することを志向していたはずで、
本来のwchar_tの意義からすればUTF-16は良くない罠。

もしもUnicodeが初めから32ビットになっていれば、と思う。
96 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:37:02 ]: やべえええ
話についていけない
というか、文字コードの変換は出来るけど　実際の詳しい部分知らない俺はヘタレ・・・
97 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:44:11 ]: 16bitで足りないのはすぐに判ったろうけど、似た文字はまとめちゃえば入るだろと思ったんだろな
でも、それじゃ納得しない人が出てくるのは当然。

24bitあれば足りたろうから24bitで定義しておけば最善だったかもな

それにしても \ の扱いが醜い
98 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:54:06 ]: 7bitで足りてた人間が考え始めたコトだからｗ

JIS X 0201のGRはISO646ではあるけどASCIIではないからね
バイナリ的に区別付かないからフォント変えれば同じだけど

ASCIIにスラッシュとバックスラッシュが採用されたのは
当時のプログラム言語で使われてた論理記号の∧と∨を表すためらしい
99 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:11:56 ]: 歴史的な経緯はこのページが参考になる
ttp://www.horagai.com/www/moji/code4.htm
100 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:18:53 ]: んじゃ、文字数とかバイト数とかのお話の説明なぞ

UTF-16っていうので16bitで全部の文字を表そうと思ってたのね
でも実際に作り始めたら16bitじゃ全然足りなかったから
その分は16bitをふたつ使って32bitで表しますよっていうコトにしたの
それがサロゲートペアって呼ばれてるモノね（ふたつ組だからペア）

そんなわけで、UTF-16は基本的に16bitで一文字なんだけど
例外的にサロゲートペアだけ32bitで一文字っていう
ヘンテコリンな規格になっちゃったわけ

サロゲートペアの処理がちゃんとされてないプログラムだと
16bitなら一文字、32bitなら二文字っていう風に
機械的に文字数を判断しちゃって困るねっていうこと
101 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:27:33 ]: 言ってみればサロゲートペア非対応のプログラムでサロゲートペアを含む文字列を扱おうということは、
マルチバイト文字列非対応のプログラムでマルチバイト文字列を扱おうとするのと同じこと。
まあShift_JISのような駄目文字問題が生まれないのはましだけど。
102 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:28:30 ]: 足りない領域に文字を突っ込むという点では
JIS X 0201のカタカナ集合に通じるモノがあるかも
（いわゆる半角カナのコトね）

自然な感覚だと濁点・半濁点が付いてるのも一文字だし
付いてなくても同様に一文字だと思うんだけど、
文字入れる場所がないから濁点・半濁点付き文字は
例外的に8bitふたつで表現してねっていう

「こんにちは」と「こんばんは」
一般的な感覚としては両方とも五文字だけど
8bitカタカナの世界では
「ｺﾝﾆﾁﾊ」は五文字で「ｺﾝﾊﾞﾝﾊ」は六文字になる
103 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:29:18 ]: UTF-16で
1文字16bitだとして1文字32bitのものもあるってことは判った
流石に混在はしないの？
104 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:41:16 ]: >>103
D800-DB7FとDB80-DBFFが上位サロゲート、DC00-DFFFが下位サロゲートの領域になっていて、
任意のUTF-16 1バイト（= 2オクテット）を取り出しても、
それがサロゲートでないか、上位サロゲートか、下位サロゲートかは区別が付く。

駄目文字の問題が起こらないという点において、ASCIIとの対比で言えばShift_JISよりもEUC-JPっぽいという感じ。
EUCは、あるコードがマルチバイトのどこになるかの区別が付かなかった気がするが。
105 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:44:46 ]: >>104
解説ｻﾝｸｽ
なるほど　なんかUTF-16が判ってきた
でもぶっちゃけ存在は知ってるけど使ったことがない俺がいる
106 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:50:43 ]: 文字コードなんて本来はユーザが意識するようなものじゃないからなぁ
ユーザが意識して扱わないと問題が起きる設計なんてのは
IT業界じゃなきゃ欠陥商品としてリコール対象だろｗ
107 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 12:30:22 ]: つまりUTF-16だとサロゲートペアで表す対象になる文字の中で、
俺が有名そうだと思うのは、吉野家の「土吉」（上部が土になっている）U+20BB7 𠮷。
メイリオなんかだとグリフを持っているので表示できる。
108 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 12:44:27 ]: DOMStringの長さはUTF-16での符号単位数ってことになってるんだよな。
これ決めた奴、死ぬべきだと思うわ。
109 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 16:42:11 ]: >>108
W3CでDOMを規格化するときには、もうJavaScriptもJavaも16bit単位ベー
スの文字列処理になってしまっていたので、仕方なくそれらに合わせた
んだと記憶してます。
110 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 20:02:03 ]: 7bit文字の場合
0xxx xxxx
8-11bit
110x xxxx 10xx xxxx
11-16bit
1110 xxxx 10xx xxxx 10xx xxxx

unicodeの部分がxxxx
111 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 21:38:28 ]: 1バイトだけ見た場合、

0xxx xxxxならそのバイトだけで1文字
1xxx xxxxなら
-- 10xx xxxxなら多バイト文字の2バイト目以降(先頭は遡って11xxなバイト)
-- 11xx xxxxなら多バイト文字の先頭バイト
---- 110x xxxxなら2バイト文字の先頭バイト
---- 111x xxxxなら3バイト文字の先頭バイト

と判別できるわけだな。
112 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 21:57:31 ]: >>110-111はUTF-8の場合な
113 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 06:06:02 ]: >>112
なにが言いたいのかわからんが、
UTF-8はstr系の標準関数が、ほぼそのまま使えるから大好きだぞ。
ASCIIの前半文字との比較だって、何の躊躇もいらない。
str系に限らず、UTF-8のシステムならfopen等までそのままってのはでかい。
w系使えばいいってのは何かの冗談にしか聞こえない。
ま、UTF-16は、何も考えず0x00を織り込んだのが、糞仕様ってことだ。
114 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 06:28:52 ]: >>100
根本的に認識が間違ってる。
Unicodeの文字表現は元々複数のcode pointを組合わせた可変長
UTF-16でサロゲートが無くても2 byte毎に分割してはだめだし、1文字の長さは2
byte以上の可変長としか言えない。
文字単位に処理したかったらcode pointではなく、grapheme clusterが処理単位
code pointは文字の構成要素であって文字ではない。
115 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 10:21:11 ]: そこでISO/IEC 10646の実装水準1ですよ(もうすぐ廃止されるけど)
116 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 11:31:18 ]: >>113
世の主流言語がPascalとかBasicだったら今頃はUTF-16マンセーの時代だったのかもな。
117 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 11:43:25 ]: なんでPascalやBasicだったらUTF 16マンセーなの？

というか、現代は既にUTF16マンセーだろ？
118 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 11:48:34 ]: どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの？
16bitに無理にしたかった弊害がどこまでも付いて回る
今なら24bitなり32bitなりのコードで何の問題もなかった。
ほんの５年待てばよかったのにね。
119 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 12:16:54 ]: 何言ってるんだろね。こいつは。

>どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの？
文字コードから言語を選択する翻訳ソフトってアホだろ。
自動判定するとしても、使われている文字の種別で判定するだろ。

>16bitに無理にしたかった弊害がどこまでも付いて回る
一文目と文章が繋がってなく唐突で、
何が言いたいのか、根拠は何か、さっぱりわからん。

>今なら24bitなり32bitなりのコードで何の問題もなかった。
24bitは別の問題があるし。

>ほんの５年待てばよかったのにね。
「何を」「どの時点から」5年待てばよかったのかさっぱりわからんな。
120 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 12:20:56 ]: >使われている文字の種別で判定するだろ

ってどうやるの？
121 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 12:25:07 ]: >>119
>>99 の話じゃない？

バベル倒壊
・・・
　もう一つ、問題なのは、言語指定の仕組を文字コードレベルから排除してしまったことです。
ISO 2022や DIS 10646 1.0では、コードを見るだけで、それがどこの国の文字かを識別することができます。
それはアルファベットの「a」が、英語領域、フランス語領域、ドイツ語領域等々に重複して登録してあるから
なのですが、そんなことをしていたら16bit単一平面に全世界の文字を詰めこむことはできません。
言語指定などは必要なく、それよりも16bit単一平面におさめる方がメリットがある、というのが当時の
Unicodeの考え方だったのです。
122 名前：デフォルトの名無しさん [2007/05/03(木) 12:50:46 ]: Unicodeって多言語を扱う一部の人のためのものではないの？
自国語だけで足りてる人にも使わせようとしてるのはなぜ？
123 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 12:55:36 ]: >>120
asciiしか使われて無いなら英語とか。
文字コード判別より簡単だろ。

>>122
アプリの多言語化は一部の人だけの問題じゃないだろ。
124 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:11:52 ]: >>123
ウニコードの話してるんだろ？　なんでasciiの話が出るんだ？
EUC-JP なら日本語と判るのに
ウニコードだと基本ラテンが続いてるだけじゃどこの言葉か判らんだろ？
125 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:15:17 ]: ＞　アプリの多言語化は一部の人だけの問題じゃないだろ。

そう。一部の人だけの問題じゃないのに、一部、
特にＭ＄とシリコンバレーが利益率を上げる為に必要と突っ走ったのが
126 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:16:42 ]: 何語かを考えないで全て等しく文字として扱うための仕組みがUnicodeだろ
どこの国の文字かはコードポイントで判断すればいいだけ
127 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:35:36 ]: そのコードポイントでどう判断するんだ？
128 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:40:50 ]: JIS X 0208でもＡとΑとАはコードポイントで何文字か区別つくっしょ
129 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:42:09 ]: >>124
>ウニコードの話してるんだろ？　なんでasciiの話が出るんだ？
Unicodeの話だろ？
ascii範囲だけが多く使われていたらだよ。わかれよ。
Πが使われていたらロシアとかだよ。わかれよ。
130 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:48:30 ]: ascii　ってのは　基本ラテン文字の事だろ？
code.cside.com/3rdpage/jp/utf-8/Bacic_Latin.html

だったら、どうしてコレだけで英語だとわかるんだ？
131 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:02:01 ]: 完全に分かる分けないだろ。
後は単語で判別だわな。
132 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:02:25 ]: >>117
Pascal string と C string。
133 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:09:18 ]: >>132
Pascal stringって、文字列の先頭に文字の長さが格納されてるってもんじゃないの？

なんでPascal stringだとUTF-16マンセーになるか、全然説明になってないよ。
134 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:09:49 ]: 標準関数自体が今となっては問題の種な訳だが。

strsafe.h で追加された文字列操作関数について
ir9.jp/prog/ayu/strsafe.htm
135 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:13:23 ]: kono bunshou ha nihon-go desu.
136 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:53:41 ]: >>124
EUC-JPの半角英数だから日本語と決めつける方がどうかしてる
コメントに日本語が使われてるC言語のソースの単語は全部日本語か?
そもそもISO-8859-1の時点ですでに欧州の文字統一しまくりなわけだが?
137 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 15:11:27 ]: >>134
バッファオーバーフローは、古い関数だからおこるの？違うだろ。

なんであの会社は作り直しを奨励するようなことをやりたがるの？
仕事を増やすためじゃないの？
138 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 15:24:04 ]: このスレと文字コード総合スレの違いは?
139 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 15:29:19 ]: >>137
古い関数だと間違いやすく、新しい関数だと間違えづらいだろ？あってるだろ。

>なんであの会社は作り直しを奨励するようなことをやりたがるの？
古いC関数は使わないってのはもう常識なのに…
お前何十年と情報から隔絶されてたんだ…

>仕事を増やすためじゃないの？
逆逆。古い関数使うお前のようなバカの尻拭い仕事を減らすため。
140 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 15:37:53 ]: >>139
>古い関数だと間違いやすく、新しい関数だと間違えづらいだろ？あってるだろ。
何の話をしてるのかね？関数名を間違えるのかね？
「間違いが起こりやすく」だろ？日本語でおｋ。

>古いC関数は使わないってのはもう常識なのに…
常識なんつーのは、所詮、てめーの知識でしかねーんだよ。
軽々しく常識なんて単語使うな。
お前は、動いているプログラムを変更するが大好きなのか？
それこそ、お前のようなバカの尻拭い仕事をさせられるぜ。
141 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 16:04:49 ]: >>133
nullターミネートじゃないからUTF-16で間に0x00が入っててもそのまんま
扱えるってことじゃないの？
142 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 17:09:13 ]: >>140
バカかお前。動いているプログラムを変更しろなんてダレが言った？

これから間違えにくい関数を用意したら、
>なんであの会社は作り直しを奨励するようなことをやりたがるの？
>仕事を増やすためじゃないの？
こんなバカなこと言うアホは死んでね^^

>何の話をしてるのかね？関数名を間違えるのかね？
はぁ？お前の脳内では「関数名を間違える」としか補完できないの?
「使い方を間違える」とかあるだろ。ホントバカだねお前ｗ

「「使い方を間違える」はおかしい」とか言い出したらバカ確定なw
バッファをオーバーするような「使い方は」「おかしい」から。
143 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 17:24:43 ]: すいません、もうちょっと高度な話題でケンカしてもらえますか
144 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 17:33:42 ]: ハンドアセンブル最強
145 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 18:04:08 ]: 理由を言わないといけないわけだが・・・？最強だけ言われても納得するのはどんだけ・・・・
146 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 18:12:03 ]: 諦めろ。　叫んだ方の勝ちだ　
147 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 19:43:27 ]: >>142
>バカかお前。動いているプログラムを変更しろなんてダレが言った？
…作り直しを推奨する…。作り直し。新規の物に作り直しとは言わない。

>これから間違えにくい関数を用意したら、
用意しても全く構わないが、
#define等で旧式と同じようにも使えるようにするもんだろ。
それをしないから文句言ってんだ。

>「使い方を間違える」とかあるだろ。
予想も出来なかったわ。ま「使い方を間違える」なんて考える馬鹿が、あのs付きを有り難がるわけだ。
しかも、デフォルト設定。
M$も、オーバーフローも考慮できない馬鹿は、放置すりゃいいのに。
148 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 20:10:56 ]: 放置して叩かれるのはWindowsですから。
149 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 23:21:06 ]: >>147
msdn2.microsoft.com/ja-jp/library/ms175759(VS.80).aspx
Visual C++ 2005の場合では、常に使える訳ではないが、
従来の関数がそのままセキュリティ強化版の関数呼出になるようにできる
_CRT_SECURE_CPP_OVERLOAD_STANDARD_NAMESというマクロがある。

もっとも、C++限定なので、>>134のページと同じく、
そもそもC++ならクラスでカプセル化しろよということになるのだが。
150 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 00:11:02 ]: >>124
>EUC-JP なら日本語と判るのに
確かにEUC-JPなら日本語だけど、その前に
あるバイナリ列がEUC-JPであるとどうやって判断するんだ？
ISO-8859やEUCであることはわかっても
どこの国のかは単純には判断できないだろ
151 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 10:34:29 ]: >>129は世界には言語が５つくらいしかないとでも思ってんのか？
例えば、英語とインドネシア語はどうやって判別するんだ？ｗ　統計的手法とか言うなよ。お前の発言と矛盾するからな。
ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの？
152 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 11:00:39 ]: っ地球上の3人に1人はちうごく人
153 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 11:34:10 ]: インドも恐ろしい。下手すると、世界の現行文字の３分の１くらいはインド１国で占めかねない。
154 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 12:52:20 ]: お前ら言語タグ使えよ。
155 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 13:33:44 ]: > ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの？
それはEUC-JPでも全く同じように問題なわけで
文字コードで言語判別しようとするのがそもそもの間違い
156 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 13:58:05 ]: 「日本語をアルファベットで表記する」なんていうこともあるし、
言語とスクリプト(日本語では「用字」だっけ?)も分けて考えないといかん。
157 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 14:02:25 ]: yorosikuと夜露死苦と紐育と上海はそれぞれ何人の何語の何文字なのかというやつだな。
158 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 17:33:09 ]: This site is Japanese only.
と英語で書いてある日本語サイトとはこれいかに
159 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 17:58:11 ]: Ｓｏｒｒｙ　Ｊａｐａｎｅｓｅ　ｏｎｌｙとか
160 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 18:11:29 ]: 哀れな日本人のみ利用可能
161 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 18:19:31 ]: しかも全角
162 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 20:10:22 ]: たまには縦倍角・横倍角・４倍角も思い出してあげて
163 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:08:28 ]: フォントの拡大縮小が自由にできなかった時代の遺物ですね
テラナツカシス
164 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:11:07 ]: 半角全角もあぼーんしてくれ
165 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:16:01 ]: 半角カナは組み込みでまだ使ってます
Unicode？なにそれ？

炊飯器で使われるようになったらUnicode勝利宣言してもいいかな
166 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 22:05:58 ]: そこに全角文字、マルチバイト文字はあるのか？
167 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 23:38:55 ]: 笑園漫畫大王
168 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 00:05:38 ]: This Home Page is Link Free !
169 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 09:05:28 ]: This Home Page is Link GPL!
170 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 11:53:34 ]: This Home Page is Open Source.
171 名前：デフォルトの名無しさん mailto:sage [2007/05/13(日) 17:05:06 ]: 「私のために争わないで」文字コードのUTF8さん、自殺 : bogusnews
bogusne.ws/article/41580267.html

ｸｿﾜﾛﾀ
172 名前：デフォルトの名無しさん mailto:sage [2007/05/13(日) 17:18:03 ]: ネタにマジレスするのもアレだがUTF8とCP932の年齢がおかしくないか?
173 名前：デフォルトの名無しさん mailto:age [2007/05/17(木) 13:33:45 ]: アスキーとアンジーの違いは？
174 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 13:49:36 ]: >>173
JIS と JIS X 0201 の違いを聞いてるようなもんかな
175 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 14:16:28 ]: ？

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef