1 名前:858 [2007/12/24(月) 03:41:59 ] C++標準ライブラリの一つ、STLについて。 前スレ 【C++】STL(Standard Template Library)相談室 7 pc11.2ch.net/test/read.cgi/tech/1185986999/ 過去ログ・リンク・書籍紹介は >>2 以降
304 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:37:18 ] wchar_t はその環境で扱える最大サイズの文字コードを入れる事ができるサイズであって UTF-16 だと決まってるわけでもないわけだが。実際4バイトの環境もあるし。 まあ、次期 C++ だと char16_t (UTF-16) や char32_t (UTF-32) が追加されるわけだが。
305 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:39:36 ] しかしwstringだと98系はもうだめだな。 クロスプラットフォームじゃないじゃんstl。。
306 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:40:32 ] クロス文字エンコーディングじゃないだけ。
307 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:40:52 ] >>303 UTF-8でもfindは問題ないからそのレベルでいいんだったらwstringを使う意味がない
308 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:41:38 ] >>304 それはビット幅だけじゃなくて中身もUTF-16/UTF-32であることが保証されてるの?
309 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:42:28 ] >>303 sizeがだめでしょ。
310 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:43:03 ] そんなもん中身を入れるコード次第だろ。
311 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:44:59 ] >>309 sizeは「か」に半濁点とかまで考慮するとUTF-32でもだめ
312 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:45:47 ] で、おまえらどうやってんの? string s = "abc"; // sjis!!。findとかしないで。。 wstring s = _T("abc"); // ウニコード。98とかでビルドしないで。サロゲートやばいかも どっちも地獄だな。CStringの方がましじゃね?
313 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:46:11 ] >>309 size は配列サイズが取得できれば十分じゃないか?
314 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:49:27 ] size()/length()はstrlenと等価だから。元々文字数を返すことを期待してはダメ。
315 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:50:00 ] だからIBMがアレを作ったのさ なんだっけアレ 眠くて思い出せない
316 名前:デフォルトの名無しさん [2008/01/27(日) 01:51:44 ] ICU
317 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:52:02 ] 集中治療室
318 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:54:11 ] >>308 Yes.
319 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:55:41 ] >>311 つか、ウニコード捨てればええだけの話しちゃうの? ウニコード捨ててもそんなにデメリットないような… … …
320 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:56:41 ] サロゲートはサブマリン的に最近問題に。。Unicode側は昔っから、 Utf-16はランダムアクセスはできない文字コードですよと言ってきたんだけど なんとなく流されて2バイトで便利みたいに扱われたり、たいていsizeは文字数を 返すとか説明されたり。。もう混乱の極み。 Javaとかはlengthは2バイト単位の長さを返す仕様に変わり、文字数の取得は codePointCountが追加されたりどの言語も苦肉の策を講じてる状態。 stlもなんとかしないといけない状況ではある。
321 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:58:34 ] >>320 日本語だけ扱ってる状況でサロゲートペア関係あるっけ
322 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:58:42 ] むしろ、stringをタダのコンテナに引きずり落とすくらいの意気込みで。
323 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 01:59:59 ] size が文字数返すなら、イテレータは1文字ずつ拾ってくる必要があるし、 そうなった時その型はどうするんだ? って話になる。 UTF-32 で合成があった場合とか、64ビット値を返すのか?
324 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:01:42 ] やっぱ速度の問題もあるし、javaみたいにsizeとcodePointCountの両方用意 しとくしかないんじゃないかなあと
325 名前:デフォルトの名無しさん [2008/01/27(日) 02:02:41 ] gccのwchat_tは32bitだから楽勝
326 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:04:33 ] >321 JIS2004と愉快な仲間たち。 >323 final はsizeいくつ、って話だよね。
327 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:05:42 ] >>325 サロゲートの文字数は取れない点は同じだけどね
328 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:07:28 ] イテレータだけじゃなくて [ ] も文字数に合わせた形にする必要がある。 でも、ランダムアクセスなんて無理じゃん?
329 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:09:46 ] world_char_tが定まるまで待ちましょう。
330 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:12:03 ] 結局ランダムアクセス用の冗長なデータを込みにしたクラスにしないとどうしようもないし、 パフォーマンス上そこまで標準に組み込まれることは無いだろう。 まあ、それ用のクラスを string 系列とは別に作ることは可能だろうが、 SJIS とかはまあ無理だな。
331 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:12:42 ] length(L"final")が5と帰ってきてくれたら、なにか嬉しい?
332 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:14:25 ] wstringのfind,insert,appendとかはサロゲートも平気そうな気がするけど なんとも微妙。。 文字とか文字数を意識した扱いをしようとしない限りは平気なのかな・・?
333 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:15:23 ] 文字数を指定しての置換とかはやばそうだな。
334 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:16:12 ] 非常によく使うデータ構造だから、効率を犠牲にして理想に走れないもどかしさ
335 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:16:41 ] findは大丈夫そうだけど、insert/appendは、サロゲートの前半だけ+別の文字、 みたいな不正な文字列を受け付けるべきか、みたいな話はあるよね。
336 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:17:18 ] 英語圏だとマルチバイトうぜーとかしか思われてないだろうしな。
337 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:18:12 ] stdc++のレベルで理想に走らなくても良いよ。というか理想がなんなのかも分からないし。この話題はこっち向きじゃないかい。 C++で新しい文字列クラスをつくろう 2 pc11.2ch.net/test/read.cgi/tech/1167132255/
338 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:20:06 ] 普通insertする文字とかiteratorもfindの結果のiteratorとかなわけで 問題なくね? >>333 確かに文字数指定でサロゲート文字の途中とかになってたら文字が切れちゃう よねぇ
339 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:21:08 ] もうこういうのは boost の領分かもしれないな。
340 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:21:41 ] がしがし書き換えたいならutf32に変換してから、書き換えて、utf8なりutf16なりに戻すほうが簡単そうだ。
341 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:24:29 ] 結局、find/appendなどの引数に与える文字が文字の途中などでない、 と文字数指定の関数に文字の途中などの数を指定しない を守ってればサロゲートもおけ、でいいのかな?
342 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:26:18 ] まぁあと15年位したら皆UTF-32でのんびりやってるさ
343 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:26:48 ] >>341 それを守るためにどれだけのコストが掛かるかって話してるんじゃないのか
344 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:27:16 ] >文字数指定の関数に文字の途中などの数を指定しない これを守るのがすげー大変そうだ。
345 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:27:59 ] まだSJISが使われてると思います><
346 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:28:55 ] SJIS 専用のクラスならまあ作れるだろうな。
347 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:29:01 ] 俺頭から5文字取るみたいなコードとりかえしがつかないくらい書いてるな
348 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:32:47 ] >>341 文字数ならサロゲートを割ってしまうことはないよ。 サロゲートペア一組で一文字だから。
349 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:33:58 ] wchar五個分でなくて、5「文字」分きちんと取れるコードを?
350 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:35:13 ] たとえば、 「か゛」は1文字という扱いでいいのか? 「か゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛゛(略」 みたいなどうしようもない連中はどうしよう?
351 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:38:26 ] >>348 std::string(wstring)の「文字数指定」は、1文字が固定長のコード体系が前提だから、サロゲがあると壊れるよ。 >>350 それペアになってなくない?
352 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:38:36 ] >>348 >サロゲートペア一組で一文字 一組で4バイト(結合文字は6バイトもある) で、文字数(というより2バイト単位)指定はアウト。 s = サロゲート文字列 s2 = s.substring(0, 5) とかやったらあぼーんでしょ
353 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:42:20 ] >>352 文字数というのは、キャラクタ数という意味で使った。
354 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:47:21 ] CString的にTCHAR使えてさらにクロスなものはないのかね?
355 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:48:52 ] >>350 合成文字は2キャラクタでしょ。 合成文字をぶった切ると、意味は通じなくなるかもしれないが違法ではない。
356 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 02:53:07 ] ああ、その「キャラクタ数」というのは、要するにUTF-32換算なわけか。
357 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 03:00:31 ] Winではstringは使うな。2バイト目が1バイト目とかぶってやがるからな。 wstringはサロゲートに注意して使え。途中で切るなよ。 Win98とかまだやってるカスはCStringでも使ってろ。 LinuxではstringでもEUCとUTF-8は2バイト目が1バイト目とかぶらないからまだ なんとかなるはずだ。 クロスにしたいなら文字列クラスは当然自前だろ? が俺の現状の認識
358 名前:デフォルトの名無しさん [2008/01/27(日) 03:02:31 ] >>327 ハァ?
359 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 03:09:34 ] >>358 へ?
360 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 03:14:40 ] >>357 追加でMac OS XはCFString使っとけ。以上。
361 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 04:50:39 ] >>357 OS 関係なくてエンコーディングの話だろ? Windows でも UTF-8 使えば問題ないし、 Linux でも Shift_JIS 使えば問題は出る。 クロスにしたければエンコーディングを OS 任せにしなければ良いだけの話。 たとえば UTF-8 を使うと決めれば std::string でもいけるでしょ。
362 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 05:05:46 ] >>361 だけの話・・って、実際にUTF-8でやったことないんだろ?試しにやってみなよ。 APIに渡すとき、コンソルに出すときすべてに変換をかます必要あるだろ? 文字リテラルはどうするんだ?ソース内のUTF-8はまだコンパイラのサポートが微妙だぞ。 現実的じゃないんだよ。OSが正式にサポートしてるSJISとかUTF-16以外を 内部エンコーディングにするのは。
363 名前:デフォルトの名無しさん [2008/01/27(日) 05:33:05 ] 1文字が何バイト使うかはどれ使っても一定ではない どれを使うか決まっていればどれ使ってもよい
364 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 05:48:20 ] UTF-32は4バイト固定。でも合成文字があるので結局同じ問題は残る。
365 名前:デフォルトの名無しさん [2008/01/27(日) 06:53:55 ] 一方ロシアはモールス符号を使った
366 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 06:59:29 ] 合成文字なんて捨てろ すべての文字を表現したいなんて無駄の極み
367 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 08:26:25 ] おいおい、放棄かよ
368 名前:デフォルトの名無しさん [2008/01/27(日) 08:37:31 ] >>362 入出力と多言語以外の問題はなし 日本語使うんだったらどれでも同じ 入出力にコンバートするのに手間がかかるかどうかだけ
369 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 10:08:29 ] 全部画像でおk
370 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 12:33:49 ] 16x16ピクセル(256ビット)のパターンで全ての文字を表現するとかどっかで見たな。
371 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 13:24:31 ] 文字コード総合スレだと思った つーかPDFでおk
372 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 13:25:37 ] ( д ) ゚ ゚
373 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 15:15:28 ] >>365 一方ロシアは画像を使った こっちの方がしっくりくるな。
374 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 15:52:02 ] >>370 宇宙の星にそれぞれ新しい文字で名前つけてもあまるだろw
375 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 16:26:01 ] 一文字32バイトは流石に先取りしすぎだな
376 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 16:37:26 ] string path = "c:\\機能仕様書\\01.doc"; path.find("\\"); こんなであぼーんするstringは危険としか言いようがない
377 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 16:47:52 ] そんなアホなことをする方が悪い。
378 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 16:55:52 ] 1文字に1GB
379 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 16:56:20 ] もう OCR でいいよ・・・
380 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 17:24:37 ] 人間様の認識能力を利用する形が最強
381 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 17:28:05 ] 人間なんてよく読み間違うじゃん
382 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 17:56:59 ] >371 CID(AJ15)のことか? あのコードも印刷以外に使うのは 結構アレなんだけどなー。
383 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:00:16 ] C++ メンバ関数内で スコープ解決演算子で classname::メンバ変数 の値変更するのと this->メンバ変数 の値変更するのは何が違うの?
384 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:04:56 ] struct P{int m;}; struct C : public P{ int m; void f(){ this->m = 0; this->P::m = 1; } }; みたいな話。
385 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:07:20 ] >>377 findが使えないstringって・・・カスめ
386 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:09:21 ] path[path.find("\\")] == '\\'になるじゃん、ちゃんと。
387 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:12:41 ] 返答ありがとう。 最初の this->m は C のオブジェクトのメンバ変数m this->P::m は何でしょうか?
388 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:14:13 ] >>386 まじか?
389 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:16:16 ] >>386 そりゃなるだろwww
390 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:16:42 ] >>387 P の m にきまっちょるだろう
391 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:22:57 ] >>386 マジレスすると「能」の2バイト目の「\」がfindで見つかっちゃったんです。 string s = SJISの日本語; はやっちゃだめなんです。初心者はみんなやってしまうんですが。
392 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:23:56 ] >>384 >>390 継承したときに変数名かぶった場合コウ書くんですね。 でも、多重に継承した場合、どう書くんだろう?
393 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:29:12 ] scope
394 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:35:01 ] >>392 間の型へ一旦 this をアップキャストすると良い。
395 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:35:31 ] >>391 だから、find とか使わない分には使っていいんだってばよ。
396 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:35:39 ] あー、ダイヤモンド継承か。 P1::P2::Pb::a = 100; みたいに、継承順を追いかければ指定できたような・・・
397 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:37:14 ] char []hoge = SJIS文字列; とかやって、 strchr( hoge, '\\'); ってまずいじゃん。 でも、「char配列にSJIS文字列入れるの禁止」って言うのはどうよ、みたいな。
398 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:37:36 ] 別の言語の癖が出てるぜ
399 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:37:59 ] >>397 そうそう。そんな感じ。
400 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:42:17 ] 文字コードの話って、荒れる割に全然面白くないし、有用な知見も得られないんだよな。
401 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:44:35 ] 結局毛唐が ASCII 以外どうでもいいと思ってるからな。
402 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:47:46 ] 何も考えずに動いていたCStringがなつかすぃ。。 そういえばなんでがんばってfind禁止のダウングレードのstd::string使ってるん だったっけ? だれかどこでも動くCString作ってぇぇ
403 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:49:03 ] >>393 >>394 >>396 ありがと。 やっぱC++はスゲーや。 Cのシンプルな文法に慣れきったオレには奥が深いぜ。
404 名前:デフォルトの名無しさん mailto:sage [2008/01/27(日) 18:49:05 ] ドザは Windows のことしか考えないから困る。