UnicodeとUTF-8の違いは？　その2

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 05/22 16:06 / Filesize : 183 KB / Number-of Response : 805
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん [2010/11/30(火) 09:00:05 ]: 富士通だとデフォルトでは生成されない
frt -c -Am -M./ (なんとか.f90)
でいけるのではなかろうか。いずれにせよ、
frt -help | less
とかやって、"module"で検索を掛けるのが吉。
433 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 01:24:56.95 ]: Visual C++がコードページにうにコードをセットできないのがすべての敗因。
コマンドプロンプトも未だにうにコード使えないし、ファイルシステム事態はうにコードを使えても
ファイル名をやり取りするAPIの中にうにコード版が存在しないものが…

WindowsだけシフトJISで。
434 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 01:32:12.35 ]: >コマンドプロンプトも未だにうにコード使えないし

cp 65001
435 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 01:39:37.21 ]: >>433
ttp://yukarin.wiki.fc2.com/wiki/Tips
436 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 02:07:10.34 ]: よし、コマンドプロンプトのうにコード問題は解決したぞ
あとはVC++がlocaleにうにコードをセットできるようになってくれれば解決だ。
437 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 02:07:27.82 ]: ほー。
chcp 65001すると今まで動いてた以下のコードが正しく動かないんだがどうすればいい？
　_tsetlocale(LC_CTYPE, _T(""));
　_tprintf(_T("マンコ\n"));
438 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 02:56:46.07 ]: windows のシステムロケールを変更して再起動
439 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 08:53:05.57 ]: mendoxer!
440 名前：デフォルトの名無しさん mailto:sage [2011/11/17(木) 03:47:25.53 ]: 囗囘囙囚四囜囝回囟因囡团団囤囥囦囧囨囩囪囫囬园囮囯困囱囲図围囵囶囷囸囹固囻囼国图
囿圀圁圂圃圄圅圆圇圈圉圊國圌圍圎圏圐圑園圓圔圕圖圗團圙圚圛圜圝圞
441 名前：デフォルトの名無しさん mailto:sage [2011/11/19(土) 21:17:47.39 ]: シフトJISはWindowsだけってことはないと思うぞ。
むしろ自分の周りだとWindows以外のシステムはいろいろあるけど
情報交換はシフトJISでまず問題がない。ユニコードにお目にかかる
ことのほうが滅多にない。
442 名前：デフォルトの名無しさん mailto:sage [2011/11/20(日) 04:14:11.87 ]: >>441
> 情報交換はシフトJISでまず問題がない。

老害しねや
443 名前：デフォルトの名無しさん mailto:sage [2011/11/20(日) 11:36:54.27 ]: 最近は中国人の顧客とかも増えてるからUnicode対応じゃねーと死ぬわ俺んとこは
444 名前：デフォルトの名無しさん mailto:sage [2011/11/20(日) 12:29:01.95 ]: 異体字セレクタと互換漢字どっち使うにしてもUnicodeは地獄
445 名前：デフォルトの名無しさん mailto:sage [2011/11/20(日) 20:58:49.78 ]: 互換漢字・意自体セレクタはUnicodeよりシフトジスの方が優れていると？
446 名前：デフォルトの名無しさん mailto:sage [2011/11/20(日) 21:12:01.10 ]: 中国の客とか、その時点で死だろ
447 名前：デフォルトの名無しさん mailto:sage [2011/11/20(日) 21:17:11.83 ]: 異体字があっても意味を区別できるヤツなんて
1000人に1も居ないんだから、異体字なんて駆逐してしまえ。
国も時代に合わせろよ。
448 名前：デフォルトの名無しさん mailto:sage [2011/11/20(日) 22:39:49.13 ]: 全国の渡邊さんと渡邉さんがアップをはじめたようです
449 名前：デフォルトの名無しさん mailto:sage [2011/11/21(月) 02:15:21.62 ]: 源規格分離のUnicodeに移行すれば、メリットは多数あってもデメリットは無いだろ。

互換漢字とか話をすり替えてユニコード批判するしかないとは。
いつまで20世紀に生きてるんだよ
450 名前：デフォルトの名無しさん mailto:sage [2011/11/21(月) 13:52:38.60 ]: >>444だけど、>>441書いたのは俺じゃないからな
当然だけどShift_JISが使えない規格ってのが大前提だが

>>449みたいなやつも程度としては>>441と同レベルだわ
デメリットないとか本気で言ってんならな
そりゃ、ソフトウェアを源規格分離のUnicodeで作るだけなら楽だけど
使うやつはUnicodeのことなんてなにも分かっちゃいないんだぞ
使われてるうちにデータがどういう惨状になるか分かってんのか……
451 名前：デフォルトの名無しさん mailto:sage [2011/11/21(月) 15:03:02.41 ]: >>449 は全ての問題が解決した22世紀から来た人なんだろう、多分
452 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 20:24:22.16 ]: >>449
合成漢字とか、マイナーな漢字で問題が有るっちゃあるらしい。
だから、PDFに複数のエンコーディングを同時に使いたいという需要が
あったりする。
453 名前：デフォルトの名無しさん mailto:sage [2011/11/24(木) 08:26:11.02 ]: 原規格分離でも、別規格の文字が同じコードポイントという致命的欠点を「前世紀に批判」と誤魔化してみても、
その致命的欠点が前世紀からそのままであるという事実は変わらないけどなw
454 名前：デフォルトの名無しさん mailto:sage [2011/11/24(木) 20:20:13.17 ]: >453
それは別に致命的な欠点ではないだろう
統一漢字をせっかくまとめたのに、互換漢字を作ったのが失敗なんだよ
最初から異体字はセレクタでよかった
455 名前：デフォルトの名無しさん mailto:sage [2011/11/24(木) 20:50:09.36 ]: 使い物にならないままでよかった、とw
456 名前：デフォルトの名無しさん mailto:sage [2011/11/24(木) 20:56:22.92 ]: ﾊｧ?
457 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 11:51:28.97 ]: 痛い字セレクたん
458 名前：デフォルトの名無しさん [2012/01/09(月) 10:04:59.13 ]: >>457
459 名前：デフォルトの名無しさん mailto:sage [2012/01/09(月) 10:20:35.33 ]: れ
460 名前：デフォルトの名無しさん mailto:sage [2012/01/15(日) 21:54:45.42 ]: 書き込みが少ないようだが、スレタイの疑問には
コンセンサスが得られたってことでいいんだよな

Unicode: UTF-16リトルエンディアンBOMあり
UTF-8: よく使うアレ
461 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 09:15:50.56 ]: そんなコンセンサスはない。
MSがそう表記したがってるのは事実。
'Unicode'と'UTF-16LE'を同一視するような言い方をすれば
頭の弱いかわいそうな人と見なされる。
少なくともそいつと技術の話はできない。
462 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 14:23:26.17 ]: JavaもUTF-16の意で使うよね。MSだけじゃなくて
463 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 15:19:44.52 ]: >>462
使わねーよ。よほど古い、1990年代にかかれたような文書ならともかく。
単に文字列の内部表現がUTF-16というだけ。
464 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 15:45:26.60 ]: つまり使ってるという訳ですね
465 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 17:06:14.95 ]: 使ってないじゃんｗ
466 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 18:40:17.48 ]: 実質UTF-16しかなかった時代には、Unicode＝UTF-16として扱っているドキュメントは多かった
MSは、単に旧時代の言い方をいつまでも引きずっているだけ。別にそう表記したがっているわけじゃない
467 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 18:43:23.43 ]: かつては符号化文字集合と文字符号化方式は一対一で不可分だったからね
でも時代は変わったんだからマイクロソフトは自分の所でしか通じない用語は改善するべきだと思う
468 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 22:54:53.28 ]: >>463 おＪＡＶＡ様はUnicodeがUTF-16BEの様ですね。
System.out.printf(new String(new byte[]{(byte)0x30, (byte)0x70, (byte)0x30, (byte)0x4B}, "Unicode"));
469 名前：デフォルトの名無しさん mailto:sage [2012/01/17(火) 08:39:03.98 ]: お前も頭悪いな。そんなところの互換性無くして誰か喜ぶと思ったのか？
470 名前：デフォルトの名無しさん mailto:sage [2012/01/17(火) 13:55:57.57 ]: つまり使ってる
MSと同じ
471 名前：デフォルトの名無しさん mailto:sage [2012/01/17(火) 14:10:23.18 ]: >>467
そりゃ、無理な相談だ
472 名前：デフォルトの名無しさん mailto:sage [2012/01/28(土) 03:34:36.69 ]: >>467
日本語でおk
473 名前：デフォルトの名無しさん mailto:sage [2012/01/28(土) 23:14:28.00 ]: 結局Unicodeの定義にコンセンサスがないので、違いを語ることができないということでOK?
Unicodeは規格の名前だが、文字集合の意味で使われたり、UTF-16の意味で使われたり、意味も分からずユニコードと言ってみたりカオス？
474 名前：デフォルトの名無しさん mailto:sage [2012/01/29(日) 07:23:52.01 ]: 混同してるバカがいる、ってだけの話
475 名前：デフォルトの名無しさん mailto:sage [2012/02/07(火) 21:50:52.80 ]: 英語は大小あわせて46文字しかないし、数字10文字、記号もろもろ入れても7bitで128種類も有れば足りるよね。1byteは8bitだから頭は常に0にしとくよ。
-> ascii (7bit)

んじゃ「頭に1つけたときは半角カタカナ」ってことにしといたらasciiに日本語混ぜれるんじゃね？
いろは47文字に濁点、半濁点、カギカッコとか句読点も入れとくわ。
日本でバックスラッシュとか使わんからこいつは円記号と一緒なｗｗｗ俺天才ｗｗ
-> JIS X 0201

アルファベットだけじゃヨーロッパは物足りないんで、
日本が半角カナ入れたところにウムラウト付きの文字とか入れときます。
-> latin-1

漢字絶対必要なんで、asciiとかほっといてとりあえず2バイトで表現できる文字集合選定しときます。
限りある空間資源なんで「掴」と「摑」とかは一緒ってことで堪忍してください。(包摂)
あ、英語書く時は全部全角でおながいします。
-> 97JIS符号化方式によるJIS X 0208文字集合の利用

いやいや、英語重要なんで。マジ。無視とかありえないんで。
はい、頭が1のバイト隣同士でasciiサンに迷惑かけないよう二人組作ってー。
JIS X 0201のカナ文字は無視しておｋ。これでJIS X 0208の文字も表現できる。
……あれ、半角と全角でアルファベットダブっちまってるけど……まいいか。
-> EUC-JP

おい、メールは7bit符号しか使ったあかんらしいぞ。えー。
切替用の透明文字（エスケープ文字）作ってその文字以降はそれぞれのコードってことにしよ。
-> ISO-2022-JP

asciiもJIS X 0201の半角カナも無視とか親泣くぞ。過去の遺産大事にしろ。
まぁ漢字使いたいけどエスケープ文字とかダルすぎるし、
JIS X 0201の空いたトコもらって2byteで使わせてもらうわ。
え？そこは制御文字用って？知るかボケ。
-> Shift_JIS
476 名前：デフォルトの名無しさん mailto:sage [2012/02/07(火) 21:51:23.32 ]: 結局同じ文章に外国語入り混じらせて使いたい？
分かった分かった。お前ら黙れ。4バイトで世界中の文字全部平等に並べ直そう。な。
-> ISO/IEC 10646

ちょっとまって同じ事やろうとしてるんだけど。2byteで。
-> Unicode

足並みそろえよか。4byteやけど上2byte全部0の実質Unicodeでやってこや。
おうアジアの土人ども、母国語の文字数すら数えられんのに大きい顔すんなよ？
迷惑なんだから、似たような文字はガンガン同じにまとめとけ。(CJK統合漢字)
-> 10646とUnicodeサブセット

メンゴメンゴ。65536個じゃ足らんかったわｗ
Unicodeの2byte2つ組み合わせる方針にします。
2つのbyteのうち前後どっちを先にするかは文章の始めに印を付けて表すことにしましょう。(BOM)
素直に全部前から読む時はビッグエンディアン、天邪鬼さんはリトルエンディアンってことで。
でもでも、やっぱよく使う文字とよく使わない文字が同じビット数占拠するのもバカらしいんでー、
よく使う文字(BMPの文字)は2byte単体、それ以外は2つくっつけて表す事にします。(サロゲートペア)
-> UTF-16

結局くっつけるんかいｗｗｗそれやったらasciiとの互換も考えれｗｗｗ
1文字あたりのバイト数は可変長だけどasciiの文字しか使わなかったらasciiと一緒になる。
-> UTF-8

サロゲートペアは甘え。容量も懐も大きいとこ見せろ。
Unicodeをそのまま直書きで4byte固定符号化方式。どや。
Unicodeの文字並び(U+00303Dとか)がそのまんま0000303Dで分かりやすい。
-> UTF-32
477 名前：デフォルトの名無しさん mailto:sage [2012/02/07(火) 23:14:02.83 ]: 符号化文字集合の一文字1コードっていう大原則を破った時点でもうぐちゃぐちゃだったんだよ。
もうどんな符号化文字集合を持ってきても絶対に誰も幸せになれない。
478 名前：デフォルトの名無しさん mailto:sage [2012/02/07(火) 23:57:30.91 ]: >>476
Unicodeの意味をを勘違いしている典型例ですね　
円コーディングフォームと円コーディングスキームの区別もつかなくて、
リトルエンディアンが天の邪鬼とか言い出すバカ
479 名前：デフォルトの名無しさん mailto:sage [2012/02/08(水) 00:00:19.79 ]: わけ判らん駄文を読むヤツが居たという事の方に笑ってしまったわ
480 名前：デフォルトの名無しさん mailto:sage [2012/02/08(水) 00:07:39.59 ]: 円コーディングｗ
481 名前：デフォルトの名無しさん mailto:sage [2012/02/08(水) 07:36:46.60 ]: 誰も46文字にはつっこまんのか。
482 名前：デフォルトの名無しさん mailto:sage [2012/02/08(水) 16:12:14.16 ]: >>475-476がまるっきり変遷の歴史と違う上に、技術屋とは思えないレベルの勘違いがありすぎ
483 名前：デフォルトの名無しさん [2012/02/08(水) 17:20:13.44 ]: 英語は大小あわせて46文字しかないね。
-> ascii (7bit)

アイちゃん言語訓練には足りないね。
-> UTF-32
484 名前：デフォルトの名無しさん mailto:sage [2012/02/08(水) 18:50:51.84 ]: いろは48文字につっこむのが先
485 名前：デフォルトの名無しさん mailto:sage [2012/02/08(水) 23:04:17.54 ]: なんでバイトオーダーとキャストの話が出てこない？
486 名前：デフォルトの名無しさん mailto:sage [2012/02/09(木) 01:11:51.86 ]: kwsk
487 名前：デフォルトの名無しさん mailto:sage [2012/02/09(木) 23:29:02.94 ]: >>475-476 はセンスあるね
エンディアンの説明がおかしい他はいい線いってる。
時系列を変えてるのはわかりやすさのためだろ
488 名前：デフォルトの名無しさん mailto:sage [2012/02/10(金) 00:57:08.24 ]: TCP/IPの立場から考えればリトルエンディアンは十分天邪鬼だろ。

Intel CPUはリトルエンディアンだが
整数値を小さな型にキャストしようとする時
先頭アドレスを変えずに読み込みを途中で打ち切るだけで済む。
ビッグエンディアンだとスライドさせないといけない。
その分リソースを食う。

でも数値をどこかで切り捨てたい時とか上から順にダンプかけたいときは
メリット・デメリットが逆になる。

円記号問題の根底はJIS X 0201というよりISO 646各国版の普及にあって、
もっと世界的なもんじゃないのか？　トライグラフとか。

誰か詳しい人解説頼む。
489 名前：デフォルトの名無しさん mailto:sage [2012/02/10(金) 08:33:56.11 ]: トライグラフはEBCDICでもC言語を書けるようにしたものだから、あまり関係ない。
490 名前：デフォルトの名無しさん mailto:sage [2012/02/10(金) 21:48:22.40 ]: えっ？
491 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 01:09:06.04 ]: ビッグエンディアンがマトモだと信じているバカはプログロマー止めた方がいい
492 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 08:38:33.85 ]: なんで？

ワード長の拡張で、対応がずれる、以外のディスアドバンテージがあるならどうぞ。
493 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 09:53:05.21 ]: どう考えても下位ビットが下位アドレスに格納されるリトル園ディンのが自然じゃね?
ビッグエンディアンは奇数アドレスアクセスとかできないでしょ。
GIF画像の圧縮みたいな可変ビット長データの連続してパッキングは、ビッグエンディアンじゃやってられない。

デメリットは「ビットの上位の方向とバイトの上位の方向が逆」に尽きる。
494 名前：デフォルトの名無しさん [2012/02/11(土) 10:07:27.29 ]: こうして小人さんたちの戦いは続くのであった。
495 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 10:10:47.68 ]: まともなビッグエンディアンのアーキテクチャなら、ビットにアドレスが付く命令でも、
MSBがアドレス0だよ？

ビットアドレスが2の冪と対応してない、とは言えるけど、直感的でない、以外に問題ある？
496 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 10:21:38.52 ]: 1バイト内のビットアドレスじゃなくてメモリ(バイト)アドレスのことだろ。
4バイト整数12345678hの上位バイト12が上位メモリアドレス3に書かれるのがリトル。
4バイト整数12345678hの上位バイト12が下位メモリアドレス0に書かれるのがビッグ。
FFhに1足して上位桁に繰り上がったら、より下位のアドレスが変わるなんて変と思わないの?
497 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 10:31:03.80 ]: アドレスが大きい方が下位と思えばどうということはない。
498 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 10:41:26.87 ]: 二つ前のレスも読めないなんて、
こういうバカがビッグエンディアンを設計したんだろうな
499 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 10:49:46.08 ]: UTF-8は上位ビットが下位アドレス側に格納されるから、設計者は馬鹿だし、
リトルエンディアン信者は当然使わないよなw
500 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 11:02:53.62 ]: どうやら自分以外は全て馬鹿病の患者が、リトルエンディアン凄い、偉い、と吠えてるだけのようですねw

準TADのTRONコードでも使ってろw
501 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 11:44:58.61 ]: >>388
考えたのはＭ＄だからな。
502 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 11:48:27.56 ]: MS叩きとか、いまどき流行らんわ
503 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 11:51:29.54 ]: >>499
cpuがメモリに直接ワードアクセスする時のメモリイメージの話と、
バイトオリエントにシリアライズしたutf-8の話を一緒にするのはいくないぜ
504 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 12:13:02.50 ]: >>501
いやほんとbomのおかげで助かるわ。
utf-8とその他のコードをほぼ確実に判別できる
505 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:26:42.27 ]: >>504
utf-8なのにBOMって
506 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 21:38:11.32 ]: >>505
何か問題が？
UTF-8のシグネチャーとして大活躍じゃないか
507 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 02:20:34.14 ]: 名前が良くないな。
援交ディングスキームシグネチャー
これでおk
508 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 02:52:52.82 ]: 異体字セレクたん
みたいだな
509 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 08:16:34.20 ]: UTF-8のBOMって、オプションなのでしょうか?

例えばUTF-16の場合、先頭の<FE FF>はU+FEFFでなくBOMと見なす必要がありますが、
UTF-8ではUnicode 6の3.10D95をみると『can』とあるので、UTF-8の先頭の<EF BB BF>を
U+FEFFと見なすことは禁止されていないように見えます。

先頭<EF BB BF>の解釈は自由という理解で良いでしょうか?
510 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 11:27:09.36 ]: よくありません
511 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 12:25:31.41 ]: why?
512 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 15:56:41.47 ]: U+FEFFはBOM限定になったような
513 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 23:11:21.56 ]: 既存の文書の存在は認めないのですね
514 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 23:28:04.18 ]: はい
はい
515 名前：デフォルトの名無しさん mailto:sage [2012/02/13(月) 00:47:58.80 ]: >>512
ソースｷﾎﾞﾝﾇ
516 名前：デフォルトの名無しさん mailto:sage [2012/02/13(月) 12:43:00.82 ]: www.unicode.org/charts/PDF/UFE70.pdf
のU+FEFFで、non-breakingは代わりにU+2060を使ってね、と。
www.unicode.org/charts/PDF/U2000.pdf
のU+2060で、BOMの曖昧さを無くす為に、と。
その方向で行こうね、位の意味合い？
517 名前：デフォルトの名無しさん mailto:sage [2012/02/13(月) 23:32:42.50 ]: 先頭のU+FEFFは、UTF-16ではBOMで、UTF-16LEやUTF-16BEではZWNBSPになるのか。
で、UTF-8ではUTF-16やUTF-32から変換されたときBOMが付くことがあって、
UTF-8としては不要だけどUTF-8かどうかの識別として使えるし違反ではないよ。
途中のU+FEFFは、ZWNBSPとして扱うけどなるべくU+2060を使ってね。
こんな感じの認識でいい？
518 名前：デフォルトの名無しさん mailto:sage [2012/02/14(火) 07:21:36.14 ]: >先頭のU+FEFFは、UTF-16ではBOMで、UTF-16LEやUTF-16BEではZWNBSPになるのか。

いいと思うけど、細かい所がちょっと違う。
先頭のFE FFやFF FEの2バイトは、UTF-16ではBOMで、UTF-16LEやUTF-16BEではZWNBSP文字相当になる。
バイナリデータ(Encoding Scheme)をEncoding Formに読み取った時点でBOMは無くなる。
U+FEFFというのはUTF-16orUTF-32のEncoding FormだからBOMになり得ない。

>UTF-16やUTF-32から変換されたときBOMが付くことがあって
これも同じく、Encoding FormをEncoding Schemeに変換したときにBOMが付くことがある
519 名前：デフォルトの名無しさん mailto:sage [2012/02/14(火) 07:47:25.15 ]: 「U+」はコードポイントの表記。Formじゃない。
　コードポイント: u+feff (ZWNBS文字(非推奨))
　UTF-16エンコードフォーム: <FEFF>(16ビット単位、u+は付かない)
　UTF-16エンコードスキーム: <FE FF FE FF>または<FF FE FF FE> (8バイト単位)。先頭のFE FFはBOM
　UTF-16BEエンコードスキーム: <FE FF>(8バイト単位)、先頭の<FE FF>はZWNBS文字だがZWNBSが非推奨
520 名前：デフォルトの名無しさん mailto:sage [2012/02/14(火) 13:05:58.68 ]: なるほど。やっと理解しました。ありがとう。
521 名前：デフォルトの名無しさん mailto:sage [2012/02/14(火) 17:43:30.45 ]: www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=4E62
> kHanyuPinyin 10760.010:g�i

文字化けワロス
522 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 00:37:27.03 ]: 今来た俺に違いを3行で教えてくれ
523 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:31:55.27 ]: Unicode・・・文字集合
UTF-8・・・文字表現
です
524 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:37:04.34 ]: >>523
ほう、ではUnicode 6.0のどこに「Unicodeが文字集合の一つ」と
書かれているのかね？
525 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:40:16.48 ]: 3行オーバーしたので答えられません。
自分でぐぐってください。
526 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:42:59.62 ]: 仕様のどこと訊かれてググれと答える奴は
プログラマーに剥いていない
527 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:47:33.04 ]: ハゲは結構多いよ
528 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:49:36.68 ]: プログラマーの童貞率、アスペ率は異常
529 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:57:06.64 ]: 細かいことにこだわらない奴はプログラマー向いてない。

向いてない人「ちょっとくらいいいでしょ？多めに見てよ」
コンピュータ「はあ？」
530 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 02:11:33.76 ]: そもそも「文字表現」ってなんだよ。ちゃんとした用語使えよ。
531 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 02:23:21.28 ]: 文字表現は文字表現だよ
(T-T)悲しい
(^-^)うれしい
こんなのが最近たくさん追加されてるだろ
532 名前：522 mailto:sage [2012/02/19(日) 02:54:14.52 ]: おいおい、2スレ目にもなってケツ論出てないのかよ
533 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 15:37:07.51 ]: >>523
痴呆があらわれたか
534 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 22:52:12.18 ]: Unicode=UTF-8
一般人に違いなどわからんからこれでよし
535 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 23:03:51.63 ]: いいわけないだろカスが＾＾
536 名前：デフォルトの名無しさん mailto:sage [2012/02/20(月) 11:24:52.62 ]: 元々の規格
UTF-8
UTF-16BE
UTF-16LE
UTF-32BE
UTF-32LE

マイクロソフトが追加した規格 (いずれもBOM付き)
UTF-8　(上記と重複する)
UTF-16 (省略BE-BOM)
UTF-16LE-BOM
UTF-32 (省略BE-BOM)
UTF-32BE-BOM
UTF-32LE-BOM

ってことでよろしいですか？
537 名前：デフォルトの名無しさん mailto:sage [2012/02/20(月) 18:09:07.05 ]: ぜんぜんダメ
538 名前：デフォルトの名無しさん mailto:sage [2012/02/20(月) 18:10:40.38 ]: このスレで何度か書かれてるけど、
そろそろencoding formとencoding schemeの違いを
理解した方がいいよ
539 名前：デフォルトの名無しさん mailto:sage [2012/02/20(月) 20:38:04.20 ]: Unicode規格で定義されるEncoding Scheme
　UTF-8 (BOMなし)　←MSの「UTF-8」
　UTF-8 (BOM付き)
　UTF-16 (BOMなしBE、先頭にU+FEFFは書けない)
　UTF-16 (BOMありBE、先頭の<FE FF>はU+FEFFでなくBOM)　←MSの「Unicode big endian」
　UTF-16 (BOMありLE、先頭の<FF FE>はU+FEFFでなくBOM)　←MSの「Unicode」
　UTF-16BE (BOMなしBE、先頭の<FE FF>はBOMでなくU+FEFF)
　UTF-16LE (BOMなしLE、先頭の<FF FE>はBOMでなくU+FEFF)
　UTF-32 (BOMなしBE、先頭にU+FEFFは書けない)
　UTF-32 (BOMありBE、先頭の<00 00 FE FF>はU+FEFFでなくBOM)
　UTF-32 (BOMありLE、先頭の<FF FE 00 00>はU+FEFFでなくBOM)
　UTF-32BE (BOMなしBE、先頭の<00 00 FE FF>はBOMでなくU+FEFF)
　UTF-32LE (BOMなしLE、先頭の<FF FE 00 00>はBOMでなくU+FEFF)
540 名前：デフォルトの名無しさん mailto:sage [2012/02/20(月) 20:40:31.47 ]: 最初の二つを間違えた。正しくは　↓
　UTF-8 (BOMなし)
　UTF-8 (BOMあり)　←MSの「UTF-8」
541 名前：デフォルトの名無しさん mailto:sage [2012/02/20(月) 23:14:05.93 ]: そもそもBOMってMSの拡張じゃないの？
Unicodeにそんな仕様はいってるの？
542 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 00:42:33.77 ]: 入ってますがな。
なければどんなに幸せだったことか…
BOMのない世界にforkしたい。
543 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 04:01:27.70 ]: 無くて困ったことはあるが、
あって困ったことはありませぬ。
544 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 04:24:21.16 ]: BOMあるとshebangが正常に動作しない
545 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 05:19:27.61 ]: そのファイルだけBOMとれば？

文字コード不明なファイルを読み取ろうとするシバンはウンコ(・∀・)ノ●。
日本語のパスはどうすんだよ。
546 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 06:46:27.45 ]: BOM が MS拡張とかどんだけ……
まだ ISO-10646 が正式な規格になる以前からありますがな。
547 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 17:29:35.79 ]: >>537
えーなんでダメなんだよ？これjavaのエンコードライブラリそのまんまなんだぜ？
548 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 20:08:10.74 ]: >>547
JavaはBOM周りの処理のバグを認識しつつ
バグを永久に直さないことに決定済みだろ

『マイクロソフトが追加した規格』が『おJavaの認識する名前』で
BOMがMS独自という誤った記述が無ければおけ
549 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 22:38:40.98 ]: >>544
shebangに関して言えば、
shebangを読み取るプログラムが
Unicodeに対応していないというべきだろうね。

たぶん、UTF32で書かれたshebangも読み取れないはず。
550 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 22:45:12.38 ]: >>543
無くて困ったことは皆無ですが、
あって困ったことはいやほどあります。
551 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 22:52:15.54 ]: >>550
無くて困ったというのは文字コードが明確でなかったと想像できるけど、
あって困ったというのは、具体的にどんなこと？
552 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 23:04:12.52 ]: >>551
上にあるけどshbangが通らないとか(頻発するので慣れた)、
ビルドが通らないとか(頻発するので慣れた)、
SQLの実行に失敗するとか(多数のDDLの実行途中だったのでリカバーに泣いた)。
553 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 23:09:04.25 ]: ああ、あと複数のファイルをcatで繋いだら境目にゴミが混じったってのもあった。
554 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 23:12:44.31 ]: あるテキストの改行が
Cr
CrLf
Lf
の
三つが混ざっちゃうことあるの?
555 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 23:14:57.14 ]: >>551
単なるバイトストリームとして扱えなくなるケース。
556 名前：デフォルトの名無しさん mailto:sage [2012/02/21(火) 23:19:30.60 ]: BOMが認識できないバギーなコンパイラはともかく、catは違うような。

テキストファイルをバイナリで結合することが間違ってると思う。
結合するファイルの文字コードが違ってたら破綻するし、
ISO-2022はそもそもバイナリ結合できなくね？
557 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 09:08:20.78 ]: >>556
>>553, >>555 は、BOM なし UTF-8 ならば cat で連結できる、って話じゃないの？

別なコードの話を持ちだしても意味ないと思う。
558 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 09:10:14.09 ]: >>556
＞バギーなコンパイラ
言いがかり。
そういうことがないようにUTF-8を使うのに
BOMがあるだけでパー。

＞結合するファイルの文字コードが違ってたら破綻
同じUTF-8だけどな。
BOMがあるだけでパー。
559 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 09:28:36.68 ]: utf-8対応をうたうならbomを認識できなくてはならないのに
僕のＫＵＳＯコンパイラはダメなんです。と言われてもなあ。
取り敢えずＫＵＳＯコンパイラユーザーにデメリットが有るのはわかったw
560 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 09:34:37.56 ]: catでbomが困るなんて、
「テキストに日本語を書くと様々な問題を起こすので日本語の使用はデメリット」
とか
「csvにヘッダー行を書くとcatできない問題があるので書かないようにしている」
ってのと同レベル
561 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 13:10:05.23 ]: >>559
BOMさえなければ、とくにUTF-8に
対応することがそもそも不要。

バギーでもクソでもない。

UTF-8原理主義者は面倒くさいな。
562 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 14:07:48.03 ]: バイトオーダーという概念がないUTF-8でBOMとはこれいかに？
563 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 14:21:41.35 ]: 仕様に従っているかどうかの話と
仕様自体の妥当性は別の話。
utf-8安置は頭が悪いな
564 名前：デフォルトの名無しさん [2012/02/22(水) 14:25:08.95 ]: うにコード安置はいるがutf-8安置はいるのだろうか？
565 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:03:18.48 ]: ファイル名に日本語を使ってはいけないとか、メールのタイトルに日本語を
使ってはいけないというのは、UNIXの伝統的な掟です。
LinuxはUNIXに憧れているので、UNIXの掟を忠実に守ります。
掟を守るのは大事なことです。

UTF-8を許せば日本語を使う馬鹿が出てきますよ。
566 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:03:29.36 ]: UTF-8は、ASCII上位互換コーディングシステムとして設計された。
バイトストリームとして扱えば、プログラムがそのまま使えるように。
Ken Thompson先生が。Unicodeの外の世界で。

だからUnicode.orgがUTF-8にもBOMを付けるのは味噌をつけてしまったようなもの。
ただ既にBOMがあるのだから、当然の帰結ではあるのだが。

もともとのUnicodeの考え(wide character主義)とUTF-8は乖離しているから、
こういう残念な状態になってしまった。
567 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:06:40.21 ]: >>565
パス名といえば、例えば、
"￥Users￥漢字名さん￥ドキュメント"
"漢字名さん"
"ドキュメント"
それぞれにBOMが付くとパス名処理がすごく面倒になる。
Unicode互換の処理系を名乗るにはやらないといけないけど、
そういうOS、ミドルウェアは未だ存在しない。
568 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:18:27.13 ]: 大体BOM付きとか滅茶苦茶不合理じゃん。
"a" だけで何バイトだよ？
旧来のBOM無しUnicodeを新しいUnicodeとして制定しなおしましょう。
569 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:18:31.69 ]: >>567
だからこそ許してはいけないのです。
ファイル名やメールの件名に日本語を使ってはいけません。
570 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:19:17.81 ]: さあ、早くEF BB BFを削る作業に戻るんだ。
571 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:20:33.65 ]: >>568
それは思い上がりですね。
ASCIIだけで充分です。
572 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:20:40.10 ]: NotePad　BOM付きしか認識しない。
UNIX系　BOM無しを前提にしている。

やっぱM$の陰謀以外考えられないわけだが。
573 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:21:39.18 ]: >>571
ならば、おまえだけは日本語で書き込むなよ。
574 名前：デフォルトの名無しさん [2012/02/22(水) 15:28:41.23 ]: kokoha tanoshii intaaneto desune
575 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:29:14.05 ]: >>573
俺はUNIXもLinuxも使っていないのでメールの件名に日本語を使うし、
ファイル名にも日本語を使います。
HTMLメールが送られてきたからと言って怒ったりしません。
576 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:35:24.27 ]: 571 名前：デフォルトの名無しさん：2012/02/22(水) 15:20:33.65
>>568
それは思い上がりですね。
ASCIIだけで充分です。

>>575
だからおまえは日本語でこの掲示板に書き込む権利は一切無いの。
577 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:41:57.47 ]: >>576
いえいえ、俺はUNIXもLinuxも使わないので歴史的に日本語OKなのです。
ご心配には及びません。
578 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 15:42:52.80 ]: nanda tadano baka dattaka
579 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 16:46:17.18 ]: >>567
Unicode規格のencoding formとencoding schemeの説明を読み直してこい

フォルダー名にbomが付くとかあり得ないから
580 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 16:51:22.56 ]: asciiとかどれだけ可搬性のないのものを持ち出すんだよ。
@とか[とかは機種依存文字なのを知らんのか最近の若いモンは。
581 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 16:57:58.84 ]: >>580
8bit目を立てるのはマナー違反です。
582 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 17:18:50.84 ]: >>579
何言ってるかさっぱりわからん。
パス名はメモリ上のデータに限られてると限定しているわけ？
583 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 18:05:31.10 ]: >>572
NotePad は BOM なくても UTF-8 を認識するよ。
でも保存するときに強制的に BOM がつくのが問題。

Unix でなくても、たとえば文書のヘッダやフッタを別のテキストファイルから
include してくるというのは、よくある処理だと思うけど、そういう場合に、
いちいち BOM の処理が必要というのは不合理。

字数とかワードラップとかの処理が必要な場合は仕方ないけれど、そうでない
場合はバイナリとテキストで同じプログラムが使えるようになっているのが望
ましい。
584 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 18:11:47.88 ]: >>582
Unicode規格ではEncoding FormにBOMの概念は無いんですよ。(ここらへんはRFC 3629と定義が違う)
Windowsのフォルダー名はEncoding SchemeでなくEncoding Form単位で読み書きするので、
フォルダー名にBOMが入ることはないです
585 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 18:22:59.79 ]: >>583
>たとえば文書のヘッダやフッタを別のテキストファイルから
>include してくるというのは、よくある処理だと思うけど、そういう場合に、

MS Word文書をバイナリで結合したら読み取れませんでした。てのと同レベル。
バイナリデータを挿入するんでなく、「テキスト」を挿入するよう見直した方がいい。
ISO/IEC 2022だって二つのファイルをバイナリで結合したら壊れるだろ
586 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 18:31:25.66 ]: >>580
ASCIIの7ビット文字は、現代で現実的に
充分ポータブルだろ。

どのあたりを心配してる？
587 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 18:34:04.47 ]: >>586
　　　　∩＿∩　　　　　
　　／＼／＼　　　
　　|　（^）=（^） |　　　　人人人人人人人人人人
　　|　　●_●　 |　　＜ BOM否定派に対する皮肉だろ＞
　/　//　　　///ヽ　＜言わせんな恥ずかしい＞
　| 〃 ------ ヾ　|　　　ＹＹＹＹＹＹＹＹＹＹＹＹＹＹ
　＼＿＿二＿＿ノ
588 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 20:32:33.68 ]: >>584
フォルダ名が外からもたらされたら、
>フォルダー名にBOMが入ることはないです
なんて課程は全くできないけど?
589 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 22:16:57.21 ]: >>588
BOMとU+FEFFは違う物です。Encoding SchemeとEncoding Formの違いを理解してください。

Windows APIでフォルダーを作成する際の名前は「UTF-16(Encoding Form)」でしか指定できないのです。
「UTF-16(Encoding Scheme)」を受け取るAPIは有りません。
外からもたらされた時点で<FE FF>がBOMかU+FEFFかを判断し、
BOMを取り除いた形でWindowsに渡す必要があります。
590 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 22:20:02.08 ]: > 外からもたらされた時点で<FE FF>がBOMかU+FEFFかを判断し、
> BOMを取り除いた形で

こういう処理をユーザがしないといけないって話なんだけど？
591 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 22:49:40.36 ]: 話がずれてないか？
もとはパス名処理が大変と言う567に対し、
文字列になってる時点でBOMは無いので単純だというのが579。

バイナリを文字列に変換するのにBOM処理は当然必要なんだけど、
それは567の「パス名処理が大変」「実装が存在しない」とは違う話。
592 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 23:09:53.07 ]: BOMっていうのはファイルにしか存在しないものだよ。

BOM付きの文字列を半分に分けたらどうする？
前半の文字列にはBOMがついて、
後半の文字列にはBOMがついてない？
それともわざわざ付けると思う？

BOMが存在するのは外部リソースのみ
それをUNICODE文書として読み取った時、
BOMは消さないといけない。

だから、APIに渡す文字列がBOM無しなのはアタリマエのこと。
593 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 23:11:12.92 ]: プログラマが頑張らないといけない実装しかないから、
パス名処理が大変なんでしょ？

> 文字列になってる時点でBOMは無い

「文字列になって」
この定義自体が難しいから、
プログラマが何も気にしないでも問題が起きない実装はないわけだ。
そもそも利用者のレベルでも問題が起きうる。
594 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 23:12:42.87 ]: >>592
> BOMっていうのはファイルにしか存在しないものだよ。

外部リソースならどんなものにも付く可能性がある。
595 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 23:22:35.82 ]: >>593

> 「文字列になって」
> この定義自体が難しいから、

簡単。バイナリではなく文字列として解釈できる準備ができた時。
それは文字列型に代入した時や、
UTF8フラグなんかをつけた時。
596 名前：デフォルトの名無しさん [2012/02/22(水) 23:23:34.45 ]: そもそも「ファイル」っていう概念をちゃんと>>592が分かって書いてるのかどうかも怪しい
597 名前：デフォルトの名無しさん mailto:sage [2012/02/22(水) 23:27:15.21 ]: UNIXでいう「ファイル」だけど？
598 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 00:11:05.68 ]: そもそもBOM付きデータは「バイナリ」であって「テキスト」ではない、と考えてる。
「テキスト」は純粋に「文字列」を表現する要素のみで構成されたものであるべき。
599 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 00:44:37.73 ]: バイト列だから順序が必要なんじゃろ？
整数列だから順序が必要ないんじゃろ？
それがエンコードスキームとエンコードフォームを分けた由来じゃろ？

Unicodeのエンコードフォームでは文字列は数値列だから、ひとつの文字はひとつの数値として扱われる。
しかしこれが物理的にコンピュータ上で扱われるとき、
コンピュータはその数値列を一つのバイト値として扱えない。
つまり、一つの文字は複数のバイト列になる。
だからバイト列に順序が必要になる。

一方、UTF-8はいずれの場合もバイト列として扱う。
文字列はバイト列であるので順番が必要ない。

という話じゃなかったっけあはん大陸。
600 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 00:46:24.77 ]: ん

＞一方、UTF-8はいずれの場合もバイト列として扱う。
＞文字列はバイト列であるので順番が必要ない。

これは「文字列もまたバイト列であるので順番が必要ない」と書くべきか＾＾；
601 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 00:52:52.91 ]: >>565
UTF-8 許されてるなら日本語使っても良いと思う
むしろファイル名に半角 space 入れる香具師の方が
もう阿呆かと
602 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 00:53:52.69 ]: >>594
ファイルじゃない外部リソースなんかあるのか
603 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 00:54:42.23 ]: >>601
何がいけないんだ？
604 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 00:56:47.75 ]: >>602
メモリ、ストリームなどなど＾＾
605 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 01:00:55.19 ]: >>604
それって、つまり、ずーっと辿るとファイルに行き着くだろ
ファイル以外でBOMなんて付かないだろ
606 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 01:05:04.93 ]: >>605
いやいや。
例えばリアルタイムにコード変換してる時は元ファイルにはBOMついてないし＾＾；
メモリに展開される時にBOMがつく（つかないと判別できない＾＾）
そもそもプログラム内部は論理表現なのでBOMなどというものはありえない。
これがメモリに展開される瞬間、つまり物理表現に変わる瞬間にバイト順序が必要になる。
ストリームも同じ。
607 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 01:16:51.20 ]: >>603
だろ？
608 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 01:18:14.42 ]: 恥ずかしいスレだな
609 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 01:35:10.93 ]: J( 'ｰ`)し　ごめんね。おかあさんはじめてUnicode使ったから、ごめんね
610 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 01:40:10.04 ]: >>606
'\0'を文字列の途中に突っ込むのと同じ話だけど。
やろうと思えば出来る。でも普通はメモリ中のデータにBOMは入れない。
くだらない話だから伸ばすな。
611 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 02:46:18.12 ]: >>605
> それって、つまり、ずーっと辿るとファイルに行き着くだろ

アホなの?
612 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 05:51:03.86 ]: >>593
明確だよ。
byte[]型は文字列でない。stringは文字列。
CでもWindowsならchar[]からTCHAR[]になった時点で文字列。

CでもASCII NUL終端で扱っている時点でBOMが有るのは間違い。
UTF-16とか扱えなくなるだろ
613 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 06:10:47.12 ]: >>601
むしろ半角スペースで動かなくなる方が殺害モノだね。
やるべきことをやってないだけ。

"c:\a b�cacls.exe" "c:�d�e f" /R "SYSTEM"
SET "PATH=c:�a b"

常にこう書けば何が渡されても破綻しない
614 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 07:36:47.91 ]: crlf->lf
cr->lf
lf->crlf
---------------
->の意味わ?
615 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 07:41:56.77 ]: >612
> CでもWindowsならchar[]からTCHAR[]になった時点で文字列。

アホなの?
616 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 08:15:36.17 ]: そもそもUTF-16やUTF-32は
文字に\0が含まれるのでchar[]では扱えない。
617 名前：デフォルトの名無しさん [2012/02/23(木) 08:24:03.69 ]: >>612
> CでもWindowsならchar[]からTCHAR[]になった時点で文字列。
char[] == TCHAR[]
618 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 09:58:23.45 ]: 犬が混じると低レベル化するな。
619 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 10:36:35.75 ]: また犬が来たｗ
620 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 13:52:22.90 ]: テーブル(Unicode)とデータ表現(UTF-8)の違いじゃねーの？
621 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 13:58:47.78 ]: >612
> CでもWindowsならchar[]からTCHAR[]になった時点で文字列。

Windowsでは#define UNICODEとしないと文字列を扱えないそうです。
622 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 14:02:47.03 ]: >>616
いや扱える。
<stdio.h><string.h>などが文字列はnull terminate前提、
Cコンパイラも文字列リテラルが同様ってだけ。

ex.
struct UTF16String {
int length;
char data[];
};
623 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 16:55:20.64 ]: MessageBoxA と MessageBoxW の違いも判ってなさそう出汁
624 名前：デフォルトの名無しさん [2012/02/23(木) 20:02:43.63 ]: Shift_JISは常にビッグエンディアンだけど
UTF-16はBEとLEがあるクソ仕様、SJISとCP932の問題よりさらに酷い
おまけにサロゲートペアのせいで何が16なのかと言うレベル

バイトストリームとしてはBEに限定して
APIなどではuint16_t*なりwchar_t*で扱えばいいのに
何故バイトストリームでBE版とLE版を用意したのかと
625 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 20:31:26.64 ]: ネットワークバイトオーダーもJavaのデータアウトプットもBEに規定されてたよな。
たしかOracleもBEだったか。16LEは確かに誰得。
626 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 21:06:35.37 ]: 同じchar[]でもバイト列と文字列ではセマンティクスは別物になる
ファイル or メモリ、char[] or TCHAR[]
重要なのはデータソースでも型でも無く、データの意味そのもの

同じintでも電圧の変数に電流の値を代入して良いわけがなく
同じstringでも通常の文字列とhtml文字列を混同すればxssに一直線だ

内部表現は[文字符号化方式]でなく[符号化文字集合]と考えるのが適切
バイナリとして読み込んだUTF-16文書のバッファ(文字符号化方式)のポインタを
wchar_t*(符号化文字集合)に単純キャストするような荒業でも動作する環境はあるが
wchar_tが4バイトの処理系ではそうはいかない
627 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 21:42:14.43 ]: 何でキチガイが湧いてるの？
628 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 21:46:52.94 ]: なんでレッテル厨が湧いてるの？
具体的な反論するのが怖いの？
629 名前：デフォルトの名無しさん mailto:sage [2012/02/23(木) 21:59:21.69 ]: >>624
>Shift_JISは常にビッグエンディアンだけど
「Ａ」は82h 60hという2バイトであって、3260h(33376)ではありません。

>>621
長さとペアでバイナリデータを保持するcharと、ヌル終端前提のTCHARを区別しろってことでしょ。
TCHARがcharかwchar_tかは関係無い。
>>626の言う「重要なのはデータソースでも型でも無く、データの意味そのもの」を少しは理解しな
630 名前：デフォルトの名無しさん [2012/02/23(木) 23:09:37.18 ]: 文字集合JIS X 0208のＡ : コードポイント3区33点(3-33)
→ JIS X 0208の符号化方式Shift JISでは 0x82 0x60 と表現
→ JIS X 0208の別の符号化方式EUC-JPでは 0xA3 0xC1 と表現

つまりUTF-32BEが最強
631 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 00:24:42.69 ]: >>628
Cの時代にcharで文字列とバイナリの両方を扱って
きた人間には理解を超えているので、
相手に罵声を浴びせることしかできないんだぜ。

エンコードスキーム(バイトデータ)とエンコードフォームの
違いがこのスレで何度説明されたことか。
未だに全く理解できていないし
632 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 00:31:43.04 ]: Unicodeはwchar_tのために作られたわけじゃねーだろ
633 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 00:41:41.68 ]: >>631
まだ言ってるのかw
634 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 00:50:25.32 ]: >>626
この解釈間違ってると思うんだが
誰も突っ込まないのな
635 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 00:50:38.49 ]: >>631
Windowsのwchar_tは２バイトでutf-16で固定長じゃないんだから、
charでutf-8を扱った方がまし。
636 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 01:03:21.88 ]: >>635
utf-8はいいけど
BOMのあり得るエンコードスキームUTF-8と
BOMの無いエンコードフォームUTF-8は
異なる概念なので区別しろよw

でないと、UTF-16BEはヌルが含まれるのでcで扱えないとか
とんちんかんなことを言い出しかねん
637 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 01:20:18.39 ]: BOMありUTF-8使ってるのって日本だけなん？
638 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 01:21:59.80 ]: >>634
頼んだぞ
639 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 01:24:48.19 ]: >>637
Windowsのメモ帳が付けるというのに、
どうしてそんな考えに至ったのか知りたい
640 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 02:40:35.01 ]: >>636
メモリ上にはUnicode encoding formしかないと勘違いしている人？
641 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 06:13:03.23 ]: それだとファイルを読み込むことが不可能になってしまいます

読み取ったバイナリデータをテキストとして処理する前に
エンコードフォームに直すと言うことでは?
642 名前：デフォルトの名無しさん [2012/02/24(金) 21:05:08.82 ]: ヌル終端の文字列って超使われてるけどさ
struct{char* begin, char* end}の値渡しか、その構造体へのポインタを渡すようにした方が良かったよね
今更ってレベルじゃないけど
643 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 21:23:26.59 ]: struct{char* begin, int len)の方がいい。
644 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 21:27:00.18 ]: struct{char*end;chars[];};の方がいい
645 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 21:32:30.58 ]: >>642
最初はstructなんてなかったんだよ。
そこまで斜めだと後出しですらないだろ。
646 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 21:34:20.57 ]: >>643
Pascalがそれ。
実装によってはnull characterも持てた。
けど勝利したのはCのシンプルさ。
同じデータ構造(char [])でバイナリも持てる。
647 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 21:35:14.65 ]: そのせいでCはUTF16や32に
特殊な型を持ち出さないと対応できなくなった。
648 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 21:36:10.43 ]: それどころかstrlenやstrcpyでも
UTF16やUTF32専用の関数が必要になった。
649 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 00:27:19.29 ]: >>643
intじゃポインタで表現可能な範囲を持てる保証が無いよ
実際殆どの64bit環境(LP64やLLP64)でintでは4Gの壁が出来上がる
せめてptrdiff_tにしないとね

>>645
マジか、struct無かったのか・・・
でも斜めではなくね？STLでもbegin(),end()が基本だしさ
650 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 00:36:53.09 ]: >>649
昔の話だとして…
Cの前身はT *とintの区別なかったんだよ。
型指定がなくて、型は名前のついてないWORD型しかない。
今で言うところのILP16で。(Integer, Long, Pointerが16bit)
だからその影響でCでもしばらく型指定なしの変数宣言するとintだった。
651 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 00:53:57.92 ]: >>649
ならsize_tでいいだろ。
strlenの戻り値の型だ。
652 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 08:59:27.50 ]: >>650
cの前身っていったら1971年？
そんな時代に16ビットが普及してたはずもないのだが
653 名前：デフォルトの名無しさん [2012/02/25(土) 11:01:25.83 ]: パソコンの16ビットはそりゃそうだろうけど、
ミニコンの16ビットは70年代に16ビットは普通では？
654 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 11:05:36.97 ]: BCPLはPDP-7だっけかな。
と思って調べたらまさかの18ビット
655 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 11:06:15.46 ]: DECという会社があったこと #平成生まれが知らないことを挙げていこうぜ
656 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 13:22:49.45 ]: ここは加齢臭漂うスレとなりました。
657 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 23:22:28.04 ]: ファブリーズしても全然ダメなぐらい
658 名前：デフォルトの名無しさん mailto:sage [2012/02/26(日) 15:47:27.68 ]: CrCrLfはWindowsだと1回の改行でMacだと2回の改行?
659 名前：デフォルトの名無しさん mailto:sage [2012/02/26(日) 16:11:51.66 ]: CR/CRLF/LF が混在してるテキストなんて基本的に想定外という扱いでいいだろJK
660 名前：デフォルトの名無しさん mailto:sage [2012/02/26(日) 19:02:49.96 ]: >>658
ソフトラインブレークは発狂の元
661 名前：デフォルトの名無しさん mailto:sage [2012/02/26(日) 19:09:25.17 ]: CRとLFの連続を改行として扱えばいい
空行が無くなるが
662 名前：デフォルトの名無しさん mailto:sage [2012/02/27(月) 06:35:19.89 ]: >>658
CrCrLfはWindowsだと不正な改行。
なのでそれを受け入れたい場合は、どう処理するかをソフトウェアの仕様で
決めなければならない。
663 名前：デフォルトの名無しさん mailto:sage [2012/02/27(月) 12:08:54.55 ]: Crの次がLfならひとまとめ、Lfの次がCrならひとまとめって感じの実装が多い気がする
混ざってても大体うまくいくし
CrCrLfLfLfCrLfLfCr → Cr,CrLf,Lf,LfCr,Lf,LfCr → 改行6個

CrLfCrLfCrLf → CrLf,CrLf,CrLf (Windows)
LfLfLf → Lf,Lf,Lf (Linux)
CrCrCr → Cr,Cr,Cr (Mac9以前)
664 名前：デフォルトの名無しさん mailto:sage [2012/02/27(月) 13:18:33.44 ]: WIN/UNIX/MACごちゃまぜのソフトでWINのクライアントから編集するたびに改行が倍になってくやつがあったな
665 名前：デフォルトの名無しさん mailto:sage [2012/02/27(月) 15:26:35.50 ]: CRのみは歴史的文書しかないから、特殊なアプリ以外は無視して問題なし。
666 名前：デフォルトの名無しさん mailto:sage [2012/02/27(月) 16:24:28.49 ]: >>659
一方Microsoft Excelさんは平然と混ぜてくるのであった

CSV形式で保存すると行の区切りにCRLFを使用するけど
セル内に改行がある場合は""で囲った上でLFのみで出してくる斜め上仕様
そうした理由は分からんでもないけど・・・
667 名前：デフォルトの名無しさん mailto:sage [2012/02/27(月) 18:18:57.20 ]: 自分が作る場合はこんなふうに処理している。

1. CR または LF が連続していたら、それぞれの数を数える
2. LF が一個でもあったら CR は無視してその個数を改行数とする
3. LF がひとつもなかったら CR の個数を改行数とする
4. 出力の改行を決める必要があるときは、入力の最初の改行によって決める
(入力がないときはOS依存……最近は LF 決め打ちが多いけど)

わざと混在させる必要がある場合以外、これで問題ない。

もっとも、CR のみの文書っていまだかつて見たことないが。
668 名前：デフォルトの名無しさん mailto:sage [2012/02/27(月) 18:20:19.66 ]: RFC4180ってAccessのCSVと同じだろ
669 名前：デフォルトの名無しさん mailto:sage [2012/02/27(月) 19:07:55.38 ]: RFC4180読んでみた
2005年公開でこの内容ってことは単にMS Officeに合わせただけか
MSの頭悪いCSVの仕様がRFCになってるとは

素直にメタ文字エスケープすればいいのに
670 名前：デフォルトの名無しさん mailto:sage [2012/02/27(月) 22:26:43.04 ]: メタ文字こそウンコ。
パーサーのことだけで読みやすさを考えてないだろ。
671 名前：デフォルトの名無しさん mailto:sage [2012/02/28(火) 11:05:23.12 ]: 俺はエスケープの方が途中で改行が混じっていない分読みやすい
まぁその辺は人によるから不毛だな

あとパーサーだけじゃないぞ
ちょっとした文字の置換とかも、しやすさが全然違う
672 名前：デフォルトの名無しさん mailto:sage [2012/02/29(水) 07:10:49.12 ]: \を入力するとなんで/になっちゃうの?
673 名前：デフォルトの名無しさん mailto:sage [2012/02/29(水) 16:32:24.20 ]: なるのは君だけ
674 名前：デフォルトの名無しさん mailto:sage [2012/03/02(金) 19:25:17.78 ]: ＼
675 名前：デフォルトの名無しさん mailto:sage [2012/03/02(金) 19:43:07.92 ]: ∖
∖
╲
╲
＼
＼
676 名前：デフォルトの名無しさん mailto:sage [2012/03/02(金) 19:43:31.69 ]: >>675
みえる化
677 名前：デフォルトの名無しさん mailto:sage [2012/03/02(金) 19:48:04.83 ]: クイックス懐かしいな・・・
678 名前：デフォルトの名無しさん mailto:sage [2012/03/03(土) 05:57:10.92 ]: 1ヶ月のケってなんなの?
679 名前：デフォルトの名無しさん mailto:sage [2012/03/03(土) 07:43:55.61 ]: 箇ないし个の変形。「け」ではない。
680 名前：デフォルトの名無しさん mailto:sage [2012/03/03(土) 16:13:06.06 ]: へーへーへー。10へー。
681 名前：デフォルトの名無しさん mailto:sage [2012/03/03(土) 16:41:16.18 ]: 1ヵ月のカってなんなの?
682 名前：デフォルトの名無しさん mailto:sage [2012/03/03(土) 16:46:52.04 ]: 30人日の力だろ？
683 名前：デフォルトの名無しさん mailto:sage [2012/03/03(土) 17:05:29.99 ]: ヵゕかｶカ力刀
684 名前：デフォルトの名無しさん mailto:sage [2012/03/03(土) 17:11:27.73 ]: >>681 それも >>679
685 名前：デフォルトの名無しさん mailto:sage [2012/03/04(日) 23:00:24.18 ]: 【
これはキーボードのローマ字入力でどのキーを押せば
686 名前：デフォルトの名無しさん mailto:sage [2012/03/04(日) 23:51:46.85 ]: 消せますか？
687 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 07:21:55.87 ]: もう面倒くさいから
1文字1MBで表現しろよ！
688 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 08:07:52.93 ]: らめぇ、回線が壊れちゃうよぉ
689 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 15:01:53.43 ]: 原稿用紙一枚分のテキストが400MB
690 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 15:22:57.77 ]: 動画でテキストを表現ですか。
691 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 20:10:02.36 ]: トントンツーツーは2進法なの?
692 名前：デフォルトの名無しさん [2012/03/12(月) 20:31:58.10 ]: 文字間セパレータがあるから記号としては3つじゃないか?
693 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 21:20:31.96 ]: 　 ∧,,∧
　( `･ω･)　ｳｰﾑ…？
　/　∽ |
　しー-Ｊ
694 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 22:00:02.92 ]: >>692
ストップビット２
０：1ビット
１：１．５ビット
695 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 22:01:50.36 ]: >>694
書き直す

ストップビット：4
０：2ビット
１：3ビット
696 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 22:17:33.78 ]: 三進数
697 名前：デフォルトの名無しさん mailto:sage [2012/03/13(火) 10:00:05.44 ]: 学習塾
698 名前：デフォルトの名無しさん mailto:sage [2012/03/13(火) 10:02:10.36 ]: 痛い児セレクたん
699 名前：デフォルトの名無しさん mailto:sage [2012/03/13(火) 23:25:06.32 ]: やっぱり二進数だわ
トン、ツー
700 名前：デフォルトの名無しさん mailto:sage [2012/03/14(水) 12:43:51.04 ]: >>699
その様子だと、お前は次の問題が解けねぇな。

英文が成立する最低限度のキャラクタのうち、出現頻度が一番高いのは、何？
701 名前：デフォルトの名無しさん mailto:sage [2012/03/14(水) 12:57:27.42 ]: kumi
702 名前：デフォルトの名無しさん mailto:sage [2012/03/14(水) 16:28:08.33 ]: すポース
703 名前：デフォルトの名無しさん mailto:sage [2012/03/14(水) 17:02:49.10 ]: Siri
704 名前：デフォルトの名無しさん mailto:sage [2012/03/14(水) 23:11:46.61 ]: chinbo
705 名前：デフォルトの名無しさん mailto:sage [2012/03/16(金) 00:03:13.48 ]: >>700
話そらすバカ
706 名前：デフォルトの名無しさん mailto:sage [2012/03/27(火) 00:05:22.70 ]: >>705
全くそれていないんだが、それが理解できないと言うことは、
1200 8N1 とか言っても理解できんのんだよなｗｗｗ
707 名前：デフォルトの名無しさん mailto:sage [2012/03/27(火) 07:50:36.57 ]: レイヤ1と2の区別がつかないハード屋さんですね。
わかります。
しかも1200っていつの時代
708 名前：デフォルトの名無しさん mailto:sage [2012/03/27(火) 13:12:53.93 ]: ATZ
ATZ
ATDT110
709 名前：デフォルトの名無しさん mailto:sage [2012/03/27(火) 15:45:33.29 ]: 年寄りの加齢臭話はいいから文字コードの話しに戻ろうぜ
710 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 09:08:44.45 ]: >>707
お前・・・・分かるんだｗｗｗ
711 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 09:41:33.96 ]: 50歳以下は帰ってくれないか?
712 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 02:17:17.24 ]: ヘボン式ってなに?
713 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 02:20:11.84 ]: トイレに…
714 名前：デフォルトの名無しさん mailto:sage [2012/04/12(木) 12:01:16.85 ]: フランソワ・漏れション
715 名前：デフォルトの名無しさん mailto:sage [2012/04/15(日) 04:48:40.36 ]: ヘボン式ローマ字は、英語と親和性がたかいが、音韻学的、言語学的な日本語表記法ではない。
ドイツ語、ポルトガル語など、英語以外の言語では、発音がことなるおそれがある。

「ヘボン式ローマ字は英語の発音に準拠したので、日本語の表記法としては破綻が多い（中略）
日本式は音韻学理論の結実として、日本国内外の少なくない言語学者の賛同を得た。
しかし、英語の発音への準拠を排除した日本式ローマ字は英語話者や日本人英語教育者から激しい抵抗を受け」
ローマ字 - Wikipedia
716 名前：デフォルトの名無しさん [2012/04/15(日) 05:43:55.65 ]: オードリーヘッバン
717 名前：デフォルトの名無しさん mailto:sage [2012/04/15(日) 12:15:22.24 ]: ローマ字って習う必要あったのかな？
718 名前：デフォルトの名無しさん mailto:sage [2012/04/16(月) 13:41:08.05 ]: ハングルよりいいんじゃない？
719 名前：デフォルトの名無しさん mailto:sage [2012/04/21(土) 23:43:35.82 ]: ↑会話の出来ないばか
720 名前：デフォルトの名無しさん mailto:sage [2012/04/22(日) 05:43:04.90 ]: 住所の番号の部分を全角数字で書かせるホームページってなんなの
721 名前：デフォルトの名無しさん mailto:sage [2012/04/22(日) 10:56:29.77 ]: 新聞記事で良く見るのが
ユニホーム
とか
ビルヂング
722 名前：デフォルトの名無しさん [2012/04/22(日) 11:34:27.88 ]: でもセーターとかミルクセーキとかは気にならない
723 名前：デフォルトの名無しさん mailto:sage [2012/04/22(日) 11:48:55.63 ]: メールは微妙
724 名前：デフォルトの名無しさん mailto:sage [2012/04/22(日) 12:00:05.69 ]: それより、

　ス　マ　ホ

をなんとかしろ。
725 名前：デフォルトの名無しさん [2012/04/22(日) 12:09:28.76 ]: マスコミュ
726 名前：デフォルトの名無しさん mailto:sage [2012/04/22(日) 13:51:12.05 ]: 全角URL
727 名前：デフォルトの名無しさん mailto:sage [2012/04/22(日) 20:35:53.60 ]: >>720
何なのとは？
お前が何を問題視しているのかを説明してもらおうか
728 名前：デフォルトの名無しさん mailto:sage [2012/04/22(日) 20:45:02.96 ]: このスレだとUnicode処理系とは認められないってことじゃないかね。
729 名前：デフォルトの名無しさん mailto:sage [2012/04/23(月) 18:35:00.20 ]: 「千代田区一丁目」って入力させたいんだろ？　いいじゃねーか
730 名前：デフォルトの名無しさん [2012/04/23(月) 19:54:19.70 ]: ○丁目はそこまでが町名だから許せるんだけどねぇ。
731 名前：デフォルトの名無しさん mailto:sage [2012/04/23(月) 20:49:49.64 ]: 全角文字は人生を不必要に複雑化する
732 名前：デフォルトの名無しさん mailto:sage [2012/04/24(火) 02:44:24.00 ]: 姓と名の間の空白を全角にするか半角にするか
プログラミングを意識したら、半角がいいとおもう（区切りだから）
実際には、全角がつかわれてもしょうがない
733 名前：デフォルトの名無しさん mailto:sage [2012/04/24(火) 02:52:38.61 ]: 1桁の数字を全角にするように〝スタイルガイド〟がきまってたりする。
2桁以上を半角にする。

たとえば、新聞、雑誌など、縦書きを意識したら、何桁でも全角数字がいいとか。
734 名前：デフォルトの名無しさん mailto:sage [2012/04/24(火) 10:37:30.00 ]: なんで「縦書き」を文字コードが意識しなければいけないのだ＾＾
使っている文字フォントの縦横比が1:40000だったりしたらどうするのだｗ

全角半角という呼び方もそうだが、
文字幅は文字フォントの問題であり、文字コードの責任ではない。

って、件の本に書いてあったじゃろ？＾＾
735 名前：デフォルトの名無しさん mailto:sage [2012/04/24(火) 12:24:24.96 ]: 全角半角くらいプログラム側で変換しろよと思う
736 名前：デフォルトの名無しさん mailto:sage [2012/04/24(火) 21:58:39.23 ]: >>733
縦書きで2桁は半角だろ？

平
成
24
年
737 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 17:45:04.43 ]: >>734
Unicodeは東アジア圏の文字幅(半角/全角含む)については、その取り扱いは規定されているだろ。

Unicode Standard Annex #11
East Asian Width
www.unicode.org/reports/tr11/

東アジアの文字幅
ja.wikipedia.org/wiki/%E6%9D%B1%E3%82%A2%E3%82%B8%E3%82%A2%E3%81%AE%E6%96%87%E5%AD%97%E5%B9%85
738 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 19:36:54.24 ]: といっても、それは参考特性だからなぁ。フォントの横幅を必ず2桁分にしろよという約束とはちと違うし。
実際、たいていのプロポーショナルフォントでは2倍になっとらんし…。
何とかならんもんかね。
739 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:14:29.55 ]: >>736
英語圏から見るとほんとカオスなんだろうなｗ
740 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:28:09.29 ]: >>738
プロポーショナルフォントで1:2の関係になるわけないでしょ。
プロポーショナルフォントの意味分かってるの?

1:2にしたければ固定幅フォントを使え。
741 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:29:33.25 ]: Unicodeにおけるhalfwidth,fullwidthはroundtrip conversionの
ための単なる呼び名でglyphの幅とは関係無い。
今は同じフォントでも文字幅いくつも持って切換えられるから、全角半角の
文字幅比はフォント固定でも変わる。
文字幅半分のglyphを生成したいとかはレンダリングで対処すべき問題
742 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:35:04.43 ]: UnicodeのEast Asian Widthは、既存の文字コードとの互換の為に用意されているのだから、
固定ピッチフォントが使われている時は、レンダラは属性を見て1:2の文字幅でレンダリングするべきだろ。
743 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:56:48.08 ]: >>742
>固定ピッチフォントが使われている時は、レンダラは属性を見て1:2の文字幅でレンダリングするべきだろ。
レンダリングで対処すべき問題ってことね。
固定ピッチフォントなんてのはUnicodeの関知する所じゃないし。
744 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:00:49.88 ]: >>743
文字の特性値を見れば
全角／半角の切り分けはできるって言いたいだけだよ。
745 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:24:40.16 ]: だからそれは文字コードの責任じゃないでしょｗ
最初から話が噛み合ってないねｗ
746 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:28:35.44 ]: >>745
文字コードの責任だよ。

Unicodeの仕様を見てごらん。

Fullwidthと書いてあるよね？
Halfwidthと書いてあるよね。

Halfは半分という意味、Widthは幅という意味だよ。
747 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:31:01.29 ]: お前の中ではな＾＾；
件の本を読めれ＾＾；
748 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:34:31.61 ]: >>745
全角／半角を見分けてレンダリングする、レンダラを作ろうとする場合に、
どの文字を全角として扱って、どの文字を半角として扱うかの根拠になるのは、
www.unicode.org/reports/tr11/
www.unicode.org/Public/UNIDATA/EastAsianWidth.txt
この2つだろ。

Unicodeが文字コードの規格では無いとでも言うつもりか?
749 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:36:46.68 ]: いや、だから、おまえらの勝手な仕様解釈なんてクソ以下なんだってば
俺は別にUnicodeの仕様策定者でも解釈者でもなく
単におまえらより偉い先生の書いた本の内容通りに言ってるだけなわけで

おまえらが偉いなら本書いて世間に認められてからその珍妙な説を展開してくれ
750 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:38:39.18 ]: クソ本をヨイショする事しかできないなら黙ってろよ。
751 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:40:11.73 ]: 少なくとも糞本も書けないおまえらの珍説をありがたがるほどノーテンキじゃねーんだよ
それともここでおまえらの珍説をたかが一人の人間に納得させると何かおまえらは勝った気になるのか？ｗ
752 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:41:42.62 ]: うん
753 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:43:41.68 ]: べつにおまえにありがたがってもらう必要はねーよ。
勝った気になるとか何の話だ？アホか。
754 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 21:51:18.70 ]: 以下珍説またはスレタイと無関係な煽り合いで１０００まで↓
755 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 00:10:30.79 ]: 　　　＿＿_
　　:／　　　u＼;　　　　　＿＿＿＿
　;/　　　ノﾙ(＜)＼;　　／　;u　ノし＼
　;| 　（＞）　＿)　＼;/　　　　　 ⌒　　＼
　;|:::　⌒（__ノｪｿ　　 /　　　　　　、　　　　|
　;.＼　u　´　　ソ　/　　　　　　　＾　　　　 |
　　 ;＼　　　　, 　|　　　　　　　　　　　　　|
　　　,ヾ＼_　ｎ^^- ＼　　　　　　　 j;　__／
　　;/　 ∠＿;i　￣丶／￣　　　　　　　＼
　 ;（　　　　　⌒）　 ´　　ノ　　　　　　　　＼
756 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 07:22:30.80 ]: >>746
だから、それはUnicodeと旧来のエンコーディングとの対応を取るための単なるラベル。
Glyphの幅は何も規定しない。どういうglyph幅を採用するかはフォントデザイナの裁量。
UAX #11にもわざわざ
In legacy implementations, there is often a corresponding difference in encoding
length (one or two bytes) as well as a difference in displayed width.
However, the actual display width of a glyph is given by the font and may be further
adjusted by layout.
って書いてあるでしょ。
757 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 17:15:34.07 ]: 文字コードでなくフォントの問題であるべきって主張はいいけど、
「半角」「全角」って言葉が現実的に無視できない存在であることは理解した方がいいよ。

少なくとも半角全角を区別する文字コードが存在して
それに対応する文字がUnicodeに登録されているのは事実。
758 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 17:40:43.57 ]: 「した方が良い」と「しなければならない」を区別して話した方が良いと思うんだ

・East Asian Width参考特性が半角なら、フォントは1/2のサイズにしなければならない
・East Asian Width参考特性が半角なら、フォントは1/2のサイズにした方が良い

後者なら反対してる人は居ないんじゃないかな
759 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 18:58:59.64 ]: 仕様も読まなきゃ本も読まないアホに何言っても無駄
自分の解釈が間違ってるって認めたら死んじまうような
ペラペラのアイデンティティの上でぎりぎり生きてるような連中だから
760 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 22:41:20.21 ]: 仕様＝建前
現実＝本音
761 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 22:53:08.42 ]: 固定ピッチフォントがlegacyとかふざけるなターミナルエミュレータは現役だし将来も無くなる予定なんぞないわ、とtr11を見たときオモタ。
762 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 23:06:35.26 ]: 固定幅フォントであっても半角と全角の文字の幅比が1:2であるとは限らない。
こんなの常識。
763 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 23:26:45.82 ]: 建前「固定幅フォントであっても半角と全角の文字の幅比が1:2であるとは限らない。」

本音「1:2にするべきだ」
764 名前：デフォルトの名無しさん mailto:sage [2012/04/27(金) 05:09:05.83 ]: 一人顔真っ赤な奴がいる？
765 名前：デフォルトの名無しさん mailto:sage [2012/04/27(金) 05:50:54.33 ]: ASCIIの1文字が8x8ドットで表現されていた頃、漢字は4倍角だった。
そのうち半角全角も、ただの歴史になるだろ。
766 名前：デフォルトの名無しさん mailto:sage [2012/04/27(金) 20:44:56.57 ]: 話をぶった切るけど、Unicode関係のお勧めの本ってどんなのがあります？
767 名前：デフォルトの名無しさん mailto:sage [2012/04/27(金) 22:03:45.30 ]: amazon
768 名前：デフォルトの名無しさん mailto:sage [2012/04/28(土) 11:43:55.63 ]: UTF-8にわくわしいのに香具師の意味がわかんないだけど
769 名前：デフォルトの名無しさん mailto:sage [2012/04/28(土) 20:44:13.87 ]: わくわくしいって何か楽しげだな
770 名前：デフォルトの名無しさん mailto:sage [2012/04/28(土) 21:09:07.62 ]: わくわく死？
771 名前：デフォルトの名無しさん mailto:sage [2012/04/29(日) 05:40:27.80 ]: 奴（ヤツ）
ヤシ
香具師（やし）
772 名前：デフォルトの名無しさん mailto:sage [2012/05/03(木) 13:16:56.46 ]: 何を言っているのかよくわからんが・・・

少なくとも半角と全角を同一視するうにコードは、市ね、
と言いたい。

少なくとも、半角と全角を同一視したうえで勝手に全角半角を切り替えるアプリ書いたぼけ、市ね、
と言いたい。
773 名前：デフォルトの名無しさん mailto:sage [2012/05/03(木) 17:10:28.08 ]: >>772
君の方こそ何を言っているのかわからないよ。
>半角と全角を同一視するうにコード
774 名前：デフォルトの名無しさん mailto:sage [2012/05/03(木) 20:04:15.75 ]: >>773
Unicode風でありながら、半角と全角の空白を同一のコードポイントを割り当てた文字コード
それが、うにコード
775 名前：デフォルトの名無しさん mailto:sage [2012/05/03(木) 21:45:35.05 ]: てか、
￥ U+00a5 を
\　0x5C
に変換するライブラリ、市ね
776 名前：デフォルトの名無しさん mailto:sage [2012/05/03(木) 23:14:36.68 ]: >>775
それはUnicodeでなくて「Unicodeとローカルエンコードとの変換ルール」の話だと思うが、
既定でCP932変換ルール(Unicodeコンソーシアム公開のもの)でないのはＫＵＳＯだな。
オプションでCP932以外を指定できるなら可。
777 名前：デフォルトの名無しさん mailto:sage [2012/05/04(金) 16:50:18.92 ]: Altキーはなんとよめば
778 名前：デフォルトの名無しさん mailto:sage [2012/05/06(日) 09:29:11.27 ]: >>777
あらどっこいしょ
779 名前：デフォルトの名無しさん mailto:sage [2012/05/06(日) 11:08:02.26 ]: Alertキーだろ
アラート
780 名前：デフォルトの名無しさん mailto:sage [2012/05/07(月) 21:09:03.92 ]: >>777
alternateなんだからアルトに決まってんだろ！

＼アルタネーッテ／
781 名前：デフォルトの名無しさん mailto:sage [2012/05/07(月) 21:31:02.38 ]: オ・・
782 名前：デフォルトの名無しさん mailto:sage [2012/05/09(水) 01:21:11.83 ]: 居る棚恥部
783 名前：デフォルトの名無しさん mailto:sage [2012/05/11(金) 06:48:00.44 ]: 単にUnicodeって言ったときは
一般的にはUTF16インディアン付なんでしょ?
784 名前：デフォルトの名無しさん mailto:sage [2012/05/11(金) 07:26:20.20 ]: ねーよ。
そんなことをやるのはバカだ。
いくらたくさんいようが、バカはバカだ。
785 名前：デフォルトの名無しさん mailto:sage [2012/05/11(金) 07:56:49.55 ]: >>783
ちげーよ
単に「文字コードはUnicode」と言ったら
言ってる奴がアホなのでその意味を汲み取ってあげないといけない。
Windows意外ならBOM無しが多い。
ってかエンディアン月とか、もうアホかと
786 名前：デフォルトの名無しさん mailto:sage [2012/05/11(金) 19:18:13.50 ]: Windowsメモ帳に
Unicodeで保存する項目があるけどどんなUnicodeまでかまでわ表示されないだけど
787 名前：デフォルトの名無しさん mailto:sage [2012/05/11(金) 19:32:02.13 ]: 続きは？
788 名前：デフォルトの名無しさん mailto:sage [2012/05/12(土) 15:12:52.52 ]: インディアン付とは、新たな概念ですね
789 名前：デフォルトの名無しさん mailto:sage [2012/05/12(土) 17:29:03.25 ]: ふんどし級の驚きだねｗ
790 名前：デフォルトの名無しさん mailto:sage [2012/05/13(日) 05:27:44.76 ]: インディアン嘘つかない
791 名前：デフォルトの名無しさん mailto:sage [2012/05/13(日) 05:33:56.53 ]: UTF-8:エンコードの一つ。
　インディアンは付かない

UTF-16:Unicodeのインディアン付エンコード
792 名前：デフォルトの名無しさん mailto:sage [2012/05/13(日) 12:09:07.66 ]: UTF-8:USOなし
　インディアン嘘付かない

UTF16:USOあり
　インディアン嘘つき
793 名前：デフォルトの名無しさん mailto:sage [2012/05/13(日) 13:25:10.90 ]: ビッグインディアンに勝てる気がしない
794 名前：デフォルトの名無しさん mailto:sage [2012/05/13(日) 14:33:09.62 ]: ちんこビンビン
795 名前：デフォルトの名無しさん [2012/05/13(日) 16:37:51.40 ]: >>794
796 名前：デフォルトの名無しさん mailto:sage [2012/05/13(日) 22:39:55.24 ]: >>791
マジレスじゃないよね？
797 名前：791 mailto:sage [2012/05/13(日) 22:45:59.54 ]: >>796
マジレスのつもりでした。
UTF-8はバイトオーダーに依存しないので
インディアン無しと掻きました
798 名前：デフォルトの名無しさん mailto:sage [2012/05/13(日) 23:59:25.40 ]: 依存もなにもbyte orderなんだからbyte単位データの並び多種になってたまるかよ
799 名前：デフォルトの名無しさん mailto:sage [2012/05/14(月) 00:36:19.59 ]: おい、バイト！オーダー取ってこい！
800 名前：デフォルトの名無しさん mailto:sage [2012/05/14(月) 00:54:01.43 ]: じわっときたが
がっかりした
残念だ
801 名前：デフォルトの名無しさん mailto:sage [2012/05/14(月) 06:11:25.37 ]: インディアン
802 名前：デフォルトの名無しさん mailto:sage [2012/05/14(月) 11:09:05.25 ]: リトルインディアン
803 名前：デフォルトの名無しさん [2012/05/14(月) 21:49:46.07 ]: ワンリルートゥーリル
↓
804 名前：デフォルトの名無しさん [2012/05/14(月) 21:58:08.99 ]: ウディタの新バージョン「ウディタ2.00」が公開されました（2011年10月27日）

「WOLF RPGエディター」とは？　
・高度なRPG開発が可能な、完全無料のゲーム作成ツールです。
・雰囲気はRPGツクール2000に近い。RPGツクール2000で自作システムを作りこむ際に
　不満だったところがいろいろ解消されていて、かなり自由度が高いです。ただし
　その分初心者には難しいかも。すでにツクール2000で自作システムを組むのに
　慣れた人やＲＰＧツクールでは物足りないけどプログラミングはちょっとという方にお勧め。
・作成したゲームは自由に配布したり、コンテストに投稿することも可能。
　また本ソフトを持たない人でもプレイ可能！ファイル暗号化も完備！
■作り方しだいでパズル系やカードゲームやシミュレーションやシューティングや
アクション、RTSや他なんでも作れます。
■また他の人がネット上で公開している「コモンイベント」を組み合わせて利用すれば、
自分では開発が難しいゲームシステムも容易に実現することができます。

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef