UnicodeとUTF-8の違いは？　その2

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 05/09 15:01 / Filesize : 153 KB / Number-of Response : 673
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:age [2010/05/27(木) 14:17:17 ]: 前スレでなんとなくわかったのですが、インディアンがどうとかいうあたりで
話について行けなくなりました。
2 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 14:20:27 ]: 次スレいるのかよｗ
3 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 14:47:56 ]: すみません。まだよくわかりません。
自分の理解では　↓

＜Unicode＞
　文字の一覧のことらしい。文字には識別用の符号が割り振られている。

＜UTF-8＞
　Unicodeの各文字をバイトデータで表現したもの。Unicodeの符号値から
UTF-8のバイトデータへは変換式があるらしい。
　インディアンが関係してくるらしいがそのあたりがよくわからない。
　BOMというものが付いていて、それがUnicodeのしるしの役割をしているらしい。

疑問点
・UTF-8とインディアンの関係は？
・UnicodeとUTF-8が別モノなのにBOMがUnicodeのしるしというのがよくわからない
4 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 15:01:44 ]: UTF-8はエンディアン関係無いよ。これは1バイトずつの並びだから
どのCPUでも扱いは同じ。
Unicodeの表を元に実際のバイトの並びを決めた方式の一つがUTF-8

BOMはUnicode（≒UTF-16と思っていいか？）には必須だが
UTF-8の場合、このファイルはUTF-8でエンコードされてると
わかるためのしるし。
何も無かったらそのユーザーの環境で普通に使われてるエンコーディングと
判断されるケースが多い。
5 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 15:09:04 ]: ビットで表すと、、、
16ビットのUNICODEの表で
00000000 0xxxyyyy (7bit)の文字は
UTF-8だと0xxxyyyy
ビッグエンディアンの環境でUTF-16だと00000000 0xxxyyyy
リトルエンディアンの環境でUTF-16だと0xxxyyyy 00000000
xxxxxxxx yyyyyyyy(16bit)の文字は
UTF-8だと1110xxxx 10xxxxyy 10yyyyyy
ビッグエンディアンの環境でUTF-16だとxxxxxxxx yyyyyyyy
リトルエンディアンの環境でUTF-16だとyyyyyyyy xxxxxxxx

こんな感じ。何が入ってるか事前にわからないとエンコードできないでしょ？
6 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 15:16:22 ]: >>4
あれーでもUTF-16はBOM省略可能では？(Unicode規格2.6章)

>>5
>16ビットのUNICODEの表で
Unicode表はバイトデータと関係ないから「16ビットの表」っていう表現はおかすぃ
7 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 15:31:18 ]: ところでUCSって何?
Unicodeとは別モノ?
8 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 15:55:44 ]: >>3
{UTF-8, UTF-16}　∈ Unicode

こういう包含関係があるのがUnicodeとUTF-8との違いだよ
9 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 16:16:19 ]: それは
{UTF-8仕様, UTF-16仕様}　∈ Unicode規格
の話な。
ここで議論しているのはUnicode規格でなくUnicode文字集合の話だ。
10 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 16:23:30 ]: えっ
11 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 17:28:25 ]: なんでこんなしょもないスレの次スレなんか立てるんだよ...
12 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 17:30:29 ]: せめてスレタイを汎用化してほしかった。
Unicode総合スレとか。
13 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 18:23:10 ]: とりあえず前スレ

UnicodeとUTF-8の違いは？
pc12.2ch.net/test/read.cgi/tech/1177930957/
14 名前：デフォルトの名無しさん [2010/05/27(木) 18:28:31 ]: Unicode ⊃ { USC-2, UCS-4, UTF-8, UTF-16 }
USC-2 : 1文字2バイトの文字集合
USC-4 : 1文字4バイトの文字集合
UTF-8 : 文字コードを文字集合にマッピングする変換規則の一つ（ひとつの文字を表す文字コードの長さは1バイトから6バイト）
UTF-16 : 文字コードを文字集合にマッピングする変換規則の一つ（ひとつの文字を表す文字コードの長さは2バイト（但し一部の文字は二つの文字コードを使って一つの文字を表す））
15 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:25:25 ]: ところでお前らUnicodeって言ったらUnicodeコンソーシアムの規格かISO/IEC10646か
どっちを指すわけ？
Unicodeコンソーシアムの規格にはUCSなんて概念は無いわけで。
16 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:30:55 ]: それを知るためにここにきますた
17 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:33:26 ]: UTFは文字コードをUCSの文字集合に割り当てる為の実装手段って事か。
UTF-8は文字集合にUCS-4を使っているみたいだけど
UCS-4は1文字4バイトとあるのにUTF-8は1文字1～6バイトと可変とある。
UTFによって1文字に使うバイトが変わるならUCS-4の1文字4バイトってのは一体何の基準なんだ
と思ったらUCS-4自身もUCS-4の文字集合を使うための実装手段として使えるんだな。
その際に1文字が4バイトになると、なるほど。
18 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:35:14 ]: UTF-8って1～6じゃなくて1～4バイトの可変じゃねーの？
19 名前：デフォルトの名無しさん [2010/05/27(木) 19:45:34 ]: >>18
セキュリティーにうるさい環境では4バイトまでしか認めないけど、20年
前から絶対防御を実現しているLinux等は、いまだに6バイトまで許容して
います。
まあ、JavaやWindowsは脆弱すぎるってことです。
20 名前：デフォルトの名無しさん [2010/05/27(木) 19:49:19 ]: >>18
フラットな4バイト空間をどうやって1から4バイトの可変長の空間に詰め込むんだよ。
21 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:52:12 ]: >>19
意味わかんね。何で仕様の話にセキュリティーが出てくるんだよ。

>>19
規格嫁。Unicode 5.2.0の2.5章にUTF-8は最大4バイトと書いてある。
22 名前：デフォルトの名無しさん [2010/05/27(木) 19:54:49 ]: >>21
意味がわからなかったら危険。
23 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 19:54:58 ]: >>21 ISO 10646 対応ってことでそ
24 名前：21 mailto:sage [2010/05/27(木) 19:55:48 ]: >>19
どうやって詰め込むかは3.9章に書いてある。
25 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:03:32 ]: 煽りあい気味の意見交換は前スレで散々やったからこのスレでは控えめに行こうぜ

5バイト以上のUTF-8についてwikipediaに分かりやすくまとまってたので引用
ja.wikipedia.org/wiki/UTF-8#.E3.82.BB.E3.82.AD.E3.83.A5.E3.83.AA.E3.83.86.E3.82.A3
｜セキュリティ
｜
｜UTF-8のエンコード体系には冗長性があり、同じ文字を符号化するのに複数の表現が考えられる。
｜かつてはそのような表現も許容されていたが、ディレクトリトラバーサルなどの対策として行われる
｜文字列検査を冗長な表現によりすり抜ける手法が知られるようになったため、現在の仕様では最も
｜短いバイト数による表現以外は不正なUTF-8シーケンスとみなさなければならない。[9]
｜
｜ISO/IEC 10646の定義が5バイト以上の表現を許容していることにより、正しくない実装をおこったバグ
｜のあるシステムにおいてエンコード時にバッファオーバーフローが発生する可能性も指摘されている。
26 名前：24 mailto:sage [2010/05/27(木) 20:07:20 ]: アンカミスったし(>>19→>>20)、ageちまった。スマン。

でもUnicodeっていったらUnicodeコンソーシアムの規格じゃねーの？
ISO 10646って言ったらUnicodeじゃなくてUCSっつーイメージがある。偏見？
27 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:24:45 ]: >>19
JavaやWindowsには既知の『正しくない実装をおこったバグ』が存在
しているということですね。
具体的にWindowsのKB番号など教えていただけないでしょうか。
28 名前：デフォルトの名無しさん [2010/05/27(木) 20:33:16 ]: >>27
いや、ノーガード戦法こそ唯一絶対のセキュリティーって話。
セキュリティーが甘いからノーガード戦法が出来ないんだろ？
29 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:35:38 ]: よくわかりませんが、Linuxはノーガードということなのですね。凄いです。
30 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:38:21 ]: Windows：細かいところが甘いから6バイトまで使えるところを４バイトに縛って強制的に安全化を図っている
Linux：細かいところまで大丈夫なので４バイト縛りなどのセキュリティーを入れる必要がない

って事が言いたいんでしょ。
31 名前：デフォルトの名無しさん [2010/05/27(木) 20:45:39 ]: >>30
いや、さすがにそこまでは言っていない。
というか、細かいバグの多さならLinuxが最高峰だし。
32 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:55:39 ]: >>15
ISO/IEC 10646はUnicodeではありません。
よってUTF-8が6バイトとか、UCSがどうとか言っている奴はスレ違いということで。
33 名前：デフォルトの名無しさん [2010/05/27(木) 20:56:24 ]: ただ、ノーガード戦法がセキュアって言うのは常識だろ。
たとえば、Linuxで広範に使われているlibxml2。
これは、エンティティー参照によく知られるバグを持っているけど、
そのまま使うと危険だから、賢い人なら自力で回避して使う。
Gnomeはlibxml2をそのまま使っているから、実際危険な使い方が出来る。
だから、賢い人ならGnomeを使わず、TWM+XFMで環境を構築する。
こうやって賢く安全な使い方が普通に出来てしまうのがLinuxの良い
ところだ。
Windowsではどうだ？
エクスプローラに脆弱性があるからと言って、代替製品に置き換えて
使う人がどれだけいる？
つまり、与えられたセキュリティーなど無意味。
何も与えない、ノーガードこそが一番安全なのだ。
34 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 20:59:00 ]: >>33はクレイジー
35 名前：デフォルトの名無しさん [2010/05/27(木) 21:08:46 ]: >>34
クレイジーってなんだよ？
Linuxが6バイト許容なのもエンティティー参照の問題もセキュリティーの
啓蒙のためにそうなっているんだよ。
痛い目にあえば、ユーザーは気をつけるようになるだろ？
「誰も信用するな」がセキュリティーの基本原則だ。
こういった啓蒙活動のおかげでLinuxユーザーは賢くなり、Linuxは最高の
セキュリティーを手に入れることが出来た。
これがフルオープンの力だ。
36 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 21:14:00 ]: ふむふむ、Linuxは広範囲に使われている基幹dllに脆弱性があっても修正されないのか
37 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 21:15:32 ]: これ以上俺の腹筋を痛めないで欲しいなぁ
38 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 22:20:07 ]: >>14
UTF-8に関しては日本語が3バイト、英数字が1バイト
UTF-16は日本語が2バイト、英数字が2バイトで

日本語の量が多いファイルではUTF-16が容量節約に適して
日本語より英数字が多いファイルではUTF-8が容量節約に適しているって
解説しているサイトがあったなあ
39 名前：デフォルトの名無しさん mailto:sage [2010/05/27(木) 22:27:12 ]: そもそもASCIIコードと互換性のないUTF-16なんてなんで作ったの？
40 名前：デフォルトの名無しさん [2010/05/27(木) 23:34:42 ]: 移行できると思っていた
41 名前：デフォルトの名無しさん [2010/05/28(金) 00:01:05 ]: アメリカ野郎にとってはASCIIで対応してる文字にわざわざ２バイト以上使うなんてクレイジーでしかないからね
42 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 01:12:07 ]: ASCIIは永遠に使われ続けるだろ
43 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 01:12:12 ]: たかが１バイト増えるだけだが
1が2になると倍だしな
44 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 19:17:26 ]: wikipediaのUTF-8の項目に
＞UTF-8はISO/IEC 10646(UCS)とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。
とあるのですが一般的に使われているUTF-8はISO/IEC 10646を使ったものですか？それともUnicodeを使ったものですか？
ttp://ja.wikipedia.org/wiki/UTF-8
45 名前：デフォルトの名無しさん mailto:sage [2010/05/28(金) 22:17:36 ]: >>44
実際に使われているUTF-8のデータから、両者の違いを見分けることはできないと思うよ。

文字集合がUCS-2だUCS-4だって言ったところで、Unicodeで定義されない文字がある訳じゃ無い。

ついでにUCS-4はUnicodeと同じ21bitの範囲までしか文字を入れない決まりになったしね。
46 名前：デフォルトの名無しさん mailto:sage [2010/05/29(土) 22:54:03 ]: ⅠⅡⅢとか①②③ってなんの問題が?
47 名前：デフォルトの名無しさん mailto:sage [2010/05/30(日) 11:09:31 ]: 機種によってコードが違ったり無かったりしたからな
48 名前：デフォルトの名無しさん mailto:sage [2010/05/30(日) 21:18:26 ]: >>41
でも日本人の場合、EUCとかSJISで対応してる文字にわざわざ３バイト以上使う
クレイジーな奴が多いんだよな・・・
49 名前：デフォルトの名無しさん mailto:sage [2010/05/31(月) 03:08:55 ]: UTF-8って日本語3バイトになるのか
知らんかった
50 名前：デフォルトの名無しさん mailto:sage [2010/05/31(月) 21:57:26 ]: そりゃあ日本独自のそれこそガラパゴスよりは全世界共通のグローバルの方が見た目かっこいいからだろうな。
51 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 01:28:22 ]: SJISは海外アプリが食ってくれない事が多々あるし、EUCは日本人でも使ってる奴が少ない。
最大でもせいぜい1.5倍にしか増えないなら、使う価値は十分あると思うが。
52 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 05:17:40 ]: >>46
Unicode的には全く問題ない。
53 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 10:09:44 ]: 外国の混じりにしたらとたんにSJISのソースじゃやっていけなくなった・・
まあ直接埋め込む方が悪いがｗ
54 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 18:50:01 ]: >>44
そらUnicodeだろ。IANAもRFC3629もUnicode。

>>46
シフトJISで後から追加された文字。いわゆる機種依存文字なのでWinのシフトJISを
Macに持って行くと文字化けする。Unicode系のコードでやりとりすれば>>52の言うとおり問題無い
55 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 20:31:22 ]: UNIXやLINAXはEUCなのになんでEUCが世界を支配してないの?
56 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 20:42:29 ]: えっ普通LinuxはUTF-8じゃないの？
それはともかく多言語を同時に扱えない文字コードはちょっと・・・
57 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 22:01:20 ]: PARLだかパールだか
サーバーサードスクリプトがはやったときどのプロバイダもFTPでEUCのHtmlをアップさせてたじゃん
58 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 22:14:20 ]: >>55
基本的に殆どのソフトウエアのコア部分は海外で作られる。
Windows、Mac OS X、Linux、FreeBSD、NetBSD、OpenBSD、
Plan9、gcc、glibc、perl、php、Python、vi、emacs等

海外のプログラマの人達が使ってる文字はASCIIが基本で、
その範囲を超える文字はマルチバイト文字として特殊な扱いに属する。

マルチバイト文字には歴史的に数多くの種類があるけれど、(日本ならshift-jis、euc、jis等)
その一つ一つに対応したプログラムを個別に書くのは非常に手間が掛かってかったるいし、
自分が使っていない言語の事は良く分からないので、取っつきにくいという問題もある。

その点Unicodeは各国語の文字が単一の文字集合に入っているし、
その取り扱い方法も規定されているので、Unicodeを扱えるように
プログラムを書けば、各国語の文字を扱えるようになるという便利さがある。
59 名前：デフォルトの名無しさん mailto:sage [2010/06/01(火) 22:17:00 ]: >>57
今perlはutf-8がデフォルト文字コードだよ。
60 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 02:22:38 ]: perlはスクリプトをutf-8で書いて、入力時に希望の文字コードからutf-8に変換して、
出力時にutf-8から好きな希望の文字コードに変換する、という方法が確立されたかららくちん
61 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 06:08:30 ]: >>55
Unicode系じゃないとコンパイル時と実行時に文字コードの情報が必要になって
面倒なんだよ。Unicodeならその国の文字は読めなくても文字化けしない。
62 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 20:47:12 ]: WindowsServerとSQLServerが無料になったら使う
63 名前：デフォルトの名無しさん mailto:sage [2010/06/02(水) 20:50:27 ]: お前は一生シフトJIS使ってればいーよ
64 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 03:36:54 ]: すんげー亀レスだったりレスつけすぎだったりだけど規制解除がうれしくてはしゃいでるだけだから許してちょ
あと、UCSってあんまり知らないんで誰か教えてちょ。あれは文字コード表なの？エンコーディングなの？
>>3
> ・UTF-8とインディアンの関係は？
まず、インディアンじゃなくてエンディアン。そしてUTF-8ではエンディアンは関係ない。
>・UnicodeとUTF-8が別モノなのにBOMがUnicodeのしるしというのがよくわからない
Unicodeのしるしというよりも、UTF-8のしるし。昔、HTMLで文字コードをうまく認識させるために上の方に

って書くって小ワザが使われていた時期があったんだが、それと同じようなもの。

>>4
>BOMはUnicode（≒UTF-16と思っていいか？）には必須
なくてもいい。あったら簡単に判別できるよってだけ。
Unicode≒UTF-16は、実質そうなのだけど、あえてそう思わないようにしたいところ。

"≒"って書いてあるのでサロゲートペアは考えないことにする。
UTF-8とかのテキストエンコーディングを知る上で重要になる、文字コード表+コード変換規則という組み合わせを大事にしたい。
UTF-16はあえて「数字をそのまんま返す」という変換をしていると考える。あるいは、コード変換規則はバイト列から表番号への型変換だと考えてもいい。

>>55
わずかに、日本じゃeuc-jpが使われてて、韓国じゃeuc-krが使われてるだけ。
両者に互換性はないし、他の非ASCII文字が必要な国ではまた別の文字コードが使われてるし、世界支配には全然至らない。

例えば、俺が何かソフト書くとき、日本語には対応させる気になっても、手間かけてまで中国語・韓国語には対応させたいとは思わない。
多分、アメリカ人から見たら、わざわざ手間かけて日本語、中国語、韓国語に対応したいとは思ってないんだろう。

Unicodeは、その手間を最小限に抑えられる。
もともと特殊な文字コードが必要なら、Unicodeを使えば勝手に世界中の言語に対応してくれることになる。
そういうのが不用なアメリカ人だって、Unicodeにさえしてくれれば世界中の言語に対応したのを作れるといったら、それくらいの手間はかけてくれるかもしれない。
65 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 06:47:00 ]: 知ってるぜ。昔HTMLで文字コードを認識させるために

って書いたんだよな。他人が見たらびっくりだ

> UCSってあんまり知らないんで
たふん
　UCS→規格ISO/IEC 10646のこと
　UCS-2/UCS-4→テキストエンコーディング
UCSの文字集合は、何だろうね。規格で定められているのかな。
66 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 09:31:39 ]: UTF-8のプレーンテキスツで利用させてもらうわ「美乳」
67 名前：65 mailto:sage [2010/06/03(木) 13:20:36 ]: >>66
すまん説明が悪かった。
EUC-JPのHTMLページを文字化けさせない時に「美乳」を使う。
UTF-8ならBOMがあればいいでしょ。
68 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 17:56:40 ]: >>65
UCSは文字集合で、エンコーディングじゃ無いよ。
69 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 21:32:43 ]: ホームページのファミコン.icoだかfamicon.icoってなに?
70 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:04:03 ]: faviconだろ
71 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:07:46 ]: ｆａｖｏｒｉｔｅ　ｉｃｏｎの略だろ。
お気に入りに追加するときに自動的にダウンロードされる。
72 名前：デフォルトの名無しさん mailto:sage [2010/06/03(木) 22:27:36 ]: ていうか、unicodeどころか文字ですらない。
73 名前：デフォルトの名無しさん mailto:sage [2010/06/04(金) 19:08:15 ]: そういやSolarisってUCS-4なのな。
マイクロソフトももう少しUnicode対応が遅ければUTF-32採用されていただろうに。
74 名前：デフォルトの名無しさん mailto:sage [2010/06/05(土) 03:51:23 ]: UCS-4 or UTF-32の何がそんなに嬉しいのかね。
コードポイントは32bitの固定長だけど、
どのみち結合文字があるから1文字は可変長なのにね。
75 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 04:41:01 ]: 一文字何バイトにしようと
半角カナの濁点や合成用濁点をその前の仮名文字と組み合わせる必要が
なくなるわけじゃないのにね。
76 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 06:42:54 ]: 読めない読む必要のない言語はトーフで十分なんだから
末端ユーザの文書なんて不可逆にEUC等のローカルコードに変換して保持すりゃ十分だよne
77 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 06:43:58 ]: Unicode←→EUC-JPの変換がどれだけ地雷原なのかも知らんのか…
78 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 09:53:54 ]: >>76
その文書を入力として読み込むことがないのなら。
入力しなけりゃ、二度と出力もできないが。
79 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 10:18:53 ]: >>77
unicodeに戻す必要があるのならね
80 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 10:43:25 ]: >>74
code pointとgraphemeの区別が付いていないんだろうね。
文字として扱う場合はいずれにしても可変長処理になるから、UTF-16の
サロゲートペアとかも些末な問題なんだけど、延々的外れな主張が繰り返される。
81 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:37:03 ]: >>77
マッピングテーブル2回通すだけだろ
82 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:44:02 ]: >>81
そのテーブルが問題なんだよ
83 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 11:59:58 ]: FirefoxからEUC-JPの掲示板に投稿すると一部の文字がIEで読めなくなるとか
Safariから円記号を投稿すると文字化けするとか
いずれもUTF-8なら問題ない
84 名前：81 mailto:sage [2010/06/06(日) 22:10:50 ]: >>82
何か問題ある？
UTF-32→(普通のマッピング)→SJIS→(IBM拡張をマッピング)→SJIS→(計算式)→JIS→(計算式)→EUC
でしょ。
一つ目のテーブルはUnicodeコンソーシアムのtxtファイルからソース生成した。
二つ目のテーブルはシコシコと自作した。
85 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 22:26:20 ]: EUC-JPはいらない子過ぎる･･･
86 名前：81 mailto:sage [2010/06/06(日) 22:27:45 ]: ああ思い出した。マッピングテーブル作る時に「X 0208」「NEC特殊」「NEC選定IBM拡張」「IBM拡張」
とマッピング先が複数候補有るので小細工が必要だったかも。
どの文字領域で重複してるか一文字ずつ調べてく単純作業が必要だった。
計算式と一般公開データだけでできると思ったら確実にはまるね。
87 名前：デフォルトの名無しさん mailto:sage [2010/06/06(日) 23:06:38 ]: フロントエンドプロセッサを日本語に訳すと?
88 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 00:07:36 ]: 前の方を処理してくれる女
89 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 07:46:06 ]: >>86
Shift-JISとCP932でマッピングが違う記号がいくつかあるし
90 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:32:29 ]: イミフメ。CP932がシフトJISじゃないとでも？
91 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:41:05 ]: ￡がU+00A3になったりU+FFE1になったりして困った経験がないんだろうな
92 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 13:44:23 ]: 色色問題あるけど、代表はasciiのバックスラッシュをJISの円記号と解釈する(cp932)かJISのバックスラッシュと解釈する(sjis)かだな。
93 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 16:08:34 ]: おまいらの言う「sjis」って何よ？
JIS X 0213に\(5Ch)をUnicodeのどの文字にマッピングするかなんて書いてあったっけ？
94 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 16:33:29 ]: お前ら本当にUnicode好きだな。
そろそろ次スレ立てるか？
スレタイは「Unicode総合スレU+0003」
95 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 19:07:09 ]: お前３行目言いたいだけだろ
96 名前：デフォルトの名無しさん mailto:sage [2010/06/07(月) 21:31:22 ]: お
そ
ス
97 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 00:17:09 ]: 誰もCP932と「sjis」の違いを説明できないんですね。残念です。

で「sjis」って何よ？
定義は？
98 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 01:03:23 ]: sjisはJIS X 0208:1997のシフト符号化表現
cp932はANSIコードページの932
規格が違う、としか言いようがない。
日本のチョコレートがベルギーではチョコレートとみなされなかったりするのと同じようなもんだ。
99 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 02:22:52 ]: ttp://ja.wikipedia.org/wiki/Microsoft%E3%82%B3%E3%83%BC%E3%83%89%E3%83%9A%E3%83%BC%E3%82%B8932
【SJIS】
Shift_JISの短縮形

【Shift_JIS】
「シフトJIS」のIANA登録名。

【シフトJIS】
JIS X 0208符号化文字集合を一定の規則に従ってシフトした文字符号化方式。

【CP932】
MS-DOSと Windowsにおける日本語コードページを表す用語。
「Windows-31J」が制定されるまでは、OEMベンダによって文字集合が違う。

【Windows-31J】
Windows 3.1(J)のリリースに合わせて、マイクロソフトがIBMとNECのコードを
統合して作った符号化文字集合。

まとめ：
・SJIS
　… 狭義ではJIS X 0208:1997のシフト符号化表現のこと。
　　　広義ではシフトJIS系文字コード全般を指す。(CP932も含む)

・CP932
… DOSやWinにおいて、日本語コードページを指す用語。
　　Win3.1以降ならその実体はWindows-31Jだが、古いverやDOSでは
　　バージョンにより実体が異なる。

これでどうでしょ。
間違ってたら適当に修正よろ。
100 名前：97 mailto:sage [2010/06/20(日) 02:37:16 ]: >>98,99
そのJIS X 0208にUnicodeとのマッピングが書いてあるのかよ。話をすり替えるな。

俺はJIS X 0213とwww.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT
ぐらいしか知らない。
>>89の言う「Shift-JISのマッピング」って一体何なのよ？
101 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:03:44 ]: そういや、なんで異字体セレクタって後置なの？
前置にしとけば、何か漢字1文字読んだ後に異字体セレクタなんて付いてない可能性高いのに
念のためもう1文字読む、という手間が省ける気がするのだが。
102 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:10:06 ]: >>100
いや、誰がどう言おうと、sjisの定義はそれなんだから仕方ない。
>>89が言いたかったのは波ダッシュ問題のことだとは思うけど、
それはsjisの定義そのものとも、sjisとは何かとも関係がない。
103 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 03:12:52 ]: >>102
いや、関係ないは言い過ぎだな。
sjisがJIS X 0208:1997に完全に基づいてるとしたら、それをUnicodeに変換するときは
JIS punctuationに従うって考えるのが自然だろうし。
104 名前：100 mailto:sage [2010/06/20(日) 03:52:34 ]: >>101
付随する物が基本となる物に続くのが論理的、とかフォントレンダリングが単純化される、
みたいな言い訳が2.11章に書いてあった気がする。

>>103
「JIS Punctuationに従う」って何？
「sjis」とUnicodeとのマッピングがどこに書いてあるのか、具体的に教えてくれ。
105 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 07:35:23 ]: >>104
>「sjis」とUnicodeとのマッピングがどこに書いてあるのか、具体的に教えてくれ。

規格化されていないのでどこにも書いてない。
106 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 08:28:19 ]: CP932
ttp://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT

JIS X 0208とShift-JIS
ttp://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/
107 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 12:41:09 ]: >>104
> 付随する物が基本となる物に続くのが論理的、とかフォントレンダリングが単純化される、
なるほど。
けど論理性はともかく、レンダリングが単純化されるって、どういう風にされるんだ？

> 「sjis」とUnicodeとのマッピング
よくわかんないけど、sjisがjisをシフトさせたもので、unicodeにjisとunicodeの対応があるんだったら、
sjisをjisに変換してjisをunicodeに変換したものがマッピングに当たるんじゃないの？
>>105の言う通り、規格化はされてないようだから、それで納得できない人もいるかもしれないけど。

> 「JIS Punctuationに従う」って何？
だって、JIS PunctuationのWAVE DASHに対応する文字がjisの中にないとおかしいじゃん。
だったら、sjisの中にWAVE DASHに対応する文字がないとおかしいじゃん。
unicodeの規格には「ないとおかしい」って書いてないだろうから、なくてもいいのかもしれないけど。
108 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 19:08:06 ]: >>106
obsoleteかよ。しかも半角円記号がA5にマッピングされてるじゃねーか。
そんな実装存在すんの？

>>107
>>89,91,92の言うsjisのマッピングって、存在するかどうか怪しい>>106のことなのか？　空想乙
109 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 19:29:48 ]: >>108
>>91-92は存在するか検証可能だろ。波ダッシュ問題見逃してるのはなんでか知らないけど。

{sjis, cp932}からunicodeじゃなくてutf8から{sjis, cp932}だけど。
iconv (GNU libc) 2.9
Copyright (C) 2008 Free Software Foundation, Inc.
使って波ダッシュを変換。マイナーな処理系だと言うなら、勝手に言うがよろし。

$ echo ～ | iconv -f utf8 -t cp932 | od
0000000 060201 000012
0000003
$ echo ～ | iconv -f utf8 -t sjis | od
iconv: 位置 0 で不正な入力シーケンスがありました
0000000
110 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 20:16:15 ]: >>109
波ダッシュ変換して何がうれしいのか。

今度は「sjisのUnicodeマッピングとはiconvコマンドの実装のこと」ですか。
よくもまあ言うことがコロコロ変わるもんだ。

ついでにそのiconvは半角￥をA5に変換するのかな？

最初から「cp932以外はマッピングが規格化されてないのでcp932とそれ以外のシフトJIS系実装でマッピングが異なる」って言えばいいんだよ。
111 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 20:21:04 ]: なんで「俺様のまとめ」を、他人に最初から要求するんだろうこういう馬鹿って
112 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 20:38:46 ]: まとめを要求したいのではなく89と91の表現が不適切だと言いたいのではないだろうか。
110(=90?)はCP932もシフトJISだと言いたいんだろう。

確かにsjisのUnicodeマッピングは定義が曖昧すぎる。
113 名前：デフォルトの名無しさん mailto:sage [2010/06/20(日) 21:57:57 ]: >>110
え？うれしくないの？超うれしいじゃん。

> よくもまあ言うことがコロコロ変わるもんだ。
もともと俺、sjisのunicodeマッピングが何かについては言及してなかったんだけど、誰と勘違いした？

> ついでにそのiconvは半角￥をA5に変換するのかな？
ならなかったけど、人の言ったことにまで責任は取らない。
手順もソフトも覚えてないが過去になったことはあるけど。

> cp932以外はマッピングが規格化されてないのでcp932とそれ以外のシフトJIS系実装でマッピングが異なる
明らかな間違い。規格化されていないことは、マッピングが異なる理由ではない。
114 名前：99 ◆SmULsZQKBg mailto:sage [2010/06/22(火) 00:43:33 ]: 相手を誰かと買い違いして、喧嘩腰になってる方が見受けられるのでトリ付けた方が良いかも。

散々問題になってる>89は、>81を
　「X 0208」「NEC特殊」「NEC選定IBM拡張」「IBM拡張」 → CP932 (=Windows-31J)
と解釈した上で、Shift-JIS（=JIS X 0208）という別のキャラセットもあると述べてるだけかと。
（両者は別のキャラセットとして、IANAに別個に登録されてます。）
具体的に何が問題になるかも、>92で示されてます罠。
115 名前：99 ◆SmULsZQKBg mailto:sage [2010/06/22(火) 00:44:44 ]: 訂正。>81じゃなくて>86ですね。同一人物ですが。
116 名前：99 ◆SmULsZQKBg mailto:sage [2010/06/22(火) 00:54:25 ]: 今更ながら>77の言う「地雷」の意味が何となく分かった。
ttp://ja.wikipedia.org/wiki/EUC-JP

>84の変換方法だと、Windowsなら良いかもしれないけど
他で問題がありそうな予感が。（検証してないけど）
117 名前：デフォルトの名無しさん mailto:sage [2010/06/22(火) 08:42:27 ]: おかしい人は相手をせず放置するのがいちばんですよ。

でもここはおかしい人隔離スレかw
118 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 08:36:14 ]: >>114
待て待て。Shift-JISはIANAに登録されていないし、IANAはUnicodeとのマッピングは定めていないぞ。
話と関係なくね？
119 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 09:02:52 ]: 規格化されてないなら、デファクトスタンダードな処理系を基準にするしかないじゃん。
そしたら結局のところ、sjisとcp932はマッピングが違う、という最初から出てた話に。
120 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 18:25:46 ]: そうしたら>>90がまた「cp932もsjisだ」って言い出すだろ。
それともsjisのデファクトスタンダードって何かあるの？
121 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 18:39:42 ]: PC9801のROMに入ってるか否かだ
122 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 23:15:53 ]: PC9801のROMにIBM拡張漢字は入ってないぞ
初代には第二水準漢字すら入ってなかった
123 名前：デフォルトの名無しさん mailto:sage [2010/06/23(水) 23:40:12 ]: >118
ttp://ja.wikipedia.org/wiki/Shift_JIS
「Shift_JISの標準化」の項
IANAも「Shift_JIS」という名前で登録している。

でもよく読むとX0208じゃなくてX0213の方なのかな?
124 名前：デフォルトの名無しさん mailto:sage [2010/06/24(木) 00:03:25 ]: >>123
sjisそのものは標準規格があるけど、sjisをunicodeに変換する方法については規格がない、という話。

>>120
デファクトスタンダード選ぶなら、GNU iconv以上にメジャーな処理系ってなに？
125 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 01:21:33 ]: >124
sjis-Unicodeのマッピングが公式に定義されて無いのは別に否定してませんが…
ただ「sjis」という文字とコードのマッピング（要はキャラセット）はIANAに登録されてるでそ。
それを無いとか言うもんだから>123を提示したまでですが。

あとメジャーかどうか知らないけど、IBMがICUっての公開してますよ。>処理系
126 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 02:13:15 ]: >>125
ちゃんと読もうよ。
わかんないことには口を出さないこと。
勘違いしてたのなら素直に謝ること。
それだけだよ。
127 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 09:44:14 ]: JIS X 0208:1997の附属書1は規格じゃないの? 「規定」って書いてるんだけど。
標準じゃなくてガラパゴスだとか?
128 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 14:45:37 ]: >>125
sjisとShift-JISとShift_JISを一緒にしないでくれ。IANAに登録されているのはShift_JIS。

>>124
また話がループするようなことを。規格化されているのはShift_JISX0213。
断じてsjisではない。
129 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 15:10:13 ]: >>123
X0201とX0208だよ。
www.iana.org/assignments/character-sets

>>124
デファクトスタンダードはやっぱりJavaでそ。
130 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 20:00:00 ]: >>128
それに関しては、もはや揚げ足取りではないのかい？
cp932とShift_JISX0213は別物だが、sjis, Shift_JIS, Shift-JIS, shiftjis, ... を
Shift_JISX0213の通称として扱っていいんじゃないの。

それともShift_JISX0213と別物で、よく似た名前の別規格or独自仕様って何かある？
131 名前：128 mailto:sage [2010/06/27(日) 22:38:28 ]: >>130
揚げ足を取るつもりはないけど。
少なくともShift_JISはIANAに登録されていて別格。狭義のシフトJISを指す。
それに対しsjis,Shift-JISは定義の無い通称で、広義のシフトJISでは？
両者は明確に区別されるべきだと思う。
少なくとも>>99のSJISがShift_JISの略っていうのは嘘。
132 名前：デフォルトの名無しさん mailto:sage [2010/06/27(日) 23:03:12 ]: >128
そこまでの厳密さを求める割に、IANAに登録されてる/されてないという流れに対して、
「Shift_JISX0213」を持ち出すのはおかしいと思わないのかい。
それJISでは正式採用されてても、IANAじゃまだドラフトのはず。
133 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 03:14:55 ]: >>131
Shift_JISって名前出しつつIANA Shift_JISと別のエンコーディングの話する場合はないといえるのかい？
俺と君との2人だけの議論だったら、単語の使い方を明確にしておくのは有効だろうが、
何人いるのかも分からないし、そのうち何人が全部のレス読んでるか分からない、単発ばかりかもしれない場所でそれをやってもろくなことにならないと思うよ。

できる限り、文脈で判断して、違いを分かってる人は必要に応じて明確に違いを明示した言葉遣いをするのが一番マシだと思うんだ。
134 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 11:17:31 ]: unicodeと関係ない話は他でやってくれ。
わかったのはCP932以外のシフトジス系はunicodeとの対応が規格化されていないってことだ。
135 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 11:21:55 ]: X0208←→Unicodeが存在して、X0208←→シフト符号化表現が存在するのに、
シフト符号化表現←→Unicodeが存在しないとはこれいかに？
136 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 12:31:41 ]: なんでこう、脊髄反射するんだろうな。
137 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 13:53:54 ]: やけどしないように、かな
138 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 21:00:17 ]: 脊髄反射した結果、炎上してるのになぁ。
反省とかしないのかね。
139 名前：デフォルトの名無しさん [2010/06/28(月) 21:44:51 ]: >>135
X 0208←→Unicodeは何処に書かれてるの？おせーてくださいまし。
あとX 0201の存在もお忘れ無く・・・
140 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 21:44:58 ]: >134は「規格」を「IANAのobsoleteではない規格」に限定しないと、真にならんかと。
141 名前：デフォルトの名無しさん mailto:sage [2010/06/28(月) 23:17:23 ]: >>140
IANAじゃなくてUnicodeコンソーシアムのまちがいだよね？
あとobsoleteじゃないってのはデフォかと。
142 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 02:29:00 ]: なんだ、そしたらもう、cp932は規格通りにUnicodeと変換可能だけど、
Shift_JISもiso-2022-jpもUnicodeと変換する規格なんてないからUnicode化は諦めたらいいんじゃないの。
143 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:00:59 ]: まあそうだな。だから>>110みたいな意見が出て来るし、実際に実装が乱立している。
>>113はどのあたりが間違いだと言ってるのか気になるけど。
144 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:03:36 ]: >>143
「規格化されていないことは、マッピングが異なる理由ではない」って書いてあるじゃん。
145 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:05:04 ]: >>143
ついでに、ここで「だから」という文脈で>>110を出してくるのはおかしい。
146 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:13:54 ]: お前ら規格にこだわりすぎ。規格がなければ変換できないかのように言うのはミスリーディング。
>>142とそれに賛同してる奴は、本気で書いてるとすればキチガイに近いレベルのバカだ。

例えば上でiconvが出てたが、あれは規格がなくてもできてる。
いくつかの記号では実装によって食い違いが出るかもしれないが、それが一体何だって言うんだ？
cp932
147 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:14:59 ]: すまん。途中でかいてしまった。

cp932じゃなくShift_JISで書かれた文章なんて、そんなに数ないだろうに。
148 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 03:57:16 ]: >>144
じゃあOracleのSJISとJavaのSJISでマッピングが異なるのは何故なの？　きちんと規格化されてないからじゃないの。　

>>146
いや規格化されていないと困るだろ。マッピングが異なるなんて致命的。
149 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 09:59:33 ]: だからその致命的なことがすでに世の中に蔓延していますよ、というのが現実なのだがw
150 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 21:18:07 ]: >148
>じゃあOracleのSJISとJavaのSJISでマッピングが異なるのは何故なの？　きちんと規格化されてないからじゃないの。　
各々の環境で「SJIS」が指してる規格が違うだけかと。
OracleはX0208（cp932にも変更可）で、Javaはcp932らしい。
ttp://otndnld.oracle.co.jp/skillup/oracle9i/1_1/index.html
ttp://www.ingrid.org/java/i18n/encoding/shift_jis.html
まぁ最初からきちんと規格化されてりゃ、こんな事にはならなかったんだろうけど。
151 名前：デフォルトの名無しさん mailto:sage [2010/06/29(火) 21:28:46 ]: >OracleはX0208（cp932にも変更可）
すんませんこれエンコーディングとしてcp932も選べるってだけですね。
SJISの実体をcp932に定義できる、とも読めてしまう気がしたので念のため訂正。
152 名前：デフォルトの名無しさん mailto:sage [2010/06/30(水) 00:11:26 ]: >>148
例えば、OracleのSJISが規格化されたとしたら、cp932とOracle SJISのマッピングは同じになると思うかい？
>>110が書いたのはそういうこと。

>>148
君は、PC(サーバとかじゃなくてPCだぞ)を使う上で1byteの大きさが決まっていなくて困ったことはあるかい？
例えば、この文章をUnicodeに変換するとして、何が致命的になりうる？
153 名前：デフォルトの名無しさん [2010/06/30(水) 02:41:09 ]: >>150
違うぞ。
OracleのSJISはCP932から「～」の一文字だけ異なる独自マッピング。
JavaのSJISはCP932とはほど遠い、iconvのsjisに近いマッピング。
規格化なんて何処にもされていない。

>>148
もし規格化されてたら同じになったんじゃない？
たった１文字だけ違うなんてなかっただろう。
154 名前：デフォルトの名無しさん mailto:sage [2010/06/30(水) 09:49:58 ]: >>153
今のをそのまま規格化したとしたら？
155 名前：デフォルトの名無しさん mailto:sage [2010/07/02(金) 12:03:20 ]: UTF16の1文字で表した年号って今後の年号のために
4つくらい予備をとってあるんだね。
とはいえ、これ残してると後々困ることが起きそうだねー。
結構使われてたりするんだろうか。
156 名前：デフォルトの名無しさん mailto:sage [2010/07/02(金) 12:06:34 ]: 予備はもう全部使いきったんじゃなかったっけ。
157 名前：デフォルトの名無しさん mailto:sage [2010/07/02(金) 13:56:04 ]: UTF16の、って意味わかんないんだが。
エンコーディングを指定する意味は？
158 名前：デフォルトの名無しさん mailto:sage [2010/07/02(金) 18:25:49 ]: ♡
こーゆー文字を書くためのコードはどこに載ってるの?
159 名前：デフォルトの名無しさん mailto:sage [2010/07/02(金) 18:59:06 ]: ttp://www.unicode.org/
160 名前：むぎゅう [2010/07/02(金) 19:11:12 ]: >>157
細けーこたー(略

>>158
www.unicode.org/Public/5.2.0/charts/CodeCharts-noHan.pdf
10進16進の変換は自分でやれ。
161 名前：デフォルトの名無しさん mailto:sage [2010/07/02(金) 21:04:21 ]: pdf・・・
162 名前：デフォルトの名無しさん mailto:sage [2010/07/02(金) 21:27:00 ]: utf・・・
163 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 04:13:53 ]: なんで2chはシフトジスなのに改行はラインフィードのみなの?
164 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 08:01:55 ]: こっちはUnicodeスレかと思ったらそうでもないのね。
165 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 10:06:08 ]: >>163
sjis使ってることと改行コードは関係ないよ。2chのサーバがUnixだからだろうけど。
166 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 14:59:38 ]: 改行コード1バイトにするだけで10%近く圧縮されるからな
167 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 16:15:17 ]: それで、SJISとUTF-8の圧縮率の話に戻って・・・
168 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 16:52:56 ]: 1バイトが0~255の範囲を満遍なく使ってるかどうかで言うと
SJISよりもUTF-8の方が使用効率が良いので
単純に3/2という訳にもいかんのよ
169 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 19:50:25 ]: だってシフトジスはウィンドウスが創作したわけだからCrLfだろJk
170 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 19:53:30 ]: あらあら小学生の来るところじゃありませんよｗ
171 名前：やんやん ◆yanyan72E. mailto:sage [2010/07/05(月) 20:04:09 ]: CP/Mが起源じゃないの？
172 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 20:28:25 ]: プリンタとかではCRとLFが別々に必要だからな
173 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 21:18:23 ]: >>164
文字コードと改行コードの話はキチガイ信者が集まるものだよ。
ネットニュースのうさげの時代からずっと。
そんな人達の隔離スレがここゆっくりしていってね
174 名前：デフォルトの名無しさん mailto:sage [2010/07/05(月) 21:34:57 ]: >>173
これまた懐かしい話を。
じゃぁ半角カナもここ？
175 名前：デフォルトの名無しさん mailto:sage [2010/07/06(火) 00:20:04 ]: >>168
満遍なく使うことだけじゃ、効率のよさの証明にはならない。

例えば次のようにしたら、ASCIIコードから、効率は悪いが範囲を満遍なく使う文字コードへの変換ができる。
00 -> 00 01 02 03 ... FF
01 -> 01 00 02 03 ... FF
...
FF -> FF 00 01 02 ... FE
176 名前：デフォルトの名無しさん mailto:sage [2010/07/08(木) 13:06:30 ]: >>174
半角ってなんですか?
177 名前：やんやん ◆yanyan72E. mailto:sage [2010/07/08(木) 13:48:06 ]: 文字化けしてますよ。
178 名前：デフォルトの名無しさん mailto:sage [2010/07/08(木) 23:58:14 ]: >>176
45°
179 名前：名無しさん＠そうだ選挙に行こう mailto:sage [2010/07/10(土) 22:47:35 ]: >>176
JIS X 0201片仮名用図形文字集合のことだ氏ねバーカ日下部もどきが。
180 名前：名無しさん＠そうだ選挙に行こう mailto:sage [2010/07/10(土) 22:53:16 ]: そういうことにしたいのですね:)
181 名前：名無しさん＠そうだ選挙に行こう mailto:sage [2010/07/11(日) 09:19:04 ]: はつみみです
182 名前：名無しさん＠そうだ選挙に行こう mailto:sage [2010/07/11(日) 12:28:18 ]: 4倍角ってなんすか
183 名前：名無しさん＠そうだ選挙に行こう mailto:sage [2010/07/11(日) 15:02:27 ]: 昔むかしガラパゴス島にワープロ専用機という珍種がおっての。
184 名前：名無しさん＠そうだ選挙に行こう mailto:sage [2010/07/11(日) 16:17:41 ]: 倍角　　　ネ申

4倍角　　　イ立　　々
　　　　　　　｜口　　門
185 名前：名無しさん＠そうだ選挙に行こう mailto:sage [2010/07/11(日) 18:44:42 ]: >183

ttp://ja.wikipedia.org/wiki/%E3%83%AF%E3%83%BC%E3%83%89%E3%83%97%E3%83%AD%E3%82%BB%E3%83%83%E3%82%B5
世界初のワードプロセッサは、1964年のIBM MT/STで、
その後もワング・ラボラトリーズ社などからいくつか
英文ワープロ専用機が登場した。
186 名前：デフォルトの名無しさん mailto:sage [2010/07/12(月) 18:32:32 ]: pc12.2ch.net/test/read.cgi/tech/1278923059/ 文字コード総合スレ part6
建てるの忘れてた。スマソ
187 名前：デフォルトの名無しさん mailto:sage [2010/07/14(水) 22:55:43 ]: ここは隔離スレだったのか。
void的にUnicodeの『Halfwidth』はどうなんだろ。あとPC9821に「2バイト半角カナ」とかあったよなぁ
188 名前：デフォルトの名無しさん mailto:sage [2010/07/15(木) 10:36:50 ]: ヘミ猫はmixiに生息しているのですか？
189 名前：デフォルトの名無しさん mailto:sage [2010/07/15(木) 23:35:42 ]: voidなら最近はtwitterだね。
190 名前：デフォルトの名無しさん mailto:sage [2010/07/16(金) 01:15:54 ]: >>189
はつみみです
191 名前：デフォルトの名無しさん [2010/07/17(土) 08:35:42 ]: くそかべととりまきチネ
192 名前：デフォルトの名無しさん mailto:sage [2010/07/17(土) 09:33:01 ]: ascii-netの時代からそうだけど、取り巻き認定ほど無意味なものはないのに未だに気付けない連中が沸くんだな。
193 名前：デフォルトの名無しさん mailto:sage [2010/07/17(土) 09:50:49 ]: 怒ってた猫が急に話しかけて来たけど、ヘミ猫語だからわからない
www.nicovideo.jp/watch/sm11126185
194 名前：デフォルトの名無しさん mailto:sage [2010/07/17(土) 10:44:28 ]: mixiで暴れてたと思ったら
今はtwitterでも暴れてんのかw
常に時代の最先端を行く奴だな
195 名前：デフォルトの名無しさん mailto:sage [2010/07/17(土) 13:28:12 ]: voidはUnicodeという時代の流れについてゆけず、単なるアラシと化しました
196 名前：デフォルトの名無しさん mailto:sage [2010/07/17(土) 16:31:58 ]: >>187
groups.google.com/group/fj.kanji/browse_thread/thread/ffb260159ecd663e
197 名前：デフォルトの名無しさん mailto:sage [2010/07/20(火) 08:42:28 ]: >>192
Unicode時代になっても、あいかわらず馬鹿のやることはワンパターンだよな
198 名前：デフォルトの名無しさん mailto:sage [2010/07/20(火) 09:35:19 ]: 個人スレが立っている。秀丸に対するありがたいお言葉が。
199 名前：デフォルトの名無しさん mailto:sage [2010/07/22(木) 20:30:43 ]: キャラクターってなに?
200 名前：デフォルトの名無しさん mailto:sage [2010/07/22(木) 23:09:35 ]: >>199
つwww.unicode.org/versions/Unicode5.2.0/ch02.pdf
2.2 Characters, Not Glyphs
201 名前：デフォルトの名無しさん mailto:sage [2010/07/22(木) 23:49:42 ]: >>199
「ATOKを入れてませんか? 」とかアンサイクロに書いてある。
202 名前：デフォルトの名無しさん [2010/07/29(木) 14:10:57 ]: また強制退会処分の模様
203 名前：デフォルトの名無しさん mailto:sage [2010/07/29(木) 14:19:52 ]: 横浜退会決勝は雨で延期
204 名前：デフォルトの名無しさん mailto:sage [2010/08/02(月) 06:17:39 ]: >>200
そこには、

Letters in different scripts, even when they correspond either semantically or
graphically, are represented in Unicode by distinct characters. This is true even in those
instances where they correspond in semantics, pronunciation, or appearance
.
とあるから、Han Unificationの正当化のためにはscriptの違いをlanguageの違いだと
主張しなきゃいけなくなって、傷が広がってるだけ
205 名前：デフォルトの名無しさん mailto:sage [2010/08/02(月) 19:14:55 ]: scriptとlanguageは関係ない。
206 名前：デフォルトの名無しさん mailto:sage [2010/08/04(水) 05:33:35 ]: Letters in different scripts, even when they correspond either semantically or
graphically, are represented in Unicode by distinct characters.

と、はっきりscriptsと書いてある文書を得意げに紹介しといて、都合が悪くなると「関係
ない」ってか
207 名前：デフォルトの名無しさん mailto:sage [2010/08/04(水) 13:24:56 ]: scriptsの違いってのはLatinとかCyrillicとかそういうレベルの話
Latin scriptは英語でもフランス語でもドイツ語でも使われるんだから
言語とはイコールじゃない
208 名前：デフォルトの名無しさん mailto:sage [2010/08/05(木) 08:29:42 ]: どうでもいいけど日本語に訳してくれよ
209 名前：デフォルトの名無しさん mailto:sage [2010/08/05(木) 14:09:01 ]: 文字セットと言語の話？
210 名前：デフォルトの名無しさん mailto:sage [2010/08/07(土) 00:35:00 ]: >>207
>Latin scriptは英語でもフランス語でもドイツ語でも使われるんだから

Latin scriptは日本語でも使われるね

もしかして、言語が決まればscriptが決まるとか誤解はしてないよね

>言語とはイコールじゃない

だから、漢文scriptを日本語で読み下すこともできるけど、同じ日本語を漢字仮名混じり
scriptで表現したものと漢文scriptとは、別のscriptってことになる

もちろん、scriptが違う漢文と漢字仮名混じり文の漢字は、対応はしても別の文字
211 名前：デフォルトの名無しさん mailto:sage [2010/08/07(土) 02:28:36 ]: きちがいあらわる
212 名前：傍観者 mailto:sage [2010/08/07(土) 13:39:14 ]: >210
>>Latin scriptは英語でもフランス語でもドイツ語でも使われるんだから
>
>Latin scriptは日本語でも使われるね
>
>もしかして、言語が決まればscriptが決まるとか誤解はしてないよね

なんかいちゃもんつけるために、意図的に拡大解釈してないかこの人。
結論自体は>207を言い直してるだけだし。
213 名前：デフォルトの名無しさん [2010/08/10(火) 14:00:53 ]: twitter.com/void_No3/status/20745513220
> WebサイトShift_JIS使用は法律で禁止すべきだ!
214 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 14:45:47 ]: 完全血出痔禍がかのうなんだから文字コード完全UTF-8化くらい簡単だろう
215 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 15:36:08 ]: Shift_JISは2011年7月24日で使えなくなります、とか？
216 名前：デフォルトの名無しさん [2010/08/10(火) 15:48:08 ]: void先生！誰に言っているんですか！
twitter.com/void_No3/status/20773507133
> 『全角入力』なる変なのを要求するのやめてもらえませんか?
217 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 15:53:11 ]: そういうお前は誰に言ってるんだよw
ストーカー体質の奴って本当、自分を客観視できない馬鹿ばっかりだよな。
完全に狂ってる。
218 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 15:53:23 ]: でもこれは入力チェックの手抜きだよなあｗ
219 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 17:05:29 ]: 客観視を気にするあまり主体性のかけらもないバカがたくさんいるけどなw
220 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 22:00:25 ]: おまいらすれ違い
hibari.2ch.net/test/read.cgi/tech/1179389033/
221 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 22:09:11 ]: どの住所入力でもぜったい全角入力を要求されるのはなんかの陰謀か。
222 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 22:15:13 ]: 圧倒的多数のアホに合わせてるんだろ＞全角入力
223 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 22:19:52 ]: 全角で入力しても半角で入力してもおkのほうがアホに優しいんじゃないか？
224 名前：デフォルトの名無しさん mailto:sage [2010/08/10(火) 23:10:06 ]: 今日初めてこのスレ見たけど、インディアンには笑った。
もう初心者は置き去りになってますね。
225 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 10:12:16 ]: そもそも1で終わってたのに、インディアンのためだけに2を立てたやつがいるんだよ
226 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 14:36:52 ]: UNIX厨必死だなｗ
227 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 14:42:53 ]: なんでそんなに必死なの？
228 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 14:59:04 ]: 1文字が7ビットじゃないと動かないクソプログラムを大量にバラ撒き続ける
ＵＮＩＸ信者が必死にShift_JISを攻撃してるんだよな
229 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 15:02:13 ]: 7bitじゃなければ駄目ならUTF-8でも駄目じゃないか
230 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 15:13:41 ]: ああそのとり。もちろんダメだよ。それが何か？
231 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 15:22:50 ]: 7F は 7bit でおさまってるのに通らないんだぜ
232 名前：デフォルトの名無しさん [2010/08/11(水) 16:57:05 ]: 7Fって何？
233 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 18:24:19 ]: ~
234 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 18:28:55 ]: >>229
UTF-7で。
235 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 18:36:51 ]: >>233
それって0x7Eじゃない？
236 名前：デフォルトの名無しさん mailto:sage [2010/08/11(水) 19:04:58 ]: あ
そうだね
237 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 10:05:09 ]: 1文字が７ビットな文化圏では「~」という文字は使用されてないよ
この文字は日本語ＯＳで使える文字
だから7ビットに収まってないんだよ
238 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 10:16:12 ]: >>237
そういえばそうだった。「半角」の話か。
239 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 10:17:15 ]: えっ
240 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 10:24:35 ]: チルダ・バックスラッシュの話でしょ。
241 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 10:27:08 ]: 7階、家具売り場でございます
242 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 11:37:36 ]: Unixで${HOME}に展開される~は日本ローカルだったのか！

そんなわけないだろうw
243 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 11:54:05 ]: >>242
hibari.2ch.net/test/read.cgi/tech/1278923059/43-47
244 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 15:42:59 ]: >>242
ヒント：
ASCII,JIS,overline,フォント,101キーボード
245 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 19:48:20 ]: おそらく>>242は
「～」の半角と「￣」の半角の区別がついてない
246 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 20:16:15 ]: 2chはSJISだそうだから半角チルダに見えても文句言えないんじゃなかったけ？
247 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 21:30:44 ]: 7fの話から7eの話に脱線してるのか。
248 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 22:13:25 ]: javaのsjisとms932は、チルダとか数文字unicodeとのマッピングが違うけど、
その理由はなんでしょうか？
sjisはjis規格でms932はmicrosoftが決めたからとも聞いたのですが、
本当でしょうか？
249 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 22:14:36 ]: スレ違いです
250 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 22:31:26 ]: >>248
つ>>89-
251 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 22:47:08 ]: うーん。見てみましたが、どうもマッピングが違う理由がよくわからない。
マッピングの規格がないからと言うこと？
252 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 22:52:35 ]: うぜえ
253 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 23:14:28 ]: >251
ISO646を継承してるか否か。
254 名前：デフォルトの名無しさん mailto:sage [2010/08/12(木) 23:19:40 ]: >>248
由仁子がバカだったから。
いいかげんマッピングをさらしやがって。
255 名前：デフォルトの名無しさん mailto:sage [2010/08/13(金) 21:31:50 ]: >>212
>なんかいちゃもんつけるために、意図的に拡大解釈してないかこの人。

意図的に議論を「英語でもフランス語でもドイツ語でも」と、都合のいいほうにだけ拡大
して誤魔化してるのがお前だろ

日本と中国の漢字を考えるだけで破綻してるのに

>結論自体は>207を言い直してるだけだし。

207の結論は207の前提の真逆だのに、何が言いたい？
256 名前：デフォルトの名無しさん mailto:sage [2010/08/13(金) 23:02:13 ]: >>248
嘘です。
Javaの「SJIS」というコンバータ（UnicodeとシフトJISとの変換ルール）はどこにも規格化されていません。Java独自です。
ms932はUnicodeコンソーシアムのCP932ルールを実装しているので規格化されていると言えるでしょう。
257 名前：デフォルトの名無しさん mailto:sage [2010/08/17(火) 05:50:04 ]: >>251
深い理由はないです。無知とミスが積み重なった不幸から生じた歴史的経緯という負の遺産です。

具体的にはこのあたり参照
ttp://slashdot.jp/~yasuoka/journal/357074
258 名前：デフォルトの名無しさん mailto:sage [2010/08/17(火) 12:16:35 ]: >>257
ミスがあったのはともかく、無知が積み重なったなんで何で言える？
自分の案と違う案をマイクロソフトが出したからマイクロソフトの案を理由もなく
「間違ってる」と批判しているだけの駄文。さすが安岡先生。
マイクロソフトからすれば前の案が間違っていると思ったから別の案を出しただけでは。
259 名前：デフォルトの名無しさん mailto:sage [2010/08/17(火) 13:43:03 ]: おまえが間違ってる
260 名前：デフォルトの名無しさん mailto:sage [2010/08/17(火) 13:46:31 ]: >>258
・FULLWIDTH なんたらは互換用途以外は使うべきでない
・Unicodeのグリフの例示は絶対ではない
ってのを知らない状態でつくったんだろうなってことで＞無知
261 名前：デフォルトの名無しさん mailto:sage [2010/08/17(火) 21:39:15 ]: > 互換用途以外は使うべきでない
> 例示は絶対ではない

いや、それ知ってても、301Cが逆の波ダッシュでFF5EにJISと同じ例示の
波ダッシュがあったら普通(私だけか?)FF5E選ぶでしょう。
「互換用途以外は使うべきでない」のも絶対ではなく、こういうケース
にこそ使うべきだと思いますが。

いずれにせよUnicode規格に残ったのはFF5Eなんだし、自分の思う案が通ら
なかったら規格を無視しようなんて、わがままな子供みたい
262 名前：デフォルトの名無しさん mailto:sage [2010/08/17(火) 22:18:54 ]: FF5E は最初から今に至るまで "TILDE" であって明らかに別の文字なので……
見た目できめるな意味できめろ、という Unicode の基本ルール知ってたらこれ例示がおかしくね？って問いあわせるだろって話。
「見た目同じだからこれでいいよね」は無知のなせる業だろう

まあ、そもそも、FULLWIDTH TILDE などという、互換対象になる文字がそもそも最初から
存在してない文字を登録したの誰だよって話かもしれん。それがなければ少し不幸が減っていただろう

互換用途の話はその部分じゃなくて￠とか￡とかね。
POUND SIGN → FULLWIDTH POUND SIGN とわりあてられてしまっている。
263 名前：デフォルトの名無しさん mailto:sage [2010/08/17(火) 23:10:23 ]: >>257の下の方読んだけど、平成3年の時点で既に8160←→U+FF5Eだったのね(Unicode 1.0)。
平成6年にX 0221やら『Shift-JIS to Unicode, Version 0.9』を出されても、平成5年に
Windows 3.1出したMicrosoftがU+301Cに変更するのは難しいね。
1.0にして道を間違えていたUnicode。
264 名前：1 mailto:sage [2010/08/17(火) 23:30:43 ]: 話の流れをぶった切ってすみません。
スレタイの「Unicode」なんですが、「Unicode」が文字集合の一つだっていうのは
Unicode規格のどこに書いてあるんでしょうか？
265 名前：1 mailto:sage [2010/08/17(火) 23:59:18 ]: エンディアンについてはたいへんお世話になりました。インディアンはお恥ずかしい。
で、大体わかったつもりになったのですが、前スレ43の
> csUnicodeっていうISO-10646-UCS-2のIANA別名があって
を読んだらおやっと思ったのです。これって文字集合でなくエンコードでは？と。
266 名前：デフォルトの名無しさん mailto:sage [2010/08/18(水) 08:00:26 ]: >>265
ここは隔離スレだそうだから本スレ行って聞いたら？
267 名前：デフォルトの名無しさん mailto:sage [2010/08/18(水) 10:17:04 ]: 1に対してそれを言うのかｗ
268 名前：デフォルトの名無しさん mailto:sage [2010/08/18(水) 21:39:00 ]: 文字コードは難しいな。
ネットで情報を集めても、微妙に間違っている(情報ソースによりまちまち）なものがあったりして、信用できない。
文字コードに携わる前は、unicodeは厳密なものだと思っていたが、方言と呼ばれているものがあったり、
実装によって変換方法が違っていたり、細かいところではぼろぼろなことがわかってきた。
unicodeのバイブル（?)の文字のイメージも違っているなどと言うことがあるんだとすると、
ますます何を信用していいのかわからなくなってくる。
269 名前：デフォルトの名無しさん mailto:sage [2010/08/18(水) 21:43:29 ]: 自分を信じろ
270 名前：デフォルトの名無しさん [2010/08/18(水) 22:29:36 ]: インディアンしか信じられないでしょう。
インディアン嘘つかない。
271 名前：デフォルトの名無しさん [2010/08/22(日) 08:57:53 ]: 7Fはどうなった？
272 名前：デフォルトの名無しさん mailto:sage [2010/08/22(日) 11:45:13 ]: >>271
7Fは>>236で7Ehの間違いだとして、
昔IBMのAIX使ってて文字コードがシフトJISだった。ホームは半角の￣で表示された。
これはフォントの問題だろうし、Unicodeに変換される時は大抵7Ehに変換される。
フォントの問題なので7ビット系はOKだろう。
273 名前：デフォルトの名無しさん mailto:sage [2010/08/22(日) 12:16:46 ]: ちなみに7fはDELな。
274 名前：デフォルトの名無しさん mailto:sage [2010/08/22(日) 17:24:50 ]: muleとかみたいに7Fとか1Bとか混ざってると落ちるソフトもあったなって話
275 名前：デフォルトの名無しさん mailto:sage [2010/08/26(木) 20:37:19 ]: 1Bって何？
276 名前：デフォルトの名無しさん mailto:sage [2010/08/26(木) 23:40:57 ]: ESC
277 名前：デフォルトの名無しさん mailto:sage [2010/09/08(水) 18:38:27 ]: ISO-2022で言語とか全角／半角を切り替えるために挿入されるエスケープシーケンスの先頭バイト。
1Bで落ちるってことは、muleはJISコードが扱えない糞ソフトなの？サイテー
まあ文書をISO-2022で保存しようなとどは思わないから別にいいけど。
278 名前：デフォルトの名無しさん mailto:sage [2010/09/08(水) 19:43:24 ]: >>277
muleがそんなわけねえだろうが。
「多言語用emacs」だぞ。
279 名前：デフォルトの名無しさん mailto:sage [2010/09/08(水) 19:47:04 ]: MS-DOSが登場してシフトJISが一般的になる前は
漢字のテキストファイルといえば
KI-KOコードのついたJISコードしか見たこと無かったけどな
280 名前：デフォルトの名無しさん mailto:sage [2010/09/09(木) 02:03:48 ]: >>279
世間が狭かったんだね。
281 名前：デフォルトの名無しさん mailto:sage [2010/09/09(木) 02:43:22 ]: そりゃ8bitじゃなくて7bitだからな
282 名前：デフォルトの名無しさん mailto:sage [2010/09/09(木) 10:34:48 ]: その当時はPCじゃなくてオンライン端末だったしな
283 名前：デフォルトの名無しさん mailto:sage [2010/09/09(木) 11:12:00 ]: JIS制定以前は各社独自の日本語バイナリファイルだから当然の事
284 名前：デフォルトの名無しさん mailto:sage [2010/09/09(木) 22:02:09 ]: そういやJavaってまだBOM付きUTF-8が処理できないんだっけ？
java.exeの方は互換性が問題になるからともかく、コンパイラjavac.exeがNGなのは
一体何の嫌がらせなのか。
285 名前：デフォルトの名無しさん mailto:sage [2010/09/09(木) 23:19:54 ]: 世の中のほとんどのプログラミング言語はガイジン（欧米人）が作ってるからですよ。
日本だけを特別扱いするワケにはいかないんです。
彼らにとって、日本は取るに足りない、地球の裏側の、世界地図の端っこの小さな小さな国
でしかないんです。
だからBOMなんてどうでもいいんです。
嫌がらせとか、そんなんじゃないですよ。な～～んにも気にしてないだけですよ。
問題意識が全くないんですよ。
286 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 02:26:05 ]: ソースコードBOM付きで保管する香具師って馬鹿なの？死ぬの？
287 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 02:30:25 ]: BOMと日本語になんの関係が。
まぁ、メモ帳は死ね、と思うが。
288 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 02:49:43 ]: >>285
お前何も分かってねーな
日本なんて中国の一部と思われてる
まず国として認識されてない
289 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 07:47:35 ]: 素直に英語つかえばいいやん
290 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 08:32:55 ]: >>286
エンコーディングが明確になっていいじゃない。何か不都合でも？
BOMのせいで親が死んだとか。
291 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 10:14:48 ]: 同僚が過労死した
292 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 10:34:21 ]: >>286
BOMじゃなくて単なるZERO WIDTH SPACEですよ
行番号の前に空白が入ると動かないBASICでも使っているの?
293 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 10:58:29 ]: ZERO WIDTH SPACEがあると動かないperl笑java笑
294 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 11:32:56 ]: ファイル先頭にZERO WIDTH SPACEがあると困るというのは
言語仕様やシェルの仕様の問題だからそれぞれのスレでやった方がいい
295 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 11:40:11 ]: そりゃshbangはダメだろうなぁ
296 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 12:08:38 ]: BOMがあると誤作動するソフト。
BOMが無いと誤作動するソフト。
もちろん、BOMがあっても無くても正しく動くソフトもあるが。
こんなのを混在して使用しなければならないのが現状。
それぞれのソフトの作者に改良してもらうしかないのだが。
ソースコードが公開されていて自分で改造・コンパイル可能なものは
自分で手直ししてるが、すべてがそうではないからな。
それぞれのソフトを自分で独自に１から作り上げていては
本来の業務に差しさわりがある。
297 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 12:24:16 ]: >>290
>>292
>>294
単なるZERO WIDTH SPACEだ？
じゃあお前らは編集者が意図した覚えも無いのに、先頭に勝手にunkoって保存されたりされなかったりする環境に何の問題も感じないの？
エンコーディングが明確になるだ？
文字化け対策のかっつーの
いらねーもん無断でつけんなカス
298 名前：デフォルトの名無しさん [2010/09/10(金) 12:34:29 ]: ソースに上位ビットが立った文字列を入れるのが間違い
299 名前：デフォルトの名無しさん mailto:sage [2010/09/10(金) 12:42:28 ]: >>297
いや

の有効性をなめたらいかん
300 名前：デフォルトの名無しさん [2010/09/10(金) 20:57:07 ]: 京には美乳が多いのですか？
301 名前：290 mailto:sage [2010/09/10(金) 22:48:44 ]: >>297
お前にとって要らないものかも知れないけど、俺は入れたいし、好き嫌いの問題だな。
美乳と違ってUTF-8のBOMは規格化されているから一緒にするなよ。
それとは別の話で、Unicode規格に従ったエンコーディングを受け入れられないJavaみたいなソフトは糞。
302 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 00:07:17 ]: BOMはクソ。

ファイルを分割・結合するときに、いちいちテキストかバイナリかを識別
せにゃならんの? 標準入出力とかパイプとか、何処から読まれて何処に
書き込まれるか、そもそもテキストかバイナリかもわからんのに、BOMを
付けたり外したりするのに責任を持つのは誰? 署名したいんだけど、対象は
バイナリ列? それともBOM抜きテキストデータ?

……たかだかプリフィックス1つでこんだけ面倒くさくなるんだから、BOMなんて滅んでしまえー。
303 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 00:59:22 ]: >>302
それはBOMに限った話じゃなくて、標準入出力でテキストファイルを処理することが問題というか、
制限を覚悟しなければならないことじゃないの？
例えばISO-2022で書かれた2つのファイルを結合するとして、最初のファイルがASCII以外で終わっていて
次のファイルがASCII前提で始まってたらデータ壊れるでしょ。
304 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 02:00:03 ]: 美乳と聞いてやってきました。
美乳と言えば貧乳、貧乳はもはやステータスですよね！
305 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 07:17:21 ]: >>303

たしかにテキストファイルの分割結合に関しては、BOMよりはISO-2022の方が
やっかいだわな。
306 名前：デフォルトの名無しさん [2010/09/11(土) 08:42:10 ]: なんで美乳と２文字も要るんだ？乳だけじゃだめなのか？
307 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:06:14 ]: >>305
バイトストリームとして扱える事が売りのひとつのUTF8にわざわざ始端だけつけて
「付けても付けなくても良い」とか言う糞どうでも良い仕様のために常に余計なチェックを実装させられる
好き嫌いの問題じゃすまねーよ
得意げにストリームとして扱えない事が明白なエンコード持ち出して馬鹿じゃねーのお前

世の中のBOMに対する実装だって、ほぼ全てが「BOMを適切に除外するための処理」でしかない
除外されるためだけに存在するBOMって何なのマジで
308 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:06:52 ]: >>302
こんなに頭悪いやつは、ひさしぶりにみた。
309 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:06:52 ]: すまん馬鹿じゃねーのお前は305に言う言葉じゃないなｗ
310 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:08:46 ]: 標準入出力でテキストファイルを処理することが問題って、どこの星の人間だよ
311 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:17:19 ]: 現状としては（本来の目的は別として）
BOMはShift_JISやEUCなど他のエンコードなどを見分ける目的で利用されている。
Shift_JISやEUCがあってこそ、BOMの存在価値があるってことだ。
システム全体がUTF8化されていて、通信やフロッピーやＣＤやUSBメモリーなど
外部から入ってくるテキストもすべてUTF8なら、BOMはいらない。
むかしならそれでいいだろう。
だが今は21世紀だぜ？インターネットの時代だぜ？世界の国からこんにちわだぜ？
「UTF8以外お断り。」ってワケにはいかない。
いろんな文字を扱わざる終えない。
だからUTF8識別文字としてのBOMは価値がある。
312 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:26:44 ]: UTF-8にBOMって要るんだっけ？
313 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:34:28 ]: BOMだけ見て終わりなんて、あらゆる状況で危険すぎて不可能
よってBOMは邪魔なだけ
314 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:35:28 ]: インデアン蚊帳の外です。
315 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:40:09 ]: 結局エンコーディングなんざメタ情報が無ければ大体でしか分からん.
偽りの安心感を得るためBOM付けるくらいならメタ情報を含むフレームを作れ.
UTF-8の特性を根本から揺るがすBOMの推奨者は本当に馬鹿としか言えない.
316 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:40:31 ]: UTF-8にインディアンは関係無くない？
317 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 11:41:51 ]: ウニコデにもインディアン関係ないな
318 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 13:30:23 ]: >>307
ストリームとして扱えないのではなく、UTF-8はISO-2022同様、分割・結合が簡単にできません。
ってだけですよ。BOMに限らずステートフルなテキストをリダイレクトで結合するなってこと。

>除外されるためだけに存在するBOMって何なのマジで
テキストファイル単体でエンコーディングがUTF-8であることが(事実上100%)わかるんですよ。
実用上もの凄いメリットです。

本来>>315の言うとおりメタ情報で管理するべきなのだろうけど、現代のOSもファイル交換
プロトコルもテキストファイルにメタ情報付ける仕組みが無いですし。
319 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 13:38:00 ]: >>318
> テキストファイル単体でエンコーディングがUTF-8であることが(事実上100%)わかるんですよ。
latin-1との誤判断は防げないと思うが
320 名前：デフォルトの名無しさん [2010/09/11(土) 13:47:36 ]: BOMって

Byte
Order
Mark

のはずだよね。
つまり最初からUTF-8のデータとして処理されることだけを想定してる。（当たり前だけど）

エンコーディングを見分けるとか何とか、それって事実上そういう使い方もできる、
ってだけの話で、それが本来の目的であるかのような議論っておかしいのでは？
321 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 13:59:17 ]: >>311
本当に識別文字として使っていいの？
現状使われているどの文字コードでも、BOMと同じ並びのバイト列が最初に現れる可能性はないと言える？
322 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 14:03:23 ]: >>320-321
そういう文句はUTF-8の規格作った人に言わないと。
323 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 14:03:40 ]: >>320
UTF-8のBOMはUTF-8のシグネチャーでしょ。16.8章には↓と書いてある。
| this sequence can serve as signature
| for UTF-8 encoded text where the character set is unmarked. As with a BOM in UTF-16,
| this sequence of bytes will be extremely rare at the beginning of text files in other character
| encodings. For example, in systems that employ Microsoft Windows ANSI Code Page 1252

>>319,321
Latin-1との誤判断については「極めてまれ」ってことにしたいみたいだね。
324 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 14:05:55 ]: >>320
> つまり最初からUTF-8のデータとして処理されることだけを想定してる。（当たり前だけど）

UTF-16。なんでそこまで分かっててそこ間違える。
本来の使い方はエンディアンの識別だったけど、規格でUTF-8にも入れていいことになってる。

けど識別に使うって言っても、BOMあり/なし混在してる以上はどっちにせよ
BOMなしでも識別できないといけないんだし、BOMをつけるメリットは生かせない。
ていうか、混在してる状況でつけるメリットが全然見えてこない。
325 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 14:15:21 ]: >>324
「これはUTF-8だ間違えてくれるな」ってな思いで付けちゃいけないか?
BOM有りUTF-8で保存した文書はブラウザでもテキストエディタでも文字化け
することなく開いてくれるから付けることにしてる。
326 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 15:10:47 ]: signatureが付いてる時点でそれは「plain」textじゃないんだよ。
数バイトでも本体とは別のメタデータなんだから、BOM付きtextというのはある種の構造化データだ。
だから、plain text前提のツールではとっても困る。
plain textのフリをして混じり込んでくるから余計に困る。
327 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 15:15:50 ]: >>306
乳だけじゃ唐突だから単語っぽくしてみたんじゃないか?
というのもあったな
328 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 16:24:58 ]: BOMってのはボム、つまり爆弾。掲示板が炎上するネタっていう意味だったんだよ。

>>306
何で「美」「乳」のうち「乳」を取るんだよおまいは。「美」でいいだろ。
329 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 18:31:40 ]: >>318
>ストリームとして扱えないのではなく、UTF-8はISO-2022同様、分割・結合が簡単にできません。
>ってだけですよ。BOMに限らずステートフルなテキストをリダイレクトで結合するなってこと。
ISO-2022-JPなら、結合は自由

>本来>>315の言うとおりメタ情報で管理するべきなのだろうけど、現代のOSもファイル交換
本来はエスケープシーケンスで管理してたんだけど、ユニコードが全部ぶち壊した
330 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 19:16:56 ]: >>329
>>303,318はダメな例としてISO-2022を挙げている。ISO-2022-JPに話をすりかえるな。
またISO-2022-JPだとしても、「フィルタで特定の一行を抜き出して他の
ファイルの最後に追加」とかはできない。X 0201とASCIIが混ざるから。

> 本来はエスケープシーケンスで管理してたんだけど
世界中の文字コードをISO-2022に統一したいのか?　頭おかしい。
俺ならレガシーコードを捨てて世界中の文字コードをUTF-8Nに統一したいね。
331 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 19:23:24 ]: 20年前のUnicodeは頭おかしかったけど、
結局その頭おかしいUnicodeに統一されたもんなwwwwwww
332 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 19:53:58 ]: UTF-8に統一された後にもBOMつけたがってんのか
真性のドアホだな
333 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 20:09:03 ]: 231 名無しさん＠お腹いっぱい。 [] 2010/09/10(金) 22:20:36 ID: Be:
    Unicode Draft 2という文字コードの草案が出てますが、
    このままだとマズイです。

    いわゆる半角カタカナが収録されます。
    JUNETでは既に周知徹底されていて、いわゆる半角カタカナは
    根絶できたわけですが、今更のように復活するんです。

    更にマズイことがあります。
    このUnicodeという文字コードは文字幅とバイト数が一致しません。
    1バイトが半角、2バイトが全角という扱いができないんです。
    ターミナルソフトで実装できるわけがないでしょう。

    更に更に、EUCから変換する方法がありません。
    じゃあ、どうするのかというと、巨大なマッピングテーブルを
    用意するんです。
    Unicode対応nkfを作ったとしても、メモリが足りなくて実行できません。

    つまり、SJISよりも更に邪悪なんです。

    そういう無謀な規格なので、誰も実装できずに自然消滅するでしょう。
    そんな将来性のない実装の仕事がまわってくる前に、
    しっかり反論してボツにしましょう。まだDraft 2なので、間に合います。

    JUNETも自然消滅の運命なので、JISコードの扱いに関しては、
    RFCの形で後世に残すべきです。
    そしてそのRFCの中で、半角カタカナを禁止すると明記すべきでしょう。
334 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 20:36:59 ]: Unicodeに半角カナが入るって何年前の話だよ
335 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 20:47:04 ]: >>333
junet信者はこんなこと言ってたの？元はいつの発言なのか。きんもー

>>330がちょっとわからないんだけど、iso-2022-jpは行の終わりが半角英数、
ファイルの終わりがasciiで、iso-2022はそれが決まってないってこと？
336 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 20:49:05 ]: >>334
ここだけ20年時代が遅れているスレ
hibari.2ch.net/test/read.cgi/unix/1243343056/231
337 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 20:54:39 ]: 半角カナはUnicode 1.0(1991年)だからドラフト2はその前だよね。
でもiso-2022-jpで半角カナが禁止になったのが1993年。あれ？
メールでMSの半角カナが出回る前に一時半角カナは根絶したのかな。
338 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 21:06:12 ]: JUNETでは半角カナは使えなかった。
www.softlab.cs.tsukuba.ac.jp/~yas/fj/junet-tebiki/J.6.3

つまり、それを踏まえたうえで、RFC 1468 を「予言」してるわけで、歴史考証的に変ではないよ。
339 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 21:25:52 ]: >>333みたいなJUNETユーザーは「国内だけの問題ではない」とか言いながら、
世界中が繋がってISO-2022-JP以外のコードが流れてくるという考えは無かったんだろうか。

> 1バイトが半角、2バイトが全角という扱いができないんです。
> ターミナルソフトで実装できるわけがないでしょう。
ﾜﾛﾀ｡どんだけレベル低いんだよｗｗ
340 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 21:35:08 ]: >メールでMSの半角カナが出回る前に一時半角カナは根絶したのかな。

yes
341 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 21:37:21 ]: >>339
> >>333みたいなJUNETユーザーは「国内だけの問題ではない」とか言いながら、

>>333 のどこに「国内だけの問題ではない」なんて書いてあるんだ？
342 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 21:39:35 ]: 「半角ってなんですか?」はいつから？
343 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 21:42:52 ]: >>339

>> 1バイトが半角、2バイトが全角という扱いができないんです。
>> ターミナルソフトで実装できるわけがないでしょう。
>ﾜﾛﾀ｡どんだけレベル低いんだよｗｗ

ﾜﾛﾀ｡皮肉が理解出来ない低脳ｗｗ
344 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 22:02:11 ]: >>341
俺は>>339じゃないが、>>338のリンク先に書いてあるぞ。
345 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 22:06:12 ]: >>339
> ISO-2022-JP以外のコード
外部コードはISO-2022(JPが付かないやつ)に統一されると思ってたんだろ。
> ターミナルソフト
「実装できない」じゃなくて「実装したくない」だな、20年前だと。
当時はEUC-JPマンセーだったので、半角カナ&機種依存文字死ね状態だったわ。
あ、あとアンチMIMEな。
346 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 22:26:08 ]: ぶっちゃけ今現在、一番足を引っ張ってるのはEUC-JPだよね
347 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 22:29:07 ]: MSWindowsの日本語ロケールもさっさとUTF-8にしないと後で大変なことになる
348 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 22:37:01 ]: >>346
Shift_JIS/Windows-31Jだろどう考えても。
EUC-JPは事実上滅亡寸前。既に俺の可視範囲内にEUC-JPなシステムは存在しない。
349 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 22:56:20 ]: 足を引っ張ってるのはISO-2022だろjk。
状態があるのは処理しにくいし、無駄にデータサイズがでかくなる。
今時7ビットとか言ってる奴は死んでくれと思う。早くUTF-8に統一されて欲しい。
350 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 23:19:53 ]: UTF-8でダメなメーラ・メール環境・経路って何があるんだろう？
351 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 23:21:22 ]: メールはUTF-8でいいよ。
352 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 23:29:31 ]: >>350
UTF-8がダメなメーラーは携帯電話ぐらいかな。
353 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 23:36:01 ]: >>345
> 外部コードはISO-2022(JPが付かないやつ)に統一されると思ってたんだろ。
なんだ。じゃあJUNETはISO-2022-JPではないけれどISO-2022として半角カナ使い放題じゃないか。
354 名前：デフォルトの名無しさん mailto:sage [2010/09/11(土) 23:38:44 ]: www.nikkei.com/news/headline/related-article/g=96958A9C93819499E3E3E2E3988DE3E3E2EBE0E2E3E2E2E2E2E2E2E2;bm=96958A9C93819595E3E3E2E2978DE3E3E2EBE0E2E3E29F9FEAE2E2E2
355 名前：デフォルトの名無しさん mailto:sage [2010/09/12(日) 17:37:56 ]: うんこして紙でケツの穴を拭いてもさぁ
どうせ明日、また、うんこしたらケツの穴が汚れるんだから
ケツの穴を拭くのは無駄。
うんこしてケツの穴を拭く必要性が見えてこない。
356 名前：デフォルトの名無しさん mailto:sage [2010/09/12(日) 17:45:22 ]: 文字化けするホームページがあってソースを見てみたら
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
って記述があるのに、実際はShift_JISだった、ってこと・・・良くあるだろ？
だからこんなタグはアテにならない。付けるの無駄。無用の長物。廃止して構わないよ。

UTF-8のBOMも同じこと。
BOMがあるからUTF-8とは限らない。
357 名前：デフォルトの名無しさん mailto:sage [2010/09/12(日) 18:12:03 ]: >>355
かゆくなるぞ
358 名前：デフォルトの名無しさん mailto:sage [2010/09/12(日) 18:22:58 ]: >>356
人里離れた山奥でコンピューターの無い生活した方がいいぞ。
そこではうんこも拭かなくていい。文字化けとも無縁だ。
359 名前：デフォルトの名無しさん mailto:sage [2010/09/12(日) 19:03:04 ]:
360 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 17:48:31 ]: 
秀丸ならEUCの方が優先でもシフトJISで開いてくれる。
361 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 18:16:44 ]: 上手く処理できないXMLがあってソースを見てみたら
<?xml version="1.0" encoding="utf-8" ?>
って記述があるのに、実際はシフトJISだった、てこと・・・よくあるだろ。
だからこんなXML宣言は当てにならない。XMLは無用の長物。廃止して構わないよ。

ISO-2022-JPでも同じこと。エスケープシーケンスがあっても糞ソフトが途中からEUC-jpを
混入させていたり、エスケープシーケンスなんて当てにならない。つまりASCII以外はアテに
ならないってことさ。
362 名前：デフォルトの名無しさん [2010/09/14(火) 18:25:51 ]: >>361
バックスラッシュとチルダが変な表示になっちゃうだろ？
つまり(ry
363 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 22:28:20 ]: C++で、いろいろな国の言語を使った文字列を定義するとき、charとwchar_t　どっち使うのがいいの？
コンパイラによってサイズも符号化方式も異なるwchar_tを使わず、
charで処理している人もいるとさっき知った。

sizeofで、wchar_tのサイズが
1ならUTF-8
2ならUTF-16(UCS2?)
4ならUTF-32(UCS4?)
と仮定して処理しているらしい実装を見たけどこれってどうなのよ。
wchar_tだからってUnicodeとは限らないんでしょう？
364 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 22:57:35 ]: せめてSTDC_ISO_10646をチェックしろというか
365 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 23:00:10 ]: 男は黙ってBOM
366 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 23:12:33 ]: L""で文字列を定義すればソースコードがShift-JISだったとしてもコンパイルが通るというメリットがあるのかな。
""で定義しても、ソースコードをUTF-8で保存し、charの中身UTF-8と仮定して処理すれば
いけるはずのに・・・あれ？

>>364
wchar_tの中身がUnicodeなら定義されている奴だね
でも定義されていなかったらどうすんの。
>>365
ソースコード中の文字列定義にBOMいれるの？
367 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 23:22:25 ]: ソースコードに文字列埋め込む人って・・・
368 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 23:32:08 ]: ASCII文字しかソースコード中には使っちゃいけないと？
それを言っちゃあおしめいよ
369 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 23:34:35 ]: コメントは非ASCIIを使っても良いかもしれない
370 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 23:37:14 ]: // コメントのけつが 0x5C だと次の行をコメントに連結するC++コンパイラは今でも実在する。
371 名前：デフォルトの名無しさん mailto:sage [2010/09/14(火) 23:47:34 ]: おまいらm17n対応ってどうしてんの？
372 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 00:18:38 ]: 環境・動作対象による。
373 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 01:04:16 ]: >>368
#ifndef STDC_ISO_10646
#error Hello, Galapagos Islands!
#endif
とか?
374 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 01:04:27 ]: >>366だった
375 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 16:26:56 ]: charでUTF-8が扱える環境ならcharでいいだろう。でなきゃwchar_t。

C++の話にSTDC_ISO_10646は関係ねーだろ。
376 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 16:35:24 ]: ここでも始めるのか、wchar_t、UTF-8・・・
377 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 17:03:28 ]: ここは隔離スレなんだからもっと煽らないとw
378 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 17:07:45 ]: 俺は変数も日本語だぜ。Visual Studio 2008。困ったことはない。UTF-8なので中国語もOKだ
#include <cstdio>

int main()

{
　　int マンコ = 3;
　　std::printf("%d\n", マンコ);

}
379 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 17:15:12 ]: >>377
不毛だからやるとしたらこの続きから
hibari.2ch.net/test/read.cgi/tech/1093251312/208-282
380 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 19:19:54 ]: >>378
ええなぁ。
javaは実行時の端末と同じエンコードでソースコードを書かないと不具合出まくり。
ソースコード書く時点で実行時の端末のエンコードが判ってなきゃダメなんだぜ！
やんなっちゃうよ。
381 名前：378 mailto:sage [2010/09/15(水) 19:29:31 ]: >>380
えっ、Javaってそんな仕様だったか？
サーバサイドJavaはコンパイル環境とエンコード合わせた記憶がない。
少なくともコンパイル時点でUTF-16になっているからソースコードの文字コード情報
は消え失せてると思うけど。
382 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 19:33:54 ]: >>380
それはどうみても、君かプロジェクトの担当者か、
あるいは両方が
馬鹿
383 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 19:56:27 ]: >>381
インディアンはどっち？
384 名前：381 mailto:sage [2010/09/15(水) 20:01:47 ]: >>383
今ためしたらUTF-8だった。ｽﾏﾝｶｯﾀ
385 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 22:39:48 ]: >>380
javac -help
<中略>
-encoding <encoding> ソースファイルが使用する文字エンコーディングを指定する
<以下略>
386 名前：デフォルトの名無しさん mailto:sage [2010/09/15(水) 22:45:03 ]: >>384
ぅぉ、本当だ、classファイル中の文字列定数はUTF-8(サロゲートペアの扱いはjava固有だった希ガス)表現なんだ。知らんかった。
387 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 01:20:46 ]: Java 1.6でU+D800, U+DF02のサロゲートペア文字列をコンパイルすると、classファイルは
F0 90 8C 82(U+10302)じゃなくてED A0 80(U+D800) + ED BC 82(U+DF02) になるね。
UTF-32通さずにそのままUTF-8にしてるな。
Javaで2面以上扱う時はこの不正なUTF-8を突っ込んでやらないといけないのか。
388 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 01:56:22 ]: Javaは実用性皆無のウンコ
389 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 02:05:20 ]: しかし、クライアントから金は巻き上げやすい…
390 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 02:37:39 ]: Java案件で数多の阿鼻叫喚を繰り広げ
IT大不況へと突入
今となっては受注開発は金の無駄が経営者達の合言葉
391 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 02:43:23 ]: ずいぶん荒らされたし
発注側にもトラウマが残った
392 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 03:00:24 ]: 一山いくらで量産されたJava猿のお陰でプログラマの市場価値も駄々下がりｗ
393 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 03:05:47 ]: ほんと、Java発の技術ってろくなもんないんだよね…
XMLとかSOAPとか
394 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 03:32:32 ]: >>393
全然Java発じゃないし、役にも立ってる
395 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 03:38:09 ]: >>394
そりゃ、多少の役には立たなきゃw
完全な詐欺道具になっちまう。
なくても困らないし、ないほうがいいくらいの技術だといってるだけさw
396 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 06:40:04 ]: >>387
classファイルの中だけの固有形式で、不正な形式のまま
外部とやり取りすることはない
397 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 21:00:03 ]: >>363
> sizeofで、wchar_tのサイズが
> 1ならUTF-8

これがわからん。defineしているのか？
398 名前：デフォルトの名無しさん mailto:sage [2010/09/16(木) 23:31:44 ]: wchar_tが1でUTF-8なんてISO 14882の3.9.1-5的におかしい。
まあマイクロソフトのwchar_tがUTF-16なのもおかしいけど。
399 名前：デフォルトの名無しさん mailto:sage [2010/09/17(金) 00:39:51 ]: >387
えー、zipとかjarファイルのファイル名もこんな変なUTF-8が出力
されてなかったっけ。
400 名前：デフォルトの名無しさん mailto:sage [2010/09/17(金) 01:16:21 ]: >>399
ホントだ。jarでclassファイルをまとめる時、ファイル名はUTF-8で記録するけど、
サロゲートペアは間違った偽UTF-8じゃないとダメみたいだな。
これも互換性のための仕様ってやつかね。仕様のバグがあっても互換性のために絶対直さない糞Java
401 名前：デフォルトの名無しさん mailto:sage [2010/09/17(金) 01:44:18 ]: どうせＪＡＲを勝手にＺＩＰとして開いて文句を垂れてるんだろ。お前が悪い
Ｊａｖａの崇高な設計思想など貴様ら愚民共に理解できるはずがない。消えろ屑
402 名前：デフォルトの名無しさん mailto:sage [2010/09/17(金) 02:30:19 ]: Firefox拡張用のjarとかはどうなってるんだろう
403 名前：デフォルトの名無しさん mailto:sage [2010/09/18(土) 08:52:00 ]: >>401
必死だなｗ
404 名前：デフォルトの名無しさん [2010/09/18(土) 12:16:46 ]: >>403
何が？
405 名前：デフォルトの名無しさん mailto:sage [2010/09/18(土) 13:03:02 ]: CSI方式万歳！UCS normalization方式は屑
406 名前：デフォルトの名無しさん mailto:sage [2010/09/18(土) 23:45:11 ]: wchar_tがUTF-8の環境なんてあるの？
407 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 03:02:53 ]: ↑
こいつあたまおかしい
408 名前：デフォルトの名無しさん [2010/09/19(日) 08:52:02 ]: >>407
つ>>397-398
409 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 09:00:47 ]: 正しく動作させるためにはwchar_t[]の度に先頭から走査するのかねぇ？
410 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 09:07:38 ]: UTF8はリードバイトが可変長過ぎてAPI任せだわ( ´ω`)
BOMもありとなしがあってなんであそこまでｶｵｽなんだ
411 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 18:10:49 ]: >>410
UTF-8にBOMなんてないよ。
あったらそりゃUTF-8もどきだよ。
412 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 18:52:29 ]: >>411
それがあるんですよ。
413 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 18:56:48 ]: Unicodeなんだからそこは「なんでBOMなしでいいんだよ」って突っ込もうぜ( ^ω^)
半角英数記号を1バイトにしたいがためのコードと言えばそれまでよ
414 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 18:59:10 ]: UTF-8って良く出来てる
415 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 19:07:18 ]: 一番最後に作られただけあるよな。
416 名前：デフォルトの名無しさん [2010/09/19(日) 19:16:57 ]: UTF-8は屑。SJIS/EUC-JPで２バイトだったのが３バイトになって喜んでいるのは欧米人の手先。
417 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 19:23:31 ]: さすがにDBCSに戻る気にはなれないな
418 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 19:56:24 ]: 日本人同士がJISとかSJISとかEUCとかで揉めてるときに
欧米人にUTF-8でサクっと問題解決されてしまった
日本人涙目
419 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 20:02:00 ]: >>416
たかが1文字で1バイト増えたぐらいでごちゃごちゃ言うなよ。

すべての文字表すのに16bitじゃ足りないって言っていたのに、
32bitにすることで2バイト増えるからとケチっていた欧米人と
お前は何にも変わらん。
420 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 20:05:35 ]: >>412
だからUTF-8もどきだと言ってるだろ？
わかんねーのか？
421 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 21:54:36 ]: >>420
全然わからないな。
www.unicode.org/versions/Unicode5.2.0/ch16.pdf
この16.8章をどう読んだらBOM有りUTF-8がもどきになるんだ？
422 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 23:22:46 ]: どう考えてもISO 2022フル実装が一番カオス。
designate/invokeで表現方法が複数あったり、シングルシフトに2種類の表現があったり
アナウンスまで出てきた日には大変だ。
ESC - "$" - Ft と ESC - "$" - "(" - Ftで使える文字集合が違うとか狂ってる。
423 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 23:47:02 ]: >>421
そこに書いてある通りのことを言ってるんだが？

Although there are never any questions of byte order with UTF-8 text,

UTF-8のテキストにバイトオーダーがない（＝ＢＯＭが必要ない）事は疑問の余地がないが。

this sequence can serve as signature　for UTF-8 encoded text where the character set is unmarked.

このシークエンスは、そのキャラクタセットがマークされていないところで、 UTF-8でエンコードされたテキストの
シグニチャとして保持することができる。（＝UTF-8と分かってたら使っちゃダメ）
424 名前：デフォルトの名無しさん mailto:sage [2010/09/19(日) 23:59:53 ]: で、BOM以外は同一のUTF-8テキストファイルで
先頭から10文字目って言うのは等しい文字が帰ってくるのかい？
BOMを数えるのが仕様？数えないのが仕様？

あと、BOMの意図無く、ただの文字としてファイルの先頭にZERO WIDTH SPACEを入れるのは仕様上認められるの？
425 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 00:06:57 ]: もうそろそろ誰か文字コードを識別する仕組みを外部の何かにやらせるまでを
文字コードの仕様にした規格を出してもいいと思うんだ
426 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 00:11:11 ]: >>423
言い換えれば、
「UTF-8にバイトオーダーなんてないしBOMなんてない。
例外として、エンコードが分からないような特殊なケースでシグニチャ付けて良いよ。」
と言っている訳。

シグニチャをBOMって呼ぶのは本来誤用だけど、UTF-16の連想からBOMと言っている。
427 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 00:16:47 ]: >>424
> ただの文字としてファイルの先頭にZERO WIDTH SPACEを入れるのは仕様上認められるの？

認められる。
BOM有りUTF-8の場合は先頭のU+FEFFはBOM。
BOM無しUTF-8の場合は先頭のU+FEFFはZWNBSP。
ファイルのデータのみからは判断できず、解釈するためにはエンコーディングスキームに関する
メタ情報が必要。そこら辺がカオス
428 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 01:10:12 ]: 詰まる所メタ情報必須って事だよね？
ただの1文字と区別のつかないBOM(シグニチャ)付けたがる意味がわかんないわ
429 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 01:35:19 ]: そうは言っても文字コードの異なるファイルが混在する問題を放置するわけにもいかず、
「ファイルのみ必ずBOMを付け、メモリ上や通信のデータ部はBOM無し」
という暗黙のルールをマイクロソフトが広めたがっていると思われる。
430 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 01:44:19 ]: 大勢がUTF-8へ傾いてる状態で、UTF-8に統一された後に無駄に困るような仕様を残すのは馬鹿じゃないの
431 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 02:05:06 ]: せめて ZWSP(U+FEFF)は文字として使用せずUnicodeのシグネチャーとしてのみ使用される、
とかすればよかったのに。
通常文字の一つをシグネチャーとしても使用したことがクレイジー。区別つかないだろまったく
432 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 02:11:31 ]: >>430
だよな
433 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 07:42:12 ]: もうBOMなんて使わんで
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
を入れときゃいいやん。それですべて解決するはずだろ？
434 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 07:45:45 ]: 80バイトも無駄にするくらいなら
macbinaryの方がましだな
435 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 08:28:15 ]: UTF-8はASCII互換が売りなんだから、BOM付けるのは本末転倒ですよね
436 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 08:34:47 ]: そりゃそうだ。その使用を正式からはずせ。
437 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 08:44:38 ]: UTF-8Nの利点が本気で分からない
先頭バイト見ればエンコーディングが分かるなど、初学者を惑わすだけの危険な幻想でしかないし
BOMに一体どんな利点があるって言うの？
438 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 08:46:31 ]: >>416
てめーmule encoding disてんじゃねーよ。
439 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 08:51:03 ]: >>437
逆? そ言えば、必ずBOMがある(慣習的な)エンコーディング名ってないな。
UTF-8N(BOM無しUTF-8)は日本固有の慣習らしいが。
440 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 09:07:36 ]: 逆だなｗ
BOM付UTF-8には特に呼び方が無いという、まさに混乱を極める仕様
441 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 09:13:36 ]: あっても無くても良いし、あった所で何かを保証するわけでもないし
「それ」を全うに扱うためには信頼できるメタ情報が必須であり
メタ情報があるならそもそも「それ」は不要である
そんなBOMさんがこの先生き残るには
442 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 09:15:28 ]: この先生キノコる
443 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 09:16:17 ]: (U+FEFF)(U+FEFF)(U+FEFF)aaa
って内容のファイルのLengthっていくつになるのが正しいの？
3？5？6？
444 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 09:23:54 ]: >>424

先頭からの文字数に関しては、UTF-16等と一緒だろ。
UTF-16でBOMを一文字としてカウントするのなんて見たことないんだが。
445 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 09:28:41 ]: >>443

ファイルサイズとしてのlengthと文書の文字数としてのlengthは違うと思うよ

改行コードなんかに関しても似たようなケースがおこるよね
446 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 09:37:44 ]: 当然文字列のLengthの話
ファイルサイズのLengthは悩む余地無いでしょ？
12バイト以外になり得るの？
447 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 09:42:28 ]: >>444
通りが良いからBOMって言ってるだけで、UTF-8に「UTF-16等と一緒のBOM」は無いよ
いい加減文脈から区別付けて話しましょう
448 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 10:08:29 ]: 「UTF-16等と一緒のBOM」をUTF-8でエンコードしたものじゃないか
449 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 10:18:48 ]: >>447

なんでそこに食いつく。

UTF-16だって、BOMはバイトオーダーを示すシグネチャなんだから、
UTF-8のシグネチャと同じようなもんだよ。

重要度が違うとか、UTF-8のシグネチャをBOMと言っちゃうから誤解や混乱が
発生するという問題はあるけどね。

で、テキストファイルに於いて付けられているシグネチャを文字列の文字数と
カウントするのか、そうでないのかって話ならUTF-8もUTF-16も同じじゃ
ないの？と言ってる。
450 名前：デフォルトの名無しさん [2010/09/20(月) 10:27:01 ]: >>438
mule encodingは屑。なんだか分からないから。
451 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 10:34:56 ]: >>446

文字列のlengthの問題はUTF-8に限った事じゃないけどな。

その文字列が何バイトか？
その文字列が何文字か？
でも違ってくる。

たとえばISO-2022-JPなんかだとESC $ Bなどのエスケープコードは
プログラミング上の文字列のlengthでは数える必要があるけど、先頭から
10文字表示しなさいって場合の10文字には含んではいけない。

シフトコードとか、こういった類のものはプログラミングするうえで厄介な
ものであることは確かだけどね。
452 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 10:41:03 ]: utf-8シグネチャはテキストファイルの先頭に限ってのみ付加可能ってことにすれば
いいのかもしれんね。一つのテキストファイルに複数の文字エンコードが混在する
ようなものを扱う場合はシグネチャなんて当てにせず自前で処理するだろうからさ。
453 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 11:31:07 ]: BOMって何の略？
Byte Order Mark ?
454 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 11:36:14 ]: >>451
えーと、バイト数なんてどうでも良いんだけど･･･
何でしつこくそこに持っていくの？
UTF-8でやっとバイト数と文字数に一切の関連性は無いという共通認識が得られつつあるのに、何をいまさらという感じ

(U+FEFF)(U+FEFF)(U+FEFF)aaa
上記UTF-8ファイルの文字長はいくつと解釈するのが正しいのですか？
この質問に、少なくともバイト数と改行は全く関係ないでしょう？
455 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 12:09:10 ]: UTF → Unicode Transformation Format

略語の原語を調べればだいたい理解できるだろ
456 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 12:24:32 ]: >>453
そう
エンディアンの識別用
457 名前：デフォルトの名無しさん [2010/09/20(月) 13:06:48 ]: >>453
Beautiful Oppai Mark
458 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 13:32:04 ]: やっぱ
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
これが最強だね。これさえあれば世界中のどんな文書もエンコードが判別できる。
なんでこんな簡単なことに誰も気づかないんだろ。
もしかして、おまいらアフォ？
459 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 13:42:23 ]: ほらほら、つりですよー。
早くパクッってやらないと
何度もコピペしますよー。
460 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 13:47:19 ]: 美乳がこの先生きのこるには
461 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 13:59:53 ]: >>454

文字長は3文字だろ。
行間や文字間を一文字と数える習慣は日本語にはないからね。

何度も言うけど、「先頭から何文字切り出す」という場合の文字数と
実際に操作する文字列のサイズとは別物なんだよ。

目に見える表現形式としてのテキストの文字数（一般人が考える文字数）と、
プログラミングで使われる文字列長（バイト表記であろうが文字数表記であろうが）
とをごっちゃにして、

「先頭から何文字切り出す」という観点からUTF-8のシグネチャを
数えるのか？なんて議論は的外れだと俺は言ってるんだよ。
462 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 14:09:34 ]: 馬鹿はおまえだ。
各プログラミング言語における「文字」の定義次第。

オクテット長でなければいけないなんて合意はどこにもない。
463 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 14:49:34 ]: 「1文字＝１バイト」っていう変な概念は捨てろや
464 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 15:34:16 ]: >>461
ごっちゃにしてるのはお前だけ
465 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 15:53:33 ]: >>441
結局のところそのメタ情報の決定版がないからさらに状況を面倒くさくしてるのでは。
466 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 16:01:02 ]: >>461はもうレスしなくていいよ
何度も言うけど実際に操作する文字列のサイズなんて問題にしてないんだよ

aaaの一体どこから日本語と思ったのか不思議
大体ロケールが違ったら文字長もその都度変わるって言うの？
特別扱いしないただの1文字であるはずのU+FEFFを
文字長としてカウントしない言うのはどこに定義されてるの？
「制限：全角10文字　半角20文字　0角無限文字」とか言っちゃうの？

とにかく>>461は頭の中が時代遅れ過ぎてお話になってないよ
467 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 18:08:43 ]: >>458
そのやり方はXHTML1.1では非推奨でHTTPヘッダ使えってことになってるし
HTML5でも書き方が変わって<meta charset="utf-8">になった
だからそのやり方は最強ではなく単に古い仕様
468 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 18:23:49 ]: EmacsとPythonとRuby1.9では「-*- coding: utf-8 -*-」。
469 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 18:29:34 ]: Perlではuse utf8
470 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 18:36:28 ]: Rubyでは-Ku
471 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 20:27:26 ]: 文字数と言えばtwitterってどうなんだっけ？
472 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 20:33:52 ]: >>454
5文字でいい。

metaタグとか言ってるバカは何なの？
HTML以外のテキストファイルとかどうするつもりなの。
ZIPファイルで圧縮している日本語ファイル名をどう記録するつもりなの
473 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 20:39:37 ]: 素人騙しだよなぁlang属性で全て解決！とかさ
474 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 21:32:36 ]: オールマイティなBOMさんかっこよすなぁ
475 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 23:46:57 ]: >>472
metaタグでええやん。何か問題でも？
476 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 23:50:37 ]: >>467
あんたねぇ・・・
オエライさんが決めたからって、犬みたいにシッポ振ってホイホイ付いて行くなよ。
今まで大量に蓄積された文書はどうすんの？
どうせ過去との互換性も保つために、古いタグも新しいタグも両方とも対応するアプリケーションを作らにゃいかんやろ。
アフォくさ。
意味のない新規格なんざ無視しろ。
477 名前：デフォルトの名無しさん mailto:sage [2010/09/20(月) 23:57:20 ]: >>476
HTML5だと新しい書き方が推奨ってだけで古い書き方も問題無く通るよ
それに新規格に意味が無いなら営利企業がたくさん策定作業に参画したりしないよ
478 名前：デフォルトの名無しさん mailto:sage [2010/09/21(火) 00:19:04 ]: 古い書き方ガン無視で誰もついてこなかった
XHTML2の反省に立って作られた規格だからな
479 名前：デフォルトの名無しさん mailto:sage [2010/09/21(火) 10:55:08 ]: そうすると今度は誰も新しい書き方なんかしない。
そういう奴らだからな、「ウェブデザイナー」とか。
480 名前：デフォルトの名無しさん mailto:sage [2010/09/21(火) 14:41:09 ]: うｔｆ－８にぼｍなんて必要ない
481 名前：デフォルトの名無しさん mailto:sage [2010/09/21(火) 20:37:55 ]: <br>に / という無駄なものを
書かせたXHTMLは市ね。
482 名前：デフォルトの名無しさん [2010/09/21(火) 21:08:20 ]: >>481
てめえか、締りの悪いケツをさらしてんのは？
483 名前：デフォルトの名無しさん [2010/09/21(火) 21:17:37 ]: EOFの無いファイルはクソ
484 名前：デフォルトの名無しさん mailto:sage [2010/09/21(火) 21:55:46 ]: ＞それに新規格に意味が無いなら営利企業がたくさん策定作業に参画したりしないよ

新規格をつくれば企業は儲かる。たとえそれが意味の無い新規格でも。
ただ儲かりたいだけ。それが営利企業なんだよ。
われわれユーザの利便性など、どうでもいい。
485 名前：デフォルトの名無しさん mailto:sage [2010/09/22(水) 00:10:15 ]: >>481
brを使ってる時点でお前が死ね
486 名前：デフォルトの名無しさん mailto:sage [2010/09/22(水) 00:11:05 ]: >>484
＞新規格をつくれば企業は儲かる。
いや、規格の協同策定は、得のためと
いうよりは、損をしないがためだろ。

チキンレースみたいなもんだ。ｗ
487 名前：デフォルトの名無しさん mailto:sage [2010/09/22(水) 00:47:26 ]: >>479
互換性無視で新仕様作ったって結局誰も新しい書き方なんかしなかったんだから
「そうすると」はおかしいだろ
488 名前：デフォルトの名無しさん mailto:sage [2010/09/22(水) 03:01:05 ]: utf-8シグネチャ = U+FEFF = ZWNBSP(Zero Width No-Break Space：幅の無い改行しない空白)
って事は、ZWNBSPという文字を、ヒントや推測に使って良いってだけの話じゃないか。

U+FEFF がシグネチャを意図してるのか、ZWNBSPであるかを悩む必要は無いだろう。
改行コード等と同じように、勝手に付けたり消したりせず、初期状態を維持すりゃ良いのだし、
あるなら使い、無いなら無いで何とかするか、端から無視するかすれば良いだけ。

むしろ utf-8シグネチャ = ZWNBSP としてある所に、センスを感じるな漏れは。
489 名前：デフォルトの名無しさん mailto:sage [2010/09/22(水) 03:05:41 ]: >>488
馬鹿乙
490 名前：デフォルトの名無しさん mailto:sage [2010/09/23(木) 07:27:32 ]: >>488
どうみても苦し紛れ
491 名前：デフォルトの名無しさん [2010/09/23(木) 08:25:18 ]: としてある所に、センスを感じるな漏れは。
492 名前：デフォルトの名無しさん mailto:sage [2010/09/23(木) 22:57:25 ]: >>466

何度言ってもわからんやつだなぁ

あなたは文字数、文字数って言ってるけど　その文字数っていう観念には
文学的な文字数、言い換えれば人が文章として見て認識する文字数と、
ソフトウェアなどで扱う際のコードとしての文字数（俺はそれを文字列の長さ
と言ってる）があるんだよ。

このスレ前の方で出てた、先頭から何文字切り出す云々は、テキストの処理を
想定したものだから、いわゆる文章としての文字の処理の問題でシグネチャ
などはカウントしないのが普通だろ。

こんなのは　ACB^H^HBC なんてやってた頃からあたりまえのことじゃん。

そしてプログラミングで扱う場合の文字列としての文字数なら当然U-FEFFは
一文字として扱わないといけない。

だから最初に出てた、U-FEFEが付いたファイルは何文字とカウントするんだよ？
なんて話題はナンセンスだって言ってるわけ。

そもそもなんでオクテット長なんて出てくるんだよ。
493 名前：デフォルトの名無しさん mailto:sage [2010/09/23(木) 23:10:13 ]: そんな事より美乳の話しようぜ
494 名前：デフォルトの名無しさん mailto:sage [2010/09/23(木) 23:31:12 ]: BOMをどう扱うかは、個々のプログラマが個々のアプリケーションに対して個々に決める仕様だろ。
TABコードをどう扱うか、とか、CRやLFをどう扱うか、とか。そんなんと同じだろ。
495 名前：デフォルトの名無しさん mailto:sage [2010/09/23(木) 23:59:57 ]: >>492
馬鹿で粘着乙
496 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 00:05:40 ]: ゼロ角ってなんですか?
497 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 00:10:21 ]: >>492みたいなコミュ障害者に限ってレスしたがりだよなｗ
498 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 06:14:01 ]: >>494
全然違うよカス
BOMは仕様で定義されてんの
499 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 09:30:39 ]: >>495 >>497 コミュ障粘着乙。消えな
500 名前：デフォルトの名無しさん [2010/09/24(金) 09:36:44 ]: そんなひとはいません
501 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 10:06:46 ]: >>499
オウムが消えるべき
502 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 10:13:29 ]: 　　　 _ 　∩
　　(　ﾟ∀ﾟ)彡　美乳!美乳!
　　(　 ⊂彡
　　|　　　|
　　し ⌒Ｊ
503 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 10:27:34 ]: 最近は言語によってはその辺の変換クラスが最初からあるから便利だよね
最初文字コード変換関数作ったときとかBOMとはなんぞ？ってなったわ
504 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 10:42:59 ]: ﾄﾞ━━━━m9(ﾟ∀ﾟ)━━━━ﾝ!!
505 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 13:10:27 ]: そうだ！
文頭の微乳はBOM扱いにして、ゼロ長ってことにすればどう？
506 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 13:22:50 ]: 天才現る
507 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 13:25:01 ]: 美乳、爆乳は何倍角ですか？
508 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 18:00:05 ]: こんなお遊びの流れの中で指摘されてる問題の本質も>>492は理解できてないんだろうなｗ

シグニチャはカウントしない？そうですか
で、君はどこからシグニチャと判断したのですか？

ユーザーが自由に扱えるはずの、ただの一文字でしかないU+FEFFが
先頭にあるってだけでシグニチャ扱いするのは不確実で危険だ(仕様上決定されてない)と言う話なんだけどな
君一人だけだよ？話が理解できてないの
509 名前：デフォルトの名無しさん [2010/09/24(金) 18:13:36 ]: ↑
510 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 19:24:14 ]: >>498
じゃぁ、BOMをどう扱うか、仕様を示してみろよ。どうせできんくせに。
511 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 19:37:50 ]: >>505
乳に長さがあるのか？龜ならあると思うが
512 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 22:27:42 ]: >505
文頭に限らずゼロ長にすれば、「文頭のみ」なんて気持ち悪い処理は要らんじゃん。
513 名前：デフォルトの名無しさん mailto:sage [2010/09/24(金) 23:47:09 ]: BOM付きファイルはテキストファイルじゃなくてバイナリファイル。
メタデータの付いた「テキスト」ファイルなんてねーよ。
514 名前：デフォルトの名無しさん mailto:sage [2010/09/25(土) 00:05:08 ]: テキストファイル・バイナリファイルの定義自体曖昧なわけで
515 名前：デフォルトの名無しさん mailto:sage [2010/09/25(土) 01:22:50 ]: >>513
制御コードはテキストファイルか？
ash.jp/code/ctrltbl.htm
516 名前：デフォルトの名無しさん mailto:sage [2010/09/25(土) 05:12:07 ]: スクリプトの先頭行の#!とか副ストリームにZoneId付加するのとかはｾﾌｾﾌ?
517 名前：デフォルトの名無しさん mailto:sage [2010/09/25(土) 05:55:08 ]: 印字できないものは全部ｱｳｱｳ
518 名前：デフォルトの名無しさん [2010/09/25(土) 07:57:08 ]: タブ・半角空白・全角空白が含んだのもバイナリファイルか
519 名前：デフォルトの名無しさん mailto:sage [2010/09/25(土) 10:25:43 ]: >508
最新の規格だと、U+FEFFはBOM以外の用途に使うな、となってるらしいけど。

※幅・改行無しの空白が欲しいなら以下を使う。
　U+200C : ZERO WIDTH NON-JOINER
　U+200D : ZERO WIDTH JOINER

※某短距離走者の名前を出したら爺決定。
520 名前：デフォルトの名無しさん [2010/09/25(土) 10:35:48 ]: ビートたけしのスポーツ大将
521 名前：デフォルトの名無しさん mailto:sage [2010/09/25(土) 18:17:51 ]: >>519
> 以下を使う。
何でそこを間違える。
www.unicode.org/Public/5.2.0/charts/CodeCharts-noHan.pdf
によると
| use as an indication of non-breaking is deprecated; see 2060 instead
522 名前：デフォルトの名無しさん mailto:sage [2010/09/25(土) 23:49:11 ]: >>508

コンピュータ処理で言う１文字と、人が画面に表示あるいは紙に印刷された
文字として認識する１文字とは違うんじゃないの。

コンピュータ処理での１文字は、それは文字コードとして定義されている物は
すべて１文字としてカウントされるけど、人が目にする媒体になって人が文字数を
カウントする場合は必ずしもそうでない。

で、顧客などから要求される仕様としての文字数の扱いは、後者の場合が多いわけで、
その実装の手間はBOMに限らずタイプフェイスを持たない文字全般につきまとう問題だよね。
523 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 01:22:14 ]: >>515,517,518
BOM付きファイルは、BOMパート + テキストパートという構造を持つコンテナフォーマットの一種。
テキストファイルは、テキストパートのみを含み、それ以外を含まないファイル。
制御コードやホワイトスペース文字はテキストパートの一部を構成するものに対して、BOMはテキストパートの外側にあるものなので、そもそも扱いが違う。
524 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 02:22:11 ]: BOMの扱いが決定不可能な問題について質問と言う形で出す
↓
変な子が、ファイルサイズと文字長は違うよと言ってくる
↓
知ってると返す
↓
変な子が、人が扱う文字長とプログラムで扱う文字長は違うと言ってくる
↓
知ってると返す
↓
変な子が、いやおれの中では文字長と言えばこう定義されてるし別物なんだよと言ってくる
↓
だから、そんな話はしていないからもうレスしなくていいよと返す
↓
変な子が、人が扱う文字長とプログラムで扱う文字長は違うんだよ！昔からの当たり前の話だろうと言ってくる
↓
開いた口がふさがらない
↓
変な子が、コンピュータ処理で言う１文字と人が認識する１文字とは違うんじゃないのと、また繰り返してる
↓
もうやだこの馬鹿　←いまここ
525 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 03:10:43 ]: 岡田監督にどうなんですか？って聞き続けるコントを思い出した。
526 名前：デフォルトの名無しさん [2010/09/26(日) 07:48:57 ]: コンピュータ処理で言う美乳と、人が画面に表示あるいは紙に印刷された
美しい乳として認識する美乳とは違うんじゃないの。
527 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 09:05:33 ]: ここまでのまとめ

保守派の主張

BOMはUTF-16のバイト順を識別する以外の目的で使うべきではない。
おエライさんが決めたことだから、守らなければならない。
しかし、細かいことがあいまいなので愚痴ってる。
不満はあってもシッポ振ってわんわん吼えながら御主人様についていく。

革新派の主張

おエライさんが決めたことだぁ？だから何だよテメェ。
何をどう使おうと俺の勝手だ。
１文字＝１バイト圏の毛唐の決めたクソ仕様なんざ、守る必要ねぇ！
UTF-8にBOMあったってええやん。これをUTF-8テキストどうか識別するのに使ったってええやん。
528 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 10:53:41 ]: UTF-8にBOMを挿入可能なのは規格上許容された事だろ。
unixのshell scriptとかで#の前にBOMがある場合は使えませんよってだけ。
UTF-16のみに使うべきなどというのは、根拠の無い主張に過ぎない。
529 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 11:12:49 ]: Use of a BOM is neither required nor recommended for UTF-8
530 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 11:13:20 ]: >>523
> 制御コードやホワイトスペース文字はテキストパートの一部を構成するものに対して
え？

01 SOH ^A Start Of Heading（ヘッダ開始）
04 EOT ^D End Of Transmission（転送終了）
05 ENQ ^E ENQuiry（問合せ）
06 ACK ^F ACKnowledge（肯定応答）
07 BEL ^G BELl（ベル）
10 DLE ^P Data Link Escape（伝送制御拡張）
11 DC1 ^Q Device Control 1（装置制御1）
12 DC2 ^R Device Control 2（装置制御2）
13 DC3 ^S Device Control 3（装置制御3）
14 DC4 ^T Device Control 4（装置制御4）
15 NAK ^U Negative AcKnowledge（否定応答）
16 SYN ^V SYNchronous idle（同期信号）
531 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 11:42:22 ]: テキストファイルなんてものは存在しません
532 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 11:51:17 ]: ttp://unicode.org/faq/utf_bom.html
533 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 17:43:15 ]: ^G は普通にテキストファイル中で使うよな。
たとえばバチファイルでこんなふうに。
IF ERRORLEVEL 1 ECHO ^Gエラーが発生しました。
(実際に制御コードを埋め込む↑)
534 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 19:14:02 ]: テキストファイルの判断は、
・最上位ビットが立っていない
・改行コードが入っている
・'\0'がない
ってのがあると思うが、UTF-16はどれもだめ。これじゃ単なるバイナリ
535 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 19:28:29 ]: 最上位ビットを入れたら、Shift_JISもEUC-JPもUTF-8もアウトですよ。
そこはさすがに冗談ですよね？
536 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 19:37:18 ]: >>535
Linuxのfileコマンド叩いてみな
537 名前：デフォルトの名無しさん mailto:sage [2010/09/26(日) 19:39:12 ]: >>534
Perlの-Tもそんな感じだね。あれはASCII TEXTって言ってるけど
538 名前：デフォルトの名無しさん mailto:sage [2010/09/27(月) 00:42:59 ]: >>536
Linuxなんて知らねーよ。持ってる奴の方が少ないだろ。
そのfileコマンドとやらの結果が何であっても>>534がおかしいことに変わりはない。
539 名前：デフォルトの名無しさん mailto:sage [2010/09/27(月) 01:01:22 ]: Linuxなんてファイル名すらバイナリデータとして扱うぶっ飛びキチガイ仕様じゃねえかｗ
「テキスト」に関しては一切参考に出来ない糞の塊
540 名前：デフォルトの名無しさん mailto:sage [2010/09/27(月) 02:31:22 ]: >>536
リナックスってそんな馬鹿なんだｗ
541 名前：デフォルトの名無しさん mailto:sage [2010/09/27(月) 05:52:40 ]: Linuxはファイルシステムに文字コードが規定されてないから
どの言語でも扱えるようにバイナリデータで扱うしかできなくなってるらしいｗ
ファイルシステムはUnicodeにしとけよ。マジで馬鹿ｗ
542 名前：デフォルトの名無しさん [2010/09/27(月) 07:22:20 ]: もっと煽って
543 名前：デフォルトの名無しさん mailto:sage [2010/09/27(月) 08:19:11 ]: $ echo 美乳 | nkf -j > jis
$ echo 美乳 | nkf -s > sjis
$ echo 美乳 | nkf -w16 > utf16
$ echo 美乳 | nkf -w16B > utf16bom
$ echo 美乳 | nkf -w > utf8
$ echo 美乳 | nkf -w8 > utf8bom
$ file *
jis: ASCII text, with escape sequences
sjis: Non-ISO extended-ASCII text
utf16: data
utf16bom: Big-endian UTF-16 Unicode text
utf8: UTF-8 Unicode text
utf8bom: UTF-8 Unicode (with BOM) text
544 名前：デフォルトの名無しさん mailto:sage [2010/09/27(月) 08:30:17 ]: $ echo 美乳 | nkf -e > euc
$ file euc
euc: ISO-8859 text
545 名前：デフォルトの名無しさん mailto:sage [2010/09/27(月) 08:54:57 ]: OSは透過性が高くつくってあるのがいいに決まってるじゃねーか。
馬鹿なの？　死ぬの？
546 名前：デフォルトの名無しさん mailto:sage [2010/09/27(月) 09:09:10 ]: ファイルシステムはここでやっているからやるならこの続きから
hibari.2ch.net/test/read.cgi/tech/1093251312/208-282
547 名前：デフォルトの名無しさん mailto:sage [2010/09/29(水) 09:15:52 ]: めも

Windows のファイル名の文字コードについて
ttp://www-06.ibm.com/jp/domino01/mkt/cnpages7.nsf/page/default-007ACA9B
Linuxにおける各種文字コード系の扱いについて
ttp://www-06.ibm.com/jp/domino01/mkt/cnpages7.nsf/page/default-002BF237
548 名前：デフォルトの名無しさん mailto:sage [2010/09/29(水) 19:09:30 ]: | NTFS ファイルシステム上のファイルを Windows のファイル圧縮ツール(zip, lha など）で
| 圧縮ファイルにまとめると、Windows カーネルは、ファイル名を Unicode -> SJIS 変換して
| ファイル圧縮ツールに渡し、ファイル圧縮ツールは、SJIS のファイル名で圧縮ファイル内に保存します

何だよこの糞仕様。UTF-8にしないと後生まで後悔するぞ。
549 名前：デフォルトの名無しさん mailto:sage [2010/09/29(水) 19:58:59 ]: もう手遅れ。
WindowsはファイルシステムはUnicodeなのに使っちゃいかん文字があるという
不思議仕様になってる。Unicodeファイル名含むアーカイブ渡すと罵倒されるよw
550 名前：デフォルトの名無しさん mailto:sage [2010/09/29(水) 21:16:46 ]: それ太古のUnicode非対応アプリの話だろ。
551 名前：デフォルトの名無しさん mailto:sage [2010/09/30(木) 00:33:24 ]: アプリのエントリポイントが昔ながらのmainであればMBCSに変換、
wmain であれば Unicode のまんま渡される。
また、wmain なファイル圧縮ツールも存在する。（Explzhとか）
なので>547,548は正確ではない。

そもそも exe に渡すファイル名が、常に SJIS に変換されるのであったら、
explorer で開けないフォルダを作れてしまうと思うけど。
552 名前：デフォルトの名無しさん mailto:sage [2010/09/30(木) 01:37:42 ]: 太古のＵｎｉｃｏｄｅ非対応アプリ(当時圧倒的主流派)への互換性を優先し
今まで通りのやり方(太古の主流派)で作られた場合、今まで通りの文字コードが渡されるようにしただけだな

>>548
必要バイト数があまりにも予測できなくなるので、多言語かつ低レベルな領域ではUTF-8は微妙
もう10年経ったら分からんが

>>549
お前の脳みそウンコに入れ替わってるみたいよ？病院いってら
553 名前：デフォルトの名無しさん [2010/09/30(木) 08:43:08 ]: Windowsの某フリーエディタはmain()がUnicodeで無いみたいで、explorerで開けないファイルがあるが
554 名前：デフォルトの名無しさん mailto:sage [2010/09/30(木) 09:27:04 ]: >>553
失せろ
555 名前：デフォルトの名無しさん mailto:sage [2010/09/30(木) 10:02:49 ]: >>552
> 必要バイト数があまりにも予測できなくなるので、多言語かつ低レベルな領域ではUTF-8は微妙
> もう10年経ったら分からんが

文字数を固定長としているのが悪い。
MAX_PATHもプラットフォームでばらばら。
556 名前：デフォルトの名無しさん mailto:sage [2010/09/30(木) 12:02:40 ]: とはいえバッファサイズは決めなきゃならないしな
557 名前：デフォルトの名無しさん [2010/09/30(木) 16:34:52 ]: >>549
> もう手遅れ。
> WindowsはファイルシステムはUnicodeなのに使っちゃいかん文字があるという
> 不思議仕様になってる。Unicodeファイル名含むアーカイブ渡すと罵倒されるよw

使っちゃいかん文字ってコロンとかじゃなくて？
558 名前：デフォルトの名無しさん mailto:sage [2010/09/30(木) 20:01:28 ]: >>556
ファイル名に限らず文字列は動的に確保するものだろ。
制限の厳しいWindowsでさえファイル名が最大3万文字なのに固定でバッファとる奴はアフォ。
559 名前：デフォルトの名無しさん mailto:sage [2010/10/01(金) 21:11:17 ]: >>558
それ本気でいってんの？
560 名前：デフォルトの名無しさん [2010/10/01(金) 21:32:44 ]: >>559
言語は？
561 名前：デフォルトの名無しさん mailto:sage [2010/10/01(金) 23:59:52 ]: >>558は話題領域を把握できてないタコスケ
562 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 08:19:34 ]: char path[MAX_PATH]
wchart_t wpath[MAX_PATH]
バッファ食いすぎ
563 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 09:18:14 ]: >>562は話題領域を把握できてないタコスケ
564 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 09:26:57 ]: そりゃあBOMだけで３バイトも食うから低レベルな領域でUTF-8は使えないなぁ
565 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 10:05:04 ]: >>562
getcharで1文字ずつ取っていって、足りなくなったらreallocするの？
566 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 10:09:38 ]: >>565
Windowsのワイド文字からマルチバイトに変換するなんたらって関数は、
必要バイト数を返してくれるオプションがあるから、それでもらってそれで確保する。
567 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 10:15:57 ]: Cには文字列型がないので処理がめんどくさい。エラー処理でのfreeをずっと気にしなければならなくなる。
568 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 10:43:11 ]: Unicodeはダサイよな
569 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 10:45:14 ]: ダサいけど現状一番マシな選択肢だからしょうがない
570 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 18:26:25 ]: | char path[MAX_PATH]
Windowsでこんなプログラム書く奴は死んで欲しい。
全角文字ばかりの240文字のファイル名渡されたらどうするつもりだ。
571 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 18:32:18 ]: >>570
Windowsでっていうけど、
じゃあLinuxだとどうすんのさ。
572 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 18:39:13 ]: LinuxだとPATH_MAX。パスの長さは4096文字あれば十分だろ。
573 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 18:45:00 ]: 100文字あれば十分だと思う
574 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 18:49:24 ]: > char path[MAX_PATH]
海外のシングルバイト前提のアプリでは平気である。
日本のでもShift_JIS前提でchar path[MAX_PATH*2]てのもある。
これじゃ、UTF-8なんて無理。
まだ TCHAR path[MAX_PATH] の方がまし。
575 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 19:24:38 ]: MAX_PATH*2なんて、Win32 APIが扱えない時点で無駄。
wじゃないWinMainアプリはマルチバイト文字ファイル名を扱えない欠陥アプリ。
長い全角ファイル名があるとフォルダのファイル一覧取得APIがエラーになるんだぜ。
576 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 19:28:06 ]: Windowsの場合、サロゲートペアの文字はどうなるの？
ノートパッドだと、1文字で2文字にカウントされるよね？
577 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 20:11:48 ]: >>574
いや、UTF-8かどうかなんて関係なく
パスは無限の長さを持つんだよ。
シンボリックリンクを使えばね。

だからMAX_PATHだろうが、PATH_MAXだろうが
どちらにしろ関係ない。
パスの長さを固定にしている時点でどちらも同じ。
578 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 20:57:48 ]: >>566
で、そのワイド文字は、メモリ上にないのか？
579 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 21:02:00 ]: >>578
wmain( int argc, wchar_t *argv[ ], wchar_t *envp[ ] )
580 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 21:46:24 ]: >>577
で？
可変に拘るのはいいが、無限の長さをどうやって扱うの？
581 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 21:48:03 ]: PATH_MAX、4096バイトって
たかがパス一つ保持するだけで
スタック4KBも消費するのか・・・
582 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 21:49:46 ]: >>580
どうやって扱うかじゃなくて
バッファオーバーフローして
セキュリティホールになるのが問題なんだよ。
583 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 21:52:03 ]: バッファオーバーフローにさえならなければ
char path[MAX_PATH]での
何の問題もないよ。

単にこのソフトはMAX_PATH文字のパスしか
扱えない仕様ってだけ。
584 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 21:57:52 ]: >>582
そりゃバッファが固定長なのが問題じゃなく、バッファの長さを管理してないのが問題なんじゃねぇか
585 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 21:59:00 ]: >>583
文字じゃなくてバイト
Shift_JISなら最後のバイトが欠ける可能性がある
586 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 22:29:49 ]: ○　バッファオーバーラン
×　バッファオーバーフロー
587 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 22:39:22 ]: "バッファオーバーラン"　　　約 16,500 件（0.17 秒）
"バッファオーバーフロー"　約 107,000 件（0.03 秒）

＾＾；
588 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 22:49:43 ]: で？
バッファオーバーフローは実際に発生したデータ量が予定していたバッファのサイズを上回ること。
バッファオーバーランはバッファオーバーフローした際にデータサイズをチェックしなくて予定外の
メモリを変更されること。意味が違う。
589 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 23:12:51 ]: >>585
それは、バッファのサイズを
いくつにしようが発生する問題だろ。
590 名前：デフォルトの名無しさん mailto:sage [2010/10/02(土) 23:14:29 ]: >>588
少しはぐぐった？
どちらも同じって書いてあるよ。
591 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 02:51:21 ]: >586-588
en.wikipedia.org/wiki/Buffer_overflow
en.wikipedia.org/wiki/Buffer_overrun
ja.wikipedia.org/wiki/%E3%83%90%E3%83%83%E3%83%95%E3%82%A1%E3%82%AA%E3%83%BC%E3%83%90%E3%83%BC%E3%83%A9%E3%83%B3

○バッファオーバーフロー = バッファオーバーラン
592 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 03:10:23 ]: >>591
ソースがwikipediaかよｗ

wikipediaを信じるなんて馬鹿のすること。
wikipediaに書いてあることはみんな間違い。
つまり、その逆が正解。

wikipediaに書いてある時点で
世界で最も信用できないものと思え。

結論　バッファオーバーランが正しい。
593 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 06:31:52 ]: つまり、WikipediaにあるUnicodeの説明も全て間違いと言うことですね、判ります。
594 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 06:46:36 ]: >>592
じゃあお前のソースはなに？
595 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 06:51:48 ]: 予定サイズを上回ったら自動的に何かが書き込まれて変更されるからな。
結果としては一緒。
596 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 07:02:10 ]: >>592 逆裏対偶の区別もつかないバカ登場wwwwwww
597 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 07:27:47 ]: char path[MAX_PATH+1]と+1を付けていなければどっちも起きるわな
598 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 08:27:06 ]: 得意げに○×やってみたら自分が間違ってた時って、どんな気持ちなんだろう
599 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 09:16:04 ]: なんか本筋でないところでもめているようだけど、CERTやCWEでは"buffer overflow"が使われている。
あと stackoverflow.com とか名付けられているように、overflowのほうが普通に使われているようだね。
600 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 09:45:28 ]: >>597
+1 ってセコすぎる。たった1バイトしか余裕がないのかよ。
せめて1文字分は余裕持たせたほうが・・・おっと、「1文字とは1バイトである」って概念
に毒されたひとには何を言ってもムダか。
601 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 09:50:12 ]: 醜いレス乞食
602 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 10:06:48 ]: >>588
「バッファから溢れる」現象を指してオーバーフローと言うわけで
「バッファを越えて書き込んだ」現象を指すオーバーランとどこも違わん。
オーバーフローしてりゃオーバーランしてるし、オーバーランしてりゃオーバーフローしてんだよ。

顔真っ赤にして恥の上塗り乙。
603 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 11:39:31 ]: >>575
FindFirstFileA/FindFirstFileW両方あるが？
604 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 13:16:15 ]: >>597
> char path[MAX_PATH+1]と+1を付けていなければどっちも起きるわな

なにが？

今時のOSはパスの最大長は無限長なのを
まだ理解できてないの？
シンボリックリンクを使えばね。
605 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 13:22:00 ]: 文字列を固定長で取っていれば、どんなサイズにしようが
バッファオーバーフローが起きる可能性はあるし、

バッファオーバーフローがおきないように作っているのなら、
そのソフトで使えるパスの長さが100文字とかいう制限はできたとしても
それはそのソフトの仕様というだけの話。

Shift_JISなら最後のバイトが欠けるというのは、
1バイト文字を混在して使える（つまりバッファサイズを
何文字にしてもおきる話）ということに気づいていないので論外。
606 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 13:26:36 ]: だってさ
www.k5.dion.ne.jp/~r-f/sicklylife/memo/ubuntu910/hdd.html

ext3・ext4・XFS 255バイト Linux系OSのファイルシステム
UFS 255バイト UNIX系OSのファイルシステム
NTFS 255文字 Windowsのファイルシステム
HFS+ 255文字 MacOS Xのファイルシステム
255バイトというと日本語だけでおよそ80文字強。

参考：NTFS,ext3,ReiserFSのファイル名の長さの話
参考：ext3 - Wikipedia
参考：ext4 - Wikipedia
参考：XFS - Wikipedia
参考：HFS Plus - Wikipedia

また、最大パス長は以下のようになっている。

ext3・ext4・XFS 4096バイト Ubuntu 9.10での場合
UFS 不明 POSIXの規定では「NULL終端で1024バイト」
NTFS Unicodeで32767文字対応していないアプリもあるらしい
HFS+ 無制限ただしDarwinの制限で1024文字を限界としている部分がある
参考：ファイルシステム - Wikipedia
607 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 13:30:46 ]: あと、NTFSはUnicodeで255文字、
NTFSはUTF-16と決まっているので、
charのMAX_PATHを×2にするのは正しい。
（Shift_JISだから×2なんじゃなくて、UTF-16だから×2なんだよ）
608 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 13:31:51 ]: >>606
それは、ファイルシステム上の物理的なパスの長さね。
シンボリックリンクを使えば無限になるから。
609 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 14:28:24 ]: UTF-16で帰ってくるってことはW系APIだろ。
何故WCHAR使わずにcharで受けるんだ？
610 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 14:30:51 ]: (1)ストレージに記録しておける個々のファイル名・フォルダ名の長さ
(2)ストレージに記録しておけるパスの長さ
(3)APIに渡せるパスの長さ
(4)状況として発生し得るパスの長さ（例：>608）
をきちんと区別して語ろうず。

ちなみにWindowsの場合、
(1)255 (NTFSの場合。)
(2)パスは記録していない
(3)32767 (2k以降?)
(4)無限
611 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 15:19:02 ]: >>607
サロゲートペアの文字は一文字と数えるの？
612 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 15:58:16 ]: >>609
hibari.2ch.net/test/read.cgi/tech/1093251312/281
613 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 16:26:33 ]: シンボリックリンク使わなくとも昔から
./././././hoge
みたいにやたら長いパスを渡せるな。
614 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 18:53:38 ]: >>605
> Shift_JISなら最後のバイトが欠けるというのは、
> 1バイト文字を混在して使える（つまりバッファサイズを
> 何文字にしてもおきる話）ということに気づいていないので論外。

サロゲートペアでも欠けるんじゃね？
615 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 19:32:57 ]: 合成文字はどうするんだろ
正規化する必要あるの？
616 名前：デフォルトの名無しさん mailto:sage [2010/10/03(日) 19:41:27 ]: charだろうがwchar_tだろうがバイト・文字が欠けるのは一緒。
だったら汎用性の高いcharでUTF-8の方が良い。
617 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 07:32:43 ]: しつこくシンボリックリンクと繰り返してる奴はどこの脳内Windowsの話をしてるの?
すくなくとも実在のWindowsではシンボリックリンクは32回以上ネストできないし
「展開後」の長さがWCHARで数えて32767文字を超えられないから
無限にはならない
618 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 07:48:29 ]: >>617
親ディレクトリへのシンボリックとか
ネットワークファイルシステムとかあるでしょｗ
619 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 08:02:31 ]: >>617
覚えたばっかのニワカ知識を振りかざしたくてしょうがないんだろ
猿のオナニーなんざ止めようとするだけ無駄
620 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 09:10:34 ]: どうでもいいけど、誰もWindowsなんて言ってないのに
なんで限定するんだろう
621 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 09:15:59 ]: >>620
変な名前のが出来て嬉しくて仕方が無いから
622 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 13:48:23 ]: >>597
MAX_PATH+1 ほど情弱なもんはない
623 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 19:19:28 ]: >617-619
シンボリックとか使わなくても、コマンドプロンプトで「フォルダ作ってはmove」を
繰り返せば余裕で限界超えられるよ。

※エクスプローラでは削除できないフォルダが出来上がるので注意。
※エロ画像とか隠すのに使えるかも。

■実証用バッチ
cd /d %~dp0
set prefix=0123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789_
for /l %%n in (500,-1,0) do (
ren tmp %prefix%%%n
md tmp
move %prefix%%%n tmp
)
pause

■削除用バッチ
cd /d %~dp0
set prefix=0123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789_
for /l %%n in (0,1,10) do (
move tmp\%prefix%%%n .
rd tmp
ren %prefix%%%n tmp
)
pause
624 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 19:20:52 ]: 削除用バッチ訂正。

×for /l %%n in (0,1,10) do (
○for /l %%n in (0,1,500) do (
625 名前：デフォルトの名無しさん mailto:sage [2010/10/05(火) 01:01:56 ]: ウイルス貼るなクズ！
626 名前：デフォルトの名無しさん mailto:sage [2010/10/05(火) 01:32:06 ]: >>625
お前様はマルウェアは押し並べてウイルス扱いするお間抜けですか。
627 名前：デフォルトの名無しさん mailto:sage [2010/10/05(火) 08:00:23 ]: マルウェアかどうかすら怪しい
628 名前：デフォルトの名無しさん mailto:sage [2010/10/05(火) 10:07:28 ]: >625
それを言うなら「ヴァイラス」だろ
629 名前：デフォルトの名無しさん mailto:sage [2010/10/05(火) 10:54:06 ]: ヴァイタミン
630 名前：デフォルトの名無しさん [2010/10/05(火) 21:43:32 ]: ヴィニュー
631 名前：デフォルトの名無しさん mailto:sage [2010/10/05(火) 23:00:19 ]: ヴァニラタン
632 名前：デフォルトの名無しさん mailto:sage [2010/10/06(水) 15:14:29 ]: ヴェガス
633 名前：デフォルトの名無しさん mailto:sage [2010/10/06(水) 22:51:13 ]: ビールスだろ
634 名前：デフォルトの名無しさん [2010/10/07(木) 06:48:38 ]: beers
635 名前：デフォルトの名無しさん [2010/10/11(月) 07:43:50 ]: ヴィールス
636 名前：デフォルトの名無しさん mailto:sage [2010/10/11(月) 10:06:28 ]: そろそろまとめろ
637 名前：デフォルトの名無しさん mailto:sage [2010/10/11(月) 11:02:31 ]: >>602
バッファオーバーフロー
　　バッファサイズ以上に書き込む
バッファオーバーラン
　　バッファサイズ以上に書き込む／読み込む
638 名前：デフォルトの名無しさん mailto:sage [2010/10/11(月) 11:21:49 ]: >>637
お前の定義はいらんから、
どこからか出典もってこい。

ぐぐったら、どちらも同じって書いてあって
レスするきにならなくなるだろうけどなｗ

じゃあ、サイナラ
639 名前：デフォルトの名無しさん mailto:sage [2010/10/11(月) 15:16:58 ]: バッファオーバーフローの例
main()
{
int unko[10];
printf("%d", unko[20]);
}
640 名前：デフォルトの名無しさん mailto:sage [2010/10/11(月) 18:11:44 ]: つ、釣られないぞ・・・
641 名前：デフォルトの名無しさん [2010/10/11(月) 18:39:00 ]: バッファオーバーランの例

void main()
{
char oppai[1];
strcpy (oppai,"美乳");
}
642 名前：デフォルトの名無しさん mailto:sage [2010/10/12(火) 08:08:59 ]: >>638 惨敗だな
常識に「出典もってこい」とは恥ずかしい。
中学２年生かおまいは！
643 名前：デフォルトの名無しさん mailto:sage [2010/10/12(火) 10:43:19 ]: バッファオーバーフローの例
void f(char buf[])
{
　char manko[200];
　if ( strlen(buf) >= sizeof manko / sizeof *manko ) throw "buffer overflow";
　strcpy(manko, buf);
　：
}
644 名前：デフォルトの名無しさん mailto:sage [2010/10/12(火) 10:51:23 ]: ┌─────────────┐
│　　　　CrossDays　　　　　　　　　│
│　11GBの空きが必要です　　　.│
│　　　　　　[ＯＫ]　　　　　　　　　　.│
└─────────────┘ （　ﾟдﾟ）
645 名前：デフォルトの名無しさん mailto:sage [2010/10/12(火) 20:56:10 ]: >>642
どっちも同じ意味だなんて、常識だよね。
646 名前：デフォルトの名無しさん mailto:sage [2010/10/14(木) 17:38:01 ]: 「Unicode 6.0」が策定、絵文字が国際標準に
k-tai.impress.co.jp/docs/news/20101013_399811.html
647 名前：デフォルトの名無しさん mailto:sage [2010/10/14(木) 17:38:29 ]: UNK絵も国際化されたわけだ。
648 名前：デフォルトの名無しさん [2010/10/14(木) 18:18:58 ]: >>646-647
ここはインディアンがテーマなのですれ違い
649 名前：デフォルトの名無しさん [2010/10/14(木) 22:13:50 ]: ビッグインディアンって白人？黒人？

エンディアンの間違いじゃないのかｗ
650 名前：デフォルトの名無しさん mailto:sage [2010/10/14(木) 22:14:55 ]: 無粋すぐる
651 名前：デフォルトの名無しさん mailto:sage [2010/10/14(木) 22:33:31 ]: ここはキチガイ論者の隔離スレとして再利用されたから、ここでいいんだよ。
しかし使えない絵文字ばかり集まったな。これじゃ携帯メールのUnicode化なんて無理だ。
652 名前：デフォルトの名無しさん mailto:sage [2010/10/15(金) 03:03:17 ]: おでんに海苔せんべえとか、
随分と日本ローカルなもんまで採用したんだな。
こんな事認めてたら、収集付かなくなりそ。
653 名前：デフォルトの名無しさん mailto:sage [2010/10/15(金) 06:58:52 ]: ヘタクソというか素人臭が漂う絵ばかりだなあ
654 名前：デフォルトの名無しさん mailto:sage [2010/10/15(金) 10:49:59 ]: サンプルのデザインをあげつらってもしょーがないべ。
655 名前：デフォルトの名無しさん mailto:sage [2010/10/15(金) 11:03:52 ]: >>646
Googleによる企業支配の幕開けだな
656 名前：デフォルトの名無しさん mailto:sage [2010/10/15(金) 11:39:39 ]: ×収集
○収拾
657 名前：デフォルトの名無しさん [2010/10/15(金) 13:59:20 ]: 1F4A9
658 名前：デフォルトの名無しさん [2010/10/15(金) 14:01:54 ]: 💩
659 名前：デフォルトの名無しさん [2010/10/15(金) 14:04:06 ]: \u1F4A9
660 名前：デフォルトの名無しさん [2010/10/15(金) 14:05:49 ]: U+1F4A9
661 名前：デフォルトの名無しさん [2010/10/15(金) 14:11:01 ]: \x{1F4A9}
662 名前：デフォルトの名無しさん mailto:sage [2010/10/15(金) 21:59:37 ]: 絵文字に関しては、字体もコード表に合わせなくても怒る人いないの？
漢字はそうなってるし、波ダッシュ・全角チルダ問題も字の形がちょっと違うことが原因で起こったトラブルだったのに。

絵文字は、マイナス記号・ダッシュ・ハイフンみたいに、使い道によって別の文字コード割り当てなくてもいいの？

絵文字も異字体セレクタで別の字体を選べるの？
663 名前：デフォルトの名無しさん mailto:sage [2010/10/15(金) 22:08:09 ]: 絵文字は色もついてるしアニメするし、どうしようもない。
各社でちがうし。
664 名前：デフォルトの名無しさん [2010/10/18(月) 11:57:35 ]: 1F4A9には臭いもついてます
665 名前：デフォルトの名無しさん [2010/10/20(水) 12:24:45 ]: www.google.co.jp/images?q=PILE%20OF%20POO
666 名前：デフォルトの名無しさん mailto:age [2010/11/08(月) 22:33:49 ]: うんこage
667 名前：デフォルトの名無しさん [2010/11/11(木) 01:15:56 ]: チャットで
ௌௌௌௌௌௌௌௌ☠ௌௌ☠ௌௌௌௌௌௌௌௌ☠ௌௌௌௌௌௌௌௌௌ☠ ௌௌௌௌ
ってうたれたら文字真っ白になってバグるんだけどどうすればいいかな？
エンコードしても無理みたいｗｗｗ
668 名前：デフォルトの名無しさん mailto:sage [2010/11/11(木) 07:54:04 ]: >>667
死ねばいいと思う
669 名前：デフォルトの名無しさん [2010/11/11(木) 13:49:40 ]: >>668
なんでやってｗｗｗ
マジで対策法教えてくれ
670 名前：デフォルトの名無しさん [2010/11/11(木) 15:42:13 ]: >>667
何かと思って調べてみればタミル文字じゃん
試しにエディタに貼り付けてみたら、秀丸、gPad、K2Editor、Notepad++では無理だった
サクラエディタとMeryはOK

これ、そのチャットアプリで対応してなければ無理じゃね
671 名前：デフォルトの名無しさん mailto:sage [2010/11/12(金) 10:49:52 ]: ちなみにうちの秀丸(7.10)はOKだったお(UTF-8で)
672 名前：デフォルトの名無しさん mailto:sage [2010/11/12(金) 13:28:00 ]: ちなみに対策としては、相手のインド人に
英語か日本語を使うようお願いするといい

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef