UnicodeとUTF-8の違いは？

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 07/03 06:05 / Filesize : 124 KB / Number-of Response : 631
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

UnicodeとUTF-8の違いは？

1 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:02:37 ]: ビッグインディアンとかなんとかかんとか
2 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:04:11 ]: 戦力の決定的差ではない
3 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:05:48 ]: また、頭の悪そうなスレが・・・

>>1
それは魚とマグロの違いを訊ねるようなもんだ。
4 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:06:49 ]: 魚と鮪というよりは、魚と刺身の違いのような気がする。
5 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:09:31 ]: 俺もわからん。
誰か詳しく説明してよ。
6 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:11:24 ]: >>5
UNICODE→魚
UTF-8→刺身
7 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:14:40 ]: Unicodeは文字の集合で、UTF-8はそれに(語弊があるが)番号を振る方法の1つ。
8 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:15:39 ]: UNICODE
- 文字集合：１種類
- 符号化方式：UTF-8, UTF-16BE, etc
9 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:19:17 ]: 小学生でもわかるように！
10 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:28:13 ]: Unicode => クラスメート
UTF-8 => 身長順に並べー、名前の順に並べー、誕生日の順に並べー
11 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:30:48 ]: 自分はUCSとの違いがわからん
12 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:32:18 ]: 2chの絵文字の#1234とかがUTF-8なのか？
13 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:32:39 ]: Unicode:
コードポイント: JISの句点コード
UTF-7, UTF-8, UTF-16, UTF-32: Shift_JIS, ISO-2022-JP, EUC-jp

Unicode ⊃ UTF-8
14 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:32:52 ]: unicode => 国民
UTF-8 => 住基コード
15 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:42:09 ]: Unicode = { 'a', 'b', ... }
UTF8 = { utf8encode('a'), utf8encode('b'), ... }
16 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:42:47 ]: UNICODE: JIS
UTF-8: SJIS or UJIS

かな？
17 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:44:05 ]: JISてーと、ISO-2022-JPエンコーディングのことを指すのかJIS X 0201とか08
とかを指すのかはっきりしないが、後者ならそんな感じ。
18 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:44:56 ]: あるいは
UNICODE: DivX or XviD or WMV9
UTF-8: AVI or MKV or OGM or ASF
19 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:51:13 ]: >>1
そもそもUTF-16やUTF-32と違って
バイトストリームのUTF-8にはエンディアン問題はない
UTF-8のBOMはエンディアン対策ではない

>>11
UnicodeとUCSは同義といってもいいのでは
20 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:53:30 ]: UNICODEって文字セットのことなのか、
文字セット＋符号化方式たち　のことなのかどっち？
21 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:57:06 ]: 文字それぞれにも番号は振られているが、これは日本語の文字でいうと
区点コードみたいなもんだな。
22 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 21:00:55 ]: UTF-8とかってのは一種の圧縮方式みたいなものだよね
前cjk漢字統合で叩かれてたのはUNICODE自体の問題？
それとも非可逆圧縮への批判？
23 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 21:13:09 ]: なんという他力本願なｽﾚ・・・
24 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 21:14:46 ]: ていうか、こんだけグチャグチャ言われたらわかるもんも
わからんようになるだろ、普通ｗ
25 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 21:18:58 ]: >22
UnicodeがCJK漢字を統合するという
非可逆圧縮を選択したことへの批判だったと記憶している。
26 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 21:26:07 ]: .NET2.0には文字コードを自動判別する機能があるかどうかどうなんだ
27 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 21:29:11 ]: 文字コードスレで聞けよ・・・
28 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 21:32:55 ]: >>22
>UTF-8とかってのは一種の圧縮方式みたいなものだよね

全然違うから。
29 名前：デフォルトの名無しさん mailto:sage [2007/04/30(月) 21:36:55 ]: >>11
UnicodeはUCS-4のサブセットであり、UCS-2のスーパーセット
30 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 00:35:17 ]: UNICODEには基盤になる文字集合が一つあって、
その文字コードを固定長で(そのまま)使うのがUCS、
可変長で(圧縮して)使うのがUTFだと思ってた俺。

しかし>>28によって否定されてしまった。
調べてもなぜ間違ってるのか分からん。
31 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 00:46:56 ]: >>30
可変長と圧縮を混同するな。
32 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 00:55:36 ]: >>31
そりゃ確かに俺らからすれば圧縮とは言えないね。
でもわざわざ可変長にする理由は第一に互換性、第二にサイズぐらいしかない気がする
とりあえず大筋では合ってたようなのでよかった。ｻﾝｸｽ
33 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 05:53:08 ]: UTF-16LEを指してUnicodeと連呼しているSDKドキュメントが存在するんだが、
あいつらの傲慢さは何とかならんのか？
34 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 07:31:56 ]: UTFのUとは何か
35 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 08:12:07 ]: さいたまてれびがうつらないのですが・・・
36 名前：デフォルトの名無しさん [2007/05/01(火) 08:18:43 ]: なぁ、ちょっとおしえてくんねーか？
なんでutf8の「ももんが」って文字列を
PerlのJCodeでutf8に変換しようとすると文字化けしちゃうんだ？
37 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 09:03:46 ]: ももんが！！
38 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 09:12:48 ]: >>36
utf8からutf8だと、変換してないじゃないか。
39 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 10:00:45 ]: Unicode： Unicode Consociumの制定した文字集合。(U+0 - U+1FFFFF)
UTF-8/16/32： Unicode Transformation Format。Unicodeの符号化方式。
　UTF-8：外字が無いため4Byte長まで。
　UTF-16： UCS-2＋サロゲートペア＋バイナリ符号化。

ISO/IEC 10646：国際文字集合規格（群、面、区、点）。制定前にUnicodeが出て来たためそのコンパチに。Unicodeの文字はこのうち0群16面まで。
UCS-4： ISO規格の31bit符号集合。規格化文字集合＋外字。
UCS-2： ISO規格の16bit符号集合。基本多言語面のみ。（例：U+1234）
UTF-8/16/32： UCS Transformation Format。UCSのバイナリ符号化方式。（例：0x12 0x34）
　UTF-8： Unicodeの方と違い6Byte長まであり。
40 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 10:19:34 ]: メモ帳でテキストを保存するときに
UnicodeやUTF-8を指定できるが、
Unicodeで保存する
としたときは
UTF-8で保存したのかUTF-16で保存したのか
わたしたちにはわからなくないか？
41 名前：デフォルトの名無しさん [2007/05/01(火) 10:22:47 ]: コンソールのfileコマンドでわかるだろ！(：D)|￣|_
42 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 12:07:35 ]: >>40
Microsoft Windows では "Unicode" といえば UTF-16 のリトルエンディアンという暗黙の了解になっている。
43 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 12:13:22 ]: >>33
csUnicodeっていうISO-10646-UCS-2のIANA別名があって、
こいつはUTF-16コンパチだから、あながち間違いとはいえない。
44 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 16:02:40 ]: Visual Studio.NETのSystem.IOでテキストをつくったらとくにコード指定なしのときはUTFいくつなんだ？
45 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 16:21:05 ]: windowsの標準
46 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 17:07:42 ]: UTF-8
MSDNに書いてある。
47 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 17:36:36 ]: ISO-2022でいいじゃんね
48 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 17:49:18 ]: VB.NETでも結局はBASP21を使わないと文字コード半別できんのか？
49 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 18:01:26 ]: mlangつかやいいじゃん
50 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 18:25:37 ]: 文字コードのことがイマイチよくわからん・・・・
頭こんがらがり
51 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 18:48:26 ]: 文字コードもOSI参照モデルみたいな階層構造の概念が必要だと思うんだよな
↓みたいな感じで

表示字形（グリフ、フォント）
文字入力（物理デバイス、IME）
符号化方式
文字集合
自然言語
52 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 19:41:11 ]: とりあえず、M$はUTF-16をUnicodeと呼ぶのを自重すべきだな。
まるでUTF-16だけがUnicodeとしたいようだ。
SJIS(MS漢字コード)を日本語テキストの標準にしたいかのように。
53 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 19:50:46 ]: 自然言語ってのは普段使ってる言葉な
そこで使われてる文字を集めたのが文字集合ってヤツ

英語だとラテン文字a-z,A-Zと数字、記号なんかが文字集合になるわけ
日本語だと異体字なんかの問題があって集合を作るのが難しいんだけど
（土吉／士吉とか、はしご高／くち高みたいな）
とりあえず作って使われてるのがJIS X 0208文字集合ってヤツ
いわゆるJIS第1水準、第2水準漢字ね
54 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 19:53:30 ]: 他の国でも独自に文字集合を作ってて
それらをまとめてひとつの大きな文字集合に
しちゃおうってのがUnicodeの考え方なの

ここでいうUnicodeはUCS(Universal Character Set)と
同じと思ってもらっていい
55 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 19:58:06 ]: その文字集合を実際にコンピュータ上のゼロイチで
対応させる方法のことを符号化方式っていうの

JIS X 0208文字集合を符号化する主な方法として
EUC-JP、ShiftJIS、ISO-2022-JP(JIS)
っていう３つがあって文字化けとかの問題が出てくるんだけどね
56 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 20:07:29 ]: ASCIIなんかだと文字集合と符号化方式が明確に区別されてなくて
規格として「この文字はこのゼロイチの組合せ」ってのが決められてたりして
そこらへんが文字集合と符号化方式を混乱する一因ではあるんだけど

UTF-8ってのはUCSを符号化する方法のひとつっていうだけ
それ以上でもそれ以下でもない

じゃあ、何が混乱の元かっていうと
Unicodeって言葉がUCS（文字集合）だけを指す場合と
符号化方式まで含めて使われる場合があるのだな
区別が付いてる人はいいんだけど、区別が付いてない人が
書いたり読んだりしてるとエスパー助けて状態にｗ
57 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 20:14:21 ]: UCSという規格の存在を知らず、
UCSという言葉を単にUCS-2やUCS-4などといった符号化形式の
総称としか思っていない奴いるだろ。
58 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 20:32:56 ]: なるへそ。
そういうことか。

Unicodeが単に世界中の文字を集めたもので、その1文字1文字にゼロとイチ
の組み合わせ対応させたものが、UTF-8と。

なんかちょっとわかったよ。
59 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 20:43:00 ]: ASP.NETのWebconfigファイルはUTF-8なんだからできればなにもかもUTF-8で統一してもらいたいんだが。
アラビア語とかを考えてUTF-16とかにする必要があるんだろうか
60 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 20:58:23 ]: Unicodeが16ビット固定長だった頃に書かれたソフトウェアを使うためということが
UTF-16の最大の存在理由だと思う。

個人的には大半の仮名漢字が2オクテットで収まるUTF-16はそんなに嫌いでない。
ASCIIの文字が2バイトになることと、プログラムで扱うときに
サロゲートペアを考慮しなければならないこと、は悩ましいけど。
61 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 21:19:18 ]: どうせ互換性なくなるならASCIIの制御文字から設計し直せばいいのにな
62 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 21:29:40 ]: このスレは文字コードスレの内容がサッパリわからない
アフォの俺には非常に助かる
63 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 21:40:58 ]: なるほど。すごく良く分かった。
エロい人に感謝。
64 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 21:51:36 ]: それじゃぁ、このスレは目的を果たしたということで埋め？
65 名前：デフォルトの名無しさん [2007/05/01(火) 21:52:18 ]: 日本で使うコードポイントはどの辺でしょうか？
www.ssec.wisc.edu/~tomw/java/unicode.html
66 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 21:54:29 ]: ブラウザの実装も大変みたいだね
openmya.hacker.jp/hasegawa/public/20061209/momiji.html
67 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 21:58:43 ]: >>39
UTFって、２種類あるんだ。Windowsのはどっちなんだろ？
というかそもそも、UCS-?とUTF-?の違いが良く分からんが。
68 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 21:59:22 ]: Basic LatinがASCIIの範囲。
CJKなんたらと付くところが漢字関連。
あとHiragana、Katakanaは当然だな。
Halfwidth and Fullwidth Formsが半角カタカナや全角アルファベット。

漏れがあるかも知れないがだいたいこんなとこだろう。

将来的にはHigh/Low Surrogatesに入る文字もあるのかな。(もう入ってる?)
69 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:13:17 ]: UCS-2⊂UCS-4⊂世界の文字
UTF-8∈( UCS-2→バイト列(1～4?バイト) )
UTF-16∈( (UCS-2→バイト列(2バイト) ∩ (UCS-4-UCS-2→バイト列(4バイト)) )

こうかな…？
70 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:22:38 ]: UCSは集合でUTFは関数
集合の元に関数を適用するとゼロイチが出てくる
71 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:30:20 ]: >>65
国を意識しないで使えるのがUnicodeのメリットで
全ての国で全てのコードポイントが使える

そもそも日本語だけを使いたいのであれば
Unicodeを使う意味がない
理想論だけど
72 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:30:37 ]: で、実践的に、ネットからダウンロードしたのをUTF-8で保存するとして
ネットのドキュメントのいろいろな文字コードを知るにはどうするんだ？
73 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:36:53 ]: (1)ソース表示→charset=???の部分で判断
(2)いろんなエンコードで開いてみて読めたのが正解
74 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:37:06 ]: >>71
>Unicodeを使う意味がない

２バイトコードの問題から開放されるだけでもすごく意味があるぞ。
75 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:44:55 ]: >>67
Unicodeコンソーシアムが作った文字集合がUnicode。
ISO 10646で定義された文字集合がUCS。
両者は、互換になるように働きかけあっているので、今のところ同じ文字集合と見なして問題ない。

一時期はUnicodeを符号化するのがUTF-?、UCSを符号化するのがUCS-?だったと俺は思うが、
今はISO 10646にUTF-8/16も収録されているらしい。
UTF-8/16の正式名称はUnicodeとUTFで違うが、実際の符号化の方法は同じで、
基の文字集合も上に書いたとおり同じだからどちらのUTF-8/16も実用上基本的に違いはない。
76 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:48:04 ]: UCS-4は、32ビット固定長の内31ビット使用し、UCSの全ての文字を符号化できる。
UCS-2は、16ビット固定長（16ビット使用）で、UCSのうち、BMP（基本多言語面）だけしか符号化できない。
UTF-32は、32ビット固定長の内21ビット使用し、Unicodeの全ての文字を符号化できる。
UTF-16は、16ビット/32ビット（サロゲートペア）の可変長で、Unicodeの全ての文字を符号化できる。
UnicodeのUTF-8は、8ビット単位、1-4オクテットの可変長で、Unicodeの全ての文字を符号化できる。
UCSのUTF-8は、8ビット単位、1-6オクテットの可変長で、UCSの全ての文字を符号化できる。

Unicodeは、UTF-16で全ての文字を符号化できることを念頭においているが、
UCSは、UCS-4で全ての文字を符号化できることを念頭においている。
77 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:48:19 ]: >>74
Unicodeでも多バイト問題は付いて回るし
EUC-JPとかISO-2022-JPでいいんじゃね？
78 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:52:58 ]: >>69
これくらいすっきりさせろ
UCS-4 = UCSのUTF-8
UTF-32 = UTF-16 = UnicodeのUTF-8
UCS-2 ⊆ UTF-32 ⊆ UCS-4
（そもそもUnicode ⊆ UCS）
79 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 22:54:52 ]: ISO-2022-JPはステートフルなので扱うのが大変。
UTF-8はEUC-JPより多くの文字が扱える。
Shift_JISはYENとかで困るから除外。
XMLのデフォルトエンコーディングはUTF-8。
80 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:05:23 ]: JISX0213（ニアリイコールVistaの文字セット）でサロゲートペアって
ハマりそうだよな。

string s="○";
assert( s.length==1 );

これが成り立たない場合があるっていうのも詐欺みたいな。
81 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:08:04 ]: 1区当たり94点しか使わないASCII絶対主義が狂ってると思う
コードポイントの5/7が使われないのはもったいなすぎ
82 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:17:25 ]: >>76
なるほど・・・だいぶ間違ってたなぁ。こうなるのかな？
BMP(16bit)⊂Unicode(21bit)⊂UCS(31bit)⊂世界の文字
UCS-4∈( UCS→(32bit) )
UCS-2∈( BMP→(16bit) )
(UCS)UTF-8∈( UCS→(8～48bit) )
(Unicode)UTF-8∈( Unicode→(8～32bit) )
UTF-16∈( BMP→(16bit) ∩ Unicode-BMP→(32bit) )
UTF-32∈( Unicode→(32bit) )

>>78
俺はずっと文字集合とエンコーディングがごっちゃになってたから
あんまり省略すると不安だったもんで
83 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:18:50 ]: >>80
「が」とかなら判るけど、○も文字的に２文字になるケースってあるの？
サロゲートペアだから2だとかでは、バイト長だから4という思想から
変わってないような。文字としてなら1以外ありえないと思うので、
そのassertが不成立ならstringクラスのバグ（か、lengthのバグ仕様）なんでは？
84 名前：デフォルトの名無しさん mailto:sage [2007/05/01(火) 23:24:41 ]: 任意の文字って意味じゃね＞"○"
85 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 00:10:36 ]: あ゛、なるほど。でも任意の文字っていっても実装依存で
なるわけじゃなくて、そうなってもおかしくない文字（合字とか）で
なるだけじゃないの？言語的な文字数ではなくて内部的に確保した
記憶スロットの数を返すようなlengthはいくらなんでもバグだろう。
86 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 00:33:38 ]: >>83
いや、サロゲートペアだから２になるんだわ。
とりあえず.NETはそうなる。

msdn2.microsoft.com/ja-jp/library/system.string.length(VS.80).aspx
> Length プロパティは、このインスタンス内の Char オブジェクトの数を返します。Unicode 文字の数ではありません。

Javaもそうなるみたいだけど。

Java
java.sun.com/j2se/1.5.0/ja/docs/ja/api/java/lang/String.html#length()
> この文字列の長さを返します。長さは文字列内の 16 ビット Unicode 文字の数に等しくなります。

JavaScriptも多分？
87 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 01:48:47 ]: >>86
げーっ、そうなんだ。
「16ビットUnicode文字」の数なんて何の意味もないのにな。
「言語的な文字」の数かどうかだけが問題で、それ以外は
バイト数を返すのと同じこと（＝同じ問題を抱える）なのに。
88 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 02:08:02 ]: しかし、実際サロゲートペアの
文字なんかほとんど使われないわけで。

それなのにそれを考慮して処理速度を大幅に落とす方が俺は困る。
89 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 02:09:58 ]: Javaは仕様としてサロゲートペアを
そもそもサポートしないと決められてるはず。
90 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 03:25:03 ]: >>89
最近のJavaはちょっとサポートしている。
String.codePointCount() とか、Character.codePoint*() とか。
91 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 05:56:27 ]: >>87
プログラム組む人は、バイト数が欲しい
（書面の）文を書く人は、文字数が欲しい

strcatとかの標準関数が全滅するUTF-16なんて誰が考えたんだろな？
しかも、MSは標準にするし…
92 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 09:06:46 ]: 意味的にはもちろん文字数を返すのが理想なんだけど・・・
そもそもJavaなんて、ｓtringクラス作った時はサロゲートペアなんて無い時代じゃないの
93 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 09:23:29 ]: >>68
有り難う御座います、結構飛びますね
>>71
ゲームで使うライブラリが使うコードポイントを指定して
テクスチャに書くので決める必要があるからです
海外のフォントが使えなきゃ線画ができませんし
94 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:05:19 ]: >>91
バイト数を気にしてた頃はJIS X 0201カナも普通に使われてたから
SJISなんつー中途半端なモンが重宝されてたんだよな
95 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:35:00 ]: >>87
.NETの場合、文字数はSystem.Globalization.StringInfo.LengthInTextElementで得られる。
ほかにもStringInfoには、サロゲートペアを考慮して文字単位で操作するメソッドがいくつかある。

>>91
C89の時点で既にwchar_tはあった。
wcscpyなどの関数が入ったのはC95だった気がするが。

そのwchar_tは、今のWindowsだとUTF-16だが、
そもそもwchar_tことC/C++のワイド文字は固定長で処理することを志向していたはずで、
本来のwchar_tの意義からすればUTF-16は良くない罠。

もしもUnicodeが初めから32ビットになっていれば、と思う。
96 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:37:02 ]: やべえええ
話についていけない
というか、文字コードの変換は出来るけど　実際の詳しい部分知らない俺はヘタレ・・・
97 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:44:11 ]: 16bitで足りないのはすぐに判ったろうけど、似た文字はまとめちゃえば入るだろと思ったんだろな
でも、それじゃ納得しない人が出てくるのは当然。

24bitあれば足りたろうから24bitで定義しておけば最善だったかもな

それにしても \ の扱いが醜い
98 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 10:54:06 ]: 7bitで足りてた人間が考え始めたコトだからｗ

JIS X 0201のGRはISO646ではあるけどASCIIではないからね
バイナリ的に区別付かないからフォント変えれば同じだけど

ASCIIにスラッシュとバックスラッシュが採用されたのは
当時のプログラム言語で使われてた論理記号の∧と∨を表すためらしい
99 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:11:56 ]: 歴史的な経緯はこのページが参考になる
ttp://www.horagai.com/www/moji/code4.htm
100 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:18:53 ]: んじゃ、文字数とかバイト数とかのお話の説明なぞ

UTF-16っていうので16bitで全部の文字を表そうと思ってたのね
でも実際に作り始めたら16bitじゃ全然足りなかったから
その分は16bitをふたつ使って32bitで表しますよっていうコトにしたの
それがサロゲートペアって呼ばれてるモノね（ふたつ組だからペア）

そんなわけで、UTF-16は基本的に16bitで一文字なんだけど
例外的にサロゲートペアだけ32bitで一文字っていう
ヘンテコリンな規格になっちゃったわけ

サロゲートペアの処理がちゃんとされてないプログラムだと
16bitなら一文字、32bitなら二文字っていう風に
機械的に文字数を判断しちゃって困るねっていうこと
101 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:27:33 ]: 言ってみればサロゲートペア非対応のプログラムでサロゲートペアを含む文字列を扱おうということは、
マルチバイト文字列非対応のプログラムでマルチバイト文字列を扱おうとするのと同じこと。
まあShift_JISのような駄目文字問題が生まれないのはましだけど。
102 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:28:30 ]: 足りない領域に文字を突っ込むという点では
JIS X 0201のカタカナ集合に通じるモノがあるかも
（いわゆる半角カナのコトね）

自然な感覚だと濁点・半濁点が付いてるのも一文字だし
付いてなくても同様に一文字だと思うんだけど、
文字入れる場所がないから濁点・半濁点付き文字は
例外的に8bitふたつで表現してねっていう

「こんにちは」と「こんばんは」
一般的な感覚としては両方とも五文字だけど
8bitカタカナの世界では
「ｺﾝﾆﾁﾊ」は五文字で「ｺﾝﾊﾞﾝﾊ」は六文字になる
103 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:29:18 ]: UTF-16で
1文字16bitだとして1文字32bitのものもあるってことは判った
流石に混在はしないの？
104 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:41:16 ]: >>103
D800-DB7FとDB80-DBFFが上位サロゲート、DC00-DFFFが下位サロゲートの領域になっていて、
任意のUTF-16 1バイト（= 2オクテット）を取り出しても、
それがサロゲートでないか、上位サロゲートか、下位サロゲートかは区別が付く。

駄目文字の問題が起こらないという点において、ASCIIとの対比で言えばShift_JISよりもEUC-JPっぽいという感じ。
EUCは、あるコードがマルチバイトのどこになるかの区別が付かなかった気がするが。
105 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:44:46 ]: >>104
解説ｻﾝｸｽ
なるほど　なんかUTF-16が判ってきた
でもぶっちゃけ存在は知ってるけど使ったことがない俺がいる
106 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 11:50:43 ]: 文字コードなんて本来はユーザが意識するようなものじゃないからなぁ
ユーザが意識して扱わないと問題が起きる設計なんてのは
IT業界じゃなきゃ欠陥商品としてリコール対象だろｗ
107 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 12:30:22 ]: つまりUTF-16だとサロゲートペアで表す対象になる文字の中で、
俺が有名そうだと思うのは、吉野家の「土吉」（上部が土になっている）U+20BB7 𠮷。
メイリオなんかだとグリフを持っているので表示できる。
108 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 12:44:27 ]: DOMStringの長さはUTF-16での符号単位数ってことになってるんだよな。
これ決めた奴、死ぬべきだと思うわ。
109 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 16:42:11 ]: >>108
W3CでDOMを規格化するときには、もうJavaScriptもJavaも16bit単位ベー
スの文字列処理になってしまっていたので、仕方なくそれらに合わせた
んだと記憶してます。
110 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 20:02:03 ]: 7bit文字の場合
0xxx xxxx
8-11bit
110x xxxx 10xx xxxx
11-16bit
1110 xxxx 10xx xxxx 10xx xxxx

unicodeの部分がxxxx
111 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 21:38:28 ]: 1バイトだけ見た場合、

0xxx xxxxならそのバイトだけで1文字
1xxx xxxxなら
-- 10xx xxxxなら多バイト文字の2バイト目以降(先頭は遡って11xxなバイト)
-- 11xx xxxxなら多バイト文字の先頭バイト
---- 110x xxxxなら2バイト文字の先頭バイト
---- 111x xxxxなら3バイト文字の先頭バイト

と判別できるわけだな。
112 名前：デフォルトの名無しさん mailto:sage [2007/05/02(水) 21:57:31 ]: >>110-111はUTF-8の場合な
113 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 06:06:02 ]: >>112
なにが言いたいのかわからんが、
UTF-8はstr系の標準関数が、ほぼそのまま使えるから大好きだぞ。
ASCIIの前半文字との比較だって、何の躊躇もいらない。
str系に限らず、UTF-8のシステムならfopen等までそのままってのはでかい。
w系使えばいいってのは何かの冗談にしか聞こえない。
ま、UTF-16は、何も考えず0x00を織り込んだのが、糞仕様ってことだ。
114 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 06:28:52 ]: >>100
根本的に認識が間違ってる。
Unicodeの文字表現は元々複数のcode pointを組合わせた可変長
UTF-16でサロゲートが無くても2 byte毎に分割してはだめだし、1文字の長さは2
byte以上の可変長としか言えない。
文字単位に処理したかったらcode pointではなく、grapheme clusterが処理単位
code pointは文字の構成要素であって文字ではない。
115 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 10:21:11 ]: そこでISO/IEC 10646の実装水準1ですよ(もうすぐ廃止されるけど)
116 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 11:31:18 ]: >>113
世の主流言語がPascalとかBasicだったら今頃はUTF-16マンセーの時代だったのかもな。
117 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 11:43:25 ]: なんでPascalやBasicだったらUTF 16マンセーなの？

というか、現代は既にUTF16マンセーだろ？
118 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 11:48:34 ]: どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの？
16bitに無理にしたかった弊害がどこまでも付いて回る
今なら24bitなり32bitなりのコードで何の問題もなかった。
ほんの５年待てばよかったのにね。
119 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 12:16:54 ]: 何言ってるんだろね。こいつは。

>どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの？
文字コードから言語を選択する翻訳ソフトってアホだろ。
自動判定するとしても、使われている文字の種別で判定するだろ。

>16bitに無理にしたかった弊害がどこまでも付いて回る
一文目と文章が繋がってなく唐突で、
何が言いたいのか、根拠は何か、さっぱりわからん。

>今なら24bitなり32bitなりのコードで何の問題もなかった。
24bitは別の問題があるし。

>ほんの５年待てばよかったのにね。
「何を」「どの時点から」5年待てばよかったのかさっぱりわからんな。
120 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 12:20:56 ]: >使われている文字の種別で判定するだろ

ってどうやるの？
121 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 12:25:07 ]: >>119
>>99 の話じゃない？

バベル倒壊
・・・
　もう一つ、問題なのは、言語指定の仕組を文字コードレベルから排除してしまったことです。
ISO 2022や DIS 10646 1.0では、コードを見るだけで、それがどこの国の文字かを識別することができます。
それはアルファベットの「a」が、英語領域、フランス語領域、ドイツ語領域等々に重複して登録してあるから
なのですが、そんなことをしていたら16bit単一平面に全世界の文字を詰めこむことはできません。
言語指定などは必要なく、それよりも16bit単一平面におさめる方がメリットがある、というのが当時の
Unicodeの考え方だったのです。
122 名前：デフォルトの名無しさん [2007/05/03(木) 12:50:46 ]: Unicodeって多言語を扱う一部の人のためのものではないの？
自国語だけで足りてる人にも使わせようとしてるのはなぜ？
123 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 12:55:36 ]: >>120
asciiしか使われて無いなら英語とか。
文字コード判別より簡単だろ。

>>122
アプリの多言語化は一部の人だけの問題じゃないだろ。
124 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:11:52 ]: >>123
ウニコードの話してるんだろ？　なんでasciiの話が出るんだ？
EUC-JP なら日本語と判るのに
ウニコードだと基本ラテンが続いてるだけじゃどこの言葉か判らんだろ？
125 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:15:17 ]: ＞　アプリの多言語化は一部の人だけの問題じゃないだろ。

そう。一部の人だけの問題じゃないのに、一部、
特にＭ＄とシリコンバレーが利益率を上げる為に必要と突っ走ったのが
126 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:16:42 ]: 何語かを考えないで全て等しく文字として扱うための仕組みがUnicodeだろ
どこの国の文字かはコードポイントで判断すればいいだけ
127 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:35:36 ]: そのコードポイントでどう判断するんだ？
128 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:40:50 ]: JIS X 0208でもＡとΑとАはコードポイントで何文字か区別つくっしょ
129 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:42:09 ]: >>124
>ウニコードの話してるんだろ？　なんでasciiの話が出るんだ？
Unicodeの話だろ？
ascii範囲だけが多く使われていたらだよ。わかれよ。
Πが使われていたらロシアとかだよ。わかれよ。
130 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 13:48:30 ]: ascii　ってのは　基本ラテン文字の事だろ？
code.cside.com/3rdpage/jp/utf-8/Bacic_Latin.html

だったら、どうしてコレだけで英語だとわかるんだ？
131 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:02:01 ]: 完全に分かる分けないだろ。
後は単語で判別だわな。
132 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:02:25 ]: >>117
Pascal string と C string。
133 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:09:18 ]: >>132
Pascal stringって、文字列の先頭に文字の長さが格納されてるってもんじゃないの？

なんでPascal stringだとUTF-16マンセーになるか、全然説明になってないよ。
134 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:09:49 ]: 標準関数自体が今となっては問題の種な訳だが。

strsafe.h で追加された文字列操作関数について
ir9.jp/prog/ayu/strsafe.htm
135 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:13:23 ]: kono bunshou ha nihon-go desu.
136 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 14:53:41 ]: >>124
EUC-JPの半角英数だから日本語と決めつける方がどうかしてる
コメントに日本語が使われてるC言語のソースの単語は全部日本語か?
そもそもISO-8859-1の時点ですでに欧州の文字統一しまくりなわけだが?
137 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 15:11:27 ]: >>134
バッファオーバーフローは、古い関数だからおこるの？違うだろ。

なんであの会社は作り直しを奨励するようなことをやりたがるの？
仕事を増やすためじゃないの？
138 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 15:24:04 ]: このスレと文字コード総合スレの違いは?
139 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 15:29:19 ]: >>137
古い関数だと間違いやすく、新しい関数だと間違えづらいだろ？あってるだろ。

>なんであの会社は作り直しを奨励するようなことをやりたがるの？
古いC関数は使わないってのはもう常識なのに…
お前何十年と情報から隔絶されてたんだ…

>仕事を増やすためじゃないの？
逆逆。古い関数使うお前のようなバカの尻拭い仕事を減らすため。
140 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 15:37:53 ]: >>139
>古い関数だと間違いやすく、新しい関数だと間違えづらいだろ？あってるだろ。
何の話をしてるのかね？関数名を間違えるのかね？
「間違いが起こりやすく」だろ？日本語でおｋ。

>古いC関数は使わないってのはもう常識なのに…
常識なんつーのは、所詮、てめーの知識でしかねーんだよ。
軽々しく常識なんて単語使うな。
お前は、動いているプログラムを変更するが大好きなのか？
それこそ、お前のようなバカの尻拭い仕事をさせられるぜ。
141 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 16:04:49 ]: >>133
nullターミネートじゃないからUTF-16で間に0x00が入っててもそのまんま
扱えるってことじゃないの？
142 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 17:09:13 ]: >>140
バカかお前。動いているプログラムを変更しろなんてダレが言った？

これから間違えにくい関数を用意したら、
>なんであの会社は作り直しを奨励するようなことをやりたがるの？
>仕事を増やすためじゃないの？
こんなバカなこと言うアホは死んでね^^

>何の話をしてるのかね？関数名を間違えるのかね？
はぁ？お前の脳内では「関数名を間違える」としか補完できないの?
「使い方を間違える」とかあるだろ。ホントバカだねお前ｗ

「「使い方を間違える」はおかしい」とか言い出したらバカ確定なw
バッファをオーバーするような「使い方は」「おかしい」から。
143 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 17:24:43 ]: すいません、もうちょっと高度な話題でケンカしてもらえますか
144 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 17:33:42 ]: ハンドアセンブル最強
145 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 18:04:08 ]: 理由を言わないといけないわけだが・・・？最強だけ言われても納得するのはどんだけ・・・・
146 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 18:12:03 ]: 諦めろ。　叫んだ方の勝ちだ　
147 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 19:43:27 ]: >>142
>バカかお前。動いているプログラムを変更しろなんてダレが言った？
…作り直しを推奨する…。作り直し。新規の物に作り直しとは言わない。

>これから間違えにくい関数を用意したら、
用意しても全く構わないが、
#define等で旧式と同じようにも使えるようにするもんだろ。
それをしないから文句言ってんだ。

>「使い方を間違える」とかあるだろ。
予想も出来なかったわ。ま「使い方を間違える」なんて考える馬鹿が、あのs付きを有り難がるわけだ。
しかも、デフォルト設定。
M$も、オーバーフローも考慮できない馬鹿は、放置すりゃいいのに。
148 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 20:10:56 ]: 放置して叩かれるのはWindowsですから。
149 名前：デフォルトの名無しさん mailto:sage [2007/05/03(木) 23:21:06 ]: >>147
msdn2.microsoft.com/ja-jp/library/ms175759(VS.80).aspx
Visual C++ 2005の場合では、常に使える訳ではないが、
従来の関数がそのままセキュリティ強化版の関数呼出になるようにできる
_CRT_SECURE_CPP_OVERLOAD_STANDARD_NAMESというマクロがある。

もっとも、C++限定なので、>>134のページと同じく、
そもそもC++ならクラスでカプセル化しろよということになるのだが。
150 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 00:11:02 ]: >>124
>EUC-JP なら日本語と判るのに
確かにEUC-JPなら日本語だけど、その前に
あるバイナリ列がEUC-JPであるとどうやって判断するんだ？
ISO-8859やEUCであることはわかっても
どこの国のかは単純には判断できないだろ
151 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 10:34:29 ]: >>129は世界には言語が５つくらいしかないとでも思ってんのか？
例えば、英語とインドネシア語はどうやって判別するんだ？ｗ　統計的手法とか言うなよ。お前の発言と矛盾するからな。
ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの？
152 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 11:00:39 ]: っ地球上の3人に1人はちうごく人
153 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 11:34:10 ]: インドも恐ろしい。下手すると、世界の現行文字の３分の１くらいはインド１国で占めかねない。
154 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 12:52:20 ]: お前ら言語タグ使えよ。
155 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 13:33:44 ]: > ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの？
それはEUC-JPでも全く同じように問題なわけで
文字コードで言語判別しようとするのがそもそもの間違い
156 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 13:58:05 ]: 「日本語をアルファベットで表記する」なんていうこともあるし、
言語とスクリプト(日本語では「用字」だっけ?)も分けて考えないといかん。
157 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 14:02:25 ]: yorosikuと夜露死苦と紐育と上海はそれぞれ何人の何語の何文字なのかというやつだな。
158 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 17:33:09 ]: This site is Japanese only.
と英語で書いてある日本語サイトとはこれいかに
159 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 17:58:11 ]: Ｓｏｒｒｙ　Ｊａｐａｎｅｓｅ　ｏｎｌｙとか
160 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 18:11:29 ]: 哀れな日本人のみ利用可能
161 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 18:19:31 ]: しかも全角
162 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 20:10:22 ]: たまには縦倍角・横倍角・４倍角も思い出してあげて
163 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:08:28 ]: フォントの拡大縮小が自由にできなかった時代の遺物ですね
テラナツカシス
164 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:11:07 ]: 半角全角もあぼーんしてくれ
165 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 21:16:01 ]: 半角カナは組み込みでまだ使ってます
Unicode？なにそれ？

炊飯器で使われるようになったらUnicode勝利宣言してもいいかな
166 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 22:05:58 ]: そこに全角文字、マルチバイト文字はあるのか？
167 名前：デフォルトの名無しさん mailto:sage [2007/05/04(金) 23:38:55 ]: 笑園漫畫大王
168 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 00:05:38 ]: This Home Page is Link Free !
169 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 09:05:28 ]: This Home Page is Link GPL!
170 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 11:53:34 ]: This Home Page is Open Source.
171 名前：デフォルトの名無しさん mailto:sage [2007/05/13(日) 17:05:06 ]: 「私のために争わないで」文字コードのUTF8さん、自殺 : bogusnews
bogusne.ws/article/41580267.html

ｸｿﾜﾛﾀ
172 名前：デフォルトの名無しさん mailto:sage [2007/05/13(日) 17:18:03 ]: ネタにマジレスするのもアレだがUTF8とCP932の年齢がおかしくないか?
173 名前：デフォルトの名無しさん mailto:age [2007/05/17(木) 13:33:45 ]: アスキーとアンジーの違いは？
174 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 13:49:36 ]: >>173
JIS と JIS X 0201 の違いを聞いてるようなもんかな
175 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 14:16:28 ]: ？
176 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 14:29:07 ]: UTF-8
と
UTF8
の
どっちが正しい？
177 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 16:40:25 ]: 前者
178 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 19:01:44 ]: どっちも正しい
179 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 19:18:30 ]: >>174
JISじゃなくてJSAだろ。
180 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 19:42:29 ]: >>176
MIME charset名としては前者
181 名前：デフォルトの名無しさん mailto:sage [2007/05/17(木) 19:49:39 ]: ISO/IEC 10646の表記も、Unicode Bookの表記も前者。
182 名前：デフォルトの名無しさん mailto:sage [2007/05/19(土) 05:55:00 ]: >>177-181
沢山回答頂きありがとうございます
MySQLを使っていてデフォルトを
Latin1からUTF8に変えたんですが
こいつはUTF-8じゃなくてUTF8と
書かないといけないみたいで
なんで2種類あるのかなぁと
183 名前：デフォルトの名無しさん mailto:sage [2007/05/19(土) 07:43:53 ]: ハイフンはトークンの区切りになるからでしょ。
184 名前：デフォルトの名無しさん mailto:sage [2007/05/29(火) 20:09:42 ]: シフトジスは shift-jis
だけど
ジスは iso-2022-jp

こういったので迷うのは俺だけ？
185 名前：デフォルトの名無しさん mailto:sage [2007/05/29(火) 20:29:25 ]: >>184
ｋｗｓｋ
186 名前：デフォルトの名無しさん mailto:sage [2007/05/29(火) 20:47:39 ]: e-words.jp/w/Shift20JISE382B3E383BCE38389.html
e-words.jp/w/ISO-2022-JP.html

.NETのエンコードの話なんだけど、ジスコードの規格っていろいろあって、
iso-2022-jp 日本語 (JIS)
csISO2022JP 日本語 (JIS 1 バイトカタカナ可)
iso-2022-jp 日本語 (JIS 1 バイトカタカナ可 - SO/SI)
迷うよな
187 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 00:17:09 ]: いわゆるシフトJISだってShift_JIS, Shift_JIS-2004, CP932 (Windows-31J)と種類豊富
大体CP932以外使わないけどな
188 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 00:20:07 ]: WEBとかエンコードの柵が強いからいやだなぁ・・・
もう慣れたけど、うっかりで文字が化けたりする敏感なの何とかしてほしいな
189 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 00:33:06 ]: Unicode以外使ったら罰金。
190 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 00:38:27 ]: >>189
じゃぁ、まずシフトJISで書き込みを行った >>189 が率先して
UNICODEコンソーシアムに罰金を払ってください。
191 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 02:45:57 ]: 俺専用コード

ロリコードとかだめっすか？
192 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 03:11:59 ]: >>191
ぷにコード(実在する)でも使ってなさい
193 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 07:31:56 ]: その括弧がきは馬鹿っぽく見える
194 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 07:40:08 ]: そういう演出は必要さ。　首相の「ザンキにたえない」発言と同じ。
195 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 08:41:11 ]: 「ザンキにたえない」ってどういう意味なん？
196 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 08:46:01 ]: www.asahi.com/politics/update/0528/TKY200705280458.html
＞首相周辺は「こういう結果に至ったことへの自らの責任を、この言葉に込めた」と解説する。
197 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 10:29:13 ]: スクリューパイルドライバーの吸い込みを防げないことだろう
198 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 13:14:37 ]: 文字コードが乱用されているのはプログラマーとしてはやりづらい。
いっそのことすべてUnicodeにしてくれれば手間が省けるのにorz
199 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 14:45:29 ]: Unicode自体が何種類もある事態
200 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 15:55:44 ]: すべてUnicodeにしようってのは
そばの出前も会社の通勤も全てトラックを使おう
ってのと同じくらいナンセンス
201 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 16:18:43 ]: そのUnicodeだって、結合文字列・合成済み文字とか、文字列の向きとか
UTF-16のサロゲートペアとか、考え込むネタは尽きないわけで
202 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 18:09:49 ]: 字体の扱いもおかしい
利用は辞退させて頂く
203 名前：デフォルトの名無しさん mailto:sage [2007/05/30(水) 18:34:53 ]: 審議中（AA略
204 名前：デフォルトの名無しさん mailto:sage [2007/05/31(木) 07:56:46 ]: 16bitじゃ絶対無理って最初からわかってたのに、
16bitに無理やり収めようなんて考えて自爆した欧米人は馬鹿すぎ
205 名前：デフォルトの名無しさん mailto:sage [2007/05/31(木) 09:59:32 ]: 8bitで十分だったから16bitにするだけでもビビってたのさ
206 名前：デフォルトの名無しさん mailto:sage [2007/05/31(木) 11:37:56 ]: かれこれ20年になるのか
207 名前：デフォルトの名無しさん mailto:sage [2007/05/31(木) 13:38:31 ]: アメリカに限れば、7bitででも足りてたんだよね？
208 名前：デフォルトの名無しさん mailto:sage [2007/05/31(木) 14:06:20 ]: 5bitでも足りるわな
ttp://www.trans-usa.com/mike/BaudCode.htm
209 名前：デフォルトの名無しさん mailto:sage [2007/05/31(木) 14:58:18 ]: PCのインターフェースもパラレルからシリアルになってきたし、
文字コードも可変長なシリアルに変更しようぜ
210 名前：デフォルトの名無しさん mailto:sage [2007/05/31(木) 16:59:59 ]: それとこれとは訳が違う。
しかも例えが逆だろう。
211 名前：デフォルトの名無しさん mailto:sage [2007/05/31(木) 17:23:43 ]: >>209
つUTF-8
212 名前：デフォルトの名無しさん mailto:sage [2007/05/31(木) 20:31:39 ]: >>201
Unicode「と」他のあらゆるコードを全部相手にするよりはマシ
213 名前：デフォルトの名無しさん mailto:sage [2007/06/01(金) 00:11:51 ]: >>192
残念ながらPunycodeはピュニコードと音訳するのが近い。
214 名前：デフォルトの名無しさん mailto:sage [2007/06/01(金) 05:31:51 ]: うにこーど
ゆにこーど

どっちが正しいですか？
215 名前：デフォルトの名無しさん mailto:sage [2007/06/01(金) 06:57:40 ]: うにっくすとおなじくうにこーどがただしいですよ。
216 名前：デフォルトの名無しさん mailto:sage [2007/06/01(金) 09:39:31 ]: ttp://www.uny.co.jp/
ここも「ウニー」だしな
217 名前：デフォルトの名無しさん mailto:sage [2007/06/01(金) 09:40:30 ]: 日本ウニシス
218 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 08:50:03 ]: ウではじまるとウインドーズみたいで嫌だな
219 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 08:54:13 ]: シャーペンの替え芯売ってるあのメーカってウニと読むのか
220 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 10:19:14 ]: いいえ、三菱鉛筆です。
221 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 12:07:44 ]: ウマ・サーマン？
ユマ・サーマン？
222 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 12:11:32 ]: ウマ・サーマン！
223 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 12:26:54 ]: Unimog
ja.wikipedia.org/wiki/%E3%82%A6%E3%83%8B%E3%83%A2%E3%82%B0
224 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 14:37:17 ]: ウナイテッド・ステイツ・オブ・アメリカ
225 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 14:45:19 ]: 知り合いのヌーヨーカー(w)は「ヤイェヨ」は変わらないけど「ユ」は「ウ」になるって言ってた。
226 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 20:24:27 ]: Nuyork ？
227 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 21:31:38 ]: ewの発音は、元来「ユー」なんだけど、「ウー」に化けているのでnewが「ヌー」になる。
228 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 21:39:16 ]: ４へぇ～
229 名前：デフォルトの名無しさん mailto:sage [2007/06/02(土) 22:47:15 ]: 最初 knew を /nu:/ と発音されたときはさっぱり理解できんかったなあ。
230 名前：デフォルトの名無しさん mailto:sage [2007/06/08(金) 10:40:47 ]: TRONコードに統一しようぜ
231 名前：デフォルトの名無しさん mailto:sage [2007/06/09(土) 02:54:12 ]: TRONコードは(少なくとも現在の実装は)日本のことしか考えてません
232 名前：デフォルトの名無しさん mailto:sage [2007/06/09(土) 16:03:04 ]: >>230
pc11.2ch.net/test/read.cgi/os/1028526865/7-13
233 名前：デフォルトの名無しさん mailto:sage [2007/06/09(土) 22:50:28 ]: TRONコードに収録されてる文字のグリフはTRON文字収録センターで公開されてるけど
同定のための情報は提供されてないな。それは超漢字という製品に付けて売ってるから
公開できないだろうし
234 名前：デフォルトの名無しさん mailto:sage [2007/06/11(月) 19:41:57 ]: エスペラントでOK
235 名前：デフォルトの名無しさん mailto:sage [2007/06/12(火) 09:50:19 ]: Mi estas tre ĝoja konatiĝi kun vi.
236 名前：デフォルトの名無しさん mailto:sage [2007/06/12(火) 23:33:50 ]: >>235
これエスペラントなの？
最初スペイン語かと思った。
237 名前：デフォルトの名無しさん mailto:sage [2007/06/12(火) 23:37:08 ]: Mi estasでI amなのは覚えてる。
この辺の語彙はラテン語系から採用してるんだよな。
238 名前：デフォルトの名無しさん mailto:sage [2007/06/12(火) 23:40:10 ]: あ、やっぱりそうなんだ。
239 名前：デフォルトの名無しさん mailto:sage [2007/06/13(水) 00:05:44 ]: だから印欧語族の連中には割と覚えやすいんだよ
日本語とか圧倒的に不利
ある意味Unicodeと一緒だな
240 名前：デフォルトの名無しさん mailto:sage [2007/06/13(水) 00:07:46 ]: 利用者が単語登録してもいいところとかね。
241 名前：デフォルトの名無しさん mailto:sage [2007/06/13(水) 06:27:32 ]: ところでかんじんのUnicodeとUTF-8の違いがまだ
のべられてないよね
242 名前：デフォルトの名無しさん mailto:sage [2007/06/13(水) 09:58:11 ]: それは1桁で終わったんじゃないのか
243 名前：デフォルトの名無しさん mailto:sage [2007/06/14(木) 17:39:54 ]: インディアン嘘ツカナイ
244 名前：デフォルトの名無しさん [2007/10/05(金) 16:28:22 ]: 馬鹿を見ることになるぞ
245 名前：デフォルトの名無しさん mailto:sage [2007/10/06(土) 00:23:04 ]: 約四ヶ月ぶりのレスがそんなでは、目が点になっちゃうだろ。　もうすこしなんかかけ。
246 名前：デフォルトの名無しさん mailto:sage [2007/10/06(土) 04:33:30 ]: けっきょくいまだにスレタイトルの疑問をだれもがなｔっとくできるほどうまく解説した人があらわれない
247 名前：デフォルトの名無しさん mailto:sage [2007/10/06(土) 11:19:13 ]: >>246
>8で充分だろ。Unicodeの符号化方式の一つがUTF-8。
248 名前：デフォルトの名無しさん mailto:sage [2007/10/08(月) 01:28:21 ]: Unicode: 人々
UTF-8: 名前一覧
249 名前：デフォルトの名無しさん mailto:sage [2007/10/09(火) 18:44:37 ]: >>247
いや、Unicodeは単なる文字集合（レパートリ）ではなく、
あくまでも符号化文字集合だろ。
250 名前：デフォルトの名無しさん mailto:sage [2007/10/09(火) 19:20:19 ]: Coded Character Set: Unicode
Character Encoding Form: UTF-8, UTF-16, UTF-32
Character Encoding Scheme:
UTF-8, UTF-16, UTF-16BE, UTF-16LE, UTF-32, UTF-32BE, UTF-32LE
251 名前：デフォルトの名無しさん mailto:sage [2007/11/12(月) 04:35:06 ]: どうして
UNICODE って UNI - CODE なはずなのに
何種類もあるのはなぜ？
252 名前：デフォルトの名無しさん mailto:sage [2007/11/12(月) 10:19:13 ]: >>251
どうして>251の日本語がおかしいのはなぜ?
253 名前：デフォルトの名無しさん mailto:sage [2007/11/13(火) 08:37:12 ]: 雲丹には糞という意味もあるんだぜ
254 名前：デフォルトの名無しさん mailto:sage [2007/11/13(火) 15:09:13 ]: バージョン違いを除けば、文字集合は常に唯一。
符号化の方法が色々あるだけ。
255 名前：デフォルトの名無しさん mailto:sage [2007/11/13(火) 20:32:27 ]: ハングル……いやなんでもない
256 名前：デフォルトの名無しさん mailto:sage [2007/11/13(火) 21:11:28 ]: UCS-2 ?
257 名前：デフォルトの名無しさん mailto:sage [2007/11/16(金) 02:58:10 ]: UNICODE

UNCODEI
258 名前：デフォルトの名無しさん mailto:sage [2007/12/17(月) 18:06:40 ]: hjfjgfjgj

ktykytk

hjkghkkg

j,jhjhklkgh

urtutrtu

jjkfjfg
259 名前：デフォルトの名無しさん mailto:sage [2008/02/04(月) 14:32:42 ]: unicodeとutf-8の違いは
50音と平仮名の違いと一緒だろ
260 名前：デフォルトの名無しさん mailto:sage [2008/02/04(月) 15:59:19 ]: utf-16が片仮名？
261 名前：デフォルトの名無しさん mailto:sage [2008/02/04(月) 16:08:46 ]: 片仮名でもローマ字でもなんでもいいよ
一つ一つマッピングする意味は無いと思うが
262 名前：デフォルトの名無しさん mailto:sage [2008/02/05(火) 23:56:09 ]: いや一緒とは思えないから
263 名前：デフォルトの名無しさん mailto:sage [2008/02/06(水) 08:04:57 ]: 50音は平仮名でも片仮名でもないだろ。
読み方を定義したのが50音で、それに割り当てるのが平仮名であったり
片仮名なんだから。
264 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 01:43:44 ]: 世界中の文字を表わせる Unicodeってのを定義しました。

じゃあそれを2オクテットで表現しよう→UCS-2

でも他の文字コードと互換性ないしいちいち全部に2オクテット使うのは不便だから
よく使う文字を1オクテットに対応させて使わないのは2,3,4オクテットに分けて符号化しよう。
これでASCIIコードと互換性できたしよく使う文字は少ないオクテットで表現できる。→UTF-8

でもUnicodeって2オクテットじゃ表現しきれなくなってます。
じゃあ4オクテット(実際は31ビット）使おう。→UCS-4

4オクテットじゃ長すぎるからよく使う文字を以下略で分けて16ビット符号化しよう。
UCS-2の範囲はそのまま表わそう、不足しているUCS-4の部分はあんまり使わないし符号2つを組み合わせて32ビットで表わそう。
内部がややこしくなったけどUnicode全部表現できるからいいよね。→UTF-16

っていう感じの認識しかないな俺は。
265 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 02:55:54 ]: どっちかというとこんな感じ。

32ビット化してUCS-4/UTF-32作った。
けど、今までのUCS-2なシステムどうしよう？
じゃあマルチバイトっぽいことしよう→UTF-16
266 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 05:12:00 ]: 16ビットで世界の文字を網羅出来るなんてマジで思っていたのかね
267 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 12:30:06 ]: １０年も昔の環境じゃできるだけリソース消費を抑えたいってのはわかるし
３オクテットじゃ扱いにくいし４じゃ多すぎるしで話がまとまらなかったんだろうな。
268 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 21:05:02 ]: 単純に中国で既にコード化されてる分で漢字の量はOKとか考えてたんじゃないか
269 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 21:49:38 ]: そもそもそのやり方じゃ足りねえと文句付けたのは中国
270 名前：デフォルトの名無しさん mailto:sage [2008/02/07(木) 23:28:49 ]: 増やす気まんまんだったわけだな
271 名前：デフォルトの名無しさん [2008/02/12(火) 06:48:24 ]: UCS-2とUTF-16の違いがわからない
272 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 08:14:34 ]: サロゲートペアでの拡張があるのがUTF-16、それがなくて16ビットだけなのがUCS-2
273 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 10:54:25 ]: WindowsXPのメモ帳で保存しようとすると
アンジーがデフォルトになってるんだけどシフトジスってのがみあたらないんだが。でも日本語ドキュメントがうまく保存される。
つまり、
アンジー = シフトジス
だと思う。
274 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 17:08:33 ]: メモ帳の選択肢のANSIというのは、
現在使用中の言語のANSIコードページの文字コードということ。
日本語の場合、それはコードページ932、つまりMicrosoftのShift_JIS。

言語の設定を変えれば、当然ANSIで保存するときの文字コードも変化する。
275 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 17:30:56 ]: >>274 そういう意味だったのか !
276 名前：271 [2008/02/12(火) 23:05:35 ]: >>272
では、Windowsの内部コードというか、hogehogeW系のUNICODE APIは、
UCS-2かUTF-16なのでしょうか？
277 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 23:10:22 ]: Windows 2000以降はUTF-16
それ以前はUCS-2(つまりサロゲートに対応していなかった)
278 名前：271 [2008/02/12(火) 23:49:03 ]: サロゲートがいまいちわからん
2バイトで足りないから、上位、下位にわけたってことは、
UCS-2が2バイトとで、サロゲートのあるUTF-16は上下合わせて4バイトってこと？
279 名前：デフォルトの名無しさん mailto:sage [2008/02/12(火) 23:58:17 ]: そうだよ
280 名前：デフォルトの名無しさん mailto:sage [2008/02/13(水) 00:04:43 ]: >>278
単に未使用領域の2文字分を組み合わせて使ってUCS-2に無い分の文字を表わそうというだけの話だから
・UCS-2 → そもそもその文字が無い
・UTF-16→ その部分だけ4バイト。UCS-2にもある文字は2バイト
という事になる
281 名前：271 [2008/02/13(水) 04:00:14 ]: >>280
なるほど足りないところだけ4バイトか
つまり、可変長なのね。
2バイト固定かと思ってたよ＞UTF-16
へえ
282 名前：デフォルトの名無しさん mailto:sage [2008/02/13(水) 10:43:50 ]: へえへえへえ
283 名前：デフォルトの名無しさん mailto:sage [2008/02/13(水) 23:46:44 ]: >>281
そう。だからUTF-16の２バイトの部分がUCS-2と同じっていうメリットがあるんよ。
４バイト部分はあんまり使わない部分だからサロゲートペアっつう２つ合わせる方式で表わしてる。
284 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 03:42:37 ]: UCS-2=文字コード、UTF-16＝文字エンコーディング
じゃなかったっけ？

UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。
285 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 08:16:40 ]: UCSは文字集合。
UTFはエンコーディング。

文字コードというあいまいな語はこういう議論では避けるべき。
286 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 08:20:31 ]: >UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。

Unicodeではエンコーディングをencoding formとencoding schemeの二段階に
分けていてそのへんややこしいことになってる。
287 名前：デフォルトの名無しさん [2008/02/14(木) 10:39:55 ]: 　国試では、｢UNICODEとは、全ての文字体系が収まる"2byte"の文字コード｣というのが正解答だったりする件。
いつからバイト長が固定されたんだよタコ。
288 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 10:48:36 ]: 3.0未満のUnicodeかよorz
289 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 11:09:02 ]: 2byteだったら1.xじゃない？
290 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 12:55:03 ]: それぞれの構造が単純じゃないから説明するのが面倒だな。
291 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 14:52:35 ]: >>284
ユニコードに関係した規格として、次の2つがある。
ユニコードコンソーシアムの「Unicode」。
ISO/IECの「ISO/IEC 10646 Universal Multiple-Octet Coded Character Set」。

前者の規格に含まれる符号化（エンコーディング）がUTF-8、UTF-16、UTF-32など。
後者の規格に含まれる符号化がUCS-2とUCS-4、UTF-8など。

UTF-8が両方に収録されているけど、同一と思って差し支えない。
292 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 15:26:33 ]: >>284

UCSは文字集合。

そしてその文字集合から2バイトで表せる部分を切り取ってきて
そのまんま使うのがUCS-2

それを拡張して使用できる文字範囲を広げたのがUTF-16

UTF-8は別のアプローチの符号化方法
293 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 21:00:42 ]: >>289
それ以前に1バイト=8ビットとは限らない
294 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 21:04:49 ]: どういう場合に１バイト８ビットじゃなくなるの？
295 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 21:13:58 ]: マシンがPDP-11だったりした場合
296 名前：デフォルトの名無しさん mailto:sage [2008/02/14(木) 21:26:35 ]: JIS X 0208/0213の規格名ではわざわざ「7ビット及び8ビットの…」と言ってるだろ。
1バイトが8ビットとは限らないからだ。
それに対してUCSは>>291にあるとおり"Universal Multiple-Octet..."で
8ビットであることを明確化している
297 名前：デフォルトの名無しさん mailto:sage [2008/02/15(金) 00:08:33 ]: 1バイト≠8ビットな処理系でUTFを扱うようなケースはほぼないんじゃない？
298 名前：デフォルトの名無しさん mailto:sage [2008/02/15(金) 07:07:52 ]: UTF-7もdeprecatedになったしな
299 名前：デフォルトの名無しさん mailto:sage [2008/02/15(金) 10:17:45 ]: UTF-9の時代だろ
300 名前：デフォルトの名無しさん mailto:sage [2008/02/15(金) 10:50:34 ]: ｴｲﾌﾟﾘﾙﾌｰﾙにはまだ早いぜ
301 名前：デフォルトの名無しさん mailto:sage [2008/02/16(土) 01:39:08 ]: >>295
PDP-11 は 16bit マシンだぞ．DEC-10/20（36bit マシン）のことか？
302 名前：295 mailto:sage [2008/02/16(土) 08:58:39 ]: すまん

>>301 それです
303 名前：デフォルトの名無しさん mailto:sage [2008/02/16(土) 11:03:02 ]: Latin-1の設定になってしまってるMySQLにUTF-8ぶっこんでもちゃんと動くんだけど
無理にset character set utf8してアクセスするとかえって文字化けしてしまう
そのままつかってたほうがいい？
304 名前：デフォルトの名無しさん mailto:sage [2008/02/16(土) 11:30:47 ]: MySQLのバージョンは?
4バイト以上のBMP外を表すシーケンスに対応したのは6.0以降だから
それより古いバージョンではLatin-1ということにして
変換は自分で行うとかの小細工が必要
305 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 01:56:53 ]: きっと、PDP-8の12bitなんですよ（を
306 名前：デフォルトの名無しさん [2008/02/17(日) 09:46:31 ]: Unisys機(旧UNIVAC系の古い汎用機)では、
1文字=6/8/9/12ビットと、4通りあったりする。
（1ワード=36ビットのマシンの生き残り）
307 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 13:41:02 ]: ユニコードのインディアンて？
308 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 14:54:58 ]: >>307
インド人です。アメリカ原住民のことは、ネイティブアメリカンと呼んでください。
309 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 15:19:14 ]: 原住民的にはむしろインディアンの方がいいらしいけど
310 名前：デフォルトの名無しさん mailto:sage [2008/02/17(日) 15:59:19 ]: エンディアンの語源を考えるとインディアンと表記しても間違いじゃないなぁ。
311 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 02:18:31 ]: 9bitはPDP-10だろ。過去にかなり真面目に議論されたし、ちゃんとRFCも出てるぞ。
www.rfc-editor.org/rfc/rfc4042.txt
>306の言うとおり、昔は１バイト6bitだってあった。ISO646だって、7bit の他に6bit版の文字コードも
規定されてたし。近年の改正で6bit文字コード規定は残念ながら消滅してしまったけどね。
312 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 08:36:24 ]: みかんはリトルエンディアンの方が白い筋がよく取れるそうだ。

でも皮が硬いときはビッグエンディアンかなー。
313 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 12:17:51 ]: シフトジスとMSPゴシックは違うものだろうか？
314 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 12:29:34 ]: >>287
Unicodeは規格/標準の名前なのになあ。
検索とか比較とか符号化とか、文字に関する処理について書いてある。
www.unicode.org/glossary/#unicode
www.unicode.org/faq/basic_q.html#a
315 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 12:30:44 ]: >>291
付録CにUCS-2, UCS-4について、
ISO 10646との関係が書いてありますね。
316 名前：デフォルトの名無しさん mailto:sage [2008/02/20(水) 22:15:13 ]: >>313
全然別物。
Shift_JIS = エンコーディング
MSPゴシック = フォント名
317 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 05:59:06 ]: 文字コードをMS明朝で保存するのはどうやる？
318 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 06:12:40 ]: >>317
仕事の都合上、いやいやPC使ってんなら会社で聞け。
そうじゃないなら、もっと基礎から学び直せ。
319 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 09:06:33 ]: >>317
おまえはどこのPython使いだ？
320 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 15:21:52 ]: あなたはお風呂に入るとき
みかんから食べますか？
それとも山に登りますか？
321 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 16:31:47 ]: VB.NET2005だとまだエンコードクラスにMSPゴシックがないけど
できるだけ早く対応して欲しい。
322 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 20:25:57 ]: つまらないから帰れ
ネタじゃないならなおさらさっさと帰れ
323 名前：デフォルトの名無しさん mailto:sage [2008/02/21(木) 21:59:36 ]: IDEのフォントをＭＳＰゴシックにすれば解決？
324 名前：デフォルトの名無しさん mailto:sage [2008/02/25(月) 10:55:59 ]: なんで半角文字の範囲まとまってないんだよファッキン！！
325 名前：デフォルトの名無しさん mailto:sage [2008/02/25(月) 11:04:20 ]: すみません、取り乱しました。
326 名前：デフォルトの名無しさん [2008/03/07(金) 11:56:50 ]: unicodeに含まれる文字には番号はついてるんでしょ。
どうしてそれは使えないの？
327 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 11:59:19 ]: >>326
どこからの話の流れか分からないが、
それ（コードポイント）をそのまま使う符号化には
UTF-32, UCS-4, UCS-2がある。
328 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 12:55:57 ]: ありがとさんです。
329 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 15:58:57 ]: UTF-32, UCS-4, UCS-2はどう違うの？
330 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 16:08:50 ]: UTF-32/UCS-4
1文字32ビット。
現在では2つとも同じ中身。
どの規格に含まれているかというだけの違い。>>291に書いてある。

UCS-2
1文字16ビット。U+10000以上のコードポイントを持つ文字は表現できない。
331 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 16:13:56 ]: UTF-32 は U+110000 以上は無いんじゃ？
332 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 16:16:36 ]: もうめんどくさいから今までの全部廃止してUTF-256とかに統一して欲しい
333 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 16:55:24 ]: まったくだな
334 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 18:30:27 ]: バイトオーダーも固定して64byteぐらいにしておけばいい。
335 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 18:50:01 ]: そうだね余裕がある事はすばらしい事だね。
336 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 19:03:36 ]: アルファベット件の馬鹿共のせいで混迷しているのだ
337 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 19:08:01 ]: そういやIPAとUnicodeの対応表みたいなのってないの？
338 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 20:25:10 ]: webos-goodies.jp/archives/51072404.html
339 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 20:34:37 ]: Microsoft Visual UTF-2008 Professional Edition
340 名前：デフォルトの名無しさん mailto:sage [2008/03/07(金) 21:22:58 ]: >>331
UCS-4もU+110000以上は使わないことになった。
>>330に「現在では」と書かれているのはそのへんの含みがあると思われる
341 名前：デフォルトの名無しさん mailto:sage [2008/03/11(火) 09:39:54 ]: Unicode識別子についての日本語資料ってない？
342 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 15:18:27 ]: UTF-8にBOMついてるとまともに動かないソフトが多すぎて嫌すぎる
もっと細分化して、細かく細部まで決めてくれないとどーしよーもないな、実際
343 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 15:41:24 ]: アンジーってサイモンとガーファンクルだったような
344 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 19:21:59 ]: UTF-8ってBOMつけるんだっけ？
345 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 19:32:18 ]: RFC 3629 の 6. を見よ
346 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 19:37:18 ]: なる、つけるべきではないのか。
347 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 19:43:49 ]: いや、ついていても受け入れるべき
MySQLみたいにそもそもUTF-8を理解してない馬鹿げたソフト多すぎ
348 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 20:25:36 ]: >>346 一般には違う。
付けるべきじゃないのは、UTF-8であることが上位層で規定されている場合。
349 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 20:28:49 ]: BOMはエンコードを判別するためのものじゃないべさ。
Byte Order Markなんだから。
350 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 20:52:02 ]: つまりメモ帳のあの動作は正しいわけか
351 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 21:18:54 ]: >>349

まぁ元々はそうだったんだけど UTF-8に於いてはUTF-8であることを
あらわすシグネチャという位置付けにされた。

まぁ1バイト文字で済む国はシグネチャなくても全然問題ないんだろうけど
マルチバイト文字使ってる国ではシグネチャない場合は、エンコード誤認の
可能性があるからな。　UTF-8決めうちのソフトならいいんだけど
352 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 21:20:13 ]: 勝手に追加するのはどうかと思うが、テキストファイルの頭にBOMついてるからって
誤動作する方が確実におかしい、無視すべき
353 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 21:24:25 ]: #!/usr/bin/env hogehoge

とかをBOM付きで保存すると死ぬって本当？
354 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 22:37:41 ]: ASCIIにしか対応していないものから見たらBOMはゴミ以外の何者でもないから
355 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 22:41:24 ]: UTF-8対応してるといいながら駄目なソフトが多いって話だろ？
356 名前：デフォルトの名無しさん mailto:sage [2008/03/12(水) 23:30:28 ]: ASCIIだったらそもそもBOMは無いだろ
そしてASCII範囲外に対応してるならBOMあっても問題ないし
357 名前：デフォルトの名無しさん mailto:sage [2008/03/13(木) 02:15:31 ]: 俺はドラゴンボールが揃ったらBOMを廃止する。
それからDIS 10646.1、いやごめんなんでもない
358 名前：デフォルトの名無しさん [2008/03/13(木) 03:32:52 ]: ＢＯＭよりスーパー写真塾の方がエロイよな。
359 名前：デフォルトの名無しさん mailto:sage [2008/03/13(木) 05:19:48 ]: むかしのエロ本のオンナはそのままのかおだが
いまのエロ本は整形オンナばっかり
360 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 20:31:17 ]: UTF-8にBOMなんか辞めようと
そもそも、BOM=Byte Order Mark で、UTF-16、UCS-2、UTF-32、UCS-4なんかで使うものだし
そいつ(BOM)をそのままUTF-8変換した値がBOMもどきだし

Visual Studio 2005なんかはUTF-8でソース管理出来るみたいだな
今のPRJはLinuxでUTF-16使ってるから文字列は全てリソース扱い、っつかASCIIだろうとそうすべきではあるけど
ソースコードにUTF-16をhexでどかどか書いても見づらいだけだ
だけど、データ管理はUTF-16のがいい。サロゲートペアなんて使うことはまず無いし、１文字=2バイトと見なして差し支えなければ楽でいい
UTF-8は最近ISO 10646だっけ、RFCだっけ、あれUnicode.orgだっけ？規格変更で1～4バイトの可変長になって、それとともにUTF-32の領域も狭くなったみたいだが

XMLなんかはエンコーディング付いてるから問題ないし、ソースもSJISやEUCさえなんとかなれば別に問題らしいものはない気がする＞UTF-8
UTF-8自体ASCIIコンパチだしね
361 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 20:59:22 ]: UTF-32は最初からU+10FFFFまでだよ
362 名前：デフォルトの名無しさん [2008/03/20(木) 21:01:17 ]: お前ら説明下手すぎだろ。
もっと俺にわかるように産業で説明しなさい。
363 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 21:10:47 ]: >ソースもSJISやEUCさえなんとかなれば

これがなんとかならないから　UTF-8にBOMが存在しているんだろうけどね。
364 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:18:25 ]: >>360
>エンコーディング付いてるから問題ないし
そういう場合はBOMを付けるなとちゃんと書いてある
ttp://tools.ietf.org/html/rfc3629#section-6

BOMを付けるのはあくまでもそれがUTF-8と確定できない場合だけだから問題ないだろ
それともエンコード不明のテキストファイルを力技でエンコード推測するのが正しいとでも？
あるいはテキストファイル＝UTF-8として統一するつもり？
Latin-1とかはそうそう無くならないと思うぞ
365 名前：デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:24:46 ]: エンコード不明のテキストファイルを力技でエンコード推測するのが正しい
366 名前：デフォルトの名無しさん mailto:sage [2008/03/21(金) 09:46:07 ]: BOMダセエと思うが、
BOMも処理できないUnicode処理系は氏ねよ。
367 名前：デフォルトの名無しさん mailto:sage [2008/03/21(金) 16:53:25 ]: Chinaってチャイナじゃなくてシナ＝支那だったのね
勉強になった
368 名前：デフォルトの名無しさん mailto:sage [2008/03/21(金) 23:53:53 ]: はい？
369 名前：デフォルトの名無しさん mailto:sage [2008/03/22(土) 00:19:13 ]: いいえちがいます。
370 名前：デフォルトの名無しさん mailto:sage [2008/03/22(土) 01:29:01 ]: チャイナシンドロームってどういういみ？
371 名前：デフォルトの名無しさん mailto:sage [2008/03/22(土) 08:02:56 ]: 何の？　一般的には原子炉のメルトダウン事故の用語だが。
372 名前：デフォルトの名無しさん mailto:sage [2008/03/22(土) 11:18:00 ]: Japanてジパングじゃなくてニッポン＝日本だったのね
勉強になった
373 名前：デフォルトの名無しさん mailto:sage [2008/03/22(土) 14:49:25 ]: 漆器のことだろ？
374 名前：デフォルトの名無しさん mailto:sage [2008/03/22(土) 20:25:36 ]: sorry japanese only.
375 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 00:40:01 ]: かわいそうな日本人専用
376 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 03:26:12 ]: 漆塗りのペニスキャップとか作ると
やっぱりかぶれたりするんだろうか
377 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 03:36:46 ]: 漆塗りの器で唇かぶれた話とか聞いたことないけど。
378 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 09:25:29 ]: 漆がかぶれるのは生(？)の漆だけじゃないかと
379 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 10:50:49 ]: シャープの芯のUniもこれが語源なん？
380 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 12:41:34 ]: ja.wikipedia.org/wiki/%E4%B8%89%E8%8F%B1%E9%89%9B%E7%AD%86

| 国内では「三菱鉛筆」と、旧財閥の三菱グループ各社と混同されないように
| 「uni」（ユニ）のブランドも使っている。「uni」は、英語で「単一の」を
| 表す接頭語「uni」から比類無き品質ということを表したもの。
381 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 13:11:50 ]: 単一はmonoだったよーな
⇔pori

モノ
ジ
トリ
テトラ
382 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 14:04:20 ]: monoもuniも一つという意味
383 名前：デフォルトの名無しさん mailto:sage [2008/03/23(日) 14:11:37 ]: ×pori
○poly

釣りなのかこれは
384 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 09:41:03 ]: ユニークのユニ
385 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 12:14:05 ]: ギリシャ語系のmono, di, tri, tetraと、ラテン語系のuni, bi, ter(tres, tri), quadriの違いだな。
多角形も両方の表現があって、trigon, tetragon, pentagonとするかtriangle, quadrangle, quintangleとするか。
# 尤も、アメリカ辺りだと入り混じっていて、septagon, septangle, heptagon, heptangleのどれも見かけるけど。
## ついでに言えば、polygonに対するラテン語はmultiangleになる筈だけど……
386 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 12:38:42 ]: rectangleは？
387 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 13:10:35 ]: >>386
ラテン語由来。ラテン語にも、rectangulasという言葉があるらしい。英語に直訳すると、right angleになるそうな。
つーか、m-w.comでちょっと調べれば済むことなんですが。
388 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 13:41:24 ]: 都市ガスはtoshi gus だからペリーが運んできたオランダ語っぽい
389 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 13:44:07 ]: トナカイってアイヌ語だったんだな
390 名前：デフォルトの名無しさん mailto:sage [2008/03/24(月) 17:13:23 ]: ラッコもな
391 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 03:23:13 ]: MacのZIP解凍したら濁点や半濁点で文字化けするんだけど
これの変換てどうしたらええの？
392 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 08:26:24 ]: NFCしてください。
393 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 11:01:30 ]: NFDとNFCの違いか。
オレもそれやらかして、Perlのモジュール使って直したなあ
394 名前：デフォルトの名無しさん mailto:sage [2008/03/26(水) 21:32:28 ]: ありがとう
一部元に戻らないトコもあるけど中身が理解できる分には戻せたよ
395 名前：デフォルトの名無しさん mailto:sage [2008/04/10(木) 09:02:55 ]: 結局UTF-8みたいなASCII互換の可変長コードが主流になるんだったら、
80h～FFhをコードページ指定にして、
その後の１～2オクテットをまとまった文字種セットにしとけば、
すっきりしたコードになったのになあ。
396 名前：デフォルトの名無しさん mailto:sage [2008/04/10(木) 22:30:07 ]: 状態持ちはイヤン
397 名前：デフォルトの名無しさん mailto:sage [2008/04/10(木) 22:39:27 ]: それなんてISO 2022?
398 名前：デフォルトの名無しさん mailto:sage [2008/04/12(土) 03:23:48 ]: >>395
Arena-i18n内部コードやん
あれは固定長だけど。
399 名前：デフォルトの名無しさん mailto:sage [2008/04/23(水) 07:54:25 ]: >>367
>Chinaってチャイナじゃなくてシナ＝支那だったのね
あー！そういう意味だったのか。
支那支那っていうから判らんかった。
支那の語源がChinaなのね。
400 名前：デフォルトの名無しさん mailto:sage [2008/04/23(水) 09:52:54 ]: どちらの語源もサンスクリットの同じ単語だそうだが
401 名前：デフォルトの名無しさん mailto:sage [2008/04/23(水) 12:02:46 ]: いくつか説があるようだが
ttp://www004.upp.so-net.ne.jp/teikoku-denmo/html/history/honbun/cina2.html
は「秦」を語源としてるな
まぁJapanもニッポンがジパングを経てジャパンになったんだから
シナとチャイナ位の違いは普通か
402 名前：デフォルトの名無しさん mailto:sage [2008/04/23(水) 13:12:28 ]: 日本の現代中国語読みがリーペンで、マルコポーロが東方見聞録で書いたのがジパング。
この違いがかなりデカい気がするが、どう理解すればよいのやら。
古代中国語で日本をジパングと読む？
403 名前：デフォルトの名無しさん mailto:sage [2008/04/23(水) 22:01:44 ]: ri4ben3は現代普通話でのピンイン
「日」は漢音で"ji" 「本」は呉音で"hong"
404 名前：デフォルトの名無しさん mailto:sage [2008/04/24(木) 02:02:24 ]: 今の日本語で日を「ジツ」と読むのは古い中国語からきてるわけだし。
中国は現代音、中古音、古音と何度も大きな変貌を経ている。特にマルコポーロの時代である
元は中国語の発音が大きく変化した時代の一つ。
405 名前：デフォルトの名無しさん [2008/04/26(土) 03:58:14 ]: 誰もそんな話は聞きたくないし。
ＵＴＦ８とユニコードの違いが聞きたいし。
406 名前：デフォルトの名無しさん [2008/04/26(土) 05:29:15 ]: いやいや
>>401の話は重要だよ。

たとえば天安門。
これは自動的に排除するようにプログラムを組むことが義務付けられていて、守らなければ毒ガスの人体実験されて体を切り刻まれる。

>>401の話は、少なくとも一つのキーワードについてそれをしなくてよいと確認できる根拠だから。
407 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 10:05:46 ]: 聖火リレーで旗を広げようとした人がそれを広げる間もなく大勢の警官に取り押さえられ逮捕されたけど、日本って中国並みに怖いな。
408 名前：デフォルトの名無しさん [2008/04/26(土) 10:26:45 ]: tvde.web.infoseek.co.jp/cgi-bin/jlab-dat/s/216761.jpg
tv.dee.cc/jlab-maru/s/maru1209168412846.jpg

Japanese police suppressed a member of Tibetan human rights group
日本警察によるチベット人弾圧の様子
409 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 10:57:08 ]: >>408
警官の数が異常すぎ。

「たかだか芸能人が怪我するかも」程度なのに洞爺湖サミットの何倍の警官を投入してるんだと。
410 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 11:24:17 ]: それは勘違いだよ。
この場合、芸能人の命の火が消えること以上に、聖火が消えることのほうにピリピリしてるんだよｗ

聖火という「設定」がどんなに馬鹿馬鹿しくても、その馬鹿設定を国際的に共有しちゃってる以上、
活動家を抑えられずに聖火消しちゃったら日本の恥だからね。
411 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:10:20 ]: そもそもくだらんイベントに税金使うなよ。
412 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:12:01 ]: Unicode関係ないだろうおまえら……。
413 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:27:16 ]: >>410
でも火を消そうとはしてないんだ。

むしろさらに火を大きくしようとして発炎筒やら布切れやら持ち込んでるわけで。
414 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:31:37 ]: それは始まってからじゃないとﾜ絡んだろ
415 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:32:28 ]: .NETはたとえ完全でないのでもいいから文字コード自動判別クラスを用意すべき
416 名前：デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:33:36 ]: >>414
普通に殺されかけて通報したときは「ナイフが心臓に刺さったらもう一度通報してください。」って言われるのに。
417 名前：デフォルトの名無しさん [2008/04/26(土) 21:23:08 ]: 設計や管理がテケトーだから自動判別なんてのが必要なシステムになるんだ

恥を知れ！
418 名前：デフォルトの名無しさん mailto:sage [2008/05/06(火) 07:28:17 ]: >>415
禿同
419 名前：デフォルトの名無しさん mailto:sage [2008/05/06(火) 09:11:19 ]: >>415
間違えると「バグだ！金返せ」と言うバカの相手にいいかげんうんざりしたんだろう。
420 名前：デフォルトの名無しさん mailto:sage [2008/05/11(日) 17:40:38 ]: >>410
＞聖火という「設定」がどんなに馬鹿馬鹿しくても、その馬鹿設定を国際的に共有しちゃってる以上、

これは暗にUnicodeのことを言ってるんだよな？
だよな？
421 名前：デフォルトの名無しさん [2008/05/11(日) 22:49:27 ]: 批判くらい小学生でもできる。気に入らないなら代案を示すべき。
ここでグダグダ文句ばっかしタレてるヤツは小学生なのか？
422 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 01:07:59 ]: これは暗にみんしゅとうのことを言ってるんだよな？
だよな？
423 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 01:49:03 ]: >>421
まぁそうなんだが、正しすぎて2ch全否定になってるな。
424 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 06:44:47 ]: >>353
カーネルが1バイト目の#を見てスクリプトと機械語を
識別しているから、その前にBOMがついていたら機械語
として実行しようとして暴走するだろう
425 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 06:52:41 ]: 機械語って、おまえELFとか知らんのか
426 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 07:10:45 ]: COMファイルしか知らないんだよきっと
427 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 08:50:43 ]: あれ？最近COMファイルって見かけないな。
使わなくなったの？
428 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 08:52:49 ]: 拡張子のＣＯＭならＤＯＳ専用だから。
429 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 09:54:42 ]: もうやだこの低レベルスレ
430 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 21:25:44 ]: >>428
ところがどっこい。Windowsは拡張子COMのPEを平気で実行する。
例えばNT系のformat.com
431 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 21:28:54 ]: スレ違い止め止め
432 名前：デフォルトの名無しさん mailto:sage [2008/05/12(月) 23:28:26 ]: >>429
おこぼれを貰いに来てるだけのお前みたいな奴は、
自分じゃその下がったレベルを引き上げられないからつらいよね。

でも、おこぼれ貰いに来てるだけの奴が嘆いても、「勝手に嫌がってれば？」としかｗ
433 名前：427 mailto:sage [2008/05/13(火) 01:52:21 ]: 俺も428と同じ認識でネタを書いたつもりだったが。動くのな。
まあ確かにMSだったら拡張子.comでも動くようにしてそうだ。
434 名前：デフォルトの名無しさん [2008/07/19(土) 10:20:15 ]: タイのヤフーにアクセスするとブラウザにタイ語がきちんと表示されるけど、それをコピペして
エディタに貼り付けると文字化けするのは何故でしょうか？

エディタはUnicode版サクラエディタを使いました。

Yahoo! ?????????
th.yahoo.com/

FrontPage - サクラエディタUNICODE化プロジェクト
mofmof.nsf.tc/soft/sakura_unicode/
435 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 10:42:17 ]: こんなところで聞くより、開発元で聞いたほうが早いと思うぞ。
436 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 10:45:19 ]: unicode->ウニ
utf-8->アワビ
437 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 10:47:01 ]: >>432
おまえもな
438 名前：デフォルトの名無しさん [2008/07/19(土) 11:43:42 ]: >>435
なるほどサクラエディタの問題なのか。
EmEditorだとタイ語というのがあったので、それでするときちんと表示されました。
439 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 12:52:32 ]: たぶんクリップボードからANSI文字列として取得してるんじゃないかな。
440 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 14:13:18 ]: >>434
普通に表示できたけど、フォントリンクがうまくいってないだけとかじゃないの
441 名前：デフォルトの名無しさん [2008/07/19(土) 14:21:07 ]: >>439
EmEditorにコピペすると、ちゃんとタイ語で表示されたので、多分そうではないと思います。
そこで疑問がまた出てきました。

Unicodeってほぼ全文字を扱っているんですよね？
EmEditorのUTF-8を選んでも、上記のタイ語は文字化け。
タイ語を選んでやっときちんと表示される。

タイ語用のUTF-8とかがあるんですかね？
442 名前：デフォルトの名無しさん [2008/07/19(土) 14:22:19 ]: >>440
フォントリンクとはどういうことでしょうか？？
443 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 14:29:15 ]: 扱ってる文字集合にタイ文字が含まれてないせいで表示されないのか、
ただ単にフォントが足りなくて表示されないだけなのか、
問題を切り分けろっていってるんだよ。
444 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 15:27:41 ]: UTF16は終端文字がNULLバイト2つだから嫌い
445 名前：439 mailto:sage [2008/07/19(土) 15:38:17 ]: >>441
そういう意味じゃなくて。
サクラエディタ自体がミスってて、コピーされた文字列をAPIで取得する時に、
Unicode指定じゃなく、ANSIを指定しちゃってるかもってこと。
まあさすがにそんなことは無いだろうけど。
446 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 15:43:26 ]: >>445
それはないな。俺が確かめたから。
447 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 16:01:27 ]: >>443
UTF-8というのはタイ語は含まれていないのでしょうか？
ブラウザとEmEditorではタイ語をきちんと表示しているので、タイ語のフォントはあると考えてはダメなの
でしょうか？

タイ文字をブラウザからEmEditorにコピペして、それを保存したのをバイナリエディタで見ると、UTF-8じゃ
ないみたいだ。

EmEditorのタイ語という文字コードはUTF-8とは別物ということか？

>>440さんの言っていることは、、自分の環境ではUTF-8のタイ語を表すコード領域とタイ語のフォントが
うまく結びついていないということかな？

でもブラウザではちゃんと表示されているんだよな。
よくわからん。
448 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 16:17:46 ]: >>447
少なくともIEとFirefoxは言語別に使用するフォントの設定を持っていて、
タイ語の文字を見つけたら、タイ語用のフォントでタイ語の文字を描く。
ところがサクラエディタはそうなっていないのではないのか、ということ。
（無理に日本語フォント使って豆腐になるとか）

>UTF-8じゃないみたいだ。
保存時にデフォルトでShift_JISが選ばれるなんてことはない？

あと、試しにsakuraW_r1398.zipをダウンロードして
コピペしてみたが、うまくいっているように見えるけど。
449 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 18:15:17 ]: >>448
＞保存時にデフォルトでShift_JISが選ばれるなんてことはない？
設定を色々見ましたが、そんなのはなさそうな感じです。
EmEditorには、UTF-8の他にタイ語(Windows)という文字コードが選択できるんですよね。

1文字だけコピペして、それをタイ語(Windows)で保存。
それをバイナリエディタで見ると3バイトでした。だから多分Shift_JISではないと思います。

>>448さんではうまくいってるということは、やはり自分の環境の何かが悪いってことなんしょうね。
450 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 18:43:59 ]: >>449
あたまだいじょうぶか
451 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 18:45:28 ]: そもそもサクラエディタはShift_JISで扱える文字しか対応していないはず
452 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 18:47:10 ]: >>451
Unicode版の話だといってるだろ…
よくよめよ
453 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 18:51:26 ]: Unicode対応版を謳っていても実際に満足にUnicodeに対応している
テキストエディタはVisual Studioのエディタと秀丸くらいしかないよね。
454 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 19:22:12 ]: >>449

タイ語(Windows)って選択肢はUNICODEとかじゃなくて、CPなんとかというコードページ
（WindowsのShift JISだと CP932）をタイ語のコードページに切り替えてるだけじゃないの？

だからコードページ切り替えに対応していないエディタでは文字化けする。

一旦EmEditorで　UTF-8で保存して、そのあと他のエディタで読み込ませてみたら？
455 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 19:26:17 ]: サクラエディタスレでやれば？
456 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 19:56:00 ]: >>453
秀丸は合字処理がおかしい
457 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 20:23:26 ]: >>454
UTF-8で保存して、サクラエディタと秀丸で開いてみましたが、ダメでした。
とりあえず自分の環境では、Unicodeとそれに対応するフォントがうまく対応付けされていないと
結論ずけておきます。
458 名前：デフォルトの名無しさん mailto:sage [2008/07/19(土) 22:19:03 ]: うちの秀丸は、th.yahoo.com/ をコピペしてもぜんぜん文字化けしないよ。
もちろんタイのにょろにょろした文字が画面いっぱいな。
459 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 01:58:58 ]: コピペがOS依存だって事忘れてるわけじゃないよな
460 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 09:59:56 ]: >>453
おまえが知らないだけ。
461 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 13:17:41 ]: Alphaとかいうエディタは異字体セレクタまで対応してたな。
462 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 18:24:26 ]: Unicodeは16ビットで全ての文字が収まると早合点したことが失敗の始まりですか？
463 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 18:50:18 ]: いいえ、全ての文字を符号化できると思ったのがそもそもの誤りでした
464 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 20:32:10 ]: TRONや今昔文字鏡のことですね、わかります
465 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 20:58:54 ]: もっと言えば、文字とは符号化できるものである、という前提から間違っている。
466 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 21:00:25 ]: いや、TRONは存在自体が間違っている。
467 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 21:49:53 ]: >>465
文字って符号じゃないの? 符号化できない文字表現という存在自体が想像付かない。
あ、一応、1:1マッピングできない(適切でない)ケースがあることくらいは想像が付く。
468 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 21:56:14 ]: そんなネタにマジレスしなくても
469 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 22:03:45 ]: 龜甲占いの結果を写生しました/写真に撮りました。
この画像は符合ですか?
一応「龜」ですが。

「龜」と字を書きました。画像として保存しました。符合ですか?
この画像ファイルには"1.jpg"という名前をつけました。符合ですか?
「龜」の代りに<img src="1.jpg">とすることにしました。符合ですか?
470 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 22:13:02 ]: 連番をつけて符号化しようと思ったあたりが、問題なんじゃね
471 名前：デフォルトの名無しさん mailto:sage [2008/07/20(日) 23:41:19 ]: 合成文字とか似ている漢字は一緒にしようとか
めんどくさい事考えるから・・
472 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 00:08:21 ]: > 似ている漢字は一緒にしよう
これはまったくやらずに済まそうとするのは無理じゃない？
デジタル化以前には表記揺れするのがあたりまえだったんだし。

どこまでやるかを間違った、という批判ならその通りだと思うけども。
473 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 00:15:23 ]: いや，揺れたものをそのまま保存・表示できない時点でダメ
揺れたものを対象にした論文などが表現できなくなるから
474 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 01:29:46 ]: 人間が文字の生き死にを自由にしようなんて、おこがましいとは思わんかね・・・・・・
475 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 03:09:30 ]: 本間先生？
476 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 09:22:12 ]: 結局、「国番号＋ＪＩＳコード」で１６ビットとか３２ビットとか、みたいな形にすればよかったんじゃない？
（外国はＪＩＳコードとは言わんが、ま、その国ごとで規格化されてるコード、って理解してくれい）

変に世界中の文字をシャッフルしちゃったのが間違いだな。
477 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 09:56:33 ]: それがサロゲートペアだろ。
478 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 10:48:55 ]: なんでやねん
479 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 11:28:35 ]: >>473
そいつは画像でやれよ……

一般的な用途ではある程度ユニファイされてる方がいい。
微妙な違いなんて日常的な文章には不要だし、検索とかにも不便だし。
480 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 11:53:14 ]: >>477
(；ﾟдﾟ) ・・・
　
(つд⊂)ｺﾞｼｺﾞｼ
　　_, ._
（；ﾟ Дﾟ） …！？
481 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 13:30:19 ]: >一般的な用途ではある程度ユニファイされてる方がいい
これはその通りだと思うけど、符号化のレベルではやらない方が良かったかと・・

もう1つ上のレイヤを用意して表記ゆれを吸収するのはそこの層がやる
とかにすればやり方を失敗してもそこの層を差し替えるとかして何とかなったのに
482 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 19:58:48 ]: 同意．一番下でマージしちゃったらどうしようもない
画像でやれって言う人は，実際に自分でやってないから
どれだけ大変かつ不便で読み難くなるか分からないんだろうな
483 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 20:39:00 ]: 実際に文字コード設計したことない人が国コード付けろとか128ビットにしろとか
妄想語るのももはやお約束ですよねー
484 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 21:19:59 ]: UnicodeでAdobe Japan1-6互換の字形切替をする枠組みが既に正式規格化されているにも関わらず、
「みたいな形にすればよかったんじゃない？」
「もう1つ上のレイヤを用意して」
「一番下でマージしちゃったらどうしようもない」
とか言ってるヤツってナンなの？ゆとり？
ttp://www.unicode.org/reports/tr37/
ttp://www.unicode.org/ivd/
ttp://appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1435_ivs-demo-irg30.pdf
ttp://appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1435_ivs-white-paper.pdf

上記PDFに書かれている対応製品以外にも、フリーソフトやフリーフォントで既に対応しているものもある。
ttp://alpha.sourceforge.jp/
(↑：日記の2008年1月～に詳細記述)
ttp://yozvox.web.infoseek.co.jp/
(↑：掲示板の2008年1月～に詳細記述)

てか、文字コードの話をするなら↓の方がいいだろ、常識で考えて。
文字コード総合スレ part3
ttp://pc11.2ch.net/test/read.cgi/tech/1180250376/
485 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 21:42:42 ]: >>483
いかにも「ワタシが文字コードを設計しました！」って言いたげだな
486 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 21:43:44 ]: 何事にも失敗はある。
487 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 21:48:47 ]: Unicodeは失敗
488 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 22:15:27 ]: ROMっているだけだったが、ここが文字コードスレだと錯覚していた。
489 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 22:17:37 ]: ゆとり教育は失敗
490 名前：デフォルトの名無しさん mailto:sage [2008/07/21(月) 22:26:55 ]: 失敗したら反省が必要。そして次回はどうすべきか案を出し合う。
491 名前：デフォルトの名無しさん [2008/07/23(水) 19:39:46 ]: >>453
しゅーまる（何故か変換(ry）は、アラビア語ちゃんと扱えるんだ。すごい。
xyzzyはアラビア語無理なんだよなあ・・・
492 名前：デフォルトの名無しさん mailto:sage [2008/07/23(水) 21:00:50 ]: 有名どころだと秀丸とEmEditorくらいだな。
493 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 09:32:45 ]: しゅーまるぐみはやわじゃねえ！
しゅーまるぐみにはいるんだ！
494 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 10:12:30 ]: EmEditorのフリー版のUnicode対応はイマイチだけど
有料版はいいんかな
495 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 14:54:39 ]: Alphaはどうよ
496 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 15:03:58 ]: >>494
たぶんエディタ部分のコードは同じだと思うよ。
497 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 15:38:06 ]: >>495
アラビア語の結合は対応してるみたいだけど、キャレットとか選択領域の端とかと重なると切れちゃう。
ただ、いまのところシンタックスハイライティングがびみょんで、この板的な実用には向かんかなあ。

>>492
EmEditorや秀丸って右から左に表示するオプションあったっけ？
前に試したときはどっちもダメだった気がしたんだけど、それから対応したのかな。
498 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 15:48:06 ]: 直接指定するわけじゃなくて、エンコードで判断
499 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 15:59:43 ]: >>498
それはEm? 秀丸?

でも、そうなるとUnicode系の文字コードじゃRTL文書書けないのかな。
500 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 22:25:06 ]: >>497
> この板的な実用には向かんかなあ。

プログラム技術＠2ch掲示板
ttp://pc11.2ch.net/tech/

この板はプログラムを作る人のための板です。

プログラム・ソフトの使い方は PC 初心者板やソフトウェア板へ。
ウイルス、ハッキング・クラッキングを求めるような発言は禁止です。
Javascript は Web 制作板、CGI は Web プログラミング板へ。
業界談義、愚痴はプログラマ板へどうぞ。
ゲーム関係の話題はゲーム製作板へどうぞ。
ネタ、板とは関係の無い話題はご遠慮ください。
501 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 22:31:19 ]: >>500は有名な基地外だから無視していいです
502 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 22:36:12 ]: >>500
Alphaは、アラビア語が(比較的)まともに扱えるけど
「シンタックスハイライトが微妙」だから
「プログラムを作る人」が使うエディタとしては「実用には向かん」
って行ってる様にみえるんだけどなんでそのコピペなのか理解できません！
503 名前：499 mailto:sage [2008/07/24(木) 22:42:59 ]: 試してみたけど、秀もEmも右から左にする方法を見つけらんなかった…
504 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 22:43:33 ]: 夏休みだから話題が逸れる前に予防線張ろうとしたと解釈してあげよう。
505 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 23:00:11 ]: 　　　　 ///////
　　　　///////＿＿＿＿＿＿＿＿＿＿＿_
　　　 /////// ￣￣￣￣￣￣￣￣￣|￣￣
　　　///////　　　　　　　　　　　　　 (~)　ﾁﾘﾝﾁﾘﾝ
　　 ///////　　　　　　　　　　　　　　ﾉ,,
　　///////　　　　 ∧＿∧　　　　　　　　／￣￣￣￣￣￣
　 ///////　　　　（　´∀｀）（厨） )）　＜　　夏だなあ～
　/////// 　　　　（つ　へへつ　　　　　＼＿＿＿＿＿＿
///////　　　//△ ヽλ　）　）　旦
//////　　l￣￣￣￣￣￣￣￣￣￣￣l
/////　　　￣| .|￣￣￣￣￣￣￣| .|￣
////　　　　　^＾^　　　　　　　　　 ^＾^
506 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 23:29:12 ]: >>500
コイツ、バッチファイルのスレで誰にも相手にしてもらえないから
こんなスレを荒らしてやがる。
507 名前：デフォルトの名無しさん [2008/07/29(火) 07:43:38 ]: ↓メタ夏厨議論どうぞ
508 名前：デフォルトの名無しさん mailto:sage [2008/07/30(水) 06:59:11 ]: Unicode は、夏厨
UTF-8 は、メタ夏厨議論
509 名前：デフォルトの名無しさん mailto:sage [2008/07/30(水) 15:04:31 ]: UNICODE: 数社の企業が決めたもの、使用できる文字とその番号を定義。
UCS: 国際標準、内容はUNICODEとほほ同じ
UTF: UNICODEやUCSをコンピュータ上に表現するための仕組み

この認識あってる？

UNICODEとUCSってのはJavaScriptとECMAScriptの関係に似てるんかねぇ。
510 名前：デフォルトの名無しさん mailto:sage [2008/07/30(水) 17:01:28 ]: コンソーシアムとその規格が Unicode
国際標準規格が ISO/IEC 10646

そしてそのそれぞれで UCS とか UTF とか定義してる
511 名前：デフォルトの名無しさん mailto:sage [2008/07/30(水) 17:16:04 ]: ISO/IEC 10646の名称（の頭文字とったもの）がUCSだろ。
509の理解で合っているぞ。
512 名前：デフォルトの名無しさん mailto:sage [2008/07/30(水) 18:07:10 ]: 大は小を兼ねるんだから、
Shift-JistとEUCもこれからはUTF-8で扱えばすべて解決。
ユニックス派のカタブツはEUCにこだわるからいけない
513 名前：デフォルトの名無しさん mailto:sage [2008/07/30(水) 19:32:12 ]: 文字集合は大は小を兼ねてるけど符号化方式が違ってるだろ
514 名前：デフォルトの名無しさん mailto:sage [2008/07/30(水) 19:47:50 ]: 最近のUNIXなら、日本語環境でもだいたいUTF-8だと思うが。
515 名前：デフォルトの名無しさん mailto:sage [2008/07/30(水) 20:54:34 ]: >>512
むしろS-JISの方が圧倒的に量が多くて、移行できないだろ。
516 名前：デフォルトの名無しさん mailto:sage [2008/07/31(木) 02:18:53 ]: >>509
> この認識あってる？

間違ってます。
517 名前：デフォルトの名無しさん mailto:sage [2008/07/31(木) 09:20:32 ]: >>516
ｋｗｓｋ
518 名前：デフォルトの名無しさん mailto:sage [2008/07/31(木) 13:25:21 ]: >>517
間違ってますなんて書くだけの奴に詳しく説明できるほどの根拠なんかあるわけ無いだろ。
ちゃんと根拠があって指摘してるなら>>510 のようにはじめから書くしな。
519 名前：デフォルトの名無しさん mailto:sage [2008/08/01(金) 06:28:17 ]: >>518
「間違ってますなんて書くだけの奴に詳しく説明できるほどの根拠なんかあるわけ無い」
「ちゃんと根拠があって指摘してるなら>>510 のようにはじめから書く」
そう考える根拠は？

あ、そうか、根拠をはじめから書いていない奴には、詳しく説明できるほどの根拠が無いんだっけ。
ごめんごめん、訊くだけ無駄だった。
520 名前：デフォルトの名無しさん mailto:sage [2008/08/01(金) 09:08:55 ]: >>519
まあ、その、なんだ、悪かったよ…。図星つかれてレスもまともに読めなくなるほど泣く
とは思わなかったんだよ。もう言わないから勘弁してくれ、な？
521 名前：デフォルトの名無しさん mailto:sage [2008/08/01(金) 09:25:39 ]: 泣かしたな悪者め
522 名前：デフォルトの名無しさん mailto:sage [2008/08/01(金) 10:47:03 ]: 子ども泣かすの良くない
523 名前：デフォルトの名無しさん mailto:sage [2008/08/01(金) 11:21:50 ]: ＞＜
524 名前：デフォルトの名無しさん mailto:sage [2008/08/01(金) 20:07:25 ]: 　　　､_人_人_人_人_人_人_人_人_人_人_人_,
　　､_）　　　　　　　　　　　　　　　　　　　（_
　　 _）　夏　　　厨　　　警　　　報　　！！（_
　　_）　　　　　　　　　　　　　　　　　　　　　（
　　　'⌒Ｙ⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒Ｙ⌒`
　　　　　　　　　　　　　　　　　　　／／
　　　　　　　　　　　ﾍ,(ﾟ∀ﾟ)ｙ'＾　　　　　ｱｰﾋｬﾋｬﾋｬﾋｬﾋｬ
　　　　　　　　､　 _L_;二;_.j_　 ,　＼＼
　　　　　　　　　￣ﾄ､~Ｙ~,/|￣
　　　　　　　　　 ,|ｙΛ=ｽｲ|､　　　ｱｰﾋｬﾋｬﾋｬ　＿
　　　　　　　　' | | !;∀Y i| `　　　　　　　　　 /##;〉
　　　　　　　　　　　|ｲYﾄ〉ｲY.| 　　　　　　　　　 / ￣
　　　ｱﾋｬﾋｬ　　　　ﾚYy'`vﾚ|　　　　　ヽ(ﾟ∀ﾟ )ﾉ
　　　　　　　　　　　 Vｙ　　Ｖ'　　　　　　（夏）ヘ
　　　ヽ( ﾟ∀ﾟ)ﾉ　　　　　　　　　　　　　　　<
　　　　（夏）ﾍ
　　　　　<
525 名前：デフォルトの名無しさん mailto:sage [2008/08/01(金) 20:51:53 ]: >>520
夏のどさくさに紛れて、そういうキャラ付けで逃げるのはよくないよ。気持ち悪いし。
526 名前：デフォルトの名無しさん [2008/08/02(土) 00:49:27 ]: 鸚鵡返し、人格攻撃はスレが機能しなくなるからやめようよ・・・
527 名前：デフォルトの名無しさん mailto:sage [2008/08/02(土) 09:11:38 ]: >>516が>>509に対して説明すれば済むだけの話。
528 名前：516 mailto:sage [2008/08/03(日) 21:29:00 ]: >>509
pc11.2ch.net.nat.homeunix.org:65082/post.pl?b=tech&t=1177930957
529 名前：デフォルトの名無しさん [2008/08/04(月) 01:36:40 ]: 本来は
Unicode ⊂ UTF-8
であることは明白だが、

事Windows OSではUTF-16の事を単にUnicodeと表記するので、
Windows上では
Unicode ≠ UTF-8
とも言える
530 名前：デフォルトの名無しさん mailto:sage [2008/08/04(月) 10:02:52 ]: 釣りですか
531 名前：デフォルトの名無しさん [2008/08/04(月) 14:51:21 ]: ググれカス
532 名前：デフォルトの名無しさん mailto:sage [2008/08/04(月) 21:52:42 ]: ネタにマジレス( ´;ﾟ;ё;ﾟ;)きんも～☆彡
533 名前：デフォルトの名無しさん mailto:sage [2008/08/05(火) 04:13:34 ]: 　　　【ＪＩＳコード】
デコード↑／↓エンコード
　　　　シフトＪＩＳ
　　　　　ＥＵＣ

　　　【ユニコード】
デコード↑／↓エンコード
　　　　ＵＴＦ８
ＵＴＦ１６ＬＥ／ＵＴＦ１６ＧＥ
　　　　ＵＴＦ３２

　　　　　【音声】
デコード↑／↓エンコード
　　　　　WAV
　　　　　MP3
　　　　　WMA

　　　　【ビデオ】
デコード↑／↓エンコード
　　　　　AVI
　　　　　MPG
　　　　　FLV
534 名前：デフォルトの名無しさん mailto:sage [2008/08/05(火) 05:55:43 ]: 全角で書く奴って、やっぱりアレだな…
535 名前：デフォルトの名無しさん mailto:sage [2008/08/05(火) 06:28:39 ]: ときに、UTF16GEってなんだろ。
536 名前：デフォルトの名無しさん mailto:sage [2008/08/05(火) 07:17:57 ]: デコードした先がコードとは何ともかんとも
537 名前：デフォルトの名無しさん mailto:sage [2008/08/05(火) 09:48:19 ]: >>535
ゲルググエンディアン
538 名前：デフォルトの名無しさん mailto:sage [2008/08/05(火) 12:00:16 ]: あまりの非の打ち所の無い完璧な説明なため
全角や誤字しかツッコミどころが無いな。
539 名前：デフォルトの名無しさん mailto:sage [2008/08/05(火) 13:13:37 ]: 確かにゲルググエンディアンは完璧だ
540 名前：デフォルトの名無しさん mailto:sage [2008/08/05(火) 14:10:58 ]: コンテナはどうなんだ
541 名前：デフォルトの名無しさん mailto:sage [2008/08/05(火) 23:19:58 ]: >>533
おい大漁だなｗ
やったじゃねーかｗ

>>533-539
釣られまくり乙
542 名前：デフォルトの名無しさん mailto:sage [2008/08/06(水) 02:34:28 ]: 全角と誤字以外のツッコミは無いのかい？
543 名前：デフォルトの名無しさん mailto:sage [2008/08/06(水) 11:32:08 ]: へんなのが住みついたね
544 名前：デフォルトの名無しさん mailto:sage [2008/08/06(水) 13:00:18 ]: 夏だね。
545 名前：デフォルトの名無しさん mailto:sage [2008/08/06(水) 16:11:48 ]: そろそろ秋だよ
546 名前：デフォルトの名無しさん mailto:sage [2008/08/06(水) 16:16:05 ]: 暦の上でどうだろうと、今は夏真っ盛りだ
547 名前：デフォルトの名無しさん mailto:sage [2008/08/07(木) 02:01:12 ]: では、全角と誤字以外には非の打ち所の無い
カンペキな「Unicode と UTF-8 の違い」の解答という事で
無事にこのスレを閉じたいと思います。
みなさん、長い間ごくろうさまでした。
548 名前：デフォルトの名無しさん mailto:sage [2008/08/07(木) 02:16:28 ]: お疲れさまでした。
549 名前：デフォルトの名無しさん mailto:sage [2008/08/07(木) 02:35:31 ]: 先生の次回作にご期待ください。
550 名前：デフォルトの名無しさん mailto:sage [2008/08/07(木) 04:19:12 ]: 　　世　界　迷　作　劇　場

　　　　　　　　おわり
551 名前：デフォルトの名無しさん mailto:sage [2008/08/07(木) 21:56:12 ]: 思ったこと。
・広義の「ユニコード」はUTF-8等の規格を含めることがあるので不正確
・>>536指摘済みだけど、音声のenc/decと、文字のenc/decを一緒にするのは
　違和感あり。JISコードは既に「符号(コード)化」されてるから。
　俺的には
　　音楽→(量子化)→PCM→(各種圧縮)→MP3　の３段階が
　　文字→符号化文字集合→テキストエンコーディング　に対応する感じ
・AVIって格納形式の概要だけ決まってて、圧縮アルゴリズムは別じゃなかった？
552 名前：デフォルトの名無しさん mailto:sage [2008/08/07(木) 22:59:54 ]: 狭義のユニコードっていうのはM$が決めつけたUnicodeのことか？
例えば、ttp://msdn.microsoft.com/ja-jp/library/ms191200.aspx
>Unicode 仕様は 2 バイトを使用して 1 つの文字をエンコードすることでこの問題を解決しました。2 バイトには 65,536 個のパターンがあるため

つーか、広義も狭義もねーよ。バーヤ。
553 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 00:08:21 ]: まだやる気か？
554 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 01:50:13 ]: >>552
MSが決めつけたというよりも、まだUTF-8もサロゲートペアもなかった昔を引きずっているだけ。
555 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 04:17:35 ]: サロゲートペア厨必死だな。無視されてんのによｗ
556 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 09:21:22 ]: サロゲートペアは、32bit wchar_tの入り口ですよ。
557 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 09:33:01 ]: マイクロソフトで統一すれば市場に一致して解決
558 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 09:38:44 ]: けど駄目仕様に駄目実装が蔓延ると思うよ
競合いてもあれだもん
559 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 10:57:45 ]: 結論
>>1みたいなのが現れるのはMSが糞だから
560 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 11:58:30 ]: 何でも他人のせい、日本のせいにする人たちみたいですね。
561 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 12:35:44 ]: 批判だけならパートのおばちゃんでも出来る。
問題は、どう改善すべきか、改善するに当たって
予算・人員・スケジュールをどう工面するのか、だ。
それを何一つ提示していない。
おまいら、パートのおばちゃん以下のクズ。
562 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 14:04:35 ]: その理屈だとパートのおばちゃんと同等であって以下とは読み取れないが
563 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 22:59:01 ]: 少なくともパートのおばちゃんは働いてるからな
　　　　　　　　　　　　　　　　　　　^^^^^^^^^
564 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 00:51:35 ]: >>552
マイクロソフトの言うUnicodeはエンコーディングの一つでしょ。>>533からの
流れからして
協議:符号化文字集合としてのUnicode
広義:符号化文字集合およびそのエンコーディング仕様。Unicode規格
以外の解釈はありえんと思うが。このスレ>>14ぐらいまで読み直せ。
565 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 04:22:32 ]: だからわざと、マイクロソフトのUnicodeと区別するためにカタカナで【ユニコード】と書いたがな。
566 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 07:01:57 ]: お前ら、紛らわしいと思わないのか？
MSは正義だからOKとか、思考停止杉。
567 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 08:34:38 ]: え、誰か「MSは正義」とか言ってる？
その脳内設定が、お前の思考停止なんじゃないの？
思春期のオトコノコの「自分以外はみんなバカ症候群」みたい。
568 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 09:53:28 ]: >>567
>>557

>思春期のオトコノコの「自分以外はみんなバカ症候群」みたい。
569 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 11:23:13 ]: > お前ら

たった一人書いてただけで、「お前ら」か。
知ってる？「デフォルトの名無しさん」は全部同一人物なんだぞ。
570 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 13:07:27 ]: 以下でOK?

・(文字集合としての)Unicode
扱う文字の一覧を定めて、識別用に符号をつけたもの。
「あ」=U+3042、「A」=U+0041・・・

・UTF-8
Unicodeの文字列を電子データとして扱う際の表現を定める「エンコーディング」の一つ。
あA(U+3042 U+0041)→E3 81 82 41

エンコーディングの他の例としてシフトJIS・UTF-16 BE・マイクロソフトのUnicode 等がある。
よってUnicodeとは
　1. 符号化文字集合の一つ
　2. 文字コードの規格
　3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい
の3つの意味があり、一方UTF-8は、エンコーディングの一つとしての意味しかない。
571 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 13:21:53 ]: >>570
> よってUnicodeとは
> 　1. 符号化文字集合の一つ

こんな使い方はない。

> 　3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい

アホドキュメント、アホアプリは無視するのがいい。
572 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 13:24:33 ]: ×符号化文字集合
○文字集合
だよね？
MSは無視できないほど規模があるのが憎たらしくて困ったチャンなわけで。
573 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 13:39:23 ]: 「マイクロソフトの」と書いているが、
まともなドキュメントもあるわけで…
メモ帳の文字コード選択ウィンドウとかそういう部分的なことで、
> 　3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい
を言葉の定義の一つに同列に並べてるのは馬鹿っぽいね。
574 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 13:42:08 ]: >>573
メモ帳もUnicode/Unicode big endianだけど。
575 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 13:52:08 ]: とりあえず「UTF-8にBOM」という意味がわからん表現はやめて欲しいもんだ
576 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 15:01:15 ]: > 　3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい
典拠は？

>>552だけ？
これってSQL Server 2005のドキュメントだよね？
577 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 15:32:53 ]: >>576
Office XP リソースキット
Unicode サポートと多国語ドキュメント
ttp://msdn.microsoft.com/ja-jp/library/cc389880.aspx
>Unicode では、どの文字に対しても 2 バイトからなる固有のエンコードが割り振られます。
578 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 15:51:22 ]: やっぱりアプリ屋はフレームワーク屋よりレベル低くなるね。
周辺技術の知識については。
579 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 16:21:00 ]: 抱き合わせ販売禁止

というのが文字コード氾濫を招いた。

最初からOSとセットで組まれていれば文字コードはマイクロソフトのやつがスタンダードになって
ユーザーはいくつものコードに悩まされることがなかった
580 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 23:37:35 ]: Shift JISで悩まされてた人って多いんじゃないの？
581 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 02:42:19 ]: >>572
「符号化文字集合」でいいのでは？
文字の集合を定義して、各文字に対して符号化表現(例:A=U+41)を規定してるから。
582 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 02:59:24 ]: 「符号化文字集合」の定義はJIS/ISOとW3C/IETFですら違うからどちらのつもりなのか
くらいはっきりさせろ
583 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 05:13:31 ]: >>580
それで悩むのはＵＮＩＸ屋だけ。
584 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 07:29:26 ]: >>579
えーっとどこから突っ込めば？（笑）

つーか貧弱な16bitマシンで日本語とかやろうとしてShiftJISなんてもんをつくったとこからおかしくなってるよなぁ、いろいろと。
585 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 07:57:24 ]: >>583
携帯メール入れるとどのプラットフォームも悩ましいのでは?
586 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 09:20:58 ]: >>584
しかも、SJIS作ったの誰だ？って話だよな。
587 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 10:57:11 ]: 当時の状況を考えれば仕方ないかんじだろ
一文字16bitなんて贅沢の極み
588 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 12:24:15 ]: 贅沢の極み。と言ってた人が、
年金記録問題を予見できなかったんだろうな～。
氏名をカナで管理ってありえねーよ。
589 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 14:08:27 ]: むしろカナしかないだろ
590 名前：デフォルトの名無しさん mailto:sage [2008/08/10(日) 22:24:23 ]: 仮に漢字を使っていたとしてもやっぱり年金問題は起こっていたと思う。
略字正字の入力がずさんだとか、読み方分かんなくてうやむやにデータ入力するとか。
591 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 20:51:33 ]: 氏名に漢字をつかえば
全国のグリーンピアは莫大な赤字を抱えずに済んだのだろうか？
592 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 21:56:05 ]: グリーンピアって暴力団が接待するための専用設備だろ
593 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 00:30:44 ]: 年金台帳の問題って朝鮮脳が主犯ぽいな
594 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 17:49:01 ]: >>588

昔はカタカナと英数しか印刷できないプリンタがほとんどで、
漢字やひらがなな印字できるプリンタは「漢字」プリンタとか
「日本語」プリンタとか名前が付いて特別扱いされてたのさ
595 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 17:52:16 ]: >>594
それを最初から分かってて、あえてコンピュータで管理しようとしたんだろ？
もうアフォとしか言いようが無い。
596 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 18:34:30 ]: いやいや、当時でも立派に稼動してたシステムはあるさ。
597 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 20:21:19 ]: >>595
そういう問題じゃないだろ。
アホかよw
598 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 23:19:25 ]: >>595
現代からだったらなんとでも言えるよ。
例えば、将来DNAを登録出来る、確実に本人に紐付けられるシステムが出来たとして、
「昔は」名前を登録するだけしか出来なかったんだと。
で、
> それを最初から分かってて、あえてコンピュータで管理しようとしたんだろ？
> もうアフォとしか言いようが無い。
と言うようなもんじゃないか？
599 名前：デフォルトの名無しさん mailto:sage [2008/08/13(水) 03:49:07 ]: 官公庁では今でも”「漢字」プリンタとか「日本語」プリンタとか”を使ってるね。
こないだ海上自衛隊の護衛艦を見学する機会があったが
艦内に古めかしい漢字プリンタが鎮座ましましておられた。
600 名前：デフォルトの名無しさん mailto:sage [2008/08/13(水) 03:53:16 ]: 何を調達するにしても防衛スペックの準拠を求められるからね
それがかなり無茶苦茶な要求だったりするから一度通った物は三十年前の図面でもそのまま流用する。
601 名前：デフォルトの名無しさん mailto:sage [2008/08/13(水) 07:57:01 ]: いやぁ、防衛省関連はそんなもんじゃないよ。「スペックの準拠」じゃなくて他のものが要求されているんだ。判るだろ?w
602 名前：デフォルトの名無しさん mailto:sage [2008/08/19(火) 15:12:27 ]: 幹部用最新PC一式（個人宅へ配送。伝票は廃棄のこと）なのか
ケツの穴なのか。
603 名前：デフォルトの名無しさん mailto:sage [2008/08/19(火) 22:39:57 ]: >>602
んにゃ、世間をにぎわした件とか、○○システムと抱き合わせとか。
604 名前：デフォルトの名無しさん mailto:sage [2008/08/31(日) 02:27:12 ]: VB6.0が受け取るコマンドラインはどんな文字コードでもいいんだろうか。
VB.NETアプリからVB6.0アプリをコマンドライン付きで呼び出すとコマンドラインはUTF-8でわだすが
しかしVB6.0はShift-Jisじゃないと扱えないし
どうなっとるんじゃ
605 名前：デフォルトの名無しさん mailto:sage [2008/08/31(日) 04:55:33 ]: >>604
VB6の内部コードはUTF-16LE
しかしエディタではsjisという素敵仕様
606 名前：デフォルトの名無しさん mailto:sage [2008/08/31(日) 10:15:36 ]: いや、それは知ってて、
とりあえず、コマンドラインでユニコード文字のトランプ図柄をVB6.0アプリに送ってみるとどうなるよ
607 名前：デフォルトの名無しさん mailto:sage [2008/08/31(日) 10:59:37 ]: VB6はそこ等辺の境界で勝手に文字コード変換しまくる
どんな仕様かはもう使ってないから忘れた
608 名前：デフォルトの名無しさん mailto:sage [2008/09/03(水) 01:22:45 ]: ＞VB.NETアプリからVB6.0アプリをコマンドライン付きで呼び出すとコマンドラインはUTF-8でわだすが
というか、これが訳わからん。
VB.NETのエンコーダ選択が間違っとるんでないの。
609 名前：デフォルトの名無しさん mailto:sage [2008/09/03(水) 01:50:50 ]: コマンドラインをUTF-8で渡すって言うのが俄に信じがたいな
610 名前：デフォルトの名無しさん mailto:sage [2008/09/04(木) 20:12:13 ]: VB6だろうと何だろうとエントリポイントはWinMainかwWinMainな訳で、
UTF-8なんてあり得ん。OSの仕組みをよく考えろ。
アプリがWinMainの時はOSがシフトJISで渡し、アプリがwWinMainの時は
OSがUTF-16で渡してくる。
611 名前：adsl-75-61-122-97.dsl.pltn13.sbcglobal.net mailto:sage [2008/09/22(月) 09:06:03 ]: >>610
WinMainとかを呼ぶのはランタイムだろうに……
コマンドライン取得もランタイムが GetCommandLine() で取得
してるので、OS がやっているわけではないよ。
612 名前：デフォルトの名無しさん mailto:sage [2008/09/22(月) 10:14:59 ]: >>611
専ブラ、アップデイトしろよ。
613 名前：デフォルトの名無しさん mailto:sage [2008/09/22(月) 16:03:59 ]: >>612
実はアップデートテストをかねて書きこんだんだけど
うまくいってなかったみたい :-)
614 名前：デフォルトの名無しさん mailto:sage [2008/10/30(木) 09:34:52 ]: >>100あたりでようやく判った。

www.atmarkit.co.jp/fxml/askxmlexpert/024utf/24utf.html

これも判りやすかった。
615 名前：デフォルトの名無しさん mailto:sage [2008/10/30(木) 09:51:55 ]: >>100は微妙に誤解を産む表現だぞ。
UTF-16は、16bit単位が一つか二つで一文字。
32bitじゃない。BEとLEがあるからこの違いは本質的。
616 名前：デフォルトの名無しさん mailto:sage [2008/11/01(土) 22:53:49 ]: えぇぇぇぇ？１６ビット２つで３２ビットじゃ無いの？
もしそうなら、１２８ビット暗号とか、３２ビットＣＰＵじゃ絶対に扱えないじゃん。
617 名前：デフォルトの名無しさん mailto:sage [2008/11/01(土) 22:55:27 ]: 32bitの文字一文字と
16bitの文字二文字ではビットの並びが違う

という事を言いたかったんではないかと
618 名前：デフォルトの名無しさん mailto:sage [2008/11/02(日) 12:13:27 ]: >>617
釣りにマジレス
619 名前：デフォルトの名無しさん mailto:sage [2008/11/02(日) 21:53:17 ]: 「ビットの並び」なんて言ってる時点でアフォ丸出し。
同じ値をあらわす３２ビットの数値であっても、
ディスクファイル上とメモリー上とＣＰＵ内部のＡＬＵとでは
ぜんぶ同じとは限らん。
620 名前：デフォルトの名無しさん mailto:sage [2008/11/02(日) 22:16:27 ]: 意味がわからんならレスしなくていいよ
621 名前：デフォルトの名無しさん mailto:sage [2008/11/03(月) 00:46:47 ]: 会話の粒度を間違う奴ってどうしようもないよな。
一番細かい視点に立つ自分が一番確かで賢い話をしていると勘違いするし。
622 名前：デフォルトの名無しさん mailto:sage [2008/11/04(火) 02:55:18 ]: >>620
>>621
だから釣りだって
623 名前：デフォルトの名無しさん mailto:sage [2008/11/04(火) 11:55:41 ]: Ｎｕｍｂｅｒを略すとなんでNoになるん?
624 名前：デフォルトの名無しさん mailto:sage [2008/11/04(火) 13:28:20 ]: >>623
Numberを略しているんじゃなくて、MiddleEnglishのnombreの略かラテン語のnumeroの略なんでしょ。
625 名前：デフォルトの名無しさん mailto:sage [2008/11/04(火) 16:09:55 ]: detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1481014
626 名前：デフォルトの名無しさん mailto:sage [2008/11/04(火) 21:46:18 ]: AをBにコピーできない。
AがBにコピーできない。
どちらも同じ意味?正しい日本語?
627 名前：デフォルトの名無しさん mailto:sage [2008/11/04(火) 21:51:48 ]: >626
後者はあまり正しい日本語ではないね。
628 名前：デフォルトの名無しさん mailto:sage [2008/11/18(火) 23:25:51 ]: > AがBにコピーできない。

AがBにコピーされない。　
だと違和感少ないけど意味違っちゃうか。

ところでこれはスレとなんか関係あるのか？
629 名前：デフォルトの名無しさん mailto:sage [2009/01/17(土) 07:21:45 ]: hosiyu
630 名前：デフォルトの名無しさん [2009/01/18(日) 09:02:26 ]:

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef