UnicodeとUTF-8の違いは？　その2

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 05/22 16:06 / Filesize : 183 KB / Number-of Response : 805
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん [2010/11/30(火) 09:00:05 ]: 富士通だとデフォルトでは生成されない
frt -c -Am -M./ (なんとか.f90)
でいけるのではなかろうか。いずれにせよ、
frt -help | less
とかやって、"module"で検索を掛けるのが吉。
152 名前：デフォルトの名無しさん mailto:sage [2011/05/01(日) 12:36:34.07 ]: いまどきのガキはJIS26も知らんのか。
153 名前：デフォルトの名無しさん mailto:sage [2011/05/01(日) 20:50:07.03 ]: 知らん
154 名前：142 mailto:sage [2011/05/14(土) 18:23:02.15 ]: Unicodeの理解が間違ってたようですみません。
メール本文は文字化けしないようなのですが、返信メールの宛先が
「"=?utf-8?B?=" aaa@bbb」みたいになってしまいます。
相手のメールソフトがMIMEエンコードを認識できないことがあるようです。
155 名前：デフォルトの名無しさん mailto:sage [2011/05/15(日) 00:27:53.50 ]: 携帯に歩数計アプリ入れてるんだけどさ、今日は10646歩だったぜ。キリがいい
156 名前：デフォルトの名無しさん mailto:sage [2011/05/29(日) 07:37:03.28 ]: 前スレの、ISO-2022-JPがIEで文字化けする問題だけど、MSのブログはアホが多いな。
「文字コードの指定の無いページで文字化けが起こるようになりました」とか言う奴は
死んだ方がいい
157 名前：デフォルトの名無しさん mailto:sage [2011/06/02(木) 00:01:47.43 ]: 前スレとか半年越しで言われても何の話かわからん
158 名前：デフォルトの名無しさん [2011/06/02(木) 02:53:51.08 ]: 984 名前：デフォルトの名無しさん [sage]： 2011/01/23(日) 14:21:57
いや、最近IEを更新すると、
META書いてあってもISO-2022-JPが化けるようになった。

985 名前：デフォルトの名無しさん [sage]： 2011/01/23(日) 17:03:21
>>984
ISO-2022-JP は IE でも見れるって
話じゃなかったのか？
見れなくなったのか。

986 名前：デフォルトの名無しさん [sage]： 2011/01/23(日) 21:39:59
>>985
blogs.msdn.com/b/ie_jp/archive/2010/12/17/ms10-090.aspx

987 名前：デフォルトの名無しさん [sage]： 2011/01/23(日) 22:57:09
HTTPヘッダだと認識してhttp-equivで認識しないってなんだよ。
いずれにせよHTMLでのISO-2022-JPに未来はないと。
159 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 00:19:36.36 ]: Unicodeはインディアン依存で、UTF-8はインディアン無関係っていう理解でOK？
160 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 00:22:01.40 ]: 合ってるような、合ってないような
161 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 00:30:48.61 ]: 規格としてのUnicode:バイトオーダー依存のUTF-16や非依存のUTF-8を含む規格
MS用語としてのUnicode:リトルエンディアン固定のUTF-16
UTF-8: バイトオーダー非依存でおk
162 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 01:23:32.87 ]: 嘘つかない
163 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 03:17:36.76 ]: 正規化NFCとNFDって、こっちが標準形式とか決まってるものですか？
それともWinとMacでカオス？
164 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 04:26:54.21 ]: "Unicode" をUTF-16の意味で使うのは、Windowsだけじゃなくて
Javaもなんだな。
download.oracle.com/javase/1.5.0/docs/guide/intl/encoding.doc.html
165 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 20:08:59.54 ]: >>163
カオスです。

詳しいことはMacOSXの方しか知らないけど、
NFDじゃないのが紛れ込んだりすると、
フレームワークも標準アプリもとても馬鹿げた動作をする。
要するにNFDを徹底できてない。
166 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 21:12:30.76 ]: >>163
どちらも標準形式、両者を扱えないといけない。
>>165
OSXは両刀、テキスト入力とかはNFCだよ。
NFCをファイル名に渡すと自動的にNFDにnormalizeする。
変換、比較のAPIも揃ってる。
167 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 21:20:40.21 ]: MacはUTF-8(NFD)に似た独自の文字コード。
正規化できてないってことはUTF-8と呼ぶことすら問題がある
168 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 21:32:28.48 ]: >>167
それはVFSレイヤに限定した話。
専用のnormalize APIもある。
テキスト等でどんな正規化を使っても構わない、って言うか普通はNFC
169 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 21:57:45.92 ]: POSIXとかCarbon使うと簡単に破綻するけどな。
170 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 22:10:46.58 ]: >>168
>VFSレイヤに限定した話
独自コードの使用場所がファイルシステム限定っていうのは知らんかった。でも
　NFCでファイルシステムに書き込み要求→独自コードに変換される
　→lsの結果を読み込むと独自コードのまま→元のNFCと比較するとアウチ
Mac内だけで既にカオスだね
171 名前：デフォルトの名無しさん mailto:sage [2011/06/05(日) 22:41:39.84 ]: >>170
正規化無視するにしても、ファイルシステムによって使えない文字(/:とか)や
同一視される文字(大文字小文字とか)は異なるから、ファイル作ったりしたら
実際どういうファイル名になったかは確認する必要あるよ。指定した文字列が
そのまま使われる保証は無い。
172 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 08:09:48.24 ]: VFSレイヤでやってないからそういう問題が頻発するんだろ。
VFS関係ではNFDのコードはhfs+ドライバにしかないから。
Cocoaでもうまく出来てない。
hfs+以外は全部プログラマー任せだから。
173 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 08:52:33.29 ]: /:と文字コードとを同じにしないで欲しいな。
\が/になっても文句言わないけど、シフトJISで
書き込んだファイル名がEUC-JPになったら困るじゃないか。
174 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 18:46:43.25 ]: >>172
>VFS関係ではNFDのコードはhfs+ドライバにしかないから。
>Cocoaでもうまく出来てない。
それは君が知らないだけ。自動変換で不十分ならUnicodeConverterを使えばHFS+ルール
でのNFD/NFC変換もできる。
>hfs+以外は全部プログラマー任せだから。
HFS+以外だと具体的に何が必要になるの？

>>173
>シフトJISで書き込んだファイル名がEUC-JPになったら困るじゃないか。
古目のWindowsのアプリはそうでしょ。ファイル名はUnicodeで保存されてるのに未だに
Shift_JISで扱ってる。zipアーカイブのファイル名をShift_JISで記録してるため、本当の
ファイル名と違うし、UTF-8使ってるOSX等unix系の物と互換性が無いのは有名な話。
175 名前：デフォルトの名無しさん [2011/06/06(月) 19:25:09.50 ]: >>174
> ファイル名はUnicodeで保存されてるのに
ダウト
176 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 21:04:50.04 ]: 保存されてるだろ。実体がUTF16でもそれを隠蔽して
シフトJISに見せてるWindowsをマクとと一緒にすんな
と思ったけど、ラウンドトリップが完全でないからNEC選定IBM拡張文字を書くと
IBM拡張に化けるのかな
177 名前：デフォルトの名無しさん [2011/06/06(月) 21:12:42.72 ]: >>176
> 保存されてるだろ。実体がUTF16でも
ダウト
jp.rubyist.net/magazine/?0025-Ruby19_m17n#f07
178 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 21:19:47.11 ]: 文字集合を切り替えて使う方式が最も合理的だろ。
179 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 21:26:00.93 ]: >>177
> >>176
> > 保存されてるだろ。実体がUTF16でも
> ダウト
> jp.rubyist.net/magazine/?0025-Ruby19_m17n#f07
正確には今もなお UCS-2 らしい。つまり、サロゲートペアの片方のみの場合がある
180 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 21:58:53.32 ]: >>177
著者成瀬って成瀬ゆいか？　あんなアホ男のことを真に受けるとは。

>UCS-2 らしい。つまり、サロゲートペアの片方のみの場合がある
らしいってソース無しかよ。
しかも「つまり、サロゲートペアの片方」って意味わかんね。さすが池沼成瀬
181 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 22:03:20.02 ]: 結局レッテル貼りかw
182 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 22:12:52.07 ]: どうせならもっと圧縮率の高いエンコードにしようぜ。
183 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 23:03:57.57 ]: >>181
レッテルっていうけど、自分で試してみればわかるでしょ。
FILE *f = _tfopen(_T("d:\\tmp\\\xD844\xDE3D.txt"), _T("wb")); // ??: U+2123D
明らかにWindowsはUCS-2じゃないよ
184 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 23:24:04.52 ]: >>174
>zipアーカイブのファイル名をShift_JISで記録してるため
日本語版WindowsはシフトジスだがShift_JISではないな。Windows-31J
185 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 23:50:27.43 ]: >>175と>>177のダウトは何なの？
UTF-16かUCS-2かは置いておいて
WindowsがUnicodeなのは疑いようの無い事実だと思うんだけど
186 名前：デフォルトの名無しさん mailto:sage [2011/06/06(月) 23:56:38.49 ]: Unicodeと聞いてUnicode規格でなくUTF-16LEを想像したに決まってんだろ。
そっとしておいてやれ
187 名前：デフォルトの名無しさん mailto:sage [2011/06/07(火) 00:26:01.87 ]: _T の意味を理解してない奴まだいたんだ。
188 名前：デフォルトの名無しさん mailto:sage [2011/06/07(火) 00:44:02.43 ]: どうしてunicode=UTF-16LEなのは何で？
189 名前：デフォルトの名無しさん mailto:sage [2011/06/07(火) 01:19:45.40 ]: Windowsの場合、MBCSに対してのunicodeだよ。
MBCSが文字コードを指定してるわけじゃないのと同じで、
Unicodeも実際のコードを特に名指ししてるわけじゃない。
そこはまた別問題な。
MBCS ←→ unicode
ANSI ←→ wide character
この関係な
190 名前：デフォルトの名無しさん mailto:sage [2011/06/07(火) 01:23:52.96 ]: UnicodeとUTF-16の違いは？
191 名前：デフォルトの名無しさん mailto:sage [2011/06/07(火) 01:35:45.36 ]: 可逆な圧縮形式と考えたらいい。
実データ……Unicode
圧縮形式……UTF-8 UTF-16等

生waveを圧縮するのにMP3とかWMAとか色々あるだろ。
まあ、これは不可逆だけど。
192 名前：デフォルトの名無しさん mailto:sage [2011/06/07(火) 02:17:46.91 ]: >>174
FAT32のファイルを扱う時に必要。
193 名前：デフォルトの名無しさん mailto:sage [2011/06/19(日) 05:08:50.30 ]: >>189
>Windowsの場合、MBCSに対してのunicodeだよ
どうしてそんな嘘付くかなあ。
メモ帳の保存オプション見れば「Unicode」「Unicode big endian」「UTF-8」
が選択できるでしょ。明らかにMS用語のUnicodeはUTF-16のLE(BOM付き)
194 名前：デフォルトの名無しさん mailto:sage [2011/06/19(日) 22:59:22.95 ]: 最初の頃ははBOM付きUCS-2だったんじゃない?
195 名前：デフォルトの名無しさん mailto:sage [2011/06/19(日) 23:52:11.55 ]: 話が噛み合ってないぞ。
　>>188曰く　「MSのUnicode=UTF-16LEはなぜ？」
　>>189曰く　「MSのUnicodeは規格のUnicodeであってLEとか関係ない」
　>>193曰く　「嘘付くな。MSのUnicodeはUTF-16のLE限定」
　>>194曰く　「MSのUnicodeは当初UCS-2の範囲しか扱えなかった」
当初U+10000以上が扱えなかったのは事実だけど、>>193が言ってるのは
リトルエンディアン限定ということ。

ちなみにUCS-2は符号化文字集合だからエンコーディングであるUTF-16と
同列に扱うべきじゃない。BOM付きUCS-2とかいうものは存在しない。
196 名前：デフォルトの名無しさん mailto:sage [2011/06/20(月) 01:01:12.89 ]: 昔はUCS-2がエンコーディングでもあった時代があった。> Unicodeコンソーシアム
197 名前：デフォルトの名無しさん mailto:sage [2011/06/21(火) 02:43:05.15 ]: Unicode 3.0かな。
ISO 10646ってひょっとしてUCS-2が前提で
U+10000以上をUTF-16で扱えなかったりするの？
198 名前：デフォルトの名無しさん mailto:sage [2011/06/21(火) 11:47:38.99 ]: UCS-2が前提なのは、DIS 10646 1.0の頃のUnicodeコンソーシアム。
だからUnicodersがDIS 10646 1.0を廃案にした。
その頃Unicodeコンソーシアムは16bitで全て賄うつもりだったから。
結局ダメでサロゲートペア→UCS-4という流れ。
UTF-16はずっと後。
199 名前：デフォルトの名無しさん mailto:sage [2011/06/22(水) 01:31:59.98 ]: Unicodeが昔16ビット前提だったのは確かだけど、
UCS-2/UCS-4はISOの概念でUnicodeとは直接関係なくね？
200 名前：デフォルトの名無しさん mailto:sage [2011/06/23(木) 11:36:55.26 ]: ISO/IEC 10646-1:1993 UCS-2
と
The Unicode Starndard, Version 1.1
は同じ。そのための1.1。
UTF-8, UTF-16は2から。
201 名前：デフォルトの名無しさん mailto:sage [2011/06/25(土) 20:56:52.95 ]: すいません、
「あんたねぇ、UnicodeとUTF-8の違いが分かってるの？」
を英語に翻訳していただけますか？
バカなアメ公がクソなコードをアップロードしてしまうんで困ってます。
202 名前：デフォルトの名無しさん mailto:sage [2011/06/25(土) 23:06:12.21 ]: You seems you don't understand difference between Unicode and UTF-8 at all, fucking guy!
適当に翻訳サイトで訳した
203 名前：デフォルトの名無しさん mailto:sage [2011/06/25(土) 23:19:37.00 ]: youなのにseems？
204 名前：デフォルトの名無しさん mailto:sage [2011/06/25(土) 23:55:11.65 ]: つか丁寧な出だしなのに最後がfuckingで面白い

遠回りな表現しないで確実にUTF-8の文字コードでアップしろでいいじゃん
二つの違いを教えたいわけじゃない
205 名前：デフォルトの名無しさん [2011/06/26(日) 00:35:52.32 ]: 書きだし you seems はいらんな

Why don't you understand the difference between Unicode and UTF-8 ?
206 名前：デフォルトの名無しさん mailto:sage [2011/06/26(日) 00:50:25.50 ]: >>196 嘘つくな
「UCS」は符号化文字集合。「UCS-2」はエンコーディング。
ちゃんとISO/IEC 10646読め。

>>201
TOEIC 330点の俺が訳すと
Please seive file as UTF-8 encoding, not as Unicorde.
207 名前：デフォルトの名無しさん mailto:sage [2011/06/26(日) 02:01:46.16 ]: UnicodeとUTF-8の違いがわかっていない発言の例だな >>201
208 名前：デフォルトの名無しさん mailto:sage [2011/06/27(月) 13:35:43.31 ]: 確かにそのようにも取れるが
易に断罪してしまうのは間違いだと思う。
209 名前：デフォルトの名無しさん mailto:sage [2011/06/27(月) 19:45:43.18 ]: 「文字コードとシフトジスの違いがわかってんのか？糞な文字コードでうｐするな」
って言っているようなもの。あきらかな理解不足
210 名前：デフォルトの名無しさん mailto:sage [2011/06/27(月) 20:54:21.02 ]: Unicode規格って、文字集合とエンコーディングひっくるめた規格だっけ？
なんかそこらへん曖昧になる。>>19はあってるのか？
211 名前：デフォルトの名無しさん mailto:sage [2011/06/27(月) 23:23:17.83 ]: >>210
>Unicode規格って、文字集合とエンコーディングひっくるめた規格だっけ？
その通り。
　エンコーディングに関する仕様: www.unicode.org/versions/Unicode6.0.0/
　文字集合の定義:www.unicode.org/charts/

>>>19はあってるのか？
違う。Unicodeは規格であって、文字集合の名前じゃない
212 名前：デフォルトの名無しさん mailto:sage [2011/06/27(月) 23:53:43.78 ]: 文字集合を指すときは、なんて言えばいいんだ? Unicode表?
UCS-2とかUCS-4はどっちだっけ
213 名前：デフォルトの名無しさん mailto:sage [2011/06/28(火) 00:09:11.90 ]: UCSが何の略かを思い出せ
214 名前：デフォルトの名無しさん mailto:sage [2011/06/28(火) 00:09:51.48 ]: UCS-4はISOのエンコーディングの名前。
UCSはISOの文字集合の名前。
Unicodeの文字集合に名前はない。
215 名前：デフォルトの名無しさん mailto:sage [2011/06/28(火) 00:12:21.43 ]: >>213
Universalだろ。Unicodeとは関係なし
216 名前：デフォルトの名無しさん mailto:sage [2011/06/28(火) 00:21:52.80 ]: CSはどこいっちゃったんだよ
217 名前：デフォルトの名無しさん mailto:sage [2011/06/28(火) 00:34:05.00 ]: UCSはUniversal Coded Character Setの略。
Cが一個どこに行っちゃったのか不明。
Unicodeの文字集合は「Unicodeの文字集合」でいいんじゃない？
218 名前：デフォルトの名無しさん mailto:sage [2011/06/28(火) 10:29:58.08 ]: 201です。
まず訂正。
×バカなアメ公
○バカなイタ公
クソコードを投稿（正確にはsvnリポジトリーにコミット）してたのは、イタリア人でした。
でもコードを管理してるコミュニティの親分はアメリカ人で、そいつのチェックでＯＫが出た上で投稿されたんです。

コードというのは、javaで書かれたプログラムコードのことで、テキストのエンコードのことではありません。
話が長くなるのでアレですが・・・
javaでは内部的に文字列をユニコードで処理しています。１文字は16ビットです。
Windowsも皆さんご存知の通り、内部的に文字列をユニコードで処理しています。１文字16ビットです。
Win32APIの末尾に w が付くやつがそうですね。
つまり、javaで何も考えずにフツーにプログラミングすれば、アメ公が作ってもイタ公が作っても
自動的に日本語対応になるんです。
あとは画面に表示されるメッセージを言語別に作成して、利用者の言語にあわせて切り替える仕組み
にしてやれば、マルチリンガルなアプリケーションの一丁あがり！ってワケです。
javaにはもともと、そういう仕組みが用意されてるので簡単です。
ところが、件のバカなイタ公は、文字列を一旦 UTF-8 にエンコードしてから表示しようとするんです。
もちろん文字化けします。バカなイタ公はなぜ文字化けするのか理解できないので
今度はそのUTF-8エンコードされた文字を、javaからWin32APIのWriteConsoleWに渡そうとします。
もちろん文字化けします。バカなイタ公はなぜ文字化けするのか理解できないので
今度はコンソールのコードページを無理やりUTF-8に変更するAPIを使いドツボにハマっています。
何もしなくていい、ただ System.out.println()関数でフツーに表示すればいい、ってのが理解できんのです。

アプリケーションをユニコード対応して国際化したい一心で一生懸命がんばってくれてるキモチはアリガタイwのですがw
ユニコードとUTF-8の違いが理解できてないため、まったくトンチンカンなプログラムコードを書いて投稿します。

このイタ公を何とかして退治したいです。イタ公の愚行をやめさせるナイスな文章を教えてください。
コミュニティは英語以外禁止なので英語で構いません。
219 名前：デフォルトの名無しさん mailto:sage [2011/06/28(火) 10:46:16.97 ]: おまへは先ず日本語を勉強汁
220 名前：デフォルトの名無しさん mailto:sage [2011/06/28(火) 10:46:39.02 ]: >>211
> 　エンコーディングに関する仕様: www.unicode.org/versions/Unicode6.0.0/

ここで文字集合も定義しているが?
221 名前：デフォルトの名無しさん mailto:sage [2011/06/28(火) 20:25:40.31 ]: >>218
TOUIC 420点の俺が説明すると

Don't use JNI.
Don't use new String() or String#getBytes().
Never change code page for console window (use default always).
Simply, you should pass String objects to System.out.println.
ex 1. println("native text")
ex 2. println(str)

Encoding conversion as below is performed:
source text(Native encoding) ->(compilation)-> UTF-16/class file
-> String object(UTF-16) -> System.out.println -> Windows
　　 -> (Windows converts UTF-16 to native encoding)
222 名前：デフォルトの名無しさん mailto:sage [2011/06/29(水) 11:02:32.90 ]: >>218
中学生の妹のことで困っています。
ここ最近、妹は風呂上りに毎回僕の部屋にやってきます。
脱衣所でしっかり体を拭いていないせいか、濡れたタンクトップに乳首が透けて浮き出ています。
視線を逸らしながら注意すると「やっぱ妹のでも気になるんだ？」
と俺をからかいはじめる始末です。
こんな調子で二三時間も居つかれては堪ったもんじゃありません。
この高見盛そっくりの妹を退治するにはどうしたらいいのでしょうか。
223 名前：デフォルトの名無しさん mailto:sage [2011/06/29(水) 11:03:28.46 ]: UnicodeとUTF-8の違いわかってない土方大杉
224 名前：デフォルトの名無しさん mailto:sage [2011/06/29(水) 14:56:27.20 ]: >>218 四行目で読むのやめた
>>222 三行目まで読んだ
225 名前：デフォルトの名無しさん mailto:sage [2011/06/29(水) 16:20:10.45 ]: >>221
TOUICってのは何万点満点なんだい？
226 名前：デフォルトの名無しさん mailto:sage [2011/06/29(水) 22:41:25.18 ]: >>222
漏れにくれ
227 名前：デフォルトの名無しさん mailto:sage [2011/06/30(木) 08:19:39.53 ]: >>223
このスレは３スレ目なのに、酷いものだ
228 名前：221 mailto:sage [2011/06/30(木) 08:27:39.19 ]: >>225
ん？よくしらないけど1000点じゃね。
そのくらい自分で調べな
229 名前：デフォルトの名無しさん mailto:sage [2011/06/30(木) 12:00:51.80 ]: >>228
そもそもTOUICってなんの試験？
馬鹿レベルを計るもの？恥レベル？
230 名前：忍法帖【Lv=14,xxxPT】 mailto:sage [2011/06/30(木) 13:58:51.40 ]: >>229
Test Of Unwise International Computation.
231 名前：デフォルトの名無しさん mailto:sage [2011/07/01(金) 13:39:03.71 ]: なんか長文あったから読んでみたけどいらない情報多すぎだし、このスレに来る人なら知ってることをダラダラ書いてるし途中でやめた
232 名前：デフォルトの名無しさん mailto:sage [2011/07/03(日) 03:52:20.12 ]: Windowsでサロゲートペアのファイル名がZIP圧縮出来ないんだけど、なんとかならんの？
今時シフトJISしか扱えないなんて糞過ぎる。
スマホ上で作ったUTF-8ファイル名のZIP持ってくると文字化けしまくる。
ファイル名にBOM付けてもいいからマジ何とかしてほしい
233 名前：デフォルトの名無しさん mailto:sage [2011/07/03(日) 05:03:45.92 ]: コントロールパネル
　→個人設定
　　→システムロケールの変更
　　　→再起動
234 名前：デフォルトの名無しさん mailto:sage [2011/07/03(日) 05:33:52.76 ]: ZIPそのものが古代の遺物。7-Zipにすればよろしい。
235 名前：デフォルトの名無しさん mailto:sage [2011/07/03(日) 14:42:31.19 ]: >>232
お前が使ってる糞解凍ツールを見直すべきかと
236 名前：デフォルトの名無しさん mailto:sage [2011/07/09(土) 13:45:03.50 ]: Unicodeの文字に言語情報ってある？　日本語かどうか判断したいんだけど。
JIS2004は日本語と判断したい
237 名前：デフォルトの名無しさん mailto:sage [2011/07/10(日) 04:31:44.19 ]: >>236
そんなものは無いし、JIS2004をそのまま含んでいる訳ではないので不可能。

JIS2004に追加された文字でUNICODEに無かった分をUNICODE3.1や3.2でUNICODEに追加した分というのなら調べればわかる。
238 名前：デフォルトの名無しさん [2011/07/10(日) 17:04:21.42 ]: 極端な話アルファベットで日本語の文章を書くことも出来るわけで、
言語とスクリプトは別というのはわりと基礎知識。
239 名前：デフォルトの名無しさん mailto:sage [2011/07/10(日) 19:43:44.83 ]: そんな極論聞いてるわけじゃないんだよねえ
240 名前：デフォルトの名無しさん mailto:sage [2011/07/10(日) 20:40:34.17 ]: 極論じゃないでしょ。
>>236の言う「日本語かどうか」がどういう意味かによって、
やり方が全然変わってくるんだから。
JISで登録されてる文字集合に含まれてるかどうかでいいってのなら、
テーブル見れば済む。
けどそんなこと質問するかね。
241 名前：デフォルトの名無しさん mailto:sage [2011/07/10(日) 21:22:02.68 ]: >>240
Unicodeの文字集合はUnifiedだから、一つの文字が複数の言語に
対応するのは>>236もわかってるでしょ。>>236は
　「A」: 英語,日本語
　「百」: 日本語,中国語
　「あ」: 日本語
みたいなテーブルが欲しかったんでしょ。そんなものは無い。

>>240
>テーブル見れば済む
どこかに正式なものが公開されてる？
無保証でいいなら x0213.org/codetable/sjis-0213-2004-std.txt とかあるけど
242 名前：デフォルトの名無しさん mailto:sage [2011/07/11(月) 13:36:38.84 ]: >>218
超一般論として、説明してもわからない
我々がどっか外国のLatinなんとかの違いでの動作の違いを英語で追求されてもぶっちゃけよくわからんのと一緒だ

エラーが出るテストを作ってそれをつき突けろ
最終的にはそれしかない
「よくわからんがこのテストが通ってるんだからあちらでも問題はないんだろう」というものを作ってさしあげろ
243 名前：デフォルトの名無しさん mailto:sage [2011/07/11(月) 19:57:07.03 ]: 一塊の文章としてなら、IMultiLanguageで文字コードを推定することはできるはずだぜ？
244 名前：デフォルトの名無しさん mailto:sage [2011/07/12(火) 08:47:17.73 ]: >>242
>我々がどっか外国のLatinなんとかの違いでの動作の違いを英語で追求されてもぶっちゃけよくわからんのと一緒だ

ぶっちゃけこの業界はコミュ障が多いから
そこまで他人の立場に立って理解出来る香具師は少ない
245 名前：デフォルトの名無しさん mailto:sage [2011/07/12(火) 16:41:00.55 ]: つーか、駄目なコードの例と正しいコードの例を提示すればいいだけなんじゃねーの？
246 名前：デフォルトの名無しさん mailto:sage [2011/07/14(木) 00:29:31.56 ]: 流れを断ち切って申し訳ないが、
UTF-8がバイトオーダーの影響を受けてLE,BEに分かれないのはどうして？
いや、UTF-16だけが特殊なのか？
CPUがメモリ上の複数バイトを読み書きする際の配置の都合からLE,BEがあるのなら、
UTF-8だってASCII文字以外は複数バイトでしょ？
247 名前：忍法帖【Lv=24,xxxPT】 mailto:sage [2011/07/14(木) 00:58:37.24 ]: UTF-8は1バイトずつ読み書きする。
248 名前：デフォルトの名無しさん mailto:sage [2011/07/14(木) 01:17:06.25 ]: >>246
1文字(16bit整数値1つ)を、どういうバイト列に変換するかの問題。
UTF-16LEは、UCSの1文字を2byteのバイト列に変換する。その順番も規定されている。あ(\u3042) → 42 30
UTF-16BEは、UCSの1文字を2byteのバイト列に変換する。その順番も規定されている。あ(\u3042) → 30 42
UTF-8は、UCSの1文字を1-4byteのバイト列に変換する。その順番も規定されている。あ(\u3042) → e3 81 82

2byteの整数をサイズ2のバイト列に変換する方法は、簡単で合理的な2種類ある(BE,LE)ので、
どちらを使えばいいか迷ってしまい、みんなで混乱する。
一方、2byteの整数をサイズ1～3のバイト列に変換する方法は、それほど自明ではないので、
誰かが「UTF-8」としての変換ルールを決めた。そしてみんながそれに従った。現状、それがうまくいっている。

仮に、「UTF-8なんとか」というUTF-8に似て非なるルールが乱立するなら、UTF-16のLE/BEの混乱と
近いことが起こるかもしれないけど、たまたま現実はそうなっていない。
249 名前：デフォルトの名無しさん mailto:sage [2011/07/14(木) 07:28:59.02 ]: MIME64と一緒か
250 名前：デフォルトの名無しさん mailto:sage [2011/07/14(木) 08:26:50.94 ]: >>246
UTF-8はエンコーディングフォームが1オクテット単位だから、
UTF-8エンコーディングスキームはバイトオーダーに依存しない。

UTF-16とUTF-32エンコーディングフォームが2/4オクテット単位だから、
エンコーディングスキームが複数必要となった。
251 名前：デフォルトの名無しさん mailto:sage [2011/07/14(木) 19:26:49.50 ]: LEとかBEとか分けないで、どちらかに統一すればいいのに。
252 名前：デフォルトの名無しさん mailto:sage [2011/07/14(木) 20:23:18.94 ]: できなかったからこうなってるんだろ

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef