[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 2chのread.cgiへ]
Update time : 05/09 13:54 / Filesize : 116 KB / Number-of Response : 591
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

UnicodeとUTF-8の違いは?



1 名前:デフォルトの名無しさん mailto:sage [2007/04/30(月) 20:02:37 ]
ビッグインディアンとかなんとかかんとか

348 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 20:25:36 ]
>>346 一般には違う。
付けるべきじゃないのは、UTF-8であることが上位層で規定されている場合。

349 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 20:28:49 ]
BOMはエンコードを判別するためのものじゃないべさ。
Byte Order Markなんだから。

350 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 20:52:02 ]
つまりメモ帳のあの動作は正しいわけか

351 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 21:18:54 ]
>>349

まぁ元々はそうだったんだけど UTF-8に於いてはUTF-8であることを
あらわすシグネチャという位置付けにされた。

まぁ1バイト文字で済む国はシグネチャなくても全然問題ないんだろうけど
マルチバイト文字使ってる国ではシグネチャない場合は、エンコード誤認の
可能性があるからな。 UTF-8決めうちのソフトならいいんだけど


352 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 21:20:13 ]
勝手に追加するのはどうかと思うが、テキストファイルの頭にBOMついてるからって
誤動作する方が確実におかしい、無視すべき

353 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 21:24:25 ]
#!/usr/bin/env hogehoge

とかをBOM付きで保存すると死ぬって本当?


354 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 22:37:41 ]
ASCIIにしか対応していないものから見たらBOMはゴミ以外の何者でもないから

355 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 22:41:24 ]
UTF-8対応してるといいながら駄目なソフトが多いって話だろ?

356 名前:デフォルトの名無しさん mailto:sage [2008/03/12(水) 23:30:28 ]
ASCIIだったらそもそもBOMは無いだろ
そしてASCII範囲外に対応してるならBOMあっても問題ないし



357 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 02:15:31 ]
俺はドラゴンボールが揃ったらBOMを廃止する。
それからDIS 10646.1、いやごめんなんでもない

358 名前:デフォルトの名無しさん [2008/03/13(木) 03:32:52 ]
BOMよりスーパー写真塾の方がエロイよな。

359 名前:デフォルトの名無しさん mailto:sage [2008/03/13(木) 05:19:48 ]
むかしのエロ本のオンナはそのままのかおだが
いまのエロ本は整形オンナばっかり

360 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 20:31:17 ]
UTF-8にBOMなんか辞めようと
そもそも、BOM=Byte Order Mark で、UTF-16、UCS-2、UTF-32、UCS-4なんかで使うものだし
そいつ(BOM)をそのままUTF-8変換した値がBOMもどきだし

Visual Studio 2005なんかはUTF-8でソース管理出来るみたいだな
今のPRJはLinuxでUTF-16使ってるから文字列は全てリソース扱い、っつかASCIIだろうとそうすべきではあるけど
ソースコードにUTF-16をhexでどかどか書いても見づらいだけだ
だけど、データ管理はUTF-16のがいい。サロゲートペアなんて使うことはまず無いし、1文字=2バイトと見なして差し支えなければ楽でいい
UTF-8は最近ISO 10646だっけ、RFCだっけ、あれUnicode.orgだっけ?規格変更で1〜4バイトの可変長になって、それとともにUTF-32の領域も狭くなったみたいだが

XMLなんかはエンコーディング付いてるから問題ないし、ソースもSJISやEUCさえなんとかなれば別に問題らしいものはない気がする>UTF-8
UTF-8自体ASCIIコンパチだしね

361 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 20:59:22 ]
UTF-32は最初からU+10FFFFまでだよ

362 名前:デフォルトの名無しさん [2008/03/20(木) 21:01:17 ]
お前ら説明下手すぎだろ。
もっと俺にわかるように産業で説明しなさい。

363 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 21:10:47 ]
>ソースもSJISやEUCさえなんとかなれば

これがなんとかならないから UTF-8にBOMが存在しているんだろうけどね。


364 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:18:25 ]
>>360
>エンコーディング付いてるから問題ないし
そういう場合はBOMを付けるなとちゃんと書いてある
ttp://tools.ietf.org/html/rfc3629#section-6

BOMを付けるのはあくまでもそれがUTF-8と確定できない場合だけだから問題ないだろ
それともエンコード不明のテキストファイルを力技でエンコード推測するのが正しいとでも?
あるいはテキストファイル=UTF-8として統一するつもり?
Latin-1とかはそうそう無くならないと思うぞ

365 名前:デフォルトの名無しさん mailto:sage [2008/03/20(木) 23:24:46 ]
エンコード不明のテキストファイルを力技でエンコード推測するのが正しい

366 名前:デフォルトの名無しさん mailto:sage [2008/03/21(金) 09:46:07 ]
BOMダセエと思うが、
BOMも処理できないUnicode処理系は氏ねよ。



367 名前:デフォルトの名無しさん mailto:sage [2008/03/21(金) 16:53:25 ]
Chinaってチャイナじゃなくてシナ=支那だったのね
勉強になった

368 名前:デフォルトの名無しさん mailto:sage [2008/03/21(金) 23:53:53 ]
はい?

369 名前:デフォルトの名無しさん mailto:sage [2008/03/22(土) 00:19:13 ]
いいえちがいます。

370 名前:デフォルトの名無しさん mailto:sage [2008/03/22(土) 01:29:01 ]
チャイナシンドロームってどういういみ?

371 名前:デフォルトの名無しさん mailto:sage [2008/03/22(土) 08:02:56 ]
何の? 一般的には原子炉のメルトダウン事故の用語だが。

372 名前:デフォルトの名無しさん mailto:sage [2008/03/22(土) 11:18:00 ]
Japanてジパングじゃなくてニッポン=日本だったのね
勉強になった

373 名前:デフォルトの名無しさん mailto:sage [2008/03/22(土) 14:49:25 ]
漆器のことだろ?

374 名前:デフォルトの名無しさん mailto:sage [2008/03/22(土) 20:25:36 ]
sorry japanese only.

375 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 00:40:01 ]
かわいそうな日本人専用

376 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 03:26:12 ]
漆塗りのペニスキャップとか作ると
やっぱりかぶれたりするんだろうか



377 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 03:36:46 ]
漆塗りの器で唇かぶれた話とか聞いたことないけど。

378 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 09:25:29 ]
漆がかぶれるのは生(?)の漆だけじゃないかと

379 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 10:50:49 ]
シャープの芯のUniもこれが語源なん?

380 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 12:41:34 ]
ja.wikipedia.org/wiki/%E4%B8%89%E8%8F%B1%E9%89%9B%E7%AD%86

| 国内では「三菱鉛筆」と、旧財閥の三菱グループ各社と混同されないように
| 「uni」(ユニ)のブランドも使っている。「uni」は、英語で「単一の」を
| 表す接頭語「uni」から比類無き品質ということを表したもの。

381 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 13:11:50 ]
単一はmonoだったよーな
⇔pori

モノ

トリ
テトラ

382 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 14:04:20 ]
monoもuniも一つという意味

383 名前:デフォルトの名無しさん mailto:sage [2008/03/23(日) 14:11:37 ]
×pori
○poly

釣りなのかこれは

384 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 09:41:03 ]
ユニークのユニ

385 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 12:14:05 ]
ギリシャ語系のmono, di, tri, tetraと、ラテン語系のuni, bi, ter(tres, tri), quadriの違いだな。
多角形も両方の表現があって、trigon, tetragon, pentagonとするかtriangle, quadrangle, quintangleとするか。
# 尤も、アメリカ辺りだと入り混じっていて、septagon, septangle, heptagon, heptangleのどれも見かけるけど。
## ついでに言えば、polygonに対するラテン語はmultiangleになる筈だけど……

386 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 12:38:42 ]
rectangleは?



387 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 13:10:35 ]
>>386
ラテン語由来。ラテン語にも、rectangulasという言葉があるらしい。英語に直訳すると、right angleになるそうな。
つーか、m-w.comでちょっと調べれば済むことなんですが。

388 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 13:41:24 ]
都市ガスはtoshi gus だからペリーが運んできたオランダ語っぽい

389 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 13:44:07 ]
トナカイってアイヌ語だったんだな

390 名前:デフォルトの名無しさん mailto:sage [2008/03/24(月) 17:13:23 ]
ラッコもな

391 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 03:23:13 ]
MacのZIP解凍したら濁点や半濁点で文字化けするんだけど
これの変換てどうしたらええの?

392 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 08:26:24 ]
NFCしてください。


393 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 11:01:30 ]
NFDとNFCの違いか。
オレもそれやらかして、Perlのモジュール使って直したなあ

394 名前:デフォルトの名無しさん mailto:sage [2008/03/26(水) 21:32:28 ]
ありがとう
一部元に戻らないトコもあるけど中身が理解できる分には戻せたよ

395 名前:デフォルトの名無しさん mailto:sage [2008/04/10(木) 09:02:55 ]
結局UTF-8みたいなASCII互換の可変長コードが主流になるんだったら、
80h〜FFhをコードページ指定にして、
その後の1〜2オクテットをまとまった文字種セットにしとけば、
すっきりしたコードになったのになあ。

396 名前:デフォルトの名無しさん mailto:sage [2008/04/10(木) 22:30:07 ]
状態持ちはイヤン



397 名前:デフォルトの名無しさん mailto:sage [2008/04/10(木) 22:39:27 ]
それなんてISO 2022?

398 名前:デフォルトの名無しさん mailto:sage [2008/04/12(土) 03:23:48 ]
>>395
Arena-i18n内部コードやん
あれは固定長だけど。

399 名前:デフォルトの名無しさん mailto:sage [2008/04/23(水) 07:54:25 ]
>>367
>Chinaってチャイナじゃなくてシナ=支那だったのね
あー!そういう意味だったのか。
支那支那っていうから判らんかった。
支那の語源がChinaなのね。

400 名前:デフォルトの名無しさん mailto:sage [2008/04/23(水) 09:52:54 ]
どちらの語源もサンスクリットの同じ単語だそうだが

401 名前:デフォルトの名無しさん mailto:sage [2008/04/23(水) 12:02:46 ]
いくつか説があるようだが
ttp://www004.upp.so-net.ne.jp/teikoku-denmo/html/history/honbun/cina2.html
は「秦」を語源としてるな
まぁJapanもニッポンがジパングを経てジャパンになったんだから
シナとチャイナ位の違いは普通か

402 名前:デフォルトの名無しさん mailto:sage [2008/04/23(水) 13:12:28 ]
日本の現代中国語読みがリーペンで、マルコポーロが東方見聞録で書いたのがジパング。
この違いがかなりデカい気がするが、どう理解すればよいのやら。
古代中国語で日本をジパングと読む?

403 名前:デフォルトの名無しさん mailto:sage [2008/04/23(水) 22:01:44 ]
ri4ben3は現代普通話でのピンイン
「日」は漢音で"ji" 「本」は呉音で"hong"

404 名前:デフォルトの名無しさん mailto:sage [2008/04/24(木) 02:02:24 ]
今の日本語で日を「ジツ」と読むのは古い中国語からきてるわけだし。
中国は現代音、中古音、古音と何度も大きな変貌を経ている。特にマルコポーロの時代である
元は中国語の発音が大きく変化した時代の一つ。

405 名前:デフォルトの名無しさん [2008/04/26(土) 03:58:14 ]
誰もそんな話は聞きたくないし。
UTF8とユニコードの違いが聞きたいし。

406 名前:デフォルトの名無しさん [2008/04/26(土) 05:29:15 ]
いやいや
>>401の話は重要だよ。

たとえば天安門。
これは自動的に排除するようにプログラムを組むことが義務付けられていて、守らなければ毒ガスの人体実験されて体を切り刻まれる。

>>401の話は、少なくとも一つのキーワードについてそれをしなくてよいと確認できる根拠だから。




407 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 10:05:46 ]
聖火リレーで旗を広げようとした人がそれを広げる間もなく大勢の警官に取り押さえられ逮捕されたけど、日本って中国並みに怖いな。


408 名前:デフォルトの名無しさん [2008/04/26(土) 10:26:45 ]
tvde.web.infoseek.co.jp/cgi-bin/jlab-dat/s/216761.jpg
tv.dee.cc/jlab-maru/s/maru1209168412846.jpg

Japanese police suppressed a member of Tibetan human rights group
日本警察によるチベット人弾圧の様子

409 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 10:57:08 ]
>>408
警官の数が異常すぎ。

「たかだか芸能人が怪我するかも」程度なのに洞爺湖サミットの何倍の警官を投入してるんだと。


410 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 11:24:17 ]
それは勘違いだよ。
この場合、芸能人の命の火が消えること以上に、聖火が消えることのほうにピリピリしてるんだよw

聖火という「設定」がどんなに馬鹿馬鹿しくても、その馬鹿設定を国際的に共有しちゃってる以上、
活動家を抑えられずに聖火消しちゃったら日本の恥だからね。

411 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:10:20 ]
そもそもくだらんイベントに税金使うなよ。

412 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:12:01 ]
Unicode関係ないだろうおまえら……。

413 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:27:16 ]
>>410
でも火を消そうとはしてないんだ。

むしろさらに火を大きくしようとして発炎筒やら布切れやら持ち込んでるわけで。


414 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:31:37 ]
それは始まってからじゃないとワ絡んだろ

415 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:32:28 ]
.NETはたとえ完全でないのでもいいから文字コード自動判別クラスを用意すべき

416 名前:デフォルトの名無しさん mailto:sage [2008/04/26(土) 12:33:36 ]
>>414
普通に殺されかけて通報したときは「ナイフが心臓に刺さったらもう一度通報してください。」って言われるのに。




417 名前:デフォルトの名無しさん [2008/04/26(土) 21:23:08 ]
設計や管理がテケトーだから自動判別なんてのが必要なシステムになるんだ

恥を知れ!

418 名前:デフォルトの名無しさん mailto:sage [2008/05/06(火) 07:28:17 ]
>>415
禿同

419 名前:デフォルトの名無しさん mailto:sage [2008/05/06(火) 09:11:19 ]
>>415
間違えると「バグだ!金返せ」と言うバカの相手にいいかげんうんざりしたんだろう。

420 名前:デフォルトの名無しさん mailto:sage [2008/05/11(日) 17:40:38 ]
>>410
>聖火という「設定」がどんなに馬鹿馬鹿しくても、その馬鹿設定を国際的に共有しちゃってる以上、

これは暗にUnicodeのことを言ってるんだよな?
だよな?

421 名前:デフォルトの名無しさん [2008/05/11(日) 22:49:27 ]
批判くらい小学生でもできる。気に入らないなら代案を示すべき。
ここでグダグダ文句ばっかしタレてるヤツは小学生なのか?

422 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 01:07:59 ]
これは暗にみんしゅとうのことを言ってるんだよな?
だよな?


423 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 01:49:03 ]
>>421
まぁそうなんだが、正しすぎて2ch全否定になってるな。

424 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 06:44:47 ]
>>353
カーネルが1バイト目の#を見てスクリプトと機械語を
識別しているから、その前にBOMがついていたら機械語
として実行しようとして暴走するだろう




425 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 06:52:41 ]
機械語って、おまえELFとか知らんのか


426 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 07:10:45 ]
COMファイルしか知らないんだよきっと



427 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 08:50:43 ]
あれ?最近COMファイルって見かけないな。
使わなくなったの?

428 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 08:52:49 ]
拡張子のCOMならDOS専用だから。

429 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 09:54:42 ]
もうやだこの低レベルスレ

430 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 21:25:44 ]
>>428
ところがどっこい。Windowsは拡張子COMのPEを平気で実行する。
例えばNT系のformat.com

431 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 21:28:54 ]
スレ違い止め止め

432 名前:デフォルトの名無しさん mailto:sage [2008/05/12(月) 23:28:26 ]
>>429
おこぼれを貰いに来てるだけのお前みたいな奴は、
自分じゃその下がったレベルを引き上げられないからつらいよね。

でも、おこぼれ貰いに来てるだけの奴が嘆いても、「勝手に嫌がってれば?」としかw

433 名前:427 mailto:sage [2008/05/13(火) 01:52:21 ]
俺も428と同じ認識でネタを書いたつもりだったが。動くのな。
まあ確かにMSだったら拡張子.comでも動くようにしてそうだ。

434 名前:デフォルトの名無しさん [2008/07/19(土) 10:20:15 ]
タイのヤフーにアクセスするとブラウザにタイ語がきちんと表示されるけど、それをコピペして
エディタに貼り付けると文字化けするのは何故でしょうか?

エディタはUnicode版サクラエディタを使いました。

Yahoo! ?????????
th.yahoo.com/

FrontPage - サクラエディタUNICODE化プロジェクト
mofmof.nsf.tc/soft/sakura_unicode/

435 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 10:42:17 ]
こんなところで聞くより、開発元で聞いたほうが早いと思うぞ。

436 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 10:45:19 ]
unicode->ウニ
utf-8->アワビ



437 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 10:47:01 ]
>>432
おまえもな

438 名前:デフォルトの名無しさん [2008/07/19(土) 11:43:42 ]
>>435
なるほどサクラエディタの問題なのか。
EmEditorだとタイ語というのがあったので、それでするときちんと表示されました。

439 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 12:52:32 ]
たぶんクリップボードからANSI文字列として取得してるんじゃないかな。

440 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 14:13:18 ]
>>434
普通に表示できたけど、フォントリンクがうまくいってないだけとかじゃないの

441 名前:デフォルトの名無しさん [2008/07/19(土) 14:21:07 ]
>>439
EmEditorにコピペすると、ちゃんとタイ語で表示されたので、多分そうではないと思います。
そこで疑問がまた出てきました。

Unicodeってほぼ全文字を扱っているんですよね?
EmEditorのUTF-8を選んでも、上記のタイ語は文字化け。
タイ語を選んでやっときちんと表示される。

タイ語用のUTF-8とかがあるんですかね?

442 名前:デフォルトの名無しさん [2008/07/19(土) 14:22:19 ]
>>440
フォントリンクとはどういうことでしょうか??

443 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 14:29:15 ]
扱ってる文字集合にタイ文字が含まれてないせいで表示されないのか、
ただ単にフォントが足りなくて表示されないだけなのか、
問題を切り分けろっていってるんだよ。

444 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 15:27:41 ]
UTF16は終端文字がNULLバイト2つだから嫌い

445 名前:439 mailto:sage [2008/07/19(土) 15:38:17 ]
>>441
そういう意味じゃなくて。
サクラエディタ自体がミスってて、コピーされた文字列をAPIで取得する時に、
Unicode指定じゃなく、ANSIを指定しちゃってるかもってこと。
まあさすがにそんなことは無いだろうけど。

446 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 15:43:26 ]
>>445
それはないな。俺が確かめたから。



447 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 16:01:27 ]
>>443
UTF-8というのはタイ語は含まれていないのでしょうか?
ブラウザとEmEditorではタイ語をきちんと表示しているので、タイ語のフォントはあると考えてはダメなの
でしょうか?

タイ文字をブラウザからEmEditorにコピペして、それを保存したのをバイナリエディタで見ると、UTF-8じゃ
ないみたいだ。

EmEditorのタイ語という文字コードはUTF-8とは別物ということか?

>>440さんの言っていることは、、自分の環境ではUTF-8のタイ語を表すコード領域とタイ語のフォントが
うまく結びついていないということかな?

でもブラウザではちゃんと表示されているんだよな。
よくわからん。

448 名前:デフォルトの名無しさん mailto:sage [2008/07/19(土) 16:17:46 ]
>>447
少なくともIEとFirefoxは言語別に使用するフォントの設定を持っていて、
タイ語の文字を見つけたら、タイ語用のフォントでタイ語の文字を描く。
ところがサクラエディタはそうなっていないのではないのか、ということ。
(無理に日本語フォント使って豆腐になるとか)

>UTF-8じゃないみたいだ。
保存時にデフォルトでShift_JISが選ばれるなんてことはない?

あと、試しにsakuraW_r1398.zipをダウンロードして
コピペしてみたが、うまくいっているように見えるけど。






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<116KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef