- 1 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 01:26:03 ]
- プログラマーなら一度は煩わされたことのある文字コードについてのスレです。
ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、 合成文字、ソート、TRON、外字コード、その他について語り合いましょう。 各言語での文字列の扱いについての質問もOKです。 基本マッターリ、ささ、茶でもどうぞ。 ■過去スレ 文字コード総合スレ part1 pc11.2ch.net/test/read.cgi/tech/1031028205/ 文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/ 文字コード総合スレ part3 pc11.2ch.net/test/read.cgi/tech/1180250376/ 文字コード総合スレ part4 pc11.2ch.net/test/read.cgi/tech/1228052369/
- 7 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 11:23:37 ]
- RedHatで狽ェ文字化けする。
・(総和の)狽ノついて cp932でRedHatに持ち込んで、iconvでutf-8に変換できるが表示が化ける。 iconvでeuc-jpには変換できない。 win端末上でeuc-jpとして保存した場合、cygwinのiconvで他のコードに変換できない。 →euc-jpとしては存在しない文字扱い? ・(ギリシャ文字の)Σについて コード変換は問題ないが、viで開くと1カラム幅の文字と認識するようだ。
- 8 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 11:45:17 ]
- 1乙。ようやく立ったか。
しかし>>4-7みたいなのは、Wiki立てて そこでまとめたほうがいいような気がするな。
- 9 名前:7 mailto:sage [2009/03/09(月) 12:08:01 ]
- あーいや、>7は纏めじゃなくてちょっと気になったから書いたのだけど。
で、今確認したら(当たり前だけど)Σ以外のギリシャ文字も1カラム幅と認識している模様。 実際に使われているフォントは2カラム幅なのに……
- 10 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 12:35:33 ]
- >>7
> →euc-jpとしては存在しない文字扱い? JISにない。 JIS X 0208にGREEK CAPITAL LETTER SIGMAがあるから、 必要ないと判断された。 GREEK CAPITAL LETTER SIGMAはISO-8859-7にもある。 ただASCIIと違って、JIS X 0208と一緒に使う習慣はなかったから、 FULLWIDTH GREEK CAPITAL LETTER SIGMAというのはない。 LATIN LETTERSとちがって。
- 11 名前:7 mailto:sage [2009/03/09(月) 12:44:22 ]
- >>10
なるほど、半ば呆れつつ納得。THX!
- 12 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 16:46:00 ]
- >人名をソートかけたらバストサイズ順の並びになる?
よくこんなの引っ張り出してきたな
- 13 名前:1 mailto:sage [2009/03/09(月) 20:15:43 ]
- ( >>1->>6 の続き)
■単語一覧 ・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある 表現できる文字空間はUTF-8と同じく20ビットとちょっと ・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。 今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。 似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、 素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。 ・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある ・MSでのウニコードとSJIS変換のバグ。 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】 ・SafariでのウニコードとSJIS変換のバグ。 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA ・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで 再変換しているので、それをしなければよい。
- 14 名前:1 mailto:sage [2009/03/09(月) 20:17:32 ]
- とりあえず纏めてみた。それでは、マッタリ行ってみよう。
- 15 名前:デフォルトの名無しさん mailto:sage [2009/03/09(月) 20:38:52 ]
- これ加えとくわ。
Google Standard Unicode Emoji Mapping unicode.org/~mdavis/08080r-emoji-proposal/ Proposal for Encoding Emoji Symbols/N3582 unicode.org/~scherer/emoji4unicode/snapshot/emoji.pdf Emoji Symbols: Background Data unicode.org/~scherer/emoji4unicode/snapshot/full.html
- 16 名前:デフォルトの名無しさん mailto:sage [2009/03/10(火) 00:58:55 ]
- > References
> *en.wikipedia.org/wiki/Japanese_mobile_phone_culture おいおい まあファイストスの円盤文字もウィキペディア参照してたけど つーかもうJTC1/SC2/WG2のサイトにも上がってるみたいなのに WG2のページトップが更新されてねえ なので直リンク std.dkuug.dk/jtc1/sc2/wg2/docs/n3582.pdf std.dkuug.dk/jtc1/sc2/wg2/docs/n3583.pdf
- 17 名前:デフォルトの名無しさん mailto:sage [2009/03/10(火) 01:10:32 ]
- 絵文字とかHistoric Kana(今はKATAKANA LETTER ORIGINAL Eのみ)を含んだ
Amd.7のドラフト std.dkuug.dk/jtc1/sc2/wg2/docs/n3580.pdf
|

|