UnicodeとUTF-8の違いは？

UnicodeとUTF-8の違い ..

116:デフォルトの名無しさん
07/05/03 11:31:18
>>113
世の主流言語がPascalとかBasicだったら今頃はUTF-16マンセーの時代だったのかもな。

117:デフォルトの名無しさん
07/05/03 11:43:25
なんでPascalやBasicだったらUTF 16マンセーなの？

というか、現代は既にUTF16マンセーだろ？

118:デフォルトの名無しさん
07/05/03 11:48:34
どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの？
16bitに無理にしたかった弊害がどこまでも付いて回る
今なら24bitなり32bitなりのコードで何の問題もなかった。
ほんの５年待てばよかったのにね。

119:デフォルトの名無しさん
07/05/03 12:16:54
何言ってるんだろね。こいつは。

>どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの？
文字コードから言語を選択する翻訳ソフトってアホだろ。
自動判定するとしても、使われている文字の種別で判定するだろ。

>16bitに無理にしたかった弊害がどこまでも付いて回る
一文目と文章が繋がってなく唐突で、
何が言いたいのか、根拠は何か、さっぱりわからん。

>今なら24bitなり32bitなりのコードで何の問題もなかった。
24bitは別の問題があるし。

>ほんの５年待てばよかったのにね。
「何を」「どの時点から」5年待てばよかったのかさっぱりわからんな。

120:デフォルトの名無しさん
07/05/03 12:20:56
>使われている文字の種別で判定するだろ

ってどうやるの？

121:デフォルトの名無しさん
07/05/03 12:25:07
>>119
>>99 の話じゃない？

バベル倒壊
・・・
　もう一つ、問題なのは、言語指定の仕組を文字コードレベルから排除してしまったことです。
ISO 2022や DIS 10646 1.0では、コードを見るだけで、それがどこの国の文字かを識別することができます。
それはアルファベットの「a」が、英語領域、フランス語領域、ドイツ語領域等々に重複して登録してあるから
なのですが、そんなことをしていたら16bit単一平面に全世界の文字を詰めこむことはできません。
言語指定などは必要なく、それよりも16bit単一平面におさめる方がメリットがある、というのが当時の
Unicodeの考え方だったのです。

122:デフォルトの名無しさん
07/05/03 12:50:46
Unicodeって多言語を扱う一部の人のためのものではないの？
自国語だけで足りてる人にも使わせようとしてるのはなぜ？

123:デフォルトの名無しさん
07/05/03 12:55:36
>>120
asciiしか使われて無いなら英語とか。
文字コード判別より簡単だろ。

>>122
アプリの多言語化は一部の人だけの問題じゃないだろ。

124:デフォルトの名無しさん
07/05/03 13:11:52
>>123
ウニコードの話してるんだろ？　なんでasciiの話が出るんだ？
EUC-JP なら日本語と判るのに
ウニコードだと基本ラテンが続いてるだけじゃどこの言葉か判らんだろ？

125:デフォルトの名無しさん
07/05/03 13:15:17
＞　アプリの多言語化は一部の人だけの問題じゃないだろ。

そう。一部の人だけの問題じゃないのに、一部、
特にＭ＄とシリコンバレーが利益率を上げる為に必要と突っ走ったのが

126:デフォルトの名無しさん
07/05/03 13:16:42
何語かを考えないで全て等しく文字として扱うための仕組みがUnicodeだろ
どこの国の文字かはコードポイントで判断すればいいだけ

127:デフォルトの名無しさん
07/05/03 13:35:36
そのコードポイントでどう判断するんだ？

128:デフォルトの名無しさん
07/05/03 13:40:50
JIS X 0208でもＡとΑとАはコードポイントで何文字か区別つくっしょ

129:デフォルトの名無しさん
07/05/03 13:42:09
>>124
>ウニコードの話してるんだろ？　なんでasciiの話が出るんだ？
Unicodeの話だろ？
ascii範囲だけが多く使われていたらだよ。わかれよ。
Πが使われていたらロシアとかだよ。わかれよ。

130:デフォルトの名無しさん
07/05/03 13:48:30
ascii　ってのは　基本ラテン文字の事だろ？
URLﾘﾝｸ(code.cside.com)

だったら、どうしてコレだけで英語だとわかるんだ？

131:デフォルトの名無しさん
07/05/03 14:02:01
完全に分かる分けないだろ。
後は単語で判別だわな。

132:デフォルトの名無しさん
07/05/03 14:02:25
>>117
Pascal string と C string。

133:デフォルトの名無しさん
07/05/03 14:09:18
>>132
Pascal stringって、文字列の先頭に文字の長さが格納されてるってもんじゃないの？

なんでPascal stringだとUTF-16マンセーになるか、全然説明になってないよ。

134:デフォルトの名無しさん
07/05/03 14:09:49
標準関数自体が今となっては問題の種な訳だが。

strsafe.h で追加された文字列操作関数について
URLﾘﾝｸ(ir9.jp)

135:デフォルトの名無しさん
07/05/03 14:13:23
kono bunshou ha nihon-go desu.

136:デフォルトの名無しさん
07/05/03 14:53:41
>>124
EUC-JPの半角英数だから日本語と決めつける方がどうかしてる
コメントに日本語が使われてるC言語のソースの単語は全部日本語か?
そもそもISO-8859-1の時点ですでに欧州の文字統一しまくりなわけだが?

137:デフォルトの名無しさん
07/05/03 15:11:27
>>134
バッファオーバーフローは、古い関数だからおこるの？違うだろ。

なんであの会社は作り直しを奨励するようなことをやりたがるの？
仕事を増やすためじゃないの？

138:デフォルトの名無しさん
07/05/03 15:24:04
このスレと文字コード総合スレの違いは?

139:デフォルトの名無しさん
07/05/03 15:29:19
>>137
古い関数だと間違いやすく、新しい関数だと間違えづらいだろ？あってるだろ。

>なんであの会社は作り直しを奨励するようなことをやりたがるの？
古いC関数は使わないってのはもう常識なのに…
お前何十年と情報から隔絶されてたんだ…

>仕事を増やすためじゃないの？
逆逆。古い関数使うお前のようなバカの尻拭い仕事を減らすため。

140:デフォルトの名無しさん
07/05/03 15:37:53
>>139
>古い関数だと間違いやすく、新しい関数だと間違えづらいだろ？あってるだろ。
何の話をしてるのかね？関数名を間違えるのかね？
「間違いが起こりやすく」だろ？日本語でおｋ。

>古いC関数は使わないってのはもう常識なのに…
常識なんつーのは、所詮、てめーの知識でしかねーんだよ。
軽々しく常識なんて単語使うな。
お前は、動いているプログラムを変更するが大好きなのか？
それこそ、お前のようなバカの尻拭い仕事をさせられるぜ。

141:デフォルトの名無しさん
07/05/03 16:04:49
>>133
nullターミネートじゃないからUTF-16で間に0x00が入っててもそのまんま
扱えるってことじゃないの？

142:デフォルトの名無しさん
07/05/03 17:09:13
>>140
バカかお前。動いているプログラムを変更しろなんてダレが言った？

これから間違えにくい関数を用意したら、
>なんであの会社は作り直しを奨励するようなことをやりたがるの？
>仕事を増やすためじゃないの？
こんなバカなこと言うアホは死んでね^^

>何の話をしてるのかね？関数名を間違えるのかね？
はぁ？お前の脳内では「関数名を間違える」としか補完できないの?
「使い方を間違える」とかあるだろ。ホントバカだねお前ｗ

「「使い方を間違える」はおかしい」とか言い出したらバカ確定なw
バッファをオーバーするような「使い方は」「おかしい」から。

143:デフォルトの名無しさん
07/05/03 17:24:43
すいません、もうちょっと高度な話題でケンカしてもらえますか

144:デフォルトの名無しさん
07/05/03 17:33:42
ハンドアセンブル最強

145:デフォルトの名無しさん
07/05/03 18:04:08
理由を言わないといけないわけだが・・・？最強だけ言われても納得するのはどんだけ・・・・

146:デフォルトの名無しさん
07/05/03 18:12:03
諦めろ。　叫んだ方の勝ちだ　

147:デフォルトの名無しさん
07/05/03 19:43:27
>>142
>バカかお前。動いているプログラムを変更しろなんてダレが言った？
…作り直しを推奨する…。作り直し。新規の物に作り直しとは言わない。

>これから間違えにくい関数を用意したら、
用意しても全く構わないが、
#define等で旧式と同じようにも使えるようにするもんだろ。
それをしないから文句言ってんだ。

>「使い方を間違える」とかあるだろ。
予想も出来なかったわ。ま「使い方を間違える」なんて考える馬鹿が、あのs付きを有り難がるわけだ。
しかも、デフォルト設定。
M$も、オーバーフローも考慮できない馬鹿は、放置すりゃいいのに。

148:デフォルトの名無しさん
07/05/03 20:10:56
放置して叩かれるのはWindowsですから。

149:デフォルトの名無しさん
07/05/03 23:21:06
>>147
URLﾘﾝｸ(msdn2.microsoft.com)(VS.80).aspx
Visual C++ 2005の場合では、常に使える訳ではないが、
従来の関数がそのままセキュリティ強化版の関数呼出になるようにできる
_CRT_SECURE_CPP_OVERLOAD_STANDARD_NAMESというマクロがある。

もっとも、C++限定なので、>>134のページと同じく、
そもそもC++ならクラスでカプセル化しろよということになるのだが。

150:デフォルトの名無しさん
07/05/04 00:11:02
>>124
>EUC-JP なら日本語と判るのに
確かにEUC-JPなら日本語だけど、その前に
あるバイナリ列がEUC-JPであるとどうやって判断するんだ？
ISO-8859やEUCであることはわかっても
どこの国のかは単純には判断できないだろ

151:デフォルトの名無しさん
07/05/04 10:34:29
>>129は世界には言語が５つくらいしかないとでも思ってんのか？
例えば、英語とインドネシア語はどうやって判別するんだ？ｗ　統計的手法とか言うなよ。お前の発言と矛盾するからな。
ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの？

152:デフォルトの名無しさん
07/05/04 11:00:39
っ地球上の3人に1人はちうごく人

153:デフォルトの名無しさん
07/05/04 11:34:10
インドも恐ろしい。下手すると、世界の現行文字の３分の１くらいはインド１国で占めかねない。

154:デフォルトの名無しさん
07/05/04 12:52:20
お前ら言語タグ使えよ。

155:デフォルトの名無しさん
07/05/04 13:33:44
> ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの？
それはEUC-JPでも全く同じように問題なわけで
文字コードで言語判別しようとするのがそもそもの間違い

156:デフォルトの名無しさん
07/05/04 13:58:05
「日本語をアルファベットで表記する」なんていうこともあるし、
言語とスクリプト(日本語では「用字」だっけ?)も分けて考えないといかん。

157:デフォルトの名無しさん
07/05/04 14:02:25
yorosikuと夜露死苦と紐育と上海はそれぞれ何人の何語の何文字なのかというやつだな。

158:デフォルトの名無しさん
07/05/04 17:33:09
This site is Japanese only.
と英語で書いてある日本語サイトとはこれいかに

159:デフォルトの名無しさん
07/05/04 17:58:11
Ｓｏｒｒｙ　Ｊａｐａｎｅｓｅ　ｏｎｌｙとか

160:デフォルトの名無しさん
07/05/04 18:11:29
哀れな日本人のみ利用可能

161:デフォルトの名無しさん
07/05/04 18:19:31
しかも全角

162:デフォルトの名無しさん
07/05/04 20:10:22
たまには縦倍角・横倍角・４倍角も思い出してあげて

163:デフォルトの名無しさん
07/05/04 21:08:28
フォントの拡大縮小が自由にできなかった時代の遺物ですね
テラナツカシス

164:デフォルトの名無しさん
07/05/04 21:11:07
半角全角もあぼーんしてくれ

165:デフォルトの名無しさん
07/05/04 21:16:01
半角カナは組み込みでまだ使ってます
Unicode？なにそれ？

炊飯器で使われるようになったらUnicode勝利宣言してもいいかな

166:デフォルトの名無しさん
07/05/04 22:05:58
そこに全角文字、マルチバイト文字はあるのか？

167:デフォルトの名無しさん
07/05/04 23:38:55
笑園漫畫大王

168:デフォルトの名無しさん
07/05/05 00:05:38
This Home Page is Link Free !

169:デフォルトの名無しさん
07/05/05 09:05:28
This Home Page is Link GPL!

170:デフォルトの名無しさん
07/05/05 11:53:34
This Home Page is Open Source.

171:デフォルトの名無しさん
07/05/13 17:05:06
「私のために争わないで」文字コードのUTF8さん、自殺 : bogusnews
URLﾘﾝｸ(bogusne.ws)

ｸｿﾜﾛﾀ

172:デフォルトの名無しさん
07/05/13 17:18:03
ネタにマジレスするのもアレだがUTF8とCP932の年齢がおかしくないか?

173:デフォルトの名無しさん
07/05/17 13:33:45
アスキーとアンジーの違いは？

174:デフォルトの名無しさん
07/05/17 13:49:36
>>173
JIS と JIS X 0201 の違いを聞いてるようなもんかな

175:デフォルトの名無しさん
07/05/17 14:16:28
？

176:デフォルトの名無しさん
07/05/17 14:29:07
UTF-8
と
UTF8
の
どっちが正しい？

177:デフォルトの名無しさん
07/05/17 16:40:25
前者

178:デフォルトの名無しさん
07/05/17 19:01:44
どっちも正しい

179:デフォルトの名無しさん
07/05/17 19:18:30
>>174
JISじゃなくてJSAだろ。

180:デフォルトの名無しさん
07/05/17 19:42:29
>>176
MIME charset名としては前者

181:デフォルトの名無しさん
07/05/17 19:49:39
ISO/IEC 10646の表記も、Unicode Bookの表記も前者。

182:デフォルトの名無しさん
07/05/19 05:55:00
>>177-181
沢山回答頂きありがとうございます
MySQLを使っていてデフォルトを
Latin1からUTF8に変えたんですが
こいつはUTF-8じゃなくてUTF8と
書かないといけないみたいで
なんで2種類あるのかなぁと

183:デフォルトの名無しさん
07/05/19 07:43:53
ハイフンはトークンの区切りになるからでしょ。

184:デフォルトの名無しさん
07/05/29 20:09:42
シフトジスは shift-jis
だけど
ジスは iso-2022-jp

こういったので迷うのは俺だけ？

185:デフォルトの名無しさん
07/05/29 20:29:25
>>184
ｋｗｓｋ

186:デフォルトの名無しさん
07/05/29 20:47:39
URLﾘﾝｸ(e-words.jp)
URLﾘﾝｸ(e-words.jp)

.NETのエンコードの話なんだけど、ジスコードの規格っていろいろあって、
iso-2022-jp 日本語 (JIS)
csISO2022JP 日本語 (JIS 1 バイトカタカナ可)
iso-2022-jp 日本語 (JIS 1 バイトカタカナ可 - SO/SI)
迷うよな

187:デフォルトの名無しさん
07/05/30 00:17:09
いわゆるシフトJISだってShift_JIS,　Shift_JIS-2004,　CP932　(Windows-31J)と種類豊富
大体CP932以外使わないけどな

188:デフォルトの名無しさん
07/05/30 00:20:07
WEBとかエンコードの柵が強いからいやだなぁ・・・
もう慣れたけど、うっかりで文字が化けたりする敏感なの何とかしてほしいな

189:デフォルトの名無しさん
07/05/30 00:33:06
Unicode以外使ったら罰金。

190:デフォルトの名無しさん
07/05/30 00:38:27
>>189
じゃぁ、まずシフトJISで書き込みを行った >>189 が率先して
UNICODEコンソーシアムに罰金を払ってください。

191:デフォルトの名無しさん
07/05/30 02:45:57
俺専用コード

ロリコードとかだめっすか？

192:デフォルトの名無しさん
07/05/30 03:11:59
>>191
ぷにコード(実在する)でも使ってなさい

193:デフォルトの名無しさん
07/05/30 07:31:56
その括弧がきは馬鹿っぽく見える

194:デフォルトの名無しさん
07/05/30 07:40:08
そういう演出は必要さ。　首相の「ザンキにたえない」発言と同じ。

195:デフォルトの名無しさん
07/05/30 08:41:11
「ザンキにたえない」ってどういう意味なん？

196:デフォルトの名無しさん
07/05/30 08:46:01
URLﾘﾝｸ(www.asahi.com)
＞首相周辺は「こういう結果に至ったことへの自らの責任を、この言葉に込めた」と解説する。

197:デフォルトの名無しさん
07/05/30 10:29:13
スクリューパイルドライバーの吸い込みを防げないことだろう

198:デフォルトの名無しさん
07/05/30 13:14:37
文字コードが乱用されているのはプログラマーとしてはやりづらい。
いっそのことすべてUnicodeにしてくれれば手間が省けるのにorz

199:デフォルトの名無しさん
07/05/30 14:45:29
Unicode自体が何種類もある事態

200:デフォルトの名無しさん
07/05/30 15:55:44
すべてUnicodeにしようってのは
そばの出前も会社の通勤も全てトラックを使おう
ってのと同じくらいナンセンス

201:デフォルトの名無しさん
07/05/30 16:18:43
そのUnicodeだって、結合文字列・合成済み文字とか、文字列の向きとか
UTF-16のサロゲートペアとか、考え込むネタは尽きないわけで

202:デフォルトの名無しさん
07/05/30 18:09:49
字体の扱いもおかしい
利用は辞退させて頂く

203:デフォルトの名無しさん
07/05/30 18:34:53
審議中（AA略

204:デフォルトの名無しさん
07/05/31 07:56:46
16bitじゃ絶対無理って最初からわかってたのに、
16bitに無理やり収めようなんて考えて自爆した欧米人は馬鹿すぎ

205:デフォルトの名無しさん
07/05/31 09:59:32
8bitで十分だったから16bitにするだけでもビビってたのさ

206:デフォルトの名無しさん
07/05/31 11:37:56
かれこれ20年になるのか

207:デフォルトの名無しさん
07/05/31 13:38:31
アメリカに限れば、7bitででも足りてたんだよね？

208:デフォルトの名無しさん
07/05/31 14:06:20
5bitでも足りるわな
URLﾘﾝｸ(www.trans-usa.com)

209:デフォルトの名無しさん
07/05/31 14:58:18
PCのインターフェースもパラレルからシリアルになってきたし、
文字コードも可変長なシリアルに変更しようぜ

210:デフォルトの名無しさん
07/05/31 16:59:59
それとこれとは訳が違う。
しかも例えが逆だろう。

211:デフォルトの名無しさん
07/05/31 17:23:43
>>209
つUTF-8

212:デフォルトの名無しさん
07/05/31 20:31:39
>>201
Unicode「と」他のあらゆるコードを全部相手にするよりはマシ

213:デフォルトの名無しさん
07/06/01 00:11:51
>>192
残念ながらPunycodeはピュニコードと音訳するのが近い。

214:デフォルトの名無しさん
07/06/01 05:31:51
うにこーど
ゆにこーど

どっちが正しいですか？

215:デフォルトの名無しさん
07/06/01 06:57:40
うにっくすとおなじくうにこーどがただしいですよ。

216:デフォルトの名無しさん
07/06/01 09:39:31
URLﾘﾝｸ(www.uny.co.jp)
ここも「ウニー」だしな

217:デフォルトの名無しさん
07/06/01 09:40:30
日本ウニシス

218:デフォルトの名無しさん
07/06/02 08:50:03
ウではじまるとウインドーズみたいで嫌だな

219:デフォルトの名無しさん
07/06/02 08:54:13
シャーペンの替え芯売ってるあのメーカってウニと読むのか

220:デフォルトの名無しさん
07/06/02 10:19:14
いいえ、三菱鉛筆です。

221:デフォルトの名無しさん
07/06/02 12:07:44
ウマ・サーマン？
ユマ・サーマン？

222:デフォルトの名無しさん
07/06/02 12:11:32
ウマ・サーマン！

223:デフォルトの名無しさん
07/06/02 12:26:54
Unimog
Wikipedia項目ﾘﾝｸ

224:デフォルトの名無しさん
07/06/02 14:37:17
ウナイテッド・ステイツ・オブ・アメリカ

225:デフォルトの名無しさん
07/06/02 14:45:19
知り合いのヌーヨーカー(w)は「ヤイェヨ」は変わらないけど「ユ」は「ウ」になるって言ってた。

226:デフォルトの名無しさん
07/06/02 20:24:27
Nuyork ？

227:デフォルトの名無しさん
07/06/02 21:31:38
ewの発音は、元来「ユー」なんだけど、「ウー」に化けているのでnewが「ヌー」になる。

228:デフォルトの名無しさん
07/06/02 21:39:16
４へぇ～

229:デフォルトの名無しさん
07/06/02 22:47:15
最初 knew を /nu:/ と発音されたときはさっぱり理解できんかったなあ。

230:デフォルトの名無しさん
07/06/08 10:40:47
TRONコードに統一しようぜ

231:デフォルトの名無しさん
07/06/09 02:54:12
TRONコードは(少なくとも現在の実装は)日本のことしか考えてません

232:デフォルトの名無しさん
07/06/09 16:03:04
>>230
ｽﾚﾘﾝｸ(os板:7-13番)

233:デフォルトの名無しさん
07/06/09 22:50:28
TRONコードに収録されてる文字のグリフはTRON文字収録センターで公開されてるけど
同定のための情報は提供されてないな。それは超漢字という製品に付けて売ってるから
公開できないだろうし

234:デフォルトの名無しさん
07/06/11 19:41:57
エスペラントでOK

235:デフォルトの名無しさん
07/06/12 09:50:19
Mi estas tre ĝoja konatiĝi kun vi.

236:デフォルトの名無しさん
07/06/12 23:33:50
>>235
これエスペラントなの？
最初スペイン語かと思った。

237:デフォルトの名無しさん
07/06/12 23:37:08
Mi estasでI amなのは覚えてる。
この辺の語彙はラテン語系から採用してるんだよな。

238:デフォルトの名無しさん
07/06/12 23:40:10
あ、やっぱりそうなんだ。

239:デフォルトの名無しさん
07/06/13 00:05:44
だから印欧語族の連中には割と覚えやすいんだよ
日本語とか圧倒的に不利
ある意味Unicodeと一緒だな

240:デフォルトの名無しさん
07/06/13 00:07:46
利用者が単語登録してもいいところとかね。

241:デフォルトの名無しさん
07/06/13 06:27:32
ところでかんじんのUnicodeとUTF-8の違いがまだ
のべられてないよね

242:デフォルトの名無しさん
07/06/13 09:58:11
それは1桁で終わったんじゃないのか

243:デフォルトの名無しさん
07/06/14 17:39:54
インディアン嘘ツカナイ

244:デフォルトの名無しさん
07/10/05 16:28:22
馬鹿を見ることになるぞ

245:デフォルトの名無しさん
07/10/06 00:23:04
約四ヶ月ぶりのレスがそんなでは、目が点になっちゃうだろ。　もうすこしなんかかけ。

246:デフォルトの名無しさん
07/10/06 04:33:30
けっきょくいまだにスレタイトルの疑問をだれもがなｔっとくできるほどうまく解説した人があらわれない

247:デフォルトの名無しさん
07/10/06 11:19:13
>>246
>8で充分だろ。Unicodeの符号化方式の一つがUTF-8。

248:デフォルトの名無しさん
07/10/08 01:28:21
Unicode: 人々
UTF-8: 名前一覧

249:デフォルトの名無しさん
07/10/09 18:44:37
>>247
いや、Unicodeは単なる文字集合（レパートリ）ではなく、
あくまでも符号化文字集合だろ。

250:デフォルトの名無しさん
07/10/09 19:20:19
Coded Character Set: Unicode
Character Encoding Form: UTF-8, UTF-16, UTF-32
Character Encoding Scheme:
UTF-8, UTF-16, UTF-16BE, UTF-16LE, UTF-32, UTF-32BE, UTF-32LE

251:デフォルトの名無しさん
07/11/12 04:35:06
どうして
UNICODE って UNI - CODE なはずなのに
何種類もあるのはなぜ？

252:デフォルトの名無しさん
07/11/12 10:19:13
>>251
どうして>251の日本語がおかしいのはなぜ?

253:デフォルトの名無しさん
07/11/13 08:37:12
雲丹には糞という意味もあるんだぜ

254:デフォルトの名無しさん
07/11/13 15:09:13
バージョン違いを除けば、文字集合は常に唯一。
符号化の方法が色々あるだけ。

255:デフォルトの名無しさん
07/11/13 20:32:27
ハングル……いやなんでもない

256:デフォルトの名無しさん
07/11/13 21:11:28
UCS-2 ?

257:デフォルトの名無しさん
07/11/16 02:58:10
UNICODE

UNCODEI

258:デフォルトの名無しさん
07/12/17 18:06:40
hjfjgfjgj

ktykytk

hjkghkkg

j,jhjhklkgh

urtutrtu

jjkfjfg

259:デフォルトの名無しさん
08/02/04 14:32:42
unicodeとutf-8の違いは
50音と平仮名の違いと一緒だろ

260:デフォルトの名無しさん
08/02/04 15:59:19
utf-16が片仮名？

261:デフォルトの名無しさん
08/02/04 16:08:46
片仮名でもローマ字でもなんでもいいよ
一つ一つマッピングする意味は無いと思うが

262:デフォルトの名無しさん
08/02/05 23:56:09
いや一緒とは思えないから

263:デフォルトの名無しさん
08/02/06 08:04:57
50音は平仮名でも片仮名でもないだろ。
読み方を定義したのが50音で、それに割り当てるのが平仮名であったり
片仮名なんだから。

264:デフォルトの名無しさん
08/02/07 01:43:44
世界中の文字を表わせる Unicodeってのを定義しました。

じゃあそれを2オクテットで表現しよう→UCS-2

でも他の文字コードと互換性ないしいちいち全部に2オクテット使うのは不便だから
よく使う文字を1オクテットに対応させて使わないのは2,3,4オクテットに分けて符号化しよう。
これでASCIIコードと互換性できたしよく使う文字は少ないオクテットで表現できる。→UTF-8

でもUnicodeって2オクテットじゃ表現しきれなくなってます。
じゃあ4オクテット(実際は31ビット）使おう。→UCS-4

4オクテットじゃ長すぎるからよく使う文字を以下略で分けて16ビット符号化しよう。
UCS-2の範囲はそのまま表わそう、不足しているUCS-4の部分はあんまり使わないし符号2つを組み合わせて32ビットで表わそう。
内部がややこしくなったけどUnicode全部表現できるからいいよね。→UTF-16

っていう感じの認識しかないな俺は。

265:デフォルトの名無しさん
08/02/07 02:55:54
どっちかというとこんな感じ。

32ビット化してUCS-4/UTF-32作った。
けど、今までのUCS-2なシステムどうしよう？
じゃあマルチバイトっぽいことしよう→UTF-16

266:デフォルトの名無しさん
08/02/07 05:12:00
16ビットで世界の文字を網羅出来るなんてマジで思っていたのかね

267:デフォルトの名無しさん
08/02/07 12:30:06
１０年も昔の環境じゃできるだけリソース消費を抑えたいってのはわかるし
３オクテットじゃ扱いにくいし４じゃ多すぎるしで話がまとまらなかったんだろうな。

268:デフォルトの名無しさん
08/02/07 21:05:02
単純に中国で既にコード化されてる分で漢字の量はOKとか考えてたんじゃないか

269:デフォルトの名無しさん
08/02/07 21:49:38
そもそもそのやり方じゃ足りねえと文句付けたのは中国

270:デフォルトの名無しさん
08/02/07 23:28:49
増やす気まんまんだったわけだな

271:デフォルトの名無しさん
08/02/12 06:48:24
UCS-2とUTF-16の違いがわからない

272:デフォルトの名無しさん
08/02/12 08:14:34
サロゲートペアでの拡張があるのがUTF-16、それがなくて16ビットだけなのがUCS-2

273:デフォルトの名無しさん
08/02/12 10:54:25
WindowsXPのメモ帳で保存しようとすると
アンジーがデフォルトになってるんだけどシフトジスってのがみあたらないんだが。でも日本語ドキュメントがうまく保存される。
つまり、
アンジー = シフトジス
だと思う。

274:デフォルトの名無しさん
08/02/12 17:08:33
メモ帳の選択肢のANSIというのは、
現在使用中の言語のANSIコードページの文字コードということ。
日本語の場合、それはコードページ932、つまりMicrosoftのShift_JIS。

言語の設定を変えれば、当然ANSIで保存するときの文字コードも変化する。

275:デフォルトの名無しさん
08/02/12 17:30:56
>>274 そういう意味だったのか !

276:271
08/02/12 23:05:35
>>272
では、Windowsの内部コードというか、hogehogeW系のUNICODE APIは、
UCS-2かUTF-16なのでしょうか？

277:デフォルトの名無しさん
08/02/12 23:10:22
Windows 2000以降はUTF-16
それ以前はUCS-2(つまりサロゲートに対応していなかった)

278:271
08/02/12 23:49:03
サロゲートがいまいちわからん
2バイトで足りないから、上位、下位にわけたってことは、
UCS-2が2バイトとで、サロゲートのあるUTF-16は上下合わせて4バイトってこと？

279:デフォルトの名無しさん
08/02/12 23:58:17
そうだよ

280:デフォルトの名無しさん
08/02/13 00:04:43
>>278
単に未使用領域の2文字分を組み合わせて使ってUCS-2に無い分の文字を表わそうというだけの話だから
・UCS-2 → そもそもその文字が無い
・UTF-16→ その部分だけ4バイト。UCS-2にもある文字は2バイト
という事になる

281:271
08/02/13 04:00:14
>>280
なるほど足りないところだけ4バイトか
つまり、可変長なのね。
2バイト固定かと思ってたよ＞UTF-16
へえ

282:デフォルトの名無しさん
08/02/13 10:43:50
へえへえへえ

283:デフォルトの名無しさん
08/02/13 23:46:44
>>281
そう。だからUTF-16の２バイトの部分がUCS-2と同じっていうメリットがあるんよ。
４バイト部分はあんまり使わない部分だからサロゲートペアっつう２つ合わせる方式で表わしてる。

284:デフォルトの名無しさん
08/02/14 03:42:37
UCS-2=文字コード、UTF-16＝文字エンコーディング
じゃなかったっけ？

UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。

285:デフォルトの名無しさん
08/02/14 08:16:40
UCSは文字集合。
UTFはエンコーディング。

文字コードというあいまいな語はこういう議論では避けるべき。

286:デフォルトの名無しさん
08/02/14 08:20:31
>UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。

Unicodeではエンコーディングをencoding formとencoding schemeの二段階に
分けていてそのへんややこしいことになってる。

287:デフォルトの名無しさん
08/02/14 10:39:55
　国試では、｢UNICODEとは、全ての文字体系が収まる"2byte"の文字コード｣というのが正解答だったりする件。
いつからバイト長が固定されたんだよタコ。

288:デフォルトの名無しさん
08/02/14 10:48:36
3.0未満のUnicodeかよorz

289:デフォルトの名無しさん
08/02/14 11:09:02
2byteだったら1.xじゃない？

290:デフォルトの名無しさん
08/02/14 12:55:03
それぞれの構造が単純じゃないから説明するのが面倒だな。

291:デフォルトの名無しさん
08/02/14 14:52:35
>>284
ユニコードに関係した規格として、次の2つがある。
ユニコードコンソーシアムの「Unicode」。
ISO/IECの「ISO/IEC 10646 Universal Multiple-Octet Coded Character Set」。

前者の規格に含まれる符号化（エンコーディング）がUTF-8、UTF-16、UTF-32など。
後者の規格に含まれる符号化がUCS-2とUCS-4、UTF-8など。

UTF-8が両方に収録されているけど、同一と思って差し支えない。

292:デフォルトの名無しさん
08/02/14 15:26:33
>>284

UCSは文字集合。

そしてその文字集合から2バイトで表せる部分を切り取ってきて
そのまんま使うのがUCS-2

それを拡張して使用できる文字範囲を広げたのがUTF-16

UTF-8は別のアプローチの符号化方法

293:デフォルトの名無しさん
08/02/14 21:00:42
>>289
それ以前に1バイト=8ビットとは限らない

294:デフォルトの名無しさん
08/02/14 21:04:49
どういう場合に１バイト８ビットじゃなくなるの？

295:デフォルトの名無しさん
08/02/14 21:13:58
マシンがPDP-11だったりした場合

296:デフォルトの名無しさん
08/02/14 21:26:35
JIS X 0208/0213の規格名ではわざわざ「7ビット及び8ビットの…」と言ってるだろ。
1バイトが8ビットとは限らないからだ。
それに対してUCSは>>291にあるとおり"Universal Multiple-Octet..."で
8ビットであることを明確化している

297:デフォルトの名無しさん
08/02/15 00:08:33
1バイト≠8ビットな処理系でUTFを扱うようなケースはほぼないんじゃない？

298:デフォルトの名無しさん
08/02/15 07:07:52
UTF-7もdeprecatedになったしな

299:デフォルトの名無しさん
08/02/15 10:17:45
UTF-9の時代だろ

300:デフォルトの名無しさん
08/02/15 10:50:34
ｴｲﾌﾟﾘﾙﾌｰﾙにはまだ早いぜ

301:デフォルトの名無しさん
08/02/16 01:39:08
>>295
PDP-11 は 16bit マシンだぞ．DEC-10/20（36bit マシン）のことか？

302:295
08/02/16 08:58:39
すまん

>>301 それです

303:デフォルトの名無しさん
08/02/16 11:03:02
Latin-1の設定になってしまってるMySQLにUTF-8ぶっこんでもちゃんと動くんだけど
無理にset character set utf8してアクセスするとかえって文字化けしてしまう
そのままつかってたほうがいい？

304:デフォルトの名無しさん
08/02/16 11:30:47
MySQLのバージョンは?
4バイト以上のBMP外を表すシーケンスに対応したのは6.0以降だから
それより古いバージョンではLatin-1ということにして
変換は自分で行うとかの小細工が必要

305:デフォルトの名無しさん
08/02/17 01:56:53
きっと、PDP-8の12bitなんですよ（を

306:デフォルトの名無しさん
08/02/17 09:46:31
Unisys機(旧UNIVAC系の古い汎用機)では、
1文字=6/8/9/12ビットと、4通りあったりする。
（1ワード=36ビットのマシンの生き残り）

307:デフォルトの名無しさん
08/02/17 13:41:02
ユニコードのインディアンて？

308:デフォルトの名無しさん
08/02/17 14:54:58
>>307
インド人です。アメリカ原住民のことは、ネイティブアメリカンと呼んでください。

309:デフォルトの名無しさん
08/02/17 15:19:14
原住民的にはむしろインディアンの方がいいらしいけど

310:デフォルトの名無しさん
08/02/17 15:59:19
エンディアンの語源を考えるとインディアンと表記しても間違いじゃないなぁ。

311:デフォルトの名無しさん
08/02/20 02:18:31
9bitはPDP-10だろ。過去にかなり真面目に議論されたし、ちゃんとRFCも出てるぞ。
URLﾘﾝｸ(www.rfc-editor.org)
>306の言うとおり、昔は１バイト6bitだってあった。ISO646だって、7bit の他に6bit版の文字コードも
規定されてたし。近年の改正で6bit文字コード規定は残念ながら消滅してしまったけどね。

312:デフォルトの名無しさん
08/02/20 08:36:24
みかんはリトルエンディアンの方が白い筋がよく取れるそうだ。

でも皮が硬いときはビッグエンディアンかなー。

313:デフォルトの名無しさん
08/02/20 12:17:51
シフトジスとMSPゴシックは違うものだろうか？

314:デフォルトの名無しさん
08/02/20 12:29:34
>>287
Unicodeは規格/標準の名前なのになあ。
検索とか比較とか符号化とか、文字に関する処理について書いてある。
URLﾘﾝｸ(www.unicode.org)
URLﾘﾝｸ(www.unicode.org)

315:デフォルトの名無しさん
08/02/20 12:30:44
>>291
付録CにUCS-2, UCS-4について、
ISO 10646との関係が書いてありますね。

316:デフォルトの名無しさん
08/02/20 22:15:13
>>313
全然別物。
Shift_JIS = エンコーディング
MSPゴシック = フォント名

317:デフォルトの名無しさん
08/02/21 05:59:06
文字コードをMS明朝で保存するのはどうやる？

318:デフォルトの名無しさん
08/02/21 06:12:40
>>317
仕事の都合上、いやいやPC使ってんなら会社で聞け。
そうじゃないなら、もっと基礎から学び直せ。

319:デフォルトの名無しさん
08/02/21 09:06:33
>>317
おまえはどこのPython使いだ？

320:デフォルトの名無しさん
08/02/21 15:21:52
あなたはお風呂に入るとき
みかんから食べますか？
それとも山に登りますか？

321:デフォルトの名無しさん
08/02/21 16:31:47
VB.NET2005だとまだエンコードクラスにMSPゴシックがないけど
できるだけ早く対応して欲しい。

322:デフォルトの名無しさん
08/02/21 20:25:57
つまらないから帰れ
ネタじゃないならなおさらさっさと帰れ

323:デフォルトの名無しさん
08/02/21 21:59:36
IDEのフォントをＭＳＰゴシックにすれば解決？

324:デフォルトの名無しさん
08/02/25 10:55:59
なんで半角文字の範囲まとまってないんだよファッキン！！

325:デフォルトの名無しさん
08/02/25 11:04:20
すみません、取り乱しました。

326:デフォルトの名無しさん
08/03/07 11:56:50
unicodeに含まれる文字には番号はついてるんでしょ。
どうしてそれは使えないの？

327:デフォルトの名無しさん
08/03/07 11:59:19
>>326
どこからの話の流れか分からないが、
それ（コードポイント）をそのまま使う符号化には
UTF-32, UCS-4, UCS-2がある。

328:デフォルトの名無しさん
08/03/07 12:55:57
ありがとさんです。

329:デフォルトの名無しさん
08/03/07 15:58:57
UTF-32, UCS-4, UCS-2はどう違うの？

330:デフォルトの名無しさん
08/03/07 16:08:50
UTF-32/UCS-4
1文字32ビット。
現在では2つとも同じ中身。
どの規格に含まれているかというだけの違い。>>291に書いてある。

UCS-2
1文字16ビット。U+10000以上のコードポイントを持つ文字は表現できない。

331:デフォルトの名無しさん
08/03/07 16:13:56
UTF-32 は U+110000 以上は無いんじゃ？

332:デフォルトの名無しさん
08/03/07 16:16:36
もうめんどくさいから今までの全部廃止してUTF-256とかに統一して欲しい

333:デフォルトの名無しさん
08/03/07 16:55:24
まったくだな

334:デフォルトの名無しさん
08/03/07 18:30:27
バイトオーダーも固定して64byteぐらいにしておけばいい。

335:デフォルトの名無しさん
08/03/07 18:50:01
そうだね余裕がある事はすばらしい事だね。

336:デフォルトの名無しさん
08/03/07 19:03:36
アルファベット件の馬鹿共のせいで混迷しているのだ

337:デフォルトの名無しさん
08/03/07 19:08:01
そういやIPAとUnicodeの対応表みたいなのってないの？

338:デフォルトの名無しさん
08/03/07 20:25:10
URLﾘﾝｸ(webos-goodies.jp)

339:デフォルトの名無しさん
08/03/07 20:34:37
Microsoft Visual UTF-2008 Professional Edition

340:デフォルトの名無しさん
08/03/07 21:22:58
>>331
UCS-4もU+110000以上は使わないことになった。
>>330に「現在では」と書かれているのはそのへんの含みがあると思われる

341:デフォルトの名無しさん
08/03/11 09:39:54
Unicode識別子についての日本語資料ってない？

342:デフォルトの名無しさん
08/03/12 15:18:27
UTF-8にBOMついてるとまともに動かないソフトが多すぎて嫌すぎる
もっと細分化して、細かく細部まで決めてくれないとどーしよーもないな、実際

343:デフォルトの名無しさん
08/03/12 15:41:24
アンジーってサイモンとガーファンクルだったような

344:デフォルトの名無しさん
08/03/12 19:21:59
UTF-8ってBOMつけるんだっけ？

345:デフォルトの名無しさん
08/03/12 19:32:18
RFC 3629 の 6. を見よ

346:デフォルトの名無しさん
08/03/12 19:37:18
なる、つけるべきではないのか。

347:デフォルトの名無しさん
08/03/12 19:43:49
いや、ついていても受け入れるべき
MySQLみたいにそもそもUTF-8を理解してない馬鹿げたソフト多すぎ

348:デフォルトの名無しさん
08/03/12 20:25:36
>>346 一般には違う。
付けるべきじゃないのは、UTF-8であることが上位層で規定されている場合。

349:デフォルトの名無しさん
08/03/12 20:28:49
BOMはエンコードを判別するためのものじゃないべさ。
Byte Order Markなんだから。

350:デフォルトの名無しさん
08/03/12 20:52:02
つまりメモ帳のあの動作は正しいわけか

351:デフォルトの名無しさん
08/03/12 21:18:54
>>349

まぁ元々はそうだったんだけど UTF-8に於いてはUTF-8であることを
あらわすシグネチャという位置付けにされた。

まぁ1バイト文字で済む国はシグネチャなくても全然問題ないんだろうけど
マルチバイト文字使ってる国ではシグネチャない場合は、エンコード誤認の
可能性があるからな。　UTF-8決めうちのソフトならいいんだけど

352:デフォルトの名無しさん
08/03/12 21:20:13
勝手に追加するのはどうかと思うが、テキストファイルの頭にBOMついてるからって
誤動作する方が確実におかしい、無視すべき

353:デフォルトの名無しさん
08/03/12 21:24:25
#!/usr/bin/env hogehoge

とかをBOM付きで保存すると死ぬって本当？

354:デフォルトの名無しさん
08/03/12 22:37:41
ASCIIにしか対応していないものから見たらBOMはゴミ以外の何者でもないから

355:デフォルトの名無しさん
08/03/12 22:41:24
UTF-8対応してるといいながら駄目なソフトが多いって話だろ？

356:デフォルトの名無しさん
08/03/12 23:30:28
ASCIIだったらそもそもBOMは無いだろ
そしてASCII範囲外に対応してるならBOMあっても問題ないし

357:デフォルトの名無しさん
08/03/13 02:15:31
俺はドラゴンボールが揃ったらBOMを廃止する。
それからDIS 10646.1、いやごめんなんでもない

358:デフォルトの名無しさん
08/03/13 03:32:52
ＢＯＭよりスーパー写真塾の方がエロイよな。

359:デフォルトの名無しさん
08/03/13 05:19:48
むかしのエロ本のオンナはそのままのかおだが
いまのエロ本は整形オンナばっかり

360:デフォルトの名無しさん
08/03/20 20:31:17
UTF-8にBOMなんか辞めようと
そもそも、BOM=Byte Order Mark で、UTF-16、UCS-2、UTF-32、UCS-4なんかで使うものだし
そいつ(BOM)をそのままUTF-8変換した値がBOMもどきだし

Visual Studio 2005なんかはUTF-8でソース管理出来るみたいだな
今のPRJはLinuxでUTF-16使ってるから文字列は全てリソース扱い、っつかASCIIだろうとそうすべきではあるけど
ソースコードにUTF-16をhexでどかどか書いても見づらいだけだ
だけど、データ管理はUTF-16のがいい。サロゲートペアなんて使うことはまず無いし、１文字=2バイトと見なして差し支えなければ楽でいい
UTF-8は最近ISO 10646だっけ、RFCだっけ、あれUnicode.orgだっけ？規格変更で1～4バイトの可変長になって、それとともにUTF-32の領域も狭くなったみたいだが

XMLなんかはエンコーディング付いてるから問題ないし、ソースもSJISやEUCさえなんとかなれば別に問題らしいものはない気がする＞UTF-8
UTF-8自体ASCIIコンパチだしね

361:デフォルトの名無しさん
08/03/20 20:59:22
UTF-32は最初からU+10FFFFまでだよ

362:デフォルトの名無しさん
08/03/20 21:01:17
お前ら説明下手すぎだろ。
もっと俺にわかるように産業で説明しなさい。

363:デフォルトの名無しさん
08/03/20 21:10:47
>ソースもSJISやEUCさえなんとかなれば

これがなんとかならないから　UTF-8にBOMが存在しているんだろうけどね。

364:デフォルトの名無しさん
08/03/20 23:18:25
>>360
>エンコーディング付いてるから問題ないし
そういう場合はBOMを付けるなとちゃんと書いてある
URLﾘﾝｸ(tools.ietf.org)

BOMを付けるのはあくまでもそれがUTF-8と確定できない場合だけだから問題ないだろ
それともエンコード不明のテキストファイルを力技でエンコード推測するのが正しいとでも？
あるいはテキストファイル＝UTF-8として統一するつもり？
Latin-1とかはそうそう無くならないと思うぞ

365:デフォルトの名無しさん
08/03/20 23:24:46
エンコード不明のテキストファイルを力技でエンコード推測するのが正しい

366:デフォルトの名無しさん
08/03/21 09:46:07
BOMダセエと思うが、
BOMも処理できないUnicode処理系は氏ねよ。

367:デフォルトの名無しさん
08/03/21 16:53:25
Chinaってチャイナじゃなくてシナ＝支那だったのね
勉強になった

368:デフォルトの名無しさん
08/03/21 23:53:53
はい？

369:デフォルトの名無しさん
08/03/22 00:19:13
いいえちがいます。

370:デフォルトの名無しさん
08/03/22 01:29:01
チャイナシンドロームってどういういみ？

371:デフォルトの名無しさん
08/03/22 08:02:56
何の？　一般的には原子炉のメルトダウン事故の用語だが。

372:デフォルトの名無しさん
08/03/22 11:18:00
Japanてジパングじゃなくてニッポン＝日本だったのね
勉強になった

373:デフォルトの名無しさん
08/03/22 14:49:25
漆器のことだろ？

374:デフォルトの名無しさん
08/03/22 20:25:36
sorry japanese only.

375:デフォルトの名無しさん
08/03/23 00:40:01
かわいそうな日本人専用

376:デフォルトの名無しさん
08/03/23 03:26:12
漆塗りのペニスキャップとか作ると
やっぱりかぶれたりするんだろうか

377:デフォルトの名無しさん
08/03/23 03:36:46
漆塗りの器で唇かぶれた話とか聞いたことないけど。

378:デフォルトの名無しさん
08/03/23 09:25:29
漆がかぶれるのは生(？)の漆だけじゃないかと

379:デフォルトの名無しさん
08/03/23 10:50:49
シャープの芯のUniもこれが語源なん？

380:デフォルトの名無しさん
08/03/23 12:41:34
Wikipedia項目ﾘﾝｸ

| 国内では「三菱鉛筆」と、旧財閥の三菱グループ各社と混同されないように
| 「uni」（ユニ）のブランドも使っている。「uni」は、英語で「単一の」を
| 表す接頭語「uni」から比類無き品質ということを表したもの。

381:デフォルトの名無しさん
08/03/23 13:11:50
単一はmonoだったよーな
⇔pori

モノ
ジ
トリ
テトラ

382:デフォルトの名無しさん
08/03/23 14:04:20
monoもuniも一つという意味

383:デフォルトの名無しさん
08/03/23 14:11:37
×pori
○poly

釣りなのかこれは

384:デフォルトの名無しさん
08/03/24 09:41:03
ユニークのユニ

385:デフォルトの名無しさん
08/03/24 12:14:05
ギリシャ語系のmono, di, tri, tetraと、ラテン語系のuni, bi, ter(tres, tri), quadriの違いだな。
多角形も両方の表現があって、trigon, tetragon, pentagonとするかtriangle, quadrangle, quintangleとするか。
# 尤も、アメリカ辺りだと入り混じっていて、septagon, septangle, heptagon, heptangleのどれも見かけるけど。
## ついでに言えば、polygonに対するラテン語はmultiangleになる筈だけど……

386:デフォルトの名無しさん
08/03/24 12:38:42
rectangleは？

387:デフォルトの名無しさん
08/03/24 13:10:35
>>386
ラテン語由来。ラテン語にも、rectangulasという言葉があるらしい。英語に直訳すると、right angleになるそうな。
つーか、m-w.comでちょっと調べれば済むことなんですが。

388:デフォルトの名無しさん
08/03/24 13:41:24
都市ガスはtoshi gus だからペリーが運んできたオランダ語っぽい

389:デフォルトの名無しさん
08/03/24 13:44:07
トナカイってアイヌ語だったんだな

390:デフォルトの名無しさん
08/03/24 17:13:23
ラッコもな

391:デフォルトの名無しさん
08/03/26 03:23:13
MacのZIP解凍したら濁点や半濁点で文字化けするんだけど
これの変換てどうしたらええの？

392:デフォルトの名無しさん
08/03/26 08:26:24
NFCしてください。

393:デフォルトの名無しさん
08/03/26 11:01:30
NFDとNFCの違いか。
オレもそれやらかして、Perlのモジュール使って直したなあ

394:デフォルトの名無しさん
08/03/26 21:32:28
ありがとう
一部元に戻らないトコもあるけど中身が理解できる分には戻せたよ

395:デフォルトの名無しさん
08/04/10 09:02:55
結局UTF-8みたいなASCII互換の可変長コードが主流になるんだったら、
80h～FFhをコードページ指定にして、
その後の１～2オクテットをまとまった文字種セットにしとけば、
すっきりしたコードになったのになあ。

396:デフォルトの名無しさん
08/04/10 22:30:07
状態持ちはイヤン

397:デフォルトの名無しさん
08/04/10 22:39:27
それなんてISO 2022?

398:デフォルトの名無しさん
08/04/12 03:23:48
>>395
Arena-i18n内部コードやん
あれは固定長だけど。

399:デフォルトの名無しさん
08/04/23 07:54:25
>>367
>Chinaってチャイナじゃなくてシナ＝支那だったのね
あー！そういう意味だったのか。
支那支那っていうから判らんかった。
支那の語源がChinaなのね。

400:デフォルトの名無しさん
08/04/23 09:52:54
どちらの語源もサンスクリットの同じ単語だそうだが

401:デフォルトの名無しさん
08/04/23 12:02:46
いくつか説があるようだが
URLﾘﾝｸ(www004.upp.so-net.ne.jp)
は「秦」を語源としてるな
まぁJapanもニッポンがジパングを経てジャパンになったんだから
シナとチャイナ位の違いは普通か

402:デフォルトの名無しさん
08/04/23 13:12:28
日本の現代中国語読みがリーペンで、マルコポーロが東方見聞録で書いたのがジパング。
この違いがかなりデカい気がするが、どう理解すればよいのやら。
古代中国語で日本をジパングと読む？

403:デフォルトの名無しさん
08/04/23 22:01:44
ri4ben3は現代普通話でのピンイン
「日」は漢音で"ji" 「本」は呉音で"hong"

404:デフォルトの名無しさん
08/04/24 02:02:24
今の日本語で日を「ジツ」と読むのは古い中国語からきてるわけだし。
中国は現代音、中古音、古音と何度も大きな変貌を経ている。特にマルコポーロの時代である
元は中国語の発音が大きく変化した時代の一つ。

405:デフォルトの名無しさん
08/04/26 03:58:14
誰もそんな話は聞きたくないし。
ＵＴＦ８とユニコードの違いが聞きたいし。

次ページ