EUCボクメツ委員会

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2ch.scのread.cgiへ]
Update time : 11/30 16:27 / Filesize : 244 KB / Number-of Response : 873
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

EUCボクメツ委員会

1 名前：ﾓ･ｸ･ﾍ･ｹ菽ｦｯ [01/10/16 00:18 ID:ZujZqkcr.net]: Javaとかのマルチプラットフォームなアプリでも文字コードをいじらないと化けるし。
ICQクローンで Shift_JIS<=>EUC の相互変換をするように加工とか小細工して使ってるのには泣けたＹＯ
せっかく多言語対応の環境で作られたソフトでも日本ローカルのパッチ作んなきゃいけないんじゃ
意味ないじゃん！
Winに比べて少ないアプリがさらに選択肢が狭まっちゃってどうしようもないYO
Linuxにおける日本語の標準コードはWinに倣いShift-JISをメインにすべきである。
610 名前：login:Penguin mailto:sage [04/03/08 14:41 ID:CDAnHB+K.net]: このスレに定期的に出ますね。
内容は高度なのに
精神年齢が低い人たちの争い。
611 名前：login:Penguin mailto:sage [04/03/08 15:43 ID:W+OHYtj/.net]: >>604
宗教戦争みたいなものですから。
612 名前：login:Penguin mailto:sage [04/03/08 18:49 ID:ERahI9hZ.net]: > 文化の違いを考慮するべきでしょう（私は日本語だけ2バイトにでいいですがｗ
文化の違いってのは各国の言語事情とかかな。
それ無視したら、言語統制して英語使えって事になりかねないから。
そしたらASCIIで足りるようになるけど。

> FedoraがUTF-8になったので危機感を感じてるのですが
なぜかと言うとUTF-8がメインになりそうだからでしょう。
実際には自分で他のコード選べませんから（今だってEUC前提のとこにSiftJISじゃあ…

難しいことは分からないけど
英数字1byteで日本語2byteで他の文字も2byteのコードが欲しい。
で、それを世界標準にしたい。メールもホームページも、それにする。

でも65536文字以上の文字が有るのはどしたらよかろ？
使わなそうな古代ＸＸ文字とか非常用漢字は4byte(6?)にでもすればいいのかな
613 名前：。 （3byteだと分かりにくそうだし、あとで足りないのはイヤだし…） 中国怒るかな？あと日本中国韓国の常用漢字いれても2byteでいけるのかな？ []: [ここ壊れてます]
614 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/08 21:12 ID:JfYQzP4X.net]: >>606
>あと日本中国韓国の常用漢字いれても2byteでいけるのかな？
これくらいだとなんとかなりそうな符号がUTFCP(UTFCP2も出た(笑))です。
615 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/08 21:13 ID:JfYQzP4X.net]: UTFCP2のスペック(だけ):
www.nowsmartsoft.or.tv/nws/Japanese/chara_code_compare.htm
616 名前：login:Penguin mailto:sage [04/03/08 22:02 ID:Jjoer6mt.net]: >>590
その前にお前のレスの長さを半分にしてくれ。
617 名前：login:Penguin mailto:sage [04/03/08 22:36 ID:kN4paUAc.net]: 長い行は黙って切り詰めるスレはここですか？
618 名前：login:Penguin mailto:sage [04/03/09 12:01 ID:fWu0tHS8.net]: >>606
そうやって考えられたのがTRONコード。
たとえ、明日宇宙人と交流が始まったとしても、
とっととフォントと割り当て作り配れば、そのままどのクライアントでも宇宙人の文字が読める。

運用や仕様に問題がないとは思わないし手放しで褒められるものじゃないみたいだけど、
その考え方自体は賛成。
619 名前：login:Penguin mailto:sage [04/03/09 13:14 ID:yT9facPe.net]: >>611
TRONコードは、ISO2022と同様の状態指定が必要なんでしたよね。

状態指定がある文字コード体系ではプログラミングし辛いので、EUCや、SJISが
登場したんだけど。
620 名前：login:Penguin mailto:sage [04/03/09 17:30 ID:QwDvTJcd.net]: 状態指定していいのなら色々やれるようになるが……
現時点ではUTF-8の勝利っぽいな。日本語は3byteで我慢する。
通信量だってプロバイダからすればnyから見れば微々たるもの。
通信料固定の携帯会社は少し痛いかな。

でも日本と中国だけ自分の国の2byteコード使いそう…
UTFCP頑張って欲しいが国際的には全然ダメそう；；

あと最近電子政府とか言ってるけど文字コード何使うの？
かなり昔だが市役所行ったら漢字が出ないとか言われて
名前の漢字変えられたわな(いいのかな？まずい気がしたんだが…)
ちなみにWindowsでは変えられた方の漢字もでないんだが……
略字で登録してるとこと、正規で登録してるところがあるのが不便でつ。
戸籍略字に出来ないかなぁ………
621 名前：login:Penguin mailto:sage [04/03/09 20:21 ID:2DDflbAy.net]: 役所はJEF相当の字が使えるんじゃないかな。
622 名前：login:Penguin mailto:sage [04/03/09 20:27 ID:uH50TqIT.net]: >>612
TRONコードは内部処理用にstatelessな表現もあったような気が。
以前何かの資料でちらっと見ただけで不確実すまんぬ。
623 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/10 12:25 ID:FD2GRc4Q.net]: JIS第1水準、中国第1級の混合テーブル:
www.nowsmartsoft.or.tv/nws/Japanese/jpcn1.htm

2997文字+3749文字--->5025文字になった。
624 名前：login:Penguin [04/03/10 14:00 ID:7wD2ks5p.net]: 解決策：日本語は使用せず、ネイティヴでそのまま使用する。
625 名前：login:Penguin mailto:sage [04/03/10 20:43 ID:0cmjmGF/.net]: はい、私はネイティヴな日本語を利用しております。
626 名前：login:Penguin mailto:sage [04/03/11 00:17 ID:qo0Fn/uZ.net]: UTF-8使ってれば問題ないぞ！
世界的にはUTF-8が標準だ！FedoraだってUTF-8だぞ！
1よUTF-8で決定して良かったな。WindowsもUTF-8使えるから大丈夫だぞ。
627 名前：login:Penguin [04/03/11 01:16 ID:MFIoWDtG.net]: 詳しいことは知らないし、どうせ時代に流されるだけだけど
UTF-8になったら文字化けとかしなくなるの？
2バイト文字より3バイト文字の処理が遅くなったりしない？
628 名前：login:Penguin mailto:sage [04/03/11 02:42 ID:J+pKjlDB.net]: CPUの計算速度は秒間10億回、メモリーは秒百メガ以上転送します。
2バイトと3ﾊﾞｲﾄの差なんぞ。
629 名前：login:Penguin [04/03/11 04:34 ID:3Et/51wn.net]: とりあえずJISは死滅してるってことでいいんだよね？
少なくともEUCより先に使われなくなると思うけど <
630 名前：login:Penguin mailto:sage [04/03/11 04:38 ID:kmGNgh8j.net]: iso-2022-jp のことなら、mail に使われてるよ。
631 名前：login:Penguin [04/03/11 12:15 ID:5SXwbIF3.net]: ふと思ったけど、7bit ISO 2022なcodesetが使われているのって実は日本だけ？

* USAや西欧はISO-8859-1
* 韓国はEUC-KR
* 台湾はBig 5
* 中国はGB2312→GB18030？
632 名前：login:Penguin mailto:sage [04/03/11 12:16 ID:5SXwbIF3.net]: >>624
ぐは、「mailに」使われていると書き忘れた。
633 名前：login:Penguin mailto:sage [04/03/11 12:55 ID:Kb5yLeCK.net]: 中国はISO2022より前からHZ(7bit、stateful)が使われてたし、いらんのよ。
634 名前：login:Penguin mailto:sage [04/03/11 13:54 ID:/yDh0VN8.net]: >>624
韓国は、ISO-2022-KRを使っていた頃がありませんでしたか?
少なくとも俺の知っている留学生はそうだった。15年くらい前の話。
nemacs+sj3+sendmailって環境。(留学生の間だけだったのかも…)

今はEUC-KR固定なんですか?
635 名前：login:Penguin mailto:sage [04/03/11 14:11 ID:5SXwbIF3.net]: >>627
現在ではEUC-KRが使われているというか、ISO-2022-KRはほとんど使われて
いないそうな。グッデイに移る前のSylpheedのMLでそういう話が出てた。
どっかの日記にも引用されてたような。
636 名前：628 mailto:sage [04/03/11 14:47 ID:5SXwbIF3.net]: >>628
見つけた。
ttp://gotom.jp/~gotom/diary/?200010b#200010161S3
637 名前：login:Penguin mailto:sage [04/03/11 20:04 ID:7rWfBDb3.net]: >>620
JISX0208 <-> UNICODE 間での変換表はすでに混乱しているわけだが。
このへんでも見とけ -> www.denpa.org/~go/denpa/200402/from01.html#01_2

>>619
はい、Fedoraはどの変換表を使ってるのかくらい知ってるよね？
で、Java方式？ Windows方式? それとも Mac方式？それとも Fedora 独自ですか(w
638 名前：login:Penguin mailto:sage [04/03/11 20:42 ID:ud4fgRTq.net]: 変換しなければいいんだろ？UNICODE外のエンコードは捨て。時代遅れ。
639 名前：login:Penguin mailto:sage [04/03/11 20:57 ID:O42OfURm.net]: と、Shift_JISっぽいエンコードで書き込む、自称時代遅れの631。
640 名前：login:Penguin mailto:sage [04/03/11 21:18 ID:n7h4RRup.net]: Unicode（って何？）で書き込むスレとかあったら面白いかも。
641 名前：login:Penguin mailto:sage [04/03/12 00:11 ID:80GSSPnR.net]: 634get
642 名前：login:Penguin mailto:sage(UTF-8) [04/03/12 00:26 ID:zv+9d8+B.net]: ？x3053;？x3093;？x306a;？x611f;？x3058;？x003f;
643 名前：login:Penguin mailto:sage [04/03/12 00:29 ID:zv+9d8+B.net]: BBS_UNICODE=changeだった…。
644 名前：login:Penguin mailto:sage [04/03/12 21:05 ID:8N+xdVQn.net]: >>627
ISO-2022-KR じゃなくて、ks_c_5601-1987 かな。
その名に反して、事実上 EUC-KR。
(あと、SJIS的な空き領域にたっぷり詰め込まれてるらしいけど。

ttp://www.mew.org/ml/mew-dist-1.94/msg07160.html

あたり参照。
645 名前：login:Penguin mailto:sage [04/03/14 06:05 ID:p3IFOeaA.net]: TRON code使えばいいじゃん
646 名前：login:Penguin mailto:sage [04/03/15 00:07 ID:FjBdRajh.net]: >>637
えーと、7bit ISO 2022だったけど、ISO-2022-KRじゃなかった。
muleの古いdocument, ISO2022.jaより、

*korean-mail* -- 韓国のネットワークで使用される符号系
1. G0 <- ASCII, G1 <- KSC5601, G2,3 <- 使用せず
2. No.
3. Yes.
4. Yes.
5. 7ビット環境
6. Yes.
7. No.
8. No.

G1使っているから、ISO-2022-JP風文字集合違いではない。
647 名前：login:Penguin mailto:sage [04/04/19 18:35 ID:TRVyblqf.net]: m17n-libに対するネガティブな評価
tabesugi.net/memo/cur/cur.html#172331
648 名前：login:Penguin mailto:sage [04/04/19 19:37 ID:TxiUU5Sx.net]: その人、かなりアポなような気がする。
649 名前：login:Penguin mailto:sage [04/04/19 20:43 ID:WBHL9VYt.net]: 気がしても�
650 名前：ｾっちゃいけないこともある。見ないふりをしてあげるのが礼義 []: [ここ壊れてます]
651 名前：login:Penguin mailto:sage [04/04/19 20:58 ID:TRVyblqf.net]: でも実際のところ、これって流行るのか？
652 名前：login:Penguin mailto:sage [04/04/20 01:16 ID:vUH5wJkn.net]: m17n.orgに置いた位じゃ無理だろう。
freshmeatあたりで宣伝するとか。
653 名前：login:Penguin mailto:sage [04/04/20 06:55 ID:rTQHYqpZ.net]: >>644
> m17n.orgに置いた位じゃ無理だろう。
なんで?
654 名前：login:Penguin mailto:sage [04/04/20 07:20 ID:/Sip6aJR.net]: そもそもm17n.orgなんて知らないし。
655 名前：login:Penguin [04/07/01 15:11 ID:dfbyP3DL.net]: 良スレが埋もれてしまうのは惜しいのでage

文字コード問題って複雑でわからんので、「加護ちゃんはウンコするよ派
/しないよ派/加護ちゃんの肛門から出るのはウンコじゃないよ派」
みたいにわかりやすく図示してくれんもんかねぇ＞識者様
656 名前：login:Penguin mailto:sage [04/07/01 23:44 ID:gL6c8Bme.net]: >>647
巣に帰れ。
657 名前：login:Penguin mailto:age [04/07/02 04:21 ID:ijjyl7Oa.net]: 文字コード・ストーカー事件
anthill.hp.infoseek.co.jp/misc/memorandum/stalker.html
658 名前：login:Penguin [04/07/26 20:35 ID:9+dUBwXS.net]: IBMのEUCコード表に、日本語EUCでは文字型表示装置における表示幅が
定義されてるって書いてたんだけどホント?
659 名前：login:Penguin mailto:sage [04/07/31 06:35 ID:mohvMq6x.net]: EUCjpなんて駄目駄目よ

鄧小平とかマップできてないだろう。
まだMSKANJIの方がよいな
660 名前：login:Penguin [04/07/31 08:09 ID:euiPIjU0.net]: >>651
鄧 8F E2 C7
小 BE AE
平 CA BF
661 名前：login:Penguin mailto:sage [04/08/04 12:27 ID:Tzmg5Mgq.net]: EUCなんかよりISO 10646
662 名前：login:Penguin mailto:sage [04/08/21 13:06 ID:sZauC9ye.net]: 各ディス鳥のSJIS化の情報を収集に来たのだが、
文字コードのスレになってて期待ハズレ。

と、保守下記子。
663 名前：login:Penguin mailto:sage [04/08/21 23:47 ID:WhdMMhrh.net]: ディス鳥のSJIS化???
664 名前：login:Penguin mailto:sage [04/08/21 23:58 ID:fky5S1QK.net]: 単純にlocaledefでつくってしまえばよいと思われ
EUCやUTF-8のメッセージカタログが入っていれば
コード変換も行ってくれるし

まぁテキストファイルなんかの文字コード変換は自前でやるアプリもあるから
ロケールが直接影響するのは
コード変換を自前でやらないアプリと、ファイル名くらいの気もするが
665 名前：login:Penguin mailto:sage [04/08/25 21:00 ID:jObGm5N7.net]: ファイルやデータのやり取りが決め打ちな組み込みに近いミニディストリでもない限り
現行のソフトを使う限りにおいては「SJIS化」には意味がないな。
666 名前：login:Penguin mailto:sage [04/08/31 13:53 ID:VTbpM5cz.net]: こんなスレが立ってしまいましたよ
pc5.2ch.net/test/read.cgi/unix/1093879892/
667 名前：login:Penguin mailto:sage [04/08/31 14:03 ID:Z/eOEk8J.net]: ､筅ﾞ､､､鬢筍｢ｵｭﾇｰ･ﾞ･ｭ･ｳｽﾁ! >>658
668 名前：login:Penguin [04/10/05 20:31:01 ID:Bv1T0iZx.net]: 記念カキコ
669 名前：login:Penguin mailto:sage [04/10/07 05:42:33 ID:KhLYeD11.net]: >>658
スレタイもEUCにしろ
670 名前：login:Penguin mailto:sage [04/10/17 23:49:26 ID:DOTd84Rc.net]: Unicodeのいろんな問題見てたら、俺としては一つの結論にたどり着いたわけだ。

Unicodeを日本語、英語含めて全言語に適用できる文字コードにしようとするのは間違ってる。
UTF8はあくまで、他の言語もある程度満足に扱える、拡張ASCIIコードと考えよう。

今のコンピュータ業界では世界共通文字コードであるASCIIが拡張されて、
各国の言語がとりあえず使えるようになったんだ。

ASCIIだけでは不満だった人達がSJISやEUCなどを使っていたように、
Unicodeだけでは不満な人達はTRONコードでも超漢字でも、独自規格でも自由にしなよ。
でも、みんなに配るときは、UTF8で書かれた文章も付けて。
だいたいはそれで事足りるだろうし、それで不満ならそのコードが読める環境を用意するから。

＃そうして歴史は繰り返す
671 名前：login:Penguin mailto:sage [04/10/17 23:54:44 ID:DOTd84Rc.net]: ↑Unicodeって書いたり、UTF8って書いたりしててわけ分からんorz

UnicodeをUCS-2と読みかえてくれ。
UTF8はUCS-2のエンコード方式の中で、ASCIIと互換性があり、
その中で一番一般的なように思えるもの、というような意味合い。
672 名前：login:Penguin mailto:sage [04/10/18 23:17:47 ID:g1D5JuB1.net]: >>662-663
はぁ？？でなおしてこい。
673 名前：login:Penguin mailto:sage [04/10/19 23:23:04 ID:Al9qBxAQ.net]: unicodeでいいよ。
m17n楽だから。
674 名前：login:Penguin [04/12/01 22:05:16 ID:c7RgDl8N.net]: ISO-2022-JPがISO/IEC 2022に適合しないのってどのへん?
675 名前：login:Penguin mailto:sage [04/12/01 22:27:58 ID:w/F2PYLo.net]: 改行でASCIIに戻るとこ。
676 名前：667 mailto:sage [04/12/01 22:37:58 ID:w/F2PYLo.net]: おおっと、ちょっと嘘書いちゃった。RFC 1468のこのへんかな。

> オンラインにJIS X 0208 文字がある場合、行の終（すなわちCRLFの前）
> ASCIIもしくはJIS X 0201の"Roman"セットに切り替えなければなりません。
> これは、次の行が直前の行の終の前で切り替えられた文字セットではじます
> ことを意味します。
> また、テキストはASCIIで終わらなければなりません。

www.asahi-net.or.jp/~bd9y-ktu/dtd_f/rfc_f/rfc1468j.html
677 名前：login:Penguin mailto:sage [04/12/02 00:01:17 ID:/R16VbWh.net]: >>668
別にそれは更なる制約だから問題ないでしょ。

同一文字の二重符号化禁止でしょ。
半角のAと全角のA。Unicodeではあれだけど、
ASCII, JIS X 0201, JIS X 0208では同じ文字。
だから「AはASCIIのAのみを利用する」という約束がないと駄目なんじゃない?
678 名前：667 mailto:sage [04/12/02 01:37:50 ID:+PbXBE2p.net]: >>669
> 同一文字の二重符号化禁止でしょ。
なんのこっちゃ。
「図形文字の一意な符号化」が何の関係があるの?
ISO-2022では「要求される場合がある。その場合は...」と書いてあるだけだろう。

> 別にそれは更なる制約だから問題ないでしょ。

制約じゃないだろ。明らかにISO-2022の範囲外。
679 名前：667 mailto:sage [04/12/02 01:44:22 ID:+PbXBE2p.net]: >>669
ちょっと厳しく書きすぎたかも知れない。
どう誤解してるのかに興味があるから、もう少し詳しく書いてみて。
669の文章から推測すると、
「ISO-2022では一意な符号化が要求されているが、ISO-2022-JPでは
そのへんが定められていないから違反だ」というところか?
680 名前：login:Penguin mailto:sage [04/12/02 06:15:35 ID:CCz/AXQj.net]: > 別にそれは更なる制約だから問題ないでしょ。
web.archive.org/web/20040105042210/www.xinada.ne.jp/~handa/tech/Scribbles/RFC1468-and-ISO2022
とか
suika.fam.cx/~wakaba/-temp/wiki/wiki?ISO-2022-JP%A4%CEISO%2FIEC%202022%C5%AC%B9%E7%C0%AD
の受け売り?
こんな明らかな間違いに今まで誰も突っ込んでないのが不思議なんだが
受信装置の適合性は無視ですか? でもSuikaWikiのすぐ下読むと
> 文字を実装しなくて良い、はデータの適合性には影響しないでしょうが、受信装置の
> 適合性で問題がある可能性があります。
とか
> (受信装置?の適合性は疑わしい可能性がありますが) データの適合性には影響しない
> でしょう。
とか書いてるしマジわけわかんねぇ
問題: 上記2つの文書にはもう1つ共通する間違いがあります。それはなんでしょう?

> 同一文字の二重符号化禁止でしょ。
それが関係するのはG0～G3の複数のバッファから呼び出す場合で、
ISO-2022-JPみたいに指示のみで切り替える場合には関係ない。

少しは規格票読んだら?
681 名前：667 mailto:sage [04/12/02 16:50:35 ID:+PbXBE2p.net]: >>670
>> 別にそれは更なる制約だから問題ないでしょ。
> 制約じゃないだろ。明らかにISO-2022の範囲外。

ごめん、俺が間違ってた。これは制約にすぎないな。
# ASCIIやJIS X 0201 Romanにもどす話は、JIS X 0208:1997 附属書2に書いてあるだけか。

>> 同一文字の二重符号化禁止でしょ。

670 の追記だが、ISO/IEC 2022やJIS X 0202の
「7.5 Unique coding of graphic characters(図形文字の一意な符号化)」
では、一意な符号化はmustではないし、shouldでもない。

そもそも 672 の言うように、ISO-2022-JPのようなG0のみの使い方なら関係ないとも
考えられる。
682 名前：672 mailto:sage [04/12/03 03:59:08 ID:9rXlF8ug.net]: 解答例:
改訂番号の識別機能を使うとき、それがエスケープシーケンスとしてCCデータ要素
に埋め込まれている必要はない。
したがって、改訂番号識別シーケンスを使わないことをもってただちに不適合である
とは結論できない。
683 名前：login:Penguin [05/01/23 19:59:57 ID:pIU32Ad7.net]: 明けましておめでとう
684 名前：login:Penguin mailto:sage [05/01/23 23:18:08 ID:5luBPpp6.net]: ことよろ
685 名前：login:Penguin mailto:sage [05/02/12 22:41:24 ID:q+2/aCG1.net]: CSIって具体的にどういう実装？
686 名前：login:Penguin [2005/07/13(水) 03:16:01 ID:GiU0rXXK.net]: 　　
687 名前：login:Penguin mailto:sage [2005/07/20(水) 09:02:03 ID:6Oqfp2xg.net]: ユニコードで多国籍言語が混在できるわけだから、もうユニコードしかないだろ。
688 名前：login:Penguin mailto:sage [2005/07/21(木) 03:14:07 ID:OTpKdDbb.net]: 最初っからワイドキャラクター4バイト扱いになってればよかったのにね
689 名前：login:Penguin mailto:sage [2005/07/21(木) 22:28:05 ID:VqTdSdS9.net]: まあCJKには問題はあるが今更どうにもならねーじゃん。
言語に合わせたフォントを使うって事で我慢するしか無いんじゃないの。
あんまり困らんし。

まあ、xml:lang="ja"みたいに言語を指定できる形式のデータでなければ
自動判別も難しいがなー
690 名前：login:Penguin mailto:sage [2005/07/21(木) 22:54:50 ID:ELrUD4wT.net]: CJKのあれは糞だとは思うが、それを考えてもUnicodeはやっぱEUCやShiftJISよりはいいと思うよ
691 名前：login:Penguin mailto:sage [2005/07/22(金) 05:35:05 ID:IQMf+bjf.net]: 勝ち組 UTF-8＞Shift_JIS＞EUC-JP 負け組
692 名前：login:Penguin mailto:sage [2005/07/22(金) 08:51:40 ID:UYAHvv2j.net]: >>681
> まあCJKには問題はあるが今更どうにもならねーじゃん。
> 言語に合わせたフォントを使うって事で我慢するしか無いんじゃないの。

お前…サロゲートペアくらい知れ…
693 名前：login:Penguin mailto:sage [2005/07/22(金) 09:45:37 ID:xE5bf7Ay.net]: >>684
それを言うなら言語タグ。
ただ、まったくもって使われていないし、Unicodeの規格で「使うな」って書かれてる。
694 名前：login:Penguin mailto:sage [2005/07/22(金) 20:51:44 ID:WBS25hy8.net]: UTF-8のエンコード方法だけは美しくて好きだ
695 名前：login:Penguin [2005/07/25(月) 15:58:52 ID:OIgwFSJr.net]: 半角カタカナはいずれなくなるって聞いてたんですが、どうなってるんでしょうか？
696 名前：login:Penguin mailto:sage [2005/07/25(月) 16:10:14 ID:Zgta4wI+.net]: >>687
昔そんなことを言っていた親父がいたね。

まぁそれにしても初心者ばかりのスレだな。
フォントとエンコーディングの違いすらわかってない。
メールに関するRFCでも読んでみたら？
697 名前：login:Penguin mailto:sage [2005/07/25(月) 16:34:51 ID:Z+0f5Lrq.net]: Unicodeって3バイトの固定長なの?それとも長さ変わるのかな?
698 名前：login:Penguin mailto:sage [2005/07/25(月) 18:33:53 ID:E/JhV6+H.net]: >半角カタカナはいずれなくなるって聞いてたんですが、どうなってるんでしょうか？

憲法9条を改正して日本も核武装すればいいん
699 名前：です。 []: [ここ壊れてます]
700 名前：login:Penguin [2005/07/25(月) 18:39:06 ID:CcIbwQig.net]: おーすげえつまんねえ
701 名前：login:Penguin mailto:sage [2005/07/25(月) 19:04:20 ID:7F07vbuU.net]: UTF-8とUTF-16は、どっちがすぐれているのか？
Linuxでは、UTF-8が一般的なようだ。
しかし、８の方は、日本語で４バイトも使ってしまうときがあるらしい。
16のほうが２バイトですむので、１６のほうがいいはず。
702 名前：login:Penguin mailto:sage [2005/07/25(月) 23:12:43 ID:ShkskimW.net]: >>692
UTF-16でも4バイト使うことがあるよ。
703 名前：login:Penguin mailto:sage [2005/07/26(火) 01:42:22 ID:oG1gSYzU.net]: >>693
ふつうは、２バイトらしいけど。
704 名前：login:Penguin mailto:age [2005/07/26(火) 02:19:12 ID:TGspmtnU.net]: UCS-2なら確実に2バイトだぞ。
705 名前：login:Penguin mailto:sage [2005/07/26(火) 04:58:27 ID:Q6tbTaTJ.net]: ということは、将来的には、UTF-16が最高だ。
706 名前：login:Penguin mailto:sage [2005/07/26(火) 05:15:48 ID:Q6tbTaTJ.net]: 英数の割合が多い場合はUTF-8の方が効率が良い
日本語が多い場合はUTF-16の方が効率が良い
どちらを標準として使用するではなく、状況で
文字コードを使い分けることが必要となります。

日本人はUTF-16がよい。
しかし、いちいち使い分けとかできるのか？
707 名前：login:Penguin mailto:sage [2005/07/26(火) 05:40:20 ID:IExHqSN1.net]: 日本人はUTF-32 or UTF-8だろ。UTF-16なんか使うのはマイクロソフトのうんこ食ってるやつらのみ。
708 名前：login:Penguin mailto:sage [2005/07/26(火) 06:33:45 ID:7TQVMoPo.net]: >>698
同意。
709 名前：LightCone ◆sSJBc30S5w mailto:sage [2005/07/26(火) 07:09:13 ID:nE9DPpZk.net]: UTFCP2も広がっていって欲しいんだけども。

www.nowsmartsoft.or.tv/nws/Japanese/nwsos_utfcp2.htm
www.nowsmartsoft.or.tv/nws/Japanese/chara_code_compare.htm
710 名前：LightCone ◆sSJBc30S5w mailto:sage [2005/07/26(火) 07:43:37 ID:nE9DPpZk.net]: >>697
英数が1バイト、日本語文字の主要部と主要言語の文字が2バイトで
表せて、しかも、地域切り替えの必要のない符号があるといいんで
すよね。

UTFCP2がその条件を満たします。

しかも、UTFCP2は正確に逆戻りできるので、プログラミングもし
易い。

逆方向に戻りたくても正確に先頭文字が見いだせないタイプの符号も
あって、そういう物だと、いったん固定長コードに展開してから扱う
か、先頭から繰り返し文字をたどって(O(N^2)の時間をかけて処理す
る)扱わなくてはならずに効率が悪いし、プログラミングもしにくい。
しかし、UTFCP2はその点はクリアしてる。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef