【UTF8】文字コード変換【SJIS】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2chのread.cgiへ]
Update time : 05/09 21:44 / Filesize : 262 KB / Number-of Response : 1002
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【UTF8】文字コード変換【SJIS】

1 名前：デフォルトの名無しさん [03/09/10 16:04]: 文字コード変換について語りましょう♪
231 名前：デフォルトの名無しさん [04/02/08 03:44]: 予言：

　　1　0　年　後　に　は　、　U　T　F　-　6　4　が　標　準　に　な　り　ま　す　。

＿|￣|○
232 名前：デフォルトの名無しさん mailto:sage [04/02/10 10:27]: >>211
どの場合も、事前に必要バッファ長を取得してから、
バッファ長指定して呼び出せば大丈夫じゃない？
233 名前：デフォルトの名無しさん mailto:sage [04/02/10 17:20]: >>232
セキュリティの問題というのは>>227-228でもちょっと触れてるけど
たとえばディレクトリトラバーサル対策で「2E 2E」という文字列を
フィルタリングしても、「C0 AE 2E」とか書くと貫通してしまうという問題。
altba.com/bakera/hatomaru.aspx/glossary/0055006e00690063006f006400650020005700650062002000540072006100760065007200730061006c
あるいは「<」をnon-shortest formで送ることでXSSを発動させるとか。
www.cert.org/tech_tips/malicious_code_mitigation.html#3
対策としてXPではC0 AEのようなシーケンスを削除するようになった
わけだが、今度は「2E C0 AE 2E」とか書くと貫通する。
もう少しモノを考えて修正してくれMicrosoftと小一時間(ry
ただしMB_ERR_INVALID_CHARSを付けるとエラーになってくれる。
234 名前：デフォルトの名無しさん mailto:sage [04/02/10 17:46]: >>233
おお、なるほど。
勉強になります。

結局のところ、有効な対策の一つとしては、
「API側の対策をあてにせず、UTF-16 or UCS-2に変換した後に危険な文字をチェックしろ」
ってことですかね？
235 名前：デフォルトの名無しさん mailto:sage [04/02/10 18:28]: 逆では?
UTF-16 or UCS-2 のままでのチェックだけではなく、
API に渡される実際の引数レベルでもチェックをするって感じ？
236 名前：デフォルトの名無しさん mailto:sage [04/02/11 05:47]: >>235
違う。
237 名前：デフォルトの名無しさん [04/02/11 23:12]: Shift_JISやEUC-JPやRFC1468に直接Unicode文字や補助漢字、JIS第3・第4水準の文字を
埋め込める規格を考案したけど、実用価値あるんだろうか？

Shift_JISで直接Unicode文字が使えたら機種依存文字の問題はなくなると思うんだけどね…
238 名前：デフォルトの名無しさん mailto:sage [04/02/11 23:29]: >>237
> Shift_JISやEUC-JPやRFC1468に直接Unicode文字や補助漢字、JIS第3・第4水準の文字を
> 埋め込める規格を考案したけど、実用価値あるんだろうか？

率直にいって無いだろう。でもせっかくだから言ってみたらどうだろう?
目新しいアイデアなら、ほかのところで生かせるかもしれない。
まさか制御文字の一部を使って符号化する、なんてアイデアじゃないだろうな……

それと、文字コードの話するなら
> Unicode文字
> ？
> 機種依存文字
この辺は直した方がいいよ。
239 名前：デフォルトの名無しさん mailto:sage [04/02/11 23:36]: >>237
イオさんという人が昔「拡張シフトJIS」「拡張EUC-JP」「拡張ISO-2022-JP」
とかいうの考案してましたね。サイト消えちゃったけどWayBack Machineから発掘
web.archive.org/web/20030211003418/www.ksky.ne.jp/~smile4me/charcode/index.htm
> Shift_JISで直接Unicode文字が使えたら機種依存文字の問題はなくなると思うんだけどね…
GBK/GB18030はGB2312と上位互換を保ったままUnicodeの文字を
全部使えますね。
Unicodeに移行しようと思ったら既存のデータを全部変換するか
捨てる必要があるシフトJISやBig5圏から見たらうらやましい限り。
240 名前：デフォルトの名無しさん [04/02/12 12:14]: >>238
端的にいうと、JIS X 0208の未定義領域を利用して、Unicodeのサロゲートペアみたいに、
面サロゲート、区サロゲート、点サロゲートの3文字(合計6バイト)を組み合わせて
(サロゲートトリオと呼ぶことにします)JIS X 0208にない文字を表現するんです。

たとえば面サロゲートは09区～12区、14区～15区、85区～88区のどこか、
区サロゲートは93区、点サロゲートは94区を使用することにします。
13区と89区～92区はWindowsの外字と衝突するので使用しません。
多分面サロゲートは940文字も要らない(*1)と思うので85区～88区だけでいい
(*2)とは思いますが。

(*1)使える総文字数は940*94*94-(940+94+94)=8304712文字
(*2)使える総文字数は376*94*94=(376+94+94)=3321772文字

>>238
すみません。「?」はJIS X 0201/ASCIIのほうを使用しろということでしょうか。
「機種依存文字」は「JIS X 0208未定義文字」、「Unicode文字」は
「Unicodeに含まれてJIS X 0208に含まれていない文字」のほうが正しい言い方ですね。
上のほうでも「Windowsの外字」なんて怪しげな言葉を使っていますが、ご勘弁を…
241 名前：デフォルトの名無しさん [04/02/12 13:18]: >>240の続きです。
85区01点はJIS X 0213第1面(第3水準)に収録されている文字のうち、
JIS X 0208に含まれない文字を区点番号はそのままで収録します。
JIS X 0208に含まれている文字の場所は空けておき、使用禁止にします。
同じように、85区02点はJIS X 0213第2面(第4水準)に収録されている
文字を収録します。
85区03点はJIS X 0212(補助漢字)を収録します。

Unicodeに収録されている文字は0x000000～0x10FFFFの1114112文字
(サロゲートペアは使用を禁止するが、文字数には含めておく)ですが、
これを94進法でサロゲートトリオの各サロゲートを求めます。
面サロゲートは全部で127個必要になりますので、85区04点～86区36点を
使用することにします。

86区37点～89区94点はとりあえず保留領域にしますが、将来の拡張として
大漢和辞典に収録されている漢字でJISやUnicodeにない文字や、
人名・地名用の異体字を収録する領域にしておきます。

同じ文字がJIS X 0201、JIS X 0208、JIS X 0213、JIS X 0212、Unicodeに
重複して収録されていることもありますが、この場合、
JIS X 0201 > JIS X 0208 > JIS X 0213 > JIS X 0212 > Unicode
の順番に優先して文字コードを使用することにします。
たとえばJIS X 0213、JIS X 0212、Unicodeに重複して収録されている文字は
JIS X 0213の文字コードを使用することになります。
242 名前：デフォルトの名無しさん mailto:sage [04/02/12 13:24]: ・・・Unicode使うよ。。。
243 名前：デフォルトの名無しさん [04/02/12 13:26]: >>240-241の続きです。
これだけの文字(>>240参照)を使用することになると、すべての文字を
収録したフォントを製造することが難しくなります。
そこで、フォントに「収録基準」を設け、それをフォントのパッケージに
明示することによってフォントの収録文字数を明らかにします。

収録基準0 JIS X 0201(またはASCII) + JIS X 0208
収録基準1 JIS X 0201(またはASCII) + JIS X 0208 + JIS X 0213
収録基準2 JIS X 0201(またはASCII) + JIS X 0208 + JIS X 0213 + JIS X 0212
収録基準3 JIS X 0201(またはASCII) + JIS X 0208 + JIS X 0213 + JIS X 0212 + Unicodeの漢字(BMPのみ)(*3)
収録基準4 JIS X 0201(またはASCII) + JIS X 0208 + JIS X 0213 + JIS X 0212 + Unicodeの漢字(BMP以外を含む)(*3)
収録基準5 JIS X 0201(またはASCII) + JIS X 0208 + JIS X 0213 + JIS X 0212 + Unicodeのすべての文字

(*3)CJK統合漢字、CJK互換漢字、CJK互換文字のうちの漢字

説明は以上です。長文ご容赦ください。
244 名前：デフォルトの名無しさん mailto:sage [04/02/12 14:13]: 1バイト部分がJIS X 0201かASCIIかによって使用禁止の区点が
変化しますがそこは曖昧なままですか?
245 名前：デフォルトの名無しさん mailto:sage [04/02/12 16:14]: >>240の総文字数が誤っていたので訂正します。

(*1)使える総文字数は94*94-(940+94+94)+940*94*94=8313548文字
(*2)使える総文字数は94*94-(376+94+94)+376*94*94=3330608文字

>>244
だよねぇ。
1バイト英数字をASCIIにするのをやめてJIS X 0201にするとはっきり宣言してしまったほうが
Shift_JISとの互換性を考えるといいのかも。
246 名前：デフォルトの名無しさん mailto:sage [04/02/12 16:25]: > 1バイト英数字をASCIIにするのをやめてJIS X 0201にするとはっきり宣言してしまったほうが

イラネ。
247 名前：デフォルトの名無しさん mailto:sage [04/02/12 16:32]: > JIS X 0201にするとはっきり宣言してしまったほうが
それはセキュリティの問題が発生するので
すくなくともWindowsのコードページとしては採用不可能
248 名前：デフォルトの名無しさん mailto:sage [04/02/12 17:12]: すなおにUTF32使おうよ・・・
249 名前：デフォルトの名無しさん mailto:sage [04/02/12 18:05]: ということは1バイトの英数字がASCIIで、1バイトのカタカナがJIS X 0201なのが
一番いいということなのかな。

1バイトのカタカナなんて廃止してしまえ!!という強硬な意見はあると思うけど、
互換性を考えるとどうしても廃止できないと思う。
250 名前：デフォルトの名無しさん mailto:sage [04/02/12 18:13]: シフトJISの上位互換こそが特長なんだから
1バイトカナを廃止したら話にならん
互換性がなくていいならそれこそ>>248だ
251 名前：デフォルトの名無しさん mailto:sage [04/02/13 01:17]: UTF32 って何が嬉しいのでしょうか。固定長ではないのですよね?
252 名前：デフォルトの名無しさん mailto:sage [04/02/13 01:39]: BOM...かな？
253 名前：デフォルトの名無しさん mailto:sage [04/02/13 01:53]: UTF32は固定長ですがなにか？
254 名前：デフォルトの名無しさん mailto:sage [04/02/13 02:11]: 合成があんだろ
255 名前：デフォルトの名無しさん mailto:sage [04/02/13 02:20]: どうせ固定長じゃないならUTF-8のほうがいい
256 名前：デフォルトの名無しさん mailto:sage [04/02/13 02:29]: utf32が固定長じゃないとかUCS4もびっくりだな
何文字使う気なんだ
257 名前：デフォルトの名無しさん mailto:sage [04/02/13 04:09]: 誰か>>256を翻訳してください
258 名前：デフォルトの名無しさん mailto:sage [04/02/13 07:45]: Even UCS4 looks conventional; utf32 dosn't have the fixed size etc.
How many characters does it plan to use?
259 名前：デフォルトの名無しさん mailto:sage [04/02/13 11:07]: >>257

He said,
"UNICODE -> UNI-WORD -> UNI-LANGUAGE -> UNI-PEOPLE -> UNI-NATIONAL
-> UNI-WORLD -> UNI-PLANET -> UNI-COSMOS -> UNI-SPACE-TIME -> UTF-32"
260 名前：デフォルトの名無しさん mailto:sage [04/02/13 12:28]: UNKO
261 名前：デフォルトの名無しさん mailto:sage [04/02/13 12:51]: CPU等が速くなってんのにアプリの体感速度が変わらないとう現象の
原因を作っている人たちはココにいたんですね。。
262 名前：デフォルトの名無しさん mailto:sage [04/02/13 13:26]: NTではUnicode化したほうが速くなるが
PC初心者にお帰り
263 名前：デフォルトの名無しさん mailto:sage [04/02/13 13:58]: つーか >>261 は何を言いたいのかよくわからん
264 名前：デフォルトの名無しさん mailto:sage [04/02/13 14:05]: >>263
IT産業を支えてくれてありがとうと言っているのですよ
265 名前：デフォルトの名無しさん mailto:sage [04/02/13 16:40]: 　　　　　　　　　　　　 ┏┓┏┳┓
　　　　　　　　　　　┏┛┗┻╋┛　　　　　　　　　　　　　　　＼　i　　　
　　　　　　　　　　　┗┓┏┓┃　　　　　　　　　　　　　　　 ── ＋ ─>>1-1000
　　　　　　　　　　　　 ┃┃┃┃　┏┳┳┓　　　　　　　　　　／/ | ＼
　　　　　　　　　　　　 ┗┛┗┛　┗╋┛┃　　　　　　　　／　/　|
　　　　　　　　　　　　　　　　　　 ┗━┛　　　　　　／　　　/
　　　　　　　　　　　　　　　　　　　　　￣二─　＿
　　　　　　　　　　　　　　　　　　　　　　　　　￣､　　- ､
　　　　　　　　　　　　　　　　　　　　　　　　　　 -､＼　　＼
　　　　　　　　／　　　　　　　　　　　　　　　　　＼＼　　　＼
　　　　　　／／　　　　　　　　　　　　　　　　　＼ヾヽ　　　ヽ
　　　　／／／　　　　　　　　　　　　　　　　　＼ヾ、 | 　　　　i
　　　　／__(　　　　　　　　　　　　　　　　　　　　　|! `i　　　　　　　 |
　　　 <_,へ　＞- 、　　　　　　 ,.-､_　　　　　　　　　|　　　　　　　　　|
　　　　　　　＼ノ人＼　　　／､ }! ＼　　　　　　　|　　　　　　　　　|
　　　　　　　　＼へ〃＼／ヾ＼_ﾉ､ﾉ人　,.-､　　　 |　　　　　　　　　|
　　　　　　　　　　＼|＼rj＼ヾ /　　＼_ﾌ ,／　　　|! ﾘ　　　　　　　 |
　　　　　　　　　　rm＼ノ _　 Y　　　　Lノ　　　　　 / 　　 |　　　　|
　　　　　 |ヽ-r＜￣`ヾr'￣ヽ　　　　　　　　　　　/ /　 /　　　 /
　　　　　　 | └､ノ/￣`,-`┐ {　　　　　　　　　_／ / ／　／／
　　　　　　　ﾚ⌒＼!_　　ｰ -{ ﾉ｝　　　　　　　　　／　／／
　　　　　　　　　　　　￣`ー一 'ﾞ　　　　　　　　_／／_ ／
　　　　　　　　　　　　　　　　　　　　　　　＿二─ "
266 名前：デフォルトの名無しさん [04/02/25 00:01]: おい、お前ら字形が変わりましたよ。
ttp://www.forest.impress.co.jp/article/2004/02/24/jisx0213.html

コードは関係ないからスレ違いかもしれんが、改正前の字形で書いてると
ｵｻｰﾝ扱いになる悪寒。俺には改正後の文字が、なんか昔の字に
見えるんだけど。。。
267 名前：デフォルトの名無しさん mailto:sage [04/02/25 00:30]: 経緯
１．旧字体のうち一部を新字体に「正式に」改正
２．改正されていない旧字体の一部を１．の改正からの「類推で勝手に」変更 (どこが主導でやったのかは知らないが)
３．今回２．で勝手に変更されていたのを「もともとの旧字体」に訂正

なので今回の改正で「改正後の文字が昔の字に見える」のは当たり前。
268 名前：デフォルトの名無しさん mailto:sage [04/02/25 00:42]: 殆どが「書き文字としては間違いだけど、コンピュータ上では許されていた字形」を
正しい字形に戻したって感じを受けるな。
中には違いがさっぱり分からんのもあるんだが...。蟹とか灸とか粂とか。

個人的には進捗の捗の字が正しくなるのがうれしい。
269 名前：デフォルトの名無しさん mailto:sage [04/02/25 00:58]: >268
「正しさ」って何？
頻、賓、濱、捗
270 名前：デフォルトの名無しさん mailto:sage [04/02/25 01:01]: 歩渉陟捗濱瀕
271 名前：デフォルトの名無しさん mailto:sage [04/02/25 01:12]: 歩と
272 名前：デフォルトの名無しさん mailto:sage [04/02/25 01:19]: うぉ、『倶舎論』の本来の「倶」が入ってる！
産業省ﾏﾝｾｰ！
273 名前：デフォルトの名無しさん mailto:sage [04/02/25 01:24]: >>269
紙媒体の辞書に載せられるかどうか。
（載ってるかどうかとは言わないでおく）
274 名前：デフォルトの名無しさん mailto:sage [04/02/25 01:52]: DTP、フォント関連の連中は
忙しくなるな(w
275 名前：デフォルトの名無しさん mailto:sage [04/02/25 02:58]: DTP業界のフォントは78JIS字形をサポートし続けてきたから
実はほとんど影響なかったり。印刷物に使われ続けてきたん
だからまあ当然といえば当然だが。
276 名前：デフォルトの名無しさん mailto:sage [04/02/25 03:14]: 何かスラドで激しくデジャヴを感じる投稿が多数あるような。
> 中には違いがさっぱり分からんのもあるんだが...。蟹とか灸とか粂とか。
そのへんは、例示字形にデザイン差を残しておくと規格がデザイン差に
関して何らかの価値判断を行ったと誤解されるおそれがあるから、
表外漢字字体表に一致させたもの(と解説に書かれてる)。
厳密にその通りのデザインで実装することを要求するものではないし、
そのような解釈はかえって表外漢字字体表の趣旨に沿わない。
何がデザイン差で何が包摂の範囲内での字体変更かも解説には
書かれてる。
277 名前：デフォルトの名無しさん mailto:sage [04/02/25 10:49]: 蟹は「角」の右下と「虫」の上がくっついてるかどうかだな
微妙杉
278 名前：デフォルトの名無しさん mailto:sage [04/02/25 13:05]: 鯖と鰯は良いね！
279 名前：デフォルトの名無しさん [04/02/27 02:23]: JIS X 0213が改正されても、JIS X 0208も一緒に改正されなければ無意味。
JIS X 0213なんて新JISキーボードと同じで、ほとんど使われていない規格なんだから。

ところで、法務省の人名用漢字追加はJIS漢字の字体をベースにするといっていたけど、
今回の改正でどう影響するんだろう？
今のところ、常用漢字・人名用漢字には2点しんにょうの字体はないけど（許容漢字を除く）、
場合によっては2点しんにょうに改正された文字が人名用漢字に追加される可能性がある。
280 名前：デフォルトの名無しさん [04/02/27 04:15]: 後、気になったのは「辻」の字が2点しんにょうになっていること。
「表外漢字字体表」に従えば当然そうなるんだが、実際の人名（というか人の姓）で
使われているのは1点しんにょうの方が圧倒的多数。
2点しんにょうは文芸家（wが好んで使う（綾辻行人とか辻仁成など）けど、
表札とかに2点しんにょうの方が使われているのは見たことがない。

辻さんが「自分の名字の文字が『勝手に』正字に矯正されている」ことを知ったらどう思うだろうか。
人名にはまず使われていない迂とか迄とか謎とかは2点しんにょうのみにしてもいいけど、
辻は1点しんにょうと2点しんにょうの両方を規格に入れるべきだったと思う。
包摂規準に例外を作ってまでも。
281 名前：デフォルトの名無しさん mailto:sage [04/02/27 04:23]: 正式には難しい字が使われてても
普段は簡単な字で書いてたりするので
（例：濱本を浜本と書いてたり）、
普段簡単な字で書いてるからといって、
その字で登録されているとは限んないけどね。
282 名前：デフォルトの名無しさん mailto:sage [04/02/27 09:15]: >>279
JIS X 0208を改正しなかった理由も解説に書かれてるね。
変更をほとんど使われていない規格だけにとどめたことで
混乱を最小限に抑えたとかいう角度の見方もある。
283 名前：デフォルトの名無しさん mailto:sage [04/02/27 09:21]: 戸籍に登録されている「辻」が1点しんにょうということはありえない。
現時点で人名用漢字にも常用漢字にもないから戦後追加された
ことはないし、戦前の活字は当然すべて2点だし、
法務省は1点の「辻」は俗字扱いにしていて正字からの変更を
認めていないから既存の「辻」を持つ苗字が変えられた可能性もない。
したがって表札とかには戸籍にない略字を勝手に使っているだけだと
思われ
284 名前：デフォルトの名無しさん mailto:sage [04/02/27 09:24]: というか表札はふつう明朝体活字で書いたりしないから
1点しんにょうになるのはむしろ当然なような。
それとも点の下がグネグネした「辻」も追加すべきですかね。
285 名前：デフォルトの名無しさん mailto:sage [04/02/27 09:28]: > ところで、法務省の人名用漢字追加はJIS漢字の字体をベースにするといっていたけど、
読売の記事だとそれは去年の検討の話で
いったんご破算になったらしいんだが
今回も結局JIS漢字を元にしてるの?
286 名前：デフォルトの名無しさん mailto:sage [04/02/27 09:52]: imadoki kanji tukatteru yasi kimoi
287 名前：デフォルトの名無しさん [04/02/27 10:15]: >>283
電算化前の戸籍って和文タイプで打ったのもあるけど、手書きもあるよ。
たとえば漏れの本籍地は京都市だけど、戸籍謄本を取ってみたら手書きだった。
手書きの「辻」のすべてが2点しんにょうになっているとは思えない。
288 名前：デフォルトの名無しさん mailto:sage [04/02/27 11:34]: ああそうか、戸籍の電算化を阻んでるのは手書きの誤記を
これが自分の名前の字だと主張する連中だったな
> 手書きの「辻」のすべてが2点しんにょうになっているとは思えない。
むしろ手書きでは1点が普通だろ。それが活字では2点になるという
常識が戦前はあったわけだが
289 名前：デフォルトの名無しさん mailto:sage [04/02/27 15:50]: で、ののたんの名字は１点なの？２点なの？
場合によっちゃ幕の字書き換えなきゃならんのだけど
290 名前：デフォルトの名無しさん mailto:sage [04/02/27 17:16]: さすがプログラム版のスレだけあって、
漢字の話題になるといきなりレベルが低くなるな。
291 名前：デフォルトの名無しさん mailto:sage [04/02/27 17:39]: そもそも>>266が自分で言ってるがスレ違いっぽいし
292 名前：デフォルトの名無しさん mailto:sage [04/02/27 22:10]: >290
レベルの高い漢字の話題はどこでやってますか？
煽りじゃなく本当に知りたい。
293 名前：デフォルトの名無しさん mailto:sage [04/02/27 22:16]: 格調高く感じを論ずるスレ四
academy2.2ch.net/test/read.cgi/kobun/1067856021/
294 名前：デフォルトの名無しさん mailto:sage [04/02/27 22:17]: >>293
感じって・・・
295 名前：デフォルトの名無しさん mailto:sage [04/02/27 22:21]: ＿|￣|○ やられた。古文・漢文板なんていったこと無かったから、無防備だった。
296 名前：デフォルトの名無しさん mailto:sage [04/02/27 22:53]: 旧字体・別字体について
academy2.2ch.net/test/read.cgi/gengo/991011416/

【朝日】文字を徹底的に略すスレ【JIS】
academy2.2ch.net/test/read.cgi/gengo/1049173991/

【ゐゑ】舊字、舊假名遣ひで話すスレッド　三箇目
academy2.2ch.net/test/read.cgi/gengo/1075814605/

【常用漢字表にない漢字の代わりの漢字について
academy2.2ch.net/test/read.cgi/gengo/1004972973/

◆◆漢字専用スレｐａｒｔ2◆◆
academy2.2ch.net/test/read.cgi/kobun/1070305805/

旧かな旧漢字は伝統的でしょうか
academy2.2ch.net/test/read.cgi/kobun/965113447/

●教育漢字、常用漢字を有志で作り直すスレ●
academy2.2ch.net/test/read.cgi/kobun/1059105191/

JIS漢字
academy2.2ch.net/test/read.cgi/kobun/1038565269/

ちょっと集めてみたがレベルがそう違うとも思えんがね
297 名前：デフォルトの名無しさん mailto:sage [04/02/27 23:09]: ここも。

JISをもう1度、最初から作りなおせるとしたら
academy2.2ch.net/test/read.cgi/gengo/1052415384/
298 名前：292 mailto:sage [04/02/27 23:20]: サンクスコ。
なるほど、レベルの違うスレもあれば、そうでないのもあって面白い。

結局、バカのせいなんだよな。
「かほる」なんて名前が昔から使われていると思うようなバカと一緒。

スレ違いなのでAC。
299 名前：デフォルトの名無しさん [04/02/29 03:37]: さ、
300 名前：デフォルトの名無しさん [04/02/29 03:37]: さんびゃくー！！
301 名前：デフォルトの名無しさん mailto:sage [04/02/29 20:02]: m17n-libがもうすぐ公開だな
使い物になるのだろうか
302 名前：290 mailto:sage [04/03/01 13:22]: いや、どこのスレだって無責任なレスがほとんどなんだけどさ、
言語学版あたりの文字コード関連スレだと、
かなーり詳しい奴が張り付いてて、すぐに突っ込みが入る。

しょーがないから俺が突っ込んでおくと、
戸籍での「辻」は一点も二点もありだ。っつーか、
しんにょうはすべて一点でも二点でも認められているわけだが。
303 名前：LightCone ◆sSJBc30S5w [04/03/03 21:26]: UNICODEのUTF-8の日本語向けの符号を考えてみました:
www.nowsmartsoft.or.tv/nws/Japanese/nwsos_utf.htm

UTF-8と違って、JIS第一、第二までは、2BYTEで表せます。

まだ、仕様を考えている途中なので、この符号を用いたプログラムは一つ
もありません。

何か問題点や、嘘を書いてる点などが見つかりましたらご指摘頂ければ幸い
です（つまり添削お願いします）。
304 名前：デフォルトの名無しさん mailto:sage [04/03/04 03:07]: >>303
変換にテーブルが必要な時点でUTFと名乗るのは問題がある。
俺コードとかって名前なら別にどうでもいいんだけど。
305 名前：デフォルトの名無しさん mailto:sage [04/03/04 07:40]: >>303
>多バイト文字途中への検索ヒットを簡単に回避可能

正規表現で回避しているようだけど、回避のための
修正が必要な時点で、UTF-8と比べて汎用的とはいいがたいなぁ。
(strcmpを使っているなら細工をして再コンパイル等が必要だけど
UTF-8は修正の必要もない)
306 名前：デフォルトの名無しさん mailto:sage [04/03/04 09:25]: >>303
> 何か問題点や、
単にまた混乱の元を追加するだけってことかな。
307 名前：デフォルトの名無しさん mailto:sage [04/03/04 11:16]: みんなUTF-8で結構おなか一杯だからなぁ。
308 名前：デフォルトの名無しさん mailto:sage [04/03/04 11:32]: >>303
Unicodeを混ぜることができる,EUC-JP/シフトJISの一種と考えたら
そこそこ面白い。
309 名前：デフォルトの名無しさん mailto:sage [04/03/04 12:43]: >>308
その手の拡張は>>239にもあるし>>240-にもあるしおなかいっぱい
310 名前：デフォルトの名無しさん mailto:sage [04/03/04 13:21]: 主にどういう局面で利用される事を想定してるんだろうか。
UTF-8でも少しサイズが大きい程度で、そんなに気にならないんだけど。
独自にやる苦労に見合うだけの結果が得られるかは微妙だ。
打算計算を抜きにすれば、自作のOSで自作の文字コード使って
色々実験するのは楽しそうとは思うけどね。(^^;
311 名前：LightCone ◆sSJBc30S5w [04/03/04 16:31]: >>308, >>309
「Unicodeを混ぜることの出来るEUC-JP/SJIS」に、「簡単に逆戻り可能」な
性質を取り入れたような感じなんです。

ちなみに、>>239の符号では、逆戻りは出来ないと思いますが、
さらに、「\」コードを含んでいるので、色々と問題があると思います。

というわけで、いかがでしょうか。

新しいコードは、みんなが使い始めるか、よっぽど良い性質がない限り、
抵抗感がある物かも知れませんが。
312 名前：LightCone ◆sSJBc30S5w [04/03/04 16:42]: >>310
>主にどういう局面で利用される事を想定してるんだろうか。
>UTF-8でも少しサイズが大きい程度で、そんなに気にならないんだけど。

そう思われる人が多いのであれば、せっかくでしたが、余り意味がないかも
知れません。

でも、今まで2BYTE表せていた文字に3BYTEを当てるのに抵抗がある人には、
需要があるのではないかと思うんです。

その点だけでは、>>239の符号もいいと思いますが、UTF-JAPANの方は、
逆戻り可能の性質を持っている点や、多バイト文字に\コード等を含んで
ない点で、解析やエディタ作りなどにおいて、真価を発揮する場面がある
のではないかと思います。

EUCも、2バイトの範囲では逆戻り可能ですけど。>>239に書かれている拡張EUC:
web.archive.org/web/20030218074331/www.ksky.ne.jp/~smile4me/charcode/xeucjp.htm
においては、UTF-16,UTF-32対応する3バイト以上のコードでは、逆戻りが
出来なくなっているようですし。
313 名前：LightCone ◆sSJBc30S5w [04/03/04 16:46]: >>304
この符号の場合、基本的に地域や言語ごとに違う変換テーブルを用意する
必要がありますね。それをOSがサポートして、欲しいフォーマットに
まで変換を世話してくれればアプリの負担は減るとは思うんですが。

全世界で全く同じコードを用いたいのであれば、漢字が３バイトになって
しまうのは、元々やむを得ないかも知れない。
314 名前：LightCone ◆sSJBc30S5w [04/03/04 16:53]: >>305
UTF-8の場合、strcmp()は、単純な昔ながらの1バイト単位の比較のまま
無修正で利用できてしまうんですよね。

それは凄い性質ではあると思いますが、結局、コードを無修正で済ました
いばっかりに、データサイズが大きくなる犠牲を払っているんだと思うん
です。
315 名前：LightCone ◆sSJBc30S5w [04/03/04 16:54]: なお、

UTF-JAPANを、「UTF-COMPACT-JAPAN」と改名して、
「UTF-COMPACT-ARABIA」
「UTF-COMPACT-CHINA」
なども定義すれば、strcmp()等の修正は、言語数分まで及ばずに
一回だけで済むかも知れませんね。
316 名前：LightCone ◆sSJBc30S5w [04/03/04 16:57]: >>237 から続く発言は、なんと先月のものなんですね！

うまく合併できないかな。
317 名前：LightCone ◆sSJBc30S5w [04/03/04 17:02]: >>261の
>CPU等が速くなってんのにアプリの体感速度が変わらないとう現象の
>原因を作っている人たちはココにいたんですね。。

これは、今まで2バイトで表現できていた物を3バイトにしようとすることとも
その一つかな。

全世界の文字を使えるのはいいことではあるけれど、日本人が、英語と
JIS第一,第二以外の言語を使用する頻度は低いし、文字集合はUNICODEを
使うにしても、地域ごとに違った符号があってもいいのではないかな。
318 名前：LightCone ◆sSJBc30S5w [04/03/04 17:04]: UTF-COMPACTの変換テーブルは、OSが提供するだろうから、
UTF-COMPACT-xxxxx用のアプリは、いずれのxxxxx言語にも
無修正で対応できるのではないだろうか?
319 名前：LightCone ◆sSJBc30S5w [04/03/04 17:10]: 例えば、HTMLヘッダに、

<meta http-equiv="Content-Type" content="text/html;
charset=
utf-compact-japan">
~~~~~~~~~~~~~~~~~

を書いておけばいいんじゃないかな。

SJISや、EUC-JPでやってることと何ら変わりないと思うし。
320 名前：デフォルトの名無しさん mailto:sage [04/03/04 17:25]: アメ公がUTF-16嫌ってUTF-8に走るのとまったく同じ論法だよね
自分たちが使いもしない文字のことなんてどうでもいいと思うのは
世界共通というか
321 名前：LightCone ◆sSJBc30S5w [04/03/04 17:34]: >>320
でも、自分たちの地域で効率を上げることにも、一利はあると思うんです。

UNICODEを全否定しているわけではなく、符号長に地域ごとに偏りを
持たせるだけですし。
322 名前：LightCone ◆sSJBc30S5w [04/03/04 17:36]: SFみたいな世界になって、文字種が爆発的に増えた場合、やっぱり、
地球では地球語に短い符号を割り当てるんじゃないかな。

そういう意味で、偏りを持たせる発想は、古くさい考えではないと思う。
323 名前：デフォルトの名無しさん mailto:sage [04/03/04 17:38]: だったらローカルコードでいいし
地域の数だけ馬鹿でかい変換テーブル持つなんて馬鹿の極み
324 名前：デフォルトの名無しさん mailto:sage [04/03/04 17:41]: 日本語が多くてサイズが増えるのが嫌なら、UTF-16を使えばいいのでは？
325 名前：デフォルトの名無しさん mailto:sage [04/03/04 17:41]: > 制御コード、特殊記号、\コードを含まず
C1文字は制御コードじゃありませんか
そうですか
326 名前：デフォルトの名無しさん mailto:sage [04/03/04 17:43]: > JIS X 0213 2000 JIS第三、第四 4344字
今さら2000年版かよ
327 名前：デフォルトの名無しさん mailto:sage [04/03/04 17:43]: > 情報交換用漢字符号系
つーかずいぶんと古い資料参照してるな
328 名前：デフォルトの名無しさん mailto:sage [04/03/04 17:44]: そもそもたった一つのインプリで他言語をカバーしようとしたのがUnicodeじゃないの？
それを地域ごとに独自テーブル作ったら意味ないじゃん
329 名前：デフォルトの名無しさん mailto:sage [04/03/04 17:44]: > /[^\x81-\xde]任意の文字列/
「任意の文字列」が先頭だったらヒットしなくなるね
330 名前：328 mailto:sage [04/03/04 17:45]: 失礼
X他言語
O多言語
331 名前：328 mailto:sage [04/03/04 17:47]: そもそも
UTF-JAPAN
ってのがかっこわるいよね
せめて
UTF-JPとかUTF-jaとかにすればいいのに

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef