[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2chのread.cgiへ]
Update time : 05/09 21:44 / Filesize : 262 KB / Number-of Response : 1002
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【UTF8】文字コード変換【SJIS】



1 名前:デフォルトの名無しさん [03/09/10 16:04]
文字コード変換について語りましょう♪

267 名前:デフォルトの名無しさん mailto:sage [04/02/25 00:30]
経緯
1.旧字体のうち一部を新字体に「正式に」改正
2.改正されていない旧字体の一部を1.の改正からの「類推で勝手に」変更 (どこが主導でやったのかは知らないが)
3.今回2.で勝手に変更されていたのを「もともとの旧字体」に訂正

なので今回の改正で「改正後の文字が昔の字に見える」のは当たり前。

268 名前:デフォルトの名無しさん mailto:sage [04/02/25 00:42]
殆どが「書き文字としては間違いだけど、コンピュータ上では許されていた字形」を
正しい字形に戻したって感じを受けるな。
中には違いがさっぱり分からんのもあるんだが...。蟹とか灸とか粂とか。

個人的には進捗の捗の字が正しくなるのがうれしい。

269 名前:デフォルトの名無しさん mailto:sage [04/02/25 00:58]
>268
「正しさ」って何?
頻、賓、濱、捗


270 名前:デフォルトの名無しさん mailto:sage [04/02/25 01:01]
歩 渉 陟 捗 濱 瀕


271 名前:デフォルトの名無しさん mailto:sage [04/02/25 01:12]
歩 と

272 名前:デフォルトの名無しさん mailto:sage [04/02/25 01:19]
うぉ、『倶舎論』の本来の「倶」が入ってる!
産業省マンセー!

273 名前:デフォルトの名無しさん mailto:sage [04/02/25 01:24]
>>269
紙媒体の辞書に載せられるかどうか。
(載ってるかどうかとは言わないでおく)

274 名前:デフォルトの名無しさん mailto:sage [04/02/25 01:52]
DTP、フォント関連の連中は
忙しくなるな(w

275 名前:デフォルトの名無しさん mailto:sage [04/02/25 02:58]
DTP業界のフォントは78JIS字形をサポートし続けてきたから
実はほとんど影響なかったり。印刷物に使われ続けてきたん
だからまあ当然といえば当然だが。



276 名前:デフォルトの名無しさん mailto:sage [04/02/25 03:14]
何かスラドで激しくデジャヴを感じる投稿が多数あるような。
> 中には違いがさっぱり分からんのもあるんだが...。蟹とか灸とか粂とか。
そのへんは、例示字形にデザイン差を残しておくと規格がデザイン差に
関して何らかの価値判断を行ったと誤解されるおそれがあるから、
表外漢字字体表に一致させたもの(と解説に書かれてる)。
厳密にその通りのデザインで実装することを要求するものではないし、
そのような解釈はかえって表外漢字字体表の趣旨に沿わない。
何がデザイン差で何が包摂の範囲内での字体変更かも解説には
書かれてる。

277 名前:デフォルトの名無しさん mailto:sage [04/02/25 10:49]
蟹は「角」の右下と「虫」の上がくっついてるかどうかだな
微妙杉

278 名前:デフォルトの名無しさん mailto:sage [04/02/25 13:05]
鯖と鰯は良いね!

279 名前:デフォルトの名無しさん [04/02/27 02:23]
JIS X 0213が改正されても、JIS X 0208も一緒に改正されなければ無意味。
JIS X 0213なんて新JISキーボードと同じで、ほとんど使われていない規格なんだから。

ところで、法務省の人名用漢字追加はJIS漢字の字体をベースにするといっていたけど、
今回の改正でどう影響するんだろう?
今のところ、常用漢字・人名用漢字には2点しんにょうの字体はないけど(許容漢字を除く)、
場合によっては2点しんにょうに改正された文字が人名用漢字に追加される可能性がある。

280 名前:デフォルトの名無しさん [04/02/27 04:15]
後、気になったのは「辻」の字が2点しんにょうになっていること。
「表外漢字字体表」に従えば当然そうなるんだが、実際の人名(というか人の姓)で
使われているのは1点しんにょうの方が圧倒的多数。
2点しんにょうは文芸家(wが好んで使う(綾辻行人とか辻仁成など)けど、
表札とかに2点しんにょうの方が使われているのは見たことがない。

辻さんが「自分の名字の文字が『勝手に』正字に矯正されている」ことを知ったらどう思うだろうか。
人名にはまず使われていない迂とか迄とか謎とかは2点しんにょうのみにしてもいいけど、
辻は1点しんにょうと2点しんにょうの両方を規格に入れるべきだったと思う。
包摂規準に例外を作ってまでも。

281 名前:デフォルトの名無しさん mailto:sage [04/02/27 04:23]
正式には難しい字が使われてても
普段は簡単な字で書いてたりするので
(例:濱本を浜本と書いてたり)、
普段簡単な字で書いてるからといって、
その字で登録されているとは限んないけどね。

282 名前:デフォルトの名無しさん mailto:sage [04/02/27 09:15]
>>279
JIS X 0208を改正しなかった理由も解説に書かれてるね。
変更をほとんど使われていない規格だけにとどめたことで
混乱を最小限に抑えたとかいう角度の見方もある。

283 名前:デフォルトの名無しさん mailto:sage [04/02/27 09:21]
戸籍に登録されている「辻」が1点しんにょうということはありえない。
現時点で人名用漢字にも常用漢字にもないから戦後追加された
ことはないし、戦前の活字は当然すべて2点だし、
法務省は1点の「辻」は俗字扱いにしていて正字からの変更を
認めていないから既存の「辻」を持つ苗字が変えられた可能性もない。
したがって表札とかには戸籍にない略字を勝手に使っているだけだと
思われ

284 名前:デフォルトの名無しさん mailto:sage [04/02/27 09:24]
というか表札はふつう明朝体活字で書いたりしないから
1点しんにょうになるのはむしろ当然なような。
それとも点の下がグネグネした「辻」も追加すべきですかね。

285 名前:デフォルトの名無しさん mailto:sage [04/02/27 09:28]
> ところで、法務省の人名用漢字追加はJIS漢字の字体をベースにするといっていたけど、
読売の記事だとそれは去年の検討の話で
いったんご破算になったらしいんだが
今回も結局JIS漢字を元にしてるの?



286 名前:デフォルトの名無しさん mailto:sage [04/02/27 09:52]
imadoki kanji tukatteru yasi kimoi

287 名前:デフォルトの名無しさん [04/02/27 10:15]
>>283
電算化前の戸籍って和文タイプで打ったのもあるけど、手書きもあるよ。
たとえば漏れの本籍地は京都市だけど、戸籍謄本を取ってみたら手書きだった。
手書きの「辻」のすべてが2点しんにょうになっているとは思えない。

288 名前:デフォルトの名無しさん mailto:sage [04/02/27 11:34]
ああそうか、戸籍の電算化を阻んでるのは手書きの誤記を
これが自分の名前の字だと主張する連中だったな
> 手書きの「辻」のすべてが2点しんにょうになっているとは思えない。
むしろ手書きでは1点が普通だろ。それが活字では2点になるという
常識が戦前はあったわけだが

289 名前:デフォルトの名無しさん mailto:sage [04/02/27 15:50]
で、ののたんの名字は1点なの?2点なの?
場合によっちゃ幕の字書き換えなきゃならんのだけど

290 名前:デフォルトの名無しさん mailto:sage [04/02/27 17:16]
さすがプログラム版のスレだけあって、
漢字の話題になるといきなりレベルが低くなるな。

291 名前:デフォルトの名無しさん mailto:sage [04/02/27 17:39]
そもそも>>266が自分で言ってるがスレ違いっぽいし

292 名前:デフォルトの名無しさん mailto:sage [04/02/27 22:10]
>290
レベルの高い漢字の話題はどこでやってますか?
煽りじゃなく本当に知りたい。


293 名前:デフォルトの名無しさん mailto:sage [04/02/27 22:16]
格調高く感じを論ずるスレ四
academy2.2ch.net/test/read.cgi/kobun/1067856021/

294 名前:デフォルトの名無しさん mailto:sage [04/02/27 22:17]
>>293
感じって・・・

295 名前:デフォルトの名無しさん mailto:sage [04/02/27 22:21]
_| ̄|○ やられた。 古文・漢文板なんていったこと無かったから、無防備だった。




296 名前:デフォルトの名無しさん mailto:sage [04/02/27 22:53]
旧字体・別字体について
academy2.2ch.net/test/read.cgi/gengo/991011416/

【朝日】文字を徹底的に略すスレ【JIS】
academy2.2ch.net/test/read.cgi/gengo/1049173991/

【ゐゑ】舊字、舊假名遣ひで話すスレッド 三箇目
academy2.2ch.net/test/read.cgi/gengo/1075814605/

【常用漢字表にない漢字の代わりの漢字について
academy2.2ch.net/test/read.cgi/gengo/1004972973/

◆◆漢字専用スレpart2◆◆
academy2.2ch.net/test/read.cgi/kobun/1070305805/

旧かな旧漢字は伝統的でしょうか
academy2.2ch.net/test/read.cgi/kobun/965113447/

●教育漢字、常用漢字を有志で作り直すスレ●
academy2.2ch.net/test/read.cgi/kobun/1059105191/

JIS漢字
academy2.2ch.net/test/read.cgi/kobun/1038565269/


ちょっと集めてみたがレベルがそう違うとも思えんがね

297 名前:デフォルトの名無しさん mailto:sage [04/02/27 23:09]
ここも。

JISをもう1度、最初から作りなおせるとしたら
academy2.2ch.net/test/read.cgi/gengo/1052415384/


298 名前:292 mailto:sage [04/02/27 23:20]
サンクスコ。
なるほど、レベルの違うスレもあれば、そうでないのもあって面白い。

結局、バカのせいなんだよな。
「かほる」なんて名前が昔から使われていると思うようなバカと一緒。

スレ違いなのでAC。


299 名前:デフォルトの名無しさん [04/02/29 03:37]
さ、

300 名前:デフォルトの名無しさん [04/02/29 03:37]
さんびゃくー!!

301 名前:デフォルトの名無しさん mailto:sage [04/02/29 20:02]
m17n-libがもうすぐ公開だな
使い物になるのだろうか

302 名前:290 mailto:sage [04/03/01 13:22]
いや、どこのスレだって無責任なレスがほとんどなんだけどさ、
言語学版あたりの文字コード関連スレだと、
かなーり詳しい奴が張り付いてて、すぐに突っ込みが入る。

しょーがないから俺が突っ込んでおくと、
戸籍での「辻」は一点も二点もありだ。っつーか、
しんにょうはすべて一点でも二点でも認められているわけだが。

303 名前:LightCone ◆sSJBc30S5w [04/03/03 21:26]
UNICODEのUTF-8の日本語向けの符号を考えてみました:
www.nowsmartsoft.or.tv/nws/Japanese/nwsos_utf.htm

UTF-8と違って、JIS第一、第二までは、2BYTEで表せます。

まだ、仕様を考えている途中なので、この符号を用いたプログラムは一つ
もありません。

何か問題点や、嘘を書いてる点などが見つかりましたらご指摘頂ければ幸い
です(つまり添削お願いします)。

304 名前:デフォルトの名無しさん mailto:sage [04/03/04 03:07]
>>303
変換にテーブルが必要な時点でUTFと名乗るのは問題がある。
俺コードとかって名前なら別にどうでもいいんだけど。

305 名前:デフォルトの名無しさん mailto:sage [04/03/04 07:40]
>>303
>多バイト文字途中への検索ヒットを簡単に回避可能

正規表現で回避しているようだけど、回避のための
修正が必要な時点で、UTF-8と比べて汎用的とはいいがたいなぁ。
(strcmpを使っているなら細工をして再コンパイル等が必要だけど
UTF-8は修正の必要もない)



306 名前:デフォルトの名無しさん mailto:sage [04/03/04 09:25]
>>303
> 何か問題点や、
単にまた混乱の元を追加するだけってことかな。

307 名前:デフォルトの名無しさん mailto:sage [04/03/04 11:16]
みんなUTF-8で結構おなか一杯だからなぁ。

308 名前:デフォルトの名無しさん mailto:sage [04/03/04 11:32]
>>303
Unicodeを混ぜることができる,EUC-JP/シフトJISの一種と考えたら
そこそこ面白い。

309 名前:デフォルトの名無しさん mailto:sage [04/03/04 12:43]
>>308
その手の拡張は>>239にもあるし>>240-にもあるしおなかいっぱい

310 名前:デフォルトの名無しさん mailto:sage [04/03/04 13:21]
主にどういう局面で利用される事を想定してるんだろうか。
UTF-8でも少しサイズが大きい程度で、そんなに気にならないんだけど。
独自にやる苦労に見合うだけの結果が得られるかは微妙だ。
打算計算を抜きにすれば、自作のOSで自作の文字コード使って
色々実験するのは楽しそうとは思うけどね。(^^;

311 名前:LightCone ◆sSJBc30S5w [04/03/04 16:31]
>>308, >>309
「Unicodeを混ぜることの出来るEUC-JP/SJIS」に、「簡単に逆戻り可能」な
性質を取り入れたような感じなんです。

ちなみに、>>239の符号では、逆戻りは出来ないと思いますが、
さらに、「\」コードを含んでいるので、色々と問題があると思います。

というわけで、いかがでしょうか。

新しいコードは、みんなが使い始めるか、よっぽど良い性質がない限り、
抵抗感がある物かも知れませんが。

312 名前:LightCone ◆sSJBc30S5w [04/03/04 16:42]
>>310
>主にどういう局面で利用される事を想定してるんだろうか。
>UTF-8でも少しサイズが大きい程度で、そんなに気にならないんだけど。

そう思われる人が多いのであれば、せっかくでしたが、余り意味がないかも
知れません。

でも、今まで2BYTE表せていた文字に3BYTEを当てるのに抵抗がある人には、
需要があるのではないかと思うんです。

その点だけでは、>>239の符号もいいと思いますが、UTF-JAPANの方は、
逆戻り可能の性質を持っている点や、多バイト文字に\コード等を含んで
ない点で、解析やエディタ作りなどにおいて、真価を発揮する場面がある
のではないかと思います。

EUCも、2バイトの範囲では逆戻り可能ですけど。>>239に書かれている拡張EUC:
web.archive.org/web/20030218074331/www.ksky.ne.jp/~smile4me/charcode/xeucjp.htm
においては、UTF-16,UTF-32対応する3バイト以上のコードでは、逆戻りが
出来なくなっているようですし。

313 名前:LightCone ◆sSJBc30S5w [04/03/04 16:46]
>>304
この符号の場合、基本的に地域や言語ごとに違う変換テーブルを用意する
必要がありますね。それをOSがサポートして、欲しいフォーマットに
まで変換を世話してくれればアプリの負担は減るとは思うんですが。

全世界で全く同じコードを用いたいのであれば、漢字が3バイトになって
しまうのは、元々やむを得ないかも知れない。

314 名前:LightCone ◆sSJBc30S5w [04/03/04 16:53]
>>305
UTF-8の場合、strcmp()は、単純な昔ながらの1バイト単位の比較のまま
無修正で利用できてしまうんですよね。

それは凄い性質ではあると思いますが、結局、コードを無修正で済ました
いばっかりに、データサイズが大きくなる犠牲を払っているんだと思うん
です。



315 名前:LightCone ◆sSJBc30S5w [04/03/04 16:54]
なお、

UTF-JAPANを、「UTF-COMPACT-JAPAN」と改名して、
「UTF-COMPACT-ARABIA」
「UTF-COMPACT-CHINA」
なども定義すれば、strcmp()等の修正は、言語数分まで及ばずに
一回だけで済むかも知れませんね。



316 名前:LightCone ◆sSJBc30S5w [04/03/04 16:57]
>>237 から続く発言は、なんと先月のものなんですね!

うまく合併できないかな。

317 名前:LightCone ◆sSJBc30S5w [04/03/04 17:02]
>>261
>CPU等が速くなってんのにアプリの体感速度が変わらないとう現象の
>原因を作っている人たちはココにいたんですね。。

これは、今まで2バイトで表現できていた物を3バイトにしようとすることとも
その一つかな。

全世界の文字を使えるのはいいことではあるけれど、日本人が、英語と
JIS第一,第二以外の言語を使用する頻度は低いし、文字集合はUNICODEを
使うにしても、地域ごとに違った符号があってもいいのではないかな。

318 名前:LightCone ◆sSJBc30S5w [04/03/04 17:04]
UTF-COMPACTの変換テーブルは、OSが提供するだろうから、
UTF-COMPACT-xxxxx用のアプリは、いずれのxxxxx言語にも
無修正で対応できるのではないだろうか?

319 名前:LightCone ◆sSJBc30S5w [04/03/04 17:10]
例えば、HTMLヘッダに、

<meta http-equiv="Content-Type" content="text/html;
charset=
utf-compact-japan">
~~~~~~~~~~~~~~~~~

を書いておけばいいんじゃないかな。

SJISや、EUC-JPでやってることと何ら変わりないと思うし。

320 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:25]
アメ公がUTF-16嫌ってUTF-8に走るのとまったく同じ論法だよね
自分たちが使いもしない文字のことなんてどうでもいいと思うのは
世界共通というか

321 名前:LightCone ◆sSJBc30S5w [04/03/04 17:34]
>>320
でも、自分たちの地域で効率を上げることにも、一利はあると思うんです。

UNICODEを全否定しているわけではなく、符号長に地域ごとに偏りを
持たせるだけですし。

322 名前:LightCone ◆sSJBc30S5w [04/03/04 17:36]
SFみたいな世界になって、文字種が爆発的に増えた場合、やっぱり、
地球では地球語に短い符号を割り当てるんじゃないかな。

そういう意味で、偏りを持たせる発想は、古くさい考えではないと思う。

323 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:38]
だったらローカルコードでいいし
地域の数だけ馬鹿でかい変換テーブル持つなんて馬鹿の極み

324 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:41]
日本語が多くてサイズが増えるのが嫌なら、UTF-16を使えばいいのでは?

325 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:41]
> 制御コード、特殊記号、\コードを含まず
C1文字は制御コードじゃありませんか
そうですか



326 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:43]
> JIS X 0213 2000 JIS第三、第四 4344字
今さら2000年版かよ

327 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:43]
> 情報交換用漢字符号系
つーかずいぶんと古い資料参照してるな

328 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:44]
そもそもたった一つのインプリで他言語をカバーしようとしたのがUnicodeじゃないの?
それを地域ごとに独自テーブル作ったら意味ないじゃん

329 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:44]
> /[^\x81-\xde]任意の文字列/
「任意の文字列」が先頭だったらヒットしなくなるね

330 名前:328 mailto:sage [04/03/04 17:45]
失礼
X他言語
O多言語

331 名前:328 mailto:sage [04/03/04 17:47]
そもそも
UTF-JAPAN
ってのがかっこわるいよね
せめて
UTF-JPとかUTF-jaとかにすればいいのに


332 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:48]
せめてもう少し間隔おいて自演したら?

333 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:49]
> SJISや、EUC-JPでやってることと何ら変わりないと思うし。
なんら変わりなく欠点を引き継いでどうするんだよ

334 名前:デフォルトの名無しさん mailto:sage [04/03/04 17:51]
>>332
誰に言ってるんですか?

335 名前:デフォルトの名無しさん mailto:sage [04/03/04 18:41]
ちょっと考えてはみたけど、UTF-8越えは難しいな。
使っててあまり不満ねーもの。(慣れたのもある)
その俺コードで外人と文書のやり取りする時はどうする気なんだ?

>>331
確かに微妙な名前だ。

>>333
文字集合がUnicodeでやろうと思えば多くの文字を表現出来る点が重要なんじゃね?
サイズを気にするなら圧縮で十分って気がするけど。



336 名前:LightCone ◆sSJBc30S5w [04/03/05 00:09]
中国には、JIS第一水準と同様に、「第一級漢字」が定まっていて:
www.kishugiken.co.jp/cn/code09c.html
このようになってます↑

ご覧の通り、JIS第一、第二水準と重複する部分も多く、興味深いのです。

これと、JIS第一水準を合わせた部分を2BYTEで表せるような、UNICODE符号を
作れば、中国人と日本人の両方にメリットがあるかも知れないと思うのですが、
いかがですか?

337 名前:LightCone ◆sSJBc30S5w [04/03/05 00:17]
ちなみに、UNICODEのCJK統合漢字部分は、頻度の低い漢字も何も考えずに
並べてあり、頻度毎に分類できないので、どうしても22000文字程度
をまとめて符号化する必要があります。ASCII符号と互換性を持たせ
つつ、これら全ての文字集合を2BYTEで表現しきることは、ほぼ不可能
です。

しかし、中国の第一級、第二級漢字と、日本のJIS第一、第二水準漢字
には重複する部分が多く、それらの「和集合」の文字なら、2BYTEで
表せる範囲の数ではないかと踏んでるんです。

338 名前:デフォルトの名無しさん mailto:sage [04/03/05 00:19]
各文字に割り振るコードの順番にも意味があるから、単に足し合わせれば良いという物でも
ないと思うけど。

339 名前:LightCone ◆sSJBc30S5w [04/03/05 00:23]
大体の目安としては、一万五千字程度の文字なら、ASCII符号と互換性
を持たせ、「逆戻り可能」で、しかも、後続バイトを付ければUCS-4全体
を表現しきれるような、2BYTEの符号を作る事が出来ると見ています。

340 名前:LightCone ◆sSJBc30S5w [04/03/05 00:27]
>>338
せっかく、JIS第一水準で五十音順、第二水準で部首順になってるのが、
中国の文字セットと合成した際に失われると言うこと?

341 名前:デフォルトの名無しさん mailto:sage [04/03/05 00:28]
GB18030は何文字格納できるんだっけか?

342 名前:LightCone ◆sSJBc30S5w [04/03/05 00:29]
UNICODEでは、部首順らしいので、統合する際にそれにならえばいい
のでは?

343 名前:LightCone ◆sSJBc30S5w [04/03/05 00:30]
>>341
わても知らんので、調べて。

344 名前:デフォルトの名無しさん mailto:sage [04/03/05 00:30]
>>342
コテハンには聞いていない。

345 名前:デフォルトの名無しさん mailto:sage [04/03/05 02:12]
150万文字ぐらい入るんだっけか>GB18030



346 名前:デフォルトの名無しさん mailto:sage [04/03/05 13:18]
>>345
うん。約1,611,668文字かな。

347 名前:デフォルトの名無しさん [04/03/05 13:49]
ちなみに、GB18030は、逆戻り不可だし、検索も複数バイト文字の途中で
ヒットする。

348 名前:LightCone ◆sSJBc30S5w [04/03/06 00:44]
UNICODEの新符号「UTFCP」を発案しました:

nowsmartsoft.or.tv/nws/Japanese/nwsos_utf.htm

2バイトの符号で1万5千文字以上を表せて、なおかつ、文字列を文字単位で
正確に逆戻りできる、UNICODE符号です。UCS-4全体を表現できます。

また、多バイト符号にASCII符号を一切含まないので、英大文字小文字変換に
対しても安定です。

理論上、日本語のJIS第一、第二水準漢字、中国語の第一級、第二級漢字の両方
をコードページの切り替えなしに2BYTE符号で表せますので、
UTF8に比べ、頻度の高い日本語や中国語の文章が2/3に(50%減)コンパクトに
なります。


いかがでしょう? (^_^;)

349 名前:デフォルトの名無しさん [04/03/06 01:44]
ハードディスクが何百GBになる時代に、テキストファイルの容量が数十%減ったくらいでは
あまり利点を感じないけどなぁ。

むしろ、>>240-243みたいに(書いたの漏れだけど)EUC-JPやShift_JISの完全上位互換規格を
考えたほうがまだ意味があると思う。

350 名前:デフォルトの名無しさん mailto:sage [04/03/06 07:53]
情報の冗長性を取り除いて小さくまとめようとすると
たいてい少し複雑な演算が必要になるよね。
UTF8と張り合うなら演算量も念頭にいれる必要があるかも。

UCS4とUTF8の変換では1〜2個の条件分岐と
長さ*(シフト、OR、AND)演算+入出力程度で変換してる。

351 名前:デフォルトの名無しさん mailto:sage [04/03/06 08:13]
>>348
各文字コードの主要な正規表現エンジン各々での探索コストの大まかな比較をやってみてほしい。

352 名前:デフォルトの名無しさん mailto:sage [04/03/06 12:06]
ただでさえ混乱している文字コード周りの処理をさらに混乱させないでくれ。

353 名前:デフォルトの名無しさん mailto:sage [04/03/06 12:21]
>>348
「俺コード」を作るな。
有用だと信じるなら、IETFとかUnicode.orgにでも提案しろ。


354 名前:デフォルトの名無しさん mailto:sage [04/03/06 13:50]
>>352-353
作るのは勝手なんじゃね?
気に入らないなら使わなけりゃ良いだけ。
案が未熟だというだけで作る事自体を否定するものではないかと。

因みに俺もUTF8で不満は無い。
文字コードみたいなもので冒険せずに他で頑張った方が良いんじゃないかと。
高いリスクを冒した結果、成功したところで見返りは小さい。

355 名前:デフォルトの名無しさん mailto:sage [04/03/06 14:12]
まあ、独自Unicode系CESなんて、普及するわけもないから、
悪影響も少ないわな。機種依存文字なんかはすぐに悪影響が出るけど。



356 名前:デフォルトの名無しさん mailto:sage [04/03/06 19:34]
俺アプリのベースエンコーディングに使う為の独自エンコーディングの開発ならオケですか?

357 名前:デフォルトの名無しさん mailto:sage [04/03/06 20:49]
俺OSのベースエンコーディングに使う為の独自エンコーディングの開発ならオケです。

358 名前:デフォルトの名無しさん mailto:sage [04/03/06 21:35]
>>350
1つの文字を複数の表現で符号化できる規則は可能なら避けたほうがいい
UTF-8で避けようとすると加減算が余分に入るけど

359 名前:デフォルトの名無しさん mailto:sage [04/03/07 01:11]
お前ら釣られるなよw

360 名前:デフォルトの名無しさん mailto:sage [04/03/07 03:20]
>>358
UTF-8は一つのコードに対して複数の表現は許していないはずだけど
文字とか字形の話…?

361 名前:デフォルトの名無しさん mailto:sage [04/03/07 04:05]
>>360
・・・・は?

362 名前:LightCone ◆sSJBc30S5w [04/03/07 19:28]
UTFCPについて、詳しく書いておきました。
符号の読み取りや、逆戻りの状態遷移図やソースプログラムもあります。
また、1バイト単位の正規表現ルーチンでも検索に利用できることも分かったので
書いておきました。

www.nowsmartsoft.or.tv/nws/Japanese/nwsos_utf.htm

363 名前:デフォルトの名無しさん mailto:sage [04/03/07 19:34]
2chで宣伝とは・・・

364 名前:デフォルトの名無しさん mailto:sage [04/03/07 22:20]
>>362
gobackUTFCP が動くとは思えないのだが。

365 名前:LightCone ◆sSJBc30S5w [04/03/07 22:54]
>>364
動くと私は思います。

動かないと思われる例を挙げてみて下さい。(^_^;)



366 名前:デフォルトの名無しさん mailto:sage [04/03/07 23:02]
>>362
だから○とか×じゃなくて探索コストで比較しろって。
あんたが主張する利点は対象データの処理がUTF8に比べて
速いということだろ。今の状態では説得力0だ。

367 名前:デフォルトの名無しさん mailto:sage [04/03/07 23:05]
>>366
いい加減放置しろって・・・
明らかな宣伝ということで削除依頼もしておいた。






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<262KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef