- 1 名前:デフォルトの名無しさん [2007/05/27(日) 16:19:36 ]
- プログラムにおける各種文字コードの処理について語りましょう♪
■前スレ 文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/ ■参考サイト Unicode Home Page www.unicode.org/ Java Character Encodings www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
- 159 名前:デフォルトの名無しさん mailto:sage [2007/09/15(土) 01:16:27 ]
- UTR#37には統合できない文字をVSで表すようなことをしてはいけないと
明記されてるから実にまっとうな方向の改訂案
- 160 名前:デフォルトの名無しさん [2007/09/16(日) 22:21:49 ]
- 「門」の手書き等で使われる略字は簡体字(U+95E8)と統合する事になったんだね。
そっちの方がいいわな。
- 161 名前:デフォルトの名無しさん mailto:sage [2007/09/16(日) 23:05:18 ]
- そういうわけで前回ここで指摘された点はほぼ改善されてる。
別にここ見てたわけじゃなくてAnnex Sから常識的に判断すれば 必然的にそうなるってことだろうな
- 162 名前:デフォルトの名無しさん [2007/09/18(火) 22:48:48 ]
- 悉曇十八章まだー?
- 163 名前:デフォルトの名無しさん mailto:sage [2007/09/20(木) 02:07:49 ]
- Siddham scriptは草案らしきものが出てるけど
まだ正式には提案されていない
- 164 名前:デフォルトの名無しさん [2007/09/22(土) 00:29:00 ]
- 北朝鮮の将軍様専用ハングルはUnicodeには追加されないのかな?
- 165 名前:デフォルトの名無しさん [2007/09/23(日) 01:35:53 ]
- U+2E28とU+2E29に二重括弧を入れようとしてるみたい。
JIS X 0213の1-2-54と1-2-55との対応について更に混乱しそうだな。
- 166 名前:デフォルトの名無しさん mailto:sage [2007/10/03(水) 07:25:50 ]
- >>164
KPS 9566をソースに提案されたことがあるけど 蹴られたから新たな展開がない限りは収録されないと思われ
- 167 名前:デフォルトの名無しさん [2007/10/05(金) 21:20:58 ]
- もし追加されるとなると互換文字としてU+Fxxxの領域に割り当てられるだろうな。
ハングル音節ブロックの余ってるU+D7A4〜U+D7AFに追加でもいいかもしんない。このままだとそこ永久に埋まりそうにないし。
- 168 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 04:03:43 ]
- >>167
ブロックの割り当ては16文字単位だからHangul Jamo Extended Bでも使ってないのか
- 169 名前:デフォルトの名無しさん [2007/10/06(土) 05:37:35 ]
- TUF16文字列をUTF-8に変換した場合、
4バイト以上はまず来ないと思っていいですか?
- 170 名前:デフォルトの名無しさん [2007/10/06(土) 05:38:39 ]
- UTF16
- 171 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 05:53:53 ]
- サロゲートに対応していない馬鹿なUTF-8コンバータだったら
6バイトのものを送ってくるかも
- 172 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 05:53:57 ]
- >>169 なぜそうなる?
- 173 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 06:39:33 ]
- UTF-16ではU+10FFFFまでしか表せないからじゃね?
- 174 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 10:18:53 ]
- >>169
6バイト
- 175 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 11:20:14 ]
- >>174
>>171以外ならそんな入力の場合に6バイトになるのかkwsk
- 176 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 11:20:34 ]
- ×そんな入力
○どんな入力
- 177 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 11:23:48 ]
- pc11.2ch.net/test/read.cgi/tech/1177930957/
- 178 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 15:19:26 ]
- Javaは3バイトまで
- 179 名前:デフォルトの名無しさん [2007/10/06(土) 17:15:03 ]
- ドイツ語圏は、ドイツ語を使う国々が集まって、表記法を統一する会議を何年かおきに
やっている。 なんで、東アジア、漢字を統一できなかったのか、残念。
- 180 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 17:25:36 ]
- U+10000からU+10FFFFまでは4バイト
- 181 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 17:27:11 ]
- >>179
ドイツ人は制定マニアだから。 そういうことが難しいからこそ、漢字圏なんじゃないのか?
- 182 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 17:56:29 ]
- ドイツ語圏はドイツ語圏だけど
漢字圏は中文圏じゃないし 日本語とかの別言語でも漢字を使っているからね
- 183 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 18:20:18 ]
- >>179 中国だって統一王朝が立つと文字の整理をやってるぞ
- 184 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 18:35:31 ]
- MySQLのUTF8は3バイト文字までしか対応していない
- 185 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 19:35:22 ]
- >>184
ありゃりゃ。みんなどうしてんの?
- 186 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 20:07:40 ]
- >>183
毛沢東もやった死ね
- 187 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 21:51:16 ]
- じゃあ漢字の統合のために台湾併合だな
- 188 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 23:34:15 ]
- 日本もね
- 189 名前:デフォルトの名無しさん mailto:sage [2007/10/06(土) 23:57:53 ]
- 康熙字典体に統一で桶。
- 190 名前:デフォルトの名無しさん mailto:sage [2007/10/07(日) 02:48:55 ]
- 中国は文献がほとんどかえりみられなくなっては
日本から逆輸入というのを定期的に繰り返しているし。 文字の統一なんて掛け声以前の問題じゃなかろうか。
- 191 名前:デフォルトの名無しさん mailto:sage [2007/10/07(日) 03:38:26 ]
- >>189
Unicodeはそういう方針だな。GB7589とGB7590は繁体字で入ってるし 並び順も康煕字典の部首画数順だし
- 192 名前:デフォルトの名無しさん mailto:sage [2007/10/07(日) 05:22:31 ]
- 80年代後半から90年代前半って
台湾の方が電子化進んでたよね
- 193 名前:デフォルトの名無しさん mailto:sage [2007/10/07(日) 08:48:37 ]
- いまや日本=秋葉原でHENTAI ANINEの国という認識だろ。
文字なんて「萌え」が残ってればおkなんじゃね? と秋葉帰りの外人から思われてるに違いない。
- 194 名前:デフォルトの名無しさん mailto:sage [2007/10/07(日) 13:30:02 ]
- >>191 Unicode の康煕字典ベースは、Unicode の原典主義からの帰結やね。
並び順の、康煕字典の部首画数順はもしかして漢字文化圏のグローバルスタンダード? >>193 向こうの濃いオタ連中は20年ぐらい前から現代日本風アイテムとして漢字を 認識してるから、それはない。
- 195 名前:デフォルトの名無しさん mailto:sage [2007/10/07(日) 13:37:21 ]
- 請け負ったWebの仕事で、UTF-8で作成してたんだが、
Shift-jisしか受け付けないサーバーだと完成間際で判明して 1から変換しなおし。何とか事なきを得たんだが、次回に どうしてもクライアントがやりたがってる事をAjaxでやろうと すると、どうしてもUTF-8を採用せざる負えない結果に…orz javascriptでShift-jisからUTF-8に変換して表示させる事はできないでしょうか? 向こうのサーバー事情でPHPやらPerlは一切使わせて貰えない状況です。 何とかお助けくださいませ。。。。。。。。。。。。
- 196 名前:デフォルトの名無しさん mailto:sage [2007/10/07(日) 14:15:38 ]
- ググレカス
- 197 名前:デフォルトの名無しさん mailto:sage [2007/10/07(日) 14:40:15 ]
- >>194
CJKのどこからも文句の出ない並び順が康煕字典順しかなかったってことだろう 現代中国はにくづきとふなづきを統合したりしたまったく異なる部首を使ってるし 発音順は国によって全く異なるし
- 198 名前:デフォルトの名無しさん [2007/10/14(日) 20:13:05 ]
- sjis,EUC,UTF8,16,32の判別ソフトをCで作っています。
UCS2も対応させたいのですが、何処か参考になるサイトは無いでしょうか すみません、どなたか教えて下さいm(_ _)m
- 199 名前:デフォルトの名無しさん mailto:sage [2007/10/14(日) 20:21:10 ]
- >>198
www.google.co.jp/search?q=universalchardet
- 200 名前:デフォルトの名無しさん mailto:sage [2007/11/03(土) 16:03:56 ]
- 【日台中韓】韓・中・日・台が漢字の字体統一へ[11/03]
news21.2ch.net/test/read.cgi/news4plus/1194067861/
- 201 名前:デフォルトの名無しさん mailto:sage [2007/11/03(土) 19:20:21 ]
- 字体統一って中国以外にメリットあるの?
- 202 名前:デフォルトの名無しさん mailto:sage [2007/11/03(土) 19:22:45 ]
- 日本すら未だに統一できてないのに秒速で漢字が増えてゆく国が統一とは
- 203 名前:デフォルトの名無しさん mailto:sage [2007/11/12(月) 17:13:15 ]
- >>200
ウソだったらしい。もうなにがなんだか。 【日台中韓】 「中・日・韓・台の漢字統一」報道を否定!簡体字使用の変更は不可能[11/12] news21.2ch.net/test/read.cgi/news4plus/1194847769/
- 204 名前:デフォルトの名無しさん mailto:sage [2007/11/12(月) 18:23:49 ]
- ヨタ記事をいちいち貼るなよ。
- 205 名前:デフォルトの名無しさん mailto:sage [2007/11/17(土) 15:44:45 ]
- IMEパッドの文字の上にマウスを持っていくとでるバルーンヘルプの内容が取得できるライブラリ(関数)をしりませんか?
in:jisX0213:2004 1面, 1区, 1点 out:ucs, utf-8, Shift_JIS 見たいな、、、
- 206 名前:デフォルトの名無しさん mailto:sage [2007/11/18(日) 00:29:36 ]
- 超漢字検索の情報ウィンドウの内容を取得できるライブラリもほしい
- 207 名前:デフォルトの名無しさん [2007/11/20(火) 23:35:37 ]
- JIS X 0213 面区点番号とunicodeのマッピングを
機械的に求めることはできますか?
- 208 名前:デフォルトの名無しさん mailto:sage [2007/11/21(水) 11:39:36 ]
- テーブル引く
...というのは機械的だろうか?
- 209 名前:デフォルトの名無しさん [2007/11/21(水) 13:03:01 ]
- ドイツ語は定期的にspellをドイツ語圏で統一するように会議をしているね。ま、向こうは意味まで
同じなのだが。形だけ揃えても意味ないし、朝鮮半島はハングルで統一されている。CKJで統一 する意味はないと思うのだがね。
- 210 名前:デフォルトの名無しさん mailto:sage [2007/11/21(水) 19:13:46 ]
- perlで作ったcgiに一番オヌヌメなコードkwsk
- 211 名前:デフォルトの名無しさん mailto:sage [2007/11/21(水) 21:09:46 ]
- perlはなんでもいいよ。
Encode使えば割りとw何でもできるから。 好きなのにしな。 まあ今ならutf-8がいいだろうけど。 formにUnicodeな文字入力する奴もいるし。
- 212 名前:デフォルトの名無しさん mailto:sage [2007/11/24(土) 02:48:07 ]
- なんかさ、gccのワイドリテラルの扱いってへんてこな感じね。
gcc3.4よか前だと単に1Byteを4Byteに展開するだけで何の文字コードでもなく、 3.4以上だとUTF-32LEになってるかのような動き。 さらにvc(UTF-16LE)とのクロスでの開発を考えると頭が痛くなるなあ・・ Win/Linuxのクロスでやってる人って内部コードってなににしてる?
- 213 名前:デフォルトの名無しさん mailto:sage [2007/11/24(土) 02:52:40 ]
- >>212
ワイド文字をリテラルでは使わない。 UTF-8から変換。
- 214 名前:デフォルトの名無しさん mailto:sage [2007/11/24(土) 03:07:35 ]
- ま、そだよね。基本的にはリテラルに日本語入れなきゃ円満なんだよね。
3.4以降はexec-charsetでどうとでもできそうだけど、古いのは・・ ソースをUTF-8にすればなんとか日本語入れてもコンパイルはできるか。 あぁ、でもvc7とかはUTF-8のソース確か受け付けなかったような。 ソースくらいは変換するべきか。面倒だな・・いろいろ。
- 215 名前:デフォルトの名無しさん mailto:sage [2007/11/24(土) 04:02:12 ]
- 全部\uxxxxで書いちゃえ。
- 216 名前:デフォルトの名無しさん mailto:sage [2007/11/24(土) 04:22:36 ]
- うほ、なげやり
でもそれすらgccいけるけどvcは\u使えないとか罠があったり。。 いろいろ実験して、バッドノウハウだけ増えたな・・ vc,gccともソースがUTF-16系は不可、vcはシグニチャなしUTF-8ソース不可、 逆にgccはシグニチャありUTF-8ソース不可・・
- 217 名前:デフォルトの名無しさん mailto:sage [2007/11/24(土) 04:45:06 ]
- いや、やっぱvcはUTF-8はBOMありなしどっちもだめだなぁ。ソースによる
みたいだ。最低だなsjisしか受け付けないのか・・。vc8なら平気かもしれないけど vc ソースsjis 内部UTF-16LE(コンパイル時L変換) gcc3.3以下 ソースsjis(リテラルに"表"とかだめ) 内部UTF-8(実行時iconv変換) gcc3.4以上 ソースsjis 内部UTF-8(input-charset=cp932でgccでコンパイル時変換) こんなしか選択肢がないような。あぁ、CVSで変換するとかならソースはもっと 自由度あるか。だりーな、Unicode対応・・。もうsjis/eucでいい気がしてきた。
- 218 名前:デフォルトの名無しさん mailto:sage [2007/11/24(土) 15:53:48 ]
- vcがutf-8ダメだってのは、何がだめだっての?
- 219 名前:デフォルトの名無しさん mailto:sage [2007/11/24(土) 17:14:21 ]
- vc7で、UTF-8のソースだと
#define XX "あ" とかあるとだめだけど #define XX "ああ" だと平気。たぶんsjisとして処理してるから日本語リテラルが奇数バイト だとだめみたいな感じ。
- 220 名前:デフォルトの名無しさん mailto:sage [2007/11/24(土) 23:51:33 ]
- vc8使え。終了
- 221 名前:デフォルトの名無しさん mailto:sage [2007/11/25(日) 10:34:26 ]
- 00h〜1Fh 制御文字
20h〜7Fh 各国共通(1バイト文字) 80h〜FFh 各国自由(1/2バイト文字) 16ビットPCを出すときに思い切って半角カナを廃止して 80h以降は日本では2バイト文字専用にすれば良かった つーか70年代末期の最初のPCを出すときに80h以降は 予約領域かPCG領域にすれば良かったんだよな
- 222 名前:デフォルトの名無しさん mailto:sage [2007/11/25(日) 10:36:33 ]
- あとからならどうとでも言える
カタカナだけでもいいから1バイトで処理したいという要求がどれだけ当時は切実だったことか
- 223 名前:デフォルトの名無しさん mailto:sage [2007/11/28(水) 12:10:33 ]
- 80年代前半は漢字が表示できないマシンがごろごろしてたし
1987年ごろのパソ通でも、漢字を使うと表示できないマシンが あるから、カナ以外禁止というところもあったね。
- 224 名前:デフォルトの名無しさん mailto:sage [2007/11/28(水) 14:01:29 ]
- テキストVRAMで漢字もOK、なPC9801も初期はJIS第2水準はオプションだったしなあ
- 225 名前:デフォルトの名無しさん mailto:sage [2007/11/28(水) 18:40:35 ]
- >>224
初代は第1水準もオプション
- 226 名前:デフォルトの名無しさん mailto:sage [2007/11/28(水) 18:44:17 ]
- テキストVRAMが歯抜けだったからね。<無印PC-9801
オプションの漢字ROMボードを入れるとその隙間を埋めるRAMもついてきたってわけ。
- 227 名前:デフォルトの名無しさん mailto:sage [2007/11/29(木) 21:02:51 ]
- おまえらいくつだよ・・おっさんばっかだな
まあ若い人は文字コードになんか興味ないか
- 228 名前:デフォルトの名無しさん mailto:sage [2007/11/29(木) 21:29:00 ]
- 28歳はおっさんですかそうですよね。
- 229 名前:デフォルトの名無しさん mailto:sage [2007/11/29(木) 22:02:33 ]
- 外見によっては22でもおっさん。
- 230 名前:デフォルトの名無しさん mailto:sage [2007/11/29(木) 22:22:00 ]
- プログラマーは25才が卒業式です
- 231 名前:226 mailto:sage [2007/11/30(金) 00:24:07 ]
- >>227
失礼な。せめておばさんと呼べ。
- 232 名前:デフォルトの名無しさん mailto:sage [2007/11/30(金) 07:21:18 ]
- 時代背景を知らないと
テキストVRAMって文字サイズとか位置とか固定になっちゃうじゃんwww 超バカスwww なんでグラフィックVRAMに全部書かないのwww とか言い出す奴がいそうだな。 8ビットマシンはグラフィックVRAMに漢字表示できるものもあったわけだが
- 233 名前:デフォルトの名無しさん mailto:sage [2007/11/30(金) 08:53:49 ]
- 武勇伝はチラシの裏でどうぞ
219はどうなった?
- 234 名前:デフォルトの名無しさん mailto:sage [2007/11/30(金) 19:30:45 ]
- 単にバイト列としてコンパイルしたいだけなら
#pragma setlocale("C") を入れときゃいいだけでは?
- 235 名前:デフォルトの名無しさん mailto:sage [2007/12/01(土) 09:01:43 ]
- POSITION 160,100:PATTERN -16,KANJI$(4746)
- 236 名前:デフォルトの名無しさん mailto:sage [2007/12/01(土) 16:08:27 ]
- KANJI$テラナツカシス
- 237 名前:デフォルトの名無しさん mailto:sage [2007/12/02(日) 07:14:19 ]
- Unicodeはもうだめだな
サロゲートペア,異体字,半角カナ...問題ありすぎ 世界中の文字使えるったってほとんど意味無いしょ 第3水準で変な記号いっぱい追加されたけどそれも要らん JISが大手PC・携帯メーカーに呼びかけて MS,アップル,ドコモ,au,ソフトバンク,NEC,富士通,IBM 2バイト文字の最終統一規格を作るしかないんじゃないの? 8080H〜FFFFHの16384字あれば十分
- 238 名前:デフォルトの名無しさん mailto:sage [2007/12/02(日) 10:41:18 ]
- >JISが大手PC・携帯メーカーに呼びかけて
逆だ。JISは大手に踊らされている御用団体だからね。 つーか、それができるのならJIS83辺りで統一できているはず。 # 実態は……言うまでもないよな。 >8080H〜FFFFHの16384字あれば十分 計算できる?
- 239 名前:デフォルトの名無しさん [2007/12/02(日) 11:18:03 ]
- CJK互換漢字に4字追加されるみたい。
- 240 名前:デフォルトの名無しさん mailto:sage [2007/12/02(日) 11:25:30 ]
- >>237
もうおなかいっぱい。 これ以上文字コードを増やさないでくれ。
- 241 名前:デフォルトの名無しさん mailto:sage [2007/12/02(日) 11:45:05 ]
- しかも>>237のレベルでは…
- 242 名前:デフォルトの名無しさん [2007/12/02(日) 18:39:01 ]
- UTF-8で統一されるのが楽かなあ
>>237 2バイト固定長はもう無理でしょう。というか固定長は結合文字の 存在もあるしコーディング上のメリットがないんだよなあ。 結合文字を考慮した文字検索アルゴリズムとかもうどうしていいんだか・・
- 243 名前:デフォルトの名無しさん mailto:sage [2007/12/02(日) 19:06:21 ]
- TronコードでOK
- 244 名前:デフォルトの名無しさん mailto:sage [2007/12/02(日) 20:31:22 ]
- >>243
TRONコードは、単に、すでにある文字集合をぶち込む枠組であって、 文字集合の整備は漢字の収集とかやったけど、処理の上位層について TRON方面は概念を発表しただけで具体的なものは何も出てきて いないし、現在の問題を何ら解決できるものではない。現状から見て、 たいした期待はできない。
- 245 名前:デフォルトの名無しさん mailto:sage [2007/12/03(月) 01:24:14 ]
- グリフ単位での文字検索は諦めて、コードポイント単位で
やるしかないんじゃないの。当面は。
- 246 名前:デフォルトの名無しさん mailto:sage [2007/12/03(月) 22:10:17 ]
- 結合文字はそのコードポイントが別だから検索がめんどいんじゃないのか・・
- 247 名前:デフォルトの名無しさん mailto:sage [2007/12/03(月) 22:22:07 ]
- このへんを実装すれば多分おk
www.unicode.org/reports/tr10/ www.unicode.org/reports/tr15/
- 248 名前:デフォルトの名無しさん mailto:sage [2007/12/03(月) 23:03:38 ]
- UTF-8な文字「X」が文字コード AB CD EF で定義されているとして、
別の文字「Y」がこれらをシャッフルした文字コード( AB EF CD など)で 定義されている、という組み合わせを探しています。 効率的な調べ方とかあるかしら?
- 249 名前:デフォルトの名無しさん mailto:sage [2007/12/03(月) 23:14:28 ]
- たかだかx6だからベタでいいだろ。
- 250 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 01:18:41 ]
- >>249
char a[] = { 0xE3, 0x82, 0xA2, 0x00 }; char b[] = { 0xE3, 0xA2, 0x82, 0x00 }; ってしたときに、aは「ア」だけどbに割り当てられた文字はないでしょう? そういうのをプログラム的に省きたかったんだ。無理っぽいなあ
- 251 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 01:25:35 ]
- >>250
んなこと悩んでいる間にベタで書けば5分掛からないだろ。わけわからん。 それともなんかのプログラムの動作中ってこと?
- 252 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 07:34:33 ]
-
これって割り当てられてるってこと? ttp://www.google.co.jp/search?hl=ja&q=%E3%82%A2 ア の検索結果 約 73,600,000 件中 1 - 10 件目 (0.05 秒) ttp://www.google.co.jp/search?hl=ja&q=%E3%A2%82 㢂 の検索結果 約 2,740 件中 1 - 10 件目 (0.24 秒)
- 253 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 09:56:17 ]
- 日本語の文字には無いけど、中国の文字にあるだろ
- 254 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 09:56:49 ]
- 0xE3, 0xA2, 0x82 だから、文字コード 3882 だよ。
- 255 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 10:56:35 ]
- U+3882 はちゃんと ExtA に割りあてられてるな。
Windows なら Vista にするか対応フォントを入れれば見えるはず。
- 256 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 11:36:45 ]
- 関数的に書くなら、
端から生成して、端からx6の組み合わせで生成して、 端からUTF-8になってないバイト列を落とすフィルタを通す、 という感じで書くかな。
- 257 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:05:37 ]
- >>251
AB CD EF は16進数の10〜15ではなくて、6種類の変数A〜Fという意味。 文字列処理関数のテストケースを書いてて、248 みたいな組み合わせが数通り欲しかったのさ。 文字コード一覧表を目視して解決しますた。あんがと。 >>255 ExtAってなんかの制御コード? >>256 日本語フォントが用意されているかを調べる、というコードが書けない俺orz
- 258 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:28:23 ]
- 「日本語フォント」なんて関係ないだろ。
「文字集合」で考えろ。
- 259 名前:デフォルトの名無しさん mailto:sage [2007/12/04(火) 12:48:05 ]
- 「UTF-8的にあり得る(3バイトの)バイト列」じゃなくて、
「UnicodeからJIS X 0208(あるいはCP932)にマップ可能なコードポイント」を抽出したいのか? それはテーブル引くしかないような気がする。
|

|