文字コード総合スレ part3

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 2chのread.cgiへ]
Update time : 05/09 17:12 / Filesize : 157 KB / Number-of Response : 671
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

文字コード総合スレ part3

1 名前：デフォルトの名無しさん [2007/05/27(日) 16:19:36 ]: プログラムにおける各種文字コードの処理について語りましょう♪

■前スレ
文字コード総合スレ part2
pc11.2ch.net/test/read.cgi/tech/1143375639/

■参考サイト
Unicode Home Page
www.unicode.org/
Java Character Encodings
www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
29 名前：デフォルトの名無しさん mailto:sage [2007/06/08(金) 22:47:54 ]: 26でUTF-8と言っておきながら、27でShift_JISの文字を例に挙げるとはよくわからない
30 名前：デフォルトの名無しさん [2007/06/08(金) 23:19:50 ]: >>28
なるほど、切り出したり特殊な加工をしないかぎりは大丈夫ですか

>>29
いや、たまたま知っていた文字コードを入力してみただけですので・・・
31 名前：デフォルトの名無しさん mailto:sage [2007/06/09(土) 00:04:26 ]: >>26
ASCII じゃなくて Latin-1 で大丈夫なプログラムなら、
大抵は問題になる事はないと思われ。

7 ビット ASCII しか考慮してない場合は、
char が符号付きで、その値を unsigned char にキャストすることなしに
int にする処理が書いてあった場合、
8 ビット目のある文字を渡すと負の値になって、
それでおかしくなる可能性はある。
Latin-1 対応なら、このあたりちゃんと処理してるかと。

UTF-8(N) は多バイトの場合全部 8 ビット目が立ってるから、
Shift-JIS みたいに 2 バイト目が \ になるかも・・・とかそういう事は起こらない。
ただ、もちろんこの文字を途中でぶった切るようなことをしたら、変になる可能性はある。

普通の検索は確か問題なかったと思う。
でも、正規表現には、 . が一文字じゃなくて一バイトという扱いになってしまうとか、影響がある。
32 名前：デフォルトの名無しさん mailto:sage [2007/06/09(土) 02:18:40 ]: 80カラムにそろえるプログラムはおかしくなる。
バイトストリームとして扱うか、文字として扱うかによって違う。
33 名前：デフォルトの名無しさん mailto:sage [2007/06/09(土) 02:58:15 ]: 日本でメールは76桁で折り返せという慣習になってるのは
ISO-2022-JPのメッセージを80桁の端末に表示してるとき途中に折り返しが入ると
表示がおかしくなる可能性があるからだったな
そういう心配のない欧米ではquoted-printableを使ってた
34 名前：デフォルトの名無しさん mailto:sage [2007/06/09(土) 07:20:16 ]: そんな慣習がまかり通っていた頃に、quoted-printableはなかったよ。
大型機がやっているMTAに勝手に折り返すのが昔あったらしい。
35 名前：デフォルトの名無しさん mailto:sage [2007/06/09(土) 22:53:13 ]: >>34
RFC1468でquoted-printableに言及してる。それは使わず75桁で折り返せと。
(今読み返したら76じゃなかった)
36 名前：デフォルトの名無しさん [2007/06/10(日) 18:39:07 ]: >>31
詳細な解説、参考になりました。

Latin-1対応？というのが気になりますが、8bitを意識していないかどうか、
プログラム次第ということですね。

正規表現が問題あるのは痛いですね。（というか、そりゃそうだわな・・・）
37 名前：デフォルトの名無しさん mailto:sage [2007/06/10(日) 20:06:25 ]: /あ.う/ は "あいう" にはマッチしない。
"い" が 3 バイトだから。
/あ...う/ なら引っかかる。
全角文字は大体 3 バイトだから、実用上は困らないかもしれない。
ギリシャ文字やキリル文字みたいに 2 バイトのものもあるけど。
/あ.*う/ は /あいう/ にひっかかるけど、/あえいう/ にも引っかかる。

ただ、/あ.う/ として、. が多バイト文字の 1 バイト目に引っかかることはないはず。
多バイト文字の 2 バイト目以降は、1 バイト目と必ず違うようになってるから。
38 名前：デフォルトの名無しさん mailto:sage [2007/06/10(日) 20:16:02 ]: いつも思うんだが、

「75カラム（桁）で」というのはMUAにおける表示の問題だけだと思っていいのかな?
ISO-2022-JPだと制御文字が入るからバイト数的には75を超えてしまうわけだが、
それによって影響を受けるMUA/MTAがあったりするんだろうか?

そもそもカラム（文字列幅?）って概念は明確に定義されてる?
39 名前：デフォルトの名無しさん mailto:sage [2007/06/10(日) 21:48:45 ]: >>38
80桁の端末での表示上の問題だから表示されないものはカウントしない
当然プロポーショナルフォントなんて高級なものは想定してない
40 名前：デフォルトの名無しさん [2007/06/13(水) 03:27:09 ]: >>26の件ですが、プログラム側にUNICODE対応のモードがありまして、それが無事に動きました。
お騒がせしてしまいました。

プログラムは、Squirrelっていう組み込みのスクリプト言語です。

ちなみに、このプログラムは、非UNICODEの場合でも、UTF-16 BOM付きUTF-8BOM付きの読み込みをサポートしているのですが、
UTF-16だと、読み込み時に wchar_t を charに変換するので、
読み込みで、エラーが出なくても
実質日本語が使えないという、困ったチャンでした。
（困ったチャンというか、その実装なら当り前ですけど）

>>37
なるほど、正規表現だとそういうことになるんですね。
41 名前：デフォルトの名無しさん mailto:sage [2007/06/13(水) 08:19:59 ]: >>35
RFC1468って1992年でしょ。
quoted-printableって用語がMIMEだからこれも90年代入ってからだし。
そんな最近の話じゃないよ。

行折り返しが問題になるのは、端末の問題じゃなくて、
ISO-2022-JP(元々JUNETコード)が行末でASCIIに戻すと規定されていたから。
ところが例えば大型で動いているMTAの中には、(BITNETとか)
80カラム以上あると、行を分割したり、切り捨てたりするヤツがいたから、
ISO-2022-JPを考慮しなければ、ISO-2022-JPでなくなってしまう。
42 名前：デフォルトの名無しさん mailto:sage [2007/06/13(水) 21:46:04 ]: >>41
ということは、もしその手のMTAのことを今でも考慮するとしたら80「桁」以内じゃなくて
「バイト」以内で折り返さないとまずいということになるんですかね?
特にISO-2022-JPだとエスケープシーケンスが入るから前者と後者は明らかに
違うわけですが。

個人的にとあるMUAに関わっているんですが、非日本人の開発者／ユーザも
もいるので（てゆうか彼らがメインだったりしてw) この手の処理をどうするか
悩ましかったりします。
43 名前：デフォルトの名無しさん mailto:sage [2007/06/15(金) 05:39:20 ]: >>41
行末でASCIIに戻るのは原因と結果が逆のような。
そういう動作をする端末だかMTAだかが存在したからそう規定されたんでしょ
44 名前：デフォルトの名無しさん mailto:sage [2007/06/15(金) 08:31:30 ]: 規定されれば、次はそれが何かの原因になることもあるだろ？
45 名前：デフォルトの名無しさん mailto:sage [2007/06/16(土) 20:51:50 ]: そのために「慣用的な利用との互換性を目的としてだけ」とか但し書きが付くわけだが
(RFC1468には付いてないけど)読まない奴はいるしな
46 名前：デフォルトの名無しさん mailto:sage [2007/06/17(日) 07:39:20 ]: >>42
今はMIMEに従えばいいじゃん。
MUAが行を折り返すのは、余計なお世話だな。
47 名前：デフォルトの名無しさん mailto:sage [2007/06/18(月) 18:23:23 ]: >>46
>今はMIMEに従えばいいじゃん。
えっと具体的にはMIMEの何に従うということですか?

>MUAが行を折り返すのは、余計なお世話だな。
自分も個人的には改行は手で入れたい派なんですが、
ユーザーからの要望で自動改行機能を付けていたりします。
48 名前：デフォルトの名無しさん [2007/06/18(月) 18:33:39 ]: OpenOfficeの最新バージョン(2.2)ではサロゲートペアにほぼ完全に対応してた。
(これ迄のバージョンではBMP外の文字は送り幅が変だったりもっと昔のバージョンでは保存したとき消失したりしてた。)
49 名前：デフォルトの名無しさん mailto:sage [2007/06/18(月) 19:07:29 ]: 自動折り返しを実装するなら、まともな挙動にしてほ
しい。
こんな滅茶苦茶な改行には、ほとほとうんざりしてい
る。
50 名前：デフォルトの名無しさん mailto:sage [2007/06/18(月) 19:10:28 ]: そんなの未だいいじゃん
。こんな改行された日に
ゃ……誰かの台詞じゃ
ないけれど、「泣ける
」。
51 名前：デフォルトの名無しさん mailto:sage [2007/06/19(火) 00:26:43 ]: >>49
あれ、この処理じゃ駄目ですか?

>>50
要は禁則処理が必須ってことですか。
国際化されたMUAでそれをちゃんとやろうとすると自明じゃないですね。
文字コードスレの範疇を超えてるかもw
52 名前：デフォルトの名無しさん mailto:sage [2007/06/19(火) 18:11:09 ]: 禁則処理はDTP（もしくはエディタ）のレベルでそ
53 名前：デフォルトの名無しさん mailto:sage [2007/06/19(火) 22:30:59 ]: Windows Vistaの文字コードについて質問なのですが。
「VistaはShift_JIS-2004に対応」って記事を見かけるんですが、
これは「JIS X 0213:2004」の字体がUnicodeから使えるという意味であって、
Shift_JIS-2004の文字コードでの編集や保存に対応してるということではないですよね？
業務用のテキスト処理のソフトをつくるのに確認したいのですが、実機がなくて。
54 名前：デフォルトの名無しさん mailto:sage [2007/06/19(火) 22:32:33 ]: いや買ってこいよ
55 名前：デフォルトの名無しさん mailto:sage [2007/06/19(火) 22:54:35 ]: じゃあ、お金くださいよ
56 名前：デフォルトの名無しさん mailto:sage [2007/06/19(火) 23:00:55 ]: 業務用開発でそんな金すら出ないってなんだよ
57 名前：デフォルトの名無しさん mailto:sage [2007/06/20(水) 00:06:16 ]: >>53
> 「VistaはShift_JIS-2004に対応」
その記事書いた奴が何か勘違いしてるか
その記事を読んだおまえが何か勘違いしてる
58 名前：デフォルトの名無しさん [2007/06/20(水) 00:16:39 ]: ちょっと板違いかもしれませんが文字コードっぽいスレを
みつけられなかったのでここで失礼します。

だれかがsvnにcommitしたファイルが、英文字が全部

esc ( J "hoge" esc ( B

みたいにiso-2022みたいなエスケープでかこまれてしまい、
diffが取れなくなって困ってるのですが(他にもemacsで
C-sで検索が利かなくなったりとか)、

1. これは何というコードでしょうか？
2. どうやったら元に戻せますか？
(ascii文字セットで表現できる範囲はasciiに)
3. いったい何をどうやったらこんなふうになるんでしょうか？

諸賢のアドバイスをお願いします。また、もっと良いスレがあったら
誘導お願いします。
59 名前：デフォルトの名無しさん mailto:sage [2007/06/20(水) 00:23:00 ]: ESC ( J は JIS X 0201-Roman だな。
きっと backslash のかわりに円記号が使いたかったんだろう。
60 名前：デフォルトの名無しさん mailto:sage [2007/06/20(水) 00:25:50 ]: もしくは tilde の代わりに overline 使いたかったか。
61 名前：デフォルトの名無しさん mailto:sage [2007/06/20(水) 00:52:12 ]: ありがとん。
結局一旦日本語部分はEUCにして、残ったescape sequenceを
scriptでがっさり削って解決しました。
62 名前：デフォルトの名無しさん mailto:sage [2007/06/20(水) 21:51:46 ]: >>59-60
HTMLエディタには ESC ( J を使うものが多いらしい
しかしURLの中の 0x7E は tilde のつもりだし
JavaScriptのエスケープも backslash のつもりらしい
63 名前：デフォルトの名無しさん mailto:sage [2007/06/22(金) 09:26:11 ]: 　すいません、はげしく既出だと思うんですが過去ログとか読めなかった
ので質問させてください。
　C++上でUTF8をbasic_stringのように扱えるクラスかテンプレートで
フリーで使える奴ご存知の方いらっしゃいませんか？
　コンストラクタでUTF8の文字列をchar配列みたいな感じで受け取って、
[index]や*単項演算子でデコードした文字コード出てくる感じのがある
とベストなんですが・・・。
64 名前：デフォルトの名無しさん mailto:sage [2007/06/22(金) 09:39:38 ]: lib.locale.codecvt + basic_string<wchar_t>
65 名前：デフォルトの名無しさん mailto:age [2007/06/22(金) 17:28:50 ]: すみません。教えてください。
あるプログラムに
0xB4 0xC1 0xBB 0xFA
のEUC-JP文字列("漢字")を渡すと、
0xC2 0xB4 0xC3 0x81 0xC2 0xBB 0xC3 0xBA
のようになってしまいます。
自分で見たてでは 0xC2が横につく,または,0x40を引いて0xC3を横につける
という感じみたいなのですが、
何故こうなるのでしょうか。またその他の規則があるのでしょうか。
66 名前：デフォルトの名無しさん mailto:sage [2007/06/22(金) 18:22:49 ]: あるプログラムって？
67 名前：デフォルトの名無しさん mailto:sage [2007/06/22(金) 19:15:09 ]: tidy-libを使ったプログラムです。rawで読み込みさせてます。
68 名前：デフォルトの名無しさん mailto:sage [2007/06/22(金) 22:18:07 ]: バベルのとーにすんでいるー
69 名前：デフォルトの名無しさん mailto:sage [2007/06/23(土) 06:55:12 ]: >>65

Latin-1 から UTF-8 への変換がかかってるだけ。
70 名前：デフォルトの名無しさん mailto:sage [2007/06/23(土) 08:08:04 ]: ほんとだ、iconv -f latin1 -t utf-8したら再現した。
71 名前：デフォルトの名無しさん mailto:sage [2007/06/23(土) 08:10:19 ]: バビル二世現る
72 名前：65 mailto:sage [2007/06/23(土) 08:57:50 ]: >>69
> Latin-1 から UTF-8 への変換がかかってるだけ。

おお、ありがとうございます。

>>70
iconvでたしかめたところ再現しました。

libiconvを使ってやるといけそうです。ありがとうございました。
73 名前：デフォルトの名無しさん mailto:sage [2007/06/24(日) 21:48:41 ]: Unicode 吉野屋コピペを Flash 化してみた。
ttp://www5a.biglobe.ne.jp/~tmurakam/Flash/Unicode.html
超古いネタですまん。
74 名前：デフォルトの名無しさん mailto:sage [2007/06/25(月) 20:38:37 ]: ポイント制で文字コードを判別するアルゴリズムってどんなライセンスなんですか？
75 名前：デフォルトの名無しさん mailto:sage [2007/06/25(月) 20:47:26 ]: >>74
アルゴリズムとライセンスは別の話だろ？　いったいおまいさんはなにを訊きたいんだ？
76 名前：デフォルトの名無しさん mailto:sage [2007/06/25(月) 21:25:04 ]: アルゴリズムの特許が認められているので、
アルゴリズムにライセンスがある場合はある。
アルゴリズムにはコピーライトがない。
プログラムにはコピーライトがある。
>>74が何を聞きたいか分からない。
77 名前：74 mailto:sage [2007/06/26(火) 01:03:32 ]: じゃ、大幅に言い換えて

sakuraエディッタのソースを参考に文字コード判別モジュールを作ったんですが
これを含んだプログラムを素知らぬ顔で配布しちゃったらなんかやばい事になりますか？　または
作者さんに配布の是非を問えば「No」とか「金払え」みたいな回答が高い確率で返ってくるでしょうか？
78 名前：デフォルトの名無しさん mailto:sage [2007/06/26(火) 01:33:59 ]: >>77
sakuraエディッタとやらのライセンスを読めよ、馬鹿。　以上、終了。

はい、次の患者さんどうぞ。
79 名前：デフォルトの名無しさん mailto:sage [2007/06/26(火) 01:37:53 ]: >>77
sakura_editor.at.infoseek.co.jp/faq.html
80 名前：デフォルトの名無しさん mailto:sage [2007/06/26(火) 01:39:19 ]: まずはsakuraのライセンス確認したら？
81 名前：デフォルトの名無しさん mailto:sage [2007/06/26(火) 02:09:25 ]: つーか「参考に」だけでどの程度類似してるか判断できると思ってんのか
82 名前：デフォルトの名無しさん mailto:sage [2007/06/26(火) 06:56:15 ]: 文字コード関係ないやん。
nkfのコードならコピーライト表示するだけでコピー自由。
83 名前：デフォルトの名無しさん [2007/06/28(木) 09:37:25 ]: >>73
ワロッシュw
84 名前：デフォルトの名無しさん [2007/07/01(日) 12:25:27 ]: C/C++言語で UTF-8 の文字コードを読み込みたいのですが
対応する型は wchar でよかったでしょうか？
85 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 12:28:01 ]: charやunsigned charなど
あえてsinged charでも悪くないｗ。
86 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 12:32:29 ]: >>84
よくなかったでしょうか？
87 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 12:41:14 ]: >>84
char: charが符号ありの場合はunsigned charにキャストが必要なケースあり
unsigned char: C++の場合は大量にreinterpret_castが必要になることを覚悟汁
wchar_t: よかったでしょうか？
88 名前：84 mailto:sage [2007/07/01(日) 12:55:56 ]: >>87
wchar_t でしたありがとうございます
TCHAR型を知っていると幸せになれますよ
MS専用かもわかりませんが・・・

まだコードを書く前の分からないことの整理中でして
じっくりやりこんでいきます。
89 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 13:10:30 ]: wchar_tがUTF-8って絶対にありえないと言えない
（wchar_tがUTF-16な実装が存在するくらいだ）けど、
普通wchar_tと言ったらUCS-2、-4やUTF-16、-32とかだろう。
90 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 14:26:47 ]: UTF-8 は unsigned char だな。
wchar_t は有り得ない。
91 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 14:30:35 ]: >>90
string.hの関数とかに渡す時に
いちいちreinterpret_cast<char*>すんの超うざくね？
92 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 19:56:53 ]: そんな関数は使わない
93 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 22:25:14 ]: char で操作して、必要な所で unsigned char にキャストかな。
94 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 22:32:33 ]: 変換関数を用意しとけってmeyerﾀｿが言ってた
95 名前：デフォルトの名無しさん mailto:sage [2007/07/01(日) 22:45:24 ]: char* と unsigned char* の間に暗黙変換があればなあ。
96 名前：デフォルトの名無しさん mailto:sage [2007/07/02(月) 01:06:05 ]: 「読み込む」とは何をしたいのかによるよな。
データとしてUCS-2になって欲しいのか、UTF-8のままでいいのか。
97 名前：デフォルトの名無しさん [2007/07/21(土) 17:05:03 ]: 漢字の拡張Cが正式に決定するのはいつ頃かな?
98 名前：デフォルトの名無しさん mailto:sage [2007/07/22(日) 13:06:00 ]: 早くて来年
99 名前：デフォルトの名無しさん mailto:sage [2007/07/23(月) 01:21:00 ]: Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 （1面）」で，
例えば 1-4-87 の「か゜」にマウスカーソルを合わせると

Unicode: U+FD61809A
UTF-16: 0x304B 0x309A
Shift JIS: -
JIS213: 1-04-87

と出てくるんですが，この「U+FD61809A」ってどういう意味なんでしょう？
Unicode も ISO/IEC 10646 も今のところ U+10FFFF までしかありませんよね？
100 名前：デフォルトの名無しさん mailto:sage [2007/07/23(月) 10:54:46 ]: サロゲートペア？
101 名前：デフォルトの名無しさん mailto:sage [2007/07/23(月) 13:13:34 ]: >>99
U+304B, U+309A はサロゲートペアじゃないんだけど、

この2つをサロゲートペアに見立てて、
サロゲートペアからコードポイントを引き出す計算を
無理やり適用したら U+FD61809A になるんじゃね？

いまやったけど
((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000
が 0xFD61809A になる。
102 名前：デフォルトの名無しさん mailto:sage [2007/07/23(月) 13:56:31 ]: こりゃ恥ずかしいバグだな。ベータ段階で誰も指摘しなかったのも...
103 名前：デフォルトの名無しさん mailto:sage [2007/07/23(月) 20:24:48 ]: >>101
なるほど，

0x10000 + (0x304B − 0xD800) × 0x400 + (0x309A − 0xDC00)
= −0x29E7F66
= 0xFD61809A − 0x100000000

という計算の結果，こうなるわけですか。

安易な計算による似たようなバグとして，
「IME パッド - 文字一覧」の Windows-31J 一覧（「シフト JIS」一覧）で
0x81FF にマウスカーソルを合わせると
面区点コードが「1-02-97」と出てきてしまうのもありますね。
104 名前：デフォルトの名無しさん mailto:sage [2007/07/24(火) 09:02:41 ]: 合成文字ってやつか。
105 名前：デフォルトの名無しさん mailto:sage [2007/07/27(金) 03:11:31 ]: Extension Dに「たいと」の提案キタコレ
106 名前：デフォルトの名無しさん mailto:sage [2007/07/27(金) 08:09:30 ]: kwsk
107 名前：デフォルトの名無しさん mailto:sage [2007/07/27(金) 08:40:09 ]: あんなの要るのか？w
108 名前：デフォルトの名無しさん mailto:sage [2007/07/28(土) 05:55:10 ]: >>106
www.itscj.ipsj.or.jp/domestic/sc02/irg-files/CJK_D_attributes/IRG1277_attachment.zip
50MBほどあるので注意
109 名前：デフォルトの名無しさん mailto:sage [2007/07/28(土) 06:07:05 ]: と思ったら取り下げられてた。
www.cse.cuhk.edu.hk/~irg/irg/irg27/IRGN1250_Japan_Withdrawal_from_D.pdf
110 名前：デフォルトの名無しさん mailto:sage [2007/07/28(土) 07:51:46 ]: Extension Zくらいになったら提案する頃合だと思おう。
111 名前：デフォルトの名無しさん mailto:sage [2007/07/28(土) 09:55:46 ]: まあなあ。あんなの入れてもしゃーないわ。
112 名前：デフォルトの名無しさん mailto:sage [2007/08/17(金) 19:13:21 ]: 質問

●（日本語２バイトでの、黒い丸）
を、アメ公の環境、US-asciiとかで表示するために
実体参照、もしくは数字文字参照で
表したいのですが、実体参照はまず存在しないようで、
数値文字参照でも、ユニコードの文字番号が不明です。
文字番号がもしあるならそれのWEBページのURLを、
あるいはそれ以外の方法があるなら、それを教えてください。
113 名前：デフォルトの名無しさん mailto:sage [2007/08/17(金) 19:19:48 ]: >>112
は自己解決した
●だった
ページはcode.cside.com/3rdpage/jp/utf-8/Geometric_Shapes.html
114 名前：デフォルトの名無しさん mailto:sage [2007/08/17(金) 19:33:23 ]: なんでおなじ数値文字参照を入力するのに、
10進と16進と二つのやり方があるんだ？
115 名前：デフォルトの名無しさん mailto:sage [2007/08/17(金) 19:55:10 ]: 便利だから。そしてその質問はスレ違い。
116 名前：デフォルトの名無しさん [2007/08/22(水) 22:03:34 ]: 携帯用のWebサイト作ってるんですが、あちらの世界ではシフトJIS/半角カナが
常用されてるみたいです。で、元データはEUC/全角(?)カナのため
EUC=>Shift_JISに変換しつつ、ついでに全角カナ=>半角カナに変換してくれるような
素敵なツールはありませんか？

使うのはkshスクリプトのCGIで、今はnkfだけ通しています。jcode使うとできそう
なのですが、変換のためだけにperlを動かすのも何だかなぁと…。
117 名前：デフォルトの名無しさん mailto:sage [2007/08/22(水) 23:38:46 ]: 元データをEUC/半角かなにしておいたらいいんじゃない？
118 名前：デフォルトの名無しさん mailto:sage [2007/08/22(水) 23:39:16 ]: SJIS/半角かなか
119 名前：デフォルトの名無しさん mailto:sage [2007/08/23(木) 01:07:52 ]: 2バイトかな→1バイト系かな変換をsedでやればいいだけっしょ。
120 名前：デフォルトの名無しさん mailto:sage [2007/08/28(火) 21:42:23 ]: >>116
nkf に全角=>半角パッチでも送りつけたら？
121 名前：デフォルトの名無しさん mailto:sage [2007/08/28(火) 22:01:56 ]: 半角カナ→全角カナならともかく、その逆をやりたがる奴がいるとはな
122 名前：デフォルトの名無しさん mailto:sage [2007/08/28(火) 22:47:59 ]: 携帯用Webサイト作るときには必要らすい。
123 名前：デフォルトの名無しさん mailto:sage [2007/08/28(火) 22:55:51 ]: いつの時代の話だよ
124 名前：デフォルトの名無しさん mailto:sage [2007/08/28(火) 23:02:03 ]: クライアントはいまだにそう信じてるんだよ･･･
125 名前：デフォルトの名無しさん mailto:sage [2007/08/29(水) 00:08:22 ]: 客に恥をかかせないように正すのも仕事だろうに
何段もの丸投げの下層か？
126 名前：デフォルトの名無しさん mailto:sage [2007/08/29(水) 00:37:33 ]: 正しいことを言えば通ると信じられるってのは幸せだよな。
127 名前：デフォルトの名無しさん mailto:sage [2007/08/29(水) 00:55:13 ]: 下層は可哀想だな
俺は幸せだ
128 名前：デフォルトの名無しさん mailto:sage [2007/08/29(水) 01:10:07 ]: 言いたいことも言えないこんな世の中じゃ
129 名前：116 mailto:sage [2007/08/30(木) 00:59:43 ]: 結局、kc15に全=>半の変換を組み込んで、nkfと置き換えることにしました。
シェルスクリプト内の埋込みやサーバ内で扱うデータにShift_JISや半角カナ使いたくないという
単なる個人的趣味のため、最後に変換する形にしました。ちなみにこれは業務じゃないです。
まぁそういう要望もあるってことで。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef