【UTF8】文字コード変換【SJIS】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2chのread.cgiへ]
Update time : 05/09 21:44 / Filesize : 262 KB / Number-of Response : 1002
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【UTF8】文字コード変換【SJIS】

1 名前：デフォルトの名無しさん [03/09/10 16:04]: 文字コード変換について語りましょう♪
496 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 07:36]: 多分、>>493も、UTF8の特性を理解してませんね。

試しに、regexの修正点を上げてみて下さい。
497 名前：デフォルトの名無しさん mailto:sage [04/03/14 08:34]: >>496
文字単位でマッチングしないと使い物にならないからじゃないか?
mblenなどをしっかり使っていればあまり問題は出ないはずなのだが
実際のアプリではロケールの初期化すらまともにされていなかったりする
498 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 08:45]: >>497
>文字単位でマッチングしないと使い物にならないからじゃないか?
何故?

regexの主たる目的は置換。

それに何故、文字数が必要? バイト位置で足りるはず。

せっかく、何もしなければ辻褄が合ってるのに、mblen()なんて使うと
破綻します。
499 名前：デフォルトの名無しさん mailto:sage [04/03/14 08:50]: 単純に、こんな場所で偉ぶっていい気になってる「LightCone ◆sSJBc30S5w」が
可哀相に思えるのは私だけですか？
500 名前：デフォルトの名無しさん mailto:sage [04/03/14 09:18]: >>498
この界隈のｺﾃﾊﾝは相手が誤解していると思いこむ傾向が強いように見えるけど
実際は両方が誤解している場合が多そうだよ
この件も問題にしている部分が違うだけ
501 名前：デフォルトの名無しさん [04/03/14 09:37]: アホコテさらしage
502 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 09:43]: >>500
それは、違いますな。

何故かというと、ワテと話していて全く誤解が生じない人種と
あったことがあるからです。

すんなり話が通じて楽しかった。

はっきり言って、一般人と話すのは苦手です。バカの壁を感じるから。
503 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 09:47]: ワテと話していてワテが間違っていると思う人は、
まず、99.99%位、あんたの間違いだと思って大丈夫。

それに大抵の優秀な人は、深読みするのでそうそう簡単に相手の間違いを
断定しない。

はっきり言って、間違ったことを行ったときでさえ、それなりに意味の
通じる解釈をする人が多い。

2chラーで批判ばかりしている人は全くの逆で、知能の低さがすぐに分
かる。

結局、辻褄の合う解釈法が重い浮かばなくて、理解できないんだよ（笑）。

アホ
504 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 09:49]: はっきり言って、邪魔になるから、そういう人達には勉強などさせずに、
遊ばせてやったらいいんじゃないかと思ってる。
505 名前：デフォルトの名無しさん mailto:sage [04/03/14 09:52]: >>503
相手の発言の意図を読む意志がないと指摘しているだけなんだが
無駄な発言をして悪かったよ
506 名前：デフォルトの名無しさん mailto:sage [04/03/14 09:55]: >>502
> 何故かというと、ワテと話していて全く誤解が生じない人種と
> あったことがあるからです。

M-x doctorかい？
507 名前：デフォルトの名無しさん mailto:sage [04/03/14 10:00]: >>503
＞それに大抵の優秀な人は、深読みするのでそうそう簡単に相手の間違いを
＞断定しない。
＞
＞はっきり言って、間違ったことを行ったときでさえ、それなりに意味の
＞通じる解釈をする人が多い。

あんたはアホウだということだね。自認しているとは謙虚なやつだ（ｗ
508 名前：デフォルトの名無しさん mailto:sage [04/03/14 10:04]: とりあえずUnicodeいらね＞自分コード作ったという所らしいけどさ、中共政府並みの強制力とか
影響力がない個人でやるのはきついだろうねぇ。
LightConeて人がどういう人か知らんのでOS板見て来たら自分でOS作ってる人なんだね。
それならそこでの実装に限定してそっちで話してればいいんじゃなかろうか？って思う訳だが。
ム板に来てやってんのはどういうあれなんだろう？
このスレは最初は単発質問スレっぽい雰囲気だったけども、ほとんど既存のOSの上で規格として
動いてるUnicodeとローカルエンコードの変換とかの話してたと思うんだが。

なんで、このスレなんだろう？
自分コードを自分OSに実装したよの宣伝だとしたらちょっといただけないんだが。

自分で掲示板作ってそっちでやってるもんだとばっかり思ってたんだが、ここにきて煽りに対抗
するためだけに書き込みしてるみたいでちょっと痛いぞ。

ここでやってないでそっちでちゃんとした議論してた方がいいんじゃなかろうか？
老婆心だけどね。
509 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 10:09]: >>507
なんか、なんでも基準を曖昧にしたがるようだけど、取りあえず、
悪いけど、そういう人種の人たちには、ワテ自身が確信していることに
対して批判を受けたことは未だにないんだよ。

もう、答えが出てしまって、証明済みで、なんの迷いもない結論に
達しているのに、まだ反論してくる人が居るのは、ネットのみの経験
だから、違いが如実。
510 名前：デフォルトの名無しさん [04/03/14 10:13]: 発作age!
511 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 10:14]: はっきり言うとね、ワテだって、結構間違うことはあるんだよ。
でも、そういう場合、
「そんなことがあったんですかいな!?」
「まいった、見落としてた!!」
「また、アホなミスをしった!!」
と思うわけ。

結局、指摘が的を射てるわけなんですよ、そういう連中は。
512 名前：デフォルトの名無しさん mailto:sage [04/03/14 10:23]: 宣伝なら業者みたいに黙々とコピペしまくればいいのに。
513 名前：デフォルトの名無しさん mailto:sage [04/03/14 10:48]: すいません、コーンたんはこういう人なんです。
すごくやる気があります。それは確かです。
でも、いつも車輪をダウングレードして再発明する人なんです。
しかも、人の指摘や忠告を聞く気はサラサラなく、一方的に放送した挙句、
最後はいつも「おまえらアホだ、俺は正しいのに」で終わるのです。
514 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:07]: 正規表現の . がある。
これは任意の１文字にマッチングする。
ASCII の１文字は１バイト固定だが、
UTF-8 の１文字は１バイトとは限らない。

sed の書き方になるが、
s/a.a/aa/g
の場合、UTF-8 の "aあa" を置換しようとしても、
ASCII の regex を使うと ''あ' は３バイトなため、マッチしない。
515 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:14]: 2chは、確かに引きこもりやら、学生やらが多い。（俺も学生です・・・。）
確かにろくに分かっていないことでも、分かっているように言っている人も多いだろう。
ただし問題は時々有り得ないほど知識を持った人が紛れ込んでいること。
引きこもりばっかだと思えば、イケメンやら美人やらが紛れ込んでいるという事実。

不特定多数が集う匿名掲示板である以上、言葉遣いには気をつけるべし。

「車輪の再発明」という言葉を多用して批判する人がいるが、
こいつ自分の言葉に酔っているんだなぁと思うことはある。
516 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:15]: で、ﾗｲﾄなんたら氏はそのあり得ないほど知識を持った人だと？
517 名前：デフォルトの名無しさん [04/03/14 12:18]: 声を大にしていいたい。
日本が戦争に負けたとき、マッカーサーにより
日本は日本語を廃止し、すべて英語になるべきだった。
あまりにくだらないロスがおおすぎる。

当時まさかコンピューターでこんなロスが発生するとは
考えてもいなかったろうが。
すべて英語だったら、モジコードうんぬんなんて
こんなくだらない苦労しなくてすむのに。
518 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:19]: 暴言ｷﾀｰ
519 名前：らいとこうん mailto:sage [04/03/14 12:21]: ワテはOSを作れるほど知識を持った優秀な人間です。
520 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 12:25]: >>514
>正規表現の . がある。
>これは任意の１文字にマッチングする。
>ASCII の１文字は１バイト固定だが、
>UTF-8 の１文字は１バイトとは限らない。

なるほど、それは確かにそうです。
UTF-8でも無修正で完全対応とは行かない例の一つですね。

考えるまでもなく、「文字数」が意味を成している部分はことごとく
駄目になります。今の場合でも、1文字ではなく「任意の文字の列」
でいいなら、「a.*a」で行けると思います。つまり、1「文字」と
いう「文字数を数える行為」に失敗しているのが原因なのですね。
521 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:25]: >517
お前は効率のために生きてるのか？
文化には多様性が必要だと思わないのか？

まあ始皇帝も文字と秤を統一したがったけど、
アメリカみたいなインチが主流の国も世の中にはあるからな。
当分ラクにはならんよ。
522 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 12:36]: >>514
ついでなので、「.」以外にもありますか?
523 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:38]: 文字数に関わるもの全て。 {n,m} とか。
524 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:41]: あと文字種の考え方自体もunicodeとそれ以外じゃ違う。
perlunicodeとか見たらそれなりの準備されてるのがわかるはずだ。
525 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 12:45]: >>523
a{2,5}
とか、
(あ){2,5}
とかなら問題ないのでは?
526 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:46]: >525 なんすかその不自然な括弧は？
527 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:47]: あまり適当なことを言うと

> 484 名前：LightCone ◆sSJBc30S5w 投稿日：04/03/14 01:41
> 2chって、詳しい人が多いのかと思ってたけど、かなり勘違いみたいですね。
>
> そういう勘違いが起きてしまう理由は、いくつかの可能性がありますね。
>
> 一つには、来る人が多いから、全然詳しくなくて断片的な知識を持ったいさま
> ざまな人が来るため、一見もの凄く詳しい人が居るように見えるだけで、実際は、
> 断片知識の烏合の衆の集まりに過ぎない可能性。

こんな事言われちゃうよｗ
528 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 12:48]: >>526
そりゃしゃあない。
529 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:49]: そのカッコをつければできるとしても、
そのカッコはつけたくないなぁ。
530 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:53]: 相手にしすぎると

> 515 ：デフォルトの名無しさん：04/03/14 12:14
> 2chは、確かに引きこもりやら、学生やらが多い。（俺も学生です・・・。）
> 確かにろくに分かっていないことでも、分かっているように言っている人も多いだろう。
> ただし問題は時々有り得ないほど知識を持った人が紛れ込んでいること。
> 引きこもりばっかだと思えば、イケメンやら美人やらが紛れ込んでいるという事実。
>
> 不特定多数が集う匿名掲示板である以上、言葉遣いには気をつけるべし。
>
> 「車輪の再発明」という言葉を多用して批判する人がいるが、
> こいつ自分の言葉に酔っているんだなぁと思うことはある。

こんな事言われちゃうよｗ
531 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:55]: そして雪崩れ込むように

> 517 名前：デフォルトの名無しさん投稿日：04/03/14 12:18
> 声を大にしていいたい。
> 日本が戦争に負けたとき、マッカーサーにより
> 日本は日本語を廃止し、すべて英語になるべきだった。
> あまりにくだらないロスがおおすぎる。
>
> 当時まさかコンピューターでこんなロスが発生するとは
> 考えてもいなかったろうが。
> すべて英語だったら、モジコードうんぬんなんて
> こんなくだらない苦労しなくてすむのに。

こんな事言われちゃうよｗ
532 名前：デフォルトの名無しさん mailto:sage [04/03/14 12:56]: >>529
つけたくないなぁと言われても。
533 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:01]: 論旨は「バイト単位の正規表現モジュールでutf8も問題なく扱える」だったと思うが、
. や [] のことも考えてない「全然詳しくなくて断片的な知識を持った」人だったと。

まあ間違えたのは仕方ない。しかし間違った後にうだうだいってるのは無様だし、
間違いを書く前に自分で検証する姿勢が足りてないのが暴言の数々から読み取れる。

頭冷やしてきなよ。
534 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:01]: >>525
つまり世界中のregular expressionを使ったプログラムを修正して回れってこと？
普通の人は、regular expressionのライブラリのほうを修正すると思うが。
535 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:04]: LightCone様の足下にも及ばない厨房のくせにいきがってんじゃねーよ。
536 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:06]: >>535
何故そこでよく分からない横槍が入るｗ
537 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:06]: いや正規表現側で工夫してきたのが今までの日本のperl文化だからなぁ。
どこにでもあるからって理由でperl使ってた人はそこに適応するようにスクリプト側で工夫してたわけ。
それも普通じゃないってこと？

まあLightCornが破綻してるのは既に明らかだが。
538 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:06]: >>534
普通の人はOSなんか作らないよ！

とフォローにもならない暴言を吐いてみる
539 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:09]: 話は変わるけど俺はucs2よりもutf8の方が寿命が長そうだから好きだ。
何度も書き直したくないじゃん？なら可変長のエンコーディングで通した方が将来性がある。
\0があまり登場しないから既存OSとの親和性も悪くないし。
540 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:10]: 既にucs2対応のOSでしか動かないとか、
システムコールの度にエンコード変換するとか、
そういうのはイヤですわ。
541 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:15]: Ruby は正規表現に日本語が使えるよ！
やっぱ使えたほうが便利だよ。
542 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:17]: 文字コード総合スレあっても良かったんかなぁ。
このスレの主旨って元々はピンポイントに「変換」だし。
543 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:19]: ひまわりなら日本語だけで書けるよ！
544 名前：LightCone ◆sSJBc30S5w mailto:sage [04/03/14 13:22]: 正規表現ルーチンは、UTF8を使っても要修正でした。

すんません、訂正します。

これで気が済むんでっか?
545 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:23]: 自分が独りワイワイと騒いどいて何いじけてんの？子供だね。
546 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:26]: >>544
こっちはコーンたんが何言おうともはや気にしてないけど。
547 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:29]: という訳で終ー了ー。
548 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:29]: 見てて不憫になってきた。
549 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:32]: 文字が UTF-8 が表現されるとすると、

strrchr("あいあい", 'あ');

とかいう１文字逆検索ができない。
'あ' は３バイトだし、UTF-8 は最長６バイトだから、
こういう表記自体に問題があるかもな。
文字列の逆検索があれば代用できるんだけど...。

あと、strpbrk, strtok, strspn, strcspn の第二引数も改変が必要。
こういう１文字＝１バイトを仮定されると困る処理は軒並みアウトだ。
550 名前：デフォルトの名無しさん mailto:sage [04/03/14 13:51]: ungetc()とかきっと1バイトしか戻せないよ……。
551 名前：デフォルトの名無しさん mailto:sage [04/03/14 14:25]: 英語圏のプログラムで、設定ファイルを読んだりログを書いたりする程度ならまあ改造なしでも通るけどさ。その程度だよな。
552 名前：デフォルトの名無しさん mailto:sage [04/03/14 14:28]: 結局書き直しまくりだねぇ
553 名前：デフォルトの名無しさん mailto:sage [04/03/14 16:14]: regexはcharacter classとcollation orderも扱うのだが、
何故UTF-8など修正無しでOKだと思ったんだろう。
554 名前：デフォルトの名無しさん mailto:sage [04/03/14 16:32]: Perlなんかでも正規表現は漢字1文字が2バイトになるって分かって書いてきたからね。
そういう感覚を前提にしたら、検索で誤マッチしないだけで充分ってことでは。
555 名前：デフォルトの名無しさん mailto:sage [04/03/14 17:06]: collationなんてやりだしたら修正どころじゃないな
556 名前：デフォルトの名無しさん mailto:sage [04/03/14 17:28]: glibcのregex国際化

lc.linux.or.jp/lc2001/papers/dfa-i18n-paper.pdf
lc.linux.or.jp/lc2002/papers/hasegawa0918h.pdf
557 名前：デフォルトの名無しさん mailto:sage [04/03/14 20:07]: >上述の通り、我々の実装はDFA をベースとしている。
>このため、NFA ベースの実装では避けられないback tracking の問題
>が生じない。
NFAベースでもバックトラック無しの実装をアップしとるのに。
複数の状態変数のパラレルな遷移という例で。
>しかし、Single UnixSpecification[3] などの規格において、
>あるコードポイントに文字が割り当てられているかどう
>かをエンコーディングから独立に調べる方法が用意されていない。
着眼点が悪い。
実は既に正規表現式から必要最小限な集合を抽出する方式がある。
つまり、入力値の範囲ではなく、パターン自体にその答えがある。
オーバーヘッド無し、むしろ従来より高性能な実装は可能。
と、ここで書いてみる。
どうせダウンロードとしてないんだろうな。
従来と違うアプローチの実装例をいくつも出したのに。
558 名前：デフォルトの名無しさん mailto:sage [04/03/15 00:10]: >>554
いつの時代のperlの話だよ。.を1byteと見做すなんて。

PCRE is short for Perl Compatible Regular Expressions.
www.regular-expressions.info/pcre.html
559 名前：デフォルトの名無しさん mailto:sage [04/03/15 00:15]: それから、printf系がUTF-8で問題ないって言う人いるけど、
%c, %lcが全く駄目じゃん。範囲限定で使えないことはないレベル。
560 名前：デフォルトの名無しさん mailto:sage [04/03/15 00:34]: 複数回 %c すればー、ということじゃない？
改変するとすれば、アドレス渡すようにしないといかんのかな。
そもそも文字リテラルの仕様をどうすればいいんだろうか？
561 名前：デフォルトの名無しさん mailto:sage [04/03/15 01:04]: >>558
現状ではこの手のツールの漢字対応って大抵無理やり動かすパッチだけど。
ggrepの日本語対応パッチで比較回数が爆発したりとかするやつあったし。
562 名前：デフォルトの名無しさん mailto:sage [04/03/15 01:10]: 漢字対応って一体何の話? ここはUnicodeのスレですよ?
>>553の言っていること理解できる?
563 名前：デフォルトの名無しさん mailto:sage [04/03/15 01:12]: ああ、すまん、マルチバイト対応だ。打ち間違い。
564 名前：デフォルトの名無しさん mailto:sage [04/03/15 09:43]: >>558
一般人にもっとも馴染みの深いプロバイダのおまけCGI環境だと今でも普通だが。
565 名前：デフォルトの名無しさん mailto:sage [04/03/15 09:49]: >>559
さすがにそれは言いがかりだろ。
マルチバイトでcharに入らない時点でどう転んでも無理。
wchar_tでwprintf使ってなさいってこった。
566 名前：デフォルトの名無しさん mailto:sage [04/03/15 09:50]: >>564
まさかそれが正しいことだと思ってるんじゃなかろうな・・・
567 名前：デフォルトの名無しさん mailto:sage [04/03/15 09:51]: >>565
いや、だから>>559は「どう転んでも無理」という話をしているのだが・・・
568 名前：デフォルトの名無しさん mailto:sage [04/03/15 09:55]: >>564
その環境100%信頼してバッチジョブで
漢字ファイル名の自動リネームに使うとあぼーん。
Rubyも1.8になるまで不具合連発だったし、今でも警戒してる。
569 名前：デフォルトの名無しさん mailto:sage [04/03/15 10:00]: そこはバッドノウハウで回避ですよ。
570 名前：デフォルトの名無しさん mailto:sage [04/03/15 10:06]: バッドノウハウ？
ちゃんと再設計すりゃいいじゃんか、アルゴリズムを変えて。
マルチバイトの対応は10年たっても20年たっても不完全。
571 名前：デフォルトの名無しさん mailto:sage [04/03/15 10:12]: >>570
おつむの弱い人ですか?
アルゴリズムて誰がregexライブラリ設計の話してるの…
572 名前：デフォルトの名無しさん mailto:sage [04/03/15 11:16]: >>571
551から554,556,558の流れなんだけど。
573 名前：デフォルトの名無しさん [04/03/15 14:51]: 571はLightCone
574 名前：デフォルトの名無しさん mailto:sage [04/03/15 21:00]: 彼は名無しで煽らないよ。
575 名前：デフォルトの名無しさん mailto:sage [04/03/15 22:12]: いやぁ、ときたま名無しのLightConeがまぎれているような気がするんだが。
なぁ、>>574
576 名前：デフォルトの名無しさん mailto:sage [04/03/16 01:28]: >>562
誰も突っ込んでないようだが、
このスレは別に Unicode のスレじゃない。
577 名前：デフォルトの名無しさん mailto:sage [04/03/16 02:12]: 文字コード総合スレあった方が良かったかな？
僅かな需要はあるのかも。
578 名前：Shift_JIS mailto:sage [04/03/16 02:24]: 私の頃忘れないで…
古い欠点ばかりの女とお思いでしょう。けどわたし…(ﾓｼﾞﾓｼﾞ
579 名前：デフォルトの名無しさん [04/03/16 07:59]: UTF8とSJISのスレだと勘違いされてもしかたないタイトルだな。
580 名前：デフォルトの名無しさん mailto:sage [04/03/16 15:43]: java厨ならその2つだけでなんとかなるからな
581 名前：デフォルトの名無しさん mailto:sage [04/03/16 23:12]: なるかボケ
582 名前：デフォルトの名無しさん [04/03/16 23:52]: 質問です。
VBscriptでUTF8からSJISに変換という
関数や方法はあるのでしょうか。
583 名前：デフォルトの名無しさん mailto:sage [04/03/17 01:00]: >582
ふつーに変換DLLをインポートできねーの？サーバサイドだよね？
584 名前：デフォルトの名無しさん [04/03/18 00:11]: できれば、VBscript内で行いたいです。
そのＶＢscriptファイルををダブルクリックすると
指定したUTF8のファイルを読み込み、SJISに変換したものを
別ファイルとして吐き出す
っていうのを作りたいのです。
585 名前：デフォルトの名無しさん mailto:sage [04/03/18 00:42]: んー、UTF8からUCS2への変換はふつーに書けるよね。
UCS32からCP932への変換はAPI呼ぶとか自前でテーブル持つとかでできるね
586 名前：デフォルトの名無しさん [04/03/18 00:50]: >>585
basp21
の「kconv」を使ってはみたのですが、どうもうまくいきません。
使い方間違っているのでしょうか・・
587 名前：デフォルトの名無しさん mailto:sage [04/03/18 03:00]: UTF8 ─自前ルーチン→ UCS2 ─WideCharToMultiByte→ SJIS

UTF8 → UCS2
www.linux.or.jp/JM/html/LDP_man-pages/man7/utf-8.7.html
588 名前：デフォルトの名無しさん [04/03/18 23:20]: やはりこれってのはスレがたつほどなんで
文字コード知識ある人でも難しい問題なんですか？
basp21でできそうだったんですが・・・できないものですね。
589 名前：デフォルトの名無しさん mailto:sage [04/03/18 23:40]: ﾜﾗﾀ
590 名前：デフォルトの名無しさん mailto:sage [04/03/18 23:40]: 普通の人でもある程度書けるけど正確さを目指すと規格の曖昧さで苦労する問題です。

588はもーちょっと修行すれ。もしくはちゃんとコードとエラー内容を出して質問すれ。
591 名前：デフォルトの名無しさん mailto:sage [04/03/19 11:21]: >>587
WideCharToMultiByte使うなら、Win95での動作を想定しなくてよければ
MultiByteToWideCharでUTF-8＞UCS-2変換すればいいと思うが。
592 名前：デフォルトの名無しさん mailto:sage [04/03/19 12:36]: MSLU入れてもその辺アップデートされないの？
593 名前：デフォルトの名無しさん mailto:sage [04/03/19 13:13]: >>592
unicow.dll(だっけ?)をリンクしているアプリからしか使えない。
VBScriptからという条件じゃ無理
594 名前：デフォルトの名無しさん [04/03/19 22:04]: すみません、全くの初心者なのですが、perl 5.8.2での質問です。
test.txtという、shift-jisで保存されたテキストファイルがあります。
（ファイル名も、置かれているディレクトリも常に同じ。）
このファイルを、utf-8に変換したいのですが、やり方がわかりません。
いろんなサイトを参考にして、何種類かやり方があるようなことがわかり、
試しに、
use utf8;
$input_filename ='C:\hoge\test.txt';
$output_filename ='C:\hoge\test.txt';
open my $in,'<:encoding(shift_jis)',$input_filename or die "open $input_filename: $!\n";
open my $out,'>:encoding(utf8)',$output_filename or die "open $output_filename: $!\n";
while(<$in>){print $out $_;
}
close($in) or die "read $input_filename: $!\n";
close($out) or die "write $output_filename: $!\n";
という風に書いてみましたが、結果はtest.txtの中が空になるだけでした。
また、別のやり方として、
use utf8;
$input_filename ='C:\hoge\test.txt';
$output_filename ='C:\hoge\test.txt';
use Encode qw(from_to);
open my $in, "<", $input_filename or die;
open my $out, ">", $output_filename or die;
while(<$in>){
from_to($_, "shift_jis", "utf8");
print $out $_;
}
という風なやり方も試してみましたが、結果は同じでした。
どこがいけないのでしょうか？
どなたか詳しい方、よろしくお願いします。
595 名前：デフォルトの名無しさん mailto:sage [04/03/19 22:53]: perlは門外漢なんだが、入力と出力が同じファイル名でいいの？
ファイルが空になるような。
596 名前：デフォルトの名無しさん mailto:sage [04/03/19 23:01]: windowsだと確実にダメなはず。出力を開いた時点でファイルサイズが０になる。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef