1 名前:デフォルトの名無しさん mailto:sage [2012/11/30(金) 13:16:02.46 .net] プログラマーなら一度は煩わされたことのある文字コードについてのスレ。 UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、 合成文字、ソート、TRON、外字コード、その他について語り合いましょう。 各言語での文字列の扱いについての質問もOKです。 基本マッターリ、ささ、茶でもどうぞ。 ■過去スレ 文字コード総合スレ part1 pc11.2ch.net/test/read.cgi/tech/1031028205/ 文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/ 文字コード総合スレ part3 pc11.2ch.net/test/read.cgi/tech/1180250376/ 文字コード総合スレ part4 pc11.2ch.net/test/read.cgi/tech/1228052369/ (スレ再利用)UnicodeとUTF-8の違いは? pc12.2ch.net/test/read.cgi/tech/1177930957/ (隔離スレ)UnicodeとUTF-8の違いは? その2 pc12.2ch.net/test/read.cgi/tech/1274937437/ 文字コード総合スレ part5 pc12.2ch.net/test/read.cgi/tech/1236529563/ 文字コード総合スレ part6 hibari.2ch.net/test/read.cgi/tech/1278923059/ 文字コード総合スレ part7 toro.2ch.net/test/read.cgi/tech/1306595564/
770 名前:デフォルトの名無しさん [2014/02/25(火) 00:31:50.61 .net] PHPとか知らんが、jp1.php.net/htmlspecialchars を見る限り、 ASCII, ISO-8859-1, UTF-8しか順序関係はないんじゃないの?
771 名前:デフォルトの名無しさん mailto:sage [2014/02/25(火) 00:48:04.45 .net] いくつか資料を見てもASCIIをそのままま持ってくるようなこと書いてあるけど ASCIIの0x5cはバックスラッシュだしEUC-JPの0x5cは円記号だよね
772 名前:デフォルトの名無しさん mailto:sage [2014/02/25(火) 01:45:14.76 .net] >>762 いいえ、バックスラッシュです。
773 名前:758 mailto:sage [2014/02/25(火) 01:50:52.80 .net] >>761 うーん そうなんですかね マニュアルにこう書いてあるんだから、意味は深く考えなくていいじゃん で解決といえば解決なんですけども >>762 バックスラッシュです GL領域はまんまASCIIだったはず
774 名前:デフォルトの名無しさん [2014/02/25(火) 01:55:49.74 .net] 資料疑うなら根拠を書けよw
775 名前:758 mailto:sage [2014/02/25(火) 01:59:52.01 .net] & ' " < > これらを変換するためのhtmlspecialchars()は関数なんですね jp1.php.net/htmlspecialchars に挙げられてる同等に扱われるエンコーディングは ↑の文字をASCIIと同じ符号位置で扱ってるエンコーディングなんです 符号表的に同じ位置にあるから引数にどれをいれても動作は同等ですよー とドキュメントに書いてる でもEUC-JPが入ってないのはどうしてなの?これも同じ符号位置に& ' " < >があるはずなのに!ってのが疑問です
776 名前:デフォルトの名無しさん [2014/02/25(火) 02:08:59.64 .net] マイナーエンコーディングだからじゃないの? 必要ならpatch書いて送ろう。
777 名前:デフォルトの名無しさん mailto:sage [2014/02/25(火) 22:58:26.60 .net] むかしむかし、ある男がSafariの中の人に 「どうしてSafariはEUC-JPの0x5cを円記号で表示するんだよ! バグじゃね?」 と聞いてみたそうな。 中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」 とのことじゃった。 そうしてそのメジャーなブラウザとSafariでは0x5cが円記号で表示されるのじゃった。 めでたしめでたし
778 名前:デフォルトの名無しさん mailto:sage [2014/03/01(土) 06:36:12.48 .net] もう一回言って?
779 名前:デフォルトの名無しさん mailto:sage [2014/03/01(土) 16:36:12.72 .net] むかしむかし、ある男がSafariの中の人に 「どうしてSafariはEUC-JPの0x5cを円記号で表示するんだよ! バグじゃね?」 と聞いてみたそうな。 中の人思った「日本ではバックスラッシュは円記号で表示されるだけで同じ文字なんだよ。 これは国とフォントの問題だ。でもこいつバカっぽいから話もてわからないだろうな。 よし馬鹿向けの回答で」 中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」 とのことじゃった。 >>768 は納得した。
780 名前:デフォルトの名無しさん mailto:sage [2014/03/01(土) 17:01:38.49 .net] 結局「当人も馬鹿なのでそうなった」というパターンに見えるがw
781 名前:デフォルトの名無しさん mailto:sage [2014/03/01(土) 17:13:11.00 .net] Safariの場合はEUC-JPの0x5CをU+00A5にわざわざ変換する処理によるもの なのでフォント以前の問題
782 名前:デフォルトの名無しさん mailto:sage [2014/03/01(土) 17:15:58.03 .net] 中の人思った「でも馬鹿にはその説明は理解できないから」 中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」 >>768 は納得した。
783 名前:デフォルトの名無しさん mailto:sage [2014/03/01(土) 17:21:00.98 .net] チョイッ \(..*\) (/*..)/ ポイッ
784 名前:デフォルトの名無しさん mailto:sage [2014/03/01(土) 20:24:39.77 .net] >>770 >日本ではバックスラッシュは円記号で表示されるだけで同じ文字なんだよ。 別に馬鹿による解答はお願いしていませんが
785 名前:デフォルトの名無しさん [2014/03/01(土) 23:34:03.52 .net] >>770 が馬鹿だと納得した。
786 名前:デフォルトの名無しさん mailto:sage [2014/03/02(日) 11:40:45.99 .net] 急にレベル落ちたな
787 名前:デフォルトの名無しさん mailto:sage [2014/03/07(金) 20:55:49.73 .net] 文字コード関連の論文ってどこがメジャーですか? 探しても全然でてこない
788 名前:デフォルトの名無しさん [2014/03/07(金) 21:33:27.70 .net] >>778 >>3 Unicode Home Page www.unicode.org/ ISO-IR - 2.8.1 Coding systems with Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
789 名前:デフォルトの名無しさん mailto:sage [2014/03/07(金) 22:35:48.09 .net] 論文とはちょっと違うような。 文字コード関連で論文書いてると言ったら kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications.html が真っ先に思い浮かんだ
790 名前:デフォルトの名無しさん [2014/03/07(金) 22:42:10.26 .net] UnicodeやISOのTRその他の方が激しい追求を受けると思いますが。
791 名前:デフォルトの名無しさん mailto:sage [2014/03/08(土) 09:20:49.63 .net] でも上記のリンクはTRじゃないよ むしろこっちでしょ std.dkuug.dk/jtc1/sc2/wg2/
792 名前:デフォルトの名無しさん mailto:sage [2014/03/08(土) 09:23:43.86 .net] っていうか>>3 から引用しただけ?
793 名前:デフォルトの名無しさん mailto:sage [2014/03/08(土) 17:39:51.62 .net] はてさて
794 名前:デフォルトの名無しさん mailto:sage [2014/03/11(火) 23:28:53.24 ID:aGkLZTRR.net] >>778 文字研究会 https://sites.google.com/site/mojiken/
795 名前:デフォルトの名無しさん mailto:sage [2014/03/11(火) 23:42:26.16 ID:jQzgMrsx.net] Unicode の EastAsianWidth.txt について、 00C1;N # LATIN CAPITAL LETTER A WITH ACUTE 00E1;A # LATIN SMALL LETTER A WITH ACUTE のように同じ文字で大文字小文字の違いしか無さそうなのに 幅の扱いが異なるものがあるのですが、 このようなことになっている理由は何でしょうか?
796 名前:デフォルトの名無しさん mailto:sage [2014/03/12(水) 00:19:12.34 ID:i/nwzYk6.net] 一方しか含まれていないコード体系があるとかじゃね 知らんけど
797 名前:デフォルトの名無しさん mailto:sage [2014/03/12(水) 02:11:29.05 ID:qw9ToN7v.net] そんなのあったっけ? JIS X 0212から追加されてるみたいだけど
798 名前:デフォルトの名無しさん mailto:sage [2014/03/12(水) 16:49:07.31 ID:eyJxw9l2.net] なんで文字に番号振るだけなのに 研究とかしてんの?
799 名前:デフォルトの名無しさん mailto:sage [2014/03/12(水) 16:55:22.46 ID:vd/9/rkK.net] 「文字とは何か」という哲学的な命題が背後にあるから
800 名前:デフォルトの名無しさん mailto:sage [2014/03/12(水) 19:11:13.07 ID:qALwfLVq.net] >>788 日本の0212はSJIS対象外だから無視w あれはほぼPC,Macの文字コード範囲くらいしか互換対象になってない。 中国のPCで大文字だけ使えたらしい。
801 名前:786 mailto:sage [2014/03/12(水) 22:16:09.94 ID:NZAlFHc5.net] >>787 調べてみたら、 GB 2312 だと小文字の方しか含まれていないようでした。 ttp://zh.wikipedia.org/wiki/%C3%81 JIS X 0212 などが反映されていない、というのは、 そもそも East Asian Width が古い文字コードとの互換性のためのものなので、 比較的新しい文字コードには対応しない、ということですかね。 うーん、ややこしい。
802 名前:デフォルトの名無しさん mailto:sage [2014/03/16(日) 19:03:10.60 ID:BBT9IZ2o.net] Unicodeで互換用に残されてるけど使うべきじゃない文字ってどこかにまとまってる?
803 名前:デフォルトの名無しさん mailto:sage [2014/03/20(木) 21:44:45.24 ID:heUDSwye.net] バベルのページ見てたら 「バベルでの変換は特に明記していない限り MS-Windows の IE をお手本にしています。」 ってあるけどIEの変換方法って公開してるんだっけ?探しても見つからないんだけど
804 名前:デフォルトの名無しさん [2014/03/20(木) 22:12:54.66 ID:N5eLnApK.net] バベルってのが分からんが、MS純正の文字コードAPIの変換使ってるだけなんじゃないの?
805 名前:デフォルトの名無しさん mailto:sage [2014/03/20(木) 23:08:51.90 ID:heUDSwye.net] >>795 えっそういうことなの バベルは>>9 のやつです
806 名前:デフォルトの名無しさん mailto:sage [2014/04/01(火) 00:33:15.13 ID:WUOo5w3/.net] さて
807 名前:デフォルトの名無しさん mailto:sage [2014/04/05(土) 21:32:13.78 ID:RgNzn3fu.net] cp932 = シフトJIS? シフトJISっていう名称はどこかに登録されてる? Shift_JISはIANAで登録されてると思うけど
808 名前:デフォルトの名無しさん mailto:sage [2014/04/05(土) 21:46:04.47 ID:4p3tjfYN.net] >>798 されていない
809 名前:デフォルトの名無しさん mailto:sage [2014/04/06(日) 08:01:34.90 ID:B8PUb7p+.net] JISの用語は「シフト符号化表現」だっけ? あと、正式でない用語は、正確に実装されていないものとか、似たものを総称してとか、 そういうものを表現するために便利に使われている。
810 名前:デフォルトの名無しさん [2014/04/06(日) 15:32:34.79 ID:SoAcTpCI.net] JIS X 0208:1997ではね。 JIS X 0213:2004移行はShift_JIS-2004だよ。 JIS X 0213で文字増えた文も含むのはShift_JISX0213で。
811 名前:デフォルトの名無しさん mailto:sage [2014/04/06(日) 16:46:46.91 ID:8UGyvOK/.net] JISのシフトJISなんて当時の世の中の標準を 無視できなくなって遅れて書いただけだろ。 世間で「シフトJIS」と言ったときには JISのそれを指すことなど安岡信者とその取り巻きを除いて 皆無に近い
812 名前:デフォルトの名無しさん [2014/04/06(日) 17:21:32.69 ID:SoAcTpCI.net] カッチリした規格があるのは重要。
813 名前:デフォルトの名無しさん mailto:sage [2014/04/06(日) 20:48:52.12 ID:M292oQRa.net] どの文字コードであれ正解は役所とかで実際に運用されている文字コードが正解になる つまり何が正しいかの探求は役所への取材から始まる
814 名前:デフォルトの名無しさん [2014/04/06(日) 22:15:42.61 ID:SoAcTpCI.net] 職場の愚痴はマ板行けよ。
815 名前:デフォルトの名無しさん mailto:sage [2014/04/07(月) 06:25:47.71 ID:6r6QSdOH.net] やなこったw
816 名前:デフォルトの名無しさん mailto:sage [2014/04/07(月) 09:46:47.69 ID:Y1cs/XQ6.net] 経産省は役所じゃないのか
817 名前:デフォルトの名無しさん mailto:sage [2014/04/07(月) 09:49:42.18 ID:Y1cs/XQ6.net] >>798 Windows-31JだけどIEが対応していないので事実上使えない Encoding StandardではShift_JIS = cp932 - PUA
818 名前:デフォルトの名無しさん mailto:sage [2014/04/07(月) 11:17:13.52 ID:QoYPH5Yx.net] ぷあっ
819 名前:デフォルトの名無しさん mailto:sage [2014/04/08(火) 19:37:24.54 ID:pfMGzHK8.net] 大江健三郎もびっくり、あいまいな日本のエンコーディング もう疲れたからユニコードでいいです。 昨日ウブンツを適当に入れて日本のホームページを見たら 一部の漢字が見慣れない形をしていましたが そのぐらいのことは我慢します。
820 名前:デフォルトの名無しさん mailto:sage [2014/04/11(金) 23:11:28.88 ID:Zp0BL2uE.net] slashdot.jp/~yasuoka/journal/579915 安岡センセイ迷走してるみたいだけど結局何が言いたいのだろう
821 名前:デフォルトの名無しさん mailto:sage [2014/04/12(土) 01:12:45.44 ID:a2NVx4h6.net] むしろここで一人で安岡ヲチしてる人こそ何をしたいのかよくわからん… このスレや過去スレを「安岡」でスレ内検索してみるとものすごく異様。
822 名前:デフォルトの名無しさん mailto:sage [2014/04/12(土) 13:33:41.81 ID:EgrmLH2O.net] 安岡さんが、キーボード配列の件で坂村さんを「デマ発信源」認定したのが気にくわない、 某方面のアレな信者でしょw
823 名前:デフォルトの名無しさん mailto:sage [2014/04/12(土) 15:05:23.03 ID:UapBJj1i.net] 坂村さんは今風に言えば 御用学者だよな
824 名前:デフォルトの名無しさん mailto:sage [2014/04/14(月) 11:59:40.17 ID:1onkTecJ.net] >>813 本人乙
825 名前:デフォルトの名無しさん mailto:sage [2014/04/15(火) 21:27:59.56 ID:xZHXZozl.net] じゃなきゃ南堂信者か本人
826 名前:デフォルトの名無しさん mailto:sage [2014/04/15(火) 21:51:19.51 ID:xZHXZozl.net] まあそれはともかく「ちゃんとしたIVSがほしいからあえてIVSと呼んでいる」は 本気で意味わからない。名前が気に入らないってだけ?
827 名前:デフォルトの名無しさん mailto:sage [2014/04/15(火) 23:18:51.37 ID:ZjWcuo2H.net] スラドにコメントしろよ
828 名前:デフォルトの名無しさん mailto:sage [2014/04/16(水) 00:47:06.39 ID:xXudedaW.net] うむ。
829 名前:デフォルトの名無しさん mailto:sage [2014/04/17(木) 21:25:09.42 ID:WnuPjrTt.net] 本人認定とか、完全にまじキチ君だな。
830 名前:デフォルトの名無しさん mailto:sage [2014/04/17(木) 21:36:39.35 ID:sxwy7+Pq.net] どうでもいいよもう。 とりあえず安岡叩きしてる人はどこか味方のいる場所を見つけてそっちで好きなだけやってくれ。 ここで叩いても誰も賛同せずに今回みたいな流れになるだけだからさ。
831 名前:デフォルトの名無しさん [2014/04/19(土) 02:41:39.74 ID:GMRdES/l.net] ネットのテキストをコピーすると、たまに文字コードの異なる半角スペースがあるのが困る。
832 名前:デフォルトの名無しさん mailto:sage [2014/04/19(土) 05:54:36.53 ID:4rjoMz+n.net] ?
833 名前:デフォルトの名無しさん mailto:sage [2014/04/19(土) 09:54:13.30 ID:uixitbPb.net] どちらかというと「安岡」という単語に猿のレベルで脊髄反射して トロン信者認定のレスを貼る安岡信者の方がすごいと思う
834 名前:デフォルトの名無しさん mailto:sage [2014/04/19(土) 13:11:12.57 ID:4rjoMz+n.net] >>824 過去ログに残る執拗な叩きの痕跡という前提がまるで存在しないかのように、 件の彼に対する反応を「『安岡』という単語に猿のレベルで脊髄反射」ってことにするのはどうかと。 あなたが同列に「どちらがすごいか」を比べてるのが奇妙に思えるほど、件の彼の行動は異質。積み重ねがあるからね。 そしてもちろん、件の彼について話している人は 「この人はなぜ、疎まれることがわかっている場でなお1人で叩き書き込みを続けるモチベーションを持っているのだろう?」 という点を不思議に思って集まっているんであって、書き込みの動機は明確。ここから「安岡信者」と解釈はしづらい。 また、仮にもしそのなかに「安岡信者」が紛れ込んでいたとして、 その信者はこのスレで執拗に「敵」を叩き続けたりはしていない。 件の彼と違って人畜無害なのだから、ほうっておけば良い。
835 名前:デフォルトの名無しさん mailto:sage [2014/04/19(土) 13:15:43.09 ID:ZEjCExyP.net] おれなんでこのスレ常駐してんだっけ……
836 名前:デフォルトの名無しさん mailto:sage [2014/04/19(土) 13:43:05.46 ID:kntd4M4V.net] >信者はこのスレで執拗に「敵」を叩き続けたりはしていない。 これには同意。 安岡信者は被害妄想が激しく 単発のレスで偏執に被害を主張するのが特徴だからね。
837 名前:デフォルトの名無しさん mailto:sage [2014/04/19(土) 17:03:56.09 ID:C6iMx0Tv.net] >>822 NBSPが紛れこんでてイラっと来るやつかな
838 名前:デフォルトの名無しさん mailto:sage [2014/04/20(日) 08:23:30.09 ID:KqLq5BGH.net] 信者とか言い出す時点でどの発言も議論として無価値
839 名前:デフォルトの名無しさん mailto:sage [2014/04/21(月) 10:53:47.48 ID:zriSdqBt.net] > 被害妄想が激しく > 単発のレスで偏執に被害を主張するのが特徴だからね。 安岡さんに対して執拗に粘着している君の特徴じゃないかw
840 名前:デフォルトの名無しさん mailto:sage [2014/04/21(月) 19:22:16.02 ID:FvrWMSvP.net] 安岡センセイもビットコインに走っちゃったから… …おっと誰か来たようだ
841 名前:デフォルトの名無しさん mailto:sage [2014/04/22(火) 02:46:51.52 ID:P71sOVmH.net] 誰も来てない
842 名前:デフォルトの名無しさん [2014/04/22(火) 16:39:21.34 ID:lALHniJm.net] よそでやれよ気違いども
843 名前:デフォルトの名無しさん [2014/04/23(水) 01:02:12.57 ID:sJ3rggrT.net] サロゲートペアがらみで文字化けとか文字落ちは未だに良くありますか? 合成文字(アイヌ語表記用)などがうまく処理できないんですけど、完全にサポートをしないと割り切った人はいますか?
844 名前:デフォルトの名無しさん mailto:sage [2014/04/23(水) 01:11:50.85 ID:8DMe2xVl.net] サロゲートペアかどうかの判定なんていちいち入れないし 固定長に可変長混ぜたら何の意味もない
845 名前:デフォルトの名無しさん mailto:sage [2014/04/23(水) 01:58:46.32 ID:GjUEx0RG.net] 何か誤解してる様だが、元々Unicodeの文字表現は可変長
846 名前:デフォルトの名無しさん mailto:sage [2014/04/23(水) 18:34:35.68 ID:TEjyogET.net] はじめは16bit固定じゃないの?
847 名前:デフォルトの名無しさん mailto:sage [2014/04/23(水) 20:59:37.84 ID:TEjyogET.net] 「元々」って「当初は」って意味で書いてないのか すまん
848 名前:デフォルトの名無しさん mailto:sage [2014/04/23(水) 21:11:18.40 ID:7vo5B08Z.net] 「か」と「゛」で「が」みたいに 二文字で一文字を表す合字があるんだから、 言語機能かライブラリを使うしか 現実的な対応方法ないだろ。 逆に言えば、それらを使っていれば 無視できる問題。
849 名前:デフォルトの名無しさん mailto:sage [2014/04/23(水) 21:34:36.00 ID:T2nRtnpg.net] UTF-8あたりとごっちゃになってる?
850 名前:デフォルトの名無しさん mailto:sage [2014/04/23(水) 21:52:29.17 ID:WcbcT70M.net] 最初から UTF-16 も UTF-32 も可変長だけど 未だに固定長と思ってるやつなんかいるんだ? そりゃすげーや
851 名前:デフォルトの名無しさん mailto:sage [2014/04/23(水) 21:58:56.82 ID:FOWeiF78.net] そりゃ日本の官公庁相手に仕事してる分には たいていそれで許されるからな
852 名前:デフォルトの名無しさん mailto:sage [2014/04/23(水) 22:22:44.74 ID:GjUEx0RG.net] >>841 「code pointを複数組み合わせた可変長で文字(grapheme)を表現する」っていう Unicodeの基本をどうしても理解できない(認めたくない)人がいるんですよ。
853 名前:デフォルトの名無しさん [2014/04/23(水) 23:13:15.72 ID:Unh9uImh.net] >>842 お役所が扱う人名なんて、それが許されない筆頭じゃなかろうか。
854 名前:デフォルトの名無しさん [2014/04/24(木) 11:06:30.10 ID:Cg0dX6qy.net] Unicode1.0の頃はUCS-2。UTF-16は2.0から。 UCS-2はBMPの固定長エンコーディング。 まだ固定長原理主義者が多い頃だったから。 けどそれじゃBMP以外や合成文字どうすんねん、 規格の中で矛盾してるだろ、固定長原理主義無理だろってことで、 その辺入れたUTF-16になった。 たしかUTF系はベル研のケン・トンプソンが考えた8が最初。 うろ覚え書き込みだから、修正よろ。
855 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 00:12:43.23 ID:zWWRq5q6.net] 修正不可能なくらい間違いまくってるよ。 そもそもUCSは文字集合を定めるものであり、UTFは個々の文字を どう表現するかを定めるものであってまったく別の概念だし。
856 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 08:45:09.27 ID:3oy/mjAO.net] CPUのエンディアンが複数あるため、UTF-16にはBEとLEがあります。 どのサイトも説明見ると大体こんなような事書いてあるけど意味が分からない エンディアンがどうこうってエンコーディングの内部で解決されるべき問題でしょ? CPUに合わせてLEを使うと速いですよって事?
857 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 08:57:28.13 ID:XCREUD3T.net] 絵文字統一か
858 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 13:03:42.00 ID:t30thbGu.net] >>847 確かにその説明はおかしいと思う。 画像フォーマットでもtiffにはエンディアンの指定があるが、普通はどちらにも対応する。
859 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 13:20:19.28 ID:B1sFbtmb.net] >>847 ちゃんとエンコーディングでBE,LEが考慮されてるでしょ? それともBEとLEの存在自体が問題だといってんの? 何がおかしいかわからない
860 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 13:55:02.90 ID:4klH39dY.net] 何を悩んでいるのかしら無いけど、 初期のUTF16の話として16bit固定っていうのはわかるよね? C言語風に書くならば、WCHAR型(16bit)となって、 WCHAR *text = "あいうえお"; こういう定義になる。 この時のメモリ配列はC言語の仕様によりCPUのエンディアンによって変わる。 このメモリ内容がUTF-16BEやUTF-16LEなんだよ。 ファイルに保存するときはどちらかに統一してもいいが、 処理を速くするためにCPUに合わせた形式でメモリには格納しないといけない。 だからUTF16-BEかUTF16-LEというものが生まれることになる。 メモリ内で使うために、UTF16-BE と UTF16-LE の存在を無くすことは出来ない。 そのメモリ内容をそのまま保存することもある。テキストファイルではなくて 構造体データの一部としてテキストが含まれている場合とか、一項目ずつ保存するのではなくて メモリの構造体データを丸ごと保存したりするからね。 だから、UTF16-BEかUTF16-LEという存在はCPUのエンディアンの存在によって生まれ、 それを保存するファイルに格納されたデータの呼び名にもなる。
861 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 14:14:58.98 ID:gMbJ5qLh.net] テキストファイルで保存するときでもLEとBEを選べるエディタがあるんだが それはおかしいのか?
862 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 14:19:55.61 ID:jrLTZF6i.net] 世の中に二つの形式があるのなら、 二つの形式を選べるのが普通でしょう? エンディアンが違うCPUとの間でもファイルの交換や、 ネットワーク通信できるんだから。
863 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 14:57:01.01 ID:m07o/u+5.net] > C言語風に
864 名前:曹ュならば、WCHAR型(16bit)となって、 > WCHAR *text = "あいうえお"; > こういう定義になる。 WCHAR *text = L"あいうえお"; じゃね? [] [ここ壊れてます]
865 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 15:01:18.03 ID:jrLTZF6i.net] 別にC言語風だからどうでもいいよ
866 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 15:34:10.60 ID:XZGKxZHW.net] たまには。PDPエンディアンのことも思い出してあげて
867 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 15:49:44.73 ID:T54U1ii9.net] エンディアン嘘つかない
868 名前:デフォルトの名無しさん [2014/04/25(金) 17:51:44.43 ID:4fGC8eBc.net] >>845 UCSとUTFの区別は最初はなかった。 最初はUCSのみ。 >>845 も書いてるけど。
869 名前:デフォルトの名無しさん [2014/04/25(金) 17:56:44.39 ID:991UJ/F9.net] >>847 UTF-16文字列はuint16_tの並び。 uint16_tだからCPUによってバイト順が違う。 だからエンコーディングのバイトオーダーが決まってると、 逆順のシステムはネットワークにデータを流す時にバイト順を毎回変えないといけない。 それを防ぐためにバイトオーダー順違いのエンコーディングが定義されてる。 こうしておくと必要なときだけバイト順を変えればいい。 DCE/RPCみたいに接続時にバイトオーダをネゴしてもいいし、 どちらを送られても必ず扱えるようにしてもいい。
870 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 18:34:47.40 ID:3oy/mjAO.net] レスありがとう 2つの(代表的な)エンディアンがあってだからBEとLEがありますだと理由付けとして弱い、何か他にあるんじゃないの??って疑問でした。 だから >処理を速くするためにCPUに合わせた形式でメモリには格納しないといけない。 という事情があると知り納得しました。
871 名前:デフォルトの名無しさん [2014/04/25(金) 20:13:07.53 ID:+TF8D1gC.net] 2つ
872 名前:しかない。 [] [ここ壊れてます]
873 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 20:28:19.84 ID:XFGUZTlf.net] Unicode規格のエンコーディングフォームと エンコーディングスキームの区別が全く ついていない人が集うスレはここですか?
874 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 20:41:42.68 ID:nsFgzzSj.net] >>862 あなたもその一人です。
875 名前:デフォルトの名無しさん mailto:sage [2014/04/25(金) 21:32:54.46 ID:lqZ5R9lm.net] キター パーソナルメディア、Unicode IVS/IVDを活用する異体字検索入力ツールを発売 itpro.nikkeibp.co.jp/article/ActiveR/20140422/552244/
876 名前:デフォルトの名無しさん mailto:sage [2014/04/26(土) 07:57:34.66 ID:ZfEIw6x8.net] IVS流行るんかねぇ 今3000字くらいだっけ?登録されてるの
877 名前:デフォルトの名無しさん mailto:sage [2014/04/26(土) 20:11:54.73 ID:Y0Dd5Dys.net] 有料なのかよ babelmap使えばいいな
878 名前:デフォルトの名無しさん mailto:sage [2014/04/27(日) 06:28:54.53 ID:ZQa6pLX5.net] 先月までレビューをやってた新しいIVDはその後どうなったんだろ
879 名前:デフォルトの名無しさん mailto:sage [2014/04/27(日) 06:55:39.54 ID:1HDcLnog.net] >>866 しかも10ライセンス単位 それでも一般販売されるようになっただけ一歩前進
880 名前:デフォルトの名無しさん [2014/05/01(木) 02:19:11.86 ID:jqsfROWp.net] 20年以上前に MS-DOS で grep "\[" ってやって、関係ない漢字が大量にヒットした時の絶望感。 Microsoft を捨てる理由になり得るということを 理解してくれる人は少ない。
881 名前:デフォルトの名無しさん mailto:sage [2014/05/01(木) 02:54:30.27 ID:o0DjzHC6.net] ほー。
882 名前:デフォルトの名無しさん mailto:sage [2014/05/01(木) 06:02:50.85 ID:cONH9EUi.net] へー。
883 名前:デフォルトの名無しさん mailto:sage [2014/05/01(木) 17:37:23.88 ID:qBGbIEYq.net] MS-DOSにgrep有ったのか
884 名前:デフォルトの名無しさん mailto:sage [2014/05/01(木) 17:56:01.26 ID:SDsBtHY9.net] アスキーの Software Tools for MS-DOS 他、いろいろあったよ
885 名前:デフォルトの名無しさん mailto:sage [2014/05/01(木) 18:34:21.61 ID:qBGbIEYq.net] マイクロソフト以外のツールの出来が悪いと Microsoft を捨てる理由になり得る のか
886 名前:デフォルトの名無しさん mailto:sage [2014/05/01(木) 19:06:00.71 ID:SDsBtHY9.net] 「Microsoft漢字コード」って意味じゃねーの?
887 名前:デフォルトの名無しさん [2014/05/01(木) 21:32:54.04 ID:jqsfROWp.net] 「Microsoft漢字コード」って意味です。 それ以外にも理由は山ほどありましたが。 その後、Pentium マシン買ってとっとと Linux 入れて Microsoft を捨てました。前世紀のことです。 エンコーディングは当初は euc-jp , 後に utf-8 。 プリインストールされていた windows 98 を有効利用しようと 一応は努力したんですよ。10日間くらい。
888 名前:デフォルトの名無しさん mailto:sage [2014/05/02(金) 03:26:51.56 ID:Bonx+GYW.net] >>873 特に緑の256本にお世話になりました。
889 名前:デフォルトの名無しさん [2014/05/02(金) 08:40:36.13 ID:QU3ScAPG.net] まあバカには難しいからな
890 名前:ニュース記事より mailto:sage [2014/05/02(金) 12:43:16.91 ID:ufjYsrm8.net] UTF-16 で、+2D 91+A9 52 7D 00+9F 53+ って何ですか? tp://headlines.yahoo. co.jp/hl?a=20140427-00000009-asahi-int
891 名前:880 mailto:sage [2014/05/02(金) 13:14:16.23 ID:ufjYsrm8.net] Internet Explorer を外したら上手くいきました。(._.)
892 名前:デフォルトの名無しさん mailto:sage [2014/05/07(水) 23:28:11.14 ID:FbKWdn3j.net] utf-1のオリジナルの仕様書はどこかに無いですかね?
893 名前:デフォルトの名無しさん mailto:sage [2014/05/08(木) 01:59:00.77 ID:1FoEUPwa.net] >>881 なにそれ? 1bit encode?
894 名前:デフォルトの名無しさん mailto:sage [2014/05/08(木) 02:19:16.15 ID:Ejp4CkYN.net] 8bitだな
895 名前:デフォルトの名無しさん [2014/05/08(木) 22:39:56.65 ID:vsk9CRPq.net] 数字の付け方が途中で変わったからねぇ。
896 名前:デフォルトの名無しさん mailto:sage [2014/05/09(金) 22:59:45.07 ID:FKMNP0tp.net] JIS X 0201の「ヲ」ってなんであんな位置にあるの? 「ワ」と「ン」の間じゃダメだったの?
897 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 00:58:26.77 ID:t6xyZ
] [ここ壊れてます]
898 名前:zaK.net mailto: 不思議だワン [] [ここ壊れてます]
899 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 01:01:06.78 ID:ZmQF3HWI.net] 今主流は、ISO/IEC 8859-15? Windows-1252 ? unicode?
900 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 01:09:42.82 ID:HPEBdtCe.net] あらゆる隔たりを越えて使われてるコードってなんだろ
901 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 03:27:31.59 ID:J4ChnPls.net] >>888 ASCIIコード
902 名前:デフォルトの名無しさん [2014/05/10(土) 03:29:41.16 ID:2hs2epHy.net] JSON Base64
903 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 11:13:27.62 ID:KEqrkxpz.net] せめて文字コードからお願いします
904 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 11:17:48.14 ID:38X5dwcC.net] お客さまの文字コードを戴いてもよろしいでしょうか
905 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 11:20:07.72 ID:KEqrkxpz.net] >>881 英語版ウィキペからのリンクで見つけた。 kikaku.itscj.ipsj.or.jp/ISO-IR/178.pdf >>884 UTF-8はUTF-2という名前だったな
906 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 13:26:02.15 ID:N1jI/E1a.net] >>893 オリジナルは ISO 10646-1:1993 = Unicode 1.1だな。
907 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 15:12:57.31 ID:KEqrkxpz.net] Unicode 1.1だけはunicode.orgのサイト上にもないんだね。 www.unicode.org/versions/enumeratedversions.html 無慈悲な(paper only)
908 名前:デフォルトの名無しさん mailto:sage [2014/05/10(土) 20:17:48.99 ID:rzUUktpC.net] Adobe-Japan1-6が出てもう10年か これだけ放置ってことは1-7は実質的にキャンセルされたかな
909 名前:デフォルトの名無しさん mailto:sage [2014/05/11(日) 00:27:45.38 ID:ijhFBXaa.net] 世の中はWindows-1252か、それをUTF-8化した文字コードが主流だね。
910 名前:デフォルトの名無しさん [2014/05/11(日) 14:18:48.58 ID:MFVOcSxg.net] 㐂驒沪𡈽圡玊琢簞箪簟單俱倶傎叱𠮟 咕吒哎噓嘘墟吞呑櫛樿撣 味噌 葛飾区 祇園 進歩 噂 湮滅 恰好 義捐金 眩惑 激昂 幻惑 渾然 駿足 醇朴 饒舌 食事療法 食餌療法 擡頭 醜名
911 名前:デフォルトの名無しさん mailto:sage [2014/05/11(日) 14:22:59.36 ID:ktmFmLGc.net] >>876 外部ツールのgrepが特定の文字コードに対応してなかっただけだろ?
912 名前:デフォルトの名無しさん [2014/05/11(日) 14:24:59.03 ID:MFVOcSxg.net] 人名にある漢字 &#164660; U+28334(D860 DF34) &#136014; U+2134E(D844 DF4E) &#168087; U+29097(D864 DC97) &#135963; U+2131B(D844 DF1B) &#64069; U+FA45 わかりやすい一表式誤字俗字・正字一覧 戸籍の氏又は名の記載・記録に用いる文字 戸籍実務研究会 編 日本加除出版 shift-jisではなくUnicodeで記述してくれ。 むずかしくないぞ!!誤字俗字・正字 小林勝彦 著 日本加除出版 子の名に使える漢字字典 改定常用漢字表対応 戸籍実務研究会 編 日本加除出版 人名用漢字の変遷 子の名に使える漢字の全履歴 日本加除出版株式会社編集部 編 日本加除出版 CJKV日中韓越情報処理 オライリー 新しい国語表記ハンドブック 三省堂 校正必携 日本エディタースクール 記者ハンドブック 共同通信 日本人の知らない日本語
913 名前:デフォルトの名無しさん [2014/05/11(日) 15:03:04.80 ID:MFVOcSxg.net] 外字管理と文字同定 合理的な外字作成のために 長村玄 著 日本加除出版 参考 blog.livedoor.jp/blackwingcat/archives/98340
914 名前:7.html http://blog.livedoor.jp/blackwingcat/archives/775319.html &amp;#127924; サロゲートペア 1F3B4 花札の坊主 1F3B6 1F4A9 1F4B4 1F5FE 1F5FC [] [ここ壊れてます]
915 名前:デフォルトの名無しさん [2014/05/11(日) 16:31:11.95 ID:RoItktFj.net] 結局、どれがええんじゃ?
916 名前:デフォルトの名無しさん mailto:sage [2014/05/11(日) 16:59:11.70 ID:6gZ3xnJh.net] >>898 邦題『湮滅 』の仏語原文はeのリポグラムで書かれているそうで、 翻訳の方も「い段」の仮名がなかったりのこだわり本。 どうでもいいな、スレチだし
917 名前:参考 mailto:文字コード [2014/05/11(日) 22:41:39.55 ID:E8GL8yG6.net] www.amazon.co.jp/dp/4899772939/ 文字コード「超」研究 改訂第2版 深沢千尋 www.amazon.co.jp/dp/477414164X/ プログラマのための文字コード技術入門 (WEB+DB PRESS plus) 矢野啓介 www.amazon.co.jp/dp/4891006080/ UnicodeによるJIS X0213実装入門―情報システムの新たな日本語処理環境 (マイクロソフト公式解説書―マイクロソフトITプロフェッショナルシリーズ) 田丸健三郎 www.amazon.co.jp/dp/4822294838/ Unicode IVS/IVD入門 田丸健三郎 小林龍生 www.amazon.co.jp/Unicode/dp/4798100307/ Unicode標準入門 発売日 2001/05 トニーグラハム
918 名前:デフォルトの名無しさん mailto:sage [2014/05/12(月) 01:09:45.43 ID:Dp5FfogZ.net] Unicode IVS/IVD入門は誤植とツッコミどころ満載(著者のせいというよりは編集が仕事してない)なので、 togetterだかにまとめられてるツッコミを確認しながら読むべし。
919 名前:デフォルトの名無しさん mailto:sage [2014/05/12(月) 11:07:44.74 ID:pJ9Xs2pQ.net] 互換漢字の表が正規化で全部統合漢字に化けていたのはひどかった
920 名前:デフォルトの名無しさん [2014/05/12(月) 15:46:50.90 ID:uPA0umXi.net] >>897 はあ?
921 名前:デフォルトの名無しさん [2014/05/12(月) 15:57:25.31 ID:IpyUrlLw.net] &#29357;&#173866;2A72A&#173880;2A738&#173885;2A73D&#173894;2A746&#173919;2A75F&#173912;2A758
922 名前:デフォルトの名無しさん mailto:sage [2014/05/12(月) 21:42:02.38 ID:JxGQtJ4M.net] >>885 最初無くて(「オ」で代用してたのかな?)後から追加されたという説がある。
923 名前:デフォルトの名無しさん mailto:sage [2014/05/13(火) 13:59:51.38 ID:bcXG8zlV.net] >>906 そりゃ回収すべきだなあ。 つーか著者も中で正規化についてふれてるはずだから、 予め事故が起きないように原稿データを作成する もしくはゲラで気にして眺めるのが当然。 それができていない、ということは、Excelの入門書とかにありがちな 入門者の「ための」本じゃなく、入門者が「書いた」本の類か。
924 名前:デフォルトの名無しさん mailto:sage [2014/05/13(火) 15:44:02.57 ID:m7IyQf0x.net] いや、著者はどっちもそれなりな人。経緯はまとめがあるのでそっちを読んでくれ。
925 名前:デフォルトの名無しさん mailto:sage [2014/05/13(火) 19:28:52.12 ID:YJDUJNfi.net] >>909 そんな説があったのか 記号消したのかな
926 名前:デフォルトの名無しさん mailto:sage [2014/05/13(火) 19:39:30.11 ID:QNQkB6+v.net] 主に携帯電話絵文字が割り当てられた、UNICODE u1f330〜u1f36f, u1f400〜u1f41f をtwitter, mixi, Facebookで表示させてみた。 mixiのWeb serverは前から独自の絵文字表示機能があるが、元からある絵文 字から、その文字コードに対応する絵文字を拾いだしてを画像データ (恐らくGIF)で表示しているみたい。。 twitterのPC(Windows7)のブラウザによる表示でも同様。 Nexus7でのブラウザ表示、smart phoneでのtwitterでは、Web serverの 絵文字表示機能に対応しておら
927 名前:ク、文字コードに対応する絵文字をフォント で表示させようとしているみたい。 表示させる文字コードに対応する絵文字のフォントデータがその端末にない 場合は表示されない。 [] [ここ壊れてます]
928 名前:デフォルトの名無しさん mailto:sage [2014/05/13(火) 19:47:48.70 ID:QNQkB6+v.net] UNICODE表示 u1f330〜u1f36f 🌰🌱🌲🌳🌴🌵■🌷🌸🌹🌺🌻🌼🌽🌾🌿 🍀🍁🍂🍃🍄🍅🍆🍇🍈🍉🍊🍋🍌🍍🍎🍏 🍐🍑🍒🍓🍔🍕🍖🍗🍘🍙🍚🍛🍜🍝🍞🍟 🍠🍡🍢🍣🍤🍥🍦🍧🍨🍩🍪🍫🍬🍭🍮🍯 u1f400〜u1f41f 🐀🐁🐂🐃🐄🐅🐆🐇🐈🐉🐊🐋🐌🐍🐎🐏 🐐🐑🐒🐓🐔🐕🐖🐗🐘🐙🐚🐛🐜🐝🐞🐟
929 名前:デフォルトの名無しさん mailto:sage [2014/05/13(火) 20:17:04.28 ID:rSIFJNU6.net] そもそもサロゲートペアに対応しているかという話も。
930 名前:デフォルトの名無しさん mailto:sage [2014/05/14(水) 10:23:36.86 ID:RnX/NH2T.net] >>913 ブラウザは何? サーバ側で画像に差し替えてるのは、 UserAgent見て切り替えたりしてんじゃないの? >>913 > Web serverの 絵文字表示機能に対応しておらず、 そうじゃなくてサーバ側で表示できるブラウザと勘違いしてるんでしょ。 UserAgentがそれっぽいから。
931 名前:デフォルトの名無しさん [2014/05/14(水) 12:07:15.19 ID:FT6VO3mN.net] JIS2004対応MSゴシック MS明朝フォントパッケージ Office製品のJIS X 0213:2004への対応状況 go.microsoft.com/fwlink/?LinkID=76814 go.microsoft.com/?LinkID=6179681 JIS X 0213:2004 Unicode 実装ガイド Microsoft www.microsoft.com/china/windows2000/downloads/18030.mspx blog.livedoor.jp/blackwingcat/archives/983407.html ISO 10646:2003 + 修正 1 繁体字中国語サポート (HKSCS 2004) Windows XP および Windows Server 2003 用の Windows XP フォント パックsupport.microsoft.com/kb/977801/ja Traditional Chinese ClearType fonts for Windows XP - 繁體中文 www.microsoft.com/zh-tw/download/details.aspx?id=12072 Simplified Chinese ClearType fonts for Windows XP www.microsoft.com/en-us/download/details.aspx?id=14577 Korean ClearType fonts for Windows XP www.microsoft.com/en-us/download/details.aspx?id=10490 汎用電子情報交換環境整備プログラム文字対応作業委員会資料 平成19年度経済産業省委託 汎用電子情報交換環境整備プログラム文字対応作業委員会資料(「地名外字」資料) 2008 年3 月発行、独立行政法人国立国語研究所 平成19年度 汎用電子情報交換環境整備プログラム文字対応作業委員会資料 地名外字 資料 www.ninjal.ac.jp/archives/hanyo/ www.ninjal.ac.jp/archives/hanyo/chimeigaiji.pdf www.ninjal.ac.jp/archives/hanyo/jisyohikeisaiji.pdf kanji-database.sourceforge.net/dict/daikanwa/index.html hp.vector.co.jp/authors/VA000964/html/daikanwa.htm webcat.nacsis.ac.jp/cgi-bin/shsproc?id=BN13621753
932 名前:デフォルトの名無しさん mailto:sage [2014/05/14(水) 13:26:00.05 ID:Z6IwK1L/.net] これはいったい何の話?
933 名前:デフォルトの名無しさん mailto:sage [2014/05/14(水) 20:54:01.03 ID:iRfI2E/u.net] あまぞんのれびゅーって面白いよね。 専門書の場合、みんなちゃんと根拠を出して 貶しているのに必ず一人だけ闇雲に マンセーする人がいる。 やっぱ、工作員かな。
934 名前:デフォルトの名無しさん mailto:sage [2014/05/14(水) 20:57:31.09 ID:kwfzu7ec.net] 漢字データベースはデータファイルへのリンク切れを直してほしいぞ ( /kawabata/kanji-data-base-* → /cjkvi/cjkvi-* )
935 名前:デフォルトの名無しさん mailto:sage [2014/05/14(水) 21:02:5
] [ここ壊れてます]
936 名前:5.66 ID:kwfzu7ec.net mailto: > http://webcat.nacsis.ac.jp/cgi-bin/shsproc?id=BN13621753 ていうか貼る前に飛べるかどうか確認くらいしろ botかよ [] [ここ壊れてます]
937 名前:デフォルトの名無しさん mailto:sage [2014/05/14(水) 21:26:48.11 ID:GYPuM66Z.net] ci.nii.ac.jp/ncid/BN13621753 これなのかな?
938 名前:デフォルトの名無しさん mailto:sage [2014/05/14(水) 22:29:58.06 ID:Z6IwK1L/.net] サイニーってなんか名前がえろいよね
939 名前:デフォルトの名無しさん mailto:sage [2014/05/15(木) 00:27:38.91 ID:9rPoDGNl.net] >>919 一人で言ってろw
940 名前:デフォルトの名無しさん mailto:sage [2014/05/15(木) 01:21:02.79 ID:eaRTBJfl.net] Excel から Cのdllに文字列を渡すとき、VBAからは ByVal as String を渡して C側で LPCSTR で受け取るのがパターンだけど、 ワークシートから直接呼ぶ場合はC側は BSTR等 で受けなきゃいけない。 そこで C側は BSTR に統一しておいて、VBAからは StrConv( xxx, vbUnicode) をかましてやればいいことが分かった。 ところが、StrConv("まみむめも", vbUnicode) を渡したら化ける。 ひらがなだと"め"以降が、かたかなだと"ム"以降がダメなようだ。
941 名前:デフォルトの名無しさん [2014/05/15(木) 23:22:03.55 ID:r+glb6GN.net] ci.nii.ac.jp/ncid/BN13621753 大漢和辞典 諸橋轍次著 藍燈文化事業股份有限公司, 1992.6 修訂版 / 鎌田正, 米山寅太郎修訂 出版地:台北 大学図書館所蔵 2件 実践女子大学 図書館 函館大谷短期大学 図書館
942 名前:デフォルトの名無しさん [2014/05/17(土) 00:34:57.36 ID:FDiSLcBF.net] 毦ト厽厸叕忑忐忐臋膐臡娚妕嫏釱c腥觕槀晟猋
943 名前:デフォルトの名無しさん mailto:sage [2014/05/17(土) 07:02:20.43 ID:HL2kvjJk.net] Moji_Johoコレクション登録キター unicode-inc.blogspot.jp/2014/05/new-version-of-unicode-ideographic.html
944 名前:デフォルトの名無しさん [2014/05/23(金) 20:30:12.89 ID:0ops72ts.net] >>899 なんで10日もたってから反応してくれたのか知らないけど一応返事しとくよ。 確かに grep はシフトJIS に対応してなかったけど問題はそこではない。
945 名前:デフォルトの名無しさん mailto:sage [2014/05/23(金) 22:20:35.88 ID:3CistgHw.net] じゃあ違う所に問題があるってことになるんだが、 それを書かないのはなんで?
946 名前:デフォルトの名無しさん [2014/05/25(日) 17:43:33.84 ID:+9s7n6Ty.net] シフトJIS のせいだと理解してくれた人もいるのだから充分だと思う。 それ以上書かなかったのは 「自分のブログでやれ!」 というような内容だから。 20年以上も前の極めて個人的な事情を本当に知りたい?
947 名前:デフォルトの名無しさん mailto:sage [2014/05/25(日) 19:07:02.17 ID:1MTC2E0+.net] A「シフトJISじゃなくツールの問題」 B「いえ問題はそこじゃない」 A「じゃどこだよ」 B「シフトJISの問題だけど詳細は言えませぬ」 なんかオボカタを彷彿させられたわ
948 名前:デフォルトの名無しさん mailto:sage [2014/05/25(日) 23:53:20.28 ID:sunY8yYk.net] >>869-877 を読む限りgrepがウンコだったとしか読めないのだが マイクロソフトが嫌いな人はなんでもマイクロソフトのせいにしたがるんだろうな
949 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 01:01:24.96 ID:n7nd7EBV.net] シフトJISって書くのはShift_JISと区別する意図があるという理解でよろしいか
950 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 01:05:37.47 ID:xHMaMRhQ.net] シフと辞す
951 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 04:46:50.66 ID:JBieFH3j.net] >>931 氏ね
952 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 06:15:33.67 ID:4h8ULvHM.net] >>931 小出しにしないで、何がどうしてどうなったのかを1スレで書けるなら書いてもいいよ。
953 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 07:02:01.76 ID:BDkoTBNa.net] >>934 そら
954 名前:そうだろ Shift_JISなんて使ってる人は見たことがない [] [ここ壊れてます]
955 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 09:00:03.21 ID:LQ8Ghiak.net] >>931 実に興味深いので、ぜひともうかがいたい
956 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 09:29:56.46 ID:koz7MUNE.net] シフトJIS Shift_JIS S-JIS MS932 他もあったと思うが何がちがうん?
957 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 11:51:57.08 ID:wJgJenmS.net] あだ名が違うだけなんよ
958 名前:デフォルトの名無しさん [2014/05/26(月) 12:31:29.88 ID:798+E0yw.net] UTF-8ってバイトストリームのくせになんでBOMなんてものがあるの?
959 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 12:35:07.83 ID:LnM16LwK.net] >>942 深謀遠慮の馬鹿の所為。
960 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 12:37:23.58 ID:n/wMhhQ7.net] >943 www.w3.org/International/questions/qa-byte-order-mark.en.php > In the UTF-8 encoding, the presence of the BOM is not essential because, > unlike the UTF-16 encodings, there is no alternative sequence of bytes in a character. > However, the BOM may still occur in UTF-8 encoded text, either as a > by-product of an encoding conversion or because it was added > by an editor to flag the content as UTF-8. > In this situation, the BOM is often called a UTF-8 signature. ということで、UTF-8のBOMは、BOMと似ているバイトデータですが、 BOMという呼び名が気になるなら、UTF-8 signatureと呼びましょう。
961 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 12:42:12.84 ID:n/wMhhQ7.net] なぜUTF-8 signatureがあるかといえば、 文字化け防止ですね。 マルチバイト文字列を使った文書の場合、 UTF-8で書いていても、他の文字コードだと 誤判定する可能性がある。 その可能性まで考慮する場合、つけても いいということになっています。 そこまで考えるかどうかですね。
962 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 12:57:20.58 ID:yW4E2WrI.net] >>940 文字集合が違うものがある。
963 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 13:06:36.83 ID:koz7MUNE.net] >>946 それはシフトJISの中で 78年とか83年とかって言われるやつ?
964 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 17:54:55.99 ID:2f6IRupb.net] MS932なんて明らかに別物じゃない
965 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 18:41:56.31 ID:rblDMgf3.net] >>940 シフトJIS:Shift_JISの俗称 Shift_JIS:正式名書 JIS X 0208とかIANAではこれが使われてる S-JIS:Shift_JISの略称 MS932:MSによるShift_JISの拡張 あってる?
966 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 19:16:08.25 ID:CNfFVCaw.net] >>944 どこの馬の骨ともわからないサイトを引用して嬉しいか?
967 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 19:17:17.33 ID:3kQqWzjR.net] >>949 全然ダメ話にならない 安岡に洗脳された?
968 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 19:36:56.51 ID:n/wMhhQ7.net] >>950 www.w3.org だよ。 ja.wikipedia.org/wiki/World_Wide_Web_Consortium > World Wide Web Consortium(ワールド・ワイド・ウェブ・コンソーシアム)は、 > World Wide Webで使用される各種技術の標準化を推進する為に設立された > 標準化団体、非営利団体。略称はW3C(ダブリュースリーシー)。 ま、知っていて言ってるんだろうけどねw もしかしてw3がUTF-8 signatureを使用しても いいものとして解説してるの知って悔しかった? MS独自の仕様とかじゃないんだよw
969 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 19:42:54.92 ID:Ht/ARlMF.net] >>952 unicodeの公式はこっちじゃないの? www.unicode.org/ BOMのFAQは www.unicode.org/faq/utf_bom.html
970 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 21:15:37.40 ID:n/wMhhQ7.net] いや、「どこの馬の骨ともわからない」という 無知を馬鹿にしてるだけだからw
971 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 21:59:26.38 ID:rblDMgf3.net] >>951 正解よろ
972 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 22:20:10.75 ID:YFy2sZt2.net] >>955 シフトJIS:Windows-31とかShift_JISなどの総称・俗称 S-JIS:シフトJISと同じ Shift_JIS:シフトJIS系文字コードの一つ。IANAでの正式名称 Windows-31J:シフトJIS系文字コードの一つ。IANAでの正式名称 ms932:Windows-31Jと同じ。俗称
973 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 23:00:00.47 ID:koz7MUNE.net] >>956 と言うことは Shift_JISとWindows-31Jの2種類があるんだね どのあたりのコード規格が違って2種類なの? 入ってるフォントや文字が違うってのは除いてね
974 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 23:00:05.62 ID:jb2ZtUVc.net] 何も説明してないな
975 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 23:02:22.93 ID:n/wMhhQ7.net] >>957 > 入ってるフォントや文字が違うってのは除いてね 文字コードっていうのは、普通 入っているフォントや文字が違うものなんだけど、 その一番重要な部分を除く理由は何?
976 名前:デフォルトの名無しさん mailto:sage [2014/05/26(月) 23:13:34.23 ID:sKb2ZcEr.net] >>957 Shift_JISはJIS X 0208文字とJIS X 0201文字を含む Windows-31Jはさらに「NEC特殊文字」「IBM拡張文字」を含む
977 名前:デフォルトの名無しさん mailto:sage [2014/05/27(火) 01:20:43.41 ID:7VvgsYMM.net] >>959 コード体系と文字は別でしょ Shift_JISでも78年文字とか83年文字とか 最近だと何年まで進んでるのかわからないけど あと、同じコード位置でも機種依存やOS依存で違うし これらはコード体系は同じと思ってる ちがう?
978 名前:デフォルトの名無しさん [2014/05/27(火) 03:20:26.43 ID:Ha9yhWBf.net] wikipedia貼ってどやとかもう生きていられない次元
979 名前:デフォルトの名無しさん mailto:sage [2014/05/27(火) 11:43:03.63 ID:empqvUFR.net] >>961 > コード体系と文字は別でしょ 別ではない。昔は厳密に区別されていなかった。 厳密に区別されるようになったのはUNICODEから
980 名前:デフォルトの名無しさん mailto:sage [2014/05/27(火) 17:40:32.44 ID:jLhQ2X1r.net] >>963 昔って83年以前? その時点でShiftJISの78規格文字とか83規格文字はあったが 規格はShiftJISだったが 機種依存文字も各社バラバラだったが 文字とコードが一緒だとどうなってたの? 意識してない人も居たってところでしょ
981 名前:デフォルトの名無しさん mailto:sage [2014/05/27(火) 17:47:14.30 ID:LcMluZw6.net] 文字化けというお化けが出る
982 名前:デフォルトの名無しさん [2014/05/27(火) 18:06:25.64 ID:rWEe06X3.net] >>937 ありがとう。書くよ。 エンコーディングの表記は "Shift_JIS" でいい? grep の件は Shift_JIS だから起こった。 現在なら Shift_JIS に対応しているのを使えばいいと思うかもしれないけど インターネット以前の時代だ。 パソコン通信はあったけど、そういうのを使える環境ではなかった。 情報は雑誌や書籍が頼りで、ソフトもそれらの付録の フロッピーディスクが頼りだった。情報弱者だ。 しかし grep の件のような問題が起こらないエンコーディングが あるということが解る程度には勉強していた。 自分で書くプログラムでは Shift_JIS にも一応は対応したし 海外産のプログラムを改造したこともあるが、それは Shift_JIS だから必要なわけで、本当はやりたくない。 nkf はあったから、パイプ処理でなんとかなる場合もあるが MS-DOS ではパイプ処理はあまり使いやすいものではない。 もし、コンソールドライバにエンコーディングを切り替えるオプションがあれば 海外のプログラムを無修正で使えたかもしれないのだが。 Shift_JIS でなければ何も問題は起こらないというわけではない。 grep もそうだ。しかし Shift_JIS でなければ起こらない問題が多すぎる。 つまり、grep が Shift_JIS に対応していないのが悪いのではなく Shift_JIS を使っているのが不合理だという立場だ。
983 名前:デフォルトの名無しさん mailto:sage [2014/05/27(火) 19:15:40.23 ID:5OfN7A1O.net] >grep が Shift_JIS に対応していないのが悪いのではなく >Shift_JIS を使っているのが不合理 駅に車を違法駐車するひとが 「みんなやってるし取り締まる方が不合理」 と開き直ったような思考だな
984 名前:デフォルトの名無しさん mailto:sage [2014/05/27(火) 20:37:49.77 ID:gGML8YGy.net] >>966 結局シフトJISに対応してない問題しかないじゃないか(呆れ)
985 名前:デフォルトの名無しさん mailto:sage [2014/05/27(火) 21:12:56.49 ID:d2/Q/hOp.net] 雑誌付録のソフトて大抵日本語対応てか作者日本人だから自然に対応してたよな VectorがCD-ROMの頃で収録数増やすのにBSDとか海外製のオープンソースものが入ってきてた感じ
986 名前:デフォルトの名無しさん mailto:sage [2014/05/27(火) 21:27:36.82 ID:33vy5Nng.net] MS-DOSの時代にShift_JISなんてあったっけ? シフトジスが1983年ぐらいとしてShift_JISは1997年じゃないの
987 名前:デフォルトの名無しさん [2014/05/28(水) 01:03:28.34 ID:LFNjWwYo.net] x-sjis
988 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 02:31:34.80 ID:8UETi8D4.net] PC-8801mk2FR (1985年11月発売) ttp://121ware.com/support/product/data/spec/cpu/b041-1.html PC-8801mk2MR (1985年11月発売) ttp://121ware.com/support/product/data/spec/cpu/b042-1.html 私の記憶が正しければ、少なくともNEC製パソコンに関しては上記2機種以降 (FR/MR/FH/MH/FA/MA/FE/MA2/FE2/MC/VA/VA2/VA3)に標準添付された N88-日本語BASICで、シフトJISコードが採用されていたはず。(MS-DOS全盛期より前) 実際、私も高校時代にPC-8801mk2FRの実機で日本語BASICをよく使っていたものだ。 それより一体いつの間に「シフトJIS」(シフトジス)と「Shift_JIS」が別物って話になってんだ? 上記のN88-日本語BASICにNEC独自の2バイト文字が一部含まれていたのは確かだったように記憶しているが、 基本的には呼び方が少し異なるだけで同じ文字コードを指すんじゃないのか?
989 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 06:56:42.97 ID:OT9ObpmS.net] いやShift_(アンダースコア)JISだけは別格のキワモノ
990 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 09:38:18.25 ID:LEy/uI+S.net] コードとフォントを区分けできない奴らが多いんだから 回答も適当なもんだ
991 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 09:48:09.99 ID:am2JQYoj.net] シフトJISでもShift_JISでも良いんだけど >Shift_JIS でなければ起こらない問題が多すぎる これちゃんと説明しないと話にならん
992 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 09:53:02.69 ID:uwTq2IS1.net] もう済んだことを蒸し返すな。 説明させたら、まったくShift_JISのせいではなかった。 これが事実。
993 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 10:45:31.20 ID:jOoZBmgE.net] シフトジス これ以降広い意味ではこれを使うこととする。
994 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 14:34:33.72 ID:VGTs+pfN.net] >>974 符号と字形っていうかコードとグリフじゃなくて?
995 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 16:42:18.75 ID:1n4l76qf.net] えらく伸びていると思ったら
996 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 18:04:52.73 ID:6RxarYIU.net] x-sjis とかが Shift_JIS になったのが 1997 年頃
997 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 19:34:38.71 ID:SK7hf9Gv.net] x-sjisに定義なんて無かったんじゃないの? Shift_JISがIANAで定義されてそのとき初めて JIS X0208+0201という定義がされたのだと思ってたけど。
998 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 20:27:02.63 ID:OGsR5Eh8.net] 2バイト目にASCII文字と同じバイトが出現しうるからEUC-JPなら必要なかった 対応が余分に必要になるってよくある話? Perlだとこういう問題が知られている。 homepage1.nifty.com/nomenclator/perl/shiftjis.htm
999 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 21:14:42.01 ID:0IHmN3Nq.net] どこまで読んでも 「文字列をASCII+アルファの未知のデータと仮定して処理したら誤動作した」 でしかないんだよな。 言語やツールの仕様に「\や@と同じバイトは現れない文字コードが前提」 と言う制約が有るわけでもないのに。
1000 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 21:23:03.13 ID:/a0BspTY.net] 文字コードって就職先あんの?
1001 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 21:44:20.16 ID:kjRCJp/2.net] >>984 無いよ。 このスレを見てわかるとおり 文字コードにこだわる人=アスぺ基地外だからね
1002 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 21:52:01.58 ID:7l0BbTbH.net] あとIMEのスレもキチガイ率高いな 文字にこだわるやつはキチガイ予備軍なんじゃね? と思ったけどフォントスレはそうでもないな
1003 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 22:00:10.73 ID:vt8gBzLM.net] Macのが最も素晴らしいだとかフォントのライセンス無視して改造して配ってたり GDI++だったか妙なレンダリングに拘ってたりするイメージがあるけど
1004 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 22:11:07.99 ID:7l0BbTbH.net] なんかそういうのとは毛色が違うんだよなぁ フォント関係のとこのやつははうぜぇやつ止まり コードやIMEのとこにいるやつはキチガイ臭がプンプンする
1005 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 22:56:37.48 ID:St2mZNey.net] てすぽ
1006 名前:デフォルトの名無しさん mailto:sage [2014/05/28(水) 23:58:57.25 ID:c0LERDVkO] 落ちたか?
1007 名前:デフォルトの名無しさん mailto:sage [2014/05/29(木) 00:37:00.53 ID:dXuX76SH.net] >>981 Windows-31JはIANAに登録されてた。
1008 名前:デフォルトの名無しさん mailto:sage [2014/05/29(木) 00:37:59.34 ID:3vKJnOmW.net] 梅
1009 名前:デフォルトの名無しさん mailto:sage [2014/05/29(木) 03:49:04.43 ID:AMcBMTZL.net] 次スレ 文字コード総合スレ part9 peace.2ch.net/test/read.cgi/tech/1401301779/
1010 名前:デフォルトの名無しさん mailto:sage [2014/05/29(木) 05:04:37.61 ID:l+cTMUwg.net] おっつぅ
1011 名前:デフォルトの名無しさん mailto:sage [2014/05/29(木) 07:50:08.12 ID:3vKJnOmW.net] 埋め
1012 名前:デフォルトの名無しさん mailto:sage [2014/05/29(木) 07:52:04.05 ID:3vKJnOmW.net] 996
1013 名前:デフォルトの名無しさん mailto:sage [2014/05/29(木) 07:52:34.79 ID:JfFfn9nO.net] 997
1014 名前:デフォルトの名無しさん mailto:sage [2014/05/29(木) 07:54:12.96 ID:JfFfn9nO.net] 998
1015 名前:デフォルトの名無しさん mailto:sage [2014/05/29(木) 07:58:01.05 ID:3vKJnOmW.net] 999
1016 名前:デフォルトの名無しさん [2014/05/29(木) 07:58:50.87 ID:3vKJnOmW.net] 1000
1017 名前:1001 [Over 1000 Thread.net] このスレッドは1000を超えました。 もう書けないので、新しいスレッドを立ててくださいです。。。
1018 名前:過去ログ ★ [[過去ログ]] ■ このスレッドは過去ログ倉庫に格納されています