文字コード総合スレ Part12

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2ch.scのread.cgiへ]
Update time : 09/02 16:40 / Filesize : 221 KB / Number-of Response : 1012
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

文字コード総合スレ Part12

1 名前：デフォルトの名無しさん mailto:sage [2018/12/16(日) 12:38:15.61 ID:VlX3xGEw.net]: Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
65 名前：デフォルトの名無しさん mailto:sage [2018/12/21(金) 17:47:28.44 ID:2iFVCAc3.net]: >>63
違いますね。memcpy相当ですから
66 名前：デフォルトの名無しさん mailto:sage [2018/12/21(金) 18:13:53.48 ID:ORTv1gtC.net]: 低学歴知恵遅れ先生はC/C++スレだけじゃなくてここにもくるようになったのか
67 名前：デフォルトの名無しさん mailto:sage [2018/12/21(金) 21:50:05.59 ID:0muy2Btq.net]: >>65
色んなところにいるよ
68 名前：デフォルトの名無しさん mailto:sage [2018/12/21(金) 22:02:28.52 ID:SVNbSsFy.net]: 相変わらず日本語の読解に問題がありそうな奴がいるなぁ。
69 名前：デフォルトの名無しさん [2018/12/21(金) 23:50:03.63 ID:j37Ohb1y.net]: まず低学歴知恵遅れは
低学歴知恵遅れの自覚がないからな
70 名前：デフォルトの名無しさん [2018/12/22(土) 11:38:13.24 ID:boWDflNh.net]: 実行時に使用中のCPUがLEかBEかを判定するプログラムを
Cでサンプル欲しいのですがどこかにありますか？
71 名前：デフォルトの名無しさん mailto:sage [2018/12/22(土) 13:36:46.26 ID:aa5NQG9N.net]: bool is_bigendian() {
　return htons(1) == 1;
}
72 名前：デフォルトの名無しさん mailto:sage [2018/12/31(月) 08:52:03.67 ID:Tj5kujd4.net]: C1制御文字の<128>って多くの文字コードで「PAD」と名付けられているのに
UnicodeでのU+0080はxxxみたいに無名なのって理由ある？
73 名前：デフォルトの名無しさん mailto:sage [2018/12/31(月) 13:29:33.60 ID:8Z6ezMyM.net]: U+0080,U+0081,U+0084,U+0099は、ISO6429/ECMA-48で制御文字に含まれていない
というか削除されてる
www.ecma-international.org/publications/standards/Ecma-048.htm
www.ecma-international.org/publications/files/ECMA-ST/Ecma-048.pdf

WikipediaソースによるとUnicode初期ドラフトにはU+0080も入っていたみたいなことも書かれてるね
https://en.wikipedia.org/wiki/C0_and_C1_control_codes#C1_set
74 名前：デフォルトの名無しさん mailto:sage [2019/01/01(火) 01:45:48.02 ID:kXQfWbAp.net]: なんてこった
エイプリルフールだって？
75 名前：デフォルトの名無しさん mailto:sage [2019/01/01(火) 23:58:04.80 ID:j16q/z48.net]: あけましておめでとうございます
2019年は何が起きるかしらね
76 名前：デフォルトの名無しさん mailto:sage [2019/01/02(水) 00:20:17.09 ID:R6tFufwf.net]: エイプリルフールはまだだけど元号ネタとかあるだろうな
新元号『NEO平成』に決定みたいな
77 名前：デフォルトの名無しさん mailto:sage [2019/01/02(水) 11:30:40.86 ID:6YX6jwF2.net]: 新元号『��』
78 名前：デフォルトの名無しさん mailto:sage [2019/01/02(水) 22:33:06.92 ID:Fz1uszjs.net]: 新元号が分からなくてグリフが間に合わないからUnicode 12.1を出すってのは仕方ないけど
新元号の組字のためだけにAdobeJapan1を改訂するってのは馬鹿げてる
79 名前：デフォルトの名無しさん mailto:sage [2019/01/03(木) 00:28:36.38 ID:agNiXwq6.net]: 元号は安晋に内定してるだろ
80 名前：デフォルトの名無しさん mailto:sage [2019/01/03(木) 09:15:51.35 ID:IESB6EpY.net]: MS-DOS でのプログラミングではメモリ内の特定のバイトについて
文字の中の何バイト目かを 1 バイトずつ遡って調べるということも
あったようだけど自分ではそういうコードを書いた記憶がない。
いや、もしかしたらあったのかもしれないけど。
EUC-JP の場合は ASCII なバイトかシングルシフトが現れた時点で
確定するようだけど。Unicode の時代になって良かったね。
まあ、そんなようなことを今更思った。あけましておめでとう。
81 名前：デフォルトの名無しさん mailto:sage [2019/01/03(木) 21:04:56.87 ID:ejflNGhp.net]: >>72
ありがとう。
なにか事情があったんだろうけど、なんだろうね……。
82 名前：デフォルトの名無しさん mailto:sage [2019/01/04(金) 13:59:50.88 ID:8DNHKlb4.net]: あけおめ

>>79
大昔のことだけど、SJIS 文字列の末尾から検索するプログラム書いてた時は「SJIS、お前はマジで殺す」という気持ちで一杯でした。
もう二度とあんなことはやりたくない。
83 名前：79 mailto:sage [2019/01/04(金) 17:36:17.24 ID:opswFKCW.net]: ありがとう、まさにそういうことです。
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */
84 名前：デフォルトの名無しさん mailto:sage [2019/01/04(金) 18:54:02.55 ID:3Gm4cMvD.net]: Windows環境ならそこは _mbschr() でしょ。
85 名前：デフォルトの名無しさん mailto:sage [2019/01/04(金) 19:30:16.38 ID:EMYjNY+E.net]: UnicodeはSJISよりも扱いが複雑だけど
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう
86 名前：デフォルトの名無しさん mailto:sage [2019/01/04(金) 21:30:36.38 ID:atCGQoq2.net]: 複数コードポイントで1文字を表すのって上限って決まってないの？青天井？
87 名前：デフォルトの名無しさん mailto:sage [2019/01/04(金) 22:02:58.14 ID:rG/yv5Zr.net]: UTF-8なら、最大四バイトだけど、そういうことじゃなくて？
88 名前：デフォルトの名無しさん mailto:sage [2019/01/04(金) 22:11:30.43 ID:FtJLKwOD.net]: >>86
先ずコードポイントの意味を理解してから質問した方が良い
89 名前：デフォルトの名無しさん mailto:sage [2019/01/04(金) 22:27:33.32 ID:atCGQoq2.net]: なんかごめん
90 名前：デフォルトの名無しさん mailto:sage [2019/01/04(金) 23:45:49.70 ID:EMYjNY+E.net]: >>86
最大4バイトじゃないよ

漢字1文字が最大8バイト、Unicodeの「IVS」とは？
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/

Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理

もし自力で文字数をカウントしたいならこれとか読んで頑張れ
https://www.kthree.co.jp/kihelp/index.html?page=data/ivs&type=html
91 名前：デフォルトの名無しさん mailto:sage [2019/01/04(金) 23:54:23.74 ID:EMYjNY+E.net]: ZWJシーケンスというのもあるね
https://qiita.com/nonanona/items/b148c212ba7c24942e93#%E7%B5%B5%E6%96%87%E5%AD%97%E7%94%A8%E3%81%AE%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BFemoji-variation-selector%E3%81%A8%E3%81%AF

見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。
92 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 00:00:08.40 ID:41KVD0qa.net]: https://unicode.org/emoji/charts/emoji-zwj-sequences.html#1f441_fe0f_200d_1f5e8_fe0f
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね
93 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 00:03:32.79 ID:fLBZxFEd.net]: 合成文字・絵文字とかが絡むともっと地獄になるけどな
tech.albert2005.co.jp/201/
https://qiita.com/nonanona/items/b148c212ba7c24942e93
94 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 00:03:39.55 ID:41KVD0qa.net]: ZWJを使うと最大11文字だって。
https://n2p.co.jp/blog/column/counting-characters-on-twitter/
95 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 00:07:24.29 ID:41KVD0qa.net]: Unicodeは1文字の概念も破綻しちゃったね
1文字に見えるやろ？でもこれは11文字なんや
全く意味がわからないｗ
96 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 00:11:16.35 ID:41KVD0qa.net]: 見た目上の1文字は最大4バイト×11文字で44バイトなのかな？ｗ
11文字ってのは今現在存在する最大が11文字ってだけで青天井？
もうライブラリ使ってないと無理だね
97 名前： mailto:sage [2019/01/05(土) 00:12:47.39 ID:F8+3E8Pf.net]: 世の中にあるすべての文字をコード化してやる！
という意義には賛同していたんですけれども、（主に経済的理由により）絵文字が入った時点で失望してしまいました…

仕切りなおしたほうがいいんじゃないですか？
98 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 00:38:07.30 ID:198zQJKz.net]: 仕切りなおしてもBCで絵文字は入ります。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。
99 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 00:46:41.68 ID:fLBZxFEd.net]: 仕切りなおすどころかUnicodeの規格がさらに拡張されて状況悪化するんだろうなあ
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし
100 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 01:28:42.81 ID:41KVD0qa.net]: 絵文字は象形文字の発展版なんだから
文字扱いするのは当然
101 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 12:51:39.06 ID:l3tIMYns.net]: 現代の文字は自然発生するわけでも王朝が発布するわけでもなくユニコードコンソーシアムが追加するのだ
102 名前：デフォルトの名無しさん [2019/01/05(土) 13:09:21.22 ID:Lsf8iZgV.net]: >>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか
103 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 15:08:59.93 ID:WAT5i9L3.net]: 世界が認めたニッポンのスゴーイ文化やぞ
104 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 15:19:11.13 ID:dE0KuiGH.net]: 当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
105 名前：デフォルトの名無しさん [2019/01/05(土) 16:29:31.32 ID:XzO5Y/Fl.net]: 1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。
106 名前： mailto:sage [2019/01/05(土) 17:03:40.22 ID:F8+3E8Pf.net]: >>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは？
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか？
107 名前：デフォルトの名無しさん mailto:sage [2019/01/05(土) 17:24:42.05 ID:41KVD0qa.net]: はい
108 名前：デフォルトの名無しさん [2019/01/05(土) 19:28:07.65 ID:2yRzjNJO.net]: 便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ
109 名前：デフォルトの名無しさん mailto:sage [2019/01/06(日) 10:52:08.85 ID:6OQPByjN.net]: 田穣崇さん『ドコモの絵文字にうんちを入れたかったのですが、社内で大反対されまして…』うんちの絵文字がUnicodeに登録されるまでの裏話
https://togetter.com/li/1305754
110 名前：デフォルトの名無しさん mailto:sage [2019/01/09(水) 21:32:33.71 ID:Duz5lH4D.net]: うんちにも色バリエーションつけたいなあ
111 名前：デフォルトの名無しさん [2019/01/10(木) 11:56:03.90 ID:+qf2Eno1.net]: カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった
112 名前：デフォルトの名無しさん mailto:sage [2019/01/10(木) 14:02:26.62 ID:LOQSfV+x.net]: 形状バリエーションも欲しい
巻きうんち/一本糞/ビチグソ
113 名前：デフォルトの名無しさん mailto:sage [2019/01/10(木) 18:35:20.73 ID:1lL5sq44.net]: POO WITH TURBANとかもほしい
114 名前：デフォルトの名無しさん mailto:sage [2019/01/14(月) 01:16:50.95 ID:s6eFaywu.net]: U+FFFCとU+FFFDの違いってなんだろう。
一応https://www.unicode.org/charts/PDF/UFFF0.pdf←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな？
115 名前：デフォルトの名無しさん mailto:sage [2019/01/14(月) 11:40:16.54 ID:tN6VIVTj.net]: Unicodeですらないのに「
116 名前：U+～」という表記はこれ如何にｗ []: [ここ壊れてます]
117 名前：デフォルトの名無しさん mailto:sage [2019/01/15(火) 16:00:55.99 ID:exaSay/9.net]: Replacement Characters: U+FFFC–U+FFFD

U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.

U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.
118 名前：デフォルトの名無しさん mailto:sage [2019/01/15(火) 18:43:18.89 ID:cLBK0jiu.net]: >>115
sorry Japanese only please
119 名前：デフォルトの名無しさん mailto:sage [2019/01/15(火) 20:15:36.54 ID:XDACXjEE.net]: >>116
なんで卑屈なの？
120 名前：デフォルトの名無しさん [2019/01/16(水) 11:07:49.88 ID:vTKVQdGX.net]: 朝鮮人クオリティ
121 名前：デフォルトの名無しさん mailto:sage [2019/01/17(木) 14:01:24.86 ID:yxSqAYIN.net]: 消えゆく「黒電話」マーク…時代とともに変化
https://www.sankei.com/premium/news/190117/prm1901170009-n1.html
122 名前：デフォルトの名無しさん mailto:sage [2019/01/17(木) 14:27:36.24 ID:fAu7Qwle.net]: 一方、保存ボタンには相変わらずフロッピー��
123 名前：デフォルトの名無しさん [2019/01/17(木) 21:08:16.21 ID:rro3H2AR.net]: 今はこうですよ
https://www.appps.jp/wp-content/uploads/2017/01/20170131-tell-icon-news-008.jpg
124 名前：デフォルトの名無しさん mailto:sage [2019/01/17(木) 21:10:53.89 ID:1NGaj4L3.net]: ダウンロードかな
125 名前：デフォルトの名無しさん [2019/01/18(金) 04:13:25.86 ID:6U5tZjv3.net]: 山

↑
の方が合ってると思うけど
現実は
↓

下載
126 名前：デフォルトの名無しさん mailto:sage [2019/01/18(金) 15:39:10.11 ID:XYduBDiM.net]: 直訳かよ
127 名前：デフォルトの名無しさん mailto:sage [2019/01/19(土) 00:58:09.98 ID:cLBGydY8.net]: >>115
これ使われてるの？
128 名前：デフォルトの名無しさん mailto:sage [2019/01/19(土) 01:02:48.22 ID:TqFwYkHH.net]: 使われてるよ
129 名前：デフォルトの名無しさん mailto:sage [2019/01/20(日) 06:25:45.86 ID:kFywruI2.net]: >>115
んーつまり基本的にはU+FFFDを使っとけばいいのかな。
マジで英語が読めんので当てずっぽうだがw
130 名前：デフォルトの名無しさん mailto:sage [2019/01/20(日) 19:36:07.54 ID:GM/wkhUD.net]: FFFC はオブジェクト用。変換のときに絵でも音楽でも写真でも、主に文字以外のものが埋め込まれていた場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。
131 名前：127 mailto:sage [2019/01/21(月) 07:51:07.97 ID:uncS2Ppy.net]: >>128
なるほど「オブジェクト」ってそういう意味か！
ありがとう。
つまり基本的に（Unicode環境で）「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
（Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし）
132 名前：デフォルトの名無しさん [2019/01/21(月) 10:29:40.20 ID:z/MdI8Lw.net]: そもそも外部に公開するドキュメントにU+FFFC,U+FFFDが存在すべきでないということでは。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。
133 名前： mailto:sage [2019/01/22(火) 01:05:00.00 ID:zFHfz07h.net]: 漢字コードのことでわからなくなりましたので質問いたします。
よろしくお願いいたします。

https://pc.watch.impress.co.jp/docs/column/config/1158344.html
＞文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
＞たとえばUnicodeならあらゆる言語の文字を混在させることができる。
＞Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、

これって本当ですか？

私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか？
134 名前：デフォルトの名無しさん mailto:sage [2019/01/22(火) 02:31:06.16 ID:leGefjnc.net]: 字体とか書体を文字としてどう考えるか、で答えが変わるだろ
135 名前： mailto:sage [2019/01/22(火) 02:34:15.81 ID:zFHfz07h.net]: >>132
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
①：同一文書に含ませることは可能でしょうか？②：①が可能であったとして、PC の画面にて同時に表示することは可能でしょうか？
136 名前：デフォルトの名無しさん mailto:sage [2019/01/22(火) 02:59:07.23 ID:leGefjnc.net]: どっちも可能
137 名前：デフォルトの名無しさん mailto:sage [2019/01/22(火) 07:59:46.55 ID:Um5Ij+zI.net]: 新しめのブラウザでUTF-8の文書を書いて、中国圏の自体にしたい文字を
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。
138 名前：デフォルトの名無しさん [2019/01/22(火) 13:07:54.27 ID:/wbMKv3O.net]: >>131
こいつはプログラマじゃないからな
かなり適当な理解で記事描くな
139 名前：デフォルトの名無しさん mailto:sage [2019/01/22(火) 14:56:00.21 ID:SJtsjRub.net]: >>131
Unicodeは全世界の文字に対応した文字コード
混在して使えるのは当たり前
140 名前：デフォルトの名無しさん mailto:sage [2019/01/22(火) 23:10:13.56 ID:MZI8yiK5.net]: >>133
より正確に言えば、
保存するときにローカルの文字コードに変換してるソフトかもしれないのでそのソフトの仕様による
例えば英文フォントしかないPCだと漢字は表示できないだろうから表示できるかどうかは環境による
だろう

>>131
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
141 名前：デフォルトの名無しさん mailto:sage [2019/01/23(水) 08:37:00.98 ID:bn3mLL6F.net]: >131
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。
142 名前：デフォルトの名無しさん mailto:sage [2019/01/23(水) 08:38:04.03 ID:bn3mLL6F.net]: あちゃー。unicode文字が全部?になってしまった。
143 名前：デフォルトの名無しさん mailto:sage [2019/01/23(水) 12:18:22.13 ID:djVGMpuO.net]: >>138
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
縄文時代の日本語が文字コードで表せるならばUnicodeで表せる
144 名前：デフォルトの名無しさん mailto:sage [2019/01/23(水) 20:08:35.75 ID:9uGbsXCn.net]: >>141
文字がないのに文字コード化できるの？
145 名前：デフォルトの名無しさん mailto:sage [2019/01/23(水) 23:59:31.81 ID:einaVBCe.net]: 漂流する論点
146 名前：デフォルトの名無しさん [2019/01/24(木) 10:44:11.21 ID:TePOwsZ1.net]: 論点ずらしは朝鮮人のはじまり
147 名前：デフォルトの名無しさん mailto:sage [2019/01/24(木) 14:09:11.07 ID:CmuJPGgn.net]: >>142
俺に言うな。>>138に家
縄文時代の日本語を混在できないとしたら、
それは例えば「文字がない」ことなのに、
Unicodeだから無理みたいな言い方してるんだから
148 名前：デフォルトの名無しさん mailto:sage [2019/01/24(木) 14:37:04.33 ID:YqEq6vd1.net]: Unicodeだからできないなんて、誰も言ってないと思うのだが。
被害妄想にとりつかれた朝鮮人みたいだな。
149 名前：デフォルトの名無しさん mailto:sage [2019/01/24(木) 14:59:51.89 ID:CmuJPGgn.net]: > あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ

じゃ、この発言で言いたかったことは何だって言うの？
「私（>>138）は馬鹿です。」以外に何も思いつかないんだが
150 名前：デフォルトの名無しさん mailto:sage [2019/01/24(木) 23:03:59.13 ID:YqEq6vd1.net]: >>147
>じゃ、この発言で言いたかったことは何だって言うの？

（unicodeならすべての言語を混在できるという話しを受けて）
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理

だろ。他に何があるってんだ？
151 名前：デフォルトの名無しさん mailto:sage [2019/01/25(金) 11:58:11.28 ID:Syn0T0uw.net]: 横からすまんが元レスをたどると>>131「あらゆる言語の文字を混在させる」だぞ。
それを>>138がしょっぱなから「あらゆる言語を文字で混在させる」に読み違えてるように思える。
152 名前：デフォルトの名無しさん [2019/01/25(金) 12:36:50.26 ID:EnRgcOgq.net]: 宇宙の惑星や生命体の多さから言って
UNICODEじゃ全然足りないのは明らか
153 名前：デフォルトの名無しさん mailto:sage [2019/01/25(金) 14:50:56.20 ID:fW+xzaQf.net]: >>148
縄文時代の日本語ってなに？
参考リンク教えて
154 名前：デフォルトの名無しさん mailto:sage [2019/01/25(金) 21:01:41.10 ID:Syn0T0uw.net]: これ誰かがわざと論点動かして遊んでるだけだな…
155 名前：デフォルトの名無しさん mailto:sage [2019/01/25(金) 21:59:31.32 ID:cTfFLjRM.net]: >>149
だから文字のない言語は無理だろ？
という話だけなのに、なんでひねくれてるの？
156 名前：デフォルトの名無しさん [2019/01/26(土) 15:18:19.02 ID:yVAkGzul.net]: >>152
朝鮮人メンタル
157 名前：デフォルトの名無しさん mailto:sage [2019/01/26(土) 17:43:06.71 ID:+ikAikUs.net]: なぜ文字コードスレで文字の無い言語の話をしようと思ったのか
158 名前：デフォルトの名無しさん mailto:sage [2019/01/27(日) 20:08:40.52 ID:fsCM9HoX.net]: そこに文字がないから
159 名前：デフォルトの名無しさん mailto:sage [2019/01/28(月) 17:43:32.30 ID:2/HZJEKq.net]: win32apiスレ荒すな！
160 名前：デフォルトの名無しさん mailto:sage [2019/01/29(火) 08:22:23.73 ID:NccK+bbj.net]: なんか旧かなキチガイと同じ臭いがする
161 名前：デフォルトの名無しさん mailto:sage [2019/02/01(金) 11:28:25.54 ID:FNQUOW/0.net]: いきなりですが質問失礼します

とあるオンラインゲームをやってまして
そこで名前のソートの規則から、そのゲームが採用している文字コードの符号化方式を知りたいのですが
各コードにおいての文字の並びと、実際のゲーム内での文字のならびに違いがあったので素人の私にはお手上げ状態です

素人なりに6時間ほどぐぐってみたりしたのですが、それらしい符号化方式は特定できませんでした

スプレッドシートに、ゲーム内で実際にソートされていた文字を順番も合わせてまとめました
文字コードや符号化のスペシャリストのみなさんにこれを見てもらって、一番近い符号化方式をお教えいただけたらうれしいです

文字ソートまとめ、上から下に向かって昇順になっています
https://docs.google.com/spreadsheets/d/1QbN1zHY8BLnUampdKYVIRzK34SrTdq2gkMBgct03Fu8/edit?usp=sharing

それではよろしくお願いします
162 名前：デフォルトの名無しさん mailto:sage [2019/02/01(金) 11:40:45.63 ID:FNQUOW/0.net]: このサイトを参考に文字コード引っ張って来てみました
ash.jp/code/unitbl21.htm

区点 JIS SJIS EUC UTF-8 UTF-16 字

01 86 2176 8196 A1F6 EFBC8A FF0A ＊
84 06 7426 EAA4 F4A6 E78699 7199 熙
17 77 316D 898D B1ED E78795 71D5 燕
44 80 4C70 96EE CCF0 E79FA2 77E2 矢
27 71 3B67 8E87 BBE7 E7B4AB 7D2B 紫
01 49 2151 8170 A1D1 EFBD9D FF5D ｝

ゲーム内では熙　燕　矢　紫の順にソートされており
引っ張ってきた文字コードを見ると、数字と文字のソート関係が昇順で一致していたのがUTF-8かUTF-16だったので
その2つかな？と思ったのですが、実際にそれらの符号化のサイトを見てみたら、ゲーム内のソートとはまた違う規則性のようでした

実験として、符号化の一番値の大きい文字である「FF5D ｝」を文字として使ってみたところ
先の4つの漢字の下にソートされたのでUTFあたりが近そうなのですが、それ以上は素人にはわからないので困ってしまっている状況です。
どうかご助言の方なにとぞよろしくお願いします。
163 名前：デフォルトの名無しさん mailto:sage [2019/02/01(金) 13:28:31.64 ID:OoI2nX80.net]: 区別しない文字があるんだから文字コード外のルールでソートされてるんだろ
特定の符号化を示唆する特徴が見られたとしてもそれは実際に採用されてる符号化と直接の関係がない
164 名前：デフォルトの名無しさん mailto:sage [2019/02/01(金) 14:36:54.05 ID:5sjBS9D2.net]: StrCmpLogicalWとか知らなそう?
165 名前：デフォルトの名無しさん mailto:sage [2019/02/01(金) 18:36:04.25 ID:FNQUOW/0.net]: 回答ありがとうございます
本当に助かります

>>161
あーそういう感じですか・・・
ってことは自分で調査しないとだめそうですね
返答ありがとうございました

>>162
ほとんど初心者なので知りませんでした　こういう関数があるんですね
専門用語とかだけでも出してもらえて嬉しいです
何も知らないのでぐぐる事もできなかったので助かります

単語さえわかればあとはこちらで調べますので
他にも関連した情報がありましたら用語だけでも教えてもらえると嬉しいです

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef