文字コード総合スレ Part12

文字コード総合スレ P ..

2:デフォルトの名無しさん
18/12/16 12:40:36.99 VlX3xGEw.net
■参考サイト
Unicode Home Page
URLﾘﾝｸ(www.unicode.org)
Java Character Encodings
URLﾘﾝｸ(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLﾘﾝｸ(euc.jp)
IANA: Character Sets
URLﾘﾝｸ(www.iana.org)
Legacy Encoding Project
URLﾘﾝｸ(sourceforge.jp)
JIS X 4061
日本語文字列照合順番
URLﾘﾝｸ(www.jisc.go.jp)

3:デフォルトの名無しさん
18/12/16 12:45:08.07 VlX3xGEw.net
■これまでに行われた議論
・Windows 10のコマンドプロンプトでUTF-8を使用する場合chcp 65001で切替可能。日本語入力等も可
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。Unicodeでは機種依存文字ではない。
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　対応済み
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
　Windows7では表示されない。　→　和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
　陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。　→　ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る？
・Unicodeのzipが文字化けする。→Windows 7は公式パッチで対応可能。8以降は標準対応

4:デフォルトの名無しさん
18/12/16 12:46:00.56 VlX3xGEw.net
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏＋恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離（中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか）
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは？
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
　U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
　ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
　中国ではってレベルじゃねーぞ。
・Unicodeは言語情報を直接扱わない。多言語の混在表現は（unicodeでは）できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが　→　ムリです。
・Unicodeサニタイズが面倒になるのか

5:デフォルトの名無しさん
18/12/16 12:46:16.07 VlX3xGEw.net
もうひとつの過去スレ:
文字コード統一スレ 1文字目
ｽﾚﾘﾝｸ(tech板)
隔離スレ:
UnicodeとUTF-8の違いは？
ｽﾚﾘﾝｸ(tech板)
UnicodeとUTF-8の違いは？　その2
ｽﾚﾘﾝｸ(tech板)
UnicodeとUTF-8の違いは？　その2
ｽﾚﾘﾝｸ(tech板)
UnicodeとUTF-8の違い4(インディアン隔離スレ)
ｽﾚﾘﾝｸ(tech板)

6:デフォルトの名無しさん
18/12/16 12:48:18.57 VlX3xGEw.net
■ライブラリ
ICU - International Components for Unicode
URLﾘﾝｸ(site.icu-project.org)
mlang
URLﾘﾝｸ(msdn.microsoft.com)(en-us).aspx
iconv
URLﾘﾝｸ(www.gnu.org)
ICU
URLﾘﾝｸ(www.icu-project.org)
NKF32.DLL （非推奨）
URLﾘﾝｸ(www.vector.co.jp)

7:デフォルトの名無しさん
18/12/16 12:49:13.25 VlX3xGEw.net
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
　表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か？MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac（内部Unicodeアプリ）は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ（U+FFFD）になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
　charset=CP932で送信される場合とISO-2022-JP（もどき）で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
　U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
　U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
　U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
　U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
　解決策：取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
　MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
　再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う（機種依存文字等）。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
　'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
　あるいはURLﾘﾝｸ(masaka.dw.land.to)とか。

8:デフォルトの名無しさん
18/12/16 17:19:29.50 0LUE4AGb.net
oo|o|o|||o|o|o|o|||ooo|oo|o|ooooo||o||o|oooo|||o||||o|oo|o|||o|o|o|o|o|oo
ooo||o|o|||||||o|o||oo|ooo||ooo|o||oooo|oo|o||oo|||ooo||||oo||ooooo||oo||
oo||ooo|o||o||ooooo|oo|oo|o|o|||o|||||o|o|oo||oo|ooo||o||||o|o||o||o|oooo
ooo|||||o|oo|||ooo|o|oo|||||ooooooooooo|||ooo|||o||||oo|oo|||ooo|o||oo|||
ooooo|ooo||o|oo|||oooo|oo|||||ooooo||o|||oo|||o|o|o|o||||o|||||oo|oo|oo|o
||o|oo||oooooo||o|oo||o|||ooo||oo||oo||ooo|o|o|oo|||||o|o|o|||oooooo|o|||
||o||||o|oo|||o||oo||ooo|ooo|oo|||oo|o|||o|||oo|oo|oo|o|||||oooo||ooooooo
oo|oo|||||oo|||||o|oo|o||oo|||o|ooo||o|oo|||o||ooooooooo|ooooo|o|||o||o||
o|oo|o||o|oo|oo|oo|o|o|o|oo|o||||oo|oo||ooo|ooooo||||o|oo|oo|||o|||oo||||
|o||||o|||oo|o||o||oo||oooo|oo|o||oooo|oo|||||||oo|o|o|ooo|oooo||||ooo|oo
ooooo|||oo||oo|o||o|ooooooo||||||o|o||o|o|ooo||oo||o||oooo||oo|oo|||o||||
|o|||oo||o||o|o|||o||oooo|oo|||o||oo|ooooo|o|||o|||oo|ooo|ooo|||oo||oo|oo
||ooo|||ooo|||o|ooooo||||oo|||||oo||ooo|o||o||ooo|oo||oo|oo|||o|o|o|oooo|
|||oo|o||o||o|ooooooooo|o|o|||||oo|o||ooo|o||o|oo||||oo|o||o||o|ooo|||ooo
oooo|||ooooo||o||oo|ooo|||||o|oo|||o||o||ooo|ooo||oo||oo||o||o|oo|o|oo|||
oooooo||||oo|o||oo|||o|ooooo||ooo||||||oooo|||||oo||||ooo|||o|o|o|o||oooo
o|o|o|oo|o|oooo|o|ooo||oo|oo||||||||ooo|o||o||oo||o|||ooo|o||oo||oo||oo|o
oo||||oooooo|o||o|o|oooo||o|||oo|ooo|o|o|o|ooo||o|o|oo|o|||o|o|o|||o||o||
oo|oooo|oo|o|oo||||oo|||o||o|o||o||o|oooo|o||||o|o||o|ooooo||ooo||||||ooo
oo||o|oo||||oo|||||||||ooo|oo|||oo||oooo||o|o|o||||ooooooooo|oo|||oo|oo|o
o|o|||||o|o|||oo|oo|o|||o|o|||oo|oo||ooo|oo|oo||oooo||||o||||ooooooo||ooo
o|||||oo|o|||oo|ooooo|ooooo||o||oo||ooo||||oo|oooo||||oo|oooo||oo|o||||||
|oo|oo|||||oooooo||||ooo|||||ooo|oo|o|||oo|o|o|||o||ooo||ooo|o|oo|||o|ooo
ooooo|o|oo||o||||oo||oo|o|ooo||o|o|o|||ooo||||||o||oo|ooo||o|o||oo|o||ooo
|oo|ooooo||o||o|o|oo|oo|||ooo||||o|oo|oo|o||||o|oo|||o||o|||||ooooo|o|ooo
|o||ooooooo|||oo|ooo|ooo||||ooo||oo||ooo|||||||ooo|o|ooooo|||||o|o|o|||o|

9:デフォルトの名無しさん
18/12/16 21:10:16.93 3q5iKhWM.net
こんなスレあったんだ
Windowsのフォントって、どのフォントがどのコード体系とか字体を使っている。
などを纏めているところってある？？

10:デフォルトの名無しさん
18/12/16 23:11:32.43 /e3hQGaS.net
ちょっと考えれば分かるようなことをなぜ聞くんだろう。

11:デフォルトの名無しさん
18/12/17 20:40:27.55 kiEfSjeK.net
ちょっと考えれば解るなんてすごい人だな。
ちょっと書いてみ

12:デフォルトの名無しさん
18/12/17 21:18:18.25 lO+98ZHR.net
あげ

13:デフォルトの名無しさん
18/12/18 03:08:10.44 81OlOyOQ.net
nkf - Network Kanji Filter Fork
URLﾘﾝｸ(ja.osdn.net)
v2.1.5
2018-12-15 18:19:02

14:デフォルトの名無しさん
18/12/18 11:22:36.98 /M0/bFGF.net
>やはり頭悪いのはunicodeと符号化を混同してる
ここは同意
>2つ以上のｵｸﾃｯﾄを使う符号単位で
>BOM入れないﾔﾂは池沼だからな
これは嘘

15:デフォルトの名無しさん
18/12/19 00:20:13.76 jOXn0Ht9.net
低学歴知恵遅れには
ｴﾝﾃﾞｨｱﾝの概念がないのが
よおく分かったわ

16:デフォルトの名無しさん
18/12/19 00:28:37.33 t+yG2AJO.net
CPUの内部形式とデータには何の関係もない
現にネットワークデータはCPUとは無関係の並びになってる

17:デフォルトの名無しさん
18/12/19 00:54:40.89 s0UhV0Jg.net
やっぱあれ書いたの半角さんだったんだｗ

18:デフォルトの名無しさん
18/12/19 00:57:03.62 jOXn0Ht9.net
うわあ。。。
ﾏｼﾞでいってんの
こういうﾏｼﾞもんの低学歴がこの板で
はば利かせてるのがよく分かるわ
ﾏｼﾞで頭悪いことを
ﾊｼﾞもなくなんの躊躇もなくいうからな
ﾌﾟﾛｸﾞﾗﾑで
いちいｴﾝﾃﾞｨｱﾝ変換してんのすら
しらないらしいわ
当然Unicodeのｴﾝｺｰﾄﾞ方法にも
ﾋﾞｯｸﾞｴﾃﾞｨｱﾝとﾘﾄﾙｴﾝﾃﾞｨｱﾝがある

19:デフォルトの名無しさん
18/12/19 00:58:18.75 jOXn0Ht9.net
もうね低学歴すぎてﾔﾊﾞｲって
ちなみﾈｯﾄﾜｰｸでﾃﾞｰﾀを交換するときは
暗黙で基本はﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝになってる
常識だからなｺﾚ

20:デフォルトの名無しさん
18/12/19 01:00:17.18 jOXn0Ht9.net
低学歴知恵遅れって
なんでものすごい頭悪いことを
自信満々にいうわけ？

21:デフォルトの名無しさん
18/12/19 01:12:57.34 jOXn0Ht9.net
ちなみipｱﾄﾞﾚｽの並びはﾋﾞｯｸｴﾝﾃﾞｨｱﾝになってる
ﾎﾟｰﾄ番号も当然ﾋﾞｯｸｴﾝﾃﾞｨｱﾝになってる
ｿｹｯﾄ通信のﾌﾟﾛｸﾞﾗﾑ組んだことあるなら
ﾎﾟｰﾄ番号設定するのにhtons（ｺﾚはｵｸﾃｯﾄ2つになる）という関数を使ったことあるﾊｽﾞだ
ちなみにこの関数はﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機なら
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝに変換された値がかえってくる
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの計算機なら
そのままﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの値がかえってくる

22:デフォルトの名無しさん
18/12/19 01:39:07.45 B2A2n/bL.net
半角カタカナはAAにしか見えない

23:デフォルトの名無しさん
18/12/19 06:24:21.16 wJcYDzdz.net
最近の子はバイトオーダーなんて意識しないからな
常識としては知っててほしいがけど
低レベルな処理書かなきゃ関係ないし触れることもないだろうから知らなくても困らんな
アラインメントとかパディングとかも同様

24:デフォルトの名無しさん
18/12/19 12:49:47.13 JIdS0sYR.net
エンディアン嘘つかない

25:デフォルトの名無しさん
18/12/19 16:46:27.07 R6d6JT/9.net
<

26:a href="../test/read.cgi/tech/1544931495/23" rel="noopener noreferrer" target="_blank" class="reply_link">>>23 バイトオーダーを意識する機会が減ったのは、xmlやjsonなどテキスト形式でデータ受け渡しすることが多くなったから。テキスト形式ならバイトオーダーを意識せずに済むし、スクリプト言語で扱うのにも便利。

27:デフォルトの名無しさん
18/12/19 20:30:33.10 gznchIbF.net
いやいや、テキストでもUTF16とかUTF32ならめっちゃ意識するやん。

28:
18/12/19 20:51:34.30 C9bIO99C.net
>>24
豆知識、endian とは？
もともとは、卵を丸い方の端 (big end) から割る人々（Big Endians）と尖った方の端から割る人々 (Little Endians) との対立を表したものだった

29:デフォルトの名無しさん
18/12/20 01:35:41.75 jYg2YnYV.net
そういえばハンプティダンプティの絵文字がない

30:デフォルトの名無しさん
18/12/20 03:36:13.08 Epiz8Tj2.net
バイトオーダーやアラインメントは、C/C++以外の言語でバイナリデータを使おうとした時に強く意識することになる。
C/C++で開発している時はコンパイラが自動的に配置・取得してくれるデータを、スクリプト言語では自力でオフセット調整して配置・取得しなければならない。
C/C++より簡単なことが長所だったはずのC#・Java・Perl・Python言語などで、低レベルなオフセット調節を自力で行う必要に迫られる皮肉な状況が起きる。

31:デフォルトの名無しさん
18/12/20 04:20:27.30 ojhJ7lIE.net
> バイトオーダーやアラインメントは、C/C++以外の言語でバイナリデータを使おうとした時に強く意識することになる。
C/C++言語以外ではライブラリが処理してしまうんで意識しないかな
C/C++ライブラリを呼び出すライブラリを作るときは意識するだろうけど、
それって結局C/C++言語で書くんで、あれ？意識するのはC/C++かｗ

32:デフォルトの名無しさん
18/12/20 06:53:32.14 Epiz8Tj2.net
>>30
例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、アセンブリ並みに低レベルなオフセット調節を自力で行う必要に迫られる。

33:デフォルトの名無しさん
18/12/20 07:18:15.99 ojhJ7lIE.net
× 例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、アセンブリ並みに低レベルなオフセット調節を自力で行う必要に迫られる。
○ 例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、C/C++並みに低レベルなオフセット調節を自力で行う必要に迫られる。

34:
18/12/20 07:37:44.12 W1ypdRwu.net
>>32
うーん、具体的な win32api 名（だけでいいです）を例示してください．

35:デフォルトの名無しさん
18/12/20 07:43:09.20 ojhJ7lIE.net
>>31に聞いてください

36:デフォルトの名無しさん
18/12/20 08:04:20.01 Epiz8Tj2.net
>>32
勝手に書き換えないでもらいたい。
C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが、他の言語だとそうはいかないので、アセンブリと同じようなオフセット調節が必要。
SendMessage(WM_COPYDATA)の送受信データの読み書きなど例はいくらでもある。

37:デフォルトの名無しさん
18/12/20 10:08:25.12 48mnxvPx.net
>>35
>C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが
誰に騙された？

38:デフォルトの名無しさん
18/12/20 13:46:21.36 P4Rv6f7s.net
実行メモリ上はともかく
ファイルやネットワークストリームでLEにするアホいるんか？

39:デフォルトの名無しさん
18/12/20 16:58:53.93 Epiz8Tj2.net
エンディアンもさることながら32/64bit整数の幅調節が厄介。
使っている言語が32/64bitどちら向けでビルドされたものなのかによって構造体メンバのアラインメントを適切に処理する必要が出てくる。
言い換えれば、C/C++で作った構造体をバイト列で渡し、C/C++以外の言語でバイト列を構造体に復元する処理が厄介。
単に構造体の64bit整数メンバだけ気を付けるのではダメで、構造体の全メンバのアラインメントそのものが大きく変わりうることに注意する必要がある。

40:デフォルトの名無しさん
18/12/20 18:26:27.50 6OEKrw3R.net
いや、だからさ、その程度までは理解できてるのに、何故「C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが」なんてことを言っちゃうの？
それとアラインメントの話とバイトオーダーの話を混同しないように気を付けた方がいいよ。

41:デフォルトの名無しさん
18/12/20 19:07:05.38 oZOw2Nhk.net
C/C++しらないけど、魔法のようにアライメントを
勝手に調整してくれるんじゃないの？想像しただけで

42:デフォルトの名無しさん
18/12/20 21:19:19.38 /Up9dRku.net
Unicodeは普通にﾘﾄﾙｴﾝﾃﾞｨｱﾝもありだ
なんで Byte Order Mark(BOM) がﾌｧｲﾙの先頭に入ってるのか分かってない
Javaﾊﾞｲﾄｺｰﾄﾞのcafe babeみたいな飾りだと思ってんの
ﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機ばっかりがあるとこで
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝでﾌｧｲﾙを保存する理由なんかないからな
当然、そういったｺﾝﾃﾝﾂﾃﾞｰﾀがHTTPでも流れてくる

43:デフォルトの名無しさん
18/12/20 21:20:17.21 /Up9dRku.net
やっぱりこの板には
ｸﾙｸﾙﾊﾟｰしかいない
そしてそのｸﾙｸﾙﾊﾟｰの声だけがでかい
やっぱりな低学歴知恵遅れは
この板から排除する必要がある
板が正常に機能しない

44:デフォルトの名無しさん
18/12/20 21:26:52.62 gpCj1726.net
アライメントはふつうコンパイラが適切に調整してくれるよね。
32/64bitで整数サイズの違いでメンバオフセットが変わるってのはアライメントとは別の話。

45:デフォルトの名無しさん
18/12/20 21:31:46.95 /Up9dRku.net
32bitなら
ちゃんと32bitに詰まるように
ﾒﾝﾊﾞの順序かえる

46:デフォルトの名無しさん
18/12/20 21:38:37.03 /Up9dRku.net
char unko
char foo
int aho
short poi
char baka
int manuke
short boo
char woo
↓

int manuke
----
int aho
----
short poi
short boo
----
char unko
char foo
char baka
char woo

64bitでも考え方は同じ
強制ﾊﾟｯｷﾝｸﾞのｵﾌﾟｼｮﾝ使えるｺﾝﾊﾟｲﾗもある

47:デフォルトの名無しさん
18/12/20 21:42:31.32 oZOw2Nhk.net
今問題としてるのはファイルの話だ。
32bitシステムで作られたファイルを64bitシステムに
持ってきたとしてもファイルの内容が変わるわけじゃない
つまりC/C++で32bitでint型で扱っていたからと言って
64bitでもint型で扱ってはいけないということだ

48:デフォルトの名無しさん
18/12/20 21:44:56.46 /Up9dRku.net
ﾊﾞｶがよくやる誤りは
ﾒﾓﾘ境界をまたぐ位置で64bit値を参照したりして
ﾊﾞｽｴﾗｰを起こす

ｼﾘｱﾗｲｽﾞﾃﾞｰﾀを直に参照できると思ってるﾊﾞｶがあとをたたない
CISCの計算機しか使ったことないｻﾙ並の脳みそのﾔﾂがよくやる

49:デフォルトの名無しさん
18/12/20 21:53:38.53 /Up9dRku.net
そんなﾌｧｲﾙ読み込むときに
普通にintなんか使わないからな
そんなことは低学歴知恵遅れしか発想できない

utf16なら16bit単位(uint16_t)
utf32なら32bit単位(uint16_t)
で読み込む
ﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機で
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝのUnicode読む場合は
16bit単位なら16bit単位でｵｸﾃｯﾄ列の並びを逆転させる
32bit単位なら32bit単位でｵｸﾃｯﾄ列の並びを逆転させる
ﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機で
ﾘﾄﾙｴﾝﾃﾞｨｱﾝのﾌｧｲﾙ読み込むならｵｸﾃｯﾄ列の並びを逆転させる必要はない
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝならその逆になる
低学歴知恵遅れはこういった基本的な理解がない

50:デフォルトの名無しさん
18/12/20 21:59:01.65 gpCj1726.net
>>45
C/C++の規格じゃ構造体のメンバは宣言された順にアドレスが増加するよう並べられることになっている。
仮に >>45のような最適化を行うことができる処理系が存在したとしても、一般的と言えるものではない。

51:デフォルトの名無しさん
18/12/20 21:59:21.79 KozHiIkR.net
one little two little three little endians

52:デフォルトの名無しさん
18/12/20 22:00:12.93 /Up9dRku.net
だからそう書いてる
手動で自分で並べ替える

53:デフォルトの名無しさん
18/12/20 22:12:47.37 gpCj1726.net
自分で並べ替えろって話か。それは勘違いした、すまん。

54:デフォルトの名無しさん
18/12/20 22:23:36.55 tzmwAGAt.net
結局C/C++でもアライメント意識して、自分で適切な型を選択しているってわけさ
他の言語でも一緒。ただし型が違うからバイト数を指定するだけの話

55:デフォルトの名無しさん
18/12/20 23:02:54.77 Epiz8Tj2.net
PGならば、楽するためにJava/C#/Python/Perl/Rubyなどを使ってたはずなのに、C++よりめんどくさくなって心が折れそうになる経験を一度はしておいたほうがいい。

56:デフォルトの名無しさん
18/12/20 23:23:21.93 tzmwAGAt.net
いや、C++よりも面倒なことってないから
そんな経験するのは無理だよ

57:デフォルトの名無しさん
18/12/20 23:49:16.62 /Up9dRku.net
やはり低学歴知恵遅れには
C++はむり
ﾚｽみればよく分かる
ﾚｽから頭の悪さがにじみ出てる
低学歴のﾚｽはすぐにわかるわ
残念なことに

58:デフォルトの名無しさん
18/12/21 12:36:36.76 C7PBMVlX.net
データのアラインメントはどんな言語を使うにしても気にする必要がある。
しかし、Windows が VisualC++ でビルドされていて、VisualC++
もしくは互換のアラインメントができる言語でアプリを組めば、
気にしなくてもよい、ということだけだろう。

59:デフォルトの名無しさん
18/12/21 14:56:12.53 wVAQd9sY.net
>>57
gcc も同じだよ。64bit版linux gccはwchar_tを16ビットにするか32ビットにするかを切り替えビルドできるからさらに厄介。
構造体を丸ごとダンプしたバイナリデータを同じOS上の別プロセスに渡すのは繊細な注意がいる。

60:デフォルトの名無しさん
18/12/21 16:01:10.01 2iFVCAc3.net
で、なんだっけ？バイナリファイルのデータが
16bitで格納されていようが32bitで格納されていようが
C/C++だったらアライメントを勝手に調整してくれるんだっけｗ
へー、勝手にねー、intで扱ってれば、勝手に調整してくれるんだーｗ

61:デフォルトの名無しさん
18/12/21 16:43:13.79 wVAQd9sY.net
intが16bitの組み込み向けプログラムであっても同じコンパイルオプションで作ったモジュール同士ならバイナリの復元はC言語の型キャストだけで可能。
構造体が仕様として公開されている場合、どの言語であれアラインメントを意識した実装が必要になるが、C言語は実装コストが最も低くなる傾向はある。
スクリプト言語を使う人がアラインメントを意識せずにすんでいるのは、ライブラリ実装した人が頑張ってくれた・くれているおかげ。

62:デフォルトの名無しさん
18/12/21 17:01:59.77 2iFVCAc3.net
一方他の言語では、指定したオフセットから何バイト読み込むか指定するだけなのであった

63:デフォルトの名無しさん
18/12/21 17:02:51.29 2iFVCAc3.net
C言語は、ヘッダファイル書いた人が頑張ってくれた・くれているおかげ

64:デフォルトの名無しさん
18/12/21 17:23:19.85 wVAQd9sY.net
>>61
先生。指定したオフセットから何バイト読み込むか指定する作業は、まさにアセンブラと同レベルの作業じゃありませんか。違いますか、先生。

65:デフォルトの名無しさん
18/12/21 17:47:28.44 2iFVCAc3.net
>>63
違いますね。memcpy相当ですから

66:デフォルトの名無しさん
18/12/21 18:13:53.48 ORTv1gtC.net
低学歴知恵遅れ先生はC/C++スレだけじゃなくてここにもくるようになったのか

67:デフォルトの名無しさん
18/12/21 21:50:05.59 0muy2Btq.net
>>65
色んなところにいるよ

68:デフォルトの名無しさん
18/12/21 22:02:28.52 SVNbSsFy.net
相変わらず日本語の読解に問題がありそうな奴がいるなぁ。

69:デフォルトの名無しさん
18/12/21 23:50:03.63 j37Ohb1y.net
まず低学歴知恵遅れは
低学歴知恵遅れの自覚がないからな

70:デフォルトの名無しさん
18/12/22 11:38:13.24 boWDflNh.net
実行時に使用中のCPUがLEかBEかを判定するプログラムを
Cでサンプル欲しいのですがどこかにありますか？

71:デフォルトの名無しさん
18/12/22 13:36:46.26 aa5NQG9N.net
bool is_bigendian() {
　return htons(1) == 1;
}

72:デフォルトの名無しさん
18/12/31 08:52:03.67 Tj5kujd4.net
C1制御文字の<128>って多くの文字コードで「PAD」と名付けられているのに
UnicodeでのU+0080はxxxみたいに無名なのって理由ある？

73:デフォルトの名無しさん
18/12/31 13:29:33.60 8Z6ezMyM.net
U+0080,U+0081,U+0084,U+0099は、ISO6429/ECMA-48で制御文字に含まれていない
というか削除されてる
URLﾘﾝｸ(www.ecma-international.org)
URLﾘﾝｸ(www.ecma-international.org)
WikipediaソースによるとUnicode初期ドラフトにはU+0080も入っていたみたいなことも書かれてるね
URLﾘﾝｸ(en.wikipedia.org)

74:デフォルトの名無しさん
19/01/01 01:45:48.02 kXQfWbAp.net
なんてこった
エイプリルフールだって？

75:デフォルトの名無しさん
19/01/01 23:58:04.80 j16q/z48.net
あけましておめでとうございます
2019年は何が起きるかしらね

76:デフォルトの名無しさん
19/01/02 00:20:17.09 R6tFufwf.net
エイプリルフールはまだだけど元号ネタとかあるだろうな
新元号『NEO平成』に決定みたいな

77:デフォルトの名無しさん
19/01/02 11:30:40.86 6YX6jwF2.net
新元号『��』

78:デフォルトの名無しさん
19/01/02 22:33:06.92 Fz1uszjs.net
新元号が分からなくてグリフが間に合わないからUnicode 12.1を出すってのは仕方ないけど
新元号の組字のためだけにAdobeJapan1を改訂するってのは馬鹿げてる

79:デフォルトの名無しさん
19/01/03 00:28:36.38 agNiXwq6.net
元号は安晋に内定してるだろ

80:デフォルトの名無しさん
19/01/03 09:15:51.35 IESB6EpY.net
MS-DOS でのプログラミングではメモリ内の特定のバイトについて
文字の中の何バイト目かを 1 バイトずつ遡って調べるということも
あったようだけど自分ではそういうコードを書いた記憶がない。
いや、もしかしたらあったのかもしれないけど。
EUC-JP の場合は ASCII なバイトかシングルシフトが現れた時点で
確定するようだけど。Unicode の時代になって良かったね。
まあ、そんなようなことを今更思った。あけましておめでとう。

81:デフォルトの名無しさん
19/01/03 21:04:56.87 ejflNGhp.net
>>72
ありがとう。
なにか事情があったんだろうけど、なんだろうね……。

82:デフォルトの名無しさん
19/01/04 13:59:50.88 8DNHKlb4.net
あけおめ
 >>79
大昔のことだけど、SJIS 文字列の末尾から検索するプログラム書いてた時は「SJIS、お前はマジで殺す」という気持ちで一杯でした。
もう二度とあんなことはやりたくない。

83:79
19/01/04 17:36:17.24 opswFKCW.net
ありがとう、まさにそういうことです。
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */

84:デフォルトの名無しさん
19/01/04 18:54:02.55 3Gm4cMvD.net
Windows環境ならそこは _mbschr() でしょ。

85:デフォルトの名無しさん
19/01/04 19:30:16.38 EMYjNY+E.net
UnicodeはSJISよりも扱いが複雑だけど
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう

86:デフォルトの名無しさん
19/01/04 21:30:36.38 atCGQoq2.net
複数コードポイントで1文字を表すのって上限って決まってないの？青天井？

87:デフォルトの名無しさん
19/01/04 22:02:58.14 rG/yv5Zr.net
UTF-8なら、最大四バイトだけど、そういうことじゃなくて？

88:デフォルトの名無しさん
19/01/04 22:11:30.43 FtJLKwOD.net
>>86
先ずコードポイントの意味を理解してから質問した方が良い

89:デフォルトの名無しさん
19/01/04 22:27:33.32 atCGQoq2.net
なんかごめん

90:デフォルトの名無しさん
19/01/04 23:45:49.70 EMYjNY+E.net
>>86
最大4バイトじゃないよ
漢字1文字が最大8バイト、Unicodeの「IVS」とは？
URLﾘﾝｸ(tech.nikkeibp.co.jp)
Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理
もし自力で文字数をカウントしたいならこれとか読んで頑張れ
URLﾘﾝｸ(www.kthree.co.jp)

91:デフォルトの名無しさん
19/01/04 23:54:23.74 EMYjNY+E.net
ZWJシーケンスというのもあるね
URLﾘﾝｸ(qiita.com)
見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。

92:デフォルトの名無しさん
19/01/05 00:00:08.40 41KVD0qa.net
URLﾘﾝｸ(unicode.org)
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね

93:デフォルトの名無しさん
19/01/05 00:03:32.79 fLBZxFEd.net
合成文字・絵文字とかが絡むともっと地獄になるけどな
URLﾘﾝｸ(tech.albert2005.co.jp)
URLﾘﾝｸ(qiita.com)

94:デフォルトの名無しさん
19/01/05 00:03:39.55 41KVD0qa.net
ZWJを使うと最大11文字だって。
URLﾘﾝｸ(n2p.co.jp)

95:デフォルトの名無しさん
19/01/05 00:07:24.29 41KVD0qa.net
Unicodeは1文字の概念も破綻しちゃったね
1文字に見えるやろ？でもこれは11文字なんや
全く意味がわからないｗ

96:デフォルトの名無しさん
19/01/05 00:11:16.35 41KVD0qa.net
見た目上の1文字は最大4バイト×11文字で44バイトなのかな？ｗ
11文字ってのは今現在存在する最大が11文字ってだけで青天井？
もうライブラリ使ってないと無理だね

97:
19/01/05 00:12:47.39 F8+3E8Pf.net
世の中にあるすべての文字をコード化してやる！
という意義には賛同していたんですけれども、（主に経済的理由により）絵文字が入った時点で失望してしまいました…
仕切りなおしたほうがいいんじゃないですか？

98:デフォルトの名無しさん
19/01/05 00:38:07.30 198zQJKz.net
仕切りなおしてもBCで絵文字は入ります。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。

99:デフォルトの名無しさん
19/01/05 00:46:41.68 fLBZxFEd.net
仕切りなおすどころかUnicodeの規格がさらに拡張されて状況悪化するんだろうなあ
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし

100:デフォルトの名無しさん
19/01/05 01:28:42.81 41KVD0qa.net
絵文字は象形文字の発展版なんだから
文字扱いするのは当然

101:デフォルトの名無しさん
19/01/05 12:51:39.06 l3tIMYns.net
現代の文字は自然発生するわけでも王朝が発布するわけでもなくユニコードコンソーシアムが追加するのだ

102:デフォルトの名無しさん
19/01/05 13:09:21.22 Lsf8iZgV.net
>>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか

103:デフォルトの名無しさん
19/01/05 15:08:59.93 WAT5i9L3.net
世界が認めたニッポンのスゴーイ文化やぞ

104:デフォルトの名無しさん
19/01/05 15:19:11.13 dE0KuiGH.net
当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……

105:デフォルトの名無しさん
19/01/05 16:29:31.32 XzO5Y/Fl.net
1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。

106:
19/01/05 17:03:40.22 F8+3E8Pf.net
>>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは？
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか？

107:デフォルトの名無しさん
19/01/05 17:24:42.05 41KVD0qa.net
はい

108:デフォルトの名無しさん
19/01/05 19:28:07.65 2yRzjNJO.net
便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ

109:デフォルトの名無しさん
19/01/06 10:52:08.85 6OQPByjN.net
田穣崇さん『ドコモの絵文字にうんちを入れたかったのですが、社内で大反対されまして…』うんちの絵文字がUnicodeに登録されるまでの裏話
URLﾘﾝｸ(togetter.com)

110:デフォルトの名無しさん
19/01/09 21:32:33.71 Duz5lH4D.net
うんちにも色バリエーションつけたいなあ

111:デフォルトの名無しさん
19/01/10 11:56:03.90 +qf2Eno1.net
カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった

112:デフォルトの名無しさん
19/01/10 14:02:26.62 LOQSfV+x.net
形状バリエーションも欲しい
巻きうんち/一本糞/ビチグソ

113:デフォルトの名無しさん
19/01/10 18:35:20.73 1lL5sq44.net
POO WITH TURBANとかもほしい

114:デフォルトの名無しさん
19/01/14 01:16:50.95 s6eFaywu.net
U+FFFCとU+FFFDの違いってなんだろう。
一応URLﾘﾝｸ(www.unicode.org)←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな？

115:デフォルトの名無しさん
19/01/14 11:40:16.54 tN6VIVTj.net
Unicodeですらないのに「

116:U+～」という表記はこれ如何にｗ

117:デフォルトの名無しさん
19/01/15 16:00:55.99 exaSay/9.net
Replacement Characters: U+FFFC–U+FFFD
U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.
U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.

118:デフォルトの名無しさん
19/01/15 18:43:18.89 cLBK0jiu.net
>>115
sorry Japanese only please

119:デフォルトの名無しさん
19/01/15 20:15:36.54 XDACXjEE.net
>>116
なんで卑屈なの？

120:デフォルトの名無しさん
19/01/16 11:07:49.88 vTKVQdGX.net
朝鮮人クオリティ

121:デフォルトの名無しさん
19/01/17 14:01:24.86 yxSqAYIN.net
消えゆく「黒電話」マーク…時代とともに変化
URLﾘﾝｸ(www.sankei.com)

122:デフォルトの名無しさん
19/01/17 14:27:36.24 fAu7Qwle.net
一方、保存ボタンには相変わらずフロッピー��

123:デフォルトの名無しさん
19/01/17 21:08:16.21 rro3H2AR.net
今はこうですよ
URLﾘﾝｸ(www.appps.jp)

124:デフォルトの名無しさん
19/01/17 21:10:53.89 1NGaj4L3.net
ダウンロードかな

125:デフォルトの名無しさん
19/01/18 04:13:25.86 6U5tZjv3.net
山
↑
の方が合ってると思うけど
現実は
↓
下載

126:デフォルトの名無しさん
19/01/18 15:39:10.11 XYduBDiM.net
直訳かよ

127:デフォルトの名無しさん
19/01/19 00:58:09.98 cLBGydY8.net
>>115
これ使われてるの？

128:デフォルトの名無しさん
19/01/19 01:02:48.22 TqFwYkHH.net
使われてるよ

129:デフォルトの名無しさん
19/01/20 06:25:45.86 kFywruI2.net
>>115
んーつまり基本的にはU+FFFDを使っとけばいいのかな。
マジで英語が読めんので当てずっぽうだがw

130:デフォルトの名無しさん
19/01/20 19:36:07.54 GM/wkhUD.net
FFFC はオブジェクト用。変換のときに絵でも音楽でも写真でも、主に文字以外のものが埋め込まれていた場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。

131:127
19/01/21 07:51:07.97 uncS2Ppy.net
>>128
なるほど「オブジェクト」ってそういう意味か！
ありがとう。
つまり基本的に（Unicode環境で）「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
（Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし）

132:デフォルトの名無しさん
19/01/21 10:29:40.20 z/MdI8Lw.net
そもそも外部に公開するドキュメントにU+FFFC,U+FFFDが存在すべきでないということでは。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。

133:
19/01/22 01:05:00.00 zFHfz07h.net
漢字コードのことでわからなくなりましたので質問いたします。
よろしくお願いいたします。
URLﾘﾝｸ(pc.watch.impress.co.jp)
＞文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
＞たとえばUnicodeならあらゆる言語の文字を混在させることができる。
＞Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、
これって本当ですか？
私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか？

134:デフォルトの名無しさん
19/01/22 02:31:06.16 leGefjnc.net
字体とか書体を文字としてどう考えるか、で答えが変わるだろ

135:
19/01/22 02:34:15.81 zFHfz07h.net
>>132
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
①：同一文書に含ませることは可能でしょうか？②：①が可能であったとして、PC の画面にて同時に表示することは可能でしょうか？

136:デフォルトの名無しさん
19/01/22 02:59:07.23 leGefjnc.net
どっちも可能

137:デフォルトの名無しさん
19/01/22 07:59:46.55 Um5Ij+zI.net
新しめのブラウザでUTF-8の文書を書いて、中国圏の自体にしたい文字を
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。

138:デフォルトの名無しさん
19/01/22 13:07:54.27 /wbMKv3O.net
>>131
こいつはプログラマじゃないからな
かなり適当な理解で記事描くな

139:デフォルトの名無しさん
19/01/22 14:56:00.21 SJtsjRub.net
>>131
Unicodeは全世界の文字に対応した文字コード
混在して使えるのは当たり前

140:デフォルトの名無しさん
19/01/22 23:10:13.56 MZI8yiK5.net
>>133
より正確に言えば、
保存するときにローカルの文字コードに変換してるソフトかもしれないのでそのソフトの仕様による
例えば英文フォントしかないPCだと漢字は表示できないだろうから表示できるかどうかは環境による
だろう
 >>131
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ

141:デフォルトの名無しさん
19/01/23 08:37:00.98 bn3mLL6F.net
>131
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。

142:デフォルトの名無しさん
19/01/23 08:38:04.03 bn3mLL6F.net
あちゃー。unicode文字が全部?になってしまった。

143:デフォルトの名無しさん
19/01/23 12:18:22.13 djVGMpuO.net
>>138
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
縄文時代の日本語が文字コードで表せるならばUnicodeで表せる

144:デフォルトの名無しさん
19/01/23 20:08:35.75 9uGbsXCn.net
>>141
文字がないのに文字コード化できるの？

145:デフォルトの名無しさん
19/01/23 23:59:31.81 einaVBCe.net
漂流する論点

146:デフォルトの名無しさん
19/01/24 10:44:11.21 TePOwsZ1.net
論点ずらしは朝鮮人のはじまり

147:デフォルトの名無しさん
19/01/24 14:09:11.07 CmuJPGgn.net
>>142
俺に言うな。>>138に家
縄文時代の日本語を混在できないとしたら、
それは例えば「文字がない」ことなのに、
Unicodeだから無理みたいな言い方してるんだから

148:デフォルトの名無しさん
19/01/24 14:37:04.33 YqEq6vd1.net
Unicodeだからできないなんて、誰も言ってないと思うのだが。
被害妄想にとりつかれた朝鮮人みたいだな。

149:デフォルトの名無しさん
19/01/24 14:59:51.89 CmuJPGgn.net
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
じゃ、この発言で言いたかったことは何だって言うの？
「私（>>138）は馬鹿です。」以外に何も思いつかないんだが

150:デフォルトの名無しさん
19/01/24 23:03:59.13 YqEq6vd1.net
>>147
>じゃ、この発言で言いたかったことは何だって言うの？
（unicodeならすべての言語を混在できるという話しを受けて）
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理
だろ。他に何があるってんだ？

151:デフォルトの名無しさん
19/01/25 11:58:11.28 Syn0T0uw.net
横からすまんが元レスをたどると >>131「あらゆる言語の文字を混在させる」だぞ。
それを >>138がしょっぱなから「あらゆる言語を文字で混在させる」に読み違えてるように思える。

152:デフォルトの名無しさん
19/01/25 12:36:50.26 EnRgcOgq.net
宇宙の惑星や生命体の多さから言って
UNICODEじゃ全然足りないのは明らか

153:デフォルトの名無しさん
19/01/25 14:50:56.20 fW+xzaQf.net
>>148
縄文時代の日本語ってなに？
参考リンク教えて

154:デフォルトの名無しさん
19/01/25 21:01:41.10 Syn0T0uw.net
これ誰かがわざと論点動かして遊んでるだけだな…

155:デフォルトの名無しさん
19/01/25 21:59:31.32 cTfFLjRM.net
>>149
だから文字のない言語は無理だろ？
という話だけなのに、なんでひねくれてるの？

156:デフォルトの名無しさん
19/01/26 15:18:19.02 yVAkGzul.net
>>152
朝鮮人メンタル

157:デフォルトの名無しさん
19/01/26 17:43:06.71 +ikAikUs.net
なぜ文字コードスレで文字の無い言語の話をしようと思ったのか

158:デフォルトの名無しさん
19/01/27 20:08:40.52 fsCM9HoX.net
そこに文字がないから

159:デフォルトの名無しさん
19/01/28 17:43:32.30 2/HZJEKq.net
win32apiスレ荒すな！

160:デフォルトの名無しさん
19/01/29 08:22:23.73 NccK+bbj.net
なんか旧かなキチガイと同じ臭いがする

161:デフォルトの名無しさん
19/02/01 11:28:25.54 FNQUOW/0.net
いきなりですが質問失礼します
とあるオンラインゲームをやってまして
そこで名前のソートの規則から、そのゲームが採用している文字コードの符号化方式を知りたいのですが
各コードにおいての文字の並びと、実際のゲーム内での文字のならびに違いがあったので素人の私にはお手上げ状態です
素人なりに6時間ほどぐぐってみたりしたのですが、それらしい符号化方式は特定できませんでした
スプレッドシートに、ゲーム内で実際にソートされていた文字を順番も合わせてまとめました
文字コードや符号化のスペシャリストのみなさんにこれを見てもらって、一番近い符号化方式をお教えいただけたらうれしいです
文字ソートまとめ、上から下に向かって昇順になっています
URLﾘﾝｸ(docs.google.com)
それではよろしくお願いします

162:デフォルトの名無しさん
19/02/01 11:40:45.63 FNQUOW/0.net
このサイトを参考に文字コード引っ張って来てみました
URLﾘﾝｸ(ash.jp)
区点 JIS SJIS EUC UTF-8 UTF-16 字
01 86 2176 8196 A1F6 EFBC8A FF0A ＊
84 06 7426 EAA4 F4A6 E78699 7199 熙
17 77 316D 898D B1ED E78795 71D5 燕
44 80 4C70 96EE CCF0 E79FA2 77E2 矢
27 71 3B67 8E87 BBE7 E7B4AB 7D2B 紫
01 49 2151 8170 A1D1 EFBD9D FF5D ｝
ゲーム内では熙　燕　矢　紫の順にソートされており
引っ張ってきた文字コードを見ると、数字と文字のソート関係が昇順で一致していたのがUTF-8かUTF-16だったので
その2つかな？と思ったのですが、実際にそれらの符号化のサイトを見てみたら、ゲーム内のソートとはまた違う規則性のようでした
実験として、符号化の一番値の大きい文字である「FF5D ｝」を文字として使ってみたところ
先の4つの漢字の下にソートされたのでUTFあたりが近そうなのですが、それ以上は素人にはわからないので困ってしまっている状況です。
どうかご助言の方なにとぞよろしくお願いします。

次ページ