文字コード総合スレ part14

文字コード総合スレ p ..

86:デフォルトの名無しさん
23/03/08 19:22:53.32 Gpe8bqC5.net
>>81
ひと昔前の海外OSSのソースコードやドキュメントはCP1252(latin)が当たり前だったな
いつのまにかUTF8で統一されたように感じるのはなぜだろう

87:デフォルトの名無しさん
23/03/08 19:41:48.35 LcRKYHDN.net
>>86
淘汰された

88:デフォルトの名無しさん
23/03/08 20:01:21.53 fd4vfZJd.net
なんでだと思うんだ？😠

89:デフォルトの名無しさん
23/03/08 20:46:09.77 Czf7FTOV.net
nginxの台頭
当時はこぞってドキュメントを原文で輪読してたとか

90:デフォルトの名無しさん
23/03/09 18:57:54.79 WLy5E3Kl.net
なんで？って一瞬思ったけどロシア製だからか
koi8?cp1251どっちだとしても非キリル文字圏のwindowsだと辛いね

91:デフォルトの名無しさん
23/03/11 08:34:25.16 4eNVcbJV.net
VS Code と PowerShell でのファイルのエンコードの概要
URLﾘﾝｸ(learn.microsoft.com)
システムやアプリケーションごとに使用しているエンコードが異なる可能性があります。
・現在、.NET Standard、Web、Linux の世界では、UTF-8 が主流のエンコードです。
・多くの .NET Framework アプリケーションは UTF-16 を使用しています。歴史的な理由から、これは "Unicode" と呼ばれることもあり、現在では UTF-8 と UTF-16 の両方を含む広範な標準を指しています。
・Windows では、Unicode より前のネイティブアプリケーションの多くが既定で Windows-1252 を使用し続けています。
BOM はオプションであり、Linux の世界ではそれほど採用されていません。UTF-8 の信頼性の高い規則があらゆるところで使用されているためです。ほとんどの Linux アプリケーションでは、テキスト入力が UTF-8 でエンコードされていると想定されています。多くの Linux アプリケーションは BOM を認識して正しく処理しますが、認識しないものもあります。そのため、そのようなアプリケーションで処理されたテキストにアーティファクトが生じます。
したがって:
・主に Windows アプリケーションと Windows PowerShell を使用している場合は、BOM ありの UTF-8 または UTF-16 のようなエンコードをお勧めします。
・複数のプラットフォームにまたがって作業する場合は、BOM ありの UTF-8 をお勧めします。
・主に Linux 関連のコンテキストで作業する場合は、BOM なしの UTF-8 をお勧めします。
・Windows-1252 とラテン-1 は基本的にレガシエンコードであり、できれば避けてください。ただし、一部の古い Windows アプリケーションではそれらに依存している可能性があります。

92:デフォルトの名無しさん
23/03/11 09:00:57.05 qx2T+jGN.net
LinuxはBOMをうまく扱えないんやな

93:デフォルトの名無しさん
23/03/11 10:23:36.62 5Ex6umnL.net
UNIX はパイプで複数のデータストリームが一つになったりするので，
データストリームの「先頭」とは何かがはっきりしないよね
tar のデータストリームとかどうするんだろうね

94:デフォルトの名無しさん
23/03/11 10:42:53.36 2IDu8ors.net
そういいながら、結局 PowerShell の新しいバージョンからデフォルトを BOM無しUTF-8 に変更してきたのがマイクロソフト流儀だけどな。
時代の流れは早いお。

95:デフォルトの名無しさん
23/03/11 15:13:41.78 Q9SpWajK.net
>>93
そもそもtarはバイナリだ。テキストファイルじゃねーよｗ

96:デフォルトの名無しさん
23/03/11 19:53:47.04 5Ex6umnL.net
ファイル名とか入ってるけど，そのファイル名の先頭にBOMつけるの？

97:デフォルトの名無しさん
23/03/11 19:54:34.90 WfuE5Qpv.net
Windows技術者「お前ぇぇ、WindowsアプリではBOMつきUTF-8 使えって言ってたじゃん。なんでVScodeやPowerShellの新しいの BOMなしなの？」
MS「BOMつきは昔の話」
俺「......

98:デフォルトの名無しさん
23/03/11 20:33:35.60 iJEvXpew.net
>>97
何かおかしいかな？

99:デフォルトの名無しさん
23/03/11 20:42:13.29 66SSApNW.net
tar扉を開く

100:デフォルトの名無しさん
23/03/11 23:21:38.53 Q9SpWajK.net
>>97
Linuxにも対応してるからだろ
ちょっとアホすぎやろ

101:デフォルトの名無しさん
23/03/11 23:22:42.03 Q9SpWajK.net
>>96
BOMはテキストファイルの頭につけるものなの
tarはテキストファイルか？違うだろ。アホすぎ。

102:デフォルトの名無しさん
23/03/12 00:00:06.48 Or/mO0pv.net
へえ
tarはただ元のファイルにヘッダをつけてひたすら結合するだけという認識だったんだけど
こういうファイルもバイナリファイルって呼ぶべきものなのかな
BOMつきテキストファイルならBOMつきのまま無圧縮で格納されちゃうものかと思ってたんだが
tar化するときにはファイルの先頭じゃなくなるから除去されちゃうの？
で展開するときにはまた自動でBOMがついちゃうの

103:デフォルトの名無しさん
23/03/12 00:02:44.53 Or/mO0pv.net
途中送信しちゃったけど、
もしBOMの付け外しまでフルオートでよしなにやってくれるとしたらtarコマンドって随分と賢いんだね
そんなｸｿめんどくさい考慮せずに済ませるほうがよっぽど楽だろうに

104:デフォルトの名無しさん
23/03/12 00:46:06.01 Cuf4mGT0.net
おちつけ
最近の tar は gzip やその他の圧縮なんか対応してたりする賢い tar で便利に使われてるので人によって認識にいろいろ違いが出るのは仕方ない。
もともと tar は tape archiver で、磁気テープにファイルを読み書きするためのツールでバイナリとかテキストとか気にしない。
というか unix 系のツールにはバイナリとテキストを区別しないやつが多い。
「それバイナリやろ」とか、「それテキストやろ」とか言われれも、「何の違いが？」ってなる。

105:デフォルトの名無しさん
23/03/12 01:06:11.40 8ghP4JCw.net
圧縮されていようがいまいがこんな発想が出てくるのはただものではない

106:デフォルトの名無しさん
23/03/12 05:16:54.72 C6Uwumzj.net
>>94 >>97
MicrosoftもBOM無しUTF8へと移行をどんどん進めてるね
Microsoft以外の一般環境だとBOM無しUTF8で統一されてしまったからね

107:デフォルトの名無しさん
23/03/12 05:55:05.23 LPnCxw27.net
というか、MicrosoftとLinux以外のOSがなくなってしまったんだぜ
あとmacOSが残ってるか

108:デフォルトの名無しさん
23/03/12 09:21:56.46 zZ3L0xxp.net
そういえば、テキストだけ特別な扱いはしたくないからBOMは入れてくれるなという主張はわからんでもないが
とあるそこそこ有名なOSSは逆にストリームの先頭の EF BB BF を強制的に削るという強硬策をとってたな。

109:デフォルトの名無しさん
23/03/12 09:39:57.05 LPnCxw27.net
今はテキストファイルの話をしてる
ストリームの仕様は関係ない話だ

110:デフォルトの名無しさん
23/03/12 10:13:38.29 Cuf4mGT0.net
あほだな。テキストのストリームとか言われたら死にそうだな。

111:デフォルトの名無しさん
23/03/12 15:01:05.66 JTWw5hHO.net
UNIXはバイトストリームしかない中古品
C言語もWindows向けと違ってテキストモードとか実装して当然ものすら無いし

112:デフォルトの名無しさん
23/03/12 16:18:15.25 C6Uwumzj.net
>>111
レイヤの区別をできない素人かよ

113:デフォルトの名無しさん
23/03/12 17:11:02.31 SD5cjZL3.net
Windows の改行コードが 0D0A なのはMSDOS の名残
C言語の \n は1バイトなのだが，これを2バイトでも処理できるように
苦し紛れに作ったモードがテキストモード

114:デフォルトの名無しさん
23/03/12 21:43:16.22 JTWw5hHO.net
Why is the line terminator CR+LF?
URLﾘﾝｸ(devblogs.microsoft.com)
This protocol dates back to the days of teletypewriters. CR stands for “carriage return” – the CR control character returned the print head (“carriage”) to column 0 without advancing the paper. LF stands for “linefeed” – the LF control character advanced the paper one line without moving the print head. So if you wanted to return the print head to column zero (ready to print the next line) and advance the paper (so it prints on fresh paper), you need both CR and LF.
If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP), you’ll see that they all specify CR+LF as the line termination sequence. So the the real question is not “Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?” but rather “Why did other people choose to differ from these standards documents and use some other line terminator?”
Unix adopted plain LF as the line termination sequence. If you look at the stty options, you’ll see that the onlcr option specifies whether a LF should be changed into CR+LF. If you get this setting wrong, you get stairstep text, where
each
　　line
　　　　begins
where the previous line left off. So even unix, when left in raw mode, requires CR+LF to terminate lines. The implicit CR before LF is a unix invention, probably as an economy, since it saves one byte per line.

115:デフォルトの名無しさん
23/03/12 22:44:50.34 myYPYrxB.net
こんなスレにおるのはほぼオッサンなんだけど
キミに学びがあったのならよかった

116:デフォルトの名無しさん
23/03/12 22:58:02.67 Cuf4mGT0.net
最後の方の Unix の記述は間違いだな。ちゃんと調査せずに適当な風説を元に回答したようだ。

117:デフォルトの名無しさん
23/03/12 23:20:28.70 Cuf4mGT0.net
1) 大昔の teleprinter/teletypewriter では CR+LF で改行にしていた。違うのもあった。
2) それを引き継いでビデオ端末の多くが CR+LF を改行にしていた。違うのもあった。
3) デバイスに直接出力していた古いOSや、OS無しの低機能のシステムではデバイスの多数派に合わせて CR+LF を改行コードにした。
4) Multics ではデバイス・ドライバーで出力先デバイスに合わせて改行処理を変更する機能があるので、デバイスに依存しない抽象化された文字コードを採用することにした。
5) このときに、当時の ISO 646 のドラフトにおいて LF だけで改行とできる規定があったので、それを採用した。
6) unix はこの Multics の仕様を引き継いだ。
#）一方で CP/M はデバイス・ドライバーによる抽象化などの高度な機能は無かったので、CR+LF を改行コードにするしかなかった。MS-DOS および MS-Windows はこの仕様を引き継いだ。

118:デフォルトの名無しさん
23/03/13 03:18:43.79 7nq5QUJ1.net
>>113
タイプライターの名残やろ

119:デフォルトの名無しさん
23/03/13 09:07:24.07 g2KgZszC.net
CP/Mのパクリをしなければ改行にCR+LFを採用する必要はなかった
まあこのパクリのおかげでCP/M86に勝ったんだけどね

120:デフォルトの名無しさん
23/03/13 11:13:13.34 bF2IN6wD.net
レトロmac: "CR" ぼくも忘れないで

121:デフォルトの名無しさん
23/03/13 13:38:04.06 L8qxRZDz.net
>>120
お前は深く考えてない玩具 Apple II の文字コード継承しただけじゃないか？正直に白状したまえ。

122:デフォルトの名無しさん
23/03/13 14:36:51.97 7nq5QUJ1.net
Macはワンボタンが素晴らしいと思ってるし、画面下にアプリ切り替えバーなんていらないし、UNIXなんてクソだからCRを使った

123:デフォルトの名無しさん
23/03/13 21:35:59.50 Lx/25M/K.net
CRはCarriage Returnで行頭に復帰
改行はしない

124:デフォルトの名無しさん
23/03/13 22:29:34.49 bqBi0AM/.net
それ端末の動作だし
だからなんやねん

125:デフォルトの名無しさん
23/03/14 16:02:14.81 ZglUMoKm.net
読むときは CR(単独) が来ようが CR+LF(連続) が来ようが LF(単独) が来ようが LF として処理する
描くときは LF のみ描き込む
これが正しい在り方

126:デフォルトの名無しさん
23/03/14 17:57:34.43 3k2Galku.net
問題はCRとLFとCRLFが混ざっているときだ

127:デフォルトの名無しさん
23/03/14 19:20:49.37 pZL91EEN.net
LF, CR, LF, LF, LF, CR ときたら何行改行するか問題。
CR+LF 派にこれを突きつけると、言行がバグる人が多い。CR+LF派は脳に欠陥があるに違いない。

128:デフォルトの名無しさん
23/03/14 19:52:03.66 euneF1w3.net
>>127
LRの次がCRだったら無視する（読み飛ばす）
CRの次がLFだったら無視する（読み飛ばす）
で問題なし

129:デフォルトの名無しさん
23/03/14 19:53:53.28 f/+ml7jb.net
CRLFで1回、CRで1回、LFで1回だろ？

130:デフォルトの名無しさん
23/03/14 20:20:53.43 pZL91EEN.net
LF派：誰に聞いても同じ回答を返す
CR+LF派：人によって回答が違う。謎のオレオレ理論を説明しだす
CR派：問を無視してアップルへの恨み言を言い始める

131:デフォルトの名無しさん
23/03/14 20:23:34.83 IFFVvzVH.net
BOMは諦めて今度は改行かね

132:デフォルトの名無しさん
23/03/14 20:27:00.01 f6OfJkKw.net
>>131
ﾜﾛﾀ

133:デフォルトの名無しさん
23/03/14 23:03:37.37 YE6RlyDJ.net
CRは先頭位置に戻す
LFは行替え
だから >>127は4行改行して先頭位置になる

134:デフォルトの名無しさん
23/03/14 23:25:04.85 9qcdp0KK.net
>>133
本来はそんなんだけど
タイプライターで打つときにそれだと二動作必要になるので
一動作でcr+lfにするようにした
これが混乱の始まりかも

135:デフォルトの名無しさん
23/03/15 01:01:29.12 GIgi9suE.net
>>133
つまり先頭位置にある時には CR は不要で LF だけで改行すべきで、
毎回 CR+LF を出力している某OSは無駄と言いたいの？
それでは CR+LF 派とは言えないよな？

136:デフォルトの名無しさん
23/03/15 02:30:17.71 ClK12XWK.net
HTTPプロトコルは改行がCR+LFなのはどうして？

137:デフォルトの名無しさん
23/03/15 04:53:01.78 GIgi9suE.net
>>136
まじめに答えると、
SMTPなどの既存のプロトコルを参考にしたから。
で、SMTPがCRLFなのは、インターネット以前の汎用機とか使ったメールシステムとの相互接続性に気を使ったから。
実際のHTMLは場所によってLFだけやCRだけの改行も許されていてかなり複雑なんだが。

138:デフォルトの名無しさん
23/03/15 11:00:18.93 ClK12XWK.net
ほー、ってことはWindowsも
そういった互換性を大切にしてたんだな

139:デフォルトの名無しさん
23/03/15 11:12:26.56 2SW2Y069.net
むしろ >>127なんて通常はあり得ないって事さ

140:デフォルトの名無しさん
23/03/15 12:41:20.81 GIgi9suE.net
>>138
まあ、そうだな。
Windows が大事にしたのは MS-DOS との互換性で、
MS-DOS が大事にしたのは CP/M との互換性で、
CP/M は大昔の汎用機と同じくらい古臭い<BS><BS><BS>シンプルな設計だったというだけだな。

141:デフォルトの名無しさん
23/03/15 22:20:01.44 ClK12XWK.net
UNIXは元々研究用だからね
互換性なんか考えちゃいない
だからUNIXはBSD系とSystemV系に分離した
多くのコマンドの互換性がなくなった

142:デフォルトの名無しさん
23/03/16 00:21:30.90 OI9tXZBe.net
>>141
歴史をまったく知らない素人妄想だな。
Multics で導入されたテキストデータの抽象化とか知ってるか？

143:デフォルトの名無しさん
23/03/16 03:57:32.72 mQ2r18kg.net
http2以降はヘッダに改行なくなったんだね、、、

144:デフォルトの名無しさん
23/03/16 07:48:28.62 svmadcyh.net
>>141
多くのコマンドの互換性ってたかだかオプションが違うくらい
シェルスクリプトでどのバージョンでも対応できた

145:デフォルトの名無しさん
23/03/16 10:25:24.39 6H39TrIH.net
>>142
知ってる。お前のターン。
俺を論破してみせろやｗ

146:デフォルトの名無しさん
23/03/16 10:25:51.36 6H39TrIH.net
>>144
歴史を知らんのねｗ

147:デフォルトの名無しさん
23/03/16 10:41:46.04 rUjwTzLK.net
知ってる→実は何もわかってない
知らんのかね→自分が何も知らない
どうして、こういう知ったかぶりする小学生みたいんな奴が混ざってるんだろう？

148:デフォルトの名無しさん
23/03/16 10:46:31.88 0AiTyYBY.net
コマンドラインにプログレスバーを出したり
固定レイアウトでリアルタイム更新する画面とか
きちんとCRとLFは区別されてるって感じる

149:デフォルトの名無しさん
23/03/16 11:13:17.10 N2/NSeFa.net
BOMは文字コード？
ZWNBSは文字コード？
CRは文字コード？
LFは文字コード？

150:デフォルトの名無しさん
23/03/16 11:31:30.24 6H39TrIH.net
>>147
俺のこと言ってる？
「知らんだろ」っていうやつは、
自分が知らないことを相手に要求して
揚げ足取ろうとしているだけだから
「知ってる」っていうと相手に大ダメージを与えられる
知ってた？

151:デフォルトの名無しさん
23/03/16 14:30:41.33 gF6V1TZr.net
知っとって知らんて言うのは犯罪やぞ

152:デフォルトの名無しさん
23/03/16 14:32:32.77 NwWFe4eh.net
>>150
無知なやつは恥も知らんなwww
自分が知らないから相手も知らないはずwww

153:デフォルトの名無しさん
23/03/16 14:59:26.59 b0tE1S4+.net
UNIX終了wwやはり正義はWindowsだったwwww
Unix is dead. Long live Unix!
URLﾘﾝｸ(www.theregister.com)

154:デフォルトの名無しさん
23/03/16 16:43:13.46 hqbItujU.net
Unix というか Linux に徐々に移行でしょ
メインフレームやスーパーコンピュータはLinux になっちゃたし

155:デフォルトの名無しさん
23/03/16 16:58:32.87 OI9tXZBe.net
>>153
タイトルすらまともに読めてなくてｗ
その記事
IBM が Redhat 買ってこれからは Linux を始めとする unix-like の時代。AIX とかの(旧来の) Unix は終わり。
Windows についてはマイクロソフトも WSL を頑張ってるとしか書かれてない。
そもそも文字コードに何の関係が？

156:デフォルトの名無しさん
23/03/16 17:04:46.17 CqIyXRLu.net
>>141,153
お前 UTF-8 に BOM つけろ君だろ
教養が感じられないあたりがそっくり
主張が通らなかった、腹いせにスレを荒らすな！

157:デフォルトの名無しさん
23/03/16 17:42:30.76 6H39TrIH.net
>>156
アホ化。逆だわ
UTF-8にBOMつけるな
あれはMSが歪めた仕様
元々はバグだ
シランなら黙っとれ

158:デフォルトの名無しさん
23/03/17 20:09:59.24 kImSYq8C.net
このスレは以下で全員が一致している
・文字コードはUTF8で統一
・UTF8はBOMを付けない

159:デフォルトの名無しさん
23/03/17 21:06:51.85 2DL2Xy3z.net
URLﾘﾝｸ(i.imgur.com)
＞ LinuxやMacでは、ファイル名やメタデータから文字コードを判断することが多いので、BOMは不要です。
これマジ？

160:デフォルトの名無しさん
23/03/17 21:09:37.93 HCeWuFC8.net
BOMって、 UTF16とかじゃないと意味が無いやん？

161:デフォルトの名無しさん
23/03/17 21:21:18.90 Y3Hkfwer.net
一応は出典付きになってんだからそれ辿って判断しろ

162:デフォルトの名無しさん
23/03/17 22:17:32.94 axfbRcbR.net
mac のファイルシステムはリソースフォークを持っているので
そこにTextEncoding を格納しておけば良い

163:デフォルトの名無しさん
23/03/18 09:15:45.80 hvwkbmHD.net
>>159
出典を挙げてくれるところが親切だな。そのqiitaどこ？

164:デフォルトの名無しさん
23/03/19 12:16:38.49 fPDrKYk/.net
Windows のファイルシステムは拡張子を持っているので
そこが .txt なら BOM 無し UTF-8 を前提にして良い

165:デフォルトの名無しさん
23/03/19 12:24:54.52 h5llDeKs.net
おいおい
Windowsで.txtなんてそれこそ山程CP932のファイルがあるだろう(日本の場合)
それらは全て無視かい

166:デフォルトの名無しさん
23/03/19 13:04:41.50 SRrPG6Bv.net
>>165
そいつらは将来に備えて .sjt とかにでも改名しとけw

167:デフォルトの名無しさん
23/03/19 13:31:52.51 pEJ/zH5I.net
UTF-8を使う俺が困らなければ他人はどうでもいい。

168:デフォルトの名無しさん
23/03/19 14:22:28.77 SRrPG6Bv.net
>>167
UTF-8を使う俺＝将来のお前
どうせ嫌でも皆がUTF-8を使うことになる
遅いか早いかの違いでしかない

169:デフォルトの名無しさん
23/03/19 14:46:22.57 pEJ/zH5I.net
遅いか早いか、まさにそこがポイントだわな。
100年後には確実に死んでいるだろうからといって明日すぐに死んでもいいなんて考える人はまずいない。

170:デフォルトの名無しさん
23/03/19 15:05:53.25 SRrPG6Bv.net
あきらめろ！もう勝負はついてしまったんだ
今は粛々と対応を進めるフェーズだ
早く対応するほど傷は浅くてすむぞ

171:デフォルトの名無しさん
23/03/19 15:11:12.34 RPlhi56t.net
>>166
むしろ新しいほうが.utf8のほうが合理的かと

172:デフォルトの名無しさん
23/03/19 15:20:23.00 SRrPG6Bv.net
>>171
あきらめろ。どうせSJISのファイルは無くなるんだ。
何ならSJISのテキスト .txt ファイル今後一切作らなくても生きていける。 UTF-8はそうはいかない。

173:デフォルトの名無しさん
23/03/19 15:26:26.02 pEJ/zH5I.net
春休みっぽいね。

174:デフォルトの名無しさん
23/03/19 16:57:13.82 SRrPG6Bv.net
今日は日曜日なんだぜ。仕事引退したご老人は気づかんかもだが。

175:デフォルトの名無しさん
23/03/19 17:30:01.32 NPoZApcF.net
C言語でShiftJISからUTF-8に変換するコードをライブラリは使用しないで書いて下さい。
以下はC言語でShiftJISからUTF-8に変換する簡単なコードです。このコードでは、ShiftJISの1バイト目が0x81以上0x9F以下または0xE0以上0xEF以下の場合には2バイト文字、それ以外の場合には1バイト文字として扱います。
#include <stdio.h>
void sjis_to_utf8(char *sjis, char *utf8) {
unsigned char c1, c2;
while (*sjis != '\0') {
c1 = *(unsigned char *)sjis++;
if (c1 <= 0x7F) {
*utf8++ = c1;
} else {
c2 = *(unsigned char *)sjis++;
if ((0x81 <= c1 && c1 <= 0x9F) || (0xE0 <= c1 && c1 <= 0xEF)) {
*utf8++ = ((c1 << 8) | c2) + 0x3C00;
} else {
*utf8++ = c1;
sjis--;
}
}
}
*utf8 = '\0';
}
int main() {
char sjis[] = "こんにちは、世界！";
char utf8[100];
sjis_to_utf8(sjis, utf8);
printf("%s\n", utf8);
return 0;
}

176:デフォルトの名無しさん
23/03/19 17:39:03.96 0QGYVmFU.net
ShiftJISって表現だと文字集合定まらないのに回答もらえんだ
どんだけクソ記事多いんだよ

177:デフォルトの名無しさん
23/03/19 21:07:41.87 Lshwza3t.net
>>162
macのリソースフォークとか、知識が化石だな
今は大概のファイルシステムが拡張ファイル属性をサポートするので、そこにメタデータを
記録することが可能

178:デフォルトの名無しさん
23/03/19 22:36:34.34 S5QK9jWm.net
apfs はxattr もresource fork も両方使える
named resource fork は無くなってるが

179:デフォルトの名無しさん
23/03/28 06:36:26.58 qh0NVSBO.net
>>175
バッファオーバーフローのチェックがなく不合格

180:デフォルトの名無しさん
23/03/28 08:25:55.12 b9xJHTM0.net
それ以前の問題だろ。>>175はChatGPTに作らせたんじゃね？

181:デフォルトの名無しさん
23/04/03 12:56:12.62 xtNXRsCH.net
AIによるプログラミングはまだ無理だね

182:デフォルトの名無しさん
23/04/03 16:26:10.65 vHpZ2WBP.net
AIって、コンピュータのくせに自分でトレース実行してバグ無いか確認しないのなw

183:デフォルトの名無しさん
23/04/09 09:21:00.03 Dm0aM9sg.net
検算してもその検算が正しいかどうかすら自身が持てないのがchatGPT

184:デフォルトの名無しさん
23/04/09 09:22:48.40 Dm0aM9sg.net
WindowsだがExcelもWordも入れてない
自分のHDD/SSDにはSJISで保存されたファイルなんてもうほぼ存在しない

185:デフォルトの名無しさん
23/04/09 12:54:00.15 /c2XAn9L.net
今MacユーザーになるともれなくUnicode絡みの問題が付いてくるよ
URLﾘﾝｸ(applech2.com)

186:デフォルトの名無しさん
23/04/09 13:04:53.10 orQE+67J.net
>>185
Mac が定期的にかかる病気。
すぐ治るけど、時間をおいてまた再発する。

187:デフォルトの名無しさん
23/04/09 14:46:54.72 auAc9wKg.net
Macは日本の野党と同じで世間からの評価が甘いよなあ。
Macが基幹業務で使われてない何よりの証拠でもあるが。

188:デフォルトの名無しさん
23/04/09 17:56:56.24 OOTdGDLa.net
地震ないのに自信たっぷりに回答するのがChatGPT

189:デフォルトの名無しさん
23/04/09 18:30:06.98 4krZSi9u.net
ｸｴｰｯ!

190:デフォルトの名無しさん
23/04/09 19:01:55.55 FKzaKr3N.net
知らないことは知らない
調査した限りでは存在しない
そういう答えのほうがいいのに
なんで捏造するんだろうね

191:デフォルトの名無しさん
23/04/09 21:05:33.99 UcS23PeT.net
そういうのはだいたい、知らないと答えたらひどく怒られた経験があって委縮して育ってしまったんだと思う

192:デフォルトの名無しさん
23/04/12 12:03:52.02 +8HledST.net
自信たっぷりに嘘を答えるから
文系はすぐにだまされるωωω

193:デフォルトの名無しさん
23/04/14 14:38:56.45 M7ace2PD.net
キャラ名に「ソ」があると画面がフリーズ　Switchの新作ゲームにバグ　制作会社が謝罪
URLﾘﾝｸ(www.itmedia.co.jp)

194:デフォルトの名無しさん
23/04/14 15:45:01.31 xzN0pWfJ.net
>>193
ShiftJISならバックスラッシュ誤判定だろうけど、ShiftJISなわけないよな

195:デフォルトの名無しさん
23/04/14 15:53:05.13 seuuHt2q.net
浅慮すぎるのは置いといて
ゲームだし手軽にバイト長固定で処理したかったは十分考えられる

196:デフォルトの名無しさん
23/04/14 17:03:50.51 ixIh7fyO.net
芸能人は化ける

197:デフォルトの名無しさん
23/04/14 18:27:55.47 I++sIoci.net
ネットの論調は「ソ」と言ったらSJISバグみたいになってるけど今時ありえるだろうか？
もし事実だとしたら旧作からライブラリか何かを移植して流用したのかな？

198:デフォルトの名無しさん
23/04/14 18:50:37.36 41MH6ytl.net
「ソ」とか「ポ」を含む文字列で壊れる問題、昔はS-JIS絡みで時々見かけたね

199:デフォルトの名無しさん
23/04/14 21:31:31.20 MvmRH5fr.net
ここで念のため


200:デフォルトの名無しさん
23/04/15 11:49:15.28 nVVXe4ml.net
ノーパソ

201:デフォルトの名無しさん
23/04/15 12:43:38.13 j+1WZq2H.net
XAMPP は、MSYS2 なのか？
Windows のsjis(CP932), MySQL, PHP を使っているのかも

Ruby on Rails では、日本語のバグを避けるため、
Linux, UTF-8, PostgreSQL しか使わない

202:201
23/04/15 12:55:47.99 j+1WZq2H.net
>>193
アイディアファクトリー(コンパイルハート)のゲーム開発の求人には、

C/C++, C#, Windows, Unity と書いてある

203:デフォルトの名無しさん
23/04/16 08:38:15.57 3UxBQXGl.net
Unityの文字化けを解消する！
URLﾘﾝｸ(qiita.com)
UnityからC#のスクリプトファイルを作成するとUTF-8(BOM無し)になりますが、
VisualStudioはUTF-8(BOM付き)じゃないとコードページを解釈できずにShift-JISになってしまうようです。

204:デフォルトの名無しさん
23/04/16 11:48:59.76 SPigkToS.net
WindowsがUTF-16だと知らないのは不思議だな

205:デフォルトの名無しさん
23/04/16 12:01:24.12 kKWUTzzz.net
SwitchとWindowsでBOMなしテキスト使ってると、結構困ったことになるんだよね
char：Switch=utf8 Win32=sjis
wchar_t：Switch=utf32 Win32=utf16
char16_t／char32_t：対応しているライブラリが少ない

206:デフォルトの名無しさん
23/04/16 12:09:09.12 zYleX6N8.net
ターゲット固定なのにそんなのある？
ネットとか客先とか何くるかわからん状況じゃないんだし

207:201
23/04/17 12:35:43.54 4hNaPs7t.net
Windows はUTF-16 か。
確か、Ubuntu はUTF-32 とか？

たとえLinux 内部で、4バイト文字を使っていたとしても、
Ruby などのウェブ系言語では、UTF-8 前提でモジュールを作るでしょ？

CP932 の「表・ソ」などのダメ文字は、数十年前の話

208:デフォルトの名無しさん
23/04/18 00:06:47.73 FLdY4aX1.net
一方ビックカメラは令和でもSJISを使った

209:デフォルトの名無しさん
23/04/18 04:27:16.75 ClilpHUV.net
>>208
5ch…

210:デフォルトの名無しさん
23/04/18 05:51:45.47 GSSywy5h.net
〄🆗

211:デフォルトの名無しさん
23/04/18 10:05:55.09 sxhvE7iU.net
森鷗外��る
森鷗外𠮟る

212:デフォルトの名無しさん
23/04/18 18:44:09.21 zZ3gNzrS.net
森鴎外(´･ω･`)ｼｮﾎﾞ-ﾝ

213:デフォルトの名無しさん
23/04/18 20:00:26.71 +ox+01C9.net
＆＃ｘHHHHH；で5桁以上指定出来ないのは HTML のバグ？

214:デフォルトの名無しさん
23/04/18 21:28:06.50 5DETvPNY.net
“𠮟る” と “叱る”
URLﾘﾝｸ(hydrocul.github.io)

215:デフォルトの名無しさん
23/04/19 00:17:26.51 OlbpA5HH.net
>>213
え？

216:デフォルトの名無しさん
23/04/19 01:44:50.59 rDAf/S/P.net
痛い痔

217:デフォルトの名無しさん
23/04/19 17:00:21.07 ZJsXKDj1.net
字にはヒラギノール

218:デフォルトの名無しさん
23/04/25 07:46:57.89 oL7xmfo9.net
Macで古いmp3を取り込んだらID3タグが文字化けしまくり
昔はコード変換のユーティリティとか持ってたけど、どうすべきかな
坂本龍一は言いました「芸術は長く、人生は短し」
音楽ファイルは長く、文字コードは短し

219:デフォルトの名無しさん
23/04/26 10:01:56.89 N7+hGpB4.net
教授死んで済々したわ

220:デフォルトの名無しさん
23/05/10 11:22:21.87 AjRm4EFi.net
ふと思ったが、令和の令って、手書きでどう書いてます?

「令」の下側の部分、活字だと「つ」に縦棒みたいになってるけど、手書きだとマみたいに書く人は
少なくないと思う。でもこれって中国語の活字体に近い
実はこんなレベルで「統合」漢字ですか?

221:デフォルトの名無しさん
23/05/10 12:49:42.27 ji6HZ6my.net
>>220
今どき手書きしない。
ここ20年くらい住所氏名電話番号くらいしか手書きした覚えないなあ。あとは問診票の体温とかか

222:デフォルトの名無しさん
23/05/10 12:58:40.69 ji6HZ6my.net
>>220
あえて言うと、もともと歴史的には明朝体(印刷用)字体と楷書体(手書き)字体の差なので、手書きの時にマになるのが普通のこと。
「はしご高」とかも本来は楷書体(手書き用)で、明朝体(印刷用)は「くち高」。
この辺の歴史を忘れちゃって別字だ同字だ異字体だと言って混乱してるのが現代人。もともとは単に書体の違い。

223:デフォルトの名無しさん
23/05/10 15:58:11.20 fhY7dZBk.net
昔は詳しくない層はうろおぼえで何となく近い文字を同じ文字と認識してたんだろうけど
今は正確に同じ形を出力できるようになったぶん「なんか違うぞ」と目に留まりやすくなってしまったんだな

224:デフォルトの名無しさん
23/05/10 16:41:18.39 ji6HZ6my.net
悪いのは学校教育。
昔の人は明朝体と楷書体は完全に別物という認識で区別がついてた。本とか新聞とかで見るのが明朝体。手書きは楷書体、戸籍は手書きなので楷書体だった。
ところが明朝体と楷書体の両方の特徴をもった中間の「教科書体」という書体を作って小学校で文字を教えるようになった。このせいで多くの人にとって書体間の差が良く分からなくなってる。

書道とか専門的なことをやれば気付くのだが、普通の人は明朝体と楷書体の違いが理解できない。
というか両方間違いで中間の教科書体が一般的文字と信じてる。そういう現状に合わせるためにフォントの明朝体や楷書体も学校教育文字については教科書体に近づけるようデザインされるようになってる。

225:デフォルトの名無しさん
23/05/10 16:48:21.44 ji6HZ6my.net
日本の明朝体フォントの「令」は珍しく昔ながらの明朝体の字形が残っていて、教科書体(楷書）寄りに改変されてないので、手書きと違う字形になってる。

226:デフォルトの名無しさん
23/05/10 19:09:23.30 2bIvyILU.net
※1　どうしてもunicodeのCJK総合漢字から新字体と繁体字と簡体字を切り離してリストアップしたかったんです
散々調べて下のそれっぽいコード例を発見するものの、さっぱりで残念
URLﾘﾝｸ(qiita.com)

膨大にある造語めいた気持ち悪い繁体字と簡体字をPC環境から排除するため、フィルターへそれらのunicodeを登録したいのです
繁体字または簡体字のunicodeリスト、メモ帳などへ抽出したテキストリスト、上記目的を達するのに最適なソフトなど
何かしら情報はないものでしょうか

※2
unicodeを紹介してくださるサイトを、そのまま丸コピして手元へ資料化すれば？と考えるものの著作面で不安
HTTrackというオープンソースのソフトを発見しましたが、古い上にソフトへ通信権限を与える類いのようで、下手なネトゲよりリスク高い
何より資料として閲覧可能になるのは嬉しいものの、繁体字と簡体字を排除する本来の目的に沿わない

↑全てをすっとばして、CJK総合漢字から気持ち悪い繁体字と簡体字のunicodeを抽出する方法、既存のファイルやリストなど、がありましたら解決する話です
アドバイスくださいm(vv)m

227:デフォルトの名無しさん
23/05/10 19:40:22.77 2/j8QX9l.net
意味不
統合されてるんだし

228:デフォルトの名無しさん
23/05/10 20:38:34.78 2bIvyILU.net
unicodeにおけるcjk統合漢字は、一つの意味に対する漢字を〇△□×と横並びさせて、それを終えてから次の意味の漢字へ移行する配列となっています
だからこそ〇しか要らないのに4E00から9FF0の中で膨大な△□×という文字のゴミが無作為に溢れてしまうのです
しかも支那は性懲りもなく使いもしないゴミ文字を未だに造り続けているので、unicodeは5桁にまで膨れ上がっています（そろそろ整理しろよ！新語を作んなボケが！！使わねー字なら抹消しろ！と）
「漢字」と一括りにするのではなく、そこから真に必要で有用な新字体のみを抽出したい、あるいはフィルター用に新字体以外のゴミunicodeリストを欲しい、と思うのは必然ではないでしょうか
そのくらい、今の支那はあらゆる分野で癌と化していますよ^^;

229:デフォルトの名無しさん
23/05/10 20:39:15.54 2bIvyILU.net
ですよねえ・・・
qiita.com/Saqoosha/items/927e9d6e77922ad9f08aさんの例がまさに自分の環境でも活用可能な案だったのですが、古い上によく分からなくて^^;
日本語に用いられる漢字＝新字体は、象形文字状態の造語・当て字ばかりで非文明的な繁体字・簡体字と比較すると、めちゃくちゃ秀逸かつ言語内に上手く纏められているんですよ
集約とも言えます
1949年の内閣すげー！！！

それも平仮名や片仮名という3種の文字列を組み合わせて歌を詠んだり、そうした世界屈指の難解な文字文化を経たからこそ、私達の先祖は新字体という完成度の高いものを作れたんでしょう
今現在、支那チョンに使われる言葉の多くは「日本語由来」ですしね・・・
文字においても漢字なのに新字体が一番最初に確立されている不思議
その史実を虚偽で覆い隠さんと、いつもの共産圏の捏造焼き畑で無駄な簡体字が、延々造られ続け、unicodeを圧迫しているのが昨今の実情です
やることなすことGと一緒で美も詫び寂びも無い、ただ増えるだけの癌に等しい存在と価値観が、まさにチャイナの本質ですね^^;

230:デフォルトの名無しさん
23/05/10 22:10:37.95 ji6HZ6my.net
文字コードのことも漢字のことも何も分かってなくて草。
お前は日本語専用フォント使っとけ。

231:デフォルトの名無しさん
23/05/10 23:58:51.60 2bIvyILU.net
まあ、統合なんてせず、他はどうでもいいから新字体だけは別枠でunicodeに登録してほしかったですね
そうすれば、ここからここまで理論で新字体とそうでないゴミ象形オナニー文字とを正負ともに区別出来たんですわ・・・
他の地域はそれぞれの民族単位で登録されていたり、誤差の範囲内でもきっちり枠が設けられているのに
東アジアの区分だけ何故かごちゃ混ぜで笑えますよ（拡張ABCDとかやってる暇あんなら新字体だけでも別枠にしろ！）
unicodeを制定する世界の上層部が、如何にアジア圏をどうでもよく考え、雑に一括りとしているか分かる話ですなｗ

232:デフォルトの名無しさん
23/05/11 13:57:18.45 zT2biEt2.net
文字コード | 衆議院議員河野太郎公式サイト
URLﾘﾝｸ(www.taro.org)

233:デフォルトの名無しさん
23/05/11 19:45:15.85 KOkRWEaK.net
>>232
2023年になってから取り組んでも無駄だろな
無理やり押し付けて既存のシステムが崩壊し日本はますます貧しくなる

234:デフォルトの名無しさん
23/05/12 01:04:14.69 O4GoEXjP.net
国賊親子だからそうやって日本の国体を壊し、貧困化の延長を謀るのがこいつらの本懐だからな^^;
自分達だけは生かされると思っているのだろうけど、支那の歴史は例外なく相手国で利敵に走った屑を真っ先に親類縁者ひっくるめて惨殺して口封じとした
俺らパンピーやその子孫が絶望の中にいるとき、こいつら当人は他界し、その子孫は既にもがき苦しんだ後っしょ
ま、俺らの将来も支那の臓器牧場候補だろうけど、その前に必ずこの国賊達が総じて臓器強奪や人肉食の材料になる点だけ、留飲を下げる要素だろうね

235:デフォルトの名無しさん
23/05/12 09:02:37.92 GoY4o9UG.net
CJK統合漢字
URLﾘﾝｸ(ja.wikipedia.org)
1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し[要出典]、1989年、各国の漢字コードを統合した漢字集合HCCのアイデアを提案した。
1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。

236:デフォルトの名無しさん
23/05/12 09:03:55.43 qO5bbQQ2.net
>>222
なるほどー。
そうすると統合漢字も自然なものに思えてきますね。国や言語毎に字体が違うだけなんだと。

237:デフォルトの名無しさん
23/05/13 18:20:42.38 qjeq2TF1.net
漢字の場合、国・言語ごとの字形の違いは
アルファベット書きの単語における国・言語ごとの綴りの違いに近いと思う。

同源の単語であれば他言語の綴りで書かれても一応意味は分かるが、
決してそれが自然だとは思われない。

漢字は統合によって「元の綴りがどうだったか」の情報が残らなくなってしまったので
言語判定をさぼってフォールバックフォント表示を通常運用にしたような環境では
他言語の綴りに化けた文書に頻繁に遭遇することになり違和感が募る。

238:デフォルトの名無しさん
23/05/13 21:07:02.92 uFhfbSOD.net
同じ漢字でも、簡体字って全然読めないよ…
違和感なんてレベルじゃないよ、あれ…

239:デフォルトの名無しさん
23/05/13 21:56:00.31 i7WkhiEz.net
おばあちゃんが書く門の略字体なんかは今の子読めなかったりするね

240:デフォルトの名無しさん
23/05/13 22:43:36.36 wqzP/3o9.net
不思議な漢字と日本語─異体字の謎
URLﾘﾝｸ(tenki.jp)

実は、意味も発音も同じなのに異なった字形の漢字は、紀元前約1600年前に中国で誕生した、漢字の原型である「甲骨文字」からあります。
このことはなにを示しているかというと、異体字は主に手書きの文字だからこそ生まれるということです。手書きであれば、点画が短いとか長いとか、おさえるとか払うとか表現が人によって変わってしまうことは当然ですね。それまで使われていた文字があるときにちょっと異なったふうに書かれて、それが誤字となって消えてしまうのではなく、多くの人がそう書くようになってある程度定着してしまう…しかも前の書き方も生きている…。これが異体字の源泉です。楷書、行書などの漢字のスタイルである「書体」も関係しています。

異体字は人名や地名に多いですね。
地名については、言ってみれば「なまり」のようなものだといってもいいかもしれません。人名であれば、漢字の字形の差が自分の個性のようなものと感じられて「渡邊」と書かれないと、自分ではないような気がする、といったことも起こってきます。

文字は社会のなかで共有されているものですから、自分勝手に書いていいというものではありません。ただ異体字だからといって、「間違っている文字」というわけでもないのです。正字・旧字・本字・俗字…といった区別は、漢字の使われ方を標準化するためにある社会・時代で便宜的に決められた「正しさ」の基準ですから、時代によって変わることもあります。日本でも当用漢字、常用漢字、人名漢字などとしょっちゅう漢字の枠組みが変化していることはご存知でしょう。
現在ではコンピューターや携帯電話などで表示できる漢字の数が飛躍的に増えたことで、この枠組がまた変化しています。時代の変化とともに、そして技術との関係で漢字はどんどん変化するものなのです。

241:デフォルトの名無しさん
23/05/14 00:10:02.53 28vpFfrh.net
>>238
新字体もいわば簡略字体なわけで、まあ違和感があるかどうかは慣れなのかも

>>239
簡体字だと门ですよね。というわけで昔の世代の方がより簡体字を読める?

242:デフォルトの名無しさん
23/05/14 00:59:04.93 hyIJBQi4.net
中国語での発音が同じという観点で共産党が簡体字を作ったので
日本の老人とは関係ない

243:デフォルトの名無しさん
23/05/14 03:20:42.61 c+bjkz0t.net
簡体字には二種類の起源があって、難しい漢字のかわりに手書きの略字を形を整えて正式採用したものと、めったに使わない漢字を廃止して意味や音の似た別字で置き換えたもの。（民間の手書きでは難しい字を宛て字で置き換えるのがよくある話）
実は日本語でも政府は同じようなことをやってる。「編輯」の「輯」を廃止して別字の「集」にするよう指示したり、「叡智」を別字の「英知」に置き換えたり。
中国(大陸)は日本より徹底的実行しただけ。

244:デフォルトの名無しさん
23/05/14 04:03:24.17 +AQkW+Hc.net
英知バウ子

245:デフォルトの名無しさん
23/05/14 04:07:03.99 S56KB+xo.net
>>243
障碍→障害は酷すぎた

246:デフォルトの名無しさん
23/05/14 04:45:02.11 Cyit5h6Q.net
>>245
これは「前からどちらも使われていたのが片方に統一された」だったはずで
一般に言われているほどではない

247:デフォルトの名無しさん
23/05/14 08:40:55.72 c+bjkz0t.net
>>246
昔から両方あるけど、違う意味で使い分けられていた。
障碍：じゃまな物があって進められないこと
障害：危害を加えられて進められないこと

当用漢字で碍を害に置き換えたせいで、この2つが衝突した。「妨碍」を「妨害」に統合した関係も似たような感じ。前者は邪魔な物を置いて、後者は傷を負わせて。

248:デフォルトの名無しさん
23/05/14 08:44:30.56 c+bjkz0t.net
碍を害と統合するとか unicode 以上の暴挙。
国語審議会には漢字廃止論者がいたので仕方ないね。

249:デフォルトの名無しさん
23/05/14 11:32:59.03 hyIJBQi4.net
近頃は漢字を使うことをあきらめているケースも多いよね
こ線橋とか

250:デフォルトの名無しさん
23/05/14 15:13:31.89 +xFqdUJk.net
こうしちゃおう
跨線橋
↓
股線橋

251:デフォルトの名無しさん
23/05/14 16:03:06.41 CQAZebBv.net
>>247
まさにそれが俗説
URLﾘﾝｸ(www8.cao.go.jp)

252:デフォルトの名無しさん
23/05/14 18:31:54.44 c+bjkz0t.net
>>251
俗説でも何でもないだろうが。
引用されてるやつも、昔から混用があったことを指摘してるだけで、害と碍が統合可能な根拠などどこにも示していない。
難しい漢字や頻度の低い字を同じ音の別の漢字で代用するのは大昔からあった習慣。それこそ甲骨文字の頃からある。
しかしあくまで代用は代用。

253:デフォルトの名無しさん
23/05/14 18:40:36.33 c+bjkz0t.net
戦争で片足を失った。→ 身体を傷つけられているので「障害」でOK
生まれつき目が見えない。→ 誰かに危害を加えられた訳ではないので「障害」はNG
使った例があるかどうかじゃなくて、正しく使われてるかの問題。

254:デフォルトの名無しさん
23/05/14 18:47:52.94 sJ4QSX2k.net
＞当用漢字で碍を害に置き換えたせいで、

嘘はここだな。
その流れは戦前からあったと。

255:デフォルトの名無しさん
23/05/14 18:50:56.65 c+bjkz0t.net
>>254
昔から混用があったのと、政府が正式に使用を禁止したのでは全然意味が違う。

256:デフォルトの名無しさん
23/05/14 18:56:05.62 sJ4QSX2k.net
＞当用漢字で碍を害に置き換えたせいで、この2つが衝突した。

せいで衝突したんじゃないな。

257:デフォルトの名無しさん
23/05/14 18:58:21.13 c+bjkz0t.net
>>256
衝突してるじゃん。学識がある人には使い分けができてたのに、使い分けが禁止になってる。

258:デフォルトの名無しさん
23/05/14 19:08:36.54 sJ4QSX2k.net
それよりも前から衝突はしてるだろう。
あと当用漢字をそれ以外の「禁止」とするのもまた嘘だろう。
学識がある人はあれと「禁止」は区別がつくから心配には及ばないだろう。

259:デフォルトの名無しさん
23/05/14 19:12:14.69 c+bjkz0t.net
話を戻すと大陸の簡体字も同じやり口。
「機」の略字が「机」なわけではなくて、難しい漢字の「機」を廃止するんで、同じ音の「机」を使ってね。民間の手書きとかなら机って書いて人もいただろみたいなの。

次ページ