文字コード総合スレ p ..
228:デフォルトの名無しさん
23/05/10 20:38:34.78 2bIvyILU.net
unicodeにおけるcjk統合漢字は、一つの意味に対する漢字を〇△□×と横並びさせて、それを終えてから次の意味の漢字へ移行する配列となっています
だからこそ〇しか要らないのに4E00から9FF0の中で膨大な△□×という文字のゴミが無作為に溢れてしまうのです
しかも支那は性懲りもなく使いもしないゴミ文字を未だに造り続けているので、unicodeは5桁にまで膨れ上がっています(そろそろ整理しろよ!新語を作んなボケが!!使わねー字なら抹消しろ!と)
「漢字」と一括りにするのではなく、そこから真に必要で有用な新字体のみを抽出したい、あるいはフィルター用に新字体以外のゴミunicodeリストを欲しい、と思うのは必然ではないでしょうか
そのくらい、今の支那はあらゆる分野で癌と化していますよ^^;
229:デフォルトの名無しさん
23/05/10 20:39:15.54 2bIvyILU.net
ですよねえ・・・
qiita.com/Saqoosha/items/927e9d6e77922ad9f08aさんの例がまさに自分の環境でも活用可能な案だったのですが、古い上によく分からなくて^^;
日本語に用いられる漢字=新字体は、象形文字状態の造語・当て字ばかりで非文明的な繁体字・簡体字と比較すると、めちゃくちゃ秀逸かつ言語内に上手く纏められているんですよ
集約とも言えます
1949年の内閣すげー!!!
それも平仮名や片仮名という3種の文字列を組み合わせて歌を詠んだり、そうした世界屈指の難解な文字文化を経たからこそ、私達の先祖は新字体という完成度の高いものを作れたんでしょう
今現在、支那チョンに使われる言葉の多くは「日本語由来」ですしね・・・
文字においても漢字なのに新字体が一番最初に確立されている不思議
その史実を虚偽で覆い隠さんと、いつもの共産圏の捏造焼き畑で無駄な簡体字が、延々造られ続け、unicodeを圧迫しているのが昨今の実情です
やることなすことGと一緒で美も詫び寂びも無い、ただ増えるだけの癌に等しい存在と価値観が、まさにチャイナの本質ですね^^;
230:デフォルトの名無しさん
23/05/10 22:10:37.95 ji6HZ6my.net
文字コードのことも漢字のことも何も分かってなくて草。
お前は日本語専用フォント使っとけ。
231:デフォルトの名無しさん
23/05/10 23:58:51.60 2bIvyILU.net
まあ、統合なんてせず、他はどうでもいいから新字体だけは別枠でunicodeに登録してほしかったですね
そうすれば、ここからここまで理論で新字体とそうでないゴミ象形オナニー文字とを正負ともに区別出来たんですわ・・・
他の地域はそれぞれの民族単位で登録されていたり、誤差の範囲内でもきっちり枠が設けられているのに
東アジアの区分だけ何故かごちゃ混ぜで笑えますよ(拡張ABCDとかやってる暇あんなら新字体だけでも別枠にしろ!)
unicodeを制定する世界の上層部が、如何にアジア圏をどうでもよく考え、雑に一括りとしているか分かる話ですなw
232:デフォルトの名無しさん
23/05/11 13:57:18.45 zT2biEt2.net
文字コード | 衆議院議員 河野太郎公式サイト
URLリンク(www.taro.org)
233:デフォルトの名無しさん
23/05/11 19:45:15.85 KOkRWEaK.net
>>232
2023年になってから取り組んでも無駄だろな
無理やり押し付けて既存のシステムが崩壊し日本はますます貧しくなる
234:デフォルトの名無しさん
23/05/12 01:04:14.69 O4GoEXjP.net
国賊親子だからそうやって日本の国体を壊し、貧困化の延長を謀るのがこいつらの本懐だからな^^;
自分達だけは生かされると思っているのだろうけど、支那の歴史は例外なく相手国で利敵に走った屑を真っ先に親類縁者ひっくるめて惨殺して口封じとした
俺らパンピーやその子孫が絶望の中にいるとき、こいつら当人は他界し、その子孫は既にもがき苦しんだ後っしょ
ま、俺らの将来も支那の臓器牧場候補だろうけど、その前に必ずこの国賊達が総じて臓器強奪や人肉食の材料になる点だけ、留飲を下げる要素だろうね
235:デフォルトの名無しさん
23/05/12 09:02:37.92 GoY4o9UG.net
CJK統合漢字
URLリンク(ja.wikipedia.org)
1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し[要出典]、1989年、各国の漢字コードを統合した漢字集合HCCのアイデアを提案した。
1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。
236:デフォルトの名無しさん
23/05/12 09:03:55.43 qO5bbQQ2.net
>>222
なるほどー。
そうすると統合漢字も自然なものに思えてきますね。国や言語毎に字体が違うだけなんだと。
237:デフォルトの名無しさん
23/05/13 18:20:42.38 qjeq2TF1.net
漢字の場合、国・言語ごとの字形の違いは
アルファベット書きの単語における国・言語ごとの綴りの違いに近いと思う。
同源の単語であれば他言語の綴りで書かれても一応意味は分かるが、
決してそれが自然だとは思われない。
漢字は統合によって「元の綴りがどうだったか」の情報が残らなくなってしまったので
言語判定をさぼってフォールバックフォント表示を通常運用にしたような環境では
他言語の綴りに化けた文書に頻繁に遭遇することになり違和感が募る。
238:デフォルトの名無しさん
23/05/13 21:07:02.92 uFhfbSOD.net
同じ漢字でも、簡体字って全然読めないよ…
違和感なんてレベルじゃないよ、あれ…
239:デフォルトの名無しさん
23/05/13 21:56:00.31 i7WkhiEz.net
おばあちゃんが書く門の略字体なんかは今の子読めなかったりするね
240:デフォルトの名無しさん
23/05/13 22:43:36.36 wqzP/3o9.net
不思議な漢字と日本語─異体字の謎
URLリンク(tenki.jp)
実は、意味も発音も同じなのに異なった字形の漢字は、紀元前約1600年前に中国で誕生した、漢字の原型である「甲骨文字」からあります。
このことはなにを示しているかというと、異体字は主に手書きの文字だからこそ生まれるということです。手書きであれば、点画が短いとか長いとか、おさえるとか払うとか表現が人によって変わってしまうことは当然ですね。それまで使われていた文字があるときにちょっと異なったふうに書かれて、それが誤字となって消えてしまうのではなく、多くの人がそう書くようになってある程度定着してしまう…しかも前の書き方も生きている…。これが異体字の源泉です。楷書、行書などの漢字のスタイルである「書体」も関係しています。
異体字は人名や地名に多いですね。
地名については、言ってみれば「なまり」のようなものだといってもいいかもしれません。人名であれば、漢字の字形の差が自分の個性のようなものと感じられて「渡邊」と書かれないと、自分ではないような気がする、といったことも起こってきます。
文字は社会のなかで共有されているものですから、自分勝手に書いていいというものではありません。ただ異体字だからといって、「間違っている文字」というわけでもないのです。正字・旧字・本字・俗字…といった区別は、漢字の使われ方を標準化するためにある社会・時代で便宜的に決められた「正しさ」の基準ですから、時代によって変わることもあります。日本でも当用漢字、常用漢字、人名漢字などとしょっちゅう漢字の枠組みが変化していることはご存知でしょう。
現在ではコンピューターや携帯電話などで表示できる漢字の数が飛躍的に増えたことで、この枠組がまた変化しています。時代の変化とともに、そして技術との関係で漢字はどんどん変化するものなのです。
241:デフォルトの名無しさん
23/05/14 00:10:02.53 28vpFfrh.net
>>238
新字体もいわば簡略字体なわけで、まあ違和感があるかどうかは慣れなのかも
>>239
簡体字だと门ですよね。というわけで昔の世代の方がより簡体字を読める?
242:デフォルトの名無しさん
23/05/14 00:59:04.93 hyIJBQi4.net
中国語での発音が同じという観点で共産党が簡体字を作ったので
日本の老人とは関係ない
243:デフォルトの名無しさん
23/05/14 03:20:42.61 c+bjkz0t.net
簡体字には二種類の起源があって、難しい漢字のかわりに手書きの略字を形を整えて正式採用したものと、めったに使わない漢字を廃止して意味や音の似た別字で置き換えたもの。(民間の手書きでは難しい字を宛て字で置き換えるのがよくある話)
実は日本語でも政府は同じようなことをやってる。「編輯」の「輯」を廃止して別字の「集」にするよう指示したり、「叡智」を別字の「英知」に置き換えたり。
中国(大陸)は日本より徹底的実行しただけ。
244:デフォルトの名無しさん
23/05/14 04:03:24.17 +AQkW+Hc.net
英知バウ子
245:デフォルトの名無しさん
23/05/14 04:07:03.99 S56KB+xo.net
>>243
障碍→障害は酷すぎた
246:デフォルトの名無しさん
23/05/14 04:45:02.11 Cyit5h6Q.net
>>245
これは「前からどちらも使われていたのが片方に統一された」だったはずで
一般に言われているほどではない
247:デフォルトの名無しさん
23/05/14 08:40:55.72 c+bjkz0t.net
>>246
昔から両方あるけど、違う意味で使い分けられていた。
障碍:じゃまな物があって進められないこと
障害:危害を加えられて進められないこと
当用漢字で碍を害に置き換えたせいで、この2つが衝突した。「妨碍」を「妨害」に統合した関係も似たような感じ。前者は邪魔な物を置いて、後者は傷を負わせて。
248:デフォルトの名無しさん
23/05/14 08:44:30.56 c+bjkz0t.net
碍を害と統合するとか unicode 以上の暴挙。
国語審議会には漢字廃止論者がいたので仕方ないね。
249:デフォルトの名無しさん
23/05/14 11:32:59.03 hyIJBQi4.net
近頃は漢字を使うことをあきらめているケースも多いよね
こ線橋とか
250:デフォルトの名無しさん
23/05/14 15:13:31.89 +xFqdUJk.net
こうしちゃおう
跨線橋
↓
股線橋
251:デフォルトの名無しさん
23/05/14 16:03:06.41 CQAZebBv.net
>>247
まさにそれが俗説
URLリンク(www8.cao.go.jp)
252:デフォルトの名無しさん
23/05/14 18:31:54.44 c+bjkz0t.net
>>251
俗説でも何でもないだろうが。
引用されてるやつも、昔から混用があったことを指摘してるだけで、害と碍が統合可能な根拠などどこにも示していない。
難しい漢字や頻度の低い字を同じ音の別の漢字で代用するのは大昔からあった習慣。それこそ甲骨文字の頃からある。
しかしあくまで代用は代用。
253:デフォルトの名無しさん
23/05/14 18:40:36.33 c+bjkz0t.net
戦争で片足を失った。→ 身体を傷つけられているので「障害」でOK
生まれつき目が見えない。→ 誰かに危害を加えられた訳ではないので「障害」はNG
使った例があるかどうかじゃなくて、正しく使われてるかの問題。
254:デフォルトの名無しさん
23/05/14 18:47:52.94 sJ4QSX2k.net
>当用漢字で碍を害に置き換えたせいで、
嘘はここだな。
その流れは戦前からあったと。
255:デフォルトの名無しさん
23/05/14 18:50:56.65 c+bjkz0t.net
>>254
昔から混用があったのと、政府が正式に使用を禁止したのでは全然意味が違う。
256:デフォルトの名無しさん
23/05/14 18:56:05.62 sJ4QSX2k.net
>当用漢字で碍を害に置き換えたせいで、この2つが衝突した。
せいで衝突したんじゃないな。
257:デフォルトの名無しさん
23/05/14 18:58:21.13 c+bjkz0t.net
>>256
衝突してるじゃん。学識がある人には使い分けができてたのに、使い分けが禁止になってる。
258:デフォルトの名無しさん
23/05/14 19:08:36.54 sJ4QSX2k.net
それよりも前から衝突はしてるだろう。
あと当用漢字をそれ以外の「禁止」とするのもまた嘘だろう。
学識がある人はあれと「禁止」は区別がつくから心配には及ばないだろう。
259:デフォルトの名無しさん
23/05/14 19:12:14.69 c+bjkz0t.net
話を戻すと大陸の簡体字も同じやり口。
「機」の略字が「机」なわけではなくて、難しい漢字の「機」を廃止するんで、同じ音の「机」を使ってね。民間の手書きとかなら机って書いて人もいただろみたいなの。
260:デフォルトの名無しさん
23/05/14 19:13:38.88 sJ4QSX2k.net
話を戻してて笑った。
261:デフォルトの名無しさん
23/05/14 19:14:35.45 c+bjkz0t.net
>>258
当用漢字は禁止だよ。公文書、学校教育、新聞などでの使用ができなくなった。
当用漢字が廃止されて、常用漢字の制定で推奨に変わった。
262:デフォルトの名無しさん
23/05/14 19:22:00.23 sJ4QSX2k.net
使用が一切認められない「禁止」ではない。
そして「話を戻すと」、せいで衝突したんじゃないな。
263:デフォルトの名無しさん
23/05/14 21:29:14.62 Rm+3qTCO.net
当用漢字表
URLリンク(www.bunka.go.jp)
使用上の注意事項
イ この表の漢字で書きあらわせないことばは,別のことばにかえるか,または,かな書きにする。
ロ 代名詞・副詞・接続詞・感動詞・助動詞・助詞は,なるべくかな書きにする。
ハ 外国(中華民国を除く)の地名・人名は,かな書きにする。
ただし,「米国」「英米」等の用例は,従来の慣習に従ってもさしつかえない。
ニ 外来語は,かな書きにする。
ホ 動植物の名称は,かな書きにする。
ヘ あて字は,かな書きにする。
ト ふりがなは,原則として使わない。
チ 専門用語については,この表を基準として,整理することが望ましい。
264:デフォルトの名無しさん
23/05/14 23:31:19.13 eRs+xSP8.net
原則となる調達基準が制定されてそれ以外が入りにくくなったみたいな話だよね
こういうの一言で言えば何なんだろう?「ルール」?
265:デフォルトの名無しさん
23/05/15 00:45:03.74 ZXlC61aQ.net
簡略化は一貫性がない場合もあるのな。傳->伝、團->団とか
266:デフォルトの名無しさん
23/05/15 15:41:30.69 /VJRgGP9.net
異体字はその定義があいまいだから、IT技術者の仕様都合でどうにかできる話ではないでしょ
267:デフォルトの名無しさん
23/05/19 01:30:50.77 Gmj5KBEl.net
UTF-8をよく見かけるけど
7とか6とかも昔はあったんですか?
268:デフォルトの名無しさん
23/05/19 02:14:03.40 yl46Wrbm.net
8ビットスルーでない経路が絶滅危惧種だし
HTTPで無駄にUTF-7なんて使っても知らんいわれるのがオチ
つかうにしてもプログラム書かないといけないならBase64のが筋がよさそう
269:デフォルトの名無しさん
23/05/19 03:59:19.38 D8L3U8l/.net
UTF-5のことも忘れないでいてあげるべき
UTF-5 ‐ 通信用語の基礎知識
URLリンク(www.wdic.org)
270:デフォルトの名無しさん
23/05/19 05:56:35.73 EpqBRKGy.net
UTF-1は美しそうだ
271:デフォルトの名無しさん
23/05/19 06:20:44.06 Gmj5KBEl.net
やっぱり色々あるんですね㌧
これからも増える可能性もありそうですねー
272:デフォルトの名無しさん
23/05/19 07:22:38.06 8oPN6wuF.net
・・・ギャグで言ってるつもりなのか本気でそう思ってるのか判断がつかないんで一応補足しとくと
「UTF-#」の#はバージョン番号じゃなくて
Unicodeの文字を何ビットで表現するかを意味してる
基本的には16Bitで表現するUTF-16が一番楽
サロゲートペア文字もそうでない文字も同じデータ長として管理するなら32Bit表現のUTF-32がよい
だが現状はAsciiと互換性のある8Bit表現のUTF-8が事実上の標準となった
UTF-7はデータビット数を8⇒7に減らすことで少しでも通信速度を稼ごうとしてた昔の通信経路向けの規格
273:デフォルトの名無しさん
23/05/19 07:55:58.41 Gmj5KBEl.net
>>272
バージョンじゃないんですか、詳しくありがとうございます!
274:デフォルトの名無しさん
23/05/19 08:47:03.32 rVwS6Z+x.net
>>272
あんまり知ったかぶりすんな
>「UTF-#」の#はバージョン番号じゃなくて
虚偽、UTF-1 とか UTF-2 はバージョン
> 基本的には16Bitで表現するUTF-16が一番楽
虚偽、(もしくは個人の感想)
> UTF-7はデータビット数を8⇒7に減らすことで少しでも通信速度を稼ごうと
虚偽
275:デフォルトの名無しさん
23/05/19 12:13:32.86 clAdGtGh.net
>>238
毛沢東文字やね
あれはスパイを発見し易くするために導入された
276:デフォルトの名無しさん
23/05/19 12:33:17.95 clAdGtGh.net
>>272
>サロゲートペア文字もそうでない文字も同じデータ長として管理するなら32Bit表現のUTF-32がよい
doubt
277:デフォルトの名無しさん
23/05/19 13:28:13.37 1PFium2f.net
64bit版g++は、規定のstd::wstringがUTF-32だよ
278:デフォルトの名無しさん
23/05/19 13:29:18.88 1PFium2f.net
規定じゃなくて既定だった
279:デフォルトの名無しさん
23/05/19 15:02:22.21 clAdGtGh.net
>同じデータ長
doubt
280:デフォルトの名無しさん
23/05/19 16:15:02.50 DhYPerzk.net
ネタとして楽しむためには正しい知識がいる、という
281:デフォルトの名無しさん
23/05/20 00:06:13.39 Wgabc+Na.net
文字コード奥深過ぎだなアニメ化して欲しい
282:デフォルトの名無しさん
23/05/20 13:16:12.40 QfLlK72x.net
IVSなめんな
283:デフォルトの名無しさん
23/05/20 13:31:47.35 XYoRKnAf.net
ペロッ...これは、0xE0100で修飾された異体字!!
284:デフォルトの名無しさん
23/05/20 13:52:04.98 HDVuLGIu.net
文字コードソムリエですね
285:デフォルトの名無しさん
23/05/21 20:48:13.44 5peOv9L3.net
\ソムリエ
286:デフォルトの名無しさん
23/05/23 23:24:40.51 R2ZlFyvy.net
漢字構成記述文字 IDSは何処かで有効活用されているのですか?
今の字体の見た目の直感と違うのですが
黒 →⿱里灬 ダメ?
URLリンク(kanji-database.sourceforge.net)
>解字IDSデータは、UCS漢字を、字の成り立ちからIDS化する作業を行っています。
U+09ED1 黑 ⿱𡆧炎 會意 3840010
U+09ED2 黒 →黑
URLリンク(github.com)
287:デフォルトの名無しさん
23/05/24 23:52:15.53 nx1OpmdE.net
見た目じゃなくて成り立ちだから歴史的経緯からIDS化してるんじゃね
288:デフォルトの名無しさん
23/05/27 01:16:15.20 JRhYMEVC.net
簡体字制定時にも過度の正規化に反対する良心的な人もいたみたいだけど…結果は文化継承お構い無しむしろ断絶こそ業績みたいな御用学者に押し切られた?わけで
一旦決まったからはあの面子の国、則天文字やルイセンコ学説宜しく滅ぶまで使い続けるんだろな
という訳で今すぐ滅びろ
289:デフォルトの名無しさん
23/05/27 06:31:36.72 EKOWOt22.net
二簡字ぐらいいくとかっこよくも見えてくる
290:デフォルトの名無しさん
23/05/27 14:22:30.10 Qh66ZSbX.net
utf-8が標準だと思ってたけど昨日Excel見たらutf-8じゃなくてビックリした
291:デフォルトの名無しさん
23/05/27 15:25:11.32 Iw6vgmTP.net
メモリ上の内部コードはしらんけど
xlsxはXMLだからUTF-8じゃない?
292:デフォルトの名無しさん
23/05/27 19:18:50.92 4YJ0U8GR.net
文語で「じゃない」を使うおじさん
293:デフォルトの名無しさん
23/05/27 22:18:54.32 Qh66ZSbX.net
お姉さんの可能性あるで
俺もお姉さんだし( ・`ω・´)
294:デフォルトの名無しさん
23/05/27 22:19:28.39 Qh66ZSbX.net
>>291
他の人のExcelも今度確認してみるわ
295:デフォルトの名無しさん
23/05/28 11:38:12.73 mveGBcKw.net
XML は BOMつき UTF-16 も許されてるんじゃなかったっけ?
BOM無しなら UTF-8 だったか
296:デフォルトの名無しさん
23/05/28 21:52:09.12 YNYjEu0w.net
excelは昔からさまざまな文字コードに対応してる
高い互換性を維持し続けてる
それがMSの強さ
こういうところはUnixとかLinuxとかOSSでは
太刀打ちできない
297:デフォルトの名無しさん
23/05/28 22:53:12.34 mveGBcKw.net
>>296
emacs だってexcel 以上に多種多様な文字コードに対応してるし、linux (glibc)の対応ロケールと文字コードの数は windows より多いぞ。
無知が擁護するとMSの格が下がるのでやめとけ。
298:デフォルトの名無しさん
23/05/28 23:26:13.89 ig5hb7tN.net
>>291
そうだね。実際には階層的になったXMLをzipにしてあるけど
んでXMLの中をよく見るとxlsxを作成したローカルのパスが書かれていたり。キモっ
おっと文字コード関係なかったw
299:デフォルトの名無しさん
23/05/29 01:28:07.80 0ytXwqTB.net
Microsoft が互換性重視とか最近のブラックユーモアは笑えないなぁ
ASCII との互換性を切捨てて UTF-16 にしようとして失敗したり
5年以上前のCPUは Windows 11 ではサポートしません、買い替えてくださいとか言い出したり
その頃 linux では33年前の CPU の 80486 の互換性はそろそろ切って良いのではという議論をしてた。
300:デフォルトの名無しさん
23/05/29 12:46:50.20 MCD4Vue8.net
2012年頃?
Windows10 が最後の Windows バージョンです(キリっ
301:デフォルトの名無しさん
23/05/29 13:52:34.19 M19znpYQ.net
MSはJIS X 0213:2012のIVSに
Wordが早く対応したりしてそれほど悪い印象はない
しかしパス名が未だにCP932系なのは何とかならんのか
302:デフォルトの名無しさん
23/05/29 14:43:43.87 0ytXwqTB.net
>>301
ロケール設定とアプリの問題じゃないの?
303:デフォルトの名無しさん
23/05/29 15:27:55.29 hGly4rru.net
近年のMSは、昔からの独自仕様での高い互換性よりも、オープンソース&標準準拠を進めているのは良い
304:デフォルトの名無しさん
23/05/29 21:29:10.05 NNOaBXNh.net
>>302
日本ロケールだとNTFSのパス名がShift JIS
305:デフォルトの名無しさん
23/05/29 21:38:29.70 mH3oOe43.net
ファイル名で使用される文字セット
URLリンク(learn.microsoft.com)
> NTFS では、Unicode にファイル名が格納されます。
306:デフォルトの名無しさん
23/05/29 21:41:41.73 1bms2IW3.net
>>304
そういうのはコンソールやアプリ側のエンコーディング設定であってな...
307:デフォルトの名無しさん
23/05/29 21:58:43.15 0DJ9XOU5.net
UTF16はMBCSと共存しており切り捨てた訳ではない
windows11で64bit版だけになるまで16bitアプリも動かせてたわけで
そもそもソースレベルでしか互換性を保てないのがLinux
Linuxは当初はEUCだったと思うけど当時の日本語対応ソフトが今のUTF8で動くかい?
308:デフォルトの名無しさん
23/05/29 23:12:48.07 0ytXwqTB.net
>>307
あほ? EUC-JPアプリって何?
20年前にコンパイルされたアプリが一切の改変無く、EUC-JP でも、UTF-8 でも SJIS でも動くんだが?
ロケールの切り替えとか知ってる?
309:デフォルトの名無しさん
23/05/30 07:55:17.64 89IT6MB6.net
>>308
Linuxで20年前にコンパイルしたバイナリが今のLinuxで動く?
冗談はやめてほしい
百歩譲ってロケール切り替えで動くとして今のUTF8前提のアプリと共存出来ないでしょ
Windowsだったら20年前のMBCSのソフトもそのまま動くよ
当然Unicodeのソフトも動く
Ubuntuが32bitCPUのサポートカーをきったのは5年くらい前だっけ
Windows11より速いですね
あとマイクロソフトがMBCS切り捨ててUTF16一本にしようとしたってのは初耳ですが根拠を出してほしい
310:デフォルトの名無しさん
23/05/30 08:50:00.67 ZT3eEMEM.net
>>309
技術がないやつは、これだから。
お前の技術が足りないのをOSのせいにしてるだけだな
全部できるぞ。俺が実際使ってるし
Ubuntu で32ビットアプリも動いてるよ
311:デフォルトの名無しさん
23/05/30 09:40:11.60 ksZIMFia.net
コンパイルしたなら文字コード関係なくそりゃ動くわな。
スクリプト言語なら知らんが。
312:デフォルトの名無しさん
23/05/30 10:48:25.25 sLlAlpBn.net
スクリプト言語のが文字という概念があるから
ロケールみて外部入出力ちゃんと取り持ってくれそう
昔のプログラムはバイトストリームで処理してるから問題ないだけで
ロケールなんてgettextで文言変わるくらいにしか利用してない
313:デフォルトの名無しさん
23/05/30 12:45:01.53 +VlMdD+Q.net
>>309
冗談は辞めてほしい
君が何も知らないのはよく分かった
314:デフォルトの名無しさん
23/06/05 02:33:56.51 QCgpDYcxq
しっかし立憲は子供カ゛一だの尖閣カ゛ーた゛の.しかも党として自家撞着まて゛してるし,それとも両方予算倍増してこのクソ腐敗税金泥棒政府を
どんた゛け拡大させろと言いたいんた゛か,腐敗主義自民公明に乗っ取られたクソ政府に対して,國會でのクソの役にも立たなさには呆れ返るな
唯一原發ガ‐はマ├モだが.鉄道の3〇倍以上もの温室効果ガスまき散らして石油無駄に燃やしまくって気侯変動させて災害連発させて人を
殺しまくってるクソ航空機を根絶やしにすれば,原發全廃しても電気料金は下か゛るというソ─スくらい持ってきて合理的に主張しろ枝野幸男
クソ航空機のC〇2排出量が鉄道の6倍とか言ってるハ゛力か゛いるが、きっと在来線の倍ほと゛非効率な新幹線と比較して、クソ航空機は離着陸
で莫大なCO2出すわけだか゛長距離て゛排出量計算して,鉄道は乗車率25〇%て゛も運行可能た゛か゛、それすら無視した━方的な値なんだろうな
最も短い距離て゛運航してる航路て゛比較すへ゛きた゛し,東海道在来線なんて空き座席全然ないんだし,乗車率10〇%比とか現実乖離甚だしいわ
鉄道は再エネのみて゛の運行だって可能なんだから,それも考えればクソポリへリ含めてクソ航空機を飛ばす行為に破防法を適用するのが妥当
創価学會員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最惡の殺人腐敗組織公明党を
池田センセ‐がロをきけて容認するとか本氣て゛思ってるとしたら侮辱にもほと゛か゛あるそ゛!
hΤТРs://i、imgur,сοm/hnli1ga.jpeg
315:デフォルトの名無しさん
23/06/07 04:27:17.54 0FN/+S+x.net
タイトルに付いていたらあ、クソだなと思うもの
異世界
チート
転生
のんびり
最強
スローライフ
無双
ギルド
追放
スキル
おっさん
勇者
魔王
賢者
魔術師
錬金術
聖女
奴隷
悪役令嬢
婚約破棄
316:デフォルトの名無しさん
23/06/07 17:58:56.39 Xm2S+dHf.net
遅くとも<title>までにはエンコードを確定できるワードが欲しいね
317:デフォルトの名無しさん
23/06/18 09:23:53.16 a4zjBeRN.net
どす恋!
318:デフォルトの名無しさん
23/06/22 20:17:25.79 u8IMi/jS.net
>>312
> 昔のプログラムはバイトストリームで処理してるから問題ないだけで
> ロケールなんてgettextで文言変わるくらいにしか利用してない
あっさり言ってくれちゃってますが
Ken Thompson大先生の大発明UTF-8以前は
みんな処理系から実行系まで
USC-2対応に書き換えるつもりだったんですよ?
凄く簡単なアイデアだけど着眼点がシャープ
それから商業UNIXのm17nは徹底的なもので
grepなんかも各言語、各文字コード対応だった
319:デフォルトの名無しさん
23/06/22 20:30:09.06 6hgABg1u.net
👁--------→
320:デフォルトの名無しさん
23/06/22 23:18:43.47 xBwPkaNz.net
昔のプログラムはバイトストリームで処理してるから問題ない?
そんなわけないだろ
正規表現の.とかUTF-8の一文字に対応させんといかんから
ほとんどのプログラムに修正が必要だぞ
今も修正できてないコマンドはいくらでもある
321:デフォルトの名無しさん
23/06/23 00:24:16.74 M8BBIM3e.net
相手が変なこといってるなと感じたら
じぶんが拾えてない情報がないか確認するよねふつう
322:デフォルトの名無しさん
23/06/23 00:39:25.84 31qk7hM1.net
ふわっとしてんな
323:デフォルトの名無しさん
23/06/23 05:42:45.03 G2V4SBFP.net
>>321
お前、もしかして相手が変なことを言っていると感じているのか?
324:デフォルトの名無しさん
23/06/23 11:06:55.50 wom6IAq0.net
>>318
みんな突っ込まないでくれているけど
USC-2 → UCS-2
325:デフォルトの名無しさん
23/06/23 11:12:13.58 yEQ18GoZ.net
>>324
タイポとか誤変換とかに突っ込んでたらきりがないのでわかってるぽいのはスルーで
無理に訂正する必要もないよ
326:デフォルトの名無しさん
23/06/23 13:39:13.07 fMNbteF1.net
なーんだ、てっきり南カリフォルニア大学ことかと思っちゃった
327:デフォルトの名無しさん
23/06/23 13:40:28.91 fMNbteF1.net
のw
328:デフォルトの名無しさん
23/06/23 16:35:16.14 RASP4hQI.net
このスレに来る人はICUを集中治療室とか国際基督教大学とは思わないから安心しろ
329:デフォルトの名無しさん
23/06/23 16:49:42.58 fJe7a8sc.net
UTF-8がASCII互換っていうのはASCII部分のみが互換っていう意味で
ASCIIだけを使ってるなら動くってことだよ
ASCII以外の漢字部分までASCII互換になるわけがない
そもそもASCIIに漢字なんて無いんだから
漢字は別途対応、もちろん漢字だけじゃなくて絵文字とかも含むからね
330:デフォルトの名無しさん
23/06/24 15:50:27.65 v2U7ONLO.net
これで気兼ねなくATMの話ができます!
331:デフォルトの名無しさん
23/06/24 15:54:00.59 xBNVjuxa.net
>>320
正規表現とか使ってなければ問題無いだろう
ほとんどのプログラムに修正が必要は大げさ
332:デフォルトの名無しさん
23/06/24 16:15:39.62 6718OB4j.net
昔のプログラムがバイトストリームで処理してると思っているあたりが素人くさい。
MS-DOSの話してるんだろうか?
333:デフォルトの名無しさん
23/06/24 17:49:25.13 mybFnLY5.net
>>331
ASCII以外の文字を扱う全てのプログラムに修正が必要
334:デフォルトの名無しさん
23/06/25 09:29:11.85 u4T7tXaY.net
>>332
昔も今もバイトストリームだろ
じゃなきゃバックスラッシュと円記号が同一視されるはずがない
335:デフォルトの名無しさん
23/06/25 11:58:16.15 0nHjw2pZ.net
>>334
小学生でもそんなこと言わんぞ
「文字コード」って聞いたことあるか?
336:デフォルトの名無しさん
23/06/25 13:42:41.66 gLBngrQA.net
多バイト文字の処理が念頭にあるんだろうけども
改行含めてASCIIの範囲でマッチできれば成立するプラグラムの方が大半な気がする
catやcpなんて文字コードなにそれだし
337:デフォルトの名無しさん
23/06/25 17:28:04.26 ySKqPmeW.net
うん。だからテキスト処理関係のフィルタコマンドだよ
grepとかsedとかawkとかtrとかcutとかsortとか
そこいらは全部修正が必要
338:デフォルトの名無しさん
23/06/25 17:56:47.65 0nHjw2pZ.net
>>337
お前どこのツール使ってるの?
オレの sort とかのツールはちゃんとロカール対応してるけど?
339:デフォルトの名無しさん
23/06/25 19:33:55.93 +QOmRgEX.net
>>330
それは回線にモデルとかISBNとか使ってた頃の遺物だろww
340:デフォルトの名無しさん
23/06/25 19:53:24.27 s5vVSYDk.net
ぼくは雑誌コード
341:デフォルトの名無しさん
23/06/25 19:59:23.87 ySKqPmeW.net
>>338
だからロケールに対応する修正が入ってるから今は動くようになってるんだろ
UTF-8がASCII互換だからって、何も修正しないで動くわけじゃないって話をしてる
342:デフォルトの名無しさん
23/06/25 20:41:53.62 0nHjw2pZ.net
>>341
Unix 系はunicodeとか発明される以前の昔からロカールあったろ? お前のは無かったの?
UTF-8 きても対応文字コードが増えた以上の変化はないぞ
343:デフォルトの名無しさん
23/06/25 21:34:04.71 nujrLvHq.net
>>337
ほとんどのプログラムって言っていたのが随分と対象が減ったな
344:デフォルトの名無しさん
23/06/25 21:49:59.79 ySKqPmeW.net
>>342
昔にロケールなんて概念ねーよw
あったとしてもASCIIしか考慮してないプログラムは
ロケールに対応してない
345:デフォルトの名無しさん
23/06/25 21:54:46.00 ySKqPmeW.net
どうせ今の話しか知らんくせに
やってみたら動いているみたいだから
昔から対応していたみたいの思ってるんだろうけど
これとか読んだら?
GNU Coreutils - Multibyte/unicode support
URLリンク(crashcourse.housegordon.org)
346:デフォルトの名無しさん
23/06/25 21:56:04.00 ySKqPmeW.net
多くの人の努力によってようやくUTF-8に対応しつつあるというのに
ASCIIのままのプログラムでUTF-8でも動くとか
あーほみたいじゃなくて、あーほ
347:デフォルトの名無しさん
23/06/25 22:09:28.31 0nHjw2pZ.net
>>344
unicode や UTF-8 よりロカール機構の方が古いって本当に知らないの?
調べもしないの? 恥ずかしくない?
348:デフォルトの名無しさん
23/06/25 22:10:52.26 ySKqPmeW.net
>>347
古いって知ってるがそれがなにか?
古かったら、対応しなくても動くんですか(笑)
349:デフォルトの名無しさん
23/06/25 22:18:03.54 ySKqPmeW.net
だいたいASCIIにしか対応してないプログラムって言ってんだから
ロケールにも対応してないに決まってるだろ
頭悪そうじゃなくて、頭悪い。
350:デフォルトの名無しさん
23/06/25 22:22:23.09 0nHjw2pZ.net
>>346
gnu や linux は商用unixの後追いで互換ツール作ってたんだよ。商用unixは皆対応できてた。
こっちとら linux の黎明期に glibc や gnu tool の locale 実装手伝ってたりしたんだが、お前何やったの?
351:デフォルトの名無しさん
23/06/25 22:24:10.92 ySKqPmeW.net
>>350
話をすり替えんな
お前がやった仕事は大したことじゃないんだろ?w
だってASCIIに対応していれば、そのまんま動くんだからな!
352:デフォルトの名無しさん
23/06/25 22:25:47.25 ySKqPmeW.net
俺が何をやったかだって?
お前よりすごいことをしていたよ
守秘義務があるから言えないけどなwww
353:デフォルトの名無しさん
23/06/25 22:25:52.06 0nHjw2pZ.net
>>349
336の話してるんだが、どこで言ったの? 脳内? ASCII しか対応してないって何時の時代の話? お前何か参加したの?
354:デフォルトの名無しさん
23/06/25 22:30:06.30 ySKqPmeW.net
> ASCII しか対応してないって何時の時代の話?
まさか全アメリカ人がUTF-8に目覚めたとでも思ってるのか?w
355:デフォルトの名無しさん
23/06/25 22:31:57.20 ySKqPmeW.net
今もUnicode・UTF-8に非対応で、
本当は一文字なのに三文字とか間違える実装を知らんのだろうな
356:デフォルトの名無しさん
23/06/25 22:34:23.36 ySKqPmeW.net
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
URLリンク(xtech.nikkei.com)
357:デフォルトの名無しさん
23/06/25 22:34:25.42 0nHjw2pZ.net
UTF-8 が来た時には既に locale があった
locale に対応していたれば同じバイナリで UTF-8 も扱えたので、UTF-8 に対応するめの改修とかする必要なかった
358:デフォルトの名無しさん
23/06/25 22:37:12.38 0nHjw2pZ.net
個々のツールを改修する必要はなくて、OS側のライブラリを改修することで対応するという基本的な考え方が理解できてないんだろうな。
359:デフォルトの名無しさん
23/06/25 22:40:53.01 ySKqPmeW.net
どうやらASCIIしか考慮してないプログラムは
そのOS側のライブラリを使ってないということに
思い至らないようだw
それともなにか?printfをロケール対応に
仕様変更するきかね?www
360:デフォルトの名無しさん
23/06/25 22:41:32.64 9S6fsVfv.net
>>336
wc
361:デフォルトの名無しさん
23/06/25 22:42:37.03 ySKqPmeW.net
UTF-8 が来た時には既に locale があった
だがlocale に対応していないプログラムがたくさんあった
362:デフォルトの名無しさん
23/06/25 23:21:26.81 0nHjw2pZ.net
>>361
で336のうちどれの話?
363:デフォルトの名無しさん
23/06/26 10:16:30.84 lZKUXxOT.net
>>359
ISO/IEC 9899:1990/Amendment1:1995(C95)の7.9.6.1と7.9.6.3より
printfの仕様はロケール対応では?
%sの代わりに%lsでワイドキャラクタを扱える
364:デフォルトの名無しさん
23/06/26 10:35:51.62 wgwkla1B.net
>>359
商業UNIXはlibcレベルから各文字コード対応だったんだよ
365:デフォルトの名無しさん
23/06/26 10:39:44.57 lZKUXxOT.net
なんかCの仕様をわかっていない人がいるような
Cのプログラムをロケールを利用した国際化対応するには冒頭でsetlocale()を
呼ぶだけでなくて、文字をcharではなくwchar_tで扱い、fgetsの代わりにfgetwsを
使うなどワイドキャラクタ対応のw系関数で文字を処理するに変更するか、printfや
scanf系関数で%sの代わりに%lsで扱う
Cのユニコード関連の仕様はISO/IEC 9899:2011(C11)で導入され、6.4の\u,\U, u'',U''と
7.27のuchar.hで定義されたchar16_t, char32_tがユニコード関連
これらはロケールやwchar_tとは別概念なはず
366:デフォルトの名無しさん
23/06/26 11:12:59.67 15L3klhZ.net
>>365
順番とか歴史を理解してる?
国際化するのに locale という仕組みが提案さてて wchar_t が導入され、OS標準ツールは言語や文字コードを切り替えられるようになった
その後に多言語化のために unicode と UTF-8 が出てきて locale 対応しているプログラムは変更なく多言語化できるようになった
比較的最近になって、もう新しいプログラムは unicode だけ対応していれば 十分で locale 対応いらないんじゃね? という大雑把アメリカンな考えが出てきて char32_t みたいな仕組みが作られた
国ごとに仕組み違うし、言語ごとに文字の定義とか違うんだから unicode あっても locale 無くせないんだよ。というアメリカ以外からの当然の反発もあって
今は、真面目に国際化対応が必要なやつは locale, そんなん気にしなくて良いやつは生UTF-32, Windowsと互換性が最重要なら生UTF-16みたいな棲み分けになってる
367:デフォルトの名無しさん
23/06/26 11:45:10.68 OOvp3Qkm.net
utf-8になってもロケールは必要だよね
言語や地域ごとに処理を変えないといけないから
例えば同じ文字を使っていても辞書順が違うことがある
発音記号の取り扱いとか
それからwchar_t+Unicodeのみで処理する枠組みはうまくいかなかった
ASCII文字だけ扱いたい時
Unicode以前旧世界との互換性
を考えると
結局世界はMBCSと付き合わざるを得ない事に納得し
wchar_t+Unicodeは速いindexingが必要な内部表現だけで使うことになった
368:デフォルトの名無しさん
23/06/26 11:51:20.62 uBe3VRyC.net
localeに対応しているlessコマンドはsjisファイルも読めるん?
369:デフォルトの名無しさん
23/06/26 12:04:29.17 OOvp3Qkm.net
>>368
昔の商業UNIXにlessはなくてmoreだけど
ja_JP.sjis
に設定すれば
Solarisでは2byte目\問題もなかった
もちろん内部的にはMBCS stringとして扱ってる
euc-jpだってMBCSなのだから
ちなみにSolarisの場合はこの辺の処理は
ハードコーディングではなくテーブルドリブンだった
370:デフォルトの名無しさん
23/06/26 12:07:04.06 OOvp3Qkm.net
ただこの辺の努力は全て水泡に帰して
GNU Linux全盛期に入ったわけだ
つまり文字コード対応はutf-8をベースにして
各言語対応は車輪の再発明をしなければならなかったし
まだ当時に追いついてもいない
371:デフォルトの名無しさん
23/06/26 12:44:13.00 15L3klhZ.net
>>370
再発明とかはやってないぞ
普通に gnu tool も昔から locale 対応してるし、今もそう
ただ、まだマイナーなバグや使い難い仕様が一杯残ってるねってだけ。国際化でなくて、特に多言語化のまわりが熟れてない
ユーザーにも一部の開発者にも国際化と多言語化の違いとか、機構と文字コードの違いが良くわかってないやつがいて
本来は「多言語化に問題がある」というべきところを「UTF-8の処理に問題がある」という言い方をしがち
372:デフォルトの名無しさん
23/06/26 12:54:23.97 15L3klhZ.net
ここでも知らんやつもいるかもしれないので、一応書いておくと
国際化(i18n): 文字コードとか言語とかを切り替えて使えるようにする機構
多言語化(m17n): 一つのテキストの中に複数の言語の文章を含めることができるようにする機構
373:デフォルトの名無しさん
23/06/26 13:12:12.62 15L3klhZ.net
unicode という規格には
(A) 純粋に文字コードを定義している部分。どの文字にどのコードを割り当て、それをどのように符号化するか。UTF-8 は符号化の名前
(B) unicode を使ってどのように多言語化(m17n)を実現するかの部分。標準的な多言語化を提案する。IVSの対応とかはこっち
の2つが含まれてる。
今いろいろやってるのは (B) 側の話。UTF-8対応やってるんじゃなくて「多言語化」対応やってる
374:デフォルトの名無しさん
23/06/26 16:20:01.13 LAEwcUbv.net
多言語化は国際化に含まれますか?
375:デフォルトの名無しさん
23/06/26 17:50:33.08 e5otmU9r.net
>>373
それもちょっと違うね
「(A) 純粋に文字コードを定義している部分」にUTF8は全く関係ない
そこでは各文字にコード割り当て定義されていてコードは一意に定まる
一方でUTF8やUTF16などはそのコードのエンコーディングの話であり文字コード割り当てとは独立した全く別の話になるね
376:デフォルトの名無しさん
23/06/26 18:30:16.65 15L3klhZ.net
>>375
エンコードはコードじゃないという主張の人なの? 珍しいな
377:デフォルトの名無しさん
23/06/26 19:03:46.54 CwqPR/Mz.net
>>376
そこは全く異なるのがユニコードの基本
例えば「あ」はコードポイントU+3042と一意に定められている
これはエンコーディング方式に関係なく一意に定まる
エンコーディング方式が増えたり廃止されたりしても影響を受けない
一方でこのコードポイントを扱う時に環境や状況に応じて様々なエンコーディング方式を取ることができる
例えばコードポイントは16bitに収まりきらないので32bitに入れるのがUTF32
「あ」はコードポイントU+3042なのでUTF32だと0x00003042となる
UTF8は8bit前半をascii互換とし8bit後半の不定長列を非asciiに割り当てる
「あ」はコードポイントU+3042なのでUTF8だと0xE3 0x81 0x82となる
このようにコードポイント割り当てとエンコーディングは全く独立した別の分野
378:デフォルトの名無しさん
23/06/26 19:14:59.15 b1vEmQDc.net
>>377
それはISO-2022のフレームワークとさほど大差ない
特にShift JISも含めて考えた場合は
379:デフォルトの名無しさん
23/06/26 19:27:42.67 Wnoei0OS.net
バイト表現と文字コード体系は別の概念
380:デフォルトの名無しさん
23/06/26 22:19:22.18 15L3klhZ.net
>>377
世間では一般的に
コードポイント(符号位置)+エンコード=文字コード
という認識なんだけどね。言葉の定義の問題なので、ここで議論しても始まらないか
381:デフォルトの名無しさん
23/06/26 23:14:57.66 zFI2p9hF.net
その感覚はないな
\uXXXXや数値文字参照で指定する値という認識じゃね?
コードポイントそのもの
382:デフォルトの名無しさん
23/06/27 00:02:41.00 fkxIsCCD.net
>>381
世間一般はSJISもEUC-JPもUTF-8も文字コードという認識なんだよ。厳密な言い方とはいえないが、そういもの
コードポイントだけを文字コードと呼ぶやつはかなり特殊、自覚しとけ
383:デフォルトの名無しさん
23/06/27 00:31:42.23 TcukIZUS.net
character encoding system = encoding method + character set
384:デフォルトの名無しさん
23/06/27 00:39:10.68 0oaaTR6k.net
文字コードポイントとそのエンコーディングの区別ができてやつがいるな
例えばUTF8の0xE3 0x81 0x82を文字コードポイントとは言わない
あくまでも文字コードポイントはU+3042であり0xE3 0x81 0x82はUTFでエンコーディングした時のバイト列にすぎない
385:デフォルトの名無しさん
23/06/27 01:24:36.76 fkxIsCCD.net
>>383
+ の後ろを coded character set 「符号化文字集合」とした方がより良いな
386:デフォルトの名無しさん
23/06/27 07:10:50.09 TcukIZUS.net
>>385
codedじゃ誤解しそうな人が出るので
numberedを付けるかどうか迷った
387:デフォルトの名無しさん
23/06/27 09:02:31.09 fkxIsCCD.net
>>386
規格によって用語の意味が違うので難しいところだねインターネットのRFCとかだと正式用語は
code character set + character encoding scheme
それぞれCCSとCESと略されることもある
一般的な日本訳は「符号化文字集合」と「文字符号化方式」かな
388:デフォルトの名無しさん
23/06/27 09:03:47.40 fkxIsCCD.net
>>387
dが抜けた。coded character set ね
389:デフォルトの名無しさん
23/06/30 18:08:26.89 9szWkPbV.net
>>384
お前は文字コードとエンコードの区別はついているか?
390:デフォルトの名無しさん
23/07/01 03:56:24.34 LJyXb+JQ.net
数学の写像だと考えればいいのでは
391:デフォルトの名無しさん
23/07/11 16:13:44.17 heSsZz8c.net
てすと🌀🌀
392:デフォルトの名無しさん
23/07/27 22:11:05.51 u2yUFzzA.net
𝕏
393:デフォルトの名無しさん
23/07/28 00:23:42.06 8p3s4hKM.net
フフフ
394:デフォルトの名無しさん
23/07/28 00:51:45.87 9nGZuQCT.net
文字コードって誰が作ってんの?
395:デフォルトの名無しさん
23/07/28 02:16:49.64 6UVKXpPK.net
>>394
誰が作っても良い。他人に使ってもらえるかは知らんが
396:デフォルトの名無しさん
23/07/28 02:28:54.58 9nGZuQCT.net
俺用の文字コードを作れば、漏洩して悪意ある他人が見ても文字化けで意味不明ってことか。
次ページ最新レス表示スレッドの検索類似スレ一覧話題のニュースおまかせリスト▼オプションを表示暇つぶし2ch
286日前に更新/111 KB
担当:undef