- 699 名前:login:Penguin mailto:sage [2019/01/22(火) 10:35:21.77 ID:kJGwNnOR.net]
- >>691
ASCII文字以外の範囲でも文字によっては区別できない 話は変わるけど、 Unicodeの時代になったしいまさら作ってもしょうがないだろうけど 文字コード判定で単語になってるかどうかで判定すれば 短い文字でもより精度が上がるんじゃないかって思ってる 例えば「a?‡a-?a??a?‘」とか「譁?ュ怜喧縺?」という文字化けした文字列に 出てくる単語は、世の中(例えばwikipedia)であまり使われてないが、 「文字化け」という文字列であれば登場頻度は高いからこれだろうと予測できる 単語って書いたけど各言語ごとに文字のバイト列をデータ化して そのバイト列がより多く登場する言語はなにか?で判断すれば 分かち書きとかの言語固有の処理も必要なく汎用的に使えると思う
|

|