- 38 名前:29 mailto:sage [2023/12/27(水) 01:11:39.27 ID:ZgyK1lpa0.net]
- 会話終了の綴じ括弧の次の行は段落替えになるので行頭には全角空白が入るのだが、残念ながらOCRが見落とすことがあって(識別のために■を使用)、
OK------------------- 「用件を聞こう……」\n ■そう言って男はゆっくりと ----------------------- ↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。 NG------------------- 「用件を聞こう……」\n そう言って男はゆっくりと ----------------------- 」\n([^■「(]) という正規表現検索であぶり出すと、エラー箇所は16件ヒットしたが、残りの2920件は正しく全角空白として認識した。 同様に、前の行で文章が終わっていれば当然次の行は新しい段落からになるのでやはり行頭に全角空白が入るのだが、これも OK------------------- ていた。\n ■やがて二人はゆっくりと ----------------------- ↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。 NG------------------- ていた。\n やがて二人はゆっくりと ----------------------- 。\n[^■(「\n] という 正規表現検索であぶりだすと12件ヒットしたが、残りの1105件は正しくヒットした。 かつては行頭の全角空白を全く認識しないTesseract-ocrでさんざん鍛えられてきたから、数十件程度ものの数ではない。 英数文字が半角になってしまうのは、そういうものだと分かっていればsed的なパターンマッチによる一括置換で補えるから、修正しやすい間違え方であれば気にすることではないとすら思っている。 文字化けしてたのは、以下の三文字くらいで、それより連続する全角ダッシュ2文字を正確に認識したのはマジでスゴイと讃えたい。 嚙(←噛の機種依存文字) 頬 ッ(←小書きのツ)
|

|