[表示 : 全て 最新50 1-99 101- 2ch.scのread.cgiへ]
Update time : 02/26 23:07 / Filesize : 41 KB / Number-of Response : 101
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【文字認識】OCRソフト(2文字目)【 自炊 】



38 名前:29 mailto:sage [2023/12/27(水) 01:11:39.27 ID:ZgyK1lpa0.net]
会話終了の綴じ括弧の次の行は段落替えになるので行頭には全角空白が入るのだが、残念ながらOCRが見落とすことがあって(識別のために■を使用)、
OK-------------------
「用件を聞こう……」\n
■そう言って男はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
「用件を聞こう……」\n
そう言って男はゆっくりと
-----------------------
 」\n([^■「(]) という正規表現検索であぶり出すと、エラー箇所は16件ヒットしたが、残りの2920件は正しく全角空白として認識した。

同様に、前の行で文章が終わっていれば当然次の行は新しい段落からになるのでやはり行頭に全角空白が入るのだが、これも
OK-------------------
ていた。\n
■やがて二人はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
ていた。\n
やがて二人はゆっくりと
-----------------------
 。\n[^■(「\n] という 正規表現検索であぶりだすと12件ヒットしたが、残りの1105件は正しくヒットした。

かつては行頭の全角空白を全く認識しないTesseract-ocrでさんざん鍛えられてきたから、数十件程度ものの数ではない。
英数文字が半角になってしまうのは、そういうものだと分かっていればsed的なパターンマッチによる一括置換で補えるから、修正しやすい間違え方であれば気にすることではないとすら思っている。

文字化けしてたのは、以下の三文字くらいで、それより連続する全角ダッシュ2文字を正確に認識したのはマジでスゴイと讃えたい。
嚙(←噛の機種依存文字)

ッ(←小書きのツ)






[ 続きを読む ] / [ 携帯版 ]

全部読む 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧](*・∀・)<41KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef