[OCR] 画像→テキスト化総合

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 12/23 15:51 / Filesize : 206 KB / Number-of Response : 904
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

[OCR] 画像→テキスト化総合

1 名前：名無しさん＠お腹いっぱい。 [2006/03/06(月) 18:04:38 ID:eFU2jlRP0]: 読んde!!ココ・読取革命・e.Typist・OmniPage・OmCR(オムロン)・CROSS OCR・本格読取・表OCRなどなど・・・
最近SmartOCRなんてフリーソフトも出てきたけど、やっぱり読んde!!ココか、読取革命だよな。
710 名前：名無しさん＠お腹いっぱい。 [2008/06/30(月) 17:17:28 ID:nNrhDlkb0]: ominipage 16が$79.99で買えるキャンペーン中

www.digitalriver.com/promo=212017
711 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:37:06 ID:5LpB7fyT0]: >>710
↑クレカの番号と所有者名を収集してるんか？
トップページに行けないぞ？
712 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:38:03 ID:5LpB7fyT0]: Domain Name: NUANCESTORE.COM
Registrar: NETWORK SOLUTIONS, LLC.
Whois Server: whois.networksolutions.com
Referral URL: www.networksolutions.com
Name Server: PDNS1.ULTRADNS.NET
Name Server: PDNS2.ULTRADNS.NET
Name Server: PDNS3.ULTRADNS.ORG
Name Server: PDNS4.ULTRADNS.ORG
Status: clientTransferProhibited
Updated Date: 16-oct-2006
Creation Date: 01-feb-2006
Expiration Date: 01-feb-2009
713 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:38:43 ID:5LpB7fyT0]: Registrant:
Digital River, Inc.
9625 W. 76th Street
Eden Prairie, MN 55344
US

Domain Name: NUANCESTORE.COM

------------------------------------------------------------------------
Promote your business to millions of viewers for only $1 a month
Learn how you can get an Enhanced Business Listing here for your domain name.
Learn more at www.NetworkSolutions.com/
------------------------------------------------------------------------

Administrative Contact, Technical Contact:
Digital River, Inc. hostmaster@digitalriver.com
9625 W. 76th Street
Eden Prairie, MN 55344
US
952-253-1234 fax: 952-253-8497

Record expires on 01-Feb-2009.
Record created on 01-Feb-2006.
Database last updated on 30-Jun-2008 06:31:44 EDT.
714 名前：名無しさん＠お腹いっぱい。 [2008/07/01(火) 08:23:46 ID:AL20YzVU0]: はあ？
ieでもsafariでもいけるよ
715 名前：名無しさん＠お腹いっぱい。 [2008/07/09(水) 09:25:33 ID:tqR/hLP70]: 手書きの文字が認識できるOCRソフトってありますか？
716 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/07/25(金) 18:03:44 ID:nsfqqXyN0]: TextSS
717 名前：名無しさん＠お腹いっぱい。 [2008/07/31(木) 12:46:10 ID:KkyDCbb60]: 文字じゃなくて、表などの枠線をスキャナから認識ってできますか？
718 名前：名無しさん＠お腹いっぱい。 [2008/07/31(木) 14:14:49 ID:kYKcm3m90]: できます
jp.fujitsu.com/group/fct/services/archive/ocr/
719 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/07/31(木) 23:49:10 ID:mcLkMUjo0]: >>717
e.Typistってのを使ってるけど、できますん
720 名前：名無しさん＠お腹いっぱい。 [2008/08/01(金) 10:40:29 ID:DLLVnu+y0]: >>718
終了だから"できた"でつね
721 名前：名無しさん＠お腹いっぱい。 [2008/08/07(木) 00:06:40 ID:BSuE1Slo0]: SubRipでｂｍｐ化した字幕データをテキスト化したくて、
読んでココｖ９と最新体験版、革命ｖ１２、タイピストｖ１２、
スマートライトを試しました。スマートライトは画像読むだけで落ちるので
インストールに問題があったようなので別として、のこりでも、
見事に一文字たりとも認識されません。おまけにココだと、解像度エラー
といわれてしまいます。
吸い出し時に設定を変えてみましたが、白地に黒縁かその逆かはともかく
フチ付きの絵になり、それが誤認識の原因ではないかと考えていますが、
あまり自信がありません。どういう手順で、またどんなソフトを使って
（ｂｍｐは１５００あるので、ひとつずつ開かなくてすむように）色などの
調整を試すのがよいか、どなたか教えてくださいませんでしょうか？
722 名前：名無しさん＠お腹いっぱい。 [2008/08/07(木) 18:58:58 ID:eM6AkDyu0]: 前に画像処理ソフトで処理してから読み込ませた方がいいかも。

ネガ反転や、解像度変更、ノイズ除去、余白やいらない部分の削除、カラー画像であればグレースケールや白黒画像に変換など、

一括処理できるソフトもたくさん有りますから、やってみるといいかもね。
723 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 00:32:22 ID:IzZ40ACA0]: どうしても小文字（ぁぃぅぇぉやゃゅょなど）が弱い
どこのソフトも駄目だ
724 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 09:31:08 ID:v6VOgDwN0]: e.Typist ver12買ってOCR作業中。
正　。 → o・O・0・０　これは許す。すっごいイヤだけど難しいだろうから。
正　I　→１　これも当然許す。すっごい難しいだろうから。英語領域にしていすればかなり改善するし。
正　- → 1・I　これはなに？　なにしてるの？　バカなの？('Ａ`)
725 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 09:36:20 ID:QnPzfkJy0]: >>724
OCRにマジになるとか時間の無駄
726 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 12:13:34 ID:jZK0Tj450]: >>724
そんなに嫌なら文字種いじれよ
727 名前：名無しさん＠お腹いっぱい。 [2008/08/14(木) 04:33:00 ID:bB/191pD0]: 設定が悪いんじゃないの（笑）
728 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 10:08:20 ID:+Lwt0Ob70]: 同じくeTypsit使ってるけど、ScanSnapでPDFに→OCR→透明テキスト付きPDFにすると画像がかなり劣化する。
Scan直後のPDFの画質を守る方法ってないのかな？(´･ω･`)
Acrobat Pro持ってるけど、画像が劣化したあとのPDFを編集しても意味ないよね…
729 名前：名無しさん＠お腹いっぱい。 [2008/08/14(木) 16:13:43 ID:BarBaXMw0]: 透明テキストつけるだけなのに
画像が痛むのか
730 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 17:14:00 ID:yeyKQnnw0]: OCRソフトのpdf入力は一端仮想プリンタに出しちゃって画像にして
文字認識してから改めてpdfに仕立て直してるからな。

最初からjpgでスキャン出力してそれをOCRソフトにかけるか
pdfにしちゃってたものは一度画像として書き出してからOCRソフトにかければいい。
731 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 22:51:59 ID:d+q5/K3K0]: 実家にある本でもテキスト化してみるかと思って読んでココの体験版入れてみたけど
使い方もわかんねえし、結構めんどくさいんだな
小説なんかをちゃんと設定してやると誤認識1ページにどれくらいになるの？
732 名前：名無しさん＠お腹いっぱい。 [2008/08/15(金) 02:20:36 ID:UA5Ln4AC0]: きちんとやればほとんどご認識なんかないよ。
どうしても読めない漢字とかってあるけど。
たとえば解像度600ｄｐｉとか、試しにやってみれば。
733 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/15(金) 06:10:09 ID:3bwMrQBM0]: 読んdeココのOCRファクトリー便利だぜ。
一度設定すればアイコンをダブルクリックするだけで全部自動でやってくれる。
734 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/16(土) 21:12:32 ID:BBpdl85r0]: >>731
元の本のフォントと組版、スキャンの解像度にもよるけど
最良の時で大体1～2頁に1字前後
酷いと1頁に10字以上とかあるね

1頁に誤字一字の割合だと読でてかなり気になるレベルだから
結局全編目を通して修正することになるね
735 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/17(日) 10:35:23 ID:EfKqQDE+0]: e.Typist使ってみたけど、たまに一文字を勝手に分離して認識してしまう。
「え」が「、」と「λ」とかになる。
二文字に認識してるから学習しようがない。
細い所とかかすれるとだめ。
まだまだって感じだなあ。
736 名前：名無しさん＠お腹いっぱい。 [2008/08/17(日) 21:14:50 ID:NNvDk3xe0]: 何様だよｗ
737 名前：名無しさん＠お腹いっぱい。 [2008/08/17(日) 21:44:41 ID:a9bB+bqN0]: 読んでココの開発者だろ
738 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/18(月) 01:00:46 ID:v0mRsvdB0]: >>732
ああ普段使わないからスキャナの設定なんか全く見てなかったわ
画像データだけ持ってきたけど、だめかもシンネ

OCRファクトリーでまとめて読み込んだ後って読んでココ上で誤字とか確認してる？
画像勝手に追いかけてくれるし、学習しなきゃだけど、エディターが使い
739 名前：名無しさん＠お腹いっぱい。 [2008/08/19(火) 14:17:41 ID:m4W/W6650]: 読んでココを試用してますが、
原稿では２行になってるはずなのに、１行の文として認識してしまい、
わけ分からない文字列を出してくるとき、これを２行に修正することは出来ませんか？
ただテキストを起こすだけなら、認識結果画面で改行して手打ちすれば良いだけですが、
当方、画像が重要な資料を扱ってるため、ＰＤＦで透明テキストで貼り付ける必要があり、
ただ改行しただけでは、透明テキストにはその追加した行が反映されていないのです。
740 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 14:32:14 ID:pZKp1XtT0]: AcrobatってOCRソフトとしてどんなもんなんだろう？
アカデミック版Standardで1万ちょいだから買ってみようかな？
741 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 14:37:27 ID:9YTtEXub0]: AcrobatのOCRは糞
よんでここ＞＞e.typist＞読み取り革命＞＞＞＞AcrobatOCR
742 名前：名無しさん＠お腹いっぱい。 [2008/08/19(火) 20:34:17 ID:aPjCwCOs0]: acrobat ocr≒ﾖﾝﾃﾞｺｺ

ﾖﾝﾃﾞｺｺ工作員市ね
743 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 22:10:18 ID:ThYcLLsW0]: e.Typist＞読んでココだろ。
744 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/20(水) 11:54:34 ID:5xCLDVVM0]: e.TypistのＨＰ見てきたけど、
取り込んだ画像の補正機能について何も書いてないようなんだが、
見開きの傾き自動補正とか出来るのかな？
745 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 02:30:37 ID:VsRH2oEP0]: ここにはe.Typist使ってる奴はいないってことか
746 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 10:04:41 ID:piDQE/Jd0]: 5cm身長アップが50m身長アップになった
これで俺も51m56cmだぜ
747 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 12:47:35 ID:Q0h/A3Xy0]: >>744
見開き手動補正はできる。
自動の傾き補正は見開きには対応してない。
748 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 15:39:21 ID:Gdf1OOpi0]: >>747
そっかー手動なのか。
こういうのは機械任せがありがたいんだけどなー。
サンキュー
749 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 17:31:48 ID:ksXciaP30]: smartOCRはいつも「事」を「夢」と認識する
後からテキストエディタで一括修正した方がいいのか
750 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 06:25:03 ID:h6cmS6A40]: >749
認識辞書で対応すべきではある
「夢」と「事」じゃ、正規表現使ってもまともに修正するのは難しいし、
一括置換すると間違ってないところまで間違えてしまいかねん、一つ一つ
修正するのはどっちもそれなりの数がありそうだから面倒

>745
e.Typistも読んdeココも使ってる。
個人的な感想としては、OCR結果を縮小してあるような画像だと、e.Typistのが
認識率はかなり高い。画像がでかくなるほど両者の認識率は近づいていくけど、
OCR直後のでかい画像だと読んdeココのが多少いいような気はする。

>739
不可能だな。1文字の区切りがきちっとできている状態で、それがどの文字なのかを
学習させることは可能だが、1文字の範囲がどこからどこまでかは学習させようが
ない。本文とルビをごっちゃにして1文字にしてしまうような場合と同様で、ずっと
以前からこういう状態だから、技術革新がないと無理じゃね
751 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 09:59:49 ID:rHvUrtQk0]: >>750
ピントのずれた、無駄に長い、タイミングの悪いレス、どうもありがとう。
752 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 10:12:44 ID:MGOLjeef0]: 別にずれてないんじゃね
753 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 10:58:32 ID:b29yVzjt0]: 正解率９９％　ネット認証技術、書籍のデジタル化に威力
ttp://www.asahi.com/science/update/0823/TKY200808230207.html
754 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 17:48:36 ID:5eaoBiak0]: うーん、99.1% ってほぼ自動ってのにはまだまだ程遠いね・・・
755 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 18:00:07 ID:GHGOAqBa0]: つかこれ英語限定じゃないの
756 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 18:50:29 ID:kMvnDz2o0]: 人間の正解率てのは元々どのくらいなんだろうな。
俺なんて入力ミスもしてたんだろうが再入力の経験が何度もあるぞ。
人力OCRだから英語以外は対象地域を絞らないと無理だろうね。
757 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 20:00:55 ID:JUspXpDS0]: >>753
結構いいアイデアだな。
日本語だと厳しいが、まあ2chとかの日本語コミュニケーション限定サイトに
置くなら何とかなるかもしれん。

・・・と書いてて今気付いたんだが、難読文字を読んで貰って、それが正しいかどうかの
答え合わせは誰がやってるんだ？
読んだ結果が正しいと判って、それで初めて認証として成立するんだろ？
758 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 22:11:40 ID:pBM6iPT60]: >>753
よくこんなこと思いついてしかも実行したよなｗｗ
759 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/26(火) 11:13:56 ID:3pII43Sm0]: >>757
二つのＯＣＲで一致した部分は正解、ちがった部分は不明として
正解と不明が含まれたものを表示して入力させ
正解の部分は認証として使い、不明部分を入力結果から拾う

とかかね
760 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/29(金) 05:58:38 ID:PUHS2H7P0]: 多数決
761 名前：名無しさん＠お腹いっぱい。 [2008/08/30(土) 16:48:15 ID:UobhjFbi0]: ケツ多数
762 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/31(日) 00:12:15 ID:xOEiIMAi0]: どんなに正答率が上がったところで人による目視チェックは必須だろう。
763 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/07(日) 09:56:23 ID:9RYOriMs0]: >>762
>人による目視チェックは必須

そうです。そしてそこが一番手間と時間がかかる部分。

上に出てたAcrobatのOCRはこのプロセスがないし、埋め込まれた
透明テキストを後から修正するのも事実上困難（不可能では
ないが、OCRソフトでオンタイムに修正していくような訳にはいかない）。
一カ所でも間違いあると困るというOCR作業もあるでしょうが、そうでない
場合には割り切って使うと便利とも言える。特にScanSnapとの組み合わせ
で大量の文書を処理する時など。

OCRエンジンも7で読んde! ココ（の世代落ち）になってるが、8や9で
どうなってるのか分からない。
764 名前：名無しさん＠お腹いっぱい。 [2008/09/10(水) 11:38:25 ID:H8/lfHgO0]: ＯＣＲ使ってて感じるのは、誤変換の原因はほとんど「切り出し間違い」。
文字列に占める空白の割合なんかから一意に決めてるんだろうけど、
カスレの多い原稿だと区切るところがめちゃくちゃ・・・
きっちり区切りなおせば正しく認識できるのに・・・
ユーザー辞書や単語認識かけて文字列にならないときとか、
この切り出しを見直して再認識処理してくれないのかね？
処理時間がべらぼうにかかりそうだけど。
765 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 12:42:49 ID:8eNIWm0W0]: GPUで処理できるようになったら何でも有りになるな。
766 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 18:20:58 ID:8r86j5IT0]: 読んでココ使ってるんだけど、「～」が認識されず空欄になってることが多い。
ユーザー辞書にも1文字だけど登録してるのに。何とかならないのかな？
767 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 18:22:38 ID:aAaEuFR10]: >764
小説みたいに同じ大きさの文字が延々と続いているのであれば、文字の大きさを
手動指定するモードとかあっても良さそうだよな。
見出し、本文、ルビの大きさを指定して、そこから文書を解析して認識するのなら
そんなに難しくはないような気もする。新聞とか広告文みたいにいろんな大きさの
文字が混在するのには無力だろうけど
768 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/12(金) 17:59:53 ID:BkRq8OtC0]: ttp://code.google.com/p/nhocr/
NHocr is a command line OCR (Optical Character Recognition) program for Japanese language
769 名前：名無しさん＠お腹いっぱい。 [2008/09/21(日) 20:05:56 ID:CcopwTiy0]: 素人で失礼ですが
OCRソフトは、１０万円以上の価格でないと、７割文字認識できませんか？
770 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/21(日) 22:19:11 ID:m2yjq4Bi0]: 原稿の状態によっては何万出しても変わらない。
認識エンジン自体は1万前後の製品とはそんなに変わらなくて、内蔵辞書を持つとか、そういうところが変わってくる
771 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 01:41:38 ID:KwoBHrO90]: 既存のPDFファイル（複合機でスキャン）に透明テキストを乗せようと
読んdeココ！！と読取革命の体験版、クセロReaderZeroを試してみたのですが、
完成後のファイルサイズがとんでもなくマチマチになるのはどうしてでしょうか？
クセロで約3倍、読取革命で約5倍、読んdeココ！！で約17倍にもなってしまいました。

同じ読んdeココ！！で、自動処理ではなく手動で作業を進めていくと
元々のファイルとほとんど変わらないサイズのものができあがるので、
これと同様の処理をなんとか自動でしてもらえたらいいのですが。
772 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 09:25:41 ID:NU0TD4QW0]: 複合機の一部では、カラーやグレイスケール画像をJPEGの数分の１に圧縮するものがある

OCRで画像を読んで保存するときに、
１　読み込んだ画像を通常のJPEGで保存→ファイルサイズが数倍に
２　元の高圧縮画像のまま保存→ファイルサイズは元のまま

というケースに遭遇したことがある。今回のケースに当てはまるか分からんが。
773 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 15:57:00 ID:j94B8AKB0]: ソフト（と手順）によっちゃ画像をビットマップに展開して
再度圧縮してしまう場合もある

OCRソフトって文字認識に関しては強くてもPDFや画像の
扱いがなんでここまで糞なのってのが多い
774 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 16:30:47 ID:NU0TD4QW0]: 非可逆圧縮で何度も圧縮・伸張したらひどいことになるんじゃ...
と思ったら手動の場合はちゃんとやっているのか
775 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 18:09:51 ID:v43+h7ws0]: いったい何を言っているんだ？
776 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 20:46:29 ID:j94B8AKB0]: >>774
結構その「ひどいこと」になっちゃうOCRソフトが多い
777 名前：771 mailto:sage [2008/09/25(木) 01:44:15 ID:VosBAVv30]: レスありがとうございます。

>>773さんの書かれているところが問題のようですね。
試しに複合機で作成したPDFファイルをAcrobat Pro（の体験版）でTIFFに変換し、
それをOCRで自動処理し透明テキストPDF出力としたところ、
サイズの変動がほとんどなくなりました。
次からは複合機でのスキャン時にPDFではなくTIFFで保存することにします。

あとは見開きの傾き自動補正がどのソフトでもできないようなので、
これについてはTIFFファイルをどうにか処理してみようと思います。

マンガのスキャン技術スレはマニアックな深みにはまってるようですが、
検索用に本をPDF形式でため込むだけならかなりよい感じですね。
778 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/25(木) 08:14:14 ID:A9ZTqUPm0]: >>777
＞マンガのスキャン技術スレはマニアックな深みにはまってるようですが

そのスレ教えてください。
779 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/25(木) 14:59:37 ID:6Td5Al990]: ＞あとは見開きの傾き自動補正がどのソフトでもできないようなので
読んでココはできるっしょ？
780 名前：名無しさん＠お腹いっぱい。 [2008/09/26(金) 13:37:29 ID:yFUJpsc5O]: e.Typist使ってるんだけど、だんだん操作するのが面倒になってきたので、
ファイル名を渡して連続自動処理を開始させたいんだけど、
どうやれば可能なの？
781 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 18:17:08 ID:z9c8uZzd0]: >>778
【初めての】スキャン職人養成スレ七【自炊】
ttp://changi.2ch.net/test/read.cgi/download/1217071704/
とか
【コミック】自炊技術スレッド 30冊目【書籍】
ttp://changi.2ch.net/test/read.cgi/download/1219749815/
とか見てると画質と作業時間のトレードオフで無闇に画質よりにしすぎてるような気がするのですが。

>>779
最初に読ませるファイルと最後の出力ファイル名以外は全自動でさせるモードだと、
普通の傾き補正しか選べなかったように思うのですが、もう一度見てみますね。
「見開きのラインを認識できないなら仕方ない」と漠然と考えていたのですが。
782 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 18:39:15 ID:Dg2t2hyN0]: ＞最初に読ませるファイルと最後の出力ファイル名以外は全自動でさせるモードだと、
ああ、ＯＣＲファクトリーのことか。
それは使ったこと無いからわかんないや。
読んでココで見開き自動補正というと、センターを手動で指定すると、
あとは自動で傾き検出、補正してくれるってことだから。
783 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:07:07 ID:z9c8uZzd0]: >>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。
784 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:13:45 ID:z9c8uZzd0]: >>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。
785 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:31:24 ID:z9c8uZzd0]: >>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。
786 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:32:42 ID:z9c8uZzd0]: うわああ連投してしまってた。申し訳ないですorz
787 名前：RQJgKKUofecPPwugoiK mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:09 ID:HUr/ledZ0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
788 名前：bBDymJSOLg mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:09 ID:TK425olO0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
789 名前：kIEszFhHEH mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:19 ID:E+wJqkJG0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
790 名前：lqhDyZkYU mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:25 ID:IPLca0TN0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
791 名前：rLrwTcsIAjZpfNgSA mailto:cjebupqq@gmail.com [2008/10/21(火) 00:24:59 ID:Ps1bh35Y0]: NSr3Vk This pearl has a programmable grind and brew feature, it holds a quarter pound of coffee beans and it has a filter indicator to tell you when your water filter is pooched, frespmesh.cn/vonsweeklyad.html Vons Weekly Ad
, :[[, fresnmesh.cn/protran.html Protran
, 843, fresnmesh.cn/ludogameprogramminginc.html Ludo Game Programming In C
, jii, fresimesh.cn/snugharbormarinachautauquany.html Snug Harbor Marina Chautauqua Ny
, enlfg, fresimesh.cn/jardinetechnicalservices.html Jardine Technical Services
, 8], freshmesfsdfh.cn/lightbearers.html Lightbearers
, fvfm, fresimesh.cn/safestprescriptioneyeglassesfdaapproved.html Safest Prescription Eyeglasses Fda Approved
, 966151, fresjmesh.cn/femalepudenda.html Female Pudenda
, 8-(, fresqmesh.cn/sacagaweadollarquartermachined.html Sacagawea Dollar Quarter Machined
, 6948, fresmmesh.cn/hydrolux.html Hydrolux
, :PPP, freskmesh.cn/dvop.html Dvop
, 8-PPP,
792 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/28(火) 07:01:10 ID:2UwgvcQp0]: 読んでココ、早くunicode文字に対応してくれ！
793 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 19:21:47 ID:GUt1EgdT0]: OCRソフトって、前後の文字から推測するアルゴリズムにすれば
熟語とかの認識率が格段に上がるはずなのになんでやらないんだろう？
どうみても１文字ずつ単体でしか認識しようとしてないよな。
794 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 20:30:23 ID:K8CjuoRX0]: OCRって、元々の用途を考えると文章には不向きなんだよね。
申し込み用紙など決まった書式の中に住所、氏名書くようなものとか葉書（送り先を読み取って自動仕分けする機械がある）とか。
一語一句（誤字脱字も異字体も）正確に読み取るような用途向けだったはず。

それに、1文字でも誤認識があると、熟語全体を誤認識する可能性すらある。（だから「格段に上がるはず」という想定が通用しない。）
それを自動でどうにかするのが逆に難しい。1文字の区切りや行、列の方向を誤認識する事すらあるくらいなのに、複数文字組み合わせで
判定しようとすると辞書に無い熟語は認識率が上がらないし、辞書に無い熟語を「辞書にある熟語」で誤認識する可能性もある。
辞書の語彙を増やすと似たような文字を誤認識した場合に熟語ごと誤認識する可能性も高まる。

結局は1文字ずつちゃんと認識できないと辞書があっても誤認識率が上がるか大して変わらないからあまり意味が無いのでは?と思う。（人間の曖昧情報の認識力って優秀だよね、と思える部分）
かな漢変換エンジン（今で言うIME）のメーカーとOCRメーカーが組んで作ったところで・・・1文字誤認識しただけで1文丸々誤認識とか勘弁して欲しい事態になることも。
795 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 11:25:27 ID:6UKMxSSc0]: そこまでいく文字認識じゃなくて人工知能だからね。
コンピュータに一般常識やら駆け引きやらを実行させなくてはならない問題だ。
膨大なデータベースと高速演算が出来れば可能なのかもしれないが。
796 名前：793 mailto:sage [2008/10/30(木) 18:26:59 ID:wNT2JRDf0]: いやいや人工知能ってほど大げさなものじゃなくてさ。
例えば「微細」っていう言葉を認識するのに、ソフトは１語ずつ第一候補・第二候補…と
候補の語をいくつか持っていると思うんだよ。
それで２つの語の候補がそれぞれ、[1:徴 2:微 3:徹] [1:細 2:紳 3:組]だったとすると
この語句の組み合わせ(３ｘ３＝９通り)で熟語として成り立つのは「微細」だけ。
１語ずつ認識すると「徴細」という誤った結果になるけど、語の組み合わせで辞書と照合
すれば正しく「微細」となる。
単純に、辞書で照合できた熟語だけ優先的に出力するということ。
活字のOCRならこの方法が有効だと思うんだけどなあ。
797 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 18:37:13 ID:1mZmHH950]: >>793
実際高い製品ではそういうのができるものもあるよ。
というかスペルチェッカや文法チェッカのような技術は確立してるし、日本語の形態素解析も、再変換の技術がある程度確立してるから、技術的な困難はない。
ただデータベースのサイズが格段に上がるうえ、認識に極端な時間がかかる、辞書に載ってない言い回しや単語に弱い、言語が固定されてしまう(外来語に弱い)等の問題がある。
798 名前：名無しさん＠お腹いっぱい。 [2008/10/30(木) 20:28:12 ID:/oREtNdF0]: そういう機能って、E.
とか読とかにだって最初からついてるよ。
マニュアルちゃんと読んで使えるようになってください。
799 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 21:45:34 ID:MMyq2Afv0]: 英語のような分かち書きする言語だと比較的対応してるよな
800 名前：793 mailto:sage [2008/10/31(金) 18:17:48 ID:JCWTUkt60]: >>798が言ってるのはおそらくよく間違えて認識する単語を予め手動で登録しておく
ユーザー辞書のことを言ってるんだと思う。
俺が言ってるのはそうじゃなくて、国語辞典並みの20万語くらいの辞書をソフトが
持っていてその辞書を使って認識させることを言ってる。確かに>>797が言うように
極端に時間がかかる可能性があるし、メモリも食うと思う。今まで１時間程度で
終わってた処理がもしかしたら１０時間くらいかかるかもしれない。でもそれだけ
かかっても認識の精度の方を選びたいという需要はあると思うんだよな。速度重視と
認識率重視の２つのモードがあってもいい。現在95～99%と言われる認識率が1～2%
上がるだけでも十分価値がある。最近のマルチコアのCPUを有効に活用できると思うし。
801 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/31(金) 20:11:39 ID:bCRz+lPk0]: 時間のかかるOCRソフトに用はありません
昔の3D処理ソフトじゃあるまいし
802 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/31(金) 20:29:59 ID:xBhEoWYg0]: >>800
長文書く前にOCRを使ってみてはどうか?
お望みの辞書がついてると思う。
が、お望みの価値は見出せないだろう。
803 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/31(金) 21:12:56 ID:JLOd34LC0]: >>800
先ずワードのスペルチェッカや文法チェッカを使えよ
道具を使えないんじゃチンパンジー以下だぞ
804 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/01(土) 03:50:42 ID:SFh3NAV80]: >>800

ttp://mediadrive.jp/products/wrp/index.html
ttp://mediadrive.jp/products/wrp/index5.html
805 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/01(土) 13:09:12 ID:A6vJWRwI0]: e.typistのバージョン上がってたから一応
001408DE ： 11→00

eTyp12mem.dllは一緒
806 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 13:02:46 ID:AJubgEGf0]: たぶんＯＣＲ使ったこと無くて、想像で言ってるんだろうね。
現状、認識処理に1時間もかかるわけがないw
807 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 16:11:17 ID:SxT+me9H0]: OCRだって自然言語処理してるよ
認識候補に対して辞書を使って絞り込みとかやってる
808 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 16:15:31 ID:9MBAetAc0]: 認識処理は昔から早いけど、
結局は結果確認と誤認識や体裁の修正は必ずしないといけない。
その修正作業がどれだけ楽になるかがOCRソフトの一番大事なところ。
809 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 17:28:07 ID:cwzkfA700]: >>805
kwsk
810 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 17:31:04 ID:poJP7dLr0]: >>809
いや駄目だろ、それは

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef