[OCR] 画像→テキスト化総合

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 12/23 15:51 / Filesize : 206 KB / Number-of Response : 904
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

[OCR] 画像→テキスト化総合

1 名前：名無しさん＠お腹いっぱい。 [2006/03/06(月) 18:04:38 ID:eFU2jlRP0]: 読んde!!ココ・読取革命・e.Typist・OmniPage・OmCR(オムロン)・CROSS OCR・本格読取・表OCRなどなど・・・
最近SmartOCRなんてフリーソフトも出てきたけど、やっぱり読んde!!ココか、読取革命だよな。
692 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 19:23:56 ID:xmMzdCDf0]: >>691
理屈の前に日本語勉強しる
693 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/23(金) 02:21:36 ID:dy5Q840K0]: >>692
便所の落書き2chに何を興奮してんだよ、
変な物見てんじゃないぞ
694 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/23(金) 08:39:24 ID:qndHTxug0]: >>687
借りた本を売ったらいかんだろ
ってのはともかく、
自分で買った本なら別に法には触れないだろ。
695 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/24(土) 16:45:05 ID:zkuID2AP0]: PDF画像からﾃｷｽﾄに変換で色々調べて準備終わった。
いざ実行してみるとPDFに画像ｺﾋﾟｰ禁止の権限が・・　ヽ(`Д´)ﾉｵﾚﾉｼﾞｶﾝｶｴｾｰ
696 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/25(日) 01:29:44 ID:aA4ZumvxO]: e.Typist ver.12を使ってみたんだけど、ルビを埋め込み設定にしたにも関わらず、認識結果は埋め込みとそのままが表示された。
ver.11だと普通に埋め込みのみなんだけど、原因がわからん。
設定同じなんだけどなぁ。なんか設定いじくる必要があるのかな。
どなたか解決策ご存じありませんか。
697 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/27(火) 01:48:16 ID:/mEeoUdB0]: >>695
互換PDFビューアの過去バージョンで権限無視でコピーできるって話が昔あったような。
698 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/29(木) 03:56:45 ID:uFnsPlIH0]: ビジネス書とかの単行本をテキスト化してるが、
e.Typist＞＞読んdeココ＞＞＞＞＞＞＞＞読取革命
だな。
読んdeココは多機能で使いやすくてバランスが取れた製品だと思うけど、
純粋に文字認識の精度だけを比べるとe.Typistが一番優れてる。
699 名前：名無しさん＠お腹いっぱい。 [2008/06/03(火) 23:17:38 ID:mqE/evSE0]: >>680
ABBYY社のFineReaderはスゴイ
日本語化出来ないんだろうか？
700 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/03(火) 23:47:39 ID:WQ9oBg400]: >>699
e.typistと比べてどっちが認識率が高い？
701 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/04(水) 02:49:03 ID:0YcMkrT10]: >>700
英語ならFineReader、日本語ならe.Typistに決まってるだろ。
702 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/06(金) 08:28:43 ID:St1jBd+t0]: FineReaderってOmnipageよりいい？
703 名前：名無しさん＠お腹いっぱい。 [2008/06/06(金) 15:13:42 ID:bjY5yxxP0]: いい場合も悪い場合もある
www.ocrreview.com/
704 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/14(土) 03:46:01 ID:3uX8P8rx0]: >>703
このサイト初めて見た。認識率だとやっぱりOmniPageが優れてるね。
FineReaderもそれに近い値だけど、時間も遅いので、なんだかこれを
使うメリットがにくい。
705 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/23(月) 21:24:23 ID:fdvf+v9p0]: 警察は宗教に目を光らせている、盲信によって罪悪感のない犯罪を
起こしやすい、教祖の出来不出来でその人の人生が決まる

教祖だけに罪はない、似たもの同士がお見合いするのかも知らない、
騙す人間が悪いが、騙される人間も同類か
706 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/23(月) 22:00:12 ID:KvQHOAny0]: これまた激しい誤爆だな。
707 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/24(火) 00:35:24 ID:kDEQN6+m0]: >>705
ＯＣＲ誤認識がひどいな。
708 名前：名無しさん＠お腹いっぱい。 [2008/06/25(水) 08:59:23 ID:DKou2GCA0]: 読んでココはpdf出力するとき、追加保存が出来ないんだな。
wardやhtmlならできるのに・・・
仕方ないから新規ファイルで保存した後、いちいちpdfエディタ立ち上げて
結合させてるけど、マンドクセ。
709 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/25(水) 15:04:00 ID:OJ8SNbTv0]: 見開き表示とか綴じ方(右から左)の設定もできないから不便だよね。
710 名前：名無しさん＠お腹いっぱい。 [2008/06/30(月) 17:17:28 ID:nNrhDlkb0]: ominipage 16が$79.99で買えるキャンペーン中

www.digitalriver.com/promo=212017
711 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:37:06 ID:5LpB7fyT0]: >>710
↑クレカの番号と所有者名を収集してるんか？
トップページに行けないぞ？
712 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:38:03 ID:5LpB7fyT0]: Domain Name: NUANCESTORE.COM
Registrar: NETWORK SOLUTIONS, LLC.
Whois Server: whois.networksolutions.com
Referral URL: www.networksolutions.com
Name Server: PDNS1.ULTRADNS.NET
Name Server: PDNS2.ULTRADNS.NET
Name Server: PDNS3.ULTRADNS.ORG
Name Server: PDNS4.ULTRADNS.ORG
Status: clientTransferProhibited
Updated Date: 16-oct-2006
Creation Date: 01-feb-2006
Expiration Date: 01-feb-2009
713 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:38:43 ID:5LpB7fyT0]: Registrant:
Digital River, Inc.
9625 W. 76th Street
Eden Prairie, MN 55344
US

Domain Name: NUANCESTORE.COM

------------------------------------------------------------------------
Promote your business to millions of viewers for only $1 a month
Learn how you can get an Enhanced Business Listing here for your domain name.
Learn more at www.NetworkSolutions.com/
------------------------------------------------------------------------

Administrative Contact, Technical Contact:
Digital River, Inc. hostmaster@digitalriver.com
9625 W. 76th Street
Eden Prairie, MN 55344
US
952-253-1234 fax: 952-253-8497

Record expires on 01-Feb-2009.
Record created on 01-Feb-2006.
Database last updated on 30-Jun-2008 06:31:44 EDT.
714 名前：名無しさん＠お腹いっぱい。 [2008/07/01(火) 08:23:46 ID:AL20YzVU0]: はあ？
ieでもsafariでもいけるよ
715 名前：名無しさん＠お腹いっぱい。 [2008/07/09(水) 09:25:33 ID:tqR/hLP70]: 手書きの文字が認識できるOCRソフトってありますか？
716 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/07/25(金) 18:03:44 ID:nsfqqXyN0]: TextSS
717 名前：名無しさん＠お腹いっぱい。 [2008/07/31(木) 12:46:10 ID:KkyDCbb60]: 文字じゃなくて、表などの枠線をスキャナから認識ってできますか？
718 名前：名無しさん＠お腹いっぱい。 [2008/07/31(木) 14:14:49 ID:kYKcm3m90]: できます
jp.fujitsu.com/group/fct/services/archive/ocr/
719 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/07/31(木) 23:49:10 ID:mcLkMUjo0]: >>717
e.Typistってのを使ってるけど、できますん
720 名前：名無しさん＠お腹いっぱい。 [2008/08/01(金) 10:40:29 ID:DLLVnu+y0]: >>718
終了だから"できた"でつね
721 名前：名無しさん＠お腹いっぱい。 [2008/08/07(木) 00:06:40 ID:BSuE1Slo0]: SubRipでｂｍｐ化した字幕データをテキスト化したくて、
読んでココｖ９と最新体験版、革命ｖ１２、タイピストｖ１２、
スマートライトを試しました。スマートライトは画像読むだけで落ちるので
インストールに問題があったようなので別として、のこりでも、
見事に一文字たりとも認識されません。おまけにココだと、解像度エラー
といわれてしまいます。
吸い出し時に設定を変えてみましたが、白地に黒縁かその逆かはともかく
フチ付きの絵になり、それが誤認識の原因ではないかと考えていますが、
あまり自信がありません。どういう手順で、またどんなソフトを使って
（ｂｍｐは１５００あるので、ひとつずつ開かなくてすむように）色などの
調整を試すのがよいか、どなたか教えてくださいませんでしょうか？
722 名前：名無しさん＠お腹いっぱい。 [2008/08/07(木) 18:58:58 ID:eM6AkDyu0]: 前に画像処理ソフトで処理してから読み込ませた方がいいかも。

ネガ反転や、解像度変更、ノイズ除去、余白やいらない部分の削除、カラー画像であればグレースケールや白黒画像に変換など、

一括処理できるソフトもたくさん有りますから、やってみるといいかもね。
723 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 00:32:22 ID:IzZ40ACA0]: どうしても小文字（ぁぃぅぇぉやゃゅょなど）が弱い
どこのソフトも駄目だ
724 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 09:31:08 ID:v6VOgDwN0]: e.Typist ver12買ってOCR作業中。
正　。 → o・O・0・０　これは許す。すっごいイヤだけど難しいだろうから。
正　I　→１　これも当然許す。すっごい難しいだろうから。英語領域にしていすればかなり改善するし。
正　- → 1・I　これはなに？　なにしてるの？　バカなの？('Ａ`)
725 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 09:36:20 ID:QnPzfkJy0]: >>724
OCRにマジになるとか時間の無駄
726 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 12:13:34 ID:jZK0Tj450]: >>724
そんなに嫌なら文字種いじれよ
727 名前：名無しさん＠お腹いっぱい。 [2008/08/14(木) 04:33:00 ID:bB/191pD0]: 設定が悪いんじゃないの（笑）
728 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 10:08:20 ID:+Lwt0Ob70]: 同じくeTypsit使ってるけど、ScanSnapでPDFに→OCR→透明テキスト付きPDFにすると画像がかなり劣化する。
Scan直後のPDFの画質を守る方法ってないのかな？(´･ω･`)
Acrobat Pro持ってるけど、画像が劣化したあとのPDFを編集しても意味ないよね…
729 名前：名無しさん＠お腹いっぱい。 [2008/08/14(木) 16:13:43 ID:BarBaXMw0]: 透明テキストつけるだけなのに
画像が痛むのか
730 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 17:14:00 ID:yeyKQnnw0]: OCRソフトのpdf入力は一端仮想プリンタに出しちゃって画像にして
文字認識してから改めてpdfに仕立て直してるからな。

最初からjpgでスキャン出力してそれをOCRソフトにかけるか
pdfにしちゃってたものは一度画像として書き出してからOCRソフトにかければいい。
731 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 22:51:59 ID:d+q5/K3K0]: 実家にある本でもテキスト化してみるかと思って読んでココの体験版入れてみたけど
使い方もわかんねえし、結構めんどくさいんだな
小説なんかをちゃんと設定してやると誤認識1ページにどれくらいになるの？
732 名前：名無しさん＠お腹いっぱい。 [2008/08/15(金) 02:20:36 ID:UA5Ln4AC0]: きちんとやればほとんどご認識なんかないよ。
どうしても読めない漢字とかってあるけど。
たとえば解像度600ｄｐｉとか、試しにやってみれば。
733 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/15(金) 06:10:09 ID:3bwMrQBM0]: 読んdeココのOCRファクトリー便利だぜ。
一度設定すればアイコンをダブルクリックするだけで全部自動でやってくれる。
734 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/16(土) 21:12:32 ID:BBpdl85r0]: >>731
元の本のフォントと組版、スキャンの解像度にもよるけど
最良の時で大体1～2頁に1字前後
酷いと1頁に10字以上とかあるね

1頁に誤字一字の割合だと読でてかなり気になるレベルだから
結局全編目を通して修正することになるね
735 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/17(日) 10:35:23 ID:EfKqQDE+0]: e.Typist使ってみたけど、たまに一文字を勝手に分離して認識してしまう。
「え」が「、」と「λ」とかになる。
二文字に認識してるから学習しようがない。
細い所とかかすれるとだめ。
まだまだって感じだなあ。
736 名前：名無しさん＠お腹いっぱい。 [2008/08/17(日) 21:14:50 ID:NNvDk3xe0]: 何様だよｗ
737 名前：名無しさん＠お腹いっぱい。 [2008/08/17(日) 21:44:41 ID:a9bB+bqN0]: 読んでココの開発者だろ
738 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/18(月) 01:00:46 ID:v0mRsvdB0]: >>732
ああ普段使わないからスキャナの設定なんか全く見てなかったわ
画像データだけ持ってきたけど、だめかもシンネ

OCRファクトリーでまとめて読み込んだ後って読んでココ上で誤字とか確認してる？
画像勝手に追いかけてくれるし、学習しなきゃだけど、エディターが使い
739 名前：名無しさん＠お腹いっぱい。 [2008/08/19(火) 14:17:41 ID:m4W/W6650]: 読んでココを試用してますが、
原稿では２行になってるはずなのに、１行の文として認識してしまい、
わけ分からない文字列を出してくるとき、これを２行に修正することは出来ませんか？
ただテキストを起こすだけなら、認識結果画面で改行して手打ちすれば良いだけですが、
当方、画像が重要な資料を扱ってるため、ＰＤＦで透明テキストで貼り付ける必要があり、
ただ改行しただけでは、透明テキストにはその追加した行が反映されていないのです。
740 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 14:32:14 ID:pZKp1XtT0]: AcrobatってOCRソフトとしてどんなもんなんだろう？
アカデミック版Standardで1万ちょいだから買ってみようかな？
741 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 14:37:27 ID:9YTtEXub0]: AcrobatのOCRは糞
よんでここ＞＞e.typist＞読み取り革命＞＞＞＞AcrobatOCR
742 名前：名無しさん＠お腹いっぱい。 [2008/08/19(火) 20:34:17 ID:aPjCwCOs0]: acrobat ocr≒ﾖﾝﾃﾞｺｺ

ﾖﾝﾃﾞｺｺ工作員市ね
743 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 22:10:18 ID:ThYcLLsW0]: e.Typist＞読んでココだろ。
744 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/20(水) 11:54:34 ID:5xCLDVVM0]: e.TypistのＨＰ見てきたけど、
取り込んだ画像の補正機能について何も書いてないようなんだが、
見開きの傾き自動補正とか出来るのかな？
745 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 02:30:37 ID:VsRH2oEP0]: ここにはe.Typist使ってる奴はいないってことか
746 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 10:04:41 ID:piDQE/Jd0]: 5cm身長アップが50m身長アップになった
これで俺も51m56cmだぜ
747 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 12:47:35 ID:Q0h/A3Xy0]: >>744
見開き手動補正はできる。
自動の傾き補正は見開きには対応してない。
748 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 15:39:21 ID:Gdf1OOpi0]: >>747
そっかー手動なのか。
こういうのは機械任せがありがたいんだけどなー。
サンキュー
749 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 17:31:48 ID:ksXciaP30]: smartOCRはいつも「事」を「夢」と認識する
後からテキストエディタで一括修正した方がいいのか
750 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 06:25:03 ID:h6cmS6A40]: >749
認識辞書で対応すべきではある
「夢」と「事」じゃ、正規表現使ってもまともに修正するのは難しいし、
一括置換すると間違ってないところまで間違えてしまいかねん、一つ一つ
修正するのはどっちもそれなりの数がありそうだから面倒

>745
e.Typistも読んdeココも使ってる。
個人的な感想としては、OCR結果を縮小してあるような画像だと、e.Typistのが
認識率はかなり高い。画像がでかくなるほど両者の認識率は近づいていくけど、
OCR直後のでかい画像だと読んdeココのが多少いいような気はする。

>739
不可能だな。1文字の区切りがきちっとできている状態で、それがどの文字なのかを
学習させることは可能だが、1文字の範囲がどこからどこまでかは学習させようが
ない。本文とルビをごっちゃにして1文字にしてしまうような場合と同様で、ずっと
以前からこういう状態だから、技術革新がないと無理じゃね
751 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 09:59:49 ID:rHvUrtQk0]: >>750
ピントのずれた、無駄に長い、タイミングの悪いレス、どうもありがとう。
752 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 10:12:44 ID:MGOLjeef0]: 別にずれてないんじゃね
753 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 10:58:32 ID:b29yVzjt0]: 正解率９９％　ネット認証技術、書籍のデジタル化に威力
ttp://www.asahi.com/science/update/0823/TKY200808230207.html
754 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 17:48:36 ID:5eaoBiak0]: うーん、99.1% ってほぼ自動ってのにはまだまだ程遠いね・・・
755 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 18:00:07 ID:GHGOAqBa0]: つかこれ英語限定じゃないの
756 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 18:50:29 ID:kMvnDz2o0]: 人間の正解率てのは元々どのくらいなんだろうな。
俺なんて入力ミスもしてたんだろうが再入力の経験が何度もあるぞ。
人力OCRだから英語以外は対象地域を絞らないと無理だろうね。
757 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 20:00:55 ID:JUspXpDS0]: >>753
結構いいアイデアだな。
日本語だと厳しいが、まあ2chとかの日本語コミュニケーション限定サイトに
置くなら何とかなるかもしれん。

・・・と書いてて今気付いたんだが、難読文字を読んで貰って、それが正しいかどうかの
答え合わせは誰がやってるんだ？
読んだ結果が正しいと判って、それで初めて認証として成立するんだろ？
758 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 22:11:40 ID:pBM6iPT60]: >>753
よくこんなこと思いついてしかも実行したよなｗｗ
759 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/26(火) 11:13:56 ID:3pII43Sm0]: >>757
二つのＯＣＲで一致した部分は正解、ちがった部分は不明として
正解と不明が含まれたものを表示して入力させ
正解の部分は認証として使い、不明部分を入力結果から拾う

とかかね
760 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/29(金) 05:58:38 ID:PUHS2H7P0]: 多数決
761 名前：名無しさん＠お腹いっぱい。 [2008/08/30(土) 16:48:15 ID:UobhjFbi0]: ケツ多数
762 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/31(日) 00:12:15 ID:xOEiIMAi0]: どんなに正答率が上がったところで人による目視チェックは必須だろう。
763 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/07(日) 09:56:23 ID:9RYOriMs0]: >>762
>人による目視チェックは必須

そうです。そしてそこが一番手間と時間がかかる部分。

上に出てたAcrobatのOCRはこのプロセスがないし、埋め込まれた
透明テキストを後から修正するのも事実上困難（不可能では
ないが、OCRソフトでオンタイムに修正していくような訳にはいかない）。
一カ所でも間違いあると困るというOCR作業もあるでしょうが、そうでない
場合には割り切って使うと便利とも言える。特にScanSnapとの組み合わせ
で大量の文書を処理する時など。

OCRエンジンも7で読んde! ココ（の世代落ち）になってるが、8や9で
どうなってるのか分からない。
764 名前：名無しさん＠お腹いっぱい。 [2008/09/10(水) 11:38:25 ID:H8/lfHgO0]: ＯＣＲ使ってて感じるのは、誤変換の原因はほとんど「切り出し間違い」。
文字列に占める空白の割合なんかから一意に決めてるんだろうけど、
カスレの多い原稿だと区切るところがめちゃくちゃ・・・
きっちり区切りなおせば正しく認識できるのに・・・
ユーザー辞書や単語認識かけて文字列にならないときとか、
この切り出しを見直して再認識処理してくれないのかね？
処理時間がべらぼうにかかりそうだけど。
765 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 12:42:49 ID:8eNIWm0W0]: GPUで処理できるようになったら何でも有りになるな。
766 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 18:20:58 ID:8r86j5IT0]: 読んでココ使ってるんだけど、「～」が認識されず空欄になってることが多い。
ユーザー辞書にも1文字だけど登録してるのに。何とかならないのかな？
767 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 18:22:38 ID:aAaEuFR10]: >764
小説みたいに同じ大きさの文字が延々と続いているのであれば、文字の大きさを
手動指定するモードとかあっても良さそうだよな。
見出し、本文、ルビの大きさを指定して、そこから文書を解析して認識するのなら
そんなに難しくはないような気もする。新聞とか広告文みたいにいろんな大きさの
文字が混在するのには無力だろうけど
768 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/12(金) 17:59:53 ID:BkRq8OtC0]: ttp://code.google.com/p/nhocr/
NHocr is a command line OCR (Optical Character Recognition) program for Japanese language
769 名前：名無しさん＠お腹いっぱい。 [2008/09/21(日) 20:05:56 ID:CcopwTiy0]: 素人で失礼ですが
OCRソフトは、１０万円以上の価格でないと、７割文字認識できませんか？
770 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/21(日) 22:19:11 ID:m2yjq4Bi0]: 原稿の状態によっては何万出しても変わらない。
認識エンジン自体は1万前後の製品とはそんなに変わらなくて、内蔵辞書を持つとか、そういうところが変わってくる
771 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 01:41:38 ID:KwoBHrO90]: 既存のPDFファイル（複合機でスキャン）に透明テキストを乗せようと
読んdeココ！！と読取革命の体験版、クセロReaderZeroを試してみたのですが、
完成後のファイルサイズがとんでもなくマチマチになるのはどうしてでしょうか？
クセロで約3倍、読取革命で約5倍、読んdeココ！！で約17倍にもなってしまいました。

同じ読んdeココ！！で、自動処理ではなく手動で作業を進めていくと
元々のファイルとほとんど変わらないサイズのものができあがるので、
これと同様の処理をなんとか自動でしてもらえたらいいのですが。
772 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 09:25:41 ID:NU0TD4QW0]: 複合機の一部では、カラーやグレイスケール画像をJPEGの数分の１に圧縮するものがある

OCRで画像を読んで保存するときに、
１　読み込んだ画像を通常のJPEGで保存→ファイルサイズが数倍に
２　元の高圧縮画像のまま保存→ファイルサイズは元のまま

というケースに遭遇したことがある。今回のケースに当てはまるか分からんが。
773 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 15:57:00 ID:j94B8AKB0]: ソフト（と手順）によっちゃ画像をビットマップに展開して
再度圧縮してしまう場合もある

OCRソフトって文字認識に関しては強くてもPDFや画像の
扱いがなんでここまで糞なのってのが多い
774 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 16:30:47 ID:NU0TD4QW0]: 非可逆圧縮で何度も圧縮・伸張したらひどいことになるんじゃ...
と思ったら手動の場合はちゃんとやっているのか
775 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 18:09:51 ID:v43+h7ws0]: いったい何を言っているんだ？
776 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 20:46:29 ID:j94B8AKB0]: >>774
結構その「ひどいこと」になっちゃうOCRソフトが多い
777 名前：771 mailto:sage [2008/09/25(木) 01:44:15 ID:VosBAVv30]: レスありがとうございます。

>>773さんの書かれているところが問題のようですね。
試しに複合機で作成したPDFファイルをAcrobat Pro（の体験版）でTIFFに変換し、
それをOCRで自動処理し透明テキストPDF出力としたところ、
サイズの変動がほとんどなくなりました。
次からは複合機でのスキャン時にPDFではなくTIFFで保存することにします。

あとは見開きの傾き自動補正がどのソフトでもできないようなので、
これについてはTIFFファイルをどうにか処理してみようと思います。

マンガのスキャン技術スレはマニアックな深みにはまってるようですが、
検索用に本をPDF形式でため込むだけならかなりよい感じですね。
778 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/25(木) 08:14:14 ID:A9ZTqUPm0]: >>777
＞マンガのスキャン技術スレはマニアックな深みにはまってるようですが

そのスレ教えてください。
779 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/25(木) 14:59:37 ID:6Td5Al990]: ＞あとは見開きの傾き自動補正がどのソフトでもできないようなので
読んでココはできるっしょ？
780 名前：名無しさん＠お腹いっぱい。 [2008/09/26(金) 13:37:29 ID:yFUJpsc5O]: e.Typist使ってるんだけど、だんだん操作するのが面倒になってきたので、
ファイル名を渡して連続自動処理を開始させたいんだけど、
どうやれば可能なの？
781 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 18:17:08 ID:z9c8uZzd0]: >>778
【初めての】スキャン職人養成スレ七【自炊】
ttp://changi.2ch.net/test/read.cgi/download/1217071704/
とか
【コミック】自炊技術スレッド 30冊目【書籍】
ttp://changi.2ch.net/test/read.cgi/download/1219749815/
とか見てると画質と作業時間のトレードオフで無闇に画質よりにしすぎてるような気がするのですが。

>>779
最初に読ませるファイルと最後の出力ファイル名以外は全自動でさせるモードだと、
普通の傾き補正しか選べなかったように思うのですが、もう一度見てみますね。
「見開きのラインを認識できないなら仕方ない」と漠然と考えていたのですが。
782 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 18:39:15 ID:Dg2t2hyN0]: ＞最初に読ませるファイルと最後の出力ファイル名以外は全自動でさせるモードだと、
ああ、ＯＣＲファクトリーのことか。
それは使ったこと無いからわかんないや。
読んでココで見開き自動補正というと、センターを手動で指定すると、
あとは自動で傾き検出、補正してくれるってことだから。
783 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:07:07 ID:z9c8uZzd0]: >>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。
784 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:13:45 ID:z9c8uZzd0]: >>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。
785 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:31:24 ID:z9c8uZzd0]: >>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。
786 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:32:42 ID:z9c8uZzd0]: うわああ連投してしまってた。申し訳ないですorz
787 名前：RQJgKKUofecPPwugoiK mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:09 ID:HUr/ledZ0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
788 名前：bBDymJSOLg mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:09 ID:TK425olO0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
789 名前：kIEszFhHEH mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:19 ID:E+wJqkJG0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
790 名前：lqhDyZkYU mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:25 ID:IPLca0TN0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
791 名前：rLrwTcsIAjZpfNgSA mailto:cjebupqq@gmail.com [2008/10/21(火) 00:24:59 ID:Ps1bh35Y0]: NSr3Vk This pearl has a programmable grind and brew feature, it holds a quarter pound of coffee beans and it has a filter indicator to tell you when your water filter is pooched, frespmesh.cn/vonsweeklyad.html Vons Weekly Ad
, :[[, fresnmesh.cn/protran.html Protran
, 843, fresnmesh.cn/ludogameprogramminginc.html Ludo Game Programming In C
, jii, fresimesh.cn/snugharbormarinachautauquany.html Snug Harbor Marina Chautauqua Ny
, enlfg, fresimesh.cn/jardinetechnicalservices.html Jardine Technical Services
, 8], freshmesfsdfh.cn/lightbearers.html Lightbearers
, fvfm, fresimesh.cn/safestprescriptioneyeglassesfdaapproved.html Safest Prescription Eyeglasses Fda Approved
, 966151, fresjmesh.cn/femalepudenda.html Female Pudenda
, 8-(, fresqmesh.cn/sacagaweadollarquartermachined.html Sacagawea Dollar Quarter Machined
, 6948, fresmmesh.cn/hydrolux.html Hydrolux
, :PPP, freskmesh.cn/dvop.html Dvop
, 8-PPP,
792 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/28(火) 07:01:10 ID:2UwgvcQp0]: 読んでココ、早くunicode文字に対応してくれ！

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef