[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 12/23 15:51 / Filesize : 206 KB / Number-of Response : 904
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

[OCR] 画像→テキスト化総合



1 名前:名無しさん@お腹いっぱい。 [2006/03/06(月) 18:04:38 ID:eFU2jlRP0]
読んde!!ココ・読取革命・e.Typist・OmniPage・OmCR(オムロン)・CROSS OCR・本格読取・表OCRなどなど・・・
最近SmartOCRなんてフリーソフトも出てきたけど、やっぱり読んde!!ココか、読取革命だよな。

752 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/24(日) 10:12:44 ID:MGOLjeef0]
別にずれてないんじゃね

753 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/24(日) 10:58:32 ID:b29yVzjt0]
正解率99% ネット認証技術、書籍のデジタル化に威力
ttp://www.asahi.com/science/update/0823/TKY200808230207.html

754 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/25(月) 17:48:36 ID:5eaoBiak0]
うーん、99.1% ってほぼ自動ってのにはまだまだ程遠いね・・・

755 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/25(月) 18:00:07 ID:GHGOAqBa0]
つかこれ英語限定じゃないの

756 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/25(月) 18:50:29 ID:kMvnDz2o0]
人間の正解率てのは元々どのくらいなんだろうな。
俺なんて入力ミスもしてたんだろうが再入力の経験が何度もあるぞ。
人力OCRだから英語以外は対象地域を絞らないと無理だろうね。

757 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/25(月) 20:00:55 ID:JUspXpDS0]
>>753
結構いいアイデアだな。
日本語だと厳しいが、まあ2chとかの日本語コミュニケーション限定サイトに
置くなら何とかなるかもしれん。

・・・と書いてて今気付いたんだが、難読文字を読んで貰って、それが正しいかどうかの
答え合わせは誰がやってるんだ?
読んだ結果が正しいと判って、それで初めて認証として成立するんだろ?

758 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/25(月) 22:11:40 ID:pBM6iPT60]
>>753
よくこんなこと思いついてしかも実行したよなww

759 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/26(火) 11:13:56 ID:3pII43Sm0]
>>757
二つのOCRで一致した部分は正解、ちがった部分は不明として
正解と不明が含まれたものを表示して入力させ
正解の部分は認証として使い、不明部分を入力結果から拾う

とかかね

760 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/29(金) 05:58:38 ID:PUHS2H7P0]
多数決



761 名前:名無しさん@お腹いっぱい。 [2008/08/30(土) 16:48:15 ID:UobhjFbi0]
ケツ多数

762 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/08/31(日) 00:12:15 ID:xOEiIMAi0]
どんなに正答率が上がったところで人による目視チェックは必須だろう。

763 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/07(日) 09:56:23 ID:9RYOriMs0]
>>762
>人による目視チェックは必須

そうです。そしてそこが一番手間と時間がかかる部分。

上に出てたAcrobatのOCRはこのプロセスがないし、埋め込まれた
透明テキストを後から修正するのも事実上困難(不可能では
ないが、OCRソフトでオンタイムに修正していくような訳にはいかない)。
一カ所でも間違いあると困るというOCR作業もあるでしょうが、そうでない
場合には割り切って使うと便利とも言える。特にScanSnapとの組み合わせ
で大量の文書を処理する時など。

OCRエンジンも7で読んde! ココ(の世代落ち)になってるが、8や9で
どうなってるのか分からない。

764 名前:名無しさん@お腹いっぱい。 [2008/09/10(水) 11:38:25 ID:H8/lfHgO0]
OCR使ってて感じるのは、誤変換の原因はほとんど「切り出し間違い」。
文字列に占める空白の割合なんかから一意に決めてるんだろうけど、
カスレの多い原稿だと区切るところがめちゃくちゃ・・・
きっちり区切りなおせば正しく認識できるのに・・・
ユーザー辞書や単語認識かけて文字列にならないときとか、
この切り出しを見直して再認識処理してくれないのかね?
処理時間がべらぼうにかかりそうだけど。

765 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/10(水) 12:42:49 ID:8eNIWm0W0]
GPUで処理できるようになったら何でも有りになるな。

766 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/10(水) 18:20:58 ID:8r86j5IT0]
読んでココ使ってるんだけど、「〜」が認識されず空欄になってることが多い。
ユーザー辞書にも1文字だけど登録してるのに。何とかならないのかな?

767 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/10(水) 18:22:38 ID:aAaEuFR10]
>764
小説みたいに同じ大きさの文字が延々と続いているのであれば、文字の大きさを
手動指定するモードとかあっても良さそうだよな。
見出し、本文、ルビの大きさを指定して、そこから文書を解析して認識するのなら
そんなに難しくはないような気もする。新聞とか広告文みたいにいろんな大きさの
文字が混在するのには無力だろうけど

768 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/12(金) 17:59:53 ID:BkRq8OtC0]
ttp://code.google.com/p/nhocr/
NHocr is a command line OCR (Optical Character Recognition) program for Japanese language

769 名前:名無しさん@お腹いっぱい。 [2008/09/21(日) 20:05:56 ID:CcopwTiy0]
素人で失礼ですが
OCRソフトは、10万円以上の価格でないと、7割文字認識できませんか?


770 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/21(日) 22:19:11 ID:m2yjq4Bi0]
原稿の状態によっては何万出しても変わらない。
認識エンジン自体は1万前後の製品とはそんなに変わらなくて、内蔵辞書を持つとか、そういうところが変わってくる



771 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/24(水) 01:41:38 ID:KwoBHrO90]
既存のPDFファイル(複合機でスキャン)に透明テキストを乗せようと
読んdeココ!!と読取革命の体験版、クセロReaderZeroを試してみたのですが、
完成後のファイルサイズがとんでもなくマチマチになるのはどうしてでしょうか?
クセロで約3倍、読取革命で約5倍、読んdeココ!!で約17倍にもなってしまいました。

同じ読んdeココ!!で、自動処理ではなく手動で作業を進めていくと
元々のファイルとほとんど変わらないサイズのものができあがるので、
これと同様の処理をなんとか自動でしてもらえたらいいのですが。

772 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/24(水) 09:25:41 ID:NU0TD4QW0]
複合機の一部では、カラーやグレイスケール画像をJPEGの数分の1に圧縮するものがある

OCRで画像を読んで保存するときに、
1 読み込んだ画像を通常のJPEGで保存→ファイルサイズが数倍に
2 元の高圧縮画像のまま保存→ファイルサイズは元のまま

というケースに遭遇したことがある。今回のケースに当てはまるか分からんが。

773 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/24(水) 15:57:00 ID:j94B8AKB0]
ソフト(と手順)によっちゃ画像をビットマップに展開して
再度圧縮してしまう場合もある

OCRソフトって文字認識に関しては強くてもPDFや画像の
扱いがなんでここまで糞なのってのが多い

774 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/24(水) 16:30:47 ID:NU0TD4QW0]
非可逆圧縮で何度も圧縮・伸張したらひどいことになるんじゃ...
と思ったら手動の場合はちゃんとやっているのか

775 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/24(水) 18:09:51 ID:v43+h7ws0]
いったい何を言っているんだ?

776 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/24(水) 20:46:29 ID:j94B8AKB0]
>>774
結構その「ひどいこと」になっちゃうOCRソフトが多い

777 名前:771 mailto:sage [2008/09/25(木) 01:44:15 ID:VosBAVv30]
レスありがとうございます。

>>773さんの書かれているところが問題のようですね。
試しに複合機で作成したPDFファイルをAcrobat Pro(の体験版)でTIFFに変換し、
それをOCRで自動処理し透明テキストPDF出力としたところ、
サイズの変動がほとんどなくなりました。
次からは複合機でのスキャン時にPDFではなくTIFFで保存することにします。

あとは見開きの傾き自動補正がどのソフトでもできないようなので、
これについてはTIFFファイルをどうにか処理してみようと思います。

マンガのスキャン技術スレはマニアックな深みにはまってるようですが、
検索用に本をPDF形式でため込むだけならかなりよい感じですね。

778 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/25(木) 08:14:14 ID:A9ZTqUPm0]
>>777
>マンガのスキャン技術スレはマニアックな深みにはまってるようですが

そのスレ教えてください。

779 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/25(木) 14:59:37 ID:6Td5Al990]
>あとは見開きの傾き自動補正がどのソフトでもできないようなので
読んでココはできるっしょ?

780 名前:名無しさん@お腹いっぱい。 [2008/09/26(金) 13:37:29 ID:yFUJpsc5O]
e.Typist使ってるんだけど、だんだん操作するのが面倒になってきたので、
ファイル名を渡して連続自動処理を開始させたいんだけど、
どうやれば可能なの?




781 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/26(金) 18:17:08 ID:z9c8uZzd0]
>>778
【初めての】スキャン職人養成スレ 七【自炊】
ttp://changi.2ch.net/test/read.cgi/download/1217071704/
とか
【コミック】 自炊技術スレッド 30冊目 【書籍】
ttp://changi.2ch.net/test/read.cgi/download/1219749815/
とか見てると画質と作業時間のトレードオフで無闇に画質よりにしすぎてるような気がするのですが。

>>779
最初に読ませるファイルと最後の出力ファイル名以外は全自動でさせるモードだと、
普通の傾き補正しか選べなかったように思うのですが、もう一度見てみますね。
「見開きのラインを認識できないなら仕方ない」と漠然と考えていたのですが。

782 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/26(金) 18:39:15 ID:Dg2t2hyN0]
>最初に読ませるファイルと最後の出力ファイル名以外は全自動でさせるモードだと、
ああ、OCRファクトリーのことか。
それは使ったこと無いからわかんないや。
読んでココで見開き自動補正というと、センターを手動で指定すると、
あとは自動で傾き検出、補正してくれるってことだから。

783 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/26(金) 20:07:07 ID:z9c8uZzd0]
>>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。

784 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/26(金) 20:13:45 ID:z9c8uZzd0]
>>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。

785 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/26(金) 20:31:24 ID:z9c8uZzd0]
>>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。

786 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/09/26(金) 20:32:42 ID:z9c8uZzd0]
うわああ連投してしまってた。 申し訳ないですorz

787 名前:RQJgKKUofecPPwugoiK mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:09 ID:HUr/ledZ0]
More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]

788 名前:bBDymJSOLg mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:09 ID:TK425olO0]
More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]

789 名前:kIEszFhHEH mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:19 ID:E+wJqkJG0]
More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]

790 名前:lqhDyZkYU mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:25 ID:IPLca0TN0]
More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]



791 名前:rLrwTcsIAjZpfNgSA mailto:cjebupqq@gmail.com [2008/10/21(火) 00:24:59 ID:Ps1bh35Y0]
NSr3Vk This pearl has a programmable grind and brew feature, it holds a quarter pound of coffee beans and it has a filter indicator to tell you when your water filter is pooched, frespmesh.cn/vonsweeklyad.html Vons Weekly Ad
, :[[, fresnmesh.cn/protran.html Protran
, 843, fresnmesh.cn/ludogameprogramminginc.html Ludo Game Programming In C
, jii, fresimesh.cn/snugharbormarinachautauquany.html Snug Harbor Marina Chautauqua Ny
, enlfg, fresimesh.cn/jardinetechnicalservices.html Jardine Technical Services
, 8], freshmesfsdfh.cn/lightbearers.html Lightbearers
, fvfm, fresimesh.cn/safestprescriptioneyeglassesfdaapproved.html Safest Prescription Eyeglasses Fda Approved
, 966151, fresjmesh.cn/femalepudenda.html Female Pudenda
, 8-(, fresqmesh.cn/sacagaweadollarquartermachined.html Sacagawea Dollar Quarter Machined
, 6948, fresmmesh.cn/hydrolux.html Hydrolux
, :PPP, freskmesh.cn/dvop.html Dvop
, 8-PPP,

792 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/28(火) 07:01:10 ID:2UwgvcQp0]
読んでココ、早くunicode文字に対応してくれ!

793 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 19:21:47 ID:GUt1EgdT0]
OCRソフトって、前後の文字から推測するアルゴリズムにすれば
熟語とかの認識率が格段に上がるはずなのになんでやらないんだろう?
どうみても1文字ずつ単体でしか認識しようとしてないよな。

794 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 20:30:23 ID:K8CjuoRX0]
OCRって、元々の用途を考えると文章には不向きなんだよね。
申し込み用紙など決まった書式の中に住所、氏名書くようなものとか葉書(送り先を読み取って自動仕分けする機械がある)とか。
一語一句(誤字脱字も異字体も)正確に読み取るような用途向けだったはず。

それに、1文字でも誤認識があると、熟語全体を誤認識する可能性すらある。(だから「格段に上がるはず」という想定が通用しない。)
それを自動でどうにかするのが逆に難しい。1文字の区切りや行、列の方向を誤認識する事すらあるくらいなのに、複数文字組み合わせで
判定しようとすると辞書に無い熟語は認識率が上がらないし、辞書に無い熟語を「辞書にある熟語」で誤認識する可能性もある。
辞書の語彙を増やすと似たような文字を誤認識した場合に熟語ごと誤認識する可能性も高まる。

結局は1文字ずつちゃんと認識できないと辞書があっても誤認識率が上がるか大して変わらないからあまり意味が無いのでは?と思う。(人間の曖昧情報の認識力って優秀だよね、と思える部分)
かな漢変換エンジン(今で言うIME)のメーカーとOCRメーカーが組んで作ったところで・・・1文字誤認識しただけで1文丸々誤認識とか勘弁して欲しい事態になることも。

795 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/30(木) 11:25:27 ID:6UKMxSSc0]
そこまでいく文字認識じゃなくて人工知能だからね。
コンピュータに一般常識やら駆け引きやらを実行させなくてはならない問題だ。
膨大なデータベースと高速演算が出来れば可能なのかもしれないが。

796 名前:793 mailto:sage [2008/10/30(木) 18:26:59 ID:wNT2JRDf0]
いやいや人工知能ってほど大げさなものじゃなくてさ。
例えば「微細」っていう言葉を認識するのに、ソフトは1語ずつ第一候補・第二候補…と
候補の語をいくつか持っていると思うんだよ。
それで2つの語の候補がそれぞれ、[1:徴 2:微 3:徹] [1:細 2:紳 3:組]だったとすると
この語句の組み合わせ(3x3=9通り)で熟語として成り立つのは「微細」だけ。
1語ずつ認識すると「徴細」という誤った結果になるけど、語の組み合わせで辞書と照合
すれば正しく「微細」となる。
単純に、辞書で照合できた熟語だけ優先的に出力するということ。
活字のOCRならこの方法が有効だと思うんだけどなあ。

797 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/30(木) 18:37:13 ID:1mZmHH950]
>>793
実際高い製品ではそういうのができるものもあるよ。
というかスペルチェッカや文法チェッカのような技術は確立してるし、日本語の形態素解析も、再変換の技術がある程度確立してるから、技術的な困難はない。
ただデータベースのサイズが格段に上がるうえ、認識に極端な時間がかかる、辞書に載ってない言い回しや単語に弱い、言語が固定されてしまう(外来語に弱い)等の問題がある。


798 名前:名無しさん@お腹いっぱい。 [2008/10/30(木) 20:28:12 ID:/oREtNdF0]
そういう機能って、E.
とか読とかにだって最初からついてるよ。
マニュアルちゃんと読んで使えるようになってください。

799 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/30(木) 21:45:34 ID:MMyq2Afv0]
英語のような分かち書きする言語だと比較的対応してるよな

800 名前:793 mailto:sage [2008/10/31(金) 18:17:48 ID:JCWTUkt60]
>>798が言ってるのはおそらくよく間違えて認識する単語を予め手動で登録しておく
ユーザー辞書のことを言ってるんだと思う。
俺が言ってるのはそうじゃなくて、国語辞典並みの20万語くらいの辞書をソフトが
持っていてその辞書を使って認識させることを言ってる。確かに>>797が言うように
極端に時間がかかる可能性があるし、メモリも食うと思う。今まで1時間程度で
終わってた処理がもしかしたら10時間くらいかかるかもしれない。でもそれだけ
かかっても認識の精度の方を選びたいという需要はあると思うんだよな。速度重視と
認識率重視の2つのモードがあってもいい。現在95〜99%と言われる認識率が1〜2%
上がるだけでも十分価値がある。最近のマルチコアのCPUを有効に活用できると思うし。



801 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/31(金) 20:11:39 ID:bCRz+lPk0]
時間のかかるOCRソフトに用はありません
昔の3D処理ソフトじゃあるまいし


802 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/31(金) 20:29:59 ID:xBhEoWYg0]
>>800
長文書く前にOCRを使ってみてはどうか?
お望みの辞書がついてると思う。
が、お望みの価値は見出せないだろう。

803 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/31(金) 21:12:56 ID:JLOd34LC0]
>>800
先ずワードのスペルチェッカや文法チェッカを使えよ
道具を使えないんじゃチンパンジー以下だぞ

804 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/01(土) 03:50:42 ID:SFh3NAV80]
>>800

ttp://mediadrive.jp/products/wrp/index.html
ttp://mediadrive.jp/products/wrp/index5.html


805 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/01(土) 13:09:12 ID:A6vJWRwI0]
e.typistのバージョン上がってたから一応
001408DE : 11→00

eTyp12mem.dllは一緒

806 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/02(日) 13:02:46 ID:AJubgEGf0]
たぶんOCR使ったこと無くて、想像で言ってるんだろうね。
現状、認識処理に1時間もかかるわけがないw


807 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/02(日) 16:11:17 ID:SxT+me9H0]
OCRだって自然言語処理してるよ
認識候補に対して辞書を使って絞り込みとかやってる

808 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/02(日) 16:15:31 ID:9MBAetAc0]
認識処理は昔から早いけど、
結局は結果確認と誤認識や体裁の修正は必ずしないといけない。
その修正作業がどれだけ楽になるかがOCRソフトの一番大事なところ。

809 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/02(日) 17:28:07 ID:cwzkfA700]
>>805
kwsk

810 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/02(日) 17:31:04 ID:poJP7dLr0]
>>809
いや駄目だろ、それは



811 名前:名無しさん@お腹いっぱい。 [2008/11/08(土) 08:38:05 ID:ZMhDwSXi0]
素人ですみません。
OCRソフトを探しています。
透明テキストの機能を使って、文書の全文検索に使えるようにしたいと考えています。
PDFに変換してから、ちょこちょこといじりたいのですが、acrobatのOCR機能ってどうなんでしょうか?
OCR機能の点からみたacroatのメリット・デメリットは、>>763以外になにかありますか?(認識率が格段に低いなど)
SmartOCRは現在のOCRのシェアウェアやacrobatよりもどんな点で劣る(あるいは優れている)か教えてください。

812 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/09(日) 12:45:08 ID:EZAsVtJx0]
PDFのOCR機能は画像OCRの付け焼き


813 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/12(水) 02:08:52 ID:6OQUopCS0]
>>805
差分ファイルで

814 名前:名無しさん@お腹いっぱい。 [2008/11/16(日) 04:24:48 ID:4vajSCcA0]
読んde!!ココの次期バージョンは当分ないのだろうか?
ブラザーA3複合機買ったんだけど、OCRソフトは何買ったらいいか迷う。
Acrobat8持ってるから充分なのか、読んde!!ココ 13にアップグレードするか。
それともe.Typistを使ってみるか。
最終出力はテキスト付きPDFにしたいんだけど。
イチオシのワークフローあるかな?

815 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/16(日) 05:27:56 ID:0tZlWar00]


816 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/11/16(日) 06:36:32 ID:0tZlWar00]


817 名前:名無しさん@お腹いっぱい。 [2008/11/16(日) 15:06:04 ID:kMc8Bxa00]
読取革命12体験版を使ってみたんだが・・・・。
表編集モードにおいて、誤認識された罫線の削除のコツがよくわからない。
はさみのアイコンでなぞっても、消えない事が圧倒的に多い。
まるで出来ないかというとそうでもなく、あーでもないこーでもないとやっているといきなり消えることもある。
エロイ人、どうかこつを教えてくれ。

818 名前:名無しさん@お腹いっぱい。 [2008/11/23(日) 14:26:28 ID:vpMal3Xl0]
「本格読取 2」と「本格読取 2 Deluxe」って
何が違うんですか?


819 名前:名無しさん@お腹いっぱい。 [2008/12/01(月) 15:15:27 ID:LWVSjDCk0]
これまで何の疑問もなく「読んde!!ココ」 のバージョン10.01を使ってきた。
バージョン上げると読み取り精度は上がるのだろうか?
俺が使うのは英文ばかりだけどfの読み取りが悪くてイライラ。

820 名前:名無しさん@お腹いっぱい。 [2008/12/02(火) 11:26:40 ID:j5O/upWL0]
英文ならomnipageとか使え



821 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/02(火) 14:14:45 ID:u3ql/6+p0]
FineReaderの最新版は抜群の精度

822 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/03(水) 01:16:37 ID:tni9wAEC0]
>>817
ハサミの左の先端で消したい罫線をなぞると良いよ。

ってもう試用期間終わってるかな?

823 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/03(水) 14:02:21 ID:7DjjIJfp0]
>>818
回答こないね


824 名前:jrOORvtvExkE mailto:helpcancer@microsoft.com [2008/12/04(木) 06:23:20 ID:eYjGu4xE0]
Useful info about <a href="mesothelioma-disease.blog.ca/">mesothelioma cancer</a>
mesothelioma-disease.blog.ca/
[URL=mesothelioma-disease.blog.ca/]mesothelioma cancer[/URL]

825 名前:BPCEZIWpAquwwspfZk mailto:helpcancer@microsoft.com [2008/12/04(木) 06:23:22 ID:VbG12Y6T0]
Useful info about <a href="mesothelioma-disease.blog.ca/">mesothelioma cancer</a>
mesothelioma-disease.blog.ca/
[URL=mesothelioma-disease.blog.ca/]mesothelioma cancer[/URL]

826 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/15(月) 08:02:30 ID:3Dr8GKKG0]
読んでココv13の質問なんですが、
認識結果を修正するとき、候補文字から選択するとどんどんユーザー辞書に追加されていきます。
初期状態は、追加するかどうか、確認画面が出てたのですが、確認しないをチェックしてしまいました。
これを元に戻したい(確認画面が出て、不必要な辞書登録をしない)のですが、どこにその設定があるのか分かりません。
かなり探したのですが・・・何処に隠れてるのでしょう?ご存知の方教えてください。

827 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/15(月) 23:31:57 ID:SxBJUL7R0]
自己解決しました。

別の問題が出てきました。
同じく、認識結果を修正中に、
候補文字から選択すると、半角指定してるはずの記号が全て全角になってしまいます。
仕事場と自宅で別々の読んでココを使ってるのですが、
仕事場のほうは半角で出てくるのですが、自宅は全角です。
環境設定とか同じはずなんだけどなあ・・・
ユーザー辞書が違うからかな?

828 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/16(火) 12:37:06 ID:62OVPLgO0]
ユーザー辞書を移植したら、同じように半角で出てくるようになった・・・・
・・・・が、
今度は、移植した辞書に新しい字を追加しようとしたらエラーが出て落ちてしまう・・・orz
なんなんだ?
デフォだとユーザー辞書は隠しファイルになってるし、ダミーが置いてあったりするし、
移植したファイルは読めても書けない仕様なのか?
隠しファイル領域に入れないと駄目なのかね?
ヘルプ読むと、場所は何処に置いても良さそうなこと書いてるが。
俺みたいに2台のPCで場所変えて作業してる人のために、
設定や辞書の共有が出来るような仕組み無いのかね?

829 名前:名無しさん@お腹いっぱい。 [2008/12/16(火) 16:09:26 ID:MKgRiCmn0]
お前はマニュアルを読んでここ

830 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/16(火) 17:02:09 ID:/jtierzP0]
ヘルプのマニュアルは一応読んでるよ。
でも読み落としてるかもしれないから、何処に載ってるか教えてくれよ。
ただの煽りなら引っ込んでろ。



831 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/16(火) 18:33:15 ID:ir5gL59l0]
>>830
おまえ人に聞く態度か、ドアホ〜
おまえ頭悪いんじゃ 自覚せい 消えろ〜
買ったところから聞け たわけ〜

832 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/16(火) 19:21:17 ID:+a6zF2z/0]
    ∩___∩           |
    | ノ\   ,_ ヽ      |
   /  ●゛  ● |         |
   | ∪  ( _●_) ミ      (>>830) 
  彡、   |∪|   |       J
 /     ∩ノ ⊃  ヽ
 (  \ / _ノ |  |
  \  "  /  | |
   \ / ̄ ̄ ̄ /

833 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/16(火) 20:59:44 ID:1zLemMeh0]
やれやれ・・・釣り扱いかよ。
自己解決しますた。
ユーザー辞書の移植は、読み取りだけならdicファイルだけでいいけど、
書き込むにはコントロールファイルもいるんだな。
マニュアルには載ってないようだけど、

834 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/10(土) 08:16:09 ID:eYWtFstc0]
あぁ、1TBHDDが安くなりすぎてテキスト化しなくてもいいと思い始めた。

835 名前:名無しさん@お腹いっぱい。 [2009/01/10(土) 13:00:54 ID:TYnOKpqB0]
↑いやいや、検索するって役割があるでしょ。

質問です。
e.Typistをインストールすると、mediadriveというフォルダが、Documentsフォルダに作られますが、移動するにはどうすればよいですか。
これ非常に不便なのですが・・・

836 名前:名無しさん@お腹いっぱい。 [2009/01/10(土) 15:12:22 ID:IPOI/TmT0]
透明PDFにpngが使えないので萎えた
lzwのtiffでも数倍でかくなる


837 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/10(土) 16:30:03 ID:LjtLb05Y0]
OCRソフトってPDFの扱いが弱すぎるよね

838 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 00:40:51 ID:iuR1Bu1I0]
そもそもPDFっていらないしな。

839 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 02:42:06 ID:sd43c4tCP]
いやいやいや、今んところ透明テキストつきPDF以上に、
バランスの取れた形式ってないんじゃないのか?

OCR変換したテキストデータのみを使うとか正気の沙汰じゃないけど、
文字列検索ができるのはただの画像データにはないメリットだし、
何よりも可搬性が高いというメリットもあり。

>>838はこのスレでPDFいらないっていうことは
全部テキストデータで保存してるのか?

840 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 02:46:38 ID:iuR1Bu1I0]
検索しないから。一度読んだらだいたいの場所は頭に入ってる。
読むの速いし、パラパラ高速でめくれないPDFは論外。



841 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 02:59:40 ID:sd43c4tCP]
まぁ、検索するかどうかは確かに使い方次第かもしれないな。
でもPDFがパラパラ高速でめくれない、ってそれは単純に
PCのスペックによるものなんじゃね?

300ページくらいの本をスキャンして30MBくらいで保存してるけど、
Adobe Readerで見開き2ページ表示にしてもさくさくPageUp/Downできるけどなぁ。

842 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 03:12:05 ID:iuR1Bu1I0]
読むの遅いんじゃね?

843 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 03:16:50 ID:sd43c4tCP]
いやいやwww
PageDown押しっぱなしで300ページ見開き表示(150面)
の冒頭から最後まで15秒もかからないんだけど、
どんな速読マスターでもさすがにこのスピードは無理じゃないのか?

ということで脱線してきたのでもうレスはつけない。
スレ汚しすまない。

844 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 04:09:13 ID:/tuIuVbi0]
検索を使わなくてすむような使いかたしかしてない時点で

845 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 10:08:10 ID:osstJUh50]
小説とか?にしか使ってないのかな?
学術書や研究書をデータ化して検索可能にすると全然
違ってくるんだよね

読むときに単語ひとつひとつにまで注意は払えないけど
後から違うテキストにある単語の用法を検索するとか
単語が使われる頻度を調べるとかさ

846 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 16:45:17 ID:iuR1Bu1I0]
頭に入ってない、知らないかから検索しなきゃいけないんだろ。要はただの馬鹿。
統計とるのにOCRで作った修正処理してない、合ってるか間違ってるか
分からない透明テキストPDF使うなんて研究者失格だな。
専門分野なら頭に簡単に入るだろ。stockの知識は暗記しろ。

847 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 19:07:28 ID:N53izUZ70]
>>846
よう、天才。
あんた、なんでこのスレに粘着してんだ?

848 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 19:18:36 ID:/tuIuVbi0]
まじ天才。




俺の大学では会議はまだプリントされた紙を配る。
邪魔だから、PDFで保存。紙は捨てる。
学内自転車置き場に置かれた放置自転車の問題とか
入学試験の試験監督とか



これ結構な量なんだよ。
まれにこれが必要になるから困る。


でこんなものも全部頭に入れてるの?
俺なんて会議中熟睡だぜ



ありえんな。研究者とか書いてるが
ただのニートと見た。




849 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/11(日) 22:52:25 ID:xF2BYn5G0]
インド人じゃないの?
向こうのエリ−トは2時間くらいの会議ならその会議での会話を そらで再現出来る頭だって。

850 名前:名無しさん@お腹いっぱい。 [2009/01/12(月) 01:47:20 ID:n3qvCL0O0]
SVGがもうすこしがんばってくれれば、、、



851 名前:名無しさん@お腹いっぱい。 [2009/01/12(月) 02:07:33 ID:SDQi6vqPO]
おまえらレベル低いな。俺の国では読む前から本の内容くらい完璧に再現できないようなら落ちこぼれだから。

852 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/01/12(月) 10:44:58 ID:iaaaILbh0]
テキスト化スレでなんでPDFを称賛してんだ?
スレ違いだ。






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<206KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef