[OCR] 画像→テキスト化総合

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 12/23 15:51 / Filesize : 206 KB / Number-of Response : 904
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

[OCR] 画像→テキスト化総合

1 名前：名無しさん＠お腹いっぱい。 [2006/03/06(月) 18:04:38 ID:eFU2jlRP0]: 読んde!!ココ・読取革命・e.Typist・OmniPage・OmCR(オムロン)・CROSS OCR・本格読取・表OCRなどなど・・・
最近SmartOCRなんてフリーソフトも出てきたけど、やっぱり読んde!!ココか、読取革命だよな。
792 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/28(火) 07:01:10 ID:2UwgvcQp0]: 読んでココ、早くunicode文字に対応してくれ！
793 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 19:21:47 ID:GUt1EgdT0]: OCRソフトって、前後の文字から推測するアルゴリズムにすれば
熟語とかの認識率が格段に上がるはずなのになんでやらないんだろう？
どうみても１文字ずつ単体でしか認識しようとしてないよな。
794 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 20:30:23 ID:K8CjuoRX0]: OCRって、元々の用途を考えると文章には不向きなんだよね。
申し込み用紙など決まった書式の中に住所、氏名書くようなものとか葉書（送り先を読み取って自動仕分けする機械がある）とか。
一語一句（誤字脱字も異字体も）正確に読み取るような用途向けだったはず。

それに、1文字でも誤認識があると、熟語全体を誤認識する可能性すらある。（だから「格段に上がるはず」という想定が通用しない。）
それを自動でどうにかするのが逆に難しい。1文字の区切りや行、列の方向を誤認識する事すらあるくらいなのに、複数文字組み合わせで
判定しようとすると辞書に無い熟語は認識率が上がらないし、辞書に無い熟語を「辞書にある熟語」で誤認識する可能性もある。
辞書の語彙を増やすと似たような文字を誤認識した場合に熟語ごと誤認識する可能性も高まる。

結局は1文字ずつちゃんと認識できないと辞書があっても誤認識率が上がるか大して変わらないからあまり意味が無いのでは?と思う。（人間の曖昧情報の認識力って優秀だよね、と思える部分）
かな漢変換エンジン（今で言うIME）のメーカーとOCRメーカーが組んで作ったところで・・・1文字誤認識しただけで1文丸々誤認識とか勘弁して欲しい事態になることも。
795 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 11:25:27 ID:6UKMxSSc0]: そこまでいく文字認識じゃなくて人工知能だからね。
コンピュータに一般常識やら駆け引きやらを実行させなくてはならない問題だ。
膨大なデータベースと高速演算が出来れば可能なのかもしれないが。
796 名前：793 mailto:sage [2008/10/30(木) 18:26:59 ID:wNT2JRDf0]: いやいや人工知能ってほど大げさなものじゃなくてさ。
例えば「微細」っていう言葉を認識するのに、ソフトは１語ずつ第一候補・第二候補…と
候補の語をいくつか持っていると思うんだよ。
それで２つの語の候補がそれぞれ、[1:徴 2:微 3:徹] [1:細 2:紳 3:組]だったとすると
この語句の組み合わせ(３ｘ３＝９通り)で熟語として成り立つのは「微細」だけ。
１語ずつ認識すると「徴細」という誤った結果になるけど、語の組み合わせで辞書と照合
すれば正しく「微細」となる。
単純に、辞書で照合できた熟語だけ優先的に出力するということ。
活字のOCRならこの方法が有効だと思うんだけどなあ。
797 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 18:37:13 ID:1mZmHH950]: >>793
実際高い製品ではそういうのができるものもあるよ。
というかスペルチェッカや文法チェッカのような技術は確立してるし、日本語の形態素解析も、再変換の技術がある程度確立してるから、技術的な困難はない。
ただデータベースのサイズが格段に上がるうえ、認識に極端な時間がかかる、辞書に載ってない言い回しや単語に弱い、言語が固定されてしまう(外来語に弱い)等の問題がある。
798 名前：名無しさん＠お腹いっぱい。 [2008/10/30(木) 20:28:12 ID:/oREtNdF0]: そういう機能って、E.
とか読とかにだって最初からついてるよ。
マニュアルちゃんと読んで使えるようになってください。
799 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 21:45:34 ID:MMyq2Afv0]: 英語のような分かち書きする言語だと比較的対応してるよな
800 名前：793 mailto:sage [2008/10/31(金) 18:17:48 ID:JCWTUkt60]: >>798が言ってるのはおそらくよく間違えて認識する単語を予め手動で登録しておく
ユーザー辞書のことを言ってるんだと思う。
俺が言ってるのはそうじゃなくて、国語辞典並みの20万語くらいの辞書をソフトが
持っていてその辞書を使って認識させることを言ってる。確かに>>797が言うように
極端に時間がかかる可能性があるし、メモリも食うと思う。今まで１時間程度で
終わってた処理がもしかしたら１０時間くらいかかるかもしれない。でもそれだけ
かかっても認識の精度の方を選びたいという需要はあると思うんだよな。速度重視と
認識率重視の２つのモードがあってもいい。現在95～99%と言われる認識率が1～2%
上がるだけでも十分価値がある。最近のマルチコアのCPUを有効に活用できると思うし。
801 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/31(金) 20:11:39 ID:bCRz+lPk0]: 時間のかかるOCRソフトに用はありません
昔の3D処理ソフトじゃあるまいし
802 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/31(金) 20:29:59 ID:xBhEoWYg0]: >>800
長文書く前にOCRを使ってみてはどうか?
お望みの辞書がついてると思う。
が、お望みの価値は見出せないだろう。
803 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/31(金) 21:12:56 ID:JLOd34LC0]: >>800
先ずワードのスペルチェッカや文法チェッカを使えよ
道具を使えないんじゃチンパンジー以下だぞ
804 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/01(土) 03:50:42 ID:SFh3NAV80]: >>800

ttp://mediadrive.jp/products/wrp/index.html
ttp://mediadrive.jp/products/wrp/index5.html
805 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/01(土) 13:09:12 ID:A6vJWRwI0]: e.typistのバージョン上がってたから一応
001408DE ： 11→00

eTyp12mem.dllは一緒
806 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 13:02:46 ID:AJubgEGf0]: たぶんＯＣＲ使ったこと無くて、想像で言ってるんだろうね。
現状、認識処理に1時間もかかるわけがないw
807 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 16:11:17 ID:SxT+me9H0]: OCRだって自然言語処理してるよ
認識候補に対して辞書を使って絞り込みとかやってる
808 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 16:15:31 ID:9MBAetAc0]: 認識処理は昔から早いけど、
結局は結果確認と誤認識や体裁の修正は必ずしないといけない。
その修正作業がどれだけ楽になるかがOCRソフトの一番大事なところ。
809 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 17:28:07 ID:cwzkfA700]: >>805
kwsk
810 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 17:31:04 ID:poJP7dLr0]: >>809
いや駄目だろ、それは
811 名前：名無しさん＠お腹いっぱい。 [2008/11/08(土) 08:38:05 ID:ZMhDwSXi0]: 素人ですみません。
ＯＣＲソフトを探しています。
透明テキストの機能を使って、文書の全文検索に使えるようにしたいと考えています。
ＰＤＦに変換してから、ちょこちょこといじりたいのですが、acrobatのＯＣＲ機能ってどうなんでしょうか？
ＯＣＲ機能の点からみたacroatのメリット・デメリットは、>>763以外になにかありますか？（認識率が格段に低いなど）
ＳｍａｒｔＯＣＲは現在のＯＣＲのシェアウェアやacrobatよりもどんな点で劣る（あるいは優れている）か教えてください。
812 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/09(日) 12:45:08 ID:EZAsVtJx0]: PDFのOCR機能は画像OCRの付け焼き
813 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/12(水) 02:08:52 ID:6OQUopCS0]: >>805
差分ファイルで
814 名前：名無しさん＠お腹いっぱい。 [2008/11/16(日) 04:24:48 ID:4vajSCcA0]: 読んde!!ココの次期バージョンは当分ないのだろうか？
ブラザーA3複合機買ったんだけど、OCRソフトは何買ったらいいか迷う。
Acrobat8持ってるから充分なのか、読んde!!ココ 13にアップグレードするか。
それともe.Typistを使ってみるか。
最終出力はテキスト付きPDFにしたいんだけど。
イチオシのワークフローあるかな？
815 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/16(日) 05:27:56 ID:0tZlWar00]: あ
816 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/16(日) 06:36:32 ID:0tZlWar00]: あ
817 名前：名無しさん＠お腹いっぱい。 [2008/11/16(日) 15:06:04 ID:kMc8Bxa00]: 読取革命12体験版を使ってみたんだが・・・・。
表編集モードにおいて、誤認識された罫線の削除のコツがよくわからない。
はさみのアイコンでなぞっても、消えない事が圧倒的に多い。
まるで出来ないかというとそうでもなく、あーでもないこーでもないとやっているといきなり消えることもある。
エロイ人、どうかこつを教えてくれ。
818 名前：名無しさん＠お腹いっぱい。 [2008/11/23(日) 14:26:28 ID:vpMal3Xl0]: 「本格読取 2」と「本格読取 2 Deluxe」って
何が違うんですか？
819 名前：名無しさん＠お腹いっぱい。 [2008/12/01(月) 15:15:27 ID:LWVSjDCk0]: これまで何の疑問もなく「読んde!!ココ」のバージョン10.01を使ってきた。
バージョン上げると読み取り精度は上がるのだろうか？
俺が使うのは英文ばかりだけどfの読み取りが悪くてイライラ。
820 名前：名無しさん＠お腹いっぱい。 [2008/12/02(火) 11:26:40 ID:j5O/upWL0]: 英文ならomnipageとか使え
821 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/02(火) 14:14:45 ID:u3ql/6+p0]: FineReaderの最新版は抜群の精度
822 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/03(水) 01:16:37 ID:tni9wAEC0]: >>817
ハサミの左の先端で消したい罫線をなぞると良いよ。

ってもう試用期間終わってるかな？
823 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/03(水) 14:02:21 ID:7DjjIJfp0]: >>818
回答こないね
824 名前：jrOORvtvExkE mailto:helpcancer@microsoft.com [2008/12/04(木) 06:23:20 ID:eYjGu4xE0]: Useful info about <a href="mesothelioma-disease.blog.ca/">mesothelioma cancer</a>
mesothelioma-disease.blog.ca/
[URL=mesothelioma-disease.blog.ca/]mesothelioma cancer[/URL]
825 名前：BPCEZIWpAquwwspfZk mailto:helpcancer@microsoft.com [2008/12/04(木) 06:23:22 ID:VbG12Y6T0]: Useful info about <a href="mesothelioma-disease.blog.ca/">mesothelioma cancer</a>
mesothelioma-disease.blog.ca/
[URL=mesothelioma-disease.blog.ca/]mesothelioma cancer[/URL]
826 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/15(月) 08:02:30 ID:3Dr8GKKG0]: 読んでココv13の質問なんですが、
認識結果を修正するとき、候補文字から選択するとどんどんユーザー辞書に追加されていきます。
初期状態は、追加するかどうか、確認画面が出てたのですが、確認しないをチェックしてしまいました。
これを元に戻したい（確認画面が出て、不必要な辞書登録をしない）のですが、どこにその設定があるのか分かりません。
かなり探したのですが・・・何処に隠れてるのでしょう？ご存知の方教えてください。
827 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/15(月) 23:31:57 ID:SxBJUL7R0]: 自己解決しました。
で
別の問題が出てきました。
同じく、認識結果を修正中に、
候補文字から選択すると、半角指定してるはずの記号が全て全角になってしまいます。
仕事場と自宅で別々の読んでココを使ってるのですが、
仕事場のほうは半角で出てくるのですが、自宅は全角です。
環境設定とか同じはずなんだけどなあ・・・
ユーザー辞書が違うからかな？
828 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 12:37:06 ID:62OVPLgO0]: ユーザー辞書を移植したら、同じように半角で出てくるようになった・・・・
・・・・が、
今度は、移植した辞書に新しい字を追加しようとしたらエラーが出て落ちてしまう・・・orz
なんなんだ？
デフォだとユーザー辞書は隠しファイルになってるし、ダミーが置いてあったりするし、
移植したファイルは読めても書けない仕様なのか？
隠しファイル領域に入れないと駄目なのかね？
ヘルプ読むと、場所は何処に置いても良さそうなこと書いてるが。
俺みたいに2台のPCで場所変えて作業してる人のために、
設定や辞書の共有が出来るような仕組み無いのかね？
829 名前：名無しさん＠お腹いっぱい。 [2008/12/16(火) 16:09:26 ID:MKgRiCmn0]: お前はマニュアルを読んでここ
830 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 17:02:09 ID:/jtierzP0]: ヘルプのマニュアルは一応読んでるよ。
でも読み落としてるかもしれないから、何処に載ってるか教えてくれよ。
ただの煽りなら引っ込んでろ。
831 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 18:33:15 ID:ir5gL59l0]: >>830
おまえ人に聞く態度か、ドアホ～
おまえ頭悪いんじゃ　自覚せい　消えろ～
買ったところから聞け　たわけ～
832 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 19:21:17 ID:+a6zF2z/0]: 　　　∩＿＿＿∩ 　　　　　 |
　　　 | ノ＼　　 ,＿ヽ　　　　　　|
　　　/　　●゛　　● | 　　　　 |
　　 |　∪　　( _●_)　ミ　　　(>>830)　
　　彡､　　　|∪|　　 |　　　　　J
　/　　　　 ∩ノ ⊃　ヽ
　(　＼　／＿ノ　|　 |
　＼　 "　／　　｜　|
　　　＼／￣￣￣／
833 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 20:59:44 ID:1zLemMeh0]: やれやれ・・・釣り扱いかよ。
自己解決しますた。
ユーザー辞書の移植は、読み取りだけならdicファイルだけでいいけど、
書き込むにはコントロールファイルもいるんだな。
マニュアルには載ってないようだけど、
834 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/10(土) 08:16:09 ID:eYWtFstc0]: あぁ、1TBHDDが安くなりすぎてテキスト化しなくてもいいと思い始めた。
835 名前：名無しさん＠お腹いっぱい。 [2009/01/10(土) 13:00:54 ID:TYnOKpqB0]: ↑いやいや、検索するって役割があるでしょ。

質問です。
e.Typistをインストールすると、mediadriveというフォルダが、Documentsフォルダに作られますが、移動するにはどうすればよいですか。
これ非常に不便なのですが・・・
836 名前：名無しさん＠お腹いっぱい。 [2009/01/10(土) 15:12:22 ID:IPOI/TmT0]: 透明PDFにpngが使えないので萎えた
lzwのtiffでも数倍でかくなる
837 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/10(土) 16:30:03 ID:LjtLb05Y0]: OCRソフトってPDFの扱いが弱すぎるよね
838 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 00:40:51 ID:iuR1Bu1I0]: そもそもPDFっていらないしな。
839 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 02:42:06 ID:sd43c4tCP]: いやいやいや、今んところ透明テキストつきPDF以上に、
バランスの取れた形式ってないんじゃないのか？

OCR変換したテキストデータのみを使うとか正気の沙汰じゃないけど、
文字列検索ができるのはただの画像データにはないメリットだし、
何よりも可搬性が高いというメリットもあり。

>>838はこのスレでPDFいらないっていうことは
全部テキストデータで保存してるのか？
840 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 02:46:38 ID:iuR1Bu1I0]: 検索しないから。一度読んだらだいたいの場所は頭に入ってる。
読むの速いし、パラパラ高速でめくれないPDFは論外。
841 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 02:59:40 ID:sd43c4tCP]: まぁ、検索するかどうかは確かに使い方次第かもしれないな。
でもPDFがパラパラ高速でめくれない、ってそれは単純に
PCのスペックによるものなんじゃね？

300ページくらいの本をスキャンして30MBくらいで保存してるけど、
Adobe Readerで見開き2ページ表示にしてもさくさくPageUp/Downできるけどなぁ。
842 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 03:12:05 ID:iuR1Bu1I0]: 読むの遅いんじゃね？
843 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 03:16:50 ID:sd43c4tCP]: いやいやｗｗｗ
PageDown押しっぱなしで300ページ見開き表示（150面）
の冒頭から最後まで15秒もかからないんだけど、
どんな速読マスターでもさすがにこのスピードは無理じゃないのか？

ということで脱線してきたのでもうレスはつけない。
スレ汚しすまない。
844 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 04:09:13 ID:/tuIuVbi0]: 検索を使わなくてすむような使いかたしかしてない時点で
845 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 10:08:10 ID:osstJUh50]: 小説とか？にしか使ってないのかな？
学術書や研究書をデータ化して検索可能にすると全然
違ってくるんだよね

読むときに単語ひとつひとつにまで注意は払えないけど
後から違うテキストにある単語の用法を検索するとか
単語が使われる頻度を調べるとかさ
846 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 16:45:17 ID:iuR1Bu1I0]: 頭に入ってない、知らないかから検索しなきゃいけないんだろ。要はただの馬鹿。
統計とるのにOCRで作った修正処理してない、合ってるか間違ってるか
分からない透明テキストPDF使うなんて研究者失格だな。
専門分野なら頭に簡単に入るだろ。stockの知識は暗記しろ。
847 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 19:07:28 ID:N53izUZ70]: >>846
よう、天才。
あんた、なんでこのスレに粘着してんだ？
848 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 19:18:36 ID:/tuIuVbi0]: まじ天才。

俺の大学では会議はまだプリントされた紙を配る。
邪魔だから、ＰＤＦで保存。紙は捨てる。
学内自転車置き場に置かれた放置自転車の問題とか
入学試験の試験監督とか

これ結構な量なんだよ。
まれにこれが必要になるから困る。

でこんなものも全部頭に入れてるの？
俺なんて会議中熟睡だぜ

ありえんな。研究者とか書いてるが
ただのニートと見た。
849 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 22:52:25 ID:xF2BYn5G0]: インド人じゃないの？
向こうのエリ－トは2時間くらいの会議ならその会議での会話をそらで再現出来る頭だって。
850 名前：名無しさん＠お腹いっぱい。 [2009/01/12(月) 01:47:20 ID:n3qvCL0O0]: SVGがもうすこしがんばってくれれば、、、
851 名前：名無しさん＠お腹いっぱい。 [2009/01/12(月) 02:07:33 ID:SDQi6vqPO]: おまえらレベル低いな。俺の国では読む前から本の内容くらい完璧に再現できないようなら落ちこぼれだから。
852 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 10:44:58 ID:iaaaILbh0]: テキスト化スレでなんでPDFを称賛してんだ？
スレ違いだ。
853 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 10:52:21 ID:Z3wpMu5b0]: >>852
ID:iuR1Bu1I0は、テキスト化すら必要なさそうだが。
854 名前：名無しさん＠お腹いっぱい。 [2009/01/12(月) 10:53:10 ID:n3qvCL0O0]: つ透明テキスト付きPDF
855 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 10:56:31 ID:iaaaILbh0]: 誘導 >> PDFの素晴らしさ話題はこちらへ

PDF作成・変換ソフト。Part 5
pc11.2ch.net/test/read.cgi/software/1200771165/
856 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 12:38:29 ID:ZsusePTR0]: 透明テキスト付きPDFさえスレ違い認定してる奴って
なんなんだろう？

手元に元資料なくなったら読取り間違いを見つけるのに
PDFの画像だけが頼りじゃん

完全にテキストデータしか残さないの？
857 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 13:24:35 ID:hw4QZewC0]: >>849
そんなわけないだろｗ

12年と235日前の会議でもすべて覚えてるんかいｗ
858 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 13:26:19 ID:AdJ5kc2+0]: >>849
インド人の友達いるけど、みんな馬鹿だよ
859 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 16:56:21 ID:KqRtE+b10]: >857が馬鹿なだけだと思うよ。
子供の反論だな。
「何時何分何秒に～」w
まさか成人じゃないよね？
860 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/13(火) 01:49:48 ID:Ck0kGCM30]: 何時何分ってアホ？

検索する必要もない奴がテキスト化してパソコンに保存？
もっとアホだな
テキスト化してパソコンに保存する時間が無駄だろうがｗ
その間にどれだけの文章を頭の中に入れれるの？天才君
861 名前：名無しさん＠お腹いっぱい。 [2009/01/13(火) 11:24:35 ID:EXPdIEAt0]: WinReaderPro買うかどうか迷っている。
お前らどう思う？
用途は10万枚のxdwファイルの検索目的。
862 名前：名無しさん＠お腹いっぱい。 [2009/01/13(火) 15:36:04 ID:uERZu1aC0]: xdwってそのまままじゃ検索できないんだ
へー
863 名前：KYjGIJJNILUJsLT mailto:herends@gmail.com [2009/01/13(火) 15:38:01 ID:ZVGLIrsS0]: naierrybou.awardspace.com/tna-victory-road-stream.html tna victory road stream
ontoned.awardspace.com/rumer-willis-photo.html rumer willis photo
864 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/14(水) 01:19:58 ID:L5omtrlo0]: こんなスレに天才君がごろごろしてるとは・・・・・
865 名前：名無しさん＠お腹いっぱい。 [2009/01/14(水) 02:10:19 ID:0z5ueTXF0]: >>862
scanした原稿とかは無理だよ。
866 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 03:47:41 ID:ooQikYrc0]: 透明テキスト付きPDFの話なんてどうでもいいんだけど。
透明テキスト付きPDFで、テキストに変換した内容をチェックする馬鹿はいないんだから。
ここでは議論が成り立たない。
867 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 08:28:25 ID:pt+iPJxK0]: >>866
出たな、天才。
868 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 11:27:58 ID:U2eiW9BI0]: 学術論文データベースでダウンロードできるファイルは
ほとんどが透明テキスト付きPDFでございますｗ
869 名前：名無しさん＠お腹いっぱい。 [2009/01/15(木) 12:58:17 ID:Coc/BK/S0]: >>868
医学論文はスキャンされたPDFが郵送とFAXとかダウンロードできるだけというのが全てかも。
俺が入会している論文屋はそうだね。日本では業界最大手だと思うけど。
それに本をばらしてscanしまくっているから透明テキストは自分でつけないといけない。
870 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 13:31:32 ID:/jTW0YpK0]: あ
871 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 18:17:23 ID:ooQikYrc0]: >>868
だからスレ違いじゃん。
論文作った人がPDFにしてテキストつけてるのに画像→テキスト化のこのスレに何の関係あるんだよ？
872 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 18:38:34 ID:TDkR8k5P0]: たしかに（DAIGO)
論文書いたならワードとかだろうからそこからpdfに変換したら
文字化けもなにもないな
最初から文字としてpdfに埋め込まれてるだろう
873 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 21:52:56 ID:0k7MXLGD0]: 論文データベースで提供される最近の論文なら学術誌の
ページまんまの普通にフォント込みのPDF
昔のものはスキャンされて透明テキスト付きPDF

同じように自分でスキャンした論文や本も透明テキスト付きで
残しておいて管理したいってわけ

しつこく透明テキスト付きPDFを排除しようとしてる人は
こういう用途を理解できないのかな？自分に関わりのない
用途だからって排除するってのはどうかと思うよ
874 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 23:51:54 ID:pTl37oBI0]: ２名くらいが言い合ってるんだろうが
そろそろメールででもやれｗ
875 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/16(金) 02:04:18 ID:o0QiI79a0]: 読んでここと読み取り革命とe.typist
全部使ってみたけど
読んでここが一番まともだった
876 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/16(金) 04:31:05 ID:j5jbP+DhP]: 一番妙な名前のが一番まともっぽいんだよな。
でもどこも煮詰ってきちゃって停滞してる感じもする。
877 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/16(金) 07:10:00 ID:kAwCRT9v0]: >>873
うざいからPDFスレでやれ。
878 名前：名無しさん＠お腹いっぱい。 [2009/01/16(金) 07:13:05 ID:YFgvyqNy0]: よんでここ良いかあ？
typistだろ
879 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/16(金) 08:54:17 ID:KNjWFBiV0]: >>878
中の人、乙
880 名前：名無しさん＠お腹いっぱい。 [2009/01/16(金) 12:34:31 ID:ar3mUcAl0]: で、WinReaderProを使った奴はいるか？おれはｘｄｗでscanした文章が20Gくらいあるんだよ。
DocuWorks内蔵のOCRも悪くないけど、更に精度が上がるなら20万出してもいいかなと思うのだが。
俺が人柱になるしかないのか？
881 名前：名無しさん＠お腹いっぱい。 [2009/01/16(金) 19:19:39 ID:u6xluZvZ0]: そうだね
882 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/17(土) 12:03:50 ID:q4cOoTS30]: 構って君登場ｗ
883 名前：名無しさん＠お腹いっぱい。 [2009/01/17(土) 13:22:33 ID:8LomD8UX0]: くそ。
お前らがそういう態度なら絶対に書いてやらない。
WinReaderProで得た経験を誰にも教えないぞ。
884 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/17(土) 13:36:24 ID:ajPyCMtQ0]: 精度なんて似たり寄ったり。重要なのは確認、修正作業のし易さ。
885 名前：名無しさん＠お腹いっぱい。 [2009/01/17(土) 13:44:11 ID:8LomD8UX0]: まじかよ。そんなことしていられないよ。
検索で引っ掛けるのが目的だし。
20万円の価値は無いのか。
886 名前：名無しさん＠お腹いっぱい。 [2009/01/17(土) 17:14:11 ID:3jWVocFV0]: 買えば済むのに
887 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/17(土) 21:05:47 ID:q4cOoTS30]: https://ssl.mediadrive.jp/cgi-bin/demand/form.cgi?id=wrp12
ほんとに買う気なら体験版をとりあえず申し込むべし。
888 名前：名無しさん＠お腹いっぱい。 [2009/01/20(火) 16:59:05 ID:Ez5R3CRM0]: 読取革命大好き
889 名前：名無しさん＠お腹いっぱい。 [2009/01/21(水) 02:20:01 ID:nux6CWbW0]: >>887
申し込みます。DocuWorksのVer6とVer7と比較してよければ買います。
全文検索は行方不明書類を捜す唯一の手段だからな。
行方不明書類ってどうしても発生するんだよね。
Scan時の重送で検出漏れもあるしね。
890 名前：VdTyVIXmByCFJdJ mailto:hsybaa@yukbkg.com [2009/01/21(水) 02:28:08 ID:27CcxXma0]: 3ofhNQ <a href="jicyqypxfieh.com/">jicyqypxfieh</a>, [url=tdeqcqoimwwk.com/]tdeqcqoimwwk[/url], [link=qykftmbejfxg.com/]qykftmbejfxg[/link], nriidvmyuevw.com/
891 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/21(水) 17:02:44 ID:1Yv8qxGD0]: >>873
>同じように自分でスキャンした論文や本も透明テキスト付きで
>残しておいて管理したいってわけ

同じく。最新のAcrobatでも表があるページだと表部分だけでなく本文部分
の透明テキスト化も玉砕するんで困ってます。表が入っててもそこそこの
OCR化をしてくれて透明テキストとして出力してくれるソフトってあるの
でしょうか？
892 名前：名無しさん＠お腹いっぱい。 [2009/01/21(水) 21:37:36 ID:NwoVvKSk0]: E.TYPISTでいいんじゃないの？

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef