[OCR] 画像→テキスト化総合

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 12/23 15:51 / Filesize : 206 KB / Number-of Response : 904
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

[OCR] 画像→テキスト化総合

1 名前：名無しさん＠お腹いっぱい。 [2006/03/06(月) 18:04:38 ID:eFU2jlRP0]: 読んde!!ココ・読取革命・e.Typist・OmniPage・OmCR(オムロン)・CROSS OCR・本格読取・表OCRなどなど・・・
最近SmartOCRなんてフリーソフトも出てきたけど、やっぱり読んde!!ココか、読取革命だよな。
641 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/02/09(土) 13:22:11 ID:kx6Thi940]: >>633
小説用途に限った場合の話だけど

e.Typistは比較的領域判定が優秀なのでほとんどの場合は自動でおｋ
小説再配置ツールやeTilTranで文字領域を切り出すだけで十分すぎるほど
認識率は読取革命よりはだいぶ上
ただ、感嘆符や――、……、ーのような記号をよく間違えたり読み飛ばしたりする
まれに同じページを不完全な状態で二重認識する（上半分だけとかそんな感じで）
ここがネック

ユーザー辞書は読取革命で何回教えても治らなかった経験から、全く使っていない
後で間違えやすい文字だけ一括置換してる
642 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/02/13(水) 20:01:46 ID:PDD8kYVFO]: 英単語帳を読み取ってエクセルのデータにして
P‐STUDYシステムに問題集として読み込ませようと思っているのですが
英単語帳にむいているOCRソフトってありますか？
643 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/02/13(水) 20:04:16 ID:zrpzYaHV0]: >>641
規制されていたので、お礼が遅れました。
e.Typist12を購入して使っています。
おっしゃるように！　――、ー、一あたりの誤認識が多いですね。
…に関しては点線処理の縦点線ありにしたら、かなりよくなりました。
一括置換も１００個が限度という所からエディタでするようにしました。
なかなか難しい所ですね。
644 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/02/28(木) 09:23:33 ID:NWfNaQSi0]: 保守
645 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/03/04(火) 22:44:36 ID:I6sGMd1z0]: e.Typistでルビの部分の行を本文として処理してしまうことがたまにある。
eTilTranで傾き補正はかけた後なんだけど、これって解決する方法ないのかな？

ex)
正解：黄昏（たそがれ）が迫（せま）る道を

誤認識：たそがれ　　せま
　　　　　　黄昏が迫る道を
646 名前：名無しさん＠お腹いっぱい。 [2008/03/07(金) 00:49:49 ID:i9ecjhLU0]: 読取革命１２、買おうかな。
647 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/03/07(金) 21:40:57 ID:jfB3M2/r0]: 読取革命12と読んdeココ13を単行本の読み取りで比較してみたけど、読んdeココの方がよかった。
読取革命は文字以外の部分を無理矢理、認識しようとして意味不明の文字列を連発する。
読んdeココは認識できないものはスッパリ諦めて無視する傾向がある。
この方がむしろ修正の手間がかからないから楽なんだよね。
648 名前：名無しさん＠お腹いっぱい。 [2008/03/10(月) 09:02:26 ID:1MG90Ymy0]: そうかもしれないね。
でも読取革命のがしがし読む感じがいいんだよね（笑）
まあまとまったゴミを消去する機能があってもいいよね。
649 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/03/21(金) 11:14:49 ID:usFTg7Jp0]: 以前から疑問だったんだが・・・
スキャナとかコピーとかしたとき、
原稿の一部だけ、字がにじんだり、潰れたりするのは何が原因なの？
途中で動いたってことなのかな？
しっかり押さえたつもりで、自覚症状が無いことがほとんどなんだが。
650 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/03/21(金) 14:03:36 ID:vs8oaQ7S0]: >>649
そうだと思います。
やっぱり、カード類なんかはプラスチックで滑りやすいんで、画像が
ボケたり、片側だけが広がったりしてますね。
651 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/03/22(土) 22:33:23 ID:26pq4wpB0]: 読んでココ13を使い始めたばかりの者です。
英文混じりの書籍を認識させるとき、小文字のc,o,sが頻繁に大文字に認識されます。
候補文字から修正してると自動的にユーザー辞書に追加されていきますが、
このまま同じ文字ばかり追加していって、認識率は上がるのでしょうか？
まだそれほど認識速度は落ちていませんが。
ほかにもっと上手いやり方がありますか？
652 名前：名無しさん＠お腹いっぱい。 [2008/03/22(土) 23:31:46 ID:B1KQW1w80]: 読取革命liteからver.12へのバージョンアップ、インストールがうまくできないのですが、この場合liteにver.12が上書きされることになるのですか？
653 名前：名無しさん＠お腹いっぱい。 [2008/03/24(月) 11:50:59 ID:Sg3HQnEQ0]: ライトも１２も残るよ。
654 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/03/24(月) 21:33:37 ID:RpC75rJB0]: >>653
652です。レスありがとうございます。何度インストールしても辞書の読み込みに失敗、ということになり、どうやらliteインストール後にマイドキュメントをＤディスクに移動させたのが原因ではないかと。Ｃに戻してから再度やってみます。
655 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/03/24(月) 23:38:54 ID:RpC75rJB0]: >>653
辞書ファイルも、ライトと１２と両方残るのですか？
656 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/03/25(火) 10:13:15 ID:UKwYieMD0]: >651
それ以上認識率は変わらない。やりすぎると重たくなるだけ。
むしろ、テキスト出力して正規表現置換で小文字にしてしまうほうが
簡単じゃないかな。
657 名前：名無しさん＠お腹いっぱい。 [2008/03/25(火) 20:01:55 ID:6dsHcr8U0]: 当然残るよ。
658 名前：名無しさん＠お腹いっぱい。 [2008/04/02(水) 18:09:26 ID:PsFZJM1O0]: etypist使っとけ
659 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/06(日) 18:08:29 ID:O2A1ix0/0]: >>548
プリンタ付属の古い読んde!!ココパーソナル（Ver.4.01）を使ってたが，
英文の認識だとこっちのほうがいいね
660 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/07(月) 13:46:50 ID:d5ef102Q0]: eTypistて透明テキストつきpdfで出力できないの？
661 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/08(火) 10:20:28 ID:/9Ax63ok0]: pdfをrtfかodfに変換する時に使えそうなのない?
662 名前：名無しさん＠お腹いっぱい。 [2008/04/09(水) 18:14:29 ID:wF5n2yAm0]: つadobe acrobat
663 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/10(木) 11:21:55 ID:0U+ttj0K0]: >>660 可能
>>661 e.typistで可能
mediadrive.jp/products/et/index3.html
664 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/10(木) 15:03:50 ID:pNf6kXbz0]: 読んでココでpdfを読み込むと、一から画像をＯＣＲしてしまって、
元の透明テキスト情報は無くなってしまうのな？
元の透明テキストをそなまま読み込んで、修正のために、
テキストエディタ的な使い方って出来ないものかな？
665 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/11(金) 23:10:11 ID:Gt2UltzU0]: 画像ビューワとテキストエディタを左右に並べればいいだけでは？
666 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/11(金) 23:10:57 ID:Gt2UltzU0]: 画像ビューワじゃねーや
PDFのビューワな
667 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/13(日) 03:10:25 ID:CMPBLWQF0]: それが器ホンダが、図とか写真とかレイアウトとか書式を設定したりするのが面倒くさいだろ。
668 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/13(日) 05:37:43 ID:C/qukH7P0]: >>667
それのどこが「テキストエディタ的な使い方」なんだ？
669 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/13(日) 21:11:39 ID:CMPBLWQF0]: テキストエディタ的って誰が言ったんだよ?
670 名前：名無しさん＠お腹いっぱい。 [2008/04/14(月) 11:14:54 ID:dJXYpbuD0]: >>664
つadobe acrobat
671 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/15(火) 21:11:34 ID:3OAKXwi90]: >>669
おまえ話の見えない奴だな～
672 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/16(水) 01:45:53 ID:TQ1X288s0]: >>664
使うソフトを間違えてる
OCRは画像をテキスト化するソフト
PDF関係のソフトをあたるのが正解

PDF作成・変換ソフト。Part 5
pc11.2ch.net/test/read.cgi/software/1200771165/
673 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/23(水) 21:47:14 ID:q2B+fOBS0]: 英文しかない場合は、外国産の方が認識率高いの？
ヨンデココがどうもダメ、領域を正しく抽出する所から
ちゃんとやってくれない、かすれてないのに。
ネットで落としたものだから、コピーし直すとか出来ない。
674 名前：名無しさん＠お腹いっぱい。 [2008/04/24(木) 08:00:33 ID:34xibooz0]: >>673
SmartOCRLこれは？　文字がはっきり写ってるなら　高確率で認識してくれるよ？
675 名前：名無しさん＠お腹いっぱい。 [2008/04/24(木) 10:21:13 ID:LqECzoR50]: >>673
ちゃんと英語モードにしてからやってる？
676 名前：673 mailto:sage [2008/04/25(金) 20:14:31 ID:SRLFiK0c0]: 一応、漢字は無し、英文字記号数字のみの
設定で読み込ませてはいます。
あとSmartOCRはぐぐってみたけど、
サイトが閉鎖してました。
677 名前：名無しさん＠お腹いっぱい。 [2008/04/27(日) 16:15:02 ID:lWgL7JQt0]: >>676
SmartOCR - フリーウェアのOCRソフト
ocr.rossa.cc/
678 名前：名無しさん＠お腹いっぱい。 [2008/04/27(日) 19:31:23 ID:8zNLeoOp0]: エクセルファイル⇔一太郎ファイル⇔ワードファイル
が出来るフリーソフトありませんかね？
一太郎で作った表を自動計算させたいのでエクセルファイルに変えたいのですが・・・。
ご存知でしたら教えていただけないでしょうか？
679 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/27(日) 20:09:38 ID:gFFqjIH80]: ttp://q.hatena.ne.jp/1058864683
680 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/27(日) 22:14:55 ID:gVL4KMxz0]: >>673
ABBYY社のFineReaderの最新版使うといいよ。
お試し版もあったはず。以前試してみて認識率の高さに感動した。
読んdeココも一応ABBYY社のエンジン使ってるけどたぶん古い。
681 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/27(日) 23:06:11 ID:D4XQ9+0+0]: ソフト形式を変換とかじゃなくて表の（ハイパー？）リンクだけで出来そうだが
682 名前：蕪木ら某 ◆Googl8RmwA mailto:sage [2008/04/28(月) 04:38:47 ID:kpMp0cZ40]: >>678-679 >>681
+ faq.justsystem.co.jp/faq/1003/app/jsfaq.jsp?49876+0397
　faq.justsystem.co.jp/faq/1003/app/jsfaq.jsp?50406+0397
　faq.justsystem.co.jp/faq/1003/app/jsfaq.jsp?49258+0397
　...
　faq.justsystem.co.jp/faq/1003/app/jsfaq.jsp?49036+0397#a02
　...
　pc11.2ch.net/test/read.cgi/bsoft/1200988045/
　...
683 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/28(月) 08:03:53 ID:KHm4WEpd0]: >>682
はいはい　かしこいかしこい
なにもしなくても一太郎だけでできますよっと
684 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/06(火) 12:37:25 ID:TWTA7jP10]: 読んでココで認識結果をpdf出力するとき、
認識結果は透明テキストに反映されるわけだが、
2行を1行に間違えて認識してしまった場合、
上の行にしか貼り付けされないのな。
結果編集で改行入れても、その行は無いことになってしまう。
認識段階または結果編集段階で行を挿入できないのだろうか？
685 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/14(水) 14:04:19 ID:LzErthzGP]: >>680
英文なら認識率いいのか…日本語の認識率の悪さに辟易したが。
686 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/14(水) 17:49:48 ID:nAAoVTJI0]: だって文字の数や複雑さからして違うっていう
687 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 15:12:27 ID:3tPMVg6y0]: 購入した本や図書館で借りた本を、OCRソフトで
テキスト化して個人的にノートパソコンかPDFで使用は、
著作権の違法に当たりませんか、またこの本を第三者に売却したら？
688 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 15:34:52 ID:IB0cb+yL0]: どう考えても売却はマズいだろ
689 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 15:37:22 ID:3tPMVg6y0]: 図書館で借りた本はいいのかな
690 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 16:06:43 ID:rcBGeT790]: 個人的な使用ならおｋじゃ？
コピーとるのと同じでしょ
691 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 16:34:23 ID:3tPMVg6y0]: 理屈ぽっくてすみません
友人から借りた多くの本でも
692 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 19:23:56 ID:xmMzdCDf0]: >>691
理屈の前に日本語勉強しる
693 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/23(金) 02:21:36 ID:dy5Q840K0]: >>692
便所の落書き2chに何を興奮してんだよ、
変な物見てんじゃないぞ
694 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/23(金) 08:39:24 ID:qndHTxug0]: >>687
借りた本を売ったらいかんだろ
ってのはともかく、
自分で買った本なら別に法には触れないだろ。
695 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/24(土) 16:45:05 ID:zkuID2AP0]: PDF画像からﾃｷｽﾄに変換で色々調べて準備終わった。
いざ実行してみるとPDFに画像ｺﾋﾟｰ禁止の権限が・・　ヽ(`Д´)ﾉｵﾚﾉｼﾞｶﾝｶｴｾｰ
696 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/25(日) 01:29:44 ID:aA4ZumvxO]: e.Typist ver.12を使ってみたんだけど、ルビを埋め込み設定にしたにも関わらず、認識結果は埋め込みとそのままが表示された。
ver.11だと普通に埋め込みのみなんだけど、原因がわからん。
設定同じなんだけどなぁ。なんか設定いじくる必要があるのかな。
どなたか解決策ご存じありませんか。
697 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/27(火) 01:48:16 ID:/mEeoUdB0]: >>695
互換PDFビューアの過去バージョンで権限無視でコピーできるって話が昔あったような。
698 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/29(木) 03:56:45 ID:uFnsPlIH0]: ビジネス書とかの単行本をテキスト化してるが、
e.Typist＞＞読んdeココ＞＞＞＞＞＞＞＞読取革命
だな。
読んdeココは多機能で使いやすくてバランスが取れた製品だと思うけど、
純粋に文字認識の精度だけを比べるとe.Typistが一番優れてる。
699 名前：名無しさん＠お腹いっぱい。 [2008/06/03(火) 23:17:38 ID:mqE/evSE0]: >>680
ABBYY社のFineReaderはスゴイ
日本語化出来ないんだろうか？
700 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/03(火) 23:47:39 ID:WQ9oBg400]: >>699
e.typistと比べてどっちが認識率が高い？
701 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/04(水) 02:49:03 ID:0YcMkrT10]: >>700
英語ならFineReader、日本語ならe.Typistに決まってるだろ。
702 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/06(金) 08:28:43 ID:St1jBd+t0]: FineReaderってOmnipageよりいい？
703 名前：名無しさん＠お腹いっぱい。 [2008/06/06(金) 15:13:42 ID:bjY5yxxP0]: いい場合も悪い場合もある
www.ocrreview.com/
704 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/14(土) 03:46:01 ID:3uX8P8rx0]: >>703
このサイト初めて見た。認識率だとやっぱりOmniPageが優れてるね。
FineReaderもそれに近い値だけど、時間も遅いので、なんだかこれを
使うメリットがにくい。
705 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/23(月) 21:24:23 ID:fdvf+v9p0]: 警察は宗教に目を光らせている、盲信によって罪悪感のない犯罪を
起こしやすい、教祖の出来不出来でその人の人生が決まる

教祖だけに罪はない、似たもの同士がお見合いするのかも知らない、
騙す人間が悪いが、騙される人間も同類か
706 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/23(月) 22:00:12 ID:KvQHOAny0]: これまた激しい誤爆だな。
707 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/24(火) 00:35:24 ID:kDEQN6+m0]: >>705
ＯＣＲ誤認識がひどいな。
708 名前：名無しさん＠お腹いっぱい。 [2008/06/25(水) 08:59:23 ID:DKou2GCA0]: 読んでココはpdf出力するとき、追加保存が出来ないんだな。
wardやhtmlならできるのに・・・
仕方ないから新規ファイルで保存した後、いちいちpdfエディタ立ち上げて
結合させてるけど、マンドクセ。
709 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/25(水) 15:04:00 ID:OJ8SNbTv0]: 見開き表示とか綴じ方(右から左)の設定もできないから不便だよね。
710 名前：名無しさん＠お腹いっぱい。 [2008/06/30(月) 17:17:28 ID:nNrhDlkb0]: ominipage 16が$79.99で買えるキャンペーン中

www.digitalriver.com/promo=212017
711 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:37:06 ID:5LpB7fyT0]: >>710
↑クレカの番号と所有者名を収集してるんか？
トップページに行けないぞ？
712 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:38:03 ID:5LpB7fyT0]: Domain Name: NUANCESTORE.COM
Registrar: NETWORK SOLUTIONS, LLC.
Whois Server: whois.networksolutions.com
Referral URL: www.networksolutions.com
Name Server: PDNS1.ULTRADNS.NET
Name Server: PDNS2.ULTRADNS.NET
Name Server: PDNS3.ULTRADNS.ORG
Name Server: PDNS4.ULTRADNS.ORG
Status: clientTransferProhibited
Updated Date: 16-oct-2006
Creation Date: 01-feb-2006
Expiration Date: 01-feb-2009
713 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:38:43 ID:5LpB7fyT0]: Registrant:
Digital River, Inc.
9625 W. 76th Street
Eden Prairie, MN 55344
US

Domain Name: NUANCESTORE.COM

------------------------------------------------------------------------
Promote your business to millions of viewers for only $1 a month
Learn how you can get an Enhanced Business Listing here for your domain name.
Learn more at www.NetworkSolutions.com/
------------------------------------------------------------------------

Administrative Contact, Technical Contact:
Digital River, Inc. hostmaster@digitalriver.com
9625 W. 76th Street
Eden Prairie, MN 55344
US
952-253-1234 fax: 952-253-8497

Record expires on 01-Feb-2009.
Record created on 01-Feb-2006.
Database last updated on 30-Jun-2008 06:31:44 EDT.
714 名前：名無しさん＠お腹いっぱい。 [2008/07/01(火) 08:23:46 ID:AL20YzVU0]: はあ？
ieでもsafariでもいけるよ
715 名前：名無しさん＠お腹いっぱい。 [2008/07/09(水) 09:25:33 ID:tqR/hLP70]: 手書きの文字が認識できるOCRソフトってありますか？
716 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/07/25(金) 18:03:44 ID:nsfqqXyN0]: TextSS
717 名前：名無しさん＠お腹いっぱい。 [2008/07/31(木) 12:46:10 ID:KkyDCbb60]: 文字じゃなくて、表などの枠線をスキャナから認識ってできますか？
718 名前：名無しさん＠お腹いっぱい。 [2008/07/31(木) 14:14:49 ID:kYKcm3m90]: できます
jp.fujitsu.com/group/fct/services/archive/ocr/
719 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/07/31(木) 23:49:10 ID:mcLkMUjo0]: >>717
e.Typistってのを使ってるけど、できますん
720 名前：名無しさん＠お腹いっぱい。 [2008/08/01(金) 10:40:29 ID:DLLVnu+y0]: >>718
終了だから"できた"でつね
721 名前：名無しさん＠お腹いっぱい。 [2008/08/07(木) 00:06:40 ID:BSuE1Slo0]: SubRipでｂｍｐ化した字幕データをテキスト化したくて、
読んでココｖ９と最新体験版、革命ｖ１２、タイピストｖ１２、
スマートライトを試しました。スマートライトは画像読むだけで落ちるので
インストールに問題があったようなので別として、のこりでも、
見事に一文字たりとも認識されません。おまけにココだと、解像度エラー
といわれてしまいます。
吸い出し時に設定を変えてみましたが、白地に黒縁かその逆かはともかく
フチ付きの絵になり、それが誤認識の原因ではないかと考えていますが、
あまり自信がありません。どういう手順で、またどんなソフトを使って
（ｂｍｐは１５００あるので、ひとつずつ開かなくてすむように）色などの
調整を試すのがよいか、どなたか教えてくださいませんでしょうか？
722 名前：名無しさん＠お腹いっぱい。 [2008/08/07(木) 18:58:58 ID:eM6AkDyu0]: 前に画像処理ソフトで処理してから読み込ませた方がいいかも。

ネガ反転や、解像度変更、ノイズ除去、余白やいらない部分の削除、カラー画像であればグレースケールや白黒画像に変換など、

一括処理できるソフトもたくさん有りますから、やってみるといいかもね。
723 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 00:32:22 ID:IzZ40ACA0]: どうしても小文字（ぁぃぅぇぉやゃゅょなど）が弱い
どこのソフトも駄目だ
724 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 09:31:08 ID:v6VOgDwN0]: e.Typist ver12買ってOCR作業中。
正　。 → o・O・0・０　これは許す。すっごいイヤだけど難しいだろうから。
正　I　→１　これも当然許す。すっごい難しいだろうから。英語領域にしていすればかなり改善するし。
正　- → 1・I　これはなに？　なにしてるの？　バカなの？('Ａ`)
725 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 09:36:20 ID:QnPzfkJy0]: >>724
OCRにマジになるとか時間の無駄
726 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 12:13:34 ID:jZK0Tj450]: >>724
そんなに嫌なら文字種いじれよ
727 名前：名無しさん＠お腹いっぱい。 [2008/08/14(木) 04:33:00 ID:bB/191pD0]: 設定が悪いんじゃないの（笑）
728 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 10:08:20 ID:+Lwt0Ob70]: 同じくeTypsit使ってるけど、ScanSnapでPDFに→OCR→透明テキスト付きPDFにすると画像がかなり劣化する。
Scan直後のPDFの画質を守る方法ってないのかな？(´･ω･`)
Acrobat Pro持ってるけど、画像が劣化したあとのPDFを編集しても意味ないよね…
729 名前：名無しさん＠お腹いっぱい。 [2008/08/14(木) 16:13:43 ID:BarBaXMw0]: 透明テキストつけるだけなのに
画像が痛むのか
730 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 17:14:00 ID:yeyKQnnw0]: OCRソフトのpdf入力は一端仮想プリンタに出しちゃって画像にして
文字認識してから改めてpdfに仕立て直してるからな。

最初からjpgでスキャン出力してそれをOCRソフトにかけるか
pdfにしちゃってたものは一度画像として書き出してからOCRソフトにかければいい。
731 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 22:51:59 ID:d+q5/K3K0]: 実家にある本でもテキスト化してみるかと思って読んでココの体験版入れてみたけど
使い方もわかんねえし、結構めんどくさいんだな
小説なんかをちゃんと設定してやると誤認識1ページにどれくらいになるの？
732 名前：名無しさん＠お腹いっぱい。 [2008/08/15(金) 02:20:36 ID:UA5Ln4AC0]: きちんとやればほとんどご認識なんかないよ。
どうしても読めない漢字とかってあるけど。
たとえば解像度600ｄｐｉとか、試しにやってみれば。
733 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/15(金) 06:10:09 ID:3bwMrQBM0]: 読んdeココのOCRファクトリー便利だぜ。
一度設定すればアイコンをダブルクリックするだけで全部自動でやってくれる。
734 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/16(土) 21:12:32 ID:BBpdl85r0]: >>731
元の本のフォントと組版、スキャンの解像度にもよるけど
最良の時で大体1～2頁に1字前後
酷いと1頁に10字以上とかあるね

1頁に誤字一字の割合だと読でてかなり気になるレベルだから
結局全編目を通して修正することになるね
735 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/17(日) 10:35:23 ID:EfKqQDE+0]: e.Typist使ってみたけど、たまに一文字を勝手に分離して認識してしまう。
「え」が「、」と「λ」とかになる。
二文字に認識してるから学習しようがない。
細い所とかかすれるとだめ。
まだまだって感じだなあ。
736 名前：名無しさん＠お腹いっぱい。 [2008/08/17(日) 21:14:50 ID:NNvDk3xe0]: 何様だよｗ
737 名前：名無しさん＠お腹いっぱい。 [2008/08/17(日) 21:44:41 ID:a9bB+bqN0]: 読んでココの開発者だろ
738 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/18(月) 01:00:46 ID:v0mRsvdB0]: >>732
ああ普段使わないからスキャナの設定なんか全く見てなかったわ
画像データだけ持ってきたけど、だめかもシンネ

OCRファクトリーでまとめて読み込んだ後って読んでココ上で誤字とか確認してる？
画像勝手に追いかけてくれるし、学習しなきゃだけど、エディターが使い
739 名前：名無しさん＠お腹いっぱい。 [2008/08/19(火) 14:17:41 ID:m4W/W6650]: 読んでココを試用してますが、
原稿では２行になってるはずなのに、１行の文として認識してしまい、
わけ分からない文字列を出してくるとき、これを２行に修正することは出来ませんか？
ただテキストを起こすだけなら、認識結果画面で改行して手打ちすれば良いだけですが、
当方、画像が重要な資料を扱ってるため、ＰＤＦで透明テキストで貼り付ける必要があり、
ただ改行しただけでは、透明テキストにはその追加した行が反映されていないのです。
740 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 14:32:14 ID:pZKp1XtT0]: AcrobatってOCRソフトとしてどんなもんなんだろう？
アカデミック版Standardで1万ちょいだから買ってみようかな？
741 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 14:37:27 ID:9YTtEXub0]: AcrobatのOCRは糞
よんでここ＞＞e.typist＞読み取り革命＞＞＞＞AcrobatOCR
742 名前：名無しさん＠お腹いっぱい。 [2008/08/19(火) 20:34:17 ID:aPjCwCOs0]: acrobat ocr≒ﾖﾝﾃﾞｺｺ

ﾖﾝﾃﾞｺｺ工作員市ね
743 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 22:10:18 ID:ThYcLLsW0]: e.Typist＞読んでココだろ。
744 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/20(水) 11:54:34 ID:5xCLDVVM0]: e.TypistのＨＰ見てきたけど、
取り込んだ画像の補正機能について何も書いてないようなんだが、
見開きの傾き自動補正とか出来るのかな？
745 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 02:30:37 ID:VsRH2oEP0]: ここにはe.Typist使ってる奴はいないってことか
746 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 10:04:41 ID:piDQE/Jd0]: 5cm身長アップが50m身長アップになった
これで俺も51m56cmだぜ
747 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 12:47:35 ID:Q0h/A3Xy0]: >>744
見開き手動補正はできる。
自動の傾き補正は見開きには対応してない。
748 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 15:39:21 ID:Gdf1OOpi0]: >>747
そっかー手動なのか。
こういうのは機械任せがありがたいんだけどなー。
サンキュー
749 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 17:31:48 ID:ksXciaP30]: smartOCRはいつも「事」を「夢」と認識する
後からテキストエディタで一括修正した方がいいのか
750 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 06:25:03 ID:h6cmS6A40]: >749
認識辞書で対応すべきではある
「夢」と「事」じゃ、正規表現使ってもまともに修正するのは難しいし、
一括置換すると間違ってないところまで間違えてしまいかねん、一つ一つ
修正するのはどっちもそれなりの数がありそうだから面倒

>745
e.Typistも読んdeココも使ってる。
個人的な感想としては、OCR結果を縮小してあるような画像だと、e.Typistのが
認識率はかなり高い。画像がでかくなるほど両者の認識率は近づいていくけど、
OCR直後のでかい画像だと読んdeココのが多少いいような気はする。

>739
不可能だな。1文字の区切りがきちっとできている状態で、それがどの文字なのかを
学習させることは可能だが、1文字の範囲がどこからどこまでかは学習させようが
ない。本文とルビをごっちゃにして1文字にしてしまうような場合と同様で、ずっと
以前からこういう状態だから、技術革新がないと無理じゃね
751 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 09:59:49 ID:rHvUrtQk0]: >>750
ピントのずれた、無駄に長い、タイミングの悪いレス、どうもありがとう。
752 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 10:12:44 ID:MGOLjeef0]: 別にずれてないんじゃね
753 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 10:58:32 ID:b29yVzjt0]: 正解率９９％　ネット認証技術、書籍のデジタル化に威力
ttp://www.asahi.com/science/update/0823/TKY200808230207.html
754 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 17:48:36 ID:5eaoBiak0]: うーん、99.1% ってほぼ自動ってのにはまだまだ程遠いね・・・
755 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 18:00:07 ID:GHGOAqBa0]: つかこれ英語限定じゃないの
756 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 18:50:29 ID:kMvnDz2o0]: 人間の正解率てのは元々どのくらいなんだろうな。
俺なんて入力ミスもしてたんだろうが再入力の経験が何度もあるぞ。
人力OCRだから英語以外は対象地域を絞らないと無理だろうね。
757 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 20:00:55 ID:JUspXpDS0]: >>753
結構いいアイデアだな。
日本語だと厳しいが、まあ2chとかの日本語コミュニケーション限定サイトに
置くなら何とかなるかもしれん。

・・・と書いてて今気付いたんだが、難読文字を読んで貰って、それが正しいかどうかの
答え合わせは誰がやってるんだ？
読んだ結果が正しいと判って、それで初めて認証として成立するんだろ？
758 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 22:11:40 ID:pBM6iPT60]: >>753
よくこんなこと思いついてしかも実行したよなｗｗ
759 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/26(火) 11:13:56 ID:3pII43Sm0]: >>757
二つのＯＣＲで一致した部分は正解、ちがった部分は不明として
正解と不明が含まれたものを表示して入力させ
正解の部分は認証として使い、不明部分を入力結果から拾う

とかかね
760 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/29(金) 05:58:38 ID:PUHS2H7P0]: 多数決
761 名前：名無しさん＠お腹いっぱい。 [2008/08/30(土) 16:48:15 ID:UobhjFbi0]: ケツ多数
762 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/31(日) 00:12:15 ID:xOEiIMAi0]: どんなに正答率が上がったところで人による目視チェックは必須だろう。
763 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/07(日) 09:56:23 ID:9RYOriMs0]: >>762
>人による目視チェックは必須

そうです。そしてそこが一番手間と時間がかかる部分。

上に出てたAcrobatのOCRはこのプロセスがないし、埋め込まれた
透明テキストを後から修正するのも事実上困難（不可能では
ないが、OCRソフトでオンタイムに修正していくような訳にはいかない）。
一カ所でも間違いあると困るというOCR作業もあるでしょうが、そうでない
場合には割り切って使うと便利とも言える。特にScanSnapとの組み合わせ
で大量の文書を処理する時など。

OCRエンジンも7で読んde! ココ（の世代落ち）になってるが、8や9で
どうなってるのか分からない。
764 名前：名無しさん＠お腹いっぱい。 [2008/09/10(水) 11:38:25 ID:H8/lfHgO0]: ＯＣＲ使ってて感じるのは、誤変換の原因はほとんど「切り出し間違い」。
文字列に占める空白の割合なんかから一意に決めてるんだろうけど、
カスレの多い原稿だと区切るところがめちゃくちゃ・・・
きっちり区切りなおせば正しく認識できるのに・・・
ユーザー辞書や単語認識かけて文字列にならないときとか、
この切り出しを見直して再認識処理してくれないのかね？
処理時間がべらぼうにかかりそうだけど。
765 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 12:42:49 ID:8eNIWm0W0]: GPUで処理できるようになったら何でも有りになるな。
766 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 18:20:58 ID:8r86j5IT0]: 読んでココ使ってるんだけど、「～」が認識されず空欄になってることが多い。
ユーザー辞書にも1文字だけど登録してるのに。何とかならないのかな？
767 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 18:22:38 ID:aAaEuFR10]: >764
小説みたいに同じ大きさの文字が延々と続いているのであれば、文字の大きさを
手動指定するモードとかあっても良さそうだよな。
見出し、本文、ルビの大きさを指定して、そこから文書を解析して認識するのなら
そんなに難しくはないような気もする。新聞とか広告文みたいにいろんな大きさの
文字が混在するのには無力だろうけど
768 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/12(金) 17:59:53 ID:BkRq8OtC0]: ttp://code.google.com/p/nhocr/
NHocr is a command line OCR (Optical Character Recognition) program for Japanese language
769 名前：名無しさん＠お腹いっぱい。 [2008/09/21(日) 20:05:56 ID:CcopwTiy0]: 素人で失礼ですが
OCRソフトは、１０万円以上の価格でないと、７割文字認識できませんか？
770 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/21(日) 22:19:11 ID:m2yjq4Bi0]: 原稿の状態によっては何万出しても変わらない。
認識エンジン自体は1万前後の製品とはそんなに変わらなくて、内蔵辞書を持つとか、そういうところが変わってくる
771 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 01:41:38 ID:KwoBHrO90]: 既存のPDFファイル（複合機でスキャン）に透明テキストを乗せようと
読んdeココ！！と読取革命の体験版、クセロReaderZeroを試してみたのですが、
完成後のファイルサイズがとんでもなくマチマチになるのはどうしてでしょうか？
クセロで約3倍、読取革命で約5倍、読んdeココ！！で約17倍にもなってしまいました。

同じ読んdeココ！！で、自動処理ではなく手動で作業を進めていくと
元々のファイルとほとんど変わらないサイズのものができあがるので、
これと同様の処理をなんとか自動でしてもらえたらいいのですが。
772 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 09:25:41 ID:NU0TD4QW0]: 複合機の一部では、カラーやグレイスケール画像をJPEGの数分の１に圧縮するものがある

OCRで画像を読んで保存するときに、
１　読み込んだ画像を通常のJPEGで保存→ファイルサイズが数倍に
２　元の高圧縮画像のまま保存→ファイルサイズは元のまま

というケースに遭遇したことがある。今回のケースに当てはまるか分からんが。
773 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 15:57:00 ID:j94B8AKB0]: ソフト（と手順）によっちゃ画像をビットマップに展開して
再度圧縮してしまう場合もある

OCRソフトって文字認識に関しては強くてもPDFや画像の
扱いがなんでここまで糞なのってのが多い
774 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 16:30:47 ID:NU0TD4QW0]: 非可逆圧縮で何度も圧縮・伸張したらひどいことになるんじゃ...
と思ったら手動の場合はちゃんとやっているのか
775 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 18:09:51 ID:v43+h7ws0]: いったい何を言っているんだ？
776 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/24(水) 20:46:29 ID:j94B8AKB0]: >>774
結構その「ひどいこと」になっちゃうOCRソフトが多い
777 名前：771 mailto:sage [2008/09/25(木) 01:44:15 ID:VosBAVv30]: レスありがとうございます。

>>773さんの書かれているところが問題のようですね。
試しに複合機で作成したPDFファイルをAcrobat Pro（の体験版）でTIFFに変換し、
それをOCRで自動処理し透明テキストPDF出力としたところ、
サイズの変動がほとんどなくなりました。
次からは複合機でのスキャン時にPDFではなくTIFFで保存することにします。

あとは見開きの傾き自動補正がどのソフトでもできないようなので、
これについてはTIFFファイルをどうにか処理してみようと思います。

マンガのスキャン技術スレはマニアックな深みにはまってるようですが、
検索用に本をPDF形式でため込むだけならかなりよい感じですね。
778 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/25(木) 08:14:14 ID:A9ZTqUPm0]: >>777
＞マンガのスキャン技術スレはマニアックな深みにはまってるようですが

そのスレ教えてください。
779 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/25(木) 14:59:37 ID:6Td5Al990]: ＞あとは見開きの傾き自動補正がどのソフトでもできないようなので
読んでココはできるっしょ？
780 名前：名無しさん＠お腹いっぱい。 [2008/09/26(金) 13:37:29 ID:yFUJpsc5O]: e.Typist使ってるんだけど、だんだん操作するのが面倒になってきたので、
ファイル名を渡して連続自動処理を開始させたいんだけど、
どうやれば可能なの？
781 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 18:17:08 ID:z9c8uZzd0]: >>778
【初めての】スキャン職人養成スレ七【自炊】
ttp://changi.2ch.net/test/read.cgi/download/1217071704/
とか
【コミック】自炊技術スレッド 30冊目【書籍】
ttp://changi.2ch.net/test/read.cgi/download/1219749815/
とか見てると画質と作業時間のトレードオフで無闇に画質よりにしすぎてるような気がするのですが。

>>779
最初に読ませるファイルと最後の出力ファイル名以外は全自動でさせるモードだと、
普通の傾き補正しか選べなかったように思うのですが、もう一度見てみますね。
「見開きのラインを認識できないなら仕方ない」と漠然と考えていたのですが。
782 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 18:39:15 ID:Dg2t2hyN0]: ＞最初に読ませるファイルと最後の出力ファイル名以外は全自動でさせるモードだと、
ああ、ＯＣＲファクトリーのことか。
それは使ったこと無いからわかんないや。
読んでココで見開き自動補正というと、センターを手動で指定すると、
あとは自動で傾き検出、補正してくれるってことだから。
783 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:07:07 ID:z9c8uZzd0]: >>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。
784 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:13:45 ID:z9c8uZzd0]: >>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。
785 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:31:24 ID:z9c8uZzd0]: >>782
はい、そういう名前でしたね。
本をガンガン処理していきたいので手動センター指定を全ページというのがちょっと重荷なので。
もっとも、修正をかけなくてもOCR処理自体は問題なくしてくれるのでそれなりに満足です。
786 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/26(金) 20:32:42 ID:z9c8uZzd0]: うわああ連投してしまってた。申し訳ないですorz
787 名前：RQJgKKUofecPPwugoiK mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:09 ID:HUr/ledZ0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
788 名前：bBDymJSOLg mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:09 ID:TK425olO0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
789 名前：kIEszFhHEH mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:19 ID:E+wJqkJG0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
790 名前：lqhDyZkYU mailto:s.frosen@microsoft.com [2008/10/21(火) 00:23:25 ID:IPLca0TN0]: More about mesothelioma at <a href="www.webng.com/cancerlawyer/">mesothelioma cancer lawyer</a>
www.webng.com/cancerlawyer/
[URL=www.webng.com/cancerlawyer/]mesothelioma cancer lawyer[/URL]
791 名前：rLrwTcsIAjZpfNgSA mailto:cjebupqq@gmail.com [2008/10/21(火) 00:24:59 ID:Ps1bh35Y0]: NSr3Vk This pearl has a programmable grind and brew feature, it holds a quarter pound of coffee beans and it has a filter indicator to tell you when your water filter is pooched, frespmesh.cn/vonsweeklyad.html Vons Weekly Ad
, :[[, fresnmesh.cn/protran.html Protran
, 843, fresnmesh.cn/ludogameprogramminginc.html Ludo Game Programming In C
, jii, fresimesh.cn/snugharbormarinachautauquany.html Snug Harbor Marina Chautauqua Ny
, enlfg, fresimesh.cn/jardinetechnicalservices.html Jardine Technical Services
, 8], freshmesfsdfh.cn/lightbearers.html Lightbearers
, fvfm, fresimesh.cn/safestprescriptioneyeglassesfdaapproved.html Safest Prescription Eyeglasses Fda Approved
, 966151, fresjmesh.cn/femalepudenda.html Female Pudenda
, 8-(, fresqmesh.cn/sacagaweadollarquartermachined.html Sacagawea Dollar Quarter Machined
, 6948, fresmmesh.cn/hydrolux.html Hydrolux
, :PPP, freskmesh.cn/dvop.html Dvop
, 8-PPP,
792 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/28(火) 07:01:10 ID:2UwgvcQp0]: 読んでココ、早くunicode文字に対応してくれ！
793 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 19:21:47 ID:GUt1EgdT0]: OCRソフトって、前後の文字から推測するアルゴリズムにすれば
熟語とかの認識率が格段に上がるはずなのになんでやらないんだろう？
どうみても１文字ずつ単体でしか認識しようとしてないよな。
794 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 20:30:23 ID:K8CjuoRX0]: OCRって、元々の用途を考えると文章には不向きなんだよね。
申し込み用紙など決まった書式の中に住所、氏名書くようなものとか葉書（送り先を読み取って自動仕分けする機械がある）とか。
一語一句（誤字脱字も異字体も）正確に読み取るような用途向けだったはず。

それに、1文字でも誤認識があると、熟語全体を誤認識する可能性すらある。（だから「格段に上がるはず」という想定が通用しない。）
それを自動でどうにかするのが逆に難しい。1文字の区切りや行、列の方向を誤認識する事すらあるくらいなのに、複数文字組み合わせで
判定しようとすると辞書に無い熟語は認識率が上がらないし、辞書に無い熟語を「辞書にある熟語」で誤認識する可能性もある。
辞書の語彙を増やすと似たような文字を誤認識した場合に熟語ごと誤認識する可能性も高まる。

結局は1文字ずつちゃんと認識できないと辞書があっても誤認識率が上がるか大して変わらないからあまり意味が無いのでは?と思う。（人間の曖昧情報の認識力って優秀だよね、と思える部分）
かな漢変換エンジン（今で言うIME）のメーカーとOCRメーカーが組んで作ったところで・・・1文字誤認識しただけで1文丸々誤認識とか勘弁して欲しい事態になることも。
795 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 11:25:27 ID:6UKMxSSc0]: そこまでいく文字認識じゃなくて人工知能だからね。
コンピュータに一般常識やら駆け引きやらを実行させなくてはならない問題だ。
膨大なデータベースと高速演算が出来れば可能なのかもしれないが。
796 名前：793 mailto:sage [2008/10/30(木) 18:26:59 ID:wNT2JRDf0]: いやいや人工知能ってほど大げさなものじゃなくてさ。
例えば「微細」っていう言葉を認識するのに、ソフトは１語ずつ第一候補・第二候補…と
候補の語をいくつか持っていると思うんだよ。
それで２つの語の候補がそれぞれ、[1:徴 2:微 3:徹] [1:細 2:紳 3:組]だったとすると
この語句の組み合わせ(３ｘ３＝９通り)で熟語として成り立つのは「微細」だけ。
１語ずつ認識すると「徴細」という誤った結果になるけど、語の組み合わせで辞書と照合
すれば正しく「微細」となる。
単純に、辞書で照合できた熟語だけ優先的に出力するということ。
活字のOCRならこの方法が有効だと思うんだけどなあ。
797 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 18:37:13 ID:1mZmHH950]: >>793
実際高い製品ではそういうのができるものもあるよ。
というかスペルチェッカや文法チェッカのような技術は確立してるし、日本語の形態素解析も、再変換の技術がある程度確立してるから、技術的な困難はない。
ただデータベースのサイズが格段に上がるうえ、認識に極端な時間がかかる、辞書に載ってない言い回しや単語に弱い、言語が固定されてしまう(外来語に弱い)等の問題がある。
798 名前：名無しさん＠お腹いっぱい。 [2008/10/30(木) 20:28:12 ID:/oREtNdF0]: そういう機能って、E.
とか読とかにだって最初からついてるよ。
マニュアルちゃんと読んで使えるようになってください。
799 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 21:45:34 ID:MMyq2Afv0]: 英語のような分かち書きする言語だと比較的対応してるよな
800 名前：793 mailto:sage [2008/10/31(金) 18:17:48 ID:JCWTUkt60]: >>798が言ってるのはおそらくよく間違えて認識する単語を予め手動で登録しておく
ユーザー辞書のことを言ってるんだと思う。
俺が言ってるのはそうじゃなくて、国語辞典並みの20万語くらいの辞書をソフトが
持っていてその辞書を使って認識させることを言ってる。確かに>>797が言うように
極端に時間がかかる可能性があるし、メモリも食うと思う。今まで１時間程度で
終わってた処理がもしかしたら１０時間くらいかかるかもしれない。でもそれだけ
かかっても認識の精度の方を選びたいという需要はあると思うんだよな。速度重視と
認識率重視の２つのモードがあってもいい。現在95～99%と言われる認識率が1～2%
上がるだけでも十分価値がある。最近のマルチコアのCPUを有効に活用できると思うし。
801 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/31(金) 20:11:39 ID:bCRz+lPk0]: 時間のかかるOCRソフトに用はありません
昔の3D処理ソフトじゃあるまいし
802 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/31(金) 20:29:59 ID:xBhEoWYg0]: >>800
長文書く前にOCRを使ってみてはどうか?
お望みの辞書がついてると思う。
が、お望みの価値は見出せないだろう。
803 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/31(金) 21:12:56 ID:JLOd34LC0]: >>800
先ずワードのスペルチェッカや文法チェッカを使えよ
道具を使えないんじゃチンパンジー以下だぞ
804 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/01(土) 03:50:42 ID:SFh3NAV80]: >>800

ttp://mediadrive.jp/products/wrp/index.html
ttp://mediadrive.jp/products/wrp/index5.html
805 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/01(土) 13:09:12 ID:A6vJWRwI0]: e.typistのバージョン上がってたから一応
001408DE ： 11→00

eTyp12mem.dllは一緒
806 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 13:02:46 ID:AJubgEGf0]: たぶんＯＣＲ使ったこと無くて、想像で言ってるんだろうね。
現状、認識処理に1時間もかかるわけがないw
807 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 16:11:17 ID:SxT+me9H0]: OCRだって自然言語処理してるよ
認識候補に対して辞書を使って絞り込みとかやってる
808 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 16:15:31 ID:9MBAetAc0]: 認識処理は昔から早いけど、
結局は結果確認と誤認識や体裁の修正は必ずしないといけない。
その修正作業がどれだけ楽になるかがOCRソフトの一番大事なところ。
809 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 17:28:07 ID:cwzkfA700]: >>805
kwsk
810 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/02(日) 17:31:04 ID:poJP7dLr0]: >>809
いや駄目だろ、それは
811 名前：名無しさん＠お腹いっぱい。 [2008/11/08(土) 08:38:05 ID:ZMhDwSXi0]: 素人ですみません。
ＯＣＲソフトを探しています。
透明テキストの機能を使って、文書の全文検索に使えるようにしたいと考えています。
ＰＤＦに変換してから、ちょこちょこといじりたいのですが、acrobatのＯＣＲ機能ってどうなんでしょうか？
ＯＣＲ機能の点からみたacroatのメリット・デメリットは、>>763以外になにかありますか？（認識率が格段に低いなど）
ＳｍａｒｔＯＣＲは現在のＯＣＲのシェアウェアやacrobatよりもどんな点で劣る（あるいは優れている）か教えてください。
812 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/09(日) 12:45:08 ID:EZAsVtJx0]: PDFのOCR機能は画像OCRの付け焼き
813 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/12(水) 02:08:52 ID:6OQUopCS0]: >>805
差分ファイルで
814 名前：名無しさん＠お腹いっぱい。 [2008/11/16(日) 04:24:48 ID:4vajSCcA0]: 読んde!!ココの次期バージョンは当分ないのだろうか？
ブラザーA3複合機買ったんだけど、OCRソフトは何買ったらいいか迷う。
Acrobat8持ってるから充分なのか、読んde!!ココ 13にアップグレードするか。
それともe.Typistを使ってみるか。
最終出力はテキスト付きPDFにしたいんだけど。
イチオシのワークフローあるかな？
815 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/16(日) 05:27:56 ID:0tZlWar00]: あ
816 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/11/16(日) 06:36:32 ID:0tZlWar00]: あ
817 名前：名無しさん＠お腹いっぱい。 [2008/11/16(日) 15:06:04 ID:kMc8Bxa00]: 読取革命12体験版を使ってみたんだが・・・・。
表編集モードにおいて、誤認識された罫線の削除のコツがよくわからない。
はさみのアイコンでなぞっても、消えない事が圧倒的に多い。
まるで出来ないかというとそうでもなく、あーでもないこーでもないとやっているといきなり消えることもある。
エロイ人、どうかこつを教えてくれ。
818 名前：名無しさん＠お腹いっぱい。 [2008/11/23(日) 14:26:28 ID:vpMal3Xl0]: 「本格読取 2」と「本格読取 2 Deluxe」って
何が違うんですか？
819 名前：名無しさん＠お腹いっぱい。 [2008/12/01(月) 15:15:27 ID:LWVSjDCk0]: これまで何の疑問もなく「読んde!!ココ」のバージョン10.01を使ってきた。
バージョン上げると読み取り精度は上がるのだろうか？
俺が使うのは英文ばかりだけどfの読み取りが悪くてイライラ。
820 名前：名無しさん＠お腹いっぱい。 [2008/12/02(火) 11:26:40 ID:j5O/upWL0]: 英文ならomnipageとか使え
821 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/02(火) 14:14:45 ID:u3ql/6+p0]: FineReaderの最新版は抜群の精度
822 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/03(水) 01:16:37 ID:tni9wAEC0]: >>817
ハサミの左の先端で消したい罫線をなぞると良いよ。

ってもう試用期間終わってるかな？
823 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/03(水) 14:02:21 ID:7DjjIJfp0]: >>818
回答こないね
824 名前：jrOORvtvExkE mailto:helpcancer@microsoft.com [2008/12/04(木) 06:23:20 ID:eYjGu4xE0]: Useful info about <a href="mesothelioma-disease.blog.ca/">mesothelioma cancer</a>
mesothelioma-disease.blog.ca/
[URL=mesothelioma-disease.blog.ca/]mesothelioma cancer[/URL]
825 名前：BPCEZIWpAquwwspfZk mailto:helpcancer@microsoft.com [2008/12/04(木) 06:23:22 ID:VbG12Y6T0]: Useful info about <a href="mesothelioma-disease.blog.ca/">mesothelioma cancer</a>
mesothelioma-disease.blog.ca/
[URL=mesothelioma-disease.blog.ca/]mesothelioma cancer[/URL]
826 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/15(月) 08:02:30 ID:3Dr8GKKG0]: 読んでココv13の質問なんですが、
認識結果を修正するとき、候補文字から選択するとどんどんユーザー辞書に追加されていきます。
初期状態は、追加するかどうか、確認画面が出てたのですが、確認しないをチェックしてしまいました。
これを元に戻したい（確認画面が出て、不必要な辞書登録をしない）のですが、どこにその設定があるのか分かりません。
かなり探したのですが・・・何処に隠れてるのでしょう？ご存知の方教えてください。
827 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/15(月) 23:31:57 ID:SxBJUL7R0]: 自己解決しました。
で
別の問題が出てきました。
同じく、認識結果を修正中に、
候補文字から選択すると、半角指定してるはずの記号が全て全角になってしまいます。
仕事場と自宅で別々の読んでココを使ってるのですが、
仕事場のほうは半角で出てくるのですが、自宅は全角です。
環境設定とか同じはずなんだけどなあ・・・
ユーザー辞書が違うからかな？
828 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 12:37:06 ID:62OVPLgO0]: ユーザー辞書を移植したら、同じように半角で出てくるようになった・・・・
・・・・が、
今度は、移植した辞書に新しい字を追加しようとしたらエラーが出て落ちてしまう・・・orz
なんなんだ？
デフォだとユーザー辞書は隠しファイルになってるし、ダミーが置いてあったりするし、
移植したファイルは読めても書けない仕様なのか？
隠しファイル領域に入れないと駄目なのかね？
ヘルプ読むと、場所は何処に置いても良さそうなこと書いてるが。
俺みたいに2台のPCで場所変えて作業してる人のために、
設定や辞書の共有が出来るような仕組み無いのかね？
829 名前：名無しさん＠お腹いっぱい。 [2008/12/16(火) 16:09:26 ID:MKgRiCmn0]: お前はマニュアルを読んでここ
830 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 17:02:09 ID:/jtierzP0]: ヘルプのマニュアルは一応読んでるよ。
でも読み落としてるかもしれないから、何処に載ってるか教えてくれよ。
ただの煽りなら引っ込んでろ。
831 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 18:33:15 ID:ir5gL59l0]: >>830
おまえ人に聞く態度か、ドアホ～
おまえ頭悪いんじゃ　自覚せい　消えろ～
買ったところから聞け　たわけ～
832 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 19:21:17 ID:+a6zF2z/0]: 　　　∩＿＿＿∩ 　　　　　 |
　　　 | ノ＼　　 ,＿ヽ　　　　　　|
　　　/　　●゛　　● | 　　　　 |
　　 |　∪　　( _●_)　ミ　　　(>>830)　
　　彡､　　　|∪|　　 |　　　　　J
　/　　　　 ∩ノ ⊃　ヽ
　(　＼　／＿ノ　|　 |
　＼　 "　／　　｜　|
　　　＼／￣￣￣／
833 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 20:59:44 ID:1zLemMeh0]: やれやれ・・・釣り扱いかよ。
自己解決しますた。
ユーザー辞書の移植は、読み取りだけならdicファイルだけでいいけど、
書き込むにはコントロールファイルもいるんだな。
マニュアルには載ってないようだけど、
834 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/10(土) 08:16:09 ID:eYWtFstc0]: あぁ、1TBHDDが安くなりすぎてテキスト化しなくてもいいと思い始めた。
835 名前：名無しさん＠お腹いっぱい。 [2009/01/10(土) 13:00:54 ID:TYnOKpqB0]: ↑いやいや、検索するって役割があるでしょ。

質問です。
e.Typistをインストールすると、mediadriveというフォルダが、Documentsフォルダに作られますが、移動するにはどうすればよいですか。
これ非常に不便なのですが・・・
836 名前：名無しさん＠お腹いっぱい。 [2009/01/10(土) 15:12:22 ID:IPOI/TmT0]: 透明PDFにpngが使えないので萎えた
lzwのtiffでも数倍でかくなる
837 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/10(土) 16:30:03 ID:LjtLb05Y0]: OCRソフトってPDFの扱いが弱すぎるよね
838 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 00:40:51 ID:iuR1Bu1I0]: そもそもPDFっていらないしな。
839 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 02:42:06 ID:sd43c4tCP]: いやいやいや、今んところ透明テキストつきPDF以上に、
バランスの取れた形式ってないんじゃないのか？

OCR変換したテキストデータのみを使うとか正気の沙汰じゃないけど、
文字列検索ができるのはただの画像データにはないメリットだし、
何よりも可搬性が高いというメリットもあり。

>>838はこのスレでPDFいらないっていうことは
全部テキストデータで保存してるのか？
840 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 02:46:38 ID:iuR1Bu1I0]: 検索しないから。一度読んだらだいたいの場所は頭に入ってる。
読むの速いし、パラパラ高速でめくれないPDFは論外。
841 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 02:59:40 ID:sd43c4tCP]: まぁ、検索するかどうかは確かに使い方次第かもしれないな。
でもPDFがパラパラ高速でめくれない、ってそれは単純に
PCのスペックによるものなんじゃね？

300ページくらいの本をスキャンして30MBくらいで保存してるけど、
Adobe Readerで見開き2ページ表示にしてもさくさくPageUp/Downできるけどなぁ。
842 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 03:12:05 ID:iuR1Bu1I0]: 読むの遅いんじゃね？
843 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 03:16:50 ID:sd43c4tCP]: いやいやｗｗｗ
PageDown押しっぱなしで300ページ見開き表示（150面）
の冒頭から最後まで15秒もかからないんだけど、
どんな速読マスターでもさすがにこのスピードは無理じゃないのか？

ということで脱線してきたのでもうレスはつけない。
スレ汚しすまない。
844 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 04:09:13 ID:/tuIuVbi0]: 検索を使わなくてすむような使いかたしかしてない時点で
845 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 10:08:10 ID:osstJUh50]: 小説とか？にしか使ってないのかな？
学術書や研究書をデータ化して検索可能にすると全然
違ってくるんだよね

読むときに単語ひとつひとつにまで注意は払えないけど
後から違うテキストにある単語の用法を検索するとか
単語が使われる頻度を調べるとかさ
846 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 16:45:17 ID:iuR1Bu1I0]: 頭に入ってない、知らないかから検索しなきゃいけないんだろ。要はただの馬鹿。
統計とるのにOCRで作った修正処理してない、合ってるか間違ってるか
分からない透明テキストPDF使うなんて研究者失格だな。
専門分野なら頭に簡単に入るだろ。stockの知識は暗記しろ。
847 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 19:07:28 ID:N53izUZ70]: >>846
よう、天才。
あんた、なんでこのスレに粘着してんだ？
848 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 19:18:36 ID:/tuIuVbi0]: まじ天才。

俺の大学では会議はまだプリントされた紙を配る。
邪魔だから、ＰＤＦで保存。紙は捨てる。
学内自転車置き場に置かれた放置自転車の問題とか
入学試験の試験監督とか

これ結構な量なんだよ。
まれにこれが必要になるから困る。

でこんなものも全部頭に入れてるの？
俺なんて会議中熟睡だぜ

ありえんな。研究者とか書いてるが
ただのニートと見た。
849 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/11(日) 22:52:25 ID:xF2BYn5G0]: インド人じゃないの？
向こうのエリ－トは2時間くらいの会議ならその会議での会話をそらで再現出来る頭だって。
850 名前：名無しさん＠お腹いっぱい。 [2009/01/12(月) 01:47:20 ID:n3qvCL0O0]: SVGがもうすこしがんばってくれれば、、、
851 名前：名無しさん＠お腹いっぱい。 [2009/01/12(月) 02:07:33 ID:SDQi6vqPO]: おまえらレベル低いな。俺の国では読む前から本の内容くらい完璧に再現できないようなら落ちこぼれだから。
852 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 10:44:58 ID:iaaaILbh0]: テキスト化スレでなんでPDFを称賛してんだ？
スレ違いだ。
853 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 10:52:21 ID:Z3wpMu5b0]: >>852
ID:iuR1Bu1I0は、テキスト化すら必要なさそうだが。
854 名前：名無しさん＠お腹いっぱい。 [2009/01/12(月) 10:53:10 ID:n3qvCL0O0]: つ透明テキスト付きPDF
855 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 10:56:31 ID:iaaaILbh0]: 誘導 >> PDFの素晴らしさ話題はこちらへ

PDF作成・変換ソフト。Part 5
pc11.2ch.net/test/read.cgi/software/1200771165/
856 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 12:38:29 ID:ZsusePTR0]: 透明テキスト付きPDFさえスレ違い認定してる奴って
なんなんだろう？

手元に元資料なくなったら読取り間違いを見つけるのに
PDFの画像だけが頼りじゃん

完全にテキストデータしか残さないの？
857 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 13:24:35 ID:hw4QZewC0]: >>849
そんなわけないだろｗ

12年と235日前の会議でもすべて覚えてるんかいｗ
858 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 13:26:19 ID:AdJ5kc2+0]: >>849
インド人の友達いるけど、みんな馬鹿だよ
859 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/12(月) 16:56:21 ID:KqRtE+b10]: >857が馬鹿なだけだと思うよ。
子供の反論だな。
「何時何分何秒に～」w
まさか成人じゃないよね？
860 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/13(火) 01:49:48 ID:Ck0kGCM30]: 何時何分ってアホ？

検索する必要もない奴がテキスト化してパソコンに保存？
もっとアホだな
テキスト化してパソコンに保存する時間が無駄だろうがｗ
その間にどれだけの文章を頭の中に入れれるの？天才君
861 名前：名無しさん＠お腹いっぱい。 [2009/01/13(火) 11:24:35 ID:EXPdIEAt0]: WinReaderPro買うかどうか迷っている。
お前らどう思う？
用途は10万枚のxdwファイルの検索目的。
862 名前：名無しさん＠お腹いっぱい。 [2009/01/13(火) 15:36:04 ID:uERZu1aC0]: xdwってそのまままじゃ検索できないんだ
へー
863 名前：KYjGIJJNILUJsLT mailto:herends@gmail.com [2009/01/13(火) 15:38:01 ID:ZVGLIrsS0]: naierrybou.awardspace.com/tna-victory-road-stream.html tna victory road stream
ontoned.awardspace.com/rumer-willis-photo.html rumer willis photo
864 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/14(水) 01:19:58 ID:L5omtrlo0]: こんなスレに天才君がごろごろしてるとは・・・・・
865 名前：名無しさん＠お腹いっぱい。 [2009/01/14(水) 02:10:19 ID:0z5ueTXF0]: >>862
scanした原稿とかは無理だよ。
866 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 03:47:41 ID:ooQikYrc0]: 透明テキスト付きPDFの話なんてどうでもいいんだけど。
透明テキスト付きPDFで、テキストに変換した内容をチェックする馬鹿はいないんだから。
ここでは議論が成り立たない。
867 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 08:28:25 ID:pt+iPJxK0]: >>866
出たな、天才。
868 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 11:27:58 ID:U2eiW9BI0]: 学術論文データベースでダウンロードできるファイルは
ほとんどが透明テキスト付きPDFでございますｗ
869 名前：名無しさん＠お腹いっぱい。 [2009/01/15(木) 12:58:17 ID:Coc/BK/S0]: >>868
医学論文はスキャンされたPDFが郵送とFAXとかダウンロードできるだけというのが全てかも。
俺が入会している論文屋はそうだね。日本では業界最大手だと思うけど。
それに本をばらしてscanしまくっているから透明テキストは自分でつけないといけない。
870 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 13:31:32 ID:/jTW0YpK0]: あ
871 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 18:17:23 ID:ooQikYrc0]: >>868
だからスレ違いじゃん。
論文作った人がPDFにしてテキストつけてるのに画像→テキスト化のこのスレに何の関係あるんだよ？
872 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 18:38:34 ID:TDkR8k5P0]: たしかに（DAIGO)
論文書いたならワードとかだろうからそこからpdfに変換したら
文字化けもなにもないな
最初から文字としてpdfに埋め込まれてるだろう
873 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 21:52:56 ID:0k7MXLGD0]: 論文データベースで提供される最近の論文なら学術誌の
ページまんまの普通にフォント込みのPDF
昔のものはスキャンされて透明テキスト付きPDF

同じように自分でスキャンした論文や本も透明テキスト付きで
残しておいて管理したいってわけ

しつこく透明テキスト付きPDFを排除しようとしてる人は
こういう用途を理解できないのかな？自分に関わりのない
用途だからって排除するってのはどうかと思うよ
874 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/15(木) 23:51:54 ID:pTl37oBI0]: ２名くらいが言い合ってるんだろうが
そろそろメールででもやれｗ
875 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/16(金) 02:04:18 ID:o0QiI79a0]: 読んでここと読み取り革命とe.typist
全部使ってみたけど
読んでここが一番まともだった
876 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/16(金) 04:31:05 ID:j5jbP+DhP]: 一番妙な名前のが一番まともっぽいんだよな。
でもどこも煮詰ってきちゃって停滞してる感じもする。
877 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/16(金) 07:10:00 ID:kAwCRT9v0]: >>873
うざいからPDFスレでやれ。
878 名前：名無しさん＠お腹いっぱい。 [2009/01/16(金) 07:13:05 ID:YFgvyqNy0]: よんでここ良いかあ？
typistだろ
879 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/16(金) 08:54:17 ID:KNjWFBiV0]: >>878
中の人、乙
880 名前：名無しさん＠お腹いっぱい。 [2009/01/16(金) 12:34:31 ID:ar3mUcAl0]: で、WinReaderProを使った奴はいるか？おれはｘｄｗでscanした文章が20Gくらいあるんだよ。
DocuWorks内蔵のOCRも悪くないけど、更に精度が上がるなら20万出してもいいかなと思うのだが。
俺が人柱になるしかないのか？
881 名前：名無しさん＠お腹いっぱい。 [2009/01/16(金) 19:19:39 ID:u6xluZvZ0]: そうだね
882 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/17(土) 12:03:50 ID:q4cOoTS30]: 構って君登場ｗ
883 名前：名無しさん＠お腹いっぱい。 [2009/01/17(土) 13:22:33 ID:8LomD8UX0]: くそ。
お前らがそういう態度なら絶対に書いてやらない。
WinReaderProで得た経験を誰にも教えないぞ。
884 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/17(土) 13:36:24 ID:ajPyCMtQ0]: 精度なんて似たり寄ったり。重要なのは確認、修正作業のし易さ。
885 名前：名無しさん＠お腹いっぱい。 [2009/01/17(土) 13:44:11 ID:8LomD8UX0]: まじかよ。そんなことしていられないよ。
検索で引っ掛けるのが目的だし。
20万円の価値は無いのか。
886 名前：名無しさん＠お腹いっぱい。 [2009/01/17(土) 17:14:11 ID:3jWVocFV0]: 買えば済むのに
887 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/17(土) 21:05:47 ID:q4cOoTS30]: https://ssl.mediadrive.jp/cgi-bin/demand/form.cgi?id=wrp12
ほんとに買う気なら体験版をとりあえず申し込むべし。
888 名前：名無しさん＠お腹いっぱい。 [2009/01/20(火) 16:59:05 ID:Ez5R3CRM0]: 読取革命大好き
889 名前：名無しさん＠お腹いっぱい。 [2009/01/21(水) 02:20:01 ID:nux6CWbW0]: >>887
申し込みます。DocuWorksのVer6とVer7と比較してよければ買います。
全文検索は行方不明書類を捜す唯一の手段だからな。
行方不明書類ってどうしても発生するんだよね。
Scan時の重送で検出漏れもあるしね。
890 名前：VdTyVIXmByCFJdJ mailto:hsybaa@yukbkg.com [2009/01/21(水) 02:28:08 ID:27CcxXma0]: 3ofhNQ <a href="jicyqypxfieh.com/">jicyqypxfieh</a>, [url=tdeqcqoimwwk.com/]tdeqcqoimwwk[/url], [link=qykftmbejfxg.com/]qykftmbejfxg[/link], nriidvmyuevw.com/
891 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/21(水) 17:02:44 ID:1Yv8qxGD0]: >>873
>同じように自分でスキャンした論文や本も透明テキスト付きで
>残しておいて管理したいってわけ

同じく。最新のAcrobatでも表があるページだと表部分だけでなく本文部分
の透明テキスト化も玉砕するんで困ってます。表が入っててもそこそこの
OCR化をしてくれて透明テキストとして出力してくれるソフトってあるの
でしょうか？
892 名前：名無しさん＠お腹いっぱい。 [2009/01/21(水) 21:37:36 ID:NwoVvKSk0]: E.TYPISTでいいんじゃないの？
893 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/21(水) 21:40:41 ID:ze4pJbzr0]: 企業内でスキャンしたい対象ってどんなのがあるかな？
894 名前：名無しさん＠お腹いっぱい。 [2009/01/21(水) 21:47:38 ID:nux6CWbW0]: >>893
FAXやら報告書、見積書、請求書、領収書。
895 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/21(水) 21:50:24 ID:ze4pJbzr0]: わかるわ
896 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/21(水) 23:36:46 ID:VPMtNf1U0]: >>891
つ ScanPaper for PDF
絶賛絶版中
残念。....Ver. up待ってたのに...orz
897 名前：名無しさん＠お腹いっぱい。 [2009/01/22(木) 14:57:17 ID:hloqxcjl0]: >>891
スレ違い。
898 名前：YLwdkzJwQk mailto:udvdolwp@slqaepks.com [2009/01/22(木) 14:59:20 ID:XZya3rFK0]: comment3, cxlkueu.tripod.com/sun-vall96/104.html us immigration and naturalization servic, 41903,
899 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/01/26(月) 14:02:08 ID:B6gIH/Ys0]: >>897
そっか？ここ「画像→テキスト化総合」スレだぞ。
900 名前：名無しさん＠お腹いっぱい。 [2009/01/27(火) 01:41:17 ID:upxCQJ3+0]: WinReaderProの試用版ダウソしたぞ。
結構いいな。でも、DocuWorks文章だとファイル1枚ごとの取り込みだから気が遠くなるくらい遅い。、東南アジアとか中南米で仕事をするくらいのスローペース。
全く実用にならない。
901 名前：名無しさん＠お腹いっぱい。 [2009/01/27(火) 07:41:36 ID:htkl5rYY0]: 精度がいいんだったらそれくらいの時間我慢しろ
902 名前：名無しさん＠お腹いっぱい。 [2009/01/27(火) 11:33:20 ID:upxCQJ3+0]: >>901
一枚一枚手作業できるかよｗ
903 名前：名無しさん＠お腹いっぱい。 [2009/01/28(水) 00:27:11 ID:7RPnoVYN0]: 結局、Docuworksからエンジンを呼び出して使う方法しかないね。でも、デモ版ではこの機能が使えない。。。
300dpiで取り込んだ書類の8pointの文字をきちんと認識したのはさすがだった。
DocuworksはVer6でもVer７でも誤認識したのに。
買うかな。。。でも、実売15万か。。。

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef