[OCR] 画像→テキスト化総合

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 12/23 15:51 / Filesize : 206 KB / Number-of Response : 904
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

[OCR] 画像→テキスト化総合

1 名前：名無しさん＠お腹いっぱい。 [2006/03/06(月) 18:04:38 ID:eFU2jlRP0]: 読んde!!ココ・読取革命・e.Typist・OmniPage・OmCR(オムロン)・CROSS OCR・本格読取・表OCRなどなど・・・
最近SmartOCRなんてフリーソフトも出てきたけど、やっぱり読んde!!ココか、読取革命だよな。
669 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/13(日) 21:11:39 ID:CMPBLWQF0]: テキストエディタ的って誰が言ったんだよ?
670 名前：名無しさん＠お腹いっぱい。 [2008/04/14(月) 11:14:54 ID:dJXYpbuD0]: >>664
つadobe acrobat
671 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/15(火) 21:11:34 ID:3OAKXwi90]: >>669
おまえ話の見えない奴だな～
672 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/16(水) 01:45:53 ID:TQ1X288s0]: >>664
使うソフトを間違えてる
OCRは画像をテキスト化するソフト
PDF関係のソフトをあたるのが正解

PDF作成・変換ソフト。Part 5
pc11.2ch.net/test/read.cgi/software/1200771165/
673 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/23(水) 21:47:14 ID:q2B+fOBS0]: 英文しかない場合は、外国産の方が認識率高いの？
ヨンデココがどうもダメ、領域を正しく抽出する所から
ちゃんとやってくれない、かすれてないのに。
ネットで落としたものだから、コピーし直すとか出来ない。
674 名前：名無しさん＠お腹いっぱい。 [2008/04/24(木) 08:00:33 ID:34xibooz0]: >>673
SmartOCRLこれは？　文字がはっきり写ってるなら　高確率で認識してくれるよ？
675 名前：名無しさん＠お腹いっぱい。 [2008/04/24(木) 10:21:13 ID:LqECzoR50]: >>673
ちゃんと英語モードにしてからやってる？
676 名前：673 mailto:sage [2008/04/25(金) 20:14:31 ID:SRLFiK0c0]: 一応、漢字は無し、英文字記号数字のみの
設定で読み込ませてはいます。
あとSmartOCRはぐぐってみたけど、
サイトが閉鎖してました。
677 名前：名無しさん＠お腹いっぱい。 [2008/04/27(日) 16:15:02 ID:lWgL7JQt0]: >>676
SmartOCR - フリーウェアのOCRソフト
ocr.rossa.cc/
678 名前：名無しさん＠お腹いっぱい。 [2008/04/27(日) 19:31:23 ID:8zNLeoOp0]: エクセルファイル⇔一太郎ファイル⇔ワードファイル
が出来るフリーソフトありませんかね？
一太郎で作った表を自動計算させたいのでエクセルファイルに変えたいのですが・・・。
ご存知でしたら教えていただけないでしょうか？
679 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/27(日) 20:09:38 ID:gFFqjIH80]: ttp://q.hatena.ne.jp/1058864683
680 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/27(日) 22:14:55 ID:gVL4KMxz0]: >>673
ABBYY社のFineReaderの最新版使うといいよ。
お試し版もあったはず。以前試してみて認識率の高さに感動した。
読んdeココも一応ABBYY社のエンジン使ってるけどたぶん古い。
681 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/27(日) 23:06:11 ID:D4XQ9+0+0]: ソフト形式を変換とかじゃなくて表の（ハイパー？）リンクだけで出来そうだが
682 名前：蕪木ら某 ◆Googl8RmwA mailto:sage [2008/04/28(月) 04:38:47 ID:kpMp0cZ40]: >>678-679 >>681
+ faq.justsystem.co.jp/faq/1003/app/jsfaq.jsp?49876+0397
　faq.justsystem.co.jp/faq/1003/app/jsfaq.jsp?50406+0397
　faq.justsystem.co.jp/faq/1003/app/jsfaq.jsp?49258+0397
　...
　faq.justsystem.co.jp/faq/1003/app/jsfaq.jsp?49036+0397#a02
　...
　pc11.2ch.net/test/read.cgi/bsoft/1200988045/
　...
683 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/04/28(月) 08:03:53 ID:KHm4WEpd0]: >>682
はいはい　かしこいかしこい
なにもしなくても一太郎だけでできますよっと
684 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/06(火) 12:37:25 ID:TWTA7jP10]: 読んでココで認識結果をpdf出力するとき、
認識結果は透明テキストに反映されるわけだが、
2行を1行に間違えて認識してしまった場合、
上の行にしか貼り付けされないのな。
結果編集で改行入れても、その行は無いことになってしまう。
認識段階または結果編集段階で行を挿入できないのだろうか？
685 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/14(水) 14:04:19 ID:LzErthzGP]: >>680
英文なら認識率いいのか…日本語の認識率の悪さに辟易したが。
686 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/14(水) 17:49:48 ID:nAAoVTJI0]: だって文字の数や複雑さからして違うっていう
687 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 15:12:27 ID:3tPMVg6y0]: 購入した本や図書館で借りた本を、OCRソフトで
テキスト化して個人的にノートパソコンかPDFで使用は、
著作権の違法に当たりませんか、またこの本を第三者に売却したら？
688 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 15:34:52 ID:IB0cb+yL0]: どう考えても売却はマズいだろ
689 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 15:37:22 ID:3tPMVg6y0]: 図書館で借りた本はいいのかな
690 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 16:06:43 ID:rcBGeT790]: 個人的な使用ならおｋじゃ？
コピーとるのと同じでしょ
691 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 16:34:23 ID:3tPMVg6y0]: 理屈ぽっくてすみません
友人から借りた多くの本でも
692 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/21(水) 19:23:56 ID:xmMzdCDf0]: >>691
理屈の前に日本語勉強しる
693 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/23(金) 02:21:36 ID:dy5Q840K0]: >>692
便所の落書き2chに何を興奮してんだよ、
変な物見てんじゃないぞ
694 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/23(金) 08:39:24 ID:qndHTxug0]: >>687
借りた本を売ったらいかんだろ
ってのはともかく、
自分で買った本なら別に法には触れないだろ。
695 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/24(土) 16:45:05 ID:zkuID2AP0]: PDF画像からﾃｷｽﾄに変換で色々調べて準備終わった。
いざ実行してみるとPDFに画像ｺﾋﾟｰ禁止の権限が・・　ヽ(`Д´)ﾉｵﾚﾉｼﾞｶﾝｶｴｾｰ
696 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/25(日) 01:29:44 ID:aA4ZumvxO]: e.Typist ver.12を使ってみたんだけど、ルビを埋め込み設定にしたにも関わらず、認識結果は埋め込みとそのままが表示された。
ver.11だと普通に埋め込みのみなんだけど、原因がわからん。
設定同じなんだけどなぁ。なんか設定いじくる必要があるのかな。
どなたか解決策ご存じありませんか。
697 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/27(火) 01:48:16 ID:/mEeoUdB0]: >>695
互換PDFビューアの過去バージョンで権限無視でコピーできるって話が昔あったような。
698 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/05/29(木) 03:56:45 ID:uFnsPlIH0]: ビジネス書とかの単行本をテキスト化してるが、
e.Typist＞＞読んdeココ＞＞＞＞＞＞＞＞読取革命
だな。
読んdeココは多機能で使いやすくてバランスが取れた製品だと思うけど、
純粋に文字認識の精度だけを比べるとe.Typistが一番優れてる。
699 名前：名無しさん＠お腹いっぱい。 [2008/06/03(火) 23:17:38 ID:mqE/evSE0]: >>680
ABBYY社のFineReaderはスゴイ
日本語化出来ないんだろうか？
700 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/03(火) 23:47:39 ID:WQ9oBg400]: >>699
e.typistと比べてどっちが認識率が高い？
701 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/04(水) 02:49:03 ID:0YcMkrT10]: >>700
英語ならFineReader、日本語ならe.Typistに決まってるだろ。
702 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/06(金) 08:28:43 ID:St1jBd+t0]: FineReaderってOmnipageよりいい？
703 名前：名無しさん＠お腹いっぱい。 [2008/06/06(金) 15:13:42 ID:bjY5yxxP0]: いい場合も悪い場合もある
www.ocrreview.com/
704 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/14(土) 03:46:01 ID:3uX8P8rx0]: >>703
このサイト初めて見た。認識率だとやっぱりOmniPageが優れてるね。
FineReaderもそれに近い値だけど、時間も遅いので、なんだかこれを
使うメリットがにくい。
705 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/23(月) 21:24:23 ID:fdvf+v9p0]: 警察は宗教に目を光らせている、盲信によって罪悪感のない犯罪を
起こしやすい、教祖の出来不出来でその人の人生が決まる

教祖だけに罪はない、似たもの同士がお見合いするのかも知らない、
騙す人間が悪いが、騙される人間も同類か
706 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/23(月) 22:00:12 ID:KvQHOAny0]: これまた激しい誤爆だな。
707 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/24(火) 00:35:24 ID:kDEQN6+m0]: >>705
ＯＣＲ誤認識がひどいな。
708 名前：名無しさん＠お腹いっぱい。 [2008/06/25(水) 08:59:23 ID:DKou2GCA0]: 読んでココはpdf出力するとき、追加保存が出来ないんだな。
wardやhtmlならできるのに・・・
仕方ないから新規ファイルで保存した後、いちいちpdfエディタ立ち上げて
結合させてるけど、マンドクセ。
709 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/25(水) 15:04:00 ID:OJ8SNbTv0]: 見開き表示とか綴じ方(右から左)の設定もできないから不便だよね。
710 名前：名無しさん＠お腹いっぱい。 [2008/06/30(月) 17:17:28 ID:nNrhDlkb0]: ominipage 16が$79.99で買えるキャンペーン中

www.digitalriver.com/promo=212017
711 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:37:06 ID:5LpB7fyT0]: >>710
↑クレカの番号と所有者名を収集してるんか？
トップページに行けないぞ？
712 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:38:03 ID:5LpB7fyT0]: Domain Name: NUANCESTORE.COM
Registrar: NETWORK SOLUTIONS, LLC.
Whois Server: whois.networksolutions.com
Referral URL: www.networksolutions.com
Name Server: PDNS1.ULTRADNS.NET
Name Server: PDNS2.ULTRADNS.NET
Name Server: PDNS3.ULTRADNS.ORG
Name Server: PDNS4.ULTRADNS.ORG
Status: clientTransferProhibited
Updated Date: 16-oct-2006
Creation Date: 01-feb-2006
Expiration Date: 01-feb-2009
713 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/06/30(月) 19:38:43 ID:5LpB7fyT0]: Registrant:
Digital River, Inc.
9625 W. 76th Street
Eden Prairie, MN 55344
US

Domain Name: NUANCESTORE.COM

------------------------------------------------------------------------
Promote your business to millions of viewers for only $1 a month
Learn how you can get an Enhanced Business Listing here for your domain name.
Learn more at www.NetworkSolutions.com/
------------------------------------------------------------------------

Administrative Contact, Technical Contact:
Digital River, Inc. hostmaster@digitalriver.com
9625 W. 76th Street
Eden Prairie, MN 55344
US
952-253-1234 fax: 952-253-8497

Record expires on 01-Feb-2009.
Record created on 01-Feb-2006.
Database last updated on 30-Jun-2008 06:31:44 EDT.
714 名前：名無しさん＠お腹いっぱい。 [2008/07/01(火) 08:23:46 ID:AL20YzVU0]: はあ？
ieでもsafariでもいけるよ
715 名前：名無しさん＠お腹いっぱい。 [2008/07/09(水) 09:25:33 ID:tqR/hLP70]: 手書きの文字が認識できるOCRソフトってありますか？
716 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/07/25(金) 18:03:44 ID:nsfqqXyN0]: TextSS
717 名前：名無しさん＠お腹いっぱい。 [2008/07/31(木) 12:46:10 ID:KkyDCbb60]: 文字じゃなくて、表などの枠線をスキャナから認識ってできますか？
718 名前：名無しさん＠お腹いっぱい。 [2008/07/31(木) 14:14:49 ID:kYKcm3m90]: できます
jp.fujitsu.com/group/fct/services/archive/ocr/
719 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/07/31(木) 23:49:10 ID:mcLkMUjo0]: >>717
e.Typistってのを使ってるけど、できますん
720 名前：名無しさん＠お腹いっぱい。 [2008/08/01(金) 10:40:29 ID:DLLVnu+y0]: >>718
終了だから"できた"でつね
721 名前：名無しさん＠お腹いっぱい。 [2008/08/07(木) 00:06:40 ID:BSuE1Slo0]: SubRipでｂｍｐ化した字幕データをテキスト化したくて、
読んでココｖ９と最新体験版、革命ｖ１２、タイピストｖ１２、
スマートライトを試しました。スマートライトは画像読むだけで落ちるので
インストールに問題があったようなので別として、のこりでも、
見事に一文字たりとも認識されません。おまけにココだと、解像度エラー
といわれてしまいます。
吸い出し時に設定を変えてみましたが、白地に黒縁かその逆かはともかく
フチ付きの絵になり、それが誤認識の原因ではないかと考えていますが、
あまり自信がありません。どういう手順で、またどんなソフトを使って
（ｂｍｐは１５００あるので、ひとつずつ開かなくてすむように）色などの
調整を試すのがよいか、どなたか教えてくださいませんでしょうか？
722 名前：名無しさん＠お腹いっぱい。 [2008/08/07(木) 18:58:58 ID:eM6AkDyu0]: 前に画像処理ソフトで処理してから読み込ませた方がいいかも。

ネガ反転や、解像度変更、ノイズ除去、余白やいらない部分の削除、カラー画像であればグレースケールや白黒画像に変換など、

一括処理できるソフトもたくさん有りますから、やってみるといいかもね。
723 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 00:32:22 ID:IzZ40ACA0]: どうしても小文字（ぁぃぅぇぉやゃゅょなど）が弱い
どこのソフトも駄目だ
724 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 09:31:08 ID:v6VOgDwN0]: e.Typist ver12買ってOCR作業中。
正　。 → o・O・0・０　これは許す。すっごいイヤだけど難しいだろうから。
正　I　→１　これも当然許す。すっごい難しいだろうから。英語領域にしていすればかなり改善するし。
正　- → 1・I　これはなに？　なにしてるの？　バカなの？('Ａ`)
725 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 09:36:20 ID:QnPzfkJy0]: >>724
OCRにマジになるとか時間の無駄
726 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/13(水) 12:13:34 ID:jZK0Tj450]: >>724
そんなに嫌なら文字種いじれよ
727 名前：名無しさん＠お腹いっぱい。 [2008/08/14(木) 04:33:00 ID:bB/191pD0]: 設定が悪いんじゃないの（笑）
728 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 10:08:20 ID:+Lwt0Ob70]: 同じくeTypsit使ってるけど、ScanSnapでPDFに→OCR→透明テキスト付きPDFにすると画像がかなり劣化する。
Scan直後のPDFの画質を守る方法ってないのかな？(´･ω･`)
Acrobat Pro持ってるけど、画像が劣化したあとのPDFを編集しても意味ないよね…
729 名前：名無しさん＠お腹いっぱい。 [2008/08/14(木) 16:13:43 ID:BarBaXMw0]: 透明テキストつけるだけなのに
画像が痛むのか
730 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 17:14:00 ID:yeyKQnnw0]: OCRソフトのpdf入力は一端仮想プリンタに出しちゃって画像にして
文字認識してから改めてpdfに仕立て直してるからな。

最初からjpgでスキャン出力してそれをOCRソフトにかけるか
pdfにしちゃってたものは一度画像として書き出してからOCRソフトにかければいい。
731 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/14(木) 22:51:59 ID:d+q5/K3K0]: 実家にある本でもテキスト化してみるかと思って読んでココの体験版入れてみたけど
使い方もわかんねえし、結構めんどくさいんだな
小説なんかをちゃんと設定してやると誤認識1ページにどれくらいになるの？
732 名前：名無しさん＠お腹いっぱい。 [2008/08/15(金) 02:20:36 ID:UA5Ln4AC0]: きちんとやればほとんどご認識なんかないよ。
どうしても読めない漢字とかってあるけど。
たとえば解像度600ｄｐｉとか、試しにやってみれば。
733 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/15(金) 06:10:09 ID:3bwMrQBM0]: 読んdeココのOCRファクトリー便利だぜ。
一度設定すればアイコンをダブルクリックするだけで全部自動でやってくれる。
734 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/16(土) 21:12:32 ID:BBpdl85r0]: >>731
元の本のフォントと組版、スキャンの解像度にもよるけど
最良の時で大体1～2頁に1字前後
酷いと1頁に10字以上とかあるね

1頁に誤字一字の割合だと読でてかなり気になるレベルだから
結局全編目を通して修正することになるね
735 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/17(日) 10:35:23 ID:EfKqQDE+0]: e.Typist使ってみたけど、たまに一文字を勝手に分離して認識してしまう。
「え」が「、」と「λ」とかになる。
二文字に認識してるから学習しようがない。
細い所とかかすれるとだめ。
まだまだって感じだなあ。
736 名前：名無しさん＠お腹いっぱい。 [2008/08/17(日) 21:14:50 ID:NNvDk3xe0]: 何様だよｗ
737 名前：名無しさん＠お腹いっぱい。 [2008/08/17(日) 21:44:41 ID:a9bB+bqN0]: 読んでココの開発者だろ
738 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/18(月) 01:00:46 ID:v0mRsvdB0]: >>732
ああ普段使わないからスキャナの設定なんか全く見てなかったわ
画像データだけ持ってきたけど、だめかもシンネ

OCRファクトリーでまとめて読み込んだ後って読んでココ上で誤字とか確認してる？
画像勝手に追いかけてくれるし、学習しなきゃだけど、エディターが使い
739 名前：名無しさん＠お腹いっぱい。 [2008/08/19(火) 14:17:41 ID:m4W/W6650]: 読んでココを試用してますが、
原稿では２行になってるはずなのに、１行の文として認識してしまい、
わけ分からない文字列を出してくるとき、これを２行に修正することは出来ませんか？
ただテキストを起こすだけなら、認識結果画面で改行して手打ちすれば良いだけですが、
当方、画像が重要な資料を扱ってるため、ＰＤＦで透明テキストで貼り付ける必要があり、
ただ改行しただけでは、透明テキストにはその追加した行が反映されていないのです。
740 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 14:32:14 ID:pZKp1XtT0]: AcrobatってOCRソフトとしてどんなもんなんだろう？
アカデミック版Standardで1万ちょいだから買ってみようかな？
741 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 14:37:27 ID:9YTtEXub0]: AcrobatのOCRは糞
よんでここ＞＞e.typist＞読み取り革命＞＞＞＞AcrobatOCR
742 名前：名無しさん＠お腹いっぱい。 [2008/08/19(火) 20:34:17 ID:aPjCwCOs0]: acrobat ocr≒ﾖﾝﾃﾞｺｺ

ﾖﾝﾃﾞｺｺ工作員市ね
743 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/19(火) 22:10:18 ID:ThYcLLsW0]: e.Typist＞読んでココだろ。
744 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/20(水) 11:54:34 ID:5xCLDVVM0]: e.TypistのＨＰ見てきたけど、
取り込んだ画像の補正機能について何も書いてないようなんだが、
見開きの傾き自動補正とか出来るのかな？
745 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 02:30:37 ID:VsRH2oEP0]: ここにはe.Typist使ってる奴はいないってことか
746 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 10:04:41 ID:piDQE/Jd0]: 5cm身長アップが50m身長アップになった
これで俺も51m56cmだぜ
747 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 12:47:35 ID:Q0h/A3Xy0]: >>744
見開き手動補正はできる。
自動の傾き補正は見開きには対応してない。
748 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 15:39:21 ID:Gdf1OOpi0]: >>747
そっかー手動なのか。
こういうのは機械任せがありがたいんだけどなー。
サンキュー
749 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/21(木) 17:31:48 ID:ksXciaP30]: smartOCRはいつも「事」を「夢」と認識する
後からテキストエディタで一括修正した方がいいのか
750 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 06:25:03 ID:h6cmS6A40]: >749
認識辞書で対応すべきではある
「夢」と「事」じゃ、正規表現使ってもまともに修正するのは難しいし、
一括置換すると間違ってないところまで間違えてしまいかねん、一つ一つ
修正するのはどっちもそれなりの数がありそうだから面倒

>745
e.Typistも読んdeココも使ってる。
個人的な感想としては、OCR結果を縮小してあるような画像だと、e.Typistのが
認識率はかなり高い。画像がでかくなるほど両者の認識率は近づいていくけど、
OCR直後のでかい画像だと読んdeココのが多少いいような気はする。

>739
不可能だな。1文字の区切りがきちっとできている状態で、それがどの文字なのかを
学習させることは可能だが、1文字の範囲がどこからどこまでかは学習させようが
ない。本文とルビをごっちゃにして1文字にしてしまうような場合と同様で、ずっと
以前からこういう状態だから、技術革新がないと無理じゃね
751 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 09:59:49 ID:rHvUrtQk0]: >>750
ピントのずれた、無駄に長い、タイミングの悪いレス、どうもありがとう。
752 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 10:12:44 ID:MGOLjeef0]: 別にずれてないんじゃね
753 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/24(日) 10:58:32 ID:b29yVzjt0]: 正解率９９％　ネット認証技術、書籍のデジタル化に威力
ttp://www.asahi.com/science/update/0823/TKY200808230207.html
754 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 17:48:36 ID:5eaoBiak0]: うーん、99.1% ってほぼ自動ってのにはまだまだ程遠いね・・・
755 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 18:00:07 ID:GHGOAqBa0]: つかこれ英語限定じゃないの
756 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 18:50:29 ID:kMvnDz2o0]: 人間の正解率てのは元々どのくらいなんだろうな。
俺なんて入力ミスもしてたんだろうが再入力の経験が何度もあるぞ。
人力OCRだから英語以外は対象地域を絞らないと無理だろうね。
757 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 20:00:55 ID:JUspXpDS0]: >>753
結構いいアイデアだな。
日本語だと厳しいが、まあ2chとかの日本語コミュニケーション限定サイトに
置くなら何とかなるかもしれん。

・・・と書いてて今気付いたんだが、難読文字を読んで貰って、それが正しいかどうかの
答え合わせは誰がやってるんだ？
読んだ結果が正しいと判って、それで初めて認証として成立するんだろ？
758 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/25(月) 22:11:40 ID:pBM6iPT60]: >>753
よくこんなこと思いついてしかも実行したよなｗｗ
759 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/26(火) 11:13:56 ID:3pII43Sm0]: >>757
二つのＯＣＲで一致した部分は正解、ちがった部分は不明として
正解と不明が含まれたものを表示して入力させ
正解の部分は認証として使い、不明部分を入力結果から拾う

とかかね
760 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/29(金) 05:58:38 ID:PUHS2H7P0]: 多数決
761 名前：名無しさん＠お腹いっぱい。 [2008/08/30(土) 16:48:15 ID:UobhjFbi0]: ケツ多数
762 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/08/31(日) 00:12:15 ID:xOEiIMAi0]: どんなに正答率が上がったところで人による目視チェックは必須だろう。
763 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/07(日) 09:56:23 ID:9RYOriMs0]: >>762
>人による目視チェックは必須

そうです。そしてそこが一番手間と時間がかかる部分。

上に出てたAcrobatのOCRはこのプロセスがないし、埋め込まれた
透明テキストを後から修正するのも事実上困難（不可能では
ないが、OCRソフトでオンタイムに修正していくような訳にはいかない）。
一カ所でも間違いあると困るというOCR作業もあるでしょうが、そうでない
場合には割り切って使うと便利とも言える。特にScanSnapとの組み合わせ
で大量の文書を処理する時など。

OCRエンジンも7で読んde! ココ（の世代落ち）になってるが、8や9で
どうなってるのか分からない。
764 名前：名無しさん＠お腹いっぱい。 [2008/09/10(水) 11:38:25 ID:H8/lfHgO0]: ＯＣＲ使ってて感じるのは、誤変換の原因はほとんど「切り出し間違い」。
文字列に占める空白の割合なんかから一意に決めてるんだろうけど、
カスレの多い原稿だと区切るところがめちゃくちゃ・・・
きっちり区切りなおせば正しく認識できるのに・・・
ユーザー辞書や単語認識かけて文字列にならないときとか、
この切り出しを見直して再認識処理してくれないのかね？
処理時間がべらぼうにかかりそうだけど。
765 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 12:42:49 ID:8eNIWm0W0]: GPUで処理できるようになったら何でも有りになるな。
766 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 18:20:58 ID:8r86j5IT0]: 読んでココ使ってるんだけど、「～」が認識されず空欄になってることが多い。
ユーザー辞書にも1文字だけど登録してるのに。何とかならないのかな？
767 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/10(水) 18:22:38 ID:aAaEuFR10]: >764
小説みたいに同じ大きさの文字が延々と続いているのであれば、文字の大きさを
手動指定するモードとかあっても良さそうだよな。
見出し、本文、ルビの大きさを指定して、そこから文書を解析して認識するのなら
そんなに難しくはないような気もする。新聞とか広告文みたいにいろんな大きさの
文字が混在するのには無力だろうけど
768 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/09/12(金) 17:59:53 ID:BkRq8OtC0]: ttp://code.google.com/p/nhocr/
NHocr is a command line OCR (Optical Character Recognition) program for Japanese language
769 名前：名無しさん＠お腹いっぱい。 [2008/09/21(日) 20:05:56 ID:CcopwTiy0]: 素人で失礼ですが
OCRソフトは、１０万円以上の価格でないと、７割文字認識できませんか？

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef