[OCR] 画像→テキスト ..
[2ch|▼Menu]
577:名無しさん@お腹いっぱい。
07/09/09 10:37:07 TJ6TdM9A0
>>573
職業がら200通位×ページ数
データ入力を目視、手入力では、時間が掛かり、転記ミスも発生。
人を雇うほど余裕はない。
画像レタッチ使用すれば黒と白のみと要らないデータは消せる。
しかし必要なデータと同じ色ならその部分のカットしかないし、時間が掛かりそう。
しばらく、考えて見ます。レス、サンキューです。






578:名無しさん@お腹いっぱい。
07/09/09 11:32:57 nU6AA3X+0
仕事で継続的にやることがわかってるんならネットバンギング登録すれば?
今時は都市銀でもやってるんだしアグリッパなりなんなり使えばExcelへの流し込みも簡単だろ

579:名無しさん@お腹いっぱい。
07/09/09 12:20:35 p37oIG6b0
banging?

580:名無しさん@お腹いっぱい。
07/09/09 12:38:40 TJ6TdM9A0
顧客すべてにネットバンキング入れる?
IT弱者の事も考えないのかなぁ?
ソフト使い方、セキュリティとかいろんな問題が出るでしょ。
よけいに手間が掛かるし老人や障害者もいるのでね。
ところでアグリッパ(PDF?)てなんでしょうか?ヒントになるかもしれない。




581:名無しさん@お腹いっぱい。
07/09/09 14:08:06 b4CWqVib0
> 顧客すべてにネットバンキング入れる?
> IT弱者の事も考えないのかなぁ?
> ソフト使い方、セキュリティとかいろんな問題が出るでしょ。
> よけいに手間が掛かるし老人や障害者もいるのでね。
> ところでアグリッパ(PDF?)てなんでしょうか?ヒントになるかもしれない。

おまいさんが廃業すればいいんじゃねーの?

582:名無しさん@お腹いっぱい。
07/09/09 14:27:05 nU6AA3X+0
スマソ、バンキングね。

>>580
客をネットバンクに入れさせる必要がどこにあるの?
要は取引明細をテキスト化できりゃいいんでしょ?
アンタが使ってる銀行で、アンタの口座をネットでも使えるように登録しとけば
ログインしてPCから明細見れるようになるんだからコピペでExcelに貼っつければいい
相手がどんな方法で振込んでこようが関係ない。

アグリッパは複数の金融機関の明細を一度に参照できるシステムだが
上の手順で済ませるのなら別に必要ない。知りたかったらググって調べろ

583:名無しさん@お腹いっぱい。
07/09/09 14:28:52 pF0za8zm0
画像レタッチしなくてもたいがい取り込み時の設定で
カラーバランスやコントラスト弄れるでしょ

必要なデータと背景の色が似てようが濃度や色味
違えば設定でどうにでもなるだろうし

あとはOCRで一番大事なスキャン品質を一定に保つ為
スキャナのパネルに枠貼り付けたりして位置ズレを徹底
してなくす努力だけ

584:名無しさん@お腹いっぱい。
07/09/09 15:58:38 6WtPLdEA0
システム作るなら、最初からocrエンジンを借りてきて、画像処理くらい自前で用意するだろ
犯罪のにおいしかしない

585:名無しさん@お腹いっぱい。
07/09/09 16:09:19 TJ6TdM9A0
あ、スマン、
顧客の日々の取引(入金、出金 残高、相手先)
のデータ作成を請け負っている仕事なので
ぜんぜん自分の口座と関係ないので乙。
カラーバランス、コントラスト いろいろやってみますね。
レス ありがd。




586:名無しさん@お腹いっぱい。
07/09/09 21:00:43 XLgeQDJm0
URLリンク(www.sii.co.jp)

587:名無しさん@お腹いっぱい。
07/09/09 22:55:58 0TmXydc30
既存の会計ソフトで通帳や出納簿に特化したOCRができるものもあるみたいだぞ。
ってかプロなのかyo
ドシロウトの俺が「会計 通帳 OCR」と検索してあたりがつけられるようなことを
知らないのってやばいんでねーの。

588:名無しさん@お腹いっぱい。
07/09/09 23:20:35 TJ6TdM9A0
これでしょ。
実際に拡大コピーしないとダメだったのですが・・・。
URLリンク(www.z-irazu.jp)

589:名無しさん@お腹いっぱい。
07/09/10 23:46:17 tLXqJKXQ0
>>588
>>571

590:名無しさん@お腹いっぱい。
07/09/11 08:00:32 Homl5X9v0
> 顧客の日々の取引(入金、出金 残高、相手先)
> のデータ作成を請け負っている仕事なので
> ぜんぜん自分の口座と関係ないので乙。

頭足りてないなら、とっとと廃業するべきだ。

591:名無しさん@お腹いっぱい。
07/09/22 12:38:33 IN/2021F0
e.typist12.0で ルビを文中に挿入を選択して文庫本をスキャン>認識すると
一部の行が左端の最後の行に重複して表示されてしまうのですが
どう対処したらよいのでしょうか?

592:名無しさん@お腹いっぱい。
07/09/25 17:38:23 Pnv4wn/K0
>591
たぶん傍点なんかで起きる現象と同じじゃないかな。結果のテキスト見ると複数の文章が混ざって
しまってる状態。
認識時に文章が赤くマークされるけど、こういうのが起きるときは赤いところが反転して白くなる。
それを見て、ファイル名をメモしておいて、あとから修正モードで傍点を削除してから別途認識
してる。それしか対処の方法はなさそう。
傍点が大量になければ、テキストになった段階で修正するだけ。

傍点以外でも、一部のルビ、ゴミ、……なんかで起きることもあるみたい。
ルビなしで傍点が大量にあるんなら、ルビは無視してしまうと思う。e.Typistの傍点挿入位置は
いつでもずれてるから。

593:名無しさん@お腹いっぱい。
07/09/28 00:49:01 kO0WhpSR0
>>575
んまあ、人間の脳って余分な作業も多いのか基本的に遅いからね
OCRに関してはまだ信頼性が微妙だからどの道人目チェックは必要だが
それでも手入力で全部やるよりはOCR+人手チェックの方が早い

と、マジレスしてみる

594:名無しさん@お腹いっぱい。
07/09/28 02:22:27 FG/hllZY0
>>593
お前は自分の能力に自信を無くしている。
しばらく山へ篭って自分を取り戻すべきだ。

595:名無しさん@お腹いっぱい。
07/09/28 06:42:17 JinZJTny0
ダイバダッダの魂宿りますた。
世界平和のために無償労働するっす。

596:名無しさん@お腹いっぱい。
07/09/30 05:12:31 fVlDcJAE0
>職業がら200通位×ページ数

これ見ると、ふつうの稼業じゃあないな
かたぎなら弁護士、司法系、税務・会計系か
やばいのなら斗一か事務所だな、と考えてみる。
だが、>>585か 税務資料か

「読取革命」、スキャナーは300dpiです → 最新版にする、解像度は最低400dpi(最新本ソフトの最低要件)でスキャン


597:ご参考まで
07/09/30 05:50:09 fVlDcJAE0
旧ヴァージョン アップデート(以下からたどる):
URLリンク(panasonic.co.jp)

最新版(V1.1.1)の特長:
・FAX文書などのかすれ文字にも強い日本語OCRエンジン
・レイアウトをそのまま再現
・縦書き・横書きテキスト、画像、図などが混在した原稿も、レイアウトをそのままに再現
・複雑な表の罫線やセルの背景色も、再現、また、認識結果で得た数字を数値としてExcelに出力でき、そのまま計算式に使用可
・英数字の一行手書き文字にも対応し、品番やメモ書きなどの手書き文字を認識

解像度 50〜2,400dpi(400dpiを推奨)
>>596を一部訂正

URLリンク(panasonic.co.jp)
体験版(10日間)DL:
URLリンク(panasonic.co.jp)

598:名無しさん@お腹いっぱい。
07/10/01 23:00:54 ZJSIv2Sr0
記帳代行で乙。

599:名無しさん@お腹いっぱい。
07/10/03 02:48:08 lW4nXSBZ0
>>598
ご本人は正にその仕事をされているように思うのだがw

600:名無しさん@お腹いっぱい。
07/10/03 03:30:28 5xTbDZcD0
名簿データ取り込み?

601:名無しさん@お腹いっぱい。
07/10/03 04:51:39 9DUfmmoQO
URLリンク(imepita.jp)

602:名無しさん@お腹いっぱい。
07/10/03 05:07:51 ZwtirfFY0
下は簡単なCaptcha画像ですが、
Wikipedia項目リンク
ランダムな線が入っていたり、色が違っていても認識出来るような
ソフトは無いでしょうか?

603:名無しさん@お腹いっぱい。
07/10/03 07:43:43 nJglqY7H0
犯罪者乙!

604:名無しさん@お腹いっぱい。
07/10/03 09:58:49 lW4nXSBZ0
>>600
んや、税務会計関係

605:名無しさん@お腹いっぱい。
07/10/03 13:07:59 La1Wx76N0
>>602
スパム業者死ね

606:名無しさん@お腹いっぱい。
07/10/03 23:56:14 H4AdpPJY0
キャプチャってcaptureじゃなかったっけ

607:名無しさん@お腹いっぱい。
07/10/03 23:59:02 H4AdpPJY0
あー、全然別もんなんだ。俺が悪かった

608:名無しさん@お腹いっぱい。
07/10/12 22:47:53 SrJh6grm0
office2003に入ってる「microsoft office image document」が、
すごく使いやすかったんだけど、office2007になったら無くなってるね。
2003から持ってくることは出来ないのかな。

609:名無しさん@お腹いっぱい。
07/10/13 17:16:36 nepRO5lX0
読取革命だが、2つの文字を1つと間違えてしまう問題を学習機能によって解決できるの?
解決できるソフトはある?

610:名無しさん@お腹いっぱい。
07/10/13 17:39:44 GAhJKdKe0
学習機能は文字だけでしょ


611:名無しさん@お腹いっぱい。
07/10/14 06:29:53 VQe2G2hR0
間違えるのも認識するのも全て文字だけだが?

612:名無しさん@お腹いっぱい。
07/10/19 13:49:13 Ziv6Jg4J0
SmartOCR liteeditionのヘルプキャッシュってどこかにない?
com経由で利用したいんだけどまったく資料がなくてイミフ。
よろしくたのんます。

613:名無しさん@お腹いっぱい。
07/10/21 12:42:36 YC+r/lRo0
今現在 読取革命のVer.7を使って 英文と画像しかない物をスキャンかけてるんだけど
大体ミスが1ページにつき10文字位あるんだけどこれってVer.11 にすればもう少し改善される?
あとVer.11の方はアクティベーションあったりする?

614:名無しさん@お腹いっぱい。
07/10/21 13:20:42 zf4XBilV0
>>613
原稿の精度に左右される。
[K]ものだなw
悪知は無かったと思う(あってもクリア)
検証後DELしてしまったので

615:名無しさん@お腹いっぱい。
07/10/21 17:28:13 YC+r/lRo0
>>614
一般的な英語のテキストに対して使ってます
[K]もの? 体験版?それともクラックのことでしょうか?


616:名無しさん@お腹いっぱい。
07/10/24 10:50:55 S7BJ2he10
613
10文字ぐらいだったら、たいした手間じゃないからそのままでいいんじゃないの
それが5文字になったとしてもあまり変わらないような気がする


617:名無しさん@お腹いっぱい。
07/10/24 17:12:22 PvY78B8J0
>>613
英語のOCRはよほどスキャン状態が悪くなければ
単語DBとの照合なんかもしてくれるので
99.99%くらいの認識率まで行ってると思う。

英語圏のソフトの最新体験版を試してみては?

618:名無しさん@お腹いっぱい。
07/11/08 01:17:26 kSzZVbgV0
原稿にもよるけど英語OCRもまだまだ改良の予定があるよ。
段組なし(1ブロック)、フォント1種類、スタイル1種類、
罫線類なし、みたいな原稿だったらかなりの精度が出るけど、
そういう原稿って実際はあまりないし。

OCRが持ってる綴り辞書との照合もオートでやらせちゃうと
後で間違いを発見するのがかえって難しくなるので、結局
フラグがたったものを1つずつ確認してくしかない。


619:618
07/11/08 01:24:35 kSzZVbgV0
>>618
>改良の予定があるよ。

(正)改良の余地があるよ。

620:名無しさん@お腹いっぱい。
07/11/09 04:45:42 kwRwnBQS0
OCR機能のついたPDFビューア「クセロReader ZERO」
URLリンク(xelo.jp)

621:名無しさん@お腹いっぱい。
07/11/21 00:51:16 4YWhz3M30
>>620
URLリンク(xelo.jp)
ここを見ると、色々制限あるな

622:名無しさん@お腹いっぱい。
07/11/24 16:52:47 vQJ6YjAl0
期間中にクリック数の一番多い国が優勝
URLリンク(www.clickclickclick.com)


623:名無しさん@お腹いっぱい。
07/11/24 17:45:26 /M81SGwoP
>>622
独自OCRなんてあるんだ。。。

624:名無しさん@お腹いっぱい。
07/12/10 03:27:04 oguiPK7L0
紙にある表の枠を、
Excelで再現させるのは何のソフトがおすすめですか?

625:名無しさん@お腹いっぱい。
07/12/10 05:33:02 hQNhfr3P0
特打

626:名無しさん@お腹いっぱい。
07/12/10 15:20:26 mc4o5/AO0
簡単フォーム

627:名無しさん@お腹いっぱい。
07/12/10 16:48:47 gWDyiZys0
兆安い


628:名無しさん@お腹いっぱい。
07/12/22 22:02:42 aoTjNDiZ0
>>621
制限がファイル単位ってのは実はかなり緩いんじゃないか?
SmartOCRは制限は無かったけどページ単位でしか処理できなかったからなあ
こいつなら必要なファイルを一括してPDFに変換してそれを一気に処理させれば良さそう
精度うんぬんはまだ試してないから分からんのだけど

629:名無しさん@お腹いっぱい。
07/12/26 12:05:39 rr6NJUoQ0
上のほうでocr.rossa.ccのスパイウェアの話題をしてましたが...
ダウンロードボタンを押したけど、直ぐにブラウザ閉じた。
スパイウェア貰っちゃったかな?
大丈夫ですかね?

630:名無しさん@お腹いっぱい。
07/12/26 15:31:38 ieaMIqGT0
あそこからリンクしてるSmartOCRLite107.zipの中身は
ウェブ魚拓で2006年4月26日 02:44(日本時間)に記録された URLリンク(download.vector.co.jp)の魚拓
と同じ。zipファイル内のSmartOCRLite107.EXEの
CRC32:5e81c645
MD5:929502ab3f674b03e1551893507a0997
SHA-1:20321d496c76a335d649e170100f2f4771be384b

631:名無しさん@お腹いっぱい。
08/01/08 01:02:12 tmDGCBY80
ほっしゅ

632:名無しさん@お腹いっぱい。
08/01/14 23:05:37 KbHOKl/s0
        /⌒ヽ ,, - ─‐ - 、        
   , < ̄7⌒、_ノ::::::::::::::::::::::::::::::::::::::::::`ヽ       
 /:::::::::::::::乂 ノ:::::::::::::::::::::::::::::::::::::::::::::::::::::::\    
/:::::::::::::>‐7:: ̄::::::::::::::::∧:::::::::ト.:::::::::::::::::::::::::::::::ヽ   
:::::::::/  /::::::::::::::::::::::::/. V::::::|.ヽ:::::::::::::::::::::::::::::::::',.  
//   /::::::::::::::::::::::::/   V:::::.i ヽ.:::::::::::::::::::::::::::::::', 
     ,::::::::::::::::::::::__/.    V::i!::i  ',::::::::::::::::::::::::::::::::i. 
    i:::::::::::::::/ ̄/   `  ',::i',::', ─- 、.::::::::::::::::::::| 
.   |:::::::::::/:::::./ ,      ',.i ' ,、  ∨::\::::::::::::::::::| 
   |::::::::::::::::./  !_      `  \ V::::ヽ::::::::::::::::| 
.   |:::::::::::::::/ /示え、      二_、、 V、::::::::::::::::| 
.   |八::/⌒ / ん;;;;;;;|       /う ヾ、 ',:::::::::::::,  
    |/{ ∧  弋二ソ       |;;乂メ;| | |>k:::::/  
     k ⊥    ̄        弋二ン  /、iヽ/   
.      `‐|       '       ̄  /_ `/   <早くVIPに帰ろうよお兄ちゃん
        `、              メ__/    
         > _   r‐、    /ヾ       
      ,, -''´  |!ヽ| >-- ‐ r<´.         
   rヽ´  /  /       〈ニ ヽ          , -、
   |/ヽ\'  ./| ヽ      У \      / /                かわいいは正義
  ./   \ヽ { ヽ、   ´  /    ヽ ./´γ/ /                 URLリンク(afox.2ch.net)
 /   /  ヽ\ヽ  ̄` ─'/   |  ∨Y彡ヽ,〈 

633:名無しさん@お腹いっぱい。
08/02/05 14:27:51 j7DtTZgo0
本格読取2を購入して使ってみたけど、
さすが値段が安いだけあって辞書やパターン登録しても精度がよくないな。
読取革命11の体験版を使ってみようとインストールしてみたが、起動時にエラーが発生して試せなかった。
e.Typist12の体験版を試したら1日で何故か試用期間が終わった……orz

e.Typistはルビの埋め込みができるので、手持ちの小説をテキストに落とすのには良さそうだけど
もう少し認識率と領域指定を試してみたかったのにな。
手持ちの小説を青空形式でテキストにしている方で、お勧めのOCRソフトってありますか?

634:名無しさん@お腹いっぱい。
08/02/05 19:54:01 4B5oC2/T0
>>633
WinReader PRO テキスト作成ならばチョット昔のがいい
pdf作成ならば今のがいいけれど、OSがVistaでなければ安く中古で出回っている
図書館で借りてテレビを見ながらスキャン&テキスト化、約1時間でP250は楽に作成
その後ClieTH55で電車の中やチョットした時間で小説を読んでいる、家中本だらけにならずにすむ
また重い本を持ち歩かなくてすむし、返却も気にしなくてもすむ、今は流行のチョットエコな感じ





635:名無しさん@お腹いっぱい。
08/02/05 23:33:02 n6V+PtBt0
読取革命の体験版使ってみたけど何度直しても同じ文字ばっかり間違えて
一向に識字率が上がる気配が無いんですが、仕様ですか?

636:名無しさん@お腹いっぱい。
08/02/06 00:01:06 X1PyioH/0
>>635
読取革命は知らんけど
普通はユーザー辞書みたいに
この文字はこうなんだyoって教え込む機能があんじゃねえの?

637:名無しさん@お腹いっぱい。
08/02/06 01:29:31 ZvtDlRuB0
そういう機能があっても、間違えるものは間違えるのが読み取り革命

638:名無しさん@お腹いっぱい。
08/02/06 14:55:56 nDxnu5rf0
>>634
すまんが値段の段階で無理だ……
なにか方法を考えてみるよ。

639:名無しさん@お腹いっぱい。
08/02/06 22:27:32 yNcr4Ry/0
結局、読取革命はあきらめた。使う側のことがぜんぜん考慮されて無さ杉。
テンプレート一回一回あてさせるつもりか?しかも数行おきに認識されるってどーよ

それにしてもe.Typistの精度には驚いた。

640:名無しさん@お腹いっぱい。
08/02/07 02:16:50 mZYJX8l40
アドビAcrobat PRO CS3に付いているOCRはどうですか?


641:名無しさん@お腹いっぱい。
08/02/09 13:22:11 kx6Thi940
>>633
小説用途に限った場合の話だけど

e.Typistは比較的領域判定が優秀なのでほとんどの場合は自動でおk
小説再配置ツールやeTilTranで文字領域を切り出すだけで十分すぎるほど
認識率は読取革命よりはだいぶ上
ただ、感嘆符や―、……、ーのような記号をよく間違えたり読み飛ばしたりする
まれに同じページを不完全な状態で二重認識する(上半分だけとかそんな感じで)
ここがネック

ユーザー辞書は読取革命で何回教えても治らなかった経験から、全く使っていない
後で間違えやすい文字だけ一括置換してる

642:名無しさん@お腹いっぱい。
08/02/13 20:01:46 PDD8kYVFO
英単語帳を読み取ってエクセルのデータにして
P‐STUDYシステムに問題集として読み込ませようと思っているのですが
英単語帳にむいているOCRソフトってありますか?

643:名無しさん@お腹いっぱい。
08/02/13 20:04:16 zrpzYaHV0
>>641
規制されていたので、お礼が遅れました。
e.Typist12を購入して使っています。
おっしゃるように! ―、ー、一あたりの誤認識が多いですね。
…に関しては点線処理の縦点線ありにしたら、かなりよくなりました。
一括置換も100個が限度という所からエディタでするようにしました。
なかなか難しい所ですね。

644:名無しさん@お腹いっぱい。
08/02/28 09:23:33 NWfNaQSi0
保守

645:名無しさん@お腹いっぱい。
08/03/04 22:44:36 I6sGMd1z0
e.Typistでルビの部分の行を本文として処理してしまうことがたまにある。
eTilTranで傾き補正はかけた後なんだけど、これって解決する方法ないのかな?

ex)
正解:黄昏(たそがれ)が迫(せま)る道を

誤認識:たそがれ  せま
      黄昏が迫る道を

646:名無しさん@お腹いっぱい。
08/03/07 00:49:49 i9ecjhLU0
読取革命12、買おうかな。

647:名無しさん@お腹いっぱい。
08/03/07 21:40:57 jfB3M2/r0
読取革命12と読んdeココ13を単行本の読み取りで比較してみたけど、読んdeココの方がよかった。
読取革命は文字以外の部分を無理矢理、認識しようとして意味不明の文字列を連発する。
読んdeココは認識できないものはスッパリ諦めて無視する傾向がある。
この方がむしろ修正の手間がかからないから楽なんだよね。

648:名無しさん@お腹いっぱい。
08/03/10 09:02:26 1MG90Ymy0
そうかもしれないね。
でも読取革命のがしがし読む感じがいいんだよね(笑)
まあまとまったゴミを消去する機能があってもいいよね。

649:名無しさん@お腹いっぱい。
08/03/21 11:14:49 usFTg7Jp0
以前から疑問だったんだが・・・
スキャナとかコピーとかしたとき、
原稿の一部だけ、字がにじんだり、潰れたりするのは何が原因なの?
途中で動いたってことなのかな?
しっかり押さえたつもりで、自覚症状が無いことがほとんどなんだが。

650:名無しさん@お腹いっぱい。
08/03/21 14:03:36 vs8oaQ7S0
>>649
そうだと思います。
やっぱり、カード類なんかはプラスチックで滑りやすいんで、画像が
ボケたり、片側だけが広がったりしてますね。


651:名無しさん@お腹いっぱい。
08/03/22 22:33:23 26pq4wpB0
読んでココ13を使い始めたばかりの者です。
英文混じりの書籍を認識させるとき、小文字のc,o,sが頻繁に大文字に認識されます。
候補文字から修正してると自動的にユーザー辞書に追加されていきますが、
このまま同じ文字ばかり追加していって、認識率は上がるのでしょうか?
まだそれほど認識速度は落ちていませんが。
ほかにもっと上手いやり方がありますか?

652:名無しさん@お腹いっぱい。
08/03/22 23:31:46 B1KQW1w80
読取革命liteからver.12へのバージョンアップ、インストールがうまくできないのですが、この場合liteにver.12が上書きされることになるのですか?

653:名無しさん@お腹いっぱい。
08/03/24 11:50:59 Sg3HQnEQ0
ライトも12も残るよ。

654:名無しさん@お腹いっぱい。
08/03/24 21:33:37 RpC75rJB0
>>653
652です。レスありがとうございます。何度インストールしても辞書の読み込みに失敗、ということになり、どうやらliteインストール後にマイドキュメントをDディスクに移動させたのが原因ではないかと。Cに戻してから再度やってみます。

655:名無しさん@お腹いっぱい。
08/03/24 23:38:54 RpC75rJB0
>>653
辞書ファイルも、ライトと12と両方残るのですか?

656:名無しさん@お腹いっぱい。
08/03/25 10:13:15 UKwYieMD0
>651
それ以上認識率は変わらない。やりすぎると重たくなるだけ。
むしろ、テキスト出力して正規表現置換で小文字にしてしまうほうが
簡単じゃないかな。

657:名無しさん@お腹いっぱい。
08/03/25 20:01:55 6dsHcr8U0
当然残るよ。

658:名無しさん@お腹いっぱい。
08/04/02 18:09:26 PsFZJM1O0
etypist使っとけ

659:名無しさん@お腹いっぱい。
08/04/06 18:08:29 O2A1ix0/0
>>548
プリンタ付属の古い読んde!!ココ パーソナル(Ver.4.01)を使ってたが,
英文の認識だとこっちのほうがいいね

660:名無しさん@お腹いっぱい。
08/04/07 13:46:50 d5ef102Q0
eTypistて透明テキストつきpdfで出力できないの?


661:名無しさん@お腹いっぱい。
08/04/08 10:20:28 /9Ax63ok0
pdfをrtfかodfに変換する時に使えそうなのない?

662:名無しさん@お腹いっぱい。
08/04/09 18:14:29 wF5n2yAm0
つadobe acrobat

663:名無しさん@お腹いっぱい。
08/04/10 11:21:55 0U+ttj0K0
>>660 可能
>>661 e.typistで可能
URLリンク(mediadrive.jp)

664:名無しさん@お腹いっぱい。
08/04/10 15:03:50 pNf6kXbz0
読んでココでpdfを読み込むと、一から画像をOCRしてしまって、
元の透明テキスト情報は無くなってしまうのな?
元の透明テキストをそなまま読み込んで、修正のために、
テキストエディタ的な使い方って出来ないものかな?

665:名無しさん@お腹いっぱい。
08/04/11 23:10:11 Gt2UltzU0
画像ビューワとテキストエディタを左右に並べればいいだけでは?

666:名無しさん@お腹いっぱい。
08/04/11 23:10:57 Gt2UltzU0
画像ビューワじゃねーや
PDFのビューワな

667:名無しさん@お腹いっぱい。
08/04/13 03:10:25 CMPBLWQF0
それが器ホンダが、図とか写真とかレイアウトとか書式を設定したりするのが面倒くさいだろ。

668:名無しさん@お腹いっぱい。
08/04/13 05:37:43 C/qukH7P0
>>667
それのどこが「テキストエディタ的な使い方」なんだ?

669:名無しさん@お腹いっぱい。
08/04/13 21:11:39 CMPBLWQF0
テキストエディタ的って誰が言ったんだよ?

670:名無しさん@お腹いっぱい。
08/04/14 11:14:54 dJXYpbuD0
>>664
つadobe acrobat

671:名無しさん@お腹いっぱい。
08/04/15 21:11:34 3OAKXwi90
>>669
おまえ話の見えない奴だな〜

672:名無しさん@お腹いっぱい。
08/04/16 01:45:53 TQ1X288s0
>>664
使うソフトを間違えてる
OCRは画像をテキスト化するソフト
PDF関係のソフトをあたるのが正解

PDF作成・変換ソフト。Part 5
スレリンク(software板)

673:名無しさん@お腹いっぱい。
08/04/23 21:47:14 q2B+fOBS0
英文しかない場合は、外国産の方が認識率高いの?
ヨンデココがどうもダメ、領域を正しく抽出する所から
ちゃんとやってくれない、かすれてないのに。
ネットで落としたものだから、コピーし直すとか出来ない。

674:名無しさん@お腹いっぱい。
08/04/24 08:00:33 34xibooz0
>>673
SmartOCRLこれは? 文字がはっきり写ってるなら 高確率で認識してくれるよ?

675:名無しさん@お腹いっぱい。
08/04/24 10:21:13 LqECzoR50
>>673
ちゃんと英語モードにしてからやってる?

676:673
08/04/25 20:14:31 SRLFiK0c0
一応、漢字は無し、英文字記号数字のみの
設定で読み込ませてはいます。
あとSmartOCRはぐぐってみたけど、
サイトが閉鎖してました。

677:名無しさん@お腹いっぱい。
08/04/27 16:15:02 lWgL7JQt0
>>676
SmartOCR - フリーウェアのOCRソフト
URLリンク(ocr.rossa.cc)

678:名無しさん@お腹いっぱい。
08/04/27 19:31:23 8zNLeoOp0
エクセルファイル⇔一太郎ファイル⇔ワードファイル
が出来るフリーソフトありませんかね?
一太郎で作った表を自動計算させたいのでエクセルファイルに変えたいのですが・・・。
ご存知でしたら教えていただけないでしょうか?

679:名無しさん@お腹いっぱい。
08/04/27 20:09:38 gFFqjIH80
URLリンク(q.hatena.ne.jp)

680:名無しさん@お腹いっぱい。
08/04/27 22:14:55 gVL4KMxz0
>>673
ABBYY社のFineReaderの最新版使うといいよ。
お試し版もあったはず。以前試してみて認識率の高さに感動した。
読んdeココも一応ABBYY社のエンジン使ってるけどたぶん古い。

681:名無しさん@お腹いっぱい。
08/04/27 23:06:11 D4XQ9+0+0
ソフト形式を変換とかじゃなくて表の(ハイパー?)リンクだけで出来そうだが

682:蕪木ら某 ◆Googl8RmwA
08/04/28 04:38:47 kpMp0cZ40
>>678-679>>681
+ URLリンク(faq.justsystem.co.jp)
 URLリンク(faq.justsystem.co.jp)
 URLリンク(faq.justsystem.co.jp)
 ...
 URLリンク(faq.justsystem.co.jp)
 ...
 スレリンク(bsoft板)
 ...

683:名無しさん@お腹いっぱい。
08/04/28 08:03:53 KHm4WEpd0
>>682
はいはい かしこいかしこい
なにもしなくても一太郎だけでできますよっと

684:名無しさん@お腹いっぱい。
08/05/06 12:37:25 TWTA7jP10
読んでココで認識結果をpdf出力するとき、
認識結果は透明テキストに反映されるわけだが、
2行を1行に間違えて認識してしまった場合、
上の行にしか貼り付けされないのな。
結果編集で改行入れても、その行は無いことになってしまう。
認識段階または結果編集段階で行を挿入できないのだろうか?


685:名無しさん@お腹いっぱい。
08/05/14 14:04:19 LzErthzGP
>>680
英文なら認識率いいのか…日本語の認識率の悪さに辟易したが。

686:名無しさん@お腹いっぱい。
08/05/14 17:49:48 nAAoVTJI0
だって文字の数や複雑さからして違うっていう

687:名無しさん@お腹いっぱい。
08/05/21 15:12:27 3tPMVg6y0
購入した本や図書館で借りた本を、OCRソフトで
テキスト化して個人的にノートパソコンかPDFで使用は、
著作権の違法に当たりませんか、またこの本を第三者に売却したら?

688:名無しさん@お腹いっぱい。
08/05/21 15:34:52 IB0cb+yL0
どう考えても売却はマズいだろ

689:名無しさん@お腹いっぱい。
08/05/21 15:37:22 3tPMVg6y0
図書館で借りた本はいいのかな

690:名無しさん@お腹いっぱい。
08/05/21 16:06:43 rcBGeT790
個人的な使用ならおkじゃ?
コピーとるのと同じでしょ

691:名無しさん@お腹いっぱい。
08/05/21 16:34:23 3tPMVg6y0
理屈ぽっくてすみません
友人から借りた多くの本でも

692:名無しさん@お腹いっぱい。
08/05/21 19:23:56 xmMzdCDf0
>>691
理屈の前に日本語勉強しる

693:名無しさん@お腹いっぱい。
08/05/23 02:21:36 dy5Q840K0
>>692
便所の落書き2chに何を興奮してんだよ、
変な物見てんじゃないぞ

694:名無しさん@お腹いっぱい。
08/05/23 08:39:24 qndHTxug0
>>687
借りた本を売ったらいかんだろ
ってのはともかく、
自分で買った本なら別に法には触れないだろ。

695:名無しさん@お腹いっぱい。
08/05/24 16:45:05 zkuID2AP0
PDF画像からテキストに変換で色々調べて準備終わった。
いざ実行してみるとPDFに画像コピー禁止の権限が・・ ヽ(`Д´)ノ オレノジカンカエセー

696:名無しさん@お腹いっぱい。
08/05/25 01:29:44 aA4ZumvxO
e.Typist ver.12を使ってみたんだけど、ルビを埋め込み設定にしたにも関わらず、認識結果は埋め込みとそのままが表示された。
ver.11だと普通に埋め込みのみなんだけど、原因がわからん。
設定同じなんだけどなぁ。なんか設定いじくる必要があるのかな。
どなたか解決策ご存じありませんか。

697:名無しさん@お腹いっぱい。
08/05/27 01:48:16 /mEeoUdB0
>>695
互換PDFビューアの過去バージョンで権限無視でコピーできるって話が昔あったような。


698:名無しさん@お腹いっぱい。
08/05/29 03:56:45 uFnsPlIH0
ビジネス書とかの単行本をテキスト化してるが、
e.Typist>>読んdeココ>>>>>>>>読取革命
だな。
読んdeココは多機能で使いやすくてバランスが取れた製品だと思うけど、
純粋に文字認識の精度だけを比べるとe.Typistが一番優れてる。

699:名無しさん@お腹いっぱい。
08/06/03 23:17:38 mqE/evSE0
>>680
ABBYY社のFineReaderはスゴイ
日本語化出来ないんだろうか?

700:名無しさん@お腹いっぱい。
08/06/03 23:47:39 WQ9oBg400
>>699
e.typistと比べてどっちが認識率が高い?

701:名無しさん@お腹いっぱい。
08/06/04 02:49:03 0YcMkrT10
>>700
英語ならFineReader、日本語ならe.Typistに決まってるだろ。

702:名無しさん@お腹いっぱい。
08/06/06 08:28:43 St1jBd+t0
FineReaderってOmnipageよりいい?

703:名無しさん@お腹いっぱい。
08/06/06 15:13:42 bjY5yxxP0
いい場合も悪い場合もある
URLリンク(www.ocrreview.com)

704:名無しさん@お腹いっぱい。
08/06/14 03:46:01 3uX8P8rx0
>>703
このサイト初めて見た。認識率だとやっぱりOmniPageが優れてるね。
FineReaderもそれに近い値だけど、時間も遅いので、なんだかこれを
使うメリットがにくい。


705:名無しさん@お腹いっぱい。
08/06/23 21:24:23 fdvf+v9p0
警察は宗教に目を光らせている、盲信によって罪悪感のない犯罪を
起こしやすい、教祖の出来不出来でその人の人生が決まる

教祖だけに罪はない、似たもの同士がお見合いするのかも知らない、
騙す人間が悪いが、騙される人間も同類か


706:名無しさん@お腹いっぱい。
08/06/23 22:00:12 KvQHOAny0
これまた激しい誤爆だな。

707:名無しさん@お腹いっぱい。
08/06/24 00:35:24 kDEQN6+m0
>>705
OCR誤認識がひどいな。


708:名無しさん@お腹いっぱい。
08/06/25 08:59:23 DKou2GCA0
読んでココはpdf出力するとき、追加保存が出来ないんだな。
wardやhtmlならできるのに・・・
仕方ないから新規ファイルで保存した後、いちいちpdfエディタ立ち上げて
結合させてるけど、マンドクセ。

709:名無しさん@お腹いっぱい。
08/06/25 15:04:00 OJ8SNbTv0
見開き表示とか綴じ方(右から左)の設定もできないから不便だよね。

710:名無しさん@お腹いっぱい。
08/06/30 17:17:28 nNrhDlkb0
ominipage 16が$79.99で買えるキャンペーン中

URLリンク(www.digitalriver.com)


711:名無しさん@お腹いっぱい。
08/06/30 19:37:06 5LpB7fyT0
>>710
↑クレカの番号と所有者名を収集してるんか?
トップページに行けないぞ?

712:名無しさん@お腹いっぱい。
08/06/30 19:38:03 5LpB7fyT0
Domain Name: NUANCESTORE.COM
Registrar: NETWORK SOLUTIONS, LLC.
Whois Server: whois.networksolutions.com
Referral URL: URLリンク(www.networksolutions.com)
Name Server: PDNS1.ULTRADNS.NET
Name Server: PDNS2.ULTRADNS.NET
Name Server: PDNS3.ULTRADNS.ORG
Name Server: PDNS4.ULTRADNS.ORG
Status: clientTransferProhibited
Updated Date: 16-oct-2006
Creation Date: 01-feb-2006
Expiration Date: 01-feb-2009

713:名無しさん@お腹いっぱい。
08/06/30 19:38:43 5LpB7fyT0
Registrant:
Digital River, Inc.
9625 W. 76th Street
Eden Prairie, MN 55344
US

Domain Name: NUANCESTORE.COM

------------------------------------------------------------------------
Promote your business to millions of viewers for only $1 a month
Learn how you can get an Enhanced Business Listing here for your domain name.
Learn more at URLリンク(www.NetworkSolutions.com)
------------------------------------------------------------------------

Administrative Contact, Technical Contact:
Digital River, Inc. hostmaster@digitalriver.com
9625 W. 76th Street
Eden Prairie, MN 55344
US
952-253-1234 fax: 952-253-8497


Record expires on 01-Feb-2009.
Record created on 01-Feb-2006.
Database last updated on 30-Jun-2008 06:31:44 EDT.



714:名無しさん@お腹いっぱい。
08/07/01 08:23:46 AL20YzVU0
はあ?
ieでもsafariでもいけるよ

715:名無しさん@お腹いっぱい。
08/07/09 09:25:33 tqR/hLP70
手書きの文字が認識できるOCRソフトってありますか?

716:名無しさん@お腹いっぱい。
08/07/25 18:03:44 nsfqqXyN0
TextSS

717:名無しさん@お腹いっぱい。
08/07/31 12:46:10 KkyDCbb60
文字じゃなくて、表などの枠線をスキャナから認識ってできますか?

718:名無しさん@お腹いっぱい。
08/07/31 14:14:49 kYKcm3m90
できます
URLリンク(jp.fujitsu.com)

719:名無しさん@お腹いっぱい。
08/07/31 23:49:10 mcLkMUjo0
>>717
e.Typistってのを使ってるけど、できますん

720:名無しさん@お腹いっぱい。
08/08/01 10:40:29 DLLVnu+y0
>>718
終了だから"できた"でつね

721:名無しさん@お腹いっぱい。
08/08/07 00:06:40 BSuE1Slo0
SubRipでbmp化した字幕データをテキスト化したくて、
読んでココv9と最新体験版、革命v12、タイピストv12、
スマートライトを試しました。スマートライトは画像読むだけで落ちるので
インストールに問題があったようなので別として、のこりでも、
見事に一文字たりとも認識されません。おまけにココだと、解像度エラー
といわれてしまいます。
吸い出し時に設定を変えてみましたが、白地に黒縁かその逆かはともかく
フチ付きの絵になり、それが誤認識の原因ではないかと考えていますが、
あまり自信がありません。どういう手順で、またどんなソフトを使って
(bmpは1500あるので、ひとつずつ開かなくてすむように)色などの
調整を試すのがよいか、どなたか教えてくださいませんでしょうか?

722:名無しさん@お腹いっぱい。
08/08/07 18:58:58 eM6AkDyu0
前に画像処理ソフトで処理してから読み込ませた方がいいかも。

ネガ反転や、解像度変更、ノイズ除去、余白やいらない部分の削除、カラー画像であればグレースケールや白黒画像に変換など、

一括処理できるソフトもたくさん有りますから、やってみるといいかもね。



723:名無しさん@お腹いっぱい。
08/08/13 00:32:22 IzZ40ACA0
どうしても小文字(ぁぃぅぇぉやゃゅょなど)が弱い
どこのソフトも駄目だ

724:名無しさん@お腹いっぱい。
08/08/13 09:31:08 v6VOgDwN0
e.Typist ver12買ってOCR作業中。
正 。 → o・O・0・0 これは許す。すっごいイヤだけど難しいだろうから。
正 I →1 これも当然許す。すっごい難しいだろうから。英語領域にしていすればかなり改善するし。
正 - → 1・I これはなに? なにしてるの? バカなの?('A`)

725:名無しさん@お腹いっぱい。
08/08/13 09:36:20 QnPzfkJy0
>>724
OCRにマジになるとか時間の無駄

726:名無しさん@お腹いっぱい。
08/08/13 12:13:34 jZK0Tj450
>>724
そんなに嫌なら文字種いじれよ

727:名無しさん@お腹いっぱい。
08/08/14 04:33:00 bB/191pD0
設定が悪いんじゃないの(笑)

728:名無しさん@お腹いっぱい。
08/08/14 10:08:20 +Lwt0Ob70
同じくeTypsit使ってるけど、ScanSnapでPDFに→OCR→透明テキスト付きPDFにすると画像がかなり劣化する。
Scan直後のPDFの画質を守る方法ってないのかな?(´・ω・`)
Acrobat Pro持ってるけど、画像が劣化したあとのPDFを編集しても意味ないよね…

729:名無しさん@お腹いっぱい。
08/08/14 16:13:43 BarBaXMw0
透明テキストつけるだけなのに
画像が痛むのか

730:名無しさん@お腹いっぱい。
08/08/14 17:14:00 yeyKQnnw0
OCRソフトのpdf入力は一端仮想プリンタに出しちゃって画像にして
文字認識してから改めてpdfに仕立て直してるからな。

最初からjpgでスキャン出力してそれをOCRソフトにかけるか
pdfにしちゃってたものは一度画像として書き出してからOCRソフトにかければいい。

731:名無しさん@お腹いっぱい。
08/08/14 22:51:59 d+q5/K3K0
実家にある本でもテキスト化してみるかと思って読んでココの体験版入れてみたけど
使い方もわかんねえし、結構めんどくさいんだな
小説なんかをちゃんと設定してやると誤認識1ページにどれくらいになるの?

732:名無しさん@お腹いっぱい。
08/08/15 02:20:36 UA5Ln4AC0
きちんとやればほとんどご認識なんかないよ。
どうしても読めない漢字とかってあるけど。
たとえば解像度600dpiとか、試しにやってみれば。


733:名無しさん@お腹いっぱい。
08/08/15 06:10:09 3bwMrQBM0
読んdeココのOCRファクトリー便利だぜ。
一度設定すればアイコンをダブルクリックするだけで全部自動でやってくれる。

734:名無しさん@お腹いっぱい。
08/08/16 21:12:32 BBpdl85r0
>>731
元の本のフォントと組版、スキャンの解像度にもよるけど
最良の時で大体1〜2頁に1字前後
酷いと1頁に10字以上とかあるね

1頁に誤字一字の割合だと読でてかなり気になるレベルだから
結局全編目を通して修正することになるね

735:名無しさん@お腹いっぱい。
08/08/17 10:35:23 EfKqQDE+0
e.Typist使ってみたけど、たまに一文字を勝手に分離して認識してしまう。
「え」が「、」と「λ」とかになる。
二文字に認識してるから学習しようがない。
細い所とかかすれるとだめ。
まだまだって感じだなあ。

736:名無しさん@お腹いっぱい。
08/08/17 21:14:50 NNvDk3xe0
何様だよw

737:名無しさん@お腹いっぱい。
08/08/17 21:44:41 a9bB+bqN0
読んでココの開発者だろ

738:名無しさん@お腹いっぱい。
08/08/18 01:00:46 v0mRsvdB0
>>732
ああ普段使わないからスキャナの設定なんか全く見てなかったわ
画像データだけ持ってきたけど、だめかもシンネ

OCRファクトリーでまとめて読み込んだ後って読んでココ上で誤字とか確認してる?
画像勝手に追いかけてくれるし、学習しなきゃだけど、エディターが使い

739:名無しさん@お腹いっぱい。
08/08/19 14:17:41 m4W/W6650
読んでココを試用してますが、
原稿では2行になってるはずなのに、1行の文として認識してしまい、
わけ分からない文字列を出してくるとき、これを2行に修正することは出来ませんか?
ただテキストを起こすだけなら、認識結果画面で改行して手打ちすれば良いだけですが、
当方、画像が重要な資料を扱ってるため、PDFで透明テキストで貼り付ける必要があり、
ただ改行しただけでは、透明テキストにはその追加した行が反映されていないのです。


740:名無しさん@お腹いっぱい。
08/08/19 14:32:14 pZKp1XtT0
AcrobatってOCRソフトとしてどんなもんなんだろう?
アカデミック版Standardで1万ちょいだから買ってみようかな?

741:名無しさん@お腹いっぱい。
08/08/19 14:37:27 9YTtEXub0
AcrobatのOCRは糞
よんでここ>>e.typist>読み取り革命>>>>AcrobatOCR

742:名無しさん@お腹いっぱい。
08/08/19 20:34:17 aPjCwCOs0
acrobat ocr≒ヨンデココ

ヨンデココ工作員市ね

743:名無しさん@お腹いっぱい。
08/08/19 22:10:18 ThYcLLsW0
e.Typist>読んでココだろ。

744:名無しさん@お腹いっぱい。
08/08/20 11:54:34 5xCLDVVM0
e.TypistのHP見てきたけど、
取り込んだ画像の補正機能について何も書いてないようなんだが、
見開きの傾き自動補正とか出来るのかな?

745:名無しさん@お腹いっぱい。
08/08/21 02:30:37 VsRH2oEP0
ここにはe.Typist使ってる奴はいないってことか

746:名無しさん@お腹いっぱい。
08/08/21 10:04:41 piDQE/Jd0
5cm身長アップが50m身長アップになった
これで俺も51m56cmだぜ

747:名無しさん@お腹いっぱい。
08/08/21 12:47:35 Q0h/A3Xy0
>>744
見開き手動補正はできる。
自動の傾き補正は見開きには対応してない。

748:名無しさん@お腹いっぱい。
08/08/21 15:39:21 Gdf1OOpi0
>>747
そっかー手動なのか。
こういうのは機械任せがありがたいんだけどなー。
サンキュー

749:名無しさん@お腹いっぱい。
08/08/21 17:31:48 ksXciaP30
smartOCRはいつも「事」を「夢」と認識する
後からテキストエディタで一括修正した方がいいのか

750:名無しさん@お腹いっぱい。
08/08/24 06:25:03 h6cmS6A40
>749
認識辞書で対応すべきではある
「夢」と「事」じゃ、正規表現使ってもまともに修正するのは難しいし、
一括置換すると間違ってないところまで間違えてしまいかねん、一つ一つ
修正するのはどっちもそれなりの数がありそうだから面倒

>745
e.Typistも読んdeココも使ってる。
個人的な感想としては、OCR結果を縮小してあるような画像だと、e.Typistのが
認識率はかなり高い。画像がでかくなるほど両者の認識率は近づいていくけど、
OCR直後のでかい画像だと読んdeココのが多少いいような気はする。

>739
不可能だな。1文字の区切りがきちっとできている状態で、それがどの文字なのかを
学習させることは可能だが、1文字の範囲がどこからどこまでかは学習させようが
ない。本文とルビをごっちゃにして1文字にしてしまうような場合と同様で、ずっと
以前からこういう状態だから、技術革新がないと無理じゃね

751:名無しさん@お腹いっぱい。
08/08/24 09:59:49 rHvUrtQk0
>>750
ピントのずれた、無駄に長い、タイミングの悪いレス、どうもありがとう。


752:名無しさん@お腹いっぱい。
08/08/24 10:12:44 MGOLjeef0
別にずれてないんじゃね

753:名無しさん@お腹いっぱい。
08/08/24 10:58:32 b29yVzjt0
正解率99% ネット認証技術、書籍のデジタル化に威力
URLリンク(www.asahi.com)

754:名無しさん@お腹いっぱい。
08/08/25 17:48:36 5eaoBiak0
うーん、99.1% ってほぼ自動ってのにはまだまだ程遠いね・・・

755:名無しさん@お腹いっぱい。
08/08/25 18:00:07 GHGOAqBa0
つかこれ英語限定じゃないの

756:名無しさん@お腹いっぱい。
08/08/25 18:50:29 kMvnDz2o0
人間の正解率てのは元々どのくらいなんだろうな。
俺なんて入力ミスもしてたんだろうが再入力の経験が何度もあるぞ。
人力OCRだから英語以外は対象地域を絞らないと無理だろうね。

757:名無しさん@お腹いっぱい。
08/08/25 20:00:55 JUspXpDS0
>>753
結構いいアイデアだな。
日本語だと厳しいが、まあ2chとかの日本語コミュニケーション限定サイトに
置くなら何とかなるかもしれん。

・・・と書いてて今気付いたんだが、難読文字を読んで貰って、それが正しいかどうかの
答え合わせは誰がやってるんだ?
読んだ結果が正しいと判って、それで初めて認証として成立するんだろ?

758:名無しさん@お腹いっぱい。
08/08/25 22:11:40 pBM6iPT60
>>753
よくこんなこと思いついてしかも実行したよなww

759:名無しさん@お腹いっぱい。
08/08/26 11:13:56 3pII43Sm0
>>757
二つのOCRで一致した部分は正解、ちがった部分は不明として
正解と不明が含まれたものを表示して入力させ
正解の部分は認証として使い、不明部分を入力結果から拾う

とかかね

760:名無しさん@お腹いっぱい。
08/08/29 05:58:38 PUHS2H7P0
多数決

761:名無しさん@お腹いっぱい。
08/08/30 16:48:15 UobhjFbi0
ケツ多数

762:名無しさん@お腹いっぱい。
08/08/31 00:12:15 xOEiIMAi0
どんなに正答率が上がったところで人による目視チェックは必須だろう。

763:名無しさん@お腹いっぱい。
08/09/07 09:56:23 9RYOriMs0
>>762
>人による目視チェックは必須

そうです。そしてそこが一番手間と時間がかかる部分。

上に出てたAcrobatのOCRはこのプロセスがないし、埋め込まれた
透明テキストを後から修正するのも事実上困難(不可能では
ないが、OCRソフトでオンタイムに修正していくような訳にはいかない)。
一カ所でも間違いあると困るというOCR作業もあるでしょうが、そうでない
場合には割り切って使うと便利とも言える。特にScanSnapとの組み合わせ
で大量の文書を処理する時など。

OCRエンジンも7で読んde! ココ(の世代落ち)になってるが、8や9で
どうなってるのか分からない。

764:名無しさん@お腹いっぱい。
08/09/10 11:38:25 H8/lfHgO0
OCR使ってて感じるのは、誤変換の原因はほとんど「切り出し間違い」。
文字列に占める空白の割合なんかから一意に決めてるんだろうけど、
カスレの多い原稿だと区切るところがめちゃくちゃ・・・
きっちり区切りなおせば正しく認識できるのに・・・
ユーザー辞書や単語認識かけて文字列にならないときとか、
この切り出しを見直して再認識処理してくれないのかね?
処理時間がべらぼうにかかりそうだけど。

765:名無しさん@お腹いっぱい。
08/09/10 12:42:49 8eNIWm0W0
GPUで処理できるようになったら何でも有りになるな。

766:名無しさん@お腹いっぱい。
08/09/10 18:20:58 8r86j5IT0
読んでココ使ってるんだけど、「〜」が認識されず空欄になってることが多い。
ユーザー辞書にも1文字だけど登録してるのに。何とかならないのかな?

767:名無しさん@お腹いっぱい。
08/09/10 18:22:38 aAaEuFR10
>764
小説みたいに同じ大きさの文字が延々と続いているのであれば、文字の大きさを
手動指定するモードとかあっても良さそうだよな。
見出し、本文、ルビの大きさを指定して、そこから文書を解析して認識するのなら
そんなに難しくはないような気もする。新聞とか広告文みたいにいろんな大きさの
文字が混在するのには無力だろうけど

768:名無しさん@お腹いっぱい。
08/09/12 17:59:53 BkRq8OtC0
URLリンク(code.google.com)
NHocr is a command line OCR (Optical Character Recognition) program for Japanese language

769:名無しさん@お腹いっぱい。
08/09/21 20:05:56 CcopwTiy0
素人で失礼ですが
OCRソフトは、10万円以上の価格でないと、7割文字認識できませんか?


770:名無しさん@お腹いっぱい。
08/09/21 22:19:11 m2yjq4Bi0
原稿の状態によっては何万出しても変わらない。
認識エンジン自体は1万前後の製品とはそんなに変わらなくて、内蔵辞書を持つとか、そういうところが変わってくる

771:名無しさん@お腹いっぱい。
08/09/24 01:41:38 KwoBHrO90
既存のPDFファイル(複合機でスキャン)に透明テキストを乗せようと
読んdeココ!!と読取革命の体験版、クセロReaderZeroを試してみたのですが、
完成後のファイルサイズがとんでもなくマチマチになるのはどうしてでしょうか?
クセロで約3倍、読取革命で約5倍、読んdeココ!!で約17倍にもなってしまいました。

同じ読んdeココ!!で、自動処理ではなく手動で作業を進めていくと
元々のファイルとほとんど変わらないサイズのものができあがるので、
これと同様の処理をなんとか自動でしてもらえたらいいのですが。


次ページ
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

4060日前に更新/206 KB
担当:undef