- 380 名前:login:Penguin mailto:sage [2010/06/05(土) 01:15:08 ID:JfmbJ71m]
- hyper estraierを使っていて、日本語、英語のpdfが途中までしかテキスト化されてませんでした.
pc11.2ch.net/test/read.cgi/unix/1176807372/138-149で やられているとおり estfxpdftohtml の中の pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output を pdftotext -enc UTF-8 -raw -nopgbrk "$infile" - 2> "/dev/null" | output として 2カラム ページ情報捨てるestfxpdftotextという名前でコピーし estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -pc UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ~/PDFDIR とやってみました hyper estraierを使ってPDFを十分に引っかけられている人はいますか?
|

|