【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

**名無しさん＠お腹いっぱい。** · 2018/04/16(月) 23:39:00.31

>>56
gcv2hocrの作者様ですね。有用なツール開発ありがとうございます

縦書きPDFの出力は tesseract 4.0 や OCRmyPDFがが実現してるので
pdfrenderer.cpp あたりの出力部分だけ切り出して何とかならないのかなあ、なんて
なんつって自分はソース見ても全然理解できなかったですが
json座標から縦横判定のほうが厳しそう
googleさんは解析時に縦横分かってるわけだし今後のアプデでオプション増えるのを期待

個人的に自炊PDF(OCRなしで画像のみ)を画像劣化なしでサーチャブルにするツールが欲しくて調べてた

　・OCRmyPDF (tesseractエンジン元々そういう用途向き)
　・tesseract 4.0　→ 画像を含まない透明テキストのみのPDFが作れる (-c textonly_pdf=1)
　・gcv2hocr + hocr-tools →フォーク版で画像を含まない透明テキストのみのPDFが作れる(--nodraw)
　　https://github.com/zvezdochiot/hocr-tools

→ pdftk の multibackground オプションで画像pdfと透明テキストpdfを重ねる
　　pdftk images.pdf multibackground text.pdf output full.pdf

Win使いがAcrobatだのe.Typistでコレジャナイ感味わい続けてる間に
linux界隈ではとっくにできるようになってたという…
exe化して1パッケージにまとめればWinの自炊者にも需要あると思うわこれ