tesseract-ocrの認識率を下げないための工夫
tesseract-ocrで検索すると、認識率を上げるための学習ファイルの作り方を指南したサイトが
それなりにヒットしますが、やはり自炊を目的とした日本語縦書き300ページ程度をOCRするため
の指南役サイトは見たことがありません。仕方なく自分で試行錯誤した結果、
1.スキャンする時に解像度300dpi以上の.tiff形式で行う
※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。
構造上ノイズだらけのjpegだと肉眼には優しくてもソフトウェアにとってはそうではないみたい
で、当初オフィス用複合機のPDFでスキャンしてjpegに変換して読み込ませてみたのですが、そ
の結果は惨憺たるものでした。
所詮はフリーソフトかとその時は思いましたが、ふと.tiffでスキャンしてOCRをかけたところ、
認識率が飛躍的に向上しました。
ちなみに.tiffには拡張子が同じでも複数規格があり、
FujiXeroxの複合機でスキャンする=CCITT Bilevel Encodings G4 FAX T.6
リコーの複合機でスキャンする=CCITT Bilevel Encodings G3 FAX T.4
という圧縮がかかった.tiffファイルが得られます。
どちらも黒白二値で圧縮された形式なので、ページ一枚がjpegだと256KB程度がtiff-G4だと
25.6KB程度、tiff-G3だとその四割増し程度になりますが、tiff同士の認識率に違いはありませ
んでした。
なお他形式やG3からG4への変換は、IrvanVeiwとかLinuxだとImageMagickで一括変換できます
が、元がjpegからだと失われた情報が戻らないので認識率は下がります。
探検
【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2017/01/03(火) 01:48:22.51ID:/4niW42M0
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- タワマンに戻りたい…子どものため“郊外の庭付き一軒家”に引っ越した世帯年収1,600万円の40代パワーカップル「心底後悔しています」 [樽悶★]
- カズレーザー「サンタクロースはいない」「買ってくれた親に感謝」発言に“視聴者から苦情”で「バカじゃねーの?って本当に思う」 [muffin★]
- NY円、一時157円台半ばに下落 日銀総裁の利上げ慎重姿勢を警戒 ★4 [蚤の市★]
- 【酒】外国人は呆れている…「酒に酔って潰れる日本人」が海外で“めちゃくちゃ軽蔑”されるワケ [ごまカンパチ★]
- 河野太郎氏「オフレコでの発言を了解も取らずに報道する姿勢が大きな問題」官邸幹部核発言報道に★4 [♪♪♪★]
- 飲食店の順番待ちリストに本名を書かないのはなぜ?気になる理由 (発言小町) [少考さん★]
- 石破前総理「日本の財政は悪い」経済学者「日本の財政が悪いなんて嘘っぱち」「1から10まで間違ってる」 [834922174]
- 高市ショック、京都のホテル価格を大暴落させる [329329848]
- 年金10万円の81歳男性、週5で食品配布会や炊き出し通い。13時間かけて都内3カ所を回ってくる日も。これあた [545512288]
- 幹部のちんぽをしゃぶるお🏡🌸
- おさかなさんあつまれえ
- 「日本がやばい」「終わり」みたいなスレではしゃいでるケンモメン見るとめちゃくちゃイラつくんだが… [455031798]
