tesseract-ocrの認識率を下げないための工夫
tesseract-ocrで検索すると、認識率を上げるための学習ファイルの作り方を指南したサイトが
それなりにヒットしますが、やはり自炊を目的とした日本語縦書き300ページ程度をOCRするため
の指南役サイトは見たことがありません。仕方なく自分で試行錯誤した結果、
1.スキャンする時に解像度300dpi以上の.tiff形式で行う
※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。
構造上ノイズだらけのjpegだと肉眼には優しくてもソフトウェアにとってはそうではないみたい
で、当初オフィス用複合機のPDFでスキャンしてjpegに変換して読み込ませてみたのですが、そ
の結果は惨憺たるものでした。
所詮はフリーソフトかとその時は思いましたが、ふと.tiffでスキャンしてOCRをかけたところ、
認識率が飛躍的に向上しました。
ちなみに.tiffには拡張子が同じでも複数規格があり、
FujiXeroxの複合機でスキャンする=CCITT Bilevel Encodings G4 FAX T.6
リコーの複合機でスキャンする=CCITT Bilevel Encodings G3 FAX T.4
という圧縮がかかった.tiffファイルが得られます。
どちらも黒白二値で圧縮された形式なので、ページ一枚がjpegだと256KB程度がtiff-G4だと
25.6KB程度、tiff-G3だとその四割増し程度になりますが、tiff同士の認識率に違いはありませ
んでした。
なお他形式やG3からG4への変換は、IrvanVeiwとかLinuxだとImageMagickで一括変換できます
が、元がjpegからだと失われた情報が戻らないので認識率は下がります。
探検
【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2017/01/03(火) 01:48:22.51ID:/4niW42M0
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 「脅迫だ」国分太一に同情論 音声データ削除要求など日テレの対応を疑問視する声ネットに噴出「それこそコンプラ違反では」 [muffin★]
- 中国と対話で良い関係つくるのが責任と首相 ★4 [少考さん★]
- 【国際法を無視】日本での「中華人民共和国に台湾問題を論じる資格なし」との声に 中国外交部が厳しく反論… [BFU★]
- 生クリームだけの真っ白なクリスマスケーキ 大手メーカーが販売、その理由は…フルーツなしで価格は半額以下に ★3 [おっさん友の会★]
- 【学術団体】高市総理の台湾有事に関する発言を巡り、学者らが日中関係修復を求める緊急声明を発表… ★2 [BFU★]
- 〈シカが泣いている…〉奈良が“観光崩壊”危機…外国人観光客は44.5万人、宿泊客単価は3万1千円 [1ゲットロボ★]
- 【実況】博衣こよりのえちえちSSholox4周年切り抜き鑑賞🧪★3
- 高市ネトウヨ「中国シナ人は滅びろ!」(中国製スマホ、服、生活品を使いながら)→これ外国人笑うらしいなw [153490809]
- 高市のせいでこれから国際会議で台湾を「中国台北」と呼称しないと行けなくなってしまった模様 [709039863]
- 【悲報】野田佳彦、高市さんの『存立危機事態』答弁を撤回 [519511584]
- 【悲報】ジャップ「絶滅危惧種とか知ったことか!ウナギを食わせろ!」「金出すから絶滅危惧種のウナギ食わせろ」との声が相次ぐ [616817505]
- 【速報】高市批判の石破、袋叩きにあうwwwwwwwwwwwコメント1万件 [308389511]
