ブラックリストの指定の仕方は行頭に、
tessedit_char_blacklist
と入力して、半角スペースを挟んでNGに指定する文字を続けて列記します。
↓ブラックリストのサンプル(実際は1行に繋がっています)
tessedit_char_blacklist fhijklmnrstuvwxyzABDEFGHIJKNPQRTUVWXYZ7ぁぃぅぇぉゅゎ丿
ァィゥェォヵヶヮ_*/\〆ゝゞヾ,.;=^~'`"[]{}<>〈〉〔〕《》『』【】=‡°
・出現頻度からかな/カナの小文字は全部大文字にさせる
・行頭に#を入れるとその行はコメントとして無効化される
なお上記以外にも日本語には出てこない文字/記号はありますが、ある程度間違える余地を
残しておいた方が後々の校正は容易くなるはずです。
上記のブラックリストサンプルに a と c と o といった丸っこい文字を入れて排除してしまうと、
句点(。)として認識できなかったときに文字ごとエラーと見なされて消されてしまうからです。
(例)
メロスは激怒した。必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した。
メロスには政治がわからぬ。
(間違い)
メロスは激怒したc必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意したa
メロスには政治がわからぬ。
(エラー)
メロスは激怒した必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した
メロスには政治がわからぬ。
【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2017/01/05(木) 22:06:35.47ID:8PejRFef0
■ このスレッドは過去ログ倉庫に格納されています
