おかしいな、もう一種文字化けが見つかりました。

剝(←剥の機種依存文字)

 [^一-龠ァ-ヶぁ-んー\dA-Za-z「」()、。・…!?] という『漢字/カタカナ/ひらがな/音引き/数字/大文字小文字のアルファベッド/鉤括弧/丸括弧/句読点/ナカグロ/3点リーダ/エスクラメーション/クエスチョン 以外の文字を探す』正規表現を使って、それ以外の文字があればヒットします。

>>37
やあ、これは神。
そりゃ行頭全角空白はOSSのtesseract-ocrですら今だに実装されてないんですから、このくらい認識していただければ、十分すぎるくらいですよ。