おお、神が再臨めされた。
前スレではお世話になりました。
再臨記念に350ページ級の2段組ノベルズをbunkoOCRに通してみました。
PCスペック:
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4 24GB
GPU:なし
OS:MX-Linux21.3_x64
json以外のファイルを作らない設定にして、Wine6.22で実行
ネタ:昔G4圧縮規格のtiff-300dpiでスキャンした画像P.9〜P.362。
前回同じネタでやったときは、行頭の鉤括弧が消えてしまうところが結構あったので、今回はScanTailorを通して傾き等を修正して600dpiで保存し直したものを使用した。
GPUなしだと時間がかかるだけでなく熱暴走が心配だが、神がCPU冷却のための遅延設定を設けてくれたので、一枚読み終わったら60秒待ちを入れるように設定した。
寝る前に仕掛けて朝になったらできていれば御の字だと思ったが、23:07からスタートして完了したのは翌日の12:31であった。
しかし解像度を改善したのが奏功したのか、今回は鉤括弧を落とした箇所はなく、章立てのページで上下入れ替わりとか文字の大きな見出しが本文に埋没していたりしたが、裏を返せばそこだけ注意すればよいし、何よ認識率が恐ろしく高い。
章立てページを除くとほぼ一発正解級の認識率だった。
前スレ最初の方に書いたが、OCRは元原稿次第で認識率が大きく変わるので、tiffでスキャンしてScanTailorで傾きやノイズを除去して解像度を上げてやるとtesseract-ocrですら結果は向上する。
嗚呼中古のゲーミングPCがほしいなあ。
探検
【文字認識】OCRソフト(2文字目)【 自炊 】
■ このスレッドは過去ログ倉庫に格納されています
2023/12/24(日) 00:33:27.86ID:hojDQgiw0
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【台湾有事】トランプ氏 電話会談で高市総理に発言抑制を要求か 米メディア報道… ★10 [BFU★]
- 中国、日本渡航に再警告 「侮辱や暴行で複数の負傷報告」 [ぐれ★]
- 経済誌元編集長「石破氏がコメ増産したからコメが余りまくってるどうしてくれるんだ」高市総理は悪夢の石破政権の尻ぬぐいしてる [バイト歴50年★]
- 英検、6級と7級新設へ 基礎レベルの学習に対応 [少考さん★]
- 【足立暴走男の母親が涙の謝罪】「医師から運転を止められていた」母が語った事件の背景 男は数年前から統合失調症 最近薬を変え… [ぐれ★]
- 参政・梅村みずほ議員「土葬を原則禁止にしろ」「上皇陛下も火葬が望ましいといってる」 [バイト歴50年★]
- VIPでウマ娘
- おさかなさんあつまれえ
- 【高市速報】トランプ大統領「これ以上日中の対立をエスカレートさせるな」 [931948549]
- トランプ、高市首相との電話協議で『日中対立「沈静化の必要性」に言及』首相の国会答弁を支持する発言なし [256556981]
- 理想の人間一人思い浮かべてスレ開け
- 嫌儲ウマ娘部 ★2 [959428968]
