【文字認識】OCRソフト（3文字目）【自炊】

**名無しさん＠お腹いっぱい。** · 2025/08/02(土) 16:51:20.82

官報のレイアウト難易度凄いですね(縦書き横書き、回転文書画像など)

しかも縦書きTrue PDF部分ではクリップボードコピーしたら一文字毎に改行されてました
(改行を取った状態『「第六十条第三項第一号」に改め、「規定による」を削り』などで検索は出来ますが)

これはもう対応しなくて良いと思いますが、OCR部分で気が付いたのがP25の点線囲いの部分が誤認識してる様です

４第一項及び第二項の規定による立入検査の権限は、犯
罪捜一査のためにーー認ーめーーられーーたーものーーとー解釈してーーーーーーーーはーならない。ーーーー
第百六条次の各号ーのいずれかに該当するときーはー、そ」の違
反行為をした者は、三十万円以下の罰金に処する。
一〜七（略）
八第七十二条の二第一項又は第二項の規定に違反し
て、報告をせず、若しくは虚偽の報告をし、又はこれ
らの規定による検査を拒み、若しくは妨げたとき。
ー
ーー

**名無しさん＠お腹いっぱい。** · 2025/08/02(土) 17:11:04.77

>>650
そこの点線は誤認識してますね。
一応点線っぽいところは自動で外すロジックになってるのですが、文字に近接しすぎているので場所的に
ふりがな扱いの伸ばし棒と誤認されて拾ってしまってますね。
これはもう無理ゲー
前処理で、罫線を見つける処理を走らせてマスクする必要がありそう。

**650** · 2025/08/02(土) 18:46:20.53

>>651
ですよね、どんなシステムで文書作成してるのか逆に気になります

>>650の「一文字毎に改行され」がSumatraPDFのせいなのかと思い、
観念してAdobe Acrobat Reader DCをインストールした所、その通りでした(64bit version 25.001.20577)

官報のTruePDF縦書きクリップボードコピーも「一文字毎に改行」はされなくて連続してコピーされ
さらにIMG_2399.pdfの「婆さん」の行跨ぎ検索も出来てます

縦書き文字列のマウス選択操作もSumatraよりも断然正確でした
(行が傾いていてもその傾き通りに選択状態になる)

**名無しさん＠お腹いっぱい。** · 2025/08/03(日) 12:00:05.05

ScanSnap用のScanSnap OrganizerやScanSnap HomeのOCRエンジンはABBYY製だと言われているので、
製品版ABBYY 15を高い金を出して買ってみたのだが、OCR精度(縦書き日本語)はScanSnap用よりも悪いし、
画像を変えずにPDFにOCR埋め込みはできないし、他のソフトでPDFに埋め込んだOCR透明テキストは編集できないし、
OCR後のリフローテキスト出力は段落認識の精度が悪いし、といった具合で、金をドブに捨てた感じ

**名無しさん＠お腹いっぱい。** · 2025/08/04(月) 08:03:12.76

PCをリカバリーしたら自分がScanSnapを買った時付いていたPower PDF Standardの認証ができなくなっていた
ベンダーが変わったからそんなこともあろうかと事前に調べてテストしておいたのだがライセンスは
HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Licenses
に保存されているのでそれをregファイルにエクスポートしておいてインストール後実行前に開けばよろし
それにしても無責任なことだな

Power PDF StandardはScanSnap Orgaizer/HomeよりもOCRの精度が高い(日本語縦書)
欠点は既にOCR透明テキストが存在していても消してくれずOCRが二重になってしまうこと

**名無しさん＠お腹いっぱい。** · 2025/08/04(月) 08:30:40.14

その後気付いたのだがこういうページがあった
https://faq.pfu.jp/faq/show/4835
でもregファイルで保存しておく方が認証を気にせずに済み、何台でもインストールできて(そんなことはしないけど)いいと思う

**名無しさん＠お腹いっぱい。** · 2025/08/23(土) 10:27:18.08

bunkoOCRのiOS版を更新しました。審査通ればそのうち配信されると思います。

OCRの結果をpdf出力で透明検索可能テキストとして埋め込めるようにしました。
pdfの画像ページを取り込んで、画像と文字ページをそのままにして、
透明検索可能テキストを埋め込めるようにしました。
Transformerの部分を修正して、画像が粗くて認識失敗したときに文字ズレが起こりにくくしました。
官報みたいに90度くるくる回っている画像の為に、回転オプションをつけました。
国会図書館デジタルコレクションのpdfの下部80pixelのところに文字が入れられて邪魔なので、
上下左右をトリミングできるようにしました。

ロジックは出来たので、このバージョンをWindows版にも反映させます。
もうしばらくお待ちください。

**名無しさん＠お腹いっぱい。** · 2025/08/24(日) 06:35:22.44

Window楽しみに待ってます

**名無しさん＠お腹いっぱい。** · 2025/08/25(月) 22:11:33.54

お疲れ様です
ずっと待っていました
トリミング機能追加ありがとうございます

**名無しさん＠お腹いっぱい。** · 2025/09/01(月) 23:04:59.55

Windows版bunkoOCRのおかげで絶版文庫本を非破壊で電子化できたー、ありがとうございます

**名無しさん＠お腹いっぱい。** · 2025/09/06(土) 20:13:56.97

スキャンした住民票をテキスト化するんでアプリ探してたんだが
数十ページ分とかでなければ
OS付属のSnipping Toolで十分だなこりゃ
そこそこ画数の多い漢字も正確に変換してくれた
今のところ誤字変換も無さそう

**名無しさん＠お腹いっぱい。** · 2025/09/06(土) 20:24:53.44

OneNoteのテキスト抽出は操作が分かりやすいが
Snipping Toolと比べると誤認識が多くてまあまあ直しが必要

**名無しさん＠お腹いっぱい。** · 2025/09/09(火) 23:58:11.75

>>660
Windows10のやつだとOCR機能が無かった

**名無しさん＠お腹いっぱい。** · 2025/09/10(水) 15:21:45.55

11からの機能だったはず

代行 · 2025/09/14(日) 08:47:38.72

外部ツールを使えばWindows10でもOCR使えるはず

**名無しさん＠お腹いっぱい。** · 2025/09/22(月) 20:57:38.33

bunkoOCRなんだけど
本文中に《　》で囲まれた文字がルビ扱いになるね

　漢字《本文》　や　《｜本文《ルビ》》　みたいの

【　】などに置き換えてるけど青空文庫の仕様だから仕方ないのかな
文字認識としては正しいのに

**名無しさん＠お腹いっぱい。** · 2025/09/23(火) 03:22:27.09

内部的には0xFFF9-0xFFFBを使っているのですが、対応している環境が皆無なので
適当なフォーマットに変換してます。《　》じゃない文字でも出力できる必要がありますね。
ラノベだとわりと被るから

**名無しさん＠お腹いっぱい。** · 2025/10/03(金) 14:01:06.48

青空文庫のフォーマット考えたやつバカだよな

**名無しさん＠お腹いっぱい。** · 2025/10/03(金) 14:11:13.88

>>667
SJIS しか使えない機材が多数だった時代に
特別なツール無しでそれこそワープロ専用機でも本を読み書きできることを目標に決められたフォーマットなんで足りないのは仕方ない
過去の遺物、epub とか使え

**名無しさん＠お腹いっぱい。** · 2025/10/03(金) 23:39:12.47

縦書きのePubとか止めてくれ

**名無しさん＠お腹いっぱい。** · 2025/10/04(土) 10:46:48.40

>>669
なんで？便利じゃん

**名無しさん＠お腹いっぱい。** · 2025/10/15(水) 21:52:29.81

bunkoOCR使ってみたら、普通に読めるレベルに認識してすごい
ドキュメントスキャナーのソフトは、誤字があまりに多く読めなかったのでありがたい
windows版の新バージョン期待してます

**名無しさん＠お腹いっぱい。** · 2025/10/15(水) 23:40:03.08

作者さんとしては、windows版もios版みたいにする予定かもしれないけど、
希望としては、iosでは修正済みらしい（>>587、>>598みたいな）問題のとりあえず対策版を出してほしいな～

**名無しさん＠お腹いっぱい。** · 2025/10/17(金) 16:40:11.01

bunkoOCR on macOSで、旧字が大量にある縦書き文書のPDFをOCRしました
認識率がすごいですね、感動しました

で、これをPDFのテキストデータとして戻したいのですが、元のPDFの描画はそのまま
保持することはできますかね? 現行は書き出すとPDFのページは画像化するようですが
画像化でもかなりいけてますが、より高い解像度（600dpiとかそれ以上）って選べます?

あと、処理中はCPUが200％ぐらいしかいきませんが、もっと並列化とかもできる
ものなんですかね

**名無しさん＠お腹いっぱい。** · 2025/10/18(土) 01:32:44.93

>>673
画像の部分だけを処理したい場合は、「PDFから画像を抽出する」の方を選んで
画像の部分だけを処理して、エクスポートのボタンから
「全てのページ」「PDF（元の画像を保持する、ふりがなを無視する）」で出力すると
テキストで元々ある部分はそのままにされて、画像の部分にだけ透明テキスト埋め込みになるはずです。

Windows版に反映しようとしている途中に、ロジックにバグが見つかり
直している途中で、別のタスクが割り込んできてちょっと時間が取れていません。
お待たせして申し訳ない。

**名無しさん＠お腹いっぱい。** · 2025/10/18(土) 01:35:17.01

並列度はわざと落として、iPadとかでkillされないように調整してたのを元に戻すの忘れてますね。
次いじるときに調整できるようにするか、もっと並列度あげておきます。

**名無しさん＠お腹いっぱい。** · 2025/10/21(火) 19:15:01.75

いくつか試したのでレポ

DeepSeek OCR
一応日本語読める。いくつかのサンプルで試したところ、画像によっては途中でLLMが崩壊してしまうこともある。
英語は精度よさそうだけど、日本語の精度はちょいちょいミスがある感じがする。

dots.ocr
日本語も対応してて精度も良いんだけど、LLMに起因する「嘘」が時々混じるのが残念ポイント
少々の誤差を許容できるなら、精度よさそうでいい感じ

**名無しさん＠お腹いっぱい。** · 2025/10/21(火) 21:09:05.68

bunkoOCRやyomitokuとどっちが精度が高いのよ
それが問題だ
PaddleOCRも新しいの出したよね

特化型vsリソース食いのごり押しVLMの戦い

**名無しさん＠お腹いっぱい。** · 2025/10/22(水) 00:35:00.94

PaddleOCR
日本語の縦書きで試してみた。
合っているところはほぼ合ってるけど、なぜか認識に失敗しているところが所々ある。
認識結果が所々飛ぶイメージ。ふりがなは律儀に認識してるけど、多分座標で自前で何とかしないとだめっぽ。

認識結果は失敗の出方に特性があって評価が難しいけど、独断と偏見でいうと
dots.ocr > PaddleOCR > DeepSeek OCR
の順に精度がよさそう。ただし、自前で環境構築するのはどれもちょい面倒。
Dockerイメージあるならそれ使った方が楽できる。

なお、独断と偏見によるとbunkoOCRやyomitokuの方が日本語性能はずっと高そう。
多言語対応すると、個別の性能はチューンされきってない感じがしますね。

**名無しさん＠お腹いっぱい。** · 2025/10/22(水) 10:45:15.53

参考になった。ありがとう
今DoclingやVLM OCRとか流行りだけど期待のDeepseek OCRしょぼーんやな
ローカルLLMとかも性能向上そろそろ限界かな

**名無しさん＠お腹いっぱい。** · 2025/10/22(水) 19:38:07.66

精度90%って高そうだけど10文字に1文字はずっこけるってことだから使えんよな
95%は20文字に1文字はずっこけ　これもきっつ
98%は50文字に1文字はずっこけ　ここら辺になると実用的やな

**名無しさん＠お腹いっぱい。** · 2025/10/22(水) 22:11:37.43

もう全部DeepSeekOCRでいいや
bunko も yomitoku もバイバイ

**名無しさん＠お腹いっぱい。** · 2025/10/23(木) 18:57:28.03

DeepSeek 中国製だから漢字圏では勝ってしまう可能性大有り

**名無しさん＠お腹いっぱい。** · 2025/10/23(木) 22:55:35.97

>>682
なお字体

**名無しさん＠お腹いっぱい。** · 2025/10/23(木) 23:59:05.09

依然としてbunkoOCRがトップ

**名無しさん＠お腹いっぱい。** · 2025/10/24(金) 06:27:27.27

欧米製：Tesseract、EasyOCR
中国製：dots.ocr、PaddleOCR、DeepSeek OCR
日本製：bunkoOCR、yomitoku、NDL OCR

フリーのOCRをまとめてみたが実行・利用するにはプログラミング知識（可能ならGPUも）が必須なのが多い印象
フロントエンドができればTesseractやbunkoOCR以外も少しは普及しそう

**名無しさん＠お腹いっぱい。** · 2025/10/24(金) 06:59:00.70

日本製は日本語だけ?
せねて、英語やフランス語とか西洋だけでもいけるといい

**名無しさん＠お腹いっぱい。** · 2025/10/24(金) 07:00:55.18

まか、日本製はモデルサイズが圧倒的に小さくて日本語性能優秀ってのが特徴であるが

**名無しさん＠お腹いっぱい。** · 2025/10/29(水) 10:41:12.98

pythonとかわかんね。これならdeepseek ocr簡単に使えるの？　https://github.com/TimmyOVO/deepseek-ocr.rs　https://egg.5ch.net/test/read.cgi/software/1711002779/l50

**名無しさん＠お腹いっぱい。** · 2025/11/03(月) 03:43:04.79

DeepSeek-OCRはvLLM版じゃないと本気出してくれなさそう
ってことらしい。また試すか

**名無しさん＠お腹いっぱい。** · 2025/11/06(木) 06:29:20.69

YomiTokuがCPUでも高速に動くように進化したらしい

**名無しさん＠お腹いっぱい。** · 2025/11/16(日) 19:48:56.44

bunkoOCRで三桁の数字がバラバラになってしまうのが結構あった
123が132や231になったり二桁や四桁は問題ないけど

**名無しさん＠お腹いっぱい。** · 2025/11/16(日) 20:13:58.10

なんで3桁だけなんやろ
ちょっとテストしてみるわ。よければサンプルいただけますか

**名無しさん＠お腹いっぱい。** · 2025/11/16(日) 20:32:03.06

>>544のとこに送っておきました

**名無しさん＠お腹いっぱい。** · 2025/11/16(日) 21:08:13.64

>>693
ありがとうございます。

手元の最新の開発中バージョンでは、101のところが上手くいっているみたいなので、早くリリースできるようにします。
割注と縦中横の判定をいじって上手くいくようになった気がする

【文字認識】OCRソフト（3文字目）【 自炊 】

【文字認識】OCRソフト（3文字目）【自炊】