官報のレイアウト難易度凄いですね(縦書き横書き、回転文書画像など)
しかも縦書きTrue PDF部分ではクリップボードコピーしたら一文字毎に改行されてました
(改行を取った状態『「第六十条第三項第一号」に改め、「規定による」を削り』などで検索は出来ますが)
これはもう対応しなくて良いと思いますが、OCR部分で気が付いたのがP25の点線囲いの部分が誤認識してる様です
4 第一項及び第二項の規定による立入検査の権限は、犯
罪捜一査のためにーー認ーめーーられーーたーものーーとー解釈してーーーーーーーーはーならない。ーーーー
第百六条次の各号ーのいずれかに該当するときーはー、そ」の違
反行為をした者は、三十万円以下の罰金に処する。
一〜七(略)
八 第七十二条の二第一項又は第二項の規定に違反し
て、報告をせず、若しくは虚偽の報告をし、又はこれ
らの規定による検査を拒み、若しくは妨げたとき。
ー
ーー
探検
【文字認識】OCRソフト(3文字目)【 自炊 】
2025/08/02(土) 16:51:20.82ID:H4rP2k+Q0
651名無しさん@お腹いっぱい。
2025/08/02(土) 17:11:04.77ID:9+Bx6sl60 >>650
そこの点線は誤認識してますね。
一応点線っぽいところは自動で外すロジックになってるのですが、文字に近接しすぎているので場所的に
ふりがな扱いの伸ばし棒と誤認されて拾ってしまってますね。
これはもう無理ゲー
前処理で、罫線を見つける処理を走らせてマスクする必要がありそう。
そこの点線は誤認識してますね。
一応点線っぽいところは自動で外すロジックになってるのですが、文字に近接しすぎているので場所的に
ふりがな扱いの伸ばし棒と誤認されて拾ってしまってますね。
これはもう無理ゲー
前処理で、罫線を見つける処理を走らせてマスクする必要がありそう。
652650
2025/08/02(土) 18:46:20.53ID:vzahj3Pe02025/08/03(日) 12:00:05.05ID:pu/nbpro0
ScanSnap用のScanSnap OrganizerやScanSnap HomeのOCRエンジンはABBYY製だと言われているので、
製品版ABBYY 15を高い金を出して買ってみたのだが、OCR精度(縦書き日本語)はScanSnap用よりも悪いし、
画像を変えずにPDFにOCR埋め込みはできないし、他のソフトでPDFに埋め込んだOCR透明テキストは編集できないし、
OCR後のリフローテキスト出力は段落認識の精度が悪いし、といった具合で、金をドブに捨てた感じ
製品版ABBYY 15を高い金を出して買ってみたのだが、OCR精度(縦書き日本語)はScanSnap用よりも悪いし、
画像を変えずにPDFにOCR埋め込みはできないし、他のソフトでPDFに埋め込んだOCR透明テキストは編集できないし、
OCR後のリフローテキスト出力は段落認識の精度が悪いし、といった具合で、金をドブに捨てた感じ
2025/08/04(月) 08:03:12.76ID:WQjkdvzc0
PCをリカバリーしたら自分がScanSnapを買った時付いていたPower PDF Standardの認証ができなくなっていた
ベンダーが変わったからそんなこともあろうかと事前に調べてテストしておいたのだがライセンスは
HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Licenses
に保存されているのでそれをregファイルにエクスポートしておいてインストール後実行前に開けばよろし
それにしても無責任なことだな
Power PDF StandardはScanSnap Orgaizer/HomeよりもOCRの精度が高い(日本語縦書)
欠点は既にOCR透明テキストが存在していても消してくれずOCRが二重になってしまうこと
ベンダーが変わったからそんなこともあろうかと事前に調べてテストしておいたのだがライセンスは
HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Licenses
に保存されているのでそれをregファイルにエクスポートしておいてインストール後実行前に開けばよろし
それにしても無責任なことだな
Power PDF StandardはScanSnap Orgaizer/HomeよりもOCRの精度が高い(日本語縦書)
欠点は既にOCR透明テキストが存在していても消してくれずOCRが二重になってしまうこと
2025/08/04(月) 08:30:40.14ID:WQjkdvzc0
その後気付いたのだがこういうページがあった
https://faq.pfu.jp/faq/show/4835
でもregファイルで保存しておく方が認証を気にせずに済み、何台でもインストールできて(そんなことはしないけど)いいと思う
https://faq.pfu.jp/faq/show/4835
でもregファイルで保存しておく方が認証を気にせずに済み、何台でもインストールできて(そんなことはしないけど)いいと思う
656名無しさん@お腹いっぱい。
2025/08/23(土) 10:27:18.08ID:KJ5R94RS0 bunkoOCRのiOS版を更新しました。審査通ればそのうち配信されると思います。
OCRの結果をpdf出力で透明検索可能テキストとして埋め込めるようにしました。
pdfの画像ページを取り込んで、画像と文字ページをそのままにして、
透明検索可能テキストを埋め込めるようにしました。
Transformerの部分を修正して、画像が粗くて認識失敗したときに文字ズレが起こりにくくしました。
官報みたいに90度くるくる回っている画像の為に、回転オプションをつけました。
国会図書館デジタルコレクションのpdfの下部80pixelのところに文字が入れられて邪魔なので、
上下左右をトリミングできるようにしました。
ロジックは出来たので、このバージョンをWindows版にも反映させます。
もうしばらくお待ちください。
OCRの結果をpdf出力で透明検索可能テキストとして埋め込めるようにしました。
pdfの画像ページを取り込んで、画像と文字ページをそのままにして、
透明検索可能テキストを埋め込めるようにしました。
Transformerの部分を修正して、画像が粗くて認識失敗したときに文字ズレが起こりにくくしました。
官報みたいに90度くるくる回っている画像の為に、回転オプションをつけました。
国会図書館デジタルコレクションのpdfの下部80pixelのところに文字が入れられて邪魔なので、
上下左右をトリミングできるようにしました。
ロジックは出来たので、このバージョンをWindows版にも反映させます。
もうしばらくお待ちください。
657名無しさん@お腹いっぱい。
2025/08/24(日) 06:35:22.44ID:g82KMW5B0 Window楽しみに待ってます
2025/08/25(月) 22:11:33.54ID:OvfEPKki0
お疲れ様です
ずっと待っていました
トリミング機能追加ありがとうございます
ずっと待っていました
トリミング機能追加ありがとうございます
2025/09/01(月) 23:04:59.55ID:1rqD0I8v0
Windows版bunkoOCRのおかげで絶版文庫本を非破壊で電子化できたー、ありがとうございます
2025/09/06(土) 20:13:56.97ID:H8EgYyo00
スキャンした住民票をテキスト化するんでアプリ探してたんだが
数十ページ分とかでなければ
OS付属のSnipping Toolで十分だなこりゃ
そこそこ画数の多い漢字も正確に変換してくれた
今のところ誤字変換も無さそう
数十ページ分とかでなければ
OS付属のSnipping Toolで十分だなこりゃ
そこそこ画数の多い漢字も正確に変換してくれた
今のところ誤字変換も無さそう
2025/09/06(土) 20:24:53.44ID:H8EgYyo00
OneNoteのテキスト抽出は操作が分かりやすいが
Snipping Toolと比べると誤認識が多くてまあまあ直しが必要
Snipping Toolと比べると誤認識が多くてまあまあ直しが必要
2025/09/09(火) 23:58:11.75ID:01QOxF3K0
>>660
Windows10のやつだとOCR機能が無かった
Windows10のやつだとOCR機能が無かった
663名無しさん@お腹いっぱい。
2025/09/10(水) 15:21:45.55ID:FaVREnhG0 11からの機能だったはず
664代行
2025/09/14(日) 08:47:38.72ID:E2z5dYHq0 外部ツールを使えばWindows10でもOCR使えるはず
2025/09/22(月) 20:57:38.33ID:gwiq/oAq0
bunkoOCRなんだけど
本文中に《 》で囲まれた文字がルビ扱いになるね
漢字《本文》 や 《|本文《ルビ》》 みたいの
【 】などに置き換えてるけど青空文庫の仕様だから仕方ないのかな
文字認識としては正しいのに
本文中に《 》で囲まれた文字がルビ扱いになるね
漢字《本文》 や 《|本文《ルビ》》 みたいの
【 】などに置き換えてるけど青空文庫の仕様だから仕方ないのかな
文字認識としては正しいのに
666名無しさん@お腹いっぱい。
2025/09/23(火) 03:22:27.09ID:tALN4ZQg0 内部的には0xFFF9-0xFFFBを使っているのですが、対応している環境が皆無なので
適当なフォーマットに変換してます。《 》じゃない文字でも出力できる必要がありますね。
ラノベだとわりと被るから
適当なフォーマットに変換してます。《 》じゃない文字でも出力できる必要がありますね。
ラノベだとわりと被るから
2025/10/03(金) 14:01:06.48ID:IYjy8lx+0
青空文庫のフォーマット考えたやつバカだよな
668名無しさん@お腹いっぱい。
2025/10/03(金) 14:11:13.88ID:kWlG0hPv0 >>667
SJIS しか使えない機材が多数だった時代に
特別なツール無しでそれこそワープロ専用機でも本を読み書きできることを目標に決められたフォーマットなんで足りないのは仕方ない
過去の遺物、epub とか使え
SJIS しか使えない機材が多数だった時代に
特別なツール無しでそれこそワープロ専用機でも本を読み書きできることを目標に決められたフォーマットなんで足りないのは仕方ない
過去の遺物、epub とか使え
669名無しさん@お腹いっぱい。
2025/10/03(金) 23:39:12.47ID:VUABJA2R0 縦書きのePubとか止めてくれ
670名無しさん@お腹いっぱい。
2025/10/04(土) 10:46:48.40ID:YYSU4Zh/0 >>669
なんで? 便利じゃん
なんで? 便利じゃん
2025/10/15(水) 21:52:29.81ID:4+SnkVL80
bunkoOCR使ってみたら、普通に読めるレベルに認識してすごい
ドキュメントスキャナーのソフトは、誤字があまりに多く読めなかったのでありがたい
windows版の新バージョン期待してます
ドキュメントスキャナーのソフトは、誤字があまりに多く読めなかったのでありがたい
windows版の新バージョン期待してます
2025/10/15(水) 23:40:03.08ID:4+SnkVL80
2025/10/17(金) 16:40:11.01ID:RuTaM5ue0
bunkoOCR on macOSで、旧字が大量にある縦書き文書のPDFをOCRしました
認識率がすごいですね、感動しました
で、これをPDFのテキストデータとして戻したいのですが、元のPDFの描画はそのまま
保持することはできますかね? 現行は書き出すとPDFのページは画像化するようですが
画像化でもかなりいけてますが、より高い解像度(600dpiとかそれ以上)って選べます?
あと、処理中はCPUが200%ぐらいしかいきませんが、もっと並列化とかもできる
ものなんですかね
認識率がすごいですね、感動しました
で、これをPDFのテキストデータとして戻したいのですが、元のPDFの描画はそのまま
保持することはできますかね? 現行は書き出すとPDFのページは画像化するようですが
画像化でもかなりいけてますが、より高い解像度(600dpiとかそれ以上)って選べます?
あと、処理中はCPUが200%ぐらいしかいきませんが、もっと並列化とかもできる
ものなんですかね
674名無しさん@お腹いっぱい。
2025/10/18(土) 01:32:44.93ID:sL8FEi0V0 >>673
画像の部分だけを処理したい場合は、「PDFから画像を抽出する」の方を選んで
画像の部分だけを処理して、エクスポートのボタンから
「全てのページ」「PDF(元の画像を保持する、ふりがなを無視する)」で出力すると
テキストで元々ある部分はそのままにされて、画像の部分にだけ透明テキスト埋め込みになるはずです。
Windows版に反映しようとしている途中に、ロジックにバグが見つかり
直している途中で、別のタスクが割り込んできてちょっと時間が取れていません。
お待たせして申し訳ない。
画像の部分だけを処理したい場合は、「PDFから画像を抽出する」の方を選んで
画像の部分だけを処理して、エクスポートのボタンから
「全てのページ」「PDF(元の画像を保持する、ふりがなを無視する)」で出力すると
テキストで元々ある部分はそのままにされて、画像の部分にだけ透明テキスト埋め込みになるはずです。
Windows版に反映しようとしている途中に、ロジックにバグが見つかり
直している途中で、別のタスクが割り込んできてちょっと時間が取れていません。
お待たせして申し訳ない。
675名無しさん@お腹いっぱい。
2025/10/18(土) 01:35:17.01ID:sL8FEi0V0 並列度はわざと落として、iPadとかでkillされないように調整してたのを元に戻すの忘れてますね。
次いじるときに調整できるようにするか、もっと並列度あげておきます。
次いじるときに調整できるようにするか、もっと並列度あげておきます。
676名無しさん@お腹いっぱい。
2025/10/21(火) 19:15:01.75ID:oUl8PwmQ0 いくつか試したのでレポ
DeepSeek OCR
一応日本語読める。いくつかのサンプルで試したところ、画像によっては途中でLLMが崩壊してしまうこともある。
英語は精度よさそうだけど、日本語の精度はちょいちょいミスがある感じがする。
dots.ocr
日本語も対応してて精度も良いんだけど、LLMに起因する「嘘」が時々混じるのが残念ポイント
少々の誤差を許容できるなら、精度よさそうでいい感じ
DeepSeek OCR
一応日本語読める。いくつかのサンプルで試したところ、画像によっては途中でLLMが崩壊してしまうこともある。
英語は精度よさそうだけど、日本語の精度はちょいちょいミスがある感じがする。
dots.ocr
日本語も対応してて精度も良いんだけど、LLMに起因する「嘘」が時々混じるのが残念ポイント
少々の誤差を許容できるなら、精度よさそうでいい感じ
2025/10/21(火) 21:09:05.68ID:4p/wAbxG0
bunkoOCRやyomitokuとどっちが精度が高いのよ
それが問題だ
PaddleOCRも新しいの出したよね
特化型vsリソース食いのごり押しVLMの戦い
それが問題だ
PaddleOCRも新しいの出したよね
特化型vsリソース食いのごり押しVLMの戦い
678名無しさん@お腹いっぱい。
2025/10/22(水) 00:35:00.94ID:Q8EWz51f0 PaddleOCR
日本語の縦書きで試してみた。
合っているところはほぼ合ってるけど、なぜか認識に失敗しているところが所々ある。
認識結果が所々飛ぶイメージ。ふりがなは律儀に認識してるけど、多分座標で自前で何とかしないとだめっぽ。
認識結果は失敗の出方に特性があって評価が難しいけど、独断と偏見でいうと
dots.ocr > PaddleOCR > DeepSeek OCR
の順に精度がよさそう。ただし、自前で環境構築するのはどれもちょい面倒。
Dockerイメージあるならそれ使った方が楽できる。
なお、独断と偏見によるとbunkoOCRやyomitokuの方が日本語性能はずっと高そう。
多言語対応すると、個別の性能はチューンされきってない感じがしますね。
日本語の縦書きで試してみた。
合っているところはほぼ合ってるけど、なぜか認識に失敗しているところが所々ある。
認識結果が所々飛ぶイメージ。ふりがなは律儀に認識してるけど、多分座標で自前で何とかしないとだめっぽ。
認識結果は失敗の出方に特性があって評価が難しいけど、独断と偏見でいうと
dots.ocr > PaddleOCR > DeepSeek OCR
の順に精度がよさそう。ただし、自前で環境構築するのはどれもちょい面倒。
Dockerイメージあるならそれ使った方が楽できる。
なお、独断と偏見によるとbunkoOCRやyomitokuの方が日本語性能はずっと高そう。
多言語対応すると、個別の性能はチューンされきってない感じがしますね。
2025/10/22(水) 10:45:15.53ID:QmjHWyGj0
参考になった。ありがとう
今DoclingやVLM OCRとか流行りだけど期待のDeepseek OCRしょぼーんやな
ローカルLLMとかも性能向上そろそろ限界かな
今DoclingやVLM OCRとか流行りだけど期待のDeepseek OCRしょぼーんやな
ローカルLLMとかも性能向上そろそろ限界かな
2025/10/22(水) 19:38:07.66ID:YZI2zzo60
精度90%って高そうだけど10文字に1文字はずっこけるってことだから使えんよな
95%は20文字に1文字はずっこけ これもきっつ
98%は50文字に1文字はずっこけ ここら辺になると実用的やな
95%は20文字に1文字はずっこけ これもきっつ
98%は50文字に1文字はずっこけ ここら辺になると実用的やな
681名無しさん@お腹いっぱい。
2025/10/22(水) 22:11:37.43ID:q0StTNJ80 もう全部DeepSeekOCRでいいや
bunko も yomitoku もバイバイ
bunko も yomitoku もバイバイ
682名無しさん@お腹いっぱい。
2025/10/23(木) 18:57:28.03ID:zLYIM62O0 DeepSeek 中国製だから漢字圏では勝ってしまう可能性大有り
683名無しさん@お腹いっぱい。
2025/10/23(木) 22:55:35.97ID:Sj2lpXBu0 >>682
なお字体
なお字体
2025/10/23(木) 23:59:05.09ID:F491YrjO0
依然としてbunkoOCRがトップ
685名無しさん@お腹いっぱい。
2025/10/24(金) 06:27:27.27ID:Cv7etXwJ0 欧米製:Tesseract、EasyOCR
中国製:dots.ocr、PaddleOCR、DeepSeek OCR
日本製:bunkoOCR、yomitoku、NDL OCR
フリーのOCRをまとめてみたが実行・利用するにはプログラミング知識(可能ならGPUも)が必須なのが多い印象
フロントエンドができればTesseractやbunkoOCR以外も少しは普及しそう
中国製:dots.ocr、PaddleOCR、DeepSeek OCR
日本製:bunkoOCR、yomitoku、NDL OCR
フリーのOCRをまとめてみたが実行・利用するにはプログラミング知識(可能ならGPUも)が必須なのが多い印象
フロントエンドができればTesseractやbunkoOCR以外も少しは普及しそう
2025/10/24(金) 06:59:00.70ID:5Fw7+vc80
日本製は日本語だけ?
せねて、英語やフランス語とか西洋だけでもいけるといい
せねて、英語やフランス語とか西洋だけでもいけるといい
2025/10/24(金) 07:00:55.18ID:5Fw7+vc80
まか、日本製はモデルサイズが圧倒的に小さくて日本語性能優秀ってのが特徴であるが
2025/10/29(水) 10:41:12.98ID:kULpbrQP0
pythonとかわかんね。これならdeepseek ocr簡単に使えるの? https://github.com/TimmyOVO/deepseek-ocr.rs https://egg.5ch.net/test/read.cgi/software/1711002779/l50
689名無しさん@お腹いっぱい。
2025/11/03(月) 03:43:04.79ID:xDQZqNcO0 DeepSeek-OCRはvLLM版じゃないと本気出してくれなさそう
ってことらしい。また試すか
ってことらしい。また試すか
690名無しさん@お腹いっぱい。
2025/11/06(木) 06:29:20.69ID:RXGQOp/A0 YomiTokuがCPUでも高速に動くように進化したらしい
2025/11/16(日) 19:48:56.44ID:UMKxDmno0
bunkoOCRで三桁の数字がバラバラになってしまうのが結構あった
123が132や231になったり二桁や四桁は問題ないけど
123が132や231になったり二桁や四桁は問題ないけど
692名無しさん@お腹いっぱい。
2025/11/16(日) 20:13:58.10ID:+ptPvWyC0 なんで3桁だけなんやろ
ちょっとテストしてみるわ。よければサンプルいただけますか
ちょっとテストしてみるわ。よければサンプルいただけますか
2025/11/16(日) 20:32:03.06ID:UMKxDmno0
>>544のとこに送っておきました
694名無しさん@お腹いっぱい。
2025/11/16(日) 21:08:13.64ID:+ptPvWyC0 >>693
ありがとうございます。
手元の最新の開発中バージョンでは、101のところが上手くいっているみたいなので、早くリリースできるようにします。
割注と縦中横の判定をいじって上手くいくようになった気がする
ありがとうございます。
手元の最新の開発中バージョンでは、101のところが上手くいっているみたいなので、早くリリースできるようにします。
割注と縦中横の判定をいじって上手くいくようになった気がする
レスを投稿する
ニュース
- 「結局どこを走ればいいんですか?自転車は」 26年度から「青切符」導入 弁護士「自覚と認識を」 [七波羅探題★]
- 「中国はメンヘラ」日本企業の本音は「もう生活を壊されるのはゴメンだよ」 [煮卵★]
- 【速報】長期金利、一時1.850%に上昇 [蚤の市★]
- 地方で深刻移動貧困の実態「車のために働いてる」手取り15万円のシンママ月3.2万円が軽自動車維持費★2 [七波羅探題★]
- 「中国はメンヘラ」日本企業の本音は「もう生活を壊されるのはゴメンだよ」 ★2 [煮卵★]
- 中国外務省「正式な発言撤回なければ受け入れず」 高市首相は台湾有事「存立危機事態」言及せずも「言及しないことと撤回は別問題」★10 [ぐれ★]
- ネトウヨ「中国と断交し日本が中国にとって核で滅ぼしてもいい国になれば抑止力が高まる!」 これマジのガチで本気で言ってるらしいな… [314039747]
- 【速報】政権与党への批判、即逮捕へ・・・ [955862909]
- 高市内閣支持率75%。やっぱりケンモメンって、日本の人じゃない感じなの…? [673057929]
- 何かの間違いで今日エッチ出来る女の子いない?
- ネトウヨ、超正論。「中国で商売してた浜崎あゆみは反日!」 [314039747]
- るるさん朝に
