【文字認識】OCRソフト（3文字目）【自炊】

**名無しさん＠お腹いっぱい。** · 2025/10/15(水) 23:40:03.08

作者さんとしては、windows版もios版みたいにする予定かもしれないけど、
希望としては、iosでは修正済みらしい（>>587、>>598みたいな）問題のとりあえず対策版を出してほしいな～

**名無しさん＠お腹いっぱい。** · 2025/10/17(金) 16:40:11.01

bunkoOCR on macOSで、旧字が大量にある縦書き文書のPDFをOCRしました
認識率がすごいですね、感動しました

で、これをPDFのテキストデータとして戻したいのですが、元のPDFの描画はそのまま
保持することはできますかね? 現行は書き出すとPDFのページは画像化するようですが
画像化でもかなりいけてますが、より高い解像度（600dpiとかそれ以上）って選べます?

あと、処理中はCPUが200％ぐらいしかいきませんが、もっと並列化とかもできる
ものなんですかね

**名無しさん＠お腹いっぱい。** · 2025/10/18(土) 01:32:44.93

>>673
画像の部分だけを処理したい場合は、「PDFから画像を抽出する」の方を選んで
画像の部分だけを処理して、エクスポートのボタンから
「全てのページ」「PDF（元の画像を保持する、ふりがなを無視する）」で出力すると
テキストで元々ある部分はそのままにされて、画像の部分にだけ透明テキスト埋め込みになるはずです。

Windows版に反映しようとしている途中に、ロジックにバグが見つかり
直している途中で、別のタスクが割り込んできてちょっと時間が取れていません。
お待たせして申し訳ない。

**名無しさん＠お腹いっぱい。** · 2025/10/18(土) 01:35:17.01

並列度はわざと落として、iPadとかでkillされないように調整してたのを元に戻すの忘れてますね。
次いじるときに調整できるようにするか、もっと並列度あげておきます。

**名無しさん＠お腹いっぱい。** · 2025/10/21(火) 19:15:01.75

いくつか試したのでレポ

DeepSeek OCR
一応日本語読める。いくつかのサンプルで試したところ、画像によっては途中でLLMが崩壊してしまうこともある。
英語は精度よさそうだけど、日本語の精度はちょいちょいミスがある感じがする。

dots.ocr
日本語も対応してて精度も良いんだけど、LLMに起因する「嘘」が時々混じるのが残念ポイント
少々の誤差を許容できるなら、精度よさそうでいい感じ

**名無しさん＠お腹いっぱい。** · 2025/10/21(火) 21:09:05.68

bunkoOCRやyomitokuとどっちが精度が高いのよ
それが問題だ
PaddleOCRも新しいの出したよね

特化型vsリソース食いのごり押しVLMの戦い

**名無しさん＠お腹いっぱい。** · 2025/10/22(水) 00:35:00.94

PaddleOCR
日本語の縦書きで試してみた。
合っているところはほぼ合ってるけど、なぜか認識に失敗しているところが所々ある。
認識結果が所々飛ぶイメージ。ふりがなは律儀に認識してるけど、多分座標で自前で何とかしないとだめっぽ。

認識結果は失敗の出方に特性があって評価が難しいけど、独断と偏見でいうと
dots.ocr > PaddleOCR > DeepSeek OCR
の順に精度がよさそう。ただし、自前で環境構築するのはどれもちょい面倒。
Dockerイメージあるならそれ使った方が楽できる。

なお、独断と偏見によるとbunkoOCRやyomitokuの方が日本語性能はずっと高そう。
多言語対応すると、個別の性能はチューンされきってない感じがしますね。

**名無しさん＠お腹いっぱい。** · 2025/10/22(水) 10:45:15.53

参考になった。ありがとう
今DoclingやVLM OCRとか流行りだけど期待のDeepseek OCRしょぼーんやな
ローカルLLMとかも性能向上そろそろ限界かな

**名無しさん＠お腹いっぱい。** · 2025/10/22(水) 19:38:07.66

精度90%って高そうだけど10文字に1文字はずっこけるってことだから使えんよな
95%は20文字に1文字はずっこけ　これもきっつ
98%は50文字に1文字はずっこけ　ここら辺になると実用的やな

**名無しさん＠お腹いっぱい。** · 2025/10/22(水) 22:11:37.43

もう全部DeepSeekOCRでいいや
bunko も yomitoku もバイバイ

**名無しさん＠お腹いっぱい。** · 2025/10/23(木) 18:57:28.03

DeepSeek 中国製だから漢字圏では勝ってしまう可能性大有り

**名無しさん＠お腹いっぱい。** · 2025/10/23(木) 22:55:35.97

>>682
なお字体

**名無しさん＠お腹いっぱい。** · 2025/10/23(木) 23:59:05.09

依然としてbunkoOCRがトップ

**名無しさん＠お腹いっぱい。** · 2025/10/24(金) 06:27:27.27

欧米製：Tesseract、EasyOCR
中国製：dots.ocr、PaddleOCR、DeepSeek OCR
日本製：bunkoOCR、yomitoku、NDL OCR

フリーのOCRをまとめてみたが実行・利用するにはプログラミング知識（可能ならGPUも）が必須なのが多い印象
フロントエンドができればTesseractやbunkoOCR以外も少しは普及しそう

**名無しさん＠お腹いっぱい。** · 2025/10/24(金) 06:59:00.70

日本製は日本語だけ?
せねて、英語やフランス語とか西洋だけでもいけるといい

**名無しさん＠お腹いっぱい。** · 2025/10/24(金) 07:00:55.18

まか、日本製はモデルサイズが圧倒的に小さくて日本語性能優秀ってのが特徴であるが

**名無しさん＠お腹いっぱい。** · 2025/10/29(水) 10:41:12.98

pythonとかわかんね。これならdeepseek ocr簡単に使えるの？　https://github.com/TimmyOVO/deepseek-ocr.rs　https://egg.5ch.net/test/read.cgi/software/1711002779/l50

**名無しさん＠お腹いっぱい。** · 2025/11/03(月) 03:43:04.79

DeepSeek-OCRはvLLM版じゃないと本気出してくれなさそう
ってことらしい。また試すか

**名無しさん＠お腹いっぱい。** · 2025/11/06(木) 06:29:20.69

YomiTokuがCPUでも高速に動くように進化したらしい

**名無しさん＠お腹いっぱい。** · 2025/11/16(日) 19:48:56.44

bunkoOCRで三桁の数字がバラバラになってしまうのが結構あった
123が132や231になったり二桁や四桁は問題ないけど

**名無しさん＠お腹いっぱい。** · 2025/11/16(日) 20:13:58.10

なんで3桁だけなんやろ
ちょっとテストしてみるわ。よければサンプルいただけますか

**名無しさん＠お腹いっぱい。** · 2025/11/16(日) 20:32:03.06

>>544のとこに送っておきました

**名無しさん＠お腹いっぱい。** · 2025/11/16(日) 21:08:13.64

>>693
ありがとうございます。

手元の最新の開発中バージョンでは、101のところが上手くいっているみたいなので、早くリリースできるようにします。
割注と縦中横の判定をいじって上手くいくようになった気がする

【文字認識】OCRソフト（3文字目）【 自炊 】

【文字認識】OCRソフト（3文字目）【自炊】