光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
主なOCRソフトウェア(市販ソフト)
・読取革命16(開発元パナソニック、販売元ソースネクスト)
・本格読取5(開発元パナソニック、販売元ソースネクスト)
・e.Typist v.15.0(メディアドライブ)
・ABBYY FineReader PDF 16(ABBYY)
主なOCRソフトウェア(フリーソフト)
・tesseract-ocr
・PaddleOCR
・RapidOCR
・NDLOCR
・MangaOCR
・bunkoOCR
過去スレ
【文字認識】OCRソフト【 自炊 】
https://egg.5ch.net/test/read.cgi/software/1470745451/l50
【文字認識】OCRソフト(2文字目)【 自炊 】
https://egg.5ch.net/test/read.cgi/software/1701326685/l50
探検
【文字認識】OCRソフト(3文字目)【 自炊 】
2024/03/21(木) 15:32:59.39ID:L+i98pj10
2025/10/23(木) 23:59:05.09ID:F491YrjO0
依然としてbunkoOCRがトップ
685名無しさん@お腹いっぱい。
2025/10/24(金) 06:27:27.27ID:Cv7etXwJ0 欧米製:Tesseract、EasyOCR
中国製:dots.ocr、PaddleOCR、DeepSeek OCR
日本製:bunkoOCR、yomitoku、NDL OCR
フリーのOCRをまとめてみたが実行・利用するにはプログラミング知識(可能ならGPUも)が必須なのが多い印象
フロントエンドができればTesseractやbunkoOCR以外も少しは普及しそう
中国製:dots.ocr、PaddleOCR、DeepSeek OCR
日本製:bunkoOCR、yomitoku、NDL OCR
フリーのOCRをまとめてみたが実行・利用するにはプログラミング知識(可能ならGPUも)が必須なのが多い印象
フロントエンドができればTesseractやbunkoOCR以外も少しは普及しそう
2025/10/24(金) 06:59:00.70ID:5Fw7+vc80
日本製は日本語だけ?
せねて、英語やフランス語とか西洋だけでもいけるといい
せねて、英語やフランス語とか西洋だけでもいけるといい
2025/10/24(金) 07:00:55.18ID:5Fw7+vc80
まか、日本製はモデルサイズが圧倒的に小さくて日本語性能優秀ってのが特徴であるが
2025/10/29(水) 10:41:12.98ID:kULpbrQP0
pythonとかわかんね。これならdeepseek ocr簡単に使えるの? https://github.com/TimmyOVO/deepseek-ocr.rs https://egg.5ch.net/test/read.cgi/software/1711002779/l50
689名無しさん@お腹いっぱい。
2025/11/03(月) 03:43:04.79ID:xDQZqNcO0 DeepSeek-OCRはvLLM版じゃないと本気出してくれなさそう
ってことらしい。また試すか
ってことらしい。また試すか
690名無しさん@お腹いっぱい。
2025/11/06(木) 06:29:20.69ID:RXGQOp/A0 YomiTokuがCPUでも高速に動くように進化したらしい
2025/11/16(日) 19:48:56.44ID:UMKxDmno0
bunkoOCRで三桁の数字がバラバラになってしまうのが結構あった
123が132や231になったり二桁や四桁は問題ないけど
123が132や231になったり二桁や四桁は問題ないけど
692名無しさん@お腹いっぱい。
2025/11/16(日) 20:13:58.10ID:+ptPvWyC0 なんで3桁だけなんやろ
ちょっとテストしてみるわ。よければサンプルいただけますか
ちょっとテストしてみるわ。よければサンプルいただけますか
2025/11/16(日) 20:32:03.06ID:UMKxDmno0
>>544のとこに送っておきました
694名無しさん@お腹いっぱい。
2025/11/16(日) 21:08:13.64ID:+ptPvWyC0 >>693
ありがとうございます。
手元の最新の開発中バージョンでは、101のところが上手くいっているみたいなので、早くリリースできるようにします。
割注と縦中横の判定をいじって上手くいくようになった気がする
ありがとうございます。
手元の最新の開発中バージョンでは、101のところが上手くいっているみたいなので、早くリリースできるようにします。
割注と縦中横の判定をいじって上手くいくようになった気がする
2025/12/13(土) 21:24:20.24ID:CooDqDh20
yomitokuでpdfファイル入力、PDF出力したら、17.5 x 24.5 cm, 400 dpiが、97.3 x 136 cm, 72 dpiになった。ディスプレイで見るぶんには問題ないが、やや気持ち悪い。仕様でしょうか?
696名無しさん@お腹いっぱい。
2025/12/15(月) 00:19:00.46ID:HkUrNMAy0 使ってるライブラリの、デフォルトdpiが72なんだと思う。ソースのdpiを引き継ぐようにすればよさそう
2025/12/15(月) 13:09:53.21ID:i7n4OxSM0
読み取り解像度は指定できるけど、ソースのdpiが引き継げそうなやり方はなさそう?に思いました。
698名無しさん@お腹いっぱい。
2025/12/15(月) 13:40:14.61ID:HkUrNMAy0 ソース読んでみたけど、一発で出力のdpi設定できなさそう。
canvasの設定で、ちゃんと換算して設定しないとだめっぽ。githubにissue立てるか、
Twitterアカウントに突撃して報告したら直してくれそうではある。
reportlab.pdfgen の Canvasを使ってるみたいだけど、このライブラリは72dpi前提で
簡単には変わらないっぽい。画像のサイズの方をPixelから実サイズに調整する必要があって
けっこうめんどくさそう。
後から変換するソフトとか(あれば)調整した方が早そう
canvasの設定で、ちゃんと換算して設定しないとだめっぽ。githubにissue立てるか、
Twitterアカウントに突撃して報告したら直してくれそうではある。
reportlab.pdfgen の Canvasを使ってるみたいだけど、このライブラリは72dpi前提で
簡単には変わらないっぽい。画像のサイズの方をPixelから実サイズに調整する必要があって
けっこうめんどくさそう。
後から変換するソフトとか(あれば)調整した方が早そう
2025/12/15(月) 18:23:34.34ID:i7n4OxSM0
詳しくありがとうございます。私には難しそうなので、印刷する必要がある場合はどうなるのか考えて継続して使えるか検討してみます。縮小印刷したら普通に印刷できそうな気もする。
bunkoOCRならこういう問題は生じないと思うので、必要あればiPad airでOCRも検討です。遅いし電池が減るけど、、、。Windowsの新版に期待。
bunkoOCRならこういう問題は生じないと思うので、必要あればiPad airでOCRも検討です。遅いし電池が減るけど、、、。Windowsの新版に期待。
2025/12/16(火) 05:20:20.23ID:hS1pgzP70
2025/12/24(水) 11:13:31.85ID:7/TyzqGE0
それによるとdots ocrとQwen 8Bが優秀ってことかな
702名無しさん@お腹いっぱい。
2025/12/25(木) 09:58:36.11ID:TOqZu5lG0 初見。OCRソフトが欲しい。アドバイス下さい。
・紙の本を電子化してOCRを掛けるのが主目的。理系学術書(従って数式多数)が過半数。他はPC関係の図表の多い書籍。
・現状、Acrobat 9を使っている。文章のレイアウトがちょっとでも非定型となると即座に精度悪化。数式なんておよそ認識しない。
・Amazonで読取革命v17が7870円だったが、★2.9。ソースネクストでFineReader v15が27500円。Acrobat最新版は高すぎ。
・紙の本を電子化してOCRを掛けるのが主目的。理系学術書(従って数式多数)が過半数。他はPC関係の図表の多い書籍。
・現状、Acrobat 9を使っている。文章のレイアウトがちょっとでも非定型となると即座に精度悪化。数式なんておよそ認識しない。
・Amazonで読取革命v17が7870円だったが、★2.9。ソースネクストでFineReader v15が27500円。Acrobat最新版は高すぎ。
703名無しさん@お腹いっぱい。
2025/12/25(木) 10:24:38.64ID:KlbY4T//0 読取革命はマジでクソゴミだからやめとけ
704名無しさん@お腹いっぱい。
2025/12/25(木) 11:29:51.80ID:ac9LOP4P0 Thanks 質問者と別人だけど
705名無しさん@お腹いっぱい。
2025/12/25(木) 18:33:25.03ID:3uDKEtEP0 数式をTeXで認識したいとかなら、なんかモデルあったはず。
それとは別に図版多いならYomitokuが強かったような
それとは別に図版多いならYomitokuが強かったような
706名無しさん@お腹いっぱい。
2025/12/25(木) 18:36:31.31ID:3uDKEtEP0 数式混じりの日本語の本で、図版入っているやつ
私もスキャンしてOCRしたいんだけど、最終形態としてどうするのがいいんだろうか。
単なるテキストにすると、数式辛いし図版飛ぶし
図だけjpgで持っとくとしても、どの部分に入ってたかとかmdにするとかかなぁ
数式はTeX形式にするとしても、ふつうの人間はそのままで読めないという
結局レンダリングするなら、画像でよくねとかも思う
私もスキャンしてOCRしたいんだけど、最終形態としてどうするのがいいんだろうか。
単なるテキストにすると、数式辛いし図版飛ぶし
図だけjpgで持っとくとしても、どの部分に入ってたかとかmdにするとかかなぁ
数式はTeX形式にするとしても、ふつうの人間はそのままで読めないという
結局レンダリングするなら、画像でよくねとかも思う
2025/12/25(木) 19:36:32.32ID:TlC6gcR80
2025/12/26(金) 07:03:25.73ID:xqkq3/EC0
bunkoocrのwindows板って最新になってないんだっけ?
iosでやれってことか
iosでやれってことか
709名無しさん@お腹いっぱい。
2025/12/26(金) 19:06:20.17ID:d42PNyW00 ごめんまだwindowsのやつ作業できてない。お正月に作業してみるわ
2025/12/27(土) 00:21:40.07ID:assWHIWY0
>>709
楽しみにしてます
楽しみにしてます
レスを投稿する
ニュース
- 【高校野球】7イニング制、2028年メドに採用を検討も… 問題山積「過去の記録がリセットされ別の競技になる」 現場は反対多数 [冬月記者★]
- サンタ帽でガンジス川沐浴した日本人、騒ぎの原因は「放尿」 [おっさん友の会★]
- 【格闘技】朝倉未来、衝撃のTKO負けにファン悲痛「ストップ遅すぎる」「止めてあげて」 “路上の伝説”が一方的に殴られる修羅場★2 [冬月記者★]
- 【東京】3歳男児が9階から転落し死亡 両親が初詣に出掛けている間にベランダから転落したか 新宿区 ★3 [煮卵★]
- 旧統一教会「自民だけで290人応援」と韓鶴子総裁に報告か、内部文書に山上徹也被告の「会員記録を削除」とも ★14 [ぐれ★]
- 【60年に1度】「丙午(ひのえうま)」到来……“出生数25%減”をもたらした迷信の正体と丙午女子の本音 [煮卵★]
- 【原点回帰】2026年も悪人懲らしめていく💪👶ちぇーい🏡
- お前ら最近まいんちゃん言わなくなったよな…
- マクド(マクドナルド)のポテトを計量してクレームいれるヤバイジジイ、出現 [329329848]
- 【正月恒例】!omikuji丼!damaで豚丼380円を出すスレ
- 【悲報】原爆ランプでお馴染みのaespa、紅白出演時間が8:15で再び炎上
- ぼっち初詣経験者いる?
