【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
2016/08/09(火) 21:24:11.61ID:zXdCMkkb0
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
2023/05/11(木) 11:33:22.61ID:9xPVTWRk0
>>772
縦書きは少ししかOCRしてませんが精度は良いと思います。
1ページ当たり500文字ほどの本を処理し、単語検索しましたが抜けはありませんでした。

ただ、ドラッグしてハイライトを付けると文章内で飛んでる所がでます
(ハイライトが飛ぶだけでテキストのコピーは飛ばずにちゃんとできます)
i.imgur.com/kbM3N3G.png
2023/05/11(木) 13:33:09.87ID:BXO1YqG10
写真を見る限り透明文字の位置やサイズの問題のきがします。

Google Cloud Vision APIでは透明もじの張り込みはできないとおもっていたのですができるのですね
2023/05/11(木) 19:33:34.69ID:8ESIxcV30
>439の奴は透明テキスト付pdfにするためのライブラリが縦書きに対応していない
GCV自体は縦書きに対応してるのでテキスト抜き出すだけなら問題ないけど
776sage
垢版 |
2023/05/12(金) 08:52:20.43ID:TaRhIR6z0
ブルーレイ映画をパソコンで再生しながら、画面下に表示される字幕を
映画の最初から最後まで連絡して文字認識するソフトを探しています。
そのような機能を持つソフトはありますか?
2023/05/12(金) 14:46:35.89ID:TbN5DIDu0
>>775
でも773の画像は縦書きに透明文字が乗ってるよね。

>>773さん、

GCVで透明文字が乗ったのPDF は作れるのですか?
2023/05/12(金) 14:57:09.96ID:wckX7tc+0
>>777
773ですがGCVで透明テキスト付きPDF作れてますよ
横書きなら文字検索&ハイライトの問題なし、縦書きはハイライト飛ぶけど検索はほぼ問題なし
2023/05/12(金) 16:42:30.72ID:TbN5DIDu0
>>778
ありがとうございます。
Google クラウドビジョン チャレンジしてみます
2023/05/12(金) 16:58:09.11ID:wckX7tc+0
>>779
いえいえ~

Google CloudのAPIキーを発行する手順を載せておきますので参考までにどうぞ
zenn.dev/tmitsuoka0423/articles/get-gcp-api-key
2023/05/12(金) 19:33:59.40ID:pxPA5Q3q0
>>777
「縦の文字列」ではなく一文字ずつ位置指定して透明テキストを画像に重ねてるんよ
(おそらく横書判定で一文字ごとに改行って処理になってる)
なのでドラッグで範囲選択すると位置ズレで拾えない文字が出てくる
>773の選択範囲は点線上だけど正規の縦書きPDFなら赤の選択範囲が途切れず縦一直線に繋がるはず

このあたりは>439の作者さん自身が>56-57で説明してる
hocr-toolsの作者にもissueで質問してたみたいだけど
相手外人なので縦書き需要が理解されず未解決のまま
2023/05/12(金) 21:18:10.00ID:wckX7tc+0
>>781
なるほど、それで縦書きのときのハイライトが途切れてるんですね

自分のPDFではドラッグしたときは行の最後から選択するように操作したり、前後の行を含めるように操作すると選択コピーでけっこう拾えてます、行の最初の文字が抜けたりしますが。
Wordに貼り付けても間に改行が入ったりはないです。
また、単語や文章の検索なら問題ない感じです

このへんはPDFの文字数やサイズにもよりそうですね
2023/05/14(日) 00:30:58.96ID:lh+zcWUZ0
>>780
リンク先の”認証情報を開く”まで進んだのですが,そのあとのAPIキーを発行するという画面がでません.

認証情報の作成画面の上からの項目は
?認証情報の種類
②スコープ(省略可)
③OAうthクライアントID
④認証情報

完了

です.そうすればいいでしょうかm(_ _)m
2023/05/14(日) 09:42:31.54ID:SJFcYGZt0
>>783
Cloud Vision APIを有効にすれば、APIキー発行のメニューが出ると思うんですが、
APIとサービスの有効化→検索にCloud Vision APIと入力→Cloud Vision APIを選んで「有効にする」はクリックしてますかね?
2023/05/14(日) 10:40:20.87ID:lh+zcWUZ0
>>783
>>780

自己レスです.
できました.
お騒がせしましたm(_ _)m
2023/05/14(日) 14:18:04.24ID:lh+zcWUZ0
>>780
>>781

試しに439で本の一部65ページくらいを認識させました.
他のそふとよりも正確に認識したので,全部400頁を対象にすると認識処理のあとメッセージ"enerating pdf”がでたまま終わりません.
タスクマネージャーではmakingopdfのリソース消費が0で作業を中断しているようなので諦めて,2回めをやり直しました.しかし状況は同じで終わりません.
ページ数が多くなると失敗するというバグなんかあるんでしょうか.
2023/05/15(月) 11:02:52.19ID:8XRnYinl0
>>786
456ページあるPDFをjpgにしmakepdfGUIで透明テキスト付きPDFにしてみましたが、自分の環境下ではエラー無く終わりました

READMEにある画像データサイズやピクセル数の制限に引っかかっている可能性はないでしょうか?
2023/05/15(月) 14:37:28.13ID:bE7ubZrf0
>>787
実験していただいてありがとうございます.
私の方の画像の情報を紹介します.

画像ファイルの大きさは,全ページの場合は最大812k,65ページの最大サイズは712KBです.
ピクセル数は,全ページの場合は最大812kの画像で2050×3239B,65ページの712KBの画像で1985×3209Bです.


readmeにある条件「.jpgファイルでサイズが1.5MB以下。縦横のピクセル数が1500以下(?)」のサイズは満たしていますが,ピクセル数は全ページも65頁も満たしていません.ピクセル数の多さ原因なら65ページも失敗しているはずですが.
readmeのピクセルの条件が「1500以下(?)」正確にはわからない,という書き方で判断のしようがないなです.
どこかに正確な情報はないでしょうか.

あと一回OCR認識した情報のファイルがてmpフォルダー内にHOCRやJSORで保存されていますが
これらを再利用する方法はないでしょうか.

試しに有料なので毎回GCVを動かすわけにもいかないので.
2023/05/15(月) 17:47:49.34ID:8XRnYinl0
>>788
READMEで使える画像データが(?)になっていて、バグが沢山あるので、と書かれているので作者さん自身でも把握できていないバグがあるのかもしれませんね

過去に他のGoogle Cloudサービスの使用歴があって今はもう初回の無料クレジットが無い状況ですかね?
300ドルの無料クレジットがあるなら90日間は約20万回の画像処理ができますし、もし無料分がないなら月に1000画像までは無料なので、無料の範囲で試行錯誤してみる感じになるのかなと思います

JSONファイルはGoogle Vision APIを介さずにOCRの結果を再利用できます。コマンドの知識がいるので自分は使ったことは無いです。
2023/05/15(月) 18:06:25.04ID:bE7ubZrf0
>>789
返信ありがとうございます。
Amazon で次の Kindle を購入して勉強しています。
Google Cloud Vision APIとPythonで文字認識

リナックスユーザー向け ということですが Windows でも応用がきできそうなことを 序文に書いてましたので、乗りかかった船で勉強してみます。うまくいけば 縦書き 透明 文字 も処理できる注意ができるかもしれません。
791767
垢版 |
2023/05/16(火) 02:29:27.85ID:9oBtOb4r0
100回くらい読み取りしないと日本語でOCR出来なくなった。
変なアプリ入れたせいなのかそれともハッキングか分からんが
楽天mini が全然読み取れないのとまったく同じ症状なので
カメラの性能全く関係なかった。
2023/06/07(水) 15:53:10.91ID:4+q27Kb70
このスレさらっと読んでみたけど
無料で、ローカルで
っていうことだとwindowsよりlinuxの方が有利っぽいね

透明テキスト付けられると便利だなとか思いながら見ていた
793767
垢版 |
2023/06/17(土) 13:47:44.30ID:8SIUbIIB0
あやしいツールを削除したら日本語認識するようになったけど複雑な字は絶対認識しなかった。
手首を固定するようにしたらだいぶ良くなったから手振れかなと思った。
さらにA4厚紙にスマホを乗せて厚紙を固定して撮影したらかなり正確に認識した。
手振れが問題だったようだが撮影台みたいなのは影ができるからこれも使えん。
アプリによって距離も違うし。
暗い壁を背にして光源を天井と外の2方向からにしてレシートを斜めに置くと影も反射もなく撮影できる。
フラッシュ焚いて反射した部分は読み取れない。
2023/07/25(火) 23:59:25.50ID:h9R08oEW0
オープンソースなAI-OCRがちょっとずつ増えてきた?
795名無しさん@お腹いっぱい。
垢版 |
2023/07/27(木) 00:49:10.58ID:1HHss/Kc0
具体的書込所望
2023/07/28(金) 12:17:15.85ID:u6TD1Weu0
Windows APIのOCR機能を使ってみたが、まあそこそこって感じ。
パラメーターとかのチューニングの余地がないっぽいので、お試しレベルだな。
797名無しさん@お腹いっぱい。
垢版 |
2023/08/10(木) 23:03:32.19ID:abq/Rt+90
ここで聞いた手法で、機械学習OCR挑戦してたけど、やっと動くようになったので
置いておきます

モデル
https://github.com/lithium0003/findtextCenterNet
アプリにしたもの
https://apps.apple.com/jp/app/bunkoocr/id1611405865
なんとなくの使い方
https://lithium03.info/ios/bunkoOCR.ja.html
2023/08/20(日) 22:49:52.50ID:4wU2XFry0
>>797
久々に来たら神アプリ誕生してた
試したらなぜかエラーで強制終了したんですけど、かなり期待してます!
799名無しさん@お腹いっぱい。
垢版 |
2023/08/21(月) 03:08:01.91ID:PbCWsLqe0
>>798
まだバグってたか。すまん。
よければ機種と、何した瞬間だったか教えてもらえると助かるです。
もしくは、ディベロッパーにエラーレポート共有するやつで送っておいてもらえると。
2023/08/23(水) 21:45:39.05ID:BZ9LSkyF0
iPhone8で落ちてだめだね
801名無しさん@お腹いっぱい。
垢版 |
2023/08/24(木) 04:57:06.45ID:qTgQhcLI0
iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい
802名無しさん@お腹いっぱい。
垢版 |
2023/08/24(木) 04:57:09.06ID:qTgQhcLI0
iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい
803名無しさん@お腹いっぱい。
垢版 |
2023/08/24(木) 05:14:04.09ID:qTgQhcLI0
二重になってた。すまん

こんな感じで、ふりがな付きで認識されるはず
https://i.imgur.com/sAYCM1A.jpeg
https://i.imgur.com/Y0b5Gp2.png
804名無しさん@お腹いっぱい。
垢版 |
2023/09/03(日) 04:56:45.00ID:dkzlPmWw0
>>803
それ何のスキャナ?
そんなに離れたところからでも、今の時代ってそんなに高精細にスキャンできるのか?
2023/09/03(日) 07:55:28.61ID:HPTuewTO0
スマホのカメラでしょ
806名無しさん@お腹いっぱい。
垢版 |
2023/09/03(日) 15:29:23.39ID:XydjHq3Z0
iPhone13Proの背面カメラ
焦点距離が150mmの倍率が真ん中のやつだとちょうどの距離
2023/09/04(月) 21:26:06.49ID:fEFnfgzU0
台に固定して1ページづつ撮影か
自動でシャッター切るアプリがあったけどキツイな
808名無しさん@お腹いっぱい。
垢版 |
2023/09/04(月) 23:05:06.12ID:AO5H3uFf0
>>807
DAISOリモコンシャッター用フットスイッチ iPhone用
https://minne.com/items/26569321
809名無しさん@お腹いっぱい。
垢版 |
2023/09/05(火) 10:00:32.81ID:wxRm1Dem0
>>797 のアプリは15秒おきとかに自動シャッター切れるようにしたけど、
小説一冊スキャンしようとしたら45分くらいかかるから結構大変だった。
非破壊でスキャンできるのはよいけど、手間はすごい
2023/09/05(火) 11:07:11.26ID:379iN/3y0
アンドロイドのアプリいくつか使った
見開き自動分割とか、自動シャッターとか、指消しとか
OCRは有料だけど
Lens
adob scan
vflat
genius scan
2023/09/06(水) 15:15:13.29ID:wYBqExFW0
>>809
しばらく使ってないアプリだけど、スキャンだけvFlat使って、OCRをこの新しいアプリ使ってみたらどうかな?もうちょい速くできそう
2023/09/06(水) 15:17:38.01ID:wYBqExFW0
Windows版が出るならスペック高いPCでガンガン使いたい
813名無しさん@お腹いっぱい。
垢版 |
2023/09/06(水) 21:47:47.22ID:Wt6T7L+k0
今、Windows用のに書き換えてるけど、処理した結果の出力ってどんな形式が便利?
とりあえずtxt(ふりがな飛ばす)と、html(rubyタグ)とかで出しておけば何とかなるかしら。
2023/09/09(土) 20:21:39.46ID:ZgEbr9HO0
tesseractのhOCR形式、文字(または語)ごとにOCR推定のコンフィデンス値が見られるのがお気に入り
でも文字列検索には不便
定番の出力形式、なかなか定まらない
815名無しさん@お腹いっぱい。
垢版 |
2023/09/09(土) 23:42:26.08ID:3helahsY0
Windows版 bunkoOCR
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230909.zip

とりあえず作った。nvidiaのGPUが刺さってると速いはず。
CPUでも動くけどかなり時間がかかるので、GPU推奨
816名無しさん@お腹いっぱい。
垢版 |
2023/09/10(日) 04:54:58.83ID:/02CMD2I0
>>815
裏写り除去のルーチン入れ忘れてたので修正版
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230910.zip
817名無しさん@お腹いっぱい。
垢版 |
2023/09/11(月) 21:25:23.88ID:gkv7osDa0
>>815
ページ作ったので、以後こちらで
https://lithium03.info/product/bunkoOCR.html
2023/09/12(火) 15:43:11.53ID:mvsAFLgd0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。

Windows用の .Net Frameworkとかを使っていないのでウィンドウまでは起動したから、「こ、これはイケるかもしれない」と、文庫をひらきにしてスキャンした画像をScanTailorで整形した.tiffと.pngを食わせてみたが、いずれもエラーを吐いてダメ。

惜しいなァと思いつつちょっと試行錯誤したところ、どうも別ドライブにまたがった先のファイルなのがダメだったのか、システムと同ドライブ内に画像ファイルをコピーしてから食わせたら、第9世代のCore i7を全スレッド100%級に使用してましたが、.tiffも.pngからも無事にテキスト化できました!

まだ1ページやっただけですが、誤認識が見当たらないのがスゴイ!
しかも行頭アキのスペースをちゃんと認識している!

今ままで行頭アキを認識しなかったTesseract-ocrで散々苦労していたのがウソのよう。

更に段組み(1ページ内のテキストが上段と下段で折り返す)にも対応していて画像を上下で分割しなくてもテキストは上下で区別されてるし、複数ページを一度に食わせられる!

あなたは神か?

ものすごいものを世に出していただき、自炊者のひとりとして感謝いたします。
2023/09/12(火) 20:00:43.48ID:drt9+3XT0
自分も使わせていただきました
読み取り精度は感動的なまでに高いですね
同じファイルを読み取り革命に読み込ませた時は誤字脱字だらけで改行も滅茶苦茶でしたが
このソフトだとほぼ校正はいらない状態で出力されます

ただ、かなりのスペックが必要ですね
5年ほど前のノートPC(corei7 メモリ16GB radeon)だと12コア全て使用率100%近くになり
半分フリーズしたような状態で1時間ほど放置したら100ページほど出来てたので
500ページの文庫を何冊もやるとしたら結構時間かかると思います
読み取り革命ではこのノートで充分でしたが次回はゲーム用のRTX3050を積んだPCでテストしてみます

素晴らしいソフトを公開してくださり本当にありがとうございます
820名無しさん@お腹いっぱい。
垢版 |
2023/09/12(火) 20:39:01.02ID:fKClROHX0
うまく動いたようで何よりです。機械学習をバリバリに使っているので、
GPUマシンで実行することをおすすめします。
RTX3000系のGPUだと実用的な速度になるはずです。
2023/09/12(火) 21:35:56.45ID:mvsAFLgd0
続・Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。

・ファイルパスは1バイト文字で

システムとは別ドライブ上の画像ファイルを食わせたらエラーになった件、フォルダの名前に日本語を含む多バイト文字が使われているとエラーになるようで、ファイルパスを英数文字だけになるようにしたら、別ドライブ上のファイルでもちゃんと認識しました。

・休み休み冷却しながら

他の方も書いていますが、GPUなしだとマシンへの負担が尋常ではなく、始めると90℃くらいまでコア温度が上昇するので、300ページ弱の文庫本をOCRする場合数十ページ単位で実施したら、コア温度が冷めるまで休ませた方が熱暴走するよりいいと思う。
(ちなみにエディタで文字打ちだとコア温度は35℃くらい)

今回スキャンしてノンブルを削除した以外は段組のままの300DPIのtiff画像を一冊分OCRしたところ、"「"が時折全角SPになっていたくらいで、ホント惚れ惚れする認識精度でした。

今後のためにGPUを搭載したPCが欲しくなります。
2023/09/13(水) 13:36:02.38ID:hhrPEDpp0
>>815
すごく良い!ありがとう。一点、空白ページだと落ちるよう。
2023/09/13(水) 14:16:40.21ID:hp6qr6yy0
作者様ありがとうございます
青空文庫形式でふりがなまで処理してくれて間違いもほぼない状態で驚きですが
実質Geforce必須といった感じですね
こちらの環境はryzen7、メモリ32Gbですがグラボは応援のためにRadeon6600xt使っているので
GPU支援が効いてくれず16スレッド全てが95〜100%使用になり
それでも1分に2枚処理できるかどうかですので何冊もOCRするのは現実的ではないです

そろそろグラボは買い換えようと思ってたのでGeforce使っている方、
例えば100枚処理するのにどれぐらい時間がかかって、温度やCPU使用率がどれぐらいになるのか教えていただけないでしょうか?
824名無しさん@お腹いっぱい。
垢版 |
2023/09/13(水) 16:12:12.68ID:sbqLPpPJ0
>>823
Radeonでも機械学習の推論ができるはずなので、モジュール足してみます。
こちらの手元にはRadeonないので、デバッグに付き合っていただけますか。
2023/09/13(水) 19:49:37.49ID:hp6qr6yy0
>>824
作者様返信ありがとうございます
RadeonでもGPU支援が効けば嬉しいです
デバックというのはテストで動かして問題や処理速度などを報告するということでしょうか?
それぐらいならできると思いますが、この過疎スレでRADEONのようなマイナーなボードを使ってるのが
10人ぐらいいるならともかく、下手をすると私一人しかいない可能性もあるので
そのためだけにわざわざ手間をかけて作っていただくのは申し訳ない気がします
正直Geforceを買ういい理由が出来たかなと思っているぐらいですので、どうかご無理をなさらないでください
2023/09/13(水) 22:43:41.23ID:etcklqyq0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-3

・ロースペックのPCだと取りこぼしもある

昨夜使ってみて色々分かってきたが、複数の連番画像ファイルを食わせたとき、連番の.jsonファイルはできても何故かテキストファイルがところどころ生成されなかった。
やはりGPU非搭載でCPUパワー100%使用を継続されるのはマシンといえど苦しいのだろう。
あとで個別に欠落した番号だけ再度OCRしたが、いっそ.jsonファイル以外作らない設定にして、あとからテキストファイル部分を抜き出す方法もアリなのかも。
(どうやるんだ?)

・段組みのままはやめておけ

上下2段の段組み画像をそのまま食わせると、OKのときもあるが文字の位置によって上下で文字列が混ざったりするので、やはり画像処理で上下を切り離して左右に並べ直してからOCRする方がよかろう。

とにかくマシンパワーが必要で簡単に再OCRとはいかないのだから、OCRにかける前になるべく元データをキレイにしておこう。

・遅延スイッチはアリ?

神に向かっておこがましいのですが、ロースペックPC勢向けにOCR処理を適当に休むように設定できないでしょうか。

たとえば300件のファイルを指定してOCRをスタートして、OCR処理が5件終了したら一旦処理を中断して、60秒とか経過したら次の処理を再開するとか。

ようはインターネット黎明期にあった、寝る前に複数ファイルのダウンロードを指定して実行して、翌朝ダウンロードしたファイルを確認するようなイメージで。

今だと冷却が間に合わず熱暴走が怖くて、ファイルを10件くらいに区切って、処理が終わったらCPU温度が下がるまで待ってから再度次のファイル群を指定するようにしていますが、その間PCを他の用途に使えず、つきっきりになってしまうので。
827名無しさん@お腹いっぱい。
垢版 |
2023/09/14(木) 05:55:34.38ID:db6WZe/g0
bunkoOCR_20230914.zip 置きました。

多分RadeonとかのGPUが付いていてある程度VRAMがあればそっちを使うようになったはず。
少しは速くなったけど、NVIDIAのTensorRTが爆速なので速度は負けます。
OCRengine.exeに送るときにUTF8にしたので、パスが日本語でも動くと思う。
sleep_wait というパラメータを10とかにすると、10秒待って次行くようにした。
真ん中のプルダウンメニューから選んで、数値をセットしてSetボタンで確定。

RadeonでもIntelでもGPUをDirectMLで使うようになったので、多少は(多分2倍くらい)速くなるはず。
828名無しさん@お腹いっぱい。
垢版 |
2023/09/14(木) 14:54:47.33ID:JGmM3H7c0
画像ファイルから透明テキスト付きPDFの作成は技術的に可能なのでしょうか?
2023/09/14(木) 20:03:08.12ID:gwhN/a7v0
>>827
早速使わせていただきました
>>823の環境(win10 64bit)で問題なく出力できました
ファイルのパスに日本語名が含まれていると処理を終えてshow resultをクリックしても反応がなかったのですが
英語のみにしたら自動で出力されました

処理速度はほぼ倍で1分10秒で4枚程度まで上がりました
CPU使用率も全コア9割超えだったのがこのバージョンでは各コアバラバラで10〜70%ぐらい
システム全体だとOcrenjine.exeの使用率が35〜45%程度の負荷まで下がり別作業も並行してできるようになりました
本当にありがとうございました

ただ、GPUの使用率はAMD SOFTWAREで見ていてもずっと0%、何度か1%になったぐらいで
今回の処理にRadeonが使われたのかどうかはわからないです
830名無しさん@お腹いっぱい。
垢版 |
2023/09/14(木) 21:06:54.94ID:7wjpngAx0
0番グラボを使うようになってるので、システムに2枚以上(CPUのオンチップについてたり)するのを
考慮してなかったです。性能のよい方使えるべきですね。
2023/09/15(金) 00:01:51.72ID:VIOkxT+n0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-4

bunkoOCR_20230914を試してみました。

・sleep_waitで熱暴走対策

神と同時代を生きることができた奇跡に感謝。

冷却のため遅延時間を60秒にして連番ファイルを食わせたところ、最大温度が80℃に達した辺りで丁度クールダウンタイムが始まり、50℃台になった辺りで
次のOCR処理が始まるので、これなら300件くらい一度に食わせても大丈夫かと思われる。
当然時間はかかるが、この方がロースペックのマシンにはやさしかろう。
寝る前にセットして、起きたら回収するカンジ?

・日本語を含む多バイト文字のファイルパスでも動いたが……

クールダウンしながらいい感じでOCRしていったように見えたのだが、肝心の.jsonファイルが画像フォルダに見当たらない。
フォルダ名を1バイト文字に戻すと、ちゃんと.jsonファイルができあがっているので、なんか次元の谷間に消えちゃったんですかね?

・.json→.txt変換ツールがついた

今回のバージョンで.jsonファイルからテキスト部分をあとから抽出して.txtファイルにするツールが付きました。
ただ一度に一件のファイルしか選択できないので、CtrlキーやShiftキーを併用して複数ファイルを一括で指定できるとすげえ便利に使えると思います。
832名無しさん@お腹いっぱい。
垢版 |
2023/09/15(金) 00:32:04.94ID:SxicWH5N0
>次元の狭間
一カ所直し忘れた予感

>jsonツールが複数選択できない
複数選択フラグたて忘れた

テストしてもらえて助かります。ちゃんとテストしたはずなのに、公開するとバグが見つかる不思議
833名無しさん@お腹いっぱい。
垢版 |
2023/09/15(金) 03:30:01.32ID:SxicWH5N0
bunkoOCR_20230915.zip アップロードしました。

>>832 の内容を直しました。
そのほか、NVIDIA以外のGPUの場合、
一番よさそうなGPUが1.8GB以上のメモリがある場合にDirectMLで動くと思います。
2023/09/15(金) 20:00:00.84ID:rObGG81S0
>>833
連日のアップデートありがとうございます
今回のバージョンでRadeonのGPU支援でのOCRができました
CPU使用率が2割ぐらいになり、代わりにRadeonの使用率が100%になりました
ファンが1000rpmでGPUの温度は80度前後で推移していたので長時間動かしても問題なさそうです
1分に4枚程度の処理速度はGeforceに比べるとすごく遅いんでしょうが、それでも私にとっては大感謝です
835名無しさん@お腹いっぱい。
垢版 |
2023/09/15(金) 23:28:48.12ID:yvCdDh3I0
試してみて感動したので使用報告です。

環境 Core(TM) i5-12600K メモリ32GB(一部RAMディスク) GeForce RTX 3060Ti 
Windows11 bunkoOCR_20230915 使用

小説を1冊試してみました。(昔自炊したラノベ)
…うっかり事前にノンブル個所トリミング忘れ。
1.ノンブルが上の右か左の隅だったからか、生成されたtxtファイルの先頭1行目がノンブルだったので、chatgptさんに聞いて、一行目削除しながらtxt結合をパワーシェルで実行。
2.結合したtxtファイルの改行を全部消して、” ”もしくは”「”の前に、改行を挿入(なんかもうちょっとスマートな方法ありそう)
これでほぼほぼいけるtxt完成。半分くらい試読したけど、文字は9割8分がた認識OK。※”|”が”I”になるのと行頭の”「”の認識不良はちょこちょこあったけど読むのに支障はない。

報告
360ファイル一気に追加したら、「bunkoOCR.exe」がフリーズ。
右上の×でタスクの終了したら、「OCRengine」は動きはじめて、150ファイル程度jsonを出力して、消えた。
3回ほど試して同じ症状でした。
※「bunkoOCR.exe」のタスクを終了しないと5分ほど待ってもjsonの出力ははじまりませんでした。
なんとなくですが、ファイルパスを保管する配列の制限な気がします。"R\小説名 第01巻¥001.jpg"を360ファイル一気に追加するとフリーズしましたが、フォルダ名を変えて"R\a¥001.jpg"にすると追加できました。

久しぶりに携帯で自炊した小説読もうとしたら、画面が縦長になったこともあり文字が小さく読みにくく、読取革命の体験版を試して絶望してたところでした。
素晴らしいソフトありがとうございます。
836名無しさん@お腹いっぱい。
垢版 |
2023/09/15(金) 23:42:25.98ID:yvCdDh3I0
追記;
正確には、こういう流れで試したので、2バイト文字とかではなく、パス長かなぁと判断した次第です。
1回目:"R\小説名 第01巻¥image-001.jpg"
2回目:"R\aaa¥image-001.jpg"
3回目:"R\a¥001.jpg"
2023/09/16(土) 00:39:42.67ID:ECc3An080
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-5

bunkoOCR_20230915を試してみました。

・Wineのエラーが出たああああああああ

ついに完全体が使えると思ったところで正直これはくやしいが、もともとWindows用のソフトを勝手にLinuxで動かしているので、直してとは言うまい。

エラーログの一部ですか、意味ありげな矢印があやしい?
---------
00000138 (D) E:\home\XXXX\ダウンロード\bunkoOCR_20230915\bin\OCRengine.exe
0000013c 0 <==
00000144 0
00000148 0
0000014c 0
00000150 0
00000154 0
00000158 0
0000015c 0
-----------

念のため、ver.914を消さないでおいてよかった。

幸い.jsonファイルから.txtに変換するツールの新バージョンは複数ファイルを一括選択できるので、テキスト化ツールをver.915に差し替えてver.914でOCRすることになろうか。

うーむ残念。
838名無しさん@お腹いっぱい。
垢版 |
2023/09/16(土) 02:52:37.88ID:Cnx2YXrY0
GPUの判定のために、DirectXの関数を呼ぶようにしたのがよくないのかしら。
サーバー上には旧バージョンも保持しているので、ファイル名変えて落としてください。

というかLinuxで動くと便利かもしれないとも思った。
839名無しさん@お腹いっぱい。
垢版 |
2023/09/16(土) 19:07:38.27ID:Cnx2YXrY0
>>0836
ひょっとして、半濁点とかの正規化の問題なのかも。そういった文字が入ってそうですか?
2023/09/16(土) 23:02:23.97ID:eNgZ5CS80
すごい精度ですね。文庫をtxtにして適宜加工、voiceoaekで出力して車で聞かせて頂いています。ありがとうございます。
私だけかもですが、起動して初回に、ふりがな無しのテキスト出力だけ選択、他の出力のチェックボックスを外して実行すると、jsonだげ出力されてtxtが出力されないみたいです。複数ファイルの時は二つ目からはtxt出力されてる。
841名無しさん@お腹いっぱい。
垢版 |
2023/09/16(土) 23:35:20.39ID:VKdO3VUp0
>>839
とりあえず。以下でテストしました。
プログラム本体は、以下のパスにて実行"R:\bunkoOCR_20230915\bin\bunkoOCR.exe"
起動した[bunkoOCR.exe]にドラッグ&ドロップでファイルの追加
ファイル名は”007.bmp”~"325.bmp"までの計316ファイルを一回で追加
※今回はトリミングした時に一部表紙や白紙のファイルを除いていますので連番ではありません。

ファイルの位置を以下のフォルダ直下に置いて追加。
・”R:\新しいフォルダー” フリーズ
・”R:\aaaaaaaaaaaaaa” フリーズ
・”R:\aaaaaaa” 追加成功
・”R:\aaaaaaa\aaaaaaa” フリーズ
・”R:\a\a” 追加成功

フリーズの判定は、”タスクマネージャーでCPU・ディスクアクセスの数値が0になり、メモリの数値も変動しなくなって10秒程度経過したこと”としました。
1回だけは、フリーズ状態で5分程度放置しております。

最後に"半濁点"・"2バイト文字"・”ー”の可能性を考慮して、
ファイル名を”新ォダー001.bmp” ~”新ォダー316.bmp”にリネーム
・”R:\aaaaaaa” フリーズ
・”R:\a” 追加成功 

なので、ファイル名の半角・全角とかではなく、総パス長なのかなという想像ですが、プログラムは10数年前に大学時代に軽く触った程度なので自身はあまりない
842名無しさん@お腹いっぱい。
垢版 |
2023/09/17(日) 00:27:10.29ID:6FdPC6Jr0
>>0841
検証ありがとうございます。

追加したときに、左側のリストに待ち行列が並ぶはずですが、フリーズしたときは
ここに追加されている状態でしょうか。
追加されていた場合は、bunkoOCR.exeの画面の一番下に出ているログはどんな文字で止まっていますか。
OCRengine.exeとやりとりして処理をさせているのですが、OCRengine側のどこを今処理しているかが
この部分に順次表示されています。
843名無しさん@お腹いっぱい。
垢版 |
2023/09/17(日) 01:44:43.68ID:hTcgI3oY0
>>842
直前の表示で止まってます。”prosess start”もしくは”ready”など
ドロップインドロップした瞬間に、左側にスクロールバーが表示されますが、ファイル名は1行も追加されません。

あと、”jsonToText.exe”に”R:\小説名 第02巻” の”001.jpg.json”等ファイルを一気に追加は動作しました。が、
"bunkoOCR.exe"に”R:\小説名 第02巻” の”001.jpg”等ファイルを一気に追加はフリーズしました。
844名無しさん@お腹いっぱい。
垢版 |
2023/09/17(日) 02:08:02.28ID:6FdPC6Jr0
>>0837
Ubuntu 22.04でWineを入れて試して見たところ、CPUモードだとちゃんと動くっぽい
OCRengine.exeの方をコマンドラインで動かして、readyって表示されるところまで行かない感じですか。
多分GPUのロード処理で新しく追加したところが怪しいのですが、いま良いGPUはお仕事中なので
別のLinuxでしか試せなくてよくわからん感じです。GPUが空くまでお待ちください。

>>0841
こちらで検証してみたら、原因がわかりました。
処理すべきファイルのリストを、OCRengine.exeに送って処理してるのですが、
多数のファイルが一気に追加されたときに待ち行列が溢れる状況になり、
(パイプで送っているけども標準入力のバッファがいっぱいになる)
追加が途中で詰まるようです。
バッファサイズは4Kバイトらしいので、ファイル名を短くするとバッファに入りきるため
固まらないようです。
この部分の処理を調整しましたので、あとでアップロードしておきます。
845名無しさん@お腹いっぱい。
垢版 |
2023/09/17(日) 02:43:37.83ID:6FdPC6Jr0
bunkoOCR_20230917.zip アップロードしました。

一気にファイルを追加したときに固まるのを修正しました。
2023/09/17(日) 18:47:17.09ID:Y9TuI/LZ0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-6

bunkoOCR_20230917を試してみました。

・今度は動いた!?

神のubuntu環境では動いたらしいし、これがあるからLinux版を作って欲しいとか安易に言えんのよな、GMバリエーション並に種類だけはあるから……とダメ元でVer.917を試したところ、起動しても『重大な問題が発生したため……云々』という例の文言が出てこない。

え? もしやと思って別ドライブの.tifファイルを複数指定してみると、OCRが始まった!
やった、さすがは神! と思ったら、プロセスはちゃんと仕事してたのに.jsonファイルができていない……。
また次元の谷に落ちたか?

↓さすがにファイルパスが長かったのでしょうか?
E:\media\xxxx\62F8754E43FDBE64\■■■■\●● ●●●●\ノンブル除去済み種\out\1009.tif

まあ動くだけいいかと起動ドライブ側のファイルを指定したら、いつもの文言が出てダメだった。
というか何で最初の1回だけ動作したのだろう?

ウィンドウは起動するが、ステータス欄の『process start』が出た辺りで例のエラーメッセージが出てしまう。再起動してみたがやはり同じ。

ま、まあLinux者としてはVer.914にバッファ問題を解決したjsonToText.exeの併せ技で十分しのげるから、高望みは慎もう。
847名無しさん@お腹いっぱい。
垢版 |
2023/09/17(日) 18:49:35.65ID:6FdPC6Jr0
bunkoOCR_20230917b.zip アップロードしました。

>>0837
GPUの判定処理を分離して、失敗した場合CPUフォールバックするようにしました。
多分sshでX転送してると思うのですが、ディスプレイが存在しない場合WineでD3Dの
関数が失敗します。この場合は、どっちみちDirectXだと速度が出ないのでCPUに落としています。
848名無しさん@お腹いっぱい。
垢版 |
2023/09/17(日) 18:53:34.19ID:6FdPC6Jr0
>>0846
すみませんjsonファイル作るときに20230917だと上書きのミスがあるかもです。
元ファイル確認してください。末端のヌル文字を抜き忘れてjsonが足せてないファイルに書いた可能性が。
2023/09/17(日) 21:56:52.74ID:Y9TuI/LZ0
>>847
>>848
折角神に骨折っていただいのに、残念ながらVer.917bでも起動後にエラーが出てダメでした。

あとjsonToText.exeで対象ファイルを一括選択したくて。Ctrl+Aを押しても反応せず、Shift+→でまとめて選択しようとしても、なんか反応が遅いです。
850名無しさん@お腹いっぱい。
垢版 |
2023/09/17(日) 22:52:44.22ID:6FdPC6Jr0
>>0849
エラー出るけども、別のexeに分けたので無視して続けるとそのまま処理できませんか?
jsonToText.exeでCtrl+Aが効かないのは、wineの方が悪い感じがします。Windows11だと効くので。
なんかフラグ足したらましになるとかありますかね(クラシックモードなら効くとか)
2023/09/18(月) 00:44:25.25ID:kMx4hZfp0
>>850
エラーが出てもあまりにも堂々とウィンドウが出ているので、ファイルを選択して食わせるまではできるのですが、ステータスに"Host version: 5.10.0-25-amd64"と出て、そこから先がいくら待っても進まないですね。残念ながら。

jsonToText.exeでCtrl+A不可の件、大変失礼しました。
連日のように付き合っていただいているというのに。

Wineのモード? もwindwos7相当からWindows10相当にしてもダメでした。
それにしても、何であの一回だけ動いたんだろう……。
852名無しさん@お腹いっぱい。
垢版 |
2023/09/18(月) 08:36:49.25ID:0SjZIDuo0
>>851
Ver.917bのOCRengine.exeだけを、直接wineで実行したらどこで止まりますか。

wine OCRengine.exe
wine OCRengine.exe 0
で、エラーは変わりそうですか。
上はCPUモード、下はDirectMLモードになるようにしています。

試してて気付いたのですが、winehq-devel まで上げるとエラーウインドウ出ないような気がします。
853名無しさん@お腹いっぱい。
垢版 |
2023/09/18(月) 09:58:23.02ID:0SjZIDuo0
bunkoOCR_20230918.zip

パラメータが保存されているparam.configをテキストエディタで開き、
use_GPU:0に書き換えるとDirectMLを使用しないように強制できます。

wine OCRengine.exe
で落ちないようなら、use_GPU:0にしてもらうと処理できるようになると思います。
2023/09/18(月) 11:05:06.87ID:kMx4hZfp0
早朝からすいません。
CPUモードなら正常、ということでしょうか。

wine OCRengine.exe の場合
--------
MESA-INTEL: warning: Performance support disabled, consider sysctl dev.i915.perf_stream_paranoid=0
(略)
OpenVINO
OpenVINO
OpenVINO
ready
--------
23行目のredyまで実行。エラーウィンドウは出ない。

wine OCRengine.exe 0 の場合
--------
MESA-INTEL: warning: Performance support disabled, consider sysctl dev.i915.perf_stream_paranoid=0
(略)
00c8:fixme:ntdll:NtQuerySystemInformation info_class SYSTEM_PERFORMANCE_INFORMATION
wine: Unhandled exception 0xc06d007e in thread c8 at address 000000007B037FC8 (thread 00c8), starting debugger...
013c:fixme:imm:ImeSetActiveContext (0x154e00, 1): stub
013c:fixme:imm:ImmReleaseContext (0000000000010064, 0000000000154E00): stub
006c:fixme:imm:ImeSetActiveContext (0x15dba0, 0): stub
006c:fixme:imm:ImmReleaseContext (0000000000010020, 000000000015DBA0): stub
--------
19行目までは同じ。25行目が出てエラーウィンドウが出る。

今Ver.918をダウンロードしてますので、追試結果はもう少々お待ちください。
855名無しさん@お腹いっぱい。
垢版 |
2023/09/18(月) 11:22:23.69ID:0SjZIDuo0
こっちで考えた状態であってたようです。DirectMLでロードしようとすると落ちちゃうようですので、
Ver.918でuse_GPU:0に書き換えて実行すると、とりあえずは動くようになりそうです。
2023/09/18(月) 11:49:45.66ID:kMx4hZfp0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-7

bunkoOCR_20230918を試してみました。

・私にとっての戦争は終わりました

素で起動するとやはりエラーになったが、神の指示に従いparam.configの"use_GPU:1"を"use_GPU:0"に書き換えて保存/実行したところ、エラーウィンドウは現れず、ドライブをまたいだ別ドライブ中の日本語フォルダの.tif画像を複数指定でき、画像と同じファルダ内に.jsonファイルができあがりました!!

ここまで対応していただいた神に感謝します。
857名無しさん@お腹いっぱい。
垢版 |
2023/09/18(月) 12:29:17.11ID:0SjZIDuo0
linuxでGPUの方がよければ、CUI版にしてfind inputdir -name '*.png' | OCRengine -
とかできるようにもできるけど、需要あるのかしら。
Linuxの民なら、オリジナルのpython版で実行しそうな気もする。
2023/09/21(木) 18:58:09.85ID:IZK9wj/L0
AozoraEpub3の説明
青空文庫をEPUBやMOBIファイルなどに変換して、kobo、kindle,などのEPUBリーダーなどで読むことができるソフトウェアです。作成したEPUBは電子書籍販売サイトで販売できるので、電子出版ツールとしても使うことができます。
https://github.com/kyukyunyorituryo/AozoraEpub3/wiki
2023/09/21(木) 23:06:22.12ID:LsrnBNJV0
むしろepubを青空文庫形式に変換してくれるツールが欲しい。
縦書きルビ入りとかきれいに表示してくれるソフトがあんまないから。
2023/09/22(金) 06:50:57.37ID:dJI/QveM0
>>859
半自動で変換するツールなら作った。
HTMLのタグを変換と削除、ルビの変換、UTF文字のタグ変換くらいだが。
画像やタグの追加は全自動化出来ないので手動だが。
2023/10/02(月) 15:23:29.76ID:dw1v1evD0
bunkoOCRに読み込ませる画像ファイルは、縦横256ピクセルの倍数のサイズが効率よいのかな
2023/10/02(月) 15:23:46.66ID:dw1v1evD0
bunkoOCRに読み込ませる画像ファイルは、縦横256ピクセルの倍数のサイズが効率よいのかな
863名無しさん@お腹いっぱい。
垢版 |
2023/10/03(火) 06:17:08.75ID:8+ujl4QD0
512 x 512に区切って処理してて、256でウインドウをスライドさせているので256の倍数だと
最後のブロックに余りが出ないですね。
2023/10/04(水) 20:44:44.74ID:vRUF6acm0
>>860
ベクターあたりでの公開希望
2023/10/09(月) 23:35:14.38ID:WG0A8Uhb0
iOS17から縦書き日本語が読み取れるようになった
APIなりSDKあれば縦書き日本語OCRでは最強かもしれん知らんけど
ペラ紙書類の縦書きはもうiPhoneで完結だわ
866名無しさん@お腹いっぱい。
垢版 |
2023/10/19(木) 07:36:34.92ID:zGVZ5rc10
>>0860
私もEPUBから青空文庫形式への変換を試みています
がEPUBの仕様の自由度が高くて難航しています。
出来れば公開してほしいです
お願いいたします。
2023/10/19(木) 09:00:07.52ID:9iReVXET0
公開するとメンテナンスしなきゃならないし、バグ対象はともかくおま環にまで対応しなきゃならないしエラー処理も細かく作らなきゃならないからヤダ。
2023/10/19(木) 09:27:27.40ID:bNKbLe6D0
epub, mobi →青空文庫の変換は対応タグに違いがいろいろあって、青空文庫では調整できないのも多いし、一部は標準化されてなくてビュアーごとの独自拡張だったりする。
結局、書籍の特徴や自分の好みや使ってるツールに合わせて決め打ちで変換することになる。汎用のツールを作るのは無理。
2023/10/30(月) 01:26:39.09ID:zJhf5BLT0
>>866
https://kyukyunyorituryo.github.io/aozora/
870名無しさん@お腹いっぱい。
垢版 |
2023/10/31(火) 01:41:42.92ID:dvkv99P10
pdfに画像透明テキスト埋め込みするのって最適のライブラリって何かあるですか?
縦書きに対応は必須で、ふりがなに対応できるとうれしい。
それとも、コピペするとき不便だから、ふりがなは除去して埋め込むのが普通ですかね
871名無しさん@お腹いっぱい。
垢版 |
2023/11/05(日) 14:23:45.25ID:0L6HLOnn0
PC画面の文字を認識して即翻訳できるソフトってありますか?できれば\0〜1000以内で、
無料のCapture2Text試しましたが使い物にならなくて
872名無しさん@お腹いっぱい。
垢版 |
2023/11/05(日) 14:24:06.46ID:0L6HLOnn0
PC画面の文字を認識して即翻訳できるソフトってありますか?できれば\0〜1000以内で、
無料のCapture2Text試しましたが使い物にならなくて
■ このスレッドは過去ログ倉庫に格納されています
16歳の水野カイトが封印の刀を見つけ、時間が裂けて黒い風と亡霊の侍が現れ、霊の時雨と契約して呪われた刀の継承者となる場面

ニューススポーツなんでも実況