【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2016/08/09(火) 21:24:11.61ID:zXdCMkkb0
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
2023/05/11(木) 11:33:22.61ID:9xPVTWRk0
>>772
縦書きは少ししかOCRしてませんが精度は良いと思います。
1ページ当たり500文字ほどの本を処理し、単語検索しましたが抜けはありませんでした。
ただ、ドラッグしてハイライトを付けると文章内で飛んでる所がでます
(ハイライトが飛ぶだけでテキストのコピーは飛ばずにちゃんとできます)
i.imgur.com/kbM3N3G.png
縦書きは少ししかOCRしてませんが精度は良いと思います。
1ページ当たり500文字ほどの本を処理し、単語検索しましたが抜けはありませんでした。
ただ、ドラッグしてハイライトを付けると文章内で飛んでる所がでます
(ハイライトが飛ぶだけでテキストのコピーは飛ばずにちゃんとできます)
i.imgur.com/kbM3N3G.png
2023/05/11(木) 13:33:09.87ID:BXO1YqG10
写真を見る限り透明文字の位置やサイズの問題のきがします。
Google Cloud Vision APIでは透明もじの張り込みはできないとおもっていたのですができるのですね
Google Cloud Vision APIでは透明もじの張り込みはできないとおもっていたのですができるのですね
2023/05/11(木) 19:33:34.69ID:8ESIxcV30
>439の奴は透明テキスト付pdfにするためのライブラリが縦書きに対応していない
GCV自体は縦書きに対応してるのでテキスト抜き出すだけなら問題ないけど
GCV自体は縦書きに対応してるのでテキスト抜き出すだけなら問題ないけど
776sage
2023/05/12(金) 08:52:20.43ID:TaRhIR6z0 ブルーレイ映画をパソコンで再生しながら、画面下に表示される字幕を
映画の最初から最後まで連絡して文字認識するソフトを探しています。
そのような機能を持つソフトはありますか?
映画の最初から最後まで連絡して文字認識するソフトを探しています。
そのような機能を持つソフトはありますか?
2023/05/12(金) 14:46:35.89ID:TbN5DIDu0
2023/05/12(金) 14:57:09.96ID:wckX7tc+0
2023/05/12(金) 16:42:30.72ID:TbN5DIDu0
2023/05/12(金) 16:58:09.11ID:wckX7tc+0
>>779
いえいえ~
Google CloudのAPIキーを発行する手順を載せておきますので参考までにどうぞ
zenn.dev/tmitsuoka0423/articles/get-gcp-api-key
いえいえ~
Google CloudのAPIキーを発行する手順を載せておきますので参考までにどうぞ
zenn.dev/tmitsuoka0423/articles/get-gcp-api-key
2023/05/12(金) 19:33:59.40ID:pxPA5Q3q0
>>777
「縦の文字列」ではなく一文字ずつ位置指定して透明テキストを画像に重ねてるんよ
(おそらく横書判定で一文字ごとに改行って処理になってる)
なのでドラッグで範囲選択すると位置ズレで拾えない文字が出てくる
>773の選択範囲は点線上だけど正規の縦書きPDFなら赤の選択範囲が途切れず縦一直線に繋がるはず
このあたりは>439の作者さん自身が>56-57で説明してる
hocr-toolsの作者にもissueで質問してたみたいだけど
相手外人なので縦書き需要が理解されず未解決のまま
「縦の文字列」ではなく一文字ずつ位置指定して透明テキストを画像に重ねてるんよ
(おそらく横書判定で一文字ごとに改行って処理になってる)
なのでドラッグで範囲選択すると位置ズレで拾えない文字が出てくる
>773の選択範囲は点線上だけど正規の縦書きPDFなら赤の選択範囲が途切れず縦一直線に繋がるはず
このあたりは>439の作者さん自身が>56-57で説明してる
hocr-toolsの作者にもissueで質問してたみたいだけど
相手外人なので縦書き需要が理解されず未解決のまま
2023/05/12(金) 21:18:10.00ID:wckX7tc+0
>>781
なるほど、それで縦書きのときのハイライトが途切れてるんですね
自分のPDFではドラッグしたときは行の最後から選択するように操作したり、前後の行を含めるように操作すると選択コピーでけっこう拾えてます、行の最初の文字が抜けたりしますが。
Wordに貼り付けても間に改行が入ったりはないです。
また、単語や文章の検索なら問題ない感じです
このへんはPDFの文字数やサイズにもよりそうですね
なるほど、それで縦書きのときのハイライトが途切れてるんですね
自分のPDFではドラッグしたときは行の最後から選択するように操作したり、前後の行を含めるように操作すると選択コピーでけっこう拾えてます、行の最初の文字が抜けたりしますが。
Wordに貼り付けても間に改行が入ったりはないです。
また、単語や文章の検索なら問題ない感じです
このへんはPDFの文字数やサイズにもよりそうですね
2023/05/14(日) 00:30:58.96ID:lh+zcWUZ0
>>780
リンク先の”認証情報を開く”まで進んだのですが,そのあとのAPIキーを発行するという画面がでません.
認証情報の作成画面の上からの項目は
?認証情報の種類
②スコープ(省略可)
③OAうthクライアントID
④認証情報
完了
です.そうすればいいでしょうかm(_ _)m
リンク先の”認証情報を開く”まで進んだのですが,そのあとのAPIキーを発行するという画面がでません.
認証情報の作成画面の上からの項目は
?認証情報の種類
②スコープ(省略可)
③OAうthクライアントID
④認証情報
完了
です.そうすればいいでしょうかm(_ _)m
2023/05/14(日) 09:42:31.54ID:SJFcYGZt0
>>783
Cloud Vision APIを有効にすれば、APIキー発行のメニューが出ると思うんですが、
APIとサービスの有効化→検索にCloud Vision APIと入力→Cloud Vision APIを選んで「有効にする」はクリックしてますかね?
Cloud Vision APIを有効にすれば、APIキー発行のメニューが出ると思うんですが、
APIとサービスの有効化→検索にCloud Vision APIと入力→Cloud Vision APIを選んで「有効にする」はクリックしてますかね?
2023/05/14(日) 10:40:20.87ID:lh+zcWUZ0
2023/05/14(日) 14:18:04.24ID:lh+zcWUZ0
2023/05/15(月) 11:02:52.19ID:8XRnYinl0
>>786
456ページあるPDFをjpgにしmakepdfGUIで透明テキスト付きPDFにしてみましたが、自分の環境下ではエラー無く終わりました
READMEにある画像データサイズやピクセル数の制限に引っかかっている可能性はないでしょうか?
456ページあるPDFをjpgにしmakepdfGUIで透明テキスト付きPDFにしてみましたが、自分の環境下ではエラー無く終わりました
READMEにある画像データサイズやピクセル数の制限に引っかかっている可能性はないでしょうか?
2023/05/15(月) 14:37:28.13ID:bE7ubZrf0
>>787
実験していただいてありがとうございます.
私の方の画像の情報を紹介します.
画像ファイルの大きさは,全ページの場合は最大812k,65ページの最大サイズは712KBです.
ピクセル数は,全ページの場合は最大812kの画像で2050×3239B,65ページの712KBの画像で1985×3209Bです.
readmeにある条件「.jpgファイルでサイズが1.5MB以下。縦横のピクセル数が1500以下(?)」のサイズは満たしていますが,ピクセル数は全ページも65頁も満たしていません.ピクセル数の多さ原因なら65ページも失敗しているはずですが.
readmeのピクセルの条件が「1500以下(?)」正確にはわからない,という書き方で判断のしようがないなです.
どこかに正確な情報はないでしょうか.
あと一回OCR認識した情報のファイルがてmpフォルダー内にHOCRやJSORで保存されていますが
これらを再利用する方法はないでしょうか.
試しに有料なので毎回GCVを動かすわけにもいかないので.
実験していただいてありがとうございます.
私の方の画像の情報を紹介します.
画像ファイルの大きさは,全ページの場合は最大812k,65ページの最大サイズは712KBです.
ピクセル数は,全ページの場合は最大812kの画像で2050×3239B,65ページの712KBの画像で1985×3209Bです.
readmeにある条件「.jpgファイルでサイズが1.5MB以下。縦横のピクセル数が1500以下(?)」のサイズは満たしていますが,ピクセル数は全ページも65頁も満たしていません.ピクセル数の多さ原因なら65ページも失敗しているはずですが.
readmeのピクセルの条件が「1500以下(?)」正確にはわからない,という書き方で判断のしようがないなです.
どこかに正確な情報はないでしょうか.
あと一回OCR認識した情報のファイルがてmpフォルダー内にHOCRやJSORで保存されていますが
これらを再利用する方法はないでしょうか.
試しに有料なので毎回GCVを動かすわけにもいかないので.
2023/05/15(月) 17:47:49.34ID:8XRnYinl0
>>788
READMEで使える画像データが(?)になっていて、バグが沢山あるので、と書かれているので作者さん自身でも把握できていないバグがあるのかもしれませんね
過去に他のGoogle Cloudサービスの使用歴があって今はもう初回の無料クレジットが無い状況ですかね?
300ドルの無料クレジットがあるなら90日間は約20万回の画像処理ができますし、もし無料分がないなら月に1000画像までは無料なので、無料の範囲で試行錯誤してみる感じになるのかなと思います
JSONファイルはGoogle Vision APIを介さずにOCRの結果を再利用できます。コマンドの知識がいるので自分は使ったことは無いです。
READMEで使える画像データが(?)になっていて、バグが沢山あるので、と書かれているので作者さん自身でも把握できていないバグがあるのかもしれませんね
過去に他のGoogle Cloudサービスの使用歴があって今はもう初回の無料クレジットが無い状況ですかね?
300ドルの無料クレジットがあるなら90日間は約20万回の画像処理ができますし、もし無料分がないなら月に1000画像までは無料なので、無料の範囲で試行錯誤してみる感じになるのかなと思います
JSONファイルはGoogle Vision APIを介さずにOCRの結果を再利用できます。コマンドの知識がいるので自分は使ったことは無いです。
2023/05/15(月) 18:06:25.04ID:bE7ubZrf0
>>789
返信ありがとうございます。
Amazon で次の Kindle を購入して勉強しています。
Google Cloud Vision APIとPythonで文字認識
リナックスユーザー向け ということですが Windows でも応用がきできそうなことを 序文に書いてましたので、乗りかかった船で勉強してみます。うまくいけば 縦書き 透明 文字 も処理できる注意ができるかもしれません。
返信ありがとうございます。
Amazon で次の Kindle を購入して勉強しています。
Google Cloud Vision APIとPythonで文字認識
リナックスユーザー向け ということですが Windows でも応用がきできそうなことを 序文に書いてましたので、乗りかかった船で勉強してみます。うまくいけば 縦書き 透明 文字 も処理できる注意ができるかもしれません。
791767
2023/05/16(火) 02:29:27.85ID:9oBtOb4r0 100回くらい読み取りしないと日本語でOCR出来なくなった。
変なアプリ入れたせいなのかそれともハッキングか分からんが
楽天mini が全然読み取れないのとまったく同じ症状なので
カメラの性能全く関係なかった。
変なアプリ入れたせいなのかそれともハッキングか分からんが
楽天mini が全然読み取れないのとまったく同じ症状なので
カメラの性能全く関係なかった。
2023/06/07(水) 15:53:10.91ID:4+q27Kb70
このスレさらっと読んでみたけど
無料で、ローカルで
っていうことだとwindowsよりlinuxの方が有利っぽいね
透明テキスト付けられると便利だなとか思いながら見ていた
無料で、ローカルで
っていうことだとwindowsよりlinuxの方が有利っぽいね
透明テキスト付けられると便利だなとか思いながら見ていた
793767
2023/06/17(土) 13:47:44.30ID:8SIUbIIB0 あやしいツールを削除したら日本語認識するようになったけど複雑な字は絶対認識しなかった。
手首を固定するようにしたらだいぶ良くなったから手振れかなと思った。
さらにA4厚紙にスマホを乗せて厚紙を固定して撮影したらかなり正確に認識した。
手振れが問題だったようだが撮影台みたいなのは影ができるからこれも使えん。
アプリによって距離も違うし。
暗い壁を背にして光源を天井と外の2方向からにしてレシートを斜めに置くと影も反射もなく撮影できる。
フラッシュ焚いて反射した部分は読み取れない。
手首を固定するようにしたらだいぶ良くなったから手振れかなと思った。
さらにA4厚紙にスマホを乗せて厚紙を固定して撮影したらかなり正確に認識した。
手振れが問題だったようだが撮影台みたいなのは影ができるからこれも使えん。
アプリによって距離も違うし。
暗い壁を背にして光源を天井と外の2方向からにしてレシートを斜めに置くと影も反射もなく撮影できる。
フラッシュ焚いて反射した部分は読み取れない。
2023/07/25(火) 23:59:25.50ID:h9R08oEW0
オープンソースなAI-OCRがちょっとずつ増えてきた?
795名無しさん@お腹いっぱい。
2023/07/27(木) 00:49:10.58ID:1HHss/Kc0 具体的書込所望
2023/07/28(金) 12:17:15.85ID:u6TD1Weu0
Windows APIのOCR機能を使ってみたが、まあそこそこって感じ。
パラメーターとかのチューニングの余地がないっぽいので、お試しレベルだな。
パラメーターとかのチューニングの余地がないっぽいので、お試しレベルだな。
797名無しさん@お腹いっぱい。
2023/08/10(木) 23:03:32.19ID:abq/Rt+90 ここで聞いた手法で、機械学習OCR挑戦してたけど、やっと動くようになったので
置いておきます
モデル
https://github.com/lithium0003/findtextCenterNet
アプリにしたもの
https://apps.apple.com/jp/app/bunkoocr/id1611405865
なんとなくの使い方
https://lithium03.info/ios/bunkoOCR.ja.html
置いておきます
モデル
https://github.com/lithium0003/findtextCenterNet
アプリにしたもの
https://apps.apple.com/jp/app/bunkoocr/id1611405865
なんとなくの使い方
https://lithium03.info/ios/bunkoOCR.ja.html
2023/08/20(日) 22:49:52.50ID:4wU2XFry0
799名無しさん@お腹いっぱい。
2023/08/21(月) 03:08:01.91ID:PbCWsLqe02023/08/23(水) 21:45:39.05ID:BZ9LSkyF0
iPhone8で落ちてだめだね
801名無しさん@お腹いっぱい。
2023/08/24(木) 04:57:06.45ID:qTgQhcLI0 iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい
802名無しさん@お腹いっぱい。
2023/08/24(木) 04:57:09.06ID:qTgQhcLI0 iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい
803名無しさん@お腹いっぱい。
2023/08/24(木) 05:14:04.09ID:qTgQhcLI0804名無しさん@お腹いっぱい。
2023/09/03(日) 04:56:45.00ID:dkzlPmWw02023/09/03(日) 07:55:28.61ID:HPTuewTO0
スマホのカメラでしょ
806名無しさん@お腹いっぱい。
2023/09/03(日) 15:29:23.39ID:XydjHq3Z0 iPhone13Proの背面カメラ
焦点距離が150mmの倍率が真ん中のやつだとちょうどの距離
焦点距離が150mmの倍率が真ん中のやつだとちょうどの距離
2023/09/04(月) 21:26:06.49ID:fEFnfgzU0
台に固定して1ページづつ撮影か
自動でシャッター切るアプリがあったけどキツイな
自動でシャッター切るアプリがあったけどキツイな
808名無しさん@お腹いっぱい。
2023/09/04(月) 23:05:06.12ID:AO5H3uFf0809名無しさん@お腹いっぱい。
2023/09/05(火) 10:00:32.81ID:wxRm1Dem02023/09/05(火) 11:07:11.26ID:379iN/3y0
アンドロイドのアプリいくつか使った
見開き自動分割とか、自動シャッターとか、指消しとか
OCRは有料だけど
Lens
adob scan
vflat
genius scan
見開き自動分割とか、自動シャッターとか、指消しとか
OCRは有料だけど
Lens
adob scan
vflat
genius scan
2023/09/06(水) 15:15:13.29ID:wYBqExFW0
>>809
しばらく使ってないアプリだけど、スキャンだけvFlat使って、OCRをこの新しいアプリ使ってみたらどうかな?もうちょい速くできそう
しばらく使ってないアプリだけど、スキャンだけvFlat使って、OCRをこの新しいアプリ使ってみたらどうかな?もうちょい速くできそう
2023/09/06(水) 15:17:38.01ID:wYBqExFW0
Windows版が出るならスペック高いPCでガンガン使いたい
813名無しさん@お腹いっぱい。
2023/09/06(水) 21:47:47.22ID:Wt6T7L+k0 今、Windows用のに書き換えてるけど、処理した結果の出力ってどんな形式が便利?
とりあえずtxt(ふりがな飛ばす)と、html(rubyタグ)とかで出しておけば何とかなるかしら。
とりあえずtxt(ふりがな飛ばす)と、html(rubyタグ)とかで出しておけば何とかなるかしら。
2023/09/09(土) 20:21:39.46ID:ZgEbr9HO0
tesseractのhOCR形式、文字(または語)ごとにOCR推定のコンフィデンス値が見られるのがお気に入り
でも文字列検索には不便
定番の出力形式、なかなか定まらない
でも文字列検索には不便
定番の出力形式、なかなか定まらない
815名無しさん@お腹いっぱい。
2023/09/09(土) 23:42:26.08ID:3helahsY0 Windows版 bunkoOCR
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230909.zip
とりあえず作った。nvidiaのGPUが刺さってると速いはず。
CPUでも動くけどかなり時間がかかるので、GPU推奨
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230909.zip
とりあえず作った。nvidiaのGPUが刺さってると速いはず。
CPUでも動くけどかなり時間がかかるので、GPU推奨
816名無しさん@お腹いっぱい。
2023/09/10(日) 04:54:58.83ID:/02CMD2I0817名無しさん@お腹いっぱい。
2023/09/11(月) 21:25:23.88ID:gkv7osDa02023/09/12(火) 15:43:11.53ID:mvsAFLgd0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。
Windows用の .Net Frameworkとかを使っていないのでウィンドウまでは起動したから、「こ、これはイケるかもしれない」と、文庫をひらきにしてスキャンした画像をScanTailorで整形した.tiffと.pngを食わせてみたが、いずれもエラーを吐いてダメ。
惜しいなァと思いつつちょっと試行錯誤したところ、どうも別ドライブにまたがった先のファイルなのがダメだったのか、システムと同ドライブ内に画像ファイルをコピーしてから食わせたら、第9世代のCore i7を全スレッド100%級に使用してましたが、.tiffも.pngからも無事にテキスト化できました!
まだ1ページやっただけですが、誤認識が見当たらないのがスゴイ!
しかも行頭アキのスペースをちゃんと認識している!
今ままで行頭アキを認識しなかったTesseract-ocrで散々苦労していたのがウソのよう。
更に段組み(1ページ内のテキストが上段と下段で折り返す)にも対応していて画像を上下で分割しなくてもテキストは上下で区別されてるし、複数ページを一度に食わせられる!
あなたは神か?
ものすごいものを世に出していただき、自炊者のひとりとして感謝いたします。
Windows用の .Net Frameworkとかを使っていないのでウィンドウまでは起動したから、「こ、これはイケるかもしれない」と、文庫をひらきにしてスキャンした画像をScanTailorで整形した.tiffと.pngを食わせてみたが、いずれもエラーを吐いてダメ。
惜しいなァと思いつつちょっと試行錯誤したところ、どうも別ドライブにまたがった先のファイルなのがダメだったのか、システムと同ドライブ内に画像ファイルをコピーしてから食わせたら、第9世代のCore i7を全スレッド100%級に使用してましたが、.tiffも.pngからも無事にテキスト化できました!
まだ1ページやっただけですが、誤認識が見当たらないのがスゴイ!
しかも行頭アキのスペースをちゃんと認識している!
今ままで行頭アキを認識しなかったTesseract-ocrで散々苦労していたのがウソのよう。
更に段組み(1ページ内のテキストが上段と下段で折り返す)にも対応していて画像を上下で分割しなくてもテキストは上下で区別されてるし、複数ページを一度に食わせられる!
あなたは神か?
ものすごいものを世に出していただき、自炊者のひとりとして感謝いたします。
2023/09/12(火) 20:00:43.48ID:drt9+3XT0
自分も使わせていただきました
読み取り精度は感動的なまでに高いですね
同じファイルを読み取り革命に読み込ませた時は誤字脱字だらけで改行も滅茶苦茶でしたが
このソフトだとほぼ校正はいらない状態で出力されます
ただ、かなりのスペックが必要ですね
5年ほど前のノートPC(corei7 メモリ16GB radeon)だと12コア全て使用率100%近くになり
半分フリーズしたような状態で1時間ほど放置したら100ページほど出来てたので
500ページの文庫を何冊もやるとしたら結構時間かかると思います
読み取り革命ではこのノートで充分でしたが次回はゲーム用のRTX3050を積んだPCでテストしてみます
素晴らしいソフトを公開してくださり本当にありがとうございます
読み取り精度は感動的なまでに高いですね
同じファイルを読み取り革命に読み込ませた時は誤字脱字だらけで改行も滅茶苦茶でしたが
このソフトだとほぼ校正はいらない状態で出力されます
ただ、かなりのスペックが必要ですね
5年ほど前のノートPC(corei7 メモリ16GB radeon)だと12コア全て使用率100%近くになり
半分フリーズしたような状態で1時間ほど放置したら100ページほど出来てたので
500ページの文庫を何冊もやるとしたら結構時間かかると思います
読み取り革命ではこのノートで充分でしたが次回はゲーム用のRTX3050を積んだPCでテストしてみます
素晴らしいソフトを公開してくださり本当にありがとうございます
820名無しさん@お腹いっぱい。
2023/09/12(火) 20:39:01.02ID:fKClROHX0 うまく動いたようで何よりです。機械学習をバリバリに使っているので、
GPUマシンで実行することをおすすめします。
RTX3000系のGPUだと実用的な速度になるはずです。
GPUマシンで実行することをおすすめします。
RTX3000系のGPUだと実用的な速度になるはずです。
2023/09/12(火) 21:35:56.45ID:mvsAFLgd0
続・Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。
・ファイルパスは1バイト文字で
システムとは別ドライブ上の画像ファイルを食わせたらエラーになった件、フォルダの名前に日本語を含む多バイト文字が使われているとエラーになるようで、ファイルパスを英数文字だけになるようにしたら、別ドライブ上のファイルでもちゃんと認識しました。
・休み休み冷却しながら
他の方も書いていますが、GPUなしだとマシンへの負担が尋常ではなく、始めると90℃くらいまでコア温度が上昇するので、300ページ弱の文庫本をOCRする場合数十ページ単位で実施したら、コア温度が冷めるまで休ませた方が熱暴走するよりいいと思う。
(ちなみにエディタで文字打ちだとコア温度は35℃くらい)
今回スキャンしてノンブルを削除した以外は段組のままの300DPIのtiff画像を一冊分OCRしたところ、"「"が時折全角SPになっていたくらいで、ホント惚れ惚れする認識精度でした。
今後のためにGPUを搭載したPCが欲しくなります。
・ファイルパスは1バイト文字で
システムとは別ドライブ上の画像ファイルを食わせたらエラーになった件、フォルダの名前に日本語を含む多バイト文字が使われているとエラーになるようで、ファイルパスを英数文字だけになるようにしたら、別ドライブ上のファイルでもちゃんと認識しました。
・休み休み冷却しながら
他の方も書いていますが、GPUなしだとマシンへの負担が尋常ではなく、始めると90℃くらいまでコア温度が上昇するので、300ページ弱の文庫本をOCRする場合数十ページ単位で実施したら、コア温度が冷めるまで休ませた方が熱暴走するよりいいと思う。
(ちなみにエディタで文字打ちだとコア温度は35℃くらい)
今回スキャンしてノンブルを削除した以外は段組のままの300DPIのtiff画像を一冊分OCRしたところ、"「"が時折全角SPになっていたくらいで、ホント惚れ惚れする認識精度でした。
今後のためにGPUを搭載したPCが欲しくなります。
2023/09/13(水) 13:36:02.38ID:hhrPEDpp0
>>815
すごく良い!ありがとう。一点、空白ページだと落ちるよう。
すごく良い!ありがとう。一点、空白ページだと落ちるよう。
2023/09/13(水) 14:16:40.21ID:hp6qr6yy0
作者様ありがとうございます
青空文庫形式でふりがなまで処理してくれて間違いもほぼない状態で驚きですが
実質Geforce必須といった感じですね
こちらの環境はryzen7、メモリ32Gbですがグラボは応援のためにRadeon6600xt使っているので
GPU支援が効いてくれず16スレッド全てが95〜100%使用になり
それでも1分に2枚処理できるかどうかですので何冊もOCRするのは現実的ではないです
そろそろグラボは買い換えようと思ってたのでGeforce使っている方、
例えば100枚処理するのにどれぐらい時間がかかって、温度やCPU使用率がどれぐらいになるのか教えていただけないでしょうか?
青空文庫形式でふりがなまで処理してくれて間違いもほぼない状態で驚きですが
実質Geforce必須といった感じですね
こちらの環境はryzen7、メモリ32Gbですがグラボは応援のためにRadeon6600xt使っているので
GPU支援が効いてくれず16スレッド全てが95〜100%使用になり
それでも1分に2枚処理できるかどうかですので何冊もOCRするのは現実的ではないです
そろそろグラボは買い換えようと思ってたのでGeforce使っている方、
例えば100枚処理するのにどれぐらい時間がかかって、温度やCPU使用率がどれぐらいになるのか教えていただけないでしょうか?
824名無しさん@お腹いっぱい。
2023/09/13(水) 16:12:12.68ID:sbqLPpPJ02023/09/13(水) 19:49:37.49ID:hp6qr6yy0
>>824
作者様返信ありがとうございます
RadeonでもGPU支援が効けば嬉しいです
デバックというのはテストで動かして問題や処理速度などを報告するということでしょうか?
それぐらいならできると思いますが、この過疎スレでRADEONのようなマイナーなボードを使ってるのが
10人ぐらいいるならともかく、下手をすると私一人しかいない可能性もあるので
そのためだけにわざわざ手間をかけて作っていただくのは申し訳ない気がします
正直Geforceを買ういい理由が出来たかなと思っているぐらいですので、どうかご無理をなさらないでください
作者様返信ありがとうございます
RadeonでもGPU支援が効けば嬉しいです
デバックというのはテストで動かして問題や処理速度などを報告するということでしょうか?
それぐらいならできると思いますが、この過疎スレでRADEONのようなマイナーなボードを使ってるのが
10人ぐらいいるならともかく、下手をすると私一人しかいない可能性もあるので
そのためだけにわざわざ手間をかけて作っていただくのは申し訳ない気がします
正直Geforceを買ういい理由が出来たかなと思っているぐらいですので、どうかご無理をなさらないでください
2023/09/13(水) 22:43:41.23ID:etcklqyq0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-3
・ロースペックのPCだと取りこぼしもある
昨夜使ってみて色々分かってきたが、複数の連番画像ファイルを食わせたとき、連番の.jsonファイルはできても何故かテキストファイルがところどころ生成されなかった。
やはりGPU非搭載でCPUパワー100%使用を継続されるのはマシンといえど苦しいのだろう。
あとで個別に欠落した番号だけ再度OCRしたが、いっそ.jsonファイル以外作らない設定にして、あとからテキストファイル部分を抜き出す方法もアリなのかも。
(どうやるんだ?)
・段組みのままはやめておけ
上下2段の段組み画像をそのまま食わせると、OKのときもあるが文字の位置によって上下で文字列が混ざったりするので、やはり画像処理で上下を切り離して左右に並べ直してからOCRする方がよかろう。
とにかくマシンパワーが必要で簡単に再OCRとはいかないのだから、OCRにかける前になるべく元データをキレイにしておこう。
・遅延スイッチはアリ?
神に向かっておこがましいのですが、ロースペックPC勢向けにOCR処理を適当に休むように設定できないでしょうか。
たとえば300件のファイルを指定してOCRをスタートして、OCR処理が5件終了したら一旦処理を中断して、60秒とか経過したら次の処理を再開するとか。
ようはインターネット黎明期にあった、寝る前に複数ファイルのダウンロードを指定して実行して、翌朝ダウンロードしたファイルを確認するようなイメージで。
今だと冷却が間に合わず熱暴走が怖くて、ファイルを10件くらいに区切って、処理が終わったらCPU温度が下がるまで待ってから再度次のファイル群を指定するようにしていますが、その間PCを他の用途に使えず、つきっきりになってしまうので。
・ロースペックのPCだと取りこぼしもある
昨夜使ってみて色々分かってきたが、複数の連番画像ファイルを食わせたとき、連番の.jsonファイルはできても何故かテキストファイルがところどころ生成されなかった。
やはりGPU非搭載でCPUパワー100%使用を継続されるのはマシンといえど苦しいのだろう。
あとで個別に欠落した番号だけ再度OCRしたが、いっそ.jsonファイル以外作らない設定にして、あとからテキストファイル部分を抜き出す方法もアリなのかも。
(どうやるんだ?)
・段組みのままはやめておけ
上下2段の段組み画像をそのまま食わせると、OKのときもあるが文字の位置によって上下で文字列が混ざったりするので、やはり画像処理で上下を切り離して左右に並べ直してからOCRする方がよかろう。
とにかくマシンパワーが必要で簡単に再OCRとはいかないのだから、OCRにかける前になるべく元データをキレイにしておこう。
・遅延スイッチはアリ?
神に向かっておこがましいのですが、ロースペックPC勢向けにOCR処理を適当に休むように設定できないでしょうか。
たとえば300件のファイルを指定してOCRをスタートして、OCR処理が5件終了したら一旦処理を中断して、60秒とか経過したら次の処理を再開するとか。
ようはインターネット黎明期にあった、寝る前に複数ファイルのダウンロードを指定して実行して、翌朝ダウンロードしたファイルを確認するようなイメージで。
今だと冷却が間に合わず熱暴走が怖くて、ファイルを10件くらいに区切って、処理が終わったらCPU温度が下がるまで待ってから再度次のファイル群を指定するようにしていますが、その間PCを他の用途に使えず、つきっきりになってしまうので。
827名無しさん@お腹いっぱい。
2023/09/14(木) 05:55:34.38ID:db6WZe/g0 bunkoOCR_20230914.zip 置きました。
多分RadeonとかのGPUが付いていてある程度VRAMがあればそっちを使うようになったはず。
少しは速くなったけど、NVIDIAのTensorRTが爆速なので速度は負けます。
OCRengine.exeに送るときにUTF8にしたので、パスが日本語でも動くと思う。
sleep_wait というパラメータを10とかにすると、10秒待って次行くようにした。
真ん中のプルダウンメニューから選んで、数値をセットしてSetボタンで確定。
RadeonでもIntelでもGPUをDirectMLで使うようになったので、多少は(多分2倍くらい)速くなるはず。
多分RadeonとかのGPUが付いていてある程度VRAMがあればそっちを使うようになったはず。
少しは速くなったけど、NVIDIAのTensorRTが爆速なので速度は負けます。
OCRengine.exeに送るときにUTF8にしたので、パスが日本語でも動くと思う。
sleep_wait というパラメータを10とかにすると、10秒待って次行くようにした。
真ん中のプルダウンメニューから選んで、数値をセットしてSetボタンで確定。
RadeonでもIntelでもGPUをDirectMLで使うようになったので、多少は(多分2倍くらい)速くなるはず。
828名無しさん@お腹いっぱい。
2023/09/14(木) 14:54:47.33ID:JGmM3H7c0 画像ファイルから透明テキスト付きPDFの作成は技術的に可能なのでしょうか?
2023/09/14(木) 20:03:08.12ID:gwhN/a7v0
>>827
早速使わせていただきました
>>823の環境(win10 64bit)で問題なく出力できました
ファイルのパスに日本語名が含まれていると処理を終えてshow resultをクリックしても反応がなかったのですが
英語のみにしたら自動で出力されました
処理速度はほぼ倍で1分10秒で4枚程度まで上がりました
CPU使用率も全コア9割超えだったのがこのバージョンでは各コアバラバラで10〜70%ぐらい
システム全体だとOcrenjine.exeの使用率が35〜45%程度の負荷まで下がり別作業も並行してできるようになりました
本当にありがとうございました
ただ、GPUの使用率はAMD SOFTWAREで見ていてもずっと0%、何度か1%になったぐらいで
今回の処理にRadeonが使われたのかどうかはわからないです
早速使わせていただきました
>>823の環境(win10 64bit)で問題なく出力できました
ファイルのパスに日本語名が含まれていると処理を終えてshow resultをクリックしても反応がなかったのですが
英語のみにしたら自動で出力されました
処理速度はほぼ倍で1分10秒で4枚程度まで上がりました
CPU使用率も全コア9割超えだったのがこのバージョンでは各コアバラバラで10〜70%ぐらい
システム全体だとOcrenjine.exeの使用率が35〜45%程度の負荷まで下がり別作業も並行してできるようになりました
本当にありがとうございました
ただ、GPUの使用率はAMD SOFTWAREで見ていてもずっと0%、何度か1%になったぐらいで
今回の処理にRadeonが使われたのかどうかはわからないです
830名無しさん@お腹いっぱい。
2023/09/14(木) 21:06:54.94ID:7wjpngAx0 0番グラボを使うようになってるので、システムに2枚以上(CPUのオンチップについてたり)するのを
考慮してなかったです。性能のよい方使えるべきですね。
考慮してなかったです。性能のよい方使えるべきですね。
2023/09/15(金) 00:01:51.72ID:VIOkxT+n0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-4
bunkoOCR_20230914を試してみました。
・sleep_waitで熱暴走対策
神と同時代を生きることができた奇跡に感謝。
冷却のため遅延時間を60秒にして連番ファイルを食わせたところ、最大温度が80℃に達した辺りで丁度クールダウンタイムが始まり、50℃台になった辺りで
次のOCR処理が始まるので、これなら300件くらい一度に食わせても大丈夫かと思われる。
当然時間はかかるが、この方がロースペックのマシンにはやさしかろう。
寝る前にセットして、起きたら回収するカンジ?
・日本語を含む多バイト文字のファイルパスでも動いたが……
クールダウンしながらいい感じでOCRしていったように見えたのだが、肝心の.jsonファイルが画像フォルダに見当たらない。
フォルダ名を1バイト文字に戻すと、ちゃんと.jsonファイルができあがっているので、なんか次元の谷間に消えちゃったんですかね?
・.json→.txt変換ツールがついた
今回のバージョンで.jsonファイルからテキスト部分をあとから抽出して.txtファイルにするツールが付きました。
ただ一度に一件のファイルしか選択できないので、CtrlキーやShiftキーを併用して複数ファイルを一括で指定できるとすげえ便利に使えると思います。
bunkoOCR_20230914を試してみました。
・sleep_waitで熱暴走対策
神と同時代を生きることができた奇跡に感謝。
冷却のため遅延時間を60秒にして連番ファイルを食わせたところ、最大温度が80℃に達した辺りで丁度クールダウンタイムが始まり、50℃台になった辺りで
次のOCR処理が始まるので、これなら300件くらい一度に食わせても大丈夫かと思われる。
当然時間はかかるが、この方がロースペックのマシンにはやさしかろう。
寝る前にセットして、起きたら回収するカンジ?
・日本語を含む多バイト文字のファイルパスでも動いたが……
クールダウンしながらいい感じでOCRしていったように見えたのだが、肝心の.jsonファイルが画像フォルダに見当たらない。
フォルダ名を1バイト文字に戻すと、ちゃんと.jsonファイルができあがっているので、なんか次元の谷間に消えちゃったんですかね?
・.json→.txt変換ツールがついた
今回のバージョンで.jsonファイルからテキスト部分をあとから抽出して.txtファイルにするツールが付きました。
ただ一度に一件のファイルしか選択できないので、CtrlキーやShiftキーを併用して複数ファイルを一括で指定できるとすげえ便利に使えると思います。
832名無しさん@お腹いっぱい。
2023/09/15(金) 00:32:04.94ID:SxicWH5N0 >次元の狭間
一カ所直し忘れた予感
>jsonツールが複数選択できない
複数選択フラグたて忘れた
テストしてもらえて助かります。ちゃんとテストしたはずなのに、公開するとバグが見つかる不思議
一カ所直し忘れた予感
>jsonツールが複数選択できない
複数選択フラグたて忘れた
テストしてもらえて助かります。ちゃんとテストしたはずなのに、公開するとバグが見つかる不思議
833名無しさん@お腹いっぱい。
2023/09/15(金) 03:30:01.32ID:SxicWH5N0 bunkoOCR_20230915.zip アップロードしました。
>>832 の内容を直しました。
そのほか、NVIDIA以外のGPUの場合、
一番よさそうなGPUが1.8GB以上のメモリがある場合にDirectMLで動くと思います。
>>832 の内容を直しました。
そのほか、NVIDIA以外のGPUの場合、
一番よさそうなGPUが1.8GB以上のメモリがある場合にDirectMLで動くと思います。
2023/09/15(金) 20:00:00.84ID:rObGG81S0
>>833
連日のアップデートありがとうございます
今回のバージョンでRadeonのGPU支援でのOCRができました
CPU使用率が2割ぐらいになり、代わりにRadeonの使用率が100%になりました
ファンが1000rpmでGPUの温度は80度前後で推移していたので長時間動かしても問題なさそうです
1分に4枚程度の処理速度はGeforceに比べるとすごく遅いんでしょうが、それでも私にとっては大感謝です
連日のアップデートありがとうございます
今回のバージョンでRadeonのGPU支援でのOCRができました
CPU使用率が2割ぐらいになり、代わりにRadeonの使用率が100%になりました
ファンが1000rpmでGPUの温度は80度前後で推移していたので長時間動かしても問題なさそうです
1分に4枚程度の処理速度はGeforceに比べるとすごく遅いんでしょうが、それでも私にとっては大感謝です
835名無しさん@お腹いっぱい。
2023/09/15(金) 23:28:48.12ID:yvCdDh3I0 試してみて感動したので使用報告です。
環境 Core(TM) i5-12600K メモリ32GB(一部RAMディスク) GeForce RTX 3060Ti
Windows11 bunkoOCR_20230915 使用
小説を1冊試してみました。(昔自炊したラノベ)
…うっかり事前にノンブル個所トリミング忘れ。
1.ノンブルが上の右か左の隅だったからか、生成されたtxtファイルの先頭1行目がノンブルだったので、chatgptさんに聞いて、一行目削除しながらtxt結合をパワーシェルで実行。
2.結合したtxtファイルの改行を全部消して、” ”もしくは”「”の前に、改行を挿入(なんかもうちょっとスマートな方法ありそう)
これでほぼほぼいけるtxt完成。半分くらい試読したけど、文字は9割8分がた認識OK。※”|”が”I”になるのと行頭の”「”の認識不良はちょこちょこあったけど読むのに支障はない。
報告
360ファイル一気に追加したら、「bunkoOCR.exe」がフリーズ。
右上の×でタスクの終了したら、「OCRengine」は動きはじめて、150ファイル程度jsonを出力して、消えた。
3回ほど試して同じ症状でした。
※「bunkoOCR.exe」のタスクを終了しないと5分ほど待ってもjsonの出力ははじまりませんでした。
なんとなくですが、ファイルパスを保管する配列の制限な気がします。"R\小説名 第01巻¥001.jpg"を360ファイル一気に追加するとフリーズしましたが、フォルダ名を変えて"R\a¥001.jpg"にすると追加できました。
久しぶりに携帯で自炊した小説読もうとしたら、画面が縦長になったこともあり文字が小さく読みにくく、読取革命の体験版を試して絶望してたところでした。
素晴らしいソフトありがとうございます。
環境 Core(TM) i5-12600K メモリ32GB(一部RAMディスク) GeForce RTX 3060Ti
Windows11 bunkoOCR_20230915 使用
小説を1冊試してみました。(昔自炊したラノベ)
…うっかり事前にノンブル個所トリミング忘れ。
1.ノンブルが上の右か左の隅だったからか、生成されたtxtファイルの先頭1行目がノンブルだったので、chatgptさんに聞いて、一行目削除しながらtxt結合をパワーシェルで実行。
2.結合したtxtファイルの改行を全部消して、” ”もしくは”「”の前に、改行を挿入(なんかもうちょっとスマートな方法ありそう)
これでほぼほぼいけるtxt完成。半分くらい試読したけど、文字は9割8分がた認識OK。※”|”が”I”になるのと行頭の”「”の認識不良はちょこちょこあったけど読むのに支障はない。
報告
360ファイル一気に追加したら、「bunkoOCR.exe」がフリーズ。
右上の×でタスクの終了したら、「OCRengine」は動きはじめて、150ファイル程度jsonを出力して、消えた。
3回ほど試して同じ症状でした。
※「bunkoOCR.exe」のタスクを終了しないと5分ほど待ってもjsonの出力ははじまりませんでした。
なんとなくですが、ファイルパスを保管する配列の制限な気がします。"R\小説名 第01巻¥001.jpg"を360ファイル一気に追加するとフリーズしましたが、フォルダ名を変えて"R\a¥001.jpg"にすると追加できました。
久しぶりに携帯で自炊した小説読もうとしたら、画面が縦長になったこともあり文字が小さく読みにくく、読取革命の体験版を試して絶望してたところでした。
素晴らしいソフトありがとうございます。
836名無しさん@お腹いっぱい。
2023/09/15(金) 23:42:25.98ID:yvCdDh3I0 追記;
正確には、こういう流れで試したので、2バイト文字とかではなく、パス長かなぁと判断した次第です。
1回目:"R\小説名 第01巻¥image-001.jpg"
2回目:"R\aaa¥image-001.jpg"
3回目:"R\a¥001.jpg"
正確には、こういう流れで試したので、2バイト文字とかではなく、パス長かなぁと判断した次第です。
1回目:"R\小説名 第01巻¥image-001.jpg"
2回目:"R\aaa¥image-001.jpg"
3回目:"R\a¥001.jpg"
2023/09/16(土) 00:39:42.67ID:ECc3An080
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-5
bunkoOCR_20230915を試してみました。
・Wineのエラーが出たああああああああ
ついに完全体が使えると思ったところで正直これはくやしいが、もともとWindows用のソフトを勝手にLinuxで動かしているので、直してとは言うまい。
エラーログの一部ですか、意味ありげな矢印があやしい?
---------
00000138 (D) E:\home\XXXX\ダウンロード\bunkoOCR_20230915\bin\OCRengine.exe
0000013c 0 <==
00000144 0
00000148 0
0000014c 0
00000150 0
00000154 0
00000158 0
0000015c 0
-----------
念のため、ver.914を消さないでおいてよかった。
幸い.jsonファイルから.txtに変換するツールの新バージョンは複数ファイルを一括選択できるので、テキスト化ツールをver.915に差し替えてver.914でOCRすることになろうか。
うーむ残念。
bunkoOCR_20230915を試してみました。
・Wineのエラーが出たああああああああ
ついに完全体が使えると思ったところで正直これはくやしいが、もともとWindows用のソフトを勝手にLinuxで動かしているので、直してとは言うまい。
エラーログの一部ですか、意味ありげな矢印があやしい?
---------
00000138 (D) E:\home\XXXX\ダウンロード\bunkoOCR_20230915\bin\OCRengine.exe
0000013c 0 <==
00000144 0
00000148 0
0000014c 0
00000150 0
00000154 0
00000158 0
0000015c 0
-----------
念のため、ver.914を消さないでおいてよかった。
幸い.jsonファイルから.txtに変換するツールの新バージョンは複数ファイルを一括選択できるので、テキスト化ツールをver.915に差し替えてver.914でOCRすることになろうか。
うーむ残念。
838名無しさん@お腹いっぱい。
2023/09/16(土) 02:52:37.88ID:Cnx2YXrY0 GPUの判定のために、DirectXの関数を呼ぶようにしたのがよくないのかしら。
サーバー上には旧バージョンも保持しているので、ファイル名変えて落としてください。
というかLinuxで動くと便利かもしれないとも思った。
サーバー上には旧バージョンも保持しているので、ファイル名変えて落としてください。
というかLinuxで動くと便利かもしれないとも思った。
839名無しさん@お腹いっぱい。
2023/09/16(土) 19:07:38.27ID:Cnx2YXrY0 >>0836
ひょっとして、半濁点とかの正規化の問題なのかも。そういった文字が入ってそうですか?
ひょっとして、半濁点とかの正規化の問題なのかも。そういった文字が入ってそうですか?
2023/09/16(土) 23:02:23.97ID:eNgZ5CS80
すごい精度ですね。文庫をtxtにして適宜加工、voiceoaekで出力して車で聞かせて頂いています。ありがとうございます。
私だけかもですが、起動して初回に、ふりがな無しのテキスト出力だけ選択、他の出力のチェックボックスを外して実行すると、jsonだげ出力されてtxtが出力されないみたいです。複数ファイルの時は二つ目からはtxt出力されてる。
私だけかもですが、起動して初回に、ふりがな無しのテキスト出力だけ選択、他の出力のチェックボックスを外して実行すると、jsonだげ出力されてtxtが出力されないみたいです。複数ファイルの時は二つ目からはtxt出力されてる。
841名無しさん@お腹いっぱい。
2023/09/16(土) 23:35:20.39ID:VKdO3VUp0 >>839
とりあえず。以下でテストしました。
プログラム本体は、以下のパスにて実行"R:\bunkoOCR_20230915\bin\bunkoOCR.exe"
起動した[bunkoOCR.exe]にドラッグ&ドロップでファイルの追加
ファイル名は”007.bmp”~"325.bmp"までの計316ファイルを一回で追加
※今回はトリミングした時に一部表紙や白紙のファイルを除いていますので連番ではありません。
ファイルの位置を以下のフォルダ直下に置いて追加。
・”R:\新しいフォルダー” フリーズ
・”R:\aaaaaaaaaaaaaa” フリーズ
・”R:\aaaaaaa” 追加成功
・”R:\aaaaaaa\aaaaaaa” フリーズ
・”R:\a\a” 追加成功
フリーズの判定は、”タスクマネージャーでCPU・ディスクアクセスの数値が0になり、メモリの数値も変動しなくなって10秒程度経過したこと”としました。
1回だけは、フリーズ状態で5分程度放置しております。
最後に"半濁点"・"2バイト文字"・”ー”の可能性を考慮して、
ファイル名を”新ォダー001.bmp” ~”新ォダー316.bmp”にリネーム
・”R:\aaaaaaa” フリーズ
・”R:\a” 追加成功
なので、ファイル名の半角・全角とかではなく、総パス長なのかなという想像ですが、プログラムは10数年前に大学時代に軽く触った程度なので自身はあまりない
とりあえず。以下でテストしました。
プログラム本体は、以下のパスにて実行"R:\bunkoOCR_20230915\bin\bunkoOCR.exe"
起動した[bunkoOCR.exe]にドラッグ&ドロップでファイルの追加
ファイル名は”007.bmp”~"325.bmp"までの計316ファイルを一回で追加
※今回はトリミングした時に一部表紙や白紙のファイルを除いていますので連番ではありません。
ファイルの位置を以下のフォルダ直下に置いて追加。
・”R:\新しいフォルダー” フリーズ
・”R:\aaaaaaaaaaaaaa” フリーズ
・”R:\aaaaaaa” 追加成功
・”R:\aaaaaaa\aaaaaaa” フリーズ
・”R:\a\a” 追加成功
フリーズの判定は、”タスクマネージャーでCPU・ディスクアクセスの数値が0になり、メモリの数値も変動しなくなって10秒程度経過したこと”としました。
1回だけは、フリーズ状態で5分程度放置しております。
最後に"半濁点"・"2バイト文字"・”ー”の可能性を考慮して、
ファイル名を”新ォダー001.bmp” ~”新ォダー316.bmp”にリネーム
・”R:\aaaaaaa” フリーズ
・”R:\a” 追加成功
なので、ファイル名の半角・全角とかではなく、総パス長なのかなという想像ですが、プログラムは10数年前に大学時代に軽く触った程度なので自身はあまりない
842名無しさん@お腹いっぱい。
2023/09/17(日) 00:27:10.29ID:6FdPC6Jr0 >>0841
検証ありがとうございます。
追加したときに、左側のリストに待ち行列が並ぶはずですが、フリーズしたときは
ここに追加されている状態でしょうか。
追加されていた場合は、bunkoOCR.exeの画面の一番下に出ているログはどんな文字で止まっていますか。
OCRengine.exeとやりとりして処理をさせているのですが、OCRengine側のどこを今処理しているかが
この部分に順次表示されています。
検証ありがとうございます。
追加したときに、左側のリストに待ち行列が並ぶはずですが、フリーズしたときは
ここに追加されている状態でしょうか。
追加されていた場合は、bunkoOCR.exeの画面の一番下に出ているログはどんな文字で止まっていますか。
OCRengine.exeとやりとりして処理をさせているのですが、OCRengine側のどこを今処理しているかが
この部分に順次表示されています。
843名無しさん@お腹いっぱい。
2023/09/17(日) 01:44:43.68ID:hTcgI3oY0 >>842
直前の表示で止まってます。”prosess start”もしくは”ready”など
ドロップインドロップした瞬間に、左側にスクロールバーが表示されますが、ファイル名は1行も追加されません。
あと、”jsonToText.exe”に”R:\小説名 第02巻” の”001.jpg.json”等ファイルを一気に追加は動作しました。が、
"bunkoOCR.exe"に”R:\小説名 第02巻” の”001.jpg”等ファイルを一気に追加はフリーズしました。
直前の表示で止まってます。”prosess start”もしくは”ready”など
ドロップインドロップした瞬間に、左側にスクロールバーが表示されますが、ファイル名は1行も追加されません。
あと、”jsonToText.exe”に”R:\小説名 第02巻” の”001.jpg.json”等ファイルを一気に追加は動作しました。が、
"bunkoOCR.exe"に”R:\小説名 第02巻” の”001.jpg”等ファイルを一気に追加はフリーズしました。
844名無しさん@お腹いっぱい。
2023/09/17(日) 02:08:02.28ID:6FdPC6Jr0 >>0837
Ubuntu 22.04でWineを入れて試して見たところ、CPUモードだとちゃんと動くっぽい
OCRengine.exeの方をコマンドラインで動かして、readyって表示されるところまで行かない感じですか。
多分GPUのロード処理で新しく追加したところが怪しいのですが、いま良いGPUはお仕事中なので
別のLinuxでしか試せなくてよくわからん感じです。GPUが空くまでお待ちください。
>>0841
こちらで検証してみたら、原因がわかりました。
処理すべきファイルのリストを、OCRengine.exeに送って処理してるのですが、
多数のファイルが一気に追加されたときに待ち行列が溢れる状況になり、
(パイプで送っているけども標準入力のバッファがいっぱいになる)
追加が途中で詰まるようです。
バッファサイズは4Kバイトらしいので、ファイル名を短くするとバッファに入りきるため
固まらないようです。
この部分の処理を調整しましたので、あとでアップロードしておきます。
Ubuntu 22.04でWineを入れて試して見たところ、CPUモードだとちゃんと動くっぽい
OCRengine.exeの方をコマンドラインで動かして、readyって表示されるところまで行かない感じですか。
多分GPUのロード処理で新しく追加したところが怪しいのですが、いま良いGPUはお仕事中なので
別のLinuxでしか試せなくてよくわからん感じです。GPUが空くまでお待ちください。
>>0841
こちらで検証してみたら、原因がわかりました。
処理すべきファイルのリストを、OCRengine.exeに送って処理してるのですが、
多数のファイルが一気に追加されたときに待ち行列が溢れる状況になり、
(パイプで送っているけども標準入力のバッファがいっぱいになる)
追加が途中で詰まるようです。
バッファサイズは4Kバイトらしいので、ファイル名を短くするとバッファに入りきるため
固まらないようです。
この部分の処理を調整しましたので、あとでアップロードしておきます。
845名無しさん@お腹いっぱい。
2023/09/17(日) 02:43:37.83ID:6FdPC6Jr0 bunkoOCR_20230917.zip アップロードしました。
一気にファイルを追加したときに固まるのを修正しました。
一気にファイルを追加したときに固まるのを修正しました。
2023/09/17(日) 18:47:17.09ID:Y9TuI/LZ0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-6
bunkoOCR_20230917を試してみました。
・今度は動いた!?
神のubuntu環境では動いたらしいし、これがあるからLinux版を作って欲しいとか安易に言えんのよな、GMバリエーション並に種類だけはあるから……とダメ元でVer.917を試したところ、起動しても『重大な問題が発生したため……云々』という例の文言が出てこない。
え? もしやと思って別ドライブの.tifファイルを複数指定してみると、OCRが始まった!
やった、さすがは神! と思ったら、プロセスはちゃんと仕事してたのに.jsonファイルができていない……。
また次元の谷に落ちたか?
↓さすがにファイルパスが長かったのでしょうか?
E:\media\xxxx\62F8754E43FDBE64\■■■■\●● ●●●●\ノンブル除去済み種\out\1009.tif
まあ動くだけいいかと起動ドライブ側のファイルを指定したら、いつもの文言が出てダメだった。
というか何で最初の1回だけ動作したのだろう?
ウィンドウは起動するが、ステータス欄の『process start』が出た辺りで例のエラーメッセージが出てしまう。再起動してみたがやはり同じ。
ま、まあLinux者としてはVer.914にバッファ問題を解決したjsonToText.exeの併せ技で十分しのげるから、高望みは慎もう。
bunkoOCR_20230917を試してみました。
・今度は動いた!?
神のubuntu環境では動いたらしいし、これがあるからLinux版を作って欲しいとか安易に言えんのよな、GMバリエーション並に種類だけはあるから……とダメ元でVer.917を試したところ、起動しても『重大な問題が発生したため……云々』という例の文言が出てこない。
え? もしやと思って別ドライブの.tifファイルを複数指定してみると、OCRが始まった!
やった、さすがは神! と思ったら、プロセスはちゃんと仕事してたのに.jsonファイルができていない……。
また次元の谷に落ちたか?
↓さすがにファイルパスが長かったのでしょうか?
E:\media\xxxx\62F8754E43FDBE64\■■■■\●● ●●●●\ノンブル除去済み種\out\1009.tif
まあ動くだけいいかと起動ドライブ側のファイルを指定したら、いつもの文言が出てダメだった。
というか何で最初の1回だけ動作したのだろう?
ウィンドウは起動するが、ステータス欄の『process start』が出た辺りで例のエラーメッセージが出てしまう。再起動してみたがやはり同じ。
ま、まあLinux者としてはVer.914にバッファ問題を解決したjsonToText.exeの併せ技で十分しのげるから、高望みは慎もう。
847名無しさん@お腹いっぱい。
2023/09/17(日) 18:49:35.65ID:6FdPC6Jr0 bunkoOCR_20230917b.zip アップロードしました。
>>0837
GPUの判定処理を分離して、失敗した場合CPUフォールバックするようにしました。
多分sshでX転送してると思うのですが、ディスプレイが存在しない場合WineでD3Dの
関数が失敗します。この場合は、どっちみちDirectXだと速度が出ないのでCPUに落としています。
>>0837
GPUの判定処理を分離して、失敗した場合CPUフォールバックするようにしました。
多分sshでX転送してると思うのですが、ディスプレイが存在しない場合WineでD3Dの
関数が失敗します。この場合は、どっちみちDirectXだと速度が出ないのでCPUに落としています。
848名無しさん@お腹いっぱい。
2023/09/17(日) 18:53:34.19ID:6FdPC6Jr0 >>0846
すみませんjsonファイル作るときに20230917だと上書きのミスがあるかもです。
元ファイル確認してください。末端のヌル文字を抜き忘れてjsonが足せてないファイルに書いた可能性が。
すみませんjsonファイル作るときに20230917だと上書きのミスがあるかもです。
元ファイル確認してください。末端のヌル文字を抜き忘れてjsonが足せてないファイルに書いた可能性が。
2023/09/17(日) 21:56:52.74ID:Y9TuI/LZ0
850名無しさん@お腹いっぱい。
2023/09/17(日) 22:52:44.22ID:6FdPC6Jr0 >>0849
エラー出るけども、別のexeに分けたので無視して続けるとそのまま処理できませんか?
jsonToText.exeでCtrl+Aが効かないのは、wineの方が悪い感じがします。Windows11だと効くので。
なんかフラグ足したらましになるとかありますかね(クラシックモードなら効くとか)
エラー出るけども、別のexeに分けたので無視して続けるとそのまま処理できませんか?
jsonToText.exeでCtrl+Aが効かないのは、wineの方が悪い感じがします。Windows11だと効くので。
なんかフラグ足したらましになるとかありますかね(クラシックモードなら効くとか)
2023/09/18(月) 00:44:25.25ID:kMx4hZfp0
>>850
エラーが出てもあまりにも堂々とウィンドウが出ているので、ファイルを選択して食わせるまではできるのですが、ステータスに"Host version: 5.10.0-25-amd64"と出て、そこから先がいくら待っても進まないですね。残念ながら。
jsonToText.exeでCtrl+A不可の件、大変失礼しました。
連日のように付き合っていただいているというのに。
Wineのモード? もwindwos7相当からWindows10相当にしてもダメでした。
それにしても、何であの一回だけ動いたんだろう……。
エラーが出てもあまりにも堂々とウィンドウが出ているので、ファイルを選択して食わせるまではできるのですが、ステータスに"Host version: 5.10.0-25-amd64"と出て、そこから先がいくら待っても進まないですね。残念ながら。
jsonToText.exeでCtrl+A不可の件、大変失礼しました。
連日のように付き合っていただいているというのに。
Wineのモード? もwindwos7相当からWindows10相当にしてもダメでした。
それにしても、何であの一回だけ動いたんだろう……。
852名無しさん@お腹いっぱい。
2023/09/18(月) 08:36:49.25ID:0SjZIDuo0 >>851
Ver.917bのOCRengine.exeだけを、直接wineで実行したらどこで止まりますか。
wine OCRengine.exe
wine OCRengine.exe 0
で、エラーは変わりそうですか。
上はCPUモード、下はDirectMLモードになるようにしています。
試してて気付いたのですが、winehq-devel まで上げるとエラーウインドウ出ないような気がします。
Ver.917bのOCRengine.exeだけを、直接wineで実行したらどこで止まりますか。
wine OCRengine.exe
wine OCRengine.exe 0
で、エラーは変わりそうですか。
上はCPUモード、下はDirectMLモードになるようにしています。
試してて気付いたのですが、winehq-devel まで上げるとエラーウインドウ出ないような気がします。
853名無しさん@お腹いっぱい。
2023/09/18(月) 09:58:23.02ID:0SjZIDuo0 bunkoOCR_20230918.zip
パラメータが保存されているparam.configをテキストエディタで開き、
use_GPU:0に書き換えるとDirectMLを使用しないように強制できます。
wine OCRengine.exe
で落ちないようなら、use_GPU:0にしてもらうと処理できるようになると思います。
パラメータが保存されているparam.configをテキストエディタで開き、
use_GPU:0に書き換えるとDirectMLを使用しないように強制できます。
wine OCRengine.exe
で落ちないようなら、use_GPU:0にしてもらうと処理できるようになると思います。
2023/09/18(月) 11:05:06.87ID:kMx4hZfp0
早朝からすいません。
CPUモードなら正常、ということでしょうか。
wine OCRengine.exe の場合
--------
MESA-INTEL: warning: Performance support disabled, consider sysctl dev.i915.perf_stream_paranoid=0
(略)
OpenVINO
OpenVINO
OpenVINO
ready
--------
23行目のredyまで実行。エラーウィンドウは出ない。
wine OCRengine.exe 0 の場合
--------
MESA-INTEL: warning: Performance support disabled, consider sysctl dev.i915.perf_stream_paranoid=0
(略)
00c8:fixme:ntdll:NtQuerySystemInformation info_class SYSTEM_PERFORMANCE_INFORMATION
wine: Unhandled exception 0xc06d007e in thread c8 at address 000000007B037FC8 (thread 00c8), starting debugger...
013c:fixme:imm:ImeSetActiveContext (0x154e00, 1): stub
013c:fixme:imm:ImmReleaseContext (0000000000010064, 0000000000154E00): stub
006c:fixme:imm:ImeSetActiveContext (0x15dba0, 0): stub
006c:fixme:imm:ImmReleaseContext (0000000000010020, 000000000015DBA0): stub
--------
19行目までは同じ。25行目が出てエラーウィンドウが出る。
今Ver.918をダウンロードしてますので、追試結果はもう少々お待ちください。
CPUモードなら正常、ということでしょうか。
wine OCRengine.exe の場合
--------
MESA-INTEL: warning: Performance support disabled, consider sysctl dev.i915.perf_stream_paranoid=0
(略)
OpenVINO
OpenVINO
OpenVINO
ready
--------
23行目のredyまで実行。エラーウィンドウは出ない。
wine OCRengine.exe 0 の場合
--------
MESA-INTEL: warning: Performance support disabled, consider sysctl dev.i915.perf_stream_paranoid=0
(略)
00c8:fixme:ntdll:NtQuerySystemInformation info_class SYSTEM_PERFORMANCE_INFORMATION
wine: Unhandled exception 0xc06d007e in thread c8 at address 000000007B037FC8 (thread 00c8), starting debugger...
013c:fixme:imm:ImeSetActiveContext (0x154e00, 1): stub
013c:fixme:imm:ImmReleaseContext (0000000000010064, 0000000000154E00): stub
006c:fixme:imm:ImeSetActiveContext (0x15dba0, 0): stub
006c:fixme:imm:ImmReleaseContext (0000000000010020, 000000000015DBA0): stub
--------
19行目までは同じ。25行目が出てエラーウィンドウが出る。
今Ver.918をダウンロードしてますので、追試結果はもう少々お待ちください。
855名無しさん@お腹いっぱい。
2023/09/18(月) 11:22:23.69ID:0SjZIDuo0 こっちで考えた状態であってたようです。DirectMLでロードしようとすると落ちちゃうようですので、
Ver.918でuse_GPU:0に書き換えて実行すると、とりあえずは動くようになりそうです。
Ver.918でuse_GPU:0に書き換えて実行すると、とりあえずは動くようになりそうです。
2023/09/18(月) 11:49:45.66ID:kMx4hZfp0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-7
bunkoOCR_20230918を試してみました。
・私にとっての戦争は終わりました
素で起動するとやはりエラーになったが、神の指示に従いparam.configの"use_GPU:1"を"use_GPU:0"に書き換えて保存/実行したところ、エラーウィンドウは現れず、ドライブをまたいだ別ドライブ中の日本語フォルダの.tif画像を複数指定でき、画像と同じファルダ内に.jsonファイルができあがりました!!
ここまで対応していただいた神に感謝します。
bunkoOCR_20230918を試してみました。
・私にとっての戦争は終わりました
素で起動するとやはりエラーになったが、神の指示に従いparam.configの"use_GPU:1"を"use_GPU:0"に書き換えて保存/実行したところ、エラーウィンドウは現れず、ドライブをまたいだ別ドライブ中の日本語フォルダの.tif画像を複数指定でき、画像と同じファルダ内に.jsonファイルができあがりました!!
ここまで対応していただいた神に感謝します。
857名無しさん@お腹いっぱい。
2023/09/18(月) 12:29:17.11ID:0SjZIDuo0 linuxでGPUの方がよければ、CUI版にしてfind inputdir -name '*.png' | OCRengine -
とかできるようにもできるけど、需要あるのかしら。
Linuxの民なら、オリジナルのpython版で実行しそうな気もする。
とかできるようにもできるけど、需要あるのかしら。
Linuxの民なら、オリジナルのpython版で実行しそうな気もする。
2023/09/21(木) 18:58:09.85ID:IZK9wj/L0
AozoraEpub3の説明
青空文庫をEPUBやMOBIファイルなどに変換して、kobo、kindle,などのEPUBリーダーなどで読むことができるソフトウェアです。作成したEPUBは電子書籍販売サイトで販売できるので、電子出版ツールとしても使うことができます。
https://github.com/kyukyunyorituryo/AozoraEpub3/wiki
青空文庫をEPUBやMOBIファイルなどに変換して、kobo、kindle,などのEPUBリーダーなどで読むことができるソフトウェアです。作成したEPUBは電子書籍販売サイトで販売できるので、電子出版ツールとしても使うことができます。
https://github.com/kyukyunyorituryo/AozoraEpub3/wiki
2023/09/21(木) 23:06:22.12ID:LsrnBNJV0
むしろepubを青空文庫形式に変換してくれるツールが欲しい。
縦書きルビ入りとかきれいに表示してくれるソフトがあんまないから。
縦書きルビ入りとかきれいに表示してくれるソフトがあんまないから。
2023/09/22(金) 06:50:57.37ID:dJI/QveM0
2023/10/02(月) 15:23:29.76ID:dw1v1evD0
bunkoOCRに読み込ませる画像ファイルは、縦横256ピクセルの倍数のサイズが効率よいのかな
2023/10/02(月) 15:23:46.66ID:dw1v1evD0
bunkoOCRに読み込ませる画像ファイルは、縦横256ピクセルの倍数のサイズが効率よいのかな
863名無しさん@お腹いっぱい。
2023/10/03(火) 06:17:08.75ID:8+ujl4QD0 512 x 512に区切って処理してて、256でウインドウをスライドさせているので256の倍数だと
最後のブロックに余りが出ないですね。
最後のブロックに余りが出ないですね。
2023/10/04(水) 20:44:44.74ID:vRUF6acm0
>>860
ベクターあたりでの公開希望
ベクターあたりでの公開希望
2023/10/09(月) 23:35:14.38ID:WG0A8Uhb0
iOS17から縦書き日本語が読み取れるようになった
APIなりSDKあれば縦書き日本語OCRでは最強かもしれん知らんけど
ペラ紙書類の縦書きはもうiPhoneで完結だわ
APIなりSDKあれば縦書き日本語OCRでは最強かもしれん知らんけど
ペラ紙書類の縦書きはもうiPhoneで完結だわ
866名無しさん@お腹いっぱい。
2023/10/19(木) 07:36:34.92ID:zGVZ5rc10 >>0860
私もEPUBから青空文庫形式への変換を試みています
がEPUBの仕様の自由度が高くて難航しています。
出来れば公開してほしいです
お願いいたします。
私もEPUBから青空文庫形式への変換を試みています
がEPUBの仕様の自由度が高くて難航しています。
出来れば公開してほしいです
お願いいたします。
2023/10/19(木) 09:00:07.52ID:9iReVXET0
公開するとメンテナンスしなきゃならないし、バグ対象はともかくおま環にまで対応しなきゃならないしエラー処理も細かく作らなきゃならないからヤダ。
2023/10/19(木) 09:27:27.40ID:bNKbLe6D0
epub, mobi →青空文庫の変換は対応タグに違いがいろいろあって、青空文庫では調整できないのも多いし、一部は標準化されてなくてビュアーごとの独自拡張だったりする。
結局、書籍の特徴や自分の好みや使ってるツールに合わせて決め打ちで変換することになる。汎用のツールを作るのは無理。
結局、書籍の特徴や自分の好みや使ってるツールに合わせて決め打ちで変換することになる。汎用のツールを作るのは無理。
2023/10/30(月) 01:26:39.09ID:zJhf5BLT0
870名無しさん@お腹いっぱい。
2023/10/31(火) 01:41:42.92ID:dvkv99P10 pdfに画像透明テキスト埋め込みするのって最適のライブラリって何かあるですか?
縦書きに対応は必須で、ふりがなに対応できるとうれしい。
それとも、コピペするとき不便だから、ふりがなは除去して埋め込むのが普通ですかね
縦書きに対応は必須で、ふりがなに対応できるとうれしい。
それとも、コピペするとき不便だから、ふりがなは除去して埋め込むのが普通ですかね
871名無しさん@お腹いっぱい。
2023/11/05(日) 14:23:45.25ID:0L6HLOnn0 PC画面の文字を認識して即翻訳できるソフトってありますか?できれば\0〜1000以内で、
無料のCapture2Text試しましたが使い物にならなくて
無料のCapture2Text試しましたが使い物にならなくて
872名無しさん@お腹いっぱい。
2023/11/05(日) 14:24:06.46ID:0L6HLOnn0 PC画面の文字を認識して即翻訳できるソフトってありますか?できれば\0〜1000以内で、
無料のCapture2Text試しましたが使い物にならなくて
無料のCapture2Text試しましたが使い物にならなくて
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国外務省「正式な発言撤回なければ受け入れず」 高市首相は台湾有事「存立危機事態」言及せずも「言及しないことと撤回は別問題」 [ぐれ★]
- 【テレビ】玉川徹「これ天災じゃなくて人災でしょ。責任どうするんだ」 日本のホテル、中国人観光客からのキャンセルが相次ぐ [冬月記者★]
- 【文春】元TOKIO・国分太一(51)「女性スタッフ2名への“わいせつ事案”」日テレ事情聴取の全貌が分かった! ★10 [Ailuropoda melanoleuca★]
- 高市総理の「そんなことよりも」発言を釈明 木原官房長官「急いで話題転換する趣旨」 [ぐれ★]
- プーチン大統領「ウクライナ軍が撤退すれば戦闘は終わる」と主張 [どどん★]
- 【中国国防省】日本は戦争犯罪を悔い改め、憲法改正と軍備増強という危険な試みをただちに改めよと発信… [BFU★]
- セックスはいいから隣で抱きつきながら一緒に寝たい
- 【高市悲報】中国、世界中に是非を問うwwwwwwwwwwwwwwwwwww [308389511]
- すまん、俺の勝ちで良いか?
- 嘘の何がいけないかって嘘をついて得た利益があるからでしょ
- 中国政府、非常にしつこい。本日も改めて「高市が正式に答弁を撤回するまで決して受け入れない」と表明。 [271912485]
- 酔っぱらいキャバ嬢だけど質問ある?
