【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
2016/08/09(火) 21:24:11.61ID:zXdCMkkb0
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
2023/02/01(水) 16:01:13.29ID:yZHXAyIo0
>>285
今更かよ女人禁制なんてのはリベラル固有の話ではなく
2023/02/01(水) 16:01:16.79ID:3iCdZlbF0
>>149
てか俺もそこそこゴブリンジャップ女だから甘やかされて育ってきた差別主義者じゃん
2023/02/01(水) 16:01:23.10ID:wtvMeXX10
>>410
捉えられる状況でもなければ政治を変えるつもりもないんちゃう
2023/02/01(水) 16:01:25.90ID:O64h9oEI0
>>78
とりあえずここの自民工作員の多さやべーなその集団はw
2023/02/01(水) 16:01:39.60ID:uzgr2QNF0
>>10
努力したのかな?
2023/02/01(水) 16:02:02.67ID:yfILUwbZ0
>>124
俺が名前聞いた事ないくらいだから有名でもないんだろ…検査と隔離しかねぇわ
2023/02/01(水) 16:02:04.64ID:bmjFR3wk0
>>404
良い子ばかりいる空間に一人だけ真っ赤になってしまっている
2023/02/01(水) 16:02:35.50ID:7j84zE660
>>392
高齢化してるのかと思ってたけど
2023/02/01(水) 16:03:19.97ID:piYvJTNu0
>>49
公文書偽造はどうなったんだろ
2023/02/01(水) 16:03:32.16ID:Ne7Lq+RA0
>>41
唯一海外というか後輩みたいなもんでしょYouTube個人でやって生きていってんだよ
2023/02/01(水) 16:03:43.39ID:2MuJtZ8S0
>>180
やっぱり交差接種の方が絶対まともや
2023/02/01(水) 16:03:56.25ID:Gx3ev6K60
>>45
でも30〜50代ってことか
2023/02/01(水) 16:04:02.21ID:q8fYzca/0
>>307
これ何で無かった事にしてるのが
2023/02/01(水) 16:04:35.46ID:JBhtcBND0
>>351
ちびチー牛が社外でもエライと勘違いして調子に乗ったマンコがボコボコにされるネタ作りまくったのが潰れて前までのマニュアル使い回ししかできなくなっちゃったよ
2023/02/03(金) 12:28:26.88ID:QS9ylJCv0
工エエェ工エエェ(゚;益;゚(゚;益;゚)゚;益;゚)ェエエ工ェエエ工
2023/02/05(日) 11:30:31.75ID:hZxF6hQl0
>>42
おーすげー!
耳読書するようになったら、自炊本のpdf読み上げさせたら読み上げる順番がぐちゃぐちゃなことがわかって、縦書き日本語文章のOCRの限界を知ったとこなので、こんなにうまく抽出できるならやり方知りたい。
739名無しさん@お腹いっぱい。
垢版 |
2023/02/06(月) 22:36:37.31ID:6SFrwZrD0
>>738
42氏とは別者だが
win機ホストでvirtualbox越しlinuxゲスト環境での
tesseract使用の話でよければやり方説明できんでもない
メモリ8MB以上ある?
2023/02/07(火) 00:14:18.21ID:+RHuKHOQ0
>42書いたの自分だけど別に無理にlinuxでやる必要ないよ
当時 tesseractエンジン使ってるVietOCRが本家より妙に精度が良くて
Viet通さず本家だけで再現できないかと試行錯誤してただけ
linuxにこだわってたのは単に>39の人がwin環境じゃなかったからでwin版バイナリもある

このときのまとめは>47
当時βテスト中だったtesseract 4.0.0と tessdata_fastの言語データを使うことだった
今はアプデされてるのでもっと楽にセットアップできるのかも知れない

精度について補足すると結構フォントやレイアウト依存というか
ばっちり拾える時もあれば全くあかんときもありました、過信は禁物
2023/02/07(火) 12:57:45.69ID:c8xILm5g0
>>740
ありがとう
既にまとめてくれてたのに見逃してた
2023/02/07(火) 22:17:53.37ID:A6YngpKC0
このスレにも荒らしが湧いて、もうココもダメかなと
思ってしまったが、まだ出入りする同志がいてしかも
過去のネタも参照されてたのかと思うと、ちょっと感涙。

当時お世話になりました>>42
そんな私は>>39
2023/02/13(月) 18:28:43.48ID:0/m2nEld0
NDL試した。意外なことにDocuworksより少し良いくらいだった。
ポンコツのeTypistと同じエンジンだから、ゼロックスは最適化が上手ということなのかなあ?
744743
垢版 |
2023/02/13(月) 18:31:49.99ID:0/m2nEld0
追記
いまみたら、ページ番号にOCR処理をしていない。
これがデフォルトなら画像のトリミング処理を省略できますねえ。
ルビを処理しないという選択できるから、文庫のOCRがはかどるねえ。
2023/02/13(月) 19:08:27.43ID:2WnAMHgF0
>>744
ページ番号を OCR 修理をしないくらいなら読取革命でも柱を外した長方形を領域のテンプレートとして設定するだけで対応可能なのでndlのメリットはあまり感じないです

図表が本文と混在していて本文の領域が長方形で設定できない場合でも対応できるというメリットはありますか

クレクレで申し訳ないですが経験者のご意見をお伺いしたいです
746743
垢版 |
2023/02/13(月) 19:16:30.68ID:0/m2nEld0
>>745
一手間省けるだけでも相当楽になると思います。

いま別の画像にOCRかけたら、NDLの完敗だった。
Docuworksは意外に性能が良くて驚いた。

NDLが優れている方が嬉しいので複雑だなあ。
この画像をGoogel Documentで開いてみます。
747743
垢版 |
2023/02/13(月) 19:21:52.22ID:0/m2nEld0
Google Drive上のpdfをGoogle Documentから開いた。
今回もDocuworksの勝ち。
docuworksは7.3でサポートが終わった古いバージョン。
新しいバージョンだともっと優秀なのかなあ?

驚きの大がっかりな結果でした。
Docuworksより誤認識が少ないことを期待したのに、期待外れもいいところでした。
748743
垢版 |
2023/02/13(月) 19:26:56.37ID:0/m2nEld0
冷静に考えれば、たった2枚の画像の比較だったので、一般化はしてはいけないと思う。
文庫本はNDLの勝ち。しかし2カ所!マークを1と誤認識しなかっただけの優位性だから大差ない。
イラスト入りで変則的な段組の専門書はDocuworksの圧勝だった。

文庫ならNDLの方がトリム不要で認識率が少し良い。音声化するときはこの少しの差が大きな作業量の差になるから使う価値はあると思う。
749743
垢版 |
2023/02/13(月) 19:33:22.63ID:0/m2nEld0
ルビを無視出来るというのも海外小説をOCRするときには結構大事だと思う。
2023/02/13(月) 21:23:05.17ID:2WnAMHgF0
>>746
私の質問の書き方が悪かったです

図表が本文と同一ページにあって本文の領域が長方形でない場合でも正しくレイアウトを認識しますか?
が正しい質問です。いかがでしょうか?
751743
垢版 |
2023/02/13(月) 21:26:28.86ID:0/m2nEld0
>>750
DocuworksはOCR専門ソフトではないし、操作も簡単な割にはいい結果がでますよ。
今回NDLはデフォルト設定だと段組がメチャクチャでした。設定を変えたらOKでしたが、認識結果は今一つでした。
たしか、GoogleもPDFのレイアウト解析は今一つだったように覚えています。
2023/02/13(月) 21:28:46.74ID:2WnAMHgF0
>>751
貴重な情報ありがとうございました
DocuWorks はこれまでは全く使う機会のないソフトでしたが今後検討対象のひとつに加えます
753743
垢版 |
2023/02/13(月) 21:39:59.34ID:0/m2nEld0
体験版が2か月くらい使えたと思いますよ。

私のはサポートが切れた古いバージョンなので、最新版とは違うかも知れませんのでご注意下さい。
バージョンアップを改悪という人が多い印象なので、注意が必要ですよ。
2023/02/13(月) 22:03:50.31ID:2WnAMHgF0
>>753
ありがとうございました
755名無しさん@お腹いっぱい。
垢版 |
2023/02/25(土) 15:57:52.74ID:IDt605Yp0
LINEレシートのOCRすごい。
でも、レシート分けて買い物したものが「登録済み」とか言われて入力できなかった。
同じ日に同じ店はだめなのかと思ったけど、もう一度買い物して分は登録してくれた。
間違いなく登録してくれてCSV出力があったら完璧なのになー。
2023/02/25(土) 23:34:01.07ID:wVfTnntF0
>>511
自分も14を使ってて同じ悩みをもってサポートに問い合わせたらできないことが分かった
16にアップデートするとフォントサイズに自動調整や透明スペースの挿入で可能な限り原文の1行の長さに合わせてくれる
今はそれで解決してる
14持ってたら16へのアップグレード料金で割安になったよ
2023/03/17(金) 13:03:37.44ID:B7neqiNG0
Pict2ePub
縦横→epub, txt
googleのAPI使うやつだけど、設定でルビとかページ番号認識しないようにできる(完璧ではない)。
透明テキストPDFが作れる訳ではないけど市販のより高精度で気に入ってる。
文中に画像とか画像ファイル名が入らないようにしてほしい。
https://www.vector.co.jp/soft/winnt/writing/se523818.html
2023/03/25(土) 18:57:24.94ID:CPI/O6cm0
>>439を参考に透明テキスト付きPDFが作れて、Adobe Acrobatではテキスト検索やハイライトができたけど、KindleにPDFとしてインポートするとテキスト検索やハイライトができません。

この方法で作った透明テキスト付きPDFをKindleに認識させる事はできないのでしょうか?

PDF24って無料アプリのOCR作成ならKindleに取り込んで認識できたんですが精度が良くなくて…両者はOCRの仕組みが違うという事なんですかね?

Google Cloud VisionのOCRは精度が良くて無料分で自炊できるので気に入っているのですが、有料のOCRソフトを買えばKindleでも認識できるのでしょうか。
2023/04/10(月) 14:58:29.78ID:TQn0sL2h0
質問です。わかる方いれば。
現在、ScanSnapでOCRかけてるんですが、日本語縦書き本の読み上げ順序がぐちゃぐちゃになります(右から左にスムーズに流れず、飛んだり戻ったりする)
読み上げ順序がスムースに右から左になるソフトや方法はありますか?
AcrobatProに課金すると読み上げ順序を指定し直せるみたいなんですが、修正箇所が多すぎて気が遠くなるので…
760名無しさん@お腹いっぱい。
垢版 |
2023/04/15(土) 20:35:34.10ID:DHhVcVyw0
>>759
もしかして字下げしたところが後回しになるとか?
だとすると段落が別になってて後回しになってるかも。
2023/04/16(日) 08:14:25.54ID:FrWBIkKs0
Google Cloud Vision、横書きはほぼ完璧なのに
縦書きは残念な感じですね。縦書き需要ないのかな。
2023/04/16(日) 09:40:31.89ID:UzkJv9/+0
>>761

> Google Cloud Vision、縦書きは残念な感じ

縦書き 駄目ですか?縦書き こそ いろんなソフトが今ひとつなんで Google クラウドビジョンを勉強して縦書き用に使おうかと思ってたんですけど、性能が低いなら残念です
763名無しさん@お腹いっぱい。
垢版 |
2023/04/16(日) 22:16:58.25ID:RsHBMoos0
レシート読み取り、LINEレシートはめっちゃいいのにレシーピは全然だめだなー
て思ってたけど、ちょっと解像度見て見たら
レシーピ入れてる 楽天mini は1600万画素しかなくて
LINEレシート入れてる iPhone 5s は 800万画素あった。
・・・ん?手振れ補正の有無かな・・・

楽天Hand 5Gが約6,400万画素でこれが1円だからこれ買うことにする。
手振れ補正ないのが不安だ。
2023/04/27(木) 13:13:47.12ID:ckzKQ9d10
透明テキスト付き縦書きPDF作成はvFlatアプリが一番優秀
スキャン機能もかなり良く出来てる
課金で無制限で使えたら良いのに、最近更に改悪された
2023/04/27(木) 23:37:35.71ID:L8E1UE+i0
>>764
PC 用の V flatを探しましたけど媒介アプリみたいなのを使う みたいで気味が悪いですね。スマホ用 みたいなのでネイティブではPC 用としては使えないようです。残念
2023/04/29(土) 14:06:13.63ID:1bL6k1jH0
>>757
教えてもらったPict2ePubを使ってみた。かなりいいんだけど、エラーが出て止まっちゃったりして動作のクセ? がよくわからない。
サポートはナシとのことなのでここで聞いてみるんだけど、

▼▼ 処理中にエラーが発生しました ▼▼▼
別のプロセスで使用されているため、プロセスはファイル 'container.xml' にアクセスできません。

みたいなエラー出る?
関連しそうなファイルやフォルダを全部閉じてるんだけどエラー出るんだよね。
767763
垢版 |
2023/05/03(水) 02:34:24.28ID:t2VZlVg+0
rakuten Hand 5G で撮影したらめっちゃ読み取れる。
カメラにシールつけたまんまなのに。

ただ、試しにズームで写真撮ったら
肘をしっかり固定したのと普通に持って撮影したのじゃ全く違うから
手振れ対策重要だなと思った。
2023/05/05(金) 15:14:17.82ID:CddQ1lIU0
読取革命16でスキャン入力したら、数十ページで異常終了してしまう。
メモリ32GBで、スペック的な問題ではないと思うけど、よくわからん。
769名無しさん@お腹いっぱい。
垢版 |
2023/05/07(日) 17:15:49.03ID:Kn5oFJWX0
横書き日本語文字メインの専門書のpdfをOCR化したい場合、どのソフトが良いですかね
読取革命か、あるいはフリーで何かないかなと探しています
2023/05/11(木) 01:10:47.21ID:9xPVTWRk0
>>769
Google Cloud Vision APIが横書きの精度が高くてお勧めですよ
クレジットカードの登録はいりますが、90日使える300ドルのクレジットもらえるし、それ過ぎても毎月1000ユニットまでは無料です

実行プログラムは>>439のやつ使うといいです
2023/05/11(木) 01:16:50.39ID:9xPVTWRk0
>>770
あ、この実行プログラムで使うにはpdf をjpgにする必要があるのでそこは手間かも
2023/05/11(木) 10:53:00.72ID:LL2tOwcG0
>>770

縦書きの精度はいかがでしょうか?
分かれば教えてください
2023/05/11(木) 11:33:22.61ID:9xPVTWRk0
>>772
縦書きは少ししかOCRしてませんが精度は良いと思います。
1ページ当たり500文字ほどの本を処理し、単語検索しましたが抜けはありませんでした。

ただ、ドラッグしてハイライトを付けると文章内で飛んでる所がでます
(ハイライトが飛ぶだけでテキストのコピーは飛ばずにちゃんとできます)
i.imgur.com/kbM3N3G.png
2023/05/11(木) 13:33:09.87ID:BXO1YqG10
写真を見る限り透明文字の位置やサイズの問題のきがします。

Google Cloud Vision APIでは透明もじの張り込みはできないとおもっていたのですができるのですね
2023/05/11(木) 19:33:34.69ID:8ESIxcV30
>439の奴は透明テキスト付pdfにするためのライブラリが縦書きに対応していない
GCV自体は縦書きに対応してるのでテキスト抜き出すだけなら問題ないけど
776sage
垢版 |
2023/05/12(金) 08:52:20.43ID:TaRhIR6z0
ブルーレイ映画をパソコンで再生しながら、画面下に表示される字幕を
映画の最初から最後まで連絡して文字認識するソフトを探しています。
そのような機能を持つソフトはありますか?
2023/05/12(金) 14:46:35.89ID:TbN5DIDu0
>>775
でも773の画像は縦書きに透明文字が乗ってるよね。

>>773さん、

GCVで透明文字が乗ったのPDF は作れるのですか?
2023/05/12(金) 14:57:09.96ID:wckX7tc+0
>>777
773ですがGCVで透明テキスト付きPDF作れてますよ
横書きなら文字検索&ハイライトの問題なし、縦書きはハイライト飛ぶけど検索はほぼ問題なし
2023/05/12(金) 16:42:30.72ID:TbN5DIDu0
>>778
ありがとうございます。
Google クラウドビジョン チャレンジしてみます
2023/05/12(金) 16:58:09.11ID:wckX7tc+0
>>779
いえいえ~

Google CloudのAPIキーを発行する手順を載せておきますので参考までにどうぞ
zenn.dev/tmitsuoka0423/articles/get-gcp-api-key
2023/05/12(金) 19:33:59.40ID:pxPA5Q3q0
>>777
「縦の文字列」ではなく一文字ずつ位置指定して透明テキストを画像に重ねてるんよ
(おそらく横書判定で一文字ごとに改行って処理になってる)
なのでドラッグで範囲選択すると位置ズレで拾えない文字が出てくる
>773の選択範囲は点線上だけど正規の縦書きPDFなら赤の選択範囲が途切れず縦一直線に繋がるはず

このあたりは>439の作者さん自身が>56-57で説明してる
hocr-toolsの作者にもissueで質問してたみたいだけど
相手外人なので縦書き需要が理解されず未解決のまま
2023/05/12(金) 21:18:10.00ID:wckX7tc+0
>>781
なるほど、それで縦書きのときのハイライトが途切れてるんですね

自分のPDFではドラッグしたときは行の最後から選択するように操作したり、前後の行を含めるように操作すると選択コピーでけっこう拾えてます、行の最初の文字が抜けたりしますが。
Wordに貼り付けても間に改行が入ったりはないです。
また、単語や文章の検索なら問題ない感じです

このへんはPDFの文字数やサイズにもよりそうですね
2023/05/14(日) 00:30:58.96ID:lh+zcWUZ0
>>780
リンク先の”認証情報を開く”まで進んだのですが,そのあとのAPIキーを発行するという画面がでません.

認証情報の作成画面の上からの項目は
?認証情報の種類
②スコープ(省略可)
③OAうthクライアントID
④認証情報

完了

です.そうすればいいでしょうかm(_ _)m
2023/05/14(日) 09:42:31.54ID:SJFcYGZt0
>>783
Cloud Vision APIを有効にすれば、APIキー発行のメニューが出ると思うんですが、
APIとサービスの有効化→検索にCloud Vision APIと入力→Cloud Vision APIを選んで「有効にする」はクリックしてますかね?
2023/05/14(日) 10:40:20.87ID:lh+zcWUZ0
>>783
>>780

自己レスです.
できました.
お騒がせしましたm(_ _)m
2023/05/14(日) 14:18:04.24ID:lh+zcWUZ0
>>780
>>781

試しに439で本の一部65ページくらいを認識させました.
他のそふとよりも正確に認識したので,全部400頁を対象にすると認識処理のあとメッセージ"enerating pdf”がでたまま終わりません.
タスクマネージャーではmakingopdfのリソース消費が0で作業を中断しているようなので諦めて,2回めをやり直しました.しかし状況は同じで終わりません.
ページ数が多くなると失敗するというバグなんかあるんでしょうか.
2023/05/15(月) 11:02:52.19ID:8XRnYinl0
>>786
456ページあるPDFをjpgにしmakepdfGUIで透明テキスト付きPDFにしてみましたが、自分の環境下ではエラー無く終わりました

READMEにある画像データサイズやピクセル数の制限に引っかかっている可能性はないでしょうか?
2023/05/15(月) 14:37:28.13ID:bE7ubZrf0
>>787
実験していただいてありがとうございます.
私の方の画像の情報を紹介します.

画像ファイルの大きさは,全ページの場合は最大812k,65ページの最大サイズは712KBです.
ピクセル数は,全ページの場合は最大812kの画像で2050×3239B,65ページの712KBの画像で1985×3209Bです.


readmeにある条件「.jpgファイルでサイズが1.5MB以下。縦横のピクセル数が1500以下(?)」のサイズは満たしていますが,ピクセル数は全ページも65頁も満たしていません.ピクセル数の多さ原因なら65ページも失敗しているはずですが.
readmeのピクセルの条件が「1500以下(?)」正確にはわからない,という書き方で判断のしようがないなです.
どこかに正確な情報はないでしょうか.

あと一回OCR認識した情報のファイルがてmpフォルダー内にHOCRやJSORで保存されていますが
これらを再利用する方法はないでしょうか.

試しに有料なので毎回GCVを動かすわけにもいかないので.
2023/05/15(月) 17:47:49.34ID:8XRnYinl0
>>788
READMEで使える画像データが(?)になっていて、バグが沢山あるので、と書かれているので作者さん自身でも把握できていないバグがあるのかもしれませんね

過去に他のGoogle Cloudサービスの使用歴があって今はもう初回の無料クレジットが無い状況ですかね?
300ドルの無料クレジットがあるなら90日間は約20万回の画像処理ができますし、もし無料分がないなら月に1000画像までは無料なので、無料の範囲で試行錯誤してみる感じになるのかなと思います

JSONファイルはGoogle Vision APIを介さずにOCRの結果を再利用できます。コマンドの知識がいるので自分は使ったことは無いです。
2023/05/15(月) 18:06:25.04ID:bE7ubZrf0
>>789
返信ありがとうございます。
Amazon で次の Kindle を購入して勉強しています。
Google Cloud Vision APIとPythonで文字認識

リナックスユーザー向け ということですが Windows でも応用がきできそうなことを 序文に書いてましたので、乗りかかった船で勉強してみます。うまくいけば 縦書き 透明 文字 も処理できる注意ができるかもしれません。
791767
垢版 |
2023/05/16(火) 02:29:27.85ID:9oBtOb4r0
100回くらい読み取りしないと日本語でOCR出来なくなった。
変なアプリ入れたせいなのかそれともハッキングか分からんが
楽天mini が全然読み取れないのとまったく同じ症状なので
カメラの性能全く関係なかった。
2023/06/07(水) 15:53:10.91ID:4+q27Kb70
このスレさらっと読んでみたけど
無料で、ローカルで
っていうことだとwindowsよりlinuxの方が有利っぽいね

透明テキスト付けられると便利だなとか思いながら見ていた
793767
垢版 |
2023/06/17(土) 13:47:44.30ID:8SIUbIIB0
あやしいツールを削除したら日本語認識するようになったけど複雑な字は絶対認識しなかった。
手首を固定するようにしたらだいぶ良くなったから手振れかなと思った。
さらにA4厚紙にスマホを乗せて厚紙を固定して撮影したらかなり正確に認識した。
手振れが問題だったようだが撮影台みたいなのは影ができるからこれも使えん。
アプリによって距離も違うし。
暗い壁を背にして光源を天井と外の2方向からにしてレシートを斜めに置くと影も反射もなく撮影できる。
フラッシュ焚いて反射した部分は読み取れない。
2023/07/25(火) 23:59:25.50ID:h9R08oEW0
オープンソースなAI-OCRがちょっとずつ増えてきた?
795名無しさん@お腹いっぱい。
垢版 |
2023/07/27(木) 00:49:10.58ID:1HHss/Kc0
具体的書込所望
2023/07/28(金) 12:17:15.85ID:u6TD1Weu0
Windows APIのOCR機能を使ってみたが、まあそこそこって感じ。
パラメーターとかのチューニングの余地がないっぽいので、お試しレベルだな。
797名無しさん@お腹いっぱい。
垢版 |
2023/08/10(木) 23:03:32.19ID:abq/Rt+90
ここで聞いた手法で、機械学習OCR挑戦してたけど、やっと動くようになったので
置いておきます

モデル
https://github.com/lithium0003/findtextCenterNet
アプリにしたもの
https://apps.apple.com/jp/app/bunkoocr/id1611405865
なんとなくの使い方
https://lithium03.info/ios/bunkoOCR.ja.html
2023/08/20(日) 22:49:52.50ID:4wU2XFry0
>>797
久々に来たら神アプリ誕生してた
試したらなぜかエラーで強制終了したんですけど、かなり期待してます!
799名無しさん@お腹いっぱい。
垢版 |
2023/08/21(月) 03:08:01.91ID:PbCWsLqe0
>>798
まだバグってたか。すまん。
よければ機種と、何した瞬間だったか教えてもらえると助かるです。
もしくは、ディベロッパーにエラーレポート共有するやつで送っておいてもらえると。
2023/08/23(水) 21:45:39.05ID:BZ9LSkyF0
iPhone8で落ちてだめだね
801名無しさん@お腹いっぱい。
垢版 |
2023/08/24(木) 04:57:06.45ID:qTgQhcLI0
iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい
802名無しさん@お腹いっぱい。
垢版 |
2023/08/24(木) 04:57:09.06ID:qTgQhcLI0
iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい
803名無しさん@お腹いっぱい。
垢版 |
2023/08/24(木) 05:14:04.09ID:qTgQhcLI0
二重になってた。すまん

こんな感じで、ふりがな付きで認識されるはず
https://i.imgur.com/sAYCM1A.jpeg
https://i.imgur.com/Y0b5Gp2.png
804名無しさん@お腹いっぱい。
垢版 |
2023/09/03(日) 04:56:45.00ID:dkzlPmWw0
>>803
それ何のスキャナ?
そんなに離れたところからでも、今の時代ってそんなに高精細にスキャンできるのか?
2023/09/03(日) 07:55:28.61ID:HPTuewTO0
スマホのカメラでしょ
806名無しさん@お腹いっぱい。
垢版 |
2023/09/03(日) 15:29:23.39ID:XydjHq3Z0
iPhone13Proの背面カメラ
焦点距離が150mmの倍率が真ん中のやつだとちょうどの距離
2023/09/04(月) 21:26:06.49ID:fEFnfgzU0
台に固定して1ページづつ撮影か
自動でシャッター切るアプリがあったけどキツイな
808名無しさん@お腹いっぱい。
垢版 |
2023/09/04(月) 23:05:06.12ID:AO5H3uFf0
>>807
DAISOリモコンシャッター用フットスイッチ iPhone用
https://minne.com/items/26569321
809名無しさん@お腹いっぱい。
垢版 |
2023/09/05(火) 10:00:32.81ID:wxRm1Dem0
>>797 のアプリは15秒おきとかに自動シャッター切れるようにしたけど、
小説一冊スキャンしようとしたら45分くらいかかるから結構大変だった。
非破壊でスキャンできるのはよいけど、手間はすごい
2023/09/05(火) 11:07:11.26ID:379iN/3y0
アンドロイドのアプリいくつか使った
見開き自動分割とか、自動シャッターとか、指消しとか
OCRは有料だけど
Lens
adob scan
vflat
genius scan
2023/09/06(水) 15:15:13.29ID:wYBqExFW0
>>809
しばらく使ってないアプリだけど、スキャンだけvFlat使って、OCRをこの新しいアプリ使ってみたらどうかな?もうちょい速くできそう
2023/09/06(水) 15:17:38.01ID:wYBqExFW0
Windows版が出るならスペック高いPCでガンガン使いたい
813名無しさん@お腹いっぱい。
垢版 |
2023/09/06(水) 21:47:47.22ID:Wt6T7L+k0
今、Windows用のに書き換えてるけど、処理した結果の出力ってどんな形式が便利?
とりあえずtxt(ふりがな飛ばす)と、html(rubyタグ)とかで出しておけば何とかなるかしら。
2023/09/09(土) 20:21:39.46ID:ZgEbr9HO0
tesseractのhOCR形式、文字(または語)ごとにOCR推定のコンフィデンス値が見られるのがお気に入り
でも文字列検索には不便
定番の出力形式、なかなか定まらない
815名無しさん@お腹いっぱい。
垢版 |
2023/09/09(土) 23:42:26.08ID:3helahsY0
Windows版 bunkoOCR
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230909.zip

とりあえず作った。nvidiaのGPUが刺さってると速いはず。
CPUでも動くけどかなり時間がかかるので、GPU推奨
816名無しさん@お腹いっぱい。
垢版 |
2023/09/10(日) 04:54:58.83ID:/02CMD2I0
>>815
裏写り除去のルーチン入れ忘れてたので修正版
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230910.zip
817名無しさん@お腹いっぱい。
垢版 |
2023/09/11(月) 21:25:23.88ID:gkv7osDa0
>>815
ページ作ったので、以後こちらで
https://lithium03.info/product/bunkoOCR.html
2023/09/12(火) 15:43:11.53ID:mvsAFLgd0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。

Windows用の .Net Frameworkとかを使っていないのでウィンドウまでは起動したから、「こ、これはイケるかもしれない」と、文庫をひらきにしてスキャンした画像をScanTailorで整形した.tiffと.pngを食わせてみたが、いずれもエラーを吐いてダメ。

惜しいなァと思いつつちょっと試行錯誤したところ、どうも別ドライブにまたがった先のファイルなのがダメだったのか、システムと同ドライブ内に画像ファイルをコピーしてから食わせたら、第9世代のCore i7を全スレッド100%級に使用してましたが、.tiffも.pngからも無事にテキスト化できました!

まだ1ページやっただけですが、誤認識が見当たらないのがスゴイ!
しかも行頭アキのスペースをちゃんと認識している!

今ままで行頭アキを認識しなかったTesseract-ocrで散々苦労していたのがウソのよう。

更に段組み(1ページ内のテキストが上段と下段で折り返す)にも対応していて画像を上下で分割しなくてもテキストは上下で区別されてるし、複数ページを一度に食わせられる!

あなたは神か?

ものすごいものを世に出していただき、自炊者のひとりとして感謝いたします。
2023/09/12(火) 20:00:43.48ID:drt9+3XT0
自分も使わせていただきました
読み取り精度は感動的なまでに高いですね
同じファイルを読み取り革命に読み込ませた時は誤字脱字だらけで改行も滅茶苦茶でしたが
このソフトだとほぼ校正はいらない状態で出力されます

ただ、かなりのスペックが必要ですね
5年ほど前のノートPC(corei7 メモリ16GB radeon)だと12コア全て使用率100%近くになり
半分フリーズしたような状態で1時間ほど放置したら100ページほど出来てたので
500ページの文庫を何冊もやるとしたら結構時間かかると思います
読み取り革命ではこのノートで充分でしたが次回はゲーム用のRTX3050を積んだPCでテストしてみます

素晴らしいソフトを公開してくださり本当にありがとうございます
820名無しさん@お腹いっぱい。
垢版 |
2023/09/12(火) 20:39:01.02ID:fKClROHX0
うまく動いたようで何よりです。機械学習をバリバリに使っているので、
GPUマシンで実行することをおすすめします。
RTX3000系のGPUだと実用的な速度になるはずです。
2023/09/12(火) 21:35:56.45ID:mvsAFLgd0
続・Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。

・ファイルパスは1バイト文字で

システムとは別ドライブ上の画像ファイルを食わせたらエラーになった件、フォルダの名前に日本語を含む多バイト文字が使われているとエラーになるようで、ファイルパスを英数文字だけになるようにしたら、別ドライブ上のファイルでもちゃんと認識しました。

・休み休み冷却しながら

他の方も書いていますが、GPUなしだとマシンへの負担が尋常ではなく、始めると90℃くらいまでコア温度が上昇するので、300ページ弱の文庫本をOCRする場合数十ページ単位で実施したら、コア温度が冷めるまで休ませた方が熱暴走するよりいいと思う。
(ちなみにエディタで文字打ちだとコア温度は35℃くらい)

今回スキャンしてノンブルを削除した以外は段組のままの300DPIのtiff画像を一冊分OCRしたところ、"「"が時折全角SPになっていたくらいで、ホント惚れ惚れする認識精度でした。

今後のためにGPUを搭載したPCが欲しくなります。
2023/09/13(水) 13:36:02.38ID:hhrPEDpp0
>>815
すごく良い!ありがとう。一点、空白ページだと落ちるよう。
2023/09/13(水) 14:16:40.21ID:hp6qr6yy0
作者様ありがとうございます
青空文庫形式でふりがなまで処理してくれて間違いもほぼない状態で驚きですが
実質Geforce必須といった感じですね
こちらの環境はryzen7、メモリ32Gbですがグラボは応援のためにRadeon6600xt使っているので
GPU支援が効いてくれず16スレッド全てが95〜100%使用になり
それでも1分に2枚処理できるかどうかですので何冊もOCRするのは現実的ではないです

そろそろグラボは買い換えようと思ってたのでGeforce使っている方、
例えば100枚処理するのにどれぐらい時間がかかって、温度やCPU使用率がどれぐらいになるのか教えていただけないでしょうか?
■ このスレッドは過去ログ倉庫に格納されています
16歳の水野カイトが封印の刀を見つけ、時間が裂けて黒い風と亡霊の侍が現れ、霊の時雨と契約して呪われた刀の継承者となる場面

ニューススポーツなんでも実況