探検
【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2016/08/09(火) 21:24:11.61ID:zXdCMkkb0
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
2023/02/01(水) 16:01:13.29ID:yZHXAyIo0
>>285
今更かよ女人禁制なんてのはリベラル固有の話ではなく
今更かよ女人禁制なんてのはリベラル固有の話ではなく
2023/02/01(水) 16:01:16.79ID:3iCdZlbF0
>>149
てか俺もそこそこゴブリンジャップ女だから甘やかされて育ってきた差別主義者じゃん
てか俺もそこそこゴブリンジャップ女だから甘やかされて育ってきた差別主義者じゃん
2023/02/01(水) 16:01:23.10ID:wtvMeXX10
>>410
捉えられる状況でもなければ政治を変えるつもりもないんちゃう
捉えられる状況でもなければ政治を変えるつもりもないんちゃう
2023/02/01(水) 16:01:25.90ID:O64h9oEI0
>>78
とりあえずここの自民工作員の多さやべーなその集団はw
とりあえずここの自民工作員の多さやべーなその集団はw
2023/02/01(水) 16:01:39.60ID:uzgr2QNF0
>>10
努力したのかな?
努力したのかな?
2023/02/01(水) 16:02:02.67ID:yfILUwbZ0
>>124
俺が名前聞いた事ないくらいだから有名でもないんだろ…検査と隔離しかねぇわ
俺が名前聞いた事ないくらいだから有名でもないんだろ…検査と隔離しかねぇわ
2023/02/01(水) 16:02:04.64ID:bmjFR3wk0
>>404
良い子ばかりいる空間に一人だけ真っ赤になってしまっている
良い子ばかりいる空間に一人だけ真っ赤になってしまっている
2023/02/01(水) 16:02:35.50ID:7j84zE660
>>392
高齢化してるのかと思ってたけど
高齢化してるのかと思ってたけど
2023/02/01(水) 16:03:19.97ID:piYvJTNu0
>>49
公文書偽造はどうなったんだろ
公文書偽造はどうなったんだろ
2023/02/01(水) 16:03:32.16ID:Ne7Lq+RA0
>>41
唯一海外というか後輩みたいなもんでしょYouTube個人でやって生きていってんだよ
唯一海外というか後輩みたいなもんでしょYouTube個人でやって生きていってんだよ
2023/02/01(水) 16:03:43.39ID:2MuJtZ8S0
>>180
やっぱり交差接種の方が絶対まともや
やっぱり交差接種の方が絶対まともや
2023/02/01(水) 16:03:56.25ID:Gx3ev6K60
>>45
でも30〜50代ってことか
でも30〜50代ってことか
2023/02/01(水) 16:04:02.21ID:q8fYzca/0
>>307
これ何で無かった事にしてるのが
これ何で無かった事にしてるのが
2023/02/01(水) 16:04:35.46ID:JBhtcBND0
>>351
ちびチー牛が社外でもエライと勘違いして調子に乗ったマンコがボコボコにされるネタ作りまくったのが潰れて前までのマニュアル使い回ししかできなくなっちゃったよ
ちびチー牛が社外でもエライと勘違いして調子に乗ったマンコがボコボコにされるネタ作りまくったのが潰れて前までのマニュアル使い回ししかできなくなっちゃったよ
2023/02/03(金) 12:28:26.88ID:QS9ylJCv0
工エエェ工エエェ(゚;益;゚(゚;益;゚)゚;益;゚)ェエエ工ェエエ工
2023/02/05(日) 11:30:31.75ID:hZxF6hQl0
>>42
おーすげー!
耳読書するようになったら、自炊本のpdf読み上げさせたら読み上げる順番がぐちゃぐちゃなことがわかって、縦書き日本語文章のOCRの限界を知ったとこなので、こんなにうまく抽出できるならやり方知りたい。
おーすげー!
耳読書するようになったら、自炊本のpdf読み上げさせたら読み上げる順番がぐちゃぐちゃなことがわかって、縦書き日本語文章のOCRの限界を知ったとこなので、こんなにうまく抽出できるならやり方知りたい。
739名無しさん@お腹いっぱい。
2023/02/06(月) 22:36:37.31ID:6SFrwZrD02023/02/07(火) 00:14:18.21ID:+RHuKHOQ0
>42書いたの自分だけど別に無理にlinuxでやる必要ないよ
当時 tesseractエンジン使ってるVietOCRが本家より妙に精度が良くて
Viet通さず本家だけで再現できないかと試行錯誤してただけ
linuxにこだわってたのは単に>39の人がwin環境じゃなかったからでwin版バイナリもある
このときのまとめは>47
当時βテスト中だったtesseract 4.0.0と tessdata_fastの言語データを使うことだった
今はアプデされてるのでもっと楽にセットアップできるのかも知れない
精度について補足すると結構フォントやレイアウト依存というか
ばっちり拾える時もあれば全くあかんときもありました、過信は禁物
当時 tesseractエンジン使ってるVietOCRが本家より妙に精度が良くて
Viet通さず本家だけで再現できないかと試行錯誤してただけ
linuxにこだわってたのは単に>39の人がwin環境じゃなかったからでwin版バイナリもある
このときのまとめは>47
当時βテスト中だったtesseract 4.0.0と tessdata_fastの言語データを使うことだった
今はアプデされてるのでもっと楽にセットアップできるのかも知れない
精度について補足すると結構フォントやレイアウト依存というか
ばっちり拾える時もあれば全くあかんときもありました、過信は禁物
2023/02/07(火) 12:57:45.69ID:c8xILm5g0
2023/02/07(火) 22:17:53.37ID:A6YngpKC0
2023/02/13(月) 18:28:43.48ID:0/m2nEld0
NDL試した。意外なことにDocuworksより少し良いくらいだった。
ポンコツのeTypistと同じエンジンだから、ゼロックスは最適化が上手ということなのかなあ?
ポンコツのeTypistと同じエンジンだから、ゼロックスは最適化が上手ということなのかなあ?
744743
2023/02/13(月) 18:31:49.99ID:0/m2nEld0 追記
いまみたら、ページ番号にOCR処理をしていない。
これがデフォルトなら画像のトリミング処理を省略できますねえ。
ルビを処理しないという選択できるから、文庫のOCRがはかどるねえ。
いまみたら、ページ番号にOCR処理をしていない。
これがデフォルトなら画像のトリミング処理を省略できますねえ。
ルビを処理しないという選択できるから、文庫のOCRがはかどるねえ。
2023/02/13(月) 19:08:27.43ID:2WnAMHgF0
>>744
ページ番号を OCR 修理をしないくらいなら読取革命でも柱を外した長方形を領域のテンプレートとして設定するだけで対応可能なのでndlのメリットはあまり感じないです
図表が本文と混在していて本文の領域が長方形で設定できない場合でも対応できるというメリットはありますか
クレクレで申し訳ないですが経験者のご意見をお伺いしたいです
ページ番号を OCR 修理をしないくらいなら読取革命でも柱を外した長方形を領域のテンプレートとして設定するだけで対応可能なのでndlのメリットはあまり感じないです
図表が本文と混在していて本文の領域が長方形で設定できない場合でも対応できるというメリットはありますか
クレクレで申し訳ないですが経験者のご意見をお伺いしたいです
746743
2023/02/13(月) 19:16:30.68ID:0/m2nEld0 >>745
一手間省けるだけでも相当楽になると思います。
いま別の画像にOCRかけたら、NDLの完敗だった。
Docuworksは意外に性能が良くて驚いた。
NDLが優れている方が嬉しいので複雑だなあ。
この画像をGoogel Documentで開いてみます。
一手間省けるだけでも相当楽になると思います。
いま別の画像にOCRかけたら、NDLの完敗だった。
Docuworksは意外に性能が良くて驚いた。
NDLが優れている方が嬉しいので複雑だなあ。
この画像をGoogel Documentで開いてみます。
747743
2023/02/13(月) 19:21:52.22ID:0/m2nEld0 Google Drive上のpdfをGoogle Documentから開いた。
今回もDocuworksの勝ち。
docuworksは7.3でサポートが終わった古いバージョン。
新しいバージョンだともっと優秀なのかなあ?
驚きの大がっかりな結果でした。
Docuworksより誤認識が少ないことを期待したのに、期待外れもいいところでした。
今回もDocuworksの勝ち。
docuworksは7.3でサポートが終わった古いバージョン。
新しいバージョンだともっと優秀なのかなあ?
驚きの大がっかりな結果でした。
Docuworksより誤認識が少ないことを期待したのに、期待外れもいいところでした。
748743
2023/02/13(月) 19:26:56.37ID:0/m2nEld0 冷静に考えれば、たった2枚の画像の比較だったので、一般化はしてはいけないと思う。
文庫本はNDLの勝ち。しかし2カ所!マークを1と誤認識しなかっただけの優位性だから大差ない。
イラスト入りで変則的な段組の専門書はDocuworksの圧勝だった。
文庫ならNDLの方がトリム不要で認識率が少し良い。音声化するときはこの少しの差が大きな作業量の差になるから使う価値はあると思う。
文庫本はNDLの勝ち。しかし2カ所!マークを1と誤認識しなかっただけの優位性だから大差ない。
イラスト入りで変則的な段組の専門書はDocuworksの圧勝だった。
文庫ならNDLの方がトリム不要で認識率が少し良い。音声化するときはこの少しの差が大きな作業量の差になるから使う価値はあると思う。
749743
2023/02/13(月) 19:33:22.63ID:0/m2nEld0 ルビを無視出来るというのも海外小説をOCRするときには結構大事だと思う。
2023/02/13(月) 21:23:05.17ID:2WnAMHgF0
751743
2023/02/13(月) 21:26:28.86ID:0/m2nEld0 >>750
DocuworksはOCR専門ソフトではないし、操作も簡単な割にはいい結果がでますよ。
今回NDLはデフォルト設定だと段組がメチャクチャでした。設定を変えたらOKでしたが、認識結果は今一つでした。
たしか、GoogleもPDFのレイアウト解析は今一つだったように覚えています。
DocuworksはOCR専門ソフトではないし、操作も簡単な割にはいい結果がでますよ。
今回NDLはデフォルト設定だと段組がメチャクチャでした。設定を変えたらOKでしたが、認識結果は今一つでした。
たしか、GoogleもPDFのレイアウト解析は今一つだったように覚えています。
2023/02/13(月) 21:28:46.74ID:2WnAMHgF0
753743
2023/02/13(月) 21:39:59.34ID:0/m2nEld0 体験版が2か月くらい使えたと思いますよ。
私のはサポートが切れた古いバージョンなので、最新版とは違うかも知れませんのでご注意下さい。
バージョンアップを改悪という人が多い印象なので、注意が必要ですよ。
私のはサポートが切れた古いバージョンなので、最新版とは違うかも知れませんのでご注意下さい。
バージョンアップを改悪という人が多い印象なので、注意が必要ですよ。
2023/02/13(月) 22:03:50.31ID:2WnAMHgF0
>>753
ありがとうございました
ありがとうございました
755名無しさん@お腹いっぱい。
2023/02/25(土) 15:57:52.74ID:IDt605Yp0 LINEレシートのOCRすごい。
でも、レシート分けて買い物したものが「登録済み」とか言われて入力できなかった。
同じ日に同じ店はだめなのかと思ったけど、もう一度買い物して分は登録してくれた。
間違いなく登録してくれてCSV出力があったら完璧なのになー。
でも、レシート分けて買い物したものが「登録済み」とか言われて入力できなかった。
同じ日に同じ店はだめなのかと思ったけど、もう一度買い物して分は登録してくれた。
間違いなく登録してくれてCSV出力があったら完璧なのになー。
2023/02/25(土) 23:34:01.07ID:wVfTnntF0
>>511
自分も14を使ってて同じ悩みをもってサポートに問い合わせたらできないことが分かった
16にアップデートするとフォントサイズに自動調整や透明スペースの挿入で可能な限り原文の1行の長さに合わせてくれる
今はそれで解決してる
14持ってたら16へのアップグレード料金で割安になったよ
自分も14を使ってて同じ悩みをもってサポートに問い合わせたらできないことが分かった
16にアップデートするとフォントサイズに自動調整や透明スペースの挿入で可能な限り原文の1行の長さに合わせてくれる
今はそれで解決してる
14持ってたら16へのアップグレード料金で割安になったよ
2023/03/17(金) 13:03:37.44ID:B7neqiNG0
Pict2ePub
縦横→epub, txt
googleのAPI使うやつだけど、設定でルビとかページ番号認識しないようにできる(完璧ではない)。
透明テキストPDFが作れる訳ではないけど市販のより高精度で気に入ってる。
文中に画像とか画像ファイル名が入らないようにしてほしい。
https://www.vector.co.jp/soft/winnt/writing/se523818.html
縦横→epub, txt
googleのAPI使うやつだけど、設定でルビとかページ番号認識しないようにできる(完璧ではない)。
透明テキストPDFが作れる訳ではないけど市販のより高精度で気に入ってる。
文中に画像とか画像ファイル名が入らないようにしてほしい。
https://www.vector.co.jp/soft/winnt/writing/se523818.html
2023/03/25(土) 18:57:24.94ID:CPI/O6cm0
>>439を参考に透明テキスト付きPDFが作れて、Adobe Acrobatではテキスト検索やハイライトができたけど、KindleにPDFとしてインポートするとテキスト検索やハイライトができません。
この方法で作った透明テキスト付きPDFをKindleに認識させる事はできないのでしょうか?
PDF24って無料アプリのOCR作成ならKindleに取り込んで認識できたんですが精度が良くなくて…両者はOCRの仕組みが違うという事なんですかね?
Google Cloud VisionのOCRは精度が良くて無料分で自炊できるので気に入っているのですが、有料のOCRソフトを買えばKindleでも認識できるのでしょうか。
この方法で作った透明テキスト付きPDFをKindleに認識させる事はできないのでしょうか?
PDF24って無料アプリのOCR作成ならKindleに取り込んで認識できたんですが精度が良くなくて…両者はOCRの仕組みが違うという事なんですかね?
Google Cloud VisionのOCRは精度が良くて無料分で自炊できるので気に入っているのですが、有料のOCRソフトを買えばKindleでも認識できるのでしょうか。
2023/04/10(月) 14:58:29.78ID:TQn0sL2h0
質問です。わかる方いれば。
現在、ScanSnapでOCRかけてるんですが、日本語縦書き本の読み上げ順序がぐちゃぐちゃになります(右から左にスムーズに流れず、飛んだり戻ったりする)
読み上げ順序がスムースに右から左になるソフトや方法はありますか?
AcrobatProに課金すると読み上げ順序を指定し直せるみたいなんですが、修正箇所が多すぎて気が遠くなるので…
現在、ScanSnapでOCRかけてるんですが、日本語縦書き本の読み上げ順序がぐちゃぐちゃになります(右から左にスムーズに流れず、飛んだり戻ったりする)
読み上げ順序がスムースに右から左になるソフトや方法はありますか?
AcrobatProに課金すると読み上げ順序を指定し直せるみたいなんですが、修正箇所が多すぎて気が遠くなるので…
760名無しさん@お腹いっぱい。
2023/04/15(土) 20:35:34.10ID:DHhVcVyw02023/04/16(日) 08:14:25.54ID:FrWBIkKs0
Google Cloud Vision、横書きはほぼ完璧なのに
縦書きは残念な感じですね。縦書き需要ないのかな。
縦書きは残念な感じですね。縦書き需要ないのかな。
2023/04/16(日) 09:40:31.89ID:UzkJv9/+0
>>761
> Google Cloud Vision、縦書きは残念な感じ
縦書き 駄目ですか?縦書き こそ いろんなソフトが今ひとつなんで Google クラウドビジョンを勉強して縦書き用に使おうかと思ってたんですけど、性能が低いなら残念です
> Google Cloud Vision、縦書きは残念な感じ
縦書き 駄目ですか?縦書き こそ いろんなソフトが今ひとつなんで Google クラウドビジョンを勉強して縦書き用に使おうかと思ってたんですけど、性能が低いなら残念です
763名無しさん@お腹いっぱい。
2023/04/16(日) 22:16:58.25ID:RsHBMoos0 レシート読み取り、LINEレシートはめっちゃいいのにレシーピは全然だめだなー
て思ってたけど、ちょっと解像度見て見たら
レシーピ入れてる 楽天mini は1600万画素しかなくて
LINEレシート入れてる iPhone 5s は 800万画素あった。
・・・ん?手振れ補正の有無かな・・・
楽天Hand 5Gが約6,400万画素でこれが1円だからこれ買うことにする。
手振れ補正ないのが不安だ。
て思ってたけど、ちょっと解像度見て見たら
レシーピ入れてる 楽天mini は1600万画素しかなくて
LINEレシート入れてる iPhone 5s は 800万画素あった。
・・・ん?手振れ補正の有無かな・・・
楽天Hand 5Gが約6,400万画素でこれが1円だからこれ買うことにする。
手振れ補正ないのが不安だ。
2023/04/27(木) 13:13:47.12ID:ckzKQ9d10
透明テキスト付き縦書きPDF作成はvFlatアプリが一番優秀
スキャン機能もかなり良く出来てる
課金で無制限で使えたら良いのに、最近更に改悪された
スキャン機能もかなり良く出来てる
課金で無制限で使えたら良いのに、最近更に改悪された
2023/04/27(木) 23:37:35.71ID:L8E1UE+i0
>>764
PC 用の V flatを探しましたけど媒介アプリみたいなのを使う みたいで気味が悪いですね。スマホ用 みたいなのでネイティブではPC 用としては使えないようです。残念
PC 用の V flatを探しましたけど媒介アプリみたいなのを使う みたいで気味が悪いですね。スマホ用 みたいなのでネイティブではPC 用としては使えないようです。残念
2023/04/29(土) 14:06:13.63ID:1bL6k1jH0
>>757
教えてもらったPict2ePubを使ってみた。かなりいいんだけど、エラーが出て止まっちゃったりして動作のクセ? がよくわからない。
サポートはナシとのことなのでここで聞いてみるんだけど、
▼▼ 処理中にエラーが発生しました ▼▼▼
別のプロセスで使用されているため、プロセスはファイル 'container.xml' にアクセスできません。
みたいなエラー出る?
関連しそうなファイルやフォルダを全部閉じてるんだけどエラー出るんだよね。
教えてもらったPict2ePubを使ってみた。かなりいいんだけど、エラーが出て止まっちゃったりして動作のクセ? がよくわからない。
サポートはナシとのことなのでここで聞いてみるんだけど、
▼▼ 処理中にエラーが発生しました ▼▼▼
別のプロセスで使用されているため、プロセスはファイル 'container.xml' にアクセスできません。
みたいなエラー出る?
関連しそうなファイルやフォルダを全部閉じてるんだけどエラー出るんだよね。
767763
2023/05/03(水) 02:34:24.28ID:t2VZlVg+0 rakuten Hand 5G で撮影したらめっちゃ読み取れる。
カメラにシールつけたまんまなのに。
ただ、試しにズームで写真撮ったら
肘をしっかり固定したのと普通に持って撮影したのじゃ全く違うから
手振れ対策重要だなと思った。
カメラにシールつけたまんまなのに。
ただ、試しにズームで写真撮ったら
肘をしっかり固定したのと普通に持って撮影したのじゃ全く違うから
手振れ対策重要だなと思った。
2023/05/05(金) 15:14:17.82ID:CddQ1lIU0
読取革命16でスキャン入力したら、数十ページで異常終了してしまう。
メモリ32GBで、スペック的な問題ではないと思うけど、よくわからん。
メモリ32GBで、スペック的な問題ではないと思うけど、よくわからん。
769名無しさん@お腹いっぱい。
2023/05/07(日) 17:15:49.03ID:Kn5oFJWX0 横書き日本語文字メインの専門書のpdfをOCR化したい場合、どのソフトが良いですかね
読取革命か、あるいはフリーで何かないかなと探しています
読取革命か、あるいはフリーで何かないかなと探しています
2023/05/11(木) 01:10:47.21ID:9xPVTWRk0
2023/05/11(木) 01:16:50.39ID:9xPVTWRk0
>>770
あ、この実行プログラムで使うにはpdf をjpgにする必要があるのでそこは手間かも
あ、この実行プログラムで使うにはpdf をjpgにする必要があるのでそこは手間かも
2023/05/11(木) 10:53:00.72ID:LL2tOwcG0
2023/05/11(木) 11:33:22.61ID:9xPVTWRk0
>>772
縦書きは少ししかOCRしてませんが精度は良いと思います。
1ページ当たり500文字ほどの本を処理し、単語検索しましたが抜けはありませんでした。
ただ、ドラッグしてハイライトを付けると文章内で飛んでる所がでます
(ハイライトが飛ぶだけでテキストのコピーは飛ばずにちゃんとできます)
i.imgur.com/kbM3N3G.png
縦書きは少ししかOCRしてませんが精度は良いと思います。
1ページ当たり500文字ほどの本を処理し、単語検索しましたが抜けはありませんでした。
ただ、ドラッグしてハイライトを付けると文章内で飛んでる所がでます
(ハイライトが飛ぶだけでテキストのコピーは飛ばずにちゃんとできます)
i.imgur.com/kbM3N3G.png
2023/05/11(木) 13:33:09.87ID:BXO1YqG10
写真を見る限り透明文字の位置やサイズの問題のきがします。
Google Cloud Vision APIでは透明もじの張り込みはできないとおもっていたのですができるのですね
Google Cloud Vision APIでは透明もじの張り込みはできないとおもっていたのですができるのですね
2023/05/11(木) 19:33:34.69ID:8ESIxcV30
>439の奴は透明テキスト付pdfにするためのライブラリが縦書きに対応していない
GCV自体は縦書きに対応してるのでテキスト抜き出すだけなら問題ないけど
GCV自体は縦書きに対応してるのでテキスト抜き出すだけなら問題ないけど
776sage
2023/05/12(金) 08:52:20.43ID:TaRhIR6z0 ブルーレイ映画をパソコンで再生しながら、画面下に表示される字幕を
映画の最初から最後まで連絡して文字認識するソフトを探しています。
そのような機能を持つソフトはありますか?
映画の最初から最後まで連絡して文字認識するソフトを探しています。
そのような機能を持つソフトはありますか?
2023/05/12(金) 14:46:35.89ID:TbN5DIDu0
2023/05/12(金) 14:57:09.96ID:wckX7tc+0
2023/05/12(金) 16:42:30.72ID:TbN5DIDu0
2023/05/12(金) 16:58:09.11ID:wckX7tc+0
>>779
いえいえ~
Google CloudのAPIキーを発行する手順を載せておきますので参考までにどうぞ
zenn.dev/tmitsuoka0423/articles/get-gcp-api-key
いえいえ~
Google CloudのAPIキーを発行する手順を載せておきますので参考までにどうぞ
zenn.dev/tmitsuoka0423/articles/get-gcp-api-key
2023/05/12(金) 19:33:59.40ID:pxPA5Q3q0
>>777
「縦の文字列」ではなく一文字ずつ位置指定して透明テキストを画像に重ねてるんよ
(おそらく横書判定で一文字ごとに改行って処理になってる)
なのでドラッグで範囲選択すると位置ズレで拾えない文字が出てくる
>773の選択範囲は点線上だけど正規の縦書きPDFなら赤の選択範囲が途切れず縦一直線に繋がるはず
このあたりは>439の作者さん自身が>56-57で説明してる
hocr-toolsの作者にもissueで質問してたみたいだけど
相手外人なので縦書き需要が理解されず未解決のまま
「縦の文字列」ではなく一文字ずつ位置指定して透明テキストを画像に重ねてるんよ
(おそらく横書判定で一文字ごとに改行って処理になってる)
なのでドラッグで範囲選択すると位置ズレで拾えない文字が出てくる
>773の選択範囲は点線上だけど正規の縦書きPDFなら赤の選択範囲が途切れず縦一直線に繋がるはず
このあたりは>439の作者さん自身が>56-57で説明してる
hocr-toolsの作者にもissueで質問してたみたいだけど
相手外人なので縦書き需要が理解されず未解決のまま
2023/05/12(金) 21:18:10.00ID:wckX7tc+0
>>781
なるほど、それで縦書きのときのハイライトが途切れてるんですね
自分のPDFではドラッグしたときは行の最後から選択するように操作したり、前後の行を含めるように操作すると選択コピーでけっこう拾えてます、行の最初の文字が抜けたりしますが。
Wordに貼り付けても間に改行が入ったりはないです。
また、単語や文章の検索なら問題ない感じです
このへんはPDFの文字数やサイズにもよりそうですね
なるほど、それで縦書きのときのハイライトが途切れてるんですね
自分のPDFではドラッグしたときは行の最後から選択するように操作したり、前後の行を含めるように操作すると選択コピーでけっこう拾えてます、行の最初の文字が抜けたりしますが。
Wordに貼り付けても間に改行が入ったりはないです。
また、単語や文章の検索なら問題ない感じです
このへんはPDFの文字数やサイズにもよりそうですね
2023/05/14(日) 00:30:58.96ID:lh+zcWUZ0
>>780
リンク先の”認証情報を開く”まで進んだのですが,そのあとのAPIキーを発行するという画面がでません.
認証情報の作成画面の上からの項目は
?認証情報の種類
②スコープ(省略可)
③OAうthクライアントID
④認証情報
完了
です.そうすればいいでしょうかm(_ _)m
リンク先の”認証情報を開く”まで進んだのですが,そのあとのAPIキーを発行するという画面がでません.
認証情報の作成画面の上からの項目は
?認証情報の種類
②スコープ(省略可)
③OAうthクライアントID
④認証情報
完了
です.そうすればいいでしょうかm(_ _)m
2023/05/14(日) 09:42:31.54ID:SJFcYGZt0
>>783
Cloud Vision APIを有効にすれば、APIキー発行のメニューが出ると思うんですが、
APIとサービスの有効化→検索にCloud Vision APIと入力→Cloud Vision APIを選んで「有効にする」はクリックしてますかね?
Cloud Vision APIを有効にすれば、APIキー発行のメニューが出ると思うんですが、
APIとサービスの有効化→検索にCloud Vision APIと入力→Cloud Vision APIを選んで「有効にする」はクリックしてますかね?
2023/05/14(日) 10:40:20.87ID:lh+zcWUZ0
2023/05/14(日) 14:18:04.24ID:lh+zcWUZ0
2023/05/15(月) 11:02:52.19ID:8XRnYinl0
>>786
456ページあるPDFをjpgにしmakepdfGUIで透明テキスト付きPDFにしてみましたが、自分の環境下ではエラー無く終わりました
READMEにある画像データサイズやピクセル数の制限に引っかかっている可能性はないでしょうか?
456ページあるPDFをjpgにしmakepdfGUIで透明テキスト付きPDFにしてみましたが、自分の環境下ではエラー無く終わりました
READMEにある画像データサイズやピクセル数の制限に引っかかっている可能性はないでしょうか?
2023/05/15(月) 14:37:28.13ID:bE7ubZrf0
>>787
実験していただいてありがとうございます.
私の方の画像の情報を紹介します.
画像ファイルの大きさは,全ページの場合は最大812k,65ページの最大サイズは712KBです.
ピクセル数は,全ページの場合は最大812kの画像で2050×3239B,65ページの712KBの画像で1985×3209Bです.
readmeにある条件「.jpgファイルでサイズが1.5MB以下。縦横のピクセル数が1500以下(?)」のサイズは満たしていますが,ピクセル数は全ページも65頁も満たしていません.ピクセル数の多さ原因なら65ページも失敗しているはずですが.
readmeのピクセルの条件が「1500以下(?)」正確にはわからない,という書き方で判断のしようがないなです.
どこかに正確な情報はないでしょうか.
あと一回OCR認識した情報のファイルがてmpフォルダー内にHOCRやJSORで保存されていますが
これらを再利用する方法はないでしょうか.
試しに有料なので毎回GCVを動かすわけにもいかないので.
実験していただいてありがとうございます.
私の方の画像の情報を紹介します.
画像ファイルの大きさは,全ページの場合は最大812k,65ページの最大サイズは712KBです.
ピクセル数は,全ページの場合は最大812kの画像で2050×3239B,65ページの712KBの画像で1985×3209Bです.
readmeにある条件「.jpgファイルでサイズが1.5MB以下。縦横のピクセル数が1500以下(?)」のサイズは満たしていますが,ピクセル数は全ページも65頁も満たしていません.ピクセル数の多さ原因なら65ページも失敗しているはずですが.
readmeのピクセルの条件が「1500以下(?)」正確にはわからない,という書き方で判断のしようがないなです.
どこかに正確な情報はないでしょうか.
あと一回OCR認識した情報のファイルがてmpフォルダー内にHOCRやJSORで保存されていますが
これらを再利用する方法はないでしょうか.
試しに有料なので毎回GCVを動かすわけにもいかないので.
2023/05/15(月) 17:47:49.34ID:8XRnYinl0
>>788
READMEで使える画像データが(?)になっていて、バグが沢山あるので、と書かれているので作者さん自身でも把握できていないバグがあるのかもしれませんね
過去に他のGoogle Cloudサービスの使用歴があって今はもう初回の無料クレジットが無い状況ですかね?
300ドルの無料クレジットがあるなら90日間は約20万回の画像処理ができますし、もし無料分がないなら月に1000画像までは無料なので、無料の範囲で試行錯誤してみる感じになるのかなと思います
JSONファイルはGoogle Vision APIを介さずにOCRの結果を再利用できます。コマンドの知識がいるので自分は使ったことは無いです。
READMEで使える画像データが(?)になっていて、バグが沢山あるので、と書かれているので作者さん自身でも把握できていないバグがあるのかもしれませんね
過去に他のGoogle Cloudサービスの使用歴があって今はもう初回の無料クレジットが無い状況ですかね?
300ドルの無料クレジットがあるなら90日間は約20万回の画像処理ができますし、もし無料分がないなら月に1000画像までは無料なので、無料の範囲で試行錯誤してみる感じになるのかなと思います
JSONファイルはGoogle Vision APIを介さずにOCRの結果を再利用できます。コマンドの知識がいるので自分は使ったことは無いです。
2023/05/15(月) 18:06:25.04ID:bE7ubZrf0
>>789
返信ありがとうございます。
Amazon で次の Kindle を購入して勉強しています。
Google Cloud Vision APIとPythonで文字認識
リナックスユーザー向け ということですが Windows でも応用がきできそうなことを 序文に書いてましたので、乗りかかった船で勉強してみます。うまくいけば 縦書き 透明 文字 も処理できる注意ができるかもしれません。
返信ありがとうございます。
Amazon で次の Kindle を購入して勉強しています。
Google Cloud Vision APIとPythonで文字認識
リナックスユーザー向け ということですが Windows でも応用がきできそうなことを 序文に書いてましたので、乗りかかった船で勉強してみます。うまくいけば 縦書き 透明 文字 も処理できる注意ができるかもしれません。
791767
2023/05/16(火) 02:29:27.85ID:9oBtOb4r0 100回くらい読み取りしないと日本語でOCR出来なくなった。
変なアプリ入れたせいなのかそれともハッキングか分からんが
楽天mini が全然読み取れないのとまったく同じ症状なので
カメラの性能全く関係なかった。
変なアプリ入れたせいなのかそれともハッキングか分からんが
楽天mini が全然読み取れないのとまったく同じ症状なので
カメラの性能全く関係なかった。
2023/06/07(水) 15:53:10.91ID:4+q27Kb70
このスレさらっと読んでみたけど
無料で、ローカルで
っていうことだとwindowsよりlinuxの方が有利っぽいね
透明テキスト付けられると便利だなとか思いながら見ていた
無料で、ローカルで
っていうことだとwindowsよりlinuxの方が有利っぽいね
透明テキスト付けられると便利だなとか思いながら見ていた
793767
2023/06/17(土) 13:47:44.30ID:8SIUbIIB0 あやしいツールを削除したら日本語認識するようになったけど複雑な字は絶対認識しなかった。
手首を固定するようにしたらだいぶ良くなったから手振れかなと思った。
さらにA4厚紙にスマホを乗せて厚紙を固定して撮影したらかなり正確に認識した。
手振れが問題だったようだが撮影台みたいなのは影ができるからこれも使えん。
アプリによって距離も違うし。
暗い壁を背にして光源を天井と外の2方向からにしてレシートを斜めに置くと影も反射もなく撮影できる。
フラッシュ焚いて反射した部分は読み取れない。
手首を固定するようにしたらだいぶ良くなったから手振れかなと思った。
さらにA4厚紙にスマホを乗せて厚紙を固定して撮影したらかなり正確に認識した。
手振れが問題だったようだが撮影台みたいなのは影ができるからこれも使えん。
アプリによって距離も違うし。
暗い壁を背にして光源を天井と外の2方向からにしてレシートを斜めに置くと影も反射もなく撮影できる。
フラッシュ焚いて反射した部分は読み取れない。
2023/07/25(火) 23:59:25.50ID:h9R08oEW0
オープンソースなAI-OCRがちょっとずつ増えてきた?
795名無しさん@お腹いっぱい。
2023/07/27(木) 00:49:10.58ID:1HHss/Kc0 具体的書込所望
2023/07/28(金) 12:17:15.85ID:u6TD1Weu0
Windows APIのOCR機能を使ってみたが、まあそこそこって感じ。
パラメーターとかのチューニングの余地がないっぽいので、お試しレベルだな。
パラメーターとかのチューニングの余地がないっぽいので、お試しレベルだな。
797名無しさん@お腹いっぱい。
2023/08/10(木) 23:03:32.19ID:abq/Rt+90 ここで聞いた手法で、機械学習OCR挑戦してたけど、やっと動くようになったので
置いておきます
モデル
https://github.com/lithium0003/findtextCenterNet
アプリにしたもの
https://apps.apple.com/jp/app/bunkoocr/id1611405865
なんとなくの使い方
https://lithium03.info/ios/bunkoOCR.ja.html
置いておきます
モデル
https://github.com/lithium0003/findtextCenterNet
アプリにしたもの
https://apps.apple.com/jp/app/bunkoocr/id1611405865
なんとなくの使い方
https://lithium03.info/ios/bunkoOCR.ja.html
2023/08/20(日) 22:49:52.50ID:4wU2XFry0
799名無しさん@お腹いっぱい。
2023/08/21(月) 03:08:01.91ID:PbCWsLqe02023/08/23(水) 21:45:39.05ID:BZ9LSkyF0
iPhone8で落ちてだめだね
801名無しさん@お腹いっぱい。
2023/08/24(木) 04:57:06.45ID:qTgQhcLI0 iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい
802名無しさん@お腹いっぱい。
2023/08/24(木) 04:57:09.06ID:qTgQhcLI0 iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい
803名無しさん@お腹いっぱい。
2023/08/24(木) 05:14:04.09ID:qTgQhcLI0804名無しさん@お腹いっぱい。
2023/09/03(日) 04:56:45.00ID:dkzlPmWw02023/09/03(日) 07:55:28.61ID:HPTuewTO0
スマホのカメラでしょ
806名無しさん@お腹いっぱい。
2023/09/03(日) 15:29:23.39ID:XydjHq3Z0 iPhone13Proの背面カメラ
焦点距離が150mmの倍率が真ん中のやつだとちょうどの距離
焦点距離が150mmの倍率が真ん中のやつだとちょうどの距離
2023/09/04(月) 21:26:06.49ID:fEFnfgzU0
台に固定して1ページづつ撮影か
自動でシャッター切るアプリがあったけどキツイな
自動でシャッター切るアプリがあったけどキツイな
808名無しさん@お腹いっぱい。
2023/09/04(月) 23:05:06.12ID:AO5H3uFf0809名無しさん@お腹いっぱい。
2023/09/05(火) 10:00:32.81ID:wxRm1Dem02023/09/05(火) 11:07:11.26ID:379iN/3y0
アンドロイドのアプリいくつか使った
見開き自動分割とか、自動シャッターとか、指消しとか
OCRは有料だけど
Lens
adob scan
vflat
genius scan
見開き自動分割とか、自動シャッターとか、指消しとか
OCRは有料だけど
Lens
adob scan
vflat
genius scan
2023/09/06(水) 15:15:13.29ID:wYBqExFW0
>>809
しばらく使ってないアプリだけど、スキャンだけvFlat使って、OCRをこの新しいアプリ使ってみたらどうかな?もうちょい速くできそう
しばらく使ってないアプリだけど、スキャンだけvFlat使って、OCRをこの新しいアプリ使ってみたらどうかな?もうちょい速くできそう
2023/09/06(水) 15:17:38.01ID:wYBqExFW0
Windows版が出るならスペック高いPCでガンガン使いたい
813名無しさん@お腹いっぱい。
2023/09/06(水) 21:47:47.22ID:Wt6T7L+k0 今、Windows用のに書き換えてるけど、処理した結果の出力ってどんな形式が便利?
とりあえずtxt(ふりがな飛ばす)と、html(rubyタグ)とかで出しておけば何とかなるかしら。
とりあえずtxt(ふりがな飛ばす)と、html(rubyタグ)とかで出しておけば何とかなるかしら。
2023/09/09(土) 20:21:39.46ID:ZgEbr9HO0
tesseractのhOCR形式、文字(または語)ごとにOCR推定のコンフィデンス値が見られるのがお気に入り
でも文字列検索には不便
定番の出力形式、なかなか定まらない
でも文字列検索には不便
定番の出力形式、なかなか定まらない
815名無しさん@お腹いっぱい。
2023/09/09(土) 23:42:26.08ID:3helahsY0 Windows版 bunkoOCR
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230909.zip
とりあえず作った。nvidiaのGPUが刺さってると速いはず。
CPUでも動くけどかなり時間がかかるので、GPU推奨
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230909.zip
とりあえず作った。nvidiaのGPUが刺さってると速いはず。
CPUでも動くけどかなり時間がかかるので、GPU推奨
816名無しさん@お腹いっぱい。
2023/09/10(日) 04:54:58.83ID:/02CMD2I0817名無しさん@お腹いっぱい。
2023/09/11(月) 21:25:23.88ID:gkv7osDa02023/09/12(火) 15:43:11.53ID:mvsAFLgd0
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。
Windows用の .Net Frameworkとかを使っていないのでウィンドウまでは起動したから、「こ、これはイケるかもしれない」と、文庫をひらきにしてスキャンした画像をScanTailorで整形した.tiffと.pngを食わせてみたが、いずれもエラーを吐いてダメ。
惜しいなァと思いつつちょっと試行錯誤したところ、どうも別ドライブにまたがった先のファイルなのがダメだったのか、システムと同ドライブ内に画像ファイルをコピーしてから食わせたら、第9世代のCore i7を全スレッド100%級に使用してましたが、.tiffも.pngからも無事にテキスト化できました!
まだ1ページやっただけですが、誤認識が見当たらないのがスゴイ!
しかも行頭アキのスペースをちゃんと認識している!
今ままで行頭アキを認識しなかったTesseract-ocrで散々苦労していたのがウソのよう。
更に段組み(1ページ内のテキストが上段と下段で折り返す)にも対応していて画像を上下で分割しなくてもテキストは上下で区別されてるし、複数ページを一度に食わせられる!
あなたは神か?
ものすごいものを世に出していただき、自炊者のひとりとして感謝いたします。
Windows用の .Net Frameworkとかを使っていないのでウィンドウまでは起動したから、「こ、これはイケるかもしれない」と、文庫をひらきにしてスキャンした画像をScanTailorで整形した.tiffと.pngを食わせてみたが、いずれもエラーを吐いてダメ。
惜しいなァと思いつつちょっと試行錯誤したところ、どうも別ドライブにまたがった先のファイルなのがダメだったのか、システムと同ドライブ内に画像ファイルをコピーしてから食わせたら、第9世代のCore i7を全スレッド100%級に使用してましたが、.tiffも.pngからも無事にテキスト化できました!
まだ1ページやっただけですが、誤認識が見当たらないのがスゴイ!
しかも行頭アキのスペースをちゃんと認識している!
今ままで行頭アキを認識しなかったTesseract-ocrで散々苦労していたのがウソのよう。
更に段組み(1ページ内のテキストが上段と下段で折り返す)にも対応していて画像を上下で分割しなくてもテキストは上下で区別されてるし、複数ページを一度に食わせられる!
あなたは神か?
ものすごいものを世に出していただき、自炊者のひとりとして感謝いたします。
2023/09/12(火) 20:00:43.48ID:drt9+3XT0
自分も使わせていただきました
読み取り精度は感動的なまでに高いですね
同じファイルを読み取り革命に読み込ませた時は誤字脱字だらけで改行も滅茶苦茶でしたが
このソフトだとほぼ校正はいらない状態で出力されます
ただ、かなりのスペックが必要ですね
5年ほど前のノートPC(corei7 メモリ16GB radeon)だと12コア全て使用率100%近くになり
半分フリーズしたような状態で1時間ほど放置したら100ページほど出来てたので
500ページの文庫を何冊もやるとしたら結構時間かかると思います
読み取り革命ではこのノートで充分でしたが次回はゲーム用のRTX3050を積んだPCでテストしてみます
素晴らしいソフトを公開してくださり本当にありがとうございます
読み取り精度は感動的なまでに高いですね
同じファイルを読み取り革命に読み込ませた時は誤字脱字だらけで改行も滅茶苦茶でしたが
このソフトだとほぼ校正はいらない状態で出力されます
ただ、かなりのスペックが必要ですね
5年ほど前のノートPC(corei7 メモリ16GB radeon)だと12コア全て使用率100%近くになり
半分フリーズしたような状態で1時間ほど放置したら100ページほど出来てたので
500ページの文庫を何冊もやるとしたら結構時間かかると思います
読み取り革命ではこのノートで充分でしたが次回はゲーム用のRTX3050を積んだPCでテストしてみます
素晴らしいソフトを公開してくださり本当にありがとうございます
820名無しさん@お腹いっぱい。
2023/09/12(火) 20:39:01.02ID:fKClROHX0 うまく動いたようで何よりです。機械学習をバリバリに使っているので、
GPUマシンで実行することをおすすめします。
RTX3000系のGPUだと実用的な速度になるはずです。
GPUマシンで実行することをおすすめします。
RTX3000系のGPUだと実用的な速度になるはずです。
2023/09/12(火) 21:35:56.45ID:mvsAFLgd0
続・Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。
・ファイルパスは1バイト文字で
システムとは別ドライブ上の画像ファイルを食わせたらエラーになった件、フォルダの名前に日本語を含む多バイト文字が使われているとエラーになるようで、ファイルパスを英数文字だけになるようにしたら、別ドライブ上のファイルでもちゃんと認識しました。
・休み休み冷却しながら
他の方も書いていますが、GPUなしだとマシンへの負担が尋常ではなく、始めると90℃くらいまでコア温度が上昇するので、300ページ弱の文庫本をOCRする場合数十ページ単位で実施したら、コア温度が冷めるまで休ませた方が熱暴走するよりいいと思う。
(ちなみにエディタで文字打ちだとコア温度は35℃くらい)
今回スキャンしてノンブルを削除した以外は段組のままの300DPIのtiff画像を一冊分OCRしたところ、"「"が時折全角SPになっていたくらいで、ホント惚れ惚れする認識精度でした。
今後のためにGPUを搭載したPCが欲しくなります。
・ファイルパスは1バイト文字で
システムとは別ドライブ上の画像ファイルを食わせたらエラーになった件、フォルダの名前に日本語を含む多バイト文字が使われているとエラーになるようで、ファイルパスを英数文字だけになるようにしたら、別ドライブ上のファイルでもちゃんと認識しました。
・休み休み冷却しながら
他の方も書いていますが、GPUなしだとマシンへの負担が尋常ではなく、始めると90℃くらいまでコア温度が上昇するので、300ページ弱の文庫本をOCRする場合数十ページ単位で実施したら、コア温度が冷めるまで休ませた方が熱暴走するよりいいと思う。
(ちなみにエディタで文字打ちだとコア温度は35℃くらい)
今回スキャンしてノンブルを削除した以外は段組のままの300DPIのtiff画像を一冊分OCRしたところ、"「"が時折全角SPになっていたくらいで、ホント惚れ惚れする認識精度でした。
今後のためにGPUを搭載したPCが欲しくなります。
2023/09/13(水) 13:36:02.38ID:hhrPEDpp0
>>815
すごく良い!ありがとう。一点、空白ページだと落ちるよう。
すごく良い!ありがとう。一点、空白ページだと落ちるよう。
2023/09/13(水) 14:16:40.21ID:hp6qr6yy0
作者様ありがとうございます
青空文庫形式でふりがなまで処理してくれて間違いもほぼない状態で驚きですが
実質Geforce必須といった感じですね
こちらの環境はryzen7、メモリ32Gbですがグラボは応援のためにRadeon6600xt使っているので
GPU支援が効いてくれず16スレッド全てが95〜100%使用になり
それでも1分に2枚処理できるかどうかですので何冊もOCRするのは現実的ではないです
そろそろグラボは買い換えようと思ってたのでGeforce使っている方、
例えば100枚処理するのにどれぐらい時間がかかって、温度やCPU使用率がどれぐらいになるのか教えていただけないでしょうか?
青空文庫形式でふりがなまで処理してくれて間違いもほぼない状態で驚きですが
実質Geforce必須といった感じですね
こちらの環境はryzen7、メモリ32Gbですがグラボは応援のためにRadeon6600xt使っているので
GPU支援が効いてくれず16スレッド全てが95〜100%使用になり
それでも1分に2枚処理できるかどうかですので何冊もOCRするのは現実的ではないです
そろそろグラボは買い換えようと思ってたのでGeforce使っている方、
例えば100枚処理するのにどれぐらい時間がかかって、温度やCPU使用率がどれぐらいになるのか教えていただけないでしょうか?
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【速報】政府、与党がNISA未成年解禁を検討 [蚤の市★]
- 【茶葉高騰】「綾鷹」値上げで650mL220円に 26年3月から [1ゲットロボ★]
- 【女子ゴルフ】都玲華(21)30歳年上の既婚者コーチとの交際関係とコーチ契約解消「昨年からお付き合いしてました。」 [阿弥陀ヶ峰★]
- 【おこめ】ベトナムから密輸のコメを「国産」と偽り販売容疑、ベトナム人ら2人追送検…300トン売って1億3000万円稼いだか 大阪 ★2 [ぐれ★]
- 【ポッケに手】中国外交部局長、11月に日系企業の拠点視察「安心して事業活動をしてほしい」と伝達 [1ゲットロボ★]
- 定数削減「小選挙区25・比例20」軸に検討 自民維新の両党首合意 [ぐれ★]
- とらせん IP
- 競輪実況★1616
- 【DAZN】フォーミュラGP【F1 2 3 SF P】Lap1816
- 【フジテレビ】2025 FORMULA 1【NEXT】Lap609
- 巨専】
- わしせん 楽天モバイル 最強パーク宮城
- サイゼ会長「給料上げないと値上げしないよん」 [449534113]
- 流行語大賞受賞した高市総理、満面の笑顔でニッコリ🧐😁 [153490809]
- Fate/GOスレ
- 【悲報】たぬかな、イベント辞退「身の安全を確保できない」 [329329848]
- 流行語大賞 「働いて働いて働いて」 に [546716239]
- おさかなさんあつまれえ
