光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
OCRソフト 製品版
【ソースネクスト】
1.読取革命 16
2.本格読取 5
【メディアドライブ】
3.e.Typist v.15.0
OCRソフト フリーソフト
4.bunkoOCR
小説を自炊してテキスト化するのであれば3と4にはルビに対応している分有利かも!?
このリストって2016年とほぼ一緒
皆さんは、グーグルドライブとか使うの?
私は、PDFでは残さないのでbunkoOCRに期待しています。
探検
【文字認識】OCRソフト(2文字目)【 自炊 】
■ このスレッドは過去ログ倉庫に格納されています
1名無しさん@お腹いっぱい。
2023/11/30(木) 15:44:45.66ID:oxe9L3uM02023/12/02(土) 21:14:59.87ID:q8rl5vzO0
【無料アプリ】
レシート読み取りで精度が高いのは LINE レシート。撮影した画像も一応残る。
データの再利用はできないが月ごとの利用レポートと店舗単位の支出が確認できる。
品目の順番が入れ替わるのでデータとレシートを比較しにくいが読み取りはだいたいあってるのでおk。
たまに店舗名を読み取ってくれないがその時は不明な店舗になる。修正はできない。
たまに「登録済み」と言われて2枚目のレシートを読み取ってくれないので時刻を消して登録している。3枚あったらアウト。
これが同じ商品同じ金額同じ時間なら分かるんだけどなぜ・・・
機種変してもバックアップとかの面倒はない。
レシーピはどうも一部だけ読み取ってくれない。誤字も多い。機種によって違うかもしれない。明るいと割と正確に読み取ってくれる。
しかし、データをバックアップできる。ZIPなので頑張ればExcelデータを取り出せる。
読み取りが正確なら取り出そうと思えるんだが・・・
Googleレンズで日本語→日本語に翻訳してテキストを取得できる。レシートには向かない。位置情報込みでOCRできればいいのに。
Google Keep は音声登録と同時に認識したテキストを追加してくれる。
Google Keep に貼り付けた画像の編集画面で「画像のテキスト抽出」したらOCRしたテキストを追加してくれる。
ただし、レシートは金額が改行されてたり順不同になるのであくまでキーワード検索に使える程度。
領
収
証
みたいに縦書きになって「領収証」では検索できなくなったりするし
店舗のロゴを読み取れないのでLINEレシートのような店舗名での検索はできない。
電話番号でなら検索できるかも。
Google Keep で直接撮影すると無駄が多いので Googleドライブのスキャン機能が使えるらしい。
自分でやったら PDF で保存されるので Google Keep では開けなかった。
Google Keep と LINEレシートは保存した画像を参照できるので撮影は1回で済ませられる。
レシート読み取りで精度が高いのは LINE レシート。撮影した画像も一応残る。
データの再利用はできないが月ごとの利用レポートと店舗単位の支出が確認できる。
品目の順番が入れ替わるのでデータとレシートを比較しにくいが読み取りはだいたいあってるのでおk。
たまに店舗名を読み取ってくれないがその時は不明な店舗になる。修正はできない。
たまに「登録済み」と言われて2枚目のレシートを読み取ってくれないので時刻を消して登録している。3枚あったらアウト。
これが同じ商品同じ金額同じ時間なら分かるんだけどなぜ・・・
機種変してもバックアップとかの面倒はない。
レシーピはどうも一部だけ読み取ってくれない。誤字も多い。機種によって違うかもしれない。明るいと割と正確に読み取ってくれる。
しかし、データをバックアップできる。ZIPなので頑張ればExcelデータを取り出せる。
読み取りが正確なら取り出そうと思えるんだが・・・
Googleレンズで日本語→日本語に翻訳してテキストを取得できる。レシートには向かない。位置情報込みでOCRできればいいのに。
Google Keep は音声登録と同時に認識したテキストを追加してくれる。
Google Keep に貼り付けた画像の編集画面で「画像のテキスト抽出」したらOCRしたテキストを追加してくれる。
ただし、レシートは金額が改行されてたり順不同になるのであくまでキーワード検索に使える程度。
領
収
証
みたいに縦書きになって「領収証」では検索できなくなったりするし
店舗のロゴを読み取れないのでLINEレシートのような店舗名での検索はできない。
電話番号でなら検索できるかも。
Google Keep で直接撮影すると無駄が多いので Googleドライブのスキャン機能が使えるらしい。
自分でやったら PDF で保存されるので Google Keep では開けなかった。
Google Keep と LINEレシートは保存した画像を参照できるので撮影は1回で済ませられる。
2023/12/02(土) 21:27:20.06ID:q8rl5vzO0
>>2
Google Keep はタグ付けできるので店舗名や「レシート」という言葉でタグ付けしておけばいいかもしれない。
入力の手間はかかるが。
店舗名が読み取れないレシートの場合に店舗名が印刷されたものを並べて撮影したりしているので
↓のようにプリントしたメモを一緒に撮影したらタグの入力はしなくて済むかもしれない。
#店舗名
#レシート
何をどこで買ったか分からなくなるのでそういうのは商品名で検索できないといけないけど
ちゃんと読み取れてかつ検索できるのってないんだよね。
Google Keep なら検索楽そう。
Google Keep はタグ付けできるので店舗名や「レシート」という言葉でタグ付けしておけばいいかもしれない。
入力の手間はかかるが。
店舗名が読み取れないレシートの場合に店舗名が印刷されたものを並べて撮影したりしているので
↓のようにプリントしたメモを一緒に撮影したらタグの入力はしなくて済むかもしれない。
#店舗名
#レシート
何をどこで買ったか分からなくなるのでそういうのは商品名で検索できないといけないけど
ちゃんと読み取れてかつ検索できるのってないんだよね。
Google Keep なら検索楽そう。
2023/12/02(土) 21:42:33.70ID:q8rl5vzO0
表形式でOCRするなら英数で読み取ればブラザープリンタの付属のスキャナで可能。
日本語対応ならレシートも読み取れるのに・・・
ScanSnap HomeのレシートOCR ってのがあるけど、これは合計額しか読み取れないので仕事で使えない。
どうしても商品ごとの価格が必要なので。
もちろん、日付、店舗名、合計額だけが欲しい場合もあるけど、
Google レンズ みたいにリアルタイムにぱっぱぱっぱと読み取ってくれる使い方がしたい。
逆にGoogle レンズ が日付、店舗名、合計額だけに絞ってくれればいいのに・・・
スクリプトで処理するにしても順不同は使えない。
LINEレシートみたいにレイアウトがはっきりしてればまだいいけど。
日本語対応ならレシートも読み取れるのに・・・
ScanSnap HomeのレシートOCR ってのがあるけど、これは合計額しか読み取れないので仕事で使えない。
どうしても商品ごとの価格が必要なので。
もちろん、日付、店舗名、合計額だけが欲しい場合もあるけど、
Google レンズ みたいにリアルタイムにぱっぱぱっぱと読み取ってくれる使い方がしたい。
逆にGoogle レンズ が日付、店舗名、合計額だけに絞ってくれればいいのに・・・
スクリプトで処理するにしても順不同は使えない。
LINEレシートみたいにレイアウトがはっきりしてればまだいいけど。
2023/12/03(日) 13:50:52.00ID:1rszuTWL0
書類をスキャンするだけなら Evernote Scannable はいいんだけど iPhone のみ。
レシーピは iPhone 対応やめちゃって Android だけ。
vFlat Scan - PDF Scanner がお勧めらしくて両対応だけど
あいにく楽天Handには手振れ補正がない・・・
試しにスキャンしたら解像度が低くてつぶれた感じだけどそのままテキスト化したらできた。
それを Google Keep で開いて「画像のテキストを抽出」したら「画像のテキストを認識できません。」と言われた。
もう一度やってみたら認識してくれた。
撮影をやり直すと光源とカメラの角度で明るさ全く違ってるし
多分、遠くから斜めに撮影しないと領域を認識してくれないのでつぶれてしまって読みにくい。
紙のゆがみも補正されてないのはいいことなのか悪いことなのかよくわからない。
大き目横長の「領収証」の字を誤認識してるから問題外かもしれない。
レシーピは iPhone 対応やめちゃって Android だけ。
vFlat Scan - PDF Scanner がお勧めらしくて両対応だけど
あいにく楽天Handには手振れ補正がない・・・
試しにスキャンしたら解像度が低くてつぶれた感じだけどそのままテキスト化したらできた。
それを Google Keep で開いて「画像のテキストを抽出」したら「画像のテキストを認識できません。」と言われた。
もう一度やってみたら認識してくれた。
撮影をやり直すと光源とカメラの角度で明るさ全く違ってるし
多分、遠くから斜めに撮影しないと領域を認識してくれないのでつぶれてしまって読みにくい。
紙のゆがみも補正されてないのはいいことなのか悪いことなのかよくわからない。
大き目横長の「領収証」の字を誤認識してるから問題外かもしれない。
2023/12/03(日) 14:42:47.36ID:1rszuTWL0
Scannableだと下の方カットしても領域認識して自動で撮影してくれて
紙のゆがみ補正してくれてフラットな画像になってて
6品目買ってサイズは215kBで
「農」の字がつぶれてないから認識率よさそう。
問題は iPhone だから
EverNote に保存しないと使い勝手が悪い点。
> Evernote Free のユーザは、Evernote アプリを最大 2 台の端末でご利用いただけます。
> 端末を頻繁に変更していると、端末の削除を繰り返さないよう、エラーメッセージが表示されることがあります。
> これは、端末数制限の不正使用を防ぐための弊社の対策です。
ぎりぎり2台か・・・
LineレシートからはEverNote開けないから
カメラロールに保存して「戻る」にして
Evernoteにも保存すればいいか。
無駄にはなるけど手間はそうかからない。
> Evernote、無料アカウントは「最大50個のノートと1つのノートブック」に
> 関口 聖2023年11月30日 13:01
無理だな・・・
LINEレシート と GoogleKeep を iPhone に入れて Scannable で画像保存すればいいか。
iPhone でも 5S じゃカメラ性能悪いから仕事用には入れられない。個人のを使わないと。
その点複数アカウント切り替えて使える Google Keep は使い勝手が良い。
紙のゆがみ補正してくれてフラットな画像になってて
6品目買ってサイズは215kBで
「農」の字がつぶれてないから認識率よさそう。
問題は iPhone だから
EverNote に保存しないと使い勝手が悪い点。
> Evernote Free のユーザは、Evernote アプリを最大 2 台の端末でご利用いただけます。
> 端末を頻繁に変更していると、端末の削除を繰り返さないよう、エラーメッセージが表示されることがあります。
> これは、端末数制限の不正使用を防ぐための弊社の対策です。
ぎりぎり2台か・・・
LineレシートからはEverNote開けないから
カメラロールに保存して「戻る」にして
Evernoteにも保存すればいいか。
無駄にはなるけど手間はそうかからない。
> Evernote、無料アカウントは「最大50個のノートと1つのノートブック」に
> 関口 聖2023年11月30日 13:01
無理だな・・・
LINEレシート と GoogleKeep を iPhone に入れて Scannable で画像保存すればいいか。
iPhone でも 5S じゃカメラ性能悪いから仕事用には入れられない。個人のを使わないと。
その点複数アカウント切り替えて使える Google Keep は使い勝手が良い。
2023/12/03(日) 16:52:49.57ID:1rszuTWL0
2023/12/03(日) 23:23:20.93ID:90eelsAR0
>>1
過去スレ
【文字認識】OCRソフト【 自炊 】
2016年8月...2023年11月
https://egg.5ch.net/test/read.cgi/software/1470745451/
過去スレ
【文字認識】OCRソフト【 自炊 】
2016年8月...2023年11月
https://egg.5ch.net/test/read.cgi/software/1470745451/
9名無しさん@お腹いっぱい。
2023/12/07(木) 09:30:59.61ID:oKBk48NP0 スレ立て乙
10名無しさん@お腹いっぱい。
2023/12/17(日) 09:27:15.29ID:VZ5Zt6IX0 最近お気に入りの文庫本に水分こぼして乾かしたけどヨレヨレでインクが滲み劣化したので自炊の方法を調べたら今更ながらbunkoOCRを知った
これは凄いねこういうの作れる作者さんに敬意を払います
が如何せん古いPCでNvidiaのグラボ積んでない初代core i7_870で作業したがめっちゃ時間がかかる(笑)
1ページ10分1時間で6ページ…
元画像のスキャンを軽いものにしたら速くなるのかね?
自分で試せば分かるだろうが今やってる最中でその試しは出来ない(笑)
なんか説明書に書かれてる2枚目というのがどういう状態を指してるのか分からんが
古いPCだと仕方ないのかな
まあそれでもtext化出来るソフトを無料で配布してくれてる事に感謝(ㅅ´꒳` )
これは凄いねこういうの作れる作者さんに敬意を払います
が如何せん古いPCでNvidiaのグラボ積んでない初代core i7_870で作業したがめっちゃ時間がかかる(笑)
1ページ10分1時間で6ページ…
元画像のスキャンを軽いものにしたら速くなるのかね?
自分で試せば分かるだろうが今やってる最中でその試しは出来ない(笑)
なんか説明書に書かれてる2枚目というのがどういう状態を指してるのか分からんが
古いPCだと仕方ないのかな
まあそれでもtext化出来るソフトを無料で配布してくれてる事に感謝(ㅅ´꒳` )
1110
2023/12/17(日) 12:47:11.42ID:VZ5Zt6IX0 途中経過
CPUは50~55%、メモリ6.3~6.5GB使用
こういう処理はGPU処理前提なのは当然だろうけど
CPUの使用率を高くすると処理速くなるなら
CPU使用率を最高、標準以上、標準、標準以下のように選べると良いんだけどなあ
まあ新しいPC買えよって話だけどさ
CPUは50~55%、メモリ6.3~6.5GB使用
こういう処理はGPU処理前提なのは当然だろうけど
CPUの使用率を高くすると処理速くなるなら
CPU使用率を最高、標準以上、標準、標準以下のように選べると良いんだけどなあ
まあ新しいPC買えよって話だけどさ
1210
2023/12/17(日) 15:54:01.02ID:VZ5Zt6IX0 まだ途中だか総括
ソをンと間違える確率7割~8割
1文字スペース部分が、空白改行2行に
「噛」や「頬」のように細かいと文字化け
ゴミの・なども文字化け
出来上がったtextは1ページ1ページ確認したほうが良い
textだから手直し出来るのは良い
無料なのでこのぐらいは仕方ないかな
また何かあれば書くかもだが
一応これで終わりにしとく
ソをンと間違える確率7割~8割
1文字スペース部分が、空白改行2行に
「噛」や「頬」のように細かいと文字化け
ゴミの・なども文字化け
出来上がったtextは1ページ1ページ確認したほうが良い
textだから手直し出来るのは良い
無料なのでこのぐらいは仕方ないかな
また何かあれば書くかもだが
一応これで終わりにしとく
13名無しさん@お腹いっぱい。
2023/12/18(月) 03:34:03.44ID:x116ljWz0 ソとンが化けるのはなんとかしたい。改良版の重みデータだとよくなっていてほしい
文字の見かけの大きさが、ふりがなでも20pixelはあると思ってスキャンしに行ってるので、
適宜拡大縮小が必要かも
ゴミが化けるのは、むずい。閾値を下げるとちょっとはよくなるかもしれない
ピリオドとかもあるので、サイズで弾くわけにも行かないし…どうするか
文字の見かけの大きさが、ふりがなでも20pixelはあると思ってスキャンしに行ってるので、
適宜拡大縮小が必要かも
ゴミが化けるのは、むずい。閾値を下げるとちょっとはよくなるかもしれない
ピリオドとかもあるので、サイズで弾くわけにも行かないし…どうするか
2023/12/18(月) 11:59:24.12ID:VCuyDPn10
ダウソタウソ
2023/12/18(月) 17:08:37.26ID:D7Hl2TJD0
1610
2023/12/18(月) 19:50:49.20ID:VFyF28wk0 詳細に聞いてくる人がいるとは思わなかったので話を簡単にする為にちょっと嘘ついた…ちゃんと書きます
25年前の文庫本でかなり黄ばみあり
10ページ近く上側角が折れ曲がっていたので、アルコールを吹きかけて折れ曲がりを直そうと広範囲にアルコールを吹きかけた
1ページ中5行ぐらい上から8文字50ページぐらい濡れる
乾かして折れ曲がりは直るもヨレヨレになったので5kgぐらいの重しで1週間置くほんの1部ヨレヨレが残る
だが、50ページ分インク滲みが発生
背表紙をドライヤーをかけて文庫本全て解体
この時点でOCRというものがある事を知らなかった
知ってたらグレースケールでスキャンしてたと思う
25年前の文庫本でかなり黄ばみあり
10ページ近く上側角が折れ曲がっていたので、アルコールを吹きかけて折れ曲がりを直そうと広範囲にアルコールを吹きかけた
1ページ中5行ぐらい上から8文字50ページぐらい濡れる
乾かして折れ曲がりは直るもヨレヨレになったので5kgぐらいの重しで1週間置くほんの1部ヨレヨレが残る
だが、50ページ分インク滲みが発生
背表紙をドライヤーをかけて文庫本全て解体
この時点でOCRというものがある事を知らなかった
知ってたらグレースケールでスキャンしてたと思う
1710
2023/12/18(月) 19:51:16.84ID:VFyF28wk0 >>16
プリンターで1枚1枚モノクロで600dpi、BMP形式でスキャン
インク滲みのページはやはりインク滲みまで写り込むので
裏に黒画用紙を乗せて再スキャンするとインク滲みの写り込みが薄くなり、モヤがかかってる程度で読めないという事は無い
全て終わりインク滲みが写らない方法を調べてるうちにOCRというのがあるのを知る…ここでグレースケールで再スキャンは面倒なのでモノクロのまま
bunkoOCRを試してレスの10~12になる
さて、インク滲みの部分の話だが
blank cutoffを200にして実行してみると、インク滲みの部分は1文字も間違えて無い
ただし、文字部分ではなく空白部分で・のゴミのように滲んでる部分は文字化けした
だが文字の部分のインク滲みによる文字化けは無い
プリンターで1枚1枚モノクロで600dpi、BMP形式でスキャン
インク滲みのページはやはりインク滲みまで写り込むので
裏に黒画用紙を乗せて再スキャンするとインク滲みの写り込みが薄くなり、モヤがかかってる程度で読めないという事は無い
全て終わりインク滲みが写らない方法を調べてるうちにOCRというのがあるのを知る…ここでグレースケールで再スキャンは面倒なのでモノクロのまま
bunkoOCRを試してレスの10~12になる
さて、インク滲みの部分の話だが
blank cutoffを200にして実行してみると、インク滲みの部分は1文字も間違えて無い
ただし、文字部分ではなく空白部分で・のゴミのように滲んでる部分は文字化けした
だが文字の部分のインク滲みによる文字化けは無い
1810
2023/12/18(月) 20:17:18.10ID:VFyF28wk0 調べて見ると有料ソフトでも文字認識が100%ではないので
bunkoOCRは無料ソフトとしては優秀だと思う
実はGPUは積んでるが古いRADEONなのでエンコード支援は無いと思うのでCPUだけといってもいいかな
古いCPUでまわすなら文庫本数冊ならまだしも…
何十冊以上はbunkoOCRがーじゃなく
他ソフト含めてOCR化する事自体が無茶だと思うw
bunkoOCRは無料ソフトとしては優秀だと思う
実はGPUは積んでるが古いRADEONなのでエンコード支援は無いと思うのでCPUだけといってもいいかな
古いCPUでまわすなら文庫本数冊ならまだしも…
何十冊以上はbunkoOCRがーじゃなく
他ソフト含めてOCR化する事自体が無茶だと思うw
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 高市内閣の若い世代の支持率は92.4% FNN世論調査★4 [♪♪♪★]
- 【芸能】波瑠と高杉真宙が結婚 ドラマ共演きっかけで交際2年ゴールイン 12月上旬に婚姻届提出し既に挙式終え (スポニチ) [湛然★]
- 【MLB】村上宗隆の『小型契約』は吉田正尚の影響か 市場が思いのほか停滞 「NPB打者に懐疑的。吉田が高すぎた」 [冬月記者★]
- 【徳島】「体調が悪くなったら自己責任」と同意書求める 最長1年2か月期限切れ 生活保護受給者に賞味期限切れ食品を支給 徳島市 ★3 [ぐれ★]
- 「ONE PIECE」尾田栄一郎、原作は「ここからが大変」「僕は歳をとってしまったので最高速度で来年もズッシリドッシリ航海します」 [muffin★]
- マツコ、令和の“おせち離れ”に理解「辞める人が出てくるのもわかるよね」「子供も食わなかったり」 [muffin★]
- 今日の夜たぶんとんでもないセックスが起こる
- 【正論】X「誰だよチャーハンをレンゲで食う文化作ったやつ💢スプーンのが食べやすいだろ」 [394133584]
- お前らってアナルモンスターだよな
- 平和立国だったわーくにが一気に戦争に傾いてるのめちゃくちゃ面白いよな [455031798]
- 中国って毎日日本のことの報道してるけどよほど日本が好きなんだな
- 波瑠と高杉真宙が結婚 [256556981]
