光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
OCRソフト 製品版
【ソースネクスト】
1.読取革命 16
2.本格読取 5
【メディアドライブ】
3.e.Typist v.15.0
OCRソフト フリーソフト
4.bunkoOCR
小説を自炊してテキスト化するのであれば3と4にはルビに対応している分有利かも!?
このリストって2016年とほぼ一緒
皆さんは、グーグルドライブとか使うの?
私は、PDFでは残さないのでbunkoOCRに期待しています。
探検
【文字認識】OCRソフト(2文字目)【 自炊 】
■ このスレッドは過去ログ倉庫に格納されています
1名無しさん@お腹いっぱい。
2023/11/30(木) 15:44:45.66ID:oxe9L3uM02023/12/02(土) 21:14:59.87ID:q8rl5vzO0
【無料アプリ】
レシート読み取りで精度が高いのは LINE レシート。撮影した画像も一応残る。
データの再利用はできないが月ごとの利用レポートと店舗単位の支出が確認できる。
品目の順番が入れ替わるのでデータとレシートを比較しにくいが読み取りはだいたいあってるのでおk。
たまに店舗名を読み取ってくれないがその時は不明な店舗になる。修正はできない。
たまに「登録済み」と言われて2枚目のレシートを読み取ってくれないので時刻を消して登録している。3枚あったらアウト。
これが同じ商品同じ金額同じ時間なら分かるんだけどなぜ・・・
機種変してもバックアップとかの面倒はない。
レシーピはどうも一部だけ読み取ってくれない。誤字も多い。機種によって違うかもしれない。明るいと割と正確に読み取ってくれる。
しかし、データをバックアップできる。ZIPなので頑張ればExcelデータを取り出せる。
読み取りが正確なら取り出そうと思えるんだが・・・
Googleレンズで日本語→日本語に翻訳してテキストを取得できる。レシートには向かない。位置情報込みでOCRできればいいのに。
Google Keep は音声登録と同時に認識したテキストを追加してくれる。
Google Keep に貼り付けた画像の編集画面で「画像のテキスト抽出」したらOCRしたテキストを追加してくれる。
ただし、レシートは金額が改行されてたり順不同になるのであくまでキーワード検索に使える程度。
領
収
証
みたいに縦書きになって「領収証」では検索できなくなったりするし
店舗のロゴを読み取れないのでLINEレシートのような店舗名での検索はできない。
電話番号でなら検索できるかも。
Google Keep で直接撮影すると無駄が多いので Googleドライブのスキャン機能が使えるらしい。
自分でやったら PDF で保存されるので Google Keep では開けなかった。
Google Keep と LINEレシートは保存した画像を参照できるので撮影は1回で済ませられる。
レシート読み取りで精度が高いのは LINE レシート。撮影した画像も一応残る。
データの再利用はできないが月ごとの利用レポートと店舗単位の支出が確認できる。
品目の順番が入れ替わるのでデータとレシートを比較しにくいが読み取りはだいたいあってるのでおk。
たまに店舗名を読み取ってくれないがその時は不明な店舗になる。修正はできない。
たまに「登録済み」と言われて2枚目のレシートを読み取ってくれないので時刻を消して登録している。3枚あったらアウト。
これが同じ商品同じ金額同じ時間なら分かるんだけどなぜ・・・
機種変してもバックアップとかの面倒はない。
レシーピはどうも一部だけ読み取ってくれない。誤字も多い。機種によって違うかもしれない。明るいと割と正確に読み取ってくれる。
しかし、データをバックアップできる。ZIPなので頑張ればExcelデータを取り出せる。
読み取りが正確なら取り出そうと思えるんだが・・・
Googleレンズで日本語→日本語に翻訳してテキストを取得できる。レシートには向かない。位置情報込みでOCRできればいいのに。
Google Keep は音声登録と同時に認識したテキストを追加してくれる。
Google Keep に貼り付けた画像の編集画面で「画像のテキスト抽出」したらOCRしたテキストを追加してくれる。
ただし、レシートは金額が改行されてたり順不同になるのであくまでキーワード検索に使える程度。
領
収
証
みたいに縦書きになって「領収証」では検索できなくなったりするし
店舗のロゴを読み取れないのでLINEレシートのような店舗名での検索はできない。
電話番号でなら検索できるかも。
Google Keep で直接撮影すると無駄が多いので Googleドライブのスキャン機能が使えるらしい。
自分でやったら PDF で保存されるので Google Keep では開けなかった。
Google Keep と LINEレシートは保存した画像を参照できるので撮影は1回で済ませられる。
2023/12/02(土) 21:27:20.06ID:q8rl5vzO0
>>2
Google Keep はタグ付けできるので店舗名や「レシート」という言葉でタグ付けしておけばいいかもしれない。
入力の手間はかかるが。
店舗名が読み取れないレシートの場合に店舗名が印刷されたものを並べて撮影したりしているので
↓のようにプリントしたメモを一緒に撮影したらタグの入力はしなくて済むかもしれない。
#店舗名
#レシート
何をどこで買ったか分からなくなるのでそういうのは商品名で検索できないといけないけど
ちゃんと読み取れてかつ検索できるのってないんだよね。
Google Keep なら検索楽そう。
Google Keep はタグ付けできるので店舗名や「レシート」という言葉でタグ付けしておけばいいかもしれない。
入力の手間はかかるが。
店舗名が読み取れないレシートの場合に店舗名が印刷されたものを並べて撮影したりしているので
↓のようにプリントしたメモを一緒に撮影したらタグの入力はしなくて済むかもしれない。
#店舗名
#レシート
何をどこで買ったか分からなくなるのでそういうのは商品名で検索できないといけないけど
ちゃんと読み取れてかつ検索できるのってないんだよね。
Google Keep なら検索楽そう。
2023/12/02(土) 21:42:33.70ID:q8rl5vzO0
表形式でOCRするなら英数で読み取ればブラザープリンタの付属のスキャナで可能。
日本語対応ならレシートも読み取れるのに・・・
ScanSnap HomeのレシートOCR ってのがあるけど、これは合計額しか読み取れないので仕事で使えない。
どうしても商品ごとの価格が必要なので。
もちろん、日付、店舗名、合計額だけが欲しい場合もあるけど、
Google レンズ みたいにリアルタイムにぱっぱぱっぱと読み取ってくれる使い方がしたい。
逆にGoogle レンズ が日付、店舗名、合計額だけに絞ってくれればいいのに・・・
スクリプトで処理するにしても順不同は使えない。
LINEレシートみたいにレイアウトがはっきりしてればまだいいけど。
日本語対応ならレシートも読み取れるのに・・・
ScanSnap HomeのレシートOCR ってのがあるけど、これは合計額しか読み取れないので仕事で使えない。
どうしても商品ごとの価格が必要なので。
もちろん、日付、店舗名、合計額だけが欲しい場合もあるけど、
Google レンズ みたいにリアルタイムにぱっぱぱっぱと読み取ってくれる使い方がしたい。
逆にGoogle レンズ が日付、店舗名、合計額だけに絞ってくれればいいのに・・・
スクリプトで処理するにしても順不同は使えない。
LINEレシートみたいにレイアウトがはっきりしてればまだいいけど。
2023/12/03(日) 13:50:52.00ID:1rszuTWL0
書類をスキャンするだけなら Evernote Scannable はいいんだけど iPhone のみ。
レシーピは iPhone 対応やめちゃって Android だけ。
vFlat Scan - PDF Scanner がお勧めらしくて両対応だけど
あいにく楽天Handには手振れ補正がない・・・
試しにスキャンしたら解像度が低くてつぶれた感じだけどそのままテキスト化したらできた。
それを Google Keep で開いて「画像のテキストを抽出」したら「画像のテキストを認識できません。」と言われた。
もう一度やってみたら認識してくれた。
撮影をやり直すと光源とカメラの角度で明るさ全く違ってるし
多分、遠くから斜めに撮影しないと領域を認識してくれないのでつぶれてしまって読みにくい。
紙のゆがみも補正されてないのはいいことなのか悪いことなのかよくわからない。
大き目横長の「領収証」の字を誤認識してるから問題外かもしれない。
レシーピは iPhone 対応やめちゃって Android だけ。
vFlat Scan - PDF Scanner がお勧めらしくて両対応だけど
あいにく楽天Handには手振れ補正がない・・・
試しにスキャンしたら解像度が低くてつぶれた感じだけどそのままテキスト化したらできた。
それを Google Keep で開いて「画像のテキストを抽出」したら「画像のテキストを認識できません。」と言われた。
もう一度やってみたら認識してくれた。
撮影をやり直すと光源とカメラの角度で明るさ全く違ってるし
多分、遠くから斜めに撮影しないと領域を認識してくれないのでつぶれてしまって読みにくい。
紙のゆがみも補正されてないのはいいことなのか悪いことなのかよくわからない。
大き目横長の「領収証」の字を誤認識してるから問題外かもしれない。
2023/12/03(日) 14:42:47.36ID:1rszuTWL0
Scannableだと下の方カットしても領域認識して自動で撮影してくれて
紙のゆがみ補正してくれてフラットな画像になってて
6品目買ってサイズは215kBで
「農」の字がつぶれてないから認識率よさそう。
問題は iPhone だから
EverNote に保存しないと使い勝手が悪い点。
> Evernote Free のユーザは、Evernote アプリを最大 2 台の端末でご利用いただけます。
> 端末を頻繁に変更していると、端末の削除を繰り返さないよう、エラーメッセージが表示されることがあります。
> これは、端末数制限の不正使用を防ぐための弊社の対策です。
ぎりぎり2台か・・・
LineレシートからはEverNote開けないから
カメラロールに保存して「戻る」にして
Evernoteにも保存すればいいか。
無駄にはなるけど手間はそうかからない。
> Evernote、無料アカウントは「最大50個のノートと1つのノートブック」に
> 関口 聖2023年11月30日 13:01
無理だな・・・
LINEレシート と GoogleKeep を iPhone に入れて Scannable で画像保存すればいいか。
iPhone でも 5S じゃカメラ性能悪いから仕事用には入れられない。個人のを使わないと。
その点複数アカウント切り替えて使える Google Keep は使い勝手が良い。
紙のゆがみ補正してくれてフラットな画像になってて
6品目買ってサイズは215kBで
「農」の字がつぶれてないから認識率よさそう。
問題は iPhone だから
EverNote に保存しないと使い勝手が悪い点。
> Evernote Free のユーザは、Evernote アプリを最大 2 台の端末でご利用いただけます。
> 端末を頻繁に変更していると、端末の削除を繰り返さないよう、エラーメッセージが表示されることがあります。
> これは、端末数制限の不正使用を防ぐための弊社の対策です。
ぎりぎり2台か・・・
LineレシートからはEverNote開けないから
カメラロールに保存して「戻る」にして
Evernoteにも保存すればいいか。
無駄にはなるけど手間はそうかからない。
> Evernote、無料アカウントは「最大50個のノートと1つのノートブック」に
> 関口 聖2023年11月30日 13:01
無理だな・・・
LINEレシート と GoogleKeep を iPhone に入れて Scannable で画像保存すればいいか。
iPhone でも 5S じゃカメラ性能悪いから仕事用には入れられない。個人のを使わないと。
その点複数アカウント切り替えて使える Google Keep は使い勝手が良い。
2023/12/03(日) 16:52:49.57ID:1rszuTWL0
2023/12/03(日) 23:23:20.93ID:90eelsAR0
>>1
過去スレ
【文字認識】OCRソフト【 自炊 】
2016年8月...2023年11月
https://egg.5ch.net/test/read.cgi/software/1470745451/
過去スレ
【文字認識】OCRソフト【 自炊 】
2016年8月...2023年11月
https://egg.5ch.net/test/read.cgi/software/1470745451/
9名無しさん@お腹いっぱい。
2023/12/07(木) 09:30:59.61ID:oKBk48NP0 スレ立て乙
10名無しさん@お腹いっぱい。
2023/12/17(日) 09:27:15.29ID:VZ5Zt6IX0 最近お気に入りの文庫本に水分こぼして乾かしたけどヨレヨレでインクが滲み劣化したので自炊の方法を調べたら今更ながらbunkoOCRを知った
これは凄いねこういうの作れる作者さんに敬意を払います
が如何せん古いPCでNvidiaのグラボ積んでない初代core i7_870で作業したがめっちゃ時間がかかる(笑)
1ページ10分1時間で6ページ…
元画像のスキャンを軽いものにしたら速くなるのかね?
自分で試せば分かるだろうが今やってる最中でその試しは出来ない(笑)
なんか説明書に書かれてる2枚目というのがどういう状態を指してるのか分からんが
古いPCだと仕方ないのかな
まあそれでもtext化出来るソフトを無料で配布してくれてる事に感謝(ㅅ´꒳` )
これは凄いねこういうの作れる作者さんに敬意を払います
が如何せん古いPCでNvidiaのグラボ積んでない初代core i7_870で作業したがめっちゃ時間がかかる(笑)
1ページ10分1時間で6ページ…
元画像のスキャンを軽いものにしたら速くなるのかね?
自分で試せば分かるだろうが今やってる最中でその試しは出来ない(笑)
なんか説明書に書かれてる2枚目というのがどういう状態を指してるのか分からんが
古いPCだと仕方ないのかな
まあそれでもtext化出来るソフトを無料で配布してくれてる事に感謝(ㅅ´꒳` )
1110
2023/12/17(日) 12:47:11.42ID:VZ5Zt6IX0 途中経過
CPUは50~55%、メモリ6.3~6.5GB使用
こういう処理はGPU処理前提なのは当然だろうけど
CPUの使用率を高くすると処理速くなるなら
CPU使用率を最高、標準以上、標準、標準以下のように選べると良いんだけどなあ
まあ新しいPC買えよって話だけどさ
CPUは50~55%、メモリ6.3~6.5GB使用
こういう処理はGPU処理前提なのは当然だろうけど
CPUの使用率を高くすると処理速くなるなら
CPU使用率を最高、標準以上、標準、標準以下のように選べると良いんだけどなあ
まあ新しいPC買えよって話だけどさ
1210
2023/12/17(日) 15:54:01.02ID:VZ5Zt6IX0 まだ途中だか総括
ソをンと間違える確率7割~8割
1文字スペース部分が、空白改行2行に
「噛」や「頬」のように細かいと文字化け
ゴミの・なども文字化け
出来上がったtextは1ページ1ページ確認したほうが良い
textだから手直し出来るのは良い
無料なのでこのぐらいは仕方ないかな
また何かあれば書くかもだが
一応これで終わりにしとく
ソをンと間違える確率7割~8割
1文字スペース部分が、空白改行2行に
「噛」や「頬」のように細かいと文字化け
ゴミの・なども文字化け
出来上がったtextは1ページ1ページ確認したほうが良い
textだから手直し出来るのは良い
無料なのでこのぐらいは仕方ないかな
また何かあれば書くかもだが
一応これで終わりにしとく
13名無しさん@お腹いっぱい。
2023/12/18(月) 03:34:03.44ID:x116ljWz0 ソとンが化けるのはなんとかしたい。改良版の重みデータだとよくなっていてほしい
文字の見かけの大きさが、ふりがなでも20pixelはあると思ってスキャンしに行ってるので、
適宜拡大縮小が必要かも
ゴミが化けるのは、むずい。閾値を下げるとちょっとはよくなるかもしれない
ピリオドとかもあるので、サイズで弾くわけにも行かないし…どうするか
文字の見かけの大きさが、ふりがなでも20pixelはあると思ってスキャンしに行ってるので、
適宜拡大縮小が必要かも
ゴミが化けるのは、むずい。閾値を下げるとちょっとはよくなるかもしれない
ピリオドとかもあるので、サイズで弾くわけにも行かないし…どうするか
2023/12/18(月) 11:59:24.12ID:VCuyDPn10
ダウソタウソ
2023/12/18(月) 17:08:37.26ID:D7Hl2TJD0
1610
2023/12/18(月) 19:50:49.20ID:VFyF28wk0 詳細に聞いてくる人がいるとは思わなかったので話を簡単にする為にちょっと嘘ついた…ちゃんと書きます
25年前の文庫本でかなり黄ばみあり
10ページ近く上側角が折れ曲がっていたので、アルコールを吹きかけて折れ曲がりを直そうと広範囲にアルコールを吹きかけた
1ページ中5行ぐらい上から8文字50ページぐらい濡れる
乾かして折れ曲がりは直るもヨレヨレになったので5kgぐらいの重しで1週間置くほんの1部ヨレヨレが残る
だが、50ページ分インク滲みが発生
背表紙をドライヤーをかけて文庫本全て解体
この時点でOCRというものがある事を知らなかった
知ってたらグレースケールでスキャンしてたと思う
25年前の文庫本でかなり黄ばみあり
10ページ近く上側角が折れ曲がっていたので、アルコールを吹きかけて折れ曲がりを直そうと広範囲にアルコールを吹きかけた
1ページ中5行ぐらい上から8文字50ページぐらい濡れる
乾かして折れ曲がりは直るもヨレヨレになったので5kgぐらいの重しで1週間置くほんの1部ヨレヨレが残る
だが、50ページ分インク滲みが発生
背表紙をドライヤーをかけて文庫本全て解体
この時点でOCRというものがある事を知らなかった
知ってたらグレースケールでスキャンしてたと思う
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【台湾有事】トランプ氏 電話会談で高市総理に発言抑制を要求か 米メディア報道… ★6 [BFU★]
- 「国分太一さんの悪口なんて聞いたことがない」 起業家・溝口勇児氏が擁護「三国志で言えば劉備」「誤解生まれているんじゃないか」 [muffin★]
- 【文春】元TOKIO・国分太一(51)「女性スタッフ2名への“わいせつ事案”」日テレ事情聴取の全貌が分かった! ★9 [Ailuropoda melanoleuca★]
- 【蒲郡ホテル】「中国人団体がキャンセル 損失2000万円」報道に見解公表→「想定内」「中国からの団体客に依存してない」 [nita★]
- 追い詰められているのは「高市首相」ではなく「習近平」? 対日強硬姿勢は「経済悪化」で虚勢、高市首相へ [お断り★]
- 【広島】広陵高校野球部の暴力事案 生徒2人を書類送検する方針 [ぐれ★]
- 【高市悲報】麻生太郎さん、ものすごい顔で官邸入り [115996789]
- 世界一流紙(ロイター、ブルームバーグ、WSJ) 「トランプが高市首相に挑発しないよう助言」 と一斉報道→日本政府は否定wwww [271912485]
- 【悲報】白浜町のパンダ、年1億円のレンタル料で40億円の経済効果があった事が判明する🥹 [616817505]
- 【悲報】「そんなことよりも」高市早苗首相、ついつい余計な一言を言ってしまう [115996789]
- チー牛あるあるwwwwwwwwwwww
- 萩生田議員「直ちに法令に違反するものではないが、道義的観点から返金の上、収支報告書を訂正する」 [834922174]
