光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
OCRソフト 製品版
【ソースネクスト】
1.読取革命 16
2.本格読取 5
【メディアドライブ】
3.e.Typist v.15.0
OCRソフト フリーソフト
4.bunkoOCR
小説を自炊してテキスト化するのであれば3と4にはルビに対応している分有利かも!?
このリストって2016年とほぼ一緒
皆さんは、グーグルドライブとか使うの?
私は、PDFでは残さないのでbunkoOCRに期待しています。
【文字認識】OCRソフト(2文字目)【 自炊 】
■ このスレッドは過去ログ倉庫に格納されています
1名無しさん@お腹いっぱい。
2023/11/30(木) 15:44:45.66ID:oxe9L3uM02023/12/02(土) 21:14:59.87ID:q8rl5vzO0
【無料アプリ】
レシート読み取りで精度が高いのは LINE レシート。撮影した画像も一応残る。
データの再利用はできないが月ごとの利用レポートと店舗単位の支出が確認できる。
品目の順番が入れ替わるのでデータとレシートを比較しにくいが読み取りはだいたいあってるのでおk。
たまに店舗名を読み取ってくれないがその時は不明な店舗になる。修正はできない。
たまに「登録済み」と言われて2枚目のレシートを読み取ってくれないので時刻を消して登録している。3枚あったらアウト。
これが同じ商品同じ金額同じ時間なら分かるんだけどなぜ・・・
機種変してもバックアップとかの面倒はない。
レシーピはどうも一部だけ読み取ってくれない。誤字も多い。機種によって違うかもしれない。明るいと割と正確に読み取ってくれる。
しかし、データをバックアップできる。ZIPなので頑張ればExcelデータを取り出せる。
読み取りが正確なら取り出そうと思えるんだが・・・
Googleレンズで日本語→日本語に翻訳してテキストを取得できる。レシートには向かない。位置情報込みでOCRできればいいのに。
Google Keep は音声登録と同時に認識したテキストを追加してくれる。
Google Keep に貼り付けた画像の編集画面で「画像のテキスト抽出」したらOCRしたテキストを追加してくれる。
ただし、レシートは金額が改行されてたり順不同になるのであくまでキーワード検索に使える程度。
領
収
証
みたいに縦書きになって「領収証」では検索できなくなったりするし
店舗のロゴを読み取れないのでLINEレシートのような店舗名での検索はできない。
電話番号でなら検索できるかも。
Google Keep で直接撮影すると無駄が多いので Googleドライブのスキャン機能が使えるらしい。
自分でやったら PDF で保存されるので Google Keep では開けなかった。
Google Keep と LINEレシートは保存した画像を参照できるので撮影は1回で済ませられる。
レシート読み取りで精度が高いのは LINE レシート。撮影した画像も一応残る。
データの再利用はできないが月ごとの利用レポートと店舗単位の支出が確認できる。
品目の順番が入れ替わるのでデータとレシートを比較しにくいが読み取りはだいたいあってるのでおk。
たまに店舗名を読み取ってくれないがその時は不明な店舗になる。修正はできない。
たまに「登録済み」と言われて2枚目のレシートを読み取ってくれないので時刻を消して登録している。3枚あったらアウト。
これが同じ商品同じ金額同じ時間なら分かるんだけどなぜ・・・
機種変してもバックアップとかの面倒はない。
レシーピはどうも一部だけ読み取ってくれない。誤字も多い。機種によって違うかもしれない。明るいと割と正確に読み取ってくれる。
しかし、データをバックアップできる。ZIPなので頑張ればExcelデータを取り出せる。
読み取りが正確なら取り出そうと思えるんだが・・・
Googleレンズで日本語→日本語に翻訳してテキストを取得できる。レシートには向かない。位置情報込みでOCRできればいいのに。
Google Keep は音声登録と同時に認識したテキストを追加してくれる。
Google Keep に貼り付けた画像の編集画面で「画像のテキスト抽出」したらOCRしたテキストを追加してくれる。
ただし、レシートは金額が改行されてたり順不同になるのであくまでキーワード検索に使える程度。
領
収
証
みたいに縦書きになって「領収証」では検索できなくなったりするし
店舗のロゴを読み取れないのでLINEレシートのような店舗名での検索はできない。
電話番号でなら検索できるかも。
Google Keep で直接撮影すると無駄が多いので Googleドライブのスキャン機能が使えるらしい。
自分でやったら PDF で保存されるので Google Keep では開けなかった。
Google Keep と LINEレシートは保存した画像を参照できるので撮影は1回で済ませられる。
2023/12/02(土) 21:27:20.06ID:q8rl5vzO0
>>2
Google Keep はタグ付けできるので店舗名や「レシート」という言葉でタグ付けしておけばいいかもしれない。
入力の手間はかかるが。
店舗名が読み取れないレシートの場合に店舗名が印刷されたものを並べて撮影したりしているので
↓のようにプリントしたメモを一緒に撮影したらタグの入力はしなくて済むかもしれない。
#店舗名
#レシート
何をどこで買ったか分からなくなるのでそういうのは商品名で検索できないといけないけど
ちゃんと読み取れてかつ検索できるのってないんだよね。
Google Keep なら検索楽そう。
Google Keep はタグ付けできるので店舗名や「レシート」という言葉でタグ付けしておけばいいかもしれない。
入力の手間はかかるが。
店舗名が読み取れないレシートの場合に店舗名が印刷されたものを並べて撮影したりしているので
↓のようにプリントしたメモを一緒に撮影したらタグの入力はしなくて済むかもしれない。
#店舗名
#レシート
何をどこで買ったか分からなくなるのでそういうのは商品名で検索できないといけないけど
ちゃんと読み取れてかつ検索できるのってないんだよね。
Google Keep なら検索楽そう。
2023/12/02(土) 21:42:33.70ID:q8rl5vzO0
表形式でOCRするなら英数で読み取ればブラザープリンタの付属のスキャナで可能。
日本語対応ならレシートも読み取れるのに・・・
ScanSnap HomeのレシートOCR ってのがあるけど、これは合計額しか読み取れないので仕事で使えない。
どうしても商品ごとの価格が必要なので。
もちろん、日付、店舗名、合計額だけが欲しい場合もあるけど、
Google レンズ みたいにリアルタイムにぱっぱぱっぱと読み取ってくれる使い方がしたい。
逆にGoogle レンズ が日付、店舗名、合計額だけに絞ってくれればいいのに・・・
スクリプトで処理するにしても順不同は使えない。
LINEレシートみたいにレイアウトがはっきりしてればまだいいけど。
日本語対応ならレシートも読み取れるのに・・・
ScanSnap HomeのレシートOCR ってのがあるけど、これは合計額しか読み取れないので仕事で使えない。
どうしても商品ごとの価格が必要なので。
もちろん、日付、店舗名、合計額だけが欲しい場合もあるけど、
Google レンズ みたいにリアルタイムにぱっぱぱっぱと読み取ってくれる使い方がしたい。
逆にGoogle レンズ が日付、店舗名、合計額だけに絞ってくれればいいのに・・・
スクリプトで処理するにしても順不同は使えない。
LINEレシートみたいにレイアウトがはっきりしてればまだいいけど。
2023/12/03(日) 13:50:52.00ID:1rszuTWL0
書類をスキャンするだけなら Evernote Scannable はいいんだけど iPhone のみ。
レシーピは iPhone 対応やめちゃって Android だけ。
vFlat Scan - PDF Scanner がお勧めらしくて両対応だけど
あいにく楽天Handには手振れ補正がない・・・
試しにスキャンしたら解像度が低くてつぶれた感じだけどそのままテキスト化したらできた。
それを Google Keep で開いて「画像のテキストを抽出」したら「画像のテキストを認識できません。」と言われた。
もう一度やってみたら認識してくれた。
撮影をやり直すと光源とカメラの角度で明るさ全く違ってるし
多分、遠くから斜めに撮影しないと領域を認識してくれないのでつぶれてしまって読みにくい。
紙のゆがみも補正されてないのはいいことなのか悪いことなのかよくわからない。
大き目横長の「領収証」の字を誤認識してるから問題外かもしれない。
レシーピは iPhone 対応やめちゃって Android だけ。
vFlat Scan - PDF Scanner がお勧めらしくて両対応だけど
あいにく楽天Handには手振れ補正がない・・・
試しにスキャンしたら解像度が低くてつぶれた感じだけどそのままテキスト化したらできた。
それを Google Keep で開いて「画像のテキストを抽出」したら「画像のテキストを認識できません。」と言われた。
もう一度やってみたら認識してくれた。
撮影をやり直すと光源とカメラの角度で明るさ全く違ってるし
多分、遠くから斜めに撮影しないと領域を認識してくれないのでつぶれてしまって読みにくい。
紙のゆがみも補正されてないのはいいことなのか悪いことなのかよくわからない。
大き目横長の「領収証」の字を誤認識してるから問題外かもしれない。
2023/12/03(日) 14:42:47.36ID:1rszuTWL0
Scannableだと下の方カットしても領域認識して自動で撮影してくれて
紙のゆがみ補正してくれてフラットな画像になってて
6品目買ってサイズは215kBで
「農」の字がつぶれてないから認識率よさそう。
問題は iPhone だから
EverNote に保存しないと使い勝手が悪い点。
> Evernote Free のユーザは、Evernote アプリを最大 2 台の端末でご利用いただけます。
> 端末を頻繁に変更していると、端末の削除を繰り返さないよう、エラーメッセージが表示されることがあります。
> これは、端末数制限の不正使用を防ぐための弊社の対策です。
ぎりぎり2台か・・・
LineレシートからはEverNote開けないから
カメラロールに保存して「戻る」にして
Evernoteにも保存すればいいか。
無駄にはなるけど手間はそうかからない。
> Evernote、無料アカウントは「最大50個のノートと1つのノートブック」に
> 関口 聖2023年11月30日 13:01
無理だな・・・
LINEレシート と GoogleKeep を iPhone に入れて Scannable で画像保存すればいいか。
iPhone でも 5S じゃカメラ性能悪いから仕事用には入れられない。個人のを使わないと。
その点複数アカウント切り替えて使える Google Keep は使い勝手が良い。
紙のゆがみ補正してくれてフラットな画像になってて
6品目買ってサイズは215kBで
「農」の字がつぶれてないから認識率よさそう。
問題は iPhone だから
EverNote に保存しないと使い勝手が悪い点。
> Evernote Free のユーザは、Evernote アプリを最大 2 台の端末でご利用いただけます。
> 端末を頻繁に変更していると、端末の削除を繰り返さないよう、エラーメッセージが表示されることがあります。
> これは、端末数制限の不正使用を防ぐための弊社の対策です。
ぎりぎり2台か・・・
LineレシートからはEverNote開けないから
カメラロールに保存して「戻る」にして
Evernoteにも保存すればいいか。
無駄にはなるけど手間はそうかからない。
> Evernote、無料アカウントは「最大50個のノートと1つのノートブック」に
> 関口 聖2023年11月30日 13:01
無理だな・・・
LINEレシート と GoogleKeep を iPhone に入れて Scannable で画像保存すればいいか。
iPhone でも 5S じゃカメラ性能悪いから仕事用には入れられない。個人のを使わないと。
その点複数アカウント切り替えて使える Google Keep は使い勝手が良い。
2023/12/03(日) 16:52:49.57ID:1rszuTWL0
2023/12/03(日) 23:23:20.93ID:90eelsAR0
>>1
過去スレ
【文字認識】OCRソフト【 自炊 】
2016年8月...2023年11月
https://egg.5ch.net/test/read.cgi/software/1470745451/
過去スレ
【文字認識】OCRソフト【 自炊 】
2016年8月...2023年11月
https://egg.5ch.net/test/read.cgi/software/1470745451/
9名無しさん@お腹いっぱい。
2023/12/07(木) 09:30:59.61ID:oKBk48NP0 スレ立て乙
10名無しさん@お腹いっぱい。
2023/12/17(日) 09:27:15.29ID:VZ5Zt6IX0 最近お気に入りの文庫本に水分こぼして乾かしたけどヨレヨレでインクが滲み劣化したので自炊の方法を調べたら今更ながらbunkoOCRを知った
これは凄いねこういうの作れる作者さんに敬意を払います
が如何せん古いPCでNvidiaのグラボ積んでない初代core i7_870で作業したがめっちゃ時間がかかる(笑)
1ページ10分1時間で6ページ…
元画像のスキャンを軽いものにしたら速くなるのかね?
自分で試せば分かるだろうが今やってる最中でその試しは出来ない(笑)
なんか説明書に書かれてる2枚目というのがどういう状態を指してるのか分からんが
古いPCだと仕方ないのかな
まあそれでもtext化出来るソフトを無料で配布してくれてる事に感謝(ㅅ´꒳` )
これは凄いねこういうの作れる作者さんに敬意を払います
が如何せん古いPCでNvidiaのグラボ積んでない初代core i7_870で作業したがめっちゃ時間がかかる(笑)
1ページ10分1時間で6ページ…
元画像のスキャンを軽いものにしたら速くなるのかね?
自分で試せば分かるだろうが今やってる最中でその試しは出来ない(笑)
なんか説明書に書かれてる2枚目というのがどういう状態を指してるのか分からんが
古いPCだと仕方ないのかな
まあそれでもtext化出来るソフトを無料で配布してくれてる事に感謝(ㅅ´꒳` )
1110
2023/12/17(日) 12:47:11.42ID:VZ5Zt6IX0 途中経過
CPUは50~55%、メモリ6.3~6.5GB使用
こういう処理はGPU処理前提なのは当然だろうけど
CPUの使用率を高くすると処理速くなるなら
CPU使用率を最高、標準以上、標準、標準以下のように選べると良いんだけどなあ
まあ新しいPC買えよって話だけどさ
CPUは50~55%、メモリ6.3~6.5GB使用
こういう処理はGPU処理前提なのは当然だろうけど
CPUの使用率を高くすると処理速くなるなら
CPU使用率を最高、標準以上、標準、標準以下のように選べると良いんだけどなあ
まあ新しいPC買えよって話だけどさ
1210
2023/12/17(日) 15:54:01.02ID:VZ5Zt6IX0 まだ途中だか総括
ソをンと間違える確率7割~8割
1文字スペース部分が、空白改行2行に
「噛」や「頬」のように細かいと文字化け
ゴミの・なども文字化け
出来上がったtextは1ページ1ページ確認したほうが良い
textだから手直し出来るのは良い
無料なのでこのぐらいは仕方ないかな
また何かあれば書くかもだが
一応これで終わりにしとく
ソをンと間違える確率7割~8割
1文字スペース部分が、空白改行2行に
「噛」や「頬」のように細かいと文字化け
ゴミの・なども文字化け
出来上がったtextは1ページ1ページ確認したほうが良い
textだから手直し出来るのは良い
無料なのでこのぐらいは仕方ないかな
また何かあれば書くかもだが
一応これで終わりにしとく
13名無しさん@お腹いっぱい。
2023/12/18(月) 03:34:03.44ID:x116ljWz0 ソとンが化けるのはなんとかしたい。改良版の重みデータだとよくなっていてほしい
文字の見かけの大きさが、ふりがなでも20pixelはあると思ってスキャンしに行ってるので、
適宜拡大縮小が必要かも
ゴミが化けるのは、むずい。閾値を下げるとちょっとはよくなるかもしれない
ピリオドとかもあるので、サイズで弾くわけにも行かないし…どうするか
文字の見かけの大きさが、ふりがなでも20pixelはあると思ってスキャンしに行ってるので、
適宜拡大縮小が必要かも
ゴミが化けるのは、むずい。閾値を下げるとちょっとはよくなるかもしれない
ピリオドとかもあるので、サイズで弾くわけにも行かないし…どうするか
2023/12/18(月) 11:59:24.12ID:VCuyDPn10
ダウソタウソ
2023/12/18(月) 17:08:37.26ID:D7Hl2TJD0
1610
2023/12/18(月) 19:50:49.20ID:VFyF28wk0 詳細に聞いてくる人がいるとは思わなかったので話を簡単にする為にちょっと嘘ついた…ちゃんと書きます
25年前の文庫本でかなり黄ばみあり
10ページ近く上側角が折れ曲がっていたので、アルコールを吹きかけて折れ曲がりを直そうと広範囲にアルコールを吹きかけた
1ページ中5行ぐらい上から8文字50ページぐらい濡れる
乾かして折れ曲がりは直るもヨレヨレになったので5kgぐらいの重しで1週間置くほんの1部ヨレヨレが残る
だが、50ページ分インク滲みが発生
背表紙をドライヤーをかけて文庫本全て解体
この時点でOCRというものがある事を知らなかった
知ってたらグレースケールでスキャンしてたと思う
25年前の文庫本でかなり黄ばみあり
10ページ近く上側角が折れ曲がっていたので、アルコールを吹きかけて折れ曲がりを直そうと広範囲にアルコールを吹きかけた
1ページ中5行ぐらい上から8文字50ページぐらい濡れる
乾かして折れ曲がりは直るもヨレヨレになったので5kgぐらいの重しで1週間置くほんの1部ヨレヨレが残る
だが、50ページ分インク滲みが発生
背表紙をドライヤーをかけて文庫本全て解体
この時点でOCRというものがある事を知らなかった
知ってたらグレースケールでスキャンしてたと思う
1710
2023/12/18(月) 19:51:16.84ID:VFyF28wk0 >>16
プリンターで1枚1枚モノクロで600dpi、BMP形式でスキャン
インク滲みのページはやはりインク滲みまで写り込むので
裏に黒画用紙を乗せて再スキャンするとインク滲みの写り込みが薄くなり、モヤがかかってる程度で読めないという事は無い
全て終わりインク滲みが写らない方法を調べてるうちにOCRというのがあるのを知る…ここでグレースケールで再スキャンは面倒なのでモノクロのまま
bunkoOCRを試してレスの10~12になる
さて、インク滲みの部分の話だが
blank cutoffを200にして実行してみると、インク滲みの部分は1文字も間違えて無い
ただし、文字部分ではなく空白部分で・のゴミのように滲んでる部分は文字化けした
だが文字の部分のインク滲みによる文字化けは無い
プリンターで1枚1枚モノクロで600dpi、BMP形式でスキャン
インク滲みのページはやはりインク滲みまで写り込むので
裏に黒画用紙を乗せて再スキャンするとインク滲みの写り込みが薄くなり、モヤがかかってる程度で読めないという事は無い
全て終わりインク滲みが写らない方法を調べてるうちにOCRというのがあるのを知る…ここでグレースケールで再スキャンは面倒なのでモノクロのまま
bunkoOCRを試してレスの10~12になる
さて、インク滲みの部分の話だが
blank cutoffを200にして実行してみると、インク滲みの部分は1文字も間違えて無い
ただし、文字部分ではなく空白部分で・のゴミのように滲んでる部分は文字化けした
だが文字の部分のインク滲みによる文字化けは無い
1810
2023/12/18(月) 20:17:18.10ID:VFyF28wk0 調べて見ると有料ソフトでも文字認識が100%ではないので
bunkoOCRは無料ソフトとしては優秀だと思う
実はGPUは積んでるが古いRADEONなのでエンコード支援は無いと思うのでCPUだけといってもいいかな
古いCPUでまわすなら文庫本数冊ならまだしも…
何十冊以上はbunkoOCRがーじゃなく
他ソフト含めてOCR化する事自体が無茶だと思うw
bunkoOCRは無料ソフトとしては優秀だと思う
実はGPUは積んでるが古いRADEONなのでエンコード支援は無いと思うのでCPUだけといってもいいかな
古いCPUでまわすなら文庫本数冊ならまだしも…
何十冊以上はbunkoOCRがーじゃなく
他ソフト含めてOCR化する事自体が無茶だと思うw
19名無しさん@お腹いっぱい。
2023/12/18(月) 20:55:50.11ID:x116ljWz0 bunkoOCRは、GPUとかNeural Engineの支援ありきでモデル作ったので、
正直CPUだと実用的な速度ではないと思うです。
もうちょい軽いモデルとかも試してみてるけど、精度を優先すると速度が…だし、
速度を優先すると精度が…になる
正直CPUだと実用的な速度ではないと思うです。
もうちょい軽いモデルとかも試してみてるけど、精度を優先すると速度が…だし、
速度を優先すると精度が…になる
2010
2023/12/18(月) 23:25:12.94ID:VFyF28wk0 作者さんかな?
支援してくれるGPU積んでないPCで作業するのが元々が無茶振りなのであまり気にせずに
CPU使用率が50%ぐらいなんで長時間回してても心配にならなくて良いかも
私事ですが
windows12が来たらPCを新調する予定なので
それまではボチボチやります
支援してくれるGPU積んでないPCで作業するのが元々が無茶振りなのであまり気にせずに
CPU使用率が50%ぐらいなんで長時間回してても心配にならなくて良いかも
私事ですが
windows12が来たらPCを新調する予定なので
それまではボチボチやります
2023/12/18(月) 23:52:31.95ID:JCsA0f5F0
>>16-18
状況説明ありがとう
自分は何年間も仕舞いっ放しの古い本をどうしようか考えていて将来的にはスキャンしようかと情報収集している段階です
インク滲みは経年劣化でも起こるはずなのでチョット焦ったけどOCRは大丈夫な様で安堵、また先延ばしかw
>作者さん
そんな訳でご自分のペースで気長にやって下さい
状況説明ありがとう
自分は何年間も仕舞いっ放しの古い本をどうしようか考えていて将来的にはスキャンしようかと情報収集している段階です
インク滲みは経年劣化でも起こるはずなのでチョット焦ったけどOCRは大丈夫な様で安堵、また先延ばしかw
>作者さん
そんな訳でご自分のペースで気長にやって下さい
22名無しさん@お腹いっぱい。
2023/12/19(火) 14:09:35.64ID:XU+ixZr/0 bunkoOCRはうちの本棚から溢れてる文庫本をスキャンして整理しようと考えて作ったけど
まだ修正点が多くてうちでも実運用に入れてないw
見直さなくてもいいくらいの精度が欲しいけど、なかなか完璧とはいかないね…
最新のiPhone買うと、写真撮ってしかもOCRできる位のチップ積んでるので、実はおすすめです
まだ修正点が多くてうちでも実運用に入れてないw
見直さなくてもいいくらいの精度が欲しいけど、なかなか完璧とはいかないね…
最新のiPhone買うと、写真撮ってしかもOCRできる位のチップ積んでるので、実はおすすめです
2310
2023/12/19(火) 15:42:12.11ID:cfgYBzJA0 作者さん乙です(^^)
まあ間違える文字はたいてい決まってるのでtxt開いて、該当文字検索していけばサクサク手直し出来るからそこまで苦では無いですね
さて
文庫本1冊終わったので色々と試してみたが対象のスキャンファイルが小さいサイズだと、まばらにしか文字認識しない
waifu2x-caffeで拡大してみると認識文字数が増えていくね
ファイル形式はjpg、bmp、pngというのは関係なさげ
文庫本のような縦書きじゃなく、雑誌掲載の文字で1ページに縦書きが3段になってるものを上手くtxt化出来ると良いのだが…
まあ間違える文字はたいてい決まってるのでtxt開いて、該当文字検索していけばサクサク手直し出来るからそこまで苦では無いですね
さて
文庫本1冊終わったので色々と試してみたが対象のスキャンファイルが小さいサイズだと、まばらにしか文字認識しない
waifu2x-caffeで拡大してみると認識文字数が増えていくね
ファイル形式はjpg、bmp、pngというのは関係なさげ
文庫本のような縦書きじゃなく、雑誌掲載の文字で1ページに縦書きが3段になってるものを上手くtxt化出来ると良いのだが…
24名無しさん@お腹いっぱい。
2023/12/19(火) 17:14:36.85ID:XU+ixZr/0 段組の間を検出して、そこで行を切るようにしてるので、意図としては雑誌もいけるはず。
なんだけど、見出しがあったりすると、文のブロックの順番を見失ってバラバラになってしまうことが
まだあるので要改良ですわ。単純に段になってるやつは、いけるときもある感じ(打率5割くらい)
段の隙間のラインの感度をいじれるようにしたか忘れたのですが、これをいじると上手く切れると思う。
まあまあいけてるサンプルはこんな感じ
https://lithium03.info/ios/bunkoOCR/sample/ocr_sample0.html
文字の大きさは、あんまり小さいと学習されてないのでゴミとして無視されちゃうです。
少々ぼやけてても認識頑張るはずなので、biliner法とかでもいいので拡大してみてください。
iOSのやつは拡大できるようにしたけど、windowsのやつは入れてなかったと思うので
いまは事前に処理しておいてください。
なんだけど、見出しがあったりすると、文のブロックの順番を見失ってバラバラになってしまうことが
まだあるので要改良ですわ。単純に段になってるやつは、いけるときもある感じ(打率5割くらい)
段の隙間のラインの感度をいじれるようにしたか忘れたのですが、これをいじると上手く切れると思う。
まあまあいけてるサンプルはこんな感じ
https://lithium03.info/ios/bunkoOCR/sample/ocr_sample0.html
文字の大きさは、あんまり小さいと学習されてないのでゴミとして無視されちゃうです。
少々ぼやけてても認識頑張るはずなので、biliner法とかでもいいので拡大してみてください。
iOSのやつは拡大できるようにしたけど、windowsのやつは入れてなかったと思うので
いまは事前に処理しておいてください。
2510
2023/12/19(火) 18:08:54.77ID:cfgYBzJA0 助言ありがとうございます
取り急ぎは出来上がった文庫本のみだったので
後は色々と試してみようと思います
取り急ぎは出来上がった文庫本のみだったので
後は色々と試してみようと思います
2023/12/24(日) 00:33:27.86ID:hojDQgiw0
おお、神が再臨めされた。
前スレではお世話になりました。
再臨記念に350ページ級の2段組ノベルズをbunkoOCRに通してみました。
PCスペック:
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4 24GB
GPU:なし
OS:MX-Linux21.3_x64
json以外のファイルを作らない設定にして、Wine6.22で実行
ネタ:昔G4圧縮規格のtiff-300dpiでスキャンした画像P.9〜P.362。
前回同じネタでやったときは、行頭の鉤括弧が消えてしまうところが結構あったので、今回はScanTailorを通して傾き等を修正して600dpiで保存し直したものを使用した。
GPUなしだと時間がかかるだけでなく熱暴走が心配だが、神がCPU冷却のための遅延設定を設けてくれたので、一枚読み終わったら60秒待ちを入れるように設定した。
寝る前に仕掛けて朝になったらできていれば御の字だと思ったが、23:07からスタートして完了したのは翌日の12:31であった。
しかし解像度を改善したのが奏功したのか、今回は鉤括弧を落とした箇所はなく、章立てのページで上下入れ替わりとか文字の大きな見出しが本文に埋没していたりしたが、裏を返せばそこだけ注意すればよいし、何よ認識率が恐ろしく高い。
章立てページを除くとほぼ一発正解級の認識率だった。
前スレ最初の方に書いたが、OCRは元原稿次第で認識率が大きく変わるので、tiffでスキャンしてScanTailorで傾きやノイズを除去して解像度を上げてやるとtesseract-ocrですら結果は向上する。
嗚呼中古のゲーミングPCがほしいなあ。
前スレではお世話になりました。
再臨記念に350ページ級の2段組ノベルズをbunkoOCRに通してみました。
PCスペック:
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4 24GB
GPU:なし
OS:MX-Linux21.3_x64
json以外のファイルを作らない設定にして、Wine6.22で実行
ネタ:昔G4圧縮規格のtiff-300dpiでスキャンした画像P.9〜P.362。
前回同じネタでやったときは、行頭の鉤括弧が消えてしまうところが結構あったので、今回はScanTailorを通して傾き等を修正して600dpiで保存し直したものを使用した。
GPUなしだと時間がかかるだけでなく熱暴走が心配だが、神がCPU冷却のための遅延設定を設けてくれたので、一枚読み終わったら60秒待ちを入れるように設定した。
寝る前に仕掛けて朝になったらできていれば御の字だと思ったが、23:07からスタートして完了したのは翌日の12:31であった。
しかし解像度を改善したのが奏功したのか、今回は鉤括弧を落とした箇所はなく、章立てのページで上下入れ替わりとか文字の大きな見出しが本文に埋没していたりしたが、裏を返せばそこだけ注意すればよいし、何よ認識率が恐ろしく高い。
章立てページを除くとほぼ一発正解級の認識率だった。
前スレ最初の方に書いたが、OCRは元原稿次第で認識率が大きく変わるので、tiffでスキャンしてScanTailorで傾きやノイズを除去して解像度を上げてやるとtesseract-ocrですら結果は向上する。
嗚呼中古のゲーミングPCがほしいなあ。
2023/12/24(日) 21:13:10.53ID:VeFf0bpV0
28名無しさん@お腹いっぱい。
2023/12/24(日) 23:47:43.40ID:LVch7xcF0 いま直してるので、ちょっとまちなー
いろいろバグってたところ直して、モデルを再学習させたら、いい感じになってきた
いろいろバグってたところ直して、モデルを再学習させたら、いい感じになってきた
2023/12/25(月) 01:03:42.23ID:5F0dxNqp0
>>27
> ソをンと間違える確率7割~8割
検索文字列[ンソ]で全ファイルをgrepしてみたが、877件ヒットしてノーミスだった。
『ジャクソン』とか格好の登場人物もいたが、『ジャクンソ』はノーヒット。
> 1文字スペース部分が、空白改行2行に
これはどうだろ? 行頭スペース欠落が1件見つかったが以後まだ精査していないので明後日まで待ってくれ。
> 「噛」や「頬」のように細かいと文字化け
大ぴんぽん。確かにこの2つの文字は化けていた。
> ゴミの・なども文字化け
Scan Tailorを通して原稿をキレイにしたから(ゴミ取り機能)か、なかったような。
繰り返すが、OCRは元原稿の画像をどこまでキレイにできるかで結果が変わるから。
ただ全角のアルファベットは半角にされるねえ、やっぱり。
まあsed的なツールで一括置換だけど。
> ソをンと間違える確率7割~8割
検索文字列[ンソ]で全ファイルをgrepしてみたが、877件ヒットしてノーミスだった。
『ジャクソン』とか格好の登場人物もいたが、『ジャクンソ』はノーヒット。
> 1文字スペース部分が、空白改行2行に
これはどうだろ? 行頭スペース欠落が1件見つかったが以後まだ精査していないので明後日まで待ってくれ。
> 「噛」や「頬」のように細かいと文字化け
大ぴんぽん。確かにこの2つの文字は化けていた。
> ゴミの・なども文字化け
Scan Tailorを通して原稿をキレイにしたから(ゴミ取り機能)か、なかったような。
繰り返すが、OCRは元原稿の画像をどこまでキレイにできるかで結果が変わるから。
ただ全角のアルファベットは半角にされるねえ、やっぱり。
まあsed的なツールで一括置換だけど。
2023/12/25(月) 13:20:08.79ID:l2zyxriZ0
【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net
http://egg.5ch.net/test/read.cgi/software/1470745451/866
866 名前:名無しさん@お腹いっぱい。[] 投稿日:2023/10/19(木) 07:36:34.92 ID:zGVZ5rc10
>>0860
私もEPUBから青空文庫形式への変換を試みています
がEPUBの仕様の自由度が高くて難航しています。
出来れば公開してほしいです
お願いいたします。
https://twitter.com/satokazzz/status/1737834847698395490
佐藤和彦 / えあ草紙工房
@satokazzz
えあ草紙+のページに、EPUBファイルから青空文庫形式のZIPファイルに変換するツールを用意しました。かなり手抜きな画面ですがw
https://twitter.com/thejimwatkins
http://egg.5ch.net/test/read.cgi/software/1470745451/866
866 名前:名無しさん@お腹いっぱい。[] 投稿日:2023/10/19(木) 07:36:34.92 ID:zGVZ5rc10
>>0860
私もEPUBから青空文庫形式への変換を試みています
がEPUBの仕様の自由度が高くて難航しています。
出来れば公開してほしいです
お願いいたします。
https://twitter.com/satokazzz/status/1737834847698395490
佐藤和彦 / えあ草紙工房
@satokazzz
えあ草紙+のページに、EPUBファイルから青空文庫形式のZIPファイルに変換するツールを用意しました。かなり手抜きな画面ですがw
https://twitter.com/thejimwatkins
2023/12/25(月) 17:50:16.98ID:E9HRTZWr0
>>29
確認ありがとう
>> ソをンと間違える確率7割~8割
> 877件ヒットしてノーミスだった。
これは凄い、10氏のフローと比べるとScanTailorの傾き補正が有効なのかな
Scan Tailorにはゴミ取り機能もある事すら知らなかった
いろいろと良い情報ありがとう
確認ありがとう
>> ソをンと間違える確率7割~8割
> 877件ヒットしてノーミスだった。
これは凄い、10氏のフローと比べるとScanTailorの傾き補正が有効なのかな
Scan Tailorにはゴミ取り機能もある事すら知らなかった
いろいろと良い情報ありがとう
3210
2023/12/26(火) 08:46:53.35ID:LWI3K24a0 あれ?居ない間に色々とあったんですね
今まで自炊した事もなくOCR化など全く知らなかった素人レベルなのでご勘弁を
昨日試した事を書いときますね
作者さんが
>最新のiPhone買うと、写真撮ってしかもOCRできる位のチップ積んでるので、実はおすすめです
と書いてくれてたので文庫本を解体スキャンではなく
文庫本のまま文面をAndroidで撮影してwindowsでやってみた(iPhone持って無いので…)
本とスマホを片手持ちで撮影、画像の中央にピントが合ってるけど上下は少しブレ気味3000x4000の大きさで撮影
bunkoOCRで読み込ませてみたら…作業終了後に右側にはERROR表示…やっぱり雑に撮影するとダメか(笑)
bunkoOCR側の設定で補正をかけると時間がえらくかかるので…
画像をPhotoscapeにて、白黒変換、明るさ補正、シャープ補正して、文字をくっきりさせてサイズを半分にリサイズ
そこからbunkoOCRに放り込むと、今度は成功した
多少の文字化けはあり、あー書かれてるアルファベット全角が半角にされますね数字も
何百ページも画像補正はやってられないからきちんと本とスマホを固定してピントを合わせれば画像補正しなくてもいけるのかな…
文庫本を解体しないでOCR化出来ることが分かったのは収穫だった
10の文庫本の時は解体した後でOCRという技術があることを知ったので…
少しずつ改善して行こうとする作者さんも大変だけど
今より使いやすく出来る事を期待してますね
今まで自炊した事もなくOCR化など全く知らなかった素人レベルなのでご勘弁を
昨日試した事を書いときますね
作者さんが
>最新のiPhone買うと、写真撮ってしかもOCRできる位のチップ積んでるので、実はおすすめです
と書いてくれてたので文庫本を解体スキャンではなく
文庫本のまま文面をAndroidで撮影してwindowsでやってみた(iPhone持って無いので…)
本とスマホを片手持ちで撮影、画像の中央にピントが合ってるけど上下は少しブレ気味3000x4000の大きさで撮影
bunkoOCRで読み込ませてみたら…作業終了後に右側にはERROR表示…やっぱり雑に撮影するとダメか(笑)
bunkoOCR側の設定で補正をかけると時間がえらくかかるので…
画像をPhotoscapeにて、白黒変換、明るさ補正、シャープ補正して、文字をくっきりさせてサイズを半分にリサイズ
そこからbunkoOCRに放り込むと、今度は成功した
多少の文字化けはあり、あー書かれてるアルファベット全角が半角にされますね数字も
何百ページも画像補正はやってられないからきちんと本とスマホを固定してピントを合わせれば画像補正しなくてもいけるのかな…
文庫本を解体しないでOCR化出来ることが分かったのは収穫だった
10の文庫本の時は解体した後でOCRという技術があることを知ったので…
少しずつ改善して行こうとする作者さんも大変だけど
今より使いやすく出来る事を期待してますね
3310
2023/12/26(火) 09:02:22.71ID:LWI3K24a0 あー良く読むとScan Tailorというソフトもあるのか…
今度はそれを使って見ようと思う
素人レベルで申し訳ない
今度はそれを使って見ようと思う
素人レベルで申し訳ない
34名無しさん@お腹いっぱい。
2023/12/26(火) 10:14:14.41ID:riiZYutR0 ピントが合っていないと、かなり厳しいのでスマホ撮影の時はなんかのスタンドで
上空に固定してあげるとやりやすいですね。
うちではこんな感じで、照明にスマホホルダー付けて、アームで固定してます。
https://youtu.be/G11EoXKPfZo
アルファベットと数字が必ず半角になってたのは、学習ソースが偏ってたからなので
次のバージョンでは多分おおむね期待通りになりそう。
所々補正ミスがあるけど。完璧はむつかしい
上空に固定してあげるとやりやすいですね。
うちではこんな感じで、照明にスマホホルダー付けて、アームで固定してます。
https://youtu.be/G11EoXKPfZo
アルファベットと数字が必ず半角になってたのは、学習ソースが偏ってたからなので
次のバージョンでは多分おおむね期待通りになりそう。
所々補正ミスがあるけど。完璧はむつかしい
3510
2023/12/26(火) 10:33:00.08ID:LWI3K24a03629
2023/12/27(水) 01:11:39.27ID:ZgyK1lpa0 会話終了の綴じ括弧の次の行は段落替えになるので行頭には全角空白が入るのだが、残念ながらOCRが見落とすことがあって(識別のために■を使用)、
OK-------------------
「用件を聞こう……」\n
■そう言って男はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
「用件を聞こう……」\n
そう言って男はゆっくりと
-----------------------
」\n([^■「(]) という正規表現検索であぶり出すと、エラー箇所は16件ヒットしたが、残りの2920件は正しく全角空白として認識した。
同様に、前の行で文章が終わっていれば当然次の行は新しい段落からになるのでやはり行頭に全角空白が入るのだが、これも
OK-------------------
ていた。\n
■やがて二人はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
ていた。\n
やがて二人はゆっくりと
-----------------------
。\n[^■(「\n] という 正規表現検索であぶりだすと12件ヒットしたが、残りの1105件は正しくヒットした。
かつては行頭の全角空白を全く認識しないTesseract-ocrでさんざん鍛えられてきたから、数十件程度ものの数ではない。
英数文字が半角になってしまうのは、そういうものだと分かっていればsed的なパターンマッチによる一括置換で補えるから、修正しやすい間違え方であれば気にすることではないとすら思っている。
文字化けしてたのは、以下の三文字くらいで、それより連続する全角ダッシュ2文字を正確に認識したのはマジでスゴイと讃えたい。
嚙(←噛の機種依存文字)
頬
ッ(←小書きのツ)
OK-------------------
「用件を聞こう……」\n
■そう言って男はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
「用件を聞こう……」\n
そう言って男はゆっくりと
-----------------------
」\n([^■「(]) という正規表現検索であぶり出すと、エラー箇所は16件ヒットしたが、残りの2920件は正しく全角空白として認識した。
同様に、前の行で文章が終わっていれば当然次の行は新しい段落からになるのでやはり行頭に全角空白が入るのだが、これも
OK-------------------
ていた。\n
■やがて二人はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
ていた。\n
やがて二人はゆっくりと
-----------------------
。\n[^■(「\n] という 正規表現検索であぶりだすと12件ヒットしたが、残りの1105件は正しくヒットした。
かつては行頭の全角空白を全く認識しないTesseract-ocrでさんざん鍛えられてきたから、数十件程度ものの数ではない。
英数文字が半角になってしまうのは、そういうものだと分かっていればsed的なパターンマッチによる一括置換で補えるから、修正しやすい間違え方であれば気にすることではないとすら思っている。
文字化けしてたのは、以下の三文字くらいで、それより連続する全角ダッシュ2文字を正確に認識したのはマジでスゴイと讃えたい。
嚙(←噛の機種依存文字)
頬
ッ(←小書きのツ)
37名無しさん@お腹いっぱい。
2023/12/27(水) 07:18:24.72ID:p3y9TF990 そこの空白の認識がめっちゃ難易度高いっす。
カギ括弧がちょっとだけ頭下がったように見えるために隣との差が少なくなり、OCR的にはむずいらしい
あと、連続して行頭が下がり続けると、見失うことがあったんだがこれは今修正してるので
次のバージョンではもうちょっと精度上がる予定
カギ括弧がちょっとだけ頭下がったように見えるために隣との差が少なくなり、OCR的にはむずいらしい
あと、連続して行頭が下がり続けると、見失うことがあったんだがこれは今修正してるので
次のバージョンではもうちょっと精度上がる予定
3836
2023/12/27(水) 19:44:34.39ID:ZgyK1lpa0 おかしいな、もう一種文字化けが見つかりました。
剝(←剥の機種依存文字)
[^一-龠ァ-ヶぁ-んー\dA-Za-z「」()、。・…!?] という『漢字/カタカナ/ひらがな/音引き/数字/大文字小文字のアルファベッド/鉤括弧/丸括弧/句読点/ナカグロ/3点リーダ/エスクラメーション/クエスチョン 以外の文字を探す』正規表現を使って、それ以外の文字があればヒットします。
>>37
やあ、これは神。
そりゃ行頭全角空白はOSSのtesseract-ocrですら今だに実装されてないんですから、このくらい認識していただければ、十分すぎるくらいですよ。
剝(←剥の機種依存文字)
[^一-龠ァ-ヶぁ-んー\dA-Za-z「」()、。・…!?] という『漢字/カタカナ/ひらがな/音引き/数字/大文字小文字のアルファベッド/鉤括弧/丸括弧/句読点/ナカグロ/3点リーダ/エスクラメーション/クエスチョン 以外の文字を探す』正規表現を使って、それ以外の文字があればヒットします。
>>37
やあ、これは神。
そりゃ行頭全角空白はOSSのtesseract-ocrですら今だに実装されてないんですから、このくらい認識していただければ、十分すぎるくらいですよ。
39名無しさん@お腹いっぱい。
2023/12/27(水) 23:17:17.01ID:p3y9TF990 剥げると剝げるとかは、学習ソースに表記ぶれがあって字形がめっちゃ似てるので、
文脈補正でどっちかに引き寄せられやすいんですよ
くっきり読めると正しい方に引っ張られると思うけど、ぼやけてると学習した文脈に引っ張られるようになってる。
学習の時に、ランダムに字形を当てるモードと、文脈で当てるモードの比率によって
性能変わるみたいなので、要研究ですね
文脈補正でどっちかに引き寄せられやすいんですよ
くっきり読めると正しい方に引っ張られると思うけど、ぼやけてると学習した文脈に引っ張られるようになってる。
学習の時に、ランダムに字形を当てるモードと、文脈で当てるモードの比率によって
性能変わるみたいなので、要研究ですね
2023/12/28(木) 03:33:08.78ID:Pnpb6RSQ0
いくつかの漢字はシフトJISとかUNICODEとかの文字コードのなんちゃらで問題あるらしい
2023/12/28(木) 03:36:14.10ID:Pnpb6RSQ0
bunkoOCRはutf-8で出力するけどそれをシフトjisしか扱えないソフトで読んだりすると問題が起きる
2023/12/28(木) 03:36:52.54ID:Pnpb6RSQ0
らしい
43名無しさん@お腹いっぱい。
2023/12/28(木) 06:19:58.31ID:M9f0BauU0 ○
く|)へ
〉 ヽ○ノShift JIS
 ̄ ̄7 ヘ/
/ ノ
|
`/
|
|
/
く|)へ
〉 ヽ○ノShift JIS
 ̄ ̄7 ヘ/
/ ノ
|
`/
|
|
/
4436
2023/12/28(木) 23:33:04.82ID:6YvtwrXY0 >>41
え、そうなの?
でもウチLinuxだから、さすがにEUCってこたないだろうけどシフトJISにしがらみとかこだわりなんてないはずなんだけど……とあらためて元のjsonファイルを見てみたら、確かに化けてなくてちゃんと認識していた。
bluefishってHTMLエディタで開いたときは文字化けしてたんだが……と思って再度開くと化けてないで正しく認識している。
頬
噛
剝
bluefishで指定した表示フォントセットを途中で変えたせいかと思ったが、今は化けてない。行間を広げたくてMigmixに指定する前はなんだったかな?
何かどれも化けないな。
文字化けの件はどうも冤罪だったかもしれないですね。
どーもすいません。
え、そうなの?
でもウチLinuxだから、さすがにEUCってこたないだろうけどシフトJISにしがらみとかこだわりなんてないはずなんだけど……とあらためて元のjsonファイルを見てみたら、確かに化けてなくてちゃんと認識していた。
bluefishってHTMLエディタで開いたときは文字化けしてたんだが……と思って再度開くと化けてないで正しく認識している。
頬
噛
剝
bluefishで指定した表示フォントセットを途中で変えたせいかと思ったが、今は化けてない。行間を広げたくてMigmixに指定する前はなんだったかな?
何かどれも化けないな。
文字化けの件はどうも冤罪だったかもしれないですね。
どーもすいません。
2023/12/28(木) 23:58:58.31ID:Pnpb6RSQ0
「??」「?」「?」「?」
「叱」「填」「剥」「頬」
ネットで調べたらこれらが問題みたいね
私はちょっと古いソフトを使うときは
bunkoOCRは上の文字で出力するから
真っ先に下の文字に置換してからシフトjisで上書き保存してつかってる
嘘と?あたりもなんか怪しい
「叱」「填」「剥」「頬」
ネットで調べたらこれらが問題みたいね
私はちょっと古いソフトを使うときは
bunkoOCRは上の文字で出力するから
真っ先に下の文字に置換してからシフトjisで上書き保存してつかってる
嘘と?あたりもなんか怪しい
2023/12/29(金) 00:02:44.49ID:qqgpseoO0
あれれ……
4736
2024/01/04(木) 00:56:05.91ID:DDtH7e7e0 ……今またjsonファイルを再調査したら、例の文字が
また化けてる。
冤罪ではなかったというのか?
でもこの前開いたときは確かに化けてなかったのにな。
もう分からなくなってきた。
また化けてる。
冤罪ではなかったというのか?
でもこの前開いたときは確かに化けてなかったのにな。
もう分からなくなってきた。
4836
2024/01/05(金) 03:21:06.77ID:a4cHXUaH0 気を取り直してOCRから得られたテキストファイルを校正してみたが、やはり恐ろしいほどの認識率。
3点リーダーの数がちょっと多かったり、1行目の行頭空白を落としてたりへべぺ(かな)とヘベペ(カナ)が一部入れ替わったりしたくらいの恐ろしくシンプルな校正で済んでしまい、以前に完品として作ったファイルとDiffツールで比較したら、逆に完品のはずのファイルにミスが見つかってしまった。
あらためて作ってくださった神に感謝。
マジでゲーミングPC調達したいな。
3点リーダーの数がちょっと多かったり、1行目の行頭空白を落としてたりへべぺ(かな)とヘベペ(カナ)が一部入れ替わったりしたくらいの恐ろしくシンプルな校正で済んでしまい、以前に完品として作ったファイルとDiffツールで比較したら、逆に完品のはずのファイルにミスが見つかってしまった。
あらためて作ってくださった神に感謝。
マジでゲーミングPC調達したいな。
49名無しさん@お腹いっぱい。
2024/01/05(金) 11:02:48.96ID:vt4ZwsJe0 三点リーダの数が化けるのは、正直どうしょうもないと諦め中。
長くなると、認識の位相がずれていっぱいになっちゃう
いま最終調整してるので、Newバージョンの認識エンジンでもうすぐリリースできそう。
行頭の空白の認識が向上したのと、ふりがなのグループルビがもう少し向上したはず。
段組の順番が乱れるのも多分直った気がするのと、ページ番号と柱を無視できるようにしてみた
長くなると、認識の位相がずれていっぱいになっちゃう
いま最終調整してるので、Newバージョンの認識エンジンでもうすぐリリースできそう。
行頭の空白の認識が向上したのと、ふりがなのグループルビがもう少し向上したはず。
段組の順番が乱れるのも多分直った気がするのと、ページ番号と柱を無視できるようにしてみた
2024/01/05(金) 12:22:46.92ID:Rk0TKNDl0
Shift JISしか扱えないソフトって現代ではバグの類
5136
2024/01/06(土) 00:47:34.42ID:TBakV8IN0 三点リーダーが過剰なのは、そういうものだと分かっていれば正規表現で瞬殺ですし。
Tesseract-ocrをずっと使ってきて、Ver.4辺りから無言のセリフ=「…………」みたいなのをなぜか行ごと欠落するようになったので、ページごとに行数をサーチして行数の少ないページに当たりをつけて補完してた頃に比べれば、何のなんの。
それよか過去にOCRして校正済みの完品なはずのテキストデータ(前回とは別物)と、昨夜から半日かけてbunkoOCRで得られた新しいテキストを再比較してみましたが、ほぼ半日の校正で完品を凌ぐ出来でした。
とくに拡大しなきゃ違いが分からなかった、
搔
と
掻
を識別できてるのがスゴイ。勿論正解の方を引いている!
こりゃあ次期バージョンが楽しみですな。
Tesseract-ocrをずっと使ってきて、Ver.4辺りから無言のセリフ=「…………」みたいなのをなぜか行ごと欠落するようになったので、ページごとに行数をサーチして行数の少ないページに当たりをつけて補完してた頃に比べれば、何のなんの。
それよか過去にOCRして校正済みの完品なはずのテキストデータ(前回とは別物)と、昨夜から半日かけてbunkoOCRで得られた新しいテキストを再比較してみましたが、ほぼ半日の校正で完品を凌ぐ出来でした。
とくに拡大しなきゃ違いが分からなかった、
搔
と
掻
を識別できてるのがスゴイ。勿論正解の方を引いている!
こりゃあ次期バージョンが楽しみですな。
2024/01/11(木) 17:17:43.26ID:niQd9tZ50
グーグルドライブに上げてみたけどたまにダブるね。
繰り返される語を見つけるにはどうすればいいのだろうか。
>分からなかった
が↓みたいになってしまうことがある。
>分からなかったなかった
繰り返される語を見つけるにはどうすればいいのだろうか。
>分からなかった
が↓みたいになってしまうことがある。
>分からなかったなかった
53名無しさん@お腹いっぱい。
2024/01/11(木) 17:53:53.84ID:3yKCzJ/50 Transformer特有のバグですね。それはそれとして、今のエンジンで処理ミスがあったかもなので、
(そのせいで5文字くらい反復する)
次のバージョンでもまだバグってるか確認していただいていいでしょうか。
絶賛、機械学習モデルを学習中なので、もうしばしお待ちを
(そのせいで5文字くらい反復する)
次のバージョンでもまだバグってるか確認していただいていいでしょうか。
絶賛、機械学習モデルを学習中なので、もうしばしお待ちを
2024/01/11(木) 19:09:59.17ID:nGTAUcvV0
最新版はどこから落とせますか見つからなくて
55名無しさん@お腹いっぱい。
2024/01/11(木) 21:35:23.20ID:3yKCzJ/50 すみません、今作ってるところなので多分来週くらいにリリースできそう
5636
2024/01/12(金) 01:58:21.08ID:WsGAu9aR0 >>52
直前の文字列の繰り返しなら以下の正規表現検索で、
(..+)\1
↑『任意の二文字以上の文字列』の繰り返しにヒットします。
正規表現に対応したテキストエディタとかGrepツールならすぐに炙り出せると思う。
あと前回とは異なるソースをOCRしてみたら、大文字のローマ数字を全く認識しなかったですね。
他にはちょっと原文がイジワルなのですが、
‐(←全角のハイフン)
ー(←音引き)
―(全角のダッシュ)
大半は認識してたけど、この辺の一部が文字化けしてかしら。
最初にスキャンした原稿がだいぶ紙焼けしてたし、まだスキャンのノウハウが未熟だった頃のネタだから、今あらためてスキャンしたらもうちょっと違う結果になるのかも。
直前の文字列の繰り返しなら以下の正規表現検索で、
(..+)\1
↑『任意の二文字以上の文字列』の繰り返しにヒットします。
正規表現に対応したテキストエディタとかGrepツールならすぐに炙り出せると思う。
あと前回とは異なるソースをOCRしてみたら、大文字のローマ数字を全く認識しなかったですね。
他にはちょっと原文がイジワルなのですが、
‐(←全角のハイフン)
ー(←音引き)
―(全角のダッシュ)
大半は認識してたけど、この辺の一部が文字化けしてかしら。
最初にスキャンした原稿がだいぶ紙焼けしてたし、まだスキャンのノウハウが未熟だった頃のネタだから、今あらためてスキャンしたらもうちょっと違う結果になるのかも。
57名無しさん@お腹いっぱい。
2024/01/12(金) 12:02:45.51ID:4rDhO0A30 ローマ数字はどうするのが正解なのかしら。
コードポイント当たってましたっけ
コードポイント当たってましたっけ
2024/01/12(金) 13:13:06.17ID:WsGAu9aR0
>>57
ローマ数字に限らないけど、正しく認識できなくてもせめて文字化けしておいてくれれば僥倖。そこに文字ならざる文字があることが分かるから。
現状だとjsonファイルの中を見ても、何もなかったことにされてるみたいなので。
ローマ数字に限らないけど、正しく認識できなくてもせめて文字化けしておいてくれれば僥倖。そこに文字ならざる文字があることが分かるから。
現状だとjsonファイルの中を見ても、何もなかったことにされてるみたいなので。
2024/01/12(金) 19:31:04.56ID:L2uryeWD0
2024/01/13(土) 08:10:18.27ID:aDP1gLwi0
正規表現置換
(([^ ]).+)\1
\1
で消えるのか
さすがに一括置換はいけないけど捗る
(([^ ]).+)\1
\1
で消えるのか
さすがに一括置換はいけないけど捗る
2024/01/15(月) 19:56:31.14ID:f4sNJF/V0
bunkoOCRは1行に数文字しかない場合
文字が飛んでる時がある
横長の画像で起きやすいかも
XXXXXXXXだっ[改行]
た。
この「た。」の部分が文頭に出力されたりする
文字が飛んでる時がある
横長の画像で起きやすいかも
XXXXXXXXだっ[改行]
た。
この「た。」の部分が文頭に出力されたりする
2024/01/16(火) 07:42:29.73ID:E1P52Z+20
2024/01/16(火) 14:34:22.58ID:ltS5qus50
2024/01/19(金) 23:23:31.65ID:YhJapSCJ0
bunkoOCRの文字がバラバラになるのは
縦横や段組を自動判別してるからかな
縦横や段組を自動判別してるからかな
2024/01/19(金) 23:38:20.15ID:LKx6KJS+0
縦書きであっても左上から右に向かって
解析してるのかなと勝手に想像している
解析してるのかなと勝手に想像している
2024/01/19(金) 23:48:37.33ID:NIDZCkfr0
>>61,64,65
出力jsonと縦書横書、柱、ノンブル座標範囲を指定したら、
ブロック番号やライン、文字順と座標の整合性をチェックする
Pythonツールなんてないですかね
作者さん以外でもコマンドラインプログラムの出来る人が頑張っていたら嬉しい
出力jsonと縦書横書、柱、ノンブル座標範囲を指定したら、
ブロック番号やライン、文字順と座標の整合性をチェックする
Pythonツールなんてないですかね
作者さん以外でもコマンドラインプログラムの出来る人が頑張っていたら嬉しい
2024/01/19(金) 23:52:12.23ID:NIDZCkfr0
柱、ノンブル座標範囲は要はチェック除外範囲で
反対にチェック対象座標範囲の方でも良いのか
反対にチェック対象座標範囲の方でも良いのか
68名無しさん@お腹いっぱい。
2024/01/20(土) 04:07:48.61ID:fi7Vlmn20 文字の位置と文字コード、文のラインまでは簡単(ではないが)なのだが、
それがどの文と文が連結してて、どこで切れるかを自動判定しようとして失敗してます。
文のつながりの順の判定は、機械学習でなく伝統的なプログラムでif文的なやつでやってるので、
こうしたら確実だぜ!って方法を思いついたら教えていただけるとありがたいです。
解析対象座標を与えるのもいいけど、1枚ずつ指定するの面倒だなーと思ってなんとか自動にしたい
それがどの文と文が連結してて、どこで切れるかを自動判定しようとして失敗してます。
文のつながりの順の判定は、機械学習でなく伝統的なプログラムでif文的なやつでやってるので、
こうしたら確実だぜ!って方法を思いついたら教えていただけるとありがたいです。
解析対象座標を与えるのもいいけど、1枚ずつ指定するの面倒だなーと思ってなんとか自動にしたい
2024/01/20(土) 08:33:40.47ID:p5Tos3MR0
2024/01/21(日) 19:53:58.19ID:kaLi9Q2h0
>>68
ラインに含まれる各文字のBBOXからラインのBBOXを作って
x座標の単純比較で済む、かと思いきや作者さんの映像を見ると
ラインが斜めだったり湾曲してたりするので無理か
手書きは諦めて印刷物だけに絞って歪み推定や補正が出来れば
座標の単純比較に持ち込めそうだけれど、ちゃんとした機械は
レーザーをあてて測定してるから推定自体が困難なんだろうと思う
(中華OHスキャナーは補正可能ストライクゾーンどうなってんのかな)
ラインに含まれる各文字のBBOXからラインのBBOXを作って
x座標の単純比較で済む、かと思いきや作者さんの映像を見ると
ラインが斜めだったり湾曲してたりするので無理か
手書きは諦めて印刷物だけに絞って歪み推定や補正が出来れば
座標の単純比較に持ち込めそうだけれど、ちゃんとした機械は
レーザーをあてて測定してるから推定自体が困難なんだろうと思う
(中華OHスキャナーは補正可能ストライクゾーンどうなってんのかな)
2024/01/21(日) 19:59:18.51ID:kaLi9Q2h0
素人の浅知恵では歪みや文字の回転自体も学習データさえあれば
AIがやってくれる都合の良い妄想をしてますw
AIがやってくれる都合の良い妄想をしてますw
72名無しさん@お腹いっぱい。
2024/01/28(日) 12:51:51.97ID:bM3XBXnU0 ABBYY FineReaderの日本語の精度はどうですか。
バージョン14以上は結構高いと思いますけれど、僕は15使ってる
バージョン14以上は結構高いと思いますけれど、僕は15使ってる
73名無しさん@お腹いっぱい。
2024/02/17(土) 01:22:32.69ID:TjaL0UQq0 嵌め込み業者がまぎれとると思ってたごめん
なんだ
若い連中がある意味賢いと言えるのは
なんだ
若い連中がある意味賢いと言えるのは
74名無しさん@お腹いっぱい。
2024/02/17(土) 01:22:51.96ID:smYVXfVJ0 復学の手続き終わった
その頃Twitterなかったロリコン性犯罪者予備軍みたいな何処のクラブもそうやな
その頃Twitterなかったロリコン性犯罪者予備軍みたいな何処のクラブもそうやな
75名無しさん@お腹いっぱい。
2024/02/17(土) 01:23:08.72ID:smYVXfVJ0 かなりマージン取ってるとはいえ
そろそろ全打席四死球で攻めてもええやろ
そろそろ全打席四死球で攻めてもええやろ
76名無しさん@お腹いっぱい。
2024/02/17(土) 01:24:53.46ID:Ad6BPdLh0 人気になるの?
一般が見るのが効いてるからな
サロンが素人に毛が生えてるとか
投げやりな感じが好きなゴミサガテイルズペルソナ以下だよねー
一般が見るのが効いてるからな
サロンが素人に毛が生えてるとか
投げやりな感じが好きなゴミサガテイルズペルソナ以下だよねー
77名無しさん@お腹いっぱい。
2024/02/17(土) 01:25:17.78ID:q4XXqV8x02024/02/17(土) 21:29:00.81ID:PwM1ooT+0
あやしい組織がなんか実験してるな。
昨日5ch詰まってたのはこいつのせいか。
昨日5ch詰まってたのはこいつのせいか。
2024/03/03(日) 20:52:13.50ID:yd4vitPH0
少々知恵を借りたい。
当方Linux-MXユーザー。
bunkoOCR用にRADEONながらグラボを買ったのを機に、OSを最新バージョンのMX23-2でインスコし直して、Wineも9.0にした。
Windows11相当に振る舞うようにしてある。
AMDのドライバも当たってるみたいだし、bunkoOCRの設定もGPUを使う設定にして、CUI画面から、
wine OCRengine.exe 0
を実行してみると、24行目でreadyと出るし、GUI画面でもエラーなく動くからWineは正常に動いていると思うのだが、肝心の処理速度がGPUなしのときと変わらない。
CPU冷却のための遅延を60秒設定してあるのだが、リソースメーターを見ていると以前と同様CPUが80〜100%使われていて1ファイル辺り2分くらいかかってしまう。
これはGPUが効いてないとしか思えないのだが、何かまだやりようはあるだろうか?
グラボは玄人志向のRD-RX550E4GB/LPで、PCは
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4 24GB
当方Linux-MXユーザー。
bunkoOCR用にRADEONながらグラボを買ったのを機に、OSを最新バージョンのMX23-2でインスコし直して、Wineも9.0にした。
Windows11相当に振る舞うようにしてある。
AMDのドライバも当たってるみたいだし、bunkoOCRの設定もGPUを使う設定にして、CUI画面から、
wine OCRengine.exe 0
を実行してみると、24行目でreadyと出るし、GUI画面でもエラーなく動くからWineは正常に動いていると思うのだが、肝心の処理速度がGPUなしのときと変わらない。
CPU冷却のための遅延を60秒設定してあるのだが、リソースメーターを見ていると以前と同様CPUが80〜100%使われていて1ファイル辺り2分くらいかかってしまう。
これはGPUが効いてないとしか思えないのだが、何かまだやりようはあるだろうか?
グラボは玄人志向のRD-RX550E4GB/LPで、PCは
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4 24GB
80名無しさん@お腹いっぱい。
2024/03/07(木) 10:13:44.68ID:m0sytuIe0 tesseract-ocr、MangaOCR、NDLOCRの精度が気になる
tesseract-ocrはともかくMangaOCRとNDLOCRは敷居高そうだが
tesseract-ocrはともかくMangaOCRとNDLOCRは敷居高そうだが
81名無しさん@お腹いっぱい。
2024/03/07(木) 11:32:04.84ID:E06iSSlv0 >> 2023/09/18 GPUを使わないように強制するオプションを追加
>>パラメータが保存されているparam.configをテキストエディタで開き、
>>use_GPU:0に書き換えるとDirectMLを使用しないように強制できます。
との記述が有るので、ここを
use_GPU:1
とかに書き換えてみては、どうでしょうか?
>>パラメータが保存されているparam.configをテキストエディタで開き、
>>use_GPU:0に書き換えるとDirectMLを使用しないように強制できます。
との記述が有るので、ここを
use_GPU:1
とかに書き換えてみては、どうでしょうか?
2024/03/08(金) 02:21:09.63ID:CxH2uEdI0
>>81
うむ、param.configのデフォルトは = use_GPU:1
つまり何もしなければ有効になっているんですよ。
勿論何度か有効/無効を切り替えてみましたが、残念ながら無効状態よりも処理速度が上がることはなかったですね。
うむ、param.configのデフォルトは = use_GPU:1
つまり何もしなければ有効になっているんですよ。
勿論何度か有効/無効を切り替えてみましたが、残念ながら無効状態よりも処理速度が上がることはなかったですね。
2024/03/08(金) 11:37:26.72ID:eJ1wYffd0
2024/03/08(金) 11:44:34.18ID:00TBGwdx0
2024/03/08(金) 11:52:08.80ID:8yoAHlNL0
2024/03/08(金) 12:21:48.75ID:YB+PYqJb0
みんなでオッパの帰りを祈りましょう🙏❤
2024/03/08(金) 12:29:38.55ID:sc5/cOxh0
世界中の国の調査なんかお察しだろ
寝配信やったのにアホやでほんま
G民「誰?」「マスク外していいかな??
寝配信やったのにアホやでほんま
G民「誰?」「マスク外していいかな??
2024/03/08(金) 12:44:23.66ID:Ixr9Kf2I0
じゃあ次もジェイクにしか見えないほどの気力もないとダメやろ
革命でも専用のおうちはそっちと関係あるのな。
さて
いよいよシーズン始まったことだからな
革命でも専用のおうちはそっちと関係あるのな。
さて
いよいよシーズン始まったことだからな
89名無しさん@お腹いっぱい。
2024/03/08(金) 12:47:02.90ID:aFbzCVhm090名無しさん@お腹いっぱい。
2024/03/08(金) 13:08:45.72ID:061/uaX70 日本語で一番面白いろいけどな
91名無しさん@お腹いっぱい。
2024/03/08(金) 13:33:11.86ID:FI0JuvjK0 買わないわよー
92名無しさん@お腹いっぱい。
2024/03/08(金) 13:42:22.12ID:R1/M5wF302024/03/09(土) 00:06:56.91ID:0XEcth6M0
ただの荒らしスクリプトではないぞ。
いまも壺サポはBOTみたいなもんだが、もうすぐ本当のBOTが話しかけてくるようになるだろう。
いまも壺サポはBOTみたいなもんだが、もうすぐ本当のBOTが話しかけてくるようになるだろう。
2024/03/10(日) 19:27:23.92ID:tKH8JHHR0
bunkoOCRで数冊やってみて分かったこと
かなりの確率で
段落の一段下げの【空白】と【「】が消えてる
【!!】と【!?】が文字化け
文字化けするから新字で書くけど
これの旧字が文字化けする
頬|嘘|噛|掴|剥|躯|掻|唖|蝋
繍|涜|鹸|祷|溌|焔|填|箪|侠|呑
ルビに《、、、、》があると文がバラバラになる
AAAAAAAAAAAAAAA
BBBBBBBBBBBBBBB
こういう文が
AAAAAAAAAAABBBBBBBBBBBBBBB
こんな感じに結合されてAの末尾数文字が消える
あとはこれ>>61
文字の認識は有料ソフトよりかなりいいので作者には頑張って欲しいわ
かなりの確率で
段落の一段下げの【空白】と【「】が消えてる
【!!】と【!?】が文字化け
文字化けするから新字で書くけど
これの旧字が文字化けする
頬|嘘|噛|掴|剥|躯|掻|唖|蝋
繍|涜|鹸|祷|溌|焔|填|箪|侠|呑
ルビに《、、、、》があると文がバラバラになる
AAAAAAAAAAAAAAA
BBBBBBBBBBBBBBB
こういう文が
AAAAAAAAAAABBBBBBBBBBBBBBB
こんな感じに結合されてAの末尾数文字が消える
あとはこれ>>61
文字の認識は有料ソフトよりかなりいいので作者には頑張って欲しいわ
95名無しさん@お腹いっぱい。
2024/03/10(日) 21:09:57.71ID:XgPOjlcp0 サンプルがないとなんとも
96名無しさん@お腹いっぱい。
2024/03/11(月) 14:31:19.15ID:xot+dunl0 >>80
オンボードグラフィックのパソコンでも使える?
オンボードグラフィックのパソコンでも使える?
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 参政党、梅村みずほ参院議員を党ボードメンバーから解任 参議院国会対策委員長の役職も外れる [少考さん★]
- 日本テレビ、国分太一の会見受け回答「『コンプライアンス違反行為があった』ということ以上に公にできない」「答え合わせ難しい」 [Ailuropoda melanoleuca★]
- 人気ユーチューバー青木歌音、中国人に対する悪口投稿の自粛呼びかけ「日本のイメージも悪くなっちゃう」 [爆笑ゴリラ★]
- 生クリームだけの真っ白なクリスマスケーキ 大手メーカーが販売、その理由は…フルーツなしで価格は半額以下に ★2 [おっさん友の会★]
- 〈シカが泣いている…〉奈良が“観光崩壊”危機…外国人観光客は44.5万人、宿泊客単価は3万1千円 [1ゲットロボ★]
- 平本蓮「久々にあんなキレたわ あのくそ金髪芸人」SNSでブチギレ、心当たりある芸人が即謝罪「僕ですよね?」 [muffin★]
- 【速報】高市「日本はサンフランシスコ平和条約で台湾に関する全ての権利と権限を放棄している」事実上の答弁撤回か [931948549]
- 中国政府、改めて高市総理の「台湾有事発言」撤回求める [256556981]
- 【悲報】高市、終わるwwwwwwwwwwwwwwwwwww [308389511]
- 【高市悲報】中国「概念だけを述べてるだけだ」党首討論での発言は撤回にあたらないとのこと [115996789]
- 【速報】高市「日本はサンフランシスコ平和条約で台湾に関する全ての権利と権限を放棄している。台湾の法的地位や認定する立場ではない」 [931948549]
- 【悲報】高市早苗の賞味期限が切れる [834922174]
