光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
OCRソフト 製品版
【ソースネクスト】
1.読取革命 16
2.本格読取 5
【メディアドライブ】
3.e.Typist v.15.0
OCRソフト フリーソフト
4.bunkoOCR
小説を自炊してテキスト化するのであれば3と4にはルビに対応している分有利かも!?
このリストって2016年とほぼ一緒
皆さんは、グーグルドライブとか使うの?
私は、PDFでは残さないのでbunkoOCRに期待しています。
探検
【文字認識】OCRソフト(2文字目)【 自炊 】
■ このスレッドは過去ログ倉庫に格納されています
1名無しさん@お腹いっぱい。
2023/11/30(木) 15:44:45.66ID:oxe9L3uM02023/12/29(金) 00:02:44.49ID:qqgpseoO0
あれれ……
4736
2024/01/04(木) 00:56:05.91ID:DDtH7e7e0 ……今またjsonファイルを再調査したら、例の文字が
また化けてる。
冤罪ではなかったというのか?
でもこの前開いたときは確かに化けてなかったのにな。
もう分からなくなってきた。
また化けてる。
冤罪ではなかったというのか?
でもこの前開いたときは確かに化けてなかったのにな。
もう分からなくなってきた。
4836
2024/01/05(金) 03:21:06.77ID:a4cHXUaH0 気を取り直してOCRから得られたテキストファイルを校正してみたが、やはり恐ろしいほどの認識率。
3点リーダーの数がちょっと多かったり、1行目の行頭空白を落としてたりへべぺ(かな)とヘベペ(カナ)が一部入れ替わったりしたくらいの恐ろしくシンプルな校正で済んでしまい、以前に完品として作ったファイルとDiffツールで比較したら、逆に完品のはずのファイルにミスが見つかってしまった。
あらためて作ってくださった神に感謝。
マジでゲーミングPC調達したいな。
3点リーダーの数がちょっと多かったり、1行目の行頭空白を落としてたりへべぺ(かな)とヘベペ(カナ)が一部入れ替わったりしたくらいの恐ろしくシンプルな校正で済んでしまい、以前に完品として作ったファイルとDiffツールで比較したら、逆に完品のはずのファイルにミスが見つかってしまった。
あらためて作ってくださった神に感謝。
マジでゲーミングPC調達したいな。
49名無しさん@お腹いっぱい。
2024/01/05(金) 11:02:48.96ID:vt4ZwsJe0 三点リーダの数が化けるのは、正直どうしょうもないと諦め中。
長くなると、認識の位相がずれていっぱいになっちゃう
いま最終調整してるので、Newバージョンの認識エンジンでもうすぐリリースできそう。
行頭の空白の認識が向上したのと、ふりがなのグループルビがもう少し向上したはず。
段組の順番が乱れるのも多分直った気がするのと、ページ番号と柱を無視できるようにしてみた
長くなると、認識の位相がずれていっぱいになっちゃう
いま最終調整してるので、Newバージョンの認識エンジンでもうすぐリリースできそう。
行頭の空白の認識が向上したのと、ふりがなのグループルビがもう少し向上したはず。
段組の順番が乱れるのも多分直った気がするのと、ページ番号と柱を無視できるようにしてみた
2024/01/05(金) 12:22:46.92ID:Rk0TKNDl0
Shift JISしか扱えないソフトって現代ではバグの類
5136
2024/01/06(土) 00:47:34.42ID:TBakV8IN0 三点リーダーが過剰なのは、そういうものだと分かっていれば正規表現で瞬殺ですし。
Tesseract-ocrをずっと使ってきて、Ver.4辺りから無言のセリフ=「…………」みたいなのをなぜか行ごと欠落するようになったので、ページごとに行数をサーチして行数の少ないページに当たりをつけて補完してた頃に比べれば、何のなんの。
それよか過去にOCRして校正済みの完品なはずのテキストデータ(前回とは別物)と、昨夜から半日かけてbunkoOCRで得られた新しいテキストを再比較してみましたが、ほぼ半日の校正で完品を凌ぐ出来でした。
とくに拡大しなきゃ違いが分からなかった、
搔
と
掻
を識別できてるのがスゴイ。勿論正解の方を引いている!
こりゃあ次期バージョンが楽しみですな。
Tesseract-ocrをずっと使ってきて、Ver.4辺りから無言のセリフ=「…………」みたいなのをなぜか行ごと欠落するようになったので、ページごとに行数をサーチして行数の少ないページに当たりをつけて補完してた頃に比べれば、何のなんの。
それよか過去にOCRして校正済みの完品なはずのテキストデータ(前回とは別物)と、昨夜から半日かけてbunkoOCRで得られた新しいテキストを再比較してみましたが、ほぼ半日の校正で完品を凌ぐ出来でした。
とくに拡大しなきゃ違いが分からなかった、
搔
と
掻
を識別できてるのがスゴイ。勿論正解の方を引いている!
こりゃあ次期バージョンが楽しみですな。
2024/01/11(木) 17:17:43.26ID:niQd9tZ50
グーグルドライブに上げてみたけどたまにダブるね。
繰り返される語を見つけるにはどうすればいいのだろうか。
>分からなかった
が↓みたいになってしまうことがある。
>分からなかったなかった
繰り返される語を見つけるにはどうすればいいのだろうか。
>分からなかった
が↓みたいになってしまうことがある。
>分からなかったなかった
53名無しさん@お腹いっぱい。
2024/01/11(木) 17:53:53.84ID:3yKCzJ/50 Transformer特有のバグですね。それはそれとして、今のエンジンで処理ミスがあったかもなので、
(そのせいで5文字くらい反復する)
次のバージョンでもまだバグってるか確認していただいていいでしょうか。
絶賛、機械学習モデルを学習中なので、もうしばしお待ちを
(そのせいで5文字くらい反復する)
次のバージョンでもまだバグってるか確認していただいていいでしょうか。
絶賛、機械学習モデルを学習中なので、もうしばしお待ちを
2024/01/11(木) 19:09:59.17ID:nGTAUcvV0
最新版はどこから落とせますか見つからなくて
55名無しさん@お腹いっぱい。
2024/01/11(木) 21:35:23.20ID:3yKCzJ/50 すみません、今作ってるところなので多分来週くらいにリリースできそう
5636
2024/01/12(金) 01:58:21.08ID:WsGAu9aR0 >>52
直前の文字列の繰り返しなら以下の正規表現検索で、
(..+)\1
↑『任意の二文字以上の文字列』の繰り返しにヒットします。
正規表現に対応したテキストエディタとかGrepツールならすぐに炙り出せると思う。
あと前回とは異なるソースをOCRしてみたら、大文字のローマ数字を全く認識しなかったですね。
他にはちょっと原文がイジワルなのですが、
‐(←全角のハイフン)
ー(←音引き)
―(全角のダッシュ)
大半は認識してたけど、この辺の一部が文字化けしてかしら。
最初にスキャンした原稿がだいぶ紙焼けしてたし、まだスキャンのノウハウが未熟だった頃のネタだから、今あらためてスキャンしたらもうちょっと違う結果になるのかも。
直前の文字列の繰り返しなら以下の正規表現検索で、
(..+)\1
↑『任意の二文字以上の文字列』の繰り返しにヒットします。
正規表現に対応したテキストエディタとかGrepツールならすぐに炙り出せると思う。
あと前回とは異なるソースをOCRしてみたら、大文字のローマ数字を全く認識しなかったですね。
他にはちょっと原文がイジワルなのですが、
‐(←全角のハイフン)
ー(←音引き)
―(全角のダッシュ)
大半は認識してたけど、この辺の一部が文字化けしてかしら。
最初にスキャンした原稿がだいぶ紙焼けしてたし、まだスキャンのノウハウが未熟だった頃のネタだから、今あらためてスキャンしたらもうちょっと違う結果になるのかも。
57名無しさん@お腹いっぱい。
2024/01/12(金) 12:02:45.51ID:4rDhO0A30 ローマ数字はどうするのが正解なのかしら。
コードポイント当たってましたっけ
コードポイント当たってましたっけ
2024/01/12(金) 13:13:06.17ID:WsGAu9aR0
>>57
ローマ数字に限らないけど、正しく認識できなくてもせめて文字化けしておいてくれれば僥倖。そこに文字ならざる文字があることが分かるから。
現状だとjsonファイルの中を見ても、何もなかったことにされてるみたいなので。
ローマ数字に限らないけど、正しく認識できなくてもせめて文字化けしておいてくれれば僥倖。そこに文字ならざる文字があることが分かるから。
現状だとjsonファイルの中を見ても、何もなかったことにされてるみたいなので。
2024/01/12(金) 19:31:04.56ID:L2uryeWD0
2024/01/13(土) 08:10:18.27ID:aDP1gLwi0
正規表現置換
(([^ ]).+)\1
\1
で消えるのか
さすがに一括置換はいけないけど捗る
(([^ ]).+)\1
\1
で消えるのか
さすがに一括置換はいけないけど捗る
2024/01/15(月) 19:56:31.14ID:f4sNJF/V0
bunkoOCRは1行に数文字しかない場合
文字が飛んでる時がある
横長の画像で起きやすいかも
XXXXXXXXだっ[改行]
た。
この「た。」の部分が文頭に出力されたりする
文字が飛んでる時がある
横長の画像で起きやすいかも
XXXXXXXXだっ[改行]
た。
この「た。」の部分が文頭に出力されたりする
2024/01/16(火) 07:42:29.73ID:E1P52Z+20
2024/01/16(火) 14:34:22.58ID:ltS5qus50
2024/01/19(金) 23:23:31.65ID:YhJapSCJ0
bunkoOCRの文字がバラバラになるのは
縦横や段組を自動判別してるからかな
縦横や段組を自動判別してるからかな
2024/01/19(金) 23:38:20.15ID:LKx6KJS+0
縦書きであっても左上から右に向かって
解析してるのかなと勝手に想像している
解析してるのかなと勝手に想像している
2024/01/19(金) 23:48:37.33ID:NIDZCkfr0
>>61,64,65
出力jsonと縦書横書、柱、ノンブル座標範囲を指定したら、
ブロック番号やライン、文字順と座標の整合性をチェックする
Pythonツールなんてないですかね
作者さん以外でもコマンドラインプログラムの出来る人が頑張っていたら嬉しい
出力jsonと縦書横書、柱、ノンブル座標範囲を指定したら、
ブロック番号やライン、文字順と座標の整合性をチェックする
Pythonツールなんてないですかね
作者さん以外でもコマンドラインプログラムの出来る人が頑張っていたら嬉しい
2024/01/19(金) 23:52:12.23ID:NIDZCkfr0
柱、ノンブル座標範囲は要はチェック除外範囲で
反対にチェック対象座標範囲の方でも良いのか
反対にチェック対象座標範囲の方でも良いのか
68名無しさん@お腹いっぱい。
2024/01/20(土) 04:07:48.61ID:fi7Vlmn20 文字の位置と文字コード、文のラインまでは簡単(ではないが)なのだが、
それがどの文と文が連結してて、どこで切れるかを自動判定しようとして失敗してます。
文のつながりの順の判定は、機械学習でなく伝統的なプログラムでif文的なやつでやってるので、
こうしたら確実だぜ!って方法を思いついたら教えていただけるとありがたいです。
解析対象座標を与えるのもいいけど、1枚ずつ指定するの面倒だなーと思ってなんとか自動にしたい
それがどの文と文が連結してて、どこで切れるかを自動判定しようとして失敗してます。
文のつながりの順の判定は、機械学習でなく伝統的なプログラムでif文的なやつでやってるので、
こうしたら確実だぜ!って方法を思いついたら教えていただけるとありがたいです。
解析対象座標を与えるのもいいけど、1枚ずつ指定するの面倒だなーと思ってなんとか自動にしたい
2024/01/20(土) 08:33:40.47ID:p5Tos3MR0
2024/01/21(日) 19:53:58.19ID:kaLi9Q2h0
>>68
ラインに含まれる各文字のBBOXからラインのBBOXを作って
x座標の単純比較で済む、かと思いきや作者さんの映像を見ると
ラインが斜めだったり湾曲してたりするので無理か
手書きは諦めて印刷物だけに絞って歪み推定や補正が出来れば
座標の単純比較に持ち込めそうだけれど、ちゃんとした機械は
レーザーをあてて測定してるから推定自体が困難なんだろうと思う
(中華OHスキャナーは補正可能ストライクゾーンどうなってんのかな)
ラインに含まれる各文字のBBOXからラインのBBOXを作って
x座標の単純比較で済む、かと思いきや作者さんの映像を見ると
ラインが斜めだったり湾曲してたりするので無理か
手書きは諦めて印刷物だけに絞って歪み推定や補正が出来れば
座標の単純比較に持ち込めそうだけれど、ちゃんとした機械は
レーザーをあてて測定してるから推定自体が困難なんだろうと思う
(中華OHスキャナーは補正可能ストライクゾーンどうなってんのかな)
2024/01/21(日) 19:59:18.51ID:kaLi9Q2h0
素人の浅知恵では歪みや文字の回転自体も学習データさえあれば
AIがやってくれる都合の良い妄想をしてますw
AIがやってくれる都合の良い妄想をしてますw
72名無しさん@お腹いっぱい。
2024/01/28(日) 12:51:51.97ID:bM3XBXnU0 ABBYY FineReaderの日本語の精度はどうですか。
バージョン14以上は結構高いと思いますけれど、僕は15使ってる
バージョン14以上は結構高いと思いますけれど、僕は15使ってる
73名無しさん@お腹いっぱい。
2024/02/17(土) 01:22:32.69ID:TjaL0UQq0 嵌め込み業者がまぎれとると思ってたごめん
なんだ
若い連中がある意味賢いと言えるのは
なんだ
若い連中がある意味賢いと言えるのは
74名無しさん@お腹いっぱい。
2024/02/17(土) 01:22:51.96ID:smYVXfVJ0 復学の手続き終わった
その頃Twitterなかったロリコン性犯罪者予備軍みたいな何処のクラブもそうやな
その頃Twitterなかったロリコン性犯罪者予備軍みたいな何処のクラブもそうやな
75名無しさん@お腹いっぱい。
2024/02/17(土) 01:23:08.72ID:smYVXfVJ0 かなりマージン取ってるとはいえ
そろそろ全打席四死球で攻めてもええやろ
そろそろ全打席四死球で攻めてもええやろ
76名無しさん@お腹いっぱい。
2024/02/17(土) 01:24:53.46ID:Ad6BPdLh0 人気になるの?
一般が見るのが効いてるからな
サロンが素人に毛が生えてるとか
投げやりな感じが好きなゴミサガテイルズペルソナ以下だよねー
一般が見るのが効いてるからな
サロンが素人に毛が生えてるとか
投げやりな感じが好きなゴミサガテイルズペルソナ以下だよねー
77名無しさん@お腹いっぱい。
2024/02/17(土) 01:25:17.78ID:q4XXqV8x02024/02/17(土) 21:29:00.81ID:PwM1ooT+0
あやしい組織がなんか実験してるな。
昨日5ch詰まってたのはこいつのせいか。
昨日5ch詰まってたのはこいつのせいか。
2024/03/03(日) 20:52:13.50ID:yd4vitPH0
少々知恵を借りたい。
当方Linux-MXユーザー。
bunkoOCR用にRADEONながらグラボを買ったのを機に、OSを最新バージョンのMX23-2でインスコし直して、Wineも9.0にした。
Windows11相当に振る舞うようにしてある。
AMDのドライバも当たってるみたいだし、bunkoOCRの設定もGPUを使う設定にして、CUI画面から、
wine OCRengine.exe 0
を実行してみると、24行目でreadyと出るし、GUI画面でもエラーなく動くからWineは正常に動いていると思うのだが、肝心の処理速度がGPUなしのときと変わらない。
CPU冷却のための遅延を60秒設定してあるのだが、リソースメーターを見ていると以前と同様CPUが80〜100%使われていて1ファイル辺り2分くらいかかってしまう。
これはGPUが効いてないとしか思えないのだが、何かまだやりようはあるだろうか?
グラボは玄人志向のRD-RX550E4GB/LPで、PCは
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4 24GB
当方Linux-MXユーザー。
bunkoOCR用にRADEONながらグラボを買ったのを機に、OSを最新バージョンのMX23-2でインスコし直して、Wineも9.0にした。
Windows11相当に振る舞うようにしてある。
AMDのドライバも当たってるみたいだし、bunkoOCRの設定もGPUを使う設定にして、CUI画面から、
wine OCRengine.exe 0
を実行してみると、24行目でreadyと出るし、GUI画面でもエラーなく動くからWineは正常に動いていると思うのだが、肝心の処理速度がGPUなしのときと変わらない。
CPU冷却のための遅延を60秒設定してあるのだが、リソースメーターを見ていると以前と同様CPUが80〜100%使われていて1ファイル辺り2分くらいかかってしまう。
これはGPUが効いてないとしか思えないのだが、何かまだやりようはあるだろうか?
グラボは玄人志向のRD-RX550E4GB/LPで、PCは
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4 24GB
80名無しさん@お腹いっぱい。
2024/03/07(木) 10:13:44.68ID:m0sytuIe0 tesseract-ocr、MangaOCR、NDLOCRの精度が気になる
tesseract-ocrはともかくMangaOCRとNDLOCRは敷居高そうだが
tesseract-ocrはともかくMangaOCRとNDLOCRは敷居高そうだが
81名無しさん@お腹いっぱい。
2024/03/07(木) 11:32:04.84ID:E06iSSlv0 >> 2023/09/18 GPUを使わないように強制するオプションを追加
>>パラメータが保存されているparam.configをテキストエディタで開き、
>>use_GPU:0に書き換えるとDirectMLを使用しないように強制できます。
との記述が有るので、ここを
use_GPU:1
とかに書き換えてみては、どうでしょうか?
>>パラメータが保存されているparam.configをテキストエディタで開き、
>>use_GPU:0に書き換えるとDirectMLを使用しないように強制できます。
との記述が有るので、ここを
use_GPU:1
とかに書き換えてみては、どうでしょうか?
2024/03/08(金) 02:21:09.63ID:CxH2uEdI0
>>81
うむ、param.configのデフォルトは = use_GPU:1
つまり何もしなければ有効になっているんですよ。
勿論何度か有効/無効を切り替えてみましたが、残念ながら無効状態よりも処理速度が上がることはなかったですね。
うむ、param.configのデフォルトは = use_GPU:1
つまり何もしなければ有効になっているんですよ。
勿論何度か有効/無効を切り替えてみましたが、残念ながら無効状態よりも処理速度が上がることはなかったですね。
2024/03/08(金) 11:37:26.72ID:eJ1wYffd0
2024/03/08(金) 11:44:34.18ID:00TBGwdx0
2024/03/08(金) 11:52:08.80ID:8yoAHlNL0
2024/03/08(金) 12:21:48.75ID:YB+PYqJb0
みんなでオッパの帰りを祈りましょう🙏❤
2024/03/08(金) 12:29:38.55ID:sc5/cOxh0
世界中の国の調査なんかお察しだろ
寝配信やったのにアホやでほんま
G民「誰?」「マスク外していいかな??
寝配信やったのにアホやでほんま
G民「誰?」「マスク外していいかな??
2024/03/08(金) 12:44:23.66ID:Ixr9Kf2I0
じゃあ次もジェイクにしか見えないほどの気力もないとダメやろ
革命でも専用のおうちはそっちと関係あるのな。
さて
いよいよシーズン始まったことだからな
革命でも専用のおうちはそっちと関係あるのな。
さて
いよいよシーズン始まったことだからな
89名無しさん@お腹いっぱい。
2024/03/08(金) 12:47:02.90ID:aFbzCVhm090名無しさん@お腹いっぱい。
2024/03/08(金) 13:08:45.72ID:061/uaX70 日本語で一番面白いろいけどな
91名無しさん@お腹いっぱい。
2024/03/08(金) 13:33:11.86ID:FI0JuvjK0 買わないわよー
92名無しさん@お腹いっぱい。
2024/03/08(金) 13:42:22.12ID:R1/M5wF302024/03/09(土) 00:06:56.91ID:0XEcth6M0
ただの荒らしスクリプトではないぞ。
いまも壺サポはBOTみたいなもんだが、もうすぐ本当のBOTが話しかけてくるようになるだろう。
いまも壺サポはBOTみたいなもんだが、もうすぐ本当のBOTが話しかけてくるようになるだろう。
2024/03/10(日) 19:27:23.92ID:tKH8JHHR0
bunkoOCRで数冊やってみて分かったこと
かなりの確率で
段落の一段下げの【空白】と【「】が消えてる
【!!】と【!?】が文字化け
文字化けするから新字で書くけど
これの旧字が文字化けする
頬|嘘|噛|掴|剥|躯|掻|唖|蝋
繍|涜|鹸|祷|溌|焔|填|箪|侠|呑
ルビに《、、、、》があると文がバラバラになる
AAAAAAAAAAAAAAA
BBBBBBBBBBBBBBB
こういう文が
AAAAAAAAAAABBBBBBBBBBBBBBB
こんな感じに結合されてAの末尾数文字が消える
あとはこれ>>61
文字の認識は有料ソフトよりかなりいいので作者には頑張って欲しいわ
かなりの確率で
段落の一段下げの【空白】と【「】が消えてる
【!!】と【!?】が文字化け
文字化けするから新字で書くけど
これの旧字が文字化けする
頬|嘘|噛|掴|剥|躯|掻|唖|蝋
繍|涜|鹸|祷|溌|焔|填|箪|侠|呑
ルビに《、、、、》があると文がバラバラになる
AAAAAAAAAAAAAAA
BBBBBBBBBBBBBBB
こういう文が
AAAAAAAAAAABBBBBBBBBBBBBBB
こんな感じに結合されてAの末尾数文字が消える
あとはこれ>>61
文字の認識は有料ソフトよりかなりいいので作者には頑張って欲しいわ
95名無しさん@お腹いっぱい。
2024/03/10(日) 21:09:57.71ID:XgPOjlcp0 サンプルがないとなんとも
96名無しさん@お腹いっぱい。
2024/03/11(月) 14:31:19.15ID:xot+dunl0 >>80
オンボードグラフィックのパソコンでも使える?
オンボードグラフィックのパソコンでも使える?
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国と対話で良い関係つくるのが責任と首相 ★2 [少考さん★]
- 参政党、梅村みずほ参院議員を党ボードメンバーから解任 参議院国会対策委員長の役職も外れる [少考さん★]
- 日本テレビ、国分太一の会見受け回答「『コンプライアンス違反行為があった』ということ以上に公にできない」「答え合わせ難しい」 [Ailuropoda melanoleuca★]
- 平本蓮「久々にあんなキレたわ あのくそ金髪芸人」SNSでブチギレ、心当たりある芸人が即謝罪「僕ですよね?」 [muffin★]
- 社民・福島瑞穂党首「存立危機事態についての高市総理の発言は撤回すべき」「日本の政治の問題として」 [少考さん★]
- 生クリームだけの真っ白なクリスマスケーキ 大手メーカーが販売、その理由は…フルーツなしで価格は半額以下に ★2 [おっさん友の会★]
- 【悲報】高市、終わるwwwwwwwwwwwwwwwwwww [308389511]
- 【悲報】高市、答弁修正。バカウヨ敗北wwwwwwwwww [834922174]
- 【速報】高市「日本はサンフランシスコ平和条約で台湾に関する全ての権利と権限を放棄している。台湾の法的地位や認定する立場ではない」 [931948549]
- 参政党、梅村みずほを解任 [175344491]
- 【高市朗報】精神疾患をもつ人は「毎日コーヒー」で老化が遅くなる [947959745]
- 【悲報】トランプ「お前マジいい加減にしろよ?」高市早苗「すみませんでした」答弁修正へ
