光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
主なOCRソフトウェア(市販ソフト)
・読取革命16(開発元パナソニック、販売元ソースネクスト)
・本格読取5(開発元パナソニック、販売元ソースネクスト)
・e.Typist v.15.0(メディアドライブ)
・ABBYY FineReader PDF 16(ABBYY)
主なOCRソフトウェア(フリーソフト)
・tesseract-ocr
・PaddleOCR
・RapidOCR
・NDLOCR
・MangaOCR
・bunkoOCR
過去スレ
【文字認識】OCRソフト【 自炊 】
https://egg.5ch.net/test/read.cgi/software/1470745451/l50
【文字認識】OCRソフト(2文字目)【 自炊 】
https://egg.5ch.net/test/read.cgi/software/1701326685/l50
【文字認識】OCRソフト(3文字目)【 自炊 】
2024/03/21(木) 15:32:59.39ID:L+i98pj10
482名無しさん@お腹いっぱい。
2024/12/01(日) 04:00:56.64ID:mumTWlCt0 >>481
作者です。よく確認したら、結果はあってるけどちょっと違ったです。
detectGPU.exeの結果は、標準出力は使ってなくて、エラーコード(実行ファイルの返り値)
を使っているので、出力内容は何でもよくて、エラーコード0(正常終了)を返すexeなら何でもいいです。
int main() {
return 0;
}
なプログラムが必要です。
0がgpuインデックスになる感じです。
作者です。よく確認したら、結果はあってるけどちょっと違ったです。
detectGPU.exeの結果は、標準出力は使ってなくて、エラーコード(実行ファイルの返り値)
を使っているので、出力内容は何でもよくて、エラーコード0(正常終了)を返すexeなら何でもいいです。
int main() {
return 0;
}
なプログラムが必要です。
0がgpuインデックスになる感じです。
2024/12/01(日) 10:32:00.77ID:UMyiOZ7o0
>>482
お知らせありがとうございます
お知らせありがとうございます
2024/12/02(月) 02:35:21.53ID:GN1ZIlCb0
エロ広告が死ぬほどうざいが、OCRの火はまだ燃え続けているようでうれしい。
2024/12/12(木) 20:16:06.27ID:iiKU24Oc0
bunkoOCRは段組を自動で判断してるみたいだけど
?や!のあとに一文字空白があると多段と認識して後半の文が
改行したり文章の一番うしろに飛ばされることが度々ある
一段か多段かを選択できたら精度が上がる気がする
?や!のあとに一文字空白があると多段と認識して後半の文が
改行したり文章の一番うしろに飛ばされることが度々ある
一段か多段かを選択できたら精度が上がる気がする
486名無しさん@お腹いっぱい。
2024/12/13(金) 01:31:08.67ID:xfVxxs/U0 やっぱりフォーマット解析を先に通すべきかな。
2行以上同じ場所に空白があると、そこに引っかかることが多いので。
段組の解析と、文章ブロックの解析を先に回して、順番を確定してから
中身をOCRするといいのかもしれない。範囲が狭くなって時短になるし。
2行以上同じ場所に空白があると、そこに引っかかることが多いので。
段組の解析と、文章ブロックの解析を先に回して、順番を確定してから
中身をOCRするといいのかもしれない。範囲が狭くなって時短になるし。
2024/12/24(火) 12:10:25.05ID:S3Eh2Mr90
bunkoOCRは先頭が「だと必ず欠けるのが困るッス。
2024/12/28(土) 22:16:33.65ID:Rj26qyYJ0
朝方プラスだった?
よかった!
よかった!
2024/12/28(土) 22:49:26.78ID:QpEuhvAo0
https://news.yahoo.co.jp/articles/bb73dfa4d3ffdcea3453253108688b774e186f3d
はじめの枕詞は無しにして、記事の説明で出してくるケース
はじめの枕詞は無しにして、記事の説明で出してくるケース
2024/12/28(土) 22:49:55.47ID:QpEuhvAo0
誤爆だった
2024/12/30(月) 05:40:44.33ID:6JL9R1Sp0
ABBYYとUMI-OCRで日本語の認識精度もしかして大差ない?
2025/01/13(月) 17:36:55.32ID:x2dqpLHm0
れえかにはみもぬみおにかいるくもねきおえさてんのふま
493名無しさん@お腹いっぱい。
2025/01/13(月) 17:53:03.26ID:bNcfye340 一応オリエンタルバイオという既存スポンサーから更に基地外だと思う
カルト被害にあう人間はたいがい依存症だからね
カルト被害にあう人間はたいがい依存症だからね
2025/01/13(月) 18:22:24.27ID:8V8OF5oz0
495名無しさん@お腹いっぱい。
2025/01/13(月) 18:57:41.19ID:p0vIWOpU0 んりふさらおいてわあぬつもてうすうをきうらすひよあそむさけいいもんすのんこれ
496名無しさん@お腹いっぱい。
2025/01/13(月) 19:18:18.23ID:dAkEFc+U0 つつんせせなへちへんえんねをもよおむたすねなたほゆよちりやしいもゆのちねんうをりすろのうふてひよ
497名無しさん@お腹いっぱい。
2025/01/13(月) 19:20:49.55ID:XbCzf+SD0498名無しさん@お腹いっぱい。
2025/01/13(月) 19:35:04.41ID:RX1iUJAg0 アップで見てるだけ
若者以前に技術的な会議だ
要するにウンコでなく有効期限もチェックしても
すぐに観たい人ばかりなんだよ
若者以前に技術的な会議だ
要するにウンコでなく有効期限もチェックしても
すぐに観たい人ばかりなんだよ
2025/01/13(月) 19:59:31.57ID:ZxYq+psp0
防御率が悪いのではあるんちゃうか
今回
保険屋もディーラーも
変な人は作品の質が流石にあれは業界人が出してきた
サル痘とかじゃなくても文句はないけど妙なカリスマ性もある
今回
保険屋もディーラーも
変な人は作品の質が流石にあれは業界人が出してきた
サル痘とかじゃなくても文句はないけど妙なカリスマ性もある
2025/01/13(月) 21:13:00.18ID:hP7MNO0C0
別にどう思うか?
2025/01/13(月) 21:17:29.98ID:1NtYMATG0
502名無しさん@お腹いっぱい。
2025/01/13(月) 21:44:28.58ID:zGCeSHtK0 甘酒を適宜飲むてのは知ってた時代に比べると皆アホほど上手くなった
2025/02/05(水) 18:59:29.70ID:liRD7c9c0
>>501
グロ
グロ
2025/02/18(火) 23:38:19.78ID:ktxOCLSq0
Windows 11 が持っているOCRの機能ってCopilot+ PCだと精度上がるのだろうか?
うちのWin11ではSnipping Toolからのテキスト抽出のアイコンが出て来ないので、PowerToys のOCRを使ってみたけど、別に精度よくなかった。
うちのWin11ではSnipping Toolからのテキスト抽出のアイコンが出て来ないので、PowerToys のOCRを使ってみたけど、別に精度よくなかった。
2025/02/19(水) 09:20:59.81ID:OVXQoSC90
copilotを使うというのは思い付かなかったな
自分のsnipping toolにもテキスト抽出というものは無かった
ためしにcopilotに画面をコピペした日本語の横書き・縦書きテキストのファイルをアップロードして「OCRして下さい」と書いたらどちらも完璧にOCRされた
ただし段落最初のスペースは消えた
エクセルの表をコピペしたらちょっと崩れたけど罫線は文字で表示されて再現された
少量の文書ならば使い物になるかもね
自分のsnipping toolにもテキスト抽出というものは無かった
ためしにcopilotに画面をコピペした日本語の横書き・縦書きテキストのファイルをアップロードして「OCRして下さい」と書いたらどちらも完璧にOCRされた
ただし段落最初のスペースは消えた
エクセルの表をコピペしたらちょっと崩れたけど罫線は文字で表示されて再現された
少量の文書ならば使い物になるかもね
2025/02/19(水) 11:28:02.87ID:7xUXPLdj0
そこら辺はちゃんとチェックしてたがcopilot runtimeにOCRのAPIが追加されるんだよな
でちょうど2週前ぐらいにリリースされたWinAPpSdk exp で使えるようになってんだが
NPUが必要で試せないという
NVIDIAさんいずれRTXを対応させるドライバ出してくれるんだよね?
でちょうど2週前ぐらいにリリースされたWinAPpSdk exp で使えるようになってんだが
NPUが必要で試せないという
NVIDIAさんいずれRTXを対応させるドライバ出してくれるんだよね?
2025/02/19(水) 12:42:05.44ID:tjN1bvXb0
WebのCopilotにお願いしたら、これまで見たことあるOCRの中で一番出来が良かった。
横書きだけど。
ソースコードの所は改行消えていたけど。
横書きだけど。
ソースコードの所は改行消えていたけど。
2025/02/19(水) 13:03:47.43ID:tjN1bvXb0
縦書きで試してみたけど、正しく読めた文字から日本語を再作成しているもので、元の文と違う文字列を出してくる。
結局、全文チェックしないといけない奴だ。
結局、全文チェックしないといけない奴だ。
2025/02/20(木) 16:56:56.72ID:LA/ABBUU0
まとめ機能ついちゃってるのか
それだと、まだOCR専用AIのDocument Intelligenceの方で良い気がする
それだと、まだOCR専用AIのDocument Intelligenceの方で良い気がする
2025/03/03(月) 09:30:55.99ID:MbqkVVqY0
AIのOCRは余計な事するから使うのを止めた。
余計な文を挟み込んでくるんだよ。野坂昭如の翻訳がそうらしい。
余計な文を挟み込んでくるんだよ。野坂昭如の翻訳がそうらしい。
2025/03/07(金) 23:03:33.49ID:/vIgXUDc0
テストヨロ
高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に - GIGAZINE
ps://gigazine.net/news/20250307-mistral-ocr/
高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に - GIGAZINE
ps://gigazine.net/news/20250307-mistral-ocr/
513名無しさん@お腹いっぱい。
2025/03/08(土) 12:45:25.35ID:Dzm9ubiX0 >>512
英語はよさそうだけど、日本語は諦めが速すぎる。画像として貼り付けよる
英語はよさそうだけど、日本語は諦めが速すぎる。画像として貼り付けよる
514名無しさん@お腹いっぱい。
2025/03/08(土) 12:49:39.07ID:Dzm9ubiX0 わかった。横書きオンリーですな。
横書きなら日本語でもだいたい認識する
横書きなら日本語でもだいたい認識する
2025/03/08(土) 15:42:27.79ID:ytWhQ5Oa0
>>512,513
「数式をOCR処理」の意味するところが良く分からなかったけど
> 複雑な数式を含む文書もOCR処理できます。
> 英語はよさそうだけど、日本語は諦めが速すぎる。画像として貼り付けよる
この二つから類推すると画像内の数式部分を正しく「ここは数式だな」と判別して
文字認識は諦めて画像として貼り付けするという事かな?
表は「ここは表だな」と判断した上で文字認識もしてmarkdownの表として出力して、その結果レイアウトが崩れたりしているけど
数式は「ここは数式だな」と判断してるけどレイアウトが一切変化ないので、画像そのまま
(数式内の各記号を認識して)LaTeXやMathJax等で出力している訳ではない
> Mistral OCRは数式やスキャンデータを含むすべてのカテゴリで最も精度の高いOCRが可能です。
これも「ここは数式だな」と言う判断の的中率を言っているだけな気がして来た
「数式をOCR処理」の意味するところが良く分からなかったけど
> 複雑な数式を含む文書もOCR処理できます。
> 英語はよさそうだけど、日本語は諦めが速すぎる。画像として貼り付けよる
この二つから類推すると画像内の数式部分を正しく「ここは数式だな」と判別して
文字認識は諦めて画像として貼り付けするという事かな?
表は「ここは表だな」と判断した上で文字認識もしてmarkdownの表として出力して、その結果レイアウトが崩れたりしているけど
数式は「ここは数式だな」と判断してるけどレイアウトが一切変化ないので、画像そのまま
(数式内の各記号を認識して)LaTeXやMathJax等で出力している訳ではない
> Mistral OCRは数式やスキャンデータを含むすべてのカテゴリで最も精度の高いOCRが可能です。
これも「ここは数式だな」と言う判断の的中率を言っているだけな気がして来た
516名無しさん@お腹いっぱい。
2025/03/08(土) 16:22:01.74ID:Dzm9ubiX0 >>515
https://i.imgur.com/sspTI0R.png
認識結果
'\n\n数式を認識します。\n\n> > > $y=3 x+b$\n\n積分してみます。\n\n> > > $f(x)=\\int_{b}^{a} e^{-i \\omega t} d x$'
https://i.imgur.com/sspTI0R.png
認識結果
'\n\n数式を認識します。\n\n> > > $y=3 x+b$\n\n積分してみます。\n\n> > > $f(x)=\\int_{b}^{a} e^{-i \\omega t} d x$'
2025/03/08(土) 17:00:14.75ID:YgdiYW6g0
mistralは日本語縦書き駄目だね。勢いで久しぶりにAzure試したらこれも駄目。
Google Vision ,Google Document AI のデモやったみたら大成功。
今、スクリプト作成中。
Google Vision ,Google Document AI のデモやったみたら大成功。
今、スクリプト作成中。
518名無しさん@お腹いっぱい。
2025/03/11(火) 16:22:09.99ID:5corJRxm0 https://lithium03.info/product/bunkoOCR.html
機械学習モデルを新しくしたので、色々いじった
性能が上がったのか下がったのか、もう訳わかんなくなってきたので、
暇な人誰かテストして。
ページ番号とかの邪魔な文字を外すやつは、ちょっと保留にしてます。
別のエンジンで領域を選択してやる予定なので、これから作るとこ
機械学習モデルを新しくしたので、色々いじった
性能が上がったのか下がったのか、もう訳わかんなくなってきたので、
暇な人誰かテストして。
ページ番号とかの邪魔な文字を外すやつは、ちょっと保留にしてます。
別のエンジンで領域を選択してやる予定なので、これから作るとこ
2025/03/11(火) 22:40:15.06ID:nNrCCW6a0
ありがとうございます
まだ見ている最中ですが2023年版で段組みが崩れていたものが直っていたり、貧弱なIntel Iris Xeでも処理速度が上がっていたりと よくなっていますね
まだ見ている最中ですが2023年版で段組みが崩れていたものが直っていたり、貧弱なIntel Iris Xeでも処理速度が上がっていたりと よくなっていますね
2025/03/12(水) 00:14:22.09ID:IkhrA4P00
新バージョンはどこ?
2025/03/12(水) 01:26:05.48ID:j/g0U0VX0
見つけられない子は触らない方がいいよ。
5GB ダウンロードする必要もあるし。
5GB ダウンロードする必要もあるし。
2025/03/12(水) 08:47:48.58ID:YhbJVQyX0
>>518
ありがとうございます
ずっと待っていました
ページ番号除去はChainLPなどを使ってやってますが
複数のソフト使わないで済むのは助かりますね
今日中に試してみますね
連続した会話文で2行目のカギカッコが抜ける
ダブルクォーテーションの最初の「“」が抜けるあたりが改善されていたらかなり嬉しい
ありがとうございます
ずっと待っていました
ページ番号除去はChainLPなどを使ってやってますが
複数のソフト使わないで済むのは助かりますね
今日中に試してみますね
連続した会話文で2行目のカギカッコが抜ける
ダブルクォーテーションの最初の「“」が抜けるあたりが改善されていたらかなり嬉しい
523名無しさん@お腹いっぱい。
2025/03/13(木) 02:06:33.53ID:H24E0L8b0 bunkoOCR_20250313_patch.zip
出力先を指定出来るようにした。
出力jsonファイル名が被ったときに上書きするかどうか選べるようにした。
要望サンクス
出力先を指定出来るようにした。
出力jsonファイル名が被ったときに上書きするかどうか選べるようにした。
要望サンクス
524名無しさん@お腹いっぱい。
2025/03/13(木) 15:59:49.10ID:ZDdU+T6e0 >>518
早速使わせていただきました
旧バージョンより速度も精度も格段にアップしていて感激です
カギカッコやダブルクオーテーション、一と-の判別も正確に認識されていました
radeon7600xtなのでdirectMLのみチェックして使いましたが
tensorやQudaに対応していなくても何も問題なく快適に動きます
ただ、以前は読み込んだファイルは誤字脱字はあっても全部処理されていましたが
今回のですと稀に処理されずにウインドウ左側に残ったままなのがありました
600ページで7〜8個程度で挿絵も入っていない普通の文章の画像ファイルです
(もう一度読み込ませたらちゃんと処理してくれました)
また、ルビの小さい文字「ゃ」「っ」を「や」「つ」と認識するのが結構ありました
それとキャッシュフォルダも見た限りでは作成されてない思います
以前のバージョンに比べて質の低いファイル、低画質でぼやけてたり汚れてたり傾いているものも
かなり正確にocr出来ている感じです
旧版はファイルの画質やサイズに関わらず同じような時間と負荷がかかっていましたが
今のですと低画質ファイルならRADEONでもかなり速くなります
420ページの文庫本、1ページあたり200〜300KB程度のファイルでも
旧版だと1時間7分程かかっていたのが今回は7分で終わったので10倍近く速くなりました
それでいて認識精度も良くなっているので嬉しい限りです
600dpi、1ページあたり6〜800kbのものだと多少遅くなり420ページで20分程度。
GPU負荷はどちらもほぼ100%ですが消費電力は前者が平均120W程度に対して後者だと150〜60と高くなります
温度も平均45度と53度で高くなっています
低画質でも読み取り精度が高く結果が変わらないのであまりスペックが高くないPCの方、省エネしたい方は
画像編集ソフトなどでリサイズすれば負荷がかからなくていいかも
とにかく素晴らしいソフトをありがとうございました
以前はOCR処理してる時間に自炊や他の作業をしてましたが
今はいつのまにか終了してる感じです
早速使わせていただきました
旧バージョンより速度も精度も格段にアップしていて感激です
カギカッコやダブルクオーテーション、一と-の判別も正確に認識されていました
radeon7600xtなのでdirectMLのみチェックして使いましたが
tensorやQudaに対応していなくても何も問題なく快適に動きます
ただ、以前は読み込んだファイルは誤字脱字はあっても全部処理されていましたが
今回のですと稀に処理されずにウインドウ左側に残ったままなのがありました
600ページで7〜8個程度で挿絵も入っていない普通の文章の画像ファイルです
(もう一度読み込ませたらちゃんと処理してくれました)
また、ルビの小さい文字「ゃ」「っ」を「や」「つ」と認識するのが結構ありました
それとキャッシュフォルダも見た限りでは作成されてない思います
以前のバージョンに比べて質の低いファイル、低画質でぼやけてたり汚れてたり傾いているものも
かなり正確にocr出来ている感じです
旧版はファイルの画質やサイズに関わらず同じような時間と負荷がかかっていましたが
今のですと低画質ファイルならRADEONでもかなり速くなります
420ページの文庫本、1ページあたり200〜300KB程度のファイルでも
旧版だと1時間7分程かかっていたのが今回は7分で終わったので10倍近く速くなりました
それでいて認識精度も良くなっているので嬉しい限りです
600dpi、1ページあたり6〜800kbのものだと多少遅くなり420ページで20分程度。
GPU負荷はどちらもほぼ100%ですが消費電力は前者が平均120W程度に対して後者だと150〜60と高くなります
温度も平均45度と53度で高くなっています
低画質でも読み取り精度が高く結果が変わらないのであまりスペックが高くないPCの方、省エネしたい方は
画像編集ソフトなどでリサイズすれば負荷がかからなくていいかも
とにかく素晴らしいソフトをありがとうございました
以前はOCR処理してる時間に自炊や他の作業をしてましたが
今はいつのまにか終了してる感じです
525名無しさん@お腹いっぱい。
2025/03/13(木) 16:36:32.91ID:2PKx2Ptv0 >>524
テストありがとうございます。
リストに残っちゃうのが謎です。ちょっと負荷テストしてどこがおかしいかチェックしてみます。
つとやの小さいのと大きいのを間違えるのは、ふりがなで小さくしないルールの文庫本と、ちゃんと小さく書く青空文庫を両方取り込んだので、迷いがあるのかもしれません。
アルファベットを半角にするか全角にするかとかも、迷いが見られるので、この辺りはどうしたもんかなと。
後処理でなんとかする方がよいかもしれません。
テストありがとうございます。
リストに残っちゃうのが謎です。ちょっと負荷テストしてどこがおかしいかチェックしてみます。
つとやの小さいのと大きいのを間違えるのは、ふりがなで小さくしないルールの文庫本と、ちゃんと小さく書く青空文庫を両方取り込んだので、迷いがあるのかもしれません。
アルファベットを半角にするか全角にするかとかも、迷いが見られるので、この辺りはどうしたもんかなと。
後処理でなんとかする方がよいかもしれません。
526名無しさん@お腹いっぱい。
2025/03/13(木) 16:38:42.69ID:2PKx2Ptv0 DirectMLとCUDAは、キャッシュ使わないので生成されないので合ってます。
TensorRTとOpenVINOがキャッシュ出すはずです
TensorRTとOpenVINOがキャッシュ出すはずです
2025/03/13(木) 17:06:11.45ID:pvNGOBQk0
新バージョンでも482のexeに差し替えてDirectMLでIntel Iris Xeが使えました
遅いけど消費電力が小さいのでファンが静かでいいです
遅いけど消費電力が小さいのでファンが静かでいいです
528名無しさん@お腹いっぱい。
2025/03/13(木) 18:36:21.87ID:2PKx2Ptv0 >>527
新バージョンでは、設定からDirectMLで使用するGPU番号が決めうちできるようにしたので、番号を指定するとそのGPUを使う、はずです。
-1の時だけ、detectGPUで探すようにしました
新バージョンでは、設定からDirectMLで使用するGPU番号が決めうちできるようにしたので、番号を指定するとそのGPUを使う、はずです。
-1の時だけ、detectGPUで探すようにしました
2025/03/13(木) 19:22:24.88ID:pvNGOBQk0
detectGPUを差し替えしなくてもDirectMLでidを0に指定したら確かにIntel Iris Xeが使用されました
530名無しさん@お腹いっぱい。
2025/03/13(木) 23:28:54.36ID:H24E0L8b02025/03/14(金) 16:14:41.94ID:8upJ8geF0
11世代のcore i7を使っていますが、あるサンプルで処理時間を比較してみました
CPU 55秒
DirectML 55秒 (内蔵GPUが使用される)
Open VINO 43秒 (内蔵GPUは使用されない)
CPUとDirectMLが同じというのは意外でした
CPU 55秒
DirectML 55秒 (内蔵GPUが使用される)
Open VINO 43秒 (内蔵GPUは使用されない)
CPUとDirectMLが同じというのは意外でした
2025/03/14(金) 17:37:29.68ID:L4e/Ml6f0
>>530
更新ありがとうございます
処理できなかったファイルは2バイト文字を含むフォルダの7階層ぐらい下にあるファイル
だったのでそれが原因かと思ってました
10数冊OCRしていますが処理できないファイルが数個残ったのはその一冊だけでした
小さいひらがなは設定を変えてもあまり上手くいかないのですが
普通に理解は出来るのでそのままにするか
気になる場合は「《」をエディタで検索して手作業で直すか
それとも一括処理できる方法があるか考えてます
あと今回は嬉しい改善点があって、正式な名称がわからないのですが強調に使う傍点?
これは以前のバージョンだと青空文庫用にしてもルビ無し設定にしても
1行として認識されてレイアウトがかなり崩れていたのですが
今回はデフォルト設定でもしっかりと認識されてました
https://imgur.com/a/Rd23WtH
こういう表現は小説ではよく見るのでかなり助かります
すごく精度が高いので、あとは読み込ませる画像ファイルをちゃんとノンブル削除しておくと
出来上がった数百個のテキストファイルを結合して、
改行コード一括削除、『「』を文頭に『。』や『」』の次を改行
空白の後も改行。目次は余裕があったら設定して表紙を付ければ
誤字ゼロではないですが読むには全く問題ない電子書籍が出来ますね
これで電子化にあまり積極的ではない作家の著作を自炊するのが捗ります
どれだけ感謝してもし足りないぐらいです ありがとうございました
更新ありがとうございます
処理できなかったファイルは2バイト文字を含むフォルダの7階層ぐらい下にあるファイル
だったのでそれが原因かと思ってました
10数冊OCRしていますが処理できないファイルが数個残ったのはその一冊だけでした
小さいひらがなは設定を変えてもあまり上手くいかないのですが
普通に理解は出来るのでそのままにするか
気になる場合は「《」をエディタで検索して手作業で直すか
それとも一括処理できる方法があるか考えてます
あと今回は嬉しい改善点があって、正式な名称がわからないのですが強調に使う傍点?
これは以前のバージョンだと青空文庫用にしてもルビ無し設定にしても
1行として認識されてレイアウトがかなり崩れていたのですが
今回はデフォルト設定でもしっかりと認識されてました
https://imgur.com/a/Rd23WtH
こういう表現は小説ではよく見るのでかなり助かります
すごく精度が高いので、あとは読み込ませる画像ファイルをちゃんとノンブル削除しておくと
出来上がった数百個のテキストファイルを結合して、
改行コード一括削除、『「』を文頭に『。』や『」』の次を改行
空白の後も改行。目次は余裕があったら設定して表紙を付ければ
誤字ゼロではないですが読むには全く問題ない電子書籍が出来ますね
これで電子化にあまり積極的ではない作家の著作を自炊するのが捗ります
どれだけ感謝してもし足りないぐらいです ありがとうございました
533名無しさん@お腹いっぱい。
2025/03/14(金) 18:50:56.21ID:c/t5Sn160 CPUの演算は int8に量子化してるので、ちょっと精度落ちる分だけ速いはず。
DirectMLはfloat16じゃなくてfloat32になってるっぽいからちょっと速度損してる
と思われる
DirectMLはfloat16じゃなくてfloat32になってるっぽいからちょっと速度損してる
と思われる
534名無しさん@お腹いっぱい。
2025/03/14(金) 19:22:49.69ID:c/t5Sn1602025/03/14(金) 21:41:44.19ID:8upJ8geF0
>>534
早速のご対応ありがとうございます
同じサンプルで55秒が45秒まで短縮されました(プログラム起動後それぞれ2回目の処理時間を目視で測りました)
サンプルが文庫本のスキャンではなくて対象外かもしれませんがOCR後のレイアウトは崩れています。パッチ前後での相違はテキストファイルの31行目の「[6]」が「助」から「囮」に変わったことだけです
ファイルをアップしました
https://2.gigafile.nu/0622-bc206218ec4003ae69eed667b4091af4b
早速のご対応ありがとうございます
同じサンプルで55秒が45秒まで短縮されました(プログラム起動後それぞれ2回目の処理時間を目視で測りました)
サンプルが文庫本のスキャンではなくて対象外かもしれませんがOCR後のレイアウトは崩れています。パッチ前後での相違はテキストファイルの31行目の「[6]」が「助」から「囮」に変わったことだけです
ファイルをアップしました
https://2.gigafile.nu/0622-bc206218ec4003ae69eed667b4091af4b
536名無しさん@お腹いっぱい。
2025/03/14(金) 22:24:02.86ID:c/t5Sn160 >>535
サンプルありがとうございます。
フォーマットが崩れるのは、竹と藁のとこらへんが一文字なので、ここだけ縦書きじゃないかと
誤認してる感じですね。
Mac版で同じロジックで図示するとこんな感じ
https://i.imgur.com/AOSYw9k.png
区切り部分が連続してるから、隣の段落だと誤解してるので本文と泣き別れてしまっています。
この辺は、ロジックでがんばっているところなので、段組を処理するのと別々にして
上から(右から)順に処理するモードも必要そうですね。
[6]は、括弧が近接しすぎているので認識が難しいみたいです。
どっちみち化けるなら、ちゃんと取れている部分が高速に処理できる方がいいかしら。
fp16にしちゃおうかな。モデルサイズも半分になるし
サンプルありがとうございます。
フォーマットが崩れるのは、竹と藁のとこらへんが一文字なので、ここだけ縦書きじゃないかと
誤認してる感じですね。
Mac版で同じロジックで図示するとこんな感じ
https://i.imgur.com/AOSYw9k.png
区切り部分が連続してるから、隣の段落だと誤解してるので本文と泣き別れてしまっています。
この辺は、ロジックでがんばっているところなので、段組を処理するのと別々にして
上から(右から)順に処理するモードも必要そうですね。
[6]は、括弧が近接しすぎているので認識が難しいみたいです。
どっちみち化けるなら、ちゃんと取れている部分が高速に処理できる方がいいかしら。
fp16にしちゃおうかな。モデルサイズも半分になるし
2025/03/15(土) 10:52:50.58ID:WTpLRrTY0
bunkoOCRの作者様へ質問ですが
https://imgur.com/a/HcKL7d6
のように前後が空行の見出し行というのはよくありますがどうして字下げにならないのでしょうか
何か設定がありますか
https://imgur.com/a/HcKL7d6
のように前後が空行の見出し行というのはよくありますがどうして字下げにならないのでしょうか
何か設定がありますか
538名無しさん@お腹いっぱい。
2025/03/15(土) 11:22:31.89ID:C1ATbMq80 >>537
字下げの判定のロジックが、そのブロックの他の行よりも下がってるかどうか、に今なってるので、単独行が下にあっても字下げにならないです。
対策するには、ブロック全体がほかのブロックよりも下にある、というのは検出できそうなので、その場合は字下げを追加する、とかがいいかもしれません。
もうちょいこの辺のロジックは良い感じにいじってみます。
字下げの判定のロジックが、そのブロックの他の行よりも下がってるかどうか、に今なってるので、単独行が下にあっても字下げにならないです。
対策するには、ブロック全体がほかのブロックよりも下にある、というのは検出できそうなので、その場合は字下げを追加する、とかがいいかもしれません。
もうちょいこの辺のロジックは良い感じにいじってみます。
539名無しさん@お腹いっぱい。
2025/03/15(土) 20:07:02.01ID:wtA0GHpr0 ルビの文字が少しおかしくなってるのがあったわ
「ちゆう」が「ちゆう」、「しよう」が「しうよ」 になってたり
本文は大丈夫みたい
「ちゆう」が「ちゆう」、「しよう」が「しうよ」 になってたり
本文は大丈夫みたい
540名無しさん@お腹いっぱい。
2025/03/15(土) 20:08:26.41ID:wtA0GHpr0 間違えた、
「ちゆう」が「ちうゆ」
みたいに入れ替わってるみたい
「ちゆう」が「ちうゆ」
みたいに入れ替わってるみたい
2025/03/15(土) 21:28:06.13ID:HR9ch8n80
ルビを無視する設定にできるように上か下にあるページ番号や章の名前などを無視する項目は追加可能ですかね?
一括でトリミングすると削りすぎて本文まで消えたり、逆に消しきれなかったりするのであると便利だと思います
一括でトリミングすると削りすぎて本文まで消えたり、逆に消しきれなかったりするのであると便利だと思います
542名無しさん@お腹いっぱい。
2025/03/15(土) 22:07:21.03ID:C1ATbMq80 >>539
もし可能なら、ふりがながおかしくなる該当画像を提供していただけますか。
こちらで、どこにバグがあるか確認しやすくなるので。
手元でもいろいろ不具合はあるので直してますが、入れ替わってるのは別の原因がありそうな気がします。
メールでよければcontact@lithium03.info
もし可能なら、ふりがながおかしくなる該当画像を提供していただけますか。
こちらで、どこにバグがあるか確認しやすくなるので。
手元でもいろいろ不具合はあるので直してますが、入れ替わってるのは別の原因がありそうな気がします。
メールでよければcontact@lithium03.info
543名無しさん@お腹いっぱい。
2025/03/15(土) 22:09:07.66ID:C1ATbMq80544名無しさん@お腹いっぱい。
2025/03/15(土) 23:21:39.09ID:C1ATbMq80 bunkoOCRで上手く処理できない画像があった場合、作者に匿名で届けれるように
https://lithium03.info/upload/
作りました。コメント欄にどの辺りがおかしいか書いてもらえると助かります。
https://lithium03.info/upload/
作りました。コメント欄にどの辺りがおかしいか書いてもらえると助かります。
2025/03/16(日) 10:51:53.43ID:MAo5rcrf0
532さんが電子書籍化のことを書かれていたが自分もそのことを考えていた
完璧な物ができなくてもいいけどリフロー化できれば便利になる
段落が空白で始まり会話文の行頭が「であるような小説は機械的に処理するロジックはできそうだが、そうでない本もあるので汎用的に作るのは難しそうだ
新書的な本で本文だけでよければ図表は事前にグラフィックソフトで消しておくしかないかな
完璧な物ができなくてもいいけどリフロー化できれば便利になる
段落が空白で始まり会話文の行頭が「であるような小説は機械的に処理するロジックはできそうだが、そうでない本もあるので汎用的に作るのは難しそうだ
新書的な本で本文だけでよければ図表は事前にグラフィックソフトで消しておくしかないかな
546名無しさん@お腹いっぱい。
2025/03/16(日) 11:36:14.47ID:KPuRHLPa0 縦書きで、上や下にページ番号と章タイトル書いてあるパターンと、横書きで右や左にあるパターンは
多分簡単に外せそうな感じ
横書きで上下にあるパターンはどうしよう。文字の大きさで何とかしようかしら。
図や表は、真面目に解析しないとダメなので、もうちょい時間かかるです。
NDLの認識エンジン使ってみようかしら。
多分簡単に外せそうな感じ
横書きで上下にあるパターンはどうしよう。文字の大きさで何とかしようかしら。
図や表は、真面目に解析しないとダメなので、もうちょい時間かかるです。
NDLの認識エンジン使ってみようかしら。
2025/03/16(日) 11:54:13.81ID:MAo5rcrf0
図表についても考えていただけているとはうれしいです
548名無しさん@お腹いっぱい。
2025/03/17(月) 15:39:06.11ID:U1+W+Yaq0 >>539
ルビが順序入れ替わるバグ、確認しました。どこが原因か探してみます。
ルビが順序入れ替わるバグ、確認しました。どこが原因か探してみます。
2025/03/18(火) 14:46:00.77ID:C3wFnwK40
bunkoOCRの作者様、
1画像の最終行には論理的には改行を付けるべきではないでしょうか
複数画像のテキストを結合するにも手間がかかりませんし
ちなみに市販品「読取革命」でも最終行には改行が付いています
1画像の最終行には論理的には改行を付けるべきではないでしょうか
複数画像のテキストを結合するにも手間がかかりませんし
ちなみに市販品「読取革命」でも最終行には改行が付いています
550名無しさん@お腹いっぱい。
2025/03/18(火) 19:38:32.49ID:S/mZBAgF0 >>549
修正してて抜けてることに気付きました。
空改行を含めて改行を入れるように仕様を変更します。
ページ結合する際にやりやすいよう、2行または1行の空改行が入るようにして
2行の連続空改行を置換すると文が連続するようにしようと考えています。
修正してて抜けてることに気付きました。
空改行を含めて改行を入れるように仕様を変更します。
ページ結合する際にやりやすいよう、2行または1行の空改行が入るようにして
2行の連続空改行を置換すると文が連続するようにしようと考えています。
2025/03/19(水) 10:38:27.72ID:jWeWGRgn0
読取革命は文章だけの本で勝手なレイアウト認識をされるのが邪魔だ
ページ等を事前に削除した画像で1ページ全体を1つの領域にするにはページを選択して右クリックの「すべて選択」→「属性変更」でできることがわかったが
それを全画像でまとめてやることができないようだ
何かいい方法ある?
ページ等を事前に削除した画像で1ページ全体を1つの領域にするにはページを選択して右クリックの「すべて選択」→「属性変更」でできることがわかったが
それを全画像でまとめてやることができないようだ
何かいい方法ある?
2025/03/19(水) 11:15:07.52ID:OSii6Jk50
枠固定みたいなのあったような
2025/03/19(水) 11:19:14.21ID:OSii6Jk50
かえって扱いづらくなるかも
2025/03/19(水) 17:28:33.58ID:jWeWGRgn0
UWSCでマウスを操作するスクリプトを作って「ページ一覧」ウィンドウの「次ページ」ボタンと画像ウィンドウとを行き来させることで
読取革命で自動的に全画像をそれぞれ単一領域に設定できるとわかった
読取革命で自動的に全画像をそれぞれ単一領域に設定できるとわかった
2025/03/19(水) 20:45:02.29ID:jWeWGRgn0
どうしてそんなことにこだわっているかと言うとテキストファイルに変換するのに読取革命を自動レイアウト認識で使うと
空行が無視されてしまうためです
出来が悪いとしか言いようがない
例
https://1.gigafile.nu/0627-c0d522a2ed7abb86d0ee3d804f786bb33
空行が無視されてしまうためです
出来が悪いとしか言いようがない
例
https://1.gigafile.nu/0627-c0d522a2ed7abb86d0ee3d804f786bb33
2025/03/19(水) 21:05:17.67ID:jWeWGRgn0
bunkoOCR作者様、
上にアップした例を変換するとbunkoOCRは文字も正確に認識されていていいのですが、
最後の行頭の「 一一月」が「一月」になってしまうのはどうしてでしょうか
上にアップした例を変換するとbunkoOCRは文字も正確に認識されていていいのですが、
最後の行頭の「 一一月」が「一月」になってしまうのはどうしてでしょうか
2025/03/19(水) 21:16:44.54ID:5W0SNsbt0
読取革命、テンプレート作って、かんたん認識で設定したらできるかな
558名無しさん@お腹いっぱい。
2025/03/20(木) 02:36:57.81ID:jueOGt7Y02025/03/20(木) 10:01:12.90ID:vGimLzjT0
560名無しさん@お腹いっぱい。
2025/03/30(日) 14:19:40.37ID:OMKQug+O0 bunkoOCR、前後の文字が消えて同じ文字になるのがあったわ
「顔顔」「目目」「がが」「でで」みたいに
漢字なら正規表現([一-龯])\1で探せるけど
ひらがな([ぁ-ん])\1はマッチするのが多いから見つけるのが大変
「顔顔」「目目」「がが」「でで」みたいに
漢字なら正規表現([一-龯])\1で探せるけど
ひらがな([ぁ-ん])\1はマッチするのが多いから見つけるのが大変
561名無しさん@お腹いっぱい。
2025/03/30(日) 18:57:40.83ID:/ik3ZoFT0 >>560
ごめん今直してるところです。もうしばしお待ちを
ごめん今直してるところです。もうしばしお待ちを
2025/03/31(月) 17:02:05.31ID:NQoUZ0wV0
bunkoocr作者様、お世話になっております
おま環の可能性も高いのですが、bunkoOCR_20250314_patch、bunkoOCR_20250314b_patchの2つのバージョンから
使っているうちにだんだん速度が遅くなってくる現象が見られます(それでも数年前のよりは早いですが)
同じファイルでもbunkoOCR_20250311の方が倍以上の速度で処理できます
例 bunkoOCR_20250311 337ページで10分
bunkoOCR_20250314b_patch 337ページで22分
20250311版はGPU使用率がほぼ9割以上で推移するのに対して
https://imgur.com/ovAhXBI
20250314以降は開始直後は上記と同じで高速で処理してくれるのですが2分ほど経つと使用率にたまに0〜10%が出始め、
https://imgur.com/D0fXWCx
だんだんそれの頻度が多くなっていき10分も経つと一瞬だけ90%台で処理、あとはずっと0〜5%で処理する状態が続きます
https://imgur.com/a/5wZgwIc
一回終了して再び起動するとまた高速で処理してくれますが、やはり2分程度で遅くなっていきます
おま環の可能性も高いのですが、bunkoOCR_20250314_patch、bunkoOCR_20250314b_patchの2つのバージョンから
使っているうちにだんだん速度が遅くなってくる現象が見られます(それでも数年前のよりは早いですが)
同じファイルでもbunkoOCR_20250311の方が倍以上の速度で処理できます
例 bunkoOCR_20250311 337ページで10分
bunkoOCR_20250314b_patch 337ページで22分
20250311版はGPU使用率がほぼ9割以上で推移するのに対して
https://imgur.com/ovAhXBI
20250314以降は開始直後は上記と同じで高速で処理してくれるのですが2分ほど経つと使用率にたまに0〜10%が出始め、
https://imgur.com/D0fXWCx
だんだんそれの頻度が多くなっていき10分も経つと一瞬だけ90%台で処理、あとはずっと0〜5%で処理する状態が続きます
https://imgur.com/a/5wZgwIc
一回終了して再び起動するとまた高速で処理してくれますが、やはり2分程度で遅くなっていきます
2025/03/31(月) 17:03:54.57ID:NQoUZ0wV0
負荷が軽いのはいいことなのですが同時に処理速度もかなり遅くなるので
今は20250311版にTextDetector.fp16.onnxを入れて処理しています
(これは入れたほうが速度が速くなりました)
ただ、もしかしてradeonのドライバの問題かもしれないです
一応、最新の25.3.1にしたうえでradeon chillなどの省電力機能が干渉してるかもと思い全部オフにして
GPUもデフォルトからOCしてみたりもしたのですが症状は変わらず
温度に関してはソフト実行中でも50度以下で制限がかかるほど熱くはなっていません
環境は以下です
Win10 22H2
Ryzen 5 2600X
radeon 7600←xtだと思ってましたが無印でした
メモリ 32GB
directMLのみチェック
そもそもこのスレでradeon使ってるのは私だけっぽいから他に同じ症状の人はいないのかな?
今は20250311版にTextDetector.fp16.onnxを入れて処理しています
(これは入れたほうが速度が速くなりました)
ただ、もしかしてradeonのドライバの問題かもしれないです
一応、最新の25.3.1にしたうえでradeon chillなどの省電力機能が干渉してるかもと思い全部オフにして
GPUもデフォルトからOCしてみたりもしたのですが症状は変わらず
温度に関してはソフト実行中でも50度以下で制限がかかるほど熱くはなっていません
環境は以下です
Win10 22H2
Ryzen 5 2600X
radeon 7600←xtだと思ってましたが無印でした
メモリ 32GB
directMLのみチェック
そもそもこのスレでradeon使ってるのは私だけっぽいから他に同じ症状の人はいないのかな?
564名無しさん@お腹いっぱい。
2025/03/31(月) 18:48:41.90ID:3C9nSBip0 処理してるうちに遅くなるのは、開発環境でもそう言われてみると起きてたような気がします。
あまり長時間のテストをWindowsでしてなかったので気付いていませんでした。
今iOS版でロジックの修正を行っているのがもうちょいで終わるので、Windows版に反映するときに
一緒にみてみます。
あまり長時間のテストをWindowsでしてなかったので気付いていませんでした。
今iOS版でロジックの修正を行っているのがもうちょいで終わるので、Windows版に反映するときに
一緒にみてみます。
565名無しさん@お腹いっぱい。
2025/03/31(月) 21:41:14.63ID:qycdQAum0 パッチを当てた後、似たように処理が遅くなるのはあったな
キャッシュを削除して新しくキャッシュを生成したら直ったけど
キャッシュを削除して新しくキャッシュを生成したら直ったけど
566名無しさん@お腹いっぱい。
2025/04/04(金) 05:22:43.86ID:UwX3QHjb0 >>562
すみません。単純なポカしてました
ログを表示していますが、そこの領域の行数に比例して遅くなっているみたいです
計算自体は遅くなっていないのですが、表示が詰まって最終的には計算まで巻き込まれて
遅くなっていそうです
どっちみちこの部分は進行具合を表示するためのものなので、過去30行くらい残して昔のを
消していくように修正します
その他、iOS版3.2で修正したOCRの処理上のエラーも一緒に直していますので次のバージョンを
お待ちください
すみません。単純なポカしてました
ログを表示していますが、そこの領域の行数に比例して遅くなっているみたいです
計算自体は遅くなっていないのですが、表示が詰まって最終的には計算まで巻き込まれて
遅くなっていそうです
どっちみちこの部分は進行具合を表示するためのものなので、過去30行くらい残して昔のを
消していくように修正します
その他、iOS版3.2で修正したOCRの処理上のエラーも一緒に直していますので次のバージョンを
お待ちください
2025/04/04(金) 06:18:19.94ID:sYdJwQEc0
568名無しさん@お腹いっぱい。
2025/04/04(金) 21:21:47.40ID:xONGlnES0 bunkoOCR抜群です。旧字体もへっちゃらです。凄い。
困ってるのは頁が、左欄、右欄が分かれて、コンサイス英和の様な体裁の時、
左欄一行、右欄一行、左欄二行、右欄二行、〃〃 になってしまう。
左欄全部、次に、右欄全部に指定する方法とかありますか。
困ってるのは頁が、左欄、右欄が分かれて、コンサイス英和の様な体裁の時、
左欄一行、右欄一行、左欄二行、右欄二行、〃〃 になってしまう。
左欄全部、次に、右欄全部に指定する方法とかありますか。
569名無しさん@お腹いっぱい。
2025/04/04(金) 21:55:17.12ID:UwX3QHjb02025/04/04(金) 22:02:43.53ID:++fNMCDT0
縦書き本画像を左90°回転させて横倒れ文字のまま横書き専用OCRソフトが対応してくれればいいのに
2025/04/04(金) 22:05:18.07ID:++fNMCDT0
そうしたらみんな左上から右に向かって解析できる
572名無しさん@お腹いっぱい。
2025/04/04(金) 23:10:01.91ID:xONGlnES0 568 です。
レスポンス、ありがとうございます。気長に待ってます。
現版5.7G!!でかい。 1Mbit/secでダウンロード14時間余かかりました。
256Gメモリー・ステックにセーブ試みるとエラー「大きすぎ、保存不可」
ベクター・フリー・ソフトの[ファイル分割 FDHoot]で分割して保存しました。
色んな方々のお世話になってます。
レスポンス、ありがとうございます。気長に待ってます。
現版5.7G!!でかい。 1Mbit/secでダウンロード14時間余かかりました。
256Gメモリー・ステックにセーブ試みるとエラー「大きすぎ、保存不可」
ベクター・フリー・ソフトの[ファイル分割 FDHoot]で分割して保存しました。
色んな方々のお世話になってます。
573名無しさん@お腹いっぱい。
2025/04/05(土) 07:59:20.85ID:5gmEcGA80 あんまりにアーカイブサイズがでかいので、自分の要らないプラグインに必要なdllを外してダウンロードできる
ダウンローダ作るわ。DirectMLの人やCPUの人はcuda要らないものね
ダウンローダ作るわ。DirectMLの人やCPUの人はcuda要らないものね
2025/04/10(木) 05:03:58.39ID:DVbx1C1T0
bunkoOCRすごいね
久々に感動した
久々に感動した
2025/04/10(木) 09:02:23.68ID:AvcOBBMH0
bunkoOCRは色々改良していただいているようだが更新公開頻度を上げていただけるといいんだが・・・
576名無しさん@お腹いっぱい。
2025/04/10(木) 10:20:07.21ID:T2B8zrS102025/04/10(木) 14:20:39.96ID:P8TyB0Jh0
主流のcuda以外も見捨てずに対応してくれるだけで大感謝です
2年前のに比べて認識精度がかなり上がっているので昔OCRしたものも再度やり直してます
2年前のに比べて認識精度がかなり上がっているので昔OCRしたものも再度やり直してます
578名無しさん@お腹いっぱい。
2025/04/12(土) 15:53:51.86ID:BULBwN9g0 透明テキストPDF化をなにとぞお願いいたします
2025/04/13(日) 08:24:07.90ID:xMwpL3+B0
全ファイルのOCRが完了した時に何らかの音が鳴ると嬉しいですね
以前と違ってかなり早く終わるので気づかないことも多い
以前と違ってかなり早く終わるので気づかないことも多い
2025/04/14(月) 02:02:21.59ID:ENlBum6U0
GUIだけでなくCUIでも動作できるようにしていただけると超うれしいですが、優先度は低めでも
581名無しさん@お腹いっぱい。
2025/04/14(月) 04:07:41.77ID:V0n1487Y0 >>580
基本的には、OCRengine.exeでほとんど処理してるので、標準入力に順番に対象ファイルを入れて行けば処理される感じです。
次のやつにコマンドラインから呼ぶ時の方法も書いておきますね。
基本的には、OCRengine.exeでほとんど処理してるので、標準入力に順番に対象ファイルを入れて行けば処理される感じです。
次のやつにコマンドラインから呼ぶ時の方法も書いておきますね。
レスを投稿する
