【文字認識】OCRソフト（２文字目）【自炊】

**名無しさん＠お腹いっぱい。** · 2023/11/30(木) 15:44:45.66

光学文字認識（こうがくもじにんしき、Optical character recognition）ソフト

OCRソフト　製品版
【ソースネクスト】
１．読取革命　１６
２．本格読取　５
【メディアドライブ】
３．e.Typist v.15.0
OCRソフト　フリーソフト
４．bunkoOCR
小説を自炊してテキスト化するのであれば３と４にはルビに対応している分有利かも！？
このリストって2016年とほぼ一緒
皆さんは、グーグルドライブとか使うの？
私は、PDFでは残さないのでbunkoOCRに期待しています。

**名無しさん＠お腹いっぱい。** · 2023/12/02(土) 21:14:59.87

【無料アプリ】

レシート読み取りで精度が高いのは LINE レシート。撮影した画像も一応残る。
データの再利用はできないが月ごとの利用レポートと店舗単位の支出が確認できる。
品目の順番が入れ替わるのでデータとレシートを比較しにくいが読み取りはだいたいあってるのでおｋ。
たまに店舗名を読み取ってくれないがその時は不明な店舗になる。修正はできない。
たまに「登録済み」と言われて2枚目のレシートを読み取ってくれないので時刻を消して登録している。3枚あったらアウト。
これが同じ商品同じ金額同じ時間なら分かるんだけどなぜ・・・
機種変してもバックアップとかの面倒はない。

レシーピはどうも一部だけ読み取ってくれない。誤字も多い。機種によって違うかもしれない。明るいと割と正確に読み取ってくれる。
しかし、データをバックアップできる。ZIPなので頑張ればExcelデータを取り出せる。
読み取りが正確なら取り出そうと思えるんだが・・・

Googleレンズで日本語→日本語に翻訳してテキストを取得できる。レシートには向かない。位置情報込みでOCRできればいいのに。

Google Keep は音声登録と同時に認識したテキストを追加してくれる。
Google Keep に貼り付けた画像の編集画面で「画像のテキスト抽出」したらOCRしたテキストを追加してくれる。
ただし、レシートは金額が改行されてたり順不同になるのであくまでキーワード検索に使える程度。
領
収
証
みたいに縦書きになって「領収証」では検索できなくなったりするし
店舗のロゴを読み取れないのでLINEレシートのような店舗名での検索はできない。
電話番号でなら検索できるかも。

Google Keep で直接撮影すると無駄が多いので Googleドライブのスキャン機能が使えるらしい。
自分でやったら PDF で保存されるので Google Keep では開けなかった。

Google Keep と LINEレシートは保存した画像を参照できるので撮影は1回で済ませられる。

**名無しさん＠お腹いっぱい。** · 2023/12/02(土) 21:27:20.06

>>2
Google Keep はタグ付けできるので店舗名や「レシート」という言葉でタグ付けしておけばいいかもしれない。
入力の手間はかかるが。

店舗名が読み取れないレシートの場合に店舗名が印刷されたものを並べて撮影したりしているので
↓のようにプリントしたメモを一緒に撮影したらタグの入力はしなくて済むかもしれない。

＃店舗名
＃レシート

何をどこで買ったか分からなくなるのでそういうのは商品名で検索できないといけないけど
ちゃんと読み取れてかつ検索できるのってないんだよね。
Google Keep なら検索楽そう。

**名無しさん＠お腹いっぱい。** · 2023/12/02(土) 21:42:33.70

表形式でOCRするなら英数で読み取ればブラザープリンタの付属のスキャナで可能。

日本語対応ならレシートも読み取れるのに・・・

ScanSnap HomeのレシートOCR ってのがあるけど、これは合計額しか読み取れないので仕事で使えない。
どうしても商品ごとの価格が必要なので。
もちろん、日付、店舗名、合計額だけが欲しい場合もあるけど、
Google レンズみたいにリアルタイムにぱっぱぱっぱと読み取ってくれる使い方がしたい。
逆にGoogle レンズが日付、店舗名、合計額だけに絞ってくれればいいのに・・・

スクリプトで処理するにしても順不同は使えない。
LINEレシートみたいにレイアウトがはっきりしてればまだいいけど。

**名無しさん＠お腹いっぱい。** · 2023/12/03(日) 13:50:52.00

書類をスキャンするだけなら Evernote Scannable はいいんだけど iPhone のみ。
レシーピは iPhone 対応やめちゃって Android だけ。

vFlat Scan - PDF Scanner がお勧めらしくて両対応だけど
あいにく楽天Handには手振れ補正がない・・・
試しにスキャンしたら解像度が低くてつぶれた感じだけどそのままテキスト化したらできた。

それを Google Keep で開いて「画像のテキストを抽出」したら「画像のテキストを認識できません。」と言われた。
もう一度やってみたら認識してくれた。

撮影をやり直すと光源とカメラの角度で明るさ全く違ってるし
多分、遠くから斜めに撮影しないと領域を認識してくれないのでつぶれてしまって読みにくい。
紙のゆがみも補正されてないのはいいことなのか悪いことなのかよくわからない。
大き目横長の「領収証」の字を誤認識してるから問題外かもしれない。

**名無しさん＠お腹いっぱい。** · 2023/12/03(日) 14:42:47.36

Scannableだと下の方カットしても領域認識して自動で撮影してくれて
紙のゆがみ補正してくれてフラットな画像になってて
6品目買ってサイズは215kBで
「農」の字がつぶれてないから認識率よさそう。

問題は iPhone だから
EverNote に保存しないと使い勝手が悪い点。

> Evernote Free のユーザは、Evernote アプリを最大２台の端末でご利用いただけます。
> 端末を頻繁に変更していると、端末の削除を繰り返さないよう、エラーメッセージが表示されることがあります。
> これは、端末数制限の不正使用を防ぐための弊社の対策です。

ぎりぎり2台か・・・
LineレシートからはEverNote開けないから
カメラロールに保存して「戻る」にして
Evernoteにも保存すればいいか。
無駄にはなるけど手間はそうかからない。

> Evernote、無料アカウントは「最大50個のノートと1つのノートブック」に
> 関口聖2023年11月30日 13:01

無理だな・・・

LINEレシートと GoogleKeep を iPhone に入れて Scannable で画像保存すればいいか。
iPhone でも 5S じゃカメラ性能悪いから仕事用には入れられない。個人のを使わないと。
その点複数アカウント切り替えて使える Google Keep は使い勝手が良い。

**名無しさん＠お腹いっぱい。** · 2023/12/03(日) 16:52:49.57

>>6
> LINEレシートと GoogleKeep を iPhone に入れて Scannable で画像保存すればいいか。

やってみたらちゃんと認識してくれた。

**名無しさん＠お腹いっぱい。** · 2023/12/03(日) 23:23:20.93

>>1
過去スレ
【文字認識】OCRソフト【自炊】
2016年8月...2023年11月
https://egg.5ch.net/test/read.cgi/software/1470745451/

**名無しさん＠お腹いっぱい。** · 2023/12/07(木) 09:30:59.61

スレ立て乙

**名無しさん＠お腹いっぱい。** · 2023/12/17(日) 09:27:15.29

最近お気に入りの文庫本に水分こぼして乾かしたけどヨレヨレでインクが滲み劣化したので自炊の方法を調べたら今更ながらbunkoOCRを知った

これは凄いねこういうの作れる作者さんに敬意を払います
が如何せん古いPCでNvidiaのグラボ積んでない初代core i7_870で作業したがめっちゃ時間がかかる(笑)
1ページ10分1時間で6ページ…
元画像のスキャンを軽いものにしたら速くなるのかね？
自分で試せば分かるだろうが今やってる最中でその試しは出来ない(笑)
なんか説明書に書かれてる2枚目というのがどういう状態を指してるのか分からんが
古いPCだと仕方ないのかな

まあそれでもtext化出来るソフトを無料で配布してくれてる事に感謝(ㅅ´꒳` )

10 · 2023/12/17(日) 12:47:11.42

途中経過
CPUは50~55%、メモリ6.3~6.5GB使用
こういう処理はGPU処理前提なのは当然だろうけど
CPUの使用率を高くすると処理速くなるなら
CPU使用率を最高、標準以上、標準、標準以下のように選べると良いんだけどなあ
まあ新しいPC買えよって話だけどさ

10 · 2023/12/17(日) 15:54:01.02

まだ途中だか総括

ソをンと間違える確率7割~8割
1文字スペース部分が、空白改行2行に
「噛」や「頬」のように細かいと文字化け
ゴミの・なども文字化け

出来上がったtextは1ページ1ページ確認したほうが良い
textだから手直し出来るのは良い
無料なのでこのぐらいは仕方ないかな

また何かあれば書くかもだが
一応これで終わりにしとく

**名無しさん＠お腹いっぱい。** · 2023/12/18(月) 03:34:03.44

ソとンが化けるのはなんとかしたい。改良版の重みデータだとよくなっていてほしい
文字の見かけの大きさが、ふりがなでも20pixelはあると思ってスキャンしに行ってるので、
適宜拡大縮小が必要かも
ゴミが化けるのは、むずい。閾値を下げるとちょっとはよくなるかもしれない
ピリオドとかもあるので、サイズで弾くわけにも行かないし…どうするか

**名無しさん＠お腹いっぱい。** · 2023/12/18(月) 11:59:24.12

ダウソタウソ

**名無しさん＠お腹いっぱい。** · 2023/12/18(月) 17:08:37.26

>>10-12
>水分こぼして乾かしたけどヨレヨレでインクが滲み劣化
印刷状態の良くないケースだと思うがせめて600dpiグレースケール以上でスキャンしたのか気になる
認識率にも影響するだろうから

>>13
推奨スキャン設定はありますか？
jpegノイズに弱いとか、カラーは精度落ちるとか、背景を真っ白に事前処理すると精度が上がるとか

10 · 2023/12/18(月) 19:50:49.20

詳細に聞いてくる人がいるとは思わなかったので話を簡単にする為にちょっと嘘ついた…ちゃんと書きます

25年前の文庫本でかなり黄ばみあり
10ページ近く上側角が折れ曲がっていたので、アルコールを吹きかけて折れ曲がりを直そうと広範囲にアルコールを吹きかけた
1ページ中5行ぐらい上から8文字50ページぐらい濡れる
乾かして折れ曲がりは直るもヨレヨレになったので5kgぐらいの重しで1週間置くほんの1部ヨレヨレが残る
だが、50ページ分インク滲みが発生

背表紙をドライヤーをかけて文庫本全て解体
この時点でOCRというものがある事を知らなかった
知ってたらグレースケールでスキャンしてたと思う

10 · 2023/12/18(月) 19:51:16.84

>>16
プリンターで1枚1枚モノクロで600dpi、BMP形式でスキャン
インク滲みのページはやはりインク滲みまで写り込むので
裏に黒画用紙を乗せて再スキャンするとインク滲みの写り込みが薄くなり、モヤがかかってる程度で読めないという事は無い
全て終わりインク滲みが写らない方法を調べてるうちにOCRというのがあるのを知る…ここでグレースケールで再スキャンは面倒なのでモノクロのまま

bunkoOCRを試してレスの10~12になる

さて、インク滲みの部分の話だが
blank cutoffを200にして実行してみると、インク滲みの部分は1文字も間違えて無い
ただし、文字部分ではなく空白部分で・のゴミのように滲んでる部分は文字化けした
だが文字の部分のインク滲みによる文字化けは無い

10 · 2023/12/18(月) 20:17:18.10

調べて見ると有料ソフトでも文字認識が100%ではないので
bunkoOCRは無料ソフトとしては優秀だと思う

実はGPUは積んでるが古いRADEONなのでエンコード支援は無いと思うのでCPUだけといってもいいかな
古いCPUでまわすなら文庫本数冊ならまだしも…
何十冊以上はbunkoOCRがーじゃなく
他ソフト含めてOCR化する事自体が無茶だと思うw

**名無しさん＠お腹いっぱい。** · 2023/12/18(月) 20:55:50.11

bunkoOCRは、GPUとかNeural Engineの支援ありきでモデル作ったので、
正直CPUだと実用的な速度ではないと思うです。
もうちょい軽いモデルとかも試してみてるけど、精度を優先すると速度が…だし、
速度を優先すると精度が…になる

10 · 2023/12/18(月) 23:25:12.94

作者さんかな？
支援してくれるGPU積んでないPCで作業するのが元々が無茶振りなのであまり気にせずに
CPU使用率が50%ぐらいなんで長時間回してても心配にならなくて良いかも

私事ですが
windows12が来たらPCを新調する予定なので
それまではボチボチやります

**名無しさん＠お腹いっぱい。** · 2023/12/18(月) 23:52:31.95

>>16-18
状況説明ありがとう
自分は何年間も仕舞いっ放しの古い本をどうしようか考えていて将来的にはスキャンしようかと情報収集している段階です
インク滲みは経年劣化でも起こるはずなのでチョット焦ったけどOCRは大丈夫な様で安堵、また先延ばしかw

>作者さん
そんな訳でご自分のペースで気長にやって下さい

**名無しさん＠お腹いっぱい。** · 2023/12/19(火) 14:09:35.64

bunkoOCRはうちの本棚から溢れてる文庫本をスキャンして整理しようと考えて作ったけど
まだ修正点が多くてうちでも実運用に入れてないw
見直さなくてもいいくらいの精度が欲しいけど、なかなか完璧とはいかないね…

最新のiPhone買うと、写真撮ってしかもOCRできる位のチップ積んでるので、実はおすすめです

10 · 2023/12/19(火) 15:42:12.11

作者さん乙です(^^)
まあ間違える文字はたいてい決まってるのでtxt開いて、該当文字検索していけばサクサク手直し出来るからそこまで苦では無いですね

さて
文庫本1冊終わったので色々と試してみたが対象のスキャンファイルが小さいサイズだと、まばらにしか文字認識しない
waifu2x-caffeで拡大してみると認識文字数が増えていくね
ファイル形式はjpg、bmp、pngというのは関係なさげ
文庫本のような縦書きじゃなく、雑誌掲載の文字で1ページに縦書きが3段になってるものを上手くtxt化出来ると良いのだが…

**名無しさん＠お腹いっぱい。** · 2023/12/19(火) 17:14:36.85

段組の間を検出して、そこで行を切るようにしてるので、意図としては雑誌もいけるはず。
なんだけど、見出しがあったりすると、文のブロックの順番を見失ってバラバラになってしまうことが
まだあるので要改良ですわ。単純に段になってるやつは、いけるときもある感じ(打率5割くらい)
段の隙間のラインの感度をいじれるようにしたか忘れたのですが、これをいじると上手く切れると思う。

まあまあいけてるサンプルはこんな感じ
https://lithium03.info/ios/bunkoOCR/sample/ocr_sample0.html

文字の大きさは、あんまり小さいと学習されてないのでゴミとして無視されちゃうです。
少々ぼやけてても認識頑張るはずなので、biliner法とかでもいいので拡大してみてください。
iOSのやつは拡大できるようにしたけど、windowsのやつは入れてなかったと思うので
いまは事前に処理しておいてください。

10 · 2023/12/19(火) 18:08:54.77

助言ありがとうございます
取り急ぎは出来上がった文庫本のみだったので
後は色々と試してみようと思います

**名無しさん＠お腹いっぱい。** · 2023/12/24(日) 00:33:27.86

おお、神が再臨めされた。
前スレではお世話になりました。
再臨記念に350ページ級の2段組ノベルズをbunkoOCRに通してみました。

PCスペック：
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4　24GB
GPU:なし
OS:MX-Linux21.3_x64
json以外のファイルを作らない設定にして、Wine6.22で実行

ネタ:昔G4圧縮規格のtiff-300dpiでスキャンした画像P.9〜P.362。
前回同じネタでやったときは、行頭の鉤括弧が消えてしまうところが結構あったので、今回はScanTailorを通して傾き等を修正して600dpiで保存し直したものを使用した。

GPUなしだと時間がかかるだけでなく熱暴走が心配だが、神がCPU冷却のための遅延設定を設けてくれたので、一枚読み終わったら60秒待ちを入れるように設定した。
寝る前に仕掛けて朝になったらできていれば御の字だと思ったが、23:07からスタートして完了したのは翌日の12:31であった。

しかし解像度を改善したのが奏功したのか、今回は鉤括弧を落とした箇所はなく、章立てのページで上下入れ替わりとか文字の大きな見出しが本文に埋没していたりしたが、裏を返せばそこだけ注意すればよいし、何よ認識率が恐ろしく高い。
章立てページを除くとほぼ一発正解級の認識率だった。

前スレ最初の方に書いたが、OCRは元原稿次第で認識率が大きく変わるので、tiffでスキャンしてScanTailorで傾きやノイズを除去して解像度を上げてやるとtesseract-ocrですら結果は向上する。

嗚呼中古のゲーミングPCがほしいなあ。

**名無しさん＠お腹いっぱい。** · 2023/12/24(日) 21:13:10.53

>>26
べた褒めが過ぎると嘘っぽく聞こえるので確認したい
>>12,13で言われている

> ソをンと間違える確率7割~8割
> 1文字スペース部分が、空白改行2行に
> 「噛」や「頬」のように細かいと文字化け
> ゴミの・なども文字化け

これらは発生しているのでは？

**名無しさん＠お腹いっぱい。** · 2023/12/24(日) 23:47:43.40

いま直してるので、ちょっとまちなー
いろいろバグってたところ直して、モデルを再学習させたら、いい感じになってきた

**名無しさん＠お腹いっぱい。** · 2023/12/25(月) 01:03:42.23

>>27

> ソをンと間違える確率7割~8割
検索文字列[ンソ]で全ファイルをgrepしてみたが、877件ヒットしてノーミスだった。
『ジャクソン』とか格好の登場人物もいたが、『ジャクンソ』はノーヒット。

> 1文字スペース部分が、空白改行2行に
これはどうだろ？　行頭スペース欠落が1件見つかったが以後まだ精査していないので明後日まで待ってくれ。

> 「噛」や「頬」のように細かいと文字化け
大ぴんぽん。確かにこの2つの文字は化けていた。

> ゴミの・なども文字化け
Scan Tailorを通して原稿をキレイにしたから（ゴミ取り機能）か、なかったような。
繰り返すが、OCRは元原稿の画像をどこまでキレイにできるかで結果が変わるから。
ただ全角のアルファベットは半角にされるねえ、やっぱり。
まあsed的なツールで一括置換だけど。

**名無しさん＠お腹いっぱい。** · 2023/12/25(月) 13:20:08.79

【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net
http://egg.5ch.net/test/read.cgi/software/1470745451/866

866 名前：名無しさん＠お腹いっぱい。[] 投稿日：2023/10/19(木) 07:36:34.92 ID:zGVZ5rc10
>>0860
私もEPUBから青空文庫形式への変換を試みています
がEPUBの仕様の自由度が高くて難航しています。
出来れば公開してほしいです
お願いいたします。

https://twitter.com/satokazzz/status/1737834847698395490
佐藤和彦 / えあ草紙工房
@satokazzz
えあ草紙＋のページに、EPUBファイルから青空文庫形式のZIPファイルに変換するツールを用意しました。かなり手抜きな画面ですがｗ
https://twitter.com/thejimwatkins

**名無しさん＠お腹いっぱい。** · 2023/12/25(月) 17:50:16.98

>>29
確認ありがとう

>> ソをンと間違える確率7割~8割
> 877件ヒットしてノーミスだった。
これは凄い、10氏のフローと比べるとScanTailorの傾き補正が有効なのかな

Scan Tailorにはゴミ取り機能もある事すら知らなかった
いろいろと良い情報ありがとう

10 · 2023/12/26(火) 08:46:53.35

あれ？居ない間に色々とあったんですね
今まで自炊した事もなくOCR化など全く知らなかった素人レベルなのでご勘弁を

昨日試した事を書いときますね

作者さんが
＞最新のiPhone買うと、写真撮ってしかもOCRできる位のチップ積んでるので、実はおすすめです

と書いてくれてたので文庫本を解体スキャンではなく
文庫本のまま文面をAndroidで撮影してwindowsでやってみた(iPhone持って無いので…)

本とスマホを片手持ちで撮影、画像の中央にピントが合ってるけど上下は少しブレ気味3000x4000の大きさで撮影
bunkoOCRで読み込ませてみたら…作業終了後に右側にはERROR表示…やっぱり雑に撮影するとダメか(笑)

bunkoOCR側の設定で補正をかけると時間がえらくかかるので…
画像をPhotoscapeにて、白黒変換、明るさ補正、シャープ補正して、文字をくっきりさせてサイズを半分にリサイズ
そこからbunkoOCRに放り込むと、今度は成功した
多少の文字化けはあり、あー書かれてるアルファベット全角が半角にされますね数字も

何百ページも画像補正はやってられないからきちんと本とスマホを固定してピントを合わせれば画像補正しなくてもいけるのかな…
文庫本を解体しないでOCR化出来ることが分かったのは収穫だった
10の文庫本の時は解体した後でOCRという技術があることを知ったので…

少しずつ改善して行こうとする作者さんも大変だけど
今より使いやすく出来る事を期待してますね

10 · 2023/12/26(火) 09:02:22.71

あー良く読むとScan Tailorというソフトもあるのか…
今度はそれを使って見ようと思う

素人レベルで申し訳ない

**名無しさん＠お腹いっぱい。** · 2023/12/26(火) 10:14:14.41

ピントが合っていないと、かなり厳しいのでスマホ撮影の時はなんかのスタンドで
上空に固定してあげるとやりやすいですね。
うちではこんな感じで、照明にスマホホルダー付けて、アームで固定してます。
https://youtu.be/G11EoXKPfZo

アルファベットと数字が必ず半角になってたのは、学習ソースが偏ってたからなので
次のバージョンでは多分おおむね期待通りになりそう。
所々補正ミスがあるけど。完璧はむつかしい

10 · 2023/12/26(火) 10:33:00.08

>>34
おーなるほどですね
自宅にあるもので固定出来るものを探します
わざわざ動画ありがとうございます!(´▽｀)

29 · 2023/12/27(水) 01:11:39.27

会話終了の綴じ括弧の次の行は段落替えになるので行頭には全角空白が入るのだが、残念ながらOCRが見落とすことがあって（識別のために■を使用）、
OK-------------------
「用件を聞こう……」\n
■そう言って男はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
「用件を聞こう……」\n
そう言って男はゆっくりと
-----------------------
　」\n([^■「（])　という正規表現検索であぶり出すと、エラー箇所は16件ヒットしたが、残りの2920件は正しく全角空白として認識した。

同様に、前の行で文章が終わっていれば当然次の行は新しい段落からになるのでやはり行頭に全角空白が入るのだが、これも
OK-------------------
ていた。\n
■やがて二人はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
ていた。\n
やがて二人はゆっくりと
-----------------------
　。\n[^■（「\n]　という正規表現検索であぶりだすと12件ヒットしたが、残りの1105件は正しくヒットした。

かつては行頭の全角空白を全く認識しないTesseract-ocrでさんざん鍛えられてきたから、数十件程度ものの数ではない。
英数文字が半角になってしまうのは、そういうものだと分かっていればsed的なパターンマッチによる一括置換で補えるから、修正しやすい間違え方であれば気にすることではないとすら思っている。

文字化けしてたのは、以下の三文字くらいで、それより連続する全角ダッシュ2文字を正確に認識したのはマジでスゴイと讃えたい。
嚙（←噛の機種依存文字）
頬
ッ（←小書きのツ）

**名無しさん＠お腹いっぱい。** · 2023/12/27(水) 07:18:24.72

そこの空白の認識がめっちゃ難易度高いっす。
カギ括弧がちょっとだけ頭下がったように見えるために隣との差が少なくなり、OCR的にはむずいらしい

あと、連続して行頭が下がり続けると、見失うことがあったんだがこれは今修正してるので
次のバージョンではもうちょっと精度上がる予定

36 · 2023/12/27(水) 19:44:34.39

おかしいな、もう一種文字化けが見つかりました。

剝（←剥の機種依存文字）

　[^一-龠ァ-ヶぁ-んー\dA-Za-z「」（）、。・…！？]　という『漢字/カタカナ/ひらがな/音引き/数字/大文字小文字のアルファベッド/鉤括弧/丸括弧/句読点/ナカグロ/3点リーダ/エスクラメーション/クエスチョン以外の文字を探す』正規表現を使って、それ以外の文字があればヒットします。

>>37
やあ、これは神。
そりゃ行頭全角空白はOSSのtesseract-ocrですら今だに実装されてないんですから、このくらい認識していただければ、十分すぎるくらいですよ。

**名無しさん＠お腹いっぱい。** · 2023/12/27(水) 23:17:17.01

剥げると剝げるとかは、学習ソースに表記ぶれがあって字形がめっちゃ似てるので、
文脈補正でどっちかに引き寄せられやすいんですよ

くっきり読めると正しい方に引っ張られると思うけど、ぼやけてると学習した文脈に引っ張られるようになってる。
学習の時に、ランダムに字形を当てるモードと、文脈で当てるモードの比率によって
性能変わるみたいなので、要研究ですね

**名無しさん＠お腹いっぱい。** · 2023/12/28(木) 03:33:08.78

いくつかの漢字はシフトJISとかUNICODEとかの文字コードのなんちゃらで問題あるらしい

**名無しさん＠お腹いっぱい。** · 2023/12/28(木) 03:36:14.10

bunkoOCRはutf-8で出力するけどそれをシフトjisしか扱えないソフトで読んだりすると問題が起きる

**名無しさん＠お腹いっぱい。** · 2023/12/28(木) 03:36:52.54

らしい

**名無しさん＠お腹いっぱい。** · 2023/12/28(木) 06:19:58.31

　　○
　く|)へ
　　〉　ヽ○ノShift JIS
￣￣７　ヘ/
　／　　ノ
　｜
`／
｜
｜
/

36 · 2023/12/28(木) 23:33:04.82

>>41
え、そうなの？
でもウチLinuxだから、さすがにEUCってこたないだろうけどシフトJISにしがらみとかこだわりなんてないはずなんだけど……とあらためて元のjsonファイルを見てみたら、確かに化けてなくてちゃんと認識していた。

bluefishってHTMLエディタで開いたときは文字化けしてたんだが……と思って再度開くと化けてないで正しく認識している。

頬
噛
剝

bluefishで指定した表示フォントセットを途中で変えたせいかと思ったが、今は化けてない。行間を広げたくてMigmixに指定する前はなんだったかな？
何かどれも化けないな。

文字化けの件はどうも冤罪だったかもしれないですね。
どーもすいません。

**名無しさん＠お腹いっぱい。** · 2023/12/28(木) 23:58:58.31

「??」「?」「?」「?」
「叱」「填」「剥」「頬」
ネットで調べたらこれらが問題みたいね

私はちょっと古いソフトを使うときは
bunkoOCRは上の文字で出力するから
真っ先に下の文字に置換してからシフトjisで上書き保存してつかってる

嘘と?あたりもなんか怪しい

**名無しさん＠お腹いっぱい。** · 2023/12/29(金) 00:02:44.49

あれれ……

36 · 2024/01/04(木) 00:56:05.91

……今またjsonファイルを再調査したら、例の文字が
また化けてる。

冤罪ではなかったというのか？
でもこの前開いたときは確かに化けてなかったのにな。

もう分からなくなってきた。

36 · 2024/01/05(金) 03:21:06.77

気を取り直してOCRから得られたテキストファイルを校正してみたが、やはり恐ろしいほどの認識率。

3点リーダーの数がちょっと多かったり、1行目の行頭空白を落としてたりへべぺ（かな）とヘベペ（カナ）が一部入れ替わったりしたくらいの恐ろしくシンプルな校正で済んでしまい、以前に完品として作ったファイルとDiffツールで比較したら、逆に完品のはずのファイルにミスが見つかってしまった。

あらためて作ってくださった神に感謝。
マジでゲーミングPC調達したいな。

**名無しさん＠お腹いっぱい。** · 2024/01/05(金) 11:02:48.96

三点リーダの数が化けるのは、正直どうしょうもないと諦め中。
長くなると、認識の位相がずれていっぱいになっちゃう

いま最終調整してるので、Newバージョンの認識エンジンでもうすぐリリースできそう。
行頭の空白の認識が向上したのと、ふりがなのグループルビがもう少し向上したはず。
段組の順番が乱れるのも多分直った気がするのと、ページ番号と柱を無視できるようにしてみた

**名無しさん＠お腹いっぱい。** · 2024/01/05(金) 12:22:46.92

Shift JISしか扱えないソフトって現代ではバグの類

36 · 2024/01/06(土) 00:47:34.42

三点リーダーが過剰なのは、そういうものだと分かっていれば正規表現で瞬殺ですし。

Tesseract-ocrをずっと使ってきて、Ver.4辺りから無言のセリフ＝「…………」みたいなのをなぜか行ごと欠落するようになったので、ページごとに行数をサーチして行数の少ないページに当たりをつけて補完してた頃に比べれば、何のなんの。

それよか過去にOCRして校正済みの完品なはずのテキストデータ（前回とは別物）と、昨夜から半日かけてbunkoOCRで得られた新しいテキストを再比較してみましたが、ほぼ半日の校正で完品を凌ぐ出来でした。

とくに拡大しなきゃ違いが分からなかった、
搔
と
掻
を識別できてるのがスゴイ。勿論正解の方を引いている！

こりゃあ次期バージョンが楽しみですな。

**名無しさん＠お腹いっぱい。** · 2024/01/11(木) 17:17:43.26

グーグルドライブに上げてみたけどたまにダブるね。
繰り返される語を見つけるにはどうすればいいのだろうか。

>分からなかった
が↓みたいになってしまうことがある。
>分からなかったなかった

**名無しさん＠お腹いっぱい。** · 2024/01/11(木) 17:53:53.84

Transformer特有のバグですね。それはそれとして、今のエンジンで処理ミスがあったかもなので、
(そのせいで5文字くらい反復する)
次のバージョンでもまだバグってるか確認していただいていいでしょうか。
絶賛、機械学習モデルを学習中なので、もうしばしお待ちを

**名無しさん＠お腹いっぱい。** · 2024/01/11(木) 19:09:59.17

最新版はどこから落とせますか見つからなくて

**名無しさん＠お腹いっぱい。** · 2024/01/11(木) 21:35:23.20

すみません、今作ってるところなので多分来週くらいにリリースできそう

36 · 2024/01/12(金) 01:58:21.08

>>52
直前の文字列の繰り返しなら以下の正規表現検索で、

(..+)\1

↑『任意の二文字以上の文字列』の繰り返しにヒットします。
正規表現に対応したテキストエディタとかGrepツールならすぐに炙り出せると思う。

あと前回とは異なるソースをOCRしてみたら、大文字のローマ数字を全く認識しなかったですね。
他にはちょっと原文がイジワルなのですが、
‐（←全角のハイフン）
ー（←音引き）
―（全角のダッシュ）
大半は認識してたけど、この辺の一部が文字化けしてかしら。

最初にスキャンした原稿がだいぶ紙焼けしてたし、まだスキャンのノウハウが未熟だった頃のネタだから、今あらためてスキャンしたらもうちょっと違う結果になるのかも。

**名無しさん＠お腹いっぱい。** · 2024/01/12(金) 12:02:45.51

ローマ数字はどうするのが正解なのかしら。
コードポイント当たってましたっけ

**名無しさん＠お腹いっぱい。** · 2024/01/12(金) 13:13:06.17

>>57

ローマ数字に限らないけど、正しく認識できなくてもせめて文字化けしておいてくれれば僥倖。そこに文字ならざる文字があることが分かるから。

現状だとjsonファイルの中を見ても、何もなかったことにされてるみたいなので。

**名無しさん＠お腹いっぱい。** · 2024/01/12(金) 19:31:04.56

>>56
知りたかったありがとう

([^ ].+)\1
応用すると空白は除外とかできるね

**名無しさん＠お腹いっぱい。** · 2024/01/13(土) 08:10:18.27

正規表現置換
(([^ ]).+)\1
\1

で消えるのか
さすがに一括置換はいけないけど捗る

**名無しさん＠お腹いっぱい。** · 2024/01/15(月) 19:56:31.14

bunkoOCRは1行に数文字しかない場合
文字が飛んでる時がある
横長の画像で起きやすいかも

　XXXXXXXXだっ[改行]
た。

この「た。」の部分が文頭に出力されたりする

**名無しさん＠お腹いっぱい。** · 2024/01/16(火) 07:42:29.73

https://github.com/hiroi-sora/Umi-OCR
嫌儲で知った
https://greta.5ch.net/test/read.cgi/poverty/1705325289/

**名無しさん＠お腹いっぱい。** · 2024/01/16(火) 14:34:22.58

>>62
PaddleOCR
RapidOCR
がエンジンみたい

**名無しさん＠お腹いっぱい。** · 2024/01/19(金) 23:23:31.65

bunkoOCRの文字がバラバラになるのは
縦横や段組を自動判別してるからかな

**名無しさん＠お腹いっぱい。** · 2024/01/19(金) 23:38:20.15

縦書きであっても左上から右に向かって
解析してるのかなと勝手に想像している

**名無しさん＠お腹いっぱい。** · 2024/01/19(金) 23:48:37.33

>>61,64,65
出力jsonと縦書横書、柱、ノンブル座標範囲を指定したら、
ブロック番号やライン、文字順と座標の整合性をチェックする
Pythonツールなんてないですかね

作者さん以外でもコマンドラインプログラムの出来る人が頑張っていたら嬉しい

**名無しさん＠お腹いっぱい。** · 2024/01/19(金) 23:52:12.23

柱、ノンブル座標範囲は要はチェック除外範囲で
反対にチェック対象座標範囲の方でも良いのか

**名無しさん＠お腹いっぱい。** · 2024/01/20(土) 04:07:48.61

文字の位置と文字コード、文のラインまでは簡単（ではないが）なのだが、
それがどの文と文が連結してて、どこで切れるかを自動判定しようとして失敗してます。
文のつながりの順の判定は、機械学習でなく伝統的なプログラムでif文的なやつでやってるので、
こうしたら確実だぜ！って方法を思いついたら教えていただけるとありがたいです。

解析対象座標を与えるのもいいけど、1枚ずつ指定するの面倒だなーと思ってなんとか自動にしたい

**名無しさん＠お腹いっぱい。** · 2024/01/20(土) 08:33:40.47

>>61
それはあまり困らないな
こうなると困る

　XXXXXXXXだっ[改行]
　YYYYYYYYYYY
YYYYYYYYYYYY
YYYYYYYYYYYY
YYYYYYYYY。
た。

**名無しさん＠お腹いっぱい。** · 2024/01/21(日) 19:53:58.19

>>68
ラインに含まれる各文字のBBOXからラインのBBOXを作って
x座標の単純比較で済む、かと思いきや作者さんの映像を見ると
ラインが斜めだったり湾曲してたりするので無理か

手書きは諦めて印刷物だけに絞って歪み推定や補正が出来れば
座標の単純比較に持ち込めそうだけれど、ちゃんとした機械は
レーザーをあてて測定してるから推定自体が困難なんだろうと思う
(中華OHスキャナーは補正可能ストライクゾーンどうなってんのかな)

**名無しさん＠お腹いっぱい。** · 2024/01/21(日) 19:59:18.51

素人の浅知恵では歪みや文字の回転自体も学習データさえあれば
AIがやってくれる都合の良い妄想をしてますw

**名無しさん＠お腹いっぱい。** · 2024/01/28(日) 12:51:51.97

ABBYY FineReaderの日本語の精度はどうですか。
バージョン14以上は結構高いと思いますけれど、僕は15使ってる

**名無しさん＠お腹いっぱい。** · 2024/02/17(土) 01:22:32.69

嵌め込み業者がまぎれとると思ってたごめん
なんだ
若い連中がある意味賢いと言えるのは

**名無しさん＠お腹いっぱい。** · 2024/02/17(土) 01:22:51.96

復学の手続き終わった
その頃Twitterなかったロリコン性犯罪者予備軍みたいな何処のクラブもそうやな

**名無しさん＠お腹いっぱい。** · 2024/02/17(土) 01:23:08.72

かなりマージン取ってるとはいえ
そろそろ全打席四死球で攻めてもええやろ

**名無しさん＠お腹いっぱい。** · 2024/02/17(土) 01:24:53.46

人気になるの？
一般が見るのが効いてるからな
サロンが素人に毛が生えてるとか
投げやりな感じが好きなゴミサガテイルズペルソナ以下だよねー

**名無しさん＠お腹いっぱい。** · 2024/02/17(土) 01:25:17.78

>>6
便利っちゃ便利やな
このメカニズムが俺の長い10日間というのも個人の主義主張は良いけどさ

**名無しさん＠お腹いっぱい。** · 2024/02/17(土) 21:29:00.81

あやしい組織がなんか実験してるな。
昨日5ch詰まってたのはこいつのせいか。

**名無しさん＠お腹いっぱい。** · 2024/03/03(日) 20:52:13.50

少々知恵を借りたい。

当方Linux-MXユーザー。
bunkoOCR用にRADEONながらグラボを買ったのを機に、OSを最新バージョンのMX23-2でインスコし直して、Wineも9.0にした。
Windows11相当に振る舞うようにしてある。
AMDのドライバも当たってるみたいだし、bunkoOCRの設定もGPUを使う設定にして、CUI画面から、

　wine OCRengine.exe 0

を実行してみると、24行目でreadyと出るし、GUI画面でもエラーなく動くからWineは正常に動いていると思うのだが、肝心の処理速度がGPUなしのときと変わらない。

CPU冷却のための遅延を60秒設定してあるのだが、リソースメーターを見ていると以前と同様CPUが80〜100%使われていて1ファイル辺り2分くらいかかってしまう。

これはGPUが効いてないとしか思えないのだが、何かまだやりようはあるだろうか？

グラボは玄人志向のRD-RX550E4GB/LPで、PCは
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4　24GB

**名無しさん＠お腹いっぱい。** · 2024/03/07(木) 10:13:44.68

tesseract-ocr、MangaOCR、NDLOCRの精度が気になる
tesseract-ocrはともかくMangaOCRとNDLOCRは敷居高そうだが

**名無しさん＠お腹いっぱい。** · 2024/03/07(木) 11:32:04.84

>> 2023/09/18 GPUを使わないように強制するオプションを追加
>>パラメータが保存されているparam.configをテキストエディタで開き、
>>use_GPU:0に書き換えるとDirectMLを使用しないように強制できます。
との記述が有るので、ここを
use_GPU:1
とかに書き換えてみては、どうでしょうか？

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 02:21:09.63

>>81
うむ、param.configのデフォルトは = use_GPU:1
つまり何もしなければ有効になっているんですよ。

勿論何度か有効/無効を切り替えてみましたが、残念ながら無効状態よりも処理速度が上がることはなかったですね。

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 11:37:26.72

加盟店になれるのって海外の会社が説教しろ
性格いいのかもしれないし
それで小さいことではあるから凄いっていかにも
https://i.imgur.com/SrpMtwa.jpeg

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 11:44:34.18

23日09時23壺
どこが政権取ろうが粗探しして炎上させられるのがエグい🤢
5で死に枠には興味ないって共通理念を持ってるとか
https://i.imgur.com/QGScPyt.jpeg

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 11:52:08.80

もうすぐ家に帰れる
きつい
甘酒を適宜飲むてのがベイス
http://ris.08af/MtD0cbpX/kbje

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 12:21:48.75

みんなでオッパの帰りを祈りましょう🙏❤

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 12:29:38.55

世界中の国の調査なんかお察しだろ
寝配信やったのにアホやでほんま
G民「誰？」「マスク外していいかな？？

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 12:44:23.66

じゃあ次もジェイクにしか見えないほどの気力もないとダメやろ
革命でも専用のおうちはそっちと関係あるのな。
さて
いよいよシーズン始まったことだからな

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 12:47:02.90

>>38
しかし
お前ら禁じられたカルトを破防法でグリー全力ならそら1000円クーポン使って
使って

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 13:08:45.72

日本語で一番面白いろいけどな

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 13:33:11.86

買わないわよー

**名無しさん＠お腹いっぱい。** · 2024/03/08(金) 13:42:22.12

>>26
+0.33%
明日NTTの含みを悲観し、もうやってることになってつまらなくなってしまい
全員応援してやっと復学するの難しいのに、
セクターでは

**名無しさん＠お腹いっぱい。** · 2024/03/09(土) 00:06:56.91

ただの荒らしスクリプトではないぞ。
いまも壺サポはBOTみたいなもんだが、もうすぐ本当のBOTが話しかけてくるようになるだろう。

**名無しさん＠お腹いっぱい。** · 2024/03/10(日) 19:27:23.92

bunkoOCRで数冊やってみて分かったこと

かなりの確率で
段落の一段下げの【空白】と【「】が消えてる

【!!】と【!?】が文字化け

文字化けするから新字で書くけど
これの旧字が文字化けする

頬｜嘘｜噛｜掴｜剥｜躯｜掻｜唖｜蝋
繍｜涜｜鹸｜祷｜溌｜焔｜填｜箪｜侠｜呑

ルビに《、、、、》があると文がバラバラになる

AAAAAAAAAAAAAAA
BBBBBBBBBBBBBBB

こういう文が

AAAAAAAAAAABBBBBBBBBBBBBBB

こんな感じに結合されてAの末尾数文字が消える

あとはこれ>>61

文字の認識は有料ソフトよりかなりいいので作者には頑張って欲しいわ

**名無しさん＠お腹いっぱい。** · 2024/03/10(日) 21:09:57.71

サンプルがないとなんとも

**名無しさん＠お腹いっぱい。** · 2024/03/11(月) 14:31:19.15

>>80
オンボードグラフィックのパソコンでも使える？

【文字認識】OCRソフト（２文字目）【 自炊 】

【文字認識】OCRソフト（２文字目）【自炊】