【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

**名無しさん＠お腹いっぱい。** · 2016/08/09(火) 21:24:11.61

光学文字認識（こうがくもじにんしき、Optical character recognition）ソフト

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:01:13.29

>>285
今更かよ女人禁制なんてのはリベラル固有の話ではなく

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:01:16.79

>>149
てか俺もそこそこゴブリンジャップ女だから甘やかされて育ってきた差別主義者じゃん

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:01:23.10

>>410
捉えられる状況でもなければ政治を変えるつもりもないんちゃう

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:01:25.90

>>78
とりあえずここの自民工作員の多さやべーなその集団はｗ

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:01:39.60

>>10
努力したのかな？

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:02:02.67

>>124
俺が名前聞いた事ないくらいだから有名でもないんだろ…検査と隔離しかねぇわ

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:02:04.64

>>404
良い子ばかりいる空間に一人だけ真っ赤になってしまっている

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:02:35.50

>>392
高齢化してるのかと思ってたけど

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:03:19.97

>>49
公文書偽造はどうなったんだろ

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:03:32.16

>>41
唯一海外というか後輩みたいなもんでしょYouTube個人でやって生きていってんだよ

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:03:43.39

>>180
やっぱり交差接種の方が絶対まともや

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:03:56.25

>>45
でも30～50代ってことか

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:04:02.21

>>307
これ何で無かった事にしてるのが

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 16:04:35.46

>>351
ちびチー牛が社外でもエライと勘違いして調子に乗ったマンコがボコボコにされるネタ作りまくったのが潰れて前までのマニュアル使い回ししかできなくなっちゃったよ

**名無しさん＠お腹いっぱい。** · 2023/02/03(金) 12:28:26.88

工ｴｴｪ工ｴｴｪ(ﾟ;益;ﾟ(ﾟ;益;ﾟ)ﾟ;益;ﾟ)ｪｴｴ工ｪｴｴ工

**名無しさん＠お腹いっぱい。** · 2023/02/05(日) 11:30:31.75

>>42
おーすげー！
耳読書するようになったら、自炊本のpdf読み上げさせたら読み上げる順番がぐちゃぐちゃなことがわかって、縦書き日本語文章のOCRの限界を知ったとこなので、こんなにうまく抽出できるならやり方知りたい。

**名無しさん＠お腹いっぱい。** · 2023/02/06(月) 22:36:37.31

>>738
42氏とは別者だが
win機ホストでvirtualbox越しlinuxゲスト環境での
tesseract使用の話でよければやり方説明できんでもない
メモリ8MB以上ある？

**名無しさん＠お腹いっぱい。** · 2023/02/07(火) 00:14:18.21

>42書いたの自分だけど別に無理にlinuxでやる必要ないよ
当時 tesseractエンジン使ってるVietOCRが本家より妙に精度が良くて
Viet通さず本家だけで再現できないかと試行錯誤してただけ
linuxにこだわってたのは単に>39の人がwin環境じゃなかったからでwin版バイナリもある

このときのまとめは>47
当時βテスト中だったtesseract 4.0.0と tessdata_fastの言語データを使うことだった
今はアプデされてるのでもっと楽にセットアップできるのかも知れない

精度について補足すると結構フォントやレイアウト依存というか
ばっちり拾える時もあれば全くあかんときもありました、過信は禁物

**名無しさん＠お腹いっぱい。** · 2023/02/07(火) 12:57:45.69

>>740
ありがとう
既にまとめてくれてたのに見逃してた

**名無しさん＠お腹いっぱい。** · 2023/02/07(火) 22:17:53.37

このスレにも荒らしが湧いて、もうココもダメかなと
思ってしまったが、まだ出入りする同志がいてしかも
過去のネタも参照されてたのかと思うと、ちょっと感涙。

当時お世話になりました>>42
そんな私は>>39

**名無しさん＠お腹いっぱい。** · 2023/02/13(月) 18:28:43.48

NDL試した。意外なことにDocuworksより少し良いくらいだった。
ポンコツのeTypistと同じエンジンだから、ゼロックスは最適化が上手ということなのかなあ？

**743** · 2023/02/13(月) 18:31:49.99

追記
いまみたら、ページ番号にOCR処理をしていない。
これがデフォルトなら画像のトリミング処理を省略できますねえ。
ルビを処理しないという選択できるから、文庫のOCRがはかどるねえ。

**名無しさん＠お腹いっぱい。** · 2023/02/13(月) 19:08:27.43

>>744
ページ番号を OCR 修理をしないくらいなら読取革命でも柱を外した長方形を領域のテンプレートとして設定するだけで対応可能なのでndlのメリットはあまり感じないです

図表が本文と混在していて本文の領域が長方形で設定できない場合でも対応できるというメリットはありますか

クレクレで申し訳ないですが経験者のご意見をお伺いしたいです

**743** · 2023/02/13(月) 19:16:30.68

>>745
一手間省けるだけでも相当楽になると思います｡

いま別の画像にOCRかけたら､NDLの完敗だった｡
Docuworksは意外に性能が良くて驚いた｡

NDLが優れている方が嬉しいので複雑だなあ｡
この画像をGoogel Documentで開いてみます｡

**743** · 2023/02/13(月) 19:21:52.22

Google Drive上のpdfをGoogle Documentから開いた｡
今回もDocuworksの勝ち｡
docuworksは7.3でサポートが終わった古いバージョン｡
新しいバージョンだともっと優秀なのかなあ？

驚きの大がっかりな結果でした｡
Docuworksより誤認識が少ないことを期待したのに､期待外れもいいところでした｡

**743** · 2023/02/13(月) 19:26:56.37

冷静に考えれば､たった2枚の画像の比較だったので､一般化はしてはいけないと思う｡
文庫本はNDLの勝ち｡しかし2カ所！マークを1と誤認識しなかっただけの優位性だから大差ない｡
イラスト入りで変則的な段組の専門書はDocuworksの圧勝だった｡

文庫ならNDLの方がトリム不要で認識率が少し良い｡音声化するときはこの少しの差が大きな作業量の差になるから使う価値はあると思う｡

**743** · 2023/02/13(月) 19:33:22.63

ルビを無視出来るというのも海外小説をOCRするときには結構大事だと思う｡

**名無しさん＠お腹いっぱい。** · 2023/02/13(月) 21:23:05.17

>>746
私の質問の書き方が悪かったです

図表が本文と同一ページにあって本文の領域が長方形でない場合でも正しくレイアウトを認識しますか？
が正しい質問です。いかがでしょうか？

**743** · 2023/02/13(月) 21:26:28.86

>>750
DocuworksはOCR専門ソフトではないし､操作も簡単な割にはいい結果がでますよ｡
今回NDLはデフォルト設定だと段組がメチャクチャでした｡設定を変えたらOKでしたが､認識結果は今一つでした｡
たしか､GoogleもPDFのレイアウト解析は今一つだったように覚えています｡

**名無しさん＠お腹いっぱい。** · 2023/02/13(月) 21:28:46.74

>>751
貴重な情報ありがとうございました
DocuWorks はこれまでは全く使う機会のないソフトでしたが今後検討対象のひとつに加えます

**743** · 2023/02/13(月) 21:39:59.34

体験版が2か月くらい使えたと思いますよ｡

私のはサポートが切れた古いバージョンなので､最新版とは違うかも知れませんのでご注意下さい｡
バージョンアップを改悪という人が多い印象なので､注意が必要ですよ｡

**名無しさん＠お腹いっぱい。** · 2023/02/13(月) 22:03:50.31

>>753
ありがとうございました

**名無しさん＠お腹いっぱい。** · 2023/02/25(土) 15:57:52.74

LINEレシートのOCRすごい。
でも、レシート分けて買い物したものが「登録済み」とか言われて入力できなかった。
同じ日に同じ店はだめなのかと思ったけど、もう一度買い物して分は登録してくれた。
間違いなく登録してくれてCSV出力があったら完璧なのになー。

**名無しさん＠お腹いっぱい。** · 2023/02/25(土) 23:34:01.07

>>511
自分も14を使ってて同じ悩みをもってサポートに問い合わせたらできないことが分かった
16にアップデートするとフォントサイズに自動調整や透明スペースの挿入で可能な限り原文の1行の長さに合わせてくれる
今はそれで解決してる
14持ってたら16へのアップグレード料金で割安になったよ

**名無しさん＠お腹いっぱい。** · 2023/03/17(金) 13:03:37.44

Pict2ePub
縦横→epub, txt
googleのAPI使うやつだけど、設定でルビとかページ番号認識しないようにできる（完璧ではない）。
透明テキストPDFが作れる訳ではないけど市販のより高精度で気に入ってる。
文中に画像とか画像ファイル名が入らないようにしてほしい。
https://www.vector.co.jp/soft/winnt/writing/se523818.html

**名無しさん＠お腹いっぱい。** · 2023/03/25(土) 18:57:24.94

>>439を参考に透明テキスト付きPDFが作れて、Adobe Acrobatではテキスト検索やハイライトができたけど、KindleにPDFとしてインポートするとテキスト検索やハイライトができません。

この方法で作った透明テキスト付きPDFをKindleに認識させる事はできないのでしょうか？

PDF24って無料アプリのOCR作成ならKindleに取り込んで認識できたんですが精度が良くなくて…両者はOCRの仕組みが違うという事なんですかね？

Google Cloud VisionのOCRは精度が良くて無料分で自炊できるので気に入っているのですが、有料のOCRソフトを買えばKindleでも認識できるのでしょうか。

**名無しさん＠お腹いっぱい。** · 2023/04/10(月) 14:58:29.78

質問です。わかる方いれば。
現在、ScanSnapでOCRかけてるんですが、日本語縦書き本の読み上げ順序がぐちゃぐちゃになります（右から左にスムーズに流れず、飛んだり戻ったりする）
読み上げ順序がスムースに右から左になるソフトや方法はありますか？
AcrobatProに課金すると読み上げ順序を指定し直せるみたいなんですが、修正箇所が多すぎて気が遠くなるので…

**名無しさん＠お腹いっぱい。** · 2023/04/15(土) 20:35:34.10

>>759
もしかして字下げしたところが後回しになるとか？
だとすると段落が別になってて後回しになってるかも。

**名無しさん＠お腹いっぱい。** · 2023/04/16(日) 08:14:25.54

Google Cloud Vision、横書きはほぼ完璧なのに
縦書きは残念な感じですね。縦書き需要ないのかな。

**名無しさん＠お腹いっぱい。** · 2023/04/16(日) 09:40:31.89

>>761

> Google Cloud Vision、縦書きは残念な感じ

縦書き駄目ですか？縦書きこそいろんなソフトが今ひとつなんで Google クラウドビジョンを勉強して縦書き用に使おうかと思ってたんですけど、性能が低いなら残念です

**名無しさん＠お腹いっぱい。** · 2023/04/16(日) 22:16:58.25

レシート読み取り、LINEレシートはめっちゃいいのにレシーピは全然だめだなー
て思ってたけど、ちょっと解像度見て見たら
レシーピ入れてる楽天mini は1600万画素しかなくて
LINEレシート入れてる iPhone 5s は 800万画素あった。
・・・ん？手振れ補正の有無かな・・・

楽天Hand 5Gが約6,400万画素でこれが1円だからこれ買うことにする。
手振れ補正ないのが不安だ。

**名無しさん＠お腹いっぱい。** · 2023/04/27(木) 13:13:47.12

透明テキスト付き縦書きPDF作成はvFlatアプリが一番優秀
スキャン機能もかなり良く出来てる
課金で無制限で使えたら良いのに、最近更に改悪された

**名無しさん＠お腹いっぱい。** · 2023/04/27(木) 23:37:35.71

>>764
PC 用の V flatを探しましたけど媒介アプリみたいなのを使うみたいで気味が悪いですね。スマホ用みたいなのでネイティブではPC 用としては使えないようです。残念

**名無しさん＠お腹いっぱい。** · 2023/04/29(土) 14:06:13.63

>>757
教えてもらったPict2ePubを使ってみた。かなりいいんだけど、エラーが出て止まっちゃったりして動作のクセ？がよくわからない。
サポートはナシとのことなのでここで聞いてみるんだけど、

▼▼ 処理中にエラーが発生しました ▼▼▼
別のプロセスで使用されているため、プロセスはファイル 'container.xml' にアクセスできません。

みたいなエラー出る？
関連しそうなファイルやフォルダを全部閉じてるんだけどエラー出るんだよね。

**763** · 2023/05/03(水) 02:34:24.28

rakuten Hand 5G で撮影したらめっちゃ読み取れる。
カメラにシールつけたまんまなのに。

ただ、試しにズームで写真撮ったら
肘をしっかり固定したのと普通に持って撮影したのじゃ全く違うから
手振れ対策重要だなと思った。

**名無しさん＠お腹いっぱい。** · 2023/05/05(金) 15:14:17.82

読取革命16でスキャン入力したら、数十ページで異常終了してしまう。
メモリ32GBで、スペック的な問題ではないと思うけど、よくわからん。

**名無しさん＠お腹いっぱい。** · 2023/05/07(日) 17:15:49.03

横書き日本語文字メインの専門書のpdfをOCR化したい場合、どのソフトが良いですかね
読取革命か、あるいはフリーで何かないかなと探しています

**名無しさん＠お腹いっぱい。** · 2023/05/11(木) 01:10:47.21

>>769
Google Cloud Vision APIが横書きの精度が高くてお勧めですよ
クレジットカードの登録はいりますが、90日使える300ドルのクレジットもらえるし、それ過ぎても毎月1000ユニットまでは無料です

実行プログラムは>>439のやつ使うといいです

**名無しさん＠お腹いっぱい。** · 2023/05/11(木) 01:16:50.39

>>770
あ、この実行プログラムで使うにはpdf をjpgにする必要があるのでそこは手間かも

**名無しさん＠お腹いっぱい。** · 2023/05/11(木) 10:53:00.72

>>770

縦書きの精度はいかがでしょうか？
分かれば教えてください

**名無しさん＠お腹いっぱい。** · 2023/05/11(木) 11:33:22.61

>>772
縦書きは少ししかOCRしてませんが精度は良いと思います。
1ページ当たり500文字ほどの本を処理し、単語検索しましたが抜けはありませんでした。

ただ、ドラッグしてハイライトを付けると文章内で飛んでる所がでます
（ハイライトが飛ぶだけでテキストのコピーは飛ばずにちゃんとできます）
i.imgur.com/kbM3N3G.png

**名無しさん＠お腹いっぱい。** · 2023/05/11(木) 13:33:09.87

写真を見る限り透明文字の位置やサイズの問題のきがします。

Google Cloud Vision APIでは透明もじの張り込みはできないとおもっていたのですができるのですね

**名無しさん＠お腹いっぱい。** · 2023/05/11(木) 19:33:34.69

>439の奴は透明テキスト付pdfにするためのライブラリが縦書きに対応していない
GCV自体は縦書きに対応してるのでテキスト抜き出すだけなら問題ないけど

**sage** · 2023/05/12(金) 08:52:20.43

ブルーレイ映画をパソコンで再生しながら、画面下に表示される字幕を
映画の最初から最後まで連絡して文字認識するソフトを探しています。
そのような機能を持つソフトはありますか？

**名無しさん＠お腹いっぱい。** · 2023/05/12(金) 14:46:35.89

>>775
でも773の画像は縦書きに透明文字が乗ってるよね。

>>773さん、

GCVで透明文字が乗ったのPDF は作れるのですか？

**名無しさん＠お腹いっぱい。** · 2023/05/12(金) 14:57:09.96

>>777
773ですがGCVで透明テキスト付きPDF作れてますよ
横書きなら文字検索＆ハイライトの問題なし、縦書きはハイライト飛ぶけど検索はほぼ問題なし

**名無しさん＠お腹いっぱい。** · 2023/05/12(金) 16:42:30.72

>>778
ありがとうございます。
Google クラウドビジョンチャレンジしてみます

**名無しさん＠お腹いっぱい。** · 2023/05/12(金) 16:58:09.11

>>779
いえいえ～

Google CloudのAPIキーを発行する手順を載せておきますので参考までにどうぞ
zenn.dev/tmitsuoka0423/articles/get-gcp-api-key

**名無しさん＠お腹いっぱい。** · 2023/05/12(金) 19:33:59.40

>>777
「縦の文字列」ではなく一文字ずつ位置指定して透明テキストを画像に重ねてるんよ
（おそらく横書判定で一文字ごとに改行って処理になってる）
なのでドラッグで範囲選択すると位置ズレで拾えない文字が出てくる
>773の選択範囲は点線上だけど正規の縦書きPDFなら赤の選択範囲が途切れず縦一直線に繋がるはず

このあたりは>439の作者さん自身が>56-57で説明してる
hocr-toolsの作者にもissueで質問してたみたいだけど
相手外人なので縦書き需要が理解されず未解決のまま

**名無しさん＠お腹いっぱい。** · 2023/05/12(金) 21:18:10.00

>>781
なるほど、それで縦書きのときのハイライトが途切れてるんですね

自分のPDFではドラッグしたときは行の最後から選択するように操作したり、前後の行を含めるように操作すると選択コピーでけっこう拾えてます、行の最初の文字が抜けたりしますが。
Wordに貼り付けても間に改行が入ったりはないです。
また、単語や文章の検索なら問題ない感じです

このへんはPDFの文字数やサイズにもよりそうですね

**名無しさん＠お腹いっぱい。** · 2023/05/14(日) 00:30:58.96

>>780
リンク先の”認証情報を開く”まで進んだのですが，そのあとのAPIキーを発行するという画面がでません．

認証情報の作成画面の上からの項目は
?認証情報の種類
②スコープ（省略可）
③OAうthクライアントID
④認証情報

完了

です．そうすればいいでしょうかm(_ _)m

**名無しさん＠お腹いっぱい。** · 2023/05/14(日) 09:42:31.54

>>783
Cloud Vision APIを有効にすれば、APIキー発行のメニューが出ると思うんですが、
APIとサービスの有効化→検索にCloud Vision APIと入力→Cloud Vision APIを選んで｢有効にする｣はクリックしてますかね？

**名無しさん＠お腹いっぱい。** · 2023/05/14(日) 10:40:20.87

>>783
>>780

自己レスです．
できました．
お騒がせしましたm(_ _)m

**名無しさん＠お腹いっぱい。** · 2023/05/14(日) 14:18:04.24

>>780
>>781

試しに439で本の一部65ページくらいを認識させました．
他のそふとよりも正確に認識したので，全部400頁を対象にすると認識処理のあとメッセージ"enerating pdf”がでたまま終わりません．
タスクマネージャーではmakingopdfのリソース消費が0で作業を中断しているようなので諦めて，2回めをやり直しました．しかし状況は同じで終わりません．
ページ数が多くなると失敗するというバグなんかあるんでしょうか．

**名無しさん＠お腹いっぱい。** · 2023/05/15(月) 11:02:52.19

>>786
456ページあるPDFをjpgにしmakepdfGUIで透明テキスト付きPDFにしてみましたが、自分の環境下ではエラー無く終わりました

READMEにある画像データサイズやピクセル数の制限に引っかかっている可能性はないでしょうか？

**名無しさん＠お腹いっぱい。** · 2023/05/15(月) 14:37:28.13

>>787
実験していただいてありがとうございます．
私の方の画像の情報を紹介します．

画像ファイルの大きさは，全ページの場合は最大812k，65ページの最大サイズは712KBです．
ピクセル数は，全ページの場合は最大812kの画像で2050×3239B，65ページの712KBの画像で1985×3209Bです．

readmeにある条件「.jpgファイルでサイズが1.5MB以下。縦横のピクセル数が1500以下（？）」のサイズは満たしていますが，ピクセル数は全ページも65頁も満たしていません．ピクセル数の多さ原因なら65ページも失敗しているはずですが．
readmeのピクセルの条件が「1500以下（？）」正確にはわからない，という書き方で判断のしようがないなです．
どこかに正確な情報はないでしょうか．

あと一回OCR認識した情報のファイルがてmpフォルダー内にHOCRやJSORで保存されていますが
これらを再利用する方法はないでしょうか．

試しに有料なので毎回GCVを動かすわけにもいかないので．

**名無しさん＠お腹いっぱい。** · 2023/05/15(月) 17:47:49.34

>>788
READMEで使える画像データが（？）になっていて、バグが沢山あるので、と書かれているので作者さん自身でも把握できていないバグがあるのかもしれませんね

過去に他のGoogle Cloudサービスの使用歴があって今はもう初回の無料クレジットが無い状況ですかね？
300ドルの無料クレジットがあるなら90日間は約20万回の画像処理ができますし、もし無料分がないなら月に1000画像までは無料なので、無料の範囲で試行錯誤してみる感じになるのかなと思います

JSONファイルはGoogle Vision APIを介さずにOCRの結果を再利用できます。コマンドの知識がいるので自分は使ったことは無いです。

**名無しさん＠お腹いっぱい。** · 2023/05/15(月) 18:06:25.04

>>789
返信ありがとうございます。
Amazon で次の Kindle を購入して勉強しています。
Google Cloud Vision APIとPythonで文字認識

リナックスユーザー向けということですが Windows でも応用がきできそうなことを序文に書いてましたので、乗りかかった船で勉強してみます。うまくいけば縦書き透明文字も処理できる注意ができるかもしれません。

**767** · 2023/05/16(火) 02:29:27.85

100回くらい読み取りしないと日本語でOCR出来なくなった。
変なアプリ入れたせいなのかそれともハッキングか分からんが
楽天mini が全然読み取れないのとまったく同じ症状なので
カメラの性能全く関係なかった。

**名無しさん＠お腹いっぱい。** · 2023/06/07(水) 15:53:10.91

このスレさらっと読んでみたけど
無料で、ローカルで
っていうことだとwindowsよりlinuxの方が有利っぽいね

透明テキスト付けられると便利だなとか思いながら見ていた

**767** · 2023/06/17(土) 13:47:44.30

あやしいツールを削除したら日本語認識するようになったけど複雑な字は絶対認識しなかった。
手首を固定するようにしたらだいぶ良くなったから手振れかなと思った。
さらにＡ４厚紙にスマホを乗せて厚紙を固定して撮影したらかなり正確に認識した。
手振れが問題だったようだが撮影台みたいなのは影ができるからこれも使えん。
アプリによって距離も違うし。
暗い壁を背にして光源を天井と外の2方向からにしてレシートを斜めに置くと影も反射もなく撮影できる。
フラッシュ焚いて反射した部分は読み取れない。

**名無しさん＠お腹いっぱい。** · 2023/07/25(火) 23:59:25.50

オープンソースなAI-OCRがちょっとずつ増えてきた？

**名無しさん＠お腹いっぱい。** · 2023/07/27(木) 00:49:10.58

具体的書込所望

**名無しさん＠お腹いっぱい。** · 2023/07/28(金) 12:17:15.85

Windows APIのOCR機能を使ってみたが、まあそこそこって感じ。
パラメーターとかのチューニングの余地がないっぽいので、お試しレベルだな。

**名無しさん＠お腹いっぱい。** · 2023/08/10(木) 23:03:32.19

ここで聞いた手法で、機械学習OCR挑戦してたけど、やっと動くようになったので
置いておきます

モデル
https://github.com/lithium0003/findtextCenterNet
アプリにしたもの
https://apps.apple.com/jp/app/bunkoocr/id1611405865
なんとなくの使い方
https://lithium03.info/ios/bunkoOCR.ja.html

**名無しさん＠お腹いっぱい。** · 2023/08/20(日) 22:49:52.50

>>797
久々に来たら神アプリ誕生してた
試したらなぜかエラーで強制終了したんですけど、かなり期待してます！

**名無しさん＠お腹いっぱい。** · 2023/08/21(月) 03:08:01.91

>>798
まだバグってたか。すまん。
よければ機種と、何した瞬間だったか教えてもらえると助かるです。
もしくは、ディベロッパーにエラーレポート共有するやつで送っておいてもらえると。

**名無しさん＠お腹いっぱい。** · 2023/08/23(水) 21:45:39.05

iPhone8で落ちてだめだね

**名無しさん＠お腹いっぱい。** · 2023/08/24(木) 04:57:06.45

iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい

**名無しさん＠お腹いっぱい。** · 2023/08/24(木) 04:57:09.06

iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい

**名無しさん＠お腹いっぱい。** · 2023/08/24(木) 05:14:04.09

二重になってた。すまん

こんな感じで、ふりがな付きで認識されるはず
https://i.imgur.com/sAYCM1A.jpeg
https://i.imgur.com/Y0b5Gp2.png

**名無しさん＠お腹いっぱい。** · 2023/09/03(日) 04:56:45.00

>>803
それ何のスキャナ?
そんなに離れたところからでも、今の時代ってそんなに高精細にスキャンできるのか?

**名無しさん＠お腹いっぱい。** · 2023/09/03(日) 07:55:28.61

スマホのカメラでしょ

**名無しさん＠お腹いっぱい。** · 2023/09/03(日) 15:29:23.39

iPhone13Proの背面カメラ
焦点距離が150mmの倍率が真ん中のやつだとちょうどの距離

**名無しさん＠お腹いっぱい。** · 2023/09/04(月) 21:26:06.49

台に固定して1ページづつ撮影か
自動でシャッター切るアプリがあったけどキツイな

**名無しさん＠お腹いっぱい。** · 2023/09/04(月) 23:05:06.12

>>807
DAISOリモコンシャッター用フットスイッチ　iPhone用
https://minne.com/items/26569321

**名無しさん＠お腹いっぱい。** · 2023/09/05(火) 10:00:32.81

>>797 のアプリは15秒おきとかに自動シャッター切れるようにしたけど、
小説一冊スキャンしようとしたら45分くらいかかるから結構大変だった。
非破壊でスキャンできるのはよいけど、手間はすごい

**名無しさん＠お腹いっぱい。** · 2023/09/05(火) 11:07:11.26

アンドロイドのアプリいくつか使った
見開き自動分割とか、自動シャッターとか、指消しとか
OCRは有料だけど
Lens
adob scan
vflat
genius scan

**名無しさん＠お腹いっぱい。** · 2023/09/06(水) 15:15:13.29

>>809
しばらく使ってないアプリだけど、スキャンだけvFlat使って、OCRをこの新しいアプリ使ってみたらどうかな？もうちょい速くできそう

**名無しさん＠お腹いっぱい。** · 2023/09/06(水) 15:17:38.01

Windows版が出るならスペック高いPCでガンガン使いたい

**名無しさん＠お腹いっぱい。** · 2023/09/06(水) 21:47:47.22

今、Windows用のに書き換えてるけど、処理した結果の出力ってどんな形式が便利？
とりあえずtxt(ふりがな飛ばす)と、html(rubyタグ)とかで出しておけば何とかなるかしら。

**名無しさん＠お腹いっぱい。** · 2023/09/09(土) 20:21:39.46

tesseractのhOCR形式、文字（または語）ごとにOCR推定のコンフィデンス値が見られるのがお気に入り
でも文字列検索には不便
定番の出力形式、なかなか定まらない

**名無しさん＠お腹いっぱい。** · 2023/09/09(土) 23:42:26.08

Windows版 bunkoOCR
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230909.zip

とりあえず作った。nvidiaのGPUが刺さってると速いはず。
CPUでも動くけどかなり時間がかかるので、GPU推奨

**名無しさん＠お腹いっぱい。** · 2023/09/10(日) 04:54:58.83

>>815
裏写り除去のルーチン入れ忘れてたので修正版
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230910.zip

**名無しさん＠お腹いっぱい。** · 2023/09/11(月) 21:25:23.88

>>815
ページ作ったので、以後こちらで
https://lithium03.info/product/bunkoOCR.html

**名無しさん＠お腹いっぱい。** · 2023/09/12(火) 15:43:11.53

Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。

Windows用の .Net Frameworkとかを使っていないのでウィンドウまでは起動したから、「こ、これはイケるかもしれない」と、文庫をひらきにしてスキャンした画像をScanTailorで整形した.tiffと.pngを食わせてみたが、いずれもエラーを吐いてダメ。

惜しいなァと思いつつちょっと試行錯誤したところ、どうも別ドライブにまたがった先のファイルなのがダメだったのか、システムと同ドライブ内に画像ファイルをコピーしてから食わせたら、第9世代のCore i7を全スレッド100％級に使用してましたが、.tiffも.pngからも無事にテキスト化できました！

まだ1ページやっただけですが、誤認識が見当たらないのがスゴイ！
しかも行頭アキのスペースをちゃんと認識している！

今ままで行頭アキを認識しなかったTesseract-ocrで散々苦労していたのがウソのよう。

更に段組み（1ページ内のテキストが上段と下段で折り返す）にも対応していて画像を上下で分割しなくてもテキストは上下で区別されてるし、複数ページを一度に食わせられる！

あなたは神か？

ものすごいものを世に出していただき、自炊者のひとりとして感謝いたします。

**名無しさん＠お腹いっぱい。** · 2023/09/12(火) 20:00:43.48

自分も使わせていただきました
読み取り精度は感動的なまでに高いですね
同じファイルを読み取り革命に読み込ませた時は誤字脱字だらけで改行も滅茶苦茶でしたが
このソフトだとほぼ校正はいらない状態で出力されます

ただ、かなりのスペックが必要ですね
5年ほど前のノートPC（corei7 メモリ16GB　radeon）だと12コア全て使用率100％近くになり
半分フリーズしたような状態で1時間ほど放置したら100ページほど出来てたので
500ページの文庫を何冊もやるとしたら結構時間かかると思います
読み取り革命ではこのノートで充分でしたが次回はゲーム用のRTX3050を積んだPCでテストしてみます

素晴らしいソフトを公開してくださり本当にありがとうございます

**名無しさん＠お腹いっぱい。** · 2023/09/12(火) 20:39:01.02

うまく動いたようで何よりです。機械学習をバリバリに使っているので、
GPUマシンで実行することをおすすめします。
RTX3000系のGPUだと実用的な速度になるはずです。

**名無しさん＠お腹いっぱい。** · 2023/09/12(火) 21:35:56.45

続・Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。

・ファイルパスは1バイト文字で

システムとは別ドライブ上の画像ファイルを食わせたらエラーになった件、フォルダの名前に日本語を含む多バイト文字が使われているとエラーになるようで、ファイルパスを英数文字だけになるようにしたら、別ドライブ上のファイルでもちゃんと認識しました。

・休み休み冷却しながら

他の方も書いていますが、GPUなしだとマシンへの負担が尋常ではなく、始めると90℃くらいまでコア温度が上昇するので、300ページ弱の文庫本をOCRする場合数十ページ単位で実施したら、コア温度が冷めるまで休ませた方が熱暴走するよりいいと思う。
（ちなみにエディタで文字打ちだとコア温度は35℃くらい）

今回スキャンしてノンブルを削除した以外は段組のままの300DPIのtiff画像を一冊分OCRしたところ、"「"が時折全角SPになっていたくらいで、ホント惚れ惚れする認識精度でした。

今後のためにGPUを搭載したPCが欲しくなります。

**名無しさん＠お腹いっぱい。** · 2023/09/13(水) 13:36:02.38

>>815
すごく良い！ありがとう。一点、空白ページだと落ちるよう。

**名無しさん＠お腹いっぱい。** · 2023/09/13(水) 14:16:40.21

作者様ありがとうございます
青空文庫形式でふりがなまで処理してくれて間違いもほぼない状態で驚きですが
実質Geforce必須といった感じですね
こちらの環境はryzen7、メモリ32Gbですがグラボは応援のためにRadeon6600xt使っているので
GPU支援が効いてくれず16スレッド全てが95～100％使用になり
それでも1分に2枚処理できるかどうかですので何冊もOCRするのは現実的ではないです

そろそろグラボは買い換えようと思ってたのでGeforce使っている方、
例えば100枚処理するのにどれぐらい時間がかかって、温度やCPU使用率がどれぐらいになるのか教えていただけないでしょうか？

【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net