【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

**名無しさん＠お腹いっぱい。** · 2020/01/05(日) 21:43:56.51

>>182
修正ありがとうございます　無事動きました

makepdfgui.exeは簡易的なフロントエンドという感じですが
gcv2hocr / gcvocr / hocr-pdf をそれぞれexe化されたものが同梱されているので
各プログラムのコマンドライン解説があればバッチ処理で連続実行させられそうですね
あと個人的には出力パス(PDFファイル名)と中間ファイルのテンポラリパスも指定して画像ソースできればいいなと思いました

まあそのあたりはせっかくソース同梱ですし.pyが動かせれば自分で改変できるので
おま環で実行環境づくりに試行錯誤してました
WSLはPython2.7のままだったのでTkinterでハマって一旦断念
dosプロンプト+miniconda でパッケージにrequestsを足してなんとか

```
conda create -n makepdf python=3.7 Pillow lxml reportlab requests
conda activate makepdf
python makepdfGUI.py
```

なお os.path.dirname(__file__) は os.path.dirname(os.path.abspath(sys.argv[0])) に書き換える必要がありました

**名無しさん＠お腹いっぱい。** · 2020/01/05(日) 21:46:07.12

×画像ソースできればいいなと思いました
〇画像ソースと分離できればいいなと思いました

**名無しさん＠お腹いっぱい。** · 2020/01/05(日) 22:01:04.34

ありがとうございます！

動いてよかったです。
来週にでもgithubに上げますのでforkするなりなんなり宜しくお願いします。

Windows版は.pyファイルのコンパイルにnuitkaを使ってます。コンパイルオプションが長いのでそれも併せてアップします。

Windowsで使えれば少し拡がるかな、と思ってますw

**名無しさん＠お腹いっぱい。** · 2020/01/05(日) 22:19:24.41

python由来のexeファイル（gcvocr.exe, hocr-pdf.exe)は単体での起動ができなくて、一緒にたくさん入っている
共有ライブラリが必要になります。

gcv2hocrはMingw64でコンパイルしているので、単体で動作すると思います。

大したものでもないですが、誰かに使ってもらえると嬉しいものです。
ありがとうございます。

**名無しさん＠お腹いっぱい。** · 2020/01/05(日) 22:43:03.98

こちらこそ有用なものを上げていただいてありがとうございます

自分もgcv2hocrをexe化できないかなあと思って弄ってた時期もあったんですがニワカ知識だとなかなか
winだとサーチャブルPDFをスキャン時ではなく後から作ろうと思うと
いまだにAcrobatか旧来の有料OCRソフトかみたいな感じでなかなか歯がゆいとこあります

**名無しさん＠お腹いっぱい。** · 2020/01/06(月) 11:35:46.65

とりあえずGithubにあげました。

https://github.com/dinosauria123/makepdf

**名無しさん＠お腹いっぱい。** · 2020/01/06(月) 22:22:51.95

★入れときました

**名無しさん＠お腹いっぱい。** · 2020/01/07(火) 05:50:46.58

ありがとうー

**名無しさん＠お腹いっぱい。** · 2020/01/08(水) 19:11:22.77

出力pdfを任意の場所に置けるようにしました。

上のgithubのページにダウンロードのリンクがあります。

中間ファイルは別フォルダに置くようにしました。

**名無しさん＠お腹いっぱい。** · 2020/01/09(木) 10:44:21.50

実行時にコンソールウインドウが出ないようにしました。

**名無しさん＠お腹いっぱい。** · 2020/01/09(木) 23:57:29.83

改良乙

**名無しさん＠お腹いっぱい。** · 2020/01/10(金) 00:17:04.04

乙

**名無しさん＠お腹いっぱい。** · 2020/02/04(火) 10:31:25.64

Googleドライブに入れてGoogleドキュメントで開いて…のOCRって、使用量に
何か制限があるのかねえ？

1枚に2000文字程度書かれたビットマップファイルを1800枚ほどOCRしてたら、
途中なぜかGoogleに繋がらなくなった。(googleトップページにも繋がらない・
Google以外は問題なく繋がるので回線の問題では無い)
怪しい利用者と思われ、ロックアウトされたのかねえ？
色々やってたら(20分ぐらい？)復活したが・・・

最初e.TypistOneを使ったが、誤認識があまりにも多く断念。

プログラミングのスキルがあれば Google Cloud Vision API を使うアプリ
を作るのだが、無いのでGoogleドライブ経由で利用。

一旦全てのビットマップをGoogleDriveに入れ、ブラウザ上で、
(1) ビットマップファイルをGoogleドキュメントで開く
(2) 書式無しテキストでダウンロード＆閉じる
(3) 処理の終わったファイルをDriveから削除
という一連のマウス操作を、UWSCというアプリを使って記録、繰り返し再生し
てる。(1枚約1分)

**名無しさん＠お腹いっぱい。** · 2020/02/04(火) 12:00:35.26

Google DriveでのOCRで上限を感じたことはない。
でも1800枚は時間なり量なりの制限にかかるのかもね。

同じ作業をPowershellのスクリプトで行っているが、
無料のGoogle Driveと有料のCloud VisionAPIとでは
認識結果が異なり、精度は意外にも前者が高く、
処理速度は後者が速い。ゆえに使い分けている。

**名無しさん＠お腹いっぱい。** · 2020/02/04(火) 13:11:16.64

>>197
＞無料のGoogle Driveと有料のCloud VisionAPIとでは
＞認識結果が異なり、精度は意外にも前者が高く、
これは意外＆嬉しい情報です。ありがとうございます。

まだ細かくは見ていませんが、Google DriveでのOCR結果は満足いく物のようです。

**名無しさん＠お腹いっぱい。** · 2020/02/04(火) 20:20:23.79

UWSCは自分も使っている。良いソフトだね。
でもUWSCのスクリプトが組めるならば、
PythonなりPowershellなりへの移行も容易では？
速度が当社比10倍にはなると予想。

**名無しさん＠お腹いっぱい。** · 2020/02/04(火) 21:22:14.83

**名無しさん＠お腹いっぱい。** · 2020/02/04(火) 22:00:57.38

この辺？

https://qiita.com/rarara_x16/items/639ebc3069c4d5a4fb8a

**名無しさん＠お腹いっぱい。** · 2020/02/04(火) 22:06:17.89

https://github.com/thinkAmi-sandbox/google-api-python-client-sample/blob/master/README.md

**名無しさん＠お腹いっぱい。** · 2020/02/05(水) 11:23:36.13

>>199
とりあえず今回は、Google-Drive+UWSCでTEXT化を終えました。
次回があればCloud VisionAPIも検討します。
(何もインストールせずに使えるということで、とりあえずPowerShellで
「Hallo World!」を表示させてみた)

参考に教えて頂きたいのですが、>>197でGoogle Driveより精度が低かっ
たと書かれているCloud VisionAPIは DOCUMENT_TEXT_DETECTION か
TEXT_DETECTION のどちらでしょうか？

**名無しさん＠お腹いっぱい。** · 2020/02/06(木) 15:41:42.18

Foxit PDF は英語と日本語を混ぜてスキャンするとエラーになる？

**名無しさん＠お腹いっぱい。** · 2020/02/16(日) 22:18:12.73

>>189
ありがとうございます
1200dpiのスキャナー欲しくなりましたw

**名無しさん＠お腹いっぱい。** · 2020/02/29(土) 06:41:24.12

昭和４０年頃の手書き青焼きのコピー（Ａ４　２３行×１００Ｐ以上）をテキスト化したいんですが
そういう悪条件につよいソフトって家庭用で存在しますか。
ゴミ、旧漢字、略字・・・　「多」の上が「ヨ」だったり

◆JAVA/drQNg · 2020/02/29(土) 08:46:14.92

Adobe Acrobat はバージョンが上がるごとにOCR精度は向上しますか？

**名無しさん＠お腹いっぱい。** · 2020/03/04(水) 10:38:36.74

とりあえず「Capture2Text」使ってみたんだけど、まったく使えなかった…
これ常用してる人いる？

**名無しさん＠お腹いっぱい。** · 2020/03/10(火) 07:56:51.41

そんな使えないの誰もいないでしょ

**名無しさん＠お腹いっぱい。** · 2020/03/10(火) 09:51:38.16

使いこなせないアホなどいないと言いたいのか
使えないから常用者がいないと言いたいのか

**名無しさん＠お腹いっぱい。** · 2020/03/10(火) 18:32:34.56

Capture2Textはtesseract & Google翻訳のフロントエンドとしては有能だぞ
基本よその国のマンガやゲームのフキダシを母国語に翻訳しながら読む用途向けなので長文は苦手だが
tessdataをtessdata_fastと入れ替え jpn_vert.traineddataも足せばOCR精度は多少マシになる

あとググってたら Capture2TextみたいなのをGoogle OCR でやってるツールもあった
SSTRとかいうの
要GCPキーだがクソ速い

**名無しさん＠お腹いっぱい。** · 2020/04/16(木) 08:24:43.33

さっきPDF-XChange Editorの最新版(フリー)を入れたんだが、これめっちゃ機能多いな
無料版だから殆ど使えないけど、こんな機能豊富なアプリ見せられたら買いたくなってくるんだが、
実際はどうなんかな?
5000円ぐらい何だが、買う価値ある?
自炊愛好家にとっては画像圧縮とOCRの機能がどの程度なんかが超重要なんだが、有料版使ってる奴居たら意見聞きたい

**名無しさん＠お腹いっぱい。** · 2020/04/18(土) 09:56:41.39

あるある。絶対買うべし

**名無しさん＠お腹いっぱい。** · 2020/04/20(月) 18:31:31.52

小説テキストデータ化の最終工程で
>>77の通りやってるんだけど
スキャンした元画像の行間がいまいち狭くてやり辛い

スキャンしたテキスト画像の「行間だけ』を広げることのできるソフトはないもんだろうか
（当然用紙の横幅が広がるのは問題なし）
メチルでできるかと思って設定をいろいろいじくりまわしてるんだけどうまくできない

**名無しさん＠お腹いっぱい。** · 2020/04/25(土) 22:50:37.58

( ´･ω･) 民珍♪

**名無しさん＠お腹いっぱい。** · 2020/04/26(日) 15:34:50.65

>>206
昭和44年の手書き謄写版印刷物をスキャンして試してみました。
Googleドライブにアップロードして、Googleドキュメントにすると、認識率9割以上でした。

**名無しさん＠お腹いっぱい。** · 2020/05/06(水) 21:23:20.10

スキャン後のPDFファイルに透過ocrテキストを組み込むことや削除をすることはできますか？
スキャン代行600dpi+ocrをつけて依頼しようかと思っています。
透過ocrテキストが不満な場合、後日（～数年後等)に発売されるかもしれないocrソフトやgoogle等のocrでpdfファイルに
透過テキストを組み込みこんだり削除したいです。
やったことがなく、詳しい人いましたら教えてください。

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 20:49:34.26

自分用に作ってみました。
良かったらどうぞ。
https://eznavi.net/app/index2.php?pagetop=63&;only=one

**名無しさん＠お腹いっぱい。** · 2020/07/13(月) 21:18:26.68

質問です。
OCR化ソフト：読取革命
音声出力アプリ：EZ PDF reader
1ページのうち複数のパートに分かれたものをOCR化した順にスマホで音声読み上げしたいのですが、
読取革命側で順番を指定してOCR化しても、スマホアプリ側で音声出力の際に最初のパート以外の順番がバラバラになってしまいます。
おそらくアプリ側の問題なのでPDF読み上げの新しいアプリを探しているのですが中々見つからず、おすすめを教えてほしいです。
MOON proは音声出力時にエラーで強制終了でした。。

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 04:07:13.49

>>219
読取革命が読み取った結果をPDFに出力するのは何故？
Textファイルに出力したら？

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 19:02:18.52

>>220
テキストファイル出力での読み上げアプリも２つ試したのですが、
文字化けや改行の挿入、いったんアプリを閉じて再度開いた際に前回の再生位置から開始が出来ないなど、
文庫サイズのテキストを読む際での不都合が多かったです。
PDFアプリの方も現在使用しているez pdf reader以上に動作の安定したアプリが中々見つからず、
スレチで申し訳ないのですがスマホ端末での音声出力メインでOCR化されてる方がいれば、、と思い質問させて頂いた次第です。

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 10:23:16.57

>>221
Androidは、使用してないので分かりませんが
iPhoneならVoice Dream Readerがオススメです。個人的に。

**名無しさん＠お腹いっぱい。** · 2020/07/17(金) 10:09:33.44

>>222
試してみます。有難うございます。

**名無しさん＠お腹いっぱい。** · 2020/07/17(金) 19:57:43.35

>>223
Voice Dream Readerでテキスト読み上げさせるには、読取革命で生成されたままだと
文字化けすると思いますよ。
メモ帳で開いて文字コードをANSIからUTF-8に変更保存が必要です。
最近は使用してませんが以前自分も、読取革命でOCRしてましたので。

**名無しさん＠お腹いっぱい。** · 2020/07/18(土) 22:53:37.67

qiitaでOCRを検索したら、日本語に対応したオリジナルのOCRが公開されていた。

フリーの日本語OCR（と学習済みのモデル）を公開しています。
　ttps://qiita.com/tanreinama/items/e171449e66d5221afe7e

日本語OCRを作ったので解説してみる
　ttps://qiita.com/tanreinama/items/8fc1c8af6554654aae00

GitHub
　ttps://github.com/tanreinama/OCR_Japanease

すげい良さげなのでインストールしてみたのだが、GPUがないせいかどうなのか、
うちの環境ではPytorchとかCUDAのインストールがうまくいかなかった。

Linuxを使える誰か、試してみてはくれまいか。

**名無しさん＠お腹いっぱい。** · 2020/07/18(土) 22:59:29.26

GPUなしでも動かせるみたいだしWSL入れたらwin10でもいけんじゃね

**名無しさん＠お腹いっぱい。** · 2020/07/20(月) 11:49:35.26

tegakiとか簡単に開発できるらしいけどフリーだと無いよな

**名無しさん＠お腹いっぱい。** · 2020/07/20(月) 12:23:14.92

一太郎PADはどうなの？

**名無しさん＠お腹いっぱい。** · 2020/07/20(月) 17:58:40.44

>>212
plusだかなんだかつけて使ってます
大満足だけど、日本語ocrはクソ
手持ちの他のソフトを使うしかないです

**名無しさん＠お腹いっぱい。** · 2020/08/06(木) 08:43:22.36

個人向け日本語ocrはここ10年くらい進歩なし？

**名無しさん＠お腹いっぱい。** · 2020/08/06(木) 09:24:03.23

>>230
読取革命をつかってるけど、そろそろバージョンアップして欲しい

**名無しさん＠お腹いっぱい。** · 2020/08/06(木) 21:43:22.73

Shift-JISだけってのはキツいよな。

https://www.panasonic.com/jp/company/pstc/products/yomikaku.html

【大切なお知らせ】販売終了および今後の読取革命の販売について

2012年9月より販売を行ってまいりました、日本語・英語活字カラーOCRソフト「読取革命Ver.15」に関しまして、誠に勝手ながら2020年8月31日をもちまして、製品版・バージョンアップ版の販売および開発を終了させていただきます。また、2020年9月30日をもちまして、ライセンス版・ダウンロード版の販売も終了させていただきます。
長らくご愛顧いただき、誠にありがとうございました。

読取革命の開発および販売はソースネクスト株式会社へ移管し、2020年10月7日に新バージョンを発売いたします。

**名無しさん＠お腹いっぱい。** · 2020/08/07(金) 06:23:07.23

AIOCRが金出せば結構優秀になったしな

**名無しさん＠お腹いっぱい。** · 2020/09/26(土) 01:42:56.36

ラノベ自炊して文字認識で全ページテキスト化して有償の美少女声音声読み上げソフト使って
自作のAudibleみたいなのを作るって現実的か？
この方法ならラノベが読めない俺でもラノベの内容追える気がする
作業用BGMが欲しい

**名無しさん＠お腹いっぱい。** · 2020/09/26(土) 05:37:16.00

と或るラノベ７巻、文字認識したことあるが、
認識ミス取りきれてない気がするよ。
もう二度とやらん。めんどくさ過ぎる。
縦書きって誤認識高くね？気のせいか。
設定資料集やりたいのがあるんだけど、気力がわかない。。。

**名無しさん＠お腹いっぱい。** · 2020/09/26(土) 06:35:51.85

うーん　即レスで体験談ありがとう
ソフトとアプデ次第でどうにかなってほしいものだ

**名無しさん＠お腹いっぱい。** · 2020/09/26(土) 07:20:30.92

校正作業をどれだけ効率的にできるか、そのノウハウを持っているかどうかによる

**名無しさん＠お腹いっぱい。** · 2020/09/26(土) 13:24:06.12

自分で読み上げて音声入力してみたことがある

**名無しさん＠お腹いっぱい。** · 2020/09/26(土) 14:06:45.13

100%完璧にって言ったら泥沼だろうが、ある程度妥協できるなら問題ない
誤認識もパターン決まってるのも多いから、一括で置き換え出来るし
OCR前にChainLPとかで下準備するのも忘れずに。認識精度が全然変わるから
読み上げソフトも読み上げソフトで癖があるから、読み上げソフトでキチンと読めるように修正する必要もあるけどね（これも妥協次第だけど）

**名無しさん＠お腹いっぱい。** · 2020/09/26(土) 22:20:38.16

ブラザーの複合機でスキャンして付属のOCRで売上表を読み取ってるけど
数字だけなら99%読み取れてるよ。
表には合計値もあるんでExcelで合計計算して合計値が一致してれば全部読み取れてるってチェックができる。
合計値が合わないときはExcelの読み上げボタンで読み上げつつ紙の表に目を通してチェック。

ミスは大体ゴミを小数点として読み取ったり、
ゴミのせいで６が８になったり
かすれて８が６になったり
スペースが入って分割されたり。

スキャン前にゴミを除去するのが重要。
スキャン後は空白の固まりにマウスで矩形領域作ってタブを挿入した後で全ての空白を置換で除去。
これでほぼ正しくタブ区切りになるんでExcelにぺたっと貼り付け。

スキャンの設定は300dpiのグレー諧調で読み取ることが重要。
カラーで保存したい場合は画像用にカラーでスキャンしてOCR用にグレーでスキャンするとかしたらいいと思う。
カラーをうまく処理できるOCRソフトならカラーの方がいいと思うけど
レシートの赤いやつがあると読み取ってくれないレシーピってアプリもある。最近赤い奴に対応したっけな。

**名無しさん＠お腹いっぱい。** · 2020/09/26(土) 22:30:50.03

書き忘れ。
数字の表を読み取るときは英数で読み取るんで日本語はめちゃくちゃ。
日本語だと表を表として読み取ってくれないし、数字もまともに読み取れない。
英数でも表として読み取ってるわけじゃないけど、間に空白がたくさん入るからなんとなく表っぽくなってる。
OCRの作業はひと手間かかるけど、空白除去とかに慣れれば入力するよりかなり早い。

日本語の場合は読み上げさせつつミスがある部分だけ入力していけばいい。
直接変更するのは追いつかないだろうから別の行に書いておいてあとでくっつけるとか。

〇〇〇〇〇〇〇〇〇×〇〇〇〇〇〇〇〇××〇〇〇〇〇〇〇
　　　　　　　　　　　　　まる　　　　　　　　　　まるまる　　　　　　　　　　　←聞きながら入力

↓

〇〇〇〇〇〇〇〇〇まる〇〇〇〇〇〇〇〇まるまる〇〇〇〇〇〇〇　　　←あとで合成

マイクロソフトのINKとか言うソフトで蛍光色で色をつけられたりするから
ミスってるところに色を塗っておいて後で正しいのを入力するって方法もあるかも。

**名無しさん＠お腹いっぱい。** · 2020/10/07(水) 20:53:42.38

読取革命Ver.16が出た

**名無しさん＠お腹いっぱい。** · 2020/10/08(木) 00:38:44.34

英語認識に強くなる予定があるのとUIが変わってるらしい？
なんにせよルビ対応してくれないことには個人的な選択肢が増えない

**名無しさん＠お腹いっぱい。** · 2020/10/08(木) 21:58:57.57

e.Typist使ってるけど、ルビは無視する設定だわ

**名無しさん＠お腹いっぱい。** · 2020/10/13(火) 10:17:34.27

読取革命Ver.16

まだ縦書きの文字修正の時
横倒しになるのかな

**名無しさん＠お腹いっぱい。** · 2020/10/18(日) 02:15:16.51

読取革命 Ver16 新規機能ひとつもないな。
不具合も直ってなさそう。

**名無しさん＠お腹いっぱい。** · 2020/10/19(月) 00:44:45.61

どうせAcrobatのCleanscanしか使わないからいいや

**名無しさん＠お腹いっぱい。** · 2020/11/01(日) 15:10:52.46

- 電通による日本人民族浄化計画の手口 -
①日本人の精神を腐敗・堕落させ愚民化させろ
②日本人の女を集中的に狙い洗脳しろ
③ネトウヨ、ヘイトスピーチ、レイシスト等の言葉を浸透させ、同胞への批判を封じろ。
④韓国人識者に政治的意見を言わせ、御意見番化させろ
⑤「同性婚・LGBTを全面肯定しない者は差別主義者だ！」という雰囲気を作れ。
⑥海外セレブやハーフモデルをもてはやし、「日本人は劣等人種だ！」と植えつけろ。
⑦「未だにガラケーの奴は笑い者」という雰囲気を作れ。
⑧「LINEに入らない奴は仲間外れ」という雰囲気を作れ。
⑨「日本人の男VS日本人の女」の対立を煽り、分断しろ
⑩日本人同士で恋愛・結婚させない、子供を生ませないよう誘導しろ
⑪日本同士で結婚していたら離婚させる方向に仕向けろ。
⑫女が活躍するドラマばかり作れ。男は無能な役、笑われ役にしろ。
⑬イケメンブームを定着化させ、「男は外見が全てだ！」と洗脳しろ。
- ソース -
電通グループ会長成田豊は朝鮮半島生まれ
http://ja.wikipedia.org/wiki/%E6%88%90%E7%94%B0%E8%B1%8A

**名無しさん＠お腹いっぱい。** · 2020/11/03(火) 09:13:18.83

Win95のときからつかってるけど
ocrソフトなんてなんの進化もしてない

**名無しさん＠お腹いっぱい。** · 2020/11/04(水) 08:06:13.96

進化の余地はありそうなんだけどね。
個人用途では需要がないか。

そこそこ有名なフリーソフトレベルの操作性や、設定の自由度ぐらいは欲しい。

**名無しさん＠お腹いっぱい。** · 2020/11/04(水) 11:19:49.67

Eightとかその他の名刺認識アプリ
グーグルドキュメントで画像を読み込んだときの自動OCR
これらのほうが段違いに認識がスムーズ

奴らはデータを吸い上げようという魂胆なんだろうが
認識が本業の有料ソフトが副業の奴らに負けてどうする
20年以上検索認識エンジン大きな変化なしとか腐っとるな

**名無しさん＠お腹いっぱい。** · 2020/11/29(日) 14:23:46.17

読取革命Ver.16の英語OCR機能が10月下旬から11月下旬に延期になっていたけど、
もう11月も終わるぞ…

こりゃ再延期かな？

**名無しさん＠お腹いっぱい。** · 2020/12/04(金) 10:04:50.76

さほど高くないソフトで、手書きの数字(文字は読まなくてOK)をOCRで文字起こししたいです。
何かオススメのソフトはございませんでしょうか。

**名無しさん＠お腹いっぱい。** · 2020/12/04(金) 16:08:37.31

>>253
スマホアプリに手書き認識する奴がある。
ニューラルネットワークが必要だからスマホか M1 MAC 必須。

手入力したあとExcelに読み上げさせつつチェックしたら？

**名無しさん＠お腹いっぱい。** · 2020/12/04(金) 19:35:55.67

googleドライブでいけるよ PCからでも使えるし
ググれはしたばGASで自動化する方法も出てくる

**名無しさん＠お腹いっぱい。** · 2020/12/04(金) 19:37:11.18

×ググれはしたば
○ググれば

**名無しさん＠お腹いっぱい。** · 2020/12/04(金) 21:25:36.24

Googleドキュメントに声で入力したことはある

**253** · 2020/12/12(土) 10:52:24.87

Googleドライブ、なかなか良かったです。
アドバイスくださった皆様、ありがとうございました。

**名無しさん＠お腹いっぱい。** · 2020/12/17(木) 15:01:46.09

google driveいいんだけど､手間が面倒くさすぎる｡
googleエンジンを使ってるパパッとOCRを使ってる人いますか?

**名無しさん＠お腹いっぱい。** · 2020/12/17(木) 15:03:44.41

googeは2段組だと左の段と右の段が入り組んでしまうのが困りものだよなあ｡

**名無しさん＠お腹いっぱい。** · 2020/12/18(金) 14:30:16.91

>>260
OCRHelper使えば、比較的楽。

**名無しさん＠お腹いっぱい。** · 2020/12/28(月) 21:00:44.55

>>153
今ちょうどこれになって検索しまくってる
頻繁に翻訳してるとグーグル側にはじかれるのかな
グーグル翻訳系は駄目だな

**名無しさん＠お腹いっぱい。** · 2021/01/11(月) 19:08:54.94

校正に一番必要なのはデカイモニター
一行をはみ出さずに表示して
間聞開闇ここらが一目で見分けられるやつ

**名無しさん＠お腹いっぱい。** · 2021/01/17(日) 19:34:10.00

>>59
質問すみません
(--nodraw)のコマンドは、どう使えばいいんですか？

**名無しさん＠お腹いっぱい。** · 2021/01/17(日) 20:29:10.19

>>264
そのオプションはフォークされた改造版で追加されてたんだが
本家のプルリクに上がることもなくフォーク先も今は見えなくなってる
（おそらくフォーク主がプライベートリポジトリに変更したんだと思う
MS買収で無料で非公開にできるようになったから）
フォーク版は他にも画像ソースにjpg以外の形式も指定できるようになってたりと
色々便利そうだったんだけどね、残念

**名無しさん＠お腹いっぱい。** · 2021/01/18(月) 16:07:24.44

>>265
同じものかわからないけどこっちで開発続いてそう
https://github.com/ImageProcessing-ElectronicPublications/hocr-tools

**名無しさん＠お腹いっぱい。** · 2021/01/18(月) 18:23:18.22

>>266
それだわ！
気がついたらリンク切れててそっから先追えなくなってたんだ
ありがとう！

**名無しさん＠お腹いっぱい。** · 2021/01/19(火) 16:59:59.15

>>265
>>266
できました
めっちゃくちゃ感謝です

**名無しさん＠お腹いっぱい。** · 2021/01/29(金) 07:49:55.72

今Acrobat 9 std使ってるけど、
読取革命とかの方が認識率高いとかありますか？
あとマルチスレッド対応でしょうか
Acrobat9はシングルスレッドみたいで、
PCが8コア16スレッドなのに1スレッドしか働いてません

**名無しさん＠お腹いっぱい。** · 2021/01/29(金) 08:24:46.05

読取革命を使うのは認識率の高さではなく
校正のしやすさが目的かな

マルチスレッドはわかんね

**名無しさん＠お腹いっぱい。** · 2021/02/11(木) 18:21:51.86

突然失礼します。
現在仕事の関係で大量の画像から主要文章を抜き出し、まとめている作業をしているのですが画像がまとめてあるファイルから一括で読みとってくれるOCRソフトは何かないでしょうか？

**名無しさん＠お腹いっぱい。** · 2021/02/11(木) 19:00:46.81

>>271
若干知識が必要だけどGoogleアカウント作れば無料
GDriveのフォルダにほうりこんだファイル全部処理してくれる

【GAS】OCRを使ってスキャンしたい画像の文字取得を自動化する
http://www.initialsite.com/w01/14488

**名無しさん＠お腹いっぱい。** · 2021/02/11(木) 20:17:36.01

分かりました！やってみます！！

**名無しさん＠お腹いっぱい。** · 2021/02/11(木) 21:36:37.94

どうにかコピペしたコマンドを実行しるところまでこぎつけましたが、いまいち使い方が分かりません（泣）
勉強してできるようにしたいと思います。

**名無しさん＠お腹いっぱい。** · 2021/02/13(土) 16:42:15.51

医学者を大量にOCRかけたいのですがオススメのOCRソフトはどれになりますでしょうか？

**名無しさん＠お腹いっぱい。** · 2021/02/13(土) 17:58:27.11

OCR で遺伝子は認識しないだろ（ゲノムスキャン？）

**名無しさん＠お腹いっぱい。** · 2021/02/13(土) 18:38:25.90

医学書です

**名無しさん＠お腹いっぱい。** · 2021/02/14(日) 04:32:22.06

>>275、>>277
スキャンが済んでないのならスキャンと同時にOCRしてしまうのが楽。
スキャンが済んでいるのなら読取革命かAcrobatかGoogle。専門用語辞書が充実していそうなのはGoogleだけど全てGoogle任せになってしまうのがストレスフル

**名無しさん＠お腹いっぱい。** · 2021/02/14(日) 06:39:37.00

ありがとうございます

**名無しさん＠お腹いっぱい。** · 2021/02/18(木) 14:26:16.02

度々失礼します。
以前教えていただいたGoogleDrive方式を試してみたところ、どうにかファイル内の画像を読み込んでテキストに出力するところまでこぎつけました。

ただ、設定が悪いせいか、せいぜい2 枚を読み込んだところで変換が終了してしまいます。

手っ取り早くソフト購入を考えていますが、そこそこの精度で大量読み込みをしてくれる物を御存知の方がいればぜひ教えてください。
よろしくお願いします。

**名無しさん＠お腹いっぱい。** · 2021/02/18(木) 18:53:15.29

ScanSnap買うのが吉かも

**名無しさん＠お腹いっぱい。** · 2021/02/18(木) 19:26:00.10

Kofax Power PDF Standard
https://www.kofax.jp/Products/power-pdf

**名無しさん＠お腹いっぱい。** · 2021/02/18(木) 19:39:21.13

お金出せるなら ABBYY FineReader あたりがいいんじゃないバッチ処理もあるし
CZERのOCRエンジンがABBYYなんだが認識精度は悪くないよ
デフォルト設定でPDFにすると画像めっちゃ汚くなるけどテキストで抽出するなら関係ないだろうし

**名無しさん＠お腹いっぱい。** · 2021/02/18(木) 21:18:15.99

テキスト抽出じゃなくて検索可能なPDFを作りたい場合のおすすめは？

**名無しさん＠お腹いっぱい。** · 2021/02/18(木) 22:04:26.68

画像ファイルから検索可能なPDFに変換するソフトは、いきなりPDFとかJUSTPDFとかあるな、体験版あるかな

**名無しさん＠お腹いっぱい。** · 2021/02/18(木) 22:14:42.16

>>284
OCR機能のついたドキュメントスキャナーでスキャン

**名無しさん＠お腹いっぱい。** · 2021/02/18(木) 23:34:26.27

>>284
横書き文書オンリーで仕上がりの良さ最優先なら>189
フリーのツールなんで設定の難しさやUIの面倒さはある
googleにお布施も必要

簡単さで選ぶなら市販のOCRだろうけど詳しくないので分からん
とりあえずwindowsサンドボックスでABBYY試してみたが
MRC圧縮をオフにすれば画質は保たれるぽい

**名無しさん＠お腹いっぱい。** · 2021/02/19(金) 14:18:04.61

e.Typist使ってるよ
検索可能PDFにするときのMRC圧縮はPCで見ると汚いのに、タブレットで見ると良く見えるから不思議
PCの画面を範囲指定してOCR出来る機能はふとしたときに便利
画像読み込みが500枚までしか対応しないのはクソ

**名無しさん＠お腹いっぱい。** · 2021/02/19(金) 14:51:13.32

e.typistか読取革命で迷う

**名無しさん＠お腹いっぱい。** · 2021/02/19(金) 17:56:41.05

洋書死ぬほどつらい
pdf→ocr→誤字とか改行チェック→自動翻訳→翻訳チェック

**名無しさん＠お腹いっぱい。** · 2021/02/19(金) 18:34:37.99

>>288の方へ
前から気になっていたのですが、500枚の読み込みというのは一度にですか？それとも上弦ですか？

**名無しさん＠お腹いっぱい。** · 2021/02/20(土) 13:37:22.40

>>288
タブレットのアプリに画像補正機能があるのでは？

**名無しさん＠お腹いっぱい。** · 2021/02/20(土) 22:00:35.33

>>291
例えば520枚のフォルダ読み込ませても、500枚までしか画像リストに登録されない。もちろん追加しようとしても出来ない。
分割して認識させて、後からPDFを結合させれば良いだけではあるけど

>>292
PCと違って画面が小さいから文字の輪郭のがたつきが気にならなくなる、一方で、白黒がハッキリするから綺麗に見えるんでないかなと思ってる
普通のPDFビューアアプリだし

**名無しさん＠お腹いっぱい。** · 2021/02/20(土) 22:44:13.29

>>293
え、単純にppiの差だったら不思議でも何でもないじゃん

**名無しさん＠お腹いっぱい。** · 2021/02/24(水) 14:51:12.19

TESSERACT-ocrで　紙読ませたら
「シャンプードレッサー」　が　「にャンプードジったー」　になった

**名無しさん＠お腹いっぱい。** · 2021/02/25(木) 22:13:45.52

OCR精度が高くて動作が高速なソフトは？

**名無しさん＠お腹いっぱい。** · 2021/02/25(木) 22:25:33.45

adobe acrobat

**名無しさん＠お腹いっぱい。** · 2021/02/25(木) 22:32:06.79

サブスク以外で頼みます

**名無しさん＠お腹いっぱい。** · 2021/02/25(木) 23:16:42.87

ワープロ打ちした会議資料など、状態が良い原稿からの日本語の横書きと縦書き文章のOCR化を考えているならe.Typist
文章認識の性能は、読取革命と較べた場合、僅かな差ですがこちらの認識性能が上

雑誌や本などレイアウトが複雑なものや、新聞や古い原稿など状態が良くない日本語文章の他、英語文字が入る場合や、小説や雑誌などの2段組の文章などは読取革命が上

**名無しさん＠お腹いっぱい。** · 2021/02/26(金) 10:13:46.63

300

**名無しさん＠お腹いっぱい。** · 2021/05/01(土) 12:22:34.25

tesseract OCRチャレンジ中。プログラミングの技術書PDFを何とか透明PDF付きにしたいという欲求。
飾り文字とか目次とかが壮大にこける。下のような・・・を無視したいんだけど何かうまい方法ないでしょうか。
02 はじめに・・・・・・・2

**名無しさん＠お腹いっぱい。** · 2021/05/01(土) 17:39:13.89

>>301
トランプのマーク4種を認識させるときにその文字に限定させることでうまく認識したことがあった。

**名無しさん＠お腹いっぱい。** · 2021/05/01(土) 21:39:33.27

>>302
ありがとうございます。300ページオーバーを一気にやるのは駄目ですね。
whitelist使う感じでしょうか。

**名無しさん＠お腹いっぱい。** · 2021/05/02(日) 17:57:02.87

50冊くらいの教科書、手技書等を裁断して、職場の複合機で、スキャンしてPDF化予定です。
検索可能PDFにしたいと考えています。認識率はそこまで厳密に高くなくても、キーワードで該当箇所が分かれば便利かなぁという程度です。テキストで出力などは予定していません。
分厚い表紙などは別でスキャンして中身のPDFと統合できると良いと思っています。
読取革命を第一候補に考えています。いきなりPDFスタンダードというのはOCR絡みのエンジンがパナソニックと書かれていますが、これは読取革命のものとは違うものでしょうか？ほとんど一緒というレベルならいきなりPDFの方が随分安いので良いなぁという感じなのですが、誰かわかりますか？

**名無しさん＠お腹いっぱい。** · 2021/05/02(日) 18:48:29.25

読取革命は読取結果を修正できる
いきなりPDFスタンダードはたぶん修正できない

**名無しさん＠お腹いっぱい。** · 2021/05/02(日) 20:26:16.72

>>305
ありがとうございます。修正するつもりがなければいきなりPDFで良さそうですね。

**名無しさん＠お腹いっぱい。** · 2021/05/02(日) 20:55:33.98

職場に複合機あるなら機械単体でサーチャブルPDF作れるんじゃない？
画質は高圧縮でだいたい酷いことになるっぽいが

**名無しさん＠お腹いっぱい。** · 2021/05/03(月) 17:07:18.50

>>307
職場の複合機見たけども、OCRっぽい設定がなかったんですよね。
調べてみると拡張モジュールなるものがあれば良いようなのですが。連休明けにまた調べてみます。ありがとうございます。

**名無しさん＠お腹いっぱい。** · 2021/05/03(月) 18:31:46.14

読取革命などのOCRソフトは、画像を読み込み、文字認識、修正、PDFや、ワードなどに出力する。
PDFも読み込めるが、新たにPDFとして出力される。

いきなりPDF COMPLETEなどの最上位板のPDFソフトは、PDFの透明テキストを修正できる。
画像の上に、文字色が透明のテキストが貼り付けられてる。
文字を赤に変えてチェックするけど面倒くさい。
もっといい方法があるかも知れない。

**名無しさん＠お腹いっぱい。** · 2021/05/09(日) 01:03:19.05

いきなりPDFを購入したものの、肝心のスキャンしたPDF→透明テキスト付きPDFの作業でソフトが強制終了してしまいます。問題なくファイル変換できるものと出来ないものがあるみたいです。
Q&Aにはフォントを追加しているとエラー出るかもとか書いてありますが、そもそもフォントを追加なんかした事ないし、どれを消せばいいのかも分からない。というかこれが原因なのかすら分からない。

サポートに問い合わせてみていますが、返事があるのかすら怪しい。。。やはり大人しくAdobeのサブスクリプションにしておくべきだったのか。

愚痴でした。

**名無しさん＠お腹いっぱい。** · 2021/05/09(日) 12:44:48.40

スキャナの設定で、ocrをしてるとかあるのではないかな

**名無しさん＠お腹いっぱい。** · 2021/05/10(月) 22:12:57.20

>>310
ストレージの空き容量を確認してみて。こういったアプリは作業ファイルを多量に作るので...

**名無しさん＠お腹いっぱい。** · 2021/05/10(月) 22:38:16.43

jpgでスキャンするか、jpgに変換して、jpgを読み込めば大丈夫だろう

**名無しさん＠お腹いっぱい。** · 2021/05/12(水) 21:30:34.59

まあ、10ページでエラーが出るのか、100ページでエラーが出るのか、1000ページでエラーが出るのかの場合分けだな

**名無しさん＠お腹いっぱい。** · 2021/05/13(木) 16:38:29.73

色々とありがとうございます。
スキャナにはOCRの機能はありませんでした。ストレージにもかなり余裕がありそうですが、ものによるのでしょうか。
何度やってもダメなPDFは4ページ、3/4の表示のところで文字認識中というところで落ちてしまいます。同じ日にスキャンしたPDF（2-6ページ程度のもの複数）はOCR化出来ました。
150ページくらいの200MB程度のものは2個/21個は変換できましたが他はダメでした。JPG経由はまだ試してませんのでやってみたいと思います。
サポセンから連絡があり、調べてみます的なお返事でした。

**名無しさん＠お腹いっぱい。** · 2021/05/18(火) 18:05:36.41

ワクチン接種記録システムの利用者番号読取がOCRで、読取間違いが発生するそうだ

**名無しさん＠お腹いっぱい。** · 2021/05/19(水) 02:26:34.81

フォントはOCRBで共通でタブレットも同一機種を配布らしいけど撮影環境がマチマチで人によって得られる画像が異なってくるのでそう言う結果になるのは仕方がない。
手振れや角度とかの癖でどういう間違いが出易いとかはあると思う。手振れは持ち方でも変わってくる。
タブレットが大きいから影が映りこむけど、照明が適切か分からない。
ライトは使ってないようだったが、ライトをつけた方が認識しやすい。反射する場合はライト無しにする必要がある。
ピント合わせが出来ない場合が多すぎる。マジ糞。ピント合わせに時間かかる。
カメラが複数ついてる奴はピント合わせ速そうだけど、安いのはカメラ1個だから遅い。

撮影台に乗せて使う場合はピント合わせを固定に出来た方が故障しないし撮影一瞬で出来るしいいことづくめのはず。

セルフレジでも読み取りできないことがよくあるけど、一旦しっかり外して再びしっかり読ませれば一秒で読み取ってくれる。

**名無しさん＠お腹いっぱい。** · 2021/05/19(水) 10:32:09.32

フォント共通で数字のみでも読み取り間違い出るなら、100%認識のOCRなんて夢のまた夢だな

**名無しさん＠お腹いっぱい。** · 2021/05/20(木) 04:54:15.76

最近利用しているガソリンスタンドの料金機(セルフの店なんで)が
QRコードで割引とかあって、
まぁ、レシート出すとその季節の割引券が付くんだけど
それの読み込みが遅くてイライラするのよ

QRコードなのにクイックじゃ無い
結局読み取りのところにレシートを押しつけて、
少しずつ遠ざけていくとまぁまぁ(2回目ぐらいで)読み取るぐらいに安定したわ
レシートだから裏が透けたり、角度が付いていたりピントが合わなかったり
そう言うのに強いのがQRコードじゃないんかね？

**名無しさん＠お腹いっぱい。** · 2021/05/20(木) 08:30:39.20

OCRとQRは別物だし完全にスレ違いなんだが

あえてツッコむとそれカメラがタコなだけだからスマホ変えたほうがいいよ
QRの規格に文句言うのは筋違い

**名無しさん＠お腹いっぱい。** · 2021/05/26(水) 00:13:19.62

ガソリンスタンドのセルフ給油機を客が交換するってのはどういう発送なんだろうか？

**名無しさん＠お腹いっぱい。** · 2021/05/28(金) 12:05:47.29

2000冊分くらいのpdfファイルがあり OCR済みのものとしていないものが混ざっています。これをまとめてOCRしたいのですが安くあげるにはどうしたらいいですか。
バンドル版のacrobatXはこういう目的に使えますか。
https://m.qoo10.jp/item/%E3%82%A2%E3%82%AF%E3%83%AD%E3%83%90%E3%83%83%E3%83%88-ADOBE-ACROBAT-X-10-STANDARD-%E3%83%90%E3%83%B3%E3%83%89%E3%83%AB%E7%89%88/601688005

**名無しさん＠お腹いっぱい。** · 2021/06/18(金) 13:05:44.71

官報を機械可読で公開してくれ

**名無しさん＠お腹いっぱい。** · 2021/07/10(土) 11:32:58.13

Abbyy FineReader15 が7,980円
今日が最終日だよ～♪

https://www.sourcenext.com/cp/s/2107/c_0000055494/?i=ecgt

**名無しさん＠お腹いっぱい。** · 2021/07/17(土) 20:46:01.69

Windows 10上で無料利用できるAI-OCR 認識精度は95％認識枚数は制限なし
https://ledge.ai/seagp-ai-jimy-ocr/

**名無しさん＠お腹いっぱい。** · 2021/07/18(日) 02:32:22.76

>>325
認識率95%ってそんなに凄いの。今使ってるの Acrobat の OCR で困ったことないんだけど、それよりもすごいのかな。

**名無しさん＠お腹いっぱい。** · 2021/07/18(日) 09:04:36.93

＞ ※ 認識精度は数字に関するもので、条件で左右されます。
数字だけに限定してさえ100文字中5文字は間違うってことでしょ
手書き認識も含むから活字だけならもっと認識率上がるのかも知らんけど

**名無しさん＠お腹いっぱい。** · 2021/07/18(日) 09:15:41.36

>>326
まじ？
どういう条件で読んでんの？

**名無しさん＠お腹いっぱい。** · 2021/07/18(日) 16:32:03.31

無償OCRか。この企業、どうやってマネタイズするんだろ
情報抜いて横流しするのかな

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 01:07:30.29

>>325
試してみた。インストールにすごく時間かかった。
説明がなくて使いにくい。
認識実行すると文字化けの出力結果。
これは暇な人が色々試して遊ぶソフトと思った。
即、アンインストールした。

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 05:34:45.46

AIって自主学習して精度上がる問じゃないのん？

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 07:58:50.76

全ての文字が文字化けだから。コードを選ばなきゃいけないのかね。
自己学習をしなくてもある程度の精度が出なきゃ学習のための動力が大変だよ。

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 08:28:19.56

全てとなるともう根本的に対応してないのか…？

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 10:34:39.69

インストールして試してください。約1 GB のアプリです。もしかしたら私の使い方が根本的に間違ってるのかもしれない。

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 16:42:09.54

アクセス集中で大変だったりして

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 21:27:30.10

アカウント作れがうざすぎ

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 23:38:16.48

やっぱり情報抜く系みたいだな
やめとき

**名無しさん＠お腹いっぱい。** · 2021/07/20(火) 01:05:44.37

きっと背後に中国がいるぞ

**名無しさん＠お腹いっぱい。** · 2021/07/21(水) 01:43:25.56

本を見開きでスキャンしたらできる本の周りの影と真ん中の影を消すソフトないでしょうか？どちらか一つでもいいです。

**名無しさん＠お腹いっぱい。** · 2021/07/21(水) 09:17:53.10

マルチ乙

**名無しさん＠お腹いっぱい。** · 2021/07/21(水) 09:18:19.15

さらに歪曲まで修正するのがあったような

**名無しさん＠お腹いっぱい。** · 2021/07/21(水) 13:02:55.40

>>341
是非教えてください

**名無しさん＠お腹いっぱい。** · 2021/07/21(水) 13:04:34.65

自分で調べたけど発見できませんでした。
念のためですがスキャン自体は Acrobat のスキャン機能を使ってます。スキャン後の PDF の影を取るソフトです。

**名無しさん＠お腹いっぱい。** · 2021/07/21(水) 13:07:50.05

OCR機能は無い

**名無しさん＠お腹いっぱい。** · 2021/07/21(水) 13:12:00.06

マルチ乙

**名無しさん＠お腹いっぱい。** · 2021/07/22(木) 16:50:26.47

スマホのOCR、ピントが固定になるようにして使ってるけど
たまに下敷きの量が変わって距離がわずか数ミリずれるだけで認識精度50%とかになる。
レシートがしっかり幅いっぱいになるようにして撮影しなおすと95%くらい認識する。
影ができると精度かなり落ちるから今はスマホのライトOnで撮影している。

**名無しさん＠お腹いっぱい。** · 2021/07/23(金) 11:27:10.26

読取革命DL版セールしてんね　

**名無しさん＠お腹いっぱい。** · 2021/07/23(金) 14:20:26.16

まま？

**名無しさん＠お腹いっぱい。** · 2021/07/23(金) 14:33:46.10

まままーままーまま

**名無しさん＠お腹いっぱい。** · 2021/07/23(金) 18:30:19.88

読取革命で認識させると文字が少し小さくなるのは何でかな

**名無しさん＠お腹いっぱい。** · 2021/07/29(木) 10:14:59.19

Capture2Text使っていて、>>158 と同じ症状。
どなたか、詳しい人はいませんか？
GUIだと認識できる日本語が、CLIだと化けて出力される。
英語や数字の認識には差異は無さそう。

**名無しさん＠お腹いっぱい。** · 2021/07/31(土) 21:04:10.52

https://qiita.com/user0/items/a9116acc7bd7b70ecfb0

PowerShell で CMD と入力してコマンド実行してもいいかも。

**351** · 2021/08/01(日) 12:17:19.04

>>352
ありがとうございます！　お陰様で、解決できました。

コマンドプロンプトからの動作は chcp 65001 で改善したのですが、
実は、UWSCのDOSCMD関数から叩きたくて、これは、何をやっても解決しませんでした。
（レジストリでAutoRun弄ってもダメ）

UWSCにはPOWERSHELL関数もあって、そちらからは文字化けせずに取得することができました。

**名無しさん＠お腹いっぱい。** · 2021/08/03(火) 18:25:28.98

スキャンで作成したPDFをOCRで文字認識させました。
表示されている文字で検索してもヒットしませんでした。
当該文字をコピーしてテキストファイルに貼り付けると別の文字になっていました。

OCRに詳しくないので教えてほしいのですが
１、認識後の文字はもとの文字の上に透明のフォントで重ねているのでしょうか？
２．今は、グラフの線が白黒だと判別できないのグレースケールで600DPIでスキャンしています
（300DPIだと文字の周りがにじむので）。認識率を向上させるために注意する設定項目があれば教えて下さい。

**名無しさん＠お腹いっぱい。** · 2021/08/07(土) 08:52:19.64

>>354
僕はプリンタ付属のOCRでスキャンしてますが、600dpiより300dpiのグレーが認識率高いです。
文字がにじんだ方が線が分離しなくなるので機械には読み取りやすくなるようです。
僕は数字の表だけ読み取れればいいんで英数で読み取って数字以外は捨ててます。
矩形でタブを入れ、空白を置換で削除することでExcelでも表として認識できます。

昨日は1ページスキャンして1文字だけ認識してませんでした。
もしかすると、矩形の空白を削除するときにその数字だけはみ出していて削除してしまったのかもしれません。
元が英数ならいいんですが、日本語の文字化けでずれが大きくなるので。

ブラザーの複合機ですが、新しいアプリより ControlCenter4 のOCRの方が使いやすかったです。

PDFの方は詳しくありませんが、PDFにはレイヤ機能があって重ね合わせが出来ます。
WORDでもハガキのイメージに合わせて郵便番号や宛先など配置できますよね。
文字が正しく読み取れなかったとしても、その化けた文字が配置されるので検索では本来の文字は出てこないでしょうね。

**名無しさん＠お腹いっぱい。** · 2021/08/07(土) 12:24:46.27

>>355
コメントありがとうございます。
私もブラザーのプリンターを使ってます。ブラザーの OCR ソフトは使い方がよくわからなかったので日本語の縦書きの認識もそこそこ良かったAcrobat の OCR を使うようになりました。

300 DPI の方が認識率が高いというのは新発見です。

**名無しさん＠お腹いっぱい。** · 2021/08/08(日) 10:01:09.25

スキャンした画像をChainLPなどの画像処理ソフトで下処理してからOCRに掛ける

**名無しさん＠お腹いっぱい。** · 2021/08/08(日) 13:44:29.33

>>357
汚れてもないしトリミングの必要もない場合でも CHAIN LP で何かをすれば認識率は上がりますか？
上がる場合はchainLP のどの項目を使えば良いか教えていただけますか

**名無しさん＠お腹いっぱい。** · 2021/08/08(日) 19:14:09.75

自分で仕組、理屈を考えてみろよ

**名無しさん＠お腹いっぱい。** · 2021/08/08(日) 20:38:22.55

OCR前にソフト側で2値画像に変換されてしまうし
事前補正はあんまり意味ないよ
画像をどうこうするよりOCRソフトのユーザー辞書学習カスタマイズして
パターン登録するほうが効果は高い

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 01:03:41.06

>>360
なるほど、そうなんですね。

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 09:41:20.64

chainLPで検索したら漫画は16階調が一般的で一括変換出来るツールだと出て来た。
僕が16階調に加工するとき、画像の濃さを細かく調整しないとあちこち消えてなくなる現象があった。
少なくとも256階調はないとOCRには向かない。

256階調のままで600dpiを300dpiにしてくれるなら認識率が上がるかもしれない。
・・・そう言うツールではないようですね。

> V0.37-3
> ChainLPでは、画像を1ピクセルあたり1ポイントとしてPDFに配置します。つまり72dpiです。
> よって、出力サイズとして600×800ピクセルを設定した場合は、PDFのページサイズは約8.3×11.1インチとなります。
> これは、ほぼA4サイズに近い大きさです。

> ChainLP v0.38-2
> ・元画像の解像度(dpi)を引き継ぐようにしました。しかし、あまり意味はないと思います。

https://lifehack-lab.com/chainlp_set1/
> Kindle PaperWhiteで自炊本を読む場合、PDFそのままでは非常に読みにくいです。
> mobiというファイル形式に変換してあげるととても読みやすくなります。
> そこで登場するのが、「ChainLP」というソフトです。
> 各種ファイルに変換できるのですが、画像の補正、トリミングが同時にできるので、Kindle用のmobiファイルをつくるのには重宝します。

> どうやってもきれいにならない場合は、別のツールを試してみましょう。
> ＞こちらのページを参考に（Xnconvertというソフトです）
> Xnconvertできれいにしてから、ChainLPに再挑戦してください。

> XnConvert. 画像のリサイズやフォーマット変換からフィルタ加工まで一括処理

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 10:23:52.59

色々勘違いしてそうだけどChainLPでも256階調出力は可能
つってもそれだけのためにChainLP使うよりRalphaとかの方が楽だけど

あともし漫画をOCRしようとしてるなら諦めたほうがいい
capture2textみたいにフキダシ抽出の機能のあるアプリか
GCV系のAI型じゃないとほぼほぼ無理

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 19:56:02.71

>>360
実際やってみたの？
俺は効果ありまくったから毎回下処理してるよ

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 20:52:04.70

ドキュメントスキャナの類だとある程度スキャナドライバ側で補正かけられてるから
いうほど効果ない場合もある
機種や設定次第

ノイズの多いスキャン画像なら補正も有効だけど
設定のわかりにくいCainLPより一括処理できる画像ソフトのほうが
シンプルに分かりやすいんではないかとは思う

**名無しさん＠お腹いっぱい。** · 2021/08/10(火) 00:19:46.38

>>364
具体的にどんな元原稿に対してどんな効果があったか言ってくれないと効果ありありと言われてもね。

**名無しさん＠お腹いっぱい。** · 2021/08/12(木) 19:07:27.37

フリーで優れたocrソフトってありますか？
用途は、アマゾンキンドルで実用書読んでるんですけど、
参考になった部分をスクショで撮ってそれをocrで文字起こし、メモ帳にまとめる
ってことがしたいです

**名無しさん＠お腹いっぱい。** · 2021/08/12(木) 19:17:55.60

>>367
>211
https://twitter.com/shira_t22/status/1348264731610529794?s=19
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2021/08/12(木) 19:23:21.80

ああごめん翻訳いらなくてスクショ起こしだけならCopyfishでいいんじゃない？
ブラウザ拡張だけどデスクトップのキャプチャもできたはず

**名無しさん＠お腹いっぱい。** · 2021/08/22(日) 12:15:30.21

衝撃…世界が馬鹿にした日本のFAX､実は米国でもコロナ報告で普通に使っていた
https://president.jp/articles/-/37491?page=3
> 北見工業大学教授で公衆衛生分野の情報化に詳しい奥村貴史氏が同サイトに寄稿にした記事によると、

> 同氏からの改善につながる提言に、「OCR（光学文字認識、活字を文字コードに変換するソフト）処理を前提としたフォーマットをFAXで扱う」というものがあります。
> これなら、FAXによる一元的管理機能を担保しつつ、
> アナログでデータを受信しても、
> OCRスキャンすれば直ちにデジタル化できますから、
> 入力する現場の手間を減らすことができます。

OCRでレシートや売上表読み取りしてる身からすると、
数字ですら完全には読み取れないのに
どうしてFAXなんかで送った人名を読み取れるんだと。
せめてQRコード化して送れよと。

工業大学の教授ですらこの程度の事が分からないんだな。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 11:49:45.91

いまだにFAXを使うしかない事情として
＞医療機関、自治体、保健所など複数の関係者で共通のシステムを整える必要があり、そのためには膨大なコストと時間がかかる
つってるのにQRコード化して送れとか無理でしょ

＞数字ですら完全には読み取れないのに
＞どうしてFAXなんかで送った人名を読み取れるんだと。
そこはフォントの種類とサイズ次第じゃない？

FAX機が吐き出した紙をスキャンしてOCRかけるイメージなのかも知らんけど
FAX受信した複合機でそのままFax TIFFとして保存すれば
FAX形式データってほぼ G3 FAX(200x200dpi)だから200dpiの白黒データとして確保できる
200dpiあればOCR性能は充分という説もあるし
（それだけあれば完璧にOCRできるということではなく、
それ以上にしてもOCR精度の向上は望めないという意味）

カラーやグレスケでスキャンしてもOCR時は内部的に2値に変換してから処理することになるので
スキャン時に白黒（2値）を選ぶのはコスト減らすためにはあり
保存フォーマットは大体勝手にFax TIFFになるので
＞「OCR（光学文字認識、活字を文字コードに変換するソフト）処理を前提としたフォーマットをFAXで扱う」
というのも正しい

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 15:49:32.12

>>371
そんな反論は予想通り。

OCRできるんなら送る側が自分でOCRしてQRコードを追加で印字すればいいだろ。

パソコンから直接FAXと電話回線に繋げて送るんなら精度は高いかもしれんが、
一回印刷してからFAXに入れるんなら、読み取るときに字がくずれるしゴミも読み取ってしまう。

仮に直接FAXと電話回線に繋げてたとしても、送信に成功したかどうかってすぐわかるの？
送ったかどうかって履歴に残るの？
PDFに印刷してからメールに添付して送れば履歴残るし
PDFを印刷してスキャンしてOCRもできるし
PDFからOCRできるし
PDFのフォントと文字コードがそのまま使えて検索までできちゃうんですけど？

そもそもFAXと聞いて手書きを想定してない時点でダメだけどね。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 15:54:44.90

・QRコードをFAXで送る方法
・PDFファイルをメールで送る方法

この２つだとシステムが専用だとQRコードは難しいかもしれんが
Windows使ってるならPDF印刷は標準機能だから簡単に追加できると思うよ。

そして役所は基本的にメールでやり取りしてる。相手がFAXしか使えないならFAXも使ってるけど。

コロナ補助金申請したけどExcelのファイルをメールでやり取りしたよ。
印刷した奴も郵送したけど。
郵送した理由は「印鑑がないと正式な書類にならないから。」
ようするに技術的な理由じゃなくてルールの問題なんだよ。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 19:28:55.86

>>372
FAX使ったことない人か
送信の成功失敗は履歴から分かる
普通のFAX機なら失敗しても3回なり5回なりの時間置いてリトライする機能も付いてる

現状でFAX廃止できない状況だからそれを活用しましょうってことで
FAX以外は受け付けませんってことではないでしょ
PDFながせるそれでいいだろうしメールはだめですとも書いてない

各関係団体はそれぞれの基幹システムやデータベースで既に管理してるが
そこから出力できる形式にはだいたい制限があるし書式もフォーマットもバラバラ
お役所仕事のようにExcelのこのフォーマット以外はだめです、
送信のためにもう一度体裁整えて新たに入力して下さいとかやってる暇がないので
エクスポートや印刷で出せるものをそのまま流してもらうしかないのがおそらく今の現状

アナログで対応するというのは、そこはそのまま送り手に負担を強いず
どんな書類が来ても受け側で自動でどうにかできるすげえ力技システム組んじゃいましょうってことで
FAXで受けるなら手書き書類も考慮してるだろうし
（手書きOCRの実用性はググればまあまあ出てくる）
リソースは当然必要だろうけど大学ならAI OCR研究やってるとこと提携して
市販の既成OCRソフトとは規模の違う精度のものが組めるアテがあるのかもしれん

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 20:18:25.89

>>374
> （手書きOCRの実用性はググればまあまあ出てくる）
> リソースは当然必要だろうけど大学ならAI OCR研究やってるとこと提携して
> 市販の既成OCRソフトとは規模の違う精度のものが組めるアテがあるのかもしれん

馬鹿だろお前。
大学の無能教授と無能学生になにが作れると思ってんだ？

作ることが可能ならとっくの昔に存在してるし、
今存在してないならこれから先も作ることは不可能なんだよ。
作れる人間が生まれてくるまではな。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 21:54:40.53

うるせえ
よそでやれ

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:10:01.75

FAXに続きスマホも使ったことない人なのか
https://i.imgur.com/gyeNbob.jpg

googleのこのOCRエンジンがGCV登録すればAPIで使えるので
個人でも高精度OCRアプリが作れる時代ですよ

お金出せば使えるそこそこ運用実績のあるシステムもググれば出てくる
（存在してる）
https://www.tegaki.ai/

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:12:17.86

あっ紙に書いたID 自分のじゃないやん間違えちゃった
痛恨のヒューマンエラー

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:46:53.84

俺はGoogle検索しただけで50万円請求されたからね。Googleから。2回ほど。
馬鹿は50万でも一千万でも請求されてろ。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:53:28.53

> Cloud Vision API には画像解析のための各種機能があります。どの場合でも、ご利用いただいた分だけお支払いいただきます。最低料金などは設定されていません。

> TEXT_DETECTION 画像内のテキストに対して光学式文字認識（OCR）を実行します。

> 1,001～5,000,000 ユニット/月
> テキスト検出　$1.50

あら、お安い。
> 1,000 ユニットあたりの料金

5,000,000 ユニットの料金は＄7,500

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:54:59.36

日本円だと８２万円だね。お安いね。

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 08:18:42.85

50万2回請求ってｗ
規約も読まずにOCRしまくっちゃったの？

＞日本円だと８２万円だね。お安いね。
500万ユニットが月に処理する回数として妥当値なのか知らんけど
運用費用としてはありなんじゃないの
日本中のコロナデータ集積して人力入力させてる人件費を考えたら

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 09:19:52.10

>>382
＞Google検索しただけで

字も読めないほど耄碌したの？

OCRする人件費がないから日本中の自治体でワクチンの発注ができなくなったのを忘れたの？

【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net