【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

**名無しさん＠お腹いっぱい。** · 2016/08/09(火) 21:24:11.61

光学文字認識（こうがくもじにんしき、Optical character recognition）ソフト

**351** · 2021/08/01(日) 12:17:19.04

>>352
ありがとうございます！　お陰様で、解決できました。

コマンドプロンプトからの動作は chcp 65001 で改善したのですが、
実は、UWSCのDOSCMD関数から叩きたくて、これは、何をやっても解決しませんでした。
（レジストリでAutoRun弄ってもダメ）

UWSCにはPOWERSHELL関数もあって、そちらからは文字化けせずに取得することができました。

**名無しさん＠お腹いっぱい。** · 2021/08/03(火) 18:25:28.98

スキャンで作成したPDFをOCRで文字認識させました。
表示されている文字で検索してもヒットしませんでした。
当該文字をコピーしてテキストファイルに貼り付けると別の文字になっていました。

OCRに詳しくないので教えてほしいのですが
１、認識後の文字はもとの文字の上に透明のフォントで重ねているのでしょうか？
２．今は、グラフの線が白黒だと判別できないのグレースケールで600DPIでスキャンしています
（300DPIだと文字の周りがにじむので）。認識率を向上させるために注意する設定項目があれば教えて下さい。

**名無しさん＠お腹いっぱい。** · 2021/08/07(土) 08:52:19.64

>>354
僕はプリンタ付属のOCRでスキャンしてますが、600dpiより300dpiのグレーが認識率高いです。
文字がにじんだ方が線が分離しなくなるので機械には読み取りやすくなるようです。
僕は数字の表だけ読み取れればいいんで英数で読み取って数字以外は捨ててます。
矩形でタブを入れ、空白を置換で削除することでExcelでも表として認識できます。

昨日は1ページスキャンして1文字だけ認識してませんでした。
もしかすると、矩形の空白を削除するときにその数字だけはみ出していて削除してしまったのかもしれません。
元が英数ならいいんですが、日本語の文字化けでずれが大きくなるので。

ブラザーの複合機ですが、新しいアプリより ControlCenter4 のOCRの方が使いやすかったです。

PDFの方は詳しくありませんが、PDFにはレイヤ機能があって重ね合わせが出来ます。
WORDでもハガキのイメージに合わせて郵便番号や宛先など配置できますよね。
文字が正しく読み取れなかったとしても、その化けた文字が配置されるので検索では本来の文字は出てこないでしょうね。

**名無しさん＠お腹いっぱい。** · 2021/08/07(土) 12:24:46.27

>>355
コメントありがとうございます。
私もブラザーのプリンターを使ってます。ブラザーの OCR ソフトは使い方がよくわからなかったので日本語の縦書きの認識もそこそこ良かったAcrobat の OCR を使うようになりました。

300 DPI の方が認識率が高いというのは新発見です。

**名無しさん＠お腹いっぱい。** · 2021/08/08(日) 10:01:09.25

スキャンした画像をChainLPなどの画像処理ソフトで下処理してからOCRに掛ける

**名無しさん＠お腹いっぱい。** · 2021/08/08(日) 13:44:29.33

>>357
汚れてもないしトリミングの必要もない場合でも CHAIN LP で何かをすれば認識率は上がりますか？
上がる場合はchainLP のどの項目を使えば良いか教えていただけますか

**名無しさん＠お腹いっぱい。** · 2021/08/08(日) 19:14:09.75

自分で仕組、理屈を考えてみろよ

**名無しさん＠お腹いっぱい。** · 2021/08/08(日) 20:38:22.55

OCR前にソフト側で2値画像に変換されてしまうし
事前補正はあんまり意味ないよ
画像をどうこうするよりOCRソフトのユーザー辞書学習カスタマイズして
パターン登録するほうが効果は高い

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 01:03:41.06

>>360
なるほど、そうなんですね。

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 09:41:20.64

chainLPで検索したら漫画は16階調が一般的で一括変換出来るツールだと出て来た。
僕が16階調に加工するとき、画像の濃さを細かく調整しないとあちこち消えてなくなる現象があった。
少なくとも256階調はないとOCRには向かない。

256階調のままで600dpiを300dpiにしてくれるなら認識率が上がるかもしれない。
・・・そう言うツールではないようですね。

> V0.37-3
> ChainLPでは、画像を1ピクセルあたり1ポイントとしてPDFに配置します。つまり72dpiです。
> よって、出力サイズとして600×800ピクセルを設定した場合は、PDFのページサイズは約8.3×11.1インチとなります。
> これは、ほぼA4サイズに近い大きさです。

> ChainLP v0.38-2
> ・元画像の解像度(dpi)を引き継ぐようにしました。しかし、あまり意味はないと思います。

https://lifehack-lab.com/chainlp_set1/
> Kindle PaperWhiteで自炊本を読む場合、PDFそのままでは非常に読みにくいです。
> mobiというファイル形式に変換してあげるととても読みやすくなります。
> そこで登場するのが、「ChainLP」というソフトです。
> 各種ファイルに変換できるのですが、画像の補正、トリミングが同時にできるので、Kindle用のmobiファイルをつくるのには重宝します。

> どうやってもきれいにならない場合は、別のツールを試してみましょう。
> ＞こちらのページを参考に（Xnconvertというソフトです）
> Xnconvertできれいにしてから、ChainLPに再挑戦してください。

> XnConvert. 画像のリサイズやフォーマット変換からフィルタ加工まで一括処理

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 10:23:52.59

色々勘違いしてそうだけどChainLPでも256階調出力は可能
つってもそれだけのためにChainLP使うよりRalphaとかの方が楽だけど

あともし漫画をOCRしようとしてるなら諦めたほうがいい
capture2textみたいにフキダシ抽出の機能のあるアプリか
GCV系のAI型じゃないとほぼほぼ無理

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 19:56:02.71

>>360
実際やってみたの？
俺は効果ありまくったから毎回下処理してるよ

**名無しさん＠お腹いっぱい。** · 2021/08/09(月) 20:52:04.70

ドキュメントスキャナの類だとある程度スキャナドライバ側で補正かけられてるから
いうほど効果ない場合もある
機種や設定次第

ノイズの多いスキャン画像なら補正も有効だけど
設定のわかりにくいCainLPより一括処理できる画像ソフトのほうが
シンプルに分かりやすいんではないかとは思う

**名無しさん＠お腹いっぱい。** · 2021/08/10(火) 00:19:46.38

>>364
具体的にどんな元原稿に対してどんな効果があったか言ってくれないと効果ありありと言われてもね。

**名無しさん＠お腹いっぱい。** · 2021/08/12(木) 19:07:27.37

フリーで優れたocrソフトってありますか？
用途は、アマゾンキンドルで実用書読んでるんですけど、
参考になった部分をスクショで撮ってそれをocrで文字起こし、メモ帳にまとめる
ってことがしたいです

**名無しさん＠お腹いっぱい。** · 2021/08/12(木) 19:17:55.60

>>367
>211
https://twitter.com/shira_t22/status/1348264731610529794?s=19
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2021/08/12(木) 19:23:21.80

ああごめん翻訳いらなくてスクショ起こしだけならCopyfishでいいんじゃない？
ブラウザ拡張だけどデスクトップのキャプチャもできたはず

**名無しさん＠お腹いっぱい。** · 2021/08/22(日) 12:15:30.21

衝撃…世界が馬鹿にした日本のFAX､実は米国でもコロナ報告で普通に使っていた
https://president.jp/articles/-/37491?page=3
> 北見工業大学教授で公衆衛生分野の情報化に詳しい奥村貴史氏が同サイトに寄稿にした記事によると、

> 同氏からの改善につながる提言に、「OCR（光学文字認識、活字を文字コードに変換するソフト）処理を前提としたフォーマットをFAXで扱う」というものがあります。
> これなら、FAXによる一元的管理機能を担保しつつ、
> アナログでデータを受信しても、
> OCRスキャンすれば直ちにデジタル化できますから、
> 入力する現場の手間を減らすことができます。

OCRでレシートや売上表読み取りしてる身からすると、
数字ですら完全には読み取れないのに
どうしてFAXなんかで送った人名を読み取れるんだと。
せめてQRコード化して送れよと。

工業大学の教授ですらこの程度の事が分からないんだな。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 11:49:45.91

いまだにFAXを使うしかない事情として
＞医療機関、自治体、保健所など複数の関係者で共通のシステムを整える必要があり、そのためには膨大なコストと時間がかかる
つってるのにQRコード化して送れとか無理でしょ

＞数字ですら完全には読み取れないのに
＞どうしてFAXなんかで送った人名を読み取れるんだと。
そこはフォントの種類とサイズ次第じゃない？

FAX機が吐き出した紙をスキャンしてOCRかけるイメージなのかも知らんけど
FAX受信した複合機でそのままFax TIFFとして保存すれば
FAX形式データってほぼ G3 FAX(200x200dpi)だから200dpiの白黒データとして確保できる
200dpiあればOCR性能は充分という説もあるし
（それだけあれば完璧にOCRできるということではなく、
それ以上にしてもOCR精度の向上は望めないという意味）

カラーやグレスケでスキャンしてもOCR時は内部的に2値に変換してから処理することになるので
スキャン時に白黒（2値）を選ぶのはコスト減らすためにはあり
保存フォーマットは大体勝手にFax TIFFになるので
＞「OCR（光学文字認識、活字を文字コードに変換するソフト）処理を前提としたフォーマットをFAXで扱う」
というのも正しい

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 15:49:32.12

>>371
そんな反論は予想通り。

OCRできるんなら送る側が自分でOCRしてQRコードを追加で印字すればいいだろ。

パソコンから直接FAXと電話回線に繋げて送るんなら精度は高いかもしれんが、
一回印刷してからFAXに入れるんなら、読み取るときに字がくずれるしゴミも読み取ってしまう。

仮に直接FAXと電話回線に繋げてたとしても、送信に成功したかどうかってすぐわかるの？
送ったかどうかって履歴に残るの？
PDFに印刷してからメールに添付して送れば履歴残るし
PDFを印刷してスキャンしてOCRもできるし
PDFからOCRできるし
PDFのフォントと文字コードがそのまま使えて検索までできちゃうんですけど？

そもそもFAXと聞いて手書きを想定してない時点でダメだけどね。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 15:54:44.90

・QRコードをFAXで送る方法
・PDFファイルをメールで送る方法

この２つだとシステムが専用だとQRコードは難しいかもしれんが
Windows使ってるならPDF印刷は標準機能だから簡単に追加できると思うよ。

そして役所は基本的にメールでやり取りしてる。相手がFAXしか使えないならFAXも使ってるけど。

コロナ補助金申請したけどExcelのファイルをメールでやり取りしたよ。
印刷した奴も郵送したけど。
郵送した理由は「印鑑がないと正式な書類にならないから。」
ようするに技術的な理由じゃなくてルールの問題なんだよ。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 19:28:55.86

>>372
FAX使ったことない人か
送信の成功失敗は履歴から分かる
普通のFAX機なら失敗しても3回なり5回なりの時間置いてリトライする機能も付いてる

現状でFAX廃止できない状況だからそれを活用しましょうってことで
FAX以外は受け付けませんってことではないでしょ
PDFながせるそれでいいだろうしメールはだめですとも書いてない

各関係団体はそれぞれの基幹システムやデータベースで既に管理してるが
そこから出力できる形式にはだいたい制限があるし書式もフォーマットもバラバラ
お役所仕事のようにExcelのこのフォーマット以外はだめです、
送信のためにもう一度体裁整えて新たに入力して下さいとかやってる暇がないので
エクスポートや印刷で出せるものをそのまま流してもらうしかないのがおそらく今の現状

アナログで対応するというのは、そこはそのまま送り手に負担を強いず
どんな書類が来ても受け側で自動でどうにかできるすげえ力技システム組んじゃいましょうってことで
FAXで受けるなら手書き書類も考慮してるだろうし
（手書きOCRの実用性はググればまあまあ出てくる）
リソースは当然必要だろうけど大学ならAI OCR研究やってるとこと提携して
市販の既成OCRソフトとは規模の違う精度のものが組めるアテがあるのかもしれん

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 20:18:25.89

>>374
> （手書きOCRの実用性はググればまあまあ出てくる）
> リソースは当然必要だろうけど大学ならAI OCR研究やってるとこと提携して
> 市販の既成OCRソフトとは規模の違う精度のものが組めるアテがあるのかもしれん

馬鹿だろお前。
大学の無能教授と無能学生になにが作れると思ってんだ？

作ることが可能ならとっくの昔に存在してるし、
今存在してないならこれから先も作ることは不可能なんだよ。
作れる人間が生まれてくるまではな。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 21:54:40.53

うるせえ
よそでやれ

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:10:01.75

FAXに続きスマホも使ったことない人なのか
https://i.imgur.com/gyeNbob.jpg

googleのこのOCRエンジンがGCV登録すればAPIで使えるので
個人でも高精度OCRアプリが作れる時代ですよ

お金出せば使えるそこそこ運用実績のあるシステムもググれば出てくる
（存在してる）
https://www.tegaki.ai/

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:12:17.86

あっ紙に書いたID 自分のじゃないやん間違えちゃった
痛恨のヒューマンエラー

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:46:53.84

俺はGoogle検索しただけで50万円請求されたからね。Googleから。2回ほど。
馬鹿は50万でも一千万でも請求されてろ。

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:53:28.53

> Cloud Vision API には画像解析のための各種機能があります。どの場合でも、ご利用いただいた分だけお支払いいただきます。最低料金などは設定されていません。

> TEXT_DETECTION 画像内のテキストに対して光学式文字認識（OCR）を実行します。

> 1,001～5,000,000 ユニット/月
> テキスト検出　$1.50

あら、お安い。
> 1,000 ユニットあたりの料金

5,000,000 ユニットの料金は＄7,500

**名無しさん＠お腹いっぱい。** · 2021/08/23(月) 22:54:59.36

日本円だと８２万円だね。お安いね。

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 08:18:42.85

50万2回請求ってｗ
規約も読まずにOCRしまくっちゃったの？

＞日本円だと８２万円だね。お安いね。
500万ユニットが月に処理する回数として妥当値なのか知らんけど
運用費用としてはありなんじゃないの
日本中のコロナデータ集積して人力入力させてる人件費を考えたら

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 09:19:52.10

>>382
＞Google検索しただけで

字も読めないほど耄碌したの？

OCRする人件費がないから日本中の自治体でワクチンの発注ができなくなったのを忘れたの？

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 09:58:03.25

人に説明するの下手な人か
今更だが触っちゃいけないタイプだったな
ゴメンな？独り言の邪魔しちゃって

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 12:44:38.28

>>384
「Google検索しただけで」では説明が下手ですか。

Google検索を一日中繰り返していたらブラウザに請求書が表示されてそれが50万円で請求者はGoogleとなっていました。
チャットで交渉出来たので支払いは免れましたが、「今後このようなことがあれば業務利用とみなし、契約を結んでもらいます。」との事。

業務でGoogleの機能を使えば毎月80万円程度のお金がかかることは >>377 も >>382 も認めている。

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 14:12:24.41

？？？
ごめん何言ってるかサッパリわからない
どういう状況でGoogle検索したら50万も請求が来るのか全く理解できない

＞業務でGoogleの機能を使えば毎月80万円程度のお金がかかることは＞ >>377 も >>382 も認めている。

Cloud Vision API は Google Cloudプラットフォームにアカウント登録して
クレジットカードまたは銀行口座情報を入力して初めて使えるサービスだぞ
業務か個人ユースかに関係なく使った分だけの従量課金で
手順踏んでAPIキー取得してAPI叩かなきゃ従量カウントは上がらないし
「Google検索しただけで」勝手に請求が来るような代物ではもちろんない

あと80万かかるのは月に500万ユニット使った場合の話でしょ？
処理回数に応じてそれ以上にもそれ以下もなる
こっちは君が言ったからランニングコストはとしてはありじゃない？って返しただけで
500万ユニットがコロナのデータ集積に毎月かける回数として妥当なのかは知らんよ

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 14:23:54.92

>>386
> ？？？
> ごめん何言ってるかサッパリわからない
> どういう状況でGoogle検索したら50万も請求が来るのか全く理解できない

一日中Googleのホームページ（https://www.google.co.jp/）のテキストボックスに検索したいテキストを入力して検索ボタンをクリックすることを繰り返したら
ブラウザに請求書が表示されてそれが50万円で請求者はGoogleとなっていました。

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 14:31:13.96

>>386
> あと80万かかるのは月に500万ユニット使った場合の話でしょ？
> 500万ユニットがコロナのデータ集積に毎月かける回数として妥当なのかは知らんよ

ユニットが何を意味するか分からんけど一つのブロックだと仮定すると
1ページで30くらいのユニットがあると考えられるので
10万枚処理すれば500万ユニットに近い数字になると思われる。

Googleより
> 米国での感染者数は増加傾向にあり、平均で1日147,420人の新規感染者が報告されている。
147,420*30=4,422,600/月

アメリカの感染者数が毎月442万人出てる計算だから
仮に１ページ１ユニットで計算しても500万ユニットは妥当な数字。

日本の感染者数がアメリカより少ないと言うなら、ユニットが1ページ30で計算すればいいんじゃね？

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 17:32:00.46

一日中つったって手動で検索繰り返した程度で50万請求が来るような検索回数になるとはとても思えないんだけど
マルウェアが裏でF5アタック繰り返してたとかじゃないの知らんけど

https://cloud.google.com/vision/pricing?refresh=1
ユニットは1枚の画像に対し適応する機能タイプ別に発生する
1枚の書類(画像)に対してテキスト検出(OCR)しかしないのであればユニット数は1
結果はjson形式ファイルで画像中にブロックがある場合はで個別に分けて取り出せる
https://cloud.google.com/vision/docs/ocr?hl=ja

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 18:53:54.94

うるせえ
よそでやれ

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 18:57:00.72

>>389
おまえさあ、Google検索してて「私はロボットではありません」って表示出たことある？

その表示が出るまでに何回検索してるか分かる？
そして検索にいくらかかったか分かる？

著作権裁判だと単に製品の代金だけじゃなく懲罰的請求をされるって知ってる？
アメリカだと自分でコーヒーこぼしただけで３億円も請求されるんですよ。
50万円って実質無料でしょ。

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 19:06:08.39

詭弁　答えのない問題に対して他の場所で出た答えを持ち出して
その答えはあの問題と同じだよと根拠もないのに言い張ってるだけのキチガイ
お前の言ってることは何の答えにもなってない

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 19:33:29.79

何言ってるのかさっぱり分かんない
やっぱ会話無理な人か

>>390
ゴメンねもうやめるわ

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 19:35:22.71

>>392
答えは最初っから言ってるだろ。Google検索したらGoogleから50万円請求されました。

お前が信じないだけだ。
ソースは出せない。

お前は企業がどういうときに金を請求するか知ってる？
費用が掛かった時だよ。
チンピラがたまたま目の前にいた通行人に金を請求するゆすりたかりとは違うんですよ。

じゃあ、どういう場合に「私はロボットではありません」って表示を出すか分かる？
無駄な費用を抑えるためですよ。

金を請求するのと「私はロボットではありません」と表示するのは目的が同じ。
お金ですよ。
かかった分請求するか、最初からかからないようにするかの違いだけ。

俺が50万円請求された証拠は出せないが、「私はロボットではありません」と表示される問題は無数にソースがある。
どれくらい検索していたかもその証言から推定できる。
そしたら、少なくともどれくらい使ったらGoogleが許容できない費用がかかっているかも推定でき、
50万円を請求するとしたらどれくらいの検索をしたかも推定できるはず。頭のいい人なら。

日本人は、どれだけ使ったらいくら請求と言う計算はできるけど、
いくら請求されたらどれくらい使ったかっていう計算は出来ない。
そう言う典型的日本人が>>392

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 20:12:01.67

論点1 QRコード化が可能か不可能か
論点2 人名が読み取れているか否か
論点3 手書きに対してOCRが有効かどうか
論点4 送信に成功したかどうかが分かるか

1 現場にしか分からないが個人単位では不可能ではない
2 現場にしか分からないが個人単位では不可能ではない
3 現場にしか分からないが個人単位では不可能ではない
4 現場にしか分からないが個人単位では不可能ではない

これだけの話なのに論点5のgoogle検索しただけで50万請求された人がいる
が一番どうでもいいし馬鹿らしいんだが　自覚しろよ

**名無しさん＠お腹いっぱい。** · 2021/08/24(火) 20:15:34.99

当然論点6のOCRの活用が現場で可能かどうかも現場にしか分からない
こんな所で無能だなんだ言ってないで現場に連絡取る位の努力しろよカス

**名無しさん＠お腹いっぱい。** · 2021/08/26(木) 22:54:38.68

日本語横書きで時々アルファベットの引用を含んでいる文章をAcrobat の OCR で認識させるとアルファベットの一部の認識が失敗します。オプションは日本語文章を選んでおります。アルファベットもうまく認識させる方法はないでしょうか。

**名無しさん＠お腹いっぱい。** · 2021/08/27(金) 20:30:24.89

この車のナンバーって人工知能で解析できんかね。
http://himado.in/492909

**名無しさん＠お腹いっぱい。** · 2021/09/11(土) 09:26:02.33

CloudのAI OCRではGoogleのCloud Visionが優れていたが
最近AzureのCognitive Serviceを試してみたところ
文字の認識誤りの少なさではさらに上回る

ただし課題もあり、右から左へ改行していく縦書き文書を
左から右へ認識するので、行の順序が逆になる
読取順序をbasicからnaturalへ変えても同じ

幸い出力のjsonには座標情報が含まれているので
スクリプトによる後処理で行を並び替え
ついでにルビも削って整えているが
この辺をうまくやってくれるGUIがほしいところ

**名無しさん＠お腹いっぱい。** · 2021/09/11(土) 10:34:50.20

そのスクリプトは公開してるの？
PythonでGUI作れるかも。

**名無しさん＠お腹いっぱい。** · 2021/09/11(土) 11:06:47.97

>>400
公開するほど大したことない
AzureのAPIとのやりとりはPythonで
後処理はluaでやっている（速いしYAMAHA使いなので）

小ネタで、Google Cloud Visionには
Microsoft Automate Desktop が何気に対応していて
フォルダ内の画像に一括OCRをかける程度なら
ノーコードで簡単にGUI化できる

**名無しさん＠お腹いっぱい。** · 2021/09/11(土) 14:41:17.75

e.Typistは終了
読取革命も終了
企業向け帳簿用以外の個人用OCRはもうおしまいだ

**名無しさん＠お腹いっぱい。** · 2021/09/15(水) 20:58:46.28

日本語ＯＣＲはくそ

**名無しさん＠お腹いっぱい。** · 2021/09/16(木) 07:00:29.94

ニーズはあるはずなのに程よくまとまったアプリがない
スクリプトでGoogleなりAzureなりのAIを使えば
認識精度は高いけど、求めるのはそれじゃない

画像をクラウドへ送りたくない向き用に
いわば認識エンジンをローカルへダウンロードできる
Docketの仕組みもあるし、
誰か小綺麗にパッケージ化してくれたら買うのにな

**名無しさん＠お腹いっぱい。** · 2021/09/17(金) 00:22:23.73

>>404
それ、tesseract以外で作るのなら、エンジンライセンスだけで安くて数十万かかるんじない。買うって法人で買うの？

**名無しさん＠お腹いっぱい。** · 2021/09/17(金) 02:47:20.06

自前で日本語認識エンジン作って遊ぼうとしてるけど、かなり難易度高い。
特に日本語は文字種が多くて、しかも英単語とか普通に混じってくるし。
売り物としたら数十万の売値になるくらい、計算機回してるわ

後半(文字の場所が分かっていて、それをテキストにする)はできたけど、
前半(どこに文字のboxがあるか)を当てるところで苦しんでる

**名無しさん＠お腹いっぱい。** · 2021/09/17(金) 07:14:06.31

>>405
それがMicrosoft AzureのDockerなら
目安として1,000枚あたり112円の完全従量制で
個人でも検討範囲に十分入るんだ
エンジンはローカルで、クラウドとは
課金のための小容量の通信が時折発生するくらいで

**名無しさん＠お腹いっぱい。** · 2021/09/17(金) 12:13:11.15

Dockerってそういう使い方できるのか、ちょっと触ってみようかな。

**名無しさん＠お腹いっぱい。** · 2021/09/18(土) 12:21:57.09

>>406
CenterNet を試してみては如何ですか？
物体の中心を特徴点として検出した後、幅・高さのサイズを予測する手法です

**名無しさん＠お腹いっぱい。** · 2021/09/18(土) 14:19:37.46

OCRも光学読み取りの精度にこだわりすぎずにBARTなどの文脈推定を入れればトータルの性能が上がる気がする

**名無しさん＠お腹いっぱい。** · 2021/09/18(土) 14:25:05.85

BERTっていうのねこれ面白そうだ
小説でpre-trainedなモデルってあるのかな

**名無しさん＠お腹いっぱい。** · 2021/09/18(土) 14:40:51.41

https://nlp.ist.i.kyoto-u.ac.jp/?BART日本語Pretrainedモデル

**名無しさん＠お腹いっぱい。** · 2021/09/18(土) 18:05:35.08

>>409
サンクスです。良い手法を教えていただきました

今やってるモデルは、u-net ベースで、CenterNetの中心ヒートマップを使ってる
感じです。
これを参考に改造して作ってます。
https://github.com/tanreinama/OCR_Japanease

lossを調整したら、ほぼうまく行くようになってきました。
完成したら公開しますので、また来ます。

**名無しさん＠お腹いっぱい。** · 2021/09/19(日) 08:55:39.56

>>413
お役に立てたようで良かったです。成果を楽しみにしております。

**名無しさん＠お腹いっぱい。** · 2021/09/30(木) 21:55:51.09

>>269
Acrobat pro DC (2015年の製品版）をまだ使ってるんだけど、
横書きの整備マニュアル370Pを
Canonの複合機TR9530のADFで地道にスキャンして（400dpiカラー）
CanonのPDFソフトでPDF化（OCR有）したものと、
それをAcrobatで再OCR化（圧縮無し）したものを比べてみた。

**名無しさん＠お腹いっぱい。** · 2021/09/30(木) 21:56:43.99

検索は全て完全一致無しのオプションで。
検索文字「バッテリ」
Canon　　286件
Acrobat　 262件

検索文字「ボルト」
Canon　　290件
Acrobat　 270件

検索文字「注意」
Canon　　506件
Acrobat　 215件

検索文字「交換」
Canon　　419件
Acrobat　 418件

検索文字「目」
Canon　　66件
Acrobat　 77件

**名無しさん＠お腹いっぱい。** · 2021/10/22(金) 18:41:13.88

キヤノンの優秀だね。自社エンジンなのかなぁ

**名無しさん＠お腹いっぱい。** · 2021/10/22(金) 22:01:30.34

ぺパレス電子化コラム　-　OCRソフトの比較
ttps://pepaless.com/column/180614_01/
画像部分とか、網かけ部分とかの認識も優れているかどうかはわからないけどね。

**名無しさん＠お腹いっぱい。** · 2021/10/27(水) 11:37:37.49

>>418
コレ三年前の記事かよ。
つってもソフトは当時のバージョンとほとんど同じだから、実害はなしか。

『読取革命』も最新版だからって、とくに画期的に変わった訳でもあるまいに。

**名無しさん＠お腹いっぱい。** · 2021/12/02(木) 01:05:23.86

Tesseract OCRのリリース5.0.0がでたわよ！
https://github.com/tesseract-ocr/tesseract/blob/main/ChangeLog

**名無しさん＠お腹いっぱい。** · 2021/12/11(土) 14:03:43.57

読取革命16買って少し使ってみたけど、白抜き文字の認識(日本語)泣けるほど弱い。総合的にみて、Canonスキャナ付属Capture PerfectとOCR精度はあまり変わらない気がする。白ぬき文字については進化が止まっていることを実感させられる。泣けてきた。

**名無しさん＠お腹いっぱい。** · 2021/12/11(土) 14:30:29.15

本当の評価ポイントは
校正のしやすさなんだがなあ

**名無しさん＠お腹いっぱい。** · 2021/12/11(土) 16:24:54.51

以前の読取革命15体験版の感想だけど

読んdeココみたいな認識結果や候補文字を種別ごとに色分け表示する機能が無いからから
外見が似た文字の見分けが付かず
校正に苦労する印象だった
カタカナ「に」と漢数字２、長音符号とハイフンとダッシュと漢数字１、数字１と英字エルとかね
いちいち別ソフトにコピペしてコードポイント確認する作業した記憶ある

16で改善されてますか？

**名無しさん＠お腹いっぱい。** · 2021/12/11(土) 21:50:27.92

>>423
認識結果の文字種を色分けすることはできなさそう。ソフトが間違って認識してるかもという文字が赤色になるだけ。認識結果のテキスト表示フォントは変えられる。
HPには認識結果を読み上げる機能があるとなっているが、アイコンがグレイの状態で読み上げられない。ヘルブにも読み上げ方法の記載はないが、ver15応用編のヘルブにはPC talkerがいるように書いてある。もし16にそれがあてはまるなら、優良誤認だろっていう感じ。
あと、話題がずれるが、読み取った結果でpdf出力する場合(透明テキストでなはなく)、フォントが、MS明朝かゴシック(等幅かP)しか選べないのはビックリした。

**名無しさん＠お腹いっぱい。** · 2021/12/11(土) 22:54:22.88

>>424
返答ありがとうです
とても参考になりました

表示フォント変えられるなら、改善待つより校正用のフォントを自作する方が早いのかもしれないですね

**名無しさん＠お腹いっぱい。** · 2021/12/12(日) 00:58:57.76

miguフォントを使ってみな

**名無しさん＠お腹いっぱい。** · 2021/12/12(日) 01:04:33.72

読取革命を１０年以上使い続けて
それなりのノウハウがたまってきたんで
そのうち小出しに紹介したい

**名無しさん＠お腹いっぱい。** · 2021/12/12(日) 08:42:52.12

表を表のままocrできたりしない？

**名無しさん＠お腹いっぱい。** · 2021/12/12(日) 15:02:19.21

>>428
領域の属性をテキストとか画像とか表とか設定できる。
各行の背景が白、グレイ、白といった表は読取革命16でエクセル出力したら、一つのセルに全部入ってしまってダメだった。Just pdf4ではうまくエクセル出力できたが(一つのセルに表の1要素が入ってくれる)。
実線で区切られる表なら、うまくいくのかもしれないが試してない。427氏に期待したい。

**名無しさん＠お腹いっぱい。** · 2021/12/12(日) 17:38:08.22

すまねえ、すまねえ……
得意分野は小説のテキスト化なんだ……

**名無しさん＠お腹いっぱい。** · 2021/12/12(日) 20:38:10.99

>>430
話しことばの"いるんだ"などは
どのように処理っされてますか？
etypist使いですが毎回、認識エラー候補になり、確認が面倒です。

**名無しさん＠お腹いっぱい。** · 2021/12/12(日) 21:56:15.22

待ってくれ

どうやら俺が持っているノウハウの方向性と、皆の期待している方向性とが違う可能性が高いようだ

実は俺は>>75なんだ

校正作業するのが前提でその効率化のノウハウなんだ

**名無しさん＠お腹いっぱい。** · 2021/12/12(日) 22:53:11.11

OpenCVとTesseract-OCRで作る表のOCRツール rev1
https://ymt-lab.com/post/2021/table-recognition-tool-rev2/

**名無しさん＠お腹いっぱい。** · 2021/12/13(月) 11:36:19.13

>>432
最近自炊小説をetypistでテキスト化（そのあと合成音声化）を始めたものです
校正作業の効率化ノウハウをぜひ教えてください！

**名無しさん＠お腹いっぱい。** · 2021/12/15(水) 21:24:42.83

まずはデカいモニタ必須
マクロ登録できるキーボード　エレコムのTK-DUX30BKおすすめ　同機能のソフトで代用可

読取革命15　体験版しか使ったことない
Oracle VM VirtualBox等　ごにょごにょ

**名無しさん＠お腹いっぱい。** · 2021/12/17(金) 00:57:11.07

いま流行りの AI を使って認識率を高めるような OCR ソフトはないのかな。業務用じゃなくて個人用で。
Google の OCR ソフトは認識率はいいのかな。Google Docに変換しないと使えないという不自由さはさておいて。

**名無しさん＠お腹いっぱい。** · 2021/12/17(金) 19:30:14.86

>>436
pythonやpowershellなどでスクリプトを組めば
googleなりAzureなりのAIを利用したOCRそのものは
そう高くなく、認識精度もごく高い
（画像1000枚あたり100円台）

現状、見栄えの良いGUIがないだけ

**名無しさん＠お腹いっぱい。** · 2021/12/17(金) 20:45:06.62

>>437
ありがとうございます．

>pythonやpowershellなどでスクリプトを組めば
両方とも経験がないのでこれから勉強しますが，参考になるスクリプトのHPはどこかにないでしょうか？

アクロバットのOCRのようにもとの文字の上に透明文字を配置してくれるのでしょうか．もとの資料上にハイライトや検索が必要なので．

**名無しさん＠お腹いっぱい。** · 2021/12/17(金) 21:15:37.54

手前味噌ですがコレなどw

https://github.com/dinosauria123/makepdf

**名無しさん＠お腹いっぱい。** · 2021/12/17(金) 21:20:54.87

こちらも

https://remoteroom.jp/diary/2017-10-12/

**名無しさん＠お腹いっぱい。** · 2021/12/18(土) 14:14:33.30

>>439,440
ありがとうございます。
440は439の内容は同じですか。

Cは昔使った記憶があるのでうがwindowsの環境で動かす方法を忘れました。
ハードルが高そうです。
目的にOCR処理の前に環境を整え使いこなすまでに時間がかかりそうで、逡巡します。

**名無しさん＠お腹いっぱい。** · 2021/12/18(土) 14:40:57.61

430のgithubの中にwindows用実行プログラムもありますw

**名無しさん＠お腹いっぱい。** · 2021/12/18(土) 14:43:57.28

Google Cloud VisionのAPIキーが必要です。

https://syncer.jp/cloud-vision-api

**名無しさん＠お腹いっぱい。** · 2021/12/18(土) 21:04:03.07

>>443
ありがとうございます。
研究してみますね。

**名無しさん＠お腹いっぱい。** · 2021/12/19(日) 01:15:52.64

ここでヒントもらった、機械学習で文字認識する方法
惜しいところまで来たけど、あともう一声がうまくいかない。
文庫本見開きを与えて、3箇所くらいミスる。特にふりがなとかページ番号
とかのちっさくて近接してるところが鬼門。
Googleとかに投げれば簡単なんだけど、やっぱり自前で解けると
何かと捗るんで是非とも完成させたい

**名無しさん＠お腹いっぱい。** · 2021/12/19(日) 12:59:45.91

>>435
やはり大きなモニターは必須ですよね。。小さいノートPCで作業しているのできついです。
キーボードへのマクロ登録は、どの作業を登録しているのですか？

**名無しさん＠お腹いっぱい。** · 2021/12/19(日) 21:57:43.76

校正作業を効率化

>>435の続き

条件は>>75
今回は二段組の場合

https://light.dotup.org/uploda/light.dotup.org10755.jpg
スキャン画像をこんな風に作り変える

染みゴミ取り漂白
傾き補正
二段組ページを上下分割余白消し
14ページ分を左右上下に張り合わせて一枚にする
横につなげるときは右から左ね

これ以上ページを増やしたら読取革命で読み込めるけど
テキスト保存したとき字数（行数）？制限で後ろのほうが削られてしまう
たぶん

読取革命の設定こまごま
後述

キーボードマクロ
後述

**名無しさん＠お腹いっぱい。** · 2021/12/19(日) 22:20:59.74

1ページづつ校正していたら手間取りすぎる
まとめちゃえ

**名無しさん＠お腹いっぱい。** · 2021/12/20(月) 21:26:34.83

e.typist使いの私は、マウスにマクロつけてる。
　・単語登録
　・次ページ送り＋一括置換＋全文解析

**名無しさん＠お腹いっぱい。** · 2021/12/21(火) 10:24:13.91

>>447
ノウハウ助かります！
>>449
e.typistでの「次ページ送り」はマウスで次ページをクリックする以外にショートカットキーなどがあるのですか？

**名無しさん＠お腹いっぱい。** · 2021/12/21(火) 20:20:01.46

>>449
alt{la} down return f7
をマウスのボタンに割り当てました。

**名無しさん＠お腹いっぱい。** · 2021/12/21(火) 22:30:27.69

校正作業を効率化

左右上下につなげるソフトはこれ
ImageMerge

読取革命を立ち上げて

オプション環境設定
チェックを入れるもの　
　一般　未確定・・・
　表示　初期　ページ幅
　　　　倍率　ページ幅
　　　　連動

画像読み込み後
右クリックから属性変更
チェックを入れるもの
認識　文字種　ひらがな　カタカナ　漢字第一　数字　ユーザー定義　単語辞書
（漢字第二とアルファベット、記号はチェックしない。必要な文字はユーザー定義欄に入れる）

レイアウト認識　1枚づつやったほうがいいと思う
認識したレイアウトを確認　削除統合で整形

文字認識
一行に一文字とかしかない場合読取ミスがあったりするので確認訂正
空白行等も確認
文章を読むのではなく俯瞰して形で見比べる

行頭の字下げスペースとかは後で

【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net