【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
2016/08/09(火) 21:24:11.61ID:zXdCMkkb0
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
353351
垢版 |
2021/08/01(日) 12:17:19.04ID:EKgADGMN0
>>352
ありがとうございます! お陰様で、解決できました。

コマンドプロンプトからの動作は chcp 65001 で改善したのですが、
実は、UWSCのDOSCMD関数から叩きたくて、これは、何をやっても解決しませんでした。
(レジストリでAutoRun弄ってもダメ)

UWSCにはPOWERSHELL関数もあって、そちらからは文字化けせずに取得することができました。
2021/08/03(火) 18:25:28.98ID:1yBwwluW0
スキャンで作成したPDFをOCRで文字認識させました。
表示されている文字で検索してもヒットしませんでした。
当該文字をコピーしてテキストファイルに貼り付けると別の文字になっていました。

OCRに詳しくないので教えてほしいのですが
1、認識後の文字はもとの文字の上に透明のフォントで重ねているのでしょうか?
2.今は、グラフの線が白黒だと判別できないのグレースケールで600DPIでスキャンしています
(300DPIだと文字の周りがにじむので)。認識率を向上させるために注意する設定項目があれば教えて下さい。
355名無しさん@お腹いっぱい。
垢版 |
2021/08/07(土) 08:52:19.64ID:rqbKqC/20
>>354
僕はプリンタ付属のOCRでスキャンしてますが、600dpiより300dpiのグレーが認識率高いです。
文字がにじんだ方が線が分離しなくなるので機械には読み取りやすくなるようです。
僕は数字の表だけ読み取れればいいんで英数で読み取って数字以外は捨ててます。
矩形でタブを入れ、空白を置換で削除することでExcelでも表として認識できます。

昨日は1ページスキャンして1文字だけ認識してませんでした。
もしかすると、矩形の空白を削除するときにその数字だけはみ出していて削除してしまったのかもしれません。
元が英数ならいいんですが、日本語の文字化けでずれが大きくなるので。

ブラザーの複合機ですが、新しいアプリより ControlCenter4 のOCRの方が使いやすかったです。

PDFの方は詳しくありませんが、PDFにはレイヤ機能があって重ね合わせが出来ます。
WORDでもハガキのイメージに合わせて郵便番号や宛先など配置できますよね。
文字が正しく読み取れなかったとしても、その化けた文字が配置されるので検索では本来の文字は出てこないでしょうね。
356名無しさん@お腹いっぱい。
垢版 |
2021/08/07(土) 12:24:46.27ID:iSVP+I520
>>355
コメントありがとうございます。
私もブラザーのプリンターを使ってます。ブラザーの OCR ソフトは使い方がよくわからなかったので日本語の縦書きの認識もそこそこ良かったAcrobat の OCR を使うようになりました。

300 DPI の方が認識率が高いというのは新発見です。
2021/08/08(日) 10:01:09.25ID:kyf68uXo0
スキャンした画像をChainLPなどの画像処理ソフトで下処理してからOCRに掛ける
358名無しさん@お腹いっぱい。
垢版 |
2021/08/08(日) 13:44:29.33ID:7AjcYiKn0
>>357
汚れてもないしトリミングの必要もない場合でも CHAIN LP で何かをすれば認識率は上がりますか?
上がる場合はchainLP のどの項目を使えば良いか教えていただけますか
2021/08/08(日) 19:14:09.75ID:0wTn0qmR0
自分で仕組、理屈を考えてみろよ
2021/08/08(日) 20:38:22.55ID:IfVfnYiT0
OCR前にソフト側で2値画像に変換されてしまうし
事前補正はあんまり意味ないよ
画像をどうこうするよりOCRソフトのユーザー辞書学習カスタマイズして
パターン登録するほうが効果は高い
361名無しさん@お腹いっぱい。
垢版 |
2021/08/09(月) 01:03:41.06ID:oBYKB49n0
>>360
なるほど、そうなんですね。
362名無しさん@お腹いっぱい。
垢版 |
2021/08/09(月) 09:41:20.64ID:a4Sxnc9w0
chainLPで検索したら漫画は16階調が一般的で一括変換出来るツールだと出て来た。
僕が16階調に加工するとき、画像の濃さを細かく調整しないとあちこち消えてなくなる現象があった。
少なくとも256階調はないとOCRには向かない。

256階調のままで600dpiを300dpiにしてくれるなら認識率が上がるかもしれない。
・・・そう言うツールではないようですね。

> V0.37-3
> ChainLPでは、画像を1ピクセルあたり1ポイントとしてPDFに配置します。つまり72dpiです。
> よって、出力サイズとして600×800ピクセルを設定した場合は、PDFのページサイズは約8.3×11.1インチとなります。
> これは、ほぼA4サイズに近い大きさです。

> ChainLP v0.38-2
> ・元画像の解像度(dpi)を引き継ぐようにしました。しかし、あまり意味はないと思います。


https://lifehack-lab.com/chainlp_set1/
> Kindle PaperWhiteで自炊本を読む場合、PDFそのままでは非常に読みにくいです。
> mobiというファイル形式に変換してあげるととても読みやすくなります。
> そこで登場するのが、「ChainLP」というソフトです。
> 各種ファイルに変換できるのですが、画像の補正、トリミングが同時にできるので、Kindle用のmobiファイルをつくるのには重宝します。

> どうやってもきれいにならない場合は、別のツールを試してみましょう。
> >こちらのページを参考に(Xnconvertというソフトです)
> Xnconvertできれいにしてから、ChainLPに再挑戦してください。

> XnConvert. 画像のリサイズやフォーマット変換からフィルタ加工まで一括処理
2021/08/09(月) 10:23:52.59ID:OqeDcUJs0
色々勘違いしてそうだけどChainLPでも256階調出力は可能
つってもそれだけのためにChainLP使うよりRalphaとかの方が楽だけど

あともし漫画をOCRしようとしてるなら諦めたほうがいい
capture2textみたいにフキダシ抽出の機能のあるアプリか
GCV系のAI型じゃないとほぼほぼ無理
2021/08/09(月) 19:56:02.71ID:V0NxvfPM0
>>360
実際やってみたの?
俺は効果ありまくったから毎回下処理してるよ
2021/08/09(月) 20:52:04.70ID:dAASpWa80
ドキュメントスキャナの類だとある程度スキャナドライバ側で補正かけられてるから
いうほど効果ない場合もある
機種や設定次第

ノイズの多いスキャン画像なら補正も有効だけど
設定のわかりにくいCainLPより一括処理できる画像ソフトのほうが
シンプルに分かりやすいんではないかとは思う
366名無しさん@お腹いっぱい。
垢版 |
2021/08/10(火) 00:19:46.38ID:9pRWSzRN0
>>364
具体的にどんな元原稿に対してどんな効果があったか言ってくれないと効果ありありと言われてもね。
2021/08/12(木) 19:07:27.37ID:M3IwL1EP0
フリーで優れたocrソフトってありますか?
用途は、アマゾンキンドルで実用書読んでるんですけど、
参考になった部分をスクショで撮ってそれをocrで文字起こし、メモ帳にまとめる
ってことがしたいです
2021/08/12(木) 19:17:55.60ID:W1e/W8C/0
>>367
>211
https://twitter.com/shira_t22/status/1348264731610529794?s=19
https://twitter.com/5chan_nel (5ch newer account)
2021/08/12(木) 19:23:21.80ID:W1e/W8C/0
ああごめん翻訳いらなくてスクショ起こしだけならCopyfishでいいんじゃない?
ブラウザ拡張だけどデスクトップのキャプチャもできたはず
370名無しさん@お腹いっぱい。
垢版 |
2021/08/22(日) 12:15:30.21ID:InGHoZ6h0
衝撃…世界が馬鹿にした日本のFAX、実は米国でもコロナ報告で普通に使っていた
https://president.jp/articles/-/37491?page=3
> 北見工業大学教授で公衆衛生分野の情報化に詳しい奥村貴史氏が同サイトに寄稿にした記事によると、

> 同氏からの改善につながる提言に、「OCR(光学文字認識、活字を文字コードに変換するソフト)処理を前提としたフォーマットをFAXで扱う」というものがあります。
> これなら、FAXによる一元的管理機能を担保しつつ、
> アナログでデータを受信しても、
> OCRスキャンすれば直ちにデジタル化できますから、
> 入力する現場の手間を減らすことができます。

OCRでレシートや売上表読み取りしてる身からすると、
数字ですら完全には読み取れないのに
どうしてFAXなんかで送った人名を読み取れるんだと。
せめてQRコード化して送れよと。

工業大学の教授ですらこの程度の事が分からないんだな。
2021/08/23(月) 11:49:45.91ID:OlmLkjoZ0
いまだにFAXを使うしかない事情として
> 医療機関、自治体、保健所など複数の関係者で共通のシステムを整える必要があり、そのためには膨大なコストと時間がかかる
つってるのにQRコード化して送れとか無理でしょ


> 数字ですら完全には読み取れないのに
> どうしてFAXなんかで送った人名を読み取れるんだと。
そこはフォントの種類とサイズ次第じゃない?

FAX機が吐き出した紙をスキャンしてOCRかけるイメージなのかも知らんけど
FAX受信した複合機でそのままFax TIFFとして保存すれば
FAX形式データってほぼ G3 FAX(200x200dpi)だから200dpiの白黒データとして確保できる
200dpiあればOCR性能は充分という説もあるし
(それだけあれば完璧にOCRできるということではなく、
それ以上にしてもOCR精度の向上は望めないという意味)

カラーやグレスケでスキャンしてもOCR時は内部的に2値に変換してから処理することになるので
スキャン時に白黒(2値)を選ぶのはコスト減らすためにはあり
保存フォーマットは大体勝手にFax TIFFになるので
> 「OCR(光学文字認識、活字を文字コードに変換するソフト)処理を前提としたフォーマットをFAXで扱う」
というのも正しい
372名無しさん@お腹いっぱい。
垢版 |
2021/08/23(月) 15:49:32.12ID:fGb2UNbz0
>>371
そんな反論は予想通り。

OCRできるんなら送る側が自分でOCRしてQRコードを追加で印字すればいいだろ。

パソコンから直接FAXと電話回線に繋げて送るんなら精度は高いかもしれんが、
一回印刷してからFAXに入れるんなら、読み取るときに字がくずれるしゴミも読み取ってしまう。

仮に直接FAXと電話回線に繋げてたとしても、送信に成功したかどうかってすぐわかるの?
送ったかどうかって履歴に残るの?
PDFに印刷してからメールに添付して送れば履歴残るし
PDFを印刷してスキャンしてOCRもできるし
PDFからOCRできるし
PDFのフォントと文字コードがそのまま使えて検索までできちゃうんですけど?

そもそもFAXと聞いて手書きを想定してない時点でダメだけどね。
373名無しさん@お腹いっぱい。
垢版 |
2021/08/23(月) 15:54:44.90ID:fGb2UNbz0
・QRコードをFAXで送る方法
・PDFファイルをメールで送る方法

この2つだとシステムが専用だとQRコードは難しいかもしれんが
Windows使ってるならPDF印刷は標準機能だから簡単に追加できると思うよ。

そして役所は基本的にメールでやり取りしてる。相手がFAXしか使えないならFAXも使ってるけど。

コロナ補助金申請したけどExcelのファイルをメールでやり取りしたよ。
印刷した奴も郵送したけど。
郵送した理由は「印鑑がないと正式な書類にならないから。」
ようするに技術的な理由じゃなくてルールの問題なんだよ。
2021/08/23(月) 19:28:55.86ID:OlmLkjoZ0
>>372
FAX使ったことない人か
送信の成功失敗は履歴から分かる
普通のFAX機なら失敗しても3回なり5回なりの時間置いてリトライする機能も付いてる

現状でFAX廃止できない状況だからそれを活用しましょうってことで
FAX以外は受け付けませんってことではないでしょ
PDFながせるそれでいいだろうしメールはだめですとも書いてない

各関係団体はそれぞれの基幹システムやデータベースで既に管理してるが
そこから出力できる形式にはだいたい制限があるし書式もフォーマットもバラバラ
お役所仕事のようにExcelのこのフォーマット以外はだめです、
送信のためにもう一度体裁整えて新たに入力して下さいとかやってる暇がないので
エクスポートや印刷で出せるものをそのまま流してもらうしかないのがおそらく今の現状

アナログで対応するというのは、そこはそのまま送り手に負担を強いず
どんな書類が来ても受け側で自動でどうにかできるすげえ力技システム組んじゃいましょうってことで
FAXで受けるなら手書き書類も考慮してるだろうし
(手書きOCRの実用性はググればまあまあ出てくる)
リソースは当然必要だろうけど大学ならAI OCR研究やってるとこと提携して
市販の既成OCRソフトとは規模の違う精度のものが組めるアテがあるのかもしれん
375名無しさん@お腹いっぱい。
垢版 |
2021/08/23(月) 20:18:25.89ID:CYyOePzH0
>>374
> (手書きOCRの実用性はググればまあまあ出てくる)
> リソースは当然必要だろうけど大学ならAI OCR研究やってるとこと提携して
> 市販の既成OCRソフトとは規模の違う精度のものが組めるアテがあるのかもしれん

馬鹿だろお前。
大学の無能教授と無能学生になにが作れると思ってんだ?

作ることが可能ならとっくの昔に存在してるし、
今存在してないならこれから先も作ることは不可能なんだよ。
作れる人間が生まれてくるまではな。
2021/08/23(月) 21:54:40.53ID:YrGASWyP0
うるせえ
よそでやれ
2021/08/23(月) 22:10:01.75ID:OlmLkjoZ0
FAXに続きスマホも使ったことない人なのか
https://i.imgur.com/gyeNbob.jpg

googleのこのOCRエンジンがGCV登録すればAPIで使えるので
個人でも高精度OCRアプリが作れる時代ですよ

お金出せば使えるそこそこ運用実績のあるシステムもググれば出てくる
(存在してる)
https://www.tegaki.ai/
2021/08/23(月) 22:12:17.86ID:OlmLkjoZ0
あっ紙に書いたID 自分のじゃないやん間違えちゃった
痛恨のヒューマンエラー
379名無しさん@お腹いっぱい。
垢版 |
2021/08/23(月) 22:46:53.84ID:CYyOePzH0
俺はGoogle検索しただけで50万円請求されたからね。Googleから。2回ほど。
馬鹿は50万でも一千万でも請求されてろ。
380名無しさん@お腹いっぱい。
垢版 |
2021/08/23(月) 22:53:28.53ID:CYyOePzH0
> Cloud Vision API には画像解析のための各種機能があります。どの場合でも、ご利用いただいた分だけお支払いいただきます。最低料金などは設定されていません。

> TEXT_DETECTION 画像内のテキストに対して光学式文字認識(OCR)を実行します。

> 1,001〜5,000,000 ユニット/月
> テキスト検出 $1.50

あら、お安い。
> 1,000 ユニットあたりの料金

5,000,000 ユニットの料金は$7,500
381名無しさん@お腹いっぱい。
垢版 |
2021/08/23(月) 22:54:59.36ID:CYyOePzH0
日本円だと82万円だね。お安いね。
2021/08/24(火) 08:18:42.85ID:6FahnTPL0
50万2回請求ってw
規約も読まずにOCRしまくっちゃったの?

> 日本円だと82万円だね。お安いね。
500万ユニットが月に処理する回数として妥当値なのか知らんけど
運用費用としてはありなんじゃないの
日本中のコロナデータ集積して人力入力させてる人件費を考えたら
383名無しさん@お腹いっぱい。
垢版 |
2021/08/24(火) 09:19:52.10ID:NY7D9FCw0
>>382
>Google検索しただけで

字も読めないほど耄碌したの?

OCRする人件費がないから日本中の自治体でワクチンの発注ができなくなったのを忘れたの?
2021/08/24(火) 09:58:03.25ID:6FahnTPL0
人に説明するの下手な人か
今更だが触っちゃいけないタイプだったな
ゴメンな?独り言の邪魔しちゃって
385名無しさん@お腹いっぱい。
垢版 |
2021/08/24(火) 12:44:38.28ID:NY7D9FCw0
>>384
「Google検索しただけで」では説明が下手ですか。

Google検索を一日中繰り返していたらブラウザに請求書が表示されてそれが50万円で請求者はGoogleとなっていました。
チャットで交渉出来たので支払いは免れましたが、「今後このようなことがあれば業務利用とみなし、契約を結んでもらいます。」との事。

業務でGoogleの機能を使えば毎月80万円程度のお金がかかることは >>377>>382 も認めている。
2021/08/24(火) 14:12:24.41ID:6FahnTPL0
???
ごめん何言ってるかサッパリわからない
どういう状況でGoogle検索したら50万も請求が来るのか全く理解できない

> 業務でGoogleの機能を使えば毎月80万円程度のお金がかかることは > >>377>>382 も認めている。

Cloud Vision API は Google Cloudプラットフォームにアカウント登録して
クレジット カードまたは銀行口座情報を入力して初めて使えるサービスだぞ
業務か個人ユースかに関係なく使った分だけの従量課金で
手順踏んでAPIキー取得してAPI叩かなきゃ従量カウントは上がらないし
「Google検索しただけで」勝手に請求が来るような代物ではもちろんない

あと80万かかるのは月に500万ユニット使った場合の話でしょ?
処理回数に応じてそれ以上にもそれ以下もなる
こっちは君が言ったからランニングコストはとしてはありじゃない?って返しただけで
500万ユニットがコロナのデータ集積に毎月かける回数として妥当なのかは知らんよ
387名無しさん@お腹いっぱい。
垢版 |
2021/08/24(火) 14:23:54.92ID:NY7D9FCw0
>>386
> ???
> ごめん何言ってるかサッパリわからない
> どういう状況でGoogle検索したら50万も請求が来るのか全く理解できない

一日中Googleのホームページ(https://www.google.co.jp/)のテキストボックスに検索したいテキストを入力して検索ボタンをクリックすることを繰り返したら
ブラウザに請求書が表示されてそれが50万円で請求者はGoogleとなっていました。
388名無しさん@お腹いっぱい。
垢版 |
2021/08/24(火) 14:31:13.96ID:NY7D9FCw0
>>386
> あと80万かかるのは月に500万ユニット使った場合の話でしょ?
> 500万ユニットがコロナのデータ集積に毎月かける回数として妥当なのかは知らんよ

ユニットが何を意味するか分からんけど一つのブロックだと仮定すると
1ページで30くらいのユニットがあると考えられるので
10万枚処理すれば500万ユニットに近い数字になると思われる。

Googleより
> 米国での感染者数は増加傾向にあり、平均で1日147,420人の新規感染者が報告されている。
147,420*30=4,422,600/月

アメリカの感染者数が毎月442万人出てる計算だから
仮に1ページ1ユニットで計算しても500万ユニットは妥当な数字。

日本の感染者数がアメリカより少ないと言うなら、ユニットが1ページ30で計算すればいいんじゃね?
2021/08/24(火) 17:32:00.46ID:6FahnTPL0
一日中つったって手動で検索繰り返した程度で50万請求が来るような検索回数になるとはとても思えないんだけど
マルウェアが裏でF5アタック繰り返してたとかじゃないの知らんけど

https://cloud.google.com/vision/pricing?refresh=1
ユニットは1枚の画像に対し適応する機能タイプ別に発生する
1枚の書類(画像)に対してテキスト検出(OCR)しかしないのであればユニット数は1
結果はjson形式ファイルで画像中にブロックがある場合はで個別に分けて取り出せる
https://cloud.google.com/vision/docs/ocr?hl=ja
2021/08/24(火) 18:53:54.94ID:U1hPfsKA0
うるせえ
よそでやれ
391名無しさん@お腹いっぱい。
垢版 |
2021/08/24(火) 18:57:00.72ID:NY7D9FCw0
>>389
おまえさあ、Google検索してて「私はロボットではありません」って表示出たことある?

その表示が出るまでに何回検索してるか分かる?
そして検索にいくらかかったか分かる?

著作権裁判だと単に製品の代金だけじゃなく懲罰的請求をされるって知ってる?
アメリカだと自分でコーヒーこぼしただけで3億円も請求されるんですよ。
50万円って実質無料でしょ。
2021/08/24(火) 19:06:08.39ID:ubSdBvKx0
詭弁 答えのない問題に対して他の場所で出た答えを持ち出して
その答えはあの問題と同じだよと根拠もないのに言い張ってるだけのキチガイ
お前の言ってることは何の答えにもなってない
2021/08/24(火) 19:33:29.79ID:6FahnTPL0
何言ってるのかさっぱり分かんない
やっぱ会話無理な人か

>>390
ゴメンねもうやめるわ
394名無しさん@お腹いっぱい。
垢版 |
2021/08/24(火) 19:35:22.71ID:NY7D9FCw0
>>392
答えは最初っから言ってるだろ。Google検索したらGoogleから50万円請求されました。

お前が信じないだけだ。
ソースは出せない。

お前は企業がどういうときに金を請求するか知ってる?
費用が掛かった時だよ。
チンピラがたまたま目の前にいた通行人に金を請求するゆすりたかりとは違うんですよ。

じゃあ、どういう場合に「私はロボットではありません」って表示を出すか分かる?
無駄な費用を抑えるためですよ。

金を請求するのと「私はロボットではありません」と表示するのは目的が同じ。
お金ですよ。
かかった分請求するか、最初からかからないようにするかの違いだけ。

俺が50万円請求された証拠は出せないが、「私はロボットではありません」と表示される問題は無数にソースがある。
どれくらい検索していたかもその証言から推定できる。
そしたら、少なくともどれくらい使ったらGoogleが許容できない費用がかかっているかも推定でき、
50万円を請求するとしたらどれくらいの検索をしたかも推定できるはず。頭のいい人なら。

日本人は、どれだけ使ったらいくら請求と言う計算はできるけど、
いくら請求されたらどれくらい使ったかっていう計算は出来ない。
そう言う典型的日本人が>>392
2021/08/24(火) 20:12:01.67ID:PyFmfN7N0
論点1 QRコード化が可能か不可能か
論点2 人名が読み取れているか否か
論点3 手書きに対してOCRが有効かどうか
論点4 送信に成功したかどうかが分かるか

1 現場にしか分からないが個人単位では不可能ではない
2 現場にしか分からないが個人単位では不可能ではない
3 現場にしか分からないが個人単位では不可能ではない
4 現場にしか分からないが個人単位では不可能ではない

これだけの話なのに論点5のgoogle検索しただけで50万請求された人がいる
が一番どうでもいいし馬鹿らしいんだが 自覚しろよ
2021/08/24(火) 20:15:34.99ID:PyFmfN7N0
当然論点6のOCRの活用が現場で可能かどうかも現場にしか分からない
こんな所で無能だなんだ言ってないで現場に連絡取る位の努力しろよカス
2021/08/26(木) 22:54:38.68ID:fktTc4eK0
日本語横書きで時々アルファベットの引用を含んでいる文章をAcrobat の OCR で認識させるとアルファベットの一部の認識が失敗します。オプションは日本語文章を選んでおります。アルファベットもうまく認識させる方法はないでしょうか。
398名無しさん@お腹いっぱい。
垢版 |
2021/08/27(金) 20:30:24.89ID:939FgqXL0
この車のナンバーって人工知能で解析できんかね。
http://himado.in/492909
399名無しさん@お腹いっぱい。
垢版 |
2021/09/11(土) 09:26:02.33ID:XEPKqxnl0
CloudのAI OCRではGoogleのCloud Visionが優れていたが
最近AzureのCognitive Serviceを試してみたところ
文字の認識誤りの少なさではさらに上回る

ただし課題もあり、右から左へ改行していく縦書き文書を
左から右へ認識するので、行の順序が逆になる
読取順序をbasicからnaturalへ変えても同じ

幸い出力のjsonには座標情報が含まれているので
スクリプトによる後処理で行を並び替え
ついでにルビも削って整えているが
この辺をうまくやってくれるGUIがほしいところ
2021/09/11(土) 10:34:50.20ID:LOlOzN870
そのスクリプトは公開してるの?
PythonでGUI作れるかも。
401名無しさん@お腹いっぱい。
垢版 |
2021/09/11(土) 11:06:47.97ID:XEPKqxnl0
>>400
公開するほど大したことない
AzureのAPIとのやりとりはPythonで
後処理はluaでやっている(速いしYAMAHA使いなので)

小ネタで、Google Cloud Visionには
Microsoft Automate Desktop が何気に対応していて
フォルダ内の画像に一括OCRをかける程度なら
ノーコードで簡単にGUI化できる
2021/09/11(土) 14:41:17.75ID:e30+Z8z90
e.Typistは終了
読取革命も終了
企業向け帳簿用以外の個人用OCRはもうおしまいだ
403名無しさん@お腹いっぱい。
垢版 |
2021/09/15(水) 20:58:46.28ID:Vw0PVGR20
日本語OCRはくそ
404名無しさん@お腹いっぱい。
垢版 |
2021/09/16(木) 07:00:29.94ID:oHPqQDLA0
ニーズはあるはずなのに程よくまとまったアプリがない
スクリプトでGoogleなりAzureなりのAIを使えば
認識精度は高いけど、求めるのはそれじゃない

画像をクラウドへ送りたくない向き用に
いわば認識エンジンをローカルへダウンロードできる
Docketの仕組みもあるし、
誰か小綺麗にパッケージ化してくれたら買うのにな
2021/09/17(金) 00:22:23.73ID:0acrvs2j0
>>404
それ、tesseract以外で作るのなら、エンジンライセンスだけで安くて数十万かかるんじない。買うって法人で買うの?
406名無しさん@お腹いっぱい。
垢版 |
2021/09/17(金) 02:47:20.06ID:7J187VR90
自前で日本語認識エンジン作って遊ぼうとしてるけど、かなり難易度高い。
特に日本語は文字種が多くて、しかも英単語とか普通に混じってくるし。
売り物としたら数十万の売値になるくらい、計算機回してるわ

後半(文字の場所が分かっていて、それをテキストにする)はできたけど、
前半(どこに文字のboxがあるか)を当てるところで苦しんでる
407名無しさん@お腹いっぱい。
垢版 |
2021/09/17(金) 07:14:06.31ID:pFveJpOG0
>>405
それがMicrosoft AzureのDockerなら
目安として1,000枚あたり112円の完全従量制で
個人でも検討範囲に十分入るんだ
エンジンはローカルで、クラウドとは
課金のための小容量の通信が時折発生するくらいで
2021/09/17(金) 12:13:11.15ID:wHT5xdlK0
Dockerってそういう使い方できるのか、ちょっと触ってみようかな。
2021/09/18(土) 12:21:57.09ID:q+UM7OU/0
>>406
CenterNet を試してみては如何ですか?
物体の中心を特徴点として検出した後、幅・高さのサイズを予測する手法です
2021/09/18(土) 14:19:37.46ID:kRyIOOu20
OCRも光学読み取りの精度にこだわりすぎずにBARTなどの文脈推定を入れればトータルの性能が上がる気がする
411名無しさん@お腹いっぱい。
垢版 |
2021/09/18(土) 14:25:05.85ID:nHCGcW6c0
BERTっていうのね これ面白そうだ
小説でpre-trainedなモデルってあるのかな
2021/09/18(土) 14:40:51.41ID:Bzc3NP9C0
https://nlp.ist.i.kyoto-u.ac.jp/?BART日本語Pretrainedモデル
413名無しさん@お腹いっぱい。
垢版 |
2021/09/18(土) 18:05:35.08ID:eBkRmb3c0
>>409
サンクスです。良い手法を教えていただきました

今やってるモデルは、u-net ベースで、CenterNetの中心ヒートマップを使ってる
感じです。
これを参考に改造して作ってます。
https://github.com/tanreinama/OCR_Japanease

lossを調整したら、ほぼうまく行くようになってきました。
完成したら公開しますので、また来ます。
2021/09/19(日) 08:55:39.56ID:nf9M18go0
>>413
お役に立てたようで良かったです。成果を楽しみにしております。
2021/09/30(木) 21:55:51.09ID:VNbgOTa80
>>269
Acrobat pro DC (2015年の製品版)をまだ使ってるんだけど、
横書きの整備マニュアル370Pを
Canonの複合機TR9530のADFで地道にスキャンして(400dpiカラー)
CanonのPDFソフトでPDF化(OCR有)したものと、
それをAcrobatで再OCR化(圧縮無し)したものを比べてみた。
2021/09/30(木) 21:56:43.99ID:VNbgOTa80
検索は全て完全一致無しのオプションで。
検索文字「バッテリ」
Canon  286件
Acrobat  262件

検索文字「ボルト」
Canon  290件
Acrobat  270件

検索文字「注意」
Canon  506件
Acrobat  215件

検索文字「交換」
Canon  419件
Acrobat  418件

検索文字「目」
Canon  66件
Acrobat  77件
2021/10/22(金) 18:41:13.88ID:KWvJbojp0
キヤノンの優秀だね。自社エンジンなのかなぁ
2021/10/22(金) 22:01:30.34ID:CBrjiuuX0
ぺパレス電子化コラム - OCRソフトの比較
ttps://pepaless.com/column/180614_01/
画像部分とか、網かけ部分とかの認識も優れているかどうかはわからないけどね。
2021/10/27(水) 11:37:37.49ID:UgMif3Au0
>>418
コレ三年前の記事かよ。
つってもソフトは当時のバージョンとほとんど同じだから、実害はなしか。

『読取革命』も最新版だからって、とくに画期的に変わった訳でもあるまいに。
420名無しさん@お腹いっぱい。
垢版 |
2021/12/02(木) 01:05:23.86ID:0IUMVg7L0
Tesseract OCRのリリース5.0.0がでたわよ!
https://github.com/tesseract-ocr/tesseract/blob/main/ChangeLog
2021/12/11(土) 14:03:43.57ID:m2OgodYX0
読取革命16買って少し使ってみたけど、白抜き文字の認識(日本語)泣けるほど弱い。総合的にみて、Canonスキャナ付属Capture PerfectとOCR精度はあまり変わらない気がする。白ぬき文字については進化が止まっていることを実感させられる。泣けてきた。
2021/12/11(土) 14:30:29.15ID:+ocplaTK0
本当の評価ポイントは
校正のしやすさなんだがなあ
2021/12/11(土) 16:24:54.51ID:Q8aFwsdH0
以前の読取革命15体験版の感想だけど

読んdeココみたいな認識結果や候補文字を種別ごとに色分け表示する機能が無いからから
外見が似た文字の見分けが付かず
校正に苦労する印象だった
カタカナ「に」と漢数字2、長音符号とハイフンとダッシュと漢数字1、数字1と英字エルとかね
いちいち別ソフトにコピペしてコードポイント確認する作業した記憶ある

16で改善されてますか?
2021/12/11(土) 21:50:27.92ID:m2OgodYX0
>>423
認識結果の文字種を色分けすることはできなさそう。ソフトが間違って認識してるかもという文字が赤色になるだけ。認識結果のテキスト表示フォントは変えられる。
HPには認識結果を読み上げる機能があるとなっているが、アイコンがグレイの状態で読み上げられない。ヘルブにも読み上げ方法の記載はないが、ver15応用編のヘルブにはPC talkerがいるように書いてある。もし16にそれがあてはまるなら、優良誤認だろっていう感じ。
あと、話題がずれるが、読み取った結果でpdf出力する場合(透明テキストでなはなく)、フォントが、MS明朝かゴシック(等幅かP)しか選べないのはビックリした。
2021/12/11(土) 22:54:22.88ID:Q8aFwsdH0
>>424
返答ありがとうです
とても参考になりました

表示フォント変えられるなら、改善待つより校正用のフォントを自作する方が早いのかもしれないですね
2021/12/12(日) 00:58:57.76ID:flVhFSAg0
miguフォントを使ってみな
2021/12/12(日) 01:04:33.72ID:flVhFSAg0
読取革命を10年以上使い続けて
それなりのノウハウがたまってきたんで
そのうち小出しに紹介したい
2021/12/12(日) 08:42:52.12ID:DPqdfiih0
表を表のままocrできたりしない?
2021/12/12(日) 15:02:19.21ID:6Ne5KHfK0
>>428
領域の属性をテキストとか画像とか表とか設定できる。
各行の背景が白、グレイ、白といった表は読取革命16でエクセル出力したら、一つのセルに全部入ってしまってダメだった。Just pdf4ではうまくエクセル出力できたが(一つのセルに表の1要素が入ってくれる)。
実線で区切られる表なら、うまくいくのかもしれないが試してない。427氏に期待したい。
2021/12/12(日) 17:38:08.22ID:flVhFSAg0
すまねえ、すまねえ……
得意分野は小説のテキスト化なんだ……
2021/12/12(日) 20:38:10.99ID:HW00Chvv0
>>430
話しことばの"いるんだ"などは
どのように処理っされてますか?
etypist使いですが毎回、認識エラー候補になり、確認が面倒です。
2021/12/12(日) 21:56:15.22ID:flVhFSAg0
待ってくれ

どうやら俺が持っているノウハウの方向性と、皆の期待している方向性とが違う可能性が高いようだ

実は俺は>>75なんだ

校正作業するのが前提でその効率化のノウハウなんだ
2021/12/12(日) 22:53:11.11ID:VxJSq+w60
OpenCVとTesseract-OCRで作る表のOCRツール rev1
https://ymt-lab.com/post/2021/table-recognition-tool-rev2/
2021/12/13(月) 11:36:19.13ID:jLNnEax80
>>432
最近自炊小説をetypistでテキスト化(そのあと合成音声化)を始めたものです
校正作業の効率化ノウハウをぜひ教えてください!
2021/12/15(水) 21:24:42.83ID:dHfR+Ceb0
まずはデカいモニタ必須
マクロ登録できるキーボード エレコムのTK-DUX30BKおすすめ 同機能のソフトで代用可

読取革命15 体験版しか使ったことない
Oracle VM VirtualBox等 ごにょごにょ
2021/12/17(金) 00:57:11.07ID:NfrEGe8e0
いま流行りの AI を使って認識率を高めるような OCR ソフトはないのかな。業務用じゃなくて個人用で。
Google の OCR ソフトは認識率はいいのかな。Google Docに変換しないと使えないという不自由さはさておいて。
437名無しさん@お腹いっぱい。
垢版 |
2021/12/17(金) 19:30:14.86ID:gQDiVMg+0
>>436
pythonやpowershellなどでスクリプトを組めば
googleなりAzureなりのAIを利用したOCRそのものは
そう高くなく、認識精度もごく高い
(画像1000枚あたり100円台)

現状、見栄えの良いGUIがないだけ
2021/12/17(金) 20:45:06.62ID:NfrEGe8e0
>>437
ありがとうございます.

>pythonやpowershellなどでスクリプトを組めば
両方とも経験がないのでこれから勉強しますが,参考になるスクリプトのHPはどこかにないでしょうか?

アクロバットのOCRのようにもとの文字の上に透明文字を配置してくれるのでしょうか.もとの資料上にハイライトや検索が必要なので.
2021/12/17(金) 21:15:37.54ID:CWuXF4+80
手前味噌ですがコレなどw

https://github.com/dinosauria123/makepdf
2021/12/17(金) 21:20:54.87ID:CWuXF4+80
こちらも

https://remoteroom.jp/diary/2017-10-12/
2021/12/18(土) 14:14:33.30ID:dtKgeMNR0
>>439,440
ありがとうございます。
440は439の内容は同じですか。

Cは昔使った記憶があるのでうがwindowsの環境で動かす方法を忘れました。
ハードルが高そうです。
目的にOCR処理の前に環境を整え使いこなすまでに時間がかかりそうで、逡巡します。
2021/12/18(土) 14:40:57.61ID:AGBm6fvC0
430のgithubの中にwindows用実行プログラムもありますw
2021/12/18(土) 14:43:57.28ID:AGBm6fvC0
Google Cloud VisionのAPIキーが必要です。

https://syncer.jp/cloud-vision-api
2021/12/18(土) 21:04:03.07ID:dtKgeMNR0
>>443
ありがとうございます。
研究してみますね。
445名無しさん@お腹いっぱい。
垢版 |
2021/12/19(日) 01:15:52.64ID:SmDRr8Ij0
ここでヒントもらった、機械学習で文字認識する方法
惜しいところまで来たけど、あともう一声がうまくいかない。
文庫本見開きを与えて、3箇所くらいミスる。特にふりがなとかページ番号
とかのちっさくて近接してるところが鬼門。
Googleとかに投げれば簡単なんだけど、やっぱり自前で解けると
何かと捗るんで是非とも完成させたい
2021/12/19(日) 12:59:45.91ID:rFaLUd6N0
>>435
やはり大きなモニターは必須ですよね。。小さいノートPCで作業しているのできついです。
キーボードへのマクロ登録は、どの作業を登録しているのですか?
2021/12/19(日) 21:57:43.76ID:slxgE1fB0
校正作業を効率化

>>435の続き

条件は>>75
今回は二段組の場合

https://light.dotup.org/uploda/light.dotup.org10755.jpg
スキャン画像をこんな風に作り変える

染みゴミ取り漂白
傾き補正
二段組ページを上下分割余白消し
14ページ分を左右上下に張り合わせて一枚にする
横につなげるときは右から左ね

これ以上ページを増やしたら読取革命で読み込めるけど
テキスト保存したとき字数(行数)?制限で後ろのほうが削られてしまう
たぶん

読取革命の設定こまごま
後述

キーボードマクロ
後述
2021/12/19(日) 22:20:59.74ID:slxgE1fB0
1ページづつ校正していたら手間取りすぎる
まとめちゃえ
2021/12/20(月) 21:26:34.83ID:f979t7aJ0
e.typist使いの私は、マウスにマクロつけてる。
 ・単語登録
 ・次ページ送り+一括置換+全文解析
2021/12/21(火) 10:24:13.91ID:qnmpXEEu0
>>447
ノウハウ助かります!
>>449
e.typistでの「次ページ送り」はマウスで次ページをクリックする以外にショートカットキーなどがあるのですか?
2021/12/21(火) 20:20:01.46ID:QXL1RUnR0
>>449
alt{la} down return f7
をマウスのボタンに割り当てました。
2021/12/21(火) 22:30:27.69ID:XB9tp3vX0
校正作業を効率化

左右上下につなげるソフトはこれ
ImageMerge

読取革命を立ち上げて

オプション環境設定
チェックを入れるもの 
 一般 未確定・・・
 表示 初期 ページ幅
    倍率 ページ幅
    連動

画像読み込み後
右クリックから属性変更
チェックを入れるもの
認識 文字種 ひらがな カタカナ 漢字第一 数字 ユーザー定義 単語辞書
(漢字第二とアルファベット、記号はチェックしない。必要な文字はユーザー定義欄に入れる)

レイアウト認識 1枚づつやったほうがいいと思う
認識したレイアウトを確認 削除統合で整形

文字認識
一行に一文字とかしかない場合読取ミスがあったりするので確認訂正
空白行等も確認
文章を読むのではなく俯瞰して形で見比べる

行頭の字下げスペースとかは後で
■ このスレッドは過去ログ倉庫に格納されています
16歳の水野カイトが封印の刀を見つけ、時間が裂けて黒い風と亡霊の侍が現れ、霊の時雨と契約して呪われた刀の継承者となる場面

ニューススポーツなんでも実況