【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2016/08/09(火) 21:24:11.61ID:zXdCMkkb0
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
2名無しさん@お腹いっぱい。
2016/08/15(月) 08:48:43.19ID:/8XKPL210 213 名前:名無しさん@お腹いっぱい。[sage] 投稿日:2016/08/15(月) 01:37:00.10 ID:FQ3AgcG50
>>211
教えてあげないよ
_,∩_ _,∩_ _,∩_
(_____)ゝ、 (_____) y (_____)
/ :: :: :: ヽ 〉 /-‐:: ::‐-ヽ / / :: :: :: ヽ
_./ (・ )ll(・ ) ∨ _/ 0) i! 0) ∨ _/ ( ・)i!(・ ) ゙、_
// :: :: ∈ゝ :: ::ヽ // :: ‐-‐ :: ヽ // :: ー一 :: ヽ\
. ゝ/:: :: :: :: :: ::ヽ ゝ/ :: :: :: :: :: ヽ ゝ/ :: :: :: :: :: ヽく
 ̄ ̄ | ̄ ̄ | ̄ ̄  ̄ ̄ | ̄ ̄ | ̄ ̄  ̄ ̄ | ̄ ̄ | ̄ ̄
| | | | | |
⊂! !つ ⊂! !つ ⊂! !つ
ジャン♪
>>211
教えてあげないよ
_,∩_ _,∩_ _,∩_
(_____)ゝ、 (_____) y (_____)
/ :: :: :: ヽ 〉 /-‐:: ::‐-ヽ / / :: :: :: ヽ
_./ (・ )ll(・ ) ∨ _/ 0) i! 0) ∨ _/ ( ・)i!(・ ) ゙、_
// :: :: ∈ゝ :: ::ヽ // :: ‐-‐ :: ヽ // :: ー一 :: ヽ\
. ゝ/:: :: :: :: :: ::ヽ ゝ/ :: :: :: :: :: ヽ ゝ/ :: :: :: :: :: ヽく
 ̄ ̄ | ̄ ̄ | ̄ ̄  ̄ ̄ | ̄ ̄ | ̄ ̄  ̄ ̄ | ̄ ̄ | ̄ ̄
| | | | | |
⊂! !つ ⊂! !つ ⊂! !つ
ジャン♪
2016/09/16(金) 18:53:31.42ID:xb+uDKDF0
個人的には流行ってほしいジャンルだけど
基本シェアウェアだしスレの伸び見ても需要無いんだな
基本シェアウェアだしスレの伸び見ても需要無いんだな
2016/10/18(火) 21:15:57.03ID:8+1fcpg80
OCRソフト 製品版
メディアドライブ(株)
e.Typist v.15.0 58ヵ国語対応 直販価格 19,800円(税別)
e.Typist NEO v.15.0 日本語・英語のみ 直販価格 12,190円(税別)
体験版アリ
http://mediadrive.jp/products/et/index11.html
パナソニックソリューションテクノロジー(株)
読取革命Ver.15 直販価格 12,800(税別)
(読取革命Ver.15 lite for Mac同梱)
体験版アリ
http://www.panasonic.com/jp/company/pstc/products/yomikaku/demo.html
ソースネクスト(株)
本格読取4 直販価格 3,400円(税別)
(読取革命の旧製品の再パッケージ版)
http://www.sourcenext.com/product/pc/use/pc_use_000941/
メディアドライブ(株)
e.Typist v.15.0 58ヵ国語対応 直販価格 19,800円(税別)
e.Typist NEO v.15.0 日本語・英語のみ 直販価格 12,190円(税別)
体験版アリ
http://mediadrive.jp/products/et/index11.html
パナソニックソリューションテクノロジー(株)
読取革命Ver.15 直販価格 12,800(税別)
(読取革命Ver.15 lite for Mac同梱)
体験版アリ
http://www.panasonic.com/jp/company/pstc/products/yomikaku/demo.html
ソースネクスト(株)
本格読取4 直販価格 3,400円(税別)
(読取革命の旧製品の再パッケージ版)
http://www.sourcenext.com/product/pc/use/pc_use_000941/
2016/10/18(火) 21:20:32.53ID:8+1fcpg80
現行の出回ってる製品くらい並べろよ>1と思ったら、なんだ? NGワードって?
2016/10/18(火) 21:29:38.69ID:8+1fcpg80
>4に続けて以下のをアップしたかったんだけど、NGワード食らって弾かれるな…。
(株)データデジタルのRealReader Lite 8
(株)エーディーディーのABBYY FineReader 12
アンテナハウス(株)の瞬簡PDF OCR
Rene.E LaboratoryのRenee PDF Aide
(株)データデジタルのRealReader Lite 8
(株)エーディーディーのABBYY FineReader 12
アンテナハウス(株)の瞬簡PDF OCR
Rene.E LaboratoryのRenee PDF Aide
2016/10/19(水) 21:34:25.77ID:rrkqSMxv0
無料で使えるOCR
46ヶ国の言語に対応した無料で使えるオンラインOCR
Online OCR
http://www.onlineocr.net
日本語の解説はココが分かりやすいかも
寝ログ
http://nelog.jp/online-ocr
試してみたが確かにすげえ。
縦書き日本語にも対応していて認識率も悪くない。
ユーザー登録すればできることはさらに増えるが、
でも先方のサーバーにデータが残るということが
不安を拭いきれない。
hpが開発しgoogleが公開したオープンソースOCRソフト
tesseract-ocr
https://github.com/tesseract-ocr/tesseract
オープンソースゆえWindows版も当然あるが、有償無償を問わず
ロクなOCRソフトがないMac/Linuxユーザーはこぞってコマンドラインで
コイツを使うことになる。
スマホ用OCRアプリも含め、コイツを中身に使っているOCRソフトは
少なくない。
46ヶ国の言語に対応した無料で使えるオンラインOCR
Online OCR
http://www.onlineocr.net
日本語の解説はココが分かりやすいかも
寝ログ
http://nelog.jp/online-ocr
試してみたが確かにすげえ。
縦書き日本語にも対応していて認識率も悪くない。
ユーザー登録すればできることはさらに増えるが、
でも先方のサーバーにデータが残るということが
不安を拭いきれない。
hpが開発しgoogleが公開したオープンソースOCRソフト
tesseract-ocr
https://github.com/tesseract-ocr/tesseract
オープンソースゆえWindows版も当然あるが、有償無償を問わず
ロクなOCRソフトがないMac/Linuxユーザーはこぞってコマンドラインで
コイツを使うことになる。
スマホ用OCRアプリも含め、コイツを中身に使っているOCRソフトは
少なくない。
2016/10/27(木) 14:01:52.20ID:Lf4Jkeck0
Googleドキュメントに丸投げが1番楽で精度も高い
つまり上で名前の上がってるようなソフトは今や全てゴミ
つまり上で名前の上がってるようなソフトは今や全てゴミ
2016/10/28(金) 14:32:27.82ID:F8pwlOl00
2016/11/14(月) 10:01:44.38ID:DfhqfMU20
acrobat以外でバラのpdfファイル一括OCR処理できるソフトないんかな。
今まではacrobatのフォルダ(500個ほどのファイル)ごと投げてたんだけど、特定のファイルで毎回止まってて使い物にならん。
今まではacrobatのフォルダ(500個ほどのファイル)ごと投げてたんだけど、特定のファイルで毎回止まってて使い物にならん。
2016/11/23(水) 20:08:39.03ID:egsPu78e0
>>10
結局e.typistで保存するときの、ファイルごとに保存できたから、解決した。
結局e.typistで保存するときの、ファイルごとに保存できたから、解決した。
2016/11/30(水) 19:15:21.26ID:7ipzPm4D0
はじめまして。
現在OCR ソフト作っているものです。
スマホで出来ます。
現在うまく行っております。
現在OCR ソフト作っているものです。
スマホで出来ます。
現在うまく行っております。
2016/12/26(月) 01:47:37.00ID:v6AIeIuc0
スマホでOCR
カメラを内臓しているスマホの方が『買い物した直後にレシートをスキャンしてテキスト化したい』
という需要を満たせるせいか、Windows用ソフトが先細っている間に『Google Cloud Vision API』
という流行りのAIとかディープラーニングの技術を投入したAPIをOCRエンジンにしたスマホアプリが
公開されて成果をあげている模様。
結局自炊にはtesseract-ocrか?
で、この『Google Cloud Vision API』という奴、すこぶる評判が良いを通り越して
『もし的中率100%の占い師とか予想屋が実在したら?』レベルの優秀さだとすると、
自炊でのテキスト化に使用
→正解率が高すぎて手直しの必要がほとんどない
→著作権侵害の温床になりかねない
という名目で、一万円程度のPC用ソフトに搭載されることはないような気がします。
本当はひらがなとカタカナの『へべぺ』『エ工』『口ロ』『ト卜』『タ夕』といった光学的な識別だけ
では限度があるケースを前後の文脈から類推して判別してほしいケースにこそAIとかディープラーニング
の出番と言う気がしますが、ソフトを自作できるレベル以外のエンドユーザーには高嶺の花になるかも
しれません。
という訳で、なんとかしてtesseract-ocrの認識率を上げられないものでしょうか。
カメラを内臓しているスマホの方が『買い物した直後にレシートをスキャンしてテキスト化したい』
という需要を満たせるせいか、Windows用ソフトが先細っている間に『Google Cloud Vision API』
という流行りのAIとかディープラーニングの技術を投入したAPIをOCRエンジンにしたスマホアプリが
公開されて成果をあげている模様。
結局自炊にはtesseract-ocrか?
で、この『Google Cloud Vision API』という奴、すこぶる評判が良いを通り越して
『もし的中率100%の占い師とか予想屋が実在したら?』レベルの優秀さだとすると、
自炊でのテキスト化に使用
→正解率が高すぎて手直しの必要がほとんどない
→著作権侵害の温床になりかねない
という名目で、一万円程度のPC用ソフトに搭載されることはないような気がします。
本当はひらがなとカタカナの『へべぺ』『エ工』『口ロ』『ト卜』『タ夕』といった光学的な識別だけ
では限度があるケースを前後の文脈から類推して判別してほしいケースにこそAIとかディープラーニング
の出番と言う気がしますが、ソフトを自作できるレベル以外のエンドユーザーには高嶺の花になるかも
しれません。
という訳で、なんとかしてtesseract-ocrの認識率を上げられないものでしょうか。
2017/01/01(日) 03:49:51.39ID:i4KtsT1l0
Tesseract-OCR良いね
パソコンのWindows版3.02を使ってみたけどGoogleドキュメントより精度が上だった
無料OCRツールでは一番か?
本当は最新の3.05使いたかったがうまく動かせなかった
パソコンのWindows版3.02を使ってみたけどGoogleドキュメントより精度が上だった
無料OCRツールでは一番か?
本当は最新の3.05使いたかったがうまく動かせなかった
15名無しさん@お腹いっぱい。
2017/01/01(日) 10:45:53.16ID:bJoGCIrB0 >>14
Googleが一番やろ〜w
Googleが一番やろ〜w
2017/01/03(火) 01:48:22.51ID:/4niW42M0
tesseract-ocrの認識率を下げないための工夫
tesseract-ocrで検索すると、認識率を上げるための学習ファイルの作り方を指南したサイトが
それなりにヒットしますが、やはり自炊を目的とした日本語縦書き300ページ程度をOCRするため
の指南役サイトは見たことがありません。仕方なく自分で試行錯誤した結果、
1.スキャンする時に解像度300dpi以上の.tiff形式で行う
※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。
構造上ノイズだらけのjpegだと肉眼には優しくてもソフトウェアにとってはそうではないみたい
で、当初オフィス用複合機のPDFでスキャンしてjpegに変換して読み込ませてみたのですが、そ
の結果は惨憺たるものでした。
所詮はフリーソフトかとその時は思いましたが、ふと.tiffでスキャンしてOCRをかけたところ、
認識率が飛躍的に向上しました。
ちなみに.tiffには拡張子が同じでも複数規格があり、
FujiXeroxの複合機でスキャンする=CCITT Bilevel Encodings G4 FAX T.6
リコーの複合機でスキャンする=CCITT Bilevel Encodings G3 FAX T.4
という圧縮がかかった.tiffファイルが得られます。
どちらも黒白二値で圧縮された形式なので、ページ一枚がjpegだと256KB程度がtiff-G4だと
25.6KB程度、tiff-G3だとその四割増し程度になりますが、tiff同士の認識率に違いはありませ
んでした。
なお他形式やG3からG4への変換は、IrvanVeiwとかLinuxだとImageMagickで一括変換できます
が、元がjpegからだと失われた情報が戻らないので認識率は下がります。
tesseract-ocrで検索すると、認識率を上げるための学習ファイルの作り方を指南したサイトが
それなりにヒットしますが、やはり自炊を目的とした日本語縦書き300ページ程度をOCRするため
の指南役サイトは見たことがありません。仕方なく自分で試行錯誤した結果、
1.スキャンする時に解像度300dpi以上の.tiff形式で行う
※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。
構造上ノイズだらけのjpegだと肉眼には優しくてもソフトウェアにとってはそうではないみたい
で、当初オフィス用複合機のPDFでスキャンしてjpegに変換して読み込ませてみたのですが、そ
の結果は惨憺たるものでした。
所詮はフリーソフトかとその時は思いましたが、ふと.tiffでスキャンしてOCRをかけたところ、
認識率が飛躍的に向上しました。
ちなみに.tiffには拡張子が同じでも複数規格があり、
FujiXeroxの複合機でスキャンする=CCITT Bilevel Encodings G4 FAX T.6
リコーの複合機でスキャンする=CCITT Bilevel Encodings G3 FAX T.4
という圧縮がかかった.tiffファイルが得られます。
どちらも黒白二値で圧縮された形式なので、ページ一枚がjpegだと256KB程度がtiff-G4だと
25.6KB程度、tiff-G3だとその四割増し程度になりますが、tiff同士の認識率に違いはありませ
んでした。
なお他形式やG3からG4への変換は、IrvanVeiwとかLinuxだとImageMagickで一括変換できます
が、元がjpegからだと失われた情報が戻らないので認識率は下がります。
17名無しさん@お腹いっぱい。
2017/01/03(火) 02:13:20.84ID:R8/S2ECj02017/01/04(水) 00:37:05.30ID:orymQRzs0
2017/01/05(木) 20:18:24.04ID:8PejRFef0
ちなみに>16でスキャンする元ネタをjpeg→tiffに変更してどのくらい変わったかというと、
文中の“由美子”というヒロインの名前が、from-jpegスキャンからだと、
由美F 由美汗 由芙干 山芙杆 …芙杆
由美P 由美浙 由芙折 山芙F …芙浙
由美f 由美肝 由芙於 山芙f …芙肝
由美そ 由美託 由芙旛 山芙そ …芙託
由美ア 由美醇 由芙杆 山芙ヂ …美F
由美チ 由美干 由芙浙 山芙浙 …美f
由美ヂ 由美折 由芙F 山芙肝 …美肝
由美モ 由美杆 由芙f 山芙軒 …美チ
由美丑 由美壬 由芙肝 …芙F …美竚
由美予 由芙チ 山美折 …芙P …美升
由美争 由芙ヂ 山美肝 …芙f …美壬
由美十 由芙丑 山美託 …芙チ …美折
由美千 由芙予 山美升 …芙升
由美升 由芙十 山芙丑 …芙折
由美寶 由芙升 山芙十 …芙旛
これだけ豊富なバリエーション()が発生しましたが、from-tiffスキャンからだとほぼブレ
ることなく“由美子”になったので、
「こ、これはハトを殺されたタイソン並みにスゴいのではないか?」と
tesseract-ocrの秘めた実力に驚愕したものでした。
つまり条件さえ揃えばtesseract-ocrの認識率はけして悪くないというか、むしろ認識結果が
思わしくない場合は何らかの事情でスキャンする際にスポイルされた可能性があると考えて、
条件を変えてスキャンしてみるのもひとつの手かもしれません。
文中の“由美子”というヒロインの名前が、from-jpegスキャンからだと、
由美F 由美汗 由芙干 山芙杆 …芙杆
由美P 由美浙 由芙折 山芙F …芙浙
由美f 由美肝 由芙於 山芙f …芙肝
由美そ 由美託 由芙旛 山芙そ …芙託
由美ア 由美醇 由芙杆 山芙ヂ …美F
由美チ 由美干 由芙浙 山芙浙 …美f
由美ヂ 由美折 由芙F 山芙肝 …美肝
由美モ 由美杆 由芙f 山芙軒 …美チ
由美丑 由美壬 由芙肝 …芙F …美竚
由美予 由芙チ 山美折 …芙P …美升
由美争 由芙ヂ 山美肝 …芙f …美壬
由美十 由芙丑 山美託 …芙チ …美折
由美千 由芙予 山美升 …芙升
由美升 由芙十 山芙丑 …芙折
由美寶 由芙升 山芙十 …芙旛
これだけ豊富なバリエーション()が発生しましたが、from-tiffスキャンからだとほぼブレ
ることなく“由美子”になったので、
「こ、これはハトを殺されたタイソン並みにスゴいのではないか?」と
tesseract-ocrの秘めた実力に驚愕したものでした。
つまり条件さえ揃えばtesseract-ocrの認識率はけして悪くないというか、むしろ認識結果が
思わしくない場合は何らかの事情でスキャンする際にスポイルされた可能性があると考えて、
条件を変えてスキャンしてみるのもひとつの手かもしれません。
2017/01/05(木) 20:59:02.85ID:8PejRFef0
続・tesseract-ocrの認識率を下げないための工夫
2.不要な認識候補文字をブラックリストで指定して排除する
※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。
以前tesseract-ocr以外のOCRソフトを使ったときのこと。帳票というか、罫線の中に数字と
カンマとピリオドしかないペーパーをスキャンして取り込むために認識候補を『英数のみ』に
設定してOCRを実行したのですが、
「なんで 2 じゃなくて Z って認識するワケ? 候補を数字だけに絞れば良さそうなのに、
なんでできないの? バカなの? 死ぬの?」
と思ったことがありました。
tesseract-ocrにはホワイトリストとブラックリストというオプションを指定することで、
認識候補文字を制限することができます。
ホワイトリスト=認識候補文字を指定した文字だけに限定する
先程の帳票認識時の様に、認識候補文字を『 0123456789., 』以内に限定したいときに
使いますが、縦書き日本語の自炊目的には使わないので今は捨て置きます。
ブラックリスト=認識候補文字を指定した文字以外に限定する
↑ちょっと変な日本語になってますが、要するに「縦書き日本語の小説にフツーはこんな記号や
文字は出てこないんだから、候補から外せば正解率上んじゃね?」ってことです。
で、実際指定したら間違いのブレ幅が確実に少なくなるので一括置換で修正もやり易くなる
のですが、tesseract-ocr blacklist で検索しても、何故かほとんどヒットしませんでした。
2.不要な認識候補文字をブラックリストで指定して排除する
※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。
以前tesseract-ocr以外のOCRソフトを使ったときのこと。帳票というか、罫線の中に数字と
カンマとピリオドしかないペーパーをスキャンして取り込むために認識候補を『英数のみ』に
設定してOCRを実行したのですが、
「なんで 2 じゃなくて Z って認識するワケ? 候補を数字だけに絞れば良さそうなのに、
なんでできないの? バカなの? 死ぬの?」
と思ったことがありました。
tesseract-ocrにはホワイトリストとブラックリストというオプションを指定することで、
認識候補文字を制限することができます。
ホワイトリスト=認識候補文字を指定した文字だけに限定する
先程の帳票認識時の様に、認識候補文字を『 0123456789., 』以内に限定したいときに
使いますが、縦書き日本語の自炊目的には使わないので今は捨て置きます。
ブラックリスト=認識候補文字を指定した文字以外に限定する
↑ちょっと変な日本語になってますが、要するに「縦書き日本語の小説にフツーはこんな記号や
文字は出てこないんだから、候補から外せば正解率上んじゃね?」ってことです。
で、実際指定したら間違いのブレ幅が確実に少なくなるので一括置換で修正もやり易くなる
のですが、tesseract-ocr blacklist で検索しても、何故かほとんどヒットしませんでした。
2017/01/05(木) 22:06:35.47ID:8PejRFef0
ブラックリストの指定の仕方は行頭に、
tessedit_char_blacklist
と入力して、半角スペースを挟んでNGに指定する文字を続けて列記します。
↓ブラックリストのサンプル(実際は1行に繋がっています)
tessedit_char_blacklist fhijklmnrstuvwxyzABDEFGHIJKNPQRTUVWXYZ7ぁぃぅぇぉゅゎ丿
ァィゥェォヵヶヮ_*/\〆ゝゞヾ,.;=^~'`"[]{}<>〈〉〔〕《》『』【】=‡°
・出現頻度からかな/カナの小文字は全部大文字にさせる
・行頭に#を入れるとその行はコメントとして無効化される
なお上記以外にも日本語には出てこない文字/記号はありますが、ある程度間違える余地を
残しておいた方が後々の校正は容易くなるはずです。
上記のブラックリストサンプルに a と c と o といった丸っこい文字を入れて排除してしまうと、
句点(。)として認識できなかったときに文字ごとエラーと見なされて消されてしまうからです。
(例)
メロスは激怒した。必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した。
メロスには政治がわからぬ。
(間違い)
メロスは激怒したc必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意したa
メロスには政治がわからぬ。
(エラー)
メロスは激怒した必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した
メロスには政治がわからぬ。
tessedit_char_blacklist
と入力して、半角スペースを挟んでNGに指定する文字を続けて列記します。
↓ブラックリストのサンプル(実際は1行に繋がっています)
tessedit_char_blacklist fhijklmnrstuvwxyzABDEFGHIJKNPQRTUVWXYZ7ぁぃぅぇぉゅゎ丿
ァィゥェォヵヶヮ_*/\〆ゝゞヾ,.;=^~'`"[]{}<>〈〉〔〕《》『』【】=‡°
・出現頻度からかな/カナの小文字は全部大文字にさせる
・行頭に#を入れるとその行はコメントとして無効化される
なお上記以外にも日本語には出てこない文字/記号はありますが、ある程度間違える余地を
残しておいた方が後々の校正は容易くなるはずです。
上記のブラックリストサンプルに a と c と o といった丸っこい文字を入れて排除してしまうと、
句点(。)として認識できなかったときに文字ごとエラーと見なされて消されてしまうからです。
(例)
メロスは激怒した。必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した。
メロスには政治がわからぬ。
(間違い)
メロスは激怒したc必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意したa
メロスには政治がわからぬ。
(エラー)
メロスは激怒した必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した
メロスには政治がわからぬ。
22名無しさん@お腹いっぱい。
2017/01/06(金) 17:28:28.61ID:1hEabIWn0 今どきディープラーニングも使わないtesseractじゃね・・・。
自作アプリに組み込んだが、
認識精度は低かったぞ。
自作アプリに組み込んだが、
認識精度は低かったぞ。
2017/01/06(金) 20:13:04.83ID:4Q+G11jJ0
さて、それなりに吟味して作ったブラックリストの内容を記述したファイルをとりあえず
black.conf
とでも名づけて保存しておきます。
当テスト環境はLinux(LinuxBean)なので、文字コードはutf-8、改行コードはLFですが、
Windows環境でこの辺どうすべきなのか、当方には不明です。
あとはシェルスクリプトを介してtiffファイルの数だけOCR処理を繰り返し処理させれば、
マシンパワーに応じた待ち時間の末に同じ数だけtxtファイルが出来上がります。
以下点線の内側をシェルスクリプト ocr.sh として保存します。
----------------
#!/bin/bash
#連番ファイルの1009.tifから1360.tifまでblack.confファイルのブラックリストを
#参照しつつtesseract-ocrでOCR処理を繰り返す
for i in `seq 1009 1360`
do tesseract ${i}.tif ${i} -l jpn black.conf
done
black.conf
とでも名づけて保存しておきます。
当テスト環境はLinux(LinuxBean)なので、文字コードはutf-8、改行コードはLFですが、
Windows環境でこの辺どうすべきなのか、当方には不明です。
あとはシェルスクリプトを介してtiffファイルの数だけOCR処理を繰り返し処理させれば、
マシンパワーに応じた待ち時間の末に同じ数だけtxtファイルが出来上がります。
以下点線の内側をシェルスクリプト ocr.sh として保存します。
----------------
#!/bin/bash
#連番ファイルの1009.tifから1360.tifまでblack.confファイルのブラックリストを
#参照しつつtesseract-ocrでOCR処理を繰り返す
for i in `seq 1009 1360`
do tesseract ${i}.tif ${i} -l jpn black.conf
done
2017/01/06(金) 20:48:52.00ID:4Q+G11jJ0
ちなみにLinuxではファイルとかフォルダの位置関係が重要なので、このスクリプトを
目論見どおり動作させるには、同じフォルダに必要なファイルを全部入れておく必要が
あります。トップディレクトリ直下のDocuments辺りがいいんじゃないでしょうか。
(裏を返すとファイルパスを指定することで全然別のところからも参照できます)
・OCR元のtiff画像ファイル(1009.tif〜1360.tif)
・シェルスクリプトファイル(ocr.sh)
・ブラックリストファイル(black.conf)
tiffファイルが1009から始まっているのは、スキャンした後連番リネームするときに
ノンブル(ページ番号)と同じ番号にしておくとスキャン時に重送しなかったかが
すぐ分かるので便利だからです。つまりこの本は本文が9ページから始まり360ページで
終わっているということです。4ケタなのはゼロ埋めが面倒だからです。
シェルスクリプトを実行すると、できあがったテキストファイルも同じフォルダ内に生成
されます。
・1009.txt〜1360.txt
(連番リネームやファイル連結はやっぱ古兵のvixが便利なのでwine上で愛用中)
なおtesseract-ocrには対象が縦書き文書であることを強制指定するコマンドオプションが
ありますが、これは罠です。そんなものを指定しなくても縦書き/横書きを自動認識しますし、
むしろこれを指定すると段組みを認識しなくなるので指定してはいけません。知らなかった
ばっかりに二段組を上下に分割して以下略……。
目論見どおり動作させるには、同じフォルダに必要なファイルを全部入れておく必要が
あります。トップディレクトリ直下のDocuments辺りがいいんじゃないでしょうか。
(裏を返すとファイルパスを指定することで全然別のところからも参照できます)
・OCR元のtiff画像ファイル(1009.tif〜1360.tif)
・シェルスクリプトファイル(ocr.sh)
・ブラックリストファイル(black.conf)
tiffファイルが1009から始まっているのは、スキャンした後連番リネームするときに
ノンブル(ページ番号)と同じ番号にしておくとスキャン時に重送しなかったかが
すぐ分かるので便利だからです。つまりこの本は本文が9ページから始まり360ページで
終わっているということです。4ケタなのはゼロ埋めが面倒だからです。
シェルスクリプトを実行すると、できあがったテキストファイルも同じフォルダ内に生成
されます。
・1009.txt〜1360.txt
(連番リネームやファイル連結はやっぱ古兵のvixが便利なのでwine上で愛用中)
なおtesseract-ocrには対象が縦書き文書であることを強制指定するコマンドオプションが
ありますが、これは罠です。そんなものを指定しなくても縦書き/横書きを自動認識しますし、
むしろこれを指定すると段組みを認識しなくなるので指定してはいけません。知らなかった
ばっかりに二段組を上下に分割して以下略……。
2017/01/07(土) 01:26:07.83ID:EIbs2jCQ0
>17
まあそう急くなて。
>13にもチラと書いたけど、Google Cloud Vision APIってプログラムとかアプリそのもの
じゃないから、『使え』といわれて使えるひとって既にエンドユーザーじゃないし。
そりゃ話聞くとGoogle Cloud Vision APIって、良い意味で『コレ世に出していいの?』
レベルらしいし、ある日を境に木製複葉機が一斉に時代遅れになったのも知ってるけど、
ジャンルによらず古典に親しむのは大事なことだし、何より初手からそんな最先端使って
ったら、ディープラーニング様の有り難みが感じられないじゃないですか。
変速機のないギヤ比固定のママチャリで坂道を登った経験があるからこそ、人は変速機
付きの自転車に感謝できるのだとは思いません?
で、その一方で変速機ナシの自転車でもギアを交換して坂道を登り易くすることはできない
ことじゃないんだけど、いかんせんこのtesseractってチャリは情報が少なくてね。
tesseract-ocrでどこまで行けるのか、もう少し先まで見てみたいんですよ。
クレジットカードもいらないしね。
まあそう急くなて。
>13にもチラと書いたけど、Google Cloud Vision APIってプログラムとかアプリそのもの
じゃないから、『使え』といわれて使えるひとって既にエンドユーザーじゃないし。
そりゃ話聞くとGoogle Cloud Vision APIって、良い意味で『コレ世に出していいの?』
レベルらしいし、ある日を境に木製複葉機が一斉に時代遅れになったのも知ってるけど、
ジャンルによらず古典に親しむのは大事なことだし、何より初手からそんな最先端使って
ったら、ディープラーニング様の有り難みが感じられないじゃないですか。
変速機のないギヤ比固定のママチャリで坂道を登った経験があるからこそ、人は変速機
付きの自転車に感謝できるのだとは思いません?
で、その一方で変速機ナシの自転車でもギアを交換して坂道を登り易くすることはできない
ことじゃないんだけど、いかんせんこのtesseractってチャリは情報が少なくてね。
tesseract-ocrでどこまで行けるのか、もう少し先まで見てみたいんですよ。
クレジットカードもいらないしね。
2017/01/07(土) 01:50:26.86ID:EIbs2jCQ0
「うわっはっはっ、何を言い出すかと思えば、所詮はクレジットカード一枚作ることが
できない自宅警備員のたわごとではないか。カード一枚と引きかえに最先端のAIや
ディープラーニングが手に入る時代に、tesseract-ocrなどという旧態依然のフリーソフト
にこだわるなどとは笑止千万。本当の最先端が今やどんな高みにまで昇りつめているか、
この私がお目にかけよう」
と、白髪混じりのオールバック美食家なスーパーハカーが登場して、エンドユーザー
にもやさしく解説してくれるなら、アタシは黙って身を引くわ……。
できない自宅警備員のたわごとではないか。カード一枚と引きかえに最先端のAIや
ディープラーニングが手に入る時代に、tesseract-ocrなどという旧態依然のフリーソフト
にこだわるなどとは笑止千万。本当の最先端が今やどんな高みにまで昇りつめているか、
この私がお目にかけよう」
と、白髪混じりのオールバック美食家なスーパーハカーが登場して、エンドユーザー
にもやさしく解説してくれるなら、アタシは黙って身を引くわ……。
2017/01/11(水) 03:41:06.92ID:v+HPhSP90
OCRについて検証したり語らったりできる場所ってここくらいしかないし
tesseract-ocrもなんでも小さな情報でもどんなことでも俺はウェルカムだよー
使い方見たり知ったりすればそれを生かす機会が来るときもあるかもしれないからね
tesseract-ocrもなんでも小さな情報でもどんなことでも俺はウェルカムだよー
使い方見たり知ったりすればそれを生かす機会が来るときもあるかもしれないからね
2017/01/12(木) 00:57:18.93ID:DZC5mCXO0
tesseract-ocrの識字率を上げるためにスキャン画像から学習ファイルを作る手口は、
検索でヒットする幾多のサイトで指南されています。
さながら刀匠のごとく、コマンドを重ねて玉鋼から刀身を作るように順繰りに加工していく
訳ですが、Linux版tesseract-ocrのver.3.03だと途中の unicharset というコマンドが
なぜか実行できず(『そんなプログラムありません』でエラーになる)、ubuntu16.04LTS
(16年4月製長期サポート版の意)でver.3.04を試したらやっと最後の jpn.traineddata
ファイルの生成まで辿り着けたのですが、実はこれと同じ名前のファイルはすでに
アプリケーション側の設定フォルダにあります。
元の jpn.traineddata は30MB超えの、テキストエディタでも開けないようなゴツい代物で、
対する新jpn.traineddata は1MB足らず。ならばあとは旧ファイルの認識がおかしい部分に
新ファイルをマージすれば良さそうですが、その手段が何故か何処の指南役サイトにも書いて
ありません。
旧ファイルに匹敵するサイズの新ファイルをゼロから作るのは現実的ではないと思われますが、
先達がこの辺をどうしているのかは不明。
ちなみにWindows版tesseract-ocrには tesseract-box-editor というMicrosoft .Net
Framework 4.0で動作するアドオンだかがあって、それを使うと新旧ファイルをマージできる
らしいです。
「ネットに載っていないblacklistファイルまで自力で辿り着けたのはなかなかだが、jpn.traineddataが元のままなのはいただけないな」
「!」
「一週間お待ちください。本物のtesseract-ocrの実力をお目にかけますよ」
井上和彦の声で喋るオールバックのスーパーハカーの登場をお待ちしています。切実に。
検索でヒットする幾多のサイトで指南されています。
さながら刀匠のごとく、コマンドを重ねて玉鋼から刀身を作るように順繰りに加工していく
訳ですが、Linux版tesseract-ocrのver.3.03だと途中の unicharset というコマンドが
なぜか実行できず(『そんなプログラムありません』でエラーになる)、ubuntu16.04LTS
(16年4月製長期サポート版の意)でver.3.04を試したらやっと最後の jpn.traineddata
ファイルの生成まで辿り着けたのですが、実はこれと同じ名前のファイルはすでに
アプリケーション側の設定フォルダにあります。
元の jpn.traineddata は30MB超えの、テキストエディタでも開けないようなゴツい代物で、
対する新jpn.traineddata は1MB足らず。ならばあとは旧ファイルの認識がおかしい部分に
新ファイルをマージすれば良さそうですが、その手段が何故か何処の指南役サイトにも書いて
ありません。
旧ファイルに匹敵するサイズの新ファイルをゼロから作るのは現実的ではないと思われますが、
先達がこの辺をどうしているのかは不明。
ちなみにWindows版tesseract-ocrには tesseract-box-editor というMicrosoft .Net
Framework 4.0で動作するアドオンだかがあって、それを使うと新旧ファイルをマージできる
らしいです。
「ネットに載っていないblacklistファイルまで自力で辿り着けたのはなかなかだが、jpn.traineddataが元のままなのはいただけないな」
「!」
「一週間お待ちください。本物のtesseract-ocrの実力をお目にかけますよ」
井上和彦の声で喋るオールバックのスーパーハカーの登場をお待ちしています。切実に。
2017/01/12(木) 01:00:28.61ID:DZC5mCXO0
tesseract-ocrの、30MB超えで開くことすら困難な設定ファイル jpn.traineddata。
この中には日本語認識する際のルール・ファイルが各種入っているようですが、
開けないファイルからどうやって取り出すのか、長らく謎でした。
とりあえず認識結果後の変換マッピングを司る jpn.unicharambigs に関しては、
このコマンドで掘り出して、
$ combine_tessdata -e tessdata/jpn.traineddata jpn.unicharambigs
別ファイル化して修正したのち、このコマンドで再度埋め戻せることが分かりました。
$ combine_tessdata -o tessdata/jpn.traineddata jpn.unicharambigs
tesseract-ocrはver.3.04になって認識率がやや向上し、3.03では
並
ョ
と二文字の並びと見なされていた縦書きの 普 がキチンと一文字と認識されます。
それでも縦書きで三点リーダーが二個(……)並ぶのは不得手らしく、認識結果は
ナカグロが六個(・・・・・・)並びます。
もっとも blacklist で認識候補の記号を制限する前は、羅列するのもバカらしいですが
順列組み合わせで200パターン以上になっていたので、それを思えば検索置換一発で修正
できるようになったのは、楽なものです。
でももっと楽になりたくて、『・ が三個連続したら、問答無用で、… 一個にする』
という修正パターンを書いてマージしたのですが、何故か反映されませんでした。
何がいけないというのでしょう?
3 ・・・ 1 … 1
2 並ョ 1 普 1 (←3.03の場合はこう書けば一文字になると思われる)
この中には日本語認識する際のルール・ファイルが各種入っているようですが、
開けないファイルからどうやって取り出すのか、長らく謎でした。
とりあえず認識結果後の変換マッピングを司る jpn.unicharambigs に関しては、
このコマンドで掘り出して、
$ combine_tessdata -e tessdata/jpn.traineddata jpn.unicharambigs
別ファイル化して修正したのち、このコマンドで再度埋め戻せることが分かりました。
$ combine_tessdata -o tessdata/jpn.traineddata jpn.unicharambigs
tesseract-ocrはver.3.04になって認識率がやや向上し、3.03では
並
ョ
と二文字の並びと見なされていた縦書きの 普 がキチンと一文字と認識されます。
それでも縦書きで三点リーダーが二個(……)並ぶのは不得手らしく、認識結果は
ナカグロが六個(・・・・・・)並びます。
もっとも blacklist で認識候補の記号を制限する前は、羅列するのもバカらしいですが
順列組み合わせで200パターン以上になっていたので、それを思えば検索置換一発で修正
できるようになったのは、楽なものです。
でももっと楽になりたくて、『・ が三個連続したら、問答無用で、… 一個にする』
という修正パターンを書いてマージしたのですが、何故か反映されませんでした。
何がいけないというのでしょう?
3 ・・・ 1 … 1
2 並ョ 1 普 1 (←3.03の場合はこう書けば一文字になると思われる)
30名無しさん@お腹いっぱい。
2017/01/20(金) 21:05:57.72ID:gQQqe6X80 無料で
数式OCRできる方法教えてくれ
数式OCRできる方法教えてくれ
2017/01/22(日) 22:25:34.24ID:/FwmeFUS0
日本語化スレにも書きましたが、
【 名 称 】Capture2Text
【 バージョン 】3.9
【 概 要 】PC画面やポップアップウィンドウなどの文字列取り込み
【 ライセンス 】フリーウェア
【 ウェブサイト 】http://capture2text.sourceforge.net/
【多言語化対応】不明
を使っている人いますか?
日本語化はありますか?
【 名 称 】Capture2Text
【 バージョン 】3.9
【 概 要 】PC画面やポップアップウィンドウなどの文字列取り込み
【 ライセンス 】フリーウェア
【 ウェブサイト 】http://capture2text.sourceforge.net/
【多言語化対応】不明
を使っている人いますか?
日本語化はありますか?
2017/03/05(日) 14:45:05.40ID:UtesglO/0
googleのはなあ…
こいつらに情報渡したくないからいくら良くても使えないわ
こいつらに情報渡したくないからいくら良くても使えないわ
2017/03/14(火) 21:45:43.63ID:Qc719WwL0
逆に言えば渡していい情報ならいくらでも使える。
スマホやタブでスキャンして、資格試験の暗記問題なんかをタイプウェル用のテキストにしようと
思って、試行錯誤した結果googleに落ち着いた。
なんとなくここに来たら、やっぱ同じ結論か。
あとはコンデジ使うかスマホ使うか
スマホやタブでスキャンして、資格試験の暗記問題なんかをタイプウェル用のテキストにしようと
思って、試行錯誤した結果googleに落ち着いた。
なんとなくここに来たら、やっぱ同じ結論か。
あとはコンデジ使うかスマホ使うか
2017/08/20(日) 10:28:25.56ID:Y2wo7t9E0
自炊板に書いたけど、こっちにも置いておくかな。
88 名前:名無しさん@お腹いっぱい。 [sage] :2017/08/20(日) 10:04:39.07 ID:2KZZB/L/
Google Cloud Vision OCR使って検索可能なpdf作るコマンド昔作ったけど、Googleがjsonの形式変えて後ろに余計なものつけたせいで使えなくなったw
直したいけどヒマないな…
https://github.com/dinosauria123/gcv2hocr
Linux用。Bash on Windowsでも使える。
88 名前:名無しさん@お腹いっぱい。 [sage] :2017/08/20(日) 10:04:39.07 ID:2KZZB/L/
Google Cloud Vision OCR使って検索可能なpdf作るコマンド昔作ったけど、Googleがjsonの形式変えて後ろに余計なものつけたせいで使えなくなったw
直したいけどヒマないな…
https://github.com/dinosauria123/gcv2hocr
Linux用。Bash on Windowsでも使える。
2018/03/04(日) 10:09:31.44ID:FYRZq+9m0
自炊版てどこですか
2018/03/04(日) 10:19:37.65ID:NfprRM100
たぶん電子書籍板のことかと
2018/03/05(月) 07:26:58.53ID:wBe53wun0
ありがとうございます
2018/04/07(土) 07:35:39.83ID:H8LepRyi0
所見
サンプルの画像に対してOCRかけて
「この画像に○○のソフトでOCRかけてかけるとこういう風になりました」
ってのないの?
さすがに言葉だけじゃ微妙な感じが全然伝わらないから
サンプルの画像に対してOCRかけて
「この画像に○○のソフトでOCRかけてかけるとこういう風になりました」
ってのないの?
さすがに言葉だけじゃ微妙な感じが全然伝わらないから
2018/04/07(土) 22:12:54.68ID:j2p9bLt50
>>38
自炊技術総合25@電子書籍板のレス番#906に、Windows版VietOCR(=ベトナム語用OCRソフト)を
使った結果のスクリーンショット画像が載ってる。
https://i.imgur.com/tj1ARCW.png
OCRエンジンは毎度おなじみオープンソースのtesseract-ocrを使ってて、VietOCRは
窓口だけのはずなのに、認識した文字列の正解率が横書きのみとはいえ何故か異様に高い。
Linux版は、インストールしてみたけど間違え方が違う程度で、Windows版には及ばなかった。
Windows環境で横書き文書をOCRしたい人は試して欲しい。
#Linux+tesseract-ocrの結果サンプル画像はもう少し待ってくれ
自炊技術総合25@電子書籍板のレス番#906に、Windows版VietOCR(=ベトナム語用OCRソフト)を
使った結果のスクリーンショット画像が載ってる。
https://i.imgur.com/tj1ARCW.png
OCRエンジンは毎度おなじみオープンソースのtesseract-ocrを使ってて、VietOCRは
窓口だけのはずなのに、認識した文字列の正解率が横書きのみとはいえ何故か異様に高い。
Linux版は、インストールしてみたけど間違え方が違う程度で、Windows版には及ばなかった。
Windows環境で横書き文書をOCRしたい人は試して欲しい。
#Linux+tesseract-ocrの結果サンプル画像はもう少し待ってくれ
2018/04/08(日) 00:17:10.29ID:OEAttGvE0
cloudvisionは?
2018/04/08(日) 00:40:34.26ID:q/iTgbtt0
>>39
確かにそれは参考情報と言われれば参考情報だけど
原本が都合よすぎるだろ?
言ってみれば、OCRソフトにとって最も力が発揮出来る状況=ベストエフォート?を示しただけに過ぎないって言うか。
その原本は文字オンリーで図も表もグラフも無くて、しかも1つ1つの文字が人間にとっても明確に視認出来るから。
自炊してる人にとっちゃ家庭用スキャナでスキャンしたものはその原本までハッキリ・くっきりじゃないし、図・表・グラフ・写真・数式あるし
確かにそれは参考情報と言われれば参考情報だけど
原本が都合よすぎるだろ?
言ってみれば、OCRソフトにとって最も力が発揮出来る状況=ベストエフォート?を示しただけに過ぎないって言うか。
その原本は文字オンリーで図も表もグラフも無くて、しかも1つ1つの文字が人間にとっても明確に視認出来るから。
自炊してる人にとっちゃ家庭用スキャナでスキャンしたものはその原本までハッキリ・くっきりじゃないし、図・表・グラフ・写真・数式あるし
2018/04/08(日) 00:49:22.65ID:VYgJDjR/0
Ubuntuで最新tesseractビルドでも高精度認識できたよー
とりあえずスクショだけ
https://i.imgur.com/saI3kEb.jpg
https://i.imgur.com/Gs7Mokj.jpg
ビルドのやり方とかは希望あればまとめます
とりあえずスクショだけ
https://i.imgur.com/saI3kEb.jpg
https://i.imgur.com/Gs7Mokj.jpg
ビルドのやり方とかは希望あればまとめます
2018/04/08(日) 01:18:01.31ID:q/iTgbtt0
2018/04/08(日) 01:19:35.90ID:q/iTgbtt0
OCR認識に満足してる人
数式・化学式が沢山ある理科系のページをOCRかけてごらん
グチャグチャになるよ
数式・化学式が沢山ある理科系のページをOCRかけてごらん
グチャグチャになるよ
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国、日本渡航に再警告 「侮辱や暴行で複数の負傷報告」★2 [ぐれ★]
- 高市早苗氏「“裏金問題”の調査をすると約束しましたが調査結果を公表するとは約束してません」 [バイト歴50年★]
- 【台湾有事】トランプ氏 電話会談で高市総理に発言抑制を要求か 米メディア報道… ★11 [BFU★]
- 【足立暴走男の母親が涙の謝罪】「医師から運転を止められていた」母が語った事件の背景 男は数年前から統合失調症 最近薬を変え… [ぐれ★]
- 高市総理の「そんなことよりも」発言を釈明 木原官房長官「急いで話題転換する趣旨」 [ぐれ★]
- 【中国国防省】日本は戦争犯罪を悔い改め、憲法改正と軍備増強という危険な試みをただちに改めよと発信… [BFU★]
- 【実況】博衣こよりのえちえち4周年カウントダウン🧪
- 高市早苗、怒号「岡田呼んでこいやぁ!」 [856698234]
- まったり進行おじゃる丸ハウス🏡
- VIPでウマ娘
- 【悲報】米メディア「高市早苗は外交の泥沼に自ら足を踏み入れた間抜け」 [714769305]
- 日本の中高年ネット民「「徴兵制復活してほしい!中国と戦争したい!」 」
