【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
2016/08/09(火) 21:24:11.61ID:zXdCMkkb0
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
2020/02/04(火) 10:31:25.64ID:/JmtElp90
Googleドライブに入れてGoogleドキュメントで開いて…のOCRって、使用量に
何か制限があるのかねえ?

1枚に2000文字程度書かれたビットマップファイルを1800枚ほどOCRしてたら、
途中なぜかGoogleに繋がらなくなった。(googleトップページにも繋がらない・
Google以外は問題なく繋がるので回線の問題では無い)
怪しい利用者と思われ、ロックアウトされたのかねえ?
色々やってたら(20分ぐらい?)復活したが・・・


最初e.TypistOneを使ったが、誤認識があまりにも多く断念。

プログラミングのスキルがあれば Google Cloud Vision API を使うアプリ
を作るのだが、無いのでGoogleドライブ経由で利用。

一旦全てのビットマップをGoogleDriveに入れ、ブラウザ上で、
(1) ビットマップファイルをGoogleドキュメントで開く
(2) 書式無しテキストでダウンロード&閉じる
(3) 処理の終わったファイルをDriveから削除
という一連のマウス操作を、UWSCというアプリを使って記録、繰り返し再生し
てる。(1枚約1分)
2020/02/04(火) 12:00:35.26ID:vX8l0M8h0
Google DriveでのOCRで上限を感じたことはない。
でも1800枚は時間なり量なりの制限にかかるのかもね。

同じ作業をPowershellのスクリプトで行っているが、
無料のGoogle Driveと有料のCloud VisionAPIとでは
認識結果が異なり、精度は意外にも前者が高く、
処理速度は後者が速い。ゆえに使い分けている。
2020/02/04(火) 13:11:16.64ID:/JmtElp90
>>197
>無料のGoogle Driveと有料のCloud VisionAPIとでは
>認識結果が異なり、精度は意外にも前者が高く、
これは意外&嬉しい情報です。 ありがとうございます。

まだ細かくは見ていませんが、Google DriveでのOCR結果は満足いく物のようです。
2020/02/04(火) 20:20:23.79ID:vX8l0M8h0
UWSCは自分も使っている。良いソフトだね。
でもUWSCのスクリプトが組めるならば、
PythonなりPowershellなりへの移行も容易では?
速度が当社比10倍にはなると予想。
2020/02/04(火) 21:22:14.83ID:q1VdwANZ0
OK
2020/02/04(火) 22:00:57.38ID:PXcUvqQM0
この辺?

https://qiita.com/rarara_x16/items/639ebc3069c4d5a4fb8a
2020/02/04(火) 22:06:17.89ID:PXcUvqQM0
https://github.com/thinkAmi-sandbox/google-api-python-client-sample/blob/master/README.md
2020/02/05(水) 11:23:36.13ID:XnWtIzCm0
>>199
とりあえず今回は、Google-Drive+UWSCでTEXT化を終えました。
次回があればCloud VisionAPIも検討します。
(何もインストールせずに使えるということで、とりあえずPowerShellで
「Hallo World!」を表示させてみた)

参考に教えて頂きたいのですが、>>197でGoogle Driveより精度が低かっ
たと書かれているCloud VisionAPIは DOCUMENT_TEXT_DETECTION か
TEXT_DETECTION のどちらでしょうか?
2020/02/06(木) 15:41:42.18ID:6cev/IWh0
Foxit PDF は英語と日本語を混ぜてスキャンするとエラーになる?
2020/02/16(日) 22:18:12.73ID:jLFeBzYu0
>>189
ありがとうございます
1200dpiのスキャナー欲しくなりましたw
206名無しさん@お腹いっぱい。
垢版 |
2020/02/29(土) 06:41:24.12ID:JcjcxIj30
昭和40年頃の手書き青焼きのコピー(A4 23行×100P以上)をテキスト化したいんですが
そういう悪条件につよいソフトって家庭用で存在しますか。
ゴミ、旧漢字、略字・・・ 「多」の上が「ヨ」だったり
207◆JAVA/drQNg
垢版 |
2020/02/29(土) 08:46:14.92ID:zMAPSh9k0
Adobe Acrobat はバージョンが上がるごとにOCR精度は向上しますか?
2020/03/04(水) 10:38:36.74ID:a2j2NwzM0
とりあえず「Capture2Text」使ってみたんだけど、まったく使えなかった…
これ常用してる人いる?
2020/03/10(火) 07:56:51.41ID:m0UgLSDQ0
そんな使えないの誰もいないでしょ
2020/03/10(火) 09:51:38.16ID:5unq0kZC0
使いこなせないアホなどいないと言いたいのか
使えないから常用者がいないと言いたいのか
2020/03/10(火) 18:32:34.56ID:s+annSAc0
Capture2Textはtesseract & Google翻訳のフロントエンドとしては有能だぞ
基本よその国のマンガやゲームのフキダシを母国語に翻訳しながら読む用途向けなので長文は苦手だが
tessdataをtessdata_fastと入れ替え jpn_vert.traineddataも足せばOCR精度は多少マシになる

あとググってたら Capture2TextみたいなのをGoogle OCR でやってるツールもあった
SSTRとかいうの
要GCPキーだがクソ速い
2020/04/16(木) 08:24:43.33
さっきPDF-XChange Editorの最新版(フリー)を入れたんだが、これめっちゃ機能多いな
無料版だから殆ど使えないけど、こんな機能豊富なアプリ見せられたら買いたくなってくるんだが、
実際はどうなんかな?
5000円ぐらい何だが、買う価値ある?
自炊愛好家にとっては画像圧縮とOCRの機能がどの程度なんかが超重要なんだが、有料版使ってる奴居たら意見聞きたい
2020/04/18(土) 09:56:41.39ID:GR24ABzs0
あるある。絶対買うべし
2020/04/20(月) 18:31:31.52ID:tcsUxc360
小説テキストデータ化の最終工程で
>>77の通りやってるんだけど
スキャンした元画像の行間がいまいち狭くてやり辛い

スキャンしたテキスト画像の「行間だけ』を広げることのできるソフトはないもんだろうか
(当然用紙の横幅が広がるのは問題なし)
メチルでできるかと思って設定をいろいろいじくりまわしてるんだけどうまくできない
2020/04/25(土) 22:50:37.58ID:AhIDEN180
( ´・ω・) 民珍♪
2020/04/26(日) 15:34:50.65ID:rCDPnaLP0
>>206
昭和44年の手書き謄写版印刷物をスキャンして試してみました。
Googleドライブにアップロードして、Googleドキュメントにすると、認識率9割以上でした。
2020/05/06(水) 21:23:20.10ID:nnBg0Ieg0
スキャン後のPDFファイルに透過ocrテキストを組み込むことや削除をすることはできますか?
スキャン代行600dpi+ocrをつけて依頼しようかと思っています。
透過ocrテキストが不満な場合、後日(〜数年後等)に発売されるかもしれないocrソフトやgoogle等のocrでpdfファイルに
透過テキストを組み込みこんだり削除したいです。
やったことがなく、詳しい人いましたら教えてください。
218名無しさん@お腹いっぱい。
垢版 |
2020/06/22(月) 20:49:34.26ID:2bHPYWAT0
自分用に作ってみました。
良かったらどうぞ。
https://eznavi.net/app/index2.php?pagetop=63&;only=one
219名無しさん@お腹いっぱい。
垢版 |
2020/07/13(月) 21:18:26.68ID:gPuYxjHp0
質問です。
OCR化ソフト:読取革命
音声出力アプリ:EZ PDF reader
1ページのうち複数のパートに分かれたものをOCR化した順にスマホで音声読み上げしたいのですが、
読取革命側で順番を指定してOCR化しても、スマホアプリ側で音声出力の際に最初のパート以外の順番がバラバラになってしまいます。
おそらくアプリ側の問題なのでPDF読み上げの新しいアプリを探しているのですが中々見つからず、おすすめを教えてほしいです。
MOON proは音声出力時にエラーで強制終了でした。。
2020/07/14(火) 04:07:13.49ID:btizt7Lj0
>>219
読取革命が読み取った結果をPDFに出力するのは何故?
Textファイルに出力したら?
221名無しさん@お腹いっぱい。
垢版 |
2020/07/14(火) 19:02:18.52ID:qgULxFnG0
>>220
テキストファイル出力での読み上げアプリも2つ試したのですが、
文字化けや改行の挿入、いったんアプリを閉じて再度開いた際に前回の再生位置から開始が出来ないなど、
文庫サイズのテキストを読む際での不都合が多かったです。
PDFアプリの方も現在使用しているez pdf reader以上に動作の安定したアプリが中々見つからず、
スレチで申し訳ないのですがスマホ端末での音声出力メインでOCR化されてる方がいれば、、と思い質問させて頂いた次第です。
222名無しさん@お腹いっぱい。
垢版 |
2020/07/15(水) 10:23:16.57ID:+UBXBhCo0
>>221
Androidは、使用してないので分かりませんが
iPhoneならVoice Dream Readerがオススメです。個人的に。
223名無しさん@お腹いっぱい。
垢版 |
2020/07/17(金) 10:09:33.44ID:Lff+9EMv0
>>222
試してみます。有難うございます。
224名無しさん@お腹いっぱい。
垢版 |
2020/07/17(金) 19:57:43.35ID:CK7EEHYK0
>>223
Voice Dream Readerでテキスト読み上げさせるには、読取革命で生成されたままだと
文字化けすると思いますよ。
メモ帳で開いて文字コードをANSIからUTF-8に変更保存が必要です。
最近は使用してませんが以前自分も、読取革命でOCRしてましたので。
2020/07/18(土) 22:53:37.67ID:VCDm/xwf0
qiitaでOCRを検索したら、日本語に対応したオリジナルのOCRが公開されていた。

フリーの日本語OCR(と学習済みのモデル)を公開しています。
 ttps://qiita.com/tanreinama/items/e171449e66d5221afe7e

日本語OCRを作ったので解説してみる
 ttps://qiita.com/tanreinama/items/8fc1c8af6554654aae00

GitHub
 ttps://github.com/tanreinama/OCR_Japanease

すげい良さげなのでインストールしてみたのだが、GPUがないせいかどうなのか、
うちの環境ではPytorchとかCUDAのインストールがうまくいかなかった。

Linuxを使える誰か、試してみてはくれまいか。
2020/07/18(土) 22:59:29.26ID:eAsZD6lp0
GPUなしでも動かせるみたいだしWSL入れたらwin10でもいけんじゃね
2020/07/20(月) 11:49:35.26ID:ND5jwxL20
tegakiとか簡単に開発できるらしいけどフリーだと無いよな
2020/07/20(月) 12:23:14.92ID:zpjC4PpP0
一太郎PADはどうなの?
2020/07/20(月) 17:58:40.44ID:3FOd3QJF0
>>212
plusだかなんだかつけて使ってます
大満足だけど、日本語ocrはクソ
手持ちの他のソフトを使うしかないです
2020/08/06(木) 08:43:22.36ID:+Ik17kWF0
個人向け日本語ocrはここ10年くらい進歩なし?
2020/08/06(木) 09:24:03.23ID:P4KKN9Zk0
>>230
読取革命をつかってるけど、そろそろバージョンアップして欲しい
2020/08/06(木) 21:43:22.73ID:FpfhWXHQ0
Shift-JISだけってのはキツいよな。

https://www.panasonic.com/jp/company/pstc/products/yomikaku.html

【大切なお知らせ】販売終了および今後の読取革命の販売について

2012年9月より販売を行ってまいりました、日本語・英語活字カラーOCRソフト「読取革命Ver.15」に関しまして、誠に勝手ながら2020年8月31日をもちまして、製品版・バージョンアップ版の販売および開発を終了させていただきます。また、2020年9月30日をもちまして、ライセンス版・ダウンロード版の販売も終了させていただきます。
長らくご愛顧いただき、誠にありがとうございました。

読取革命の開発および販売はソースネクスト株式会社へ移管し、2020年10月7日に新バージョンを発売いたします。
2020/08/07(金) 06:23:07.23ID:n5TZuf+60
AIOCRが金出せば結構優秀になったしな
2020/09/26(土) 01:42:56.36ID:ysgjBmc10
ラノベ自炊して文字認識で全ページテキスト化して有償の美少女声音声読み上げソフト使って
自作のAudibleみたいなのを作るって現実的か?
この方法ならラノベが読めない俺でもラノベの内容追える気がする
作業用BGMが欲しい
2020/09/26(土) 05:37:16.00ID:CGZLoSUz0
と或るラノベ7巻、文字認識したことあるが、
認識ミス取りきれてない気がするよ。
もう二度とやらん。めんどくさ過ぎる。
縦書きって誤認識高くね?気のせいか。
設定資料集やりたいのがあるんだけど、気力がわかない。。。
2020/09/26(土) 06:35:51.85ID:ysgjBmc10
うーん 即レスで体験談ありがとう
ソフトとアプデ次第でどうにかなってほしいものだ
2020/09/26(土) 07:20:30.92ID:aByTBdbp0
校正作業をどれだけ効率的にできるか、そのノウハウを持っているかどうかによる
2020/09/26(土) 13:24:06.12ID:wTRatOkO0
自分で読み上げて音声入力してみたことがある
2020/09/26(土) 14:06:45.13ID:6iAINLva0
100%完璧にって言ったら泥沼だろうが、ある程度妥協できるなら問題ない
誤認識もパターン決まってるのも多いから、一括で置き換え出来るし
OCR前にChainLPとかで下準備するのも忘れずに。認識精度が全然変わるから
読み上げソフトも読み上げソフトで癖があるから、読み上げソフトでキチンと読めるように修正する必要もあるけどね(これも妥協次第だけど)
240名無しさん@お腹いっぱい。
垢版 |
2020/09/26(土) 22:20:38.16ID:MWrmVjkB0
ブラザーの複合機でスキャンして付属のOCRで売上表を読み取ってるけど
数字だけなら99%読み取れてるよ。
表には合計値もあるんでExcelで合計計算して合計値が一致してれば全部読み取れてるってチェックができる。
合計値が合わないときはExcelの読み上げボタンで読み上げつつ紙の表に目を通してチェック。

ミスは大体ゴミを小数点として読み取ったり、
ゴミのせいで6が8になったり
かすれて8が6になったり
スペースが入って分割されたり。

スキャン前にゴミを除去するのが重要。
スキャン後は空白の固まりにマウスで矩形領域作ってタブを挿入した後で全ての空白を置換で除去。
これでほぼ正しくタブ区切りになるんでExcelにぺたっと貼り付け。

スキャンの設定は300dpiのグレー諧調で読み取ることが重要。
カラーで保存したい場合は画像用にカラーでスキャンしてOCR用にグレーでスキャンするとかしたらいいと思う。
カラーをうまく処理できるOCRソフトならカラーの方がいいと思うけど
レシートの赤いやつがあると読み取ってくれないレシーピってアプリもある。最近赤い奴に対応したっけな。
241名無しさん@お腹いっぱい。
垢版 |
2020/09/26(土) 22:30:50.03ID:MWrmVjkB0
書き忘れ。
数字の表を読み取るときは英数で読み取るんで日本語はめちゃくちゃ。
日本語だと表を表として読み取ってくれないし、数字もまともに読み取れない。
英数でも表として読み取ってるわけじゃないけど、間に空白がたくさん入るからなんとなく表っぽくなってる。
OCRの作業はひと手間かかるけど、空白除去とかに慣れれば入力するよりかなり早い。

日本語の場合は読み上げさせつつミスがある部分だけ入力していけばいい。
直接変更するのは追いつかないだろうから別の行に書いておいてあとでくっつけるとか。

〇〇〇〇〇〇〇〇〇×〇〇〇〇〇〇〇〇××〇〇〇〇〇〇〇
             まる          まるまる           ←聞きながら入力



〇〇〇〇〇〇〇〇〇まる〇〇〇〇〇〇〇〇まるまる〇〇〇〇〇〇〇   ←あとで合成


マイクロソフトのINKとか言うソフトで蛍光色で色をつけられたりするから
ミスってるところに色を塗っておいて後で正しいのを入力するって方法もあるかも。
2020/10/07(水) 20:53:42.38ID:sG0Mx6Ff0
読取革命Ver.16が出た
2020/10/08(木) 00:38:44.34ID:oaaQrpI40
英語認識に強くなる予定があるのとUIが変わってるらしい?
なんにせよルビ対応してくれないことには個人的な選択肢が増えない
2020/10/08(木) 21:58:57.57ID:pCm7hS0+0
e.Typist使ってるけど、ルビは無視する設定だわ
2020/10/13(火) 10:17:34.27ID:1IwVSGYF0
読取革命Ver.16

まだ縦書きの文字修正の時
横倒しになるのかな
2020/10/18(日) 02:15:16.51ID:knd4dkpa0
読取革命 Ver16 新規機能ひとつもないな。
不具合も直ってなさそう。
2020/10/19(月) 00:44:45.61ID:CyNFZXML0
どうせAcrobatのCleanscanしか使わないからいいや
2020/11/01(日) 15:10:52.46ID:OE4w3Cb/0
- 電通による日本人民族浄化計画の手口 -
@日本人の精神を腐敗・堕落させ愚民化させろ
A日本人の女を集中的に狙い洗脳しろ
Bネトウヨ、ヘイトスピーチ、レイシスト等の言葉を浸透させ、同胞への批判を封じろ。
C韓国人識者に政治的意見を言わせ、御意見番化させろ
D「同性婚・LGBTを全面肯定しない者は差別主義者だ!」という雰囲気を作れ。
E海外セレブやハーフモデルをもてはやし、「日本人は劣等人種だ!」と植えつけろ。
F「未だにガラケーの奴は笑い者」という雰囲気を作れ。
G「LINEに入らない奴は仲間外れ」という雰囲気を作れ。
H「日本人の男VS日本人の女」の対立を煽り、分断しろ
I日本人同士で恋愛・結婚させない、子供を生ませないよう誘導しろ
J日本同士で結婚していたら離婚させる方向に仕向けろ。
K女が活躍するドラマばかり作れ。男は無能な役、笑われ役にしろ。
Lイケメンブームを定着化させ、「男は外見が全てだ!」と洗脳しろ。
- ソース -
電通グループ会長 成田豊は朝鮮半島生まれ
http://ja.wikipedia.org/wiki/%E6%88%90%E7%94%B0%E8%B1%8A
2020/11/03(火) 09:13:18.83ID:rTcXesbq0
Win95のときからつかってるけど
ocrソフトなんてなんの進化もしてない
2020/11/04(水) 08:06:13.96ID:2CPZw8590
進化の余地はありそうなんだけどね。
個人用途では需要がないか。

そこそこ有名なフリーソフトレベルの操作性や、設定の自由度ぐらいは欲しい。
2020/11/04(水) 11:19:49.67ID:uNywO3dP0
Eightとかその他の名刺認識アプリ
グーグルドキュメントで画像を読み込んだときの自動OCR
これらのほうが段違いに認識がスムーズ

奴らはデータを吸い上げようという魂胆なんだろうが
認識が本業の有料ソフトが副業の奴らに負けてどうする
20年以上検索認識エンジン大きな変化なしとか腐っとるな
2020/11/29(日) 14:23:46.17ID:x7aEVFBM0
読取革命Ver.16の英語OCR機能が10月下旬から11月下旬に延期になっていたけど、
もう11月も終わるぞ…

こりゃ再延期かな?
2020/12/04(金) 10:04:50.76ID:s2inLNb80
さほど高くないソフトで、手書きの数字(文字は読まなくてOK)をOCRで文字起こししたいです。
何かオススメのソフトはございませんでしょうか。
2020/12/04(金) 16:08:37.31ID:aXsiujer0
>>253
スマホアプリに手書き認識する奴がある。
ニューラルネットワークが必要だからスマホか M1 MAC 必須。

手入力したあとExcelに読み上げさせつつチェックしたら?
2020/12/04(金) 19:35:55.67ID:6BGtDygO0
googleドライブでいけるよ PCからでも使えるし
ググれはしたばGASで自動化する方法も出てくる
2020/12/04(金) 19:37:11.18ID:6BGtDygO0
×ググれはしたば
○ググれば
2020/12/04(金) 21:25:36.24ID:BkfJdpxn0
Googleドキュメントに声で入力したことはある
258253
垢版 |
2020/12/12(土) 10:52:24.87ID:/fsKVCa+0
Googleドライブ、なかなか良かったです。
アドバイスくださった皆様、ありがとうございました。
2020/12/17(木) 15:01:46.09ID:EmhXqjui0
google driveいいんだけど、手間が面倒くさすぎる。
googleエンジンを使ってるパパッとOCRを使ってる人いますか?
2020/12/17(木) 15:03:44.41ID:EmhXqjui0
googeは2段組だと左の段と右の段が入り組んでしまうのが困りものだよなあ。
261名無しさん@お腹いっぱい。
垢版 |
2020/12/18(金) 14:30:16.91ID:lA9GnPM30
>>260
OCRHelper使えば、比較的楽。
262名無しさん@お腹いっぱい。
垢版 |
2020/12/28(月) 21:00:44.55ID:VlqH5s5B0
>>153
今ちょうどこれになって検索しまくってる
頻繁に翻訳してるとグーグル側にはじかれるのかな
グーグル翻訳系は駄目だな
2021/01/11(月) 19:08:54.94ID:cCWQR2l/0
校正に一番必要なのはデカイモニター
一行をはみ出さずに表示して
間聞開闇ここらが一目で見分けられるやつ
2021/01/17(日) 19:34:10.00ID:QPWOr2470
>>59
質問すみません
(--nodraw)のコマンドは、どう使えばいいんですか?
2021/01/17(日) 20:29:10.19ID:p7Uj5Bfi0
>>264
そのオプションはフォークされた改造版で追加されてたんだが
本家のプルリクに上がることもなくフォーク先も今は見えなくなってる
(おそらくフォーク主がプライベートリポジトリに変更したんだと思う
MS買収で無料で非公開にできるようになったから)
フォーク版は他にも画像ソースにjpg以外の形式も指定できるようになってたりと
色々便利そうだったんだけどね、残念
2021/01/18(月) 16:07:24.44ID:4aq7gtM60
>>265
同じものかわからないけどこっちで開発続いてそう
https://github.com/ImageProcessing-ElectronicPublications/hocr-tools
2021/01/18(月) 18:23:18.22ID:lqqeSLpf0
>>266
それだわ!
気がついたらリンク切れててそっから先追えなくなってたんだ
ありがとう!
2021/01/19(火) 16:59:59.15ID:nJ0mxE500
>>265
>>266
できました
めっちゃくちゃ感謝です
2021/01/29(金) 07:49:55.72ID:wxsf7Wfh0
今Acrobat 9 std使ってるけど、
読取革命とかの方が認識率高いとかありますか?
あとマルチスレッド対応でしょうか
Acrobat9はシングルスレッドみたいで、
PCが8コア16スレッドなのに1スレッドしか働いてません
2021/01/29(金) 08:24:46.05ID:1HVM47hB0
読取革命を使うのは認識率の高さではなく
校正のしやすさが目的かな

マルチスレッドはわかんね
2021/02/11(木) 18:21:51.86ID:26F+m0Y80
突然失礼します。
現在仕事の関係で大量の画像から主要文章を抜き出し、まとめている作業をしているのですが画像がまとめてあるファイルから一括で読みとってくれるOCRソフトは何かないでしょうか?
2021/02/11(木) 19:00:46.81ID:IHq/iUj+0
>>271
若干知識が必要だけどGoogleアカウント作れば無料
GDriveのフォルダにほうりこんだファイル全部処理してくれる

【GAS】OCRを使ってスキャンしたい画像の文字取得を自動化する
http://www.initialsite.com/w01/14488
2021/02/11(木) 20:17:36.01ID:26F+m0Y80
分かりました!やってみます!!
2021/02/11(木) 21:36:37.94ID:26F+m0Y80
どうにかコピペしたコマンドを実行しるところまでこぎつけましたが、いまいち使い方が分かりません(泣)
勉強してできるようにしたいと思います。
2021/02/13(土) 16:42:15.51ID:ZeIWlZfb0
医学者を大量にOCRかけたいのですがオススメのOCRソフトはどれになりますでしょうか?
2021/02/13(土) 17:58:27.11ID:IFB3FsXw0
OCR で遺伝子は認識しないだろ(ゲノムスキャン?)
2021/02/13(土) 18:38:25.90ID:ZeIWlZfb0
医学書です
2021/02/14(日) 04:32:22.06ID:JX8dJfP00
>>275>>277
スキャンが済んでないのならスキャンと同時にOCRしてしまうのが楽。
スキャンが済んでいるのなら読取革命かAcrobatかGoogle。専門用語辞書が充実していそうなのはGoogleだけど全てGoogle任せになってしまうのがストレスフル
2021/02/14(日) 06:39:37.00ID:57AdeLvf0
ありがとうございます
2021/02/18(木) 14:26:16.02ID:YBVmHAJp0
度々失礼します。
以前教えていただいたGoogleDrive方式を試してみたところ、どうにかファイル内の画像を読み込んでテキストに出力するところまでこぎつけました。

ただ、設定が悪いせいか、せいぜい2 枚を読み込んだところで変換が終了してしまいます。

手っ取り早くソフト購入を考えていますが、そこそこの精度で大量読み込みをしてくれる物を御存知の方がいればぜひ教えてください。
よろしくお願いします。
2021/02/18(木) 18:53:15.29ID:sbM29q5M0
ScanSnap買うのが吉かも
2021/02/18(木) 19:26:00.10ID:RZJx4jaI0
Kofax Power PDF Standard
https://www.kofax.jp/Products/power-pdf
2021/02/18(木) 19:39:21.13ID:PhET5XgP0
お金出せるなら ABBYY FineReader あたりがいいんじゃない バッチ処理もあるし
CZERのOCRエンジンがABBYYなんだが認識精度は悪くないよ
デフォルト設定でPDFにすると画像めっちゃ汚くなるけどテキストで抽出するなら関係ないだろうし
2021/02/18(木) 21:18:15.99ID:FuM14PBd0
テキスト抽出じゃなくて検索可能なPDFを作りたい場合のおすすめは?
2021/02/18(木) 22:04:26.68ID:/MMQ5ij10
画像ファイルから検索可能なPDFに変換するソフトは、いきなりPDFとかJUSTPDFとかあるな、体験版あるかな
2021/02/18(木) 22:14:42.16ID:rFCUPf3V0
>>284
OCR機能のついたドキュメントスキャナーでスキャン
2021/02/18(木) 23:34:26.27ID:PhET5XgP0
>>284
横書き文書オンリーで仕上がりの良さ最優先なら>189
フリーのツールなんで設定の難しさやUIの面倒さはある
googleにお布施も必要

簡単さで選ぶなら市販のOCRだろうけど詳しくないので分からん
とりあえずwindowsサンドボックスでABBYY試してみたが
MRC圧縮をオフにすれば画質は保たれるぽい
288名無しさん@お腹いっぱい。
垢版 |
2021/02/19(金) 14:18:04.61ID:/LGznBXV0
e.Typist使ってるよ
検索可能PDFにするときのMRC圧縮はPCで見ると汚いのに、タブレットで見ると良く見えるから不思議
PCの画面を範囲指定してOCR出来る機能はふとしたときに便利
画像読み込みが500枚までしか対応しないのはクソ
2021/02/19(金) 14:51:13.32ID:pqe2wozU0
e.typistか読取革命で迷う
290名無しさん@お腹いっぱい。
垢版 |
2021/02/19(金) 17:56:41.05ID:b3qLx0/L0
洋書死ぬほどつらい
pdf→ocr→誤字とか改行チェック→自動翻訳→翻訳チェック
2021/02/19(金) 18:34:37.99ID:zfdZU+YJ0
>>288の方へ
前から気になっていたのですが、500枚の読み込みというのは一度にですか?それとも上弦ですか?
2021/02/20(土) 13:37:22.40ID:0EiJ9/Or0
>>288
タブレットのアプリに画像補正機能があるのでは?
2021/02/20(土) 22:00:35.33ID:Z3ERY2/H0
>>291
例えば520枚のフォルダ読み込ませても、500枚までしか画像リストに登録されない。もちろん追加しようとしても出来ない。
分割して認識させて、後からPDFを結合させれば良いだけではあるけど

>>292
PCと違って画面が小さいから文字の輪郭のがたつきが気にならなくなる、一方で、白黒がハッキリするから綺麗に見えるんでないかなと思ってる
普通のPDFビューアアプリだし
2021/02/20(土) 22:44:13.29ID:u7vHQ+N90
>>293
え、単純にppiの差だったら不思議でも何でもないじゃん
2021/02/24(水) 14:51:12.19ID:aqSvsfDI0
TESSERACT-ocrで 紙読ませたら
「シャンプードレッサー」 が 「にャンプードジったー」 になった
■ このスレッドは過去ログ倉庫に格納されています
16歳の水野カイトが封印の刀を見つけ、時間が裂けて黒い風と亡霊の侍が現れ、霊の時雨と契約して呪われた刀の継承者となる場面

ニューススポーツなんでも実況