【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net

**名無しさん＠お腹いっぱい。** · 2016/08/09(火) 21:24:11.61

光学文字認識（こうがくもじにんしき、Optical character recognition）ソフト

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 13:35:33.40

>>520
顧客が離れてるのは事実だと思うが、顧客離れとソフトの可能な事は同じじゃない。

縦書き、アルファベット混在、図表混在という条件で認識率の高い別のソフトがあげることができるか？
できたらあなたの意見を認めよう

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 13:59:59.00

横だけど、OCRソフトってのはできる限り修正の必要がないものでないと実用的ではない
俺は読取革命を使ってみたことがあるが、図表混在の文字の修正がハンパなく手間だった
もうスクショでいいわって思った

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 14:41:38.54

>>522

> 横だけど、OCRソフトってのはできる限り修正の必要がないものでないと実用的ではない
→それは使用目的によるんじゃない。めんどくさいならスクショでもいいや、という目的ならあなたの言う通りだろ。
自分の場合は絶対に文字起こしが必要なんで読取革命程度の手間だったらOCR を使う。と言うかそれ以外に選択肢がない。

> 俺は読取革命を使ってみたことがあるが、図表混在の文字の修正がハンパなく手間だった
→ちゃんと複数の領域を設定して、各領域毎に最適な属性設定やった？

ぶっちゃけた話、読取革命はマニュアルが使いにくいんで俺も6～7年前に紙のカード明細のExcel への取り込みようにひと月ほど集中的に使ってからはずっと使わんかった。

昨年から専門書の自炊始めたんだけどAcrobat の OCR で十分だと思ってた。
だけど透明のテキスト文字をコピペして使わなきゃいけない事情になって誤認識の多さに閉口した。それで色々調べて読取革命の性能引き出す使い方を紹介しているネットの記事を見てこういう風に使うのかというのがわかった。

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 15:35:09.82

目指すところが違うんだろうな

完璧なテキスト化を目指すためには多少の手間は惜しまないか
少しでも手間をかけるくらいなら完璧とまではいかなくてもいいか

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 16:03:36.35

透明のテキスト文字をコピペして使うことが必須なんで、認識用設定時に手間を惜しんでコピーした後に修正に手間をかけるか、それとも認識用設定に手間をかけてコピペした後は修正なしにできるかの選択。認識用の設定の手間というのもそんなに大したことない。

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 16:50:45.74

＞多少の手間は惜しまないか

多少なんてもんじゃないのがミソなｗ
まぁ暇人には使えるソフトってことでしょ

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 17:56:05.13

>>526
暇？
暇ではないぞ、仕事で使ってるから

君は漫画小僧だな

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 18:35:40.13

論理的合理的思考ができるかどうかだな

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 19:47:58.91

それができない奴が使うんだろうな

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 20:10:20.97

>>529
プッ、君が出来てないよ

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 22:01:22.15

ID:cADfl0Dk0
こいつ、朝から晩まで張り付いてるみたいだけど単なるキチガイか？
プっとか言ってるけど、オツムやられてるっぽいｗ

**名無しさん＠お腹いっぱい。** · 2022/05/24(火) 23:54:55.53

>>531
朝じゃないよ，昼からだよ(笑)

**名無しさん＠お腹いっぱい。** · 2022/05/25(水) 07:20:56.84

どっちでもいいけど、頭おかしい自覚はしておいた方が　笑

**名無しさん＠お腹いっぱい。** · 2022/05/25(水) 10:29:01.39

ID:5b9IkS690、uwTIOOOb0、W3iKtSQ90
こいつらは悪口しか言えないやつだな。

社会問題になってる、ネットで攻撃衝動を発散するしかない御可哀想な奴らだ（笑）

**名無しさん＠お腹いっぱい。** · 2022/05/25(水) 11:57:42.04

どっちもバレバレだよ

**名無しさん＠お腹いっぱい。** · 2022/05/25(水) 13:13:20.52

>>534
性格悪そう

**名無しさん＠お腹いっぱい。** · 2022/05/25(水) 13:14:26.95

>>511
で、
＞手動でPDFに出力する透明テキストのフォントサイズを全ページ一括で変更したいのですが，そのような設定は可能でしょうか．
は解決したの？？

**名無しさん＠お腹いっぱい。** · 2022/05/25(水) 13:17:26.16

>>537
してません(:_;)
悪口書き込むやつと、それへのレスだけです。
トホホですね(´；ω；｀)

**名無しさん＠お腹いっぱい。** · 2022/05/29(日) 09:17:29.01

これが革命って奴やな。

**名無しさん＠お腹いっぱい。** · 2022/05/29(日) 13:00:28.66

革命詐欺ｗ

**名無しさん＠お腹いっぱい。** · 2022/06/01(水) 12:57:24.87

511です。
バージョン16にアップデートするとフォントサイズが小さすぎる問題は解決していました。表示上のサイズと透明テキストのサイズはほぼ一致してます。

**名無しさん＠お腹いっぱい。** · 2022/06/18(土) 20:26:54.16

>>497
そりゃ当たり前
PCなんて使えない高齢者がいっぱいいるんだから
そのためのOCRだよ

**名無しさん＠お腹いっぱい。** · 2022/06/19(日) 06:08:07.29

手書きを補正してあってんのかあってないのかわかんないデータが完成するより普通に入力した方が早いと思う

**名無しさん＠お腹いっぱい。** · 2022/06/19(日) 08:00:38.74

普通に入力してもtypoはあるし
校正抜けは自分で入力したもののほうが起こりやすいという罠もある

**名無しさん＠お腹いっぱい。** · 2022/06/22(水) 20:32:48.05

仕事で手書きの帳票の入力をしているのでOCRを使って自動化したく、いくつか無理のものを試してみたのですが上手くいきませんでした
入力内容は型番と数字だけなので、型番の登録とかができれば精度も上がると考えているのですが、いいOCRツールがあれば教えてください

**名無しさん＠お腹いっぱい。** · 2022/06/22(水) 22:38:51.44

ないんだな、これが(画像略)
ほんとにみんなそれを欲しがってると思うよ

**名無しさん＠お腹いっぱい。** · 2022/06/23(木) 07:46:57.82

>>545
>>479 のリンク先はみた？

**名無しさん＠お腹いっぱい。** · 2022/06/25(土) 00:23:31.70

>>545
ソリューションとして何百万円で売ってるようなものだからなあ。

**名無しさん＠お腹いっぱい。** · 2022/06/25(土) 03:38:17.30

>>545
手書き文字は、かなり難易度が高い。
字体に個人差が大きいのと、文字ごとの区切りが取りづらい
型番がアルファベットなら、学習データを用意すれば可能性はあるけど、
本質的に1とかIとかlを手書き文字から読み取るのは無理ゲーなので
近い登録型番を引っぱってくるとかの方がよさそう。

**名無しさん＠お腹いっぱい。** · 2022/06/25(土) 11:36:36.59

達筆こと汚い殴り書きすら判読できるOCRキボンヌ

**名無しさん＠お腹いっぱい。** · 2022/06/26(日) 00:59:41.69

20年くらい前に
東芝が郵便局に納入してる手書き宛名OCRが有能という話聞いたのを思い出したので
ぐぐてみたらこんなのでてきた
www.it-innovation.c
o.jp/wordpress/wp-content/uploads/2021/08/Session6_AAcon2_2021
0827_tdslj.pdf
手書き「IOデータ」がエロデータに変換される恐怖・・・

**名無しさん＠お腹いっぱい。** · 2022/06/26(日) 13:06:43.52

郵便局でバイトしてたときの、宛名OCRの精度の感覚は
フォントだと100％、手書きで95％くらい当たってた
手書きだと3-10とかを漢数字で縦書きされると辛い様子(三が12と見分け付かない)
あと、達筆は無理なので弾かれてたな

**名無しさん＠お腹いっぱい。** · 2022/08/06(土) 23:14:15.46

>>479 の後半部分がだいぶ進んだ
https://i.imgur.com/W5JwUh8.png

もうちょい1とかが認識できるといいんだけど

**名無しさん＠お腹いっぱい。** · 2022/11/11(金) 16:50:50.83

ユーザーローカルの無償のOCRはどうですか？

**名無しさん＠お腹いっぱい。** · 2022/11/11(金) 18:04:01.27

手書き文字をgoogle driveにアップしてドキュメントに変換するとOCRされる
わりと認識されるようだ

**名無しさん＠お腹いっぱい。** · 2022/11/16(水) 01:13:33.38

凸版印刷、明治期から昭和初期の手書き文字を
解読するAI-OCRを日本で初めて開発
https://www.toppan.co.jp/news/2022/11/newsrelease221111.html
https://www.toppan.co.jp/news/2022/11/sto3as000000876e-img/TOPPAN_221111_img1.jpg

**名無しさん＠お腹いっぱい。** · 2022/11/26(土) 08:06:32.03

>>556
どうせソリューションで1000万円以上

**名無しさん＠お腹いっぱい。** · 2022/12/22(木) 04:52:11.23

OCRかけたPDFで、Googleドライブで閲覧するときは、文字選択も検索もできるんだけど、ドライブから他のiPadアプリへインポートすると、文字選択も検索もできなくなります。

対応策知ってる方いたら教えてもらえないでしょうか。

**名無しさん＠お腹いっぱい。** · 2022/12/25(日) 14:05:23.99

バージョンが違うとかじゃね？

**名無しさん＠お腹いっぱい。** · 2023/01/05(木) 23:31:26.85

>>508
https://twitter.com/NDLJP/status/1610557944952946688
NDLOCRについては国立国会図書館月報2022年11月号の特集記事でも紹介しています。
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2023/01/08(日) 20:04:39.43

スマホのグーグルレンズだとかなり正確なのに
PCの画像取り込みでグーグルドキュメントだとまったく認識できないのはなぜかわかりますか？

**名無しさん＠お腹いっぱい。** · 2023/01/09(月) 20:16:16.65

>>560
>>508
自炊技術総合スレでこれに関していろんな人が議論しているけど、結局外部の人間が使いこなすのは至難であると言う状況
日本の it 開発に関する公金の使い方は最悪

**名無しさん＠お腹いっぱい。** · 2023/01/09(月) 20:31:05.78

余計なGUI作っで金と取るより、遥かにいいよ。
Python あればコマンドラインで動くんでしょ。
十分だよ。

**名無しさん＠お腹いっぱい。** · 2023/01/09(月) 20:47:53.13

>>563
Python でも動かし方がわからないみたいよ

動かし方であーだこーだ時間を使うよりは有料でも使いやすいインターフェースがあった方がいい
こういうのは所詮道具だから

**名無しさん＠お腹いっぱい。** · 2023/01/11(水) 20:40:11.59

規制された？

**名無しさん＠お腹いっぱい。** · 2023/01/15(日) 15:43:45.29

>>561
多分AIチップの有無

**名無しさん＠お腹いっぱい。** · 2023/01/16(月) 10:13:41.53

制限された？

**名無しさん＠お腹いっぱい。** · 2023/01/17(火) 08:02:43.09

制限きつくなった

**名無しさん＠お腹いっぱい。** · 2023/01/19(木) 20:26:45.79

TEST

**名無しさん＠お腹いっぱい。** · 2023/01/21(土) 01:51:12.94

>>561
スマホのカメラのレンズは顔認識にはじまり、そのレンズ通して画像（映像）からフォントやらワンタップで楽々と認識+特定できるようになるかもしれない。
既にある気もするけど。googleとかやりそうだし。
AIと言うと、KRITA Paintって無料(フリーウェア)のペイントアプリで超簡単お手軽に消したい任意の人や車をこの画像みたいに消せるのがなんだかすごい。
コラージュには欠かせないツールかもしれない。
https://i.imgur.com/HPssPV5.png
GIGAZINEで知った。

**名無しさん＠お腹いっぱい。** · 2023/01/23(月) 09:06:58.16

test

**名無しさん＠お腹いっぱい。** · 2023/01/23(月) 18:07:45.55

非破壊型ScanSnapに添付のソフトでPDFに透明テキストを付けていたが性能が悪いので
読取革命の体験版を入手して試してみた
テキストは大体正しく読み取れているが不満点２つ
・ページの枠等でゴミ文字が大量に発生
・元のPDFの画像を再エンコしてしまっている

**名無しさん＠お腹いっぱい。** · 2023/01/23(月) 20:37:55.46

>>572

> ・ページの枠等でゴミ文字が大量に発生
たぶんページ番号とか上の方にある見出しとかを言ってると思うんだけど本文だけを領域に指定したテンプレートを使って、それを簡単認識という一種のマクロで読み込ませればいい

> ・元のPDFの画像を再エンコしてしまっている
これは何とかしてほしいよね

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 14:53:20.86

レスありがとうございます。「簡単認識」というのは何ですか？
読取革命15の体験版を使っています

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 14:55:11.57

読取革命15の体験版を使ってみて不具合と思うこと

1. 複数のjpgをいれたフォルダーを用意する
2. 「画像ファイルを開く」でそのフォルダーを指定して「画像ファイルを追加して読み込む」に
チェックを付けた上でCtrl+Aで全ファイルを選択して開く
3. 複数ページとして読み込まれる
4. ところが「レイアウト」も「認識」も「保存」も最後のページしか処理できない

現行バージョン16ではどうですか？

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 20:12:23.68

ちょっと何言ってるかわからない

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 20:24:39.65

では逆に質問させてもらえますか
１ページが１つのjpgで、ファイル名に連番ついているものが多数ある場合
それらをまとめて読み込んでまとめてOCR処理することはできますか

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 21:23:07.42

15で、すべてのページを選択して、認識など順番に処理をしてくれている
左に並んでいる取り込まれた画像は選択された状態になっているのか
なっているなら、体験版の制限かもしれない

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 21:42:05.66

>>577
マニュアル読んでないならとりあえず『かんたんモード』使っとけ
メニューバー＞表示＞かんたんモードへ＞入力＞認識＞保存

>>574
何処か分からないならF9キー押せ
そこに前もって処理手順を登録しとけば実行ボタン押すだけで全部やってくれる

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 22:13:55.01

>>578
取り込んだ後左に並んでいる画像は全部選択された状態になっています
Ctrl-Aを使って全部選択し直してもやはり最後のページしか処理できない
制限しているのか体験版だけの不具合かわからないけど動作確認はあきらめた

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 22:26:30.24

>>574
体験版は使ってないんで分からないけど16正規版ならば、メニューで、認識→簡単認識、で設定画面を呼び出せる。
領域をカスタム設定して保存し、それをテンプレートとして簡単認識内に登録すれば後は自動で全てのページをそのテンプレートでやってくれる。
領域ごとの設定ではできるだけ自動認識を使わず、縦書きとか横書きとか半角とか全角とか細かく指定する方が認識が良い

一つの領域内に横書きと縦書きが混在した場合にはテンプレート処理できないので、1回簡単に意識を実行させた後、少数の例外ページだけ手作業でレイアウトを修正する

575の最後のページしか認識しない問題は画像ファイルを読み込ませた後左側のサムネイルページで最後のページしか選択していないことが原因だと思う。読み込み後コントロール A で全選択すれば全てのページの処理をしてくれる

簡単モードじゃなくて標準モードを使うこと

こんなとこですかね

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 22:28:05.47

続き

Amazon のレビューでかんたん認識についての説明がありましたので転載しときますね

五点目は、「かんたん認識」機能です。
文庫本や単行本で、レイアウトが単純なものは、この機能を使うことで、かなりの短時間で文字認識を完了させることができます。
この機能は、ひとつの認識レイアウトをテンプレートとして保存して、「かんたん認識」機能で全ページに適用するというものです。
例えば、通常、文庫本の場合、見開きの上下端の部分に、ページ数や書籍名・章題などの文字情報が含まれています。この部分に関しては、基本的に文字認識する必要がない無駄な情報なのですが、自動で文字認識させると、この部分まで認識してしまいます。
「かんたん認識」機能を使えば、あらかじめ、上下の端の部分を認識しないレイアウトをテンプレートで設定しておいて、そのレイアウトに従って一度、全ページを文字認識してくれます。
もちろん、挿絵や図表があるページに関しては、認識がグチャグチャニなるので、その後で修正が必要になりますが、いちいち、手作業で無駄な認識部分を消す必要がありません。
また、レイアウト認識にテンプレートを使うことによって、レイアウト解析の時間も不要になりますから、文字認識の処理が速くなります。
テンプレートは、書籍ごとに作った方が、精度が高いので、その点はひと手間はかかりますが、それ以上にメリットが大きいと思います。
上手に使えば、精度の高い認識結果を得るのに、３００Pの本で30分くらいですみます。（そのうち手作業は10分程度）≫

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 23:02:35.33

>>581

>575の最後のページしか認識しない問題は画像ファイルを読み込ませた後左側のサムネイルページで最後のページしか選択していないことが原因だと思う。

「標準モード」の「ファイル」の「画像ファイルを開く」を使いました
580に書いたように左側の画像サムネールは全部選択状態になっています
体験版の制限事項にはそんなことは書かれていないので体験版の不具合かな

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 23:11:41.54

体験版も無いのでバージョン16のメニュー構成がどうなっているのかはわかりませんが、
バージョン15の「標準モード」の「ファイル」の「画像ファイルを開く」と同等の方法で複数ファイルを
一括処理をできるようになっているのでしょうか

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 23:14:09.31

入門ウィザードの話なのか、かんたん認識の話なのか、画像ファイルを開くからの話しなのか、それら以外なのか

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 23:17:36.44

画像ファイルを開くからのだったら手順を踏まないと一括の認識変換はできないぞ

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 23:23:00.30

まずは入門ウィザードでやってみろ

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 23:26:48.79

>>584
それとは違う

アマゾンのレビューはバージョン15のレビューなので、15でも「かんたん認識」はあると思う。レビューで簡単認識の機能は想像できるでしょう

もう少し詳しく知りたかったら15のマニュアルは公開されてると思うんでやり方探してみて

16の場合でも体験版はある筈。私は実際それで試してから購入したから
体験版というより使える期間に制限があるだけで機能制限はなかったと思う

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 23:35:17.61

どんな方法でもいいですけどバージョン16において、
１ページが１つのjpgで、ファイル名に連番が付いているような多数ファイル（ページ）がある場合
それらをまとめて読み込んでまとめてOCR処理することはできますか
というのが質問です

少なくともバージョン15の体験版ではできない

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 23:36:01.14

>>588
16の体験版は入手できないでいる
https://faq.sourcenext.com/app/answers/detail/a_id/12598/

15の体験版はインターネットアーカイブの古いページから何とか見つけ出したもの

**名無しさん＠お腹いっぱい。** · 2023/01/24(火) 23:50:01.11

入門ウィザードだ

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 00:03:44.68

入門ウィザードは15の体験版で既にやっているがやはり最後のページしか処理されない

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 00:12:50.70

>>589
答えはイエスだよ

バージョン16の体験版はなかった。試用期間というのは私の記憶違いで、返品が可能という条件だった。

私の場合はバージョン14を使っていて不満足なところがあったのでサポートに問い合わせたところバージョン14のサポートは既に終わっており回答できないが、バージョン16を勧められバージョン16でも満足する機能がなければ返品に応じるということだった。バージョン16で満足する機能があったので返品はしなかった。

バージョン16のマニュアルはここにあるよ
https://ftp.sourcenext.co.jp/k7_patch/sn-update/manual/SAESJ/manual.pdf

589ができればいいなら購入したほうが早いんじゃない？かんたん認識であなたの不満点は解決されると思うから

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 00:14:58.98

そうか
俺の体験版15では全ページ一括OCR出来てるから何かを間違えてるんだろうな

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 00:45:52.30

そう言えば設定によっては
レイアウトや認識結果を削除とかなんかしたあと
もう一度読み取ろうとしても読み取ない不具合か仕様あったようななかったような

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 00:46:29.68

だいぶ前のあやふやな記憶

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 02:54:28.10

>>589
かんたん認識はマニュアルの121ページ

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 08:45:03.18

>>593
ありがとう
16のマニュアルを見たが62ページ（PDFの63/177）に「複数ファイルを指定する場合」と
書かれているが15のマニュアルにも同じことが書かれている
本来であればその方法でできるはず
15と16は比較表を見るとスペックにほとんど変更がないから15の体験版でできなければ16でも
怪しいと思い質問したした次第です

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 09:06:59.69

できなければ製品として成立しないんだからできる。体験版の機能制限か、アーカイブがこわれているかのどちらかでしょう。

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 11:24:59.54

複数のjpgを無劣化で１PDFに作れるから体験版でもOCRに掛けることはできる
しかしJPGを１つ読み込んだ時とそのJPGから作ったPDFを読み込んだ時とで比較すると
透明テキスト付PDFの品質が違っていた（どちらも再エンコであることは同じだったが）

そこで16を注文をした（435のように体験版を使い続けることもできるんだが）

まともな体験版を出せよ

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 11:36:38.79

パナソニックは15で開発終了してるんだな
ソースネクストにまともな開発能力ないしまあ残当

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 12:36:18.41

なんだかんだ言っても日本語縦書きをまともに処理できるOCR ソフトは読取革命しかないように思うんだけど、他にある？あったら教えて

Googleやndlは透明テキスト処理ができないんで対象外ね

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 15:18:16.75

>>602
スキャナーに付いて来たPower PDF Standardを今まで使ってきたが縦書きでも取れるし
一応だが実用にはなっていた
「サンプルzip」というファイルをアップしてみた。3つファイルが入っている
https://20.gigafile.nu/0505-d1645eba1bec6bdf5e13dcdefdcd7d45a

・某所のOCRテスト用サンプル。元はPNGだが「画像梱包」で無劣化PDF化したもの
・読取革命15体験版で透明文字付PDFに保存したもの
・Power PDF Standardで検索可能化

読取革命は画像を再エンコするのでファイルサイズがかなり大きくなってしまっている
Power PDF StandardはPDF内の画像ファイルを全く変えないのがいいところ

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 15:46:40.80

>>603
ファイルサイズが大きくなったらアクロバットのファイルの最適化またはファイルの縮小をかけると劇的にサイズが小さくなるよ。

画質はほとんど劣化しないけれどよく見ると文字のエッジが微妙に変化しているので自分は2種類の方法でファイルサイズを小さくした後実際に目で見てファイルサイズの小ささと画質の良さのバランスが良い方を残している。

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 16:08:45.17

PDFが対応している画像についてはそれを勝手に書き換えないのがベスト
技術的に難しいことではないはず

しかしパナソニックからソースネクストに変わってしまったら今後あるかもしれないバージョンアップでも
改善されることは絶望的だね

**名無しさん＠お腹いっぱい。** · 2023/01/25(水) 18:10:59.18

ずっとe.typistの高圧縮PDF（MRC圧縮）にしてるわ
iPadで読むには十分。つか文字のエッジはガタつき気味だけど、クッキリとするから読みやすい。
AcrobatのClearScanにしてたときもあったけど、やたらと読み込みが遅いのが出来たことがあって止めた

**名無しさん＠お腹いっぱい。** · 2023/01/26(木) 12:36:37.20

余所でやってください。

**名無しさん＠お腹いっぱい。** · 2023/01/26(木) 17:20:39.24

久しぶりにeTypistとFineReaderを使ったら､あまりのポンコツぶりに驚いた｡
PDFなんてAcrobat DCの方が認識率いいぞ｡
みんなが知らないと思われるxdw文書もDocuworksの方が認識率が良くて驚いた｡

**名無しさん＠お腹いっぱい。** · 2023/01/26(木) 18:29:58.68

テスト

**名無しさん＠お腹いっぱい。** · 2023/01/27(金) 16:14:23.09

読取革命の「PDFを解析して入力」というものは何に使うためにあるんだろうか
透明文字付PDFの誤認識文字を後から直すためかとも思ったが
直して保存すると画像文字と透明文字との位置が違ってしまうし

**名無しさん＠お腹いっぱい。** · 2023/01/27(金) 17:17:29.64

PDFを入力してもunicode文字が全部下駄文字になってしまうんだよな
20年間unicode化せずにやって来て
今更対応させる体力も無くソースネクストに丸投げして終了

**名無しさん＠お腹いっぱい。** · 2023/01/30(月) 16:10:52.67

読取革命においてPDFから無劣化でJPG等を取り出せる場合にはPDFを開くのではなく
取り出した画像ファイルを（複数）開く方がよいようだ

603の例で言うとサンプルの元のPNGは462x412ピクセル
それを無劣化PDFにして読み込むと1925x1716ピクセルのJPGに変換されてしまう（300dpi
の入力設定の時）
だからOCR後の透明文字付PDFのサイズも大きくなってしまうし２回エンコードされるから
画質も劣化する
どういう計算根拠でそのサイズに拡大しているのかは不明
PDF以外の画像ファイルを開いた時にはサイズが変更されることはない

**名無しさん＠お腹いっぱい。** · 2023/01/31(火) 06:21:19.62

>>612
単にPDFがweb閲覧用に減量化済みの低解像度なものだからじゃないの？
そのサンプルPDF内のPNGは72dpiだから300dpiに変換するとそのサイズになる
300/72*462 = 1925
300/72*412 = 1716.666…

**名無しさん＠お腹いっぱい。** · 2023/01/31(火) 17:27:31.67

計算はその通りですね

PNG形式ファイル自体にはdpiは指定できずそれを「画像梱包」のデフォルトでPDF化したら
72dpiのPDFが作られたようでした
試しに「画像梱包」で300dpiを指定してPDF化したらそれを開いて読取革命で作成した透明文字付
PDF中にPNGとほぼ同じピクセル数のJPGが作られていた（ファイルサイズも小さい）

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 10:23:43.08

読取革命の不便な点・・・・

dpiが設定されていないファイルを複数まとめて開いた時にページ一覧のCtrl+Aで全部のファイルを選択
してもまとめて「解像度の設定」をできず１ページずつ設定しなければならない

事前に何かツールを使って対象ファイルにまとめてdpiを設定しておけばよいのだけれど

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 15:46:37.87

>>162
オタクは気持ち悪いなら規制してほしいの？寂しいの？

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 15:46:40.86

>>414
過度に攻撃的な発言では通らない

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 15:46:41.50

>>158
まだ2回なのに心臓の調子悪いんだがなんで品評会がなんJを自民倒すのが目的の連中がフェミ的な装いでっていう住み分け

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 15:46:42.46

>>58
配信者程度なら単なる内輪ノリなんじゃないのノリなんだろ

**名無しさん＠お腹いっぱい。** · 2023/02/01(水) 15:46:42.95

>>136
ここの奴らは全方位に喧嘩売るスタイルなん

【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

【文字認識】OCRソフト【自炊】 [無断転載禁止]©2ch.net