【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
2016/08/09(火) 21:24:11.61ID:zXdCMkkb0
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
2022/05/24(火) 13:35:33.40ID:cADfl0Dk0
>>520
顧客が離れてるのは事実だと思うが、顧客離れとソフトの可能な事は同じじゃない。

縦書き、アルファベット混在、図表混在という条件で認識率の高い別のソフトがあげることができるか?
できたらあなたの意見を認めよう
2022/05/24(火) 13:59:59.00ID:KekWsjEY0
横だけど、OCRソフトってのはできる限り修正の必要がないものでないと実用的ではない
俺は読取革命を使ってみたことがあるが、図表混在の文字の修正がハンパなく手間だった
もうスクショでいいわって思った
2022/05/24(火) 14:41:38.54ID:cADfl0Dk0
>>522

> 横だけど、OCRソフトってのはできる限り修正の必要がないものでないと実用的ではない
→それは 使用目的によるんじゃない。めんどくさいならスクショ でもいいや、という目的ならあなたの言う通りだろ。
自分の場合は絶対に文字起こし が必要なんで読取革命程度の手間だったらOCR を使う。と言うか それ以外に選択肢がない。

> 俺は読取革命を使ってみたことがあるが、図表混在の文字の修正がハンパなく手間だった
→ちゃんと複数の領域を設定して、各領域毎に最適な属性設定やった?

ぶっちゃけた話、読取革命はマニュアルが使いにくいんで俺も6~7年前に紙のカード明細のExcel への取り込みようにひと月ほど集中的に使ってからはずっと使わんかった。

昨年から専門書の自炊始めたんだけどAcrobat の OCR で十分だと思ってた。
だけど透明のテキスト 文字をコピペして使わなきゃいけない事情になって誤認識の多さに閉口した。それで色々調べて読取革命の性能 引き出す使い方を紹介しているネットの記事を見てこういう風に使うのかというのがわかった。
2022/05/24(火) 15:35:09.82ID:aJH4exft0
目指すところが違うんだろうな

完璧なテキスト化を目指すためには多少の手間は惜しまないか
少しでも手間をかけるくらいなら完璧とまではいかなくてもいいか
2022/05/24(火) 16:03:36.35ID:cADfl0Dk0
透明のテキスト 文字をコピペして使うことが必須なんで、認識用設定時に手間を惜しんでコピーした後に修正に手間をかけるか、それとも認識用設定に手間をかけてコピペした後は修正なしにできるかの選択。認識用の設定の手間というのもそんなに大したことない。
2022/05/24(火) 16:50:45.74ID:5b9IkS690
>多少の手間は惜しまないか

多少なんてもんじゃないのがミソなw
まぁ暇人には使えるソフトってことでしょ
2022/05/24(火) 17:56:05.13ID:cADfl0Dk0
>>526
暇?
暇ではないぞ、仕事で使ってるから

君は漫画小僧だな
2022/05/24(火) 18:35:40.13ID:aJH4exft0
論理的合理的思考ができるかどうかだな
2022/05/24(火) 19:47:58.91ID:5b9IkS690
それができない奴が使うんだろうな
2022/05/24(火) 20:10:20.97ID:cADfl0Dk0
>>529
プッ、君が出来てないよ
2022/05/24(火) 22:01:22.15ID:uwTIOOOb0
ID:cADfl0Dk0
こいつ、朝から晩まで張り付いてるみたいだけど単なるキチガイか?
プっとか言ってるけど、オツムやられてるっぽいw
2022/05/24(火) 23:54:55.53ID:cADfl0Dk0
>>531
朝じゃないよ,昼からだよ(笑)
2022/05/25(水) 07:20:56.84ID:W3iKtSQ90
どっちでもいいけど、頭おかしい自覚はしておいた方が 笑
2022/05/25(水) 10:29:01.39ID:wWoQec/h0
ID:5b9IkS690、uwTIOOOb0、W3iKtSQ90
こいつらは悪口しか言えないやつだな。

社会問題になってる、ネットで攻撃衝動を発散するしかない御可哀想な奴らだ(笑)
2022/05/25(水) 11:57:42.04ID:i/AJgx3d0
どっちもバレバレだよ
2022/05/25(水) 13:13:20.52ID:f5GblV+t0
>>534
性格悪そう
2022/05/25(水) 13:14:26.95ID:3nRqErRs0
>>511
で、
>手動でPDFに出力する透明テキストのフォントサイズを全ページ一括で変更したいのですが,そのような設定は可能でしょうか.
は解決したの??
2022/05/25(水) 13:17:26.16ID:wWoQec/h0
>>537
してません(:_;)
悪口書き込むやつと、それへのレスだけです。
トホホですね(´;ω;`)
2022/05/29(日) 09:17:29.01ID:dezXzM1d0
これが革命って奴やな。
2022/05/29(日) 13:00:28.66ID:qWf9pQE10
革命詐欺w
2022/06/01(水) 12:57:24.87ID:ktMvq3Ub0
511です。
バージョン16にアップデートするとフォントサイズが小さすぎる問題は解決していました。表示上のサイズと透明テキストのサイズはほぼ一致してます。
2022/06/18(土) 20:26:54.16ID:2jCbEwjL0
>>497
そりゃ当たり前
PCなんて使えない高齢者がいっぱいいるんだから
そのためのOCRだよ
2022/06/19(日) 06:08:07.29ID:nQI82VN80
手書きを補正してあってんのかあってないのかわかんないデータが完成するより普通に入力した方が早いと思う
2022/06/19(日) 08:00:38.74ID:SMFRVfVR0
普通に入力してもtypoはあるし
校正抜けは自分で入力したもののほうが起こりやすいという罠もある
545名無しさん@お腹いっぱい。
垢版 |
2022/06/22(水) 20:32:48.05ID:aWOqOAmW0
仕事で手書きの帳票の入力をしているのでOCRを使って自動化したく、いくつか無理のものを試してみたのですが上手くいきませんでした
入力内容は型番と数字だけなので、型番の登録とかができれば精度も上がると考えているのですが、いいOCRツールがあれば教えてください
2022/06/22(水) 22:38:51.44ID:cbR9tsx10
ないんだな、これが(画像略)
ほんとにみんなそれを欲しがってると思うよ
2022/06/23(木) 07:46:57.82ID:F2BXam9K0
>>545
>>479 のリンク先はみた?
2022/06/25(土) 00:23:31.70ID:M5gx6zVR0
>>545
ソリューションとして何百万円で売ってるようなものだからなあ。
549名無しさん@お腹いっぱい。
垢版 |
2022/06/25(土) 03:38:17.30ID:0PVpsHFx0
>>545
手書き文字は、かなり難易度が高い。
字体に個人差が大きいのと、文字ごとの区切りが取りづらい
型番がアルファベットなら、学習データを用意すれば可能性はあるけど、
本質的に1とかIとかlを手書き文字から読み取るのは無理ゲーなので
近い登録型番を引っぱってくるとかの方がよさそう。
2022/06/25(土) 11:36:36.59ID:XawCiBfQ0
達筆こと汚い殴り書きすら判読できるOCRキボンヌ
2022/06/26(日) 00:59:41.69ID:u0oZCNU/0
20年くらい前に
東芝が郵便局に納入してる手書き宛名OCRが有能という話聞いたのを思い出したので
ぐぐてみたらこんなのでてきた
www.it-innovation.c
o.jp/wordpress/wp-content/uploads/2021/08/Session6_AAcon2_2021
0827_tdslj.pdf
手書き「IOデータ」がエロデータに変換される恐怖・・・
2022/06/26(日) 13:06:43.52ID:MrxyXubs0
郵便局でバイトしてたときの、宛名OCRの精度の感覚は
フォントだと100%、手書きで95%くらい当たってた
手書きだと3-10とかを漢数字で縦書きされると辛い様子(三が12と見分け付かない)
あと、達筆は無理なので弾かれてたな
553名無しさん@お腹いっぱい。
垢版 |
2022/08/06(土) 23:14:15.46ID:KxBYYb3L0
>>479 の後半部分がだいぶ進んだ
https://i.imgur.com/W5JwUh8.png

もうちょい1とかが認識できるといいんだけど
2022/11/11(金) 16:50:50.83ID:wJwec+Hh0
ユーザーローカルの無償のOCRはどうですか?
2022/11/11(金) 18:04:01.27ID:rp6GMXxX0
手書き文字をgoogle driveにアップしてドキュメントに変換するとOCRされる
わりと認識されるようだ
556名無しさん@お腹いっぱい。
垢版 |
2022/11/16(水) 01:13:33.38ID:S5so+53A0
凸版印刷、明治期から昭和初期の手書き文字を
解読するAI-OCRを日本で初めて開発
https://www.toppan.co.jp/news/2022/11/newsrelease221111.html
https://www.toppan.co.jp/news/2022/11/sto3as000000876e-img/TOPPAN_221111_img1.jpg
2022/11/26(土) 08:06:32.03ID:D8kis3AF0
>>556
どうせソリューションで1000万円以上
558名無しさん@お腹いっぱい。
垢版 |
2022/12/22(木) 04:52:11.23ID:D7BYsnDs0
OCRかけたPDFで、Googleドライブで閲覧するときは、文字選択も検索もできるんだけど、ドライブから他のiPadアプリへインポートすると、文字選択も検索もできなくなります。

対応策知ってる方いたら教えてもらえないでしょうか。
559名無しさん@お腹いっぱい。
垢版 |
2022/12/25(日) 14:05:23.99ID:UNDWLpRR0
バージョンが違うとかじゃね?
2023/01/05(木) 23:31:26.85ID:/v8QR8d30
>>508
https://twitter.com/NDLJP/status/1610557944952946688
NDLOCRについては国立国会図書館月報2022年11月号の特集記事でも紹介しています。
https://twitter.com/5chan_nel (5ch newer account)
2023/01/08(日) 20:04:39.43ID:5uNVO8JT0
スマホのグーグルレンズだとかなり正確なのに
PCの画像取り込みでグーグルドキュメントだとまったく認識できないのはなぜかわかりますか?
2023/01/09(月) 20:16:16.65ID:2gSKg0450
>>560
>>508
自炊技術総合スレでこれに関していろんな人が議論しているけど、結局外部の人間が使いこなすのは至難であると言う状況
日本の it 開発に関する公金の使い方は最悪
2023/01/09(月) 20:31:05.78ID:+xJlSjJo0
余計なGUI作っで金と取るより、遥かにいいよ。
Python あれば コマンドラインで動くんでしょ。
十分だよ。
2023/01/09(月) 20:47:53.13ID:2gSKg0450
>>563
Python でも動かし方がわからないみたいよ

動かし方であーだこーだ時間を使うよりは有料でも使いやすいインターフェースがあった方がいい
こういうのは所詮道具だから
2023/01/11(水) 20:40:11.59ID:RZPLrb1r0
規制された?
566名無しさん@お腹いっぱい。
垢版 |
2023/01/15(日) 15:43:45.29ID:d/Jt3FpO0
>>561
多分AIチップの有無
2023/01/16(月) 10:13:41.53ID:ARaKc39v0
制限された?
2023/01/17(火) 08:02:43.09ID:JLVUHZYJ0
制限きつくなった
2023/01/19(木) 20:26:45.79ID:WqtzRSbq0
TEST
570名無しさん@お腹いっぱい。
垢版 |
2023/01/21(土) 01:51:12.94ID:OCOnSa520
>>561
スマホのカメラのレンズは顔認識にはじまり、そのレンズ通して画像(映像)からフォントやらワンタップで楽々と認識+特定できるようになるかもしれない。
既にある気もするけど。googleとかやりそうだし。
AIと言うと、KRITA Paintって無料(フリーウェア)のペイントアプリで超簡単お手軽に消したい任意の人や車をこの画像みたいに消せるのがなんだかすごい。
コラージュには欠かせないツールかもしれない。
https://i.imgur.com/HPssPV5.png
GIGAZINEで知った。
2023/01/23(月) 09:06:58.16ID:IEgo6gO30
test
2023/01/23(月) 18:07:45.55ID:uTX11U8P0
非破壊型ScanSnapに添付のソフトでPDFに透明テキストを付けていたが性能が悪いので
読取革命の体験版を入手して試してみた
テキストは大体正しく読み取れているが不満点2つ
・ページの枠等でゴミ文字が大量に発生
・元のPDFの画像を再エンコしてしまっている
2023/01/23(月) 20:37:55.46ID:uDMkpynR0
>>572


> ・ページの枠等でゴミ文字が大量に発生
たぶんページ番号とか上の方にある見出しとかを言ってると思うんだけど本文だけを領域に指定したテンプレートを使って、それを簡単認識という一種のマクロで読み込ませればいい

> ・元のPDFの画像を再エンコしてしまっている
これは何とかしてほしいよね
2023/01/24(火) 14:53:20.86ID:pgLtZU8s0
レスありがとうございます。「簡単認識」というのは何ですか?
読取革命15の体験版を使っています
2023/01/24(火) 14:55:11.57ID:pgLtZU8s0
読取革命15の体験版を使ってみて不具合と思うこと

1. 複数のjpgをいれたフォルダーを用意する
2. 「画像ファイルを開く」でそのフォルダーを指定して「画像ファイルを追加して読み込む」に
チェックを付けた上でCtrl+Aで全ファイルを選択して開く
3. 複数ページとして読み込まれる
4. ところが「レイアウト」も「認識」も「保存」も最後のページしか処理できない

現行バージョン16ではどうですか?
2023/01/24(火) 20:12:23.68ID:JDh+ktVS0
ちょっと何言ってるかわからない
2023/01/24(火) 20:24:39.65ID:pgLtZU8s0
では逆に質問させてもらえますか
1ページが1つのjpgで、ファイル名に連番ついているものが多数ある場合
それらをまとめて読み込んでまとめてOCR処理することはできますか
2023/01/24(火) 21:23:07.42ID:ea8a85HJ0
15で、すべてのページを選択して、認識など順番に処理をしてくれている
左に並んでいる取り込まれた画像は選択された状態になっているのか
なっているなら、体験版の制限かもしれない
2023/01/24(火) 21:42:05.66ID:cUHZCYDc0
>>577
マニュアル読んでないならとりあえず『かんたんモード』使っとけ
メニューバー>表示>かんたんモードへ>入力>認識>保存

>>574
何処か分からないならF9キー押せ
そこに前もって処理手順を登録しとけば実行ボタン押すだけで全部やってくれる
2023/01/24(火) 22:13:55.01ID:pgLtZU8s0
>>578
取り込んだ後左に並んでいる画像は全部選択された状態になっています
Ctrl-Aを使って全部選択し直してもやはり最後のページしか処理できない
制限しているのか体験版だけの不具合かわからないけど動作確認はあきらめた
2023/01/24(火) 22:26:30.24ID:N6mW9c+00
>>574
体験版は使ってないんで分からないけど16正規版ならば、メニューで、認識→簡単認識、で設定画面を呼び出せる。
領域をカスタム設定して保存し、それをテンプレートとして簡単認識内に登録すれば後は自動で全てのページをそのテンプレートでやってくれる。
領域ごとの設定ではできるだけ自動認識を使わず、縦書きとか横書きとか半角とか全角とか細かく指定する方が認識が良い

一つの領域内に横書きと縦書きが混在した場合にはテンプレート処理できないので、1回簡単に意識を実行させた後、少数の例外ページだけ手作業でレイアウトを修正する

575の最後のページしか認識しない問題は画像ファイルを読み込ませた後左側のサムネイルページで最後のページしか選択していないことが原因だと思う。読み込み後コントロール A で全選択すれば全てのページの処理をしてくれる

簡単モードじゃなくて標準モードを使うこと

こんなとこですかね
2023/01/24(火) 22:28:05.47ID:N6mW9c+00
続き

Amazon のレビューでかんたん認識についての説明がありましたので転載しときますね


五点目は、「かんたん認識」機能です。
文庫本や単行本で、レイアウトが単純なものは、この機能を使うことで、かなりの短時間で文字認識を完了させることができます。
この機能は、ひとつの認識レイアウトをテンプレートとして保存して、「かんたん認識」機能で全ページに適用するというものです。
例えば、通常、文庫本の場合、見開きの上下端の部分に、ページ数や書籍名・章題などの文字情報が含まれています。この部分に関しては、基本的に文字認識する必要がない無駄な情報なのですが、自動で文字認識させると、この部分まで認識してしまいます。
「かんたん認識」機能を使えば、あらかじめ、上下の端の部分を認識しないレイアウトをテンプレートで設定しておいて、そのレイアウトに従って一度、全ページを文字認識してくれます。
もちろん、挿絵や図表があるページに関しては、認識がグチャグチャニなるので、その後で修正が必要になりますが、いちいち、手作業で無駄な認識部分を消す必要がありません。
また、レイアウト認識にテンプレートを使うことによって、レイアウト解析の時間も不要になりますから、文字認識の処理が速くなります。
テンプレートは、書籍ごとに作った方が、精度が高いので、その点はひと手間はかかりますが、それ以上にメリットが大きいと思います。
上手に使えば、精度の高い認識結果を得るのに、300Pの本で30分くらいですみます。(そのうち手作業は10分程度)≫
2023/01/24(火) 23:02:35.33ID:pgLtZU8s0
>>581

>575の最後のページしか認識しない問題は画像ファイルを読み込ませた後左側のサムネイルページで最後のページしか選択していないことが原因だと思う。

「標準モード」の「ファイル」の「画像ファイルを開く」を使いました
580に書いたように左側の画像サムネールは全部選択状態になっています
体験版の制限事項にはそんなことは書かれていないので体験版の不具合かな
2023/01/24(火) 23:11:41.54ID:pgLtZU8s0
体験版も無いのでバージョン16のメニュー構成がどうなっているのかはわかりませんが、
バージョン15の「標準モード」の「ファイル」の「画像ファイルを開く」と同等の方法で複数ファイルを
一括処理をできるようになっているのでしょうか
2023/01/24(火) 23:14:09.31ID:JDh+ktVS0
入門ウィザードの話なのか、かんたん認識の話なのか、画像ファイルを開くからの話しなのか、それら以外なのか
2023/01/24(火) 23:17:36.44ID:JDh+ktVS0
画像ファイルを開くからのだったら手順を踏まないと一括の認識変換はできないぞ
2023/01/24(火) 23:23:00.30ID:JDh+ktVS0
まずは入門ウィザードでやってみろ
2023/01/24(火) 23:26:48.79ID:N6mW9c+00
>>584
それとは違う


アマゾンのレビューはバージョン15のレビューなので、15でも「かんたん認識」はあると思う。レビューで簡単認識の機能は想像できるでしょう

もう少し詳しく知りたかったら15のマニュアルは公開されてると思うんでやり方探してみて

16の場合でも体験版はある筈。私は実際それで試してから購入したから
体験版というより使える期間に制限があるだけで機能制限はなかったと思う
2023/01/24(火) 23:35:17.61ID:pgLtZU8s0
どんな方法でもいいですけどバージョン16において、
1ページが1つのjpgで、ファイル名に連番が付いているような多数ファイル(ページ)がある場合
それらをまとめて読み込んでまとめてOCR処理することはできますか
というのが質問です

少なくともバージョン15の体験版ではできない
2023/01/24(火) 23:36:01.14ID:pgLtZU8s0
>>588
16の体験版は入手できないでいる
https://faq.sourcenext.com/app/answers/detail/a_id/12598/

15の体験版はインターネットアーカイブの古いページから何とか見つけ出したもの
2023/01/24(火) 23:50:01.11ID:JDh+ktVS0
入門ウィザードだ
2023/01/25(水) 00:03:44.68ID:DyKQ5Whb0
入門ウィザードは15の体験版で既にやっているがやはり最後のページしか処理されない
2023/01/25(水) 00:12:50.70ID:GkG6ZGoO0
>>589
答えはイエスだよ

バージョン16の体験版はなかった。試用期間というのは私の記憶違いで、返品が可能という条件だった。

私の場合はバージョン14を使っていて不満足なところがあったのでサポートに問い合わせたところバージョン14のサポートは既に終わっており回答できないが、バージョン16を勧められバージョン16でも満足する機能がなければ返品に応じるということだった。バージョン16で満足する機能があったので返品はしなかった。

バージョン16のマニュアルはここにあるよ
https://ftp.sourcenext.co.jp/k7_patch/sn-update/manual/SAESJ/manual.pdf

589ができればいいなら購入したほうが早いんじゃない?かんたん認識であなたの不満点は解決されると思うから
2023/01/25(水) 00:14:58.98ID:qoKngNmd0
そうか
俺の体験版15では全ページ一括OCR出来てるから何かを間違えてるんだろうな
2023/01/25(水) 00:45:52.30ID:qoKngNmd0
そう言えば設定によっては
レイアウトや認識結果を削除とかなんかしたあと
もう一度読み取ろうとしても読み取ない不具合か仕様あったようななかったような
2023/01/25(水) 00:46:29.68ID:qoKngNmd0
だいぶ前のあやふやな記憶
2023/01/25(水) 02:54:28.10ID:GkG6ZGoO0
>>589
かんたん認識はマニュアルの121ページ
2023/01/25(水) 08:45:03.18ID:DyKQ5Whb0
>>593
ありがとう
16のマニュアルを見たが62ページ(PDFの63/177)に「複数ファイルを指定する場合」と
書かれているが15のマニュアルにも同じことが書かれている
本来であればその方法でできるはず
15と16は比較表を見るとスペックにほとんど変更がないから15の体験版でできなければ16でも
怪しいと思い質問したした次第です
2023/01/25(水) 09:06:59.69ID:GkG6ZGoO0
できなければ製品として成立しないんだからできる。体験版の機能制限か、アーカイブがこわれているかのどちらかでしょう。
2023/01/25(水) 11:24:59.54ID:DyKQ5Whb0
複数のjpgを無劣化で1PDFに作れるから体験版でもOCRに掛けることはできる
しかしJPGを1つ読み込んだ時とそのJPGから作ったPDFを読み込んだ時とで比較すると
透明テキスト付PDFの品質が違っていた(どちらも再エンコであることは同じだったが)

そこで16を注文をした(435のように体験版を使い続けることもできるんだが)

まともな体験版を出せよ
2023/01/25(水) 11:36:38.79ID:6QPp+WbY0
パナソニックは15で開発終了してるんだな
ソースネクストにまともな開発能力ないしまあ残当
2023/01/25(水) 12:36:18.41ID:GkG6ZGoO0
なんだかんだ言っても日本語縦書きをまともに処理できるOCR ソフトは読取革命しかないように思うんだけど、他にある?あったら教えて

Googleやndlは透明テキスト処理ができないんで対象外ね
2023/01/25(水) 15:18:16.75ID:DyKQ5Whb0
>>602
スキャナーに付いて来たPower PDF Standardを今まで使ってきたが縦書きでも取れるし
一応だが実用にはなっていた
「サンプルzip」というファイルをアップしてみた。3つファイルが入っている
https://20.gigafile.nu/0505-d1645eba1bec6bdf5e13dcdefdcd7d45a

・某所のOCRテスト用サンプル。元はPNGだが「画像梱包」で無劣化PDF化したもの
・読取革命15体験版で透明文字付PDFに保存したもの
・Power PDF Standardで検索可能化

読取革命は画像を再エンコするのでファイルサイズがかなり大きくなってしまっている
Power PDF StandardはPDF内の画像ファイルを全く変えないのがいいところ
2023/01/25(水) 15:46:40.80ID:GkG6ZGoO0
>>603
ファイルサイズが大きくなったらアクロバットのファイルの最適化またはファイルの縮小をかけると劇的にサイズが小さくなるよ。

画質はほとんど劣化しないけれどよく見ると文字のエッジが微妙に変化しているので自分は2種類の方法でファイルサイズを小さくした後実際に目で見てファイルサイズの小ささと画質の良さのバランスが良い方を残している。
2023/01/25(水) 16:08:45.17ID:DyKQ5Whb0
PDFが対応している画像についてはそれを勝手に書き換えないのがベスト
技術的に難しいことではないはず

しかしパナソニックからソースネクストに変わってしまったら今後あるかもしれないバージョンアップでも
改善されることは絶望的だね
2023/01/25(水) 18:10:59.18ID:nVR442uK0
ずっとe.typistの高圧縮PDF(MRC圧縮)にしてるわ
iPadで読むには十分。つか文字のエッジはガタつき気味だけど、クッキリとするから読みやすい。
AcrobatのClearScanにしてたときもあったけど、やたらと読み込みが遅いのが出来たことがあって止めた
2023/01/26(木) 12:36:37.20ID:COtm4ckg0
余所でやってください。
2023/01/26(木) 17:20:39.24ID:nsE1OjFq0
久しぶりにeTypistとFineReaderを使ったら、あまりのポンコツぶりに驚いた。
PDFなんてAcrobat DCの方が認識率いいぞ。
みんなが知らないと思われるxdw文書もDocuworksの方が認識率が良くて驚いた。
2023/01/26(木) 18:29:58.68ID:bNrtAqo/0
テスト
2023/01/27(金) 16:14:23.09ID:2XDvwiTP0
読取革命の「PDFを解析して入力」というものは何に使うためにあるんだろうか
透明文字付PDFの誤認識文字を後から直すためかとも思ったが
直して保存すると画像文字と透明文字との位置が違ってしまうし
2023/01/27(金) 17:17:29.64ID:CmzK49I30
PDFを入力してもunicode文字が全部下駄文字になってしまうんだよな
20年間unicode化せずにやって来て
今更対応させる体力も無くソースネクストに丸投げして終了
2023/01/30(月) 16:10:52.67ID:HCAjqo0j0
読取革命においてPDFから無劣化でJPG等を取り出せる場合にはPDFを開くのではなく
取り出した画像ファイルを(複数)開く方がよいようだ

603の例で言うとサンプルの元のPNGは462x412ピクセル
それを無劣化PDFにして読み込むと1925x1716ピクセルのJPGに変換されてしまう(300dpi
の入力設定の時)
だからOCR後の透明文字付PDFのサイズも大きくなってしまうし2回エンコードされるから
画質も劣化する
どういう計算根拠でそのサイズに拡大しているのかは不明
PDF以外の画像ファイルを開いた時にはサイズが変更されることはない
2023/01/31(火) 06:21:19.62ID:WKam88fi0
>>612
単にPDFがweb閲覧用に減量化済みの低解像度なものだからじゃないの?
そのサンプルPDF内のPNGは72dpiだから300dpiに変換するとそのサイズになる
300/72*462 = 1925
300/72*412 = 1716.666…
2023/01/31(火) 17:27:31.67ID:WvcTDH8i0
計算はその通りですね

PNG形式ファイル自体にはdpiは指定できずそれを「画像梱包」のデフォルトでPDF化したら
72dpiのPDFが作られたようでした
試しに「画像梱包」で300dpiを指定してPDF化したらそれを開いて読取革命で作成した透明文字付
PDF中にPNGとほぼ同じピクセル数のJPGが作られていた(ファイルサイズも小さい)
2023/02/01(水) 10:23:43.08ID:D6WMl7M10
読取革命の不便な点・・・・

dpiが設定されていないファイルを複数まとめて開いた時にページ一覧のCtrl+Aで全部のファイルを選択
してもまとめて「解像度の設定」をできず1ページずつ設定しなければならない

事前に何かツールを使って対象ファイルにまとめてdpiを設定しておけばよいのだけれど
2023/02/01(水) 15:46:37.87ID:NpVHOxya0
>>162
オタクは気持ち悪いなら規制してほしいの?寂しいの?
2023/02/01(水) 15:46:40.86ID:o27UQapf0
>>414
過度に攻撃的な発言では通らない
2023/02/01(水) 15:46:41.50ID:DGJIob8I0
>>158
まだ2回なのに心臓の調子悪いんだがなんで品評会がなんJを自民倒すのが目的の連中がフェミ的な装いでっていう住み分け
2023/02/01(水) 15:46:42.46ID:o27UQapf0
>>58
配信者程度なら単なる内輪ノリなんじゃないのノリなんだろ
2023/02/01(水) 15:46:42.95ID:3udZnQSa0
>>136
ここの奴らは全方位に喧嘩売るスタイルなん
■ このスレッドは過去ログ倉庫に格納されています
16歳の水野カイトが封印の刀を見つけ、時間が裂けて黒い風と亡霊の侍が現れ、霊の時雨と契約して呪われた刀の継承者となる場面