光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト
主なOCRソフトウェア(市販ソフト)
・読取革命16(開発元パナソニック、販売元ソースネクスト)
・本格読取5(開発元パナソニック、販売元ソースネクスト)
・e.Typist v.15.0(メディアドライブ)
・ABBYY FineReader PDF 16(ABBYY)
主なOCRソフトウェア(フリーソフト)
・tesseract-ocr
・PaddleOCR
・RapidOCR
・NDLOCR
・MangaOCR
・bunkoOCR
過去スレ
【文字認識】OCRソフト【 自炊 】
https://egg.5ch.net/test/read.cgi/software/1470745451/l50
【文字認識】OCRソフト(2文字目)【 自炊 】
https://egg.5ch.net/test/read.cgi/software/1701326685/l50
探検
【文字認識】OCRソフト(3文字目)【 自炊 】
2024/03/21(木) 15:32:59.39ID:L+i98pj10
426名無しさん@お腹いっぱい。
2024/08/20(火) 02:31:09.01ID:BbzJqMkF0427名無しさん@お腹いっぱい。
2024/08/20(火) 02:31:25.24ID:Slg2RGfc0 支持して段取りしたいんだが
428名無しさん@お腹いっぱい。
2024/08/20(火) 02:45:23.20ID:EIt/ROOJ0 ひろきよ
いい書き込みだな~
いい書き込みだな~
429名無しさん@お腹いっぱい。
2024/08/20(火) 02:45:39.63ID:xe4LoUir0 国葬はええけど、統一も国葬も、2人が多いから知らぬ存ぜぬだよ
430名無しさん@お腹いっぱい。
2024/08/20(火) 03:04:04.11ID:ZzRtbDSw02024/08/22(木) 11:48:21.65ID:Pq1yED7H0
チーム内にもう一回今のグループ運勢占ってほしい
当職は嫌な思いして支持にこぎつけるシステムやから性別逆にすると難しそう
当職は嫌な思いして支持にこぎつけるシステムやから性別逆にすると難しそう
2024/08/22(木) 11:52:09.25ID:cYQy57t80
ただどっちにしても全く言いすぎではないか
外交でも混んでる球団の試合に勝つことって結構ある
外交でも混んでる球団の試合に勝つことって結構ある
433名無しさん@お腹いっぱい。
2024/08/22(木) 12:23:01.91ID:1AMRsWh50 スターオーシャン4やってたけど途中入社してただけだろ
2024/09/02(月) 01:41:15.88ID:421g9fJd0
『読み取革命』にVer.17が出てたのか。
もう国産の民生用OCRソフトなんて出ないと思ったのに、しかもAI連動とは。
パナは手を引いたはずだから、まさかソースネクストが?
プログラムと一緒に開発チームも移籍したとか?
それにしても発売から一月近く経っても店頭に並んでない某量販店……。
しっかしBBSPINKよりエロ広告が多いソフ板ってなんなの。
もう国産の民生用OCRソフトなんて出ないと思ったのに、しかもAI連動とは。
パナは手を引いたはずだから、まさかソースネクストが?
プログラムと一緒に開発チームも移籍したとか?
それにしても発売から一月近く経っても店頭に並んでない某量販店……。
しっかしBBSPINKよりエロ広告が多いソフ板ってなんなの。
2024/09/03(火) 22:49:30.64ID:xNKjjGK80
PDF透明テキストに書き出せる日本語OCRでいいものは何ですか?
2024/09/10(火) 12:28:30.31ID:CKmh0RXi0
>>434
アマゾンのレビュー見てきたら酷評だらけで、安定のソースネクスト品質のようです。
Azureの文字認識のレベルを知っちゃうととても買えない。しかしAzureは縦書きのレイアウト認識がめちゃくちゃだからもう少し我慢する必要がありそうです。
アマゾンのレビュー見てきたら酷評だらけで、安定のソースネクスト品質のようです。
Azureの文字認識のレベルを知っちゃうととても買えない。しかしAzureは縦書きのレイアウト認識がめちゃくちゃだからもう少し我慢する必要がありそうです。
2024/09/10(火) 20:14:46.19ID:XLDvlPDw0
>>436
『読取革命』Ver.17のレビューはアマゾンにはまだなかったけど?
『読取革命』Ver.17のレビューはアマゾンにはまだなかったけど?
438名無しさん@お腹いっぱい。
2024/09/11(水) 00:23:43.43ID:D7FxFRIE0 なんかTwitterで、Ver.17の性能めっちゃいいって書き込み見たけど
だれか実際に使ったレビューキボンヌ
だれか実際に使ったレビューキボンヌ
2024/09/11(水) 04:12:11.49ID:i/YLVe+R0
めっちゃ良くなったと役に立たないが混在してるな
アップグレード版買うか迷う
アップグレード版買うか迷う
2024/09/12(木) 22:17:19.25ID:nVZwa94b0
439だけど1ライセンス5980円で買えたから買ってみた
一応アップグレード版は4980円だった
15→17の比較だけど明らかに精度は上がってる
前までは区切りの点の連続とかを中点として認識するのとか図表の認識とか全体としてミスが減ってる感じがする
文字認識も前よりは良くなってる
ただ「解 説」みたいに空白が入ると連続した文字として認識できなかったり、「」と文字の組み合わせを1文字として認識したりとかは今までと変わらない
AIトータルアシストは役に立たなそう
ただChat GPTが別窓で開いてそれ用のテンプレートで質問してくれるだけ
都度手動でコピーして修正しないといけない
一応アップグレード版は4980円だった
15→17の比較だけど明らかに精度は上がってる
前までは区切りの点の連続とかを中点として認識するのとか図表の認識とか全体としてミスが減ってる感じがする
文字認識も前よりは良くなってる
ただ「解 説」みたいに空白が入ると連続した文字として認識できなかったり、「」と文字の組み合わせを1文字として認識したりとかは今までと変わらない
AIトータルアシストは役に立たなそう
ただChat GPTが別窓で開いてそれ用のテンプレートで質問してくれるだけ
都度手動でコピーして修正しないといけない
2024/09/12(木) 22:38:22.59ID:sPvY7X8L0
レビューサンクス
2024/09/12(木) 23:37:54.31ID:iCGNPncY0
>>440
アップグレード版なんて売ってるの?
アップグレード版なんて売ってるの?
2024/09/13(金) 01:41:54.63ID:hDwg58Cg0
>>442
読取革命16持ってるといける
お持ちの製品一覧ページ→製品アイコンをクリック→アップグレードから買える
自分の場合だと17の新規ライセンスも16あると追加購入サービス+割引クーポンで5980円になった
読取革命16持ってるといける
お持ちの製品一覧ページ→製品アイコンをクリック→アップグレードから買える
自分の場合だと17の新規ライセンスも16あると追加購入サービス+割引クーポンで5980円になった
2024/09/13(金) 09:24:40.84ID:8jP2TNOY0
ありがとう 16を起動したら\4980の案内が出て来た
440さんは15との比較だと思うが16との比較はどうなんだろうか
新機能のAIトータルアシストとやらが役に立たなそうだとするとアップデートの価値あるのかな?
440さんは15との比較だと思うが16との比較はどうなんだろうか
新機能のAIトータルアシストとやらが役に立たなそうだとするとアップデートの価値あるのかな?
2024/09/15(日) 06:05:17.91ID:CkG0wRFW0
2024/09/15(日) 22:38:22.15ID:/YJ03GSc0
>>445
ホントだ、見つかった。
ソースネクスト |読取革命Ver.17(最新版)
と
ソースネクスト |読取革命Ver.17(パッケージ版)(最新版)
とで別々のページだったのね。
スマンかった。
レビューが載ってたのはこっち
↓
ソースネクスト |読取革命Ver.17(最新版)
ホントだ、見つかった。
ソースネクスト |読取革命Ver.17(最新版)
と
ソースネクスト |読取革命Ver.17(パッケージ版)(最新版)
とで別々のページだったのね。
スマンかった。
レビューが載ってたのはこっち
↓
ソースネクスト |読取革命Ver.17(最新版)
2024/09/16(月) 06:48:42.02ID:A82r0bJN0
2024/09/16(月) 07:13:44.72ID:1sf1UFbu0
国会図書館のOCRが公開されてるんですね。
試した方いらっしゃいますか?
俺は3連休で家族サービス中だから何もできません
試した方いらっしゃいますか?
俺は3連休で家族サービス中だから何もできません
449名無しさん@お腹いっぱい。
2024/09/16(月) 10:02:45.25ID:mC3UGiHP0 やっぱりレイアウトは先に認識させた方が、安定するのかな。
似た文字は前後見ないと無理ゲーだし、太めのフォントが鬼門なのはなんとなく分からんでもないな。
ふりがなは日本のメーカーならがんばって欲しいけど、やり出すと沼るよね。レンダリングのルールが
ややこしすぎるのです。
似た文字は前後見ないと無理ゲーだし、太めのフォントが鬼門なのはなんとなく分からんでもないな。
ふりがなは日本のメーカーならがんばって欲しいけど、やり出すと沼るよね。レンダリングのルールが
ややこしすぎるのです。
2024/09/16(月) 12:04:11.77ID:54JSYGC90
2024/09/16(月) 15:54:09.07ID:+KZLgHir0
452名無しさん@お腹いっぱい。
2024/09/19(木) 22:20:09.91ID:BJSsmCov02024/09/20(金) 05:24:50.78ID:lkCzLLaz0
複数の全然由来の違うOCRにかけてその結果どうしを比較する方法はかなり有効
人間でも見間違えるような一部の類似字体については両方同じ間違いをする可能性があるのでそういうのだけは辞書を作って別途確認が必要になる
人間でも見間違えるような一部の類似字体については両方同じ間違いをする可能性があるのでそういうのだけは辞書を作って別途確認が必要になる
2024/09/20(金) 05:25:35.73ID:lkCzLLaz0
複数の全然由来の違うOCRにかけてその結果どうしを比較する方法はかなり有効
人間でも見間違えるような一部の類似字体については両方同じ間違いをする可能性があるのでそういうのだけは辞書を作って別途確認が必要になる
人間でも見間違えるような一部の類似字体については両方同じ間違いをする可能性があるのでそういうのだけは辞書を作って別途確認が必要になる
2024/09/21(土) 17:17:54.49ID:6UDFi/4b0
AIと同じだねえ
どっちかがアホなこと言ってても、もう一方は案外まともなことを言う、ということがあるんだよねえ
どっちかがアホなこと言ってても、もう一方は案外まともなことを言う、ということがあるんだよねえ
456名無しさん@お腹いっぱい。
2024/09/21(土) 21:43:18.93ID:1bMz4efF0 異なるロジックで考えて、同じ結果が得られると確からしいっていうのはよくやられてるよね。
Conv系の機械学習モデルとVision Transformer系の機械学習モデルとかで検証するのもよさそうな気がする
ブラックホールの観測結果を3つの理論から独立に別チームが解析して、同じ結果が得られたって論文あった。
Conv系の機械学習モデルとVision Transformer系の機械学習モデルとかで検証するのもよさそうな気がする
ブラックホールの観測結果を3つの理論から独立に別チームが解析して、同じ結果が得られたって論文あった。
457名無しさん@お腹いっぱい。
2024/09/25(水) 06:46:47.39ID:TXMpY8WJ0 NDLOCRをローカル環境で動かせるソフトはあるのだろうか
2024/09/25(水) 08:05:57.91ID:qWpwT9BB0
オープンソースなので普通にローカルにインストールして動くよ
問題はハードでそれなりのスペックが要求される
問題はハードでそれなりのスペックが要求される
2024/09/26(木) 17:46:09.68ID:3ueklK3X0
どうでもいい話だけど、AzureのOCRが素晴らしいもんだから翻訳も試してみたらびっくりするぐらいのポンコツでがっかりしたわ
2024/09/27(金) 09:32:15.05ID:haDtGw7l0
AzureでOCR,DeepLで翻訳がオススメ
ただし、一定以上とか編集可能PDFにするには金がかかるけど
ただし、一定以上とか編集可能PDFにするには金がかかるけど
2024/09/29(日) 06:15:09.42ID:Ssghl5Ae0
DeroLは無料だと1500文字制限が不便だったので試したらOCRと雲泥の差があって驚いた。アマゾンとグーグルも試してポンコツならDerpL課金します。
AIも課金してるが翻訳までハルシネーションがあって使い物にならないので不便。
AIも課金してるが翻訳までハルシネーションがあって使い物にならないので不便。
2024/09/30(月) 10:05:17.06ID:ivIc3axb0
AzureのOCRって縦書きもいける?
試してみようかな
試してみようかな
2024/09/30(月) 11:18:20.27ID:lMMQHpIY0
文字の認識は優秀だけど縦書きレイアウト認識がポンコツ
2024/09/30(月) 17:38:39.66ID:YVVIIOnn0
言うほどポンコツかなー
俺は横書き本しか持ってないけど、親が専門関連の文庫を読みたいから英訳してって言われて
>>460でやったけどわかりやすいって言ってた
まぁ自分が読むだけなら知識と読解力でカバーできるってのもあるのかもしれんけど
俺は横書き本しか持ってないけど、親が専門関連の文庫を読みたいから英訳してって言われて
>>460でやったけどわかりやすいって言ってた
まぁ自分が読むだけなら知識と読解力でカバーできるってのもあるのかもしれんけど
2024/09/30(月) 22:36:21.63ID:lMMQHpIY0
2024/10/05(土) 12:05:51.67ID:WGQmU+TB0
自分はそういうプログラムの知識はないので小説などを簡単にやれる方法として今は
課金済みv-flatで撮影(カメラ性能の良いスマホと三脚、照明が必要)
↓
PCにコピーしてノンブルなどをトリミング
↓
bunkoocr(ルビは認識が怪しいのでつけない)
↓
txt結合、改行やカギ括弧など修正
↓
calibreで表紙をつけてepubにして完成
挿絵や図表などある場合は面倒だけどcalibreで該当箇所に挿入
これでなんとか自分専用で読めるぐらいにはなる
誤字もあるし他人に見せるレベルじゃないし連続した「も認識ミスするけど
これを全部修正していったらどれだけ時間かかるかわからないし
途中のファイルもちょっと見るだけで修正したくなるのであえて割り切ってそのまま作成してる
v-flat単体でもOCR機能はあるけどノンブル自動トリミングがないのでほぼ使ってないが
認識率や速度はまぁまぁだと思う
課金済みv-flatで撮影(カメラ性能の良いスマホと三脚、照明が必要)
↓
PCにコピーしてノンブルなどをトリミング
↓
bunkoocr(ルビは認識が怪しいのでつけない)
↓
txt結合、改行やカギ括弧など修正
↓
calibreで表紙をつけてepubにして完成
挿絵や図表などある場合は面倒だけどcalibreで該当箇所に挿入
これでなんとか自分専用で読めるぐらいにはなる
誤字もあるし他人に見せるレベルじゃないし連続した「も認識ミスするけど
これを全部修正していったらどれだけ時間かかるかわからないし
途中のファイルもちょっと見るだけで修正したくなるのであえて割り切ってそのまま作成してる
v-flat単体でもOCR機能はあるけどノンブル自動トリミングがないのでほぼ使ってないが
認識率や速度はまぁまぁだと思う
467代行
2024/10/14(月) 07:02:49.79ID:5ekQeyRx0 v-flatはサブスク制なのがなあ
2024/10/23(水) 08:56:07.95ID:lLk19ozM0
bunkoOCRは1年以上進展ないな
期待しているんだが
期待しているんだが
469名無しさん@お腹いっぱい。
2024/10/23(水) 22:40:28.18ID:3wKwcslW0 >>468
うちのGPUはずっと唸りをあげて学習中なんですが、なかなか完璧とはいかず、公開できるとこまで行かないのです
うちのGPUはずっと唸りをあげて学習中なんですが、なかなか完璧とはいかず、公開できるとこまで行かないのです
2024/11/02(土) 22:57:05.03ID:dexeMLJQ0
bunkoOCRのソースをダウンロードしたが、うちの環境では動かん。
残念!
残念!
2024/11/13(水) 16:21:25.31ID:nKEbg9/u0
Text Grab
https://github.com/TheJoeFin/Text-Grab
https://github.com/TheJoeFin/Text-Grab
472名無しさん@お腹いっぱい。
2024/11/26(火) 19:47:10.80ID:Vf/W3BmX0 縦書きも認識できるフリーのOCR少ないよね
2024/11/27(水) 01:44:57.81ID:KxkLD8oi0
有料でもポンコツだしなあ
まともなのはソリューション価格のしかないんだよねえ
まともなのはソリューション価格のしかないんだよねえ
2024/11/27(水) 10:37:20.67ID:I3jMM/if0
475名無しさん@お腹いっぱい。
2024/11/27(水) 18:49:17.31ID:vwtC0myp02024/11/27(水) 21:07:53.30ID:3X1YKF5c0
>>475
パッケージラベルで少し苦戦しているけど、枠線内の文字レイアウトが離れすぎだったり、歪みはしょうがない
デジタル出版例もスマホ撮影例も凄く高解像度な画像だから割と上手く行っている側面がありそう
肝心なのは印刷物の通常スキャン解像度(白黒300dpi程度)での精度なんだよね
パッケージラベルで少し苦戦しているけど、枠線内の文字レイアウトが離れすぎだったり、歪みはしょうがない
デジタル出版例もスマホ撮影例も凄く高解像度な画像だから割と上手く行っている側面がありそう
肝心なのは印刷物の通常スキャン解像度(白黒300dpi程度)での精度なんだよね
2024/11/28(木) 10:26:27.62ID:8D3os0S00
国会図書館が古典籍資料からテキスト抽出する軽量OCRツールを公開 ~GPUなしでも動作 - 窓の杜
https://forest.watch.impress.co.jp/docs/news/1642941.html
https://forest.watch.impress.co.jp/docs/news/1642941.html
2024/11/28(木) 11:42:12.15ID:WVQK397K0
ヘタレのためにほかのツールもWindowsバイナリを提供しておくれ
479名無しさん@お腹いっぱい。
2024/11/28(木) 14:49:27.19ID:m/5qJpvj0 yomitoku凄いね
これで透明テキスト付きPDF作れるようにしてくれないかなー
これで透明テキスト付きPDF作れるようにしてくれないかなー
2024/11/28(木) 18:08:28.78ID:WVQK397K0
yomitokuで縦書き文章を試してみたけどルビがよみにくい
たとえばある行に3ヶ所ルビがある時
ルビ1
ルビ2
ルビ3
本文行
のように4行となる
また、なぜか行の順番が入れ替わってしまうものもあった
たとえばある行に3ヶ所ルビがある時
ルビ1
ルビ2
ルビ3
本文行
のように4行となる
また、なぜか行の順番が入れ替わってしまうものもあった
2024/11/30(土) 09:07:30.91ID:1dsTIBNP0
bunkoOCRでIntel Iris XeはGPUとして認識されないけど次のような方法を試して使えるようになった
作者様にもメールで確認をした
(1) タスクマネージャーのパフォーマンスでGPUの共有GPUメモリの最大値を見る
(2) 何かのコンパイラで次の2行を標準出力に書くexeファイルを作る
8000MiB meomry
0
1行目は(1)のGB表示に1024を掛けた数値の端数を切り捨てて書けばよい
(3) detectGPU.exeをそのファイルに置き換える
Intel Iris Xeは能力が低いのでそれほど早くはならないけど消費電力が低いので
熱くなってファンがうるさくなることも少なくなる
作者様にもメールで確認をした
(1) タスクマネージャーのパフォーマンスでGPUの共有GPUメモリの最大値を見る
(2) 何かのコンパイラで次の2行を標準出力に書くexeファイルを作る
8000MiB meomry
0
1行目は(1)のGB表示に1024を掛けた数値の端数を切り捨てて書けばよい
(3) detectGPU.exeをそのファイルに置き換える
Intel Iris Xeは能力が低いのでそれほど早くはならないけど消費電力が低いので
熱くなってファンがうるさくなることも少なくなる
482名無しさん@お腹いっぱい。
2024/12/01(日) 04:00:56.64ID:mumTWlCt0 >>481
作者です。よく確認したら、結果はあってるけどちょっと違ったです。
detectGPU.exeの結果は、標準出力は使ってなくて、エラーコード(実行ファイルの返り値)
を使っているので、出力内容は何でもよくて、エラーコード0(正常終了)を返すexeなら何でもいいです。
int main() {
return 0;
}
なプログラムが必要です。
0がgpuインデックスになる感じです。
作者です。よく確認したら、結果はあってるけどちょっと違ったです。
detectGPU.exeの結果は、標準出力は使ってなくて、エラーコード(実行ファイルの返り値)
を使っているので、出力内容は何でもよくて、エラーコード0(正常終了)を返すexeなら何でもいいです。
int main() {
return 0;
}
なプログラムが必要です。
0がgpuインデックスになる感じです。
2024/12/01(日) 10:32:00.77ID:UMyiOZ7o0
>>482
お知らせありがとうございます
お知らせありがとうございます
2024/12/02(月) 02:35:21.53ID:GN1ZIlCb0
エロ広告が死ぬほどうざいが、OCRの火はまだ燃え続けているようでうれしい。
2024/12/12(木) 20:16:06.27ID:iiKU24Oc0
bunkoOCRは段組を自動で判断してるみたいだけど
?や!のあとに一文字空白があると多段と認識して後半の文が
改行したり文章の一番うしろに飛ばされることが度々ある
一段か多段かを選択できたら精度が上がる気がする
?や!のあとに一文字空白があると多段と認識して後半の文が
改行したり文章の一番うしろに飛ばされることが度々ある
一段か多段かを選択できたら精度が上がる気がする
486名無しさん@お腹いっぱい。
2024/12/13(金) 01:31:08.67ID:xfVxxs/U0 やっぱりフォーマット解析を先に通すべきかな。
2行以上同じ場所に空白があると、そこに引っかかることが多いので。
段組の解析と、文章ブロックの解析を先に回して、順番を確定してから
中身をOCRするといいのかもしれない。範囲が狭くなって時短になるし。
2行以上同じ場所に空白があると、そこに引っかかることが多いので。
段組の解析と、文章ブロックの解析を先に回して、順番を確定してから
中身をOCRするといいのかもしれない。範囲が狭くなって時短になるし。
2024/12/24(火) 12:10:25.05ID:S3Eh2Mr90
bunkoOCRは先頭が「だと必ず欠けるのが困るッス。
2024/12/28(土) 22:16:33.65ID:Rj26qyYJ0
朝方プラスだった?
よかった!
よかった!
2024/12/28(土) 22:49:26.78ID:QpEuhvAo0
https://news.yahoo.co.jp/articles/bb73dfa4d3ffdcea3453253108688b774e186f3d
はじめの枕詞は無しにして、記事の説明で出してくるケース
はじめの枕詞は無しにして、記事の説明で出してくるケース
2024/12/28(土) 22:49:55.47ID:QpEuhvAo0
誤爆だった
2024/12/30(月) 05:40:44.33ID:6JL9R1Sp0
ABBYYとUMI-OCRで日本語の認識精度もしかして大差ない?
2025/01/13(月) 17:36:55.32ID:x2dqpLHm0
れえかにはみもぬみおにかいるくもねきおえさてんのふま
493名無しさん@お腹いっぱい。
2025/01/13(月) 17:53:03.26ID:bNcfye340 一応オリエンタルバイオという既存スポンサーから更に基地外だと思う
カルト被害にあう人間はたいがい依存症だからね
カルト被害にあう人間はたいがい依存症だからね
2025/01/13(月) 18:22:24.27ID:8V8OF5oz0
495名無しさん@お腹いっぱい。
2025/01/13(月) 18:57:41.19ID:p0vIWOpU0 んりふさらおいてわあぬつもてうすうをきうらすひよあそむさけいいもんすのんこれ
496名無しさん@お腹いっぱい。
2025/01/13(月) 19:18:18.23ID:dAkEFc+U0 つつんせせなへちへんえんねをもよおむたすねなたほゆよちりやしいもゆのちねんうをりすろのうふてひよ
497名無しさん@お腹いっぱい。
2025/01/13(月) 19:20:49.55ID:XbCzf+SD0498名無しさん@お腹いっぱい。
2025/01/13(月) 19:35:04.41ID:RX1iUJAg0 アップで見てるだけ
若者以前に技術的な会議だ
要するにウンコでなく有効期限もチェックしても
すぐに観たい人ばかりなんだよ
若者以前に技術的な会議だ
要するにウンコでなく有効期限もチェックしても
すぐに観たい人ばかりなんだよ
2025/01/13(月) 19:59:31.57ID:ZxYq+psp0
防御率が悪いのではあるんちゃうか
今回
保険屋もディーラーも
変な人は作品の質が流石にあれは業界人が出してきた
サル痘とかじゃなくても文句はないけど妙なカリスマ性もある
今回
保険屋もディーラーも
変な人は作品の質が流石にあれは業界人が出してきた
サル痘とかじゃなくても文句はないけど妙なカリスマ性もある
2025/01/13(月) 21:13:00.18ID:hP7MNO0C0
別にどう思うか?
2025/01/13(月) 21:17:29.98ID:1NtYMATG0
502名無しさん@お腹いっぱい。
2025/01/13(月) 21:44:28.58ID:zGCeSHtK0 甘酒を適宜飲むてのは知ってた時代に比べると皆アホほど上手くなった
2025/02/05(水) 18:59:29.70ID:liRD7c9c0
>>501
グロ
グロ
2025/02/18(火) 23:38:19.78ID:ktxOCLSq0
Windows 11 が持っているOCRの機能ってCopilot+ PCだと精度上がるのだろうか?
うちのWin11ではSnipping Toolからのテキスト抽出のアイコンが出て来ないので、PowerToys のOCRを使ってみたけど、別に精度よくなかった。
うちのWin11ではSnipping Toolからのテキスト抽出のアイコンが出て来ないので、PowerToys のOCRを使ってみたけど、別に精度よくなかった。
2025/02/19(水) 09:20:59.81ID:OVXQoSC90
copilotを使うというのは思い付かなかったな
自分のsnipping toolにもテキスト抽出というものは無かった
ためしにcopilotに画面をコピペした日本語の横書き・縦書きテキストのファイルをアップロードして「OCRして下さい」と書いたらどちらも完璧にOCRされた
ただし段落最初のスペースは消えた
エクセルの表をコピペしたらちょっと崩れたけど罫線は文字で表示されて再現された
少量の文書ならば使い物になるかもね
自分のsnipping toolにもテキスト抽出というものは無かった
ためしにcopilotに画面をコピペした日本語の横書き・縦書きテキストのファイルをアップロードして「OCRして下さい」と書いたらどちらも完璧にOCRされた
ただし段落最初のスペースは消えた
エクセルの表をコピペしたらちょっと崩れたけど罫線は文字で表示されて再現された
少量の文書ならば使い物になるかもね
2025/02/19(水) 11:28:02.87ID:7xUXPLdj0
そこら辺はちゃんとチェックしてたがcopilot runtimeにOCRのAPIが追加されるんだよな
でちょうど2週前ぐらいにリリースされたWinAPpSdk exp で使えるようになってんだが
NPUが必要で試せないという
NVIDIAさんいずれRTXを対応させるドライバ出してくれるんだよね?
でちょうど2週前ぐらいにリリースされたWinAPpSdk exp で使えるようになってんだが
NPUが必要で試せないという
NVIDIAさんいずれRTXを対応させるドライバ出してくれるんだよね?
2025/02/19(水) 12:42:05.44ID:tjN1bvXb0
WebのCopilotにお願いしたら、これまで見たことあるOCRの中で一番出来が良かった。
横書きだけど。
ソースコードの所は改行消えていたけど。
横書きだけど。
ソースコードの所は改行消えていたけど。
2025/02/19(水) 13:03:47.43ID:tjN1bvXb0
縦書きで試してみたけど、正しく読めた文字から日本語を再作成しているもので、元の文と違う文字列を出してくる。
結局、全文チェックしないといけない奴だ。
結局、全文チェックしないといけない奴だ。
2025/02/20(木) 16:56:56.72ID:LA/ABBUU0
まとめ機能ついちゃってるのか
それだと、まだOCR専用AIのDocument Intelligenceの方で良い気がする
それだと、まだOCR専用AIのDocument Intelligenceの方で良い気がする
2025/03/03(月) 09:30:55.99ID:MbqkVVqY0
AIのOCRは余計な事するから使うのを止めた。
余計な文を挟み込んでくるんだよ。野坂昭如の翻訳がそうらしい。
余計な文を挟み込んでくるんだよ。野坂昭如の翻訳がそうらしい。
2025/03/07(金) 23:03:33.49ID:/vIgXUDc0
テストヨロ
高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に - GIGAZINE
ps://gigazine.net/news/20250307-mistral-ocr/
高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に - GIGAZINE
ps://gigazine.net/news/20250307-mistral-ocr/
513名無しさん@お腹いっぱい。
2025/03/08(土) 12:45:25.35ID:Dzm9ubiX0 >>512
英語はよさそうだけど、日本語は諦めが速すぎる。画像として貼り付けよる
英語はよさそうだけど、日本語は諦めが速すぎる。画像として貼り付けよる
514名無しさん@お腹いっぱい。
2025/03/08(土) 12:49:39.07ID:Dzm9ubiX0 わかった。横書きオンリーですな。
横書きなら日本語でもだいたい認識する
横書きなら日本語でもだいたい認識する
2025/03/08(土) 15:42:27.79ID:ytWhQ5Oa0
>>512,513
「数式をOCR処理」の意味するところが良く分からなかったけど
> 複雑な数式を含む文書もOCR処理できます。
> 英語はよさそうだけど、日本語は諦めが速すぎる。画像として貼り付けよる
この二つから類推すると画像内の数式部分を正しく「ここは数式だな」と判別して
文字認識は諦めて画像として貼り付けするという事かな?
表は「ここは表だな」と判断した上で文字認識もしてmarkdownの表として出力して、その結果レイアウトが崩れたりしているけど
数式は「ここは数式だな」と判断してるけどレイアウトが一切変化ないので、画像そのまま
(数式内の各記号を認識して)LaTeXやMathJax等で出力している訳ではない
> Mistral OCRは数式やスキャンデータを含むすべてのカテゴリで最も精度の高いOCRが可能です。
これも「ここは数式だな」と言う判断の的中率を言っているだけな気がして来た
「数式をOCR処理」の意味するところが良く分からなかったけど
> 複雑な数式を含む文書もOCR処理できます。
> 英語はよさそうだけど、日本語は諦めが速すぎる。画像として貼り付けよる
この二つから類推すると画像内の数式部分を正しく「ここは数式だな」と判別して
文字認識は諦めて画像として貼り付けするという事かな?
表は「ここは表だな」と判断した上で文字認識もしてmarkdownの表として出力して、その結果レイアウトが崩れたりしているけど
数式は「ここは数式だな」と判断してるけどレイアウトが一切変化ないので、画像そのまま
(数式内の各記号を認識して)LaTeXやMathJax等で出力している訳ではない
> Mistral OCRは数式やスキャンデータを含むすべてのカテゴリで最も精度の高いOCRが可能です。
これも「ここは数式だな」と言う判断の的中率を言っているだけな気がして来た
516名無しさん@お腹いっぱい。
2025/03/08(土) 16:22:01.74ID:Dzm9ubiX0 >>515
https://i.imgur.com/sspTI0R.png
認識結果
'\n\n数式を認識します。\n\n> > > $y=3 x+b$\n\n積分してみます。\n\n> > > $f(x)=\\int_{b}^{a} e^{-i \\omega t} d x$'
https://i.imgur.com/sspTI0R.png
認識結果
'\n\n数式を認識します。\n\n> > > $y=3 x+b$\n\n積分してみます。\n\n> > > $f(x)=\\int_{b}^{a} e^{-i \\omega t} d x$'
2025/03/08(土) 17:00:14.75ID:YgdiYW6g0
mistralは日本語縦書き駄目だね。勢いで久しぶりにAzure試したらこれも駄目。
Google Vision ,Google Document AI のデモやったみたら大成功。
今、スクリプト作成中。
Google Vision ,Google Document AI のデモやったみたら大成功。
今、スクリプト作成中。
518名無しさん@お腹いっぱい。
2025/03/11(火) 16:22:09.99ID:5corJRxm0 https://lithium03.info/product/bunkoOCR.html
機械学習モデルを新しくしたので、色々いじった
性能が上がったのか下がったのか、もう訳わかんなくなってきたので、
暇な人誰かテストして。
ページ番号とかの邪魔な文字を外すやつは、ちょっと保留にしてます。
別のエンジンで領域を選択してやる予定なので、これから作るとこ
機械学習モデルを新しくしたので、色々いじった
性能が上がったのか下がったのか、もう訳わかんなくなってきたので、
暇な人誰かテストして。
ページ番号とかの邪魔な文字を外すやつは、ちょっと保留にしてます。
別のエンジンで領域を選択してやる予定なので、これから作るとこ
2025/03/11(火) 22:40:15.06ID:nNrCCW6a0
ありがとうございます
まだ見ている最中ですが2023年版で段組みが崩れていたものが直っていたり、貧弱なIntel Iris Xeでも処理速度が上がっていたりと よくなっていますね
まだ見ている最中ですが2023年版で段組みが崩れていたものが直っていたり、貧弱なIntel Iris Xeでも処理速度が上がっていたりと よくなっていますね
2025/03/12(水) 00:14:22.09ID:IkhrA4P00
新バージョンはどこ?
2025/03/12(水) 01:26:05.48ID:j/g0U0VX0
見つけられない子は触らない方がいいよ。
5GB ダウンロードする必要もあるし。
5GB ダウンロードする必要もあるし。
2025/03/12(水) 08:47:48.58ID:YhbJVQyX0
>>518
ありがとうございます
ずっと待っていました
ページ番号除去はChainLPなどを使ってやってますが
複数のソフト使わないで済むのは助かりますね
今日中に試してみますね
連続した会話文で2行目のカギカッコが抜ける
ダブルクォーテーションの最初の「“」が抜けるあたりが改善されていたらかなり嬉しい
ありがとうございます
ずっと待っていました
ページ番号除去はChainLPなどを使ってやってますが
複数のソフト使わないで済むのは助かりますね
今日中に試してみますね
連続した会話文で2行目のカギカッコが抜ける
ダブルクォーテーションの最初の「“」が抜けるあたりが改善されていたらかなり嬉しい
523名無しさん@お腹いっぱい。
2025/03/13(木) 02:06:33.53ID:H24E0L8b0 bunkoOCR_20250313_patch.zip
出力先を指定出来るようにした。
出力jsonファイル名が被ったときに上書きするかどうか選べるようにした。
要望サンクス
出力先を指定出来るようにした。
出力jsonファイル名が被ったときに上書きするかどうか選べるようにした。
要望サンクス
524名無しさん@お腹いっぱい。
2025/03/13(木) 15:59:49.10ID:ZDdU+T6e0 >>518
早速使わせていただきました
旧バージョンより速度も精度も格段にアップしていて感激です
カギカッコやダブルクオーテーション、一と-の判別も正確に認識されていました
radeon7600xtなのでdirectMLのみチェックして使いましたが
tensorやQudaに対応していなくても何も問題なく快適に動きます
ただ、以前は読み込んだファイルは誤字脱字はあっても全部処理されていましたが
今回のですと稀に処理されずにウインドウ左側に残ったままなのがありました
600ページで7〜8個程度で挿絵も入っていない普通の文章の画像ファイルです
(もう一度読み込ませたらちゃんと処理してくれました)
また、ルビの小さい文字「ゃ」「っ」を「や」「つ」と認識するのが結構ありました
それとキャッシュフォルダも見た限りでは作成されてない思います
以前のバージョンに比べて質の低いファイル、低画質でぼやけてたり汚れてたり傾いているものも
かなり正確にocr出来ている感じです
旧版はファイルの画質やサイズに関わらず同じような時間と負荷がかかっていましたが
今のですと低画質ファイルならRADEONでもかなり速くなります
420ページの文庫本、1ページあたり200〜300KB程度のファイルでも
旧版だと1時間7分程かかっていたのが今回は7分で終わったので10倍近く速くなりました
それでいて認識精度も良くなっているので嬉しい限りです
600dpi、1ページあたり6〜800kbのものだと多少遅くなり420ページで20分程度。
GPU負荷はどちらもほぼ100%ですが消費電力は前者が平均120W程度に対して後者だと150〜60と高くなります
温度も平均45度と53度で高くなっています
低画質でも読み取り精度が高く結果が変わらないのであまりスペックが高くないPCの方、省エネしたい方は
画像編集ソフトなどでリサイズすれば負荷がかからなくていいかも
とにかく素晴らしいソフトをありがとうございました
以前はOCR処理してる時間に自炊や他の作業をしてましたが
今はいつのまにか終了してる感じです
早速使わせていただきました
旧バージョンより速度も精度も格段にアップしていて感激です
カギカッコやダブルクオーテーション、一と-の判別も正確に認識されていました
radeon7600xtなのでdirectMLのみチェックして使いましたが
tensorやQudaに対応していなくても何も問題なく快適に動きます
ただ、以前は読み込んだファイルは誤字脱字はあっても全部処理されていましたが
今回のですと稀に処理されずにウインドウ左側に残ったままなのがありました
600ページで7〜8個程度で挿絵も入っていない普通の文章の画像ファイルです
(もう一度読み込ませたらちゃんと処理してくれました)
また、ルビの小さい文字「ゃ」「っ」を「や」「つ」と認識するのが結構ありました
それとキャッシュフォルダも見た限りでは作成されてない思います
以前のバージョンに比べて質の低いファイル、低画質でぼやけてたり汚れてたり傾いているものも
かなり正確にocr出来ている感じです
旧版はファイルの画質やサイズに関わらず同じような時間と負荷がかかっていましたが
今のですと低画質ファイルならRADEONでもかなり速くなります
420ページの文庫本、1ページあたり200〜300KB程度のファイルでも
旧版だと1時間7分程かかっていたのが今回は7分で終わったので10倍近く速くなりました
それでいて認識精度も良くなっているので嬉しい限りです
600dpi、1ページあたり6〜800kbのものだと多少遅くなり420ページで20分程度。
GPU負荷はどちらもほぼ100%ですが消費電力は前者が平均120W程度に対して後者だと150〜60と高くなります
温度も平均45度と53度で高くなっています
低画質でも読み取り精度が高く結果が変わらないのであまりスペックが高くないPCの方、省エネしたい方は
画像編集ソフトなどでリサイズすれば負荷がかからなくていいかも
とにかく素晴らしいソフトをありがとうございました
以前はOCR処理してる時間に自炊や他の作業をしてましたが
今はいつのまにか終了してる感じです
525名無しさん@お腹いっぱい。
2025/03/13(木) 16:36:32.91ID:2PKx2Ptv0 >>524
テストありがとうございます。
リストに残っちゃうのが謎です。ちょっと負荷テストしてどこがおかしいかチェックしてみます。
つとやの小さいのと大きいのを間違えるのは、ふりがなで小さくしないルールの文庫本と、ちゃんと小さく書く青空文庫を両方取り込んだので、迷いがあるのかもしれません。
アルファベットを半角にするか全角にするかとかも、迷いが見られるので、この辺りはどうしたもんかなと。
後処理でなんとかする方がよいかもしれません。
テストありがとうございます。
リストに残っちゃうのが謎です。ちょっと負荷テストしてどこがおかしいかチェックしてみます。
つとやの小さいのと大きいのを間違えるのは、ふりがなで小さくしないルールの文庫本と、ちゃんと小さく書く青空文庫を両方取り込んだので、迷いがあるのかもしれません。
アルファベットを半角にするか全角にするかとかも、迷いが見られるので、この辺りはどうしたもんかなと。
後処理でなんとかする方がよいかもしれません。
526名無しさん@お腹いっぱい。
2025/03/13(木) 16:38:42.69ID:2PKx2Ptv0 DirectMLとCUDAは、キャッシュ使わないので生成されないので合ってます。
TensorRTとOpenVINOがキャッシュ出すはずです
TensorRTとOpenVINOがキャッシュ出すはずです
レスを投稿する
ニュース
- 【台湾有事】トランプ氏 電話会談で高市総理に発言抑制を要求か 米メディア報道… ★4 [BFU★]
- 【台湾有事】トランプ氏 電話会談で高市総理に発言抑制を要求か 米メディア報道… ★5 [BFU★]
- 【外交】米紙によると日本側は「発言を完全に撤回することは難しい」と米側に説明(WSJ) [1ゲットロボ★]
- 【文春】元TOKIO・国分太一(51)「女性スタッフ2名への“わいせつ事案”」日テレ事情聴取の全貌が分かった! ★8 [Ailuropoda melanoleuca★]
- 👨‍🦱👧Z世代、35%が週休3日希望 「無理せず・安定」に重き 民間調査 [パンナ・コッタ★]
- 【蒲郡ホテル】「中国人団体がキャンセル 損失2000万円」報道に見解公表→「想定内」「中国からの団体客に依存してない」 [nita★]
- 中国「統一教会は邪教、日米は邪教徒に牛耳られている」ヤフコメ荒れすぎて閉鎖へ [347751896]
- 【速報】ヤフウヨ民超発狂へ★3 [194819832]
- 【朗報】ガンダム監督「政権変わってよかった。高市と小野田(35)は最高。石破はゴミ立憲か共.産に行け。メディア報道は全部ウソ」 [517459952]
- 【悲報】男さん「しまむらの服で『BMW』に行ったら、バカにされたが、職業欄に『医師』って書いたら店員の態度変わったw [483447288]
- 識者「ラサール石井は浅田真央への『エッチしなきゃ』発言前に、暴言吐きます と前置きしている。それを言葉狩りするのは意味不明だ」 [932029429]
- スマホ2台持ちにしようか迷ってるんだが、実際スマホ2台持つ意味ってある? [957955821]
