【文字認識】OCRソフト【 自炊 】 [無断転載禁止]©2ch.net

1名無しさん@お腹いっぱい。2016/08/09(火) 21:24:11.61ID:zXdCMkkb0
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト

43名無しさん@お腹いっぱい。2018/04/08(日) 01:18:01.31ID:q/iTgbtt0
>>42
そっちの方が参考になった
やっぱり文章レイアウトの認識はあんまりみたいだな

44名無しさん@お腹いっぱい。2018/04/08(日) 01:19:35.90ID:q/iTgbtt0
OCR認識に満足してる人
数式・化学式が沢山ある理科系のページをOCRかけてごらん
グチャグチャになるよ

45ハカーを待ちながら2018/04/08(日) 01:53:17.65ID:I+ikD/OI0
>>42
すげえ!! 神が降臨した。

ビルドのやり方ぜひ! まとめて下さい。

>>44
うーん、気持ちは分かるんだけど縦書きの日本語小説だけがターゲットの者にとっては、
レイアウト情報以前に少しでも正確なプレーンテキストを得られそうなことが凄いのよ。

まあでもAIが正確なテキストを作ることに飽きたら、今度は正確なレイアウト情報の
再現に、ほっといても邁進してくれることでしょう。

46名無しさん@お腹いっぱい。2018/04/08(日) 02:20:22.39ID:VYgJDjR/0
了解です
ちとまとめるので時間ください

>>43
いやこれただのテキストデータなんでレイアウト情報は元々ない
認識文字の見比べしやすいようにテキストエディタで擬似的に縦書きや段組っぽく見せてるだけ
PDF出力すれば透明テキストはちゃんと画像の文字の上に被さるけどね

数式に関してはあれは図と同じだと思いなせえ
そもそも平テキストだけで表現できずLaTeXなどの組版処理が必要なカテゴリですやん
もともとOCRでどうこうできるものではない

47422018/04/12(木) 00:27:46.59ID:EyDdIten0
遅くなってすまん
まとめるとか偉そうに言ったけどほぼに↓の通りにやっただけ
https://ameblo.jp/yoshihirow/entry-12280797214.html

1. コンパイルに必要なライブラリのインストール
2. Leptonicaのコンパイルとインストール
3. tesseract-ocr 4.0.0β のコンパイルとインストール
4. 言語データtessdataのダウンロード
5. サンプル画像でOCRのテスト

注意点としては
2.Leptonicaは公式でtar.gz貰ってくるとconfigureで引っかかるので
githubから最新ソース落としてmakeする

$ git clone --depth 1 https://github.com/DanBloomberg/leptonica.git
$ cd leptonica
$ ./autobuild
$ ./configure
$ make
$ sudo make install

4.言語データは すべて tessdata_fast (https://github.com/tesseract-ocr/tessdata_fast)を使う
jpnとjpn_vert両方入れるのが胆

5.サンプル出力 ver.4では--oem 0と2のオプションはエラーになるので使わない
言語指定は -l jpn+jpn_vert が一番精度良くなるよ

48422018/04/12(木) 00:28:08.34ID:EyDdIten0
他所の環境でちゃんと動くかは分からないけど
コンパイル手順を自動化したスクリプトとビルド済みパッケージ置いときます
作成&テスト環境
  windows10 WSL Ubuntu 16.04.4 LTS
  vagrant ubuntu/xenial64 (vurtualbox)

ビルド自動スクリプト --> https://www.axfc.net/u/3902696.zip
ビルド済パッケージ(.deb) -> https://www.axfc.net/u/3902697.zip

49ハカーを待ちながら2018/04/12(木) 23:19:55.32ID:vCwgAmwn0
>>47
まとめ作成お疲れ様です。

tesseract-ocr4.00αをインストールするとき、自分も当時同じサイトを参考に
しましたけど、Leptonicaもtesseract-ocrもそれぞれバージョンが上がってたのね。

とはいえ最新ソースからmakeするとか言語ファイルをtessdata_fastから取ってくるとか、
自分ひとりでは絶対思いつかないし、あまつさえインストール用のシェルスクリプト
(Windowsでいうバッチファイルみたいなもの)まで作ってくれて、どうもありがとう。

既存環境との衝突防止対策するより、バージョン違いのWineとのからみもあるので、
MicroSDカード上にクリーンなxubuntu環境を作って、そこにインストールしようかな。

当方32GBのMicroSDHCをUSBに変換するアダプタに挿して、切り替えボタン付きのUSBハブから
ブートさせてxubuntuを使っているので、複数のMicroSD+USBアダプタさえ用意すれば異なる
Linux環境をUSBハブのボタンひとつで使い分けられて、そこそこ便利です。

でも同じOSをインストールしているはずなのに、出来上がった挙動やファイル構成が微妙に
違うのは、再インストールしたWindowsと似たようなもんかしら。

50ハカーを待ちながら2018/04/16(月) 16:40:46.99ID:jfy34C3d0
神のお言葉に従いテストベッド環境に最新版tesseract-ocrをインストールして、250ページほどの
新書をまるごと一冊OCRしてみたのですが、どうもこちらの信心か功夫が足りないのか、正直
『かなり悪くはないがけして手放しで喜べる程良くはなかった』というのが正直な所。

以下、不慣れながらもスクリーンショットを挙げてみたので、見ながら解説。

オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
 https://imgur.com/FRIY8a9

以前jpgでスキャンしたものより的中率が向上したのとファイルサイズが小さくなるので、
以後ずっとtifで保存するようにしているのだが、元の紙面が経年劣化によるシミ・ソバカス
でクリーンな状態とは言いがたく(だからテキスト化するのだが)、ノイズが少なからず
乗ったままOCRかけるので、今後は別の手段を考えるべきかもしれない。

最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
 https://imgur.com/21b2PK4

[っ]直後の[は行のひらがな]は必ず[半濁音にする]的な後処理を加えてあるので、厳密には
スタンダードとは言えない。[ぁぃぅぇぉゎ]が混ざるのが地味にいらつく。

最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
 https://imgur.com/6Yh4riW

後処理に加えて、blacklistで[小書きのひらがな]や[日本語の文章に出てこない記号]をはじく
ように事前処理してある。[3点リーダー]を正しく認識できないが、これが現段階の自身でできる
最善のチューニング状態。

51ハカーを待ちながら2018/04/16(月) 17:33:07.75ID:jfy34C3d0
最新版のtesseract-ocr4.0β+jpn+jpn_vertでOCRした結果のスクリーンショット
https://imgur.com/OmTeJEv

jpnだけだと半角スペースが入りまくりだが、jpn+jpn_vertで見事に消える。
認識結果を一つ前のと比較すると、全体に大振り気味で当たれば見事ホームランだが外すと
余計な文字が混入する感じ。『ピーキーなチューニング』とでもいうべきか。
--oem オプションで0を選択できない(=複数のOCRエンジンを使用)せいか、CPUパワーの
消費が三倍くらい増える。

52名無しさん@お腹いっぱい。2018/04/16(月) 19:06:06.80ID:53RTfDRz0
ルビが入った時の処理が気になる
ソフトによっては一行とみなして空白だらけの一行ができたり、完全に無視して勝手に除去したりするから
後者も問題だけど、前者の場合手動修正の手間が相当増える
ルビを含めて1字として処理して、認識不能を返すのは論外

53ハカーを待ちながら2018/04/16(月) 19:28:05.86ID:jfy34C3d0
ふと「ノイズの極少ない元画像からならどこまでやれるのか?」を思い立ち、エディタの
画面上に22ポイントで縦書き画面を再現したものをスクリーンショットして、それを元画像
にして神の手版tesseract-ocrでOCRしてみたところ、結果は段落空きと3点リーダー以外ほぼ
完璧と言っていい認識結果となりました。

22ポで画面上に再現した擬似元画像
https://imgur.com/Z967Vz9

それをOCRした結果のスクリーンショット
https://imgur.com/Psbsp9m

つまり最新版のtesseract-ocrは現状でほぼ完全に近い認識能力を持っていると。
……ノイズのない完璧な元画像からであれば。

ただそれは物理の問題とかに出てくる『ここに伸び縮みしない真っ直ぐな棒がある』と同様、
スキャナーを通して読み取る以上現実にそんなノイズのない元画像はあり得ない訳で、あとは
どうやってノイズが少なくなるような加工技術を編み出すか? になっていくのでしょうか。

54名無しさん@お腹いっぱい。2018/04/16(月) 20:17:56.21ID:0tAKuDhz0
>>50のいちばん最初の画像を使って、Google Cloud VisionのOCRをかけてみた。

https://imgur.com/a/3TL1i

55名無しさん@お腹いっぱい。2018/04/16(月) 20:42:37.96ID:JXJw+uBT0
CloudVisionはOCR性能は抜群なんだけど縦書きの属性情報は返してくれないみたいで
>>34の方法で透明テキスト付PDF作るとき難が出るんだよね
惜しい
https://github.com/tmbdev/hocr-tools/issues/54

56名無しさん@お腹いっぱい。2018/04/16(月) 20:49:18.86ID:0tAKuDhz0
>>55のgithubに投稿した者だけど、hocr-toolsでpdf生成に使っているPythonのreportlibが日本語縦書きをサポートしてないことまではわかりましたw

reportlibを弄るのは手に余るので、求むハカー!ですw

57名無しさん@お腹いっぱい。2018/04/16(月) 20:56:21.22ID:0tAKuDhz0
ただ、GCVのjson出力は文字の座標を返すので、次の文字の座標を考慮すれば縦横判定はできるかもしれない。

あと、縦横混在はさすがにきつい。
事前に画像を切り出しておくと大丈夫だけど。

レイアウトを考慮するオプションが英文だとあるけど、日本語はまだみたいw

58ハカーを待ちながら2018/04/16(月) 23:01:41.54ID:jfy34C3d0
>>54
同じ元ネタ画像をonlineOCRというサイトに投げてみた結果。
https://imgur.com/sEPqF76

改行コードが半角スペースにされているので、置換するとほぼ原文に正確な
認識結果が得られているのが分かる。

とはいえいくら優れたOCRとはいえ、誰がやっているのか分からないネットの
向こう側に金玉を握られているような状態ってのはやっぱ釈然としないのよ。

自炊行為の是非以外にも内部の文書をネットに放流するリスクとかもあるし、
Google Cloud Vision APIがとてつもなく優れているのはよく分かるんだけど、
エンドユーザーにAPIとやらを扱うのは簡単じゃないし、ネットに繋がないと
結果が得られないなら、いっそスタンドアロンのお手元のハコの中でなんとか
できる範囲で改良を……と、もう少しtesseract-ocrをいじっていたい。

最新のマシーンZが優れているのは分かるけど、共に死線をくぐってきた
ロボットマンにこだわりたかったあきらくんのように。
(コミック版「ミクロマン」はいいぞ)

まあ結局は乗り換えたんですけどね。

59名無しさん@お腹いっぱい。2018/04/16(月) 23:39:00.31ID:JXJw+uBT0
>>56
gcv2hocrの作者様ですね。有用なツール開発ありがとうございます

縦書きPDFの出力は tesseract 4.0 や OCRmyPDFがが実現してるので
pdfrenderer.cpp あたりの出力部分だけ切り出して何とかならないのかなあ、なんて
なんつって自分はソース見ても全然理解できなかったですが
json座標から縦横判定のほうが厳しそう
googleさんは解析時に縦横分かってるわけだし今後のアプデでオプション増えるのを期待


個人的に自炊PDF(OCRなしで画像のみ)を画像劣化なしでサーチャブルにするツールが欲しくて調べてた

 ・OCRmyPDF (tesseractエンジン 元々そういう用途向き)
 ・tesseract 4.0 → 画像を含まない透明テキストのみのPDFが作れる (-c textonly_pdf=1)
 ・gcv2hocr + hocr-tools →フォーク版で画像を含まない透明テキストのみのPDFが作れる(--nodraw)
  https://github.com/zvezdochiot/hocr-tools

→ pdftk の multibackground オプションで画像pdfと透明テキストpdfを重ねる
  pdftk images.pdf multibackground text.pdf output full.pdf

Win使いがAcrobatだのe.Typistでコレジャナイ感味わい続けてる間に
linux界隈ではとっくにできるようになってたという…
exe化して1パッケージにまとめればWinの自炊者にも需要あると思うわこれ

60名無しさん@お腹いっぱい。2018/04/17(火) 00:21:57.55ID:QTvH3ncM0
>>53
補正に関しては自炊ノウハウも確立してるので自分はわりと楽観してるわ
自力で納得のいく補正かけた後に任意のタイミングで
OCRかけられてPDFにできるというアドバンテージは大きい

程度の低い話ですまんがWindowsでOCR付き自炊PDF作ろうとすると
スキャン時にPDFで保存するか(黄ばみや斜行がひどくても後修正が困難)
後からAcrobatなどの有料ツールでPDF化するか(せっかく補正しても画質劣化する上に認識率も超残念)
ポピュラーな方法がこの2者だったのよね

61名無しさん@お腹いっぱい。2018/04/17(火) 05:54:08.82
画像アップするなら .jpg まで付けてリンク張ってくれ
一々リンク先まで飛ぶのが面倒

62名無しさん@お腹いっぱい。2018/04/17(火) 10:22:08.67ID:HdViBi2B0
>50
> オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
https://i.imgur.com/FRIY8a9.png
> 最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
https://i.imgur.com/21b2PK4.png
> 最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
https://i.imgur.com/6Yh4riW.png

>51
> 最新版のtesseract-ocr4.0β+jpn+jpn_vertでOCRした結果のスクリーンショット
https://i.imgur.com/OmTeJEv.png

>53
> 22ポで画面上に再現した擬似元画像
https://i.imgur.com/Z967Vz9.png
> それをOCRした結果のスクリーンショット
https://i.imgur.com/Psbsp9m.png

>58
> 同じ元ネタ画像をonlineOCRというサイトに投げてみた結果。
https://i.imgur.com/sEPqF76.png


泥タブから見たらimgurモバイル版が勝手にjpg変換するもんで酷い有様になっとった
直リン&専ブラのサムネ表示の重要性を痛感するわ

63名無しさん@お腹いっぱい。2018/04/18(水) 11:26:59.67
>>62
さっそく拡張子付けてくれたね

64ハカーを待ちながら2018/04/18(水) 21:35:49.78ID:cpORIMNk0
>>62
どなたか存じませんが、代わりにお手数ありがとうございます。

この手のサイトにアップロード自体初めてで、ボツ画像を何倍もアップしたのは内緒。
画像上→右クリックで拡張子込みのアドレスが得られるのね。次回があればそうします。

65ハカーを待ちながら2018/04/20(金) 23:15:45.08ID:Vm4QLpiQ0
最新版tesseract-ocrの認識スコアが最後まで前回レベルで持続できていたら問題はない
のですが、残念ながら大振りゆえブレ幅が大きく、外したときは「なんでこうなるの?」
という結果になってしまいます。。

300dpiでスキャンした元tiff画像
  https://i.imgur.com/yPcJCI0.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/eBH0JQn.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/buq3aE5.png
これだと旧バージョンの方が間違える幅が小さいと感じられるのではないでしょうか。

では元画像をチューニングすることでもう少し何とかできないか? Linux界にはImageMagick
というコマンドラインから使う画像変換ツールがあるので、ぼかしオプションを適用して
もう少し滑らかな曲線に近づけてからOCRしてみました。 

元tiff画像をImageMagickで-blur(ぼかし)オプションを施して太く滑らかにした画像
  https://i.imgur.com/AQey4zb.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/TK4GNwm.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/Mr61je5.png

果たしてOCRには画像がどう見えているのか? 結果は変われどあさっての方に振っています。

66ハカーを待ちながら2018/04/20(金) 23:23:17.07ID:Vm4QLpiQ0
しつこく今度はノイズ除去オプションを使ってみます。
元tiff画像をImageMagickで-despeckle(ノイズ除去)オプションを施して滑らかにした画像
  https://i.imgur.com/8CE8uD3.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/0HQ6Pog.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/JithSee.png

どうも何というか、こじらせているというか、なかなか言うことを聞いてくれないですね。

67名無しさん@お腹いっぱい。2018/04/21(土) 10:32:53.20ID:TzRxXe7t0
ディティールの失われてる2値画像を後から弄ってもどうにもならんよ
検証用の画像はグレースケールかフルカラーでスキャンしたものを用意する
(業務用複合機だとデフォルト値が輪郭強調の超圧縮モードなのでオプション設定には注意が必要)

過去のものは従来tessaですでにデータ化済んでるんだろうし
今から再OCRのために骨折ってもしょうがない
完全移行の方向でなく単に検証のためにやってるならなおさら
紙原稿残ってるなら再スキャンしてやり直しもいいけどね

68名無しさん@お腹いっぱい。2018/04/21(土) 14:10:45.01ID:TzRxXe7t0
あー… よく見たら2値画像をカラータイプ変換も拡大もしないで補正かけてんのね
これはヒゲ増えただけでボケてないしOCR的にどうとかいう以前に補正かけた意味がない
https://i.imgur.com/EzPduGV.png
画像に関してある程度のフォーマット知識と目視で判断できる眼や環境がないと
検証に値する画は作れないと思う
これでは勤勉な無能者状態で、申し訳ないが何の参考にもならないし誰の得にもならない

コマンドラインでがんばりたい縛り?なのか知れんけど
まずはGIMPなりでプレビュー見ながら調整して設定詰めて方針が固まったら
本運用時にImageMagickにメモっといたパラメータで流し込むとか手順踏んだほうがよくない?

69ハカーを待ちながら2018/04/23(月) 01:44:27.61ID:ATRq3RKx0
>>67
>>68
高度なアドバイスをありがとう。ご存知の通り画像処理はやったことないし、知識もない。

出がらし状態の死体にいくら細胞活性剤を注入したところで生き返る訳がないのは当然だけど、
せめてゾンビ程度に動けるようにできないかなと、今度はInkscapeを使ってビットマップを
ベクターデータに変換したものを再度pngにしてみたよ。

肉眼にはノイズが減ってクッキリとしたように見えるが、さてOCRからはどう見えるか。
 https://i.imgur.com/u1WXYIs.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
 https://i.imgur.com/Ky49xV0.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
 https://i.imgur.com/i9QwHS7.png

……やはり修正しやすさからいうと、一つ前のtesseract-ocrかな。

不完全なテキストを校正するには、sedによるフィルター処理で複数箇所の一括置換を
やってるんだけど、途中でもっと良いやり方がないかと思って何度もOCRからやり直す
もんだから、文庫や新書をひらきにしたスキャン画像は十冊分くらいあるんだけど、
テキストデータの校正を終わらせて完品にまで至ったのは実はないんだわ。

何度も繰り返すうちにちょっとずつ正解率も向上してはいるんだけど、今度は再スキャンも
検討してみます。

70sage2018/04/23(月) 15:36:58.50ID:3ep7Hu9S0
OCRで、ごくまれになのだけど、な-た の誤読があって。
これにまいったのが遠い思い出。されたい されない  というのは
あまりに神経を使うので、自分で校正するのを諦めた。

71名無しさん@お腹いっぱい。2018/04/26(木) 02:18:58.59ID:dUhJb3xD0
されたい と されない をどうやって校正してたんですか?

72sage2018/04/26(木) 11:36:23.50ID:ek6J62ek0
突き合わせ。それしかないだろう。みつけるのは、文脈。

73名無しさん@お腹いっぱい。2018/04/26(木) 21:38:26.21ID:dUhJb3xD0
さすがに肉眼じゃなくて、検索/置換とかgrep的なツールを使ってサーチ、ですよね?

74名無しさん@お腹いっぱい。2018/04/28(土) 22:11:29.01ID:bWQs2w/K0
あのね、ほんの30年前までは万葉集の中に「●」という文字が
何か所使われているか、一晩徹夜で5回最初から最後までめくって
書き出してリストを作ってたの。

75名無しさん@お腹いっぱい。2018/06/01(金) 10:48:04.16ID:Qi+8uYQ40
同好の士がいるみたいなので私のやり方の一つを紹介

縦書き小説のテキスト化限定
段組み無しか2段組み程度のレイアウトの単純なもの限定
読取革命使用前提

スシャン画像の傾き補正余白除去など画像処理を程々にする

処理した画像を横に8ページ分つなげる(2段組みの場合は縦に6ページ)※これが校正作業効率化の肝

つなげた画像を読み込ませて読取革命で作業


認識率アップは程々に
校正作業効率アップの方が気楽

76名無しさん@お腹いっぱい。2018/06/01(金) 10:50:24.17ID:Qi+8uYQ40
スキャン画像・・・

77名無しさん@お腹いっぱい。2018/06/01(金) 11:02:23.02ID:Qi+8uYQ40
もう一つ

校正前のテキストをワードで開く
原本のページ体裁出来るだけワードで再現する
(用紙サイズ、字数、行数、字間、行間など)
ウインドウ透明化ソフトでワードを半透明化最前面
元画像をにワードを重ねる(行間に重ねたり)
比較校正作業

78名無しさん@お腹いっぱい。2018/06/07(木) 22:56:25.84ID:oM4s8ZW30
ルビが扱いたいと結局e.Typistしか選択肢がない感じがあるけど
e.Typistは――とか・・・・・・にすごく弱い感じがする
ーや1として認識されるならまだいい方で
空白を認識する設定にすれば空白として出力してくれるけど
逆に言えば文字としては認識されてないことが多いので修正も不能で困る

79ハカーを待ちながら2018/06/15(金) 21:07:25.53ID:lat6DNLI0
>>75-77
新たなノウハウの提供ありがとうございます。

OCRからの校正作業は未踏の部分が多いし、未だ正解がある訳でもないですから、
こうして持ち寄ったノウハウが少しでも蓄積していくと良いですね。

透過して元画像とテキストを重ねるってのは自分も一度は考えたけど、当時
Linuxでまともに縦書き表示のできるテキストエディタとかワープロはなかった
ので、結局縦書きの元画像と横書きのOCR化テキストを横に並べて見比べるしかなかった。

まあでもLinuxも悪いところばかりじゃなく、1ページずつ200件超えに分割されたまま
一冊分のテキストファイルをタブで全部開き(ページの移動はタブ上でスクロール)、
開いた全ページに跨って検索/置換ができるBluefish(本来はHTMLエディタ)とか
Geany(本来はIDE)が使えるので、Meryやotbedit時代のように検索/置換のために
ひとつのファイルに結合してから校正という手段を取らなくて済むのは良かった。
(好みというか選択肢の問題ね)

今は元画像とテキストファイルを一対一で、突き合わせが終わった分だけ閉じています。

ただ何故かLinuxのエディタって行間を広げるオプションがないのが多くて、仕方なく
ttfname3.exeを用いて(Wineで実行)フォント側で行間を広げる加工をしたのは余談。

80名無しさん@お腹いっぱい。2018/06/16(土) 09:37:39.11ID:TK7ks+ws0
長文駄レスは過疎の元
自分語りは程々に

81名無しさん@お腹いっぱい。2018/06/16(土) 13:35:14.61ID:7Ojo0RlC0
スレの性質上、情報提供は歓迎
長くても読みとれる情報はある
脳のOCR機能を鍛えるべき

82名無しさん@お腹いっぱい。2018/06/16(土) 14:01:15.28ID:TK7ks+ws0
情報提供レスが長文になるからこそ雑談は短文で抑えるべき
要点の無い長文日記と入り混じるとどれが重要なレスなのかわからなくなる

この手のスレは情報収集&提供目的を主として見に来る人がほとんどだし
匿名掲示板で名無し書込みする人間の多くは(特定のコテハンとの)
「過度」の慣れ合いは求めてない、ということを念頭に入れましょう
winユーザーにlinuxでの苦労話で返すようなのは相手の目線に立ってるとも言い難い
雑談するにしても簡潔に

83名無しさん@お腹いっぱい。2018/06/16(土) 17:16:54.01ID:DpwT78Ra0
長文駄レスやめーや

84名無しさん@お腹いっぱい。2018/06/17(日) 14:51:45.64ID:UW0RCtPR0
そんなルールはないぞ

85名無しさん@お腹いっぱい。2018/06/20(水) 00:23:42.81ID:4KCvLiUk0

86ハカーを待ちながら2018/07/10(火) 16:36:25.03ID:oMs2MPt30
>>82
うーん、>>79を『Linuxの苦労話』としか読んでもらえなかったのは残念だな。
後半の「おかげでWindowsだけ使っていた頃にはできなかった
 ・200件超えのテキストファイルを一度に開ける
 ・開いている複数のファイルに跨って検索/置換ができる
ことができるソフトに出会えた」ってのがキモなので(だから固有名詞を出してる)、
期待していたレスは『○○というエディタならWindowsでも同じことができますよ』
だったんだけどね。

実際「Windowsで(上記2点)ができるエディタを教えてください」って質問を投げれば
一行で済むけど、経験上質問を一行しか書かない奴って返答してもダンマリだし、人様の
知見をお借りする前に自分でどこまで試したか? を加えて書き直すと、

「Meryやotbeditではできない(上記2点)ができるエディタを教えてください」

『そんなことできるのか?』というツッコミがあるかもしれないので、自分なりの
知見を追加して更に書き直すと、

「Meryやotbeditではできない(上記2点)ができるエディタを教えてください。ちなみに
LinuxではBluefish(本来はHTMLエディタ)とGeany(本来はIDE)ではできました」

これを自分なりに雑談めかして書くと >>79になるのだが、内容がつまらないと言われると
申し訳ないとしか言えないけどね。

で「Windowsで(上記2点)ができるエディタ」について何かご存じない?>>all

87名無しさん@お腹いっぱい。2018/07/10(火) 16:44:44.78ID:DcKO8Dw00
長い
要点3行でまとめて

88名無しさん@お腹いっぱい。2018/07/11(水) 00:52:02.90ID:xEXPfRdD0
画像背景のエディタはAA用のがあったと思うけど縦書きには対応してないと思う。
MS WORD には、画像背景として重ねて文字を入力できる機能があった気がするけど
HTMLなら透過レベル指定できると思う。

HTMLでも writing-mode vertical-rl で縦書きできるんだな。

89名無しさん@お腹いっぱい。2018/07/11(水) 11:08:12.89ID:oaLZdIB/0
Linuxなんてただで手に入るし、情報の入手が簡単な現代では小学生でも導入できます。

90名無しさん@お腹いっぱい。2018/07/11(水) 11:36:57.04ID:exMQ5TB90
いろいろずれているな

91名無しさん@お腹いっぱい。2018/07/11(水) 11:59:37.61ID:gc/ZijI10
ぶっちゃけOCRの用途はPDFに透明テキスト埋め込むのが目的な人が多いだろうし
それは置いとくとしてもテキストエディタ云々はもうOCR関係なくない?

200pを各ページごとにファイル分けて全部一遍に開きたいというのは運用としても特殊すぎる
Grepで横断検索できてピンポイントでファイル開ければ
同時オープンファイル数は20もあれば充分だと思うが

92名無しさん@お腹いっぱい。2018/07/11(水) 16:59:13.66ID:exMQ5TB90
完全なテキスト化を目指す人にしてみればそっちも重要

93名無しさん@お腹いっぱい。2018/07/11(水) 17:04:31.64ID:exMQ5TB90
校正作業効率化 その3

複数ファイル複数条件一括置換ソフト
「TextSS.net]

いろいろ捗る

新着レスの表示
レスを投稿する