X



【超解像】画像拡大ソフト総合スレ2【waifu2x】 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。 転載ダメ©2ch.net (アウアウ Sa2a-NyIq)
垢版 |
2016/05/10(火) 11:28:05.20ID:h2o6wyXCa
画像を人工知能(Neural Network)を利用して拡大、あるいはノイズ除去するソフトウェアの話題を総合的に扱うスレです。
本来の用途は静止画が対象ですが動画のアプコン処理に関する話題もOKです。
ただし動画編集ソフトの使い方の部分の話は各ソフトのスレに行って下さい。

--主なソフト--
・waifu2x
本家Webサービス
http://waifu2x.udp.jp/

・waifu2x概要:二次元画像を拡大したいと思ったことはありませんか? (waifu2x作者氏のブログ)
http://ultraist.hatenablog.com/entry/2015/05/17/183436

・waifu2xとその派生ソフト一覧
※リンクがNGワードに!

・waifu2xのベンチマーク結果まとめ - Togetter
http://togetter.com/li/831437

・無料で二次元画像を人工知能が補完してハイクオリティで1.6倍/2倍に拡大できる「waifu2x」 (gigazinの記事)
http://gigazine.net/news/20150519-waifu2x/

・Otaku ワールドへようこそ![212]嫁を拡大する人工知能/GrowHair (日刊デジタルクリエイターズの記事)
※従来の拡大手法とwaifu2x、SRCNNの違いについての丁寧な解説記事
http://blog.dgcr.com/mt/dgcr/archives/20150605140100.html

・NeuronDoubler
人工知能超解像プログラム NeuronDoubler
http://loggialogic.blogspot.jp/2012/06/neurondoubler.html
VIPQ2_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured
0011名無しさん@お腹いっぱい。 (ワッチョイ b55d-7Olf)
垢版 |
2016/05/10(火) 17:42:07.13ID:0/i3y4sK0
ワッチョイで特に必要性薄くなったけど念のため・・・
オススメ追加NGワード(正規表現)の手順 (改訂版)

1.[ツール]→[設定]→[機能]→[あぼーん]→[NGEx]→テキストボックス内に適当な名前(例:caff荒らし)を入力して→[追加]

2.次に開くウィンドウで、 以下の様に設定する。
   NGWORDのタイプを「正規(含む)」に変更し、そしてキーワードに以下をコピペ(予め1行にすること)
(は([  \.]+)?み([  \.]+)?出|V([  \.]+)?G([  \.]+)?A|1([  \.]+)?0([  \.]+)?2([  \.]+)?4|7([  \.]+)?6([  \.]+)?8|
1([  \.]+)?9([  \.]+)?2([  \.]+)?0|6([  \.]+)?4([  \.]+)?0|M([  \.]+)?D([  \.]+)?.?([  \.]+)?5([  \.]+)?5([  \.]+)?0([  \.]+)?0([  \.]+)?|
L([  \.]+)?7([  \.]+)?9([  \.]+)?7|解([  \.]+)?像([  \.]+)?度([  \.]+)?|糞|雑([  \.]+)?魚|ク([  \.]+)?ソ|ザ([  \.]+)?コ|客|干([  \.]+)?[さしすせ])

3.左下のリストボックスを「透明あぼ〜ん」に設定。[OK]を押すれば新規レスからあぼ−んされるので取り敢えず終わり。
   既存のレスも消去したいなら4.も実行。

4.[スレッド]→[このログを削除]して、[ファイル]→[最近閉じたスレ]から削除したスレを開き直す。
   レス番号が歯抜けになっているはず。

2.のキーワードはその動向を見ながら変更追加して下さい。中には関係ないのも巻き込むので注意ですね。
正規表現をもう少し駆使すればかなりの精度でNGできます。ただ上記とその変更でも十分活用出来るでしょう。
0014名無しさん@お腹いっぱい。 (ワッチョイ 9c42-BRmI)
垢版 |
2016/05/10(火) 18:42:31.00ID:PIjk1rDx0
レトロガイジって何ですか?
0016名無しさん@お腹いっぱい。 (ワッチョイ 9fe2-5iF2)
垢版 |
2016/05/10(火) 19:40:07.52ID:6mjJMeGF0
>>12
お手数かけました情報ありがとう
そちらで保持されておられるのなら自分の方法が間違ってるに違いないと確信した
qt側の設定で最新のcppの実行ファイル指定はできていたので何か間違いがないか
手順を再確認してみる
0018名無しさん@お腹いっぱい。 (ワッチョイ 9fe2-5iF2)
垢版 |
2016/05/10(火) 20:02:00.70ID:6mjJMeGF0
>>12
試行した結果
自作PNG→OK
webで拾ってきた透過PNG→NGなのもある
作者さんが注意書きされておられた
bKGDに変な値入ってると変な色が出る可能性はある。
上記に該当する画像だと判断できました
アプリで開いて透過PNGで保存し直しwaifuするとOKでした
いまさらな話題で失礼しました
0020名無しさん@お腹いっぱい。 (アウアウ Sa85-Xnmr)
垢版 |
2016/05/11(水) 15:04:46.70ID:JWRjx2E2a
一応連絡です(作者の人ではないのですが)
waifu2x-c/c with Batchfile and HTA-GUIをご利用中の方へ

・画像アップロードでウェブサイトを乗っ取られる攻撃が進行中--「ImageMagick」脆弱性
http://japan.zdnet.com/article/35082361/
というニュースが少し前より出ております。
念のため、最新のImageMagickに更新されておいた方がいいかと思います。

・ImageMagickダウンロードページ
http://www.imagemagick.org/script/binary-releases.php#windows
(種類がいろいろあるようですが、ImageMagick-7.0.1-3-Q16-x64-dll.exeでよいかと思います。)

なお更新するにあたって、事前に古いバージョンを手動削除し、念のためCCleaner等できれいにしてから最新版をインストールされた方がいいと思います。
(手動で削除しないと古いバージョンが残ったままになってしまうため)

・インストール時の注意点
途中で「Select Additional Tasks」の画面が表示されたら

上から2番目
Add application directory to your system path

1番下
Install ImageMagickObject OLE Control for VBscript,Visual Basic,and WSH

この2点に必ずチェックが入った状態にして先に進めること。
0021名無しさん@お腹いっぱい。 (アウアウ Sa85-Xnmr)
垢版 |
2016/05/11(水) 15:20:21.00ID:JWRjx2E2a
ちなみに、先ほどImageMagickを更新してから久々にwaifu2x-c/c with Batchfile and HTA-GUIを起動して使ってみましたが、
やはり私のPCでは利用できないままなのは変わらないようです。
(起動時にエラーは出るし、ファイルの選択すらできない。)
0022名無しさん@お腹いっぱい。 (アウアウ Saef-Wax8)
垢版 |
2016/05/14(土) 10:55:12.05ID:CHSZ183Na
前スレで画像のbit深度について書いていた件なんだけど、いろいろ調べていたら
・ImageMagickのビット深度と画質劣化
http://mikio.hatenablog.com/entry/2016/02/12/220435
という興味深いページに行き当たった。

曰く、「ImageMagick 7からはHDRIがデフォルトになる」そうです。
※HDRIとは、「内部表現を浮動小数点数で持つ機能」のことだそうです。
先日>>20にてアップデート推奨と書きましたが、現在のバージョンが7.0.1-3ですので、おそらく対応しているものかと思います。

ImageMagick 7以降を使うと旧バージョンに比べて画像フォーマットの変換時の劣化を抑えられるかも。
旧バージョンを利用中の方は更新されておく方がいいと思います。

ところでもともと調べていたのは「各色8bitの画像を各色16bitにきれいに変換できるフリーソフト」を探すことが目的だったのですが、案外ないものですね。
(Photoshop関連の情報はたくさん出てくるのですが)
ImageMagickだとできるかなと調べているのですが、よくわからんです。
誰かご存知でしたらよろしくです。
0024名無しさん@お腹いっぱい。 (ワッチョイ a744-Wsqh)
垢版 |
2016/05/14(土) 11:13:20.68ID:GNuM19aQ0
>「各色8bitの画像を各色16bitにきれいに変換できるフリーソフト」
綺麗に、ってのは、オーディオで言うところのアップサンプリングみたいなのを考えてる?

解像度を上げつつ、補完するピクセルの色を16bitでしか
表現できない色で表現する、ならわかるけど
解像度を上げないでそのまま16bit化するのはただ
ファイル容量増えるだけで何も変わらないよ
0025名無しさん@お腹いっぱい。 (アウアウ Saef-Wax8)
垢版 |
2016/05/14(土) 11:44:34.95ID:CHSZ183Na
>>24
「オーディオで言うところのアップサンプリングみたいなの」ということになるのかどうかわかりませんが、
各色16bitに変換する際にトーンジャンプが起きないように補完しつつ変換するような感じの動作をするものを探しています。
0026名無しさん@お腹いっぱい。 (アウアウ Saef-E7lb)
垢版 |
2016/05/14(土) 12:20:35.15ID:CHSZ183Na
表現が間違っているかも。
元画像に含まれるトーンジャンプ(バンディング)を滑らかに補正しつつ、bit深度を拡張、というべきかも。
つまり元画像が高圧縮された画像であればあるほどトーンジャンプが発生している確率が高いので、
そのまま拡大するのではなく、あらかじめ階調をできる限り滑らかに補正しておいてからwaifu2xに渡す、というような前準備を考えています。
等倍サイズでは目立たなくとも、拡大するとトーンジャンプは目立つことが多いので。
0027名無しさん@お腹いっぱい。 (アウアウ Saef-E7lb)
垢版 |
2016/05/14(土) 12:29:11.32ID:CHSZ183Na
可能性の話になるけれど、ディープラーニングを利用したノイズ除去とは別にやの、トーンジャンプ除去モードとかbit深度拡張モードがあればいいのか?
(等倍での出力も対応)

ノイズ除去も目的に応じてより細かいモードがあるといいのかも。
ブロックノイズ軽減モードとか、モスキートノイズ軽減モード、カラーノイズ除去モード、などなど。
0028名無しさん@お腹いっぱい。 (アウアウ Saef-E7lb)
垢版 |
2016/05/14(土) 18:50:49.16ID:CHSZ183Na
思いつきのメモ
画像を圧縮することによって発生する問題(ブロックノイズとかトーンジャンプとか)を、圧縮前はこうだっただろうという想定で復元する「超復元」。
さすがにそんな都合のいいものは無理?
0031名無しさん@お腹いっぱい。 (ワッチョイ afe1-Jrc9)
垢版 |
2016/05/15(日) 04:52:32.51ID:a+hZy1+X0
>画像が高圧縮された画像であればあるほどトーンジャンプが発生している確率が高いので
トーンジャンプ(バンディング) が判るような圧縮画像じゃ、8bit諧調ですらないのでは?ってレベルの画像なんじゃないだろうか・・・
0035名無しさん@お腹いっぱい。 (ワッチョイ b7d2-J8dZ)
垢版 |
2016/05/16(月) 19:44:29.81ID:7A45SCwf0
新モデルはupconvブランチに置いてますけど
ピクセルアートなどでひどいアーティファクトが出てることに気付いたのでまだ変更します。
時間半分以下でイラストでのベンチマークも上ではありますけど
以前より悪くなるパターンもあってあやしくなってきました。
0037名無しさん@お腹いっぱい。 (アウアウ Saef-E7lb)
垢版 |
2016/05/17(火) 08:12:24.79ID:CE801I46a
モデルデータなんだけど、現状はアニメ用とか写真用とかに分かれていて利用者が選択するやり方になっているけど、
絵柄の部分ごとに自動的に切り替えて適用させることはできないものなんだろうか?
(切り替える判断をディープラーニングでさせる)
・階調情報が少ない面が一定以上ある部分→アニメモデル
・輪郭線が複雑に構成されている部分→Yモデル
・それ以外→RGBモデル
みたいな。
0038名無しさん@お腹いっぱい。 (アウアウ Saef-E7lb)
垢版 |
2016/05/17(火) 11:39:19.21ID:CE801I46a
>>35
ピクセルアートはコントラスト比が高い絵柄が多いから、現状のwaifu2xのやり方だと溶ける症状が出やすいかもしれませんね。
どうも溶ける症状が出やすいところって、コントラスト比の高い部分が隣接しているような場所でおこりやすい気がしますね。
(だから結果として輪郭周辺部とかで目につきやすいのかも)

コントラスト比が高い部分とコントラスト比の低い部分を同じ割合で強調してしまっているのかな?
元画像のコントラスト比が高くなるほど、強調する度合いを低下させておくような仕掛が必要だと思います。
0040名無しさん@お腹いっぱい。 (アウアウ Sa89-di3r)
垢版 |
2016/05/19(木) 11:36:41.13ID:snBFEXtFa
>>39
みんなそれを期待していると言っても過言ではないのけど、実際問題としては相当難しいんだろうなとも思う。
というのは、人間の目には輪郭とは「一本の繋がった線」として認識しているので、目に見えにくいところが少しくらい途切れていても
脳内で補完される(これを「アモーダル効果」とかいうそうです)仕組みがあるけれど、コンピューターに勝手にそのような効果が備わっているわけではないので、
輪郭線の細部の「ムラ」になっていたり、ノイズまみれになっているところを、いかに連続した線としてきれいに見せる=すなわち「連続した線として認識できる」
かが鍵になるのだと思う。
つまり、現状のwaifu2xは細かい点ごとを処理している状態であるところを、あらかじめディープラーニングを使って「この連続成分は線なのか?」ということを
事前に認識する前処理を施したうえで、「線成分(=連続成分)」と認識した場所と、そうではないところで処理方法を切り替えることが必要なのではないかと個人的に
思ってはいるのだけど(連続成分については超解像効果をオフ、もしくは弱めて適用)、作者様、そんな前処理&処理方法の切り替えはできないものでしょうか?
0041名無しさん@お腹いっぱい。 (ワッチョイ bcd2-SHNT)
垢版 |
2016/05/19(木) 11:54:46.91ID:p48VMaQS0
現状が出力1px出すのにその周りの7x7pxがどうなっているかで出力を決めているので
その範囲でそれが線か点か平面かみたいなところは判定できていると思います
新モデルはこれが12x12に広がるのでもう少し複雑なパターンも分かるのではと思うけど
フィルタが大きくなるとそれだけ無関係なピクセルから影響を受けやすくもなるので
アーティファクトも出やすくなってしまう
0042名無しさん@お腹いっぱい。 (アウアウ Sa89-di3r)
垢版 |
2016/05/19(木) 12:34:06.20ID:snBFEXtFa
>>41
参照範囲を拡張されるのですか?
それはいいですね。
アーティファクトについては元画像が圧縮画像である場合に発生しやすいかと思いますので、現在装備しているノイズ除去とは別に、
アーティファクトの影響が出やすそうな圧縮ノイズだけを事前に除去するようなモードをつけておくことで対処することは難しいのでしょうか?
(>>28で書いたような感じのブロックノイズとかトーンジャンプに加え、輪郭周辺部に出やすいモスキートノイズなどを個別にオン・オフできるといいかと思いますが)
0043名無しさん@お腹いっぱい。 (アウアウ Sa89-di3r)
垢版 |
2016/05/19(木) 12:42:22.08ID:snBFEXtFa
作者様のTwitterを見たところ、「Imager::AnimeFace」なる輪郭検出に必要になりそうなソフトウェアをすでに作られていたご様子。
このソフトの技術で認識した輪郭部だけに適用する「輪郭ノイズ除去フィルター」なんて組み込めないものですかね?
0045名無しさん@お腹いっぱい。 (アウアウ Sa89-di3r)
垢版 |
2016/05/19(木) 12:49:58.03ID:snBFEXtFa
人のいるところでは開かないほうがいいページだけれども、参考にはなりそうなところ。

Googleで「輪郭ノイズ除去フィルター」で検索すると、「プロカメラマンのPhotoshop女性写真補正術」なるところが表示されますのでそこに出てきます。

人前では見るなよ!見るなよ!
0046名無しさん@お腹いっぱい。 (スプー Sd78-lZ/E)
垢版 |
2016/05/19(木) 12:51:00.20ID:Jy9TZu3Bd
>>40
分かりやすい説明ありがとう
やっぱりみんなもそこ気になってるんだね
輪郭線も気になるけど、画像みたいな色が違う境界線も新バージョンで改善されると嬉しいな

要望ばかりで申し訳ないが、作者様頑張って下さい
0048名無しさん@お腹いっぱい。 (ワッチョイ c991-MYRu)
垢版 |
2016/05/24(火) 01:06:43.33ID:pHT3p8L20
waifu2x-c/c with Batchfile and HTA-GUI作者です、ご無沙汰してます

>>20
ありがとうございます。私もこのレスを見て始めて脆弱性のことを知りました...
>>21
申し訳ないです。。。もしよければバッチファイルだけでもご利用ください。

重いのに使ってくださる方がいて嬉しい限りです。
リアルが多忙ですが、tanakmura氏版がLv3に対応した後ぐらいの時期に次版をリリースしようと考えています。
次版は少々軽くなっているはずです。
また、近いうちに選択肢が簡単な(コマンドライン準拠でない)バージョンも用意したいと考えています。
個体差でエラー&起動しない問題の解決にも取り組みたいところです。
0049名無しさん@お腹いっぱい。 (アウアウ Sa89-di3r)
垢版 |
2016/05/24(火) 09:35:22.04ID:gUvghq74a
>>48
ImageMagickの件については、>>22-23に記述した件もありますので、更新しておいて損はないかと思います。
なお、「各色8bitの画像を各色16bitにきれいに変換できるフリーソフト」の件ですが、どうやらImageMagickにそのような機能があるっぽいのですが、まだよくわからず。
引き続き調査中。
(ImageMagickをGUIで使える汎用性の高いフロントエンド(AviUtlみたいな)ってないのかな?)
0055名無しさん@お腹いっぱい。 (ワッチョイ c66d-2dQw)
垢版 |
2016/05/24(火) 20:29:37.48ID:8l5f+VfM0
>>39
これ学習時に縮小するときにジッタ成分としてランダムにサンプリング位置を僅かにずらしたのを学習させれば
ノイズとして巧いこと処理できるようにならないかな
縮小したのをWarpsharpとかランダムシフトでずらして凸凹を再現してもいいけど
0057名無しさん@お腹いっぱい。 (ワッチョイ c66d-2dQw)
垢版 |
2016/05/24(火) 20:59:08.32ID:8l5f+VfM0
ビット拡張は暗部階調に意味があるんだからガンマカーブやトーンカーブいじって明るくしてやれば確認は出来るでしょ
10bit出力だってDirectXやOpenGLのフルスクリーンで相当昔から出来るがDeepColorのTVでもそのままじゃわからん
Blu-Ray再生でRGBのまま再生したいときにロスが減るという意味がある程度かもしれん
0061名無しさん@お腹いっぱい。 (ワッチョイ d7d2-AZVN)
垢版 |
2016/05/31(火) 00:49:27.83ID:oZ5ZU4SC0
>>58
平均的にはいいんだけど,現在のモデルよりすごく悪くなる例がいくつかあってどうしてもよくならないので苦悩しています
(ウェブの方を置換するので現在より悪い例はできるだけ無くしたい)
あと2倍といっていたけど,モデルのロード時間も測ってしまっていて
測りなおしたら4倍近く速かったので,もう少し遅くなっていいのでよくできないかなと考えています
0062名無しさん@お腹いっぱい。 (アウアウ Sa7f-yuEZ)
垢版 |
2016/05/31(火) 10:03:28.13ID:C22Vvmqga
>>61
お疲れ様です。
すごく悪くなる例というのは、以前おっしゃられていたピクセルアートなどの場合でしょうか?
私はプログラミングのことはよくわかりませんが、悪くなる原因というのは現行方式にくらべて新方式が速く処理できる以上、
何か重要な処理が省かれてしまっている、もしくは簡略化されてしまっている、という可能性はないのでしょうか?
逆に言うと、省かれたか簡略化された処理がかねてより問題の輪郭線などが溶けてしまう要素とも関係していたりはしないのでしょうか?

もしそうであるならばですが、拡大処理などをする前にまず画像全体をチェックして、新方式で問題ないと判断される場所は新方式で高速処理し、
問題が出そうと判断される場所は現行方式、あるいはさらに改良した方式をあてがうなど、処理を切り替える必要性があるのではないでしょうか?

それと3年ほど前の記事ですが、こんな記述も参考になるかも
・東芝「REGZA Z8X」開発陣に聞く、「本格的4K時代」 4Kだから差が出る画質。地デジを高画質化の秘密
http://av.watch.impress.co.jp/docs/series/rt/20130809_610976.html

「ではなにが実物感に繋がっているのかというと、グラデーションの美しさであったり、自然なエッジの持つ「柔らかいが細かい」という感覚です。
映像エンジンとしては、階調性や微小な振幅が失われないよう、いかに内部のバス幅を広くとるか、ということを意識して開発しています。

最後まで12bitで伝送するといったことにこだわらないと、4Kらしい実物感が出てこないのです。」
→つまり、前回お話ししていた8bit画像を高bit化する際の処理方法とその後の情報精度維持が効く!
0063名無しさん@お腹いっぱい。 (アウアウ Sa7f-yuEZ)
垢版 |
2016/05/31(火) 10:04:09.16ID:C22Vvmqga
・微細テクスチャー復元
http://av.watch.impress.co.jp/img/avw/docs/610/976/html/ppt05.jpg.html

「2Kの段と4Kの段をしっかりわけて処理しないと、そうした「リアリティ」が出ない

そんなにゲインをかけてはいないです。微小なところしかかけていないんですが、それを入れるか入れないかで、4Kになってしまうと大きくかわってきます。」
→微小な階調差の領域とそうでないところを同じ処理(=強調)をしてはいけない!
※協調具合は逆ガンマ特性であてがうといいのかも

・絵柄構造適応型MPEG-NR
http://www.toshiba.co.jp/regza/lineup/z700x/quality_03.html#psa
→絵柄の相関性に基づいてフィルターの形状を適正化の部分を取り込むことで、参照範囲を拡張することによるアーティファクトの問題を軽減!
0064名無しさん@お腹いっぱい。 (アウアウ Sa7f-yuEZ)
垢版 |
2016/05/31(火) 10:11:05.50ID:C22Vvmqga
8bit画像を高bit化について追記

ノイズ除去や拡大する前に、ディープラーニングを使った高bit化(8→16bit化)が必要なのかも。
※単なるデータだけ16bitにしました、ではなく!
0065名無しさん@お腹いっぱい。 (アウアウ Sa7f-yuEZ)
垢版 |
2016/05/31(火) 12:33:31.37ID:C22Vvmqga
>>64を訂正

元画像でディープラーニングを使った高bit化(8→16bit化)ではなく、waifu2xで内部的に確か使っているニアレストネイバーで拡大した画像をディープラーニングを使った高bit化(8→16bit化)のほうがいいのか?
0067名無しさん@お腹いっぱい。 (アウアウ Sa7f-yuEZ)
垢版 |
2016/05/31(火) 12:57:25.17ID:C22Vvmqga
そもそも原点に戻るべきなんだろうか?

waifu2xが出た当初、今よりも輪郭が溶けやすかったので、NNEDI3で拡大後にwaifu2xでノイズ除去のみ適用というのをやったことがあったけど、
waifu2xが改良されてからNNEDI3を使う方法は全く試してなかったんだよねぇ。

NNEDI3と最新版のノイズ除去との組み合わせ、あるいは以前に書いたような輪郭成分と認識される部分だけに適用されるような新型ノイズ除去?との組み合わせならばどうなるのだろうとふつふつ・・・

そのうち時間が取れたら試すか。
0068名無しさん@お腹いっぱい。 (アウアウ Sa7f-yuEZ)
垢版 |
2016/05/31(火) 13:14:26.12ID:C22Vvmqga
手元に以前にNNEDIS3にて2倍、4倍、8倍に拡大した画像があったので改めて見てみたのだが、確かに眠い画像ではあるんだけど輪郭とかは自然なんだよね。
NNEDI3で拡大して、画像の面成分(=「Imager::AnimeFace」にて輪郭と認識されないところ)のみwaifu2xにて超解像効果を適用・・・

それができるのならば、テレビなどでよくある解像度の変換はなしで、解像感だけアップする手段にも使えるのか?
0074名無しさん@お腹いっぱい。 (アウアウ Sae5-YSaM)
垢版 |
2016/06/02(木) 10:13:34.24ID:8dS/92/Ma
今日のGoogleは影絵作家の生誕記念バージョンになっているけれど、新バージョンは影絵とかも不得意かもと思ったところでひとつ気になったことがあったので調べてみた。

・Convolutional Neural Networkとは何なのか
http://qiita.com/icoxfog417/items/5fd55fad152231d706c2

気になったのは
「CNNの進化
年が経るにつれ精度が上がってきているCNNですが、近年の構成では以下のような特徴がみられます。
フィルタを小さくし、階層を深くする
PoolingやFCのレイヤをなくす
以下の図では、年々精度が上がるにつれレイヤが深くなっているのがわかります。」
の部分。

つまり、フィルターというか参照範囲そのものを増やすよりもレイヤー(考え得るパターンの分岐?)を深く(=パターンを増やす)するほうが得策っぽい件なのだが、
そうであるならば、参照範囲は現行程度に留めて、フィルターの形を複数用意してそれぞれの絵柄に応じて一番しっくりくるフィルターの情報を基に畳みこみした方が
いいんではなかろうかとふと思ったのですが、ダメですかね?

フィルターをあらかじめ、正方形、長方形、△(向き四方向各々)菱形、8角形、とか用意しておいて、全部実行して一番いいのを選択。

TTLモードで回転による8パターンをやる時間があるならば、この方がいい結果が出るような気もするんですが。
0075名無しさん@お腹いっぱい。 (アウアウ Sae5-YSaM)
垢版 |
2016/06/02(木) 10:30:41.45ID:8dS/92/Ma
すでにやっている人はいたようです。

・Deep Learning Advent Calendar 2015
http://vaaaaaanquish.hatenablog.com/entry/2015/12/25/005523
「sliding windowのスケールの違いによって入力も違うため, 誤認識が発生するという問題もありました.
そこで, Exhaustive Searchのスケールによる誤認識を減らすための画像処理手法や計算量を減らす手法*4, 物体検出に対して効率的な手法*5が出てきたり,
CNN以外でもsliding windowの欠点を補うようなRandom Forest的手法*6が出てきたりしました.」

で、さらにDeep Q-Network(DQN)などというものも出ているようで(名前がなw)
深い・・・
0076名無しさん@お腹いっぱい。 (ワッチョイ 95d2-wHOq)
垢版 |
2016/06/02(木) 10:37:26.83ID:oNKZhMTS0
もう悪くなりそうなパターンを調べてそういうパターンを自動生成して学習データに加えることで無理やり対応した
例: http://ccsaku.moe.hm/gyazo/data/0b76b99850d7cc5eac0e4857da451890.png
こういうパターンを良くするのと引き換えにイラストの平均的なスコアは少し下がると思うけど
最悪な場合のスコアはかなり上がっているはずなのでいいやろという感じ

イラスト90枚のセットで,縮小に平均画素法を使ったときの平均PSNRが
既存: 36.74, 新: 37.07
縮小にLanczosを使った時が
既存: 36.76, 新: 37.25
で平均も既存よりは良くなっている
処理速度も2.4倍くらい速い
対応方法はこれでいいと思うので,
あとちょっと調節するのとノイズ除去付きも試してみてよければ追加で
ウェブの方は新モデルで置き換えることはほぼ決まりです
0077名無しさん@お腹いっぱい。 (ワッチョイ 95d2-wHOq)
垢版 |
2016/06/02(木) 10:53:32.12ID:oNKZhMTS0
>>74
レイヤというのはwaifu2xでいうと畳み込み+ReLUを行うの回数のことで
>フィルタを小さくし、階層を深くする
これはVGG Netなどの3x3畳み込みを何度も繰り返すネットワークで
waifu2xは元からこれをベースにしています.
また1x1畳み込み以外だとレイヤを増やすと参照範囲も広がります.
フィルタの型は係数によって変わると考えていいと思うのでこれも最適化されているはず
0078名無しさん@お腹いっぱい。 (アウアウ Sae5-YSaM)
垢版 |
2016/06/02(木) 10:56:14.63ID:8dS/92/Ma
>>76
お疲れ様です。
悪いパターンを自動生成して学習ですか。
それはよさそうですね。
確かにこういうコントラスト比の高く境界面の差が大きい画像を集中的に取り込んでおくのはいいと思います。
(そういう意味では影絵もいいのか?)
期待しております。
0079名無しさん@お腹いっぱい。 (アウアウ Sae5-YSaM)
垢版 |
2016/06/02(木) 11:00:59.96ID:8dS/92/Ma
>>77
入れ違った・・・
解説ありがとうございます。

>レイヤというのはwaifu2xでいうと畳み込み+ReLUを行うの回数
ということは、演算回数を利用者が任意に変更できるようになると、
・回数を減らして時間短縮(精度は落ちる)
・回数を増やして精度向上(時間はかかるが、1日でも2日でもバッチコーイならば・・・)
とかできるといいかもしれないなと思いました。

>フィルタの型は係数によって変わると考えていいと思うのでこれも最適化されているはず
それは素晴らしい。

結果を楽しみにしておきます。
0088名無しさん@お腹いっぱい。 (アウアウ Sae5-8R5K)
垢版 |
2016/06/07(火) 09:35:28.02ID:AUEYrNINa
>>86
学習データが偏っているんだろうけど、黄色あたりが不自然なんだよな、これ。
もっと学習データ増やさないと。
ディープラーニング関係の資料を見ていて思うのは、学習データがキモであるにも関わらず、学習するのに時間がかかるせいか妙に学習データの数が少ないなと思うケースがしばしばあるように思う。
ある程度の正確性を求めたければ少なくとも10000以上は学習しないと話にならないのに。
0092名無しさん@お腹いっぱい。 (ワッチョイ 1bd2-qOwk)
垢版 |
2016/06/11(土) 19:45:42.62ID:3Rvur7wT0
新モデル+GTX 1080だと640x480->1024x768のノイズ除去+2xが560msくらいでできています
あとGPUの違いなのかcuDNN v5+CUDA 8.0か分からないけど
以前試したら異常に遅かったWinogradという3x3畳み込みを速くするアルゴリズムが
速くなってて,現verも950msくらいで処理できています.
(以前は,新モデルのほうが3倍くらい速かったので差がかなり縮んだ)
AWS EC2のGPU+現verだと3700msくらいで,このGPUはGTX 760と同じくらいの性能です.
0095名無しさん@お腹いっぱい。 (アウアウ Sab7-Hfww)
垢版 |
2016/06/11(土) 20:45:50.92ID:rLStxyFWa
>>92
お疲れ様です。
GTX 1080導入、おめでとうございます。
アルゴリズムによって速度が変わるとのことですが、画質が変わったりはしないのでしょうか?
遅いけど高画質なアルゴリズムとかあるのかなと。
あと、二段階超解像ってできないかなと思ったりしてるのですが。
つまり、
1回目:今まで通りの超解像による拡大
2回目:1回目でできた拡大画像と元の画像を比較して、再度超解像効果を手直し
みたいな。
元画像と拡大画像を見比べて、「もっとここ手直しできる」というところを再調整とでもいうのか。
この2回目だけの処理だけ活用すると、元画像を拡大せずに解像感や輪郭まわりの再現性向上にも使えますだとなおうれしいんですが。
0096名無しさん@お腹いっぱい。 (ワッチョイ 1bd2-qOwk)
垢版 |
2016/06/11(土) 21:06:09.55ID:3Rvur7wT0
>>94
速度についてなら画像のサイズとチャンネル数(RGBか透過を持っているか)だけ合わせれば
画像の内容はほとんど関係ないと思います
>>95
変わりません
やりません
ただすごく変になった時/ところを検出できると便利とは思います
009894 (ワッチョイ 839d-7xHu)
垢版 |
2016/06/11(土) 22:26:00.73ID:+7f02WYI0
>>96
なるほど、てっきり線が多様でノイズの多い複雑だけど低画質なものが
加速度的に必要時間が増えていくものだと思ってました

開発、陰ながら応援しています
0101名無しさん@お腹いっぱい。 (ワッチョイ 1bd2-qOwk)
垢版 |
2016/06/12(日) 12:56:41.65ID:KlXasCVu0
ノイズ除去付き拡大もうまくいっているので
たぶんもう学習処理回すだけです
イラストは明日には全部学習終わります
あと写真、Yモデルの再学習に4日つづくくらいかかる
ちなみに現在のモデルも使えるようにしているので追加という形になります
ウェブ版はGPUメモリの関係で全部のモデル読めないので置き換えますが
ベンチマーク的には結構スコアが上がっているけど
パッと見でわかるほどの違いはないと思います
0105名無しさん@お腹いっぱい。 (ワッチョイ 1bd2-qOwk)
垢版 |
2016/06/12(日) 14:42:39.03ID:KlXasCVu0
>>103
2枚重ねてみると、ところどころ違いがあるは分かりますけど
黙って置き換えても誰も気づかないのではないかという不安はあります
なんとなく違和感が減った気はするけどプラシーボかもしれない
PSNR的には結構良くなっているので、よくなっているのは確かだと思いますが説得力はないです
明日か明後日くらいにウェブの方イラストだけ置き換えようと思うので
気になる画像を持っている方はそのときに試してみてください
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況