【超解像】画像拡大ソフト総合スレ2【waifu2x】 [無断転載禁止]©2ch.net

2016/05/10(火) 11:28:05.20

画像を人工知能(Neural Network)を利用して拡大、あるいはノイズ除去するソフトウェアの話題を総合的に扱うスレです。
本来の用途は静止画が対象ですが動画のアプコン処理に関する話題もOKです。
ただし動画編集ソフトの使い方の部分の話は各ソフトのスレに行って下さい。

--主なソフト--
・waifu2x
本家Webサービス
http://waifu2x.udp.jp/

・waifu2x概要：二次元画像を拡大したいと思ったことはありませんか？ (waifu2x作者氏のブログ)
http://ultraist.hatenablog.com/entry/2015/05/17/183436

・waifu2xとその派生ソフト一覧
※リンクがNGワードに！

・waifu2xのベンチマーク結果まとめ - Togetter
http://togetter.com/li/831437

・無料で二次元画像を人工知能が補完してハイクオリティで1.6倍/2倍に拡大できる「waifu2x」 (gigazinの記事)
http://gigazine.net/news/20150519-waifu2x/

・Otaku ワールドへようこそ！［212］嫁を拡大する人工知能／GrowHair (日刊デジタルクリエイターズの記事)
※従来の拡大手法とwaifu2x、SRCNNの違いについての丁寧な解説記事
http://blog.dgcr.com/mt/dgcr/archives/20150605140100.html

・NeuronDoubler
人工知能超解像プログラム NeuronDoubler
http://loggialogic.blogspot.jp/2012/06/neurondoubler.html

VIPQ2_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured

2017/01/04(水) 19:59:44.27

>>566
ディープラーニングの推定工程ベンチマークとして便利かもしれないな

2017/01/04(水) 20:11:49.14

笑うとか意味不でｷﾑﾁﾜﾙ

2017/01/04(水) 22:02:39.62

というかしょっぱすぎる性能だな
Ryzen頑張ってくれよ本当に…

2017/01/07(土) 23:25:48.14

中の人Pixivだったのか納得した

2017/01/08(日) 19:04:40.17

waifu2xのことなら、中の人の定義によるけど
開発している人（俺）はpixivではないよ
サーバーはpixivの方が運営しているけど

2017/01/14(土) 04:19:51.80

このスレを見ている人間にとっては大嫌いなレガシー不可逆画像コーデックJPEGに新たなエンコーダが
ttp://gigazine.net/news/20170113-google-guetzli/
人間の目に最適化した極低速高圧縮JPEGエンコーダGuetzli

SSIM：　　　　　　　　　　　　　libjpeg比 14％悪化
PSNRHVS-M：　　　　　　　　libjpeg比 14％悪化
butteraugli：　　　　　　　　　libjpeg比 30％良化
エンコード速度：　　　　　　　libjpeg比 10000％+悪化
同等画質サイズ：　　　　　　　libjpeg比 35％良化
同等画質転送レート：　　　　libjpeg比 35％良化
ttps://translate.google.co.jp/translate?sl=en&tl=ja&u=http%3A%2F%2Fencode.ru%2Fthreads%2F2628
ttp://encode.ru/threads/2628

長すぎるエンコード時間（消費エネルギー）という元手・投資を取り返すには何回その画像ダウンロードされないといけないんだろうな
性能はたしかに良いからお試しあれ

2017/01/14(土) 10:43:46.82

よくわからんが、電算機関連の話では
性能って普通は速度(時間)のことを言うんじゃないのか

2017/01/14(土) 11:55:01.52

GuetzliよりGuetzliの性能を評価したbutteraugliってやつのほうが気になる。
SSIMやPSNRより人間の主観に近い画質指標なのかな。

2017/01/14(土) 12:31:07.66

butteraugliでwaifu2xと他の拡大アルゴリズムの比較されたら、どんな結果が出るのだろうな

2017/01/14(土) 13:15:34.86

リファレンスのpngをq89ぐらいにすると、
似たサイズになるんだけど、確かに通常より綺麗だな。
waifuで拡大したほうが超綺麗になったけど、そういう問題じゃないからね。

2017/01/14(土) 16:10:52.71

>>575
自分もそう思ったんだけどbutteraugliのビルド方法がよく分からなくて断念したよ。
Googleがバイナリを配布してくれればいいんだけどね。

というかほぼGoogleしか使ってない指標でGoogleのエンコーダを評価されても性能が良く分からないよなと思う。

2017/01/14(土) 18:56:54.13

>>577
https://github.com/google/guetzli/releases

2017/01/15(日) 09:56:09.63

waifu2xの後追いして遊んでるんだけど
作者氏、GAN使うの嫌がってるんだよね

とりあえずGAN、ResNet、PixelSuffle
実装してみたけど見た目SRCNN臭さは
だいぶとれるけどたくさん評価
してないので微妙

俺の本丸は計算量削減なんだけど
理論上計算量3割のはずなのに
3割しか早くならない

chainer、推論遅くないか

2017/01/15(日) 12:05:43.60

サンプル画像すら出さないで何を言わんや…

2017/01/15(日) 12:31:47.79

評価中なので待ってください
一回回すのに10時間かかるので
何日かかかります

2017/01/15(日) 13:36:32.29

スクール水着の凹凸を判断してテカテカのラバーコーティングの水着にできる？

2017/01/15(日) 13:52:26.00

いいなそれ

2017/01/15(日) 15:35:17.21

>>579
GANはPSNRをあまり下げずに使えるならいいですが
(ロス関数の重みの調節で出来ると思いますがトレードオフがあるのでGAN使う意味がなくなってきそう)
PSNRがBicubic以下になると
変換結果に不安があるため現在BicubcやLanczosが使われる領域での置き換えには使えないと思って避けています。
もちろんいくつかモデル作って選択できるようにすればいいだけですが
面倒なのでやっていない状態です。ResNetはdevブランチには入ってます。

2017/01/15(日) 15:46:09.89

＞584
GANについては混合比率下げると
全くなしと見分けがつかないので
PSNRは必ず犠牲になる印象です

3dB近く悪くなるので受容できないで
しょうね

GANは学習すごく遅くなるので
つらいです

GANは学習回数多くしないとだめ
なのでもしかしたら今足りてない
可能性があるので後でしつこく
やってみます

作者さんも自分で実験するのが
めんどいと思うので結果はアップして
共有します

2017/01/15(日) 15:59:53.33

butteraugli というので本当に見た目の印象が定量評価できるならそれもあり思いますね。
僕が見た目の評価嫌う理由は、たいして見る目がない人がリンギングでまってくる画像を
くっきりしているからよいとか判定してしまうところにあるので。

2017/01/15(日) 18:17:37.15

butteraugjiはためしてみたけど
値が小さい方がいいっぽいね

画像ができたら数字比較してみるわ

2017/01/15(日) 19:31:48.53

butteraugliでエポックごとの
評価みたけど学習打ち切った時点で
まだあがってた

評価がサチるまで回しますが、
たぶんすごい時間かかります

二乗誤差じゃわからん

2017/01/15(日) 20:38:29.02

SRGANはやろうとした人を何人も見ましたが
みんなうまくいっていないので
写真のモデルでcheckboard artifactを出さずに
論文の結果と似たような画像を生成できればそれだけで価値があると思いますよ

2017/01/15(日) 21:26:01.39

SRGANはチャレンジですね。がんばってみます。
うまくいったら挑戦します。

butteraugli初耳だったんですが、スレ観たらビルドの仕方が
わからない人がいる模様。Linuxの開発したことのある人少ないんですかね。

Windows10のコマンドプロンプト開いて以下のコマンドで実行、

$ bash

コンパイラとライブラリインストール(zlibはpngと一緒に入る)、

$ sudo apt-get install gcc g++ make libjpeg-dev libpng-de

ソースコードのMakefileのあるディレクトリで

$ make

で実行ファイル作られます。bash上か他のLinuxマシンのみで動きます。

プログラマじゃない人も色々遊んでみてください。

2017/01/15(日) 21:27:08.93

$ sudo apt-get install gcc g++ make libjpeg-dev libpng-dev

です。すんません。

2017/01/15(日) 21:29:00.78

waifu2x、再び!!
Stay tune!

**577** (ﾜｯﾁｮｲ 1339-5BG0) · 2017/01/15(日) 22:37:39.20

>>590
ありがとうございます。
ビルドできました。

2017/01/18(水) 15:23:24.52

Google、機械学習で低解像度画像をシャープに見せる「RAISR」をサービスで実用化
http://www.itmedia.co.jp/news/articles/1701/17/news067.html

2017/01/18(水) 15:27:07.14

>>594
これyoutube動画でもやってくれないかな。
あと動画上の物体の形や位置を認識してサラウンド感を与えるとか。

2017/01/18(水) 15:39:56.54

やりたいことはYoutubeがすでやっている動画の再エンコと一緒じゃないかな
画質を改善するというより、苦情の少ない範囲で圧縮したいなので
運営としては通信量が減って嬉しいけどユーザーとしては以前よりも画質が悪くなるので
携帯事業者がやっていた「通信の最適化」と同じ考えだと思う

2017/01/18(水) 20:37:05.06

でもそれで同じ容量で解像度が例えば1.5倍になれば話が変わる
色空間やインターレースしかり悪いばかりのトレードオフでは無いと思う

2017/01/23(月) 19:31:01.14

waifu2x-cafeeをXeonとQuadro両方積んだPCで実行するときってどっちのほうが効率的なんだ？
ちなみにXeonは12コア3.30GHz、Quadroは2000。

2017/01/24(火) 00:16:40.73

>>598
Quadroの方が速いんじゃないですかねぇ？

↓の画像でXeon 16Core 3.6GHzで2分40秒ぐらい
CPU使用率は20%ほど XPx64環境で無理矢理実行したからちょっとアテにならないかもしれないけど
http://www.dotup.org/uploda/www.dotup.org1133523.jpg　変換元画像
http://www.dotup.org/uploda/www.dotup.org1133524.png　設定

2017/01/24(火) 08:27:54.07

>>599
ハイエンドなマシンで動かしてらっしゃるようなので
NeuronDoubler v5.00だとどれぐらいかかるか検証して頂いてもいいですか?
http://loggialogic.blogspot.jp/2015/09/neurondoubler-v500.html?m=1

**599** (ﾜｯﾁｮｲW cf63-gIHQ) · 2017/01/24(火) 23:23:52.69

>>600
sampleのlogo.pngを2倍で16s、4倍で66s
sampleのphoto.pngを2倍で44s、4倍で200s
といった感じです

32倍をlogo.pngでやってみたら1876sとかかかったので、photo.pngの方は試してないですｗ

2017/01/25(水) 09:31:13.38

>>601
ありがとうございます
手持ちのMacbook Pro late 2012では
960×540のpng(写真)を変換したところ1600s
ぐらいでした
16コアもあると動画用にNeuronDoublerを使えそうで羨ましいです

2017/01/25(水) 21:02:31.59

waifu2x研究家なんですけど
GANのPSNR問題解消しそうなので
週末画像出します

waifu2xと同じupモデルをこっちで
再現したものとの比較しますが
時間がかかるのでそれ以外との
比較は難しいです

何個かネタがあってそのマイルストーンです

3月に資料作るのでそのとき
リンク張ります

2017/01/26(木) 00:25:26.80

単純にはMSEとGANの出力を適当な割合で合成すればいいように思うけど
重くなるので学習の枠内でやれればいいですね

あとneural-enhanceの人も最近waifu2x的なやつをやろうとしているみたいです
https://twitter.com/madebyollin/status/823652970440986624
これは別の人の結果だけど、たしかに線はくっきりしているけど余計なことをしすぎているように見える

2017/01/26(木) 06:13:14.86

＞604
適当な割合で合成すればいいんですけどふたつ問題があって

1. 適切な混合比率がタスクによって違う
2. 結果が不安定でうまくいってるエポックとそうでないエポックのばらつきが大きい

なので、前者については二乗誤差に対して何%GANを反映するのかって
コントロールを入れています。

GANが余計なことをするのは誤差のGANの項が正解データとの比較を
しないからじゃないかってことで正解データと比較するGANをは
考えてみました。

GANなしに比べてSSIM、PSNRは同等、butteraugliはかなり良くなってます。
正解データと比較する時点でGANの解釈がかなり変わるんですが
(評価中なので正確な値は週末出します)

2017/01/26(木) 06:33:06.18

わかる人がまわりにいないので、ここに書いてあれなんですけど、

従来のGAN)
Discriminatorで本物らしさを判定して誤差に反映

自分の手法)
本物らしさを学習したDiscriminatorの中間層の出力を
本物と生成データで比較、となります。

Discriminatorの中間層は通常の二乗誤差で比較するのと比べて
大幅に大きい情報量で比較するのと、Discriminator自体が
誤差関数になるので普通の二乗誤差と比べると複雑、高度な比較になります。

Twitterが出してる論文は物体認識を学習させたモデルで中間層の出力で
比較しろ、と書いてあって、これがコンテンツロスなんですが、
コンテンツロスの適用部分はGANに対してやった方がいいのでは
というのが自分の意見です。

2017/01/26(木) 08:44:57.33

こういうやつに税金投入するべき

2017/01/26(木) 13:58:06.91

イラストの超解像でperceptual lossにImageNetの学習済みモデルを使うのがよくないのは明らかなので
Discriminatorが使えるならそれは同じ解像度のイラストで学習しているわけだからよさそうですね
ただDiscriminatorは学習中に動くので不安定そうですが
GAN自体がそういうものなので動く感じでしょうか

**名無しさん＠お腹いっぱい。** (JP 0H73-xu7M) · 2017/01/26(木) 14:51:03.26

どうも、wiafu2x研究家の人です。

Twitter社の論文読んだとき、コンテンツロスがめちゃくちゃ
めんどくさいので俺はあきらめました(コンテンツロスのために
物体認識のタスクもやらないといけなくなるので大いに藪蛇)。

SRGANがみんなうまくいかない原因はsoftmax、softplusを
そのまま誤差にするから結果が不安定で調整が難しい、
のが大きなところかと思います。

そもそものDCGAN自体も論文の趣旨がうまく生成できる
パラメータが見つかりましたって部分ですからね。

ちなみに自分はSRCNNは勉強会の発表ネタなので、8月に
一か月実験したのと3月の発表があるのでそれで今だけ
やってるだけなので、先行技術のサーベイが非常に
あやしい(何も知らない)のでご教授いただけると幸いです。

今のところもう一個ネタがあって、画像ごとに重要度マップを
作って誤差に重み付けする方法を考えています。
多分来月前半には実験してると思います。

2017/01/26(木) 16:22:50.49

物体認識の学習済みモデルは配布されているので自前で学習する必要はないです（再現させる場合）。
generatorの出力とgroundtruthそれぞれをそのネットワークに入力して
適当な層(convの2,3層目)の出力が同じになるようにMSEを最小化するのがperceptual loss(コンテンツロス)で
それとdiscriminatorを使ったadversarial lossで
loss = perceptual_loss * perceptual_loss_weight + adversarial_loss * adversarial_loss_weight
を最小化するように拡大前の画像を入力とするgeneratorを学習するのがSRGANという認識です。
なので違いはコンテンツロスに使うモデルを変えているところだと思いました。
自分もGANはやったことがないので違ってるかもしれません。

2017/01/26(木) 16:48:26.18

説明ありがとうございます
認識合わせできました

自分の場合は再現に興味がなく、
それは単に遊んでいるだけなので
学術的なアプローチはどうでもいいから何ですが

なのでさっさと自分の手法に取り込みたかったんですが
イラストに関しては分類器新たに
学習しないといけなさそうなので
めんどくさいなあと思ったんです

それとは完全に独立してganが
課題があったのでそれを考えてたら
最終的に元論文のやり方を捻る
方法になりました

2017/01/26(木) 17:17:12.53

ganのloss_weightがセンシティブで
小さいと効かないし、大きいと
学習が発散するし、ギリギリねらうと
エポックごとに結果違うし、
学習データ変えると定数変わるしってのが
現状のsrganだと思います　

学習が重いのでいじっていると
疲れてくるので自分は安定した方法を
求めてます

自分の提案手法は安定してます
効果の評価ができてなくて
4倍拡大とかどうなるかわかりません
2倍だと良いんじゃないかなあと思います

後でスレの人に厳しいデータ教えてもらおうと思います

2017/01/26(木) 19:03:54.54

詳しいことはよくわからないけど、ガンガレ。超ガンガレ。

どうせならちょっと前のmadVRの新しい拡大の三つ巴でもいいんだぜ…

2017/01/28(土) 11:47:38.55

waifu2xの研究してる人なんだけど

すまん、アルゴリズムは固まってて
学習させるだけなんだけど
画像出すの来週になる...

2017/01/28(土) 14:42:13.13

chainerで線画着色をwebサービスにして公開してみた
http://qiita.com/taizan/items/7119e16064cc11500f32

2017/01/28(土) 15:02:18.06

>>614
楽しみにしてますがゆっくりやってくだちい

2017/01/28(土) 15:17:47.96

>>615
着色は全くの範囲外だったが、ちと興味が出てきたｗ
モノクロ写真とかにも活用できそうだな

2017/01/28(土) 15:35:09.06

>>615
着色の精度はまだまだだけど、とても面白かったです。
学習が進めばもっとよくなると思うとすごい期待できます。

2017/01/30(月) 14:56:45.57

あいかわらず
塗りつぶしになっちゃうよ
進歩がないなあ
ＡＩダメっぽい

2017/01/30(月) 18:04:46.45

今更ながら>>615-616に気付いた
自演すんなよｗ

2017/01/30(月) 18:20:11.64

>>620
アンカちゃんと読もうなー

2017/01/31(火) 03:28:18.08

>>615
やっぱり自動だと色が薄くなるね
あと漫画だとエラー吐かれて駄目だわ

2017/02/01(水) 00:48:53.09

>>615
別にスレッド建てれば？

それとも有るの？

2017/02/01(水) 18:15:33.93

http://i.imgur.com/3FdvZVm.jpg
http://i.imgur.com/K1wQKBV.jpg

2017/02/02(木) 17:45:47.99

waifu2xcaffeで600dpiの画像を2倍に変換したら
96dpiになったのですが、これは仕様ですか？
てっきり倍にしたのだから300dpiになるのかと思っていました。

2017/02/02(木) 18:37:57.12

>>625
1920x1080で600dpi(=3.2インチ*1.8インチ)の画像を2倍に変換したら、
3840x2160で1200dpi(=3.2インチ*1.8インチ)か、600dpi(=6.4インチ*3.6インチ)じゃないか？

2017/02/02(木) 18:58:49.86

>>625
dpiは入出力デバイスの設定なのでwaifu2xの処理はそこに関与しません。
画像のメタデータに特に気を使っていないので印刷サイズには既定値が入っているのだと思います。
印刷や入稿等で必要なら別の方法で再設定出来ると思います。

2017/02/03(金) 10:31:32.28

>>626
>>627
ありがとうございます。
実感としてきれいに見ることができているので少し疑問に思い質問させていただきました。
dpiについてwaifu2xはいじっていないのですね。
dpiやppiのデータ上の数字は気にしないことにします。
（印刷とかはしないので）

2017/02/03(金) 10:35:55.98

ソフトの名前の由来はなに？

2017/02/03(金) 11:03:16.69

waifuを2倍に拡大するからだろ
waifuはぐぐれ

2017/02/03(金) 12:46:58.29

ワイフ
↓
妻
↓
嫁

2017/02/03(金) 13:50:44.75

わざわざ5行で書く無能

2017/02/03(金) 15:14:16.11

2次特の時点で由来とか聞かなくてもわかるくらいには直接的

2017/02/03(金) 15:22:25.83

じぇいぺぐルネッサンス

2017/02/05(日) 23:27:16.44

madVRにおけるNGU pixart特化版のテスト中みたい
NGU無印やwaifu2xと比較するとやや眠くなるものの、例のジャギー問題もこっちなら出なさそう
旧来のNNEDIを正統進化させたような画になってて、処理負荷は低い

Original　　　　 ttp://madvr.com/mario/org.png
waifu2x　　　　 ttp://madvr.com/mario/waifu2x.png
NGU VH　　　　ttp://madvr.com/mario/NGUveryHigh.png
NGUpixart VH ttp://madvr.com/mario/NGUpixartVeryHigh.png
NNEDI256　　　ttp://madvr.com/mario/nnedi256.png

2017/02/06(月) 14:09:54.91

waifu2xはwebサービスじゃなくて
windows版はないのだろうか?

2017/02/06(月) 14:13:31.31

pixel artの拡大はゲーム機のエミュレータで実装されているような処理のほうが納得できる拡大になると思う
2xSaIとか
http://johanneskopf.de/publications/pixelart/
とか

2017/02/06(月) 14:13:58.10

>>636
waifu2x-caffe

2017/02/06(月) 14:49:05.64

>>637
ピクセルシェーダー機能ある動画再生ソフトについてるんじゃね。

2017/02/08(水) 12:04:15.02

8×8ピクセルに縮小した画像から元の画像を予想する技術をGoogle Brainが開発
http://gigazine.net/news/20170208-pixel-recursive-super-resolution/
http://i.gzn.jp/img/2017/02/08/pixel-recursive-super-resolution/a03.jpg

2017/02/08(水) 16:11:31.49

>>637
それはffdshowにあるね。

2017/02/08(水) 17:11:42.74

http://blog.nest-online.jp/7557
ここの一番上のなんたらマジックで拡大しても劣化しないベクター画像化してみたんだけどいいですね
久々にワクワクした

2017/02/08(水) 17:13:49.90

と書き込んだ後でバンディングが問題なことに気がついた失礼

2017/02/10(金) 19:41:32.41

９日に緊急のWindows UpdateとやらでGeforceのドライバが更新されて
Waifu2x-caffeを使うと「CUDAドライバーがインストールされていない～」状態になった

一応、システムの復元で元に戻したけど．．．．作者さん助けて(もう見てないかねぇ)
Windows10は勝手にアプデかかるから困った

2017/02/10(金) 19:56:17.86

Geforceのドライバだけ古いのインストールしたら良いんじゃね

2017/02/10(金) 20:37:24.67

古いVerは置いとかないとね
俺も勝手にアップデートされた

2017/02/10(金) 22:04:57.99

>>644
Windows Update経由のGeForceドライバ更新はいい話聞かないからどうにかして止めるなりNVIDIA公式から拾ってくるなりしたほうがいいかも
こちらはGTX680にドライバ378.49で何事もなく動いてます

2017/02/11(土) 20:31:30.21

どうも、wiafu2x研究家の人です。
すごい時間かかりましたが最初の結果が出ました。

|PSNR|SSIM|butteraugli|
waifu2x|27.629|0.928|9.622|
GANなし|27.612|0.927|9.049|
GANあり|27.474|0.926|8.968|

2017/02/11(土) 20:36:55.90

butteraugliの値は低い方がいいはず
なので俺の手法の方が良い

俺の手法は主に計算量をwaifu2x/UPモデルより計算量を1/4にしていますが8層です。
実質的に層の数が多いのが効いてる可能性もありますが不明です。

すみませんがこちらの都合でアルゴリズムは非公開です。
ここで話が出ていた俺手法のGANについては今再試験中です。

2017/02/11(土) 23:13:48.93

WUでVGAのドライバ更新する人なんておるんか・・・

2017/02/11(土) 23:21:38.80

勝手にされるから困ってるっていう話じゃないのかな？

2017/02/12(日) 11:08:12.78

どうも、wiafu2x研究家の人です。

評価結果以下に置いてあります。
2000エポック学習させた最終100エポックの画像も付けているのでデータでかいです。
評価できる人がいたらみてやってください。

https://remoteplace-my.sharepoint.com/personal/t-matsu_office_remoteplace_net/_layouts/15/guestaccess.aspx?docid=0eb33501796144cb0abeadc2dd87b74d3&;authkey=AbBvhLq0ewcbScMYwVYIx4c&expiration=2017-03-14T02:04:18.000Z

2017/02/12(日) 18:06:51.45

web版のwaifu2x、ICCプロファイル対応したっぽい？

2017/02/12(日) 18:47:05.95

>>648
その値は画像数百枚の平均ですか、1枚だけですか。
waifu2xと書いてあるものはネットワークの定義だけ持ってきて独自に学習したものですか。（そうだと予測）

元画像を探してきてLanczosで1/2にしたあとにwaifu2x配布モデルで拡大すると明らかに結果が違います。
http://ccsaku.moe.hm/gyazo/data/18eac1728b714cfe64b7843ae5a91499.png
左が評価に使用されている超解像/waifu2xモデル/model_u01999.pkl.pngで、右がwaifu2xの配布モデルの拡大結果です。
左はかなりぼやけていて
PSNRも　超解像/waifu2xモデル: 27.717, waifu2x配布モデル: 31.771
と4dBも差があります。ちなみにLanczosが26.449です。
waifu2xと書く場合はこちらの配布モデルと比較して欲しいです。
学習データは、2012年に作ったものなのでそれよりも新しい画像は使われていません。

添付の結果については、見た目はほとんど違いが分かりませんが
GANありは顎のラインと鳥の下の髪あたりにcheckboard artifactが出ています。
各エポックで結果が揺れるならエポックごとにvalidationしてそれで一番よい値の時だけ
パラメータ保存しておけばいいと思います。

2017/02/12(日) 18:49:25.75

>>653
対応は入れましたが、最近サーバーの環境にちょっとトラブルがあるので
すぐにはウェブ版に反映されないかもしれません。

**名無しさん＠お腹いっぱい。** (JP 0H09-3CwI) · 2017/02/13(月) 12:19:52.07

＞654
確認ありがとうございます！！！
waifu2xと書くのは問題ありそうなのでいい呼び方があったら教えてください。

waifu2xと直接比較しないのは、不明な工夫(学習データ、アウギュメンテーションなど)
がたくさんあり、それを見切れないので比較しようがないというのがあります。
条件を合わせているのは層の数、チャンネル数だけです。
そちらの方としてはあまり変わったことはやってないかもしれませんが、
こちらはそれがわかりません。

とりあえずこれでいい結果が出る手法が発見されればwaifu2xにバックポートすれば
性能上がるのかなと思います。

PNSRなどは2000エポックのうち最後の1000エポックの平均です。
画像を複数枚評価するのは時間的に厳しいのでできていません。

アーティファクトについてはしらなかったのでそういう指摘は助かります。
GANは2000エポックで収束してないというか収束しそうにないので
俺手法のGANの効果については今のところ自分も懐疑的です。

2017/02/13(月) 15:10:31.44

>>656
waifu2xはごちゃごちゃやっていることが多いですがそこまで影響していないと思うので
4dBも違うのは教師データの位置がずれてるか学習の方法かハイパーパラメータが悪いのではないかと思います。
最初に近い精度までは持って行かないとなにか間違いやバグがある可能性があり信頼できなくなります。
waifu2xは写真データで既存手法と同じくらいの結果が出るところまでは調節しています。

waifu2xの学習の基本的なところは、
- 入力画像のランダムな位置から96x96の領域(patch)を切り取り(y)
- それを48x48に縮小(x), 縮小アルゴリズムはBox(平均画素法)とlanczosをランダムに使う
- CNNにxを入力して82x82の出力を取得(zero paddingがないため(96-14)^2になる)
- 出力とyのピクセル位置が合うようにyを82x82に切り取り
- (x-y)^2 誤差を計算してパラメータを更新
で、実際には、画像単位で縮小してその中から64領域を切り取って、xと対応するyもあらかじめ作りながら
画像数*64の(x, y)ペアを作った後にシャッフルしてbatch_size=16, optimizer=Adam(alpha=0.00025)で学習を回しています。
64領域のサンプリングは2エポック毎に行っています(ランダムな位置から再度作り直す）
patch_size, batch_size, Adamの設定は結果への影響が大きいです。

>画像を複数枚評価するのは時間的に厳しいのでできていません。
学習に使わない画像を100枚くらい外しておいて
学習済みのモデルでベンチマークするコードを書いておけば実行は5分もかからないと思います。

>>655
反映されているようです。ウェブ版にICCプロファイルの対応入れています。

**名無しさん＠お腹いっぱい。** (JP 0H09-3CwI) · 2017/02/13(月) 17:35:47.49

4dB問題は知ってたんですけどいくら確認してもおかしいところが
見つからないのでwaifu2xが何かやってるんだろうととりあえず放置していました。

そちらからみておかしい、とのことですのでもっとしっかりデータ確認します。

ありうるのはサブピクセルレベルでのピクセルずれ(縮小時に奇数ピクセル数だとずれるとか)が
ありうるかと思いますが、そちらで情報開示してもらったのでそれに合わせてやってみます。

縮小フィルタの特性を学習してしまう問題も知ってるんですけど、そういう回避方法は
考えていませんでした。やってみます。

2017/02/13(月) 19:03:49.27

adamのalphaは小さめにしていますが
それでもでかいようなので全部そろえます

毎度すみません

2017/02/14(火) 00:43:58.37

>>82x82
upconv_7の出力は68x68でした。(96-14*2)
>縮小時に奇数ピクセル数だとずれるとか
これは必須です。もし対策していなければこのせいじゃないかと思います。
waifu2xは学習画像読み込み時点で4の倍数になるようにしています。(4xもあるため)
またpatchを切り取る位置も元画像側の位置が奇数になると縮小側の位置がズレます。

2017/02/17(金) 20:31:02.69

超解像頑張り中の人です。

とりあえずwaifu2xのソースコード読んでコンボリューションの初期値あわせてみたり、
変な処理をしていたのを直したり色々やったところ1dB改善しました (PSNR=28.5dB)。
視覚的には大幅な画質向上があります。

AdamのAlphaは小さくしたほうが確かに学習安定します(当たり前)。

言われたところは全部直したつもりなんですが、誤差関数が何かやってる様子。
よくわかりません。HunberLossも使っているのか使ってないのかわかりませんし...。

とりあえず1バッチ=12画像、1エポック=100バッチで2000エポックで学習が
収束しきってないのでがんばればPSNR=29dBまでは行くと思うんですが
31dBかかなり厳しいです。30dB行ったら諦めます。

俺的には学習データ数が少ない、augumentationがまずいってところかなあと思います。
学習データはすごく重要なんですけど、俺にはそこに情熱がない...。

こっちの学習データは250枚、augumentationは上下、左右反転、45度ローテーション、
ノイズ付加、画像縮小です。

ほんまwaifu2xはエンジニアリングの塊なので一朝一夕には追いつけませぬ。
(諦めてるので追いつく気なし)

2017/02/17(金) 22:19:08.74

>>661
HuberLossは使っていますが多分それほど関係ないです。（というかMSEのほうがPSNRは高くなると思います）
誤差はノイズ除去で色が劣化しているのを直すときに
下げれる誤差に限界があるので、YUVのYの重み(0.299 × R + 0.587 × G + 0.114 × B)にあわせて
チャンネルごとの誤差の重みを調節しているだけなので、拡大の場合はそれほど関係と思います。
学習データが少ないのはあるかもしれないですが、今はパッチを切り出さずに画像単位でforward/backwadしているでしょうか？
小さなパッチを切り出してからシャッフルして小さいminibatchで学習するのはとても重要です。
画像単位だと例えば1280x720だった、出力が86万個の変数になって
この平均誤差をbackwardすることになるので、画像内のある小さな領域内で誤差が大きかった場合でも平均されて消えてしまいます。
特にイラストの場合は何もない背景が多くて、そこは誤差がほぼゼロになるため平均されて誤差が消失しやすいです。
（waifu2xはパッチを切り出した後パッチ内が単色背景の場合は50%くらいの確率で捨てるような処理も入っています）
また学習データ少ない場合でも、たとえば96x96のパッチだと画像1枚から70万通りくらいの切り出し位置があるのでデータ増加にもなります。

2017/02/17(金) 22:33:15.43

>AdamのAlphaは小さくしたほうが確かに学習安定します(当たり前)。
あと書いていませんでしたが、0.00025から初めて最終的にその1/10くらいになるように減らしていっています。
Adamは学習率が自動調節されるようなことが書かれていることがありますが
パラメータの要素単位の正規化をやっているだけなのでalphaを減らすのは意味があります。
なので最終的なエポックで1/10くらいになるようにalphaをスケジュールしたほうがPSNRは高くなります。
調節が難しければ、80%くらい進んだ後で1/10にして残り20%を回すくらいでも十分意味があると思います。

2017/02/17(金) 23:47:35.21

画像は教えてもらったパッチサイズに分割しています
当然シャッフルしています

SGDなんかでは学習率を減衰する正則化は普通ですけど
Adamでも効果あるんですね。というかそんなに小さな学習率で
PSNR向上するのか...。

2017/02/18(土) 04:13:42.14

ai搭載してほしい

2017/02/18(土) 13:20:51.75

deeplearning研究の成果であるwaifu2xがAIでないとしたら何がAIだと言うのかね