画像を人工知能(Neural Network)を利用して拡大、あるいはノイズ除去するソフトウェアの話題を総合的に扱うスレです。
本来の用途は静止画が対象ですが動画のアプコン処理に関する話題もOKです。
ただし動画編集ソフトの使い方の部分の話は各ソフトのスレに行って下さい。
--主なソフト--
・waifu2x
本家Webサービス
http://waifu2x.udp.jp/
・waifu2x概要:二次元画像を拡大したいと思ったことはありませんか? (waifu2x作者氏のブログ)
http://ultraist.hatenablog.com/entry/2015/05/17/183436
・waifu2xとその派生ソフト一覧
※リンクがNGワードに!
・waifu2xのベンチマーク結果まとめ - Togetter
http://togetter.com/li/831437
・無料で二次元画像を人工知能が補完してハイクオリティで1.6倍/2倍に拡大できる「waifu2x」 (gigazinの記事)
http://gigazine.net/news/20150519-waifu2x/
・Otaku ワールドへようこそ![212]嫁を拡大する人工知能/GrowHair (日刊デジタルクリエイターズの記事)
※従来の拡大手法とwaifu2x、SRCNNの違いについての丁寧な解説記事
http://blog.dgcr.com/mt/dgcr/archives/20150605140100.html
・NeuronDoubler
人工知能超解像プログラム NeuronDoubler
http://loggialogic.blogspot.jp/2012/06/neurondoubler.html
VIPQ2_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured
探検
【超解像】画像拡大ソフト総合スレ2【waifu2x】 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
1名無しさん@お腹いっぱい。 転載ダメ©2ch.net (アウアウ Sa2a-NyIq)
2016/05/10(火) 11:28:05.20ID:h2o6wyXCa567名無しさん@お腹いっぱい。 (ワッチョイ c344-Sa8B)
2017/01/04(水) 19:59:44.27ID:dGeuxDic0 >>566
ディープラーニングの推定工程ベンチマークとして便利かもしれないな
ディープラーニングの推定工程ベンチマークとして便利かもしれないな
568名無しさん@お腹いっぱい。 (ワッチョイ 3272-IQ/9)
2017/01/04(水) 20:11:49.14ID:IycFIp3h0 笑うとか意味不でキムチワル
569名無しさん@お腹いっぱい。 (ワッチョイ cf7c-Sa8B)
2017/01/04(水) 22:02:39.62ID:CPp7npvh0 というかしょっぱすぎる性能だな
Ryzen頑張ってくれよ本当に…
Ryzen頑張ってくれよ本当に…
570名無しさん@お腹いっぱい。 (ワッチョイ 8291-C4FB)
2017/01/07(土) 23:25:48.14ID:kGxVSOqh0 中の人Pixivだったのか納得した
571名無しさん@お腹いっぱい。 (ワッチョイ 29d2-5hgy)
2017/01/08(日) 19:04:40.17ID:ZpzukTrs0 waifu2xのことなら、中の人の定義によるけど
開発している人(俺)はpixivではないよ
サーバーはpixivの方が運営しているけど
開発している人(俺)はpixivではないよ
サーバーはpixivの方が運営しているけど
572名無しさん@お腹いっぱい。 (ワッチョイ d1cf-dHfL)
2017/01/14(土) 04:19:51.80ID:AOMWwbEx0 このスレを見ている人間にとっては大嫌いなレガシー不可逆画像コーデックJPEGに新たなエンコーダが
ttp://gigazine.net/news/20170113-google-guetzli/
人間の目に最適化した極低速高圧縮JPEGエンコーダGuetzli
SSIM: libjpeg比 14%悪化
PSNRHVS-M: libjpeg比 14%悪化
butteraugli: libjpeg比 30%良化
エンコード速度: libjpeg比 10000%+悪化
同等画質サイズ: libjpeg比 35%良化
同等画質転送レート: libjpeg比 35%良化
ttps://translate.google.co.jp/translate?sl=en&tl=ja&u=http%3A%2F%2Fencode.ru%2Fthreads%2F2628
ttp://encode.ru/threads/2628
長すぎるエンコード時間(消費エネルギー)という元手・投資を取り返すには何回その画像ダウンロードされないといけないんだろうな
性能はたしかに良いからお試しあれ
ttp://gigazine.net/news/20170113-google-guetzli/
人間の目に最適化した極低速高圧縮JPEGエンコーダGuetzli
SSIM: libjpeg比 14%悪化
PSNRHVS-M: libjpeg比 14%悪化
butteraugli: libjpeg比 30%良化
エンコード速度: libjpeg比 10000%+悪化
同等画質サイズ: libjpeg比 35%良化
同等画質転送レート: libjpeg比 35%良化
ttps://translate.google.co.jp/translate?sl=en&tl=ja&u=http%3A%2F%2Fencode.ru%2Fthreads%2F2628
ttp://encode.ru/threads/2628
長すぎるエンコード時間(消費エネルギー)という元手・投資を取り返すには何回その画像ダウンロードされないといけないんだろうな
性能はたしかに良いからお試しあれ
573名無しさん@お腹いっぱい。 (ワッチョイ b1d2-BSl8)
2017/01/14(土) 10:43:46.82ID:kO6Aianq0 よくわからんが、電算機関連の話では
性能って普通は速度(時間)のことを言うんじゃないのか
性能って普通は速度(時間)のことを言うんじゃないのか
574名無しさん@お腹いっぱい。 (ワッチョイ 1339-5BG0)
2017/01/14(土) 11:55:01.52ID:cz8mjfgz0 GuetzliよりGuetzliの性能を評価したbutteraugliってやつのほうが気になる。
SSIMやPSNRより人間の主観に近い画質指標なのかな。
SSIMやPSNRより人間の主観に近い画質指標なのかな。
575名無しさん@お腹いっぱい。 (ワイモマー MM33-YL17)
2017/01/14(土) 12:31:07.66ID:ySHnyXEvM butteraugliでwaifu2xと他の拡大アルゴリズムの比較されたら、どんな結果が出るのだろうな
576名無しさん@お腹いっぱい。 (ワッチョイ d950-dHfL)
2017/01/14(土) 13:15:34.86ID:3XEqy+Cv0 リファレンスのpngをq89ぐらいにすると、
似たサイズになるんだけど、確かに通常より綺麗だな。
waifuで拡大したほうが超綺麗になったけど、そういう問題じゃないからね。
似たサイズになるんだけど、確かに通常より綺麗だな。
waifuで拡大したほうが超綺麗になったけど、そういう問題じゃないからね。
577名無しさん@お腹いっぱい。 (ワッチョイ 1339-5BG0)
2017/01/14(土) 16:10:52.71ID:cz8mjfgz0 >>575
自分もそう思ったんだけどbutteraugliのビルド方法がよく分からなくて断念したよ。
Googleがバイナリを配布してくれればいいんだけどね。
というかほぼGoogleしか使ってない指標でGoogleのエンコーダを評価されても性能が良く分からないよなと思う。
自分もそう思ったんだけどbutteraugliのビルド方法がよく分からなくて断念したよ。
Googleがバイナリを配布してくれればいいんだけどね。
というかほぼGoogleしか使ってない指標でGoogleのエンコーダを評価されても性能が良く分からないよなと思う。
578名無しさん@お腹いっぱい。 (スプッッ Sd7d-qERx)
2017/01/14(土) 18:56:54.13ID:0SNYGzDGd579名無しさん@お腹いっぱい。 (ワッチョイWW 0932-744s)
2017/01/15(日) 09:56:09.63ID:0bystr9E0 waifu2xの後追いして遊んでるんだけど
作者氏、GAN使うの嫌がってるんだよね
とりあえずGAN、ResNet、PixelSuffle
実装してみたけど見た目SRCNN臭さは
だいぶとれるけどたくさん評価
してないので微妙
俺の本丸は計算量削減なんだけど
理論上計算量3割のはずなのに
3割しか早くならない
chainer、推論遅くないか
作者氏、GAN使うの嫌がってるんだよね
とりあえずGAN、ResNet、PixelSuffle
実装してみたけど見た目SRCNN臭さは
だいぶとれるけどたくさん評価
してないので微妙
俺の本丸は計算量削減なんだけど
理論上計算量3割のはずなのに
3割しか早くならない
chainer、推論遅くないか
580名無しさん@お腹いっぱい。 (ワッチョイWW b37c-j87h)
2017/01/15(日) 12:05:43.60ID:lB/+H+EU0 サンプル画像すら出さないで何を言わんや…
581名無しさん@お腹いっぱい。 (オッペケ Srdd-744s)
2017/01/15(日) 12:31:47.79ID:KsNDNARPr 評価中なので待ってください
一回回すのに10時間かかるので
何日かかかります
一回回すのに10時間かかるので
何日かかかります
582名無しさん@お腹いっぱい。 (ワッチョイ 6bcc-dHfL)
2017/01/15(日) 13:36:32.29ID:Ux9tIyw00 スクール水着の凹凸を判断してテカテカのラバーコーティングの水着にできる?
583名無しさん@お腹いっぱい。 (ワッチョイW 9b89-kkJw)
2017/01/15(日) 13:52:26.00ID:HieKzZb90 いいなそれ
584名無しさん@お腹いっぱい。 (ワッチョイ e1d2-suvD)
2017/01/15(日) 15:35:17.21ID:6WNzG8+M0 >>579
GANはPSNRをあまり下げずに使えるならいいですが
(ロス関数の重みの調節で出来ると思いますがトレードオフがあるのでGAN使う意味がなくなってきそう)
PSNRがBicubic以下になると
変換結果に不安があるため現在BicubcやLanczosが使われる領域での置き換えには使えないと思って避けています。
もちろんいくつかモデル作って選択できるようにすればいいだけですが
面倒なのでやっていない状態です。ResNetはdevブランチには入ってます。
GANはPSNRをあまり下げずに使えるならいいですが
(ロス関数の重みの調節で出来ると思いますがトレードオフがあるのでGAN使う意味がなくなってきそう)
PSNRがBicubic以下になると
変換結果に不安があるため現在BicubcやLanczosが使われる領域での置き換えには使えないと思って避けています。
もちろんいくつかモデル作って選択できるようにすればいいだけですが
面倒なのでやっていない状態です。ResNetはdevブランチには入ってます。
585名無しさん@お腹いっぱい。 (ワッチョイWW 4bc5-744s)
2017/01/15(日) 15:46:09.89ID:7I2qaVWZ0 >584
GANについては混合比率下げると
全くなしと見分けがつかないので
PSNRは必ず犠牲になる印象です
3dB近く悪くなるので受容できないで
しょうね
GANは学習すごく遅くなるので
つらいです
GANは学習回数多くしないとだめ
なのでもしかしたら今足りてない
可能性があるので後でしつこく
やってみます
作者さんも自分で実験するのが
めんどいと思うので結果はアップして
共有します
GANについては混合比率下げると
全くなしと見分けがつかないので
PSNRは必ず犠牲になる印象です
3dB近く悪くなるので受容できないで
しょうね
GANは学習すごく遅くなるので
つらいです
GANは学習回数多くしないとだめ
なのでもしかしたら今足りてない
可能性があるので後でしつこく
やってみます
作者さんも自分で実験するのが
めんどいと思うので結果はアップして
共有します
586名無しさん@お腹いっぱい。 (ワッチョイ e1d2-suvD)
2017/01/15(日) 15:59:53.33ID:6WNzG8+M0 butteraugli というので本当に見た目の印象が定量評価できるならそれもあり思いますね。
僕が見た目の評価嫌う理由は、たいして見る目がない人がリンギングでまってくる画像を
くっきりしているからよいとか判定してしまうところにあるので。
僕が見た目の評価嫌う理由は、たいして見る目がない人がリンギングでまってくる画像を
くっきりしているからよいとか判定してしまうところにあるので。
587名無しさん@お腹いっぱい。 (ワッチョイWW 4bc5-744s)
2017/01/15(日) 18:17:37.15ID:7I2qaVWZ0 butteraugjiはためしてみたけど
値が小さい方がいいっぽいね
画像ができたら数字比較してみるわ
値が小さい方がいいっぽいね
画像ができたら数字比較してみるわ
588名無しさん@お腹いっぱい。 (ワッチョイWW 4bc5-744s)
2017/01/15(日) 19:31:48.53ID:7I2qaVWZ0 butteraugliでエポックごとの
評価みたけど学習打ち切った時点で
まだあがってた
評価がサチるまで回しますが、
たぶんすごい時間かかります
二乗誤差じゃわからん
評価みたけど学習打ち切った時点で
まだあがってた
評価がサチるまで回しますが、
たぶんすごい時間かかります
二乗誤差じゃわからん
589名無しさん@お腹いっぱい。 (ワッチョイ e1d2-suvD)
2017/01/15(日) 20:38:29.02ID:6WNzG8+M0 SRGANはやろうとした人を何人も見ましたが
みんなうまくいっていないので
写真のモデルでcheckboard artifactを出さずに
論文の結果と似たような画像を生成できればそれだけで価値があると思いますよ
みんなうまくいっていないので
写真のモデルでcheckboard artifactを出さずに
論文の結果と似たような画像を生成できればそれだけで価値があると思いますよ
590名無しさん@お腹いっぱい。 (ワッチョイ 0932-vSov)
2017/01/15(日) 21:26:01.39ID:0bystr9E0 SRGANはチャレンジですね。がんばってみます。
うまくいったら挑戦します。
butteraugli初耳だったんですが、スレ観たらビルドの仕方が
わからない人がいる模様。Linuxの開発したことのある人少ないんですかね。
Windows10のコマンドプロンプト開いて以下のコマンドで実行、
$ bash
コンパイラとライブラリインストール(zlibはpngと一緒に入る)、
$ sudo apt-get install gcc g++ make libjpeg-dev libpng-de
ソースコードのMakefileのあるディレクトリで
$ make
で実行ファイル作られます。bash上か他のLinuxマシンのみで動きます。
プログラマじゃない人も色々遊んでみてください。
うまくいったら挑戦します。
butteraugli初耳だったんですが、スレ観たらビルドの仕方が
わからない人がいる模様。Linuxの開発したことのある人少ないんですかね。
Windows10のコマンドプロンプト開いて以下のコマンドで実行、
$ bash
コンパイラとライブラリインストール(zlibはpngと一緒に入る)、
$ sudo apt-get install gcc g++ make libjpeg-dev libpng-de
ソースコードのMakefileのあるディレクトリで
$ make
で実行ファイル作られます。bash上か他のLinuxマシンのみで動きます。
プログラマじゃない人も色々遊んでみてください。
591名無しさん@お腹いっぱい。 (ワッチョイ 0932-vSov)
2017/01/15(日) 21:27:08.93ID:0bystr9E0 $ sudo apt-get install gcc g++ make libjpeg-dev libpng-dev
です。すんません。
です。すんません。
592名無しさん@お腹いっぱい。 (ワッチョイWW b37c-j87h)
2017/01/15(日) 21:29:00.78ID:lB/+H+EU0 waifu2x、再び!!
Stay tune!
Stay tune!
594名無しさん@お腹いっぱい。 (ワッチョイ ebb5-ir0y)
2017/01/18(水) 15:23:24.52ID:bain95gP0 Google、機械学習で低解像度画像をシャープに見せる「RAISR」をサービスで実用化
http://www.itmedia.co.jp/news/articles/1701/17/news067.html
http://www.itmedia.co.jp/news/articles/1701/17/news067.html
595名無しさん@お腹いっぱい。 (ワッチョイ 6b23-dHfL)
2017/01/18(水) 15:27:07.14ID:n4UMTi1p0596名無しさん@お腹いっぱい。 (ワッチョイ e1d2-suvD)
2017/01/18(水) 15:39:56.54ID:xnw/jmuH0 やりたいことはYoutubeがすでやっている動画の再エンコと一緒じゃないかな
画質を改善するというより、苦情の少ない範囲で圧縮したいなので
運営としては通信量が減って嬉しいけどユーザーとしては以前よりも画質が悪くなるので
携帯事業者がやっていた「通信の最適化」と同じ考えだと思う
画質を改善するというより、苦情の少ない範囲で圧縮したいなので
運営としては通信量が減って嬉しいけどユーザーとしては以前よりも画質が悪くなるので
携帯事業者がやっていた「通信の最適化」と同じ考えだと思う
597名無しさん@お腹いっぱい。 (ワッチョイW 535b-Wsqm)
2017/01/18(水) 20:37:05.06ID:eyJLRRBJ0 でもそれで同じ容量で解像度が例えば1.5倍になれば話が変わる
色空間やインターレースしかり悪いばかりのトレードオフでは無いと思う
色空間やインターレースしかり悪いばかりのトレードオフでは無いと思う
598名無しさん@お腹いっぱい。 (ワッチョイ a399-8m7v)
2017/01/23(月) 19:31:01.14ID:B0/L9i7j0 waifu2x-cafeeをXeonとQuadro両方積んだPCで実行するときってどっちのほうが効率的なんだ?
ちなみにXeonは12コア3.30GHz、Quadroは2000。
ちなみにXeonは12コア3.30GHz、Quadroは2000。
599名無しさん@お腹いっぱい。 (ワッチョイW cf63-gIHQ)
2017/01/24(火) 00:16:40.73ID:RYhQuic60 >>598
Quadroの方が速いんじゃないですかねぇ?
↓の画像でXeon 16Core 3.6GHzで2分40秒ぐらい
CPU使用率は20%ほど XPx64環境で無理矢理実行したからちょっとアテにならないかもしれないけど
http://www.dotup.org/uploda/www.dotup.org1133523.jpg 変換元画像
http://www.dotup.org/uploda/www.dotup.org1133524.png 設定
Quadroの方が速いんじゃないですかねぇ?
↓の画像でXeon 16Core 3.6GHzで2分40秒ぐらい
CPU使用率は20%ほど XPx64環境で無理矢理実行したからちょっとアテにならないかもしれないけど
http://www.dotup.org/uploda/www.dotup.org1133523.jpg 変換元画像
http://www.dotup.org/uploda/www.dotup.org1133524.png 設定
600名無しさん@お腹いっぱい。 (ワッチョイW 7f1e-Zbvk)
2017/01/24(火) 08:27:54.07ID:2IuxhXxQ0 >>599
ハイエンドなマシンで動かしてらっしゃるようなので
NeuronDoubler v5.00だとどれぐらいかかるか検証して頂いてもいいですか?
http://loggialogic.blogspot.jp/2015/09/neurondoubler-v500.html?m=1
ハイエンドなマシンで動かしてらっしゃるようなので
NeuronDoubler v5.00だとどれぐらいかかるか検証して頂いてもいいですか?
http://loggialogic.blogspot.jp/2015/09/neurondoubler-v500.html?m=1
601599 (ワッチョイW cf63-gIHQ)
2017/01/24(火) 23:23:52.69ID:RYhQuic60 >>600
sampleのlogo.pngを2倍で16s、4倍で66s
sampleのphoto.pngを2倍で44s、4倍で200s
といった感じです
32倍をlogo.pngでやってみたら1876sとかかかったので、photo.pngの方は試してないですw
sampleのlogo.pngを2倍で16s、4倍で66s
sampleのphoto.pngを2倍で44s、4倍で200s
といった感じです
32倍をlogo.pngでやってみたら1876sとかかかったので、photo.pngの方は試してないですw
602名無しさん@お腹いっぱい。 (ワッチョイ 7f1e-a3Th)
2017/01/25(水) 09:31:13.38ID:7PUj0Uuc0 >>601
ありがとうございます
手持ちのMacbook Pro late 2012では
960×540のpng(写真)を変換したところ1600s
ぐらいでした
16コアもあると動画用にNeuronDoublerを使えそうで羨ましいです
ありがとうございます
手持ちのMacbook Pro late 2012では
960×540のpng(写真)を変換したところ1600s
ぐらいでした
16コアもあると動画用にNeuronDoublerを使えそうで羨ましいです
603名無しさん@お腹いっぱい。 (ワッチョイWW 3332-z0uo)
2017/01/25(水) 21:02:31.59ID:idIVVLyq0 waifu2x研究家なんですけど
GANのPSNR問題解消しそうなので
週末画像出します
waifu2xと同じupモデルをこっちで
再現したものとの比較しますが
時間がかかるのでそれ以外との
比較は難しいです
何個かネタがあってそのマイルストーンです
3月に資料作るのでそのとき
リンク張ります
GANのPSNR問題解消しそうなので
週末画像出します
waifu2xと同じupモデルをこっちで
再現したものとの比較しますが
時間がかかるのでそれ以外との
比較は難しいです
何個かネタがあってそのマイルストーンです
3月に資料作るのでそのとき
リンク張ります
604名無しさん@お腹いっぱい。 (ワッチョイ 4fd2-C7aL)
2017/01/26(木) 00:25:26.80ID:AnODLToW0 単純にはMSEとGANの出力を適当な割合で合成すればいいように思うけど
重くなるので学習の枠内でやれればいいですね
あとneural-enhanceの人も最近waifu2x的なやつをやろうとしているみたいです
https://twitter.com/madebyollin/status/823652970440986624
これは別の人の結果だけど、たしかに線はくっきりしているけど余計なことをしすぎているように見える
重くなるので学習の枠内でやれればいいですね
あとneural-enhanceの人も最近waifu2x的なやつをやろうとしているみたいです
https://twitter.com/madebyollin/status/823652970440986624
これは別の人の結果だけど、たしかに線はくっきりしているけど余計なことをしすぎているように見える
605名無しさん@お腹いっぱい。 (ワッチョイ 2b32-xu7M)
2017/01/26(木) 06:13:14.86ID:9CM3n4Bd0 >604
適当な割合で合成すればいいんですけどふたつ問題があって
1. 適切な混合比率がタスクによって違う
2. 結果が不安定でうまくいってるエポックとそうでないエポックのばらつきが大きい
なので、前者については二乗誤差に対して何%GANを反映するのかって
コントロールを入れています。
GANが余計なことをするのは誤差のGANの項が正解データとの比較を
しないからじゃないかってことで正解データと比較するGANをは
考えてみました。
GANなしに比べてSSIM、PSNRは同等、butteraugliはかなり良くなってます。
正解データと比較する時点でGANの解釈がかなり変わるんですが
(評価中なので正確な値は週末出します)
適当な割合で合成すればいいんですけどふたつ問題があって
1. 適切な混合比率がタスクによって違う
2. 結果が不安定でうまくいってるエポックとそうでないエポックのばらつきが大きい
なので、前者については二乗誤差に対して何%GANを反映するのかって
コントロールを入れています。
GANが余計なことをするのは誤差のGANの項が正解データとの比較を
しないからじゃないかってことで正解データと比較するGANをは
考えてみました。
GANなしに比べてSSIM、PSNRは同等、butteraugliはかなり良くなってます。
正解データと比較する時点でGANの解釈がかなり変わるんですが
(評価中なので正確な値は週末出します)
606名無しさん@お腹いっぱい。 (ワッチョイ 2b32-xu7M)
2017/01/26(木) 06:33:06.18ID:9CM3n4Bd0 わかる人がまわりにいないので、ここに書いてあれなんですけど、
従来のGAN)
Discriminatorで本物らしさを判定して誤差に反映
自分の手法)
本物らしさを学習したDiscriminatorの中間層の出力を
本物と生成データで比較、となります。
Discriminatorの中間層は通常の二乗誤差で比較するのと比べて
大幅に大きい情報量で比較するのと、Discriminator自体が
誤差関数になるので普通の二乗誤差と比べると複雑、高度な比較になります。
Twitterが出してる論文は物体認識を学習させたモデルで中間層の出力で
比較しろ、と書いてあって、これがコンテンツロスなんですが、
コンテンツロスの適用部分はGANに対してやった方がいいのでは
というのが自分の意見です。
従来のGAN)
Discriminatorで本物らしさを判定して誤差に反映
自分の手法)
本物らしさを学習したDiscriminatorの中間層の出力を
本物と生成データで比較、となります。
Discriminatorの中間層は通常の二乗誤差で比較するのと比べて
大幅に大きい情報量で比較するのと、Discriminator自体が
誤差関数になるので普通の二乗誤差と比べると複雑、高度な比較になります。
Twitterが出してる論文は物体認識を学習させたモデルで中間層の出力で
比較しろ、と書いてあって、これがコンテンツロスなんですが、
コンテンツロスの適用部分はGANに対してやった方がいいのでは
というのが自分の意見です。
607名無しさん@お腹いっぱい。 (ワッチョイW f7cf-bF0B)
2017/01/26(木) 08:44:57.33ID:BNYEQ6nK0 こういうやつに税金投入するべき
608名無しさん@お腹いっぱい。 (ワッチョイ 4fd2-C7aL)
2017/01/26(木) 13:58:06.91ID:AnODLToW0 イラストの超解像でperceptual lossにImageNetの学習済みモデルを使うのがよくないのは明らかなので
Discriminatorが使えるならそれは同じ解像度のイラストで学習しているわけだからよさそうですね
ただDiscriminatorは学習中に動くので不安定そうですが
GAN自体がそういうものなので動く感じでしょうか
Discriminatorが使えるならそれは同じ解像度のイラストで学習しているわけだからよさそうですね
ただDiscriminatorは学習中に動くので不安定そうですが
GAN自体がそういうものなので動く感じでしょうか
609名無しさん@お腹いっぱい。 (JP 0H73-xu7M)
2017/01/26(木) 14:51:03.26ID:owYC7mKIH どうも、wiafu2x研究家の人です。
Twitter社の論文読んだとき、コンテンツロスがめちゃくちゃ
めんどくさいので俺はあきらめました(コンテンツロスのために
物体認識のタスクもやらないといけなくなるので大いに藪蛇)。
SRGANがみんなうまくいかない原因はsoftmax、softplusを
そのまま誤差にするから結果が不安定で調整が難しい、
のが大きなところかと思います。
そもそものDCGAN自体も論文の趣旨がうまく生成できる
パラメータが見つかりましたって部分ですからね。
ちなみに自分はSRCNNは勉強会の発表ネタなので、8月に
一か月実験したのと3月の発表があるのでそれで今だけ
やってるだけなので、先行技術のサーベイが非常に
あやしい(何も知らない)のでご教授いただけると幸いです。
今のところもう一個ネタがあって、画像ごとに重要度マップを
作って誤差に重み付けする方法を考えています。
多分来月前半には実験してると思います。
Twitter社の論文読んだとき、コンテンツロスがめちゃくちゃ
めんどくさいので俺はあきらめました(コンテンツロスのために
物体認識のタスクもやらないといけなくなるので大いに藪蛇)。
SRGANがみんなうまくいかない原因はsoftmax、softplusを
そのまま誤差にするから結果が不安定で調整が難しい、
のが大きなところかと思います。
そもそものDCGAN自体も論文の趣旨がうまく生成できる
パラメータが見つかりましたって部分ですからね。
ちなみに自分はSRCNNは勉強会の発表ネタなので、8月に
一か月実験したのと3月の発表があるのでそれで今だけ
やってるだけなので、先行技術のサーベイが非常に
あやしい(何も知らない)のでご教授いただけると幸いです。
今のところもう一個ネタがあって、画像ごとに重要度マップを
作って誤差に重み付けする方法を考えています。
多分来月前半には実験してると思います。
610名無しさん@お腹いっぱい。 (ワッチョイ 4fd2-C7aL)
2017/01/26(木) 16:22:50.49ID:AnODLToW0 物体認識の学習済みモデルは配布されているので自前で学習する必要はないです(再現させる場合)。
generatorの出力とgroundtruthそれぞれをそのネットワークに入力して
適当な層(convの2,3層目)の出力が同じになるようにMSEを最小化するのがperceptual loss(コンテンツロス)で
それとdiscriminatorを使ったadversarial lossで
loss = perceptual_loss * perceptual_loss_weight + adversarial_loss * adversarial_loss_weight
を最小化するように拡大前の画像を入力とするgeneratorを学習するのがSRGANという認識です。
なので違いはコンテンツロスに使うモデルを変えているところだと思いました。
自分もGANはやったことがないので違ってるかもしれません。
generatorの出力とgroundtruthそれぞれをそのネットワークに入力して
適当な層(convの2,3層目)の出力が同じになるようにMSEを最小化するのがperceptual loss(コンテンツロス)で
それとdiscriminatorを使ったadversarial lossで
loss = perceptual_loss * perceptual_loss_weight + adversarial_loss * adversarial_loss_weight
を最小化するように拡大前の画像を入力とするgeneratorを学習するのがSRGANという認識です。
なので違いはコンテンツロスに使うモデルを変えているところだと思いました。
自分もGANはやったことがないので違ってるかもしれません。
611名無しさん@お腹いっぱい。 (オッペケ Srbf-ITqy)
2017/01/26(木) 16:48:26.18ID:j7MEo8mlr 説明ありがとうございます
認識合わせできました
自分の場合は再現に興味がなく、
それは単に遊んでいるだけなので
学術的なアプローチはどうでもいいから何ですが
なのでさっさと自分の手法に取り込みたかったんですが
イラストに関しては分類器新たに
学習しないといけなさそうなので
めんどくさいなあと思ったんです
それとは完全に独立してganが
課題があったのでそれを考えてたら
最終的に元論文のやり方を捻る
方法になりました
認識合わせできました
自分の場合は再現に興味がなく、
それは単に遊んでいるだけなので
学術的なアプローチはどうでもいいから何ですが
なのでさっさと自分の手法に取り込みたかったんですが
イラストに関しては分類器新たに
学習しないといけなさそうなので
めんどくさいなあと思ったんです
それとは完全に独立してganが
課題があったのでそれを考えてたら
最終的に元論文のやり方を捻る
方法になりました
612名無しさん@お腹いっぱい。 (オッペケ Srbf-ITqy)
2017/01/26(木) 17:17:12.53ID:j7MEo8mlr ganのloss_weightがセンシティブで
小さいと効かないし、大きいと
学習が発散するし、ギリギリねらうと
エポックごとに結果違うし、
学習データ変えると定数変わるしってのが
現状のsrganだと思います
学習が重いのでいじっていると
疲れてくるので自分は安定した方法を
求めてます
自分の提案手法は安定してます
効果の評価ができてなくて
4倍拡大とかどうなるかわかりません
2倍だと良いんじゃないかなあと思います
後でスレの人に厳しいデータ教えてもらおうと思います
小さいと効かないし、大きいと
学習が発散するし、ギリギリねらうと
エポックごとに結果違うし、
学習データ変えると定数変わるしってのが
現状のsrganだと思います
学習が重いのでいじっていると
疲れてくるので自分は安定した方法を
求めてます
自分の提案手法は安定してます
効果の評価ができてなくて
4倍拡大とかどうなるかわかりません
2倍だと良いんじゃないかなあと思います
後でスレの人に厳しいデータ教えてもらおうと思います
613名無しさん@お腹いっぱい。 (ファミマWW FFd2-fIWv)
2017/01/26(木) 19:03:54.54ID:tDU6wUAkF 詳しいことはよくわからないけど、ガンガレ。超ガンガレ。
どうせならちょっと前のmadVRの新しい拡大の三つ巴でもいいんだぜ…
どうせならちょっと前のmadVRの新しい拡大の三つ巴でもいいんだぜ…
614名無しさん@お腹いっぱい。 (オッペケ Srbf-ITqy)
2017/01/28(土) 11:47:38.55ID:edepqLn8r waifu2xの研究してる人なんだけど
すまん、アルゴリズムは固まってて
学習させるだけなんだけど
画像出すの来週になる...
すまん、アルゴリズムは固まってて
学習させるだけなんだけど
画像出すの来週になる...
615名無しさん@お腹いっぱい。 (ワッチョイ 86ec-AZYz)
2017/01/28(土) 14:42:13.13ID:BYBTK1en0 chainerで線画着色をwebサービスにして公開してみた
http://qiita.com/taizan/items/7119e16064cc11500f32
http://qiita.com/taizan/items/7119e16064cc11500f32
616名無しさん@お腹いっぱい。 (ワッチョイ 86ec-AZYz)
2017/01/28(土) 15:02:18.06ID:BYBTK1en0 >>614
楽しみにしてますがゆっくりやってくだちい
楽しみにしてますがゆっくりやってくだちい
617名無しさん@お腹いっぱい。 (ワッチョイ a36a-AZYz)
2017/01/28(土) 15:17:47.96ID:jlInyXUj0618名無しさん@お腹いっぱい。 (ワッチョイ a239-WSvd)
2017/01/28(土) 15:35:09.06ID:iZRmUjsJ0619名無しさん@お腹いっぱい。 (ワッチョイ 4725-AZYz)
2017/01/30(月) 14:56:45.57ID:pPztTfPj0 あいかわらず
塗りつぶしになっちゃうよ
進歩がないなあ
AIダメっぽい
塗りつぶしになっちゃうよ
進歩がないなあ
AIダメっぽい
620名無しさん@お腹いっぱい。 (ワッチョイ a36a-zMqm)
2017/01/30(月) 18:04:46.45ID:qudbf77R0 今更ながら>>615-616に気付いた
自演すんなよw
自演すんなよw
621名無しさん@お腹いっぱい。 (ワッチョイ b70f-hijU)
2017/01/30(月) 18:20:11.64ID:AIhudIHS0 >>620
アンカちゃんと読もうなー
アンカちゃんと読もうなー
622名無しさん@お腹いっぱい。 (ワッチョイWW 4785-1CvP)
2017/01/31(火) 03:28:18.08ID:Mk/X4pNp0623名無しさん@お腹いっぱい。 (ワッチョイWW db49-u9qX)
2017/02/01(水) 00:48:53.09ID:47em4zG90624名無しさん@お腹いっぱい。 (ワッチョイ c664-FuHd)
2017/02/01(水) 18:15:33.93ID:r8gMgX8Z0625名無しさん@お腹いっぱい。 (アタマイタイーW 7a39-cbEw)
2017/02/02(木) 17:45:47.99ID:HLUwrrpx00202 waifu2xcaffeで600dpiの画像を2倍に変換したら
96dpiになったのですが、これは仕様ですか?
てっきり倍にしたのだから300dpiになるのかと思っていました。
96dpiになったのですが、これは仕様ですか?
てっきり倍にしたのだから300dpiになるのかと思っていました。
626名無しさん@お腹いっぱい。 (アタマイタイー 3132-0MWP)
2017/02/02(木) 18:37:57.12ID:TB2MRryB00202 >>625
1920x1080で600dpi(=3.2インチ*1.8インチ)の画像を2倍に変換したら、
3840x2160で1200dpi(=3.2インチ*1.8インチ)か、600dpi(=6.4インチ*3.6インチ)じゃないか?
1920x1080で600dpi(=3.2インチ*1.8インチ)の画像を2倍に変換したら、
3840x2160で1200dpi(=3.2インチ*1.8インチ)か、600dpi(=6.4インチ*3.6インチ)じゃないか?
627名無しさん@お腹いっぱい。 (アタマイタイー 56d2-2lTc)
2017/02/02(木) 18:58:49.86ID:J3/O+Al000202 >>625
dpiは入出力デバイスの設定なのでwaifu2xの処理はそこに関与しません。
画像のメタデータに特に気を使っていないので印刷サイズには既定値が入っているのだと思います。
印刷や入稿等で必要なら別の方法で再設定出来ると思います。
dpiは入出力デバイスの設定なのでwaifu2xの処理はそこに関与しません。
画像のメタデータに特に気を使っていないので印刷サイズには既定値が入っているのだと思います。
印刷や入稿等で必要なら別の方法で再設定出来ると思います。
628名無しさん@お腹いっぱい。 (ワッチョイ 7a39-BdZd)
2017/02/03(金) 10:31:32.28ID:GXC4yUrd0629名無しさん@お腹いっぱい。 (ササクッテロレ Sp45-xDny)
2017/02/03(金) 10:35:55.98ID:2kWw6qu3p ソフトの名前の由来はなに?
630名無しさん@お腹いっぱい。 (ワッチョイ 15d2-NqFz)
2017/02/03(金) 11:03:16.69ID:x+9qdMRg0 waifuを2倍に拡大するからだろ
waifuはぐぐれ
waifuはぐぐれ
631名無しさん@お腹いっぱい。 (ワッチョイ 6115-0MWP)
2017/02/03(金) 12:46:58.29ID:tUa22Nfc0 ワイフ
↓
妻
↓
嫁
↓
妻
↓
嫁
632名無しさん@お腹いっぱい。 (ワッチョイ 15a1-yene)
2017/02/03(金) 13:50:44.75ID:Djehhjag0 わざわざ5行で書く無能
633名無しさん@お腹いっぱい。 (ワッチョイ 8164-P2Y1)
2017/02/03(金) 15:14:16.11ID:2ljm3Fbi0 2次特の時点で由来とか聞かなくてもわかるくらいには直接的
634名無しさん@お腹いっぱい。 (ワッチョイW 65cf-51wG)
2017/02/03(金) 15:22:25.83ID:/MDCuEKc0 じぇいぺぐルネッサンス
635名無しさん@お腹いっぱい。 (ワイモマー MM1a-1ST5)
2017/02/05(日) 23:27:16.44ID:LHzxPccgM madVRにおけるNGU pixart特化版のテスト中みたい
NGU無印やwaifu2xと比較するとやや眠くなるものの、例のジャギー問題もこっちなら出なさそう
旧来のNNEDIを正統進化させたような画になってて、処理負荷は低い
Original ttp://madvr.com/mario/org.png
waifu2x ttp://madvr.com/mario/waifu2x.png
NGU VH ttp://madvr.com/mario/NGUveryHigh.png
NGUpixart VH ttp://madvr.com/mario/NGUpixartVeryHigh.png
NNEDI256 ttp://madvr.com/mario/nnedi256.png
NGU無印やwaifu2xと比較するとやや眠くなるものの、例のジャギー問題もこっちなら出なさそう
旧来のNNEDIを正統進化させたような画になってて、処理負荷は低い
Original ttp://madvr.com/mario/org.png
waifu2x ttp://madvr.com/mario/waifu2x.png
NGU VH ttp://madvr.com/mario/NGUveryHigh.png
NGUpixart VH ttp://madvr.com/mario/NGUpixartVeryHigh.png
NNEDI256 ttp://madvr.com/mario/nnedi256.png
636名無しさん@お腹いっぱい。 (スップ Sdfa-e4OR)
2017/02/06(月) 14:09:54.91ID:RhMnf4vZd waifu2xはwebサービスじゃなくて
windows版はないのだろうか?
windows版はないのだろうか?
637名無しさん@お腹いっぱい。 (ワッチョイ 56d2-2lTc)
2017/02/06(月) 14:13:31.31ID:ogCj2q/30 pixel artの拡大はゲーム機のエミュレータで実装されているような処理のほうが納得できる拡大になると思う
2xSaIとか
http://johanneskopf.de/publications/pixelart/
とか
2xSaIとか
http://johanneskopf.de/publications/pixelart/
とか
638名無しさん@お腹いっぱい。 (ワッチョイ 56d2-2lTc)
2017/02/06(月) 14:13:58.10ID:ogCj2q/30 >>636
waifu2x-caffe
waifu2x-caffe
639名無しさん@お腹いっぱい。 (ワッチョイ 6115-0MWP)
2017/02/06(月) 14:49:05.64ID:yDHhyamZ0 >>637
ピクセルシェーダー機能ある動画再生ソフトについてるんじゃね。
ピクセルシェーダー機能ある動画再生ソフトについてるんじゃね。
640名無しさん@お腹いっぱい。 (ワッチョイ 96e9-0MWP)
2017/02/08(水) 12:04:15.02ID:0rk9u2E+0 8×8ピクセルに縮小した画像から元の画像を予想する技術をGoogle Brainが開発
http://gigazine.net/news/20170208-pixel-recursive-super-resolution/
http://i.gzn.jp/img/2017/02/08/pixel-recursive-super-resolution/a03.jpg
http://gigazine.net/news/20170208-pixel-recursive-super-resolution/
http://i.gzn.jp/img/2017/02/08/pixel-recursive-super-resolution/a03.jpg
641名無しさん@お腹いっぱい。 (ワッチョイ 6144-0MWP)
2017/02/08(水) 16:11:31.49ID:8Gpp+YrU0 >>637
それはffdshowにあるね。
それはffdshowにあるね。
642名無しさん@お腹いっぱい。 (ワッチョイ 65cf-0MWP)
2017/02/08(水) 17:11:42.74ID:C6utgMTP0643名無しさん@お腹いっぱい。 (ワッチョイ 65cf-0MWP)
2017/02/08(水) 17:13:49.90ID:C6utgMTP0 と書き込んだ後でバンディングが問題なことに気がついた失礼
644名無しさん@お腹いっぱい。 (ワッチョイ 263b-P6gz)
2017/02/10(金) 19:41:32.41ID:jEc7Edve0 9日に緊急のWindows UpdateとやらでGeforceのドライバが更新されて
Waifu2x-caffeを使うと「CUDAドライバーがインストールされていない〜」状態になった
一応、システムの復元で元に戻したけど....作者さん助けて(もう見てないかねぇ)
Windows10は勝手にアプデかかるから困った
Waifu2x-caffeを使うと「CUDAドライバーがインストールされていない〜」状態になった
一応、システムの復元で元に戻したけど....作者さん助けて(もう見てないかねぇ)
Windows10は勝手にアプデかかるから困った
645名無しさん@お腹いっぱい。 (ワッチョイ 26fb-cGUq)
2017/02/10(金) 19:56:17.86ID:M6Wjsk9Z0 Geforceのドライバだけ古いのインストールしたら良いんじゃね
646名無しさん@お腹いっぱい。 (ワッチョイW 7a83-S0So)
2017/02/10(金) 20:37:24.67ID:xx2cZ+iv0 古いVerは置いとかないとね
俺も勝手にアップデートされた
俺も勝手にアップデートされた
647名無しさん@お腹いっぱい。 (ワッチョイ def6-cGUq)
2017/02/10(金) 22:04:57.99ID:5UGLSm6g0 >>644
Windows Update経由のGeForceドライバ更新はいい話聞かないからどうにかして止めるなりNVIDIA公式から拾ってくるなりしたほうがいいかも
こちらはGTX680にドライバ378.49で何事もなく動いてます
Windows Update経由のGeForceドライバ更新はいい話聞かないからどうにかして止めるなりNVIDIA公式から拾ってくるなりしたほうがいいかも
こちらはGTX680にドライバ378.49で何事もなく動いてます
648名無しさん@お腹いっぱい。 (ワッチョイ e932-oA82)
2017/02/11(土) 20:31:30.21ID:Kr/JTqjP0 どうも、wiafu2x研究家の人です。
すごい時間かかりましたが最初の結果が出ました。
|PSNR|SSIM|butteraugli|
waifu2x|27.629|0.928|9.622|
GANなし|27.612|0.927|9.049|
GANあり|27.474|0.926|8.968|
すごい時間かかりましたが最初の結果が出ました。
|PSNR|SSIM|butteraugli|
waifu2x|27.629|0.928|9.622|
GANなし|27.612|0.927|9.049|
GANあり|27.474|0.926|8.968|
649名無しさん@お腹いっぱい。 (ワッチョイ e932-oA82)
2017/02/11(土) 20:36:55.90ID:Kr/JTqjP0 butteraugliの値は低い方がいいはず
なので俺の手法の方が良い
俺の手法は主に計算量をwaifu2x/UPモデルより計算量を1/4にしていますが8層です。
実質的に層の数が多いのが効いてる可能性もありますが不明です。
すみませんがこちらの都合でアルゴリズムは非公開です。
ここで話が出ていた俺手法のGANについては今再試験中です。
なので俺の手法の方が良い
俺の手法は主に計算量をwaifu2x/UPモデルより計算量を1/4にしていますが8層です。
実質的に層の数が多いのが効いてる可能性もありますが不明です。
すみませんがこちらの都合でアルゴリズムは非公開です。
ここで話が出ていた俺手法のGANについては今再試験中です。
650名無しさん@お腹いっぱい。 (ワッチョイW 7d6e-k0wy)
2017/02/11(土) 23:13:48.93ID:ntjYRpkn0 WUでVGAのドライバ更新する人なんておるんか・・・
651名無しさん@お腹いっぱい。 (ワッチョイ 26d6-CIv3)
2017/02/11(土) 23:21:38.80ID:bBXphDts0 勝手にされるから困ってるっていう話じゃないのかな?
652名無しさん@お腹いっぱい。 (ワッチョイ e932-3CwI)
2017/02/12(日) 11:08:12.78ID:ra0YTrEG0 どうも、wiafu2x研究家の人です。
評価結果以下に置いてあります。
2000エポック学習させた最終100エポックの画像も付けているのでデータでかいです。
評価できる人がいたらみてやってください。
https://remoteplace-my.sharepoint.com/personal/t-matsu_office_remoteplace_net/_layouts/15/guestaccess.aspx?docid=0eb33501796144cb0abeadc2dd87b74d3&authkey=AbBvhLq0ewcbScMYwVYIx4c&expiration=2017-03-14T02:04:18.000Z
評価結果以下に置いてあります。
2000エポック学習させた最終100エポックの画像も付けているのでデータでかいです。
評価できる人がいたらみてやってください。
https://remoteplace-my.sharepoint.com/personal/t-matsu_office_remoteplace_net/_layouts/15/guestaccess.aspx?docid=0eb33501796144cb0abeadc2dd87b74d3&authkey=AbBvhLq0ewcbScMYwVYIx4c&expiration=2017-03-14T02:04:18.000Z
653名無しさん@お腹いっぱい。 (ワッチョイ ea39-P6gz)
2017/02/12(日) 18:06:51.45ID:8CCipcq70 web版のwaifu2x、ICCプロファイル対応したっぽい?
654名無しさん@お腹いっぱい。 (ワッチョイ e6d2-0UxM)
2017/02/12(日) 18:47:05.95ID:T/zbW8Mv0 >>648
その値は画像数百枚の平均ですか、1枚だけですか。
waifu2xと書いてあるものはネットワークの定義だけ持ってきて独自に学習したものですか。(そうだと予測)
元画像を探してきてLanczosで1/2にしたあとにwaifu2x配布モデルで拡大すると明らかに結果が違います。
http://ccsaku.moe.hm/gyazo/data/18eac1728b714cfe64b7843ae5a91499.png
左が評価に使用されている超解像/waifu2xモデル/model_u01999.pkl.pngで、右がwaifu2xの配布モデルの拡大結果です。
左はかなりぼやけていて
PSNRも 超解像/waifu2xモデル: 27.717, waifu2x配布モデル: 31.771
と4dBも差があります。ちなみにLanczosが26.449です。
waifu2xと書く場合はこちらの配布モデルと比較して欲しいです。
学習データは、2012年に作ったものなのでそれよりも新しい画像は使われていません。
添付の結果については、見た目はほとんど違いが分かりませんが
GANありは顎のラインと鳥の下の髪あたりにcheckboard artifactが出ています。
各エポックで結果が揺れるならエポックごとにvalidationしてそれで一番よい値の時だけ
パラメータ保存しておけばいいと思います。
その値は画像数百枚の平均ですか、1枚だけですか。
waifu2xと書いてあるものはネットワークの定義だけ持ってきて独自に学習したものですか。(そうだと予測)
元画像を探してきてLanczosで1/2にしたあとにwaifu2x配布モデルで拡大すると明らかに結果が違います。
http://ccsaku.moe.hm/gyazo/data/18eac1728b714cfe64b7843ae5a91499.png
左が評価に使用されている超解像/waifu2xモデル/model_u01999.pkl.pngで、右がwaifu2xの配布モデルの拡大結果です。
左はかなりぼやけていて
PSNRも 超解像/waifu2xモデル: 27.717, waifu2x配布モデル: 31.771
と4dBも差があります。ちなみにLanczosが26.449です。
waifu2xと書く場合はこちらの配布モデルと比較して欲しいです。
学習データは、2012年に作ったものなのでそれよりも新しい画像は使われていません。
添付の結果については、見た目はほとんど違いが分かりませんが
GANありは顎のラインと鳥の下の髪あたりにcheckboard artifactが出ています。
各エポックで結果が揺れるならエポックごとにvalidationしてそれで一番よい値の時だけ
パラメータ保存しておけばいいと思います。
655名無しさん@お腹いっぱい。 (ワッチョイ e6d2-0UxM)
2017/02/12(日) 18:49:25.75ID:T/zbW8Mv0656名無しさん@お腹いっぱい。 (JP 0H09-3CwI)
2017/02/13(月) 12:19:52.07ID:BMiBMFwmH >654
確認ありがとうございます!!!
waifu2xと書くのは問題ありそうなのでいい呼び方があったら教えてください。
waifu2xと直接比較しないのは、不明な工夫(学習データ、アウギュメンテーションなど)
がたくさんあり、それを見切れないので比較しようがないというのがあります。
条件を合わせているのは層の数、チャンネル数だけです。
そちらの方としてはあまり変わったことはやってないかもしれませんが、
こちらはそれがわかりません。
とりあえずこれでいい結果が出る手法が発見されればwaifu2xにバックポートすれば
性能上がるのかなと思います。
PNSRなどは2000エポックのうち最後の1000エポックの平均です。
画像を複数枚評価するのは時間的に厳しいのでできていません。
アーティファクトについてはしらなかったのでそういう指摘は助かります。
GANは2000エポックで収束してないというか収束しそうにないので
俺手法のGANの効果については今のところ自分も懐疑的です。
確認ありがとうございます!!!
waifu2xと書くのは問題ありそうなのでいい呼び方があったら教えてください。
waifu2xと直接比較しないのは、不明な工夫(学習データ、アウギュメンテーションなど)
がたくさんあり、それを見切れないので比較しようがないというのがあります。
条件を合わせているのは層の数、チャンネル数だけです。
そちらの方としてはあまり変わったことはやってないかもしれませんが、
こちらはそれがわかりません。
とりあえずこれでいい結果が出る手法が発見されればwaifu2xにバックポートすれば
性能上がるのかなと思います。
PNSRなどは2000エポックのうち最後の1000エポックの平均です。
画像を複数枚評価するのは時間的に厳しいのでできていません。
アーティファクトについてはしらなかったのでそういう指摘は助かります。
GANは2000エポックで収束してないというか収束しそうにないので
俺手法のGANの効果については今のところ自分も懐疑的です。
657名無しさん@お腹いっぱい。 (ワッチョイ e6d2-0UxM)
2017/02/13(月) 15:10:31.44ID:eYxsvRKA0 >>656
waifu2xはごちゃごちゃやっていることが多いですがそこまで影響していないと思うので
4dBも違うのは教師データの位置がずれてるか学習の方法かハイパーパラメータが悪いのではないかと思います。
最初に近い精度までは持って行かないとなにか間違いやバグがある可能性があり信頼できなくなります。
waifu2xは写真データで既存手法と同じくらいの結果が出るところまでは調節しています。
waifu2xの学習の基本的なところは、
- 入力画像のランダムな位置から96x96の領域(patch)を切り取り(y)
- それを48x48に縮小(x), 縮小アルゴリズムはBox(平均画素法)とlanczosをランダムに使う
- CNNにxを入力して82x82の出力を取得(zero paddingがないため(96-14)^2になる)
- 出力とyのピクセル位置が合うようにyを82x82に切り取り
- (x-y)^2 誤差を計算してパラメータを更新
で、実際には、画像単位で縮小してその中から64領域を切り取って、xと対応するyもあらかじめ作りながら
画像数*64の(x, y)ペアを作った後にシャッフルしてbatch_size=16, optimizer=Adam(alpha=0.00025)で学習を回しています。
64領域のサンプリングは2エポック毎に行っています(ランダムな位置から再度作り直す)
patch_size, batch_size, Adamの設定は結果への影響が大きいです。
>画像を複数枚評価するのは時間的に厳しいのでできていません。
学習に使わない画像を100枚くらい外しておいて
学習済みのモデルでベンチマークするコードを書いておけば実行は5分もかからないと思います。
>>655
反映されているようです。ウェブ版にICCプロファイルの対応入れています。
waifu2xはごちゃごちゃやっていることが多いですがそこまで影響していないと思うので
4dBも違うのは教師データの位置がずれてるか学習の方法かハイパーパラメータが悪いのではないかと思います。
最初に近い精度までは持って行かないとなにか間違いやバグがある可能性があり信頼できなくなります。
waifu2xは写真データで既存手法と同じくらいの結果が出るところまでは調節しています。
waifu2xの学習の基本的なところは、
- 入力画像のランダムな位置から96x96の領域(patch)を切り取り(y)
- それを48x48に縮小(x), 縮小アルゴリズムはBox(平均画素法)とlanczosをランダムに使う
- CNNにxを入力して82x82の出力を取得(zero paddingがないため(96-14)^2になる)
- 出力とyのピクセル位置が合うようにyを82x82に切り取り
- (x-y)^2 誤差を計算してパラメータを更新
で、実際には、画像単位で縮小してその中から64領域を切り取って、xと対応するyもあらかじめ作りながら
画像数*64の(x, y)ペアを作った後にシャッフルしてbatch_size=16, optimizer=Adam(alpha=0.00025)で学習を回しています。
64領域のサンプリングは2エポック毎に行っています(ランダムな位置から再度作り直す)
patch_size, batch_size, Adamの設定は結果への影響が大きいです。
>画像を複数枚評価するのは時間的に厳しいのでできていません。
学習に使わない画像を100枚くらい外しておいて
学習済みのモデルでベンチマークするコードを書いておけば実行は5分もかからないと思います。
>>655
反映されているようです。ウェブ版にICCプロファイルの対応入れています。
658名無しさん@お腹いっぱい。 (JP 0H09-3CwI)
2017/02/13(月) 17:35:47.49ID:BMiBMFwmH 4dB問題は知ってたんですけどいくら確認してもおかしいところが
見つからないのでwaifu2xが何かやってるんだろうととりあえず放置していました。
そちらからみておかしい、とのことですのでもっとしっかりデータ確認します。
ありうるのはサブピクセルレベルでのピクセルずれ(縮小時に奇数ピクセル数だとずれるとか)が
ありうるかと思いますが、そちらで情報開示してもらったのでそれに合わせてやってみます。
縮小フィルタの特性を学習してしまう問題も知ってるんですけど、そういう回避方法は
考えていませんでした。やってみます。
見つからないのでwaifu2xが何かやってるんだろうととりあえず放置していました。
そちらからみておかしい、とのことですのでもっとしっかりデータ確認します。
ありうるのはサブピクセルレベルでのピクセルずれ(縮小時に奇数ピクセル数だとずれるとか)が
ありうるかと思いますが、そちらで情報開示してもらったのでそれに合わせてやってみます。
縮小フィルタの特性を学習してしまう問題も知ってるんですけど、そういう回避方法は
考えていませんでした。やってみます。
659名無しさん@お腹いっぱい。 (ワッチョイWW d6c5-PD8f)
2017/02/13(月) 19:03:49.27ID:6JRW9uJM0 adamのalphaは小さめにしていますが
それでもでかいようなので全部そろえます
毎度すみません
それでもでかいようなので全部そろえます
毎度すみません
660名無しさん@お腹いっぱい。 (ワッチョイ e6d2-0UxM)
2017/02/14(火) 00:43:58.37ID:9afuuku60 >>82x82
upconv_7の出力は68x68でした。(96-14*2)
>縮小時に奇数ピクセル数だとずれるとか
これは必須です。もし対策していなければこのせいじゃないかと思います。
waifu2xは学習画像読み込み時点で4の倍数になるようにしています。(4xもあるため)
またpatchを切り取る位置も元画像側の位置が奇数になると縮小側の位置がズレます。
upconv_7の出力は68x68でした。(96-14*2)
>縮小時に奇数ピクセル数だとずれるとか
これは必須です。もし対策していなければこのせいじゃないかと思います。
waifu2xは学習画像読み込み時点で4の倍数になるようにしています。(4xもあるため)
またpatchを切り取る位置も元画像側の位置が奇数になると縮小側の位置がズレます。
661名無しさん@お腹いっぱい。 (ワッチョイ 7332-K3GY)
2017/02/17(金) 20:31:02.69ID:ISS8P0MC0 超解像頑張り中の人です。
とりあえずwaifu2xのソースコード読んでコンボリューションの初期値あわせてみたり、
変な処理をしていたのを直したり色々やったところ1dB改善しました (PSNR=28.5dB)。
視覚的には大幅な画質向上があります。
AdamのAlphaは小さくしたほうが確かに学習安定します(当たり前)。
言われたところは全部直したつもりなんですが、誤差関数が何かやってる様子。
よくわかりません。HunberLossも使っているのか使ってないのかわかりませんし...。
とりあえず1バッチ=12画像、1エポック=100バッチで2000エポックで学習が
収束しきってないのでがんばればPSNR=29dBまでは行くと思うんですが
31dBかかなり厳しいです。30dB行ったら諦めます。
俺的には学習データ数が少ない、augumentationがまずいってところかなあと思います。
学習データはすごく重要なんですけど、俺にはそこに情熱がない...。
こっちの学習データは250枚、augumentationは上下、左右反転、45度ローテーション、
ノイズ付加、画像縮小です。
ほんまwaifu2xはエンジニアリングの塊なので一朝一夕には追いつけませぬ。
(諦めてるので追いつく気なし)
とりあえずwaifu2xのソースコード読んでコンボリューションの初期値あわせてみたり、
変な処理をしていたのを直したり色々やったところ1dB改善しました (PSNR=28.5dB)。
視覚的には大幅な画質向上があります。
AdamのAlphaは小さくしたほうが確かに学習安定します(当たり前)。
言われたところは全部直したつもりなんですが、誤差関数が何かやってる様子。
よくわかりません。HunberLossも使っているのか使ってないのかわかりませんし...。
とりあえず1バッチ=12画像、1エポック=100バッチで2000エポックで学習が
収束しきってないのでがんばればPSNR=29dBまでは行くと思うんですが
31dBかかなり厳しいです。30dB行ったら諦めます。
俺的には学習データ数が少ない、augumentationがまずいってところかなあと思います。
学習データはすごく重要なんですけど、俺にはそこに情熱がない...。
こっちの学習データは250枚、augumentationは上下、左右反転、45度ローテーション、
ノイズ付加、画像縮小です。
ほんまwaifu2xはエンジニアリングの塊なので一朝一夕には追いつけませぬ。
(諦めてるので追いつく気なし)
662名無しさん@お腹いっぱい。 (ワッチョイ f7d2-ZUJW)
2017/02/17(金) 22:19:08.74ID:AmcVWIz30 >>661
HuberLossは使っていますが多分それほど関係ないです。(というかMSEのほうがPSNRは高くなると思います)
誤差はノイズ除去で色が劣化しているのを直すときに
下げれる誤差に限界があるので、YUVのYの重み(0.299 × R + 0.587 × G + 0.114 × B)にあわせて
チャンネルごとの誤差の重みを調節しているだけなので、拡大の場合はそれほど関係と思います。
学習データが少ないのはあるかもしれないですが、今はパッチを切り出さずに画像単位でforward/backwadしているでしょうか?
小さなパッチを切り出してからシャッフルして小さいminibatchで学習するのはとても重要です。
画像単位だと例えば1280x720だった、出力が86万個の変数になって
この平均誤差をbackwardすることになるので、画像内のある小さな領域内で誤差が大きかった場合でも平均されて消えてしまいます。
特にイラストの場合は何もない背景が多くて、そこは誤差がほぼゼロになるため平均されて誤差が消失しやすいです。
(waifu2xはパッチを切り出した後パッチ内が単色背景の場合は50%くらいの確率で捨てるような処理も入っています)
また学習データ少ない場合でも、たとえば96x96のパッチだと画像1枚から70万通りくらいの切り出し位置があるのでデータ増加にもなります。
HuberLossは使っていますが多分それほど関係ないです。(というかMSEのほうがPSNRは高くなると思います)
誤差はノイズ除去で色が劣化しているのを直すときに
下げれる誤差に限界があるので、YUVのYの重み(0.299 × R + 0.587 × G + 0.114 × B)にあわせて
チャンネルごとの誤差の重みを調節しているだけなので、拡大の場合はそれほど関係と思います。
学習データが少ないのはあるかもしれないですが、今はパッチを切り出さずに画像単位でforward/backwadしているでしょうか?
小さなパッチを切り出してからシャッフルして小さいminibatchで学習するのはとても重要です。
画像単位だと例えば1280x720だった、出力が86万個の変数になって
この平均誤差をbackwardすることになるので、画像内のある小さな領域内で誤差が大きかった場合でも平均されて消えてしまいます。
特にイラストの場合は何もない背景が多くて、そこは誤差がほぼゼロになるため平均されて誤差が消失しやすいです。
(waifu2xはパッチを切り出した後パッチ内が単色背景の場合は50%くらいの確率で捨てるような処理も入っています)
また学習データ少ない場合でも、たとえば96x96のパッチだと画像1枚から70万通りくらいの切り出し位置があるのでデータ増加にもなります。
663名無しさん@お腹いっぱい。 (ワッチョイ f7d2-ZUJW)
2017/02/17(金) 22:33:15.43ID:AmcVWIz30 >AdamのAlphaは小さくしたほうが確かに学習安定します(当たり前)。
あと書いていませんでしたが、0.00025から初めて最終的にその1/10くらいになるように減らしていっています。
Adamは学習率が自動調節されるようなことが書かれていることがありますが
パラメータの要素単位の正規化をやっているだけなのでalphaを減らすのは意味があります。
なので最終的なエポックで1/10くらいになるようにalphaをスケジュールしたほうがPSNRは高くなります。
調節が難しければ、80%くらい進んだ後で1/10にして残り20%を回すくらいでも十分意味があると思います。
あと書いていませんでしたが、0.00025から初めて最終的にその1/10くらいになるように減らしていっています。
Adamは学習率が自動調節されるようなことが書かれていることがありますが
パラメータの要素単位の正規化をやっているだけなのでalphaを減らすのは意味があります。
なので最終的なエポックで1/10くらいになるようにalphaをスケジュールしたほうがPSNRは高くなります。
調節が難しければ、80%くらい進んだ後で1/10にして残り20%を回すくらいでも十分意味があると思います。
664名無しさん@お腹いっぱい。 (ワッチョイ 7332-K3GY)
2017/02/17(金) 23:47:35.21ID:ISS8P0MC0 画像は教えてもらったパッチサイズに分割しています
当然シャッフルしています
SGDなんかでは学習率を減衰する正則化は普通ですけど
Adamでも効果あるんですね。というかそんなに小さな学習率で
PSNR向上するのか...。
当然シャッフルしています
SGDなんかでは学習率を減衰する正則化は普通ですけど
Adamでも効果あるんですね。というかそんなに小さな学習率で
PSNR向上するのか...。
665名無しさん@お腹いっぱい。 (ワントンキン MMc2-Pmei)
2017/02/18(土) 04:13:42.14ID:3fQ0tPmvM ai搭載してほしい
666名無しさん@お腹いっぱい。 (ワッチョイWW 52cf-E1Vt)
2017/02/18(土) 13:20:51.75ID:M/eXR+AJ0 deeplearning研究の成果であるwaifu2xがAIでないとしたら何がAIだと言うのかね
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【子ども・子育て支援金】来年4月から徴収、月収50万円なら月600円程度…健保連試算 [蚤の市★]
- 高市首相告白「『なめられない服』を選ぶことに数時間を費やしました」「外交交渉でマウント取れる服、買わなくてはいかんかもなぁ」★4 [ぐれ★]
- 【芸能】篠田麻里子「水戸黄門」のオフショット公開!「くの一姿が可愛い」「うっひゃー」「スケさんカクさんが羨ましい!」 [湛然★]
- 「加熱式たばこ」の受動喫煙、「紙巻き」同様の対策強化を検討へ…厚労省の専門委が議論スタート [蚤の市★]
- 【🐼】パンダ、日本で会えなくなる? 中国との関係悪化で不安の声 ★2 [ぐれ★]
- 日本の旅客機、定時に飛べず 羽田空港発着の半数が15分超遅延 [蚤の市★]
- 竹中平蔵氏、万博を批判していた人たちにチクリ「反省の弁聞きたい」 [686538148]
- 【速報】高市早苗、G20サミット”社長出勤” [614650719]
- 京都のホテル、暴落wwwwwwwwwwwwwwwwwwwwwwwwwwwww [329329848]
- 【速報】高市、今度はロシアに喧嘩を売る [329271814]
- 日本男性の性癖、壊れる [329329848]
- 国宝みたんだけど
