X



【超解像】画像拡大ソフト総合スレ2【waifu2x】 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。 転載ダメ©2ch.net (アウアウ Sa2a-NyIq)
垢版 |
2016/05/10(火) 11:28:05.20ID:h2o6wyXCa
画像を人工知能(Neural Network)を利用して拡大、あるいはノイズ除去するソフトウェアの話題を総合的に扱うスレです。
本来の用途は静止画が対象ですが動画のアプコン処理に関する話題もOKです。
ただし動画編集ソフトの使い方の部分の話は各ソフトのスレに行って下さい。

--主なソフト--
・waifu2x
本家Webサービス
http://waifu2x.udp.jp/

・waifu2x概要:二次元画像を拡大したいと思ったことはありませんか? (waifu2x作者氏のブログ)
http://ultraist.hatenablog.com/entry/2015/05/17/183436

・waifu2xとその派生ソフト一覧
※リンクがNGワードに!

・waifu2xのベンチマーク結果まとめ - Togetter
http://togetter.com/li/831437

・無料で二次元画像を人工知能が補完してハイクオリティで1.6倍/2倍に拡大できる「waifu2x」 (gigazinの記事)
http://gigazine.net/news/20150519-waifu2x/

・Otaku ワールドへようこそ![212]嫁を拡大する人工知能/GrowHair (日刊デジタルクリエイターズの記事)
※従来の拡大手法とwaifu2x、SRCNNの違いについての丁寧な解説記事
http://blog.dgcr.com/mt/dgcr/archives/20150605140100.html

・NeuronDoubler
人工知能超解像プログラム NeuronDoubler
http://loggialogic.blogspot.jp/2012/06/neurondoubler.html
VIPQ2_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured
0509名無しさん@お腹いっぱい。 (ワッチョイ dc39-sOSw)
垢版 |
2016/12/18(日) 15:45:47.64ID:MQqRPQLB0
動画は可変フレームレートとか色々あるから音ズレしやすいんだよねえ……
一部のWMVも可変フレームレートだから普通にFFmpegで変換すると音ズレする。

>>507
コメント欄に「このソフトで変換すると音声がずれる動画がyoutubeなどにあったらurlを教えてください。」って書いてあるからサンプル提供するかMediainfoで調べた情報送ればいいんじゃないかな。
0517名無しさん@お腹いっぱい。 (ワッチョイ 9e4e-g1cW)
垢版 |
2016/12/22(木) 17:08:38.15ID:j+vsgrZa0
初心者新参なんだが、どれがおすすめ?

Windows10 Pro 32bit Core i5
メモリ4G
0519名無しさん@お腹いっぱい。 (ワッチョイ 9e4e-g1cW)
垢版 |
2016/12/23(金) 09:29:37.03ID:2mEiHi6o0
>>518
ありがとうございます!
トライしてみます!!
0531名無しさん@お腹いっぱい。 (ワッチョイ 34e1-t+3N)
垢版 |
2016/12/28(水) 17:41:29.27ID:08hGKA3e0
オンボのノートPCじゃこのソフト使えないんでしょうか?
1280×800の画像1枚を2倍にしたいだけなんですが実行ボタン押しても残り時間:不明って出てフリーズします。
ウェブ版は普通に使えます
0533名無しさん@お腹いっぱい。 (ワッチョイ a00f-G+7F)
垢版 |
2016/12/28(水) 17:51:02.58ID:6hOu5zQ90
とにかくColorProfile対応してくれることを望みます
ちょっとライトエフェクトとかある差分画像とか全体が全く違う色になって困り果ててしまうわ
これで動画のエンコなんてしたらもう…
0534名無しさん@お腹いっぱい。 (ワッチョイW 34e1-gWpm)
垢版 |
2016/12/28(水) 18:09:49.29ID:08hGKA3e0
>>532
ありがとうございます。ソフト名を書くのを忘れていました。
そのwaifu2x-caffeでフリーズしてしまうのです。
0539名無しさん@お腹いっぱい。 (ワッチョイW 34e1-gWpm)
垢版 |
2016/12/28(水) 19:59:06.13ID:08hGKA3e0
>>538
動作設定はCPUにしております。CPU使用率は80%以上でございます。Braswellでは非力すぎて動かないのかな
0545531 (ワッチョイW b2e1-EzRd)
垢版 |
2016/12/30(金) 14:31:11.67ID:tIIWopzb0
辛抱強く待ってたら一応完了したのですが出力先を見たら何もできていませんでした‥.

モデルのUpPhotoとphotoの違いは何でしょうか?
0546名無しさん@お腹いっぱい。 (ワッチョイ f2e1-Sa8B)
垢版 |
2016/12/30(金) 14:40:02.55ID:RVSItgrB0
出力先指定してあるの?違う所見てない? それか上書になってない?

無印は標準モデル
Up印は速度優先モデル(と言っても倍程度。出来上がりに大差はないけど物によっては気になるかもしれない)
0548名無しさん@お腹いっぱい。 (ワッチョイWW 6332-H1Ci)
垢版 |
2016/12/30(金) 18:12:22.39ID:X3KvqHdb0
cuDNNはNVIDIAが別で配布しているライブラリ
ディープラーニング用のAPIが入ってる

waifu2xはほとんどの処理時間は
コンボリューションで、cuDNNに
含まれるAPIなので恐らく速くなるはず

caffeeの自前実装のコンボリューションが
鬼のように最適化されてたら変わらんかも
しれんが比較したことないので知らん
0550名無しさん@お腹いっぱい。 (ワッチョイ 765e-4Ie9)
垢版 |
2016/12/30(金) 18:21:04.13ID:vUMlJ/xP0
cuDNN RGBモデル

| 分割サイズ | 処理時間 | VRAM使用量(MB) |
|:-----------|:-------------|:-------------------|
| 100 | 00:00:03.170 | 278 |
| 125 | 00:00:02.745 | 279 |
| 200 | 00:00:02.253 | 365 |
| 250 | 00:00:02.147 | 446 |
| 500 | 00:00:01.982 | 1110 |

CUDA RGBモデル

| 分割サイズ | 処理時間 | VRAM使用量(MB) |
|:-----------|:-------------|:-------------------|
| 100 | 00:00:06.192 | 724 |
| 125 | 00:00:05.504 | 724 |
| 200 | 00:00:04.642 | 1556 |
| 250 | 00:00:04.436 | 2345 |
| 500 | 計測不能 | 計測不能(6144以上) |
0572名無しさん@お腹いっぱい。 (ワッチョイ d1cf-dHfL)
垢版 |
2017/01/14(土) 04:19:51.80ID:AOMWwbEx0
このスレを見ている人間にとっては大嫌いなレガシー不可逆画像コーデックJPEGに新たなエンコーダが
ttp://gigazine.net/news/20170113-google-guetzli/
人間の目に最適化した極低速高圧縮JPEGエンコーダGuetzli

SSIM:             libjpeg比 14%悪化
PSNRHVS-M:        libjpeg比 14%悪化
butteraugli:         libjpeg比 30%良化
エンコード速度:       libjpeg比 10000%+悪化
同等画質サイズ:       libjpeg比 35%良化
同等画質転送レート:    libjpeg比 35%良化
ttps://translate.google.co.jp/translate?sl=en&tl=ja&u=http%3A%2F%2Fencode.ru%2Fthreads%2F2628
ttp://encode.ru/threads/2628

長すぎるエンコード時間(消費エネルギー)という元手・投資を取り返すには何回その画像ダウンロードされないといけないんだろうな
性能はたしかに良いからお試しあれ
0577名無しさん@お腹いっぱい。 (ワッチョイ 1339-5BG0)
垢版 |
2017/01/14(土) 16:10:52.71ID:cz8mjfgz0
>>575
自分もそう思ったんだけどbutteraugliのビルド方法がよく分からなくて断念したよ。
Googleがバイナリを配布してくれればいいんだけどね。

というかほぼGoogleしか使ってない指標でGoogleのエンコーダを評価されても性能が良く分からないよなと思う。
0579名無しさん@お腹いっぱい。 (ワッチョイWW 0932-744s)
垢版 |
2017/01/15(日) 09:56:09.63ID:0bystr9E0
waifu2xの後追いして遊んでるんだけど
作者氏、GAN使うの嫌がってるんだよね

とりあえずGAN、ResNet、PixelSuffle
実装してみたけど見た目SRCNN臭さは
だいぶとれるけどたくさん評価
してないので微妙

俺の本丸は計算量削減なんだけど
理論上計算量3割のはずなのに
3割しか早くならない

chainer、推論遅くないか
0584名無しさん@お腹いっぱい。 (ワッチョイ e1d2-suvD)
垢版 |
2017/01/15(日) 15:35:17.21ID:6WNzG8+M0
>>579
GANはPSNRをあまり下げずに使えるならいいですが
(ロス関数の重みの調節で出来ると思いますがトレードオフがあるのでGAN使う意味がなくなってきそう)
PSNRがBicubic以下になると
変換結果に不安があるため現在BicubcやLanczosが使われる領域での置き換えには使えないと思って避けています。
もちろんいくつかモデル作って選択できるようにすればいいだけですが
面倒なのでやっていない状態です。ResNetはdevブランチには入ってます。
0585名無しさん@お腹いっぱい。 (ワッチョイWW 4bc5-744s)
垢版 |
2017/01/15(日) 15:46:09.89ID:7I2qaVWZ0
>584
GANについては混合比率下げると
全くなしと見分けがつかないので
PSNRは必ず犠牲になる印象です

3dB近く悪くなるので受容できないで
しょうね

GANは学習すごく遅くなるので
つらいです

GANは学習回数多くしないとだめ
なのでもしかしたら今足りてない
可能性があるので後でしつこく
やってみます

作者さんも自分で実験するのが
めんどいと思うので結果はアップして
共有します
0586名無しさん@お腹いっぱい。 (ワッチョイ e1d2-suvD)
垢版 |
2017/01/15(日) 15:59:53.33ID:6WNzG8+M0
butteraugli というので本当に見た目の印象が定量評価できるならそれもあり思いますね。
僕が見た目の評価嫌う理由は、たいして見る目がない人がリンギングでまってくる画像を
くっきりしているからよいとか判定してしまうところにあるので。
0589名無しさん@お腹いっぱい。 (ワッチョイ e1d2-suvD)
垢版 |
2017/01/15(日) 20:38:29.02ID:6WNzG8+M0
SRGANはやろうとした人を何人も見ましたが
みんなうまくいっていないので
写真のモデルでcheckboard artifactを出さずに
論文の結果と似たような画像を生成できればそれだけで価値があると思いますよ
0590名無しさん@お腹いっぱい。 (ワッチョイ 0932-vSov)
垢版 |
2017/01/15(日) 21:26:01.39ID:0bystr9E0
SRGANはチャレンジですね。がんばってみます。
うまくいったら挑戦します。

butteraugli初耳だったんですが、スレ観たらビルドの仕方が
わからない人がいる模様。Linuxの開発したことのある人少ないんですかね。

Windows10のコマンドプロンプト開いて以下のコマンドで実行、

$ bash

コンパイラとライブラリインストール(zlibはpngと一緒に入る)、

$ sudo apt-get install gcc g++ make libjpeg-dev libpng-de

ソースコードのMakefileのあるディレクトリで

$ make

で実行ファイル作られます。bash上か他のLinuxマシンのみで動きます。

プログラマじゃない人も色々遊んでみてください。
0591名無しさん@お腹いっぱい。 (ワッチョイ 0932-vSov)
垢版 |
2017/01/15(日) 21:27:08.93ID:0bystr9E0
$ sudo apt-get install gcc g++ make libjpeg-dev libpng-dev

です。すんません。
0596名無しさん@お腹いっぱい。 (ワッチョイ e1d2-suvD)
垢版 |
2017/01/18(水) 15:39:56.54ID:xnw/jmuH0
やりたいことはYoutubeがすでやっている動画の再エンコと一緒じゃないかな
画質を改善するというより、苦情の少ない範囲で圧縮したいなので
運営としては通信量が減って嬉しいけどユーザーとしては以前よりも画質が悪くなるので
携帯事業者がやっていた「通信の最適化」と同じ考えだと思う
0599名無しさん@お腹いっぱい。 (ワッチョイW cf63-gIHQ)
垢版 |
2017/01/24(火) 00:16:40.73ID:RYhQuic60
>>598
Quadroの方が速いんじゃないですかねぇ?

↓の画像でXeon 16Core 3.6GHzで2分40秒ぐらい
CPU使用率は20%ほど XPx64環境で無理矢理実行したからちょっとアテにならないかもしれないけど
http://www.dotup.org/uploda/www.dotup.org1133523.jpg 変換元画像
http://www.dotup.org/uploda/www.dotup.org1133524.png 設定
0601599 (ワッチョイW cf63-gIHQ)
垢版 |
2017/01/24(火) 23:23:52.69ID:RYhQuic60
>>600
sampleのlogo.pngを2倍で16s、4倍で66s
sampleのphoto.pngを2倍で44s、4倍で200s
といった感じです

32倍をlogo.pngでやってみたら1876sとかかかったので、photo.pngの方は試してないですw
0603名無しさん@お腹いっぱい。 (ワッチョイWW 3332-z0uo)
垢版 |
2017/01/25(水) 21:02:31.59ID:idIVVLyq0
waifu2x研究家なんですけど
GANのPSNR問題解消しそうなので
週末画像出します

waifu2xと同じupモデルをこっちで
再現したものとの比較しますが
時間がかかるのでそれ以外との
比較は難しいです

何個かネタがあってそのマイルストーンです

3月に資料作るのでそのとき
リンク張ります
0604名無しさん@お腹いっぱい。 (ワッチョイ 4fd2-C7aL)
垢版 |
2017/01/26(木) 00:25:26.80ID:AnODLToW0
単純にはMSEとGANの出力を適当な割合で合成すればいいように思うけど
重くなるので学習の枠内でやれればいいですね

あとneural-enhanceの人も最近waifu2x的なやつをやろうとしているみたいです
https://twitter.com/madebyollin/status/823652970440986624
これは別の人の結果だけど、たしかに線はくっきりしているけど余計なことをしすぎているように見える
0605名無しさん@お腹いっぱい。 (ワッチョイ 2b32-xu7M)
垢版 |
2017/01/26(木) 06:13:14.86ID:9CM3n4Bd0
>604
適当な割合で合成すればいいんですけどふたつ問題があって

1. 適切な混合比率がタスクによって違う
2. 結果が不安定でうまくいってるエポックとそうでないエポックのばらつきが大きい

なので、前者については二乗誤差に対して何%GANを反映するのかって
コントロールを入れています。

GANが余計なことをするのは誤差のGANの項が正解データとの比較を
しないからじゃないかってことで正解データと比較するGANをは
考えてみました。

GANなしに比べてSSIM、PSNRは同等、butteraugliはかなり良くなってます。
正解データと比較する時点でGANの解釈がかなり変わるんですが
(評価中なので正確な値は週末出します)
0606名無しさん@お腹いっぱい。 (ワッチョイ 2b32-xu7M)
垢版 |
2017/01/26(木) 06:33:06.18ID:9CM3n4Bd0
わかる人がまわりにいないので、ここに書いてあれなんですけど、

従来のGAN)
Discriminatorで本物らしさを判定して誤差に反映

自分の手法)
本物らしさを学習したDiscriminatorの中間層の出力を
本物と生成データで比較、となります。

Discriminatorの中間層は通常の二乗誤差で比較するのと比べて
大幅に大きい情報量で比較するのと、Discriminator自体が
誤差関数になるので普通の二乗誤差と比べると複雑、高度な比較になります。

Twitterが出してる論文は物体認識を学習させたモデルで中間層の出力で
比較しろ、と書いてあって、これがコンテンツロスなんですが、
コンテンツロスの適用部分はGANに対してやった方がいいのでは
というのが自分の意見です。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況