【AI】元歌手と判別できないレベルのAI歌声合成、名古屋工業大学と音声ベンチャーが開発[12/14]
■ このスレッドは過去ログ倉庫に格納されています
名古屋工業大学 国際音声言語技術研究所と音声合成を柱とするベンチャー企業テクノスピーチは12月12日、これまでの歌声合成とは一線を画す、元の歌い手の声質、癖、歌い方といった特徴を捉えた歌い方をディープラーニング技術などの適用で実現した。約2時間分の音声データで学習し、日本語、英語、中国語に対応する。
名古屋工業大学の徳田恵一教授を中心とするチームはこれまで、隠れマルコフモデルを使った統計的手法により、音声合成のOpen JTalk、歌声合成のSinsyを開発し、提供してきた。テクノスピーチはこれらを発展させた商用製品CeVIO Creative Studioの開発にも携わっている。今回の新技術はこれらを新たな次元に推し進めるものと言える。
名古屋工業大学とその出身者によるテクノスピーチの共同研究は、2019年3月に開催される日本音響学会2019年春季研究発表で公開される。
Sinsyと同じく、人手による調整がされていない「ベタ打ち」の歌詞付き楽譜データをMusicXML形式で与えるだけで、元歌手の特徴を再現する。
今回のデモはCeVIOで歌声を提供している、さとうささら、IAが使われていることから、CeVIOの将来バージョンまたは後継製品で使われることも予想される。
故人である三波春夫さんをバーチャルシンガーにした「ハルオロイド・ミナミ」がCeVIOに対応する歌声として製品化しているが、この新技術を使った、本物と区別がつかない仮想三波春夫による「世界の国からこんにちは」を期待したいところだ。
http://image.itmedia.co.jp/news/articles/1812/14/koya_cevio2.png
http://image.itmedia.co.jp/news/articles/1812/14/koya_cevio3.png
※記事の音源はこちらのlinkから聞けます
https://www.techno-speech.com/news-20181214a
ITmedia NEWS
http://www.itmedia.co.jp/news/articles/1812/14/news089.html エルビスがいまの歌をうたったら というのが成り立つわけか
ジミヘンやジャニスやジョンレノンが最新曲をかばーしたらとか わああああ これ
初音ミクはどうなるの????
おわるの???
えろいひとおしえて これ歌うまい歌手のデータで学習させることができるの??
それとも特別に協力してもらわないと無理? >>20
あれは人間に近づけるのとは少し違う方向で生き残るかもしれん。
ヴィジュアルでメカっぽいキャラクターや獣っぽいキャラクターがあるのと同様に とりあえずlinux/firefoxでは音が出ない >>11
>>14に見事一本取られたなw
一本!そこまで! >>43
例えばNHKのアナウンサーをアニメ声優にしても面白くないだろ?
アニメ声優をNHKのアナウンサーにしたらニュースの信憑性が疑われる
初音ミクの声で無ければ歌えない歌もある 日本語の萌え声だけ聞いて「おっ」と思ったけど、他の言語はダメダメだな。
やっぱり人間の喉の構造を物理シムするくらいでないと同じにはならないな。 >>43
この技術verの初音ミクが出るだけだと思うぞ >約2時間分の音声データで学習
データ量としてはかなり少ない印象だわ。これ例えば盗聴して音声データから音源作って
本人になりすまして第三者に話しかけるとかできそうだな。名探偵コナンのボイスチェンジャー
みたいな感じで。 これなら三波春夫先生がいなくても2025年大阪万博は大丈夫だな。
よかった、よかった。 リンク先いって聞いてきたけどすごいな
これがベタ打ちって言うから尚凄い アニメ声の声優が苦手だから吹き替えとかでAIで選べるようになって欲しい 何も知らずにBGMとして流されてると
合成音声とは気付けなそう 声優の仕事がマジでなくなりそうだな
どうすんだこれ 「ハルオロイド・ミナミ」が歌う「2025年・大阪万博の歌」 >>59
あああ!
全員をお気に入りキャストに
変更も可能ってことだな。
エロいアニメも 譜面がある「歌声」を再現できたとしても、
「声当て」やら「芝居」を再現するのは難しいと思うけれどな。 >>1
初音ミク(笑)
棒読みちゃん(笑)
YouTuberには超朗報だな >>1
逆に人間の歌声もエフェクトでボカロに近づけてるのもあるんじゃね 10年おせぇわ
ボカロが出て数年でこのくらいになるかと思ったのに平成も終わる時にもまだ機械音声のボカロ声だからな ミクヲタがファビョるよ。
あの甲高い声こそが至高であって元々の技術的到達目標点であるはずの藤田咲の声の再現にはヤツらには耐えられないことだろうから 即興とかレゲエやラップのDJ-ingは出来ないだろうから
この技術では黒人音楽はムリだな
こういう技術って、歌の下手な奴の恨みの結晶って感じだから
歌の上手い奴がゴロゴロいてライヴの即興を重視するアメリカその他の国では
無視されるだろう なんか小説ってもうAIが書けるらしいなw
つまり、もう作詞は出来るって事だ
あと作曲できたら、曲も詩も唄も演奏もAIだなw >>76
Orpheusっていう自動作曲システムがある
つべにも作曲した動画が上がっているけど
ハッキリ言って、歌詞が特定の弁護士を
誹謗中傷する内容だから視聴はオススメしない 「paypay社から情報が流出した事実は無いニダ!」
「日本は韓国さま無しでは成り立たない哀れな国ニダ!」
「地震で日本人がいっぱい死んで超うれしいニダ〜!」
「安倍首相が韓国に来て、土下座で謝罪すれば許してやるニダ!」
「弟の日本には、兄の韓国さまからの指導が絶対に必要ニダ!」 >>43
ミクとかも手作業で追い込めばこのくらいは出来るぞ。
これをAI化すれば同じレベルじゃない?
https://youtu.be/s5L9VoQUR6U 途中で息を吸う音もあるけどそれも歌い方の癖として学習してるって事? >>13
どうしてこうAIを勘違いする奴が減らないのだろうか >>12
AI(人工知能)を使って
歌手のAIの歌声を使った歌がどんどん作れるって事かw >84
ある程度知識がないと、昔手が届いた範囲のAI、
今AIと呼ばれているもの、未だ遠い究極のAI、それぞれが
大きく違うものだと言う事はわからないから、しかたないよ
AIより意味が狭い「機械学習」を使う方が少しましになるかもしれない 美空ひばロイドとか、マリアカラソイドとか、パバロッティドとか期待してしまうする。
桜田淳コロイドとか、森高千ロイドとか カラオケトラックとの差分で歌手のボーカルだけ2時間分抜ければ好きなアイドルの歌声も自分の物に出来ちゃうのか 金正恩の声を再現して、韓国の文が利用するニダ。
北朝鮮は朝鮮民族の誇りニダ。 いくら技術が優秀でも萌えキャラつけて売った時点で終了
下品なオタクのおもちゃになるだけ 劣化コピーじゃないか?
最近のボーカロイドとか、ある意味では歌手以上だぞ
学習と創作は違うって事か >>20
あれ、何気にバージョンかなり上げてるからなぁ。終了より、更新が正しい。 今回で大事なのは声が非常に明瞭でハイファイになっていること。
その過程で歌い方まで学習してるけどそれは副次的な産物。
広音域で聞き取りやすく、ネイティブの人間と同じように音素が波形レベルで
きっちりしてる発音ができることが歌声合成の現状最大の壁だったから。 ボーカロイドも終焉か
そのうち誰でもボタンひとつで曲ができるようになって、曲に価値なんてなくなるんだろうな エロゲに使えるレベルなら、制作費が相当圧縮できるが
あえぎ声とかはまだ無理だろうな AIの会話ソフトと組み合わせれば、アイドルとテレ友に! 自分の声で口パクできるようになる?
もしそうなら「lemon」を歌っている自分の歌声を聞きたい
いまは音痴杉で真似すらできね 意味が理解出来ないんだが、
タイトルの「元歌手」って誰の事?
この記事もAIかなんかが書いてるんじゃないか?チューリングテスト失敗レベル。 >>5
生身の歌手がその場で歌うのを聴く事が喜びなわけで... 既存製品では公式に水瀬いのりさんが声色と癖担当とアナウンスされているが今回も同じかどうかは不明。
歌い方が上手いとそのように学習するわけだが、ライブに通ってるファンなら断定できるかもしれない。 第九のコーラス隊も要らなくなるな。PCを200台並べてスピーカーを繋げばOKだもの。 >>112
コーラスは人間だからできる部分を無視できないのでAI歌手では当分無理かな
ハーモニーはAIには分からない人間の感覚が為せる技なので よくはなってると思うが判別できないは言い過ぎじゃない?w >>92
湾岸戦争?の頃にCIAがフセイン大統領の失脚を企てて
フセイン大統領にソックリな男優を出演させた
ゲイ・ポルノビデオを制作したそうだ
もし、選挙の直前に安倍晋三の声を合成した
安倍ロイドで、籠池と密談した音声が
公開されたりしたら、選挙結果に影響するだろう?
音声合成技術の進歩は、使い方によっては
大変な力を発揮するよ >>20
>>43
>>69
>>73
>>109
初音ミクの良さって科学では説明出来ない
実在感じゃないアイドル性って解るかな?
天使の歌声だよ?
例えどれだけ美味しい料理でも
人肉を模していたら美味しくないでしょ?
感性の問題なんだよ V5のデキがアレだからこっちに未来があるのは間違いないと思うよ 落語家の話も、AIに奪われる時が来るのかもしれない。
そおそも話の内容や語り口自身もAIが自動創作してしまうようになったなら。 小田正和とかうまいひとがカバーすると原曲越えしまくるけど
そういう時代が来そうだな 初音ミクが売れるまで、VOCALOIDのサンプル音声で
プロの歌手を使うのは難航した。仕方が無いので
クリプトンフューチャーメディアはアニメ声優を起用し
アニメキャラクターが歌っているかのような演出をした
案の定これには硬派な業界から反発を受けた
そもそも芸能人は自分を機械で置き換えされるのを嫌う
芸能界も低コストの人工アイドルが増えれば
予算を削減されて、中抜きできなくなる
ホリプロの伊達杏子が鳴かず飛ばずだったのに
門外漢の初音ミクが大ヒット
芸能界にとって面白くないのは当たり前
初音ミクを超えようとするなら
初音ミク以上に強烈な逆風を覚悟すべき この技術もっと進歩して、遺体が残ってたら、そこから歌声を
再現できるとかになったらすごいな
ファリネリがどんな風に歌ってたかとか実際に音で聞けたらすごい 声にも肖像権同様の権利が必要になるのでは?
ゼロから声を作ってそれが人気を集められればいいけれど、
生身の人間の(声以外を含む魅力に基づく)人気に乗っかり
声だけパクって商売するのはなんとも 元歌手とは判別できる程度に別人の声にしてあるんよねこれ
声紋分析したら確かに似てるけど違う声、になるはず
ミクと声優さんの声が違うのと同じ発想 聞いてきた
音の解像度が上がっただけで、音痴な点は変わってないのな
これ単にモデルのoutput層で表現できる値が増えたから良くなった感じ
変な声聞いて育つと色々音痴になったり発話障害になったりしてで嫌だな
もっと改善するまで広めないで欲しいところ 合成の精度を非常に上げることができるという点でディープラーニングはめっちゃ使えるという良い研究結果だな
ただこれだけの精度を出すために、再生(再現)する時にも計算処理が大きくなっているようで、GPUを使っても
それなりに処理時間がかかるとのこと。これが今のネック。
ユーザーとしてはいきなりトライ&エラーの修正回数が激減している状態から始められると思うのでトータルでは
メリットが圧倒的に上回ると思う。 >>1
ヒトとモノの区別が付かなくなっていくな
こうなると、アニミズムのある文化圏が伸びてくる >>137
日本は情弱だから伸びないさ
技術があっても何に使うのか想像力が働かない 音声データってくらいだから生声は数理化出来てるわけじゃん?
合成音声ってそんな難しいことじゃなさそうなんだけど初音ミクから10年以上経つのに革新的なものが出てこないな
やる気が足りないんじゃないの? 初音ミクは実のところ職人芸で成立してる方式だからね
今回は開発環境問題をAIとマシンパワーで解決できたので
来年にものすごい音声合成ブームがもう一度来るでしょうな ■ このスレッドは過去ログ倉庫に格納されています