ヤマハ歌声合成ソフト『VOCALOID』Part86
YAMAHAの音声合成エンジン
「VOCALOID」「VOCALOID2」「VOCALOID3」「VOCALOID4」「VOCALOID5」」「VOCALOID6」に関する技術情報交換スレです。
VOCALOIDに関する最新情報、技術的話題以外の話題は、別のスレでお願いします。
※ このスレは VOCALOID に興味を持った様々な人の玄関口となります。
※ 迷い込んだ人たちが速やかに自分にあったスレにたどり着けるよう
否定だけではなく誘導を心がけましょう。
※スレ立ては>>980を取った人。立てられない時は他の人に依頼する
980以外がたてる場合は宣言してからスレ立てお願いします
公式(VOCALOID SHOPと統合) - https://www.vocaloid.com/
【メーカーリンク】
NGワードにつき過去スレ参照
https://egg.5ch.net/test/read.cgi/dtm/1578097821/1
前スレ
ヤマハ歌声合成ソフト『VOCALOID』Part85
https://egg.5ch.net/test/read.cgi/dtm/1651722684/ VOCALOIDのAI製品に対する反応は分かってもらえたんじゃないかと思う
今回の件でV4以前のムーブメントを再現するのは並大抵のことじゃ無理って
ヤマハに改めて認識してもらえたならVX-βにも大きな意味があった あくまで個人の感想だけど
AI歌声はSynthVがぶっちぎりでリアル
Cevio AI/VoiSonaはSynthVに水を開けられているのに心折れずに地道に改善してるイメージ
VOCALOID:AIは既に周回遅れ
YAMAHAはAIでリアルになるのはいいが誰が打ち込んでもみんな同じになるのはどうなんだ、みたいに言ってるけど
リアルなSynthVでも同じ歌声、同じ曲でも打ち込んだ人が違えば違う歌い方になる
それはつまり同じ歌手が歌っても抑揚やアーティキュレーションによって違って聞こえるということと同じ
むしろベタ打ちなら同じになるのはこれまでのボカロもそうだし楽譜に忠実に演奏した場合のピアノもそう >>23
まぁ歌声ソフトのVOCALOIDの凋落はYAMAHA自身の売り方が原因、つまり自滅だと思う
V5からEditor単体販売をやめ(事実)、それに伴いPiapro StudioへのAPI提供をやめた(推測)
そのせいでミク陣営がNTという独自エンジンを作る流れになり(推測)
3rdパーティからもほとんど日本語ボイスバンクが発売されなくなり(事実)
V5以降は鳴花ヒメ/ミコト、ウナ、GUMI、桜乃そらぐらいしか出てない(事実)
ボカロカテゴリは文化として根付いているけどソフトのVOCALOIDはもうオワコンだよ(感想) 他社の製品改善のスピード感が分かってないので言ってることややってることが陳腐になってしまう
ヤマハの言うことは間違ってなくても時代の変化を認識せずに動いているから実現するのが絶望的に遅くなっている
他社は旧VOCALOIDの流儀のパラメータでの加工だけでなく歌唱に変化をつけるための新たな手段をいくつも提供してる
今後2年くらいVOCALOID6のアップデートが今の調子で続くなら期間限定でボカキュー4.5を既存ユーザに提供なんてのを
実施した方が話題になりそうな気がする >>26
>他社の製品改善のスピード感が分かってないので言ってることややってることが陳腐になってしまう
ホントそれマジでそれ
以下DTMステーションから引用
−−Synthesizer VやCeVIO AIの場合、ベタ打ちでも、すごく人間らしい歌声だけど、
VOCALOID 6は、それらとは少し方向性が違う、ということですか?
大道:他社製品を正確に理解しているわけではないのですが、
それら製品はキャラクターの声が全面的に出ることが特徴のように感じています。
いや理解しろって研究しろって
そんな殿様商売してるから周回遅れになってることにすら気付かないんだよね
https://www.dtmstation.com/archives/58383.html VOCALOIDが売れなくても会社は潰れないし怒られないしせいぜい配置転換食らうぐらいだし
定時退社できて給料貰えてたら満足、と思ってるのかね
もしくは「AI美空ひばり」で紅白に出たしVOCALOIDで世界を変えたし
と過去の栄光に浸ってて剣持さんがいなくなって方向性を見失ってるのかな
VX-βで何かが変わるかと思ったけど今のところ変化は見えないね >>28
実際の開発を担当しているエンジニアは、きっともっとなんとかしたいと思ってるよ。
会社の経営陣がそれを許すような研究開発費を予算として盛り込もうとしないんだよ
ヤマハはソフトに対する投資本当にできない会社だなって20年ぐらい見てて思うよ それはソフト部門長の力不足の可能性がある
予算取りって承認されないと無理だから経営陣が納得する計画を提示できないと十分まわってこない
別企業だけどデバイスの研究開発部門(プロパーで百人をこえる規模)だと年明けくらいから必死になって予算を申請で動き回っている
世間話として内情を聞かないと飄々としてるから厳しい状況が見えてこないけど実績のある部門でも社内競争がかなり厳しい そもそもVOCALOIDにおけるYAMAHAの実績って事実上ないし ニコ動のフォロアって糞にたかるハエっぽくてばえないね。 歌声合成ソフトて2,3万なんだから熱意があればCeVIOとSynthVぐらい自腹で買えるだろうに
それもしてない時点でダメじゃね YouTubeでちょっと見たことある程度で競合他社のソフトを触ったことが無いんだろうな
YAMAHAともなれば3万円ぐらい資料代として課長級の決済で十分下りると思うけど
「世界のYAMAHA」だから競合とも思ってなさそう
話が逸れるけど今ググってみたらRolandはずっと大阪の会社だと思ってたけど
いつの間にか(2005年)浜松に本社を移してて驚いた
もっと驚いたのは社長が外国人になってたことでしかもWikipediaにもまだ反映されてない ソフトの性能を最大限活かしきった歌声が10としたら
ベタ打ちで8の音が出るのがSynthV(SV)、5の音が出るのがVOCALOID 6(V6)て印象
歌手に曲を渡して「まずは1回歌ってみて」と言ったらV6はアナウンサーみたいに個性を消して歌ってる感じ
「いやそうじゃなくてとりあえず自分の感性で歌ってみてよ 気になるところがあったらディレクションするからさ」と言いたくなる
対してSVは「ふーん君はそう歌うんだね ここはこういう風に歌ってみたらどう?」とやり取りできる感じ
うまく扱えば人間と聞き分けられない歌声になるけど初心者には難しいってのと
初心者でも人間みたいな歌声が簡単に出せるのとどっちにしますかという話で
V6は前者に感じる
有名ボカロPが職人技で機械音声を人間ぽく歌わせてるのがVOCALOID 4(V4)までのトレンドで
YAMAHAもクリプトンもそれが世間が求めているものと勘違いして技術の発展に自らブレーキを掛けてると映る
「初音ミクはエレピを目指してる」とか「VOCALOIDは楽器」とか限界が低かったV4の延長上でしかない
VOCALOIDを初めて世に出したとき目指していたのは機械音声ですか?人間の歌声だったんじゃないんですか?と問いたい 「VOCALOIDは楽器」というのは使い方の話であるべきなのに歌声のリアルさの話にすり替わってる
「楽器=機械=人間ではない」という定義の罠にハマってる
人間としか思えない歌声を楽器のように扱えるのが目指すべき場所と思う 言いたいことは同じだけど根底に人間的な妬みや嫉みの感情もありそうかなって思ってた
昔VOCALOIDの歌は心がないって言われてたのを拗らせて月日が経つうちに意味のない楽器論を作り上げたかもと感じた
楽器だからそれでいいんで使う人が心を込める機能を作ればいいなんて話はさっさと機能を充実させてそうしろよってブーメランが返ってくるけど
AI歌唱も画一的で心がこもらないから無駄なことせずに楽器と割り切って使ってもらえばいいって皮肉をこめて言いたいとしたら
他社は心のこもった歌唱を模倣する数歩手前まで来ている現状も理解すべきかな DLsiteでmegpoidで検索して「販売数が多い順」で並べ替えると
Synthesizer V AI(SV) Megpoid歌声単体版がトップでVOCALOID 6(V6)ボイスバンク単体版は5番めに出てくる
(ちなみにV6エディターとセットのスターターパックは3番め、2番めはトークソフトのA.I.VOICE GUMI、4番目がSVスターターパック)
「販売数」の説明が見当たらないけどおそらく取り扱い開始からの累計と思われるので
少なくともDLsite上では発売からまだ3ヶ月弱のSV Megpoidが
発売後1年5ヶ月経つV6版の本数を上回ってる
これは根拠も何も無い100%憶測だけどV6のボイスバンクで一番数が出てるのはおそらくMegpoid
これを見れば世間でどちらが支持されているかは明らかだよね Synthesizer VのメグのサンプルはV6で使ったものらしいね SynthVのほうがエディタ安くてピッチが扱いやすくてボーカルスタイルって今は亡きクロスシンセシスの上位互換みたいな機能があって出力される音声も高音質
正直ボカロでいま勝てる要素(独自の要素)なんてボカロチェンジャーくらいじゃない?
せめてボカロチェンジャーで変換したあとの音声を編集できる機能が付けばもう少し変わりそうだけど… SynV使ってて思うのは、15年前のボカロ曲みたいな感じにするのは難しいってことなんだよな
ただリアル寄りの歌声合成の需要は間違いなくあるからSynVは売れる
VOCALOID、特にクリプトンはIPがすごく大事なようなんで、確かに「所謂初音ミク」とか「所謂鏡音リン」から逃れられない呪縛はあるだろうね
そういう意味でエレピ発言はわかるけど、VOCALOIDの新バージョン出すなら、ボカロ曲っぽい調声もリアル寄りの調声もどっちもできて初めてSynVに勝てる気がする。
moogのシンセなのに今風のかっこいい音しか出せなかったらだめだし、もちろん中途半端もだめ。伝統のサウンドと今風のサウンド、どちらも出せるみたいな幅があるなら皆可能性を感じて買うと思うんだけど。
クリプトンと条件交渉でなんか揉め事があったのかもしれないけど、クリプトンのIPを殺すようなことするのは普通に悪手だったと思うなあ
まあそれにしたってVOCALOID6でApple Siliconに対応できなかったのはソフト部隊がお粗末としか言いようがないと思うけどね。 >>40
>正直ボカロでいま勝てる要素(独自の要素)なんてボカロチェンジャーくらいじゃない?
せめてボカロチェンジャーで変換したあとの音声を編集できる機能が付けばもう少し変わりそうだけど…
それSynthVでいうオーディオToMIDIだから
それが付いたところで勝てないよ >>41
>SynV使ってて思うのは、15年前のボカロ曲みたいな感じにするのは難しいってことなんだよな
それAIのデータベースでしょ
SynthVにはStdと呼ぶ非AIのボカロと同じ素片接続方式のDBがあるからそれ使えばボカロっぽくなるよ
>VOCALOIDの新バージョン出すなら、ボカロ曲っぽい調声もリアル寄りの調声もどっちもできて初めてSynVに勝てる気がする
クリプトンもYAMAHAもそこにこだわってる印象を受けるんだけど、ボカロっぽいのがいいならボカロ使えば良くないか?
AIとボカロのような非AIの素片接続方式とは合成方式が全く違うからエンジンが別物になる
なのでCeVIOなんかは別々のソフトになってるし、VOCALOIDは編集パラメータに互換性が無い
ところがSynthVは同一エディタでAIと非AIのStdのパラメータがほとんど同じでシームレスに扱えるので、AIのDBで編集したあとピッチを維持したままStdに歌声だけ差し替えることが出来る
これを利用すればAIとStdの両方あるDB、例えばSaki AIで編集したあと同一トラックでピッチを維持したままSaki Stdに差し替えればまるでAIのように歌うボカロ風の歌声に出来る
もちろんSaki AIで編集して小春六花Stdに差し替えるとかも出来てSaki AIの歌い方をするボカロっぽい小春六花になる
最近はStdのDBの発売が無いので初期のDBに限られるけどAIとStd両方出てるのは以下の通り
Saki
ついなちゃん
弦巻マキ
京町セイカ
小春六花
StdのみAI無しが
琴葉茜葵
GENBU
つまりSynthVで初音ミクAIとあえて初音ミクStdも同時に発売すれば、もちろんボカロと同じものにはならないけれどボカロ風素片接続方式の初音ミクもSynthVで扱える
ここまで書いてて思うけどSynthVマジで死角が見当たらないほど強すぎる Synthesizer Vはこまめにメジャー級のバージョンアップしてるけど追加料金取らないのも凄い AI美空ひばりなんて紅白で披露しなければ良かったのに。何で受けると思ったんだろうな企画者は
あの炎上で開発者も大半が去ったんじゃないの? −−ベタ打ちで、誰でも簡単に人間そのもののような歌い方をするのもいいと思いますが、
VOCALOIDが目指しているのはそれとは違う、ということですね。
大道:同じメロディー、同じ歌詞であっても、強く歌うのか、優しく歌うのか……など、
作り手次第であるべきで、全部同じ雰囲気になるのではクリエイターの意思が発揮できないな、と思うのです。
たとえば”Let It Go”なんか、その典型例で、同じ歌詞・メロディーだけど、
1番のサビと3番のサビではまったくといっていいほど歌い方、打ち出し方が違っていて、
それがこの曲の楽しさ、素晴らしさだと感じています。だから歌詞と音符だけで、
自動で判断していいのか、ということですね。
https://www.dtmstation.com/archives/58383.html
「VOCALOIDは楽器」と言うならむしろ同じように演奏したら同じ音がするのが正しいわけで
いわゆる「ベタ打ち」をしたらみんな同じ歌声になってもいいと思うけどね
強く歌うのか優しく歌うのかを自動でやるなら「Artistically」とかの名前で
AIの介入強度のパラメータを用意して、ゼロなら単調に、100なら渾身の歌唱になるようにすればいい
(VX-βでやってるかもしれんが落選したので知らん)
”Let It Go”の例ならArtisticallyゼロで1番のサビと3番のサビが同じ歌い方、100で全然違う歌い方になるようにすればいい
しかもそのパラメータはオートメーションで曲中どんな場所でも任意に変えられるようにね
せっかくAIを使ってるのにベタ打ちでの人間らしさを控えるのは
「ベタ打ちで極めて人間らしい歌声でありながらもクリエイターの個性を存分に発揮できるソフト」
が作れないだけじゃないのと思ってしまう
「VOCALOIDは楽器だから」なんてのは逃げの言い訳に聞こえる
SynthVではAIが歌詞の意味を解析して自動で歌い方を変えることまではやってないから
YAMAHAの技術力の意地を見せてSynthVより先にそこまでやったら見直すけどね 楽器なんだったらもっと安価で性能が良くて使いやすい楽器にユーザーが流れるのは仕方ない流れだよね
ボカロ限定で出てるライブラリに高いエディタ買ってでも使いたいと思わせるほどの魅力があればいいんだが、5月に出た符色は2週間前に出たSynthVテトに完全に話題を持っていかれて空気だったし、頼みの綱だったGUMIもSynthV版が出ちゃうしでもうボロボロじゃないか >>46
その架空のArtistically機能と似た目的を持つ機能がSynthesizerVのリテイクにあるピッチや声質の表現の強弱にあたる
全ノートを共通で変化させるグローバル設定と選択したノートを全て同じ値にする個別設定がある
元の歌唱と比較するならテイクを変えて値を変更すればいい(VOCALOID6のテイク機能と根本的に違う)
ピッチの方は音程補正ではなく歌唱としてピッチ変化を整えるような歌唱補正もあるし
声質の方はピッチ変化に対して声を変化させる強度になるんでノート内を単に均一的に変化させるものでなく歌唱の変化に貢献する
>>26に歌唱に変化をつけるための新たな手段をいくつも提供と書いたうちの1つ
ディスるのが目的でなくヤマハに裸の王様になって欲しくないから書いてる
過去に書いたVOCALOID5のSingingSkillが内部でLuaを使ってるとかレンダリング結果を隠しフォルダにファイルとして
保存して終了時に削除するってのと同じような純粋な技術論と捉えて欲しい
なかなか見えてこない部分をハッキリさせた方が技術的な話もしやすい >>43
SynthesizerVのスタンダードには良さも問題点もある
接続部分をAI生成にしたハイブリッドなのでダイフォンやトライフォンの膨大な収録も必要なく制作側のメリットもある
だからデータベースのサイズもVOCALOIDに比べて小さい
スタンダードで困るのがVOCALOIDのような特定の音域で声の響きが変わらないこと
メロディがVOCALOIDのキーを意識して作っていてもスタンダードには意味がない
ピッチシフトがVOCALOIDより品質が高いためか歪みがないので独特の響きが出ない
だから作る側も聞く側も期待外れ感が出て人気が出なかっただろうしスタンダードが提供されなくなってかなりの年月が経つ
AIのトーンシフトがあれば誤魔化す手段になりそうだけどサンプリングデータを利用してるとトーンシフトは実現できない
AIしか使ってないとしても(スタンダードであっても)「15年前のボカロ曲みたいな感じにするのは難しい」と書いたのは外していない VOCALOID 5以降は4までと比べると全くと言っていいほど売れてないよね
特に6なんか開発費すら回収出来てるのか疑問に思うぐらい
VOCALOIDはほぼ4年ごとにメジャーバージョンアップしてきたのに
2018年7月のVOCALOID 5の発売から4年を過ぎても何の発表も無く
しびれを切らしたインタネ村上社長に「今年中に出ないなら他社に乗り換える」と急かされて
未完成、未発表のまま2022年10月に急遽6がMegpoidと同時発表・発売されたぐらいだし
なんでそんなに売り上げを気にするそぶりも無くのんびり開発出来るのか
「他社製品を正確に理解しているわけではない」とか悠長なこと言ってるし
昨日某生放送に出てたVOICEVOX開発者の人なんかVOICEPEAKとかCeVIOとかめっちゃ研究してると言ってたよ
タダで配ってるソフトなのにね
何度も引用してるDTMステーションの記事が2022年10月でVX-βの発表が約1年後の2023年8月末だから
その1年の間に変えなきゃ、変わらなきゃ、という危機感みたいなものが芽生えた結果ならいいんだけどね どう考えてもV5とかいうゴミ買った人はもっと優遇すべきだろと思ってたら
まさか早々に期間限定とはいえアップデートした実質無料版出してV6買った人すら殺しにかかるとはね
本当に金払っちゃダメだよ今のVOCALOIDには V5は当初から2年後あたりまでゴミと言われても仕方が無いのは事実として認めるしかないはず
V6のVOCALOIDパートは比較的にマシなので「現在V5を常用してる人」ならV6にバージョンアップも悪くない
それで「過去の自社製品を正確に理解しているわけではない」ってネタみたいな憶測を書くと
>>50に関係する話でVOCALOIDを理解してた人材がV5の頃はいなかったんでは?という懸念があった
V5教の信者(仮称)というか新製品を過信して素で自分達が正しいという上から目線の対応に感じた
V5リリースから2ヶ月経たないうちにとのやり取りは時間の無駄と判断した
品質の悪さの一例としてはV5は常識的な作り方をしてなかったのか凶悪な不具合コンボがあった
設定ファイルのリード処理のエラーリカバリーが無かったようでファイルが壊れたらクラッシュする
新バージョンへの設定引き継ぎのためアンインストールしても設定ファイルは削除しない(これは一般的に妥当)
リリース当初はクラッシュする不具合が多く設定ファイル更新中にクラッシュすると設定ファイルが壊れる
実際にV5が起動しなくなって再インストールしてもクラッシュして起動しないと嘆いてた人達が一定数いた
アップデートしていれば設定は履歴管理されてたのでロールバックは可能だったがアップデートしてないと無事な設定ファイルがない
隠しフォルダのファイルを手動削除かOSの再インストールが必要になって知らないと詰む
もう関わりたくないし初歩的な不具合はすぐに直すだろうと放置してたら対応に2年程度かかってた
自分達は正しいので環境依存の問題だと放置してたら救いがない 編集中に書いてしまってサポートが抜けた
V5リリースから2ヶ月経たないうちに「サポート」とのやり取りは時間の無駄と判断した どうせすぐvxβの有料版が出るだろうに何万も払ってv6買ってどうすんだ 無償でなくなったVX-βにそれほどの価値あるのか? AIボイスチェンジャーの進化凄いな
声優の声拾ってきて自分の口調で喋らせたり
歌唱力に自信あるなら歌わせることもできる
ボカロもVOCALO CHANGER機能あるけど
これからのVOCALOIDに求めるのは声自体を作れる
歌声ライブラリとかもう時代遅れ 送信ミスって晒しageみたいになってしまった
自分で歌声が作れるようになったとしても大勢が同じものを使える歌声ライブラリの需要は無くならないよ
お手製の服とユニクロの服みたいなもんだ 歌声ライブラリとやらを自分で作れるアプリってある?
アナログシンセみたいな SynthVのスレで似たようなことが話題に上がってたけれど、
特徴のある歌声ライブラリは個性になるから強いんだよね。
なんでもありになると聴く側のスキルも試されるというか。
いつまでも808のサウンドは使われ続けるというのと似ている。ローランドなんかもうそれしかやってないしね。 YAMAHAのSEQTRAK買ってまた曲作り始めたけど
やっぱ聴いて貰うには歌付きじゃないとね
ボカロ界隈どうなってるのか知らんけど
ニコニコ衰退したからもう以前のような盛り上がりはないだろうから
ミクに拘らなくていいのかなって。
だからAIボイスチェンジャーの話をちょっと振ってみたんだけどね
サンキュー Vocaloidは、基本ピッチベンドのレンジや変化、パンポット等のGS命令的なMIDIメッセージは基本反映されるという認識でいいでしょうか
SC-8850とMIDIシーケンサで歌声パートを打ち込んでそのMIDIトラックをEditorで読み込んだら、歌声にピッチとかパンが反映されてたのでおおと思った
V4のエディター自体でピッチの変化とかのの打ち込みって結構しんどいので 式狼縁発売、UTAUのキャラが狭義ボカロとして製品化されるのは初だが果たしてどうなるか
男声獣頭キャラなのでインタネの花響琴より厳しそうなイメージがあるが… 花響琴デモ曲聴いたけど声に魅力を感じないしボカロ6もイマイチだし
よくこれを発売しようと思ったなぁという印象
SV GUMIと比べたらたぶん爆死レベルで売れないよ
GUMIのボカロ6追加ライブラリのSOLIDもデモがsoundcloudで公開されてて英語のコメントが付いているけど批判的なコメントしか無いし
インタネはV6の発売を急かしたから筋を通してボカロを続けてるだけでビジネス的にはほとんど利益出てなさそう だってsynthvあるのにこっち買う理由ってなんだよ… ボカロ買う人はああいう機械合成音声感を求めてるんだと思う
synthesizerVのテトも機械感ある声だけど人気あるわけだし
生っぽい声が欲しい人はsynthesizerVの他のライブラリで良い SynthVのテトを弄っても、簡単にボカロ感は出せないので、VOCALOIDの Apple Silicon対応はしてほしいなあ。
V4Xの有償アップデートでいいから対応してくれないかなあ