歌声合成ソフト『 CeVIO Creative Studio 』 Part.5
■ このスレッドは過去ログ倉庫に格納されています
CeVIOに関する情報交換を目的としたスレです。
【「CeVIO」とは?】
「CeVIO(チェビオ)」とは、UGC(User Generated Contents、ユーザー生成コンテンツ)を支援するために生まれた、これまでに無いエンターテイメントを創出する新しいプロジェクトです。
魅力的なキャラクターを生み出す映像・音楽のクリエイター集団と、豊かな感情表現が可能な音声合成技術・歌声合成技術を持つ技術者集団の融合によって生まれました。
CeVIO Creative Studio:CeVIOプロジェクト
http://cevio.jp
ONE -ARIA ON THE PLANETES-(オネ):1st PLACE株式会社
http://1stplace.co.jp/software/cevio/
Color Voice Series:株式会社エクシング
http://camp.joysound.com/colorvoice/
HMM/DNN歌声合成システム:Sinsy
http://www.sinsy.jp/
前スレ:
歌声合成ソフト『 CeVIO Creative Studio 』 Part.4
https://egg.5ch.net/test/read.cgi/dtm/1468540727/ ボカロから来る人は
VST連携が出来ない
声がどれも同じに聞こえる
ボイロから来る人は
VoiceroidUtilが使えない
声がどれも同じに聞こえる
VSTはオリジナル作る人には重要かも知れないが
VoiceroidUtiは無くても良いよな
YMMは直接対応だしAVIUTLはかんしくんで無造作に投げ込んでくれる
同じ声に聞こえるのは単に興味が無いから聞く努力をしないだけだろう
自分が見た中でボイロを触ってからCeVIOに興味を持った人の中で
自分で手法を模索しない人からの中傷にも取れるCeVIO下げは結構目立つなって思った
ある程度は匿名SNSでのケアをしておけばもう少し伸びたのではと思う >>159
ツベとかニコニコで検索してもボカロだと完全に埋もれるよな ProToolsだからVSTだとささらちゃんがささらないんだわ >>165
VSTがささるプラグインをさせばちゃんとささるのでは すまん
間にかませてVST対応にするプラグインがあったな。そういう意味か 8000円そのために出すのかーー、って感じ
本体10000円で 話すことがないだけで使ってる人も見ている人もいると言うことだろう (インストールしたまま)使ってないから話すことがなくてすまんな ボカロに対して優位取れる所が無いもんな
流行るわけがない ボカロも初期に売れた音源以外は鳴かず飛ばず(曲自体の売れ行きも含めて)
というかミクだけ状態 ミクはじめクリプトン一家は例外としても
ONEでIA(JPN)を倒せない現状は厳しいな
IAてるみぃ言えてないし性能面のアドバンテージはこっちにあるはずだが 性能と人気は関係ないっていうのはどんなものでも同じだぞ
すでに一大コンテンツが出来上がってるところに性能で売りに行って伸び悩んでるのはCevioだけじゃない 高性能な方がだいたい負けるゲーム機みたいなもんだな そうだね。簡単にそれなりの品質を得られるけど、VSTではないしね。
どっちも凄いと思うけど、理想からは程遠い。 IAはソングトーク組にならなくて安くならないのがな
英詞使うなら選択の余地はないんだけどいつも後回し 物理モデリングかサンプリングかの違いじゃね
ボイロがサンプリングでなかったら知らん。
というかトーク専ならそっちのスレの方が良いんじゃないかな ボイロは録音されたものを鳴らす大容量サンプラ
チェビオは指定されたしゃべり方を計算するシミュレータ >>185
物理モデリングは関係ない
この板のちょっとおかしな人が
勝手に物理モデリングだと思い込んでるだけ そうだろうね。物理モデリングなら声質はパラメトリックになるはずだからね CeVIOは音声分析の一部にWorldエンジンを使っている事から、メル周波数ケプストラム係数等のパラメーターベースの分析再合成方式にHMM(や最近はDNN)を取り入れた方式っぽい。 ライブラリのデータサイズとエディタのパラメータから物理モデリングに近いものだと思ってたけど 音声合成であってモデリングではない
モデリングと言うなら声帯、気道、鼻孔、舌、唇をモデル化して制御してるのかって話
してないだろ 声を出す仕組みをパラメーター化してるって話を聞いたような AIりんなの記事読むと物理モデリングの定義が広そうだな。違うと言えば違う
https://av.watch.impress.co.jp/docs/series/dal/1136630.html
> 沢田氏は「人間の歌い方を元にした物理モデリングを行なっています。 一般向け説明でどんな言葉(物理モデリング)が飛び出そうと、
それが音声合成業界で一般に受け入れられていない用語・用法である限り、その分野の未定義用語を比喩もしくはマーケティング目的で不注意に使ってしまったという以上の意味は無い。
「音声合成」はどんな方式であろうと、
大元には人間が声帯や口腔、鼻腔、舌、唇等を使って音声を出す機構の模倣という側面があるけれど、
その模倣方法は千差万別で、声帯や口腔の模型を使った発声実験、模型を抽象化した物理的モデルを扱う調音合成、波形やスペクトラムの特徴量を扱うメインストリーム、そして膨大なサンプルの切り貼りで同等な結果を得ようとする波形接続合成等がある。
そして全ての音声合成の大元に人間の物理的発生機構がある件は、「音響合成」分野でスタンフォード大学CCRMAのJulius O. Smith IIIが提唱した「Physical Modeling」とは直接関係ない。
Smith IIIの認識では、1961年デイジーベルを歌ったベル研の研究は、音響合成方式担当のMax Mathewsが「Waveguide」音源方式の原型を採用した点に関して、Physical Modelingの発端と位置付ける事ができるという程度の話。
そしてその系譜の研究には、声帯や口腔の(流体力学的)模倣を指向する「調音合成 (Articulatoly Synthesis)」や、数少ない商用実装系だったNeXT上のGnuspeechがある。 音響合成分野(そして潜在的には音声合成分野も)は良くも悪くも超ニッチな研究分野らしくて
一見、一般的用語を組み合わせた包括的概念のように見える用語が、実は包括的概念としては広く承認されておらず、特定の研究や方式を指す固有名詞として使われている例が多いので要注意だぬ。
例を挙げると:
・Physical Modeling : スタンフォード大学CCRMのJulius O. Smith IIIが提唱している、Waveguide音源方式他を扱う分野。音声合成分野ではArticulatory Synthesisの一手法。
・Wavetable Synthesis : 1978年に、後のPPG Waveで有名なWolfgang Palmや、作曲家のMichael McNabbが個別に開発し、
1993年Hoyer, Beauchamp & HakenがMultiple Wavetable Synthesisとして再定義を図った、複数波形を時間的に切り替えて音色変化を得る方式。
(波形テーブルを使う方式一般は、古くはTable-lookup synthesis として総称されていた)
・Sinwave Synthesis : 1970年代末Haskins Laboratories のPhilip Rubinが開発した、フォルマントピークを正弦波でトレースする音声合成方式。
日本ではLPC方式の先導的研究にあたるPARCOR方式から発展したCSM (Composite Sinusoidal Modeling
)方式として独立開発され、PC-6001mk2SRやCX5の歌声合成として広く知られている。 匿名掲示板は論文を読めない人が一行連投する場所だからどうでもいいか サンプリングかシミュレーションかの話してるのに勝手に言葉が違う!とかイキって話ずらしてきたのは君じゃん なんだ、的外れな二元論で対立煽りをし始めちゃったよこのバカw
Sinsy、CeVIOの方式なら名工大徳田恵一教授の資料を読めばいいじゃん。
2015年プレゼンを見ると、音声合成の歴史的発展過程が下記のように分類されていて
1. ルールベースのフォルマント合成
2. コーパスベースの波形接続型音声合成
3. コーパスベースの統計的パラメトリック音声合成
ボカロは2番目のグループ、Sinsy.CeVIOは3番目のグループに相当し
両方ともコーパスベースなので、生の音声データに基づく加工サンプル(2の場合)もしくは特徴量の学習データ(3の場合)を使ってリアリティを実現する一方、
特徴抽出・波形生成部に関して3の方式では広義のボコーダー(音声符号化に基づく音声合成エンジン)が使われている。
ただし同プレゼンでは、声帯や口腔の物理シミュレーションは「まだ難しい?」と疑問符付きで示されていて、その方式は使っていない事がわかる 波形生成ならモデリング音源でいいよ
なんか物理モデリングより若干グレードダウン感があるからかっこいい名前付けてくれ もとからボイスシンセサイザーって言われてると思うが >>206
「音声合成の歴史的発展過程〜Sinsy.CeVIOは3番目のグループに相当」と
「プレゼンでは、声帯や〜事がわかる」だけで足りるだろ…
ダラダラと長いと、お前さんが馬鹿だと思われて読んでもらえないぞ
多少正確性を欠こうが、>>194くらいに圧縮してもいい 「パラメトリック」にはルールベースとコーパスベースがある、という程度の話も判別できずにグダグダ絡むのはおぼこ ただでさえユーザー少ないんだから険悪な雰囲気作らないでくれ 徳田さんが読んでも訂正が入らない程度の踏み込み具合にしとかないのがおぼこの踏み込み方 「ダラダラ長いと馬鹿だと思われて読んでもらえない、恥ずかしい」
というセンスに知恵遅れの高齢未通女特有の頭の悪さを感じるね ただ技術のソースのリンク貼れば済むものを。。。
長文でスレを汚さないように気配りしてる住人まるごとアホ扱い。論文読めるの俺だけってところがレベル低いんだけど気付かないんだろうな。 長文読めない自慢と文献探せない自慢の愚痴でスレを埋め立てる痴れ者 いやリンク読みに行くなんて面倒だし書いてくれた方がありがたいよ でもなんか言葉だけで見ると音声のバリエーションあれこれ作れそうなんだが、なんで似通ったような声しか出せんのかね? そもそも匿名掲示板で専門記事や論文の解説をしてもらおうとする時点で、能力のないアホ確定だから相手にする必要がないだろ 皆がひっそりと嗜んでいたのに自称識者がドヤ顔で場を乱してるのが哀しいです
何がしたいの?低能ばーかばーかって煽りたいの? 多分32bitアプリケーションだからだろうけど、何をやるにしても反応がワンテンポ遅いのどうにかならんの?
64bitにするのそんな大変なの?今時64bitに対応してないようなソフト相手にされないだろ その場でレンダリング(っていうのかな?)してから発声するようなメカニズムだからね
64bitにしたから反応良くなるものでもないんじゃない?良くて1割とか 多分マルチコア化も64bit化も全く役に立たん部類のソフトだとは思ってる んなわけねえw
ミュートやソロボタン押すだけでワンテンポ遅れるんだから
俺のi7-7700のPCのせいじゃないぞ CPUとかメモリーとかに負荷がかからない配慮のためだろうか?
トークトラックの追加と削除はとくに気になる重さだ。 将来的にDAW連携が強化される予定があるとの含みを持たせているのに
まだ64bit化されてないのは不安しか残らなくね? Cubaseだとブラックリスト行きだからマジで64bitは必須 そこまでいうならPCスペックと症状でも書けばいいのに
i7-8700/SATA3SSDで特に困ってないけど DAW連携するならの話だよ。32bitとっくに切り捨てられたから 高スペックでドヤ顔されても
問題ないの当たり前だろ馬鹿かw まあ世の中には高スペックすぎて予期せぬ不良動作させてしまう人もいるからね… 話が全くかみ合わないのは
曲を作っているかどうかの違い
DAWとの連携強化を行うなら64bit化は不可欠 曲作ってるけどCeVIOはそういうもんだと割り切ってる
DAWでメロディートラック作る→MIDIで書き出してCeVIOで音声化
→DAWにWAV読み込み
CeVIOの外部WAVミックスは使ったことない まー、もちろん64bit化してRewire対応させて欲しいとこではあるんだけども
再生ボタン押してからレンダリングして再生する今のエンジンじゃ無理だろうなとも思ってる >>241
現状はそれしかないよね
始めに割り当てていた音色だといい感じなのに、
ささらにしたら「あれっ?」ってなるリスクが嫌だけど >>243
ささらさんのaiueoをサンプラーに取り込む(名案) >>233
おめぇまた長文読めない自慢してんかよw ささらがデモに使われてるから後継に期待しちゃうぞ
GPU要求スペック高いだろうけど俺はそれでも欲しい これはCeVIOを買った甲斐があったというものだ
ささらがまたここまで化けるとは思ってなかったからすごく嬉しい CPUじゃなくてGPUになるのん?自前で学習させられるとは思えんが クラウドベースで学習データ適用来るかも
製品化するなら第二世代という扱いかな
CeVIOの名前で出してくれるとユーザーとして嬉しい これまでの流れを汲むなら、歌い方パラメータをセッティング済みのアセットに
さとうささらの声色を乗せたものがパッケージになるイメージだがどうなんだろう。
調整のUIはこれまでどおりでも全然問題ないレベルだと思う。
これでトークとソングの声質の差もかなり埋まる気がする。
タカハシがめっちゃ美声で歌う可能性も出てきたのが今回一番ヤバい。一部の界隈で突沸しそう。 >>253
GPUを使っても計算時間がかかる、と言ってるので
CPUで代用すると10倍くらい遅いと思った方がいい
waifu2xとかCPUで使ってみれば遅さを体感できるよ 仮想通貨業界が瀕死になってやっとGPUもまともな値段に戻りつつあるから仕込むには好機
製品化されるのが何年後なのかだけだな 最適化が進めば速くなる類のものか、プロセッサそのものの計算能力が上がらないとどうしようもないのか
計算能力を要求するタイプなら必然的に多コア対応するようになるだろうけど、多くのPCでは性能不足でまともに使えないものになってしまうおそれも ずっと無料アップデートで悪いくらいに思っていたので、ここらでアップグレードは追加料金でも構わないくらいには思ってる。 サーバーサイドアプリでサブスクリプションという手もある
GPUを個人が買うとソフトより高い出費になるうえ、
最悪、動かない・・・まであるからな
どちらにせよ、DAW連携はもう諦めた方が良さそうw それより心配なのは個人ユースじゃなくて商業展開の方だなあ。
ここまで高品質な発声だとカラオケ屋で自分の代わりに歌わせて楽しむささらカラオケオフすら成立しうるので
GPU枚数に物を言わせて数千曲作りたい職人向けのライセンシーどうするかってなりそうだ ■ このスレッドは過去ログ倉庫に格納されています