【AI】人間らしい音声の合成を目指して感情の表現も可能なオープンソースの読み上げAI「StyleTTS 2」が登場 [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
人間らしい音声の合成を目指して感情の表現も可能なオープンソースの読み上げAI「StyleTTS 2」が登場
大規模音声言語モデル(SLM)と拡散モデルによる敵対的学習を利用して、人間レベルの読み上げ音声を合成できるText-to-Speech AI「StyleTTS 2」を、コロンビア大学の研究者らが開発しました。
StyleTTS 2は参照する音声を必要とせず、読み上げるテキストに最適なスタイルを生成し、ネイティブスピーカーと同じくらいなめらかに英語を読み上げることが可能です。
[2306.07691] StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
https://arxiv.org/abs/2306.07691
(以下略、続きはソースでご確認ください)
Gigazine 2023年11月22日 09時45分
https://gigazine.net/news/20231122-style-tts-2/ StyleTTS 2のデモページ
https://styletts2.github.io/
あと二歩か三歩で(英語の)アナウンサーの仕事が激減しそう
SofTalk(ゆっくりボイス)が登場してもう15年以上経つから、
日本語読み上げも置き換わって欲しいな 義経千本桜の鮓屋の段の梶原平三みたいに、本心と違ったことを言っているのも表現できるの? >>4
楽譜記号とかイントネーション記号みたいに、AIに指示する何かを文章に埋め込まないと(まだ)無理じゃね?
朗読とか小話とかって、ただのアナウンスメントとはだいぶ違う技術が必要だよね
全然関係ないけど、北朝鮮のおばさんアナウンサーを思い出したw 裏腹な感情表現は、人間でも注釈というか演者がそのように意識して演じないとダメなやつじゃろ
単なる読み上げ以上の演技を機械にさせるなら、感情表現の指示は別に必要になりそうかな レストランのメニューを読んで人々の心を感動させ涙を流させるようになれるまでにはどれだけの年月が。 ■ このスレッドは過去ログ倉庫に格納されています