>>1は下記の上位互換の性能か!

◆強力な符号化による合成音声として再構成されている
・スマホでは、話された声を「音源(声帯の振動)」と「フィルタ(声道)」の情報に分解し、高度な圧縮方式(CELPやハイブリッド方式)を使って伝送します。そして受け手側では、「コードブック」と呼ばれる音の辞書から、話者に似た音色を選び、合成された音声として再生される仕組みです。

◆固定電話との違い
・固定電話では、声の波形が直接相手へ伝わる「波形符号化方式」が使われており、本人の生声に非常に近い音質です。
・一方、携帯・スマホの通話は通信回線の負荷軽減のための圧縮・合成方式を使っており、固定電話に比べると音声の再現が異なります。

上記の機能の上位互換が下記で誰にでも成りすませる


「なりきりマイク
なりきりマイクには、ヤマハが培ってきたAI技術を駆使した音声合成技術『TransVox(トランスヴォックス)』が用いられています。TransVoxの技術は主に3つの要素に分けられます。
事前に大量のボーカル音源を聴いて
アーティストの声が持つ特徴を分析してデータ化
Learning(学習)
アーティストの歌声の特徴を覚えるために、AI技術が生かされています。アーティストの大量のボーカルデータをAIに学習させることで、歌声の特徴、抑揚、癖などを把握します。
マイクで歌った人の歌声をAIが分析し
瞬時に楽譜のようなデータに変換
Analysis(分析)
マイクで歌った人の歌声をAIが分析します。その人がどのような音を出しているのか、どのような抑揚なのかを判断し、楽譜に近いようなデータにしてから、その情報をアーティストの歌声を学習したAIに送ります。
できあがった楽譜をトリガーに
アーティストの声が持つ特徴を瞬時に合成して出力
Conversion(変換)
アーティストの歌声を学習したAIが、「アーティストがこの楽譜を読むと、こう発音して、こう歌うだろう」と瞬時に判断し、音声をその場で合成します。
自分の声にエフェクトがかかった音声ではなく、アーティストの声を継ぎ接ぎした音声でもない。アーティストらしい歌声を推定して合成した音声を生み出すところが、一般的なボイスチェンジャーやエフェクターとの大きな違いです。
また、なりきりマイクを実現するために、低遅延で瞬時に合成する技術と、カラオケボックスでマイクに入ってくる大音量のBGMなどを拾わず、人の声だけを拾って音声を変換できる技術を実現しました。これもTransVoxの大きな強みだと考えています。
カラオケ内でのTransVoxは、その場で発せられた歌声を分析する部分と、それをもとにして歌声を合成する部分の二つのパートに分かれていますが、歌声を合成する部分は、これまでVOCALOIDなどで培ってきたヤマハの技術が詰め込まれています。
AIに関しても、2010年代後半から深層学習の技術を使った研究を続けています。名ピアニストとして知られるグレン・グールドの演奏をAIに学習させ、楽譜を与えたら、その人らしい演奏を再現する『Dear Glenn』というプロジェクトはその一例です。ヤマハの歌声合成技術への取り組みと、AIへの取り組みの結晶がこのTransVoxなのです。