AIを使った音声圧縮で従来の圧縮を超えた技術「Encodec」が実現
https://gigazine.net/news/20221102-ai-compress-audio/
2022年11月02日 08時00分
ガブリエル・シナエーブ氏らによるMeta AIの研究チームが、インターネットにおける音声の「圧縮」に対してAIを用いることで従来の圧縮よりもさらなる圧縮が可能である、という研究を発表しました。AIを用いた圧縮により、豊かなマルチメディア体験を楽しむことができると説明しています。
Using AI to compress audio files for quick and easy sharing
今日のインターネットにおいて「圧縮」はなくてはならない要素で、圧縮により、高品質な画像やストリーミングが可能になります。しかし、現状の圧縮技術には高速なインターネット接続と十分なストレージ容量が必要になり、高品質で中断のないインターネットは一部の人しか体験できません。
そこでMeta AIの研究チームは、AIを用いてオーディオデータを圧縮することを研究しています。AIを用いたアプローチでは、リアルタイムで音声を圧縮・伸長させ、最先端のサイズ縮小を実現することができると発表しました。今回の研究では64kbpsのMP3と比較して、約10倍の圧縮率をCD品質である48kHzサンプリングのステレオ音声で品質を落とすことなく実用化しています。
(略)
※省略していますので全文はソース元を参照して下さい。
AIを使った音声圧縮で従来の圧縮を超えた技術「Encodec」が実現【GIGAZINE】 [少考さん★]
■ このスレッドは過去ログ倉庫に格納されています
2022/11/02(水) 11:41:28.82ID:1yCjsFgg
2名無しのひみつ
2022/11/02(水) 11:49:56.61ID:BbeVV9t4 圧縮データを再生したら捏造音声になってたアル
2022/11/02(水) 11:58:44.43ID:fXRDRzOp
昔からあるオートエンコーダーでも65kbyteを4byteくらいへ圧縮できるよな
4名無しのひみつ
2022/11/02(水) 12:09:42.67ID:PluUUriP 実物の音声を聞かなければなんとも
5名無しのひみつ
2022/11/02(水) 12:13:08.14ID:PluUUriP 実物の音声を聞いた
たしかに圧縮はうまく出来てるんだろうが
CD音質というのはおそらく嘘だと思う
たしかに圧縮はうまく出来てるんだろうが
CD音質というのはおそらく嘘だと思う
2022/11/02(水) 12:13:32.14ID:IiTysW0M
AIがファイル名を見てテキトーに考えて音を合成する様にすると、全ての音データは数バイトで表現できるようになる。
2022/11/02(水) 12:28:22.93ID:tTrxIigp
音声圧縮なのにmp3と比較の時点でなあ
AMRと比較しないと同じ土俵にならないでしょ
AMRと比較しないと同じ土俵にならないでしょ
9名無しのひみつ
2022/11/02(水) 12:38:12.71ID:bkLuaIZI これ最近AIがやった未知の数式変換と同じだよな
結果が似たような物になるなら既存の法則をぶっ壊しても構わないってやつ
あれはほぼランダムに見える炎の動きを圧縮してたが、これ系の分野はまだまだ伸びると思う
結果が似たような物になるなら既存の法則をぶっ壊しても構わないってやつ
あれはほぼランダムに見える炎の動きを圧縮してたが、これ系の分野はまだまだ伸びると思う
10名無しのひみつ
2022/11/02(水) 12:48:30.25ID:PluUUriP これトレーニングしたモデルは
他の音源でも同じように圧縮に使えるの?
他の音源でも同じように圧縮に使えるの?
12名無しのひみつ
2022/11/02(水) 13:01:25.93ID:lmbQEGPm 普通は圧縮に可聴域以外の音域や音量低い部分とかの切り取りがあるからな
ロスレスかそれに準ずる位の細かいモジュール化が行われているんだろうか
例えば倍音成分を補完する事をカーオーディオ等では二十年程前から既にやってるよな
機能を振り分ければある程度は再現可能だから、並列処理させるための手法を編み込んだ即席リマスターの応用みたいなもんだろうか
と思ったら全く同じことが書いてあった
具体的に何してるかは良くわからんけど
ロスレスかそれに準ずる位の細かいモジュール化が行われているんだろうか
例えば倍音成分を補完する事をカーオーディオ等では二十年程前から既にやってるよな
機能を振り分ければある程度は再現可能だから、並列処理させるための手法を編み込んだ即席リマスターの応用みたいなもんだろうか
と思ったら全く同じことが書いてあった
具体的に何してるかは良くわからんけど
14名無しのひみつ
2022/11/02(水) 13:05:08.68ID:tmM6Hmbc 圧縮率上げると時間かかるんだよな
ものによるしな
ものによるしな
16名無しのひみつ
2022/11/02(水) 13:25:13.22ID:lmbQEGPm というか音声サンプルではチリンチリン鳴るアレの音が一切しないな
可聴域の音まで削れてるわ
可聴域の音まで削れてるわ
17名無しのひみつ
2022/11/02(水) 13:58:08.89ID:scNNY3Vk 年寄りとか女の話が長いから
要約してくれるAIはないかな
要約してくれるAIはないかな
18名無しのひみつ
2022/11/02(水) 14:21:48.61ID:AzT2MOsS19名無しのひみつ
2022/11/02(水) 14:37:17.69ID:lmbQEGPm21名無しのひみつ
2022/11/02(水) 14:58:30.05ID:iTL3PWEU 楕円関数の暗号化技術を使う?
22名無しのひみつ
2022/11/02(水) 14:59:50.79ID:MQye9Vb4 インターネットでは多くの場合、音声と動画像はセットで扱われることが多い。
音声の圧縮率が上がっても、全データ量には、ほとんど影響しないダロ。
音声の圧縮率が上がっても、全データ量には、ほとんど影響しないダロ。
23名無しのひみつ
2022/11/02(水) 15:06:12.80ID:uTZP8xUm 今、AM放送で使われている1000khzくらいの搬送波でも音声のデジタル化が出来そうだね。
25名無しのひみつ
2022/11/02(水) 15:16:42.49ID:uTZP8xUm >>23
アメリカではとっくの昔にHDラジオってのが始まっていたのね、、、
アメリカではとっくの昔にHDラジオってのが始まっていたのね、、、
27名無しのひみつ
2022/11/02(水) 16:21:55.45ID:xBjqmfA7 理論家が一生懸命考えたものを機械学習で
ぶっ飛ばすとたまらんな
ぶっ飛ばすとたまらんな
29名無しのひみつ
2022/11/02(水) 16:28:08.82ID:6urVRuYI 圧縮率上げると時間かかるんだよな
ものによるしな
ものによるしな
30名無しのひみつ
2022/11/02(水) 16:32:00.15ID:UrhKjCcZ31名無しのひみつ
2022/11/02(水) 16:40:21.07ID:lmbQEGPm 物理法則にもAIが発見したとされるなんらかの物理定数のニュースがあったけど、巨視的な規模なのか微視的な規模なのかを上手く説明してる記事では無かった
AIの発見を間接的にでも説明出来るのがAIだけになる日も近いな
AIの発見を間接的にでも説明出来るのがAIだけになる日も近いな
32名無しのひみつ
2022/11/02(水) 17:55:52.74ID:Q40qEjHR >>1
円光でっか
円光でっか
33名無しのひみつ
2022/11/03(木) 07:16:15.58ID:RRXLdSBY そう思うと楽譜って圧縮率すごいな
35名無しのひみつ
2022/11/03(木) 17:36:23.94ID:kNzIdCHL クラウドストレージのデータは人知れずこういう学習に使われてんだろうな
36名無しのひみつ
2022/11/03(木) 17:52:03.89ID:YcMG71Wh >>5
多分JPEGとかと同じで不可逆圧縮なんじゃね
音質は普通に上げられると思う、ただし、原音と1bitも違わない、とは言えないだろうが、
人の耳では全く分からんというか、当人でも当然毎回同じようには歌えないのと一緒で
その程度の違いしかないんじゃないのかね
多分JPEGとかと同じで不可逆圧縮なんじゃね
音質は普通に上げられると思う、ただし、原音と1bitも違わない、とは言えないだろうが、
人の耳では全く分からんというか、当人でも当然毎回同じようには歌えないのと一緒で
その程度の違いしかないんじゃないのかね
37名無しのひみつ
2022/11/03(木) 19:26:51.43ID:ZJI1FgEl 送りAI青い空って曲だ
受けAI青い空のCDかけますね
圧縮率100万倍w
こうですかw
受けAI青い空のCDかけますね
圧縮率100万倍w
こうですかw
39名無しのひみつ
2022/11/03(木) 19:52:11.03ID:pI7PHiyb 細かい事言うと非可逆と書いてあるけどな
というかなんで最近記事を見ないのが殆どなんだろう
ニュースの内容受けずに話して面白いか?
というかなんで最近記事を見ないのが殆どなんだろう
ニュースの内容受けずに話して面白いか?
40名無しのひみつ
2022/11/03(木) 23:13:14.69ID:fIKbKt+P AIは人の耳の性能までシミュレートできないからおそらくパターン抽出を使った圧縮だろう
極論を言えばMIDIで演奏を忠実に再現してるなものと同じ
そりゃまあ極小サイズでCD音質にもなるわなという
合成音声も守備範囲になればさらに表現力は増すだろうが現状は無理そうやね
極論を言えばMIDIで演奏を忠実に再現してるなものと同じ
そりゃまあ極小サイズでCD音質にもなるわなという
合成音声も守備範囲になればさらに表現力は増すだろうが現状は無理そうやね
41名無しのひみつ
2022/11/04(金) 00:19:54.46ID:/m7UD4aR エンコードとデコードがセットなので、どちらかと言うと擬似的な再現による補完というよりも
音の解像度にも関わるより細やかな波形の圧縮技術により簡略化かつ大規模に削る技術が出来たという話っぽいな
記事のソースに言われてる論文を見たわけでは無いけど、仕組みの画像を見た感じでは終始原音には忠実だと強調しているように見える
翻訳部だけど
>デコーダーは最後のステップです。圧縮された信号を可能な限りオリジナルに近い波形に戻します。非可逆圧縮の鍵は、人間が認識できない変化を識別することです。
音の解像度にも関わるより細やかな波形の圧縮技術により簡略化かつ大規模に削る技術が出来たという話っぽいな
記事のソースに言われてる論文を見たわけでは無いけど、仕組みの画像を見た感じでは終始原音には忠実だと強調しているように見える
翻訳部だけど
>デコーダーは最後のステップです。圧縮された信号を可能な限りオリジナルに近い波形に戻します。非可逆圧縮の鍵は、人間が認識できない変化を識別することです。
42名無しのひみつ
2022/11/04(金) 00:51:25.18ID:/m7UD4aR 圧縮するにしたがって減る音って割と中~低音域とかで、しかもビットレート差なのかどこか断続的な音になる、というか明瞭感下がるんだよね
ポータブルプレーヤーがまだあった(SD容量小さい)時期に、64kbpsあたりのMP3で聴いてた人ならなんとなく判ると思うけど
ただAIだとそこら辺があまり籠らず明瞭で中高音域の楽器がすっぽり抜けてるところが違いが出てて面白い
ポータブルプレーヤーがまだあった(SD容量小さい)時期に、64kbpsあたりのMP3で聴いてた人ならなんとなく判ると思うけど
ただAIだとそこら辺があまり籠らず明瞭で中高音域の楽器がすっぽり抜けてるところが違いが出てて面白い
45名無しのひみつ
2022/11/04(金) 11:15:47.55ID:BcUx99cP メタのAIチーム凄すぎない?
本業のクソっぷりと差がありすぎる
本業のクソっぷりと差がありすぎる
46名無しのひみつ
2022/11/04(金) 11:58:37.37ID:shXxI+wv AIだから不可逆の意味が分からない
可逆なら可逆で相関関数と係数の決定に機械学習が介入して圧縮率向上する余地はある
可逆なら可逆で相関関数と係数の決定に機械学習が介入して圧縮率向上する余地はある
50名無しのひみつ
2022/11/04(金) 17:35:59.46ID:QjYm+709 「この部分の情報は捨ててもだいたいこうだろう」で圧縮技術が進んでくと
「こいつが喋るならだいたいこうだろ」に行きつくのかね
モザイク破壊みたいに
「こいつが喋るならだいたいこうだろ」に行きつくのかね
モザイク破壊みたいに
51名無しのひみつ
2022/11/04(金) 17:45:29.65ID:dferxRgh > お前は馬鹿の部類だな
十分だと言ってるのにバカなのかなあw
> AIだったらなぜ不可逆がデフォなの?理由は?
普通に考えればそうしかならんわ、ほんとバカw
大体、それで何が言いたいんだ?だから読め、というつもりかwお前はどこまで低能なんだよw
十分だと言ってるのにバカなのかなあw
> AIだったらなぜ不可逆がデフォなの?理由は?
普通に考えればそうしかならんわ、ほんとバカw
大体、それで何が言いたいんだ?だから読め、というつもりかwお前はどこまで低能なんだよw
52名無しのひみつ
2022/11/04(金) 19:24:03.00ID:/m7UD4aR >>51
だから不可逆圧縮になるのが当たり前っていう理由を聴いてるんだが?日本語すら理解出来ない知能なのかな?
「リアルタイムで圧縮・伸長させる」って概前だけ見て知った気になってる恥ずかしい阿保
馬鹿とアホがセットで来てるわ
だから不可逆圧縮になるのが当たり前っていう理由を聴いてるんだが?日本語すら理解出来ない知能なのかな?
「リアルタイムで圧縮・伸長させる」って概前だけ見て知った気になってる恥ずかしい阿保
馬鹿とアホがセットで来てるわ
53名無しのひみつ
2022/11/04(金) 19:39:42.83ID:2n4tF2Q1 不可逆圧縮を理解していない可能性
54名無しのひみつ
2022/11/04(金) 19:59:50.46ID:6qufKq6E ワイの特許にmp3の発明者が被せてきてワイがブロックしたんやがw
55名無しのひみつ
2022/11/04(金) 20:45:18.39ID:KZk2fkrf なんでお前らよく知らない技術の話でそのもの調べることもせず知ったような単語並べて言い合いしてるわけ?
57名無しのひみつ
2022/11/04(金) 22:00:25.72ID:/m7UD4aR58名無しのひみつ
2022/11/05(土) 01:09:12.05ID:zMFicFCQ リアルタイムいけるなら携帯の音声品質も上がるな
59名無しのひみつ
2022/11/05(土) 01:42:39.25ID:dRg8H1hW マジで知らない分野
60名無しのひみつ
2022/11/05(土) 02:43:17.68ID:3hi2ABQg 馬鹿だのアホだのといった言葉がポンポン出てくるやつって、性格が悪くて嫌われているんだりうな。
こんなスレで知識をひけらかすのもさもありなんだな。
こんなスレで知識をひけらかすのもさもありなんだな。
61名無しのひみつ
2022/11/05(土) 04:14:13.20ID:jajIgMt962名無しのひみつ
2022/11/05(土) 08:39:05.20ID:xAU+ARs+ 周波数を捨ててるわけじゃないだろ
AIは人の耳のことわからないからどれを捨てるかなんて判断できない
AIが得意なのは回帰とパターン抽出
楽器の出す音には決まった波形パターンがあるからそういうのは得意だろう
GitHubにソースあるからぱっと見すると波形と長さに分割してデータ化してる
AIは人の耳のことわからないからどれを捨てるかなんて判断できない
AIが得意なのは回帰とパターン抽出
楽器の出す音には決まった波形パターンがあるからそういうのは得意だろう
GitHubにソースあるからぱっと見すると波形と長さに分割してデータ化してる
63名無しのひみつ
2022/11/05(土) 09:39:18.76ID:mqeSBVA6 >>61
ほらな何も知らないw何も説明出来てなくてワロタ
このEncodecも全く同じ事をしてるんだが?記事すら読んでないなコイツ
仕組みを説明しろっつってんのに語る内容が薄っぺらい上に間違ってる
判断が不要じゃないワケ無いだろそれ?なぜ不要になるの?
お前は既に知らない領域の話だけど、波形データの圧縮率を上げる為に符号化する部分の選択が可逆圧縮と不可逆圧縮で同じになる理由を説明しろ
お前はただそれっぽく語ってるだけの無知だな
ほらな何も知らないw何も説明出来てなくてワロタ
このEncodecも全く同じ事をしてるんだが?記事すら読んでないなコイツ
仕組みを説明しろっつってんのに語る内容が薄っぺらい上に間違ってる
判断が不要じゃないワケ無いだろそれ?なぜ不要になるの?
お前は既に知らない領域の話だけど、波形データの圧縮率を上げる為に符号化する部分の選択が可逆圧縮と不可逆圧縮で同じになる理由を説明しろ
お前はただそれっぽく語ってるだけの無知だな
65名無しのひみつ
2022/11/05(土) 10:56:32.69ID:ECfoY5fZ 昔のMIDI音源みたいに学習モデルやグラボが変わったら音質が変わるみたいなことが起こるんだろうなw
66名無しのひみつ
2022/11/05(土) 13:19:16.84ID:pD/LwKtW 通信が速くなったので圧縮技術も廃れてしまったかと思ったが、まだHDDが一杯になる問題は残っているのな。
67名無しのひみつ
2022/11/05(土) 17:47:28.67ID:DHSIFNRZ68名無しのひみつ
2022/11/05(土) 17:51:30.07ID:WTbxmN52 >>52
> だから不可逆圧縮になるのが当たり前っていう理由を聴いてるんだが?
普通に考えればそうしかならんわ、ほんとバカwと言ってるのに日本語理解できないらしいw
>日本語すら理解出来ない知能なのかな?
まさにお前がなw
てか、このキチガイはそれで十分だと言ってるのに、何が何でもその先まで読め、と強制したいのかねえw
十分の意味も理解してないっぽいがほんま狂ってるわなw
> だから不可逆圧縮になるのが当たり前っていう理由を聴いてるんだが?
普通に考えればそうしかならんわ、ほんとバカwと言ってるのに日本語理解できないらしいw
>日本語すら理解出来ない知能なのかな?
まさにお前がなw
てか、このキチガイはそれで十分だと言ってるのに、何が何でもその先まで読め、と強制したいのかねえw
十分の意味も理解してないっぽいがほんま狂ってるわなw
69名無しのひみつ
2022/11/05(土) 17:57:06.98ID:BMh8wcd0 >>67
都合の悪いものは見えなくなるのか?スレで否定されてるのってお前だぞ
それに
>波形データの圧縮率を上げる為に符号化する部分の選択が可逆圧縮と不可逆圧縮で同じになる理由を説明しろ
ここでお前の根拠無い自説を否定しつつお前の知らないだろう事柄をあえて聴いていい加減間違いに気付くか待ってるんだが
都合の悪いものは見えなくなるのか?スレで否定されてるのってお前だぞ
それに
>波形データの圧縮率を上げる為に符号化する部分の選択が可逆圧縮と不可逆圧縮で同じになる理由を説明しろ
ここでお前の根拠無い自説を否定しつつお前の知らないだろう事柄をあえて聴いていい加減間違いに気付くか待ってるんだが
70名無しのひみつ
2022/11/05(土) 17:58:32.90ID:BMh8wcd072名無しのひみつ
2022/11/05(土) 18:43:15.16ID:WTbxmN5273名無しのひみつ
2022/11/05(土) 19:46:55.56ID:aJs8T8hL 文字データと読み上げるAIを指定するだけ!
74名無しのひみつ
2022/11/05(土) 22:08:46.76ID:BMh8wcd075名無しのひみつ
2022/11/06(日) 05:55:57.88ID:raFQips0 アスペこそ科学版から出ていって欲しい。。
76名無しのひみつ
2022/11/06(日) 06:20:59.69ID:bUgVg0Yl >>29 圧縮すれば送信インフラは細くて済むが、 再生側で展開時の負担は増すわな。 更に音声でこういう技術が進歩しても、 情報量の多い映像で解決せんと貢献は小さいし。
77名無しのひみつ
2022/11/06(日) 06:21:41.10ID:9NdMA5Pv 人間はいずれ気づくだろうよ
無音が最強だとな
はやく俺の高みまで登ってこい
無音が最強だとな
はやく俺の高みまで登ってこい
78名無しのひみつ
2022/11/06(日) 06:32:06.85ID:QrqKWl3z79名無しのひみつ
2022/11/06(日) 07:09:31.49ID:M36T5UrG >>78
無料コンテンツに漏れなく広告が付いてて広告を外すには有料のプレミア会員にならないといけない現状を正確に言い当ててるな
無料コンテンツに漏れなく広告が付いてて広告を外すには有料のプレミア会員にならないといけない現状を正確に言い当ててるな
80名無しのひみつ
2022/11/06(日) 12:39:25.41ID:ev/e/0kA81名無しのひみつ
2022/11/06(日) 14:08:03.76ID:DI0sj4iO >>74
> 具体的な中身が無いんで
書いてるじゃんwそもそも予想通りだったわけで何を発狂してるのやらw
大体、お前はそこまで興味のない記事をいかなる事があっても全部読めとかキチガイすぎるわなw
AIだから不可逆だろうってのは自然であって、そもそも自分だってそう判断する癖にほんま狂人w
そこまで興味はなかったというだけであって、何というかアスペの上、異常な幼児的攻撃性というかw
> お前は詐欺師だな、ペテンだよ
いいえ?お前は基地がいだがなw
> 科学板に要らねえ
> 無理なら消えな
誰が見てもキチガイのお前がいらんよw
> 具体的な中身が無いんで
書いてるじゃんwそもそも予想通りだったわけで何を発狂してるのやらw
大体、お前はそこまで興味のない記事をいかなる事があっても全部読めとかキチガイすぎるわなw
AIだから不可逆だろうってのは自然であって、そもそも自分だってそう判断する癖にほんま狂人w
そこまで興味はなかったというだけであって、何というかアスペの上、異常な幼児的攻撃性というかw
> お前は詐欺師だな、ペテンだよ
いいえ?お前は基地がいだがなw
> 科学板に要らねえ
> 無理なら消えな
誰が見てもキチガイのお前がいらんよw
84名無しのひみつ
2022/11/06(日) 17:51:05.60ID:K3a/w8A8 アスペでキチガイって手に負えられんな
85名無しのひみつ
2022/11/06(日) 17:52:16.04ID:K3a/w8A8 普段の人付き合いがどうなのか気になる
86名無しのひみつ
2022/11/06(日) 18:27:32.58ID:EeI/Kg8h あくまでも「音声」というのがミソで、雑音を排除して意味が伝わる程度に音声らしき音に変換するから、高圧縮ができる
いわばケータイで電話するのと同じようなもの
音楽、特にライブ音源なんかには使えない
いわばケータイで電話するのと同じようなもの
音楽、特にライブ音源なんかには使えない
87名無しのひみつ
2022/11/06(日) 19:49:28.33ID:ev/e/0kA88名無しのひみつ
2022/11/07(月) 07:28:43.36ID:9ZeLmXoU 映像からみたらデーターサイズも微々たるもんやろ
今さら意味あるのけ?
今さら意味あるのけ?
89名無しのひみつ
2022/11/08(火) 16:51:28.54ID:Kc3vkVDL 非可逆圧縮なら、音質が多少変わることを
容認してるということ。
だから楽譜と歌詞にまで圧縮できる。
とボーカロイドが出たときに言われてたな。
容認してるということ。
だから楽譜と歌詞にまで圧縮できる。
とボーカロイドが出たときに言われてたな。
■ このスレッドは過去ログ倉庫に格納されています