X



AIを使った音声圧縮で従来の圧縮を超えた技術「Encodec」が実現【GIGAZINE】 [少考さん★]

■ このスレッドは過去ログ倉庫に格納されています
2022/11/02(水) 11:41:28.82ID:1yCjsFgg
AIを使った音声圧縮で従来の圧縮を超えた技術「Encodec」が実現
https://gigazine.net/news/20221102-ai-compress-audio/

2022年11月02日 08時00分

ガブリエル・シナエーブ氏らによるMeta AIの研究チームが、インターネットにおける音声の「圧縮」に対してAIを用いることで従来の圧縮よりもさらなる圧縮が可能である、という研究を発表しました。AIを用いた圧縮により、豊かなマルチメディア体験を楽しむことができると説明しています。

Using AI to compress audio files for quick and easy sharing

今日のインターネットにおいて「圧縮」はなくてはならない要素で、圧縮により、高品質な画像やストリーミングが可能になります。しかし、現状の圧縮技術には高速なインターネット接続と十分なストレージ容量が必要になり、高品質で中断のないインターネットは一部の人しか体験できません。

そこでMeta AIの研究チームは、AIを用いてオーディオデータを圧縮することを研究しています。AIを用いたアプローチでは、リアルタイムで音声を圧縮・伸長させ、最先端のサイズ縮小を実現することができると発表しました。今回の研究では64kbpsのMP3と比較して、約10倍の圧縮率をCD品質である48kHzサンプリングのステレオ音声で品質を落とすことなく実用化しています。

(略)

※省略していますので全文はソース元を参照して下さい。
2名無しのひみつ
垢版 |
2022/11/02(水) 11:49:56.61ID:BbeVV9t4
圧縮データを再生したら捏造音声になってたアル
2022/11/02(水) 11:58:44.43ID:fXRDRzOp
昔からあるオートエンコーダーでも65kbyteを4byteくらいへ圧縮できるよな
4名無しのひみつ
垢版 |
2022/11/02(水) 12:09:42.67ID:PluUUriP
実物の音声を聞かなければなんとも
5名無しのひみつ
垢版 |
2022/11/02(水) 12:13:08.14ID:PluUUriP
実物の音声を聞いた
たしかに圧縮はうまく出来てるんだろうが
CD音質というのはおそらく嘘だと思う
2022/11/02(水) 12:13:32.14ID:IiTysW0M
AIがファイル名を見てテキトーに考えて音を合成する様にすると、全ての音データは数バイトで表現できるようになる。
2022/11/02(水) 12:28:22.93ID:tTrxIigp
音声圧縮なのにmp3と比較の時点でなあ
AMRと比較しないと同じ土俵にならないでしょ
2022/11/02(水) 12:29:00.97ID:dMci+4PL
>>1
>。今回の研究では64kbpsのMP3と比較して、

320kbpsと比較しろよ…
9名無しのひみつ
垢版 |
2022/11/02(水) 12:38:12.71ID:bkLuaIZI
これ最近AIがやった未知の数式変換と同じだよな
結果が似たような物になるなら既存の法則をぶっ壊しても構わないってやつ

あれはほぼランダムに見える炎の動きを圧縮してたが、これ系の分野はまだまだ伸びると思う
10名無しのひみつ
垢版 |
2022/11/02(水) 12:48:30.25ID:PluUUriP
これトレーニングしたモデルは
他の音源でも同じように圧縮に使えるの?
2022/11/02(水) 12:56:03.09ID:BuhOOiqS
>>8
ネットのストリーミングで320kbpsなんて使ってるサービスは無いんだから比較する意味がない
2022/11/02(水) 13:01:25.93ID:lmbQEGPm
普通は圧縮に可聴域以外の音域や音量低い部分とかの切り取りがあるからな
ロスレスかそれに準ずる位の細かいモジュール化が行われているんだろうか
例えば倍音成分を補完する事をカーオーディオ等では二十年程前から既にやってるよな
機能を振り分ければある程度は再現可能だから、並列処理させるための手法を編み込んだ即席リマスターの応用みたいなもんだろうか
と思ったら全く同じことが書いてあった
具体的に何してるかは良くわからんけど
2022/11/02(水) 13:01:53.37ID:lmbQEGPm
>>5
可逆圧縮では無いからな
不要な成分が割と定位や解像度に関わってたりするし
14名無しのひみつ
垢版 |
2022/11/02(水) 13:05:08.68ID:tmM6Hmbc
圧縮率上げると時間かかるんだよな
ものによるしな
2022/11/02(水) 13:16:22.51ID:dMci+4PL
>>11
なぜネットストリーミングの話に限定するの?
2022/11/02(水) 13:25:13.22ID:lmbQEGPm
というか音声サンプルではチリンチリン鳴るアレの音が一切しないな
可聴域の音まで削れてるわ
2022/11/02(水) 13:58:08.89ID:scNNY3Vk
年寄りとか女の話が長いから
要約してくれるAIはないかな
2022/11/02(水) 14:21:48.61ID:AzT2MOsS
>>16
元々CD品質には程遠い64kbpsのmp3相当の品質を6kbpsで実現するってだけ
既存の技術だとたぶん16kbpsぐらい必要だったのが半分ぐらいになるかもって話だな
2022/11/02(水) 14:37:17.69ID:lmbQEGPm
>>18
なるほど目的というか目標は耐えうる音声を目指すことか
最大の圧縮率を目指すんだから配信サービスでの利用云々は違うわなぁ
音も良くて圧縮率も高いなんて欲張りは出来ないよな
2022/11/02(水) 14:48:32.35ID:CDMQ3yby
>>17
ただ思ったことをそのまま口に出してるだけだから訳せないと思う!
21名無しのひみつ
垢版 |
2022/11/02(水) 14:58:30.05ID:iTL3PWEU
楕円関数の暗号化技術を使う?
22名無しのひみつ
垢版 |
2022/11/02(水) 14:59:50.79ID:MQye9Vb4
インターネットでは多くの場合、音声と動画像はセットで扱われることが多い。
音声の圧縮率が上がっても、全データ量には、ほとんど影響しないダロ。
23名無しのひみつ
垢版 |
2022/11/02(水) 15:06:12.80ID:uTZP8xUm
今、AM放送で使われている1000khzくらいの搬送波でも音声のデジタル化が出来そうだね。
2022/11/02(水) 15:15:19.09ID:dMci+4PL
>>21
それはハッシュ関数であって圧縮とは関係ない
25名無しのひみつ
垢版 |
2022/11/02(水) 15:16:42.49ID:uTZP8xUm
>>23
アメリカではとっくの昔にHDラジオってのが始まっていたのね、、、
2022/11/02(水) 15:17:10.37ID:lmbQEGPm
>>12を訂正
全く同じって事は無いな
2022/11/02(水) 16:21:55.45ID:xBjqmfA7
理論家が一生懸命考えたものを機械学習で
ぶっ飛ばすとたまらんな
2022/11/02(水) 16:26:51.09ID:lmbQEGPm
>>27
基礎になってる理論とは別問題だろ
素地は明らかに既存の圧縮方法だけなんだが
ぶっ飛ばすてなに?w
29名無しのひみつ
垢版 |
2022/11/02(水) 16:28:08.82ID:6urVRuYI
圧縮率上げると時間かかるんだよな
ものによるしな
2022/11/02(水) 16:32:00.15ID:UrhKjCcZ
>>9
あれは人類が知らない係数を発見したって話じゃなかったっけ?
それを未知の数式変換と表現してるならすまん
2022/11/02(水) 16:40:21.07ID:lmbQEGPm
物理法則にもAIが発見したとされるなんらかの物理定数のニュースがあったけど、巨視的な規模なのか微視的な規模なのかを上手く説明してる記事では無かった
AIの発見を間接的にでも説明出来るのがAIだけになる日も近いな
32名無しのひみつ
垢版 |
2022/11/02(水) 17:55:52.74ID:Q40qEjHR
>>1
円光でっか
2022/11/03(木) 07:16:15.58ID:RRXLdSBY
そう思うと楽譜って圧縮率すごいな
2022/11/03(木) 17:16:58.16ID:i7XotSvL
>>33
正確に解凍するのにめちゃくちゃ時間かかるぞ
35名無しのひみつ
垢版 |
2022/11/03(木) 17:36:23.94ID:kNzIdCHL
クラウドストレージのデータは人知れずこういう学習に使われてんだろうな
2022/11/03(木) 17:52:03.89ID:YcMG71Wh
>>5
多分JPEGとかと同じで不可逆圧縮なんじゃね
音質は普通に上げられると思う、ただし、原音と1bitも違わない、とは言えないだろうが、
人の耳では全く分からんというか、当人でも当然毎回同じようには歌えないのと一緒で
その程度の違いしかないんじゃないのかね
2022/11/03(木) 19:26:51.43ID:ZJI1FgEl
送りAI青い空って曲だ
受けAI青い空のCDかけますね

圧縮率100万倍w
こうですかw
2022/11/03(木) 19:50:27.06ID:pI7PHiyb
>>36
記事にそう書いてるぞ>不可逆圧縮
2022/11/03(木) 19:52:11.03ID:pI7PHiyb
細かい事言うと非可逆と書いてあるけどな
というかなんで最近記事を見ないのが殆どなんだろう
ニュースの内容受けずに話して面白いか?
2022/11/03(木) 23:13:14.69ID:fIKbKt+P
AIは人の耳の性能までシミュレートできないからおそらくパターン抽出を使った圧縮だろう
極論を言えばMIDIで演奏を忠実に再現してるなものと同じ
そりゃまあ極小サイズでCD音質にもなるわなという
合成音声も守備範囲になればさらに表現力は増すだろうが現状は無理そうやね
2022/11/04(金) 00:19:54.46ID:/m7UD4aR
エンコードとデコードがセットなので、どちらかと言うと擬似的な再現による補完というよりも
音の解像度にも関わるより細やかな波形の圧縮技術により簡略化かつ大規模に削る技術が出来たという話っぽいな
記事のソースに言われてる論文を見たわけでは無いけど、仕組みの画像を見た感じでは終始原音には忠実だと強調しているように見える

翻訳部だけど

>デコーダーは最後のステップです。圧縮された信号を可能な限りオリジナルに近い波形に戻します。非可逆圧縮の鍵は、人間が認識できない変化を識別することです。
2022/11/04(金) 00:51:25.18ID:/m7UD4aR
圧縮するにしたがって減る音って割と中~低音域とかで、しかもビットレート差なのかどこか断続的な音になる、というか明瞭感下がるんだよね
ポータブルプレーヤーがまだあった(SD容量小さい)時期に、64kbpsあたりのMP3で聴いてた人ならなんとなく判ると思うけど
ただAIだとそこら辺があまり籠らず明瞭で中高音域の楽器がすっぽり抜けてるところが違いが出てて面白い
2022/11/04(金) 10:00:23.76ID:dferxRgh
>>39
AIだから不可逆なのは当たり前だから
上の話だけなら1だけ見れば十分
2022/11/04(金) 10:01:59.84ID:/m7UD4aR
>>43
早速具体的な中身を知らねえ事が露呈してるだろうに
45名無しのひみつ
垢版 |
2022/11/04(金) 11:15:47.55ID:BcUx99cP
メタのAIチーム凄すぎない?
本業のクソっぷりと差がありすぎる
2022/11/04(金) 11:58:37.37ID:shXxI+wv
AIだから不可逆の意味が分からない
可逆なら可逆で相関関数と係数の決定に機械学習が介入して圧縮率向上する余地はある
2022/11/04(金) 16:36:50.95ID:dferxRgh
>>44
意味不明だが。十分だと言ってるのにアホなの?
2022/11/04(金) 17:00:15.15ID:/m7UD4aR
>>47
お前は馬鹿の部類だな
AIだったらなぜ不可逆がデフォなの?理由は?
2022/11/04(金) 17:02:06.17ID:/m7UD4aR
>>46
それな
2022/11/04(金) 17:35:59.46ID:QjYm+709
「この部分の情報は捨ててもだいたいこうだろう」で圧縮技術が進んでくと
「こいつが喋るならだいたいこうだろ」に行きつくのかね
モザイク破壊みたいに
2022/11/04(金) 17:45:29.65ID:dferxRgh
> お前は馬鹿の部類だな
十分だと言ってるのにバカなのかなあw

> AIだったらなぜ不可逆がデフォなの?理由は?
普通に考えればそうしかならんわ、ほんとバカw
大体、それで何が言いたいんだ?だから読め、というつもりかwお前はどこまで低能なんだよw
2022/11/04(金) 19:24:03.00ID:/m7UD4aR
>>51
だから不可逆圧縮になるのが当たり前っていう理由を聴いてるんだが?日本語すら理解出来ない知能なのかな?

「リアルタイムで圧縮・伸長させる」って概前だけ見て知った気になってる恥ずかしい阿保
馬鹿とアホがセットで来てるわ
2022/11/04(金) 19:39:42.83ID:2n4tF2Q1
不可逆圧縮を理解していない可能性
54名無しのひみつ
垢版 |
2022/11/04(金) 19:59:50.46ID:6qufKq6E
ワイの特許にmp3の発明者が被せてきてワイがブロックしたんやがw
2022/11/04(金) 20:45:18.39ID:KZk2fkrf
なんでお前らよく知らない技術の話でそのもの調べることもせず知ったような単語並べて言い合いしてるわけ?
2022/11/04(金) 20:50:31.96ID:JFAGay3h
>>48
可逆圧縮ならAIいらんだろ
2022/11/04(金) 22:00:25.72ID:/m7UD4aR
>>56
だからなぜそう思うの?
圧縮容量やそのアルゴリズムに関わるんだが?
可逆圧縮なら一定の圧縮しか出来ないのか?馬鹿なんじゃないの?
58名無しのひみつ
垢版 |
2022/11/05(土) 01:09:12.05ID:zMFicFCQ
リアルタイムいけるなら携帯の音声品質も上がるな
2022/11/05(土) 01:42:39.25ID:dRg8H1hW
マジで知らない分野
60名無しのひみつ
垢版 |
2022/11/05(土) 02:43:17.68ID:3hi2ABQg
馬鹿だのアホだのといった言葉がポンポン出てくるやつって、性格が悪くて嫌われているんだりうな。
こんなスレで知識をひけらかすのもさもありなんだな。
2022/11/05(土) 04:14:13.20ID:jajIgMt9
>>57
可逆圧縮ならどの周波数を残してどの周波数を捨てるかという判断が不要になるから
君が可逆圧縮でAIが有効と考える理由を述べよ
2022/11/05(土) 08:39:05.20ID:xAU+ARs+
周波数を捨ててるわけじゃないだろ
AIは人の耳のことわからないからどれを捨てるかなんて判断できない
AIが得意なのは回帰とパターン抽出
楽器の出す音には決まった波形パターンがあるからそういうのは得意だろう

GitHubにソースあるからぱっと見すると波形と長さに分割してデータ化してる
2022/11/05(土) 09:39:18.76ID:mqeSBVA6
>>61
ほらな何も知らないw何も説明出来てなくてワロタ
このEncodecも全く同じ事をしてるんだが?記事すら読んでないなコイツ
仕組みを説明しろっつってんのに語る内容が薄っぺらい上に間違ってる

判断が不要じゃないワケ無いだろそれ?なぜ不要になるの?
お前は既に知らない領域の話だけど、波形データの圧縮率を上げる為に符号化する部分の選択が可逆圧縮と不可逆圧縮で同じになる理由を説明しろ

お前はただそれっぽく語ってるだけの無知だな
2022/11/05(土) 10:28:54.07ID:mQUKVoml
>>46
イラストのAIみたいに、ぱっと聞いたらそれっぽく聞こえるように、作り上げる系じゃないの
2022/11/05(土) 10:56:32.69ID:ECfoY5fZ
昔のMIDI音源みたいに学習モデルやグラボが変わったら音質が変わるみたいなことが起こるんだろうなw
66名無しのひみつ
垢版 |
2022/11/05(土) 13:19:16.84ID:pD/LwKtW
通信が速くなったので圧縮技術も廃れてしまったかと思ったが、まだHDDが一杯になる問題は残っているのな。
2022/11/05(土) 17:47:28.67ID:DHSIFNRZ
>>63
可逆圧縮でAIが有効と考える理由は?

否定しかしないから誰からも支持されない
オレは持論を述べたぞ
2022/11/05(土) 17:51:30.07ID:WTbxmN52
>>52
> だから不可逆圧縮になるのが当たり前っていう理由を聴いてるんだが?
普通に考えればそうしかならんわ、ほんとバカwと言ってるのに日本語理解できないらしいw

>日本語すら理解出来ない知能なのかな?
まさにお前がなw
てか、このキチガイはそれで十分だと言ってるのに、何が何でもその先まで読め、と強制したいのかねえw
十分の意味も理解してないっぽいがほんま狂ってるわなw
2022/11/05(土) 17:57:06.98ID:BMh8wcd0
>>67
都合の悪いものは見えなくなるのか?スレで否定されてるのってお前だぞ
それに

>波形データの圧縮率を上げる為に符号化する部分の選択が可逆圧縮と不可逆圧縮で同じになる理由を説明しろ

ここでお前の根拠無い自説を否定しつつお前の知らないだろう事柄をあえて聴いていい加減間違いに気付くか待ってるんだが
2022/11/05(土) 17:58:32.90ID:BMh8wcd0
>>68
お前は理由が説明出来ない
だから馬鹿だと書いてるんだがなにか?
「日本語すら理解出来ない知能なのかな?」はマジでその通りだろ何言ってんだキチガイ
いい加減憤死の限界突破してシネ
2022/11/05(土) 18:13:21.83ID:BMh8wcd0
>>68
「理由。普通に考えればそうしかならん」

何も説明してないよなこれ?馬鹿でしょコイツ?
2022/11/05(土) 18:43:15.16ID:WTbxmN52
>>70
> お前は理由が説明出来ない
しているのにお前が日本語理解できないキチガイだからそう思ってるだけw

>>71
してるよ?
まあお前アスペかもなwまあ1で十分というのに強要したりとお前は異常だよw
2022/11/05(土) 19:46:55.56ID:aJs8T8hL
文字データと読み上げるAIを指定するだけ!
2022/11/05(土) 22:08:46.76ID:BMh8wcd0
>>72
具体的な中身が無いんで書いてくれる?「十分だ、わからないか?」じゃねえんだよ
お前は詐欺師だな、ペテンだよ
科学板に要らねえ
無理なら消えな
75名無しのひみつ
垢版 |
2022/11/06(日) 05:55:57.88ID:raFQips0
アスペこそ科学版から出ていって欲しい。。
76名無しのひみつ
垢版 |
2022/11/06(日) 06:20:59.69ID:bUgVg0Yl
>>29 圧縮すれば送信インフラは細くて済むが、 再生側で展開時の負担は増すわな。 更に音声でこういう技術が進歩しても、 情報量の多い映像で解決せんと貢献は小さいし。
2022/11/06(日) 06:21:41.10ID:9NdMA5Pv
人間はいずれ気づくだろうよ
無音が最強だとな
はやく俺の高みまで登ってこい
78名無しのひみつ
垢版 |
2022/11/06(日) 06:32:06.85ID:QrqKWl3z
>>77
星新一のショートストーリーであったな。
音声広告が氾濫して、静寂を得るには、
高価な無音レコードを買うしかなくなるみたいな話。
2022/11/06(日) 07:09:31.49ID:M36T5UrG
>>78
無料コンテンツに漏れなく広告が付いてて広告を外すには有料のプレミア会員にならないといけない現状を正確に言い当ててるな
2022/11/06(日) 12:39:25.41ID:ev/e/0kA
>>75
「AI使って圧縮しました」のどこに仕組みの示唆が入ってんだよ
いい加減答えろよ言葉足らずw
知らねえくせに出しゃばんなアホ
2022/11/06(日) 14:08:03.76ID:DI0sj4iO
>>74
> 具体的な中身が無いんで
書いてるじゃんwそもそも予想通りだったわけで何を発狂してるのやらw
大体、お前はそこまで興味のない記事をいかなる事があっても全部読めとかキチガイすぎるわなw
AIだから不可逆だろうってのは自然であって、そもそも自分だってそう判断する癖にほんま狂人w
そこまで興味はなかったというだけであって、何というかアスペの上、異常な幼児的攻撃性というかw

> お前は詐欺師だな、ペテンだよ
いいえ?お前は基地がいだがなw

> 科学板に要らねえ
> 無理なら消えな
誰が見てもキチガイのお前がいらんよw
2022/11/06(日) 15:14:24.91ID:ev/e/0kA
>>81
だからどこ?簡単に答えられるだろアホ
2022/11/06(日) 15:15:08.20ID:ev/e/0kA
>>81
全く意味が無いなコイツのレスの中身
なんで科学板にいるのコイツ?なんのため?
84名無しのひみつ
垢版 |
2022/11/06(日) 17:51:05.60ID:K3a/w8A8
アスペでキチガイって手に負えられんな
85名無しのひみつ
垢版 |
2022/11/06(日) 17:52:16.04ID:K3a/w8A8
普段の人付き合いがどうなのか気になる
86名無しのひみつ
垢版 |
2022/11/06(日) 18:27:32.58ID:EeI/Kg8h
あくまでも「音声」というのがミソで、雑音を排除して意味が伝わる程度に音声らしき音に変換するから、高圧縮ができる
いわばケータイで電話するのと同じようなもの
音楽、特にライブ音源なんかには使えない
2022/11/06(日) 19:49:28.33ID:ev/e/0kA
>>84
自演でコロコロID変えつつワケも判らないのに
知った気になってアスペ扱いするヤツのほうが
よほどキチガイに見えるよ
2022/11/07(月) 07:28:43.36ID:9ZeLmXoU
映像からみたらデーターサイズも微々たるもんやろ
今さら意味あるのけ?
2022/11/08(火) 16:51:28.54ID:Kc3vkVDL
非可逆圧縮なら、音質が多少変わることを
容認してるということ。
だから楽譜と歌詞にまで圧縮できる。

とボーカロイドが出たときに言われてたな。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。