yamaQと同じような動画をつくるとしたら
声と映像は別で撮る
映像に声を入れる
声に遠近感や方向性を持たせるように編集する
って感じになると思うけど

この部分が素人にはネックになりそう
→声に遠近感や方向性を持たせるように編集する
しくじると編集丸わかりになるし
リアル感だせるほどの腕前と機材があるのなら
youtuberなんかやらずに音響のプロで食っていけるレベル

ただyamaさんはその可能性持ってる人ではあるとは思う
一応音楽やってるっぽいし

個人的感想としては
動画見る限り目の前で起こってる現象には見える