【干货】开发者必须了解的VR音频定位技术


    要想在VR中获得更好的沉浸感,五感的还原极其重要,视觉还原是其中最为成熟的一部分,而音频——全景声,随着技术的发展,也慢慢在VR内容中应用起来。
    纵观全球声音定位技术,主要可以分 3 种:声道为本 (Channel Based)、面向对象声音 (Object Based) 及场景声音 (Scene Based) 。值得留意的是,各种技术都可以分为录音、播放系统和输出格式三个部分。以下的内容主要基于输出格式,但也会略提各种录音、播放系统的利弊。
    三大定位方式  1. 声道为本 (Channel Based)传统声音定位技术都是以声道为本 (Channel Based) 的技术,意思是指所有输出是根据系统的声道数目来制作。例如立体声的音乐就有 2 个声道,5.1 环绕声的电影就有 6 个声道。但这种技术其实即使在环绕声中都不理想。原因是不同的系统设计或摆放将会影响到定位效果,而且难以在不同系统中转换,例如 5.1 环绕声的电影就不能够准确地在 7.1 系统中播放。因此极少在 3D 声效上应用。当然,严格来说,所有播放系统在输出最终都是声道为本,只不过输出前的文件格式和制作方法会有分别。
    虽然声道为本的技术在 3D 声效不常见,但基于声道为本的录音技术的悠久历史,发展完善,因此即使使用其他技术,很多时都会借用声道为本的录音技术制作,例如在接下来介绍的面向对象声音 (Object Based) 技术就常常会用上传统单声道及双声道录音技术。2. 面向对象声音 (Object Based)近年为了改善不同播放系统的问题,研究人员开始思考如何用一个输出格式去适应所有系统。其中较流行的方法是用面向对象声音 (Object Based),相信很多人都在部份戏院或电影的片尾中见到杜比全景声 (Dolby Atmos) 的标志,这是其中一种较常用的面向对象格式。面向对象是指声音定位以声源 (所谓对象) 为本,输出并不基于声道数目,而是基于声源数目。
    简单而言,每一个「对象」会输出两样信息,它的声音,和它在 3D 空间中的位置。在播放时,播放器会根据对象信息,以及影音系统的设定去分配各声道的输出,从而准确定位。因此这技术除了可以用同一输出档案做到跨系统播放,亦可以做出超越水平面的 3D 定位。常见的对应输出系统为 VBAP (Vector Base Amplitude Panning),基本上是传统 5.1 或 7.1 环绕声加上不同高度的喇叭(有关各种输出系统之后会再介绍),但亦可以在传统 5.1 或 7.1 环绕声系统,甚至双声道系统播放。
    优点: 声音定位一般较凖确,而声音质素亦通常比较好
    缺点: 输出档案的体积大。声音来源集中,欠缺现场感
    场景声音 (Scene Based)
    除了以声源为本,另一种常见的方法是以场景为本。场景为本的意思是指,我们尝试记录在空间中一个点上接收到的所有声音。你可以想象成是记录一个人在某场景中所听到的所有声音。唯一的分别是,人类的听觉有方向性,例如来之前的声音会比来自后面的声音清晰,当声音来自左边左耳会感受到的音量会比较大等。但场景为本的录音通常不会纪录方向性的分别,无论声音从那方面以来,都会清晰地记录在录音中。
    其中最常见的录音方法为Ambisonics (该名词未有通用的翻译)。它用几组收音来全方位地记录场景声音。之所以要用几组收音,是为了把场景中的声音分为几个轴,最常见是分为左右 (X)、前后 (Y) 和上下 (Z) 方便在后期制作中定位和加添指向性 (只用 3 个轴的Ambisonics 称为 1st Order Ambisonics,可根据球谐函数 (Spherical Harmonics) 去加添更多轴,提高到更高 Order,从而提升声音定位解像度,一般制作用最高可以到 5th order,但 X Y Z 三轴是较常见也比较容易理解,有机会再另立文章讲解 Ambisonics Orders)。
    大家可以想象,在播放该录音时,如果没有分左右前后上下的话,声音根本不可能定位。该技术最大的优势,是在于档案体积,它最少只需要四条声轨,X、Y 、 Z 和 W ( W 是一条无指向性全方位录音— Omni Directional Recording),就可以重现 3D 声效,比 5.1 环绕声还少,因此此制式在360 影片及 VR 中很常见。而且因为他的录音是全方位的,他可以清楚记录所有在空间中漫射的声音(Diffuse sound) ,也就是说,它可以记录来自四方八面的回响 (Reverb),例如在教堂中说话,有时候会听到回音,那些回音有时会从四方八面传来,用 Ambisonics 就能够准确地记录那些回音。Ambisonics 有自己对应的播放系统,其特色是所有喇叭的间距必须一致,平均地分布在一个虚拟球面。
    之所以要这样安排,是因为在播放时,即使声音内原只有一方,理论上所有喇叭都会播放相对应的场景声音。概念上一般读者可能较难理解,但概括而言,在播放任何声音时所有喇叭都会运作,来重现录音场景的音场。当然这播放系统在民用上是很不现实的,因为理想的播放系统需要很多喇叭,而且摆放位置要求极为精准,有时甚至要钻穿地下来放置喇叭。因此,通常都会用耳筒来重现虚拟的 Ambisonics 播放系统 (称为 Binaural Audio技术),亦有不少软件可以将 Ambisonics 转换成其他系统格式包括环绕声和立体声。
    优点: 音质代入感强,仿似在场景中。输出档案一般较细,4条声道起。缺点: 录音质素通常比较差,因为录音器和声源之间通常有一定距离。录音过程较复杂,和通常要利用特别器材,如 Ambisonics 。
    位于英国的 Ambisonics 播放系统
    Sennheiser 出品 Ambisonics( 1st OrderAmbisonics )
    Eigenmike? Ambisonics  ( 4th OrderAmbisonics )
    比较各种声音定位技术之优劣
    各种技术的应用情况
    声道为本
    如前文所言,传统声道为本的格式在 3D 声效中的应用比较少见。主要是因为他难以兼容不同的播放系统。当然目前有很多没有配备3D声效的电影,都继续沿用声道为本的技术。大部份的音乐所使用的双声道,亦可归类为此技术。
    面向对象声音
    目前大部份的电影 3D 声效多使用面向对象声音。原因是后期制作比较方便,而且得到很多专业公司的支持,例如 Dolby、Auro、ProTools 等,表表者是杜比全景声 (Dolby Atmos) 系统。
    在这里要先讲解一下通常电影声效制作的流程。一般电影的声效是混合现场录音和后期制作。一般而言,现场录音只会记录演员的对白,其他所有声音都是后期制作。相信读者可以猜到,为何面向对象声音比较适合电影制作,是因为所有后期制作的声音甚至演员的对白都可以视为一个对象,并在后期制作中定位。很多电影并无涉及任何场景录音的需要。更何况现在很多电影都用上大量场景特效 (绿幕),并非现场拍摄,根本没有真正的场景声音可以录制。
    Dolby Atmos 混音插件
    另一方面,主流 VR 游戏甚至一些新的非 VR 电子游戏都使用面向对象声音制作,但通常会输出成场景声音,主要是因为面向对象声音技术比较能对应六自由度 (6 Degrees of Freedom (6 DoF) )的移动,意思是指玩家可以前后左右移动,声音会根据玩家的位置作出对应的调整。
    场景声音
    其实目前场景声音的制作并不常见,但相信 360 影片的流行,这技术很快会变得普及。这技术其中一个好处是,一般人只要利用 Ambisonics 咪录音,不需要太多后期制作,都可以有理想的 3D 声效,而且该声效可以根据观众观看影片的角度作出对应的调整, (注:只限角度,暂时不包括前后左右移动)。例如你在看影片时可以听到声音从后方来,而当你 180 度转向后方后,你会听到该声音跟随转向移到你的前方。读取场景声音亦不需要很复杂的系统。这技术对系统的要求低,档案容量细,都是在未来普及的潜在优势,特别在 Youtube 和 Facebook 之类的网上串流平台都以这技术为基础。
    目前比较平民的器材有Ricoh theta V 的外置收音器。当然目前用此技术最大的问题是,因为收音的距离和欠缺指向性,收音的质素比较差,暂时改善的方法主要会配合面向对象声音使用,所谓的混合方法。
    Ricoh theta V 连外置收音
    混合方法 (A Hybrid Method)
    在录音质素的要求比较高的情况下,例如音乐会现场录音,或其他音乐相关的制作等,单靠面向对象声音或场景声音,都难以满足音质要求。面向对象声音欠缺现场感,而场景声音的录音又不够清晰。人类一般对录音的要求,通常比现场的声音高,研究员戏称超真实感声音 (Hyper-Realistic Sound) 。要达到这个要求,目前最先进的做法是用场景声音作为背景 (或称为画纸(Canvas) ),在该录音为基础再在上面加上面向对象声音。这样就可以确保声音清晰同时保有现场感。目前 Dolby Atmos 已经支持场景声音,去改善后制的声音效果,可见未来可以用在音乐会或戏剧的现场录音中。而在360影片,一般实时使用混合方法,输出时都会用场景声音 Ambisonics 的文件格式来输出来维持档案的轻巧和容易解读。当然 Dolby Atmos 用较复杂的混合档案,配合该系统,理论上可提供较好的音质。但在 360 影片或 VR 中,因为输出在不同角度下的表现比较平均 (所有喇叭的间距一致,平均地分布在虚拟球面),场景声音输出一般是首选。
    额外知识: MPEG-H
    MPEG-H 是MPEG系列 (如 .mp4) 的新一代高压缩的影音格式,加入了 3D 声效支撑,他同时支持面向对象声和场景声音。这个格式已经发展了一段时间 (2013) ,虽然目前并未流行,但相信未来会成为的主流格式。
    小结
    目前最常见的 3D 声效应技术为面向对象声音 (Object Based) 及场景声音 (Scene Based) 且有时会混合使用。其实这些技术的应用已经日渐普及,很多新出的第一身游戏或多或少都会用到 3D 声效去增加现场感。特别在射击游戏,能够用耳朵去感觉四面八方能大大改善游戏体验。而在 360 影片或 VR 甚至其他 XR (统称 VR、AR、MR 等虚拟现实的体验为 XR) 的潮流下,很多公司包括 Abbey Road Studio 和 BBC 都投放很多资源去改善 3D 声效制作及播放技术。