广告

为什么说如果没有3D 音频技术,VR注定是场 “闹剧”?

2016-09-19 Deeperblue 阅读:
核心技术瓶颈突破之前,VR 还将在泡沫收缩过后进行理智思考。而 3D 音频,作为 VR 产业的关键性技术节点,值得在今天被关注。

人们犹记得 2015 年下半年到 2016 年年初的 VR 热:从创业者到投资人,大家都对 VR 有着无限的热情与希望。而从计算机背景出生转行做 VR 的人真不在少数:他们正是看准了这块 “热土”, 从大公司走出,一头钻进 VR 行业。1SUednc

行业缺少优质标的,关键性技术节点远未突破,VR 如同一个牙牙学语的婴儿,尚在襁褓之中,远未成熟。与其说 VR 凛冬已到,不如说之前的泡沫正在合理地被挤破。1SUednc

这里的 “关键性技术节点” 其中之一,就是空间音频技术。在今天,人们更愿意叫它 3D 音频。1SUednc

2016091900088
苹果音乐和 VR 工作室 Vrse 联手为 U2 乐队制作了一段 VR 音乐视频《Song for Someone》。图为 MV 片段中 U2 在空无一人的多伦多体育场的演唱。1SUednc

正如著名 VR 制作公司 Jaunt 的音频首席工程师亚当·桑默(Adam Somers)说的:“(在 VR 这件事上面),听觉占了五成,视觉占剩下五成。”1SUednc

听觉决定了人类对空间的定位、对物体距离的感知等等。视觉给出一个线索,听觉则去证实这个线索是否真实存在。如果少了视觉的沉浸感,那么一切画面的真实性就荡然无存。不解决听觉问题,虚拟现实就不能成为虚拟现实。可以这么说,3D 音频决定了我们念叨着的 VR 时代是否真正到来。1SUednc

首先科普一下 3D 音频

什么是 3D 音频?简单来说,3D 音频是对声音最逼真的模拟技术,能让听众完全还原到与现场相似的声场。类似的叫法还有全景声方案、Immersive Audio(沉浸式音频)。你能到完全听到逼真到 “现实” 的声音,而不是 “现实主义” 的。1SUednc

目前世界范围内最成熟的空间音频制作公司之一,VisiSonics 的创始人之一拉玛尼 · 杜瑞斯沃米(Ramani Duraiswami)有一句话:“当你听到的声音是极度真实的时候,耳机就消失了。”1SUednc

人耳对声音信号有一套自己的分析系统,来得以对声音进行分析与定位。从空间任意一点传到人耳(鼓膜前)的信号都可以用一个滤波系统来描述,音源+滤波器(传递函数)得到的就是声音到达两耳鼓膜前的信号。1SUednc

2016091900089
HRTF 图示。人耳对声音信号有一套自己的分析系统,来得以对声音进行分析与定位。1SUednc

我们不必关心声音是如何传递到双耳的,而只需要知道:音源与到达我们双耳之前的信号是有差别的;并且我们的左耳和右耳听到的声音是不一样的。这可能是源于我们的进化,视觉没有办法在黑夜中定位,而耳朵可以通过左右耳的声音不同,进行定位与防御。1SUednc

这个滤波器(传递函数)叫 HRTF ( head-related transfer function )。如果我们有空间所有方位到双耳的滤波器组,就能得到一个滤波矩阵,从而还原来自整个空间方位的声音信号。1SUednc

HRTF 是极具个人性的。每个人成长中都会形成一套自己对听力的感知。并且,我们每个人的头部大小不一样、耳间距不一样,耳朵的轮廓、里面的旋涡状也不一样。加上,我们在成长当中养成了自己独特的听力习惯。可以这么说,每个人听到的同样物体发出的声音,其实都有细微差别。1SUednc

如何还原人耳真实听到的声音?科学家对此的探索不是今天的新事。在将近一个世纪之前,1933 年,AT&T 贝尔实验室就把这项技术带到了芝加哥世博会上。这家公司的人声研究部做了一个机械化的仿真人头——他们把这个假人取名叫 “Oscar”。Oscar 的耳朵里装上了两个麦克风,坐在展示房间中,录取周围的声音。Oscar 听到什么,他就能录到什么。1SUednc

AT&T 贝尔实验室提供的解决方案叫做双耳录音技术(Binaural Audio)。1SUednc

双耳录音技术模拟人类真正的头部的形状、左右耳的耳间距,可以收录到近乎于真正的人类听到的声音。这是一种有效的“笨方法”,物理层面上即还原了 HRTF。沿着这条路径,德国麦克风公司纽曼 (Neumann) 在 1973 年到 1992 年间,连续在双耳录音技术上做出了各种突破——更好的收音设备、把麦克风放置于仿真假人耳内鼓膜上等等。 1SUednc

2016091900090
1933年,AT&T实验室的双耳录音技术仿真人,Oscar。1SUednc

双耳录音技术在这个世纪中一直处于缓慢的速度发展,原因在于,没有强大的产业需求。一直等到这一波 VR 热潮的来临,它才重上舞台。 由于 Oculus Rift , 索尼 Morpheus 以及三星 Gear 带来的 VR 普及,3D 音频技术迎来了它的 “文艺复兴” ——于是它又被称作了 VR 音频。1SUednc

3D 音频技术到底难在哪儿?

VR 需要有 3D 音频才能产生更真实的沉浸感。Jaunt 的音频首席工程师 Adam Somers 在接受 THE VERGE 采访时这样描述:“在沉浸感这件事上面,听觉占了五成,视觉占剩下五成。”1SUednc

Jaunt 是美国著名的 VR 制作公司,去年得到上海华人文化产业基金(CMC)与迪斯尼的 6500 万美金投资。1SUednc

然而,双耳录音技术本身不能支持收听的时候转动头部。玩家在玩 VR 游戏的时候,如果有声音从后面传来,人的本能反应是转头向后看。这时候如果声音继续在你的前方,那么会大大降低沉浸感。1SUednc

另一种还原真实声场的技术也不能支持收听的时候转动头部,叫环绕立体声 ( surround audio ) 。环绕立体声用多个物理扬声器来打造一个 360 度的声场,来自不同方向的声音通过不同的音箱/扬声器来播放。该项技术最著名的公司是 DTS 和杜比(Dolby)。1SUednc

比如一家环绕立体声影院,它会在观众的周围放置很多音箱/扬声器。如果画面左边出现了爆炸,那么左边的音箱会发出声响,而不是右边。由于播放器的位置固定,听众只有在固定的点,才能听到模拟得最真实的声场。1SUednc

2016091900091
真正的沉浸体验,来自于高中低音频在空间内全方位的还原,即以人头为中心收录一个球形内所有角度的声音,并进行还原。1SUednc

如何解决这个问题?计算成为了重中之重。1SUednc

在双耳录音技术取到的声音之后,还原 HRTF,然后进行计算,把各个方向的 HRTF 还原,才能合成一套随着转头、位置移动声场自然发生变化的空间音频。1SUednc

在这三个环节中——收音、录音;计算、渲染 ( processing, rendering ) ;回放——技术壁垒最强的地方在于计算环节。1SUednc

核心算法是考验各家空间音频公司的能力指标。Two Big Ears 的公司广告语说明了一切:"We do mathematics so you can focus on being awesome."(我们做数学,你来好好做酷的事情。)这家位于爱尔兰的公司目前在空间音频技术上处于领先地位。1SUednc

有些团队则为了减轻计算量,用了一些比较笨的办法。比如 3dio,他们创造出收音设备,可以尽可能地在同一时间录到各个方向的 HRTF 。1SUednc

2016091900092
3dio 公司生产的四对仿真人耳的收音设备。1SUednc

2016091900093
The Verge 在短片 Hear New York in 3D Audio 中展示他们所用的收音设备——仿真人耳,这个收音设备能够模拟声音在耳朵这种独特物理结构下的的传输过程,进而重现纽约街头的实景声音。1SUednc

通常,三个指标可以用来判断一家公司 3D 音频核心算法技术水平:1SUednc

1、Localization : 指的是声音的定位。环绕立体声对于声音的平面 360 度有较好的模拟效果,而对于上下 360 度则难以模拟。VR 音频的难点也在于做出上下 360 度的声音模拟。能做到上下逼真的则技术更为先进。1SUednc

2、Propagation : 声音在封闭空间中,不是只传输一次,而是有无数次的反射(bounce back),我们可以用回音来理解。Propagation 用来描述是否能让用户感觉到自己的确在一个真实的空间中,这种真实感越强越好。1SUednc

3、Occlusion : 声音在传输过程中,如果中间有一个障碍物,这个障碍物会对声音的传播产生影响。如果一个 VR 音频技术可以对障碍物对于声音的影响模拟得很好,则是一个做得好的 VR 音频。1SUednc

除去以上三点,目前空间音频最前沿的解决方案是 Ambisonic 技术。于是,能不能做 Ambisonic 也是判断一家公司技术高低的指标。1SUednc

Ambisonic 同样是一种声场模拟手段,但它更考验团队物理、数学和计算机的综合能力。如果我们把空间中某一个接收声音的位置想象成一个充着气的气球,那么空间中各处传来的声波会对这只气球表面产生作用力。1SUednc

Ambisonic 利用这个简单道理,在空间中摆放一堆扬声器,来模拟对应现实情况下各处声波对这只气球的作用力,然后计算,还原 HRTF。1SUednc

通过 Ambisonic 得到的音频数据,是最全面的数据,它可以降解到任何其他音频格式。打个比方,Ambisonic 如果是图像中的 jpg , 则杜比 7.0 、杜比 5.1 等等音频格式相当于像素。1SUednc

如何评价 3D 音频技术的行业现状?

3D 音频技术势必会改变所有的应用场景。整个空间音频产业有两个机会:1SUednc

第一个机会是做音频引擎 (audio engine),其核心在于 HRTF 函数、Propagation 等技术,即如何在游戏里尽可能逼真地还原出立体声来。目前简单的做法是,在 VR 游戏中放置不同的虚拟音箱,并配合 Oculus Audio SDK ( 实现了 HRTF 以及其他效果,包括 reflection 等),就可以实现空间音频。1SUednc

而不简单的做法有很多,需要团队具有强大的计算能力,成立于 2013 年爱丁堡的 Two Big Ears 是其中翘楚。他们所做的 plug-in 可能是目前行业中技术最好的 plug-in 之一。1SUednc

第二个机会是实现 3D 音频在现实生活中的运用,即怎么配合全景视频录制带多个角度的 VR 音频。这样用户观看全景视频的时候如果转头,声音会进行动态调整。就应用场景来说,对于虚拟演唱会,3D音频技术尤其重要。1SUednc

从目前整个全球市场来考量,3D 音频由于其自身技术难度,还没有出现提供完美解决方案的公司与团队,大牌音频公司 DTS 所做的技术已经比较接近,但最终版本仍没有公之于众,并且面临着价格极高的可能性。1SUednc

以下这张图列举了世界范围内,最被关注的七家 3D 音频技术团队:

20160919000941SUednc

1、VisiSonics1SUednc

VisiSonic 起步最早,团队来自美国马里兰大学的实验室,2015年10月与 Oculus 达成合作。Oculus 购买了他们的技术,叫做 RealSpace 3D , 用于 Oculus Audio SDK 。他们设计出了一个 3D 音频视频同步录制的设备,由一个柱型加顶部球型装置组成,球型装置上有 64 个麦克风。硬件层面上,技术拔尖并保持世界领先地位。1SUednc

2、Two Big Ears1SUednc

位于苏格兰爱丁堡的团队,最近刚刚被 Facebook 收购。他们的核心技术是做 3D 音频引擎,名字叫做 3Dception 。就 plug-in 层面上来讲,这支团队是目前世界范围内技术最好的团队。在被 Facebook 收购前,据传HTC Vive 音频的计算渲染用的就是这支团队。1SUednc

3、3dio sound1SUednc

这家公司是目前市面上可见的空间音频收音录制领域最好的公司。他们出品了有八个耳朵的收音装置。1SUednc

4、Thrive Audio1SUednc

这家公司与 Tilt Brush 一同被 Google 收购,属于 Google VR 战略布局的一部分。团队来自爱尔兰的都柏林圣三一学院。他们声称已经申请了两个专利。1SUednc

5、Mint Muse:1SUednc

一支之前在美国圣地亚哥、最近刚刚搬迁到上海的团队。主创团队来自高通。他们主攻渲染质量、算法优化、时延等领域,设计制作空间音频后期制作、coding 以及软件插件工具,目前不涉及硬件生产。这支团队面向的解决人群是录音师,他们正在开发一款专业 VR 全景声调音软件,让调音师可以在编辑全景声过程中实时监听成品效果,简化整个工作流。1SUednc

6、Waves1SUednc

这是一家位于以色列的空间音频技术公司,之前做专业 studio 的工具,比如插件与音效,是很多著名 studio 的合作伙伴,如 Abbey Road 。1SUednc

7、Impulsonic1SUednc

一支孵化于美国北卡罗来纳大学计算机系的团队。主要针对 VR 游戏与应用的 3D 音频开发,产品叫 Phonon。成立于 2012 年。创始人阿尼什 · 钱达克(Anish Chandak)博士说创立之初他的想法就非常简单:“帮助游戏设计师与开发者更容易做出高质量的空间音频。” 大部分收入来自于 Phonon 的 license 收入。他们去年接受美国国家科学基金的投资,研究同时应用于一些政府项目。1SUednc

大部分做 VR 游戏的工作室还没有开始大规模使用 3D 音频技术——原因主要是 “穷”。既然“寒冬” 来了,那么也就更穷了。事实上,这些没有好内容的游戏工作室还用着环绕立体声技术;只有少数极客风格的工作室开始应用一些空间音频技术。3D 音频技术仍旧是一件挺前沿的事儿。1SUednc

然而,3D 音频对于整个 VR 产业来讲,是基础的技术性板块。1SUednc

拥有核心技术,才可能在应用层面上等待下一个突破点。做无人机的大疆(DJI)就是一个例子,早在无人机变成商业模式之前,大疆的主创团队已经在飞行控制这一个技术点上做了长时间的研究与努力。1SUednc

如果 VR 终有一天值得每一个用户去花时间使用,那么它势必在技术方方面面上已经成熟到可以 “沉浸式体验” 的时候。1SUednc

等待回春,先从3D音频开始。1SUednc

参考文献:1SUednc

i. Rumsey, Francis (2001). Spatial Audio. Focal Press.pp. 62–64. ISBN 0 240 51623 0.1SUednc

ii. Blauert, J. (1997) Spatial hearing:the psychophysics of human sound localization. MIT Press.1SUednc

iii. Begault, D.R. (1994) 3D sound forvirtual reality and multimedia. AP Professional.1SUednc

iv. Eric Benjamin, Richard Lee, andAaron Heller, Is My Decoder Ambisonic?, 125th AESConvention,1SUednc

San Francisco 20081SUednc

v. https://developer.oculus.com/documentation/audiosdk/latest/concepts/audio-intro-env-modeling1SUednc

201606300001231SUednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
您可能感兴趣的文章
  • “中国IC设计成就奖”提名产品简介:艾为触觉反馈驱动AW AW86224是一款具有F0检测与追踪,内置SRAM波形空间,低功耗、小尺寸的常压线性马达驱动IC
  • 拆解小米WatchS1智能手表,看看主板上的主要IC来自哪些 根据小米官方的描述,小米智能手表Watch S1型号中的S,取自“Super”的缩写,代表了强大。也代表着S1是面对高端市场的产品。那究竟是否如其名呢?
  • “中国IC设计成就奖”提名产品简介:汽车级高性能可编程 CHA611是意瑞于2019年推出的汽车级可编程线性霍尔芯片,支持 5V 单电源供电,120 kHz带宽,响应时间约2us,支持灵敏度0.8 mV/Gs~ 24 mV/Gs范围内可编程。该产品在全温-40℃~150℃范围内可实现 1% 精度,且芯片出厂前已完成静态(零电流)输出电压的校准,并已通过AEC-Q100认证。
  • “中国IC设计成就奖”提名产品简介:MHA101霍尔开关传感 MHA101KN是一款全极的霍尔开关传感器,采用的是DFN1014封装(1.0x1.4mm 4-pin)。具有超低功耗,磁滞窗口小,磁场感应灵敏度高,一致性好,支持丰富的封装方式等优势。主要应用在智能手机、可穿戴(TWS及充电仓)、家电等领域。该产品已于2021年1月量产,出货量10 Mu/月,累计营收2千万人民币。
  • “中国IC设计成就奖”提名产品简介:温度湿度二合一传感 CHT8305是高精度数字温度湿度二合一传感器,其温度分辨率可达0.03125℃,具有±0.5℃的高精度,湿度分辨率可达0.02%RH。可覆盖宽电压范围至1.35V - 5.5V的应用,在3.3V电源下每秒采集一次温湿度数据时,平均工作电流仅为1.0uA(Typ.);在待机模式下,电流消耗为35nA(Typ.)…
  • “中国IC设计成就奖”提名产品简介:防水气压计MSPC110- 防水气压计产品采用独特的LGA封装形式,该封装形式经过敏芯其它产品线的长期验证,稳定可靠。防水气压计产品覆盖更多的压力量程,不仅可以进行大气压力测量,同时也可以利用液位深度与压力的线性关系,进行深度测量。介质隔离的防水胶,实现压力传递的同时,也可以保护器件免受海水腐蚀,适用于可穿戴产品,比如手环、手表。其中MEMS压力传感器采用先进的离子注入工艺和敏芯股份独有专利技术的SENSA工艺,SENSA工艺在保证产品长期稳定可靠的同时,实现较低的成本。器件内部集成有24-bit Sigma-Delta ADC、OTP存储器及I2C/SPI通信接口,外部MCU通过I2C/SPI通信接口,读取ADC转换后的数据,同时读取OTP里面存储的器件校准参数,通过特定的校准公式,可以计算出当前的压力值(Pa),或者高度、液位深度。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了