沉浸式音频基础、格式与剧场工作流

01. 章节

01. 执行摘要

沉浸式音频并不只是更大的声压或更多的扬声器。它的核心，是在三维空间中重建可信的声音场景，让听众更真实地感知方向、距离、高度与情绪距离。

随着音频技术发展，行业经历了从单声道到立体声、从立体声到环绕声、再从固定声道播放到空间化系统的演进。今天，声音可以被描述为一个对象、一个场景，或一个在空间中动态渲染的事件。

对剧场、现场演艺空间和沉浸式体验场所而言，这种变化远不只是声音设计方法的更新。它会改变扬声器布置策略、实时追踪需求、建筑声学预期，也会重新定义什么才算“可信”的观众体验。

核心观点

沉浸式音频的实际目标，是比传统扩声系统更忠实地重建真实声学情境，同时为设计师和运营团队提供更灵活的空间叙事、声像定位和观众覆盖能力。

剧场沉浸式音频控制与观众席空间示意 — 图 1
剧场沉浸式音频系统需要把调音、扬声器阵列、舞台画面与观众席听感统一到同一套空间叙事中。

1.1 沉浸式音频到底意味着什么？

行业中常见的沉浸式音频、3D 音频、空间音频、全景声音频等说法并不完全等同，但它们共享一个基本目标：声音信息不应只停留在平面的正前方，而应覆盖左右宽度、前后深度和垂直高度。

在日常生活中，我们始终被来自不同方向、不同反射面和不同距离的声音包围。沉浸式音频要做的，就是以有意识、可控制的方式重建这种自然包围感。

1.2 为什么现在必须讨论它

沉浸式音频的兴起，既来自技术成熟，也来自观众预期变化。听众不再只满足于清晰度和声压级，而是期待声音系统能带来参与感、真实感和情绪卷入。

即使在大型场馆中，沉浸式系统也能让聆听体验更贴近、更亲密。
可用的优质听音区可以从中心少数座位扩展到更大范围。
空间真实感能增强剧场、品牌体验、音乐会和复合型 AV 环境中的叙事冲击力。

02. 章节

02. 历史发展

沉浸式音频并不是突然出现的。它是在一次次提升空间真实感的技术尝试中逐步形成的，每一代系统都在缩小技术播放与真实聆听之间的距离。

沉浸式音频技术发展时间线 — 图 2
沉浸式音频的发展并非单点突破，而是从录音、扩声、环绕声到空间音频引擎持续演化的结果。

2.1 从单声道到立体声与环绕声

早期声音重放以单声道为主：所有内容由一个通道承载，几乎没有有意义的空间分离。立体声通过引入左右宽度提升真实感，后来的 5.1、7.1 等环绕格式又将播放范围扩展到观众周边。

这一演进极大改善了影院和家庭播放体验，但这些格式仍将空间体验理解为一组固定声道，并与固定扬声器布局直接绑定。

单声道与立体声听音差异示意 — 图 3
从单声道到立体声，声音系统开始提供左右宽度，但空间表达仍主要停留在平面声像阶段。

2.2 转向对象化与场景化思维

真正的概念跃迁，发生在声音不再只被视为固定声道，而开始被视为可移动的空间实体。对象化工作流让工程师定义“声音应该出现在哪里”，而不是只决定“哪个扬声器应该播放它”。

这种转变让沉浸式音频具备了可扩展性和适应性。艺术结果不再被硬绑定到某一种播放几何，而可以根据场馆实际安装的扬声器布局进行渲染。

2.3 沉浸式音频成为可落地的设计方法

真正的转折点，是沉浸式音频不再只是实验室中的技术概念，而成为制作团队可以使用的设计方法。此时，空间声音不再只由可用声道数量定义，而由系统在三维空间中定位、移动和重新解释声源的灵活程度定义。

这也是 Ambisonics、Dolby Atmos 以及其他空间音频引擎变得重要的原因。它们让工程师从声源位置、声音行为和观众感知出发思考，而不是只围绕固定输出通道工作。

这种变化也降低了制作摩擦。制作团队不必为了某一种播放布局从头重建混音，而可以在保留创作意图的同时，让渲染适配现场扬声器系统的几何条件。

03. 章节

03. 三类主流格式家族

在实际系统设计中，沉浸式音频格式通常可分为三大类：基于声道、基于对象和基于场景。它们对制作工作流、可移植性和部署方式有不同影响。

3.1 基于声道的音频

基于声道的音频延续了传统环绕声格式的逻辑：特定节目内容被分配到特定声道，而这些声道在播放时默认对应一套匹配的扬声器布局。

优势：当制作环境与场馆布局完全匹配时，播放结果可预测。
限制：当实际扬声器几何与原始混音环境不同，可移植性和灵活性较弱。
典型应用：标准化影院、广播电视或其他受控播放环境。

3.2 基于对象的音频

基于对象的音频将声源视为带有位置元数据的独立对象，渲染引擎再将该对象实时映射到可用的扬声器阵列中。

这种方式在剧场和沉浸式场馆中特别有价值，因为它允许声像在空间中自然移动，而不要求设计师只从声道分配角度思考。

工程师可以从声源视角工作，而不是从扬声器视角工作。
空间运动更连贯，也更容易自动化。
同一创作概念可以适配不同部署几何。

3.3 基于场景的音频

基于场景的音频描述的是整个声场，而不是孤立声源对象。它常见于 VR、XR 和交互式环境，因为播放系统需要根据听众朝向和位置动态响应。

对体验设计而言，这类格式的重要性在于：即使用户视角持续变化，系统仍能保持一个连贯的声音世界。

环绕与沉浸式扬声器布局示意 — 图 4
环绕声和沉浸式系统的扬声器布局，决定了系统能否在观众周围形成稳定的方向感和包围感。

04. 章节

04. 沉浸式音频背后的核心技术

沉浸式音频依赖的不只是扬声器数量。它的可信度来自系统能否准确定位声音、渲染运动，并控制内容周围的声学环境。

4.1 实时声源追踪

在现场演出中，可信的声像往往依赖于对演员或舞台事件的实时跟随。光学、红外等演员追踪系统可以持续向音频引擎回传空间坐标。

这意味着人声或戏剧声源可以始终锁定在可见演员身上，而不会在演员移动时脱离视觉叙事。

4.2 空间渲染与定位算法

当系统知道声源应该位于哪里之后，还需要一个引擎把坐标转换为扬声器电平、延时，甚至频谱行为。这正是沉浸式渲染的核心。

同样的逻辑既可用于可见演员，也可用于不可见的虚拟事件，例如飞机掠过、动物移动、头顶氛围声，或需要在空间中可信移动的舞台转场。

4.3 电子可变混响

剧场中的沉浸式设计通常不只需要定位，还需要环境转换。电子可变混响系统可以在不改造建筑实体的情况下，调整观众感知到的房间声学响应。

当演出在中性对白场景与教堂、洞穴、礼仪大厅、浴室等极具特征的空间之间切换时，这一点尤为关键。声音世界必须随故事变化，而不能只依赖扬声器声像移动规则。

05. 章节

05. 剧场中的应用模型

并非所有剧场制作都需要同等深度的沉浸式部署。在实践中，沉浸式剧场系统可根据作品需要表达的内容分层理解。

5.1 前场沉浸式系统

前场沉浸式系统以舞台附近的多组扬声器为核心，用于形成稳定且与视觉一致的声源定位。对许多制作而言，如果关键声源都发生在舞台上，且房间本身具备可接受的被动声学环境，仅这一层就可能带来足够的沉浸感。

换句话说，沉浸式音频并不总是意味着 360 度全包围奇观。在某些场景中，它意味着前场舞台声像足够精准、自然，让观众不再意识到扬声器系统，而是直接接受舞台本身就是声源。

5.2 前场系统加效果层

当制作需要表现舞台外事件，例如远处生物、移动氛围声或戏剧化飞越效果时，前场系统就需要扩展环绕声或专用效果层。

这往往是演出从优秀定位走向完整空间叙事的分界线。观众听到的不再只是舞台，而是舞台周围的整个世界。

5.3 全环境系统

最完整的剧场部署会结合前场定位、效果层和环境声学。在这类系统中，声音设计不仅能把离散事件放置到空间中，还能改变整个场馆的声学身份，使其匹配每一个戏剧情境。

到这一层级，沉浸式音频就不再只是传统扩声上的增强层，而成为完整舞台美学媒介的一部分。

06. 章节

06. 为什么沉浸式音频优于传统系统

沉浸式音频有吸引力，并不是因为它是一种潮流，而是因为在正确部署时，它相较传统扩声系统具备具体的运营优势和感知优势。

6.1 三维聆听体验

沉浸式音频让听众能以高于传统左右扩声的精度，感知声音的宽度、深度和高度。这会创造更可信的声音环境，使观众感觉自己被事件包围，而不是只被扬声器系统“播放”给他们。

6.2 更好的覆盖与定位

沉浸式系统通过更宽、更精细协同的扬声器阵列分配和渲染内容，通常可以创造更大且更一致的优质听音区。结果不仅是定位更强，也能减少传统系统常见的中心小甜区问题。

6.3 更灵活的制作与交付

对象化和场景感知工作流让制作团队可以把更多空间意义写入内容本身。相比严格绑定声道的交付方式，这让混音在不同场馆、播放几何和运营条件下更具适应性。

6.4 更强的艺术表现力

对声音设计师和作曲家而言，沉浸式音频是一种艺术扩展。它让作品能更细致地塑造注意力、情绪、张力、距离和氛围。声音不再只是扩声，而成为戏剧结构的一部分。

6.5 适应性与兼容性

许多沉浸式格式还具备实际兼容优势。高级空间内容通常可以渲染到不同扬声器布局中，并在需要时折叠为更简单的播放格式。对既要面向未来、又要满足当下运营灵活性的场馆来说，这种适应性非常关键。

07. 章节

07. 如何评估真实项目效果

评估沉浸式音频不能只看单一指标。它需要主观和客观方法结合，因为一个系统可能测量结果很好，却缺少情绪说服力；也可能听起来令人兴奋，却隐藏着影响可重复性的技术弱点。

7.1 主观听音测试

主观评价仍然不可缺少。观众问卷、听音小组、访谈和受控盲听比较，都可以揭示系统是否自然、开阔、清晰、具有情绪吸引力，并具备可信定位。

听众反馈可用于测试清晰度、真实感、空间印象和沉浸感。
盲听 A/B 对比有助于消除品牌偏见和预期偏差。
运营团队与创作团队反馈可验证系统在制作条件下是否表现稳定。

7.2 客观指标

客观评估可以包括定位精度、空间一致性、覆盖均匀度，以及新兴的沉浸式音频评价方法，用于量化空间信息在场馆内的保持程度。

当比较不同系统布局、渲染引擎和部署策略时，这些测量尤其有价值，因为它们能揭示系统在中心线之外、以及真实运营约束下是否仍能保持稳定的空间表现。

08. 章节

08. 附录：Ambisonics 基础

Ambisonics 仍然是连接声场采集、空间表达和灵活播放的清晰概念桥梁之一。

高阶 Ambisonics 通道数量与阶数关系 — 图 5
高阶 Ambisonics 通过增加通道数量提升空间分辨率，使声场在更大听音区域内保持更高稳定性。

8.1 什么是 Ambisonics

Ambisonics 于 20 世纪 70 年代在英国发展起来，其目标是在不依赖固定扬声器布局的情况下表达声场。它不直接传输扬声器馈送信号，而是编码声场本身，再由播放环境根据实际可用的扬声器配置进行解码。

这让 Ambisonics 在概念上非常重要：它将内容创作与播放几何分离。即使现代商业实现与经典 Ambisonics 实践不同，这一原则仍在持续影响沉浸式工作流。

8.2 理论基础：从 MS 录音到完整声场思维

一个有用的入口是 MS 录音。MS 录音捕捉场景的正向成分，并与 8 字形侧向成分组合。Ambisonics 可以理解为将这一思路扩展到完整三维声场描述。

Ambisonics 不只描述前方与侧方的关系，而是加入足够方向信息，用于表达左右、前后、上下轴线中的空间声场。

8.3 一阶 Ambisonics 与 B-Format

在一阶 Ambisonics 中，声场通常通过四个通道描述：W 表示全向成分，X、Y、Z 表示方向成分。W 承载场景的全方向能量，X、Y、Z 则描述正交轴线上的方向行为。

由于该格式描述的是声场而非扬声器馈送列表，同一段编码内容之后可以解码到不同扬声器阵列中。这种灵活性是 Ambisonics 的核心优势之一。

8.4 高阶 Ambisonics

一阶 Ambisonics 可以重建较可信的三维环境，但空间分辨率有限。高阶 Ambisonics 通过增加通道数量并承载更细致的方向信息，提高空间分辨率。

阶数越高，重放声场越精确、越稳定，尤其能覆盖更大的听音区域。代价是播放系统需要更多扬声器和更高计算复杂度。

8.5 简化的编码逻辑

简化来说，Ambisonics 编码器接收一个声源信号，同时接收水平角、高度角等方向参数。全向成分保持相对稳定，方向成分则根据声源在空间中的位置变化。

这也是 Ambisonics 在数学上优雅的原因：空间信息被编码为声场描述，之后可以渲染到多种扬声器系统，而不是在制作阶段永久绑定到某一张扬声器地图。

8.6 结语与延伸阅读

沉浸式音频最好不要被理解为一个流行标签，而应被理解为一种工程与创作框架，用于更可信地重建声学现实。它真正的重要性，在于把定位、环境响应和观众包围感统一为一套连贯的设计语言。

本文基于原文对沉浸式声音、剧场部署逻辑和 Ambisonics 的讨论整理，同时保留若干可继续阅读的英文资料方向。

rAVe：The Science Behind Immersive Audio
National Academies：Immersive Audio - The Past Repackaged or a New Frontier
Sound Particles Blog：What Is Ambisonics
Into the Soundfield（University of Oxford）：What Is Ambisonics