语音追踪技术:为何「看见」比「听见」更重要?

By Written by Kieron Seth, Product Marketing Director at Lumens

June 06, 2025 328

「我们是视觉的生物,视觉的事物是固定的,而声音则会消逝。」哈佛大学心理学家 Steven Pinker 如此表示。这或许是个具争议的说法(尤其对于音乐家来说!),但研究显示,在面对面的交流中,至少有 50% 的沟通是非语言的。这意味着在会议中,视觉部分在视听技术(AV)中至关重要。
这给我们带来了一个问题。


 

▶ 什么是会议公平性(Meeting Equity)?

现代视讯会议摄影机能够产生令人惊叹的清晰和明亮影像。这些摄影机通常配备自动构图技术,能自动调整镜头以捕捉房间内的人员,而非周围空间。这样的效果确实不错,焦点清楚地放在与会者身上。但这仍无法完全解决一个关键问题。

对于远端参与者来说,依然很难跟上讨论进度。他们很难判断谁在说话,或者谁在回应谁。这就产生了「会议公平性」问题:现场参与者的体验往往优于虚拟参与者。
 

▶ 什么是会议公平性(Meeting Equity)?

现代视讯会议摄影机能够产生令人惊叹的清晰和明亮影像。这些摄影机通常配备自动构图技术,能自动调整镜头以捕捉房间内的人员,而非周围空间。这样的效果确实不错,焦点清楚地放在与会者身上。但这仍无法完全解决一个关键问题。

对于远端参与者来说,依然很难跟上讨论进度。他们很难判断谁在说话,或者谁在回应谁。这就产生了「会议公平性」问题:现场参与者的体验往往优于虚拟参与者。

▶ 视觉解决方案:从电视制作中学习


 
电视节目制作人已经有数十年的经验,能够创造出引人入胜的讨论节目,这些节目能有效吸引观众的注意力,并有效地讲述故事。这些节目通常包含以下标准元素:
•    多种摄影机角度
•    广角镜头来展示讨论的背景
•    主讲人的特写画面
•    在来回讨论中,同时框住多位说话者
•    智能镜头切换,选择最佳角度

 

▶ 视听技术能否媲美电视节目?

这些技术现已被会议专业人士所采用。在高规格的公开会议(如 G20 峰会)中,用于记录和直播的视听设备与电视台使用的技术旗鼓相当。

在一些高阶主管会议和公开会议中,由单一操作员管理多台 PTZ 摄影机是一种有效的解决方案。熟练的制作人员能够以经验和直觉捕捉讨论,为观众和远端参与者带来引人入胜的观赏体验。

然而,考量到会议机密性(如财务、健康或社会服务讨论)、复杂设备的安装和操作实际性,以及高昂成本,这样的配置往往只是例外,而非常态。随着过去几年虚拟会议的快速增长,为每场会议和每个会议空间都安排操作员显然并不现实。

AV 解决方案:语音追踪技术
▶ 什么是语音追踪?

一种新型会议室麦克风诞生了(如 Sennheiser TCC2Yamaha RM-CGShure MXA920Nureva HDL410 等)。这些产品采用了 DOA(到达方向)技术,可以检测声音来源的位置。这为何如此重要?

1.    语音追踪麦克风有助于消除常见的会议问题,例如声音模糊、声音过远或语音重叠。它们确保每位参与者无论身处何处,都能清晰地被听见。

2.     语音追踪也可帮助视讯摄影机自动对准说话者。

这对视讯会议来说是一个突破。语音追踪正在改变摄影机与现场讨论的整合与互动方式。
 

 

▶ 语音追踪与摄影机整合

藉由语音追踪的强大功能,麦克风阵列的定位数据会即时传送至外部处理器,并进一步连接多台 PTZ 摄影机。这种摄影机和麦克风的组合,能使摄影机立即对准会议空间中的主动声音。这是透过将摄影机角度与麦克风数据协调来实现的。会议影片可以自动产出,并被 Teams、Zoom 或其他会议平台即时使用。

▶ 什么是说话者追踪?

像 CamConnect Pro 这样的产品,Lumens 将语音追踪麦克风与 PTZ 摄影机系统结合,实现智能说话者追踪。其运作方式如下:

 

•   一位与会者开始说话 → 摄影机 1 自动放大该说话者。

•   视讯画面切换至摄影机 1。
•   另一位与会者开始说话 → 摄影机 2 自动放大该说话者。
•   系统自动切换至摄影机 2。

这种 AV 系统正在创造类似电视节目的效果,且不需用户干预。它还能管理大型会议:每台摄影机可分配多个与会者,覆盖整个会议空间。

▶ 说话者追踪的演进

将麦克风与摄影机连接并非新概念。多年前,开发人员就已能够编程 AV 控制器以回应即时语音追踪数据。但由于每个安装环境的复杂性和独特性,此过程通常相当昂贵。

然而,Lumens 的创新使这一切变得简单:CamConnect 可以轻松连接至网路,并在数分钟内配置完成,最多支援 4 台 PTZ 摄影机和多组麦克风阵列,无需编程。

▶ 从会议公平到大规模采用

随着 VC-TR60A 摄影机的推出,Lumens 将说话者追踪整合到 PTZ 摄影机内。无需依赖天花板或墙壁安装的麦克风来检测声音位置,这款摄影机在其底座内内建了一组声音检测器。透过 AI 驱动的影像分析工具,VC-TR60A 可以辨识声音是否来自房间内的人,而非关门声或外面汽车发动声。

 
 

▶ 说话者追踪的准确性如何?

说话者追踪技术在理想环境中非常精确,但仍受多种因素影响:

•    空间大小: 距离麦克风越远,定位数据的精度越低。好消息是,像 CamConnect 这样的系统可以支援多组麦克风,这些麦克风可以安装在天花板或墙壁上。

•    音响效果: 需要特别注意回音和反射。声音隔离良好的房间效果更佳,而 DSP 处理器可以最小化这些问题。

▶ 人为因素

人们会移动,会调整座椅,而这些动态可能会影响镜头构图。CamConnect Pro 等新一代 AI 系统可以自动重新构图,确保最佳画面。

▶ 避免「乒乓效应」

没有观众喜欢观看镜头不断在发言者之间快速切换的会议影片。为避免这种「乒乓效应」,一些系统可以启用多声道构图模式,自动切换到更广的镜头,覆盖所有活跃说话者。

▶ 说话者追踪的未来

多声道构图仅仅是开始。随着自动化技术的进步,说话者追踪有望演变为全自动 AV 制作系统,媲美专业电视节目制作。目前,这项技术已经在改变我们体验虚拟会议的方式。
 





 
返回