Webex智能AI语音处理原理

上海云学科技有限公司

热线咨询：021-20423996；13501955596（微信）

Webex智能AI语音处理原理

讲话人的声音原声，通过机器学习解构--过滤--机器学习再构，就过滤了背景和噪音等，给收听者还原了一个清澈的原声

Webex AI 支持的音频处理模型

Webex 客户依靠我们的产品组合在任何地方进行协作。我们的方法是识别参与者的特征，无论其环境如何，然后利用人工智能和机器学习 (ML) 将传入的音频或视频分离成分段的数据丰富的流。以前，在广泛部署的实时通信软件中，这种重要组件流的详细提取水平是不可能的。

1. ML 驱动的分解

分解分离传入的音频流，包括：

通过基于语音级别和语音混响估计说话者与麦克风的距离来识别前景和背景说话者
检测到音频事件，包括特定的声音触发器或关键字。
混响，房间中声音的微妙回声，是分开的，可以调整以澄清参与者的声音。
背景音乐被分离到自己的流中，可以在重组阶段进行音量调整。
背景噪声与环境元素分离，并且可以包括可以根据用例进行调整的环境元素。

2. 每个用户的音频组件

一旦数据流被分离，我们将它们聚合成每个用户的音频组件，使我们能够单独选择、修改或对每个参与者的音频流采取行动。

3. 机器学习驱动的重建

根据用例，我们可以将各个数据流组合回与他人共享的音频中。这种方法使我们能够服务于各种用例和需求。例如，Webex 智能音频功能使参与者可以选择是否要去除所有背景噪音（噪音去除）、去除所有背景噪音和背景语音（优化我的声音），或者在您演奏乐器或演奏时听到原始声音唱歌（音乐模式）。

4. 渲染音频

生成的音频流以一种更容易理解且脑力更少的方式传递给其他参与者。

计算优势支持新用例

由于我们的 AI 架构专注于协作，我们可以在一个计算周期内分离媒体，而不是通过不同的模型多次处理媒体流。这种方法提高了流程的整体效率并提供了低延迟体验。我们还可以轻松地将新组件添加到流计算周期中，从而可能通过更丰富的输入流图片来启用新的使用场景。Webex 媒体流处理方法扩展到：

语音识别增强理解力

我们可以区分说话者和噪音、距离麦克风更近或更远的说话者，甚至可以调整房间混响。所有这些元素都被标识为单独的流，从而为满足特定用户需求提供了更大的灵活性。我们可以单独选择、修改这些流并对其执行操作，并从选定的音频组件中重建新的音频流。例如，在一次通话中，我们可能想要均衡前景或背景中讲话者的音量，而在其他通话中，我们可能只想突出显示离麦克风最近的讲话者。我们还可以识别音频事件触发器，例如“OK Webex”或突出显示对参与者可能很重要的其他环境音频。

机器视觉扩展了视频流的力量

我们的媒体流方式使我们能够对视频场景有更丰富的理解，并重新组合元素以提高视频质量。例如，我们可以将参与者与他们的背景和他们使用的手势区分开来。我们可以通过选择和修改这些单独的流来渲染视频，以最大限度地提高其他参与者对演示者的看法，同时最大限度地减少干扰。这种方法打开了一个充满可能性的世界，使参与者更容易在困难的环境中进行协作。

上一篇： Webex实时语音翻译的准确性，能代替人......

下一篇：无

关于我们