Webex实时语音翻译的准确性，能代替人工同传吗？

上海云学科技有限公司

热线咨询：021-20423996；13501955596（微信）

来源:Webex Blog | 作者:yunxue | 发布时间: 2022-04-02 | 3865 次浏览 | 分享到:

2022年2月，实时语音翻译功能（Real-Time-Translation）在Webex中上线后，其翻译原理和准确些如何？能逐步代替人工同传吗？

自 2020 年推出Webex 助手以来，我们从客户那里收到的最常见问题是：“它准确吗？” 我明白了；客户希望确保，如果他们选择使用 Webex AI（人工智能）自动转录引擎，它将兑现保持准确会议记录的承诺，让与会者专注于对话，而不是输入会议记录，并通过辅助功能使会议更具包容性。人工智能过度承诺和交付不足的例子有很多，对于关键业务任务，Webex 已经取得了长足的进步，以确保对准确性的不懈关注。

随着世界进入混合工作模式，隐藏式字幕、转录和捕获行动项目等功能在推动平等和包容的会议体验方面变得比以往任何时候都更加重要，无论用户说什么语言、他们可能有什么可访问性需求或是否他们选择跳过会议来处理他们忙碌的生活并依靠 Webex 助手来提供回顾。我们的目标是利用人工智能和机器学习为每个人提供更好的每次会议体验。

构建最先进的 AI 转录引擎是实现该目标的一种方式。

鉴于 Webex 在构建强大的端到端标签、培训和机器学习管道方面所做的投资，我们很自豪能够利用这一基础推出具有行业领先准确性的英语转录引擎，用于 Webex 会议与市场上一些一流的语音识别引擎相比，体验。为了扩大我们技术的覆盖范围以覆盖全球 98% 以上的 Webex 客户，我们将推出完全由内部构建的西班牙语、法语和德语 ASR（自动语音识别引擎），将免费提供适用于今年上半年的所有 Webex 助手用户。

但“准确”的真正含义是什么？

当我们想到对话的准确转录时，我们经常设想，如果我们让人类转录员听这个音频文件，转录将反映所说内容的准确记录。然而，从长远来看，在一些流行的数据集（例如“CallHome”）上测量了人为错误率，迄今为止报告的最佳结果是 6.8% 的错误率；这意味着如果您有 100 个单词的成绩单，其中大约 7 个单词会被人类转录不准确。还值得一提的是，“CallHome”是一个数据集，它构成了以英语为母语的人之间的 30 分钟无脚本电话对话。[1] 预计具有不同英语口音的人的数据集的百分比错误会更高。

更有趣的是，由语言学数据联盟 (LDC) 衡量的转录者间一致性在 4.1% 到 9.6% 之间，这取决于它是仔细的多重转录还是快速转录 [2]。这意味着，如果您将相同的音频文件提供给 2 个人，即使在完美的环境条件下，他们仍然不会产生相同的录音。

我们的目标是继续改进 Webex 转录，使其不仅与人工转录相媲美，而且超越它，并为我们在不同口音、性别和声学环境中提供的每种语言实现一流的准确性。

所以，要回答“它准确吗？”这个问题。概述自动语音识别准确性的不同维度至关重要：

1. 准确性是使用称为字错误率 (WER) 的通用指标来衡量的

WER 衡量机器在转录演讲者所说内容方面的表现。
机器学习 (ML) 模型转录的相同音频被提供给人工标注者，以提供转录的基本事实。
单词错误率 (WER) 的计算方法是将错误数除以总单词数。要计算 WER，首先将出现在已识别单词序列中的替换、插入和删除相加。根据基本事实，将该数字除以单词总数。结果就是 WER。用一个简单的公式来说，单词错误率=（替换+插入+删除）/说出的单词数。[3]
当单词被替换时会发生替换（例如，“Carl”被转录为“Car”）。
插入是指添加了未提及的单词（例如，“middleware”变为“model where”）。
当一个单词被完全遗漏在转录本中时，就会发生删除（例如，“come up with”变成“come with”）。
WER越低，转录引擎的准确性越好；这意味着它犯的错误更少。
在下表中，我们将 2020 年 6 月作为我们为 Webex Assistant AI 转录引擎提供的模型的基准。您可以看到，随着时间的推移，我们不断改进 WER，到 2022 年 2 月达到 36% 的增量改进。

2. 这一切都取决于数据集

对于任何给定的语音识别引擎，都没有绝对的 WER 度量。每个数据集都有几个属性，例如方言分布、性别、声学环境和领域。因此，在有声读物数据集上运行 Webex 转录引擎会导致 WER 与 Webex 会议不同，而 Webex 会议与电话呼叫不同。此外，如果在与会者有口音讲话的 Webex 会议上运行相同的转录引擎，则在 Webex 会议上为母语为英语的用户运行相同的转录引擎会导致不同的错误率。
为了达到一流的准确性，我们仅针对视频会议用例。与通过电话或他们的 Alexa 说话相比，人们在视频会议中说话的方式有很多不同之处。我们的语音识别引擎能够识别这些特定模式，并使其成为视频会议的最佳选择。在内部构建 ASR 引擎与使用第 3方提供商相比，我们能够根据特定于 Webex 会议体验的属性1训练我们的 ML 模型。

3. 会议过程中的准确性提高

我们的自动语音识别 (ASR) 在会议期间创建 3 种转录：

草稿/临时话语：草稿话语是您实时看到的内容。如果您在讲话时正在查看 Webex 会议中的隐藏字幕 [下面屏幕截图中的黑框]，草稿会在转录的最初几毫秒内创建，这就是您看到的第一个转录本。我们称之为在线/流式音频转录。
最终话语：几毫秒后，会创建另一个更准确的转录草稿。这一切都是实时发生的，肉眼不易分辨。

上一篇：在Webex硬件视频会议终端上安装各类视......

下一篇： Webex智能AI语音处理原理

关于我们