衡量并提高语音准确率

概览

自动语音识别 (ASR)，也称为机器转录或 Speech-to-Text (STT)，使用机器学习将包含语音的音频转换为文本。ASR 有许多应用，包括但不限于字幕、虚拟助理、交互式语音响应 (IVR)、口录等。然而，机器学习系统很少 100% 准确，并且 ASR 也不例外。如果您计划将 ASR 用于关键系统，请务必衡量其准确率或整体质量，以了解其在集成它的更广泛系统中的表现情况。

测量准确率后，您可以调整系统，以针对特定情况提供更高的准确率。在 Google 的 Cloud Speech-to-Text API 中，可以通过选择最合适的识别模型以及使用我们的 Speech Adaptation API 来完成准确率调整。我们提供针对各种应用场景定制的各种模型，例如长音频、医疗或电话对话。

定义语音准确率

可以通过多种方式来衡量语音准确率。您可以根据需要使用多个指标。不过，用于比较的行业标准方法是字词错误率 (WER)，通常缩写为 WER。WER 测量整个集合中不正确的单词转录的百分比。WER 越低，表示系统越准确。

您可能还会看到在 ASR 准确性上下文中使用的术语“标准答案”。标准答案是 100% 准确的转录（通常由人工提供），用于比较和衡量准确率。

字词错误率 (WER)

WER 是可能出现的三种类型的转录错误的组合：

插入错误 (I)：假设转录文本中存在的字词，但它们并不存在于标准答案中。
替代错误 (S)：同时存在于假设和标准答案中，但未正确转录的字词。
删除错误 (D)：不存在于假设中，但存在于标准答案中的字词。

\[WER = {S+R+Q \over N}\]

如需找到 WER，请将其中每个错误的总数除以标准答案转录中的字词总数 (N)。在准确率非常低的情况下（例如，插入大量新文本时），WER 可能大于 100%。注意：替代变量本质上是先删除再插入，并且某些替代变量不如其他替代变量严重。例如，替换单个字母与替换单词可能存在差异。

WER 与置信度分数的关系

WER 指标与置信度分数无关，通常它们不相互。置信度分数基于可能性，而 WER 基于字词是否正确识别。如果字词没有正确识别，则即使是轻微的语法错误也可能会导致 WER 过高。正确识别的字词会导致 WER 较低，但这仍然可能导致较低的可能性；如果一个字词不够频繁或音频非常杂乱，则会使置信度较低。

同样，频繁使用的字词更有可能由 ASR 正确转录，从而使置信度分数较高。例如，如果识别“I”和“eye”之间存在差异，则可能会具有较高的置信度，因为“I”是一个更流行的字词，但“I”会降低 WER 指标。

总之，置信度和 WER 指标是独立的，不应关联。

规范化

在计算 WER 指标时，机器转录会与人工提供的标准答案转录内容进行比较。在比较完成之前，对两个转录文本进行规范化。将机器转录与人工提供的真实转录进行比较时，标点符号会被移除，且大写字母也会被忽略。

标准答案惯例

请务必注意，任何给定音频均不存在单一的人类认可转录格式。您需要考虑诸多方面。例如，音频可能包含其他非语音发音，例如“huh”“yep”“umm”。一些 Cloud STT 模型（如“medical_conversation”）包含这些发音，而其他 STT 模型则不包含。因此，标准答案惯例必须与待评估模型的惯例相匹配。以下概要指南用于为给定音频准备标准答案文本转录。

除了标准字母之外，您还可以使用 0-9 中的数字。
请勿使用“@”“#”“$”和“.”等符号。请使用“at”“hash”“dollar”“dot”等字词。
使用“%”，但仅在前面加上数字时；否则，请使用“percent”一词。
仅当“\$”后跟数字时，才使用“\$”，例如“Milk is \$3.99”。
对小于 10 的数字使用字词。
- 例如，“I have four cats and 12 hats”。
请使用数字表示度量、货币以及大因数，例如 million、billion 或 trillion。例如，请输入“7.5 million”，而不是“seven and a half million”。
在以下情况下，请勿使用缩写：

正确做法错误做法

Warriors versus Lakers Warriors vs Lakers

I live at 123 Main Street I live at 123 Main St

正确做法	错误做法
Warriors versus Lakers	Warriors vs Lakers
I live at 123 Main Street	I live at 123 Main St

测量语音准确率

以下步骤可帮助您开始使用音频确定准确率：

收集测试音频文件

收集音频文件的代表性样本，以衡量其质量。此样本应该是随机的，并且应尽可能接近目标环境。例如，如果您想转写呼叫中心的对话，以帮助保证质量，您应该在生产音频所源自的设备上随机选择一些实际通话。如果您的音频是用手机或计算机麦克风录制的，并不能代表您的应用场景，请勿使用录制的音频。

录制至少 30 分钟的音频，以获得具有统计显著性的准确率指标。我们建议使用 30 分钟到 3 小时的音频。本实验为您提供音频。

获取标准答案转录

获取准确的音频转录。这通常涉及目标音频的单人或双通人工转录。您的目标是获得 100% 的准确转录内容，以衡量自动化的结果。

在获取标准答案转录时，请务必尽可能与目标 ASR 系统的转录惯例保持一致。例如，确保标点符号、数字和大小写一致。

获取机器转录，并修复您发现的文本中的任何问题。

获取机器转录

将音频发送到 Google Speech-to-Text API，并使用 Speech-to-Text 界面获取您的假设转录。

将标准答案与音频配对

在界面工具中，点击“附加标准答案”，将给定的音频文件与提供的标准答案相关联。完成附加后，您可以看到 WER 指标以及所有差异的直观呈现。

衡量并提高语音准确率 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

概览