Skip to main content

贡献你的声音

您可以帮助我们和其他开放语音社区为您的语言开发 语音转文本文本转语音 模型。

语音转文本

当你对着电脑说话时,它会 转录 你声音中的音频为文本。实现这一点的方式有很多,但它们都依赖于人们说话的录音。

对于语音转文本,重要的是要有:

  • 许多不同的说话者和口音
  • 各种录音设备和质量水平
    • 通常为 16KHz 音频,16 位样本
  • 多个录音环境,包括不同的房间和噪音水平

我们建议用户为 Mozilla 的 Common Voice 项目贡献语音转文本。这是一个免费开放的数据集,众包来自全球人们的口语句子。贡献者也可以通过验证现有录音来提供帮助。

文本转语音

当计算机对你说话时,它会从文本中 合成 音频。这与语音转文本数据集有不同的要求:

  • 一个说话者,或者所有说话者的数据量相等
  • 高质量的录音设备
    • 通常为 48KHz,32 位样本
  • 安静、可控的录音环境,例如隔音间

我们建议用户为 LibriVox 项目贡献文本转语音。这不仅为开放语音社区提供训练数据,还为每个人提供免费的有声书。重要的是,所读的书籍必须是公共领域的。