Skip to main content

贡献你的声音

您可以帮助我们和其他开放语音社区为您的语言开发 语音转文本 和 文本转语音 模型。

语音转文本

当你对着电脑说话时，它会转录你声音中的音频为文本。实现这一点的方式有很多，但它们都依赖于人们说话的录音。

对于语音转文本，重要的是要有：

许多不同的说话者和口音
各种录音设备和质量水平
- 通常为 16KHz 音频，16 位样本
多个录音环境，包括不同的房间和噪音水平

我们建议用户为 Mozilla 的 Common Voice 项目贡献语音转文本。这是一个免费开放的数据集，众包来自全球人们的口语句子。贡献者也可以通过验证现有录音来提供帮助。

文本转语音

当计算机对你说话时，它会从文本中合成音频。这与语音转文本数据集有不同的要求：

一个说话者，或者所有说话者的数据量相等
高质量的录音设备
- 通常为 48KHz，32 位样本
安静、可控的录音环境，例如隔音间

我们建议用户为 LibriVox 项目贡献文本转语音。这不仅为开放语音社区提供训练数据，还为每个人提供免费的有声书。重要的是，所读的书籍必须是公共领域的。

语音转文本
文本转语音