贡献你的声音
你可以帮助我们以及整个开放语音社区,为你的语言开发 speech-to-text 和 text-to-speech 模型。
Speech-to-text
当你对计算机说话时,它会将你的语音音频转录为文本。实现这一点的方法有很多,但它们都依赖于人类语音录音。
对于 speech-to-text,以下内容非常重要:
- 大量不同的说话人和口音
- 多种录音设备和质量水平
- 通常为 16Khz 音频和 16 位采样
- 多种录音环境,包括不同的房间和噪声水平
我们建议用户通过 Mozilla 的 Common Voice 项目来贡献 speech-to-text 数据。这个免费且开放的数据集通过众包方式收集来自世界各地人们朗读的句子。贡献者也可以通过验证现有录音来提供帮助。
Text-to-speech
当计算机对你说话时,它会从文本中合成音频。这与 speech-to-text 数据集的要求不同:
- 单一说话人,或为所有说话人提供等量的数据
- 高质量录音设备
- 通常为 48Khz 和 32 位采样
- 安静、可控的录音环境,例如隔音室
我们建议用户通过 LibriVox 项目来贡献 text-to-speech 数据。这不仅能为开放语音社区提供训练数据,也能为所有人提供免费的有声书。需要注意的是,朗读的书籍必须属于公有领域。

