什么是TTS?
TTS (Text-to-speech)是近年来人工智能研究领域的一个热点,这种模型在语音合成领域有着非常广泛的应用。
尤其是近两年,有声书很火。有很多前几年积累的网络小说。经过TTS模式后成为有声书,然后在喜马拉雅或蜻蜓FM等类似渠道上线销售。也直接填补了这类模型的应用价值。
然而,一个好的语音合成模型是非常罕见的。一方面需要生成正确的语音,即准确率高;另一方面,生成的语音要真实,机械感低。尤其是第二个方面非常难得。人类读句子是有抑扬顿挫的,有时候结合句子的意思会有情绪上的变化。这对于模型的学习和训练来说是非常困难的。
此外,还有多语言融合的问题:比如中文夹杂英文;音色的问题是根据少量声纹的特点合成特定音色的语音。比如男中音和女高音。因此,一个简洁易用的TTS模型是无法满足的。
目前主流的模型设计方案分为两部分:声学模型和声码器。声学模型主要采用类伯特模型,对输入文本进行NLP处理,预测声学特性。声码器主要采用GAN模型将声学特征转换为声学信息。
最近在人工智能模型市场上推出了一种新的TTS模型。通过与作者的交流,我们发现作者使用上述模型,经过10小时的大数据训练,成功孵化出一个优秀的TTS模型。实测结果表明,模型的准确性、速度和真实性非常均衡,并且还支持中英文~
欢迎有需要的朋友来AI模型市场(aimodelmarket.cn)试用。快来看看这个勇敢的语音生成场是怎么玩TTS的吧~