Lumiere新闻资料

简

ADVERTISEMENT

ADVERTISEMENT

e潮

AI也能模仿声音情绪了——亚马逊推出全新的文字转语音模型

大家近期都把焦点专注在文本转视频功能，尤其OpenAI的“Sora”和谷歌的“Lumiere”。亚马逊则另辟方向，推出了一个全新的文字转语音模型“BASE TTS”，而最大亮点是该模型能够依照文本对白，表现出各种句子的“情绪”和语气。 “BASE TTS”全称是“Big Adaptive Streamable TTS with Emergent abilities”，它一共有3种数据集版本，最大的版本是“BASE-large”，拥有9.8亿个参数，并采用了来自公共网站的10万个小时语音数据来训练。另外两个版本的规模较小，分别是“BASE-small”和“BASE-medium”。前者拥有1.5亿个参数，用了1000个小时的语音数据来训练；后者有4亿个参数，用了1万个小时的语音数据来训练。语音数据保留嘈杂的环境音亚马逊称，整个语音数据集以英语为主（超过90%），其次是德语、荷兰语和西班牙语。这些语音数据都不是在录音室录制的“干净”声音，大多数有嘈杂的环境音。为了测试模型的能力，他们没有为语音做任何降噪或剪辑，看看这个模型能不能生成清晰的语音。为了加强“BASE TTS”理解文本的能力，亚马逊还动手创建了一个“新兴能力测试集”，一共有7个项目，比如问题、情感、复合名词、外来词汇、句法复杂性、副语言学（Paralinguistics）和标点符号。“我们的假设随着增加‘BASE TTS’的模型容量和训练数据，模型将开始获得这些（解读）能力。” 在整个测试过程，他们发现模型参数和数据多寡会影响“BASE TTS”的能力。例如“BASE-small”是无法解释情感、语音、语调和外语词汇。相比之下，“BASE-medium”模型没问题，还能进一步掌握复合名词。“从‘BASE-small’到‘BASE-medium’，语音的自然程度明显提高了。但是从‘BASE-medium’到‘BASE-large’，提升程度较小。” “我们相信，把基于GPT的TTS模型训练时间从1000小时扩展到1万小时，然后再将模型参数从1亿增加到5亿，会让我们的TTS开始出现‘新兴能力’（emergent abilities）的转折点。” 亚马逊有将这些AI声音上传到网页（https://www.amazon.science/base-tts-samples/），而当我聆听时，真的很难辨别声音真伪。目前，这个模型还在实验阶段，亚马逊担心这种能力很可能被滥用，所以决定不公开这个模型的源代码。相关文章： AIA引进AI面试寻找合适人才变得容易？谷歌生成视频把名画搞笑了抖音测“AI搜” 想打搜索引擎主意？ AI工具太方便 “内容农场”8个月内膨胀12倍 AI新闻女王登场 24/7资讯不间断

9月前

e潮

e潮

谷歌生成视频把名画搞笑了

谷歌最近就发布了全新生成式AI模型“Lumiere”，能以文字创造逼真视频，完全没有抖动或闪现。

10月前

e潮