登录
我的股票
Newsletter
联络我们
登广告
关于我们
活动
热门搜索
大事件
本网站有使用Cookies,请确定同意接受才继续浏览。
了解更多
接受
您会选择新界面或旧界面?
新界面
旧界面
简
本网站有使用Cookies,请确定同意接受才继续浏览。
了解更多
接受
您会选择新界面或旧界面?
新界面
旧界面
星洲人
登广告
互动区
|
下载APP
|
简
首页
最新
头条
IG热文榜
热门
国内
即时国内
封面头条
总编推荐
暖势力
热点
全国综合
社会
政治
教育
我们
专题
发现东盟
带你来国会
星期天头条
华社
2022大选
求真
星洲人策略伙伴
星洲人互动优惠
国际
即时国际
天下事
国际头条
国际拼盘
带你看世界
坐看云起
俄乌之战
京非昔比
言路
社论
风起波生
非常常识
星期天拿铁
总编时间
骑驴看本
风雨看潮生
管理与人生
绵里藏心
亮剑
冷眼横眉
游车河
财经
股市
即时财经
焦点财经
国际财经
投资周刊
2024财政预算案
ESG专版
娱乐
即时娱乐
国外娱乐
大马娱乐
影视
地方
金典名号
大都会
大柔佛
大霹雳
砂拉越
沙巴
大北马
花城
古城
东海岸
体育
大马体育
巴黎奥运会
羽球
足球
篮球
水上
综合
场外花絮
副刊
副刊短片
专题
优活
旅游
美食
专栏
后生可为
东西
时尚
新教育
e潮
艺文
护生
看车
养生
家庭
文艺春秋
星云
人物
影音
读家
花踪
亚航新鲜事
学海
动力青年
学记
后浪坊
星洲人
VIP文
会员文
百格
星角攝
图说大马
国际写真
好运来
万能
多多
大马彩
热门搜索
大事件
Newsletter
登录
ADVERTISEMENT
ADVERTISEMENT
Lumiere
e潮
AI也能模仿声音情绪了——亚马逊推出全新的文字转语音模型
大家近期都把焦点专注在文本转视频功能,尤其OpenAI的“Sora”和谷歌的“Lumiere”。亚马逊则另辟方向,推出了一个全新的文字转语音模型“BASE TTS”,而最大亮点是该模型能够依照文本对白,表现出各种句子的“情绪”和语气。 “BASE TTS”全称是“Big Adaptive Streamable TTS with Emergent abilities”,它一共有3种数据集版本,最大的版本是“BASE-large”,拥有9.8亿个参数,并采用了来自公共网站的10万个小时语音数据来训练。另外两个版本的规模较小,分别是“BASE-small”和“BASE-medium”。前者拥有1.5亿个参数,用了1000个小时的语音数据来训练;后者有4亿个参数,用了1万个小时的语音数据来训练。 语音数据保留嘈杂的环境音 亚马逊称,整个语音数据集以英语为主(超过90%),其次是德语、荷兰语和西班牙语。这些语音数据都不是在录音室录制的“干净”声音,大多数有嘈杂的环境音。为了测试模型的能力,他们没有为语音做任何降噪或剪辑,看看这个模型能不能生成清晰的语音。 为了加强“BASE TTS”理解文本的能力,亚马逊还动手创建了一个“新兴能力测试集”,一共有7个项目,比如问题、情感、复合名词、外来词汇、句法复杂性、副语言学(Paralinguistics)和标点符号。“我们的假设随着增加‘BASE TTS’的模型容量和训练数据,模型将开始获得这些(解读)能力。” 在整个测试过程,他们发现模型参数和数据多寡会影响“BASE TTS”的能力。例如“BASE-small”是无法解释情感、语音、语调和外语词汇。相比之下,“BASE-medium”模型没问题,还能进一步掌握复合名词。“从‘BASE-small’到‘BASE-medium’,语音的自然程度明显提高了。但是从‘BASE-medium’到‘BASE-large’,提升程度较小。” “我们相信,把基于GPT的TTS模型训练时间从1000小时扩展到1万小时,然后再将模型参数从1亿增加到5亿,会让我们的TTS开始出现‘新兴能力’(emergent abilities)的转折点。” 亚马逊有将这些AI声音上传到网页(https://www.amazon.science/base-tts-samples/),而当我聆听时,真的很难辨别声音真伪。目前,这个模型还在实验阶段,亚马逊担心这种能力很可能被滥用,所以决定不公开这个模型的源代码。 相关文章: AIA引进AI面试 寻找合适人才变得容易? 谷歌生成视频把名画搞笑了 抖音测“AI搜” 想打搜索引擎主意? AI工具太方便 “内容农场”8个月内膨胀12倍 AI新闻女王登场 24/7资讯不间断
8月前
e潮
e潮
谷歌生成视频把名画搞笑了
谷歌最近就发布了全新生成式AI模型“Lumiere”,能以文字创造逼真视频,完全没有抖动或闪现。
9月前
e潮
更多Lumiere
下一个
结束导览