●报道:本刊 林德成
●图:NVIDIA官方部落格
科技以往再怎么日新月异,人工智能(AI)技术始终无法模仿真实的人声,所合成的声音终究与真人发音有所差距,毕竟我们说话有节奏、语调、情绪等等。不过,全球知名半导体公司英伟达(NVIDIA)日前在Interspeech 2021研讨会上,发布了最新的AI语音合成模型,可以捕捉和模仿人类说话的声调细节。
ADVERTISEMENT
在过去一年,NVIDIA的文本转换语音研究团队开发了RAD-TTS语音合成模型。该团队使用真人的声音来训练RAD-TTS模型,让它可以将任何文本转换成真人说话的声音,同时还能转换声音的音调。在RAD-TTS模型的操作介面,人声被视为一种乐器,可以调整音调、持续时间和语音强度。根据NVIDIA早前上传了一段演示视频,这个AI模型可以将一段录制好的音频,从男声变成女声,还能调整音频,让声音强调特定的单词或更改语速。乍听之下,或许一时无法分辨,但仔细分析就会听得出有些偏差。
NVIDIA说,这项技术可以应用在银行、零售商店的客服热线,亦能让游戏中的人物在说话时,显得栩栩如生。此外,这个AI语音合成模型能用在配音领域,其文本转换语音的功能也可以帮助到语言障碍者。
相关稿件:
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT