●報道:本刊 林德成
●圖:NVIDIA官方部落格
科技以往再怎麼日新月異,人工智能(AI)技術始終無法模仿真實的人聲,所合成的聲音終究與真人發音有所差距,畢竟我們說話有節奏、語調、情緒等等。不過,全球知名半導體公司英偉達(NVIDIA)日前在Interspeech 2021研討會上,發佈了最新的AI語音合成模型,可以捕捉和模仿人類說話的聲調細節。
ADVERTISEMENT
在過去一年,NVIDIA的文本轉換語音研究團隊開發了RAD-TTS語音合成模型。該團隊使用真人的聲音來訓練RAD-TTS模型,讓它可以將任何文本轉換成真人說話的聲音,同時還能轉換聲音的音調。在RAD-TTS模型的操作介面,人聲被視為一種樂器,可以調整音調、持續時間和語音強度。根據NVIDIA早前上傳了一段演示視頻,這個AI模型可以將一段錄製好的音頻,從男聲變成女聲,還能調整音頻,讓聲音強調特定的單詞或更改語速。乍聽之下,或許一時無法分辨,但仔細分析就會聽得出有些偏差。
NVIDIA說,這項技術可以應用在銀行、零售商店的客服熱線,亦能讓遊戲中的人物在說話時,顯得栩栩如生。此外,這個AI語音合成模型能用在配音領域,其文本轉換語音的功能也可以幫助到語言障礙者。
相關稿件:
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT