大家近期都把焦點專注在文本轉視頻功能,尤其OpenAI的“Sora”和谷歌的“Lumiere”。亞馬遜則另闢方向,推出了一個全新的文字轉語音模型“BASE TTS”,而最大亮點是該模型能夠依照文本對白,表現出各種句子的“情緒”和語氣。
“BASE TTS”全稱是“Big Adaptive Streamable TTS with Emergent abilities”,它一共有3種數據集版本,最大的版本是“BASE-large”,擁有9.8億個參數,並採用了來自公共網站的10萬個小時語音數據來訓練。另外兩個版本的規模較小,分別是“BASE-small”和“BASE-medium”。前者擁有1.5億個參數,用了1000個小時的語音數據來訓練;後者有4億個參數,用了1萬個小時的語音數據來訓練。
ADVERTISEMENT
語音數據保留嘈雜的環境音
亞馬遜稱,整個語音數據集以英語為主(超過90%),其次是德語、荷蘭語和西班牙語。這些語音數據都不是在錄音室錄製的“乾淨”聲音,大多數有嘈雜的環境音。為了測試模型的能力,他們沒有為語音做任何降噪或剪輯,看看這個模型能不能生成清晰的語音。
為了加強“BASE TTS”理解文本的能力,亞馬遜還動手創建了一個“新興能力測試集”,一共有7個項目,比如問題、情感、複合名詞、外來詞彙、句法複雜性、副語言學(Paralinguistics)和標點符號。“我們的假設隨著增加‘BASE TTS’的模型容量和訓練數據,模型將開始獲得這些(解讀)能力。”
在整個測試過程,他們發現模型參數和數據多寡會影響“BASE TTS”的能力。例如“BASE-small”是無法解釋情感、語音、語調和外語詞彙。相比之下,“BASE-medium”模型沒問題,還能進一步掌握複合名詞。“從‘BASE-small’到‘BASE-medium’,語音的自然程度明顯提高了。但是從‘BASE-medium’到‘BASE-large’,提升程度較小。”
“我們相信,把基於GPT的TTS模型訓練時間從1000小時擴展到1萬小時,然後再將模型參數從1億增加到5億,會讓我們的TTS開始出現‘新興能力’(emergent abilities)的轉折點。”
亞馬遜有將這些AI聲音上傳到網頁(https://www.amazon.science/base-tts-samples/),而當我聆聽時,真的很難辨別聲音真偽。目前,這個模型還在實驗階段,亞馬遜擔心這種能力很可能被濫用,所以決定不公開這個模型的源代碼。
相關文章: AIA引進AI面試 尋找合適人才變得容易? 谷歌生成視頻把名畫搞笑了 抖音測“AI搜” 想打搜索引擎主意? AI工具太方便 “內容農場”8個月內膨脹12倍 AI新聞女王登場 24/7資訊不間斷
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT