最近,YouTube首席執行員尼爾·莫漢(Neal Mohan)接受Bloomberg Originals採訪時說,如果OpenAI用YouTube視頻訓練Sora,將會違反YouTube平臺的服務條款。
Sora是OpenAI旗下一款文生視頻大模型,只要輸入指令,便可以生成長達1分鐘的視頻。由於視頻太過逼真,許多人想知道OpenAI的訓練素材來源。
在今年3月份,《華爾街日報》記者便向OpenAI的首席技術官米拉·穆拉蒂(Mira Murati)拋問,希望能解答大眾疑慮。然而,當問到OpenAI有沒有用YouTube、臉書、Instagram的視頻來訓練Sora,她語焉不詳,表示不清楚Sora的訓練素材來源。作為首席技術官,這個回答令人很驚訝。
谷歌用YouTube視頻訓練Gemini
幾個星期後,彭博社旗下的“Bloomberg Originals”與尼爾·莫漢進行採訪。在採訪過程中,對方坦言自己也不清楚OpenAI是否有用YouTube視頻來訓練Sora。如果真的有,那麼肯定違反了YouTube平臺的服務條款。
記者接著詢問,谷歌會不會用YouTube內容來訓練大語言模型“Gemini”?他答,谷歌確實有用一些YouTube視頻來訓練“Gemini”,但前提是創作者在上傳視頻到YouTube時已經有授權同意。
未來數據版權糾紛會更多
在未來,這些AI大模型會更渴望數據。因為數據越多,它的性能就越好。但如果沒有明確的AI版權法案,接下來會陸續發生各種數據版權糾紛。
根據《紐約時報》4月6日的報道,OpenAI曾開發一款語音識別工具“Whisper”,將超過100萬小時的YouTube視頻轉錄成文本,作為大語言模型GPT-4的訓練素材,讓它變得更加智能。理論上,這個舉動已經犯了視頻版權,因為這些都是屬於創作者的視頻。
除了視頻語音,OpenAI也用新聞文章來訓練AI工具。《紐約時報》曾在2023年狀告OpenAI和微軟侵權,在未經許可的情況下,使用受版權保護的新聞文章來訓練他們的AI聊天機器人。然而,這兩家科技公司稱,他們是依據“合理使用”的法律原則來訓練AI工具。