最近,YouTube首席执行员尼尔·莫汉(Neal Mohan)接受Bloomberg Originals采访时说,如果OpenAI用YouTube视频训练Sora,将会违反YouTube平台的服务条款。
Sora是OpenAI旗下一款文生视频大模型,只要输入指令,便可以生成长达1分钟的视频。由于视频太过逼真,许多人想知道OpenAI的训练素材来源。
在今年3月份,《华尔街日报》记者便向OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)抛问,希望能解答大众疑虑。然而,当问到OpenAI有没有用YouTube、脸书、Instagram的视频来训练Sora,她语焉不详,表示不清楚Sora的训练素材来源。作为首席技术官,这个回答令人很惊讶。
谷歌用YouTube视频训练Gemini
几个星期后,彭博社旗下的“Bloomberg Originals”与尼尔·莫汉进行采访。在采访过程中,对方坦言自己也不清楚OpenAI是否有用YouTube视频来训练Sora。如果真的有,那么肯定违反了YouTube平台的服务条款。
记者接着询问,谷歌会不会用YouTube内容来训练大语言模型“Gemini”?他答,谷歌确实有用一些YouTube视频来训练“Gemini”,但前提是创作者在上传视频到YouTube时已经有授权同意。
未来数据版权纠纷会更多
在未来,这些AI大模型会更渴望数据。因为数据越多,它的性能就越好。但如果没有明确的AI版权法案,接下来会陆续发生各种数据版权纠纷。
根据《纽约时报》4月6日的报道,OpenAI曾开发一款语音识别工具“Whisper”,将超过100万小时的YouTube视频转录成文本,作为大语言模型GPT-4的训练素材,让它变得更加智能。理论上,这个举动已经犯了视频版权,因为这些都是属于创作者的视频。
除了视频语音,OpenAI也用新闻文章来训练AI工具。《纽约时报》曾在2023年状告OpenAI和微软侵权,在未经许可的情况下,使用受版权保护的新闻文章来训练他们的AI聊天机器人。然而,这两家科技公司称,他们是依据“合理使用”的法律原则来训练AI工具。