星洲网
星洲网
星洲网 登录
我的股票|星洲网 我的股票
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

Sora

3月前
3月前
3月前
3月前
最近,YouTube首席执行员尼尔·莫汉(Neal Mohan)接受Bloomberg Originals采访时说,如果OpenAI用YouTube视频训练Sora,将会违反YouTube平台的服务条款。 Sora是OpenAI旗下一款文生视频大模型,只要输入指令,便可以生成长达1分钟的视频。由于视频太过逼真,许多人想知道OpenAI的训练素材来源。 在今年3月份,《华尔街日报》记者便向OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)抛问,希望能解答大众疑虑。然而,当问到OpenAI有没有用YouTube、脸书、Instagram的视频来训练Sora,她语焉不详,表示不清楚Sora的训练素材来源。作为首席技术官,这个回答令人很惊讶。 谷歌用YouTube视频训练Gemini 几个星期后,彭博社旗下的“Bloomberg Originals”与尼尔·莫汉进行采访。在采访过程中,对方坦言自己也不清楚OpenAI是否有用YouTube视频来训练Sora。如果真的有,那么肯定违反了YouTube平台的服务条款。 记者接着询问,谷歌会不会用YouTube内容来训练大语言模型“Gemini”?他答,谷歌确实有用一些YouTube视频来训练“Gemini”,但前提是创作者在上传视频到YouTube时已经有授权同意。 未来数据版权纠纷会更多 在未来,这些AI大模型会更渴望数据。因为数据越多,它的性能就越好。但如果没有明确的AI版权法案,接下来会陆续发生各种数据版权纠纷。 根据《纽约时报》4月6日的报道,OpenAI曾开发一款语音识别工具“Whisper”,将超过100万小时的YouTube视频转录成文本,作为大语言模型GPT-4的训练素材,让它变得更加智能。理论上,这个举动已经犯了视频版权,因为这些都是属于创作者的视频。 除了视频语音,OpenAI也用新闻文章来训练AI工具。《纽约时报》曾在2023年状告OpenAI和微软侵权,在未经许可的情况下,使用受版权保护的新闻文章来训练他们的AI聊天机器人。然而,这两家科技公司称,他们是依据“合理使用”的法律原则来训练AI工具。
7月前
8月前
大家近期都把焦点专注在文本转视频功能,尤其OpenAI的“Sora”和谷歌的“Lumiere”。亚马逊则另辟方向,推出了一个全新的文字转语音模型“BASE TTS”,而最大亮点是该模型能够依照文本对白,表现出各种句子的“情绪”和语气。 “BASE TTS”全称是“Big Adaptive Streamable TTS with Emergent abilities”,它一共有3种数据集版本,最大的版本是“BASE-large”,拥有9.8亿个参数,并采用了来自公共网站的10万个小时语音数据来训练。另外两个版本的规模较小,分别是“BASE-small”和“BASE-medium”。前者拥有1.5亿个参数,用了1000个小时的语音数据来训练;后者有4亿个参数,用了1万个小时的语音数据来训练。 语音数据保留嘈杂的环境音 亚马逊称,整个语音数据集以英语为主(超过90%),其次是德语、荷兰语和西班牙语。这些语音数据都不是在录音室录制的“干净”声音,大多数有嘈杂的环境音。为了测试模型的能力,他们没有为语音做任何降噪或剪辑,看看这个模型能不能生成清晰的语音。 为了加强“BASE TTS”理解文本的能力,亚马逊还动手创建了一个“新兴能力测试集”,一共有7个项目,比如问题、情感、复合名词、外来词汇、句法复杂性、副语言学(Paralinguistics)和标点符号。“我们的假设随着增加‘BASE TTS’的模型容量和训练数据,模型将开始获得这些(解读)能力。” 在整个测试过程,他们发现模型参数和数据多寡会影响“BASE TTS”的能力。例如“BASE-small”是无法解释情感、语音、语调和外语词汇。相比之下,“BASE-medium”模型没问题,还能进一步掌握复合名词。“从‘BASE-small’到‘BASE-medium’,语音的自然程度明显提高了。但是从‘BASE-medium’到‘BASE-large’,提升程度较小。” “我们相信,把基于GPT的TTS模型训练时间从1000小时扩展到1万小时,然后再将模型参数从1亿增加到5亿,会让我们的TTS开始出现‘新兴能力’(emergent abilities)的转折点。” 亚马逊有将这些AI声音上传到网页(https://www.amazon.science/base-tts-samples/),而当我聆听时,真的很难辨别声音真伪。目前,这个模型还在实验阶段,亚马逊担心这种能力很可能被滥用,所以决定不公开这个模型的源代码。 相关文章: AIA引进AI面试 寻找合适人才变得容易? 谷歌生成视频把名画搞笑了 抖音测“AI搜” 想打搜索引擎主意? AI工具太方便 “内容农场”8个月内膨胀12倍 AI新闻女王登场 24/7资讯不间断
8月前
9月前
9月前
9月前
9月前
9月前
9月前
(巴黎17日法新电)美国OpenAI公司最新一款能够以简单文字指令创造出短视频的人工智能(AI)工具已引起艺术界人士和媒体专业人员的担忧以及许多疑问。 创造ChatGPT和图像生成器DALL-E的人工智能公司OpenAI周四表示,它正在测试一款名为“Sora”的由文本转为视频模型,这模型能让用户通过简单的提示创建逼真的视频。 法国制作公司Cutback Productions的创办人兼艺术总监贝伦格一直以来都在谨慎观察生成式AI图像生成的进化。 贝伦格表示:“有人觉得,它是一个以以惊人的速度在进步的势不可挡风潮。” 他说,生成式AI的发展在其公司“内部引起了许多辩论”以及“许多有时候是发自内心的反应”。 贝伦格指出,Sora尚未正式推出,因此其能力仍有待公众测试。 他说:“肯定的是,没有人预计到仅仅数周内会有这样一个技术跃进。这是闻所未闻的。” 曾经任职记者的斯坦福大学研究员西蒙认为,“去年出现了可怕的跃进”,因为生成式AI让逼真的虚构品能够迅速地产生。 他不敢想象的是,这样的工具会如何在选举期间被滥用,并且担忧公众将“再也不知道要相信什么”。 法国电视频道法国新闻台(FranceInfo)的事实核查节目《是真是假》(Vrai ou Faux)主持人帕恩说,他也对AI工具的滥用感到忧虑。 他说:“至今,要辨认出假图像有够容易,例如通过留意背景中重复的面孔。” “这新软件所做的似乎是上了另一个层次。”
9月前
9月前