发布: 6:10pm 14/05/2024

用“视觉”解读环境感知人类情绪 GPT-4o可逼真对话

天下事主文∕ OpenAI强势推出GPT 4o 具实时语音、文本、图像交互能力 — OpenAI技术总监穆拉蒂指出，GPT-4o将于未来数周整合进OpenAI产品中，同时将免费提供给所有用户使用。（互联网照片）

（旧金山14日法新电）周一发布了一个性能更高、更接近人类的人工智能（AI）模型GPT-4o，这款全新模型新增语音助理能力，利用视觉及语音功能与人类进行逼真的对话，可以毫无延迟地即时回答问题，并可以协助解算写在纸上的数学问题。

该技术支持其备受欢迎的AI生成工具ChatGPT，并向所有用户免费开放。

OpenAI技术总监：免费开放

OpenAI技术总监穆拉蒂当天在旧金山举行线上发布会上说：“我们非常、非常兴奋地将GPT-4o免费开放给所有用户。

OpenAI表示，未来几周，新型号GPT-4o(“o”代表omni，即“全能”)将整合进OpenAI的产品中，免费提供给所有用户使用，而付费用户则能获得更大的容量。

该公司表示，该模型可以生成内容，接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。

OpenAI首席执行官阿尔特曼在一篇博客文章中说：“新的语音(和视频)模式是我用过的最好的电脑界面。感觉就像电影里的AI。”

他此前曾指出，电影《她》中的斯嘉丽·约翰逊是他希望AI互动走向的灵感来源。

他补充道：“对我来说，与电脑交谈从来没有真正自然过，而现在却很自然。”

穆拉蒂和OpenAI工程师在线上发表会中展示GPT-4o的新功能、问问题挑战增强版ChatGPT。她进行展示前说：“我们知道这些模式越来越复杂，但我们希望互动体验更自然、更轻松。”

幽默回应工作人员问题

在演示中，OpenAI的工作人员主要向语音ChatGPT提问，ChatGPT则幽默地、类似人类的玩笑回应。

新功能让使用者在与ChatGPT进行对话时，可以毫无延迟地获得即时回答，甚至能在ChatGPT讲话时打断它，这两项逼真对话的特点，在聊天机械人上可谓前所未见。

这个机器人可将英语翻译成意大利语，还能帮用户解决一道复杂的代数问题。

该公司表示，GPT-4o在文本、推理和编码智能方面与之前的版本具有相同的功能，并为多语言对话、音频和影视设定了新的行业标准。

在一次演示中，ChatGPT成功地通过智能手机摄像头解读了一名员工周围的环境，用一种友好、女性化的声音说话，无异于电影《她》中的AI机器人。

聊天机器人说：“嗯，在我看来，你好像是在录音或制作设备中，有灯光、三脚架……你可能正准备拍摄一段视频或发表一个声明?”

最近几周，人们高度预期OpenAI将发布的一款AI版的在线搜索工具，以和谷歌搜索引擎竞争。但阿尔特曼上周五表示，情况并非如此。

观察家们也在等待GPT-5的发布，但阿尔特曼上周表示，他的公司将“慢慢发布主要的新机型”。

微软超越苹果成市值最大公司

这只是AI军备竞赛的最新一幕，OpenAI的投资者微软已经超越苹果，成为全球市值最大的公司。

今次OpenAI推出的新款AI模型GPT-4o，是在谷歌预计周二在开发者大会上宣布与ChatGPT匹敌的AI工具Gemini前，抢先发布，旨在利用GPT-4o巩固OpenAI在AI科技的领先地位。

OpenAI和微软正与谷歌展开激烈竞争，争夺生成式AI的主要参与者，但脸书的母公司Meta和新贵Anthropic也在采取大刀阔斧与之竞争。

所有公司都在争先恐后地想办法弥补生成式AI的高昂成本，其中大部分成本都花在了晶片巨头辉达及其强大的图形处理器（GPU）半导体上。

免费开放引发质疑

向所有用户免费开放新模型，可能会引发对OpenAI盈利途径的质疑，因为人们怀疑普通用户是否会为订阅费买单。

到目前为止，只有性能较低的OpenAI版本或谷歌的聊天机器人向免费用户开放。

阿尔特曼在他的博客上说：“我们是一家企业，会对许多服务进行收费。”

AI制造商也感受到了来自出版商和创作者的压力，他们要求为用于训练模型的任何内容付费。

OpenAI已与美联社、《金融时报》和欧洲主要出版社阿克塞尔·斯普林格签署了内容合作伙伴关系，但也陷入了与《纽约时报》的重大诉讼。

在美国法庭上，AI公司还面临着来自艺术家、音乐家和作家的个别诉讼。

GPT-4o能解答手写数学题

根据OpenAI在社群平台的线上直播，新AI模型GPT-4o不仅能与用户进行更加逼真自然的对话、能进行跨越文字语音和影像的互动，甚至还能轻松解答“写在纸上的数学题目”。

GPT-4o让ChatGPT能处理50种不同的语言，其速度是GPT-4 Turbo的2倍，而成本却只有GPT-4 Turbo的一半。

Open AI表示，GPT-4o可以在短至232毫秒的时间内回应使用者的提问，与人类在对话中所需的反应时间差不多（与人类对话时，人类的回应速度平均为320毫秒）。它在英文和程式码上的表现与GPT-4 Turbo的效能相当，但在非英文上的效能显著提高，同时API的速度也更快，成本更降低50%。

GPT-4o亦展出升级后的即时翻译能力，可提供“听声直译”服务，测试人员分别以意大利文和英文对话，GPT-4o随即就把对话内容翻译成各自的语言。

GPT-4o还具整合图像分析功能，另一个示范是使用手机的相机功能拍下手写的数学习题，然后让ChatGPT的语音模式帮忙解开该方程式。

透过语调表情感知用户情绪

新模型还能透过语调或脸部表情感知使用者的情绪，能自动播放音乐抚慰用户心情，还能变换声调为使用者讲睡前故事。

在演示过程中，一名研究人员要求人工智能模型读取他们的面部表情并判断他们的情绪。ChatGPT的语音助理评论说，他看起来“快乐、开朗，脸上挂著灿烂的笑容，甚至带著一丝兴奋”。

ChatGPT还用充满活力的女声说道：“无论发生什么，看起来你心情都很好，愿意分享这些美好氛围的来源吗？”

打开全文

百格视频

更多视频

微软

对话

OpenAI

GPT-4o

逼真

微软

对话

OpenAI

GPT-4o

逼真