报道:本刊 林德成
照片:截自谷歌的YouTube频道
继2月份的聊天机器人“Bard”,谷歌在12月6日推出了大语言模型“Gemini”,是一款混合语言和视觉理解的多模态人工智能(AI)互动模型。简单来说,当你用语音发问或展示照片,它可以很快回应,回答各种问题。
ADVERTISEMENT
根据谷歌释出的演示视频,Gemini可以精准识别文字、绘图、图像、物体等等。还能流利地回答示范者的问题,其AI处理能力几乎超越了ChatGPT,让许多人感到惊艳,印象深刻。
在视频中,示范者拿出一张纸,放在桌上,然后问Gemini,“告诉我,你看到什么?”Gemini随即回答,“我看到你在桌上放了一张纸。”之后,示范者画了一只蓝色鸭子,Gemini接着答,“这只鸭好像是蓝色。这不是鸭子常见的颜色……鸭子比较常见的(颜色)是褐色、黑色和白色。”可是,当示范者拿出蓝色的玩具鸭时,Gemini却可以用拟人的语音,表现出惊讶的“语气”。
之后,示范者要求Gemini看着地图,随机创作一个游戏。它便想出用Emoji来猜国家名字的游戏。另外,Gemini还可以看着一大堆不规则的点,直接猜到点对点的图片是一只螃蟹。它还具备逻辑推理能力,比如示范者拿出塑料鸭,在上方的左右两旁摆放鸭子和熊的绘图,并问,“鸭子应该往哪里走?”Gemini很快地依图分析和说道,“往左走是一只鸭子,它是朋友;往右走会遇到熊,它是敌人。结交朋友好过结交敌人,所以鸭子应该向左走。”
此外,Gemini能够依据绘图,自动生成旋律。比方说示范者画了一把吉他和一个音箱,Gemini直接生成一个电吉他的旋律。当示范者额外加一棵椰树,Gemini会自动生成一首充满沙滩气息的旋律。
Gemini不能用语音互动
不过,谷歌有在YouTube说明栏打“预防针”,声称为了演示目的,他们缩短了各种延迟时间,也让Gemini的回答变得简洁。这意味着有关演示视频有经过剪辑,不是Gemini真实的回应。倘若在现实情况下,Gemini可能会用较长时间识别和回答问题。
然而,《彭博社》踢爆这个演示视频其实是造假的,Gemini并没有和人类实时对话。谷歌发言人向《彭博社》透露,“(我们)用镜头中的静态图像,然后再用文字提示。”换句话说,有关视频是经过设计,事前先用图像和文字向Gemini发问,再用AI声音读出Gemini的回应。
在谷歌的部落格上,他们展示了整个视频制作过程。内文提到,他们用了“多模态提示”(multimodal prompting)来向Gemini发问,即每项测试都会结合图像和文字,再等它识别和作出回应。谷歌说,Gemini其实也是可以用“图+文”的方式来回答,而这项功能名为“文本和图像交错生成”(interleaved text and image generation)。可是,Gemini的第一版本不会出现这个功能。
Gemini的联合负责人Oriol Vinyals较后在社交平台X发推文说,“视频中所有的问题提示和回答都是真实的,只是为了简洁而缩短。这个视频展示了使用Gemini构建的多模态(multimodal)用户体验的模样。我们这样做是为了激励开发人员。”
相关稿件: YouTube终于下狠手 AI歌手说bye bye 【科技简讯】ChatGPT“说话”直逼真人 等着抢Siri“饭碗”
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT