報道:本刊 林德成
照片:截自谷歌的YouTube頻道
繼2月份的聊天機器人“Bard”,谷歌在12月6日推出了大語言模型“Gemini”,是一款混合語言和視覺理解的多模態人工智能(AI)互動模型。簡單來說,當你用語音發問或展示照片,它可以很快回應,回答各種問題。
ADVERTISEMENT
根據谷歌釋出的演示視頻,Gemini可以精準識別文字、繪圖、圖像、物體等等。還能流利地回答示範者的問題,其AI處理能力幾乎超越了ChatGPT,讓許多人感到驚豔,印象深刻。
在視頻中,示範者拿出一張紙,放在桌上,然後問Gemini,“告訴我,你看到什麼?”Gemini隨即回答,“我看到你在桌上放了一張紙。”之後,示範者畫了一隻藍色鴨子,Gemini接著答,“這隻鴨好像是藍色。這不是鴨子常見的顏色……鴨子比較常見的(顏色)是褐色、黑色和白色。”可是,當示範者拿出藍色的玩具鴨時,Gemini卻可以用擬人的語音,表現出驚訝的“語氣”。
之後,示範者要求Gemini看著地圖,隨機創作一個遊戲。它便想出用Emoji來猜國家名字的遊戲。另外,Gemini還可以看著一大堆不規則的點,直接猜到點對點的圖片是一隻螃蟹。它還具備邏輯推理能力,比如示範者拿出塑料鴨,在上方的左右兩旁擺放鴨子和熊的繪圖,並問,“鴨子應該往哪裡走?”Gemini很快地依圖分析和說道,“往左走是一隻鴨子,它是朋友;往右走會遇到熊,它是敵人。結交朋友好過結交敵人,所以鴨子應該向左走。”
此外,Gemini能夠依據繪圖,自動生成旋律。比方說示範者畫了一把吉他和一個音箱,Gemini直接生成一個電吉他的旋律。當示範者額外加一棵椰樹,Gemini會自動生成一首充滿沙灘氣息的旋律。
Gemini不能用語音互動
不過,谷歌有在YouTube說明欄打“預防針”,聲稱為了演示目的,他們縮短了各種延遲時間,也讓Gemini的回答變得簡潔。這意味著有關演示視頻有經過剪輯,不是Gemini真實的回應。倘若在現實情況下,Gemini可能會用較長時間識別和回答問題。
然而,《彭博社》踢爆這個演示視頻其實是造假的,Gemini並沒有和人類實時對話。谷歌發言人向《彭博社》透露,“(我們)用鏡頭中的靜態圖像,然後再用文字提示。”換句話說,有關視頻是經過設計,事前先用圖像和文字向Gemini發問,再用AI聲音讀出Gemini的回應。
在谷歌的部落格上,他們展示了整個視頻製作過程。內文提到,他們用了“多模態提示”(multimodal prompting)來向Gemini發問,即每項測試都會結合圖像和文字,再等它識別和作出回應。谷歌說,Gemini其實也是可以用“圖+文”的方式來回答,而這項功能名為“文本和圖像交錯生成”(interleaved text and image generation)。可是,Gemini的第一版本不會出現這個功能。
Gemini的聯合負責人Oriol Vinyals較後在社交平臺X發推文說,“視頻中所有的問題提示和回答都是真實的,只是為了簡潔而縮短。這個視頻展示了使用Gemini構建的多模態(multimodal)用戶體驗的模樣。我們這樣做是為了激勵開發人員。”
相關稿件: YouTube終於下狠手 AI歌手說bye bye 【科技簡訊】ChatGPT“說話”直逼真人 等著搶Siri“飯碗”
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT