(舊金山14日法新電)週一發佈了一個性能更高、更接近人類的人工智能(AI)模型GPT-4o,這款全新模型新增語音助理能力,利用視覺及語音功能與人類進行逼真的對話,可以毫無延遲地即時回答問題,並可以協助解算寫在紙上的數學問題。
ADVERTISEMENT
該技術支持其備受歡迎的AI生成工具ChatGPT,並向所有用戶免費開放。
OpenAI技術總監:免費開放
OpenAI技術總監穆拉蒂當天在舊金山舉行線上發佈會上說:“我們非常、非常興奮地將GPT-4o免費開放給所有用戶。
OpenAI表示,未來幾周,新型號GPT-4o(“o”代表omni,即“全能”)將整合進OpenAI的產品中,免費提供給所有用戶使用,而付費用戶則能獲得更大的容量。
該公司表示,該模型可以生成內容,接受文本、音頻和圖像的任意組合作為輸入,並生成文本、音頻和圖像輸出。
OpenAI首席執行官阿爾特曼在一篇博客文章中說:“新的語音(和視頻)模式是我用過的最好的電腦界面。感覺就像電影裡的AI。”
他此前曾指出,電影《她》中的斯嘉麗·約翰遜是他希望AI互動走向的靈感來源。
他補充道:“對我來說,與電腦交談從來沒有真正自然過,而現在卻很自然。”
穆拉蒂和OpenAI工程師在線上發表會中展示GPT-4o的新功能、問問題挑戰增強版ChatGPT。她進行展示前說:“我們知道這些模式越來越複雜,但我們希望互動體驗更自然、更輕鬆。”
幽默回應工作人員問題
在演示中,OpenAI的工作人員主要向語音ChatGPT提問,ChatGPT則幽默地、類似人類的玩笑回應。
新功能讓使用者在與ChatGPT進行對話時,可以毫無延遲地獲得即時回答,甚至能在ChatGPT講話時打斷它,這兩項逼真對話的特點,在聊天機械人上可謂前所未見。
這個機器人可將英語翻譯成意大利語,還能幫用戶解決一道複雜的代數問題。
該公司表示,GPT-4o在文本、推理和編碼智能方面與之前的版本具有相同的功能,併為多語言對話、音頻和影視設定了新的行業標準。
在一次演示中,ChatGPT成功地通過智能手機攝像頭解讀了一名員工周圍的環境,用一種友好、女性化的聲音說話,無異於電影《她》中的AI機器人。
聊天機器人說:“嗯,在我看來,你好像是在錄音或製作設備中,有燈光、三腳架……你可能正準備拍攝一段視頻或發表一個聲明?”
最近幾周,人們高度預期OpenAI將發佈的一款AI版的在線搜索工具,以和谷歌搜索引擎競爭。但阿爾特曼上週五表示,情況並非如此。
觀察家們也在等待GPT-5的發佈,但阿爾特曼上週表示,他的公司將“慢慢發佈主要的新機型”。
微軟超越蘋果成市值最大公司
這只是AI軍備競賽的最新一幕,OpenAI的投資者微軟已經超越蘋果,成為全球市值最大的公司。
今次OpenAI推出的新款AI模型GPT-4o,是在谷歌預計週二在開發者大會上宣佈與ChatGPT匹敵的AI工具Gemini前,搶先發布,旨在利用GPT-4o鞏固OpenAI在AI科技的領先地位。
OpenAI和微軟正與谷歌展開激烈競爭,爭奪生成式AI的主要參與者,但臉書的母公司Meta和新貴Anthropic也在採取大刀闊斧與之競爭。
所有公司都在爭先恐後地想辦法彌補生成式AI的高昂成本,其中大部分成本都花在了晶片巨頭輝達及其強大的圖形處理器(GPU)半導體上。
免費開放引發質疑
向所有用戶免費開放新模型,可能會引發對OpenAI盈利途徑的質疑,因為人們懷疑普通用戶是否會為訂閱費買單。
到目前為止,只有性能較低的OpenAI版本或谷歌的聊天機器人向免費用戶開放。
阿爾特曼在他的博客上說:“我們是一家企業,會對許多服務進行收費。”
AI製造商也感受到了來自出版商和創作者的壓力,他們要求為用於訓練模型的任何內容付費。
OpenAI已與美聯社、《金融時報》和歐洲主要出版社阿克塞爾·斯普林格簽署了內容合作伙伴關係,但也陷入了與《紐約時報》的重大訴訟。
在美國法庭上,AI公司還面臨著來自藝術家、音樂家和作家的個別訴訟。
GPT-4o能解答手寫數學題
根據OpenAI在社群平臺的線上直播,新AI模型GPT-4o不僅能與用戶進行更加逼真自然的對話、能進行跨越文字語音和影像的互動,甚至還能輕鬆解答“寫在紙上的數學題目”。
GPT-4o讓ChatGPT能處理50種不同的語言,其速度是GPT-4 Turbo的2倍,而成本卻只有GPT-4 Turbo的一半。
Open AI表示,GPT-4o可以在短至232毫秒的時間內回應使用者的提問,與人類在對話中所需的反應時間差不多(與人類對話時,人類的回應速度平均為320毫秒)。它在英文和程式碼上的表現與GPT-4 Turbo的效能相當,但在非英文上的效能顯著提高,同時API的速度也更快,成本更降低50%。
GPT-4o亦展出升級後的即時翻譯能力,可提供“聽聲直譯”服務,測試人員分別以意大利文和英文對話,GPT-4o隨即就把對話內容翻譯成各自的語言。
GPT-4o還具整合圖像分析功能,另一個示範是使用手機的相機功能拍下手寫的數學習題,然後讓ChatGPT的語音模式幫忙解開該方程式。
透過語調錶情感知用戶情緒
新模型還能透過語調或臉部表情感知使用者的情緒,能自動播放音樂撫慰用戶心情,還能變換聲調為使用者講睡前故事。
在演示過程中,一名研究人員要求人工智能模型讀取他們的面部表情並判斷他們的情緒。ChatGPT的語音助理評論說,他看起來“快樂、開朗,臉上掛著燦爛的笑容,甚至帶著一絲興奮”。
ChatGPT還用充滿活力的女聲說道:“無論發生什麼,看起來你心情都很好,願意分享這些美好氛圍的來源嗎?”
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT