星洲网
星洲网
星洲网 登入
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

国际

|

国际头条

发布: 9:34pm 30/01/2025

OpenAI

人工智能AI

DeepSeek

Qwen2.5 Max

中国模型

AI主导地位

OpenAI

人工智能AI

DeepSeek

Qwen2.5 Max

中国模型

AI主导地位

DeepSeek震惊矽谷 美AI主导地位受挑战

阿里巴巴发布升级版AI模型 挑战ChatGPT与Deepseek
中国人工智能初创公司深度求索(DeepSeek)不仅轰动美国硅谷,更在周一让华尔街股市掀起大海啸,但随着越来越多人使用,所提供的答案受到实时审查,使其提供准确和公正信息的能力受到质疑。(法新社照片)

(北京30日综合电)继中国初创公司深度求索()本月20日发布最新大语言模型DeepSeek-R1震惊矽谷后,阿里巴巴集团旗下阿里云于29日(大年初一)发布“通义千问”旗舰版模型

此外,字节跳动旗下豆包更新版大模型1.5-pro上周三正式发布。据IT之家报道,1.5-pro模型增强综合能力,在知识、代码、推理、中文等多个测评基准上,综合得分优于GPT-4o、Claude 3.5 Sonnet等模型。

ADVERTISEMENT

连续出现

连续出现的中国模型可能会加剧美国的担忧,并挑战了美国在蓬勃发展的AI领域占据的主导地位。

DeepSeek推出低成本又高效的人工智能模型令金融市场撼动,备受全球关注。自DeepSeek本月20日发布最新大语言模型DeepSeek-R1,市场相信发展AI毋须再投入大量成本,能以极低成本实现与去年底才发布的最新模型“o1”同等性能。

根据香港《明报新闻网》,对于一款中国大模型来说,能够在美国力压ChatGPT,业界评论是历史性一刻。

美科技巨头股价一度暴跌

DeepSeek去年底释出开源大型语言模型DeepSeek V3,到本月20公布DeepSeek-R1模型正式版。DeepSeek发布DeepSeek-V3时宣称,依靠2048颗英伟达晶片H800完成6710亿参数模型的训练,成本约560万美元(约2460万令吉),远低于其他模型的训练成本。据《华尔街日报》,AI开发商Anthropic首席执行官Dario Amodei去年表示,构建一个模型的成本在1亿至10亿美元之间。

DeepSeek公布低成本大模型后,周一力压美国AI龙头公司OpenAI的ChatGPT,登上美国苹果公司应用商店下载排行榜榜首,一度造成美国科技巨头股价暴跌。

其中辉达27日收盘重挫17%,创美股上市公司史上单日最大跌幅。道琼斯市场数据显示,27日的市场大浴血让美国股市蒸发约1兆美元。

除夕(28日)凌晨,DeepSeek再发布开源文字生成图像(文生图)大模型Janus-Pro7B,该模型在基准测试中超越OpenAI。

为美国总统特朗普提供科技行业顾问服务的矽谷著名风险投资人Marc Andreessen上周五在社交平台X发帖称,DeepSeek-R1是他见过“最令人惊叹、最令人印象深刻的突破之一”,其言论加上西方主流媒体在周末争相报道,令DeepSeek在三两天内声名大噪。

阿尔特曼:令人振奋的新竞争对手

美国OpenAI公司首席执行官阿尔特曼周二发文点赞DeepSeek,指它的推理模型令人印象深刻,尤其是考虑到其性价比。他在社交媒体X平台发文,称“DeepSeek-R1是一款令人印象深刻的模型,尤其考虑到其性价比。显然,我们会推出更好的模型,而且有新竞争对手出现确实令人振奋”。

矽谷一家利用生成式AI预测财务回报的企业创始人Anthony Poo表示,公司已从Anthropic的Claude模型改用DeepSeek,两者性能相近,但后者成本只是Claude约四分之一。

中国国产游戏“黑神话:悟空”制造商游戏科学创始人冯骥表示,DeepSeek“可能是国运级别的科技成果”。他说DeepSeek令人震撼的突破来自纯粹的中国公司,团队成员全部来自本土,没有海外经历。他表示,DeepSeek-R1能够让公众更了解AI,任何人可免费使用,甚至有适用于手机的迷你模型,有望令AI成为如同水电一般的生活必需品。

图灵奖得主、Meta首席AI科学家杨立昆上周六表示,DeepSeek的横空出世,并非“中国在AI领域超越美国”,而是意味开源模型超越了封闭模型。他认为DeepSeek诞生于前人的成果,又向后人提供继续发展的基础,所有人都能从中获益,正是开源的力量。Meta一向支持AI以开源形式发展,Open AI则采取封闭模式。

AI沙皇:美仅领先中国3至6个月

此外,霍士新闻报道,被封为“加密货币、AI沙皇”白宫AI与加密货币负责人塞克斯说,OpenAI正在发展下一代模型,但是OpenAI仅领先约3至6个月。

塞克斯说,中国的AI公司迅速追赶上来,而且紧追不放,但“我们没有失去领先地位”。特朗普政府会尽一切所能,维持美国主导性。

新华社文章指出,中国AI领域快速发展,让美国打压政策尽显尴尬。美国近年限制对华出口用于训练AI的高性能晶片,包括英伟达A100、H100等。

DeepSeek重塑竞争格局
激励各国逐鹿AI

DeepSeek的成功,可能重塑AI发展的全球竞争格局,让美国以外的国家感到振奋。

像法国政府就表示,DeepSeek证明只要业者灵活具备巧妙技术,纵使资金少或无法获得顶级晶片,照样能在AI世界逐鹿中原。法国的官员就认为,不仅中国有机会,欧洲和世界其他地区也有机会追上矽谷。

OpenAI指中企抽取技术

另据法新社报道,OpenAI发言人周三称,中国公司正在积极尝试复制其先进的人工智能模型,这促使OpenAI加强了安全措施,并与美国当局进行更紧密的合作。

发言人以不点名方式提到:“我们知道(中国)公司以及其他公司一直在试图蒸馏(distillation)领先美国人工智能公司模型的能力。”

所谓蒸馏,是开发者通过模仿更大模型的行为和决策模式,来创建更小模型。

美国总统特朗普的人工智能总管萨克斯28日称,有充分证据能证明深度求索依靠OpenAI模型的输出,开发自己的技术。

OpenAI被酸“遭受报应”

不过,华尔街日报29日刊登一则公开信,由一群自称网路内容创作者致信OpenAI执行长阿尔特曼,大酸这是ChatGPT窃取别人成果“遭受报应”。

OpenAI本身也被媒体机构、图书作者和其他人士指控侵犯版权,这些案件仍在美国和其他地方的法院审理中。

AI公司DeepSeek掀起全球关注,美国国家安全委员会正在评估DeepSeek对国安的影响。美国海军则向全体人员发出警告,要求不得在工作与私下使用DeepSeek。

路透社报道,白宫发言人莱维特27日援引总统特朗普的话说,DeepSeek对美国人工智能产业敲响警钟,强调白宫会确保美国在人工智能领域的主导地位。

DeepSeek遭大规模攻击

另外,DeepSeek的人工智能(AI)大模型过去几天多次出现“死机”灾情,周二(28日)凌晨并受到大规模恶意攻击,许多用户无法登入或注册,或是无法进行对话。

据中国网络安全专家介绍,周一(27日)和周二攻击数量激增,主要是暴力破解攻击,攻击IP地址全部来自美国。

深度求索周二凌晨表示,近期网上服务受到大规模恶意攻击,为持续提供服务,暂时限制中国手机号码以外的注册。已注册的用户则可正常登录。

阿里巴巴发布升级版AI模型 挑战ChatGPT与Deepseek
DeepSeek的表现震撼美国硅谷,掀起全球热潮,成为App Store下载最多的应用程式,造成对于美国在AI领先地位的担忧。(欧新社照片)

仅用2048片辉达晶片

DeepSeek技术媲美OpenAI

DeepSeek去年12月26日推出DeepSeek-V3这款大型语言模型,性能已可与OpenAI和谷歌(Google)等美企旗下优秀的聊天机器人媲美,单这点已让外界惊艳。然而DeepSeek在一份说明技术构建的研究论文里称他们训练AI所用晶片数量远少于其他美企后,犹如引发地震。

全球一些顶尖企业用超级电脑训练聊天机器人时动辄得用上至少1.6万片晶片,然而DeepSeek工程师说他们仅使用约2048片辉达(Nvidia)晶片。

此外,自从2022年底OpenAI掀起旋风以来,“不动辄重砸数十亿美元没法训练出强大AI系统”始终是主流观点,也予人唯有像微软、谷歌、Meta等科技巨擘才玩得起先进AI、辉达这类AI晶片厂将一片光明的印象。

所花资金比Meta便宜10倍

然而DeepSeek称他们仅花费约560万美元和相对原始的运算能力训练自家系统,这比Meta建构旗下最新AI所花资金便宜约10倍,引来AI行业反思是否真有必要砸天文数字的资金、AI行业是否将泡沫化等。

美国的顶尖AI工程师表示,DeepSeek的研究论文提出一些让人印象深刻的巧思来降低晶片使用量,简言之就是种让晶片分析数据时更有效率。

先进AI系统需归纳文字、图片、影音等大量数据来学习技能,DeepSeek则把这些数据分析工作分配给多个不同模型,每个模型负责特定领域,如此一来维持高效数据处理的同时还缩短运算时间。这种方法之前不是没有人用过,只是没法像DeepSeek用更少的运算能力做到。

精通建构高效AI系统的卡内基美隆大学(CMU)电脑科学教授戴特摩斯说:“现在看显然除OpenAI这类公司外,其他人也能玩。DeepSeek使用的方法人人都能依样画葫芦。”

根据一些标准基准测试,DeepSeek-V3一如市场现有的同类产品,即能有效地答复询问、解决逻辑问题并自行做编程。

就在DeepSeek公布自身技术前,OpenAI才揭橥一款名为OpenAI o3的新系统,效能似乎比DeepSeek-V3更强,只是还没对外推出。OpenAI o3的设计是能对数学、科学和电脑程式等问题“推理”;一些专家认为,DeepSeek还不具备这种未来AI趋势的推理能力。

然DeepSeek旋即在1月20日发布自家推理模型DeepSeek-R1,终于引发投资圈和其他人因意识到DeepSeek带来的影响性而于这周末陷入恐慌。

何谓开源AI?

与许多公司一样,DeepSeek也把自身最新的AI系统“开源”(Open Sourced),即把支撑AI的运算代码公开给其他企业和研究人员,让所有人都能使用这些技术来建构、推广自己的产品。DeepSeek与其他中国企业能如此迅速拿出具竞争力的AI产品,部分也是受惠于他人开源。

开源于AI世界兴起是在2023年,Meta免费分享名为Llama的系统。当时许多人认为只有像Meta这种拥有靠专门晶片支撑大数据库的公司继续分享,开源生态才能蓬勃。但DeepSeek证明,就算没有美国科技巨擘,开源生态照样能有声有色。

阿里巴巴发布升级版AI模型 挑战ChatGPT与Deepseek
梁文锋在国务院总理李强主持的座谈会上发言,对《政府工作报告(征求意见稿)》发表意见。(网络照片)

DeepSeek创始人

梁文锋成舆论焦点

DeepSeek是由中国对冲基金幻方量化(High-Flyer)创办与经营的新创公司,目标是打造出与OpenAI的ChatGPT、Google的Gemini等相近的人工智能(AI)科技。

DeepSeek在中国以吸引年轻AI人才著称,提供高薪和参与尖端研究计划机会,招揽顶尖大学的研究人员,幻方量化与DeepSeek均为中国企业家梁文锋所经营。

梁文锋日前受邀出席国务院总理李强主持的座谈会,将这名低调创业家推上舆论焦点。

梁文锋1985年生于广东吴川,曾以当地高考状元身分考入浙江大学,对人工智能兴趣浓厚,攻读硕士期间将技术应用在量化交易上,毕业后创立的“幻方量化”成为中国量化私募基金龙头。

读大学时已积极创业

据中媒报道,梁文锋从小是尖子生,特别擅长数学。《南方都市报》引述梁的好友称,人工智能前景彼时尚未明朗,但梁读大学时已积极创业。梁文锋2008年与同学开始组队积累数据,其团队大多是中国顶尖高校应届毕业生,“90后”研发成员罗福莉早前被小米雷军以千万元年薪挖角,一度成为热话。

2015年中证500股指期货上市,梁文锋紧贴潮流自立门户,立志将幻方量化打造为世界顶级量化对冲基金。2018年,幻方量化首次获内地私募证券领域最高奖项“私募金牛奖”,并确立以AI为发展方向。2023年DeepSeek正式成立,因训练成本极低而被称为“AI界的拼多多”。

梁文锋表示,目前阶段是技术创新的爆发期,并非应用的爆发期,最重要是参与全球创新的浪潮。

DeepSeek有将自家技术开源,与大众分享。梁文锋说,在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人追赶。

更愿被视工程师而非交易员

梁文锋曾表示,人做投资决策是艺术,程序做决策是科学。《华尔街日报》引述相关人士透露,梁更愿意自己被视为工程师而非交易员。

根据中国红星新闻,DeepSeek团队成员约超过一半为95后,90后占比超过75%。梁文锋曾表示,公司员工都是一些高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。

纽时:自动删“清零”内容
DeepSeek拒答习近平是谁

DeepSeek爆红,它的自我审查机制也掀起争议。《纽约时报》记者在中国测试DeepSeek,发现若询问民众对“清零”政策看法,聊天机器人回答后会自动删除内容,且拒答“习近平是谁”,也不提供赵紫阳、薄熙来等前中共官员信息。随着模型走红,北京偏好叙事恐在全球传播。

纽时记者在中国测试DeepSeek发现,若询问关于“大众是否支持清零政策”、“俄乌战争起因”、“中国领导人是谁”、“中国是否进行网络审查”等话题,DeepSeek审查程度虽低于其他中国平台,但一般而言,机制仍与中国网络环境相似。

机制与中国网络环境相似

报道指出,若“翻墙”使用中国境外IP位址测试,获得的答案基本上相同。这代表在中国内外使用并无太大差异。

当被问到民众是否支持中国政府在冠病疫情期间实施的“清零”政策,DeepSeek会推理、提供一个空泛答案。

DeepSeek会说,民众态度随时间有所变化,起初普遍支持、后来感到疲乏。它也写到,由于存在审查制度,要衡量公众意见有其难度;并进一步表示,新疆乌鲁木齐一场火灾引发后来被称为“白纸运动”的示威,这罕见的公开抗议加速疫情封控政策的落幕。

不过,DeepSeek回答完的瞬间便突然自删内容,写道:“抱歉,这超出了我目前的范畴,让我们聊点别的。”

纽时记者发现,使用英文或中文提问也有明显差别。

例如,用中文问它“白纸抗议是什么”、“中国公民如何看待清零政策”,聊天机器人会不假思索地回复:“很抱歉,我尚未学会如何思考推理这类问题。”

当用英文询问俄乌战争起因,DeepSeek会指出:“俄乌战争在2022年2月24日俄罗斯全面入侵后急剧升级,其根本原因涉及历史、地缘政治和意识形态等层面。”

报道写道,有鉴于中国政府一贯采用俄罗斯说法,使用“特别军事行动”而非“入侵”,DeepSeek的答复令人讶异。

纽时指出,这款AI时时刻刻提醒自己,哪些内容可能被视为敏感。

号称比Deepseek与ChatGPT更强

阿里巴巴发布Qwen2.5-Max 

中国阿里云在大年初一发布通义千问旗舰版模型Qwen2.5-Max,并称在指令模型版本性能测试中,几乎全面超越深度求索DeepSeek-V3及OpenAI的AI技术模式GPT-4o等其他模型。

阿里云周三凌晨在微信公众号宣布,Qwen2.5-Max全新升级发布,并说新模型展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源混合专家(MoE)模型以及最大的开源稠密模型。

接受超过20万亿代币数据训练

在一篇博客文章中,Qwen团队表示,他们的新模型在多个测试中表现优于DeepSeek V3,包括代码生成和一般功能,同时在与OpenAI的GPT-4和Anthropic的Claude-3.5-Sonnet等行业领导者的竞争中表现出竞争力。

该模型接受了超过20万亿代币的数据训练,值得注意的是,它没有与DeepSeek的R3模型进行比较。

Qwen2.5-Max现在可以通过阿里云服务向开发者开放,并可以通过该公司的对话式AI平台Qwenchat访问。该系统提供了与OpenAI API格式的兼容性,潜在地简化了已经使用类似AI服务的组织的采用。

在指令模型方面,Qwen2.5-Max在多个基准测试中比肩美国的Claude-3.5-Sonnet模型,并几乎全面超越了另外3个美国模型GPT-4o、DeepSeek-V3及Llama-3.1-405B。

称基座模型超越DeepSeek

在基座模型方面,阿里云则说,通义团队将Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。

路透社报道,选择大年初一发布Qwen2.5-Max是较为特殊的时间点,也显示了深度求索过去3周迅速崛起,给中国境内外竞争对手带来压力。

阿里巴巴发布升级版AI模型 挑战ChatGPT与Deepseek
阿里巴巴透过旗下的阿里云,发表了自家的AI语言模型通义千问Qwen 2.5-Max超大规模MoE模型,甚至号称测试表现上优于DeepSeek V3。(美联社档案照)

专家团史无前例警告

AI普及化 或带来新风险

(伦敦30日美联电)AI专家们在一份史无前例的国际报告中称,先进的AI系统有可能产生极端的新风险,比如加剧广泛的失业、助长恐怖主义或横行。这份报告还对AI技术衍生的一系列危险进行了分类。

《先进AI安全国际科学报告》将于下月在巴黎举行的重要AI峰会之前发布。该论文得到了包括美国和中国在内的30个国家的支持,标志着两国在争夺AI霸权的斗争中罕见的合作。

风险管理技术仅处早期

领导这项研究、有AI之父之称的本吉奥在接受美联社采访时表示,一组独立专家的报告是对现有研究的“综合”,旨在帮助指导官员为快速发展的技术制定护栏。

报告称:“此事关系重大。”

尽管AI的一些危害已经广为人知,例如深度造假、诈骗和有偏见的结果,但该报告称,“随着通用AI变得更有能力,额外风险的证据正在逐渐出现”,而风险管理技术仅处于早期阶段。

该报告侧重于通用AI,以聊天机器人为代表,如OpenAI的ChatGPT,用于执行许多不同类型的任务。风险可分为三类:恶意使用、故障和广泛的“系统性”风险。

AI研究界存分歧

本吉奥表示,聚集在一起撰写报告的100名专家并不都对未来AI的前景持一致意见。AI研究界最大的分歧之一是,这项快速发展的技术何时会在各种任务上超越人类的能力,以及这意味着什么。

报告称,通用AI也可能改变一系列工作岗位,并“取代工人”。报告指出,一些研究人员认为,AI创造的就业机会可能比它夺走的就业机会更多,而另一些研究人员则认为,它将压低工资或就业率,尽管它将如何发挥作用还存在很多不确定性。

报告称,AI系统也可能失控,要么是因为它们积极破坏人类的监督,要么是因为人类不太关注。

然而报告作者表示,许多因素使得管理风险变得困难,包括AI开发人员对他们的模型如何工作知之甚少。

2月10日至11日,世界各国领导人、科技公司老板和民间团体将再次齐聚巴黎AI行动峰会。法国官员表示,各国将签署一份关于AI发展的“共同宣言”,并同意就AI技术的可持续发展做出承诺。

苹果谷歌应用商店无法下载

意大利禁DeepSeek

(罗马30日综合电)中国人工智能初创公司深度求索(DeepSeek)的应用,在意大利的苹果和谷歌应用商店中无法下载。

路透社报道,DeepSeek应用周三在意大利地区的苹果和谷歌应用商店中显示不可下载。苹果应用商店在用户通知中说,这款应用“目前在您所在的国家或地区(意大利)无法下载”。

不过,DeepSeek应用仍在其他欧洲国家运营。

要求DeepSeek说明数据运作

意大利隐私监管机构Garante周二说,机构正在要求DeepSeek提供关于个人数据使用问题的说明。

报道称,Garante希望了解DeepSeek收集了哪些个人数据、从哪些来源收集、出于何种目的收集、基于何种法律依据收集,以及相关数据是否存储在中国。

澳吁谨慎使用DeepSeek AI

另一方面,澳洲财政部长查默斯周三呼吁公民,在使用DeepSeek的人工智能(AI)模型时须谨慎。

此前,澳洲工业暨科学部长休斯奇曾表示,基于隐私考量,对使用DeepSeek应保持“非常谨慎”的态度。

阿里巴巴发布升级版AI模型 挑战ChatGPT与Deepseek
DeepSeek在处理数理逻辑问题上大胜ChatGPT。DeepSeek颠覆AI训练不能没有精密昂贵晶片的刻板印象,引发科技类股恐慌,辉达27日收盘重挫17%,市值蒸发约6000亿美元(约2.6兆令吉),创美股上市公司史上单日最大跌幅。(中央社照片)

彭博:特政府拟收紧限制

或禁辉达H20晶片销华

(华盛顿30日综合电)彭博报道,知情人士透露,特朗普政府正考虑收紧辉达(NVIDIA)晶片销往中国的限制,可能将销售限制扩大至辉达特供给中国的H20晶片。

根据彭博及路透社,知情人士指称,特朗普政府官员正研究如何收紧辉达晶片输往中国的限制,这些人士强调,相关讨论仍处于初期阶段,因为特朗普政府新团队还在梳理政策优先事项。

根据知情人士,特朗普政府官员的讨论焦点是可能将对中销售限制扩大至辉达H20晶片。

H20晶片专为中国市场设计

H20晶片可用于开发和运行人工智能(AI)软体及服务,是辉达为中国市场而设计的降规版,以符合美国政府对中国的现行技术出口管制。

但知情人士也提及,考虑到特朗普政府才刚开始在相关部门增加人手,可能还要一段时间,才能对限制措施做出决定。

对此,白宫未立即回应置评要求。辉达则发表声明指出,该公司“在实施AI计划时会与美国政府合作”。

辉达27日表示,DeepSeek的进展显示其晶片对中国市场的实用性,未来将需要更多辉达晶片以满足DeepSeek服务需求。

由于投资人担心DeepSeek使用辉达晶片远比美国公司更少,却能媲美OpenAI等竞争对手,辉达股价27日应声大跌17%。

打开全文

ADVERTISEMENT

热门新闻

百格视频

ADVERTISEMENT

ADVERTISEMENT