开源模型新闻资料

国际拼盘

Deepseek与Meta来势汹汹 OpenAI宣布将发布开源模型

ChatGPT的创造者、人工智能（AI）巨头OpenAI周一宣布，由于在开源领域面临来自中国竞争对手DeepSeek和Meta的日益激烈的竞争，该公司正在构建一款功能强大的开源大模型的生成式AI模型。

4星期前

国际拼盘

新教育

丁源森／看着DeepSeek的纷纷扰扰，一个技术宅的无奈

上周DeepSeek刚发布R1的时候，媒体还没炸锅，我这个技术宅就异常激动。我兴奋地跟同事分享这个激动人心的消息。作为一个研究者，我期待着明天的世界能有更少的争端，更多的合作。毕竟在科研的世界里，开放和共享才是推动科技进步的原动力。可惜，事情的发展马上反转。开源模型和闭源模型的差别要理解这次争议，得先聊聊大语言模型在ChatGPT爆火之后形成的两个阵营：开源派和闭源派。开源模型就像是一个共享的工作室，你可以完全掌控里面的工具，想怎么改进就怎么改进，想怎么定制都行。而闭源模型则更像是一个标准化的服务中心，你最多只能在预设的范围内做些调整，毕竟人家是公司，要考虑商业利益。这两派的较量，某种程度上也反映了学术理想和商业现实的博弈。在开源阵营里，脸书的母公司Meta的羊驼（LLaMA）模型一直是当之无愧的王者，也把技术报告写得很详细让大家参考，即使Meta在各项性能指标上往往比闭源模型慢两三个月。对于“卷到飞起”的AI领域来说，这个差距确实不小，但已经很了不起了。而且，不管是开源还是闭源的模型，多少都能看到羊驼的影子，这说明开源社区的贡献有多重要。值得一提的是，开源模型主要是由大学和研究院所的学者在推动，他们秉持着知识共享的理念。虽然因为闭源模型大部分都不公开技术细节，开源模型总是“差那么一点点”。在这样的背景下，去年年初，DeepSeek开始在学术圈崭露头角。他们选择了开源的道路，定期在arXiv上发表技术文章。他们借鉴了全球开源学术界的智慧，开始了自己的探索。当他们去年中发表第二版模型（v2），世界上的学术研究人员就开始注意到他们的研究成果，互相学习。到了去年12月，当他们发布第三版（v3）模型时，业界普遍认可他们的实力。不管是评测还是实际使用体验，都显示这是个相当厉害的模型。等到R1发布，也让大家意识到这是开源模型第一次在推理能力上能和OpenAI的旗舰模型分庭抗礼。其实，在开源AI领域，全球都有优秀的团队在默默耕耘。美国的Allen AI研究团队，谷歌的Gemma团队，法国的Mistral AI凭借着精巧的设计和高效的训练方法，展现了欧洲的技术实力。中国除了DeepSeek，还有阿里的通义千问，以及智谱AI等团队都在开源领域贡献力量。这些团队之间存在着广泛的技术借鉴和思想交流。可以说，开源AI是一个你中有我、我中有你的共同体。正是这种开放和共享的精神，推动着整个领域不断进步。 DeepSeek展示一条新路：让AI自主学习作为一个研究者，DeepSeek，如同上述各个开源团队，不仅发布了模型，还发表了详细的学术报告。他们比较有意思的突破之一，用通俗的话说，就像是在下围棋时发现：与其先让AI学习人类的棋谱再自我提升，不如让它直接学习。这听起来可能很简单，但在当时可是个大胆的想法。就像AlphaGo后来演变成AlphaZero时发现的那样，AI不看人类棋谱可能反而学得更好。这个发现特别重要，因为在逻辑推理领域，收集“人类棋谱”（也就是标注数据）是非常昂贵的过程。DeepSeek展示了一条新路：直接跳过这个步骤，让AI自主学习。这一点给整个开源学术圈带来了极大启发。基于DeepSeek学术文章提出的技术细节，世界各地的研究者很快就跟进验证，证实这条路确实可行。海内外AI大佬大多都送上了祝福。美国图灵奖得主、AI大佬Yann LeCun在推特上说到：“DeepSeek正确的解读应该是：‘开源模型正在超越专有（闭源）模型。’DeepSeek受益于开放研究和开源项目（例如Meta的PyTorch和LLaMA）。他们提出了新的想法，并在其他人的工作基础上进行构建。因为他们的工作是公开发表且开源的，所有人都能从中受益。这就是开放科学和开源的力量。” 但随后，舆论的关注点却偏离了技术本身。这让我这个研究者很困惑：首先，DeepSeek确实进入了第一梯队，但第一梯队本来就有不少各国（大部分闭源）公司。作为开源模型，它是可以完全下载到本地部署的，也不需要网络运行，所以有些担忧似乎有点牵强。在媒体的推波助澜和大公司的利益驱使下，原本纯粹的开源科学的胜利变得剑拔弩张。开源模型的成功对科学的发展是利好的科教界大佬，斯坦福大学客座教授吴恩达在推特上说：“我在X上看到了许多人对DeepSeek进展的不同解读，就像一个罗夏墨迹测试。”罗夏墨迹测试是心理学界常用的一个隐喻，表示人们往往会将自己的想法、经历和偏见投射到中性物上。这里从来都不是谁比谁强的事情，而是证明知识共享才是发展的真理。这也是OpenAI顾名思义最初的理想。OpenAI CEO山姆·奥特曼也在最近的访问中重新审视了他们采取闭源的策略。吴恩达教授还说：“开源模型正在使基础模型层商品化。正如我之前所写，大语言模型的令牌价格一直在快速下降，开源模型助推了这一趋势，并为开发者提供了更多选择。” 这一点在实践中已经得到了印证。现在许多模型即服务（MaaS）公司，都在提供基于开源模型的本地部署服务，以极其实惠的价格出售计算时间。这种模式给很多发展中国家带来了新的机遇。比如对马来西亚这样的国家来说，只要有计算资源，就可以把模型下载下来，出售计算时间，而不必完全依赖闭源模型公司乃至任何一个国家。这种可能性对于马来西亚其实是一个重大利好，只是在当前的争议中似乎没有得到太多关注。这个发现对我的研究特别有意义。这两年我主要在研究天文领域的AI智能体，探索AI自主完成物理研究的可能性。作为一个追求“平、靓、正”的技术人，我一直在量化评估各种模型在物理问题上的解题能力。这是个新兴的研究方向，而其中他能不能大规模的运用起来，其实和运行模型的成本是最大的考量，所以开源模型的成功对于科学的发展是利好的。但是同时，可预见的未来里，经过这波洗礼，大语言模型务必会更加廉价，也可能会有更多有能力的人投入到开源工作。而AI对于人类在各行各业的就业的冲击会再次提速，这或许才是更应该被讨论的议题。可惜的是，这个原本是中性的开源与闭源模型之争，在不同的人群中沉淀了很多偏见的投影。最终受伤的，是那些不分国界、怀抱理想、愿意分享的学术工作者。也许是做天文研究的缘故，让我的想法太过理想主义。在天文学界，开放共享是常态。想想看，就连美国耗资百亿美元打造的韦伯望远镜，它的观测数据也是可以立即在太平洋彼岸下载的。澳大利亚的、欧洲的、中国的、日本的研究数据，大部分也都是全球共享。我天真地以为，经过学术工作者这两年的努力，终于可以让AI技术重归学术的纯粹。看着技术讨论变质，我不禁感慨：这个世界终究不可能只由一群有理想的书呆子说了算。更多相关文章：【代码之外】丁源森／透视人工智能机遇与责任同行【代码之外】丁源森／AI在天文上的神助攻【代码之外】丁源森／做AI时代里的六边形战士

3月前

新教育

即时国际

AI项目抄袭中国开源模型　美国斯坦福大学团队致歉

美国斯坦福大学人工智能（AI）团队主导的 Llama3-V 开源模型被证实套壳抄袭北京清华大学与面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5，该团队的两位作者作出正式道歉，并承诺将撤下模型。

11月前

即时国际

开源模型

Deepseek与Meta来势汹汹 OpenAI宣布将发布开源模型

丁源森／看着DeepSeek的纷纷扰扰，一个技术宅的无奈

AI项目抄袭中国开源模型 美国斯坦福大学团队致歉

AI项目抄袭中国开源模型　美国斯坦福大学团队致歉