构建知识图谱新闻资料

简

ADVERTISEMENT

ADVERTISEMENT

新教育

【代码之外】丁源森／论AI的养成与黯然销魂饭

小时候，网络还未普及，每逢农历新年，我总被TV2“逼迫”着再看一次星爷的《食神》。片中最后他和反派来一场厨艺battle，反派做出了精致且食材丰盛的佛跳墙，但星爷却用内功做出了简朴无华的叉烧饭，名叫黯然销魂饭。无招胜有招，最终，黯然销魂饭大获全胜，评委薛家燕和司仪罗家英都流下了感动的眼泪。让我们从黯然销魂饭开始，谈谈AI是如何养成的。传统编程的局限首先，我们来了解传统计算机编程。传统编程中，计算机的功能是复刻所有人类设定的明确指令。以超市收银机为例，其指令非常明确：见到泰国龙珠香米，收费X令吉；见到宾宾米果，收费Y令吉。这也可能是大家比较熟知的计算机功能，它可以熟练地重复执行某些特定的指令。照本宣科，就像孩子把一本课本从头到尾的死背硬记，但这种方式是有巨大的局限性的：第一，这种传统编程方式在处理大量或复杂数据时往往力不从心，就像一锅佛跳墙，虽然食材种类繁多，但最终能加入的调料和步骤都是固定的，即使面对更丰富的食材，如果你只按照固定的食谱来烹调，最后出来的还是同样一道佛跳墙；第二，许多数据里并没有像刚才这个收费清单的简单情况，即 A（货物）和 B (价钱) 这样一对一的对应关系。例如YouTube视频，其内部知识大多是隐性的，难以设定明确指令。机器学习（Machine Learning，也俗称为AI）应运而生，其核心是在没有对计算机下特定的指令识别数据的规律。实际上，计算机学习的这些核心思想并不新鲜，早在上世纪中叶，包括计算机之父图灵在内的人，就已经开始对这方面探索。 “Laksa-槟城+怡保” 我小时候，妈妈怕我读书太辛苦，带我去一个关于训练记忆力的补习班。我依稀记得里面核心的思想可以分成两个部分：第一，不要死背硬记，要把知识点压缩成知识图谱（mindmap）；第二，大量运用联想，从而对很多知识点进行整理。现代机器学习的思路与之相似，计算机学习在很大程度上是内建自己的一个知识图谱，把海量的信息简化成自己的一套关系链，并通过这些内建关系实现泛化（即一通百通，举一反三）的能力。这里比较经典的一个例子是，比如说你在ChatGPT里输入：国王（King）减掉男人（Man）加上女人（Woman）。ChatGPT给你的回答会是女王（Queen）。这展示了机器不是简单地记住词汇，而是理解了其内在关系。例如，它把“国王”解构成“权利+男人”，所以当你减去男人再加上女人的时候，那这时是“权利+女人”，所以可以对应的是女王。看官也可以试试在ChatGPT上输入“Laksa-槟城+怡保”，回答是河粉。知识图谱与认知过程电脑学习在某种程度上是对世间万物信息的一种内建压缩。正因为这种内建的知识结构，机器学习才表现出了所谓的“智能”。这与人类的认知过程颇为相似。很多人错误地认为眼睛就像照相机，完整复制进入视野的所有信息。但实际上，如果我们的眼睛真的每一秒都要完整成像，那会对我们的能量造成巨大的消耗。正如计算机的学习模式，我们的大脑接收的信息其实是非常碎片化的。而是根据大脑内建的世界认知，在大脑中用部分信息自动重塑整体。正因为我们的感觉器官都在重塑信息，我们会被一些光学幻觉所欺骗。比如，两个实际身高相同的人在某种背景下，可能看起来一个比另一个高。这是因为，我们大脑运用了我们对于世间的内建规律去补全信息。当你刻意去打破这些规律时，重塑起来的成像就会偏离原型。大家可能还记得AlphaGo与李世石的围棋比赛。尽管人类在多数情况下都溃败了，但在第四局中，李世石下了一步意想不到的棋。这像光学幻觉一样，超出了AlphaGo的内建知识图谱的范围，导致它连续走了若干“臭棋”，从而让人类扳回一局。其中的道理也是一样的。超越棋局：机器学习的变革如何构建知识图谱一直是电脑学习的6关键，但这也是我们长久以来的盲区。在深度学习兴起之前，比如在国际象棋方面，我们人类对我们从经验得来的方法论是非常自信的，所以大部分的下棋机器，都有一堆我们人类的经验规则。尽管机器里面有“学习”的成分，但是这就有点像做佛跳墙。我们一开始就决定了要用哪一些食材，认为这些食材和食谱上的方式必然就是最好的。计算机学习界的权威人物瑞奇·萨顿（Rich Sutton）在其“苦痛的教训”博客中深入批评了这种自以为是的态度。我们经常认为自己对这个世界的解读方式是最佳的，但多次的失败证明这种思维方式是短视的。过去10年里，计算机学习领域的大部分突破，无论是AlphaGo的升级版AlphaZero还是现有的ChatGPT，都采取了一种更自然的“黯然销魂饭”的做法，即让机器在尽可能少的人为干预下自主学习如何从数据中发现规律。而瑞奇·萨顿认为，鉴于计算机的计算能力将会持续指数增长（也就是所谓的摩尔定律），让机器自我学习才是最佳选择。写到最后，我还是担心这种计算机“自我”学习的描述可能会让一些人感到不安。但是，还是接我们上一篇聊到的，这种自主其实和我们认知中的“自主意识”是完全不同的概念。还是那句，这些机器学习模型仅仅是对大量信息进行解析、分类和抽象链接——就像那个国王的例子一样。当我们使用Google搜索或浏览抖音推荐时，这种信息解构和分类的概念早已融入我们的生活中。与其毫无根据地感到担忧，不如静下心来享受一顿美味的黯然销魂叉烧饭。作者简介：吉隆坡中华独中毕业生，2017年美国哈佛大学毕业，2019年获得美国NASA哈勃奖学金，于美国普林斯顿高级研究院（IAS）研究天体物理，现任澳洲国立大学电机系和天体物理系副教授，专注于利用机器学习技术研究天文大数据的统计推理。更多相关文章：【代码之外】丁源森／AI、ChatGPT与我妈的扫地机器人

1年前

新教育