小时候,网络还未普及,每逢农历新年,我总被TV2“逼迫”着再看一次星爷的《食神》。片中最后他和反派来一场厨艺battle,反派做出了精致且食材丰盛的佛跳墙,但星爷却用内功做出了简朴无华的叉烧饭,名叫黯然销魂饭。无招胜有招,最终,黯然销魂饭大获全胜,评委薛家燕和司仪罗家英都流下了感动的眼泪。
让我们从黯然销魂饭开始,谈谈AI是如何养成的。
ADVERTISEMENT
传统编程的局限
首先,我们来了解传统计算机编程。传统编程中,计算机的功能是复刻所有人类设定的明确指令。以超市收银机为例,其指令非常明确:见到泰国龙珠香米,收费X令吉;见到宾宾米果,收费Y令吉。这也可能是大家比较熟知的计算机功能,它可以熟练地重复执行某些特定的指令。
照本宣科,就像孩子把一本课本从头到尾的死背硬记,但这种方式是有巨大的局限性的:第一,这种传统编程方式在处理大量或复杂数据时往往力不从心,就像一锅佛跳墙,虽然食材种类繁多,但最终能加入的调料和步骤都是固定的,即使面对更丰富的食材,如果你只按照固定的食谱来烹调,最后出来的还是同样一道佛跳墙;第二,许多数据里并没有像刚才这个收费清单的简单情况,即 A(货物)和 B (价钱) 这样一对一的对应关系。例如YouTube视频,其内部知识大多是隐性的,难以设定明确指令。
机器学习(Machine Learning,也俗称为AI)应运而生,其核心是在没有对计算机下特定的指令识别数据的规律。实际上,计算机学习的这些核心思想并不新鲜,早在上世纪中叶,包括计算机之父图灵在内的人,就已经开始对这方面探索。
“Laksa-槟城+怡保”
我小时候,妈妈怕我读书太辛苦,带我去一个关于训练记忆力的补习班。我依稀记得里面核心的思想可以分成两个部分:第一,不要死背硬记,要把知识点压缩成知识图谱 (mindmap);第二,大量运用联想,从而对很多知识点进行整理。
现代机器学习的思路与之相似,计算机学习在很大程度上是内建自己的一个知识图谱,把海量的信息简化成自己的一套关系链,并通过这些内建关系实现泛化(即一通百通,举一反三)的能力。
这里比较经典的一个例子是,比如说你在ChatGPT里输入:国王(King)减掉男人(Man)加上女人(Woman)。ChatGPT给你的回答会是女王(Queen)。这展示了机器不是简单地记住词汇,而是理解了其内在关系。例如,它把“国王”解构成“权利+男人”,所以当你减去男人再加上女人的时候,那这时是“权利+女人”,所以可以对应的是女王。
看官也可以试试在ChatGPT上输入“Laksa-槟城+怡保”,回答是河粉。
知识图谱与认知过程
电脑学习在某种程度上是对世间万物信息的一种内建压缩。正因为这种内建的知识结构,机器学习才表现出了所谓的“智能”。这与人类的认知过程颇为相似。
很多人错误地认为眼睛就像照相机,完整复制进入视野的所有信息。但实际上,如果我们的眼睛真的每一秒都要完整成像,那会对我们的能量造成巨大的消耗。正如计算机的学习模式,我们的大脑接收的信息其实是非常碎片化的。而是根据大脑内建的世界认知,在大脑中用部分信息自动重塑整体。
正因为我们的感觉器官都在重塑信息,我们会被一些光学幻觉所欺骗。比如,两个实际身高相同的人在某种背景下,可能看起来一个比另一个高。这是因为,我们大脑运用了我们对于世间的内建规律去补全信息。当你刻意去打破这些规律时,重塑起来的成像就会偏离原型。
大家可能还记得AlphaGo与李世石的围棋比赛。尽管人类在多数情况下都溃败了,但在第四局中,李世石下了一步意想不到的棋。这像光学幻觉一样,超出了AlphaGo的内建知识图谱的范围,导致它连续走了若干“臭棋”,从而让人类扳回一局。其中的道理也是一样的。
超越棋局:机器学习的变革
如何构建知识图谱一直是电脑学习的6关键,但这也是我们长久以来的盲区。
在深度学习兴起之前,比如在国际象棋方面,我们人类对我们从经验得来的方法论是非常自信的,所以大部分的下棋机器,都有一堆我们人类的经验规则。尽管机器里面有“学习”的成分,但是这就有点像做佛跳墙。我们一开始就决定了要用哪一些食材,认为这些食材和食谱上的方式必然就是最好的。
计算机学习界的权威人物瑞奇·萨顿(Rich Sutton)在其“苦痛的教训”博客中深入批评了这种自以为是的态度。我们经常认为自己对这个世界的解读方式是最佳的,但多次的失败证明这种思维方式是短视的。
过去10年里,计算机学习领域的大部分突破,无论是AlphaGo的升级版AlphaZero还是现有的ChatGPT,都采取了一种更自然的“黯然销魂饭”的做法,即让机器在尽可能少的人为干预下自主学习如何从数据中发现规律。而瑞奇·萨顿认为,鉴于计算机的计算能力将会持续指数增长(也就是所谓的摩尔定律),让机器自我学习才是最佳选择。
写到最后,我还是担心这种计算机“自我”学习的描述可能会让一些人感到不安。但是,还是接我们上一篇聊到的,这种自主其实和我们认知中的“自主意识”是完全不同的概念。
还是那句,这些机器学习模型仅仅是对大量信息进行解析、分类和抽象链接——就像那个国王的例子一样。当我们使用Google搜索或浏览抖音推荐时,这种信息解构和分类的概念早已融入我们的生活中。
与其毫无根据地感到担忧,不如静下心来享受一顿美味的黯然销魂叉烧饭。
作者简介:
吉隆坡中华独中毕业生,2017年美国哈佛大学毕业,2019年获得美国NASA哈勃奖学金,于美国普林斯顿高级研究院(IAS)研究天体物理,现任澳洲国立大学电机系和天体物理系副教授,专注于利用机器学习技术研究天文大数据的统计推理。
更多相关文章:
【代码之外】丁源森/AI、ChatGPT与我妈的扫地机器人
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT