星洲网
星洲网
星洲网 登录
我的股票|星洲网 我的股票
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

副刊

|

新教育

|
发布: 7:30am 13/09/2023

新教育

黯然销魂饭

丁源森

机器学习

AI养成

构建知识图谱

新教育

黯然销魂饭

丁源森

机器学习

AI养成

构建知识图谱

【代碼之外】丁源森/論AI的養成與黯然銷魂飯

作者: 丁源森

小時候,網絡還未普及,每逢農曆新年,我總被TV2“逼迫”著再看一次星爺的《食神》。片中最後他和反派來一場廚藝battle,反派做出了精緻且食材豐盛的佛跳牆,但星爺卻用內功做出了簡樸無華的叉燒飯,名叫黯然銷魂飯。無招勝有招,最終,黯然銷魂飯大獲全勝,評委薛家燕和司儀羅家英都流下了感動的眼淚。

讓我們從黯然銷魂飯開始,談談AI是如何養成的。

ADVERTISEMENT

傳統編程的侷限

首先,我們來了解傳統計算機編程。傳統編程中,計算機的功能是復刻所有人類設定的明確指令。以超市收銀機為例,其指令非常明確:見到泰國龍珠香米,收費X令吉;見到賓賓米果,收費Y令吉。這也可能是大家比較熟知的計算機功能,它可以熟練地重複執行某些特定的指令。

照本宣科,就像孩子把一本課本從頭到尾的死背硬記,但這種方式是有巨大的侷限性的:第一,這種傳統編程方式在處理大量或複雜數據時往往力不從心,就像一鍋佛跳牆,雖然食材種類繁多,但最終能加入的調料和步驟都是固定的,即使面對更豐富的食材,如果你只按照固定的食譜來烹調,最後出來的還是同樣一道佛跳牆;第二,許多數據裡並沒有像剛才這個收費清單的簡單情況,即 A(貨物)和 B (價錢) 這樣一對一的對應關係。例如YouTube視頻,其內部知識大多是隱性的,難以設定明確指令。

機器學習(Machine Learning,也俗稱為AI)應運而生,其核心是在沒有對計算機下特定的指令識別數據的規律。實際上,計算機學習的這些核心思想並不新鮮,早在上世紀中葉,包括計算機之父圖靈在內的人,就已經開始對這方面探索。

“Laksa-檳城+怡保”

我小時候,媽媽怕我讀書太辛苦,帶我去一個關於訓練記憶力的補習班。我依稀記得裡面核心的思想可以分成兩個部分:第一,不要死背硬記,要把知識點壓縮成知識圖譜 (mindmap);第二,大量運用聯想,從而對很多知識點進行整理。

現代機器學習的思路與之相似,計算機學習在很大程度上是內建自己的一個知識圖譜,把海量的信息簡化成自己的一套關係鏈,並通過這些內建關係實現泛化(即一通百通,舉一反三)的能力。

這裡比較經典的一個例子是,比如說你在ChatGPT裡輸入:國王(King)減掉男人(Man)加上女人(Woman)。ChatGPT給你的回答會是女王(Queen)。這展示了機器不是簡單地記住詞彙,而是理解了其內在關係。例如,它把“國王”解構成“權利+男人”,所以當你減去男人再加上女人的時候,那這時是“權利+女人”,所以可以對應的是女王。

看官也可以試試在ChatGPT上輸入“Laksa-檳城+怡保”,回答是河粉。

知識圖譜與認知過程

電腦學習在某種程度上是對世間萬物信息的一種內建壓縮。正因為這種內建的知識結構,機器學習才表現出了所謂的“智能”。這與人類的認知過程頗為相似。

很多人錯誤地認為眼睛就像照相機,完整複製進入視野的所有信息。但實際上,如果我們的眼睛真的每一秒都要完整成像,那會對我們的能量造成巨大的消耗。正如計算機的學習模式,我們的大腦接收的信息其實是非常碎片化的。而是根據大腦內建的世界認知,在大腦中用部分信息自動重塑整體。

正因為我們的感覺器官都在重塑信息,我們會被一些光學幻覺所欺騙。比如,兩個實際身高相同的人在某種背景下,可能看起來一個比另一個高。這是因為,我們大腦運用了我們對於世間的內建規律去補全信息。當你刻意去打破這些規律時,重塑起來的成像就會偏離原型。

大家可能還記得AlphaGo與李世石的圍棋比賽。儘管人類在多數情況下都潰敗了,但在第四局中,李世石下了一步意想不到的棋。這像光學幻覺一樣,超出了AlphaGo的內建知識圖譜的範圍,導致它連續走了若干“臭棋”,從而讓人類扳回一局。其中的道理也是一樣的。

超越棋局:機器學習的變革

如何構建知識圖譜一直是電腦學習的6關鍵,但這也是我們長久以來的盲區。

在深度學習興起之前,比如在國際象棋方面,我們人類對我們從經驗得來的方法論是非常自信的,所以大部分的下棋機器,都有一堆我們人類的經驗規則。儘管機器裡面有“學習”的成分,但是這就有點像做佛跳牆。我們一開始就決定了要用哪一些食材,認為這些食材和食譜上的方式必然就是最好的。

計算機學習界的權威人物瑞奇·薩頓(Rich Sutton)在其“苦痛的教訓”博客中深入批評了這種自以為是的態度。我們經常認為自己對這個世界的解讀方式是最佳的,但多次的失敗證明這種思維方式是短視的。

過去10年裡,計算機學習領域的大部分突破,無論是AlphaGo的升級版AlphaZero還是現有的ChatGPT,都採取了一種更自然的“黯然銷魂飯”的做法,即讓機器在儘可能少的人為干預下自主學習如何從數據中發現規律。而瑞奇·薩頓認為,鑑於計算機的計算能力將會持續指數增長(也就是所謂的摩爾定律),讓機器自我學習才是最佳選擇。

寫到最後,我還是擔心這種計算機“自我”學習的描述可能會讓一些人感到不安。但是,還是接我們上一篇聊到的,這種自主其實和我們認知中的“自主意識”是完全不同的概念。

還是那句,這些機器學習模型僅僅是對大量信息進行解析、分類和抽象鏈接——就像那個國王的例子一樣。當我們使用Google搜索或瀏覽抖音推薦時,這種信息解構和分類的概念早已融入我們的生活中。

與其毫無根據地感到擔憂,不如靜下心來享受一頓美味的黯然銷魂叉燒飯。

作者簡介:
吉隆坡中華獨中畢業生,2017年美國哈佛大學畢業,2019年獲得美國NASA哈勃獎學金,於美國普林斯頓高級研究院(IAS)研究天體物理,現任澳洲國立大學電機系和天體物理系副教授,專注於利用機器學習技術研究天文大數據的統計推理。

更多相關文章:
【代碼之外】丁源森/AI、ChatGPT與我媽的掃地機器人

打开全文

ADVERTISEMENT

热门新闻

百格视频

ADVERTISEMENT

点击 可阅读下一则新闻

ADVERTISEMENT