你有用过ChatGPT、MidJourney、Sora、Suno等各种生成式AI工具吗?有没有发现这些“舶来品”生成的内容,有时会带有偏见或刻板印象?
ADVERTISEMENT
其实,AI本身并没有错,问题出在它学习的数据。如果数据存有偏颇,AI的答案就会以偏概全,造成负面影响。这也让许多国家意识到需要在AI领域掌握更多主动权,避免过于依赖外国的AI系统。
为了确保资料真实、可靠和符合本土价值观,各国纷纷提出AI主权(AI Sovereignty)的概念,搭建属于自己的AI产业和供应链,以及开发自主的大语言模型(LLM)。
AI主权的核心目的就是要“AI独立”,包括打造AI基础设施,发展本土AI技术,培养专才和扶持企业,来保障国家安全和经济利益。
马来西亚早在2021年便发布了《2021-2025人工智能路线图》,而近期也成立了国家人工智能办公室(NAIO),其中一个目标是创建稳固、负责任且安全的AI生态系统,贴近本地需求,并将我国打造成东盟地区的AI枢纽。
报道:本刊 林德成
摄影:本报 苏思旗
首先,咱们先厘清什么是大语言模型。如果你用过ChatGPT、Gemini、Grok等工具的话,那么这些工具就是大语言模型。简单来说,它是一个超级智能的“聊天机器人”,可以解答问题、翻译文章、分析报告、撰写文案等等。
这些大语言模型在问世前都经过了“培训”,即研究人员会向这些模型喂养大量数据,包括新闻、书籍、论文、网上公开资料等,从而让它能够对答如流。然而,AI模型是基于概率来生成答案,有时会出现“幻觉”,编造一些它认为合理,其实是不存在的内容。所以,你不能全然相信大模型给出的答案。
目前,全球到底有多少个大语言模型?根据中国信息通信研究院在2024年7月份发布的《全球数字经济白皮书(2024年)》,全球AI大模型数量已达到1328个,美国以44%排名第一,中国以36%位居第二。
换言之,中美两国的模型占了半壁江山。但这些模型是采用公开数据集来训练,对大马或其他东盟国家的语言、文化习俗和宗教礼仪的了解并不透彻。因此,有分析认为,大马需要开发一个更符合本地需求的大语言模型。
为何AI主权如此重要?
当问及为何AI主权如此重要?从宏观角度来说,谁拥有越来越多AI技术,便掌握了未来数码经济的主动权,极有可能引发“AI霸权”现象。这个局面会让缺乏AI技术发展的国家,依赖大国的AI技术。因此,为了确保技术独立性和保护国家利益,推动AI主权变得尤为重要。
国家数码经济和工业革命4.0的委员会成员陈奕强对此便提出了3个要点:
第一、保障国家安全和数据隐私权。在AI时代,AI主权像是一种护城河,需要拥有自主研发的AI技术和掌握关键数据。
第二、外国大语言模型是一种“黑箱”。使用者是无法知道模型的训练数据来源,或数据是否有任何偏颇。同时,又要如何确保对方的训练数据符合大马的文化背景和社会价值?
第三、维护科技独立性。如果本地企业过度依赖外国AI模型,一旦这些模型因政策限制或其他原因被禁用,那么就会严重影响企业的运营和发展。
大马版的大语言模型
他说,大马政府一直在大力推动AI的发展,例如近期与本地初创公司Mesolitica携手合作,推出了一个以马来语为主的大语言模型(MaLLaM)。
MaLLaM是一款能适应大马民众语言特性的大语言模型。据了解,MaLLaM的预训练数据来自公开资源,包括马来词典、公共期刊、公开的研究论文、国家语文出版局的公开文章,甚至包括政府的公开文件。无形中能让MaLLaM接触到政府官方语境所使用的正式语言风格,从而拥有生成与大马法律、政策相关的文本能力。
可是,开发一个马来语的大语言模型并非易事,我国有很多马来方言(dialek),例如吉兰丹、登嘉楼、彭亨、沙巴、砂拉越都有不同的马来方言。为此,开发团队必须从视频、歌曲提取语音数据,再转换成文字,用来训练AI模型。
MaLLaM并不是一个微调(Fine-tuning)大模型。陈奕强说,Mesolitica团队是从零开始建立MaLLaM,这意味着MaLLaM的训练数据和模型设计是完全为大马用户量身定制。
他说,在实际应用方面,MaLLaM未必会采取“B2C”(企业对消费者)形式,如ChatGPT公开给民众使用。它可能会走“B2B”(企业对企业)的形式,为金融机构、法律业提供一个定制的大模型服务。
开拓本地AI的无限可能
“无论什么科技技术,都需要在地化。”陈奕强语气坚定地说道。
数据和AI,正如硬币的两面,缺一不可。如果想要让AI模型更智能、更高效,就需要海量且高质量的数据来“喂养”它们,然而一味依靠外国的AI系统,会出现“水土不服”的情况。最好能够有本土的数据,才可以提高AI模型的效率,解决我国民众的难题。
身为大马科技公司Agmo首席执行员兼创办人,他说,Agmo曾与马来西亚癌症研究机构合作开发一个项目,利用AI系统为口腔癌病患做早期诊断。他们为本地病患拍摄口腔照片,之后再用这些照片训练AI系统,让它懂得分辨溃疡(Ulcer)和口腔癌的症状。如果使用外国的AI系统,它的训练数据可能夹杂了不同国家人民的饮食习惯、环境因素等等,未必能满足本地需求。
在客服方面,有了大语言模型,聊天机器人变得越来越聪明,甚至可以跨越语言障碍。假设一个聊天机器人听得懂大马人的“罗惹”语言,且能对答如流,岂不是很完美吗?“那要怎样实现?就需要一个本地的大语言模型。”
另外,有了本土化的大语言模型,还可以深耕和开发特定领域的大模型,例如让大模型大量学习马来西亚法律相关的资料和案例,用户就可以向它询问更复杂的法律问题,迅速扫除一些法律盲点。抑或与教育出版机构合作,为学生打造教育类型的大模型。
大马太需要AI人才
他强调,若想推动AI主权,离不开3个关键要素──数据、基础设施和AI专才,而AI人才无疑是最重要的一环。
“不只是大马缺乏专才,全世界都缺少懂得生成式AI(Gen AI)的人才。所以我觉得这是一个全球性的问题。”
为了确保大马劳动力能与时并进,可以应对AI、数字化、绿色经济等挑战,大马人才机构(TalentCorp)开发了“MyMAHIR”平台,提倡员工学习新技能,让自己不被AI淘汰和取代。
我国首相安华去年在国家人工智能办公室(NAIO)推介礼上致词时就说,希望通过MyMahir平台,在2025年底之前培训5万名学生,让他们可以掌握AI、编程及数据分析的技能。
早在2024年4月份,科学工艺及革新部也曾提及,会通过AI沙盒试点项目,推动设立900家AI初创企业,预计到2026年会培育超过1万3000名AI人才。
NAIO肩负关键使命
随着国家人工智能办公室(NAIO)的成立,大马AI发展将迈入全新阶段。据大马数字部官网显示,NAIO将推动《人工智能技术行动计划(2026-2030年)》,帮助全国关键领域迅速采用AI技术。同时也会建立监管框架,确保AI技术的应用符合道德与可持续发展的原则。
然而,陈奕强补充,我国暂时没有制定AI法律,但有人工智能治理和道德准则(AIGE)。据悉,AIGE只是一个指南,并没有任何法律约束力。这份指南只是为用户、政策制定者和AI技术供应商提供一个清晰的框架,确保他们所采取的每个步骤均符合高标准的道德原则。
但,陈奕强预测,随着NAIO的发展,AIGE未来很可能逐步转变成法律。
大马企业接力开源模型打造AI产品
虽说中美两国在AI竞赛中竞争激烈,但数据、算法和模型却是可以跨国界运作,比方说市面上有许多开源模型,任何人都可以自由使用。
“我们很容易通过开源(软件),用别人的成品去打造我们想要的东西。”陈奕强说,这已经是一种趋势,例如特斯拉将其电池技术开源,让其他竞争者可以追上来。
“这个就是现在做科技跟以前不一样的地方,现在是(讲究)资源共享和开源。”大马的科创企业可以借助开源AI模型,不需要从零开始建造自己的AI产品,然后迅速提升自己的研发能力。
相关稿件: 【数据战争/01】被卖了还帮忙数钱?你的数据你自主 【有竹不凡/03】“竹”够天然环保 FRIM解锁无限潜能 【拍卖房/01】买拍卖房产占便宜?不懂关键技巧,小心被坑死
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT