发布: 8:00am 09/12/2021

【潮風向】NVIDIA釋放AI潛能文字描述秒變圖像

报道：本刊林德成

這是NVIDIA在2019年所研發的GauGAN平臺，當時所呈現的效果已足以令人驚豔。（圖：取自NVIDIA官網）

●報道：本刊林德成

有沒有想過，有一天，你只需輸入文字或隨意塗鴉，便能直接轉換成一幅如虛如實的圖片。聽起來像天方夜譚，但全球知名半導體公司英偉達（NVIDIA）可不這麼認為。

隨著人工智能（AI）技術日臻成熟，企業開始運用AI技術讓生產過程變得更加智能，而人們的日常生活也與AI技術有密切關係。最佳例子是手機攝影，當我們拍攝時，手機的AI演算法會自動識別背景，將人物主體和背景分割出來，然後產生一幅有景深效果的照片。AI技術不僅僅是用來識別場景、人物或語音，NVIDIA過去幾年一直在探索AI的潛能，希望將AI的應用變得更廣泛和多元，滿足各階層人士所需。

NVIDIA聲稱，GauGAN2背後的深度學習模型可以讓任何人將想像力轉化成逼真的影像作品。

早在2019年，該公司便開發了GauGAN人工智能影像處理技術，可以將塗鴉或素描變成一幅栩栩如生的圖片。這項技術對視覺特效設計師、建模師、遊戲開發者而言，能夠提高他們的藝術創作能力。他們可以迅速將腦海裡面的創意變成一個原型作品，再慢慢修飾，打造一個看似真實卻不存在世上的絕美場景。

藝術創作變得更簡單

近期，NVIDIA進一步加強GauGAN的能力，在11月22日推出GauGAN的2.0版本。除了識別塗鴉內容，還能識別文字。簡單來說，即使你不會繪畫也甭擔心，直接輸入文字，GauGAN2會依據你的文字生成一幅照片。比方說你輸入“沙灘上的日落”（sunset at a beach），GauGAN2的AI系統會根據這個短句，創造符合文字敘述的場景。如果再額外添加一些形容詞，便能更改場景和天氣，像是“在岩石沙灘上的日落”（sunset at a rocky beach），或者把“日落”改成“下午”，GauGAN2都會一一依照這些形容來修改圖片。

美國視覺特效設計師Colie Wertz會用GauGAN迅速將腦海裡面的創意變成一個原型作品，之後再依據劇情需求修改。對方曾為《星際大戰》、《變形金剛》和《曼達洛人》等影視作品製作虛擬場景。2019年6月份，他在Instagram上傳了一張以GauGAN製成的超現實作品。（圖：截自Colie Wertz的IG賬號）

NVIDIA透露，他們利用NVIDIA Selene的超級電腦（備有DGX SuperPOD作業系統），搭配對抗生成網絡（Generative Adversarial Network）以及超過1000萬張圖片來訓練GauGAN2背後的AI模型，讓它變得更加智能，可以理解每個文字之間的關係，然後串聯起來變成一幅作品。

GauGAN2真的那麼神奇？

GauGAN2是如何讀懂繪畫者的“心意”？為了讓公眾體驗GauGAN2的AI能力，NVIDIA提供了一個測試平臺。我在上手使用時，發現操作介面的左側具備了4大類別——建築（Building）、地面（Ground）、景觀（Landscape）和植物（Plant），而每個類別底下又會細分各種場景，比方說在“風景”底下會有云、霧、山巒、河流、石頭、大海等。

如果用戶想要山水圖，首先點選“刷子”的圖案，再選擇“景觀”底下的“山”和“海”，畫在自己想要的位置，GauGAN2就會去解讀這些繪畫內容，然後生成一幅漂亮的山水圖片。

在使用GauGAN2測試版時，其“文字轉換圖片”功能不是每一次都成功。當輸入與風景有關的詞句，它幾乎遊刃有餘（上圖）。但是，當輸入“burger and fries”（漢堡和薯條），結果出現一幅極為恐怖的抽象畫（下圖）。

不過，GauGAN2並非百分之百地“讀懂”用戶的心意。如果你輸入與風景有關的詞句，它幾乎遊刃有餘。要是輸入“burger and fries”，結果會出現一幅極為恐怖的抽象畫。我換成“a beach with coconut trees”，想要一個充滿椰樹的沙灘。但是GauGAN2只讀懂“沙灘”這個單詞，而忽略了“椰樹”，還額外送我一些在海上航行的船隻。

目前，GauGAN2仍處於測試階段，需要更多時間去優化和完善整個功能。如果對GauGAN2有興趣，不妨瀏覽http://gaugan.org/gaugan2/體驗一番。