发布: 8:00am 09/12/2021

【潮风向】NVIDIA释放AI潜能文字描述秒变图像

报道：本刊林德成

这是NVIDIA在2019年所研发的GauGAN平台，当时所呈现的效果已足以令人惊艳。（图：取自NVIDIA官网）

●报道：本刊林德成

有没有想过，有一天，你只需输入文字或随意涂鸦，便能直接转换成一幅如虚如实的图片。听起来像天方夜谭，但全球知名半导体公司英伟达（NVIDIA）可不这么认为。

随着人工智能（AI）技术日臻成熟，企业开始运用AI技术让生产过程变得更加智能，而人们的日常生活也与AI技术有密切关系。最佳例子是手机摄影，当我们拍摄时，手机的AI演算法会自动识别背景，将人物主体和背景分割出来，然后产生一幅有景深效果的照片。AI技术不仅仅是用来识别场景、人物或语音，NVIDIA过去几年一直在探索AI的潜能，希望将AI的应用变得更广泛和多元，满足各阶层人士所需。

NVIDIA声称，GauGAN2背后的深度学习模型可以让任何人将想像力转化成逼真的影像作品。

早在2019年，该公司便开发了GauGAN人工智能影像处理技术，可以将涂鸦或素描变成一幅栩栩如生的图片。这项技术对视觉特效设计师、建模师、游戏开发者而言，能够提高他们的艺术创作能力。他们可以迅速将脑海里面的创意变成一个原型作品，再慢慢修饰，打造一个看似真实却不存在世上的绝美场景。

艺术创作变得更简单

近期，NVIDIA进一步加强GauGAN的能力，在11月22日推出GauGAN的2.0版本。除了识别涂鸦内容，还能识别文字。简单来说，即使你不会绘画也甭担心，直接输入文字，GauGAN2会依据你的文字生成一幅照片。比方说你输入“沙滩上的日落”（sunset at a beach），GauGAN2的AI系统会根据这个短句，创造符合文字叙述的场景。如果再额外添加一些形容词，便能更改场景和天气，像是“在岩石沙滩上的日落”（sunset at a rocky beach），或者把“日落”改成“下午”，GauGAN2都会一一依照这些形容来修改图片。

美国视觉特效设计师Colie Wertz会用GauGAN迅速将脑海里面的创意变成一个原型作品，之后再依据剧情需求修改。对方曾为《星际大战》、《变形金刚》和《曼达洛人》等影视作品制作虚拟场景。2019年6月份，他在Instagram上传了一张以GauGAN制成的超现实作品。（图：截自Colie Wertz的IG账号）

NVIDIA透露，他们利用NVIDIA Selene的超级电脑（备有DGX SuperPOD作业系统），搭配对抗生成网络（Generative Adversarial Network）以及超过1000万张图片来训练GauGAN2背后的AI模型，让它变得更加智能，可以理解每个文字之间的关系，然后串联起来变成一幅作品。

GauGAN2真的那么神奇？

GauGAN2是如何读懂绘画者的“心意”？为了让公众体验GauGAN2的AI能力，NVIDIA提供了一个测试平台。我在上手使用时，发现操作介面的左侧具备了4大类别——建筑（Building）、地面（Ground）、景观（Landscape）和植物（Plant），而每个类别底下又会细分各种场景，比方说在“风景”底下会有云、雾、山峦、河流、石头、大海等。

如果用户想要山水图，首先点选“刷子”的图案，再选择“景观”底下的“山”和“海”，画在自己想要的位置，GauGAN2就会去解读这些绘画内容，然后生成一幅漂亮的山水图片。

在使用GauGAN2测试版时，其“文字转换图片”功能不是每一次都成功。当输入与风景有关的词句，它几乎游刃有余（上图）。但是，当输入“burger and fries”（汉堡和薯条），结果出现一幅极为恐怖的抽象画（下图）。

不过，GauGAN2并非百分之百地“读懂”用户的心意。如果你输入与风景有关的词句，它几乎游刃有余。要是输入“burger and fries”，结果会出现一幅极为恐怖的抽象画。我换成“a beach with coconut trees”，想要一个充满椰树的沙滩。但是GauGAN2只读懂“沙滩”这个单词，而忽略了“椰树”，还额外送我一些在海上航行的船只。

目前，GauGAN2仍处于测试阶段，需要更多时间去优化和完善整个功能。如果对GauGAN2有兴趣，不妨浏览http://gaugan.org/gaugan2/体验一番。