什么是生成式人工智能?
最近几年兴起的所谓“生成式人工智能(generative AI)”正吸引硅谷科技巨头和风投机构的兴趣,这种 AI 可以依据少量词汇在几秒钟内生成与之相匹配的图像。分析师预计,这种技术将被广泛用于各行各业,并产生数万亿美元的经济价值。
虽然这些计算机程序生成的图像并不完美,比如手上出现多余的手指,四肢不自然的弯曲等。同时,图像生成器在处理文本时也会遇到问题,例如生成无意义的符号等。然而,这些图像生成程序可能是一场科技热潮的开始。硅谷风投机构 NextView Ventures 的投资人大卫・贝塞尔(David Beisel)说:“在过去的三个月里,‘生成式人工智能’这个词已经变成了流行语。”
从 2021 年开始,生成式 AI 技术取得了巨大进步,甚至激励许多人辞掉工作去创办新公司,梦想着 AI 将来可以为新一代科技巨头提供动力。
在过去五年左右的时间里,AI 领域始终处于蓬勃发展阶段,但这些进步大多与理解现有数据有关。AI 模型已经变得足够高效,可以识别人们刚刚用手机拍摄的照片中是否有一只猫。此外,这些模型也足够可靠,每天可以为谷歌搜索引擎提供数十亿次搜索结果。不过,生成式 AI 模型可以生成以前没有的全新东西。换句话说,它们是在创造,而不仅仅是在分析数据。
AI 与机器学习平台 Craiyon Productive AI 的创建者鲍里斯・戴玛(Boris Dayma)说:“最令人感到印象深刻的是,生成式 AI 也能创作新的东西。它们不仅仅是创造类似的旧有图像,还可以创造与以前完全不同的新事物。”
硅谷知名风投公司红杉资本 (Sequoia Capital) 在其网站上发文表示:“从游戏到广告再到法律方面,生成式 AI 可能会改变所有需要人类创造力发挥作用的领域。这种技术有可能产生数万亿美元的经济价值。”更为有趣的是,红杉资本还在帖子中指出,其上述文章部分是由 GPT-3 撰写的,后者本身就是能够生成文本的生成式 AI。
生成式 AI 的工作原理是什么?
图像生成使用的技术来自机器学习的一个子集,称为深度学习。自从 2012 年一篇关于图像分类的里程碑式论文重新点燃人们对这项技术的兴趣以来,深度学习推动了 AI 领域的大部分进步。深度学习使用在大数据集上训练的模型,直到该程序理解这些数据中的关系。然后,该模型可以用于应用程序,如识别图片中是否有狗或翻译文本等。
图像生成器的工作原理就是逆转这个过程。它们不是将英语翻译成法语,而是将英语短语转换成图像。它们通常有两个主要部分组成,一个是处理初始短语的部分,另一个是将数据转换成图像的部分。
第一部分生成式 AI 基于名为 Generative Adversarial Networks(生成式对抗网络,简称 GAN)的方法。此前,这些 GAN 通常被用于生成不存在的人的照片。本质上,它们的工作方式是让两个 AI 模型相互竞争,以更好地创建符合预定目标的图像。
而较新的方法通常使用转换器,这是谷歌于 2017 年论文中首次提出的概念。这是一项新兴技术,可以利用更大的数据集,尽管其培训成本可能高达数百万美元。
第一个获得大量关注的图像生成器是 Dall-E,它是硅谷初创公司 OpenAI 于 2021 年推出的项目。OpenAI 今年发布了功能更强大的更新版本。专注于生成式 AI 的开发者克里斯蒂安・坎特雷尔(Christian Cantrell)说:“有了 Dall-E 2,这真的是我们跨越恐怖谷效应(Uncanny Valley)的时刻。”
另一个常用的、基于 AI 的图像生成器是 Craiyon,以前被称为 Dall-E Mini,它可以在网络上买到。用户输入短语后,可以几分钟内在浏览器中看到其给出的绘图。
据 AI 与机器学习平台 Craiyon Productive AI 的创建者戴玛称,自 2021 年 7 月推出以来,Craiyon 现在每天生成约 1000 万张图片,总计生成 10 亿张以前从未见过的图片。在今年早些时候使用量飙升后,戴玛开始将全部精力投入到 Craiyon 上。他说,他专注于使用广告来保持用户免费使用,因为该网站的服务器成本很高。Craiyon 上有个推特账号,专门发布最奇怪、最有创意的图片,它拥有超过 100 万名粉丝。
但最能激发人们热情的项目是 Stable Diffusion,该项目于今年 8 月向公众发布。它的代码可以在 GitHub 上获得,可以在电脑上运行,也可以在云端或通过编程接口运行。这让用户可以根据自己的目的调整程序代码,或者在其基础上构建新程序。
举例来说,Stable Diffusion 通过一个插件集成到 Adobe Photoshop 中,允许用户生成背景和图像的其他部分,然后他们可以使用图层和其他 PS 工具直接在应用中操作,将生成式 AI 从生成成品图像的技术变成了专业人士可以使用的工具。
该插件的开发者坎特雷尔在 Adobe 工作了 20 年,今年辞职专注于生成式 AI。这位资深人士表示,该插件已被下载数万次。艺术家们告诉他,他们把它用在了无数他意想不到的地方,比如制作哥斯拉的动画,或者以艺术家可以想象的任何姿势创作蜘蛛侠的图像。
使用生成式 AI 的一种新兴艺术是如何构建“提示”,即生成图像的短语。名为 Lexica 的搜索引擎可以将 Stable Diffusion 的图像和可用于生成它们的确切单词字符串联起来。Reddit 和 Discord 等平台上,都有如何引导人们输入想要生成图像的短语技巧。
关键词: 工作原理 生成式人工智能 英语短语 深度学习