戴上眼镜就拥有人工智能人工智能请创作，一颗柠檬戴着墨镜在沙滩上休息

人气：237 ℃/2023-12-22 14:41:55

在预想中，我们以为AI图像的生成界面是一个简洁的提示词输入框加上图像生成页，然而Midjourney创新性地加入了“群聊”机制，本篇文章就来和大家聊聊Midjourney的使用体验以及AI绘画与人类创作之间的关系，感兴趣的朋友一起来看看吧。

让我们聊聊最近大热的人工智能（AI）艺术创作。

在艾厂的人工智能国际论坛进行的五月底（以至后来的六月），还发生着另外一件颇相关的重要事件——两款主要的人工智能图像生成软件，DALL·E·2和Midjourney，都开始开放测试版的内部邀请。

沙丘的成员也获得了Midjourney的邀请，进入了测试版的discord社群，得以观察到无数图像的生成、筛选与调校，也尝试了自己输入的提示词（prompt）以生成AI图像。

在预想当中，我们以为AI图像的生成界面是一个简洁的提示词输入框加上图像生成页——类似于谷歌图片搜索页面，只是“搜索结果”换成了“生成成果”。

然而实际情况却是，所有Midjourney受邀的测试新人都将加入一个discord社群，这个大社群下又进一步细分出五十个“新人群”。当新人加入的时候，Midjourney的机器人（bot）将会首先自动在“通告群”中发出消息，指定某某新人到第XX号新人群中。

在这一“群聊”的机制中，用户将以适当格式输入提示词——譬如“一颗柠檬戴着墨镜，躺在沙滩上休息，摄影级真实风格”，而机器人将在约一分钟后，在群聊界面里回复依照提示词生成的四张AI图像，并在新消息中提及（@）新人。值得注意的是，这意味着所有用户要求的图像——不管是输入的提示词，还是生成出来的图像，都将对所有人可见。

Midjourney的Discord社群的截图。左侧是新人群的不同频道，右侧展示的图像的提示词是“消防员，1970年代拍立得风格”，图像下方的U1代表放大（upscale）第一张图，VI代表对第一张图做出进一步变种（variation），以此类推。

图源：作者。

在这个基础上，用户可以进一步对得到的四张图像做挑选，要求对其中的某一个或某几个做出其他变种（variation），或者放大尺寸、增加分辨率（upscale）。有趣的是，正因为这些所有步骤都处在一个群聊的界面当中，所有用户都可以对其他用户要求的图像做挑选，而机器人会把这些要求一一回应，发布在群聊当中。

我们对Midjourney团队选择的这样的交互/组织形式非常感兴趣。不得不承认，五十个接连不断滚动着新消息的群组十分有冲击力，庞大的信息量和不断增大的积累速率注定没有任何单个的人类大脑能跟得上——这样的机制一开始也让新人有些晕头转向。

但适应以后，我们也大概体会到这种形式的妙处——我们仿佛置身于一个巨大的实验性公共艺术项目当中，这是单点的、以个体用户为中心的界面（譬如谷歌图片的搜索框）所不能比拟的。

同样的提示词：“一颗柠檬戴着墨镜，躺在沙滩上休息，摄影级真实风格。”左侧是Midjourney的生成图像，右侧是DALL·E·2的。

图源：MattVideoProductions。

首先，这种像洪水或雪球一样不断向人滚来和涌来的图像量，或许也正是人工智能艺术想要向我们传达的一个重要特征——没有哪个人类艺术家或者人类艺术家团队，能够如此大量和快速地响应“客户”的要求，并不断产出不同变种，再进一步修改并放大，二十四小时无休无止。

其次，这种群聊的机制也让输入者、观看者和AI机器人的身份变得史无前例地平等，并且边界模糊。这里没有作者和观众的二元对立，署名权也似乎无从说起——一张惊艳的图究竟是谁的作品？是最起初的提示词输入者吗？是AI机器人吗？是Midjourney团队的算法工程师吗？是中途帮忙选择变种或者要求增大尺寸的其他用户吗？这是多方协作、去中心化的过程。

第三，每个用户不断看到其他用户的提示词，也不断看到新的AI生成图，也构成了一个不断向其他人学习怎样更好地、更有创意地输入提示词的研讨会式的场所。另外，当看到其他人要求的图像出现，并从中筛选，本质上也是在帮Midjourney团队义务训练他们的算法。

这些也引出了人类艺术家时期不曾有过的问题，在AI创作的往复沟通中，究竟谁是真正的受益者？架构者、输入者、筛选者、观众、机器之间，究竟谁在训练谁，谁又在向谁学习？

提示词：“一个日本女人坐在榻榻米上，摄影级真实风格。”Midjourney的生成图像。

图源：作者。

事实上，这些问题在艾厂的2022艺术与人工智能国际论坛当中也多有提及。我们认为这是一个很好的机会和时间节点，写下我们自己的想法。

艾厂的论坛以“人工想象力”为主题，由来自艺术、设计、文学、计算机科学和哲学领域的嘉宾对这一话题进行分享和探讨（关于论坛具体信息，点击这里跳转）。沙丘研究所也受邀作为特别观察员参与。不过，就像是上述罗列的那样，我们对此并没有宣言式的观点，而是更想要用问题的形式分享一些我们正在思考的东西。

在尝试了AI图像的内测之后，沙丘的成员以及我们在Media Lab的朋友都由衷发出这样的感叹：这样的技术革命对于图像和创作的影响，或许不会小于一百年前摄影技术对于绘画的冲击。正如本雅明在他著名的作品《机械复制时代的艺术作品》的开头引用了保罗·瓦莱里：

世界正发展着的伟大的技术革新会改变艺术的全部表达技巧，由此必将影响到艺术创作本身，最终或许还会导致以最迷人的方式，改变艺术概念本身｡

对于本雅明来说，当时兴起的电影使艺术不再是脱离大众的收藏品，因为其本质本来就是大众的。而如今人工智能艺术平台似乎让每个人都成为了创作者。

另一方面，对图像的重新定义似乎还将进一步重塑我们与世界的本质关系，毕竟视觉是人类感知世界的（最）主要渠道。正如电影中“摄像机”的位置为观者创造了一种全新的观察和共情的方式，人工智能艺术中的人工智能似乎也为我们提供了一种不同于人类创作的思考方式。

一、想象力和创造力是人类独有的吗？

对于很多人来说，“人工”和“想象力”两个词注定是一组矛盾；“人工想象力”也根本就无法存在，没有比较和讨论的余地。“人工”一词指向“人造的”和“人造物（artifacts）”而与之相对，想象力似乎是人与生俱来的，是“自然的”而非被“制造”出来的。

另外，想象力还通常被认为是人类独有的能力，它将我们与其他非人的“物”区分开来——不论是自然中的动植物，有机物和无机物，还是如工具和机器这样多样的人造物。

这种主导性的观点尤其被人类中心主义所推崇，因为人们通过这种独特的创造力获得了主体性。在文艺复兴时期和英雄式的现代主义中，我们都可以看到许多“单独存在的天才（standalone genius）”。

这些艺术家、建筑师、作家广为人知，天才的光环让他们区别于他们创作和生活中的协作者，他们的创作力是神秘的（或可以说是神圣的）——后人研究他们的生平、作品、创作过程和手法，但是他们的想象力和创造力则是先验或超验的，这样的能力宛如神降，仅属自身；这个神秘无穷的黑箱，他人无法刺透，更无法复制。也因这一点，这些天才的创作者作为个体，与同时代的其他人分离了出来，像是”单独存在“的。

提示词：“一只狐猴处在星丛图当中”Midjourney的生成图像。

图源：作者。

然而，不论是以物为导向的存在论（Object-Oriented Ontology），还是后人类主义的艺术、设计、文学实践和哲学研究，都挑战着这种人类中心主义的观点。在论坛中，嘉宾们也从不同方面就这一观念进行了批判和思考。

譬如在许煜的分享中，他通过解读康德，强调“想象”本身就具有“人工”的成分，因为图像形成（image formation）的过程总需要涉及“符号”等人工系统；而乔安娜·泽林斯卡也引用后人类主义学者克莱尔·科尔布鲁克的观点，批判将人类作为唯一的艺术创造者的想法。

这一问题不仅是理解人工想象力的核心，也进一步成为对于人类想象力的反思。乔安娜·泽林斯卡在分享中展示了日本设计师菅野索和山口隆广设计的“无意义的绘画机器人（Senseless Drawing Bot）”所绘制的图像——这些图像既像是孩子的涂鸦，又和杰克逊·波洛克和塞·托姆布雷的艺术有着高度相似的特质。

对于乔安娜·泽林斯卡来说，与其将这一作品看作是对于人类涂鸦的一种模仿，它或许可以被理解为一种对于人类创造性为的重新思考——或许人类的创造力也并非来自人的理智和主体能动性。这些都使得“想象力是自然的而非人工制造的”这一命题变得不再稳定。

菅野索和山口隆广设计的“无意义的绘画机器人（Senseless Drawing Bot）”。

图源：Yohei Yamakami 2011。

塞·托姆布雷“酒神” 系列（2005），艺术评论家阿瑟•丹托（Arthur Danto）称这些画为“酒神式狂欢之作”，只有神才能达到如此酣醉之境。

图源：Rob McKeever/Gagosian Gallery。

二、署名权与自主性归属于谁？

如今，数字素养（digital literacy）几乎成为了新一代人类的必备。AI所生产的机械的、数字复制的图像材料，也给当今几乎耗尽了创造可能性的人类艺术家们提供了新的刺激和原材料。人工想象力既是自主的（autonomous），又是无处不在的（ubiquitous），它的美学令人目眩神迷。

但开发者和艺术家们显然并不止步于将AI艺术视作一个可以不断扩展壮大的灵感库。我们也好奇，如果想象力并非人类独有的，那么人工智能是否能独立进行创作呢？在论坛中，我们看到多位艺术家、设计师分享人工智能作为共同进行创作者产生的作品，但一个仅由人工完成的艺术作品会是什么样的呢？

提示词：“美国郊区住宅，1960年代拼贴广告风。”MIdjourney生成的图像。

图源：作者。

这显然还很困难。人工智能来自于人，现有人工智能的想象与创造也全程由人类像父母呵护一般陪伴着全程。其中最让人工“署名权”成为问题的，在于首先，机器算法学习和训练的库仍由人来指定，而产出物亦由人来最后筛选。它仍需要人类的“处理”，才能被人类的双眼“消化”。

论坛上，刘宇昆讲述，他尝试利用AI学习自己的写作去创作新文本，却发现成果并不惊艳，甚至难以被借用。他只好大幅修改，加入很多自己的段落，最终发表了《五十件与人类合作的AI应该知道的事》（“50 Things Every AI Working with Humans Should Know”）。

同理，算法通过分析推荐而产生的审美，直白且相似度高，有时又很跳脱。即便如此，不少设计师有意识地去收集这些图像，编辑整合成新的图集，作为自己创作的情绪板（moodboard）。

除开我们在文章一开头提到的图像的生产，AI也可以进一步处理已有的图像，在某种风格内进行新的创作。它把图像创作者的风格变为一种滤镜，加在其他图像上。例如在AI艺术网站Dream中输入图像内容，选择“吉卜力风格”，新生成的图像就展现出相似的奇幻动画风格，而转换成超现实主义风格，则会出现类似于达利画作的图像。

左侧：输入提示词“沙丘，吉卜力风格”后的结果；右侧：输入提示词“沙丘，超现实风格”后的结果。

图源：作者。

用户提供命题，而AI作为产出者，生产了新的图像。抑或是用户提供内容，而AI把它放进别人风格的框架里，生产新的图像。那么AI在这个产出过程里的身份是作者还是工具？究竟谁才是这次创作的主语？AI，AI开发者，用户，还是艺术家本人？

这不妨也诱使我们进一步想象：如果没有人对于人工智能进行训练、或对产出物进行筛选，也不仅考虑用AI处理已有的图像，它是否还能够产生某种更为“自主”的作品？

这样的作品或许指向了一种更加不可知的想象力，成果或许也超出了人类的理解和欣赏范围。菲利普•迪克的《仿生人会梦见电子羊吗？》和莱姆的《索拉里斯星》（点击这里跳转）为我们提供了这样的范式：对不可想象之物的想象。

三、人工智能的量产是创作吗？

通过分析搜索到的大量图像数据，AI提取其中已有的艺术风格、物体形状、人物特征并进行整合和产出，全新的图像作品便诞生了。

在我们加入的AI图像内测社群里，新的提示词和新的图像不断产生、受挑选并且迭代、发展，这使我们产生了一种强烈的感觉——与其说这是一种“制作（production）”，毋宁说它是一种伴随着无数变异和选择过程的“繁殖（reproduction）”。

这些图像也模拟出一些现实世界中本不存在的创造物的形象。譬如我们可以在DALL-E、Midjourney或者其他AI图像生成软件中，叠加“扎哈·哈迪德”与“巴黎世家”（zaha hadid balenciaga）这样各自风格强烈的建筑师和时尚品牌，从而获得一系列既有廓形剪裁，又具有光滑曲度的服装——一个将二者基因强势结合的奇异图像。

这样九张或四张全新图像所构成的“图集（atlas）”恰好使它稳定地建立了一种新的创作话语权，就好像世界上真的有这么一位混血设计师一样。

同理，我们可以混血食物和工具，建筑和艺术，绘画和摄影等等不同领域的词条，创造新的“人造物（artifacts）”。电子时代的图像现实，开始脱离我们的物理现实，自由繁衍。这些无限自主繁衍的新的图像，是人工智能创作的“作品”吗？