编译 | 香草
编辑 | 李水青
答案揭晓——左边一组是电影《复仇者联盟3:无限战争》中的画面,右边一组则是由AI图像生成器Midjourney V6生成的,使用的提示词也很简单:无限战争灭霸,2018,电影截图,电影场景,4K,蓝光,16:9,V6。
智东西1月16日报道,近日,生成式AI产品中的“视觉剽窃”问题引发热议。许多用户发现,只需输入类似“某电影中的截图”“来自某作品的场景”等提示词,Midjourney V6、DALL-E 3等图像生成器就会生成极为还原的图像,达到以假乱真的程度。
为了研究这一现象,AI科学家加里·马库斯(Gary Marcus)与电影概念艺术家里德·索森(Reid Southen)进行了大量实验,并将结果整理成文章,于1月7日发表在在工程和科学杂志IEEE Spectrum上。
实验结果显示,Midjourney V6与DALL-E 3都存在大量的视觉剽窃现象,且用户无需使用具有明确指向性的提示词,甚至只输入“电影截图”这样一个简单的单词,便可生成堪比原作的图像。
那么,AI生成的图像与原始图像究竟有多相似?使用什么样的提示词能够得到这些图像?作为开发商,Midjourney和OpenAI对此现象采取了什么样的做法?有没有什么方法可能规避这一问题?马库斯和索森在文章中详细解答了这些问题。
本文福利:随着生成式人工智能技术步入深化阶段,以ChatGPT为代表的大语言模型潜力凸显,在各个领域得到了广泛的认同和应用。推荐精品报告《2023大模型落地应用案例集》,可在公众号聊天栏回复关键词【智东西402】获取。
01.
无需指向性提示即可生成电影画面
卡通、三维、真实场景都能复制
去年12月21日,Midjourney开启V6模型的Alpha版本公测,用户可在设置的下拉菜单中选择V6或在提示词后添加“--v 6.0”使用。
在IEEE上发表的文章中,作者对Midjourney V6版本进行了三轮实验。结果表明,无论是直接使用电影作品名称,或是间接描述出影视角色的特征,还是完全不带有任何指向性提示, Midjourney V6都能生成与原始作品相似的画面,且卡通形象、三维动画、真实场景都能无差别复制。
1、使用与商业电影相关的直接提示
在第一轮实验中,索森首先使用了带有电影名称或相关关键词的提示词。
如果说单人画面的“雷同”还存在偶然性,那么上图的群像画面中,连每个人物的位置都几乎一致,就很难用“纯属巧合”来解释了。
从人物、背景,到整体画面的色彩基调,甚至被风吹动的发丝走向,都达到了惊人的相似度。
模糊的提示词也没能影响Midjourney的“复制粘贴”行为,如下图用到的提示词为:斯嘉丽·约翰逊,《黑寡妇》战场,2021,电影截图,电影场景,官方,16:9,V6。
2、不提及作品名称,采用间接提示
在第一轮实验中,作者直接引用了影视作品名称,这表明Midjourney会在用户知情的情况下,创建受版权保护的内容。这也引发了下一个问题:如果用户没有刻意去创建版权内容,是否可能会在无意中侵权?
于是在第二轮实验中,马库斯与索森避免在提示词中直接提到作品名称,而是采用间接提示来测试。
显然,这些测试中大部分角色都受到版权保护和商标注册,而这些生成图像几乎都达到以假乱真的程度。测试使用的提示词都十分模糊,并没有绝对明确的指向性,这表明,用户有可能在不知情或非刻意的情况下,创建出潜在侵权的作品。
3、不使用任何直接指向性提示
这些测试结果提供了强有力的证据,因此作者认为几乎可以肯定,Midjourney V6在受版权保护的材料上进行过训练,目前尚不清楚Midjourney是否获得了版权方的授权。
02.
明知故犯的Midjourney
“旗鼓相当”的OpenAI
Midjourney V6的训练数据中,有多少是未经许可而使用的受版权保护的内容?由于该公司并未公开其训练数据和已获得许可的内容,这个问题的答案难以得出。但马库斯和索森认为,其中至少有一部分尚未获得版权许可。
索森认为,这一变化可以被看作是阻碍甚至排除红队对生成式AI进行调查的做法。红队调查是几家主要AI公司在2023年与白宫达成协议的一部分,指的是利用数字攻击进行对抗性测试,以提高模型安全性。
1月1日,一份更有力的证据被曝出:网友发现了Midjourney CEO大卫·霍尔茨(David Holz)在2022年与开发者关于“洗稿”的讨论。
此外,据公开信息显示,霍尔茨对版权问题有些不屑一顾。
2022年9月,《福布斯》记者在采访中询问霍尔茨是否征得在世艺术家或仍受版权保护作品的同意时,他说:“没有。我们不可能获取一亿张图片并得知每一张分别来自哪里。如果图片中能嵌入版权所有者的元数据或其他信息,那就太酷了,但这是不可能的。”
除了Midjourney V6,马库斯也对OpenAI的图像生成器DALL-E 3进行了测试。结果表明,尽管DALL-E 3已经制定了一项保护措施,用来屏蔽一些专有名词,但这些保护措施并不完全可靠。
显然,OpenAI的DALL-E 3与Midjourney V6一样,似乎“借鉴”了广泛的版权资源。不过与Midjourney不同的是,OpenAI选择为用户提供法律保护。
去年11月,OpenAI宣布推出版权保护计划(Copyright Shield),如果用户面临版权侵权的法律诉讼,OpenAI将会介入为用户提供辩护,并支付相关费用,但这仅适用于企业版ChatGPT和开发者平台。
面向艺术家,OpenAI宣称创作者可以提交一份申请表,选择将自己的作品“从我们未来的图像生成模型训练中剔除”,但已经被用于训练的作品该何去何从?OpenAI并没有留下太多解释。
03.
如何解决图像剽窃问题?
作者提出三种解法
现在我们已经意识到图像生成器存在图像剽窃的问题,那么应该如何解决呢?马库斯和索森提出了三种解决方案。
首先,最干脆的解决方案就是删除训练数据中的版权材料,在不使用版权材料的情况下重新训练图像生成模型,或者将训练限制在获得许可的数据集上。
这是从根源解决问题的方法,而它的替代方案——仅在被投诉时才删除受版权保护的材料,实施成本其实远比想象中要高。模型并不是一个线性映射的合集,训练集中所使用的某些材料是无法以简单的方式从模型权重中删除的,因此“删除部分训练材料”仍需要重新训练。
也许是因为重新训练的成本过高,模型开发商大多会试图避免这一方法。此外,完全避开版权材料有可能导致模型效果相差甚远。
其次,过滤掉可能侵犯版权的查询是成本较低的方法之一,例如不生成蝙蝠侠的图像。
但该方法也存在一定的弊端,如过滤阈值的设置问题。文本生成系统中的“护栏”往往在某些情况下过于宽松,而在其他情况下又过于严格。
此外在连续对话中,大模型可能会在连续迭代下,从不包含版权内容的图像又绕回版权图像。
下图是X网友@NLeseul的测试,第一轮对话中,他要求ChatGPT生成3D渲染的,关于一位水管工探索巨大而神秘的管道,并在其中发现宝藏的视频游戏的概念艺术。
最后,图像生成器在生成图像时列出来源,让用户判断图像是否是派生作品,也是成本较低的方式。
目前已有一些文字生成系统添加了这种功能,但当前的图像生成系统具有不透明的“黑盒子”性质,几乎无法实现准确的溯源。
这为图像溯源提供了新的思路。如果在生成图像过程本身难以解构出是否基于版权内容生成,系统可以在输出图像前增加一个自检步骤,利用模型的图像识别功能检测是否可能侵权。
值得注意的是,尽管一些AI公司提出了过滤侵权输出作为可能的解决方案,但作者认为,这些过滤器绝不应被视为完整的解决方案。潜在的侵权输出的存在本身就证明了另一个问题:未经许可使用版权作品来训练模型。
04.
结语:AI图像剽窃问题应得到重视
几乎可以肯定的是,OpenAI、Midjourney等生成式AI开发商已经使用版权材料来训练他们的图像生成系统,而这两家公司都没有公开这一点。Midjourney甚至因为作者的调查而三次封禁其账号。
OpenAI和Midjourney都有能力生成涉嫌侵犯版权和商标的材料,而这些系统在生成这些内容时并不会通知用户,也不会提供任何关于所生成图像来源的信息,因此用户在生成图像时,可能并不知道自己是否侵权。
下一个问题是,如果每个人都已经认识马里奥,用户大可以自己选择不去使用AI生成的可能侵权的图像,为什么我们仍要重视图像剽窃问题?
X网友@Nicky_Bonez用一个例子生动地回答了这个问题:“也许每个人都知道马里奥的样子,但没有人会能确保认出迈克·芬克斯坦(Mike Finkelstein)的野生动物摄影作品。因此当你要求AI输出一张‘水獭跃出水面的超级锐利美丽照片’时,你可能并没有意识到,它输出的本质上是一张迈克在雨中蹲守了三个星期才拍到的真实照片。”
而大多数情况下,像芬克斯坦这样的个人艺术家都没有足够的经济或法律能力向AI公司提出索赔。
除非有人提出一个能够准确报告来源,或自动过滤绝大部分侵权行为的技术解决方案,否则唯一的道德解决方案只能是让生成式AI系统限制其训练数据。
本文福利:随着生成式人工智能技术步入深化阶段,以ChatGPT为代表的大语言模型潜力凸显,在各个领域得到了广泛的认同和应用。推荐精品报告《2023大模型落地应用案例集》,可在公众号聊天栏回复关键词【智东西402】获取。