11月28-29日,为期两日的36氪WISE2024 商业之王大会于北京隆重召开,作为中国商业领域的全明星盛典,WISE大会今年已经是第十二届,在不断变化的时代里见证着中国商业的韧性与潜力。
AI对于各行各业的影响逐步深入,同时也
在创造新的可能。目前在艺术领域,已经有了足够具有针对性的大模型产品,创作者也开始学习如何与AI共处。在这一过程中,AI是如何辅助甚至影响艺术创作的?又遇到了怎样的问题?一线艺术从业者对于AI技术有哪些运用和顾虑?Vibration歪波音室主理人拾壹、趣丸科技副总裁贾朔、布乐科技CEO,知名游戏监制杨晟先生、独立音乐人、词曲作者曾翊雄先生就此展开了深入的讨论。以下是讨论内容实录:
拾壹:我是拾壹,今天很开心和各位老师来探讨一下这个主题,刚才我们也听到了曾翊雄老师演唱的歌曲,很厉害,今天趣丸科技的贾朔老师也是有备而来,他使用了他们趣丸科技的产品“天谱乐”,根据刚刚曾翊雄老师演唱的歌曲,生成了三首AI的,在我们正式进入讨论之前,让我们一起听听这三首歌曲。
三首不同风格的音乐,我觉得很特别,他的生成能把不同音乐非常典型的特征都表现出来,曾翊雄老师听到了这几个根据你的歌词所改编出来的AI音乐有什么样的感觉?
曾翊雄:我第一次听的时候感觉非常惊讶,抛开歌词,从旋律的层面来解释,我觉得就是非常成熟的一个作品了,他不论是旋律还是动机都是非常完整的,而且三个风格也非常明朗。
拾壹:因为这是AI制作的音乐,跟你制作的音乐不太一样,你平常制作音乐是什么样的过程,流程是怎么样的。
曾翊雄:从最开始创作,我自己写歌比较随意,我可能喜欢跑步、散步的时候,坐飞机的时候,可能有一小段旋律,不是完整的歌,一两句歌词,一两句旋律,我就想把这个歌发展出来,回家之后我再拿出乐器写,写完了整首歌,再去棚里跟乐手、录音室交流,怎么完整的录下来。
拾壹:这个过程有没有使用过AI音乐之类的工具来辅助你?
曾翊雄:还没有,我就是语音备忘录和文字备忘录。
拾壹:刚刚也提到生成的这几段音乐,其实我有一个特别大的感觉,因为我也用过许多AI音乐生成,玩音乐一样的生成一些歌曲出来听过,但是他们这些歌曲生成出来之后有一个特点,是我觉得可惜的,就是在人声演唱方面很电音,不自然,刚才天谱乐所生成的音乐把这个点进行了弥补和完善,很有人味了,我觉得这点还是挺了不起的,想问问看贾朔老师,趣丸科技是如何去实现这样的效果?
贾朔:大家好!我是来自趣丸科技的贾朔,其实拾壹的这个问题如果回答起来还蛮点题的,今天我们的主题是正确的事,凡是问题他其实都分两层,有没有解决这个问题的能力,有没有解决这个问题的意愿,所以简单来说这个问题的回答就是有效地使用当今的大模型的训练技术,人声不自然的问题是可以克服的。但这里怎么解读能力跟意愿的问题,首先要具备解决这个问题的能力,整个开发团队需要具备完整的大模型的架构设计跟完整的数据处理、预训练、后处理等等的全流程的训练能力,包括背后的资金跟算力的资源,这其实是一个门槛比较高的能力。
第二点就是意愿问题。人声听起来自不自然这一点,从艺术的角度来说它是一个有意义的问题。但是如果把它转化成一个科研上的问题,它未必是特别好量化、被指标化的问题。一个科研者、算法工程师解决了这个问题,他可以发paper吗?能够发论文吗?我觉得有能力的团队还是有挺多,但是真正有解决意愿的人,还是对音乐作为一门艺术有多在意、多尊重,但是趣丸比较幸运的是我们产品跟工程师团队,恰好是一群有艺术家气质的。
趣丸科技副总裁贾朔
拾壹:你们团队很多人都是有音乐背景的。
贾朔:对,有一半的团队成员都有很强的音乐背景,比如钢琴十级、古筝八级等等。虽然它是AI,但他们当做自己最伟大的作品去打造,像刚才说的人声不自然这个问题,它虽然解决起来难,但正因为它是正确的事情,所以我们团队有这样子的意愿去解决。从最终呈现的成果上来说,现在的效果可以说在国内的AI音乐领域还是有竞争力的。
拾壹:具体的比如说之前可能有在声音上不是那么自然,这个情况是怎么出现的?你们又是怎么通过具体的方式把他们解决的?是仅仅通过算法吗,还是有不同调试的方式?
贾朔:可以延展的一个问题就是AI音乐的发展,其实它发展经过几个阶段。今年大家对这个东西比较感兴趣是因为这两年的AIGC大模型的技术,扩展到了音乐领域,而用大模型的技术其实是有能力跟有可能去把音乐各方面的规律和自然度做到很好的程度。像上一代的AI其实是人把自己总结出来的经验、规律转化成一些“教条”,把这些“教条”输入给AI,让AI执行自己理解的“教条”,这样的情况下最终的结果就是比较容易出现人声不自然、乐理上不太合理的情况。但是整个大模型最神奇的地方就在于,其实你只需要散养就可以,就像养育“小孩”一样,真正需要做到的就是给它成长的资源,带它开阔眼界,不需要给它讲什么大道理,不需要那么多的“爹味”,它自己见多识广了之后,它自己会学到的。
拾壹:相当于它会自己生长,自己学习,解决本来没有办法解决的问题。
还有一个挺好奇的点,除了人声之外,因为音乐的组成部分很多,也包括器乐,我们分析音乐或者感受音乐的时候,也会感受到它的曲风,或者韵律方面,我比较好奇的是在一首好的作品,它可能会比较有复杂的音乐结构,或者好多种不同音乐风格融合在一起之后产生的结果,AI能够处理这样子的问题吗?比如我们说不同的乐器有不同的声部,这些声部如何很好的组织起来,根据不同的音色特点,演奏技巧,合理安排他们的旋律线条,甚至我们有一些音乐韵律感比较重,比如说黑人音乐、爵士、拉丁,这些是很复杂的部分,现在我们AI音乐的技术是如何处理,能不能很好的处理掉他们这样子的情况?
贾朔:这个问题还是挺有代表性的,如果用上一代AI技术做的话,需要把非常复杂的各种经验规律输入到模型其实是目前挺复杂的事情,但现在这些问题解决起来技术上都不成问题,但肯定拾壹之所以问这个问题,肯定是体验了市面上大量的产品发现,在这个问题,这个细节点的体验上,特别是对一些在音乐上面有一定造诣的观众来说,还是比较容易发现瑕疵的。所以这个问题我的理解可能是一个优先级的问题,当前可能大家都会优先解决一些一眼假的问题,或者一耳朵听起来不那么像AI。至于两眼假、三眼假的问题,最终随着技术持续发展,随着时间推进,我还是比较有信心,它是能够被去解决的。
拾壹:其实不只是音乐,我们AI在各个领域当中都会有所发挥,比如说影视剧,像我们的杨晟老师,我之前看过你们在网上有发过一个视频,为电影毒液所做的AI宣传片,非常特别,因为是水墨风格的,看之前没有预期到会是这样的风格,所以我很好奇你们团队做这样子的宣传片的时候,为什么用这样的水墨风格,以及AI在这个过程当中起到了什么作用?
杨晟:用水墨风格首先是因为为了绕过好莱坞的一些限制,好莱坞对于我们所有AI创作下了非常大的框架,框架内容是你所递交的所有AI产品必须要得到本人的完整授权,我们的对手是SORA,水墨这个东西现在在好莱坞并不是被注册的,比如说齐白石风格的水墨,艺术家这样的东西。所以我们采取了相对而言比较讨巧的方式,如果说两边能够跑出一个差距的话,我想东方的很多意向相对而言成为了我们共有的知识产权,我们可以跑出很多独特的风格,而这个风格我想可能是现在在视觉上我们也许赢的一个点,就是我们和SORA同时往前跑,我们如果坚持在东方的水墨画、版画、剪纸艺术等等,一个是我们绕开了PGA的大限制,第二是艺术家授权变得非常简单,因为我们真的不缺的是民间艺人,所以我刚才在台下和贾老师还说,用水墨做会越来越东方,反而是因为如果和西方在同样写实或者一个路径下走,可能走不下去,但是我们可以绕到更聪明的方法上解决问题。
拾壹:你们在这个过程中AI到底做了哪些工作?
杨晟:我们先看了一下现在AI最难解决的问题是稳定性,现在我们一个AI主体,比如说我们画一个贾老师,画进去之后可能会变,我们限制了每个镜头的首尾祯,就像花连环画一样,这个人出拳前一秒和最后一秒画下来,我们把开始和结尾都告诉了AI,过程什么样让他去猜,我们的片比达到100:1,这是非常夸张的,并不是他们生成的不好,而是我们可以在里面去挑最合适的那一条。
拾壹:相当于他来负责把中间联想工作做完,我们来决策,我们想哪一个是最合适的。
杨晟:对,传统动画工作流程里面这个叫中期团队,是现在最贵,最难找的。
拾壹:除了视觉上的工作以外,在影视剧的行业当中,对于配乐的使用,以前的流程是怎么样的,在AI音乐还没有出来之前。
杨晟:最真实的流程,以前大部分电影配乐是这样子的,导演跟剪辑师,剪辑师说有几个参考音乐,你觉得怎么样,导演就说咱们就照这个抄。但是有一些大配乐老师,我最近有几首歌,新创作出来,听听看,导演拿着硬盘找剪辑,说你照这个歌的调子能不能减一下,剪辑老师感觉差不多,画面不能动了,配合画面动一动调子。所以我们影视的配乐很多时候是非常功利的,就是以商业为第一导向,影视行业配乐就是说你照着环太平洋弄,照着子弹飞去弄。
拾壹:你们后来会使用AI的工具来制作音乐吗?
杨晟:现在涉及到影片的泛用授权,这个我想贾老师将来也会讨论到,包括我们现在影视作品进入好莱坞,进入全球市场销售以后,现在在好莱坞包括欧洲市场、戛纳电影市场,我们担心会冒出来一个新的规定,就是你这个电影当中AI的占比,有多少比例是使用艺术家的,多少比例是AI的,这个东西得需要解决,所以我们也在聊如何配合杰出的艺术家完成AI创作,这个方法能够有效的在法律合规的情况下进行。我们把艺术家面对AI分为三个流派,贾老师他们跟艺术家交流是很频繁的,包括今天你在主持我们三个人的对盘之前,你是哪个流派?
拾壹:我属于降临派吗?我也不确定。
杨晟:不同的流派会导致我们最后走的路完全不同,我是一个很彻底的抵抗派转变成了投降派,就是因为你在应用过程当中发现这个潮流不可阻挡,那个时候你会变得更虔诚。
贾朔:这个问题非常有意思,虽然我现在是做AI,但我是艺术院校,艺术专业背景出身的,所以我对这个问题还是有一些思考的。以史为鉴,一门新的技术在艺术领域当中应用,如果我们翻看人类的历史,没有一次抵抗是成功的。举两个例子,第一次抵抗是摄影技术出现冲击传统绘画的时候,那个时候画家都是用画笔来记录真实的人物或事件,一幅好作品可能要画几年时间,而照相机只需要“咔嚓”一声就完成了记录。但现在200年后谁还会讨论这个,摄影与传统最后都发展成各自独立的一门艺术。摄影从胶片摄影发展到数码摄影的时候,也发生过一次抵抗,那个时候如果你对一个摄影艺术家,相当于是最严厉的指控就是你这个东西PS过,在那个特定的历史时期,这样的指控是很严肃的道德指控,但是现在还有人在意吗?所有东西都是经过PS过的。我不确定我是属于刚才说的哪一派,如果从参考历史来看的话,最终新的技术一定会普及开,可能这才是人类的规律。
拾壹:我还蛮好奇一个点,现在AI音乐有一个问题就是在AI音乐创作、大模型训练当中没有办法避免如何处理模仿、抄袭这两者之间的界限。
贾朔:这个问题非常好,先说比较政治正确的回答,一般来说普遍的观点是觉得技术是一个中立无罪的工具,但从我们天谱乐的角度来说我们希望做得更进一步,我们会用一些技术手段从主观上去避免这样的事情发生。比如,当用户在使用我们产品时有一些主观意图做一些模仿现有艺术家行为的时候,我们会弹提示。
这个问题如果再发散一下到艺术创作是很有意思的事情,人类创作也需要参考大量的作品,也就是人类艺术创作的流程本身就包含了参考跟借鉴,这不是AI才会干的事,人也是这么创作的,所以这个事我认为其实它需要辩证地去看待。
杨晟:12年前我们拍的泰囧,我们按照泰勒的调子剪的,但找不到音乐,那怎么办?我们找赵英俊,赵老师说我们实在太喜欢love story了,你有什么办法,赵老师说行。艺术类的东西我们看到的绝大多数的叙事艺术都来自古希腊三大悲剧,一切故事都是三大悲剧的变体,周处除三害是抄袭吗?不是,我们怎么站在巨人的肩膀上做的更好,逃避不掉。
曾翊雄:我有特别认可的一句话,我平常很喜欢看大师的纪录片,大师就会说其实创作就是不断的模仿,当你模仿某一个人不像的时候,就成了你自己。我自己创作过程中,比如说我一开始写一个R&B,明天爵士,后天民谣,这些东西都拿一点过来之后就成了我自己的东西,不像原来本来的东西,就是我自己的风格。
拾壹:人的创造力这个时候就是把过往经验、采集到的资料重新打散,重构,出现新的东西,但一切都是有迹可循的。AI跟艺术家的关系,我会有个点比较好奇的是说,现在我们人类音乐家和AI科技在哪方面真正的进行本质上有效的合作,工作?是在音乐的初期就给你提供灵感,还是说在后期的制作过程当中给你提供更有效率的,更好的一些优化等等,或者是他可以实现技术部分的实现,还是可以提供很好的创意来激发灵感,有很多的可能性。
在这个过程当中,你们觉得这样子的合作模式可能会是怎么样的?
贾朔:先说一下我现在的理解,其实这是很有意思的事情,创作应该是由AI主导还是由人类主导?我的观点就是AI只是众多技术工具的一种,创作主体始终是人类。但现在的问题是什么?当前AI发展到今天的水平,虽然效果还不错,但总体体验存在一个问题就是像开盲盒,我对它没有掌控力。即使开出来的东西还不错,这个时候我会问我内心一个问题,它虽然不错,但跟我有关系吗?这其实是在当前阶段稍微有点尴尬的问题,但我觉得总体的技术发展方向还是人类会加强对这门技术的驯服,最终应该是变成艺术家意志的延伸,比方说曾翊雄老师创作歌曲,有可能未来旋律和律动还是你自己创作出来的,你把完整的一段小的DEMO输入到模型里面,模型只是让你快速地去预览你的东西如果完整做出来是什么样,省去了你几个月的时间,找人编曲等等,加快你创意验证的循环的次数,来帮助人类去做出作品,我还是比较看好,这种AI是有益的方式来去应用。
杨晟:极端降临派是AI输入一个指令什么都不用做了,太极端了,我是温和降临派,他们还小,不懂事,还需要牵着他们的手一步一步往前走,他们现在还很不懂事,他能服务艺术家的是什么?是我有一个灵感、一个冲动之后,我跟AI说这段加大提琴,这段小号往下走一点,这边给我一点即兴的东西。将来做广告就是这样子的,每个人都是指挥,在你手里有乐团,可能是摇oct.sc-wjxs.com滚、爵士、古典乐团,我们现实生活中而言,都没时间配合我的,我说你鼓敲密了,他扔下就走了,AI是我们的玩伴,漫长岁月就靠他们了。对于艺术家而言,孤独的创作不再那么孤独,很多伙伴愿意听着你的指挥做你想做的,所有乱七八糟的创作才是好玩的。
拾壹:曾翊雄老师作为一线音乐创作者,怎么看待这个问题?
曾翊雄:如果是我来用AI的话,我可能有一个动机,我自己写歌也经常遇到这个问题,可能是前奏、副歌,但还需要间奏,主歌,主歌写完了发现跟副歌连起来不那么好听,不那么流畅,这个时候交给AI可能会给我一个非常意想不到的旋律,原来这个地方还可以这样写,我之前怎么没有想到。我不一定会用他里面所有的音符,他可能只有一两个音符特别意外,我留下那一两个音符,再把主歌写完,这是我自己比较满意的状态。
再谈到艺术,一个好的艺术作品应该允许他犯错,不完美也是一种美,这是人类在做一些作品的时候,他经常会出的问题,包括很多特别经典的现场版,你可能听到人音有一点点破,但这反而是最动人的地方,有时候我们录音不会选最准的那一遍,但可能有一点瑕疵,但却非常合适。
拾壹:能传达出一些额外的信息。可能我们大家对于这件事情还是相对保持比较正面的或者是积极的态度,我作为一个音乐受众有一点担心,我觉得不管是影视剧、音乐、游戏,我们都会认为他们现在已经是艺术了,是一种艺术形式,在我的观点里面艺术的本质应该是艺术家,所以人是至关重要的,我觉得AI的出现似乎有一点点慢慢的在挑战这个领域的本质,所以我其实很想问一个问题是,我们经常说艺术会传达出价值、人文感,在AI当中他真的能够体现出来吗,能体现多少的部分,刚刚我们也聊到了一些这个问题。
贾朔:刚才我们的讨论反复提到关键词“艺术”,但我们并没有去辨析到底什么是艺术,这个问题或者这个词怎么理解,其实就会涉及到这个问题如何解答。我理解可能艺术至少有两个很重要的构成部分,一个构成部分是形式感、美感,大家平时审美审的那部分。另外是价值主张,你到底想要传递什么样的人文价值。举个例子,现在大家说艺术不自觉地会代入一些文艺复兴这样背景的画面,这些东西刚好可以包含我刚刚说的两个部分,一个是它具有一些形式的美感,比如说当时的绘画把一些解剖学最新的研究成果应用上来,对人体肌肉的表达、线条,比过往几百年的艺术作品都表达得更加美,所以它在审美上建立了一种新的标准或者是表现形式。现在大家逛博物馆、艺术馆也在看这些东西,但是背后的东西,比较少讨论价值主张是什么,我的粗浅讨论就是文艺复兴是假借歌颂神之明去赞颂人,强调人才是这个世界的主宰,大家应该关心人的价值,人幸福与否。
回到AI对艺术这件事情的冲击,其实我们可以看他对哪一部分能冲击到,哪一部分冲击不到。审美这件事情其实在我的逻辑看来,相当一部分艺术家的相当部分工作其实是在做审美搬运,这不是一个贬义词。刚才大家说的做大量的历史的艺术家的参考,其实就是在做某种审美搬运,审美搬运可以是时间维度的审美搬运。我现在去看古希腊的文学怎么做,看文艺复兴的画怎么画,或者看巴赫曲子怎么写,这是时间维度上的审美搬运,还有地域上的审美搬运,比如早年很重要的一位艺人就是把R&B,说唱搬运过来,他在特定历史时期就是很有价值、很有受众的东西。但审美可以被信息化,它可能最终还是属于AI的射程范围内。但是我觉得如果一个艺术家还是真正去思考他的价值主张是什么的话,这一部分其实我认为,虽然我可能倾向于杨老师说的某种温和路线的投降派,但我还是坚信人类的欲望跟情感AI是不具备的,因为AI不需要繁殖,AI也没有钱包。所以我觉得这部分还是人类独有的东西,它无法被AI所取代,艺术家更多会思考后面这部分价值主张,你到底想表达什么的这个问题上,而审美的形式感、美感,AI可以帮助你相当的一部分工作,未必是全部。
杨晟:这个故事我好像讲了好多遍,最适合在此刻用,我最喜欢的爵士音乐家,他在科隆的爵士音乐会非常有名,这是一个坏掉的,只有十几个键可以用,但依然可以被演奏。这就是我们和艺术家的关系,AI还缺这个功能,那个功能,其实都是借口,AI只是工具,工具在什么样的人手中就能产生什么样的功能,AI不是我们的对手,只是工具之一,现在在伟大艺术家手里,甚至在很短期我们看到特别强大的艺术家,用只有十几个按纽的钢琴,足够把这个行业往前推一步。但是我们不能拿我们和钢琴的关系,我们和爵士乐的关系放这儿。
拾壹:之前一个纪录片里面也有讲到,他在一个房间里面弹一架坏掉的钢琴,他听声音,他跟声音的互动,产生灵感的瞬间可能就是艺术迸发的瞬间,不一定说AI会取代艺术或者伤害到人文价值的部分。
现在已经有大量的AI在参与我们的艺术创作了,如果作为一个新兴的AI作品,不管是音乐也好还是影视剧、动漫,我们现在有没有可能可以从比较新的角度重新评估他的价值?他可能是技术创新的角度还是情感传达的能力,还是他对于整个社会的影响,可能有一些新的指标。我们对于艺术所谓价值的判断的标准也会发生变化,如果确实发生变化的话,标准会是什么?
贾朔:我其实没有这个问题的答案,但是我觉得这个问题的答案在未来5-10年一定会逐渐地浮现。因为一个新的技术出现了之后,其实一定会冲击原有的现存的标准跟一些做事或者创作的方式,这个阶段它会属于一个混乱的震荡期,大家不知道怎么给一个东西定价,因为原来贵的东西突然变得很廉价、不值钱,需要一个适应的过程,但是最终人有办法找到。
杨晟:一开始的回答可以放在这儿了,就是难而正确的事,我觉得把AI的声音做的像人声这件事情,他在商业上的价值或者是感受的价值体现的很低,但是这就是我们能够人知道这个东西的真正价值。现在我觉得大部分AI产品,他值不值钱的标准就是看发新的那一块是我想随便玩儿,还是我想稍微把声音打磨一点,再像人类一点。你一开始讲难而正确的事,现在是AI产品最值钱的东西,因为这个东西基本没人做,我们现在看到很多AI的艺术品或者作曲都是特别AI味,他可以不那么AI味,他本人能力上绝对可以,包括很多作曲人,他们也用了AI产品,就像刚才曾翊雄老师所说,完全可以自己再去调,他们不去调,衡量价值就是一个,能不能为这个产品做一些难而正确的事情,把AI味变成自己味的过程。你刚才讲那个特别打动我。
贾朔:工具使用者的价值选择在这里面体现了。
曾翊雄:AI把艺术创作变得更加方法论了,我也是认为艺术一直是有方法论的,这个东西你去写一篇作文,写一个文章,不可能不去看那么多的书,写不出来的,一样的。所以我觉得音乐也是一样,你得不断学习,得有一定的素材或者样本量足够,足够的强大再从里面挑选,怎么样让他更有人味,不那么AI,得有更多的素材。