分享好友 最新动态首页 最新动态分类 切换频道
趣丸科技贾朔演讲全文:探索音乐创作的技术平权——AI音乐的创新实践
2024-12-27 18:41

来源:雪球App,作者: 智东西,(https://xueqiu.com/9919963656/316542732)

趣丸科技贾朔演讲全文:探索音乐创作的技术平权——AI音乐的创新实践

12月5日-6日,由智东西与智猩猩联合主办的2024中国生成式AI大会(上海站)在上海圆满举行。在大会首日的主会场上,趣丸科技副总裁贾朔以《探索音乐创作的技术平权——AI音乐的创新实践》为题发表了演讲。

贾朔认为,2024年是AIGC音乐爆发元年,人工智能的创新发展大大降低了音乐创作门槛,音乐创作赛道终于迎来了“创作平权”时刻,普通用户也能用低门槛的方式体验音乐创作的乐趣

音乐生成之所以是被LLM浪潮覆盖的最后一种模态,成为漏网之鱼,源自于

音乐的特殊性——时间序列性、多层次结构、情感一致性、评估主观模糊性

。目前Diffusion in Transformer(DiT)成为大多数闭源的主流选择,而

国产AI音乐的歌声自然度更是突破人耳识别阈值,效果比肩美国头部模型

贾朔分享了人与音乐的AI交互形式的变化,从文生音乐,到三键成曲,再到哼唱成曲。今年7月份,天谱乐全球首发多模态音乐生成模型,支持视频成曲和图片成曲功能,一键根据用户视频或图片生成一首完整的音乐

此外,贾朔在现场首次预告天谱乐的新功能——MidiRender,功能类比于一个精准、可控音乐版的Control Net,专业的创作用户可以输入自己的音乐构想,让天谱乐AI根据这个原创音乐片段填充歌词、完成编曲。

以下为贾朔的演讲实录:

01、2024年是AI音乐爆发元年,迎来“创作平权”时刻

2024年是一个重要的年份,音乐创作赛道终于迎来“创作平权”时刻

文字、图片、视频这些模态的创作平权问题早在时代已经被解决。一个普通人想要创作这些,都可以轻松实现。因为移动互联网时代的一个主线任务,就是不断降低创作门槛,实现全民UGC内容创作。

但是,音乐属于时代的一个漏网之鱼。普通人想要用简单的操作在手机上完成低门槛音乐创作,是比较难的。到了2024年,AIGC到来的时代,这个任务终于要被完成了。

这里整理了各个模态成熟的时间线。可以会看到这一波生成式人工智能的浪潮。有几个标志性的事件,比如说文本生成,代表事件像ChatGPT率先发布3.5版本,把文本生成,特别是基于transformer的交互对话把热度给点燃了。紧随其后是文生图也在2023年前后成熟,普通人输入一段简单的文字咒语,就可以输出非常专业的图片效果,甚至是近似照片的图像。文生视频是在2023年底到2024年年初,Sora的出现让文生视频率先进入AIGC成熟的临界点。反倒是音乐在这几个主流模态里面,它是最后一个成熟的。

02、天然特殊性让音乐生成需要克服四大难题

为什么音乐总是最后一个?它有哪些特殊性?我们天谱乐团队深耕这个行业很长时间,对音乐生成有一些理解,主要反映在四个方面。

首先,它需要很强的“时间序列性”。一首音乐三分钟,它的时间顺序要遵循音乐上的规律跟结构。如果结构错了,人可以很容易识别出来它不自然,它不是人类生成的。

其次,是“多层次结构”

。大家如果平时听音乐比较多的话,会留意到一首音乐的编曲里面,会有非常多的空间编排。比如说人声可能是靠前或靠后,同时你的左侧可能有一个架子鼓,右侧有一个大提琴或小提琴,这些会带来非常多的空间结构信息,在生成领域它同样需要解决和克服。

第三点,情感一致性

。众所周知,音乐是用来统一情绪的一种工具。同时,如果一个音乐作品80%的部分非常符合逻辑,但是唯独有一两个音稍微有点瑕疵,达不到人类对这个音乐的效果预期。人类就会瞬间识别出来。如果同样的事情发生在文生图,一些小瑕疵可能不会产生特别严重的问题。

第四点,评价主观模糊性。大家做大模型、做AIGC生成,经常做一些跑分题库去量化、评价一个模型效果好坏?但是在音乐领域,它的评价非常主观。你问一个人这个音乐好不好,他会回答喜欢或者不喜欢。但是,对一个音乐的喜好评价,并没有太多建设性的反馈价值。同时,这个评价有模糊性、主观性,更多取决于个人的审美偏好,而非音乐质量高低。

03、国产AI音乐歌声自然度比肩美国头部模型

在当下这个时间节点,做一个音乐生成大模型或产品的选择空间并不大。音乐生成不像其它模态有成熟的开源方案。事实上,无论在国内还是国外,基本都是闭源项目主导,要么从预训练环节开始自己训练,要么直接套壳。

我们看到,在技术路线选择上,今年有一个比较明显的趋势,Diffusion in Transformer(DiT)成为大多数闭源的主流选择。包括Suno CEO在一个公开分享中也提到,Transformer更适合处理时序结构上的问题,而Diffusion更适合处理一些高维空间问题

当然,尽管大家的技术路线选择一致,但是具体的架构设计还是存在非常大的差异。例如造车必须有四个轮子,但是轮子应该怎么设计大家各有不同。

今年除了搞技术的对音乐感兴趣,音乐人也很关心。我们跟一些音乐人沟通,现在音乐生成效果这么好,什么问题导致他们无法使用这些AI工具。他们回答两个点,第一点,人声的自然度问题。举个例子,在3D建模有一个很有名的效应,叫做恐怖谷效应。即一个东西已经有九分像,就差10%,但是人类可以很快识别出来,并且对它产生厌恶和反抗情绪。

为了攻克这个问题,天谱乐团队从模型结构上调整了几十版,实验上百次,最后我们认为拿出了一个比较有竞争力的结果。

我们拿天谱乐最新的版本跟音乐人交流,音乐人给了很高的评价。他们说

AI音乐这个赛道仿佛到了围棋遇到AlphaGo的时刻

。同时,我们也找了音乐高校学生,他们具备专业的音乐训练,可以比普通人给出更专业的评价。我们做了一个盲测,用相同的Prompt测试了50条输出音乐,让音乐高校学生盲测给天谱乐和国内外产品打分,最终结果是天

谱乐AI最新2.2版本的中文人声唱词已经达到一个新的天花板水平,歌声自然度更是突破人耳识别阈值,效果比肩美国头部模型

04、首创图频生曲功能革新AI音乐交互形式

文生音乐是最适合的交互方式吗?很多人觉得“摇歌”这个事情就像开盲盒,觉得“音乐效果不错,但是跟我有什么关系呢?

针对这个命题,天谱乐团队做了一系列的探索,我们在2023年推出“三键成曲”模式,用户输入三个音即可扩写形成一首完整歌曲。2024年天谱乐进一步推出“哼唱成曲”,很多人在洗澡的时候会随心哼唱一段,同样可以扩写成歌曲。

当然,这些可能都还不够简单,怎样才能让音乐创作更简单呢?类似时期的手机摄像头就是最平权的输入媒介,人人都能拿起手机拍一拍照。我们在想,如果用户旅游中拍了一张照片、一段视频,天谱乐是否可以帮他生成一个完整的作品?

带着这个想法,天谱乐首发了全球首个多模态音乐生成模型。这个模型可以理解画面的内容、情绪,从而自动匹配最合适的歌曲。

05、AI如何为人类创造更大价值

2024年整个AI音乐赛道的门槛终于被彻底打下来了。图片创作、视频创作、音乐创作确实到了人类历史最简单的一个时代。

前几周我跟一个湖畔大学的老师交流,他提到一个新的问题:天谱乐这个AI音乐工具能帮助人类作曲家作出更好的音乐吗?当时我思考了很久,我们做这个模型目的是什么?只是让更多人可以轻松创作出60分的音乐吗?还是可以创造更大的价值,辅助人类不断突破创意天花板,创作出更好的内容呢?

我们发现市面上普遍的音乐生成大模型,除了人声不好之外,很重要的问题是现在的AI不听话,不按照作曲家、音乐人的意图创作,AI过多地自由发挥。

所以基于这个思考,我们拿出了一个新功能,今天是第一次正式地对外亮相,天谱乐下一个版本会发布的一个叫MidiRender的功能。大概介绍一下这个功能。在文生图领域有一个非常重要的发展节点,就是Control Net的出现,让文生图变得非常可控。AI音乐也需要类似的一个东西。第一步是核心的创意部分,我们还是希望人类作曲家来主导,用乐器、编曲软件都好,先去弹一段基础的动机旋律。第二步,在以前人类作曲家从创作一段动机旋律到完成一首完整的创作,往往要花几周甚至几个月的时间。而现在,天谱乐AI完全有能力来加速完成这个动作。大家听DEMO可以感受到,最终出来的音乐跟最初人类作曲家的动机旋律是完全匹配的。这也是我们认为AI大模型作为工具,可以为艺术家服务的一个事情,而不是去抢夺创作主导权。

翻开人类历史,人类可能真正擅长的有两件事情。第一件事情是犯重复的错误,比如周期性的谜之自信,觉得可以创造出比自己更聪明的东西。第二件事情是人类非常擅长制造工具。人类每一次制造一个新的工具,都在不断拓展自己能力的外延,所以今天人类才彻底成为这个星球的霸主。所以我认为技术最终还是要服务于人,技术的出现不是为了取代人类工作,而是帮助人类创造更美丽的东西。

最新文章
全国性服务低成本付费投流广告推荐 汽车投流 专属定制
  信息流付费获客是一种营销策略,通过在信息流平台上购买广告位或推广服务,向用户展示相关的内容,从而吸引用户点击和转化为付费用户。  在进行信息流付费获客时,可以选择以下几种方式:  1. 广告投放:在信息流平台上购买广告位
许冠文黄子华打破戏路,口碑港片《破·地狱》如何“破”题生死?
一个专拍喜剧的导演陈茂贤,两代“喜剧之神”许冠文和黄子华,却合力拍出一部严肃讨论生死话题的电影《破·地狱》。电影从半路出家的殡仪经纪魏道生(黄子华 饰)和古板守旧的喃呒师傅郭文(许冠文 饰)的故事中观照人生,带出对生命和死亡
高效流量入口攻略,引流搭建实用指南
本指南提供引流搭建的实用步骤,助你打造高效流量入口。涵盖选择、优化内容、利用SEO策略、社交媒体推广等多方面技巧,确保吸引目标用户,提升流量率。方向精炼架构搜索引擎优化(SEO)策略社交媒体营销推广邮件营销策略数据驱动分析与持续
搭建专业从零开始攻略
从零搭建专业,首先选择合适的建设,如WordPress,购买域名和主机。安装并配置,设计布局,添加内容,优化SEO,最后进行与。整个过程中需关注用户体验和搜索引擎优化,确保既美观又实用。挑选理想的主机购置主机配置主机提升性能与更新在数
微信视频号平台广告投放怎么做
微信视频号平台广告投放怎么做创意的力量无处不在,而微信视频号平台正是展示和传播创意的juejia平台。作为广州博辉网络技术有限公司,我们专注于今日头条巨量引擎、快手磁力智投和磁力金牛、小红书、广点通以及视频号等等信息流广告投放开
又双叒叕拿奖!移动云闪耀2024全球数字经济大会
近日,由全球数字经济大会组委会主办,中国信息通信研究院(以下简称“中国信通院”)、中国通信企业协会承办的2024全球数字经济大会云·AI·计算国际合作论坛在京召开,大会全面围绕产业发展、关键技术、最佳实践等展开交流讨论,为全球数
磁力搜索是什么?有什么作用?
磁力搜索一词在网络上经常被一些用户提及,那么你知磁力搜索是什么吗?磁力搜索有什么作用?磁力搜索引擎有哪些?如果上述问题不了解的话,下面是关于磁力搜索的详细知识介绍。1、什么是磁力搜索?说磁力搜索,首先得说磁力链接。磁力链接是一
自动化测试中的深度学习技术
自动化测试是软件开发过程中不可或缺的一部分,它可以有效地减少人工测试的工作量,提高软件测试的效率和准确性。随着数据量的增加,传统的自动化测试方法已经不能满足当前的需求,因此,深度学习技术在自动
网赚站SEO优化教程,适用于任何类型的网赚站(内含视频)
我们都知道网赚博客非常的赚钱,随便一条广告位就是上千,好点的网赚博客一条卖到2、3千,花花统计大概一个网赚博客,首页+内容页+对联,能挂近30个广告位,一条广告你卖1000元,便宜的你卖500元,30个广告位全部租完,你怎么也得卖2万吧,
如何将多个WordPress网站连接在一起(3种方式)
是否要将两个或多个WordPress网站连接在一起?拥有多个网站对您的企业来说是一项优势,因为您可以轻松地为不同的客户细分产品和服务,并确保您的主网站的安全。然而,将每个站点连接起来并使它们协同工作可能是一件棘手的事情。在本文中,
相关文章
推荐文章
发表评论
0评