分享好友 最新动态首页 最新动态分类 切换频道
2500字长文|设计师视角解释AI绘画底层原理
2024-12-27 04:44

hello,大家好,我是想象。

今天给大家带来的分享是如何通过设计师视角,用设计师语言帮助大家快速理解AI绘画的底层逻辑。

作为一名设计师,我也在很长一段时间不清楚AI绘画到底是怎么出图的,如果没有了解本质,只是了解大概,不理解里面各个参数后面的原理,那么之后面临的最直接的一个问题是不知道怎么微调模型,只能照着人家的教程1:1模仿,就无法进行原创,更别谈通过实际业务来搭建属于自己的模型和comfyui工作流了。

知其然,不知其所以然是不可取的,这就是“知识”和“懂”的区别,所以这篇文章就让我们一起解决下“根”的问题。我将以设计师的语言尽我所能帮助大家理解AI绘画出图原理。

为了搞明白其中的原理,我咨询了前端工程师,后端工程师,算法工程师,产品经理、运营人员等,最后终于明白了七七八八,感谢他们的倾囊相授。

我不能保证大家能理解很全面,但是我能保证大家看完后,对AI绘画有一个比较整体的理解。

首先,有三个基本的问题需要先解决下

  1. 什么是AIGC

  2. 什么是stable diffusion

  3. 什么是comfyui

1.什么是AIGC

AIGC的全名叫做(Artificial Intelligence Generated Content:生成式人工智能,通过机器学习,AIGC能根据自己学习到的内容,主动创作出新的类似的内容,我们可以理解为“好学”。那么AIGC能学习什么,又能生成什么呢

从目前的主流产品来看,AIGC能生成内容大致有:文本、代码、图片、视频和音频。

2.什么是Stable Diffusion

Stable Diffusion(稳定扩散)是AIGC中生成图片的一款工具,称之为图片生成类AI大模型,它的主要工作是根据文本的描述产生详细图像。我们可以理解为这款工具就是生成图片的,也是设计师最需要的工具,能解决的一个最直接的问题是,设计素材不用上网到处找了,自己给自己造一个就完事儿了。

下面这张图就是stable diffusion生成图片的全过程,其实就是从模糊变清晰的过程,这里面的原理我会在后面细讲。

他有一个竞对,叫做Midjourney,是图片类AIGC应用程序,虽然做的东西一样,但是呈现方式和解决路径不同,针对的用户群体也不同,sd(Stable Diffusion)相较于Mj(Midjourney,可控性更强,功能更丰富,定制化也更强,而且是开源的。当然mj也有自己的优势,比如操作简单,好理解,sd的上手难度比mj会高很多。

3.什么是ComfyUI

因为stable diffusion是个大模型,就需要一个界面来承载模型,方便用户使用,这个界面就叫做Comfyui,从本质上讲,ComfyUI是构建在Stable Diffusion之上的基于节点的图形用户界面(GUI),而Stable Diffusion是一种最先进的深度学习模型,可以根据文本描述生成图像。

comfyui既然是GUI图形界面,那么就肯定会有产品界面的优化,所以优化之前的界面有个很熟悉的名字叫做webui,因此,得出结论,webui和comfyui其实是一个东西,只是展现方式不同,一个是页面操作,一个是节点操作。在上手难度上看,webui更容易理解,但出图的速度,comfyui更快捷,而且comfyui可以直接复用别人的工作流,喜欢用哪个,大家可以自己决定。

总结

总结下这些关系,就是如果你想用AIGC生成图像,你现在有三款软件可以用,分布是webui、comfyui和midjourney,如图,至于用哪个,我会在下一期做更为详细的说明。如果简单区别,就是mj很难控制相同的角色,比如绘制漫画,很难做到人物统一,元素保持一致,这时候就需要用到sd,他能实现线稿上色,2D转3D,图片换风格,做到人物元素保持完全一致,即:精细可控。

OK,到这里,基本已经简单阐述了AIGC的基本概念,下面就是本章的重点内容,AI是怎么画画的?解决这个问题,其实本质是理解AI绘画是怎么自己思考的。要明白AI绘图的底层问题,其实很简单,只要我们理解了人是怎么学会画画的。

我们要先解决以下2个点

  1. 人是怎么识别图片的

  2. AI是怎么识别图片的

这里,请问,披着狼皮的羊,是狼还是羊

答案是在人类看来,是狼,但是,AI会觉得是羊,为什么会出现两者皆然不同的答案,是因为人类看的是形状,AI看的是纹理。

人类会关注图片中的对象的形状,这是通过经验来获得的,看下图

AI是怎么识别图片的

AI研究的是图片中对象的纹路。我把它解释成“RGB色块的像素分布规律”,AI先把图片通过“加噪点”的方式将图片一点点扩散,类似photoshop中的添加杂色。这个过程叫做正向扩散。

之后,提取每个小色块的RGB,这样就把一张图片变成了由一堆像素数据组成的排列组合,再通过一个标签(tag)来定义这一组像素数据,告诉AI,basketabll的像素是这种分布规律,足球football的像素是那种分布规律,AI就会记住每一张图片的像素分布规律特征。

当几千几万个同类物体都被AI识别之后,AI就会知道这类物体的像素分布特征,这个时候,再给AI识别一张类似的图片,AI就是根据该图片的特征和之前存储的特征进行比对判断,最后给出结果。这里用到了两个很重要的技术:人工神经网络和深度学习,鉴于超纲,我们知道即可。

人工神经网络,就是类似于人类中大脑的神经元,它可以将相关的知识进行连接,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。所以,上面的篮球在深度学习之后就会变成一个类似“神经元”的东西存在系统里。这里的神经元会通过一个数字来表达。

好了,这个时候,当你跟AI说,帮我画一张篮球的照片,AI就会在已经学习的几百上千张篮球图片中去找特征,然后得到一张类似的像素分布图。本质就是模仿。

仔细想想,这其实非常类似人类绘画、书法的过程,拿书法举例,一开始我们不停地临摹大师的书法,当临摹的次数愈来越多,技能也就越来越熟练,慢慢就会有形成自己的风格,这种风格独一无二,跟谁都不一样,但是是从不断学习“大书法家”的字体中习得到的,学到的不是“形”,而是“神”,也就是行话里面的“神韵”。所以每一位大书法家都会说我的字是“取法”于王羲之,柳公权或者是魏碑。

AI绘画也是如此,它学到的是每一个字,每一个笔画的“规律”,然后根据这个规律,“模仿”出类似的效果。

ok,到这里相信大家已经对AI绘画的原理有个基本的认识,还差最后一步,AI是怎么把像素分布的一堆数字变成一张图片的,这里用到的技术是“反向扩散”。在AI识图的时候,是先把图片“正向扩散”成像素分布,最终出图的时候,就是把这个过程倒着推导一遍,可以给大家举个类似的画面,就是沙画。

diffusion model 扩散原理比喻

如果大家对这个感兴趣,可以推荐大家去stable diffusion 官网做深度了解

https://stability.ai/

今天的分享就写到这里,感谢大家。从这一章中,我们主要了解到

  • AIGC的定义:生成式人工智能

  • stable diffusion和midjourney的区别:控图效果不一样

  • AI识图的底层逻辑:提取像素分布规律

  • 人工神经网络和深度学习:对函数进行近似估算

  • AI绘图的底层逻辑:扩散原理

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程,模型插件,具体看下方。

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

工具都帮大家整理好了,安装就可直接上手

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

最新文章
谷歌呼吁美国政府拆分微软与OpenAI的独家云服务协议
据《信息》杂志周二报道,谷歌已要求美国政府拆分微软与OpenAI独家云服务协议,该协议将OpenAI的技术托管在微软的云服务器上。报道称,此次对话发生在美国联邦贸易委员会(FTC)就更广泛的调查向谷歌询问微软商业行为之后。一位直接参与讨
高清美女写真生成工具大测评!来看看最值得推荐的AI绘图神器吧!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个人人追求个性的时代,传统的摄影逐渐让位于高科技的AI工具。有人问,"我也想生成一张超
新奥长期免费资料大全|经典解释落实
  在当代社会,获取知识变得越来越便捷,新奥长期免费资料大全就是这样一个平台,它致力于向公众提供丰富的学习资源,包括但不限于经典文献、研究报告、学术论文等,覆盖各个学科领域。本文将以“新奥长期免费资料大全 | 经典解释落实”
论文ai写作网站有哪些 论文ai写作网站一览
论文ai写作网站有哪些,AI写作网站是一个能够帮助用户更高效地进行创作和写作的工具。用户只需提供一些关键信息,AI就可以自动生成文章的内容,从而大大提升了创作的效率。这对于有时间压力或者灵感不足的用户来说,是一个非常有用的辅助工
梦幻西游最强的宝宝没有之一,神马浮云在它面前都是垃圾
梦幻西游中召唤兽跟随号主南征北战,为自己的武神之战付出汗马功劳,也获得了丰功伟绩;今天咱们就说一说梦幻西游中最强悍而且已经是绝版的召唤兽,绝对是站在武神坛顶端的宝宝了,价值肯定超过最少两百万,神马浮云在它面前就是垃圾,咱们
谷歌adsense广告怎么赚钱?英文网站通过google广告盈利赚美金
想赚美金,又不想太累?那就来做英文内容网站去挂谷歌ADSENSE广告来赚钱吧。如何去做一个高级的英文内容网站,并把它当做一个资产去沉淀和积累,获取大流量后稳稳收益?依内容营销为指导,把网站上每一项内容都做成可以长期沉淀的资产,帮
蚂蚁庄园答案合集(蚂蚁庄园答案大全集结,轻松解锁庄园秘籍)
随着移动互联网的普及,各类手机应用层出不穷。其中,蚂蚁庄园作为一款集娱乐、知识于一体的游戏应用,深受广大用户的喜爱。蚂蚁庄园答案合集(《蚂蚁庄园答案大全集结,轻松解锁庄园秘籍》)正是为了满足用户在庄园游戏中遇到的各种问题而
骛与鹜的区别
描写黄山天都峰的诗句:1、孤峰突兀现青虚,喜若羁人望故都。神马已驰身尚远,却疑真有二文殊。——李弥逊《次韵公显宫教实见天都峰》2、奇险天都著,遥观亦有缘。大雄无与并,苍浑莫之先。倏忽阴晴异,逡巡起伏迁。云腾致雨气,水泻在山泉
最新款手机排行榜前十名(2023年畅销机型排名)
2023年最新款手机排行榜前十名在2023年的手机市场中,各种品牌的新机型层出不穷,竞争激烈,以下是基于销售数据和用户评价,我们列出的2023年最新款手机排行榜前十名:1. iPhone 14 Pro处理器:A16芯片屏幕:6.1英寸 Super Retina XDR 显示
首个机器人与AI共建平台落地亦庄,引爆智能制造新机遇
在科技界,机器人和人工智能的结合被视为未来工业的曙光,而现在,这一曙光似乎正照耀着北京亦庄。12月9日,北京京东数智工业科技有限公司(简称“京东工业”)与科大讯飞股份有限公司(简称“科大讯飞”)在亦庄签署了一项颇具里程碑意义
相关文章
推荐文章
发表评论
0评