分享好友 最新动态首页 最新动态分类 切换频道
生成式AI第一章 多媒体生成入门
2024-12-26 09:52

生成式模型在近年来广泛流行。在阅读本文时,读者很可能已经在与生成模型进行过互动。或许是使用ChatGPT生成文本,或许是在Instagram等应用中使用风格转换,亦或是看过那些引发热议的深度伪造视频。这些都是生成式模型的实际应用!

在系列文章中,我们将探索生成式模型的世界,从两大生成模型阵营——transformers和扩散模型(diffusion)的基础开始,逐步深入到更高级的话题。我们将介绍不同类型的生成模型,它们的原理,以及如何使用。我们还将探讨生成式模型的伦理和社会影响以及它们在现实世界中的应用。本文中,我们会回顾一下走到今天这一步的历程,并了解一些模型所提供的功能,这些功能我们在后续会进行更深入的探讨。

那么,什么是生成式模型呢?从顶层来讲,它的基本思想是向模型提供数据进行训练,以便未来能生成与训练数据相似的新数据。例如,如果我用一个包含猫咪图像的数据集来训练模型,那么我可以使用这个模型生成新的猫咪图像,这些图像看起来就像是出自原始数据集。这是一个强大的概念,具有广泛的应用范围,从创建新奇的图像和视频到生成具有特定风格的文本。

在本系列文章中,有许多流行的工具方便我们轻松使用现有的模型。在机器学习的世界中,可以找到能公开访问的在大型数据集上训练的模型,任何人都可以使用这些模型。训练这样的模型通常需要大量的资金和时间,因此能够公开访问这些模型是条捷径。这些预训练模型可以用来生成新数据、对现有数据分类等等。我们甚至可以修改这些模型使用到新的场景中。最知名的开源模型平台之一是Hugging Face,上面有数百万个用于各种机器学习任务的模型(包括图像生成)。

本文相关代码请见GitHub仓库。

我们先以开源库diffusers开始举例。diffusers是一个知名库,提供了对最炙手可热的扩散模型的访问。它是一个强大而简单的工具箱,让我们能够快速加载和训练扩散模型!

通过访问Hugging Face Hub并筛选基于文生图像(text-to-image)的模型,我们可以找到一些最流行的模型,如Stable Diffusion和SDXL。我们将使用Stable Diffusion 1.5版本,这是一种能够生成高质量图像的扩散模型!进入模型页面,可以阅读模型卡片页,这是对于观测性和可重复性至关重要的文档。在这里,我们可以了解关于模型的信息,包括它是如何训练的,预期的使用场景等等。

有了模型(Stable Diffusion)和使用模型的工具(diffusers),就可以生成我们的第一张图像了!在加载模型时,需要将它们发送到具体的硬件设备,如CPU(cpu)、GPU(cuda或cuda:0)或称为Metal的Mac硬件(mps)。以下代码将频繁出现:它会对变量赋值(如果有GPU可用);否则,则使用CPU。

接下来,我们加载Stable Diffusion 1.5。diffusers 提供了名为的高阶封装,非常适合这种情况。不必担心烦杂的参数——重点如下:

  • Stable Diffusion架构有许多模型,因此我们需要指定要使用的模型,本例中使用。
  • 我们需要指定加载模型时使用的精度。精度在之后会深入了解。从宏观上来看,生成模型由许多参数(数百万或数十亿个参数)组成。每个参数都是在训练期间学习到的一个数值,我们可以以不同精度存储这些参数(换句话说,使用更多的位数来存储模型)。较大的精度需要更多的内存和运算,通常也意味着更好的模型。而我们也可以通过来设置较低的精度,使用比默认的更少的内存。

读者可能会希望了解参数。在某些代码库中,你可能会发现具有不同精度的多个检查点。当指定时,我们下载默认模型()并将其转换为。通过指定变体,我们下载一个已经存储为精度的小检查点,下载它只需要一半的带宽和存储空间。检查你要用代码储库,看看是否有多个精度变体!

初次运行此代码时可能会花费一些时间:管道需要下载好几个GB的模型!如若是第二次加载管道,仅在Hugging Face上托管模型的远程库发生变化时,才会重新下载模型。Hugging Face库将模型放在本地缓存中,这样后续加载速度更快。

此时模型已经加载好了,我们可以定义一个提示词(prompt),也即模型将接收的文本输入。然后将提示词传递给模型,根据该文本生成一张图像!

太神奇了!只需几行代码,我们就生成了一张新奇的图像。放松时间到,用不同的提示词生成新图像。可以注意到生成的图像会有不同程度的改进。在后续文章中,我们将探讨如何细颗粒度地控制生成过程,以及最新的具有更好生成能力的一些模型。

  • 第四章和第五章深入探讨扩散模型背后的所有组件,以及如何用文本生成新的图像。在此之前,第三章介绍了一些方法,如自动编码器(autoencoders),这些方法可以从输入数据中学习有效标记,减少构建扩散模型及其他生成模型的算力需求。
  • 在第七章中,我们将学习如何向Stable Diffusion传授新概念。例如,我们可以教Stable Diffusion“”这个概念,在场景中生成作者狗狗的图像,如“狗狗登上月球”。
  • 第八章展示了扩散模型不仅可用于图像生成,还可以通过提示词编辑图像或填充图像的空白部分。

正如diffusers是一个非常便捷的扩散模型库,大名鼎鼎的transformers库在运行基于转换器的模型和适应新用例方面也极具价值。它为广泛的任务提供了标准化接口,例如生成文本、检测图像中的对象以及将音频文件转录为文本。

transformers库提供了不同层次的抽象。例如,如果不关心内部细节,最简单的方法是使用,它抽象了获取预测所需的所有处理过程。我们可以通过调用函数并指定我们想要解决的任务(如文本分类)来实例化一个管道。

模型正确地预测了输入文本中的情感是正向的。默认,文本分类管道使用的是一个情感分析模型,但我们也可以指定其他基于transformers的文本分类模型。

同样,我们可以将任务切换为文本生成(),通过它我们可以通过输入提示词生成新的文本。默认管道使用GPT-2模型。

虽然按照今天的标准,GPT-2算不上好模型,但它为我们提供了一个使用小模型初步了解transformers生成能力的机会。我们学习到的关于GPT-2的概念适用于诸如Llama或Mistral等一些(在撰写本文时)最强大的开源模型。在整个系列中,我们会平衡模型的质量和大小。通常,较大的模型会有更高质量的生成。同时,我们希望拥有消费级电脑或可以访问免费服务的人能够通过运行代码来做新的生成。

  • 第二章讲解transformer模型的工作原理。我们将深入探讨不同类型的变压器模型,以及如何使用它们生成文本。
  • 第五章介绍如何使用自有数据继续训练transformer模型以适应不同的用例。这样我们能够制作出类似于ChatGPT或Bard中的对话模型。我们还会讨论高效的训练方法,以便能在自己的电脑上进行训练!

生成式模型不仅限于图像和文本,还可以生成视频、短歌、合成语音、蛋白质结构提案等!

第九章深入探讨可以通过机器学习解决的音频相关任务,例如转录会议内容和生成音效!当前,我们可以使用我们熟悉的transformers管道,并使用由Meta发布的MusicGen小版本模型,根据文本生成音乐。

注:本地运行MusicGen要求

最新文章
目前最好的播州区小孩主持暑期培训班学费一年多少钱_十大top排行榜
目前最好的播州区小孩主持暑期培训班学费一年多少钱_十大top排行榜播州区暑期小孩主持班学费各异,Top10榜单价格不等,家长可细选性价比高课程。  播州区小孩主持暑期培训班十大排名汇总?小主持人相较于舞蹈,美术,没有那么多,且花费也
新手如何挖掘第一个漏洞?零基础入门到精通,收藏这一篇就够了
前言 挖掘漏洞是信息安全领域的核心技能之一,对于新手来说,理解如何发现和利用漏洞是一个至关重要的学习过程。本文将通过一个具体的案例,带你一步步学习如何挖掘并利用漏洞。我们将以 Apache ActiveMQ 的漏洞为例
vivo Y300引领音频革命,打造耐用长续航国民手机
vivo Y系列一直致力于让更多用户享受到优秀的设计与质感。vivo Y300在外观设计上融入了高奢腕表元素,将卓越工艺与优雅设计巧妙融合,打造出精致非凡的“精工奢表”镜组,在镜组外圈上,巧妙点缀了666个巴黎钉纹,带来独特的光影效果与绝妙
seo推广关键词有哪些(SEO推广关键词有哪些)
SEO(Search Engine Optimization)即搜索引擎优化,是一种通过优化网站内容和结构,提高其在搜索引擎结果页面排名的技术。在SEO推广中,关键词的选择和使用是至关重要的一环。合理选择和布局关键词,能够有效提升网站的曝光率和流量。那么
新澳精准资料网站,资料提供、长效释义与解释落实的全方位指南
在当今信息化社会,数据的获取与分享对于个人、企业乃至国家的发展至关重要,新澳精准资料免费提供网站作为一个致力于提供高质量信息的平台,扮演着日益重要的角色,本文将围绕这一关键词,探讨其背后的意义、解释以及如何将其落到实处,以
高效SEO策略,构建搜索引擎优化高效路径
SEO前策略是构建高效搜索引擎优化之路的关键。它涉及深入理解搜索引擎算法,合理规划网站结构,优化关键词布局,提高内容质量和用户体验。通过这些策略,网站可以提升在搜索引擎中的排名,吸引更多潜在访客,从而增强在线可见性和业务率。
图片免费转pdf的软件有哪些 pdf格式转化工具大全
最近很多小伙伴在咨询图片免费转pdf的软件有哪些的问题,大家在日常的工作或者是生活中或许也遇到过需要将图片或者是手上纸质版的文档转化为电子版PDF的情况,从前我们需要购置扫描仪连接电脑才可以完成,现在通过一些手机软件就能够轻松实
迪安诊断:12月10日融券净卖出7000股,连续3日累计净卖出1.43万股
证券之星消息,12月10日,迪安诊断(300244)融资买入3499.99万元,融资偿还2485.77万元,融资净买入1014.22万元,融资余额3.81亿元,近20个交易日中有12个交易日出现融资净买入。融券方面,当日融券卖出1.04万股,融券偿还3400.0股,融券
有这15款工具合集网站让你秒变行业达人
今天分享15款工具合集网站,每个网站功能都很强大。不管你从事哪个行业,都能找到一款适合你的工具合集网站。分享只是一种习惯,认识你才是我真实的目的。1.MikuTools - 工具集合官网首页:https://miku.tools/2.在线工具网站首页:https:/
香香腐宅最新版下载
《香香腐宅最新版》是一款漫画很齐全的看漫画神器!这款软件有着各类漫画的排行榜,用户们可根据自身喜好来进行了解漫画,当然也可以选择搜索漫画的关键字来进行阅读,且平台还设定了保存和定位功能,这样下次欣赏漫画也能轻松找到上次的阅
相关文章
推荐文章
发表评论
0评