人工智能生产内容AIGC(AI-GeneratedContent)最基本的能力是生成内容,包括文本、图像、视频、代码或者几种媒介类型转换形成的“多模态内容”。传统AI侧重于根据已有内容的分析能力,现在的AI(特别是AIGC)基于训练数据和生成算法模型可以自主生成各种形式的内容和数据。生成算法、预训练深度模型、多模态等AI技术的创新和融合催生了AIGC的大爆发。2022年,Stable Diffusion、DALL-E 2等通过文字生成图片的AIGC模型风行一时;ChatGPT能够回答问题、生成代码、构思剧本和小说,将人机对话推向新高度。具体而言,ChatGPT能理解并生成文字,属于AIGC技术应用中的文本生成应用模型。
ChatGPT是一款由美国OpenAI公司于2022年11月发布的自然语言处理人机交互应用,是迄今为止人工智能领域最成功的产品和历史上用户增长速度最快的应用程序。ChatGPT是“ChatGenerative Pre-trained Transformer”的缩写,Chat是聊天的意思,GPT是生成式预训练语言模型。ChatGPT其实就是基于GPT-3.5神经网络架构,然后利用人工微调升级的一个新语言模型。它拥有接近人类水平的语言理解和文本生成能力,尤其是它会通过连接包含真实世界中的对话等大量的语料库来训练模型,还能根据聊天的上下文进行互动,真正像人类一样聊天交流。ChatGPT不单是聊天机器人,还能完成写邮件、编辑视频脚本、设计文案、翻译文本、开发代码等文本生成式任务。
ChatGPT的出现标志着强人工智能的来临,是里程碑式的技术进步,将引发新一轮人工智能热潮。毋庸置疑,ChatGPT的发展也应归功于人工智能的三要素——数据、算法和算力,更是依赖大数据、大模型、大算力而发展起来的。
数据:ChatGPT的数据集可分为六类,分别是维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。其中,Reddit链接是指从社交媒体平台Reddit所有出站链接网络中抓取的数据,代表了流行内容的风向标;Common Crawl是2008年至今的一个网站抓取的大型数据集,包含来自不同语言、不同领域的原始网页、元数据和文本提取;其他数据集由GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集组成。根据2020年OpenAI发布的关于GPT-3模型论文,所用的主要训练数据集大小为753GB,包含4990亿Token(一个Token指的是响应请求所需的最小文本单位)。
算法:ChatGPT的卓越表现得益于其背后多项核心算法的支持和配合,包括作为其实现基础的Transformer语言模型、激发出其蕴含知识的提示学习和指令精调Prompt/Instruction Tuning算法、其涌现出的思维链能力COT、以及确保其与人类意图对齐的基于人类反馈的强化学习算法RLHF。其中,最基础的模型是基于Transformer的预训练语言模型GPT,Transformer是一种基于自注意力机制的深度神经网络模型,可以高效并行地处理序列数据。原始的Transformer模型包含编码器和解码器两个关键组件。编码器用于将输入序列映射到一组中间表示,解码器则将中间表示转换为目标序列。编码器和解码器都由多层的注意力模块和前馈神经网络模块组成。其中自注意力模块可以学习序列中不同位置之间的依赖关系,即在处理每个位置的信息时,模型会考虑序列中其他所有位置上的信息。GPT系列模型GPT-3最显著的特点就是大,一方面是模型规模大,参数多,达到1750亿个参数;另一方面是训练过程中使用到的数据集规模大,达到45TB。在这样的模型规模与数据量下,GPT-3在多个任务上均展现出了非常优异的性能。