深入探索RAG模型：从基础到微调实践

日期：2024-12-25 作者：5781v 移动：http://ljhr2012.riyuangf.com/mobile/quote/17155.html

在上文中，我们了解到大模型在广泛应用中，会伴随着出现一些问题，所以出现了RAG，解决大模型问题的另一种途径就是Fine-Tune。

微调（Fine-Tune），简单来说就是在较小的特定数据集上对其进行进一步训练的过程。

既然出现了2种以上的解决方案，那在我们大模型的应用过程中，就会伴随着一个问题出现：

当开箱即用的预训练LLM没有按预期或希望执行时，如何提高LLM应用的性能的问题。最终我们会问自己：我们应该使用检索增强生成（RAG）还是模型微调来改善结果？

RAG的概念我们在上一篇中已经深入介绍过了，我们再来简单了解下Fine-Tune：

Fine-Tuning (微调) 是机器学习和 NLP 领域的一个核心概念，指的是在一个已经预训练好的模型基础上进行微调，使其更好地适应特定任务或数据集的过程。这种方法在大语言模型中十分常见，因为它允许开发者利用在大量数据上预训练的模型 (如BERT、GPT等) 的通用知识，通过在特定任务的较小数据集上进行进一步训练，来快速提高模型在这个任务上的性能。通过微调，可以根据我们的数据调整模型的权重，使其更适合我们应用程序的独特需求。

从基本的架构流程上我们来对比一下

合理的选择

根据RAG和Fine-Tune各自的特性，我们需要作出合理的选择，也正是因为两者有各自的特性：RAG和微调之间的细微差别涵盖了模型架构、数据需求、计算复杂性等方面，所以我们不同的选择，在项目的最终结果上也会产生巨大的差别：

在特定任务的场景中，由于模型性能不佳，导致输出结果与理想结果相去甚远。
如果使用的技术没有对使用情况进行针对性优化，模型训练和推断的计算成本会大幅增加。
如果后续转向不同的技术，需要额外的开发和迭代时间。
如果选择过于复杂的适应方法，模型的可解释性会受到影响。
由于大小或计算约束，将模型部署到生产环境中存在困难。

参考指标

关键因素评价

在进行方案选型之前，我们可以先结合实际项目和需求情况，从如下6个角度进行思考评估：

1. 用例需要访问外部数据源吗？

面对一个大模型在判断选择微调还是使用 RAG 时，一个关键考虑因素是应用程序是否需要访问外部数据源。如果答案是肯定的，那么 RAG 可能是更好的选择。

RAG 旨在通过从知识来源检索相关信息，然后生成响应来增强大模型的能力。这使得这种技术非常适用于需要查询数据库、文档或其他结构化和非结构化数据存储库的应用程序。检索器和生成器组件可以优化以利用这些外部来源。

相比之下，虽然可以对大模型进行微调以学习一些外部知识，但这需要一个大型的标记数据集，其中包含来自目标领域的问答对。随着基础数据的变化，这个数据集必须进行更新，这使得它在数据源频繁变化的情况下变得不切实际，微调过程也没有明确地对涉及查询外部知识的检索和推理步骤进行建模。

因此，如果应用程序需要利用外部数据源，使用RAG 技术可能比仅仅通过微调来“内置”所需的知识更有效和可扩展。

2. 需要修改模型的行为、写作风格或领域特定知识吗？

另一个非常重要的考虑因素是需要模型调整其行为、写作风格或为特定领域的应用量身定制回答的程度。微调在使大模型适应特定细微差别、语调或术语方面表现出色，如果希望模型听起来更像金融专业人士，或者以鲁迅风格写作，或者使用特定行业的专用术语进行表达，那么在这些数据基础上进行定制可以实现更好的效果，影响模型行为的能力对于需要与特定风格或领域专业知识保持一致的应用程序至关重要。

RAG 技术虽然在整合外部知识方面很强大，但主要专注于信息检索，并不会根据检索到的信息固有地调整其语言风格或领域特定性。它会从外部数据源中提取相关内容，但可能不会展现出经过精细调整的模型所能提供的定制细微差别或领域专业知识。

因此，如果应用程序需要专业的写作风格或与特定领域的术语和惯例深度契合，微调提供了更直接的实现途径。它通过定制化确保与特定受众或专业领域真正共鸣，确保生成内容的真实感。

3. 对于 “幻觉” 的容忍程度如何？

大模型的一个缺点是在使用过程中产生不可控的 “幻觉”，即编造没有现实基础的事实或细节。在精确性和真实性至关重要的应用场景中，这可能会带来比较严重的问题。

微调可以通过将模型基于特定领域的训练数据来一定程度上减少幻觉。然而，当面对不熟悉的输入时，模型仍可能会制造虚假的回应。需要重新训练以持续减少幻觉回复。

相比之下，RAG 由其特性决定天生更不容易产生幻觉，因为相关回答会基于检索到的依据。检索器在生成器构建答案之前从外部知识源中识别相关事实。这一检索步骤充当事实核查机制，降低了大模型产生虚构内容的可能，生成器会一定程度受限于合成受检索上下文支持的回应。

因此，在面对幻觉限制严格的应用场景中，RAG 系统提供了内置机制来最小化幻觉。

4. 可供使用的标记后训练数据有多少？

在选择 RAG 和微调之间时，还需要考虑手头拥有的领域或任务特定的标记训练数据的数量。

对大模型进行微调时，严重依赖于可用的标记数据的质量和数量。丰富的数据集可以帮助模型深入理解特定领域的内涵、复杂性和独特模式，从而使其能够生成更准确和与上下文相关的响应。然而，如果使用的是有限的数据集，微调可能带来的改进可能是微不足道的。在某些情况下，内容有限的数据集甚至可能导致过拟合，即模型在训练数据上表现良好，但丧失了原本具有的通用能力。

相反，RAG 与训练数据无关，因为利用的是外部知识源来检索相关信息。即使没有大量标记的数据集，RAG 仍然可以通过访问和整合来自外部数据源的见解来展现出色表现。检索和生成的结合确保系统保持了解，即使场景特定的训练数据很少。

在实际中，如果拥有大量从场景获取到的复杂性标记数据，微调可以提供更贴合和精细的模型行为。但在数据有限的情况下，RAG 提供了一个强大的替代方案，通过其检索能力确保应用程序保持数据驱动和上下文语境。

5. 数据是静态的还是动态的？

在选择 RAG 和微调之间时，还有一个需要考虑的基础方面是数据的动态性，数据更新频率如何，模型保持最新状态有多重要？

在特定数据集上微调模型意味着模型的知识范围变成了训练时数据的静态快照。如果数据经常更新、改变或扩展，很快就会使模型过时。为了在这样动态的环境中保持模型的时效性，就需要经常重新训练它，这个过程可能既耗时又资源密集。此外每次迭代都需要详细测试，以确保更新后的模型在不同场景下仍然表现良好，并且没有产生新的偏见或理解上的偏差。

比较而言，RAG 在动态数据环境中具有优势。它的检索机制不断查询外部来源，确保生成响应所使用的信息是最新的。随着外部知识库或数据库的更新，RAG 可以无缝集成这些变化，保持其相关性，而无需频繁重新训练模型。

如果当前正在应对快速发展的数据格局，RAG 提供了一种传统微调很难实现的灵活性。通过始终与最新数据保持连接，RAG 确保生成的响应与当前信息状态保持一致，使其成为动态数据场景的理想选择。

6. 对大模型在应用过程中的可解释性要求如何？

大模型虽然能力强大，但操作方式类似黑匣子，其响应背后的推理决策难以理解。仅着眼于模型内部吸收数据集的信息，很难确定每个响应的确切来源或推理过程。这可能会让开发人员或用户难以信任模型的输出，特别是在理解答案背后的“为什么”至关重要的关键应用中。

另一方面，RAG 系统提供了一定程度的透明度，这种透明度通常不会出现在微调后的模型中。考虑到 RAG 的两步性质 “先检索后生成” ，用户可以窥视这个过程。检索组件允许检查选择哪些外部文档或数据点相关。这提供了一系列有形的证据或参考资料，可以对其进行评估，从而理解构建回应的基础。在需要高度可靠性的应用程序中，或者在需要验证生成内容的准确性时，追溯模型对特定数据源的回答的能力是非常宝贵的。

如果透明度和解释模型响应基础是优先考虑的话，RAG 提供了明显的优势。通过将响应生成分解为不同阶段，并允许洞察其数据检索，RAG 促进了对其输出的更大信任和理解。

正如我们所探讨的，在 RAG 和微调之间进行选择需要对 LLM 申请的独特需求和优先级进行细致的评估。没有一种万能的解决方案；成功在于使优化方法与任务的具体要求保持一致。通过评估关键标准（对外部数据的需求、调整模型行为、训练数据可用性、数据动态、结果透明度等），组织可以就最佳前进路径做出明智的决策。在某些情况下，同时利用 RAG 和微调的混合方法可能是最佳选择。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以

点击下方链接免费领取

或者

V扫描下方二维码免费领取

🆓

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【

】

😝有需要的小伙伴，可以

点击下方链接免费领取

或者

V扫描下方二维码免费领取

🆓

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行