从海量信息中脱颖而出：Workflow智能分析解决方案，大语言模型为AI科技文章打造精准摘要评分体系(总篇章)...

从海量信息中脱颖而出：Workflow智能分析解决方案，大语言模型为AI科技文章打造精准摘要评分体系(总篇章)...

2024-12-26 11:26

该项目整合了编程、AI、产品设计、商业科技及个人成长等多领域的精华内容，源自顶尖技术企业和社群。借助先进语言模型技术，对精选文章进行高效摘要、专业评分及多语种翻译，实现了从初步评估到深入剖析，再到传播的全面自动化流程。通过引入Workflow平台，该项目显著提升了内容处理的速度与质量，为读者带来更加便捷、精准且多元化的阅读体验，满足了不同背景与需求的学习者及专业人士的信息渴求。

其主要原理是通过 RSS 订阅和爬虫，收集来自各个领域的优质博客文章，并通过大语言模型进行筛选和评估，以提高内容的质量和效率。其核心特性包括：

精准核心摘要，高效信息获取：采用前沿的大语言模型技术，精准提炼每篇文章的核心精髓，使读者即便在忙碌中也能迅速抓住关键信息，提升阅读效率与质量。
智能多维度评分，优质内容甄选：严格筛选文章来源，依托大语言模型的强大能力，从内容深度、写作质量、实用价值及关联性等多个维度进行综合评价，确保为读者推荐的都是经过精心挑选的优质内容。
无缝多语言翻译，全球知识共享：借助行业领先的翻译解决方案，旨在打破语言壁垒，让开发者都能轻松跨越语言障碍，自由访问并吸收世界各地宝贵的专业知识与见解，促进全球知识的无缝交流与共享。

Workflow优势

原方案采用了一揽子大而全的提示词策略来处理文章的摘要、标签生成、评分及翻译，然而，这种综合性方法带来了多重挑战，包括摘要遗漏关键信息、标签不统一、评分机制调整复杂、翻译结果生硬，以及运维过程中的修改、测试与部署效率低下。原网站采用了一揽子大而全的提示词策略来处理文章的摘要、标签生成、评分及翻译，然而，这种综合性方法带来了多重挑战，包括摘要遗漏关键信息、标签不统一、评分机制调整复杂、翻译结果生硬，以及运维过程中的修改、测试与部署效率低下。

参考文章： RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

在选择AI应用开发平台时，了解不同平台的功能、社区支持以及部署便捷性是非常重要的。在选择AI应用开发平台时，了解不同平台的功能、社区支持以及部署便捷性是非常重要的。

优势
- ：提供了多种大模型接入方式，支持多种API接口，使得开发者可以根据需求灵活选择和切换模型，这对于需要高性能模型的应用场景尤为重要。
- ：Chat功能不仅支持多轮对话，还能通过智能推荐和上下文理解提升用户体验，适用于需要复杂交互的场景。
- ：内置了知识库管理系统，支持多种数据格式的导入和导出，便于用户管理和利用知识资源。
- ：Workflow设计简洁直观，支持拖拽式操作，使得非技术人员也能快速上手，大大降低了使用门槛。
- ：提供的Prompt IDE工具，让开发者可以更直观地调试和优化提示词，提升了开发效率。
劣势
- ：虽然界面设计较为友好，但对于初学者来说，仍需要一定时间来熟悉其工作流程和功能。
- ：相较于一些成熟的开发平台，社区活跃度和资源丰富度还有待提升，这可能会影响到开发者在遇到问题时的解决速度。
- ：虽然Dify提供了丰富的功能，但在某些高度定制化的需求上，可能还需要进一步的开发和调整。

优势
- ：Agent智能体功能强大，能够自动执行复杂任务，减少了人工干预的需求，适用于需要自动化处理大量任务的场景。
- ：提供了LLMOps支持，使得开发者可以更方便地进行模型训练、优化和部署，这对于AI模型的持续迭代和优化至关重要。
- ：提供了后端即服务的功能，简化了后端开发流程，使得开发者可以更专注于前端和业务逻辑的开发。
- ：RAG引擎能够高效地处理和检索大量数据，适用于需要快速响应和高吞吐量的应用场景。
劣势
- ：FastGPT的功能较为复杂，对于初学者来说，可能需要较长时间来掌握其使用方法和技巧。
- ：相较于一些轻量级的开发平台，FastGPT的部署过程可能更为复杂，需要一定的技术背景和经验。
- ：虽然FastGPT的功能强大，但其用户界面可能不如一些竞争对手直观和友好，这可能会影响到用户的使用体验。

选择合适的平台首先要明确自己的需求。Dify和FastGPT各有特点，适用于不同的应用场景。

MaxKB/Dify：适合需要快速构建和部署AI应用的开发者，提供了丰富的预设模板和集成工具，使得开发者可以快速上手，尤其适合初学者和需要快速验证想法的团队。
FastGPT/RagFlow：适合需要高度定制化和复杂工作流的企业级用户，提供了强大的RAG引擎和Workflow orchestration，能够处理复杂的业务逻辑和数据处理需求。
在选择平台时，应考虑以下因素：
- 项目规模：如果是小型项目或初创团队，MaxKB/Dify的快速部署和简单易用性可能更适合。如果是大型企业级项目，FastGPT/RagFlow的强大功能和定制化能力更为合适。
- 技术栈：考虑团队现有的技术栈和成员的技术背景。在技术实现上有所不同，选择与团队技术栈匹配的平台可以减少学习成本和开发难度。
- 功能需求：明确项目所需的核心功能，如大模型接入、Chat功能、知识库等。Dify和FastGPT在这些功能上各有优势，根据具体需求进行选择。

社区支持和资源丰富度对于平台的选择也至关重要。

MaxKB/Dify：拥有一个活跃的社区，提供了丰富的文档、教程和示例代码。社区成员经常分享使用心得和解决方案，对于遇到的问题可以快速得到帮助。
FastGPT/RagFlow：社区相对较小，但提供了专业的技术支持团队。对于企业级用户，FastGPT提供了定制化的技术支持和咨询服务，确保项目的顺利进行。
在选择平台时，应考虑以下因素：
- 社区活跃度：活跃的社区意味着更多的资源和更快的解决问题速度。社区活跃度较高，适合需要快速解决问题的开发者。
- 技术支持：对于企业级用户，专业的技术支持至关重要。提供了专业的技术支持，适合对技术支持有较高要求的用户。

部署和使用的便捷性直接影响开发效率和成本。

MaxKB/Dify：提供了简单易用的界面和一键部署功能，使得开发者可以快速将应用部署到云端或本地。文档详细，适合初学者快速上手。
FastGPT/RagFlow：部署相对复杂，需要一定的技术背景和配置。提供了强大的定制化能力，适合对性能和功能有较高要求的用户。
在选择平台时，应考虑以下因素：
- 部署难度：MaxKB/Dify的部署过程简单，适合需要快速部署的开发者。FastGPT/RagFlow的部署相对复杂，但提供了更多的配置选项。
- 使用便捷性：MaxKB/Dify的用户界面友好，操作简单。FastGPT/RagFlow的用户界面相对复杂，但提供了更多的功能和定制化选项。## 7.0 优劣势选择

网站文章来源于以下所有 RSS 订阅源（200个）：

其中微信公众号转 RSS 采用 wewe-rss 项目搭建，目前已支持的微信公众号 RSS 订阅源（200个）整理如下：

具体资料见码源：、文件

更多技术细节参考RSSHUB: https://github.com/DIYgod/RSSHub

wewe-rss： https://github.com/cooderl/wewe-rss
阿里技术

新智元

文章爬取流程：基于 RSS 协议，爬取所有订阅源的文章信息，包括标题、链接、发布时间等，通过链接和无头浏览器爬取全文内容。通过订阅源上定义的正文选择器提取正文，并对正文的 HTML、图片等进行处理，放入待处理文章列表。
文章初评流程：通过语言、文章内容等特征，对文章进行初次评分，剔除低质量文章和营销内容，减少后续步骤处理。
文章分析流程：通过大语言模型对文章进行摘要、分类和评分，生成一句话总结、文章摘要、主要观点、文章金句、所属领域、标签列表和评分等，便于读者快速过滤筛选及了解全文主要内容，判断是否继续阅读。包括 分段分析 - 汇总分析 - 领域划分和标签生成 - 文章评分 - 检查反思 - 优化改进 等节点。
分析结果翻译流程：通过大语言模型对文章分析结果进行翻译，目前网站支持中英两种语言，根据原文语言和目标语言对摘要、主要观点、文章金句、标签列表等进行翻译。包括 识别专业术语 & 初次翻译 - 检查翻译 - 意译 等环节。

流程说明：

为了便于测试和接口调用，本流程设计以网站的文章ID作为输入。通过Workflow内置的HTTP调用节点和代码节点，能够高效地调用网站的API，进而获取到文章的元数据（包括标题、来源、链接、语言等）以及全文内容。
针对中文和英文文章，采用了不同的模型和提示词，这样的设计使得可以更加灵活地调整和优化处理流程，以适应不同语言文章的特点。
在文章初评的LLM节点中，采用了CO-STAR提示词框架来明确上下文、目标、分析步骤以及输入输出格式，并提供了输出示例。完整的提示词设置可以在上述项目地址中查看，以便更好地理解和应用。
网站应用通过调用Dify Workflow开放的API，传入文章ID并获取到文章的初评结果。根据结果中的ignore和value属性，可以判断是否需要继续对文章进行后续处理。

流程说明：

分析流程的输入同样是网站的文章ID。借助Workflow内置的HTTP调用节点和代码节点，我们能够方便地调用网站的API，从而获取到文章的元数据（涵盖标题、来源、链接、语言等信息）以及全文内容。
为了确保不遗漏文章中的任何关键信息，分析流程首先会判断文章的长度。如果文章长度超过6000个字符，我们会进行分段处理；否则，将直接对全文进行分析。
分析的内容输出主要包括一句话总结、文章摘要、关键词、主要观点和精彩语句等，这些元素能够帮助读者快速了解文章的核心内容。
在分析流程中，我们充分利用了Workflow中的分支、迭代、变量聚合等节点，这使得我们能够对流程进行灵活的控制。对于不同的分支处理结果，我们可以使用变量聚合将全文分析的内容整合在一起，便于后续节点的处理。
接下来是领域划分和标签生成节点。我们通过大语言模型对文章内容进行分类，生成文章所属的领域和标签列表。这些标签涵盖了主题、技术、应用领域、产品、公司、平台、名人、趋势等多个方面，有助于后续文章的组织，并增强搜索和推荐功能的效果。
在文章评分节点中，我们利用大语言模型对文章内容进行多维度的评估，包括内容深度、写作质量、实用性、相关性等。这将生成文章的评分，帮助读者快速筛选出优质文章。
随后的检查反思节点要求大语言模型扮演技术文章评审专家的角色。它会对前述的输出进行全面性、准确性、一致性等方面的检查，并输出检查结果和反思内容。
最后是基于检查反思结果的优化改进节点。在这里，大语言模型会分析检查和分析结果，并再次确认输出格式和语言。最终，它将输出优化后的分析结果以及更新原因。
网站应用通过调用Workflow开放的API，传入文章ID并获取并保存文章的分析结果。根据文章的评分，我们可以判断是否需要继续对文章进行后续处理。

流程说明：

翻译流程的输入为网站的文章ID。通过Workflow内置的HTTP调用节点和代码节点，我们可以调用网站的API，获取文章的元数据（包括标题、来源、链接、原文语言、目标语言等），以及全文内容和分析结果。
翻译流程采用了“初次翻译–检查反思–优化改进，注重意译”的三段式模式。这一模式旨在确保翻译更加贴近目标语言的表达习惯，提升翻译的准确性和自然度。

流程说明：

为了便于测试和接口调用，本流程设计以网站的文章ID作为输入。通过Workflow内置的HTTP调用节点和代码节点，能够高效地调用网站的API，进而获取到文章的元数据（包括标题、来源、链接、语言等）以及全文内容。
针对中文和英文文章，采用了不同的模型和提示词，这样的设计使得可以更加灵活地调整和优化处理流程，以适应不同语言文章的特点。
在文章初评的LLM节点中，采用了CO-STAR提示词框架来明确上下文、目标、分析步骤以及输入输出格式，并提供了输出示例。完整的提示词设置可以在上述项目地址中查看，以便更好地理解和应用。
网站应用通过调用Dify Workflow开放的API，传入文章ID并获取到文章的初评结果。根据结果中的ignore和value属性，可以判断是否需要继续对文章进行后续处理。

文章id获取

以下为中文文章初评的提示词，对于英文文章，只是将提示词翻译成英文。

流程说明：

分析流程的输入同样是网站的文章ID。借助Workflow内置的HTTP调用节点和代码节点，我们能够方便地调用网站的API，从而获取到文章的元数据（涵盖标题、来源、链接、语言等信息）以及全文内容。
为了确保不遗漏文章中的任何关键信息，分析流程首先会判断文章的长度。如果文章长度超过6000个字符，我们会进行分段处理；否则，将直接对全文进行分析。
分析的内容输出主要包括一句话总结、文章摘要、关键词、主要观点和精彩语句等，这些元素能够帮助读者快速了解文章的核心内容。
在分析流程中，我们充分利用了Workflow中的分支、迭代、变量聚合等节点，这使得我们能够对流程进行灵活的控制。对于不同的分支处理结果，我们可以使用变量聚合将全文分析的内容整合在一起，便于后续节点的处理。
接下来是领域划分和标签生成节点。我们通过大语言模型对文章内容进行分类，生成文章所属的领域和标签列表。这些标签涵盖了主题、技术、应用领域、产品、公司、平台、名人、趋势等多个方面，有助于后续文章的组织，并增强搜索和推荐功能的效果。
在文章评分节点中，我们利用大语言模型对文章内容进行多维度的评估，包括内容深度、写作质量、实用性、相关性等。这将生成文章的评分，帮助读者快速筛选出优质文章。
随后的检查反思节点要求大语言模型扮演技术文章评审专家的角色。它会对前述的输出进行全面性、准确性、一致性等方面的检查，并输出检查结果和反思内容。
最后是基于检查反思结果的优化改进节点。在这里，大语言模型会分析检查和分析结果，并再次确认输出格式和语言。最终，它将输出优化后的分析结果以及更新原因。
网站应用通过调用Workflow开放的API，传入文章ID并获取并保存文章的分析结果。根据文章的评分，我们可以判断是否需要继续对文章进行后续处理。

运行时间：157.478s，总 token 消耗数：29114 Tokens

批量处理大量文章时，可以在开始节点入参里就直接把你要出来的文章元数据和内容传入，而不是通过 HTTP 接口去获取

由于文章篇幅问题：文章分析流程见：文章分析流程

流程说明：

翻译流程的输入为网站的文章ID。通过Workflow内置的HTTP调用节点和代码节点，我们可以调用网站的API，获取文章的元数据（包括标题、来源、链接、原文语言、目标语言等），以及全文内容和分析结果。
翻译流程采用了“初次翻译–检查反思–优化改进，注重意译”的三段式模式。这一模式旨在确保翻译更加贴近目标语言的表达习惯，提升翻译的准确性和自然度。

由于文章篇幅问题：文章翻译流程见：翻译篇章

原文链接： https://blog.csdn.net/sinat_39620217/article/details/141399014