分享好友 最新动态首页 最新动态分类 切换频道
打破多模态检索的瓶颈,OmniSearch实现智能动态规划!
2024-12-26 15:05



关注公众号,发现CV技术之美




随着多模态大语言模型(MLLM)的广泛应用,模型在理解复杂问题时经常会出现“幻觉”现象,即模型生成的内容与事实不符。多模态检索增强生成(mRAG)技术旨在通过外部知识库的检索来解决这一问题,但现有的mRAG方法多依赖于预定义的检索流程,难以应对现实世界中复杂、多变的知识需求。

为解决这一问题,阿里巴巴通义实验室RAG团队开发了OmniSearch,业内首个具备自适应规划能力的多模态检索增强生成框架。OmniSearch能够动态拆解复杂问题,根据当前的检索结果和问题情境调整下一步的检索策略,模拟了人类在解决复杂问题时的行为方式,显著提升了检索效率和模型生成的准确性。

  • Github链接:https://github.com/Alibaba-NLP/OmniSearch
  • Demo链接:https://modelscope.cn/studios/iic/OmniSearch

现有的mRAG方法通常采用固定的检索流程,面对复杂的多模态问题时,模型无法灵活调整检索策略,导致如下两大问题:

  1. 非自适应检索:检索策略无法根据问题中间步骤的变化或新的发现进行调整,无法充分理解或验证多模态输入,造成信息获取不完整。
  2. 过载检索:单次检索过度依赖单一查询,难以获取问题真正所需的关键知识,往往导致无关信息过多,增加推理难度。

OmniSearch的核心架构由以下几部分组成:

OmniSearch的规划代理是其核心模块,负责对原始问题进行逐步分解。具体来说,规划代理会根据每个检索步骤的反馈,决定下一步要解决的子问题,并选择合适的检索工具来进一步获取信息。这个模块能够动态地规划检索路径,避免了传统mRAG中一次性检索所带来的信息过载问题。

规划代理的工作流程如下:

  • 首先,它通过初步分析问题,提出需要解决的第一个子问题。
  • 在检索到初步答案后,代理会对结果进行分析,决定是否需要进一步的检索或者是否有新的子问题需要提出。
  • 代理会灵活选择不同的检索方式,直至最终获得足够的信息给出问题的完整解答。

OmniSearch的检索器负责执行实际的检索操作,它可以根据规划代理的指示,进行图像检索、文本检索或跨模态检索。OmniSearch支持多种检索方式,包括:

  • 图像检索:通过输入的图像检索相关的视觉信息;
  • 文本检索:根据输入的文本内容检索相关的文本信息;
  • 跨模态检索:通过输入的多模态数据(如图片加文本)进行跨模态的信息检索。
  • 不检索:当前子问题不需要检索外部信息

每次检索完成后,检索器会返回相关信息供规划代理进行分析和处理,从而决定接下来的行动。

子问题求解器的主要功能是对检索到的内容进行总结和解答。该模块会根据规划代理提出的子问题,从检索到的知识中提取出相关的信息并生成对应的回答。求解器可以是任意多模态大语言模型,甚至可以是规划代理本身。

子问题求解器还具备高度的可扩展性,可以与不同大小的多模态大语言模型集成。在实验中,OmniSearch分别集成了GPT-4V和Qwen-VL-Chat模型,验证了其在多种环境下的有效性。

OmniSearch采用了递归式的检索与推理流程。每当模型提出子问题并获得初步答案后,它会根据当前的解答状态判断是否需要继续检索,或是提出新的子问题。这个过程会持续进行,直到OmniSearch认为已经获得了足够的信息可以给出问题的最终答案。

为了能够同时处理文本、图像等多模态信息,OmniSearch对检索得到的多模态特征进行了有效的交互。模型能够根据不同模态的信息灵活调整检索策略,例如在文本推理时引入网页的常识知识,或者是在分析图像时调用视觉信息来辅助判断。


  1. 答案快速变化的问题:这些问题的背景知识不断更新,需要模型具备动态的再检索能力。
  2. 多模态知识需求的问题:问题需要同时从多模态信息(如图像、文本等)中获取知识。
  3. 多跳问题:问题需要多个推理步骤,要求模型在检索后进行多步(特别是大于2步)推理。

Dyn-VQA数据集专为评估OmniSearch这样的动态检索方法设计,弥补了现有VQA数据集在处理动态问题时的不足,展示了OmniSearch在复杂问题解决中的强大能力。


  • 答案更新频率:对于答案快速变化的问题,OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法,准确率提升了近88%。
  • 多模态知识需求:OmniSearch能够有效地结合图像和文本进行检索,其在需要额外视觉知识的复杂问题上的表现远超现有模型,准确率提高了35%以上。
  • 多跳推理问题:OmniSearch通过多次检索和动态规划,能够精确解决需要多步推理的问题,实验结果表明其在这类问题上的表现优于当前最先进的多模态模型,准确率提升了约35%。
  • 在不同模型上的效果:无论是与较大的GPT-4V模型,还是与较小的Qwen-VL-Chat集成,OmniSearch都表现出了显著的性能提升。在基于GPT-4V的实验中,OmniSearch达到了54.45的F1-Recall评分,而基于Qwen-VL-Chat的OmniSearch也取得了45.52的评分,展现了其在不同模型上的通用性和有效性。

OmniSearch为多模态大语言模型的知识增强提供了新的思路。随着复杂问题的不断涌现,OmniSearch的自适应检索能力将为各类多模态应用场景提供强有力的支持!




欢迎加入「LLM交流群

最新文章
首个被人类骗钱骗感情的AI出现了
一段话,让 AI 给我打几万美元。爽文都不敢想的情节,发生在了现实之中。事实上并没有。11 月 29 日,Freysa 累计和 195 名人类聊了 482 次,被骗走约 4.7 万美元。12 月 2 日,在和 330 名人类周旋之后,Freysa 又一次被骗走约 1.3 万美元
耐玩又不氪金的手游排行榜
简介:  3733游戏盒子集合全网公益服手游,包括BT版、满VIP版、GM版、无敌汉化版等,内置的游戏,充值低至0.1折,可20倍加速,让任务/跑环更轻松。3733游戏盒还重磅打造帐号交易与小号回收功能,小号不玩,官方高价回收。此外,盒子还拥
刘春雄:快消品时代之问:新增长与高效率 | 营销盛典分享
12月6日至7日,以“越关山·突破周期,创新增长”为主题,由销售与市场杂志社与安得智联主办,名仁苏打水、淘工厂・淘宝买菜赞助的第二十一届中国营销盛典暨第二届中国消费品新供应链新增长大会在广东佛山顺德如期举行,来自不同领域的品牌
最好的Google关键词长尾词查找挖掘工具 – 2019收藏版
英文SEO内容优化是一个复杂的系统工程,要提高这项工作的能力,除了应该具备一套完整的结构化思维之外,找到一个好用的工具能够极大的提高工作效率。1.  AdWordSEO Keyword Permutation Generator想找到更多的关键词组合,这个工具可以轻
谷歌推广是什么?谷歌推广怎么做?
谷歌推广是什么? GoogleAds,原名GoogleAdWords,是Google公司主要的广告服务产品。AdWords是一种在Google搜索结果页展示的按点击付费的关键字广告。 谷歌推广怎么做? 一:外贸网站建设 外贸网站建设是谷
服装品牌策划方案(大全8篇)
随着市场经济的飞速发展,女性的生活品味、生活质量,正在发生着质的飞跃,饰物与服装也实现了完美结合。下面是本站小编为你带来的服装品牌策划方案范文,欢迎参阅。一、专场活动名称:源于自然 演绎时尚——---------专业毕业设计作品展示
该股的最大炒作亮点是什么?潜在题材又是什么?验证成为手机用户,查看该股万隆原创动态分析报告
老铁们,今天行情,如果没有昨天那个会议利好和高开的走势,老白会觉得微涨还不错,加上美股那边已经跌了两天,而A股则是连涨两天,但是现在的情况好像是昨天那波高开低走是消失了一样,一点都没影响到A股,今天来到了3432点,成交量也有1.
国际站店铺装修指南:打造高转化率的视觉营销空间
尊敬的店主,您是否曾遇到这样的情况:您精心挑选了商品,却发现销售效果并不理想,顾客在进入店铺后很快流失?不用担心,今天就为大家分享一份宝贵的指南,教您如何打造一个高转化率的视觉营销空间。第一步:合理规划空间布局第二步:选用
目前有那些信息流广告(5个搜索引擎信息流广告效果和投放体验)
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室依法管网、依法办网、依法上网的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和
百度网站收录提交,百度网站收录提交器
快速提升网站可见度与搜索引擎排名的必备技巧一、理解网站收录的重要性百度作为中国最大的搜索引擎,拥有庞大的用户群体和高度的市场占有率。为了确保您的网站能够被更多潜在用户发现并访问,网站是至关重要的一步。正确的提交方式不仅能加
发表评论
0评