分享好友 最新动态首页 最新动态分类 切换频道
5个实际开源的多模态AI模型
2024-12-27 03:27

  了解最新的开源多模态AI系统,以下列出了五个领先的选项,包括其功能和用途。

  

译自5 Multimodal AI Models That Are Actually Open Source,作者 Kimberley Mok。

  多模态AI正吸引着大量关注,这要归功于其诱人的前景:设计用于处理文本、图像、音频和视频组合的AI系统,成为多面手。

  虽然市场上已经存在许多强大的、专有的多模态AI系统,但小型多模态AI模型和开源替代方案也正在迅速发展,因为用户不断寻求更易访问和更易适应的选项,并优先考虑透明度和协作。为了让您了解最新的开源多模态AI系统,我们将概述一些更受欢迎的选项,包括它们的功能和用途。

  

  最近推出的AriaAI模型来自Rhymes AI,被誉为世界首个开源的多模态原生专家混合(MoE) 模型,它可以在一个架构中处理文本、代码、图像和视频。

  与更大的模型相比,这个多功能模型相对强大,但效率更高,因为它根据任务选择性地利用其框架的相关子集(或“小型专家”)。其架构设计易于扩展,可以添加新的“专家”来处理新任务,而不会给系统带来压力。Aria擅长长多模态输入理解,这意味着它能够快速准确地解析长文档和视频。

  Aria的架构。

  

  Leopard由圣母大学、腾讯AI西雅图实验室和伊利诺伊大学厄巴纳-香槟分校(UIUC)的跨学科研究团队开发,是一个开源的多模态模型,专门设计用于富文本图像任务。

  Leopard旨在解决多模态AI领域的两大挑战,即高质量多图像数据集的稀缺性以及图像分辨率与序列长度之间的平衡。为此,该模型使用精心策划的数据集进行训练,该数据集包含超过100万个高质量的人工和合成数据片段,这些片段是从现实世界示例中收集的。它也公开提供用于其他模型。

  腾讯美国高级研究员、Leopard的创建者之一Wenhao Yu向The New Stack解释说:“Leopard凭借其新颖的自适应高分辨率编码模块而脱颖而出,该模块根据输入图像的原始纵横比和分辨率动态优化视觉序列长度的分配。”“此外,它使用像素洗牌将长的视觉特征序列无损压缩成较短的序列。这种设计使模型能够处理多个高分辨率图像,而不会牺牲细节或清晰度。”

  这些特性使Leopard成为多页文档理解(例如幻灯片、科学和财务报告)、数据可视化、网页理解以及部署能够处理视觉复杂环境中任务的多模态AI代理的优秀工具。

  Leopard的整体模型流程。

  

  CogVLM利用深度融合技术来获得高性能,代表认知视觉语言模型,这是一个开源的、最先进的视觉语言基础模型,可用于视觉问答(VQA)和图像字幕。

  CogVLM使用基于注意力的融合机制融合文本和图像嵌入,并冻结网络层以保持高性能。它还采用EVA2-CLIP-E视觉编码器和多层感知器(MLP)适配器,用于将视觉和文本特征映射到同一空间。

  

  大型语言和视觉助手(LLaVA) 是另一个开源的、最先进的选项。它利用Vicuna解码语言,并使用 CLIP 对指令遵循的文本数据进行微调。该模型已使用由 ChatGPT 和 GPT-4 生成的指令遵循的文本数据进行训练。LLaVA 使用可训练的投影矩阵将视觉表示映射到语言嵌入空间。

  作为多功能的视觉助手,LLaVA 可用于创建更高级的聊天机器人,这些聊天机器人可以处理基于文本和图像的查询。

  

  也被称为 BLIP-3,这是来自Salesforce的一套最先进的开源多模态模型,它包含一系列变体,包括一个预训练基础模型,一个指令微调模型和一个旨在减少有害输出的安全微调模型

  一个重要的进展是,这些系统使用一个庞大的、开源的万亿token“交错”图像和文本数据数据集进行训练,研究人员将其描述为“最自然的多种模态数据形式”。这意味着这些模型擅长处理包含文本和多个图像的输入,这在广泛的设置中可能非常有用——例如自动驾驶汽车,或医疗保健中的图像分析和疾病诊断,或创建交互式教育工具,或宣传营销材料。

  

  围绕开源 AI 的实际定义仍然存在持续的激烈争论,充斥着大型科技公司对其 AI 模型进行“开源洗白”以获得更广泛的信誉和声望的指控。

  无论开源 AI 的争论如何发展,很明显,仍然需要真正开源的系统——以及数据集——这些系统强调透明度、协作和可访问性,并且真正符合开源精神。

  

最新文章
自考靠谱的机构有哪些特点?
自考靠谱的机构有哪些特点?社会飞速发展,面临升职就业等压力,提升自我优势是必不可少的,拥有一个高学历或好文凭是关键,可以让就业的范围更广升职的机会更多。学历是判断个人素质的重要条件之一,企业也重视高学历的员工。下面本小编为
神马关键词推广_做神马关键词优化软件(神马关键词排名快速优化首页价格)
这个要具体看关键词的啊,差别的词是不一样的, 近来佛山市神马互联网科技有限公司推出关键词按天扣费很火,没有恶性点击,关键词24小时在线, 盼望可以帮到你;环境如下第一种,比方你是推广的北京地区假如你在上海,但是你账户启用了搜刮
阿里巴巴:今年营收 5000 亿,明年GMV要再增一万亿
疫情带来冲击和机遇,阿里稳健前行寻找向上新空间。5 月 22 日,阿里巴巴发布截至 3 月 31 日的 2020 年第四季度财报及全年财报。财报显示,2020 财年,阿里巴巴集团收入为人民币 5097.11 亿元,同比增长 35
Python爬虫教程——7个爬虫小案例(附源码)_爬虫实例
本文介绍了7个Python爬虫小案例,包括爬取豆瓣电影Top250、猫眼电影Top100、全国高校名单、中国天气网、当当网图书、糗事百科段子和新浪微博信息,帮助读者理解并实践Python爬虫基础知识。包含编程资料、学习路线图、源代码、
运动会活动策划书
~  时间一溜烟儿的走了,工作已经告一段落了,前方等待着我们的是新工作目标和挑战,想必现在的你有必要写一写策划书了。是不是无从下笔、没有头绪?下面是我收集整理的运动会活动策划书,仅供参考,欢迎大家阅读。    一、活动前言:
比漫熊漫画,比漫熊漫画安卓最新版,比漫熊漫画下载
比漫熊漫画是一款非常好用的小说漫画软件,比漫熊漫画功能丰富,确实在多个方面为漫画爱好者们提供了优质的阅读体验,用户可以根据类型地区作者等多种方式进行筛选,比漫熊漫画允许用户根据自己的需求切换各种漫画资源源,轻松找到自己喜欢
跨境电商独立站建站平台解析,独立站如何运营?独立站优势
越来越多的人涌入跨境电商这行业,无论是大平台还是独立站,蜂拥而至的小白,新手,各种开车,各种上路,但是大家真的了解独立站这个行业麽?或者说,怎么找到未来自己的第一块根据地呢?那么咱就说说,你只要干独立站,就怎么都绕不开的这
虚拟微博热搜生成器
虚拟微博热搜生成器是一款可以让用户随时登上热门排行榜的APP,当然这是虚假的,微博是不少用户喜欢使用的一款软件,这款APP的界面与微博非常的相似,可以说一模一样,将自己喜欢的内容填充进去就可以打造一个热门排行榜,恶搞一下好友是非
问道加盟
  【市场优势】  1、媒体,网络等多方面的品牌宣传;  2、全国各地设置分支机构及战略合作伙伴,统一的品牌及企业文化导入;  3、全国各地定期举办线下交流会;  4、成为福建游龙网络科技有限公司的战略合作伙伴,共享旗下产品资
这款AI论文写作在线工具助你一臂之力!论文生成不再难
​​创新性强:开启学术研究的新思路时间对于研究者来说无比珍贵,千笔AI论文深知这一点。它通过高效的选题建议生成机制,大大缩短了研究者在选题阶段的时间投入。只需输入关键词、研究领域或基本要求,千笔AI论文就能在短时间内提供多个精
相关文章
推荐文章
发表评论
0评