AI技术前瞻-1

日期：2024-12-26 作者：czqidihg 移动：http://ljhr2012.riyuangf.com/mobile/quote/35539.html

清华、智谱团队推出 LongCite：让 LLM 在长上下文问答中生成精细引用

尽管目前的长上下文大语言模型（LLM）在回答用户基于大量文本的问题时表现出了强大的能力，但由于其回答中缺乏引用（citation），使得用户很难验证，这导致了人们对其潜在幻觉的可信度的担忧。

在这项工作中，来自清华大学和智谱的研究团队旨在让长文本 LLM 生成具有细粒度句子级引用的回答，从而提高其忠实性和可验证性。他们首先介绍了 LongBench-Cite，这是一种自动基准，用于评估当前 LLM 在带引用的长上下文问答（LQAC）中的性能，显示出相当大的改进空间。

为此，他们提出了一种利用现成的 LLM 自动生成具有精确句子级引用的长上下文问答实例的新型管道 CoF（Coarse to Fine），并利用该管道构建了用于 LQAC 的大规模 SFT 数据集 LongCite-45k。最后，他们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B，成功使它们能够在单个输出中生成准确回复和细粒度句子级引用。

LongBench-Cite 上的评估结果表明，他们训练的模型在引用质量方面达到了 SOTA，超过了包括 GPT-4o 在内的先进专有模型。

首个混合 Mamba 和 Transformer 的多模态大语言模型

扩展多模态大语言模型（MLLM）的长上下文能力涉及一系列系统优化工作，包括模型架构、数据构建和训练策略。在这项工作中，来自香港中文大学、深圳大数据研究院的研究团队，将模型架构调整为 Mamba 和 Transformer 模块的混合体，并提出了首个混合 MLLM——LongLLaVA（Long-Context Large Language and Vision Assistant）。它不仅在各种基准测试中取得了具有竞争力的结果，还保持了高吞吐量和低内存消耗。特别是，它可以在单个 A100 80GB GPU 上处理近千张图像，为各种任务展示了广阔的应用前景。

100% 开放的混合专家语言模型

来自艾伦人工智能研究所、Contextual AI 的研究团队及其合作者，推出了一个完全开放的 SOTA 语言模型 OLMoE，它利用了稀疏混合专家（MoE）机制。OLMoE-1B-7B 拥有 70 亿参数，每个输入 token 仅使用 10 亿参数。他们在 5 万亿个 tokens 上对其进行预训练，并进一步创建了 OLMoE-1B-7B-Instruct。他们的模型在性能上超越了所有具有相似激活参数的现有模型，甚至超过了如 Llama2-13B-Chat 和 DeepSeekMoE-16B 等大模型。

LinFusion：1 个 GPU，1 分钟，16K 图像

新加坡国立大学团队提出了一种广义线性注意力范式，来作为广泛流行的线性 token 混合器的一种低秩近似。为了节省训练成本并更好地利用预训练模型，他们从预训练的 StableDiffusion。初始化该模型并提炼知识。

结果发现，经过相对较少的训练提炼出的模型，即 LinFusion，在性能上与原始 SD 持平甚至更优，同时显著降低了时间和内存复杂度。广泛实验表明，LinFusion 提供了满意的零样本跨分辨率生成性能，能够生成 16K 高分辨率图像。此外，它与预训练的 SD 组件高度兼容，如 ControlNet 和 IP-Adapter，无需进行适配。

MIT 团队提出上下文归因方法 ContextCite

语言模型在生成回答时是如何使用提供的上下文信息的？我们能否推断出一个特定生成的陈述实际上是基于上下文，还是一个误解，或者完全是编造的？为了帮助回答这些问题，麻省理工学院（MIT）团队提出了上下文归因问题：确定是上下文的哪些部分（如果有的话）导致模型生成了一个特定的陈述。然后，他们提出了一种简单且可扩展的上下文归因方法 ContextCite，其可以应用于任何现有的语言模型之上。

SciLitLLM：如何让 LLM 理解科学文献？

为了开发专门用于科学文献理解的大语言模型（LLM），来自深势科技、中国科学技术大学的研究团队提出了一种混合策略，将持续预训练（CPT）和监督微调（SFT）结合起来，从而同时注入科学领域知识并增强特定领域任务的指令遵循能力。应用这一策略，他们推出了 SciLitLLM，专门用于科学文献理解。

Mini-Omni：首个用于实时语音交互的完全端到端开源模型

在这项工作中，研究团队推出了一种基于音频的端到端对话模型 Mini-Omni，其能够进行实时语音交互。为了实现这一功能，他们提出了一种基于文本指令的语音生成方法，并在推理过程中采用 batch 并行策略，从而进一步提高性能。这一方法还有助于保留原始模型的语言能力，并将退化程度降到最低，从而使其他工作能够建立实时交互能力。

猛了！Meta震撼发布 Llama 3.2 视觉方面吊打所有闭源模型?

性能与GPT4o-mini 相当能够在边缘设备上高效运行
Llama 3.2包括适用于边缘和移动设备的小型和中型视觉大语言模型（11B 和 90B）以及轻量文本模型（1B 和 3B）。
LLaMA 3.2支持同时处理文本、图像和视频，能够理解并生成跨媒体内容。例如，用户可以在同一交互中结合文字和图像。
评估表明，Llama 3.2 的视觉模型在图像识别和一系列视觉理解任务中与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 竞争。
3B 模型在遵循指令、总结、提示重写和工具使用等任务上超越了 Gemma 2 2.6B 和 Phi 3.5-mini 模型，而 1B 模型与 Gemma 竞争力相当。
可以轻松在手机上运行并执行任务

全新Notion AI发布！一站式集成搜索、生成内容、分析数据等功能

所有操作都可以在 Notion 内部完成，不需要跳转到其他工具。
可以随时使用在 Notion 页面右下角找到 AI 图标，点击即可开始使用。
还可以使用快捷键（Mac: Shift + Cmd + J，Windows: Shift + Ctrl + J）快速打开 Notion AI。
智能助手：Notion AI 可以快速回答问题，提供有针对性的建议。它不仅可以帮你找到信息，还能生成任务计划、草拟邮件，自动化完成简单任务，节省你的时间。
跨平台搜索：通过连接 Slack、Google Drive 等应用，Notion AI 能从多个平台汇总信息，帮助你快速找到需要的答案，不用手动切换应用查找数据。
强大的写作能力：Notion AI 可以帮你起草文档、创建大纲，并根据需要进行修改。你只需提供基本内容或要求，AI 会帮你完善格式和结构，让写作更简单。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行