谷歌发布 FACTS Grounding 基准，AI 大语言模型“幻觉照妖镜” - 迅易阁资讯

分享好友最新动态首页最新动态分类切换频道

谷歌发布 FACTS Grounding 基准，AI 大语言模型“幻觉照妖镜”

2024-12-27 12:14

IT之家 12 月 18 日消息，谷歌 DeepMind 团队于 12 月 17 日发布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增强用户信任度，并拓展其应用范围。

数据集

在数据集方面，ACTS Grounding 数据集包含 1719 个示例，涵盖金融、科技、零售、医疗和法律等多个领域，每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一，最长可达 32000 个 token（约 20000 字）。用户请求涵盖摘要、问答生成和改写等任务，但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下：

数据集分为 860 个“公共”示例和 859 个“私有”示例，目前已发布公共数据集供评估使用，私有数据集用于排行榜评分，以防止基准污染和排行榜作弊。

评估方案

在评估方案上，FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委，评估答案的充分性、事实准确性和文档支持性。

评估分为两个阶段：首先评估响应是否符合资格，即是否充分回答了用户请求；然后评估响应的事实准确性，即是否完全基于所提供的文档，有没有出现“幻觉”，然后基于该模型在所有示例上的平均得分，最终计算得出。

在 FACTS Grounding Benchmark 中，谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

IT之家附上参考地址

最新文章

置顶【商家券API】常见问题官方精选热门

Q1：商家券接口文档参数字段”适用商品范围goods_name”是在哪里展示的？A1：在商家券详情里的优惠说明展示，具体展示规则如下：换购券：“商家券批次名称stock_name”和“适用商品范围goods_name”拼接满减券：适用商品范围goods_name折扣

新奥精准资料免费大全,可持续执行探索_免费版46.676

随着数字时代的到来，数据的获取和分析成为了企业决策的重要依据。新奥精准资料免费大全，免费版46.676，作为一套全面的数据分析工具，为用户提供了强大的数据支持。本文将详细介绍这一工具的特点、功能以及如何可持续地执行探索。新奥精准

自我提升的4个好方法

月5停止无意义的抱怨。要明白，无论当下的处境多么艰难，都只是你自己造成的，与别人无关，抱怨只会雪上加霜，并不能带来任何有用的改变。与其怨天尤人，不如停下吐槽的嘴巴，踏踏实实地去做一些能改变生活的事。如果你觉得自己一无是处，

营销推广岗岗位职责

营销推广岗岗位职责15篇　　在我们平凡的日常里，接触到岗位职责的地方越来越多，制定岗位职责能够有效的地防止因为职位分配不合理而导致部门之间或是员工之间出现工作推脱、责任推卸等现象发生。一般岗位职责是怎么制定的呢？下面是小编收

百度AI的2020

世界的2020，是充满不确定性的变局之年；中国的2020，是团结一心、共克时艰、于变局中开新局的希望之年；百度 AI 的2020，是坚定信念，拥抱变化，践行“科技为更好”的实干之年。回望2020年&#x

用AI绘技：一键生成超逼真美女写真，让每个家人都成为画家！

访问搜索引擎：打开你的浏览器，输入“搜狐简单AI”，进入其官方网站或小程序。创建账号并登录：如果你是第一次使用，可以选择用微信或手机号注册一个新账号，随即登录。选择模板：在主界面中，你会看到不同风格的模板，依照需要选择一个适

电商SEO优化攻略，揭秘提升流量与率的黄金秘籍

电商SEO优化是提升店铺流量与率的关键。通过关键词研究、优化产品描述、优化图片和、建立高质量的外链、提升网站速度等方法，可以有效提高店铺在搜索引擎中的排名，吸引更多潜在顾客，从而提高店铺流量与率。掌握SEO优化技巧，让您的电商店

苹果怎么投电视

在智能家居日益普及的今天，将手机屏幕投射到电视上已成为许多用户享受大屏娱乐的常用方式。对于苹果用户来说，将iPhone或iPad的内容投屏到电视上，不仅操作简单，而且体验流畅。以下是几种常见的方法，帮助苹果用户轻松实现投屏。一、AirP

【R80591桌面下载】OPPO R80591桌面10.5.2免费下载

「91桌面V10」造动X计划！全宇宙最最玩的桌面美化APP，畅享铁血战士、中国新说唱、张一山、宋祖儿、油爆叽丁、蘑菇点点、秋田君、汤圆酱等众多知名IP主题，还有更多版权形象神秘企划中！==特色亮点==1.【主题免费啦】高能版本现在开启，大

米菲米索正品全国包邮网上药店——(官方直营商城药店)第一时间发货+正品确保!

米菲米索正品全国包邮网上药店——(官方直营商城药店)第一时间发货+正品确保!，安全的网上药品零售药房，顺丰包邮可货到付款米菲米索正品全国包邮网上药店——(官方直营商城药店)第一时间发货+正品确保! 许多女性就会有着激情过后，因为措

相关文章

推荐文章

新闻调查｜从GPT-4o看人工智能竞争的走向和挑战

类似Visio的在线工具

贷款担保人信息一直发短信怎么办呢

直达：小榄到绥芬河物流货运-送货到家「直达不中转」2025排名一览

浏览器内核性能横评，主流的三种内核到底哪个好？

江森自控旗下泰科AI智能安防解决方案深度实测

长春宽城区考研辅导机构评测排名名单公布

怎么进行微博营销推广,有哪些方法

人工智能在煤炭行业的发展与应用204

店铺人群标签不精准，要怎样才能纠正过来？

发表评论