分享好友 最新动态首页 最新动态分类 切换频道
谷歌搜索用上BERT,10%搜索结果将改善
2024-12-29 19:47

选自谷歌博客

谷歌搜索用上BERT,10%搜索结果将改善

作者:Pandu Nayak

机器之心编译

如何让搜索引擎呈现用户想要的结果是困扰谷歌工程师的一大难题。最近,谷歌宣布,他们的搜索引擎用上了强大的 BERT 预训练模型,可以让搜索引擎结合语境理解用户的搜索意图,甚至能理解一些不起眼的介词在搜索语句中的重要含义。有了 BERT 的加持,用户能在谷歌中搜到相关性更强的结果。

为什么谷歌搜索要用 BERT?

「如果要让我说出一条这些年学到的东西,那我会说『人类的好奇心是永无止境的』,」在谷歌搜索部门工作了 15 年的搜索副总裁在谷歌博客中写道。谷歌每天的搜索量多达数十亿,其中有 15% 是从未见过的,所以必须构建一些方法来应对这些无法预料的查询。

用户在搜索的时候往往很难确定一个最好的查询组合:我们不知道用哪些词,也不知道怎么拼。因为有时他们打开搜索引擎就是为了学习的,所以查到结果之前未必具备相应的知识。

搜索的核心是理解语言。搜索引擎的使命是弄清楚用户的搜索意图并从网上找到有用信息,无论查询语句中的单词如何拼写或组合。复杂或会话性的查询通常很难处理。人们会输入他们以为搜索引擎可以理解的问题,但其实他们用的方式并非他们在现实中自然而然使用的方式。

为了解决这些问题,谷歌的研究人员决定在搜索引擎中引入更加强大的自然语言处理模型——BERT。

BERT 对于搜索引擎有何作用?

去年,谷歌开源了用于自然语言处理的预训练模型——BERT。一经推出,BERT 就刷新了 11 项 NLP 任务的 SOTA 记录,登顶 GLUE 基准排行榜。虽然榜首早已易主,但后续的很多 NLP 模型都是基于 BERT 的改进。其影响力可见一斑。

BERT 的突破基于谷歌在Transformer架构上的成功。Transformer 处理一个句子中与所有其他单词相关的单词,而不是按顺序逐个处理。基于此,BERT 模型就可以借助某个单词前后的词来考虑其所处的完整语境,这对于理解查询语句背后的意图非常有用。

但只有软件方面的成功还不够。用 BERT 构建的模型非常复杂,超出了传统硬件的能力范畴。因此,谷歌选择使用最新的 Cloud TPU 结果来提供搜索结果,以达到更好的效果。

用上 BERT 意味着什么?

BERT 在谷歌搜索中的应用体现在排名和精选摘要(featured snippet)两个方面。将 BERT 应用于搜索排名之后,谷歌宣称它可以帮助搜索引擎更好地理解美国(英文)10% 的搜索。谷歌表示,随着时间的推移,他们还会将结果扩展至更多语言和地区。

用上 BERT 之后,对于比较长、会话性比较强的查询,或者在「for」、「to」等介词比较重要的语句中,谷歌搜索引擎将能够理解查询语句中词的上下文。用户可以用更加自然的方式进行搜索。

为了启用这些改进,谷歌进行了大量测试,以确保这些改变更加有用。以下是一些评估示例,可以证明 BERT 在理解意图方面的强大能力。

在以下示例中,用户搜索的语句是「2019 brazil traveler to usa need a visa」。在这个句子中,「to」及其与其他单词的关系对于理解句子含义非常重要。这是一个巴西人要去美国旅游的事件,而不是一个美国人去巴西旅游。在此之前,谷歌的搜索算法无法理解这种连接词的重要性,所以会返回美国公民去巴西旅游的结果。在 BERT 的帮助下,搜索引擎将能够理解搜索语句的核心含义,知道「to」这种简单词在句子中发挥的重要作用,因此能够返回相关性更强的结果。

我们来看另一个搜索语句「do estheticians stand a lot at work」。用上 BERT 之前,谷歌搜索引擎用的是匹配关键词的方法,用搜索结果中的「stand-alone」匹配查询语句中的「stand」。但根据语境,「stand」在搜索语句中的含义并非如此。但 BERT 能够理解此处的「stand」是与工作相关的一种身体素质要求,因此会给出更加有用的答案。

下面还有一些例子,从中可以看出,BERT 能够帮助帮助我们掌握语言的细微含义,这些是计算机理解不了的。

能用上 BERT 的不止英语搜索

谷歌表示,他们会将 BERT 应用到全球各种语言的搜索中。这种模型的一大特点就是能将从一种语言中学到的东西应用到其他语言中。因此,他们可以将从英语中得到的改进模型应用于其他语言。

他们还用 BERT 改进了 20 多个国家的精选摘要,在韩语、印地语、葡萄牙语中取得了显著进展。

搜索问题,永无止境

无论你想要搜索什么东西,无论你使用哪种语言,谷歌希望人们都可以使用最自然的方式进行搜索。但即使是 BERT 加持,谷歌搜索或许仍然无法让人能够获得 100% 完美的结果。未来,谷歌仍会持续改进自己的搜索系统。

参选报名日期:2019 年 10 月 23 日~2019 年 12 月 15 日

评审期:2019 年 12 月 16 日~2019 年 12 月 31 日

奖项公布:2020 年 1 月

最新文章
7种行楷基础笔画教程图解!简单实用,0基础小白直接上手!
之前我们给大家讲解了楷书的入门笔画和进阶笔画的教程楷书7个基本笔画的写法14个楷书进阶笔画教程(没学的小伙伴直接点击
ai大数据获客系统
随着互联网的发展,越来越多的企业开始意识到数据的重要性。而在这个数据时代,AI大数据获客系统成为了企业获取客户的重要工具。AI大数据获客系统是一种基于人工智能和大数据技术的客户获取系统。它通过对海量数据的分析和挖掘,帮助企业找
coreelec盒子安装docker coreelec能装什么插件
CorelDRAW 是一款在中国非常受欢迎的图形软件,开放的界面和编程技术,能够对它进行二次开发制作插件,插件大抵有三种gms、cpg、exe格式,下面介绍一下这三种插件的安装和使用方法。一、gms格式插件gms格式插件是使用微软的 VBA 技术,编写
ai?到底是什么?我们该如何正确使用呢?
人工(AI创作精灵)智能的研究和应用涉及多个学科,包括计算机科学、数学、控制论、语言学、心理学、生物学、哲学等。人工智能的研究和应用旨在开发和应用能够模拟人类智能的计算机系统,从而解决各种实际问题,提高生产效率和生活质量。人
ai数字人交互体验,ai数字人与线上展馆融合!
在数字化浪潮席卷全球的今天,线上体验已成为连接消费者与品牌的重要桥梁。随着科技的飞速发展,人们对线上体验的需求已不再满足于简单的信息浏览,而是渴望获得更加丰富、互动和个性化的体验。AI数字人技术,作为数字化时代的一项创新成果
AI写作助手官网,让你的文章更富有魅力
当今社会,文章创作已成为不可或缺的一部分。不论你是一名写作者、学生还是商业人士,拥有一个能够提供专业文案风格的AI写作助手可以让你的文章更具吸引力。AI写作助手官网正是为了满足这个需求而诞生的。AI写作助手官网以其独特的技术和创
360逾期会被起诉吗?真还不上怎么办?
360借条是奇富科技旗下信贷科技服务品牌,作为知名信贷品牌,很多人有资金需求时都会在360平台上申请借款。那么,360逾期会被起诉吗?真还不上怎么办?下面就跟随小编一起来看看吧。360逾期会被起诉吗?360借条逾期是否会被起诉,需要视具
# 白酒、葡萄酒类商品发布规范
品牌+香型/类型+酒类+酒精度+容量+系列其他商品描述 品牌(必填):中文/英文品牌 香型/类型(必填):浓香型、酱香型、干型、半干型等 酒类(必填):白酒、红酒、白葡萄酒、气泡葡萄酒等 酒精度(必填):请对照商品外包装标识填写 容量
1. VA(Artificial Intelligence Virtual Artist)的作品
在数字技术与人工智能日益融入咱们生活的今天,音乐创作领域也迎来了前所未有的变革。创作歌曲,这个曾经看似遥不可及的概念如今已经成为了现实。人工智能不仅在音乐制作中扮演着越来越要紧的角色,而且创作出了多令人惊艳的作品。本文将深
AI数字人定义与探索:揭秘未来智能交互新篇章
AI数字人定义与探索:揭秘未来智能交互新篇章AI数字人是什么意思?随着人工智能技术的飞速发展,AI数字人这一概念逐渐走进人们的视野。AI数字人,顾名思义,是指通过人工智能技术创建的具有人类特征和行为的虚拟形象。它们可以模拟人类的面
相关文章
推荐文章
发表评论
0评