分享好友 最新动态首页 最新动态分类 切换频道
“进化”的搜索方式:揭秘微软语义搜索背后的技术
2024-12-26 14:00

编者按:作为一项云搜索服务,Azure 认知搜索集成了强大的 API 和工具,帮助开发人员构建丰富的搜索体验。不止于现状,微软的研究员们为 Azure 认知搜索“加持”了语义搜索功能,可以让搜索引擎拥有语义排序、语义摘要、语义高亮、语义问答以及自动拼写校正等能力。本文将揭晓这些神奇功能背后的核心技术,涉及关键词包括预训练、图网络、多任务等。本文编译自微软研究院博客“The science behind semantic search: How AI from Bing is powering Azure Cognitive Search”。

智能化的语义搜索是搜索引擎追求的终极目标。多年来,微软的研究人员在持续探索可以实现智能化语义搜索的方法,并于近日将相关的研究成果集成到了微软 Azure 云计算平台的认知服务中——Azure 认知搜索(Azure Cognitive Search,为预览版中的所有 Azure 用户提供了语义搜索功能。这其中技术核心部分所涉及的很多研究成果都来自于微软亚洲研究院。

Azure 认知搜索是一项云搜索服务,它为开发人员提供了 API 和工具,以便他们基于 Web、移动端和企业应用程序中的专用异类内容,构建丰富的搜索体验。Azure 认知搜索具有多个组件,包括用于检索和查询的 API、通过 Azure 数据获取实现的无缝集成、与 Azure 认知服务的深度集成,以及用户所拥有的检索内容的持久存储。Azure 认知搜索默认使用的是信息检索常用的 BM25 算法。

为了提升微软必应(Bing)搜索的相关性,微软的研究和开发人员此前就通过基于 Transformer 的语言模型对必应搜索进行了改进。这些改进让搜索引擎不仅可以用关键词进行匹配,还可以通过使用单词和内容背后的语义来进行搜索,而这种转换的能力就是语义搜索。

将语义搜索功能集成到 Azure 认知搜索中所实现的效果

语义搜索显著提高了必应搜索的搜索结果质量。但是微软的研究和开发团队在这个过程中发现要想最大限度地发挥 AI 的威力,需要大量的专业人才来集成和部署 AI 规模化的相关技术和产品,比如,对大规模基于 Transformer 的语言模型进行预训练、在不同的任务中进行多任务微调、在保证质量损失最小的情况下将大模型蒸馏成可部署的模型,等等。而这样的专业人才团队并不是每个公司都可以承担得起的。秉持着赋能每一人每一组织的公司理念,微软通过将相关研究成果集成到 Azure 认知搜索中,来降低人们使用 AI 规模化技术的门槛。

Azure 认知搜索中的语义搜索功能

下面,我们来详细了解一下 Azure 认知搜索中的语义搜索功能。

语义排序:大幅提高相关性。传统的搜索方式都是基于关键词对结果进行排序,而基于 Transformer 的语义排序引擎则能够理解文本背后的含义。在 A/B 测试中,语义搜索功能提高了对搜索结果的点击率(2.0%,对包含三个以上单词的搜索结果,其点击率也提高了4.5%。

通过语义排序(右)来提高相关性的示例

语义摘要:提取关键信息。相关性只是一方面,搜索结果中的标题和摘要也非常重要。好的标题和摘要能够让用户“一眼”看出结果是不是自己想要的。

语义高亮:机器阅读理解。语义高亮的简单理解是:给一段搜索结果画重点,并用文字加粗的形式进行展示。通过语义高亮,用户可以直接获得所需的答案,或者通过快速扫描结果页面就可以查找到所需的文档,甚至直接获得一段摘要。使用机器阅读理解能够帮助找到一段话的重点,从而大幅度提升阅读效率。

使用语义搜索实现提取摘要、语义强调的示例

 

语义问答:快速答案。疑问句查询是搜索引擎经常遇到的搜索方式,这背后用户往往想要优先获得一个简短、确切的答案,而不是文档。语义搜索可以通过机器学习阅读语料库中的所有文档,然后进行总结,并将答案置顶展示。

语义搜索提取文档重点,展示快速答案

自动拼写校正。根据数据统计,用于输入的10%到15%的句子都存在拼写错误,错误的拼写会非常影响搜索结果的质量,而集成语义搜索的搜索引擎则可以实现自动拼写纠正。

背后的技术:预训练、图网络、多任务....

以上功能的实现,离不开微软研究院在 NLP 和语义搜索方面取得的突破性进展。研究人员和微软内部其他 AI 团队合作开发了一系列神经网络模型,不仅在 SQuAD 、GLUE 以及 SuperGLUE 等多个业界基准上获得了最好的结果,还积极布局了应用的落地,实现了微软相关产品性能的提升。

下面是微软实现语义搜索所用到的具体技术

统一预训练语言模型:UniLM & UniLM v2

在 Azure 认知搜索中,预训练语言模型利用的是来自微软亚洲研究院的统一预训练语言模型 UniLM(Unified Language Model Pre-training,该模型是第一个统一的在语言理解和语言生成的基准上均表现优异的预训练模型。UniLM 涵盖了两大关键性的技术创新:一是,提出了统一的预训练框架,使得同一个模型可以同时支持自然语言理解和自然语言生成任务,而之前大部分的预训练模型都主要针对自然语言理解任务。第二大创新是,提出了部分自回归预训练范式和伪掩码语言模型,从而可以更高效地训练更好的自然语言预训练模型。这项研究成果的论文是“Unified Language Model Pre-training for Natural Language Understanding and Generation” ,已被 NeurIPS 2019 收录。

微软亚洲研究院的研究员在 ICML 2020 上还提出了一种新的训练 UniLM 的训练框架 Pseudo-Masked Language Models for Unified Language Model Pre-Training,“统一预训练伪掩码语言模型”,简称 UniLM v2。UniLM v2 使用传统的掩码通过自编码方式,学习被掩 token 与上下文的关系,并且使用伪掩码通过部分自回归方式,去学习被掩 token 之间的关系。必应搜索中的技术在2019年初是基于 BERT 来实现的,目前已经通过使用 UniLM v2 来提高其搜索质量。

统一预训练语言模型架构

机器阅读理解:多粒度阅读理解框架

机器阅读理解的任务(MRC)是从文档 中找到给定问题的简短答案(如短语)或长答案(如段落)。由于最大长度的限制,所以大多数现有的 MRC 方法在答案提取的过程中将文档视为了单独的段落,而没有考虑它们之间的内在关系。

为了更好地为 MRC 建模,微软亚洲研究院的研究员们提出了基于图注意力网络和预训练语言模型的多粒度阅读理解框架,并且通过联合训练来建模两个粒度答案之间的联系。在这个框架中,首先会根据文档的层次性质,例如,段落、句子和符号等,为每个文档构建一个图网络,之后使用图注意力网络来学习不同层次的表示,最后会得到一系列结构化的表示,并汇总到答案选择模块得到答案。其中,长答案和短答案的提取任务可以一起训练,从而相互促进。

以上研究的论文为“Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension” ,已被 ACL 2020 收录,并且已经用于必应搜索的大部分问题回答任务。

论文链接

https://www.microsoft.com/en-us/research/publication/document-modeling-with-graph-attention-networks-for-multi-grained-machine-reading-comprehension/ 

多任务深度神经网络:MT-DNN

微软研究院和 Microsoft Dynamics 365 AI 团队合作提出了一个新的多任务深度神经网络模型——MT-DNN。此模型是第一个在 GLUE 排行榜上超过人类表现的 AI 模型,它集合了 BERT 的优点,并在10大自然语言理解任务上超越了 BERT,在多个流行的基准测试中创造了新的 SOTA 结果。

MT-DNN 结合了多任务学习和语言模型预训练,用于跨多个自然语言理解任务学习语言表示。MT-DNN 不仅利用了大量的跨任务数据,而且还受益于正则化效应(regularization effect ,这种正则化效应提高了模型的泛化能力,使其在面对新任务和领域时表现优异。语义搜索中的模型就是利用了跨各种搜索任务的多任务学习来最大化其性能。

这项研究的论文 “Multi-Task Deep Neural Networks for Natural Language Understanding”,发表在了 ACL 2019 上。

论文链接

https://www.microsoft.com/en-us/research/publication/multi-task-deep-neural-networks-for-natural-language-understanding-2/ 

 

深度自注意力知识蒸馏:MiniLM

大规模预训练模型在自然语言理解和生成任务中表现优异,但巨大的参数量和计算成本让其很难直接部署到线上产品中。为此,微软亚洲研究院提出了一种将基于  Transformer 的预训练大模型压缩成预训练小模型的通用方法 MiniLM ——深度自注意力知识蒸馏(Deep Self-Attention Distillation)。其核心思想是最大程度上将预训练 Transformer 模型中非常重要的自注意力(Self-Attention)知识迁移给小模型。

MiniLM 在单语言和多语言模型上进行了压缩实验,均取得了不错的效果。Azure 认知搜索的语义搜索解决方案使用了 MiniLM 技术,其效果是,只需原来大模型20%的成本,就可保持95%的准确率。

MiniLM:深度自注意力知识蒸馏(Deep Self-Attention Distillation

语义搜索背后的人工智能模型非常强大,并且已经在基准测试和必应搜索上得到了验证。通过将语义搜索集成到 Azure 认知搜索中,微软在普及高级机器学习技术,将 AI 普及化的道路上又迈出了重要一步。

省时查报告

专业、及时、全面的行研报告库

长按并识别关注

最新文章
SOCKS5代理的常见应用场景有哪些?
SOCKS5 代理是一种网络代理协议,在不同领域有着广泛的应用。以下是一些常见的应用场景。一、网络爬虫对于需要大规模抓取网页数据的爬虫程序,SOCKS5 代理可以帮助规避网站的反爬虫机制。通过不断更换代理 IP,爬虫可以更高效地获取数据。
抖音小店dsr分数抖音小店dsr分数怎么提升?
dsr商家服务项目定级指标值分的危害:该指标值分将变成互动娱乐销售市场甚至抖音短视频非商品领域的一项关键指标值分,根据该得分将对商家在销售市场运营造成危害,事后大家将根据该得分出去一系列应急处置对策包含但不限于:取缔销售市场
用AI生成超逼真美女写真,简单易上手的教你如何操作!
DeepArt:DeepArt利用深度学习算法,将用户上传的照片转换为艺术风格的作品,特别适合喜欢独特艺术风格的朋友。用户只需导入自己的照片,然后选择喜欢的艺术风格,系统将自动生成相应的艺术作品。但与传统的人脸生成工具相比,DeepArt更适
【Mobile G2鲁大师下载】HTC Mobile G2鲁大师10.9.0免费下载
手机跑分、验真假、清理垃圾专业工具!1亿用户选择的手机硬件专家。鲁大师发福利了,新用户下载即送现金!现在清理手机垃圾还能赚钱,轻松体现秒到账!===手机评测===【鉴别真假】全面检测各项指标,快速鉴别手机真伪,买到假机帮你上报维
百度贴吧SEO优化攻略,揭秘流量增长之道
本文深入剖析百度贴吧SEO优化策略,从关键词布局、内容质量、互动交流等多方面提出有效建议,旨在帮助网站提升流量,实现搜索引擎优化目标。随着互联网的快速发展,SEO(搜索引擎优化)已经成为网站中不可或缺的一部分,百度作为最大的搜索
企业微博营销推广怎么吸引粉丝 企业微博营销推广的方式
    随着互联网的时代到来,呈现出了许多营销方式,而对于微博来说,现在已经成为时下年轻人日常生活的一部份了,我们都不难见到这一群年轻人都拿着手机在玩微博。因此,很多站长也就抓住了这样的一个潮流利用起微博来做推广,的确微博推
羞羞漫画免费阅读最新章节网页入口韩版:畅享精彩韩漫资源
对于“羞羞漫画免费阅读最新章节网页入口韩版”这种现象,我们不能简单地一概而论。一方面,免费提供漫画阅读资源的网页入口在一定程度上满足了部分漫画爱好者的需求,让他们能够便捷地获取到自己喜欢的韩漫作品。这对于那些无法通过正规渠
经典wordpress网站/网络营销推广方案ppt
条件格式的功能是很强大的,可以实现很多的显示效果,可以满足某个条件的显示格式。它在软件中的位置与office有所不一样,在WPS表格中有两个位置可以找到它:格式-条件格式。下文以大于500的数字飘红,加粗
美漫从超人开始
美帝,堪萨斯州的某个小镇高中。李亚正一个人孤零零的坐在操场的看台上,眼神虽然盯着场下绿茵场上踢着美式足球的少年们,但心思早已飞到了天边。“哎,尽管过去十六年了,还是有点适应不来,怎么就穿越了呢,我发誓我啥也没干,没有遭遇车
爱校园电脑版下载攻略,轻松掌握下载步骤,快速上手!
摘要:本文提供了爱校园电脑版下载指南,详细介绍了如何轻松掌握下载步骤。通过简单的操作,读者可以轻松下载并安装爱校园电脑版,享受其提供的各种便捷功能。本文旨在帮助学生和校园用户轻松获取这一实用工具。要下载爱校园应用程序,您通
相关文章
推荐文章
发表评论
0评