今年初,智能对话机器人模型ChatGPT引发了全球范围的人工智能热潮。面对这波浪潮,国内的科技公司,尤其是搜索引擎领域的巨头们纷纷加入,相继发布自己的大模型。
作为国内第二大搜索引擎厂商,360近期就官宣发布了360GPT产品矩阵“智脑”,成为针对搜索场景,国内较先推出的应用GPT技术的新一代智能搜索。
据了解,该产品已正式开放产品内测。随着越来越多的场景应用,人工智能将带来哪些新的生产力变革?但可以确定的是,人工智能真正走进我们工作生活的时代已经正式开启。
01.生产力迎来大变革时代,360落地新搜索应用
随着微软将ChatGPT与Bing的融合,让搜索引擎成为生产力改造的前沿阵地。
这种结合让搜索引擎迎来了全新的发展方向,而ChatGPT正改变着信息生产、组织和获取的方式。对此,我们与360相关业务的技术负责人张向征聊了聊,他表示,ChatGPT的出现证明了通过“大模型+搜索引擎”可以让AI实现以往无法企及的 “智能”。这将对搜索行业产生深远的影响,甚至引发生产力的变革。
在国内,有资格进行相关探索的公司不多。
360作为国内第二大搜索引擎厂商,凭借多年的数据、算力和工程能力,以及在人工智能领域的深厚积淀,前不久推出了自研的360GPT产品矩阵“智脑”,同时也是头一批落地到搜索应用产品中,引起了业界的普遍关注。
传统的搜索一般是以网页链接形式为结果,用户需要自己一个个翻找链接,进入网页寻找答案。而结合了360GPT能力的360新搜索可以通过问答的形式,根据用户提出的问题直接生产内容。
基于360GPT的新搜索生成式对话截图
针对“为什么淄博烧烤突然火了?”这个当下的热点话题,很快就给出了答案。列出了淄博烧烤最新的社会事件,还提炼分析直接给出了结论。不仅如此,回答中还显示了援引来源,可以供用户溯源确认。可以看到的是,360新搜索的问答更符合人的自然表达,生成的内容也远比传统搜索更直接、更丰富。
究其原因,张向征介绍说:“我们一直把理解用户目的、便捷用户使用当成了重要的产品研发方向,基于360GPT的新搜索拥有更强大的阅读理解能力。”
另一方面,人工智能相关内容的生产离不开真实可靠的信息。通过联网搜索能力,实现了于全网信息的高效互联,及时获得准确、有效的信息,再凭借生成式大语言模型对信息的提炼、总结和生成能力,快速给出兼具时效性和可读性的答案。
“大模型+搜索引擎两者融合的产品更像用户的个人助手,交互模式会更多样,能力边界也会显著扩大”。张向征透露,以用户需求为出发点,360GPT还将与浏览器、数字助理、苏打办公、智能营销等场景应用深度结合,为用户提供多元化的智能服务。
02.多年布局人工智能,技术场景“两翼齐飞”
早在2015年深度学习技术风靡时,人工智能就已是搜索行业变革的重要推动力。
2017年,NLP领域划时代的Transformer算法诞生。沿着Transformer的路径,GPT、BERT等新技术,将机器视觉领域的训练方式用于自然语言领域,实现了“智能化”的进一步升级。
对比GPT与BERT来看,GPT是一个单向模型,更擅长“写作文”,而BERT是双向模型,可以联系上下文进行分析,更擅长“完形填空”。因此,相比较于GPT,对于围绕已存在内容展开业务的搜索引擎行业来说,BERT是更常用的模型。
BERT和GPT模型结构对比(来源:BERT论文)
而ChatGPT的出现带来了技术路线的大变动。
张向征表示,人工智能技术一直是360搜索不断进化的关键,ChatGPT作为一种新形式的后端变革,将影响后续搜索引擎底层技术的调研和技术的应用方式。
他介绍道,2015年,360搜索就开始用深度学习模型进行搜索的召回、排序以及Query意图识别等关键环节。之后,360搜索又开始使用多模态检索模型,来多元化搜索形态,适应图片搜索等新需求。
到2019年,360搜索完成了对BERT模型的初版应用,2020年完成BERT的全流量在线部署和应用。此时,360搜索已经开始做“阅读理解”。不同于仅提供链接,针对某些已经有明确答案的问题,360搜索可以抽取精准答案所对应的段落和句子,并直接展示在搜索页。
“也正是这些探索打下的基础,今天我们才有了自己的生成式大语言模型和产品矩阵‘智脑’”。张向征这样说。
众所周知,搜索引擎的核心是底层的技术能力以及优质的内容和服务。因此,搜索引擎未来的产品形态、交互模式、展现方式等都将基于其核心能力,再根据用户的习惯和偏好不断变化。未来的搜索引擎将形成全新的入口,搜索能力会继续存在,并承担相应的后台支持功能。
人类获取信息的方式的变革蕴含着巨大的机会。可以想见,基于360GPT的新一代的智能搜索引擎将承载更多的用户使用场景,也将迎来更大的想象空间。
03.“未来搜索引擎”已至,360搜索的底气从何而来?
据了解,从2012年成立之初,360搜索就以其独特的产品和技术实力,构筑起了差异化的市场定位。
依托于360集团,360搜索在安全层面积累深厚。借助于旗下产品对于病毒、钓鱼网站等的识别与拦截能力,360搜索可以及时过滤风险,为用户打造更安全、稳定的上网环境。
另一方面,随着各种垂直平台的兴起,互联网内容开始“孤岛化”。作为全网搜索平台,360搜索始终坚持开放的发展策略。
360搜索一直以来都重视对内容生态的建设。目前,360已经与多个内容平台达成合作,所有内容提供方均参与收入分成,逐步形成了互惠共享的生态环境。
此外,360搜索还在搜索的数据、算法、工程化能力以及服务接口对内对外双向赋能,更大范围地触达用户群体。
对内,360推出的日历等订阅产品,就融合了360搜索的功能,用户一键订阅,就能实时收到最新的信息更新。对外,360搜索入局SaaS业务,通过为某些垂直领域的搜索平台提供SaaS化的接口,来输出其全网搜索能力。
与此同时,360搜索也在持续加筑自身护城河,紧随GPT大语言模型,360搜索借助其人工智能技术的积累,利用360“智脑”探索产品边界,推出新一代智能搜索。
业界有一个普遍的共识,那就是ChatGPT的性能卓越主要源于其预训练模型参数量巨大,人工反馈为主的标注强化学习手段,以及先进的思维模式训练方法。从GPT-1到GPT-3,模型训练的参数量呈千倍增长,已达到接近2000亿的量级。在数据量达标,用大模型把知识容量、基础通用能力做的足够高之后,大模型研发就要面临工程落地环节。这需要耗费巨大的训练和推理成本,也是“英雄折戟”之地。
模型规模不等于符合实际需要,为了避免无意义回答,还要为人工智能加上“倾向性”,这就用到RLHF新技术,即基于人类反馈的强化学习,通过人工标注来加入方向性引导。最后,思维训练也是人工智能的一部分,要使其具备推理能力,能进行高度拟人化的多轮对话。
除了以上难点,GPT大语言模型要真正落地,还要结合对实际业务的理解。这将是一个逐步改进,不断摸索的过程。
在巨大的壁垒面前,360有着“先天优势”,360搜索的内容涵盖全网数据,抓取过的网页数已达上万亿,现存网页数达数千亿,索引的网页达数百亿,这能为技术开发提供足够多的语料。
从数据多样性上来看,360搜索不局限于某一类别的数据,而是对电商、新闻、小说、问答、百科等各类数据均有覆盖,保证了数据集的完整度。
360搜索基于图像AI识别能力推出了“图查查”平台
文本数据之外,360搜索还利用多模态搜索技术,通过识别文本和图像间的映射关系,将语料信息延伸到更丰富的形态中。
据了解,360搜索已经积累了数百亿的图片信息。2022年,360搜索还联合360人工智能研究院与清华大学,推出了中文图文跨模态数据集Zero和图文跨模态预训练框架R2D2。
其中,Zero包括两个预训练数据集和五个下游任务数据集,预训练数据集包括2300万和230万两个版本,该数据集也是国内开源的首个中文图文跨模态领域数据集。
360搜索联合360人工智能研究院、清华大学推出的中文图文跨模态数据集Zero
当然,仅有大规模数据集还远远不够。要形成有效的语料集,对各类信息进行筛选和清理同样重要,这就需要扎实的人工智能工程能力。
张向征表示,任何人工智能技术的落地都离不开工程能力,也就是让人工智能技术以低成本、高效率的方式落地实施的能力。
基于多年深耕,360内部在模型训练平台、预训练语言模型等方面,已经积累了丰富的经验,能为GPT大语言模型的开发提供良好的工程支持,有效降低训练推理和业务落地的成本。
早在几年前,360搜索就已经把所有的底层文档,以向量形式表达,能快速锁定、提取内容,进一步提高检索和筛选的效率。同时,结合用户的搜索反馈,360搜索能有效判断不同信息的重要性,进一步提高语料集的质量。
此外,人工智能的持续商业化落地,也离不开充足算力的支持。360内部部署的数万台服务器、数百台GPU,已成为相关研究所需算力的有力支撑。
从数据到算力,再到工程能力,正是360集团一直以来对人工智能的重视,形成了今天360搜索探索未来搜索引擎的充足底气。
04.从基础研究到上层应用,360集团奔向人工智能的“星辰大海”
平行于360搜索,360集团设立了360人工智能研究院。
据了解,360人工智能研究院专门进行人工智能基础模型和前瞻性技术的研究,现阶段主要聚焦于研发业界领先的计算机视觉、深度自然语言理解,语音语义交互等人工智能技术,再将研究成果应用于智慧物联网(IOT)、智能安全大数据,互联网信息分发等多种场景。
其研究范围涵盖人工智能各主要领域,申请专利数接近400件。团队核心成员还曾于2017年在有“计算机视觉届世界杯”之称的ImageNet比赛中获得两项冠军,并刷新了谷歌、微软保持的世界纪录。在2019-2021年的中国人工智能大赛中,360人工智能研究院更是取得3连冠。
此外,团队还参与了国家级重点大数据工程实验室和国家新一代人工智能创新发展试验区开放实验室的建设,其主导项目也已入选“科技部科技创新2030项目”和“吴文俊人工智能科技进步奖”。
张向征表示,人工智能研究院主要提供底层研究支持,360搜索在内的各业务部门,则负责将人工智能与业务场景相结合,同时将实践结果反馈给研究院,形成了基础研究到上层应用的生态闭环。
目前,360已经搭建起了数百人的人工智能研发团队,并广招人工智能人才,每年的研发投入也均以亿级计算。