分享好友 最新资讯首页 最新资讯分类 切换频道
腾讯看点CTO徐羽:推动AI技术落地,永远保持“技术身,产品心,用户眼”
2024-12-30 00:37

记得在两年前的「930 组织架构变革」不久,同年 11 月份,腾讯发布了信息流内容服务品牌——腾讯看点,把 QQ 看点、快报和 QQ 浏览器的资讯内容整合到一起,利用机器学习、算法等技术为不同年龄层的用户精准推荐信息流,可以看出腾讯在利用 AI 技术推动内容分发和推荐这件事上开始发力,除此之外,还有基础设施,基础架构的演进。

恰好在一年之后的 10 月 15 日,腾讯与搜狗正式交接,搜狗全员转换身份入职腾讯。交接日当天上午,腾讯发文在 PCG(平台与内容事业群)下成立“信息平台与服务线”,负责 QQ 浏览器、看点、搜索、免费小说、文件等业务,为用户提供信息搜索、浏览消费、编辑存储、信息服务等平台与服务,负责人为腾讯副总裁殷宇(Mel),而徐羽是新成立的“信息平台与服务线”技术负责人。

借此机会,我们邀请徐羽老师来 11 月 5 日 (北京站)2021 上演讲,分享 AI 与推荐技术在腾讯看点的应用。在正式演讲前,我们采访了徐羽老师,聊聊他们在技术上有哪些投入,有哪些技术成果,以下是整理的内容。

徐羽作为腾讯看点技术负责人,亲历并主导了腾讯看点 AI 平台建设和演进的三个阶段,重点围绕推荐算法、算力以及 NLP 技术方面。

第一次改造是从浅层的推荐算法模型向超大规模深度推荐算法模型的演进,早期偏 LR 和 DNN 的浅层算法模型在泛化能力和用户兴趣表达方面越来越不足,所以在中台建设了无量大规模机器训练推理平台基础上,把 QQ 浏览器的推荐模型升级为千亿级参数量的排序模型。

第二次改造是推荐系统的训练和推理从原来 CPU 为主,升级为 CPU+GPU 的混合方案,充分结合 CPU 擅长的 IO 网络吞吐计算和 GPU 擅长的神经网络计算,在降低服务器成本的同时大幅度提升机器学习的性能。

第三次改造是 NLP 的大规模预训练平台,目前 QQ 浏览器实验室发布的神舟预训练模型在中文语义理解榜 CLUE 上首次打败了人类,未来腾讯看点所有 NLP/多模态模型都会基于这套预训练模型基础进行 fine-tune 的模式,大幅度提升 NLP 和多模态的训练和研发速度。

关于神舟模型介绍,可以点击这里查看:

最初的腾讯看点,整合了过去的 QQ 看点、快报和 QQ 浏览器的资讯内容,当时的架构层面有做一定的融合,不过由于是涉及存量业务的推荐系统改造,范围要覆盖底层样本、特征、RPC 协议的大量重构,实际上对一个推荐系统来说还是非常的复杂。徐羽说,目前腾讯看点的研发团队正在 PCG 中台里面主导开发新一代推荐架构 TRS(Tencent Recommendation System),后续腾讯看点推荐架构会更多的往这个新架构做迁移。 

面对来自 QQ 看点、快报和 QQ 浏览器的不同年龄群体的用户,如何在不伤害用户习惯的前提下进行内容分发和推荐?

徐羽介绍,这方面的个性化的推荐本质上就应该解决年龄和兴趣点范围不一致的问题,具体到实际的操作层面,有几个推荐分发设计上的重点:

第一是区分人群单独建模,快报、浏览器和看点的用户模型肯定是需要独立建模的,这样才能保证合适人群的算法不会被大盘带偏,保持原来的精准度。

第二是底层的内容特征会有一定的打通,保证一个新的热门内容有机会通过多个业务的流量放大,通过多级火箭的方式形成爆款,最终可以把更快更热门的内容推送给用户。

今年 8 月份,腾讯 QQ 浏览器组织了 AI 算法大赛,徐羽担任嘉宾评委。大赛组委会从信息流实际应用场景痛点出发,大赛议题设置了“自动超参数优化”赛道,重点是探索如何用 AI 技术解决模型或策略效果依赖于“超参数”问题的。

徐羽说,传统的做法在融合多个不同目标模型(例如 CTR、时长、互动等)的时候是需要人工配置一些超参数再去观察现网的效果,再反馈回来进行调整,这个周期很长而且在超参数空间比较大的情况下通常难以找到最优参数。自动超参数优化的目标就是通过 AutoML 中的 HPO 方式,把人工寻参的方式通过网格搜索、非个性化寻参到最终个性化寻参的方式提升效率,在腾讯看点实践过程中可以减少 80%以上的寻参时间,大大提升了推荐系统的研发效率。

另外,由于短视频消费引来爆发式增长,视频的语义理解对于提升用户消费效率至关重要。在“多模态视频相似度”上,腾讯看点的解决方案是,首先采用了图像、镜头、视频逐级表征融合方式对视频内容进行表征,提高对不同时空间尺度视频内容的表达能力,同时利用业界新的跨模态预训练模型来抽取能更好关联视觉和文本的特征,引入了 MLM(词的掩码预测)、VTM(视频、文本的匹配)等多种预训练任务来提升对比学习的效果,并且采用多任务学习范式,将分类、标签等多种类型监督信息融合到相似度模型中,在纯内容的视频相似度预测准确性上提升了 10%以上。

其次,腾讯看点团队还利用推荐中用户点击、消费视频的数据来学习视频之间的高层次语义关联。另外在此次 QQ 浏览器算法大赛中,看点团队也提出了用 Spearman Ranking Coefficient 来离线评估视频相似度,比传统方法更稳定,能支持更高效的算法迭代。以上几方面的创新也在浏览器的视频推荐中获得了显著收益。

这两年各大公司在超大规模预训练模型和推理 Framework 上都有研究进展,比较有名的模型参数量都已经到万亿级别了,应用场景差异也比较明显。以 GPT-3 为例,它依然是偏 NLP 的模型。当然,在 AI 大模型的探索上,有的机构着眼于提升超大规模 AI 算力的,有的着眼于突破学术前沿的。

腾讯看点在这方面的思路从实际业务出发,探索如何利用大规模预训练模型来产出业务价值。

徐羽进一步解释说,在实际的推荐和搜索业务场景中,有异常丰富而且持续演化的内容需求,而这些内容需求在开始的时候都是远不如学术界的数据那样有着客观清晰的定义。所以数据标注就成为内容算法研发的核心瓶颈。

看点团队利用腾讯丰富的内容数据,产出了“神舟”预训练模型,基于神舟模型来微调满足业务的 NLP 需求(例如评论理解、搜索 Query 推荐等),减少了 40%以上所需的标注数据量和相应的研发时间。另外在学术上,也在权威的中文自然语言理解评测基准 CLUE 上首次超越了人类。

此外,AI 算力的演化,召回的算力不断提升,Ranking 的算力越来越强,尤其是在云原生环境下,这也给推荐搜索架构带来了挑战。

目前在单次搜索或者推荐的请求里面,已经需要数百个模型来进行在线推理和千万级 Item 的索引检索。徐羽说,随着模型复杂度进一步提升,目前的推荐架构确实有点力不从心了,看点团队也做了一个比较大的创新,推荐搜索系统的在线推理从原来 CPU 为主,升级为 CPU+GPU 混合的方案,充分结合 CPU 擅长的 IO 网络吞吐计算和 GPU 擅长的神经网络计算,在降低服务器成本的同时大幅度提升推荐和搜索系统的性能。

徐羽在技术研究和产品设计上,都有丰富的经验,最早的时候也参与过数据分析工具 TBI 项目。在产品设计和产品运营上有哪些坚持的原则和方法,按照徐羽的说法,因为他工作以来一直是在前线做业务,所以更多时候会像一个 AI 产品架构师去思考,对于不同的产品会用不同的理念来区分对待。对于偏长线的技术产品,例如对于 PCG 的 AI 中台,他会在初期就做一个 3 年的长期规划,从点到线到面的 AI 路径图每年实现一步:

对于偏业务层面的技术,例如 QQ 浏览器的信息流推荐,徐羽会坚持以用户体验驱动来牵引,虽然推荐是一门非常有技术深度还在不断演进的前沿 AI 技术,但是推荐产品本质依然是用户的体验。“对于我们内部每上线一个推荐 A/B 实验,都是要求研发人员除了讲清楚技术原理和数据收益,也期望大家能从本质上可以解释具体解决了用户的哪些痛点和哪个场景里面的问题。”

徐羽一直保持着对前沿 AI 新技术的兴趣和细节的了解,但是随时能跳脱出来以业务产品的角度来 review 是否存在技术的过度追求带来的用户体验或者产品上的负面问题。同时,他还认为,拥有对产品长期技术需求特别是技术难点的预测,是 AI 产品架构师的综合能力要求和定位。

嘉宾介绍

最新文章
AI助手 - CodeGeeX
大语言模型人工智能助手是一种基于深度学习技术的人工智能系统,它可以理解和生成自然语言文本。这种助手可以通过对大量的文本数
AI时代如何优化SEO关键词提升网站排名
在快速发展的AI时代,网站的SEO优化成为了每个企业和个人不可忽视的重要课题。有效的SEO关键词优化不仅能提升网站的搜索引擎排名
DeepL Pro翻译器 v1.12
DeepL Pro翻译器是一款专业强大的翻译软件,用户们可以在这里拥有先进的AI技术和出色的翻译质量,让用户们可以在这里高效的进行
AI编程助手:如何自动生成脚本代码及其应用全攻略
在数字时代的浪潮中人工智能()已经逐渐渗透到咱们生活的方方面面,其中之一便是编程领域。编程助手的出现,不仅极大提升了编程
​2018深度学习引用数最高的十大论文
译者 | 林椿眄出品 | AI 科技大本营(公众号ID:rgznai100)在过去的几年里,作为机器学习和统计学习的
firewalld防DDOS攻击配置及模拟测试
模拟请求测试 模拟tcp flood请求工具有 hping 和 nping hping 不支持ipv6 因此 最好使用 nping 来进行测试。两个工具都是 kali机
AI绘画-Stable Diffusion笔记
软件:Stable Diffusion视频教程来自 https://www.bilibili.com/video/BV1As4y127HW/?spm_id_from=333.337.search-car
AI广告、固态电解质概念股火爆,人气龙头5连板!高手看好这个板块潜力!
每经编辑 吴永久周三上午,三大电信运营商股价大涨,AI广告概念股蓝色光标、易点天下股价大涨,硫化物固态电解质概念股有研新材
DELL的新游戏?移动工作站DELL Precision 7560评测上篇
提示:本文为2021年作品,因为是少有的评测资料,应网友重发。请各位读者不要认为是当前时间的作品。简介上篇全文4800余字60多张
ctf(2)-攻防世界web高手进阶区
web请求头中的location作用 步骤 1.根据提示,在url中输入index.php,发现打开的仍然还是1.php 2.打开火狐浏览器的开发者模