大数据产业创新服务媒体
——聚焦数据 · 改变商业
近日,拓尔思发布了2023年半年报。从其业绩表现来看,并不乐观。2023年上半年,拓尔思收入4.44亿元,同比增长4.58%,扭转了收入连续两年收入下跌的态势,但也不能算是强势反弹;净利润7025万元,同比下跌5.27%,跌幅有所收窄。
不太乐观的业绩
2019、2020年,拓尔思业绩经历了快速的增长,尤其是净利润每年都翻倍增长,净利率也在提升。
但进入2021-2022年,拓尔思的境况直转之下,营收和净利润都在下滑。2023年,开始有止跌回升的态势。
从业务结构上,拓尔思也发生了比较显著的改变。其主营业务主要有大数据软件产品及服务、人工智能软件产品及服务、安全产品以及系统集成及其他四项。其中,大数据软件产品及服务业务在下滑,其2022年上半年收入2.22亿元,占比52.31%,而2023年上半年收入2.06亿元,占比46.28%。人工智能产品及服务业务也有所下滑,该项业务2022年上半年收入为8417万,占比19.81%,而2023年上半年收入7977万元,占比17.95%。
对应的,安全产品业务有所增长,收入从2022年上半年的5487万元增长到2023年上半年的6287万元,占比从12.91%增长到14.15%。
收入增长最多的是系统集成及其他业务,从2022年上半年的6363万元增长到2023年上半年的9611万元,占比从14.97%增长到21.63%。
也就是说,拓尔思的两项主营业务大数据和人工智能相关的软件产品收入,都有不同程度下滑。这两项业务具体是干什么的呢?
根据财报信息,拓尔思的大数据、人工智能产品主要包括包括海蜘大数据采集平台、海聚数据融合平台、海贝大数据管理系统、天骄数据中台、智拓人工智能技术平台等通用产品,以及数字政府、融媒体、公共公安等领域的行业产品,包括海云集约化智能门户平台、海融智能媒体融合平台等。
目前来看,拓尔思构建了一个比较全的产品矩阵,但为什么产品相关业务却发展的不好呢?一个重要的原因,是其大数据、人工智能产品追求大而全,看似产品很多,但单个产品的竞争力却不够强。以大数据产品为例,其产品体系覆盖数据采集、数据管理、数据中台、数据应用等多个环节,按这样全链条的产品布局,应该对应几十亿的收入体量,然而拓尔思在这部分的收入才2亿多,分摊到每个细分领域也就几千万收入,是很难支撑起这样一个全链条的产品布局的。
事实上,拓尔思折射出的是中国很多软件厂商的通用特点,即追求大而全的产品布局,试图为客户提供一站式的解决方案。事实一再证明,这样的思路是行不通的。与其追求大而全,试图覆盖数据的全链条,还不如聚焦到某一个环节做深做透。以美国的经验来看,“单点突破”依然可以做到上百亿美元的市值。
数据是拓尔思进军大模型的核心砝码
需要指出的是,在拓尔思整体不太好的业绩中,我们发现一个重要的亮点,那就是其对于大模型、AIGC的布局。
从目前的布局来看,拓尔思一方面推出多个行业大模型,另一方面为其他大模型厂商提供数据服务。
在行业大模型方面,拓尔思的核心优势在于其NLP技术积累,以及行业经验的积累。
2023 年 6 月底,拓尔思发布了“拓天大模型”,并推出适用媒体、金融、政务的三个行业大模型。此外,拓尔思还启动了拓天网信行业大模型、公安行业大模型、法律大模型的业务场景规划与预训练。
而且,拓尔思已经在大模型领域赚到钱了。根据财报,其AIGC 业务实现了营业收入 782.18 万元,较上年同期同比增长 206.02%,主要业务涉及消保报告自动写作、媒体智能辅助写稿等应用。
应该说,这是一个不错的成绩。
但是,笔者并不看好拓尔思的行业大模型。大模型如今已经成为AI乃至整个科技界的“香饽饽”,中国企业已经推出了近百个大模型,其中不乏百度、阿里巴巴、华为、腾讯这样的科技巨头。可以说,这个行业刚起步就已经进入了惨烈的红海竞争模式。
科技巨头不仅推出通用大模型,也在大肆进军行业大模型领域。从技术逻辑上,大模型本身就有预训练-微调两个阶段,在预训练通用大模型基础上,依据行业数据和行业应用场景进行模型微调,进而训练出行业大模型,这在技术上本身就没有多少门槛。短短几个月内,国内市场涌现出上百个行业大模型,也说明这个事情本身就没什么竞争壁垒。
跟科技巨头相比,年营收只有几亿元的拓尔思显然并不具备多少竞争力。拓尔思具体是怎么打造自身大模型的,并没有详细说明,但我们可以做一个大致的推断:在GPT、百度文心一言、阿里通义千问、华为盘古等通用大模型基础上,结合自身的数据进行再训练,进而训练出针对不同行业的大模型。
也就是说,拓尔思的核心壁垒不在于大模型的技术,而在于行业数据。
在笔者看来,数据的优势才是拓尔思未来发展的杀手锏。
在拓尔思的业务体系中,除了提供软件产品以及SaaS产品外,还有一个值得关注的就是其大数据服务。
拓尔思采集公开信源数据进行加工处理,通过不同专业模型转化成不同领域的知识数据。目前,在数据资源方面,拓尔思有超过10万个数据采集点,这些采集点每天都在源源不断的产生大量数据,结合拓尔思的数据验证、处理、治理等过程,将这些数据转变成高质量的数据资产。
目前,拓尔思拥有经过领域知识加工的权威高质量公开数据 1500 亿+,涵盖近 10 年来的报刊数据、互联网主流新闻数据、新闻资讯客户端数据、政府类门户网站数据、权威第三方平台数据及行业资讯数据等。
基于这些数据积累,拓尔思的数据资产本身就可以卖钱。目前,拓尔思形成了三个数据资产平台:数家(媒体资讯)、网察(舆情)、数星(产业大脑),并衍生出基于数据资产的收费模式。
我们知道,决定一个大模型性能的要素有三个,分别是算法、算力和数据。训练数据集的规模、质量,将直接决定了一个大模型的最终表现。尤其是训练行业大模型,行业数据集的质量和规模更是至关重要。
现在,关于优质数据集的争夺战已经打响了。推特在今年上半年宣布对ChatGPT的API接口收费,且价格不菲。此前,这些平台的内容可以被谷歌、OpenAI等公司免费爬取,用作大语言模型的训练库。在国内市场,笔神作文表示学而思通过“爬虫”技术非法访问、缓存笔神作文APP服务器数据多达258万次,严重侵犯了笔神作文APP的数据权益。
可以预见,将来围绕数据集的争夺将愈演愈烈,而高质量数据集的价值也将水涨船高。尤其是各个领域的行业大数据,几乎已经成为大模型在各行业落的“敲门砖”。拓尔思长期积累的数据集,不仅数量庞大,而且由于其经过处理和数据治理,数据质量也不错,这些数据将成为拓尔思很重要的资产。
从实际情况来看,拓尔思也意识到了其家里的“金矿”,已经在采取行动,其已经在与多家大模型厂商洽谈数据服务合作。目前,拓尔思已经跟云天励飞签订了数据服务合作协议,根据协议,拓尔思将以数据推送服务方式为云天励飞提供近两年广东省政务网站(非全量)新闻、公文、公告、政策类数据数百万条,作为其大模型预训练数据集。
当然,要将大模型的数据服务发展为一个成熟的商业模式,还有很多工作需要做。其中,需要解决的一个关键问题,就是业务模式。最简单、价值量最低的方式,就是直接卖数据,这种商业模式并没有发挥出数据资产的真正价值。最好是能借鉴高通在芯片领域的商业模式——拓尔思这类数据服务商,跟大模型厂商签订长期合作协议,为其提供长期的数据服务,作为回报,大模型厂商整体业务收入的一定比例(比如5%)要作为服务费支付给数据服务商。这样一来,数据资产不是一次性售卖,而是分享了数据在大模型应用中的价值。
如果这个商业模式能够成立,那拓尔思的想象空间一下就打开了。
当然,拓尔思的谈判地位,决定于其数据集的规模、质量、稀缺性,质量越高、稀缺性越强,规模越大,拓尔思的议价能力越强。
此外,还存在一个潜在的风险,就是拓尔思是否拥有这些数据的最终版权。比如,拓尔思为云天励飞提供广东省政务网站的新闻、公告等数据,但这些数据的最终版权按理说是属于广东省政府的,拓尔思是否能拿到授权来进行商业化,这需要打上一个问号。同样的道理,拓尔思所存储的大量其他政府、媒体等的数据,是否都有版权来支撑其后面的商业操作,是否存在某些版权隐患?这是拓尔思需要回答的问题。
以上,我们分析了拓尔思的业务情况。从目前情况来看,其原有的大数据、人工智能业务承压,大模型、AIGC是其一个重要的突破方向。在大模型领域,拓尔思布局了多个行业大模型,但其最大的竞争壁垒应该在于长期积累的数据资产,这是拓尔思待挖掘的金矿。
从整个行业来看,大部分企业都将注意力放在大模型本身,其实这是存在问题的。大模型有三个要素,算法、算力和数据。在算法层面,这是百度、阿里巴巴、华为这种科技巨头的游戏,现在涌现的诸多大模型竞争力并不强,最终整个市场将剩下不超过5个大模型,大部分大模型都将成为“炮灰”;在算力层面,现在最大的赢家是英伟达,国内的华为以及一些创新型GPU厂商值得期待。另外一个容易被忽视的要素就是数据,其实数据的价值被低估了。将来,拥有数据资产的企业也将具备很强的议价能力,分享整个大模型产业的发展红利。
★ 关注数据猿公众号,后台回复“拓尔思2023年半年报”即可下载完整版拓尔思2023年半年报。
文:一蓑烟雨 / 数据猿