分享好友 最新动态首页 最新动态分类 切换频道
图灵奖得主回顾与展望:数据库发展 60 年,AI 颠覆在即?
2024-12-26 15:20
作者 | 苏郡城  
1 引言:图灵奖得主联合撰写论文,洞悉数据库近 20 年发展脉络  

最近,数据库领域的两位重量级人物 Michael Stonebraker 和 Andrew Pavlo 联合发表了一篇题为“What Goes Around Comes Around...and Around...”的论文。这篇文章可以看作是 Stonebraker 教授 2005 年那篇著名综述“What Goes Around Comes Around”的续篇,试图在新的时代背景下重新审视数据库技术的发展历程。

作者背景

Michael Stonebraker 教授是数据库领域的传奇人物,因在数据库管理系统方面的开创性贡献而获得 2014 年图灵奖。他参与创建了多个著名的数据库项目,包括 Ingres 和 PostgresSQL。

(图:作者 Michael Stonebraker, 维基百科)

另一位作者 Andrew Pavlo 则是卡内基梅隆大学计算机学院的教授,他的研究集中在数据库管理系统的设计和实现上。Pavlo 曾创立创业公司 OtterTune,提供自动数据库调优服务。(btw,上个月公司关门了)

(图:作者 Andrew Pavlo,维基百科)

2 论文的主要内容和观点  

论文对过去 20 年数据库领域发展过程中出现的数据模式和查询语言做了完整的盘点,包括了以下领域 (1) MapReduce Systems, (2) Key-value Stores, (3) Document Databases, (4) Column Family / Wide-Column, (5) Text Search Engines, (6) Array Databases, (7) Vector Databases, and (8) Graph Databases。

两位作者简评了目前 DBMS 架构上的演进方向,包括:

(1) 列式系统 Columnar Systems 革命性地改变了 OLAP DBMS 架构

列存储数据库在分析场景下优于行存储,因为其可以获得更高的压缩率,并且只需读取查询相关的列,大大降低了 I/O 开销。现代列存储系统还引入了向量化执行、代码生成等查询优化技术,进一步提升了性能。

不过,列存储在事务处理等混合负载场景中难以发挥优势。因此,主流的行存储数据库也开始增加了对列存储的支持。未来,行存储与列存储很可能会进一步融合,以应对日益复杂多变的数据管理需求。

(2) 云数据库 Cloud Databases 让用户更方便的使用可扩展的数据库系统

云计算催生了一批专为云环境设计的云原生数据库系统,如 Redshift,BigQuery 等,它们能够充分利用云基础设施的弹性和高可用性。同时,传统的本地数据库也陆续推出了云托管版本,以期在云时代保持竞争力,但它们在云上的部署和管理仍然较为复杂。此外,云数据库普遍采用了按需付费的订阅制定价模式,这降低了用户的前期成本 ; 而数据库即服务 (DBaaS) 模式则让用户无需关注底层基础架构,进一步简化了管理。

不过,作者也指出云数据库引发了一些新的担忧,如供应商锁定、安全与隐私等问题。未来,开放中立的数据云平台如 Snowflake 或 Databricks(i.e. 国内如云器 Lakehouse,-- 编者按),以及配合相关标准规范的制定,或许可以缓解这些担忧。

(3) 数据湖和数据湖仓 Data Lakes / Lakehouses 基于云上的对象存储并使用开源的数据格式将是 OLAP DBMS 未来十年的架构趋势

数据湖和湖仓一体架构是大数据时代数据管理的重要发展趋势。数据湖支持存储各种结构化、半结构化和非结构化数据,为数据科学和分析提供了统一的数据源。但传统的数据湖方案在事务处理、元数据管理、数据治理等方面仍有不足。因此,Databricks 公司提出了湖仓一体架构的概念,旨在将数据仓库的结构化处理与数据湖的灵活性相结合。例如,Delta Lake 引入了 ACID 事务和模式演化等特性 ; 而 Apache Hudi 和 Apache Iceberg 等开源项目则侧重于数据湖上的增量处理和元数据管理。

不过,作者指出,湖仓一体架构的成熟度还有待提高,许多系统集成和性能优化的问题仍有待解决。同时,用户也需权衡湖仓一体架构的复杂性和引入成本。未来,数据湖与数据仓库的界限可能会逐渐模糊,两者的优势或将融合交汇,形成统一的大数据管理平台。

(4) 新型 SQL 系统 NewSQL Systems 有望在未来弥补 NoSQL 系统在事务支持方面的短板

NewSQL 作为数据库技术的一个新的发展方向,虽然目前还不如列式数据库和云数据库成熟,但有望在未来弥补 NoSQL 系统在事务支持方面的短板,在某些场景下提供更优的选择。不过,NewSQL 能否真正实现“鱼与熊掌兼得”,还有待时间的检验。

to NoSQL’s weaker BASE guarantees.作者认为 NewSQL 系统利用了新的理念,但尚未达到列式数据库和云数据库同等的影响力。NewSQL 的出现导致了新的分布式数据库管理系统的诞生,这些系统支持更强的 ACID 语义,与 NoSQL 的较弱的 BASE 保证形成对比。

但是客户对切换到 NewSQL 兴趣不大,背后的原因在于,对于当下而言,现有的数据库管理系统已经足够好了。这意味着,各组织不愿意承担将现有应用迁移到新技术所带来的成本和风险。

(5) 硬件加速 Hardware Accelerators 并未见到更多落地案例

作者坦言,除了主要的云厂商在做相关尝试,并未见到更多特别的硬件加速的落地案例。尽管很多初创企业在这个领域还在不断尝试。

硬件加速器可以提升数据库的性能,尤其是在处理计算密集型任务时。不同类型的加速器,如 FPGA、GPU 和智能 SSD,都已经在一些数据库系统中得到应用。例如,Swarm64 DA 使用 FPGA 来加速 SQL 查询 ;Brytlyt 和 BlazingDB 等系统使用 GPU 来并行处理大规模数据 ; 而 Oracle、IBM 和 Samsung 等公司则探索了智能 SSD 在数据库中的应用。

但是,作者也指出了硬件加速器在数据库中应用的一些挑战,如硬件异构性、编程复杂性、可移植性差等。此外,加速器可能带来额外的成本和能耗。展望未来,作者认为硬件加速器与数据库的结合将成为长期趋势。数据库需要提供更好的抽象和接口,以充分利用加速器的性能优势,同时降低开发和维护成本。而加速器也需要在通用性、可编程性等方面进一步提升,以适应数据库的需求。

(6) 区块链数据库 Blockchain Databases 尚在寻找应用场景的低效技术

Stonebraker 和 Pavlo 对区块链数据库并不看好,称其是尚在寻找应用场景的低效技术。历史已经证明,这是一种错误的系统开发方式。

作者基于过去 20 年的数据库领域经历,总结出以下“原则”

3 总结关系模型:数据库发展“轮回”的“主线”  

纵观全文,Stonebraker 和 Pavlo 一起引领我们回顾了过去 20 年数据库系统 DBMS 发展的主要脉络,总结了这 20 年的发展趋势和技术演进方向,可以概括成以下四点:

恰如文章的标题“whats goes around comes around”,所有 goes around(发展出去的技术)最终 comes around(回归)到关系模型和 SQL 查询语言,这个主线上来。

4 未来仍是“轮回”?笔者略有不同观点  

首先,要澄清的是笔者同意 Stonebraker 和 Pavlo 在论文中对过去技术演进的总结部分和评论观点,作者以独到的见地和高屋建瓴的洞察,对几十年间的技术创新有辛辣的点评,带给了读者深刻的反思与思考。

然而,笔者同意作者的前一半总结观点,不同意的是对未来发展脉络的预见:

5 关系模型在过去历久弥新,因其易于“人”的理解和使用  

关系模型以"关系"(即二维表格)作为数据的基本表示和操作单元,任何复杂的数据结构都可以转化为若干张规范化的表。这种抽象具有普适性,能够自然地对应到现实世界中的各种实体及其之间的联系。同时,二维也是一种简洁直观的数据形式,易于“人”的理解和使用。正是得益于关系模型在抽象层面的优雅,结合 SQL 所想即所得的描述型语言,两者结合能够被广泛接受,成为数据库领域事实上的通用语言。

(图:RDBMS 与 SQL 查询)

挑战一:AI 正在重塑数据的生产和消费方式

传统的数据库系统主要面向以“人”为中心的应用场景,数据的生产者和消费者都是人。然而,随着物联网和 AI 技术的普及,越来越多的数据是由机器生成,并被机器所“消费”。相比结构化的业务数据,机器生成的数据通常具有非结构化或半结构化的特点,而机器学习算法对数据的“消费”方式,也与 SQL 查询有着本质的不同。

以深度学习为例,神经网络模型通常需要将数据表示为高维向量或张量,并进行大规模的矩阵运算。这与关系模型的行存储方式和基于集合代数的查询语义有着天然的差异。对人来说最优的可理解的数据,对机器或 AI 来说或许就是“局限”。为了让 AI 系统高效地访问和处理数据,我们或需要重新设计数据的表示和操作方式,而这很可能不是适配关系模型的最佳范式。

挑战二:RDBMS 和 AI 模型的“比例”关系正在改变

过去 20 年来,关系模型始终处于数据库的主线,AI 作为单独场景的特殊处理方式,以 ML/DL 机器学习和深度学习的方式服务特定场景,并由专业的数据科学家主导领域的探索和落地应用。可以说,关系模型为主,AI 模型为细分场景为辅的架构模式。企业实践中,可能关系模型占比 80%,AI 模型占比 20%,这样的比例关系较为常见。然而随着 AI 和更强的算力 GPU 等技术的崛起,这个比例关系正在改变。

AI 正在全面取代“大数据”时代的传统模型和方法:  

以智能汽车为例,Tesla 凭借积累的海量驾驶数据训练的车载模型,正在帮助其实现真正(L4+)的无人驾驶

或者我们需要提出一个问题,原来通过传统“大数据”的方式解决的问题,今天是否可以通过 AI 大模型解决?效果是否更好?如果答案是肯定的——那么,我们正在目睹 AI 大模型取代传统大数据时代的解题方式。

2024 年,我们确信将见证更多 AI 能力在商业环境中落地实现。

挑战三:基于 RM 的数据分析平台与面向 AI 的数据平台,是什么关系?融合 or 分裂?

两大数据平台领域巨头给出了他们的答案——选择全面 AI 战略

面对 AI 浪潮的挑战,数据库领域的两大巨头 Databricks 和 Snowflake 已经分别给出明确的答案:全面拥抱 AI。在最近的产品发布会上,双方不约而同地推出了面向 AI 的新产品线。

除了在 AI 领域的布局,Databricks 还通过资本手段巩固了自己在开放的数据存储格式上的优势。近日,Databricks 收购了 Apache Iceberg 项目的商业化公司 Tabular。Apache Iceberg 是一个开源的数据湖表格式,与 Databricks 主推的 Delta Lake 形成竞争关系。此次收购不仅阻断了对手在数据格式上的优势,也为 Delta Lake 的发展扫清了障碍。笔者在早些时候的文章《》中对此有更深入的分析。

Databricks 和 Snowflake 的这些动向表明,业界巨头已经开始积极适应 AI 时代的新需求。一方面,他们将 AI 能力与传统的数据仓库和数据湖进行深度融合,为用户提供端到端的智能分析解决方案。另一方面,他们也在数据存储、管理等底层技术上展开角逐,试图以新的数据格式和架构获得先发优势。

第三个巨头的选择,OpenAI 收购数据实时分析产品 Rockset

让业界意外也不意外的是,OpenAI 正式宣布收购 Rockset——这是一款以数据索引及查询功能而闻名的实时分析数据库。OpenAI 在其官方博客上发表的一篇文章中表示,它将整合 Rockset 的技术来“为其所有产品的基础设施提供支持”。

“数据巨头转向 AI,AI 巨头走向数据,是 Data+AI 时代的双向奔赴。”

6 结语:未来关系模型和非关系模型会如何发展,企业该如何选择  

上个世纪初,物理学界曾经有两朵乌云笼罩。一个是黑体辐射问题,另一个是微观物质的波粒二象性。这两朵乌云挑战了当时牛顿经典力学所建立的物理世界观,最终催生了量子力学和相对论的诞生,彻底革新了人类对宇宙的理解。

今天,数据库领域何尝不是如此?RDBMS 关系型数据系统和 SQL,就像经典力学一样,已经主导了数据管理的大部分场景。Stonebraker 和 Pavlo 认为,未来也很可能会是关系型数据库的天下。然而,正如文中所言,人工智能技术的崛起,却像是悬挂在数据库世界上空的一朵乌云,预示着可能会有一场革命性的颠覆

人工智能对数据的处理方式,对数据库的功能诉求,很可能会从根本上挑战关系模型的某些假设。AI 更加擅长处理非结构化数据,更加依赖数据的关联性和图形结构,更加需要数据库的自适应和自优化能力。这些需求,都可能催生出新的数据模型和数据库范式。

因此,未来的数据库世界,可能会像物理学一样,经历一场范式的革命。这场革命,也许会诞生出全新的数据模型,也许会重塑数据库的架构和生态。对于企业来说,在选择数据库时,不仅要看它在已知场景下的表现,更要评估它适应未知变化的潜力。

变革时代,企业应如何选择?

笔者建议:

让我们拭目以待,见证 AI 时代的风起云涌,见证下一个"量子力学"的诞生。

作者简介
最新文章
鲁大师手机在线观看视频教程:轻松学会手机优化
这些视频教程内容丰富,涵盖了手机优化的各个方面。比如,它会教我们如何清理手机内存,释放更多的存储空间;如何关闭不必要的后台程序,提高手机的运行速度;如何优化手机的电池管理,延长电池的使用寿命;如何设置手机的网络连接,提高网
漫画台app免费下载2025最新版
漫画台2025安卓最新版,是一款专为漫画追番打造的漫画资源整合软件,平台每日同步更新海量正版漫画,国漫、日漫,热血、武侠、玄幻、霸道、搞笑各种类别应有尽有,满足用户的多样化看漫画需求,高清漫画还支持离线下载没网也能看。漫画台20
百度指数的基本功能是什么
在当今数字化的时代,数据的价值愈发凸显,而百度指数作为百度公司推出的一款专业的互联网数据分析工具,其基本功能在帮助用户洞察网络舆情、把握市场动态、优化营销策略等方面发挥着重要的作用。百度指数的基本功能之一是关键词搜索热度监
落地香港,威盛AI助力工程机械安全升级!
  日前,威盛携威盛Mobile360 AI工程机械解决方案受邀参加由德利机械有限公司及德利机械控股有限公司(德利机械)举办的“新型智能机械安全简介会”,会场演示多元化的安全智慧工地系统(4S)产品,助力业界提升建筑业安全标准。  此次大会
苹果手机AI智能写作助手:一键生成学术论文、报告及创意文案软件解决方案
在数字化时代,智能写作助手的出现极大地提升了写作效率其对学术研究者、报告撰写者和创意文案工作者而言一款强大的智能写作软件更是如虎添翼。苹果手机以其特别的操作系统和强大的硬件性能,成为了众多写作爱好者的首选设备。本文将为您详
股票怎么打开?如何开始进行股票投资?
股票投资入门指南接下来,您需要开通一个证券账户。这就像是您进入股票市场的“通行证”。您可以选择传统的证券公司,也可以考虑在线券商平台。在选择时,要综合考虑手续费、服务质量、交易工具等因素。以下是一个简单的对比表格,帮助您了
用“文心一言”写的文章,看看AI写得怎么样?
零售连锁店的“支付结算”业务设计在数字化浪潮的推动下,连锁店零售支付结算的设计愈发重要。一个优秀的支付结算设计不仅能够提升用户体验,还能增强品牌竞争力,进而促进销售增长。本文将围绕一个具体的连锁店零售支付结算案例,深入探讨
品牌方产品在淘宝乱价现象,如何管控?
在电商蓬勃发展的今天,淘宝作为国内最大的之一,为品牌方提供了广阔的市场机遇。然而,随之而来的品牌方产品在上的乱价现象,却成为不少品牌方头疼的问题。乱价不仅损害了品牌形象,还扰乱了市场秩序,影响了消费者的购买决策。那么,品牌
河南省畜牧技术推广工作座谈会暨草牧业 高质量发展论坛在郑州召开
距离2024年结束还有18天12月10日,全省畜牧技术推广工作座谈会暨草牧业高质量发展论坛在郑州召开。省委农办副主任,省农业农村厅党组成员、副厅长刘晓文出席会议并讲话,厅总畜牧师张全勇主持座谈会。会议指出,全省畜牧技术推广系统围绕畜
发表评论
0评