
一字之差,揭秘OceanBase的战略之变

文|周路平
编辑|游勇
5月17日,独立数据库厂商OceanBase在广州举办了第三届开发者大会。当天除了发布面向AI的开箱即用产品PowerRAG,更令外界关注的是,OB的战略也从一体化数据库升级为AI时代的一体化数据底座。
众所周知,OB过去多年一直坚持走一体化数据库路线,而一体化的内涵也在不断丰富。
早在2022年8月,OceanBase发布4.0版本时,就首次公开提出了单机分布式一体化的理念,可以适应大小不同规模的工作负载,兼顾分布式系统的水平扩展优势与集中式数据库的单机性能优势,满足客户从分布式到单机场景的多元化需求。
2024年4月,OceanBase 4.3版本又打造了TP/AP一体化,不仅能实现可行存、可行列混存和可列存的多种存储方式,同时融入分布式 TP 核心能力小事务写入技术,有效消除数据导入延迟,满足更严苛的AP实时分析需求。当年10 月,OceanBase的4.3.3 GA 版本,升级了向量检索与索引功能,实现 SQL+AI 一体化。
今年4月底,OceanBase CEO杨冰发布全员信,宣布OceanBase将全面进入AI时代,要打造“DATA×AI”核心能力,建设AI时代的数据底座,实现数据与AI的融合,把OceanBase由一个一体化数据库变成一个一体化数据处理底座。
如今,OB的“一体化”主要有两层内涵:一是从负载的层面,一体化能处理TP、AP和AI业务。从用户视角来看,在用户最核心的场景里,数据量和业务并发量高,对可用性和延迟特别敏感,这类场景会用到分布式数据库。与此同时,每家企业都会有一些相对边缘的场景,比如OA系统,这类场景就适合单机版本。OceanBase希望在一套引擎里帮助用户实现技术栈的统一。
以东莞农商银行为例,这家客户把20多个业务系统升级到了OceanBase,核心业务系统采用了分布式架构,一般业务系统也采用了OceanBase的单机主备的部署,这种部署方式帮助客户节省了数百万的软件开发成本,同时实现了业务性能的大幅度提升。
二是在架构层面,单机分布式一体化+云上云下一体化,实现多云原生,既包括在不同云平台提供完全一致的体验,也包括实现跨云的高可用、跨云的容灾,以及实现面向多云的存储计算分离。
目前,OB已经兼容了国内外主流的云平台,而在开发者大会上,OB也宣布增加了对百度智能云的支持。同时,OB也全新推出了“共享存储”产品,实现对象存储与事务型数据库(TP)的深度集成,创新构建存算一体与分离的多云原生架构,成为业界首个在TP场景下支持对象存储的多云原生数据库,为海量数据场景提供兼顾成本优化与性能保障的云原生解决方案。
不难发现,从一体化数据库到一体化AI数据底座,虽然只有一字之差,但背后其实是在不断适应数据库发展的需要,尤其是AI时代对数据处理的需要。
杨传辉透露,一体化数据底座其实是OceanBase一体化数据库基础上的延伸。之所以提数据底座,是因为外界提到数据库,很容易会联想到这是做交易或者做分析的数据库产品,偏单一功能。而“数据底座”是希望通过一体化的产品、一体化的引擎,同时处理OLTP、OLAP以及AI的混合负载。
这个转变的背后,也跟当前的市场形势有很大关系。AI时代的应用带来更海量数据的同时,也让很多工作的负载边界变得模糊,无法像以前一样严格区分这个业务只做AP或者TP。开发者更希望在一套引擎里直接通过一条SQL处理所有的工作负载。
“我们希望OceanBase成为AI时代的MySQL。”OceanBase CTO杨传辉说,如今OB不仅能够支持OLTP和OLAP传统的数据库工作负载,也能支持AI领域的工作负载。比如半结构化数据、向量数据、文档、混合检索,甚至一部分RAG的能力。
而PowerRAG就是OceanBase在一体化数据底座的应用层探索的第一步。
当前,搭建RAG服务虽然有很多方式,但都有一定的门槛,背后涉及不同类型文档的识别,包括文档怎么去做切分,怎么做embedding,怎么用好向量数据库,怎么写好大语言模型的提示词。OceanBase PowerRAG相当于把这些工作都封装到公有云的服务里,实现开箱即用,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发。