OceanBase 是一款由阿里巴巴公司自主研发的高性能、分布式的关系型数据库,支持完整的 ACID 特性,高度兼容 MySQL 协议与语法,能够以最小的迁移成本使用高性能、可扩张、持续可用的分布式数据服务。
OceanBase 实现了数千亿条记录、数百 TB 数据的跨行跨表业务,支持了天猫大部分的 OLTP 和 OLAP 在线业务。
OceanBase 最初是为了处理淘宝网的大规模数据而产生的。传统的 Oracle 单机数据库无法支撑数百 TB 的数据存储、数十万的 QPS,通过硬件扩展的方式成本又太高。
淘宝网曾使用 MySQL 取代 Oracle,但是需要进行分库分表来存储,也有很多弊端。通过分库分表添加节点比较复杂,查询时有可能需要访问所有的分区数据库,性能很差。
淘宝网甚至考虑过 HBase,但是 HBase 只能支持单行事务查询,且不支持 ACID 特性,只支持最终一致性。而淘宝网的业务必须支持跨行跨表业务,且一些订单信息需要支持强一致性。
基于以上原因,这就需要开发一个新的数据库,既要有良好的可扩展性,又能支持跨行跨表事务,OceanBase 就应运而生了。
OceanBase 具有以下特性:
虽然传统关系型数据库(如 Oracle 或 MySQL)的功能已经很完善,但是数据库可扩展性比较差,随着数据量增大,需要进行分库分表存储,在查询时需要将相应的 SQL 解析到指定的数据库中,数据库管理员需要花费大量时间来做数据库扩容,且对维护人员的技术要求比较高,要掌握分布式处理中数据的读写分离、垂直拆分和水平拆分等技术。
而 OceanBase 使用分布式技术和无共享架构,数据自动分散到多台数据库主机上,采用廉价的 PC 服务器作为数据库主机,可以自由地对整个分布式数据库系统进行扩展,既降低了成本,同时也保证了无限的水平扩展。
OceanBase 也被称为云数据库,具有云存储的随意扩展的特性。
OceanBase 数据库系统使用的廉价的 PC 服务器,这些服务器是不可靠的,很容易出现故障。但是,OceanBase 又必须保证任何时刻出现的硬件故障不影响业务。
因此,OceanBase 引入 Paxos 协议,保证分布式事务的一致性,即数据库系统中数据以备份的方式存储于多台机器中,当其中一台出现故障时,其他备份仍可以使用,并根据系统日志来恢复故障前的数据。
OceanBase 是新型的关系型数据库,支持事务的 ACID 特性。这在电子商务、金融等领域是非常重要的,这些领域对数据的准确性要求非常高,如电子商务中的支付数据,这些数据要保持一致性,不能有任何数据的丢失。
OceanBase 在设计时,读事务基本是分布式并发执行的,而写事务则是集中式串行执行的,且任何一个写事务在最终提交前对其他读事务都是不可见的,因此 OceanbBase 是具有强一致性的,能保证数据的正确性。
数据库的总量是很大的,每天增、删、改的数据只是其中的小部分,这部分数据为增量数据。
OceanBase 将数据分成基准数据和增量数据,基准数据是保持不变的历史数据,用磁盘进行存储,可保证数据的稳定性;而增量数据是最近一段时间的修改数据,存储在内存中,这种针对增、删、 改记录的存储方式极大地提高了系统写事务的性能,并且增量数据在冻结后会转存到 SSD 上,仍然会提供较高性能的读服务。
OceanBase 会在系统的低负载时段对数据进行合并操作,避免对业务产生不良影响。
OceanBase 采用单台更新服务器来记录最近一段时间的修改增量,而基准数据以分布式文件系统的方式分散地存储于多台基准数据服务器中。
增、删、改事务集中在更新服务器上完成,避免了复杂的分布式事务,高效地实现了跨行跨表事务。而在进行数据查询时,需要把基准数据和增量数据融合后返回客户端。另外,更新服务器上的修改记录定期分发到多台基准数据服务器中,避免成为瓶颈,实现了良好的扩展性。
OceanBase的系统架构如下图所示: