Oushu Database简介
基本介绍
Oushu Database(简称 OushuDB)是由 Apache HAWQ 创始团队打造的新一代云原生数据仓库,该产品采用了存储与计算分离技术架构,具有 MPP 的所有优点,还具有弹性,支持混合工作负载和高扩展性等优点。 同时支持公有云与私有云。高可扩展,遵循 ANSI-SQL 标准,具有极速执行器,提供 PB 级数据交互式查询能力。并且提供对主要 BI 工具的描述性分析支持和高级机器学习功能。兼容 Oracle,GPDB 和 PostgreSQL,可以轻松取代传统数据仓库包括 Teradata,Oracle,DB2,Greenplum 和 SQL-on-Hadoop 引擎。并且原生支持 Kubernetes 容器平台,帮助企业无缝迁移到最新的云计算平台。OushuDB 已在金融、电信、制造、医疗和互联网等行业得到广泛的部署和应用。
Oushu Database 和 Apache HAWQ 的不同
全新执行引擎,充分利用硬件的所有特性,比 Apache HAWQ 性能高出 5-10 倍
支持 Update 和 Delete,以及索引
C++ 可插拔外部存储
替换 Java PXF,性能高数倍,无需安装部署 PXF 额外组件,极大简化了用户安装部署和运维
原生支持 CSV/TEXT 外部存储
可以用于不同集群之间共享数据,比如数据仓库和集市之间共享及传输数据
可以用于高速数据加载和数据导出
可以实现高速备份和恢复
可以实现可插拔文件系统:比如 S3, Ceph 等
可以实现可插拔文件格式:比如 ORC,Parquet 等
支持 ORC/TEXT/CSV 作为内部表格式,支持 ORC 作为外部表格式 (通过 C++ 可插拔外部存储)
对 PaaS/CaaS 云平台的原生支持
世界上首个可以原生运行与 PaaS 容器平台中的 MPP++ 分析型数据库
支持 Kubernetes 集群容器编排与部署
CSV 和 text 文件格式中对非 ASCII 字符串或长度大于 1 的字符串作为分隔符的支持
关键 Bug fixes
主要功能
极速执行器: 高效的执行器,比传统数仓/MPP 快 5-10 倍,比 Hadoop SQL 引擎要快 5-30 倍。
公有云和私有云部署:支持亚马逊和阿里云等公有云平台,同时可以支持主流 PaaS 云平台(比如 Kubernetes 等)和 Docker 部署。
对标准的完善支持:ANSI SQL 标准,OLAP 扩展,标准 JDBC/ODBC,比 Hadoop SQL 引擎都要完善。
具有非常成熟的并行优化器。优化器是并行 SQL 引擎的重要组成部分,对性能影响很大,尤其是对复杂查询。
支持 ACID 事务特性:这是很多现有基于 Hadoop 的 SQL 引擎做不到的,对保证数据一致性很重要。可以有效减少开发及运维人员的负担。
动态数据流引擎:基于 UDP 的高速互联网络。
弹性调度执行:可以根据查询大小来决定执行查询使用的节点及 Segment 个数。
支持多种分区方法及多级分区:支持 List 分区和 Range 分区。分区表对性能有很大提升作用,如果用户只想访问最近一个月的热数据,查询只需要扫描最近一个月数据所在分区。
支持多种压缩方法:snappy,gzip,zlib, zstd, lz4, RLE 等。
多种存储过程语言支持:python, c/c++, perl 等。
动态扩容:动态按需扩容,按照存储大小或者计算需求,秒级添加节点。
多级资源和负载管理:和外部资源管理器 YARN 集成;可以管理 CPU,Memory 资源等;支持多级资源队列;具有方便的 DDL 管理接口。
支持访问任何 HDFS 及其他系统的数据:各种 HDFS 格式(文本,ORC 等等)以及其他外部系统(Hive 等),并且用户自己可以开发插件来访问新的数据源。
原生的机器学习数据挖掘库 MADLib 支持:易于使用及高性能。
与 Hadoop 系统无缝集成:存储、资源、安装部署、数据格式和访问等。
完善的安全及权限管理:kerberos;数据库,表等各个级别的授权管理。
支持多种第三方工具:比如 Tableau,SAS,较新的 Apache Zeppelin 等。