OushuDB 初体验(站在巨人的肩膀上继续前行的第四代云原生架构"OushuDB")的感悟

作为一名在数据领域工作多年的程序员,目前服务于一家全球领先的金融科技解决方案服务商。截至当前也经历过数据平台发展的几个阶段:数据库阶段、数据仓库阶段、大数据平台阶段、数据云平台阶段;同时参与实施商业智能 BI、数据集市、传统数据仓库、基于 Hadoop 生态数据湖架构、数据中台等多个项目;数据平台底层技术也从第一代的共享存储架构到第二代的大规模并行处理 MPP 再到第三代的 SQL-on-Hadoop 不断迭代更新。接下来,主要重点聊一聊站在巨人的肩膀上继续前行的第四代云原生架构"OushuDB"的初体验。初闻 OushuDB 是在某金融银行实施现场,OushuDB 专家在现场做了整体的售前交流,生动而富有技术含量、让人耳目一新的解决方案,再听已是
通过公司荣幸参加 OushuDB 组织的第四期培训(ODCP)。学习之前我也做了很多的功课,比如查证资料,好奇她与 RDBMS(ORACLE、DB2)、MPP 数据库(TD、GP)、基于 Hadoop 生态(CHD、TDH、华为 FusionInsight)有何不同,OushuDB 可以用来构建企业的核心数据仓库、数据集市、大数据平台,数据湖,湖仓一体数据平台等。以及一些具体的应用场景: 金融领域、信贷风控、反欺诈、跑批、用户画像、个性化精准营销、智能对公信贷、担保链分析、财务真实性分析、实际控制人分析、反洗钱等。这些都是跟我当前在从事的工作密切相关,因此希望对 OushuDB 有更多的了解,使我能够在培训期间更好、更快地掌握相关技能,以便更早的投入到实践当中,迫切的想看到她在客户现场展现出她应有的魅力。
一、产品简介
OushuDB 是由偶数科技自主研发的新一代极速云数仓。 可以构建企业核心数仓、数据集市、实时数仓、湖仓一体数据平台,以及 BI、即席查询、实时指标等分析应用。OushuDB 符合中国信创标准,通过计算存储分离架构解决了传统数据库高成本、高门槛、难维护、难扩展的问题。
二、产品特色
云原生:采用计算存储分离架构,利用云服务器、分布式存储,对数据基础设施的可扩展性进行深度优化,充分满足云端应用高度弹性、无限扩容的要求。支持腾讯云、阿里云、华为云、金山云、微软 Azure、AWS 等主流云平台。
高性能:面向 PB 级大数据的复杂查询,相比 MPP 和 SQL-on-Hadoop 快一个数量级。全新设计的执行器让性能提升 5~10 倍,显著降低批处理和即席查询所需的时间。
强兼容:具备完善的 SQL 标准和 ACID 特性,支持 HDFS 和多种对象存储的增删改查、以及偶数自研的 Magma 存储。兼容基于 Oracle,PostgreSQL,Greenplum 开发的数字应用,用户可以轻松实现不同数据基础设施的平稳迁移。
纯国产:OushuDB 由国内数据库内核研发团队自主开发,符合国家信创标准。偶数研发团队曾主导国际顶级的数据库开源项目。
应用广:OushuDB 已在金融、互联网、电信、政府、制造等行业的数百家头部企业得到广泛应用,助力各类企业完成数字化转型。
三、技术特点
· 极速执行器: 高效的执行器,比传统数仓/MPP 快 5-10 倍,比 Hadoop SQL 引擎要快 5-30 倍。
· 公有云和私有云部署:支持腾讯云、阿里云、金山云、AWS 等公有云平台,同时可以支持主流 PaaS 云平台(比如 Kubernetes 等)和 Docker 部署。
· 对标准的完善支持:ANSI SQL 标准,OLAP 扩展,标准 JDBC/ODBC,比 Hadoop SQL 引擎更完善。
· 成熟的并行优化器:优化器是并行 SQL 引擎的重要组成部分,对性能影响很大,尤其是对复杂查询。
· 支持 ACID 事务特性:这是很多现有基于 Hadoop 的 SQL 引擎做不到的,对保证数据一致性很重要。可以有效减少开发及运维人员的负担。
· 动态数据流引擎:基于 UDP 的高速互联网络。
· 弹性调度执行:可以根据查询大小来决定执行查询使用的节点及 Segment 个数。
· 支持多种分区方法及多级分区:支持 List 分区和 Range 分区。分区表对性能有很大提升作用,如果用户只想访问最近一个月的热数据,查询只需要扫描最近一个月数据所在分区。
· 支持多种压缩方法:snappy,gzip,zlib, zstd, lz4, RLE 等。
· 多种存储过程语言支持:python, c/c++, perl 等。
· 动态扩容:按照存储大小或者计算需求动态按需扩容,秒级添加节点。
· 多级资源和负载管理:和外部资源管理器 YARN 集成;可以管理 CPU,Memory 资源等;支持多级资源队列;具有方便的 DDL 管理接口。
· 支持访问 HDFS 及其他系统的数据:各种 HDFS 格式(文本,ORC 等等)以及其他外部系统(Hive 等),并且用户自己可以开发插件来访问新的数据源。
· 原生的机器学习数据挖掘库 MADLib 支持:易于使用及高性能。
· 与 Hadoop 系统无缝集成:存储、资源、安装部署、数据格式和访问等。
· 完善的安全及权限管理:kerberos;数据库,表等各个级别的授权管理。
· 支持多种 BI 工具:帆软、观远、SmartBI,以及 Tableau、SAS、Apache Zeppelin 等。
四、产品区别
OushuDB 和 Apache HAWQ 的区别
· 全新执行引擎,充分利用硬件的所有特性,比 Apache HAWQ 性能高出 5-10 倍。
· 支持 Update 和 Delete,以及索引。
· C++ 可插拔外部存储:
替换 Java PXF,性能高数倍,无需安装部署 PXF 额外组件,极大简化了用户安装部署和运维;
原生支持 CSV/TEXT 外部存储;
可以用于不同集群之间共享数据,比如数据仓库和集市之间共享及传输数据;
可以用于高速数据加载和数据导出;
可以实现高速备份和恢复;
可以实现可插拔文件系统:比如 S3, Ceph 等;
可以实现可插拔文件格式:比如 ORC,Parquet 等。
· 支持 ORC/TEXT/CSV 作为内部表格式,支持 ORC 作为外部表格式 (通过 C++ 可插拔外部存储)。
· 对 PaaS/CaaS 云平台的原生支持,支持 Kubernetes 集群容器编排与部署。
· CSV 和 Text 文件格式中对非 ASCII 字符串或长度大于 1 的字符串作为分隔符的支持。
概括总结:初次体验让我对 OushuDB 印象深刻。它的简单易用性、出色的性能和强大的功能集合能为客户带去更多的价值。我期待着更深入地了解并利用这款新一代数据库系统,将其应用到实际工作中去,以满足业务多场景的需求,让他发扬光大。

评论
    test