各位大家好,在论坛跟大家学习也有一段时间了,今天来聊聊我眼中的偶数数据库 ~
首先,先来介绍介绍我和偶数的故事(其实没有什么故事,只是一些交集片段)。
2015 年我开始接触 Greenplum,2015 年 10 月份 Greenplum 开源。这么多年在 Greenplum 社区里面插科打诨,没用过也听过 HAWQ 这个东西,我曾经还在朋友选型场景里推荐过偶数的 SQL on Hadoop 解决方案。据说啊,我从坊间听到的,这个是常老板一手带起来的产品,所谓的 HAWQ,简单的理解就是 Greenplum 的计算引擎 +HDFS 存储,数据存储由本地硬盘,放到了 HDFS 上,这样就做到了简单的存储和计算分离,产品的初衷,应该是为了应对其他 SQL on Hadoop 产品。当然现在的偶数数据库已经进化了很多,并不是我说的这么简单,但是任何进化都是基于现代云原生分布式的发展方向来的,所以说偶数的能力相较于老的 HAWQ 或者 GPDB 来说,一定是存在一些优势的。
2017 年,我加了一个官方的 HAWQ 群,这个群,从偶数团队出来创业开始,基本上就没什么动静了,我一度以为,这个产品要消失了;后来听说偶数创业团队就是原来的 HAWQ 团队才明白,Pivotal 官方其实已经不再有能力去做 HAWQ 的继续研发了。
2019 年,我在济南认识了一个从偶数离职的朋友,他由于各种原因,需要回到济南工作,不得不从偶数离职;也就是这个朋友,给我安利了各种偶数数据库的功能和特点,让我对偶数了解了更多。
断断续续,啰啰嗦嗦,描述了我与偶数的一些交集,哈哈。
接下来,我们来用更官方的语言,简单说一说偶数数据库是什么。
Oushu Database(简称 OushuDB)是由 Apache HAWQ 创始团队打造的新一代云原生数据仓库,该产品采用了存储与计算分离技术架构,具有 MPP 的所有优点,还具有弹性,支持混合工作负载和高扩展性等优点。 同时支持公有云与私有云。高可扩展,遵循 ANSI-SQL 标准,具有极速执行器,提供 PB 级数据交互式查询能力。并且提供对主要 BI 工具的描述性分析支持和高级机器学习功能。兼容 Oracle,GPDB 和 PostgreSQL,可以轻松取代传统数据仓库包括 Teradata,Oracle,DB2,Greenplum 和 SQL-on-Hadoop 引擎。并且原生支持 Kubernetes 容器平台,帮助企业无缝迁移到最新的云计算平台。
可以说,偶数数据库基于 HAWQ,但是很多功能要比 HAWQ 更好,比如向量化执行引擎优化,可以灵活的应用现代 CPU 的 AVX 指令集,达到计算提速的效果;又比如对 PXF 的替换,不知道大家是不是跟我一样对 Java 有所忌惮呢?我相信使用 C++ 开发的框架一定会比 Java 性能更好。偶数数据库作为一款生于大数据时代的产品,在云原生上支持了阿里云、腾讯云等各种云平台;适应 Hadoop 生态的发展,兼容 ORC 和 Parquet 存储格式,可以灵活的接入多种现有数据。
最后,来个总结吧
曾经发现 HAWQ 更新不积极,我一度对 HAWQ 产品的定位感觉到沮丧,直到了解到团队创业才明白这里面的故事;其实在现在国产化基础软件的黄金发展期,国内有实力的技术团队并不多,偶数作为有着国际大企业技术基因的公司,一定属于这些创业团队中的佼佼者。
我眼中的偶数数据库,是一款同时拥有 MPP 并行处理架构和 Hadoop 基因的产品,我相信在绝大部分场景下,性能都优于任何现有的 SQL on Hadoop 方案。明星的人才,做明星的产品,明星的产品带动整个行业的发展,希望偶数科技能够将产品越做越好,让我们能够在整个行业中领先,进而提升大家对国产基础软件的信心。也希望偶数社区能把生态越做越好,能调动更多的资源来回馈到开源。