个人成就
  • 总积分
    427
  • 可用积分
    427
  • 文章
    60
  • 评论
    30
  • 注册排名
    -4
  • 数据库使用体验总结

    公司落实集团规划要求,计划 2024 年初完成青海公司大数据系统的三套 Vertica 数仓迁移至云原生数据库的相关工作。试点工作于 9 月 18 日具备实施条件,截止目前已完成经分主仓接口层、转化层、存储层、汇总层、中心区涉及的迁移工作,包含 4545 个表、1149 个数据程序和 914 个调度,整体进度已完成 35%。在这个过程中,我们提出了 39 个需求,为云原生数据库的功能、查询跑批性能和 Vertica 数据库兼容性等方面提供了有益的反馈,验证了其存算分离架构下数据加载、数据稽核、权限管理等功能...
  • OushuDB 初体验(站在巨人的肩膀上继续前行的第四代云原生架构"OushuDB")的感悟

    作为一名在数据领域工作多年的程序员,目前服务于一家全球领先的金融科技解决方案服务商。截至当前也经历过数据平台发展的几个阶段:数据库阶段、数据仓库阶段、大数据平台阶段、数据云平台阶段;同时参与实施商业智能 BI、数据集市、传统数据仓库、基于 Hadoop 生态数据湖架构、数据中台等多个项目;数据平台底层技术也从第一代的共享存储架构到第二代的大规模并行处理 MPP 再到第三代的 SQL-on-Hadoop 不断迭代更新。接下来,主要重点聊一聊站在巨人的肩膀上继续前行的第四代云原生架构"OushuDB"的初体验。...
  • 元数据回滚后读ao/orc表报错 Failed to open layout file xxxx

    问题背景 在一个客户环境下,升级时做了元数据导入导出,但在运行几天之后,又重新回滚了所有元数据,此时读一些 ao/orc 表,得到报错 ERROR: Failed to open layout file xxx,例如: 问题排查 以上述问题为例: 先查出这张表的 oid select oid from pg_class where relfilenode = 36059; 再查看这张表的 aoxr select * from oushu_aoxr(36059) t (rootrelid oid, re...
  • oushu学习心得

    一、 OushuDB 的主要产品特性: 1.存储与计算分离架构 多个主节点处理用户对数据库的连接请求 (JDBC/ODBC),处理用户认证及协调分布式执行计划引擎、数千个计算/存储节点分布式调度服务来完成后续 SQL 查询的处理流程。 2.分布式执行计划引擎 负责用户端标准 SQL 语句的解析、语意检查、基于代价的查询优化到最终产生分布式的查询任务规划工作。 3.分布式任务调度引擎 QD 负责执行计划的分发与执行状态跟踪,同时也负责节点间的数据分发。 4.支持 SIMD 的极速执行引擎 负责将分布式调度引擎...
  • 修改表

    ALTER TABLE 增加列 修改缺省值 删除列 修改列数据类型 增加约束 重命名列 删除约束 重命名表 AO 表支持 以上所以操作 ORC 表仅支持 增加约束、删除约束、重命名表 Magma 表不支持上述任何操作 增加列: create table products( product_no integer, name text, price numeric(10,2) check(price > 0) ); ALTER TABLE products ADD COLUMN descriptio...
  • 创建表

    启动数据库 hawq start cluster --with_magma 启动 hdfs start-dfs.sh 进入数据库 psql -d postgres \l 或者 select dataname from pg_databse; 修改系统时间 hwclock --systohc hwclock --set --date="12/20/22 09:52" clock --set --date="12/20/22 09:52" 创建表 CREATE TABLE my_first_table( fi...
  • oushu学习心得-3.2.4 表分区

    表分区的好处: 1.查询优化器可以针对分区表进行优化,如果查询只涉及到某些分区, 则查询计划只需要扫描这些分区,从而加速查询; 2.如果我们按照日期进行分区的话,我们可以简单的加入分区和删除过期的分区。 分区表的目的是提高查询性能,但并非所有的表都适合做分区,只有大型事实表, 经常使用特定条件,日期,地区等,查询数据、维护历史数据、数据分布均匀的情况, 可通过分区策略大大提升使用性能,且分区数不易过多,否则会影响维护和管理工作速度 OushuDB 支持基于 Range 和 List 的两种分区方式: Ran...
  • oushu学习心得-3.2.3 修改表

    ALTER TABLE 增加列 修改缺省值 删除列 修改列数据类型 增加约束 重命名列 删除约束 重命名表 AO 表支持 以上所以操作 ORC 表仅支持 增加约束、删除约束、重命名表 Magma 表不支持上述任何操作 增加列: create table products( product_no integer, name text, price numeric(10,2) check(price > 0) ); ALTER TABLE products ADD COLUMN descriptio...
  • oushu学习心得-3.2.2 创建数据表

    启动数据库 hawq start cluster --with_magma 启动 hdfs start-dfs.sh 进入数据库 psql -d postgres \l 或者 select dataname from pg_databse; 修改系统时间 hwclock --systohc hwclock --set --date="12/20/22 09:52" clock --set --date="12/20/22 09:52" 创建表 CREATE TABLE my_first_table( fi...
  • oushu学习心得

    感谢官方提供的学习资料,经过一段时间的学习,对 OushuDB 有了深刻的理解,并对重要的知识点做了一些笔记,方便后续学习。OushuDB 是新一代的云数仓产品,由 Apache HAWQ 创始团队打造,技术采用计算与存储分离的技术架构,分为客户端、主节点、虚拟计算集群、虚拟存储集群四个主要部分。OushuDB 采用多主节点,并且计算和存储都做到了虚拟化,可以更好的适应不断的计算和存储的需求。 OushuDB 包含分布式执行计划引擎、分布式任务调度引擎、支持 SIMD 的极速执行引擎、分布式可插拔存储引擎、...
  • OushuDB学习笔记 - 第三章 OushuDB安装

    1.可视化部署 偶数云平台 skylab magama 安装 - skylab 节点管理(需要 sudo 免密) - 安装 oushuDB 基础服务(集群模式需要安装 Nginx 负载均衡)- 云数据库 oushuDB 工作簿 校验服务状态 - oushuDB 新建集群 计算节点/存储节点/配置参数 - 部署完成 2.命令行安装 2.1 环境配置 确认集群是否支持 avx 指令集 language cat /proc/cpuinfo | grep avx 设置 yum 源 wget -P /etc/y...
  • Oushu笔记

    1.启动 HDFS:start-dfs.sh 2.停止 HDFS:stop-dfs.sh 3.启动 OushuDB 集群:hawq start cluster -a --with_magma #(含 Magma 服务) 也可分别启动 master 和 segment hawq start master #启动 master master hawq start segment #启动 segment 4.停止或重启 OushuDB 集群:hawq stop cluster -a --with_magma #(...
  • 【HAWQ】oracle兼容函数orafunc

    参考 https://docs.oracle.com/en/database/oracle/oracle-database/18/sqlrf/ABS.html#GUID-D8D3489A-44EA-4FEC-A6F0-B5E312FFC231 测试的软件版本 PostgreSQL 8.2.15 (OushuDB 3.4.0.0) (Apache HAWQ 2.4.0.0) (Greenplum Database 4.2.0 build 1) on x86_64-unknown-linux-gnu,...
  • 记一次 OushuDB 的查询异常断连问题

    问题背景 客户的查询语句是通过一个调度程序走 ODBC 连上 OushuDB 执行。但是在客户环境下,对于执行时间较长(比如要跑 40+min)的查询,调度程序会长时间 hang 住,并在最终都无法收到执行结果;而短时查询工作一切正常。 问题排查 首先检查是否 QD 异常退出:在筛过 OushuDB master 的日志后,没有发现异常信息。重跑之后发现 QD 是正常执行结束后退出的。 再检查网络环境:重跑期间,在 QD 侧抓包:tcpdump -nnSX -i ${eth} port ${master_...
  • 受美制裁,俄罗斯 ClickHouse 能否扛起数据库大旗?

    随着俄乌冲突的持续,包括不少巨头在内的二十余家科技公司暂停了俄罗斯的所有服务。一时间,人们对俄罗斯科技实力,尤其是基础软件的水平格外关注。通过观察作为核心基础软件之一的数据库管理系统,我们可以对俄罗斯技术实力略知一二。 在全球知名的数据库流行度排名榜 DB-Engines 上,俄罗斯有 7 款产品上榜,其中排名第一的 ClickHouse 凭借其优异的性能表现目前位列 DB-Engines 榜单 46 名。 大数据领域从业者对 ClickHouse 应该非常熟悉了。这个最初由俄罗斯的 Yandex 公司研发...
  • Spark 对战 OushuDB !究竟是谁快出几十倍?

    随着互联网技术的不断发展,各行各业的数据处理量与日俱增,Hadoop 作为一项革命性的技术提供了处理海量数据的能力,随之而来的 Spark 又大大提升了 Hadoop 的计算能力,解决了 Hadoop 的性能问题,受到了大数据行业的热捧。但到了 2022 年,Spark 依然是大数据行业的最佳选择吗? Hadoop 生态系统经过多年的发展,已经在世界范围内广泛的采用,许多企业已经搭建了基于 Hadoop 生态圈的大数据平台,并且尝试更加深入的应用,比如数据仓库迁入的尝试,作为分析型场景的主要组件 Hive ...
  • 如何在终端中显示火焰图

    安装 perf 工具 yum install -y perf 拉取 tfg 仓库 git clone https://github.com/4rtzel/tfg 使用 perf 收集栈信息 perf record -g -a -p {pid} -- sleep {time} perf script > on.stacks 进入 tfg 目录,显示火焰图 tfg.py -t perf on.stacks 详细的使用方法可以参考 tfg 库的 README
  • 偶数基本架构

    1、存储与计算分离架构 多个主节点处理用户对数据库的连接请求(JDBC/odbc) 处理用户认证及协调分布式执行计划引擎 数千个计算/存储节点分布式调度服务来完成后续sql查询的处理流程 2、分布式执行计划引擎 负责用户端标准sql语句的解析、语意检查、基于代价的查询优化到最终产生分布式的查询任务 规划工作 3、分布式任务调度引擎qd 负责执行计划的分发与执行状态的跟踪,同时也负责节点间的数据分发。 4、支持simd的极速执行引擎 负责将分布式调度引擎转发的逻辑计划转换成物理计划并完成资源配置,...
  • 安全系列-平台密码策略

    从偶数数据云平台(Lava)V4.0.0.0 开始,支持如下密码安全策略。 密码单向加密保存,保证用户密码不被破译。 支持密码前后端加密传输,避免请求包被截获、破译。 支持密码重复使用时间与次数可配置。 支持密码复杂程度可配置:包括长度、包含大小写字母等。 支持密码过期日期可配置。 支持可配置密码最大尝试次数。 部分功能的配置方式:/usr/local/oushu/lava-cloud/conf/basicPrivate.config.xml .... <Security> ...
test