上瘾
发布于

LittleBoy最佳实践样例:数据处理算子介绍

熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工作时间占据了整个项目 70% 以上。数据的质量,直接决定了模型的预测和泛化能力的好坏。它涉及很多因素,包括:标准型、完整性、一致性、时效性、可信性和解释性。而在真实数据中,我们拿到的数据可能包含了大量的缺失值、噪音、异常点,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。LittleBoy 可视化建模平台中的数据处理算子可以可对数据进行清理、集成、规约和变换,从而满足我们对数据质量的要求。以下是数据处理算子的 Demo,带大家初识数据处理算子。

1.合并数据

示例数据如下,准备 demo_0、demo_1 两份数据,将其拖入画布中

数据详情如图

1.1 我们从数据处理模块中选择合并算子,连接两个数据集,连接之后双击点开合并算子,配置相关参数

1.2 合并算子之后接入预览数据,可以查看我们的合并结果,整体流程如图所示,点击运行画布

1.3 运行成功之后点击预览算子,即可看到合并算子的运行结果,结果对两个数据集进行了合并操作,如图

2.去重

我们选取 demo_0 数据集作为示例数据,对 name 字段进行去重,可以看到数据集中 name 字段下的“Will LLC”值重复

2.1 配置去重算子,选中 name 字段作为去重字段,具体流程和功能如下

2.2 简单流程如下图,点击运行按钮运行当前画布

2.3 运行完成之后点击预览算子,即可看到去重之后的结果,name 字段下现已无重复值

3.统计

我们继续使用 demo_0 数据集进行演示

3.1 拖动统计算子到画布中,连接数据集,打开统计算子进行配置,选择需要统计的字段

3.2 流程如图,非常简洁,统计结果直接在统计算子内部,点击运行画布

3.3 运行完成后打开统计算子即可查看统计结果,方便进行数据探索


以上就是对于 LittleBoy 可视化机器学习建模平台数据处理算子的使用介绍,下一节我们为大家介绍如何使用 LittleBoy 特征工程算子

评论
    test