从 EnOS Hive 同步数据到目的数据库¶
你可以将 EnOS Hive 中的数据同步至目标数据库用于数据分析等目的。
当前支持从 EnOS Hive 同步数据至以下目标数据库:
外部 MySQL 数据库
外部 PostgreSQL 数据库
外部 ClickHouse 数据库
备注
因 EnOS 已不再提供和支持数据报表服务,数据同步服务不再支持将数据从 EnOS Hive 同步至 ReportDB。
开始前准备 ¶
同步数据前需创建目标表:
如果你需要将数据同步至外部 MySQL 数据库,需要先通过 数据源注册 在 EnOS 内配置数据库连接信息,保证访问正常,并预先创建好目标表。
如果你需要将数据同步至外部 PostgreSQL 数据库,需要先通过 数据源注册 服务在 EnOS 内配置数据库连接信息,保证访问正常,并预先创建好目标表。
如果你需要将数据同步至外部 ClickHouse 数据库,需要先通过 数据源注册 服务在 EnOS 内配置数据库连接信息,保证访问正常,并预先创建好目标表。
步骤1:创建数据同步任务 ¶
登录 EnOS 管理控制台,选择 数据同步。
点击目录树上方的 +,或点击空白页中的 新建数据同步任务。
在 新建数据同步任务 窗口中,完成数据同步任务的基本设置。
方式:选择 新建,从零开始创建集成任务。如果选择 导入任务配置,参考 基于已有任务流创建新任务流。
名称:输入数据同步任务的名称。
同步类型:选择 结构化数据。
调度类型:选择 手动调度。
描述:输入对数据同步任务的描述信息。
选择目录:选择保存数据同步任务的目录。
单击 确定 完成创建。
步骤2: 选择Hive数据源 ¶
选择 Hive 数据源,同步数据到 MySQL、PostgreSQL、或 ClickHouse,需要完成以下配置:
在 数据源类型 中,选择 HIVE(EnOS)。
在 源表 中,选择需要同步的数据表。
在 分区 中,指定目标分区,可选。如果为空,表示将同步全部数据到目标表。若指定分区,可以通过如下两种方式设定分区值:
固定值:以
20180101
为例,将自动同步分区为20180101
的数据到目标表;占位符:可以添加系统调度参数,如
${cal_dt}
,或者自定义参数。请参考 系统变量列表。
(可选)点击 数据预览,预览将被同步的数据,如下图所示:
点击 下一步,选择目标表。
步骤3:选择目标表 ¶
支持 Hive 数据同步到外部 MySQL 数据库、PostgreSQL 数据库、或 ClickHouse 数据库。
当目标源为 MySQL 时,具体配置如下:
在 数据源类型 中,选择 MYSQL。
在 数据源 中,选择目标数据库。
在 表名 中,选择目标表,Hive 表中的数据将被同步至所选目标表。
选择数据写入规则,直接覆盖已有的全部数据,或者在现有数据后追加写入。
点击 下一步。
当目标源为 PostgreSQL 时,具体配置如下:
在 数据源类型 中,选择 POSTGRESQL。
在 数据源 中,选择目标数据库。
在 Schema 中,选择目标数据库 Schema。
在 表名 中,选择目标表,Hive 表中的数据将被同步至所选目标表。
选择数据写入规则,直接覆盖已有的全部数据,或者在现有数据后追加写入。
点击 下一步。
当目标源为 ClickHouse 时,具体配置如下:
在 数据源类型 中,选择 CLICKHOUSE。
在 数据源 中,选择目标数据库。
在 表名 中,选择目标表,Hive 表中的数据将被同步至所选目标表。
选择数据写入规则,直接覆盖已有的全部数据,或者在现有数据后追加写入。
点击 下一步。
后续步骤 ¶
有关字段映射、通道控制、调度配置、参数配置、和运行模式的配置步骤,参考: