从外部数据库同步文件到文件存储 HDFS¶
本文描述了如何从零开始创建从外部数据库同步文件到文件存储 HDFS 的手动调度的任务。
步骤1:创建数据同步任务 ¶
- 登录 EnOS 管理控制台,选择 数据同步。
- 点击目录树上方的 +,或点击空白页中的 新建数据同步任务。
- 在 新建数据同步任务 窗口中,完成数据同步任务的基本设置。
- 方式:选择 新建,从零开始创建同步任务。如果选择 导入任务配置,参考 基于已有任务创建新的同步任务。
- 名称:输入数据同步任务的名称。
- 同步类型:选择 文件流。
- 调度类型:选择 手动调度。
- 描述:输入对数据同步任务的描述性信息。
- 选择目录:选择保存数据同步任务的目录。
- 单击 确定 完成创建。
步骤2: 选择数据源 ¶
选择同步文件的数据源,同步到文件存储 HDFS,需要完成以下配置:
在 数据源类型 中,选择文件数据源。目前仅支持 Azure BLOB 数据源。
在 数据源 中,选择在数据源注册中已经注册的数据源。可点击 新增数据源,打开 数据源注册 页面,注册新的数据源。
在 目录或文件名 中,输入待同步的文件目录或文件名。目录或文件名支持输入通配符、系统变量、及自定义变量。若填写目录,目录必须以“/”结尾。
点击 下一步,选择同步文件目标。
步骤3:选择目标 ¶
目前文件同步目标仅支持文件存储 HDFS,需要完成以下配置:
在 数据源类型 中,选择 HDFS(EnOS)。
在 目录 中,输入存储同步文件的子目录。子目录必须以“/”结尾。如果不输入子目录,则文件或目录结构默认同步到根目录下。
选择 文件写入规则,即出现同名文件时,选择覆盖或不覆盖同名文件:
- 同名文件覆盖:在文件同步过程中,如果在相同目录下遇到同名文件,后到达文件会自动覆盖先到达的文件。
- 同名文件不覆盖:在文件同步过程中,如果在相同目录下遇到同名文件,则任务终止,log中会记录同名文件的信息。任务终止后,已同步至HDFS的文件不会被自动清理。
点击 下一步。
步骤5:预览并保存配置 ¶
预览任务配置,如需再编辑,点击 上一步,跳转到对应步骤。然后点击 完成 保存配置。完整的任务配置信息如下图所示: