创建数据集¶
本文介绍如何创建数据集。
通过数据源连接创建数据集 ¶
各类型的数据源支持创建的数据集类型如下:
数据源连接 |
支持创建的数据集类型 |
---|---|
MySQL |
Tabular数据集 |
Hive |
Tabular数据集 |
Blob |
Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集 |
S3 |
Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集 |
HDFS |
Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集 |
从 MySQL 或 Hive 数据源连接创建数据集¶
通过以下步骤,从 MySQL 或 Hive 数据源连接创建数据集(以 MySQL 数据源为例):
登录 EnOS 管理控制台,从左侧导航栏中选择 智能工作室 > 数据集管理,打开数据集管理首页。
选择 新建数据集 > 从数据源连接创建,完成数据集的基本信息设置:
数据集名称:输入数据集的名称
数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
数据源连接:选择已通过 资源配置 > 连接配置 创建的数据源连接名称,系统将自动检测数据源连接的连通性
数据集类型:选择 tabular 类型
标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
描述:输入对数据集的描述
在 数据源配置 页面中,输入 SQL 查询语句和查询超时时间(1 ~ 600 秒)。注意:从数据源连接创建 Tabular 类型数据集时,仅支持单 SQL 语句查询,不支持多 SQL 语句。
在 数据预览 页面中,选择 开始数据预览,预览通过 SQL 语句查询到的数据(仅显示查询到的前50条数据)。
在 SCHEMA 设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置 Schema 信息,选择 重置 按钮恢复默认值。
在 确认详细信息 页面中,检查数据集的完整配置信息。选择 完成 创建数据集。创建的数据集将会显示在数据集列表中。
从 Blob、S3 或 HDFS 数据源连接创建数据集¶
通过以下步骤,从 Blob、S3 或 HDFS 数据源连接创建数据集(以 HDFS 数据源创建 File 类型数据集为例):
登录 EnOS 管理控制台,从左侧导航栏中选择 智能工作室 > 数据集管理,打开数据集管理首页。
选择 新建数据集 > 从数据源连接创建,完成数据集的基本信息设置:
数据集名称:输入数据集的名称
数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
数据源连接:选择已通过 资源配置 > 连接配置 创建的数据源连接名称,系统将自动检测数据源连接的连通性
数据集类型:选择 file 类型
标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
描述:输入对数据集的描述
在 数据源配置 页面中,输入待使用的文件路径。
在 确认详细信息 页面中,检查数据集的完整配置信息。选择 完成 创建数据集。创建的数据集将会显示在数据集列表中。
通过上传文件创建数据集¶
通过上传文件创建数据集的详细步骤如下:
登录 EnOS 管理控制台,从左侧导航栏中选择 智能工作室 > 数据集管理,打开数据集管理首页。
选择 新建数据集 > 从本地文件上传创建,完成数据集的基本信息设置:
数据集名称:输入数据集的名称
数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
数据集类型:选择 tabular 或 file 类型
tabular 类型:需对应地选择上传文件的格式(Delimited Text 或 ORC),并且需确保上传的文件能被正常解析
file 类型:无需选择文件类型
标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
描述:输入对数据集的描述
在 文件上传 页面中,选择上传1个或多个文件,选择的文件清单会显示在文件列表中,包括文件名称和文件大小。
完成文件上传后,根据选择创建的数据集类型,完成文件配置和配置确认等步骤,创建数据集。详细步骤,可参考 通过数据源连接创建数据集。
备注
如文件上传完成后需要增加新的文件,上传新的文件会替代前一次上传的所有文件,需重新上传所有文件。
单次上传的文件不能超过 1G,总配额不能超过 10G。容量过大的文件,可考虑上传至 HDFS、Blob、或 S3 后再创建数据集。
从算子输出/输入创建数据集¶
通过算子输出/输入创建数据集的详细步骤如下:
登录 EnOS 管理控制台,从左侧导航栏中选择 智能工作室 > 数据集管理,打开数据集管理首页。
选择 新建数据集 > 从算子输出/输入创建,完成数据集的基本信息设置:
数据集名称:输入数据集的名称
数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
数据集类型:选择 tabular 或 file 类型
tabular 类型:需对应地选择上传文件的格式(Delimited Text 或 ORC),并且需确保上传的文件能被正常解析
file 类型:无需选择文件类型
标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
描述:输入对数据集的描述
在 文件选取 页面中输入算子输出/输入的 minio 路径。如何获取 minio 路径可参考 查看运行实例基本信息和详情。
在 文件配置 页面中设置列分隔符、字符集、转义字符和引用字符等。
在 SCHEMA 设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置 Schema 信息,选择 重置 按钮恢复默认值。
在 确认详细信息 页面中,检查数据集的完整配置信息。选择 完成 创建数据集。创建的数据集将会显示在数据集列表中。