数据集管理概述


数据集是数据在数据源中存储位置的引用,是其元数据的一个副本。数据集本身并不存储数据,因此数据集并不会增加额外的存储开销,也不会影响数据源的完整性。数据集可以作为数据资产的类型之一,成为在智能工作室中加工处理数据的起点。


智能工作室提供的数据集管理功能可帮助数据科学家在训练模型时快速访问数据,而不用关心如何连接数据源、以及不同数据源的连接串和数据访问路径的差异,提升工作效率。


../_images/arch1.png

主要功能

支持多种数据格式和文件类型


数据集管理支持的数据集类型为 File 和 Tabular 两类:

  • File 类型的数据集引用数据存储或公共 URL 中的单个或多个文件。File 类型的数据集可适用于任何格式或类型的文件,可以实现更广泛的机器学习方案,包括深度学习。

  • Tabular 类型的数据集通过分析提供的文件或文件列表,并以表格形式表示数据。这样就可以将数据转化为 Pandas 或 Spark 的数据框架,以便进行模型训练。支持通过分隔符分隔的文件和 ORC 格式的文件, CSV、TSV、Parquet、JSON 文件,以及 SQL 查询结果创建 Tabular 类型数据集。

支持多种创建方式


数据集管理实现数据集的创建和管理,支持多种数据集创建方式,包括:

  • 基于配置的外部数据源连接创建

  • 基于手动上传的文件创建

  • 基于算子输出/输入创建

支持多种数据源


数据集管理支持从多种数据源连接创建数据集,包括:MySQL,Blob,S3,Hive 和 HDFS。

数据共享和协作


同一个组织内的用户可共享创建的数据集,并基于数据集进行协作。用户不用重复创建数据源连接获取数据,并且可将数据集沉淀为数据资产。

数据集版本管理


数据集管理支持数据集版本管理。数据集版本是为数据状态设置标签的一种方式,以便可以应用数据集的特定版本进行实验或者在将来重现该数据集。

提供数据集样例


数据集管理提供了多个通用的数据集样例,帮助用户进行算法模型演练。