探索分析数据集


数据集管理提供的探索分析功能主要用于对 Tabular 类型数据集(包括带有时序特征的Tabular数据集)的探索分析,实现对数据集进行不同维度的探索分析。数据集探索分析功能主要包括以下三种方式:

  • 数据集预览

  • 统计分析

  • 图表分析


数据集探索分析仅提供常用的基础探索分析,以方便对数据集进行快速探索。若以上三种方式仍无法满足数据集探索分析需求或有其它特殊的展现形式,也可以在智能实验室 Notebook 中使用 Python 代码进行数据集的探索分析。


对于 File 类型数据集,数据集探索分析仅包含数据集预览功能,显示文件路径、文件名、修改时间、文件大小,文件后缀名等信息。

预览数据集


在数据集详情页面的 数据集探索 标签下,选择 预览


对于 Tabular 类型数据集,数据集预览可展示查询结果的前50条数据。


../_images/previewing_dataset.png


对于 File 类型数据集,数据集预览可展示文件路径、文件名、修改时间、文件大小和文件后缀名等信息。对于图片格式文件,选中文件名后可在页面右侧显示图片,支持的图片文件格式包括 png、jpg 和 jpeg。


../_images/previewing_image.png

统计分析


在数据集详情页面的 数据集探索 标签下,选择 统计分析,然后选择 生成统计分析任务


统计分析结果显示数据集的行数、列数、并基于选取的数据列,进行统计分析。统计分析支持等同于 3.6GB 大小的 csv 数据文件。参考以下示例:


../_images/dataset_statistics.png


统计分析结果说明如下:

  • 数值类型的数据分布展示为纵向的柱状图。

  • 非数值类型(如字符串、日期等)的数据分布展示为横向柱状图。

  • 对 Tabular 类型数据集,选择每一行的特征时,可查看该特征的详情信息。

  • 错误计数列显示每列类型转换失败的错误数。

  • 再次选择 生成统计分析任务 按钮时,系统会在后台生成统计分析任务。任务运行完成后,统计分析图表数据会被刷新。

图表分析


在数据集详情页面的 数据集探索 标签下,选择 图表分析,然后依次选择图表类型和对应的度量数据,使用图表展示和分析数据集中的数据。图表分析仅支持返回不超过10000条数据的图表展示。参考以下示例:


../_images/dataset_chart.png