智能实验室概述


数据科学家和数据工程师可通过智能实验室进行数据探索,开发和管理机器学习模型。


智能实验室(AI Lab)产品为数据科学家提供进行数据探索、模型训练、模型调优和模型评估的一系列实验操作的交互式工作环境。数据科学家可以在实验环境中使用数据集进行模型的创作,模型训练的代码可以固化为智能任务流的算子,用于持续的模型训练任务。模型训练最终生成的模型文件可用于在智能集市中模型的上架和部署操作的输入。


下图展示了通过智能实验室进行数据探索和机器学习模型的训练和开发过程:


../_images/arch3.png

主要功能

集成 JupyterLab


Jupyter 是最受机器学习开发者欢迎的数据探索工具和开发环境。智能实验室整合了 JupyterLab,为数据科学家提供模型开发和创作环境。

在线协同开发环境


智能实验室为数据科学家和算法工程师提供在线的协同开发环境,其特点包括:

  • 易于维护:系统管理员可以统一制作标准 Notebook 镜像、管理密钥证书等,保证 Notebook 应用的稳定运行。

  • 环境共享:不同的用户可以在“云端”共享同一个 Notebook 环境,实现高效协同。

  • 资源管理:系统可以为不同 Notebook 动态分配所需要的资源。

  • 权限管理:可以与智能工作室的其他组件一起实现统一的认证和权限管理,不同团队可配置各自的 Notebook 访问权限。

跟踪实验结果


智能实验室产品支持跟踪记录每次运行使用的参数(Parameter)及指标(Metrics),在产品界面即可直接查看实验的运行结果。在执行机器学习代码后,会记录参数、代码版本、性能评估和输出文件,方便后期对其进行可视化、跟踪实验的参数和性能指标。

分布式训练加速


智能实验室充分发挥了底层容器弹性资源调度和分布式运行的能力,通过自定义第三方资源和控制器,实现了对 TensorFlow 和 PyTorch 等流行机器学习库的分布式训练任务管理,从而显著地缩短了复杂模型的训练周期。