部署上线模型的第一个版本


模型版本上架完成后,可将模型版本部署到对应的容器中运行。


通过以下步骤,将模型的第一个版本部署上线,进入生产:

  1. 在模型列表中,点击模型名称,打开 模型版本管理 页面。

  2. 部署实例 标签下,点击 新建部署实例

  3. 选择将模型版本部署到当前托管环境或将模型版本部署到边缘节点。

../_images/publish_version_type.png

部署模型版本到当前环境

通过以下步骤,将模型版本部署在当前托管环境中,以预测服务的形式供调用方访问、测试和监控。

  1. 选择 在线访问 部署类型,并完成以下配置:

    • 实例名称:输入部署实例名称

    • 部署目标:选择已创建的资源池

    • 标签:输入部署实例标签

    • 描述:输入对部署实例的描述信息

    ../_images/publish_version_basics.png
  2. 点击 确认,完成部署实例创建。新创建的部署实例将显示在 部署实例 列表中。

    ../_images/deployment_instance_list.png
  3. 点击部署实例名称,进入模型部署页面。模型部署页面主要由编辑画布、部署配置栏、和部署日志栏组成。编辑画布中的卡片可代表模型、模型版本、流量路由器等。点击选中卡片后,部署配置栏中显示对应的配置项。点击选中模型版本卡片后,部署日志栏中显示模型版本的部署日志。

    ../_images/publish_version.png
  4. 在编辑画布中,点击 添加部署版本,在弹窗中选择已上架的模型版本,点击 确定

    ../_images/adding_publish_version.png
  5. 添加的模型版本将显示为编辑画布中的 Version 卡片。选中 Version 卡片,然后在右侧的 部署配置 窗口中,配置运行模型版本的资源:

    • Object Resources:显示部署模型版本的容器资源

    • Resource Request 一栏中,输入运行模型版本需要的 CPU 和内存

    • Resource Limit 一栏中,输入运行模型版本的 CPU 和内存上限

    ../_images/publish_version_config.png
  6. 如需根据模型服务的繁忙率指标,自动对运行模型服务所需资源进行扩容或缩容,可开启 Enable Auto Scale,并完成以下配置:

    • Pod Replicas 一栏中,输入 Pod 副本的最小值和最大值

    • Scaling Metrics 一栏中,选择启动弹性扩缩容的触发指标(CPU 或内存)

    • Target Average Utilization 输入框中,输入目标平均利用率

    ../_images/publish_version_config_1.png
  7. 点击页面右上角的 部署 按钮,系统将按设置的资源配置部署模型版本。展开部署日志,可查看模型版本的部署进度。

    ../_images/publish_version_log.png
  8. 模型版本部署成功后,在模型部署页面左侧的编辑画布栏中,选中 Predictor 卡片,即可在右侧的 调用服务 窗口中查看模型服务的调用方式和调用地址。

  9. 请求超时 输入框中,对访问模型服务 API 设置 timeout 时限,最小可设置 1000ms 的时长,最大可设置 60000ms 的时长。

    ../_images/published_model_service.png
  10. 在线测试 窗口中,选择 调用服务测试 类型,并在 输入参数 输入框中输入测试参数,然后点击 发起测试,即可测试验证模型服务。

    ../_images/publish_version_testing.png
  11. 在线测试 窗口中,选择 Feedback测试 类型,并在 输入参数 输入框中输入测试参数,然后点击 发起测试,即可测试验证模型Feedback。

    ../_images/publish_version_testing_1.png
  12. 返回 模型版本管理 页面,可在 版本管理 标签下查看模型版本的状态已变更为 生产中

    ../_images/version_production.png

部署模型版本到边缘节点

备注

由于当前IaaS不支持边缘部署,模型版本部署暂不支持边缘节点部署。