配置数据源连接


在智能集市中进行模型版本上架和在智能任务流中进行算子参数配置时,需要访问各类数据源中的数据、或向数据源中写入数据。在使用这类产品之前,可按业务需要完成以下数据源连接配置:

  • Git

  • HIVE

  • MySQL

  • S3

  • Blob

  • HDFS

  • API

  • APIM

前提条件


  • 已获取对应数据源的访问权限(数据源URL、用户名、密码等)。

  • 对于 Git 数据源连接,确保管理员已通过 资源配置 > 连接配置 > git白名单 页面配置可访问的 Git 服务器。

新建数据源连接

新建内部数据源连接


若当前 OU 已申请 “文件存储 HDFS” 和 “数据仓库存储(Hive)”资源,可通过以下步骤创建内部 HDFS 或 Hive 数据源连接:

  1. 从左侧导航栏中选择 资源配置 > 连接配置,打开 数据源连接 页面。

  2. 选择 新建 并在右侧面板中选择 HiveHDFS

  3. 在弹窗中输入以下信息:

    • 对于内部 Hive 源:


      字段

      描述

      数据源名称

      输入 Hive 数据源连接名称。

      内部/外部数据源

      选择 内部数据源

      使用 HDFS 连接

      启用 HDFS 连接从而加快数据获取速度。

      队列

      选择本 OU 的队列资源。

      描述

      输入 Hive 数据源连接的描述。


    • 对于内部 HDFS 源:


      字段

      描述

      数据源名称

      输入 Hive 数据源连接名称。

      内部/外部数据源

      选择 内部数据源

      描述

      输入 Hive 数据源连接的描述。


  4. 选择 确认


你可在 资源管理>资源列表数据管理 标签页中请求或查看“文件存储 HDFS”和“数据仓库存储”资源。如果当前 OU 的“文件存储 HDFS”和“数据仓库存储”资源不可用,联系系统管理员。

新建外部数据源连接


以下步骤以配置 Git 数据源连接为例,介绍如何新建外部数据源连接:

  1. 从左侧导航栏中选择 资源配置 > 连接配置,打开 数据源连接 页面。

  2. 选择 新建 并在右侧面板中选择 git

  3. 新增数据源 弹窗中,完成数据源连接的配置:

    • 数据源名称:输入数据源的名称

    • git 类型:选择git服务类型(github 或 gitlab)。不同的 git 服务类型,数据源配置项不同。

    • 认证方式:选择认证用户的方式(github 服务需要通过Token认证;gitlab 服务需要通过 Token 或用户名密码认证)

    • Git URL:输入 Git 数据源的地址(格式为 http://hostname:port/namespace

    • 数据源描述:输入对数据源的简要描述

    • 测试连通性:完成以上配置后,选择 测试,测试数据源连接配置是否正确

  4. 测试数据源连通后,选择 确认。添加的数据源连接会显示在列表中。

使用数据源连接


完成数据源连接配置后,即可通过建立的连接,访问数据源中的数据。例如,在智能集市产品中上架模型版本时,可访问Git数据源中保存的模型源文件:


../_images/accessing_data_source.png

管理数据源连接


根据业务需要,管理已添加的数据源连接(编辑或删除)。

  1. 如需编辑已注册的数据源连接,可在数据源连接列表中,选择某个数据源连接的 编辑 图标,修改数据源连接的配置信息。

  2. 如果业务不再需要某个数据源连接,可在数据源连接列表中,选择目标数据源连接的 删除 图标,即可删除数据源连接。

备注

仅数据源连接的创建者有权限修改、删除数据源,或测试数据源连通性。