文件算子


ML生命周期管理提供以下基于 Git 的文件算子,用于获取文件或目录:

  • Git Directory 算子

  • Git File 算子

Git Directory 算子

Git Directory 算子用于从 Git 目录获取该目录下的全部文件,其输出适用于按项目式开发的 Shell/Python/Hive/MySQL 等编程语言或 SQL 算子的代码文件来源。例如:

../_images/git_dir_calculator.png

输入参数说明

参数

说明

repo_uri

Git 仓库的地址。

branch

Git 分支。

paths

文件路径列表,列表元素可以是文件,也可以是路径,list格式。例如:"modelhosting_prj/model6/test1.py"

token

访问 Git 仓库的token。

输出参数说明

参数

说明

workspace

文件所在的路径(minio),directory类型,将 paths 里的目录和文件通过 workspace 的形式输出。

paths

文件路径列表,可用于后续算子遍历列表文件,依次处理,list格式。

Git File 算子

Git File算子用于从 Git 仓库上获取指定的单个文件。其输出适用于某些特定的场景,如 Hive 算子里的 keytab 文件或 kerberos 配置文件的获取。例如:

../_images/git_file_calculator.png

输入参数说明

参数

说明

repo_uri

Git 仓库的地址。

branch

Git 分支。

file_path

文件路径,例如:modelhosting_prj/demo4/krb5.conf

token

访问 Git 仓库的token。

输出参数说明

参数

说明

file

输出的文件路径(minio),输出从 Git 拉取下来的单个文件。