文件算子¶
ML生命周期管理提供以下基于 Git 的文件算子,用于获取文件或目录:
Git Directory 算子
Git File 算子
Git Directory 算子¶
Git Directory 算子用于从 Git 目录获取该目录下的全部文件,其输出适用于按项目式开发的 Shell/Python/Hive/MySQL 等编程语言或 SQL 算子的代码文件来源。例如:
输入参数说明¶
参数 |
说明 |
---|---|
repo_uri |
Git 仓库的地址。 |
branch |
Git 分支。 |
paths |
文件路径列表,列表元素可以是文件,也可以是路径,list格式。例如: |
token |
访问 Git 仓库的token。 |
输出参数说明¶
参数 |
说明 |
---|---|
workspace |
文件所在的路径(minio),directory类型,将 |
paths |
文件路径列表,可用于后续算子遍历列表文件,依次处理,list格式。 |
Git File 算子¶
Git File算子用于从 Git 仓库上获取指定的单个文件。其输出适用于某些特定的场景,如 Hive 算子里的 keytab 文件或 kerberos 配置文件的获取。例如:
输入参数说明¶
参数 |
说明 |
---|---|
repo_uri |
Git 仓库的地址。 |
branch |
Git 分支。 |
file_path |
文件路径,例如: |
token |
访问 Git 仓库的token。 |
输出参数说明¶
参数 |
说明 |
---|---|
file |
输出的文件路径(minio),输出从 Git 拉取下来的单个文件。 |