文件算子¶
智能任务流提供以下基于 Git 和 HDFS 的文件算子,用于获取文件或目录:
- Git Directory 算子
- Git File 算子
- HDFS Directory 算子
- HDFS File 算子
- HDFS Uploader 算子
Git Directory 算子¶
Git Directory 算子用于从 Git 目录获取该目录下的全部文件,常用作 Shell、Python、Notebook 等算子的前置算子,用于提供所需的代码文件。例如:
输入参数说明¶
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
data_source_name | 必需 | String | 数据源名称,来自数据源连接配置。 |
project | 必需 | String | Git 项目名称。 |
branch | 必需 | String | Git 分支名称。 |
paths | 必需 | List | 文件路径列表,列表元素可以是文件,也可以是路径,list格式。例如:["modelhosting_prj/model6/test1.py"] 。 |
输出参数说明¶
名称 | 类型 | 描述 |
---|---|---|
workspace | Directory | 文件所在的目录(minio),directory类型,将 paths 里的目录和文件通过 workspace 的形式输出。 |
paths | List | 文件路径列表,可用于后续算子遍历列表文件,依次处理,list格式。 |
Git File 算子¶
Git File 算子用于从 Git 仓库上获取指定的单个文件,用于其它算子的输入。
输入参数说明¶
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
data_source_name | 必需 | String | 数据源名称,来自数据源连接配置。 |
project | 必需 | String | Git 项目名称。 |
branch | 必需 | String | Git 分支名称。 |
file_path | 必需 | String | 文件所在的路径。 |
HDFS Uploader 算子¶
HDFS Uploader 算子用于将某个指定的文件上传到 HDFS 指定路径,该算子没有输出参数。
输入参数说明¶
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
data_source_name | 必需 | String | 数据源名称,来自数据源连接配置。 |
file | 可选 | file | 需要上传的文件,从 Git 或 HDFS 其它文件算子传入。 |
filename | 可选 | file | 指定上传后的新文件名。 |
directory | 可选 | Directory | 文件当前所在路径。 |
dest | 可选 | String | 文件上传的目标路径。 |
overwrite | 可选 | Boolean |
|