Processing Operators


ML生命周期管理提供以下处理算子:

  • Notebook 算子

  • Python 算子

  • Shell 算子

Notebook 算子

Notebook 算子常用于处理在 Notebook 中验证通过并保存下来的 ipynb 类型的任务。通常开发的模型代码文件会保存到 Git 上,可使用 Notebook算子会从 Git Directory 算子获取代码文件并执行。典型的场景是执行 Python 任务,运行 Python 代码文件,训练机器学习模型,产生的模型文件通过 MLflow 的 logmodel 方式记录并输出。


Notebook 算子常与 Git Directory 算子组合使用。例如:

../_images/notebook_calculator.png

输入参数说明

参数

说明

workspace

指定输入文件所在的目录,通常来自 Git Directory 算子指定的 directory。

entrypoint

指定入口文件名称,文件名称需包含路径(因为不同的目录下可能存在相同名称的文件)。

requirements_file_path

指定需要安装的依赖包所在的文件路径。

env

指定需要传递的list类型参数。

输出参数说明

参数

说明

mlflow_model_file_paths

通过 MLflow 的 logmodel 方式记录并输出的模型文件。

Python 算子

Python 算子用于处理 Python 脚本任务。

输入参数说明

参数

说明

workspace

指定输入文件所在的目录,通常来自 Git Directory 算子指定的 directory。

entrypoint

指定入口文件名称,文件名称需包含路径(因为不同的目录下可能存在相同名称的文件)。

requirements_file_path

指定需要安装的依赖包所在的文件路径。

args

(可选)指定需要传递的list类型参数,可通过 os.environ.get("key") 方式获取后使用.

output_path

(可选)指定处理后的数据写入的位置(本地路径)。

string_data

(可选)指定输入参数的类型,用于适配不同的算子输入。

list_data

(可选)指定输入参数的类型,用于适配不同的算子输入。

number_data

(可选)指定输入参数的类型,用于适配不同的算子输入。

输出参数说明

参数

说明

output_string

(可选)用于适配不同的输出类型。

output_list

(可选)用于适配不同的输出类型。

output_number

(可选)用于适配不同的输出类型。

Shell 算子

Shell 算子用于处理 Shell 脚本任务,其输入输出参数与 Python 算子相同。