处理算子¶
智能任务流提供以下任务处理相关算子:
- Notebook 算子
- Python 算子
- Shell 算子
- Email 算子
- Notebookex 算子
- Pythonex 算子
- Shellex 算子
- Pipeline Trigger 算子
- APIM 算子
- ParallelFor Status List 算子
Notebook 算子¶
Notebook 算子常用于处理在 Notebook 中验证通过并保存下来的 ipynb 类型的任务。Notebook 算子常与 Git Directory 算子组合使用,通常开发的模型代码文件会保存到 Git 上,Notebook 算子会从 Git Directory 算子获取代码文件并执行。典型的场景是执行 Python 任务,运行 Python 代码文件,训练机器学习模型,产生的模型文件通过 MLflow 的 logmodel 方式记录并输出。
Notebook 算子的输入输出参数为动态参数,可按需要添加输入输出参数,或对参数进行排序。
输入参数说明¶
以下为常用输入参数示例:
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
workspace | 必需 | Directory | 指定代码所在的文件目录,通常来自 Git Directory 算子指定的 directory 。 |
entrypoint | 必需 | String | 指定入口程序文件名称,文件名称需包含路径(因为不同的目录下可能存在相同名称的文件)。 |
requirements_file_path | 可选 | String | 指定需要安装的依赖包所在的文件路径。 |
env | 可选 | List | 指定需要传递的参数列表。 |
Python 算子¶
Python 算子用于处理 Python 脚本任务,与 Git Directory 算子组合使用。Python 算子的参数分为固定参数和动态参数,固定参数不能被删除,动态参数可根据使用的需要新增、修改、删除和排序。
输入参数说明¶
以下为 Python 算子的固定参数。
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
workspace | 必需 | Directory | 指定代码所在的文件目录,通常来自 Git Directory 算子。 |
entrypoint | 必需 | String | 指定入口程序文件名称,文件名称需包含路径。 |
requirements_file_path | 可选 | String | 指定需要安装的依赖包所在的文件路径。 |
输出参数说明¶
Python 算子没有固定的输出参数,输出参数可根据使用的需求动态增加。
Shell 算子¶
Shell 算子用于处理 Shell 脚本任务,与 Git Directory 算子组合使用。其输入输出参数配置与 Python 算子相同,可参考 Python 算子的说明。
Email 算子¶
Email 算子用于实现邮件告警功能。
输入参数说明¶
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
mail_host | 必需 | String | 邮件服务器IP地址或域名,例如 smtp.163.com 、smtp.office365.com 。 |
mail_user | 必需 | String | 邮件服务用户名。 |
mail_pass | 可选 | Password | 与用户名对应的密码。 |
sender | 必需 | String | 发件人。 |
receivers | 必需 | List | 收件人列表,可来自组织内用户列表。 |
content | 必需 | String | 发送邮件内容。 |
subject | 必需 | String | 发送邮件主题。 |
on_condition | 可选 | Run_status | 在指定值为 succeed,completed,或 failed 时,该算子可作为退出算子使用。当任务流为指定的状态时,触发邮件发送。 |
输出参数说明¶
名称 | 类型 | 描述 |
---|---|---|
status | String | 邮件发送状态。 |
content_out | String | 邮件发送内容。 |
NotebookEx 算子¶
NotebookEx 算子常用于处理在 Notebook 中验证通过并保存下来的 ipynb 类型的任务。NotebookEx 会从内部存储中获取代码文件并执行,典型的场景是执行 Python 任务,运行 Python 代码文件,训练机器学习模型,产生的模型文件通过 MLflow 的 logmodel 方式记录并输出。关于如何上传代码文件到内部存储,可参考 上传模型代码到内部存储。
NotebookEx 算子的输入输出参数为动态参数,可按需要添加输入输出参数,或对参数进行排序。
输入参数说明¶
以下为常用输入参数示例:
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
workspace | 必需 | notebook_dir | 指定代码所在的内部存储文件目录。 |
entrypoint | 必需 | notebook_file | 指定内部存储入口程序文件名称,文件名称需包含路径。 |
requirements | 可选 | notebook_file | 指定需要安装的依赖包。 |
env | 可选 | List | 指定需要传递的参数列表,默认为空。 |
PythonEx 算子¶
PythonEx 算子用于处理已保存在平台内部存储中的 Python 脚本任务。PythonEx 算子的参数分为固定参数和动态参数,固定参数不允许删除,动态参数可根据使用的需要新增、修改和删除。
输入参数说明¶
下表列出了 PythonEx 算子的固定参数。
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
workspace | 必需 | notebook_dir | 指定代码所在的文件目录。 |
entrypoint | 必需 | notebook_file | 指定入口程序文件名称,文件名称需包含路径。 |
requirements | 可选 | notebook_file | 指定需要安装的依赖包。 |
输出参数说明¶
PythonEx 算子没有固定的输出参数,输出参数可根据使用的需求动态增加。
ShellEx 算子¶
ShellEx 算子用于处理已保存在平台内部存储中的 Shell 脚本。其输入输出参数配置与 PythonEx 算子相同,可参考 PythonEx 算子的说明。
Pipeline Trigger 算子¶
Pipeline Trigger 算子仅可作为退出算子使用,可用于调用其它任务流。
输入参数说明¶
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
experiment | 必需 | pipeline_experiment | 选择被调用的任务流。可选本 OU 下除了本算子所在任务流以外的所有其他任务流。 |
输出参数说明¶
名称 | 类型 | 描述 |
---|---|---|
pipeline_run_id | String | 被调用的任务流运行名称。 |
pipeline_run_info | String | 被调用的任务流运行信息。 |
APIM 算子¶
APIM 算子用于从指定 API 连接中获取数据。
输入参数说明¶
名称 | 必需/可选 | 类型 | 描述 |
---|---|---|---|
url | 必需 | String | 输入需要调用的 API 地址。 |
access_key | 必需 | String | 输入调用 API 的 AccessKey。 |
secret_key | 必需 | password | 输入调用 API 的 SecretKey。填写或修改后保存,再次进入任务流设计页面查看此算子时此处会显示为空。 |
http_method | 必需 | http_method | 指定请求方式。可选值为:GET、POST、PUT 和 DELETE。 |
body | 可选 | String | 输入请求体。 |
headers | 可选 | String | 输入请求头。 |
输出参数说明¶
名称 | 类型 | 描述 |
---|---|---|
result | File | 输出 API 调用结果。 |