批数据处理资源¶
数据开发者可使用批数据处理服务通过开发任务流处理离线数据。
有关批数据处理的详细信息,参见 批数据处理概述。
申请批数据处理资源场景¶
批处理数据服务的运行需要两种资源:大数据队列 和 容器计算。
大数据队列资源¶
在使用数据探索功能进行离线数据分析任务时,会使用 hive、spark 解释器处理数据。当解释器使用 default 队列资源进行数据查询和处理时,任务运行不可控且资源无法管理。若需运行资源占用较高的数据查询和处理任务,需申请批数据处理 - 大数据队列资源,并在 notebook 中配置申请的队列资源名称。
备注
每个 OU 下可申请资源实例数量上限为 3。
资源规格说明 ¶
批数据处理 - 大数据队列资源以计算单元(CU)为单位,提供了两种计算规格,即计算密集型和内存密集型。可根据实际数据查询和处理任务的需求,选择适合的计算规格。
若 CPU 占用率更高,则可以选择计算密集型资源;若内存占用率更高,则可以选择内存密集型资源。
资源规格 |
资源说明 |
---|---|
计算密集型 |
1 CU = 1 core CPU + 2 GB Memory,支持的申请范围默认为 2 ~ 5000 CU。 |
内存密集型 |
1 CU = 1 core CPU + 4 GB Memory,支持的申请范围默认为 4 ~ 5000 CU。 |
容器计算资源¶
使用批数据处理服务运行大数据分析任务前,需要申请批数据处理 - 容器计算资源。
设计态资源模式 适用场景:当需要使用批数据处理脚本开发功能时,需要事先申请设计态模式资源。
运行态资源模式 适用场景:当需要使用数据同步或批数据处理功能时,运行手动或周期性调度任务时,需要申请运行态模式资源。
备注
每个 OU 下同种资源模式可申请资源实例数量上限为 1。
资源规格说明 ¶
批数据处理 - 容器计算资源以计算单元(CU)为单位,不同的规格对应着不同的数据处理能力。同种资源模式下规格越高,数据处理效率越高,单位时间内处理的数据量越大。
设计态资源模式 :用于批数据处理脚本开发功能模块时,对应的脚本执行和调试所需的容器资源。
运行态资源模式 :用于批数据处理或数据同步功能时,任务节点运行及调度(包括周期性调度和立即调度)所需的容器资源。
设计态资源模式规格说明¶
资源类型 |
资源说明 |
---|---|
CU |
1 CU = 1 Core CPU + 2G 内存。支持的申请范围默认为 1 ~ 5000 CU。 |
运行态资源模式规格说明¶
资源类型 |
资源说明 |
---|---|
CU |
1 CU = 1 Core CPU + 2G 内存。支持的申请范围默认为 1 ~ 5000 CU。 |