批数据处理资源


数据开发者可使用批数据处理服务通过开发任务流处理离线数据。


有关批数据处理的详细信息,请参见 批数据处理概述


批处理数据服务的运行需要两种资源:大数据队列资源和容器计算资源。

大数据队列资源

在使用数据探索功能进行离线数据分析任务时,会使用hive、spark解释器处理数据。当解释器使用default队列资源进行数据查询和处理时,任务运行不可控且资源无法管理。若需运行资源占用较高的数据查询和处理任务,需申请批数据处理 - 大数据队列资源,并在notebook中配置申请的队列资源名称。

资源规格说明

批数据处理 - 大数据队列资源以计算单元(CU)为单位,提供了两种计算规格,即计算密集型和内存密集型。可根据实际数据查询和处理任务的需求,选择适合的计算规格。


若CPU占用率更高,则可以选择计算密集型资源;若内存占用率更高,则可以选择内存密集型资源。目前支持的申请范围为1~100CU。

资源规格

资源说明

计算密集型

1CU = 1 core CPU + 2GB Memory

内存密集型

1CU = 1 core CPU + 4GB Memory

update 容器计算资源

使用批数据处理服务运行大数据分析任务前,需要申请批数据处理 - 容器计算资源。

资源规格说明

批数据处理 - 容器计算资源以计算单元(CU)为单位,不同的规格对应着不同的数据处理能力。同种资源模式下规格越高,数据处理效率越高,单位时间内处理的数据量越大。

资源规格

计算能力

业务参考

标准规格

1 CU

1 CU = 1 vCore CPU + 2GB 内存

标准规格X2

2 CU

2 CU = 2 vCore CPU + 4GB 内存

标准规格X3

3 CU

3 CU = 3 vCore CPU + 6GB 内存

标准规格X4

4 CU

4 CU = 4 vCore CPU + 8GB 内存