2021/08/30


本章介绍了对 2.2 版本中 8 月的功能改进。

IoT Hub

数据集成服务

问题描述

修复/改进说明

影响(如有)

SFTP 节点在并行执行时会有问题,导致下载失败。

修复了并行处理时相互影响的问题,下载不再失败。

该修复不会导致服务中断,只需下线重发布流修复此问题。

企业数据平台

流数据处理

问题描述

修复/改进说明

影响(如有)

在流任务因为资源配置等问题不断重启情况下,流任务会处于 UNKOWN 状态,UNKOWN 状态下默认不支持任何操作,不支持用户主动操作恢复状态。

流运维提供 UNKOWN 状态下 PAUSE 和 STOP 的功能,方便用户及运维重置流状态。

  • 升级过程中,用户流及设计态会被重启以适应相关变更,预计影响 15-30 分钟。

  • 安装后,对系统无直接影响。

高阶流支持用户选择自己定义的输入输出 Topic,但在跨 OU 导入情况下,Topic 的 OU ID 后缀不会自动修改,用户必须再次编辑流后才能发布,带来使用上的不便。

高阶流中选择的 Topic 在跨 OU 导入情况下,支持自动替换 OU 的 ID 后缀。

  • 升级过程中,用户流及设计态会被重启以适应相关变更,预计影响 15-30 分钟。

  • 安装后,对系统无直接影响。

高阶流用户选择输出到 CAL Topic 情况下,原有默认 KafkaProducer 的消息分区表达式无法适应 CAL Topic 消息格式,导致消息集中到一个分区。

修改高阶流 KafkaProducer 的分区表达式默认配置,同时支持 INTERNAL 和 CAL Topic 中消息格式下按 assetId 分区;并开放高阶流 KafkaProducer 的分区表达式配置项,支持用户按需修改。

  • 升级过程中,用户流及设计态会被重启以适应相关变更,预计影响 15-30 分钟。

  • 安装后,对系统无直接影响。

默认情况下流会缓存 OU 下所有模型配置,提升处理效率,但在大数据量场景下,无关模型较多且占用大量内存,影响流任务稳定运行。

升级所有算子版本中 DCM 模型服务 SDK,过滤无关测点,提升大数据量情况下算子模型缓存相关性能。

  • 升级过程中,用户流及设计态会被重启以适应相关变更,预计影响 15-30 分钟。

  • 安装后,对系统无直接影响。

集群任务配置不当情况下,会间断性出现内存不足(OOM)的 executor,这些 executor 默认会一直保留到任务停止,对于长期运行的任务,其累积的大量 OOM 的 executor 会影响到集群节点稳定性。

升级 StreamSets 中 Spark 镜像,支持自动清理 OOM 的 executor,并调整 Driver 的垃圾收集(GC)线程数,提升部分场景下集群任务运行稳定性。

  • 升级过程中,用户流及设计态会被重启以适应相关变更,预计影响 15-30 分钟。

  • 安装后,对系统无直接影响。

对于复杂的流任务,在因为某些不确定原因出现性能瓶颈时,难以判断流内部具体是哪些算子导致了瓶颈,导致问题排查困难。

增加流任务中单个算子执行时间等指标采集到 Prometheus,方便运维、开发后续排查性能问题。

  • 升级过程中,用户流及设计态会被重启以适应相关变更,预计影响 15-30 分钟。

  • 安装后,对系统无直接影响。