202101~06


本章介绍了对 2.2 版本中 1-6 月的新增功能与功能改进。

平台核心服务

问题描述

修复/改进说明

影响(如有)

Zookeeper 日志容易被滚动覆盖

收集 Zookeeper 的日志到 ES 中

无影响

Kafka eagle bug fix: 解决 consumer offset 为 -1 的问题

增加 snapshot 机制,从历史快照中快速恢复消费数据

无影响

  • 访问 ES 集群超时后导致连接不可用产生的死锁问题(log-center-flume-collector)

  • Lion 初始化弱密码问题

  • 修复 log-center-flume 的偶现死锁问题

  • 修复 Lion 初始化弱密码问题

升级过程中,可能查不到最新的日志

所有的 2.2.0 线上环境都只有一个默认的只读账号,k8smon,此账号和密码一致,导致存在弱密码的安全问题

修改 Grafana 密码

无影响

资源管理

问题描述

修复/改进说明

影响(如有)

RMS server 存在调用 Kafka topic 创建接口失败的问题

修正问题,调用 Kafka topic 创建接口不再失败

无影响

流式计算设计态和批处理容器上限值根据动态计算会过高,需要调整为静态值 4 CU

修改配置 rm-service.resource.static.limit,流式计算设计态的静态上限从100 调整为 4,批处理容器计算设计态静态上限从 5000 调整为 4

上限调整,用户能申请出来的量会受到限制

IoT Hub

告警服务

问题描述

修复/改进说明

影响(如有)

  • 测点无法命中缓存,导致测点数据消费缓慢

  • Struct 类型测点,无数据更新告警无法产生

  • 设备属性值修改后,告警引擎无法获取新属性值

  • 修复测点无法命中缓存的问题

  • 修复时序告警-无数据更新,Struct 类型测点告警

  • 属性告警中,为设备缓存增加过期策略

无影响

  • 构建测点缓存时重度依赖 mySQL,速度较慢

  • 当设备或者属性不存在时,设备属性缓存会被击穿

  • 多测点、时序告警的处理线程较少

  • 构建测点缓存时,减少对 mySQL 依赖

  • 优化属性告警-设备属性缓存,防止击穿

  • 增加多测点、时序告警 internal topic consumer 线程,并可在 Lion 配置

无影响

告警无法解析负时区

修复告警负时区解析错误

无影响

  • 规则的范围对于 modelIdpath 的筛选条件不正确

  • 新环境迁移状态获取不当,反复重启

  • 修复规则的范围对于 modelIdpath 的筛选条件

  • 修复新环境迁移状态的获取

无影响

  • 告警需要携带设备属性值

  • 告警类型只支持两级,但用户却批量导入了三级子类型

  • 告警触发携带自定义信息(tag)

  • 告警类型导入时,禁止三级子类型导入

无影响

告警 Update History Alert Tags API 中有一个 get 操作,因为面对的是 alias,所以性能损耗明显

优化 Update History Alert Tags 接口性能

无影响

设备集成服务

问题描述

修复/改进说明

影响(如有)

SFTP Client 节点不支持含有 “*” 的文件名

SFTP Client 节点支持含有 “*” 的文件名

无影响

Switch 节点:当节点有一个具有多个标签的分支和另一个具有 Others 标签的分支时,发布流时出错

发布将不再显示错误

无影响

不能处理好 CSV 字段带双引号,双引号会被当成文字内容

修复了能够处理带双引号的 CSV 字段的问题

无影响

MQTT Sub 节点在接收消息后重复执行

修复了重复执行问题,MQTT Sub 节点只会执行一次

无影响

企业数据平台

流数据处理

问题描述

修复/改进说明

影响(如有)

  • 0.2.0 以前 RecordGenerator 算子启动时会读取所有模型数据,导致集群任务在模型数据较多时启动失败

  • 0.2.0 以前 Normalizer 算子在一些情况下会触发NPE问题

  • 流式计算当前切面(固定频率)计算算子需要消费无关数据,需要进行改造

  • 流式计算暂无拆分 Topic 能力,所有数据混合在一个 Topic 中,虽简化了用户使用难度,但也增加了资源使用量

  • 光伏某些场景下,存在云端和 Edge 端血缘冲突,导致云端流无法正常发布

  • 0.2.1、0.3.0 算子正式发布

  • 正式支持固定频率计算方案

  • 高级流功能上线,支持自定义 Topic

  • 流式计算暂时跳过血缘校验

  • 流式计算告警内容优化

  • 流运维管理系统新增集群和 Spark 页面入口

  • 其他 bugfix

发布过程中,流运维 Lag 监控会暂时不显示数据

集群任务流存在 CheckPoint 写入失败问题,并且数据在任务积压情况下会导致 Driver 内存占用升高

  • 解决集群任务流 CheckPoint 相关问题

  • Spark 镜像还原 Checkpoint 线程池队列大小为 1000,最大线程数为 3

  • Streamsets 镜像 Ceph 的 Checkpoint 多增加一个参数

  • Streamsets 重试 retry bug 修复

发布过程中,集群任务流会被重启,中断约 10 分钟

0.3.0 版本的 Normalizer 算子中在一些场景会频繁进行 RPC 调用,导致使用该算子的系统流和高级流性能较差

优化了 0.3.0 版本算子中 Normalizer 算子的性能

发布过程中,使用 0.3.0 版本算子的流会被重启,中断约 10 分钟

时序数据管理

问题描述

修复/改进说明

影响(如有)

存储策略更新中,默认每次会更新底层表的 TTL,当对应表的数据量较大时该更新会非常耗时,从而触发重试机制进行反复更新,影响数据的正常写入

优化存储策略保存对应的调用逻辑链路

发布期间存储策略服务不可用

  • 数据清理中,对含 “-” 和 “_” 字符的测点,不能成功清理对应的最新数据

  • 存储策略中表model_point_storage_policy_info 未对相应字段添加索引,在数据量较大的环境有性能问题

  • 修复不能正常清理最新数据的 bug

  • 存储策略中 model_point_storage_policy_info 表对 model_id 字段添加索引

发布期间,数据清理服务不可用

数据联邦

问题描述

修复/改进说明

影响(如有)

data-query-proxy 中存在重复添加数据源问题

修复总是添加数据源的问题

无影响

无法跨 OU 访问 HDFS 过滤自己对自己授权的大数据账号

新增功能可跨 OU 访问 HDFS 和 Hive

无影响

APIM 校验 token 的地址和域名发生变化,不同环境要兼容旧的地址

兼容新旧的 token 校验

无影响

需要给联邦数据下载新增下载文件大小字段,验证 callbackUrl 功能

获取下载状态的结果中新增下载文件大小

无影响

数据同步服务

问题描述

修复/改进说明

影响(如有)

安全问题禁用了部分命令,影响脚本开发中创建 Hive 表的功能

修复脚本开发 Hive 脚本关键字黑名单影响正常功能的问题

升级过程中 IDE 页面可能短时间接口报错(不超过10分钟)

  • 当环境中没有离线任务时,调度系统会发出错误的告警邮件

  • 任务资源没有权限管控,会有安全问题

  • 修复数据同步任务到 SFTP,强密码问题

  • 修复调度系统没任务调度时,误告警问题

  • 任务资源下载增加权限校验

升级过程中 IDE 页面可能短时间接口报错(不超过10分钟)

批数据处理服务

问题描述

修复/改进说明

影响(如有)

脚本开发不支持 Shell,且 Hive 查询时显示的行数太少,使用不方便

脚本开发支持 Shell 脚本

升级过程中 IDE 页面可能短时间接口报错(不超过 10 分钟)

需要支持动态增加 Hive分区/支持 FTP 数据源账号密码特殊字符

支持数据同步前端以列值做分区/重写了依赖包中的工具类以规避原有的特殊字符 bug

无影响

  • 用户增加列后无法正确同步

  • 数据同步和预览 S3 数据源时可能出现并发问题

在写入 Hive 表之前进行表结构校验,支持在任务创建后增加列/修复多线程情况下读取 S3 的 bug

无影响

优化通配符匹配大量小文件时数据预览速度

通配符匹配到第一个文件即返回预览结果

无影响

企业分析平台

智能实验室

问题描述

修复/改进说明

影响(如有)

Notebook 实例缺省时不挂载 PVC

更新 Notebook 微服务,优化了以下工作空间配置: + 申请时缺省必须挂载 PVC + 不挂载 PVC 存储时给出提示,标明存在的风险

无影响

如果 OU 对应的大数据平台账号为非标准账号(不满足 data_ouid 命名规则),且创建 Notebook 实例时选择了 “挂载 Hadoop PVC”,可能会因为在 PVC 上找不到对应的 keytab 文件而无法正常启动实例。

Notebook 实例 PVC 挂载增加 keytab 挂载路径,用户可以指定一个 keytab 文件来恢复该账号的使用功能

无影响

智能集市

问题描述

修复/改进说明

影响(如有)

由于平台底层镜像仓库资源和权限限制,对新建模型和模型版本的数量做了限制。用户当前OU最多可以管理30个模型,每个模型最多可以上架50个版本。超过上限后,在EAP中将不能创建新的模型和模型版本。需要联系运维人员通过管理员权限在镜像仓库中清理无效模型,释放资源空间后才能继续创建新的模型和模型版本。

底层扩容、删除历史版本并放开上线数量限制

无影响

无法监控模型的性能

增加模型监控算子,可监控模型一段时间内的性能表现

无影响

由于安全管控的原因,当前仅允许管理员用户创建数据源连接而且仅创建者本人可以进行连通性测试、修改及删除操作。

  • 增加 git host 白名单,仅 EAP 管理员可配置白名单

  • OU 下所有用户可创建数据源连接,且仅创建者可修改数据源连接(包括 url)、进行连通性测试及删除数据源

无影响

选中的 Git 分支下不能选择“文件夹”

Seldon core 选中 Git 文件并选择 source 和 project 后,支持选择具体的分支或 tag 名称、文件和文件夹

无影响

计算架构不支持策略算法包

制作支撑电力交易算法的基础镜像,包含 pyscipopt、cvxpy、cplex、ortools 等求解运算包。版本上架时增加 Optimize or Trading 镜像管理包

无影响

高级设置重试次数缺省值及资源限制下限过大

CPU limit 由原来的 0.5 core 改为 0.1 cormemory limit 由原来的 1 G 改为 0.5 G

无影响

版本管理无法自定义输入版本名称

  • 模型版本上架时默认选择时间规则

  • 规则下面增加“别名”输入选项,命名规则类模型别名,非必填项

无影响

模型版本上架功能基于 git 选择模型或镜像时仅支持选择 Branch, 但不支持选择 Tag

当选择 Git 源后,选择 Branch 或 Tag,可分别展示其树状结构列表或 Tag 列表,用于选择确认及上传导入

无影响

版本详情页导出功能无法指定导出版本

修复后可以指定导出版本

无影响

实例名称长度超过 52 个字符时删除该实例导致所有 pod 重启

修复后实例名超过 52 个字符时给出提示

无影响

智能任务流

问题描述

修复/改进说明

影响(如有)

Workflow 增加退出算子时,DAG 图搜索算子时报错:Internal Server Error

修复后 DAG 图搜索算子不再报错

无影响

应用使能平台

业务流程管理

问题描述

修复/改进说明

影响(如有)

业务流程管理服务不支持批量审批功能

  • 在流程视图 API 里添加任务信息和表单 ID

  • 提供一个工具 API 自动审批存量流程

无影响

组态工具

问题描述

修复/改进说明

影响(如有)

EnOS 组态工具调用 EnOS 资产接口的时候,分页参数错误导致设备场站下数据不展示

修复批量授权功能

无影响