关键概念¶
EnOS 数据质量的用户和权限继承了 EnOS 应用门户,开始之前,需了解 EnOS 应用门户的 关键概念。
下面是数据质量的关键概念。
质量维度及数据质量指标¶
质量维度是用于观察和分析数据质量的视角。
数据质量目前支持从完整性、有效性、及时性质量维度来评估数据质量。
完整率、有效率、及时率和覆盖率是用于评估 IoT 数据的质量指标。
可信度是用于评估指标数据的质量指标
完整性与覆盖率、完整率¶
完整性用于衡量数据采集的完整程度。在某一时间范围内有数据上送,则视为数据完整,若无数据上送,则视为缺失。数据质量支持根据 缺失模板 配置规则以衡量数据的完整性。
覆盖率和完整率是体现完整性的百分比数值表现形式。其中:
覆盖率定量反应数据接入的覆盖程度(即检查设备测点是否完成映射或是否已有数据上送)。
完整率定量反应数据本身的完整程度(即检查设备测点是否全量上送数据)。
覆盖率 = (已覆盖测点数/应覆盖测点数) x 100%
。其中:
已覆盖测点数表示已经完成测点映射或已有数据上送的测点数量
应覆盖测点数表示应该进行映射或数据上送的测点总数。
根据统计类型的不同,完整率存在以下两种计算逻辑:
当统计类型为周期时:
完整率 = (日完整周期数/日总周期数) x 100%
,其中,日完整周期数表示当日有数据上送的周期数之和,日总周期数 = (24 小时/统计周期)
,表示当日的周期总数,统计周期无法整除时,完整率向前取整。例如,统计周期为 10 分钟,每 10 分钟判断一次当前时间段内是否有数据上送,有则记为 1,表示该周期数据完整,累加得到数据完整的周期数作为日完整周期数。
当日总周期数 = ((24 小时 x 60 分钟)/10 分钟) = 144
。则该设备测点数据的完整率 = (数据完整的周期数累加值/144) x 100%
。当统计类型为有效时长时:
完整率 = (有效周期数/总周期数) x 100%
,其中,总周期数固定为288
,有效周期数 = 288 - 缺失时间段内的 5 分钟个数
。
有效性与有效率¶
有效性用于衡量数据取值是否在界定的值域范围内或数据的时间戳是否正常。数据质量支持根据 越限模板、卡值模板、跳变模板、时间戳超前模板 配置规则以衡量数据的有效性。
有效率是有效性的百分比数值表现形式,定量反应数据的有效程度。
有效率 = (日有效点数/日总上送点数) x 100%
,其中,日有效点数表示当日设备上送的有效数据的个数,日总上送点数表示当日设备上送的所有数据的个数。
及时性与及时率¶
及时性能反应数据从产生到可以查看的时间间隔。数据质量支持根据 延时模板 配置规则以衡量设备上送数据是否及时。
及时率是及时性的百分比数值表现形式,定量反应数据被同步的快慢程度。
及时率 = (日未延迟点数/日总上送点数) x 100%
,其中,日未延迟点数表示当日设备上送的未触发延时规则的数据个数,日总上送点数表述当日设备上送的所有数据的个数。
可信度¶
可信度反应指标数据的可信程度。数据质量支持根据 指标质量规则 配置规则以衡量指标数据的可信度。
可信度 = (指标完整率 x 指标有效率) x 100%
,其中,指标完整率是指在对应日期下指标是否有计算结果产生,指标有效率是指指标数值是否在合理的阈值范围内。
监控组¶
监控组是具有某些相同特征的监控对象的集合。数据质量目前仅支持选择 EnOS 设备连接与管理中的设备模型作为监控组,如公有模型:风机基础(EnOS_Wind_Turbine)
。
在数据质量中,若选择了 EnOS 设备连接与管理中的某一模型作为监控组,
该模型的任一子模型和父模型均不可再被设为新的监控组。例如,当下图中的
子模型 A
被设置为监控组时,其父模型
及子模型 C
均不可被设为监控组。该模型的平级模型可被设为监控组。例如,
子模型 B
可被设为监控组。
监控对象¶
监控对象是数据质量中最细粒度的监控单元。数据质量目前仅支持选择 EnOS 设备连接与管理中设备模型下的测点作为监控对象,如公有模型 风机基础(EnOS_Wind_Turbine)
下的测点 WWPP.APProduction
可被配置为一个监控对象。
在数据质量中,若选择了 EnOS 设备连接与管理中的某一模型作为监控组,可以选择以下测点作为监控对象:
该模型的私有测点。
模型的父模型上的测点。
该模型下所有子模型的测点。
例如,“模型树甲”由“父模型”、“子模型 A”、“子模型 B”、“子模型 C”构成,且模型中分别包含以下测点:
父模型:测点 1,测点 2
子模型 A:测点 3,测点 4
子模型 B:测点 5,测点 6
子模型 C:测点 7,测点 8
则在 EnOS 设备连接与管理中,可根据模型分别查看以下测点:
父模型:测点 1,2
子模型 A:测点 1,2,3,4
子模型 B:测点 1,2,5,6
子模型 C:测点 1,2,3,4,7,8
在数据质量中,若选择 EnOS 设备连接与管理作为数据源,可选择以下模型和测点分别作为监控组和监控对象:
选择“父模型”作为监控组时:可选择“测点 1,2,3,4,5,6,7,8”作为监控对象
选择“子模型 A”作为监控组时:可选择“测点 1,2,3,4,7,8”作为监控对象
选择“子模型 B”作为监控组时:可选择“测点 1,2,5,6”作为监控对象
选择“子模型 C”作为监控组时:可选择“测点 1,2,3,4,7,8”作为监控对象
核心/非核心¶
当测点已配置完整性、有效性和及时性的质量评估规则时:
核心测点:不论有无数据上送,测点均参与完整率、有效率、及时率的计算,并在质量大盘和质量报表中显示。
非核心测点:
当该测点有数据上送时:测点参与完整率、有效率、及时率的计算,并在质量大盘和质量报表中显示。
当该测点已被覆盖,但无数据上送时:测点参与完整率的计算和展示,完整率的计算结果为 0%;测点不参与有效率、及时率的计算,显示的计算结果为 -%。
当该测点未被覆盖时:不参与完整率、有效率、及时率的计算,且不展示。
备注
覆盖表示设备测点已被接入且已与 EnOS 设备连接与管理中的模型测点形成映射。
可参考以下图示理解:
质量评估规则¶
质量评估规则是根据特定质量维度设定的数据质量评估规则,数据质量目前支持配置越限、缺失、卡值、跳变、延时、时间戳超前 6 种质量评估规则。
同一监控对象下,一种规则模板仅支持配置一条规则,且:
最多可为数值型(int,float,double)监控对象配置 6 种质量评估规则,包括越限、缺失、卡值、跳变、延时、时间戳超前规则。
最多可为非数值型监控对象配置 3 种质量评估规则,包括缺失、延时、时间戳超前规则。
维度表¶
在数据质量中,维度表用于存储基于设备的不同属性维度划分的属性数据。维度表中的属性可以作为变量来构造质量评估规则中的动态阈值。
越限¶
测点上送的数据值超过设定的固定阈值或动态阈值时,视为数据越限。更多信息,参见 越限模板。
缺失¶
未按指定频率或未在指定统计周期内上送数据,视为数据缺失。更多信息,参见 缺失模板。
卡值¶
在连续时间内测点上送的数据的值未发送变化,视为数据卡值。更多信息,参见 卡值模板。
跳变¶
1 小时内的数据增量大于固定阈值或动态阈值,或数据增量不合理时,视为数据跳变。更多信息,参见 跳变模板。
延时¶
“数据到达 EnOS Cloud 的时间 — 设备时间戳 > 设定的延时时长”,视为数据延时。例如,设备显示的数据生成时间为 10:10:00,数据到达 EnOS Cloud 的时间为 10:20:00,设定的固定阈值为 5 分钟,此时(10:20:00-10:10:00)> 5,数据触发延时规则。
更多信息,参见 延时模板。
时间戳超前¶
“设备时间戳 — 数据到达 EnOS Cloud 的时间 > 设定的超前时长”,视为时间戳超前。时间戳超前规则默认设备时间戳大于数据到达 EnOS Cloud 的时间。例如,设备显示的数据生成时间为 10:10:00,数据到达 EnOS Cloud 的时间为 10:00:00,设定的超前时长为 5 分钟。此时(10:10:00-10:00:00)> 5,时间戳超前。
更多信息,参见 时间戳超前模板。