文 | Vachel
编辑 | Vachel
窃电(electricity theft)指用户为了逃避电费而进行非法操作的一种行为,在发展中国家已成为一种普遍现象。根据2012年的统计数据,印度因窃电而导致其GDP下降了1.5%,印度人口最多的北方邦因窃电而损失了其总电能的36%。这些行为不仅给电力供应商造成难以承受的经济损失,还危及用户甚至整个公众的安全。因此许多供电公司在检测和防止窃电方面付出了巨大的努力。
常用的反窃电方法可分为两类:
- 一类是基于硬件驱动的反窃电方法
- 一类是基于数据驱动的反窃电方法
常用的反窃电方法
硬件驱动方法 | 数据驱动方法 |
---|---|
电表开盖检测 | 分析用户用电时序曲线 |
集中器检测 | 分析台区线损时序曲线 |
... | ... |
其中,硬件驱动的方法响应快,定位准,但需要非常专业的领域知识,同时随着窃电策略的改变会随即失效;数据驱动的方法可以全盘监控全网用电数据,通过机器学习、人工智能等前沿方法可以及时跟进不断变化的窃电策略。但由于可信案例稀少,数据海量且用户行为复杂,简单的时序建模方法很难取得较好的准确率。
针对上述问题,该论文提出了Hierarchical Electricity-theft Behavior Recognition (HEBR) 模型,其同时组合多源时序数据用于更准确的窃电行为识别。该研究发现气温变化与用户用电行为之间的密切关系,同时对多源时序组合建模分析用于窃电识别,取得了不错的效果。
其研究成果被世界万维网顶级会议 WWW-20 以 Oral (演讲) 论文收录。
会议简介
万维网国际会议(The World Wide Web International Conference,简称WWW)起源于1994年,是计算机与互联网领域的顶级学术会议,被列为《中国计算机学会推荐国际学术会议和期刊目录》(CCF) 中的A类学术会议,录用率常年维持在14%~17%。
大会汇集了国际著名大学、研究机构、跨国企业和国际标准化组织的一流学者和产业界精英,持续推动着互联网技术的发展,尤其是为各国信息化建设提供了重要的技术标准。
论文标题 | Understanding Electricity-Theft Behavior via Multi-Source Data
论文来源 | WWW 2020
论文链接 | https://arxiv.org/abs/2001.07311
代码链接 | https://github.com/zjunet/HEBR
那么,HEBR 是如何建模的呢?
该论文首先从数据出发。
图1 多源时序数据结构
图1 展示了三层多源数据:最下层是用户数据,反映的是用户个人的用电情况;上一层是台区(变压器区域)数据,反映的是一个社区(或村庄)的整体线损情况;最上层是天气数据,反应的是一个城市整体的气候状况。
这里台区线损率是指的电力网络中损耗的电能(线路损失负荷)占向电力网络供应电能(供电负荷)的百分数。简单来说,线损展示了供应电能中有多少没有被计费的电能,可以用来考核电力系统运行的经济性。
对于这三种不同层次的数据,该论文分别对其进行数据观察与分析,探寻里面与窃电行为有关的模式。
01
微观级别的观察(用户)
图2 用户用电与窃电行为的关系
图2 展示了基于用户用电数据的分析:
- 图2a 可视化了每天峰(on-peak)谷(off-peak)两种用电情况,红色的区域代表该用户被抓到窃电的时间。可以看到当被抓到窃电时,其后统计到的用电都在大幅增加。
- 图2b 在所有的数据上,对被抓窃电前后的用户用电进行对比(左二),并用正常用户(右二)同一时刻前后的用电量做对照组。可以发现,被抓窃电后,窃电用户的用电量会急剧增加;同时,窃电用户整体的用电也比正常用户大,说明只有很高用电需求的人才有可能会去窃电。
- 除了用电量统计,作者们还对比了用电的趋势。图2c 展示了所有用户从8月份到10月份用电的一阶回归斜率。随着温度降低,正常用户(黄色)的峰值基本都是小于0,说明用电在减少;而窃电用户(蓝色)峰值在0左右,说明用电基本没有变化。这说明窃电用户的用电习惯与正常人不同。
02
中观级别的观察(变压器台区)
图3 台区线损与窃电行为的关系
除了用户级别的观察,图3 展示了台区每天的线损变化情况与用户用电的关系:
- 图3a 展示了一个案例。黄色虚线代表台区每天的线损电量,蓝色实线代表与之对应的台区下,一个窃电用户的用电曲线。红色区域代表被抓到窃电的时间。可以看到,当该用户用电低,台区的线损就高,用户窃电造成了台区线损的升高。
- 图3b 在所有数据上做了统计分析。可以看到,正常用户(绿色)在抓窃电前后用电模式基本不变,而窃电用户在被抓之前,用户的用电与台区的线损呈现负相关关系。者说明台区的线损可以对当前台区下是否有人窃电有很好的指示作用。
03
宏观级别的观察(气候)
气候,或者说温度,与人们的行为特别是用电行为息息相关,例如空调、电热毯的使用等。这里先看一组统计:
图4 不同月份全省被抓窃电的案例个数统计
图4 展示了一年中不同月份,被抓窃电的案例个数统计,可以看到夏天(7-9月)和冬天(11-1月),被抓个数明显比其他月份要多,而这两季,正好是用电需求高的时间。因此,论文的作者们尝试探寻温度因素与用电行为的关系。
图5 气候因素与窃电行为的关系
图5 展示了气温与用户用电行为之间的关系:
- 图5a 展示了一年中整体的气温变化(黄线)与用户整体的用电(蓝线)之间的关系。可以看到,在夏天(或冬天),温度升高(降低),用户们的用电就会升高,他们之间呈现非常强的关联关系;
- 图5b 将温度划分为不同的区间,统计了该区间下正常用户(黄色)与窃电用户(蓝色)之间的用电分布,可以看到,当高温(>30ºC)或者低温(<9ºC)环境下,两者之间的用电分布差别很大;
- 作者们通过二元回归的方式,将不同温度下的用电进行拟合。可以发现,窃电用户用电与温度不能很好的拟合成一条规整的线(图5c),而正常用户可以(图5d)。图5e 将散点之间拟合差的平均值通过概率密度函数进行比较。可以看到,正常用户与窃电用户之间存在在不同气候条件下存在差异。
至此,通过三层的分析,该研究展现了不同的多源数据能反应用户不同层级的用电行为,为探寻窃电用户提供了很高的依据。然而,如何将这些多源的时序数据整合到一个模型,统一的判断用户是否窃电呢?
该论文提出了一个层次化的深度模型,叫做 HEBR
图6 HEBR的结构
图6 展示了HEBR 的整体结构,它基于三层(用户,台区,气温)时序数据,逐层做信息抽取与融合,最终将组合的特征用于窃电行为的判定。
具体对于每一步融合,作者们提出了多步加时间关注的融合机制:
图7 多步融合机制的结构
针对两种不同源数据的RNN隐层表达,其中一个主要方(这个场景里主要是用户用电数据),每个时间步t,次要方(如:台区线损,气温)都要将前面多步的信息用于当前的信息融合,再做局部attention。这里做的目的是,线损或气温对当前用户用电的影响是有时延的,例如气温升高,并不会让用户马上开空调增加用电;但一段时间的高温就肯定会使得用户用电量增加。作者们通过这种多步融合机制,对多源信息的组合做更多的关联信息抽取。
HEBR模型在浙江省国家电网所提供的2017-2019两年多的真实数据上进行实验,取得了还不错的效果:
表2 反窃电实验结果
如表2 所示,HEBR模型在Precision和F0.5 这两个指标上,都比baseline要好,这对于实际的排查来说更加友好。
同时,为了说明模型设计的有效性,论文还做了多种消融研究:
表3 验证多源数据的有效性
表4 严重多步融合机制的有效性
表3、表4 分别展现了不同源数据与融合机制对HEBR反窃电准确度的影响,可以看到,删去气温或线损信息,都会导致反窃电准确度大大降低;同时,不采用多步融合机制或attention操作,都会让模型效果下降。
除了实验,浙江省国家电网应用该模型进行窃电用户识别,在浙江杭州进行了窃电排查,实地捕获了若干窃电用户。其中一个案例如下:
图8 实地排查到的窃电案例
如图8 所示,从上到下依次展现了气温变化,台区线损变化与用户用电的三种曲线;热力图代表了HEBR模型在三层不同位置的attention得分,红色区域代表其被抓到的时间。可以看到,当用户用电降低,台区线损升高,同时温度很高的情况下,热力图对应的区域就越亮,attention的得分就越高。说明HEBR模型可以很好的捕捉到用户窃电的模式。
总结
温度变化深刻影响着人们的用电行为,识别窃电需要我们分析多源数据与窃电行为之间的关联,通过层次化的组合不同源的时序数据,用于用户窃电用户识别。
实验证明基于多步attention融合的HEBR模型可以有效组合多源时序数据,适用于窃电识别问题。
未来,探寻更多有关联的多源数据,以及处理极端不平衡的分类问题,对实现高效的数据驱动反窃电十分重要。智能化的数据驱动方法将有效提高电网的能力与安全水平。