本期内容是的负荷预测,一共有5个户号的一级能效数据。小编拿到素材后,跟上一期反复对比后发现,比上一期行业同一时期的数据略差那么一点点。
本期使用的算法模型跟上一次一样,预测测试的时间往后移动了两天,即从-12-26到-01-02,主要是为了观察算法模型在元旦这个节假日下的表现。当大家在罗胖的“小趋势”跨年演讲中心情澎湃的时候,我们的真实数据走出了如图一示图形:动作有点飘,走位不算骚。
图一:待测时间段的真实负荷曲线第一组是较为传统的方法,取不同的时间维度的真实数据建立模型进行预测。图中所示准确率是这段时间的平均准确率。从表中看出,工作日(从-12-26到-12-28)的预测准确率明显高于非工作日;同时从图中可以看出,误差最大的点出现在工作日内。根据第一期中我们采用的评价公式“对异常值非常敏感”这一结论,可以看出图中那几个圈住的点,对准确率下降没少做贡献。
第二组算法中的算法四,其实是决策树中的提升树,这个以往在kaggle竞赛中备受追捧的算法,看上去对我们这一组数据,并没有确认好眼神。其他算法倒也符合预期。
另外,这一组算法跟第一组相比,没有放假期间(-12-30到-01-01)差很多的情况。这是我们意料之中的,因为两组算法的思想完全不同。
第三组算法跟上期一样是我们根据业务知识,自己构建的特征,然后选取了第二组中3个算法进行预测的。结果除了-01-02这一天差别有点不小之外,其他日期的数据,跟第二组比起来,没有什么个性。
第四组算法还是Stacking,没有亮点也没有槽点。
总的来看,以上四组算法,工作日的负荷预测结果准确率比节假日好2-10百分点。这个幅度不可谓不大,算法的适用性需要进一步挖掘。
这一期表现差那么一点点的是第一组,跟上一期第三组,让人有点意外。这既跟行业数据有关,又跟选择的时间有关,当然最多的还是跟第一组的算法思想有关。
本文源于“汇电云联”