不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型

作者:李新鹏;高欣;何杨;阎博;孙汉旭;李军良;徐建航;刘震宇;庞博 刊名:微电子学与计算机 上传者:宗大伟

【摘要】针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问题;本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先;提出基于聚类的分层欠采样方法对健康磁盘样本进行多次抽样;解决随机欠采样方法易丢弃潜在有用样本的问题;其次;将每次采样后样本与全部故障磁盘样本组合得到多个样本子集;通过训练这些子集建立多个预测精度较高的GBDT子分类模型;最后;根据待测点邻域样本类别自适应确定各子模型权重;据此通过加权硬投票集成最终的磁盘故障预测模型.在8组KEEL不平衡数据集上实验结果表明;与现有典型不平衡学习算法相比;少数类的召回率平均提升了9.46%;同时在磁盘公开数据集和某调度系统磁盘数据上对比验证了该方法在故障预测率上先进性.

全文阅读

37卷第3期 微电子学与计算机 Vol. 37 No. 3 2020 年 3 月 MICROELECTRONICS & COMPUTER March 2020 引用格式:李新鹏,高欣.何杨.等.不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型[J].微电子学 与计算机,2020,37(3) : 14-19. [LI X P, GAO X, HE Y»et al. Prediction model of disk failure based on adaptive weighted bag- ging-GBDT algorithm under imbalanced dataset[J]. Microeletronics &Computer,2020,37(3) : 14-19.] 不平衡数据集下基于自适应加权Bagging-GBDT 算法的磁盘故障预测模型 李新鹏⑺,高欣2,何杨2,阎博3,孙汉旭2, 李军良°'徐建航』,刘震宇S庞博§ (1国家电网有限公司,北京100031,2北京邮电大学自动化学院,北京100876; 3国网冀北电力有限公司,北京100054,4南瑞集团(国网电力科学研究院)有限公司,北京100192; 5国网冀北电力有限公司承德供电公司,河北承德067000) 摘要:针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问 题,本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先,提出基于聚类的分层欠采样方 法对健康磁盘样本进行多次抽样,解决随机欠采样方法易丢弃潜在有用样本的问题;其次,将每次采样后样本与全 部故障磁盘样本组合得到多个样本子集,通过训练这些子集建立多个预测精度较高的GBDT子分类模型;最后,根 据待测点邻域样本类别自适应确定各子模型权重,据此通过加权硬投票集成最终的磁盘故障预测模型.在8组 KEEL不平衡数据集上实验结果表明,与现有典型不平衡学习算法相比,少数类的召回率平均提升了 9.46% ;同时 在磁盘公开数据集和某调度系统磁盘数据上对比验证了该方法在故障预测率上的先进性. 关键词:磁盘故障预测;不平衡数据集;分层欠采样;Bagging-GBDT;自适应加权中图分类号:TP391 文献标识码:A 文章编号:1000-7180(2020)03-0014-06 Prediction model of disk failure based on adaptive weighted bagging-GBDT algorithm under imbalanced dataset LI Xin-peng1,2, GAO Xin2, HE Yang2, YAN Bo3, SUN Han-xu2, LI Jun-liang*, XU Jian-hang4, LIU Zhen-yu5, PANG Bo5 (1 State Grid Corporation of China, Beijing 100031» China; 2 College of Automation, Beijing University of Posts and Telecommunications, Beijing 100876, China; 3 State Grid Jibei Electric Power Company Limited, Beijing 100054, China; 4 Nari Group (State Grid Electric Power

参考文献

引证文献

问答

我要提问