摘要
磁盘及内存故障已成为数据中心停机的主因,分布式存储系统本身的磁盘故障预测功能不成熟,且对不同品牌磁盘兼容性不足,在初始测试中预测成功率接近于0,操作系统硬件报错机制还不够完善。在随机森林预测算法基础上研究了全新的磁盘故障预测模块,针对不同的磁盘型号选择不同的预测模型,大大提高了对磁盘故障的预测成功率。在基于服务器功能及操作系统的特性研究了可行的内存态势感知工具,捕获并处理所有来自内核追踪架构的出错事件并记录,结合自研采集工具实时采集报告的硬件错误信息,产生监控指标最终生成告警,及时发现节点内存产生的读/写错误,有效减少了被动宕机及服务器重启问题。磁盘和内存故障预测生成的告警运用根因分析技术进行智能分析,及时有效的发现硬件故障,避免了被动宕机和重启问题的发生。经统计,磁盘预测模块精确率提升至70%,召回率提升至70%;内存故障预测精准率提升至90%以上。
作者
况天宝
李珂
王大帅
李超
于沈课
靳登科
KUANG Tianbao;LI Ke;WANG Dashuai;LI Chao;YU Shenke;JIN Dengke
出处
《信息技术与信息化》
2023年第7期12-15,共4页
Information Technology and Informatization