计算机研究与发展 ›› 2020, Vol. 57 ›› Issue (2): 306-317.doi: 10.7544/issn1000-1239.2020.20190549
所属专题: 2020大数据与智能存储系统前沿技术专题
杨洪章1, 杨雅辉1, 屠要峰2, 孙广宇3, 吴中海1
Yang Hongzhang1, Yang Yahui1, Tu Yaofeng2, Sun Guangyu3, and Wu Zhonghai1
摘要: 硬盘故障是数据中心最主要的故障,严重影响了可靠性.传统的数据容错技术一般都是通过增加数据冗余来实现的,存在缺陷.主动容错技术通过预测硬盘故障提前将数据迁移,成为研究热点.现有技术大多研究硬盘故障预测,缺乏采集、迁移、反馈的研究,难以商用.提出“采集—预测—迁移—反馈”全流程主动容错机制,包括:分时硬盘信息采集方法、滑动窗口记录合并及样本构建方法、多类型硬盘故障预测方法、多盘联合数据迁移方法、预测结果二级验证及快速反馈方法.测试表明:采集硬盘信息对业务影响仅0.96%,硬盘故障预测召回率达94.66%,数据修复时间较传统方法减少55.10%.该工作已在中兴通讯的数据中心稳定商用,满足了主动容错技术在高可靠、高智能、低干扰、低成本、广适用等核心目标.
中图分类号: