Proactive Locally Repairable Codes for Cloud Storage Systems
-
摘要: 为了保证客户访问数据的高可用性,一些云存储系统开始采用一类新型编码,即局部修复编码(locally repairable codes, LRC).例如Windows Azure和Facebook的HDFS RAID.与Reed-Solomon码相比,LRC修复效率高,因为它将每个条带的数据块分成多个组,每个组内额外生成一个校验块,因而组内就可以对单个故障块进行修复.LRC假设每组大小相同,这意味着每个故障块的修复所产生的组内数据传输量是相同的.但是,对于那些更易出现故障的磁盘,它们所造成丢失的数据块理应被系统更有效地修复.借助基于决策树的磁盘故障预测方法来动态调整LRC中组的大小,从而构造一类预测式LRC(proactive LRC, pLRC),使得即将发生故障的磁盘存储的数据块所在的组的长度变小,以便这些数据块可以在更小的组内进行更快地修复,同时保持和传统LRC相同的存储开销和编码结构.不仅通过MTTDL建模分析pLRC的可靠性,还在Facebook的Hadoop HDFS平台中实现了pLRC并进行了性能测试.结果表明,比起LRC,pLRC的可靠性最多可提升113%,同时降级读和磁盘修复性能最多可提高46.8%和47.5%.Abstract: Cloud storage systems, which provide customers the ability to access their data reliably, start to adopt a novel family of codes called locally reparable codes (LRC), e.g., Windows Azure Storage and Facebook’ HDFS RAID. Compared with Reed-Solomon codes, LRC is efficiently repairable since it divides the data blocks of each stripe into groups, each of which has an additional local parity block such that a failed block can be repaired locally in one group. LRC assumes that each group is equal-size which implies that each failed block is repaired from the same amount of data of a group. However, the blocks in the disks which are more likely to fail should be repaired more efficiently. In this paper, we present a proactive LRC (pLRC) via predicting disk failures and resizing the groups such that the recent failed disks can be repaired faster while maintaining the same storage overhead and code construction relative to LRC. We analyze pLRC through the reliability modeling of mean-time-to-data-loss (MTTDL) and also implement pLRC in Facebook’s HDFS. The results show that compared with LRC, pLRC’s reliability can be improved by up to 113%, and its degraded read and disk repair performance can be improved by up to 46.8% and 47.5%, respectively.
-
Keywords:
- cloud storage /
- locally repairable codes (LRC) /
- disk failures /
- machine learning /
- decision tree
-
-
期刊类型引用(20)
1. 韩溥. 一种安全可靠的虚拟化智能弹性架构IRF教育网络设计. 网络安全技术与应用. 2025(03): 15-18 . 百度学术
2. 蒋燕,周彬彬,姚文才,王有香,陈凯,马玮骏,李胜,殷峻暹. 接收方发起的电站数据上报控制方法研究. 中国农村水利水电. 2024(03): 238-243+249 . 百度学术
3. 梅道光,王丽. 数据中心综合监控系统延迟问题分析及应对策略研究. 信息技术与信息化. 2024(04): 71-76 . 百度学术
4. 李仁刚,王彦伟,郝锐,肖麟阁,杨乐,杨广文,阚宏伟. Direct xPU:一种新型节点间通信优化的分布式异构计算架构. 计算机研究与发展. 2024(06): 1388-1400 . 本站查看
5. 蒋万春,李昊阳,陈晗瑜,王洁,王建新,阮昌. 网络拥塞控制方法综述. 软件学报. 2024(08): 3952-3979 . 百度学术
6. 农佳明,陈孟臻. 基于流量延时调度的无线传感网数据传输拥塞控制方法. 传感技术学报. 2024(08): 1441-1447 . 百度学术
7. 关世杰,王国靖. 基于状态确认的卫星链路拥塞控制算法研究. 沈阳理工大学学报. 2023(04): 15-18+25 . 百度学术
8. 高凯辉,李丹. 数据中心网络性能保障研究综述. 电信科学. 2023(06): 1-21 . 百度学术
9. 胡晋彬,罗望卿,王进. 基于NS-3的计算机网络传输实验教学方案设计. 软件导刊. 2023(06): 187-190 . 百度学术
10. 张磊,袁鉴辞,李静. 基于物联网技术的医学装备质控管理平台设计. 电子设计工程. 2023(17): 164-168 . 百度学术
11. 胡晋彬,黄家玮,王建新,王进. 基于直接拥塞通告的数据中心无损网络传输控制机制. 电子学报. 2023(09): 2355-2365 . 百度学术
12. 李佳琦,周书杰,曹成茂. 面粉存储智能仓库控制系统设计与试验. 中国农机装备. 2023(09): 29-35 . 百度学术
13. 马力文,周颖. 改善STARTUP阶段空窗现象的BBR单边适应算法. 计算机科学. 2022(02): 321-328 . 百度学术
14. 孙华宝. 基于SDN的云计算网络模型设计. 信息与电脑(理论版). 2022(07): 50-52 . 百度学术
15. 涂聪,陈庆奎. 面向AI数据流处理的边缘GPU集群通信系统. 小型微型计算机系统. 2022(06): 1147-1153 . 百度学术
16. 包红林,李敏,邵志东,张代兰. 面向大规模地震数据并行处理高速可扩展通信技术应用研究. 石油物探. 2022(05): 793-800 . 百度学术
17. 黄端琼. 福建省海洋与渔业大数据中心建设初探. 海洋信息技术与应用. 2022(04): 32-37 . 百度学术
18. 林霄,姬硕,岳胜男,孙卫强,胡卫生. 面向跨数据中心网络的节点约束存储转发调度方法. 计算机研究与发展. 2021(02): 319-337 . 本站查看
19. 张媛媛,姚晋. 一种高可靠网络的设计与实现. 数字通信世界. 2021(04): 15-18 . 百度学术
20. 管春泓. 云计算背景下数据中心网络架构设计研究. 信息系统工程. 2021(12): 97-100 . 百度学术
其他类型引用(31)
计量
- 文章访问数: 1316
- HTML全文浏览量: 5
- PDF下载量: 468
- 被引次数: 51