• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

一种正交分解大数据处理系统设计方法及实现

向小佳, 赵晓芳, 刘洋, 龚关俊, 张晗

向小佳, 赵晓芳, 刘洋, 龚关俊, 张晗. 一种正交分解大数据处理系统设计方法及实现[J]. 计算机研究与发展, 2017, 54(5): 1097-1108. DOI: 10.7544/issn1000-1239.2017.20151062
引用本文: 向小佳, 赵晓芳, 刘洋, 龚关俊, 张晗. 一种正交分解大数据处理系统设计方法及实现[J]. 计算机研究与发展, 2017, 54(5): 1097-1108. DOI: 10.7544/issn1000-1239.2017.20151062
Xiang Xiaojia, Zhao Xiaofang, Liu Yang, Gong Guanjun, Zhang Han. An Orthogonal Decomposition Based Design Method and Implementation for Big Data Processing System[J]. Journal of Computer Research and Development, 2017, 54(5): 1097-1108. DOI: 10.7544/issn1000-1239.2017.20151062
Citation: Xiang Xiaojia, Zhao Xiaofang, Liu Yang, Gong Guanjun, Zhang Han. An Orthogonal Decomposition Based Design Method and Implementation for Big Data Processing System[J]. Journal of Computer Research and Development, 2017, 54(5): 1097-1108. DOI: 10.7544/issn1000-1239.2017.20151062
向小佳, 赵晓芳, 刘洋, 龚关俊, 张晗. 一种正交分解大数据处理系统设计方法及实现[J]. 计算机研究与发展, 2017, 54(5): 1097-1108. CSTR: 32373.14.issn1000-1239.2017.20151062
引用本文: 向小佳, 赵晓芳, 刘洋, 龚关俊, 张晗. 一种正交分解大数据处理系统设计方法及实现[J]. 计算机研究与发展, 2017, 54(5): 1097-1108. CSTR: 32373.14.issn1000-1239.2017.20151062
Xiang Xiaojia, Zhao Xiaofang, Liu Yang, Gong Guanjun, Zhang Han. An Orthogonal Decomposition Based Design Method and Implementation for Big Data Processing System[J]. Journal of Computer Research and Development, 2017, 54(5): 1097-1108. CSTR: 32373.14.issn1000-1239.2017.20151062
Citation: Xiang Xiaojia, Zhao Xiaofang, Liu Yang, Gong Guanjun, Zhang Han. An Orthogonal Decomposition Based Design Method and Implementation for Big Data Processing System[J]. Journal of Computer Research and Development, 2017, 54(5): 1097-1108. CSTR: 32373.14.issn1000-1239.2017.20151062

一种正交分解大数据处理系统设计方法及实现

基金项目: 国家自然科学基金项目(61202061,61202413);中国科学院计算技术研究所创新课题项目(20146080)
详细信息
  • 中图分类号: TP391

An Orthogonal Decomposition Based Design Method and Implementation for Big Data Processing System

  • 摘要: MapReduce等计算框架的出现开启了大数据处理新纪元,以Hadoop,Spark为代表的大数据处理系统具有大吞吐率、跨平台、高可扩展的优势,并得到广泛应用.然而,为避免与具体的操作系统、硬件平台绑定,这些系统的设计与优化集中在计算模型、调度算法等方面,无法充分利用底层平台的优势.提出了一种基于正交分解的大数据处理系统设计与优化方法,将系统分解为松耦合的多个功能正交的模块,使存储、处理功能分离出来,交给能够利用底层平台操作系统甚至硬件资源的存储、执行引擎,原大数据系统退化为调度平台;进而,提出基于锁无关机制的存储底层优化策略和基于指令超级优化的执行引擎底层优化策略.以此为指导,以Hadoop作为兼容和改进的对象,实现了原型大数据处理系统Arion.Arion既能保持Hadoop的跨平台、高可扩展的优势,又能消除任务执行的瓶颈,其本地化的设计与优化手段对非Hadoop平台同样有效.通过在原型系统上的实验证明,Arion能够提升大数据处理任务的执行效率,最高达7.7%.
    Abstract: Big data stimulates a revolution in data storage and processing field, resulting in the thriving of big data processing systems, such as Hadoop, Spark, etc, which build a brand new platform with platform independence, high throughput, and good scalability. On the other hand, substrate platform underpinning these systems are ignored because their designation and optimization mainly focus on the processing model and related frameworks & algorithms. We here present a new loose coupled, platform dependent big data processing system designation & optimization method which can exploit the power of underpinning platform, including OS and hardware, and get more benefit from these local infrastructures. Furthermore, based on local OS and hardware, two strategies, that is, lock-free based storage and super optimization based data processing execution engine, are proposed. Directed by the aforementioned methods and strategies, we present Arion, a modified version of vanilla Hadoop, which show us a new promising way for Hadoop optimization, meanwhile keeping its high scalability and upper layer platform independence. Our experiments prove that the prototype Arion can accelerate big data processing jobs up to 7.7%.
  • 期刊类型引用(11)

    1. 李萍,刘金金. 基于改进模糊聚类算法的大数据随机挖掘仿真. 计算机仿真. 2024(02): 496-499+521 . 百度学术
    2. 李来存. 基于物联网技术的信息系统数据存储系统. 信息技术. 2024(05): 120-126+132 . 百度学术
    3. 何芳州,王祉淇. 知识图谱特征重构下无线传感网络数据存储恢复. 传感技术学报. 2024(07): 1265-1270 . 百度学术
    4. 万晓云,张泰,程妍. 基于弹性空间模型的实验室网络数据存储算法. 计算机仿真. 2024(09): 368-371+428 . 百度学术
    5. 梁志宏. 电力异构数据集群存储动态副本选择系统. 电子设计工程. 2024(24): 105-109 . 百度学术
    6. 孙淳晔,庞亚南,邓芳. 分布式存储在运营商中的应用与研究. 广东通信技术. 2023(02): 71-74 . 百度学术
    7. 谢振杰,付伟. 基于可审计多副本的云存储差错副本恢复机制. 计算机应用. 2023(04): 1102-1108 . 百度学术
    8. 姜宇鸣,周益民. 海量机载激光点云数据分布式分片存储方法研究. 电子器件. 2023(04): 978-983 . 百度学术
    9. 辛明勇,祝健杨,徐长宝,姚浩,刘德宏. 基于循环神经网络的多核处理器层次化存储技术. 电子设计工程. 2023(22): 121-124+129 . 百度学术
    10. 梁杨,丁长松,胡志刚. 基于“推荐-学习”的两阶段数据布局策略. 南京师大学报(自然科学版). 2023(04): 80-90 . 百度学术
    11. 白亮,郭新营,潘旭东,叶德力·波拉提,古再奴尔·艾再孜. 基于大数据的信息系统资源利用率人工智能预测方法. 电力大数据. 2022(06): 43-48 . 百度学术

    其他类型引用(8)

计量
  • 文章访问数:  1176
  • HTML全文浏览量:  3
  • PDF下载量:  604
  • 被引次数: 19
出版历程
  • 发布日期:  2017-04-30

目录

    /

    返回文章
    返回