Query Optimization by Statistical Approach for Hive Data Warehouse
-
摘要: Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model, CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的 GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率.Abstract: Map/Reduce is an efficient parallel programming model, which is now widely utilized to analyze massive data. Hive is an open source data warehouse which utilizes Map/Reduce to implement its query processing engine. However, the issue of unbalanced workload distribution in the whole cluster arises when processing skewed data using Map/Reduce. The possible results range from low runtime efficiency to task failures. To solve such problem, we propose an approach named the computation balanced model (CBM), which optimizes to queries by using distribution statistics. The main contributions of this paper include two parts correspondingly: firstly, the runtime cost evaluation model is established for two widely-used types of queries, i.e., the GroupBy and Join queries, especially under different situations; secondly, the highly-efficient statistics approach for massive data is designed and implemented adapting to the data access mechanism of Hive. Experiment results show the processing time of GroupBy query optimized by CBM is reduced by about 8%-45%, while the processing time of Join query is reduced by over 12%-46%. And the balance distribution of cluster payload is improved by about 60%-80% for CPU and 60%-90% for I/O. We believe the optimized query plan generator by CBM significantly balances the payload distribution during the execution of Map/Reduce tasks, as well as improves the query efficiency greatly.
-
-
期刊类型引用(19)
1. 董胡,陈伟,彭高丰,陈耀东,刘刚. 基于信号子空间和DNN的语音增强方法. 微型电脑应用. 2025(01): 32-34+38 . 百度学术
2. 李世其,周雨玫,郑旋烨,刘裔斌. 复杂噪声环境下服务机器人语音增强算法研究. 传感器与微系统. 2025(04): 35-39 . 百度学术
3. 王向辉,李梅,田旭华,王姣,谭歆,路东东. 短时傅里叶变换域最优非因果滤波器和滤波矩阵降噪算法. 陕西科技大学学报. 2024(02): 164-173+197 . 百度学术
4. 尤昕源,王恒. 基于门控膨胀卷积循环网络的单声道语音增强. 计算机应用. 2024(04): 1317-1324 . 百度学术
5. 莫尚斌,王文君,董凌,高盛祥,余正涛. 基于多路信息聚合协同解码的单通道语音增强. 计算机应用. 2024(08): 2611-2617 . 百度学术
6. 缪悦. 时频域变换技术在语音降噪中的应用. 电声技术. 2024(12): 92-94+100 . 百度学术
7. 李鑫元,黄鹤鸣. 基于并行卷积循环网络的单通道语音增强系统. 计算机工程与设计. 2023(04): 1181-1188 . 百度学术
8. 文丽萍. 噪声环境下基于小波变换的普通话智能测试系统设计. 自动化与仪器仪表. 2023(05): 153-157 . 百度学术
9. 刘汾港,马建芬,张朝霞. 基于离散余弦变换与Transformer的语音增强. 计算机工程与设计. 2023(06): 1893-1898 . 百度学术
10. 徐浩森,姜囡,齐志坤. 基于注意力机制的卷积循环网络语音降噪. 科学技术与工程. 2022(05): 1950-1957 . 百度学术
11. 李小平,白超. 一种基于多模态信息融合的火车司机疲劳驾驶检测方法. 铁道学报. 2022(06): 56-65 . 百度学术
12. 胡勉宁,李欣,李明锋,孙海春. 面向诈骗短信息识别的融合多策略数据增强技术研究. 信息网络安全. 2022(10): 121-128 . 百度学术
13. 孙立辉,曹丽静,张竟雄. 基于升降编解码全卷积神经网络语音增强技术. 智能计算机与应用. 2021(02): 19-22 . 百度学术
14. 刘元,匡文凯,苏盛,李彬. 基于双通道能量差的环网柜局放信号消噪方法. 仪器仪表学报. 2021(02): 218-227 . 百度学术
15. 台文鑫,王钇翔,李森,蓝天,刘峤. 基于动态选择机制的低信噪比单声道语音增强算法. 计算机应用研究. 2021(09): 2604-2608 . 百度学术
16. 祁晓,赵连玉. 基于多频带谱减法的老年人语音增强算法的研究. 电声技术. 2020(05): 34-37 . 百度学术
17. 梁力,莫晓毅,柯华强. 基于语音识别技术的测试平台研究. 科技视界. 2020(31): 17-18 . 百度学术
18. 曹洁,周尧风,于泓,李晓旭. 基于SI-SDR优化的生成对抗网络语音增强方法. 华中科技大学学报(自然科学版). 2020(11): 17-23 . 百度学术
19. 许春冬,徐琅,周滨,凌贤鹏. 单通道语音增强技术的研究现状与发展趋势. 江西理工大学学报. 2020(05): 55-64 . 百度学术
其他类型引用(43)
计量
- 文章访问数: 1520
- HTML全文浏览量: 0
- PDF下载量: 947
- 被引次数: 62