Big Data Analysis and Data Velocity
-
摘要: 大数据对于数据管理系统平台的主要挑战可以归纳为volume(数据量大)、velocity(数据的产生、获取和更新速度快)和variety(数据种类繁多)3个方面.针对大数据分析系统,尝试解读velocity的重要性和探讨如何应对velocity的挑战.首先比较事物处理、数据流、与数据分析系统对velocity的不同要求.然后从数据更新与大数据分析系统相互关系的角度出发,讨论两项近期的研究工作:1)MaSM,在数据仓库系统中支持在线数据更新;2)LogKV,在日志处理系统中支持高速流入的日志数据和高效的基于时间窗口的连接操作.通过分析比较发现,存储数据更新只是最基本的要求,更重要的是应该把大数据的从更新到分析作为数据的整个生命周期,进行综合考虑和优化,根据大数据分析的特点,优化高速数据更新的数据组织和数据分布方式,从而保证甚至提高数据分析运算的效率.Abstract: Big data poses three main challenges to the underlying data management systems: volume (a huge amount of data), velocity (high speed of data generation, data acquisition, and data updates), and variety (a large number of data types and data formats). In this paper, we focus on understanding the significance of velocity and discussing how to face the challenge of velocity in the context of big data analysis systems. We compare the requirements of velocity in transaction processing, data stream, and data analysis systems. Then we describe two of our recent research studies with an emphasis on the role of data velocity in big data analysis systems: 1) MaSM, supporting online data updates in data warehouse systems; 2) LogKV, supporting high-throughput data ingestion and efficient time-window based joins in an event log processing system. Comparing the two studies, we find that storing incoming data updates is only the minimum requirement. We should consider velocity as an integral part of the data acquisition and analysis life cycle. It is important to analyze the characteristics of the desired big data analysis operations, and then to optimize data organization and data distribution schemes for incoming data updates so as to maintain or even improve the efficiency of big data analysis.
-
-
期刊类型引用(9)
1. 黄翔东,陈红红,甘霖. 基于频率-时间扩张密集网络的语音增强方法. 计算机研究与发展. 2023(07): 1628-1638 . 本站查看
2. 许春冬,徐琅,周滨. 结合优化U-Net和残差神经网络的单通道语音增强算法. 现代电子技术. 2022(09): 35-40 . 百度学术
3. 葛宛营,张天骐,范聪聪,张天. 噪声情况下采用稀疏非负矩阵分解与深度吸引子网络的人声分离算法. 声学学报. 2021(01): 55-66 . 百度学术
4. GE Wanying,ZHANG Tianqi,FAN Congcong,ZHANG Tian. Monaural noisy speech separation combining sparse non-negative matrix factorization and deep attractor network. Chinese Journal of Acoustics. 2021(02): 266-280 . 必应学术
5. 王静红,梁丽娜,李昊康,周易. 基于注意力网络特征的社区发现算法. 山东大学学报(理学版). 2021(09): 1-12+20 . 百度学术
6. 张天骐,柏浩钧,叶绍鹏,刘鉴兴. 基于门控残差卷积编解码网络的单通道语音增强方法. 信号处理. 2021(10): 1986-1995 . 百度学术
7. 曹丽静. 语音增强技术研究综述. 河北省科学院学报. 2020(02): 30-36 . 百度学术
8. 张天骐,张晓艳,周琳,胡延平. 基于稀疏性的相位谱补偿语音增强算法. 信号处理. 2020(11): 1867-1876 . 百度学术
9. 时文华,张雄伟,邹霞,孙蒙. 利用深度全卷积编解码网络的单通道语音增强. 信号处理. 2019(04): 631-640 . 百度学术
其他类型引用(8)
计量
- 文章访问数: 2334
- HTML全文浏览量: 12
- PDF下载量: 1572
- 被引次数: 17