摘要:
当下大数据的产生主要源于人类社会生活网络结构的复杂化、生产活动的数字化、科学研究的信息化相关,其意义和价值在于如何帮助人们解释复杂的社会行为和结构,以及提高人们生产制造的能力,进而丰富人们发现自然规律的手段。本质上,大数据具有以下3方面的内涵,即:大数据的“深度”、大数据的“广度”、以及大数据的“密度”。所谓“深度”是指单一领域数据汇聚的规模,可以进一步理解为数据内容的“维度”。而数据的“广度”则是指多领域数据汇聚的规模,侧重体现在数据的关联、交叉和融合等方面。大数据的“密度”是指时空维上数据汇聚的规模,即数据积累的“厚度”以及数据产生的“速度”等。面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的数据库技术侧重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。这里提出的大数据管理是要综合考虑数据的“广度”、“深度”、“密度”等问题,主要解决数据的获取、抽取、集成、复杂分析、解释等技术难点。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。