ISSN 1000-1239 CN 11-1777/TP

    2017科学大数据管理专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 2017科学大数据管理专题前言
    孟小峰,黎建辉,郭毅可
    计算机研究与发展    2017, 54 (2): 233-234.  
    摘要694)   HTML1)    PDF (391KB)(515)   
    科学数据是科研活动的输入、输出和资产,是科研人员对其所研究的客观对象相关现象的描述。以大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等为代表的新一代观测与实验装置源源不断产生巨量科学数据,将科学研究推入一个前所未有的大数据时代。这将改变人类几个世纪以来主要研究和理解相对简单、未耦合或弱耦合系统这一局面,大大增强我们详细表征和描述复杂性能力,以及分析高度耦合复杂系统动态行为的能力。可见,科学大数据管理与分析能力及水平,成为了未来在分秒必争的重大科学发现中能否胜出的关键。来自于天文学、生命科学、高能物理等应用领域的迫切需求,也正在挑战着当今所有数据管理系统的极限,成为当下科学界和数据管理领域需携手攻坚的难题。2017年《计算机研究与发展》以科学大数据为专题,结合科学大数据的特点和典型应用需求,重点关注科学大数据管理理论与方法、关键技术与系统,以及各应用领域的最新进展等。本期专题经过公开征稿,总计收到40篇论文投稿,最终收录了5篇论文,内容涉及科学大数据管理基本理论与关键技术,天文大数据、高能物理大数据、遥感大数据等领域大数据管理需求与实践,科学数据众包服务等主题。这些文章为相关领域的研究者探讨科学大数据理论基础及应用、讨论最新的突破性进展、交流新的学术思想和新方法,以及展望未来的发展趋势,提供了很好的交流机会。
    相关文章 | 计量指标
    2. 科学大数据管理:概念、技术与系统
    黎建辉,沈志宏,孟小峰
    计算机研究与发展    2017, 54 (2): 235-247.   doi: 10.7544/issn1000-1239.2017.20160847
    摘要2232)   HTML28)    PDF (2617KB)(1296)   
    近年来,随着越来越多的大科学装置的建设和重大科学实验的开展,科学研究进入到一个前所未有的大数据时代.大数据时代科学研究是一个大科学、大需求、大数据、大计算、大发现的过程,研发一个支持科学大数据全生命周期的数据管理系统具有重要的意义.分析了研发科学大数据管理系统的背景,阐述了科学大数据的概念和三大特征,通过对科学数据资源发展和科学数据管理系统的研究进展进行综述分析,提出了满足科学数据管理全生命周期的科学大数据管理框架,并从数据融合、数据实时分析、长期存储、云服务体系以及数据开放共享机制5个方面分析了科学大数据管理系统中的关键技术.最后,结合科学研究领域展望了科学大数据管理系统的应用前景.
    相关文章 | 计量指标
    3. 天文大数据挑战与实时处理技术
    杨晨,翁祖建,孟小峰,任玮,忻日辉,王春凯,都志辉,万萌,魏建彦
    计算机研究与发展    2017, 54 (2): 248-257.   doi: 10.7544/issn1000-1239.2017.20170005
    摘要1595)   HTML13)    PDF (3154KB)(693)   
    超大型天文观测技术的出现不仅能够让研究人员观测到新的天文现象,更能用于验证已有物理模型的正确性.这些最新天文成果的发现是建立在海量天文数据的近乎实时产生、管理与分析的基础上,因此给目前的数据管理系统带来了新的挑战.以我国自主研发的地基广角相机阵(the ground-based wide-angle camera array, GWAC)天文望远镜为例,15s的采样和处理周期都处于短时标观测领域的世界前列,但却对数据管理系统提出了很多问题,包括多镜头并行输出数据管理、实时瞬变源发现、当前观测夜数据的秒级查询、数据持久化和快速离线查询等.基于上述问题,设计了分布式GWAC数据模拟生成器用于模拟真实GWAC数据产生场景,并基于产生的数据特性,提出一种两级缓存架构,使用本地内存解决多镜头并行输出、实时瞬变源发现,使用分布式共享内存实现秒级查询.为了平衡持久化和查询效率,设计一种星表簇结构将整个星表数据划分后聚集存储.根据天文需求特点,设计基于索引表的查询引擎能从缓存和星表簇以较小的代价对星表数据查询.通过实验验证,当前方案能够满足GWAC的需求.
    相关文章 | 计量指标
    被引次数: Baidu(1)
    4. 高能物理大数据挑战与海量事例特征索引技术研究
    程耀东,张潇,王培建,查礼,侯迪,齐勇,马灿
    计算机研究与发展    2017, 54 (2): 258-266.   doi: 10.7544/issn1000-1239.2017.20160939
    摘要997)   HTML3)    PDF (2984KB)(756)   
    新一代高能物理实验装置的建成与运行,产生了PB乃至EB量级的数据,这对数据采集、存储、传输与共享、分析与处理等数据管理技术提出了巨大挑战.事例是高能物理实验的基本数据单元,一次大型实验即可产生万亿级的事例.传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例.这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但物理分析仅对极少量的稀有事例感兴趣,这导致了数据传输量大、I/O瓶颈以及数据处理效率低等问题.提出一种面向事例的高能物理数据管理方法,重点研究海量事例特征高效索引技术.在这种方法中,将物理学家感兴趣的事例的特征量抽取出来建立专门的索引,存储在NoSQL数据库中.为便于物理分析处理,事例的原始数据仍然存放在ROOT文件中.最后,通过系统验证和分析表明,基于事例特征索引进行事例筛选是可行的,优化后的HBase系统可以满足事例索引的需求.
    相关文章 | 计量指标
    5. 遥感大数据的基础设施:集成、管理与按需服务
    李国庆,黄震春
    计算机研究与发展    2017, 54 (2): 267-283.   doi: 10.7544/issn1000-1239.2017.20160837
    摘要1440)   HTML9)    PDF (4787KB)(759)   
    随着遥感技术的不断进步,遥感数据的数据量越来越大,种类越来越多,分布越来越分散,遥感应用的复杂程度和个性化程度也不断提高,遥感正在走向大数据时代.而目前遥感数据基础设施在容量、可扩展性、易用性和性能等方面都难以满足遥感应用的需求,成为了遥感科学与工程从获取到最终产品这个流程中的瓶颈.为此,首先从遥感数据的本质出发,讨论了遥感数据基础设施应当具备的分布、异构、时空连续和按需数据处理等特性,并依据遥感数据基础设施的基本服务单元、分布性、时空连续性和按需处理支持能力将遥感数据基础设施分成6类.其次,针对这6类遥感数据基础设施展现出的特性,设计了实现这些基础设施可以采用的体系结构,并指出了其中实现的技术难点和解决思路.最后,就遥感数据基础设施设计和实现过程中涉及到的数据收集与整合、数据组织与管理、数据服务接口、按需数据处理等方面的技术方案进行了深入的讨论.在这些技术的支持下,遥感数据基础设施能够做到分布化、智能化和平台化,支持遥感科学的合作研究和工程上的协同应用.
    相关文章 | 计量指标
    6. 科学数据众包处理研究
    赵江华,穆舒婷,王学志,林青慧,张兮,周园春
    计算机研究与发展    2017, 54 (2): 284-294.   doi: 10.7544/issn1000-1239.2017.20160850
    摘要1240)   HTML5)    PDF (2465KB)(763)   
    获取科学数据的最终目的是根据具体需要从数据中提取有用的知识,并将这些知识应用到具体的领域中,帮助决策制定者制定决策.由于科学数据规模越来越大,而且呈现结构复杂的特点,如半结构化或非结构化,难以通过计算机实现自动化处理.众包通过高效调用人力资源,成为进行科学大数据众包处理的解决方案之一.针对科学大数据众包处理的特点,围绕人才筛选机制、任务处理模式和结果评估策略3方面对科学数据众包体系进行研究,并通过地理空间数据云平台开展地学领域的基于众包的遥感影像信息提取实验.研究表明,科学数据不仅能够通过众包模式来进行处理,而且通过合理的设计众包流程能够获得高质量的数据结果.
    相关文章 | 计量指标