Correlation Statistical Modeling Reduction Method for Large-Scale Structural Grid Data
-
摘要:
高置信度的数据可视分析对于大规模数值模拟至关重要,但是当前高性能计算机的存储瓶颈导致可视分析应用获取原始高分辨率网格数据越来越困难. 基于统计建模的方法能够极大降低高分辨数据存储成本,但是重建数据的不确定性高. 为此,提出了一种大规模结构网格数据的相关性统计建模轻量化方法,用于对并行数值模拟生成的大规模多块体数据进行高效分析与可视化. 该方法的技术核心是通过数据块间的统计相关性,指导邻接数据块的统计建模,从而有效地保留数据统计特征,且不需要对不同并行计算节点中的数据块进行合并与重新分块. 通过耦合数据块的数值分布信息、空间分布信息和相关性信息,该方法可以更精确地重建原始数据,降低可视化的不确定性. 实验测试采用了最大10亿网格规模的5组科学数据,定量分析结果显示,在相同数据压缩比下,该方法相比现有方法可将数据重建精度最大提升近2个数量级.
Abstract:Data visual analysis is essential for large-scale numerical simulations. The storage bottleneck of high-performance computers makes it challenging to analyze and visualize data with original high-resolution. The method based on statistical modeling can significantly reduce the data storage cost, with the reconstruction uncertainty being high. Therefore, we propose a large-scale data reduction method for efficient analysis and visualizing large-scale multi-block volume data generated by massively parallel scientific simulations. The technical core of this method is to guide the statistical modeling of adjacent data blocks through the statistical representation of correlation between data blocks. By doing so, our method efficiently preserves the statistical data properties without merging data blocks stored in different parallel computing nodes and repartitioning them according to the homogeneity requirements of the visualization. Compared with exsiting methods, the original data can be reconstructed more accurately by coupling numerical distribution information, spatial distribution information, and correlation information, further reducing the visual uncertainty. The experimental tests use five sets of scientific data with the largest scale of one billion grids. The quantitative analysis results show that our method improves the data reconstruction accuracy by up to two orders of magnitude at the same data compression ratio compared with the current state-of-the-art methods.
-
大规模数值模拟是科学发现与工程设计不可或缺的关键手段,高置信度的数据可视分析对大规模数值模拟至关重要[1]. 随着高性能计算机的峰值性能的快速提升,为了精细模拟所研究问题的复杂特征,以尽可能高的计算效率将计算能力集中在问题的最关键部分,科学家常采用如图1所示的非均匀分解的自适应网格,导致大规模多块数据的生成. 然而,硬件存储瓶颈导致可视分析应用获取原始高分辨率数据越来越困难[2],大规模数值模拟应用先保存原始计算结果再进行事后可视分析的可行性不断降低. 因此,数据约减势在必行.
基于统计建模的数据轻量化方法[3-8]是一种主流的数据约减方法,它采用紧凑型的分布数据表达,替代传统的3维网格数据表达,可以实现数值模拟数据规模的大幅约减,便于高效的事后可视分析[9-14]. 常用的分布数据表达有直方图(histogram)和高斯混合模型(Gaussian mixture model,GMM)[15-17].
然而,基于统计建模的数据轻量化方法的重建精度低,可视化不确定性高. 主要原因是此类方法与数值并行区域分解策略产生的多块拼接网格数据的不适配性. 因此,此类方法通常需要首先对原有的多块拼接网格数据进行合并;然后根据可视化的同质性需求,采用更适合可视分析方法的区域分解策略对合并数据进行重分,保证单块网格数据具有较小的数值梯度;最后,采用统计分布模型对每个数据块进行特征建模和可视分析. 在大规模数值模拟场景下,这种建模方法会引起性能瓶颈和建模不确定2方面的问题[18]. 首先,数据合并与数据重分,将引起全局数据通信和高性能计算机节点间的大量数据迁移,导致显著的性能瓶颈问题. 其次,不恰当的区域分解策略或统计分布模型,均会导致数据统计特征的丢失,进而增加可视分析的不确定性. 能够适配数值并行区域分解策略的高精度统计建模与可视分析方法,仍有待开展研究.
为此,本文提出了一种大规模结构网格数据的相关性统计建模轻量化方法,其创新点有2个方面:
1)提出了一种数据块间的相关性统计建模方法. 在计算各单块网格数据的数值分布和空间分布后,利用信息熵与互信息表征数据块间的相关性,指导邻接数据块的统计建模. 该方法通过耦合数据块的数值分布信息、空间分布信息和相关性信息,能够显著提升重建精度,降低可视化的不确定性.
2)本文方法保持初始数据分块不变,不需要对原始数据进行全局合并与重分,从而显著减少不同并行计算节点间的通信开销,降低计算成本.
实验结果表明,与现有方法相比,本文方法节省了数据合并与重分的计算成本,在获得更高重建精度的同时,将数据存储成本降低了约1个数量级.
1. 相关工作
1.1 网格数据压缩编码方法
压缩编码是传统常用的网格数据约减方法,分为无损和有损2种压缩策略,但它很难适用于具有浮点数特征的数值模拟数据. 例如,采用行程编码[19-20]、bZIP[21]等无损压缩算法,很难将数据压缩比提升到一个数量级. 有损压缩则是相对有效的科学数据压缩途径. 例如,几何驱动的静态有损压缩方法,它涉及网格顶点位置量化、预测、熵编码3个主要处理阶段[22]. 面向不断增大的数据规模,渐近网格压缩方法逐渐成为研究热点,衍生出基于八叉树的渐近编码[23]、小波编码[24]、几何图像编码[25]等相关研究. 但是,有损压缩算法无法在较大数据压缩比的前提下,同时高精度地保留原始高分辨数据的物理特征.
1.2 特征提取方法
特征提取方法使用特征数据替代原始数据场,从而实现数据轻量化. 物理特征的定义形式包括等值面、流线、条纹线、矢量场拓扑、涡管、裂缝、断层线等. 针对3维数据场,目前通常采用“基于iso-value指定的等值数据范围”和“基于体绘制传递函数指定的不透明度到数值范围的映射”等方法进行空间特征提取. Tzeng等人[26]使用标量值、梯度值和空间位置坐标训练传递函数,用于数据特征识别. Kindlmann等人[27]利用曲面曲率对数据样本进行特征分类. Tenginakai等人[28]通过邻域统计信息定义数据等值面特征. Hladuvka等人[29-30]借助等值面实现数据特征分离. 但是,上述特征提取方法均依赖个性化特征定义,其普适性弱.
1.3 基于统计建模的数据轻量化方法
基于统计建模的数据轻量化方法,是目前有望解决大规模数据存储瓶颈的一种最新数据约减途径. 它采用紧凑的分布数据表达,可以极大降低高分辨数据存储量,同时还能较好地保持数据蕴含的物理特征. Thompson等人[15]使用直方图近似表示网格数据等值面. Wei等人[13]提出了一种基于直方图的有效算法来搜索数据局部区域的相似分布. Liu等人[16]和Dutta等人[17]则使用GMM对数据信息进行紧凑表达. 然而这类方法的一个关键缺点是,其忽略了数据的空间分布信息,并最终导致基于统计建模方法的重建数据精度低,不确定性高. 针对这一问题,Wang等人[31]提出了一种基于空间分布的数据轻量化方法,它使用直方图建模数值信息,GMM建模空间分布信息,利用贝叶斯准则结合这2类分布模型,最终显著提升重建数据精度. 然而,受限于大规模数值模拟复杂的并行特征,文献[13, 15-17, 31]所述的轻量化方法无法直接适配多块拼接网格数据. 因此,在大规模数值模拟场景下,这些方法势必会引起性能和建模不确定2方面的问题.
1.4 相关性建模方法
现有的统计可视分析方法难以适应多块拼接数值模拟数据,无法在数据块的邻域边界保持重建精度. 为此,近几年出现了相关性建模方法,它引入数据相关性来提升统计分布建模的精度. Dutta等人[18]提出了一种基于数据固有空间相关性对数据进行聚类划分的方法,但该方法并不适用于数值并行计算阶段产生的多块拼接网格数据. Wang等人[32]通过创建先验知识,捕捉低分辨率与高分辨率数据之间的相关性来提高重建精度,但先验知识的计算是十分耗时的. Hazarika等人[33-34]从统计分析的角度出发,对多变量数据的相关性进行统计建模,从而降低重建数据的不确定性. 目前,适用于数值并行应用区域分解策略的统计可视分析方法仍未开展研究.
2. 基本概念
2.1 信息熵与互信息
在信息论中,信息熵(information entropy)是关于离散随机事件的出现概率. 对于任意的概率分布,均可以定义信息熵以度量单个随机变量的不确定性. 针对科学模拟数据,信息熵还可以作为一个数据复杂程度的度量[35]. 如果一个数据场越复杂,蕴含异质的物理特征越多,它的信息熵会越大;反之,数据场越简单,蕴含异质的物理特征越少,则它的信息熵将越小. 联合熵(joint entropy)可用于度量一个联合分布随机系统的不确定性,它可以推广到互信息(mutual information),互信息可用于度量2个随机变量之间的依赖关系.
将信息熵应用于数据轻量化问题的关键在于如何正确指定随机变量
X ,并定义其概率密度函数p(x)=Pr(X=x) . 在大多数情况下,可以启发式地定义这些概念函数以满足应用需求. 本文将科学模拟数据集建模为离散随机变量,其区域内的每个数据点都对应物理场的一个数据值. 因此,我们可以使用直方图对随机变量X 的概率密度函数p(x) 进行估计,即使用每个直方图Bin区间的归一化频率作为相应的概率p(x) .本文使用信息熵、联合熵、互信息概念对数据相关性进行了建模. 为便于理解,图2为多块拼接结构网格数据中3个相邻数据块
X ,Y ,Z 的信息熵与互信息示意图,其中,数据点的不同图案填充代表不同的物理场变量值.H(X) ,H(Y) ,H(Z) 为数据块直方图的信息熵;H(X,Y) ,H(X,Z) ,H(Y,Z) 为直方图之间的联合熵;I(X,Y) ,I(X,Z) ,I(Y,Z) 为直方图之间的互信息. 由于联合熵与互信息具有对称性,为简化示意图,图2在右上方加粗黑色框内展示联合熵与信息熵之间的关系,左下方加粗黑色框内展示互信息与信息熵之间的关系.2.2 空间高斯混合模型
为了提升大规模数值模拟数据的重建精度,本文在数据建模过程还同时考虑空间位置信息,这构成了空间高斯混合模型(spatial GMM,SGMM)[31,36]. SGMM可用于捕获相似数据值的空间分布特征. 与将数值映射到概率的块高斯混合模型(block GMM)[14,16]不同,SGMM将空间位置映射到概率. 给定一个3维空间位置
\boldsymbol{p} ,则SGMM定义为SG({\boldsymbol{p}}) = \sum\limits_{k = 1}^K {{\omega _k}} \cdot N({\boldsymbol{p}}|{{\boldsymbol{\mu}} _k},{{\boldsymbol{\varSigma}}_k}) , (1) 其中
K 是高斯函数分量的个数,\omega_{k} ,{\boldsymbol{\mu }}_{k} ,{\boldsymbol{\varSigma }}_{k} 分别为第k 个高斯函数分量的混合权重、均值向量和协方差矩阵. SGMM的求解相当于一个包含缺失数据的参数估计问题,采用最大期望算法(expectation maximization algorithm)[36]可实现对其求解.为了提高SGMM的重建精度,目前的解决方案是根据可视化的需求对原始数据进行合并和重新分块. 大规模多块数据的合并与重分会涉及并行计算节点之间的全局数据通信,导致显著的性能瓶颈问题. 因此,随着并行通信模拟规模的逐渐扩大,减少全局通信对提高并行性能至关重要. 本文方法利用相关性统计建模极大地降低了全局数据通信量.
3. 相关性统计建模轻量化方法
为了适配数值并行应用区域分解策略,提升针对多块拼接结构网格数据的重建精度,实现大规模数值模拟数据的高效、高置信度可视分析,本文提出了一个大规模结构网格数据的相关性统计建模轻量化方法,它包括数据块内的统计分布建模、面向多块拼接网格数据的相关性统计建模、基于统计模型的数据重建与可视分析3个阶段过程. 特别地,本文的统计分布建模均采用了耦合了3维空间位置信息的SGMM,SGMM方法的总流程如图3所示.
3.1 总体流程
给定一个多块均匀拼接网格数据,首先基于SGMM进行逐块数据建模. 每个数据块的统计模型,包含数值分布和空间分布2类信息. 本文针对数值分布,使用直方图进行数据表征;而针对落在直方图中同一个Bin区间内的数据点,如它们具有相同或相似的数值,则要同时耦合该数值区间所对应网格数据点的空间分布,采用SGMM进行数据表征.
其次,是逐块计算块内统计分布模型的信息熵. 其中,一个数据块的统计模型对应的信息熵越大,则代表该块数据分布的不确定性越高,块内包含的信息量越大,并且将越逼近于均匀分布. 针对均匀多块拼接的网格数据,每个数据块的1-邻域构成关系,可以分为图4所示的4种情况,深色立方体部分标记为中心数据块. 针对中心数据块,计算其与1-邻域上每个数据块的统计分布模型的联合熵. 特别地,联合熵越大,表明该邻接块的分布对中心块的分布所带来的影响越小. 基于联合熵,可以获得中心数据块与其1-邻域数据块的统计分布模型的互信息. 其中,互信息越大,表明2个数据块之间的相关性越强.
然后,基于数据块之间的相关性感知采样,进行块间的统计分布相关性统计建模. 其中,基于信息熵和互信息的理论,本文的相关性感知采样包含了3项基本建模准则:1)信息熵越大的数据分布,越需要根据该块的邻接块的分布信息,对其进行相关性修正;2)与中心数据块分布具有较大互信息的邻接数据块,则其相关性系数越大;3)与中心数据块分布具有较大联合熵的邻接数据块,则其所需的相关性感知采样系数较小. 如图3所示,具有加粗黑色边框的子块区域代表一个中心数据块,其他8个子块区域代表中心数据块的1-邻域数据块. 图3中数据点的不同图案填充,代表不同的物理场变量值. 通过针对中心数据块及其邻域数据块的数值分布直方图进行相关性统计建模,本文方法可以提升中心数据块在边界附近的统计分布重建精度. 随后,结合空间分布模型,即可得到关于中心数据块的相关性统计模型.
本文的统计建模过程,可以通过原位可视分析的紧耦合模式,直接对接大规模数值模拟应用,作用于数值模拟的计算结果输出过程,产生用于事后分析的统计分布数据. 本文统计模型的数据表征方法,可以大幅降低大规模数值模拟应用的数据存储量,同时还能够高质量保持数据蕴含的物理特征,因此可以支撑事后的高效、高置信度可视分析.
最后,还需要统计分布模型的数据重建与可视分析. 现有的可视分析算法均面向网格数据表征进行设计. 因此,可视分析应用在读入统计分布模型表征的紧凑型数据后,还必须进行数据重建. 数据重建包括网格拓扑构建和网格顶点上的变量数据重建2部分. 对于结构网格应用,网格拓扑的构建无需依赖统计分布模型信息,重点在于网格顶点的变量数据重建. 变量重建的过程,可以描述为:对于任意给定的一个空间位置坐标,在确定其所在数据块后,利用贝叶斯准则将数值分布、空间分布和相关性分布进行耦合,估计该空间位置坐标所对应的物理场数值,得到数据重建结果.
3.2 数据块内的统计分布建模算法
数据块内的统计分布建模算法,实现了每个结构网格数据块的高精度统计建模,是实现多块拼接结构网格数据高精度统计建模的基础. 该算法包含了数值分布建模和空间分布建模2部分.
首先,计算数据块内的数值分布模型. 针对数据块尺寸为
b 的均匀拼接结构网格数据,分别计算其每个数据块的物理场变量的数值直方图. 其中数值直方图Bin区间的个数为M . 以第i 个数据块{Block}_{i} 为例,其物理场变量记为{X}_{i} . 使用直方图{Hist}_{i} 对{X}_{i} 的概率密度函数进行估计,{Hist}_{i} 的每个Bin区间对应一个数值区间. 以第j 个统计区间{Bin}_{j} 为例,其相应的数值区间记为[{L}_{j},{U}_{j}] ,物理场数值属于该区间的网格采样点数目记为C ,数据块{Block}_{i} 内的网格采样点总数目记为{N}_{b} ,则统计区间{Bin}_{j} 的频率记为C/{N}_{b} .其次,计算数据块内的空间分布模型. 针对第
i 个数据块{Block}_{i} 的数值直方图{Hist}_{i} 的第j 个统计区间{Bin}_{j} ,使用2.2节中介绍的方法,计算物理场变量值能够落在统计区间{Bin}_{j} 内的网格采样点,然后根据这些网格采样点的空间位置坐标求解分布模型{SG}_{j} .需要注意的是,由于SGMM为定义在无限空间内的近似分布,而非针对单一数据块,这势必会给数据块内物理场变量的概率密度函数带来一定的偏差,因此需要对其进行归一化处理:
{H_i}(Bi{n_j}) = \frac{{His{t_i}(Bi{n_j})}}{{\int_{{\varOmega _i}}^{} {S{G_j}(l){\rm{d}}l} }} , (2) 其中
{\varOmega }_{i} 为数据块{Block}_{i} 的空间域,{\int }_{{\varOmega }_{i}}^{}{SG}_{j}\left(l\right)\mathrm{d}l 为{SG}_{j} 在{\varOmega }_{i} 上的累积概率.3.3 面向多块拼接数据的相关性统计建模算法
面向多块拼接数据的相关性统计建模算法,考虑相邻数据块之间的统计分布特征,实现数据块边界的高精度统计建模,是多块拼接结构网格数据高精度统计建模的关键部分. 基于3.2节的块内统计建模结果,本节算法采用信息熵与互信息来表征数据块之间的相关性,指导邻接数据块的统计分布相关性感知采样,实现面向多块拼接结构网格数据的高精度统计建模.
首先,计算每个块内统计分布的信息熵和1-邻域内数据块间的联合熵与互信息. 以第
i 个数据块{Block}_{i} 为例,以{Block}_{i} 为中心数据块,其1-邻域内数据块集合记为{BS}_{i} ,分别计算信息熵H\left({H}_{i}\right) ,联合熵H({H}_{i},{H}_{i}') ,和互信息I({H}_{i},{H}_{i}') ,其中{H}_{i}' 为归一化处理后{Block}_{i}' 的数值分布直方图,且{Block}_{i}'\in {BS}_{i} .其次,利用信息熵与互信息进行相关性感知采样计算. 采样过程中需要用户预先设定信息熵阈值
\varepsilon 和互信息阈值\delta . 以{Block}_{i} 为例,若H\left({H}_{i}\right) > \varepsilon ,则以{Block}_{i} 为中心数据块,对其进行相关性感知采样. 遍历其1-邻域内数据块集合{BS}_{i} ,若I({H}_{i},{H}_{i}') > \delta ,则对{Block}_{i}' 中的网格点进行随机采样,采样比例{R}_{\mathrm{a}\mathrm{d}\mathrm{d}} 计算为{R_{{\rm{add}}}} = 1 - \frac{{H({H_i},H_i')}}{{{H_{\max }}}} , (3) 其中
{H}_{\mathrm{m}\mathrm{a}\mathrm{x}} 为联合熵的最大值. 根据{R}_{\mathrm{a}\mathrm{d}\mathrm{d}} 对{Block}_{i}' 的空间域进行随机采样后得到的空间子域记为{\varOmega }_{\mathrm{a}\mathrm{d}\mathrm{d}} ,{\varOmega }_{i} 更新为{\varOmega }_{i}\cup {\varOmega }_{\mathrm{a}\mathrm{d}\mathrm{d}} . 利用更新后的{\varOmega }_{i} ,将{H}_{i} 更新为{H}_{i}^{*} .特别地,相关性统计建模算法所涉及的信息熵阈值
\varepsilon 和互信息阈值\delta ,对模型重建精度和模型并行计算时间均具有显著影响. 不同阈值参数的评估见本文实验部分(4.1节).3.4 基于统计模型的数据重建算法
采用统计模型表征,可以大幅降低大规模数值模拟在磁盘上的数据存储量. 但是,为了适应现有可视分析方法,将分布数据表达恢复成可视分析可以处理的网格数据表达,还需要进行基于统计分布模型的网格数据内存重建. 本节算法在块内统计建模算法和块间相关性统计建模算法的基础上,根据贝叶斯准则进行高质量的数据重建. 本文算法中,重建数据采用了与原始数据一致的网格分辨率.
给定的3维网格上的一个空间位置坐标
\boldsymbol{p} ,首先要定位其所在的数据块{Block}_{i} ,并且遍历{H}_{i}^{*} 的每个Bin区间. 其次,根据贝叶斯法则,计算位置\boldsymbol{p} 的物理场数值落在{H}_{i}^{*} 第j 个统计区间{Bin}_{j} 的概率:{P_{\boldsymbol{p}}}(Bi{n_j}) = \dfrac{{S{G_j}({\boldsymbol{p}}) \cdot H_i^*(Bi{n_j})}}{{\displaystyle\sum_{m = 1}^M {S{G_m}({\boldsymbol{p}}) \cdot H_i^*(Bi{n_m})} }} , (4) 遍历
{H}_{i}^{*} 的所有统计区间,{P}_{\boldsymbol{p}} 的最大值对应的统计区间的数值,即空间位置坐标\boldsymbol{p} 的物理场重建数值.4. 实验结果与分析
为了测试和评估本文方法的置信度和可视分析性能,实验共使用了5组科学模拟实际应用数据,实验结果如表1所示,在拥有24个核与512 GB内存的浪潮高性能服务器系统(Inspur 2017)的单个节点上进行测试. 在建模计算中,直方图Bin区间的数量
M 缺省设置为256,每个SGMM中高斯函数分量个数{K} 的上限设置为4.表 1 测试数据Table 1. Test Data模型 分辨率 数据来源 数据类型 气候模拟飓风数据HD(hurricane data) 500 \times 500 \times 100 IEEE VIS 2004 FLOAT 飞行器电磁模拟数据AED(aircraft electromagnetic data) 512 \times 512 \times 512 IAPCM FLOAT 冲击波效应模拟数据SWD(shock wave data) 400 \times 400 \times 400 IAPCM FLOAT 惯性约束聚变激光成丝数据LD(laser data) 256 \times 256 \times 512 IAPCM FLOAT 小行星撞击海底数据AID(asteroid impact data) 1000 \times 1000 \times 1000 IEEE VIS 2018 FLOAT 实验分别从重建精度和建模计算效能2个方面进行测试与评估. 首先,针对不同数据块尺寸参数
b 、信息熵阈值\varepsilon 、互信息阈值\delta 和多种统计分布模型,以及时变和大规模模拟数据应用,来评估本文方法的重建精度. 其次,本文分别从模型并行计算时间和数据压缩比这2个角度,评估本文方法对数值模拟实际应用的适用性和高效性. 此外,本文在量化评估中使用归一化均方根误差(normalized root mean squared error,RMSE)和归一化最大误差(normalized maximum error,NME)来评估数据重建质量,它们的计算方法为:RMS E(X,Y) = \frac{1}{{N \times {X_{\rm{r}}}}}\sqrt {\sum\limits_{{x_i} \in X,{y_i} \in Y} {{{({x_i} - {y_i})}^2}} } , (5) NME(X,Y) = \frac{1}{{{X_{\rm{r}}}}}\mathop {\max }\limits_{{x_i} \in X,{y_i} \in Y} |{x_i} - {y_i}| , (6) 其中
X 为原始数据,Y 为重建数据,{X}_{\mathrm{r}} 为原始数据物理场变量的值域. 此外,我们使用结构相似性(structural similarity,SSIM)[37]来度量2组数据之间的相似性.4.1 重建精度评估
4.1.1 不同数据块尺寸
b 的影响数据块的尺寸代表了大规模数值模拟应用的区域分解特征. 针对不同数据块尺寸的对比测试,用以评估本文方法对该类数值应用特征的典型适用性.
图5展示了针对具有不同数据块尺寸的气候模拟飓风数据,给出基于SGMM和本文提出的相关性统计模型的数据重建结果对比. 其中,重建数据的可视分析采用了等值面绘制方法. 分析结果显示,当数据块的尺寸相同时,SGMM的重建结果显示出邻接数据块之间存在明显的数值不连续性,而本文方法却可以提升邻接块边界区域的数据重建精度,因此重建数据的数值不连续性得到了显著改善. 这主要是由于SGMM仅对单块网格数据进行独立统计建模,缺少了邻接数据块的统计分布信息. 另一方面,通常建模采用的数据块尺寸越大,建模形成的统计分布数据的内存占用量越小,数据压缩比越大,并行计算时间越短,但是重建精度却越低. 而本文方法通过相关性统计建模降低了数据块尺寸对重建精度的影响. 因此,基于本文方法可以采用大尺寸数据块,获得与必须采用小尺寸数据块的SGMM才能获得的同等甚至更高的重建精度. 因此,本文方法实现了对大规模数值模拟应用并行特征更好的适应性,如图5(d)(e)所示.
4.1.2 不同信息熵阈值
\varepsilon 的影响本节主要讨论相关性统计建模中的关键参数之一,即信息熵阈值
\varepsilon 选取对建模质量的影响与评估.图6展示了不同信息熵阈值
\varepsilon 参数设置下,使用SGMM和本文所介绍的相关性统计模型对飞行器电磁模拟数据进行统计重建的体绘制结果. 通过权衡数据压缩比、计算时间与重建精度三者,本实验设置数据块尺寸b=8进行建模. 由于该模拟数据的物理特征尺度小,在数据块尺寸b=8时,数据重建会带来一定程度的局部精度损失,导致体绘制光线在数据空间上针对紫色属性数据的采样数量降低,故这些像素区域的体绘制累积不透明度低,导致颜色更淡、面积更小的现象. 但是,相比图6(b),当设置\varepsilon =2和\varepsilon =0时(图6(d)(e)),本文方法获得的重建数据及其体绘制结果具有更高的物质界面连续性. 当原始数据场的网格分辨率进一步增大时,采用相同的数据块尺寸将可以获得重建精度更高的结果. 图7展示了信息熵阈值\mathrm{\varepsilon } 的不同设置下,计算时间T、数据压缩比Rpre和重建精度RMSE,NME,SSIM的变化情况. 结果表明,\varepsilon 越小,进行相关性统计建模时需要耦合的数据块越多,重建结果的精度越高、不确定性越低;但数据压缩比越小,并行计算时间越长. 通过权衡数据压缩比、计算时间与重建精度三者,本文默认设置\varepsilon =2(由于直方图Bin区间个数的默认值为M =256,故\varepsilon 的最大值为8). 如果用户对数据重建精度有更高的要求,并且可以处理更大的数据内存占用和更长的并行计算时间,则可以使用更小的信息熵阈值. 图6(e)展示了\varepsilon =0时相关性统计模型的重建结果,即在面向多块拼接数据的相关性统计建模算法中对所有数据块均进行了相关性统计建模.4.1.3 不同互信息阈值
\delta 的影响本节主要讨论相关性统计建模中的另一个关键参数,即互信息阈值
\delta 对建模质量的影响与评估.图8展示了不同互信息阈值
\delta 参数设置下,使用SGMM和本文所介绍的相关性统计模型对冲击波效应模拟数据进行统计重建的结果,选取了冲击波效应模拟数据的4个等值面进行渲染. 图9展示了互信息阈值\delta 的不同设置下,计算时间、数据压缩比和重建精度的变化情况. 结果表明,\delta 越小,执行随机采样的相邻数据块的数目越多,重建结果的精度越高、不确定性越低;但数据压缩比越小,并行计算时间越长. 通过权衡数据压缩比、计算时间与重建精度三者,本文默认设置\delta =5(由于直方图Bin区间个数的默认值为M =256,故\delta 的最大值为64). 如果用户对数据重建精度有更高的要求,并且可以处理更大的数据内存占用和更长的并行计算时间,则可以使用更小的互信息阈值. 图8(e)展示了\delta =0时相关性统计模型的重建结果. 在多块拼接数据的相关性统计建模算法中,针对每个中心数据块的1-邻域范围,需要逐数据块进行相关性感知的分布数据采样计算.4.1.4 不同统计分布模型的比较
不同的统计分布模型,可以描述不同的数据统计特征,其针对大规模多块数值模拟数据的特征表征效果存在差异. 对比不同统计分布模型的重建结果,可以评估本文提出方法对于大规模多块数值模拟数据的适用性.
图10显示了对惯性约束聚变激光成丝数据进行统计重建的结果,实验采用了直方图分布模型、SGMM 和本文提出的相关性统计模型. 在数据可视分析环节,本文选取了惯性约束聚变激光成丝数据的一个等值面进行可视分析结果评估. 针对直方图模型,其主要缺陷是在统计建模过程中仅处理原始数据的数值分布信息,而丢失其空间分布信息;SGMM则添加了对数据空间分布信息的统计建模,但仍然无法达到高质量的数据建模要求,尤其在数据块边界. 由于以上这2种统计分析方法仅针对每个数据块进行独立统计建模,缺省了邻域数据信息,因此其重建结果中数据块间的数值不连续性相对明显. 相比之下,本文方法通过对数据块间的统计相关性进行建模,显著改善了块间不连续性,与直方图模型和SGMM相比,它可以产生更为平滑的重建结果. 定性定量分析的结果显示,上述3种统计模型的重建结果与原始数据间的归一化最大误差,分别为0.011,0.894,0.992. 3种统计模型的数据压缩比均为43.5∶1,数据轻量化的效果显著,但其中本文方法的模型重建精度最高.
4.1.5 超大规模数值模拟数据集
为了验证本文方法处理超大规模数值模拟数据集的有效性,实验使用了模拟小行星撞击海底的2组大规模数值模拟数据集,采用体绘制方法进行可视分析. 图11与图12分别给出采用SGMM和本文相关性统计模型的统计可视分析结果. 对比可知,本文方法可以显著提升分块数据边界区域的重建数据的数值连续性,从而获得与真实数据非常相似的重建结果. 另外,本文方法还能够实现针对原始大规模数据的高效数据压缩. 例如,模拟小行星撞击海底数据的Tev变量数据场和V02变量数据场的数据压缩比,可以分别达到22.2∶1和11.4∶1,实现2个数量级的大规模数据轻量化.
4.1.6 时变数据集
为了验证本文方法处理时变数据集的有效性,实验使用了包含48个时间步的气候模拟飓风数据集,根据不同的数据块尺寸和不同的统计建模方法,组合为4组实验:1)b=16,使用SGMM;2)b=8,使用SGMM;3)b=16,使用本文的相关性统计建模方法;4)b=8,使用本文的相关性统计建模方法. 图13与图14分别展示了上述4组实验的时间步数据重建结果的归一化最大误差以及数据压缩比的堆积柱形图. 分析可见,采用相同数据块尺寸(实验1与实验3),实验2与实验4),本文方法具有更小的归一化最大误差,即重建结果精度更高;采用不同数据块尺寸(实验2与实验3),本文方法同时具有更小的归一化最大误差和更大的数据压缩比.
4.2 建模计算效能评估
4.2.1 并行计算时间
本节通过模型并行计算时间评估本文方法针对大规模模拟数据的处理效能. 针对小行星撞击海底数据(图11),浪潮服务器节点的每个核分配的数据块个数为9300,采用24核,块内统计分布模型和相关性统计模型的并行计算时间分别为199.52 s和29.88 s,数据重建的并行计算时间为79.06 s,数据压缩比达到了22.2∶1. 针对飞行器电磁模拟数据(图6),浪潮服务器节点的每个核分配的数据块个数为10752,块内统计分布模型和相关性统计模型的并行计算时间分别为155.25 s和32.93 s,数据重建的并行计算时间为53.07 s,数据压缩比达到19.2∶1. 由于建模计算相对于数据可视分析是一个预处理过程,不强调处理的实时性,因此上述模型并行计算时间仍属于用户可接受范围,并可通过并行核数的增加继续缩短并行计算时间. 而2个数量级的压缩比,则确实可以显著解决应用数据的存储瓶颈. 此外,由于本文方法不需要对多块数据进行合并与重分,可以显著减少多核间的数据通信. 本文方法对小行星撞击海底数据(图11)和飞行器电磁模拟数据(图6)的通信时间分别为2.13 s和1.09 s.
一般统计分布模型的精度,是与数据分块的大小成反比趋势变化的. 而本文的统计分布模型则能够采用尺寸更大的数据块,获得与SGMM相似甚至更高的重建精度,因而建模速度更快. 如图5(c)和图5(d)所示,SGMM需要使用数据块尺寸为b=8时,才能获得相对高质量重建结果,其模型并行计算时间为39.49 s. 而采用本文模型,仅需采用数据块尺寸b=16,即可获得与b=8时SGMM的重建质量,并且模型并行计算时间相比更短,下降为仅需32.48 s(块内统计分布模型和相关性统计模型的并行计算时间分别为31.22 s和1.26 s). 需要注意的是,原始数据的统计特征分布情况对本文算法的并行计算时间长短具有决定性影响,数据统计特征分布越集中,并行计算时间越短,反之亦然.
4.2.2 不同统计建模的效能比较
本文通过记录通信时间
{T}_{\mathrm{c}} 、模型并行计算时间{T}_{\mathrm{m}} 、重建并行计算时间{T}_{\mathrm{r}} 和总时间{T}_{\mathrm{t}} 来说明本文方法在计算效能方面的优势. 由于本文方法可以直接处理原始的多块数据,无需进行合并和重分,因此多核间的数据通信时间相对较短. 直方图分布模型和SGMM则需要对合并后的数据进行重新分块,需要更长的通信时间. 图15和图16分别为适用直方图分布模型、SGMM和本文方法对飞行器电磁模拟数据和小行星撞击海底数据进行计算的{T}_{\mathrm{c}} ,{T}_{\mathrm{m}} ,{T}_{\mathrm{r}} ,{T}_{\mathrm{t}} . 可以发现,对于直方图分布模型和SGMM,数据通信占据了主要的时间,本文方法则使用最短的总计算时间获得了最精确的重建结果.4.3 对比分析
实验使用的小行星撞击海底模拟、飓风气候模拟、飞行器电磁模拟、冲击波效应模拟和聚变激光成丝模拟数据,分别属于流体力学、气候变化、电磁环境、爆炸冲击、惯性约束聚变等5个不同应用领域,代表了当前结构网格科学模拟的典型应用. 这些典型应用的高分辨率模拟结果均呈现复杂的空间分布特征,并且在单块网格数据内表现出高度的数值异质性,如图5,6,8,10~12所示. 现有统计建模方法忽视了上述单块数据内的数值异质性,导致重建结果在数据块边界具有强数值不连续性,无法保持高精度. 而本文方法则考虑了邻域数据的统计分布特征,从而可以获得数值连续性更优的重建结果,如表2第6~8列所示.
表 2 测试数据的统计分析结果和计算时间Table 2. Statistical Analysis and Computational Time of Test Data模型 b \varepsilon \delta 方法 -lg(RMSE) NME SSIM {T}_{\mathrm{c}} /s {T}_{\mathrm{m}} /s {T}_{\mathrm{r}} /s {T}_{\mathrm{t}} /s {M}_{1} /MB {M}_{2} /MB R_{{\rm{pre}}} HD(图5(b)) 16 SGMM 5.369 0.988 0.938 51.52 31.22 5.58 88.32 100 2.3 43.5∶1 HD(图5(c)) 8 SGMM 5.564 0.988 0.951 104.73 39.49 8.54 152.76 100 11.7 8.5∶1 HD(图5(d)) 16 2 5 本文 5.973 0.446 0.981 0.14 32.48 5.96 38.58 100 2.4 41.7∶1 HD(图5(e)) 8 2 5 本文 6.139 0.215 0.985 0.39 41.87 9.01 51.27 100 12.3 8.1∶1 AED(图6(b)) 8 SGMM 6.742 0.493 0.937 204.14 155.25 51.28 410.67 536.8 26.4 20.4∶1 AED(图6(c)) 8 4 5 本文 6.906 0.294 0.959 1.09 181.26 53.07 235.42 536.8 27.1 19.6∶1 AED(图6(d)) 8 2 5 本文 7.139 0.135 0.974 1.09 188.18 53.07 242.34 536.8 27.8 19.2∶1 AED(图6(e)) 8 0 5 本文 7.241 0.093 0.981 1.09 202.41 53.07 256.57 536.8 28.3 18.9∶1 SWD(图8(b)) 8 SGMM 5.566 0.682 0.812 183.14 89.84 42.75 315.73 256 63.4 4.0∶1 SWD(图8(c)) 8 2 10 本文 5.902 0.383 0.876 0.78 97.03 46.33 144.14 256 64.9 3.9∶1 SWD(图8(d)) 8 2 5 本文 6.203 0.143 0.918 0.78 100.21 46.33 147.32 256 65.8 3.9∶1 SWD(图8(e)) 8 2 0 本文 6.319 0.089 0.937 0.78 104.76 46.33 151.87 256 67.1 3.8∶1 LD(图10(b)) 8 直方图模型 6.414 0.993 0.011 123.87 18.34 11.72 153.93 134.2 3.1 43.5∶1 LD(图10(c)) 8 SGMM 6.943 0.286 0.894 123.87 33.89 13.03 70.79 134.2 3.1 43.5∶1 LD(图10(d)) 8 2 5 本文 7.148 0.071 0.992 0.43 36.7 14.77 51.9 134.2 3.2 43.5∶1 AID(图11(b)) 16 SGMM 5.934 0.472 0.962 267.08 199.52 73.05 539.65 2679.4 117.9 22.7∶1 AID(图11(c)) 16 2 5 本文 6.193 0.213 0.987 2.13 229.4 79.06 310.59 2679.4 120.3 22.2∶1 AID(图12(b)) 16 SGMM 6.017 0.433 0.973 278.32 209.01 77.91 565.24 2679.4 233.1 11.5∶1 AID(图12(c)) 16 2 5 本文 6.731 0.133 0.991 2.47 251.74 81.46 335.67 2679.4 237.6 11.4∶1 此外,本文方法不需要对原始多块数据进行合并与重分,避免了随并行计算规模显著增长的数据通信开销,因此,在实现跨量级的数据轻量化的同时,还能使得大规模数据的建模计算更加高效,如表2第10,11列所示,其中
{M}_{1} 为原始数据所占内存,{M}_{2} 为统计模型所占内存,R_{{\rm{pre}}} 为数据压缩比. 综上所述,本文方法能够在显著降低计算成本的同时,得到具有更高重建精度的数据轻量化结果,对于结构网格模拟应用具有较好的方法普适性.5. 结束语
本文提出了一种大规模结构网格数据的相关性统计建模轻量化方法,它通过使用数据块间的相关性统计表征,指导邻接数据块的统计建模,从而有效地保留数据统计特征. 通过耦合数据块的数值分布信息、空间分布信息和相关性信息,可以更精确地重建原始数据,降低可视化的不确定性. 且本文方法不需要在统计建模前对不同并行计算节点中的数据块进行合并与重分,从而显著减少数据通信开销. 通过采用最大包含10亿网格点的5组科学数据进行实验比较,定量分析结果显示,本文方法相比现有方法可将数据存储成本降低约1个数量级,同时具有更高的重建精度. 然而,虽然本文方法对结构网格数据具有普适性,但由于非结构网格数据和集成数据没有规则的拓扑结构,使得本文方法难以适用. 在未来的工作中,我们将考虑对网格的拓扑结构进行轻量化处理,实现本文方法的推广.
作者贡献声明:杨阳进行了该论文相关实验设计、编码及测试、论文撰写等工作;武昱进行了实验设计和结果分析;汪云海进行了论文结构讨论和修改;曹轶进行了实验设计和论文修改.
-
表 1 测试数据
Table 1 Test Data
模型 分辨率 数据来源 数据类型 气候模拟飓风数据HD(hurricane data) 500 \times 500 \times 100 IEEE VIS 2004 FLOAT 飞行器电磁模拟数据AED(aircraft electromagnetic data) 512 \times 512 \times 512 IAPCM FLOAT 冲击波效应模拟数据SWD(shock wave data) 400 \times 400 \times 400 IAPCM FLOAT 惯性约束聚变激光成丝数据LD(laser data) 256 \times 256 \times 512 IAPCM FLOAT 小行星撞击海底数据AID(asteroid impact data) 1000 \times 1000 \times 1000 IEEE VIS 2018 FLOAT 表 2 测试数据的统计分析结果和计算时间
Table 2 Statistical Analysis and Computational Time of Test Data
模型 b \varepsilon \delta 方法 -lg(RMSE) NME SSIM {T}_{\mathrm{c}} /s {T}_{\mathrm{m}} /s {T}_{\mathrm{r}} /s {T}_{\mathrm{t}} /s {M}_{1} /MB {M}_{2} /MB R_{{\rm{pre}}} HD(图5(b)) 16 SGMM 5.369 0.988 0.938 51.52 31.22 5.58 88.32 100 2.3 43.5∶1 HD(图5(c)) 8 SGMM 5.564 0.988 0.951 104.73 39.49 8.54 152.76 100 11.7 8.5∶1 HD(图5(d)) 16 2 5 本文 5.973 0.446 0.981 0.14 32.48 5.96 38.58 100 2.4 41.7∶1 HD(图5(e)) 8 2 5 本文 6.139 0.215 0.985 0.39 41.87 9.01 51.27 100 12.3 8.1∶1 AED(图6(b)) 8 SGMM 6.742 0.493 0.937 204.14 155.25 51.28 410.67 536.8 26.4 20.4∶1 AED(图6(c)) 8 4 5 本文 6.906 0.294 0.959 1.09 181.26 53.07 235.42 536.8 27.1 19.6∶1 AED(图6(d)) 8 2 5 本文 7.139 0.135 0.974 1.09 188.18 53.07 242.34 536.8 27.8 19.2∶1 AED(图6(e)) 8 0 5 本文 7.241 0.093 0.981 1.09 202.41 53.07 256.57 536.8 28.3 18.9∶1 SWD(图8(b)) 8 SGMM 5.566 0.682 0.812 183.14 89.84 42.75 315.73 256 63.4 4.0∶1 SWD(图8(c)) 8 2 10 本文 5.902 0.383 0.876 0.78 97.03 46.33 144.14 256 64.9 3.9∶1 SWD(图8(d)) 8 2 5 本文 6.203 0.143 0.918 0.78 100.21 46.33 147.32 256 65.8 3.9∶1 SWD(图8(e)) 8 2 0 本文 6.319 0.089 0.937 0.78 104.76 46.33 151.87 256 67.1 3.8∶1 LD(图10(b)) 8 直方图模型 6.414 0.993 0.011 123.87 18.34 11.72 153.93 134.2 3.1 43.5∶1 LD(图10(c)) 8 SGMM 6.943 0.286 0.894 123.87 33.89 13.03 70.79 134.2 3.1 43.5∶1 LD(图10(d)) 8 2 5 本文 7.148 0.071 0.992 0.43 36.7 14.77 51.9 134.2 3.2 43.5∶1 AID(图11(b)) 16 SGMM 5.934 0.472 0.962 267.08 199.52 73.05 539.65 2679.4 117.9 22.7∶1 AID(图11(c)) 16 2 5 本文 6.193 0.213 0.987 2.13 229.4 79.06 310.59 2679.4 120.3 22.2∶1 AID(图12(b)) 16 SGMM 6.017 0.433 0.973 278.32 209.01 77.91 565.24 2679.4 233.1 11.5∶1 AID(图12(c)) 16 2 5 本文 6.731 0.133 0.991 2.47 251.74 81.46 335.67 2679.4 237.6 11.4∶1 -
[1] Ahrens J, Hendrickson B, Long G, et al. Data intensive science in the department of energy, LA-UR-10-07088 [R]. Los Alamos: Los Alamos National Laboratory, 2010
[2] Nowell L. Science at extreme scale: Architectural challenges and opportunities [C/OL] //Proc of the 7th DOE Computer Graphics Forum. Chicago: ANL, 2014[2021-05-15]. http://www.doecgf.org/Meetings/
[3] Luo A, Kao D, Dungan J, et al. Visualizing spatial distribution data sets [C] //Proc of the 5th VisSym. Goslar, Germany: EG, 2003: 29−38
[4] Kniss J, Vanuitert R, Stephens A, et al. Statistically quantitative volume visualization [C] //Proc of the 7th IEEE VIS. Piscataway, NJ: IEEE, 2005: 287−294
[5] Potter K, Krüger J, Johnson C. Towards the visualization of multi-dimensional stochastic distribution data [C] //Proc of the 7th IEEE IADIS. Piscataway, NJ: IEEE, 2008: 53−59
[6] Johnson C, Huang Jian. Distribution-driven visualization of volume data[J]. IEEE Transactions on Visualization and Computer Graphics, 2009, 15(5): 734−746 doi: 10.1109/TVCG.2009.25
[7] Gosink L, Garth C, Anderson J, et al. An application of multivariate statistical analysis for query-driven visualization[J]. IEEE Transactions on Visualization and Computer Graphics, 2010, 17(3): 264−275
[8] Potter K, Kniss J, Riesenfeld R, et al. Visualizing summary statistics and uncertainty[J]. Computer Graphics Forum, 2010, 29(3): 823−832 doi: 10.1111/j.1467-8659.2009.01677.x
[9] Pothkow K, Hege H. Nonparametric models for uncertainty visualization [J] Computer Graphics Forum, 2013, 32(1): 131−140
[10] Chaudhuri A, Wei T, Lee T, et al. Efficient range distribution query for visualizing scientific data [C] //Proc of the 7th IEEE PacificVis. Piscataway, NJ: IEEE, 2014: 201−208
[11] Nouanesengsy B, Woodring J, Patchett J, et al. Adr visualization: A generalized framework for ranking large-scale scientific data using analysis-driven refinement [C] //Proc of the 4th Symp on Large Data Analysis and Visualization. Piscataway, NJ: IEEE, 2014: 43−50
[12] Athawale T, Sakhaee E, Entezari A. Isosurface visualization of data with nonparametric models for uncertainty[J]. IEEE Transactions on Visualization and Computer Graphics, 2015, 22(1): 777−786
[13] Wei T, Chen Chunming, Biswas A. Efficient local histogram searching via bitmap indexing[J]. Computer Graphics Forum, 2015, 34(3): 81−90 doi: 10.1111/cgf.12620
[14] Dutta S, Chen Chunming, Heinlein G, et al. In situ distribution guided analysis and visualization of transonic jet engine simulations[J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 23(1): 811−820
[15] Thompson D, Levine J, Bennett J, et al. Analysis of large-scale scalar data using hixels [C] //Proc of the 10th IEEE LDAV. Piscataway, NJ: IEEE, 2011: 23−30
[16] Liu Shusen, Levine J, Bremer P, et al. Gaussian mixture model based volume visualization [C] //Proc of the 11th IEEE LDAV. Piscataway, NJ: IEEE, 2012: 73−77
[17] Dutta S, Shen Hanwei. Distribution driven extraction and tracking of features for time-varying data analysis[J]. IEEE Transactions on Visualization and Computer Graphics, 2015, 22(1): 837−846
[18] Dutta S, Woodring J, Shen Hanwei, et al. Homogeneity guided probabilistic data summaries for analysis and visualization of large-scale data sets [C] //Proc of the 10th IEEE PacificVis. Piscataway, NJ: IEEE, 2017: 111−120
[19] Ihm I, Park S. Wavelet-based 3D compression scheme for very large volume data[J]. Computer Graphics Forum, 1998, 18(1): 107−116
[20] Kim T, Shin Y. An efficient wavelet-based compression method for volume rendering [C] //Proc of the 7th IEEE PCCGA. Piscataway, NJ: IEEE, 1999: 147−156
[21] Sasaki N, Sato K, Endo T, et al. Exploration of lossy compression for application-level checkpoint/restart [C] //Proc of the 29th IEEE IPDPS. Piscataway, NJ: IEEE, 2015: 914−922
[22] Deering M. Geometry compression [C] //Proc of the 22nd ACM SIGGRAPH. New York: ACM, 1995: 13−20
[23] Peng Jingliang, Kuo C. Geometry-guided progressive lossless 3D mesh coding with octree (OT) decomposition[J]. ACM Transactions on Graphics, 2005, 24(3): 609−616 doi: 10.1145/1073204.1073237
[24] Khodakovsky A, Schroder P, Sweldens W. Progressive geometry compression [C] //Proc of the 27th ACM SIGGRAPH. New York: ACM, 2000: 271−278
[25] Gu Xianfeng, Gortler S J, Hoppe H. Geometry images [C] //Proc of the 29th ACM SIGGRAPH. New York: ACM, 2002: 355−361
[26] Tzeng F, Lum E, Ma Kwan-Liu. A novel interface for higher-dimensional classification of volume data [C] //Proc of the 5th IEEE VIS. Piscataway, NJ: IEEE, 2003: 505−512
[27] Kindlmann G, Whitaker R, Tasdizen T, et al. Curvature-based transfer functions for direct volume rendering: Methods and applications [C] //Proc of the 5th IEEE VIS. Piscataway, NJ: IEEE, 2003: 513−520
[28] Tenginakai S, Lee J, Machiraju R. Salient iso-surface detection with model-independent statistical signatures [C] //Proc of the 3rd IEEE VIS. Piscataway, NJ: IEEE, 2001: 231−238
[29] Hladuvka J, Konig A, Groller E. Salient Representation of Volume Data [M] Vienna: Institute of Computer Graphics and Algorithms, Vienna University of Technology, 2001: 203−211
[30] Kniss J, Kindlmann G, Hansen C. Multidimensional transfer functions for interactive volume rendering[J]. IEEE Transactions on Visualization and Computer Graphics, 2002, 8(3): 270−285 doi: 10.1109/TVCG.2002.1021579
[31] Wang K, Lu Kewei, Wei T, et al. Statistical visualization and analysis of large data using a value-based spatial distribution [C] //Proc of the 10th IEEE PacificVis. Piscataway, NJ: IEEE, 2017: 161−170
[32] Wang K, Xu Jiayi, Woodring J, et al. Statistical super resolution for data analysis and visualization of large scale cosmological simulations [C] //Proc of the 12th IEEE PacificVis. Piscataway, NJ: IEEE, 2019: 303−312
[33] Hazarika S, Biswas A, Shen Hanwei. Uncertainty visualization using copula-based analysis in mixed distribution models[J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 24(1): 934−943
[34] Hazarika S, Dutta S, Shen Hanwei, et al. Codda: A flexible copula-based distribution driven analysis framework for large-scale multivariate data[J]. IEEE Transactions on Visualization and Computer Graphics, 2018, 25(1): 1214−1224
[35] Wang Chaoli, Sgen H. Information theory in scientific visualization[J]. Entropy, 2011, 13(1): 254−273 doi: 10.3390/e13010254
[36] Bilmes J. A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden Markov models[J]. International Computer Science Institute, 1998, 4(510): Article No.126
[37] Wang Zhou, Bovik A, Sheikh H, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600−612 doi: 10.1109/TIP.2003.819861
-
期刊类型引用(0)
其他类型引用(1)