计算机研究与发展 ›› 2021, Vol. 58 ›› Issue (2): 338-355.doi: 10.7544/issn1000-1239.2021.20200388
所属专题: 2021大数据时代的存储系统与智能存储技术专题
刘渝1,郭婵1,冯树耀1,周可1,肖志立2
出版日期:
2021-02-01
基金资助:
Liu Yu1, Guo Chan1, Feng Shuyao1, Zhou Ke1, Xiao Zhili2
Online:
2021-02-01
Supported by:
摘要: 随着多媒体数据的爆发式增长,云端数据呈现出大规模多模态混合并存的特性.服务于数据分析的传统存储系统因为缺乏数据的语义管理而面临读取延时超长的挑战.针对图像和文本2种模态数据,在传统存储系统之上提出一种跨模态图文数据内容筛选存储机制(cross-modal image and text content sifting storage, CITCSS),用于提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析时必须从存储中读出所有数据的读带宽压力.机制分为离线与在线2个阶段.离线阶段中,引入基于自监督的生成对抗式Hash方法,系统利用这种方法生成语义元数据.然后,将元数据注入独立的元数据空间.最后,根据相似性Hash码间汉明距离能够度量语义距离的特点,利用Neo4j图数据库构建Hash元数据图谱,并在语义图谱中建立Hash码与存储路径之间的映射.在线阶段中,用户发送与分析相关的图像或文本,存储系统首先转化数据为Hash码.然后,在筛选半径内通过Hash元数据图谱寻找相似节点,进而找到相似文件的底层存储路径返回筛选数据.实验结果表明,与传统语义存储系统相比,CITCSS在召回率超过98%的性能下,读取延迟相对降低了99.07%~99.77%.
中图分类号:
刘渝, 郭婵, 冯树耀, 周可, 肖志立. 基于语义相似性的跨模态图文内容筛选存储机制研究[J]. 计算机研究与发展, 2021, 58(2): 338-355.
Liu Yu, Guo Chan, Feng Shuyao, Zhou Ke, Xiao Zhili. Content Sifting Storage Mechanism for Cross-Modal Image and Text Data Based on Semantic Similarity[J]. Journal of Computer Research and Development, 2021, 58(2): 338-355.
[1] | 韩牟, 杨晨, 华蕾, 刘帅, 马世典. 面向移动边缘计算车联网中车辆假名管理方案[J]. 计算机研究与发展, 2022, 59(4): 781-795. |
[2] | 张力, 张书奎, 刘海, 张洋, 陶冶, 龙浩, 于淳清, 祝启鼎. 基于用户关注度以及时间监督的任务分发[J]. 计算机研究与发展, 2022, 59(4): 813-825. |
[3] | 周钧锴, 王念, 崔莉. EasiLTOM:一种基于局部动态阈值的信号活动区间识别方法[J]. 计算机研究与发展, 2022, 59(4): 826-833. |
[4] | 侯鑫, 曲国远, 魏大洲, 张佳程. 基于迭代稀疏训练的轻量化无人机目标检测算法[J]. 计算机研究与发展, 2022, 59(4): 882-893. |
[5] | 杜国王, 周丽华, 王丽珍, 杜经纬. 基于两级权重的多视角聚类[J]. 计算机研究与发展, 2022, 59(4): 907-921. |
[6] | 张强, 杨吉斌, 张雄伟, 曹铁勇, 郑昌艳. CS-Softmax:一种基于余弦相似性的Softmax损失函数[J]. 计算机研究与发展, 2022, 59(4): 936-949. |
[7] | 丁文隆, 汪承宁, 童薇. 基于自选尾数压缩的高能效浮点忆阻存内处理系统[J]. 计算机研究与发展, 2022, 59(3): 533-552. |
[8] | 蔡长兴, 杜亚娟, 周泰宇. 耐久性感知的持久性内存异地更新[J]. 计算机研究与发展, 2022, 59(3): 553-567. |
[9] | 孙辉, 娄本冬, 黄建忠, 赵雨虹, 符松. 近数据计算下键值存储中Compaction并行优化方法[J]. 计算机研究与发展, 2022, 59(3): 597-616. |
[10] | 蔡桓, 陆克中, 伍启荣, 吴定明. 面向概念漂移数据流的自适应分类算法[J]. 计算机研究与发展, 2022, 59(3): 633-646. |
[11] | 蔡德润, 李红燕. 基于度量学习的无监督域适应方法及其在死亡风险预测上的应用[J]. 计算机研究与发展, 2022, 59(3): 674-682. |
[12] | 孔乐毅, 张金艺, 楼亮亮. 有限样本条件下欠规范手语识别容错特征扩充[J]. 计算机研究与发展, 2022, 59(3): 683-693. |
[13] | 柳欣, 王锐, 钟必能, 王楠楠. 结合双流网络和双向五元组损失的跨人脸-语音匹配[J]. 计算机研究与发展, 2022, 59(3): 694-705. |
[14] | 宋轩, 高云君, 李勇, 关庆锋, 孟小峰. 空间数据智能:概念、技术与挑战[J]. 计算机研究与发展, 2022, 59(2): 255-263. |
[15] | 倪庆剑, 彭文强, 张志政, 翟玉庆. 基于信息增强传输的时空图神经网络交通流预测[J]. 计算机研究与发展, 2022, 59(2): 282-293. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||