• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

一种面向大规模序列数据的交互特征并行挖掘算法

赵宇海, 印莹, 李源, 汪嗣尧, 王国仁

赵宇海, 印莹, 李源, 汪嗣尧, 王国仁. 一种面向大规模序列数据的交互特征并行挖掘算法[J]. 计算机研究与发展, 2019, 56(5): 992-1006. DOI: 10.7544/issn1000-1239.2019.20180276
引用本文: 赵宇海, 印莹, 李源, 汪嗣尧, 王国仁. 一种面向大规模序列数据的交互特征并行挖掘算法[J]. 计算机研究与发展, 2019, 56(5): 992-1006. DOI: 10.7544/issn1000-1239.2019.20180276
Zhao Yuhai, Yin Ying, Li Yuan, Wang Siyao, Wang Guoren. A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences[J]. Journal of Computer Research and Development, 2019, 56(5): 992-1006. DOI: 10.7544/issn1000-1239.2019.20180276
Citation: Zhao Yuhai, Yin Ying, Li Yuan, Wang Siyao, Wang Guoren. A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences[J]. Journal of Computer Research and Development, 2019, 56(5): 992-1006. DOI: 10.7544/issn1000-1239.2019.20180276
赵宇海, 印莹, 李源, 汪嗣尧, 王国仁. 一种面向大规模序列数据的交互特征并行挖掘算法[J]. 计算机研究与发展, 2019, 56(5): 992-1006. CSTR: 32373.14.issn1000-1239.2019.20180276
引用本文: 赵宇海, 印莹, 李源, 汪嗣尧, 王国仁. 一种面向大规模序列数据的交互特征并行挖掘算法[J]. 计算机研究与发展, 2019, 56(5): 992-1006. CSTR: 32373.14.issn1000-1239.2019.20180276
Zhao Yuhai, Yin Ying, Li Yuan, Wang Siyao, Wang Guoren. A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences[J]. Journal of Computer Research and Development, 2019, 56(5): 992-1006. CSTR: 32373.14.issn1000-1239.2019.20180276
Citation: Zhao Yuhai, Yin Ying, Li Yuan, Wang Siyao, Wang Guoren. A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences[J]. Journal of Computer Research and Development, 2019, 56(5): 992-1006. CSTR: 32373.14.issn1000-1239.2019.20180276

一种面向大规模序列数据的交互特征并行挖掘算法

基金项目: 国家重点研发计划项目(2018YFB1004402);国家自然科学基金面上项目(61772124)
详细信息
  • 中图分类号: TP310

A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences

  • 摘要: 序列是一种重要的数据类型,在诸多应用领域广泛存在.基于序列的特征选择具有广阔的现实应用场景.交互特征是指一组整体具有显著强于单独个体与目标相关性的特征集合.从大规模序列中挖掘交互特征面临着位点的“组合爆炸”问题,计算挑战性极大.针对该问题,以生物领域高通量测序数据为背景,提出了一种新的基于并行处理和演化计算的高阶交互特征挖掘算法.位点数是制约交互作用挖掘效率的根本因素.摈弃了现有方法基于序列分块的并行策略,采用基于位点分块的并行思想,具有天然的效率优势.进一步,提出了极大等位公共子序列(maximal allelic common subsequence, MACS)的概念并设计了基于MACS的特征区域划分策略.该策略能将交互特征的查找范围缩小至许多“碎片”空间,并保证不同“碎片”间不存在交互特征,避免计算耦合引起的高额通信代价.利用基于置换搜索的并行蚁群算法,执行交互特征选择.大量真实数据集和合成数据集上的实验结果,证实提出的PACOIFS算法在有效性和效率上优于同类其他算法.
    Abstract: Sequence is an important type of data which is widely existing in various domains, and thus feature selection from sequence data is of practical significance in extensive applications. Interactive features refer to a set of features, each of which is weakly correlated with the target, but the whole of which is strongly correlated with the target. It is of great challenge to mine interactive features from large scale sequence data for the combinatorial explosion problem of loci. To address the problem, against the background of high-throughput sequencing in biology, a parallel evolutionary algorithm for high-order interactive features mining is proposed in this paper. Instead of sequence-block based parallel strategy, the work is inspired by loci-based idea since the number of loci is the fundamental factor that restricts the efficiency. Further, we propose the conception of maximal allelic common subsequence (MACS) and MACS based strategy for feature region partition. According to the strategy, the search range of interactive features is narrowed to many fragged spaces and interactions are guaranteed not to exist among different fragments. Finally, a parallel ant algorithm based on substitution search is developed to conduct interactive feature selection. Extensive experiments on real and synthetic datasets show that the efficiency and effectiveness of the proposed PACOIFS algorithm is superior to that of competitive algorithms.
  • 期刊类型引用(30)

    1. 周乐. 政府数据开放共享平台建构中的边缘计算风险及其多元规制. 交大法学. 2025(02): 78-89 . 百度学术
    2. 董新宇,段永彪. 数字治理视域下隐私保护的实现机制与优化路径. 信息技术与管理应用. 2024(02): 9-19 . 百度学术
    3. 李迎娟,王紫琼,邰杨芳. 大数据环境下病案信息协同管理模型构建. 信息技术. 2024(08): 86-92+99 . 百度学术
    4. 施鑫垚,王静宇,刘立新. 物联网环境下分布式的隐私保护数据聚合方案. 小型微型计算机系统. 2024(08): 2026-2033 . 百度学术
    5. 杨志勇,严璐. 大数据下移动边缘网络的资源管理与隐私保护. 中国宽带. 2024(10): 151-153 . 百度学术
    6. 王勇,熊毅,杨天宇,沈益冉. 一种面向耳戴式设备的用户安全连续认证方法. 计算机研究与发展. 2024(11): 2821-2834 . 本站查看
    7. 李森森,刘燕江,郁滨,李俊全. 边缘计算环境下基于PUF的多接收者匿名签密方案. 电子学报. 2024(12): 4087-4100 . 百度学术
    8. 陈珍珠,周纯毅,苏铓,高艳松,付安民. 面向机器学习的安全外包计算研究进展. 计算机研究与发展. 2023(07): 1450-1466 . 本站查看
    9. 杜瑞忠,纪丽娟,王子园. 物联网环境下基于云边协同的数据审计方案. 计算机应用研究. 2023(12): 3789-3794 . 百度学术
    10. 张鹏,孙崇高,段福凯. 边缘算法的隐私保护在配网故障诊断系统的应用研究. 电子元器件与信息技术. 2023(12): 194-197 . 百度学术
    11. 王晨,郑文英,王惟正,谭皓文. 边缘计算数据安全保护研究综述. 网络空间安全科学学报. 2023(02): 35-45 . 百度学术
    12. 骆滨. 云计算环境下地铁新型AFC系统研究. 现代城市轨道交通. 2022(01): 103-108 . 百度学术
    13. 莫慧凌,郑海峰,高敏,冯心欣. 基于联邦学习的多源异构数据融合算法. 计算机研究与发展. 2022(02): 478-487 . 本站查看
    14. 韩牟,杨晨,华蕾,刘帅,马世典. 面向移动边缘计算车联网中车辆假名管理方案. 计算机研究与发展. 2022(04): 781-795 . 本站查看
    15. 李晓伟,陈本辉,杨邓奇,伍高飞. 边缘计算环境下安全协议综述. 计算机研究与发展. 2022(04): 765-780 . 本站查看
    16. 王继锋,王国峰. 边缘计算模式下密文搜索与共享技术研究. 通信学报. 2022(04): 227-238 . 百度学术
    17. 李昌群,陈国龙. 移动边缘计算中一种有效的计算资源分配和偏分任务卸载算法. 宿州学院学报. 2022(06): 16-20+30 . 百度学术
    18. 陈晓杰,李斌,周清雷. RTL级可扩展高性能数据压缩方法实现. 电子学报. 2022(07): 1548-1557 . 百度学术
    19. 王海涛,邱悦. 云边端融合网络系统的安全性分析. 保密科学技术. 2022(03): 41-45 . 百度学术
    20. 曹依然,朱友文,贺星宇,张跃. 效用优化的本地差分隐私集合数据频率估计机制. 计算机研究与发展. 2022(10): 2261-2274 . 本站查看
    21. 应臣浩,夏福源,李颉,斯雪明,骆源. 区块链群智感知中基于隐私数据真值估计的激励机制. 计算机研究与发展. 2022(10): 2212-2232 . 本站查看
    22. 葛斌,吴彩,张天浩,沐李亭,夏晨星. 基于联邦学习的边缘计算隐私保护方法. 安徽理工大学学报(自然科学版). 2022(06): 79-86 . 百度学术
    23. 刘峰,杨杰,李志斌,齐佳音. 一种基于区块链的泛用型数据隐私保护的安全多方计算协议. 计算机研究与发展. 2021(02): 281-290 . 本站查看
    24. 孙丽楠,朱红绿,孙慧. 面向工业的5G组网方案研究. 电子技术应用. 2021(05): 5-10 . 百度学术
    25. 冯幸,钟其铿. 边缘算法的隐私保护应用研究. 中国新通信. 2021(14): 109-110 . 百度学术
    26. 刘伟,张涛. 移动边缘计算中基于视频内容协作分发的联合激励机制. 计算机应用研究. 2021(09): 2803-2810 . 百度学术
    27. 方晨,郭渊博,王一丰,胡永进,马佳利,张晗,胡阳阳. 基于区块链和联邦学习的边缘计算隐私保护方法. 通信学报. 2021(11): 28-40 . 百度学术
    28. 蒋凯元. 多方安全计算研究综述. 信息安全研究. 2021(12): 1161-1165 . 百度学术
    29. 李桐,周小明,任帅,徐剑. 轻量化移动边缘计算双向认证协议. 信息网络安全. 2021(11): 58-64 . 百度学术
    30. 周勇,翁锟源,程航,严娜招,黄芹健. 面向隐私保护的相似PDF文件外包自动合并方法. 福州大学学报(自然科学版). 2021(06): 732-738 . 百度学术

    其他类型引用(41)

计量
  • 文章访问数:  1208
  • HTML全文浏览量:  0
  • PDF下载量:  429
  • 被引次数: 71
出版历程
  • 发布日期:  2019-04-30

目录

    /

    返回文章
    返回