• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

一种面向大规模序列数据的交互特征并行挖掘算法

赵宇海, 印莹, 李源, 汪嗣尧, 王国仁

赵宇海, 印莹, 李源, 汪嗣尧, 王国仁. 一种面向大规模序列数据的交互特征并行挖掘算法[J]. 计算机研究与发展, 2019, 56(5): 992-1006. DOI: 10.7544/issn1000-1239.2019.20180276
引用本文: 赵宇海, 印莹, 李源, 汪嗣尧, 王国仁. 一种面向大规模序列数据的交互特征并行挖掘算法[J]. 计算机研究与发展, 2019, 56(5): 992-1006. DOI: 10.7544/issn1000-1239.2019.20180276
Zhao Yuhai, Yin Ying, Li Yuan, Wang Siyao, Wang Guoren. A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences[J]. Journal of Computer Research and Development, 2019, 56(5): 992-1006. DOI: 10.7544/issn1000-1239.2019.20180276
Citation: Zhao Yuhai, Yin Ying, Li Yuan, Wang Siyao, Wang Guoren. A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences[J]. Journal of Computer Research and Development, 2019, 56(5): 992-1006. DOI: 10.7544/issn1000-1239.2019.20180276
赵宇海, 印莹, 李源, 汪嗣尧, 王国仁. 一种面向大规模序列数据的交互特征并行挖掘算法[J]. 计算机研究与发展, 2019, 56(5): 992-1006. CSTR: 32373.14.issn1000-1239.2019.20180276
引用本文: 赵宇海, 印莹, 李源, 汪嗣尧, 王国仁. 一种面向大规模序列数据的交互特征并行挖掘算法[J]. 计算机研究与发展, 2019, 56(5): 992-1006. CSTR: 32373.14.issn1000-1239.2019.20180276
Zhao Yuhai, Yin Ying, Li Yuan, Wang Siyao, Wang Guoren. A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences[J]. Journal of Computer Research and Development, 2019, 56(5): 992-1006. CSTR: 32373.14.issn1000-1239.2019.20180276
Citation: Zhao Yuhai, Yin Ying, Li Yuan, Wang Siyao, Wang Guoren. A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences[J]. Journal of Computer Research and Development, 2019, 56(5): 992-1006. CSTR: 32373.14.issn1000-1239.2019.20180276

一种面向大规模序列数据的交互特征并行挖掘算法

基金项目: 国家重点研发计划项目(2018YFB1004402);国家自然科学基金面上项目(61772124)
详细信息
  • 中图分类号: TP310

A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences

  • 摘要: 序列是一种重要的数据类型,在诸多应用领域广泛存在.基于序列的特征选择具有广阔的现实应用场景.交互特征是指一组整体具有显著强于单独个体与目标相关性的特征集合.从大规模序列中挖掘交互特征面临着位点的“组合爆炸”问题,计算挑战性极大.针对该问题,以生物领域高通量测序数据为背景,提出了一种新的基于并行处理和演化计算的高阶交互特征挖掘算法.位点数是制约交互作用挖掘效率的根本因素.摈弃了现有方法基于序列分块的并行策略,采用基于位点分块的并行思想,具有天然的效率优势.进一步,提出了极大等位公共子序列(maximal allelic common subsequence, MACS)的概念并设计了基于MACS的特征区域划分策略.该策略能将交互特征的查找范围缩小至许多“碎片”空间,并保证不同“碎片”间不存在交互特征,避免计算耦合引起的高额通信代价.利用基于置换搜索的并行蚁群算法,执行交互特征选择.大量真实数据集和合成数据集上的实验结果,证实提出的PACOIFS算法在有效性和效率上优于同类其他算法.
    Abstract: Sequence is an important type of data which is widely existing in various domains, and thus feature selection from sequence data is of practical significance in extensive applications. Interactive features refer to a set of features, each of which is weakly correlated with the target, but the whole of which is strongly correlated with the target. It is of great challenge to mine interactive features from large scale sequence data for the combinatorial explosion problem of loci. To address the problem, against the background of high-throughput sequencing in biology, a parallel evolutionary algorithm for high-order interactive features mining is proposed in this paper. Instead of sequence-block based parallel strategy, the work is inspired by loci-based idea since the number of loci is the fundamental factor that restricts the efficiency. Further, we propose the conception of maximal allelic common subsequence (MACS) and MACS based strategy for feature region partition. According to the strategy, the search range of interactive features is narrowed to many fragged spaces and interactions are guaranteed not to exist among different fragments. Finally, a parallel ant algorithm based on substitution search is developed to conduct interactive feature selection. Extensive experiments on real and synthetic datasets show that the efficiency and effectiveness of the proposed PACOIFS algorithm is superior to that of competitive algorithms.
  • 期刊类型引用(19)

    1. 包晓丽. 可信数据空间:技术与制度二元共治. 浙江学刊. 2024(01): 89-100+239-240 . 百度学术
    2. 林宁,张亮. 基于联邦学习的个性化推荐系统研究. 科技创新与生产力. 2024(04): 27-30 . 百度学术
    3. 李璇,邓天鹏,熊金波,金彪,林劼. 基于模型后门的联邦学习水印. 软件学报. 2024(07): 3454-3468 . 百度学术
    4. 洪榛,冯王磊,温震宇,吴迪,李涛涛,伍一鸣,王聪,纪守领. 基于梯度回溯的联邦学习搭便车攻击检测. 计算机研究与发展. 2024(09): 2185-2198 . 本站查看
    5. 陈卡. 基于模型分割的联邦学习数据隐私保护方法. 电信科学. 2024(09): 136-145 . 百度学术
    6. 余晟兴,陈钟. 基于同态加密的高效安全联邦学习聚合框架. 通信学报. 2023(01): 14-28 . 百度学术
    7. 林莉,张笑盈,沈薇,王万祥. FastProtector:一种支持梯度隐私保护的高效联邦学习方法. 电子与信息学报. 2023(04): 1356-1365 . 百度学术
    8. 顾育豪,白跃彬. 联邦学习模型安全与隐私研究进展. 软件学报. 2023(06): 2833-2864 . 百度学术
    9. 郭松岳,王阳谦,柏思远,刘永恒,周骏,王梦鸽,廖清. 面向数据混合分布的联邦自适应交互模型. 计算机研究与发展. 2023(06): 1346-1357 . 本站查看
    10. 陈宛桢,张恩,秦磊勇,洪双喜. 边缘计算下基于区块链的隐私保护联邦学习算法. 计算机应用. 2023(07): 2209-2216 . 百度学术
    11. 高莹,陈晓峰,张一余,王玮,邓煌昊,段培,陈培炫. 联邦学习系统攻击与防御技术研究综述. 计算机学报. 2023(09): 1781-1805 . 百度学术
    12. 张连福,谭作文. 一种面向多模态医疗数据的联邦学习隐私保护方法. 计算机科学. 2023(S2): 933-940 . 百度学术
    13. 周赞,张笑燕,杨树杰,李鸿婧,况晓辉,叶何亮,许长桥. 面向联邦算力网络的隐私计算自适激励机制. 计算机学报. 2023(12): 2705-2725 . 百度学术
    14. 莫慧凌,郑海峰,高敏,冯心欣. 基于联邦学习的多源异构数据融合算法. 计算机研究与发展. 2022(02): 478-487 . 本站查看
    15. 陈前昕,毕仁万,林劼,金彪,熊金波. 支持多数不规则用户的隐私保护联邦学习框架. 网络与信息安全学报. 2022(01): 139-150 . 百度学术
    16. 侯坤池,王楠,张可佳,宋蕾,袁琪,苗凤娟. 基于自编码神经网络的半监督联邦学习模型. 计算机应用研究. 2022(04): 1071-1074+1104 . 百度学术
    17. 詹玉峰,王家盛,夏元清. 面向联邦学习的数据交易机制. 指挥与控制学报. 2022(02): 122-132 . 百度学术
    18. 肖林声,钱慎一. 基于并行同态加密和STC的高效安全联邦学习. 通信技术. 2021(04): 922-928 . 百度学术
    19. 刘飚,张方佼,王文鑫,谢康,张健毅. 基于矩阵映射的拜占庭鲁棒联邦学习算法. 计算机研究与发展. 2021(11): 2416-2429 . 本站查看

    其他类型引用(45)

计量
  • 文章访问数:  1208
  • HTML全文浏览量:  0
  • PDF下载量:  429
  • 被引次数: 64
出版历程
  • 发布日期:  2019-04-30

目录

    /

    返回文章
    返回