Protein Function Prediction Based on Multiple Networks Collaborative Matrix Factorization
-
摘要: 准确预测蛋白质功能是生物信息学的核心任务之一,也是人工智能在生物数据分析中的重要应用点之一.高通量技术的广泛应用产生了大量的生物分子功能关联网络,整合这些网络可更为全面地分析理解蛋白质功能机理,提升蛋白质功能预测精度.已有多种基于数据整合的蛋白质功能预测方法,但它们通常难以应用到较大功能标签空间,未利用标签间关联性和差异性整合多个网络.提出一种基于多网络数据协同矩阵分解的蛋白质功能预测方法(ProCMF).该方法首先利用非负矩阵分解将蛋白质-功能标签关联矩阵分解为2个低秩矩阵,挖掘蛋白质与标签之间的潜在关联.其次,为利用标签间关联关系和多种蛋白质特征数据,ProCMF分别基于上述2个低秩矩阵定义平滑正则性,约束指导低秩矩阵的协同分解.为了差异性地集成多个网络,ProCMF对不同的网络设置不同的权重.最后ProCMF将上述目标统一到一个目标方程中,并用一种交替迭代的方法分别优化求解低秩矩阵和网络权重.在酵母菌、人类和老鼠3个模式物种的多网络数据集上的实验结果表明:ProCMF获得了较其他相关算法更好的预测性能,ProCMF能有效地处理大量的功能标签和区分性地整合多个网络.Abstract: Accurately and automatically predicting biological functions of proteins is one of the fundamental tasks in bioinformatics, and it is also one of the key applications of artificial intelligence in biological data analysis. The wide application of high throughput technologies produces various functional association networks of molecules. Integrating these networks contributes to more comprehensive view for understanding the functional mechanism of proteins and to improve the performance of protein function prediction. However, existing network integration based solutions cannot apply to a large number of functional labels, ignore the correlation between labels, or cannot differentially integrate multiple networks. This paper proposes a protein function prediction approach based on multiple networks collaborative matrix factorization (ProCMF). To explore the latent relationship between proteins and between labels, ProCMF firstly applies nonnegative matrix factorization to factorize the protein-label association matrix into two low-rank matrices. To employ the correlation between labels and to guide the collaborative factorization with proteomic data, it defines two smoothness terms on these two low-rank matrices. To differentially integrate these networks, ProCMF sets different weights to them. In the end, ProCMF combines these goals into a unified objective function and introduces an alternative optimization technique to jointly optimize the low-rank matrices and weights. Experimental results on three model species (yeast, human and mouse) with multiple functional networks show that ProCMF outperforms other related competitive methods. ProCMF can effectively and efficiently handle massive labels and differentially integrate multiple networks.
-
-
期刊类型引用(16)
1. 董艳燕. 基于混合密码技术的一种大数据加密技术研究. 湖北师范大学学报(自然科学版). 2024(02): 52-55 . 百度学术 2. 刘小都,赵慧奇. 基于混合密码体制的大数据隐匿性特征安全提取技术. 南京信息工程大学学报(自然科学版). 2023(03): 286-292 . 百度学术 3. 李博. 基于元模型控制的智能电网大数据安全监测技术研究. 电气自动化. 2023(04): 112-114+118 . 百度学术 4. 王腾腾,柴志雷. SM4国密算法的异构可重构计算系统研究. 计算机应用研究. 2023(09): 2826-2831 . 百度学术 5. 吴艾青,李伟,别梦妮,南龙梅,陈韬. 分簇式VLIW密码专用处理器的编译器后端优化研究. 小型微型计算机系统. 2023(10): 2346-2352 . 百度学术 6. 李高磊,李建华,周志洪,张昊. 面向新型关键基础设施的密码应用安全性评估技术综述. 网络与信息安全学报. 2023(06): 1-19 . 百度学术 7. 史运涛 ,董广亮 ,雷振伍 . 工业互联网云网关架构及实现. 计算机应用与软件. 2022(02): 138-143+227 . 百度学术 8. 李斌,周清雷,陈晓杰,冯峰. 可重构的素域SM2算法优化方法. 通信学报. 2022(03): 30-41 . 百度学术 9. 翟嘉琪,李斌,周清雷,陈晓杰. 基于FPGA的高性能可扩展SM4-GCM算法实现. 计算机科学. 2022(10): 74-82 . 百度学术 10. 刘育平,杨尔欣,高攀,于光宗,顾冰凌,田琳. 基于大数据技术的智慧后勤信息动态加密方法. 信息安全研究. 2022(11): 1104-1110 . 百度学术 11. 任伟峰. 内网敏感大数据共享交换安全性监控平台设计. 信息技术. 2022(10): 118-123 . 百度学术 12. 李萍,朱春琴,曹磊,孙毅,魏房忠. 基于高性能密码实现的大数据安全研究. 无线互联科技. 2021(01): 104-107 . 百度学术 13. 容爱琼,周超,陈东青. 野外环境数据加密传输及远程监测系统设计. 单片机与嵌入式系统应用. 2021(02): 86-89 . 百度学术 14. 李庆,刘涵阅,张春生. 基于折叠技术的大数据样本洗牌算法研究. 计算机技术与发展. 2021(05): 43-47 . 百度学术 15. 卫婧. 铁路商用密码应用及安全技术体系研究. 铁路计算机应用. 2020(08): 43-47 . 百度学术 16. 李杰,李雷孝,孔冬冬. 一种基于中文助记词的椭圆曲线密钥生成方案. 内蒙古工业大学学报(自然科学版). 2020(02): 128-135 . 百度学术 其他类型引用(1)
计量
- 文章访问数:
- HTML全文浏览量: 0
- PDF下载量:
- 被引次数: 17