Processing math: 58%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

面向机器学习的安全外包计算研究进展

陈珍珠, 周纯毅, 苏铓, 高艳松, 付安民

陈珍珠, 周纯毅, 苏铓, 高艳松, 付安民. 面向机器学习的安全外包计算研究进展[J]. 计算机研究与发展, 2023, 60(7): 1450-1466. DOI: 10.7544/issn1000-1239.202220767
引用本文: 陈珍珠, 周纯毅, 苏铓, 高艳松, 付安民. 面向机器学习的安全外包计算研究进展[J]. 计算机研究与发展, 2023, 60(7): 1450-1466. DOI: 10.7544/issn1000-1239.202220767
Chen Zhenzhu, Zhou Chunyi, Su Mang, Gao Yansong, Fu Anmin. Research Progress of Secure Outsourced Computing for Machine Learning[J]. Journal of Computer Research and Development, 2023, 60(7): 1450-1466. DOI: 10.7544/issn1000-1239.202220767
Citation: Chen Zhenzhu, Zhou Chunyi, Su Mang, Gao Yansong, Fu Anmin. Research Progress of Secure Outsourced Computing for Machine Learning[J]. Journal of Computer Research and Development, 2023, 60(7): 1450-1466. DOI: 10.7544/issn1000-1239.202220767
陈珍珠, 周纯毅, 苏铓, 高艳松, 付安民. 面向机器学习的安全外包计算研究进展[J]. 计算机研究与发展, 2023, 60(7): 1450-1466. CSTR: 32373.14.issn1000-1239.202220767
引用本文: 陈珍珠, 周纯毅, 苏铓, 高艳松, 付安民. 面向机器学习的安全外包计算研究进展[J]. 计算机研究与发展, 2023, 60(7): 1450-1466. CSTR: 32373.14.issn1000-1239.202220767
Chen Zhenzhu, Zhou Chunyi, Su Mang, Gao Yansong, Fu Anmin. Research Progress of Secure Outsourced Computing for Machine Learning[J]. Journal of Computer Research and Development, 2023, 60(7): 1450-1466. CSTR: 32373.14.issn1000-1239.202220767
Citation: Chen Zhenzhu, Zhou Chunyi, Su Mang, Gao Yansong, Fu Anmin. Research Progress of Secure Outsourced Computing for Machine Learning[J]. Journal of Computer Research and Development, 2023, 60(7): 1450-1466. CSTR: 32373.14.issn1000-1239.202220767

面向机器学习的安全外包计算研究进展

基金项目: 国家自然科学基金项目(62072239,62002167);江苏省自然科学基金项目(BK20211192,BK20200461);广西可信软件重点实验室研究课题(KX202029)
详细信息
    作者简介:

    陈珍珠: 1993年生. 博士研究生. 主要研究方向为云计算安全与机器学习安全

    周纯毅: 1995年生. 博士研究生. 主要研究方向为机器学习安全与隐私保护

    苏铓: 1987年生. 博士,副教授. 主要研究方向为安全访问控制与权限管理

    高艳松: 1986年生. 博士,副教授. 主要研究方向为硬件安全、人工智能安全和隐私、系统安全

    付安民: 1981年生. 博士,教授,博士生导师. CCF高级会员. 主要研究方向为密码学以及隐私保护

    通讯作者:

    付安民(fuam@njust.edu.cn

  • 中图分类号: TP391

Research Progress of Secure Outsourced Computing for Machine Learning

Funds: This work was supported by the National Natural Science Foundation of China(62072239, 62002167),the Natural Science Foundation of Jiangsu Province(BK20211192, BK20200461),and the Project of Guangxi Key Laboratory of Trusted Software(KX202029).
More Information
    Author Bio:

    Chen Zhenzhu: born in 1993. PhD candidate. Her main research interest includes cloud computing security and machine learning security

    Zhou Chunyi: born in 1995. PhD candidate. His main research interest includes machine learning security and privacy preserving

    Su Mang: born in 1987. PhD, associate professor. Her main research interests include secure access control and right management

    Gao Yansong: born in 1986. PhD, associate professor. His current research interests include hardware security, AI security and privacy, and system security

    Fu Anmin: born in 1981. PhD, professor, PhD supervisor. Senior member of CCF. His main research interests include cryptography and privacy preserving

  • 摘要:

    依靠机器学习,传统产业的数字化转型带来了海量数据增长,而产品服务的智能化提升则刺激了算力需求. 云计算的灵活资源调配可以为资源有限的企业和用户提供便宜便捷的外包计算服务,实现机器学习的模型训练和模型托管,加快产品和服务的智能化建设,促进数字经济增长. 然而,数据和模型外包伴随控制权转移,可能带来数据泄露风险和计算安全问题. 近年来,机器学习的外包安全问题受到越来越多研究者的关注,并取得了一些显著成果. 通过对2018—2022年这5年国内外机器学习安全外包研究工作调研,首先对现有主流的外包模型进行分类和特征归纳,依据任务阶段将外包模型划分为模型训练和模型托管模式,以及依据云服务商数量将外包模式划分为单云模式和多云模式. 其次重点从逻辑回归、朴素贝叶斯分类、支持向量机、决策树和神经网络等典型机器学习算法角度对机器学习安全外包计算相关研究进展进行了深入阐述和分析. 最后从不同角度分析和讨论了目前机器学习安全外包研究存在的不足,并展望未来面临的挑战和机遇.

    Abstract:

    Based on machine learning, the digital transformation of traditional industries brings a massive data growth, while the intelligent enhancement of products services raises the demand for computing power. Cloud computing, relying on flexible resource deployment, can provide inexpensive and convenient outsourced computing services for users with limited resources, enabling them to complete model training and model hosting for machine learning. It also contributes to the intelligent improvement of products and services and promotes the growth of the digital economy. However, data and model outsourcing come with a transfer of control, which may pose data leakage risk and computational security issues. In recent years, the security issues of machine learning outsourcing have received increasing public attentions and academic concerns. In this paper, we systematically reviewed the research work on machine learning security outsourcing in the year of 2018−2022 the past five years. We first present different outsourced modes, including model training and model hosting modes classified by the task phase, single-cloud and multi-cloud modes classified by the number of cloud service providers. Then we summarize the characteristics of outsourced models under different modes. Next, we focus on the research progress related to machine learning secure outsourced computing from the perspective of typical machine learning algorithms such as logistic regression, Bayesian classification, support vector machine, decision tree and neural network, and provide an in-depth description and analysis. Finally, we analyze and discuss the limitations from different perspectives, as well as potential challenges and opportunities.

  • 域名系统(domain name system, DNS)是互联网最重要的基础服务之一,它提供人类可读的域名和其相关的DNS记录之间的映射. 域名由“. ”分隔的字符构成,子域名以父域名结尾,完整的域名被称为完全限定域名(fully qualified domain name, FQDN),其中忽略掉最后的点号时最右边的一组字符被称为顶级域名(top-level domain, TLD),例如com,net,org,cn等,顶级域向下数一级的子域称为二级域(second-level domain, SLD). 顶级域名中不代表一个国家或地区的顶级域名被称为通用顶级域名(generic top-level domain, gTLD). 为了扩展域名系统、增加域名注册者的选择,互联网名称与数字地址分配机构(Internet Corporation for Assigned Names and Numbers, ICANN)推出了新通用顶级域名(new generic top-level domain, new gTLD)计划,自2013年10月的首批授权以来,new gTLD计划已经使上千个新顶级域名,包括使用ASCII字符和不同字母系统的域名加入了互联网的根区(root zone).

    new gTLD为内容发布者(域名注册者)带来了灵活性,使内容发布者能够为其网站创建易于记忆的定制名称. new gTLD还为DNS生态中的利益相关者,如注册机构和注册商提供了新的机会. 近年来,注册new gTLD域名逐渐成了一种潮流,这些new gTLD域名 1日渐增加的使用给互联网带来了新的变化. 已有研究指出,尽管与传统顶级域名相比,new gTLD域名解析量依然存在较大差距,但new gTLD呈现逐年增长的活跃趋势,且大部分注册的域名被投入了实际使用[1]. 但同时域名滥用[2]随之出现,new gTLD域名用于开展恶意行为的情况也越来越多,new gTLD域名成为各种恶意行为的“热土”. 因此,研究new gTLD域名的解析行为将提供有关其使用情况的态势,并进一步促进new gTLD的推广、相关基础设施的加强. 然而,已有研究都集中在注册人的行为[3]或其他安全问题,例如中间人攻击[1,4-6],缺少对于new gTLD域名尤其是恶意域名的解析行为分析;此外由于new gTLD域名的特殊性,已有恶意域名检测方法可能不适用于new gTLD恶意域名的检测. 因此,需要分析new gTLD域名的解析行为,寻找new gTLD恶意域名的重要行为特征,并据此设计new gTLD恶意域名检测方法.

    本文使用包含对815个new gTLD的930万次查询的被动DNS日志,对new gTLD的解析行为进行了深入分析. 同时,在相同测量期内收集了包含所有类型域名的30亿次DNS查询,以便进行比较. 本文首先通过考察查询量、SLD数量和查询失败率来分析new gTLD的活跃状况. 然后从内容复制和基础设施共享等角度探讨了new gTLD域名的承载基础设施. 最后分析了恶意new gTLD域名的行为,发现按承载域名量排序的前5个IP/24网段所承载的域名之中有73.6%是恶意的. 根据上述分析设计了new gTLD恶意域名检测方法.

    本文的主要贡献包括4个方面:

    1)发现每个new gTLD的查询量和对应SLD数量符合重尾分布. 例如,按DNS查询量排名前3的new gTLD合计贡献了48.7%的查询量.

    2)大多数new gTLD域名只将它们的内容复制到1或2个IP/24网段,这些IP/24网段被域名共享,因为有89.1%的域名与其他域名使用相同的IP/24网段,并且new gTLD域名倾向使用云作为内容承载基础设施,导致内容承载基础设施的集中性,即少量的IP/24网段专门承载了大部分域名.

    3)与正常域名相比,恶意域名有独特的行为. 例如请求用户网络空间分布独特、内容承载基础设施更集中(存在某些AS或IP/24承载大量恶意域名)、SLD长度分布偏斜(更短)、对应的FQDN数量更多、每个FQDN的平均查询次数少以及倾向使用默认生存时间(TTL)设置(例如10 min).

    4)基于上述发现设计并实现了一种new gTLD恶意域名检测方法,以new gTLD域名解析行为特征为输入,使用随机森林作为分类器,实现恶意域名的快速识别. 实验结果表明,该方法的准确率可达94%,优于传统恶意域名检测方法.

    在new gTLD的行为方面,已有研究多集中在注册人的行为或安全问题,如域名滥用行为等. Halvorson等人[3]提出了一种自动识别注册目的的方法,并分析了new gTLD域名的注册类型. Chen等人[4-5]刻画了在new gTLD域名时代通过域名碰撞(domain name collision)实现的中间人(man in the middle,MitM)攻击,并讨论了缓解策略. Korczynśki等人[1]对比了new gTLD与传统通用顶级域名的域名滥用行为,发现new gTLD已经成为了恶意行为者的“吸铁石”(a magnet for malicious actors).Pouryousef等人[6]发现在引入new gTLD之后,误植域名(typosquatted domains)的数量增加了几个数量级.

    在恶意域名检测方面已经有许多研究. Hao等人[7-8]利用域名注册信息尝试在发生大量查询之前识别恶意域名. Manadhata等人[9]利用域名-IP映射建立二部图,在已知少量域名标签前提下,使用置信度传播推测其他域名是否为恶意域名. Schüppen等人[10]基于域名文本特征检测DGA产生的恶意域名. Yu等人[11]将域名字符串输入到CNN进行恶意域名检测. Lei等人[12]用二部图建模域名解析行为,用图嵌入学习域名的向量表示,最后用SVM分类. 然而,现有研究仍然缺乏针对new gTLD恶意域名检测的方法.

    本文所使用的被动DNS日志数据集覆盖我国3个主要互联网服务提供商(Internet service provider, ISP). 每条DNS应答对应1条日志记录,每条日志包含用户的BGP(Border Gateway Protocol)前缀、自治系统号(autonomous system number,ASN)、域名、DNS查询类型、所有应答资源记录、TTL和时间戳. 本文使用nTLDStats[13]的列表来识别new gTLD,将ICANN发起的new gTLD计划之后引入的通用顶级域名称为new gTLD,在该计划之前引入的通用顶级域名,例如com,net,info则被标记为传统通用顶级域名.

    为了进行对比分析,同时收集了包括传统通用顶级域名、国家代码顶级域名(country code top-level domain, ccTLD)和new gTLD的所有类型域名共30亿条DNS日志.

    在进行数据预处理时,使用public suffix库[14]把FQDN映射到对应的SLD. 由于数据集不包括应答码(response code),在判断一次查询是否成功时无法直接从NOERROR或NXDOMAIN这样的应答码中进行判断. 因此为了计算查询失败率,采取一种启发式的方法过滤掉大概率是NXDOMAIN的或者无法准确标记的应答. 这里不检查返回的应答IP地址是否正确,而只考虑一次查询是否包含有效的DNS应答. 如果一次查询返回了有效的DNS应答,就把这次查询标记为成功. 例如对某一次A类型查询,如果应答中存在所查询域名的A记录,则认为该次查询成功. 在进行完上述标记之后,对于每个查询类型 QTYPE ,检查数据集中每一个被查询的域名QNAME是否至少成功过1次,将从未成功过的二元组QTYPEQNAME对应的日志过滤掉.

    经过上述预处理之后,获得了9 295 368次对815个new gTLD的611 769个FQDN的查询;作为对比使用的总体数据集则包含约28亿条日志.

    需要说明的是,数据集中所有可能关联到用户的信息均已删除或者匿名化. 特别地,数据集不包含最终用户的IP地址,用户所在网络的BGP前缀也经过匿名化处理. 此外,所有分析以聚合的方式进行统计分析,而不进行任何针对单个用户的分析.

    本节从查询量和域名数量的总览分析new gTLD域名的解析行为,并与非new gTLD域名进行对比. 为了分析new gTLD计划首批授权对顶级域名带来的扩展,首先使用whois来获取数据集中每个顶级域名的创建日期,并收集了547个顶级域名的成功回复. 图1展示了每年创建的顶级域名的数量,可以看出new gTLD快速增长.

    图  1  每年创建的顶级域名个数
    Figure  1.  The number of TLDs created per year

    本节分析各个new gTLD的DNS查询量和SLD的数量,并将它们的分布绘制在对数图中,如图2所示,其中x轴是分别按查询量和SLD排序的顶级域名排名,y轴是相应的查询量或SLD数量.

    图  2  顶级域名对应的查询量和SLD数量分布
    Figure  2.  Distribution of the number of queries and SLDs across TLDs

    图2中可以看到一个重尾分布,表明查询量和注册的域名数量集中在少数的顶级域名上. 事实上,如表1所示,前3个顶级域名吸引了大约一半的与new gTLD相关的查询. 表1也列出了查询失败率,可以看出,不同的new gTLD失败率为1.6%~45.8%,这意味着顶级域名的可靠性存在较大差异,其中help的失败率最低,表明其最为可靠;而win的失效率最高,意味着对其下域名的查询更容易失败,可靠性最差.

    表  1  按查询量排序的前10个新通用顶级域名
    Table  1.  Top 10 New gTLDs Ranked by the Number of Queries %
    顶级域名查询量占比查询失败率
    top31.116.0
    xyz11.119.0
    help6.51.6
    win6.245.8
    link6.12.3
    club5.120.9
    vip4.210.8
    space2.817.4
    online2.19.6
    loan1.93.7
    下载: 导出CSV 
    | 显示表格

    接下来分析域名查询失败量,表2呈现了2种主要的DNS查询类型:A类型和AAAA类型的查询量占比和查询成功率. 为了进行比较,还计算了所有类型的顶级域名(包括传统通用顶级域名、国家代码顶级域名和新通用顶级域名)的成功率. 可以看出,AAAA类型查询的成功率明显较低,且只占了10.4%的查询量,与2012年观察到的情况相似[15]. 此外,new gTLD域名的查询中AAAA类型的查询量占比略大.

    表  2  A类型和AAAA类型查询量占比与查询成功率
    Table  2.  Percentages of the Number of Queries and Success Rates for A and AAAA Queries %
    指标 所有域名 new gTLD域名
    A AAAA A AAAA
    查询量占比 86.2 10.4 84.3 14.8
    查询成功率 93.1 35.8 88.6 25.9
    下载: 导出CSV 
    | 显示表格

    图3进一步分析查询失败量是否集中在少数顶级域名上. 可以看到曲线是一个近似对角线的趋势,这表明new gTLD的失败查询量也集中在少数顶级域名上.

    图  3  顶级域名的查询失败量分布
    Figure  3.  Distribution of the number of failures for TLDs

    综上,在查询量、每个顶级域名的相关SLD数量和查询失败率方面,new gTLD域名的行为呈现重尾分布,并且new gTLD域名的成功率比所有域名低.

    本节分析new gTLD域名的内容承载基础设施. 由于AAAA类型查询在DNS查询中占比较小,而且经常失败,在接下来的分析中使用应答含有IPv4地址的A类型查询.

    通过测量承载每个SLD使用的IP/24网段的数量,考察new gTLD域名的内容在互联网上的复制情况,其分布情况如图4所示,其中按照DNS查询次数对域名进行排序. 图4分析了3组结果,即前1000域名、前10000域名和全部new gTLD域名. 可以看出,流行域名被复制到更多的IP/24网段. 然而,在排名前1000的域名中,只使用一个IP/24网段来承载其内容的域名多达40%;当考虑所有new gTLD域名时,这一占比上升到93.7%. 相比之下,即使是排名第100000的非new gTLD域名(该域名是mattel.com)也在10个IP/24网段上进行复制. 这些结果表明,new gTLD域名的内容复制非常有限.

    图  4  每个SLD使用IP/24网段数量的分布
    Figure  4.  Distribution of the number of IP/24 segments used by each SLD

    进一步分析了这些IP/24网段的内容承载特征. 为此,参考文献[16]定义了2个指标:内容分发潜力(content delivery potential,CDP)和内容垄断指数(content monopoly index,CMI). CDP定义了IP/24网段能服务的域名(即域名解析后得到的目标地址在该IP/24网段中)占比,以此衡量潜在地可以从一个IP/24网段提供的内容数量. 具体地,给定一个SLD集合(记为R),IP/24网段i的CDP计算公式为

    CDPi=|Si||R| (1)

    其中SiR是该IP/24网段承载的SLD集合.

    CMI通过对IP/24网段能服务的所有域名求权重平均值(其中每个域名的权重为能承载该域名的IP/24网段数量的倒数,这样设置权重是因为如果能承载该域名的IP/24网段越多,则该域名越无法体现该IP/24网段的内容垄断性,因此权重越低)衡量一个IP/24网段承载其他IP/24网段所没有的新通用顶级域名的程度. 一个IP/24网段的CMI为

    CMIi=1|Si|jSi1mj (2)

    其中mj是承载SLDjSi的IP/24网段数量. 一个IP/24网段的CMI大,意味着一些new gTLD域名是由该IP/24网段独家提供服务的.

    图5分析了按CDP排序的前15个IP/24网段. 可以看出,除了前2个IP/24网段之外,其他IP/24网段的CDP都相当小. 大约30.3%的SLD可以由第1个IP/24网段提供服务,该网段属于中国电信天翼云(CTCloud). 第2个IP/24网段属于阿里巴巴云,它可以为26.5%的new gTLD的SLD提供服务. 由此可见,new gTLD域名的所有者倾向于将网站外包给云服务进行内容承载,这些域名广泛使用了共享的内容承载基础设施. 另一个观察结果是,这些IP/24网段的CMI值都相当高(接近1),表明new gTLD域名几乎唯一地承载在对应IP/24网段. 这也是符合预期的,因为大多数SLD只使用1个IP/24网段进行内容承载,如图4所示.

    图  5  按照CDP排序前15个IP/24网段的CDP和CMI
    Figure  5.  CDP and CMI of the top 15 IP/24 segments ranked by CDP

    进一步,图6展示了new gTLD域名解析到的IP地址范围分布. 对于一个由多个IP地址承载的域名,选择使用次数最多的IP地址用于作图,以确保y轴取值不超过1. 观察到3条线中每条都有几个突起,再次证实了new gTLD域名的承载服务器集中在某些IP地址范围内. 此外,new gTLD域名和IP地址有不同的集中范围. 这表明,一些内容承载服务商使用少数IP地址承载大部分的域名,而其他服务商则使用一个IP地址池进行内容承载.

    图  6  new gTLD域名和应答IP地址在IPv4地址空间上的分布
    Figure  6.  new gTLD domain and response IP address distribution across IPv4 address space

    为研究new gTLD恶意域名,本文将IP/24网段按其承载的new gTLD域名数量进行排序,并提取前5个网段所承载的new gTLD域名,其中这5个网段对应的自治系统(autonomous system,AS)分别属于Enzu,Leaseweb,Psychz Net,Alibaba等数据中心、云服务提供商,所承载的new gTLD域名对应了约24.3万个FQDN和25.5万次查询,然后使用VirusTotal和360这2个黑名单对域名进行检查,如果这2个黑名单中的任何1个将域名分类为恶意域名,就将该域名标记为恶意域名. 由于域名数量较大,只检查了SLD而没有检查完整的FQDN,最终有1 171个SLD被标记为恶意域名,对应17.9万个FQDN(73.6%)和18.8万次查询(73.7%).

    如此高的恶意域名数量占比和查询量占比,再结合3.2节中的发现,说明存在承载大量new gTLD恶意域名的基础设施. 此外,可以观察到new gTLD恶意域名的查询量小、与域名个数非常接近,说明这些域名存在时间短、变化快.

    接下来从域名个数、源(用户)IP、域名长度和TTL等角度分别考察识别到的new gTLD恶意域名的DNS行为特征,这些特征对恶意域名的早期检测至关重要[7]. 为了叙述方便,由所有new gTLD域名组成的域名集合用Sall表示,而仅包含恶意new gTLD域名的集合用Smalicious表示.

    图7给出了new gTLD恶意域名的SLD对应FQDN数量分布,可以看出恶意的SLD对应更多的FQDN. 具体地,对于Smalicious来说,88.5%的SLD有超过10个FQDN. 与此相比,当考虑Sall时,87.2%的SLD只对应1个FQDN. 其原因有可能是DGA被用来生成恶意域名的FQDN.

    图  7  SLD对应FQDN数量的分布
    Figure  7.  Distribution of the number of FQDNs across SLDs

    接下来分析请求这些恶意域名的网络地址区域是否与整体分布不同. 为此,计算请求2类域名的用户BGP前缀的排名,即分别根据SallSmalicious中域名的发送查询次数对用户的BGP前缀进行排序,并计算2种排名的Kendall距离指标[17].Kendall距离是从Kendall’s tau(衡量2个排名列表的相似程度)推广出来的指标,该指标放宽了Kendall’s tau对于“被比较的2个排名列表必须有相同的元素”这一要求,为此,Kendall距离引入了一个惩罚参数p,并引入一个参数k表示对2个排名列表的前k个元素进行比较. 具体地,带有惩罚参数p的Kendall距离定义为:

    K(p)(τ1,τ2)=i,jτ1τ2¯K(p)i,j(τ1,τ2) (3)

    其中τ1τ2表示被比较的2个前k排名列表. 本文使用“乐观法”(optimistic approach),具体地,将p设置为0,并且判断3个条件是否成立:1)ij都出现在2个列表中,但它们在2个列表中的顺序是相反的;2)ij都出现在某一个列表中,其中i的排名高于j,而j出现在另一个列表中;3)只有i出现在一个列表中,而j出现在另一个列表中. 当这3个条件之一成立时,令¯K(p)i,j(τ1,τ2)=1,否则,令¯K(p)i,j(τ1,τ2)=0. 最后,计算归一化的K(normalized K[18]

    K=1K(0)(τ1,τ2)k2 (4)

    所得到的K取值范围在0~1,如果列表τ1τ2不包含相同元素,则K=0;如果2个列表τ1τ2完全相同,则K=1.

    表3给出了归一化K随考虑的域名个数k的变化情况,其中k=20, 40, 60, 80, 100. 从表3中可以看出2个列表的距离小于0.1时表明2个排名差距大,也就是说SallSmalicious中域名的用户前缀差距大.

    表  3  用户BGP前缀比较
    Table  3.  Comparison of Users’ BGP Prefixes
    kK
    200.08
    400.06
    600.07
    800.06
    1000.08
    下载: 导出CSV 
    | 显示表格

    进一步分析new gTLD域名的SLD长度,结果如表4所示,可以发现超过90%的new gTLD恶意域名长度为4,而考虑所有域名时,域名更长且域名长度分布更均匀. 在传统域名下,考虑到大量的短域名已经被注册,为保证恶意域名可以被攻击者注册,恶意域名长度一般较长,已有DGA域名检测方法往往忽略较短的域名,因此这些方法无法应用于new gTLD恶意域名的检测.

    表  4  不同SLD长度的new gTLD域名占比
    Table  4.  Fraction of new gTLD Domains of Different SLD Lengths
    长度(字符个数) 在new gTLD域名
    中的占比/%
    在恶意new gTLD域名
    中的占比/%
    3 8.5 0.1
    4 25.2 93.0
    5 17.2 6.1
    \geqslant 6 49.1 0.8
    下载: 导出CSV 
    | 显示表格

    域名解析行为的另一个重要特征是域名解析应答的TTL值. 图8给出了A类型查询的TTL值分布,其中包括全体new gTLD域名、恶意new gTLD域名、非恶意(合法)new gTLD域名的TTL分布,以及作为对比的数据集中全部域名的A类型查询TTL值分布. 考虑到由于可以从递归解析器的缓存中返回应答,日志中看到的TTL值可能小于权威域名服务器设置的原始值. 因此,本文参考文献[19-20]中的做法,使用每个域名观察到的最大TTL值作为权威域名服务器设置的原始TTL值的估计.

    图  8  A类型查询的TTL值分布
    Figure  8.  TTL value distribution of A type queries

    图8中可以看出,大约45%的全体域名TTL值小于120 s,而new gTLD域名倾向于使用600 s的TTL值,并且几乎所有的new gTLD恶意域名都把TTL值设置为600 s(这也是许多内容承载提供商的默认设置). 因此,TTL值可能不适用于new gTLD恶意域名的检测.

    对恶意new gTLD域名行为的分析发现,按承载域名量排序的前5个IP/24网段所承载的域名之中有73.6%是恶意的,且与正常域名相比,恶意域名有独特的行为,例如请求用户网络空间分布独特、内容承载基础设施更集中(存在某些AS或IP/24承载大量恶意域名)、SLD长度分布偏斜(更短)、对应FQDN数量更多、每个FQDN的平均查询次数少以及倾向使用默认TTL值设置(例如TTL值为600 s). 上述发现从多角度对恶意域名检测的输入特征选择有所启发. 例如在查询量角度,发现恶意域名FQDN查询量少,启发使用SLD对应的FQDN查询量的统计量作为恶意域名检测的输入特征;在域名个数角度,发现恶意SLD对应的FQDN更多,启发使用SLD对应的FQDN个数作为输入特征;在请求用户网络空间和应答地址角度,发现恶意域名有独特的网络足迹,启发使用域名与请求用户地址(应答地址)的映射关系,从查询量和域名个数入手,用统计量展开维度作为输入特征;在域名长度角度,发现恶意域名短,启发避免使用域名的文本特征作为输入;在TTL角度,发现集中在600 s,启发不使用TTL值作为输入.

    需要说明的是,本文在标记数据集中的域名时使用VirusTotal和360黑名单等恶意域名标记工具,其工作原理是聚合多家杀毒引擎、网站扫描器、URL分析工具和域名屏蔽列表判断所提交域名是否为恶意域名. 这些工具的恶意域名识别准确度高,但是在域名覆盖度上以及检测时效性上存在不足. 因此,它们被广泛应用在基准数据集的构造上,以评估所设计方法的准确性,而不能直接作为恶意域名检测的工具.

    本文旨在设计一种基于解析特征的简单有效的new gTLD恶意域名识别方法,实现恶意域名的快速准确检测,降低恶意域名造成的危害.

    本节基于第3节分析发现的new gTLD恶意域名行为特征,设计new gTLD恶意域名检测方法. 恶意域名检测本质上是一个二分类问题,主要包括输入特征、分类器、输出0/1标签(0为正常域名(本问题中作为负类);1为恶意域名(本问题中作为正类)).

    new gTLD恶意域名检测的主要挑战在于,new gTLD恶意域名相比传统恶意域名有特殊性,需要选取更合适的特征. 现有恶意域名检测方法中缺少针对new gTLD域名的检测方法,而传统恶意域名检测方法设计中往往利用域名的文本特征(如可发音单词数、数字符号字符占比等)进行检测. 但是,第3节的分析发现了若干new gTLD恶意域名的独特行为特征,使得传统恶意域名检测方法并不适用. 如new gTLD域名长度分布偏斜(恶意域名相比正常域名更短),因此域名的文本特征区分性不强,进而导致传统方法对于new gTLD恶意域名检测效果不佳. 因此,本文基于第3节的分析结果,选择具有区分度的特征设计针对new gTLD的恶意域名检测方法,这些特征包括请求用户网络空间分布独特、内容承载基础设施更集中、对应FQDN数量更多、每个FQDN的平均查询次数少等.

    结合3.2节与3.3节的发现,本节避免使用域名的文本特征,也不使用TTL值作为输入,而是分别从域名的查询量、域名个数、发起查询的用户(源IP)、应答IP的角度提取了特征. 表5总结了使用的特征.

    表  5  特征集合
    Table  5.  Feature Sets
    特征集合 特征名称 维度
    域名的查询量SLD对应FQDN查询量的统计量8
    域名个数SLD对应FQDN的个数(总数+每天)15
    客户端(源IP)SLD对应源AS和BGP prefix的个数2
    SLD对应源AS和BGP prefix
    查询量的统计量
    16
    SLD对应源AS和BGP prefix
    在查询方面的特征
    14
    应答IP(AS)SLD对应应答AS的个数1
    SLD映射到AS次数的统计量8
    SLD映射到AS在内容承载方面的特征7
    下载: 导出CSV 
    | 显示表格

    在域名查询量角度,使用每个SLD对应的FQDN查询量的统计量作为输入特征. 例如,某个SLD对应了n个FQDN,这n个FQDN的查询量分别是 {x_1}, {x_2},\cdots,{x_n} ,则对( {x_1},{x_2},\cdots,{x_n} )计算统计量,这里使用的统计量包括了最大值、最小值、均值、标准差、下四分位点、中位数、上四分位点和熵,共8维. 这样做是因为,3.3节中观察到这些new gTLD恶意域名的查询量与域名个数非常接近,说明这些域名查询量少、存在时间短、变化快.

    在域名个数的角度,使用了每个SLD对应的FQDN数量作为输入特征. 除了总量之外,也统计了每天对应的数量,以反映域名数量在时间上的变化. 这样做的原因是,在图7中发现恶意的SLD比new gTLD域名整体有更多的FQDN.

    在发起查询的用户(源IP)的角度,使用查询每个SLD的源AS和BGP prefix数量、查询量的统计量以及在查询方面的特征作为输入. 考虑这些特征是因为发起恶意域名查询次数多的用户BGP前缀与发起非恶意域名查询次数多的用户BGP前缀有很大不同,如表3所示. 这启发了使用SLD与源IP的映射关系,从查询量和域名数量入手,用统计量展开特征维度作为new gTLD恶意域名早期检测的一部分输入特征.

    除了BGP prefix之外,本文也考虑把AS级别的统计量加入. 查询量的统计量与域名查询量使用的统计量相同,都是8维,具体计算的是查询某SLD的每个源AS(或BGP prefix)查询该SLD次数的统计量. 例如,有n个AS(或BGP prefix)查询过某SLD,查询该SLD的次数分别是 {x_1},{x_2},\cdots,{x_n} ,则计算( {x_1}, {x_2},\cdots,{x_n} )的统计量,即最大值、最小值、均值、标准差、下四分位点、中位数、上四分位点和熵. 源AS和BGP prefix在查询方面的特征则是这样考虑的,对查询某个SLD的每个源AS(或BGP prefix),计算它们查询SLD数量的统计量. 例如,有n个AS(或BGP prefix)查询过某SLD,它们查询过SLD的数量分别是 {x_1},{x_2},\cdots,{x_n} ,则对( {x_1},{x_2},\cdots,{x_n} )计算统计量,即计算最大值、最小值、均值、标准差、下四分位点、中位数、上四分位 2.

    在内容承载基础设施角度,从应答IP映射到AS,使用了每个SLD映射到的AS个数、映射到AS次数的统计量以及所映射到的AS在内容承载方面的特征作为输入. 考虑这些特征是因为发现了存在承载大量new gTLD恶意域名的基础设施(见3.3节),并且new gTLD域名使用有限的内容复制和共享的基础设施(如图5图6所示). 同样,使用SLD与应答IP的映射关系,从查询量和域名数量入手,用统计量展开特征维度. 在计算SLD映射到AS次数的统计量时,假设某SLD能被n个AS所承载,且在应答中映射到各AS的次数分别是 {x_1},{x_2},\cdots,{x_n} ,则对( {x_1}, {x_2},\cdots, {x_n} )计算统计量. 而在考虑SLD所映射到的AS在内容承载方面的特征时,对该SLD映射到的每个应答AS所承载SLD的个数计算统计量. 例如,有n个AS能服务某SLD,它们所能承载的SLD的个数分别是 {x_1},{x_2},\cdots,{x_n} ,则对( {x_1},{x_2},\cdots,{x_n} )计算统计量.

    我们观察发现new gTLD恶意域名的活跃天数很短:97.4%的FQDN只活跃1天. 因此,需要选择简单、快速、高效的分类器. 本文考虑随机森林(random forest,RF)、支持向量机(support vector machine,SVM)和Boosting类3种典型方法.

    本节用来研究new gTLD恶意域名检测方法的SLD数据是由3.3节识别到的共1 171个恶意域名和4 770非恶意域名组成. 本节使用的评价指标包括准确率(accuracy)、精确率(precision)、召回率(recall)和F1分数(F1-score),其计算公式分别为

    accuracy{\text{ = }}\frac{{TP + TN}}{{TP + TN + FP + FN}} \text{,} (5)
    precision{\text{ = }}\frac{{TP}}{{TP + FP}} \text{,} (6)
    recall = \frac{{TP}}{{TP + FN}} \text{,} (7)
    F1 - score = \frac{{2 \times precision \times recall}}{{precision + recall}} \text{,} (8)

    其中 TP FP TN FN 分别代表真阳性、假阳性、真阴性和假阴性. 由于本文的分类任务更关心对恶意域名的分类性能,因此将恶意域名作为正样本,将正常域名作为负样本.

    对3类分类器进行了性能评估,经过5折交叉验证并计算了各指标的平均值,结果如表6所示. 其中SVM使用径向基核函数(RBF核),可以看出SVM和RF已经取得了较好的实验效果,SVM在召回率上比RF略高,而RF在精确率和F1分数指标表现更好. 而实验结果表明,集成学习中的3种Boosting类算法(AdaBoost,GBDT,XGBoost)并没能带来明显的性能提升,但是增加了额外的开销. 综上所述,基于实现简单、运行高效且综合性能表现更好的事实,本文选择了RF作为分类器.

    表  6  不同分类器经过5折交叉验证得到各指标的均值
    Table  6.  Average Value of Each Metric for Different Classifiers Under 5-Fold Cross-Validation %
    指标RFSVMAdaBoostGBDTXGBoost
    准确率9494939493
    精确率8883878887
    召回率8486778073
    F1分数8684818378
    下载: 导出CSV 
    | 显示表格

    本节分别从基于域名文本特征和基于解析行为特征的两大类方法中,选择3种有代表性的方法进行对比实验. 在基于域名文本特征的方法中,选择了文献[10-11]提出的方法;而在基于行为特征的方法中,选择文献[12]提出的方法. 下面首先简单介绍这3种方法的实现.

    文献[10]提取域名的结构特征(如下划线数量占比)、语言特征(如元音占比)和统计特征(如信息熵),然后将手动提取出的特征输入到作为分类器的SVM和RF中进行分类,输出对每个域名的预测结果. 文献[11]将域名字符串作为输入,利用深度学习自动提取域名特征并完成分类. 文献[12]利用DNS解析数据提供的映射关系,通过二部图建模域名之间在源IP、应答IP、查询时间3个维度的相似性,用图嵌入得到域名的向量表示,再输入到SVM分类器进行分类. 文献[12]提到这样做相比从领域知识、网络流量或者文本词汇提取特征更加鲁棒、稳定,因为恶意域名的基本行为特征倾向于高度一致性. 已有研究表明,领域知识在不同网络中有所区别,网络特征,例如恶意域名设置的TTL值会随时间改变(为了避免被检测到),恶意域名也会模仿正常域名的文本特征,比如用相似的字符个数或者可发音的单词.

    本文复现了文献[10-12]的3种方法,并与本文方法对比,结果如表7所示. 可以看出:1)在基于域名文本特征的方法中,对于文献[10]提出的方法,其输出将所有域名标记为正常域名,说明在new gTLD恶意域名检测问题上,使用这些人为提取的域名文本特征难以区分恶意与正常域名;而文献[11]的方法优于使用人为提取的域名文本特征的方法[10],但各项指标明显弱于基于解析行为特征的方法.2)在基于DNS解析行为特征的方法中,文献[12]提出的方法优于基于域名文本特征的方法,但由于new gTLD域名活跃天数短,减弱了查询时间维度相似性的效果,且没有考虑域名个数、查询量方面的特征,综合指标不如本文方法;此外,文献[12]提出的方法中的召回率最高但是精确率偏低,说明将更多域名标记为恶意域名,漏检最少但是误检较多.3)综合各个指标,本文方法取得了最好的效果,更适用于new gTLD恶意域名检测. 其原因在于本文方法在输入特征的选择上具有更强的针对性与区分性.

    表  7  与其他恶意域名检测方法的对比
    Table  7.  Comparison with Other Malicious Domain Detection Methods %
    指标 基于域名文本特征 基于DNS解析行为特征
    文献[10] 文献[11] 文献[12] RF
    准确率 80 41 79 94
    精确率 0 65 53 88
    召回率 0 16 88 84
    F1分数 0 25 66 86
    下载: 导出CSV 
    | 显示表格

    进一步地,调整恶意域名和正常域名的比例,原始数据集中恶意域名与正常域名的比例约为1∶4,通过随机采样正常域名的方法分别将此比例调整为1∶3,1∶2,1∶1,并对比数据集正负样本数量的比例对本文方法的影响;此外还通过随机采样恶意域名的方法将比例调整为1∶10,以考察样本较为不均衡的情况,实验结果如表8所示. 可以看出,本文方法的性能较为稳定,而样本中正负例数量的比值确实会影响检测结果,样本数量越均衡,分类性能指标越好. 当比例调整为1∶10时,精确率、召回率和F1分数都有一定的下降,而准确率反而比原始比例(1∶4)更高了,这是因为此时由于负样本太多,分类器倾向于输出分类结果为“正常域名”,反而提高了准确率.

    表  8  恶意SLD和正常SLD数量的比例对指标的影响
    Table  8.  The Effect of the Ratio of the Number of Malicious and Legitimate SLDs on the Metrics %
    指标1∶101∶41∶31∶21∶1
    准确率9694959696
    精确率8388919395
    召回率7984919497
    F1分数8086919496
    下载: 导出CSV 
    | 显示表格

    本文使用被动DNS日志对new gTLD的解析行为进行了分析. 主要发现包括:1)new gTLD的查询量和对应SLD数量符合重尾分布;2)大多数new gTLD域名只将它们的内容复制到1或2个IP/24网段,且使用共享的承载基础设施;3)与正常域名相比,恶意域名在内容承载基础设施集中性、SLD对应的FQDN数目、域名查询次数、请求用户网络空间分布、SLD长度分布等方面具有独特的特征. 基于这些发现,设计了一种new gTLD恶意域名的检测方法,充分考虑了new gTLD恶意域名在解析行为方面的独特特征,并使用RF作为分类器,以实现快速、高效的恶意域名检测. 实验结果表明,与已有方法相比,本文方法具有较高的准确率.

    作者贡献声明:杨东辉、曾彬、李振宇提出了研究思路和实验方案;杨东辉负责完成实验并撰写论文初稿;曾彬获取原始数据与完成部分数据分析;李振宇负责修改论文.

  • 图  1   2018—2022年调研文献来源统计分析

    Figure  1.   Statistics analysis of research literature source from 2018 to 2022

    图  2   外包计算威胁模型

    Figure  2.   Threat model for outsourced computing

    图  3   安全外包计算通用模型

    Figure  3.   General model for secure outsourced computing

    图  4   按机器学习任务阶段分类的2种模式

    Figure  4.   Two modes classified by task phase of machine learning

    图  5   按云服务商数量分类的2种模式

    Figure  5.   Two modes classified by the number of cloud service providers

    图  6   机器学习安全外包研究模型统计

    Figure  6.   Model statistics of machine learning security outsourced research

    图  7   通过岭回归训练逻辑回归

    Figure  7.   Training logistic regression by ridge regression

    图  8   朴素贝叶斯分类模型托管框架

    Figure  8.   Naive Bayes classification model hosting framework

    图  9   用户身份认证机制

    Figure  9.   User authentication mechanism

    图  10   决策树转换

    Figure  10.   Decision tree transformation

    图  11   双云模式下的DNN推理

    Figure  11.   DNN inference in two cloud modes

    表  1   机器学习外包计算模型的特点

    Table  1   Features of Machine Learning Outsourced Computing Modes

    模式应用趋势特点
    由模型训练到模型托管
    支持多用户
    减少用户与云服务商交互
    支持密文托管
    支持用户离线
    支持模型机密性保护
    考虑半可信云服务器威胁
    由单云到多云分摊计算,支持MPC协议
    减少用户与云服务商交互
    支持用户离线
    增加恶意云服务器的威胁
    下载: 导出CSV

    表  2   逻辑回归外包方案对比

    Table  2   Comparison of Logistic Regression Outsourced Schemes

    来源单云/多云外包阶段加密工具Sigmoid函数逼近威胁模型支持SIMD
    文献[16]单云训练近似FHE最小二乘拟合多项式半可信
    文献[19]多云训练层次HE,SGX泰勒展开式半可信
    文献[20]单云托管FHE泰勒展开式半可信×
    文献[21]单云训练FHE最小二乘拟合多项式半可信
    文献[22]单云训练层次HE半可信
    下载: 导出CSV

    表  3   朴素贝叶斯分类外包方案对比

    Table  3   Comparison of Naive Bayesian Classification Outsourced Schemes

    来源单云/多云引入可信实体外包阶段加密工具威胁模型数据机密性模型机密性通信量
    文献[24]单云×推理Paillier半可信××
    文献[25]单云推理Paillier半可信
    文献[26]单云×推理OU恶意用户
    文献[28]单云×训练Paillier半可信
    文献[31]单云训练+推理Paillier半可信×
    下载: 导出CSV

    表  4   支持向量机外包方案对比

    Table  4   Comparison of Support Vector Machine Outsourced Schemes

    来源单云/多云加密模型引入可信实体外包阶段加密工具威胁模型结果可验证性多次交互
    文献[35]单云×推理Paillier+GC半可信×
    文献[36]多云训练+推理DT-PKC半可信××
    文献[37]多云训练DT-PKC半可信×
    文献[38]单云××推理FHE半可信××
    文献[40]多云推理矩阵盲化恶意云
    文献[41]单云×推理DT-PKC / BGN恶意用户×
    下载: 导出CSV

    表  5   决策树外包方案对比

    Table  5   Comparison of Decision Tree Outsourced Schemes

    来源单云/多云加密模型外包阶段加密工具威胁模型支持随机森林离线
    文献[46]单云×推理HE+ GC+OT半可信××
    文献[47]单云×推理GC, OT, ORAM半可信××
    文献[49]多云推理秘密共享半可信×
    文献[50]多云训练+推理FHE半可信
    文献[51]多云推理GC+秘密共享恶意用户×
    文献[52]单云推理对称加密半可信×
    文献[53]单云推理HE恶意用户××
    文献[54]多云推理HE+秘密共享半可信×
    文献[55]多云×训练+推理DT-PKC+秘密共享半可信×
    文献[56]单云推理多密钥HE+OT半可信×
    文献[57]单云训练+推理矩阵盲化半可信×
    文献[58]单云推理HE半可信×
    下载: 导出CSV

    表  6   神经网络外包方案对比

    Table  6   Comparison of Neural Network Outsourced Schemes

    来源算法单云/多云外包阶段加密工具威胁模型可验证模型隐私
    文献[60]SLP单云训练+推理矩阵盲化半可信×
    文献[61]SLP单云训练+推理矩阵盲化恶意云
    文献[62]DNN单云训练+推理DT-PKC半可信×
    文献[63]R-CNN多云训练秘密共享半可信×
    文献[64]DNN单云训练加噪半可信××
    文献[65]CNN多云训练秘密共享半可信××
    文献[66]DNN单云训练矩阵盲化半可信×
    文献[67]DNN多云推理秘密共享半可信×
    文献[68]DNN多云推理秘密共享半可信××
    文献[69]CNN多云推理秘密共享半可信××
    文献[70]DNN多云推理秘密共享半可信×
    文献[71]CNN单云推理加性HE半可信××
    文献[72]DNN单云推理HE+ GC+秘密共享半可信×
    文献[73]CNN单云推理HE+秘密共享半可信×
    文献[74]CNN单云推理HE+ GC+秘密共享恶意用户×
    文献[75]CNN多云推理GC+秘密共享半可信×
    文献[76]DNN多云推理GC恶意云×
    文献[77]DNN多云推理HE+秘密共享半可信×
    文献[78]DNN多云训练+推理GC+秘密共享半可信×
    文献[7980]DNN多云推理秘密共享半可信×
    文献[8184]CNN多云推理GC+秘密共享恶意云×
    下载: 导出CSV
  • [1] 李印,陈勇,赵景欣,等. 泛在计算安全综述[J]. 计算机研究与发展,2022,59(5):1054−1081 doi: 10.7544/issn1000-1239.20211248

    Li Yin, Chen Yong, Zhao Jingxin, et al. Survey of ubiquitous computing security[J]. Journal of Computer Research and Development, 2022, 59(5): 1054−1081 (in Chinese) doi: 10.7544/issn1000-1239.20211248

    [2] 周俊,沈华杰,林中允,等. 边缘计算隐私保护研究进展[J]. 计算机研究与发展,2020,57(10):2027−2051 doi: 10.7544/issn1000-1239.2020.20200614

    Zhou Jun, Shen Huajie, Lin Zhongyun, et al. Research advances on privacy preserving in edge computing[J]. Journal of Computer Research and Development, 2020, 57(10): 2027−2051 (in Chinese) doi: 10.7544/issn1000-1239.2020.20200614

    [3]

    Statista. Public cloud services end-user spending worldwide from 2017 to 2023[EB/OL]. [2022-08-15]. https://www.statista.com/statistics/273818/global-revenue-generated-with-cloud-computing-since-2009/

    [4]

    Shan Zihao, Ren Kui, Blanton M, et al. Practical secure computation outsourcing: A survey[J]. ACM Computing Surveys, 2019, 51(2): 1−40

    [5]

    Zhou Lei, Fu Anmin, Yang Guomin, et al. Efficient certificateless multi-copy integrity auditing scheme supporting data dynamics[J]. IEEE Transactions on Dependable and Secure Computing, 2022, 19(2): 1118−1132

    [6]

    Liu Bo, Ding Ming, Shaham S, et al. When machine learning meets privacy: A survey and outlook[J]. ACM Computing Surveys, 2022, 54(2): 1−36

    [7] 李帅,付安民,苏铓,等. 基于单服务器的群上幂指数安全外包计算方案[J]. 计算机研究与发展,2018,55(11):2482−2489 doi: 10.7544/issn1000-1239.2018.20170420

    Li Shuai, Fu Anmin, Su Mang, et al. Secure and verifiable protocol for outsourcing group power exponent to a single server[J]. Journal of Computer Research and Development, 2018, 55(11): 2482−2489 (in Chinese) doi: 10.7544/issn1000-1239.2018.20170420

    [8] 聂恒太,王少辉. 云环境下矩阵乘法外包计算方案[J]. 计算机技术与发展,2018,28(8):119−123 doi: 10.3969/j.issn.1673-629X.2018.08.025

    Nie Hengtai, Wang Shaohui. A matrix multiplication outsourcing calculation scheme in cloud environment[J]. Computer Technology and Development, 2018, 28(8): 119−123 (in Chinese) doi: 10.3969/j.issn.1673-629X.2018.08.025

    [9]

    Fu Anmin, Chen Zhenzhu, Mu Yi, et al. Cloud-based outsourcing for enabling privacy-preserving large-scale non-negative matrix factorization[J]. IEEE Transactions on Services Computing, 2022, 15(1): 266−278 doi: 10.1109/TSC.2019.2937484

    [10] 李晓伟,陈本辉,杨邓奇,等. 边缘计算环境下安全协议综述[J]. 计算机研究与发展,2022,59(4):765−780 doi: 10.7544/issn1000-1239.20210644

    Li Xiaowei, Chen Benhui, Yang Dengqi, et al. Review of security protocols in edge computing environments[J]. Journal of Computer Research and Development, 2022, 59(4): 765−780 (in Chinese) doi: 10.7544/issn1000-1239.20210644

    [11]

    Kumar M, Sharma S C, Goel A, et al. A comprehensive survey for scheduling techniques in cloud computing[J]. Journal of Network and Computer Applications, 2019, 143: 1−33 doi: 10.1016/j.jnca.2019.06.006

    [12]

    Domingo-Ferrer J, Farras O, Ribes-González J, et al. Privacy-preserving cloud computing on sensitive data: A survey of methods, products and challenges[J]. Computer Communications, 2019, 140: 38−60

    [13]

    Shama T, Wang Tian, Giulio C D, et al. Towards inclusive privacy protections in the cloud[C]//Prof of the 18th Int Conf on Applied Cryptography and Network Security. Berlin: Springer, 2020: 337−359

    [14] 周纯毅,陈大卫,王尚,等. 分布式深度学习隐私与安全攻击研究进展与挑战[J]. 计算机研究与发展,2021,58(5):927−943 doi: 10.7544/issn1000-1239.2021.20200966

    Zhou Chunyi, Chen Dawei, Wang Shang, et al. Research and challenge of distributed deep learning privacy and security attack[J]. Journal of Computer Research and Development, 2021, 58(5): 927−943 (in Chinese) doi: 10.7544/issn1000-1239.2021.20200966

    [15]

    Kleinbaum D G, Klein M. Logistic Regression: A Self-learning Text[M]. Berlin: Springer, 2010

    [16]

    Han K, Hong S, Cheon J H, et al. Logistic regression on homomorphic encrypted data at scale[C]//Proc of the 31st AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2019: 9466−9471

    [17]

    Bos J W, Lauter K, Naehrig M. Private predictive analysis on encrypted medical data[J]. Journal of Biomedical Informatics, 2014, 50: 234−243 doi: 10.1016/j.jbi.2014.04.003

    [18]

    Aono Y, Hayashi T, Trieu P L, et al. Scalable and secure logistic regression via homomorphic encryption[C]//Proc of the 6th ACM Conf on Data and Application Security and Privacy. New York: ACM, 2016: 142−144

    [19]

    Jiang Yichen, Hamer J, Wang Chenghong, et al. SecureLR: Secure logistic regression model via a hybrid cryptographic protocol[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2018, 16(1): 113−123

    [20]

    Fan Yongkai, Bai Jianrong, Lei Xia, et al. Privacy preserving based logistic regression on big data[J]. Journal of Network and Computer Applications, 2020, 171: 1−10

    [21]

    Yu Xiaopeng, Zhao Wei, Huang Yunfan, et al. Privacy-preserving outsourced logistic regression on encrypted data from homomorphic encryption[J]. Security and Communication Networks, 2022, 2022: 1−17

    [22]

    Byun J, Lee W, Lee J. Parameter-free HE-friendly logistic regression[J]. Advances in Neural Information Processing Systems, 2021, 34: 8457−8468

    [23]

    Murphy K P. Naive Bayes classifiers[EB/OL]. [2022-08-15]. https://www.cs.ubc.ca/~murphyk/Teaching/CS340-Fall06/reading/NB.pdf

    [24]

    Li Tong, Huang Zhengan, Li Ping, et al. Outsourced privacy-preserving classification service over encrypted data[J]. Journal of Network and Computer Applications, 2018, 106: 100−110 doi: 10.1016/j.jnca.2017.12.021

    [25]

    Li Tong, Li Xuan, Zhong Xingyi, et al. Communication-efficient outsourced privacy-preserving classification service using trusted processor[J]. Information Sciences, 2019, 505: 473−486 doi: 10.1016/j.ins.2019.07.047

    [26]

    Chai Yanting, Zhan Yu, Wang Baocang, et al. Improvement on a privacy-preserving outsourced classification protocol over encrypted data[J]. Wireless Networks, 2020, 26(6): 4363−4374 doi: 10.1007/s11276-020-02329-9

    [27]

    Okamoto T, Uchiyama S. A new public-key cryptosystem as secure as factoring[C]//Proc of the 17th Int Conf on the Theory and Applications of Cryptographic Techniques. Berlin: Springer, 1998: 308−318

    [28]

    Li Tong, Li Jin, Liu Zheli, et al. Differentially private naive Bayes learning over multiple data sources[J]. Information Sciences, 2018, 444: 89−104 doi: 10.1016/j.ins.2018.02.056

    [29]

    Vaidya J, Shafiq B, Basu A, et al. Differentially private naive Bayes classification[C]//Proc of 2013 IEEE/WIC/ACM Int Joint Conf on Web Intelligence and Intelligent Agent Technologies. Piscataway, NJ: IEEE, 2013: 571−576

    [30]

    Huai Mengdi, Huang Liusheng, Yang Wei, et al. Privacy-preserving naive Bayes classification[C]//Proc of the 8th Int Conf on Knowledge Science, Engineering and Management. Berlin: Springer, 2015: 627−638

    [31]

    Wang Fengwei, Zhu Hui, Lu Rongxing, et al. Achieve efficient and privacy-preserving disease risk assessment over multi-outsourced vertical datasets[J]. IEEE Transactions on Dependable and Secure Computing, 2020, 19(33): 1492−1504

    [32]

    Pisner D A, Schnyer D M. Support Vector Machine[M]. New York: Academic Press, 2020

    [33]

    Lin K P, Chen M S. Privacy-preserving outsourcing support vector machines with random transformation[C]//Proc of the 16th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2010: 363−372

    [34]

    Rahulamathavan Y, Phan R C W, Veluru S, et al. Privacy-preserving multi-class support vector machine for outsourcing the data classification in cloud[J]. IEEE Transactions on Dependable and Secure Computing, 2014, 11(5): 467−479 doi: 10.1109/TDSC.2013.51

    [35]

    Li Xingxin, Zhu Youwen, Wang Jian, et al. On the soundness and security of privacy-preserving SVM for outsourcing data classification[J]. IEEE Transactions on Dependable and Secure Computing, 2017, 15(5): 906−912

    [36]

    Liu Ximeng, Deng R H, Choo K K R, et al. Privacy-preserving outsourced support vector machine design for secure drug discovery[J]. IEEE Transactions on Cloud Computing, 2018, 8(2): 610−622

    [37]

    Wang Jing, Wu Libing, Wang Huaqun, et al. An efficient and privacy-preserving outsourced support vector machine training for Internet of medical things[J]. IEEE Internet of Things Journal, 2020, 8(1): 458−473

    [38]

    Huang Hai, Wang Yongjian, Zong Haoren. Support vector machine classification over encrypted data[J]. Applied Intelligence, 2022, 52(6): 5938−5948 doi: 10.1007/s10489-021-02727-2

    [39]

    Barnett A, Santokhi J, Simpson M, et al. Image classification using non-linear support vector machines on encrypted data[EB/OL]. [2022-08-15].https://eprint.iacr.org/2017/857.pdf

    [40]

    Shao Yuhang, Tian Chengliang, Han Lidong, et al. Privacy-preserving and verifiable cloud-aided disease diagnosis and prediction with hyperplane decision-based classifier[J]. IEEE Internet of Things Journal, 2022, 9(21): 21648−21661 doi: 10.1109/JIOT.2022.3181734

    [41]

    Chen Yange, Mao Qinyu, Wang Baocang, et al. Privacy-preserving multi-class support vector machine model on medical diagnosis[J]. IEEE Journal of Biomedical and Health Informatics, 2022, 26(7): 3342−3353 doi: 10.1109/JBHI.2022.3157592

    [42]

    Charbuty B, Abdulazeez A. Classification based on decision tree algorithm for machine learning[J]. Journal of Applied Science and Technology Trends, 2021, 2(1): 20−28 doi: 10.38094/jastt20165

    [43]

    Bost R, Popa R A, Tu S, et al. Machine learning classification over encrypted data[C/OL]//Proc of the 22nd Symp on Network and Distributed System Security. Piscataway, NJ: IEEE, 2015[2022-08-15]. https://www.ndss-symposium.org/wp-content/uploads/2017/09/04_1_2.pdf

    [44]

    Wu D J, Feng T, Naehrig M, et al. Privately evaluating decision trees and random forests[C]//Proc of Privacy Enhancing Technologies Symp. Berlin: Springer, 2016: 335−355

    [45]

    Tai R K H, Ma J P K, Zhao Yongjun, et al. Privacy-preserving decision trees evaluation via linear functions[C]//Proc of European Symp on Research in Computer Security. Berlin: Springer, 2017: 494−512

    [46]

    Kiss Á, Naderpour M, Liu Jian, et al. Sok: Modular and efficient private decision tree evaluation[C]//Proc of Privacy Enhancing Technologies Symp. Berlin: Springer, 2019: 187−208

    [47]

    Tueno A, Kerschbaum F, Katzenbeisser S. Private evaluation of decision trees using sublinear cost[C]//Proc of Privacy Enhancing Technologies Symp. Berlin: Springer, 2019: 266−286

    [48]

    Zheng Yifeng, Duan Huayi, Wang Cong. Towards secure and efficient outsourcing of machine learning classification[C]//Proc of the 24th European Symp on Research in Computer Security. Berlin: Springer, 2019: 22−40

    [49]

    Zheng Yifeng, Duan Huayi, Wang Cong, et al. Securely and efficiently outsourcing decision tree inference[J]. IEEE Transactions on Dependable and Secure Computing, 2022, 19(3): 1841−1855 doi: 10.1109/TDSC.2020.3040012

    [50]

    Akavia A, Leibovich M, Resheff Y S, et al. Privacy-preserving decision trees training and prediction[J]. ACM Transactions on Privacy and Security, 2022, 25(3): 1−30

    [51]

    Ma J P K, Zhao Yongjun, Tai R K H. Let's stride blindfolded in a forest: Sublinear multi-client decision trees evaluation[C/OL]//Proc of the 28th Symp on Network and Distributed System Security. Piscataway, NJ: IEEE, 2021[2022-08-15]. https://www.ndss-symposium.org/wp-content/uploads/ndss2021_5C-1_23166_paper.pdf

    [52]

    Liang Jinwen, Qin Zheng, Xiao Sheng, et al. Efficient and secure decision tree classification for cloud-assisted online diagnosis services[J]. IEEE Transactions on Dependable and Secure Computing, 2021, 18(4): 1632−1644 doi: 10.1109/TDSC.2019.2922958

    [53]

    Wang Chen, Wang Andi, Xu Jian, et al. Outsourced privacy-preserving decision tree classification service over encrypted data[J]. Journal of Information Security and Applications, 2020, 53: 1−13

    [54]

    Liu Liu, Su Jinshu, Zhao Baokang, et al. Towards an efficient privacy-preserving decision tree evaluation service in the Internet of things[J]. Symmetry, 2020, 12(1): 1−16

    [55]

    Liu Liu, Chen Rongmao, Liu Ximeng, et al. Towards practical privacy-preserving decision tree training and evaluation in the cloud[J]. IEEE Transactions on Information Forensics and Security, 2020, 15: 2914−2929 doi: 10.1109/TIFS.2020.2980192

    [56]

    Aloufi A, Hu Peizhao, Wong H W H, et al. Blindfolded evaluation of random forests with multi-key homomorphic encryption[J]. IEEE Transactions on Dependable and Secure Computing, 2021, 18(4): 1821−1835

    [57]

    Wang Qinfan, Cui Shujie, Zhou Lei, et al. EnclaveTree: Privacy-preserving data stream training and inference using TEE[C]//Proc of the 17th ACM Asia Conf on Computer and Communications Security. New York: ACM, 2022: 741−755

    [58]

    Bai Jianli, Song Xiangfu, Cui Shujie, et al. Scalable private decision tree evaluation with sublinear communication[C]//Proc of the 17th ACM Asia Conf on Computer and Communications Security. New York: ACM, 2022: 843−857

    [59]

    Jain A K, Mao Jianchang, Mohiuddin K M. Artificial neural networks: A tutorial[J]. Computer, 1996, 29(3): 31−44 doi: 10.1109/2.485891

    [60]

    Zhang Chuan, Zhu Liehuang, Xu Chang, et al. PPDP: An efficient and privacy-preserving disease prediction scheme in cloud-based e-Healthcare system[J]. Future Generation Computer Systems, 2018, 79: 16−25 doi: 10.1016/j.future.2017.09.002

    [61]

    Zhang Xiaoyu, Chen Xiaofeng, Wang Jianfeng, et al. Verifiable privacy-preserving single-layer perceptron training scheme in cloud computing[J]. Soft Computing, 2018, 22(23): 7719−7732 doi: 10.1007/s00500-018-3233-7

    [62]

    Ma Xindi, Ma Jianfeng, Li Hui, et al. PDLM: Privacy-preserving deep learning model on cloud with multiple keys[J]. IEEE Transactions on Services Computing, 2018, 14(4): 1251−1263

    [63]

    Liu Yang, Ma Zhuo, Liu Ximeng, et al. Privacy-preserving object detection for medical images with faster R-CNN[J]. IEEE Transactions on Information Forensics and Security, 2019, 17: 69−84

    [64]

    Osia S A, Shamsabadi A S, Sajadmanesh S, et al. A hybrid deep learning architecture for privacy-preserving mobile analytics[J]. IEEE Internet of Things Journal, 2020, 7(5): 4505−4518 doi: 10.1109/JIOT.2020.2967734

    [65]

    Wagh S, Gupta D, Chandran N. SecureNN: 3-Party secure computation for neural network training[C]//Proc of Privacy Enhancing Technologies Symp. Berlin: Springer, 2019: 26−49

    [66]

    Melissourgos D, Gao Hanzhi, Ma Chaoyi, et al. On outsourcing artificial neural network learning of privacy-sensitive medical data to the cloud[C]//Prof of the 33rd Int Conf on Tools with Artificial Intelligence. Piscataway, NJ: IEEE, 2021: 381−385

    [67]

    Shamsabadi A S, Gascón A, Haddadi H, et al. PrivEdge: From local to distributed private training and prediction[J]. IEEE Transactions on Information Forensics and Security, 2020, 15: 3819−3831

    [68]

    Liu Xiaoning, Zheng Yifeng, Yuan Xingliang, et al. MediSC: Towards secure and lightweight deep learning as a medical diagnostic service[C]//Prof of the 26th European Symp on Research in Computer Security. Berlin: Springer, 2021: 519−541

    [69]

    Huang Kai, Liu Ximeng, Fu Shaojing, et al. A lightweight privacy-preserving CNN feature extraction framework for mobile sensing[J]. IEEE Transactions on Dependable and Secure Computing, 2021, 18(3): 1441−1455

    [70]

    Zheng Yifeng, Duan Huayi, Tang Xiaoting, et al. Denoising in the dark: Privacy-preserving deep neural network-based image denoising[J]. IEEE Transactions on Dependable and Secure Computing, 2021, 18(3): 1261−1275 doi: 10.1109/TDSC.2019.2907081

    [71]

    Juvekar C, Vaikuntanathan V, Chandrakasan A. GAZELLE: A low latency framework for secure neural network inference[C]//Proc of the 28th USENIX Security Symp. Berkeley, CA: USENIX Association, 2018: 1651−1669

    [72]

    Mishra P, Lehmkuhl R, Srinivasan A, et al. Delphi: A cryptographic inference service for neural networks[C]//Proc of the 29th USENIX Security Symp. Berkeley, CA: USENIX Association, 2020: 2505−2522

    [73]

    Zhang Qiao, Xin Chunsheng, Wu Hongyi. GALA: Greedy computation for linear algebra in privacy-preserved neural networks[C/OL]//Proc of the 28th Symp on Network and Distributed System Security. Piscataway, NJ: IEEE, 2021 [2022-08-15]. https://www.ndss-symposium.org/wp-content/uploads/ndss2021_5C-3_24351_paper.pdf

    [74]

    Lehmkuhl R, Mishra P, Srinivasan A, et al. Muse: Secure inference resilient to malicious clients[C]//Proc of the 30th USENIX Security Symp. Berkeley, CA: USENIX Association, 2021: 2201−2218

    [75]

    Riazi M S, Weinert C, Tkachenko O, et al. Chameleon: A hybrid secure computation framework for machine learning applications[C]//Proc of the 13th ACM Asia Conf on Computer and Communications Security. New York: ACM, 2018: 707−721

    [76]

    Riazi M S, Samragh M, Chen Hao, et al. XNOR: XNOR-based oblivious deep neural network inference[C]//Proc of the 28th USENIX Security Symp. Berkeley, CA: USENIX Association, 2019: 1501−1518

    [77]

    Rathee D, Rathee M, Kumar N, et al. CrypTFlow2: Practical 2-party secure inference[C]//Proc of ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2020: 325−342

    [78]

    Agrawal N, Shahin S A, Kusner M J, et al. QUOTIENT: Two-party secure neural network training and prediction[C]//Proc of ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2019: 1231−1247

    [79]

    Liu Xiaoning, Wu Bang, Yuan Xingliang, et al. Leia: A lightweight cryptographic neural network inference system at the edge[J]. IEEE Transactions on Information Forensics and Security, 2021, 17: 237−252

    [80]

    Liu Xiaoning, Zheng Yifeng, Yuan Xingliang, et al. Securely outsourcing neural network Inference to the cloud with lightweight techniques[J/OL]. IEEE Transactions on Dependable and Secure Computing, 2022[2022-10-25]. https://ieeexplore.ieee.org/document/9674792

    [81]

    Chaudhari H, Rachuri R, Suresh A. Trident: Efficient 4PC framework for privacy preserving machine learning[C/OL]//Proc of the 27th Symp on Network and Distributed System Security. Piscataway, NJ: IEEE, 2020[2022-08-15]. https://www.ndss-symposium.org/wp-content/uploads/2020/02/23005-paper.pdf

    [82]

    Mohassel P, Rindal P. ABY3: A mixed protocol framework for machine learning[C]//Proc of ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2018: 35−52

    [83]

    Koti N, Pancholi M, Patra A, et al. SWIFT: Super-fast and robust privacy-preserving machine learning[C]//Proc of the 30th USENIX Security Symp. Berkeley, CA: USENIX Association, 2021: 2651−2668

    [84]

    Koti N, Patra A, Rachuri R, et al. Tetrad: Actively secure 4PC for secure training and inference[C/OL]//Proc of the 29th Symp on Network and Distributed System Security. Piscataway, NJ: IEEE, 2022[2022-08-15]. https://www.ndss-symposium.org/wp-content/uploads/2022−120-paper.pdf

    [85]

    Liu Yingqi, Ma Shiqing, Aafer Y, et al. Trojaning attack on neural networks[C/OL]//Proc of the 25th Symp on Network and Distributed System Security. Piscataway, NJ: IEEE, 2018[2022-08-15]. https://www.ndss-symposium.org/wp-content/uploads/2018/02/ndss2018_03A-5_Liu_paper.pdf

  • 期刊类型引用(1)

    1. 曹成昊,陈海英,王雯毅,梁金刚,佘顶,曹建主. 球床式高温气冷堆精细化堆芯核素积存量计算方法研究. 原子能科学技术. 2025(05): 1075-1084 . 百度学术

    其他类型引用(0)

图(11)  /  表(6)
计量
  • 文章访问数:  406
  • HTML全文浏览量:  95
  • PDF下载量:  203
  • 被引次数: 1
出版历程
  • 收稿日期:  2022-08-28
  • 修回日期:  2023-01-17
  • 网络出版日期:  2023-04-17
  • 刊出日期:  2023-06-30

目录

/

返回文章
返回