Loading [MathJax]/jax/output/SVG/jax.js
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

Web追踪技术综述

王晓茜, 刘奇旭, 刘潮歌, 张方娇, 刘心宇, 崔翔

王晓茜, 刘奇旭, 刘潮歌, 张方娇, 刘心宇, 崔翔. Web追踪技术综述[J]. 计算机研究与发展, 2023, 60(4): 839-859. DOI: 10.7544/issn1000-1239.202110681
引用本文: 王晓茜, 刘奇旭, 刘潮歌, 张方娇, 刘心宇, 崔翔. Web追踪技术综述[J]. 计算机研究与发展, 2023, 60(4): 839-859. DOI: 10.7544/issn1000-1239.202110681
Wang Xiaoxi, Liu Qixu, Liu Chaoge, Zhang Fangjiao, Liu Xinyu, Cui Xiang. Survey of Web Tracking[J]. Journal of Computer Research and Development, 2023, 60(4): 839-859. DOI: 10.7544/issn1000-1239.202110681
Citation: Wang Xiaoxi, Liu Qixu, Liu Chaoge, Zhang Fangjiao, Liu Xinyu, Cui Xiang. Survey of Web Tracking[J]. Journal of Computer Research and Development, 2023, 60(4): 839-859. DOI: 10.7544/issn1000-1239.202110681
王晓茜, 刘奇旭, 刘潮歌, 张方娇, 刘心宇, 崔翔. Web追踪技术综述[J]. 计算机研究与发展, 2023, 60(4): 839-859. CSTR: 32373.14.issn1000-1239.202110681
引用本文: 王晓茜, 刘奇旭, 刘潮歌, 张方娇, 刘心宇, 崔翔. Web追踪技术综述[J]. 计算机研究与发展, 2023, 60(4): 839-859. CSTR: 32373.14.issn1000-1239.202110681
Wang Xiaoxi, Liu Qixu, Liu Chaoge, Zhang Fangjiao, Liu Xinyu, Cui Xiang. Survey of Web Tracking[J]. Journal of Computer Research and Development, 2023, 60(4): 839-859. CSTR: 32373.14.issn1000-1239.202110681
Citation: Wang Xiaoxi, Liu Qixu, Liu Chaoge, Zhang Fangjiao, Liu Xinyu, Cui Xiang. Survey of Web Tracking[J]. Journal of Computer Research and Development, 2023, 60(4): 839-859. CSTR: 32373.14.issn1000-1239.202110681

Web追踪技术综述

基金项目: 中国科学院青年创新促进会(2019163);国家自然科学基金项目(61902396);中国科学院战略性先导科技专项项目(XDC02040100);中国科学院网络测评技术重点实验室和网络安全防护北京市重点实验室项目
详细信息
    作者简介:

    王晓茜: 1990年生. 博士研究生. 主要研究方向为网络安全、Web追踪

    刘奇旭: 1984年生. 博士,教授,博士生导师. 主要研究方向为Web安全和溯源取证

    刘潮歌: 1986年生. 博士,副教授. 主要研究方向为恶意代码和Web安全

    张方娇: 1989年生. 博士研究生. 主要研究方向为网络攻防和网安人才评估

    刘心宇: 1997年生. 博士研究生. 主要研究方向为Web安全和Android安全

    崔翔: 1978年生. 博士,教授,博士生导师. 主要研究方向为恶意代码分析和Web安全

    通讯作者:

    刘奇旭(liuqixu@iie.ac.cn

  • 中图分类号: TP391

Survey of Web Tracking

Funds: This work was supported by the Youth Innovation Promotion Association of Chinese Academy of Sciences (2019163), the National Natural Science Foundation of China (6190396), the Strategic Priority Research Program of Chinese Academy of Sciences (XDC02040100), and the Project of the CAS Key Laboratory of Network Assessment Technology and Beijing Key Laboratory of Network Security and Protection Technology
More Information
    Author Bio:

    Wang Xiaoxi: born in 1990. PhD candidate. Her main research interests include cyber security and Web tracking

    Liu Qixu: born in 1984. PhD, professor, PhD supervisor. His main research interests include Web security and attribution and forensic

    Liu Chaoge: born in 1986. PhD, associate professor. His main research interests include malware and Web security

    Zhang Fangjiao: born in 1989, PhD candidate. Her main research interests include cyber attack, defense and cybersecurity talents evaluation

    Liu Xinyu: born in 1997. PhD candidate. Her main research interests include Web security and Android security

    Cui Xiang: born in 1978. PhD, professor, PhD supervisor. His main research interests include malware analysis and Web security

  • 摘要:

    Web追踪技术已经成为信息化时代背景下的研究热点,是对用户进行身份标识和行为分析的重要手段. 通过跟进该领域的研究成果,从追踪技术和防御技术2方面分析Web追踪领域的研究与发展现状. 首先按照技术的实现方式将Web追踪分为了存储型追踪技术和指纹型追踪技术,分析了当前研究追踪现状. 其次按照追踪范围将Web追踪技术分为单浏览器追踪、跨浏览器追踪、跨设备追踪3个不同的层次,分析和讨论特征的获取技术和属性特点,论述特征、关联技术、追踪范围的关系;同时从Web追踪防御技术的形态角度,描述扩展防御、浏览器内嵌防御、防御框架工具和机制、防御对策或环境等不同技术的实现特点和抵御追踪的措施. 最后总结现有研究概况,针对性分析Web追踪技术和Web防御技术的优劣势,指出当下面临的问题及可能的发展方向.

    Abstract:

    Web tracking has become a research hotspot under the background of information age, and it is an important means for user identification and behavior analysis. By following up the research achievements in this field, we analyze the current status of researches and development situation in the field of Web tracking from the aspects of tracking technology or defense technology. Firstly, we introduce the current researches according to the implementation of technology, after dividing the Web tracking into storage tracking technology and fingerprint tracking technology. Secondly, according to the tracking ability of different technologies, we divide Web tracking technology into three different levels: single-browser tracking, cross-browser tracking and cross-device tracking, then we analyze and discuss the features’ acquisition technology and attribute characteristics of the features, expound the relationship among features, correlation technology and the scope of tracking technology. From the perspective of Web tracking defense technology, we describe the different technology implementation characteristics and defense countermeasures of defense of browser extension, browser-embedded defense, defense framework tools and other mechanisms, defense countermeasures or environment. Finally, we summarize the current research situation in the field of Web tracking, targetedly analyze the advantages and disadvantages of Web tracking technology and the Web defense technology, and point out the current problems and possible development directions in this field.

  • 近年来,智能网联汽车和无人驾驶技术得到了飞速发展,新型的智慧车辆已配备了高效的通信和计算设备. 在此背景下,智能汽车不仅仅是传统意义上的交通工具,更成为一个复杂的移动计算设备,在交通场景中担当着数据采集、处理和通信的重要角色. 这种以车辆为节点构建起来的巨大网络系统,被称为车联网[1](Internet of vehicles,IoV). 车联网已经不局限于车辆之间的信息传输,还能与交通基础设施、行人、网络服务等进行数据交换,实现资源共享和智能协同,从而提升出行的安全、效率和舒适性. 然而,随着车联网在数据收集、传输和处理方面的作用日益增强,数据安全和隐私保护问题也随之凸显. 汽车在行驶过程中会收集各种类型的敏感数据,例如车辆轨迹、驾驶员的驾驶行为、车内和车外环境信息等,这对车联网安全性提出了前所未有的挑战[2].

    在以车辆节点为边缘设备的计算场景中[3],联邦学习为车辆的隐私保护提供了新的解决方案. 不同于传统的集中式学习方法,联邦学习无需将大量数据上传到云端,而是通过移动的边缘设备在本地进行机器学习模型训练,再上传模型到云端完成全局聚合. 联邦学习减少了对中央服务器的依赖,并避免了大量数据传输的需要,减轻了网络带宽压力,还能够降低潜在的延迟问题. 更重要的是,联邦学习能够有效地解决“数据孤岛”问题[4],各个参与方在不直接共享原始数据的情况下,协同建立机器学习模型. 这种分布式学习结构将每个参与方的机器学习能力与对集中存储所有数据的需求分开,旨在不泄露个人或敏感信息的前提下提升模型的整体性能. 因此,联邦学习不仅提高了数据处理和机器学习的效率,还为保护用户隐私和数据安全提供了有效的途径.

    然而,在实际应用中,联邦学习中多个参与方所拥有的数据往往是具有异构性的,称为非独立同分布(non-independent and identically distributed,non-IID)数据[5]. non-IID数据的存在意味着各个车辆的数据可能在分布、量级,甚至质量上具有差异,这对联邦学习构成了新的挑战,其模型聚合过程可能需要更多的通信轮次和迭代步骤才能实现收敛,并且其模型的性能也会由于数据的不均衡性受到一定程度的影响,这是因为每个节点训练的模型参数反映的是其本地数据的特性,这些本地模型在全局聚合时可能会因为数据分布的差异性而导致不一致,从而影响最终模型的性能. 特别是在某些极端情况下,如某些参与节点的数据量极少或数据质量不佳,这些因素都可能导致整体模型表现下降. 因此,针对非独立同分布数据,在确保用户隐私安全的前提下,如何在有限的通信轮次和较短的时间内提高模型的收敛效率,是一个亟待解决的问题.

    本文提出了面向non-IID数据的车联网多阶段联邦学习机制,称为FedWO. 在第1阶段实现联邦平均多方计算,各车辆开始收集数据,数据量较小,服务器使用联邦平均(federated averaging,FedAvg)算法进行模型聚合,使全局模型快速达到一个较稳定的状态. 第2阶段是联邦加权多方计算,考虑到各车辆拥有的不同数据特性,依据模型准确度、数据丰富程度和数据量为各车辆的本地模型计算权重,实现联邦加权的模型聚合. 与此同时,设计了传输控制策略,选择部分车辆来上传本地模型和下载全局模型,从而降低模型传输的通信开销. 第3阶段为个性化计算,车辆不再与服务器通信,各个车辆依据本地的数据集微调模型参数,使模型达到更高的准确度.

    本文的贡献主要有3个方面:

    1)提出了3阶段联邦学习机制,包括联邦平均多方计算、联邦加权多方计算和个性化计算,充分考虑了收集过程中数据从无到有且各车辆数据分布不同的特点,解决了联邦学习面对non-IID数据时模型难收敛的问题.

    2)针对模型传输开销大的问题,设计了模型上传和下载的参与车辆选择方案,与上一轮全局模型相近的本地模型不再上传,在全局聚合中占比大的车辆不再下发全局模型,从而降低通信和计算开销.

    3)采用真实的驾驶行为数据集开展大量的实验,结果表明多阶段联邦学习机制在保护了用户数据隐私的前提下提升了模型精度.

    联邦学习作为新兴的边缘机器学习方法,已经被应用于金融、医学、计算机科学等领域,在保护用户数据隐私的同时,解决了“数据孤岛”的问题[6]. 在商业环境下,数据泄露会给供应商带来严重的经济损失,Lu等人[7]提出了一种安全数据共享架构,该架构基于区块链授权,采用了联邦学习中的隐私保护技术,将数据共享问题形式化为机器学习任务. 该架构虽对数据进行了隐私保护,但在如何提升参与方模型准确度方面的研究还不充分. 在联邦学习中,网络延迟和通信成本等问题也同样具有挑战. Luo等人[8]提出了一种低成本的采样算法来减少迭代次数,在保证模型收敛的前提下,实现成本最小化. He等人[9]将联邦学习应用于计算机视觉任务中,提出了一种FedCV联邦学习库和基准测试框架,以评估联邦学习在图像分类、图像分割以及目标检测任务中的表现. 由于多模态模型的盛行,相关研究和应用在学术界和工业界均得到了广泛关注. 文献[10]提出了一种联邦学习中基于Tucker分解的多源异构数据融合方法,该方法通过建立一个融合了异构空间维度特性的高阶张量,有效捕获异构数据中的高维特征,进而实现在联邦学习场景下多源异构数据的高效整合.

    近年来,一些工作以车辆为边缘计算节点,通过联邦学习实现车联网的协同决策. Kong等人[11]将联邦学习应用于移动设备中,提出了一种车牌识别框架FedLPR,提高了车牌的检测准确度,同时拥有可接受的通信成本. Liang等人[12]提出了一种半同步联邦学习协议Semi-SynFed,根据车辆节点的计算能力,动态地调整服务器的等待时间,以异步的方式进行全局聚合. 由于车联网在传输过程中的不可靠性,Lu等人[13]提出了一种基于区块链的联邦学习框架,将模型上传到区块链中并进行2阶段的验证,以保证共享数据的可靠性.

    联邦学习在自动驾驶领域也有广泛的应用. Tang等人[14]提出了一种基于联邦强化学习的驾驶控制算法DFRL,在Torcs平台上进行了大量实验,证明该算法提高了驾驶控制的精度,但未详细考虑车辆计算资源有限的问题. Parekh等人[15]提出了一种联邦学习的梯度加密算法,构建了一个德国交通标识识别系统,与传统的联邦学习相比,精度提高了2%. 为了解决车联网中信息共享所带来的风险,Qu等人[16]提出了一种基于信息融合和个性化隐私的PDP-PFL算法,通过加入噪声以及轻量级的网络结构对局部模型进行微调,实现对数据隐私的保护. 为了解决车辆节点在一段时间内只能执行1个任务的问题,Li等人[17]设计了一种考虑车辆选择和无线通信资源分配的任务驱动的车辆联邦学习算法,提高了车联网中多任务联邦学习的效率.

    车辆在行驶过程中通常会产生non-IID数据,导致全局模型难以收敛. 近年来,一些学者在研究面向non-IID数据的联邦学习机制时,通过应用聚类算法来提高模型的准确度;通过引入元学习技术,来实现个性化模型的训练;此外,还有通过优化模型权重分配机制,进一步提升模型的精度. 这些方法[18-26]的具体介绍如表1所示.

    表  1  面向non-IID数据的联邦学习相关工作
    Table  1.  Related Work on Federated Learning with non-IID Data
    类型 作者
    (年份)
    算法 方法 数据集
    聚类 He等人18] (2023) ASCFL 采用基于相似度的聚类策略,选择客户端参与训练,在数据集准确性和收敛速度之间实现动态平衡. ①CIFAR-10
    ②EMNIST
    Shu等人[19] (2022) FMTL 基于模型聚类实现对non-IID数据的多任务学习. ①MNIST
    ②CIFAR-10
    ③Caltech-101
    Tian等人[20] (2022) WSCC 基于权重相似性以及亲和传播,实现动态聚类. ①MNIST
    ②CIFAR-10
    ③IMDB Movie Review
    元学习 Dong等人[21] (2023) PADP-FedMeta 通过自适应隐私参数,实现个性化、自适应差分隐私联邦元学习机制. ①MNIST
    ②Synthetic
    Yang等人[22] (2023) G-FML 根据客户数据分布的相似性,自适应地将客户分组,并在每个分组中使用元学习获得个性化模型. ①Synthetic
    ②FEMNIST
    ③Shakespeare
    Li等人[23] (2022) FML-ST 使用元学习的个性化联邦学习方法,通过评估全局和本地模式图的差异,使每个客户端能够定制其模型. ①Citi-Bike Dataset
    (NYC,DC,CHI)
    权重 Hu等人[24] (2024) FedMMD 通过DCMT(dilated convolution meet transformer)模型进行特征提取,并使用SKNQ (student-keuls-newman-Q)方法和熵权法确定模型全局聚合权重,提高全局模型的学习精度和泛化能力. ①MNIST
    ②FMNIST
    ③CIFAR-10
    ④CIFAR-100
    Kim等人[25] (2021) FLC 通过分析机器学习模型各层的权重来对客户端进行聚类,并在聚类后的客户端中进行联邦学习. ①MNIST
    Zhang等人[26] (2021) CSFedAvg 利用权重差异识别客户数据的non-IID程度,选择non-IID数据程度较低的客户端,以更高的频率来训练模型. ①MNIST
    ②CIFAR-10
    下载: 导出CSV 
    | 显示表格

    综上所述,现有的技术主要解决独立同分布(IID)数据的联邦学习问题,而车联网中车辆收集的数据通常具有non-IID特性,针对non-IID数据的联邦学习解决方案还没有被充分挖掘,且在车辆计算资源有限的情况下,如何充分利用计算资源,提高通信效率是需要考虑的. 因此,本文旨在解决针对车联网non-IID数据的联邦学习中传输效率以及模型优化的问题.

    联邦学习[27]由Google在2016年提出,旨在创建一个保护个人数据隐私的多方计算机器学习框架,同时确保数据交换过程中的信息安全. 联邦学习的特点是在数据本地存储的基础上,实现“模型共享,数据私有”,从而解决“数据孤岛”问题和数据隐私保护问题. 联邦学习过程中每一轮训练可分为4个主要阶段[28]:1)模型下载;2)本地训练;3)模型上传;4)全局模型聚合. 使用联邦学习的车联网场景如图1所示. 下面将详细描述每个阶段的具体操作:

    图  1  车联网联邦学习示意图
    Figure  1.  Illustration of federated learning in IoV

    1)模型下载. 当前车辆在执行第t轮本地训练前,从服务器下载最新的全局模型,并加载到本地模型中. 服务器可以位于路边单元(road side unit,RSU)或云端,本文使用边缘节点RSU作为服务器,减少数据上传和下载的开销.

    2)本地训练. 当前车辆基于已加载的本地模型,使用本地数据开展本地模型训练,从而更新模型参数.

    3)模型上传. 当前车辆完成第t轮训练后,对本轮训练得到的本地模型参数进行加密,并上传到服务器.

    4)全局模型聚合. 服务器接收到第t轮所有参与方的模型参数后,开展全局模型聚合,得到新的全局模型作为下一轮训练的初始参数.

    在完成上述4个阶段后,标志着一轮联邦学习的结束. 通过不断迭代上述过程,实现模型的收敛.

    在车联网的联邦学习应用中,每台车辆的行驶路线、每位驾驶员的操作习惯等均不相同,因此导致多台车辆的数据呈现出non-IID的特征. non-IID数据主要包括5个种类[29]

    1)特征分布偏斜. 参与方的差异性导致数据的特征分布不均衡. 例如,在手写识别领域,用户写字的笔画粗细、倾斜度等可能会有很大不同.

    2)标签分布偏斜. 不同参与方的标签比例是不均衡的. 例如,在某一车辆中,某些标签在数据集中占有较高的比例,但在另一车辆中,这些标签并不会出现.

    3)相同标签,不同特征. 尽管不同参与方的样本携带相同的标签,但由于参与方所处的文化背景和环境差异,这些样本的特征表示可能会有显著的变化. 例如,“停车”标志在不同地区可能设计风格不一,尽管它们都传达相同的“停车”这一指令,但它们的外观和呈现的特征可能因地区而异,从而存在不同的特征表示.

    4)相同特征,不同标签. 对于具有相似特征的样本,其标签可能因个体差异或地域差异而有所不同. 例如,驾驶员头部左右转动以便查看路口处的路况,相同的头部动作对于视力健全人士是安全的,对于视力障碍人士可能不够安全.

    5)数量偏斜或不平衡. 这表现在数据集的规模差异上,通常是由于不同传感器收集的数据量不均衡等导致的. 样本数量较少的参与方在模型训练中可能面临偏差或过拟合的风险.

    由于现实中的复杂情况,各车辆的数据集通常表现出non-IID数据的特征. 联邦学习常用的全局模型聚合方法为FedAvg[30]算法. 在面对IID数据时,该算法的梯度下降方向相对一致,从而能较快地达到模型的收敛. 然而,在面对non-IID数据时,算法的梯度下降方向可能表现出发散的特征. 图2展示了这一情况. 因此,在处理non-IID数据时,联邦学习能否快速收敛是存在挑战的. 鉴于此,本文提出了一种多阶段联邦学习机制FedWO,旨在解决面对non-IID数据时联邦学习的收敛问题.

    图  2  IID数据和non-IID数据的模型收敛趋势
    Figure  2.  Model convergence trends for IID data and non-IID data

    本文提出车联网的多阶段联邦学习机制FedWO,该机制在确保车辆隐私的基础上,针对non-IID数据,旨在提升联邦学习方法的性能. 在本文讨论的车联网场景中,车辆从零开始收集数据,一边收集数据,一边开展联邦学习,实现全局模型的快速收敛,最终车辆的本地模型获得良好的性能. 本文所使用的主要符号及其意义如表2所示.

    表  2  本文主要符号
    Table  2.  Main Symbols in Our Paper
    符号 描述
    V 参与联邦学习的车辆集合,车辆vkV
    Ltk t轮车辆vk距离RSU覆盖边缘的距离
    sptk t轮车辆vk的平均速度
    Tt,stayk t轮车辆vk在RSU通信范围内停留时间
    Tt,downloadk t轮车辆vk下载模型的传输时间
    Tt,traink t轮车辆vk本地训练的时间
    Tt,uploadk t轮车辆vk上传模型的传输时间
    M 用于本地差分隐私的随机机制
    ωt t轮全局模型参数
    ωtk t轮车辆vk的本地模型参数
    η 本地模型学习率
    Fk(ωt) t轮车辆vk的本地模型损失函数
    Atk t轮车辆vk的本地模型准确度
    A 全部参与车辆V中最大的本地模型准确度
    DStk t轮车辆vk本地训练的数据丰富程度
    DS 全部参与车辆综合的数据丰富程度
    DQtk t轮车辆vk本地训练的数据量
    DQ 全部参与车辆的总数据量
    difftk t轮车辆vk本地模型与全局模型的差值
    下载: 导出CSV 
    | 显示表格

    图1所示,在1轮联邦学习过程中,车辆需要与RSU通信,实现模型下载和上传. 考虑到车辆处于快速移动过程中,为了避免车辆在未完成1轮联邦学习时离开RSU通信范围造成的资源浪费,RSU选择特定的车辆参与联邦学习,即当车辆在目前所处RSU通信范围内停留时间大于完成模型下载、本地训练以及模型上传的总时间时,即

    Tt,stayk>Tt,downloadk+Tt,traink+Tt,uploadk (1)

    其中Tt,stayk=Ltksptk ,车辆vk被选择参与联邦学习,否则不参与本轮联邦学习.

    本文在模型传输过程中,采用本地差分隐私(local differential privacy,LDP)技术来实现隐私保护,在数据集中输入任何一对xx,若随机机制M对任何输出Y都满足ϵ-LDP,则称M符合ϵ-LDP.机制M的隐私保证由隐私预算决定[31],用ϵ来表示,那么本地模型的隐私保护需要满足的条件[32]

    Pr[M(x)=Y]eϵPr[M(x)=Y] (2)

    其中ϵ的值越小,其隐私保护的程度就越高.

    图3所示,本文提出的多阶段联邦学习机制FedWO由3个阶段构成,即第1阶段联邦平均多方计算阶段、第2阶段联邦加权多方计算阶段、第3阶段个性化计算阶段,接下来将详细阐述各个阶段是如何工作的.

    图  3  多阶段联邦学习示意图
    Figure  3.  Illustration of multi-stage federated learning

    在数据收集的起始阶段,当RSU尚未获得一个相对稳定的全局模型时,联邦学习需要大量的参与者来贡献数据. 在联邦学习中有4种较为典型的算法,分别是联邦平均(FedAvg)、联邦近似(federated proximal,FedProx[33])、基于随机控制平均的联邦学习(federated learning via stochastic controlled averaging,SCAFFOLD[34])和基于归一化平均的联邦学习(federated learning via normalized averaging,FedNova[35]). FedAvg通过对各参与方的模型权重求平均来计算全局模型;FedProx在FedAvg的基础上增加了一个正则化项,以减少由于数据异质性带来的不稳定性,但需要调整额外的超参数;SCAFFOLD使用控制变量减少客户端与全局模型之间的差异,算法实现更复杂、计算和存储开销更大;FedNova则利用2阶优化方法和自适应正则化技术提高收敛速度和性能,其实现相对复杂,需要精确控制不同客户端的更新步数.

    在数据收集起始阶段,场景中的数据从无到有,逐渐积累. 虽然FedProx,SCAFFOLD,FedNova在处理数据异质性方面有其独特的优势,但此时的主要矛盾不是各参与方的数据异质性,而是尽快建立一个基本稳定且有效的全局模型. 此时,简单高效的FedAvg更为适合,它不涉及额外的控制信息或参数(如FedProx的正则化项或SCAFFOLD的控制变量),对于初期的模型探索和快速部署来说,这种简单性是一个显著优势. 因此,本文第1阶段使用FedAvg来聚合全局模型,所有车辆的本地模型拥有相同的权重,公式如下:

    ωt=ωt1Nk=11NηFk(ωt) (3)

    其中ωt是第t轮全局模型参数,ωt1是第t–1轮全局模型参数,N是参与联邦学习的车辆数,η是本地模型学习率,Fk(ωt)是第t轮车辆vk的本地模型损失函数.

    服务器端的全局模型性能将被视为进入第2阶段的重要指标. 当服务器的模型精度趋向稳定时,本文的联邦学习机制FedWO进入第2阶段.

    考虑到车辆数据的non-IID特性,若持续使用FedAvg算法,将导致全局模型难以实现优化训练精度的目标. 为了解决这一问题,本文在第2阶段全局模型聚合时对不同车辆的权重进行重新分配. 权重的取值受到3个因素的影响:1)模型的准确度. 具有较高模型准确度的车辆在全局模型聚合中将被分配更高的权重. 2)数据集的丰富程度. 数据集更为丰富的车辆在全局模型中的权重更大. 3)数据集的大小. 车辆所收集到的数据量越大,在全局模型中的权重越大.

    综合上述3个因素,在全局聚合过程中,为不同车辆的本地模型分配不同的权重,从而优化全局模型的泛化能力. 其全局模型聚合公式为

    ωt=ωt1Nk=1(αAtkA+βDStkDS+γDQtkDQ)ηFk(ωt) (4)

    其中Atk是第t轮车辆vk的本地模型准确度,A是全部参与车辆中最大的本地模型准确度,DStk是第t轮车辆vk本地训练的数据丰富程度,DS是全部车辆综合的数据丰富程度,DQtk是第t轮车辆vk本地训练的数据量,DQ是全部车辆的总数据量,权重0α,β,γ1α+β+γ=1.

    在联邦加权多方计算阶段,为了优化计算和通信资源的利用率,本文提出一种传输控制策略,通过选择参与联邦学习的车辆来减少传输开销. 选择联邦学习的参与方需要从2个维度进行评估:一是车辆本地模型的上传;二是RSU的模型下发. 因此,该传输控制策略的核心是本地模型上传和全局模型下载的参与车辆选择,下面分别进行详细讨论.

    1)车辆本地模型的选择性上传

    若第t轮的本地模型参数与第t-1轮的全局聚合模型之间存在较大差异,则意味着该车辆在本轮训练中学到了新的知识,这部分知识应被纳入全局模型中,因此,该车辆需上传本地模型参数. 相反,若在第t轮迭代中,车辆vk的本地模型参数与第t-1轮的全局模型参数差异不显著,那么该车辆vk将不上传本轮次的本地模型参数,从而节省通信开销和计算开销. 本文使用L2范数来计算2个模型的差异,即

    difftk=(ωtkωt1)2. (5)

    2)服务器端全局模型的选择性下发

    若车辆vk在第t轮中上传了本地模型,并且其在全局模型聚合中的权重较大,即αAtkA+βDStkDS+γDQtkDQ>φφ为超参数),则认为该轮的全局模型与车辆vk的本地模型相似的可能性较大,那么RSU不向该车辆分发第t轮的全局聚合模型,从而节省传输开销.

    在该传输控制策略中,只有对全局模型可能产生显著影响的车辆才会上传本地模型,只有新的全局模型与本地模型差异较大的车辆才会下载新的全局模型,从而避免不必要的数据传输,减少车辆和RSU之间模型传输带来的通信开销,同时降低RSU对全局模型聚合的计算开销,以及车辆更新本地模型的计算开销,提升资源利用率. 未来通过车辆聚类、异步联邦等技术,有望进一步降低通信成本.

    在模型的选择性上传和下载的过程中,为保证本地模型与全局模型的一致性,设置2项规则:1)在每一轮迭代中,每辆车至少参与模型参数的上传或下载其中之一,不允许车辆在同一轮次中完全不与服务器交互. 2)若在第t轮中,RSU没有向车辆vk分发全局模型,那么在第t+1轮,该车辆必须主动参与本地模型参数的上传. 上述规则确保了联邦加权多方计算过程的平稳进行,同时提升了车辆和RSU之间的传输效率.

    针对non-IID数据,传统的联邦计算方法,如联邦平均计算和联邦加权计算,可能面临一些挑战. 尤其是在经过这些计算阶段后,通过全局聚合得到一个通用模型,该模型可能无法捕捉到某一特定数据源(如某一辆车)不同于其他数据源的独特数据特征. 这种损失可能导致无法进一步优化特定的本地模型,有时甚至可能导致模型性能的下降. 为了解决这一问题,本文在获得通用模型后,利用本地数据特征对其进行微调,从而更好地适应本地的数据分布. 这种基于本地特性的微调可以有效地增强模型的性能,特别是在处理那些与总体数据分布存在差异的本地数据时. 本文将这个基于本地数据特性微调的阶段称为“个性化计算”阶段. 这一阶段的目标是确保模型能够准确地捕捉并利用每一个数据源的独特信息,从而实现在本地数据上获得最佳性能的模型. 为了解决这一问题,当车辆vk使用全局模型训练的性能有所下降时,本文建议车辆不再参与联邦学习而进入个性化计算阶段.

    个性化学习阶段的车辆本地模型架构如图4所示,共有5个卷积块,每个卷积块由卷积层和最大池化层组成,卷积层的激活函数是ReLU,在5个卷积块之后有一个全局平均池化层,随之相连的是全连接层,全连接层的激活函数采用Softmax. Softmax函数通常用于分类任务,将网络输出转换为概率分布. 模型微调策略只重新训练全连接层,实验中的模型设置见4.2节. 在前2个阶段的联邦学习中,车辆已经对模型进行多轮训练,卷积层已经学到了足够的特征表示,而全连接层更关注于如何将这些特征映射到最终的输出. 此阶段的模型微调只训练全连接层,不仅可以进一步提升模型准确度,而且可以减少训练的参数,节省计算资源和训练时间.

    图  4  个性化计算阶段网络微调结构图
    Figure  4.  Network fine-tuning structure diagram for the personalized computing phase

    服务器和车辆的多阶段联邦学习算法分别如算法1和算法2所示.

    算法1. 服务器的多阶段联邦学习算法.

    输入:参与联邦学习的车辆集合V,训练轮次T,阈值φ

    输出:全局模型参数ωt.

    ① 初始化全局模型参数ω0t = 0,V=V

    ② while tT do

    ③  t = t + 1;

    ④  if t属于“阶段1”do

    ⑤  将ωt1下发给所有参与车辆V

    ⑥  接收所有参与车辆的本地模型参数ωtk

    ⑦   ωt=ωt1Nk=11NηFk(ωt)/*联邦平均*/

    ⑧  else if t属于“阶段2”do

    ⑨  将ωt1下发给选择出的参与车辆 V

    ⑩  接收参与车辆的本地模型参数ωtk

    ⑪   ωt=ωt1Nk=1(αAtkA+βDStkDS+γDQtkDQ) ηFk(ωt)/*联邦加权*/

    ⑫   V=V

    ⑬   for vkV do

    ⑭    if αAtkA+βDStkDS+γDQtkDQ>φ do

    ⑮     V=V{vk} ; /*下发车辆*/

    ⑯    end if

    ⑰   end for

    ⑱  end if

    ⑲ end while

    算法2. 车辆的多阶段联邦学习算法.

    输入:参与联邦学习的车辆vkV,训练轮次T,阈值δ,学习率η

    输出:本地模型参数ωTk.

    t = 0;

    ② while tT do

    t = t + 1;

    ④ if t属于“阶段1”do

    ⑤ 接收服务器的全局模型参数ωt1

    ωtk=ωt1ηFk(ωt)/*本地训练*/

    ⑦ 上传本地模型参数ωtk给服务器;

    ⑧ else if t属于“阶段2” do

    ⑨ if 服务器向vk发送了全局模型参 数ωt1 do

    ⑩ 接收服务器的全局模型参数 ωt1

    ωtk=ωt1ηFk(ωt)/*本地训练*/

    ⑫ if (ωtkωt1)2>δ do

    ⑬ 上传本地模型参数ωtk给服务器; /*上传车辆*/

    ⑭ end if

    ⑮ else

    ωtk=ωt1kηFk(ωt)/*本地训练*/

    ⑰ 上传本地模型参数ωtk给服务器;

    ⑱ end if

    ⑲ else /* 阶段3,个性化计算 */

    ωtk=ωt1kηFk(ωtk)

    ㉑ end if

    ㉒ end while

    ㉓ 返回本地模型参数ωTk.

    本文采用2016年在Kaggle上发布的公开数据集[36],该数据集是由车内摄像头采集到的驾驶员状态图像,展现了驾驶过程中出现的驾驶分心情况,其中包括10种类别,如表3所示,每种类别的行为示例见图5.

    表  3  司机行为类别
    Table  3.  Driver Behavior Category
    类别司机的行为
    C0安全驾驶
    C1用右手发短信
    C2用右手打电话
    C3用左手发短信
    C4用左手打电话
    C5操作收音机
    C6喝东西
    C7伸手到后面
    C8整理发型和妆容
    C9与乘客交谈
    下载: 导出CSV 
    | 显示表格

    本文先将数据集按驾驶员进行划分,再按采集时间将数据划分到多个轮次(epoch),模拟在车辆行驶过程中,车内传感器不断收集数据和进行联邦学习. 以驾驶员People81为例,每个轮次累计的图片数量如图6所示,第1轮采集到了伸手到后面(C7)以及整理发型和妆容(C8)类别的动作图像;随着时间的推移,不断采集到更多种类的行为数据,第4轮已经收集到右手打电话(C2)、操作收音机(C5)、伸手到后面(C7)以及整理发型和妆容(C8)这4种类别的图像.

    图  5  数据集分类示例
    Figure  5.  Examples of dataset classification
    图  6  People81的数据采集过程
    Figure  6.  Data collection process of People81

    本实验选择了5位驾驶员的数据,分别是People26,People35,People42,People72,People81,对每一个参与方每一类动作的图片数量进行统计,其结果如图7所示. 由图7可见,People72数据量最小,People26数据量最大. 对于大部分人,每一种行为的数据量基本一致,经统计,People42呈现均匀分布,每一类图片数量都是59张;People72的数据最不均衡,最多的一类C0有63张,而C7种类的图片只有2张. 这反映出车辆所收集到的数据是non-IID数据. 本文将数据集划分为训练集(70%)和测试集(30%).

    图  7  参与方行为的图片统计
    Figure  7.  Behavior images statistics of participants

    本文评估了3种经典的神经网络模型在驾驶行为分析任务中的模型性能,包括VGG 16,Inception,ResNet 50,评估指标包括模型的准确度和损失. 准确度反映了模型正确预测样本的比例,在分类任务中,高准确度意味着模型能够正确分类更多的样本;损失反映了模型预测值与真实值之间的差异,损失越低表示模型的预测越接近真实标签,在训练深度学习模型时的目标是最小化损失函数. 经过实验评估,选择VGG 16模型作为多阶段联邦学习的基准模型,模型结构如图4所示,输入图片大小为224×224,经过卷积层、最大池化层、全局平均池化层和全连接层,最终输出一个大小为10的预测向量,这对应于本文所采用数据集中的10种驾驶行为.

    为验证本文提出的多阶段联邦学习机制FedWO的性能,一共进行10轮次训练. 经实验分析,设置第1~3轮次为第1阶段,开展联邦平均多方计算;第4~7轮次为第2阶段,开展联邦加权多方计算;第8~10轮次为第3阶段,开展个性化计算. 实验选择了4种对比方法,包括Only,FedA,FedAO,FedW. Only算法只有本地训练、没有联邦学习,即车辆执行10轮本地训练;FedA是联邦平均算法,即车辆执行10轮联邦平均;FedAO是联邦平均与个性化结合算法,即第1~7轮采用联邦平均,第8~10轮采用本地训练;FedW是联邦加权算法,即第1~3轮采用联邦平均,第4~10轮采用式(4)的联邦加权.

    在本研究中,超参数δφ的合适取值是通过实验分析获得的. 在模型比较的初步实验中,根据多参与方模型差值的分布规律,设置δ=0.4. 在实验中观察到当φ=0.3时,模型性能与通信效率之间达到平衡. 此外,在式(4)中,αβγ的取值影响着模型聚合. 在本实验中,算法准确度、数据丰富程度以及数据量大小同等重要,因此设置α=β=γ=13. 在某些情况下,可以忽略特定因素的影响,例如:当各参与方的数据集大小相同时,可将数据集大小的参数γ设置为0,忽略该参数对全局模型的影响. 同理,若本地模型准确度对于全局聚合影响较大,则适当调大α.

    实验使用Linux操作系统,GPU内存6 GB,程序开发工具为Python 3.7,Tensorflow 2.0.0,Keras 2.3.1,CUDA 11.2. Tensorflow具有出色的分布式处理能力,适用于联邦学习场景中在多个设备或节点上并行处理数据和训练模型. Keras作为Tensorflow的一个高级API,提供了用户友好的界面,使得模型构建和测试更便捷. CUDA提供通用并行计算架构,使得Tensorflow和Keras能够利用GPU实现加速,显著提高了模型训练和数据处理的速度,从而能够解决复杂的计算问题. 本文选择Tensorflow,Keras,CUDA,是因为它们为联邦学习提供了高效的分布式处理和GPU加速,这对于处理复杂的数据集和加快模型训练至关重要.

    本文进行了多次重复独立实验来消除实验结果的随机性,首先对比了不同神经网络模型的性能优劣,对比模型分别为VGG 16,Inception,ResNet 50,结果如图8所示. 实线代表准确度,虚线代表损失函数值. 以People81为例,在10轮次后,使用VGG 16进行本地训练得到的模型准确度达到95.25%,而使用Inception和ResNet 50模型的准确度分别为74.22%和91.97%,相较于VGG 16分别降低了21.03个百分点和3.28个百分点;从模型收敛性来看,VGG 16模型的损失值为0.49,而Inception和ResNet 50的损失值分别为0.84和0.65,可见在10个轮次内VGG 16模型收敛性更好. 因此,本文方法采用VGG 16模型,以实现较高的模型准确度和收敛速度.

    图  8  参与方People81使用不同模型获得的准确度和损失
    注:实线代表准确度;虚线代表损失.
    Figure  8.  Accuracy and loss obtained by participant People81 using different models

    接下来对比了Only,FedA,FedAO,FedW,FedWO算法性能的优劣,结果如图9所示. People26和People35在第1轮的损失函数值分别为0.000 07和0.000 175,近乎于0,准确度也达到了100%. 分析其数据集可发现,第1轮他们分别只收集到1类数据,模型分类简单,因此达到了100%的准确度. 而People42和People81在第1轮收集到2类数据,模型分类准确度有所降低,但也在90%以上. 而People72在第1轮的准确度只有88.93%,损失函数值为0.72,也较高,分析发现,People72在第1轮有2类数据,且数据量只有45张,数据集小以及数据种类增多导致了People72的分类准确度低.

    图  9  车辆本地模型的准确度及损失
    注:实线表示准确度;虚线表示损失.
    Figure  9.  Accuracy and loss of vehicles local model

    对所有人而言,相较其他算法,本地训练算法Only的准确度是最低的,损失函数值也是最高的,Only算法相较于其他算法不收敛,对于People42和People72结果尤其明显. 但对于People26,People35,People81来说,在最后1轮时,FedA算法的准确度是低于Only算法的,这也证明了,针对non-IID数据,FedA算法性能不够好.

    与其他算法相比,本文提出的FedWO算法总体上呈现最优的效果,同时联邦加权算法FedW分类结果优于FedA,虽然People26在第5轮时其性能有所下降,但随着轮次的增加,其性能是有所提升的. 对每一种算法在训练结束时(即第10轮)的分类准确度进行统计分析,如表4所示. 由表4可见,FedWO拥有最高的准确度;与FedA相比,FedWO算法在People26,People35,People42,People72,People81参与方的准确度分别提升了6.33个百分点、5.57个百分点、1.5个百分点、1.78个百分点、3.45个百分点,损失函数值降低了0.36,0.13,0.02,0.13,0.07;与Only相比,FedWO准确度分别提升了3.44个百分点、5.21个百分点、3.31个百分点、4.81个百分点、2.85个百分点,损失函数值降低了0.16,0.46,0.34,0.44,0.48. 从5个参与方的算法损失值来看,在10轮训练结束后,FedWO均展现了最低的损失函数值,这表明FedWO在有限的训练轮次中实现了更好的模型收敛. 综上可见,本文提出的多阶段联邦学习机制在面向non-IID数据时具有更好的性能.

    表  4  算法准确度对比
    Table  4.  Comparison of Algorithm Accuracy %
    参与方 Only FedA FedAO FedW FedWO
    People26 90.47 87.58 90.96 92.96 93.91
    People35 94.08 93.72 98.46 95.50 99.29
    People42 96.59 98.40 98.59 98.84 99.90
    People72 93.25 96.28 98.11 97.02 98.06
    People81 95.25 94.65 97.12 97.04 98.10
    注:黑体数值为最优值.
    下载: 导出CSV 
    | 显示表格

    在FedWO机制中,通过控制车辆上传本地模型以及服务器下发全局模型,实现对通信资源的有效利用. 为验证相关性能,本实验对模型平均传输次数进行统计. 对比算法有4个,即全部上传和下发的FedWO、支持选择上传的FedWO(up)、支持选择下发的FedWO(down)以及支持选择上传和选择下发的FedWO(up+down),其功能如表5所示. 选择上传表示车辆可以选择是否向服务器上传本地模型,全部上传表示全部参与车辆都要向服务器发送本地模型,选择下发表示服务器选择是否向车辆发送全局聚合模型,全部下发表示服务器将全局模型下发给全部参与车辆.

    表  5  传输控制策略
    Table  5.  Transmission Control Policy
    算法选择上传全部上传选择下发全部下发
    FedWO
    FedWO (up)
    FedWO (down)
    FedWO (up+down)
    下载: 导出CSV 
    | 显示表格

    4种算法的平均传输次数如图10所示. 在FedWO中,每一轮次都有2次数据传输,分别是上传与下发,前7轮训练共传输14次,后3轮是个性化计算,不需要上传和下发,而本文所提出的传输控制策略明显降低了传输开销. 对于People26与People35,3种降低开销方法的平均传输次数是一样的,分别是11次和9次,都明显低于FedWO的14次. People42的FedWO(up)的平均传输次数略高于FedWO(down)与FedWO(up+down),可见控制模型下发对其更有效. 对于People72,FedWO(up+down)明显低于其他3种方法,平均传输次数为7.2次;对于People81,FedWO(up+down)的传输开销略高于FedWO(down). 总体来看,FedWO(up+down)表现出较好的性能,验证了本文所设计的传输控制策略能够降低通信资源消耗.

    图  10  平均传输次数
    Figure  10.  Average number of transmissions

    执行传输控制策略的前提是不能对模型性能产生显著影响,FedWO,FedWO(up),FedWO(down),FedWO(up+down)的分类准确度及损失变化如图11所示. 除了People72在第1轮的准确度是88.93%以外,各算法的准确度都在90%以上. 不同的传输控制策略在不同轮次中表现出不同的性能. FedWO和FedWO(up+down)在大部分轮次中性能较好,尤其是在后几轮. 而FedWO(up)和FedWO(down)在中间的轮次中波动较大,但最终都趋于稳定. 在10轮训练结束后,FedWO(up+down)对People26和People81的分类准确度最高,分别达到了94.3%和98.4%. 而对People35和People42来说,依然是FedWO的准确度较高,比FedWO(up+down)分别高了0.6个百分点和1个百分点. 对于People72,FedWO和FedWO(up+down)的准确度基本一致,分别是98.06%和98%. 从5个参与方的损失函数值变化来看,在有限的10轮次训练中,整体模型收敛趋势一致,在第10轮结束后,损失值均趋向于0. 而对People81来说,FedWO(up)在最后的3轮次中,损失值有所升高,其原因可能是在进行个性化训练时,出现了模型过拟合的情况. 总体来说,与FedWO相比,具有传输控制方法的准确度变化不大,模型收敛情况基本一致. 因此,FedWO(up+down)能够有效地减少开销,且不会对参与方模型准确度造成显著影响,验证了FedWO的有效性.

    图  11  具有传输控制的本地模型准确度和损失
    注:实线代表准确度;虚线代表损失.
    Figure  11.  Accuracy and loss of local model with transmission control

    本文还比较了不同数量的参与方对联邦学习算法性能的影响,结果见表6. FedWO(5)表示5个参与方的联邦学习,FedWO(4) w/o People26表示不包含People26的4个参与方(即People35,People42,People72,People81)的联邦学习,以及FedWO(4) w/o People72表示不包含People72的4个参与方(即People26,People35,People42,People81)的联邦学习. 数据显示,增加People26后,People35,People42,People81的模型准确度分别上升了0.52个百分点、1.4个百分点、0.06个百分点;增加People72后,People35和People42的模型准确度略微上升,分别上升了0.29个百分点和0.37个百分点,而People81的准确度下降了1.4个百分点. 在第7轮次结束后,People72与People81拥有相同的3类数据,数据种类少、关联性大,People72对People81可能存在消极影响,导致增加People72后,People81的模型准确度有所下降.

    表  6  不同参与方对模型准确度的影响
    Table  6.  Impact of Different Participants on Models’ Accuracy
    参与方FedWO(4)
    w/o People26
    FedWO(4)
    w/o People72
    FedWO(5)
    People3598.7799.0099.29
    People4298.5099.5399.90
    People8198.0499.5098.10
    下载: 导出CSV 
    | 显示表格

    综合表6图6可见,联邦学习的参与方数量及其数据质量会影响算法的准确度. People26具有较为丰富的数据集,其参与联邦学习能够优化全局模型,使其他参与方的模型准确度有所上升. 相比之下,People72的数据量和数据种类较少,其加入联邦学习对其他参与方的影响有好有坏. 这表明,拥有高质量数据的参与方加入联邦学习,将对整体模型的准确度产生积极影响. 反之,如果某参与方的数据量和质量较低,则可能对模型准确度产生负面影响.

    本文提出了一种面向non-IID数据的多阶段联邦学习机制FedWO,旨在解决联邦学习参与方本地数据不均衡的情况下,联邦学习中模型不收敛的问题. 具体来说,第1阶段使用联邦平均算法(FedAvg)进行联邦学习,其目的是更快地达到一个全局模型参数基准;第2阶段考虑每台车辆本地模型的精度、数据丰富程度和数据量,使用联邦加权算法进行多方计算,同时加入了传输控制策略,以减少在联邦学习中上传和下载模型所带来的开销;为了使本地模型达到更高的准确度,第3阶段采用个性化计算,各个参与车辆使用本地数据再次微调本地模型参数,使得模型更优. 使用驾驶员状态数据集的实验表明,与其他算法相比,本文提出的多阶段联邦学习机制针对non-IID数据具有更高的模型准确度,同时降低了传输开销.

    随着人工智能技术的飞速发展,模型的解释性在联邦学习的应用中扮演着重要角色,尤其在敏感领域,如交通、金融、医疗和法律等,用户和专业人士需要清晰地了解模型的决策逻辑,以培养对模型的信任并合理地应用模型输出. 如何提升联邦学习模型的可解释性,以及优化联邦学习的传输控制以适应不同类型的网络环境,将是未来的研究方向.

    作者贡献声明:唐晓岚提出了算法思路和实验方案;梁煜婷负责完成实验并撰写论文;陈文龙提出指导意见并修改论文.

  • 表  1   存储型追踪技术能力分析

    Table  1   Analysis of Storage Tracking Technology Capabilities

    存储型追踪使用范围(常规浏览器)是否跨域共享多位置置存储是否多浏览器共享存储时长其他
    Cookie全部是(可使用前后端技术实现)设置过期时间安全性较低
    Flash Cookie全部默认无过期时间已弃用
    UserDataWindows + IE5设置过期时间已弃用
    EverCookie全部是(使用Flash Cookie机制)可通过各种存储机制重建已弃用
    SessionStorage除IE8以下版本
    之外浏览器
    浏览器会话时效内安全性较低
    LocalStorage除IE8以下版本
    之外浏览器
    非主动删除不过期安全性较低
    Web SQL部分无限制已弃用
    IndexedDB全部无限制安全性较低
    下载: 导出CSV

    表  2   JavaScript对象的API及对应获取的信息

    Table  2   API of JavaScript Object and the Corresponding Obtained Information

    JavaScript对象API获取的信息
    Navigator(宿主对象)navigator.platform系统平台
    navigator.userAgent用户代理
    navigator.language浏览器首选语言
    navigator.cpuClass浏览器CPU等级
    navigator.plugins插件列表
    navigator.doNotTrack是否设置不追踪
    Screen(宿主对象)screen.width/screen.height屏幕分辨率
    screen.availWidth/screen.availHeight屏幕可用分辨率
    colorDepth色彩深度
    Date(内置对象)getTimezoneOffset()时区
    下载: 导出CSV

    表  3   指纹型追踪技术特征分类及介绍

    Table  3   Classification and Introduction of Fingerprint Tracking Technology Features

    特征分类可利用特征变化因素获取方式
    浏览器特征用户代理(user agent,UA)随浏览器升级而变化,短期内稳定API
    语言与用户设置相关,相对稳定API
    字体与系统安装字体相关,不稳定枚举探测
    历史记录、浏览器缓存随用户使用习惯变化,可清除,不稳定枚举探测
    插件随系统安装软件变化,不稳定API
    扩展随用户喜好和使用率变化,不稳定枚举探测
    操作系统特征操作系统类型与系统安装相关,较为稳定API
    时区与用户设置相关,相对稳定API
    主机缓存与用户行为相关,短期内相对稳定枚举、间接利用
    网络特征公网IP与网络环境相关,不稳定HTTP头获取
    内网IP、内网主机信息及开放端口与内网环境相关,不稳定漏洞利用、枚举探测
    TLS会话追踪与网站和浏览器设置相关,相对稳定攻击利用
    硬件特征硬件平台、分辨率、色彩深度与硬件本身相关,短期内无变化,较为稳定API
    CPU、GPU、音频、电池与硬件属性和性能相关,较为稳定API、测量获取
    用户交互特征是否设置“不追踪”、鼠标键盘记录与用户操作相关,不稳定算法分析
    存储型追踪标识Cookie、HTML5存储型API与用户操作相关,可清除,相对稳定API
    下载: 导出CSV

    表  4   浏览器扩展枚举技术研究

    Table  4   Researches on Technologies of Enumerating Browser Extension

    研究技术扩展数据集技术形式功性能
    XHOUND[29]10000个最流行的Google Chrome扩展对页面DOM进行的独特的
    修改进行检测
    几秒钟内对数十个扩展进行指纹识别
    Discovering Extensions
    via WARs[26]
    43429 个Chrome扩展通过Web可访问资源,
    检测扩展是否存在
    可检测前1000个免费的Chrome扩展中的50%以上和所有Chrome扩展的28%
    Extension breakdown[28]718个Safari扩展URI泄露技术可识别40%以上的Safari扩展
    Latex Gloves[27]62994个Chrome扩展,
    8646个Firefox扩展
    WAR检测,以及检测扩展
    在网页中注入的代码
    能够识别90%的内容注入型扩展
    Carnus[30]29428个可检测的
    Chrome扩展
    4种不同的检测技术83.6%~87.92%的指纹在最先进的对策下仍然有效
    Fingerprinting in Style[31]116485 Chrome扩展注入CSS的枚举插件Extension可识别4446个扩展,且有1074个扩展(24%)未被之前的技术识别
    下载: 导出CSV

    表  5   防御技术的形态与其使用的抵抗手段

    Table  5   The Forms and Used Resistance Means of Defense Technology

    防御技术形态抵抗手段
    扩展内嵌防
    御机制
    框架/工
    具/机制
    对策或
    环境
    随机化
    策略
    引入
    噪音
    属性
    重组
    重写/
    欺骗
    访问
    控制
    同质
    环境
    算法信息
    隔离
    用户
    参与
    FPGuard[101]
    PriVaricator[102]
    Blink[96]
    FP-Block[89]
    TrackingFree[95]
    Cliqz[98]
    TrackMeOrNot[88]
    隐藏特征属性[97]
    Tor[113]
    BrowsingFog[91]
    FPRandom[103]
    Latex Gloves[27]
    PETInspector[114]
    FingerprintAlert[90]
    抑制扩展膨胀[100]
    CloakX[111]
    UNIGL[105]
    docker集群组装[112]
    VisibleV8[106]
    Canvas Blocker[92]
    Canvas Deceiver[93]
    FPSelect[106]
    BrFAST[108]
    My Rules[94]
    注:“√”表示防御技术具备某种形态或包含某种抵抗手段.
    下载: 导出CSV

    表  6   防御技术对追踪技术的防御覆盖度

    Table  6   The Defensive Coverage that Defensive Technology Possessed to Tracking Technology

    防御技术基本特征IPCookieCanvas
    指纹
    WebGL
    指纹
    Audio
    指纹
    历史记录字体扩展缓存硬件信息JS属性
    枚举检测
    TLS会话交互式
    追踪
    FPGuard[101]
    PriVaricator[102]
    Blink[96]
    FP-Block[89]
    TrackingFree[95]
    Cliqz[98]
    TrackMeOrNot[88]
    隐藏特征属性[97]
    Tor[113]
    BrowsingFog[91]
    FPRandom[103]
    Latex Gloves[27]
    PETInspector[114]
    FingerprintAlert[90]
    抑制扩展膨胀[100]
    CloakX[111]
    UNIGL[105]
    docker集群组装[112]
    VisibleV8[106]
    Canvas Blocker[92]
    Canvas Deceiver[93]
    FPSelect[106]
    BrFAST[108]
    My Rules[94]
    注:“√”表示防御技术覆盖了该项追踪技术.
    下载: 导出CSV
  • [1]

    Eckersley P. How unique is your web browser? [C/OL] //Proc of the 10th Int Symp on Privacy Enhancing Technologies. Berlin: Springer, 2010[2021-03-21]. https://link.springer.com/content/pdf/10.1007/978-3-642-14527-8.pdf

    [2] 张玉清,武倩如,刘奇旭,等. 第三方追踪的安全研究[J]. 通信学报,2014,35(9):1−11 doi: 10.3969/j.issn.1000-436x.2014.09.001

    Zhang Yuqing, Wu Qianru, Liu Qixu, et al. Research on security of third-party tracking[J]. Journal on Communications, 2014, 35(9): 1−11 (in Chinese) doi: 10.3969/j.issn.1000-436x.2014.09.001

    [3]

    Bujlow T, Carela-Español V, Sole-Pareta J, et al. A survey on web tracking: Mechanisms, implications, and defenses[J]. Proceedings of the IEEE, 2017, 105(8): 1476−510

    [4]

    Takasu K, Saito T, Yamada T, et al. A survey of hardware features in modern browsers[C] //Proc of the 9th Int Conf on Innovative Mobile and Internet Services in Ubiquitous Computing. Piscataway, NJ: IEEE, 2015: 520−524

    [5]

    Soltani A, Canty S, Mayo Q, et al. Flash cookies and privacy[C] // Proc of the 2010 AAAI Spring Symp Series. Palo Alto: AAAI, CA: 2010: 22−24

    [6]

    Samyk. EverCookie[CP/OL]. (2017-11-13) [2021-04-20]. https://samy.pl/evercookie/

    [7]

    Acar G, Eubank C, Englehardt S, et al. The web never forgets: Persistent tracking mechanisms in the wild[C] //Proc of the 14th ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2014: 674−689

    [8]

    West W, Pulimood S M. Analysis of privacy and security in HTML5 Web Storage[J]. Journal of Computing Sciences in Colleges, 2012, 27(3): 80−87

    [9]

    Kimak S, Ellman J. The role of HTML5 IndexedDB, the past, present and future[C] //Proc of the 10th Int Conf for Internet Technology and Secured Transactions (ICITST). Piscataway, NJ: IEEE, 2015: 379−383

    [10] 张玉清,贾岩,雷柯楠,等. HTML5新特性安全研究综述[J]. 计算机研究与发展,2016,53(10):2163−2172 doi: 10.7544/issn1000-1239.2016.20160686

    Zhang Yuqing, Jia Yan, Lei Kenan, et al. Survey of HTML5 new features security[J]. Journal of Computer Research and Development, 2016, 53(10): 2163−2172 (in Chinese) doi: 10.7544/issn1000-1239.2016.20160686

    [11]

    Nair K V, RoseLalson E. The unique ID's you can't delete: Browser fingerprints[C/OL] //Proc of the Int Conf on Emerging Trends and Innovations in Engineering and Technological Research (ICETIETR). Piscataway, NJ: IEEE, 2018 [2021-05-04]. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8529040

    [12]

    Laperdrix P, Bielova N, Baudry B, et al. Browser fingerprinting: A survey[J]. ACM Transactions on the Web, 2020, 14(2): 1−33

    [13]

    Felten E W, Schneider M A. Timing attacks on web privacy[C] //Proc of the 7th ACM Conf on Computer and Communications Security. New York: ACM, 2000: 25−32

    [14]

    Weinberg Z, Chen E Y, Jayaraman P R, et al. I still know what you visited last summer: Leaking browsing history via user interaction and side channel attacks[C]//Proc of the 32nd IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2011: 147−161

    [15]

    Wondracek G, Holz T, Kirda E, et al. A practical attack to de-anonymize social network users[C] //Proc of the 31st IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2010: 223−238

    [16]

    Baron L D. Preventing attacks on a user’s history through CSS: Visited selectors[EB/OL]. 2010[2020-05-11]. https://dbaron.org/mo- zilla/visited-privacy

    [17]

    Janc A, Olejnik L. Web browser history detection as a real-world privacy threat[C] //Proc of the 15th European Symp on Research in Computer Security. Berlin: Springer, 2010: 215−231

    [18]

    Olejnik L, Castelluccia C, Janc A. Why johnny can't browse in peace: On the uniqueness of web browsing history patterns[C/OL] //Proc of the 5th Workshop on Hot Topics in Privacy Enhancing Technologies (HotPETs 2012). (2012-11-02)[2021-04-20]. https://hal.inria.fr/hal-00747841/document

    [19]

    Yan Z. Weird new tricks for browser fingerprinting[EB/OL]. 2015[2020-10-12]. https://zyan.scripts.mit.edu/presentations/toorcon2015.pdf

    [20]

    Smith M, Disselkoen C, Narayan S, et al. Browser history re: Visited[C/OL] //Proc of the 12th USENIX Workshop on Offensive Technologies (WOOT 18). 2018[2020-05-11]. https://www.usenix.org/system/files/conference/woot18/woot18-paper-smith.pdf

    [21]

    Huang Anxin, Zhu Chen, Wu Deweb, et al. An adaptive method for cross-platform browser history sniffing[C/OL] //Proc of the 2nd Measurements, Attacks, and Defenses for the Web Workshop. Rosten: The Internet Society, 2020[2021-03-08]. https://www.ndss-symposium.org/wp-content/uploads/2020/02/23006.pdf

    [22]

    Boda K, Földes Á M, Gulyás G G, et al. User tracking on the web via cross-browser fingerprinting[C] //Proc of the 16th Nordic Conf on Secure IT Systems. Berlin: Springer, 2011: 31−46

    [23]

    Fifield D, Egelman S. Fingerprinting web users through font metrics[C] //Proc of the 19th Int Conf on Financial Cryptography and Data Security. Berlin: Springer, 2015: 107−124

    [24]

    Saito T, Takahashi K, Yasuda K, et al. OS and application identification by installed fonts[C] //Proc of the 30th Int Conf on Advanced Information Networking and Applications (AINA). Piscataway NJ: IEEE, 2016: 684−689

    [25]

    Kotowicz K, OSBORNAND K. Advanced chrome extension exploitation leveraging API powers for better evil [EB/OL]. Black Hat USA, 2012[2020-05-11]. https://paper.bobylive.com/Meeting_Papers/BlackHat/USA-2012/BH_US_12_Osborn_Kotowicz_Advanced_Chrome_Extension_WP.pdf

    [26]

    Sjösten A, Van Acker S, Sabelfeld A. Discovering browser extensions via web accessible resources[C] //Proc of the 7th ACM Conf on Data and Application Security and Privacy. New York: ACM, 2017: 329−336

    [27]

    Sjösten A, Van Acker S, Picazo-Sanchez P, et al. Latex gloves: Protecting browser extensions from probing and revelation attacks[EB/OL]. 2018[2020-05-11]. http://singularity.be/public/papers/latexgloves.pdf

    [28]

    Sanchez-Rola I, Santos I, Balzarotti D. Extension breakdown: Security analysis of browsers extension resources control policies[C] //Proc of the 26th USENIX Security Symp. Berkeley, CA: USENIX Association, 2017: 679−694

    [29]

    Starov O, Nikiforakis N. XHOUND: Quantifying the fingerprintability of browser extensions[C] //Proc of the 38th IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2017: 941−956

    [30]

    Karami S, Ilia P, Solomos K, et al. Carnus: Exploring the privacy threats of browser extension fingerprinting[C/OL] //Proc of the 27th Network and Distributed System Security Symp (NDSS). Rosten: The Internet Society, 2020[2020-05-11]. https://www.ndss-symposi- um.org/wp-content/uploads/2020/02/24383-paper.pdf

    [31]

    Laperdrix P, Starov O, Chen Quan, et al. Fingerprinting in Style: Detecting browser extensions via injected style sheets[C/OL] //Proc of the 30th USENIX Security Symp. Berkeley, CA: USENIX Association, 2021[2021-05-31]. https://www.usenix.org/system/files/sec21fall-laperdrix.pdf

    [32]

    Nikiforakis N, Kapravelos A, Joosen W, et al. Cookieless monster: Exploring the ecosystem of Web-based device fingerprinting[C] //Proc of the 34th IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2013: 541−555

    [33]

    Mulazzani M, Reschl P, Huber M, et al. Fast and reliable browser identification with Javascript engine fingerprinting[C] //Proc of the 7th Web 2.0 Workshop on Security and Privacy (W2SP). 2013: 4−14

    [34]

    Takei N, Saito T, Takasu K, et al. Web browser fingerprinting using only cascading style sheets[C]//Proc of the 10th Int Conf on Broadband and Wireless Computing, Communication and Applications (BWCCA). Piscataway, NJ: IEEE, 2015: 57−63

    [35]

    Schwarz M, Lackner F, Gruss D. JavaScript template attacks: Automatically inferring host information for targeted exploits[EB/OL]. 2019[2021-05-31]. https://www.ndss-symposium.org/wp-content/uploads/2019/02/ndss2019_01B4_Schwarz_paper.pdf

    [36]

    Mowery K, Bogenreif D, Yilek S, et al. Fingerprinting information in JavaScript implementations[C/OL] //Proc of the 5th Web 2.0 Workshop on Security and Privacy(W2SP). 2011[2021-04-20]. https://cseweb.ucsd.edu/~kmowery/papers/js-fingerprinting.pdf

    [37]

    Solomos K, Kristoff J, Kanich C, et al. Persistent tracking in modern browsers[C/OL] //Proc of the 28th Symp on Network and Distributed System Security (NDSS). Rosten: The Internet Society, 2021[2021-05-31]. https://www.ndss-symposium.org/wp-content/uploads/ndss2021_1C-5_24202_paper.pdf

    [38]

    Bansal C, Preibusch S, Milic-Frayling N. Cache timing attacks revisited: Efficient and repeatable browser history, OS and network sniffing[C] //Proc of the 30th Int Information Security and Privacy Conf. Berlin: Springer, 2015: 97−111

    [39]

    Solís-Martínez, J, Espada J P, Crespo R G, et al. UXJs: Tracking and analyzing Web usage information with a Javascript oriented approach[J]. IEEE Access, 2020, 8: 43725−43735 doi: 10.1109/ACCESS.2020.2977879

    [40]

    Navalpakkam V, Churchill E. Mouse tracking: Measuring and predicting users' experience of Web-based content[C] //Proc of the SIGCHI Conf on Human Factors in Computing Systems. New York: ACM, 2012: 2963−2972

    [41]

    Mueller F, Lockerd A. Cheese: Tracking mouse movement activity on websites, a tool for user modeling[C/OL] //Proc of the 1st CHI Conf on Human Factors in Computing Systems. 2001[2021-04-20]. https://www.cc.gatech.edu/fac/athomaz/papers/cheese.pdf

    [42]

    Katerina T, Nicolaos P, Charalampos Y. Mouse tracking for Web marketing: Enhancing user experience in Web application software by measuring self-efficacy and hesitation levels[J]. International Journal on Strategic Innovative Marketing, 2014(1): 233−247

    [43]

    Lipp M, Gruss D, Schwarz M, et al. Practical keystroke timing attacks in sandboxed Javascript[C] //Proc of the 22nd European Symp on Research in Computer Security. Berlin: Springer, 2017: 191−209

    [44]

    Mowery K, Shacham H. Pixel perfect: Fingerprinting canvas in HTML5[C/OL] //Proc of the 6th Web 2.0 Workshop on Security and Privacy(W2SP). 2012[2021-04-20]. https://cseweb.ucsd.edu/~kmowery/papers/html5-fingerprint.pdf

    [45]

    Le H, Fallace F, Barlet-Ros P. Towards accurate detection of obfuscated web tracking[C/OL] //Proc of the 5th IEEE Int Workshop on Measurement and Networking (M&N). Piscataway, NJ: IEEE, 2017[2021-04-20]. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8078365

    [46]

    Laperdrix P, Rudametkin W, Baudry B. Beauty and the beast: Diverting modern Web browsers to build unique browser fingerprints[C] //Proc of the 37th IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2016: 878−894

    [47]

    Daud N I, Haron G R, Othman S S S. Adaptive authentication: Implementing random canvas fingerprinting as user attributes factor[C] //Proc of the 4th IEEE Symp on Computer Applications & Industrial Electronics (ISCAIE). Piscataway, NJ: IEEE, 2017: 152−156

    [48]

    Raschke P, Küpper A. Uncovering canvas fingerprinting in real-time and analyzing its Usage for Web-tracking[C/OL]//Proc of the Workshops der INFORMATIK 2018-Architekturen, Prozesse, Sicherheit und Nachhaltigkeit. Köllen Druck+ Verlag GmbH. 2018[2021-04-20]. https://dl.gi.de/bitstream/handle/20.500.12116/17237/3032414_GI_P_285_09.pdf?sequence=1&isAllowed=y

    [49]

    Englehardt S, Narayanan A. Online tracking: A 1-million-site measurement and analysis[C] //Proc of the 16th ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2016: 1388−1401

    [50]

    Englehardt S, Eubank C, Zimmerman P, et al. OpenWPM: An automated platform for Web privacy measurement[J/OL]. Manuscript, 2015[2021-05-31]. https://senglehardt.com/papers/open- wpm_03 − 2015.pdf

    [51]

    Upathilake R, Li Yingkun, Matrawy A. A classification of Web browser fingerprinting techniques[C/OL] //Proc of the 7th Int Conf on New Technologies, Mobility and Security (NTMS). Piscataway, NJ: IEEE, 2015[2021-04-20]. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7266460

    [52]

    Nakibly G, Shelef G, Yudilevich S. Hardware fingerprinting using HTML5[J]. arXiv, preprint arXiv: 1503.01408, 2015

    [53]

    Cao Yinzhi, Song Li, Erik W. (Cross-) browser fingerprinting via OS and hardware level features[C/OL] //Proc of the 24th Symp on Network and Distributed System Security (NDSS). 2017[2021-05-31]. https://www.yinzhicao.org/TrackingFree/cross- browsertracking_NDSS17.pdf

    [54]

    Saito T, Yasuda K, Ishikawa T, et al. Estimating CPU features by browser fingerprinting[C] //Proc of the 10th Int Conf on Innovative Mobile and Internet Services in Ubiquitous Computing (IMIS). Piscataway, NJ: IEEE, 2016: 587−592

    [55]

    Saito T, Yasuda K, Tanabe K, et al. Web browser tampering: Inspecting CPU features from side-channel information[C] //Proc of Int Conf on Broadband and Wireless Computing, Communication and Applications. Berlin: Springer, 2017: 392−403

    [56]

    Diaz C, Olejnik L, Acar G, et al. The leaking battery: A privacy analysis of the HTML5 battery status API[G] //LNCS 9481: Int Workshop on Data Privacy Management. Berlin: Springer, 2015: 254−263

    [57]

    Sanchez-Rola I, Santos I, Balzarotti D. Clock around the clock: Time-based device fingerprinting[C] //Proc of the 18th ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2018: 1502−1514

    [58]

    Mishra V, Laperdrix P, Vastel A, et al. Don’t count me out: On the relevance of IP address in the tracking ecosystem[C] //Proc of the Web Conf. New York: ACM, 2020: 808−815

    [59]

    Hosoi R, Saito T, Ishikawa T, et al. A browser scanner: Collecting intranet information[C] //Proc of the 19th Int Conf on Network-Based Information Systems (NBiS). Piscataway, NJ: IEEE, 2016: 140−145

    [60]

    Al-Fannah N M, Li Wanpeng. Not all browsers are created equal: Comparing Web browser fingerprintability[C] //Proc of the Int Workshop on Security. Berlin: Springer, 2017: 105−120

    [61]

    Hazhirpasand M, Ghafari M. One leak is enough to expose them all[C] //Proc of the Int Symp on Engineering Secure Software and Systems. Berlin: Springer, 2018: 61−76

    [62]

    Sy E, Burkert C, Federrath H, et al. Tracking users across the Web via TLS session resumption[C] //Proc of the 34th Annual Computer Security Applications Conf. New York: ACM, 2018: 289−299

    [63]

    Jia Yaoqi, Dong Xinshu, Liang Zhenkai, et al. I know where you've been: Geo-inference attacks via the browser cache[J]. IEEE Internet Computing, 2014, 19(1): 44−53

    [64]

    Klein A, Pinkas B. DNS cache-based user tracking[C/OL] //Proc of the 26th Symp on Network and Distributed System Security (NDSS). 2019[2021-05-31]. https://www.ndss-symposium.org/wp-content/uploads/2019/02/ndss2019_04B-4_Klein_paper.pdf

    [65]

    Mirheidari S A, Arshad S, Onarlioglu K, et al. Cached and confused: Web cache deception in the wild[C] //Proc of the 29th USENIX Security Symp. Berkeley, CA: USENIX Association, 2020: 665−682

    [66]

    Solomos K, Ilia P, Ioannidis S, et al. Cross-device tracking: Systematic method to detect and measure CDT[J]. arXiv preprint, arXiv: 1812.11393, 2018

    [67]

    Gómez-Boix A, Laperdrix P, Baudry B. Hiding in the crowd: An analysis of the effectiveness of browser fingerprinting at large scale[C] //Proc of the 2018 World Wide Web Conf. New York: ACM, 2018: 309−318

    [68]

    Brookman J, Rouge P, Alva A, et al. Cross-device tracking: Measurement and disclosures[J]. Proceedings on Privacy Enhancing Technologies, 2017(2): 133−148

    [69]

    Kane S K, Karlson A K, Meyers B R, et al. Exploring cross-device web use on PCs and mobile devices[C] //Proc of the IFIP Conf on Human-Computer Interaction. Berlin: Springer, 2009: 722−735

    [70]

    Karakaya C, Toğuç H, Kuzu R S, et al. Survey of cross device matching approaches with a case study on a novel database[C] //Proc of the 3rd Int Conf on Computer Science and Engineering (UBMK). Piscataway, NJ: IEEE, 2018: 139−144

    [71]

    Yen Tingfang, Xie Yinglian, Yu Fang, et al. Host fingerprinting and tracking on the Web: Privacy and security implications[C/OL] // Proc of the 19th Symp on Network and Distributed System Security(NDSS). Rosten: The Internet Society, 2012[2021-03-20]. https://www.ndss-symposium.org/wp-content/uploads/2017/09/11_3.pdf

    [72]

    Zimmeck S, Li J S, Kim H, et al. A privacy analysis of cross-device tracking[C] //Proc of the 26th USENIX Security Symp. Berkeley, CA: USENIX Association, 2017: 1391−1408

    [73]

    Díaz-Morales R. Cross-device tracking: Matching devices and cookies[C] //Proc of the IEEE Int Conf on Data Mining Workshop (ICDMW). Piscataway, NJ: IEEE, 2015: 1699−1704

    [74]

    Li Song, Cao Yinzhi. Who touched my browser fingerprint? A large-scale measurement study and classification of fingerprint dynamics[C] //Proc of the 20th ACM Internet Measurement Conf. New York: ACM, 2020: 370−385

    [75]

    Yamada T, Saito T, Takasu K, et al. Robust identification of browser fingerprint comparison using edit distance[C] //Proc of the 10th Int Conf on Broadband and Wireless Computing, Communication and Applications (BWCCA). Piscataway, NJ: IEEE, 2015: 107−113

    [76]

    Liu Xiaofeng, Liu Qixu, Wang Xiaoxi, et al. Fingerprinting Web browser for tracing anonymous Web attackers[C] //Proc of the 1st IEEE Int Conf on Data Science in Cyberspace (DSC). Piscataway, NJ: IEEE, 2016: 222−229

    [77]

    Jiang Wei, Wang Xiaoxi, Song Xinfang, et al. Tracking your browser with high-performance browser fingerprint recognition model[J]. China Communications, 2020, 17(3): 168−175 doi: 10.23919/JCC.2020.03.014

    [78]

    Dong Shichuan, Farha F, Cui Shan, et al. CPG-FS: A CPU performance graph based device fingerprint scheme for devices identification and authentication[C] //Proc of the IEEE 38th Int Conf on Dependable, Autonomic and Secure Computing, 17th Int Conf on Pervasive Intelligence and Computing, 5th Int Conf on Cloud and Big Data Computing, 4th Int Conf on Cyber Science and Technology Congress (DASC/PiCom/CBDCom/CyberSciTech). Piscataway, NJ: IEEE, 2019: 266−270

    [79]

    Vastel A, Laperdrix P, Rudametkin W, et al. Fp-stalker: Tracking browser fingerprint evolutions[C] //Proc of the 39th IEEE Symp on Security and Privacy (SP). Piscataway, NJ: IEEE, 2018: 728−741

    [80] 刘奇旭,刘心宇,罗成,等. 基于双向循环神经网络的安卓浏览器指纹识别方法[J]. 计算机研究与发展,2020,57(11):2294−2311 doi: 10.7544/issn1000-1239.2020.20200459

    Liu Qixu, Liu Xinyu, Luo Cheng, et al. Android browser fingerprinting identification method based on bidirectional recurrent neural network[J]. Journal of Computer Research and Development, 2020, 57(11): 2294−2311 (in Chinese) doi: 10.7544/issn1000-1239.2020.20200459

    [81]

    Tanabe K, Hosoya R, Saito T. Combining features in browser fingerprinting[C] //Proc of the 18th Int Conf on Broadband and Wireless Computing, Communication and Applications. Berlin: Springer, 2018: 671−681

    [82]

    Iqbal U, Englehardt S, Shafiq Z. Fingerprinting the fingerprinters: Learning to detect browser fingerprinting behaviors[C] //Proc of the 42nd IEEE Symp on Security and Privacy (SP). Piscataway, NJ: IEEE, 2021: 1143−1161

    [83]

    Bird S, Mishra V, Englehardt S, et al. Actions speak louder than words: Semi-supervised learning for browser fingerprinting detection[J]. arXiv preprint, arXiv: 2003.04463, 2020

    [84]

    Durey A, Laperdrix P, Rudametkin W, et al. An iterative technique to identify browser fingerprinting scripts[J]. arXiv preprint, arXiv: 2103.00590, 2021

    [85]

    Acar G, Juarez M, Nikiforakis N, et al. FPDetective: Dusting the Web for fingerprinters[C] //Proc of the 13th ACM SIGSAC Conf on Computer & Communications Security. New York: ACM, 2013: 1129−1140

    [86]

    Hannak A, Soeller G, Lazer D, et al. Measuring price discrimination and steering on e-commerce Web sites[C] //Proc of the 14th Conf on Internet Measurement. New York: ACM, 2014: 305−318

    [87]

    Mathur A, Vitak J, Narayanan A, et al. Characterizing the use of browser-based blocking extensions to prevent online tracking[C] //Proc of the 14th Symp on Usable Privacy and Security (SOUPS 2018). Berkeley, CA: USENIX Association, 2018: 103−116

    [88]

    Meng Wei, Lee B, Xing Xinyu, et al. TrackMeOrNot: Enabling flexible control on Web tracking[C] //Proc of the 25th Int Conf on World Wide Web. New York: ACM, 2016: 99−109

    [89]

    Torres C F, Jonker H, Mauw S. FP-Block: Usable Web privacy by controlling browser fingerprinting[C] //Proc of the 20th European Symp on Research in Computer Security. Berlin: Springer, 2015: 3−19

    [90]

    Al-Fannah N M, Li Wanpeng, Mitchell C J. Beyond cookie monster amnesia: Real world persistent online tracking[C] //Proc of the 33rd Conf on Information Security. Berlin: Springer, 2018: 481−501

    [91]

    Starov O, Nikiforakis N. Extended tracking powers: Measuring the privacy diffusion enabled by browser extensions[C] //Proc of the 26th Int Conf on World Wide Web. New York: ACM, 2017: 1481−1490

    [92]

    kkapsner. Canvas Blocker[EB/OL]. [2020-04-05]. https://github.com/k- kapsner/CanvasBlocker

    [93]

    Obida M A, Obeidat S, Holst J, et al. Canvas Deceiver−A new defense mechanism against canvas fingerprinting[J/OL]. The Journal on Systemics, Cybernetics and Informatics. 2020[2021-05-31]. http://www.iiisci.org/journal/PDV/sci/pdfs/SA899XU20.pdf

    [94]

    Leiva L A, Arapakis I, Iordanou C. My mouse, My Rules: Privacy issues of behavioral user profiling via mouse tracking[C] //Proc of the 6th ACM SIGIR Conf on Human Information Interaction and Retrieval. New York: ACM, 2021: 51−61

    [95]

    Xiang Pan, Cao Yinzhi, Yan Chen. I do not know what you visited last summer: Protecting users from third-party Web tracking with trackingFree browser[C/OL] //Proc of the 22nd Annual Network and Distributed System Security Symp (NDSS). Rosten: The Internet Society, 2015[2021-05-31]. https://users.cs.northwestern.edu/~ychen/Papers/trackingfree_NDSS15.pdf

    [96]

    Laperdrix P, Rudametkin W, Baudry B. Mitigating browser fingerprint tracking: Multi-level reconfiguration and diversification[C] //Proc of the 10th Int Symp on Software Engineering for Adaptive and Self-Managing Systems. Piscataway, NJ: IEEE, 2015: 98−108

    [97]

    Baumann P, Katzenbeisser S, Stopczynski M, et al. Disguised chromium browser: Robust browser, flash and canvas fingerprinting protection[C] //Proc of the 15th ACM on Workshop on Privacy in the Electronic Society. New York: ACM, 2016: 37−46

    [98]

    Yu Zhonghao, Macbeth S, Modi K, et al. Tracking the trackers[C] //Proc of the 25th Int Conf on World Wide Web. New York: ACM, 2016: 121−132

    [99]

    Macbeth S. Tracking the trackers: Analysing the global tracking landscape with ghostrank. Technical report, Ghostery[EB/OL]. 2017[2021-04-20]. https://www.medienkraft.at/cms/wp-content/up- loads/2018/10/user-tracking-studie-ghostery.pdf

    [100]

    Starov O, Laperdrix P, Kapravelos A, et al. Unnecessarily identifiable: Quantifying the fingerprintability of browser extensions due to bloat[C] //Proc of the 28th World Wide Web. New York: ACM, 2019: 3244−3250

    [101]

    FaizKhademi A, Zulkernine M, Weldemariam K. FPGuard: Detection and prevention of browser fingerprinting[C] //Proc of the 29th IFIP Annual Conf on Data and Applications Security and Privacy. Berlin: Springer, 2015: 293−308

    [102]

    Nikiforakis N, Joosen W, LiVshits B. PriVaricator: Deceiving fingerprinters with little white lies[C] //Proc of the 24th Int Conf on World Wide Web. New York: ACM, 2015: 820−830

    [103]

    Laperdrix P, Baudry B, Mishra V. FPRandom: Randomizing core browser objects to break advanced device fingerprinting techniques[C] //Proc of the 6th Int Symp on Engineering Secure Software and Systems. Berlin: Springer, 2017: 97−114

    [104]

    Yokoyama S, Uda R. A proposal of preventive measure of pursuit using a browser fingerprint[C/OL] //Proc of the 9th Int Conf on Ubiquitous Information Management and Communication. New York: ACM, 2015[2021-04-20]. https://dl.acm.org/doi/pdf/10.1145/2701126.2701210

    [105]

    Wu Shujiang, Li Song, Cao Yinzhi, et al. Rendered private: Making {GLSL} execution uniform to prevent WebGL-based browser fingerprinting[C] //Proc of the 28th USENIX Security Symp. Berkeley, CA: USENIX Association, 2019: 1645−1660

    [106]

    Jueckstock J, Kapravelos A. VisibleV8: In-browser monitoring of JavaScript in the wild[C] //Proc of the 19th Internet Measurement Conf. New York: ACM, 2019: 393−405

    [107]

    Andriamilanto N, Allard T, Le Guelvouit G. FPSelect: Low-cost browser fingerprints for mitigating dictionary attacks against Web authentication mechanisms[C] //Proc of the Annual Computer Security Applications Conf. New York: ACM, 2020: 627−642

    [108]

    Andriamilanto N, Allard T. BrFAST: A tool to select browser fingerprinting attributes for Web authentication according to a usability-security trade-off[C] //Proc of the Web Conf. New York: ACM, 2021: 701−704

    [109]

    Solomos K, Ilia P, Ioannidis S, et al. Automated measurements of cross-device tracking[C] //Proc of the 13th Int Workshop on Information and Operational Technology Security Systems. Berlin: Springer, 2018: 73−80

    [110]

    Solomos K, Ilia P, Ioannidis S, et al. {TALON}: An automated framework for cross-device tracking detection[C] //Proc of the 22nd Int Symp on Research in Attacks, Intrusions and Defenses (RAID 2019). Berlin: Springer, 2019: 227−241.

    [111]

    Trickel E, Starov O, Kapravelos A, et al. Everyone is different: Client-side diversification for defending against extension fingerprinting[C] //Proc of the 28th USENIX Security Symp. Berkeley, CA: USENIX Association, 2019: 1679−1696

    [112]

    Gómez-Boix A, Frey D, Bromberg Y D, et al. A collaborative strategy for mitigating tracking through browser fingerprinting[C] //Proc of the 6th ACM Workshop on Moving Target Defense. New York: ACM, 2019: 67−78

    [113]

    Overdorf R, Juarez M, Acar G, et al. How unique is your onion? An analysis of the fingerprintability of Tor onion services[C] //Proc of the 17th ACM SIGSAC Conf on Computer and Communications Security. New York: ACM. 2017: 2021−2036

    [114]

    Datta A, Lu Jianan, Tschantz M C. The effectiveness of privacy enhancing technologies against fingerprinting[J]. arXiv preprint, arXiv: 1812.03920, 2018

    [115]

    Lanze F, Panchenko A, Engel T. A formalization of fingerprinting techniques[C] //Proc of the 2015 IEEE 14th Trustcom/1st BigDataSE/13th ISPA. Piscataway, NJ: IEEE, 2015: 818−825

    [116]

    Vastel A. Tracking versus security: Investigating the two facets of browser fingerprinting[D/OL]. 2019[2021-05-20]. https://tel.archives-ouvertes.fr/tel-02343930/do- Cument

    [117]

    Antonio E, Fajardo A, Medina R. Tracking browser fingerprint using rule based algorithm[C] //Proc of the 16th IEEE Int Colloquium on Signal Processing & Its Applications. Piscataway, NJ: IEEE, 2020: 225−229

    [118]

    Vastel A, Rudametkin W, Rouvoy R. FP-TESTER: Automated testing of browser fingerprint resilience[C] //Proc of the 3rd IEEE European Symp on Security and Privacy Workshops. Piscataway, NJ: IEEE, 2018: 103−107

    [119]

    Vastel A, Laperdrix P, Rudametkin W, et al. FP-scanner: The privacy implications of browser fingerprint inconsistencies[C] //Proc of the 27th USENIX Security Symp. Berkeley, CA: USENIX Association, 2018: 135−150

    [120]

    Queiroz J S, Feitosa E L. A Web browser fingerprinting method based on the Web audio API[J]. The Computer Journal, 2019, 62(8): 1106−1120 doi: 10.1093/comjnl/bxy146

    [121]

    Gulyas G, Some D F, Bielova N, et al. To extend or not to extend: On the uniqueness of browser extensions and Web logins[C] //Proc of the 17th Workshop on Privacy in the Electronic Society. New York: ACM, 2018: 14−27

    [122]

    Abouollo A, Almuhammadi S. Detecting malicious user accounts using canvas fingerprint[C] //Proc of the 8th Int Conf on Information and Communication Systems. Piscataway, NJ: IEEE, 2017: 358−361

    [123]

    Unger T, Mulazzani M, Frühwirt D, et al. Shpf: Enhancing http (s) session security with browser fingerprinting[C] //Proc of the 8th Int Conf on Availability, Reliability and Security. Piscataway, NJ: IEEE, 2013: 255−261

    [124]

    Jonker H, Krumnow B, Vlot G. Fingerprint surface-based detection of Web bot detectors[C] //Proc of the 24th European Symp on Research in Computer Security. Berlin: Springer, 2019: 586−605

    [125]

    Vastel A, Rudametkin W, Rouvoy R, et al. FP-Crawlers: Studying the resilience of browser fingerprinting to block crawlers[C/OL] //Proc of the NDSS Workshop on Measurements, Attacks, and Defenses for the Web. 2020[2021-04-20]. https://www.ndss-symposium.org/wp-content/uploads/2020/02/23010.pdf

    [126]

    Agarwal V, Vekaria Y, Agarwal P, et al. Under the spotlight: Web tracking in Indian partisan news websites[J]. arXiv preprint, arXiv: 2102.03656, 2021

    [127]

    Takahashi T, Kruegel C, Vigna G, et al. Tracing and analyzing Web access paths based on user-side data collection: How do users reach malicious URLs?[C] //Proc of the 23rd Int Symp on Research in Attacks, Intrusions and Defenses (RAID 2020). Berlin: Springer, 2020: 93−106

    [128]

    Jia, Zhaopeng, Cui Xiang, Liu Qixu, et al. Micro-honeypot: Using browser fingerprinting to track attackers[C] //Proc of the 3rd IEEE Int Conf on Data Science in Cyberspace (DSC). Piscataway, NJ: IEEE, 2018: 197−204

    [129]

    Li Bo, Vadrevu P, Lee K H, et al. JSgraph: Enabling reconstruction of Web attacks via efficient tracking of live in-browser Javascript executions[C/OL] //Proc of the 25th Network and Discributed System Security Symp (NDSS). 2018 [2020-05-11]. https://web.archive.org/web/20180307204133id_/http://wp.internetsociety.org/ndss/wp-content/uploads/sites/25/2018/02/ndss2018_07B-4_Li_paper.pdf

    [130]

    Oh J, Lee S, Lee S. Advanced evidence collection and analysis of web browser activity[J/OL]. Digital Investigation, 2011[2021-04-20]. https://dl.acm.org/doi/abs/10.1016/j.diin.2011.05.008

    [131]

    Winter P, Edmundson A, Roberts L M, et al. How do Tor users interact with onion services?[C] //Proc of the 27th USENIX Security Symp. Berkeley, CA: USENIX Association, 2018: 411−428

    [132]

    Fiore U, Castiglione A, De Santis A, et al. Countering browser fingerprinting techniques: Constructing a fake profile with Google Chrome[C] //Proc of the 17th Int Conf on Network-Based Information Systems. Piscataway, NJ: IEEE, 2014: 355−360

    [133]

    Luangmaneerote S, Zaluska E, Carr L. Survey of existing fingerprint countermeasures[C] //Proc of the 2016 Int Conf on Information Society. Piscataway, NJ: IEEE, 2016: 137−141

    [134]

    Samarasinghe N, Mannan M. Towards a global perspective on Web tracking[J]. Computers & Security, 2019(87): 101569

    [135]

    Luangmaneerote S, Zaluska E, Carr L. Inhibiting browser fingerprinting and tracking[C] //Proc of the IEEE 3rd Int Conf on Big Data Security on Cloud (BigDataSecurity), IEEE Int Conf on High Performance and Smart Computing (HPSC), and IEEE Int Conf on Intelligent Data and Security (IDS). Piscataway, NJ: IEEE, 2017: 63−68

  • 期刊类型引用(1)

    1. 楚小茜,张建辉,张德升,苏珲. 基于改进GraphSAGE算法的浏览器指纹追踪. 计算机科学. 2024(06): 409-415 . 百度学术

    其他类型引用(3)

表(6)
计量
  • 文章访问数:  366
  • HTML全文浏览量:  96
  • PDF下载量:  176
  • 被引次数: 4
出版历程
  • 收稿日期:  2021-06-10
  • 修回日期:  2022-06-22
  • 网络出版日期:  2023-02-26
  • 刊出日期:  2023-04-17

目录

/

返回文章
返回