-
摘要:
随着自然语言处理与深度学习技术的快速发展,大语言模型在文本处理、语言理解、图像生成和代码审计等领域中的应用不断深入,成为了当前学术界与工业界共同关注的研究热点. 然而,攻击者可以通过对抗性攻击手段引导大语言模型输出错误的、不合伦理的或虚假的内容,使得大语言模型面临的安全威胁日益严峻. 对近年来针对大语言模型的对抗性攻击方法和防御策略进行总结,详细梳理了相关研究的基本原理、实施方法与研究结论. 在此基础上,对提示注入攻击、间接提示注入攻击、越狱攻击和后门攻击这4类主流的攻击模式进行了深入的技术探讨. 更进一步地,对大语言模型安全的研究现状与未来方向进行了探讨,并展望了大语言模型结合多模态数据分析与集成等技术的应用前景.
Abstract:With the rapid development of natural language processing and deep learning technologies, large language models (LLMs) have been increasingly applied in various fields such as text processing, language understanding, image generation, and code auditing. These models have become a research hotspot of common interest in both academia and industry. However, adversarial attack methods allow attackers to manipulate large language models into generating erroneous, unethical, or false content, posing increasingly severe security threats to these models and their wide-ranging applications. This paper systematically reviews recent advancements in adversarial attack methods and defense strategies for large language models. It provides a detailed summary of fundamental principles, implementation techniques, and major findings from relevant studies. Building on this foundation, the paper delves into technical discussions of four mainstream attack modes: prompt injection attacks, indirect prompt injection attacks, jailbreak attacks, and backdoor attacks. Each is analyzed in terms of its mechanisms, impacts, and potential risks. Furthermore, the paper discusses the current research status and future directions of large language models security, and outlooks the application prospects of large language models combined with multimodal data analysis and integration technologies. This review aims to enhance understanding of the field and foster more secure, reliable applications of large language models.
-
近年来,随着无线网络技术的快速发展和无线设备的大规模部署,无线感知技术受到了国内外研究学者的高度关注,并且被广泛地应用在室内定位[1]、动作识别[2]和人数统计等各个领域. 作为人数统计的主要方式之一,人流量计数是公共场所实施科学人数管理的关键手段. 通过实时监测特定空间区域内的人流量,能够有效预防因人群拥挤而引发的安全隐患.
为了实现高精度的人数统计,研究人员相继提出了基于通道闸机、计算机视觉和无线信号的计数方法[3]. 在无线信号领域,WiFi以其普适性强、功耗较低、保护隐私等特点脱颖而出. 发送端发射出的WiFi信号会经过多种路径,包括直线传播、通过物体反射以及经过衍射等,最终到达接收设备,形成多径传播的信号. 在WiFi标准中,通常使用接收信号强度指示(received signal strength indicator,RSSI)和信道状态信息(channel state information,CSI)来描述无线信道. RSSI代表了多条传输路径上信号叠加的总和,无论在传输过程中哪条路径上的信息发生变化,接收端接收到的RSSI值都会随之相应变化[4]. 因此RSSI很容易受到多径和环境变化等因素的影响,基于RSSI技术的人流量计数在精度上始终难以得到较大突破.
CSI信号携带了通信链路中各种基本属性,与WiFi无线信道的其他信息不同,它具有更高的敏感度和更精细的分辨率. 这种信号能够描述信号传输过程中产生的振幅衰减、相位偏移和时延等变化情况[5]. 由于IEEE802.11n系列通信协议及其之后的无线局域网协议采用了正交频分复用(orthogonal frequency division multiplexing,OFDM)和多输入多输出(multiple in multiple out,MIMO)技术[6],可以很容易地在商用WiFi设备中获取CSI信息. 经过从CSI信号中提取出适用于不同人数的高鲁棒性特征信号后,与机器学习算法相融合,可以构建人流量监测模型,从而实现高度准确的人流量计数. 然而,当前这类方法面临着2个主要问题.
最初,很多研究都倾向于从商用WiFi的CSI信号中提取时域特征,以供后续的识别工作使用. 然而,商用WiFi的CSI信号不仅仅包括振幅信息,还包含了相位信息. 因此,需要对这2种信息进行分析验证,确定哪种信息更能够准确地反映人体的存在和移动. 此外,目前基于CSI的人流量计数主要关注人群稀疏的情况,未能实现人群密集时的连续人流量监测. 针对以上问题,本文提出了一种基于WiFi信道特征的人流量监测方法Wi-HFM,该方法通过商用WiFi设备获取不同人数对应的CSI信息,利用解卷绕和线性相位校正对原始数据进行预处理,再采用巴特沃斯滤波器降噪,使用主成分分析(principal component analysis,PCA)算法对特征进行降维. 最后把时域上的相位差输入到卷积长短时深度神经网络(convolutional, long short-term memory, deep neural network,CLDNN)中进行人数的分类并生成识别结果. 本文的主要贡献有3个方面:
1)针对现有WiFi设备中所获取的CSI中包含振幅和相位2种信息的情况,本文利用传统特征的方式比较CSI中振幅信息和相位差信息的有效性. 验证了时域上的相位差信息优于振幅信息,用以表征不同人数对无线信号的影响.
2)针对当前基于CSI技术的人流量计数方法在人群密集场景下应用受限的问题,本文加入了连续性人流量监测,通过标准差和方差提取连续性人流数据中的有效数据包,来处理收发装置视距内的多排人群数据.
3)在人流量监测模型构建的阶段,本文采用了CNN(convolutional neural network)以提取CSI的空间特征,同时采用LSTM(long short-term memory)提取信号的时域特征. 通过这种方法,成功构建了CLDNN模型用于监测人流量的变化.
1. 相关工作
1.1 人群计数
人群计数是对特定空间内的人数进行统计. 早期人群计数通过传统的计算机视觉技术来提取行人特征,然后采用目标检测或回归的方法来获得图像或视频中的人群数量[7]. 例如,Lin等人[8]提出了一个多方面注意力网络,以增强transformer模型在空间局部上下文编码中进行人群计数的能力,优化了人群图像中频繁出现的显著尺度变化问题. 目前基于计算机视觉的人群计数主要依赖于有限的RGB图像数据,而Liu等人[9]则采用了融合光学与热信息的策略来实现对行人的识别. 实验结果证明了这一方法在多模态(例如RGBT和RGBD)人群计数方面的有效性,能够在各种不受限制的场景中探测到可能存在的行人. 虽然摄像机安装方便,但是现有的计算机视觉方法大多需要收集大量的图像或视频数据,这引发了对于数据隐私的担忧. 为了克服一些场景下所面临的隐私保护问题,基于传感器技术和无线信号技术的人群计数获得了越来越多的关注.
基于传感器的人群计数将选定的传感器(如红外传感器、深度传感器和微波传感器等)安装在需要监测的区域内,通过计算和分析传感器数据,识别当前区域内的人数. Liu等人[10]采用了成对配置的红外距离传感器,以监测公交车上的乘客数量,其实验结果实现了95%的精确度. 文献[11]提出了一种基于置于场景顶部的Kinect传感器的新型算法,通过在深度图像中检测人们的头部来实现其轨迹跟踪. 利用SVM分类器来区分是否为人类的头部,有效解决了拥挤场景下的人群遮挡问题. 然而传感器数据精度受到其技术特性和安装位置的限制,同时一些传感器需要连续运行,这可能会导致不小的能耗,尤其在长时间监测人群的情况下.
基于无线信号的人群计数方法主要依托于分析人体对无线信号(如雷达、WiFi等)的影响,以统计人群数量. Choi等人[12]提出了一种基于IR-UWB(impulse radio ultra-wideband)雷达的行人计数系统,该系统利用2个配备窄波束宽度天线的雷达传感器,在路径中形成2个不可见的电子层,用于统计某个区域中行走的人数. 文献[13]提出了CrossCount,它使用单个WiFi链路来估计区域的人数. 其主要思想是处理WiFi链路阻塞间隔,而不是依赖于从RSSI值中提取的统计特征. 在新冠病毒大流行的背景下,Sharma等人[14]利用CSI幅度的频率来测定特定区域内的人数分布,以维持社交距离. 实验证明该系统能够有效监测电梯内人数是否超出新冠肺炎的安全限制,其准确率高达97%,具有高鲁棒性和良好的可扩展性.
1.2 人流量计数
人流量计数是对通过一个特定通道的人数进行统计. 目前,人流量计数领域的方法相对有限,主要分为2类:通道闸机和无线信号的计数方法. 通道闸机通过在出入口安装闸机(例如转门、门禁闸、电子闸机等)来实时感知人员的进出情况. 文献[15]利用8组红外传感器对闸机通道进行物体检测,并应用ARIMA模型分析历史闸机通道的客流量数据,以预测不同时间段的客流情况. 然而,在高峰时段通道闸机的处理速度较为缓慢,这会导致人们排队等候和时间延误的情况,从而限制了进出特定区域的人员流动.
随着无线网络技术的兴起,人们逐渐开始探索以无线信号实现人流量计数的可能性,WiFi因其低成本、易于部署等优势得到广泛应用. 研究初期,人们利用RSSI来实现人流量计数. 其原理是根据信号强度的变化来估计出监测区域人员的数量. 文献[16]使用支持向量机来探究RSSI与人数之间的关系,但是实验结果显示,仅达到77%的准确率,因此在实际应用中存在较大局限性. CSI相对于RSSI具有更高的信号分辨率,能够提供更详细的信道状态信息,从而在一定程度上减小信号强度波动对应用的影响. Yang等人[17]提出了一种名为Door-Monitor的访客计数系统,该系统对相位差序列进行了短时傅里叶变换,并在此基础上应用卷积神经网络建立计数模型. Zhou等人[18]利用人类通过WiFi设备所引起的多普勒效应,提出了WiFlowCount. 该方法利用CSI信号构建多普勒频移的频谱图,根据频谱图中的功率分布检测人流. 但是该方法需要个体之间保持较大的间距,因此其实际可行性受到限制.
2. Wi-HFM模型概述
2.1 WiFi人流量监测原理
在利用WiFi信号来估计人流量时,需要建立CSI信号与人数之间的映射关系. 在监测环境中,不同的人数可能导致CSI信号在传播过程中发生不同程度的反射和衍射,从而产生多径效应. 当有N条传播路径在时刻t到达接收端时,信号的理想信道频率响应[19](channel frequency response,CFR)表达式为:
H(f,t)=e−j2πΔftN∑k=1ak(f,t)e−j2πfτk(t), (1) 其中f为载波频率,e−j2πΔft表示由载波频移导致的相位差,ak(f,t)则表示第k条路径上的衰减以及初始相位[20],e−j2πfτk(t)表示第k条路径上的相位偏移,其时延为τk(f,t).
在无线通信领域,多径效应包括静态路径和动态路径2个部分[21]. 静态路径被看作是与人体影响无关的部分,可用Hs(f,t)来表示. 与此不同,动态路径被视为受到人体影响的部分,可以用Hd(f,t)来表示:
Hd(f,t)=∑k∈Pdak(f,t)e−1λj2πdk(t), (2) 其中Pd为所有动态路径. 结合式(1)(2)可得总的信道频率响应为
H(f,t)=e−j2πΔft(Hs(f,t)+∑k∈Pdak(f,t)e−1λj2πdk(t)). (3) 通过上述公式的推断,信道频率响应包含了有关CSI信号的全部信息,呈现出与人数变化相互关联的趋势,从而证实了CSI人流量监测的可行性. 在窄带平坦衰落信道中,假设发送信号向量为 \boldsymbol{x} ,接收信号向量为 \boldsymbol{y} ,那么有[22]
{\boldsymbol{y}}={\boldsymbol{Hx}}+{\boldsymbol{z}}\text{,} (4) 其中 \boldsymbol{z} 为环境噪声向量, \boldsymbol{H} 为信道矩阵. 根据IEEE802.11协议标准,CSI被划分为30个子载波,则 \boldsymbol{H} 表示为
{\boldsymbol{H}}=\left({\boldsymbol {H}}_{1},{\boldsymbol {H}}_{2},… ,{\boldsymbol {H}}_{30}\right). (5) 对于单个子载波,CSI的形式为:
{\boldsymbol {H}}_{i}={\boldsymbol {h}}_{i}{\mathrm{e}}^{\mathrm{jsin}{\theta }_{i}}\text{,} (6) 其中 \left|{\boldsymbol {h}}_{i}\right| 表示第i个子载波的振幅信息, {\theta }_{i} 为第 i 子载波的相位信息. 由式(6)可知CSI是对每条传输链路中的每个子载波的估计,当有人进入收发装置视距的位置时,CSI信号中的振幅和相位信息会出现变化,因此可以通过建立人数与CSI数据信息之间的关联来实现人流量的监测.
2.2 Wi-HFM模型工作机制
如图1所示,Wi-HFM系统的工作流程可划分为4个关键阶段,包括数据获取、数据处理、特征提取和分类识别. 在数据获取阶段,采用商用WiFi设备建立了AP(access point)模式,包括1个发送天线和3个接收天线,通过组织人员进行人流量模拟实验以获取多组单排人流和多排人流数据. 在数据处理阶段,充分利用信道状态信息测量值中的细粒度信息,分别对振幅信息和相位信息进行预处理,包括清洗数据、选择天线对和提取数据包等.
在特征提取阶段,为了获取最优的特征信号以精确地描述人数对无线信号的影响,本文采用主成分分析对从时域和小波域中提取的特征信号进行了降维处理. 通过分析特征信号在时域和时频域上的效果,最终确定了时域中的相位差作为主要的识别特征信号. 在分类识别阶段,使用深度学习来探索CSI数据中的潜在特征. 本文选择了卷积神经网络以有效地提取信号的空间特征,以及循环神经网络来提取信号的时域特征,从而构建了一个名为CLDNN的人流量监测模型.
3. Wi-HFM的设计与实现
3.1 CSI数据处理
通过商用WiFi设备收集到的CSI信号中主要包含振幅和相位2种物理信息,但是原始CSI数据中掺杂了大量的异常值以及噪声,需要对其分别进行预处理,从而为后续特征信号的确立提供优质数据集. 这2种物理信息的预处理过程十分类似,都包括定位天线对、定位数据包和数据清洗等步骤,本文将以相位的预处理为例,以此阐述CSI信号预处理的总过程. 传统的CSI采集工具[23]所测得的子载波 i 的相位信息,可以被表达为
{\hat{\phi }}_{i}={\phi }_{i}+2\pi \dfrac{{k}_{i}}{{N}_{f}}{\alpha }_{i}+{\beta }_{i}+Z\text{,} (7) 其中 {\hat{\phi }}_{i} 表示原始相位, {\phi }_{i} 为真实相位, {k}_{i} 是第 i 路子载波的索引值, {N}_{f} 为FFT点数, {\alpha }_{i} 是时钟同步误差, {\beta }_{i} 是载频同步误差, Z 是噪声. 根据式(7),因设备之间时间不同步,会带来时钟同步误差和载频同步的残余误差. 尽管这些残余误差对CSI的振幅影响较小,在大多数情形下或可忽略,然而对于CSI的相位而言,却会有较为显著的影响,导致了相位偏移的产生.
为了获取准确的相位信息,本文通过解卷绕[24]和线性相位校正[25]对相位进行预处理. 解卷绕旨在对相位进行修正,将子载波原本的相位范围进行补偿和延拓. 线性校准算法则致力于消除由线性相位误差如载波频偏(carrier frequency offset,CFO)和符号同步偏移(symbol timing offset,STO)引起的随机相位偏移,因此线性相位校正的主要目标在于削弱式(7)中α和β所产生的影响. 定义关键变量 \mu 和 \nu :
\mu =\dfrac{{\hat{\phi }}_{i,n}-{\hat{\phi }}_{i,1}}{{k}_{n}-{k}_{1}}=\dfrac{{\phi }_{i,n}-{\phi }_{i,1}}{{k}_{n}-{k}_{1}}-\dfrac{2{\text{π}}}{{N}_{f}}{\alpha }_{i}\text{,} (8) \nu =\dfrac{1}{n}\displaystyle\sum _{j=1}^{n}{\hat{\phi }}_{i,j}=\dfrac{1}{n}\displaystyle\sum _{j=1}^{n}{\phi }_{i,j}-\dfrac{2{\text{π}}{\sigma }_{i}}{n{N}_{f}}\displaystyle\sum _{j=1}^{n}{k}_{j}+\beta . (9) 式(9)中, i 表示数据包序号, j 为子载波序号, {k}_{j} 表示第 j 个子载波索引值, n 为子载波个数. 假设CSI中的子载波是对称的,即 \displaystyle\sum\limits_{j = 1}^n {{k_j} = 0} ,那么可以得到 v = \dfrac{1}{n}\displaystyle\sum\limits_{j = 1}^n {{\phi _{i,j}} + \beta } . 从原始相位中减去线性变量 \mu {k}_{i}+\nu 得:
{\tilde{\phi }}_{i}={\hat{\phi }}_{i}-\mu {k}_{i}-\nu ={\phi }_{i}-\dfrac{{\phi }_{n}-{\phi }_{1}}{{k}_{n}-{k}_{1}}{k}_{i}-\dfrac{1}{n}\displaystyle\sum _{j=1}^{n}{\phi }_{j}. (10) 经过相位的校正处理,获得的结果是真实相位经过线性变换得到的值. 此外,经过校正后的相位方差与实际相位方差之间存在一个缩放因子,该缩放因子为常数 {c}_{i} ,其大小与频率相关:
\begin{split} {\sigma }_{\tilde{{\phi }_{i}}}^{2}={c}_{i}{\sigma }_{{\phi }_{i}}^{2}\text{,}\end{split} (11) \begin{split} {c}_{i}=1+2\dfrac{{k}_{i}^{2}}{({k}_{n}-{k}_{1}{)}^{2}}+\dfrac{1}{n}.\end{split} 由于收发设备的特性,不同接收天线接收无线信号是彼此独立的,即 {\phi }_{i,1} 和 {\phi }_{i,2} 是相互独立的,可以推导出:
{\sigma }_{\mathrm{\Delta }{\tilde{\phi }}_{i}}^{2}={\sigma }_{{\tilde{\phi }}_{i,1}}^{2}+{\sigma }_{{\tilde{\phi }}_{i,2}}^{2}. (12) 通过式(12)可以推断,不同的2根天线之间的相位差方差是每根单独天线的相位方差和. 因此相较于单独天线的相位信号,相位差信号具有更高的分辨率,本文选取相位差作为特征信号能更好地映射不同的人数对WiFi信号的影响.
在传统的商用WiFi设备中,通常采用OFDM-MIMO技术实现多发多收的通信情形. 本文使用一套1发3收的设备来收集数据,借助3根接收天线中的相位信息两两做差得到了3个相位差矩阵. 为了避免因过多天线对而产生的数据冗余,需要从中选取出对人数变化最为敏感的天线对. 当人数对信号的影响增加时,信号的调制程度也会增加,从而导致子载波中的相位差方差增大. 因此本文选择方差这一指标来衡量人数对天线对的影响程度,以更好地捕捉人数变化对CSI的影响. 图2展示了在不同天线对中30个子载波的相位差方差分布情况. 其中,横轴表示天线对,纵轴表示相位差方差大小,散点表示各子载波的相位差方差,折线数值则代表30个子载波相位差方差的平均值. 通过图2观察到天线对1和3的平均方差最大,因此本文选择天线对1和3的相位差作为人流量监测的信息来源.
由于收发装置自身硬件的发射功率或传输速率等状态可能发生变化,因此采集到的原始CSI信号可能会出现异常值并导致明显的突变. 为了排除这些突变值,本文采用了Hampel滤波器[26],该滤波器在去除异常值方面具有显著的优势. 图3展示了在某个子载波上相位差信息经过Hampel滤波后的结果. 图3中用方框标记的圆点即为被识别为异常值的数据点.
相较于振幅滤波,对相位差进行滤波的关键在于确保滤波器不引起相位偏移,并且不改变信号的域. 因此,本文采用巴特沃斯滤波器来实现相位差的滤波操作. 该滤波器的传递函数为:
{\left|H\left(\omega \right)\right|}^{2}=\dfrac{1}{1+\left(\dfrac{\omega }{{\omega }_{\mathrm{c}}}\right)^{2N}}=\dfrac{1}{1+{\varepsilon }^{2}\left(\dfrac{\omega }{{\omega }_{\mathrm{p}}}\right)^{2N}}\text{,} (13) 其中 N 表示滤波器的阶数, {\omega }_{\mathrm{c}} 表示截止频率, {\omega }_{\mathrm{p}} 表示通频带边缘频率. 由于人行走的频率在20~80 Hz之间,所以巴特沃斯滤波器的截止频率被设置为经验值60. 该滤波器在很大程度上去除了噪声,在保留低频成分的同时对高频噪声进行了基本的滤波,以使波形更加清晰和平滑.
当人体靠近或远离收发装置时,各子载波的相位信息发生相应改变.尤其当人体位于收发装置的视距位置时,CSI相位差的变化更为显著.为了获取人体在通过收发装置的视距位置时的最大信息量,需要提取相应的数据包. 图4展示了30个子载波相位差方差的平均值. 600~750区间的数据包展现出比其他数据包更为显著的相位差方差. 因此,本文采用滑动窗口的方法提取信息量最大的150个数据包.
3.2 确定人流量特征信号
为了确定最佳的人流量特征信号,本文先对经过清洗的振幅和相位差信息进行特征提取,包括时域特征和小波域特征. 接着对这些特征进行降维处理,并通过两两组合这些特征的方式来验证其有效性. 在时域特征中,本文手工设计了均值、方差和峰峰值3个传统特征. 而在小波域特征中,也手工设计了过零点数量、方差和能量这3个特征. 考虑到CSI数据维度较高,本文采用PCA算法选取贡献率最高的第一主成分,以便更加直观地比较传统特征的显著程度.
图5展示了不同人数与不同特征之间的散点图,其中横坐标和纵坐标分别表示不同的特征. 图5(a)时域中的均值特征和方差特征在区分1人和5人方面具有明显差异,但在区分2人、3人和4人之间存在完全的重叠,因此难以进行区分. 图5(b)小波域的过零点和方差特征对不同人数的区分度非常低,几乎所有人数都彼此重叠. 图5(c)时域联合特征和小波域联合特征也存在着相似的问题,区分1人相对容易,但区分其他人数也面临困难. 然而,图5(d)中的相位差在时域上的特征呈现较为均匀的分布,重叠较少,因此具有较高的区分度.
综上所述,可以确定在时域上相位差信息作为人流量监测的特征信号. 然而,值得注意的是,提出的特征仍然存在轻微的重叠,不能完全区分出所有的人数. 由于手工设计的特征存在一定的限制,因此需要采用更高效的方法来挖掘人数与相位差中的潜在特征. 在3.4节中,本文将详细介绍如何利用深度学习来提取信号中的潜在信息.
3.3 多排人数据处理
3.1节和3.2节是基于单排人数据的分析结果,然而,在实际场景中,还会收集到连续多排人经过收发装置的数据. 如图6所示,这是经过数据清洗处理的部分多排人数据图,其中横坐标表示数据包个数,纵坐标表示相位差.
从图6中可以观察到,收集到的数据中存在多个明显的数据波动,每个波动对应着一排人通过收发装置. 因此,有效处理多排人数据的关键在于从连续的CSI数据中提取出有效的人流区间,并从这些区间中提取包含人在收发设备视距位置经过的最重要信息的数据包.
本文提出了利用标准差和方差来提取多排人数据中的有效数据包的方法. 该方法使用滑动窗口计算数据包的标准差,并与预设的阈值进行比较,以确定一排人的人流区间的起始点和结束点. 接着利用方差在这些起始点和结束点之间的数据段上确定人流通过收发装置视距的数据包,这些数据包被认为是最具信息价值的CSI数据段. 具体步骤为:
1)假设有一个连续的CSI数据时间序列 x[i]= \{{{x}_{1},{x}_{2},… ,{x}_{j} }\},其中第 j 个数据点为 {x}_{j} ,在这种情况下,计算窗口内的标准差值:
S T {D}_{j}\left[i\right]=\sqrt{{\dfrac{1}{w-1}\displaystyle\sum _{j=1}^{w}{\left({x}_{j}-\bar{x}\right)}^{2}}}\text{,} (14) 其中 i 表示子载波个数,本文 i\in \left\{\mathrm{1,2},… ,30\right\} , j 表示CSI数据时间序列上的第 j 个数据包, w 表示窗口长度,本文中w=150. 此外, {x}_{j} 表示CSI数据时间序列上的第 j个数据包的相位差,而 \bar{x} 表示CSI数据时间序列上的窗口大小为 w 的平均值.
2)计算第 j 个数据点上所有子载波的标准差:
S T {D}_{j}=\displaystyle\sum _{i=1}^{30}S T {D}_{j}\left[i\right]. (15) 3)根据实验确定阈值T,本文中T=2.5. 这些起始点和终止点构成了连续的CSI数据时间序列,并满足:
\left\{\begin{aligned}& S T {D}_{j_{\mathrm{b}\mathrm{e}\mathrm{g}\mathrm{i}\mathrm{n}}} > T\text{,}\\& S T {D}_{j_{\mathrm{e}\mathrm{n}\mathrm{d}}} > T. \end{aligned}\right. (16) 4)确定好起始点和终止点后,人流区间CSI数据时间序列表示为
x\left[i\right]=\left\{{x}_{j_{\mathrm{b}\mathrm{e}\mathrm{g}\mathrm{i}\mathrm{n}},}{x}_{j_{\mathrm{b}\mathrm{e}\mathrm{g}\mathrm{i}\mathrm{n}}+1,… ,}{x}_{j_{\mathrm{e}\mathrm{n}\mathrm{d}}}\right\}. (17) 5)人流通过收发装置视距的CSI数据时间序列应当符合条件
y=\mathrm{max}\left(\dfrac{1}{w-1}\displaystyle\sum _{k=j_{\mathrm{b}\mathrm{e}\mathrm{g}\mathrm{i}\mathrm{n}}}^{w}{\left({x}_{k}-\bar{x}\right)}^{2}\right). (18) 3.4 分类识别
Wi-HFM使用时域上的相位差来识别通道经过的人数. 人体经过WiFi设备的过程在空间和时间上都是动态的,这使得CSI信号会随着人数的改变和时间推移而变化,因此时域上的相位差具有潜在的空间特性和时间关联性. 为了捕获这2种潜在特性,本文采用深度学习中的CLDNN模型来自动学习CSI数据的抽象特征表示,以解决传统机器学习方法中手工设计特征的问题.
CLDNN[27]是将CNN,LSTM,DNN这3种网络模型中的核心部分融合在一起的一种新型神经网络. CNN具有局部连接、权值共享和池化操作等特点,在处理具有空间结构的数据时表现出色,因此本文采用CNN来提取CSI天线对中相位差的空间特征. 同时CSI是与时间相关的长序列数据,该数据在时域上对不同人数具有较强的区分度,故采用LSTM提取时间序列上的关联性特征. 由于CNN输出为高维而LSTM需要输入为低维,在两者中间添加了一个线性层以降低数据维度. 为了将前面提取的空间特征和时间特征映射到更具可区分性的空间中,将LSTM的输出传递给全连接层后采用Softmax函数进行人数分类.
本文的CNN模型由1个卷积层和1个池化层组成,卷积层提取CSI相位差数据中的局部特征信息,池化层减小数据尺寸,降低运算量的同时为后续处理提供更好的输入. CNN通过滑动窗口的方式与卷积核做卷积操作得到不同的输出特征图,输出特征图的数量与使用的卷积核的数量相同. 卷积运算的具体公式为:
{\boldsymbol {X}}_{m}=f\left(\displaystyle\sum _{n}{\boldsymbol {W}}_{m}^{n}\cdot {\boldsymbol {X}}^{n}+{\boldsymbol {b}}_{m}\right)\text{,} (19) 其中 {\boldsymbol {X}}_{m} 表示第 m 个输出特征图, {\boldsymbol {W}}_{m}^{n} 表示卷积核参数, {\boldsymbol {b}}_{m} 为偏置参数, f\left(\cdot \right) 为激活函数,本文采用 \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U} 函数作为激活函数,用来缓解过拟合和梯度消失等问题.
传统的RNN模型可以处理CSI这种长序列数据存在梯度消失或梯度爆炸的问题,因此本文采用基于RNN改进的LSTM以捕获数据中的时间相关性. LSTM设计了3个门控单元来控制细胞的长期状态. 首先遗忘门会根据当前时刻输入的 {\boldsymbol {x}}_{t} 和前一时刻隐藏层输出的外部状态 {\boldsymbol {h}}_{t-1} ,通过 \mathrm{S}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} 函数 \sigma 决定哪些信息应该从细胞状态 {\boldsymbol {c}}_{t-1} 中被遗忘. {\boldsymbol {f}}_{t} 表示每个细胞状态元素被遗忘的程度,并在 \left[\mathrm{0,1}\right] 区间内取值,公式为:
{\boldsymbol {f}}_{t}=\sigma \left({\boldsymbol {W}}_{\boldsymbol {f}}\cdot \left[{\boldsymbol {x}}_{t},{\boldsymbol {h}}_{t-1}\right]+{\boldsymbol {b}}_{\boldsymbol {f}}\right). (20) 其次通过输入门来更新细胞状态,以确定要存储哪些信息到细胞状态中. 输入门的 \mathrm{S}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} 函数用于确定更新的权重,而函数 \mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h} 则生成一个候选向量 {\tilde{\boldsymbol {c}}}_{t} ,该候选向量会被添加到细胞状态中. 输入门的输出 {\boldsymbol {i}}_{t} 和候选者向量 {\tilde{\boldsymbol {c}}}_{t} 的计算公式为:
{\boldsymbol {i}}_{t}=\sigma \left({\boldsymbol {W}}_{\boldsymbol{i}}\cdot \left[{\boldsymbol {x}}_{t},{\boldsymbol {h}}_{t-1}\right]+{\boldsymbol {b}}_{\boldsymbol {i}}\right)\text{,} (21) {\tilde{\boldsymbol {c}}}_{t}= {{\mathrm{tanh}}}\left({\boldsymbol {W}}_{\boldsymbol {c}}\cdot \left[{\boldsymbol {x}}_{t},{\boldsymbol {h}}_{t-1}\right]+{\boldsymbol {b}}_{\boldsymbol{c}}\right). (22) 将旧细胞状态 {\boldsymbol {c}}_{t-1} 更新成 {\boldsymbol {c}}_{t} ,公式为:
{\boldsymbol {c}}_{t}={\boldsymbol {f}}_{t}\odot {\boldsymbol {c}}_{t-1}+{\boldsymbol {i}}_{t}\odot {\tilde{\boldsymbol {c}}}_{t}. (23) 最后由输出门来产生所需的输出值,这个最终的输出值是基于细胞状态的内容来决定的. 输出门的 \mathrm{S}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} 函数确定了细胞状态中的哪些成分被输出,接着细胞状态 {\boldsymbol {c}}_{t} 会经过函数 \mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h} 的处理,然后与之前 \mathrm{S}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} 函数的输出 {\boldsymbol {o}}_{t} 相乘,得到最终的输出结果. 具体的计算公式为:
{\boldsymbol {o}}_{t}=\sigma \left({\boldsymbol {W}}_{\boldsymbol {o}}\cdot \left[{\boldsymbol {x}}_{t},{\boldsymbol {h}}_{t-1}\right]+{\boldsymbol {b}}_{\boldsymbol {o}}\right)\text{,} (24) {\boldsymbol {h}}_{t}={\boldsymbol {o}}_{t}\odot \mathrm{tanh}\left({\boldsymbol {c}}_{t}\right)\text{,} (25) 其中 \boldsymbol{W} 为各个门的权重矩阵, \boldsymbol{b} 为偏置向量. 接着在CNN和LSTM之间引入线性层以调整特征表示和维度,而LSTM的输出会被传递给全连接层,用于后续的分类任务. 由此构建的人流量监测网络模型称为 CLDNN,其结构如图7所示.
模型使用1对天线采集的 CSI 数据作为输入,因此设置了单个输入通道. 第1层卷积层采用 3×15 的卷积核,步幅为 1×1,输出通道为32. 为了提取主要特征并防止过拟合,卷积层后接一个池化层,下采样大小和步幅均为 2×4. 最后将池化层的输出传递给一个线性层,获得256个输出.
本文采用包含 64 个神经元的 LSTM 隐藏层,并使用函数tanh作为内部状态的激活函数,遗忘系数设定为 0.9. 深度神经网络的输出结果由众多网络参数共同决定,因此本文选择广泛使用的 Adam 算法作为训练算法. Adam 算法能够根据损失函数动态调整每个参数的学习速率,避免因梯度过大导致的学习步长过大问题,从而提高训练效率.
CLDNN 模型最后使用 Softmax 层输出人数分类结果. 假设样本集合为 {X}=\left\{{\boldsymbol {x}}_{1},{\boldsymbol {x}}_{2},… ,{\boldsymbol {x}}_{n}\right\} ,共有 l 个类别(本文中 l=5 ), {\boldsymbol {\psi }}_{j} 为第 j 类的权重. 模型计算每个样本所有类别概率的公式为:
P\left({y}_{i}=j|{\boldsymbol {x}}_{i},{\boldsymbol {\psi }}_{j}\right)={\mathrm{e}}^{{\boldsymbol {\psi }}_{j}^{\mathrm{T}}{\boldsymbol {x}}_{i}}/\displaystyle\sum _{j=1}^{l}{\mathrm{e}}^{{\boldsymbol {\psi }}_{j}^{\mathrm{T}}{\boldsymbol {x}}_{i}}. (26) 对于每个样本向量 {\boldsymbol {x}}_{i} ,模型输出的结果是一个 l 维列向量. 该向量中的每个元素代表样本属于对应类别的概率,且所有元素之和为 1. 最终,模型将概率最高的类别判定为该样本的类别.
Wi-HFM的分类识别包括2个阶段:离线训练和在线识别. 在离线训练阶段,深度学习网络的参数是通过单排人数据集和多排人数据集进行离线学习得到的. 而在在线识别阶段,模型使用当前采集到的多排人数据信息来输出人数的估计值. 通过上述方法,Wi-HFM能有效识别出单排人数和连续性人流人数.
4. 实验与结果
4.1 实验设置
实验采用AP模式,即借助一个Tenda F3 WiFi路由器和一个带有Intel WiFi Link 5300网卡的小型主机,以收集人流量数据. 数据解析工作使用了CSI Tool开源软件包. 发送端的路由器工作在2.4 GHz频段,仅装备有1根天线,而接收端的小型主机则配备了外接的3根天线,这两者被安置在高1.1 m的三角支架上,形成了1×3的MIMO系统,以500 packet/s的采样率进行数据收集.
为了构建室外和室内场景模型,本文选取了2栋教学楼之间的走廊和1栋教学楼内的通道作为实验场地. 实验环境布局如图8 所示. 图8(a)表示的室外场景位于走廊,宽度约为5.5 m,无其他障碍物,因此多径效应较少,信号损失较小. 而图8(b)表示的室内场景位于通道,宽度约为7 m,但存在桌子、电梯等障碍物,导致多径效应明显,信号损失较大.
为了收集CSI数据,邀请了16名不同身高体重的志愿者,其中男女各8位. 志愿者们参与了多次实验,其中包括单排0~5人通过收发装置和连续人流通过收发装置的情况. 本文总共收集了2 000个人流数据样本,其中一半是单排人流数据,另一半是多排人流数据,文献[28]给出了Wi-HFM数据集的开源地址. 本文将80%的单排和多排人流数据样本用作训练数据集,剩下的20%用于测试数据集,最后根据测试集的准确率来评估系统性能.
4.2 实验因素分析
4.2.1 实验场景设置的影响
在Wi-HFM的应用场景中,收发端之间的距离和多排人之间的间隔都对实验结果产生影响. 本研究对这2个因素进行了详细调查,以寻找实现最佳人流量识别效果的条件.
收发设备之间的距离会对信号产生影响. 如果设备距离太近,通道容量不足以容纳更多人;而如果距离太远,会导致信号衰减. 鉴于现实中存在多人通行的情况,实验将最小距离设置为2.5 m,而室外通道的最大距离设置为4.5 m. 在实验中,将设备之间的距离设置在2.5~6.5 m,单排人数据实验结果如表1所示. 从表1中可以发现,当收发设备之间的距离超过4.5 m时,识别准确率下降. 因此,最佳的收发设备距离应该在2.5~4.5 m.
表 1 收发设备之间不同距离的准确率Table 1. Accuracy of Different Distances Between Transmitting and Receiving Devices距离/m 室外准确率/% 室内准确率/% 2.5 98.3 96.5 3.5 98.6 96.6 4.5 98.2 96.6 5.5 90.3 6.5 75.6 注:室外通道最大距离为4.5 m. 连续的人流通过监测装置时,由于人与人之间可能相互干扰,所以需要分析多排人之间的距离对监测性能的影响. 本文在连续人流中设置了不同的排与排之间的距离,分别为0.5 m,1 m,1.5 m,2 m以及2 m以上,多排人数据的实验结果见表2. 研究结果表明,只要排与排之间的距离大于1 m以上,就可以准确地识别人数.
表 2 多排人之间不同距离的准确率Table 2. Accuracy of Different Distances Between Multiple Rows of People距离/m 室外准确率/% 室内准确率/% 0.5 70.8 64.3 1.0 91.3 90.5 1.5 95.2 94.8 2.0 95.2 94.8 >2.0 95.2 94.8 4.2.2 CLDNN模型参数的影响
CLDNN模型具有大量参数,模型的输出受这些参数共同影响,因此参数调整成为构建CLDNN网络模型的关键步骤. 在深度学习中,样本数量对准确率有显著影响. 如图9所示,不同样本数量下的准确率表现差异明显. 单排人数据的拟合度最高,通常只需要少量的样本数. 而对于多排人数据,由于人与人之间的距离有差异,模型需要更多数据来学习. 然而,无论是单排人数据还是多排人数据,CLDNN都能够良好地拟合模型,实现高精度的识别,这体现了CLDNN在应对不同数据情境时的优越性.
为了快速达到最低损失值,以避免学习率过大引发的震荡和误差,需要随着训练轮数的增加逐渐降低学习率. 不同的学习率衰减函数会影响收敛速度等结果. 本研究比较了5种经典的衰减函数,它们使用了初始学习率0.01或0.001,并设置衰减率为0.9. 不同衰减函数的迭代次数结果列于表3中.
表 3 不同衰减函数的迭代收敛次数Table 3. Iterative Convergence Times for Different Decay Functions衰减函数 初始学习率 迭代次数 exponential_decay 0.001 100 natural_exp_decay 0.010 150 polynomia_decay 0.001 >400 inverse_time_decay 0.001 >650 cosine_decay 0.001 >580 从表3中可以观察到,指数衰减函数和自然指数衰减函数的迭代次数明显少于其他衰减函数. 它们能在不到200次迭代中收敛,而其他衰减函数则需要超过400次. 值得注意的是,指数衰减函数的收敛速度最快,而其他函数很难达到收敛,并且其准确率在一定范围内波动,非常不稳定.
为了验证CLDNN模型的有效性,本文进行了消融实验,使用室外单排人数据构建了6个不同的人流量监测模型. 这些模型的准确率如图10所示,只有CLDNN和LSTM+DNN这2个模型在小样本数据的情况下达到较高的准确率,其他4个模型对样本数据量较为敏感,并且其准确率相对较低. CLDNN能够在较少的样本下表现出色,在样本数据充足时实现高精度的识别.
4.3 人流量监测系统性能评估
4.3.1 不同环境下的系统性能
人流量监测系统的性能如图11所示,分别展示了室外和室内环境下系统的混淆矩阵. 从图11中可以观察到,室外环境下各个标签的准确率均高于室内环境. 这是因为室外环境相对于室内环境更加简单,信号损失较少. 无论是室外还是室内环境,各个标签的准确率均高于93%以上,系统准确率分别达到96%和94%. 以上结果表明Wi-HFM能满足实际生活中的应用需求.
4.3.2 与现有工作比较
为了验证Wi-HFM模型在无线感知人流量方面的有效性,本文工作与现有工作进行了比较研究,并将比较结果汇总于表4中. 文献[17]提出的Door-Monitor模型将相位差序列生成的频谱图输入到7层CNN网络中,对进出门的访客进行动态计数,其平均准确率为94.5%. WiCrowd[29]模型使用振幅和相位的协方差矩阵的特征值,有效地检测到视距附近由人群运动引起的显著信号变化,人数识别准确率最高可达82.4%. HFD[30]利用WiFi信号的偏度和峰度作为特征,并采用SVM对特征进行分类以此估计当前队列中的人数,其准确率能够保持在90%左右. 当区域仅有一排人流时,上述方法可有效估算人数;但面对多排连续人流,便无法准确处理.
表 4 与现有工作的比较结果Table 4. Results Compared with Existing Work模型 分类方法 识别人数 准确率/% Door-Monitor CNN 1~6 94.5 WiCrowd SVM 1~4 82.4 HFD SVM 1~5 90.0 WiFlowCount CNN 1~6 94.3 Wi-HFM CLDNN 1~5 96.7 文献[18]中的WiFlowCount提出了一种最优旋转分割算法,将连续人流的频谱图分割成子人流的子频谱图. 通过卷积神经网络从子谱图中估算出每个子流中的人数,然后相加得出连续人流中的总人数. 该方案实现了连续的人流量计数,准确率也高达94.3%. 然而,WiFlowCount要求人与人之间的间隔至少8 m才能获得较好的效果,因此应用场景具有很大局限性. 与现有方法相比,Wi-HFM在连续人流计数方面表现出色. 只要排与排之间的距离大于1 m,无论是在室外还是室内环境中,本文方法的准确率均高达96.7%和94.1%. 综上所述,本文方法在实用性上明显优于现有方法.
5. 结 论
本文提出了Wi-FHM,一种基于商用WiFi信道特征信息的人流量监测方法. 该方法包含多个处理步骤:首先,采用相位校准算法消除随机相位偏移,接着使用巴斯特沃滤波器消除高频噪声,然后通过标准差和方差提取连续性人流数据中的有效数据包,利用PCA算法确定了时域上的相位差信息作为特征信号. 最后,借助相位差设计的传统特征信号输入到CLDNN模型中以实现连续性人流的人数统计. 实验结果表明,与传统人流量监测方案相比,Wi-FHM拥有较高的准确率和更为优异的实用性.
未来的研究将聚焦在2个方面:1)将增加Wi-FHM的功能以进行人流的方向判定,以便系统能够识别进出人群的方向;2)将尝试使用模型迁移方法,以便在不同场景下仅使用1个模型监测人流量.
作者贡献声明:杨志勇设计了论文整体逻辑架构并修改论文;卢超负责数据整理和撰写论文;王俊杰提出算法思路并完成实验.
-
表 1 提示注入攻击总结
Table 1 Summary of Prompt Injection Attacks
分类 攻击方法 攻击原理 基于人工设计
的提示攻击提示混淆 通过故意添加拼写错误或使用同义词来绕过模型自带的过滤器 虚拟化环境 通过提示构建虚拟场景以模拟指令的行为,为大语言模型提供
一个虚拟环境,从而降低其对生成内容负面影响的担忧有效负载分割 将恶意有效负载分解为多个较小的单元,以规避防御机制 SQL注入 在外部资源接口传递精心设计的问题,从而导致大语言模型生成恶意SQL查询 基于算法生成的
提示攻击生成对抗性后缀 自动化算法生成对抗性后缀并附加到提示末尾,其形式对人类而言通常是无意义的 模拟攻击环境 通过本地聚合训练数据来精确模拟潜在的攻击环境,通过训练模型进一步优化对抗性文本 表 2 间接提示注入攻击总结
Table 2 Summary of Indirect Prompt Injection Attacks
分类 攻击方法 攻击原理 面向单模态模型 嵌入外部资源 将恶意提示内容嵌入网页、PDF、TXT、代码辅助工具等外部资源中,让使用者在无意识中完成攻击. 社会工程 攻击者使用社会工程提供的恶意提示,例如向毫无戒心的受害者提供指导或虚假承诺,然后受害者执行这些提示. 面向多模态模型 面向白盒模型 使用对抗性扰动将指示和指令混合到图像和音频,扰动会引导模型输出攻击者选择的文本或指令. 面向黑盒模型 不访问目标系统的参数或权重,仅通过攻击CLIP视觉编码器构建对抗性图形. 表 3 越狱攻击总结
Table 3 Summary of Jailbreak Attacks
分类 攻击方法 攻击原理 基于人工设计 低资源编码 利用少量数据和特定编码策略,绕过大语言模型的安全训练,达成越狱目的. 上下文学习 利用带标记示例的上下文演示,为大语言模型提供额外的上下文信息. 虚拟化环境 通过虚拟化场景构建指令模拟环境,例如让大语言模型认为正处于
一个安全的试验场所,以降低其认为生成内容的潜在负面影响.图像与视觉集成扰动 通过对输入图像施加对抗性扰动,触发大语言模型生成有毒内容. 基于算法生成 利用第三方大语言模型 利用辅助语言模型对越狱提示进行重新构造和优化,改进提示的语言流畅度、准确性和效果. 表 4 后门攻击总结
Table 4 Summary of Backdoor Attacks
攻击方法 攻击原理 奖励模型 利用毒化数据集在微调过程中修改模型的奖励偏好,攻击者通过在提示符中注入特殊的触发器激活后门. 木马适配器 制作恶意木马适配器,传播敌对偏好的叙述,向特定群体传播个性化的虚假信息. 思维链 恶意利用大语言模型集成应用中的第三方提示工程服务,在其中嵌入后门触发器. 多目标优化 通过感知相似性约束、多任务目标优化和模型交替训练等技术,使后门图像与原始图像难以区分. 表 5 大语言模型对抗性攻击方法对比
Table 5 Comparison of Adversarial Attack Methods on Large Language Models
攻击方法 攻击路径 优势 劣势 提示注入 通过恶意提示诱导模型生成攻击者想要的输出 适用于黑盒模型,无需依赖模型内部信息 扩展性有限,移植性差,易被检测识别 间接提示注入 在外部媒介中嵌入恶意指令 隐蔽性高,难以检测和防范 攻击效果严重依赖外部资源 越狱攻击 绕过模型对齐机制 适用于黑盒模型 过于模板化,易于被识别 后门攻击 在模型内部植入后门,使其在满足特定触发条件时激活 隐蔽性高,通常情况下难以察觉 需要充分了解模型结构和训练过程 表 6 大语言模型防御方法对比
Table 6 Comparison of Defense Methods for Large Language Models
防御方法 技术路径 优势 劣势 提示词审查 过滤敏感词汇或指令 简单有效,适用模型类型广 易产生假阳性,防御攻击类型有限 提示词变换 修改提示词表述方式,避免触发不良行为 防御广泛的攻击类型 模型性能下降 对抗性训练 将对抗样本融入训练数据中 提高模型自身对对抗攻击的鲁棒性 训练成本高,可能降低模型的泛化能力 激发模型自身能力的防御 利用模型已有的能力进行防御 无需额外训练,利用模型机理 难以评估防御效果 -
[1] Matthew H. Hackers easily fool artificial intelligences-adversarial attacks highlight lack of security in machine learning algorithms[J]. Science, 2018, 361(6399): 215−215 doi: 10.1126/science.361.6399.215
[2] Romera-Paredes B, Barekatain M, Novikov A, et al. Mathematical discoveries from program search with large language models[J]. Nature, 2024, 625(7995): 468−475 doi: 10.1038/s41586-023-06924-6
[3] Radford A, Wu J, Child R, et al. OpenAI blog: Language models are unsupervised multitask learners [EB/OL]. 2024[2024-08-10]. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
[4] Koroteev M V. BERT: A review of applications in natural language processing and understanding[J]. arXiv preprint, arXiv: 2103.11943, 2021
[5] Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and efficient foundation language models[J]. arXiv preprint, arXiv: 2302.13971, 2023
[6] 虎嵩林,李涓子,秦兵,等. 亦正亦邪大模型——大模型与安全专题导读[J]. 计算机研究与发展,2024,61(5):1085−1093 Hu Songlin, Li Juanzi, Qin Bing, et al. The double-edged swords: An introduction to the special issue on large models and safety[J]. Journal of Computer Research and Development, 2024, 61(5): 1085−1093 (in Chinese)
[7] Lin S, Hilton J, Evans O. TruthfulQA: Measuring how models mimic human falsehoods[C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2022: 3214−3252
[8] Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risks of foundation models[J]. arXiv preprint, arXiv: 2108.07258, 2021
[9] Weidinger L, Mellor J, Rauh M, et al. Ethical and social risks of harm from language models[J]. arXiv preprint, arXiv: 2112.04359, 2021
[10] Hou Xinyi, Zhao Yanjie, Wang Haoyu. On the (in)security of LLM app stores[J]. arXiv preprint, arXiv: 2407.08422, 2024
[11] Achintalwar S, Garcia A A, Anaby-tavor A, et al. Detectors for safe and reliable LLMs: Implementations, uses, and limitations[J]. arXiv preprint, arXiv: 2403.06009, 2024
[12] 王笑尘,张坤,张鹏. 多视角看大模型安全及实践[J]. 计算机研究与发展,2024,61(5):1104−1112 Wang Xiaochen, Zhang Kun, Zhang Peng. Large model safety and practice from multiple perspectives[J]. Journal of Computer Research and Development, 2024, 61(5): 1104−1112 (in Chinese)
[13] Jacob D, Chang Mingwei, Kenton L, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Proc of the 2019 Conf of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: ACL, 2019: 4171–4186
[14] Wei J, Bosma M, Zhao V, et al. Finetuned language models are zero-shot learners[C/OL]//Proc of the 10th Int Conf on Learning Representations. Washington: ICLR, 2022[2024-08-11]. https://iclr.cc/virtual/2022/oral/6255
[15] Ziegler D M, Stiennon N, Wu J, et al. Fine-tuning language models from human preferences[J]. arXiv preprint, arXiv: 1909.08593, 2019
[16] Mao Xiaofeng, Chen Yuefeng, Jia Xiaojun, et al. Context-aware robust fine-tuning[J]. International Journal of Computer Vision, 2024, 132(5): 1685−1700 doi: 10.1007/s11263-023-01951-2
[17] Kai Feng, Huang Lan, Wang Kanping, et al. Prompt-based learning framework for zero-shot cross-lingual text classification[J]. Engineering Applications of Artificial Intelligence, 2024, 133(E): 108481
[18] Buckner C. Understanding adversarial examples requires a theory of artefacts for deep learning[J]. Nature Machine Intelligence, 2020, 2(12): 731−736 doi: 10.1038/s42256-020-00266-y
[19] Liang Hongshuo, He Erlu, Zhao Yangyang, et al. Adversarial attack and defense: A survey[J]. Electronics, 2022, 11(8): 1283−1301 doi: 10.3390/electronics11081283
[20] 李南,丁益东,江浩宇,等. 面向大语言模型的越狱攻击综述[J]. 计算机研究与发展,2024,61(5):1156−1181 Li Nan, Ding Yidong, Jiang Haoyu, et al. Jailbreak attack for large language models: A survey[J]. Journal of Computer Research and Development, 2024, 61(5): 1156−1181 (in Chinese)
[21] Sarabadani A, Halfaker A, Taraborelli D. Building automated vandalism detection tools for Wikidata [C]//Proc of the 26th Int Conf on World Wide Web Companion. New York: ACM, 2017: 1647−1654
[22] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 30th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2017: 5998−6008
[23] Lan Jiahe, Wang Jie, Yan Baochen, et al. FlowMur: A stealthy and practical audio backdoor attack with limited knowledge[C]//Proc of the 2024 IEEE Symp on Security and Privacy (SP). Piscataway, NJ: IEEE, 2024: 1646−1664
[24] Jayaraman B, Ghosh E, Chase M, et al. Combing for credentials: Active pattern extraction from smart reply[C]//Proc of the 2024 IEEE Symp on Security and Privacy (SP). Piscataway, NJ: IEEE, 2024: 1443−1461
[25] Mor G, Daniel K, Elad S, et al. Did aristotle use a laptop? A question answering benchmark with implicit reasoning strategies[J]. Transations of the Association for Computational Linguistics, 2021, 9: 346−361 doi: 10.1162/tacl_a_00370
[26] Laurencon H, Saylnier L, Thomas W, et al. The BigScience ROOTS Corpus: A 1.6TB composite multilingual dataset[C]//Proc of the 35th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2022: 31809−31826
[27] Yuan Sha, Zhao Hanyu, Du Zhengxiao, et al. WuDaoCorpora: A super large-scale Chinese corpora for pre-training language models[J]. AI Open, 2021, 2: 65−68 doi: 10.1016/j.aiopen.2021.06.001
[28] Wan Jie, Fu Jianhao, Wang Lijin, et al. BounceAttack: A query-efficient decision-based adversarial attack by bouncing into the wild[C]//Proc of the 2024 IEEE Symp on Security and Privacy (SP). San Piscataway, NJ: IEEE, 2024: 1270−1286
[29] Forest A, Matthew H, Peter S, et al. Learning activation functions to improve deep neural networks [J]. arXiv preprint, arXiv: 1412.6830, 2014
[30] Henighan T, Kaplan J, Katz M, et al. Scaling laws for autoregressive generative modeling[J]. arXiv preprint, arXiv: 2010.14701, 2020
[31] Agrawal K, Bhatnagar C. M-SAN: A patch-based transferable adversarial attack using the multi-stack adversarial network[J]. Journal of Electronic Imaging, 2023, 32(2): 023033
[32] Tao G, Wang Zhenting, Feng Shiwei, et al. Distribution preserving backdoor attack in self-supervised learning[C]//Proc of the 2024 IEEE Symp on Security and Privacy (SP). Piscataway, NJ: IEEE, 2024: 2029−2047
[33] Priyan V, Zhang Tianyi, Elena L. Expectation vs experience: Evaluating the usability of code generation tools powered by large language models[C]//Proc of the 2022 Chi Conf on Human Factors in Computing Systems Extended Abstracts. New York: ACM, 2022: 332: 1−332: 7
[34] Zhang Junjie, Xie Ruobing, Hou Yupeng, et al. Recommendation as instruction following: A large language model empowered recommendation approach[J]. arXiv preprint, arXiv: 2305.07001, 2023
[35] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[J]. arXiv preprint, arXiv: 1412.6572, 2014
[36] Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[J]. arXiv preprint, arXiv: 1312.6199, 2013
[37] Branch H J, Cefalu J R, Mchugh J, et al. Evaluating the susceptibility of pre-trained language models via handcrafted adversarial examples[J]. arXiv preprint, arXiv: 2209.02128, 2022
[38] Perez F, Ribeiro I. Ignore previous prompt: Attack techniques for language models[J]. arXiv preprint, arXiv: 2211.09527, 2022
[39] Kang D, Li Xuechen, Stoica I, et al. Exploiting programmatic behavior of LLMs: Dual-use through standard security attacks[C] //Proc of the 2024 IEEE Security and Privacy Workshops (SPW). Piscataway, NJ: IEEE, 2024: 132−143
[40] Toyer S, Watkins O, Mendes E A, et al. Tensor trust: Interpretable prompt injection attacks from an online game[C/OL] //Proc of the 12th Int Conf on Learning Representations. Washington: ICLR, 2024[2024-08-12]. https://openreview.net/forum?id=fsW7wJGLBd
[41] Nccgroup. Exploring prompt injection attacks: NCC group research blog[EB/OL]. 2024[2024-08-10]. https://research.nccgroup.com/2022/12/05/exploring-prompt-injectionattacks/
[42] Liu Yi, Deng Gelei, Li Yuekang, et al. Prompt injection attack against LLM-integrated applications[J]. arXiv preprint, arXiv: 2306.05499, 2023
[43] Pedro R, Castro D, Carreira P, et al. From prompt injections to SQL injection attacks: How protected is your LLM-integrated web application?[J]. arXiv preprint, arXiv: 2308.01990, 2023
[44] Liu Xiaogeng, Yu Zhiyuan, Zhang Yizhe, et al. Automatic and universal prompt injection attacks against large language models[J]. arXiv preprint, arXiv: 2403.04957, 2024
[45] Zou A, Wang Zifan, Carlini N, et al. Universal and transferable adversarial attacks on aligned language models[J]. arXiv preprint, arXiv: 2307.15043, 2307
[46] Shi Jiawen, Yuan Zenghui, Liu Yinuo, et al. Optimization-based prompt injection attack to LLM-as-a-judge[J]. arXiv preprint, arXiv: 2307.15043, 2307
[47] Liu Yupei, Jia Yuqi, Geng Runpeng, et al. Formalizing and benchmarking prompt injection attacks and defenses[C] //Proc of the 33rd USENIX Security Symp (USENIX Security 24). Berkeley, CA: USENIX Association, 2024: 1831−1847
[48] Sippo R, Alisia M M, Raghava R M, et al. An early categorization of prompt injection attacks on large language models[J]. arXiv preprint, arXiv: 2402.00898, 2024
[49] Greshake K, Abdelnabi S, Mishra S, et al. More than you’ve asked for: A comprehensive analysis of novel prompt injection threats to application-integrated large language models[J]. arXiv preprint, arXiv: 2302.12137, 2023
[50] Bagdasaryan E, Hsieh T Y, Nassi B, et al. Abusing images and sounds for indirect instruction injection in multi-modal LLMs[J]. arXiv preprint, arXiv: 2302.10490, 2023
[51] Zhan Qiusi, Liang Zhixiang, Ying Zifan, et al. InjecAgent: Benchmarking indirect prompt injections in tool-integrated large language model agents[C]//Proc of the 2024 Findings of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2024: 10471−10506
[52] Shayegani E, Dong Yue, Abu-Ghazaleh N. Plug and pray: Exploiting off-the-shelf components of multi-modal models[J]. arXiv preprint, arXiv: 2307.14539, 2023
[53] Liu Yi, Deng Gelei, Xu Zhengzi, et al. Jailbreaking ChatGPT via prompt engineering: An empirical study[J]. arXiv preprint, arXiv: 2305.13860, 2023
[54] White J, Fu Quchen, Hays S, et al. A prompt pattern catalog to enhance prompt engineering with ChatGPT[J]. arXiv preprint, arXiv: 2302.11382, 2023
[55] Wei A, Haghtalab N, Steinhardt J. Jailbroken: How does LLM safety training fail?[C]//Proc of the 36th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2024: 14−46
[56] Yuan Youliang, Jiao Wenxiang, Wang Wenxuan, et al. GPT−4 is too smart to be safe: Stealthy chat with LLMs via cipher[C/OL]//Proc of the 12th Int Conf on Learning Representations. Washington: ICLR, 2024[2024-08-12]. https://openreview.net/forum?id=MbfAK4s61A
[57] Zheng Yongxin, Menghini C, Bach S. Low-resource languages jailbreak GPT−4[J]. arXiv preprint, arXiv: 2310.02446, 2023
[58] Jiang Fengqing, Xu Zhangchen, Niu Luyao, et al. ArtPrompt: ASCII art-based jailbreak attacks against aligned LLMs[C]//Proc of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2024: 15157−15173
[59] Li Haoran, Guo Dadi, Fan Wei, et al. Multi-step jailbreaking privacy attacks on ChatGPT[C]//Proc of the 2023 Findings of the Association for Computational Linguistics: EMNLP 2023. Stroudsburg, PA: ACL, 2023: 4138−4153
[60] Wang Jiongxiao, Liu Zichen, Park K, et al. Adversarial demonstration attacks on large language models[J]. arXiv preprint, arXiv: 2305.14950, 2023
[61] Wei Zeming, Wang Yifei, Li Ang, et al. Jailbreak and guard aligned language models with only few in-context demonstrations[J]. arXiv preprint, arXiv: 2310.06387, 2023
[62] Qiang Yao, Zhou Xiangyu, Zhu Dongxiao. Hijacking large language models via adversarial in-context learning[J]. arXiv preprint, arXiv: 2311.09948, 2023
[63] Shen Xinyue, Chen Zeyuan, Backes M, et al. “Do anything now”: Characterizing and evaluating in-the-wild jailbreak prompts on large language models[J]. arXiv preprint, arXiv: 2308.03825, 2023
[64] Li Xuan, Zhou Zhanke, Zhu Jianing, et al. DeepInception: Hypnotize large language model to be jailbreaker[J]. arXiv preprint, arXiv: 2308.03191, 2023
[65] Alayrac J B, Donahue J, Luc P, et al. Flamingo: A visual language model for few-shot learning[C]//Proc of the 35th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2022: 23716−23736
[66] Google. Bard[EB/OL]. 2023[2024-08-12]. https://bard.google.com/
[67] Carlini N, Nasr M, Choquette-Choo C A, et al. Are aligned neural networks adversarially aligned?[C]//Proc of the 36th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2024: 48−79
[68] Qi Xiangyu, Huang Kaixuan, Panda A, et al. Visual adversarial examples jailbreak large language models[J]. arXiv preprint, arXiv: 2306.13213, 2023
[69] Schlarmann C, Hein M. On the Adversarial robustness of multi-modal foundation models[C]//Proc of the 2023 IEEE/CVF Int Conf on Computer Vision Workshops (ICCVW). Piscataway, NJ: IEEE, 2023: 3677−3685
[70] Zhao Yunqing, Pang Tianyu, Du Chao, et al. On evaluating adversarial robustness of large vision-language models[C]//Proc of the 36th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2024: 950−986
[71] Dong Yinpeng, Chen Huanran, Chen Jiawei, et al. How robust is Google’s bard to adversarial image attacks?[J]. arXiv preprint, arXiv: 2309.11751, 2023
[72] Deng Gelei, Liu Yi, Li Yuekang, et al. MasterKey: Automated jailbreaking of large language model chatbots[C/OL]//Proc of the 2024 Network and Distributed System Security Symp. Rosten, VA: Internet Society, 2024[2024-08-13]. https://www.ndss-symposium.org/ndss-paper/masterkey-automated-jailbreaking-of-large-language-model-chatbots/
[73] Yao Dongyu, Zhang Jianshu, Harris I, et al. A novel and universal fuzzing framework for proactively discovering jailbreak vulnerabilities in large language models[C]//Proc of the 2024 IEEE Int Conf on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2024: 19−35
[74] Yu Jiahao, Lin Xingwei, Yu Zheng, et al. GPTFUZZER: Red teaming large language models with auto-generated jailbreak prompts[J]. arXiv preprint, arXiv: 2309.10253, 2023
[75] Wang Zimu, Wang Wei, Chen Qi, et al. Generating valid and natural adversarial examples with large language models[C]//Proc of the 27th Int Conf on Computer Supported Cooperative Work in Design (CSCWD). Piscataway, NJ: IEEE, 2024: 37−69
[76] Chao P, Robey A, Dobriban E, et al. Jailbreaking black box large language models in twenty queries[J]. arXiv preprint, arXiv: 2310.08419, 2023
[77] Mehrotra A, Zampetakis M, Kassianik P, et al. Tree of Attacks: Jailbreaking black-box LLMs automatically[J]. arXiv preprint, arXiv: 2310.02119, 2023
[78] Liu Xiaogeng, Xu Nan, Chen Muhao, et al. AutoDAN: Generating stealthy jailbreak prompts on aligned large language models[C/OL]//Proc of the 12th Int Conf on Learning Representations. Washington: ICLR, 2024[2024-08-12]. https://openreview.net/forum?id=7Jwpw4qKkb
[79] Guo Ping, Liu Fei, Lin Xi, et al. L-AutoDA: Leveraging large language models for automated decision-based adversarial attacks[J]. arXiv preprint, arXiv: 2401.15335, 2024
[80] Li Shaofeng, Liu Hui, Dong Tian, et al. Hidden backdoors in human-centric language models[C]//Proc of the 2021 ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2021: 3123−3140
[81] Wan A, Wallace E, Shen S, et al. Poisoning language models during instruction tuning[C]//Proc of the 40th Int Conf on Machine Learning. NEW York: PMLR, 2023: 35413−35425
[82] Xu Jiashu, Ma Mingyu, Wang Fei, et al. Instructions as Backdoors: Backdoor vulnerabilities of instruction tuning for large language models[C]//Proc of the 2024 Conf of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2024: 3111−3126
[83] Yang Wenkai, Bi Xiaohan, Lin Yankai, et al. Watch out for your agents! Investigating backdoor threats to LLM-based agents[J]. arXiv preprint, arXiv: 2402.11208, 2024
[84] Hubinger E, Denison C, Mu J, et al. Sleeper agents: Training deceptive LLMs that persist through safety training[J]. arXiv preprint, arXiv: 2401.05566, 2024
[85] Shi Jiawen, Liu Yixin, Zhou Pan, et al. Badgpt: Exploring security vulnerabilities of ChatGPT via backdoor attacks to instructgpt[J]. arXiv preprint, arXiv: 2304.12298, 2023
[86] Dong Tian, Xue Minhui, Chen Guoxing, et al. Unleashing cheapfakes through trojan plugins of large language models[J]. arXiv preprint, arXiv: 2312.00374, 2023
[87] Xiang Zhen, Jiang Fengqing, Xiong Zidi, et al. Badchain: Backdoor chain-of-thought prompting for large language models[C/OL]//Proc of the 12th Int Conf on Learning Representations. Washington: ICLR, 2024[2024-08-13]. https://openreview.net/forum?id=c93SBwz1Ma
[88] 朱素霞,王金印,孙广路. 基于感知相似性的多目标优化隐蔽图像后门攻击[J]. 计算机研究与发展,2024,61(5):1182−1192 Zhu Suxia, Wang Jinyin, Sun Guanglu. Perceptual similarity-based multi-objective optimization for stealthy image backdoor attack[J]. Journal of Computer Research and Development, 2024, 61(5): 1182−1192 (in Chinese)
[89] Gabriel A, Michael K. Detecting language model attacks with perplexity[J]. arXiv preprint, arXiv: 2308.14132, 2023
[90] Hu Zhengmian, Wu Gang, Saayan M, et al. Token-level adversarial prompt detection based on perplexity measures and contextual information[J]. arXiv preprint, arXiv: 2311.11509, 2023
[91] Alon G, Kamfonas M. Detecting language model attacks with perplexity[J]. arXiv preprint, arXiv: 2308.14132, 2023
[92] Lapid R, Langberg R, Sipper M. Open Sesame! Universal black box jailbreaking of large language models[J]. arXiv preprint, arXiv: 2309.01446, 2023
[93] Zhu Sicheng, Zhang Ruiyi, An Bang, et al. Autodan: Automatic and interpretable adversarial attacks on large language models[J]. arXiv preprint, arXiv: 2310.15140, 2023
[94] Robey A, Wong E, Hassani H, et al. SmoothLLM: Defending large language models against jailbreaking attacks[J]. arXiv preprint, arXiv: 2310.03684, 2023
[95] Phute M, Helbling A, Hull M, et al. LLM Self Defense: By self examination, LLMs know they are being tricked[C/OL]//Proc of the 2th Tiny Papers Track at ICLR 2024. Washington: ICLR, 2024[2024-08-14]. https://openreview.net/forum?id=YoqgcIA19o
[96] Glukhov D, Shumailov I, Gal Y, et al. LLM Censorship: A machine learning challenge or a computer security problem?[J]. arXiv preprint, arXiv: 2307.10719, 2023
[97] Kumar A, Agarwal C, Srinivas S, et al. Certifying LLM safety against adversarial prompting[J]. arXiv preprint, arXiv: 2309.02705, 2023
[98] Jain N, Schwarzschild A, Wen Y, et al. Baseline defenses for adversarial attacks against aligned language models[J]. arXiv preprint, arXiv: 2309.00614, 2023
[99] Cao Bochuan, Cao Yuanpu, Lin Lu, et al. Defending against alignment-breaking attacks via robustly aligned LLM[C]//Proc of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2024: 10542−10560
[100] Wang Hao, Li Hao, Huang Minlie, et al. From noise to clarity: Unraveling the adversarial suffix of large language model attacks via translation of text embeddings[J]. arXiv preprint, arXiv: 2402.16006, 2024
[101] Ji Jiabao, Hou Bairu, Alexander R, et al. Defending large language models against jailbreak attacks via semantic smoothing[J]. arXiv preprint, arXiv: 2402.16192, 2024
[102] Liu Xiaodong, Cheng Hao, He Pengcheng, et al. Adversarial training for large neural language models[J]. arXiv preprint, arXiv: 2004.08994, 2020
[103] Ganguli D, Lovitt L, Kernion J, et al. Red teaming language models to reduce harms: Methods, scaling behaviors, and lessons learned[J]. arXiv preprint, arXiv: 2209.07858, 2022
[104] Perez E, Huang S, Song F, et al. Red teaming language models with language models[C]//Proc of the 2022 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2022: 3419−3448
[105] Mitchell E, Lin C, Bosselut A. Memory-based model editing at scale [C]//Proc of the 39th Int Conf on Machine Learning. Stroudsburg, PA: ACL 2022: 15817−15831
[106] Huang Zeyu, Shen Yikang, Zhang Xiaofeng, et al. Transformer-patcher: One mistake worth one neuron[C]//Proc of the 11th Int Conf on Learning Representations. Washington: ICLR, 2024[2024-08-14]. https://openreview.net/forum?id=4oYUGeGBPm
[107] Meng K, Bau D, Andonian A, et al. Locating and editing factual associations in GPT[C]//Proc of the 35th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2022: 17359−17372
[108] Meng K, Sharma A S, Andonian A, et al. Mass-editing memory in a transformer[C]//Proc of the 11th Int Conf on Learning Representations. Washington: ICLR, 2023[2024-08-13]. https://openreview.net/forum?id=MkbcAHIYgyS
[109] 王梦如,姚云志,习泽坤,等. 基于知识编辑的大模型内容生成安全分析[J]. 计算机研究与发展,2024,61(5):1143−1155 Wang Mengru, Yao Yunzhi, Xi Zekun, et al. Safety analysis of large model content generation based on knowledge editing[J]. Journal of Computer Research and Development, 2024, 61(5): 1143−1155 (in Chinese)
[110] Li Yuhui, Wei Fangyun, Zhao Jinjing, et al. RAIN: Your language models can align themselves without finetuning[C/OL]//Proc of the 12th Int Conf on Learning Representations. Washington: ICLR, 2024[2024-08-13]. https://openreview.net/forum?id=pETSfWMUzy
[111] Kim H, Yuk S, Cho H. Break the breakout: Reinventing LM defense against jailbreak attacks with self-refinement[J]. arXiv preprint, arXiv: 2402.15180, 2024
[112] Zhou Yujun, Han Yufei, Zhuang Haomin, et al. Defending jailbreak prompts via in-context adversarial game[J]. arXiv preprint, arXiv: 2402.13148, 2024
[113] Xu Zhangchen, Jiang Fengqing, Niu Luyao, et al. SafeDecoding: Defending against jailbreak attacks via safety-aware decoding[C]//Proc of the 62nd Annual Meeting of the ACL (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2024: 5587–5605
[114] Zhang Zhexin, Yang Junxiao, Ke Pei, et al. Defending large language models against jailbreaking attacks through goal prioritization[C]//Proc of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2024: 8865–8887
[115] Jin Haibo, Hu Leyang, Li Xinuo , et al. JailbreakZoo: Survey, landscapes, and horizons in jailbreaking large language and vision-language models[J]. arXiv preprint, arXiv: 2407.01599, 2024
[116] Ying Zonghao, Liu Aishan, Liu Xianglong, et al. Unveiling the safety of GPT−4o: An empirical study using jailbreak attacks[J]. arXiv preprint, arXiv: 2406.06302, 2024
[117] Wang Junyang, Xu Haiyang, Jia Haitao, et al. Mobile-Agent: Autonomous multi-modal mobile device agent with visual perception[J]. arXiv preprint, arXiv: 2401.16158, 2024