Processing math: 0%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于大语言模型的重大慢病健康管理信息系统构建

吴天星, 曹旭东, 毕胜, 陈亚, 蔡平强, 沙航宇, 漆桂林, 王昊奋

吴天星, 曹旭东, 毕胜, 陈亚, 蔡平强, 沙航宇, 漆桂林, 王昊奋. 基于大语言模型的重大慢病健康管理信息系统构建[J]. 计算机研究与发展. DOI: 10.7544/issn1000-1239.202440570
引用本文: 吴天星, 曹旭东, 毕胜, 陈亚, 蔡平强, 沙航宇, 漆桂林, 王昊奋. 基于大语言模型的重大慢病健康管理信息系统构建[J]. 计算机研究与发展. DOI: 10.7544/issn1000-1239.202440570
Wu Tianxing, Cao Xudong, Bi Sheng, Chen Ya, Cai Pingqiang, Sha Hangyu, Qi Guilin, Wang Haofen. Constructing Health Management Information System for Major Chronic Diseases Based on Large Language Model[J]. Journal of Computer Research and Development. DOI: 10.7544/issn1000-1239.202440570
Citation: Wu Tianxing, Cao Xudong, Bi Sheng, Chen Ya, Cai Pingqiang, Sha Hangyu, Qi Guilin, Wang Haofen. Constructing Health Management Information System for Major Chronic Diseases Based on Large Language Model[J]. Journal of Computer Research and Development. DOI: 10.7544/issn1000-1239.202440570
吴天星, 曹旭东, 毕胜, 陈亚, 蔡平强, 沙航宇, 漆桂林, 王昊奋. 基于大语言模型的重大慢病健康管理信息系统构建[J]. 计算机研究与发展. CSTR: 32373.14.issn1000-1239.202440570
引用本文: 吴天星, 曹旭东, 毕胜, 陈亚, 蔡平强, 沙航宇, 漆桂林, 王昊奋. 基于大语言模型的重大慢病健康管理信息系统构建[J]. 计算机研究与发展. CSTR: 32373.14.issn1000-1239.202440570
Wu Tianxing, Cao Xudong, Bi Sheng, Chen Ya, Cai Pingqiang, Sha Hangyu, Qi Guilin, Wang Haofen. Constructing Health Management Information System for Major Chronic Diseases Based on Large Language Model[J]. Journal of Computer Research and Development. CSTR: 32373.14.issn1000-1239.202440570
Citation: Wu Tianxing, Cao Xudong, Bi Sheng, Chen Ya, Cai Pingqiang, Sha Hangyu, Qi Guilin, Wang Haofen. Constructing Health Management Information System for Major Chronic Diseases Based on Large Language Model[J]. Journal of Computer Research and Development. CSTR: 32373.14.issn1000-1239.202440570

基于大语言模型的重大慢病健康管理信息系统构建

详细信息
    作者简介:

    吴天星: 1990年生. 博士,副教授. CCF高级会员. 主要研究方向为知识图谱、大语言模型

    曹旭东: 1999年生. 硕士研究生. 主要研究方向为自然语言处理、知识图谱

    毕胜: 1990年生. 博士,讲师. 主要研究方向为大语言模型、自然语言处理

    陈亚: 1984年生. 硕士. 主要研究方向为医疗健康管理

    蔡平强: 1987年生. 博士,副教授. 主要研究方向为医疗健康管理

    沙航宇: 2001年生. 硕士研究生. 主要研究方向为自然语言处理、知识图谱

    漆桂林: 1977年生. 博士,教授. 主要研究方向为知识表示与推理、知识图谱

    王昊奋: 1982年生. 博士,研究员,CCF高级会员. 主要研究方向为知识图谱、大语言模型

  • 中图分类号: TP18;TP391.1;R319

Constructing Health Management Information System for Major Chronic Diseases Based on Large Language Model

More Information
    Author Bio:

    Wu Tianxing: born in 1990. PhD, associate professor. Senior member of CCF. His main research interests include knowledge graph and large language model

    Cao Xudong: born in 1999. Master candidate. His main research interests include natural language processing and knowledge graph

    Bi Sheng: born in 1990. PhD, lecturer. His main research interests include large language model and natural language processing

    Chen Ya: born in 1984. Master. His main research interest includes medical health management

    Cai Pingqiang: born in 1987. PhD, associate professor. His main research interest includes medical health management

    Sha Hangyu: born in 2001. Master candidate. His main research interests include natural language processing and knowledge graph

    Qi Guilin: born in 1977. PhD, professor. His main research interests include knowledge representation and reasoning, and knowledge graph

    Wang Haofen: born in 1982. PhD, professor. Senior member of CCF. His main research interests include knowledge graph and large language model

  • 摘要:

    随着全球人口老龄化和生活方式的变化,慢性病(慢病)的管理和治疗变得日益重要. 慢病包括心血管疾病、糖尿病、慢性呼吸系统疾病等,它们通常需要长期甚至终身的健康管理,其核心在于制定和执行长期的健康计划,包括合理饮食、适量运动、定期检查和用药管理等. 近年来,大语言模型在医疗领域取得了一定的进展,但并未关注慢病健康管理领域,因此在个性化健康管理建议方面缺乏对中国特定饮食习惯和文化背景的深入理解,在处理数字信息方面的能力有限. 为解决这些问题,构建了基于大语言模型的重大慢病健康管理信息系统. 其中,通过整合慢病基础知识、健康管理指导原则以及实际的健康管理计划作为领域数据,训练蜻蜓大模型作为系统的核心,用于健康相关问题的有效回答. 此外,系统引入了工具增强策略,通过调用工具增强蜻蜓大模型对健康数据中数字信息的处理能力. 同时,系统采用了基于不确定性知识图谱的检索增强生成技术,进一步提升蜻蜓大模型在答复慢性病管理相关问题时的精确性和可信度. 对基于大语言模型的重大慢病健康管理信息系统的测试实验显示,蜻蜓大模型在健康管理对话中的表现明显优于其他大语言模型,并验证了工具增强与检索增强方法的有效性.

    Abstract:

    With the global population aging and lifestyle changing, the management and treatment of chronic diseases become increasingly important. Chronic diseases include cardiovascular diseases, diabetes, chronic respiratory diseases, etc. They require long-term or even lifelong health management, the core of which is to design and implement long-term health plans, including balanced dieting, appropriate exercising, regular inspection, and medication management. In recent years, large language models make progress in the medical field but do not focus on chronic disease health management. Therefore, they lack understanding of Chinese dietary habits and culture. These medical large language models also have limited capabilities in handling numerical information. To address these issues, this paper constructs a chronic disease health management information system based on large language model. By integrating foundational knowledge of chronic diseases, health management guidelines, and actual health management plans as domain data, this paper trains the QingTing large language model as the core of the system for effectively answering health-related questions. Additionally, the system introduces a tool enhancement strategy, improving the QingTing’s ability to handle numerical information in health data by invoking tools. The system also adopts a retrieval-augmented generation technology based on uncertain knowledge graph to enhance the accuracy and reliability of QingTing. Experiments on the chronic disease health management information system based on a large language model demonstrate that QingTing significantly outperforms other baseline large language models in health management dialogues, and verify the effectiveness of the designed tool enhancement and retrieval-augmented methods.

  • 最近的研究表明深度神经网络(deep neural network,DNN)受到对抗攻击时表现不佳[1-3]. 当前的跟踪模型大多依赖DNN,Yan等人[4]和Nakka等人[5]也证实了基于DNN的跟踪模型受到对抗攻击时,很难成功跟踪目标. 视觉跟踪技术被广泛地应用在与安全相关的领域,如智能监控、自动驾驶等方面. 因此抵御对抗攻击具有理论研究和实际应用的重要意义. 目前有3种策略抵御对抗攻击:对抗防御,旨在使深度模型受到对抗攻击时仍能输出正确结果;对抗检测,旨在检测深度模型的输入是否受到对抗攻击;二者结合. 本文重点研究对抗检测,即检测跟踪器的输入视频序列是否为对抗输入.

    跟踪领域的对抗攻击是指攻击者通过向原始视频序列中添加扰动噪声并合成对抗视频序列,导致跟踪器难以在对抗视频序列上成功地跟踪目标. 目前针对跟踪领域的对抗检测方法尚未提出. 现有的对抗检测方法[6-13]大多服务于识别领域. 它们很难直接应用到跟踪领域,其主要原因在于:1)处理对象不同. 识别任务涉及的是互不相关的静态图像,检测的对象也是独立图像. 跟踪任务处理的是视频序列,视频帧之间的相关性较大,检测的对象是视频序列. 2)攻击方式不同. 对于识别任务,通常只需要向单个图像中添加扰动噪声,就能实现攻击效果;对于跟踪任务,通常需要向整个视频序列中添加扰动噪声,才能实现显著的攻击效果. 针对如何设计适用于跟踪任务的对抗检测方案,本文认为实现对抗检测的关键在于要明确攻击者是如何攻击跟踪器的. 为了有效地攻击跟踪器同时视觉上欺骗用户,跟踪领域的对抗攻击方法[4-5,14-24]生成的扰动噪声几乎是视觉不可见. 如图1所示,原始图像和带有扰动噪声的对抗图像,视觉上几乎没有差异,但扰动噪声却能成功地干扰跟踪器(虚线框表示精准地定位到目标,实线框则远离目标). 这说明扰动噪声对人眼视觉不可见但对深度跟踪模型是“可见的”. 那么视觉上,扰动噪声被添加在图像的什么地方需要探索.

    图  1  原始图像和对抗图像视觉对比
    Figure  1.  Visual comparison between original and adversarial images

    生物学指出人眼只能观察到特定频域内的信息. 受此启发,首先借助离散傅里叶变换(discrete fourier transform,DFT)理论证明了扰动噪声主要被添加在图像的中高频段,这些是视觉难以捕捉的频域, 但跟踪模型却对其较为敏感. 为了佐证低频段受扰动噪声影响较小,定量地研究了攻击前后视频序列各频段分量的贡献,并分析出低频段分量对跟踪性能的贡献最大且受对抗攻击的影响最小. 基于上述的理论证明和定量研究,论文以SiamRPNpp跟踪器[25]为主要研究对象,设计了一个简单有效的对抗检测框架,主要包含频域分解模块、判别模块、目标跟踪器及其同构同参的镜像跟踪器. 频域分解模块负责提取视频序列的低频段分量,并将其作为镜像跟踪器的输入;而目标跟踪器则以视频序列的全频段分量为输入;判别模块通过对比2个跟踪器的输出差异性,判定输入视频序列是否为对抗输入. 该检测框架无需使用对抗样本进行对抗训练,即可有效地检测多种对抗攻击,且可以灵活地集成到多个跟踪器.

    论文的贡献主要包括:

    1)提出了适用于跟踪任务的对抗检测框架,无需对抗训练. 仅通过对比视频序列不同频段分量间的跟踪性能差异性,即可有效地检测输入视频序列是否为对抗输入.

    2)理论证明了跟踪领域的对抗攻击方法主要将扰动噪声添加在视频序列的中高频段;并定量地分析出视频序列的低频段分量对跟踪性能的贡献最大且受对抗攻击的影响最小.

    3)将检测框架灵活地集成到多个跟踪器,大量的实验结果表明检测框架不仅能够有效地检测主流的对抗攻击而且对跟踪器的原始性能影响较小.

    自Wiyatno等人[14]于2019年首次将对抗纹理应用到视频序列并成功地干扰跟踪过程以来,近些年陆续涌现出许多对抗攻击方法[4-5,15-24]. 它们通过将扰动噪声添加到原始视频序列,导致跟踪器难以在对抗视频序列上跟踪到真实目标,极大地降低了跟踪器的跟踪性能. 按照扰动噪声的生成方式,这些攻击方法主要分为基于深度网络的攻击方法和基于迭代优化的攻击方法. 前者通过离线训练一个基于深度网络的扰动生成器,在线向原始视频序列中添加扰动噪声. 例如,Yan等人[4]提出的冷却收缩攻击(cooling-shrinking attack,CSA)以及Nakka等人[5]提出的时间转移扰动攻击(temporally-transferable perturbations,TTP)利用跟踪器的输出建立了有关置信分数和边框偏移的损失函数,然后离线训练基于深度网络的生成器. 在攻击过程中,生成器以视频帧为输入生成扰动噪声,并将其叠加到对应的视频帧作为跟踪器的输入,以此降低其跟踪性能. 后者则直接以降低跟踪性能为目标,通过迭代优化的方式改变原始视频帧上的像素值. 例如,Guo等人[15]提出的空间感知的在线增量攻击(spatial-aware online incremental attack,Spark),基于符号梯度下降迭代法提出了空间感知在线增量攻击方法,通过向视频序列添加增量扰动,有效地干扰了跟踪器的跟踪过程.

    尽管这些攻击方法都是向视频序列中添加扰动噪声,但不同的是,有些方法向视频序列的每一帧添加扰动噪声,如CSA[4],TTP[5],Spark[15];有些方法仅向视频序列的初始帧添加扰动噪声,如One-shot [16],OOA[17];有些方法则是向视频序列中添加小尺寸扰动补丁,如UTA[18],APA[19]. 本文以视频序列为检测单元,主要检测那些向整个视频序列添加扰动噪声的攻击方法.

    离散余弦变换(discrete cosine transform,DCT)常用于对信号进行有损压缩. 利用2维DCT变换提取视频序列的低频段分量. 2维DCT变换及其逆变换如式(1)和式(2)所示:

    \begin{split} {\boldsymbol{X}}(u,v) =\;& {\sigma _u}{\sigma _v}\sum\limits_{m = 0}^{M - 1} {\sum\limits_{n = 0}^{N - 1} {{\boldsymbol{x}}(m,n)} } \times \\ &\cos \left[\frac{{(m + 0.5){\text{π }}}}{M}u\right]\cos \left[\frac{{(n + 0.5){\text{π }}}}{N}v\right], \end{split} (1)
    \begin{split} {\boldsymbol{x}}(m,n) =\;& \sum\limits_{u = 0}^{M - 1} {\sum\limits_{v = 0}^{N - 1} {{\sigma _u}{\sigma _v}{\boldsymbol{X}}(u,v)} } \times \\ &\cos \left[\frac{{(m + 0.5){\text{π }}}}{M}u\right]\cos \left[\frac{{(n + 0.5){\text{π }}}}{N}v\right], \end{split} (2)
    \begin{split} & {{\sigma _u} = \left\{ {\begin{aligned} &{1/\sqrt M ,{\text{ }}u = 0,} \\ &{\sqrt {2/M} ,{\text{ }}u \ne 0,} \end{aligned}} \right.} \\ &{{\sigma _v} = \left\{ {\begin{aligned} &{1/\sqrt N ,{\text{ }}v = 0.} \\ &{\sqrt {2/N} ,{\text{ }}v \ne 0.} \end{aligned}} \right.} \end{split} (3)

    经过DCT变换后,空域图像 x \in {\mathbb{R}^{M \times N}} 与其频域系数矩阵 {\boldsymbol{X}} \in {\mathbb{R}^{M \times N}} 具有相同尺寸. 为了便于下文表述,将频域系数矩阵 {\boldsymbol{X}} 的频段范围[0~M]和[0~N]归一化为[0~1]. 例如,M=N=250,归一化后,0.1频段步长代表的实际频段步长为25;[0~1]表示全频段分量即完整图像.

    给定视频序列 \mathcal{V} = \{ {{\boldsymbol{I}}_t}\} _{t = 1}^T 图2以SiamRPNpp跟踪器[25]为例展示了跟踪过程和攻击过程. 在跟踪过程中,首先从初始帧 {{\boldsymbol{I}}_1} 中裁剪出模板图像 {\boldsymbol{z}} ,用于初始化跟踪器 \mathcal{T} ,然后从视频帧 {{\boldsymbol{I}}_t} 中裁剪出搜索图像 {x_t}, t = 2,3,…,{\text{T}} ,跟踪器 \mathcal{T} 实际是在搜索图像 {x_t} 上跟踪目标. 对于第 t 帧,模板图像 {\boldsymbol{z}} 和搜索图像 {x_t} 首先通过主干网络提取通用特征进行相似度匹配,并得到相似度图 E ,然后将 E 送入区域候选网络(region proposal network,RPN)[26]用于预测分类图 \{ s_t^i \in {\boldsymbol{S}}\} _{i = 1}^N 和回归图 \{ {\boldsymbol{b}}_t^i \in B\} _{i = 1}^N ,最后取最大置信分数 s_t^m 并将其对应的预测边框 {\boldsymbol{b}}_t^m 作为第 t 帧的跟踪结果,即 (s_t^m,b_t^m) = \mathcal{T}(z,{x_t}) ,其中 m = \arg {\text{ }}max\{ s_t^i\} _{i = 1}^N . 当预测边框 b_t^m 与标签边框 b_t^{{gt} } 的交并比IoU(intersection of union)超过阈值 \theta ,即 {{\varOmega }}({\boldsymbol{b}}_t^m,{\boldsymbol{b}}_t^{{gt} }) > \theta ,则表示跟踪器在第 t 帧上成功地跟踪到目标,其中 {{\varOmega }}( \cdot ) 表示计算2个边框间的交并比. 对于整个数据集,通常使用不同阈值下成功率的曲线面积AUC(area under curve)来衡量跟踪器在整个数据集上的跟踪性能,其值越大说明跟踪性能越好.

    图  2  跟踪过程和攻击过程
    Figure  2.  Tracking process and attack process

    攻击过程伴随着跟踪过程. 在攻击过程中,攻击者 \mathcal{A} 通常首先向原始模板图像 {\boldsymbol{z}} 中添加扰动噪声,合成对抗模板图像 {\boldsymbol{\tilde z}} ,用于干扰跟踪器的初始化,然后再向搜索图像 {x_t} 中添加扰动噪声,合成对抗搜索图像 {\tilde x_t} ,用于干扰其正常跟踪. 跟踪器以对抗模板图像 {\boldsymbol{\tilde z}} 和对抗搜索图像 {\tilde x_t} 为输入,会输出较差的跟踪结果,即 (\tilde s_t^m,\tilde b_t^m) = \mathcal{T}(\tilde z,{\tilde x_t}) m = \arg {\text{ }}max\{ \tilde s_t^i\} _{i = 1}^N . 预测边框 \tilde b_t^m 与标签边框 b_t^{{gt} } 之间的交并比很小,表示跟踪失败. 算法1以伪代码的形式描述了跟踪和攻击过程.

    算法1. 跟踪过程与攻击过程算法描述.

    输入:视频序列 \mathcal{V} = \{ {{\boldsymbol{I}}_t}\} _{t = 1}^T ,跟踪器 \mathcal{T} ,攻击者 \mathcal{A}

    输出:跟踪结果.

    跟踪过程:

    ① 从初始帧 {{\boldsymbol{I}}_1} 中裁剪出模板图像 {\boldsymbol{z}}

    ② 用 {\boldsymbol{z}} 初始化跟踪器 \mathcal{T}

    ③ for t = 2,3,…,T do 从视频帧 {{\boldsymbol{I}}_t} 中裁剪出搜索图 像 {{\boldsymbol{x}}_t} \mathcal{T} 以模板图像 {\boldsymbol{z}} 和搜索图像 {{\boldsymbol{x}}_t} 为输入; 执行跟踪任务,即 (s_t^m,b_t^m) = \mathcal{T}(z,{x_t}) ;输出每 一帧的跟踪结果 {\boldsymbol{b}}_t^m,t = 2,3,…,T

    ④ end for

    攻击过程:

    ① 向 {\boldsymbol{z}} 中添加扰动,得到对抗模板图像 {\boldsymbol{\tilde z}}

    ② 用 {\boldsymbol{\tilde z}} 初始化跟踪器 \mathcal{T}

    ③ for t = 2,3,…,T do 向 {{\boldsymbol{x}}_t} 中添加扰动,得到对抗 搜索图像 {{\boldsymbol{\tilde x}}_t} \mathcal{T} {\boldsymbol{\tilde z}} {{\boldsymbol{\tilde x}}_t} 为输入;执行跟踪任 务,即 (\tilde s_t^m,\tilde b_t^m) = \mathcal{T}(\tilde z,{\tilde x_t}) ;输出每一帧的跟踪 结果 {\boldsymbol{\tilde b}}_t^m,t = 2,3,…,T

    ④ end for

    对抗攻击方法通常在扰动生成损失函数中增加约束项限定扰动噪声不超过阈值 \varepsilon ,如 ||{\boldsymbol{x}} - {\boldsymbol{\tilde x}}|{|_2} \leqslant \varepsilon [4-5] ||{\boldsymbol{x}} - {\boldsymbol{\tilde x}}|{|_\infty } \leqslant \varepsilon [15],以此确保扰动噪声视觉不可见. 本节推断扰动噪声主要被添加在图像的中高频段并借助DFT证明上述推论.

    定理1. 假设原始图像 {\boldsymbol{x}} \in {\mathbb{R}^{M \times N}} 和对抗图像 \tilde {\boldsymbol{x}} \in {\mathbb{R}^{M \times N}} ,可以得出以下推论:

    \frac{1}{D}|{{\boldsymbol{X}}_0} - {{\boldsymbol{\tilde X}}_0}| \leqslant ||{\boldsymbol{x}} - {\boldsymbol{\tilde x}}|{|_\infty } \leqslant \varepsilon , (4)
    \frac{1}{{\sqrt D }}|{{\boldsymbol{X}}_0} - {{\boldsymbol{\tilde X}}_0}| \leqslant ||{\boldsymbol{x}} - {\boldsymbol{\tilde x}}|{|_2} \leqslant \varepsilon , (5)

    式(6)和式(7)表示傅里叶变换 f 和其逆变换 {f^{ - 1}}

    {{\boldsymbol{X}}_k} = f{({\boldsymbol{x}})_k} = \sum\limits_{j = 0}^{D - 1} {{{\boldsymbol{x}}_j}{{\text{e}}^{ - {\text{i}}\tfrac{{2{\text{π }}}}{D}kj}}} , (6)
    {{\boldsymbol{x}}_j} = {f^{ - 1}}{(X)_j} = \frac{1}{D}\sum\limits_{k = 0}^{D - 1} {{X_k}{{\text{e}}^{{\text{i}}\tfrac{{2{\text{π }}}}{D}kj}}} , (7)

    其中 {X_0} {\tilde X_0} 分别是 k = 0 的傅里叶系数. {\text{i}} 是复数因子, {{\text{i}}^2} = - 1 D = {\text{M}} \times N . 在证明式(4)之前,先引入式(8):

    \begin{split} \sum\limits_{j = 0}^{D - 1} {{{\text{e}}^{{\text{i}}j\omega }}} =\;& 1 + {{\text{e}}^{{\text{i}}\omega }} + {{\text{e}}^{{\text{i}}2\omega }} + … + {{\text{e}}^{{\text{i}}(D - 1)\omega }}= \\ &\frac{{1 - {{\text{e}}^{{\text{i}}D\omega }}}}{{1 - {{\text{e}}^{{\text{i}}\omega }}}} = \frac{{{{\text{e}}^{{\text{i}}D\omega /2}}({{\text{e}}^{ - {\text{i}}D\omega /2}} - {{\text{e}}^{{\text{i}}D\omega /2}})}}{{{{\text{e}}^{{\text{i}}\omega /2}}({{\text{e}}^{ - {\text{i}}\omega /2}} - {{\text{e}}^{{\text{i}}\omega /2}})}} =\\ &\frac{{\sin (D\omega /2)}}{{\sin (\omega /2)}}{{\text{e}}^{{\text{i}}\omega (D - 1)/2}}, \end{split} (8)

    \omega = \dfrac{{2{\text{π }}}}{D}k ,则式(8)可以表示为

    \sum\limits_{j = 0}^{D - 1} {{{{\mathrm{e}}}^{{i}(2k{\text{π}}/D)j}}} = \frac{{\sin (k{\text{π}})}}{{\sin (k{\text{π}}/D)}}{{{\mathrm{e}}}^{{i}k{\text{π}}(D - 1)/D}}, (9)

    k = {\text{D}} k = 0 时, \displaystyle\sum\limits_{j = 0}^{D - 1} {{{{\mathrm{e}}}^{{i}(2k{\text{π}}/D)j}}} = D ;当 k \ne D k \ne 0 时, \displaystyle\sum\limits_{j = 0}^{D - 1} {{{{\mathrm{e}}}^{{i}(2k{\text{π}}/D)j}}} = 0 .

    式(4)的具体推导过程如下:

    \begin{split} &\left|\right|{\boldsymbol{x}}-\tilde{{\boldsymbol{x}}}|{|}_{\infty }\ge \frac{1}{D}||{\boldsymbol{x}}-\tilde{{\boldsymbol{x}}}|{|}_{1}=\frac{1}{D}{\displaystyle \sum _{j=0}^{D-1}|{{\boldsymbol{x}}}_{j}-{\tilde{{\boldsymbol{x}}}}_{j}|}=\\ &\frac{1}{D}{\displaystyle \sum _{j=0}^{D-1}|{f}^{-1}{({\boldsymbol{X}})}_{j}-{f}^{-1}{(\tilde{\boldsymbol{X}})}_{j}|}= \end{split}
    \begin{split} &\frac{1}{D}{\displaystyle \sum _{j=0}^{D-1}|\frac{1}{D}{\displaystyle \sum _{k=0}^{D-1}{{\boldsymbol{X}}}_{k}{\text{e}}^{\text{i}\tfrac{2\text{π}}{D}kj}}-\frac{1}{D}{\displaystyle \sum _{k=0}^{D-1}{\tilde{{\boldsymbol{X}}}}_{k}{\text{e}}^{\text{i}\tfrac{2\text{π}}{D}kj}}|}=\\ &\frac{1}{{D}^{2}}{\displaystyle \sum _{j=0}^{D-1}\left|{\displaystyle \sum _{k=0}^{D-1}({{\boldsymbol{X}}}_{k}-{\tilde{{\boldsymbol{X}}}}_{k}){\text{e}}^{\text{i}\tfrac{2\text{π}}{D}kj}}\right|}\ge\\ & \frac{1}{{D}^{2}}|{\displaystyle \sum _{j=0}^{D-1}{\displaystyle \sum _{k=0}^{D-1}({{\boldsymbol{X}}}_{k}-{\tilde{{\boldsymbol{X}}}}_{k}){\text{e}}^{\text{i}\tfrac{2\text{π}}{D}kj}}|}=\\ &\frac{1}{{D}^{2}}\left|{\displaystyle \sum _{k=0}^{D-1}({{\boldsymbol{X}}}_{k}-{\tilde{{\boldsymbol{X}}}}_{k})}{\displaystyle \sum _{j=0}^{D-1}{\text{e}}^{\text{i}\tfrac{2\text{π}}{D}kj}}\right|=\\ &\frac{1}{{D}^{2}}\times D|{{\boldsymbol{X}}}_{0}-{\tilde{{\boldsymbol{X}}}}_{0}|\to 式(9)=\\ &\frac{1}{D}|{{\boldsymbol{X}}}_{0}-{\tilde{{\boldsymbol{X}}}}_{0}|. \end{split} (10)

    因为L2范式为 ||{\boldsymbol{x}} - {\boldsymbol{\tilde x}}|{|_2} = \sqrt {\displaystyle\sum\limits_{j = 0}^{D - 1} {|{{\boldsymbol{x}}_j} - {{{\boldsymbol{\tilde x}}}_j}{|^2}} } ,其与L1范式的关系可表示为

    ||{\boldsymbol{x}} - {\boldsymbol{\tilde x}}|{|_1} \leqslant \sqrt D ||{\boldsymbol{x}} - {\boldsymbol{\tilde x}}|{|_2}, (11)

    由式(10)可得 ||{\boldsymbol{x}} - {\boldsymbol{\tilde x}}|{|_1} \geqslant |{{\boldsymbol{X}}_0} - {{\boldsymbol{\tilde X}}_0}| ,因此可以得到

    |{{\boldsymbol{X}}_0} - {{\boldsymbol{\tilde X}}_0}| \leqslant \sqrt D ||{\boldsymbol{x}} - {\boldsymbol{\tilde x}}|{|_2}, (12)

    完成式(5)的证明. 证毕.

    由式(4)和式(5)可以发现,扰动噪声变化的下限边界 \varepsilon 只与频域中 {{k}} = 0 的傅里叶系数有关,即低频段相关. 更确切地说,下限边界 \varepsilon |{{\boldsymbol{X}}_0} - {{\boldsymbol{\tilde X}}_0}| 呈正相关. 如果扰动噪声被添加在图像的低频段,则 |{{\boldsymbol{X}}_0} - {{\boldsymbol{\tilde X}}_0}| \varepsilon 会变大,扰动损失也会变大. 这违背了攻击模型收敛和扰动视觉不可见的原则. 因此,为了使扰动生成损失和扰动噪声尽可能小,对抗攻击方法将扰动噪声主要添加在图像的中高频段内.

    本节通过经验性实验定量地分析视频序列的各频段分量对跟踪性能的贡献和受对抗攻击的影响.

    攻击前各频段分量的跟踪性能对比. 首先以0.1为频段步长将OTB2015数据集[27]和UAV123数据集[28]中的原始视频序列分解为多个频段分量,然后SiamRPNpp在原始视频序列的各个频段分量上执行跟踪任务. 图3展示了攻击前SiamRPNpp在OTB2015和UAV123数据集各频段分量上的跟踪结果,“0~1”表示全频段分量. 图3中的AUC表示攻击前跟踪器在各频段分量上的跟踪性能;D_AUC表示跟踪器在各频段分量上的AUC与在全频段分量上的AUC之间的差值. 受攻击前,跟踪器在全频段分量上的AUC值较大. 因此,任意频段分量上的D_AUC值越小,表明跟踪器在该频段分量上的跟踪性能与在全频段分量上的跟踪性能间的差异越小,说明该频段分量对跟踪器的跟踪性能贡献越大. 可以看出,受攻击前,[0~0.1]频段分量对跟踪器的跟踪性能贡献最大.

    图  3  攻击前各频段的跟踪性能对比
    Figure  3.  Tracking performance comparison between frequency bands before attacks

    攻击后各频段分量的跟踪性能对比. 首先利用CSA[4]和TTP[5]向OTB2015和UAV123数据集的所有视频序列中添加扰动噪声,生成对抗视频序列;然后以0.1为频段步长分解这些对抗视频序列;最后SiamRPNpp在对抗视频序列的各个频段分量上执行跟踪任务. 图4图5分别表示受CSA和TTP攻击后,SiamRPNpp在OTB2015和UAV123数据集各频段分量上的跟踪结果,AUC表示攻击后跟踪器在各频段分量上的跟踪性能;D_AUC表示跟踪器在各频段分量上的AUC与在全频段分量上的AUC之间的差值. 受攻击后,跟踪器在全频段分量上的AUC值较小. 因此,任意频段分量上的D_AUC值越大,表明跟踪器在该频段分量上的跟踪性能与在全频段分量上的跟踪性能之间的差异越大,说明该频段分量受对抗攻击的影响越小. 可以看出,受攻击后,[0~0.1]频段分量受对抗攻击的影响最小.

    图  4  攻击后OTB2015各频段的跟踪性能对比
    Figure  4.  Tracking performance comparison between frequency bands in OTB2015 after attacks
    图  5  攻击后UAV123各频段的跟踪性能对比
    Figure  5.  Tracking performance comparison between frequency bands in UAV123 after attacks

    上述实验表明视频序列被攻击前,跟踪器在原始视频序列的低频段和全频段分量上的跟踪性能差异较小;视频序列被攻击后,因全频段包含带有扰动噪声的中高频段,所以跟踪器在对抗视频序列的低频段和全频段分量上的跟踪性能差异较大,这也是本文方法的检测机制.

    3.2节的理论证明和3.3节的定量分析阐述了2个观点:1)扰动噪声主要存在于图像的中高频段;2)低频段分量对跟踪性能的贡献最大且受对抗攻击的影响最小. 受此启发,提出了基于频段跟踪性能差异的对抗检测框架,如图6所示. 通过将目标跟踪器替换为指定的跟踪模型,即可灵活地实现检测框架与该跟踪模型的集成,从而协助其检测对抗输入. 给定待检测的视频序列 \mathcal{V} = \{ {{\boldsymbol{I}}_t}\} _{t = 1}^T . 首先,对视频序列 \mathcal{V} 的初始帧 {{\boldsymbol{I}}_1} 进行裁剪,得到全频模板图像 {\boldsymbol{z}} ;使用频域分解模块,对 {\boldsymbol{z}} 进行频域分解,得到低频模板图像 {\boldsymbol{\hat z}} ,即 {\boldsymbol{\hat z}} = \psi ({\boldsymbol{z}}) ,其中 \psi ( \cdot ) 表示DCT操作;使用 {\boldsymbol{z}} {\boldsymbol{\hat z}} 分别初始化目标跟踪器 \mathcal{T} 和镜像跟踪器 {\mathcal{T}_{os}} . 然后,在后续跟踪过程中,对视频序列 \mathcal{V} 的视频帧 {{\boldsymbol{I}}_t},t = 2,3,…,T 进行裁剪,得到全频搜索图像 {{\boldsymbol{x}}_t} ;使用频域分解模块,对 {{\boldsymbol{x}}_t} 进行频域分解,得到低频搜索图像 {{\boldsymbol{\hat x}}_t} ,即 {{\boldsymbol{\hat x}}_t} = \psi ({{\boldsymbol{x}}_t}) ;目标跟踪器 \mathcal{T} 和镜像跟踪器 {\mathcal{T}_{{os} }} 分别在全频搜索图像 {{\boldsymbol{x}}_t} 和低频搜索图像 {{\boldsymbol{\hat x}}_t} 上执行跟踪任务,得到 (s_t^m,{\boldsymbol{b}}_t^m) = \mathcal{T}({\boldsymbol{z}},{{\boldsymbol{x}}_t}) (\hat s_t^m,{\boldsymbol{\hat b}}_t^m) = {\mathcal{T}_{os}}({\boldsymbol{\hat z}},{{\boldsymbol{\hat x}}_t}) . 最后,计算所有全频搜索图像上的置信分数和交并比均值,即 SC = Ave\{ s_t^m\} _{t = 2}^T IoU = Ave\{ {{\varOmega }}({\boldsymbol{b}}_t^{{gt} },{\boldsymbol{b}}_t^m)\} _{t = 2}^T Ave( \cdot ) 表示计算平均值;计算所有低频搜索图像上的置信分数和交并比均值,即 S{C_l} = Ave\{ \hat s_t^m\} _{t = 2}^T Io{U_l} = Ave\{ {{\varOmega }}({\boldsymbol{b}}_t^{{gt} },{\boldsymbol{\hat b}}_t^m)\} _{t = 2}^T ;判别模块则以 (SC,IoU) (S{C_l},Io{U_l}) 为输入,判定当前视频序列 \mathcal{V} 属于对抗输入还是原始输入.

    图  6  检测框架流程图
    Figure  6.  Pipeline of detection framework

    检测机理. 根据3.3节的定量研究,低频段分量的跟踪性能最能代表全频段分量. 所以当输入为原始视频序列,理论上目标跟踪器和镜像跟踪器的跟踪性能差异较小. 根据3.2节的理论证明,扰动噪声主要被添加在中高频段,低频段信息受扰动的影响最小. 所以当输入为对抗视频序列,以全频段分量为输入的目标跟踪器受影响程度远大于以低频段分量为输入的镜像跟踪器,理论上目标跟踪器和镜像跟踪器的跟踪性能差异较大.

    频域分解模块. 该模块由2维DCT及其逆变换组成,以全频图像为输入,通过频域分解和重构,提取低频图像.

    目标跟踪器和镜像跟踪器. 这2个跟踪器共享结构和参数. 目标跟踪器以全频段视频序列为输入,即全频模板图像和全频搜索图像;镜像跟踪器以低频段视频序列为输入,即低频模板图像和低频搜索图像.

    判别模块. 该模块主要包含4个判别条件. 通过对比目标跟踪器和镜像跟踪器分别在全频段视频序列和低频段视频序列上的跟踪性能,即 (SC,Io{\text{U}}) (S{C_l},Io{{\text{U}}_l}) ,判定当前输入视频序列属于对抗输入还是原始输入.

    在跟踪任务中,置信分数和交并比直接反映了跟踪器目标定位和边框预测的准确性. 因此,将整个视频序列的置信分数和交并比均值作为判别指标. 一方面,未受攻击时,全频段和低频段视频序列的跟踪性能差距较小;受到攻击后,全频段和低频段视频序列的跟踪性能差距较大. 因此,设置2个机理判别条件,即C1: |IoU - Io{U_l}| \gt a1 ,C2: |SC - S{C_l}| \gt a2 . 另一方面,考虑到跟踪器在一些原始视频序列上本就表现不佳,以及跟踪器并非在所有对抗视频序列上都表现较差等情况,设置2个区间判别条件,即C3: IoU \gt a3 ,C4: IoU \lt a4 .

    规定如果C3成立,则判定当前输入视频序列为原始输入;如果C4成立,则判定当前输入视频序列为对抗输入;如果C1或C2成立,则判定当前输入视频序列为对抗输入,否则判定为原始输入.

    算法2以伪代码的形式展示了对抗检测过程.

    算法2. 基于频段跟踪性能差异的检测流程.

    输入:视频序列 \mathcal{V} = \{ {{\boldsymbol{I}}_t}\} _{t = 1}^T ,目标跟踪器 \mathcal{T} 及其镜像跟踪器 {\mathcal{T}_{{os} }}

    输出:判别结果.

    ① 从初始帧 {{\boldsymbol{I}}_1} 裁剪出全频模板图像 {\boldsymbol{z}}

    ② 从 {\boldsymbol{z}} 中分解出低频模板图像 {\boldsymbol{\hat z}} = \psi ({\boldsymbol{z}})

    ③ 用 {\boldsymbol{z}} {\boldsymbol{\hat z}} 分别初始化 \mathcal{T} {\mathcal{T}_{os}}

    ④ for t = 2,3,…,T do 从视频帧 {{\boldsymbol{I}}_t} 裁剪出全频搜索 图像 {{\boldsymbol{x}}_t} ;从 {{\boldsymbol{x}}_t} 分解出低频搜索图像 {{\boldsymbol{\hat x}}_t} = \psi ({{\boldsymbol{x}}_t}) \mathcal{T} 执行跟踪任务 (s_t^m,{\boldsymbol{b}}_t^m) = \mathcal{T}({\boldsymbol{z}},{{\boldsymbol{x}}_t}) {\mathcal{T}_{os}} 执行 跟踪任务 (\hat s_t^m,{\boldsymbol{\hat b}}_t^m) = {\mathcal{T}_{os}}({\boldsymbol{\hat z}},{{\boldsymbol{\hat x}}_t})

    end for

    ⑤ 计算全频视频帧的置信分数和交并比均值, SC = Ave\{ s_t^m\} _{t = 2}^T IoU = Ave\{ {{\varOmega }}({\boldsymbol{b}}_t^{{gt} },{\boldsymbol{b}}_t^m)\} _{t = 2}^T

    ⑥ 计算低频视频帧的置信分数和交并比均值, S{C_l} = Ave\{ \hat s_t^m\} _{t = 2}^T Io{U_l} = Ave\{ {{\varOmega }}({\boldsymbol{b}}_t^{{gt} },{\boldsymbol{\hat b}}_t^m)\} _{t = 2}^T

    ⑦ 判定视频序列是否为对抗输入:

    if {\text{IoU}} \gt a3

    判定视频序列为原始输入;

    else if IoU \lt a4

    判定视频序列为对抗输入;

    else if |IoU - Io{U_l}| \gt a1 or |SC - S{C_l}| \gt a2

    判定视频序列为对抗输入;

    else

    判定视频序列为原始输入;

    end if

    所有实验均在PyTorch软件平台和NVIDIA RTX3090 GPU硬件设备上仿真. 对于频域分解模块,所提取的低频分量范围设置为[0~0.1]. 对于判别模块,判别阈值设置为 a1 = 0.1 a2 = 0.1 a3 = 0.5 a4 = 0.1 . 4.6节专门进行了阈值选择实验,以验证阈值选定的合理性. 对于目标跟踪器,以SiamRPNpp为主要研究对象,但在4.5节中,又专门将检测框架直接集成到其他跟踪器,以验证检测框架的泛化性能. 一方面,CSA[4],TTP[5],Spark[15]是当前主流对抗攻击方法的代表;另一方面,它们的攻击策略能够有效地降低SiamRPNpp跟踪器的跟踪性能. 因此,本文将CSA,TTP和Spark视为主要的检测对象.

    目前缺少专门用于检测对抗攻击的数据集,因此本文效仿识别领域的对抗检测做法. 在原始跟踪数据集的基础上构造用于验证对抗检测方法的混合数据集. 所使用的原始跟踪数据集包括OTB2015数据集[27]包含100个视频序列;UAV123数据集[28]包含123个视频序列;LaSOT数据集[29]包含280个视频序列. 为了构造混合数据集,利用对抗攻击方法CSA[4],TTP[5],Spark[15]分别向原始跟踪数据集的视频序列中添加扰动噪声,生成相应的对抗视频序列. 另外,考虑到对抗检测方法需要同时具备判别原始输入和对抗输入的能力,因此,混合数据集不仅包含原始视频序列还包含对抗视频序列. 例如,混合数据集OTB2015*包含100个原始视频序列和100个对抗视频序列;混合数据集UAV123*包含123个原始视频序列和123个对抗视频序列;混合数据集LaSOT*包含280个原始视频序列和280个对抗视频序列.

    采用检测精度P(detection precision),召回率R(recall)和F1分数作为检测性能的评价指标,P=TP/(TP+FP),R=TP/(TP+FN),F1=2P×R/(P+R). TP表示对抗视频序列被判定为对抗输入;TN表示原始视频序列被判定为原始输入;FP表示原始视频序列被判定为对抗输入;FN表示对抗视频序列被判定为原始输入. 在跟踪任务中,通常使用AUC,精确度Pre(precision)和归一化精确度Npre(norm precision)评估跟踪器的跟踪性能. 为了衡量检测框架对跟踪器的影响,基于上述3个跟踪性能评估指标,又提出了∆AUC,∆Pre和∆Npre用于评估检测框架对跟踪器原始性能的影响. 例如,∆AUC表示原始跟踪器在原始跟踪数据集上的AUC指标与集成了检测框架的跟踪器在混合数据集上的AUC指标之间的差值. ∆AUC越小说明检测框架不仅能够有效地检测对抗攻击,而且对跟踪器的原始性能影响越小. 表1展示了所使用的数据集以及相关的性能评估指标.

    表  1  数据集及评估指标
    Table  1.  Datasets and Evaluation Metrics
    原始数据集 视频序列 跟踪性能评估指标
    OTB2015 100 AUCPreNpre
    UAV123 123
    LaSOT 280
    混合数据集 视频序列 检测性能评估指标
    OTB2015* 200 PRF1,∆AUC, ∆Pre,∆Npre
    UAV123* 246
    LaSOT* 560
    下载: 导出CSV 
    | 显示表格

    为了验证检测方法的有效性,本节将检测框架(detection framework,DF)集成到SiamRPNpp跟踪器(缩写为SiamRPNpp+DF),并在由CSA构造的混合数据集OTB2015*,UAV123*,LaSOT*上执行跟踪任务,以此实现对CSA攻击的检测,检测结果如表2所示:

    表  2  CSA攻击下的检测性能
    Table  2.  Detection Performance Under CSA Attacks
    混合数据集P/%R/%F1/%AUCPreNpre
    OTB2015*97.5598.6898.110.0280.0180.025
    UAV123*95.2496.9996.100.0180.0060.008
    LaSOT*94.9199.6497.210.0090.0160.004
    下载: 导出CSV 
    | 显示表格

    表2可知,检测框架能够有效地检测出输入视频序列是否受到CSA对抗攻击. 在混合数据集OTB2015*,UAV123*,LaSOT*上的检测精度,分别高达97.55%,95.24%,94.91%. 高精度的检测性能得益于攻击前后的频段跟踪性能,存在较大的差异. 此外,∆指标表明检测框架集成到SiamRPNpp跟踪器对其的原始跟踪性能影响微乎其微. 例如,SiamRPNpp+DF跟踪器在OTB2015*数据集上的AUC性能与SiamRPNpp跟踪器在OTB2015数据集上的AUC性能差距仅有0.028. 这主要得益于检测框架能够精准地判别对抗视频序列,使其不参与到跟踪器的跟踪性能评估.

    本节使用SiamRPNpp+DF跟踪器在由TTP构造的混合数据集OTB2015*,UAV123*,LaSOT*上执行跟踪任务,以此实现对TTP攻击的检测,检测结果如表3所示:

    表  3  TTP攻击下的检测性能
    Table  3.  Detection Performance Under TTP Attacks
    混合数据集P/%R/%F1/%AUCPreNpre
    OTB2015*97.7393.4895.560.0210.0300.025
    UAV123*95.1291.6193.320.0250.0150.036
    LaSOT*93.3894.9694.160.0080.0040.016
    下载: 导出CSV 
    | 显示表格

    在面对TTP攻击时,检测框架能够在混合数据集OTB2015*,UAV123*,LaSOT*上分别取得97.73%,95.12%,93.38%的检测精度. 这说明检测框架对TTP对抗攻击也具备较好的检测性能. 这是因为TTP和CSA都属于基于深度网络的对抗攻击方法,它们都是使用扰动生成器生成扰动噪声并将其添加到图像的中高频段内. 所以本文基于频段跟踪性能差异的检测框架也能有效地检测出TTP攻击. 此外,较小的∆指标表明,检测框架对SiamRPNpp的原始跟踪性能影响很小. 例如,SiamRPNpp+DF跟踪器在UAV123*数据集上的Pre性能与SiamRPNpp跟踪器在UAV123数据集上的Pre性能差距仅为0.015.

    为了检测Spark攻击,本节使用SiamRPNpp+DF跟踪器在由Spark构成的混合数据集OTB2015*,UAV123*,LaSOT*上执行跟踪任务,检测结果如表4所示:

    表  4  Spark攻击下的检测性能
    Table  4.  Detection Performance Under Spark Attacks
    混合数据集P/%R/%F1/%AUCPreNpre
    OTB2015*96.3798.5797.460.0640.0190.029
    UAV123*92.4895.6894.050.0550.0140.017
    LaSOT*96.8698.7497.790.0670.0740.081
    下载: 导出CSV 
    | 显示表格

    表4可知,检测框架在混合数据集OTB2015*,UAV123*,LaSOT*数据集上的召回率,分别高达98.57%,95.68%,98.74%. 高召回率的检测性能,一方面得益于视频序列受Spark攻击前后,跟踪器在全频段和低频段的跟踪性能差异更为明显,另一方面得益于本文设置的精细化判别条件. 然而,精细化的判别准则也使得判别模块出现了过拟合现象,即将较多的原始视频序列判定为对抗输入,从而导致∆指标较大. 例如,SiamRPNpp+DF跟踪器在LaSOT*数据集上的Npre性能与SiamRPNpp跟踪器在LaSOT数据集上的Npre性能差距为0.081.

    为了验证检测框架的泛化性,本节将检测框架直接集成到其他跟踪器,如SiamMask[30],SiamRPN[31],SiamCAR[32],SiamBAN[33],用于检测TTP攻击. 整个过程无需优化检测框架. 表5展示了检测框架集成到不同跟踪器上时,在混合数据集OTB2015*上的检测性能. 可以看出,提出的检测框架能够协助多个跟踪器实现有效的对抗检测. 例如,检测框架集成到SiamRPN和SiamBAN上,能够协助这2个跟踪器在OTB2015*数据集上分别取得97.67%的召回率和100%的检测精度. 提出的检测框架是以全频和低频段跟踪性能的差异性为判别基础,所以不受限于跟踪器结构,具有较好的检测泛化性. 此外,检测框架对这些跟踪器的原始性能影响也较小,如图7所示. 例如,SiamMask跟踪器在OTB2015数据集上能够取得0.647的AUC,而SiamMask+DF跟踪器在OTB2015*数据集上能够取得0.646的AUC,仅相差0.001.

    表  5  检测框架在其他跟踪器上的检测性能 %
    Table  5.  Detection Performance of Detection Framework Integrated into Other Trackers
    评估指标SiamRPNSiamMaskSiamCARSiamBAN
    P93.3392.68100100
    R97.6790.4887.5093.62
    F195.4591.5793.3396.70
    下载: 导出CSV 
    | 显示表格
    图  7  检测框架对其他跟踪器的性能影响
    Figure  7.  Performance impact of detection framework on other trackers

    在判别模块中,区间条件是为了减少因跟踪器性能不足和攻击效果有限所带来的判别误差;机理条件则反映了攻击前后不同频段分量上跟踪性能的差异上限. 为了验证所设判别阈值的合理性,本节使用SiamRPNpp+DF跟踪器,分别在由CSA构造的混合数据集OTB2015*,由TTP构造的混合数据集UAV123*,以及由Spark构造的混合数据集LaSOT*上执行跟踪任务,通过改变 a1 a2 a3 a4 的方式,选定最优的阈值组合. 图8展示了阈值变化对检测性能F1的影响. 可以看出,阈值 a1 a2 过大会导致大量的对抗视频序列因无法满足判别条件C1和C2,而被错判为原始输入;阈值过小则会弱化输入视频序列的全频段和低频段跟踪性能之间的差异性,增加判定的不确定性. 阈值 a3 决定了跟踪器成功跟踪的下限,所以 a3 过小意味着跟踪器的跟踪性能短板被放大,导致许多原始视频序列被错判为对抗输入. 阈值 a4 决定了跟踪器跟踪失败的上限,所以 a4 过大意味着攻击方法的有效性被放大,使得更多对抗视频序列参与C1和C2条件判别.

    图  8  判别阈值对检测性能的影响
    Figure  8.  Impact of discrimination threshold on detection performance

    为了分析各个判别条件对检测性能的影响,本节以SiamRPNpp+DF跟踪器在由CSA构造的UAV123*混合数据集上执行跟踪任务为例,对比了不同判别条件下的检测结果. 消融结果如表6所示:

    表  6  判别条件对检测性能的影响
    Table  6.  Impact of Discrimination Conditions on Detection Performance %
    评估指标C1C2C1+C2C1+C2+C3本文条件
    P92.5094.0892.6693.7395.24
    R47.1390.2491.8894.7996.99
    F162.3092.1292.2794.2596.10
    下载: 导出CSV 
    | 显示表格

    表6可以看出,随着判别条件逐渐精细化,检测性能越来越好. 相比于条件C1,条件C2下的检测性能更好,反映了CSA对跟踪器置信分数的攻击更加剧烈,故产生了更明显的置信分数差异. 相比于C1+C2条件,本文默认条件下的检测性能更佳,这是因为C3和C4是考虑到跟踪器自身性能不足和攻击方法有效性所设置的区间条件.

    为了分析频段分量对检测性能的影响,本节以SiamRPNpp+DF跟踪器在由CSA构造的OTB2015*混合数据集上执行跟踪任务为例,以0.1为频段步长逐步扩大镜像跟踪器输入视频序列的频段范围,对比不同频段范围下的检测性能,如图9所示. 可以看出,随着频段范围扩大,检测精度P的变化较小,而召回率R变化较大. 这是因为频段范围的扩大意味着镜像跟踪器的输入包含了更广范围的频段分量,其输入与目标跟踪器的输入差距在不断地缩小. 2个跟踪器的输入差距变小,自然导致二者输出结果的差异性也变小,即弱化了跟踪性能差异性.

    图  9  不同频段范围下检测性能对比
    Figure  9.  Detection performance comparison under different frequency ranges

    本节以SiamRPNpp跟踪器为例,展示其受CSA攻击前后的跟踪结果可视化图及其频谱图. 如图10图11所示,其中第1行的虚线边框表示待跟踪的真实目标. 通过对比2图的第1行可以看出,原始图像和对抗图像的视觉差异较小. 通过对比2图第2行的跟踪结果可视化图可以看出,受CSA攻击前,可视化图具有大面积的高热区域,说明跟踪器此刻能够以高置信度准确地定位到目标区域. 相反,受CSA攻击后,可视化图上的高热区域消失或变小,说明跟踪器此刻难以准确地定位目标位置,表明跟踪器的性能变差. 图10图11的第3行分别表示原始图像和对抗图像的频谱图,其中频谱图的左上角区域表示低频段区域,其余区域可以视为中高频段区域. 通过对比可以看出,攻击前后频谱图的低频段区域(左上角区域)差异不大. 然而攻击后,对抗图像频谱图的中高频段区域(椭圆)出现了较多的“亮斑”,证明了添加的扰动噪声主要存在于图像的中高频段.

    图  10  攻击前原始图像的跟踪结果可视化图及其频谱图
    Figure  10.  Visualization of tracking results of original images and their spectrograms before attacks
    图  11  攻击后对抗图像的跟踪结果可视化图及其频谱图
    Figure  11.  Visualization of tracking results of adversarial images and their spectrograms after attacks

    根据扰动噪声不可见但能有效攻击的特点,首先理论证明了扰动噪声主要存在于视频序列的中高频段;然后定量地分析出低频段分量对跟踪性能的贡献最大且受扰动噪声的影响最小;最后提出了适用于跟踪模型的对抗检测框架,该框架以跟踪器为载体,仅包含频域分解模块,镜像跟踪器以及判别模块. 通过对比视频序列不同频段分量的跟踪性能差异性,即可判定输入视频序列是否受到对抗攻击. 为了验证检测框架的有效性,将其集成到多个跟踪器,用于检测主流的对抗攻击. 大量的实验结果表明所提的检测框架具有泛化性,不仅能够有效地检测多种对抗攻击,而且对跟踪器的原始跟踪性能影响较小. 未来将提取更具判别性的特征,摆脱当前方法对标签信息的依赖,实现在线对抗检测;同时重点研究如何去除扰动噪声,提高跟踪模型抵御对抗攻击的鲁棒性.

    作者贡献声明:周泽提出了方法思路和撰写论文;孙颖慧协助完成实验和数据整理;孙权森负责实验监督和领导;沈肖波和郑钰辉提出指导意见并修改论文.

  • 图  1   系统框架

    Figure  1.   The system framework

    图  2   编剧指令示例

    Figure  2.   An example of screenwriter instruction

    图  3   医生指令示例

    Figure  3.   An example of doctor instruction

    图  4   基于多智能体协作对话数据生成方法流程图

    Figure  4.   Flowchart of dialogue data generation method based on multi-agent cooperation

    图  5   自然语言问题与三元组相似度计算流程图

    Figure  5.   Workflow diagram of similarity computation between a natural language question and a triple

    图  6   不同模型的人工评估分数分布统计

    Figure  6.   Artificial evaluation score distribution statistics of different models

    图  7   蜻蜓大模型在6个健康管理指标上的评估结果

    Figure  7.   Evaluation results of the QingTing big model on six health management indicators

    表  1   用户信息示例

    Table  1   Example of User Information

    用户信息 用户信息
    身高/cm 162 体重/kg 75
    年龄 24 劳动类型 中体力
    疾病 糖尿病 疾病子类别 1型糖尿病
    禁忌食物 少吃食物 紫薯
    多吃食物 苹果 禁忌运动 游泳
    少做运动 跳舞 多做运动
    下载: 导出CSV

    表  2   饮食方案示例

    Table  2   Example of Diet Plan

    餐次 菜品及食材重量
    早餐无蔗糖酸奶(200 g)
    煮鸡蛋(50 g)
    蒸南瓜(70 g)
    全麦面包(50 g)
    加餐苹果(200 g)
    核桃(6 g)
    午餐荞麦饭(大米50 g,荞麦40 g)
    炖排骨(20 g)
    萝卜烧肉(白萝卜85 g,猪瘦肉40 g)
    冻豆腐炒白菜(大白菜80 g,冻豆腐110 g)
    晚餐米饭(大米65 g)
    西芹炒肉丝(西芹85 g,猪瘦肉50 g)
    清蒸茄子(茄子40 g)
    鱼丸冬瓜汤(鱼丸20 g,冬瓜65 g)
    下载: 导出CSV

    表  3   运动方案示例

    Table  3   Example of Exercise Plan

    日程安排 运动项目 持续时间/
    min
    消耗热量/
    kcal
    第1天侧躺抬腿(准备活动)10
    视频跟练(有氧-阻力运动)20165
    头部按摩(整理活动)10
    第2天腰部扭转(准备活动)10
    高尔夫球(室外运动)50280
    第3天侧踢腿(准备活动)10
    爬楼梯(步伐迅速)15165
    俯卧撑、仰卧起坐、引体向上、
    开合跳(高强度抗阻运动)
    10115
    头部转动(整理活动)10
    第4天腰部扭转(准备活动)10
    慢跑(8km/h)28280
    颈部伸展(整理活动)10
    第5天静态伸展(准备活动)10
    俯卧撑、仰卧起坐(低强度抗阻运动)32110
    轻松呼吸练习(整理活动)10
    第6天侧臀桥(准备活动)10
    单车(16~19.2km/h)37280
    头部转动(整理活动)10
    “—”表示对应运动项目不参与消耗热量计算.
    下载: 导出CSV

    表  4   实验数据统计及示例

    Table  4   Experimental Data Statistics and Examples

    疾病
    风险
    关注程度 问题数量 问题示例
    糖尿病 334 目前的我的身高是177 cm,体重是73 kg,为了降低糖尿病风险,我应该如何调整我的饮食习惯,哪些食物我应该多吃?
    高血压 226 为了密切关注我的高血压风险,我应该进行哪些定期的检查,在这些检查中,有哪些具体指标我需要特别关注?
    高血脂 209 我日常工作都是坐在办公室,喜欢吃点甜食,如何在不完全戒零食的情况下,调整我的饮食习惯,我听说多吃鱼油、红曲米可以帮助降低血脂?
    脂肪肝 166 目前体检显示我有脂肪肝,我应该多运动,但是我工作太忙,有没有合适的运动方案可以推荐给我?
    肥胖 371 我身高179 cm,体重120 kg,有没有合适的方法让我无感减肥,除了饮食和运动之外,还有哪些办法可以帮助我有效减重的,我是否有必要考虑医学或药物干预来辅助减重?
    营养
    不良
    一般 53 我吃的也不少,但是就是不长胖,我应该怎么调整才能稍微长得壮一点,是否有简便的健康饮食计划或快速的营养餐食建议?
    痛风 一般 96 我偶尔会参加工作应酬,饮酒可能是不可避免的,我应该如何调整我的饮酒习惯?有没有特定类型的酒对痛风影响较小?在参加应酬时,应该如何控制饮酒量以减少痛风发作的风险?
    慢性阻塞性
    肺病
    一般 72 医生说我有慢性阻塞性肺病的风险,请问这是什么病?它对身体有哪些影响?我可以通过饮食和运动治好吗?
    骨质
    疏松
    一般 112 我70岁了,身高160 cm体重55 kg,医生说我有骨质疏松的风险,是否有一些简单的食谱建议?我有乳糖不耐受,喝不了牛奶,有其他替代食物吗?
    下载: 导出CSV

    表  5   饮食模型评估

    Table  5   Diet Model Evaluation

    组合 正端分 负端分 膳食质量距
    日常生活 16.0 29.0 45.0
    Baichuan2 15.5 26.4 41.9
    Baichuan2+饮食模型 11.8 14.2 26.0
    扁鹊 12.2 32.6 44.8
    扁鹊+饮食模型 9.6 20.2 29.8
    本草 16.1 31.4 47.5
    本草+饮食模型 12.6 16.8 29.4
    蜻蜓 13.4 27.4 40.8
    蜻蜓+饮食模型(本文) 10.6 11.2 21.8
    下载: 导出CSV

    表  6   运动模型评估

    Table  6   Exercise Model Evaluation

    组合 运动
    频率
    运动
    强度
    运动
    方式
    运动
    时间
    运动
    总量
    运动
    进阶
    Baichuan2
    Baichuan2+运动模型
    扁鹊
    扁鹊+运动模型
    本草
    本草+运动模型
    蜻蜓
    蜻蜓+运动模型(本文)
    下载: 导出CSV

    表  7   检索增强评估

    Table  7   Retrieval Augmentation Evaluation

    组合 忠实度 答案
    相关性
    上下文
    相关性
    蜻蜓 0.78
    蜻蜓+ Naive RAG 0.82 0.82 0.13
    蜻蜓+ TransE RAG 0.86 0.90 0.54
    蜻蜓+ ComplEx RAG 0.81 0.86 0.49
    蜻蜓+ RotatE RAG 0.83 0.92 0.62
    蜻蜓+ GMUC RAG(本文) 0.90 0.91 0.67
    “—”表示未加入RAG时不计算忠实度与上下文相关性.
    下载: 导出CSV
  • [1]

    He Kai, Mao Rui, Lin Qika, et al. A survey of large language models for healthcare: From data, technology, and applications to accountability and ethics[J]. arXiv preprint, arXiv: 2310.05694, 2023

    [2]

    Chowdhery A, Narang S, Devlin J, et al. PaLM: Scaling language modeling with pathways[J]. Journal of Machine Learning Research, 2023, 24(240): 1−113

    [3]

    Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and efficient foundation language models[J]. arXiv preprint, arXiv: 2302.13971, 2023

    [4]

    Achiam J, Adler S, Agarwal S, et al. GPT−4 technical report[J]. arXiv preprint, arXiv: 2303.08774, 2023

    [5]

    Gao Yunfan, Xiong Yun, Gao Xinyu, et al. Retrieval-augmented generation for large language models: A survey[J]. arXiv preprint, arXiv: 2312.10997, 2023

    [6]

    Yang Xi, Chen Aokun, PourNejatian N, et al. GatorTron: A large clinical language model to unlock patient information from unstructured electronic health records[J]. arXiv preprint, arXiv: 2203.03540, 2022

    [7]

    Peng Cheng, Yang Xi, Chen Aokun, et al. A study of generative large language model for medical research and healthcare[J]. NPJ Digital Medicine, 2023, 6(1): 210 doi: 10.1038/s41746-023-00958-w

    [8]

    Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[C]//Proc of the 34th Int Conf on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc, 2020: 159

    [9]

    Ouyang Long, Wu J, Jiang Xu, et al. Training language models to follow instructions with human feedback[C]//Proc of the 36th Int Conf on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc, 2024: 2011

    [10]

    Singhal K, Azizi S, Tu Tao, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172−180 doi: 10.1038/s41586-023-06291-2

    [11]

    Singhal K, Tu Tao, Gottweis J, et al. Towards expert-level medical question answering with large language models[J]. arXiv preprint, arXiv: 2305.09617, 2023

    [12]

    Anil R, Dai A, Firat O, et al. PaLM 2 technical report[J]. arXiv preprint, arXiv: 2305.10403, 2023

    [13]

    Li Yunxiang, Li Zihan, Zhang Kai, et al. ChatDoctor: A medical chat model fine-tuned on a large language model meta-AI (LLaMA) using medical domain knowledge[J]. Cureus, 2023, 15(6): e40895

    [14]

    Han Tianyu, Adams L C, Papaioannou J M, et al. MedAlpaca ― An open-source collection of medical conversational AI models and training data[J]. arXiv preprint, arXiv: 2304.08247, 2023

    [15]

    Xiong Honglin, Wang Sheng, Zhu Yitao, et al. DoctorGLM: Fine-tuning your chinese doctor is not a herculean task[J]. arXiv preprint, arXiv: 2304.01097, 2023

    [16]

    Chen Yirong, Wang Zhenyu, Zheng Huimin, et al. BianQue: Balancing the questioning and suggestion ability of health LLMs with multi-turn health conversations polished by ChatGPT[J]. arXiv preprint, arXiv: 2310.15896, 2023

    [17]

    Du Zhengxiao, Qian Yujie, Liu Xiao, et al. GLM: General language model pretraining with autoregressive blank infilling[C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2022: 320−335

    [18]

    Zhang Hongbo, Chen Junying, Jiang Feng, et al. HuatuoGPT, towards taming language model to be a doctor[C]//Findings of the Association for Computational Linguistics (EMNLP 2023). Stroudsburg, PA: ACL, 2023: 10859−10885

    [19]

    Yang Aiyuan, Xiao Bin, Wang Bingning, et al. Baichuan 2: Open large-scale language models[J]. arXiv preprint, arXiv: 2309.10305, 2023

    [20]

    Montagna S, Ferretti S, Klopfenstein L C, et al. Data decentralisation of LLM-based chatbot systems in chronic disease self-management[C]//Proc of the 2023 ACM Conf on Information Technology for Social Good. New York: ACM, 2023: 205−212

    [21]

    Dao Dung, Teo J Y C, Wang Wenru, et al. LLM-powered multimodal AI conversations for diabetes prevention[C]//Proc of the 1st ACM Workshop on AI-Powered Q&A Systems for Multimedia. New York: ACM, 2024: 1−6

    [22]

    Joulin A, Grave E, Bojanowski P, et al. Bag of tricks for efficient text classification[C]//Proc of the 15th Conf of the European Chapter of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: ACL, 2017: 427−431

    [23]

    Lambora A, Gupta K, Chopra K. Genetic algorithm ― A literature review[C]//Proc of the 2019 Int Conf on Machine Learning, Big Data, Cloud and Parallel Computing. Piscataway, NJ: IEEE, 2019: 380−384

    [24]

    Shukla A, Pandey H M, Mehrotra D. Comparative review of selection techniques in genetic algorithm[C]//Proc of the 1st Int Conf on Futuristic Trends on Computational Analysis and Knowledge Management. Piscataway, NJ: IEEE, 2015: 515−519

    [25]

    Alibrahim H, Ludwig S A. Hyperparameter optimization: Comparing genetic algorithm against grid search and bayesian optimization[C]//Proc of the 2021 IEEE Congress on Evolutionary Computation. Piscataway, NJ: IEEE, 2021: 1551−1559

    [26] 中国营养学会. 中国居民膳食营养素参考摄入量(2023版)[M]. 北京:人民卫生出版社,2023

    Chinese Nutrition Society. Reference Intake of Dietary Nutrients for Chinese Residents[M]. Beijing: People’s Medical Publishing House, 2023 (in Chinese)

    [27]

    Jia Shengbin, Xiang Yang, Chen Xiaojun. Triple trustworthiness measurement for knowledge graph[C]//Proc of the World Wide Web Conf. New York: ACM, 2019: 2865−2871

    [28]

    Zhang Jiatao, Wu Tianxng, Qi Guilin. Gaussian metric learning for few-shot uncertain knowledge graph completion[C]//Proc of the 26th Int Conf on Database Systems for Advanced Applications, Part I. Berlin: Springer, 2021: 256−271

    [29]

    Ye Xi, Yavuz S, Hashimoto K, et al. RNG-KBQA: Generation augmented iterative ranking for knowledge base question answering[C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2022: 6032−6043

    [30]

    Dettmers T, Pagnoni A, Holtzman A, et al. QLORA: Efficient finetuning of quantized LLMs[C]//Proc of the 37th Int Conf on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc, 2024: 10088−10115

    [31] 何宇纳,叶晨,房玥晖,等. 中国膳食平衡指数的修订:DBI_22[J]. 营养学报,2024,46(3):209−214 doi: 10.3969/j.issn.0512-7955.2024.03.003

    He Yuna, Ye Chen, Fang Yuehui, et al. Revised Chinese dietary balance index: DBI-22[J]. Acta Nutrimenta Sinica, 2024, 46(3): 209−214 (in Chinese) doi: 10.3969/j.issn.0512-7955.2024.03.003

    [32]

    Es S, James J, Anke L, et al. RAGAs: Automated evaluation of retrieval augmented generation[C]//Proc of the 18th Conf of the European Chapter of the Association for Computational Linguistics: System Demonstrations. Stroudsburg, PA: ACL, 2024: 150−158

    [33]

    Wang Jingting, Wu Tianxing, Chen Shilin, et al. unKR: A python library for uncertain knowledge graph reasoning by representation learning[C]//Proc of the 47th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2024: 2822−2826

    [34]

    Bordes A, Usunier N, Garcia-Durán A, et al. Translating embeddings for modeling multi-relational data[C]//Proc of the 26th Int Conf on Neural Information Processing Systems (Volume 2). Red Hook, NY: Curran Associates Inc, 2013: 2787−2795

    [35]

    Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]//Proc of the 33rd Int Conf on Machine Learning. New York: JMLR. org, 2016: 2071−2080

    [36]

    Sun Zhiqing, Deng Zhihong, Nie Jianyun, et al. RotatE: Knowledge graph embedding by relational rotation in complex space[C/OL]//Proc of the 7th Int Conf on Learning Representations. New Orleans, LA: OpenReview. net, 2019[2024-07-10]. https://openreview.net/forum?id= HkgEQnRqYQ

图(7)  /  表(7)
计量
  • 文章访问数:  138
  • HTML全文浏览量:  21
  • PDF下载量:  37
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-06-20
  • 录用日期:  2025-01-25
  • 网络出版日期:  2025-01-25

目录

/

返回文章
返回