-
摘要:
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目. 该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音频口型同步的目标角色讲话视频. 目前,相应的技术已经被广泛应用于虚拟主播、游戏动漫、影视剧制作等内容创作领域,并展现出广阔的发展前景. 然而,这些技术的潜在负面影响也日益显现,若被不当利用或滥用,极有可能触发严重的政治和经济后果. 在此背景下,针对面部伪造视频的鉴别研究应运而生,主要通过分析单视频帧的真实性或视频帧序列的时空一致性来评估视频的真实性. 首先,依据时间脉络及基础模型的发展轨迹,系统性地剖析了音频驱动面部视频生成任务的经典算法与最新研究成果. 其次,详尽列举了该任务领域内常用的数据集及评估标准,并从多个维度出发,对这些数据集与标准进行了全面深入的对比分析. 紧接着,针对伪造面部视频鉴别任务,依据鉴别技术所针对的对象(即单帧或多帧)进行了细致的分类与归纳,同时,也对其常用的数据集及评估标准进行了系统的总结与梳理. 最后,展望了该研究领域面临的挑战与未来的发展方向,旨在为后续的相关研究提供有价值的参考与坚实的支撑.
Abstract:With the rapid advancement of artificial intelligence generation models and deepfakes, the techniques for generating talking face videos using various methods have become increasingly mature. Among them, audio-driven talking face video generation methods have attracted significant attention due to their remarkably realistic and natural output. Such methods utilize audio as a driving source to synthesize videos where the target character’s mouth movements synchronize with the audio, often combining image or video materials. Currently, these technologies are widely applied in fields such as virtual anchors, gaming animation, and film and television production, demonstrating vast prospects for development. However, the potential negative impacts of this technology are also becoming apparent. Improper or abusive use could lead to serious political and economic consequences. In this context, research on identifying various types of facial forgery videos has emerged. This research primarily assesses the authenticity of videos by detecting the veracity of individual video frames or the spatio-temporal consistency of video sequences. Firstly, this paper systematically analyzes the classic algorithms and latest advancements in audio-driven talking face video generation tasks based on the timeline and the development history of foundational models. Secondly, it exhaustively lists the commonly used datasets and evaluation criteria for this task, conducting comprehensive comparisons across multiple dimensions. Subsequently, the paper meticulously analyzes and summarizes the forgery facial video identification task, categorizing it based on whether the discrimination technology focuses on individual video frames or multiple frames, and also summarizes its commonly used datasets and evaluation criteria. Finally, the paper outlines the challenges and future directions in this research field, aiming to provide valuable references and support for subsequent related research.
-
自2022年底OpenAI发布ChatGPT以来[1],众多高性能的开源大模型接连发布,掀起了全球范围内前所未有的大模型浪潮. 例如大语言模型GPT-4[2]、LLaMA[3]、多模态大模型LLaVA[4]、视觉大模型SAM[5],这些大模型相较传统模型具有强大泛化能力,并呈现出了许多传统模型不具备的涌现能力,在自然语言处理和计算机视觉等领域的表现出卓越的性能. 这种卓越表现主要体现在的通用性与灵活性上,使得大模型成为解决复杂问题的重要工具,并在教育、医疗、文本生成等各个领域中均展现出非凡潜力,引起了科研界和产业界的广泛关注.
大模型优秀的性能体现在其巨大的参数规模上,但是其参数量具有逐渐提高的趋势,如图1所示,为模型的训练和推理带来巨大的挑战. 庞大的参数规模使得大模型需要在云端才能完成训练与推理部署,而当前基于云平台的大模型训练和推理方案面临诸多挑战,包括高昂的成本、有限的可扩展性和信息安全风险等. 例如LLaMa2-70B的预训练在具有760个A100 GPU节点的超级集群上完成,总计消耗172万个GPU时[6],半精度下推理则至少需要140 GB的显存容量. 随着模型参数规模的不断扩大,对于低成本、高效训练和推理的需求显得愈发迫切.
边缘智能在近年来随着物联网、云计算和大数据技术的融合与发展逐渐受到关注[7],在降低大模型成本上潜力巨大,成为推动大模型实现技术普惠的重要手段. 边缘智能指的是在网络的边缘侧,即数据源附近,进行数据处理和分析的能力. 与传统的云计算模式相比,边缘智能强调在设备或终端上直接进行计算和决策,从而实现对数据的实时、高效处理. 然而,大模型通常需要在云端或高性能计算环境中运行,这可能导致数据传输延迟和带宽限制等问题. 而边缘智能则可以在设备端或网络边缘进行数据处理和分析,减少了数据传输的延迟和带宽需求. 大模型和边缘智能可以相互协同,实现更高效的数据处理和分析. 例如,大模型可以在云端进行全局优化和决策,而边缘智能则可以在设备端进行局部优化和实时响应. 这种协同优化可以进一步提高系统的性能和效率. 目前国内部分头部手机厂商已经初步实现移动端嵌入大模型,Apple公司研发部门也提出了有限内存下大模型部署方法[8],有望将大模型融入其产品中. 可以预见大模型逐步进入移动端,甚至IoT生态中是未来不可避免的趋势.
有关大模型边缘智能化研究方向可以被分为训练与推理2部分. 边缘侧的大模型训练,通常指的是大模型的微调训练,该过程主要包含参数高效微调和全微调2种策略. 参数高效微调旨在通过调整大模型中的一小部分参数,以适应新的任务或数据需求. 这一方法通过深入研究不同的训练参数配置或在大模型中嵌入特定模块,以实现高效的大模型微调. 而全微调训练则涉及到大模型中所有参数的调整,以全面更新模型. 鉴于数据隐私性的重要性和边缘设备的异构性特征,参数高效微调往往与联邦学习相结合,探究在联邦学习框架下如何有效提升不同参数高效微调方法的性能. 大模型推理优化技术利用大模型自身特点加速模型推理速度,包括服务优化、通用优化以及设备优化. 边缘侧大模型推理方法包括适用于边缘侧通用优化和设备优化,可以被概括为先于部署的模型压缩方法、部署后的模型层面推理优化、以及部署后的系统层面推理优化. 此外部分工作致力于提供大模型的边缘侧部署方案,这些工作通常结合上述一种或多种大模型的推理加速方法,为大模型在边缘侧部署提供便利.
本文从边缘智能视角,全面调研了面向边缘智能的大模型相关研究,聚焦于大模型边缘训练和推理2个角度,对当前相关研究进行了深入分析和讨论. 最后,给出了面向边缘智能的大模型技术发展所面临的挑战和未来展望.
1. 大模型边缘训练的研究进展
目前在边缘侧进行大模型训练的研究主要为大模型微调,在传统微调策略中,对大型预训练模型的全部参数进行优化以适应新任务,通常在大模型场景下显得耗时且资源密集. 而参数高效微调方法通过仅修改或添加少量额外参数来实现模型的微调,同时保持模型主体的参数固定不变,从而节省资源、加速训练过程并促进模型在边缘场景下的有效应用. 然而,传统的中心化微调方法要求所有数据汇聚至中心节点,这不仅增加了数据泄露的风险,还可能导致隐私侵犯. 而联邦学习[9]作为一种新兴范式,允许数据保留在边缘设备上,仅模型的更新在加密或经过处理后被发送到中央服务器,从而显著降低了隐私泄露的风险,并满足了GDPR[10]等严格隐私保护法规的要求. 然而边缘设备往往受限于有限的计算资源、通信资源和存储资源,大型模型的庞大参数对边缘设备构成了沉重的计算与存储负担,同时也导致了高昂的通信成本. 因此在联邦学习中引入参数高效微调方法,成为解决上述问题的有效途径. 本章节将聚焦联邦参数高效微调方法,从边缘智能的视角出发,对大型模型的微调技术进行深入探讨和细致分析.
1.1 大模型边缘微调的整体流程
大模型参数量规模的迅速增加使得模型在有限算力资源条件下的训练和微调更具有挑战性,为实现高效大模型预训练,现有研究从内存高效和数据高效2方面加速模型训练或降低训练成本. 然而模型规模的增大使得训练在费用、时长、能耗、数据量、硬件资源等方面的需求愈发强烈,例如175B的GPT3模型单次训练费用高达460万美元[11],使用4 990亿个token[12],预计到2027年大模型训练成本最大花费可达10亿美元[13],使得有限资源下的大模型预训练愈发困难. 微调作为一种可以将模型适配到特定领域的技术,因其无需重新训练模型参数而受到学术界和工业界广泛关注. 现有大模型微调技术研究可被分类为全参数微调和参数高效微调2方面,全参数微调通过微调大模型所有参数以取得更好的微调表现[14],因此通常导致微调开销偏大,部分研究通过优化微调过程中的参数更新步骤来降低内存需求[15-16]. 参数高效微调旨在减少模型参数更新量,仅需更新模型中的部分参数,同时保持良好的性能,以达到适应下游任务的目的[17]. 参数高效微调方法的关键在于选择哪些参数进行微调,以及如何设计有效的微调策略来优化这些参数. 与全参数微调方法相比,参数高效微调技术具有以下优点:
1) 减少计算资源消耗. 由于只需要更新模型的一小部分参数,因此可以大大减少计算资源的消耗,加快训练速度.
2) 降低过拟合风险. 通过仅调整模型的一部分参数,可以降低过拟合的风险,提高模型的泛化能力.
3) 更好的可扩展性. 参数高效微调技术可以更容易地应用于不同的预训练模型和任务,具有较好的可扩展性.
在大多数现实世界场景中,目前的微调主要以集中式的方法将数据集中在一起进行集中微调. 在边缘智能场景下进行大模型微调通常存在以下几个挑战:
1)边缘智能环境下的数据通常包含敏感信息,集中式微调会造成敏感数据外泄风险. 如何保证数据的安全和隐私,同时进行有效的模型训练,是一个需要解决的问题.
2)边缘设备的带宽和存储资源往往有限难以满足微调的计算和通信需求,大模型的微调需要大量的计算资源和存储空间,这使得在边缘设备上直接进行微调变得困难.
3)边缘设备可能需要处理多种不同的任务,这些任务可能有不同的数据分布和需求. 同时边缘设备可能只有有限的数据可用,这可能导致模型微调时的过拟合或不足.
因此目前针对边缘侧设备进行微调主要采取将联邦学习与参数高效微调技术相结合的方法[18],通过联邦学习,可以在不同数据源上协同训练模型,这有助于提高模型对不同数据集的适应性和泛化能力,并且使得数据处理过程主要在本地完成,避免了敏感数据的外泄风险,强化了隐私保护,同时使用参数高效微调技术减少了大量数据的传输,从而降低了通信成本,特别是在移动设备或边缘计算场景下尤为重要. 联邦高效参数微调技术不仅能够提高模型的性能和泛化能力,还能在保护隐私、降低计算和通信成本、提高响应速度和能源效率方面发挥重要作用. 这种结合方法为大模型的微调训练和应用提供了一种更加高效、安全和可持续的途径,特别适合于分布式和资源受限的边缘计算环境,联邦参数高效微调的流程如图2所示. 首先,服务端冻结预训练大模型的参数Wp,依据特定的参数高效微调策略确定可训练全局参数Wtc,并进行相应的初始化. 随后,服务端将可训练全局参数Wtc分发给各边缘设备. 在边缘设备上,基于本地数据集对可训练全局参数Wtc进行更新,得到本地参数Wk,tc,并将这些参数上传至服务端. 服务端接收各边缘设备的本地参数后,进行聚合更新,进而优化大模型,得到新的全局参数Wt+1c. 此过程循环往复,直至模型收敛或达到预定的训练轮次. 整个流程的关键阶段涵盖预训练大模型的初始化和参数冻结、边缘设备基于本地数据集的参数微调、以及服务端对参数的聚合与全局模型的优化. 这一流程在确保数据隐私和边缘设备资源有效利用的同时,有效提升了模型的性能.
1.2 大模型边缘微调方法
参数高效微调技术旨在仅通过调整模型的一小部分参数来适应新的任务或数据,从而提高模型的性能和泛化能力,同时减少计算和存储资源的消耗. 该技术现有研究主要包括适配器微调[19-21]、前缀微调[22-23]、提示词微调[24-26]、低秩适配[27-28]等方向,表1展示了上述几种方法的更新的参数和近期工作.
1)适配器微调
适配器微调技术通过向LLM插入瓶颈架构的可训练神经网络模块(即适配器Adapter),达到有效减少可训练参数量的目的. 这些适配器通常只占据原始模型大小的一小部分,但能有效地进行任务适配. 它们被插入到预训练模型的每一层或者特定的一些层中,以学习特定下游任务的知识. 适配器由2个前馈子层构成,第1个子层负责将输入维度从原始的d投影到一个较小的维度m,以此来限制适配器模块的参数量. 第2个子层则将维度m重新投影回d,输出作为适配器模块的结果.
2)前缀微调
前缀微调技术是一种轻量级的微调方法,它通过在输入序列前添加1个连续的、特定于任务的向量序列来实现模型的快速适应. 前缀微调技术的关键在于向模型的输入中引入一个称为“前缀”的向量序列. 这个前缀是由自由参数组成的,不与任何实际的词汇单元对应,它能够为模型提供关于当前处理任务的信息. 这种方法的核心优势在于,它只需要训练非常少的额外参数,有时甚至只需0.1%的参数,就能实现与传统微调相当甚至更优的性能.
3)提示微调
提示微调相关研究在模型的嵌入层加入可训练的提示词向量,将适应下游任务的提示嵌入与文本输入嵌入整合以实现模型适应下游任务并减少参数训练量的目的. 该技术主要依赖预训练语言模型的强大表达能力和泛化能力. 通过精心设计的提示词,可以激活模型中与任务相关的知识,使模型能够更好地理解和处理特定任务的数据.
4)低秩适配
低秩适配微调技术是一种高效微调预训练大型语言模型的方法,它主要通过在模型的权重矩阵上添加1个低秩矩阵来实现对新任务的快速适应. 低秩适配微调技术的核心思想是在预训练模型的权重矩阵中引入1个低秩矩阵,这个矩阵可以在微调过程中更新以学习特定任务的信息. 这种方法的总体思想和概念与主成分分析(principal component analysis,PCA)和奇异值分解(singular value decomposition,SVD)有关,它们都是利用低维表示来近似高维矩阵或数据集.
大模型联邦参数高效微调方法主要基于上述不同的参数高效微调方法对其联邦化,在联邦过程中会面临着隐私和异构等联邦学习中存在的挑战,现有工作对上述挑战做了初步的探讨和研究. 另外部分工作对大模型联邦微调框架的实现进行了研究和开发,旨在构建1套完整的大模型联邦微调流程和基准. 表2展示了现有大模型联邦微调工作,并根据其支持的高效参数微调方法、隐私保护和异构问题等方面进行了对比.
在适配器调优方面,通过联邦学习方法对不同客户端的大模型层中适配器进行协同训练,通过传递适配器层进行聚合和分发来降低计算和通信带宽的成本. 文献[29]提出了一种将离线调优方法推广到仿真器辅助调优(emulator - assisted tuning,EAT),并将其与参数高效微调相结合,创建参数高效仿真器辅助调优,将其应用扩展到联邦学习中,适配器具有可训练的神经网络参数,为特定任务定制预训练模型,而模拟器提供原始模型的压缩固定参数表示. 这种组合不仅通过避免将完整模型传输到移动边缘设备来解决模型隐私问题,而且还显着提高了内存和计算效率. 此外,最近也有研究将联邦微调应用在视觉大模型和跨模态大模型的训练阶段,例如FedDAT[35]提出针对异构多模态联邦学习的微调框架,利用双适配器结构和教师模型组成的双适配器教师模块(dual-adapter teacher,DAT)来处理数据异构性,并通过规范客户端本地更新和应用相互知识蒸馏以实现高效的知识转移,是首个能够高效分布式微调基础模型以适应多种异构视觉-语言任务的方法.
在提示调优方面,文献[30]提出了一种参数高效的自适应优化提示调优方法,利用联邦学习(federated learning,FL)调优大型语言模型. 由于在所有提示层中传递整个参数集对应于沉重的通信成本,提出了一种根据每一层的重要性选择适当的提示层的高效方法. 同时设计了一种评分方法,根据各层对最终收敛精度的调优影响来识别各层的重要性. PromptFL[36]提出基于提示的训练框架来替换传统模型训练中训练整个共享模型的方法,只更新和传输提示,保留了CLIP模型的强大适应性和泛化能力,大幅减少了联邦学习的通信需求并提升了模型性能,保护用户隐私.
在低秩适配调优方面,由于FL中最大的挑战之一是在异构客户端分布场景下训练时性能下降,因此文献[31]提出了一种新颖的数据驱动初始化技术克服了LoRA在高异构数据场景中的关键限制,它包括2个阶段,首先客户使用完全微调技术协作更新模型找到一个成熟的起点(初始化器)来启动LoRA块,然后使用上一阶段学习到的初始化器运行LoRA算法. SLoRA实现了与完全微调相当的性能,具有大约1%密度的显著稀疏更新,同时将训练时间减少了90%.
在框架实现方面,由于大模型联邦微调的发展仍处于不成熟阶段,现有研究工作对大模型联邦微调算法的全面实现和基准研究不足,因此文献[32]提出了联邦参数高效微调框架,并为适配器调优、前缀调优和低秩调优方法开发了相应的联邦基准,同时测量了隐私保护能力、性能和资源成本,证明了将预训练大模型与FL相结合的潜力,为大模型时代的隐私保护学习提供了1个有前途的训练范式;文献[33]提出了1个基于FederatedScope的大模型联邦微调框架FederatedScope-LLM,该框架封装了来自不同领域的各种联邦微调数据集的集合,具有可调的数据异构级别和1套相应的评估任务,以形成1个完整的管道,以基准测试FL场景中的联邦微调大模型算法,提供了全面的联邦微调算法,具有较低的通信和计算成本以及通用的编程接口,支持客户端可以或不能访问完整模型的2种场景;文献[34]提出了一个工业级大模型联邦微调框架FATE,该框架支持同构和异构大语言模型的联邦微调训练,通过适配器调优、前缀调优等多种参数高效的微调方法促进FedLLM的高效训练,同时采用联邦知识产权保护方式保护大模型的知识产权以及通过隐私保护机制保护训练和推理过程中的数据隐私.
2. 大模型边缘推理方法与架构
大模型推理与部署是完成大模型边缘化的重要步骤,在模型的推理过程中,大模型庞大的参数规模产生了巨大的算力、内存、带宽等资源的消耗,令大模型的边缘化过程困难重重.
现有文献综述[37-39]对大模型推理优化的调研并未有效区分边端侧推理与云端推理相关技术,并且更关注大模型的云端推理框架. 相比之下,本章节提供了边缘推理视角下的大模型优化加速与部署框架的调研,通过挑选具有代表性且适用于边缘设备推理的最新研究进展,系统性总结近年来大模型推理流程优化的创新工作,并提出相关见解. 需要指出的是,我们仅对软件层面的优化工作进行了调研,硬件加速方面的工作已有详细总结[40-42],虽然本节不包括硬件相关工作,但是这些研究在大模型迈向边缘的道路上同样起到了不可或缺的作用.
2.1 大模型边缘推理的整体流程
在边缘智能的一般范式中,在应用到推理场景之前需要结合多种优化方法对模型进行进一步处理[7],并利用计算卸载、资源分配、协同等关键技术实现边缘侧优化目标[43]. 然而模型参数规模的膨胀使得这些技术在边缘侧设备的应用效果越来越不明显,为此需求对大模型进行针对性的优化,以弥补巨大的算力等资源需求与边缘侧低资源设备的间隙. 图3展示了主流大模型边缘推理的一般流程,在预训练模型正式部署服务之前,大模型边缘化关键技术从多种角度对大模型的资源消耗作出优化,大模型部署框架整合上述技术,并结合目标部署环境提供系统级资源优化能力和友好用户接口.
现有主流大模型边缘化关键技术可概括为大模型压缩技术与大模型推理加速技术,我们将在后续与大模型边缘部署框架一同详细分析.
2.2 大模型压缩
一般神经网络的压缩技术可以分为参数剪枝、知识蒸馏、模型量化、低秩分解4个方向,目的是减少模型计算与存储等资源的消耗. 然而与一般神经网络不同的是,大模型具有架构庞大,算力需求高、访存量多、泛化能力强等特点,使得一般性的模型压缩方法在大模型上效率或效果不佳[44]. 为了应对这些挑战,许多大模型专用的模型压缩方法被提出,我们在图4展示了这些工作不同方向的技术概况,在表3详细展示了上述几种方向的分类、优化目标以及近期相关工作.
表 3 大模型压缩关键技术相关工作分类Table 3. Classification of Related Work for Large Model Compression参数剪枝 结构化剪枝 剪除冗余结构,降低模型大小和计算复杂度 文献[45−48] 非结构
化剪枝实现权重稀疏化,减小模型内存使用量和计算量,依赖特定软硬件加速模型张量运算 文献[49−51] 知识蒸馏 白盒蒸馏 产生特定领域下的小模型,减少模型尺寸和计算量,同时保持模型在特定任务下的性能 文献[52−60] 黑盒蒸馏 在不访问大模型内部结构的情况下,实现蒸馏过程,产生特定领域的小模型 文献[61−70] 模型量化 训练后
量化降低模型存储大小、节省存储、内存、带宽、计算量,同时保持模型精度 文献[71−81] 量化感
知训练降低模型量化误差,在降低模型存储、内存、带宽、计算量的前提下,进一步保持模型精度 文献[82−86] 低秩分解 — 减少模型参数量,实现推理加速 文献[87−91] “—”表示没有更细致的类别划分. 1)参数剪枝
参数剪枝技术通过移除模型的冗余结构或权重压缩模型,按修剪粒度区分,现有大模型剪枝技术可分为结构化剪枝和非结构化剪枝. 结构化剪枝移除大模型参数矩阵多个通道或块结构等结构化组成部分,部分研究工作[45-48]多于微调、量化、甚至训练相结合以降低精度损失、提高压缩效果. 非结构化剪枝不考虑大模型内部结构,通过神经元级别的删减使模型权重矩阵产生稀疏性,依赖特殊的软硬件实现张量运算加速[92]. 一般的神经网络剪枝技术在剪枝后利用微调恢复模型的性能,然而由于大模型全参数微调的成本巨大,当前的大模型剪枝通常舍弃微调[50-51]步骤,或者结合参数高效微调[45,48]低成本. 由于剪枝无可避免地损失了模型性能,并且大模型参数全量微调对硬件设施算力的要求极高,此类方法应用在大模型上的实用性仍需进一步优化.
2)知识蒸馏
知识蒸馏技术将大模型作为教师模型,利用教师模型的监督信息训练一个小型学生模型,针对大模型的现有研究可分类为白盒蒸馏和黑盒蒸馏2种. 白盒蒸馏方法同时利用大模型的内部信息和输出训练学生模型,黑盒蒸馏方法假设大模型的内部结构不可见,仅利用教师模型的输出训练学生模. 与一般神经网络的知识蒸馏不同,大模型蒸馏更关注知识的转移,而不是架构上的压缩[93]. 当大模型参数量达到一定程度后会表现出“涌现能力”,即处理复杂任务的表现惊人,利用该特点可以帮助小模型学习应对复杂任务,进而催生了基于思维链(chain-of-thought,CoT)、上下文学习(in-context learning,ICL)、指令遵循(instruction-following,IF)的黑盒蒸馏方法. 大模型的知识蒸馏通常用于将某一领域知识提炼到边缘设备可承载的小模型,用于特定的下游任务[55]. 小型模型的知识储量和表达能力相较大型模型具有较大差距,使用者需要在模型能力与模型尺寸之间做出进一步权衡.
3)模型量化
模型量化方法将权重或激活值的浮点数表示形式转换为更低精度的数值表示形式,在尽量缩减误差的同时充分利用数值表示空间,主流的量化方案包括训练后量化(post-training quantization,PTQ)和量化感知训练(quantization-aware training,QAT)2种. PTQ直接转换训练后的模型权重为低精度格式,无需修改模型架构或重新训练,相比QAT具有简单高效的优势[94],而QAT将量化过程融入模型的训练过程,使模型适应低精度的存储格式,做到更低的精度损失. QAT的重训练方法对一般神经网络的精度恢复的通常具有明显效果,但执行大模型的训练成本非常昂贵,因此PTQ成为了大模型量化技术的主流[71],该部分将会在后文展开论述.
4)低秩分解
低秩分解利用模型权重矩阵的低秩特性,将矩阵近似分解为2个或多个更小的矩阵,以节省参数量. 该技术已被广泛用于大模型高效参数微调[95],但是最近的工作表明这种技术也可以用于模型压缩[87-89],且具有出色的压缩效果. 例如TensorGPT[89]使用低秩张量压缩嵌入层,降低了LLM的空间复杂度并使其可在边缘设备上使用. LoSparse[88]通过低秩矩阵和稀疏矩阵的和来近似权重矩阵,结合了低秩近似和结构化剪枝的有点,实现了大量内存的节省.
上述4种大模型压缩技术为大模型边缘部署提供了极大的便利,其中模型量化中的PTQ量化技术因为成本低、精度损失小、效率高而被广泛采用,已经成为大模型边缘部署和应用的重要优化技术. PTQ量化技术在大模型上的应用包含仅权重量化和权重激活值量化2个主流方向,图4(c)展示了两者的区别.
1)仅权重量化
为了弥补量化带来的误差,当前的大模型量化方案可分为3种,分别为离群值分离[77]、2阶近似补偿[78]、分布平滑[79]. 这几种方法并不互斥,例如:SpQR[80]对GPTQ[78]的量化方案提出了进一步的优化策略,分离离群值并采用稀疏矩阵存储,对非离群值权重采用混合精度的双层量化策略,进一步降低了大模型量化后模型性能损失;AWQ[71]基于LLM权重重要性不平衡的观点,按照激活值筛选重要权重,并引入平滑因子以减小重要权重的量化误差,最终实现了适用于多种大模型出色量化方案;OWQ[81]理论分析了激活值的离群值对权重量化误差的放大效应,在AWQ基础上引入了权重矩阵的混合精度量化方案.
2)权重激活值量化
权重激活值量化同时量化权重和激活值,仅权重量化的优化技术同样也可以用于激活值. 例如:ZeroQuant[76]提出了一种细粒度的硬件友好量化方案,对权重和激活值分别采用不同的量化粒度,并采用逐层知识蒸馏的方法缓解量化后精度损失;SmoothQuant[79]通过平滑激活值分布,将激活值量化的难度转移到模型权重量化上,在此基础上实现了大模型的W8A8量化方案;Outlier Suppression+[74]在Outlier Suppression[73]的基础上,结合离群值非对称分布且主要集中在特定通道的特征,通过通道级转换和缩放以缓解非对称离群值引起的误差;OliVe[75]采用离群值-受害者对量化,考虑到离群值相比正常值重要性更高,过低硬件开销的方法处理局部离群值;QLLM[96]提出了一种自适应通道重组方法,以有效处理激活值中的离群值,并利用校准数据来抵消量化误差;FPTQ[72]设计了一种新颖的W4A8后训练量化方法,将W8A8和W4A16的优势结合起来,并将细粒度的权重量化与逐层激活量化策略相结合,进一步保持模型的原始性能.
2.3 大模型推理加速
大模型推理加速是一系列不修改模型权重情况下优化模型推理效率的算法和技术,其中一些研究由于效果显著已经被广泛应用在模型部署流程中,如KV(key-value)缓存、推测解码等. 根据优化层级的不同,我们将这些研究工作分类为模型层面的优化与系统层面的优化2部分,并在表4中展示了与大模型推理加速相关的研究分类及相关工作.
表 4 大模型推理加速技术相关工作分类Table 4. Classification of Related Work for Large Model Inference Acceleration Technology2.3.1 推理算法优化
该部分包含KV缓存、早期退出、高效提示词、推测解码4个方向. 图5展示了4种方法的示意图.
1)KV缓存
尽可能减少键值对的重复计算能够有效提高大模型推理效率,KV缓存通过在生成过程中缓存这些张量,从而避免每个生成步骤中重新计算过去的Token的键值. 然而KV缓存随着序列和批次大小而线性增长,使得内存或显存资源面临短缺,为此部分研究[97-100]通过约束缓存数量、丢弃不必要的缓存项,以摆脱缓存长度的不可预测性. KV缓存与量化结合也是一种节省内存的方法,例如:KVQuant[101]将KV缓存视为激活值,并应用量化技术进行低精度压缩,实现了超长上下文长度的LLM推理. 此外高效的内存管理策略对KV缓存的效率同样也有很大影响;PagedAttention[102]受虚拟内存和分页机制启发,提出了一种高效的注意力算法. 这种方法对KV缓存进行分页内存管理,使得非连续存储变得高效,并减少了内部和外部存储的碎片化.
2)早期退出
早期推理是一种条件计算方法,允许不同样本在不同层中提前结束计算,在推理速度和准确性之间取得良好的平衡. 在逐Token生成的自回归大模型上,现有研究多从Token级别提出早退策略[103],并研究了多种退出条件[105-110]. 此外部分研究[103-104]更进一步,不同Token可以动态地跳过中间特定层,而不仅仅局限于早期层的提前退出. 然而早退改变了模型内部结构,因此需要重新训练或微调,这对于边缘侧设备来说可能是难以接受的.
3)高效提示词
将提示词进行压缩或裁剪可以有效减少大模型推理的计算量和成本,尤其是长上下文场景. 近期研究工作中,LLMZip[111]使用7B参数量的Llama模型作为预测器,并与无损压缩方案结合,取得了较高的文本压缩率. AutoCompressors[112]将预训练的大模型作为压缩器,能够生成长文本的摘要向量,在提高准确性的同时降低推理成本. Selective Context[113]从信息论的角度出发,通过识别和修剪输入上下文中的冗余内容,使输入更加紧凑,从而提高LLM的推理效率. LLMLingua[114]基于小型LLM模型,利用压缩与重排实现了在几乎无损的情况下高达20倍的压缩率. LongLLMLingua[115]更进一步,提出了基于问题的文档压缩策略,面向长上下文场景下实现提示词高效压缩与推理加速.
4)推测解码
自回归模型的顺序依赖性[116]使得现有大模型无法充分利用现代加速器能力,导致效率低下,为了摆脱这种依赖性,文献[117]首先提出了推测解码方法,通过使用较小的辅助模型自回归地生成候选序列,较大的主模型通过一次前馈传播判断候选序列中Token的正确性并予以纠正. SpecInfer[118]利用多个小型辅助模型,以及一种基于树的推测与Token验证机制,大大降低了推理的端到端延迟. Medusa[119] 在LLM的最后隐藏状态之上引入了多个头,无需引入辅助模型,能够并行预测多个后续Token. Lookahead[116]将自回归解码视为求解非线性方程并采用经典雅可比迭代方法进行并行解码,同样也无需辅助模型. EAGLE[120]根据原始模型中间层特征序列预测,使用小型自回归头在特征级别推断下一个特征,通过标记树实现更高的效率. LLMCad[121]将推测解码技术推向边缘侧设备,在物联网设备和智能手机上大幅度提高了LLM生成速度.
另外,在大模型推理加速领域,从处理大语言模型的策略转向视觉大模型面对的是一个共通的挑战——如何在保证模型性能的同时减少计算资源消耗[134]. 尽管语言模型和视觉模型在数据处理和模型结构上存在差异,但加速技术的目标一致,即提高实际应用中的推理速度和效率. MuE[135]通过将图像和文本模态在编码器中分解,根据模态灵活跳过不同的层,实现多次早期退出,推动推理效率的同时最小化性能下降. SAMConvex[136]提出一个粗到细的离散优化方法来提高CT图像配准的效率,通过计算SAM嵌入特征的内积来构建多尺度6D成本体积,以此提高模型在特定任务上的执行速度和准确性. MaskCLIP[137]通过优化推理框架,将预训练的CLIP模型直接应用于像素级别的预测,而无需专门的注释或复杂的微调过程,实现对未见类别和概念的高效分割. CLIP-Forge[138]采用2阶段训练过程,使用未标记的形状数据集和CLIP模型,从文本描述中以零样本的方式直接生成3维形状,无需在形状-文本配对标签上进行训练,同时采用完全前馈方法,避免了昂贵的推理时间,显著提高了推理阶段的效率.
2.3.2 系统效率优化
1)算子优化
基于Transformer[139]架构的大模型核心算子包括注意力算子,算子效率优化通过利用软硬件资源,减少计算量和内存访问,或者利用内核融合等方法减小启动开销等,对于大模型在特定设备上推理具有显著优化效果. 对于GPU平台的大模型推理,FlashAttention[123]提出了一种利用GPU上的高速SRAM(static random-access memory)的分块注意力算法,使用内核融合避免多次拷贝内存带来的通信开销. FlashAttention-2[124]在原有基础上通过优化GPU线程之间的工作分配减少共享内存的读写操作. 它进一步通过在线程块和线程束之间分配注意力计算任务,增加了并行度以提高了占用率和效率. FlashDecoding[125]引入了一个沿着键/值序列长度的并行化维度进行规约,即使在小批量大小和长上下文的情况下也能充分利用GPU. FlashDecoding++[126]引入了一个基于统一最大值的异步softmax来消除同步开销以提高了注意力计算效率. 它通过双缓冲优化了平面GEMM(general matrix multiplication)操作,提高了计算利用率并减少了内存延迟. 此外FlashDecoding++实现了一种启发式数据流,能够动态适应硬件资源. 对于CPU平台的大模型推理,现有研究[122]多设计高度优化的GEMM内核,利用低精度运算和SIMD(single instruction multiple data)指令集的优势加速大模型算子的计算. 此外,机器学习编译技术通常将算子融合和优化作为优化目标之一,深度学习编译器[127-129]已被广泛应用在许多大模型部署框架中,对于减少冗余计算,利用边缘硬件环境进行加速具有重要意义.
2)稀疏性加速
近期研究表明,大模型在推理时的激活值具有显著的稀疏性,这为大模型推理效率的优化带来了诸多启发. 基于上述观点,文献[130]提出了“上下文稀疏性假设”,使用预测器根据上一层激活值动态预测下一层需要激活的神经元或注意力头,通过舍弃不必要计算达到模型加速效果. 除了利用稀疏性减少计算量之外,另一部分研究通过该观点实现高效的内存卸载策略. 内存卸载是一种将权重“卸载”到外部存储,在需要时加载部分权重到内存中,使得边缘设备可以运行超过其内存大小的模型. 但是频繁的内存交换会导致显著的通信开销,为此高效的内存卸载策略是一个重要的研究方向. FlexGen[131]开发了一种基于线性规划的搜索算法优化吞吐量,以达到最优的卸载策略,并一步将权重和注意力缓存压缩至4 b,从而显着提高LLM推理时最大吞吐量. PowerInfer[132]发现大模型推理表现出高度的局部性,一些被称为“热激活神经元”的神经元被频繁激活. 基于这一观察,PowerInfer设计了神经元感知卸载策略和推理引擎,利用显存和内存存储权重,为显存预加载频繁激活的神经元的权重,而不活跃的神经元的权重则保留在内存中. 针对如何在有限内存设备上设计内存卸载策略的问题,LLM in a flash[8]提出了一种基于DRAM(dynamic random-access memory)和闪存的内存卸载策略,将LLM的权重存储在闪存中,而将注意力缓存存储在DRAM中,利用滑动窗口缓存过去激活的标记,静态内存预分配以最大限度减少加载延迟,从而在有限的内存设备上实现LLM推理. EdgeMoE[133]则开发了是专门为混合专家模型(mixture of experts,MoE)设计的内存卸载策略,利用MoE架构的稀疏性,非专家权重存于内存,专家权重仅在激活时从外部存储加载以实现边缘设备的内存节省.
2.4 大模型边缘部署框架
大模型的部署框架通常集合多种模型优化技术,并提供了模型的系统级调度或其他功能. 目前主流大模型部署框架[140-143]虽然提供了设备端部署的能力,但倾向于关注大模型的服务端推理和服务能力. 边缘侧的设备通常不具备或具有有限的高性能的神经网络加速芯片,算力和存储相比云端具有显著差异,众多适用于边缘侧的大模型推理引擎和框架因此诞生,并为大模型在边缘侧的开发与应用提供便利.
表5展示了现有适用于边缘侧的开源大模型推理框架和引擎,分为通用与专用2部分. 通用框架指的是通用的边缘侧深度学习推理框架,如TFLite[146],TorchExec[147],MNN[148],NCNN[149],这些引擎通常不涉及对大模型架构的专门优化,但是其通用性和灵活性使得它们可以适用于多种模型. 另一类推理引擎是专门为大模型推理设计的专用框架,不同于通用的机器学习边缘部署框架[144],它们通常根据大模型的特点提供专用的加速方案. 其中部分框架具有跨架构平台的部署能力,如支持在Intel,ARM等芯片架构上运行,而另一些框架则为专门的边缘计算平台设计. 此外表格显示模型量化作为一种低成本高成效的优化方案,受到大多数边缘部署框架支持,或提供了量化后模型的推理能力. 部分框架,如MLC-LLM,利用了机器学习编译等技术,进一步减少端侧大模型推理的计算冗余.
表 5 大模型边缘部署框架总结Table 5. Summary of Edge Deployment Frameworks for Large Models适用性 框架 特点 量化 多模
型支持跨平台支持 通用 TFLite[146] 在移动设备、嵌入式设备和loT设备上运行模型,支持多种开发语言和硬件加速 √ √ √ TorchExec[147] PyTorch平台下边缘部署工具,兼容多种计算平台并具有轻量级运行时 √ √ √ MNN[148] 轻量级的深度神经网络引擎,对模型格式、算子、设备、操作系统具有广泛的兼容性 √ √ √ NCNN[149] 适用于移动端的神经网络推理框架,无第三方依赖 √ √ √ 专用 MLC-LLM[150] 使用机器学习编译技术加速推理 √ √ √ llama.cpp[151] C/C++中LLM推理 √ √ √ llama2.c[152] 纯C语言环境执行Llama推理 √ Mllm[153] 适用于移动和边缘设备的多模态推理引擎 √ √ √ Intel Extension for Transformers[154] 在英特尔平台上提供LLM高效推理 √ √ InferLLM[155] 轻量级LLM推理框架,可部署至移动设备 √ √ TinyChatEngine[156] 支持多种设备上的多种量化方法 √ √ √ NanoLLM[157] 为NVIDIA Jetson设计的轻量级LLM推理引擎 √ 边缘侧的大模型部署框架仍然处于发展阶段,许多框架提供的能力十分有限,适用于边缘侧的大模型的部署框架作为关系大模型能否在边缘侧落地的重要因素,其可用性和多样性仍然有待提高. 除上述框架之外,部分工作如PoweInfer[132],FlexGen[131],DeepSparse[145]支持消费级PC计算设备上的大语言模型推理,但是这些推理引擎要求设备具备一定的算力水平,其有效性未在边缘侧设备上进行进一步实验. 但是由于其对LLM推理的提出了多种优化技术与思想,这些工作对推动边缘侧大模型部署仍有较大的参考价值.
3. 未来挑战和展望
本文从边缘智能出发,描述了边缘智能下大模型的背景和发展. 着重从大模型推理和训练2个阶段涉及到的关键技术进行了归纳总结. 截至目前,边缘智能下的大模型发展还处于初期阶段,结合边缘智能的特点,目前还存在着以下几个值得关注和讨论的方向:
1)新型大模型架构. 目前Transformer架构在预训练大模型中已经占据主导地位,但是其使用的自注意力机制具有平方级别的计算复杂度,使得大模型训练和推理仍然面临成本高、效率低的问题,这一挑战在长文本情景下尤为凸显. 为了缓解Transfromer架构带来的训练和推理时的资源需求,此前部分研究工作提出了诸多Transformer变体,针对注意力机制[158-160]或前馈网络[161-163]进行了大量研究并展现出巨大潜力. 另一研究方向则提出了新的模型架构以取代Transformer,如Mamba[164],RWKV[165],RetNet[166]等. 尽管这些架构在性能和效率方面具有不凡的竞争力,但是以这些架构为基础的大模型数量有限,新架构在实践中相比Transformer架构是否具有显著优势,以及模型架构是否存在进一步优化空间仍然有待探索. 新型高效架构的探索有望成为大模型领域的重要突破,因此具有较大的研究价值,特别是具有硬件或系统级优化的体系结构,有望让边缘侧大模型的应用成本进一步降低.
2)边缘侧设备资源受限. 大模型的训练与推理需要消耗大量计算、内存资源,这种消耗对于边缘设备来说可能是无法承担的. 传统的边缘侧深度学习模型部署通常结合轻量化模型结构、模型压缩等技术,但是此类方法仍难以满足大模型在部署到边缘侧时对各种资源的需求. 针对此问题,研究更先进的大模型的压缩与加速技术、针对边缘设备的硬件加速器和专门的推理引擎均可以改善大模型在资源受限环境中的微调或推理效率,有望进一步降低大模型在边缘侧部署的成本与压力. 同时,现有大模型边缘部署方案通常是将模型完整部署到边缘环境,云边协同作为一种能够平衡利用云端与边端资源的协作模式,如何与现有大模型结合,以实现更高效、更稳定的边缘侧推理方案,同样也是一个前景广阔的研究方向.
3)边缘资源与需求动态性. 相比于云计算同质化的计算资源,边缘节点通常具有设备异构性、网络状况多变、存储计算资源差异等特点,使得现有大模型边缘侧微调与推理面临可移植性和效率问题. 同时边缘侧场景下用户对模型推理时延、精度等指标的需求也各不相同,使得大模型难以在边缘环境提供稳定一致的服务. 通过对边缘侧动态场景进行建模,确立适应动态资源及需求变化的调度机制、协同化策略、自适应算法等方案,是值得进一步关注的问题.
4)大模型联邦微调的异构性问题. 复杂动态环境下智能感知中存在“昆虫纲”悖论难题[167-168],包含感、算、存、传等资源差异性,环境的复杂性与动态性等挑战. 带来感知计算不实时、效果差、难统一等问题. 具体来讲在边缘侧联合众多边缘设备资源来进行大模型联邦微调训练是一种普遍认可的应对大模型定制化需求的可行手段,但在多个边缘设备间对大模型进行联邦微调训练过程中,面对大模型以GB为单位的庞大参数,资源受限的边缘设备难以支持其性能需求[83],同时在客户端间大量的参数传递也给通信带来了巨大压力[169],导致微调训练效率低下;另一方面,在大模型联邦微调训练中普遍存在的设备异构与数据异构问题更加凸显,严重影响了训练效果和收敛速度[170-171]. 因此如何在边缘侧资源受限,通信压力大,设备异构、数据异构普遍存在的条件下进行大模型联邦微调训练,还需进行针对性的深入研究.
5)隐私问题. 随着模型规模的不断扩大,所需的训练数据量也急剧增加,这导致用户隐私泄露的风险加大. 在模型训练过程中,如果不采取适当的保护措施,用户的敏感信息可能会被泄露给攻击者,从而引发严重的隐私安全问题. 同时大模型本身也可能成为攻击的目标. 攻击者可能会利用模型的漏洞或弱点,对模型进行攻击,从而获取到模型的训练数据、模型结构或推理结果等敏感信息. 这种攻击方式不仅会对用户的隐私造成威胁,还会对模型的可用性和可靠性产生严重影响.
6)大模型伦理的规范化. 随着大模型逐渐深入边缘侧并应用于各种下游任务,大模型本身的价值观和伦理道德倾向对人类社会的潜在风险愈发显著,同时模型本身的随机性和不可解释性也加剧了大模型伦理问题的不可控性. 现有大模型伦理道德规范化手段主要有训练前数据过滤、输出矫正、基于人类反馈的强化学习等,均可以在一定程度上将大模型价值观与人类对齐,但是对齐效果与真实人类社会伦理标准仍然存在巨大差距,未真正实现AI与人类普适道德价值的深度对齐[172]. 大模型的伦理规范问题是全人类社会应当共同应对的挑战,研究更加有效人工智能伦理规范方法和框架,是大模型未来重要的研究方向.
4. 总 结
边缘智能下的大模型训练和推理具有极大的潜在应用价值,目前的研究还都尚处于初期阶段,许多问题都没有明确的统一和规范,值得我们重点研究. 本文首先对边缘智能和大模型的发展以及背景进行了简要回顾,对训练和推理过程中涉及到的关键技术进行了归纳总结,重点从边缘智能角度分析了大模型边缘推理和训练存在的挑战和发展方向. 总的来看,在边缘侧进行大模型推理和训练具有极大的应用价值和发展空间,我们未来的研究工作重点将放在动态场景下的大模型推理和训练方面.
作者贡献声明:王睿提出了论文框架、文献调研路线、指导论文写作并修改论文;张留洋和高志涌负责文献调研、撰写及修改部分论文;姜彤雲补充完善论文.
-
表 1 音频驱动说话面部视频生成数据集
Table 1 Audio-Driven Talking Face Video Generation Datasets
数据集 年份 人物数量 规模 视频尺寸 样本来源 GRID[59] 2006 34 共34 000句 360×288,
720×576实验室环
境录制CREMA-D[60] 2014 91 每人12句 960×720 实验室环
境录制MEAD[61] 2020 60 每人20句 实验室环
境录制Multiface[62] 2022 13 每人50句 2 048×1 334,
1 024×1 024实验室环
境录制SingingHead[63] 2023 76 共447首歌曲 3 840×2 160 实验室环
境录制LRW[64] 2016 1 000多 共1 000句 224×224 BBC Voxceleb1[65] 2017 1 200 共153 500句 224×224 Youtube LRS2[66] 2018 500多 超过140 000句 224×224 BBC LRS3[67] 2018 5 000多 超过152 000句 224×224 TED Voxceleb2[68] 2018 6 100 共1 100 000句 224×224 Youtube LRW-1000[69] 2019 2 000多 共71 800句 1 024×576,
1 920×1 080有线新
闻节目HDTF[70] 2021 300多 超过10 000句 1 280×720,
1 920×1 080Youtube CelebV-HQ[71] 2022 15 653 512×512以上 维基百科 VFHQ[72] 2022 共16 827个
片段700×700到
1 000×1 000Youtube EFHQ[73] 2024 约450 000帧 1 024 × 1 024 其他数据集 表 2 说话面部视频鉴别数据集
Table 2 Talking Face Video Discrimination Datasets
数据集 年份 规模 真伪样本
比例真实样本
来源UADFV[99] 2018 共98个视频 1∶1 Youtube Deepfake-TIMIT[101] 2018 共1 280个视频 1∶1 VidTIMIT
数据库[102]FaceForensics++[86] 2019 共6 000个视频 1∶5 Youtube DFDC[103] 2020 共119 154个视频 1∶5.26 演员录制 DeeperForensics-1.0[104] 2020 共60 000个视频 1∶5 演员录制 FFIW-10k[105] 2021 共20 000个视频 1∶1 Youtube ForgeryNet[106] 2021 包括221 247个视频 1∶1.22 其他数据集 DF-Mobio[107] 2022 共46 000个视频 1∶0.5 Mobio
数据集[108]FMFCC-V[109] 2022 共82 392个视频 1∶0.86 演员录制 Div-Df[110] 2023 共400个视频 1∶1.67 Youtube DF-Platter[111] 2023 共133 260个视频 1∶173.4 Youtube AV-Deepfake1M[112] 2023 共1 146 760个视频 1∶3 Youtube -
[1] 宋一飞,张炜,陈智能,等. 数字说话人视频生成综述[J]. 计算机辅助设计与图形学学报,2023,35(10):1457−1468 Song Yifei, Zhang Wei, Chen Zhineng, et al. A survey on talking head generation[J]. Journal of Computer-Aided Design & Computer Graphics, 2023, 35(10): 1457−1468 (in Chinese)
[2] Bainey K. AI-Driven Project Management: Harnessing the Power of Artificial Intelligence and ChatGPT to Achieve Peak Productivity and Success[M]. Hoboken, NJ: John Wiley & Sons, 2024
[3] 张溢文,蔡满春,陈咏豪,等. 融合空间特征的多尺度深度伪造检测方法[J/OL]. 计算机工程:1−12[2024-07-06]. https://doi.org/10.19678/j.issn.1000-3428.0067789 Zhang Yiwen, Cai Manchun, Chen Yonghao, et al. Multi-scale deepfake detection menthod with fusion of spatial features[J/OL]. Computer Engineering: 1−12[2024-07-06]. https://doi.org/10.19678/j.issn.1000-3428.0067789 (in Chinese)
[4] 盛文俊,曹林,张帆. 基于有监督注意力网络的伪造人脸视频检测[J]. 计算机工程与设计,2023,44(2):504−510 Sheng Wenjun, Cao Wenjun, Zhang Fan. Forged facial video detection based on supervised attention network[J]. Computer Engineering and Design, 2023, 44(2): 504−510 (in Chinese)
[5] Morishima S, Aizawa K, Harashima H. An intelligent facial image coding driven by speech and phoneme[C]//Proc of the 13rd Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1989: 1795−1798
[6] Morishima S, Harashima H. A media conversion from speech to facial image for intelligent man-machine interface[J]. IEEE Journal on Selected Areas in Communications, 1991, 9(4): 594−600 doi: 10.1109/49.81953
[7] Yamamoto E, Nakamura S, Shikano K. Lip movement synthesis from speech based on Hidden Markov Models[J]. Speech Communication, 1998, 26(1/2): 105−115
[8] Lee S, Yook D S. Audio-to-visual conversion using hidden Markov models[C]//Proc of the 7th Pacific Rim Int Conf on Artificial Intelligence. Berlin: Springer, 2002: 563−570
[9] Aleksic P S, Katsaggelos A K. Speech-to-video synthesis using MPEG-4 compliant visual features[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2004, 14(5): 682−692 doi: 10.1109/TCSVT.2004.826760
[10] Zhang Xinjian, Wang Lijuan, Li Gang, et al. A new language independent, photo-realistic talking head driven by voice only[C]//Proc of the 14th Annual Conf of the Int Speech Communication Association. New York: ISCA, 2013: 2743−2747
[11] Taylor S, Kim T, Yue Y, et al. A deep learning approach for generalized speech animation[J]. ACM Transactions on Graphics (TOG), 2017, 36(4): 1−11
[12] Chung J S, Zisserman A. Out of time: Automated lip sync in the wild[C]//Proc of the 13th Asian Conf on Computer Vision. Berlin: Springer, 2017: 251−263
[13] Chung J S, Jamaludin A, Zisserman A. You said that?[J]. arXiv preprint, arXiv: 1705.02966, 2017
[14] Karras T, Aila T, Laine S, et al. Audio-driven facial animation by joint end-to-end learning of pose and emotion[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 1−12
[15] Cudeiro D, Bolkart T, Laidlaw C, et al. Capture, learning, and synthesis of 3D speaking styles[C]//Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 10101−10111
[16] Fan Bo, Wang Lijuan, Soong F K, et al. Photo-real talking head with deep bidirectional LSTM[C]//Proc of the 40th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2015: 4884−4888
[17] Fan Bo, Xie Lei, Yang Shan, et al. A deep bidirectional LSTM approach for video-realistic talking head[J]. Multimedia Tools and Applications, 2016, 75(9): 5287−5309 doi: 10.1007/s11042-015-2944-3
[18] Suwajanakorn S, Seitz S M, Kemelmacher-Shlizerman I. Synthesizing obama: Learning lip sync from audio[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 1−13
[19] Pham H X, Cheung S, Pavlovic V. Speech-driven 3D facial animation with implicit emotional awareness: A deep learning approach[C]//Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2017: 80−88
[20] Eskimez S E, Maddox R K, Xu Chenliang, et al. Generating talking face landmarks from speech[C]//Proc of the 14th Int Conf on Latent Variable Analysis and Signal Separation. Berlin: Springer, 2018: 372−381
[21] Thies J, Elgharib M, Tewari A, et al. Neural voice puppetry: Audio-driven facial reenactment[C]//Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2020: 716−731
[22] Zhou Yang, Han Xintong, Shechtman E, et al. Makelttalk: Speaker-aware talking-head animation[J]. ACM Transactions On Graphics, 2020, 39(6): 1−15
[23] Wang Suzhen, Li Lincheng, Ding Yu, et al. Audio2head: Audio-driven one-shot talking-head generation with natural head motion[J]. arXiv preprint arXiv: 2107.09293, 2021
[24] Song Linsen, Wu W, Qian Chen, et al. Everybody’s talkin’: Let me talk as you want[J]. IEEE Transactions on Information Forensics and Security, 2022, 17: 585−598 doi: 10.1109/TIFS.2022.3146783
[25] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139−144 doi: 10.1145/3422622
[26] Song Yang, Zhu Jingwen, Li Dawei, et al. Talking face generation by conditional recurrent adversarial network[J]. arXiv preprint, arXiv: 1804.04786, 2018
[27] Chen Lele, Li Zhiheng, Maddox R K, et al. Lip movements generation at a glance[C]//Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 520−535
[28] Chen Lele, Maddox R K, Duan Zhiyao, et al. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss[C]//Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 7832−7841
[29] Prajwal K R, Mukhopadhyay R, Philip J, et al. Towards automatic face-to-face translation[C]//Proc of the 27th ACM Int Conf on Multimedia. New York: ACM, 2019: 1428−1436
[30] Prajwal K R, Mukhopadhyay R, Namboodiri V P, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proc of the 28th ACM Int Conf on Multimedia. New York: ACM, 2020: 484−492
[31] Wang Jiadong, Qian Xinyuan, Zhang Malu, et al. Seeing what you said: Talking face generation guided by a lip reading expert[C]//Proc of the 36th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2023: 14653−14662
[32] Yin Fei, Zhang Yong, Cun Xiaodong, et al. Styleheat: One-shot high-resolution editable talking face generation via pre-trained stylegan[C]//Proc of the 17th European Conf on Computer Vision. Berlin: Springer, 2022: 85−101
[33] Karras T, Laine S, Aittala M, et al. Analyzing and improving the image quality of stylegan[C]//Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE , 2020: 8110−8119
[34] Park S J, Kim M, Hong J, et al. Synctalkface: Talking face generation with precise lip-syncing via audio-lip memory[C]//Proc of the 36th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2022: 2062−2070
[35] Goyal S, Bhagat S, Uppal S, et al. Emotionally enhanced talking face generation[C]//Proc of the 1st Int Workshop on Multimedia Content Generation and Evaluation: New Methods and Practice. New York: ACM, 2023: 81−90
[36] Kingma D P, Welling M. Auto-encoding variational bayes[J]. arXiv preprint, arXiv: 1312.6114, 2013
[37] Mittal G, Wang Baoyuan. Animating face using disentangled audio representations[C]//Proc of the 2020 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE, 2020: 3290−3298
[38] Liu Jin, Wang Xi, Fu Xiaomeng, et al. Font: Flow-guided one-shot talking head generation with natural head motions[C]//Proc of the 24th IEEE Int Conf on Multimedia and Expo. Piscataway, NJ: IEEE, 2023: 2099−2104
[39] Doersch C. Tutorial on variational autoencoders[J]. arXiv preprint, arXiv: 1606.05908, 2016
[40] Zhang Wenxuan, Cun Xiaodong, Wang Xuan, et al. Sadtalker: Learning realistic 3D motion coefficients for stylized audio-driven single image talking face animation[C]//Proc of the 36th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2023: 8652−8661
[41] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. arXiv preprint, arXiv. 1706.03762, 2017
[42] Khan S, Naseer M, Hayat M, et al. Transformers in vision: A survey[J]. ACM Computing Surveys (CSUR), 2022, 54(10): 1−41
[43] Fan Yingruo, Lin Zhaojiang, Saito J, et al. Faceformer: Speech-driven 3D facial animation with transformers[C]//Proc of the 35th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE , 2022: 18770−18780
[44] Wang Jiayu, Zhao Kang, Zhang Shiwei, et al. Lipformer: High-fidelity and generalizable talking face generation with a pre-learned facial codebook[C]//Proc of the 36th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE , 2023: 13844−13853
[45] Zhong Weizhi, Fang Chaowei, Cai Yinqi, et al. Identity-preserving talking face generation with landmark and appearance priors[C]//Proc of the 36th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE , 2023: 9729−9738
[46] Ma Haoyu, Zhang Tong, Sun Shanlin, et al. CVTHead: One-shot controllable head avatar with vertex-feature transformer[C]//Proc of the 2024 IEEE/CVF Winter Conf on Applications of Computer Vision. Piscataway, NJ: IEEE, 2024: 6131−6141
[47] Mildenhall B, Srinivasan P P, Tancik M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2021, 65(1): 99−106
[48] Guo Yudong, Chen Keyu, Liang Sen, et al. Ad-nerf: Audio driven neural radiance fields for talking head synthesis[C]//Proc of the 18th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 5784−5794
[49] Gafni G, Thies J, Zollhofer M, et al. Dynamic neural radiance fields for monocular 4D facial avatar reconstruction[C]//Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 8649−8658
[50] Yao Shunyu, Zhong Ruizhe, Yan Yichao, et al. DFA-NeRF: Personalized talking head generation via disentangled face attributes neural rendering[J]. arXiv preprint, arXiv: 2201.00791, 2022
[51] Tang Jiaxiang, Wang Kaisiyuan, Zhou Hang, et al. Real-time neural radiance talking portrait synthesis via audio-spatial decomposition[J]. arXiv preprint, arXiv: 2211.12368, 2022
[52] Bi Chongke, Liu Xiaoxing, Liu Zhilei. NeRF-AD: Neural radiance field with attention-based disentanglement for talking face synthesis[J]. arXiv preprint, arXiv: 2401.12568, 2024
[53] Sohl-Dickstein J, Weiss E, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]//Proc of the 32nd Int Conf on Machine Learning. New York: ACM, 2015: 2256−2265
[54] Bigioi D, Basak S, Stypułkowski M, et al. Speech driven video editing via an audio-conditioned diffusion model[J]. arXiv preprint, arXiv: 2301.04474, 2023
[55] Stypułkowski M, Vougioukas K, He Sen, et al. Diffused heads: Diffusion models beat gans on talking-face generation[C]//Proc of the 2024 IEEE/CVF Winter Conf on Applications of Computer Vision. Piscataway, NJ: IEEE, 2024: 5091−5100
[56] Shen Shuai, Zhao Wenliang, Meng Zibin, et al. DiffTalk: Crafting diffusion models for generalized audio-driven portraits animation[C]//Proc of the 36th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE , 2023: 1982−1991
[57] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proc of the 35th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 10684−10695
[58] Zhang Bingyuan, Zhang Xulong, Cheng Ning, et al. Emotalker: Emotionally editable talking face generation via diffusion model[C]//Proc of the 49th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2024: 8276−8280
[59] Cooke M, Barker J, Cunningham S, et al. An audio-visual corpus for speech perception and automatic speech recognition[J]. The Journal of the Acoustical Society of America, 2006, 120(5): 2421−2424 doi: 10.1121/1.2229005
[60] Cao Houwei, Cooper D G, Keutmann M K, et al. Crema-d: Crowd-sourced emotional multimodal actors dataset[J]. IEEE Transactions on Affective Computing, 2014, 5(4): 377−390 doi: 10.1109/TAFFC.2014.2336244
[61] Wang Kaisiyuan, Wu Qianyi, Song Linsen, et al. Mead: A large-scale audio-visual dataset for emotional talking-face generation[C]//Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2020: 700−717
[62] Wuu C, Zheng Ningyuan, Ardisson S, et al. Multiface: A dataset for neural face rendering[J]. arXiv preprint, arXiv: 2207.11243, 2022
[63] Wu Sijing, Li Yunhao, Zhang Weitian, et al. SingingHead: A large-scale 4D dataset for singing head animation[J]. arXiv preprint, arXiv: 2312.04369, 2023
[64] Chung J S, Zisserman A. Lip reading in the wild[C]//Proc of the 13th Asian Conf on Computer Vision. Berlin: Springer, 2017: 87−103
[65] Nagrani A, Chung J S, Zisserman A. Voxceleb: A large-scale speaker identification dataset[J]. arXiv preprint, arXiv: 1706.08612, 2017
[66] Afouras T, Chung J S, Senior A, et al. Deep audio-visual speech recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 44(12): 8717−8727
[67] Afouras T, Chung J S, Zisserman A. LRS3-TED: A large-scale dataset for visual speech recognition[J]. arXiv preprint, arXiv: 1809.00496, 2018
[68] Chung J S, Nagrani A, Zisserman A. Voxceleb2: Deep speaker recognition[J]. arXiv preprint, arXiv: 1806.05622, 2018
[69] Yang Shuang, Zhang Yuanhang, Feng Dalu, et al. LRW−1000: A naturally-distributed large-scale benchmark for lip reading in the wild[J]. arXiv preprint, arXiv: 1810.06990, 2018
[70] Zhang Zhimeng, Li Lincheng, Ding Yu, et al. Flow-guided one-shot talking face generation with a high-resolution audio-visual dataset[C]//Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 3661−3670
[71] Zhu Hao, Wu W, Zhu Wentao, et al. CelebV-HQ: A large-scale video facial attributes dataset[C]//Proc of the 17th European Conf on Computer Vision. Berlin: Springer, 2022: 650−667
[72] Xie Liangbin, Wang Xintao, Zhang Honglun, et al. Vfhq: A high-quality dataset and benchmark for video face super-resolution[C]//Proc of the 35th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 657−666
[73] Dao T T, Vu D H, Pham C, et al. EFHQ: Multi-purpose ExtremePose-Face-HQ dataset[C]//Proc of the 37th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2024: 22605−22615
[74] Hore A, Ziou D. Image quality metrics: PSNR vs SSIM[C]//Proc of the 20th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2366−2369
[75] Wang Zhou, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600−612 doi: 10.1109/TIP.2003.819861
[76] Narvekar N D, Karam L J. A no-reference image blur metric based on the cumulative probability of blur detection (CPBD)[J]. IEEE Transactions on Image Processing, 2011, 20(9): 2678−2683 doi: 10.1109/TIP.2011.2131660
[77] Heusel M, Ramsauer H, Unterthiner T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium[J]. arXiv preprint, arXiv: 1706.08500, 2017
[78] Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 586−595
[79] 孙瑜,朱欣娟. 改进 Wav2Lip 的文本音频驱动人脸动画生成[J]. 计算机系统应用,2024,33(2):276−283 Sun Yu, Zhu Xinjuan. Text audio driven facial animation generation based on improved Wav2Lip[J]. Computer Systems & Application, 2024, 33(2): 276−283 (in Chinese)
[80] Yang Xin, Li Yuezun, Lyu S. Exposing deep fakes using inconsistent head poses[C]//Proc of the 44th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE , 2019: 8261−8265
[81] Matern F, Riess C, Stamminger M. Exploiting visual artifacts to expose deepfakes and face manipulations[C]//Proc of the 2019 IEEE/CVF Winter Conf on Applications of Computer Vision Workshops. Piscataway, NJ: IEEE , 2019: 83−92
[82] Li Lingzhi, Bao Jianmin, Zhang Ting, et al. Face X-ray for more general face forgery detection[C]//Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 5001−5010
[83] Tan Chuangchuang, Liu Huan, Zhao Yao, et al. Rethinking the up-sampling operations in CNN-based generative network for generalizable deepfake detection[J]. arXiv preprint, arXiv: 2312.10461, 2023
[84] 韦争争. 基于局部纹理差异特征增强的Deepfake检测方法[J/OL]. 重庆工商大学学报:自然科学版,1−8[2024-03-01] . http://kns.cnki.net/kcms/detail/50.1155.N.20231127.1137.008.html Wei Zhengzheng. Deepfake detection based on local texture difference feature enhancement[J/OL]. Journal of Chongqing Technology and Business University: Natural Sciences Edition, 1−8[2024-03-01]. http://kns.cnki.net/kcms/detail/50.1155.N.20231127.1137.008.html (in Chinese)
[85] Yang Jianwei, Lei Zhen, Li S Z. Learn convolutional neural network for face anti-spoofing[J]. arXiv preprint, arXiv: 1408.5601, 2014
[86] Rossler A, Cozzolino D, Verdoliva L, et al. Faceforensics++: Learning to detect manipulated facial images[C]//Proc of the 17th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 1−11
[87] Tan Mingxing, Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks[C]//Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 6105−6114
[88] Li Yuezun, Lyu S. Exposing deepfake videos by detecting face warping artifacts[J]. arXiv preprint, arXiv: 1811.00656, 2018
[89] Zhao Hanqing, Zhou Wenbo, Chen Dongdong, et al. Multi-attentional deepfake detection[C]//Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 2185−2194
[90] Cao Junyi, Ma Chao, Yao Taiping, et al. End-to-end reconstruction-classification learning for face forgery detection[C]//Proc of the 35th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 4113−4122
[91] Wodajo D, Atnafu S, Akhtar Z. Deepfake video detection using generative convolutional vision transformer[J]. arXiv preprint, arXiv: 2307.07036, 2023
[92] Yan Zhiyuan, Zhang Yong, Fan Yanbo, et al. UCF: Uncovering common features for generalizable deepfake detection[J]. arXiv preprint, arXiv: 2304.13949, 2023
[93] Koopman M, Rodriguez A M, Geradts Z. Detection of deepfake video manipulation[C]//Proc of the 20th Irish Machine Vision and Image Processing Conf. Dublin, Ireland: IPRCS, 2018: 133−136
[94] Fernandes S, Raj S, Ortiz E, et al. Predicting heart rate variations of deepfake videos using neural ode[C]//Proc of the 17th IEEE/CVF Int Conf on Computer Vision Workshops. Piscataway, NJ: IEEE, 2019: 1721−1729
[95] Qi Hua, Guo Qing, Xu J F, et al. Deeprhythm: Exposing deepfakes with attentional visual heartbeat rhythms[C]//Proc of the 28th ACM Int Conf on Multimedia. New York: ACM, 2020: 4318−4327
[96] Amerini I, Galteri L, Caldelli R, et al. Deepfake video detection through optical flow based cnn[C]//Proc of the 17th IEEE/CVF Int Conf on Computer Vision Workshops. Piscataway, NJ: IEEE, 2019: 1205−1207
[97] Knafo G, Fried O. FakeOut: Leveraging out-of-domain self-supervision for multi-modal video deepfake detection[J]. arXiv preprint, arXiv: 2212.00773, 2022
[98] Wang Tianyi, Chow K P. Noise based deepfake detection via multi-head relative-interaction[C]//Proc of the 37th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2023: 14548−14556
[99] Li Yuezun, Chang M C, Lyu S. In ictu oculi: Exposing ai created fake videos by detecting eye blinking[C/OL]//Proc of the 10th IEEE Int Workshop on Information Forensics and Security. Piscataway, NJ: IEEE, 2018[2024-3-15]. https://ieeexplore.ieee.org/document/8630787
[100] Liu Weifeng, She Tianyi, Liu Jiawei, et al. Lips are lying: Spotting the temporal inconsistency between audio and visual in lip-syncing deepfakes[J]. arXiv preprint, arXiv: 2401.15668, 2024
[101] Koeshunov P, Marcel S. Deepfakes: A new threat to face recognition?Assessment and detection[J]. arXiv preprint, arXiv: 1812.08685, 2018
[102] Sanderson C. The VidTIMIT Database[DB/OL].[2024-07-08]. http://conradsanderson.id.au/vidtimit/
[103] Dolhansky B, Bitton J, Pflaum B, et al. The deepfake detection challenge (dfdc) dataset[J]. arXiv preprint, arXiv: 2006.07397, 2020
[104] Jiang Liming, Li Ren, Wu W, et al. Deeperforensics−1.0: A large-scale dataset for real-world face forgery detection[C]//Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 2889−2898
[105] Zhou Tianfei, Wang Wenguan, Liang Zhiyuan, et al. Face forensics in the wild[C]//Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 5778−5788
[106] He Yinan, Gan Bei, Chen Siyu, et al. Forgerynet: A versatile benchmark for comprehensive forgery analysis[C]//Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 4360−4369
[107] Korshunov P, Marcel S. Improving generalization of deepfake detection with data farming and few-shot learning[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2022, 4(3): 386−397 doi: 10.1109/TBIOM.2022.3143404
[108] McCool C, Marcel S, Hadid A, et al. Bi-modal person recognition on a mobile phone: using mobile phone data[C]///Proc of the 2012 IEEE Int Conf on Multimedia and Expo Workshops. Piscataway, NJ: IEEE, 2012: 635−640
[109] Li Gen, Zhao Xianfeng, Cao Yun, et al. Fmfcc-v: An asian large-scale challenging dataset for deepfake detection[C]//Proc of the 10th ACM Workshop on Information Hiding and Multimedia Security. New York: ACM, 2022: 7−18
[110] Dagar D, Vishwakarma D K. Div-Df: A diverse manipulation deepfake video dataset[C/OL]//Proc of the 2023 Global Conf on Information Technologies and Communications. Piscataway, NJ: IEEE, 2023[2024-03-15]. https://ieeexplore.ieee.org/document/10426446
[111] Narayan K, Agarwal H, Thakral K, et al. Df-platter: Multi-face heterogeneous deepfake dataset[C]//Proc of the 36th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2023: 9739−9748
[112] Cai Zhixi, Ghosh S, Adatia A P, et al. AV-Deepfake1M: A large-scale LLM-driven audio-visual deepfake dataset[J]. arXiv preprint, arXiv: 2311.15308, 2023
[113] 董琳,黄丽清,叶锋. 人脸伪造检测泛化性方法综述[J]. 计算机科学,2022,49(2):12−30 Dong Lin, Huang Liqing, Ye Feng, et al. Survey on generalization methods of face forgery detection[J]. Computer Science, 2022, 49(2): 12−30 (in Chinese)
[114] Carlini N, Farid H. Evading deepfake-image detectors with white-and black-box attacks[C]//Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition Workships. Piscataway, NJ: IEEE, 2020: 658−659