Synergistic Optimization Method for Adaptive Hierarchical Federated Learning in Hetero-geneous Edge Environments
-
摘要:
传统联邦学习在应用中面临设备异构、数据异构、通信资源约束等挑战. 终端设备异构导致训练过程中过低的协作效率,而数据异构包括数据量和数据特征分布异构则导致全局模型精度损失以及模型缺少泛化性. 为了有效利用终端的计算、通信以及数据资源,提出了一种自适应优化的分层联邦学习方法. 该方法在考虑设备硬件资源约束,通信资源约束以及数据非独立同分布特性下,结合模型分割和客户端选择技术加速联邦学习训练,提高模型准确率以及在不同异构环境下的适应性. 为了反映各客户端数据对全局模型的一致性影响,引入数据贡献度以度量本地模型对全局模型的影响. 通过深度强化学习方法,在每一轮训练前智能体根据系统的资源分布以及本地数据贡献度来学习如何选择合理的训练客户端集合及相应边端协同模型划分方案,以加速本地训练及全局模型收敛. 仿真结果表明,与基线算法相比,所提算法在模型精度与训练效率2个方面均表现出显著优势,且在不同异构环境配置下显示出良好的鲁棒性及适应性.
Abstract:Traditional Hierarchical Federated Learning (HFL) encounter significant challenges in real world due to device heterogeneity, data heterogeneity (e.g., variations in data volume and feature distribution), and communication resource constraints. Device heterogeneity results in inefficient cross-device collaboration during model training, whereas data heterogeneity induces accuracy degradation and diminished generalization capabilities in the global model. To address these limitations while maximizing the utilization of computational, communication, and data resources in the heterogeneous edge networks, we propose an adaptive synergistic method for hierarchical federated learning. This method synergistically integrates model partitioning and client selection under hardware resource constraints, communication bottlenecks, and non-independent and identically distributed (Non-IID) data conditions to accelerate federated learning training while enhancing model accuracy and adaptability across heterogeneous environments. To quantify the influence of local datasets on global model convergence, a data contribution metric is introduced to evaluate the consistency of client contributions. Furthermore, by integrating Deep Reinforcement Learning (DRL) with real-time resource monitoring and data contribution quantification, the DRL agent dynamically optimizes client selection and edge-cloud collaborative model partitioning strategies prior to each training iteration. This adaptive mechanism leverages system resource availability (e.g., bandwidth, device status) and local data contribution scores to derive optimal policies, thereby accelerating training convergence and enhancing global model accuracy. Simulation results demonstrate that the proposed method achieves significant improvements in model accuracy and training efficiency compared with baseline algorithms, while exhibiting robust adaptability across diverse heterogeneous environment configurations.
-
近年来,随着高质量法律文本的获取,各种自然语言处理技术已经被应用到智能司法领域[1],法律文本挖掘已经成为一个重要的研究主题. 作为智能司法最重要的任务之一,法律判决预测(legal judgment prediction, LJP)旨在基于案件事实预测判决结果(如法律条款、罪名和适用的指控). 早期对LJP的研究集中在统计解决方案上[2],而最近的研究将LJP任务视为一个特定的分类问题. 已经有各种文本分类方法被应用于解决LJP任务[3].
虽然当前研究成果在处理单被告案件方面已取得显著进展,但面对涉及多名被告的案件时,这些方法的适用性受到限制. 案件涉及众多被告的情形对于法律判决的预测任务极其重要. 根据数据显示,不少于30%的案例牵涉到多个被告[3]. 正如图1(a)(b)所示,涉及多被告的案件复杂度主要体现在多个被告之间复杂的互动关系以及各自不同的犯罪活动上. 因此,预测涉及多被告的案件结果相比仅有单一被告的案件,面临更多的挑战. 目前,大部分研究关注于仅包含单一被告的案件,即案件中只有一个被告人. 然而,这种针对单一被告的预测模式在现实应用中遇到了限制. 不同于针对单一被告的法律判决预测,多被告案件的预测旨在预测案件中每位被告所适用的法律条款、所涉罪名以及刑期. 由于案件描述中包含多位被告及其复杂的互动,使用单一被告的预测方法往往难以准确捕捉这些互动细节并预测出每位被告的具体判决结果. 具体来说,多被告案件的法律判决预测面临着一系列挑战,首先是不同被告的判决结果可能会有所差异. 多个被告之间复杂的相互作用导致他们的案件描述内容密切相关,这使得难以区别各被告并准确判定他们的判决结果. 如图1(c)展示,为了明确区分各被告的判决结果,法官需评估被告之间的犯罪联系,判断是否应用同一法律条文和罪名,并考量量刑情节对判决的影响. 该过程需要模型能够模拟人类法官的推理过程,并对复杂的法律逻辑进行模拟[1-2]. 其次,在现实世界中,关于多被告案件的数据集依旧匮乏. 现有的法律判决预测数据集要么专注于单一被告的案件的多个子任务,要么仅覆盖多被告案件中的特定罪名任务. 例如,文献[4]发布的CAIL数据集是面向法律判决预测的重要资源,但限于单被告情形. 而文献[1]虽对多被告案件中的罪名任务进行标注,却没有包含判定多被告判决结果所需的犯罪关系和量刑情节等关键信息. 为了推动这一领域的研究进展,迫切需要建立一个反映真实场景、包含完整判决链信息的多被告案件的法律判决预测数据集.
为了解决以上挑战,本文收集了一个真实世界的包含判决链的多被告法律判决预测数据集(chain of judgment based multi-defendant legal judgement prediction dataset, COJ-MLJP). 该数据集由以下3个特点构成:1)该数据集包含了
23717 个多被告案例和80477 名被告者,使其成为最大的专业人员注释的多被告法律判决预测数据集;2)由于89.58%的案件中,不同被告在多被告法律判决预测任务的至少一个子任务中拥有不同的判决结果,因此多被告法律判决预测要求对每个被告的判决结果进行准确区分,这使得本文提出的多被告法律判决预测数据集与现有的单一被告案件数据集有所不同;3)本文提供了多被告法律判决数据集的判决链标注信息,其中包括2类犯罪关系、8类量刑情节、22类法条、23类罪名和11类刑期,为后续研究进一步提升多被告法律判决预测效果提供了有力支持.此外,本研究对多被告法律判决预测数据集进行了全面分析,包括法条分布、罪名分布、刑期分布、犯罪关系、量刑情节、文本长度及被告人数等多个维度. 结果显示,法条和罪名分布呈现长尾现象,其中部分法条和罪名出现频率极高,而多数则相对较低. 具体而言,“法条303”“开设赌场罪”及短期刑期在其相应分类中占比最大,反映了某些法律应用的集中趋势. 此外,大多数案件中被告之间没有直接的犯罪合作关系,但存在不小比例的案件涉及犯罪合作或帮助行为. 量刑情节分析揭示了“坦白”“从犯”“累犯”为减刑考虑的主要情节,同时案件描述的长度和被告人数分布也对法律判决预测方法提出了挑战. 多被告案件中不同被告的判决结果存在显著差异,基于判决链的分析进一步表明,通过犯罪关系和量刑情节,法官能够在大多数情况下区分不同的判决结果.
最后,基于以上数据集,本文提出了一种基于判决链的法律判决预测方法(chain-of-judgment, COJ). 具体而言,该方法包含判决链生成和判决链对比2种策略. 判决链生成策略通过显式生成判决链来区分不同被告的判决结果. 具体而言,判决链首先预测被告之间的关系,并确定每个被告的量刑情节,然后按照顺序预测法律条文、罪名、刑期. 由于生成式语言模型在推理方面表现出色[5-6],本文将这些推理链转化为文本生成任务,并利用大型语言模型Qwen-7B-Chat[7]进行建模. 此外,判决链对比策略通过比较判决链标签和易混淆错误判决链来避免模型预测易混淆的错误判决结果. 具体来说,我们基于判决链生成训练后的模型大型语言模型,通过提升判决链标签的生成概率,降低易混淆错误判决链的生成概率.
为了评估多被告法律判决预测数据集的挑战,本文实现了最先进的法律判决预测方法和预训练模型,并在各种设置下对多被告法律判决预测数据集进行了彻底的实验. 实验结果表明,现有方法的性能在多被告法律判决预测数据集上表现不佳,这表明任务多被告者法律判决预测比单犯罪者法律判决预测更具挑战性. 基于判决链的法律判决预测方法能显著优于基准方法,显示出判决链在多被告法律判决预测中的关键作用. 此外,本文提出的基于判决链的法律判决预测方法能够泛化到单被告法律判决预测任务.
1. 相关工作
早期的法律判决预测研究主要侧重于基于规则的方法[9-11]和机器学习方法[12-14]. 但近些年,基于神经网络的技术,尤其是在LJP子任务的依赖关系建模[2-3,15]、法律领域知识的利用[16-21]、标签信息的集成[22-27],以及预训练语言模型的应用[28-30]方面,都取得了显著的进步. 在处理多被告案件时,MAMD[1]利用多尺度注意力机制来区分不同被告的复杂事实描述,从而更准确地预测每个被告的指控. 尽管如此,大多数现有的单一被告LJP技术都忽略了多被告之间的相互影响. 相对于MAMD[1],本研究首先形式化了多被告判决过程,并且收集了包含判决链标注的多被告法律判决预测数据集,并训练生成型语言模型基于判决链预测多被告判决结果,从而更精确地区分不同被告的判决结果.
此外,通过对语言模型进行训练或微调来生成中间步骤的多步推理已被证明可以优化性能[5-6,31-36]. 例如,文献[32]在2017年使用生成的自然语言中间步骤来解决数学文字问题;文献[33]于2018年通过人工注释的自然语言解释扩展了自然语言推理数据集;文献[34]于2019年提出了生成常识问答任务模型预测的核心逻辑;文献[35-36]在2021年利用生成多步解和中间计算结果来解决各自的问题. 最近,在2022年,文献[37]引入了思维链提示,为大型语言模型提供了逐步推理样例,无需进一步微调即可提高其性能.
然而,这些之前的方法尚未专为法律推理的实际应用进行优化大型语言模型[38]. 因此,本构建并分析了包含判决链的多被告法律判决预测数据集,并利用大型语言模型建模多被告LJP任务的判决链. 此外,我们提出了通过进行判决链对比降低模型生成易混淆判决结果的概率,从而进一步增强其在法律判决预测任务上的表现.
2. 数据集构建
在本节中,本文首先对现有数据集进行了全面的调查,并揭示了现有法律判决预测集的局限性,表1显示了不同法律判决预测数据集的比较. 然后,本文详细描述了多被告法律判决预测数据集的标注和构建过程.
表 1 中文法律判决预测数据集对比Table 1. Comparison of Chinese Legal Judgement Prediction Datasets数据集 法律领域 法条 罪名 刑期 单/多被告 判决链 CAIL2018 刑事 √ √ √ 单被告 × CAIL-Long 刑事和民事 √ √ √ 单被告 × QAjudge 刑事 √ √ √ 单被告 × FLA 刑事 × √ × 单被告 × RACP 刑事 × √ × 单被告 × Criminal 刑事 × √ × 单被告 × MAMD 刑事 × √ × 多被告 × COJ-MLJP(本文) 刑事 √ √ √ 多被告 √ 2.1 现有中文法律判决预测数据集
现有的中文法律判决预测数据集CAIL2018[4],CAIL-long[30],QAjudge[17],FLA[22],RACP[16],Criminal[19],MAMD[1]等为智能司法的发展做出了巨大贡献,但仍存在局限性. 首先,它们主要关注单被告刑事案件或者多被告的罪名预测子任务,忽视了多被告法律判决预测任务. 这与实际情况并不相符,因此迫切需要一个多被告法律判决预测的数据集. 其次,尽管这些数据集提供了关键的判决标签,但它们并没有包含判决链信息. 从法律角度考虑,任何判决结果的成立都应基于法官的详细的判决过程. 忽略这一判决过程不仅可能损害司法公正,还可能影响法律判决预测系统的准确性与解释性.
2.2 数据筛选
本文的数据集来自中国政府网站中国裁判文书网,该网站在之前的工作中广泛使用[4,17,30]. 为了构建数据集,本文首先使用正则表达式从裁判文书中中提取多个被告姓名. 随后,每个文档被分为犯罪事实描述和法院判决意见2个部分,在本文中仅保留犯罪事实描述. 本文过滤掉少于150个字符的犯罪事实描述案例.
2.3 数据标注
与先前的研究[4]不同,本文没有使用正则表达式来标注数据标签并且本文的数据集包括了犯罪关系和量刑情节的标注. 具体来讲,犯罪关系是指是指一名被告人在犯罪过程中是否协助其他同案犯的关系,其中包括包括无犯罪关系和帮助关系;量刑情节是指影响量刑轻重的具体行为或因素,其中包括“坦白”“从犯”“累犯”“自首”“立功”“犯罪未遂”“聋哑或盲人”“年龄大于75岁”.
本研究聘请了8名专业标注员,他们为每位被告手动标注了法律条文、罪名、刑期、犯罪关系和量刑情节. 这些标注员都是中文母语者,且都已通过中国法律职业人员统一资格考试. 为确保标注的一致性,所有数据都经过了2名标注员的多轮审核,确保消除潜在的偏见. 考虑到数据准确性,本研究只包括1审案件,而排除了2审和再审案件. 为保护隐私,所有涉及敏感信息的部分(如姓名、地点等)均已匿名化,以降低潜在的社会偏见风险[40]. 经过精细的预处理和人工标注,数据集共包括23 717个多被告案例和80 477名被告者.
3. 数据集分析
3.1 法条分布分析
在数据集中,多被告案件法条分布往往存在长尾分布现象. 如图2(a) 所示,各个法条在判决结果中的出现频率和占比有较大的不同. 在数据集的所有法条中,“法条303”出现的最频繁,数量达到
27590 次,占总数的32.24%. 而“法条264”和“法条347”分别以17.61%和12.62%的占比排在第2和第3位. 以上3个法条共同占据了整体数据的62%左右,显示出在法律判决中,这些法条的应用相对较为集中. 此外,还有一些法条出现的频率较低,例如“法条385”“法条345”“法条238”等,它们的数量均少于100次,占总体的比例也不足0.1%. 特别是“法条274”和“法条388”,只有13次出现,占比为0.015%.3.2 罪名分布分析
在数据集中,多被告案件罪名分布往往存在长尾分布现象. 如图2(b) 所示,23个罪名中“开设赌场罪”出现的最为频繁,数量高达22 124次,占总数的25.77%. 接下来是“盗窃罪”和“贩卖毒品罪”,它们分别有
15125 次(占比17.61%)和10807 次(占比12.59%). 这3个罪名共同占据了整体数据的56%左右,显示在法律判决中,这些罪名的案件数量相对较多. 与此相对,有些罪名在数据集中的出现频率较低,如“敲诈勒索罪”“窝藏、转移毒品罪”“盗伐林木罪”等,它们的数量都不超过100次,占比均小于0.1%.3.3 刑期分布分析
在数据集中,短期刑期的判决数量较多,而随着刑期的增加,判决数量逐渐减少. 如图2 (c)所示,短期刑期在数据集中的比例相当高.1~2年的刑期是出现次数最多的,达到16 779次,占比为20.85%. 其次,6~9个月、9~12个月和0~6个月的刑期紧随其后,分别有13 834次、13 695次和13 619次,占比分别为17.19%,17.02%,16.92%. 这4个时间段合计占据了数据的近72%,表明在此数据集中,短期刑期的判决占据了绝大多数. 相较之下,中长期到长期的刑期(如2~3年、3~5年、5~7年、7~10年和10~20年)的判决次数明显较少. 其中,2~3年的刑期有7 071次,占比为8.79%;3~5年的刑期有6 319次,占比为7.85%. 超过10年的刑期的判决数量进一步减少,特别是20年以上的刑期,只有1 143次,占比为1.42%. 此外,最为严重的判决,即无期徒刑和死刑,在数据集中的数量极为稀少,只有144次,占比仅为0.18%.
3.4 犯罪关系分布分析
如图2 (d)所示,犯罪关系主要分为2种:无关系和帮助关系. “无关系”的被告数量为
52153 ,占比高达64.80%. 这意味着在该数据集中,大部分的判决案例中,被告之间没有直接的犯罪合作或互助行为,可能是单独犯罪或者没有明确的帮助关系. 相对的,“帮助关系”的被告数量为28324 ,占比为35.20%. 这说明在这部分案件中,存在一定的犯罪合作或者某个被告帮助或协助另一名被告进行犯罪行为.3.5 量刑情节分布分析
如图2(e) 所示,“坦白”是数量最多的量刑情节,有
41549 次,占比高达43.38%. 这可能意味着在判决中,当事人对其犯罪行为表示坦白承认时,会被作为一个主要的减刑情节考虑. 接着是“从犯”和“累犯”,分别有18688 次(占比19.51%)和16623 次(占比17.35%). 这2个量刑情节的占比也较高,显示在法律判决中,被认定为从犯或有累犯记录的当事人相对较多. “自首”量刑情节有14487 次,占比15.12%. 这表明自愿投案并如实供述犯罪的当事人数量也不少,而且这在量刑时是一个积极的情节. 而像“立功”“犯罪未遂”这些情节的数量相对较少,尤其是“立功”只有3048 次,占比3.18%,而“犯罪未遂”则更少,只有1209 次,占比1.26%. 最后,“聋哑或盲人”和“年龄大于75岁”这2个特定情境的量刑情节在数据集中极为稀少,分别只有135次(占比0.14%)和46次(占比0.048%). 这可能表示这2种量刑情节在实际判决中出现的概率较低.3.6 文本长度分析
多被告法律判决预测数据集中的案件描述往往比单被告案件描述更长. 如图2 (f)所示,每个案件描述的长度分布如下:41.60%的案件描述长度在
2000 字以上,42.99%的案件描述长度在1000 ~2 000字之间,15.29%的案件描述长度在500~1000 字之间,0.11%的案件描述长度在500字以下. 平均的多被告案件描述长度为3041 字,这给现有的法律判决预测方法带来了挑战.3.7 被告人数分析
多被告法律判决预测数据集仅包含多被告案件. 每个案件中的被告人数分布如下:49.40%的案件涉及2名被告,21.41%的案件涉及3名被告,11.22%的案件涉及4名被告,而有17.97%的案件则涉及4名以上的被告. 在整个多被告法律判决预测数据集中,共有
80477 名被告. 平均而言,每个多被告案件涉及3.4名被告.3.8 多被告判决结果分析
在89.58%的案件中,被告在多被告LJP任务的至少1个子任务上得出不同的判决结果. 具体而言,有18.91%的案件中,不同被告人适用不同的法律条文;26.80%的案件中,不同被告人被指控不同的罪名;而88.54%的案件中,不同被告人被判处不同的刑期.
3.9 基于判决链的判决结果分析
根据犯罪关系和量刑情节判决链信息,理论上法官可以在69.73%的被告人中区分出不同的判决结果(法条、罪名和刑期). 具体而言,根据犯罪关系,法官可以在70.28%的被告人中区分不同法条;而根据量刑情节,法官可以在96.28%的被告人中区分不同刑期.
4. 研究方法
4.1 问题定义
本文首先提出了多被告LJP任务. 在多被告案件中,事实描述可以被视为一个词序列x={w1,w2,…,wn},其中n代表词的数量. 每个多被告案件都涉及一组被告姓名E={e1,e2,…,e|E|},其中每个名称是一个词序列e={w1,w2,…,w|e|}. 在给定多被告案件的事实描述x和被告姓名e的情况下,多被告任务的目标在于预测多个法律条文、多个罪名和单个刑期的判决结果. 其中,法条预测和罪名预测是多标签分类问题,刑期预测则是多分类问题. 本文还引入了犯罪关系和量刑情节作为中间任务,以建立多被告法律判决预测的判决链,并改进对主要判决结果的预测. 这2个中间任务同样是多标签分类问题. 本文将犯罪关系、量刑情节、法条、罪名和刑期的标签分别表示为词序列yr,ys,yl,yc,yt.
4.2 文本生成
从文本生成的角度出发,每个任务可以被建模为根据事实描述、特定被告姓名和特定任务描述来预测最优标签序列y的条件概率最大化问题,计算公式如下:
p(y|x,e,d)=m∏i=1p(yi|y1,y2,…,ym−1,x,e,d), (1) 其中m表示标签序列的长度,而具体任务描述d 则提供Seq2Seq生成模型执行所需任务的语义线索. 为了完成Seq2Seq生成任务,本文采用了Seq2Seq生成式语言模型[7],具体表述如下:
ˆy=DEC(x,e,d), (2) 其中DEC表示生成式模型的解码器,ˆy为由单词组成的预测结果. 在构建解码器的输入时,本文采用特殊的[SEP]标记来分隔不同信息.
4.3 基于判决链的法律判决预测
4.3.1 判决链生成
为了区分不同被告的不同判决结果,本文设计了判决链生成策略. 如图3所示,COJ按照判决链的方式来确定每个被告的犯罪关系、量刑情节、法律条文、罪名、刑期. 多被告判决链法律判决预测方法首先根据事实描述、被告姓名和多被告判决任务描述dCOJ来确定被告之间的关系和量刑情节,最后依次预测法律条文、罪名、刑期,具体表述如下:
ˆyCOJ=DEC(x,e,dCOJ), (3) 其中ˆyCOJ为多被告判决链预测结果(犯罪关系、量刑情节、法条、罪名、刑期). 为了训练生成式模型
能够按照判决链进行推理判决,本文通过模板将犯罪关系yr、量刑情节ys、法条yl、罪名yc和刑期yt标签组合为自然语言描述式的判决预测推理标签:
yCOJ=fformat(yr,ys,yl,yc,yt), (4) 其中fformat(⋅)为标签格式化函数. 由于判决判决链预测被建模为序列到序列生成任务,因此本文遵循2022年Raffel等人[39]的方法,采用标准的最大似然法来训练模型,并计算判决链生成任务的交叉熵损失Lexplicit来训练模型π1.
4.3.2 判决链对比
为了进一步区分易混淆的判决结果,本文设计了判决链对比策略. 如图3所示,COJ通过对比判决链标签和易混淆错误判决链来避免模型预测易混淆的错误判决结果. 具体来说,受到直接偏好优化(direct preference optimization)方法[41]的启发我们基于在显式判决链生成训练后的模型大型语言模型π1,通过提升判决链标签yCOJ的生成概率,降低易混淆错误判决链yCOJ'的生成概率来得到判决链对比损失:
Limplicit=[lnσ(βlnπ2(yCOJ|x,e,dCOJ)π1(yCOJ|x,e,dCOJ)−βlnπ2(yCOJ′|x,e,dCOJ)π1(yCOJ′|x,e,dCOJ))], (5) 其中易混淆错误判决链yCOJ'通过统计验证集易混淆判决结果构造而成. 具体而言,首先通过统计验证集中犯罪关系yr、量刑情节ys、法条yl、罪名yc和刑期yt各自对应的易分类错误标签,然后通过模板将犯罪关系y′r、量刑情节y′s、法条y′l、罪名y′c和刑期y′t合为自然语言描述式的易混淆错误判决链:
yCOJ'=fformat(y′r,y′s,y′l,y′c,y′t). (6) 4.4 推 理
受到自我一致性推理(self-consistency reasoning)方法[42]的启发,在测试时本文首先采样生成K条判决链的预测路径. 最后,本文选择置信度最高的判决预测推理链作为最终的判决结果.
5. 实验结果与分析
5.1 研究问题
本文的目标在于通过实验来回答以下研究问题:1)本文提出的方法COJ在多被告LJP案件中的表现如何. 2)本文提出的方法COJ在单被告LJP案件中的表现如何. 3)移除判决链方法中的不同策略如何影响COJ在多被告LJP中的表现. 4)不同训练集数据量如何影响模型效果.
5.2 基线模型
为了验证本文提出的方法COJ在多被告LJP上的有效性,本文将其与多种方法进行了比较,这些方法可以归纳为以下3组:1)单被告LJP方法,包括Topjudge[2],该方法采用拓扑依赖学习框架,将子任务上的显式依赖形式化为有向无环图;MPBFN[3],利用多个LJP子任务之间的正向和向后依赖关系进行单被告LJP;LADAN[24],一种基于图神经网络的方法,可以自动捕获法律条款之间微小差异;NeurJudge[18],利用中间子任务的结果将事实陈述划分为不同情况,并用于其他子任务的预测. 2)预训练语言模型,包括BERT[43],基于Transformer的方法,在中文维基百科文档上进行预练;Lawformer[30],基于Transformer的方法,对大规模的中国法律长案例文件进行预训练. 3)多被告罪名预测方法,包括MAMD[1],利用多尺度注意力来识别不同被告的事实描述.
5.3 实验设置
为了适应多被告事实描述的长度,本文将最大事实长度设置为2 048. 由于模型输入的限制,BERT的输入长度被限制为512.在训练过程中,本文采用了AdamW[43]优化器,初始学习率为5×10-5. 批大小设置为16,并采用梯度累积策略. 论文中使用的生成式语言模型为Qwen-7B-Chat[7],其使用了自回归语言建模目标函数,经过了大规模中英文数据的预训练. Qwen-7B-Chat判决链生成策略训练了3个epoch,判决链对比策略训练了1个epoch,其他模型训练最多进行了24个epoch,并选择在验证集上表现最佳的模型. Qwen-7B-Chat基于lora[44]高效微调训练. 此外,本文将推理采样路径数量K和输出长度分别设置为3和128.为了评估性能,本文使用了4个指标:准确性(Acc)、宏观精度(MP)、宏观召回率(MR)和宏观F1(F1). 所有实验都在1台A100显卡上进行.
5.4 多被告判决预测结果
表2展示了针对多被告LJP子任务的评估结果. 总体而言,COJ在所有多被告LJP子任务上表现出了最佳性能. 与目前最先进的单被告LJP方法(如Topjudge,MPBFN,LADAN,NeurJudge)相比,本文的COJ方法考虑了判决链,因此取得了显著的改进. 由于单一被告人法未考虑犯罪关系和量刑情节,无法很好地区分不同被告人之间的判决结果. 这强调了在预测多被告LJP犯罪关系和量刑情节时遵循判决链的重要性. 如表2所示,与预训练模型BERT和Lawformer相比,本文的COJ方法在多被告LJP的所有子任务上都取得了显著的性能提升. 这表明,在微调阶段引入判决链的建模是至关重要的. 与针对多被告指控预测设计的MAMD方法相比,本文的COJ方法在指控预测任务上表现更好. 这表明在实际应用场景中,建模推理链能够提高模型的有效性和鲁棒性.
表 2 多被告者判决预测结果Table 2. Multi-Defendant Legal Judgment Prediction Results% 方法 法条 罪名 刑期 Acc MP MR F1 Acc MP MR F1 Acc MP MR F1 TopJudge 69.32 35.60 39.13 36.93 64.42 24.96 35.28 28.34 28.36 23.16 22.25 22.00 MPBFN 72.47 34.73 34.22 34.35 65.59 32.79 33.20 31.59 28.32 21.59 20.91 20.70 LADAN 54.57 38.09 22.40 26.64 46.62 20.68 32.42 24.74 27.05 24.05 23.43 23.16 NeurJudge 65.21 41.72 36.96 38.15 59.51 34.19 25.36 27.55 30.06 27.56 25.63 25.95 BERT 51.38 34.19 29.68 30.70 44.80 36.800 20.10 25.14 29.60 23.95 22.68 21.55 Lawformer 75.50 36.18 35.33 34.00 65.94 38.97 29.12 32.76 32.37 22.66 20.68 18.30 MAMD - - - - 58.73 33.00 34.15 31.60 - - - - COJ(本文) 80.24* 55.75* 53.95* 53.51* 76.25* 55.98* 55.36* 53.23* 34.41* 34.15* 28.71* 30.02* 注:有显著差距的指标结果用*标记(显著性检测:t 检验,p值小于 0.05),黑体数字表示最佳结果. 5.5 单被告判决预测结果
此外本文还研究了模型在单被告法律判决预测数据集上的泛化性. 具体来讲,本文在单一被告数据集 CAIL2018[4] 上评估了基于判决链的法律判决预测模型和基准模型. 为了确保公平比较,所有模型都直接在 CAIL2018[4]测试集上进行测试,而没有在 CAIL2018[4]训练集上进行微调. 如表3所示,实验结果证明了COJ在单被告法律判决预测数据集上的多个指标上显著超过基准模型,验证了COJ的泛化性和有效性.
表 3 单被告者判决预测结果Table 3. Single-Defendant Legal Judgment Prediction Results% 方法 法条 罪名 刑期 Acc MP MR F1 Acc MP MR F1 Acc MP MR F1 TopJudge 40.71 21.18 24.09 21.14 40.31 26.60 25.02 21.98 18.61 11.37 12.40 11.02 MPBFN 40.53 20.53 19.84 16.25 39.52 19.53 20.24 15.49 18.94 12.24 12.11 10.79 LADAN 71.54 41.96 38.66 37.81 58.17 33.69 45.86 36.99 15.71 14.88 15.59 12.10 NeurJudge 58.47 31.12 29.30 27.49 51.29 26.72 27.05 23.05 19.98 16.02 13.54 12.16 BERT 63.10 25.20 21.36 21.75 24.45 18.95 20.05 16.02 16.02 12.04 14.49 6.92 Lawformer 66.98 28.81 26.88 25.41 66.34 31.03 32.54 27.82 15.76 17.46 17.92 11.33 MAMD - - - - 28.42 9.56 12.86 9.6 - - - - COJ(本文) 72.04* 54.68* 52.02* 50.11* 70.51* 54.51* 53.38* 50.38* 21.93* 18.04* 12.11 10.37 注:有显著差距的指标结果用*标记(显著性检测:t 检验,p值小于 0.05),黑体数字表示最佳结果. 5.6 训练数据量的影响
此外,本文还研究了3个法律判决预测子任务的训练数据量对多被告判决预测任务的影响. 本文比较了 NeurJudge,Lawformer,COJ在训练后的F1 分数. 如图4所示. 本文观察到随着训练数据量的增加,基线和 COJ的性能稳步提高. 此外,随着训练数据量的增加,COJ在很大程度上超越了基线,这体现了本文提出的方法的鲁棒性和有效性.
5.7 消融实验
为了深入分析多被告判决链中不同判决任务在COJ中的作用,本文进行了消融研究. 本文在表4中呈现了在3种不同设置下的结果:1)−COJ生成. 移除方法中的判决链生成任务,直接生成判决结果. 2)−COJ比较. 移除方法中的判决链比较任务. 3)−所有任务. 同时移除判决链生成和比较任务.
表 4 消融实验结果%Table 4. Ablation Study Results方法 法条 罪名 刑期 Acc MP MR F1 Acc MP MR F1 Acc MP MR F1 COJ 80.24 55.75 53.95 53.51 76.25 55.98 55.36 53.23 34.41 34.15 28.71 30.02 −COJ生成 73.23 37.66 34.98 35.64 54.87 35.45 36.68 33.21 32.18 22.45 30.45 23.81 −COJ对比 72.91 37.28 35.71 35.46 64.20 39.90 41.94 39.36 30.21 17.50 22.88 17.95 −所有任务 63.88 32.08 28.71 27.35 52.22 28.02 30.74 27.79 28.24 13.73 17.39 13.40 如表3所示,判决链生成策略和判决链比较策略都对COJ产生了积极影响,去掉任何一个都会降低性能. 具体来讲,消除判决链生成中的犯罪关系和量刑情节会特别在法律条文和罪名预测方面对性能产生负面影响,这说明其对于区分法律条文和罪名是有帮助的;消除判决链比较任务会特别对刑期预测性能产生负面影响,这表明判决链比较任务有助于于区分易混淆的判决从而有助于提升刑期预测的准确性. 当同时移除判决链生成和判决链比较任务时,模型在多被告3个LJP子任务上都表现出了显著的性能下降,实验结果充分证明了判决链生成和比较对于多被告LJP的重要性.
5.8 样例展示
本研究中进行的案例研究旨在深入探索多被告判决链的有效性,特别是在区分多名被告的判决结果方面. 如图5所示,其中包括了2名被告的预测判决结果. 在具体的案例中,被告A并未参与帮助被告B进行的故意杀人犯罪,但被告A却对被告B实施了诈骗. 在尚未明确2名被告之间的犯罪关系和各自的量刑情节时,Neurjudge和MAMD模型更多地关注了围绕被告A的活动,从而错误地将其相关的法律条文、罪名和刑期预测为第232条、故意杀人罪和20个月. 其次,尽管在大量法律数据上经过预训练的模型Lawformer可以准确预测被告A的法律条文和罪名,但是因为没有明确被告A的自首情节,所以仍然将刑期误判为18个月.
与以上的方法不同,通过应用判决链,COJ模型通过确定犯罪关系和量刑情节在预测法律条文、罪名和刑期时展现出了其优越性. 它成功地区分了2名被告的判决结果,准确地为每位被告提供了与其犯罪行为相对应的预测. 此案例研究进一步证明了,当面对多名被告的复杂情况时,判决链方法能够为模型提供更加精确的预测,而不仅仅是基于单一的犯罪行为或被告行为进行预测.
6. 结论和展望
为了促进多被告法律判决预测任务的研究,我们收集了一个大规模的多被告法律判决预测数据集,其特点是需要模型区分不同被告的判决结果. 为了解决这一挑战,我们进一步标注了多被告判决链. 此外,本文对数据集进行了全面而深入的分析,其中包括法条、罪名、刑期、犯罪关系、量刑情节、文本长度、被告人数的数据分布以及多被告判决结果、基于判决链的判决结果的统计分析. 实验结果表明,现有的法律判决预测方法和预训练模型在多被告法律判决预测任务上表现不佳,而基于判决链的多被告法律判决预测方法能显著优于基准方法,显示出判决链在多被告法律判决预测中的关键作用. 未来的工作中将会探索多被告法律判决预测中更加复杂的场景,考虑结合刑法注释中各个犯罪构成的法律要件,并且在判决过程基于大型语言模型[45]显式结合法律知识进行判决预测.
作者贡献声明:吕由钢负责代码运行编写、论文撰写与校对;郝继泰负责模型构思、代码编写与运行、论文撰写;王梓涵负责模型构思、代码编写与运行、论文撰写;高莘负责论文撰写指导;任鹏杰负责论文撰写指导;陈竹敏负责论文撰写指导;马军负责论文撰写指导;任昭春负责对模型构思、代码编写与运行、论文撰写进行全程指导.
-
表 1 主要符号说明
Table 1 Annotations of Main Symbols
符号 符号说明 M,N 边缘服务器、终端设备的数量 Km,ˆKm 与边缘服务器m相连的客户端集合,以及被选中参与训练的客户端集合 Dn,|Dn| 本地数据集及其大小 χ,|χ| 每批次训练的样本以及样本量 L,ln 神经网络层数以及本地局部模型层数 ˆCm,ˆSm 边缘服务器的计算能力以及内存容量 Cn,Sn 终端设备的计算能力以及内存容量 Pm,Pn 边缘服务器以及终端设备的传输功率 Bm,n 边缘服务器m与终端设备n之间的带宽 rn,m,rm,n 上行通道与下行通道之间传输速率 Ωln,ˆΩln 终端以及边缘端局部模型参数 cn,ˆcn 终端和边缘端的计算量 Oln,gln 第l层的前向输出及反向梯度大小 ωtn,ωtm,ωt 终端、边缘端、云端模型参数 表 2 设备硬件性能参数
Table 2 Device Hardware Performance Parameters
设备 算力/GFLOPS 内存或显存/GB 高性能服务器(配备4090) 82600 24 高性能服务器(配备2080Ti) 13400 11 Jetson Xavier NX 845 8 Jetson Nano 250 4 树莓派4B 9.7 4 表 3 通信参数
Table 3 Communication Parameters
参数 设置 终端传输功率/W 0.1 基站传输功率/W 10 信道数量 10 背景噪声功率/dbm −100 基站通信覆盖范围/m 1~ 1000 路径损耗指数 3.7 表 4 不同模型及不同数据集下的训练精度表现
Table 4 Training Accuracy Performance Under Different Models and Different Data Sets
数据集 模型 TFL HFL SplitFed CoopFL FedAdapt ASSHFL CIFAR-10 ResNet50 69.27 72.36 70.49 73.83 74.29 80.17 AlexNet 61.52 64.26 59.65 64.70 64.14 68.83 VGG16 63.14 67.31 62.27 65.92 66.85 72.52 Fashion-
MNISTResNet50 91.34 90.71 83.26 92.13 91.72 93.52 AlexNet 87.19 88.30 85.61 88.36 87.29 90.17 VGG16 89.42 87.62 86.74 89.77 90.08 93.24 注:粗体以及下划线表示最优和次优结果. -
[1] 孙兵,刘艳,王田,等. 移动边缘网络中联邦学习效率优化综述[J]. 计算机研究与发展,2022,59(7):1439−1469 doi: 10.7544/issn1000-1239.20210119 Sun Bing, Liu Yan, Wang Tian, et al. Survey on efficiency optimization of federated learning in mobile edge networks[J]. Journal of Computer Research and Development, 2022, 59(7): 1439−1469 doi: 10.7544/issn1000-1239.20210119
[2] 张雪晴,刘延伟,刘金霞,等. 面向边缘智能的联邦学习综述[J]. 计算机研究与发展,2023,60(6):1276−1295 doi: 10.7544/issn1000-1239.202111100 Zhang Xueqing, Liu Yanwei, Liu Jinxia, et al. Survey on federated learning for edge intelligence[J]. Journal of Computer Research and Development, 2023, 60(6): 1276−1295 doi: 10.7544/issn1000-1239.202111100
[3] Ye Mang, Fang Xiuwen, Du Bo, et al. Heterogeneous federated learning: State-of-the-art and research challenges[J/OL]. ACM Computing Surveys, 2024, 56(3): 1−44. DOI: 10.1145/3625558
[4] Verma DC, Julier S. J, Cirincione G. Federated AI for building AI solutions across multiple agencies[J]. arXiv preprint, arXiv: 1809.10036, 2018
[5] Liu Lumin, Zhang Jun, Song SH., et al. Client-edge-cloud hierarchical federated learning[C/OL]//Proc of the 2020 IEEE International Conference on Communications (ICC). Piscataway, NJ: IEEE, 2020: 1−6[2025-01-05]. DOI: 10.1109/ICC40277.2020.9148862.
[6] Abdellatif AA, Mhaisen N, Mohamed A, et al. Communication-efficient hierarchical federated learning for IoT heterogeneous systems with imbalanced data[J]. Future Generation Computer Systems, 2022, 128: 406−419. doi: 10.1016/j.future.2021.10.016
[7] Wu Wentai, He Ligang, Lin Weiwei, et al. Accelerating federated learning over reliability-agnostic clients in mobile edge computing systems[J/OL]. IEEE Transactions on Parallel and Distributed Systems, 2020: 1−1. DOI:10.1109/TPDS. 2020.3040867.
[8] Wang Lun, Xu Yang, Xu Hongli, et al. Accelerating decentralized federated learning in heterogeneous edge computing[J/OL]. IEEE Transactions on Mobile Computing, 2022: 1−1. DOI: 10.1109/TMC.2022.3178378.
[9] 黄文柯,叶茫,杜博. 自适应异构联邦学习[J]. 中国图象图形学报,2024,29(7):1849−1860. doi: 10.11834/jig.230239 Huang Wenke, Ye Mang, Du Bo. Adaptive heterogeneous federated learning[J]. Journal of Image and Graphics, 2024, 29(7): 1849−1860. doi: 10.11834/jig.230239
[10] 唐晓岚,梁煜婷,陈文龙. 面向非独立同分布数据的车联网多阶段联邦学习机制[J]. 计算机研究与发展,2024,61(9):2170−2184. doi: 10.7544/issn1000-1239.202330885 Tang Xiaolan, Liang Yuting, Chen Wenlong. Multi-stage federated learning mechanism for non-IID data in Internet of vehicles[J]. Journal of Computer Research and Development, 2024, 61(9): 2170−2184. doi: 10.7544/issn1000-1239.202330885
[11] Diao Enmao, Ding Jie, Tarokh V. HeteroFL: Computation and communication efficient federated learning for heterogeneous clients[J]. arXiv preprint, arXiv: 2010. 01264, 2021
[12] 刘艳,王田,彭绍亮,等. 基于边缘的联邦学习模型清洗和设备聚类方法[J]. 计算机学报,2021,44(12):2515−2528 doi: 10.11897/SP.J.1016.2021.02515 Liu Yan, Wang Tian, Peng Shaoliang, et al. Federated learning model cleansing and device clustering method based on edge computing[J]. Chinese Journal of Computers, 2021, 44(12): 2515−2528 doi: 10.11897/SP.J.1016.2021.02515
[13] 王汝言,陈伟,张普宁,等. 异构物联网下资源高效的分层协同联邦学习方法[J]. 电子与信息学报,2023,45(8):2847−2855 doi: 10.11999/JEIT220914 Wang Ruyan, Chen Wei, Zhang Puning, et al. Resource-efficient hierarchical collaborative federated learning for heterogeneous IoT[J]. Journal of Electronics & Information Technology, 2023, 45(8): 2847−2855 doi: 10.11999/JEIT220914
[14] 钟正仪,包卫东,王吉,等. 一种面向云边端系统的分层异构联邦学习方法[J]. 计算机研究与发展,2022,59(11):2408−2422 doi: 10.7544/issn1000-1239.20220458 Zhong Zhengyi, Bao Weidong, Wang Ji, et al. A hierarchical heterogeneous federated learning method for cloud-edge-end systems[J]. Journal of Computer Research and Development, 2022, 59(11): 2408−2422 doi: 10.7544/issn1000-1239.20220458
[15] 高雨佳,王鹏飞,刘亮,等. 基于注意力增强元学习网络的个性化联邦学习方法[J]. 计算机研究与发展,2024,61(1):196−208 doi: 10.7544/issn1000-1239.202220922 Gao Yujia, Wang Pengfei, Liu Liang, et al. Personalized federated learning method based on attention-enhanced meta-learning network[J]. Journal of Computer Research and Development, 2024, 61(1): 196−208 doi: 10.7544/issn1000-1239.202220922
[16] Mishra R, Gupta HP. A model personalization-based federated learning approach for heterogeneous participants with variability in the dataset[J]. ACM Transactions on Sensor Networks, 2024, 20(1): 1−28
[17] Zhang Yingqi, Xia Hui, Xu Shou, et al. AdaptFL: Adaptive federated learning framework for heterogeneous devices[J/OL]. Future Generation Computer Systems, 2025, 165: 107610. DOI: 10.1016/j.future.2024.107610
[18] 贺文晨,郭少勇,邱雪松,等. 基于DRL的联邦学习节点选择方法[J]. 通信学报,2021,42(6):62−71 doi: 10.11959/j.issn.1000-436x.2021111 He Wenchen, Guo Shaoyong, Qiu Xuesong, et al. DRL-based node selection method for federated learning[J]. Journal on Communications, 2021, 42(6): 62−71 doi: 10.11959/j.issn.1000-436x.2021111
[19] 杜甜,陈星延,寇纲,等. 面向云边个性化模型解耦的聚类联邦学习方法[J]. 计算机学报,2025,48(2):407−432 doi: 10.11897/SP.J.1016.2025.00407 Du Tian, Chen Xingyan, Kou Gang, et al. Clustered federated learning for cloud-edge personalized model decoupling[J]. Chinese Journal of Computers, 2025, 48(2): 407−432 doi: 10.11897/SP.J.1016.2025.00407
[20] Qu Zhe, Duan Rui, Chen Lixing, et al. Context-aware online client selection for hierarchical federated learning[J]. IEEE Transactions on Parallel and Distributed Systems, 2022, 33(12): 4353−4367 doi: 10.1109/TPDS.2022.3186960
[21] Sun Qiheng, Li Xiang, Zhang Jiayao, et al. ShapleyFL: Robust federated learning based on Shapley value[C/OL]//Proc of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2023: 2096−2108[2025-01-05]. DOI: 10.1145/3580305.3599500
[22] 莫梓嘉,高志鹏,杨杨,等. 面向车联网数据隐私保护的高效分布式模型共享策略[J]. 通信学报,2022,43(4):83−94 doi: 10.11959/j.issn.1000-436x.2022074 Mo Zijia, Gao Zhipeng, Yang Yang, et al. Efficient distributed model sharing strategy for privacy-preserving in IoV data[J]. Journal on Communications, 2022, 43(4): 83−94 doi: 10.11959/j.issn.1000-436x.2022074
[23] Thapa C, Arachchige PCM, Camtepe S, et al. SplitFed: When federated learning meets split learning[C]//Proc of the AAAI Conf on Artificial Intelligence. New York: ACM, 2022, 36(8): 8485−8493
[24] Jeon J, Kim J. Privacy-sensitive parallel split learning[C]//Proc of the 2020 International Conference on Information Networking (ICOIN). Piscataway, NJ: IEEE, 2020: 7−9
[25] Turina V, Zhang Zongshun, Esposito F, et al. Federated or split? A performance and privacy analysis of hybrid split and federated learning architectures[C]//Proc of the 2021 IEEE 14th Int Conf on Cloud Computing (CLOUD). Piscataway, NJ: IEEE, 2021: 250−260
[26] Wang Zhiyuan, Xu Hongli, Xu Yang, et al. CoopFL: Accelerating federated learning with DNN partitioning and offloading in heterogeneous edge computing[J/OL]. Computer Networks, 2023, 220: 109490
[27] Wu Di, Ullah R, Harvey P, et al. FedAdapt: Adaptive offloading for IoT devices in federated learning[J]. IEEE Internet of Things Journal, 2022, 9(21): 20889−20901 doi: 10.1109/JIOT.2022.3176469
[28] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84−90 doi: 10.1145/3065386
[29] Shahriar S, Lund B, Mannuru NR, et al. Putting GPT−4o to the sword: A comprehensive evaluation of language, vision, speech, and multimodal proficiency[J]. arXiv preprint, arXiv. 2407.09519, 2024
[30] Zubov D, Kupin A. Performance Evaluation of Raspberry Pi 4B Microcomputer: Case Studies on MPICH Cluster, VMware ESXi ARM fling, and Windows 11 ARM OS[M/OL]. Cham: Springer, 2022[2025-01-05]. https://link.springer.com/10.1007/978-3-031-20834-8_10.
[31] Czaja J, Gallus M, Wozna J, et al. Applying the Roofline model for deep learning performance optimizations[J]. arXiv preprint, arXiv: 2009.11224
[32] Deng Yongheng, Ren Ju, Tang Cheng, et al. A hierarchical knowledge transfer framework for heterogeneous federated learning[C/OL]//Proc of the 2023 IEEE Conf on Computer Communications (INFOCOM). Piscataway, NJ: IEEE, 2023: 1−10[2025-02-26]. DOI: 10.1109/INFOCOM53939.2023.10228954.
[33] Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images[J]. Handbook of Systemic Autoimmune Diseases, 2009, 1(4).
[34] Xiao Han, Rasul K, Vollgraf R. Fashion-MNIST: a novel image dataset for benchmarking machine learning algorithms[J]. arXiv preprint, arXiv: 1708.07747, 2017
[35] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[J]. arXiv preprint, arXiv: 1512.03385, 2015
[36] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint, arXiv: 1409.1556, 2014