-
摘要:
智能司法旨在通过采用各种自然语言处理技术,自动分析法律领域中的文本,已经吸引了自然语言处理社区的极大关注. 作为法律文本挖掘最关键的任务之一,法律判决预测旨在根据法律案件的事实描述,自动预测判决结果(如适用的法律条文、指控和刑罚条款),成为人工智能技术的一个有前景的应用. 然而,现有的法律判决预测方法主要集中在只涉及单一被告的案件上,而忽略了涉及多个被告的案件研究. 在实际的刑事案件中,往往涉及多个被告者,并在他们之间存在着错综复杂的交互关系,现有的单被告法律判决预测技术很难精确区分多被告案件中不同被告的判决结果. 为了加速多被告法律判决预测任务的研究,收集了一个大规模的多被告法律判决预测数据集,其具有以下3个特点:1)数据集是多被告法律判决预测最大的人工标注数据集;2)数据集中的多被告案件需要区分不同被告者的法律判决预测结果;3)数据集中包含了完整的多被告判决链,其中包括犯罪关系、量刑情节、法条、罪名和刑期. 此外,对数据集进行了全面而深入的分析,其中包括法条、罪名、刑期、犯罪关系、量刑情节、文本长度、被告人数的数据分布以及多被告判决结果、基于判决链的判决结果的统计分析. 此外,提出了基于判决链的法律判决预测方法,其中包括判决链生成策略明确生成犯罪事实相关的判决链,判决链对比策略对比正确判决链和易混淆的判决链来进一步提升效果. 实验结果表明,多被告法律判决预测数据集对现有的法律判决预测方法和预训练模型具有挑战性,而基于判决链的法律判决预测方法能显著优于基准方法,显示出判决链在法律判决预测中的关键作用.
Abstract:Legal intelligence aims to analyze texts within the legal domain automatically by employing various natural language processing (NLP) technologies. This field has garnered significant attention from the NLP community. One of the most critical tasks in legal intelligence is Legal Judgment Prediction (LJP). This task seeks to forecast judgment outcomes, such as applicable law articles, charges, and penalties, based on the fact descriptions of legal cases, making it a promising application of artificial intelligence (AI) techniques. However, current LJP methods primarily address cases with a single defendant, neglecting the complexities of cases involving multiple defendants. In real-world criminal cases, multiple defendants are often involved, creating intricate interactions that single-defendant LJP technologies cannot accurately handle. These existing technologies struggle to distinguish judgment outcomes for different defendants in such scenarios. To advance research in LJP tasks involving multiple defendants, this paper presents a large-scale multi-defendant LJP dataset with three key characteristics: 1) It is the largest manually annotated dataset for multi-defendant LJP; 2) It necessitates distinguishing legal judgment predictions for each defendant; 3) It includes comprehensive judgment chains, covering criminal relationships, sentencing contexts, law articles, charges, and penalties. Furthermore, this paper conducts an extensive and detailed analysis of the dataset, examining the distribution of law articles, charges, penalties, criminal relationships, sentencing contexts, text length, and number of defendants. It also provides statistical insights into multi-defendant judgment results and the chain of judgment based outcomes. Additionally, this paper introduces a novel chain of judgment based method, featuring a strategy for generating judgment chains related to the crime facts and a comparison strategy to differentiate correct judgment chains from easily confused ones, enhancing overall effectiveness. Experimental results reveal that the multi-defendant LJP dataset presents a significant challenge to existing LJP methods and pre-trained models. However, the chain of judgment based LJP method significantly surpasses baseline methods, highlighting the crucial role of judgment chains in improving LJP.
-
近年来,随着高质量法律文本的获取,各种自然语言处理技术已经被应用到智能司法领域[1],法律文本挖掘已经成为一个重要的研究主题. 作为智能司法最重要的任务之一,法律判决预测(legal judgment prediction, LJP)旨在基于案件事实预测判决结果(如法律条款、罪名和适用的指控). 早期对LJP的研究集中在统计解决方案上[2],而最近的研究将LJP任务视为一个特定的分类问题. 已经有各种文本分类方法被应用于解决LJP任务[3].
虽然当前研究成果在处理单被告案件方面已取得显著进展,但面对涉及多名被告的案件时,这些方法的适用性受到限制. 案件涉及众多被告的情形对于法律判决的预测任务极其重要. 根据数据显示,不少于30%的案例牵涉到多个被告[3]. 正如图1(a)(b)所示,涉及多被告的案件复杂度主要体现在多个被告之间复杂的互动关系以及各自不同的犯罪活动上. 因此,预测涉及多被告的案件结果相比仅有单一被告的案件,面临更多的挑战. 目前,大部分研究关注于仅包含单一被告的案件,即案件中只有一个被告人. 然而,这种针对单一被告的预测模式在现实应用中遇到了限制. 不同于针对单一被告的法律判决预测,多被告案件的预测旨在预测案件中每位被告所适用的法律条款、所涉罪名以及刑期. 由于案件描述中包含多位被告及其复杂的互动,使用单一被告的预测方法往往难以准确捕捉这些互动细节并预测出每位被告的具体判决结果. 具体来说,多被告案件的法律判决预测面临着一系列挑战,首先是不同被告的判决结果可能会有所差异. 多个被告之间复杂的相互作用导致他们的案件描述内容密切相关,这使得难以区别各被告并准确判定他们的判决结果. 如图1(c)展示,为了明确区分各被告的判决结果,法官需评估被告之间的犯罪联系,判断是否应用同一法律条文和罪名,并考量量刑情节对判决的影响. 该过程需要模型能够模拟人类法官的推理过程,并对复杂的法律逻辑进行模拟[1-2]. 其次,在现实世界中,关于多被告案件的数据集依旧匮乏. 现有的法律判决预测数据集要么专注于单一被告的案件的多个子任务,要么仅覆盖多被告案件中的特定罪名任务. 例如,文献[4]发布的CAIL数据集是面向法律判决预测的重要资源,但限于单被告情形. 而文献[1]虽对多被告案件中的罪名任务进行标注,却没有包含判定多被告判决结果所需的犯罪关系和量刑情节等关键信息. 为了推动这一领域的研究进展,迫切需要建立一个反映真实场景、包含完整判决链信息的多被告案件的法律判决预测数据集.
为了解决以上挑战,本文收集了一个真实世界的包含判决链的多被告法律判决预测数据集(chain of judgment based multi-defendant legal judgement prediction dataset, COJ-MLJP). 该数据集由以下3个特点构成:1)该数据集包含了
23717 个多被告案例和80477 名被告者,使其成为最大的专业人员注释的多被告法律判决预测数据集;2)由于89.58%的案件中,不同被告在多被告法律判决预测任务的至少一个子任务中拥有不同的判决结果,因此多被告法律判决预测要求对每个被告的判决结果进行准确区分,这使得本文提出的多被告法律判决预测数据集与现有的单一被告案件数据集有所不同;3)本文提供了多被告法律判决数据集的判决链标注信息,其中包括2类犯罪关系、8类量刑情节、22类法条、23类罪名和11类刑期,为后续研究进一步提升多被告法律判决预测效果提供了有力支持.此外,本研究对多被告法律判决预测数据集进行了全面分析,包括法条分布、罪名分布、刑期分布、犯罪关系、量刑情节、文本长度及被告人数等多个维度. 结果显示,法条和罪名分布呈现长尾现象,其中部分法条和罪名出现频率极高,而多数则相对较低. 具体而言,“法条303”“开设赌场罪”及短期刑期在其相应分类中占比最大,反映了某些法律应用的集中趋势. 此外,大多数案件中被告之间没有直接的犯罪合作关系,但存在不小比例的案件涉及犯罪合作或帮助行为. 量刑情节分析揭示了“坦白”“从犯”“累犯”为减刑考虑的主要情节,同时案件描述的长度和被告人数分布也对法律判决预测方法提出了挑战. 多被告案件中不同被告的判决结果存在显著差异,基于判决链的分析进一步表明,通过犯罪关系和量刑情节,法官能够在大多数情况下区分不同的判决结果.
最后,基于以上数据集,本文提出了一种基于判决链的法律判决预测方法(chain-of-judgment, COJ). 具体而言,该方法包含判决链生成和判决链对比2种策略. 判决链生成策略通过显式生成判决链来区分不同被告的判决结果. 具体而言,判决链首先预测被告之间的关系,并确定每个被告的量刑情节,然后按照顺序预测法律条文、罪名、刑期. 由于生成式语言模型在推理方面表现出色[5-6],本文将这些推理链转化为文本生成任务,并利用大型语言模型Qwen-7B-Chat[7]进行建模. 此外,判决链对比策略通过比较判决链标签和易混淆错误判决链来避免模型预测易混淆的错误判决结果. 具体来说,我们基于判决链生成训练后的模型大型语言模型,通过提升判决链标签的生成概率,降低易混淆错误判决链的生成概率.
为了评估多被告法律判决预测数据集的挑战,本文实现了最先进的法律判决预测方法和预训练模型,并在各种设置下对多被告法律判决预测数据集进行了彻底的实验. 实验结果表明,现有方法的性能在多被告法律判决预测数据集上表现不佳,这表明任务多被告者法律判决预测比单犯罪者法律判决预测更具挑战性. 基于判决链的法律判决预测方法能显著优于基准方法,显示出判决链在多被告法律判决预测中的关键作用. 此外,本文提出的基于判决链的法律判决预测方法能够泛化到单被告法律判决预测任务.
1. 相关工作
早期的法律判决预测研究主要侧重于基于规则的方法[9-11]和机器学习方法[12-14]. 但近些年,基于神经网络的技术,尤其是在LJP子任务的依赖关系建模[2-3,15]、法律领域知识的利用[16-21]、标签信息的集成[22-27],以及预训练语言模型的应用[28-30]方面,都取得了显著的进步. 在处理多被告案件时,MAMD[1]利用多尺度注意力机制来区分不同被告的复杂事实描述,从而更准确地预测每个被告的指控. 尽管如此,大多数现有的单一被告LJP技术都忽略了多被告之间的相互影响. 相对于MAMD[1],本研究首先形式化了多被告判决过程,并且收集了包含判决链标注的多被告法律判决预测数据集,并训练生成型语言模型基于判决链预测多被告判决结果,从而更精确地区分不同被告的判决结果.
此外,通过对语言模型进行训练或微调来生成中间步骤的多步推理已被证明可以优化性能[5-6,31-36]. 例如,文献[32]在2017年使用生成的自然语言中间步骤来解决数学文字问题;文献[33]于2018年通过人工注释的自然语言解释扩展了自然语言推理数据集;文献[34]于2019年提出了生成常识问答任务模型预测的核心逻辑;文献[35-36]在2021年利用生成多步解和中间计算结果来解决各自的问题. 最近,在2022年,文献[37]引入了思维链提示,为大型语言模型提供了逐步推理样例,无需进一步微调即可提高其性能.
然而,这些之前的方法尚未专为法律推理的实际应用进行优化大型语言模型[38]. 因此,本构建并分析了包含判决链的多被告法律判决预测数据集,并利用大型语言模型建模多被告LJP任务的判决链. 此外,我们提出了通过进行判决链对比降低模型生成易混淆判决结果的概率,从而进一步增强其在法律判决预测任务上的表现.
2. 数据集构建
在本节中,本文首先对现有数据集进行了全面的调查,并揭示了现有法律判决预测集的局限性,表1显示了不同法律判决预测数据集的比较. 然后,本文详细描述了多被告法律判决预测数据集的标注和构建过程.
表 1 中文法律判决预测数据集对比Table 1. Comparison of Chinese Legal Judgement Prediction Datasets数据集 法律领域 法条 罪名 刑期 单/多被告 判决链 CAIL2018 刑事 √ √ √ 单被告 × CAIL-Long 刑事和民事 √ √ √ 单被告 × QAjudge 刑事 √ √ √ 单被告 × FLA 刑事 × √ × 单被告 × RACP 刑事 × √ × 单被告 × Criminal 刑事 × √ × 单被告 × MAMD 刑事 × √ × 多被告 × COJ-MLJP(本文) 刑事 √ √ √ 多被告 √ 2.1 现有中文法律判决预测数据集
现有的中文法律判决预测数据集CAIL2018[4],CAIL-long[30],QAjudge[17],FLA[22],RACP[16],Criminal[19],MAMD[1]等为智能司法的发展做出了巨大贡献,但仍存在局限性. 首先,它们主要关注单被告刑事案件或者多被告的罪名预测子任务,忽视了多被告法律判决预测任务. 这与实际情况并不相符,因此迫切需要一个多被告法律判决预测的数据集. 其次,尽管这些数据集提供了关键的判决标签,但它们并没有包含判决链信息. 从法律角度考虑,任何判决结果的成立都应基于法官的详细的判决过程. 忽略这一判决过程不仅可能损害司法公正,还可能影响法律判决预测系统的准确性与解释性.
2.2 数据筛选
本文的数据集来自中国政府网站中国裁判文书网,该网站在之前的工作中广泛使用[4,17,30]. 为了构建数据集,本文首先使用正则表达式从裁判文书中中提取多个被告姓名. 随后,每个文档被分为犯罪事实描述和法院判决意见2个部分,在本文中仅保留犯罪事实描述. 本文过滤掉少于150个字符的犯罪事实描述案例.
2.3 数据标注
与先前的研究[4]不同,本文没有使用正则表达式来标注数据标签并且本文的数据集包括了犯罪关系和量刑情节的标注. 具体来讲,犯罪关系是指是指一名被告人在犯罪过程中是否协助其他同案犯的关系,其中包括包括无犯罪关系和帮助关系;量刑情节是指影响量刑轻重的具体行为或因素,其中包括“坦白”“从犯”“累犯”“自首”“立功”“犯罪未遂”“聋哑或盲人”“年龄大于75岁”.
本研究聘请了8名专业标注员,他们为每位被告手动标注了法律条文、罪名、刑期、犯罪关系和量刑情节. 这些标注员都是中文母语者,且都已通过中国法律职业人员统一资格考试. 为确保标注的一致性,所有数据都经过了2名标注员的多轮审核,确保消除潜在的偏见. 考虑到数据准确性,本研究只包括1审案件,而排除了2审和再审案件. 为保护隐私,所有涉及敏感信息的部分(如姓名、地点等)均已匿名化,以降低潜在的社会偏见风险[40]. 经过精细的预处理和人工标注,数据集共包括23 717个多被告案例和80 477名被告者.
3. 数据集分析
3.1 法条分布分析
在数据集中,多被告案件法条分布往往存在长尾分布现象. 如图2(a) 所示,各个法条在判决结果中的出现频率和占比有较大的不同. 在数据集的所有法条中,“法条303”出现的最频繁,数量达到
27590 次,占总数的32.24%. 而“法条264”和“法条347”分别以17.61%和12.62%的占比排在第2和第3位. 以上3个法条共同占据了整体数据的62%左右,显示出在法律判决中,这些法条的应用相对较为集中. 此外,还有一些法条出现的频率较低,例如“法条385”“法条345”“法条238”等,它们的数量均少于100次,占总体的比例也不足0.1%. 特别是“法条274”和“法条388”,只有13次出现,占比为0.015%.3.2 罪名分布分析
在数据集中,多被告案件罪名分布往往存在长尾分布现象. 如图2(b) 所示,23个罪名中“开设赌场罪”出现的最为频繁,数量高达22 124次,占总数的25.77%. 接下来是“盗窃罪”和“贩卖毒品罪”,它们分别有
15125 次(占比17.61%)和10807 次(占比12.59%). 这3个罪名共同占据了整体数据的56%左右,显示在法律判决中,这些罪名的案件数量相对较多. 与此相对,有些罪名在数据集中的出现频率较低,如“敲诈勒索罪”“窝藏、转移毒品罪”“盗伐林木罪”等,它们的数量都不超过100次,占比均小于0.1%.3.3 刑期分布分析
在数据集中,短期刑期的判决数量较多,而随着刑期的增加,判决数量逐渐减少. 如图2 (c)所示,短期刑期在数据集中的比例相当高.1~2年的刑期是出现次数最多的,达到16 779次,占比为20.85%. 其次,6~9个月、9~12个月和0~6个月的刑期紧随其后,分别有13 834次、13 695次和13 619次,占比分别为17.19%,17.02%,16.92%. 这4个时间段合计占据了数据的近72%,表明在此数据集中,短期刑期的判决占据了绝大多数. 相较之下,中长期到长期的刑期(如2~3年、3~5年、5~7年、7~10年和10~20年)的判决次数明显较少. 其中,2~3年的刑期有7 071次,占比为8.79%;3~5年的刑期有6 319次,占比为7.85%. 超过10年的刑期的判决数量进一步减少,特别是20年以上的刑期,只有1 143次,占比为1.42%. 此外,最为严重的判决,即无期徒刑和死刑,在数据集中的数量极为稀少,只有144次,占比仅为0.18%.
3.4 犯罪关系分布分析
如图2 (d)所示,犯罪关系主要分为2种:无关系和帮助关系. “无关系”的被告数量为
52153 ,占比高达64.80%. 这意味着在该数据集中,大部分的判决案例中,被告之间没有直接的犯罪合作或互助行为,可能是单独犯罪或者没有明确的帮助关系. 相对的,“帮助关系”的被告数量为28324 ,占比为35.20%. 这说明在这部分案件中,存在一定的犯罪合作或者某个被告帮助或协助另一名被告进行犯罪行为.3.5 量刑情节分布分析
如图2(e) 所示,“坦白”是数量最多的量刑情节,有
41549 次,占比高达43.38%. 这可能意味着在判决中,当事人对其犯罪行为表示坦白承认时,会被作为一个主要的减刑情节考虑. 接着是“从犯”和“累犯”,分别有18688 次(占比19.51%)和16623 次(占比17.35%). 这2个量刑情节的占比也较高,显示在法律判决中,被认定为从犯或有累犯记录的当事人相对较多. “自首”量刑情节有14487 次,占比15.12%. 这表明自愿投案并如实供述犯罪的当事人数量也不少,而且这在量刑时是一个积极的情节. 而像“立功”“犯罪未遂”这些情节的数量相对较少,尤其是“立功”只有3048 次,占比3.18%,而“犯罪未遂”则更少,只有1209 次,占比1.26%. 最后,“聋哑或盲人”和“年龄大于75岁”这2个特定情境的量刑情节在数据集中极为稀少,分别只有135次(占比0.14%)和46次(占比0.048%). 这可能表示这2种量刑情节在实际判决中出现的概率较低.3.6 文本长度分析
多被告法律判决预测数据集中的案件描述往往比单被告案件描述更长. 如图2 (f)所示,每个案件描述的长度分布如下:41.60%的案件描述长度在
2000 字以上,42.99%的案件描述长度在1000 ~2 000字之间,15.29%的案件描述长度在500~1000 字之间,0.11%的案件描述长度在500字以下. 平均的多被告案件描述长度为3041 字,这给现有的法律判决预测方法带来了挑战.3.7 被告人数分析
多被告法律判决预测数据集仅包含多被告案件. 每个案件中的被告人数分布如下:49.40%的案件涉及2名被告,21.41%的案件涉及3名被告,11.22%的案件涉及4名被告,而有17.97%的案件则涉及4名以上的被告. 在整个多被告法律判决预测数据集中,共有
80477 名被告. 平均而言,每个多被告案件涉及3.4名被告.3.8 多被告判决结果分析
在89.58%的案件中,被告在多被告LJP任务的至少1个子任务上得出不同的判决结果. 具体而言,有18.91%的案件中,不同被告人适用不同的法律条文;26.80%的案件中,不同被告人被指控不同的罪名;而88.54%的案件中,不同被告人被判处不同的刑期.
3.9 基于判决链的判决结果分析
根据犯罪关系和量刑情节判决链信息,理论上法官可以在69.73%的被告人中区分出不同的判决结果(法条、罪名和刑期). 具体而言,根据犯罪关系,法官可以在70.28%的被告人中区分不同法条;而根据量刑情节,法官可以在96.28%的被告人中区分不同刑期.
4. 研究方法
4.1 问题定义
本文首先提出了多被告LJP任务. 在多被告案件中,事实描述可以被视为一个词序列x={w1,w2,…,wn},其中n代表词的数量. 每个多被告案件都涉及一组被告姓名E={e1,e2,…,e|E|},其中每个名称是一个词序列e={w1,w2,…,w|e|}. 在给定多被告案件的事实描述x和被告姓名e的情况下,多被告任务的目标在于预测多个法律条文、多个罪名和单个刑期的判决结果. 其中,法条预测和罪名预测是多标签分类问题,刑期预测则是多分类问题. 本文还引入了犯罪关系和量刑情节作为中间任务,以建立多被告法律判决预测的判决链,并改进对主要判决结果的预测. 这2个中间任务同样是多标签分类问题. 本文将犯罪关系、量刑情节、法条、罪名和刑期的标签分别表示为词序列yr,ys,yl,yc,yt.
4.2 文本生成
从文本生成的角度出发,每个任务可以被建模为根据事实描述、特定被告姓名和特定任务描述来预测最优标签序列y的条件概率最大化问题,计算公式如下:
p(y|x,e,d)=m∏i=1p(yi|y1,y2,…,ym−1,x,e,d), (1) 其中m表示标签序列的长度,而具体任务描述d 则提供Seq2Seq生成模型执行所需任务的语义线索. 为了完成Seq2Seq生成任务,本文采用了Seq2Seq生成式语言模型[7],具体表述如下:
ˆy=DEC(x,e,d), (2) 其中DEC表示生成式模型的解码器,ˆy为由单词组成的预测结果. 在构建解码器的输入时,本文采用特殊的[SEP]标记来分隔不同信息.
4.3 基于判决链的法律判决预测
4.3.1 判决链生成
为了区分不同被告的不同判决结果,本文设计了判决链生成策略. 如图3所示,COJ按照判决链的方式来确定每个被告的犯罪关系、量刑情节、法律条文、罪名、刑期. 多被告判决链法律判决预测方法首先根据事实描述、被告姓名和多被告判决任务描述dCOJ来确定被告之间的关系和量刑情节,最后依次预测法律条文、罪名、刑期,具体表述如下:
ˆyCOJ=DEC(x,e,dCOJ), (3) 其中ˆyCOJ为多被告判决链预测结果(犯罪关系、量刑情节、法条、罪名、刑期). 为了训练生成式模型
能够按照判决链进行推理判决,本文通过模板将犯罪关系yr、量刑情节ys、法条yl、罪名yc和刑期yt标签组合为自然语言描述式的判决预测推理标签:
yCOJ=fformat(yr,ys,yl,yc,yt), (4) 其中fformat(⋅)为标签格式化函数. 由于判决判决链预测被建模为序列到序列生成任务,因此本文遵循2022年Raffel等人[39]的方法,采用标准的最大似然法来训练模型,并计算判决链生成任务的交叉熵损失Lexplicit来训练模型π1.
4.3.2 判决链对比
为了进一步区分易混淆的判决结果,本文设计了判决链对比策略. 如图3所示,COJ通过对比判决链标签和易混淆错误判决链来避免模型预测易混淆的错误判决结果. 具体来说,受到直接偏好优化(direct preference optimization)方法[41]的启发我们基于在显式判决链生成训练后的模型大型语言模型π1,通过提升判决链标签yCOJ的生成概率,降低易混淆错误判决链yCOJ'的生成概率来得到判决链对比损失:
Limplicit=[lnσ(βlnπ2(yCOJ|x,e,dCOJ)π1(yCOJ|x,e,dCOJ)−βlnπ2(yCOJ′|x,e,dCOJ)π1(yCOJ′|x,e,dCOJ))], (5) 其中易混淆错误判决链yCOJ'通过统计验证集易混淆判决结果构造而成. 具体而言,首先通过统计验证集中犯罪关系yr、量刑情节ys、法条yl、罪名yc和刑期yt各自对应的易分类错误标签,然后通过模板将犯罪关系y′r、量刑情节y′s、法条y′l、罪名y′c和刑期y′t合为自然语言描述式的易混淆错误判决链:
yCOJ'=fformat(y′r,y′s,y′l,y′c,y′t). (6) 4.4 推 理
受到自我一致性推理(self-consistency reasoning)方法[42]的启发,在测试时本文首先采样生成K条判决链的预测路径. 最后,本文选择置信度最高的判决预测推理链作为最终的判决结果.
5. 实验结果与分析
5.1 研究问题
本文的目标在于通过实验来回答以下研究问题:1)本文提出的方法COJ在多被告LJP案件中的表现如何. 2)本文提出的方法COJ在单被告LJP案件中的表现如何. 3)移除判决链方法中的不同策略如何影响COJ在多被告LJP中的表现. 4)不同训练集数据量如何影响模型效果.
5.2 基线模型
为了验证本文提出的方法COJ在多被告LJP上的有效性,本文将其与多种方法进行了比较,这些方法可以归纳为以下3组:1)单被告LJP方法,包括Topjudge[2],该方法采用拓扑依赖学习框架,将子任务上的显式依赖形式化为有向无环图;MPBFN[3],利用多个LJP子任务之间的正向和向后依赖关系进行单被告LJP;LADAN[24],一种基于图神经网络的方法,可以自动捕获法律条款之间微小差异;NeurJudge[18],利用中间子任务的结果将事实陈述划分为不同情况,并用于其他子任务的预测. 2)预训练语言模型,包括BERT[43],基于Transformer的方法,在中文维基百科文档上进行预练;Lawformer[30],基于Transformer的方法,对大规模的中国法律长案例文件进行预训练. 3)多被告罪名预测方法,包括MAMD[1],利用多尺度注意力来识别不同被告的事实描述.
5.3 实验设置
为了适应多被告事实描述的长度,本文将最大事实长度设置为2 048. 由于模型输入的限制,BERT的输入长度被限制为512.在训练过程中,本文采用了AdamW[43]优化器,初始学习率为5×10-5. 批大小设置为16,并采用梯度累积策略. 论文中使用的生成式语言模型为Qwen-7B-Chat[7],其使用了自回归语言建模目标函数,经过了大规模中英文数据的预训练. Qwen-7B-Chat判决链生成策略训练了3个epoch,判决链对比策略训练了1个epoch,其他模型训练最多进行了24个epoch,并选择在验证集上表现最佳的模型. Qwen-7B-Chat基于lora[44]高效微调训练. 此外,本文将推理采样路径数量K和输出长度分别设置为3和128.为了评估性能,本文使用了4个指标:准确性(Acc)、宏观精度(MP)、宏观召回率(MR)和宏观F1(F1). 所有实验都在1台A100显卡上进行.
5.4 多被告判决预测结果
表2展示了针对多被告LJP子任务的评估结果. 总体而言,COJ在所有多被告LJP子任务上表现出了最佳性能. 与目前最先进的单被告LJP方法(如Topjudge,MPBFN,LADAN,NeurJudge)相比,本文的COJ方法考虑了判决链,因此取得了显著的改进. 由于单一被告人法未考虑犯罪关系和量刑情节,无法很好地区分不同被告人之间的判决结果. 这强调了在预测多被告LJP犯罪关系和量刑情节时遵循判决链的重要性. 如表2所示,与预训练模型BERT和Lawformer相比,本文的COJ方法在多被告LJP的所有子任务上都取得了显著的性能提升. 这表明,在微调阶段引入判决链的建模是至关重要的. 与针对多被告指控预测设计的MAMD方法相比,本文的COJ方法在指控预测任务上表现更好. 这表明在实际应用场景中,建模推理链能够提高模型的有效性和鲁棒性.
表 2 多被告者判决预测结果Table 2. Multi-Defendant Legal Judgment Prediction Results% 方法 法条 罪名 刑期 Acc MP MR F1 Acc MP MR F1 Acc MP MR F1 TopJudge 69.32 35.60 39.13 36.93 64.42 24.96 35.28 28.34 28.36 23.16 22.25 22.00 MPBFN 72.47 34.73 34.22 34.35 65.59 32.79 33.20 31.59 28.32 21.59 20.91 20.70 LADAN 54.57 38.09 22.40 26.64 46.62 20.68 32.42 24.74 27.05 24.05 23.43 23.16 NeurJudge 65.21 41.72 36.96 38.15 59.51 34.19 25.36 27.55 30.06 27.56 25.63 25.95 BERT 51.38 34.19 29.68 30.70 44.80 36.800 20.10 25.14 29.60 23.95 22.68 21.55 Lawformer 75.50 36.18 35.33 34.00 65.94 38.97 29.12 32.76 32.37 22.66 20.68 18.30 MAMD - - - - 58.73 33.00 34.15 31.60 - - - - COJ(本文) 80.24* 55.75* 53.95* 53.51* 76.25* 55.98* 55.36* 53.23* 34.41* 34.15* 28.71* 30.02* 注:有显著差距的指标结果用*标记(显著性检测:t 检验,p值小于 0.05),黑体数字表示最佳结果. 5.5 单被告判决预测结果
此外本文还研究了模型在单被告法律判决预测数据集上的泛化性. 具体来讲,本文在单一被告数据集 CAIL2018[4] 上评估了基于判决链的法律判决预测模型和基准模型. 为了确保公平比较,所有模型都直接在 CAIL2018[4]测试集上进行测试,而没有在 CAIL2018[4]训练集上进行微调. 如表3所示,实验结果证明了COJ在单被告法律判决预测数据集上的多个指标上显著超过基准模型,验证了COJ的泛化性和有效性.
表 3 单被告者判决预测结果Table 3. Single-Defendant Legal Judgment Prediction Results% 方法 法条 罪名 刑期 Acc MP MR F1 Acc MP MR F1 Acc MP MR F1 TopJudge 40.71 21.18 24.09 21.14 40.31 26.60 25.02 21.98 18.61 11.37 12.40 11.02 MPBFN 40.53 20.53 19.84 16.25 39.52 19.53 20.24 15.49 18.94 12.24 12.11 10.79 LADAN 71.54 41.96 38.66 37.81 58.17 33.69 45.86 36.99 15.71 14.88 15.59 12.10 NeurJudge 58.47 31.12 29.30 27.49 51.29 26.72 27.05 23.05 19.98 16.02 13.54 12.16 BERT 63.10 25.20 21.36 21.75 24.45 18.95 20.05 16.02 16.02 12.04 14.49 6.92 Lawformer 66.98 28.81 26.88 25.41 66.34 31.03 32.54 27.82 15.76 17.46 17.92 11.33 MAMD - - - - 28.42 9.56 12.86 9.6 - - - - COJ(本文) 72.04* 54.68* 52.02* 50.11* 70.51* 54.51* 53.38* 50.38* 21.93* 18.04* 12.11 10.37 注:有显著差距的指标结果用*标记(显著性检测:t 检验,p值小于 0.05),黑体数字表示最佳结果. 5.6 训练数据量的影响
此外,本文还研究了3个法律判决预测子任务的训练数据量对多被告判决预测任务的影响. 本文比较了 NeurJudge,Lawformer,COJ在训练后的F1 分数. 如图4所示. 本文观察到随着训练数据量的增加,基线和 COJ的性能稳步提高. 此外,随着训练数据量的增加,COJ在很大程度上超越了基线,这体现了本文提出的方法的鲁棒性和有效性.
5.7 消融实验
为了深入分析多被告判决链中不同判决任务在COJ中的作用,本文进行了消融研究. 本文在表4中呈现了在3种不同设置下的结果:1)−COJ生成. 移除方法中的判决链生成任务,直接生成判决结果. 2)−COJ比较. 移除方法中的判决链比较任务. 3)−所有任务. 同时移除判决链生成和比较任务.
表 4 消融实验结果%Table 4. Ablation Study Results方法 法条 罪名 刑期 Acc MP MR F1 Acc MP MR F1 Acc MP MR F1 COJ 80.24 55.75 53.95 53.51 76.25 55.98 55.36 53.23 34.41 34.15 28.71 30.02 −COJ生成 73.23 37.66 34.98 35.64 54.87 35.45 36.68 33.21 32.18 22.45 30.45 23.81 −COJ对比 72.91 37.28 35.71 35.46 64.20 39.90 41.94 39.36 30.21 17.50 22.88 17.95 −所有任务 63.88 32.08 28.71 27.35 52.22 28.02 30.74 27.79 28.24 13.73 17.39 13.40 如表3所示,判决链生成策略和判决链比较策略都对COJ产生了积极影响,去掉任何一个都会降低性能. 具体来讲,消除判决链生成中的犯罪关系和量刑情节会特别在法律条文和罪名预测方面对性能产生负面影响,这说明其对于区分法律条文和罪名是有帮助的;消除判决链比较任务会特别对刑期预测性能产生负面影响,这表明判决链比较任务有助于于区分易混淆的判决从而有助于提升刑期预测的准确性. 当同时移除判决链生成和判决链比较任务时,模型在多被告3个LJP子任务上都表现出了显著的性能下降,实验结果充分证明了判决链生成和比较对于多被告LJP的重要性.
5.8 样例展示
本研究中进行的案例研究旨在深入探索多被告判决链的有效性,特别是在区分多名被告的判决结果方面. 如图5所示,其中包括了2名被告的预测判决结果. 在具体的案例中,被告A并未参与帮助被告B进行的故意杀人犯罪,但被告A却对被告B实施了诈骗. 在尚未明确2名被告之间的犯罪关系和各自的量刑情节时,Neurjudge和MAMD模型更多地关注了围绕被告A的活动,从而错误地将其相关的法律条文、罪名和刑期预测为第232条、故意杀人罪和20个月. 其次,尽管在大量法律数据上经过预训练的模型Lawformer可以准确预测被告A的法律条文和罪名,但是因为没有明确被告A的自首情节,所以仍然将刑期误判为18个月.
与以上的方法不同,通过应用判决链,COJ模型通过确定犯罪关系和量刑情节在预测法律条文、罪名和刑期时展现出了其优越性. 它成功地区分了2名被告的判决结果,准确地为每位被告提供了与其犯罪行为相对应的预测. 此案例研究进一步证明了,当面对多名被告的复杂情况时,判决链方法能够为模型提供更加精确的预测,而不仅仅是基于单一的犯罪行为或被告行为进行预测.
6. 结论和展望
为了促进多被告法律判决预测任务的研究,我们收集了一个大规模的多被告法律判决预测数据集,其特点是需要模型区分不同被告的判决结果. 为了解决这一挑战,我们进一步标注了多被告判决链. 此外,本文对数据集进行了全面而深入的分析,其中包括法条、罪名、刑期、犯罪关系、量刑情节、文本长度、被告人数的数据分布以及多被告判决结果、基于判决链的判决结果的统计分析. 实验结果表明,现有的法律判决预测方法和预训练模型在多被告法律判决预测任务上表现不佳,而基于判决链的多被告法律判决预测方法能显著优于基准方法,显示出判决链在多被告法律判决预测中的关键作用. 未来的工作中将会探索多被告法律判决预测中更加复杂的场景,考虑结合刑法注释中各个犯罪构成的法律要件,并且在判决过程基于大型语言模型[45]显式结合法律知识进行判决预测.
作者贡献声明:吕由钢负责代码运行编写、论文撰写与校对;郝继泰负责模型构思、代码编写与运行、论文撰写;王梓涵负责模型构思、代码编写与运行、论文撰写;高莘负责论文撰写指导;任鹏杰负责论文撰写指导;陈竹敏负责论文撰写指导;马军负责论文撰写指导;任昭春负责对模型构思、代码编写与运行、论文撰写进行全程指导.
-
表 1 中文法律判决预测数据集对比
Table 1 Comparison of Chinese Legal Judgement Prediction Datasets
数据集 法律领域 法条 罪名 刑期 单/多被告 判决链 CAIL2018 刑事 √ √ √ 单被告 × CAIL-Long 刑事和民事 √ √ √ 单被告 × QAjudge 刑事 √ √ √ 单被告 × FLA 刑事 × √ × 单被告 × RACP 刑事 × √ × 单被告 × Criminal 刑事 × √ × 单被告 × MAMD 刑事 × √ × 多被告 × COJ-MLJP(本文) 刑事 √ √ √ 多被告 √ 表 2 多被告者判决预测结果
Table 2 Multi-Defendant Legal Judgment Prediction Results
% 方法 法条 罪名 刑期 Acc MP MR F1 Acc MP MR F1 Acc MP MR F1 TopJudge 69.32 35.60 39.13 36.93 64.42 24.96 35.28 28.34 28.36 23.16 22.25 22.00 MPBFN 72.47 34.73 34.22 34.35 65.59 32.79 33.20 31.59 28.32 21.59 20.91 20.70 LADAN 54.57 38.09 22.40 26.64 46.62 20.68 32.42 24.74 27.05 24.05 23.43 23.16 NeurJudge 65.21 41.72 36.96 38.15 59.51 34.19 25.36 27.55 30.06 27.56 25.63 25.95 BERT 51.38 34.19 29.68 30.70 44.80 36.800 20.10 25.14 29.60 23.95 22.68 21.55 Lawformer 75.50 36.18 35.33 34.00 65.94 38.97 29.12 32.76 32.37 22.66 20.68 18.30 MAMD - - - - 58.73 33.00 34.15 31.60 - - - - COJ(本文) 80.24* 55.75* 53.95* 53.51* 76.25* 55.98* 55.36* 53.23* 34.41* 34.15* 28.71* 30.02* 注:有显著差距的指标结果用*标记(显著性检测:t 检验,p值小于 0.05),黑体数字表示最佳结果. 表 3 单被告者判决预测结果
Table 3 Single-Defendant Legal Judgment Prediction Results
% 方法 法条 罪名 刑期 Acc MP MR F1 Acc MP MR F1 Acc MP MR F1 TopJudge 40.71 21.18 24.09 21.14 40.31 26.60 25.02 21.98 18.61 11.37 12.40 11.02 MPBFN 40.53 20.53 19.84 16.25 39.52 19.53 20.24 15.49 18.94 12.24 12.11 10.79 LADAN 71.54 41.96 38.66 37.81 58.17 33.69 45.86 36.99 15.71 14.88 15.59 12.10 NeurJudge 58.47 31.12 29.30 27.49 51.29 26.72 27.05 23.05 19.98 16.02 13.54 12.16 BERT 63.10 25.20 21.36 21.75 24.45 18.95 20.05 16.02 16.02 12.04 14.49 6.92 Lawformer 66.98 28.81 26.88 25.41 66.34 31.03 32.54 27.82 15.76 17.46 17.92 11.33 MAMD - - - - 28.42 9.56 12.86 9.6 - - - - COJ(本文) 72.04* 54.68* 52.02* 50.11* 70.51* 54.51* 53.38* 50.38* 21.93* 18.04* 12.11 10.37 注:有显著差距的指标结果用*标记(显著性检测:t 检验,p值小于 0.05),黑体数字表示最佳结果. 表 4 消融实验结果%
Table 4 Ablation Study Results
方法 法条 罪名 刑期 Acc MP MR F1 Acc MP MR F1 Acc MP MR F1 COJ 80.24 55.75 53.95 53.51 76.25 55.98 55.36 53.23 34.41 34.15 28.71 30.02 −COJ生成 73.23 37.66 34.98 35.64 54.87 35.45 36.68 33.21 32.18 22.45 30.45 23.81 −COJ对比 72.91 37.28 35.71 35.46 64.20 39.90 41.94 39.36 30.21 17.50 22.88 17.95 −所有任务 63.88 32.08 28.71 27.35 52.22 28.02 30.74 27.79 28.24 13.73 17.39 13.40 -
[1] Zhong Haoxi, Guo Zhipeng, Tu Cunchao, et al. Legal judgment prediction via topological learning [C] //Proc of the 2018 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2018: 3540−3549
[2] Lauderdale B, Clark T. The Supreme Court's many median justices[J]. American Political Science Review, 2012, 106(4): 847−866 doi: 10.1017/S0003055412000469
[3] Pan Sicheng, Lu Tun, Gu Ning, et al. Charge prediction for multidefendant cases with multi-scale attention [C] //Proc of the 14th ChineseCSCW. Berlin: Springer, 2019: 766−777
[4] Xiao Chaojun, Zhong Haoxi, Guo Zhipeng, et al. CAIL2018: A large-scale legal dataset for judgment prediction [J]. arXiv preprint, arXiv: 1807.02478, 2018
[5] Talmor A, Tafjord O, Clark P, et al. Leap-of-thought: Teaching pre-trained models to systematically reason over implicit knowledge [C/OL] //Proc of the 33rd Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2019[2025-01-04]. https://proceedings.neurips.cc/paper_files/paper/2020/hash/e992111e4ab9985366e806733383bd8c-Abstract.html
[6] Yao Huihan, Chen Ying, Ye Qinyuan, et al. Refining language models with compositional explanations [C] //Proc of the 34th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2020: 8954−8967
[7] Bai Jinze, Bai Shuai, Chu Yunfei, et al. Qwen technical report[J]. arXiv preprint, arXiv: 2309.16609, 2023
[8] Izacard G, Grave E. Leveraging passage retrieval with generative models for open domain question answering [C] //Proc of the 16th Conf of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2021: 874−880
[9] Kort F. Predicting supreme court decisions mathematically: A quantitative analysis of the “right to counsel” cases[J]. The American Political Science Review, 1957, 51(1): 1−12 doi: 10.2307/1951767
[10] Nagel S. Applying correlation analysis to case prediction[J]. Texas Law Review, 1963, 42: 1006−1018
[11] Segal J. Predicting supreme court cases probabilistically: The search and seizure cases, 1962-1981[J]. American Political Science Review, 1984, 78(4): 891−900 doi: 10.2307/1955796
[12] Aletras N, Tsarapatsanis D, Preotiuc-Pietro D, et al. Predicting judicial decisions of the european court of human rights: A natural language processing perspective[J]. PeerJ computer science, 2016, 2: 93 doi: 10.7717/peerj-cs.93
[13] Sulea O, Zampieri M, Malmasi S, et al. Exploring the use of text classification in the legal domain [C/OL] //Proc of the 2nd Workshop on Automated Semantic Analysis of Information in Legal Texts Co-located with the 16th Int Conf on Artificial Intelligence and Law. 2017[2025-01-01]. https://ceur-ws.org/Vol-2143/paper5.pdf
[14] Katz D, Bommarito M, Blackman J, et al. A general approach for predicting the behavior of the supreme court of the united states[J]. Plos One, 2017, 12(4): 0174698
[15] Dong Qian, Niu Shuzi. Legal judgment prediction via relational learning [C] //Proc of the 44th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2021: 983−992
[16] Jiang Xin, Ye Hai, Luo Zhunchen, et al. Interpretable rationale augmented charge prediction system [C] //Proc of the 27th Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2018: 146−151
[17] Zhong Haoxi, Wang Yuzhong, Tu Cunchao, et al. Iteratively questioning and answering for interpretable legal judgment prediction [C] //Proc of the 34th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2020: 1250−1257
[18] Yue Linan, Liu Qi, Jin Binbin, et al. Neurjudge: A circumstance-aware neural framework for legal judgment prediction [C] // Proc of the 44th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2021: 973−982
[19] Hu Zikun, Li Xiang, Tu Cunchao, et al. Few-shot charge prediction with discriminative legal attributes [C] //Proc of the 27th Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2018: 487−498
[20] Lv Yougang, Wang Zihan, Ren Zhaochun, et al. Improving legal judgment prediction through reinforced criminal element extraction[J]. Information Processing & Management, 2022, 59(1): 102780
[21] Feng Yi, Li Chuanyi, Vincent N. Legal judgment prediction via event extraction with constraints [C] // Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 648−664
[22] Luo Bingfeng, Feng Yansong, Xu Jianbo, et al. Learning to predict charges for Criminal cases with legal basis [C] //Proc of the 2017 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 2727−2736
[23] Wang Pengfei, Fan Yu, Niu Shuzi, et al. Hierarchical matching network for crime classification [C] //Proc of the 42nd int ACM SIGIR Conf Research and Development in Information Retrieval. New York: ACM, 2019: 325−334
[24] Xu Nuo, Wang Pinghui, Chen Long, et al. Distinguish contusing law articles for legal judgment prediction [C] //Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2020: 3086−3095
[25] Le Yuquan, Zhao Yuming, Chen Meng, et al. Legal charge prediction via bilinear attention network [C] //Proc of the 31st ACM Int Conf on Information & Knowledge Management. New York: ACM, 2022: 1024−1033
[26] Liu Dugang, Du Weihao, Li Lei, et al. Augmenting legal judgment prediction with contrastive case relations [C] //Proc of the 29th Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2022: 2658−2667
[27] Zhang Han, Dou Zhicheng, Zhu Yutao, et al. Contrastive learning for legal judgment prediction[J]. ACM Transactions on Information Systems, 2023, 41(4): 1−25
[28] Chalkidis T, Fergadiotis M, Malakasiotis P, et al. LEGAL-BERT: Preparing the muppets for court [C] //Proc of the 2020 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 2898−2904
[29] Chalkidis N, Fergadiotis M, Tsarapatsanis D, et al. Paragraph-level rationale extraction through regularization: A case study on european court of human rights cases [C] //Proc of the 2021 Conf of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2021: 226−241
[30] Xiao Chaojun, Hu Xueyu, Liu Zhiyuan, et al. Lawformer: A pre-trained language model for chinese legal long documents[J]. Al Open, 2021, 2: 79−84 doi: 10.1016/j.aiopen.2021.06.003
[31] Omar Z, Jason E, Christine D. Using "annotator rationales" to improve machine learning for text categorization [C] //Proc of the 2007 Conf of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2007: 260−267
[32] Ling W, Yogatama D, Dyer C, et al. Program induction by rationale generation: Learning to solve and explain algebraic word problems [C] //Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2017: 158−167
[33] Oana-Maria C, Tim R, Thomas L, et al. e-snli: Natural language inference with natural language explanations [C] //Proc of the 31st Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2018: 9560−9572
[34] Rajani N, MCCann B, Xiong Caiming, et al. Explain yourself'! leveraging language models for commonsense reasoning [C] //Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 4932−4942
[35] Dan H, Saurav K, Akul A, et al. Measuring mathematical problem solving with the MATH dataset [C/OL] //Proc of the 1st Neural Information Processing Systems Track on Datasets and Benchmarks. 2021[2025-01-04]. https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/be83ab3ecd0db773eb2dc1b0a17836a1-Abstract-round2.html
[36] Nye M, Andreassen A, Ari G, et al. Show your work: Scratchpads for intermediate computation with language models [J]. arXiv preprint, arXiv: 2112.00114, 2021
[37] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large Ianguage models [J]. arXiv preprint, arXiv: 2201.11903, 2022
[38] Huang J, Chang K. Towards reasoning in large language models: A survey [J]. arXiv preprint, arXiv: 2212.10403, 2022
[39] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. Journal of Machine Learning Research, 2020, 21(140): 1−67
[40] Pitoura E, Tsaparas P, Flouris G, et al. On measuring bias in online information[J]. ACM SIGMOD Record, 2017, 46(4): 16−21
[41] Wang Xuezhi, Wei J, Schuurmans D, et al. Self-consistency improves chain of thought reasoning in language models [C/OL] //Proc of the 11th Int Conf on Learning Representations. 2023[2025-01-04]. https://openreview.net/forum?id=1PL1NIMMrw
[42] Cui Yiming, Che Wanxiang, Liu Ting, et al. Pre-training with whole word masking for chinese BERT[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3504−3514 doi: 10.1109/TASLP.2021.3124365
[43] Loshchilov I, Hutter F. Decoupled weight decay regularization [C/OL] // Proc of the 7th Int Conf on Learning Representations. 2019[2025-01-04]. https://openreview.net/forum?id=Bkg6RiCqY7
[44] Hu E, Shen Y, Wallis P, et al. LoRA: Low-rank adaptation of large language models [C/OL] //Proc of the 10th Intl Conf on Learning Representations. 2022[2025-01-04]. https://openreview.net/forum?id=nZeVKeeFYf9
[45] 舒文韬,李睿潇,孙天祥,等. 大型语言模型:原理、实现与发展[J]. 计算机研究与发展,2024,61(2):351−361 doi: 10.7544/issn1000-1239.202330303 Shu Wentao, Li Ruixiao, Sun Tianxiang, et al. Large-scale language modeling: Principles, implementation and development[J]. Computer Research and Development, 2024, 61(2): 351−361 (in Chinese) doi: 10.7544/issn1000-1239.202330303