Processing math: 18%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

融合角色心理画像的心理健康文本匹配模型

赵芸, 刘德喜, 万常选, 刘喜平, 廖国琼

赵芸, 刘德喜, 万常选, 刘喜平, 廖国琼. 融合角色心理画像的心理健康文本匹配模型[J]. 计算机研究与发展, 2024, 61(7): 1812-1824. DOI: 10.7544/issn1000-1239.202220987
引用本文: 赵芸, 刘德喜, 万常选, 刘喜平, 廖国琼. 融合角色心理画像的心理健康文本匹配模型[J]. 计算机研究与发展, 2024, 61(7): 1812-1824. DOI: 10.7544/issn1000-1239.202220987
Zhao Yun, Liu Dexi, Wan Changxuan, Liu Xiping, Liao Guoqiong. Mental Health Text Matching Model Integrating Characters’ Mental Portrait[J]. Journal of Computer Research and Development, 2024, 61(7): 1812-1824. DOI: 10.7544/issn1000-1239.202220987
Citation: Zhao Yun, Liu Dexi, Wan Changxuan, Liu Xiping, Liao Guoqiong. Mental Health Text Matching Model Integrating Characters’ Mental Portrait[J]. Journal of Computer Research and Development, 2024, 61(7): 1812-1824. DOI: 10.7544/issn1000-1239.202220987
赵芸, 刘德喜, 万常选, 刘喜平, 廖国琼. 融合角色心理画像的心理健康文本匹配模型[J]. 计算机研究与发展, 2024, 61(7): 1812-1824. CSTR: 32373.14.issn1000-1239.202220987
引用本文: 赵芸, 刘德喜, 万常选, 刘喜平, 廖国琼. 融合角色心理画像的心理健康文本匹配模型[J]. 计算机研究与发展, 2024, 61(7): 1812-1824. CSTR: 32373.14.issn1000-1239.202220987
Zhao Yun, Liu Dexi, Wan Changxuan, Liu Xiping, Liao Guoqiong. Mental Health Text Matching Model Integrating Characters’ Mental Portrait[J]. Journal of Computer Research and Development, 2024, 61(7): 1812-1824. CSTR: 32373.14.issn1000-1239.202220987
Citation: Zhao Yun, Liu Dexi, Wan Changxuan, Liu Xiping, Liao Guoqiong. Mental Health Text Matching Model Integrating Characters’ Mental Portrait[J]. Journal of Computer Research and Development, 2024, 61(7): 1812-1824. CSTR: 32373.14.issn1000-1239.202220987

融合角色心理画像的心理健康文本匹配模型

基金项目: 国家自然科学基金项目(62272206, 62272205, 62076112, 62262027);江西省自然科学基金项目(20212ACB202002);江西省主要学科学术和技术带头人培养计划领军人才项目(20213BCJL22041);江西省教育厅科学技术研究项目(GJJ2200501, GJJ2201335);江西科技师范大学博士科研启动基金项目(2022BSQD36)
详细信息
    作者简介:

    赵芸: 1985年生. 博士,讲师. 主要研究方向为社会媒体处理和自然语言处理

    刘德喜: 1975年生. 博士,教授,博士生导师. 主要研究方向为社会媒体处理、信息检索、自然语言处理

    万常选: 1962年生. 博士,教授,博士生导师. 主要研究方向为Web数据管理、情感分析

    刘喜平: 1981年生. 博士,教授,博士生导师. 主要研究方向为Web数据管理、文本挖掘

    廖国琼: 1969年生. 博士,教授,博士生导师. 主要研究方向为社交网络挖掘、物联网数据管理

    通讯作者:

    刘德喜(dexi.liu@163.com

  • 中图分类号: TP391

Mental Health Text Matching Model Integrating Characters’ Mental Portrait

Funds: This work was supported by the National Natural Science Foundation of China (62272206, 62272205, 62076112, 62262027), the Natural Science Foundation of Jiangxi Province (20212ACB202002), the Training Plan for Academic and Technical Leaders of Major Disciplines in Jiangxi Province (20213BCJL22041), the Science and Technology Project of Education Department of Jiangxi Province (GJJ2200501, GJJ2201335), and the PhD Foundation of Jiangxi Science and Technology Normal University (2022BSQD36).
More Information
    Author Bio:

    Zhao Yun: born in 1985. PhD, lecturer. Her main research interests include social media processing and natural language processing

    Liu Dexi: born in 1975. PhD, professor, PhD supervisor. His main research interests include social media processing, information retrieval, and natural language processing

    Wan Changxuan: born in 1962. PhD, professor, PhD supervisor. His main research interests include Web data management and sentiment analysis

    Liu Xiping: born in 1981. PhD, professor, PhD supervisor. His main research interests include Web data management and text mining

    Liao Guoqiong: born in 1969. PhD, professor, PhD supervisor. His main research interests include social network mining and IoT data management

  • 摘要:

    全球心理健康问题形势严峻,由于心理健康服务的从业人员不足,遭受心理健康困扰的人并不总是能获得专业的心理健康服务. 检索式心理健康社区自动问答可以快速地为需要心理健康服务的人提供相应的信息自助服务. 与传统检索式社区问答中的文本匹配不同,在匹配支持帖和求助帖时,需要考虑2种不同层面的匹配准则:语义层面和心理层面. 为了解决该问题,提出融合角色心理画像的2阶段文本匹配模型(two-stage text matching model integrating characters’ mental portrait, T2CMP),该模型引入心理特征用于构建角色心理画像,从而辅助模型理解文本心理层面的内容和匹配关系. 同时为了提升检索效率以及减少大量负样例带来的噪声问题,将文本匹配任务拆分为2阶段的序列型子任务. 首先针对每条求助帖,使用基于语义的筛选模型甄别出候选支持帖;然后依据用户的角色心理画像,使用多层注意力机制将其与语义信息有效融合,提高模型的总体效果. 在MHCQA数据集上的实验结果显示,T2CMP比现有优秀算法拥有更高的F1值.

    Abstract:

    The global situation regarding mental health problems is a matter of serious concern. Unfortunately, in many countries, the shortage of mental health practitioners often leaves individuals with mental health problems without access to professional services. The retrieval-based community question answering for mental health can provide self-service information for those who are suffering from mental health problems. There are two different matching criteria to consider when matching question post and support response in this task, namely semantic matching and mental health matching. To address the issue of excessive non-ideal support responses in a large pool of candidate support responses, we propose a two-stage text matching model that integrates characters’ mental portraits using a multi-layer attention mechanism. This method divides our task into two sequential subtasks: a retrieval task and a matching task, respectively. In the first stage, a retrieval sub-method is used to retrieve a set of candidate support responses with a certain semantic similarity for each question post. In the second stage, the matching sub-method performs matching judgments based on the results generated in the previous stage. This sub-method applies a multi-layer attention mechanism to effectively integrate characters’ mental portraits and semantics. This process can modify the results of simple semantic matching. Experimental results show that T2CMP proposed in this paper is superior to state-of-the-art methods.

  • 在全球心理健康问题日益严峻的背景下,使用自动问答技术为网络社区用户提供面向心理支持的自助信息服务,将该任务称之为面向心理健康的社区问答(community question answering for mental health, MHCQA). 相较于其他社区自动问答,关于MHCQA的相关工作比较少见.

    虽然有学者尝试使用生成式对话提供心理支持,但要么只关注单一的心理支持信息(例如共情)[1],心理支持效果有限;要么生成的心理支持信息与求助帖相关性不高,很难起到有效的心理支持作用[2-3]. 相较于生成式模型,检索式MHCQA直接从心理健康社区中检索出与心理危机问题相匹配的帖子,这些帖子由人工撰写,能为求助者提供内容和类型更丰富的心理支持信息.

    检索式MHCQA的核心是文本匹配,该任务中的求助帖和支持帖的匹配关系复杂,不能仅考虑语义层面的匹配,还需考虑心理层面的匹配. 如图1所示,求助帖p中的当前心理危机问题(p中加粗倾斜的内容)和候选支持帖r中的专业建议或方法(r中加粗倾斜的内容)更倾向于心理层面的匹配,另外求助帖中的“原因、背景、情绪”和支持帖中的“共情”具有较强的情绪相关性. 现有的检索式问答模型[4-6]在进行匹配判断时主要基于语义层面,既未融合帖子心理层面的特征,也未挖掘用户的角色心理画像. 虽然Zhao等人[7]尝试引入心理健康相关特征,辅助模型学习不同的匹配关系,但其仅限于当前的求助帖和候选支持帖,没有考虑求助者/支持者的角色心理画像.

    图  1  心理健康社区上的心理危机消息和候选心理支持回复示例
    Figure  1.  Examples of the question post and the candidate support response in the mental health community

    当前的心理危机消息往往只包含求助者某一时刻的心理危机表现或情绪感知,仅凭当前心理危机消息无法准确刻画求助者的心理危机状况(包括发生的原因或背景、症状、情绪等),影响心理危机消息和心理支持消息的匹配准确率. 如图1所示,在求助帖p中,显示的心理危机问题是求助者对自身产生了一些负面情绪,并列举了一些琐碎的示例来解释其负面情绪的来源. 然而若结合他/她的历史帖cp,则可能刻画更为完整的心理画像,从图1看出,该求助者发生心理危机的导火索之一是感情受挫.

    在心理健康社区中,针对相同类型的心理危机问题,支持者的支持策略是相似或相近的. 但是不同的支持者有不同的支持偏好及支持风格,而且支持者的支持偏好和支持风格无法通过单个支持帖充分体现出来,需要从其所发布的多条支持帖中进行挖掘. 如图1所示,候选支持者的历史帖cr展示了该支持者偏好对自我否定的心理危机问题提供支持(cr中下划线的内容),且针对该类心理危机问题,其支持策略也类似(cr中加粗倾斜的内容).

    由此可见,捕获求助者和支持者的心理画像并将其融入语义匹配,能够提高心理危机问题与支持消息之间的匹配精度. 基于此,我们提出融合角色心理画像的2阶段文本匹配模型(two-stage text matching model integrating characters’ mental portrait, T2CMP). 该模型通过求助者发布的历史帖全面刻画求助角色的心理画像,即有效反映求助者的心理危机问题、心理危机的背景、原因、表现以及它们之间的关系. 通过支持者发布的历史帖刻画支持角色心理画像,包括支持者的支持专长、支持偏好以及支持风格等. 接着使用求助者/支持者的角色心理画像辅助语义匹配,提高检索性能. 此外,由于心理健康社区中候选支持帖过多,影响匹配效率,T2CMP将匹配过程划分为2个阶段:第1阶段侧重于语义层面的匹配,即使用基于语义的筛选模型,对大量候选支持帖进行筛选,该阶段可借鉴信息检索的成果,选择较好的检索模型;第2阶段侧重于心理层面的匹配,即通过融合角色心理画像,对筛选后的候选支持帖增加心理层面的匹配判断,修正单纯语义匹配的结果,从而提升模型整体效果.

    本文的创新性包括:

    1)提出并建模角色心理画像. 从求助者/支持者的历史帖抽取适合分析心理的特征,建模心理特征及其关系,对求助者/支持者进行角色心理画像.

    2)将角色心理画像与语义匹配融合,提升心理支持帖检索的质量. 采用多层注意力机制融合帖子的语义与角色的心理画像,弥补单纯语义匹配的不足.

    3)采用2阶段方法,提升检索效率. 第1阶段通过语义匹配筛选候选心理支持帖;第2阶段融合角色心理画像优化检索结果.

    4)基于CLPsych2017 Workshop(the Workshop on Computational Linguistics and Clinical Psychology)上的评测任务(shared task)构建MHCQA数据集,并在该数据集上评估了所提T2CMP的有效性. 实验结果表明,融合角色心理画像的文本匹配模型能有效修正单纯语义匹配的不足,提高匹配效果.

    检索式自动问答的核心是问题与候选答案的匹配. 近年来,深度神经网络模型被大量应用于文本对匹配任务,这些模型可以分为表示模型和交互模型两大类. 表示模型是将文本送入深度神经网络,由其自主学习文本的表示向量,然后将表示向量送入全连接网络获得2个文本的匹配得分[8-11],例如ARC-Ⅰ[8]等. 交互模型则是提取文本对中单词间的交互特征,然后通过深度神经网络聚合交互特征,得到最终的匹配结果[4,8,12],如ARC-II[8],MatchPyramid[4]等. 然而这些深度神经网络模型并没有完全捕捉到长文本的结构,因此在长文本对的匹配任务上表现欠佳.

    一些研究者通过引入外部知识[13]、增加深度神经网络的层次[14]、使用图结构[5, 15-17]等方式改进长文本的匹配效果. 例如CIG-GCN[5]首先将文本对用概念交互图(concept interaction graph, CIG)表示,然后使用图卷积网络(graph convolutional network, GCN)聚合各节点特征,进而获得最终的匹配得分.CIG是一个无向权重图,图的节点被称为概念,节点是由1个或1组高相关性的关键词组成.CIG将长文本分解成若干个句子子集,每个子集隶属于图中某个唯一的概念节点,边的权重则表明2个概念之间相关性的大小.CIG通过多种相似性计算方法构建节点的特征向量,用于表达隶属于节点的2个文本间句子集合的相似性,从而更好地捕获长文本间复杂的语义关系.

    近年来已有学者对心理健康自动问答做了尝试,特别是对共情信息的生成[1, 18]有较高的热情. 许多学者在用户情绪的指导下,采用基于Transformer的编码-解码框架[19-20]或预训练语言模型[21]生成共情信息. 然而这些模型只能提供单一的心理支持信息(共情),心理支持效果有限.

    另外,高质量数据集的匮乏也是在线心理支持自动问答的一个重要瓶颈.Sun等人[3]构建了一个用于心理健康问答的中文数据集,该数据集包含22 000个心理危机问题和56 000个高质量的回复(心理支持帖). 他们还对部分回复中的策略进行了标注,用于策略类型预测模型的训练,达到使用预测的策略类型指导回复生成的目的. 评测结果显示,虽然生成的文本包含多种支持策略,并保持较好的可读性,但是生成的回复与问题的相关性不高,影响心理支持效果.

    鉴于BERT在多项自然语言处理任务上的优异表现,He等人[22]使用疾病相关的知识(症状、诊断以及治疗信息等)对BERT进行再训练,获得融入领域知识的diseaseBERT,提高模型在健康问答中的表现. 然而一般疾病的问答与心理健康问答存在一定的差异,前者的问题非常明确,往往包含特定的疾病名词,且症状描述也有一定的规律可循,回复中也有相关药品名称或检查名称,而后者不具备该特性. 因此即使使用融合了一般疾病知识的预训练模型,在面向心理支持的检索式社区自动问答上也存在巨大挑战.

    将问题形式化定义为:对于求助者发布的当前求助帖p和支持者发布的候选支持帖r,给定求助者和支持者发布的历史帖cpcr,构建模型y = f (p, r, cp, cr)预测pr是否匹配,若匹配则y= 1,反之则y=0,其中cpcr分别用于刻画求助者和支持者的角色心理画像.

    融合角色心理画像的文本匹配模型T2CMP的框架如图2所示,包含2个阶段4个模块. 筛选阶段包括侧重语义层面匹配的候选支持帖筛选模块和角色心理画像生成模块,匹配阶段包括角色心理画像融合模块和决策模块.

    图  2  T2CMP架构
    Figure  2.  The architecture of T2CMP

    对于求助帖p,筛选模块的目的是对心理健康社区上的支持帖进行筛选,过滤出语义相关、规模较小的候选支持帖集合.

    筛选是典型的信息检索问题,可选择使用效果较优的检索模型. 从通用性和语义表达优越性2方面考虑,再与检索的经典算法BM25进行对比,最终选择BERT进行筛选,即:对于求助者发布的求助帖p,依次从社区中取出支持帖r,将pr成对送进BERT进行相关性分类,类别为“相关”的r加入到p的候选支持帖集合Rp中.

    为了尽可能保证理想的支持帖被筛选出来,训练分类模型时,选择带权重的交叉熵作为损失函数,通过设置权重来调整正负样例预测错误时对损失的影响,如式(1)所示:

    Loss=Ni[a+loss++aloss]a+N++aN (1)
    loss+=yiln(ˆyi)
    loss=(1yi)ln(1ˆyi).

    其中yi为第i个帖子对的真实相关性标签,ˆyi为分类模型对该标签预测出的概率值,N+N分别为训练集中正样例对和负样例对的个数,N为训练集中总的帖子对个数,a+a分别是“相关”帖和“不相关”帖的损失权重.

    设置“相关”帖被错分产生的损失要远大于“不相关”帖被错分所产生的损失,使得“相关”帖尽可能被筛选出来. 最终的权重值设置为a+=1a=0.01.

    求助者/支持者u的心理画像来自其近期发布的历史帖cu={t1,t2,,tn},u{p,r},其中n是历史帖的个数. 以cu中每条帖子为基本单位,提取与心理健康相关的特征生成心理画像. 受文献[23-25]启发,选择LIWC词类、词性和情绪作为心理画像的依据.LIWC词典很好地涵盖了个体心理构成中许多重要的主题(例如家庭、健康、情感等),是经常被使用且被证明能有效评估个体的心理品质. 另一方面许多研究者依据词性类别统计文本中每个类别出现的单词个数,根据词性的分布规律,分析个体的心理品质和写作风格. 除此之外情绪是个体心理健康状态的重要组成部分,因此情绪可以作为推断个体心理健康的重要信号.

    本文选择基于LIWC词典的词类频次特征(LF)、基于词性的词类频次特征(PF)和基于Emo-BERT的情绪特征(EF)刻画角色心理画像.

    1)基于LIWC词典的词类频次特征(LF). 依据2007版的LIWC词典,统计cu内每条帖子中各词类的频次,LF的每一维对应LIWC词典中1种词类的频次,共64维. 为了避免文本长度的影响,使用归一化指数函数(softmax)对其进行处理,形成最终的特征矩阵{\boldsymbol{F}}_{{\text{LF}}}^u.

    2)基于词性的词类频次特征(PF). 与LF使用LIWC中的词类不同,PF中使用词性表示不同的词类(本文使用NLTK包的词性标注工具,共37种词类),得到特征矩阵{\boldsymbol{F}}_{{\text{PF}}}^u.

    3)情绪特征(EF). 无论是求助帖还是支持帖,用户表达的情绪是含蓄的、多样的、复杂的. 为此,选择使用Emo-BERT模型来理解帖子中的情绪表达. 基于plutchik-2情绪轮[26]理论,在Twitter数据集上标注了8类情绪(喜悦、信任、恐惧、惊讶、悲伤、厌恶、愤怒和期待),然后使用该标注数据集对BERT模型进行微调,获得Emo-BERT模型. 在用户u的历史帖上使用Emo-BERT,得到情绪特征矩阵{\boldsymbol{F}}_{{\text{EF}}}^u.

    使用3个独立的编码器对这3类特征进行编码,并通过一个全连接层(MLP)对各类特征之间的关系进行编码,获得最终的用户角色心理画像表示,如式(2)所示. 根据不同种类特征的特点和历史经验,用于LF和PF的编码器选择CNN,而用于EF的编码器选择Transformer,其中[,]表示向量的拼接,用户的心理画像表示为eu.

    {\boldsymbol{H}}_{{\text{LF}}}^u = {f_{{\text{CNN}}}}({\boldsymbol{F}}_{{\text{LF}}}^u),
    {\boldsymbol{H}}_{{\text{PF}}}^u = {f_{{\text{CNN}}}}({\boldsymbol{F}}_{{\text{PF}}}^u),
    {\boldsymbol{H}}_{{\text{EF}}}^u = {f_{{\text{Transformer}}}}({\boldsymbol{F}}_{{\text{EF}}}^u),
    {{\boldsymbol{e}}^u} = {f_{{\text{MLP}}}}([{\boldsymbol{H}}_{{\text{LF}}}^u,{\boldsymbol{H}}_{{\text{PF}}}^u,{\boldsymbol{H}}_{{\text{EF}}}^u]). (2)

    在对帖子进行表示时,求助帖和支持帖均较长,相较于短文本,拥有更加复杂多变的语义、主题和关系等. 鉴于以上特点,采用2种不同的表示方法,即基于预训练语言模型(pretrained language models, PLMs)的表示和基于图的表示. 前者得益于大规模的预训练数据,使其有较好的文本表示能力;而后者将长文本拆分为局部信息(词集合或子句集合),更加灵活有效地刻画长文本之间的局部匹配能力.

    在融合角色心理画像时,与大部分社区问答模型不同,不能无差别地使用用户角色心理画像. 这是因为人是一种非常复杂的生物,尤其是在心理和情绪方面. 人的心理危机问题不会一成不变,甚至随着时间的推移,可能会有新的心理危机问题产生. 换言之,求助者的角色心理画像可能与多种心理危机问题相关,但当前的求助帖是具有时效性的,其可能只与求助者整体画像的一部分有关,因此模型必须有选择、有限制地使用角色心理画像,而非全盘无差别地让其影响求助帖和支持帖的文本表示. 同理,心理支持者也可能拥有多种不同的专业偏好或兴趣,角色心理画像中仅有部分信息与当前的帖子对相关.

    鉴于以上考虑,我们使用多层注意力机制分步融合角色心理画像和帖子对语义表示,即:先使用2种过滤门Seeker Gating和Supporter Gating分别对求助者和支持者的角色心理画像进行过滤,然后再使用融合门(Fusion Gating)将过滤后的角色心理画像与帖子对的语义表示进行融合. 结合2种不同的语义表示机制,提出2种不同的融合架构,分别是基于预训练语言模型表示的T2CMPPLMs和基于图表示的T2CMPGCN.

    首先使用属于PLMs的BERT获得帖子对的语义表示向量,如式(3)所示:

    {{\boldsymbol{h}}^{pr}} = {f_{{\text{BERT}}}}{\text{(CLS, }}p,{\text{SEP}},r,{\text{SEP}}), (3)

    其中CLS是帖子对的起始符号,SEP用于标识每条帖子的结束.

    然后基于hpr对当前求助者和候选支持者的角色心理画像表示进行过滤,保留与当前帖子对相关的用户角色心理画像信息 {\hat {\boldsymbol{e}}^p} {\hat {\boldsymbol{e}}^r} ,如式(4)(5)所示. 接着,使用过滤后的角色心理画像 {\hat {\boldsymbol{e}}^p} {\hat {\boldsymbol{e}}^r} 影响待匹配帖子对的匹配向量hpr,获得融合了角色心理画像的匹配向量 {\tilde {\boldsymbol{h}}^{pr}} ,如式(6)所示,其中 \circ 表示Hadamard乘积, \sigma (·) 是激活函数,此处选择ReLU作为激活函数.

    \begin{gathered} {{\boldsymbol{\alpha }}^p} = {{softmax}}(\sigma ({{\boldsymbol{w}}^p}{{\boldsymbol{h}}^{pr}} + {{\boldsymbol{b}}^p})), \\ {{\hat {\boldsymbol{e}}}^p} = {{\boldsymbol{\alpha }}^p} \circ {{\boldsymbol{e}}^p}, \\ \end{gathered} (4)
    \begin{gathered} {{\boldsymbol{\alpha }}^r} = {{softmax}}(\sigma ({{\boldsymbol{w}}^r}{{\boldsymbol{h}}^{pr}} + {{\boldsymbol{b}}^r})), \\ {{\hat {\boldsymbol{e}}}^r} = {{\boldsymbol{\alpha }}^r} \circ {{\boldsymbol{e}}^r}, \\ \end{gathered} (5)
    \begin{gathered} {{\boldsymbol{\beta}} ^{pr}} = {{softmax}}(\sigma ({{\boldsymbol{w}}^{pr}}[{{\hat {\boldsymbol{e}}}^p},{{\hat {\boldsymbol{e}}}^r}] + {{\boldsymbol{b}}^{pr}})), \\ {{\tilde {\boldsymbol{h}}}^{pr}} = {{\boldsymbol{\beta}} ^{pr}} \circ {{\boldsymbol{h}}^{pr}}. \\ \end{gathered} (6)

    最后将匹配向量(hpr {\tilde {\boldsymbol{h}}^{pr}} )、过滤后的用户角色心理画像表示( {\hat {\boldsymbol{e}}^p} {\hat {\boldsymbol{e}}^r} )和基于句子的统计特征SF拼接成mpr,作为用户角色心理画像融合模块的输出. 统计特征SF的加入源于对数据集的观察,即求助帖和候选支持帖中一些重要信息(心理危机问题、原因或背景、共情信息等)往往存在于疑问句或感叹句中,因此我们选择一些关于句子的统计特征SF作为辅助特征. 这些特征包括:帖子中疑问句、感叹句以及陈述句的个数,帖子中句子总数和帖子中单词总数.

    T2CMPGCN包括CIG的构建和角色心理画像的融合2个部分. 前者构建pr的初始关系图,后者通过多层图卷积融合角色心理画像.

    1)CIG的构建

    ①节点的构建. 首先,以TextRank[27]抽取pr中的关键词为节点,以词在句子中的共现为边,构建基于词的文本图. 其次,文本图上使用社群算法[28],将相关的关键词聚合形成概念,作为CIG中的节点v,其中每个概念包含1个或多个相关的关键词. 最后,将pr以子句为单位,计算子句与每个概念之间的TF-IDF相似度,依据分值的大小决定子句的归属,归属于节点v下的所有子句称之为节点v的内容. 节点的内容根据子句的来源分为2个子内容,即S ^p(v) S ^r(v) ,它们是局部匹配的基础. 需要注意的是,如果某个子句与所有的概念节点的相似度均不高(即低于阈值),则将其归属于不包含任何关键词的空概念节点.

    ②节点初始特征的构建. 使用2类语义匹配特征,即基于词袋的局部匹配特征和基于神经网络的局部匹配特征作为CIG的节点初始特征. 第一,基于词袋的局部匹配特征. 我们选择了5种经典的基于词袋的相似度计算方法,即TF-IDF、TF、BM25、基于unigram的Jaccard和Ochiai,使用它们计算S ^p(v) S ^r(v) 的语义相似度,并将这些相似度分值拼接为基于词袋的局部匹配特征 {\boldsymbol x}_{{\text{TB}}}^{pr}(v) . 除此之外,额外增加2维指示特征用于指示该概念节点v是否是空概念节点,以及该节点的2个子内容是否都不为空. 第二,基于神经网络的局部匹配特征. 神经网络强大的表示能力可以在一定程度上弥补传统基于词袋的文本表示的不足. 首先根据S ^p(v) S ^r(v) 的内容,以预训练的Word2Vec词向量为输入,使用卷积神经网络(CNN)学习它们的潜在语义表示hp(v)和hr(v). 然后根据式(7)计算基于神经网络的局部匹配特征 {\boldsymbol{x}}_{{\text{NN}}}^{pr}(v) . 考虑到运算效率,所有节点共享同一个卷积神经网络. 将 {\boldsymbol x}_{{\text{TB}}}^{pr}(v) {\boldsymbol x}_{{\text{NN}}}^{pr}(v) 拼接为节点v的初始特征 {{\boldsymbol{x}}^{pr}}(v) . 所有节点的初始特征构成CIG的特征矩阵X.

    {\boldsymbol{x}}_{{\text{NN}}}^{pr}(v) = [\left| {{{\boldsymbol{h}}^p}(v) - {{\boldsymbol{h}}^r}(v)} \right|,{{\boldsymbol{h}}^p}(v) \circ {{\boldsymbol{h}}^r}(v)]. (7)

    ③边及其权重的构建. 依据2个节点的内容计算它们的TF-IDF相似度,若该相似度分值超过阈值,则为这2个节点生成边,相似度分值作为该边的权重.

    2)角色心理画像的融合

    每层角色心理画像的融合包括卷积和融合2个操作,卷积操作整合CIG中不同节点的信息,融合操作引入角色心理画像,其中卷积操作需分别对未融合角色心理画像的节点特征和融合角色心理画像的节点特征进行卷积.

    ①卷积操作. 使用GCN对节点特征进行更新,其输入为CIG,即G=(V, E),其中{v_i} \in V表示第i个概念节点,{e_{ij}} \in E表示节点ij之间的边,边的权重记为wij. 将节点特征矩阵X作为图的输入,如式(8)所示:

    \begin{gathered} \begin{array}{*{20}{c}} {{{\boldsymbol H}^{pr{\text{ - }}(0)}} = {\boldsymbol{X}},}&{{{\hat {\boldsymbol H}}^{pr{\text{ - }}(0)}} = {\boldsymbol{X}}} \end{array}, \\ {{\boldsymbol H}^{pr{\text{ - }}(l)}}{\text{ = }}{f_{{\text{GCN}}}}({{\boldsymbol H}^{pr{\text{ - }}(l - 1)}}), \\ {{\hat {\boldsymbol H}}^{pr{\text{ - }}(l)}}{\text{ = }}{f_{{\text{GCN}}}}({{\hat {\boldsymbol H}}^{pr{\text{ - }}(l - 1)}}). \\ \end{gathered} (8)

    为区分节点向量是否融合角色心理画像,将未融合角色心理画像的第l层隐藏向量输出命名为 {{\boldsymbol H}^{pr{\text{ - }}(l)}} ,而融合角色心理画像的第l层隐藏向量输出命名为 {\hat {\boldsymbol H}^{pr{\text{ - }}(l)}} ,2个GCN网络共享可训练参数.

    ②融合操作. 使用多层注意力将用户角色心理画像与节点特征进行融合,具体过程如下:首先根据第l层输出 {\hat {\boldsymbol H}^{pr{\text{ - }}(l)}} 计算出不同节点的局部信息对用户角色心理画像的注意力得分 {{\boldsymbol{\alpha }}^{p{\text{ - }}(l)}} \in {\mathbb{R}^{\left| V \right| \times 1}} {{\boldsymbol{\alpha }}^{r{\text{ - }}(l)}} \in {\mathbb{R}^{\left| V \right| \times 1}} ,如式(9)(10)所示;然后根据注意力得分对用户角色心理画像进行调整,如式(11)(12)所示;接着将过滤后的 {\hat {\boldsymbol{e}}^{p{\text{ - }}(l)}} {\hat {\boldsymbol{e}}^{{r{\text{ - }}(l)}}} 拼接后作为输入,用于计算注意力权重 {{\boldsymbol{\beta}} ^{{pr{\text{ - }}(l)}}} ,如式(13)所示,揭示每个局部匹配特征与求助者和候选支持者角色心理画像的相关性;最后获得融合了用户角色心理画像的局部匹配特征矩阵 {\tilde {\boldsymbol H}^{pr{\text{ - }}(l)}} ,如式(14)所示,其中 \otimes 表示Kronecker乘积.

    经过L层获得节点特征的高阶表示,即 {{\boldsymbol H}^{pr{\text{ - }}(\left| L \right|)}} {\tilde {\boldsymbol H}^{pr{\text{ - }}(\left| L \right|)}} . 其中 \left| L \right| 表示GCN网络的层数. {\tilde {\boldsymbol{h}}^{pr{\text{ - }}(\left| L \right|)}} {{\boldsymbol H}^{pr{\text{ - }}(\left| L \right|)}} {\tilde {\boldsymbol H}^{pr{\text{ - }}(\left| L \right|)}} 拼接后按列最大池化的结果,再将其与SF拼接形成匹配表示向量mpr.

    值得注意的是,在T2CMPGCN中,由于用户的角色心理画像与待匹配帖子对的各局部信息经过了多层GCN的融合,所以不再像T2CMPPLMs一样将用户的角色心理画像拼接进mpr.

    {{\boldsymbol{\alpha }}^{p{\text{ - }}(l)}} = {{softmax}}({{\boldsymbol{w}}^{{p{\text{ - }}(l)}}}{\rm tanh}({{\boldsymbol{W}}^{{p{\text{ - }}(l)}}}{\hat {\boldsymbol H}^{{pr{\text{ - }}(l)}}} + {{\boldsymbol{b}}^{{p{\text{ - }}(l)}}})), (9)
    {{\boldsymbol{\alpha }}^{{r{\text{ - }}(l)}}} = {{softmax}}({{\boldsymbol{w}}^{{r{\text{ - }}(l)}}}{\rm tanh}({{\boldsymbol{W}}^{{r{\text{ - }}(l)}}}{\hat {\boldsymbol H}^{{pr{\text{ - }}(l)}}} + {{\boldsymbol{b}}^{{r{\text{ - }}(l)}}})), (10)
    \begin{array}{*{20}{c}} {{{\hat {\boldsymbol{e}}}^{{p{\text{ - }}(0)}}} = {{\boldsymbol{e}}^p},}&{{{\hat {\boldsymbol{e}}}^{{p{\text{ - }}(l)}}} = {{\boldsymbol{\alpha }}^{{p{\text{ - }}(l)}}} \otimes {{\hat {\boldsymbol{e}}}^{{p{\text{ - }}(l - 1)}}}} \end{array}, (11)
    \begin{array}{*{20}{c}} {{{\hat {\boldsymbol{e}}}^{{r{\text{ - }}(0)}}} = {{\boldsymbol{e}}^r},}&{{{\hat {\boldsymbol{e}}}^{{r{\text{ - }}(l)}}} = {{\boldsymbol{\alpha }}^{r{\text{ - }}(l)}} \otimes {{\hat {\boldsymbol{e}}}^{r{\text{ - }}(l - 1)}}} \end{array}, (12)
    {{\boldsymbol{\beta}} ^{pr{\text{ - }}(l)}} = {{softmax}}({{\boldsymbol{w}}^{pr{\text{ - }}(l)}}{\rm tanh}({{\boldsymbol{W}}^{pr{\text{ - }}(l)}}[{\hat {\boldsymbol{e}}^{p{\text{ - }}(l)}},{\hat {\boldsymbol{e}}^{r{\text{ - }}(l)}}] + {{\boldsymbol{b}}^{pr{\text{ - }}(l)}})), (13)
    {\tilde {\boldsymbol H}^{pr{\text{ - }}(l)}} = {{\boldsymbol{\beta}} ^{pr{\text{ - }}(l)}} \otimes {\hat {\boldsymbol H}^{pr{\text{ - }}(l)}}. (14)

    决策模块由2个全连接层和激活函数组成,其中每个线性层的输出均需经过激活函数. mpr送入决策模块后,输出最终的预测结果.

    实验数据集来自CLPsych2017 Workshop上的shared task.该任务的目标是自动检测帖子所反映的用户心理危机程度,使用的数据集取自2012年1月到2017年3月期间在线论坛ReachOut上的帖子,该论坛为受心理健康困扰的网络用户提供帮助,用户发布求助帖后,会由心理咨询师或有经验的用户回复,为其提供帮助. 因此,在采集的数据中,以1次回话中的首个帖子为求助帖,对求助帖的回复为相应的支持帖. 数据集中部分帖子被人工标注了crisis,red,amber,green这4类标签,其中非green类(crisis,red,amber)类标签表示该帖子作者存在心理危机,需要干预,是本文需要关注的求助帖.

    尽管该数据集中有657条帖子被标注为crisis,red,amber,但仅有86条为求助帖(1次会话中的首条帖子). 为扩展数据集,本文使用F3TMH模型[23]对人工标注的帖子进行分类,该模型在CLPsych2017 Workshop的shared task中,对green和非green帖子的识别准确率取得最高值,达到0.955,得到求助帖2584条,过滤非green类标签的回复后,得到相应的支持帖(回复)17848条.

    对于MHCQA数据集的构建,针对每条求助帖,人工回复的支持帖作为正样例,随机抽取其他支持帖作为负样例. 参照一般社区问答的负样例数量[29],设定每条求助帖的负样例数量是其正样例数量的16倍.

    考虑到自动标注与人工标注仍然存在细微的差距,为检测模型在真实场景下的性能,将人工标注的86条求助帖及其正样例、负样例作为测试集,而将扩展的求助帖及其正样例、负样例作为训练集. 数据集的统计数据如表1所示.

    表  1  MHCQA数据集统计
    Table  1.  Statistics of MHCQA Dataset
    统计信息训练集测试集
    正样例对数13808555
    负样例对数1870548736
    求助帖长度单词数
    (最短/最长/平均)
    9/1 880/2697/808/200
    支持帖长度单词数
    (最短/最长/平均)
    4/1 899/1154/1393/113
    下载: 导出CSV 
    | 显示表格

    1)用户角色心理画像生成模块

    cu使用的历史帖个数为10.由于统计特征和语言特征为one-hot向量,因此用于这2种特征的编码器是单层CNN,使用多个卷积核,卷积核大小分别是1,2,3.考虑到求助者心理健康状态对时间更为敏感,故针对求助者只使用大小为1和2的卷积核,CNN的输出维度均为128.而情绪特征是由Emo-BERT获得的768维特征,我们采用Transformer作为情绪特征的编码器. 其注意力个数和dropout分别为2和0.5,输出维度设置为128.全连接层输出128维的用户角色心理画像表示向量.

    2)T2CMPPLMs

    T2CMPPLMs使用12层的BERT模型,输出768维的表示向量. 训练中学习率设置为0.001,batchsize和最大训练代数分别设置为32和100.

    3)T2CMPGCN

    T2CMPGCN的图构建中,节点内容隶属的相似度阈值和边构建阈值均设置为0.001,GCN的层数L=2,每层GCN的输出维度均为16,dropout为0.1. 初始词向量使用维度为200的预训练Word2Vec,CLPsych2017 shared task和CLPsych2019 shared task数据集共同参与了该词向量的预训练过程. 对于模型中用于获取局部语义匹配特征的CNN,其输出为32维,同时将ReLU作为激活函数并且添加最大池化层,各节点共用CNN的参数.

    与T2CMPPLMs相比,T2CMPGCN对用户角色心理画像的使用有一定的区别,因此对部分参数做了相应的调整,每个用户历史帖个数增加为15.CNN采用单个卷积核,其大小为1.鉴于图表示的输出维度为32,因此CNN的输出维度和情绪特征的编码器维度分别调整为16和32,且最终输出16维的用户角色心理画像表示. 采用动态的学习率,即在每次迭代的前1000步中,学习率从0.001开始以指数方式递减. 最大训练迭代次数为100.

    4)决策器

    决策器由2层全连接层和sigmoid层组成,其中第1层的全连接输出为16维,使用ReLU激活后送入下一层.

    在实验中使用参数β1=0.8,β2=0.999,ε=108的ADAM优化器.

    本文选择了6个具有竞争力的模型作为对比方法.

    1)ARC-I[8]. 该模型使用CNN分别学习待判断的2个文本表示特征,然后使用学习到的文本表示特征进行相关性判断.

    2)ARC-II[8]. 与ARC-I不同,提前让待匹配的2个文本进行交互,即在学习文本表示时就考虑了2个文本的交互.

    3) MatchPyramid [4]. 该模型是经典的交互型神经网络模型,与表示型神经网络模型不同,该模型以待匹配文本词级别的相关矩阵作为输入.

    4)CIG-GCN[5]. 用CIG表达长文本以及长文本间的语义关系,然后使用GCN进行特征转换,提高模型对于长文本的匹配判断.

    5)BERT [6]. 针对英文数据集的12层基础BERT模型,通过训练集对其进行微调(fine-tune). 在训练时,输入为求助帖和候选支持帖,输出为该帖子对的预测标签,学习率设为0.00005,训练时的batchsize与测试时的batchsize不同,分别为32和8.

    6) diseaseBERT [22]. 在BERT中融入专业领域知识用于医疗保健的问答. 在使用diseaseBERT进行测试前,使用当前数据集的训练集对其进行fine-tune,fine-tune时使用的参数与BERT相同.

    鉴于实验任务是二分类任务,并且任务的目的是为求助帖检索合适的支持帖,并不关心负样例的预测效果,因此采用正样例的精确率(precision)、召回率(recall)和F1值作为实验的评价指标.

    表2展示了三大类模型的实验评价结果,即单阶段模型R1()、2阶段模型R2()和融合角色心理画像的2阶段模型T2CMP,其中T2CMP_1a只使用单层注意力机制,即没有对求助者/支持者的角色心理画像进行过滤,直接融合原始角色心理画像和待匹配的文本对匹配向量. R1(BERT),R1(diseaseBERT)分别表示使用BERT和diseaseBERT的单阶段匹配模型. 从表2可以看出,当大量的非相关负样例存在时,带来了大量的噪声,基于单阶段的匹配模型对正样例的预测具有不错的精确率,但召回率较低,使得模型的整体匹配效果一般,其中R1(BERT)的实验结果最好,F1值为0.4703.

    表  2  各模型的评测结果
    Table  2.  Assessment Results of Different Models
    模型 精确率 召回率 F1值
    R1(BERT) 0.6645 0.3640 0.4703
    R1(diseaseBERT) 0.7073 0.3135 0.4345
    R2 (ACR-I) 0.4764 0.1820 0.2634
    R2 (ACR-II) 0.3500 0.3784 0.3636
    R2 (MatchPyramid) 0.3923 0.4757 0.4300
    R2 (CIG-GCN) 0.6762 0.3838 0.4897
    R2 (BERT) 0.6120 0.4577 0.5237
    R2 (diseaseBERT) 0.6429 0.4541 0.5322
    T2CMPGCN_1a(本文) 0.6041 0.4234 0.4979
    T2CMPPLMs(BERT) _1a(本文) 0.6354 0.4523 0.5284
    T2CMPPLMs(diseaseBERT) _1a(本文) 0.6537 0.4559 0.5372
    T2CMPGCN(本文) 0.6058 0.4541 0.5191
    T2CMPPLMs(BERT)(本文) 0.6434 0.464 9 0.5397
    T2CMPPLMs(diseaseBERT)(本文) 0.696 0 0.4414 0.540 2
    注:加粗数字表示最优结果.
    下载: 导出CSV 
    | 显示表格

    对于所有的2阶段匹配模型R2(),它们的筛选模块均选用BERT,括号内为第2阶段使用的模型. 第1阶段中,首先使用MHCQA数据集中的训练集对BERT进行fine-tune,选择带权重的交叉熵作为训练时的损失函数. 然后使用fine-tune后的BERT分别对MHCQA数据集的训练集和测试集进行帖子筛选,形成用于第2阶段的候选支持帖集合(MHCQA-II)的训练集和测试集,如表3所示. 从表3中可以看出,筛选模块已经筛除了大量的负样例对.

    表  3  MHCQA-II的数据集统计
    Table  3.  Statistics of MHCQA-II Dataset
    统计信息训练集测试集
    正样例对数15651360
    负样例对数15840688
    下载: 导出CSV 
    | 显示表格

    表2中的评测结果显示,经过第1阶段的筛选后,去除了大量的噪声,其最佳匹配效果相比于单阶段匹配模型得到了明显的改善. 例如R2 (BERT),R2 (diseaseBERT)比R1(BERT),R1(diseaseBERT)的F1值分别提高了5.34个百分点和9.77个百分点. 在众多对比方法中,擅长长文本语义理解和匹配的R2(CIG-GCN)的预测精确率最高,达到了0.6762.

    使用多层注意力机制引入用户角色心理画像可以进一步提高模型性能,其中T2CMPGCN与未融合角色心理画像的R2(CIG-GCN)相比,其F1值从0.4897提高到0.5191;相比于R2(BERT),T2CMPPLMs(BERT)则将F1值提高了1.6个百分点 (0.5237到0.5397). 除此之外,还使用diseaseBERT替代BERT,即T2CMPPLMs(diseaseBERT),其效果最好,F1值达到了0.5402,虽然只比未融合角色心理画像的R2(diseaseBERT)略高了0.8个百分点,但其对正样例预测的精确率提高了5.31个百分点. 使用单层注意力机制时T2CMP的效果有所下降,T2CMPGCN_1a比T2CMPGCNF1值下降了2.12个百分点,相比于T2CMPPLMs(BERT)和T2CMPPLMs(diseaseBERT),T2CMPPLMs(BERT)_1a,T2CMPPLMs(diseaseBERT) _1a分别下降了1.13个百分点、0.3个百分点. 这进一步验证了过滤求助者/支持者角色心理画像的必要性.

    附录A列举了2个示例,更直观地表明求助者/支持者角色心理画像对于模型的匹配具有一定的帮助.

    用户的角色心理画像已被证明能有效地提高模型的匹配效果. 为了进一步考察各种心理健康相关特征对用户角色心理画像质量的影响,以及基于句子的统计特征SF的作用,分别对T2CMPPLMs(BERT)和T2CMPGCN进行消融实验.

    表4展示了基于LIWC词典的词类频次特征(LF)、基于词性的词类频次特征(PF)、情绪特征和统计特征(SF)对T2CMPPLMs(BERT)模型的影响. 从结果来看,减少各特征会影响角色心理画像刻画的质量,从而对于那些语义相关性不大且心理健康状态比较隐晦的正样例无法正确识别,导致最终预测的正样例总数量减少,召回率下降. 与此同时,由于模型仅识别出语义匹配和心理健康匹配较明显的支持帖,因此精确率普遍上升.

    表  4  T2CMPPLMs(BERT)模型的消融实验结果
    Table  4.  Ablation Experiment Results of T2CMPPLMs(BERT) Model
    模型 精确率 召回率 F1值
    T2CMPPLMs(BERT)(本文) 0.6434 0.4649 0.5397
    w/o LF 0.6545↑ 0.4505↓ 0.5336
    w/o PF 0.6421↓ 0.4559↓ 0.5332
    w/o EF 0.6505↑ 0.4595↓ 0.5385
    w/o LF, PF 0.6512↑ 0.4541↓ 0.5350
    w/o LF, EF 0.6396↓ 0.4541↓ 0.5311
    w/o PF, EF 0.6478↑ 0.4541↓ 0.5339
    w/o SF 0.6472↑ 0.4595↓ 0.5374
    注:“↑”“↓”分别代表其前面的数值与本文所提模型相应结果的比较趋势是上升和下降.
    下载: 导出CSV 
    | 显示表格

    表5可以看出,LF,PF,EF对T2CMPGCN也有影响,剔除任何1个或2个特征,模型最终的F1值均有较为明显的下降. 对于与心理健康相关的特征,从依次减少的单个特征可以看出,EF和LF相较于PF对模型的影响更大. 若不使用SF,模型的F1值下降了1.18个百分点.

    表  5  T2CMPGCN模型的消融实验结果
    Table  5.  Ablation Experiment Results of T2CMPGCN
    模型 精确率 召回率 F1值 F1值下降百分点
    T2CMPGCN(本文) 0.6058 0.4541 0.5191
    w/o LF 0.6061↑ 0.4270↓ 0.5011 1.8
    w/o PF 0.6063↑ 0.4523↓ 0.5181 0.1
    w/o EF 0.5850↓ 0.4342↓ 0.4984 2.07
    w/o LF, PF 0.6196↑ 0.4108↓ 0.4940 2.51
    w/o LF, EF 0.6170↑ 0.4324↓ 0.5085 1.06
    w/o PF, EF 0.6122↑ 0.3982↓ 0.4825 3.66
    w/o SF 0.6777↑ 0.4054↓ 0.5073 1.18
    注:“↑”“↓”分别代表其前面的数值与本文所提模型相应结果的比较趋势是上升和下降.
    下载: 导出CSV 
    | 显示表格

    2阶段模型T2CMP的效果还受到候选支持帖集合MHCQA-II规模的影响,为此,本节进一步考察不同的筛选力度对T2CMP的影响. 通过使用不同权重的损失函数来调节模型对正样例的召回能力,形成不同规模的候选集合,如表6所示. 从表6可以看出,当{a^ - } = 0.1时,第1阶段的BERT模型在测试集中只召回了255对正样例. 减小{a^ - },第1阶段的模型可以找回更多正样例,但不幸的是,负样例数量增长得更快.

    表  6  不同权重的损失函数形成的MHCQA-II的统计
    Table  6.  Statistics of MHCQA-II formed by Loss Functions with Different Weights
    数据集 训练集对数 测试集对数
    正样例 负样例 正样例 负样例
    MHCQA-II
    {a^ + } = 1,{a^ - } = 0.01
    15651 15840 360 688
    MHCQA-II2
    {a^ + } = 1,{a^ - } = 0.1
    12069 5336 255 236
    MHCQA-II3
    {a^ + } = 1,{a^ - } = 0.001
    13471 40134 418 2055
    下载: 导出CSV 
    | 显示表格

    对于筛选阶段选出的不同规模MHCQA-II,各模型的表现如表7所示.

    表  7  基于MSOIP-II2,MSOIP-II3的各模型评测结果
    Table  7.  Assessment Results of Different Models Based on MSOIP-II2,MSOIP-II3
    模型 MHCQA-II2 MHCQA-II3
    精确率 召回率 F1值 精确率 召回率 F1值
    R2 (ACR-I) 0.5194 0.4577 0.4866 0 0 0
    R2 (ACR-II) 0.5461 0.4378 0.4860 0.1770 0.3279 0.2299
    R2 (MatchPyramid) 0.5303 0.4577 0.4913 0.1825 0.2288 0.2030
    R2 (CIG-GCN) 0.6211 0.3928 0.4812 0.6946 0.2090 0.3213
    R2 (BERT) 0.6415 0.4126 0.5022 0.6846 0.3676 0.4783
    R2 (diseaseBERT) 0.6049 0.4000 0.4816 0.6879 0.3892 0.4971
    T2CMPGCN(本文) 0.6572 0.3766 0.4788 0.7143 0.2162 0.3320
    T2CMPPLMs(BERT)(本文) 0.6869 0.3874 0.4954 0.6780 0.3846 0.4989
    T2CMPPLMs(diseaseBERT)(本文) 0.7053 0.3622 0.4786 0.6687 0.3856 0.4891
    注:加粗数字表示最优结果.
    下载: 导出CSV 
    | 显示表格

    对于规模较小的MHCQA-II2,虽然所有模型的F1值波动性不大(0.4786~0.5022),但各模型的精确率还是有较大差异. 尤其是使用多层注意力融合用户角色心理画像的模型,即T2CMPPLMs(BERT),T2CMPGCN,T2CMPPLMs(diseaseBERT),精确率相较于其他模型均有提升,但受限于筛选阶段返回的正样例个数,F1值不如在MHCQA-II上的表现.

    综上所述,无论筛选阶段返回的候选支持帖的规模如何,融入用户角色心理画像均能改善模型的性能. 从各模型在3个不同规模的数据集上的表现来看,当第1阶段返回的候选支持帖中正样例和负样例的数量比较均衡时(MHCQA-II),可以充分发挥2阶段模型的优势,使得T2CMP获得较优的结果.

    由于BM25在信息检索方面的高效率,我们还尝试使用其作为第1阶段的检索模型,其检索效果如表8所示. 从表8可以看出,当返回相同数量的候选支持帖时,BM25的正样例返回数远低于BERT.第1阶段过低的正样例返回数会极大地限制模型的最终匹配效果.

    表  8  BM25和BERT模型的检索结果
    Table  8.  Retrieval Results of BM25 and BERT Models
    模型 训练集对数 测试集对数
    正样例 负样例 正样例 负样例
    BERT
    {a^ + } = 1,{a^ - } = 0.01
    15651 15840 360 688
    BM25 7102 24389 227 821
    下载: 导出CSV 
    | 显示表格

    当存在大量候选支持帖时,本文提出的融合角色心理画像的2阶段文本匹配模型(T2CMP)能有效地提高模型的匹配效果,它将面向心理健康文本的匹配任务拆分为2个连续的子任务.2个子任务的目的不同,第1阶段的子任务是为了最大限度地筛除语义不相关的支持帖,形成一个较小的候选支持帖集合. 为了避免过多的理想支持帖被筛除,并且由于它的判断结果不是最终的结果,因此通过减小模型误将非理想支持帖判定为理想支持帖的惩罚力度,使得模型对理想支持帖有更高的召回率. 第2阶段子任务的目的是对第1阶段筛选出的候选支持帖增加心理层面的匹配判断,修正语义匹配的结果. 由于候选支持帖均与求助帖有一定的相关性,单纯依赖语义匹配是不够的,T2CMP根据求助者和候选支持者的历史帖,刻画求助者/候选支持者的角色心理画像,了解更多的信息(例如心理健康问题的原因,心理支持者的专业偏好、策略偏好等),利用这些信息辅助模型对求助帖和支持帖进行精确匹配判断以获得更好的匹配效果.

    实验显示,T2CMP的效果不仅优于基于单阶段的匹配模型,而且对于第2阶段的子任务,通过多层注意力融合用户角色心理画像的模型要优于其他当前较为先进的对比模型. 除此之外,我们还通过适应性实验验证了第1阶段的检索效果对第2阶段模型的影响.

    面向心理健康的文本匹配依然面临巨大挑战,例如支持帖中仅包含通用性的“支持方法或建议”会导致语义匹配失效、求助者求助信息有效内容少或支持者支持偏好的缺失,使T2CMP无法利用上下文等.

    以ChatGPT为代表的大语言模型具有较强的文本生成能力,能生成自然流畅且逻辑性好的文本. 在社区问答任务中,面对广泛且多样的问题,大语言模型能较好地理解语境,快速生成相关性高的回复,为用户带来良好的体验感. 然而,当面临关于心理健康问题的求助文本时,ChatGPT通常返回的是笼统的、普适的、缺乏个性化或共情的建议或方法. 此外,直接将ChatGPT生成的结果返回给被心理问题困扰的求助者,也面临伦理挑战. 虽然ChatGPT主要用于文本生成,无法直接应用于面向心理健康的文本匹配,然而由于其良好的对话能力,使用ChatGPT可以提升用户的倾述欲望,获得更为丰富和完整的心理画像,提升心理健康文本的匹配效果. 此外,心理支持者还可以先利用ChatGPT自动生成相应的支持消息,然后对生成的消息进行评估和修改,提升回复效率.

    作者贡献声明:赵芸收集资料,负责研究方案的构思、设计和实现,以及论文撰写及修订;刘德喜提供研究思路、论文组织结构的设计、论文审阅及修订、全过程监督;万常选、刘喜平和廖国琼负责论文审阅及修订.

  • 图  1   心理健康社区上的心理危机消息和候选心理支持回复示例

    Figure  1.   Examples of the question post and the candidate support response in the mental health community

    图  2   T2CMP架构

    Figure  2.   The architecture of T2CMP

    表  1   MHCQA数据集统计

    Table  1   Statistics of MHCQA Dataset

    统计信息训练集测试集
    正样例对数13808555
    负样例对数1870548736
    求助帖长度单词数
    (最短/最长/平均)
    9/1 880/2697/808/200
    支持帖长度单词数
    (最短/最长/平均)
    4/1 899/1154/1393/113
    下载: 导出CSV

    表  2   各模型的评测结果

    Table  2   Assessment Results of Different Models

    模型 精确率 召回率 F1值
    R1(BERT) 0.6645 0.3640 0.4703
    R1(diseaseBERT) 0.7073 0.3135 0.4345
    R2 (ACR-I) 0.4764 0.1820 0.2634
    R2 (ACR-II) 0.3500 0.3784 0.3636
    R2 (MatchPyramid) 0.3923 0.4757 0.4300
    R2 (CIG-GCN) 0.6762 0.3838 0.4897
    R2 (BERT) 0.6120 0.4577 0.5237
    R2 (diseaseBERT) 0.6429 0.4541 0.5322
    T2CMPGCN_1a(本文) 0.6041 0.4234 0.4979
    T2CMPPLMs(BERT) _1a(本文) 0.6354 0.4523 0.5284
    T2CMPPLMs(diseaseBERT) _1a(本文) 0.6537 0.4559 0.5372
    T2CMPGCN(本文) 0.6058 0.4541 0.5191
    T2CMPPLMs(BERT)(本文) 0.6434 0.464 9 0.5397
    T2CMPPLMs(diseaseBERT)(本文) 0.696 0 0.4414 0.540 2
    注:加粗数字表示最优结果.
    下载: 导出CSV

    表  3   MHCQA-II的数据集统计

    Table  3   Statistics of MHCQA-II Dataset

    统计信息训练集测试集
    正样例对数15651360
    负样例对数15840688
    下载: 导出CSV

    表  4   T2CMPPLMs(BERT)模型的消融实验结果

    Table  4   Ablation Experiment Results of T2CMPPLMs(BERT) Model

    模型 精确率 召回率 F1值
    T2CMPPLMs(BERT)(本文) 0.6434 0.4649 0.5397
    w/o LF 0.6545↑ 0.4505↓ 0.5336
    w/o PF 0.6421↓ 0.4559↓ 0.5332
    w/o EF 0.6505↑ 0.4595↓ 0.5385
    w/o LF, PF 0.6512↑ 0.4541↓ 0.5350
    w/o LF, EF 0.6396↓ 0.4541↓ 0.5311
    w/o PF, EF 0.6478↑ 0.4541↓ 0.5339
    w/o SF 0.6472↑ 0.4595↓ 0.5374
    注:“↑”“↓”分别代表其前面的数值与本文所提模型相应结果的比较趋势是上升和下降.
    下载: 导出CSV

    表  5   T2CMPGCN模型的消融实验结果

    Table  5   Ablation Experiment Results of T2CMPGCN

    模型 精确率 召回率 F1值 F1值下降百分点
    T2CMPGCN(本文) 0.6058 0.4541 0.5191
    w/o LF 0.6061↑ 0.4270↓ 0.5011 1.8
    w/o PF 0.6063↑ 0.4523↓ 0.5181 0.1
    w/o EF 0.5850↓ 0.4342↓ 0.4984 2.07
    w/o LF, PF 0.6196↑ 0.4108↓ 0.4940 2.51
    w/o LF, EF 0.6170↑ 0.4324↓ 0.5085 1.06
    w/o PF, EF 0.6122↑ 0.3982↓ 0.4825 3.66
    w/o SF 0.6777↑ 0.4054↓ 0.5073 1.18
    注:“↑”“↓”分别代表其前面的数值与本文所提模型相应结果的比较趋势是上升和下降.
    下载: 导出CSV

    表  6   不同权重的损失函数形成的MHCQA-II的统计

    Table  6   Statistics of MHCQA-II formed by Loss Functions with Different Weights

    数据集 训练集对数 测试集对数
    正样例 负样例 正样例 负样例
    MHCQA-II
    {a^ + } = 1,{a^ - } = 0.01
    15651 15840 360 688
    MHCQA-II2
    {a^ + } = 1,{a^ - } = 0.1
    12069 5336 255 236
    MHCQA-II3
    {a^ + } = 1,{a^ - } = 0.001
    13471 40134 418 2055
    下载: 导出CSV

    表  7   基于MSOIP-II2,MSOIP-II3的各模型评测结果

    Table  7   Assessment Results of Different Models Based on MSOIP-II2,MSOIP-II3

    模型 MHCQA-II2 MHCQA-II3
    精确率 召回率 F1值 精确率 召回率 F1值
    R2 (ACR-I) 0.5194 0.4577 0.4866 0 0 0
    R2 (ACR-II) 0.5461 0.4378 0.4860 0.1770 0.3279 0.2299
    R2 (MatchPyramid) 0.5303 0.4577 0.4913 0.1825 0.2288 0.2030
    R2 (CIG-GCN) 0.6211 0.3928 0.4812 0.6946 0.2090 0.3213
    R2 (BERT) 0.6415 0.4126 0.5022 0.6846 0.3676 0.4783
    R2 (diseaseBERT) 0.6049 0.4000 0.4816 0.6879 0.3892 0.4971
    T2CMPGCN(本文) 0.6572 0.3766 0.4788 0.7143 0.2162 0.3320
    T2CMPPLMs(BERT)(本文) 0.6869 0.3874 0.4954 0.6780 0.3846 0.4989
    T2CMPPLMs(diseaseBERT)(本文) 0.7053 0.3622 0.4786 0.6687 0.3856 0.4891
    注:加粗数字表示最优结果.
    下载: 导出CSV

    表  8   BM25和BERT模型的检索结果

    Table  8   Retrieval Results of BM25 and BERT Models

    模型 训练集对数 测试集对数
    正样例 负样例 正样例 负样例
    BERT
    {a^ + } = 1,{a^ - } = 0.01
    15651 15840 360 688
    BM25 7102 24389 227 821
    下载: 导出CSV
  • [1]

    Sharma A, Lin I, Miner A S, et al. Towards facilitating empathic conversations in online mental health support: A reinforcement learning approach[C]//Proc of the 30th Web Conf. New York: ACM, 2021: 194−05

    [2]

    Liu Siyang, Zheng Chujie, Demasi O, et al. Towards emotional support dialog systems[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2021: 3469−3483

    [3]

    Sun Hao, Lin Zhenru, Zheng Chujie, et al. PsyQA: A Chinese dataset for generating long counseling text for mental health support[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2021: 148−1503

    [4]

    Pang Liang, Lan Yanyan, Guo Jiafeng, et al. Text matching as image recognition[C]//Proc of the 30th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2016: 2793−2799

    [5]

    Liu Bang, Niu Di, Wei Haojie, et al. Matching article pairs with graphical decomposition and convolutions[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 6284−6294

    [6]

    Devlin J, Chang Mingwei, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Proc of the 2019 Conf of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies ( Volume 1 : Long and Short Papers). Stroudsburg, PA: ACL, 2019: 4171−4186

    [7]

    Zhao Yun, Liu Dexi, Wan Changxuan, et al. Find supports for the post about mental issues: More than semantic matching[J]. Transactions on Asian and Low-Resource Language Information Processing, 2022, 21(6): 1−14

    [8]

    Hu Baotian, Lu Zhengdong, Li Hang, et al. Convolutional neural network architectures for matching natural language sentences[C]// Proc of the 28th Conf on Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2014: 2042−2050

    [9]

    Qiu Xipeng, Huang Xuanjing. Convolutional neural tensor network architecture for community-based question answering[C]//Proc of the 24th Int Joint Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2015: 1305−1311

    [10]

    Wan Shengxian, Lan Yanyan, Guo Jiafeng, et al. A deep architecture for semantic matching with multiple positional sentence representations[C]//Proc of the 30th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2016: 2374−3468

    [11]

    Liu Bang, Zhang Ting, Han F, et al. Matching natural language sentences with hierarchical sentence factorization[C]//Proc of the 27th Web Conf. New York: ACM, 2018: 1237−1246

    [12]

    Zhang Xiaodong, Li Sujian, Sha Lei, et al. Attentive interactive neural networks for answer selection in community question answering[C]//Proc of the 31st AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2017: 3525−3531

    [13]

    Wu Yu, Wu Wei, Xu Can, et al. Knowledge enhanced hybrid neural network for text matching[C]//Proc of the 32nd AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2018: 5586−5593

    [14]

    Jiang J, Zhang Mingyang, Li Cheng, et al. Semantic text matching for long-form documents[C]//Proc of the 28th Web Conf. New York: ACM, 2019: 795−806

    [15]

    Nikolentzos G, Meladianos P, Rousseau F, et al. Shortest-path graph kernels for document similarity[C]//Proc of the 22nd Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 1890−1900

    [16]

    Paul C, Rettinger A, Mogadala A, et al. Efficient graph-based document similarity[C]//Proc of the 13th European Semantic Web Conf. Berlin: Springer, 2016: 334−349

    [17] 孙亚伟,程龚,厉肖,等. 基于图匹配网络的可解释知识图谱复杂问答方法[J]. 计算机研究与发展,2021,58(12):2673−2683 doi: 10.7544/issn1000-1239.2021.20211004

    Sun Yawei, Cheng Gong, Li Xiao, et al. Graph matching network for interpretable complex question answering over knowledge graphs[J]. Journal of Computer Research and Development, 2021, 58(12): 2673−2683 (in Chinese) doi: 10.7544/issn1000-1239.2021.20211004

    [18]

    Kim H, Kim B, Kim G. Perspective-taking and pragmatics for generating empathetic responses focused on emotion causes[C]//Proc of the 26th Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2021: 2227−2240

    [19]

    Xie Yubo, Pu P. Empathetic dialog generation with fine-grained intents[C]//Proc of the 25th Conf on Computational Natural Language Learning. Stroudsburg, PA: ACL, 2021: 133−147

    [20]

    Li Qintong, Li Piji, Ren Zhaochun, et al. Knowledge bridging for empathetic dialogue generation[C]//Proc of the 36th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2022: 10993−11001

    [21]

    Zheng Chujie, Liu Yong, Chen Wei, et al. CoMAE: A multi-factor hierarchical framework for empathetic response generation[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2021: 813−824

    [22]

    He Yun, Zhu Ziwei, Zhang Yin, et al. Infusing disease knowledge into BERT for health question answering, medical inference and disease name recognition[C]//Proc of the 25th Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 4604−4614

    [23] 刘德喜,夏先益,万常选,等. 基于多特征融合的在线论坛用户心理健康自动评估[J]. 计算机学报,2019,42(7):1553−1569

    Liu Dexi, Xia Xianyi, Wan Changxuan, et al. Mental health assessment for online forum users based on multi-feature fusion[J]. Chinese Journal of Computers, 2019, 42(7): 1553−1569 (in Chinese)

    [24]

    Trotzek M, Koitka S, Friedrich C M. Utilizing neural networks and linguistic metadata for early detection of depression indications in text sequences[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 32(3): 1041−4347

    [25]

    Aladağ A E, Muderrisoglu S, Akbas N B, et al. Detecting suicidal ideation on forums: Proof-of-concept study[J]. Journal of Medical Internet Research, 2018, 20(6): e215 doi: 10.2196/jmir.9840

    [26]

    Abdul-Mageed M, Ungar L. EmoNet: Fine-grained emotion detection with gated recurrent neural networks[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2017: 718−728

    [27]

    Mihalcea R, Tarau P. TexTrank: Bringing order into text[C]//Proc of the 9th Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2004: 404−411

    [28]

    Sayyadi H, Raschid L. A graph analytical approach for topic detection[J]. ACM Transactions on Internet Technology, 2013, 13(2): 1−4

    [29]

    Shen Yikang, Rong Wenge, Jiang Nan, et al. Word embedding based correlation model for question/answer matching[C]//Proc of the 31st AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2017: 2374−3468

图(2)  /  表(8)
计量
  • 文章访问数:  134
  • HTML全文浏览量:  35
  • PDF下载量:  59
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-12-06
  • 修回日期:  2023-10-29
  • 网络出版日期:  2024-04-09
  • 刊出日期:  2024-07-03

目录

/

返回文章
返回