Loading [MathJax]/jax/output/SVG/jax.js
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

大语言模型驱动的选址推荐系统

高云帆, 郁董卿, 王思琪, 王昊奋

高云帆, 郁董卿, 王思琪, 王昊奋. 大语言模型驱动的选址推荐系统[J]. 计算机研究与发展, 2024, 61(7): 1681-1696. DOI: 10.7544/issn1000-1239.202330629
引用本文: 高云帆, 郁董卿, 王思琪, 王昊奋. 大语言模型驱动的选址推荐系统[J]. 计算机研究与发展, 2024, 61(7): 1681-1696. DOI: 10.7544/issn1000-1239.202330629
Gao Yunfan, Yu Dongqing, Wang Siqi, Wang Haofen. Large Language Model Powered Site Selection Recommender System[J]. Journal of Computer Research and Development, 2024, 61(7): 1681-1696. DOI: 10.7544/issn1000-1239.202330629
Citation: Gao Yunfan, Yu Dongqing, Wang Siqi, Wang Haofen. Large Language Model Powered Site Selection Recommender System[J]. Journal of Computer Research and Development, 2024, 61(7): 1681-1696. DOI: 10.7544/issn1000-1239.202330629
高云帆, 郁董卿, 王思琪, 王昊奋. 大语言模型驱动的选址推荐系统[J]. 计算机研究与发展, 2024, 61(7): 1681-1696. CSTR: 32373.14.issn1000-1239.202330629
引用本文: 高云帆, 郁董卿, 王思琪, 王昊奋. 大语言模型驱动的选址推荐系统[J]. 计算机研究与发展, 2024, 61(7): 1681-1696. CSTR: 32373.14.issn1000-1239.202330629
Gao Yunfan, Yu Dongqing, Wang Siqi, Wang Haofen. Large Language Model Powered Site Selection Recommender System[J]. Journal of Computer Research and Development, 2024, 61(7): 1681-1696. CSTR: 32373.14.issn1000-1239.202330629
Citation: Gao Yunfan, Yu Dongqing, Wang Siqi, Wang Haofen. Large Language Model Powered Site Selection Recommender System[J]. Journal of Computer Research and Development, 2024, 61(7): 1681-1696. CSTR: 32373.14.issn1000-1239.202330629

大语言模型驱动的选址推荐系统

基金项目: 国家自然科学基金项目(62176185);信息系统工程全国重点实验室开放基金(PU52221147);土木工程I类高峰学科建设项目(2022-3-YB-02)
详细信息
    作者简介:

    高云帆: 1997年生. 博士研究生. CCF 学生会员. 主要研究方向为时空数据挖掘、时空知识图谱、大语言模型

    郁董卿: 1997年生. 硕士研究生. 主要研究方向为自然语言处理、推荐系统

    王思琪: 1993年生. 博士研究生. CCF学生会员. 主要研究方向为城市计算、生成式设计、人工智能生成内容

    王昊奋: 1982年生. 博士,研究员. CCF高级会员. 主要研究方向为知识图谱、自然语言处理、大语言模型

    通讯作者:

    王昊奋(carter.whfcarter@gmail.com)

  • 中图分类号: TP391

Large Language Model Powered Site Selection Recommender System

Funds: This work was supported by the National Natural Science Foundation of China (62176185), the National Key Laboratory of Information Systems Engineering (PU52221147) and the Top Discipline Plan of Shanghai Universities-Class I (2022-3-YB-02).
More Information
    Author Bio:

    Gao Yunfan: born in 1997. PhD candidate. Student member of CCF. His main research interests include spatial-temporal data ming, spatial-temporal knowledge graph, and large language model

    Yu Dongqing: born in 1997.Master candidate. His main research interests include natural language processing and recommender system

    Wang Siqi: born in 1993. PhD candidate. Student member of CCF. Her main research interests include urban computing, generative design, and AI-generated content

    Wang Haofen: born in 1982. PhD, professor. Senior member of CCF. His main research interests include knowledge graph, natural lanugae processing, and large language model

  • 摘要:

    选址作为商业决策和城市基础设施规划的核心环节,对实体店铺、城市基础设施能否发挥预期效用具有重要作用. 现有的选址推荐系统数据服务编排较为固定,无法对不同用户需求系统做出及时调整,应用场景受限,人机交互的系统灵活性和可扩展性差. 最近,以GPT-4为代表的大语言模型(large language model,LLM)展现出了强大的意图理解、任务编排、代码生成和工具使用能力,能够完成传统推荐模型难以兼顾的任务,为重塑推荐流程、实现一体化的推荐服务提供了新的机遇. 然而,一方面选址推荐兼具传统推荐共有的挑战;另一方面,由于其基于空间数据,具有独特的挑战. 在这一背景下,提出了大语言模型驱动的选址推荐系统. 首先,拓展了选址推荐的场景,提出了根据位置寻找合适店铺类型的场景推荐任务,结合了协同过滤算法和空间预训练模型. 其次,构建了由大语言模型驱动的选址决策引擎. 语言模型本身在处理空间相关的任务上存在诸多缺陷,例如缺少空间感知能力、无法理解具体位置、会虚构地名地址等. 提出了一种在语言模型框架处理空间任务的机制,通过地理编码、逆编码、地名地址解析等工具提升模型的空间感知能力并避免地址虚构问题,结合选址推荐模型、场景推荐模型、外部知识库、地图可视化完成选址推荐中的多样化任务. 实现选址任务的智能规划、执行与归因,提升了空间服务系统的交互体验,为未来人工智能驱动的选址推荐系统提供新的设计和实现思路.

    Abstract:

    Site selection, as a core link in business decisions and urban infrastructure planning, plays a significant role in whether physical stores and urban infrastructure can perform as expected. The existing site selection recommender system’s data service orchestration is rather fixed and unable to make timely adjustments to different user needs. Its application scenarios are limited, and the system’s flexibility and scalability in human-computer interaction are poor. Recently, large language models (LLMs) such as GPT-4 have demonstrated powerful capabilities in intent understanding, task orchestration, code generation, and tool usage. They can accomplish tasks that traditional recommendation models struggle to balance, providing new opportunities for reshaping the recommendation process and implementing integrated recommendation services. However, site selection recommendation not only shares the common challenges of traditional recommendations but also presents unique challenges due to its reliance on spatial data. Against this backdrop, we propose a LLM-powered site selection recommendation system. Firstly, we expand the scenarios of site selection recommendation and propose a scene recommendation task of finding suitable store types based on location, combining collaborative filtering algorithms and spatial pre-training models. Secondly, we construct a site selection decision engine driven by a large language model. The language model itself has many defects in dealing with space-related tasks, such as the lack of spatial awareness, inability to understand specific locations, and the tendency to fabricate place names and addresses. In this paper, we propose a mechanism for handling spatial tasks within the language model framework. By utilizing geocoding, reverse geocoding, and address resolution tools, we enhance the model’s spatial awareness and prevent address fabrication issues. In combination with site selection recommendation models, scenario recommendation models, external knowledge bases, and map visualization, we accomplish diverse tasks in site selection recommendations. We achieve intelligent planning, execution, and attribution for site selection tasks, enhance the interaction experience of spatial service systems, and provide new design and implementation ideas for future AI-driven site selection recommender systems.

  • 深度估计和语义分割作为场景理解的2个重要组成部分,在计算机视觉领域受到了广泛的关注. 近年来,深度卷积神经网络凭借其优异的深度特征表示能力,极大地提高了深度估计和语义分割任务的性能.

    深度估计是计算机视觉中的一个热门研究方向,在3维重建、场景理解、环境感知等任务中起到了关键作用[1]. 许多方法利用不同类型的传感器获得深度信息,包括单目相机[2]、多视角相机[3]和激光雷达[4]. 虽然单目相机价格低廉且应用广泛,但由于其尺度模糊性,也是最具挑战性的. 目前表现较好的单目深度估计方法[5]都依赖于有监督训练,需要大量的深度真值标签用于建立监督信号,而获取深度真值标签成本高昂,并且存在明显噪声. 为了避免这些缺点,一些自监督方法利用无标签立体图像[6]或单目视频帧[7]作为输入,基于光度一致性原理,将光度一致性损失作为监督信号,取得了与监督方法相当的性能. 然而,大部分的自监督深度估计方法主要依赖光度损失和平滑损失作为监督信号,因此,在低纹理区域、反射表面和存在遮挡的区域存在高模糊性,得到了较差的深度估计表现. 为了减少这些病态区域的影响,许多工作都尝试引入来自其他领域的约束,如光流[8]、曲面法线[9]以及语义信息[10]. 光流通过区分相机运动和物体运动,处理深度估计中违反了光度一致性假设的移动物体;而曲面法线可以矫正深度图在平面区域发生的畸变,利用几何关系进行更精确的估计;语义信息则是从语义实例中过滤动态对象或显式地建模对象运动,将其合并到场景几何图形中或者通过正则化相应语义对象内的深度平滑度,加强深度和语义预测之间的一致性.

    本文设计了一个跨任务交互模块(cross tasks interactive module,CTIModule). 通过计算参考特征和目标特征之间的相似性,有效地利用异构表示之间的跨任务交互作用,将深度特征和语义信息之间的关系量化为一种注意形式,细化与语义一致的深度特征,从而产生更好的深度预测. 在特征提取阶段,为了实现语义引导,深度估计和语义分割任务共享同一个编码器,同时,利用提出的多任务特征提取模块(multi-task feature extraction module,MTFEModule)堆叠构建共享编码器,进一步改善因感受野大小和缺乏跨通道交互导致的特征表示能力下降,提升编码器的特征提取能力.

    本文的主要贡献有3个方面:

    1)提出了一种新的联合语义分割任务的自监督单目深度估计方法,其中深度估计任务与语义分割任务共享编码器,为了进一步提高共享编码器的特征表示能力,提出多任务特征提取模块,利用多路径和注意力融合策略,使神经元自适应地根据输入选择感受野大小,提升深度估计表现;

    2)提出跨任务交互模块,充分学习语义的隐式表示,细化与语义一致的深度特征,产生具有语义感知的深度信息,相应地,利用深度特征表示中的场景几何信息进行语义特征增强,最终实现了深度估计和语义分割任务的共同提升;

    3)在KITTI数据集上,基于公用评判标准,进行了全面的性能评估,证明了本文提出的USegDepth模型在自监督单目深度估计中的优秀表现,并利用相应的消融实验证明了所提策略的有效性.

    传统深度估计方法中大多采用多视图图像作为输入,包括使用双目或多目相机获取的图像对以及使用单目相机获取的连续图像帧. 多视角立体视觉和运动恢复结构是2种经典的传统多视图深度估计方法. 但基于传统方法的单目深度估计大都依赖场景中特殊视觉信息,因此对环境要求严格. 并且,所需计算资源大,难以满足实际工业需求.

    随着深度学习的发展,很大程度上弥补了传统算法存在的局限性. 深度学习策略可以分为有监督深度估计方法和无监督深度估计方法.

    有监督深度学习是指使用传感器获得的深度真值建立网络训练的监督信号. Eigen等人[11]利用卷积神经网络实现单目深度估计,提出一个双尺度网络结构,其中细尺度网络将粗尺度网络的全局预测结果与原始输入图片的局部信息结合,丰富局部细节,使场景中的边缘信息更加突出. 相较于传统方法,基于有监督学习的深度估计方法不依赖图像对或连续图像序列之间的特征点提取与匹配,降低了场景限制,并且实现了高质量的深度估计结果. 但是,基于有监督学习的网络模型训练依赖深度真值标签建立监督信号,而深度值标签的获取成本高昂且不易采集,导致其在实际使用中受限.

    无监督深度估计方法在训练模型的过程中无需通过激光雷达等设备获取到真实深度建立监督信号,仅依赖RGB图像学习,极大降低了深度估计任务成本,并且获得了可以与有监督方法相媲美的估计精度. Zhou等人[12]提出了一个基于单目视频流的深度估计框架. 利用深度估计网络预测的深度图和位姿估计网络计算的相对位姿,进行视图重建. 理想状态下,重建视图应与原视图生成一致的光度信息,利用二者之间的光度差异建立光度一致性损失,作为模型训练的主要监督信号.

    目前单目深度估计和语义分割的研究都取得了一定成果,但大多数方法都在强调学习鲁棒的回归,忽略了二者之间的相互作用. 这2个任务之间具有共同的特性,例如,语义分割和深度估计都可以揭示场景布局、对象的形状以及边缘. 联合语义相关任务进行深度估计的方法可以分为3类:语义和深度分支共享权重、混合语义和深度特征以及建模语义与深度之间的统计学关系. Wang等人[13]提出一种联合语义分割训练的深度估计方法,包括一个预测稠密深度图的全局网络和一个计算语义标签的区域估计网络,经过2层条件随机场优化得到细化后的输出. Jafari等人[14]通过量化深度预测图和语义预测图之间的跨膜态影响,提出一种由估计模块和细化模块组成的模块化神经网络. 其中估计模块根据不同的任务,分别构建相应的子网络,2个子网络共同训练,相互促进. Liu等人[15]利用语义分割生成的语义标签,判断像素或区域所属的语义类,引导深度估计. Zhu等人[16]提出利用语义分割的边缘指导深度边缘,有效改善了物体边缘质量. 张玉亮等人[17]构建以超像素为节点的拓扑关系图,有效融合边缘语义信息,提高了提取局部结构信息的能力.

    图1描述了本文提出的USegDepth模型的整体框架. 在整体框架中,一共有3个子任务,包括深度估计、位姿估计以及语义分割,这3个子任务共同训练. 其中位姿估计任务有独立的编码器和解码器,深度估计任务与语义分割任务共享一个编码器,但有各自独立的解码器. 共享编码器利用提出的多任务特征提取模块构建,跨任务交互模块嵌入于深度估计和语义分割的解码器各层之间,实现2个特定任务解码器之间的跨任务交互. 框架的输入为连续视频帧It-1以及It,深度估计与语义分割网络每次以1张视频帧作为输入,经过共享编码器提取特征后,将提取的特征分别送入各自独立的解码器中,深度估计的解码器最终输出1张稠密深度图,语义分割的解码器则生成1张相应的语义分割图. 位姿估计网络将2张相邻帧聚合后作为输入,计算2帧之间的相对位姿,利用计算得到的深度图和位姿进行视图重建,根据光度一致性原理,建立重建视图与目标视图之间的光度损失作为主要的监督信号. 同时,利用语义标签与模型预测生成的语义分割图建立交叉熵损失,通过反向传播提供更多的语义感知表示,优化深度估计网络层. 并且我们还联合了语义引导的三重态损失,利用场景语义的局部几何关系,优化深度图边界,使输出的深度图与语义边界更加对齐.

    图  1  USegDepth整体框架
    Figure  1.  Overall framework of USegDepth

    为了构建一个具有改进特征表示能力的共享编码器,提高编码器跨多任务性能,本文提出了多任务特征提取模块,如图2所示. 其中多任务特征提取模块包括分组特征映射和多分支特征注意力融合2个操作. 首先将每个块的特征映射沿着通道维度划分为多个组和更细粒度的子组,每个子组的分支上采用不同尺度的卷积核提取特征,然后利用注意力融合模块对具有不同尺度卷积核的分支生成的多尺度特征分配不同的权重,其中每个组的特征表示是其子组表示的加权组合. 通过堆叠多任务特征提取模块,构建了深度估计与语义分割的共享编码器.

    图  2  多任务特征提取模块
    Figure  2.  Multi-tasks feature extraction module

    图2(a)描述了一个多任务特征提取模块的整体结构,图2(b)是其中注意力融合模块的具体结构表示. 分组特征操作,采取了多分支特征提取的策略. 将特征分为K个组,同时,在一个特征映射组中将特征再次分组,引入了一个新的超参数r,特征组的总数G = Kr. 本文设置K=2,r=2. 之后是对不同分支的特征进行注意力特征融合. 结合局部特征和全局特征,在注意力模块中对多个分支实现通道交互. 通过对2个不同卷积核大小的网络分支分配不同的注意力,使神经元可以自适应地根据不同输入信息调整其感受野大小. 为了尽可能保持注意力融合模块的轻量级,只是将局部上下文添加到注意力模块内的全局上下文中. 全局通道上下文表示如式(1)所示:

    P(x)=β(PWConv2(δ(β(PWConv1(g(x)))))) (1)
    g(x)=1H×WHi=1Wj=1x[:,i,j].

    其中x表示输入的中间特征,g(x)表示全局平均池化操作,β表示批处理正则化,δ表示ReLU激活函数. 局部通道上下文聚合器选择点向卷积(point-wise convolution,PWConv)实现每个空间位置的点向通道交互. 为了节约参数,通过瓶颈结构计算局部通道上下文L(x)RC×H×W,如式(2)所示:

    L(x)=β(PWConv2(δ(β(PWConv1(x))))). (2)

    L(x)与输入特征具有相同的形状,它可以保留和突出低级特征中的细节信息. 将全局通道上下文g(x)和局部通道上下文L(x)聚合后,最终得到细化后的特征x,如式(3)所示:

    x=xM(x)=xσ(L(x)g(x)), (3)

    其中,M(x)RC×H×W为注意力特征融合模块产生的注意力权重,σ表示Sigmoid函数,代表广播加法,为元素级乘法.

    跨任务交互模块的结构如图3所示,该模块位于深度估计解码器和语义分割解码器的每个解码器层之间,利用来自2个解码器之间的特征进行交互信息,产生具有语义感知的深度特征,细化深度预测,同时,也可以利用深度特征中的场景几何信息增强语义特征. 每个跨任务交互模块有2个输入,分别为深度估计的特征图和语义分割的特征图,固定其中一个为参考特征,另一个为目标特征,利用参考特征细化目标特征. 由于跨任务交互模块是单向的数据流,因此,为了实现双向特征增强,每个解码器层之间都同时嵌入2个跨任务交互模块. 以下描述一个跨任务交互模块的具体实现:固定深度估计编码器生成的特征为目标特征、语义分割编码器生成的特征为参考特征. USegDepth框架中,深度解码器与语义分割解码器都由n个解码层组成(其中n=0,1,2,3,4),每层解码器中都包含上采样操作,特征图的空间分辨率会逐层增加1倍,即第n层解码器的深度特征图Fnd与语义分割特征图Fns的空间分辨率为H/24nW/24n,其中HW为输入图像的高度和宽度.

    图  3  跨任务交互模块结构
    Figure  3.  Cross-task interaction module structure

    跨任务交互模块附加在深度估计和语义分割的每个解码器层之间,首先通过计算2个特征映射FndFns之间的跨任务相似度,作为像素级的注意力得分,使深度特征感知语义信息. 由于任务性质的不同,使用原始特征向量直接计算相似度是不可行的,因此,采用了一个线性投影ρ,将原始特征从输入维度C变换为C. 应用3个独立的线性嵌入,每个嵌入分别作为查询ρq、键ρk和值ρv函数. 目标特征映射Fld作为键和值嵌入的输入,参考特征映射Fls作为查询嵌入的输入. 通过表示子空间间接计算跨任务相似度,细化后的特征的计算方法如式(4)所示:

    Fnd(i)=β(A(i))×ρv(Fnd(i)) (4)
    A(i)=ρk(Fnd(i))Tρq(Fns(i))C

    其中归一化因子β用于缩放输入,注意力分数A(i)由相似度量化得到.

    分配与语义具有高度一致的深度特征较大的注意力分数,利用语义信息细化深度特征. 解码器中放置了2个跨任务交互模块,当语义特征作为目标特征时,则深度特征成为参考特征,利用深度特征映射细化语义分割的特征表示.

    受多头注意的启发,采用多重线性投影,通过不同的表示子空间计算特征向量之间的相似性,更有效地从多嵌入中选择性地提取深度特征,最大限度地利用跨空间性. 具体地,使用H个不同的投影函数,ρhh = 1,2,···,H),将查询、键和值映射到H个独立的子空间. 式(4)中的跨任务相似性直接扩展到多嵌入方案,如式(5)所示:

    Fnhd(i)=β(Ah(i))×ρhv(Fnd(i)), (5)

    其中

    β(Ah(i))=eAh(i)hHeAh(i)
    Ah(i)=ρhk(Fnd(i))Tρhq(Fns(i))C.

    细化的总特征映射Fld(i)是对每个嵌入函数细化后的特征映射的总和,如式(6)所示:

    Fld(i)=Hh=1Fnhd(i), (6)

    其中,h表示多重线性嵌入的索引. 采用Softmax作为归一化函数,计算每个嵌入的重要性,然后有选择地利用来自多重注意力的输出.

    随后对细化后的总深度特征映射Fld实施通道注意力,分别利用全局最大池化和全局平均池化压缩空间维度,保留通道信息,然后再将多层感知机处理后的特征相加,利用Sigmoid激活函数得到最终的通道注意力权重,对Fld再次加权,有选择地关注更有用的通道信息. 具体如式(7)所示:

    FlMd=Mc(Fld)=β(MLP(AvgPool(Fld))+MLP(MaxPool(Fld))). (7)

    最后将输入特征图Fnd与加权后的FlMd进行特征融合. 具体地,先将细化后的特征图Fld投影到原始维数C,投影操作用γ表示,然后将2个特征映射拼接为[γ(Fld)Fnd],通过2个卷积层作用于连接的特征映射,完成与初始特征图Fnd的融合,从而生成FndfFndf作为第n+1层深度解码器的输入.

    深度估计任务和语义分割任务网络采用编码器-解码器架构,这2个任务的编码器共享,采用提出的多功能特征提取模块堆叠构成,遵循残差结构实现跳跃连接,将上层网络信息引入到下层网络,解决深层网络中梯度消失问题.

    解码器采用上采样层和卷积层结合的策略构建,一共包括4个相同的Upconv结构,分别为Upconv 1,Upconv 2,Upconv 3和Upconv 4,每个Upconv中包括特征图融合、多个卷积层和上采样操作. 每个Upconv的输入包括上一层网络的输出和具有相同大小的编码器生成的特征图,将二者融合后进行卷积和上采样操作,最后Upconv4的输出图像尺寸与输入图像尺寸相同. 在解码器中,对输入矩阵扩充时采用反射填充,扩充值使用附近像素值,相较于零填充,可以减少物体边界处的模糊问题,提高特征图清晰度.

    整体采用U-Net架构,在编码器中通过下采样收缩特征分辨率,解码器中对称地通过上采样实现特征分辨率的扩展,并结合下采样各层信息对细节信息还原,更好地提高输出图像精度.

    跨任务交互模块嵌入在深度估计和语义分割网络的第l层解码器之间,其中l = 0,1,2. 采用H = 4的多嵌入方案,原始特征与嵌入特征之间的维度比为2,即C=2C.

    位姿网络中,同样采用编码器-解码器结构,其中编码器采用ResNet18,因为位姿网络的输入为2张RGB图像在通道维度的拼接,因此,扩展第1个卷积核的输入维度为6通道,解码器中首先使用压缩操作对图像特征进行降维,之后进行多次卷积操作,最后预测出相机位置变化的平移运动和旋转运动.

    光度损失是自监督深度估计的主要监督信号. 利用深度估计网络预测的像素级深度图,以及位姿估计网络计算的6-Dof相对位姿,基于重建原理,实现从输入图像ItIt1的投影,获得投影后的像素坐标:

    ˆIt=Wt(It1,p) (8)
    p=KTtt1ZtK1p

    其中pIt中像素的齐次坐标,pp经过Ttt1的变换坐标. Wt (·)是一个可微双线性采样器[18],在It1中获得p附近的像素,然后在ˆIt中找到p的线性插值像素. 理想情况下,深度估计网络和位姿估计网络都得到了最佳训练,ItˆIt应该是对齐的. 利用结构相似性指数度量[19]L1损失结合,建立光度一致性损失[3]Lph

    Lph=(1α)|ItˆIt|+α1SSIM(It,ˆIt)2. (9)

    添加了边缘感知平滑损失[20]Lsm

    Lsm=|xdt|e|xIt|+|ydt|e|yIt|. (10)

    由于联合了语义分割任务,因此,在网络训练中添加交叉熵损失. 通过逐个像素对比本文方法中预测的分割图与标签之间的差异得到损失值,具体如式(11)所示. 通过反向传播语义分割的交叉熵损失可以进一步优化深度估计层,提供更多的语义引导.

    Lce=class(yclasslog(pclass)) (11)

    其中class代表类别数,yclass为热编码值,且yclass{0,1}pclass为网络预测值经过Softmax得到的概率值.

    基于场景语义中的局部几何关系,每个对象实例中的相邻像素具有相似的深度值,而跨语义边界的像素则具有较大的深度差异. 语义引导的三重态损失[21]通过在表示空间中定义和优化距离,为优化深度表示提供了有效的监督信号,使深度解码器在边界区域上产生更多的可鉴别性特征,从而使输出的深度图与语义边界更加对齐. 如式(12)所示:

    LSGT=i[|p+i|,|pi|>T]Lpii[|p+i|,|pi|>T] (12)
    Lpi=max(0,d+(i)+md(i))

    其中p+ipi是局部补丁pi中的正、负像素集,i是锚点的空间位置. 使用p+ipi来确定pi是否相交于语义边界. 设置了一个阈值T,如果|p+i||pi|都大于T,则表示pi与物体之间的边界相交. 减少锚点与正特征之间的距离,并增加锚点与负特征之间的距离. 当区分出带有语义信息的p+ipi后,将位置同步到预测的深度图中,区分出d+区域和d区域,d+(i)d(i)分别是2个区域关于锚点i的深度差异.

    整体训练损失函数为:

    Ltotal=Lph+βLsm+γLce+δLSGT (13)

    其中βγδ为各损失的权重参数.

    训练前调整原始图像分辨率为192×640,设置批处理大小为12.使用Adam优化器,初始学习速率设置为1.5E4,共训练20代,经过10代和15代的训练后,学习速率衰减0.1. 遵循之前的工作[22],设置α=0.85. 平滑损失β、交叉熵损失γ以及三重态损失δ的权重参数分别设置为:β= 0.001,γ= 0.3,δ= 0.1. 三重态损失的边缘m设置为0.3,阈值T设为4,mT值的设置遵循先前工作[21].

    在KITTI数据集上对模型进行了深度估计测试. 使用Eigen split[22]的分割序列,包括39910张和4424张图像分别用于模型的训练和验证, 697张图像用于模型评估. 为了训练语义分割模型,首先使用一个现有的网络[23]生成伪标签,用于评估与模型预测的语义分割图之间的差异,建立交叉熵损失. 使用与KITTI 2015[24]对应的KITTI语义分割基准训练集提供的200张RGB图像和对应的语义标签评估语义分割性能.

    基于单目深度估计研究中常用的评价指标客观评估本文所提出的模型. 评价指标主要包括错误率和准确率,以下1)~4)为错误率,5)为准确率.

    1) 相对误差(absolute relative error,AbsRel):

    AbsRel=1NNi=1|DiDi|Di. (14)

    2) 均方相对误差(squared relative error,SqRel):

    SqRel=1NNi=1|DiDi|2Di. (15)

    3) 均方根误差(root mean square error,RMSE):

    RMSE=1NNi=1|DiDi|2. (16)

    4) 对数均方根误差(root mean square logarithmic error,RMSElog):

    RMSElog=1NNi=1|logDilogDi|2. (17)

    5) 阈值精度:

    δτ=max{DiDi,DiDi}<ετ (18)

    其中ε=1.25τ{1,2,3}, 阈值精度所取得的阈值为1.25,1.252,1.253. 以上5个指标中Di表示预测的深度值,Di表示真实的深度值,N表示像素总数.

    表1展示了本文提出的USegDepth模型方法在KITTI数据集上与其他方法的深度估计对比结果,包括联合语义分割任务的方法和单任务训练方法. 对比结果显示USegDepth在每个度量上都优于其他工作. 相较于文献[30]在训练和测试过程中都需要语义信息,本文联合语义分割的多任务网络中,语义信息只用于训练阶段,在测试阶段无需额外的语义处理操作. 与USegDepth的研究类似,SGDepth[31]同样采用深度估计与语义分割共享编码器的方式利用语义信息实现深度估计增强的多任务训练,但仅仅通过共享编码器并不能充分利用语义信息. 因此,在如图4所示的对比方法深度估计结果可视化中,尤其是标注区域,可以看出相较于SGDepth,USegDepth捕获了更多的细粒度信息,特别是在物体边界,恢复出了更清晰的轮廓. 相较于没有联合语义信息,仅包含深度估计网络和位姿估计网络的Monodepth2[3],整体轮廓模糊且细节信息丢失,因此,证明联合语义分割任务可以增强深度估计表现.

    表  1  数据集KITTI上的深度估计对比结果
    Table  1.  Comparison Results of Depth Estimation on KITTI Datasets
    模型方法 语义模块 错误率 准确率
    AbsRel SqRel RMSE RMSElog δ1 δ2 δ3
    Zhou 等人[7] 0.208 1.768 6.856 0.283 0.678 0.885 0.957
    Zhao 等人[25] 0.146 1.084 5.445 0.221 0.807 0.936 0.976
    Gordon 等人[26] 0.128 0.959 5.230 0.212 0.845 0.947 0.976
    SceneNet [27] 0.118 0.905 5.096 0.211 0.839 0.945 0.977
    Lee 等人[28] 0.112 0.777 4.772 0.191 0.872 0.959 0.982
    Zou 等人[29] 0.115 0.871 4.778 0.191 0.874 0.963 0.984
    Guizilini 等人[30] 0.113 0.831 4.663 0.189 0.878 0.971 0.983
    SGDepth [31] 0.112 0.833 4.688 0.190 0.884 0.961 0.981
    Monodepth2 [3] 0.110 0.831 4.642 0.187 0.883 0.862 0.982
    PackNet-SfM [32] 0.111 0.785 4.601 0.189 0.878 0.960 0.982
    SAFENet [33] 0.112 0.788 4.582 0.187 0.878 0.963 0.983
    HR-Depth [34] 0.109 0.792 4.632 0.185 0.884 0.962 0.983
    VTDepthB2 [35] 0.105 0.762 4.530 0.182 0.893 0.964 0.983
    MonoFormer [36] 0.104 0.846 4.580 0.183 0.891 0.962 0.982
    USegDepth(本文) 0.102 0.657 4.328 0.175 0.896 0.968 0.984
    注:“√”表示该方法联合了语义信息,黑体值表示最优结果.
    下载: 导出CSV 
    | 显示表格
    图  4  NYU-Depth数据集上的深度估计结果可视化
    Figure  4.  Visualization of depth estimation results on NYU-Depth dataset

    表2评估了每一个策略的有效性,其中Baseline代表设置共享编码器为ResNet50网络,损失函数仅包含光度损失和平滑损失的框架. 首先通过联合语义分割任务,采用共享编码器的方式共同训练,添加交叉熵损失Lce作为监督信号,有效提升模型精度,证明语义信息有益于深度估计性能的提升. 然后,单独引入MTFEModule构建共享编码器,通过细化特征映射,进一步提升深度估计表现,证明了MTFEModule的有效性. 又通过单独引入语义引导的跨任务交互模块CTIModule,赋予深度预测更多的语义感知,进一步改进基线. 最后,所有策略的共同作用显著提升了USegDepth的表现.

    表  2  数据集KITTI上的消融实验结果
    Table  2.  Results of Ablation Experiments on KITTI Datasets
    模型方法 错误率 准确率
    AbsRel SqRel RMSE RMSElog δ1 δ2 δ3
    Baseline 0.123 0.898 4.873 0.216 0.870 0.959 0.982
    Baseline+Lce 0.119 0.834 4.762 0.192 0.879 0.961 0.983
    Baseline+Lce+MTFEModule 0.108 0.783 4.613 0.189 0.882 0.962 0.983
    Baseline+Lce+CTIModule 0.106 0.754 4.571 0.186 0.885 0.963 0.983
    USegDepth(本文) 0.102 0.657 4.328 0.175 0.896 0.968 0.984
    注:黑体值表示最优结果.
    下载: 导出CSV 
    | 显示表格

    表3将是否融入CTIModule生成的深度估计结果及语义分割结果对比,证明CTIModule实现了语义分割和深度估计的双向增强. 为了更直观地对比分析,在图5中对深度估计结果进行可视化,其中第1行从KITTI数据集选取RGB样本图,第2行是模型在解码器部分不嵌入CTIModule时得到的深度估计图,第3行是模型在解码器部分嵌入2个CTIModule时得到的深度图. 可以看出,使用了CTIModule的模型恢复出了更清晰的边界以及更多的细节信息,说明该模块可以利用语义信息有效增强深度估计结果.

    表  3  使用/不使用CTIModule在深度估计和语义分割任务上的消融实验结果
    Table  3.  Experimental Results of Ablation with/Without CTIModule on Depth Estimation and Semantic Segmentation Tasks
    模型方法 语义分割 深度估计
    MIoU AbsRel SqRel RMSElog δ1 δ2 δ3
    USegDepth w/o CTIModule 0.571 0.109 0.788 4.696 0.884 0.963 0.982
    USegDepth(本文) 0.577 0.102 0.657 4.328 0.896 0.968 0.984
    注:MIoU为均交并比. 黑体值表示最优结果.
    下载: 导出CSV 
    | 显示表格
    图  5  使用/不使用CTIModule模块的消融实验可视化
    Figure  5.  Visualization of ablation experiments with/without CTIModule module

    受多头自注意力启发,CTIModule模块中采用多嵌入的形式,表4对嵌入数H的选择进行消融实验,结果表明采用多嵌入形式有效提升了深度估计表现.

    表  4  CTIModule模块嵌入数H的消融实验结果
    Table  4.  Results of Ablation Experiments on Number of Embeddings H for CTIModule Module
    H 错误率 准确率
    AbsRel SqRel RMSE RMSElog δ1 δ2 δ3
    1 0.107 0.784 4.616 0.184 0.890 0.965 0.983
    2 0.105 0.759 4.571 0.181 0.889 0.966 0.984
    4 0.102 0.657 4.328 0.175 0.896 0.968 0.984
    注:黑体值表示最优结果.
    下载: 导出CSV 
    | 显示表格

    本文提出了一种联合语义分割的精确单目深度估计方法. 为了充分利用语义信息,深度估计任务与语义分割任务共享编码器,该编码器由多任务特征提取模块堆叠构建,其中采用了分组特征映射和多分支特征注意力融合策略,旨在改善因感受野大小和缺乏跨通道的交互问题导致的特征表示能力下降问题,实现了网络自适应地根据输入选择感受野大小,提高了编码器的特征提取能力从而有效提升了模型精度. 在解码器各层之间嵌入跨任务交互模块,利用来自深度估计特征图与语义分割特征图之间的交互信息,生成丰富的空间细粒度表示,细化特征,实现双向特征增强. 通过在KITTI数据集的广泛评估,证明本文所提的USegDepth模型方法具有较高的估计精度,且相比于其他深度估计方法性能具有一定的提升.

    作者贡献声明:宋霄罡和胡浩越共同负责算法思路和实验方案设计;胡浩越负责完成实验并撰写论文;宁靖宇协助完成部分实验;梁莉、鲁晓锋和黑新宏提出指导意见并修改论文.

  • 图  1   本文系统框架图

    Figure  1.   Illustration of our system framework diagram

    图  2   选址推荐流程图

    Figure  2.   Site selection recommendation pipeline

    图  3   场景推荐流程图

    Figure  3.   Scene recommendation pipeline

    图  4   选址推荐决策框架

    Figure  4.   Site selection recommendation framework

    图  5   检索增强的文档问答

    Figure  5.   Retrieval-augmented document QA

    图  6   选址决策引擎的指令模板

    Figure  6.   Prompt temple for site selection engine

    图  7   地名地址处理流程

    Figure  7.   Address processing pipeline

    图  8   行业选址推荐结果

    Figure  8.   Industry site selection recommendation results

    图  9   文档问答展示

    Figure  9.   Illustration of document QA

    图  10   选址推荐展示

    Figure  10.   Illustration of site selection recommendation

    图  11   场景推荐展示

    Figure  11.   Illustration of scene recommendation

    表  1   浦发银行选址推荐结果

    Table  1   SPD Bank Site Recommendation Results %

    城市准确率召回率F1-score
    上海90.2791.3190.74
    北京91.0191.5291.26
    广州83.0185.8084.18
    西安92.1093.4392.68
    武汉84.7082.8683.55
    下载: 导出CSV

    表  2   场景推荐的实验结果

    Table  2   Scene Recommendation Experimental Results %

    模型 准确率 召回率 F1-score
    Wide&Deep 80.79 79.66 79.47
    NeuralCF(GMF) 75.09 74.95 74.91
    本文方法(冷启动) 77.24 65.97 71.16
    本文方法(只有特征) 82.97 82.73 82.69
    本文方法(合并) 82.96 82.82 82.80
    注:黑体数值表示最高的实验结果.
    下载: 导出CSV
  • [1]

    Liu Yan, Guo Bin, Li Nuo, et al. DeepStore: An interaction-aware wide&deep model for store site recommendation with attentional spatial embeddings[J]. IEEE Internet of Things Journal, 2019, 6(4): 7319−7333 doi: 10.1109/JIOT.2019.2916143

    [2]

    Ge Dongdong, Hu Luhui, Jiang Bo, et al. Intelligent site selection for bricks-and-mortar stores[J]. Modern Supply Chain Research and Applications, 2019, 1(1): 88−102 doi: 10.1108/MSCRA-03-2019-0010

    [3]

    Yu Zhiwen, Tian Miao, Wang Zhu, et al. Shop-type recommendation leveraging the data from social media and location-based services[J]. ACM Transactions on Knowledge Discovery from Data, 2016, 11(1): 1−21

    [4]

    OpenAI. GPT-4 technical report[J]. arXiv preprint, arXiv: 2303.08774, 2023

    [5] Wei J, Wang Xuezhi, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022, 35: 24824−24837

    Wei J,Wang Xuezhi,Schuurmans D,et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems,2022,35:24824−24837

    [6]

    Liang Yaobo, Wu Chenfei, Song Ting, et al. Taskmatrix. AI: Completing tasks by connecting foundation models with millions of apis[J]. arXiv preprint, arXiv: 2303.16434, 2023

    [7]

    Fan Wenqi, Zhao Zihua, Li Jiatong, et al. Recommender systems in the era of large language models [J]. arXiv preprint, arXiv: 2307.02046, 2023

    [8]

    Lin Jianghao, Dai Xinyi, Xi Yunjia, et al. How can recommender systems benefit from large language models: A survey[J]. arXiv preprint, arXiv: 2306.05817, 2023

    [9]

    Gao Yunfan, Sheng Tao, Xiang Youlin, et al. Chat-Rec: Towards interactive and explainable LLM-augmented recommender system[J]. arXiv preprint, arXiv: 2303.14524, 2023

    [10]

    Zhang Junjie, Xie Ruobing, Hou Yupeng, et al. Recommendation as instruction following: A large language model empowered recommendation approach[J]. arXiv preprint, arXiv: 2305.07001, 2023

    [11]

    Mai Gengchen, Huang Weiming, Sun Jin, et al. On the opportunities and challenges of foundation models for geospatial artificial intelligence[J]. arXiv preprint, arXiv: 2304.06798, 2023

    [12] 宋轩,高云君,李勇,等. 空间数据智能:概念、技术与挑战[J]. 计算机研究与发展,2022,59(2):255−263 doi: 10.7544/issn1000-1239.20220108

    Song Xuan, Gao Yunjun, Li Yong, et al. Spatial data intelligence: Concept, technology and challenges[J]. Journal of Computer Research and Development, 2022, 59(2): 255−263 (in Chinese) doi: 10.7544/issn1000-1239.20220108

    [13]

    Lin J, Oentaryo R, Lim E P, et al. Where is the goldmine? Finding promising business locations through Facebook data analytics[C]// Proc of the 27th ACM Conf on Hypertext and Social Media. New York: ACM, 2016: 93−102

    [14] Li Jing, Guo Bin, Wang Zhu, et al. Where to place the next outlet? Harnessing cross-space urban data for multi-scale chain store recommendation[C]//Proc of the 2016 ACM Int Joint Conf on Pervasive and Ubiquitous Computing. New York: ACM, 2016: 149−152

    Li Jing,Guo Bin,Wang Zhu,et al. Where to place the next outlet? Harnessing cross-space urban data for multi-scale chain store recommendation[C]//Proc of the 2016 ACM Int Joint Conf on Pervasive and Ubiquitous Computing. New York:ACM,2016:149−152

    [15] Ghodusinejad M H, Noorollahi Y, Zahedi R. Optimal site selection and sizing of solar EV charge stations[J]. Journal of Energy Storage, 2022, 56: 105904

    Ghodusinejad M H,Noorollahi Y,Zahedi R. Optimal site selection and sizing of solar EV charge stations[J]. Journal of Energy Storage,2022,56:105904

    [16] Saha A, Pamucar D, Gorcun O F, et al. Warehouse site selection for the automotive industry using a fermatean fuzzy-based decision-making approach[J]. Expert Systems with Applications, 2023, 211: 118497

    Saha A,Pamucar D,Gorcun O F,et al. Warehouse site selection for the automotive industry using a fermatean fuzzy-based decision-making approach[J]. Expert Systems with Applications,2023,211:118497

    [17]

    Guo Bin, Li Jing, Zheng V W, et al. Citytransfer: Transferring inter-and intra-city knowledge for chain store site recommendation based on multi-source urban data[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2018, 1(4): 1−23

    [18]

    Gao Yunfan, Han Dong, Wang Haofen, et al. GeoGTI: Towards a general, transferable and interpretable site recommendation[C]// Proc of the 2022 Int Conf on Web Information Systems and Applications. Berlin: Springer, 2022: 559−571

    [19]

    Yabe T, Tsubouchi K, Shimizu T, et al. Unsupervised translation via hierarchical anchoring: Functional mapping of places across cities[C]//Proc of the 26th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining. New York: ACM, 2020: 2841−2851

    [20]

    Liu Yan, Guo Bin, Zhang Daqing, et al. Knowledge transfer with weighted adversarial network for cold-start store site recommendation[J]. ACM Transactions on Knowledge Discovery from Data, 2021, 15(3): 1−27

    [21]

    Xu Yanan, Shen Yanyan, Zhu Yanmin, et al. AR2Net: An attentive neural approach for business location selection with satellite data and urban data[J]. ACM Transactions on Knowledge Discovery from Data, 2020, 14(2): 1−28

    [22]

    Ouyang Long, Wu J, Jiang Xu, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730−27744

    [23]

    Chowdhery A, Narang S, Devlin J, et al. Palm: Scaling language modeling with pathways[J]. arXiv preprint, arXiv: 2204.02311, 2022

    [24]

    Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint, arXiv: 2206.07682, 2022

    [25]

    Shen Yongliang, Song Kaitao, Tan Xu, et al. HuggingGPT: Solving AI tasks with chatgpt and its friends in huggingface [J]. arXiv preprint, arXiv: 2303.17580, 2023

    [26]

    Weng Lilian. LLM-powered autonomous agents [EB/OL]. (2023-06-23) [2023-06-30] .https://lilianweng.github.io/posts/2023-06-23-agent/

    [27]

    Bran A M, Cox S, White A D, et al. ChemCrow: Augmenting large-language models with chemistry tools [J]. arXiv preprint, arXiv: 2304.05376, 2023

    [28]

    Li Zhenlong, Ning Huan. Autonomous GIS: The next-generation AI-powered GIS [J]. arXiv preprint, arXiv: 2305.06453, 2023

    [29]

    Liu Yu, Ding Jingtao, Li Yong. Knowledge-driven site selection via urban knowledge graph [J]. arXiv preprint, arXiv: 2111.00787, 2021

    [30]

    Lundberg S M, Lee S I. A unified approach to interpreting model predictions[J]. Advances in Neural Information Processing Systems, 2017, 30: 4765−4774

    [31]

    Shimizu R,Matsutani M,Goto M. An explainable recommendation framework based on an improved knowledge graph attention network with massive volumes of side information[J]. Knowledge-Based Systems,2022,239:107970

    [32]

    Guo Lei, Zhang Jinyu, Chen Tong, et al. Reinforcement learning-enhanced shared-account cross-domain sequential recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 35(7): 7397−7411

    [33]

    Gao Yunfan,Xiong Yun,Wang Siqi,et al. GeoBERT:Pre-training geospatial representation learning on point-of-interest [J]. Applied Sciences,2022,12(24):12942

    [34]

    Yao Shunyu, Zhao J, Yu Dian, et al. ReAct: Synergizing reasoning and acting in language models[J]. arXiv preprint, arXiv: 2210.03629, 2022

    [35]

    Karpas E, Abend O, Belinkov Y, et al. MRKL systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning [J]. arXiv preprint, arXiv: 2205.00445, 2022

    [36]

    Lewis P,Perez E,Piktus A,et al. Retrieval-augmented generation for knowledge-intensive NLP tasks [J]. Advances in Neural Information Processing Systems,2020,33:9459−9474

    [37]

    Ke Guolin, Meng Qi, Finley T, et al. LightGBM: A highly efficient gradient boosting decision tree[J]. Advances in Neural Information Processing Systems, 2017, 30: 3146−3154

    [38]

    Liu Han, Wei Yinwei, Yin Jianhua, et al. HS-GCN: Hamming spatial graph convolutional networks for recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(6): 5977−5990

    [39]

    Li Jiacheng, Wang Ming, Li Jin, et al. Text is all you need: Learning language representations for sequential recommendation [J]. arXiv preprint, arXiv: 2305.13731, 2023

    [40]

    He Xiangan , Liao Lizi, Zhang Hanwang, et al. Neural collaborative filtering [C] //Proc of the 26th Int Conf on World Wide Web. New York: ACM, 2017: 173−182

    [41]

    Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems [C] //Proc of the 1st Workshop on Deep Learning for Recommender Systems. New York: ACM, 2016: 7−10

    [42]

    Ho N L, Lim K H. POIBERT: A transformer-based model for the tour recommendation problem [C] //Proc of the 2022 IEEE Int Conf on Big Data (Big Data). Piscataway, NJ: IEEE, 2022: 5925−5933

  • 期刊类型引用(0)

    其他类型引用(4)

图(11)  /  表(2)
计量
  • 文章访问数:  450
  • HTML全文浏览量:  138
  • PDF下载量:  203
  • 被引次数: 4
出版历程
  • 收稿日期:  2023-07-30
  • 修回日期:  2024-01-03
  • 网络出版日期:  2024-03-03
  • 刊出日期:  2024-06-30

目录

/

返回文章
返回