-
摘要:
交通流量预测是建设智慧城市重要的基础功能,对城市的交通管理和用户出行规划具有重要意义. 由于时间维度和空间维度的扩展,交通流量的数据具有规模大、增长快速、实时更新等特征,传统的训练模型通常需要将大量的历史数据进行训练预测,导致较长的计算时间和较高的算力成本,因此,如何使用低计算成本的预测模型来满足广泛的流量预测需求是重要的技术挑战. 近年来兴起的提示微调范式在自然语言处理的下游任务推广中取得了较好的效果,受其启发,提出利用少量的实时数据来微调优化大规模历史数据预训练的模型,为交通流量模型预测的优化应用提出了一种新的思路. 通过引入图提示微调的交通流量预测(traffic flow prediction based on graph prompt-finetuning,TPGPF)模型的泛化能力,在时空多维度下的交通流量图预测模型中,基于历史数据集进行预测模型的预训练,并引入可学习的提示向量,在预训练模型固化的情况下指导预训练的自监督学习模型,以适应新的数据预测任务,提升交通流量预测模型的通用性和有效性. 通过在5个公开数据集上进行了大量的实验,证明了TPGPF的有效性.
Abstract:Traffic flow prediction is a crucial foundational aspect in the development of smart cities, holding significant implications for urban traffic management and user travel planning. The expanding dimensions of both time and space contribute to the increasing volume of traffic flow data, with real-time updates presenting a challenge in deploying cost-effective forecasting models to meet diverse traffic prediction demands. Inspired by the success of the emerging paradigm of graph-based finetuning in downstream tasks of natural language processing, we introduce, for the first time to our best knowledge, graph based finetuning to enhance the generalization capabilities of traditional traffic flow prediction models, called TPGPF (traffic flow prediction based on graph prompt-finetuning), which could enhance the generality and effectiveness of self-supervised learning. In the context of spatiotemporal multidimensional traffic flow prediction models, our approach involves pretraining the model based on historical datasets and introducing learnable prompt vectors. With the pretrained model solidified, a self-supervised learning model is guided by the introduced prompt vectors to adapt to new data prediction tasks, thereby enhancing the generality and effectiveness of traffic flow prediction models. Extensive experiments on five real-world public datasets validate the effectiveness of our work, which provides an effective method to overcome the cost challenge brought by quasi real-time training of traffic flow data.
-
Keywords:
- graph prompt /
- traffic flow prediction /
- finetuning /
- pre-trained model /
- self-supervised learning
-
2022年11月30日,OpenAI公司发布了一款名为ChatGPT的软件. 该软件在发布后的5天内,用户数量就超过了100万,2个月内活跃用户数更是突破了1亿,成为了迄今为止增长速度最快的应用软件. 该软件几乎可以完成自然语言处理的所有任务,因此在营销、客服、教育、娱乐、咨询、翻译等行业有着广阔的应用前景. 这一成功也激励了OpenAI首席执行官Sam Altman,他于2023年2月24日发表了一篇名为“Planning for AGI and Beyond”的文章,认为AGI(artificial general intelligence,通用人工智能)是AI systems that are generally smarter than humans,需要为AGI的到来做准备
1 . AGI会是AI的未来吗?本文将对此进行讨论.1. ChatGPT的“能”:生成
比尔盖茨将ChatGPT誉为自1980年现代图形桌面环境GUI问世以来最具革命性的科技进步. 如果说上一次让AI火出圈的AlphaGo所展现出的是在特定领域的“专”,这一次ChatGPT展现出的则是AI在广泛应用场景的“通”:这个“通”以正常人都会、都懂、都能体验的对话形式呈现,让AI——特别是自然语言处理技术进入主流用户群,孕育出了这一现象级产品. 具体而言,ChatGPT在对话过程中展现出了自然对话、多轮交互、上下文学习、思维链推理、实时反馈在线纠错、能适应未训练任务以及GPT-4中新出现的理解弦外之音的能力.
ChatGPT背后的思想其实很简单:将所有语言任务归为对话任务,并将对话任务归为文字接龙的生成问题. 自然语言处理领域的学者普遍认为,ChatGPT展现出的优秀对话生成能力对传统研究方法产生了巨大挑战. 1)从目标上看,自然语言处理旨在让计算机能够以文字或语音的方式与人类进行有效交流;而对话是人类日常生活中最基本的交流方式,如果实现了人机自然对话,在一定程度上便达到了自然语言处理的核心目标. 2)从任务类型上看,自然语言处理可分为自然语言理解和自然语言生成两大类. 在谷歌的T5模型[1]推出之后,两类任务统一为单项语言生成的文字接龙形式. 自GPT-1起,OpenAI就一直坚持采用基于解码器结构的自回归语言模型,这种模型在处理语言生成问题方面具有天然的优势. 所以ChatGPT可以处理以前不同赛道的语言处理任务,比如翻译、问答、摘要、扩写、写作、润色、代码生成、语句分析、段落理解等.
当然,ChatGPT能够实现如今顺畅自然的人机对话,不仅源于其对GPT语言生成技术路线的持续发展,还依赖于算法、算力和数据等多方面的支持. 由于ChatGPT并未开源,也没有发布论文透露具体细节,我们只能基于OpenAI已公开的GPT系列技术发展路线来推测这些能力背后的潜在原因. 图1展示了部分ChatGPT已展现出的能力及其背后主要技术原因的对应关系. 值得关注的是,ChatGPT许多能力背后的原因仍在探索过程中. 关于上下文学习的能力,有学者认为模型从提示词(prompt)提供的示例中确定了待解决任务的自然语言指令(instruct),从而在无需微调模型的情况下提升了问题回答的质量[2]. 关于任务涌现和多任务迁移能力,一方面,有学者认为指令学习、大规模预训练和数据集多样性共同促进了模型在新任务的泛化能力[3]. 例如,通过在大量不同类型和指令任务上进行微调,模型学习到了一定程度的通用能力,从而能够泛化到未见过的指令和场景. 另一方面,不同任务的划分具有一定的主观性,其本质上都可以建模为统一的自然语言生成任务. 大型预训练语言模型通过学习大量训练数据,掌握了丰富的语言知识和多种任务之间的共性,进而利用这些共性来提高不同任务的性能. 然而,一些问题仍然没有明确答案,例如:何种模型规模和训练数据量阈值可以产生任务涌现能力?涌现能力与模型规模和训练数据量之间的量化关系如何?同时,其他一些能力,如在线纠错、理解弦外之音等,其背后的原因仍然有待发现.
OpenAI首席科学家llya Sutskeve最近在与英伟达首席执行官黄仁勋的访谈中对ChatGPT能力学习进行了解释:“ChatGPT通过学习文本中的统计相关性,获得了这个世界的一个压缩、抽象、可用的映射表达”. 这让我们不禁思考:ChatGPT是否学到了人类文字符号世界的暗知识(tacit knowledge)[4]. Michael Polanyi在他的认识论著作中曾提到:“We can know more than we can say(我们所知者,远多于所能说者)”. 可以确定的是:机器学习模型通过统计海量符号语料中的规律,能够学习到词汇、语法、乃至一定程度的上下文和常识知识. 问题是:随着语料规模的不断增加和统计规律的持续积累,模型所建立的世界表达分辨率越来越高、维度越来越丰富时,是否真的有可能学习到人类情感、道德观念等支撑整个世界运行的更复杂的暗知识?
在学术界积极探索ChatGPT能力背后的技术原因的同时,工业界已在欢迎这项新技术,并将其优秀的对话生成能力融入各种应用场景. 根据ChatGPT对话的对象和本身的定位,我们将这些应用分成4个层次,如表1所示:
表 1 ChatGPT主要应用类型Table 1. Main Applications Categories of ChatGPT对话对象 定位 实现思路 应用场景 数据生成器 根据需求直接生成数据 对话、文案、代码生成 数据 知识挖掘工具 对原始数据再加工或分析挖掘 翻译、润色、摘要、文档管理 模型 模型调度员 调用其他机器学习模型协同 模型拓展、智能中台 应用 人机交互界面 调用各类应用程序解决实际问题 插件、智能操作系统接口 1)数据生成器. 根据需求直接生成数据. 此类应用仅输入用户需求,利用ChatGPT的生成能力返回特定类型的数据. 由于思路简洁且实现容易,数据生成类应用在ChatGPT发布之初就大量出现. 主要应用场景包括对话生成(客服、虚拟数字人)、文案生成(法律文书、营销策划广告)和代码生成等. 典型的成功案例包括写作助手Notion AI
2 、营销文案生成工具Jasper.ai3 .2) 知识挖掘工具. 对数据进行再加工或分析挖掘.此类应用同时输入用户需求和待处理的原始数据,利用ChatGPT强大的自然语言处理能力返回经过加工的数据或挖掘出的新信息. 知识挖掘类应用可以分为离线和在线两种形式. 离线应用通过调用类ChatGPT API分析和挖掘私有数据等专业领域语料构建知识库,为进一步应用提供知识支持. 在线应用的主要场景包括翻译、润色、摘要生成、文档管理等. 一些典型案例包括搜索引擎摘要插件WebChatGPT、文档分析工具ChatPDF以及OpenAI官方随GPT-4发布的摩根士丹利策略分析师.
3) 模型调度员. 调用其他机器学习模型共同解决用户需求.此类应用同时输入用户需求、待处理数据以及多个可调用的机器学习模型,通过ChatGPT作为人类与其他模型间的连接,设计解决方案、调用并管理其他机器学习模型,共同完成用户需求并输出结果.这方面的典型案例是微软近期发布的系列多模态解决方案Visual ChatGPTPT[5]、MM-ReAct[6]和HuggingGPT[7],其通过调度其他视觉基础模型来协同完成视觉和语音任务. 此外,AI赋能一直以来的一个痛点问题是:智能中台需要整合不同模型和技术,并根据业务需求扩展新的模型. ChatGPT有望实现智能中台的升级,如提供友好的开发/业务人员界面、实现模块化模型管理、简化技术集成和部署,从而提高AI赋能效率. 随着ChatGPT应用探索的深入,相信模型调度员类型的应用将越来越受到关注.
4) 人机交互界面. 调用更广泛的应用程序帮助人类解决实际问题. 第一种形式是将ChatGPT嵌入到特定应用中,从而极大地提升自然交互体验,如微软的365 Copilot和Copilot X分别将ChatGPT融入Office和Github. 第二种形式是在ChatGPT搭建的自然语言交互框架上开发各类信息服务应用,去年10月推出的开源库LangChain和OpenAI最近发布的插件集Plugins都是大型语言模型应用开发框架的典型尝试. 正如Windows和Android分别是桌面和移动时代的操作系统,ChatGPT有望成为智能时代的操作系统接口. 进一步畅想,如果把语言分为人类之间沟通的自然语言和人与计算机之间沟通的计算机语言,ChatGPT在一定程度上统一了二者:用自然语言实现了人和计算机之间的沟通,不得不说“自然语言编程(natural language programming)”这一新词非常贴切. 从这个角度看,我们甚至可以大胆预测:人机交互界面将从磁带、键盘字符、鼠标图形全面进化到自然语言时代.
以上围绕对话生成讨论了ChatGPT的具体能力、背后的技术原因以及在不同定位下的应用形式. 尽管“对话生成”提供了无限的想象,但OpenAI的野心显然并不止于此. 从名称和发布时间点来看,ChatGPT似乎只是一种过渡性技术的产品形式. 在以对话这种产品形式向主流用户群展示了强大的技术实力之后,OpenAI新发布的GPT-4并未继续在对话生成功能上炫技,而是悄然接入了各类官方应用.
从生物学角度,语言和智能的演化过程相互促进. 人类智能在很大程度上依赖于高度复杂的语言系统. 语言作为思维的载体和智慧的外在表现,其运用能力很大程度上反映了认知能力和智能水平. 语言习得是认知发展的重要组成部分,儿童在成长过程中通过习得语言来理解世界,并逐渐掌握其他认知技能. ChatGPT等技术在语言生成能力的持续提升能将人工智能带到什么高度,让人非常期待.
2. ChatGPT的“不能”:负责
能力越大,责任越大. ChatGPT展现出的强大能力让主流用户群欣喜、学术界惊讶、工业界狂热. 这些能力让我们在使用它时感受到了与以往技术不同的体验. 回顾人类历史上的几次技术革命,从早期的石器、金属器具、机械设备、电气设备到近几十年的计算机、互联网和智能手机,每一个阶段所发明的工具都对人类生活产生了深远影响. 在使用这些工具时,我们可以清楚地意识到它们作为工具的定位,即辅助人类来完成任务. 然而,在使用ChatGPT的过程中,我们经常会产生一种与另一个人对话的错觉,尤其是当类似Plugins这类功能使其能够像人类一样利用其他工具进行自我增强的时候. 埃隆•马斯克在使用ChatGPT后的感受是“好到吓人”. 这种独特的体验无疑将加速技术融入人类社会的进程. 正如OpenAI自己对ChatGPT的评价:“尽管 ChatGPT 还没有实现真正的智能,但它让人体验到了真正的智能实现后,每个人都能用它做各种他们想做的事情的滋味”.
整个2023年3月都被各种生成式AI技术和产品的发布充斥,如Meta Alpaca、GPT-4、PaLM-E、文心一言、Office Copilot、Midjourney V5、英伟达新显卡、Github CopilotX、ChatGPT插件、Security Copilot等. 我们可以预见相关技术的应用领域将迅速拓展、应用程度将大幅度加深. 人们在享受技术带来的便捷和生产力提升的过程中,对技术的态度将从习惯逐渐转变为依赖. 而当人们开始依赖这些技术代替自己学习、思考、甚至决策时,有2个问题摆在我们面前:技术是否已经做好准备承担责任?人类对技术的信赖是否超出了它的能力?
实际上,ChatGPT在使用过程中已被发现存在诸多问题,如数学计算、未来预测、时空物理现实推理等方面能力的局限,以及事实错误(幻觉)、生成毒害内容等方面的不可控[8]. 下面从可信AI的4个维度对ChatGPT存在的问题展开讨论.
1) 安全性. OpenAI在官网上将“安全”列为五个目录之一,在随GPT-4发布的报告中批露了其在技术和评估两方面都设立了专门的安全小组,足见其对安全性的重视. 然而,和所有机器学习模型一样,ChatGPT仍存在着被对抗攻击的风险. 一种典型方式是提示语注入攻击(prompt injection attack):在提示语中混入恶意指令,可能绕过ChatGPT的安全机制,迫使其执行意外动作,如泄露敏感信息、输出有害内容等. 例如,ChatGPT驱动的新Bing在受到攻击后泄露了其内部代号“Sydney”;ChatGPT被诱导规划抢劫方案,甚至提供了购买抢劫道具的链接等.
2) 公平性. 在ChatGPT之前,OpenAI的文生图DALL-E系列曾被发现存在输出性别和种族歧视内容的问题. 类似地,GPT-2、Bert、RoBERTa等语言模型在一个测试项目中也被发现具有严重的性别偏见倾向[9]. 尽管目前尚无系统性地研究分析ChatGPT在性别和种族偏见方面的表现,但已有研究发现它存在明显的语言敏感性. 例如,当用日语和俄语分别询问一个日俄争议岛屿的归属问题时,ChatGPT给出了截然不同的答案[10].
3) 可解释性. ChatGPT的思维链能力可以在答案中同时呈现推理过程,这在部分程度上解决了实验室环境下模型可解释性的问题. 然而,需要注意的是,这种推理过程的解释是面向用户的,并不一定与模型的实际运行机制准确对应. 此外,ChatGPT仍存在很多尚未解释的行为,包括自我在线纠错、理解弦外之音等能力,以及出现事实错误(幻觉)等问题. 由于大模型本身的复杂性以及仅通过API提供服务的现实限制,ChatGPT对于用户和开发者都是完全的黑箱. 随着应用场景的拓宽和加深,现有的解释性水平可能难以满足透明度和回溯性等的要求.
4) 数据隐私. 涉及训练阶段的数据侵权和推理阶段的隐私泄露两个方面. 大模型训练需要的海量数据多来自网络,其中难免包括未经授权的版权保护内容. ChatGPT虽然可能避免语句层面的抄袭,但难以避免语义上的深度抄袭. 2023年,大模型领域发生了多起版权侵权案.例如,3名艺术家指控Stable Diffusion使用其版权作品作为训练数据,而微软和OpenAI因其开发被指控其开发的编程助手Copilot涉嫌复制Github上的开源代码而受到指控. 在推理阶段,攻击者有可能通过逆向攻击等手段,利用模型输出的结果来反向推导出训练数据中的隐私信息. GPT-2、BERT、RoBERTa等语言模型均被发现存在数据隐私泄露的风险[11]. 随着模型规模和功能多样性的增加,这种风险可能进一步加大:模型规模越大,其记忆能力越强;功能越多样化,可被利用的信息和攻击方式也越丰富. ChatGPT自身代号的泄露便证实了这一点.
从生成式AI模型选择的技术路线和当前发展水平看,这些问题既可以归结为大型语言模型固有的结构局限,也可以归结为将符号任务统一建模为对话问题的过度简化. 关于这条技术路线的未来发展,同时存在着乐观和悲观两种观点. 乐观派认为,人脑神经元突触连接总数约为一百万亿,随着语言模型参数量的不断增加,模型可能在某个时刻实现量变到质变的跃迁,这些问题也会自然消失. 然而,包括乔姆斯基、Stuart Russell等大佬在内的悲观派则持相反观点,他们认为端到端的深度学习与人类进行推理和使用语言的方式有着巨大差异,依靠更多数据和算力无法消除这些缺陷或实现真正的智能.
不讨论技术路线的选择或者观点的对错,不管生成式AI模型的能力演进到何种程度,其定位始终是帮助人类更好地完成任务的工具. 作为工具,首先应该明确能力边界,即“做自己能做的事”. 在认知心理学中,约瑟利窗口(Johari Window)将人际关系划分为公开区、盲区、隐藏区、未知区四个象限[12]. 参照这种方法,如图2所示,我们可以沿“自知”和“能力”2个维度绘制一个坐标系,智能工具处理的任务将落在其中一个象限内. 当任务落在“自知”负半轴的2个象限时,可能会出现不可预知的问题:在隐藏区时,模型“不知道自己能”,可能在收到用户反馈后将原本正确的答案改为错误,或接受用户错误反馈的引导;在未知区时,模型“不知道自己不能”,可能会产生事实错误幻觉,一本正经地胡说八道.
根据“自知”–“能力”坐标系,首先需要明确能力边界,即扩大“自知”正半轴2个象限的覆盖范围,使更多任务落入公开区和盲区. 在公开区时,模型可以自信地回答用户的问题;而在盲区时,模型应该承认能力缺陷,避免回答不知道的问题,或者虚心接受用户的反馈引导. PAL[13]是开发隐藏区的一个例子,通过在提示词中注入包含推理过程的程序示例,成功挖掘了模型在原本容易回答错误的数学推理类任务的解决能力. 在明确能力边界后,需要进一步提升模型的能力,即扩大“能力”正半轴、尤其是第一象限的面积,使更多的任务从盲区转移到公开区. 缩小盲区的一个例子是ReAct[14],它将推理和行动结合,通过调用搜索等插件从网络等外部资源中逐步、有选择性地收集和处理新信息,从而提高了模型在各种复杂场景下的解决能力. 另一个最新提出的框架Reflexion[15],它在ReAct基础上加入了自省(Reflect)功能,通过试错的方式,在寻找自身能力边界的同时,探索新任务的解决方案. 这是一个在同时确定能力边界和提高能力范围方面很有意思的尝试.
当然,“自知”–“能力”坐标系只是一个理想和简化的框架. 人类在执行任务时,通常会考虑诸如道德、伦理、公平等价值观. 而ChatGPT并不具备人类的价值观和判断力,可能会生成与事实相悖的错误信息和误导性的建议. 比如,当用户询问“林黛玉是如何倒拔垂杨柳的”,ChatGPT会一本正经地介绍相关具体细节. 事实上,《林黛玉倒拔垂杨柳》是一部网络小说,中文论坛上也有许多对这一虚构情节的讨论. 模型在学习这些语料时无法区分虚构和现实,因此产生了这个尴尬的回答. 随着GPT-4的发布,可以预见ChatGPT将有能力在符号世界中实现自动化生成. 然而,它依然不能确保所生成内容的真实性,自然更无法对生成结果承担责任.
3. 什么是“真”?
为了解释为何ChatGPT无法保证结果为真,首先需要探讨什么是“真”. “真”的定义有很多,本文采用亚里士多德的经典定义[16]:说是者为非,非者为是,即为假;而说是者为是,非者为非,即为真. 基于此,Tarski提出一个更形式化的“真”的定义[17]:
X是真语句当且仅当 p,
其中p代表任意语句,X是语句p的名称.
即,一个语句是真的,当且仅当它描述的情况确实发生了. 比如:“树在长芽”是真语句当且仅当树在长芽,即“树在长芽”是真语句当且仅当树在长芽确实发生了.
但是,这个看似合理的“真”的定义却隐含矛盾. Tarski转述了乌卡谢维茨的加强版说谎者悖论:
令C是“C不是一个真语句”的名称,因此,有如下2个假设:
1)α假设:C=“C不是真语句”;
2)β假设:“C不是真语句”是真语句当且仅当“C不是真语句”.
综合α假设与β假设,即可以得到:C是真语句当且仅当“C不是真语句”,悖论.
Tarski关于“真”的定义和上面的推理似乎都没有问题,那问题出在哪里呢?我们认为问题出在概念的定义上,因此需要仔细考察概念的定义.
众所周知,概念的经典表示由3部分组成:符号表示、内涵表示和外延表示. 其中,概念的符号表示由概念名称表示,概念的内涵表示由描述概念特性的命题表示,概念的外延表示由概念所包含的实例的经典集合表示. 比如,“偶数”这个概念,其中文符号表示是“偶数”这个词;内涵表示是 “能被2整除的整数”这个命题;外延表示是“包含所有偶数的集合”:{…, −6, −4, −2, 0, 2, 4, 6, …}.
如图3所示,根据经典表示,每个概念具备3种功能:指名、指心和指物,同时对应着波普尔的3个世界:符号世界、心理世界和物理世界[18]. 概念的指名功能,是指每个概念都指向认知世界或符号世界中的一个实体,用所指对象的特定符号名称来表示. 这些符号名称可以组成各种不同的语言. 概念的指心功能,是指每个概念也指向人类心理世界中的实体,代表这个概念在心理世界里的对象表示. 概念的指物功能,强调概念与物理世界中的实体之间的对应,这些实体遵循物理世界的规律,可以独立于人的主观感受.
如果从概念的表示来实现人工智能,指名、指物、指心对应了3条路径:符号主义、连接主义和行为主义. 如果从概念的功能角度来对人工智能分类,可以分为认知智能、情感智能和行为智能. 认知智能实现了概念的指名功能,即处理和理解符号世界的问题. 情感智能则实现了概念的指心功能,主要关注心理世界中的问题. 而行为智能则体现了概念的指物功能,主要解决物理世界中的问题. 然而,如果要实现概念的三指功能,必须首先解决机器的感知问题. 解决机器感知问题是最基本的人工智能,通常被称为感知智能. 感知智能主要关注机器的输入输出处理,是实现认知智能、情感智能和行为智能的基础.
在概念的经典表示下,概念的指名、指心与指物功能是等价的,其符号表示、内涵表示和外延表示在功能上也是可以互换的. 这是因为概念的经典表示存在6条预设:
1) 概念的外延表示可以由集合{x1, x2, …,}表示;
2) 概念的内涵表示存在且用命题∀xP(x)表示;
3) 概念的名称存在,且用符号表示A;
4) 概念的外延表示与内涵表示同名:A={x1, x2, …,}=“∀xP(x)”;
5) 概念的表示唯一,即同一个概念的表示与个体无关:∀α(Aα=A),α代表一个人;
6) 概念的指称等价,即其内涵表示与外延表示在指称对象的时候功能等价∀x(x∈A↔P(x)),其中, A={x1, x2, …,}.
根据上述概念的经典表示,可以知道概念的指名、指心与指物功能是等价的. 在日常生活中,这种情况非常普遍,因此说真话是通常的情形. 罗素曾给出一个清晰的论证[19]:“除非假定说真话是一种通常的情况,否则没有人能够学会说话:假设当你的孩子看到一条狗时,你随意地说出‘猫’、‘马’或者‘鳄鱼’,那么当他看到的不是一条狗时,你无法通过能通过说‘狗’来欺骗他. 因此,说谎是一种派生的行为,它预设了说真话是通常的规则. ”在上述罗素的论证里,可以清楚地看到,其预设了概念的指名与指物等价,即假设概念的三指等价是真的必要条件.
如果概念的指名、指心与指物功能等价,则可以认为:认知智能、情感智能与行为智能等价. 这意味着一旦实现了认知智能,也就同时实现了情感智能和行为智能. 同时,人工智能的3条实现路径——符号主义、连接主义和行为主义——也是等价的. ChatGPT和GPT4的出现,表明认知智能已经取得了巨大的进步. 如果概念的三指等价,那么认知智能的巨大进步预示着情感智能和行为智能将取得同样的巨大进步. 从这个角度看,实现AGI似乎也有可能性.
然而,乌卡谢维茨悖论告诉我们概念三指等价在逻辑上并不永远成立:它内蕴矛盾. Tarski的真定义实际上等价于如下命题:概念的指名功能为真当且仅当概念的指物功能为真. 显然,概念的经典表示也预设了Tarski的真定义. 仔细分析乌卡谢维茨悖论的逻辑推理,可以发现α假设与β假设都预设了“概念的指名功能为真”与“概念的指物功能为真”等价,这必然导致悖论. 实际上,在概念的三指等价条件下,针对包含算术系统的逻辑系统,哥德尔证明了不完全性定理,而Tarski得到了著名的真之不可定义定理. 这些都说明在复杂一点的符号系统内部,不可能解决何为真、何为假的问题. 因此,从理论上讲,ChatGPT和GPT4同样无法解决真假问题. 因此,有时必须放弃概念的三指等价假设. 一旦放弃了这个假设,就会发现认知智能、情感智能与行为智能是不可能等价的. 实际上,现实生活中,这三种智能从未等价过.
4. AI的未来
很多人认为ChatGPT已经开启了第四次技术革命. 面对这种尺度的变革,我们很难在早期准确预测未来的发展. 在这里,我们仅从中短期技术趋势和长期发展路径2个方面,来探讨在当前阶段我们对这一技术的理解.
4.1 中短期技术趋势
OpenAI发明ChatGPT对于人工智能领域的影响,可以类比哥伦布发现了美洲大陆. 在哥伦布发现美洲之前,探险家们一直渴望着探索新大陆,并尝试使用各种方法去寻找它. 然而,即使是经验非常丰富的探险家,也并不确定新大陆是否真实存在,以及哪种航海方法更为有效. 哥伦布的成功不仅坚定了后来探险家们的信心,更在一定阶段内统一了寻找新大陆的方法:在新的突破性技术出现以前,看似简陋的帆船和罗盘已经足以带领人们到达目的地.
同样地,ChatGPT的诞生为人工智能领域注入了信心并指明了发展方向,展示了“大力出奇迹”的可能:通过不断扩大神经网络的模型规模和增加数据量,可以在AI的道路上取得实质性的进展. 在这一目标和技术路线的共识下,我们从拓展应用、克服局限和探索理论3个方面探讨人工智能领域中短期的可能技术趋势.
4.1.1 拓展应用
1) 垂直化. ChatGPT发布初期,人们尝试在提示词中注入角色信息以增强垂直领域对话质量. 为克服提示词token数量限制以融合领域语料,有工作提出基于LangChain框架,将领域文档切片后分布式输入,但这种做法存在私域数据泄露风险,解决思路之一是利用ChatGPT控制和调用其他领域模型来提高垂直化能力. 此外,麻省理工学院最近提出保护隐私的迁移学习框架Offsite-Tuning[20],可在不访问完整模型的前提下,在下游领域数据上微调数十亿级参数的基础模型. 对于需要构建领域模型的场景,在不泄露基础模型和领域数据的情况下,实现对通用基础模型的领域微调非常重要.
2) 个性化. 个性化可视为垂直化的极致,针对个人需求和偏好的个性化微调模型能够提供更精确的服务. 典型的应用场景包括个性化推荐系统、个性化教育辅导、个人AI助理等. 微软于2023年4月4日开源了大模型协作项目JARVIS,旨在在大型语言模型与机器学习社区的其他模型之间建立连接. JARVIS这个名字让我们对钢铁侠中同名的AI助理产生更多联想. 如果未来个性化模型可以通过多模的人机交互来增强,实现与人类对世界的同步感知、学习和成长,这样的AI助手能够更好地理解个性化需求、情感和行为,协助我们实现更高效的工作、学习和生活方式. 在这个过程中,我们需要解决诸如中心平台式AI如何保护个人数据以及在个体层面部署模型等问题.
3)工程化. ChatGPT的诞生在某种程度上是工程化的胜利,而它的成功无疑将进一步加速AI技术从实验室研究走向工程化和产业化. 从必要性上看,随着数据量和计算资源需求的增加,工业界拥有更好的条件主导大模型研发,相关实验室研究也需调整研究范式和目标以适应工程化需求. 从可行性上看,ChatGPT的成功让工业界看到了AI技术在各行业落地和价值实现的可能,众多开源项目和成熟技术框架的出现则为AI技术工程化提供了支持. 从重要性上看,工程化是一个学科发展和成熟的标志,AI技术的工程化有助于进一步优化和完善相关技术,激发学术创新活力,推动AI领域的整体发展.
4.1.2 克服局限
1)多模态增强. 多模态大模型的发展逐渐以语言模型为主,将视觉、语音等多模态信息映射到语义符号空间进行处理. 近年来的多模态解决方案更是提出直接以大型语言模型为基座来拓展多模态能力,如Visual ChatGPT和MM-ReAct以ChatGPT为中心调度其他视觉模型、PaLM-E固定语言模型训练额外的视觉编码器等. 然而,人类在进行多模态学习时并不完全依赖于符号空间,大脑神经网络在不同感官区域间传递、整合信息,同时结合视觉形象、空间关系等非符号性表示. 由于多模态世界建模更为复杂,以语言模型为主或是现有条件下的一种技术折衷. 随着多模态数据量与模型参数继续增加,有望在视觉、语音等空间实现真正的多模态生成能力. 如被细线系着的气球照片,无需映射至语义空间,模型即可预测线剪断后的情景.
2)人机交互增强. 有人将现在的ChatGPT比作一个博览群书的神童,却从未亲身体验过这个世界. 经典的认知实验发现,与被动旁观的猫相比,具有自由活动能力的猫可以通过主动与环境互动并获得反馈,从而更好地学习行为能力[21]. 在一项微软的最近研究中,ChatGPT已经能够根据人类的要求自动编写代码并指挥无人机协助完成任务[22]. 通过进一步考虑生物学特性、身体感知和行动的影响,有望实现与真实物理世界的双向交互,在自主行为反馈中不断提升自身智能水平.
3)可信增强. 之前的讨论已概括了ChatGPT当前的局限和进行可信研究的必要性. 可以预见,每个大模型公司都将需要一个专注于可信的安全和伦理团队. 这就不难理解OpenAI的系列举措:GPT-4在训练完成后经过半年的评估和修正才发布、用30余页技术报告介绍安全补丁System Card,以及对模型评估框架Evals的开源. 即便如此,ChatGPT还是因隐私问题在意大利遭禁,并遭到包括马斯克和沃兹尼亚克等上千名知名人士的联名叫停. 值得注意的是,除了安全、公平、可解释、数据隐私等经典可信问题外,ChatGPT还会带来模型回音壁等新问题. 目前,使用ChatGPT生成的对话数据进行训练已经成为公开的秘密,甚至出现了专门收集ChatGPT对话的网站ShareGPT. 其实,在人类反馈强化RLHF后,就有学者提出了基于智能模型反馈强的RLAIF框架[23]. 随着模型规模继续增加,可供训练的自然数据面临枯竭,模型生成标注和反馈数据在模型间的回音壁效应将加剧可信问题. 此外,垂直化、个性化、多模态等技术趋势也会带来新的可信挑战. 关于可信增强的方案,考虑到传统AI测试基准已不足以评估模型能力,我们需要尽快构建新的可信测试基准:包括可信benchmark数据集和可信测试框架. 此外,为了准确评估模型的应用成熟度,我们应该研制面向大型语言模型的可信标准,以规范不同可信等级的模型在相应的应用场景中使用. 同时,结合工程化的发展趋势,我们可以参考软件开发周期中的测试–调试闭环,在基础模型和下游模型2个层面进行迭代优化,以确保模型在大规模应用场景中的可信性.
4.1.3 探索理论
1)预训练模型机理研究. 近年来,计算机视觉和自然语言处理领域的技术框架逐渐趋同. 学习范式从特征工程、深度监督学习转向自监督预训练,模型结构从CNN、RNN发展为Transformer. 针对自监督预训练和Transformer结构,仍有很多基础性问题需要研究,如自监督学习泛化理论、预训练与微调的动态平衡分析、Transformer结构的定性和鲁棒性分析等. 对于ChatGPT,除了探究其在线纠错、理解弦外之音等原因未知的能力外,还需进一步研究任务涌现能力与模型规模以及训练数据量等的关系,为未来模型设计和实际应用提供指导.
2)学科交叉融合研究. ChatGPT作为催化剂,不仅将推动人工智能学科内部计算机视觉和自然语言处理领域的进一步整合,而且将激发学术界和工业界更加深入地探讨和实践人工智能和其他学科交叉融合以及跨学科应用的可能性. 以脑科学为例,结合脑结构和人工神经网络研究,我们将更有可能揭示智能产生的本质原因. 实际上,OpenAI的首席执行官Sam Altman早就投资了可控核聚变公司Helion和生物科技公司Retro Biosciences. 科技部近期启动的“AI for Science”专项部署工作更是明确指出了将人工智能与数学、物理、化学、天文等基础学科紧密结合,重点攻关药物研发、基因研究、生物育种研发、新材料研发等领域的关键问题.
4.2 长期发展路径
我们沿着概念经典表示和人工智能分类的讨论来看AI未来可能的发展路径. 《左传》里有句名言,“太上有立德,其次有立功,其次有立言”. 显然,立德属于心理世界,是情感智能的范畴;立功属于物理世界,是行为智能的范畴;立言属于符号世界,是认知智能的范畴. 应该指出,这3个世界既互相独立又相互依存. 比如,符号世界也必须通过心理世界表示才能为人所感知,同样符号世界也必须通过物理世界显现展现才能传播. 对于人而言,认知的物理世界本身也属于符号世界的示例,没有成为符号示例的物理对象难以被符号世界记录,同样,物理世界也是通过心理世界被人感知.
这3个世界各自都足够复杂. 在符号世界中,有自然符号、模拟符号和象征符号. 其中自然符号直接用物理世界中的对象作为符号,比如图书馆里学生用书包或其它个人物品占座. 此时的书包或个人物品就有了符号意义,属于典型的自然符号. 图像、视频等是典型的模拟符号. 文字是最常见的象征符号. 至于心理世界、物理世界的复杂性,更是众所周知.
为了计算方便,通常假定概念的三指等价,即符号世界、心理世界、物理世界三界同构. 比如,符号主义的物理符号系统假设认定物理符号系统具有产生智能行为的充要条件,这暗示了符号世界与物理世界等价. 连接主义认为只要能模拟大脑的思考功能就足够了,实际上它假设了心理世界(或其子集)与物理世界等价. 行为主义则认为只要能在物理世界实现智能,不需要知识、表示和推理,只需要感知和行动,这意味着符号世界、心理世界是物理世界或其子集. 但是,3个世界并不同构. 比如,乔姆斯基曾经写过一个著名的句子:“Colorless green ideas sleep furiously. ”这个句子在符号世界可行,但在心理世界和物理世界就失去了可行性. 因此,3个世界同构假设仅是一种有用的简化,并不总是成立.
由于3个世界并不同构,它们之间的关系相当复杂. 这导致在3个世界中实现智能的难度也大为不同. 从共性上讲,无论在哪个世界实现智能,首先必须解决最基础的感知问题,即输入输出问题. 从难度上看,感知智能、认知智能、情感智能、行为智能依次增加. 原因很简单:感知智能保持了3个世界同构假设. 从认知智能开始,我们必须放弃3个世界同构的假设,只能假设3个世界的某些受限子集同构. 认知智能旨在解决符号世界的智能问题,其实现主要受制于符号世界的规律,这些规律可能是显知识,也可能是暗知识,但认知智能依然在符号世界内预设概念的三指等价. 情感智能主要解决心理世界的智能问题,除了受制于心理世界外,也受制于情感所在的物理个体,即情感必须在认知层面具备具身特性. 理论上,西施难以与青蛙共情,夏虫不能与秋雁同语. 对于机器来说,情感智能是基于认知智能的,情感智能也是依赖于机器内部的符号操作. 仅有认知智能并不能实现情感智能,情感智能的实现难度髙于认知智能,情感智能预设心理世界内的概念三指等价. 行为智能主要解决物理世界的智能问题,不但受限于作为行为主体的自身物理条件,也受限于其所处的物理环境,约束最多,因此实现难度最大. 莫拉维克悖论实际上是对行为智能实现难度最大的一个简单说明. 对于行为智能来说,任一概念的三指等价都需要检验,任一概念的三指等价都不能先验预设成立,这正是莫拉维克悖论背后隐藏的挑战. 图4比较清楚地说明了概念的三指等价性从默认成立到必须检验所对应的不同智能阶段.
根据以上分析,人工智能的发展路径可以预测为:首先成熟的是感知智能,次之为认知智能,再次为情感智能,最后是行为智能. 这与人工智能目前的现状相符. 当前,感知智能的问题已经大部分解决,已经融入人们的日常生活. 得益于ChatGPT等技术,认知智能的问题已经初步解决,即将走入人们的生活. 情感智能的问题部分解决,受限可用,比如在三界同构假设成立时,可以使用类ChatGPT技术. 行为智能的问题尚极具挑战性,在目前的情况下可用性受到严重限制,如在工厂等封闭场景下部分可用,人们日常生活的特定需求如果能保证场景封闭,即对应的相关概念可以保证三指等价成立,则行为智能可以实现,如自动售货机、自动烤肠机、电饭锅、懒人锅等。保证概念的三指等价是行为智能成功的必要条件.
粗略地说,感知智能是人工智能中的基础智能,可视为人工智能的1.0阶段. 认知智能是人工智能的2.0阶段. 情感智能则为人工智能的3.0阶段. 行为智能可以看作是人工智能的4.0阶段. 目前的人工智能发展已经进入了AI 2.0时代,未来的AI 3.0和AI 4.0还有待努力.
5. ChatGPT的影响
人工智能发展至今已迈入认知智能时代,确实取得了重大进步. 虽然离AI 3.0和AI 4.0距离尚远,但其依然将对我们的生活产生重要影响:
1)生成式人工智能的成功提醒我们,符号世界、心理世界、物理世界三界同构假设不是恒真. 今后,各种符号的证据力量需要检测,不能预设概念的三指等价为真. 比如,不能再简单地认为,有图有视频就有真相了. 这不仅大幅增加认知成本,还考验认知能力. 目前,国内外已有用生成式人工智能诈骗的案例。如何防范这类诈骗是未来要面对的挑战.
2)每次技术进步都对教育提出了更高的要求,这次也不例外. ChatGPT展现出的认知水平要求人们更注重提出问题和独立判断的能力. 鉴于符号世界的人类普适性,教育尤其是高等教育需要提前布局.
3)ChatGPT表明认知智能已可用,但依然不能通过原始的图灵测试. 这表明图灵测试是有启发性的思想实验,但不是衡量智能的实践标准.
4)ChatGPT的成功为国内人工智能学术界带来机遇与挑战. 机遇包括提高学界对相关问题的理解,例如任务的主观性,以往的多任务可能在新视角下视为单任务;同时,全社会也提升了对人工智能潜在能力的认识,这将极大推动相关产业的发展. 然而,挑战也不容忽视:应用研究方面,社会对技术的期待提高,更加注重实效性和实用性;理论研究方面,该技术已领先于理论,亟需加强理论研究.
5)类ChatGPT技术的大规模应用可能导致意识形态等方面的信息茧房效应. 特别是类ChatGPT是中心化的人工智能平台,容易使人们在获取信息时只接触到特定内容和片面观点,这一方面会加剧社会分化,另一方面会降低观点多样性,阻碍创新思维的产生, 为社会带来潜在危害.
6)大模型对计算量的巨大需求可能会加剧全球能源消耗,并对环境产生不良影响. 我们期望AI for science通过加速科学发现,更迅速地找到可持续能源解决方案和新的节能技术,从而尽量降低这些负面影响.
7)ChatGPT在提高生产力方面潜力巨大. 通过自动化处理一些繁琐的、重复性的任务,它可以解放人们的时间和精力,让人们关注于更有价值、更具创造力的工作,进一步推动社会创新和发展.
8)ChatGPT的出现,预示人工智能进入AI 2.0时代,但距离AI 3.0与AI 4.0尚远. AI 3.0与AI 4.0均要求具身. 一旦具身,如何通用?从概念的表示理论来看,AGI似乎只可能是AI的理想,难以成为AI的现实.
作者贡献声明:桑基韬负责撰写第1、2、4.1 节; 于剑负责确立论文框架、撰写第3、4.2、5节.
-
表 1 实验数据集统计信息
Table 1 Statistics of the Experimental Datasets
数据集 时间段长度/h 区域面积 车辆数量 时间范围 NYCBike1 1 16×8 6.8×103 04/01/2014—09/30/2014 NYCBike2 0.5 10×20 2.6×106 07/01/2016—08/29/2016 NYCTaxi 0.5 10×20 22×106 01/01/2015—03/01/2015 CHIBike 0.5 15×18 1.2×106 07/01/2020—09/30/2020 TDrive 1 32×32 493×106 02/01/2015—06/30/2015 表 2 TPGPF模型与时空融合模型在5个数据集上的MAE和MAPE性能比较
Table 2 Performance Comparison of TPGPF Model and Spatial-Temporal Fusion Models on Five Datasets in Terms of MAE and MAPE
数据集 指标 类型 ST-ResNet ST-GCN GMAN PDFormer TPGPF(本文) NYCBike1 MAE 流入 5.53±0.06 5.33±0.02 6.77±3.42 5.36 4.88 流出 5.74±0.07 5.59±0.03 7.17±3.61 5.71 5.19 MAPE/% 流入 25.46±0.20 26.92±0.08 31.72±12.29 24.51 23.69 流出 26.36±0.50 27.69±0.14 34.74±17.04 25.42 24.49 NYCBike2 MAE 流入 5.63±0.14 5.21±0.02 5.24±0.13 4.91 5.07 流出 5.26±0.08 4.92±0.02 4.97±0.14 4.59 4.73 MAPE/% 流入 32.17±0.85 27.73±0.16 27.38±1.13 27.25 22.32 流出 30.48±0.86 26.83±0.21 26.75±1.14 25.87 21.39 NYCTaxi MAE 流入 13.48±0.14 13.12±0.04 15.09±0.61 12.76 12.15 流出 10.78±0.25 10.35±0.03 12.06±0.39 10.56 9.93 MAPE/% 流入 24.83±0.55 21.01±0.18 22.73±1.20 19.99 16.66 流出 24.42±0.52 20.78±0.16 21.97±0.86 20.12 17.08 CHIBike MAE 流入 4.767 4.212 4.115 3.950 3.99 流出 4.627 4.148 4.090 3.837 3.98 MAPE/% 流入 31.382 31.224 31.150 30.214 22.84 流出 30.571 30.782 30.662 29.914 22.72 TDrive MAE 流入 19.636 21.373 19.244 16.12 15.76 流出 19.616 20.913 18.964 16.03 15.76 MAPE/% 流入 17.831 17.539 17.110 16.46 16.00 流出 18.502 16.984 15.788 16.39 16.00 注:黑体数值表示最高得分,下划线数值表示次优得分. 表 3 TPGPF模型与时空异质模型的MAE和MAPE 性能比较
Table 3 Performance Comparison of TPGPF Model and Spatial-Temporal Heterogeneity Models in Terms of MAE and MAPE
数据集 指标 类型 STS-GCN STF-GNN ST-SSL TPGPF
(本文)NYCBike1 MAE 流入 5.81±0.04 6.53±0.10 4.90 4.88 流出 6.10±0.04 6.79±0.08 5.21 5.19 MAPE/% 流入 26.51±0.32 32.14±0.23 24.06 23.69 流出 27.56±0.39 32.88±0.19 24.60 24.49 NYCBike2 MAE 流入 5.25±0.03 5.80±0.10 5.06 5.07 流出 4.94±0.05 5.51±0.11 4.73 4.73 MAPE/% 流入 29.26±0.13 30.73±0.49 22.57 22.32 流出 28.02±0.23 29.98±0.46 21.55 21.39 NYCTaxi MAE 流入 13.69±0.11 16.25±0.38 12.22 12.15 流出 10.75±0.17 12.47±0.25 10.00 9.93 MAPE/% 流入 22.91±0.44 24.01±0.30 17.10 16.66 流出 22.37±0.16 23.28±0.47 17.11 17.08 CHIBike MAE 流入 4.256 4.234 3.96 3.99 流出 4.265 4.264 4.03 3.98 MAPE/% 流入 32.991 32.222 23.25 22.84 流出 32.612 32.321 22.73 22.72 TDrive MAE 流入 23.825 22.144 15.80 15.76 流出 24.287 22.876 15.79 15.76 MAPE/% 流入 18.094 18.094 16.07 16.00 流出 18.987 18.987 16.09 16.00 注:黑体数值表示最高得分,下划线数值表示次优得分. 表 4 TPGPF模型的消融实验结果
Table 4 Ablation Study Results for TPGPF Model
数据集 指标 类型 TPGPF TPGPF-sa TPGPF-ta NYCBike1 MAE 流入 4.88 4.89 4.91 流出 5.19 5.21 5.26 MAPE/% 流入 23.69 23.67 23.56 流出 24.49 24.45 24.59 NYCBike2 MAE 流入 5.07 5.11 5.08 流出 4.73 4.74 4.71 MAPE/% 流入 22.32 22.85 22.42 流出 21.39 21.38 21.23 NYCTaxi MAE 流入 12.15 12.22 12.08 流出 9.93 9.78 9.95 MAPE/% 流入 16.66 16.93 16.57 流出 17.08 17.27 17.11 CHIBike MAE 流入 3.99 4.07 4.11 流出 3.98 4.06 4.14 MAPE/% 流入 22.84 22.99 22.63 流出 22.72 22.74 22.97 TDrive MAE 流入 15.76 16.02 15.84 流出 15.76 15.98 15.82 MAPE/% 流入 16.00 16.51 16.12 流出 16.00 16.09 16.03 注:黑体数值表示最优值. -
[1] Bernardo G, José C, Helena A. A survey on traffic flow prediction and classification[J], Intelligent Systems with Applications, 2023, 20: 200268
[2] 王萌,王昊奋,李博涵,等. 新一代知识图谱关键技术综述[J]. 计算机研究与发展,2022,59(9):1947−1965 doi: 10.7544/issn1000-1239.20210829 Wang Meng, Wang Haofen, Li Bohan, et al. Survey on key technologies of new generation knowledge graph[J]. Journal of Computer Research and Development, 2022, 59(9): 1947−1965 (in Chinese) doi: 10.7544/issn1000-1239.20210829
[3] 陈芮,王占全. Uni-LSDPM:基于预训练的统一在线学习会话退出预测模型[J]. 计算机研究与发展,2024,61(2):441−459 doi: 10.7544/issn1000-1239.202220834 Chen Rui, Wang Zhanquan. Uni-LSDPM: A unified online learning session dropout prediction model based on pre-training[J]. Journal of Computer Research and Development, 2024, 61(2): 441−459 (in Chinese) doi: 10.7544/issn1000-1239.202220834
[4] Cheng Zeyang, Lu Jian, Zhou Huajian, et al. Short-term traffic flow prediction: An integrated method of econometrics and hybrid deep learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(6): 5231−5244 doi: 10.1109/TITS.2021.3052796
[5] Cao Shuqin, Wu Libing, Wu Jia, et al. A spatio-temporal sequence-to-sequence network for traffic flow prediction[J], Information Sciences, 2022, 610: 185−203
[6] Wang Hanqiu, Zhang Rongqing, Cheng Xiang, et al. Hierarchical traffic flow prediction based on spatial-temporal graph convolutional network[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(9): 16137−16147 doi: 10.1109/TITS.2022.3148105
[7] 汪鸣,彭舰,黄飞虎. 基于多时间尺度时空图网络的交通流量预测模型[J]. 计算机科学,2022,49(8):40−48 doi: 10.11896/jsjkx.220100188 Wang Ming, Peng Jian, Huang Feihu. Multi-time scale spatial-temporal graph neural network for traffic flow prediction[J]. Computer Science, 2022, 49(8): 40−48 (in Chinese) doi: 10.11896/jsjkx.220100188
[8] 赵文竹,袁冠,张艳梅,等. 多视角融合的时空动态图卷积网络城市交通流量预测[J]. 软件学报,2024,35(4):1751−1773 Zhao Wenzhu, Yuan Guan, Zhang Yanmei, et al. Multi-view fused spatial-temporal dynamic graph convolutional network for urban traffic flow prediction[J]. Journal of Software, 2024, 35(4): 1751−1773 (in Chinese)
[9] Ji Jiahao, Wang Jingyuan, Huang Chao, et al. Spatio-temporal self-supervised learning for traffic flow prediction[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2023, 37(4): 4356−4364
[10] Lin Guancen, Lin Aijing, Gu Danlei, et al. Using support vector regression and K-nearest neighbors for short-term traffic flow prediction based on maximal information coefficient[J]. Information Sciences, 2022, 608: 517−531 doi: 10.1016/j.ins.2022.06.090
[11] 倪庆剑,彭文强,张志政,等. 基于信息增强传输的时空图神经网络交通流预测[J]. 计算机研究与发展,2022,59(2):282−293 Ni Qingjian, Peng Wenqiang, Zhang Zhizheng, et al. Spatial-temporal graph neural network for traffic flow prediction based on information enhanced transmission[J]. Journal of Computer Research and Development, 2022, 59(2): 282−293 (in Chinese)
[12] Yan Biwei, WangGuijuan, Yu Jiguo, et al. Spatial-temporal chebyshev graph neural network for traffic flow prediction in IoT-based ITS[J]. IEEE Internet of Things Journal, 2022, 9(12): 9266−9279 doi: 10.1109/JIOT.2021.3105446
[13] Zheng Haifeng, Lin Feng, Feng Xinxin, et al. A hybrid deep learning model with attention-based conv-LSTM networks for short-term traffic flow prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(11): 6910−6920 doi: 10.1109/TITS.2020.2997352
[14] 杜圣东,李天瑞,杨燕,等. 一种基于序列到序列时空注意力学习的交通流预测模型[J]. 计算机研究与发展,2020,57(8):1715−1728 doi: 10.7544/issn1000-1239.2020.20200169 Du Shengdong, Li Tianrui, Yang Yan, et al. A sequence-to-sequence spatial-temporal attention learning model for urban traffic flow prediction[J]. Journal of Computer Research and Development, 2020, 57(8): 1715−1728 (in Chinese) doi: 10.7544/issn1000-1239.2020.20200169
[15] Sun Mingchen, Zhou Kaixiong, He Xin, et al. GPPT: Graph pre-training and prompt tuning to generalize graph neural networks[C]//Proc of the 28th ACM SIGKDD Conf on Knowledge Discovery and Data Mining. New York: ACM, 2022: 1717−1727
[16] Hu Ziniu, Dong Yuxiao, Wang Kuansan, et al. GPT-GNN: Generative pre-training of graph neural networks[C]//Proc of the 26th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining. New York: ACM, 2020: 1857−1867
[17] Lu Yuanfu, Jiang Xunqiang, Fang Yuan, et al. Learning to pre-train graph neural networks[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2021, 35(5): 4276−4284
[18] Castro-Neto M, Jeong Y S, Jeong M K, et al. Online-SVR for short-term traffic flow prediction under typical and atypical traffic conditions[J]. Expert Systems with Applications, 2009, 36(3): 6164−6173 doi: 10.1016/j.eswa.2008.07.069
[19] Kumar S V, Vanajakshi L. Short-term traffic flow prediction using seasonal ARIMA model with limited input data[J]. European Transport Research Review, 2015, 7(3): 1−9
[20] Zhang Junbo, Zheng Yu, Qi Dekang. Deep spatio-temporal residual networks for citywide crowd flows prediction[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2017, 31(1): 1655−1661
[21] Yu Bing, Yin Haoteng, Zhu Zhanxing. Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting [C]//Proc of Int Joint Conf on Artificial Intelligence Stockholm, Sweden: Ijcai.org, 2018: 3634−3640
[22] Zheng Chuanpan, Fan Xiaoliang, Wang Cheng, et al. GMAN: A graph multi-attention network for traffic prediction[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2020, 34(1): 1234−1241
[23] Bai Lei, Yao Lina, Li Can, Wang Xianzhi, et al. Adaptive graph convolutional recurrent network for traffic forecasting[J]. Advances in Neural Information Processing Systems, 2020, 33: 17804−17815
[24] Song Chao, Lin Youfang, Guo Shengnan, et al. Spatial-temporal synchronous graph convolutional networks: A new framework for spatial-temporal network data forecasting[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2020, 34(1): 914−921
[25] Sun Xiangguo, Zhang Jiawen, Wu Xixi, et al. Graph prompt learning: A comprehensive survey and beyond[J]. arXiv preprint, arXiv: 2311.16534, 2023
[26] Liu Zemin, Yu Xingtong, Fang Yuan, et al. Graphprompt: Unifying pre-training and downstream tasks for graph neural networks[C]//Proc of the ACM Web Conf 2023. New York: ACM, 2023: 417−428
[27] Chen Mouxiang, Liu Zemin, LiuChenghao, et al. ULTRA-DP: Unifying graph pre-training with multi-task graph dual prompt[J]. arXiv preprint, arXiv: 2310.14845, 2023
[28] Chen Zihao, WangYing, Ma Fuyuan, Yuan Hao, et al. GPL-GNN: Graph prompt learning for graph neural network[J]. Knowledge-Based Systems, 2024, 286: 111391 doi: 10.1016/j.knosys.2024.111391
[29] Fang Taoran, Zhang Yunchao, Yang Yang, et al. Universal prompt tuning for graph neural networks[J]. Advances in Neural Information Processing Systems, 2023, 36: 52464−52489
[30] Yao Huaxiu, Tang Xianfeng, Wei Hua, et al. Revisiting spatial-temporal similarity: A deep learning framework for traffic prediction[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2019: 5668−5675
[31] Jiang Jiawei, Han Chengkai, Zhao W X, et al. PDFormer: Propagation delay-aware dynamic long-range transformer for traffic flow prediction[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2023, 37(4): 4365−4373
[32] Zhai Jianyang, Zheng Xiawu, Wang Changdong, et al. Knowledge prompt-tuning for sequential recommendation[C]// Proc of the 31st ACM Int Conf on Multimedia. New York: ACM, 2023, 6451−6461
-
期刊类型引用(66)
1. 袁良志,海佳丽,汪润,邓文萍,肖勇,常凯. 知识图谱驱动的中医药标准数字化探索与实践. 中医药导报. 2025(01): 225-230 . 百度学术
2. 范定容,王倩倩,沈奥,彭露. 从ChatGPT到Sora:人工智能在医学教育中的应用潜力与挑战. 中国医学教育技术. 2025(01): 33-40 . 百度学术
3. 刘园园,王银刚. ChatGPT影响大学生判断能力:双向机理与对策. 湖北成人教育学院学报. 2025(01): 29-34 . 百度学术
4. 魏昱,刘卫. 人工智能生成内容在服装设计中的应用现状. 毛纺科技. 2025(01): 134-142 . 百度学术
5. 李冰,鲜勇,雷刚,苏娟. ChatGPT架构下课程智能教学助手建设探讨. 教育教学论坛. 2025(03): 45-48 . 百度学术
6. 梁炜,许振宇. 大语言模型赋能舆情治理现代化:价值、风险与路径. 中国应急管理科学. 2025(01): 93-103 . 百度学术
7. 刘邦奇,聂小林,王士进,袁婷婷,朱洪军,赵子琪,朱广袤. 生成式人工智能与未来教育形态重塑:技术框架、能力特征及应用趋势. 电化教育研究. 2024(01): 13-20 . 百度学术
8. 秦涛,杜尚恒,常元元,王晨旭. ChatGPT的工作原理、关键技术及未来发展趋势. 西安交通大学学报. 2024(01): 1-12 . 百度学术
9. 张小朝. AIGC在商旅行业中的应用探索. 广东通信技术. 2024(01): 75-79 . 百度学术
10. 廉霄兴,宋勇,朱军,王淑玲,叶晓舟,欧阳晔. 基于双通道理论的通信认知增强技术研究. 电信科学. 2024(01): 123-135 . 百度学术
11. 杨永恒. 人工智能时代社会科学研究的“变”与“不变”. 人民论坛·学术前沿. 2024(04): 96-105 . 百度学术
12. 刘英祥,张琳. 生成式人工智能技术在海事管理工作中的应用探索. 航海. 2024(02): 62-64 . 百度学术
13. 吕静,何平,王永芬,冉朝霞,曹钦兴,古文帆,彭敏,田敏. ChatGPT在医学领域研究态势的文献计量学分析. 医学与哲学. 2024(07): 30-35 . 百度学术
14. 王益君,董韵美. 公众对人工智能的认知与情感态度——以ChatGPT为例. 知识管理论坛. 2024(01): 16-29 . 百度学术
15. 陈雷. ChatGPT在公安院校教育教学中的应用及影响. 太原城市职业技术学院学报. 2024(02): 85-88 . 百度学术
16. 尤冲,李彦兵. 基于ChatGPT大语言模型应用的公共体育服务智能化:指征、风险及其规制. 南京体育学院学报. 2024(02): 1-12 . 百度学术
17. 杨胜钦. 从ChatGPT看AI对电信网络诈骗犯罪治理的影响. 犯罪与改造研究. 2024(05): 26-33 . 百度学术
18. 王春英,姚亚妮,滕白莹. 生成式人工智能嵌入敏捷政府建设:影响、风险与应对. 北京行政学院学报. 2024(03): 73-83 . 百度学术
19. 王雯,李永智. 国际生成式人工智能教育应用与省思. 开放教育研究. 2024(03): 37-44 . 百度学术
20. 张智义. 体认语言学视阈下ChatGPT语言生成及性能研究. 外语研究. 2024(03): 20-25+43+112 . 百度学术
21. 余淑珍,单俊豪,闫寒冰. 情感计算赋能个性化教学:逻辑框架、问题解构与多元重塑. 现代远距离教育. 2024(02): 53-61 . 百度学术
22. 高尚. 大语言模型与中台:共融还是替代?. 科技与金融. 2024(05): 59-62 . 百度学术
23. 郭亚军,马慧芳,张鑫迪,冯思倩. ChatGPT赋能图书馆知识服务:原理、场景与进路. 图书馆建设. 2024(03): 60-68 . 百度学术
24. 高雪松,黄蕴华,王斌. 基于专利数据的生成式人工智能技术栈创新态势研究. 东北财经大学学报. 2024(04): 53-61 . 百度学术
25. 张渊. ChatGPT文本的生成机制与文本特性分析. 重庆文理学院学报(社会科学版). 2024(04): 105-114 . 百度学术
26. 罗仕鉴,于慧伶,易珮琦. 数智时代工业设计知识生产新范式. 机械设计. 2024(08): 6-10 . 百度学术
27. 徐炳文. 基于ChatGPT的人工智能交互技术工业物联网平台研究. 工业控制计算机. 2024(08): 132-134 . 百度学术
28. Deyi Li,Jialun Yin,Tianlei Zhang,Wei Han,Hong Bao. The Four Most Basic Elements In Machine Cognition. Data Intelligence. 2024(02): 297-319 . 必应学术
29. 黄语,刘海洋,常海军,杨远松. 基于ChatGPT工作模式的AI工具在BIM技术中的潜在应用与实现途径. 科技创新与应用. 2024(26): 181-184+188 . 百度学术
30. 李琳娜,丁楷,韩红旗,王力,李艾丹. 基于知识图谱的中文科技文献问答系统构建研究. 中国科技资源导刊. 2024(04): 51-62 . 百度学术
31. 裴炳森,李欣,蒋章涛,刘明帅. 基于大语言模型的公安专业小样本知识抽取方法研究. 计算机科学与探索. 2024(10): 2630-2642 . 百度学术
32. 李克寒,余丽媛,邵企能,蒋可,乌丹旦. 大语言模型在口腔住院医师规范化培训中的应用构想. 中国卫生产业. 2024(07): 155-158 . 百度学术
33. 钟厚涛. 生成式人工智能给翻译实践带来的机遇与挑战. 北京翻译. 2024(00): 238-250 . 百度学术
34. 张夏恒,马妍. AIGC在应急情报服务中的应用研究. 图书馆工作与研究. 2024(11): 60-67 . 百度学术
35. 崔金满,李冬梅,田萱,孟湘皓,杨宇,崔晓晖. 提示学习研究综述. 计算机工程与应用. 2024(23): 1-27 . 百度学术
36. 周代数,魏杉汀. 人工智能驱动的科学研究第五范式:演进、机制与影响. 中国科技论坛. 2024(12): 97-107 . 百度学术
37. 钱力,张智雄,伍大勇,常志军,于倩倩,胡懋地,刘熠. 科技文献大模型:方法、框架与应用. 中国图书馆学报. 2024(06): 45-58 . 百度学术
38. 潘崇佩,廖康启,孔勇发. 生成式人工智能背景下的近代物理实验教学改革. 实验室研究与探索. 2024(12): 117-122 . 百度学术
39. 李德毅,刘玉超,殷嘉伦. 认知机器如何创造. 中国基础科学. 2024(06): 1-11 . 百度学术
40. 李德毅,张天雷,韩威,海丹,鲍泓,高洪波. 认知机器的结构和激活. 智能系统学报. 2024(06): 1604-1613 . 百度学术
41. 蔡昌,庞思诚. ChatGPT的智能性及其在财税领域的应用. 商业会计. 2023(09): 41-46 . 百度学术
42. 于书娟,卢小雪,赵磊磊. 教育人工智能变革的基本逻辑与发展进路. 当代教育科学. 2023(05): 40-49 . 百度学术
43. 曹克亮. ChatGPT:意识形态家的机器学转向及后果. 统一战线学研究. 2023(04): 134-144 . 百度学术
44. 宋恺,屈蕾蕾,杨萌科. 生成式人工智能的治理策略研究. 信息通信技术与政策. 2023(07): 83-88 . 百度学术
45. 陈凌云,姚宽达,王茜,方安,李刚. ChatGPT:研究进展、模型创新及医学信息研究应用场景优化. 医学信息学杂志. 2023(07): 18-23+29 . 百度学术
46. 彭强,李羿卫. 自然用户界面在智能家居系统中的应用路径创新研究:生成式人工智能技术的调节作用. 包装工程. 2023(16): 454-463 . 百度学术
47. 杨军农,王少波. 类ChatGPT技术嵌入政务服务网的应用场景、风险隐患与实施建议. 信息与电脑(理论版). 2023(10): 183-186 . 百度学术
48. 政光景,吕鹏. 生成式人工智能与哲学社会科学新范式的涌现. 江海学刊. 2023(04): 132-142+256 . 百度学术
49. 吴梦妮. 社交媒体传播视域下玩具企业应用AI技术实施营销的实践路径. 玩具世界. 2023(04): 144-146 . 百度学术
50. 李德毅,殷嘉伦,张天雷,韩威,鲍泓. 机器认知四要素说. 中国基础科学. 2023(03): 1-10+22 . 百度学术
51. 王洁. ChatGPT对知识服务的五大变革. 图书馆. 2023(09): 10-16 . 百度学术
52. 刘乃嘉. 基于ChatGPT的矿山工程风险评估预警系统实现探讨. 企业科技与发展. 2023(08): 44-47 . 百度学术
53. 裴炳森,李欣,吴越. 基于ChatGPT的电信诈骗案件类型影响力评估. 计算机科学与探索. 2023(10): 2413-2425 . 百度学术
54. 张新新,丁靖佳. 生成式智能出版的技术原理与流程革新. 图书情报知识. 2023(05): 68-76 . 百度学术
55. 张新新,黄如花. 生成式智能出版的应用场景、风险挑战与调治路径. 图书情报知识. 2023(05): 77-86+27 . 百度学术
56. 陈靖. ChatGPT的类人想象与安全风险分析. 网络空间安全. 2023(04): 8-12 . 百度学术
57. 李佩芳,陈佳丽,宁宁,王立群,张涵旎. ChatGPT在医学领域的应用进展及思考. 华西医学. 2023(10): 1456-1460 . 百度学术
58. 朱敏锐,郜云帆,黄勇. 以新时代优良学风涵养新时代外语人才. 北京教育(高教). 2023(11): 35-37 . 百度学术
59. 丁红菊. 消解与重构:人工智能技术对新闻业的影响——基于对ChatGPT的研究. 运城学院学报. 2023(05): 57-62 . 百度学术
60. 李钥,淮盼盼,杨辉. ChatGPT在护理教育中的应用状况及优劣分析. 护理学杂志. 2023(21): 117-121 . 百度学术
61. 张绍龙. 基于ChatGPT的人工智能技术应用. 集成电路应用. 2023(11): 200-201 . 百度学术
62. 崔克克,孙冲,李辉,赵凌飞. 浅谈水泥企业数字化转型发展. 中国水泥. 2023(12): 28-33 . 百度学术
63. 单琳,王文娟,刘舒萌. ChatGPT在医学分子生物学教学中的应用. 基础医学教育. 2023(12): 1084-1086 . 百度学术
64. 李德毅,刘玉超,任璐. 人工智能看智慧. 科学与社会. 2023(04): 131-149 . 百度学术
65. 付翔,魏晓伟,张浩,徐宁. 数字安全角度下审视和剖析ChatGPT. 航空兵器. 2023(06): 117-122 . 百度学术
66. 黄婷,刘力凯. 基于大模型的数智化语言教学探索与应用. 连云港职业技术学院学报. 2023(04): 73-79 . 百度学术
其他类型引用(0)