-
摘要:
算法选择是指从可行算法中为给定问题选择满足需求的算法,基于元学习的算法选择是应用较为广泛的方法,元特征和元算法是其中的关键内容,而现有研究难以充分利用元特征的互补性和元算法的多样性,不利于进一步提升方法性能. 为了解决上述问题,提出基于多目标混合蚁狮优化的算法选择方法(SAMO),设计算法选择模型,以集成元算法的准确性和多样性作为优化目标,引入元特征选择和选择性集成,同时选择元特征和异构元算法以构建集成元算法;提出多目标混合蚁狮算法对模型进行优化,使用离散型编码选择元特征子集,通过连续型编码构建集成元算法,应用增强游走策略和偏好精英选择机制提升寻优性能. 使用260个数据集、150种元特征和9种候选算法构建分类算法选择问题来进行测试,分析方法的参数敏感性,将多目标混合蚁狮算法与4种演化算法进行比较,通过对8种对比方法与所提方法进行对比实验,结果验证了所提方法的有效性和优越性.
Abstract:Algorithm selection refers to selecting an algorithm that satisfies the requirements for a given problem from feasible algorithms, and algorithm selection based on meta-learning is a widely used method, in which the key components are meta-features and meta-learners. However, existing research is difficult to make full use of the complementarity of meta-features and the diversity of meta-learners, which are not conducive to further improving the method performance. To solve the above problems, a selective ensemble algorithm selection method based on multi-objective hybrid ant lion optimizer (SAMO) is proposed. It designs an algorithm selection model, which sets the accuracy and diversity of the ensemble meta-learners as the optimization objectives, introduces meta-feature selection and selective ensemble, and chooses meta-features and heterogeneous meta-learners simultaneously to construct ensemble meta-learners; it proposes a multi-objective hybrid ant lion optimizer to optimize the model, which uses discrete code to select meta-feature subsets and constructs ensemble meta-learners by continuous code, and applies the enhanced walk strategy and the preference elite selection mechanism to improve the optimization performance. We utilize 260 datasets, 150 meta-features, and 9 candidate algorithms to construct classification algorithm selection problems and conduct test experiments, and the parameter sensitivity of the method is analyzed, the multi-objective hybrid ant lion optimizer is compared with four evolutionary algorithms, 8 comparative methods are compared with the proposed method, and the results verify the effectiveness and superiority of the method.
-
2022年11月30日,OpenAI公司发布了一款名为ChatGPT的软件. 该软件在发布后的5天内,用户数量就超过了100万,2个月内活跃用户数更是突破了1亿,成为了迄今为止增长速度最快的应用软件. 该软件几乎可以完成自然语言处理的所有任务,因此在营销、客服、教育、娱乐、咨询、翻译等行业有着广阔的应用前景. 这一成功也激励了OpenAI首席执行官Sam Altman,他于2023年2月24日发表了一篇名为“Planning for AGI and Beyond”的文章,认为AGI(artificial general intelligence,通用人工智能)是AI systems that are generally smarter than humans,需要为AGI的到来做准备
1 . AGI会是AI的未来吗?本文将对此进行讨论.1. ChatGPT的“能”:生成
比尔盖茨将ChatGPT誉为自1980年现代图形桌面环境GUI问世以来最具革命性的科技进步. 如果说上一次让AI火出圈的AlphaGo所展现出的是在特定领域的“专”,这一次ChatGPT展现出的则是AI在广泛应用场景的“通”:这个“通”以正常人都会、都懂、都能体验的对话形式呈现,让AI——特别是自然语言处理技术进入主流用户群,孕育出了这一现象级产品. 具体而言,ChatGPT在对话过程中展现出了自然对话、多轮交互、上下文学习、思维链推理、实时反馈在线纠错、能适应未训练任务以及GPT-4中新出现的理解弦外之音的能力.
ChatGPT背后的思想其实很简单:将所有语言任务归为对话任务,并将对话任务归为文字接龙的生成问题. 自然语言处理领域的学者普遍认为,ChatGPT展现出的优秀对话生成能力对传统研究方法产生了巨大挑战. 1)从目标上看,自然语言处理旨在让计算机能够以文字或语音的方式与人类进行有效交流;而对话是人类日常生活中最基本的交流方式,如果实现了人机自然对话,在一定程度上便达到了自然语言处理的核心目标. 2)从任务类型上看,自然语言处理可分为自然语言理解和自然语言生成两大类. 在谷歌的T5模型[1]推出之后,两类任务统一为单项语言生成的文字接龙形式. 自GPT-1起,OpenAI就一直坚持采用基于解码器结构的自回归语言模型,这种模型在处理语言生成问题方面具有天然的优势. 所以ChatGPT可以处理以前不同赛道的语言处理任务,比如翻译、问答、摘要、扩写、写作、润色、代码生成、语句分析、段落理解等.
当然,ChatGPT能够实现如今顺畅自然的人机对话,不仅源于其对GPT语言生成技术路线的持续发展,还依赖于算法、算力和数据等多方面的支持. 由于ChatGPT并未开源,也没有发布论文透露具体细节,我们只能基于OpenAI已公开的GPT系列技术发展路线来推测这些能力背后的潜在原因. 图1展示了部分ChatGPT已展现出的能力及其背后主要技术原因的对应关系. 值得关注的是,ChatGPT许多能力背后的原因仍在探索过程中. 关于上下文学习的能力,有学者认为模型从提示词(prompt)提供的示例中确定了待解决任务的自然语言指令(instruct),从而在无需微调模型的情况下提升了问题回答的质量[2]. 关于任务涌现和多任务迁移能力,一方面,有学者认为指令学习、大规模预训练和数据集多样性共同促进了模型在新任务的泛化能力[3]. 例如,通过在大量不同类型和指令任务上进行微调,模型学习到了一定程度的通用能力,从而能够泛化到未见过的指令和场景. 另一方面,不同任务的划分具有一定的主观性,其本质上都可以建模为统一的自然语言生成任务. 大型预训练语言模型通过学习大量训练数据,掌握了丰富的语言知识和多种任务之间的共性,进而利用这些共性来提高不同任务的性能. 然而,一些问题仍然没有明确答案,例如:何种模型规模和训练数据量阈值可以产生任务涌现能力?涌现能力与模型规模和训练数据量之间的量化关系如何?同时,其他一些能力,如在线纠错、理解弦外之音等,其背后的原因仍然有待发现.
OpenAI首席科学家llya Sutskeve最近在与英伟达首席执行官黄仁勋的访谈中对ChatGPT能力学习进行了解释:“ChatGPT通过学习文本中的统计相关性,获得了这个世界的一个压缩、抽象、可用的映射表达”. 这让我们不禁思考:ChatGPT是否学到了人类文字符号世界的暗知识(tacit knowledge)[4]. Michael Polanyi在他的认识论著作中曾提到:“We can know more than we can say(我们所知者,远多于所能说者)”. 可以确定的是:机器学习模型通过统计海量符号语料中的规律,能够学习到词汇、语法、乃至一定程度的上下文和常识知识. 问题是:随着语料规模的不断增加和统计规律的持续积累,模型所建立的世界表达分辨率越来越高、维度越来越丰富时,是否真的有可能学习到人类情感、道德观念等支撑整个世界运行的更复杂的暗知识?
在学术界积极探索ChatGPT能力背后的技术原因的同时,工业界已在欢迎这项新技术,并将其优秀的对话生成能力融入各种应用场景. 根据ChatGPT对话的对象和本身的定位,我们将这些应用分成4个层次,如表1所示:
表 1 ChatGPT主要应用类型Table 1. Main Applications Categories of ChatGPT对话对象 定位 实现思路 应用场景 数据生成器 根据需求直接生成数据 对话、文案、代码生成 数据 知识挖掘工具 对原始数据再加工或分析挖掘 翻译、润色、摘要、文档管理 模型 模型调度员 调用其他机器学习模型协同 模型拓展、智能中台 应用 人机交互界面 调用各类应用程序解决实际问题 插件、智能操作系统接口 1)数据生成器. 根据需求直接生成数据. 此类应用仅输入用户需求,利用ChatGPT的生成能力返回特定类型的数据. 由于思路简洁且实现容易,数据生成类应用在ChatGPT发布之初就大量出现. 主要应用场景包括对话生成(客服、虚拟数字人)、文案生成(法律文书、营销策划广告)和代码生成等. 典型的成功案例包括写作助手Notion AI
2 、营销文案生成工具Jasper.ai3 .2) 知识挖掘工具. 对数据进行再加工或分析挖掘.此类应用同时输入用户需求和待处理的原始数据,利用ChatGPT强大的自然语言处理能力返回经过加工的数据或挖掘出的新信息. 知识挖掘类应用可以分为离线和在线两种形式. 离线应用通过调用类ChatGPT API分析和挖掘私有数据等专业领域语料构建知识库,为进一步应用提供知识支持. 在线应用的主要场景包括翻译、润色、摘要生成、文档管理等. 一些典型案例包括搜索引擎摘要插件WebChatGPT、文档分析工具ChatPDF以及OpenAI官方随GPT-4发布的摩根士丹利策略分析师.
3) 模型调度员. 调用其他机器学习模型共同解决用户需求.此类应用同时输入用户需求、待处理数据以及多个可调用的机器学习模型,通过ChatGPT作为人类与其他模型间的连接,设计解决方案、调用并管理其他机器学习模型,共同完成用户需求并输出结果.这方面的典型案例是微软近期发布的系列多模态解决方案Visual ChatGPTPT[5]、MM-ReAct[6]和HuggingGPT[7],其通过调度其他视觉基础模型来协同完成视觉和语音任务. 此外,AI赋能一直以来的一个痛点问题是:智能中台需要整合不同模型和技术,并根据业务需求扩展新的模型. ChatGPT有望实现智能中台的升级,如提供友好的开发/业务人员界面、实现模块化模型管理、简化技术集成和部署,从而提高AI赋能效率. 随着ChatGPT应用探索的深入,相信模型调度员类型的应用将越来越受到关注.
4) 人机交互界面. 调用更广泛的应用程序帮助人类解决实际问题. 第一种形式是将ChatGPT嵌入到特定应用中,从而极大地提升自然交互体验,如微软的365 Copilot和Copilot X分别将ChatGPT融入Office和Github. 第二种形式是在ChatGPT搭建的自然语言交互框架上开发各类信息服务应用,去年10月推出的开源库LangChain和OpenAI最近发布的插件集Plugins都是大型语言模型应用开发框架的典型尝试. 正如Windows和Android分别是桌面和移动时代的操作系统,ChatGPT有望成为智能时代的操作系统接口. 进一步畅想,如果把语言分为人类之间沟通的自然语言和人与计算机之间沟通的计算机语言,ChatGPT在一定程度上统一了二者:用自然语言实现了人和计算机之间的沟通,不得不说“自然语言编程(natural language programming)”这一新词非常贴切. 从这个角度看,我们甚至可以大胆预测:人机交互界面将从磁带、键盘字符、鼠标图形全面进化到自然语言时代.
以上围绕对话生成讨论了ChatGPT的具体能力、背后的技术原因以及在不同定位下的应用形式. 尽管“对话生成”提供了无限的想象,但OpenAI的野心显然并不止于此. 从名称和发布时间点来看,ChatGPT似乎只是一种过渡性技术的产品形式. 在以对话这种产品形式向主流用户群展示了强大的技术实力之后,OpenAI新发布的GPT-4并未继续在对话生成功能上炫技,而是悄然接入了各类官方应用.
从生物学角度,语言和智能的演化过程相互促进. 人类智能在很大程度上依赖于高度复杂的语言系统. 语言作为思维的载体和智慧的外在表现,其运用能力很大程度上反映了认知能力和智能水平. 语言习得是认知发展的重要组成部分,儿童在成长过程中通过习得语言来理解世界,并逐渐掌握其他认知技能. ChatGPT等技术在语言生成能力的持续提升能将人工智能带到什么高度,让人非常期待.
2. ChatGPT的“不能”:负责
能力越大,责任越大. ChatGPT展现出的强大能力让主流用户群欣喜、学术界惊讶、工业界狂热. 这些能力让我们在使用它时感受到了与以往技术不同的体验. 回顾人类历史上的几次技术革命,从早期的石器、金属器具、机械设备、电气设备到近几十年的计算机、互联网和智能手机,每一个阶段所发明的工具都对人类生活产生了深远影响. 在使用这些工具时,我们可以清楚地意识到它们作为工具的定位,即辅助人类来完成任务. 然而,在使用ChatGPT的过程中,我们经常会产生一种与另一个人对话的错觉,尤其是当类似Plugins这类功能使其能够像人类一样利用其他工具进行自我增强的时候. 埃隆•马斯克在使用ChatGPT后的感受是“好到吓人”. 这种独特的体验无疑将加速技术融入人类社会的进程. 正如OpenAI自己对ChatGPT的评价:“尽管 ChatGPT 还没有实现真正的智能,但它让人体验到了真正的智能实现后,每个人都能用它做各种他们想做的事情的滋味”.
整个2023年3月都被各种生成式AI技术和产品的发布充斥,如Meta Alpaca、GPT-4、PaLM-E、文心一言、Office Copilot、Midjourney V5、英伟达新显卡、Github CopilotX、ChatGPT插件、Security Copilot等. 我们可以预见相关技术的应用领域将迅速拓展、应用程度将大幅度加深. 人们在享受技术带来的便捷和生产力提升的过程中,对技术的态度将从习惯逐渐转变为依赖. 而当人们开始依赖这些技术代替自己学习、思考、甚至决策时,有2个问题摆在我们面前:技术是否已经做好准备承担责任?人类对技术的信赖是否超出了它的能力?
实际上,ChatGPT在使用过程中已被发现存在诸多问题,如数学计算、未来预测、时空物理现实推理等方面能力的局限,以及事实错误(幻觉)、生成毒害内容等方面的不可控[8]. 下面从可信AI的4个维度对ChatGPT存在的问题展开讨论.
1) 安全性. OpenAI在官网上将“安全”列为五个目录之一,在随GPT-4发布的报告中批露了其在技术和评估两方面都设立了专门的安全小组,足见其对安全性的重视. 然而,和所有机器学习模型一样,ChatGPT仍存在着被对抗攻击的风险. 一种典型方式是提示语注入攻击(prompt injection attack):在提示语中混入恶意指令,可能绕过ChatGPT的安全机制,迫使其执行意外动作,如泄露敏感信息、输出有害内容等. 例如,ChatGPT驱动的新Bing在受到攻击后泄露了其内部代号“Sydney”;ChatGPT被诱导规划抢劫方案,甚至提供了购买抢劫道具的链接等.
2) 公平性. 在ChatGPT之前,OpenAI的文生图DALL-E系列曾被发现存在输出性别和种族歧视内容的问题. 类似地,GPT-2、Bert、RoBERTa等语言模型在一个测试项目中也被发现具有严重的性别偏见倾向[9]. 尽管目前尚无系统性地研究分析ChatGPT在性别和种族偏见方面的表现,但已有研究发现它存在明显的语言敏感性. 例如,当用日语和俄语分别询问一个日俄争议岛屿的归属问题时,ChatGPT给出了截然不同的答案[10].
3) 可解释性. ChatGPT的思维链能力可以在答案中同时呈现推理过程,这在部分程度上解决了实验室环境下模型可解释性的问题. 然而,需要注意的是,这种推理过程的解释是面向用户的,并不一定与模型的实际运行机制准确对应. 此外,ChatGPT仍存在很多尚未解释的行为,包括自我在线纠错、理解弦外之音等能力,以及出现事实错误(幻觉)等问题. 由于大模型本身的复杂性以及仅通过API提供服务的现实限制,ChatGPT对于用户和开发者都是完全的黑箱. 随着应用场景的拓宽和加深,现有的解释性水平可能难以满足透明度和回溯性等的要求.
4) 数据隐私. 涉及训练阶段的数据侵权和推理阶段的隐私泄露两个方面. 大模型训练需要的海量数据多来自网络,其中难免包括未经授权的版权保护内容. ChatGPT虽然可能避免语句层面的抄袭,但难以避免语义上的深度抄袭. 2023年,大模型领域发生了多起版权侵权案.例如,3名艺术家指控Stable Diffusion使用其版权作品作为训练数据,而微软和OpenAI因其开发被指控其开发的编程助手Copilot涉嫌复制Github上的开源代码而受到指控. 在推理阶段,攻击者有可能通过逆向攻击等手段,利用模型输出的结果来反向推导出训练数据中的隐私信息. GPT-2、BERT、RoBERTa等语言模型均被发现存在数据隐私泄露的风险[11]. 随着模型规模和功能多样性的增加,这种风险可能进一步加大:模型规模越大,其记忆能力越强;功能越多样化,可被利用的信息和攻击方式也越丰富. ChatGPT自身代号的泄露便证实了这一点.
从生成式AI模型选择的技术路线和当前发展水平看,这些问题既可以归结为大型语言模型固有的结构局限,也可以归结为将符号任务统一建模为对话问题的过度简化. 关于这条技术路线的未来发展,同时存在着乐观和悲观两种观点. 乐观派认为,人脑神经元突触连接总数约为一百万亿,随着语言模型参数量的不断增加,模型可能在某个时刻实现量变到质变的跃迁,这些问题也会自然消失. 然而,包括乔姆斯基、Stuart Russell等大佬在内的悲观派则持相反观点,他们认为端到端的深度学习与人类进行推理和使用语言的方式有着巨大差异,依靠更多数据和算力无法消除这些缺陷或实现真正的智能.
不讨论技术路线的选择或者观点的对错,不管生成式AI模型的能力演进到何种程度,其定位始终是帮助人类更好地完成任务的工具. 作为工具,首先应该明确能力边界,即“做自己能做的事”. 在认知心理学中,约瑟利窗口(Johari Window)将人际关系划分为公开区、盲区、隐藏区、未知区四个象限[12]. 参照这种方法,如图2所示,我们可以沿“自知”和“能力”2个维度绘制一个坐标系,智能工具处理的任务将落在其中一个象限内. 当任务落在“自知”负半轴的2个象限时,可能会出现不可预知的问题:在隐藏区时,模型“不知道自己能”,可能在收到用户反馈后将原本正确的答案改为错误,或接受用户错误反馈的引导;在未知区时,模型“不知道自己不能”,可能会产生事实错误幻觉,一本正经地胡说八道.
根据“自知”–“能力”坐标系,首先需要明确能力边界,即扩大“自知”正半轴2个象限的覆盖范围,使更多任务落入公开区和盲区. 在公开区时,模型可以自信地回答用户的问题;而在盲区时,模型应该承认能力缺陷,避免回答不知道的问题,或者虚心接受用户的反馈引导. PAL[13]是开发隐藏区的一个例子,通过在提示词中注入包含推理过程的程序示例,成功挖掘了模型在原本容易回答错误的数学推理类任务的解决能力. 在明确能力边界后,需要进一步提升模型的能力,即扩大“能力”正半轴、尤其是第一象限的面积,使更多的任务从盲区转移到公开区. 缩小盲区的一个例子是ReAct[14],它将推理和行动结合,通过调用搜索等插件从网络等外部资源中逐步、有选择性地收集和处理新信息,从而提高了模型在各种复杂场景下的解决能力. 另一个最新提出的框架Reflexion[15],它在ReAct基础上加入了自省(Reflect)功能,通过试错的方式,在寻找自身能力边界的同时,探索新任务的解决方案. 这是一个在同时确定能力边界和提高能力范围方面很有意思的尝试.
当然,“自知”–“能力”坐标系只是一个理想和简化的框架. 人类在执行任务时,通常会考虑诸如道德、伦理、公平等价值观. 而ChatGPT并不具备人类的价值观和判断力,可能会生成与事实相悖的错误信息和误导性的建议. 比如,当用户询问“林黛玉是如何倒拔垂杨柳的”,ChatGPT会一本正经地介绍相关具体细节. 事实上,《林黛玉倒拔垂杨柳》是一部网络小说,中文论坛上也有许多对这一虚构情节的讨论. 模型在学习这些语料时无法区分虚构和现实,因此产生了这个尴尬的回答. 随着GPT-4的发布,可以预见ChatGPT将有能力在符号世界中实现自动化生成. 然而,它依然不能确保所生成内容的真实性,自然更无法对生成结果承担责任.
3. 什么是“真”?
为了解释为何ChatGPT无法保证结果为真,首先需要探讨什么是“真”. “真”的定义有很多,本文采用亚里士多德的经典定义[16]:说是者为非,非者为是,即为假;而说是者为是,非者为非,即为真. 基于此,Tarski提出一个更形式化的“真”的定义[17]:
X是真语句当且仅当 p,
其中p代表任意语句,X是语句p的名称.
即,一个语句是真的,当且仅当它描述的情况确实发生了. 比如:“树在长芽”是真语句当且仅当树在长芽,即“树在长芽”是真语句当且仅当树在长芽确实发生了.
但是,这个看似合理的“真”的定义却隐含矛盾. Tarski转述了乌卡谢维茨的加强版说谎者悖论:
令C是“C不是一个真语句”的名称,因此,有如下2个假设:
1)α假设:C=“C不是真语句”;
2)β假设:“C不是真语句”是真语句当且仅当“C不是真语句”.
综合α假设与β假设,即可以得到:C是真语句当且仅当“C不是真语句”,悖论.
Tarski关于“真”的定义和上面的推理似乎都没有问题,那问题出在哪里呢?我们认为问题出在概念的定义上,因此需要仔细考察概念的定义.
众所周知,概念的经典表示由3部分组成:符号表示、内涵表示和外延表示. 其中,概念的符号表示由概念名称表示,概念的内涵表示由描述概念特性的命题表示,概念的外延表示由概念所包含的实例的经典集合表示. 比如,“偶数”这个概念,其中文符号表示是“偶数”这个词;内涵表示是 “能被2整除的整数”这个命题;外延表示是“包含所有偶数的集合”:{…, −6, −4, −2, 0, 2, 4, 6, …}.
如图3所示,根据经典表示,每个概念具备3种功能:指名、指心和指物,同时对应着波普尔的3个世界:符号世界、心理世界和物理世界[18]. 概念的指名功能,是指每个概念都指向认知世界或符号世界中的一个实体,用所指对象的特定符号名称来表示. 这些符号名称可以组成各种不同的语言. 概念的指心功能,是指每个概念也指向人类心理世界中的实体,代表这个概念在心理世界里的对象表示. 概念的指物功能,强调概念与物理世界中的实体之间的对应,这些实体遵循物理世界的规律,可以独立于人的主观感受.
如果从概念的表示来实现人工智能,指名、指物、指心对应了3条路径:符号主义、连接主义和行为主义. 如果从概念的功能角度来对人工智能分类,可以分为认知智能、情感智能和行为智能. 认知智能实现了概念的指名功能,即处理和理解符号世界的问题. 情感智能则实现了概念的指心功能,主要关注心理世界中的问题. 而行为智能则体现了概念的指物功能,主要解决物理世界中的问题. 然而,如果要实现概念的三指功能,必须首先解决机器的感知问题. 解决机器感知问题是最基本的人工智能,通常被称为感知智能. 感知智能主要关注机器的输入输出处理,是实现认知智能、情感智能和行为智能的基础.
在概念的经典表示下,概念的指名、指心与指物功能是等价的,其符号表示、内涵表示和外延表示在功能上也是可以互换的. 这是因为概念的经典表示存在6条预设:
1) 概念的外延表示可以由集合{x1, x2, …,}表示;
2) 概念的内涵表示存在且用命题∀xP(x)表示;
3) 概念的名称存在,且用符号表示A;
4) 概念的外延表示与内涵表示同名:A={x1, x2, …,}=“∀xP(x)”;
5) 概念的表示唯一,即同一个概念的表示与个体无关:∀α(Aα=A),α代表一个人;
6) 概念的指称等价,即其内涵表示与外延表示在指称对象的时候功能等价∀x(x∈A↔P(x)),其中, A={x1, x2, …,}.
根据上述概念的经典表示,可以知道概念的指名、指心与指物功能是等价的. 在日常生活中,这种情况非常普遍,因此说真话是通常的情形. 罗素曾给出一个清晰的论证[19]:“除非假定说真话是一种通常的情况,否则没有人能够学会说话:假设当你的孩子看到一条狗时,你随意地说出‘猫’、‘马’或者‘鳄鱼’,那么当他看到的不是一条狗时,你无法通过能通过说‘狗’来欺骗他. 因此,说谎是一种派生的行为,它预设了说真话是通常的规则. ”在上述罗素的论证里,可以清楚地看到,其预设了概念的指名与指物等价,即假设概念的三指等价是真的必要条件.
如果概念的指名、指心与指物功能等价,则可以认为:认知智能、情感智能与行为智能等价. 这意味着一旦实现了认知智能,也就同时实现了情感智能和行为智能. 同时,人工智能的3条实现路径——符号主义、连接主义和行为主义——也是等价的. ChatGPT和GPT4的出现,表明认知智能已经取得了巨大的进步. 如果概念的三指等价,那么认知智能的巨大进步预示着情感智能和行为智能将取得同样的巨大进步. 从这个角度看,实现AGI似乎也有可能性.
然而,乌卡谢维茨悖论告诉我们概念三指等价在逻辑上并不永远成立:它内蕴矛盾. Tarski的真定义实际上等价于如下命题:概念的指名功能为真当且仅当概念的指物功能为真. 显然,概念的经典表示也预设了Tarski的真定义. 仔细分析乌卡谢维茨悖论的逻辑推理,可以发现α假设与β假设都预设了“概念的指名功能为真”与“概念的指物功能为真”等价,这必然导致悖论. 实际上,在概念的三指等价条件下,针对包含算术系统的逻辑系统,哥德尔证明了不完全性定理,而Tarski得到了著名的真之不可定义定理. 这些都说明在复杂一点的符号系统内部,不可能解决何为真、何为假的问题. 因此,从理论上讲,ChatGPT和GPT4同样无法解决真假问题. 因此,有时必须放弃概念的三指等价假设. 一旦放弃了这个假设,就会发现认知智能、情感智能与行为智能是不可能等价的. 实际上,现实生活中,这三种智能从未等价过.
4. AI的未来
很多人认为ChatGPT已经开启了第四次技术革命. 面对这种尺度的变革,我们很难在早期准确预测未来的发展. 在这里,我们仅从中短期技术趋势和长期发展路径2个方面,来探讨在当前阶段我们对这一技术的理解.
4.1 中短期技术趋势
OpenAI发明ChatGPT对于人工智能领域的影响,可以类比哥伦布发现了美洲大陆. 在哥伦布发现美洲之前,探险家们一直渴望着探索新大陆,并尝试使用各种方法去寻找它. 然而,即使是经验非常丰富的探险家,也并不确定新大陆是否真实存在,以及哪种航海方法更为有效. 哥伦布的成功不仅坚定了后来探险家们的信心,更在一定阶段内统一了寻找新大陆的方法:在新的突破性技术出现以前,看似简陋的帆船和罗盘已经足以带领人们到达目的地.
同样地,ChatGPT的诞生为人工智能领域注入了信心并指明了发展方向,展示了“大力出奇迹”的可能:通过不断扩大神经网络的模型规模和增加数据量,可以在AI的道路上取得实质性的进展. 在这一目标和技术路线的共识下,我们从拓展应用、克服局限和探索理论3个方面探讨人工智能领域中短期的可能技术趋势.
4.1.1 拓展应用
1) 垂直化. ChatGPT发布初期,人们尝试在提示词中注入角色信息以增强垂直领域对话质量. 为克服提示词token数量限制以融合领域语料,有工作提出基于LangChain框架,将领域文档切片后分布式输入,但这种做法存在私域数据泄露风险,解决思路之一是利用ChatGPT控制和调用其他领域模型来提高垂直化能力. 此外,麻省理工学院最近提出保护隐私的迁移学习框架Offsite-Tuning[20],可在不访问完整模型的前提下,在下游领域数据上微调数十亿级参数的基础模型. 对于需要构建领域模型的场景,在不泄露基础模型和领域数据的情况下,实现对通用基础模型的领域微调非常重要.
2) 个性化. 个性化可视为垂直化的极致,针对个人需求和偏好的个性化微调模型能够提供更精确的服务. 典型的应用场景包括个性化推荐系统、个性化教育辅导、个人AI助理等. 微软于2023年4月4日开源了大模型协作项目JARVIS,旨在在大型语言模型与机器学习社区的其他模型之间建立连接. JARVIS这个名字让我们对钢铁侠中同名的AI助理产生更多联想. 如果未来个性化模型可以通过多模的人机交互来增强,实现与人类对世界的同步感知、学习和成长,这样的AI助手能够更好地理解个性化需求、情感和行为,协助我们实现更高效的工作、学习和生活方式. 在这个过程中,我们需要解决诸如中心平台式AI如何保护个人数据以及在个体层面部署模型等问题.
3)工程化. ChatGPT的诞生在某种程度上是工程化的胜利,而它的成功无疑将进一步加速AI技术从实验室研究走向工程化和产业化. 从必要性上看,随着数据量和计算资源需求的增加,工业界拥有更好的条件主导大模型研发,相关实验室研究也需调整研究范式和目标以适应工程化需求. 从可行性上看,ChatGPT的成功让工业界看到了AI技术在各行业落地和价值实现的可能,众多开源项目和成熟技术框架的出现则为AI技术工程化提供了支持. 从重要性上看,工程化是一个学科发展和成熟的标志,AI技术的工程化有助于进一步优化和完善相关技术,激发学术创新活力,推动AI领域的整体发展.
4.1.2 克服局限
1)多模态增强. 多模态大模型的发展逐渐以语言模型为主,将视觉、语音等多模态信息映射到语义符号空间进行处理. 近年来的多模态解决方案更是提出直接以大型语言模型为基座来拓展多模态能力,如Visual ChatGPT和MM-ReAct以ChatGPT为中心调度其他视觉模型、PaLM-E固定语言模型训练额外的视觉编码器等. 然而,人类在进行多模态学习时并不完全依赖于符号空间,大脑神经网络在不同感官区域间传递、整合信息,同时结合视觉形象、空间关系等非符号性表示. 由于多模态世界建模更为复杂,以语言模型为主或是现有条件下的一种技术折衷. 随着多模态数据量与模型参数继续增加,有望在视觉、语音等空间实现真正的多模态生成能力. 如被细线系着的气球照片,无需映射至语义空间,模型即可预测线剪断后的情景.
2)人机交互增强. 有人将现在的ChatGPT比作一个博览群书的神童,却从未亲身体验过这个世界. 经典的认知实验发现,与被动旁观的猫相比,具有自由活动能力的猫可以通过主动与环境互动并获得反馈,从而更好地学习行为能力[21]. 在一项微软的最近研究中,ChatGPT已经能够根据人类的要求自动编写代码并指挥无人机协助完成任务[22]. 通过进一步考虑生物学特性、身体感知和行动的影响,有望实现与真实物理世界的双向交互,在自主行为反馈中不断提升自身智能水平.
3)可信增强. 之前的讨论已概括了ChatGPT当前的局限和进行可信研究的必要性. 可以预见,每个大模型公司都将需要一个专注于可信的安全和伦理团队. 这就不难理解OpenAI的系列举措:GPT-4在训练完成后经过半年的评估和修正才发布、用30余页技术报告介绍安全补丁System Card,以及对模型评估框架Evals的开源. 即便如此,ChatGPT还是因隐私问题在意大利遭禁,并遭到包括马斯克和沃兹尼亚克等上千名知名人士的联名叫停. 值得注意的是,除了安全、公平、可解释、数据隐私等经典可信问题外,ChatGPT还会带来模型回音壁等新问题. 目前,使用ChatGPT生成的对话数据进行训练已经成为公开的秘密,甚至出现了专门收集ChatGPT对话的网站ShareGPT. 其实,在人类反馈强化RLHF后,就有学者提出了基于智能模型反馈强的RLAIF框架[23]. 随着模型规模继续增加,可供训练的自然数据面临枯竭,模型生成标注和反馈数据在模型间的回音壁效应将加剧可信问题. 此外,垂直化、个性化、多模态等技术趋势也会带来新的可信挑战. 关于可信增强的方案,考虑到传统AI测试基准已不足以评估模型能力,我们需要尽快构建新的可信测试基准:包括可信benchmark数据集和可信测试框架. 此外,为了准确评估模型的应用成熟度,我们应该研制面向大型语言模型的可信标准,以规范不同可信等级的模型在相应的应用场景中使用. 同时,结合工程化的发展趋势,我们可以参考软件开发周期中的测试–调试闭环,在基础模型和下游模型2个层面进行迭代优化,以确保模型在大规模应用场景中的可信性.
4.1.3 探索理论
1)预训练模型机理研究. 近年来,计算机视觉和自然语言处理领域的技术框架逐渐趋同. 学习范式从特征工程、深度监督学习转向自监督预训练,模型结构从CNN、RNN发展为Transformer. 针对自监督预训练和Transformer结构,仍有很多基础性问题需要研究,如自监督学习泛化理论、预训练与微调的动态平衡分析、Transformer结构的定性和鲁棒性分析等. 对于ChatGPT,除了探究其在线纠错、理解弦外之音等原因未知的能力外,还需进一步研究任务涌现能力与模型规模以及训练数据量等的关系,为未来模型设计和实际应用提供指导.
2)学科交叉融合研究. ChatGPT作为催化剂,不仅将推动人工智能学科内部计算机视觉和自然语言处理领域的进一步整合,而且将激发学术界和工业界更加深入地探讨和实践人工智能和其他学科交叉融合以及跨学科应用的可能性. 以脑科学为例,结合脑结构和人工神经网络研究,我们将更有可能揭示智能产生的本质原因. 实际上,OpenAI的首席执行官Sam Altman早就投资了可控核聚变公司Helion和生物科技公司Retro Biosciences. 科技部近期启动的“AI for Science”专项部署工作更是明确指出了将人工智能与数学、物理、化学、天文等基础学科紧密结合,重点攻关药物研发、基因研究、生物育种研发、新材料研发等领域的关键问题.
4.2 长期发展路径
我们沿着概念经典表示和人工智能分类的讨论来看AI未来可能的发展路径. 《左传》里有句名言,“太上有立德,其次有立功,其次有立言”. 显然,立德属于心理世界,是情感智能的范畴;立功属于物理世界,是行为智能的范畴;立言属于符号世界,是认知智能的范畴. 应该指出,这3个世界既互相独立又相互依存. 比如,符号世界也必须通过心理世界表示才能为人所感知,同样符号世界也必须通过物理世界显现展现才能传播. 对于人而言,认知的物理世界本身也属于符号世界的示例,没有成为符号示例的物理对象难以被符号世界记录,同样,物理世界也是通过心理世界被人感知.
这3个世界各自都足够复杂. 在符号世界中,有自然符号、模拟符号和象征符号. 其中自然符号直接用物理世界中的对象作为符号,比如图书馆里学生用书包或其它个人物品占座. 此时的书包或个人物品就有了符号意义,属于典型的自然符号. 图像、视频等是典型的模拟符号. 文字是最常见的象征符号. 至于心理世界、物理世界的复杂性,更是众所周知.
为了计算方便,通常假定概念的三指等价,即符号世界、心理世界、物理世界三界同构. 比如,符号主义的物理符号系统假设认定物理符号系统具有产生智能行为的充要条件,这暗示了符号世界与物理世界等价. 连接主义认为只要能模拟大脑的思考功能就足够了,实际上它假设了心理世界(或其子集)与物理世界等价. 行为主义则认为只要能在物理世界实现智能,不需要知识、表示和推理,只需要感知和行动,这意味着符号世界、心理世界是物理世界或其子集. 但是,3个世界并不同构. 比如,乔姆斯基曾经写过一个著名的句子:“Colorless green ideas sleep furiously. ”这个句子在符号世界可行,但在心理世界和物理世界就失去了可行性. 因此,3个世界同构假设仅是一种有用的简化,并不总是成立.
由于3个世界并不同构,它们之间的关系相当复杂. 这导致在3个世界中实现智能的难度也大为不同. 从共性上讲,无论在哪个世界实现智能,首先必须解决最基础的感知问题,即输入输出问题. 从难度上看,感知智能、认知智能、情感智能、行为智能依次增加. 原因很简单:感知智能保持了3个世界同构假设. 从认知智能开始,我们必须放弃3个世界同构的假设,只能假设3个世界的某些受限子集同构. 认知智能旨在解决符号世界的智能问题,其实现主要受制于符号世界的规律,这些规律可能是显知识,也可能是暗知识,但认知智能依然在符号世界内预设概念的三指等价. 情感智能主要解决心理世界的智能问题,除了受制于心理世界外,也受制于情感所在的物理个体,即情感必须在认知层面具备具身特性. 理论上,西施难以与青蛙共情,夏虫不能与秋雁同语. 对于机器来说,情感智能是基于认知智能的,情感智能也是依赖于机器内部的符号操作. 仅有认知智能并不能实现情感智能,情感智能的实现难度髙于认知智能,情感智能预设心理世界内的概念三指等价. 行为智能主要解决物理世界的智能问题,不但受限于作为行为主体的自身物理条件,也受限于其所处的物理环境,约束最多,因此实现难度最大. 莫拉维克悖论实际上是对行为智能实现难度最大的一个简单说明. 对于行为智能来说,任一概念的三指等价都需要检验,任一概念的三指等价都不能先验预设成立,这正是莫拉维克悖论背后隐藏的挑战. 图4比较清楚地说明了概念的三指等价性从默认成立到必须检验所对应的不同智能阶段.
根据以上分析,人工智能的发展路径可以预测为:首先成熟的是感知智能,次之为认知智能,再次为情感智能,最后是行为智能. 这与人工智能目前的现状相符. 当前,感知智能的问题已经大部分解决,已经融入人们的日常生活. 得益于ChatGPT等技术,认知智能的问题已经初步解决,即将走入人们的生活. 情感智能的问题部分解决,受限可用,比如在三界同构假设成立时,可以使用类ChatGPT技术. 行为智能的问题尚极具挑战性,在目前的情况下可用性受到严重限制,如在工厂等封闭场景下部分可用,人们日常生活的特定需求如果能保证场景封闭,即对应的相关概念可以保证三指等价成立,则行为智能可以实现,如自动售货机、自动烤肠机、电饭锅、懒人锅等。保证概念的三指等价是行为智能成功的必要条件.
粗略地说,感知智能是人工智能中的基础智能,可视为人工智能的1.0阶段. 认知智能是人工智能的2.0阶段. 情感智能则为人工智能的3.0阶段. 行为智能可以看作是人工智能的4.0阶段. 目前的人工智能发展已经进入了AI 2.0时代,未来的AI 3.0和AI 4.0还有待努力.
5. ChatGPT的影响
人工智能发展至今已迈入认知智能时代,确实取得了重大进步. 虽然离AI 3.0和AI 4.0距离尚远,但其依然将对我们的生活产生重要影响:
1)生成式人工智能的成功提醒我们,符号世界、心理世界、物理世界三界同构假设不是恒真. 今后,各种符号的证据力量需要检测,不能预设概念的三指等价为真. 比如,不能再简单地认为,有图有视频就有真相了. 这不仅大幅增加认知成本,还考验认知能力. 目前,国内外已有用生成式人工智能诈骗的案例。如何防范这类诈骗是未来要面对的挑战.
2)每次技术进步都对教育提出了更高的要求,这次也不例外. ChatGPT展现出的认知水平要求人们更注重提出问题和独立判断的能力. 鉴于符号世界的人类普适性,教育尤其是高等教育需要提前布局.
3)ChatGPT表明认知智能已可用,但依然不能通过原始的图灵测试. 这表明图灵测试是有启发性的思想实验,但不是衡量智能的实践标准.
4)ChatGPT的成功为国内人工智能学术界带来机遇与挑战. 机遇包括提高学界对相关问题的理解,例如任务的主观性,以往的多任务可能在新视角下视为单任务;同时,全社会也提升了对人工智能潜在能力的认识,这将极大推动相关产业的发展. 然而,挑战也不容忽视:应用研究方面,社会对技术的期待提高,更加注重实效性和实用性;理论研究方面,该技术已领先于理论,亟需加强理论研究.
5)类ChatGPT技术的大规模应用可能导致意识形态等方面的信息茧房效应. 特别是类ChatGPT是中心化的人工智能平台,容易使人们在获取信息时只接触到特定内容和片面观点,这一方面会加剧社会分化,另一方面会降低观点多样性,阻碍创新思维的产生, 为社会带来潜在危害.
6)大模型对计算量的巨大需求可能会加剧全球能源消耗,并对环境产生不良影响. 我们期望AI for science通过加速科学发现,更迅速地找到可持续能源解决方案和新的节能技术,从而尽量降低这些负面影响.
7)ChatGPT在提高生产力方面潜力巨大. 通过自动化处理一些繁琐的、重复性的任务,它可以解放人们的时间和精力,让人们关注于更有价值、更具创造力的工作,进一步推动社会创新和发展.
8)ChatGPT的出现,预示人工智能进入AI 2.0时代,但距离AI 3.0与AI 4.0尚远. AI 3.0与AI 4.0均要求具身. 一旦具身,如何通用?从概念的表示理论来看,AGI似乎只可能是AI的理想,难以成为AI的现实.
作者贡献声明:桑基韬负责撰写第1、2、4.1 节; 于剑负责确立论文框架、撰写第3、4.2、5节.
-
表 1 预测结果列联表
Table 1 Contingency Table of Prediction Results
bj预测结果 bi预测结果 bi(xk)= yk bi(xk)≠ yk bj(xk)= yk c p bj(xk)≠ yk q d 表 2 实验数据集信息
Table 2 Information of Experimental Datasets
序号 数据集 属性数 实例数 类数 序号 数据集 属性数 实例数 类数 序号 数据集 属性数 实例数 类数 1 abalone 8 4177 29 88 divorce 54 170 2 175 online-shoppers 17 12330 2 2 absenteeism 20 740 18 89 dna 180 3186 3 176 optdigits 64 3823 10 3 ada-agnostic 48 4562 2 90 dry-bean 16 13611 7 177 ozone-1hr 72 2536 2 4 advertisement 1558 3279 2 91 echocardiogram 11 75 3 178 ozone-8hr 72 2534 2 5 aids 4 50 2 92 ecoli 7 336 8 179 page-blocks 10 5473 5 6 allrep 29 3772 4 93 eeg-eyestate 14 14980 2 180 parkinson-speech 26 1040 2 7 amazon-employ 9 32769 94 electricity 8 45132 2 181 pc1 21 1109 2 8 acd-assessment 15 13 4 95 energy-eff 9 768 37 182 pc3 37 1563 2 9 acd-authorship 70 841 4 96 engine1 5 383 3 183 pc4 37 1458 2 10 acd-bankruptcy 6 50 2 97 eucalyptus 19 736 5 184 penbased 16 10992 10 11 acd-birthday 3 365 7 98 fabert 800 8237 7 185 phishing-websites 30 2456 2 12 acd-bondrate 11 57 5 99 first-order 51 6118 6 186 phoneme 5 5404 2 13 acd-boxing1 3 120 2 100 flag 28 194 8 187 pima 8 768 2 14 acd-boxing2 3 132 2 101 flare 11 1066 6 188 polish-bankruptcy1 64 7027 2 15 acd-braziltour 8 412 7 102 gas-drift 128 13910 6 189 polish-bankruptcy5 64 5500 2 16 acd-broadway 9 95 5 103 german 20 1000 2 190 popularkids 10 478 3 17 acd-broadwaym 7 285 7 104 gesture-phase 32 9873 5 191 post-operative 8 90 3 18 acd-chall101 2 138 2 105 gina-prior2 784 3468 10 192 primary-tumor 17 339 22 19 acd-creditscore 6 100 2 106 glass 9 214 7 193 prnn-fglass 9 214 6 20 acd-currency 3 31 7 107 haberman 3 306 2 194 ring 20 7400 2 21 acd-cyyoung8 10 97 2 108 hayes-roth-test 4 28 4 195 risk-factors 35 858 26 22 acd-cyyoung9 10 92 2 109 hayes-roth-train 4 132 4 196 rmftsa-sleep 2 1024 4 23 acd-dmft 4 797 6 110 hcv-egyptian 28 1385 4 197 robot-failures-lp4 90 117 3 24 acd-draft 4 365 12 111 heart-statlog 13 270 2 198 saheart 9 462 2 25 acd-esr 2 32 2 112 helena 27 65196 100 199 sat11-hand-runtime 115 296 14 26 acd-germangss 5 400 4 113 hepatitis 19 155 2 200 satimage 36 6435 7 27 acd-halloffame 17 1340 3 114 hill-valley 100 1212 2 201 sat-test 36 2000 6 28 acd-homerun 26 162 2 115 horse-colic-test 27 68 2 202 sat-train 36 4435 6 29 acd-lawsuit 4 264 2 116 horse-colic-train 27 300 2 203 seeds 7 210 3 30 acd-mapleleafs 1 84 3 117 house-votes 16 232 2 204 semeion 256 1593 10 31 acd-marketing 32 310 5 118 ilpd 10 583 2 205 sensor-readings-24 24 5456 4 32 acd-supreme 7 4052 10 119 image-seg-test 19 210 7 206 sensor-readings-4 4 5456 4 33 acd-votesurvey 4 48 4 120 image-seg-train 19 2100 7 207 servo 4 167 2 34 anneal 38 798 6 121 indian-pines 220 9144 8 208 shuttle 9 58000 7 35 anomalydata-5 4 1050 2 122 internet-usage 70 10108 46 209 shuttle-landing 6 15 2 36 anomalydata-5h 10 1050 2 123 ionosphere 34 351 2 210 smartphone-har 66 180 6 37 appendicitis 7 106 2 124 iris 4 150 3 211 socmob 5 1156 2 38 arrhythmia 279 452 16 125 isolet1234 617 6238 26 212 sonar 60 208 2 39 artificial-charac 7 10218 10 126 isolet5 617 1559 26 213 soybean-large 35 307 19 40 asp-potassco 140 1294 11 127 japanese-vowels 14 9961 9 214 soybean-small 35 47 4 41 audiology 69 226 24 128 jungle-chess-l-e 46 4704 3 215 spambase 57 4597 2 42 australian 14 690 2 129 jungle-chess-p-l 46 4704 3 216 spect-test 22 187 2 43 autism-adult 20 704 2 130 jungle-chess-r-e 46 5880 3 217 spect-train 22 80 2 44 autohorse-fixed 68 201 186 131 kc1 21 2109 2 218 spectf-test 44 269 2 45 automobile 25 205 7 132 kc2 21 522 2 219 spectf-train 44 80 2 46 autouniv1-1000 20 1000 2 133 kr-vs-kp 36 3196 2 220 spectrometer 101 531 48 47 autouniv4-2500 100 2500 3 134 kropt 6 28056 18 221 speech 400 3686 2 48 autouniv6-1000 40 1000 8 135 leaf 15 340 30 222 splice 60 3190 3 49 autouniv6-750 40 750 8 136 leaves-margin 64 1600 100 223 steel-plates-faults 27 1941 7 50 autouniv7-1100 12 1100 5 137 leaves-shape 64 1600 100 224 student-mat 30 395 21 51 autouniv7-500 12 500 5 138 leaves-texture 64 1600 100 225 student-por 30 649 21 52 bach-choral 16 5665 102 139 led24 24 3200 10 226 surveillance 7 15 3 53 balance-scale 4 625 3 140 led7digit 7 500 10 227 synthetic-control 60 600 6 54 ballon 4 16 2 141 lense 5 24 3 228 tae 5 151 3 55 banana 2 5300 2 142 letter 16 20000 26 229 tamilnadu 3 45781 20 56 bank-marketing 16 45211 2 143 libras-move 90 360 15 230 texture 40 5000 11 57 banknote 4 1372 2 144 lung-cancer 56 32 3 231 thyroid 21 7200 3 58 biodeg 41 1055 2 145 lupus 3 87 2 232 thyroid-allbp 26 2800 5 59 blood-trans 4 748 2 146 lymphography 18 148 4 233 thyroid-allhyper 26 2800 5 60 breast-cancer 9 286 2 147 madelon 500 2600 2 234 tic-tac-toe 9 958 2 61 breast-cancer-w 9 699 2 148 magic 10 19020 2 235 titanic 3 2201 2 62 bupa 6 345 2 149 marketing 13 8993 9 236 toronto-apartment 6 1124 188 63 cacao 8 1795 42 150 mc1 38 9466 2 237 touch2 10 265 8 64 calendar-dow 32 399 5 151 meta-all 62 71 6 238 trains 32 10 2 65 car 6 1728 4 152 meta-stream 74 45164 13 239 twonorm 20 7400 2 66 car-evaluation 21 1728 4 153 mfeat-fac 216 2000 10 240 unix-user 2 9100 9 67 cardiotocograph 35 2126 3 154 mfeat-fou 76 2000 10 241 user-knowledge 5 403 5 68 castmetal1 37 327 2 155 mfeat-kar 64 2000 10 242 usps 256 9298 10 69 chess 36 3196 2 156 mfeat-mor 6 2000 10 243 vehicle 18 846 4 70 churn 20 5000 2 157 mfeat-pix 240 2000 10 244 vehicle-reproduced 18 846 4 71 clean2 165 6598 2 158 mfeat-zer 47 2000 10 245 volcanoes-a1 3 3252 4 72 cleveland 13 297 5 159 miceprotein 76 1080 8 246 volcanoes-d2 3 9172 4 73 click-prediction 9 39948 2 160 micro-a2 20 20000 5 247 volcanoes-e2 3 1080 4 74 climate-model 20 540 2 161 micro-mass 1300 571 20 248 vowel 13 990 11 75 cmc 9 1473 3 162 monks1-test 6 122 2 249 walking-activity 4 149332 22 76 cnae9 856 1080 9 163 monks1-train 6 124 2 250 waveform 21 5000 3 77 coil2000 85 9822 2 164 monks2-test 6 432 2 251 waveform-noise 40 5000 3 78 colleges-aaup 14 1161 4 165 monks2-train 6 169 2 252 wdbc 30 569 2 79 collins 19 1000 30 166 monks3-test 6 432 2 253 wifi-localization 7 2000 4 80 contraceptive 9 1473 3 167 monks3-train 6 122 2 254 wilt 5 4339 2 81 cpmp-2015 24 527 4 168 mozilla4 5 15545 2 255 wine 13 178 3 82 credit-card 23 30000 2 169 mushroom 22 8124 2 256 winequality-r 11 1599 10 83 crx 15 653 2 170 newthyroid 5 215 3 257 winequality-w 11 4898 10 84 cylinder-bands 19 539 2 171 nursery 8 12960 5 258 wpbc 32 198 2 85 dbworld-bodies 64 3721 2 172 obs-network 20 1075 4 259 yeast 8 1484 13 86 dermatology 34 366 6 173 oil-spill 49 937 2 260 zoo 16 101 7 87 diggle-table-a2 8 310 9 174 olivetti-faces 4096 400 40 表 3 元特征信息
Table 3 Information of Meta-Features
元特征类型 元特征名称 基于统计和信
息论的元特征attr_conc.mean,attr_conc.sd,attr_ent.mean,attr_ent.sd,attr_to_inst,can_cor.mean,can_cor.sd,cat_to_num,class_conc.mean,class_conc.sd,class_ent,cor.mean,cor.sd,cov.mean,cov.sd,eigenvalues.mean,eigenvalues.sd,eq_num_attr,freq_class.mean,freq_class.sd,g_mean.mean,g_mean.sd,gravity,h_mean.mean,h_mean.sd,inst_to_attr,iq_range.mean,iq_range.sd,joint_ent.mean,joint_ent.sd,kurtosis.mean,kurtosis.sd,lh_trace,mad.mean,mad.sd,max.mean,max.sd,mean.mean,mean.sd,median.mean,median.sd,min.mean,min.sd,mut_inf.mean,mut_inf.sd,nr_attr,nr_bin,nr_cat,nr_class,nr_cor_attr,nr_disc,nr_inst,nr_norm,nr_num,nr_outliers,ns_ratio,num_to_cat,one_itemset.mean,one_itemset.sd,p_trace,range.mean,range.sd,roy_root,sd.mean,sd.sd,sd_ratio,skewness.mean,skewness.sd,sparsity.mean,sparsity.sd,t_mean.mean,t_mean.sd,two_itemset.mean,two_itemset.sd,var.mean,var.sd,w_lambda 基于决策树的
元特征leaves,leaves_branch.mean,leaves_branch.sd,leaves_corrob.mean,leaves_corrob.sd,leaves_homo.mean,leaves_homo.sd,leaves_per_class.mean,leaves_per_class.sd,nodes,nodes_per_attr,nodes_per_inst,nodes_per_level.mean,nodes_per_level.sd,nodes_repeated.mean,nodes_repeated.sd,tree_depth.mean,tree_depth.sd,tree_imbalance.mean,tree_imbalance.sd,tree_shape.mean,tree_shape.sd,var_importance.mean,var_importance.sd 基于基准的
元特征best_node.mean,best_node.sd,elite_nn.mean,elite_nn.sd,linear_discr.mean,linear_discr.sd,naive_bayes.mean,naive_bayes.sd,one_nn.mean,one_nn.sd,random_node.mean,random_node.sd,worst_node.mean,worst_node.sd 基于问题复杂
度的元特征c1,c2,cls_coef,density,f1.mean,f1.sd,f1v.mean,f1v.sd,f2.mean,f2.sd,f3.mean,f3.sd,f4.mean,f4.sd,hubs.mean,hubs.sd,l1.mean,l1.sd,l2.mean,l2.sd,l3.mean,l3.sd,lsc,n1,n2.mean,n2.sd,n3.mean,n3.sd,n4.mean,n4.sd,t1.mean,t1.sd,t2,t3,t4 表 4 候选算法胜出次数
Table 4 Win Times of the Candidate Algorithms
候选算法 元数据集 DAcc DPre DRec DF1 DARR1 DARR2 DARR3 kNN 10 15 13 16 45 21 8 RF 106 100 84 94 10 66 98 SVM 37 28 20 21 21 32 32 LR 27 26 25 22 2 21 26 NB 11 13 21 13 51 17 14 LDA 20 24 26 25 66 40 22 ID3 21 27 38 38 65 46 34 MLP 23 18 23 24 0 14 21 CNN 5 9 10 7 0 3 5 注:黑体数值表示最多胜出次数. 表 5 各算法错误率结果
Table 5 Error Rate Results of the Algorithms
% 元数据集 本文算法 MALO NSGA2 SMPSO SPEA2 DAcc 50.3 52.4 54.0 54.4 53.8 DPre 54.1 56.7 57.1 57.7 57.2 DRec 56.3 58.2 60.1 61.2 59.8 DF1 51.7 54.4 55.5 56.3 55.8 DARR1 51.6 54.3 57.8 59.2 58.9 DARR2 55.7 57.9 60.5 60.9 60.8 DARR3 50.9 52.2 53.9 54.2 53.8 注:黑体数值表示最优结果. 表 6 各算法多样性指标结果
Table 6 Diversity Indicator Results of the Algorithms
元数据集 本文算法 MALO NSGA2 SMPSO SPEA2 DAcc 0.561 0.590 0.654 0.64 0.651 DPre 0.592 0.628 0.668 0.665 0.662 DRec 0.560 0.601 0.636 0.631 0.639 DF1 0.549 0.582 0.634 0.627 0.637 DARR1 0.501 0.521 0.587 0.584 0.579 DARR2 0.568 0.601 0.646 0.646 0.657 DARR3 0.561 0.598 0.647 0.642 0.638 注:黑体数值表示最优结果. 表 7 各算法帕累托解数量结果
Table 7 Pareto Solution Number Results of the Algorithms
元数据集 本文算法 MALO NSGA2 SMPSO SPEA2 DAcc 12.6 5.9 6.2 7.2 6.6 DPre 9.3 5.5 5.8 7.2 5.8 DRec 10.4 5.4 6.1 5.9 6.2 DF1 12.2 5.6 6.1 5.9 5.7 DARR1 9.0 5.2 4.9 5.1 4.8 DARR2 10.2 5.7 5.5 6.0 5.1 DARR3 11.0 6.0 6.6 6.8 6.3 注:黑体数值表示最优结果. 表 8 各算法NR结果
Table 8 NR Results of the Algorithms
元数据集 本文算法 MALO NSGA2 SMPSO SPEA2 DAcc 0.743 0.252 0 0.010 0 DPre 0.834 0.166 0 0 0 DRec 0.713 0.297 0 0 0 DF1 0.778 0.225 0 0 0 DARR1 0.711 0.289 0 0 0 DARR2 0.764 0.229 0.010 0 0 DARR3 0.757 0.229 0.010 0 0 注:黑体数值表示最优结果. 表 9 各算法HV结果
Table 9 HV Results of the Algorithms
元数据集 本文算法 MALO NSGA2 SMPSO SPEA2 DAcc 0.209 0.190 0.157 0.160 0.158 DPre 0.181 0.158 0.140 0.139 0.142 DRec 0.184 0.164 0.141 0.139 0.141 DF1 0.208 0.186 0.159 0.158 0.157 DARR1 0.235 0.215 0.171 0.167 0.170 DARR2 0.184 0.164 0.137 0.135 0.132 DARR3 0.206 0.186 0.159 0.160 0.162 注:黑体数值表示最优结果. 表 10 各算法SP结果
Table 10 SP Results of the Algorithms
元数据集 本文算法 MALO NSGA2 SMPSO SPEA2 DAcc 0.013 0.019 0.017 0.024 0.021 DPre 0.018 0.014 0.020 0.016 0.018 DRec 0.012 0.011 0.019 0.018 0.014 DF1 0.013 0.021 0.015 0.016 0.022 DARR1 0.015 0.016 0.017 0.017 0.022 DARR2 0.013 0.011 0.018 0.014 0.018 DARR3 0.016 0.023 0.019 0.017 0.018 注:黑体数值表示最优结果. 表 11 各方法ER结果
Table 11 ER Results of the Methods
% 方法 元数据集 排名 DAcc DPre DRec DF1 DARR1 DARR2 DARR3 SAMO 50.3 54.1 56.3 51.7 51.6 55.7 50.9 1 kNN 59.2 66.5 68.5 63.8 74.6 73.5 59.6 7 SVM 59.6 61.9 66.9 63.1 78.1 75.4 63.1 8 CART 69.6 71.9 76.2 69.6 64.6 73.1 69.2 9 SVR 59.2 61.5 67.3 63.8 75.0 75.0 62.7 6 RF 55.8 55.4 58.8 54.2 54.2 57.7 54.6 2 RFR 60.0 62.3 63.8 60.8 66.5 71.2 66.9 5 XGB 59.6 57.7 56.9 54.2 54.2 58.1 56.5 4 LGBM 57.7 53.8 60 55.8 53.5 58.8 56.5 3 注:黑体数值表示最优结果. 表 12 各方法查准率结果
Table 12 Precision Results of the Methods
% 方法 元数据集 排名 DAcc DPre DRec DF1 DARR1 DARR2 DARR3 SAMO 35.7 35.9 38.5 37.7 38.6 32.8 32.8 1 kNN 16.1 14.2 18.6 21.3 17.4 16.7 18.3 7 SVM 5.0 4.4 7.0 7.5 5.1 2.9 4.4 8 CART 19.9 18.0 17.3 19.7 30.1 21.4 22.3 6 SVR 5.0 4.4 4.7 5.3 7.3 3.0 4.4 9 RF 27.1 42.4 35.9 36.1 34.8 28.8 29.5 2 RFR 27.9 21.0 25.7 23.6 22.9 15.9 12.7 5 XGB 26.7 26.6 40.6 36.3 36.2 30.2 31.1 4 LGBM 27.7 37.3 36.9 37.3 38.1 27.0 29.1 3 注:黑体数值表示最优结果. 表 13 各方法查全率结果
Table 13 Recall Results of the Methods
% 方法 元数据集 排名 DAcc DPre DRec DF1 DARR1 DARR2 DARR3 SAMO 28.0 29.7 30.9 31.6 38.9 31.2 27.4 1 kNN 18.8 16.1 17.8 18.9 17.7 17.0 20.8 7 SVM 11.9 11.3 11.9 12.1 15.8 11.3 11.4 8 CART 19.9 20.6 20.5 26.1 31.2 23.1 22.2 6 SVR 12.0 11.4 11.4 11.6 15.8 11.5 11.6 9 RF 22.8 28.9 31.2 29.4 33.4 28.7 25.7 4 RFR 29.4 25.7 25.7 26.5 24.9 17.7 13.9 5 XGB 23.7 27.4 36.3 34.0 34.7 31.2 27.0 2 LGBM 24.4 31.9 31.6 30.6 34.8 29.2 25.9 3 注:黑体数值表示最优结果. 表 14 各方法F1得分结果
Table 14 F1 Score Results of the Methods
% 方法 元数据集 排名 DAcc DPre DRec DF1 DARR1 DARR2 DARR3 SAMO 28.0 28.8 29.5 30.4 36.6 29.5 26.4 1 kNN 16.3 13.8 15.0 16.5 16.4 15.0 18.4 7 SVM 7.0 6.2 6.7 7.2 6.1 4.6 6.3 8 CART 18.7 17.8 17.2 20.7 27.9 21.1 20.6 5 SVR 7.0 6.3 5.9 6.4 6.9 4.7 6.4 9 RF 22.5 30 29.6 27.5 32.1 26.5 24.5 4 RFR 25.0 20.9 22.7 22.1 22.0 14.8 11.5 6 XGB 23.3 25.4 34.8 31.6 33.1 29.3 26.6 2 LGBM 24.4 30.7 30.8 29.9 33.6 27.0 25.4 3 注:黑体数值表示最优结果. -
[1] Adam S P, Alexandropoulos S-A N, Pardalos P M, et al. No free lunch theorem: A review[M]//Approximation and Optimization. Cham, Switzerland: Springer, 2019: 57−82
[2] Kerschke P, Hoos H H, Neumann F, et al. Automated algorithm selection: Survey and perspectives[J]. Evolutionary Computation, 2019, 27(1): 3−45 doi: 10.1162/evco_a_00242
[3] Brazdil P, Giraud-Carrier C. Metalearning and algorithm selection: Progress, state of the art and introduction to the 2018 special issue[J]. Machine Learning, 2018, 107(1): 1−14 doi: 10.1007/s10994-017-5692-y
[4] Yang Chengrun, Akimoto Y, Kim D W, et al. OBOE: Collaborative filtering for AutoML model selection[C]//Proc of the 25th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining. New York: ACM, 2019: 1173−1183
[5] Dias L V, Miranda P B C, Nascimento A C A, et al. ImageDataset2Vec: An image dataset embedding for algorithm selection[J]. Expert Systems with Applications, 2021, 180: 115053 doi: 10.1016/j.eswa.2021.115053
[6] Shahoud S, Winter M, Khalloof H, et al. An extended meta learning approach for automating model selection in big data environments using microservice and container virtualizationz technologies[J]. Internet of Things, 2021, 16: 100432 doi: 10.1016/j.iot.2021.100432
[7] Aguiar G J, Santana E J, De Carvalho A C P F L, et al. Using meta-learning for multi-target regression[J]. Information Sciences, 2022, 584: 665−684 doi: 10.1016/j.ins.2021.11.003
[8] Arjmand A, Samizadeh R, Dehghani Saryazdi M. Meta-learning in multivariate load demand forecasting with exogenous meta-features[J]. Energy Efficiency, 2020, 13(5): 871−887 doi: 10.1007/s12053-020-09851-x
[9] Li Li, Wang Yong, Xu Ying, et al. Meta-learning based industrial intelligence of feature nearest algorithm selection framework for classification problems[J]. Journal of Manufacturing Systems, 2022, 62: 767−776 doi: 10.1016/j.jmsy.2021.03.007
[10] Chalé M, Bastian N D, Weir J. Algorithm selection framework for cyber attack detection[C]//Proc of the 2nd ACM Workshop on Wireless Security and Machine Learning. New York: ACM, 2020: 37−42
[11] Mu Tianyu, Wang Hongzhi, Zheng Shenghe, et al. Assassin: An automatic classification system based on algorithm selection[J]. Proceedings of the VLDB Endowment, 2021, 14(12): 2751−2754 doi: 10.14778/3476311.3476336
[12] Garcia L P F, Lorena A C, De Souto M C P, et al. Classifier recommendation using data complexity measures[C]//Proc of the 24th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2018: 874−879
[13] Aguiar G J, Mantovani R G, Mastelini S M, et al. A meta-learning approach for selecting image segmentation algorithm[J]. Pattern Recognition Letters, 2019, 128: 480−487 doi: 10.1016/j.patrec.2019.10.018
[14] Aduviri R, Matos D, Villanueva E. Feature selection algorithm recommendation for gene expression data through gradient boosting and neural network metamodels[C]//Proc of the 12th IEEE Int Conf on Bioinformatics and Biomedicine. Los Alamitos, CA: IEEE Computer Society, 2018: 2726−2728
[15] 孟军,张晶,姜丁菱,等. 结合近邻传播聚类的选择性集成分类方法[J]. 计算机研究与发展,2018,55(5):986−993 doi: 10.7544/issn1000-1239.2018.20170077 Meng Jun, Zhang Jing, Jiang Dingling, et al. Selective ensemble classification integrated with affinity propagation clustering[J]. Journal of Computer Research and Development, 2018, 55(5): 986−993 (in Chinese) doi: 10.7544/issn1000-1239.2018.20170077
[16] Jan Z, Munos J C, Ali A. A novel method for creating an optimized ensemble classifier by introducing cluster size reduction and diversity[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(7): 3072−3081
[17] Xu Yuhong, Yu Zhiwen, Cao Wenming, et al. Adaptive classifier ensemble method based on spatial perception for high-dimensional data classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 33(7): 2847−2862 doi: 10.1109/TKDE.2019.2961076
[18] Mohammed A M, Onieva E, Woźniak M, et al. An analysis of heuristic metrics for classifier ensemble pruning based on ordered aggregation[J]. Pattern Recognition, 2022, 124: 108493 doi: 10.1016/j.patcog.2021.108493
[19] 胡毅,瞿博阳,梁静,等. 进化集成学习算法综述[J]. 智能科学与技术学报,2021,3(1):18−33 doi: 10.11959/j.issn.2096-6652.202103 Hu Yi, Qu Boyang, Liang Jing, et al. A survey on evolutionary ensemble learning algorithm[J]. Chinese Journal of Intelligent Science and Technology, 2021, 3(1): 18−33 (in Chinese) doi: 10.11959/j.issn.2096-6652.202103
[20] 刘艺,刁兴春,曹建军,等. 基于集成分类的高维数据实体分辨[J]. 计算机应用研究,2018,35(3):689−693 Liu Yi, Diao Xingchun, Cao Jianjun, et al. High-dimensional data entity resolution based on ensemble classifying[J]. Application Research of Computers, 2018, 35(3): 689−693 (in Chinese)
[21] Qasem A, Sheikh Abdullah S N H, Sahran S, et al. An improved ensemble pruning for mammogram classification using modified bees algorithm[J]. Neural Computing and Applications, 2022, 34: 10093−10116 doi: 10.1007/s00521-022-06995-y
[22] Zhu Xuhui, Ni Zhiwei, Ni Liping, et al. Ensemble pruning of ELM via migratory binary glowworm swarm optimization and margin distance minimization[J]. Neural Processing Letters, 2020, 52(3): 2043−2067 doi: 10.1007/s11063-020-10336-2
[23] Mirjalili S. The ant lion optimizer[J]. Advances in Engineering Software, 2015, 83(C): 80−98
[24] Niu Guoqiang, Li Xiaoyong, Wan Xin, et al. Dynamic optimization of wastewater treatment process based on novel multi-objective ant lion optimization and deep learning algorithm[J]. Journal of Cleaner Production, 2022, 345: 131140 doi: 10.1016/j.jclepro.2022.131140
[25] Abualigah L, Shehab M, Alshinwan M, et al. Ant lion optimizer: A comprehensive survey of its variants and applications[J]. Archives of Computational Methods in Engineering, 2021, 28(3): 1397−1416 doi: 10.1007/s11831-020-09420-6
[26] Liu Yi, Qin Wei, Zhang Jinhui, et al. Multi-objective ant lion optimizer based on time weight[J]. IEICE Transactions on Information and Systems, 2021, E104.D(6): 901−904 doi: 10.1587/transinf.2021EDL8009
[27] Khan I, Zhang Xianchao, Mobashar R, et al. A literature survey and empirical study of meta-learning for classifier selection[J]. IEEE Access, 2020, 8: 10262−10281 doi: 10.1109/ACCESS.2020.2964726
[28] 曾子林,张宏军,张睿,等. 基于元学习思想的算法选择问题综述[J]. 控制与决策,2014,29(6):961−968 doi: 10.13195/j.kzyjc.2013.1297 Zeng Zilin, Zhang Hongjun, Zhang Rui, et al. Summary of algorithm selection problem based on meta-learning[J]. Control and Decision, 2014, 29(6): 961−968 (in Chinese) doi: 10.13195/j.kzyjc.2013.1297
[29] Rivolli A, Garcia L P F, Soares C, et al. Meta-features for meta-learning[J]. Knowledge-Based Systems, 2022, 240: 108101 doi: 10.1016/j.knosys.2021.108101
[30] Lorena A C, Garcia L P F, Lehmann J, et al. How complex is your classification problem: A survey on measuring classification complexity[J]. ACM Computing Surveys, 2019, 52(5): 1−34
[31] 刁兴春,刘艺,曹建军,等. 多目标蚁群优化研究综述[J]. 计算机科学,2017,44(10):7−13,25 doi: 10.11896/j.issn.1002-137X.2017.10.002 Diao Xingchun, Liu Yi, Cao Jianjun, et al. Reviews of multiobjective ant colony optimization[J]. Computer Science, 2017, 44(10): 7−13,25 (in Chinese) doi: 10.11896/j.issn.1002-137X.2017.10.002
[32] Dua D, Graff C. UCI machine learning repository[EB/OL]. 2017[2022-03-19].https://archive.ics.uci.edu/ml/index.php
[33] Alcalá-Fdez J, Fernández A, Luengo J, et al. Keel data-mining software tool: Data set repository, integration of algorithms and experimental analysis framework[J]. Journal of Multiple-Valued Logic & Soft Computing, 2011, 17: 255−287
[34] Kooperberg C. StatLib: An archive for statistical software, datasets, and information[J]. The American Statistician, 1997, 51(1): 98−98 doi: 10.2307/2684710
[35] Vanschoren J, Van Rijn J N, Bischl B, et al. OpenML: Networked science in machine learning[J]. ACM SIGKDD Explorations Newsletter, 2014, 15(2): 49−60 doi: 10.1145/2641190.2641198
[36] Alcobaça E, Siqueira F, Rivolli A, et al. MFE: Towards reproducible meta-feature extraction[J]. Journal of Machine Learning Research, 2020, 21: 1−5
[37] Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: Machine learning in Python[J]. Journal of Machine Learning Research, 2011, 12: 2825−2830
[38] Chollet F. Keras[EB/OL]. 2015[2022-07-16].https://keras.io
[39] Brazdil P B, Soares C. Ranking learning algorithms: Using IBL and meta-learning on accuracy and time results[J]. Machine Learning, 2003, 50(3): 251−277 doi: 10.1023/A:1021713901879
[40] 李洪奇,徐青松,朱丽萍,等. 基于数据集相似性的分类算法推荐[J]. 计算机应用与软件,2016,33(8):62−66 doi: 10.3969/j.issn.1000-386x.2016.08.014 Li Hongqi, Xu Qingsong, Zhu Liping, et al. Classification algorithms recommendation based on dataset similarity[J]. Computer Applications and Software, 2016, 33(8): 62−66 (in Chinese) doi: 10.3969/j.issn.1000-386x.2016.08.014
[41] Mirjalili S, Jangir P, Saremi S. Multi-objective ant lion optimizer: A multi-objective optimization algorithm for solving engineering problems[J]. Applied Intelligence, 2017, 46(1): 79−95 doi: 10.1007/s10489-016-0825-8
[42] Deb K, Pratap A, Agarwal S, et al. A fast and elitist multiobjective genetic algorithm: NSGA2[J]. IEEE Transactions on Evolutionary Computation, 2002, 6(2): 182−197 doi: 10.1109/4235.996017
[43] Nebro A J, Durillo J J, Garcia-Nieto J, et al. SMPSO: A new PSO-based metaheuristic for multi-objective optimization[C]//Proc of the 2009 IEEE Symp on Computational Intelligence in Milti-Criteria Decision-Making. Piscataway, NJ: IEEE, 2009: 66−73
[44] Zitzler E, Laumanns M, Thiele L. SPEA2: Improving the strength pareto evolutionary algorithm, 103[R]. Zurich: Swiss Federal Institute of Technology, 2001
[45] Benítez-Hidalgo A, Nebro A J, García-Nieto J, et al. jMetalPy: A Python framework for multi-objective optimization with metaheuristics[J]. Swarm and Evolutionary Computation, 2019, 51: 100598 doi: 10.1016/j.swevo.2019.100598
[46] Goh C-K, Tan K C. A competitive-cooperative coevolutionary paradigm for dynamic multiobjective optimization[J]. IEEE Transactions on Evolutionary Computation, 2009, 13(1): 103−127 doi: 10.1109/TEVC.2008.920671
[47] Zitzler E, Thiele L. Multiobjective evolutionary algorithms: A comparative case study and the strength Pareto approach[J]. IEEE Transactions on Evolutionary Computation, 1999, 3(4): 257−271 doi: 10.1109/4235.797969
[48] Schott J R. Fault tolerant design using single and multicriteria genetic algorithm optimization[D]. Cambridge, MA: Department of Aeronautics and Astronautics, Massachusetts Institute of Technology, 1995
-
期刊类型引用(1)
1. 李喜龙. 基于人工智能技术的无人驾驶虚拟仿真测试平台设计. 自动化与仪表. 2024(01): 89-92+97 . 百度学术
其他类型引用(3)