-
摘要:
信息系统通常会借助数据管理系统来进行数据管理,其中SQL凭借良好的易用性和灵活性一直作为数据管理的主流查询语言,用户将编写的SQL语句交由数据管理系统执行后便可得到查询结果. 执行模型的高效与否决定了系统能否快速响应用户的查询请求,现有执行模型主要采用解释执行和编译执行2种方式. 解释执行具有良好的拓展性、可维护性等因而被大多数系统采用. 不同于解释执行,编译执行为原本需要解释执行的查询生成高效的定制化代码来加速查询,带来的显著性能提升吸引了一众数据管理系统开始实现相应技术. 然而,如何针对查询生成其对应的定制化代码是一个复杂的过程,在实现时需要考虑诸多方面,甚至在某些情况下,采用编译执行的查询性能可能还不及传统的火山模型. 从概念、技术等角度系统地综述了编译执行技术的研究进展. 首先,概述了编译执行的基本概念,对相关术语和背景知识进行了介绍;其次,分别从中间代码生成、中间表示、机器码生成与运行3个角度介绍了相关技术;最后,结合当前数据管理系统的研究趋势以及近期研究工作展望了编译执行未来的发展方向.
Abstract:Information systems usually use data management systems to manage data, among which SQL has been the mainstream query language for data management because of its ease of use and flexibility, and users can write SQL statements and submit them to the data management system to get query results. The efficiency of the execution model determines whether the system can quickly respond to user queries. The existing execution models mainly adopt interpreted execution and compiled execution. Interpreted execution is used by most systems due to its scalability and maintainability. Unlike interpreted execution, compiled execution generates efficient custom code to speed up queries that should have been processed by interpreted execution, and the significant performance gains have attracted a number of database systems to implement the technology. However, generating the corresponding custom code for a query is a complex process that requires a number of considerations, even in some cases, the performance of using compiled execution may not be as good as the traditional volcano model. We provide a systematic review of the progress of compiled execution techniques from conceptual and technical perspectives. Firstly, we outline the basic concepts of query compilation and introduce the relevant terminology and background knowledge. Secondly, we introduce the relevant techniques from three perspectives: intermediate code generation, intermediate representation, machine code generation and running. Finally, we look at the future development direction of compiled execution technology in the context of current research trends in data management systems and recent research work.
-
Keywords:
- data management system /
- query execution /
- code generation /
- compiler /
- just-in-time compilation
-
国家自然科学基金委员会(简称自然科学基金委)立足科学前沿,优化学科布局,面向国家社会经济发展中的重大应用需求,2018年设立了人工智能一级学科代码F06,将人工智能学科作为自然科学基金委的重要资助领域. 人工智能代码F06下设立10个二级代码,分别是F0601(人工智能基础)、F0602(复杂性科学与人工智能理论)、F0603(机器学习)、F0604(机器感知与机器视觉)、F0605(模式识别与数据挖掘)、F0606(自然语言处理)、F0607(知识表示与处理)、F0608(智能系统与人工智能安全)、F0609(认知与神经科学启发的人工智能)以及F0610(交叉学科中的人工智能问题),主要支持人工智能领域基础理论方法和核心关键技术研究.
本文回顾了2024年自然科学基金委在人才资助体制与机制改革、分类申请和评审模式等方面推出的关键改革措施;同时,通过对2024年F06人工智能领域基金项目的申请、受理及资助情况进行统计与分析,为国内科技工作者提供参考,帮助他们全面了解“人工智能”学科在项目申请与资助、评审机制完善、学科布局优化以及研究方向和团队建设等方面的最新进展与实践经验.
1. 2024年国家自然科学基金改革举措概述
2024年集中受理期自然科学基金委接收的项目主要划分为两大类:一类为研究系列项目,另一类为人才系列项目. 研究系列项目涵盖面上项目、地区科学基金项目(以下简称“地区项目”)、专项项目、重点项目等;人才系列项目则包括青年科学基金项目(以下简称“青年项目”)、优秀青年科学基金项目(以下简称“优青项目”)、国家杰出青年科学基金项目(以下简称“杰青项目”)、创新研究群体项目以及基础科学中心项目等[1]. 为贯彻党中央、国务院的决策部署,并切实履行新时代赋予的职责使命,基金委聚焦基础研究、应用基础研究和科技人才培养. 为提升资助效能,2024年自然科学基金委推出了11项改革举措[1]:
1) 深化人才资助体制机制改革. ①针对杰青项目,实行分级评价和延续资助制度,从中遴选出不超过20%的项目,为其提供第二个5年的滚动支持. ②设立基础科学中心项目的B类资助,要求科研团队中最高年龄不超过55周岁,且团队平均年龄低于50周岁. ③对女性申请杰青项目的年龄限制予以放宽,调整为48周岁. ④试行临床医学科研评价体系改革,深化临床医学人才项目评审,鼓励临床医师依托临床实践开展具有创新性和探索性的科学研究. ⑤对港澳地区依托单位开放杰青项目,将优青项目(港澳)并入优青项目,确保港澳地区和内地同台竞技. ⑥试点实施优秀博士生、本科生资助.
2)优化分类申请与评审模式. 结合基础研究发展的新形势和新要求,对原有的4种科学问题属性进行简化,统一为“自由探索型基础研究”和“目标导向型基础研究”两大类.
3)持续激励原始创新. 在所有类型项目的申请和评审中鼓励原创性工作. 设立专门渠道,遴选具有非共识、颠覆性强及高风险等特征的原创探索计划项目.
4)继续开展“负责任、讲信誉、计贡献”评审机制试点工作. 宣传倡导性、限制性、禁止性的行为规范,正面引导主基调,激励评审专家严格履职.
5)不断完善多元投入机制. ①企业创新发展基金和“叶企孙”科学基金申请时不计入申请和承担项目总数范围,正式接收申请后计入. ②对加入区域创新发展联合基金的9个基础研究薄弱地区试行倾斜策略. ③扩大区域、企业创新发展联合基金以及与行业部门联合设立的基金资助规模,并拓宽社会与个人捐赠渠道.
6)持续推进国际(地区)科技合作与交流. 挖掘双多边合作渠道和合作潜力,推动构建基础研究国际合作平台,稳步开展全球科技创新联合资助;同时,加大对外籍人才的支持力度,启动国际科研资助部工作,打造更为开放、协同的科研资助平台.
7)做好重大类型项目资助统筹. 确保重大项目与国家其他科技计划项目之间有效衔接. 继续对重大项目、基础科学中心项目、国家重大科研仪器研制项目(部门推荐)与国家重点研发计划项目、科技创新2030重大项目实施联合限项审查.
8)持续落实科研经费管理改革. ①加大对科研人员的激励力度,持续推进落实《国家自然科学基金资助项目资金管理办法》. ②对青年学生基础研究项目实行经费包干制度. ③对基础科学中心延续资助项目增设预算评审环节.
9)持续优化申请要求,减轻申请与评审负担. ①取消面上项目连续两年申请未获资助后暂停一年申请的限制. ②取消面上项目、青年项目和地区项目中博士后研究人员变更依托单位的限制. ③部分项目类型的研究期限由信息系统结合项目类别自动生成. ④要求个人简历中代表性论文对署名情况予以标注,并上传相应文件.
10)加强依托单位管理. 探索构建单位注册的系统性评价指标,健全依托单位的准入与退出机制;建立完善依托单位管理体系,加强项目管理过程的监督,并持续推进包干制项目管理规定备案工作;研究并完善信誉评价与惩戒机制,定期抽查依托单位科学基金项目经费的使用情况.
11)深入推进评审专家被“打招呼”顽疾专项整治工作. 坚持“正面引导、极限防守、严肃惩戒”的工作原则,通过加强宣传引导和严格评审纪律,坚决遏制评审专家被“打招呼”的问题. 持续推动评审机制完善、评审流程优化工作,建立评审全流程的防范与整治体系.
2. 研究系列项目申请与资助情况
2.1 面上项目
国家自然科学基金面上项目旨在为科研人员的创新性研究提供稳定支持,推动各学科的均衡、协调与可持续发展,并不断为基础研究注入创新动力. 2024年,基金委进一步优化了申请要求,取消了此前规定的面上项目连续两年申请未获资助后必须暂停申请一年的限制.
2024年,人工智能领域共收到
2510 项面上项目申请,其中因缺少导师同意函或专家推荐信而被初步筛选淘汰的有6项,剩余2504 项申请经过通讯评审和会议评审后,来自122家依托单位的296位申请人获得资助,整体资助率约为11.79%,获资助依托单位占所有申请依托单位的比例为21.03%.图1展示了近5年来人工智能领域面上项目的申请与资助情况. 可以看出,2020至2023年间,申请数量较为稳定,且资助率波动较小;而2024年取消申请限制后,申请数量比2023年激增了49.85%,相应地资助率下降至11.79%.
图2反映了过去5年中各二级代码下面上项目的申请比例情况,其中F0610(人工智能与其他学科交叉)的申请比例始终居于首位,而F0602(复杂性科学与人工智能理论)的申请比例则始终最低. 图3统计的资助比例显示,F0604(机器感知与机器视觉)项目的资助比例连续5年领先,而F0602代码的资助比例则与其申请量保持一致,始终处于较低水平. 表1汇总了2024年各二级代码下获资助面上项目中排名前3的关键词,系统呈现了各二级代码下的热点研究方向.
表 1 2024年F06各二级代码下获资助面上项目排名前3的关键词Table 1. Top3 Keywords of Funded General Programs by Secondary Codes under F06 in 2024代码 关键词 代码 关键词 F0601 粒计算 F0606 大语言模型 粗糙集 信息抽取 进化算法设计 语义分析 F0602 复杂网络 F0607 知识图谱 复杂系统 知识推理 多智能体系统 可解释性 F0603 持续学习 F0608 智能系统安全 表示学习 分布式决策 多模态学习 联邦学习 F0604 目标跟踪 F0609 脑机接口 目标检测 神经干预与调控 多模态内容识别与理解 脑电 F0605 数据挖掘 F0610 人工智能 模式识别中的信息融合 医学影像 特征提取与选择 机器学习 图4统计了2024年面上项目申请量排名前10的依托单位及其申请与资助情况. 电子科技大学以47项申请排名第1,华南理工大学与北京邮电大学以28项申请并列第10名. 这10家依托单位的申请总数约占全领域申请数的12.99%,而它们获得资助的项目数量占总资助数的21.62%. 从各单位的资助率(本单位获资助数/本单位申请数)来看,除北京邮电大学低于全领域平均资助率(11.79%)外,其余单位均高于这一水平,其中华南理工大学的资助率最高,达到32.14%,约为全领域平均资助率的近3倍.
图5对2024年人工智能领域面上项目申请人的年龄分布及相应资助情况进行了统计. 图中将年龄分为每5年一个区间,并设定了4个关键节点:35周岁(男性青年项目申请截止年龄)、40周岁(女性青年项目申请截止年龄)、45周岁(杰青项目申请截止年龄)以及60周岁(一般退休年龄). 数据显示,36~50周岁的男性申请人占男性总申请人数的75.27%,而其他年龄段则仅占24.73%. 对于女性申请人,41~45周岁的比例最高,达到占比35.51%,其次是46~50周岁(21.34%)和36~40周岁(17.29%),整体年龄分布较为均衡. 从资助结果来看,无论男女,各年龄段获批项目数量均较为接近,表明年龄并非影响资助结果的主要因素. 近5年来,领域内女性申请比例分别为23.46%、22.87%、25.56%、24.48%和25.58%,而对应的资助比例为20.91%、20.15%、20.70%、21.92%和25.68%,仅2024年资助比例超过了申请比例.
2.2 地区项目
地区项目支持特定地区的部分依托单位科学技术人员开展创新性科学研究,稳定和凝聚优秀人才,为区域创新体系建设与经济、社会发展服务. 具体地区包括11个省(自治区):江西省、海南省、贵州省、云南省、西藏自治区、甘肃省、青海省、内蒙古自治区、广西壮族自治区、宁夏回族自治区、新疆维吾尔自治区,以及8个市(自治州):吉林省延边朝鲜族自治州、湖北省恩施土家族苗族自治州、湖南省湘西土家族苗族自治州、四川省凉山彝族自治州、四川省甘孜藏族自治州、四川省阿坝藏族羌族自治州、陕西省延安市、陕西省榆林市. 2024年人工智能领域收到了来自15个地区117家依托单位的482项申请. 经通讯评审和会议评审后,有63项获得资助,资助率约为13.07%. 如表2所示,江西省以16项资助显著领先,广西壮族自治区以9项资助排名第2;湖南省的资助率高达到37.50%,是地区项目平均资助率的近3倍;来自陕西省延安市、榆林市,湖北省恩施土家族苗族自治州,四川省凉山彝族自治州、甘孜藏族自治州、阿坝藏族羌族自治州,以及西藏自治区的8家依托单位申请的16个项目未能获资助.
表 2 2024年F06代码下地区项目所在省(自治区)分布Table 2. Distribution of Provinces (Autonomous Regions) for the Fund for Less Developed Regions under F06 in 2024省(自治区) 依托单位数 申请数 资助数 广西壮族自治区 20 64 9 江西省 19 87 16 甘肃省 14 49 5 贵州省 13 54 4 云南省 12 50 6 新疆维吾尔自治区 11 63 6 内蒙古自治区 9 46 8 海南省 5 16 3 青海省 3 15 2 陕西省 3 7 0 湖北省 2 3 0 宁夏回族自治区 2 14 1 四川省 2 2 0 湖南省 1 8 3 西藏自治区 1 4 0 2.3 专项项目
2024年1月,信息科学部二处开展了“生成式人工智能基础研究”专项项目相关工作,旨在探索大模型的智能涌现机制并提高其处理复杂任务的能力,努力解决生成内容中存在的安全可信问题,探索大模型的知识融合和创新性应用,增强用户体验并推动新技术的发展. 从“理论机理-架构设计-计算效率-安全对齐-评价方法-典型应用”6个层面开展研究,重点研究高效可信模型的基础理论和关键技术. 具体资助研究方向包括:
(一)生成式模型的智能涌现机理研究;
(二)面向生成式模型的新型高效神经网络架构研究;
(三)大模型的高效训练和推理方法研究;
(四)大模型的价值观和安全对齐策略研究;
(五)生成式模型的自动评价方法研究;
(六)生成式人工智能的行业、专业模型研究.
资助强度为50万元/项,资助期限为1年. 指南发布后,共收到项目申请311项,仅资助6项,资助率约为1.93%. 各个指南的申请量如图6(a)所示. 申报指南方向六的申请人是其他指南的5~10倍. 这也反映了我国当前生成式人工智能大模型的研究分布情况.
同期,信息科学部二处还开展了“元宇宙理论与技术基础研究”专项项目的相关工作,旨在探索新的科研范式及相关理论和技术,努力在数据管理分发、智能感知交互、协同分析方法、建模理论方法等方面寻求原创性突破,为元宇宙产业发展提供基础理论和关键技术支撑. 具体资助研究方向包括:
(一)元宇宙中复杂数据管理、分发与传输方法研究;
(二)面向元宇宙的具身智能感知交互方法研究;
(三)人机群智协同的复杂数据可视分析研究;
(四)元宇宙中多智能体协作机制研究;
(五)融合共票机制的元宇宙数字资产理论与方法研究;
(六)元宇宙建模理论与方法研究.
资助强度为50万元/项,资助期限为1年. 指南发布后,共收到项目申请144项,仅资助6项,资助率约为4.17%. 各个指南的申请量如图6(b)所示. 其中申报指南方向六(元宇宙建模理论与方法研究)的申请人显著多于其他指南,体现出我国在元宇宙理论与技术方面的研究侧重.
2024年10月,信息科学部二处还开展了“数据科学与人工智能前沿探索”专项项目的相关工作,作为“生成式人工智能基础研究”专项项目的拓展和延续,本专项项目支持探索人工智能的数据科学基础,发展生成式人工智能颠覆性技术,加强人工智能治理与安全研究,为提高我国人工智能基础研究水平提供重要科技支撑. 具体资助研究方向包括:
(一)人工智能的数据科学基础
1.1高维复杂数据空间的结构化分析
1.2稀缺受限数据的高效合成
1.3知识嵌入的高可靠数据集构建
1.4多粒度跨层次数据融合分析
(二)生成式人工智能颠覆性技术
2.1面向边端高效推理的大模型轻量化
2.2大模型情感感知与认知调控
2.3多模态混合输入输出的生成式模型
2.4数据与物理知识驱动的世界模型
2.5基于新型架构的行业大模型
(三)人工智能治理与安全
3.1人机智能可信交互评估
3.2模型内在安全可控理论
3.3生成内容识别与价值观伦理对齐方法
资助强度为200~300万元/项,资助期限为2年. 指南发布后,信息科学部共收到193项申请,共资助15项,资助率约为7.77%. 各个指南的申请量如图7(a)所示. 其中申报指南方向2.1(面向边端高效推理的大模型轻量化)和方向2.5(基于新型架构的行业大模型)的申请人显著多于其他指南,体现出我国在生成式人工智能领域方面的研究侧重.
同期,信息科学部二处将“元宇宙理论与技术基础研究”专项项目拓展到了第Ⅱ期,进一步探索元宇宙基础理论并实现关键技术突破,在元宇宙感知、仿真、交互、协作等基础理论与关键技术方面,引领前沿、创新技术. 具体资助研究方向包括:
(一)元宇宙中复杂数据处理与高效计算方法;
(二)面向元宇宙的多源沉浸感知与物理仿真;
(三)元宇宙模型的不确定性量化与在线更新;
(四)元宇宙虚实融合空间三维生成与呈现技术;
(五)元宇宙多尺度世界模型构建与具身行为交互技术;
(六)元宇宙中多智能体协作机制;
(七)工业元宇宙实现与应用.
资助强度为50万元/项,资助期限为1年. 指南发布后,信息科学部共收到191项申请,共资助11项,资助率约为5.76%. 各个指南的申请量如图7(b)所示. 其中申报指南方向七(工业元宇宙实现与应用)的申请人显著多于其他指南,体现出我国在元宇宙理论与技术方面的研究分布.
信息科学部二处与管理科学部二处也在同期合作开展了“数据市场制度设计与关键技术”专项相关工作. 旨在充分认识和把握数据市场化配置的发展规律,创新数据市场及其市场规制理论与方法,创新数据市场可信安全流通的关键技术. 该专项包含13个研究方向,其中与信息科学有关的方向有7个,包括:
(七)数据产权登记合规性验证与风险管控技术;
(八)高质量数据集构建与质量评估技术;
(九)数据交易智能技术、动态定价模型与隐私计算技术;
(十)广域稀疏异质数据关联分析与智能编排技术;
(十一)支持数算融合的高效能计算系统理论与技术;
(十二)数据空间高效安全流通基础设施架构与优化方法;
(十三)数据流通安全风险识别、防控技术与应急管理机制.
资助强度为200万元/项,资助期限为3年. 指南发布后,信息科学部共收到68项申请,共资助6项,资助率8.82%. 各个指南的申请量如图8所示. 其中申报指南方向九(数据交易智能技术、动态定价模型与隐私计算技术)的申请人显著多于其他指南,体现出我国在数据市场制度设计领域的研究分布.
2.4 重点项目
重点项目旨在支持科研人员在已有较好基础的研究方向或学科生长点上,开展深入、系统且具有创新性的研究工作,力争在若干关键领域和科学前沿实现突破. 根据2023年征集的指南建议,并结合信息学部“十四五”发展战略规划及资助重点,2024年信息科学部共发布了3个重点项目群和118个立项领域. 在人工智能领域,发布了“数据要素流通基础理论与关键技术”重点项目群,并设定了8个重点项目指南方向,涉及二级代码包括F0601、F0603、F0604、F0606、F0607、F0609和F0610. 2024年,人工智能领域共收到35项申请,最终资助10项,资助率约为28.57%.
图9展示了近5年来人工智能领域重点项目的立项、申请和资助情况. 从数据来看,近5年人工智能领域重点项目的申请数量呈现下降趋势,而资助数量较为稳定,致使资助率逐年攀升. 图10揭示了各二级学科代码下重点项目的申报和立项分布特点:其中F0609(认知与神经科学启发的人工智能)的申请与立项数量均居各代码之首;而F0602(复杂性科学与人工智能理论)的项目在近5年内无获资助记录,同时其面上项目与青年项目的申请量也相对较低,显示出该方向在理论创新方面存在一定瓶颈. 希望具备相关背景的科研人员和团队能够加大攻关力度,共同推动复杂系统与人工智能理论体系的范式革新.
3. 人才类项目申请与资助情况
3.1 青年科学基金项目
青年科学基金项目旨在培养基础研究的新生力量,通过支持青年科研人员自主选题开展研究,进一步提升其独立科研能力与创新思维. 2024年,人工智能领域收到580家依托单位的
1722 项青年项目申请. 其中因不符合项目指南规定被初筛淘汰9项,剩余1713 项申请经通讯评审和会议评审. 最终,165家依托单位(占比约28.45%)的347位申请人获得资助,资助率约为20.15%.图11反映了2020—2024年间青年项目的竞争态势与变化趋势. 可以看出,青年项目的申请数量逐年上升,增长率每年为10%~12%,但资助项目数量的增长率较缓慢,导致项目资助率呈现显著下降趋势. 近5年来,女性申请人在青年项目中的比例分别为46.60%、42.52%、39.60%、38.27%和39.20%,资助占比分别为36.19%、26.90%、30.84%、26.16%和29.68%,均低于申请比例.
图12和图13分别展示了各二级代码下的青年项目的申请和资助占比情况,其中F0610(交叉学科中的人工智能问题)与F0604(机器感知与机器视觉)的申请与资助比例连续5年领先.而F0602(复杂性科学与人工智能理论)的相关项目无论在申请还是资助比例上均处于最低水平. 表3统计了2024年各二级代码下获资助青年项目中排名前3的关键词,系统呈现了各二级代码下的热点研究方向.
表 3 2024年F06各二级代码下获资助青年项目排名前3的关键词Table 3. Top3 Keywords of Funded Young Scientists Fund by Secondary Codes under F06 in 2024代码 关键词 代码 关键词 F0601 粒计算 F0606 大语言模型 可解释 对话系统 多目标优化 语义解析 F0602 演化博弈 F0607 知识图谱 深度学习 知识发现 复杂网络 大语言模型 F0603 表示学习 F0608 智能系统安全 多视图聚类 可解释人工智能 迁移学习 群体智能 F0604 深度学习 F0609 脑机接口 目标检测 脉冲神经网络 图像识别 脑电 F0605 数据挖掘 F0610 人工智能 图神经网络 深度学习 深度学习 医学影像 图14统计了青年项目申请量排名前10的依托单位的申请与资助情况. 这10家单位的申请总数约占全领域申请数的12.66%,而获资助的项目数则约占总体资助项目的18.16%. 从单位资助率(本单位获资助项目数/本单位申请项目数)看,除杭州电子科技大学、浙江大学及之江实验室低于青年项目平均资助率(20.15%)外,其余依托单位均超过这一水平,其中四川大学的资助率最高,约为本领域平均资助率的2.5倍.
根据申请指南,青年项目要求截止申请当年1月1日,男性申请人需未满35周岁,女性申请人则未满40周岁. 2024年青年项目申请人及资助人的年龄分布如图15所示. 可以看出,约85.83%的申请人年龄介于28至35周岁之间,小于28周岁的比例不足1%,而超过35周岁的占比约为13.24%. 图16呈现了近5年申请人和获资助人的平均年龄变化,申请人平均年龄由2020年的33.29岁降至2024年的32.73岁,反映出越来越多的年轻人才加入申请;而获资助人的平均年龄则保持在31.6岁左右波动,其中2022年降至最低31.3岁.
3.2 青年学生基础研究项目
自2023年起,自然科学基金委在现有资助体系基础上设立了青年学生基础研究项目,将资助端口前移,以便及早选拔优秀人才. 各依托单位按照名额进行择优推荐,由基金委组织评审遴选. 该项目分为本科生和博士生2个类别:本科生项目每项资助10万元,资助期限为1年;博士生项目则每项资助30万元,期限为2~3年,资助他们作为项目负责人承担科学基金项目,自主选择研究方向开展基础研究和学科交叉研究等.
2023年第一期本科生项目试点涉及清华大学、北京大学、复旦大学、南京大学、中国科学技术大学、浙江大学、上海交通大学和武汉大学共8所高校;博士生项目则在23所高校中展开试点. 2024年第二期博士生项目的试点范围扩展至36所高校.
在2024年,人工智能领域共收到来自7家依托单位的19项本科生申请,经评审后,7家单位中的18位申请人获得资助,资助率高达94.74%,且所有申请单位均获资助(资助占比100%). 博士生项目方面,共有30家依托单位提交54项申请,最终20家单位中29位申请人获资助,资助率约为50.70%,资助占比约为66.67%.
3.3 优秀青年科学基金项目
优秀青年科学基金项目旨在支持在基础研究方面取得较好成绩的青年学者开展创新研究,致力于培养一批优秀的学术骨干. 2024年,来自全国56家依托单位的94位青年学者提交了优青项目的申请,经初步通讯评审后推荐进入会议答辩的有16项,最终获资助10项,资助率约为10.64%.
图17展示了近5年来该领域优青项目在申请数量、资助数量和资助率方面的动态变化. 总体而言,每年的申请人数大致在89人左右,资助项目数则维持在约9项. 过去5年中,女性申请人的数量分别为12人、13人、18人、14人和15人,对应比例为12.90%、15.48%、21.43%、15.38%和15.96%,而从资助结果来看,近5年每年仅有一位女性获资助.
根据申请指南,截止申请当年1月1日,优秀青年项目要求男性申请人未满38周岁,女性未满40周岁. 图18显示了近5年申请人与获资助人的平均年龄变化,可以看出申请人的平均年龄大致在35.5至36周岁之间,而获资助人的平均年龄则呈现一定波动.
图19和图20给出了2024年和近5年人工智能领域各二级代码优青项目的申请和资助情况. 总体来看,F0607(知识表示与处理)申请数最少,近5年仅获得1项资助;其中F0603(机器学习)、F0604(机器感知与机器视觉)、F0605(模式识别与数据挖掘)、F0606(自然语言处理)的5年平均资助率高于领域近5年平均资助率(9.64%),其余二级代码的5年平均资助率均低于领域近5年平均资助率.
近5年领域优青项目申请量排名前10的依托单位申请与资助情况如图21所示. 其中,中国科学院自动化研究所的申请数最多,中国科学院计算技术研究所申请数排名第10. 这10家依托单位的总申请数约占本领域总申请量的34.30%、获资助项目数约占总资助数的51.16%.
3.4 国家杰出青年科学基金项目
国家杰出青年科学基金项目旨在支持那些在基础研究领域取得突出成绩的青年学者开展创新性工作,以培养一批优秀学术带头人. 2024年,人工智能领域共接收到来自全国42家依托单位的79项杰青项目申请,经通讯评审后,推荐会议答辩的项目有8项,最终有6项获得资助. 同时,2024年应结题的杰青项目有3项,其中2项申请了项目延续,最终1项获得资助.
图22展示了过去5年杰青项目在申请数量、资助数量以及资助率方面的变化趋势. 从数据来看,领域内杰青项目的申请总量在2020年为54项,到了2021年降至45项,随后逐步回升,并在2024年攀升至79项. 与此同时,资助项目数量在2020年和2021年均为4项,而在2022年和2023年则上升至5项,2024年的资助数为6项. 资助率方面,最高纪录出现在2022年,为9.8%,紧接着2023年出现了最低纪录6.41%.
在2020—2024年期间,申请人工智能领域杰青项目中女性青年学者人数依次为5人、2人、6人、9人和15人,其比例分别为9.26%、4.44%、11.76%、11.54%和18.52%. 从资助情况看,2020—2022年连续3年无女性获资助,而2023年和2024年各有1位女性申请人获得资助.
按照申请指南,国家杰青项目要求截止申请当年1月1日,男性申请人未满45周岁,女性未满48周岁. 图23展示了过去5年人工智能领域杰青项目中申请人与获资助人平均年龄的变化趋势. 从图中可以看出,申请人的平均年龄大致处于40至42周岁之间,并且有逐步增大的趋势,获得资助的申请人平均年龄起伏较大,其中2020年的获资助人平均年龄为37.75岁,为历年来最低.
图24和图25分别统计了2024年及近5年来按各二级申请代码划分的杰青项目分布情况. 2024年,申请数量最多的是F0603(机器学习)和F0608(智能系统与人工智能安全),各为14项;其次是F0604(机器感知与机器视觉)与F0605(模式识别与数据挖掘),各为13项,而F0606(自然语言处理)排在第3位. 总体来看,近5年中F0604的申请及资助数量最多,而F0602(复杂性科学与人工智能理论)的申请量最少,并且近5年内未有资助记录. 与此同时,F0601、F0604、F0605和F0606的近5年的平均资助率均高于本领域的平均资助率.
图26显示了近5年来杰青项目申请总量排名前10的依托单位情况. 来自中国科学院自动化研究所的申请数量最多,南京大学位列第10. 这10家单位的申请总数约占本领域申请量的40.4%,不过获资助项目数约占37.5%,略低于申请占比.
2024年自然科学基金委启动了杰青项目的阶梯分级评价及延续资助机制,从中遴选出不超过20%的项目给予第2个5年的滚动支持,资助强度为每项800万元. F06领域共有3位申请人参加了结项考核,其中2位申请了项目延续,最终1位获得资助.
3.5 创新研究群体项目
创新研究群体项目旨在支持国内外优秀学术带头人自主确定研究方向,组建并带领团队开展创新性和挑战性基础研究,攻克关键难题,在国际科学前沿攻占一席之地. 2024年,人工智能领域创新群体项目共收到7项申请,按二级代码划分分别为F0604(机器感知与机器视觉)4项、F0606(自然语言处理)2项以及F0610(交叉学科中的人工智能问题)1项,但2024年人工智能领域未有创新研究群体项目获得资助,资助率为0%.
图27统计了近5年来人工智能领域创新研究群体项目按二级申请代码的分布情况. 按申请数量从多到少排列依次为:F0604(机器感知与机器视觉)14项、F0609(认知与神经科学启发的人工智能)5项、F0606(自然语言处理)4项、F0601(人工智能基础)3项、F0608(智能系统与人工智能安全)2项,以及F0605(模式识别与数据挖掘)和F0610(交叉学科中的人工智能问题)各1项,其余二级代码无申请. 其中,共有2个项目获得资助,分别归属于F0601和F0604两个二级代码.
4. 建议与展望
为更好地发挥自然科学基金的独特作用,更好地服务广大科技工作者,信息科学部二处在总结2024年“F06(人工智能)”领域项目申请、受理与资助经验的基础上,针对项目申请人和评审专家提出4点建议:
1)准确凝练科学问题,明确科学问题属性. 申请书是评审专家评判项目创新性和可行性的关键依据,应确保科学问题表述精准、属性清晰. 应确定最契合项目特点的科学问题属性,并明确阐述选择这一属性的依据.
2)准确选择申请代码. 申请人应选取适当的申请代码、研究方向和关键词. 避免直接选择一级代码F06,应明确选择二级代码;勿轻率选择“F0610(人工智能与其他领域交叉)”,以及其他二级代码下的“其他”研究方向.
3)准确领会国家在人工智能领域的政策部署. 申请人应深入学习国家在人工智能领域的重要政策和发展规划,把握本领域的发展方向和战略需求. 在撰写申请书时,鼓励阐述项目如何契合国家战略,推动人工智能基础理论和关键技术突破,促进跨领域融合与应用转化.
4)评审专家在提升项目评审质量方面具有决定性作用. 在评审时,既要对科学基金资助工作负责,也要对申请人负责. 系统将会持续跟踪并记录专家的评审状况与效果,希望专家们能够在评审工作中不断积累信誉.
科学处鼓励相关领域的科研工作者围绕信息科学部“十四五”期间确定的“人工智能”优先发展方向,即“人工智能基础”与“复杂性科学及人工智能理论”,提出前沿的科研范式和原创性学术见解,并开展面向国家重大需求的原创基础研究. 同时,鼓励科研人员跨领域合作,共同凝练交叉学科中亟待攻克的重大基础科学问题,推动“人工智能”与其他相关领域的协同发展. 我们期待评审专家和申请人对信息科学部二处的研究方向优化提供宝贵意见,以共同促进学科布局的不断完善[2-6].
作者贡献声明:谢国提出工作思路和方案并修改论文;张怀文、王乐开展数据统计并撰写论文;廖清、张奥千、周志立、葛慧林参与了论文的修改与讨论;王志衡、吴国政指导论文工作思路与方案并修改论文.
-
表 1 不同中间表示的特点对比
Table 1 Features Comparison of Different IRs
类别 中间表示 编译速度 执行速度 复杂度 高级语言 C 慢 快 较低 Java 慢 低 低级语言 LLVM IR 较慢 快 较高 自定义语言 Umbra IR 快 较快 高 表 2 基于查询编译的数据管理系统的不同指标对比
Table 2 Comparison of Different Metrics for Data Management Systems Based on Query Compilation
中间表示架构 系统 年份 中间表示 延迟 吞吐 表达能力 移植能力 是否开源 单层 HyPer[6] 2011 LLVM IR ++ ++ − − − − × ReSQL[55] 2020 Flounder IR ++ + − − − ++ × mutable[44] 2023 Wasm +++ + − − − − × 多层 Hekaton[35] 2013 MAT,PIT,C − − − ++ + − − × DBLAB/LB[49] 2016 Scala DSLs − − − ++ ++ − − × LegoBase[7] 2018 Scala,C − − − ++ + − − × Excalibur[50] 2021 VOILA − − ++ ++ + √ Umbra(低延迟)[16] 2021 Umbra IR +++ ++ +++ + × Umbra(高吞吐)[16] 2021 Umbra IR − +++ − − × LingoDB[30] 2022 MLIR − − − + ++ − √ 注:“+”越多表明该系统在该指标上表现越优,“−”越多表明该系统在该指标上更为薄弱. -
[1] Kersten T, Leis V, Kemper A, et al. Everything you always wanted to know about compiled and vectorized queries but were afraid to ask[J]. Proceedings of the VLDB Endowment, 2018, 11(13): 2209−2222 doi: 10.14778/3275366.3284966
[2] Boncz P A, Zukowski M, Nes N. MonetDB/X100: Hyper-pipelining query execution[C/OL]//Proc of the 2nd Conf on Innovative Data Systems Research (CIDR). 2005 [2023-11-28].https://www.cidrdb.org/cidr2005/papers/P19.pdf
[3] Raposa R, Roscigno D, Bragin T, et al. Distinctive features of ClickHouse [EB/OL]. [2023-06-13].https://clickhouse.com/docs/en/about-us/distinctive-features#vector-engine
[4] Garcia-Molina H, Ullman J D, Widom J. Database System Implementation Second Edition[M]. Upper Saddle River: Prentice Hall, 2010: 759−760
[5] Chamberlin D D, Astrahan M M, Blasgen M W, et al. A history and evaluation of System R[J]. Communications of the ACM, 1981, 24(10): 632−646 doi: 10.1145/358769.358784
[6] Neumann T. Efficiently compiling efficient query plans for modern hardware[J]. Proceedings of the VLDB Endowment, 2011, 4(9): 539−550 doi: 10.14778/2002938.2002940
[7] Klonatos Y, Koch C, Rompf T, et al. Building efficient query engines in a high-level language[J]. Proceedings of the VLDB Endowment, 2014, 7(10): 853−864 doi: 10.14778/2732951.2732959
[8] Tahboub R Y, Essertel G M, Rompf T. How to architect a query compiler, revisited[C]//Proc of the 2018 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2018: 307−322
[9] PostgreSQL Community. What is JIT compilation [EB/OL]. [2023-08-17].https://www.postgresql.org/docs/current/jit-reason.html
[10] OceanBase Community. ob_enable_jit [EB/OL]. [2023-08-17].https://en.oceanbase.com/docs/common-oceanbase-database-10000000000931187
[11] openGauss Community. Other optimizer options [EB/OL]. [2023-08-17].https://docs.opengauss.org/en/docs/1.0.0/docs/Developerguide/other-optimizer-options.html
[12] Armbrust M, Xin R S, Lian Cheng, et al. Spark SQL: Relational data processing in Spark[C]//Proc of the 2015 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2015: 1383−1394
[13] Agarwal S, Liu D, Xin R. Apache Spark as a compiler: Joining a billion rows per second on a laptop[EB/OL]. [2023-06-13].https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html
[14] Prout A, Wang S P, Victor J, et al. Cloud-native transactions and analytics in SingleStore[C]//Proc of the 2022 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2022: 2340−2352
[15] Palkar S, Thomas J, Narayanan D, et al. Evaluating end-to-end optimization for data analytics applications in Weld[J]. Proceedings of the VLDB Endowment, 2018, 11(9): 1002−1015 doi: 10.14778/3213880.3213890
[16] Kersten T, Leis V, Neumann T. Tidy tuples and flying start: Fast compilation and fast execution of relational queries in Umbra[J]. The VLDB Journal, 2021, 30(5): 883−905 doi: 10.1007/s00778-020-00643-4
[17] Neumann T. Evolution of a compiling query engine[J]. Proceedings of the VLDB Endowment, 2021, 14(12): 3207−3210 doi: 10.14778/3476311.3476410
[18] Viglas S D. Just-in-time compilation for SQL query processing[C]//Proc of the 30th IEEE Int Conf on Data Engineering (ICDE). Piscataway, NJ: IEEE, 2014: 1298−1301
[19] Melnik D, Buchatskiy R, Zhuykov R, et al. JIT-compiling SQL queries in PostgreSQL using LLVM [EB/OL]. [2023-06-13].https://www.pgcon.org/2017/schedule/events/1092.en.html
[20] Kornacker M, Behm A, Bittorf V, et al. Impala: A modern, open-source SQL engine for Hadoop[C/OL]//Proc of the 7th Conf on Innovative Data Systems Research (CIDR). 2015[2023-11-28].https://www.cidrdb.org/cidr2015/Papers/CIDR15_Paper28.pdf
[21] Krikellas K, Viglas S D, Cintra M. Generating code for holistic query evaluation[C]//Proc of the 26th IEEE Int Conf on Data Engineering (ICDE). Piscataway, NJ: IEEE, 2010: 613−624
[22] Funke H, Teubner J. Data-parallel query processing on non-uniform data[J]. Proceedings of the VLDB Endowment, 2020, 13(6): 884−897 doi: 10.14778/3380750.3380758
[23] Yang Zhenhua, Pan Qingfeng, Xu Chen. Fine-grained tuple transfer for pipelined query execution on CPU-GPU coprocessor[C]//Proc of the 28th Int Conf on Database Systems for Advanced Applications (DASFAA). Berlin: Springer, 2023: 19−34
[24] Foufoulas Y, Simitsis A, Stamatogiannakis L, et al. YeSQL: “You extend SQL” with rich and highly performant user-defined functions in relational databases[J]. Proceedings of the VLDB Endowment, 2022, 15(10): 2270−2283 doi: 10.14778/3547305.3547328
[25] Kläbe S, DeSantis R, Hagedorn S, et al. Accelerating Python UDFs in vectorized query execution[C/OL]//Proc of the 12th Conf on Innovative Data Systems Research (CIDR). 2022 [2023-09-19].https://www.cidrdb.org/cidr2022/papers/p33-klaebe.pdf
[26] Hirn D, Grust T. PL/SQL without the PL[C]//Proc of the 2020 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2020: 2677−2680
[27] Ramachandra K, Park K, Emani K V, et al. Froid: Optimization of imperative programs in a relational database[J]. Proceedings of the VLDB Endowment, 2017, 11(4): 432−444 doi: 10.1145/3186728.3164140
[28] Chen Hanfeng, D'silva J V, Chen Hongji, et al. HorseIR: Bringing array programming languages together with database query processing[C]//Proc of the 14th ACM SIGPLAN Int Symp on Dynamic Languages. New York: ACM, 2018: 37−49
[29] Sichert M, Neumann T. User-defined operators: Efficiently integrating custom algorithms into modern databases[J]. Proceedings of the VLDB Endowment, 2022, 15(5): 1119−1131 doi: 10.14778/3510397.3510408
[30] Jungmair M, Kohn A, Giceva J. Designing an open framework for query optimization and compilation[J]. Proceedings of the VLDB Endowment, 2022, 15(11): 2389−2401 doi: 10.14778/3551793.3551801
[31] Chen Hanfeng, D'silva J V, Hendren L, et al. HorsePower: Accelerating database queries for advanced data analytics[C]//Proc of the 24th Int Conf on Extending Database Technology (EDBT). Berlin: Springer, 2021: 361−366
[32] Crotty A, Galakatos A, Dursun K, et al. An architecture for compiling UDF-centric workflows[J]. Proceedings of the VLDB Endowment, 2015, 8(12): 1466−1477 doi: 10.14778/2824032.2824045
[33] Zhang Wangda, Kim J, Ross K A, et al. Adaptive code generation for data-intensive analytics[J]. Proceedings of the VLDB Endowment, 2021, 14(6): 929−942 doi: 10.14778/3447689.3447697
[34] Răducanu B, Boncz P, Zukowski M. Micro adaptivity in vectorwise[C]//Proc of the 2013 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2013: 1231−1242
[35] Freedman C, Ismert E, Larson P Å. Compilation in the Microsoft SQL Server Hekaton engine[J]. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2014, 37(1): 22−30
[36] Grulich P M, Sebastian B, Zeuch S, et al. Grizzly: Efficient stream processing through adaptive query compilation[C]//Proc of the 2020 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2020: 2487−2503
[37] Sellis T K. Multiple-query optimization[J]. ACM Transactions on Database Systems, 1988, 13(1): 23−52 doi: 10.1145/42201.42203
[38] Armenatzoglou N, Basu S, Bhanoori N, et al. Amazon Redshift re-invented[C]//Proc of the 2022 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2022: 2205−2217
[39] Rao J, Pirahesh H, Mohan C, et al. Compiled query execution engine using JVM[C]//Proc of the 22nd IEEE Int Conf on Data Engineering (ICDE). Piscataway, NJ: IEEE, 2006: 23−34
[40] Meijer E, Beckman B, Bierman G. LINQ: Reconciling object, relations and XML in the .NET framework[C]//Proc of the 2006 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2006: 706−706
[41] Nagel F, Bierman G, Viglas S D. Code generation for efficient query processing in managed runtimes[J]. Proceedings of the VLDB Endowment, 2014, 7(12): 1095−1106 doi: 10.14778/2732977.2732984
[42] Haas A, Rossberg A, Schuff D L, et al. Bringing the web up to speed with WebAssembly[C]//Proc of the 38th ACM SIGPLAN Conf on Programming Language Design and Implementation. New York: ACM, 2017: 185−200
[43] LLVM Community. Class template reference [EB/OL]. [2023-06-13]. http://llvm.org/docs/doxygen/html/classllvm_1_1IRBuilder.html
[44] Haffner I, Dittrich J. A simplified architecture for fast, adaptive compilation and execution of SQL queries[C]//Proc of the 26th Int Conf on Extending Database Technology (EDBT). Berlin: Springer, 2023: 1−13
[45] Bynens M, Steiner T, Sharma U, et al. What is V8 [EB/OL]. [2023-06-13].https://v8.dev
[46] SQLite Consortium. The SQLite bytecode engine [EB/OL]. [2023-06-13].https://www.sqlite.org/opcode.html
[47] Lattner C, Amini M, Bondhugula U, et al. MLIR: Scaling compiler infrastructure for domain specific computation[C]//Proc of the 19th Int Symp on Code Generation and Optimization (CGO). New York: ACM, 2021: 2−14
[48] Gruber F, Bandle M, Engelke A, et al. Bringing compiling databases to RISC architectures[J]. Proceedings of the VLDB Endowment, 2023, 16(6): 1222−1234 doi: 10.14778/3583140.3583142
[49] Shaikhha A, Klonatos Y, Parreaux L, et al. How to architect a query compiler[C]//Proc of the 2016 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2016: 1907−1922
[50] Gubner T, Boncz P. Excalibur: A virtual machine for adaptive fine-grained JIT-compiled query execution based on VOILA[J]. Proceedings of the VLDB Endowment, 2022, 16(4): 829−841 doi: 10.14778/3574245.3574266
[51] Gubner T, Boncz P. Charting the design space of query execution using VOILA[J]. Proceedings of the VLDB Endowment, 2021, 14(6): 1067−1079 doi: 10.14778/3447689.3447709
[52] MLIR Community. MLIR language reference: Dialects [EB/OL]. [2023-12-15].https://mlir.llvm.org/docs/LangRef/#dialects
[53] Kohn A, Leis V, Neumann T. Adaptive execution of compiled queries[C]//Proc of the 34th IEEE Int Conf on Data Engineering (ICDE). Piscataway, NJ: IEEE, 2018: 197−208
[54] Menon P, Ngom A, Ma Lin, et al. Permutable compiled queries: Dynamically adapting compiled queries without recompiling[J]. Proceedings of the VLDB Endowment, 2020, 14(2): 101−113 doi: 10.14778/3425879.3425882
[55] Funke H, Mühlig J, Teubner J. Low-latency query compilation[J]. The VLDB Journal, 2022, 31(6): 1171−1184 doi: 10.1007/s00778-022-00741-5
[56] Chen Tianqi, Moreau T, Jiang Ziheng, et al. TVM: An automated end-to-end optimizing compiler for deep learning[C]//Proc of the 13th USENIX Symp on Operating Systems Design and Implementation (OSDI). Berkeley, CA: USENIX Association, 2018: 578−594
[57] Damme P, Birkenbach M, Bitsakos C, et al. DAPHNE: An open and extensible system infrastructure for integrated data analysis pipelines[C/OL]//Proc of the 12th Conf on Innovative Data Systems Research (CIDR). 2022 [2023-09-19].https://www.cidrdb.org/cidr2022/papers/p4-damme.pdf
[58] Behm A, Palkar S, Agarwal U, et al. Photon: A fast query engine for lakehouse systems[C]//Proc of the 2022 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2022: 2326−2339
[59] Kersten T, Neumann T. On another level: How to debug compiling query engines[C/OL]//Proc of the 8th Int Workshop on Testing Database Systems. New York: ACM, 2020[2023-11-28].https://dl.acm.org/doi/pdf/10.1145/3395032.3395321
[60] Pirk H, Moll O, Zaharia M, et al. Voodoo-a vector algebra for portable database performance on modern hardware[J]. Proceedings of the VLDB Endowment, 2016, 9(14): 1707−1718 doi: 10.14778/3007328.3007336
[61] Chinta K, Li Quan, Kleider M, et al. Fast and predictable performance with serverless compilation using Amazon Redshift [EB/OL]. [2023-06-13].https://aws.amazon.com/cn/blogs/big-data/fast-and-predictable-performance-with-serverless-compilation-using-amazon-redshift/
[62] Gubner T, Boncz P A. Highlighting the performance diversity of analytical queries using VOILA[C]//Proc of the 12th Int Workshop on Accelerating Analytics and Data Management Systems Using Modern Processor and Storage Architectures (ADMS). New York: ACM, 2021: 47−54
-
期刊类型引用(2)
1. 张朋飞,程俊,张治坤,方贤进,孙笠,王杰,姜茸. 满足本地差分隐私的混合噪音感知的模糊C均值聚类算法. 电子与信息学报. 2025(03): 739-757 . 百度学术
2. 朱友文,唐聪,吴启晖,张焱. 个性化本地差分隐私机制的研究现状与展望. 南京航空航天大学学报. 2024(05): 784-800 . 百度学术
其他类型引用(2)