Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2017年 第54卷 第8期    出版日期:2017-08-01
人工智能
2017人工智能前沿进展专题前言
于剑,张敏灵,余正涛,尹义龙
2017, 54(8):  1629-1630. 
摘要 ( 1529 )   HTML ( 10)   PDF (469KB) ( 778 )  
相关文章 | 计量指标
智能化是信息技术发展的主流趋势,人工智能技术已广泛渗透于科学发现、经济建设、社会生活等各个领域。国务院2016年11月印发的《“十三五”国家战略性新兴产业发展规划》中将发展人工智能作为推动信息技术产业跨越发展的基础之一,美国政府同年10月发布的《国家人工智能研究与发展战略规划》将人工智能研发提升至国家战略层面。随着大数据、云计算、物联网等信息技术的不断发展,人工智能研究在理论、方法、应用等多个层面均面临新的挑战。为及时反映国内同行在人工智能前沿的最新研究成果,《计算机研究与发展》本次推出“人工智能前沿进展2017”专题,以进一步推动我国人工智能领域的创新发展。本专题得到了国内同行的广泛关注,经公开征文共收到高质量投稿68篇。此外,专题组稿与2017中国计算机学会人工智能会议(CCFAI 2017)合作,从426篇会议投稿中遴选出了7篇高质量论文。特约编辑先后邀请多位人工智能及相关领域的专家参与审稿工作,稿件评审历经4个月,最终有21篇论文入选本专题。主要关注在大数据时代背景下适于特定领域大数据特性的人工智能理论、方法与技术,基于机器学习的智能数据分析,以及人工智能技术对自然语言处理、计算机视觉、信息检索与推荐等领域的支撑应用。
播存网络环境下UCL推荐多样性优化算法
顾梁,杨鹏,董永强
2017, 54(8):  1631-1643.  doi:10.7544/issn1000-1239.2017.20170128
摘要 ( 536 )   HTML ( 0)   PDF (3338KB) ( 293 )  
相关文章 | 计量指标
播存网络将广播分发模式引入现有互联网体系结构,极大地降低网络共享过程中产生的冗余流量,可有效缓解信息过载问题.播存网络采用统一内容标签(uniform content label, UCL)适配用户兴趣和推荐信息资源,在UCL个性化推荐过程中,如何结合播存网络的富语义、高时效特征,有效地提高UCL推荐列表的多样性,成为播存网络中一个亟需解决的关键问题.针对播存网络环境的需求,提出了一种基于语义覆盖树的UCL推荐多样性优化算法UDSCT,将该问题分为UCL语义覆盖树构建和多样化UCL列表查询2个步骤.在UCL语义覆盖树构建阶段,基于语义覆盖树的若干约束条件,充分考虑UCL语义信息及非语义用户评分信息,同时,较新的UCL具有较高的优先权,以保证列表的时效性;在多样化UCL列表查询阶段,采用简单树查询及启发式列表补充操作,可快速高效地获得多样性优化后的UCL推荐列表,并可进一步根据用户请求快速返回指定的UCL集合.通过理论分析及一系列仿真实验验证,结果证明:UDSCT算法相对于基准算法能够获得更好的多样性优化效果及效率,可有效满足播存网络环境的需求.
求解大尺度优化问题的学生t-分布估计算法
王豫峰,董文永,董学士,王浩
2017, 54(8):  1644-1654.  doi:10.7544/issn1000-1239.2017.20170155
摘要 ( 836 )   HTML ( 2)   PDF (4387KB) ( 534 )  
相关文章 | 计量指标
针对处理大尺度全局优化问题,提出一种基于自适应t-分布的分布估计算法(EDA-t).该算法不仅求解效果良好,而且求解速度也比同类型算法快.其基本思想是:在迭代搜索过程,首先利用期望最大化算法对演化种群进行概率主成分分析,然后根据得到的概率隐变量建立算法的概率模型,并通过t-分布自由度自适应方法,在算法收敛停滞时跳出局部最优.由于在构建模型时进行了数据降维,在不影响算法求解精度的前提下,其计算开销得到了明显降低.通过和目前主流的演化算法在大尺度优化测试函数上的仿真实验和分析,验证了所提算法的有效性和适用性.
一种基于链接和语义关联的知识图示化方法
杨林,张立波,罗铁坚,万启阳,武延军
2017, 54(8):  1655-1664.  doi:10.7544/issn1000-1239.2017.20170177
摘要 ( 886 )   HTML ( 0)   PDF (2055KB) ( 514 )  
相关文章 | 计量指标
将海量的知识梳理成人类更容易接受的形式,一直是数据分析领域的难题.大多数传统分析方式直接对知识本身进行总结和描述概念化(conceptualization);而一些教育实践证明,从临近的知识单元进行刻画图示化(schematization)更容易使一个知识点被人类接受.在目前的经典计算机知识表达方法中,知识图示化主要依靠人工整理完成.提出了一种利用计算机自动化完成知识图示化的方法,依托维基百科概念拓扑图,探究概念与其临近概念的关系,并且提出了基于链接的自动筛选最关联概念算法;使用目前最新的神经网络模型Word2Vec对概念间的语义相似度进行量化,进一步改进关联概念算法,提高知识图示化效果.实验结果表明:基于链接的关联概念算法取得了良好的准确率,Word2Vec模型可以有效提高关联概念的排序效果.提出的方法能够准确有效地主动分析知识结构,梳理知识脉络,为科研工作者和学习者提供切实有效的建议.
D\+3MOPSO:一种基于用户偏好的元搜索排序聚合演化方法
汤小月,余伟,李石君
2017, 54(8):  1665-1681.  doi:10.7544/issn1000-1239.2017.20170187
摘要 ( 564 )   HTML ( 0)   PDF (2978KB) ( 505 )  
相关文章 | 计量指标
随着网络数据的爆发式增长和用户需求的多元化发展,现有元搜索排序聚合方法在精度和性能上面临着巨大挑战.以满足用户的多重需求和个性化偏好为目标,提出了一种新的元搜索排序聚合算法.通过重新定义多目标粒子群优化算法(multi-objective particle swarm optimization, MOPSO)中粒子的属性,调整速度变化因子,改进种群初始化和演化机制,设计新的存档与更新策略以及引导微粒选择策略,提出了一个基于支配分解的离散多目标优化(D\+3MOPSO)算法,使其能根据用户的质量需求偏好在大规模离散解空间中快速准确地找出最优解集.在多个数据集上的实验结果表明:当数据规模较小时,D\+3MOPSO算法的精度和性能接近机器学习排序聚合方法;在大规模数据环境下,其精度和性能优于机器学习方法以及同类多目标优化方法.
基于表示学习和语义要素感知的关系推理算法
刘峤,韩明皓,杨晓慧,刘瑶,吴祖峰
2017, 54(8):  1682-1692.  doi:10.7544/issn1000-1239.2017.20170200
摘要 ( 1301 )   HTML ( 3)   PDF (1443KB) ( 983 )  
相关文章 | 计量指标
基于知识表示的关系推理方法研究是近年来统计关系学习和知识图谱领域共同关注的热点.通过对当前流行的基于知识表示的推理模型进行比较,分析了现有模型所普遍采用的基本假设存在的不合理之处,即忽视了实体与关系在语义上的多样性.据此提出了一种新的关系推理建模假设:实体对之间的每种关系反映的是两侧实体在某些特定方面的语义关联,通过对实体向量的语义方面要素进行选择性加权,可以实现对不同关系语义的表示和区分.根据该假设提出了一种新的关系推理建模方法,采用非线性变换的方法来解决表示学习中的语义分辨率问题.在公开数据集上的实验结果表明:所提出的算法对复杂关系类型和相关实体具有良好的语义区分能力,能有效提高知识图谱上的关系推理准确率,性能显著优于目前主流的相关工作.
基于图模型的自动驾驶推理任务调度
王娟娟,乔颖,王宏安
2017, 54(8):  1693-1702.  doi:10.7544/issn1000-1239.2017.20170212
摘要 ( 815 )   HTML ( 3)   PDF (2610KB) ( 413 )  
相关文章 | 计量指标
随着车载传感器设备数量的增多,交通设施和城市地标的快速变化、人车混行的复杂路况,对自动驾驶车辆实时反应的能力要求不断地提高.如何通过带有安全性保证的调度策略来应对物理环境中源源不断产生的传感器实时源事件输入,如何及时地控制传动系统来处理源事件并进行推理操作及其响应以规避危险是值得研究的问题.为此,将自动驾驶汽车视为安全攸关系统,提出了一种硬实时推理任务调度方法,首先为自动驾驶的推理过程建立了基于可并行有向无环图的推理任务模型;其次,提出了自动驾驶推理任务调度算法及其准入算法,保证了所调度的推理任务都能在满足硬实时约束的情况下完成自动驾驶推理操作及其响应动作.最后,进行了模拟实验,实验结果验证了该调度及其准入控制算法的有效性.实验结果表明:推理任务调度算法比直接调度算法和模型转换算法在调度成功率上分别高出9.62%和7.31%,该推理任务准入控制算法比Baruah的准入控制算法在任务集准入率上平均高出7.15%.
基于变分光流估计的肺部4D-CT图像超分辨率重建
耿凤欢,刘慧,郭强,尹义龙
2017, 54(8):  1703-1712.  doi:10.7544/issn1000-1239.2017.20170346
摘要 ( 668 )   HTML ( 0)   PDF (2940KB) ( 487 )  
相关文章 | 计量指标
由于受到扫描时间和照射剂量的限制,肺部4D-CT数据中纵向采样率远小于面内采样率.为了得到更高质量的肺部图像,从医学图像固有的自相似性出发,提出了一种基于局部和全局相结合的变分光流估计的图像序列超分辨率重建技术,用于提高4D-CT图像重建质量.首先,构建了一个用于求解肺部4D-CT不同相位图像之间的光流场的变分光流模型;然后,利用快速交替方向乘子法求解该模型,得到不同相位图像之间的光流场;最后,基于光流场,并利用非局部迭代反投影超分辨率重建算法,实现了高分辨率肺部图像的重建.实验结果表明:与已有算法相比,本方法在增强图像纹理结构的同时更好地保留了图像的轮廓.
多视角生成模型的可解释性聚类
潘笑颜,娄铮铮,姬波,叶阳东
2017, 54(8):  1713-1723.  doi:10.7544/issn1000-1239.2017.20170175
摘要 ( 820 )   HTML ( 1)   PDF (3701KB) ( 438 )  
相关文章 | 计量指标
针对聚类中的多视角和可解释的问题,提出多视角生成模型的可解释性聚类算法(interpretable clustering with multi-view generative model, ICMG).ICMG能够产生多个视角的聚类划分,并通过视角的语义信息对聚类结果进行定性和定量地解释.首先,构建一种多视角生成模型(multi-view generative model, MGM),该模型使用贝叶斯程序学习(Bayesian program learning, BPL)和嵌入多视角因素的贝叶斯案例模型(multi-view Bayesian case model, MBCM)生成多个视角.其次,基于视角的匹配度进行聚类得到多种聚类方案.最后使用视角的原型和子空间所附带的语义信息定性和定量地解释聚类结果.实验结果表明:ICMG能够得到多种可解释的聚类结果,相比于传统多视角聚类算法具有较明显的优势.
基于多注意力卷积神经网络的特定目标情感分析
梁斌,刘全,徐进,周倩,章鹏
2017, 54(8):  1724-1735.  doi:10.7544/issn1000-1239.2017.20170178
摘要 ( 2446 )   HTML ( 14)   PDF (2333KB) ( 1691 )  
相关文章 | 计量指标
特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意力卷积神经网络(multi-attention convolution neural networks, MATT-CNN)的特定目标情感分析方法.相比基于注意力机制的LSTM网络,该方法可以接收平行化输入的文本信息,大大降低了网络模型的训练时间.同时,该方法通过结合多种注意力机制有效弥补了仅仅依赖内容层面注意力机制的不足,使模型在不需要例如依存句法分析等外部知识的情况下,获取更深层次的情感特征信息,有效识别不同目标的情感极性.最后在SemEval2014数据集和汽车领域数据集(automotive-domain data, ADD)进行实验,取得了比普通卷积神经网络、基于单注意力机制的卷积神经网络和基于注意力机制的LSTM网络更好的效果.
基于Storm的在线序列极限学习机的气象预测模型
欧阳建权,周勇,唐欢容
2017, 54(8):  1736-1743.  doi:10.7544/issn1000-1239.2017.20170213
摘要 ( 774 )   HTML ( 0)   PDF (2169KB) ( 406 )  
相关文章 | 计量指标
为提高气象预测精度,实时应对频发的局域气象灾害,拥有更高的处理海量数据的效率,提出了一种基于Storm的在线序列的极限学习机气象预测模型.该模型首先初始化多个在线极限学习机,当新批次的数据不断到达时,模型能够在训练结果的基础上继续学习新样本,并引入随机梯度下降法和误差权值调整方法,对新的预测结果进行误差反馈,实时更新误差权值参数,以提高模型预测准确率.另外,采用Storm流式处理框架对提出的算法模型进行并行化改进,以提高处理海量高维数据的能力.实验结果表明:该模型与基于Hadoop的并行极限学习机算法(parallel extreme learning machine, PELM)相比,具有更高的预测精度和优异的并行性能.
最优间隔分布脊回归
陈加略,姜远
2017, 54(8):  1744-1750.  doi:10.7544/issn1000-1239.2017.20170349
摘要 ( 836 )   HTML ( 3)   PDF (818KB) ( 386 )  
相关文章 | 计量指标
脊回归(ridge regression, RR)是经典的机器学习算法之一,广泛应用于人脸识别、基因工程等诸多领域.其具有优化目标凸、存在闭合解、可解释性强以及易于核化等优点,但是脊回归的优化目标并没有考虑样本之间的结构关系.监督流形正则化学习是最具代表性的、最成功的脊回归正则化方法之一,其通过最小化每类类内方差来考虑样本之间的类内结构关系,可是单纯地只考虑类内结构仍然不够全面.以一种全新的视角重新审视最近提出的“最优间隔分布学习”原理,发现了最优间隔分布的目标可以同时优化类内间隔方差和类间间隔方差,从而同时优化了局部的类内结构和全局的类间结构.基于此提出了一种充分考虑数据结构化特征的脊回归算法——最优间隔分布脊回归(optimal margin distribution machine ridge regression, ODMRR)算法,该算法具有RR以及MRRR(manifold regularization ridge regression)的各种优势.最后通过实验验证了该方法具有优越的性能.
混合算法求解多目标平衡旅行商问题
董学士,董文永,王豫峰,
2017, 54(8):  1751-1762.  doi:10.7544/issn1000-1239.2017.20170347
摘要 ( 888 )   HTML ( 3)   PDF (3184KB) ( 544 )  
相关文章 | 计量指标
平衡旅行商问题(balanced traveling salesman problem, BTSP)是旅行商问题(traveling salesman problem, TSP)的变化模型,是另一种组合优化问题,可在汽轮机(gas turbine engines, GTE)等的优化问题中得到应用,但BTSP模型只能对含单个旅行商一个任务的优化问题建模,不能同时对含多个旅行商多任务的问题进行建模和优化.基于此,首次提出了一种多目标平衡旅行商问题(multi-objective balanced traveling salesman problem, MBTSP)模型,可建模含多个旅行商多任务的优化问题,具体可应用在含多个目标或个体的实际问题,例如含多个GTE的优化.相关文献的研究已证实,伊藤算法和遗传算法(genetic algorithm, GA)在求解组合优化问题中具有较好的性能,因此,应用混合伊藤算法(hybrid ITO algorithm, HITO)和混合遗传算法来求解MBTSP问题.HITO通过蚁群算法(ant colony optimization, ACO)来产生基于图的概率生成模型,再用伊藤算法的漂移和波动算子对该图模型进行更新,从而得到MBTSP的最优解.对于混合遗传算法,第一个用贪心法对遗传算法进行改进,命名为贪心法遗传算法(genetic algorithm with greedy initialization, GAG),第二个用爬山算法优化遗传算法,称之为爬山法遗传算法(genetic algorithm by hill-climbing, GAHC),最后一个为模拟退火遗传算法(genetic algorithm with simulated annealing, GASA).为了有效验证该算法,使用小尺度到大尺度的不同规模MBTSP问题的数据进行实验,结果表明:混合算法在求解MBTSP问题是有效的,并表现出不同的特点.
结合弱监督信息的凸聚类研究
权祯臻,陈松灿
2017, 54(8):  1763-1771.  doi:10.7544/issn1000-1239.2017.20170345
摘要 ( 931 )   HTML ( 0)   PDF (2021KB) ( 523 )  
相关文章 | 计量指标
基于目标函数的聚类是一类重要的聚类分析技术,其中几乎所有算法均是经非凸目标的优化建立,因而难以保证全局最优并对初始值敏感.近年提出的凸聚类通过优化凸目标函数克服了上述不足,同时获得了相对更稳定的解.当现实中存在辅助信息(典型的如必连和或不连约束)可资利用时,通过将其结合到相应目标所得优化模型已证明能有效提高聚类性能,然而,现有通过在目标函数中添加约束惩罚项的常用结合方式往往会破坏其原有凸目标的凸性.鉴于此,提出了一种新的结合此类弱监督辅助信息的凸聚类算法.其实现关键是代替在目标函数中添加约束,而是通过对目标函数中距离度量的改造以保持凸性,由此既保持了原凸聚类的优势同时有效提高了聚类性能.
基于能量机制的多头绒泡菌动力学优化算法
刘阳,冯翔,虞慧群,罗飞
2017, 54(8):  1772-1784.  doi:10.7544/issn1000-1239.2017.20170343
摘要 ( 741 )   HTML ( 1)   PDF (4007KB) ( 408 )  
相关文章 | 计量指标
随着人工智能和大数据的迅猛发展,大数据的爆炸式增长和问题的复杂性分布导致对并行智能处理的要求日趋迫切.传统的理论模型和技术方法面临严峻挑战,受自然界启发的物理学法则和生物学方法逐渐成为研究热点.受多头绒泡菌的生长觅食等行为启发,提出了一种基于能量机制的多头绒泡菌动力学算法(physarum-energy dynamic optimization algorithm, PEO).该算法以多头绒泡菌算法为基础,根据其动力学特征,引入能量机制,以改进现有的多头绒泡菌算法全局信息交互能力差等缺点.此外,PEO引入了年龄因子的概念和扰动机制,以控制算法在不同阶段的寻优能力和收敛速度,并从理论角度对算法模型的收敛性进行证明.最后,通过在TSP数据集上实验证明算法在不同规模数据集的有效性和收敛性,并进行了参数分析.与其他的优化算法的对比实验数据表明,PEO在面对复杂问题的求解速度和收敛速度明显优于其他的优化算法,具有高精度和快收敛的特性.
基于距离中心化与投影向量学习的行人重识别
丁宗元,王洪元,陈付华,倪彤光
2017, 54(8):  1785-1794.  doi:10.7544/issn1000-1239.2017.20170014
摘要 ( 846 )   HTML ( 2)   PDF (1741KB) ( 406 )  
相关文章 | 计量指标
现有的基于投影的行人重识别方法具有训练时间长、投影矩阵维数高、识别率低等问题.此外在建立训练集时,还会出现类内样本数目远少于类间样本数目的情况.针对这些问题,提出了基于距离中心化的相似性度量算法.在构建训练集时,将同一组目标群体特征值中心化,利用中心特征值来构建类间距离,而类内距离保持不变.这样使得类内类间样本数目接近,可以很好地缓解类别不平衡所带来的过拟合风险.另外在学习投影矩阵时,利用训练集更新策略,学习若干组投影向量,使得到的投影向量近似正交,这样既可以有效减少运算复杂度和存储复杂度,又可以使得学习到的投影向量能够通过简单的相乘近似得到原来的投影矩阵.最后,在学习投影向量时采用共轭梯度法,该方法具有二次收敛性,能够快速收敛到目标精度.实验结果表明:提出的算法具有较高的效率,在不同数据集上的识别率都有明显的提升,训练时间也比其他常用的行人重识别算法要短.
基于聚类和决策树的链路预测方法
杨妮亚,彭涛,刘露
2017, 54(8):  1795-1803.  doi:10.7544/issn1000-1239.2017.20170172
摘要 ( 1194 )   HTML ( 3)   PDF (2532KB) ( 925 )  
相关文章 | 计量指标
链路预测是数据挖掘研究的主要问题之一.由于网络的复杂性、数据的多样性,根据网络结构及已有信息对异质网络中的不同类型的数据进行链路预测的问题也变得更加复杂.针对双类型异质信息网络,提出了一种基于聚类和决策树的链路预测方法CDTLinks.通过将网络中2种类型对象互为特征的方法得到对象的特征表示,并分别进行聚类.对于双类型异质网络提出了3种启发式规则来构建决策树,根据信息增益来选择树中不同分支.最后,根据聚簇分布结果以及决策树模型来判断任意2个不同类型节点之间是否存在链接.另外,定义了潜在链接节点并引入层数的概念,在降低算法运行时间的同时提高了准确率.在DBLP和AMiner数据集上验证了提出的CDTlinks方法,结果表明:在双类型异质网络中,CDTlinks模型能够有效地进行链路预测.
基于神经网络特征的句子级别译文质量估计
陈志明,李茂西,王明文
2017, 54(8):  1804-1812.  doi:10.7544/issn1000-1239.2017.20170182
摘要 ( 829 )   HTML ( 1)   PDF (1509KB) ( 458 )  
相关文章 | 计量指标
机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约着后续支持向量回归算法的性能,提出了利用深度学习中上下文单词预测模型和矩阵分解模型提取句子向量特征,并将其与递归神经网络语言模型特征相结合来提高译文质量自动估计与人工评价的相关性.在WMT’15和WMT’16译文质量估计子任务数据集上的实验结果表明:利用上下文单词预测模型提取句子向量特征的方法性能统计一致地优于传统的QuEst方法和连续空间语言模型句子向量特征提取方法,这揭示了提出的特征提取方法不仅不需要语言学分析,而且显著地提高了译文质量估计的效果.
一种基于协同矩阵分解的用户冷启动推荐算法
高玉凯,王新华,郭磊,陈竹敏
2017, 54(8):  1813-1823.  doi:10.7544/issn1000-1239.2017.20170188
摘要 ( 1069 )   HTML ( 4)   PDF (1875KB) ( 660 )  
相关文章 | 计量指标
位置服务作为一种信息共享平台,在方便人们交流和共享信息的同时,也因为用户数量的不断增加,而面临着严重的信息过载问题.如何利用推荐技术对信息进行过滤和筛选,帮助用户在位置服务中发现有价值的信息成为近年来研究的热点.但目前已有的推荐算法,在只有消费记录这种隐性数据情况下,针对用户较少活动区域或新用户的推荐效率较低,无法最大化挖掘隐性数据所带的信息.针对以上问题,结合位置服务平台的特点,针对用户冷启动问题,提出了一种结合协同概率矩阵分解与迭代决策树(gradient boosting decision tree, GBDT)的推荐算法.该方法首先使用多层协同概率矩阵分解在多个维度上得到用户潜在特征,然后使用GBDT学习算法对特征和标签进行训练得到用户对项目的偏好,最后使用考虑约束问题的top-N推荐产生推荐列表.在真实数据集上的实验结果表明,与目前较为流行的方法相比,提出的方法能在准确率、F1值上取得较好的结果,能更好地缓解位置服务中的冷启动问题.
基于多尺度深度学习的商品图像检索
周晔,张军平
2017, 54(8):  1824-1832.  doi:10.7544/issn1000-1239.2017.20170197
摘要 ( 1172 )   HTML ( 14)   PDF (1645KB) ( 795 )  
相关文章 | 计量指标
商品图像检索的目标是检索与图像内容相符的商品,它是移动视觉搜索在电子商务中的重要应用.商品图像检索的发展,既为用户购物提供便利,又促进了电子商务向移动端发展.图像特征是影响商品图片检索性能的重要因素.复杂的图片背景、同类商品之间的相似性和被拍摄商品尺度的变化,都使得商品图像检索对图像特征提出了更高的要求.提出了一种多尺度深度神经网络,以便于抽取对复杂图片背景和目标物体尺度变化更加鲁棒的图像特征.同时根据商品类别标注信息学习图片之间的相似度.针对在线服务对响应速度的要求,通过压缩模型的深度和宽度控制了计算开销.在一个百万级的商品图片数据集上的对比实验证明:该方法在保持速度的同时提升了查询的准确率.
汉语篇章微观话题结构建模与语料库构建
奚雪峰,褚晓敏,孙庆英,周国栋
2017, 54(8):  1833-1852.  doi:10.7544/issn1000-1239.2017.20170348
摘要 ( 771 )   HTML ( 1)   PDF (3219KB) ( 333 )  
相关文章 | 计量指标
篇章话题结构分析是自然语言理解的前沿基础,而大规模高质量的适用于汉语篇章分析的语料资源缺乏,严重制约了相关篇章话题计算模型的研究.针对上述问题,首先研究了汉语篇章话题结构的理论表示体系.分析了主述位理论、英语修辞结构理论和宾州篇章树库体系的优势,结合汉语复句句群理论以及汉语自身特点,提出了一种基于主述位理论的汉语篇章微观话题结构表示方式,并借助微观话题链构建了汉语篇章话题结构表示体系.随后,在此基础上,采用自顶向下、后向搜索的标注策略和人机结合的语料库标注方式,构建了基于篇章微观话题表示体系的汉语篇章话题结构语料库(Chinese discourse topic corpus, CDTC).CDTC共包含500个文档,对其进行了详细统计分析并展示了语料库的标注情况.与宾州篇章树库体系、广义话题结构理论的对比表明,所提篇章微观话题结构表示体系在理论上具有一定的优越性,并且符合汉语特点;一致性检验表明CDTC能够充分体现汉语篇章话题分析问题本身的难度,并能够为相关研究提供语料资源支持.
基于动态卷积概率矩阵分解的潜在群组推荐
王海艳,董茂伟
2017, 54(8):  1853-1863.  doi:10.7544/issn1000-1239.2017.20170344
摘要 ( 940 )   HTML ( 1)   PDF (2698KB) ( 467 )  
相关文章 | 计量指标
近年来,群组推荐由于其良好的实用价值得到了广泛关注.然而,已有的群组推荐方法大多都是根据分析用户对服务的评分矩阵直接将个体用户的推荐结果或个体用户偏好进行聚合,没有综合地考虑用户-群组-服务这三者间的联系,导致群组推荐效果欠佳.受潜在因子模型与状态空间模型启发,结合评分矩阵、服务描述文档以及时间因素,共同分析用户-群组-服务间的联系,提出了一种基于动态卷积概率矩阵分解的群组推荐方法.该方法首先利用基于卷积神经网络的文本表示方法获取服务潜在特征模型的先验分布;然后,将状态空间模型与概率矩阵分解模型相结合,获得用户潜在偏好向量与服务特征向量;之后,对用户偏好向量运用聚类算法来发现潜在的群组;最终,对群组中的用户偏好采取均值策略融合成群组偏好向量,并与服务特征向量共同生成群组对服务的评分,实现群组推荐.通过在MovieLens数据集上与同类方法进行对比实验,发现所提方法的推荐有效性与精确性上更具有优势.