Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2010年 第47卷 第5期    出版日期:2010-05-15
体域网BSN的研究进展及面临的挑战
宫继兵, 王 睿, 崔 莉,
2010, 47(5):  737-753. 
摘要 ( 1446 )   HTML ( 1)   PDF (3056KB) ( 768 )  
相关文章 | 计量指标
作为WSN的分支和物联网的重要组成部分,BSN通过应用泛在计算、智能信息处理和新型网络化等技术来提高人民医疗保健的水平,并因此日益受到研究人员和企业的关注.已有的研究综述分别在BSN的生物传感器、无线通信架构和数据安全等方面给出了充分讨论.将着重在数据融合、情景感知和系统技术这3个方面总结BSN领域的技术挑战、研究现状和发展趋势.并给出了BSN基本概念和研究状况分析,讨论了BSN系统架构、代表性应用及项目研究,阐述了BSN未来研究展望和应用前景,提出了限制BSN发展的实际问题.虽然BSN还面临诸多挑战,但必然会朝着多种技术相结合的智能化方向发展,并成为未来医疗健康监护的必然选择.
论文
传感器网络中多近似连续范围查询的处理技术
何文麟 陈 红
2010, 47(5):  754-761. 
摘要 ( 373 )   HTML ( 0)   PDF (1271KB) ( 370 )  
相关文章 | 计量指标
无线传感器网络为数据库研究开辟了新的研究领域,高效利用节点的有限能量是当前研究的主要目标.如果发布到网络中多个近似连续范围查询不经优化处理而独立执行,会造成节点为不同查询重复发送相同感知数据,从而降低网络寿命.针对近似连续范围查询研究了多查询优化技术,设计了一种索引多维范围查询的多叉树结构rq-kd-tree,通过获取多查询的公共查询部分(查询相交区域)以及基于查询相似度合并相交区域上的多个查询、重写查询.最后,实验证明了所提的算法可以实现能量有效的多查询处理过程.
不确定数据上两种查询的分布式聚集算法
周 逊 李建中 石胜飞
2010, 47(5):  762-771. 
摘要 ( 530 )   HTML ( 0)   PDF (1088KB) ( 531 )  
相关文章 | 计量指标
不确定数据查询技术在军事、金融、电信等领域中起到了越来越重要的作用.不确定性数据在传感器网络、分布式Web Server及P2P系统等分布式系统中广泛存在.从这些系统中收集所有数据进行集中式查询将带来巨大的通信开销、时间延迟和存储代价.同时,由于不确定数据的特点,大多数集中式不确定查询算法在分布式环境下并不适用.给出不确定数据的最大值和Top-k聚集查询定义,并分别提出了基于过滤策略的分布式聚集算法.算法根据给出的3个过滤策略,利用数据的分布区间和概率进行筛选概率上限的计算,尽可能将不影响查询结果的数据抛弃.同时,算法以相对较小的代价归并保存并传输了计算最终查询结果所需要的“不可丢弃”数据.实验结果表明,在各类系统和数据条件下,过滤算法都能够正确地得到查询结果并显著降低系统的数据通信开销.
基于网络拥塞的Internet级联故障建模
王 健 刘衍珩 梅 芳 张 程
2010, 47(5):  772-779. 
摘要 ( 386 )   HTML ( 0)   PDF (1879KB) ( 519 )  
相关文章 | 计量指标
Internet是一个典型的具有自组织临界特性的复杂网络,分析了Internet级联动力学特点,指出了两点可能引发级联故障的原因;不同于以往的介数模型,提出了节点拥塞函数,相当于给每个节点赋一个动态的权值,以表征该节点的拥塞程度;加入了延迟时间,在永久删除策略和不删除策略之间建立关联.另外,建立了新的网络效率评估函数并以此衡量级联故障的严重性.仿真实验研究了不同的拓扑结构、规模、延迟时间、节点处理能力和包产生速率对拥塞传播的影响,揭示出级联故障传播分为3个阶段以及影响传播的主要因素.
一种基于语义与QoS感知的Web服务匹配机制
张佩云, 黄 波, 孙亚民,
2010, 47(5):  780-787. 
摘要 ( 425 )   HTML ( 0)   PDF (904KB) ( 430 )  
相关文章 | 计量指标
Web服务匹配是动态服务组合的一个重要环节,然而目前大多数的研究仅从单个抽象服务的角度进行局部语义匹配,没有考虑到服务组合的全局匹配,此外,即使考虑了全局匹配也仅从QoS角度进行匹配,没有考虑到全局语义匹配.针对服务组合流程,提出了基于抽象服务的局部语义匹配与基于QoS感知的全局语义匹配,设计了语义匹配算法,并扩展对服务输入/输出匹配的可用性分析,建立了全局匹配的QoS模型及其评价方法,基于该模型及评价方法,采用遗传算法实现全局语义匹配度最大化及满足用户的QoS指标需求.仿真实验结果表明:基于语义与QoS感知的服务匹配算法是可行的和有效的.
面向高维数据的低冗余top-k异常点发现方法
陈冠华, 马秀莉, 杨冬青, 唐世渭, 帅 猛, 谢昆青,
2010, 47(5):  788-795. 
摘要 ( 487 )   HTML ( 2)   PDF (821KB) ( 438 )  
相关文章 | 计量指标
异常发现是数据挖掘领域的一类重要任务.针对高维对象的异常度量问题和异常点集合的冗余问题,提出了一种新的面向高维数据的异常点发现方法.该方法通过采用高维数据的二部图表示,以高维对象的压缩能力作为其异常程度的度量,能够有效支持包含不同类型属性的高维数据.为了解决top-k异常点集合中的冗余问题,提出了低冗余top-k异常点的概念.由于精确计算低冗余的top-k异常点是NP-hard问题,设计了计算近似低冗余的top-k异常点的启发式方法k-AnomaliesHD算法.从在真实和人工数据集上的实验结果可以看出,该方法具有较好的扩展性;而且与不考虑冗余的异常点发现方法相比较,能够更有效地概括数据中的异常模式.
InfoSigs:一种面向Web对象的细粒度聚类算法
盛振华 吴 羽 江锦华 寿黎但 陈 刚
2010, 47(5):  796-803. 
摘要 ( 569 )   HTML ( 0)   PDF (1297KB) ( 439 )  
相关文章 | 计量指标
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.
XCluster:基于聚类支持查询的XML多文档压缩方法
赵 明 骆吉洲 李建中 高 宏
2010, 47(5):  804-814. 
摘要 ( 434 )   HTML ( 0)   PDF (1633KB) ( 408 )  
相关文章 | 计量指标
XML已成为各种网络应用中数据存储和数据交换的标准.XML数据管理面临的最大困难在于结构与数据混合存储导致大量数据冗余,这极大地增加了XML 数据存储、交换和处理的代价.对XML文档进行压缩可以在一定程度上解决这个问题.但现有XML压缩方法大都仅压缩单文档中的冗余信息.利用XML文档间的相似性,提出一种支持查询的多XML文档压缩存储方法XCluster.XCluster先利用XML有根有序标签树上改进的pq-gram近似距离对XML文档集进行层次聚类;然后合并每个聚类结果子集中文档的结构得到结构代表并进行字典编码压缩;同时合并不同文档内同一标签下的值内容,并根据其数据类型进行相应编码压缩.实验结果表明,在真实和生成的XML多文档数据集上,XCluster比XGrind和XQilla具有更好的压缩效果和查询效率.
基于网格密度方向的聚类簇边缘精度加强算法
余灿玲 王丽珍 张元武
2010, 47(5):  815-823. 
摘要 ( 416 )   HTML ( 1)   PDF (1142KB) ( 417 )  
相关文章 | 计量指标
现有的基于网格聚类算法在获得较高效率的同时,却是以牺牲聚类的质量为代价的,特别是在簇与簇相互邻近的情况下,因为簇边缘聚类的不准确这种现象尤为突出.为解决此类问题,提出了一种基于网格密度方向的聚类预处理方法,该方法的思想来源于牛顿的万有引力普遍规律,即物体之间的距离越小质量越大,则吸引力越大,簇内的密度比簇边缘的密度大,即吸引力大,故如果一个网格单元密度同时出现反方向递增时,即挤压的情况,则需要对该单元进行进一步的细分处理,判断该单元是不是簇的边缘单元,并准确地判断边缘单元中对象的挤压方向.实验显示该算法可以有效地加强聚类簇边缘的精度,具有较高的簇识别率,因此,作为聚类的预处理算法是理想的.
基于使用信息和聚类方法的多模式集成
丁国辉 王国仁 赵宇海
2010, 47(5):  824-831. 
摘要 ( 443 )   HTML ( 1)   PDF (893KB) ( 423 )  
相关文章 | 计量指标
数据集成是解决多数据源整合问题的有效手段.如何准确高效地集成多数据源模式具有重要研究意义.关于模式集成已有大量的研究工作,但均忽略了用户使用信息.在用户使用信息的基础上提出一种新颖的基于聚类技术的多模式数据集成方法.首先从数据库的查询日志中为模式属性提取特征向量,并对其进行聚类.然后根据结果聚类间的最小差异性,为每个结果聚类引入最大相似性阈值,利用该阈值发现结果聚类中与该类语义不相似的异常属性.最后针对结果聚类中的3类异常属性,设计3种异常属性去除规则,进一步提出异常属性去除算法EPKO.实验结果表明,该方法具有较高的准确度,可以有效地解决多个模式的集成问题.
通信作者:孟小峰(xfmeng@ruc.edu.cn)
HF-Tree:一种闪存数据库的高更新性能索引结构
2010, 47(5):  832-840. 
摘要 ( 570 )   HTML ( 0)   PDF (1399KB) ( 383 )  
相关文章 | 计量指标
flash memory; database; index; update; erase
高效的XML关键字查询改写和结果生成技术
黄 静 陆嘉恒 孟小峰
2010, 47(5):  841-848. 
摘要 ( 476 )   HTML ( 2)   PDF (1001KB) ( 400 )  
相关文章 | 计量指标
用户使用关键字查询时可能不能准确地表达他们的意图,即使用户正确地表达了查询意图,查询引擎也可能不能准确地返回查询结果.针对这一问题,重点研究了在XML关键字查询中如何进行有效的查询改写并生成有意义的结果.提出4种查询改写操作和查询改写代价的概念,给出了动态规划的方法计算查询改写代价.为了找出最优的查询改写,给出了基于栈的查询改写和结果生成算法,并提出了基于划分的优化算法.最后通过丰富的实验对提出的方法进行了验证.
基于多序的空间数据索引结构——MOIS-树
刘润涛, 郝忠孝,
2010, 47(5):  849-857. 
摘要 ( 439 )   HTML ( 0)   PDF (647KB) ( 383 )  
相关文章 | 计量指标
以提高查询效率为目标,运用数据空间分割技术、结合B-树和R-树思想,提出了一种空间数据索引结构——MOIS-树,给出了全新的区域查询处理方法和空间对象按其MBR进行排序的4种序关系定义,并以此为基础给出了MOIS-树的定义,规定MOIS-树中的中间节点的所有孩子节点按其几何位置满足某种序的关系,从而使得在中间节点中进行查询时可以进行快速定位,明显地加快了查询的速度.此外,在查询算法中引入查询窗口包含中间节点MBR的检测,对于较大查询窗口的查询,有效地减少了常规查询算法中大量无效的相交性判断,从另一方面加快了查询速度.给出了MOIS-树的建立算法、节点插入算法及算法的正确性、可终止性证明及时间复杂度分析,并给出区域查询算法及算法的性能分析.实验表明,索引结构区域查询速度有很大的提高.
D-EEM:一种基于DOM树的Deep Web实体抽取机制
寇 月, 李 冬, 申德荣, 于 戈, 聂铁铮,
2010, 47(5):  858-865. 
摘要 ( 550 )   HTML ( 6)   PDF (1316KB) ( 569 )  
相关文章 | 计量指标
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deep web, D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势.
基于F&B索引的XML查询处理算法
王洪强 李建中 王宏志
2010, 47(5):  866-877. 
摘要 ( 327 )   HTML ( 0)   PDF (2262KB) ( 330 )  
相关文章 | 计量指标
XML已成为信息交换和表示的标准.对XML数据的查询将返回满足特定约束的XML节点子集.对于大文件的XML数据的查询处理通常分为两步:1.为该XML数据建立一个索引;2.在索引上完成查询处理无需访问源文档.XML索引为查询处理提供了高效的帮助,其中F&B索引是已知的处理分枝查询最小的索引,但快速创建F&B索引和利用F&B索引完成查询处理的算法却很少有人研究.提出了一种素数序列标记法,这种标记法不仅有助于快速地建立F&B索引,更可以高效地完成F&B索引上的查询处理.此外,还给出了F&B索引上的区间标记法与CCPI的创建过程,这两种编码创建过程无需在建立F&B索引后二次创建,仅需与F&B索引创建过程一起对文档使用SAX解析器分析一次即可得到.这样,可以在F&B索引的区间标记法上使用TwigStack算法执行查询处理,在F&B索引的CCPI标记法上使用关联路径连接算法执行查询处理.还给出了基于素数序列标记法的查询处理算法,即素数整除匹配算法,该算法可以高效地判定某节点是否有某分枝子结构.实验表明基于素数序列标记法的F&B索引创建方法比SAM算法快,在多个数据集F&B索引上素数整除匹配算法优于关联路径连接算法和TwigStack算法.
基于行存储模型的模拟列存储策略研究
于利胜 张延松 王 珊 张 倩
2010, 47(5):  878-885. 
摘要 ( 382 )   HTML ( 2)   PDF (1402KB) ( 628 )  
相关文章 | 计量指标
列存储模型在只读的数据仓库应用中表现出非常好的性能,很多研究表明对于典型的OLAP查询,列存储数据库的性能大大优于行存储数据库.根据列存储模型的特性及数据处理特点,在传统的行存储模型关系数据库中模拟列存储的存储模式及数据处理过程,并通过优化的基于聚类的列存储模型、全索引模型与典型的行存储方式进行类比性能测试.实验结果显示,采用传统行存储模型模拟的列存储模型针对OLAP类查询具有很高的数据访问速度及查询性能,整体性能介于行存储数据库与列存储数据库之间.对于实际应用系统来说,该方案减少了整体系统部署代价,而且无需为提高OLAP查询的性能增加额外系统(列存储)投入,从而为OLAP应用提供了良好的性能支持.
基于Hole-Filler模型的XML数据流上的SLCA算法
霍 欢, 王国仁, 陈庆奎, 彭敦陆,
2010, 47(5):  886-892. 
摘要 ( 466 )   HTML ( 0)   PDF (1159KB) ( 433 )  
相关文章 | 计量指标
与传统数据库对XML数据的处理不同,对XML数据流的处理不仅受实时性的约束,还受存储空间的限制.在XML片段无序传送的广播模型中,考虑在XML数据流上进行高效的关键字查询,进而首次提出近似SLCA算法.SLCA算法利用结构Hash表和LCA表对关键字进行匹配并计算SLCA,从而避免冗余操作.同时,SLCA算法可以对匹配结果立即输出而不必等到数据流传输结束.实验结果表明,基于Hole-Filler模型的XML数据流上的SLCA算法在节省时间和空间开销方面均表现出较好的性能.
基于DTW距离的伪周期数据流异常检测
程文聪 邹 鹏 贾 焰 杨 尹
2010, 47(5):  893-902. 
摘要 ( 688 )   HTML ( 0)   PDF (1057KB) ( 514 )  
相关文章 | 计量指标
伪周期数据流是一类常见的数据流,广泛出现于各种监测应用中.在这类数据流中出现的异常可能蕴涵了感兴趣的领域知识,因此有必要检测异常的发生以作为进一步深入分析的基础.DTW距离较之欧氏距离具有更好的鲁棒性,采用DTW距离作为伪周期数据流不同波段间相似性的度量可以有效检测出有较少历史相似波段的异常波段,继而在此基础上提出了一种基于聚类索引的快速近似异常波段检测方法用以加速检测过程,在真实数据集上的实验表明了所提方法的有效性.
基于测量体扩散的网络拓扑双向发现研究
焦 健, 姚 珊, 李肖坚,
2010, 47(5):  903-910. 
摘要 ( 403 )   HTML ( 0)   PDF (1835KB) ( 377 )  
相关文章 | 计量指标
计算机网络由于路由协议和访问控制的自身特点,使得网络拓扑具有单向和不对称的现象,为拓扑发现增加了困难.基于扩散测量体以及订阅发布机制,提出一种网络拓扑的双向发现协议(BTDP).针对协议构造自动机模型,形式地分析和验证了协议的逻辑可终止性,以此为基础给出了该协议的主要算法并予以实现.BTDP的相关程序在中国国内互联网上的实际运行结果表明,它能够发现上述网络存在的不对称路径.此外,多方运行BTDP后的融合结果还揭示了上述网络实际部署的一些链路.
移动自组网中安全高效的组密钥管理方案
王 刚, 温 涛, 郭 权, 马学彬,
2010, 47(5):  911-920. 
摘要 ( 376 )   HTML ( 0)   PDF (1004KB) ( 522 )  
相关文章 | 计量指标
以提供安全、可靠的保密通信为目标的组密钥管理方案是移动自组网安全研究领域中的一个热点.然而,固有的动态性、资源受限和无固定基础设施等特点使得目前已有组密钥管理方案不能很好地适用于MANET.针对MANET组密钥管理面临的诸多挑战,提出一种高效的安全组密钥管理方案(an efficient and secure group key management,ESGKM).ESGKM无需控制中心,所有成员通过协商共同生成组共享秘密密钥,提高了方案的安全性,并能很好地适应拓扑频繁变化的MANET环境.基于ECC和双线性对的密码体制提高了组密钥生成的效率,同时组成员能够对接收的子密钥份额和组密钥份额进行验证,进一步增加了方案的安全性.该方案还提出基于组密钥服务中心(group key service center,GKSC)的组密钥更新和一致性管理算法,有效减少了ESGKM通信开销和计算量,避免了组密钥不一致造成节点孤立.使用串空间模型对ESGKM方案进行了形式化分析,证明了其正确性和安全性.最后,通过与BD,A-GDH和TGDH协议比较,表明ESGKM能有效减少节点和网络资源消耗,很好地适用于动态的MANET环境,具有更为明显的性能优势.
一种基于事务模板的恶意事务检测方法
戴 华 秦小麟 柏传杰
2010, 47(5):  921-929. 
摘要 ( 352 )   HTML ( 1)   PDF (829KB) ( 356 )  
相关文章 | 计量指标
恶意事务检测是数据库入侵检测技术研究中的一个重要课题,而及时的恶意事务检测是构建可生存性DBMS的基础.在已有的恶意事务检测方法的基础上,通过扩展对SQL操作语句的解析粒度,给出了蕴含条件子句逻辑结构的细粒度SQL操作语句特征向量表示方法,并在此基础上给出包含事务语句有向图和事务执行环境约束集合的事务模板表示方法,最后,在给出事务模板支持判定算法的基础上,提出了一种基于事务模板的恶意事务检测算法.为了验证提出方法的有效性,针对事务执行性能、检测类型以及检测率进行实验,结果表明该恶意事务检测方法不仅具有较好的性能,同时具有更强的检测能力和更广的适用范围.
基于距离的分布式RFID数据流孤立点检测
廖国琼, 李 晶,
2010, 47(5):  930-939. 
摘要 ( 432 )   HTML ( 0)   PDF (1461KB) ( 436 )  
相关文章 | 计量指标
RFID技术已广泛应用于实时监控、对象标识及跟踪等领域,及时发现被监控标签对象的异常状态显得十分重要.然而,由于无线通信技术的不可靠性及环境因素影响,RFID阅读器收集到的数据常常包含噪声.针对分布式RFID数据流的海量、易变、不可靠及分布等特点,提出了基于距离的局部流孤立点检测算法LSOD和基于近似估计的全局流孤立点检测算法GSOD.LSOD需要维护数据流结构CSL来识别安全内点,然后运用安全内点的特性来节省流数据的存储空间和查询时间.根据基于距离的孤立点定义,在中心节点上的全局孤立点是位于每个分布节点上孤立点集合的子集.GSOD采用抽样方法进行全局孤立点近似估计,以减少中心节点的通信量及计算负荷.实验表明,所给出的算法具有运行时间短、占用内存小、准确率高等特点.
基于Epanechnikov混合模型的中心化模糊模型
张钦礼, 王士同,
2010, 47(5):  940-947. 
摘要 ( 549 )   HTML ( 2)   PDF (925KB) ( 378 )  
相关文章 | 计量指标
基于Epanechnikov混合模型提出了一种新的模糊模型——具有多维隶属度函数的规则中心化模糊模型.它容易设计:任何一个Epanechnikov混合模型都唯一对应着一个规则中心化的模糊模型,Epanechnikov混合模型的条件期望输出是规则中心化的模糊模型的去模糊化输出; 它具有高度的可解释性:其规则后件恰好是其输出在规则中心的一阶Taylor级数展开; 它采用了多维隶属度函数,考虑了输入数据各个分量之间的相关性,更符合实际问题.对两个典型实例的仿真实验表明,由Epanechnikov混合模型设计的规则中心化的模糊模型比其他模糊模型速度快、精度高、鲁棒性好.
基于学习分类器的多机器人路径规划收敛性研究
邵 杰 杨静宇 万鸣华 黄传波
2010, 47(5):  948-955. 
摘要 ( 473 )   HTML ( 1)   PDF (1533KB) ( 487 )  
相关文章 | 计量指标
近年来,学习分类器LCS已广泛用于基于归纳学习的强化学习领域,但很少用于多机器人领域.提出了一种基于集成强化学习和遗传算法的学习分类器用于多机器人路径规划领域.由于遗传算法具有早熟收敛、局部最优解和占据较大的存储空间等缺陷,针对静态和动态环境因素对多机器人路径规划的不同影响,设计了在静态和动态环境下不同的适应度函数,在理论上推导并证明了信用分配算法的收敛性,为路径规划算法的收敛提供了理论保证.仿真实验结果也表明遗传算法和学习分类器结合用于多机器人的路径规划是有效的,遗传算法的早熟收敛、局部最优解、占据存储空间较大和收敛速度慢等难题得到很大改善,提高了多机器人发现安全路径的能力.所以LCS在机器人领域的应用前景是非常广阔的,是今后需要努力研究的方向.
频率直接数字合成器的一种存储优化方法研究
张克环 任小西 李仁发 凌纯清
2010, 47(5):  956-961. 
摘要 ( 382 )   HTML ( 2)   PDF (880KB) ( 398 )  
相关文章 | 计量指标
直接数字频率合成(DDS)是一种先进的频率合成技术.正弦相位-振幅映射是DDS的核心部件之一.正弦查找表方案需要较多片上存储器资源,成本较高,因而,提出了一种基于相邻采样点振幅增量的改进方案.分析改进方案的资源开销,介绍其实现技术,并以FPGA为开发平台实现了改进方案.从功能、误差、最高工作频率、资源开销等方面对改进方案进行了评估.结果表明:改进方案以较小硬件资源额外开销为代价,节约了大量片上存储器资源,同时保证最高工作频率不变.
基于子词的双层CRFs中文分词
黄德根 焦世斗 周惠巍
2010, 47(5):  962-968. 
摘要 ( 575 )   HTML ( 0)   PDF (727KB) ( 502 )  
相关文章 | 计量指标
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.