CORC  > 北京大学  > 信息科学技术学院
HDP与互信息相结合的中文无指导分词; Unsupervised Chinese Word Segmentation Based on HDP and Mutual Information Getting together
曹自强 ; 李素建
刊名中文信息学报
2013
关键词HDP 互信息 无指导分词 HDP mutual information unsupervised word segmentation
DOI10.3969/j.issn.1003-0077.2013.06.001
英文摘要该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益.互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并改进了采样算法.不考虑标点符号,在两份大小不同的测试语料上获得的F值为0.693与0.741,相比baseline的HDP分别提升了5.8%和3.9%.该文还用该模型进行了半指导分词,实验结果比常用的CRF有指导分词提升了2.6%.; 国家自然科学基金资助项目; 国家社会科学基金资助项目; 国家科技支撑计划子课题资助项目; 国家863计划项目资助; 中文核心期刊要目总览(PKU); 中国科技核心期刊(ISTIC); 中国科学引文数据库(CSCD); 0; 6; 1-5,44; 27
语种中文
内容类型期刊论文
源URL[http://ir.pku.edu.cn/handle/20.500.11897/235674]  
专题信息科学技术学院
推荐引用方式
GB/T 7714
曹自强,李素建. HDP与互信息相结合的中文无指导分词, Unsupervised Chinese Word Segmentation Based on HDP and Mutual Information Getting together[J]. 中文信息学报,2013.
APA 曹自强,&李素建.(2013).HDP与互信息相结合的中文无指导分词.中文信息学报.
MLA 曹自强,et al."HDP与互信息相结合的中文无指导分词".中文信息学报 (2013).
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace