CORC  > 厦门大学  > 数学科学-学位论文
题名结构感知器与中文词法分析研究; Study on Structured Perceptron and Chinese Lexical Analysis
作者张开旭
答辩日期2014 ; 1900
导师周昌乐
关键词自然语言处理 中文分词 词性标注 natural language processing Chinese word segmentation pos tagging
英文摘要中文词法分析是对输入的中文句子进行分词与词性标注的任务,是自然语言处理与计算语言学的基础步骤,具有理论价值与应用需求。现有的基于机器学习的模型需要解决模型推广性和数据稀疏等问题。本文以基于结构感知器的中文词法分析为基线模型,从两个方面对此进行改进:一个是从模型的角度引入额外的三种正则化方法以提高机器学习模型的推广性能,三种正则化方法包括再平均、加入惩罚项和dropout;一个是从特征的角度,利用额外的大规模非人工标注数据生成基于分布式表示的词汇特征,克服数据稀疏的问题。实验表明两者均提高了基线模型的效果,利用这两个改进构建的最终的模型,超过了已有相关工作中最好的结果。; Chinese lexical analysis consists of Chinese word segmentation and part-of-speech tagging. They are fundamental tasks for Chinese natural language processing as well as Chinese computational linguistics. They have both theoretical and practical values. The state-of-the-art model for Chinese lexical analysis suffer from low ability of generalization and data sparseness problems. This paper proposes...; 学位:博士后; 院系专业:数学科学学院_数学; 学号:2012170018
语种zh_CN
出处http://210.34.4.13:8080/lunwen/detail.asp?serial=47242
内容类型学位论文
源URL[http://dspace.xmu.edu.cn/handle/2288/83764]  
专题数学科学-学位论文
推荐引用方式
GB/T 7714
张开旭. 结构感知器与中文词法分析研究, Study on Structured Perceptron and Chinese Lexical Analysis[D]. 2014, 1900.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace