CORC  > 北京大学  > 信息科学技术学院
用户查询日志中的中文机构名识别
关晓炟 ; 吕学强 ; 李卓 ; 郑略省
刊名现代图书情报技术
2014
关键词用户查询日志 中文机构名 语料构建 粘合度 条件随机场
英文摘要【目的】解决在用户查询日志中识别机构名的标注语料资源匮乏及信息不对称问题。【方法】提出一种自动构建用户查询日志机构名训练语料的方法,解决目前用户查询日志语料资源匮乏的问题。提出粘合度概念解决信息不对称问题,结合上下文等信息,采用条件随机场模型进行机构名识别。【结果】该方法在搜狗用户查询日志上的开放测试结果显示,机构名识别的正确率为72.80%,召回率为86.73%,F值为79.16%,比传统机构名识别方法在日志上的F值提高30%。【局限】语料构建方法仅仅是模拟查询日志的特点,但训练模型的误差仍然会大于规范化标注的查询日志语料;机构名表的数据量大小会影响模型对上下文知识学习的完备性。【结论】实验...; 中文核心期刊要目总览(PKU); 中国社会科学引文索引(CSSCI); 0; 01; 72-78
语种中文
内容类型期刊论文
源URL[http://ir.pku.edu.cn/handle/20.500.11897/209065]  
专题信息科学技术学院
推荐引用方式
GB/T 7714
关晓炟,吕学强,李卓,等. 用户查询日志中的中文机构名识别[J]. 现代图书情报技术,2014.
APA 关晓炟,吕学强,李卓,&郑略省.(2014).用户查询日志中的中文机构名识别.现代图书情报技术.
MLA 关晓炟,et al."用户查询日志中的中文机构名识别".现代图书情报技术 (2014).
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace