CORC  > 清华大学
基于WEB的计算机领域新术语的自动检测
刘知远 ; 孙茂松 ; Liu Zhiyuan ; Sun Maosong
2010-07-15 ; 2010-07-15
会议名称内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集 ; Frontiers of Content Computing:Research and Application--Proceedings of the 9th Chinese National Conference on Computational Linguistics ; 第九届全国计算语言学学术会议 ; 9th Chinese National Conference on Computational Linguistics ; 中国辽宁大连 ; CNKI ; 大连理工大学、清华大学智能技术与系统国家重点实验室
关键词自然语言处理 新术语 自动检测 统计 N 元词串 RSS NLP New Term Automatic Detection statistics N-gram RSS TP391.1
其他题名Web-Based Automatic Detection for IT New Terms
中文摘要本文主要介绍“基于 WEB 的计算机领域新术语的自动检测”算法的设计和实现。随着计算机技术的迅猛发展,英语中每天都会出现大量的该领域的新术语,如何将这些新兴术语及时发现并纳入到汉语中来,是一个迫切而非常有意义的工作。该算法正是基于这一需求而设计实现的。其核心思想是,首先通过语料库的比对,找到“自某一时间点”以来在计算机类语料库中新出现的词语,即候选新术语,它们满足新术语的第一个特征:然后通过考查候选新术语在时间上的频度曲线,找到其中被广泛地应用,而非昙花一现的词语,确定为新术语。; This thesis introduces the algorithm “Web-Based Automatic Detection for IT New Terms”.With the rapid development of computer science and technology,a large number of new terms in the field are emerging.It is a very meaningful work to detect for these new terms in time and translate them into Chinese.The algorithm is designed based on the urgent needs.Generally new terms have two characteristics.First,new terms should emerge for the first time since some time.Secondly,new terms should be universally recognized and used widely.The algorithm detect for new terms based on their two characteristics.First of all,we compare different corpus built based on time to find candidates which meet the first feature.Then we adopt time series analysis to check the frequencies of these candidates for final new terms which meet the second feature.; 本文承国家自然科学基金(项目号60573187,60621062和60520130299)的资助。
会议录出版者清华大学出版社
语种中文 ; 中文
内容类型会议论文
源URL[http://hdl.handle.net/123456789/70028]  
专题清华大学
推荐引用方式
GB/T 7714
刘知远,孙茂松,Liu Zhiyuan,等. 基于WEB的计算机领域新术语的自动检测[C]. 见:内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集, Frontiers of Content Computing:Research and Application--Proceedings of the 9th Chinese National Conference on Computational Linguistics, 第九届全国计算语言学学术会议, 9th Chinese National Conference on Computational Linguistics, 中国辽宁大连, CNKI, 大连理工大学、清华大学智能技术与系统国家重点实验室.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace