CORC  > 测量与地球物理研究所  > 学生论文  > 学位论文
题名基于位置的服务(LBS)中的文本挖掘研究
作者张清军
学位类别博士
答辩日期2005-10
授予单位中国科学院测量与地球物理研究所
授予地点武汉
导师朱才连
关键词移动终端 小屏幕 带宽不足 文本挖掘 文本总结 自动分词 未登录词 词性标注 n元语法模型 隐马尔可夫模型 主题提取 加权函数 自动文摘 向量空间模型 信息抽取 抽取规则 模式匹配 原型系统
学位专业大地测量学与测量工程
中文摘要基于位置的服务(LBS)是当前测量学中一个研究的热点领域,它涉及到定位技术、Gls技术、无线网络技术等诸多理论方面的问题,而且具有广阔的市场前景。本文以LBs移动终端设备由于资源受限难以浏览整个web页面为主线,侧重LBs中的关键性技术,开展技术创新研究,提出将文本挖掘中重要技术方法应用于LBS中,以解决上述难题。本文主要内容如下:1.分析了LBS的研究状况和其中关键性技术,阐述了LBS的主要应用和巨大的社会价值。在LBS系统中,终端设备由于资源局限性不能浏览整个Web页面,本文研究内容针对上述难题而展开。2.综述了文本挖掘的基础知识,主要包括文本挖掘的产生背景,文本挖掘的处理模型。并且按照模型对文本挖掘的处理过程进行了介绍,其中包括信息预处理、文本表示模型、特征子集的选取、文本挖掘的关键技术和模型质量评价。3.汉语自动分词是中文文本挖掘的首要步骤,而必要的词性标注可以提高文本挖掘的精度。综述了汉语词法分析的数学基础。分词部分介绍了自动分词的主要方法、切分歧义的处理和未登录词的识别,词性标注部分介绍了汉语词性标注的主要方法。4.提出对web页面进行主题提取,用特征词串来表示网页的粗略摘要,以解决LBS的终端设备由于资源受限而不能显示整个网页的难题。中文文本主题自动提取的关键是特征词加权函数的设计,本文总结了已有的研究成果,设计了一个新的特征词加权函数,选择的加权因子有词所跨的段落数、词频、词长、词的位置,并且采用非线性函数描述词长因子、词所跨的段落数因子和词频因子的作用,比较符合语言实际情况。开发了中文文本主题自动提取的原型系统,对文本集的测试验证了函数的有效性。5.提出将自动文摘技术应用于LBS系统中,采用句子组成的摘要来表达Web页面的主题,以解决LBS的终端设备由于资源受限而不能显示整个网页的难题。提出了一种基于文本结构分析的文摘方法。采用向量空间模型将文本、段落和主题段中的句子表示为等长的特征词向量,计算段落和文本相似度,根据阑值来选择主题段,然后计算主题段中的句子与主题段的相似度,根据文摘比例和相似度由高到低选取主题句,组成粗的文摘。开发了中文自动文摘的原型系统,对文本集的测试验证了此方法的有效性。6.提出采用信息抽取技术将用户感兴趣的信息抽取出来,再发给LBS的终端设备,解决终端设备由于资源受限而不能显示整个网页的难题。提出了一种基于信息抽取的页面转换方法,通过标记样本实例形成抽取规则,应用抽取规则和模式匹配来抽取结构和风格类似页面,将抽取信息转化为WAP页面,发送给用户终端。开发了信息抽取的原型系统,对实际数据源的抽取验证了此方法的效果。
公开日期2013-09-23
内容类型学位论文
源URL[http://ir.whigg.ac.cn/handle/342008/3781]  
专题测量与地球物理研究所_学生论文_学位论文
推荐引用方式
GB/T 7714
张清军. 基于位置的服务(LBS)中的文本挖掘研究[D]. 武汉. 中国科学院测量与地球物理研究所. 2005.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace