基于位置的服务（LBS）中的文本挖掘研究

CORC > 测量与地球物理研究所 > 学生论文 > 学位论文

题名	基于位置的服务（LBS）中的文本挖掘研究
作者	张清军
学位类别	博士
答辩日期	2005-10
授予单位	中国科学院测量与地球物理研究所
授予地点	武汉
导师	朱才连
关键词	移动终端小屏幕带宽不足文本挖掘文本总结自动分词未登录词词性标注 n元语法模型隐马尔可夫模型主题提取加权函数自动文摘向量空间模型信息抽取抽取规则模式匹配原型系统
学位专业	大地测量学与测量工程
中文摘要	基于位置的服务（LBS）是当前测量学中一个研究的热点领域，它涉及到定位技术、Gls技术、无线网络技术等诸多理论方面的问题，而且具有广阔的市场前景。本文以LBs移动终端设备由于资源受限难以浏览整个web页面为主线，侧重LBs中的关键性技术，开展技术创新研究，提出将文本挖掘中重要技术方法应用于LBS中，以解决上述难题。本文主要内容如下：1．分析了LBS的研究状况和其中关键性技术，阐述了LBS的主要应用和巨大的社会价值。在LBS系统中，终端设备由于资源局限性不能浏览整个Web页面，本文研究内容针对上述难题而展开。2．综述了文本挖掘的基础知识，主要包括文本挖掘的产生背景，文本挖掘的处理模型。并且按照模型对文本挖掘的处理过程进行了介绍，其中包括信息预处理、文本表示模型、特征子集的选取、文本挖掘的关键技术和模型质量评价。3．汉语自动分词是中文文本挖掘的首要步骤，而必要的词性标注可以提高文本挖掘的精度。综述了汉语词法分析的数学基础。分词部分介绍了自动分词的主要方法、切分歧义的处理和未登录词的识别，词性标注部分介绍了汉语词性标注的主要方法。4．提出对web页面进行主题提取，用特征词串来表示网页的粗略摘要，以解决LBS的终端设备由于资源受限而不能显示整个网页的难题。中文文本主题自动提取的关键是特征词加权函数的设计，本文总结了已有的研究成果，设计了一个新的特征词加权函数，选择的加权因子有词所跨的段落数、词频、词长、词的位置，并且采用非线性函数描述词长因子、词所跨的段落数因子和词频因子的作用，比较符合语言实际情况。开发了中文文本主题自动提取的原型系统，对文本集的测试验证了函数的有效性。5．提出将自动文摘技术应用于LBS系统中，采用句子组成的摘要来表达Web页面的主题，以解决LBS的终端设备由于资源受限而不能显示整个网页的难题。提出了一种基于文本结构分析的文摘方法。采用向量空间模型将文本、段落和主题段中的句子表示为等长的特征词向量，计算段落和文本相似度，根据阑值来选择主题段，然后计算主题段中的句子与主题段的相似度，根据文摘比例和相似度由高到低选取主题句，组成粗的文摘。开发了中文自动文摘的原型系统，对文本集的测试验证了此方法的有效性。6．提出采用信息抽取技术将用户感兴趣的信息抽取出来，再发给LBS的终端设备，解决终端设备由于资源受限而不能显示整个网页的难题。提出了一种基于信息抽取的页面转换方法，通过标记样本实例形成抽取规则，应用抽取规则和模式匹配来抽取结构和风格类似页面，将抽取信息转化为WAP页面，发送给用户终端。开发了信息抽取的原型系统，对实际数据源的抽取验证了此方法的效果。
公开日期	2013-09-23
内容类型	学位论文
源URL	[http://ir.whigg.ac.cn/handle/342008/3781]
专题	测量与地球物理研究所_学生论文_学位论文
推荐引用方式 GB/T 7714	张清军. 基于位置的服务（LBS）中的文本挖掘研究[D]. 武汉. 中国科学院测量与地球物理研究所. 2005.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们