CORC  > 软件研究所  > 中科院软件所  > 中科院软件所
题名基于语义的异构信息内容集成技术研究
作者李剑
学位类别博士
答辩日期2007-01-19
授予单位中国科学院软件研究所
授予地点软件研究所
关键词信息内容集成 语义Web 本体 查询划分与转换 完整性约束 模式集成 信息门户
其他题名Semantic Integration on Heterogeneous Information Sources
中文摘要随着网络技术、数据库技术以及其他信息内容存储访问技术的发展,用户需要访问和可以访问的信息范围不断扩大,信息内容也不断增加,同时这些信息内容可能存在于通过网络连接的分布的计算机系统中,它们的存储地点、表示形式以及访问方式各不相同。因此,用户对于集成各种分布和异构信息来源中信息内容的要求与日俱增。 分布信息内容集成是指将分布异构的信息内容集成起来,其以统一的表示形式展现给访问用户,用户能以统一的访问接口和信息获取方式来访问这些不同来源、不同表示形式的信息内容。基于语义的分布信息内容集成是指采用统一语义模型来表示分布信息来源中信息内容的集成方式。 对分布信息内容集成的研究很多,特别是基于语义的分布信息内容集成领域,对这一领域的研究取得了一定的成果,但是这些研究中存在着下述不足:缺乏一种具有普遍适用性的语义集成多种类型信息内容的方法,其中信息来源包括结构化、半结构化以及非结构化的信息内容类型;缺少根据集成中的映射对应关系,将对所集成信息内容的全局查询划分转换为局域查询的方法;在保证集成信息内容满足完整性约束条件的方法中,缺乏针对所集成信息内容不完全性的解决方法的研究;缺少基于语义的信息内容集成与基于XML模式的信息内容集成相结合及相关技术的研究;缺乏对非结构化的网页或文本文档进行语义集成以及相关语义搜索技术的研究;对于包含信息内容描述而彼此之间又存在着关联关系的分布RDF(S)描述,缺乏对其基于语义集成方法的研究。本文从这些问题出发,研究相应的解决方法和关键技术,并完成了语义信息内容集成的部分实现。 论文研究的基于语义的异构信息内容集成涉及到集成关系数据、XML文档、RDF(S)描述以及网页和文本文档多种类型的信息来源。论文给出了基于语义的异构信息内容集成的总体框架,其采用三层结构形式,底层是各种分布信息来源,集成层以表示全局领域模型的本体来集成这些信息内容,并将信息门户作为信息内容发布层中用户访问和获取信息内容集成结果的接口。同时,所提出的本体到局域信息模式的映射模型能统一的表示基于语义的信息映射和信息集成方式。 基于本体的结构化(关系数据)和半结构化(XML)信息内容集成中的关键问题是如何实现对全局本体的概念实例查询到局域信息数据查询的查询划分与转换。论文提出了一种本体概念实例查询的操作表示,并基于这一查询操作表示给出了将全局查询划分为局域查询的方法,同时还给出了将局域查询转换为对应局域信息源的本地查询的方法,各个局域查询结果经过集成和转换后以统一的形式返回给用户。使用本方法来查询所集成的信息内容来源,可以获取用户所需要的正确查询结果。 语义信息内容集成中需要集成的分布信息数据之间可能不满足全局定义的完整性约束条件。通过对用户查询进行重写,可以采用重写后的查询来获得满足完整性约束的查询结果。一致性查询重写通过附加给查询限定性条件,使查询去除某些导致不满足完整性约束的查询结果;论文提出的完全性查询重写能通过附加补充性条件导致获取某些附加查询结果,从而解决集成中信息内容不完全性引起的不满足完整性约束冲突。复合查询重写则是根据对完整性约束集合的划分综合运用一致性查询重写和完全性查询重写的方法。使用特定的完整性约束集合划分能使复合查询重写后的查询获取的数据结果满足用户的偏好性需求。 在基于语义的分布XML集成中,局域XML信息来源可以为集成多个局域XML文档所形成的虚拟XML信息来源。由于局域XML信息来源是动态变化的,所集成的XML模式需要随着局域XML模式的加入或者删除而变化。论文所提出的模型用来描述集成XML模式和局域XML模式之间良构性的匹配映射关系,并提出了一种实现局域XML模式加入和删除所导致的集成XML模式修改的方法,此方法能在XML模式集成过程中保持匹配映射的可包容良构性,从而能保证局域XML到集成XML数据的正确转换。 为了集成分布的RDF(S)描述,论文提出了描述分布异构RDF(S)的分布RDF(S)模型,这一模型能描述分布RDF(S)描述之间的联系。同时基于这一模型给出了实现分布RDF(S)查询的方法,此查询方法既能实现实例层次的查询,也能实现概念层次的查询。同时,在分布RDF(S)模型和分布RDF(S)查询方法的基础上,可以实现基于全局本体的分布RDF(S)描述集成。 在基于语义的网页与文本文档集成中,为了获取更准确的网页和文本信息搜索结果,论文提出了基于语义索引的语义搜索技术。语义索引是对本体中概念与关系和所集成文档的相关程度进行索引,根据此索引,可以查找和语义概念相关的文档。用户的语义搜索请求可以划分为对语义索引的搜索部分和对关键词索引的搜索部分,这两部分的搜索结果通过一定规则进行处理,所获得的语义搜索结果可以在保证一定查准率的基础上获得满意的查全率。 OncePortal是我们实现的一种集成信息与应用的信息门户, 它可以作为基于语义的异构信息内容集成中的用户访问和信息发布方式。这样用户能以统一的OncePortal访问方式来访问被语义集成的信息内容,在其中输入对所集成信息内容的语义查询或搜索请求,语义查询或搜索的结果也以OncePortal输出网页的形式返回给用户。
语种中文
公开日期2011-03-17
页码176
内容类型学位论文
源URL[http://ir.iscas.ac.cn/handle/311060/7132]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
李剑. 基于语义的异构信息内容集成技术研究[D]. 软件研究所. 中国科学院软件研究所. 2007.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace