题名基因芯片数据管理及数据挖掘
作者王川
学位类别博士
答辩日期2004-09-10
授予单位中国科学院上海生命科学研究院
授予地点上海生命科学研究院
导师李亦学
关键词基因芯片 基因表达 数据库 数据挖掘
学位专业神经生物学
中文摘要基因芯片技术是90年代以来影响最深远的重大科技进展之一,基因芯片使得同时研究成千上万个基因的表达成为可能。如何对基因芯片实验产生的海量数据进行有效的管理和分析已成为使用这一高通量技术的瓶颈。一方面,已有的分析软件虽然提供了聚类分析和一定程度的数理统计分析,但仍然很难从结果中得到有价值的生物学知识及数据背后隐藏的相互联系;其次,它们大多集成度较差,常需要在处理数据时切换于多个程序之间,既造成使用不便也带来了数据交换及保密安全性方面的顾虑。目前,国外很多大学(如斯坦福大学),研究机构(如NCBI、EBI),软件公司纷纷建立自立的生物信息集成系统(如SMD, ArrayExpress),对基因芯片产生的数据按照国际公认的标准进行管理。在我国,这方面的研究领域还是一个空白。因此,开发具有自主知识产权的有关基因芯片表达数据管理和分析软件系统, 为基因芯片数据的知识发掘提供技术手段,是我国能否在这一领域跟上世界先进水平的关键之一,具有非常大的科学研究价值和市场价值。 论文中研究开发的ArrayLims体系,作为基因芯片表达数据管理和数据挖掘平台,由ArrayStore数据管理系统和ArrayMiner数据分析系统构成。ArrayStore数据管理系统能够对芯片生命周期全过程所产生的各种数据进行全程监控、管理,提供了便利的网上提交、修改、删除及查询功能。相关数据提取能够导入到基因芯片分析系统中作进一步分析。ArrayMiner数据分析系统提供了聚类分析、GO注释、生化代谢通路分析等功能,可视化的图形分析结果通过web页面返回用户。与现有同类系统相比较,ArrayLims具有以下特点: 1.基于国际先进技术及工业标准MIAME(The Minimal Information About a Microarray Experiment),使得其能很好的与国际上其它实验室及公共数据库进行数据交流。 2.构造了基于工业标准的通用生物芯片数据仓,具有自主知识产权。数据库设计具有极大的灵活性,可以同时满足实验室管理和作为大型公共数据仓的需要。 3.基因芯片数据分析系统以基因功能研究为主题,以基因功能分析应用为目标,将基因表达谱分析与生化代谢通路分析结合起来。系统从基因表达谱数据聚类分析出发,结合功能分析、生化代谢途径分析,可以为实验室提供详细的数据分析结果,指导进一步的生物学实验。 4.系统建立在先进的J2EE平台上,设计中充分采用MVC(Modle-View-Controller),DAO(Data Access Objects)等设计模式,使得整个系统具有极大的开放性、可扩展性以及持续开发的潜在能力。 ArrayLims体系在数据标准与实验室需求的协调、在数据整合、分析集成方面弥补了国际同类工作的不足,系统为基因芯片数据管理和进一步处理提供了丰富、可扩展的集成环境,并可根据不同需要为科研人员提供生物芯片数据的组织、管理、分析和数据挖掘技术平台,同时将基因表达谱分析与生化代谢通路分析结合起来,为基于表达谱分析的基因功能分析提供切实、深入、直观的决策支持,具有创新性,尤其是基因功能与基因表达谱特征间的关系分析研究,还没有见到文章发表,这一点在基于表达谱分析的基因功能注释工作中,有可能具有重要的应用意义。 目前,系统在易用性、查询功能、数据大批量录入等方面还存在不足之处,增强查询功能,提供公共数据库交叉链接,与其他相关分析软件集成等方面需要不断完善和进一步改进。从系统架构看,系统的开发是一个持续性的过程。下一步的工作我们除了将在用户界面、提供MAGE-ML支持和增强查询功能等多方面对系统进一步完善外,还将逐步与其他相关数据库的进行整合,初步建立起基因芯片数据库体系,使之成为我国数据共享平台的重要部分,并提供有关基因调控网络方面的分析功能。
语种中文
公开日期2013-01-05
页码89
内容类型学位论文
源URL[http://202.127.22.60/handle/331001/2395]  
专题上海神经科学研究所_神经所(总)
推荐引用方式
GB/T 7714
王川. 基因芯片数据管理及数据挖掘[D]. 上海生命科学研究院. 中国科学院上海生命科学研究院. 2004.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace