题名基于规模化质谱数据的肽鉴定方法研究
作者袁作飞
答辩日期2012-06-04
文献子类博士
授予单位中国科学院研究生院
授予地点北京
导师贺思敏
关键词蛋白质鉴定 母离子质量校准 混合谱鉴定 数据分析流程
学位专业其它专业
英文摘要基于质谱数据的蛋白质鉴定已经成为蛋白质组学的基础技术。规模化的蛋白质鉴定通常采用“鸟枪法”,其基本思路是将生物样品中的蛋白质酶切成肽段,经过色谱分离进入质谱仪,质谱仪对某个时间点的全部肽段离子即母离子进行检测生成一级质谱,在一级质谱上选择强度高的母离子进行碎裂,对生成的碎片离子进行检测形成二级质谱,通过二级质谱图及其母离子质量鉴定肽段,然后推断蛋白质。 肽段母离子一般呈现为一个复杂的同位素谱峰系列,质谱仪的数据处理软件常常没有导出正确的母离子电荷或单同位素峰质量,导致给出的母离子质量产生很大偏差,正确肽段进入不了候选,从而无法得到正确鉴定结果。如果能通过质谱仪或者计算方法获得非常小的母离子质量误差,则可以极大减少候选肽段的数目,从而提高肽段鉴定的速度。所以准确检测母离子,包括正确的单同位素峰和较小的质量误差,将会提高规模化质谱数据的肽段鉴定效率。本文考虑了碎裂窗口内噪音和共洗脱肽段的影响,利用同位素峰簇中最高峰的位置和质量的关系判断谱峰的重叠,重构色谱峰去掉噪音,通过特征提取和排序,最后输出碎裂窗口内可能的单同位素峰。在标注集上,我们的方法pParse的准确率超过了98%,比常用数据处理软件BioWorks、MaxQuant都高。 肽段共洗脱是“鸟枪法”技术中的普遍现象,会造成多个肽段碎裂到一张二级质谱中,即混合谱。通过pParse容易识别混合谱,但鉴定混合谱比鉴定单肽段谱图要困难,原因是混合谱中每个肽段的碎裂都相互受到了影响。如果碎裂不好,利用肽段局部信息的打分算法效果也不好,比如利用二级质谱中碎片离子的连续性、匹配谱峰计数等算法。本文从肽段全局信息的角度,借鉴特征谱峰的概念,设计了新的打分算法。所谓特征谱峰,就是可以唯一确定所属肽段离子的谱峰组合。即使肽段碎裂不好,只要特征谱峰存在,还是可以鉴定肽段。首先通过母离子获得候选肽段,计算每个肽段的碎片离子对在所有肽段中出现的频率。如果只出现一次,则这对离子就是对应肽段的特征谱峰。把每个肽段的特征峰和非特征峰找出来,根据它们的强度和频率打分,称为UIS打分。在酵母数据上,UIS打分鉴定的共洗脱母离子是利用连续性打分引擎pFind的两倍。另外,还可以结合一二级谱各自的特点设计新的流程进一步提高混合谱的鉴定率,称为pParse+。在酵母数据上,pParse+比pParse的母离子鉴定数提高10%。 母离子质量校准只是蛋白质鉴定的一个环节,蛋白质鉴定的环节有很多,比如数据库处理、谱图处理、肽谱匹配打分、肽鉴定结果评价、肽段定量,还有蛋白质鉴定、评价和定量等。每一步又有很多选择,如何合理的把各个环节组装起来以适应各种需求,是一个值得研究的问题。我们提出了三种不同需求下的流程:简单的批处理流程——pBatch、智能的分析流程——哪吒、分条件的分析流程——pFlow。通过流程实用化,达到了提高数据分析的速度、自动分析数据中的参数和深度解析质谱数据的目的。
语种中文
学科主题计算机应用
公开日期2012-07-10
内容类型学位论文
源URL[http://ictir.ict.ac.cn/handle/311040/1522]  
专题中国科学院计算技术研究所学位论文_2012博士
推荐引用方式
GB/T 7714
袁作飞. 基于规模化质谱数据的肽鉴定方法研究[D]. 北京. 中国科学院研究生院. 2012.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace