CORC  > 软件研究所  > 计算机科学国家重点实验室  > 学位论文
题名DNA装配中的纠错
作者李委霖
学位类别硕士
答辩日期2009-06-06
授予单位中国科学院软件研究所
授予地点中国科学院软件研究所
导师李昂生
关键词序列纠错
其他题名Correction Error Reads in DNA Assembling
中文摘要DNA装配问题是指把各个读出序列(reads)拼接成一条完整的DNA链,即确定原DNA链的核苷酸“A,T,C,G”的排列顺序。实验中,由于各种原因测出的读出片段序列与DNA链的实际结果会有误差,这些误差会影响到用于装配的算法的性能,因此需要对测出的读出序列进行纠错。现有的算法如: ECINDEL和SRCorr都能够对实验数据进行纠错。但是它们都是根据某个读出序列出现的次数来判断它的正确性。这类算法首先选择参数k和M,若读出序列所有长度为k的子串出现的次数均大于M次,则它为正确的读出序列,即确实为原DNA链的子串。同时,还可以利用这些长度为k的子串来对原来的读出序列片段进行纠错。 然而,在这些算法中,M的选择要么是一个固定值,要么是随机的,使得这些算法在纠错问题上的表现并不稳定。 本文我们计算长度为k的子串出现M次时,它的真阳性(确实为原DNA链的一部分)的概率以及假阳性和假阴性的概率。根据计算结果,我们可以选择一个最优的M值使得最后选取的子串的错误最少,即假阳性的子串与假阴性的子串的数量之和最少。我们在模拟数据和实际数据上进行了验证,与之前的纠错算法ECINDEL,SRCorr相比,我们的算法总的错误率降低了77.6%和65.1%。
语种中文
学科主题计算机科学技术基础学科
公开日期2009-06-22
内容类型学位论文
源URL[http://124.16.136.157//handle/311060/190]  
专题软件研究所_计算机科学国家重点实验室 _学位论文
推荐引用方式
GB/T 7714
李委霖. DNA装配中的纠错[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2009.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace