DNA装配中的纠错

题名	DNA装配中的纠错
作者	李委霖
学位类别	硕士
答辩日期	2009-06-06
授予单位	中国科学院软件研究所
授予地点	中国科学院软件研究所
导师	李昂生
关键词	序列纠错
其他题名	Correction Error Reads in DNA Assembling
中文摘要	DNA装配问题是指把各个读出序列（reads）拼接成一条完整的DNA链，即确定原DNA链的核苷酸“A，T，C，G”的排列顺序。实验中，由于各种原因测出的读出片段序列与DNA链的实际结果会有误差，这些误差会影响到用于装配的算法的性能，因此需要对测出的读出序列进行纠错。现有的算法如： ECINDEL和SRCorr都能够对实验数据进行纠错。但是它们都是根据某个读出序列出现的次数来判断它的正确性。这类算法首先选择参数k和M，若读出序列所有长度为k的子串出现的次数均大于M次，则它为正确的读出序列，即确实为原DNA链的子串。同时，还可以利用这些长度为k的子串来对原来的读出序列片段进行纠错。然而，在这些算法中，M的选择要么是一个固定值，要么是随机的，使得这些算法在纠错问题上的表现并不稳定。本文我们计算长度为k的子串出现M次时，它的真阳性（确实为原DNA链的一部分）的概率以及假阳性和假阴性的概率。根据计算结果，我们可以选择一个最优的M值使得最后选取的子串的错误最少，即假阳性的子串与假阴性的子串的数量之和最少。我们在模拟数据和实际数据上进行了验证，与之前的纠错算法ECINDEL，SRCorr相比，我们的算法总的错误率降低了77.6％和65.1％。
语种	中文
学科主题	计算机科学技术基础学科
公开日期	2009-06-22
内容类型	学位论文
源URL	[http://124.16.136.157//handle/311060/190]
专题	软件研究所_计算机科学国家重点实验室 _学位论文
推荐引用方式 GB/T 7714	李委霖. DNA装配中的纠错[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2009.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们