- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学是数据导向的科学,大规模测序是其最重要的数据来源之一
测序中的数学问题李松岗北京大学2002/04/04 生物信息学是数据导向的科学, 大规模测序是其最重要的数据来源之一 大规模测序与实验室测序的不同 实验室测序: 手工操作,效率低,结果是第一位的 大规模测序: 流水线操作,自动化 追求稳定、高效、低成本 两种测序策略: 基于BAC的方法: 先把基因组打碎成200-300kb的片段并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。 全基因组鸟枪法: 把基因组直接打碎成3kb左右的小片段,测序并拼接。 基于BAC的方法 全基因组DNA 随机打成大片段 选择并克隆 大片段排序,选择 再打碎,克隆,测序,拼接 全基因组鸟枪法 基因组DNA 随机打碎 测序并拼接 近来测序技术的进展 从基于BAC的策略转向全基因组鸟枪法 毛细管自动测序仪的广泛使用 全基因组鸟枪法测序的拼接 困难: 数据量极大 大量重复序列造成拼接途径的不确定 拼接软件的新需求 能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接 能处理数以百万甚至千万计的数据 程序并行化 高效率比对 能逐步拼接 水稻基因组拼接步骤: 采用数学模型识别重复序列 把重复序列屏蔽掉后,根据是否具有重叠部分进行分组 采用大型计算机并行拼接 恢复重复序列,延伸contig 构建scanfold 识别重复序列的数学模型 重复序列识别: n次抽样,其中i次以上深度在j以上的概率Pij 设一次抽样深度在j以上和以下的概率分别为:Pj-,Pj+; n次抽样,其中i次以上深度在j以上则认为是repeat,此时犯两类错误的概率 为: 设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P* ,则: MDR (Mathematically-Defined Repeat) vs. BDRs (Biologically-Defined Repeats) Contigs:127,550 (N50=6,688 bp) 进一步工作的设想 新拼接程序 步骤: 利用覆盖深度模型纠正测序错误 采用严格比对快速确定所有可能的重叠 利用图论或线性代数方法完成拼接 纠正测序错误 对6X左右鸟枪法测序数据,统计所有20碱基长小片段出现次数; 对每一个read,顺序标出它的小片段出现次数; 若有连续一串1出现,则可能有测序错误存在,应进行纠正。 消除测序错误的好处: 可区分部分重复序列; 可采用严格比对的方法,提高计算速度; 有利于简化拼接算法; 有利于后期数据分析,例如SNP识别等。 * * 若repeat有m个拷贝,且已知随机序列覆盖深度为0,1,2……的概率:g0 , g1 , g2 ,……,则一次抽样repeat覆盖深度为0,1,2,……的概率P0, P1, P2,……为: BDR’ (~25%) BDR (~50%?) MDR (42.2%) 人与水稻基因组中重复序列分布的差别 Scaffolds: 102,444 (N50=11,764 bp) Quality: 546 bp at Q20
文档评论(0)