- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析文献阅读测序深度和覆盖度.ppt
基因组分析的关键因素—测序的深度和覆盖度 李言 2014-08-19 目录 基因组从头测序 基因组重测序 转录组测序 基因定位分析 基本概念 测序深度:测序得到的碱基数量与待测基因组的比值,假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。 测序覆盖度:测序获得的序列占整个基因组的比例,例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。 Gap:由于基因组中复杂结构(高GC,重复序列)的存在,使得测序最终拼接组装获得的序列往往无法覆盖所有的区域,这部分区域就是Gap。 基本概念 覆盖度的冗余也叫深度或覆盖深度。LN/G表示:L代表阅读的长度,N代表阅读序列的数量,G代表单倍体基因组长度。 一般而言,越高覆盖度的测序方法往往要求越高的花费。 真实的测序方法中读码序列很短(小于250个核苷酸),并且有错误;可以通过增加读码序列的数量来克服它,比如:具有1%错误变异率的译码,在结合8个相同的包含变异位点的序列后可以使错误率变为十万分之一。 基本概念 Lander–Waterman公式:揭示人类基因组和外显子组测序的一般性规律。 从公式中知:通过试算基因组的测序深度的方差来评估覆盖度的均匀性非常重要。 从Box1中知:覆盖度越高最后测序的碱基数也越多,而且读码序列的个数与长度之间具有一定的关系,并且在一定的比例时测序效果最好。 基因组从头测序 指不依赖于任何已知基因组序列信息对某个物种的基因组进行测序。 决定测序深度的主要因素是错误率、拼接算法、读码序列的长度和基因组的重复的复杂性。 经常使用混合的方法得到高质量的拼接,比如高深度、短阅读测序的优势常与低深度但是长阅读测序法相结合。 基因组从头测序 例如野生草山羊序列的拼接,因为它具有4.4Gb并且三分之二的区域有高度重复的转座元件,所以测序非常困难。 首先成功把原始序列拼接成短序列,使用了45个文库中的高质量的短阅读长度的398Gb的数据,其中的覆盖率达到了90倍。 然后这些片段可以使用双尾阅读信息与长的支架进行串联。 基因组从头测序 低覆盖度在测序后分析和生物学解释方面有两个主要的影响: 1、它不能确定是否有编码蛋白质基因的缺失、 开放阅读框的中断、一个真正的进化基因的丢失。 2、更严重的是低覆盖度会产生序列的错误,并且会随着下游的分析和误导性的结论而进行扩散。 基因组重测序 对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析。与已知序列比对,寻找单核苷酸多态性位点(SNP)、插入缺失位点(InDel)、结构变异位点(SV,Structure Variation)位点及拷贝数变化 (CNV) 。 测序的深度取决于研究的变异类型、疾病的类型和区域的长度。 基因组重测序 测序的策略取决于测序深度和样本数量之间的权衡。 WGS(全基因组测序):高深度的WGS方法对DNA测序来说是黄金准则,因为它几乎可以探测到所有的变异类型。 WES(全基因组外显子测序):WES主要探测在蛋白质编码基因中的SVNs(单核苷酸变异)、indels(插入缺失)和其他的功能元件,因此它忽略了调节元件比如启动子和增强子。WES的测序花费比WGS要少,但它具有各种的限制条件。 基因组重测序 SNV和indel检测:使用Illumina短阅读技术表明,纯合型的SVNs的检测使用15x的覆盖度,杂合型的为33x。变异检测的能力会因碱基的质量低和覆盖度不均匀而下降。 CNV检测:CNVs可以通过对WES和WGS两种测序的数据使用分析覆盖深度来得到,其中拷贝数目的变化可通过基因组区域的覆盖深度的变化推导得到。在WGS中0.1x的覆盖度可以获得合理的特异位点。 基因组重测序数据的分析:典型的重测序数据的分析途径是把测序的短序列与参考的基因组进行比对。 基因组重测序 WGS:80x的覆盖度要求覆盖89.6–96.8%的目标碱基,这取决于测序的平台但是至少要10x的覆盖度。 外显子的研究中要求至少80%的目标区域被覆盖,并且使用10x的覆盖度。 群体基因组测序中,许多基因组的测序都是短阅读序列的方法,比如:400个样本,4倍的覆盖度。 基因组重测序 四种不同测序策略(WES,WGS,RNA-seq,ChIp-seq)的测序对深度的要求也不相同。 它们的测序深度和测试的花费按以下的顺序递增:ChIp-seq,RNA-seq,WES,WGS。 ChIp-seq,WES,WGS具有典型的应用和标准的测序深度,但是RNA-seq的深度与它们不一致,并且差距非常之大。 转录组测序 RNA-seq:可以对生物样本的表达转录物进行检测和量化分析,但没有明确的指南和阅读数量的要求。 它的应用主要包括:异常转录物的发现,差异性表达
文档评论(0)