第五节基因识别要点.pptVIP

下载本文档

6
0
约4.71千字
约 56页
2016-08-04 发布于湖北
举报
版权申诉

第五节基因识别要点.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第五节基因识别主讲人：孙啸制作人：刘志华东南大学吴健雄实验室基因识别基因识别是生物信息学领域里的一个重要研究内容基因识别问题，在近几年受到广泛的重视当人类基因组研究进入一个系统测序阶段时，急需可靠自动的基因组序列翻译解释技术，以处理大量已测定的但未知功能或未经注释的DNA序列原核基因识别重点在于识别编码区域非翻译区域（untranslated regions, UTR）编码区域两端的DNA，有一部分被转录，但是不被翻译，这一部分称为非翻译区域 5’UTR---基因上游区域的非翻译区域 3’UTR---基因下游区域的非翻译区域对于任何给定的核酸序列（单链DNA或mRNA），根据密码子的起始位置，可以按照三种方式进行解释。例如，序列ATTCGATCGCAA 这三种阅读顺序称为阅读框（reading frames） CAA A ATT CGA TCG A TTC GAT CGC AA AT TCG ATC GCA （1）（3）（2）一个开放阅读框（ORF,open reading frame）是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框，或者说识别长的编码区域。基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率终止密码子出现的期望次数为：每21个（? 64/3）密码子出现一次终止密码子基本思想：如果能够找到一个比较长的序列，其相应的密码子序列不含终止密码子，则这段序列可能就是编码区域。基本算法：扫描给定的DNA序列，在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后，回头寻找起始密码子。这种算法过于简单，不适合于处理短的ORF或者交叠的ORF。识别编码区域的另一种方法是分析各种密码子出现的频率将一个随机均匀分布的DNA序列翻译成氨基酸序列，则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1 例如，亮氨酸、丙氨酸、色氨酸分别有 6个、4个和1个密码子但是在真实的氨基酸序列中，上述比例并不正确这说明DNA的编码区域并非随机假设在一条DNA序列中已经找到所有的ORF，那么可以利用密码子频率进一步区分编码ORF和非编码ORF 马尔柯夫链模型利用这种方法，可以计算一个ORF成为编码区域的可能性。一个简单的统计模型假设相继的密码子是独立的，不存在前后依赖关系。令fabc代表密码子abc在编码区域出现的频率给定序列 a1,b1,c1, a2,b2,c2,…, an+1,bn+1 从密码子a1b1c1开始的阅读框，其n个密码子的出现概率为第二种和第三种阅读框n个密码子出现的概率分别为第i个阅读框成为编码阅读框的概率计算：算法：在序列上移动长度为n的窗口，计算Pi 根据Pi的值识别编码的阅读框基于编码区域碱基组成特征的识别方法编码序列与非编码序列在碱基组成上有区别单个碱基的组成比例多个碱基的组成通过统计分析识别编码序列分析实例 2、真核基因识别问题真核基因远比原核基因复杂：一方面，真核基因的编码区域是非连续的，编码区域被分割为若干个小片段。另一方面，真核基因具有更加丰富的基因调控信息，这些信息主要分布在基因上游区域。基因识别基本思路找出基因两端的功能区域: 转录启动区终止区在启动区下游位置寻找翻译起始密码子识别转录剪切位点剪切给体位点剪切接受体位点各种不同的方法有不同的适应面，而不同的方法有时可以结合起来以提高基因识别的准确率。关键问题是如何提高一个识别算法的敏感性（sensitivity，Sn）和特异性（specificity，Sp）。 3、基因识别的主要方法两大类识别方法：从头算方法（或基于统计的方法）根据蛋白质编码基因的一般性质和特征进行识别，通过统计值区分外显子、内含子及基因间区域基于同源序列比较的方法利用数据库中现有与基因有关的信息（如EST序列、蛋白质序列），通过同源比较，帮助发现新基因。最理想的方法是综合两大类方法的优点，开发混合算法。基因识别方法有：（1）基于规则的系统（2）语义学方法（3）线性辨别分析（LDA）（4）决策树 ? （5）动态规划 ?（6）隐马尔柯夫模型 ? （7）剪切对比排列（spliced alignment） 4、编码区域识别两类方法：基于特征信号的识别内部外显子剪切位点 5’端的外显子一定在核心启动子的下游 3’端的外显子的下游包含多聚Ａ信号和终止编码基于统计度量的方法根据密码子使用倾向双联密码统计度量等