- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因的测定与预测方法 基因预测的背景 * * 生物学家开始研究基因结构主要是在实验的基础上进行的:构建cDNA文库、PCR扩增、Northern blot 和测序等。 随着全基因组测序计划的实现,大量的基因组DNA序列产生,但对基因的注释远落后于基因测序。因此,应用计算机程序从DNA序列中寻找基因(尤其是那些编码蛋白质的基因),成为研究人员考虑的重要问题。 一旦获得一个基因组序列,除了将这段序列通过数据库相似性和同源性比较,还可以计算DNA的碱基组成,分析密码子的偏好性,简缩重复序列,寻找DNA的特殊位点或信号,以及鉴定DNA的编码区。用外显子-内含子结构和每个预测基因的位置信息,以及基于数据库有哪些信誉好的足球投注网站的任何功能信息来注释基因组DNA序列。随后可以鉴别最可能的蛋白质编码区。 基因预测的同源比较算法和预测模型 1 同源比较算法: ① Smith-Waterman算法 :它是将一条序列代替另一条序列所需的“最小代价”(Weight)。 ② FASTA算法 是用来进行DNA/DNA、DNA/蛋白质(将DNA按6个ORFs 翻译成氨基酸序列,再与蛋白质比较)和蛋白质/蛋白质的同源比较。 2 隐马尔可夫模型(Hidden Markov Model,HMM) 它将DNA看成是一个随机过程,根据编码和非编码的DNA序列在核苷酸选用频率上的不同而自动寻找出其内部隐藏的规律。 广义隐马尔可夫模型(Generalized Hidden Markov Model,GHMM ) 是通过对HMM简化和在HMM下建立了相应的子模型,使其具有很大的可扩展性,是第二代基因预测软件的基础。 3 动态规划法 用来将预测的各个可能外显子和内含子拼接成完整的基因,这种算法将各种可能的拼接进行记分,从而得出最可能的基因结构。 4 神经网络预测方法 该法是使用一个训练数集来训练神经网络,使其达到局部极小,然后,神经网络去掉这些最小权重,将最低预测值加到整体预测值上,经过数据修剪后,再次训练神经网络使其达到局部极小,这个过程不断被重复,直至达到规定的误差值,最后给出一个预测结果。 除了以上几种外,目前用于基因预测的算法还很多,如基因结构的线性判别式分析和概率模型等。不过大多数算法都是基于已知基因顺序,所以需要深入研究,寻找基因不同的内在规律。 但目前最为流行的预测模型是HMM改进后的广义隐马尔科夫模型(GHMM)。 GHMM比HMM的模型框架更具有良好的可扩展性。 下面介绍几种以HMM和GHMM为模型而发展的计算机识别软件: 第一代基因识别软件:GENMARK,GeneID和GRAILⅡ等, 它们采用的方法包括神经网络、隐Markov模型等。但是它们通常假定序列中正好包含了一个完整的基因, 因而预测的正确率不高。 第二代基因识别软件:包括GenScan,HMMGene,FFG,GeneMark.hmm 等等, 它们一般不需要假设序列中正好包含一个完整的基因, 而且 其预测正确率也有大幅提高。 它们的模型的框架基本上都是采用的广义隐Markov 模型,是对GHMM在简化方法和子模型的构建方上存在不同。 GeneScan GeneScan是一种广义上的目的基因预测软件,用来分析多个物种的DNA序列,包括人类、其他脊椎动物、无脊椎动物和植物的基因组。 它可以从下面网站获得:/GENESCAN.html. 其参数设置选定一个模式生物(脊椎动物、拟南芥或玉米)并选取一个亚适的截断值(1.0、0.50、0.25、0.10、0.05、0.02、0.01)。 ? HMMGene HMMGene是专门为脊椎动物和线虫未知DNA 序列的基因预测,可以预测整个质粒基因,甚至更长的DNA序列。同时也可以预测剪切位点和起始/终止密码子。如果一段序列的一些特征是已知的,如ESTs,蛋白质或重复元件,那么这些区域就被认定为编码区或者非编码区,甚至于在这一约束下找出最优的基因结构。 这个程序是建立在HMM(Hidden Markov model)模型上的,HMM模型是一个基因结构概率模型,能够为一段序列提供多个最优的预测结果。 Pombe Pombe专门设计来寻找S.pombe的基因和预测外显子-内含子结构。识别{位点,外显子,内含子}和{假位点,假内含子,假外显子}。同时可以识别起始位点,供
文档评论(0)