- 1、本文档共98页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
sc s1 s2 … sk HMM的三个经典问题: Biocomputing technology— Multiple sequence alignment 问题1(评测问题,evaluation): 已知模型 和输出序列O,求由 生成O的概率。 问题2(译解问题,decoding): 已知模型 和输出序列O,求最有可能生成O的状态 转移序列。 问题3(学习问题,learning): 已知模型 和输出序列O,求最有可能生成O时模型 的参数。 Profile——概形、谱 Biocomputing technology— Multiple sequence alignment * 概形是对一组序列进行全局多重比对时被发现的,是将比对 中具有较高保守区域变成小的多重比对,然后得到多重比对 记分矩阵. * 概形由更像小的多重排列的列构成,可以包括: 匹配、失配、 插入、缺失. * 概形一旦生成,就可用于寻找一个可能与之匹配的目标序列, 它利用表中记分来评价每个位置的可能性. 例: 25个氨基酸长的概形表格,有25列,每列将有20个记分值. 一列中每个匹配氨基酸的记分都在概形中对应的位置上. 缺点:偏向性 Profile HMM (1) 模型结构 Biocomputing technology— Multiple sequence alignment * 对于生物序列而言,HMM的字符当然是20个字母的氨基酸 或4个字母的核苷酸。但依据不同的问题,其它的一些字符 也可以使用,如64个密码子的三联体字母,3个字母(α,β, coil )的二级结构等. * 编码蛋白质的原始DNA序列,在生物的进化过程中会受到 自然环境和各种因素的影响,使翻译出的蛋白质序列经历 突变、遗失或引入外源序列等变化,最后按不同的进化路 径分化,形成多种功能相近的蛋白质。 所以,可以把这些蛋白质看作由一个基本蛋白质序列经过插 入、删除或替换了某些氨基酸残基而形成的。这个过程可以 用HMM来表示。 图4.9 Biocomputing technology— Multiple sequence alignment 图中: 方形代表匹配状态(主状态),即输出的氨基酸和基本序列中对应 的氨基酸匹配; 圆形表示删除或缺失状态,即从原始蛋白质序列中去掉一个特定 的氨基酸。 菱形表示氨基酸的插入,即在原始蛋白质序列插入一个氨基酸。 各状态间的箭头表示状态间的转换途径。 注意: ① 不同的参数会使模型以不同的概率产生新的氨基酸。 ② 一个训练好的模型可以代表有共同特征的蛋白质序列。 图4.10 Biocomputing technology— Multiple sequence alignment Profile HMM 与标准的Profile的比较 Biocomputing technology— Multiple sequence alignment ① Profile HMM有正规的概率作基础,对于序列的删除和 插入状态的记分也有较为可靠的理论依据。而标准的 Profile纯粹是一种启发式的方法。 ② HMM用统计方法估计序列某一位点核苷酸或氨基酸残基 出现的真正概率,而标准的Profile却是用自身的观察频率 给核苷酸或氨基酸残基指派分数。 ③ 由于②,Profile HMM方法从10至20个核苷酸序列构成的 比对中提取的信息,相当于用标准的Profile从40至50个 核苷酸序列构成的比对中提取的信息。 具体实现过程: Biocomputing technology— Multiple sequence alignment 设节点j 是一个依赖于节点i 的相关节点, 如果j 不在缓冲区内,则将其放入缓冲区,并计算 a[ j ] a[ i ]+SP_Score( Colum(s, i, b) ) (3) 如果j 早已在缓冲区中,则按下式更新 a[ j ] max( a[ j ], a[ i ]+SP_Score( Colum(s,i, b) ) ) 注意: Carrilo-Lipman 算法要求待比较的多个序列具有较大 的相似性,并且序列数不能太多。 4.2.4 星形比对 Biocomputing technology— Multiple sequence alignment * 启发式方法作为首选。 * 启发式方法不一定保证最终能得到最优解,但在大多
您可能关注的文档
- 《工程量清单计价应用指南》第 1 节 绪论.ppt
- 第二章 变量与基本类型.doc
- 《含括号混合运算顺序》教学设计.doc
- 第二章 第三章ER与关系数据库.pdf
- 第二章 数据库设计与ER模型919.ppt
- 第二章 数据类型与表达式 第三章 程序设计初步.ppt
- 第二章 网络拓扑基本模型和其性质.ppt
- 第二章 油墨传递及转移.pdf
- 第二章 原子的结构与性质习题课.pdf
- 《计算机配置及维护》--CPU系统结构.ppt
- 5.3.1函数的单调性(教学课件)--高中数学人教A版(2019)选择性必修第二册.pptx
- 部编版道德与法治2024三年级上册 《科技提升国力》PPT课件.pptx
- 2.7.2 抛物线的几何性质(教学课件)-高中数学人教B版(2019)选择性必修第一册.pptx
- 人教部编统编版小学六年级上册道德与法治9 知法守法 依法维权(第一课时)课件.pptx
- 三年级上册品德道德与法治《学习伴我成长》.pptx
- 部编版小学道德与法治六年级上册6 人大代表为人民 课件.pptx
- 部编版小学道德与法治六年级上册1感受生活中的法律第一课时课件.pptx
- 2.5.2圆与圆的位置关系(教学课件)-高中数学人教A版(2019)选择性必修第一册.pptx
- 2.5.1直线与圆的位置关系-(教学课件)--高中数学人教A版(2019)选择性必修第一册.pptx
- 14.1.1 同底数幂的乘法(教学课件)-初中数学人教版八年级上册.pptx
文档评论(0)