DNA序列分类模型设计研究分析.doc

下载文档 降价啦

34
0
约3.04万字
约 50页
2017-09-10 发布于广西
举报
版权申诉
保障服务

DNA序列分类模型设计研究分析.doc

1、本文档共50页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DNA序列分类模型 DNA序列分类模型摘要本文分析了已知类别的人工DNA序列的特征，建立了聚类分析延拓模型和马尔可夫模型，分别对未知类别的人工DNA序列和自然序列进行分类，根据分类效果选出了较优模型。首先对数据进行预处理，得到人工DNA序列的单个碱基丰度和不同碱基丰度之比等特征量，进而分析A、B两类的差异，得到合适的特征判定条件对未知类别的DNA序列进行分类。计算人工DNA序列的特征量，给出各序列的统计数据。其次用聚类分析延拓模型进行分类。用A、B两类具有明显差异的特征作为样品特征变量，得到欧式空间中表征编号1-20人工DNA序列的特征向量，计算两两之间的Lance和Williams距离进行相似性度量，逐步选择相似性较大的归为一类，同时不断更新类内的标准比较特征向量，对聚类方法进行延拓，最终得到类内差异小、类间差异大的A、B两类，建立了聚类分析延拓模型。再对选取的特征变量进行改进，提高模型的分类效果。最后，借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。再次用马尔可夫模型进行分类。将DNA序列看成是马尔可夫链，求出编号1-10和11-20人工DNA序列在已知当前碱基种类的条件下，下一个碱基出现任一种的概率，结果存入概率转移矩阵1和2，再利用矩阵1和2分别求出编号1-20中任一条DNA序列出现的概率，选择较大的一个作为该DNA序列的分类，建立马尔可夫模型。再进行与聚类分析延拓模型类似的改进和检验工作，然后对编号21-40人工DNA序列和182条自然序列进行分类，得到最终结果。最后，用层次分析法综合评价模型一与模型二，选择聚类分析延拓模型作为最终模型，其分类结果作为最终结果，具体如下：编号21-40人工DNA序列中属于A类的样品编号为：22，23，25，27，29， 30，34，35，36，37，39；属于B类的样品编号为：21，24，26，28，31，32，33，38，40。 182条自然序列中，属于B类的样品编号为：7，10，12，22，23，24，26，28，30，34，43，48，50，54，57，65，75，76，80，84，85，86，92，98，103，107，110，114，116，119，121，122，123，127，128，129，130，131，137，138，140，142，143，144，146，151，156，159，161，162，163，166，168，170，173，174，175，179，180，181，182；其余为A类。关键词 DNA序列分类聚类分析延拓法 Lance和Williams距离马尔可夫法一、问题重述 1.1题目背景（1）2000年6月，人类基因组计划中DNA全序列草图完成，预计2001年可以完成精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。（2）这本 “天书”是由4个字符A，T，C，G按一定顺序排成的无间隔的长约30亿的序列，除了这4个字符表示4种碱基以外，人们对它包含的“内容”知之甚少。因此，破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。（3）为解读这部“天书”，首先要研究DNA全序列具有什么结构，以及由这4个字符排成的看似随机的序列中隐藏着什么规律，这也是生物信息学最重要的课题。 1.2题目信息（1）DNA序列分为编码区与非编码区。编码区是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。（2）在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。（3）利用统计的方法还发现序列的某些片段之间具有相关性。这些发现说明DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列有十分重要的意义。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。 1.3题目要求（1）有20个已知类别的人工制造的DNA序列（见附件1），其中序列标号1—10 为A类，11-20为B类。从中提取特征，构造分类方法，并用这些已知类别的序列，衡量所选分类方法是否足够好。（2）用（1）中的分类方法对另外20个未标明类别的人工序列（见附件1，标号21—40）进行分类，根据分类效果对方法不断完善，将得到的最终结果用序号（按从小到大的顺序）标明它们的类别（A类或B类，无法分类的不写入）。要求详细描述所选的分类方法，给出计算程序。若论文中部分地使用了现成的分类方法，应将方法名称准确注明。