基因表达数据的双向聚类算法的研究-计算机应用技术专业论文.docxVIP

基因表达数据的双向聚类算法的研究-计算机应用技术专业论文.docx

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因表达数据的双向聚类算法的研究-计算机应用技术专业论文

席艳秋:基冈表达数据的双向聚类算法的研究摘 席艳秋:基冈表达数据的双向聚类算法的研究 摘 要 基因芯片的出现给生命科学研究、疾病诊断、新药开发、食品监督等领域带来了 革命性的变化,而在一个典型的基因芯片的运作中,会有成千上万的基因表达数据产 生,对基因表达数据的分析是当前生物信息学和数据挖掘领域的研究热点和难点。通 常我们对基因表达数据的分析主要是通过使用聚类分析方法以找出基因表达数据矩阵 中的显著性结构。由于基因表达数据的双向关联性(基因方向或条件方向),传统聚类 方法在分析中就显示出了局限性,它们因只在单方向上进行聚类故仅能找到整个数据 集的全局结构信息,而大量的局部结构信息却被丢失掉了,但是具有生物学意义的显 著性结构信息往往是内部局部相关联的,所以传统的聚类方法很难精确地反映出基因 间的紧密关系。 本文主要针对实数型数据与布尔型数据的基因表达中的双聚类|可题进行了研究, 具体做了以下一些工作: (1)提出了k-means迭代双聚类方法,此算法主要适应于实数集。使用了Cheng 和Church算法中的平均平方残差作为打分函数,先进行列集聚类,再在聚类出来的列 集上进行行聚类,然后列聚类与行聚类交叉迭代进行,以找出“稳态’’双簇。第二步 主要对“稳态双簇进行降Hscore值(平均平方残差),即为删行与删列操作。最后 一步为最大化操作,即为加行与加列操作。实验表明:该算法可以同时挖掘出k个双 聚类,而不像Chcng和Church算法每次只能挖掘出一个最大的双簇;且更能有效地找 出变化较小,共表达水平较高的双聚类簇。 此外,我们针对于无闭集双聚类(“稳态双簇)也提出了一个算法,这个算法因 其在列集上首先进行了聚类操作,把它划分成几个相似的子列集,再分别进行行聚类 分析。该算法更适合挖掘出一些“瘦长”型的双聚类,双聚类的规模比上一个算法得 到的更大型一些。 (2)为了更加高效的处理基因表达谱,我们提出了处理布尔型数据的双向聚类算 法。我们首先把布尔矩阵双向聚类问题转化为寻找最大块的1矩阵问题,然后通过奇 异值分解技术来解析0/1矩阵,并按照奇异值降序排列依次求出对应的行特征向量与 列特征向量,截取前k个奇异向量,依次在各个特征空间内进行行特征向量与列特征 向量的聚类,直到得到满足阈值要求的l元素子块。 该算法比处理实数集更加快速,效率更高。实验结果显示,该算法能够挖掘出包 2 2 扬州大学硕士学位论文 含所有1元素的子矩阵,且能够找出满足1元素个数要求的子矩阵(子矩阵中l的数 量尽量多)。 (3)提出了基于KL散度的双聚类的打分函数。在k-means迭代双聚类方法中, 我们使用平均平方残差与KL散度作为评价函数,而在布尔矩阵的双聚类中,我们提 出使用候选簇中的l元素的频率和KL散度来评价双聚类簇。KL散度打分函数对基因 数据矩阵进行归一化操作,解决了数据标准化的问题,实验证明它的时间复杂度低于 平均平方残差。 关键词:基因表达数据、双聚类、平均平方残差、稳态双簇、KL散度 席艳秋:基因表达数据的双向聚类算法的研究 席艳秋:基因表达数据的双向聚类算法的研究 3 Abs缸.act The emergence of gene chips brings a revolutionary change to the areas of life science research,disease diagnosis,drug development,food and supervision.In a typical DNA microarray study,it will produce thousands of gene expression levels.Gene expression data analysis is hot and difficult in the bioinformatics and data mining research areas.Gene expression data analysis is to identify significant structure in the gene expression data by clustering.Because of bidirectional relationship of the gene expression data(the direction of gene direction or condition direction),traditional clustering methods have some limitations in tlleir application on bioinformatics,it only to find the g

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档