生物芯片数据分析方法_聚类和分类分析.ppt

生物芯片数据分析方法_聚类和分类分析.ppt

  1. 1、本文档共102页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用matlab进行k-均值聚类 IDX = KMEANS(X, K) 利用matlab进行k-均值聚类 (三)自组织映射聚类 基本思想:在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变 3、自组织映射聚类(SOM) 自组织映射聚类(Self-Organizing Map, SOM),是由T.Konohen 于1980 年提出的模型,属于非监督学习的神经网络聚类,与K-means 相似,采用SOM 聚类算法之前,也要首先估计出想要得到的类的个数。在SOM 神经网络中,输出层的神经元是以列阵的方式排列于一维或二维的空间中的。根据当前输入向量与神经元的竞争,利用欧氏距离,寻找最短距离当作最有效神经元,以求得调整向量神经元的机会,而其他神经元也可以彼此学习。而最后的神经元就可以根据输入向量的特征,以拓扑结构展现于输出空间中。 四 主成分分析算法(PCA) 能把复杂的数据集转换为比较简洁的数据集。PCA可以降低数据集的多维空间,从而能将数据集在2维图或3维图上表现出来,以至于能从中找到类中对象之间的相互关系。 (五)双向聚类 双向聚类就是识别基因表达谱矩阵中同质的子矩阵,运用特定的基因子类识别样本子类。 层次聚类 采用嵌套式基因和疾病 两个方向的循环有哪些信誉好的足球投注网站, 识别疾病亚类及导致 疾病亚类发生的对应 基因簇 双向聚类 局部相似性 识别出特定条件子集中表达模式一致的基因类 单向聚类算法不允许基因或条件属于多个相互重叠的类 * Thank you! * * * * * Euclidean distance. * * * * * * * * * * * * 聚类树的分割 系统聚类树可以用于分割数据,分割的类数由用户确定。分割的方法为:在树的一定深度上(从根部开始的距离)进行切割,不同深度的切割产生不同的分类结果。 3 clusters? 2 clusters? 层次聚类 确定类别个数? 指定类别数 相似性阈值 如何比较不同聚类方法的聚类结果? 不同聚类方法产生的系统树图间存在差异。 常用的方法:在固定分类的情况下比较不同方法聚类结果的一致性。 假定有两个系统树,把两棵树都进行切割,把对象分成K类。 两棵树的相似性可以定义为在一棵树中分到相同的类中而在另一个棵树中分到不同的类中的所有的配对观测对象的比例。 层次聚类在基因芯片实验中的应用 Step1: 建立Gene-experiment矩阵 Seeding(播种) Tiller(分蘖) Root (生根) Panicle1(穗1) panicle2(穗2) Gene1 1.2 1.3 -0.9 -0.3 1.1 Gene2 -1.5 0.4 0.3 4.2 -0.5 ……. Genen 每一列是不同的组织,或者在不同条件下的样本,每一行是基因的编号,每个基因的表达量用标准化后log2R/G的表示 Step2 计算所有基因之间的相关距离 基因的相似分值(similarity score)可以由Pearsons correlation公式计算: Goffset 一般取标准化后的中位数或平均值;等于0,即log2R/G=0,表示表达无差异。 层次聚类 Pearsons 相关的例子 Step3 建立Gene-Gene的距离矩阵 Gene1 Gene2 …… GeneN Gene 1 D11 Gene 2 D12 D22 …… …… …… …… Gene N D1N D2N …… DNN 根据Gene-Gene 的距离矩阵的分值,首先找到距离最近的两个基因,然后合并,再找距离相近两组再合并,直到所有的基因合并到一个组中。 Step4 建立系统发育树(dendrogram) -log2(D) Step5 建立表达图谱 绘制表达谱图时,log 值为正,用红色表示,越大红色越亮,基因表达的水平越高,受到的诱导(induced)越强;log 值为负则用绿色表示,越小绿色越亮,基因表达的水平越低,受到的抑制(depressed)越强 系统聚类是目前基因聚类中最常用的的方法之一。因为它她仅需要确定类的合并类的合并规则和和相似性度量指标,且得到的系统树图便于对基因的相似性进行评价。 主要缺点:基因的分类树需要用户确定,且当相似矩阵较大时计算量大。 在基因表达应用的背景下,进行较为复杂的聚类分析前,应尽可能减少感兴趣的基因数量,以降低计算复杂度。 系统聚类法一次形成类以后就不能改变了,这就要求一次分类分得比较准确,对分类的方法就提出较高的要求,相应的计算量自然也比较大。 如Q型系统聚类法,聚类过程是在样品间的距离矩阵基础上进行的,而且在并类过程中,需要将每类样品和其他类样品间的距离逐一加以比较,以决定应合并的类别,因此当样本容量很大时,需要占据足够大的计算机

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档