医学数据挖掘.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基因芯片数据的预处理数据的提取对数化探针过滤补缺失值标准化探针注释对数化原始数据呈偏态分布对数转化后呈近似正态分布探针过滤去除表达水平是负值或很小的数据或明显的噪音数据过闪耀现象物理因素导致的信号污染(划伤、指纹等)杂交效能低点样问题……补缺失值数据缺失类型非随机缺失(表达丰度过低或过高)随机缺失(与表达水平高低无关)杂交效能低物理刮伤指纹灰尘图像污染……补缺失值删除相应的行、列简单补缺法无表达或无差异表达0或1均值样本均值基因均值补缺失值回归法补缺失值k近邻法---KNN(K-Nearest?Neighbor)前提假设:近邻的对象具有类似的预测值。思想:在多维空间Rn中找到与未知样本最近邻的k个点,并根据这k个点的类别来判断未知样本的类这k个点就是未知样本的k-最近邻。k近邻法---KNN数学模型:离散目标分类函数为f:Rn-V?设未知样本的特征向量X为训练数据集D={(Xi,Vi),1≤i≤N},其中Xi是第i个训练样本的特征向量,Vi是类别V是有限集合{v1,v2,…vs},即各不同分类集计算X和Xi之间的距离d(Xi,X)按距离排序,得到d(X,Xi1)?≤d(X,Xi2)?≤…?≤d(X,XiN)选择前K个样本:S={(Xi1,Yi1)…(XiK,YiK)};?统计S中每个类别出现的次数,确定X的类别Y补缺失值k近邻法---KNN(K-Nearest?Neighbor)基因i在样本j中的表达水平缺失确定距离最近的k个邻居基因欧氏距离相关系数加权平均估计缺失值标准化基因芯片数据中存在的变异感兴趣的变异真正的生物学变异差异表达基因混杂变异实验过程中引入的变异在样本的染色、芯片的制作、芯片的扫描过程中引入的系统误差CDNA芯片数据的标准化系统误差来源染料的物理属性染料的结合效率探针的制备探针和样本的杂交过程数据收集时的扫描过程不同芯片间的差异不同芯片杂交条件的差异CDNA芯片数据的标准化标准化过程的参照物稳定表达的基因持家基因(housekeepinggenes)外源性的或人工合成的控制基因(controls)芯片上大部分稳定表达的基因(所有基因)相对稳定基因子集(invariantset)CDNA芯片数据的标准化标准化方法片内标化对数转换log-Ratios全局标化(globalnormalization)Cy3和Cy5不同染料的荧光强度不一致纠正了染料偏倚(dyebias)所有基因log-Ratios的中值或均值假设:CDNA芯片数据的标准化标准化方法片内标化荧光强度依赖的标化(intensitydependentnormalization)方法:scatter-plotsmootherlowess拟合染料偏倚的大小通常依赖于荧光强度c(A)是M对A的拟合曲线对应的函数数据的提取CDNA芯片数据的标准化标准化方法片间标化去除不同芯片间的系统误差线性标化法(linearscalingmethods)分位数标化法(quantilenormalization)每张芯片所测数据具有相同的分布CDNA芯片数据的标准化标准化方法片间标化分位数标化法(quantilenormalization)矩阵X中的每列数据从大到小排序构成Xsort求Xsort每一行的均值,并将其分配给该行的每个元素,构成Xsort’将Xsort’的每列按X中的顺序重新排序得到标化后的矩阵Xnormalized单通道芯片数据的标准化系统误差来源不存在染料偏倚不存在不同grid带来的系统误差主要为不同芯片间的差异标准化方法类似于cDNA芯片Z-scoreMAS5RMA探针注释探针ID的转换探针注释[HG-U133_Plus_2]AffymetrixHumanGenomeU133Plus2.0Array探针注释[HG-U133_Plus_2]AffymetrixHumanGenomeU133Plus2.0Array探针注释探针ID的转换GenesymbolEntrezID删除无对应关系的行多对一的关系均值、中值一对多的关系删除1.4打印后处理1.一方面需要把探针固定在玻璃表面2.另一方面也要封闭玻片上未打印的区域,以防止杂交时样品DNA的非特异性结合基因芯片是规则的规则的:微阵列上的单元按照行和列的方式进行排列。基本标准:成行、成列、大小均一、点间距相近、位

文档评论(0)

ning2021 + 关注
实名认证
文档贡献者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证 该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档