- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Minkowski Distance Distance Matrix 城市块距离应用-衡量疾病之间的”距离” 数据对象之间的相异度-马氏距离 Mahalanobis Distance Covariance Matrix: B A C A: (0.5, 0.5) B: (0, 1) C: (1.5, 1.5) Mahal(A,B) = 5 Mahal(A,C) = 4 数据对象之间的相似度 两个仅包含二元属性的对象之间的相似性度量也称相似系数 两个对象的比较导致四个量 f00 = x取0并且y取0的属性个数 f01 = x取0并且y取1的属性个数 f10 = x取1并且y取0的属性个数 f11 = x取1并且y取1的属性个数 二元属性的对象之间的相似性度量(重点) 简单匹配系数(Simple Matching Coefficient) SMC = 值匹配的属性个数 / 属性个数 = (f11 +f00) / (f01 + f10 + f11 + f00) Jaccard(雅卡尔 ) 系数 J = 匹配的个数 / 不涉及0-0匹配的属性个数 = (f11) / (f01 + f10 +f11) SMC vs Jaccard: 例子 x = 1 0 0 0 0 0 0 0 0 0 y = 0 0 0 0 0 0 1 0 0 1 SMC = (f11 + f00)/(f01 + f10 + f11 + f00) = (0+7) / (2+1+0+7) = 0.7 J = (f11) / (f01 + f10 + f11) = 0 / (2 + 1 + 0) = 0 f00 = 7 f01 = 2 f10 = 1 f11 = 0 数据对象之间的相似度-余弦相似度 cos( x, y ) = (x ? y) / ||x|| ||y|| 例: x = 3 2 0 5 0 0 0 2 0 0 y = 1 0 0 0 0 0 0 1 0 2 x ? y=3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2 = 5 ||x|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||y|| =(1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = 0.3150 数据对象之间的相似度-相关性 皮尔逊相关系数 应用-计算microRNA调控基因的强度 miRNA1 mRNA1 计算miRNA和mRNA的表达相关性(模拟): miRNA-c(23.5,10,10,5.1,1.2) mRNA-c(1.2,5.2,12,12.3,24.1) cor(miRNA,mRNA) miRNA和mRNA的表达负相关性,强烈的暗示他们之间的调控关系! 习题: 数据(或属性)的类型有哪几种?怎样区分这些类型?每种类型举一个例子。 标称属性的值只提供足够的信息以________对象. 序数属性的值提供足够的信息确定对象的________. 对于比率属性的值,进行________和________操作都是有意义的. 摄氏温度、年龄、质量、长度、基因表达量、一号染色体的基因起始位置,它们分别属于什么数据类型。 数据集的类型主要有几类?每种类型又包含哪些具体的数据集子类型。 数据矩阵是一种特殊的记录数据类型。与记录数据类型相比,特殊在哪里? 目前有100多个代谢通路,如葡萄糖代谢、嘌呤代谢等,那么葡萄糖代谢属于带有对象之间联系的数据还是具有图形对象的数据? 如下是酵母细胞在多个时间点上的全基因组表达情况。该数据集属于哪种具体的数据集类型?这种数据有什么特点。 噪声和离群点的区别? 产生遗漏值的原因有哪些?怎样处理遗漏值? 数据预处理主要有什么方法? 聚集的主要目的有:数据归约、使数据性质更加稳定、________。 (判断对错!)OMIM数据库中每个疾病已知的疾病基因很少,因此难以利用他们来识别相应的通路。为此我们可以利用特征选择的方法把疾病亚类汇集起来,如肝移植、肾移植、…等疾病,称为器官移植疾病。然后得到较多的基因,再进行识别通路。 统计学使用抽样是因为________(获得、处理)感兴趣的整个数据集的费用太高、太费时间。数据挖掘使用抽样是因为_______(获得、处理)所有的数据的费用太高、太费时间。 已知人类基
您可能关注的文档
- 哈尔滨工业大学《思想政治》黄磊-自然辩证法选修日历.doc
- 哈尔滨工业大学《思想政治》黄磊-中国特色社会主义经济建设专题下2015.ppt
- 哈尔滨工业大学《思想政治》黄磊-中国特色社会主义经济建设专题上2016.ppt
- 哈尔滨工业大学《系统建模与仿真》8分布式仿真.ppt
- 哈尔滨工业大学《系统建模与仿真》第2章 系统建模方法.doc
- 哈尔滨工业大学《系统建模与仿真》第3章 连续系统仿真方法.doc
- 哈尔滨工业大学《系统建模与仿真》第5章 混合系统建模与仿真.doc
- 哈尔滨工业大学《系统建模与仿真》第6章 仿真计算机-仿真软件-接口装置.doc
- 哈尔滨工业大学《系统建模与仿真》第9章 VR技术简介.doc
- 哈尔滨工业大学《系统建模与仿真》第10章 VV&A.doc
最近下载
- 2025至2030年中国苎麻数据监测研究报告.docx
- 桶混助剂KAO ADJUVANT A-134对草甘膦的增效作用及增效机理研究.pdf VIP
- 全国IP地址IP地址各省IPIP实用.doc
- 计量经济学题库及答案.pdf VIP
- 全媒体运营师职业技能竞赛题库及答案(751-800多选题).docx VIP
- 专题06 仿写与句式变换-2022-2023学年三年级语文上册寒假专项提升(部编).docx VIP
- 国家能源集团宁夏煤业公司招聘笔试题库2024.pdf
- 浅析明清瓷器上的“净土莲花”图 .pdf VIP
- 《精神焦虑症的自救》.pdf
- Dell戴尔Precision 3680 Tower Owner's Manual说明书用户手册.pdf VIP
有哪些信誉好的足球投注网站
文档评论(0)