- 1、本文档共59页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 生物信息学常用概率统计方法幻灯片
第四章 生物信息学常用概率统计方法简介 统计生物信息学解决问题步骤 在掌握基本资料分布的基础上,提出检验假设 将数据资料进行合理的分类和整理,建立数据文件 借助于相关统计软件,根据研究者的实验设计和研究目的,对数据文件中的数据进行统计分析(可能需要建立统计模型) 对统计结果做出合理的解释 概率统计学基础 确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。 随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。 随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。 概率(probability):随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。 频率 frequency 样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f / n 频率与概率间的关系: 样本频率总是围绕概率上下波动 样本含量n越大,波动幅度越小,频率越接近概率 概率计算的基本法则 加法法则 乘法法则 互补原则 完全事件系的概率 小概率事件 必然事件 P= 1 不可能事件 P=0 随机事件 0P1 将P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生 随机变量及其分布 随机变量(random variable) 简称变量(variable),统计上习惯用大写拉丁字母表示 ,如X、Y 、Z、… 变量值习惯用小写拉丁字母表示 ,如性别x1=1(男)、x2 =1(男)、x3 =0(女) 、… 随机变量特征 是一个变量 取值随试验结果而改变 本例中,性别、体重、疗效分别为三个随机变量,分别用X, Y, Z表示 其中,性别变量有若干取值:x1=1, x2=1;体重变量也有若干取值: y1=66, y2=78; 随机变量的分类 离散型变量(discrete variable),相当于计数资料,变量的所有取值是有限个,如性别、年龄、血型等 连续性变量( continuous variable),相当于计量资料,变量的取值有无穷多个,如身高、体重、血压、体温等 有序变量( ordinal variable),相当于等级资料,如尿糖等级( +、++、+++、++++)、脉搏等级(速脉、正常、缓脉)等 随机变量概率分布(probability distribution) 事件概率表示了一次试验中某个结果发生可能性的大小 要想全面了解试验中某种变量的变化趋势,必须知道该变量在试验中全部可能的结果以及各种可能结果发生的概率—随机变量的概率分布 概率分布通常用表格、图形、函数来表示 根据随机变量的不同,可分为离散变量的概率分布与连续变量的概率分布 离散随机变量的概率分布 设离散型随机变量 的所有可能取值是 ,而取值 的概率为 称此式为X的分布律(列)或概率分布 (Probability distribution) 随机变量X的概率分布全面表达了X的所有可能取值以及取各个值的概率情况 几种常见的离散型分布 二项分布(Binomial distribution) 泊松分布(Poisson distribution) 若随机变量 X 的分布律为: 其中? 0, 则称X服从参数为?的泊松分布,记为X~P(?) 连续型随机变量的概率分布 连续型随机变量的取值为一个范围,当变量在该范围内取值时,概率是固定的,而当变量取某一个具体固定值则是无意义的,因为在连续尺度上,某一点的概率=0 对这种类型的随机变量不能象离散型的那样用分布律描述,而是用概率密度描述 连续型随机变量概率密度的定义及性质 定义:设X是一个随机变量,其分布函数为F(x).若存在非负函数 f(x) , 使对任意实数x,有 则称X为连续型随机变量,f(x)称为X的概率密度函数,简称概率密度 概率密度f(x)的性质 连续型随机变量X的值落入区间 [ a , b ]内的概率为 频数分布:用来统计每个变量值所处的区域,从而将资料进行收集整理 从频数表及频数分布图上可得知:该数值变量资料频数分布呈现中间频数多,左右两侧基本对称的分布。所以我们通俗地认为该资料服从正态分布。 频数分布直方图 正态分布: 通俗地讲: 如果把变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条直条的宽表示组距,直条的面积表示频数(或频率)大小,直条与直条之间不留空隙),若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间频数
文档评论(0)