基于基因表达谱的肿瘤识别方法的研究.doc

下载文档 降价啦

5
0
约2.39万字
约 32页
2018-01-24 发布于贵州
举报
版权申诉
保障服务

基于基因表达谱的肿瘤识别方法的研究.doc

1、本文档共32页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于基因表达谱的肿瘤识别方法的研究

全国第七届研究生数学建模竞赛题目基于基因表达谱的肿瘤识别方法的研究摘要：本文基于基因表达谱讨论了肿瘤识别方法的问题。首先建立分类数学模型对样本分类识别：即在对原始数据进行处理的基础上，利用主成分分析的方法进行降维处理；并将提取的主成分数据输入支持向量机模型训练学习，从而实现对样本的有效分类。其中模型对样本正确分类识别率接近90%，并且对模型进行敏感性和稳定性检验测试。其次，通过Relief算法对基因进行排序和筛选，在此基础上运用留一交叉检验法确定了一组“基因标签”，并利用随机重复试验检验了“基因标签”的样本分类能力。在上述模型运算分析结果的基础上分析了影响肿瘤识别效果的噪声来源，对数据中存在的噪声样本和重复数据进行降噪，建立了噪声模型，进而得到了一组新的基因“标签”，从而使肿瘤识别精度提高到了92.65%；最后融入临床生物学信息，综合运用支持向量机等数学理论建立了肿瘤诊断识别的数学模型，肿瘤识别率提高到了99.8%。关键词：基因表达谱肿瘤支持向量机主成分分析 Relief算法参赛队号队员姓名杨振华刘爱兰邢秉昆中山大学承办一、问题重述癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变，即基因在结构上碱基对组成或排列顺序改变由于基因表示存在着很强的相关性，所以对于某种特定的肿瘤，似乎有大量的基因都与该肿瘤类型识别相关，但一般认为与一种肿瘤直接相关的突变基因数目很少选择最好的？相对于基因数目，样本往往很小，如果直接用于分类会造成小样本的学习问题，如何减少用于分类识别的基因特征是分类问题的核心，事实上只有当这种特征，分类的效果才好。从分类的角度确定基因“标签”？1999 年Golub在《Science》发表的文章），有的噪声强度甚至较大，对含有噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型，分析给定数据中的噪声能否对确定基因标签产生有利的影响？ 4、在肿瘤研究领域通常会已知若干个信息基因与某种癌症关系密切，融入诊断肿瘤信息确定基因“标签”的临床生理学信从分类的角度确定基因“标签” 三、模型假设及符号说明 3.1模型假设 1、假设统计数据真实可靠，没有实验室误差。 2、假设样本具有普遍性，此样本对分类效果没有特别影响。 3、假设与一种肿瘤相关的突变基因数目很少。 3.2符号说明 ----分类特征基因集合 ----算法筛选出的基因数 ----Relief算法中的阈值四、模型的建立与解答由样本数据可知，有些基因的标号相同（即属于同一种基因），故取这些基因表达水平的均值，合并为一种基因。问题一：寻找与肿瘤相关的突变基因的分类因素由于基因表示之间存在着很强的相关性，且相对于较少的样本数而言，过多的基因数既无益于样本类型的判定，也会对以后统计方法的使用产生不良影响。因此，在分析样本之前需要对基因进行筛选。本文引入修正后的信噪比公式作为筛选依据来衡量基因表达差异的显著程度；然后利用主成分分析将相关性显著的基因组合成具有某种特征的基因组合来降低维数，进而利用支持向量机进行训练学习来寻找识别肿瘤的最好的分类因素。 4.1.1算法流程图我们基于各种方法寻找与肿瘤相关的突变基因的分类因素的算法过程如图1所示：图1：算法流程图 4.1.2基因筛选 1、修正后的信噪比公式[1] ，式中，和，分别是第个基因在正常人和癌症患者两类样本中的均值和均方差。其中，公式的第一部分来源于Golub等人提出的“信噪比”指标，后一部分体现了表达水平分布方差的不同对样本分类的贡献。 2、筛选结果利用修正后的信噪比公式将每个基因赋以相应的权重，根据实验设定相应的阈值，之后从中初步筛选出可能与肿瘤相关的基因。由于目前仍没有关于使用多少基因来构造分类器这一问题的最优答案，故我们根据修正后的信噪比计算公式分别筛选出M为25个、50个、100个、200个基因来构造分类器。 4.1.3降维处理 1、主成分分析的基本思想主成分分析（PCA）的目的是为了降维，即设法将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标体现原有变量的综合效果，其中是径向基核函数的参数，下文用来表示。关于SVM参数的优化选取，目前常用的方法就是让惩罚参数和核参数在一定的范围内取值，对于取定的和把训练集作为原始数据集利用K—fold Cross Validation (K—CV)方法得到在此组和下训练集验证分类准确率，最终取使得训练集验证分类准确率最高的那组和作为最佳的参数，当有多组和对应于最高验证分类准确率时，这里采用的手段是选取能够达到最高验证分类准确率中参数最小的那组和作为最佳参数。这