- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于基因表达谱的肿瘤识别方法的研究
全国第七届研究生数学建模竞赛
题 目 基于基因表达谱的肿瘤识别方法的研究
摘 要:
本文基于基因表达谱讨论了肿瘤识别方法的问题。首先建立分类数学模型对样本分类识别:即在对原始数据进行处理的基础上,利用主成分分析的方法进行降维处理;并将提取的主成分数据输入支持向量机模型训练学习,从而实现对样本的有效分类。其中模型对样本正确分类识别率接近90%,并且对模型进行敏感性和稳定性检验测试。其次,通过Relief算法对基因进行排序和筛选,在此基础上运用留一交叉检验法确定了一组“基因标签”,并利用随机重复试验检验了“基因标签”的样本分类能力。在上述模型运算分析结果的基础上分析了影响肿瘤识别效果的噪声来源,对数据中存在的噪声样本和重复数据进行降噪,建立了噪声模型,进而得到了一组新的基因“标签”,从而使肿瘤识别精度提高到了92.65%;最后融入临床生物学信息,综合运用支持向量机等数学理论建立了肿瘤诊断识别的数学模型,肿瘤识别率提高到了99.8%。
关键词:基因表达谱 肿瘤 支持向量机 主成分分析 Relief算法
参赛队号
队员姓名 杨振华 刘爱兰 邢秉昆
中山大学承办
一、问题重述
癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变,即基因在结构上碱基对组成或排列顺序改变由于基因表示存在着很强的相关性,所以对于某种特定的肿瘤,似乎有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少选择最好的?相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征,分类的效果才好。从分类的角度确定基因“标签”?1999 年Golub在《Science》发表的文章),有的噪声强度甚至较大,对含有噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型,分析给定数据中的噪声能否对确定基因标签产生有利的影响?
4、在肿瘤研究领域通常会已知若干个信息基因与某种癌症关系密切,融入诊断肿瘤信息确定基因“标签”的临床生理学信从分类的角度确定基因“标签”
三、模型假设及符号说明
3.1模型假设
1、假设统计数据真实可靠,没有实验室误差。
2、假设样本具有普遍性,此样本对分类效果没有特别影响。
3、假设与一种肿瘤相关的突变基因数目很少。
3.2符号说明
----分类特征基因集合
----算法筛选出的基因数
----Relief算法中的阈值
四、模型的建立与解答
由样本数据可知,有些基因的标号相同(即属于同一种基因),故取这些基因表达水平的均值,合并为一种基因。
问题一:寻找与肿瘤相关的突变基因的分类因素
由于基因表示之间存在着很强的相关性,且相对于较少的样本数而言,过多的基因数既无益于样本类型的判定,也会对以后统计方法的使用产生不良影响。因此,在分析样本之前需要对基因进行筛选。本文引入修正后的信噪比公式作为筛选依据来衡量基因表达差异的显著程度;然后利用主成分分析将相关性显著的基因组合成具有某种特征的基因组合来降低维数,进而利用支持向量机进行训练学习来寻找识别肿瘤的最好的分类因素。
4.1.1算法流程图
我们基于各种方法寻找与肿瘤相关的突变基因的分类因素的算法过程如图1所示:
图1:算法流程图
4.1.2基因筛选
1、修正后的信噪比公式[1]
,式中,和,分别是第个基因在正常人和癌症患者两类样本中的均值和均方差。其中,公式的第一部分来源于Golub等人提出的“信噪比”指标,后一部分体现了表达水平分布方差的不同对样本分类的贡献。
2、筛选结果
利用修正后的信噪比公式将每个基因赋以相应的权重,根据实验设定相应的阈值,之后从中初步筛选出可能与肿瘤相关的基因。
由于目前仍没有关于使用多少基因来构造分类器这一问题的最优答案,故我们根据修正后的信噪比计算公式分别筛选出M为25个、50个、100个、200个基因来构造分类器。
4.1.3降维处理
1、主成分分析的基本思想
主成分分析(PCA)的目的是为了降维,即设法将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标体现原有变量的综合效果,
其中是径向基核函数的参数,下文用来表示。
关于SVM参数的优化选取,目前常用的方法就是让惩罚参数和核参数在一定的范围内取值,对于取定的和把训练集作为原始数据集利用K—fold Cross Validation (K—CV)方法得到在此组和下训练集验证分类准确率,最终取使得训练集验证分类准确率最高的那组和作为最佳的参数,当有多组和对应于最高验证分类准确率时,这里采用的手段是选取能够达到最高验证分类准确率中参数最小的那组和作为最佳参数。这
您可能关注的文档
- 基于RFID的供应链管理信息系统研究.doc
- 基于RFID家校通智能考勤系统关键技术设计.doc
- 基于RX485的温度采集与显示(终稿).doc
- 基于S3C2440的串口传输及界面设计.doc
- 基于SAN的本地网综合计费系统方案.doc
- 基于Speech_SDK的语音信号识别.doc
- 基于SPSS软件的大连房地产市场现状分析.doc
- 基于sql的学生成绩管理系统-课程设计报告.doc
- 基于SSL电子商务网站安全登录系统设计与实现.doc
- 基于STC89C51的CC1100H无线收发系统.doc
- 25上半年2期套题班-行政职业能力测验(八).docx
- 公考讲义-2025年1月时政汇总.pdf
- 2025年省考逻辑填空1000 高频实词积累+刷题早读课 讲义.pdf
- 25上半年2期套题班-行政职业能力测验(九).docx
- 2025四川事业编FB综合岗考试-综合能力测试讲义-主观题基础,案例分析题,公文写作及文章写作题.pdf
- 25上半年2期套题班-行政职业能力测验(五).docx
- 2025申论多省联考刷题课真题资料-2025国考执法课程.doc
- 2025申论多省联考刷题课真题资料-2024江西执法课程.doc
- 25上半年2期套题班-行政职业能力测验(十).docx
- 2025申论多省联考刷题课真题资料-2024福建县乡课程.doc
最近下载
- 2025(苏教版)生物中考(学业水平考试)知识点汇总.pdf
- 【生 物】2024-2025学年人教版生物七年级下册教学计划及进度表.docx VIP
- 第3课 中古时期的西欧 课件中职世界历史高教版基础模块.pdf VIP
- 火电机组启动调试管理办法.doc
- 2025年版上海焊工(初级)考试题库[内部版]全考点含答案 .pdf VIP
- T IAC CAMRA 50-2024 《事故汽车常用零部件修复与更换判别规范》(2).pdf
- 影响健康因素多 课件 2024—2025学年人教版(2024)初中体育与健康七年级全一册.pptx VIP
- 西师大版数学四年级下册全册教学课件(2024年3月修订).pptx
- 道路工程考试试卷(带答案) .pdf VIP
- 童年歌词 一页直接打印版.doc
文档评论(0)