Integrative LogitBoost 算法及其在癌症特征基因选择中的应用.pdfVIP

Integrative LogitBoost 算法及其在癌症特征基因选择中的应用.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀硕士毕业论文,本科毕业设计。完美PDF格式,支付编辑复制!!!

中文摘要 基因研究的进步和成熟使得人们可以利用基因微阵列技术在染色体组的尺 度上描述人体组织。这一项技术被广泛地应用在癌症的研究上,其中一个挑战 性课题是癌症的特征基因选取和肿瘤样本分类问题。由于基因实验的昂贵性, 微阵列数据通常呈现出高维度、低样本量的特征,构成了统计分析上的大 N 小 p 现象。为缓解大 N 小p 带来的低统计效力问题,可以从两个角度切入:一是提 取有效的特征基因;二是增大样本量。常用的特征基因提取方法有过滤式算法、 封装式算法和嵌入式算法。嵌入式算法将变量选择嵌入到分类器的构造过程中, 因此具有分类模型和变量选择方法的互动的优势,在三种方法中效率最高的。 另一方面,可以通过综合分析多个数据库中的信息,间接增大样本量。Ma 和 Huang ,2009 提出了 MTGDR 算法,该算法通过将不同数据库中同一基因的边 际影响相加的方法利用多个数据库中的信息。借鉴 MTGDR 算法的思路,本文 设计了 Integrative LogitBoost 算法(ILB),该算法是 LogitBoost 算法在多个数据 库分析中的推广。另外,由于嵌入式方法中的带惩罚项的方法在近来的研究中 尤为瞩目,能选择出更加稀疏的系数。本文结合 Sparse L2Boosting 算法的设计 思想,对 ILB 算法的目标函数添加了 gMDL 信息量作为 l0 惩罚项,设计了基于 多数据库分析的 Integrative Sparse LogitBoost 算法(ISLB )。ILB 算法和 ISLB 算 法以逐元最小二乘回归为基函数,同时为了避免交叉验证带来的复杂计算量, ILB 算法和 ISLB 算法都使用 gMDL 准则为停止准则。 文章通过模拟数据检验 ILB 算法和 ISLB 算法的效果。研究表明 MTGDR 算法受样本量影响最小,最为稳健,而且 MTGDR 算法尤其适用于基因表达水 平比较低的场合。当基因表达水平显著时,ISLB 算法亦对样本量的影响很稳健, 并在样本量充分的场合下优于 MTGDR 算法。但是当基因表达水平比较低时, ISLB 算法的效果不理想。ILB 算法选择出来的正确基因数量水平略低于 MTGDR 算法,但是选择出来假阳性基因数量太多,即误选率高。通过改进 gMDL 准则,增大模型选择成本的权重,ILB 算法的效果有明显改进。改进后的 ILB 算 法和 ISLB 算法同时应用于胰腺癌的数据,挖掘出了具有生物学意义的显著基 因。 关键词: 基因微阵列、特征选择、综合分析、逐元最小二乘、Boosting 、gMDL 准则、 MTGDR 、惩罚性方法、ILB 算法、ISLB 算法 Abstract The leap in microarray gene research makes available the measure technique in human issues. Microarray gene data is extensively used in cancer research, such as early detection, therapy establishment and prediction, of which feature gene expression selection and cancer classification are most challenging. Due to the prohibitively high cost of gene experiment, most microarray data in a single study is characterized by high dimension and low sample size, which constitute as

文档评论(0)

文献大师 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档