《基于基因表达数据的胰腺癌预后研究现状综述》3900字.docxVIP

《基于基因表达数据的胰腺癌预后研究现状综述》3900字.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于基因表达数据的胰腺癌预后研究现状综述

目录

TOC\o"1-2"\h\u27906基于基因表达数据的胰腺癌预后研究现状综述 1

15809摘要 1

157451各种机器学习方法在基因数据上的表达 1

312932基于临床数据的癌症生存期研究 2

67233基于基因数据的癌症生存期研究 2

227714基于基因数据和临床数据的癌症生存期研究 2

7243参考文献 3

摘要

近50年来,乳腺癌的发病率在全球范围内呈上升趋势,且呈低龄化发展趋势。乳腺癌已经成为全世界女性最常见的癌症[1]。随着下一代高通量测序技术的快速发展和测序成本的降低,研究人员能够获得越来越多的全基因组基因表达值、miRNA值和拷贝值,为乳腺癌的研究和诊断提供更全面、准确的数据。基因表达数据分析一直是生物信息学研究的热点。现在,基因表达数据的生物信息学研究不仅仅是从基因表达数据中寻找差异表达的基因。而是从大量的肿瘤信息中寻找更有意义的遗传信息,结合统计建模的思想构建具有风险等级评估和预后评估作用的模型。系统生物信息学方法通过对生物样品遗传信息的高通量检测和统计分析,综合利用生物信息学数据库,对特定条件下复杂生物过程中基因表达的调控网络进行描述和分析。

关键词:基因表达;乳腺癌;预后

1各种机器学习方法在基因数据上的表达

近年来各种机器学习方法也已经被成功应用于基因表达数据的分析上,其中聚类分析是普遍使用的方法之一,通过对基因表达数据进行聚类分析,将表达模式一致的基因聚为一类,通过筛选寻找相关基因,分析基因的功能,利用聚类分析的结果来研究基因的转录调控信息。聚类旨在发现在所有实验条件或样本下表达水平变化相似的基因组。如果两个不同的基因在整个实验条件中表现出相似的表达趋势,则表明存在一种共同的调控模式,也可能反映了它们功能之间的某种相互作用或关系。尽管聚类分析很有用,但它的一个严重缺点就是它考虑了整个条件集。实际上,基因不一定与每个条件相关。因为基因表达数据描述的是特定细胞或组织在特定状态下的基因表达信息,对基因表达数据的聚类找出在部分特定的实验条件下表达一致的基因簇会更有生物学意义[2,3]。因此,聚类应该在基因维和条件维上同时进行。聚类分析的另一个局限是每个基因必须精确的聚成一个簇,生成的簇之间没有重叠。根据基因在不同生物学过程中的影响,许多基因可能同时属于几个簇。聚类方法的这些缺点双聚类方法能够有效地解决[4]。双聚类方法可以识别在特定条件子集下具有相似表达模式的基因组,它通过在基因维和条件维同时聚类,可以动态地使用基因和条件间的相互关系,通过迭代聚类过程改善聚类结果的准确性[5,6]。

最早的双聚类方法是Hartigan提出的直接聚类(DirectClustering),也称为分块聚类(BlockClustering,该算法基于分治的思想,首先依据表达数据的行和列的均值,将表达矩阵划分为方差尽可能小的子矩阵,随后在各个子矩阵中寻找双聚类[7]。Cheng和Church于2000年首次在基因表达数据分析中使用了双聚类方法,简称CC算法,Cheng和Church将双聚类定义为具有高相似性得分的行子集和列子集,引入了均方残差(MeanSquaredResidue)用于衡量双聚类中行和列的一致性,该算法通过贪婪有哪些信誉好的足球投注网站对表达矩阵逐步添加或删除行或列,使得到的子矩阵的均方残差显著减小,直到小于设定的阈值[8]。

Yang等人在CC算法的基础上提出了FLOC(FlexibleOverlappedBiclustering)算法,该方法添加了概率移动策略来对双聚类进行有哪些信誉好的足球投注网站,从而能够准确的找到表达矩阵中的双聚类[9]。Kluge:等人通过假设表达矩阵在归一化后包含棋盘结构,使用光谱方法进行聚类。Kluger利用特征向量和线性代数中的奇异值分解(SVD)找到这些独立的棋盘结构的双聚类[10]。Bergmann等人提出了ISA(IterativeSignatureAlgorithm)算法,在该算法中将双聚类定义为模块,一个模块由一组共表达的基因组和条件组构成,模块的大小取决于两个阈值,这两个阈值分别决定了模块中基因和条件的相似性。然后随机选择几个基因和条件对所有基因和条件进行打分,最后根据设定的阈值来筛选基因和条件,直到选择的基因和条件不再改变就将其构成一个双聚类[11]。

此外,还有基于单向聚类的双聚类方法。Wang等人提出了新型聚类模型Pcluster,该方法首先对行进行两两比对,求出表达数据中所有两行组合在列方向上最大维的聚类。再对列两两比对,求出数据中所有两列组合在行方向上最大维的聚类。最后对这些聚类进行剪枝处理,产生满足条件的双聚类[12]。Tang0和Zhang开发了相关双聚类的算法(I

文档评论(0)

02127123006 + 关注
实名认证
文档贡献者

关注有哪些信誉好的足球投注网站

1亿VIP精品文档

相关文档