- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不相交主成分分析(PCA)和遗传算法(GA)用于差异表达基因的识别
V01.28 高等学校化学学报 No.9
CHINESEUNIVERSITIES 1640一1644
2007年9月 CHEMICALJOURNALOF
不相交主成分分析(PCA)和遗传算法(GA)
用于差异表达基因的识别
苏振强”,HONGHui.Xia02,TONGWei.Da3,PERKINS
Roger2,邵学广4,蔡文生1’4
atFDA’s
ofBioinformafies,Z-Tech
(1.中国科学技术大学化学系,合肥230026;2.Division
for
NmionalCenterTo】cicolo甜calResearch,Jefferson,AR72079,USA;
for Ceaterfor
3.CenterToxieoinfonnatles,NationalToxicologicalResearch(NCTR),
USFoodand
DrllgAdministration(FDA),Jefferson,AR72079,USA;
4.南开大学化学系,天津300071)
PCA)和遗传算法(GA)的特征变量选择方法,并用于从
摘要建立了一种基于不相交主成分分析(Disjoint
基因表达谱(Gene
expressionprtxfiles)数据中识别差异表达的基因.在该方法中,用不相交主成分分析评估基
因组在区分两类不同样品时的区分能力;用GA寻找区分能力最强的基因组;所识别基因的偶然相关性用统
计方法评估.由于该方法考虑了基因间的协同作用更接近于基因的生物过程,从而使所识别的基因具有更
好的差异表达能力.将该方法应用于肝细胞癌(HCC)样品的基因芯片数据分析,结果表明,所识别的基因具
有较强的区分能力,优于常用的基因芯片显著性分析(Significance卸出sisofmieromaays,SAM)方法.
关键词基因芯片;主成分分析(PCA);遗传算法(cA);基因芯片显著性分析(SAM);偶然相关
中图分类号0652 文献标识码A 文章编号0251-0790C2007)09—1640-05
作为一种高通量筛选工具,基因芯片(Mieroarray)技术的发展为研究基因表达的方法带来了一场
行杂交,可以纵观细胞整体基因表达的情况.传统的基因表达方法只能逐一研究单个基因的表达,不
能同时监测多个基因的表达情况,基因芯片技术则可以同时监测成千上万个基因表达水平的变化,这
种同时监测数万个基因的不同表达水平构成了与某一生理或病理现象相关的基因表达谱(Geneexpres—
sion
profiles).
随着基因芯片技术的深入研究和广泛应用,分析基因芯片数据向人们提出了新的挑战.基因芯片
数据分析的基本任务之一是从数万个基因中寻找与疾病相关的差异表达基因,这些基因将成为诊断或
愈后相关疾病的基因标签(Ge.esignature)胆’.由于基因芯片数据通常只有相对较少的样本(与上万个
基因数相比)和相对较小的信噪比,使得差异表达基因的识别非常困难.
倍数分析法(FC)是最早用于基因芯片数据分析的方法”1,也是最早用于识别差异表达基因的方
法.FC通过设定基因表达变化倍数的阈值(Cut.off)来识别差异表达的基因,但在实际应用中如何选择
合适的阂值却没有标准可供参考.由于基因表达的变化程度以及实验中显著表达的基因数都依赖于所
研究的生物系统本身以及所采用的实验条件等诸多因素,只简单地设定Fc的阈值不足以确定基因的
表达是否存
文档评论(0)