- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
南京医科大学统计
基于肺癌全基因组关联研究数据的疾病风险预测
南京医科大学 段巍巍、张秋伊、陈海
目录
摘要 1
一、材料与方法2
(一)研究对象2
(二)基因分型与质量控制2
(三)SNP 遗传度估计3
1. 遗传度3
2. 遗传方差与遗传度估计3
3. 遗传度与AUC 6
(四)研究策略与统计分析7
1. 风险预测评价指标7
2. 逐步加权遗传得分和混合效应模型7
3. 研究策略9
4. 软件使用9
二、研究结果 10
(一)遗传方差分析 10
(二)风险预测结果 10
三、讨论 14
(一)复杂疾病的风险预测研究 14
(二)肺癌的风险预测研究与方法评价 15
(三)遗传度估计 16
四、总结 16
参考文献 17
摘要
目的探讨基于肺癌全基因组关联研究数据的风险预测效果。对象和方法 本
研究数据来源于本校公共卫生学院分子流行病学实验室完成的中国汉族人群非
小细胞肺癌 GWAS 研究。将该数据按一定比例随机分成训练集和测试集;在训
练集中构建三个预测模型--仅包含传统因素 (模型1)、传统因素加sGRS 位点集
(模型2 )、传统因素加sGRS-LMM 位点集 (模型3 ),并考察参数的最优取值组
合(假设检验初筛水准和连锁不平衡修剪参数);最后在测试集中比较三个模型
下的预测准确度。结果 在指定初筛水准和修剪参数下,测试集中预测模型 1、2 、
3 的AUC 值分别为0.687 (95%可信区间:0.656~0.719 )、0.831 (95%可信区间:
0.807~0.854 )、0.847 (95%可信区间:0.824~0.869 ),模型2 、3 与模型1AUC 比
较的假设检验P 值分别为 1.5E-17 和 1.7E-21 。结论 相较于传统因素,常见变
异位点可以较大幅度地提高肺癌的预测准确度,sGRS 和 sGRS-LMM 两种方法
可以用于肺癌全基因组关联研究数据的疾病风险预测。
关键词 肺癌;风险预测;单核苷酸多态性;全基因组关联研究
1
传统流行病学研究已经发现了大量的疾病相关风险因素,而基于这些因素的
[1]
疾病风险预测也取得了一定的应用 。随着人类遗传学研究技术的发展,遗传因
素对疾病发生的影响引起了人们的足够重视。近年来,全基因组关联研究
(genome-wide association study ,GWAS )已经被认为是阐明复杂性状遗传关联
机制的强有力工具。截止2015 年02 月底,全球的研究者们累计发现了与1,251
种性状(疾病)相关的19,602 个单核苷酸多态性(Single Nucleotide Polymorphism,
[2]
SNP )位点 。充分利用这些已发现的位点并结合传统风险因素进行临床个体化
医疗实践、疾病预防等应用成为后 GWAS (post-GWAS )时代的主要目标之一,
而这最为关键的一步则在于建立一个准确的风险预测模型。早期的风险预测研究
[3-5]
表明,利用GWAS 获得的关联位点进行预测并不理想 ,其中的一个主要原因
在于这些研究忽略了大量存在、未被发掘的低效应位点,因此如何充分利用
GWAS 研究信息成为预测模型成败的关键。近来,主要有两类策略被提出,表现
[6, 7]
出较好的预测效果:一类是通过设定宽松的假设检验水准 ,以便纳入一些潜
文档评论(0)