- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
文献解读图像识别预测病理分期研究思路--第1页
文献解读图像识别预测病理分期研究思路
基于CT图像特征分析的机器学习算法预测非小细胞肺癌病理分期
研究共纳入145例病理证实的IA-IV期NSCLC患者。患者队列由
三个数据集组成,包括NSCLC(n=87),LUAD(n=24)和LUSC
(n=34)。NSCLC样本平均分为训练集和测试集,而LUAD和
LUSC数据集用于外部验证。NSCLC,LUAD和LUSC队列患者的临床
病理特征如表1所示。纳入标准为新诊断或未经治疗的NSCLC和病理
证实的IA-IV期肺腺癌和鳞状细胞癌,以及治疗前的CT图像。排除标
准是接受手术或化学放射治疗并且包含不正确的分期信息的患者。
TRIPOD核对表附加为附加文件1:表S1。
表1训练和验证集中的患者和肿瘤特征
1.通过3D切片器软件进行病变识别和感兴趣区域分割
所有患者图像均以原始DICOM格式加载和处理。使用3D-Slicer
软件加载CT图像文件和RTSTRUCT文件用于映射病变的子区域。应
用段编辑器模块将主表示从平面轮廓更改为二进制标签贴图。3D图像
文件和二进制掩模标记文件由3D切片器保存为NRRD格式文件,用
于下一个特征提取步骤。
2.使用Pyradiomics从CT图像中提取特征
文献解读图像识别预测病理分期研究思路--第1页
文献解读图像识别预测病理分期研究思路--第2页
使用python包pyradiomics来执行特征提取任务。一些定量特
征如下:一阶特征,形状特征,灰度共生矩阵(GLCM)特征。除了
形状特征之外,还可以在原始图像或派生图像上测量其他特征。
3.数据预处理
首先应该确认NSCLC队列的原始类别分布是否平衡。如果不是,
则通过SMOTE算法进行过采样,以解决机器学习中数据集不平衡,并
通过生成新的数据集来实现类分布的均衡,然后将新生成的数据集分
成训练集和测试集。
4.预测建模和特征选择
考虑到可能影响预测模型分类精度的一些冗余和不相关的特征,
通过随机森林算法计算CT图像特征的重要性值,然后根据特征重要性
选择最佳特征(平均减少基尼杂质0.005)用于建模。在这里,使用
袋外(OOB)误差评估随机森林的分类准确度,该误差是随机森林推
广误差的无偏估计。使用python模块scikit-learn使用默认参数执行
上述所有建模过程。鉴于每个阶段的样本量有限,对早期(阶段I/II)
和后期(阶段III/IV)的二值化阶段进行了所有上述分析。
5.预测模型的分类准确性
为了评估训练和测试集中预测模型的性能,绘制接收器操作特征
(ROC)曲线以显示测试集和外部验证集中的分类性能。ROC曲线是
反映连续变量的假阳性率和真阳性率的综合指数。曲线下面积(AUC)
是模型性能的评估量度。
使用分类器的混淆矩阵作为其质量的度量,用准确度分数,正确
分类的样本数量与所有样本数量的比率,来检查预测结果和实际结果
之间是否存在一致性。最后,使用原始特征计算一个新模型,其精度
文档评论(0)