统计学习方法在医学数据分析中的应用文献综述

 2023-08-17 16:37:10

文献综述(或调研报告):

当前医学统计发展迅速,一方面出现了很多运用机器学习算法或其他统计方法对医学数据的研究,如[4]中使用logistic回归调查食用加工食品与食道癌风险之间的关系;另一方面针对败血症以及更严重的败血性休克已有一定的统计研究,如[1]中建立针对败血性休克的ML分类器等。这些论文着重呈现医学结果,对于运用的医学指标进行了多样化的研究,其中涉及的机器学习算法仍需进一步的进行对比和优化。

[1]介绍了ML算法在筛选急诊室败血性休克患者时的应用。败血性休克是一种威胁生命的器官功能障碍,急诊科在败血性休克的早期护理中起着至关重要的作用,临床常使用qSOFA 或MEWS评分筛选急诊中的败血性休克,论文尝试了多种机器学习算法进行筛选,通过AUROC等数据反映筛选准确性,对比得出机器学习算法优于医学上通用的评分qSOFA 以及MEWS,从而提供了筛查急诊科(ED)分类中的败血性休克的准确度更高的方法以及研究思路。

对于疾病判断的算法,预测变量的预处理至关重要,本文分类处理如下:低基数分类变量一键编码;高基数分类变量(主诉CC)进行奇异值分解嵌入向量并投影到二维散点图以进行可视化;连续变量通过 Yeo Johnson 方法进行变换;缺失值通过包含适当的指标变量的均值或模式进行估算。同时,论文设置了四种不同的预测变量可用性方案,以处理病人数据获取程度不同的情况。

将数据分为训练集和测试集,使用六种基本ML算法进行分类(包括支持向量机SVM,梯度提升机GBM,随机森林RF,多元自适应回归样条MARS,最小绝对收缩选择算子Lasso及岭回归),进行评估。此外,使用SVM,GBM,RF,MARS和Lasso作为基学习器构造了两个集成分类器,分别采用简单求平均和MARS利用基学习器的交叉验证预测。

对结果进行统计分析后,论文通过敏感性分析,合理扩大了假设条件,重新进行模型训练和评估,产生了同样结果,即得到准确度更高的统计学筛选方法。

[2]介绍了通过机器学习算法将单个血液样本中的多个生物标志物与电子病历数据(EMC)相结合,以鉴定败血症早期至高峰期的患者。针对败血症病例,当前技术仅依赖于使用标准临床数据或新型生物标志物测量,而该研究应用机器学习技术来评估将单个血液样本中的多个生物标志物测量结果与电子病历数据(EMR)相结合的预测能力,从而可以识别大型社区医院败血症的早期至高峰期的患者设置。结合生物标记和EMR数据,并通过接收器工作特性(ROC)曲线(AUC)下面积反应结果。该研究表面添加生物标志物为败血症病人更及时地识别和干预提供了工具。

在样本数据处理方面,论文首先使用每个生物标志物作为独立的早期到高峰期败血症诊断标记来计算AUC,并报告了个别EMR数据中确定的AUC,以表征单个因素的预测能力。将早期到峰值病人情况与未患败血症或痊愈的病人情况对比,证明生物标志物确实提高了预测能力,又使用EMR数据和生物标志物的自己作为特征,分析哪些子集最能区分两种病人类别。训练了三种不同特征预测模型下的ML分类器,对于每一组特征均重复整个过程1000次以产生不同的交叉验证折叠。本文机器学习算法仅作为工具证明将生物标志物结合EMC数据能够提高预测性能,而未测试不同算法的优劣性。

[3] 由于败血症与非传染性SIRS症状相似,论文根据常规可用参数(基线特征,临床/实验室参数,技术/医疗支持)希望开发一种用于区分重症儿童败血症和非传染性SIRS的诊断模型。采用随机森林方法从各种变量中确定最佳的预测变量集,通过时间分割样本方法验证了诊断模型。论文提出了准确性优于先前生物标志物的模型,但使用的数据集较小,仍需证明在人群和治疗实践中的普遍性。

[4]论文旨在调查食用加工食品与食道癌风险之间的关系。文章是基于人群进行病例对照研究,主要研究饮食因素,生活方式和社会人口统计学因素同患食道癌的关系。数据分析方面,全文采用SAS分析,通过检验分析分类变量,以测量患者与对照之间的差异;使用Cochran- Armitage趋势检验分析了两个以上级别的有序变量。使用多元条件对数回归模型估算比值比和 95%置信区间(CI),并调整潜在的混杂因素。所有分析的显着性水平为0.05(双向检验)。文章最终证明食用煮沸的蔬菜腌制品与癌症相关性显著,而食用新鲜蔬菜腌制品和咸肉与癌症相关性不显著。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版