分享好友 最新动态首页 最新动态分类 切换频道
预测模型自变量太多怎么筛选?这篇Lancet子刊如何从249个变量筛出11个
2024-12-27 16:33
基于传统危险因素的风险预测模型虽然也能够有效的区分未来低风险和高风险的个体,但由于缺乏特异性和对复杂风险因素的不完整描述,临床适用性受到限制。
因此越来越多的学者引入蛋白质组学、循环代谢物等分子层面信息作为预测因子提高模型的准确度,但一般来说,蛋白质、循环代谢物等种类繁多。要纳入构建预测模型,自变量筛选成了一大难题。
今天老郑看到一篇Lancet子刊的文章,也是第一次看到这种筛选自变量的方法,从249种代谢物中筛选了11种纳入预测模型,老郑带大家一起看看!

2024年12月6日,顶刊Lancet子刊《eClinicalMedicine》(医学一区top,IF=9.6)发表了一篇题为:“Novel type 2 diabetes prediction score based on traditional risk factors and circulating metabolites: model derivation and validation in two large cohort studies”的研究论文,旨在评估在临床使用的剑桥糖尿病风险评分(CDRS)基础上添加代谢组学生物标志物对评估2型糖尿病10年风险的增量预测价值。

预测模型自变量太多怎么筛选?这篇Lancet子刊如何从249个变量筛出11个

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料)

在这项研究中,研究者用了两个大型队列研究推导和验证预测模型。

  • 模型推导和内部验证:纳入了86,232名英国生物银行(UKB)参与者(在2006年3月13日至2010年10月1日期间招募),将队列拆分为训练集(70%)和测试集(30%)。
  • 外部验证:纳入了4383名来自德国ESTHER队列的参与者(在2000年7月1日至2002年6月30日期间招募)。

研究人员对参与者进行了10年的随访,以评估2型糖尿病的发病率。

√CDRS是一种预测工具,用于评估个人未来发展为2型糖尿病的风险。

这个评分系统包括年龄、性别、身体质量指数(BMI)、糖尿病家族史、吸烟状况、抗高血压药物和类固醇的处方。如果可以采集血液样本,建议使用临床CDRS,其中还包括HbA1c。

√代谢组学分析

Nightingale Health的高通量NMR代谢组学平台用于测量随机选择的UKB参与者基线血浆样本中的250种代谢物,以及ESTHER队列中具有足够血液样本质量的所有基线血清样本。

因为在两个队列的大多数参与者中甘油无法测量,甘油被排除在外,留下249个代谢物用于分析。

本文的自变量筛选很有意思,为了进行变量选择,研究者采用了LASSO方法,使用Cox比例风险模型和r包“glmnet”(版本4.1-7)。将临床CDRS和所有代谢物浓度作为自变量,2型糖尿病发生率作为因变量。

在训练集内,研究者进行了1000个重抽样样本的bootstrap过程,以增强变量选择过程的稳定性和泛化性。

  • 对于每个bootstrap样本,我们进行10次交叉验证,以识别正则化参数λ的最佳值,使交叉验证误差最小化。
  • LASSO Cox比例风险模型在每个重抽样的样本中使用最优λ进行拟合,这使一些系数接近于零,而其他系数完全接近于零。
  • 我们记录了在每个bootstrap样本的最终Cox比例风险模型中具有非零系数的代谢物,这些代谢物被选择。
  • 完成所有的1000个bootstrap样本后,我们计算这1000个bootstrap样本中每个代谢物的选择频率,作为它被选择的次数的百分比。

随后根据代谢物的选择频率进行排序,范围从0%到100%。

在1000个bootstrap样本中,LASSO选择的代谢物至少有95%(这个阈值之前已经给出)是被选择的,可以增强模型的泛化能力并最小化模型过拟合。将筛选出的代谢物纳入临床CDRS构建新的预测模型。

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料)

最终,通过LASSO分析和bootstrapping法,研究者选择了11种代谢物来增强训练集中临床CDRS对2型糖尿病风险的预测能力。

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料)

全套过程,我想大家看得眼花缭乱,但确实做到了“增强变量选择过程的稳定性和泛化”的目的。

基于lasso的方法筛选自变量是常规套路,但lasso的方法存在不确定性,或者存在着过拟合的可能性。

一般来说我们干完lasso就结束了。它不!这篇论文在lasso基础上用了一些其他方法。

一个是实现泛化性,用的是十折交叉方法,那就可以减少过拟合的方法,哪个场景下模型验证效果最好的,意味着泛化能力最强,这个时候的lasso模型是最好的。

第二个是实现稳定性,lasso结果不稳定怎么办?那就来1000次,1000个lasso方法95%都存在着的自变量。

高明!这套组合拳,老郑我看得觉得有意思。

他们家的变量实在是太多了。太富裕了,随便你折腾,最终都有足够的自变量纳入模型。

下次你们也试试。

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料)

最新文章
玩家必备攻略“滴滴抢单神器2020”详细分享装挂步骤
滴滴抢单神器2020是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。抢单可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义抢单系统规律,只需要输入自己想要的开
管家婆必出一中一特,全面释义、解释与落实
在现代社会中,随着科技的发展和人们生活水平的提高,各种新兴职业也应运而生。“管家婆”作为一种专业的家庭服务职业,越来越受到人们的关注和青睐,而“必出一中一特”则是管家婆在服务过程中必须遵循的原则之一,本文将全面释义、解释这
WordPress插件,打造高效网站地图,提升SEO优化效果,WordPress插件助你打造高效网站地图,显著提升SEO优化成效,WordPress插件,高效网站地图 *** ,助力SEO优化效果显著
此WordPress插件专为高效构建网站地图而设计,它能显著增强SEO优化效果,通过简化地图的生成流程,确保网站内容得到全面索引,助力网站在搜索引擎中独树一帜,脱颖而出。随着互联网的迅猛发展,网站地图(Sitemap)已成为SEO优化领域的关键
如何成为一名 AI 产品经理?AI 平台产品经理、AI Native 产品经理和 AI + 产品经理
===在当今科技飞速发展的时代,AI (人工智能)产品经理已经成为了备受科技领域瞩目的职业角色。随着 AI (人工智能)技术的广泛应用,如何成为一名优秀的 AI (人工智能)产
铜陵市口腔检查排名全新榜单一览-铜陵市口腔检查口腔医生
近期有网友问宣城哪家牙医比较好?为了解答大家的疑问,小编这里来为大家分享几家宣城有好牙医的口腔医院,近期有看牙需求的朋友们可以来做个参考~铜陵市口腔检查口腔医生那个好?2024年铜陵市口腔检查口腔医生排名职称:医师擅长项目:口
谷歌优化怎么做?
一个网站的良好排名,当然离不开网站的优化,特别是在谷歌拥有这么大流量的平台上,优化方面就更不能马虎了,但对于新手来说,在谷歌优化方面还是有些技巧不太了解,那么,今天我们就来重点说说谷歌优化怎么做的这个问题。一、内容的质量高
用AI做衣服,难道服装设计师也要下岗了?
  引言:  随着人工智能(AI)技术的迅猛发展,新媒体内容、原画师,设计师都受到一定的冲击,一些服装设计师开始对其在时尚领域的角色产生焦虑,担心AI是否会取代他们的工作。潮际主设作为领先的AI技术提供商,强调的是AI与人类创意的
苹果AI负责人称公司对开发通用人工智能不感兴趣,短期内难实现
12 月 10 日消息,通用(AGI)是许多公司经常讨论的话题,但似乎与大多数公司有着截然不同的观点。公司机器学习和战略高级副总裁约翰・詹南德雷亚(John Giannandrea)在接受 WIRED 采访时表示,对通用人工智能(AGI)并不感兴趣,这一目标
福建uc神马搜索代投推广怎么联系
在互联网时代,广告投放已经成为企业宣传和市场推广的重要渠道之一。尤其是在福建地区,随着电子商务的快速发展,许多企业开始关注如何通过网络广告来提高品牌zhiming度和销售业绩。其中,uc神马搜索代投推广成为了一种备受欢迎的选择。那
咖啡师SCA证书含金量解析,sca咖啡师考证
摘要:本文主要探讨了咖啡师SCA证书的含金量,分析了SCA证书的重要性和认可度,以及考取SCA证书的实际意义。文章指出,SCA证书是咖啡行业内广泛认可的证书之一,拥有该证书意味着咖啡师具备了专业的知识和技能,能够提高职业竞争力。文章还
相关文章
推荐文章
发表评论
0评