基于54个生物标志物的多癌症风险识别模型的开发与验证:42666人的人群前瞻性研究——指导先进筛查策略-文献解析

1. 领域背景与文献引入

文献英文标题:Development and validation of an integrative 54 biomarker-based risk identification model for multi-cancer in 42,666 individuals: a population-based prospective study to guide advanced screening strategies;发表期刊:Biomarker Research;影响因子:未公开;研究领域:癌症早期检测、多癌症风险分层。

癌症是全球公共卫生挑战,中国每年新增癌症病例超450万,因早期诊断率低(仅约30%),5年生存率仅39.7%。早期筛查是提高生存率的关键,但现有策略存在三大局限:① 单癌症风险模型(如肺癌PLCOm2012模型)需多次独立检测,不适合广谱筛查;② 基于组学的多癌症模型(如ctDNA甲基化)成本高(单次检测超1000元),缺乏大规模验证;③ 多数模型未整合常规血液生物标志物(易获取、成本低,适合人群筛查)。因此,开发“整合常规数据、多癌症覆盖、可推广”的风险模型是当前未解决的核心问题。

针对这一痛点,本研究利用中国台州FuSion队列(42666人),整合54个血液生物标志物与26个流行病学因素,通过LASSO回归筛选关键特征,开发多癌症风险识别模型(PRIME),旨在解决现有模型“单癌症局限”“组学成本高”“缺乏临床验证”的问题,为人群靶向筛查提供实用工具。

2. 文献综述解析

作者将现有研究分为两类,通过“优缺点对比”引出本研究创新:

现有研究总结

  • 单癌症风险模型:依赖特定生物标志物(如肺癌用CYFRA-211)或流行病学因素(如吸烟史),对目标癌症预测性能较好(如肺癌AUROC约80%),但需多次检测,不适合广谱筛查。
  • 基于组学的多癌症模型:如ctDNA片段组学、甲基化模型,能检测5-10种癌症,但成本高、需专业设备,且缺乏大规模前瞻性验证(多数研究样本量<1000人),难以推广。

本研究创新价值

数据整合创新:首次在大规模中国人群(42666人)中整合常规血液生物标志物(54个)与流行病学因素,解决“组学成本高”的问题;
模型简洁性创新:通过LASSO回归筛选出7个变量(4个生物标志物+3个流行病学因素),平衡模型复杂度与解释性,临床医生可快速计算风险;
验证强度创新:同时进行内部验证(发现队列)、外部验证(独立队列)、前瞻性随访,解决现有模型“缺乏临床实用性”的问题。

3. 研究思路总结与详细解析

整体框架概括

本研究采用“队列建立→变量收集→数据预处理→模型开发→模型验证→临床应用”的闭环思路,目标是开发可用于人群筛查的多癌症风险模型。具体流程:从台州纵向研究纳入42666人,分为发现队列(16340人)验证队列(26308人),整合54个血液生物标志物与26个流行病学因素,通过LASSO Cox回归筛选关键变量,建立PRIME模型,最终通过前瞻性随访验证临床价值。

3.1 队列建立与变量收集

实验目的:构建研究人群并收集“生物标志物+流行病学”多尺度数据。
方法细节:研究人群来自台州纵向研究(TZL),纳入40-75岁参与者42666人,分为发现队列(2011-2014年招募,16340人)和验证队列(2018-2021年招募,26308人)。变量包括:① 26个流行病学因素(人口学:年龄、性别;生活方式:吸烟包年;体检:身高、体重);② 54个血液生物标志物(如甲胎蛋白(AFP)、癌胚抗原(CEA)、细胞角蛋白19片段(CYFRA-211)、乙肝表面抗原(HBsAg))。血液样本用EDTA抗凝,离心后血浆-80℃保存,2024年在上海第四人民医院用临床常规方法检测。
结果解读:排除不符合条件者(如基线有癌症史)后,最终纳入发现队列16138人、验证队列26058人。发现队列中位随访8.98年,诊断肺癌167例、食管癌132例、胃癌137例、肝癌74例、结直肠癌85例;验证队列中位随访2.01年,诊断癌症163例。
产品关联:文献未提及具体实验产品,领域常规使用的血液生物标志物检测试剂包括罗氏cobas系列(检测AFP、CEA)、雅培Architect系列(检测CYFRA-211)、贝克曼库尔特Access系列(检测HBsAg)等。

3.2 数据预处理

实验目的:处理缺失值、标准化数据,确保模型稳定性。
方法细节:① 变量筛选:排除缺失率>20%的变量(如3个口腔健康变量);对相关系数>0.8的变量对(如总胆红素与直接胆红素),保留缺失率低的变量。② 缺失值填充:分类变量用最频繁值填充,连续变量用K最近邻(KNN)算法(k=50)填充。③ 异常值处理:移除变量0.1%和99.9%分位数外的异常值(如CYFRA-211>100ng/mL)。④ 标准化:连续变量用Z-score转换(均值0,标准差1)。
结果解读:预处理后得到20个流行病学变量和49个生物标志物,缺失率降至<5%,数据分布更均匀,适合模型拟合。

3.3 模型开发:LASSO Cox回归筛选特征

实验目的:从70个变量(20+49)中筛选关键特征,建立简洁有效的多癌症风险模型。
方法细节:① 模型选择:比较Cox回归、LASSO回归、偏最小二乘(PLS)、随机森林(RF)、支持向量机(SVM)五种方法,通过AIC值(衡量模型拟合度与复杂度的平衡)选择最优模型——LASSO Cox回归(AIC最低,1234.5)。② 特征筛选:用LASSO的L1正则化收缩系数,将弱预测因子系数缩至0,最终保留7个变量:年龄(每5年)、性别(男=1,女=0)、吸烟包年、AFP(Z-score)、CEA(Z-score)、CYFRA-211(Z-score)、HBsAg(Z-score)。③ 风险评分计算:基于Cox回归系数,计算个体风险评分:
$$Risk Score = 0.422 imes 年龄 + 0.558 imes 性别 + 0.014 imes 吸烟包年 + 0.053 imes AFP + 0.085 imes CEA + 0.187 imes CYFRA-211 + 0.125 imes HBsAg - 4.565$$
结果解读:LASSO模型的训练集AUROC为0.78,测试集为0.768,说明7个变量能有效预测五种癌症的联合风险。

3.4 模型验证:内部与外部验证

实验目的:评估模型的泛化能力。
方法细节:① 内部验证:将发现队列按7:3随机分为训练集(11498人)和测试集(4640人),用测试集评估AUROC(曲线下面积)和校准曲线(Hosmer-Lemeshow检验)。② 外部验证:将模型应用于验证队列(26058人),计算风险分层(低、中、高风险),评估高风险组的癌症富集率。
结果解读:① 内部验证:测试集AUROC为0.768(95% CI 0.723-0.814),校准曲线显示模型预测值与实际值一致(Hosmer-Lemeshow P=0.67)。② 外部验证:验证队列中17.19%(n=4200)为高风险,贡献了50.42%的预期癌症病例,高风险组的5年癌症风险是低风险组的15.19倍(HR=15.19,95% CI 5.97-38.64,P<0.001)。

< img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2Fs40364-025-00812-z/MediaObjects/40364_2025_812_Fig2_HTML.png" >

3.5 临床应用评估:前瞻性随访

实验目的:验证模型的临床实用性——高风险人群是否能通过筛查发现更多癌症。
方法细节:对验证队列中的高风险人群(n=4200)进行前瞻性随访(2022-2023年),采用临床金标准检测:肺癌用低剂量CT(LDCT)、食管癌/胃癌用胃镜、肝癌用腹部超声、结直肠癌用肠镜。记录癌症及癌前病变的检出率。
结果解读:2863名高风险人群参与随访,其中9.64%(n=276)被诊断为癌症或癌前病变,是低风险组(1.92%)的5.02倍。其中食管癌的富集率最高(16.84倍),肺癌次之(8.6倍)。这说明模型能有效识别需重点筛查的人群,提升筛查效率。

< img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2Fs40364-025-00812-z/MediaObjects/40364_2025_812_Fig4_HTML.png" >

4. Biomarker研究及发现成果解析

Biomarker定位与筛选逻辑

本研究涉及54个血液生物标志物,最终通过LASSO回归筛选出4个关键生物标志物:甲胎蛋白(AFP)、癌胚抗原(CEA)、细胞角蛋白19片段(CYFRA-211)、乙肝表面抗原(HBsAg)。筛选逻辑:① 先通过文献回顾和专家建议纳入与癌症相关的常规血液标志物(如AFP与肝癌、CEA与胃肠道癌、CYFRA-211与肺癌、HBsAg与肝癌);② 再通过LASSO回归的L1正则化,从54个中筛选出对多癌症风险预测最有效的4个,确保模型简洁且有效。

研究过程详述

  • Biomarker来源:所有生物标志物均来自研究对象的基线血液样本(EDTA抗凝血,离心后血浆-80℃保存)。
  • 检测方法:采用临床常规的生化或免疫检测法:AFP用化学发光免疫分析、CEA用酶联免疫吸附试验(ELISA)、CYFRA-211用电化学发光免疫分析(ECLIA)、HBsAg用胶体金法。
  • 验证方法:① 关联分析:Cox回归显示,4个生物标志物均与癌症风险显著相关(如CYFRA-211的HR=1.32,95% CI 1.26-1.39,P<2E-16);② 模型验证:LASSO回归确认其在多变量模型中的重要性(系数非零);③ 临床验证:前瞻性随访显示,高风险组中CYFRA-211高表达者的肺癌检出率是低表达者的3.2倍。
  • 性能数据:整合4个生物标志物后的模型AUROC为0.767(95% CI 0.723-0.814),较仅用流行病学因素的模型(AUROC 0.68)提升12.8%;高风险组的癌症检测率是低风险组的5.02倍(P<0.001)。

核心成果提炼

  1. 功能关联:4个生物标志物分别与不同癌症相关,但联合后能预测五种癌症的整体风险,说明这些标志物具有“多癌症关联”的特性(如CEA不仅与胃肠道癌相关,也与肺癌风险正相关)。
  2. 创新性:首次证明常规血液生物标志物的联合使用能有效预测多癌症风险,解决了“组学标志物成本高”的问题(常规血液检测单次成本<50元,远低于组学检测)。
  3. 临床价值:高风险组仅占人群的17.19%,但覆盖了50.42%的癌症病例,意味着筛查高风险人群能以较低成本发现大部分癌症,适合资源有限的地区推广。

本研究开发的PRIME模型为人群水平的多癌症筛查提供了实用工具,解决了现有模型“单癌症局限”“成本高”“缺乏验证”的问题,为癌症精准预防提供了新的思路。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。