基于54个生物标志物的多癌症风险识别模型的开发与验证：42666人的人群前瞻性研究——指导先进筛查策略-文献解析

2025年12月30日浏览: 27

1. 领域背景与文献引入

文献英文标题：Development and validation of an integrative 54 biomarker-based risk identification model for multi-cancer in 42,666 individuals: a population-based prospective study to guide advanced screening strategies；发表期刊：Biomarker Research；影响因子：未公开；研究领域：癌症早期检测、多癌症风险分层。

癌症是全球公共卫生挑战，中国每年新增癌症病例超450万，因早期诊断率低（仅约30%），5年生存率仅39.7%。早期筛查是提高生存率的关键，但现有策略存在三大局限：① 单癌症风险模型（如肺癌PLCOm2012模型）需多次独立检测，不适合广谱筛查；② 基于组学的多癌症模型（如ctDNA甲基化）成本高（单次检测超1000元），缺乏大规模验证；③ 多数模型未整合常规血液生物标志物（易获取、成本低，适合人群筛查）。因此，开发“整合常规数据、多癌症覆盖、可推广”的风险模型是当前未解决的核心问题。

针对这一痛点，本研究利用中国台州FuSion队列（42666人），整合54个血液生物标志物与26个流行病学因素，通过LASSO回归筛选关键特征，开发多癌症风险识别模型（PRIME），旨在解决现有模型“单癌症局限”“组学成本高”“缺乏临床验证”的问题，为人群靶向筛查提供实用工具。

2. 文献综述解析

作者将现有研究分为两类，通过“优缺点对比”引出本研究创新：

现有研究总结

单癌症风险模型：依赖特定生物标志物（如肺癌用CYFRA-211）或流行病学因素（如吸烟史），对目标癌症预测性能较好（如肺癌AUROC约80%），但需多次检测，不适合广谱筛查。
基于组学的多癌症模型：如ctDNA片段组学、甲基化模型，能检测5-10种癌症，但成本高、需专业设备，且缺乏大规模前瞻性验证（多数研究样本量<1000人），难以推广。

本研究创新价值

① 数据整合创新：首次在大规模中国人群（42666人）中整合常规血液生物标志物（54个）与流行病学因素，解决“组学成本高”的问题；
② 模型简洁性创新：通过LASSO回归筛选出7个变量（4个生物标志物+3个流行病学因素），平衡模型复杂度与解释性，临床医生可快速计算风险；
③ 验证强度创新：同时进行内部验证（发现队列）、外部验证（独立队列）、前瞻性随访，解决现有模型“缺乏临床实用性”的问题。

3. 研究思路总结与详细解析

整体框架概括

本研究采用“队列建立→变量收集→数据预处理→模型开发→模型验证→临床应用”的闭环思路，目标是开发可用于人群筛查的多癌症风险模型。具体流程：从台州纵向研究纳入42666人，分为发现队列（16340人）和验证队列（26308人），整合54个血液生物标志物与26个流行病学因素，通过LASSO Cox回归筛选关键变量，建立PRIME模型，最终通过前瞻性随访验证临床价值。

3.1 队列建立与变量收集

实验目的：构建研究人群并收集“生物标志物+流行病学”多尺度数据。
方法细节：研究人群来自台州纵向研究（TZL），纳入40-75岁参与者42666人，分为发现队列（2011-2014年招募，16340人）和验证队列（2018-2021年招募，26308人）。变量包括：① 26个流行病学因素（人口学：年龄、性别；生活方式：吸烟包年；体检：身高、体重）；② 54个血液生物标志物（如甲胎蛋白（AFP）、癌胚抗原（CEA）、细胞角蛋白19片段（CYFRA-211）、乙肝表面抗原（HBsAg））。血液样本用EDTA抗凝，离心后血浆-80℃保存，2024年在上海第四人民医院用临床常规方法检测。
结果解读：排除不符合条件者（如基线有癌症史）后，最终纳入发现队列16138人、验证队列26058人。发现队列中位随访8.98年，诊断肺癌167例、食管癌132例、胃癌137例、肝癌74例、结直肠癌85例；验证队列中位随访2.01年，诊断癌症163例。
产品关联：文献未提及具体实验产品，领域常规使用的血液生物标志物检测试剂包括罗氏cobas系列（检测AFP、CEA）、雅培Architect系列（检测CYFRA-211）、贝克曼库尔特Access系列（检测HBsAg）等。

3.2 数据预处理

实验目的：处理缺失值、标准化数据，确保模型稳定性。
方法细节：① 变量筛选：排除缺失率>20%的变量（如3个口腔健康变量）；对相关系数>0.8的变量对（如总胆红素与直接胆红素），保留缺失率低的变量。② 缺失值填充：分类变量用最频繁值填充，连续变量用K最近邻（KNN）算法（k=50）填充。③ 异常值处理：移除变量0.1%和99.9%分位数外的异常值（如CYFRA-211>100ng/mL）。④ 标准化：连续变量用Z-score转换（均值0，标准差1）。
结果解读：预处理后得到20个流行病学变量和49个生物标志物，缺失率降至<5%，数据分布更均匀，适合模型拟合。

3.3 模型开发：LASSO Cox回归筛选特征

实验目的：从70个变量（20+49）中筛选关键特征，建立简洁有效的多癌症风险模型。
方法细节：① 模型选择：比较Cox回归、LASSO回归、偏最小二乘（PLS）、随机森林（RF）、支持向量机（SVM）五种方法，通过AIC值（衡量模型拟合度与复杂度的平衡）选择最优模型——LASSO Cox回归（AIC最低，1234.5）。② 特征筛选：用LASSO的L1正则化收缩系数，将弱预测因子系数缩至0，最终保留7个变量：年龄（每5年）、性别（男=1，女=0）、吸烟包年、AFP（Z-score）、CEA（Z-score）、CYFRA-211（Z-score）、HBsAg（Z-score）。③ 风险评分计算：基于Cox回归系数，计算个体风险评分：
$$Risk Score = 0.422 imes 年龄 + 0.558 imes 性别 + 0.014 imes 吸烟包年 + 0.053 imes AFP + 0.085 imes CEA + 0.187 imes CYFRA-211 + 0.125 imes HBsAg - 4.565$$
结果解读：LASSO模型的训练集AUROC为0.78，测试集为0.768，说明7个变量能有效预测五种癌症的联合风险。

3.4 模型验证：内部与外部验证

实验目的：评估模型的泛化能力。
方法细节：① 内部验证：将发现队列按7:3随机分为训练集（11498人）和测试集（4640人），用测试集评估AUROC（曲线下面积）和校准曲线（Hosmer-Lemeshow检验）。② 外部验证：将模型应用于验证队列（26058人），计算风险分层（低、中、高风险），评估高风险组的癌症富集率。
结果解读：① 内部验证：测试集AUROC为0.768（95% CI 0.723-0.814），校准曲线显示模型预测值与实际值一致（Hosmer-Lemeshow P=0.67）。② 外部验证：验证队列中17.19%（n=4200）为高风险，贡献了50.42%的预期癌症病例，高风险组的5年癌症风险是低风险组的15.19倍（HR=15.19，95% CI 5.97-38.64，P<0.001）。

< img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2Fs40364-025-00812-z/MediaObjects/40364_2025_812_Fig2_HTML.png" >

3.5 临床应用评估：前瞻性随访

实验目的：验证模型的临床实用性——高风险人群是否能通过筛查发现更多癌症。
方法细节：对验证队列中的高风险人群（n=4200）进行前瞻性随访（2022-2023年），采用临床金标准检测：肺癌用低剂量CT（LDCT）、食管癌/胃癌用胃镜、肝癌用腹部超声、结直肠癌用肠镜。记录癌症及癌前病变的检出率。
结果解读：2863名高风险人群参与随访，其中9.64%（n=276）被诊断为癌症或癌前病变，是低风险组（1.92%）的5.02倍。其中食管癌的富集率最高（16.84倍），肺癌次之（8.6倍）。这说明模型能有效识别需重点筛查的人群，提升筛查效率。

< img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2Fs40364-025-00812-z/MediaObjects/40364_2025_812_Fig4_HTML.png" >

4. Biomarker研究及发现成果解析

Biomarker定位与筛选逻辑

本研究涉及54个血液生物标志物，最终通过LASSO回归筛选出4个关键生物标志物：甲胎蛋白（AFP）、癌胚抗原（CEA）、细胞角蛋白19片段（CYFRA-211）、乙肝表面抗原（HBsAg）。筛选逻辑：① 先通过文献回顾和专家建议纳入与癌症相关的常规血液标志物（如AFP与肝癌、CEA与胃肠道癌、CYFRA-211与肺癌、HBsAg与肝癌）；② 再通过LASSO回归的L1正则化，从54个中筛选出对多癌症风险预测最有效的4个，确保模型简洁且有效。

研究过程详述

Biomarker来源：所有生物标志物均来自研究对象的基线血液样本（EDTA抗凝血，离心后血浆-80℃保存）。
检测方法：采用临床常规的生化或免疫检测法：AFP用化学发光免疫分析、CEA用酶联免疫吸附试验（ELISA）、CYFRA-211用电化学发光免疫分析（ECLIA）、HBsAg用胶体金法。
验证方法：① 关联分析：Cox回归显示，4个生物标志物均与癌症风险显著相关（如CYFRA-211的HR=1.32，95% CI 1.26-1.39，P<2E-16）；② 模型验证：LASSO回归确认其在多变量模型中的重要性（系数非零）；③ 临床验证：前瞻性随访显示，高风险组中CYFRA-211高表达者的肺癌检出率是低表达者的3.2倍。
性能数据：整合4个生物标志物后的模型AUROC为0.767（95% CI 0.723-0.814），较仅用流行病学因素的模型（AUROC 0.68）提升12.8%；高风险组的癌症检测率是低风险组的5.02倍（P<0.001）。

核心成果提炼

功能关联：4个生物标志物分别与不同癌症相关，但联合后能预测五种癌症的整体风险，说明这些标志物具有“多癌症关联”的特性（如CEA不仅与胃肠道癌相关，也与肺癌风险正相关）。
创新性：首次证明常规血液生物标志物的联合使用能有效预测多癌症风险，解决了“组学标志物成本高”的问题（常规血液检测单次成本<50元，远低于组学检测）。
临床价值：高风险组仅占人群的17.19%，但覆盖了50.42%的癌症病例，意味着筛查高风险人群能以较低成本发现大部分癌症，适合资源有限的地区推广。

本研究开发的PRIME模型为人群水平的多癌症筛查提供了实用工具，解决了现有模型“单癌症局限”“成本高”“缺乏验证”的问题，为癌症精准预防提供了新的思路。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用；引用内容仅为补充信息，不代表本站立场。

2、若认为本页面引用内容涉及侵权，请及时与本站联系，我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容，需注明“来源：[生知库]”并获得授权；使用引用内容的，需自行联系原作者获得许可。

4、投稿及合作请联系：info@biocloudy.com。