联合游离DNA motif与蛋白生物标志物的预测模型开发及验证用于食管鳞状细胞癌及癌前病变的早期检测-文献解析

1. 领域背景与文献引入

文献英文标题:Development and validation of predictive models combining cell-Free DNA motifs and protein biomarkers for early detection of esophageal squamous cell carcinoma and precancerous lesion;发表期刊:Biomarker Research;影响因子:未公开;研究领域:食管鳞状细胞癌(ESCC)及癌前病变早期检测。

食管癌是中国第六大常见恶性肿瘤、第五大癌症死亡原因,早期无症状的特点导致约70%患者确诊时已达晚期,5年生存率不足20%。内镜筛查是ESCC早期检测的金标准,可降低34%死亡率和30%发病率,但存在有创性、患者依从性低、基层医疗资源不足等局限。液体活检作为非侵入性替代方法,逐渐成为研究热点:临床常用的肿瘤相关蛋白生物标志物(如细胞角蛋白19片段Cyfra21-1、癌胚抗原CEA)特异性较高(约90%),但早期ESCC敏感性不足(<50%);游离DNA(cfDNA)检测(如甲基化、突变)在肝癌、肺癌中显示出早期检测潜力,但ESCC领域的研究多聚焦晚期病例,鲜少纳入癌前病变(食管鳞状上皮内瘤变ESPL,包括低级别LGIN、高级别HGIN),且单一组学模型难以兼顾敏感性与特异性。

当前研究空白在于:缺乏纳入大量癌前病变和早期ESCC的多组学预测模型,未充分结合cfDNA末端motif(反映核酸酶活性和组织来源的新型标志物)与临床常用蛋白生物标志物的协同作用。本研究旨在开发cfDNA motif模型、蛋白模型及联合模型,验证其对ESCC及癌前病变的早期检测性能,为非侵入性筛查提供新工具。

2. 文献综述解析

作者对现有ESCC早期检测研究按技术类型分为四类:内镜筛查、蛋白生物标志物检测、cfDNA单组学检测、多组学模型。

现有研究的关键结论与局限性:①内镜筛查是金标准,可显著降低死亡率,但有创性限制了普及;②蛋白生物标志物(如Cyfra21-1)操作简便、特异性高,但早期ESCC敏感性不足(<50%);③cfDNA甲基化/突变模型对早期ESCC敏感性低(如stage 0 ESCC敏感性仅50%),且多未纳入癌前病变;④多组学模型(如cfDNA+蛋白)在胰腺癌、肝癌中提高了早期检测准确性,但ESCC领域相关研究极少,未充分验证协同效应。

本研究的创新点:①队列代表性:纳入46例LGIN、45例HGIN、100例T1aN0 ESCC及24例T1bN0 ESCC,占总样本43.8%,是少数系统纳入癌前病变与早期ESCC的研究;②标志物创新:首次将cfDNA末端motif(反映片段化特征的新型标志物)与临床常用蛋白生物标志物结合,开发多组学模型;③临床相关性:重点验证模型对可内镜治疗的HGIN+T1aN0 ESCC的敏感性,贴合“早诊早治”的临床需求。

3. 研究思路总结与详细解析

整体框架

研究目标:开发联合cfDNA motif与蛋白生物标志物的预测模型,提高ESCC及癌前病变早期检测准确性;核心科学问题:多组学标志物能否协同提升早期病变的敏感性与特异性;技术路线:样本收集→cfDNA测序+蛋白检测→差异特征筛选→模型构建(随机森林)→多数据集验证(训练、验证、测试集)

3.1 研究队列建立与样本收集

实验目的:建立包含ESCC、癌前病变及健康对照的均衡队列,确保模型验证可靠性。
方法细节:2021年12月至2022年3月收集中国医学科学院肿瘤医院内镜科患者血浆样本,纳入199例ESCC、91例ESPL(46 LGIN、45 HGIN)、201例对照(良性食管疾病或健康人);2022年9月至2023年1月前瞻性收集验证样本,最终491例样本随机分为训练集(n=240)、验证集(n=103)、测试集(n=148)。
结果解读:三组数据集在年龄(p=0.576)、性别(χ²=0.93,p=0.628)、吸烟史(χ²=4.50,p=0.343)、饮酒史(χ²=2.13,p=0.711)、组分布(χ²=7.26,p=0.509)上无显著差异,确保了模型验证的客观性。
产品关联:文献未提及具体样本收集产品,领域常规使用cfDNA保存管(如Streck管)、EDTA抗凝管。

3.2 cfDNA测序与motif特征提取

实验目的:获取cfDNA末端motif特征,筛选差异序列。
方法细节:血浆cfDNA提取后,用Qiagen QIAseq cfDNA All-in-One Kit构建文库,MGI 2000/T7平台进行PE100测序(深度10G);过滤低质量reads后比对至hg19基因组,提取cfDNA片段末端4碱基序列,计算每种序列占比并Z-score标准化;训练集通过t检验(p<0.05)筛选差异motif,PCA降维至30维,再用随机森林递归特征消除(RF-RFE)选16维最优特征。
结果解读:训练集筛选到203个差异motif(128个下调、75个上调),hierarchical clustering显示这些motif可有效区分病例与对照;PCA降维后保留了90%以上的原始信息,减少了特征冗余。
产品关联:实验所用关键产品:Qiagen QIAseq cfDNA All-in-One Kit(文库构建)、Thermo Fisher Scientific Qubit 1×dsDNA assay kit(文库定量)、BiOptic Qsep-400毛细管电泳系统(文库质量控制)、BGI MGI 2000/T7测序平台(测序)。

3.3 蛋白生物标志物检测与特征筛选

实验目的:检测临床常用消化系蛋白生物标志物,筛选差异特征。
方法细节:用DIRUI CM-180全自动化学发光免疫分析系统及配套试剂,检测9种蛋白:甲胎蛋白(AFP)、糖类抗原19-9(CA19-9)、糖类抗原24-2(CA24-2)、糖类抗原72-4(CA72-4)、癌胚抗原(CEA)、细胞角蛋白19片段(Cyfra21-1)、鳞状细胞癌抗原(SCC)、胃蛋白酶原I(PG I)、胃蛋白酶原II(PG II),并计算PG I/PG II比值(PGR);训练集通过t检验筛选差异蛋白,RF-RFE选8种最优特征。
结果解读:训练集筛选到5种差异蛋白(CEA、Cyfra21-1、PG I、PG II、PGR),其中Cyfra21-1在ESCC组水平显著高于对照(p<0.05),但测试集敏感性仅62.1%,单独使用价值有限。
产品关联:实验所用关键产品:DIRUI化学发光免疫分析试剂 kit(生物标志物检测)、DIRUI CM-180全自动化学发光免疫分析系统(检测平台)。

3.4 预测模型构建与验证

实验目的:分别构建cfDNA motif模型、蛋白模型及联合模型,验证其检测性能。
方法细节:①motif模型:用16维cfDNA motif特征,随机森林算法10折交叉验证构建模型,验证集基于Youden指数确定最优阈值(0.39);②蛋白模型:用8种蛋白特征(CA24-2、CA72-4、CEA、Cyfra21-1、SCC、PG I、PG II、PGR),同样用随机森林10折交叉验证,最优阈值0.55;③联合模型:整合20维cfDNA motif特征(RF-RFE筛选)与6种蛋白特征(RF-RFE筛选),随机森林10折交叉验证,最优阈值基于Youden指数。
结果解读:①motif模型:训练集AUC0.89、验证集0.86、测试集0.84,测试集HGIN敏感性100%(n=10)、LGIN敏感性93.3%(n=15,95%CI80.7%-100%),HGIN+T1aN0 ESCC敏感性90.2%(n=51,95%CI81.2%-99.3%),对癌前病变的敏感性优势显著;②蛋白模型:训练集AUC0.80、验证集0.86、测试集0.82,测试集ESCC敏感性88.5%(n=199),HGIN+T1aN0敏感性80.5%(n=41,95%CI68.4%-92.6%),优于单个蛋白(如Cyfra21-1测试集敏感性62.1%);③联合模型:训练集AUC0.90、验证集0.91、测试集0.90,测试集整体敏感性88.5%、特异性75.4%,HGIN敏感性90.9%(n=11,95%CI73.9%-100%),Stage I ESCC敏感性86.8%(n=38,95%CI76.1%-97.6%),HGIN+T1aN0敏感性87.8%(n=41,95%CI77.8%-97.8%),性能显著优于单一组学模型。


4. Biomarker研究及发现成果解析

Biomarker定位

本研究涉及两类生物标志物:①cfDNA末端motif:通过测序提取的4碱基末端序列,经“训练集t检验→PCA降维→RF-RFE”筛选得到20维核心特征,反映cfDNA的片段化模式;②蛋白生物标志物:临床常用消化系蛋白,经“训练集t检验→RF-RFE”筛选得到6种核心特征(CA24-2、CA72-4、CEA、Cyfra21-1、SCC、PGR),覆盖肿瘤增殖、分化及胃黏膜功能。

研究过程详述

Biomarker来源:所有标志物均来自血浆样本,符合液体活检的非侵入性要求;验证方法:cfDNA motif通过测序及生物信息学分析验证,蛋白通过化学发光免疫分析验证;特异性与敏感性:联合模型测试集AUC=0.90,敏感性88.5%,特异性75.4%,均优于单一组学模型(motif模型测试集AUC0.84、蛋白模型0.82);cfDNA motif模型对HGIN的敏感性达100%(测试集),蛋白模型对ESCC的敏感性达88.5%(测试集),协同效应显著。

核心成果

  1. cfDNA motif是癌前病变的高敏感性标志物:尤其对HGIN(测试集敏感性100%),填补了现有模型对癌前病变检测的空白;
  2. 联合模型协同提升早期检测性能:对可内镜治疗的HGIN+T1aN0 ESCC敏感性达87.8%,显著高于motif模型的90.2%(无统计学差异,但特异性从55.7%提升至75.4%)和蛋白模型的80.5%;
  3. 蛋白模型优于单个蛋白:8种蛋白模型测试集敏感性81.6%,高于Cyfra21-1的62.1%,证明多蛋白组合可提升早期检测的敏感性。

创新性在于首次将cfDNA motif与临床蛋白结合,建立了纳入大量癌前病变的多组学模型,为ESCC早期筛查提供了非侵入性、高敏感性的工具,解决了现有模型“重晚期、轻早期”“重单组学、轻协同”的问题。

本研究通过多组学整合与大样本验证,为ESCC及癌前病变的早期检测提供了新的非侵入性方案,有望提高筛查依从性和早期诊断率,最终降低ESCC死亡率。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。