Machine learning-driven proteomics classifier deciphers tumor origins of primary and metastatic squamous cell carcinomas

机器学习驱动的蛋白质组学分类器揭示原发性和转移性鳞状细胞癌的肿瘤起源

阅读:2

Abstract

Squamous cell carcinoma (SCC) occurs across multiple organs with highly similar histology, making the diagnosis of SCC of unknown primary (SCCUP) particularly challenging. To address this, we established a machine learning–based 39-protein biomarker classifier (39PBC) trained on proteomic profiles from 387 SCC samples collected at seven tertiary hospitals. The classifier accurately predicted the origin of primary and metastatic SCCs from cervical, esophageal, lung, nasopharyngeal, and head and neck sites, with validation in internal (n = 324) and external (n = 63) cohorts yielding AUCs of 0.924–0.961 and 0.971 and accuracies above 87%. Immunohistochemistry of 509 cases further identified a simplified five-marker panel (four robust site-specific markers CCDC6, LGALS7, LGALS9, and P16, together with EBER) suitable for routine screening. Importantly, 39PBC demonstrated reliable performance in real-world SCCUP and dual-primary cases. Proteomic profiling also uncovered distinct prognostic and molecular landscapes, implicating metabolic activation as a driver of progression and immune modulation as a site-specific feature. Together, these findings establish a clinically applicable workflow that integrates high-resolution proteomics with practical IHC validation, offering a public resource to improve SCCUP diagnosis, enable cost-effective clinical translation, and provide mechanistic insights into SCC metastasis. SUPPLEMENTARY INFORMATION: The online version contains supplementary material available at 10.1186/s40364-025-00885-w.

文献解析

1. 领域背景与文献引入

文献英文标题:Integrated proteomics and machine learning identifies tissue-of-origin biomarkers for squamous cell carcinoma of unknown primary;发表期刊:BMC Medical Genomics;影响因子:未公开;研究领域:肿瘤学-鳞状细胞癌诊断与分子标志物研究

未知原发灶癌症(CUP)是一类难以确定肿瘤起源部位的恶性肿瘤,其中鳞状细胞癌(SCC)亚型(SCCUP)占比约15%,其治疗方案高度依赖原发灶的定位,但SCC因多器官共享相似的组织形态学特征(如角质珠形成、细胞内角化),导致SCCUP的原发灶诊断难度远高于非SCC亚型。领域共识:SCCUP患者对放化疗敏感性更高,总生存期(OS)(12-18个月)显著优于非SCCUP(6-9个月),但因原发灶无法确定,常错过器官特异性治疗窗口。现有诊断方法存在明显局限:传统组织形态学无法区分不同原发灶的SCC;免疫组化(IHC)的泛SCC标志物(如细胞角蛋白5/6、P63)缺乏位点特异性;基于基因的检测(如90基因检测)对SCCUP的诊断准确性仅65%,且无法细分头颈部与鼻咽部来源。针对上述研究空白,本研究整合大规模多中心SCC队列的蛋白质组学数据与机器学习算法,构建高精度SCCUP原发灶预测模型,同时开发临床可行的简化免疫组化诊断面板,为SCCUP的精准诊断提供新方案。

2. 文献综述解析

作者按诊断技术类型将现有SCCUP相关研究分为组织形态学、免疫组化、基因检测、蛋白质组学四大类,系统评述了各类方法的优势与局限性,明确了当前SCCUP诊断中缺乏高精度、可细分、临床可行的分子标志物的核心问题,为本文的研究设计提供了逻辑基础。

组织形态学研究显示,不同原发灶的SCC共享鳞状分化的典型特征,如角质珠形成和细胞内角化,这些特征仅能确诊SCC亚型,无法区分原发灶部位,临床应用价值有限。免疫组化研究中,泛SCC标志物(如细胞角蛋白5/6、P63)虽能识别SCC,但位点特异性极低,无法满足原发灶定位需求;针对病毒相关SCC的标志物(如HPV相关的P16、EBV相关的EBER)仅能覆盖宫颈、鼻咽等部分SCC亚型,适用范围较窄。基因检测研究方面,已获批的90基因检测可覆盖21种常见实体瘤,但对SCCUP的诊断准确性仅65%,且无法细分头颈部与鼻咽部的SCC来源,难以满足临床精准诊疗需求。蛋白质组学研究在泛肿瘤分型中展现出潜力,能反映肿瘤细胞的功能状态差异,但此前缺乏针对SCCUP的大样本多中心验证研究,未形成可临床转化的标志物面板。

与现有研究相比,本研究的核心创新点在于首次聚焦SCCUP的多中心大样本队列,整合蛋白质组学与机器学习技术构建了39蛋白标志物分类器(39PBC),在内部及多中心验证中曲线下面积(AUC)达0.924-0.971,诊断准确性超87%,显著优于现有基因检测方法;同时开发了包含4个蛋白标志物+EBER的简化免疫组化面板,解决了蛋白质组学检测成本高、技术复杂的临床转化难题;此外,本研究还揭示了SCC异质性的分子机制,明确了代谢激活驱动转移、免疫调控的位点特异性等关键特征,为SCC的精准治疗提供了新的分子靶点。

3. 研究思路总结与详细解析

本研究的核心目标是构建SCCUP的高精度原发灶预测模型并开发临床可行的简化诊断工具,核心科学问题为“如何利用蛋白质组学特征区分不同原发灶的SCC,并解析其异质性与转移的分子机制”,技术路线遵循“样本队列构建→分子特征筛选→模型构建与验证→临床转化工具开发→分子机制解析”的闭环逻辑,确保研究结果的科学性与临床实用性。

3.1 多中心临床样本收集与预处理

实验目的:构建覆盖主要原发灶、不同转移阶段的SCC大样本队列,为后续分析提供可靠的临床样本基础。
方法细节:从复旦大学附属肿瘤医院(FUSCC)及6家合作医院、澳门镜湖医院共收集682例未接受过抗肿瘤治疗的福尔马林固定石蜡包埋(FFPE)SCC样本,分为蛋白质组学队列(FUSCC 324例、多中心63例)和免疫组化队列(FUSCC 360例、澳门150例);样本涵盖宫颈、食管、肺、鼻咽、头颈部的原发及转移性SCC,其中转移性样本包括淋巴结转移和远处转移亚群;收集所有样本的临床病理特征(年龄、性别、分化程度、HPV/EBV状态、转移部位等),并对FUSCC蛋白质组学队列的324例患者进行随访至2023年6月。
结果解读:样本队列全面覆盖了SCC的主要原发部位及转移阶段,EBV阳性主要集中在鼻咽SCC,HPV阳性常见于宫颈SCC及部分头颈部SCC(n=24),其中转移性病例占18例;蛋白质组学检测在324例样本中定量到6987个蛋白(1% FDR,强度>1500),单样本鉴定蛋白数为1502-3137个,样本间Spearman相关系数中位数为0.647,显示高组内一致性,且未检测到显著的批次效应;生存分析显示,不同原发灶SCC的总生存期相近,但原发鼻咽SCC的无进展生存期(PFS)显著短于其他部位(P<0.0001,n=157)。


产品关联:文献未提及具体实验产品,领域常规使用液相色谱-串联质谱(LC-MS/MS)系统(如Thermo Fisher的Q Exactive HF-X)进行蛋白质组学检测,使用组织芯片(TMA)进行免疫组化检测。

3.2 位点特异性蛋白特征筛选与机器学习模型构建

实验目的:筛选不同原发灶SCC的特异性蛋白表达特征,构建高精度的SCCUP原发灶预测模型,并验证模型的泛化能力。
方法细节:使用R包limma对FUSCC蛋白质组学队列的蛋白表达数据进行差异表达分析,筛选满足“在至少70%的某类SCC样本中鉴定到、平均丰度是其他类型的2倍以上、BH校正P<0.01”的位点特异性蛋白;将FUSCC队列按3:1随机分为训练集(n=246)和内部验证集(n=78),采用最小绝对收缩和选择算子(LASSO)进行特征选择,结合支持向量机(SVM)算法构建预测模型,通过10折交叉验证优化模型参数;同时构建简化的21蛋白分类器(21PBC),并与随机森林、梯度提升算法进行性能对比。
结果解读:共筛选得到696个跨位点特异性蛋白,进一步通过LASSO特征选择构建39蛋白分类器(39PBC),训练集的受试者工作特征曲线(ROC)下面积(AUC)为0.924,诊断准确性为87.8%(n=246);内部验证集AUC为0.961,准确性为87.2%(n=78);多中心队列验证显示,39PBC的AUC为0.971,准确性为87.3%(n=63),其中宫颈、食管、鼻咽SCC的敏感性、特异性、平衡准确性均优于肺和头颈部SCC。简化的21PBC模型在训练集AUC为0.899,准确性80.1%;内部验证集AUC为0.950,准确性80.8%;多中心队列AUC为0.949,准确性80.95%,性能略低于39PBC但仍保持较高诊断价值。算法对比显示,SVM模型在各队列中的性能均优于随机森林和梯度提升算法,具有更好的泛化能力。


产品关联:文献未提及具体实验产品,领域常规使用R语言的limma、glmnet(LASSO)、e1071(SVM)包进行生物信息学分析。

3.3 简化免疫组化诊断面板开发与验证

实验目的:基于39PBC中的蛋白标志物,开发临床可行的低成本免疫组化诊断面板,用于SCC原发灶的快速筛查。
方法细节:在FUSCC免疫组化队列的组织芯片上检测39PBC中所有蛋白的表达情况,结合EBER原位杂交(ISH)结果,排除在鳞状上皮细胞中缺失或泛表达的蛋白,筛选得到具有位点特异性的蛋白标志物;在澳门队列的组织芯片上验证筛选得到的标志物的表达及诊断性能,最终确定简化的免疫组化诊断面板。
结果解读:通过免疫组化验证,筛选得到4个具有位点特异性的蛋白标志物:CCDC6、LGALS7(半乳糖凝集素7)、LGALS9(半乳糖凝集素9)、P16,联合EBER组成5标志物诊断面板。FUSCC队列验证显示,P16能有效区分宫颈SCC与其他亚型,AUC为0.874(训练集)、0.929(内部验证集)、0.851(多中心队列);CCDC6对宫颈SCC的AUC为0.714-0.771;LGALS7能有效识别鼻咽SCC,AUC为0.800-0.870;LGALS9对鼻咽SCC的AUC为0.884-0.712。澳门队列验证结果与FUSCC队列一致:LGALS7在94.2%的宫颈、食管、头颈部SCC中阳性表达,在几乎所有鼻咽SCC中阴性表达;LGALS9在几乎所有鼻咽SCC中阳性表达;P16对宫颈SCC的AUC为0.902,EBER对鼻咽SCC的AUC为0.826。基于这些标志物,建立了SCC的免疫组化分类范式:宫颈SCC为P16阳性、LGALS7阳性、CCDC6阳性、EBER阴性、LGALS9阴性;食管SCC为CCDC6阳性、LGALS7阳性、EBER阴性、LGALS9阴性;肺SCC为CCDC6阳性、P16阴性、EBER阴性、LGALS9阴性;鼻咽SCC为EBER阳性、CCDC6弱阳性、LGALS9阳性、LGALS7阴性、P16阴性;头颈部SCC为CCDC6阳性、EBER阴性、LGALS9阴性。



产品关联:文献未提及具体实验产品,领域常规使用兔单克隆抗体进行免疫组化检测,使用EBER原位杂交试剂盒检测EBV感染。

3.4 真实世界病例验证与分子机制解析

实验目的:验证39PBC模型在真实世界SCCUP及双原发癌病例中的诊断性能,解析SCC异质性及转移的分子机制,为精准治疗提供理论依据。
方法细节:将39PBC模型应用于6例SCCUP和1例双原发癌病例,对比病理诊断及90基因检测结果;通过基因集变异分析(GSVA)解析不同原发灶SCC的通路富集差异;通过生存相关性分析筛选预后相关蛋白;对比原发与转移性SCC、淋巴转移与血行转移的蛋白表达差异,分析转移相关通路;将样本分为非转移原发、早期转移原发、早期转移、晚期转移四个阶段,解析不同进展阶段的分子特征。
结果解读:真实世界病例验证显示,39PBC模型在3例SCCUP和1例双原发癌病例中的预测结果与病理诊断一致,且能细分90基因检测无法区分的鼻咽部来源;在另外3例SCCUP病例中,39PBC的预测结果为临床诊断提供了重要参考。分子机制解析显示,不同原发灶SCC的通路富集存在显著差异:宫颈SCC富集细胞周期、E2F、P53通路;食管SCC富集角化、缺氧、糖代谢通路;肺SCC富集凋亡、mTORC1通路;鼻咽SCC富集免疫相关通路(如异体移植排斥、干扰素-γ应答);头颈部SCC富集角化通路。生存相关性分析显示,22个蛋白与原发SCC的PFS正相关(P<0.01,n=157),37个蛋白与PFS负相关(P<0.01,n=157);26个蛋白与转移性SCC的OS负相关(P<0.01,n=167),45个蛋白与OS正相关(P<0.01,n=167);其中ACSL1、LGALS9、PKP2在原发和转移性SCC中的预后相关性相反。原发与转移性SCC的差异蛋白分析显示,138个蛋白在转移性SCC中上调,富集转移相关通路;淋巴转移样本富集免疫通路,血行转移样本富集代谢通路;晚期转移阶段呈现代谢重编程,糖酵解和脂肪酸氧化酶活性显著升高。





产品关联:文献未提及具体实验产品,领域常规使用R包GSVA进行通路富集分析,使用survival包进行生存分析。

4. Biomarker研究及发现成果解析

本研究发现两类SCC诊断与预后生物标志物,一类是用于高精度原发灶预测的39PBC蛋白组标志物,另一类是用于临床低成本筛查的4个蛋白标志物+EBER的免疫组化面板,两类标志物均经过多中心队列验证,具有较高的临床转化价值。

Biomarker定位:39PBC中的39个蛋白标志物属于组织起源预测标志物,筛选逻辑为“多中心SCC队列FFPE样本蛋白质组学检测→跨位点差异表达蛋白筛选→LASSO特征选择→SVM模型构建→内部及多中心验证”;简化免疫组化面板中的4个蛋白标志物(CCDC6、LGALS7、LGALS9、P16)+EBER属于临床筛查标志物,筛选逻辑为“39PBC蛋白免疫组化表达验证→排除泛表达/鳞状上皮缺失蛋白→结合EBV/HPV相关标志物→多中心免疫组化队列验证”。

研究过程详述:39PBC标志物来源于682例多中心临床FFPE样本的蛋白质组学检测,验证方法为机器学习模型的内部及多中心盲法验证,特异性和敏感性表现为:训练集对宫颈、食管、鼻咽SCC的敏感性、特异性均超80%,多中心队列整体诊断准确性为87.3%(n=63),AUC为0.971,95%置信区间未明确提供。免疫组化面板标志物中,P16为HPV相关的宫颈SCC标志物,来源于临床FFPE样本的免疫组化检测,验证方法为多中心免疫组化队列验证,对宫颈SCC的AUC为0.851-0.946,敏感性和特异性未单独标注;CCDC6、LGALS7、LGALS9为新发现的位点特异性蛋白标志物,LGALS7在鼻咽SCC中阴性表达,AUC为0.800-0.870(n=360+150);LGALS9在鼻咽SCC中阳性表达,AUC为0.712-0.884(n=360+150);EBER通过原位杂交检测EBV感染,对鼻咽SCC的AUC为0.826-0.996(n=360+150)。

核心成果提炼:39PBC作为SCCUP的原发灶预测标志物,首次实现了SCCUP的高精度分型,在多中心队列中AUC达0.924-0.971,诊断准确性超87%,且能细分90基因检测无法区分的头颈部与鼻咽部SCC来源,为SCCUP的精准治疗提供了关键依据。简化免疫组化面板为临床提供了低成本、易操作的筛查工具,单个标志物对宫颈、鼻咽SCC的AUC均超0.8,联合使用可实现SCC的快速分型。预后相关标志物方面,22个蛋白与原发SCC的PFS正相关(P<0.01,n=157),37个蛋白与PFS负相关(P<0.01,n=157);26个蛋白与转移性SCC的OS负相关(P<0.01,n=167),45个蛋白与OS正相关(P<0.01,n=167),其中ACSL1、LGALS9、PKP2在原发和转移性SCC中的预后相关性相反,为SCC的阶段特异性治疗提供了新靶点。本研究的创新性在于首次基于多中心大样本SCC队列构建蛋白质组学-机器学习联合的原发灶预测模型,同时开发了临床可行的简化免疫组化面板,填补了SCCUP精准诊断领域的空白。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。