
图片来源:koto_feja /E+/ Getty Images
【圣地亚哥讯】日本近畿大学的研究人员开发了一种机器学习模型,可通过分析基于CpG的DNA甲基化特征,准确预测原发灶不明癌(cancer of unknown primary, CUP)患者的肿瘤起源类型。结果显示,该模型在测试队列中对肿瘤类型的鉴定准确率约为95%;在包含17种肿瘤类型、共31例样本的独立验证队列中,准确率达87%。该研究成果已在美国癌症研究协会(American Association for Cancer Research, AACR)年会上公布。
日本近畿大学基因组生物学系教员Marco A. De Velasco博士表示:“我们的研究结果表明,即便原发肿瘤无法被影像学检出,基于DNA的检测方法也可帮助明确癌症的起源部位。”
原发灶不明癌是一类无法确定原发灶位点的转移性恶性肿瘤,这类患者的预后通常较差,因为临床多采用广谱非特异性化疗方案对其进行治疗,而非针对特定肿瘤类型的靶向治疗。
仅约15%~20%的原发灶不明癌患者具备接受位点特异性治疗的特征。接受位点定向治疗的患者生存期最长可达24个月,而接受标准治疗的患者生存期仅为6~9个月。
不同肿瘤类型的肿瘤生物学特征(如基因活性、DNA化学修饰模式)存在差异,且这类特征即便在肿瘤发生转移后仍可保留,可为靶向治疗的开发提供指导。目前已有部分相关方法展现出应用潜力,但尚未在临床试验中证实可明确带来生存获益。
该模型的训练数据来源于癌症基因组图谱计划(The Cancer Genome Atlas Program, TCGA)及其他公共数据集,覆盖21种不同肿瘤类型、近7500例患者的甲基化数据。研究人员通过机器学习方法鉴定出与不同肿瘤类型相关的CpG甲基化特征,构建了对应的甲基化谱。
De Velasco强调,本研究仅使用了一小部分DNA标志物(从基因组数十万个CpG区域中筛选出的约1000个区域)就实现了对多种肿瘤起源的高准确率预测。他表示:“这一结果的重要性在于,我们可在简化复杂分子数据的同时,仍保持优异的预测性能。”
本研究存在一定局限性:该模型是基于已知起源的肿瘤样本开发的,而非真正的原发灶不明癌样本,后续需在原发灶不明癌患者中开展测试,明确该模型在临床场景下的性能。此外,并非所有肿瘤样本都可方便地获取用于基因检测,尤其是晚期肿瘤样本。研究团队未来计划对模型进行适配优化,采用液体活检技术分析循环肿瘤DNA,无需依赖组织样本的DNA即可完成检测。
专业注释
- CpG甲基化:肿瘤特征性表观遗传修饰,参与基因表达调控
- 原发灶不明癌(CUP):无法确定原发位点的转移性恶性肿瘤
- 癌症基因组图谱计划(TCGA):国际公开的肿瘤基因组参考数据集项目
