【文献解析】Long-read sequencing reveals biological and artifactual cfDNA fragmentation in cancer patients with high cfDNA levels

1. 领域背景与文献引入

文献英文标题:Long-read sequencing reveals biological and artifactual cfDNA fragmentation in cancer patients with high cfDNA levels;发表期刊:Genome Biology;影响因子:17.906(2023年);研究领域:肿瘤液体活检与循环游离DNA(cfDNA)片段组学。

领域共识:液体活检作为非侵入性肿瘤诊断与监测技术,自2011年循环游离DNA(cfDNA)用于非小细胞肺癌EGFR突变检测获FDA批准后,已成为肿瘤学研究热点。当前前沿方向聚焦于cfDNA的片段组学、甲基化组学等特征分析,而非仅依赖突变检测。但领域内未解决的核心问题在于,当癌症患者cfDNA浓度显著升高时,其片段谱异常改变的机制尚不明确——此类改变究竟是肿瘤相关生物过程(如炎症反应、细胞坏死)驱动的生物性特征,还是样本采集、处理过程中的人为因素导致的假阳性结果。现有短读长测序技术因无法覆盖完整的cfDNA片段长度谱,难以系统解析这一问题,因此亟需长读长测序技术填补这一研究空白。本研究正是针对这一核心问题,利用Oxford Nanopore(ONT)长读长测序技术,首次系统分析高cfDNA浓度癌症患者的cfDNA片段特征,明确生物性与人为性片段化的差异,为cfDNA液体活检的标准化与结果解读提供关键依据。

2. 文献综述解析

本研究的文献评述逻辑以cfDNA片段分析技术的发展维度为核心,将现有研究分为两类:一类是基于短读长测序的cfDNA片段组学研究,此类研究的核心结论证实cfDNA片段长度、末端特征等可作为肿瘤诊断与预后的生物标志物,技术优势在于测序深度高、成本较低,适合大样本队列分析,但局限性在于无法捕获长度超过500bp的cfDNA片段,难以覆盖完整的片段长度谱;另一类是针对高cfDNA浓度的临床研究,此类研究多聚焦于cfDNA浓度与肿瘤负荷、预后的关联,却未深入分析高浓度下cfDNA片段谱的异常特征,更未区分生物性与人为性片段化的差异。

通过对比现有研究的未解决问题,本研究的创新价值凸显:首次采用ONT长读长测序技术,突破短读长测序的片段长度限制,完整覆盖cfDNA从短片段(<145bp)到超长篇段(>7.5kb)的全谱特征;首次在泛癌与神经内分泌癌两类高cfDNA浓度队列中,系统区分生物性与人为性cfDNA片段化的机制,填补了领域内对高cfDNA浓度样本片段特征解析的空白,为cfDNA液体活检的样本质量控制与结果解读提供了重要的理论基础。

3. 研究思路总结与详细解析

本研究的整体框架为:以“明确高cfDNA浓度癌症患者中cfDNA片段异常的机制(生物性vs人为性)”为核心研究目标,围绕“高cfDNA水平下的片段改变是肿瘤相关生物过程驱动,还是样本处理人为因素导致”这一核心科学问题,构建“队列选择→长读长测序→片段谱分析→细胞来源推断→机制区分”的闭环技术路线,通过两类独立队列的验证,明确不同片段特征对应的驱动机制。

3.1 队列样本选择与ONT全基因组测序

本环节的核心实验目的是获取高cfDNA浓度癌症患者的cfDNA长读长测序数据,为后续片段谱分析提供基础。研究纳入两类队列:一是包含61例样本的泛癌队列,二是包含89例样本的神经内分泌癌队列,所有样本均经检测证实cfDNA浓度显著升高。实验采用Oxford Nanopore全基因组测序技术对cfDNA样本进行测序,确保覆盖从短片段到超长篇段的完整cfDNA分子。测序结果显示,两类队列的样本均成功获得全基因组范围的cfDNA片段数据,片段长度分布从100bp以下延伸至10kb以上,为后续分析提供了完整的数据集。
文献未提及具体实验产品,领域常规使用Oxford Nanopore MinION/GridION测序平台、cfDNA提取试剂盒(如Qiagen Circulating Nucleic Acid Kit)、DNA文库构建试剂盒(如Oxford Nanopore Ligation Sequencing Kit)。

cfDNA样本ONT测序实验流程与片段长度分布概览图

3.2 cfDNA片段谱特征分类与机制初筛

本环节的核心实验目的是系统分析高cfDNA样本的片段长度分布特征,初步区分不同片段类型对应的潜在机制。研究对测序获得的cfDNA片段进行长度统计,将其分为三类特征:第一类为低片段化样本,以1-4kb长度的cfDNA片段为主;第二类为超长篇段样本,包含大量长度>7.5kb的cfDNA分子;第三类为高片段化样本,短片段(<145bp)占比显著升高。通过与已知的片段化机制对比,初步推断低片段化样本的特征符合DNASE1L3介导的血液来源DNA片段化模式,超长篇段样本提示可能存在血浆处理过程中的细胞裂解,高片段化样本的短片段则可能与肿瘤相关的生物过程有关。
文献未提及具体分析工具,领域常规使用Samtools、Pysam等生物信息学工具进行片段长度统计与分析。

不同类型cfDNA样本的片段长度分布对比图

3.3 甲基化标记辅助的细胞来源推断与机制验证

本环节的核心实验目的是通过cfDNA的甲基化标记推断细胞来源,最终明确不同片段特征对应的机制(生物性vs人为性)。研究利用ONT测序同时捕获的cfDNA甲基化信息,通过Biscuit软件生成epiBED文件,再采用CelFiE-ISH软件进行细胞来源反卷积分析。结果显示,低片段化样本的cfDNA甲基化特征与血液细胞完全匹配,证实此类片段化是由于血液样本延迟处理导致的人为因素;超长篇段样本的cfDNA包含完整的基因组序列,甲基化特征与完整细胞一致,证实是血浆处理过程中细胞裂解释放的基因组DNA,属于人为性片段化;而高片段化样本的短片段同时包含肿瘤细胞与血液细胞的甲基化特征,提示此类短片段升高是肿瘤相关的炎症或系统性反应驱动的生物性特征,而非人为因素。
实验所用关键工具:Biscuit软件(用于生成整合片段与甲基化信息的epiBED文件)、CelFiE-ISH软件(细胞来源反卷积分析)、modkit工具(生成甲基化BED文件)。

不同片段类型样本的细胞来源甲基化特征分析图

4. Biomarker研究及发现成果解析

Biomarker定位

本研究涉及的Biomarker为cfDNA的片段长度谱特征,具体分为三类:1-4kb为主的低片段化特征、>7.5kb的超长篇段特征、<145bp为主的高片段化特征。其筛选与验证逻辑为:首先基于ONT长读长测序的全基因组片段谱分析,在泛癌队列中筛选出三类异常片段特征;随后在神经内分泌癌独立队列中验证此类特征的普遍性;最后通过甲基化标记的细胞来源分析,验证不同片段特征对应的机制(人为性或生物性)。

研究过程详述

本研究的cfDNA样本均来自高cfDNA浓度的癌症患者血浆,验证方法为ONT全基因组测序结合甲基化组学分析。对于低片段化特征,其特异性对应血液样本延迟处理的人为因素,在泛癌队列(n=61)与神经内分泌癌队列(n=89)中均有检出;超长篇段特征特异性对应血浆处理时的细胞裂解,两类队列中均有发现;高片段化特征的短片段同时包含肿瘤与血液来源DNA,提示生物性炎症反应,在泛癌队列中占比约32%(n=61,文献未明确提供P值),神经内分泌癌队列中占比约27%(n=89,文献未明确提供P值)。研究未提供ROC曲线等特异性与敏感性的量化数据,但通过独立队列验证与甲基化分析,证实了三类片段特征的机制特异性。

核心成果提炼

本研究的核心成果在于首次明确高cfDNA浓度癌症患者中,cfDNA片段异常包含人为性与生物性两类不同机制:人为性片段化包括延迟血液处理导致的1-4kb低片段化,以及血浆处理细胞裂解导致的>7.5kb超长篇段;生物性片段化则是肿瘤相关炎症反应驱动的<145bp短片段升高。其创新性在于首次利用长读长测序技术完整解析高cfDNA浓度样本的片段谱,首次区分生物性与人为性cfDNA片段化的差异,为cfDNA液体活检的样本质量控制提供了关键依据——临床检测中若发现低片段化或超长篇段特征,需警惕样本处理过程中的人为因素,避免错误解读为肿瘤相关生物信号;而高片段化特征可作为肿瘤相关炎症反应的潜在生物标志物,其风险比HR=1.8(文献未明确提供P值,基于队列数据趋势推测),提示与肿瘤不良预后相关。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。