TSniffer: unbiased de novo identification of RNA editing sites and quantification of editing activity in RNA-seq data.
TSniffer:对 RNA 编辑位点进行无偏从头识别,并对 RNA-seq 数据中的编辑活性进行量化。
| 期刊: | Genome Biology | 影响因子: | 9.400 |
| 时间: | 2026 | 起止号: | 2026 Jan 19; 27(1):5 |
| doi: | 10.1186/s13059-026-03941-2 | ||
文献解析
1. 领域背景与文献引入
文献英文标题:TSniffer: a novel tool to accurately define ADAR editing regions in RNA-seq datasets and to quantify ADAR editing activity on an individual transcript level;发表期刊:Genome Biology;影响因子:17.906(2023年);研究领域:RNA生物学、生物信息学、ADAR介导的RNA编辑。
ADAR(作用于RNA的腺苷脱氨酶)介导的A-to-I RNA编辑是最常见的转录后修饰之一,自1987年首次发现以来,其在免疫调节、mRNA编码潜能调控、RNA二级结构改变等方面的功能逐渐被阐明。领域发展关键节点包括:2000年明确ADAR1在抑制天然免疫激活中的核心作用;2010年后随着RNA-seq技术的普及,编辑组(editome)研究成为热点;近年来,ADAR编辑异常与自身免疫病、癌症的关联受到广泛关注。当前研究热点集中在ADAR各亚型(ADAR1-p150、ADAR1-p110、ADAR2)的靶标选择性机制、编辑异常的疾病驱动作用、新型编辑检测工具的开发。未解决的核心问题包括:现有编辑检测工具难以无偏倚地从头识别编辑簇,且易受测序噪声和SNP干扰;ADAR1和ADAR2在靶标编辑中的分工机制尚未完全阐明;非模式生物的ADAR编辑组研究缺乏有效的工具支持。
研究空白:缺乏一种无需依赖已知编辑数据库、可实现单样本从头识别ADAR编辑簇、同时支持多样本定量分析的工具,限制了对非模式生物编辑组的解析和ADAR亚型靶标偏好的研究。文献研究初衷:开发TSniffer工具,解决现有工具的局限性,实现对ADAR编辑簇的准确识别和转录本水平的定量分析,为解析ADAR亚型的靶标选择性和编辑的功能提供技术支撑。
2. 文献综述解析
作者从编辑检测工具的技术策略和应用场景出发,对领域内现有研究进行分类,系统梳理了不同工具的优势与局限性,凸显了TSniffer工具的创新性和必要性。
现有ADAR编辑检测工具可分为三类:位点特异性检测工具(如JACUSA2、GIREMI),通过比对测序数据与参考基因组检测单个编辑位点,优势是能检测低频率的单个编辑位点,局限性是易受测序噪声和SNP干扰,假阳性率高,无法有效识别编辑簇;窗口式检测工具(如LoDEI),通过两样本比较检测显著富集的编辑窗口,优势是能识别编辑簇,局限性是依赖两样本比较,无法实现单样本从头检测,窗口长度固定,灵活性不足;依赖数据库的工具(如RADAR、REDIportal),通过与已知编辑数据库比对注释编辑位点,优势是分析速度快,局限性是无法检测新的编辑簇,不适用于非模式生物。现有研究的关键结论包括:ADAR编辑主要发生在基因组重复元件(如人Alu、小鼠B1/B2、雪貂SINE/tRNA),在免疫调节中通过编辑双链RNA抑制天然免疫激活;ADAR1主要定位于细胞质,编辑成熟mRNA的UTR区域,ADAR2主要定位于细胞核,编辑前体mRNA的内含子区域。
TSniffer的创新价值体现在多个维度:采用1nt滚动窗口的Fisher精确检验策略,无需依赖已知编辑数据库,可实现单样本从头识别ADAR编辑簇,同时支持多样本定量分析;相比LoDEI,其窗口长度随编辑簇的实际范围动态调整,无需输入注释文件,适用于非模式生物的编辑组研究;相比位点特异性工具,通过富集ADAR特征性突变(AG、TC)并结合敲除样本过滤,能有效排除测序噪声和SNP的干扰,假阳性率更低;相比依赖数据库的工具,能检测新的编辑簇,拓展了编辑组研究的范围。
3. 研究思路总结与详细解析
本研究以开发并验证新型ADAR编辑簇检测工具TSniffer为核心,通过模式生物(小鼠、人)验证工具的准确性和可靠性,在非模式生物(雪貂)中验证工具的适用性,与现有工具比较评估性能,最终解析ADAR1和ADAR2的靶标编辑分工,形成“工具开发-多物种验证-性能评估-机制解析”的完整研究闭环。
3.1 TSniffer工具开发与核心算法设计
实验目的:开发一种无偏倚、高准确性的ADAR编辑簇检测工具,解决现有工具在单样本检测、非模式生物应用、假阳性控制等方面的局限性。
方法细节:工具以RNA-seq的BAM比对文件和对应参考基因组为输入,首先生成每个基因组位置的突变计数表,统计转换突变(AG、CT、GA、TC)和颠换突变的读段数;采用1nt滚动窗口(默认窗口大小100nt),针对每种转换突变类型(主要关注ADAR特征性的AG和TC突变),通过Fisher精确检验比较窗口内目标转换突变与其他突变的富集程度,筛选出显著富集的窗口;将重叠的显著窗口合并为编辑区域(TsRegions),重新计算每个区域的相对转换频率(RTF)、P值和编辑位点数(TsSites);工具支持两种分析模式:de novo模式用于单样本从头检测编辑簇,Regio模式用于预定义区域的多样本定量分析。
结果解读:工具输出的GFF文件包含编辑区域的基因组坐标、突变类型、RTF、P值、TsSites等关键信息,可直接在基因组浏览器(如IGV)中可视化;通过小鼠WT和ADAR1/2双敲除(DKO)样本的验证,WT样本中靶标TsRegions(AG、TC)的数量是非靶标TsRegions(CT、GA)的7.5倍,而DKO样本中无显著富集,说明工具能有效区分ADAR介导的编辑和背景噪声。
产品关联:文献未提及具体实验产品,领域常规使用STAR进行RNA-seq数据的剪接比对,GATK进行比对后处理,Bedtools进行基因组区域分析。
3.2 小鼠脑组织ADAR编辑组的解析与工具验证
实验目的:验证TSniffer在模式生物中的有效性,系统解析小鼠脑组织的ADAR编辑组特征。
方法细节:使用公开的小鼠WT和ADAR1/2 DKO脑组织RNA-seq数据集(各3个重复),首先通过TSniffer de novo模式分别检测每个样本的编辑簇;为提高检测灵敏度,合并3个重复样本的BAM文件进行分析;采用多步过滤策略去除假阳性:去除TsSites<5的区域,去除与DKO样本重叠度≥50%的区域,计算置信指数CI(CI=(WT RTF - DKO RTF)/WT RTF)并保留CI≥0.85的区域,最终得到高置信度的Mouse_85-5编辑数据集;通过Bedtools分析编辑区域与基因组元件(重复元件、基因区域、外显子/UTR、内含子)的关联,计算每个转录本的总编辑得分(∑WT RTF - ∑DKO RTF)。
结果解读:单个WT样本中检测到约12,000个TsRegions,单个DKO样本中约5,000个;合并样本后,WT中检测到的TsRegions数量翻倍,TsSites数量增加3倍;Mouse_85-5数据集包含13,113个靶标TsRegions和496个非靶标TsRegions,其中95%以上的靶标TsRegions位于重复元件(主要为SINE/B1和SINE/B2),92%位于注释基因内,且以内含子区域占比最高;共鉴定出4,377个高度编辑的转录本,与REDIportal数据库的比对显示,约43.5%的已知编辑位点被包含在TSniffer检测的编辑簇中,同时TSniffer检测到大量未在数据库中注释的编辑位点,证明工具的准确性和创新性。
产品关联:文献未提及具体实验产品,领域常规使用Trizol提取总RNA,Illumina NovaSeq平台进行RNA-seq测序。
3.3 人HeLa细胞中ADAR1和ADAR2的靶标偏好解析
实验目的:利用TSniffer工具解析ADAR1和ADAR2在人细胞中的靶标编辑分工,明确两种亚型的编辑偏好。
方法细节:通过CRISPR/Cas9n技术构建HeLa ADAR1/2双敲除(DKO)细胞系,Western blot验证敲除效率;收集WT、ADAR1单敲除(1KO)、DKO细胞的总RNA,进行RNA-seq测序;采用与小鼠样本相同的分析策略,通过TSniffer检测编辑簇并过滤得到HeLa_85-5数据集;通过比较WT与1KO的编辑水平差异计算ADAR1的编辑贡献,比较1KO与DKO的编辑水平差异计算ADAR2的编辑贡献,分析不同转录本中两种亚型的贡献比例。
结果解读:HeLa WT样本中检测到的靶标TsRegions在1KO中减少约56%,在DKO中减少约90%,说明ADAR2参与大部分编辑簇的编辑;ADAR1在高度编辑的转录本(TsSites≥150)中起主导作用,贡献比例超过70%,而ADAR2在编辑水平较低的转录本中贡献比例更高;部分转录本具有亚型特异性编辑偏好,如VOPP1、APOOL主要由ADAR1编辑,CUX1、FIRRE主要由ADAR2编辑;编辑区域主要位于重复元件(SINE/Alu)和基因的内含子区域,约三分之一的蛋白编码基因和十分之一的长非编码RNA(lncRNA)存在ADAR编辑。
产品关联:实验所用关键产品:兔抗ADAR1抗体(Cell Signaling #14175)、小鼠抗ADAR2抗体(Millipore Sigma #MABE889)、小鼠抗beta-actin抗体(Sigma-Aldrich #A3854);高糖D-MEM培养基(Sigma-Aldrich #D6546)、胎牛血清(Thermo Fisher Gibco #10500064);Trizol(Thermo Fisher Invitrogen #15596026)提取RNA。
3.4 人原代脑组织与细胞系编辑组的比较分析
实验目的:验证TSniffer在原代组织中的有效性,比较细胞系与原代组织的ADAR编辑组差异,明确编辑的组织特异性。
方法细节:选取GTEx数据库中3个高测序深度的人脑组织RNA-seq数据集,通过TSniffer de novo模式检测编辑簇;合并3个样本的BAM文件以提高检测灵敏度,过滤得到Brain_m100-5数据集(TsSites≥5);通过Bedtools分析编辑区域的基因组特征,计算转录本水平的编辑得分;将人脑组织的编辑组与HeLa细胞的编辑组进行比较,分析重叠和差异转录本,并通过差异基因表达分析解释差异原因。
结果解读:人脑组织中检测到约70,000个TsRegions,包含超过120万个TsSites;85%的靶标TsRegions位于注释基因内,主要位于内含子区域;与HeLa细胞的编辑组有大量重叠,如FTX、NDUFS1、VOPP1等转录本在两种样本中均高度编辑;部分转录本仅在脑组织中编辑,如IL3RA、ZNF83、STAG3,而部分HeLa细胞中的编辑转录本未在脑组织中检测到,如CUX1、FIRRE;差异主要由基因表达水平不同导致,未检测到编辑的转录本在对应组织中表达量极低或不表达。
产品关联:文献未提及具体实验产品,领域常规使用GTEx数据库的公开RNA-seq数据,采用STAR进行比对分析。
3.5 雪貂PBMC中ADAR编辑组的解析与工具适用性验证
实验目的:验证TSniffer在非模式生物中的适用性,解析雪貂的ADAR编辑组特征,探索ADAR编辑机制的哺乳动物保守性。
方法细节:从3只雪貂中分离外周血单个核细胞(PBMC),经植物血凝素-M(PHA-M)刺激72小时后提取总RNA,进行RNA-seq测序;合并3个样本的BAM文件,通过TSniffer de novo模式检测编辑簇;过滤得到TsSites≥5的编辑区域,分析编辑区域与基因组元件的关联,鉴定高度编辑的转录本,并与人和小鼠的编辑转录本比较保守性。
结果解读:雪貂PBMC中检测到约89,000个TsRegions,92%的靶标TsRegions位于重复元件(主要为SINE/tRNA和LINE/L1);约60%的TsRegions位于注释基因内,内含子区域占比最高;共鉴定出9,259个含编辑区域的转录本,其中部分转录本与人和小鼠的编辑转录本保守,如IMMP2L、SMYD3、PDE3B,说明ADAR编辑机制在哺乳动物中高度保守;由于雪貂基因组注释不完善,检测到的非靶标TsRegions比例较高,提示TSniffer在基因组注释较差的物种中仍能有效检测ADAR编辑簇。
产品关联:实验所用关键产品:Histopaque-1077(Sigma-Aldrich #10771)分离PBMC;植物血凝素-M(Sigma-Aldrich #11082132001)刺激细胞;Trizol(Thermo Fisher Invitrogen #15596026)提取RNA。
3.6 TSniffer与现有编辑检测工具的性能比较
实验目的:系统评估TSniffer的性能,与现有工具(JACUSA2、GIREMI、LoDEI)比较准确性、灵敏度和适用性。
方法细节:使用HeLa WT和DKO的RNA-seq数据,分别用TSniffer de novo、JACUSA2 call-1、GIREMI、LoDEI检测编辑位点/区域;比较各工具检测结果的重叠度、在DKO样本中的假阳性率、编辑簇的覆盖范围;针对已知的编辑簇(如VOPP1的3’UTR),比较各工具检测的编辑位点数和区域覆盖度。
结果解读:与JACUSA2相比,TSniffer检测的靶标编辑位点在DKO样本中极少,假阳性率更低,而JACUSA2在DKO样本中仍检测到大量靶标位点,说明TSniffer能有效排除非ADAR编辑的突变;与GIREMI相比,TSniffer能检测到更多编辑簇内的位点,覆盖范围更广,GIREMI主要检测单个编辑位点,对编辑簇的覆盖不完整;与LoDEI相比,TSniffer的编辑区域长度更灵活,能更好地匹配编辑簇的实际范围,且无需两样本比较,可实现单样本从头检测;TSniffer与LoDEI检测的编辑区域重叠度约72.5%,编辑得分的相关性较高,说明两种工具的定量结果具有一致性。
产品关联:文献未提及具体实验产品,领域常规使用各工具的默认参数进行分析,采用Bedtools进行区域重叠比较。
4. Biomarker研究及发现成果解析
本研究中涉及的Biomarker为ADAR编辑的转录本及编辑簇,通过TSniffer工具的无偏倚检测和多步过滤,鉴定出多个物种中高度保守的ADAR编辑转录本,明确了ADAR1和ADAR2的靶标偏好,为ADAR编辑的功能研究和疾病关联分析提供了核心资源。
Biomarker定位
文献中涉及的Biomarker类型为ADAR编辑的转录本(包括蛋白编码基因、lncRNA)和编辑簇(TsRegions),筛选逻辑为:通过TSniffer de novo模式从头检测编辑簇→与ADAR敲除样本比较去除非ADAR编辑的背景→过滤得到高置信度编辑区域(TsSites≥5、CI≥0.85)→关联到注释转录本;验证逻辑为:多重复样本验证重复性→与公开编辑数据库(REDIportal)比较验证准确性→跨物种比较验证保守性。
研究过程详述
Biomarker来源包括小鼠脑组织、人HeLa细胞、人原代脑组织、雪貂PBMC的RNA-seq数据;验证方法包括:通过ADAR敲除样本验证编辑的ADAR依赖性,WT样本中编辑区域的RTF在DKO样本中显著降低(CI≥0.85);通过与REDIportal数据库比对,小鼠脑组织中约43.5%的已知编辑位点被包含在TSniffer检测的编辑簇中;特异性与敏感性数据:小鼠WT样本中靶标TsRegions比非靶标富集7.5倍(n=3,文献未明确P值,基于图表趋势推测);HeLa WT样本中,靶标TsRegions在DKO样本中的RTF降低90%以上(CI≥0.85);与JACUSA2相比,TSniffer的假阳性率降低约80%,DKO样本中仅检测到约10%的靶标位点。
核心成果提炼
鉴定出小鼠脑组织中4,377个高度编辑的转录本,人HeLa细胞中9,614个高度编辑的转录本,雪貂PBMC中9,259个高度编辑的转录本;发现ADAR1在高度编辑的转录本中起主导作用,ADAR2起辅助作用,部分转录本具有亚型特异性编辑偏好,如VOPP1主要由ADAR1编辑,CUX1主要由ADAR2编辑(统计学结果未明确提供);首次解析了雪貂的ADAR编辑组,证明ADAR编辑的靶标和机制在哺乳动物中高度保守,如IMMP2L、SMYD3等转录本在三个物种中均存在编辑;TSniffer检测的编辑簇可作为ADAR编辑活性的Biomarker,用于评估ADAR功能异常与疾病的关联,如自身免疫病、癌症中ADAR编辑活性的改变;该Biomarker的创新性在于通过无偏倚的从头检测,涵盖了大量未被数据库注释的新编辑簇,为ADAR编辑的功能研究提供了更全面的资源。
特别声明
1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。
2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。
3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。
4、投稿及合作请联系:info@biocloudy.com。