TSniffer: unbiased de novo identification of RNA editing sites and quantification of editing activity in RNA-seq data.

TSniffer:对 RNA 编辑位点进行无偏从头识别,并对 RNA-seq 数据中的编辑活性进行量化。

阅读:4
RNA editing by adenosine deaminases acting on RNA (ADARs) is an essential cellular process performed by three enzymes in mammals: ADAR1-p150, ADAR1-p110, and ADAR2, demonstrating different target specificity and selectivity. Here we describe TSniffer, a novel tool to analyze RNA editing in RNA-sequencing datasets. TSniffer uses a rolling window approach to identify editing sites and operates in two modes allowing identification and quantification in single samples, and quantification in predefined regions across multiple datasets. Using wild type and ADAR-deficient datasets, we provide strategies for identification of ADAR editing sites and verify the accuracy and biological relevance of our findings.

文献解析

1. 领域背景与文献引入

文献英文标题:TSniffer: a novel tool to accurately define ADAR editing regions in RNA-seq datasets and to quantify ADAR editing activity on an individual transcript level;发表期刊:Genome Biology;影响因子:17.906(2023年);研究领域:RNA生物学、生物信息学、ADAR介导的RNA编辑。

ADAR(作用于RNA的腺苷脱氨酶)介导的A-to-I RNA编辑是最常见的转录后修饰之一,自1987年首次发现以来,其在免疫调节、mRNA编码潜能调控、RNA二级结构改变等方面的功能逐渐被阐明。领域发展关键节点包括:2000年明确ADAR1在抑制天然免疫激活中的核心作用;2010年后随着RNA-seq技术的普及,编辑组(editome)研究成为热点;近年来,ADAR编辑异常与自身免疫病、癌症的关联受到广泛关注。当前研究热点集中在ADAR各亚型(ADAR1-p150、ADAR1-p110、ADAR2)的靶标选择性机制、编辑异常的疾病驱动作用、新型编辑检测工具的开发。未解决的核心问题包括:现有编辑检测工具难以无偏倚地从头识别编辑簇,且易受测序噪声和SNP干扰;ADAR1和ADAR2在靶标编辑中的分工机制尚未完全阐明;非模式生物的ADAR编辑组研究缺乏有效的工具支持。

研究空白:缺乏一种无需依赖已知编辑数据库、可实现单样本从头识别ADAR编辑簇、同时支持多样本定量分析的工具,限制了对非模式生物编辑组的解析和ADAR亚型靶标偏好的研究。文献研究初衷:开发TSniffer工具,解决现有工具的局限性,实现对ADAR编辑簇的准确识别和转录本水平的定量分析,为解析ADAR亚型的靶标选择性和编辑的功能提供技术支撑。

2. 文献综述解析

作者从编辑检测工具的技术策略和应用场景出发,对领域内现有研究进行分类,系统梳理了不同工具的优势与局限性,凸显了TSniffer工具的创新性和必要性。

现有ADAR编辑检测工具可分为三类:位点特异性检测工具(如JACUSA2、GIREMI),通过比对测序数据与参考基因组检测单个编辑位点,优势是能检测低频率的单个编辑位点,局限性是易受测序噪声和SNP干扰,假阳性率高,无法有效识别编辑簇;窗口式检测工具(如LoDEI),通过两样本比较检测显著富集的编辑窗口,优势是能识别编辑簇,局限性是依赖两样本比较,无法实现单样本从头检测,窗口长度固定,灵活性不足;依赖数据库的工具(如RADAR、REDIportal),通过与已知编辑数据库比对注释编辑位点,优势是分析速度快,局限性是无法检测新的编辑簇,不适用于非模式生物。现有研究的关键结论包括:ADAR编辑主要发生在基因组重复元件(如人Alu、小鼠B1/B2、雪貂SINE/tRNA),在免疫调节中通过编辑双链RNA抑制天然免疫激活;ADAR1主要定位于细胞质,编辑成熟mRNA的UTR区域,ADAR2主要定位于细胞核,编辑前体mRNA的内含子区域。

TSniffer的创新价值体现在多个维度:采用1nt滚动窗口的Fisher精确检验策略,无需依赖已知编辑数据库,可实现单样本从头识别ADAR编辑簇,同时支持多样本定量分析;相比LoDEI,其窗口长度随编辑簇的实际范围动态调整,无需输入注释文件,适用于非模式生物的编辑组研究;相比位点特异性工具,通过富集ADAR特征性突变(AG、TC)并结合敲除样本过滤,能有效排除测序噪声和SNP的干扰,假阳性率更低;相比依赖数据库的工具,能检测新的编辑簇,拓展了编辑组研究的范围。

3. 研究思路总结与详细解析

本研究以开发并验证新型ADAR编辑簇检测工具TSniffer为核心,通过模式生物(小鼠、人)验证工具的准确性和可靠性,在非模式生物(雪貂)中验证工具的适用性,与现有工具比较评估性能,最终解析ADAR1和ADAR2的靶标编辑分工,形成“工具开发-多物种验证-性能评估-机制解析”的完整研究闭环。

3.1 TSniffer工具开发与核心算法设计

实验目的:开发一种无偏倚、高准确性的ADAR编辑簇检测工具,解决现有工具在单样本检测、非模式生物应用、假阳性控制等方面的局限性。
方法细节:工具以RNA-seq的BAM比对文件和对应参考基因组为输入,首先生成每个基因组位置的突变计数表,统计转换突变(AG、CT、GA、TC)和颠换突变的读段数;采用1nt滚动窗口(默认窗口大小100nt),针对每种转换突变类型(主要关注ADAR特征性的AG和TC突变),通过Fisher精确检验比较窗口内目标转换突变与其他突变的富集程度,筛选出显著富集的窗口;将重叠的显著窗口合并为编辑区域(TsRegions),重新计算每个区域的相对转换频率(RTF)、P值和编辑位点数(TsSites);工具支持两种分析模式:de novo模式用于单样本从头检测编辑簇,Regio模式用于预定义区域的多样本定量分析。
结果解读:工具输出的GFF文件包含编辑区域的基因组坐标、突变类型、RTF、P值、TsSites等关键信息,可直接在基因组浏览器(如IGV)中可视化;通过小鼠WT和ADAR1/2双敲除(DKO)样本的验证,WT样本中靶标TsRegions(AG、TC)的数量是非靶标TsRegions(CT、GA)的7.5倍,而DKO样本中无显著富集,说明工具能有效区分ADAR介导的编辑和背景噪声。


产品关联:文献未提及具体实验产品,领域常规使用STAR进行RNA-seq数据的剪接比对,GATK进行比对后处理,Bedtools进行基因组区域分析。

3.2 小鼠脑组织ADAR编辑组的解析与工具验证

实验目的:验证TSniffer在模式生物中的有效性,系统解析小鼠脑组织的ADAR编辑组特征。
方法细节:使用公开的小鼠WT和ADAR1/2 DKO脑组织RNA-seq数据集(各3个重复),首先通过TSniffer de novo模式分别检测每个样本的编辑簇;为提高检测灵敏度,合并3个重复样本的BAM文件进行分析;采用多步过滤策略去除假阳性:去除TsSites<5的区域,去除与DKO样本重叠度≥50%的区域,计算置信指数CI(CI=(WT RTF - DKO RTF)/WT RTF)并保留CI≥0.85的区域,最终得到高置信度的Mouse_85-5编辑数据集;通过Bedtools分析编辑区域与基因组元件(重复元件、基因区域、外显子/UTR、内含子)的关联,计算每个转录本的总编辑得分(∑WT RTF - ∑DKO RTF)。
结果解读:单个WT样本中检测到约12,000个TsRegions,单个DKO样本中约5,000个;合并样本后,WT中检测到的TsRegions数量翻倍,TsSites数量增加3倍;Mouse_85-5数据集包含13,113个靶标TsRegions和496个非靶标TsRegions,其中95%以上的靶标TsRegions位于重复元件(主要为SINE/B1和SINE/B2),92%位于注释基因内,且以内含子区域占比最高;共鉴定出4,377个高度编辑的转录本,与REDIportal数据库的比对显示,约43.5%的已知编辑位点被包含在TSniffer检测的编辑簇中,同时TSniffer检测到大量未在数据库中注释的编辑位点,证明工具的准确性和创新性。


产品关联:文献未提及具体实验产品,领域常规使用Trizol提取总RNA,Illumina NovaSeq平台进行RNA-seq测序。

3.3 人HeLa细胞中ADAR1和ADAR2的靶标偏好解析

实验目的:利用TSniffer工具解析ADAR1和ADAR2在人细胞中的靶标编辑分工,明确两种亚型的编辑偏好。
方法细节:通过CRISPR/Cas9n技术构建HeLa ADAR1/2双敲除(DKO)细胞系,Western blot验证敲除效率;收集WT、ADAR1单敲除(1KO)、DKO细胞的总RNA,进行RNA-seq测序;采用与小鼠样本相同的分析策略,通过TSniffer检测编辑簇并过滤得到HeLa_85-5数据集;通过比较WT与1KO的编辑水平差异计算ADAR1的编辑贡献,比较1KO与DKO的编辑水平差异计算ADAR2的编辑贡献,分析不同转录本中两种亚型的贡献比例。
结果解读:HeLa WT样本中检测到的靶标TsRegions在1KO中减少约56%,在DKO中减少约90%,说明ADAR2参与大部分编辑簇的编辑;ADAR1在高度编辑的转录本(TsSites≥150)中起主导作用,贡献比例超过70%,而ADAR2在编辑水平较低的转录本中贡献比例更高;部分转录本具有亚型特异性编辑偏好,如VOPP1、APOOL主要由ADAR1编辑,CUX1、FIRRE主要由ADAR2编辑;编辑区域主要位于重复元件(SINE/Alu)和基因的内含子区域,约三分之一的蛋白编码基因和十分之一的长非编码RNA(lncRNA)存在ADAR编辑。


产品关联:实验所用关键产品:兔抗ADAR1抗体(Cell Signaling #14175)、小鼠抗ADAR2抗体(Millipore Sigma #MABE889)、小鼠抗beta-actin抗体(Sigma-Aldrich #A3854);高糖D-MEM培养基(Sigma-Aldrich #D6546)、胎牛血清(Thermo Fisher Gibco #10500064);Trizol(Thermo Fisher Invitrogen #15596026)提取RNA。

3.4 人原代脑组织与细胞系编辑组的比较分析

实验目的:验证TSniffer在原代组织中的有效性,比较细胞系与原代组织的ADAR编辑组差异,明确编辑的组织特异性。
方法细节:选取GTEx数据库中3个高测序深度的人脑组织RNA-seq数据集,通过TSniffer de novo模式检测编辑簇;合并3个样本的BAM文件以提高检测灵敏度,过滤得到Brain_m100-5数据集(TsSites≥5);通过Bedtools分析编辑区域的基因组特征,计算转录本水平的编辑得分;将人脑组织的编辑组与HeLa细胞的编辑组进行比较,分析重叠和差异转录本,并通过差异基因表达分析解释差异原因。
结果解读:人脑组织中检测到约70,000个TsRegions,包含超过120万个TsSites;85%的靶标TsRegions位于注释基因内,主要位于内含子区域;与HeLa细胞的编辑组有大量重叠,如FTX、NDUFS1、VOPP1等转录本在两种样本中均高度编辑;部分转录本仅在脑组织中编辑,如IL3RA、ZNF83、STAG3,而部分HeLa细胞中的编辑转录本未在脑组织中检测到,如CUX1、FIRRE;差异主要由基因表达水平不同导致,未检测到编辑的转录本在对应组织中表达量极低或不表达。


产品关联:文献未提及具体实验产品,领域常规使用GTEx数据库的公开RNA-seq数据,采用STAR进行比对分析。

3.5 雪貂PBMC中ADAR编辑组的解析与工具适用性验证

实验目的:验证TSniffer在非模式生物中的适用性,解析雪貂的ADAR编辑组特征,探索ADAR编辑机制的哺乳动物保守性。
方法细节:从3只雪貂中分离外周血单个核细胞(PBMC),经植物血凝素-M(PHA-M)刺激72小时后提取总RNA,进行RNA-seq测序;合并3个样本的BAM文件,通过TSniffer de novo模式检测编辑簇;过滤得到TsSites≥5的编辑区域,分析编辑区域与基因组元件的关联,鉴定高度编辑的转录本,并与人和小鼠的编辑转录本比较保守性。
结果解读:雪貂PBMC中检测到约89,000个TsRegions,92%的靶标TsRegions位于重复元件(主要为SINE/tRNA和LINE/L1);约60%的TsRegions位于注释基因内,内含子区域占比最高;共鉴定出9,259个含编辑区域的转录本,其中部分转录本与人和小鼠的编辑转录本保守,如IMMP2L、SMYD3、PDE3B,说明ADAR编辑机制在哺乳动物中高度保守;由于雪貂基因组注释不完善,检测到的非靶标TsRegions比例较高,提示TSniffer在基因组注释较差的物种中仍能有效检测ADAR编辑簇。


产品关联:实验所用关键产品:Histopaque-1077(Sigma-Aldrich #10771)分离PBMC;植物血凝素-M(Sigma-Aldrich #11082132001)刺激细胞;Trizol(Thermo Fisher Invitrogen #15596026)提取RNA。

3.6 TSniffer与现有编辑检测工具的性能比较

实验目的:系统评估TSniffer的性能,与现有工具(JACUSA2、GIREMI、LoDEI)比较准确性、灵敏度和适用性。
方法细节:使用HeLa WT和DKO的RNA-seq数据,分别用TSniffer de novo、JACUSA2 call-1、GIREMI、LoDEI检测编辑位点/区域;比较各工具检测结果的重叠度、在DKO样本中的假阳性率、编辑簇的覆盖范围;针对已知的编辑簇(如VOPP1的3’UTR),比较各工具检测的编辑位点数和区域覆盖度。
结果解读:与JACUSA2相比,TSniffer检测的靶标编辑位点在DKO样本中极少,假阳性率更低,而JACUSA2在DKO样本中仍检测到大量靶标位点,说明TSniffer能有效排除非ADAR编辑的突变;与GIREMI相比,TSniffer能检测到更多编辑簇内的位点,覆盖范围更广,GIREMI主要检测单个编辑位点,对编辑簇的覆盖不完整;与LoDEI相比,TSniffer的编辑区域长度更灵活,能更好地匹配编辑簇的实际范围,且无需两样本比较,可实现单样本从头检测;TSniffer与LoDEI检测的编辑区域重叠度约72.5%,编辑得分的相关性较高,说明两种工具的定量结果具有一致性。


产品关联:文献未提及具体实验产品,领域常规使用各工具的默认参数进行分析,采用Bedtools进行区域重叠比较。

4. Biomarker研究及发现成果解析

本研究中涉及的Biomarker为ADAR编辑的转录本及编辑簇,通过TSniffer工具的无偏倚检测和多步过滤,鉴定出多个物种中高度保守的ADAR编辑转录本,明确了ADAR1和ADAR2的靶标偏好,为ADAR编辑的功能研究和疾病关联分析提供了核心资源。

Biomarker定位

文献中涉及的Biomarker类型为ADAR编辑的转录本(包括蛋白编码基因、lncRNA)和编辑簇(TsRegions),筛选逻辑为:通过TSniffer de novo模式从头检测编辑簇→与ADAR敲除样本比较去除非ADAR编辑的背景→过滤得到高置信度编辑区域(TsSites≥5、CI≥0.85)→关联到注释转录本;验证逻辑为:多重复样本验证重复性→与公开编辑数据库(REDIportal)比较验证准确性→跨物种比较验证保守性。

研究过程详述

Biomarker来源包括小鼠脑组织、人HeLa细胞、人原代脑组织、雪貂PBMC的RNA-seq数据;验证方法包括:通过ADAR敲除样本验证编辑的ADAR依赖性,WT样本中编辑区域的RTF在DKO样本中显著降低(CI≥0.85);通过与REDIportal数据库比对,小鼠脑组织中约43.5%的已知编辑位点被包含在TSniffer检测的编辑簇中;特异性与敏感性数据:小鼠WT样本中靶标TsRegions比非靶标富集7.5倍(n=3,文献未明确P值,基于图表趋势推测);HeLa WT样本中,靶标TsRegions在DKO样本中的RTF降低90%以上(CI≥0.85);与JACUSA2相比,TSniffer的假阳性率降低约80%,DKO样本中仅检测到约10%的靶标位点。

核心成果提炼

鉴定出小鼠脑组织中4,377个高度编辑的转录本,人HeLa细胞中9,614个高度编辑的转录本,雪貂PBMC中9,259个高度编辑的转录本;发现ADAR1在高度编辑的转录本中起主导作用,ADAR2起辅助作用,部分转录本具有亚型特异性编辑偏好,如VOPP1主要由ADAR1编辑,CUX1主要由ADAR2编辑(统计学结果未明确提供);首次解析了雪貂的ADAR编辑组,证明ADAR编辑的靶标和机制在哺乳动物中高度保守,如IMMP2L、SMYD3等转录本在三个物种中均存在编辑;TSniffer检测的编辑簇可作为ADAR编辑活性的Biomarker,用于评估ADAR功能异常与疾病的关联,如自身免疫病、癌症中ADAR编辑活性的改变;该Biomarker的创新性在于通过无偏倚的从头检测,涵盖了大量未被数据库注释的新编辑簇,为ADAR编辑的功能研究提供了更全面的资源。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。