研究文章新冠病毒

SARS-CoV-2转录组中依赖宿主的RNA编辑的证据

查看全部隐藏 作者和从属关系

科学进步  2020年6月17日:
卷6号25,eabb5813
DOI:10.1126 / sciadv.abb5813
载入中

抽象

COVID-19爆发已成为全球性健康风险,了解宿主对SARS-CoV-2病毒的反应将有助于抵抗该疾病。宿主脱氨酶的RNA编辑是对抗病毒感染的先天限制过程,但尚不清楚该过程是否针对冠状病毒起作用。在这里,我们分析了冠状病毒感染患者的支气管肺泡灌洗液中的RNA序列。我们鉴定出可能是RNA编辑特征的核苷酸变化:ADAR脱氨酶的腺苷到肌苷变化和APOBEC脱氨酶的胞嘧啶到尿嘧啶变化。对来自人类宿主的冠状病毒科不同菌株的基因组进行突变分析,发现其突变模式与转录组数据中观察到的一致。但是,这些数据中减少的ADAR签名增加了ADAR在限制病毒繁殖方面可能比APOBEC更有效的可能性。因此,我们的结果表明,APOBEC和ADAR都参与冠状病毒基因组编辑,这一过程可能会影响病毒和患者的命运。

介绍

新兴病毒感染对全球健康构成威胁,最近由严重急性呼吸系统综合症冠状病毒2(SARS-CoV-2,新型冠状病毒,2019-nCoV)引起的新型冠状病毒病2019(COVID-19)的爆发证明了这一风险(1, 2)。由于病毒是细胞内的寄生虫,生物已发展出先天免疫机制来感知和抵抗病毒。在这些机制中,内源性脱氨酶介导的RNA和DNA编辑可以提供针对特定病毒的有效防御。哺乳动物物种中存在两个脱氨酶家族:ADAR(作用于RNA的腺苷脱氨酶)靶向双链RNA(dsRNA),用于将腺嘌呤脱氨成肌苷(A到I)(3, 4),而APOBEC在单链核酸[单链DNA(ssDNA)和单链RNA(ssRNA)]上将胞嘧啶脱氨成尿嘧啶(C-to-U)(5, 6)。在病毒感染期间,ADAR要么通过病毒RNA的超突变直接起作用,要么通过编辑调节细胞应答的宿主转录本间接起作用(718)。另一方面,APOBECs靶向病毒基因组,通常是DNA中间体(1926),或者通过C到U的超变或通过非酶途径干扰逆转录(27, 28)。尽管某些APOBEC3蛋白可以在体外干扰冠状病毒的复制,但尚不清楚它们是否涉及酶促活性(29)。最终,尽管如此,这些限制系统也可以被病毒利用,以支持其传染性并增加其进化潜力(9, 1115, 3032)。

结果

为了评估RNA编辑是否可能参与人类宿主对SARS-CoV-2感染的反应,我们从可得自诊断为COVID-19的患者的支气管肺泡灌洗液(BALF)的可公开获得的RNA测序数据集开始。尽管所有样品的转录组数据都可以与SARS-CoV-2参考基因组进行比对,但测序的质量却有所不同,只有八个样品的覆盖率和错误率适合识别潜在的编辑位点(数据S1)。我们在这8个样本上将单核苷酸变体(SNV)称为33, 34)使用REDItools 2(3537)和JACUSA(38),使用以下阈值:支持SNV≥4的读物,等位基因分数≥0.5%,覆盖率≥20,读物的质量>25, base quality >35(图S1A)。两条管道给出的结果可比,两者调用的SNV位置约为50%(图S1B和S2)。我们确定了REDVtools 2和JACUSA共有910个SNV,每个样本的范围为24到238个SNV(Fig. 1 和数据S3)。给定用于调用SNV的阈值,具有较低测序深度的样品显示的SNV数量较少。

Fig. 1 在SARS-CoV-2转录组中鉴定的SNV。

条形图显示了在每种SAV类型的每个SARS-CoV-2转录组中识别出的SNV数量(例如,A>C,AC)。显示了每个样品的测序深度。

每种SNV类型的权重因样本而异(Fig. 1),始终会出现过渡偏向,当汇总所有突变数据时,这一点就更加明显(图2,A和B)。即使仅考虑在更多样本中重复出现的SNV,此模式仍然适用(图2C)。

Fig. 2 在SARS-CoV-2转录组中鉴定的SNV。

(A)等位基因分数和(B)整个数据集中每个核苷酸变化的SNV数量,以及(C),以在至少两个样本中重复出现的SNV。 (D)SNV在SARS-CoV-2基因组中的分布。 A至G(蓝色)和C至U(红色)SNV分为400个核苷酸(nt)单元,并根据编辑后的链在图上(AG和CT)或线下(TC和GA)绘制。点(白色/黑色)表示重复的SNV。 SARS-CoV-2的遗传组织(上)。深色/白色阴影表示病毒编码序列。所有分析样品的覆盖范围分布(底部)。

SNV的频率和转化次数与冠状病毒中观察到的突变率兼容[10–6/−7; (39)],通常与依赖RNA的RNA聚合酶(RdRps)相关。 RdRps容易出错,被认为是RNA病毒突变的主要来源。但是,冠状病毒 nsp14-ExoN 基因提供了一种错误校正形式(40),这可能是冠状病毒中的突变率低于基因组较小的RNA病毒中的突变率的原因。 SARS准种的突变谱对U-to-G的偏倚非常弱。 nsp14-ExoN错误校正的失活揭示了RdRp的突变谱,这与我们观察到的模式有很大不同(即主要变化是C到A,然后是U到C,G到U, A到C和U到G)(41)。因此,我们认为从RdRp误差得出的SNV代表SARS-CoV-2样本中SNV的边缘部分。

对过渡的偏见-主要是A>G/T>C变化-类似于在人类转录组中观察到的SNV模式( 42)或病毒(8, 10, 18),其中A>G变化源自ADAR对A-to-I的脱氨基作用。因此,很可能A>G/T>SARS-CoV-2中出现的C变化也归因于ADAR的作用。

C>T 和 G>SNV是第二大变化组,可以源自APOBEC介导的C-U脱氨。与A-to-I编辑不同,C-to-U编辑是人类转录组中相对罕见的现象( 42),并且对于病毒,它仅与正义ssRNA风疹病毒(32),其中C>T变化代表主要的SNV类型。观察到,在感染无脊椎动物的RNA病毒中仅存在从A到I的编辑,而没有RNA靶向的APOBEC(10, 18),支持APOBEC参与这种靶向人类病毒的RNA编辑的假设。

第三批SNV,A>T/T>这些样品中也存在颠换现象。尽管其他基因组学研究已经报道了这种类型的SNV(43),其来源仍然未知。

A>G 和 T>C变化相对于SNV频率均匀表示(图2A),唯一SNV的数量(图2,B和C)及其在病毒基因组中的分布(图2D)。由于ADAR靶向dsRNA,这表明dsRNA涵盖了整个基因组。尽管人类转录本中的dsRNA通常是由反向重复驱动的,但病毒转录本中dsRNA的最可能来源是复制,复制中同时存在正链和负链,并可能导致dsRNA的广泛区域。

与从A到I的变化不同,从C到U的变化偏向正链(图2,B到D; P <0.0001)。由于ADAR和APOBEC选择性地靶向dsRNA和ssRNA,因此这种分布可能是由于始终存在的RNA在双链之间(当转录负义RNA时)与单链(在新生RNA释放时)之间存在动态平衡而产生的。尽管某些区域的SNV似乎较少,但这些SNV频率降低可能与这些区域中较低的测序深度有关。

由于APOBEC脱氨酶优先靶向特定序列背景下的胞嘧啶,因此我们分析了病毒基因组中A对I和C对U SNV的核苷酸环境(图3,A和B)。在A对I编辑的位置,位置-1的G碱基略有耗尽。这种耗竭的强度不如先前人类转录本中报道的信号(4447)。 The low editing frequencies we observe resembles the editing present 上 human transcripts containing Alu sequences, which were found in a limited number in those 早 datasets. There is no evidence of a sequence context preference if we use a larger dataset such as REDIportal (48), 包括>Alu中有150万个重复位点(图S3)。

Fig. 3 SARS-CoV-2 核糖核酸编辑位点的序列背景。

(A)病毒转录组中A对I和C对U编辑位点的局部序列背景和(B)(针对重复出现的网站)。

另一方面,在类似APOBEC1介导的脱氨([AU] C [AU])的序列环境中,C到U的变化优先发生在尿苷和腺苷的下游(49, 50)。

然后,我们对来自SARS-CoV-2,中东呼吸综合征相关冠状病毒(MERS-CoV)和SARS-CoV的可用基因组进行了比对,以测试RNA编辑是否可能与通过进化获得的某些突变有关。基因组比对表明,所有菌株中的大部分突变都可能来自酶促脱氨作用(图4,A至C),而且C-to-U突变的发生率很高,而且基因组C-to-SN SNV中也存在与APOBEC介导的编辑兼容的序列背景(图4,D至F)。

Fig. 4 跨冠状病毒科菌株的核苷酸变化。

(AC)每个核苷酸变化的SNV数量和(DF)SARS-CoV-2(A和D),人源MERS-CoV(B和E)和人源SARS-CoV(C和F )。

讨论

我们的数据源(基因组测序)提出了一个问题,即我们观察到的低水平编辑(〜1%)是否反映了人类细胞内病毒转录本的实际编辑水平。除了一小部分以高频率编辑的细胞转录物外,人类转录组中大多数ADAR编辑的位点(通常在Alu序列内部)的编辑水平约为1%(4, 42, 51)。研究表明,部分细胞转录物被ADAR过度编辑(5254)。尽管我们无法在宏基因组学样本中观察到超编辑的读物,但超编辑的转录本可能无法包装到病毒中。

关于APOBEC介导的RNA编辑,其在病毒转录组中的检测已经具有指示性,因为这种编辑类型在人体组织中几乎无法检测到(42)。该富集指向由冠状病毒感染触发的APOBEC的诱导或指向病毒转录物的APOBEC的特异性靶向。在实验条件下,APOBEC已被证明对许多病毒物种有效,但是,直到现在,它们在临床环境中的突变活性仅在少数病毒感染中得到证实(1926),通过DNA编辑,在风疹病毒中,在RNA上( 32)。

与风疹病毒一样,我们观察到APOBEC编辑偏向正链。这种偏倚和较低的编辑频率可能表明病毒的动力学,从转录到可行基因组的选择。合理地假设,在负义链上编辑的位点将导致中等水平的编辑频率,因为并非所有负义转录本都将被编辑(图5A)。另一方面,正义链的编辑可在病毒基因组进入时发生,从而产生高频编辑(图5B)或病毒基因组复制后,导致低频编辑(图5C)。缺少相当一部分经过高度编辑的C>T SNVs suggests that 亚太经合组织 editing occurs 晚的 in the viral life cycle (图5C)。但是,因为它们发生得较早,所以G>SNV的数量应更接近C>T SNV并具有较高的编辑级别,这不是我们观察到的(图2,A至C)。 C的过度代表>T SNV可能是由于正向转录物的不平衡所致,因为它们一直是由负向转录物连续生成的(并且双链杂交RNA丢失了)。但是,G的编辑频率>SNV应该更高,例如G>SNV在C的上游生成>T个。更为恰当的解释是,编辑负义转录本会导致编辑后的转录本丢失(图5D),可能是因为编辑触发了胡说八道的衰减(55),从而降低了被编辑站点被发送的机会。

Fig. 5 SARS-CoV-2转录组的APOBEC 核糖核酸编辑模型。

四个面板模拟了编辑频率和C>在四种不同情况下预期的U / G / A比率:(A)对负义成绩单进行C到U编辑,(B)在病毒复制之前对病毒基因组进行“早期”编辑,(C)病毒复制后的“后期”编辑,以及(D) “late”病毒复制后进行编辑,丢失负义转录本。红点表示对正转录本的编辑;橙色点表示对正转录本进行编辑。绿色和蓝色部分分别表示阳性和阴性的病毒转录本。

由于大多数APOBEC无法靶向RNA,因此,唯一具有特征性的靶向胞苷的脱氨基酶是APOBEC1(主要在胃肠道中表达)和APOBEC3A(56),其生理作用尚不清楚。与A-to-I编辑一样,评估感染细胞中APOBEC 核糖核酸编辑的真实程度也很重要。

SARS-CoV-2中RNA编辑的功能含义尚待了解:在其他情况下,病毒基因组的编辑决定其灭亡或助长其进化。对于DNA病毒,选择是间接的,因为基因组会不断进化以减少可能有害的可编辑位点(例如,(18)],但是对于RNA病毒,这种压力甚至更大,因为RNA编辑会直接影响遗传信息,而有效编辑的位点会消失。

通过转录组学和基因组分析对SNV数据集进行比较,发现A到I和C到U变化的权重不同(无花果2B4A),而病毒基因组中A对I的代表​​性不足。由于我们的分析由于使用了严格的参数而低估了编辑量,因此A-to-I更改的代表性不足可能是因为A-i-I编辑更有效地限制了病毒的传播,从而减少了病毒后代显示出这些变化的证据。相反,C-U编辑效率不高的残留物保留在病毒后代中,并在病毒适应过程中被固定。

由于到目前为止收集到的事件数量很少,因此难以分析突变结果,但是可能存在一些暗示性趋势(数据S2)。导致终止密码子的从C到U的变化在转录组数据中过分代表,但正如预期的那样,在基因组数据集中消失了。这可能再次表明这些编辑酶具有抗病毒作用。 C的代表性不足>Tenseense突变,但其含义难以解释。

最后,该分析是了解RNA编辑在病毒复制中的作用的第一步,它可能导致临床相关的结果:(i)如果这些酶与宿主对冠状病毒感染的反应相关,则在多态性中很常见中国人口,包括末日 亚太经合组织3A 和大多数 亚太经合组织3B (57, 58),可能在感染传播中起作用。 (ii)因为RNA编辑和选择在病毒的进化中是正交的,所以将编辑后的基因组位点与突变后的基因组位点进行比较可能会导致潜在地选择可用于治疗用途的病毒区域。

材料和方法

排序数据

从项目PRJNA601736,PRJNA603194和PRJNA605907获得的RNA测序数据是从国家生物技术信息中心(NCBI; //www.ncbi.nlm.nih.gov/sra/),通过以下命令行使用SRA工具包中的FASTQ转储实用程序:

预取-v SRR *&&fastq转储--outdir / path_dir / | --split-files /path_dir/SRR*.sra

由于PRJNA605907的大多数样本读数都缺少其配对,因此这些样本的正向读取和反向读取已合并到单个FASTQ中,这被视为单端实验。序列运行的详细信息汇总在数据S1中。

数据预处理

SRR11059940,SRR11059941,SRR11059942和SRR11059945在读取的末端部分显示出降低的测序质量。我们使用了TRIMMOMATIC( 59)使用以下命令行将这些样本的读数修整为100个碱基对(bp):

rimmomatic SE SRR * .fastq SRR * .trimmed.fastq CROP:100

我们使用Burrows-Wheeler 阿里gner(60),使用SARS-CoV-2的正式序列(NC_045512.2)作为参考基因组。对齐后,使用SAMtools对BAM文件进行排序(61)。

用于配对端样本的命令行如下:

bwa mem NC_045512.2.fa SRR * _1.fastq SRR * _2.fastq | samtools排序–O BAM -o SRR * _。bam

用于单端样本的命令行如下:

bwa mem NC_045512.2.fa SRR * .fastq | samtools排序–O BAM -o SRR * _。bam

对齐的bam已使用QUALIMAP(62)。由于QUALIMAP报告的错误率很高,因此已从分析中删除了样品SRR11059943和SRR10971381。

SNV呼叫

整个管道的示意图如图2所示。 S1A。我们使用了REDItools 2(35, 37)和JACUSA(38)使用以下命令行调用SNV:

python2.7 reditools.py -f SRR * .bam -o SRR10903401_stat_table_allPos.txt -S -s 0 -os 4 -m /homol_site/SRR*_homopol.txt -c SRR * _homopol.txt -r /Reference/NC_045512.2 .fa -a SRR * _stat_table_allPos.txt -q 25 -bq 35 -mbp 15 -Mbp 15

jacusa call-1 -p 20 -r SRR * .vcf -a B,I,Y -s -f V -q 35 -m 25 SRR * .srt.bam

关于REDItools 2,我们从读取的开头或结尾开始删除了15个核苷酸内的所有SNV,以避免由于错位导致的假象。

为了避免由于线偏造成的潜在伪影,我们使用了根据GATK准则计算得出的AS_StrandOddsRatio参数(//gatk.broadinstitute.org/hc/en-us/articles/360040507111-AS-StrandOddsRatio),以及任何带有AS_StrandOddsRatio的突变>4已从数据集中删除。

Bcftools(61)已用于通过以下命令行来计算AS_StrandOddsRatio的正向和反向链(ADF和ADR)上的总等位基因深度:

mpileup -a格式/ AD,FORMAT / ADF,FORMAT / ADR,FORMAT / DP,FORMAT / SP -O v -A -C -I -d 1000000 -q 25 -Q 35 -f NC_045512.2.fa -o SRR * .vcf SRR * .srt.bam

考虑了REDItools 2和JACUSA生成的数据集共有的突变(n = 910;无花果。 S2和数据S3)。我们用于过滤SNV的阈值基于最小覆盖率(20个读数),支持读数的数量(至少四个突变读数),等位基因分数(0.5%),映射的读数的质量(>25),以及基本质量(>35)。在数据集中,只有六个SNV,其等位基因分数在30%到85%之间(C>T, 1; T>C, 3; G>T,2)。由于不存在等位基因分数较高的SNV,因此我们假定所有样品均来自同一病毒株。

重复的SNV已定义为至少两个样本中存在的SNV。为了克服具有较低测序深度的样品的问题,我们使用了REDItools 2和JACUSA通用的SNV的位置来再次调用SNV,而与支持读取的次数无关。

资料处理

使用R程序包(生物字符串,rsamtools,ggseqlogo ggplot2和splitstackshape)和自定义Perl脚本来处理数据。

序列上下文分析

使用汇总的数据集或重复的SNV的数据集,使用ggseqlogo计算徽标对齐。使用REDIportal(48),至少由四个样本共享。使用GenomicRanges R程序包(Logi)准备了SARS-CoV-2,SARS和MERS基因组数据用于Logi比对(63)。

SNV调用SARS-CoV-2,SARS和MERS的基因组数据

在NCBI病毒中选择了MERS(taxid:1335626)和SARS(taxid:694009)的病毒基因组序列(//www.ncbi.nlm.nih.gov/labs/virus/vssi/#/),请使用以下查询:主机:智人(人类),出租车:9606; -核苷酸序列类型:完整。使用“对齐”实用程序对齐它们。 SARS和MERS基因组的共有序列是使用EMBOSS套件中的“ cons”工具建立的(http://bioinfo.nhri.org.tw/gui/)的默认设置。 SARS-CoV-2基因组序列从GISAID(//www.gisaid.org/)并与MUSCLE(64)。

通过将病毒基因组序列与各自的共有序列进行比较,或者将SARS-CoV-2与NC_045512.2参考序列进行比较,可以使用定制的R脚本调用SNV。在数据S3至S5中提供了SNV,病毒共有序列和冠状病毒科基因组序列标识符。

SNV注释

编码序列上出现的SNV(来自基因组SNV和体细胞SNV集)已用自定义R脚本进行注解,以确定核苷酸变化的结果(无义/无义/同义突变)。在数据S2中报告总结。

统计分析

R基本软件包中的fisher.test()函数已用于所有统计测试。为了测试C到U偏向正链的重要性,我们比较了C>T/G>SNV计数为参考基因组上C / G碱基的计数。对于 P 如数据S2所示,已生成“ 核糖核酸与参考”,“ DNA与参考”和“基因组与RNA”的2×2列联表。

补充材料

有关本文的补充材料,请访问: http://advances.cqonlead.com/cgi/content/full/sciadv.abb5813/DC1

这是根据以下条款分发的开放获取文章 知识共享署名-非商业许可,它允许在任何介质中使用,分发和复制,只要最终的使用是 出于商业利益,并提供了适当引用的原始作品。

参考和注释

致谢: 为了纪念李文亮,卡洛·厄巴尼(Carlo Urbani)以及所有在流行病斗争中危及生命的医生和卫生工作者。我们感谢并感谢所有共享数据的作者。我们衷心感谢本研究基于的GISAID EpiFlu数据库序列的作者,发起实验室和提交实验室。该列表在数据S6中详细说明。感谢Ernesto 皮卡迪对REDItools2的支持。 资金: 这项研究得到了部长部长Salute(PE-2013-02357669)和AIRC(IG-17701)的资助。 作者贡献: 概念化:S.D.G.,F.M.,M.G.T.,G.M。和S.G.C .;形式分析,调查和软件:S.D.G。和F.M .;可视化写作(原件):G.M.和S.G.C.写作(审查和编辑):S.D.G.,F.M.,MTG.T.,G.M。和S.G.C. 利益争夺: 作者宣称他们没有竞争利益。 数据和材料可用性: 测序和基因组数据可通过NCBI SRA,病毒库和GISAID获得。 SNV数据集也可以通过UCSC基因组浏览器获得,网址为: http://genome.ucsc.edu/s/Max/conticello2020.
查看摘要

保持联系 科学进步

浏览本文