研究文章人类遗传学

在非洲人口中恢复鬼古渗入的信号

看到所有隐藏 作者和从属关系

科学进步  12 Feb 2020:
卷6号7,eaax5097
DOI:10.1126 / sciadv.aax5097
载入中

抽象的

虽然在非洲以外的现代人类中已经记录了尼安德特人和丹尼索瓦人的渗入,但人们对古人味素对当今非洲人遗传变异的贡献知之甚少。我们提供了补充证据,证明古希腊渗入了四个西非人口。我们对现场频谱的分析表明,这些种群的遗传祖先有2%至19%来自于在尼安德特人和现代人类分裂之前就已经分化的古老种群。使用无需参考古基因组即可识别古血统片段的方法,我们在约鲁巴和门德种群中建立了全基因组的古血统地图。对这些图谱的分析揭示了这些种群中高频率的古谱系片段,这些片段代表了适应性渗入的潜在目标。我们的结果表明,古代血统在塑造当今西非人口的基因库中做出了重大贡献。

介绍

外加剂一直是塑造人类遗传变异模式的主导力量(1)。比较古人类蛋白和当今人类的基因组序列,已记录了多种杂交事件,包括从尼安德特人流向所有非非洲人祖先的基因流(2),从Denisovans到大洋洲(3)和东部非非洲地区(4, 5),以及从早期的现代人类到尼安德特人(6)。然而,稀疏的化石记录和获取古代DNA的困难使解剖古人类对人类遗传多样性的贡献具有挑战性。尽管多项研究表明,深厚的血统对当今非洲人的血统做出了贡献(712),这些贡献的性质仍然知之甚少。

结果

我们利用了来自当今西非种群和古人类的全基因组序列数据来计算对这些种群的历史渗入敏感的统计数据。具体来说,我们以单核苷酸多态性(SNPs)列出了分析的非洲人群中衍生的等位基因(其中的衍生等位基因是相对于推断的人类祖先确定的)的频率分布,其中从古人随机取样的等位基因是观察到也可以得出。理论预测,当等位基因在人口模型下中性进化时,该条件位点频谱(CSFS)有望均匀分布,在该人口模型中,假定现代和古人类的祖先处于突变漂移平衡,并且没有后续基因分裂两组之间的流动(13, 14)。对于现代人口或古代人口历史上人口规模变化的假设,这种期望是可靠的。此外,我们表明,即使在古老种群的历史中存在种群结构或基因流,这种期望仍然成立(请参阅材料和方法)。

我们计算了CSFSYRI,N:来自伊巴丹(YRI)的约鲁巴(Yoruba)的CSFS,同时限于从高覆盖率Vindija尼安德特人(N)基因组中随机取样的等位基因被衍生的SNP(15)。与理论上预期的均匀频谱相反,我们观察到CSFSYRI,N 呈U形,相对于中等频率的SNP,具有低频和高频等位基因的SNP比例增加(Fig. 1 和图。 S4)。当我们用高覆盖率的Denisova基因组替换Vindija尼安德特人基因组时,CSFS几乎相同(Fig. 1 和 fig. S4) (4)。我们在1000个基因组阶段中观察到的另外三个西非人群[尼日利亚的埃桑(ESN),冈比亚的西部分区的冈比亚(GWD)和塞拉利昂的门德(MSL)]中都观察到类似的U型CSFS。 3个数据集(图S4)。

Fig. 1 人口统计学将已知和建议的古血统与现代人类联系起来。

(A)具有CSFS适合性的基本受众特征模型。西非人W Afr;欧元,欧洲; N,尼安德特人; D,德尼索瓦; UA,未知的古风[请参阅(18)]。下面,我们显示了西非YRI的CSFS仅限于从高覆盖率Vindija Neanderthal随机取样的等位基因被观察到的SNPs [Neanderthal(数据)],以及从高覆盖率Vindija Neanderthal随机取样的等位基因的情况。观察到覆盖了Denisovan基因组[Denisovan(数据)]。我们还显示了在建议的模型[尼安德特人(模型)和杰尼索娃(模型)]下的CSFS。欧洲和西非之间的迁徙引入了过多的低频变体,但没有捕捉到中频变体的减少和高频变体的增加。 (B)新近提出的模型涉及从未知的人类素渗入现代人类祖先,而人类激素在现代人类与尼安德特人和丹尼索瓦人的祖先分裂之前就已经与人类祖先分离了。下面,我们显示了所提出模型的CSFS拟合,该模型捕获了数据中观察到的U形。

突变偏倚,确定祖先等位基因或古等位基因的错误或复发突变都可能产生观察到的CSFS。我们确认CSFS的形状YRI,N 对于仅包含过渡突变,仅包含突变突变,​​排除超突变CpG位点(图S7),以及在我们计算在1000个基因组1期数据集中分别测序的约鲁巴基因组上的光谱时,鲁棒性强S7)。

我们通过限制可能出现中性进化的区域(通过限制具有背景选择估计值的位点)来验证该信号对于重组率和背景选择的变化具有鲁棒性 B statistic, >800)。我们还通过排除弱到强和强到弱多态性来评估偏向基因转换的影响。我们发现,U形信号对于重组率,背景选择和偏向基因转换的变化具有鲁棒性(图S10)。确定祖先等位基因的错误可能会使低频祖先等位基因看起来是高频衍生的等位基因,反之亦然,因此有可能导致U型CSFS。但是,当我们使用黑猩猩基因组或猩猩和黑猩猩基因组的共有序列来确定祖先等位基因时,CSFS的形状在质上保持不变(图S9)。我们模拟了祖先等位基因的错误识别和高覆盖率的古基因组中基因型调用的错误。要对数据进行拟合,既需要原始基因组中15%的祖先错误识别率和3%的基因分型错误率,也要大大高于先前对这些错误率的估计[Enredo-Pecan-Ortheus(EPO中祖先错误识别率的1% )祖先序列(16)和0.6%的现代人类在Vindija Neanderthal(15)](S1.1节和图S11)。为了探究循环突变的作用,我们使用了允许循环突变的时间前向仿真:模拟的CSFS与我们在数据中看到的U形CSFS不一样(图S43)。总之,这些结果表明,在非洲人群中观察到的U形CSFS不是人工产物。

为了确定人类历史的现实模型是否可以解释CSFS,我们将通过合并模拟估算的CSFS与观察到的CSFS进行了比较YRI,N 使用拟合优度测试(请参阅材料和方法以及S2部分)。我们扩充了当今非洲人的人口历史模型(17),并采用普吕弗(Prüfer)推断的尼安德特人和丹尼索瓦人的历史模型 等。 (15 )( Fig. 1 和无花果。 S1和S16)。该模型包括尼安德特人,丹尼索瓦人和现代人口之间的关键杂交事件,例如从尼安德特人向非非洲人的渗入,从早期现代人向尼安德特人的渗入(6),然后从一个未知的古人口进入Denisovans(18)。结果模型无法拟合观察到的CSFSYRI,N [P 正态分布残差的Kolmogorov-Smirnov(KS)测试的数值 P < 2 × 10−16]。该模型的扩展包括沿基因组的突变和重组率的实际变化(KS P < 2 × 10−16;如图。 S12和S1部分),以及通过欧洲人和非洲人之间的迁徙而引入非洲人群的尼安德特人DNA含量低,无法提供足够的适应性(KS P < 2 × 10−16; Fig. 1 和S1节),也没有先前提出的YRI和侏儒种群之间的基因流动模型(KS P < 2 × 10−16;如图。 S12和S1部分)(19)。 CSFS跨等位基因频率均匀分布的期望基于对现代人类,尼安德特人和丹尼索瓦人祖先的种群中突变漂移均衡的假设。我们确认违反此假设(由于瓶颈,扩展和祖先人口的人口结构)也无法拟合数据(KS P < 2 × 10−16 对于所有型号;部分S2,表S3和图。 S17)。

鉴于当前的所有人口统计模型都无法适应观察到的CSFS,我们探索了一些模型,其中,当今的西非人将其祖先的一部分追溯到(A)在尼安德特人和现代人类分裂后从祖先分裂而来的人口中, (B)在尼安德特人和现代人类分裂之后从尼安德特人的祖先分裂的人口,或(C)在尼安德特人和现代人类的祖先彼此分裂之前与现代人和尼安德特人的祖先分离的人口(图S2和S3部分)。这些混合物模型中的每一个(我们分别称为模型A,B和C)都可以产生U型CSFS。低等位基因频率SNPs计数的增加主要是由于在同质祖先等位基因固定的位点引入了来自渐渗种群的等位基因。高频SNP计数的增加很大程度上是由于在为衍生等位基因固定的位点引入了祖先等位基因。

搜索最适合CSFS的模型A和B的参数会产生三叉戟,即模型,其中渐渗人口与现代人尼安德特人同时从现代人中分离出来。模型A和模型B即使在最可能的参数估计下也无法拟合观察到的CSFS P = 3.3 × 10−15P = 5.6 × 10−6, 分别; (S3节),因为自渗入人口分裂以来非洲人口中的遗传漂移不足(S4.2节)。此外,我们在附录B中显示,模型A的光谱预计是对称的,在数据​​中未观察到(Fig. 1)。另一方面,模型C与数据一致(KS P = 0.09),这表明当今西非人的血统一定来自于在尼安德特人和现代人类分裂之前就已经分化的人口。除了拟合优度检验外,我们检查了每个模型的最佳拟合参数的可能性,并发现模型C的拟合度明显优于其他模型(模型C的复合对数似然性比模型C高。次佳模型Δℒℒ=ℒℒ次佳模型 − ℒℒC 当以Vindija尼安德特人基因组为条件时,= −6806;以Denisovan基因组为条件时,Δcondition = -6240;表S4和材料与方法)。我们的分析为古代幽灵种群对现代西非种群遗传祖先的贡献提供了支持,而古代幽灵种群与现代人类祖先的分化早于尼安德特人和现代人类的分裂。

我们对CSFS应用了近似贝叶斯计算(ABC),以完善我们最可能的人口统计模型(模型C)的参数(第S5节)。鉴于此人口统计模型中的参数很多,我们修复了之前估计的参数(15),并从尼安德特人和现代人类的祖先共同估算出渗入古人口的分裂时间,渗入时间,渗入人口贡献的祖先比例及其有效人口规模。我们确定分裂时间的后验均值是当前(B.P.)之前的625,000年[最高后密度间隔(HPD)的95%:360,000至975,000],混合时间是B.P. 43,000年。 (95%HPD:0.045至0.19)(95%HPD:6000至124,000),而掺合分数为0.11(95%HPD:0.045至0.19)。对其他三个西非人口(ESN,GWD和MSL)的分析得出了这些参数的一致估计值( Fig. 2 和表S7)。结合我们对西非人口的研究结果,我们估计古人口从尼安德特人的祖先和现代人类分裂了36万年(ka)至102万年(Ma)。然后渗入当今非洲人的祖先0至124 ka B.P.贡献他们祖先的2%到19%。我们提醒您,真正的潜在人口统计模型可能会更复杂。为了探索这种复杂性的各个方面,我们研究了古人口在现代人和尼安德特人分裂的同时发生分歧的可能性,并发现该模型还可以产生U形CSFS,其可能性相对较高,尽管低于我们的最佳拟合模型(尼安德特人CSFS的Δℒℒ= −2713,而Denisovan CSFS的Δℒℒ= −2597,KS P ≤ 2.9 × 10−6)。我们估计渐渗血统中的有效种群数量很大(后均值为25,000; 95%HPD:23,000至27,000)可能表明存在其他结构。我们发现 Ne YRI和MSL的渐进世系比其他非洲人口大,可能是由于西非基础分支的贡献不同(20 )。

Fig. 2 ABC估算了四个西非人口(YRI,ESN,GWD和MSL)中古鬼人口的人口统计参数。

后方用菱形表示,95%可信区间用线表示。 (A)混合时间 ta ,( B)混合分数α,(C)渗入人口的分裂时间 ts和(D)渗入人口的有效人口规模 Ne 显示。在非洲人口中,参数估计值在很大程度上是一致的:我们估计分裂时间为360 ka至1.02 Ma BP,混合时间为0至124 ka BP,混合分数为0.02至0.19,有效种群大小为22,000至2,000。 28,000。

尽管我们选择将非洲幽灵种群的遗传贡献表示为单个离散的杂交事件,但更现实的模型可能包括在较长时期内结构化种群中低水平的基因流动。先前提出的非洲祖先结构模型不适合CSFS [KS P < 2 × 10−16 对于(21)和KS P < 2 × 10−16 对于(14);如图。 S18],尽管我们观察到杨提出的祖先结构模型 等。 确实会产生轻微的U形。我们探索了非洲人口结构的其他模型(22),从现代人类的祖先那里分裂出世系,分裂时间范围为100至550 ka B.P.。并继续与现代人口交换基因,直到现在,迁移率范围为2.5×10 −5 to 2 × 10−2 每代移民。尽管这些连续基因流模型为低迁移率和深度分裂产生了U形CSFS,但在考虑的参数范围内,它们不能为经验CSFS提供足够的拟合度(KS P ≤ 2.3 × 10−5; S6部分和无花果。 S14和S15)。我们使用了ABC框架来探索更详细的连续迁移模型,在该模型中,我们改变了渐渗血统的分裂时间,迁移率和有效种群规模。在最佳拟合模型下进行的仿真产生的CSFS不能充分拟合数据(KS P = 1.83 × 10−6)。我们探索的连续迁移模型不适合数据的可能原因是,这些模型可被视为具有多个混合事件的模型A的扩展。我们已经证明,这些模型只能产生对称的CSFS,这与我们在数据中观察到的CSFS不同(附录B)。因此,仅非洲内部深厚的人口结构并不能解释数据(S6节)。

考虑到我们对渗入时间的估计的不确定性,我们想知道是否可以同时分析来自CEU(具有北欧和西欧血统的犹他州居民)和YRI基因组的CSFS是否可以提供额外的分辨率。在模型C下,我们模拟了非洲和非非洲人口分裂前后的渗入,并观察了非洲和非非洲人口CSFS的高频衍生等位基因仓中两个模型之间的质量差异(图S40) )。使用ABC共同拟合CEU和YRI中CSFS的高频衍生等位基因盒(定义为大于50%的频率),我们发现渗入时间的95%可信区间的下限大于CEU和YRI(2800与2155代BP)之间的模拟分离,表明YRI中看到的至少部分古谱系也与CEU共享(第S9.2节)。

然后,我们试图了解当今非洲人基因组中古鬼血统的精细分布。我们使用了最近开发的统计方法(ArchIE),该方法结合了多种种群遗传统计信息,无需古老的参考基因组即可识别50个YRI和50个MSL基因组中不同祖先的片段(第S7节)(23)。简而言之,该方法使用从当前的基因组序列计算得出的汇总统计数据作为逻辑回归模型的输入,以估算单个基因组的单倍体片段(定义为长度为50千碱基的连续区域)过时的可能性。虽然该模型的参数是通过在与尼安德特人和非非洲人有关的人口历史紧密匹配的模型下模拟数据来估算的,但我们发现,在我们的研究中,ArchIE具有68%的能力以大约7%的错误发现率检测古体最适合的人口模型,证实了其推论是健壮的,并且对非洲的古老渗入很敏感。

平均而言,YRI和MSL中分别有≃6.6和≃7.0%的基因组序列在祖先被标记为过时的。我们试图测试YRI和MSL中确定的假定的古老部分是否将其原始血统追溯到其他非洲人口(810)或已知的古人类,例如尼安德特人或丹尼索瓦人。我们计算了这些片段与六个种群中每个种群的基因组序列的差异:南部非洲KhoeSan,Jul'hoan;两个中非侏儒族(Biaka和Mbuti);和两个古人类人种(尼安德特人和丹尼索瓦人)。我们预计,相对于非旧式细分,从这些人群中渗入的细分的差异较小。相反,假定的古老部分则更加分散,这与它们的来源并非这些人群中的任何一个一致(图3C 和S7.1节)。合并各个基因组中假定的古老片段,我们分别在YRI和MSL中获得了总计482 Mb和502 Mb的古老基因组序列。我们使用多重顺序马尔可夫聚结(MSMC)的成对模式估计了标记为古迹的段和标记为非古迹的段之间到最近的共同祖先(TMRCA)的时间分配(图3B 和 section S7.2) (24)并观察到,对于假定的古老类段,TMRCA较大。具体而言,我们发现两个族群的中值非古段段合并时间为0.865 Ma ago,而YRI的中值古段段合并时间为1.51 Ma ago,MSL的中值非古段合并时间为1.15 Ma ago(YRI的年龄分别增加了1.69和1.23倍和MSL)。

Fig. 3 分析了约鲁巴和门德种群中发现的古鬼血统的片段。

(A)使用ArchIE进行了古代血统的推断。 ArchIE通过在古老的基因渗入模型下模拟数据,计算种群遗传总结统计数据以及训练模型来预测个体中50 kb的窗口来自古老种群的概率来进行研究。我们将所得的预测子应用于约鲁巴族和门德族的基因组序列。 (B)推断的古代和非古代段之间的TMRCA与约鲁巴群岛中一对非古代段的TMRCA的比较。平均而言,旧段的时间比非旧段的时间长1.69倍。 (C)估算了约鲁巴人从KhoeSan,Jul'hoan,两个现代人类侏儒基因组(Mbuti和Biaka)以及尼安德特人和Denisovan基因组推断出的古代片段的发散时间,与非古代片段的发散时间进行了比较。 P 通过块折刀计算值。与非古代片段相比,古代片段与所有六个基因组的差异更大。

我们检查了古段的频率,以调查自然选择是否会影响古等位基因的分布(图S40)。我们在YRI中发现了33个古段频率≥50%的基因座(根据与基因渗入时间和保守地选择混合级分以使渗入以来的漂移最大化; S7.3节和图S40)和MSL中的37个基因座。这些基因中的一些在YRI和MSL上的频率都很高,包括 NF1,一种抑癌基因(YRI中为83%,MSL中为85%), MTFR2,是一种与睾丸线粒体有氧呼吸有关的基因(YRI中为67%,MSL中为78%), HSD17B2,一个与激素调节有关的基因(YRI中74%,MSL中68%), KCNIP4,这是一个与钾离子通道有关的基因(YRI中占73%,MSL中占69%),以及 TRPS1,是与毛发鼻咽综合征相关的基因(YRI中为71%,MSL中为75%; 表格1)。在以前的扫描中已经发现了其中三个基因,用于在YRI中进行阳性选择: NF1 (25, 26 ), KCNIP4 (27), 和 TRPS1 (28)。另一方面,我们没有发现 MUC7,该基因先前发现具有古老的基因渗入特征(29 )。

表格1 在约鲁巴和门德种群中,具有高频率古段的基因。

通过在Mende或Yoruba种群中按频率对推定的古老片段的并集进行排序并选择前10个基因来选择基因。粗体表示各个群体中频率大于50%的频率。

讨论

我们的分析记录了当今的四个西非人口与一个过时的人口之间的渗入,这很可能在现代人类与尼安德特人和丹尼索瓦人的祖先分裂之前就已经分化了。之前的许多研究已经发现证据,证明遗传谱系对the格米人有深远分歧的血统(8, 9)和约鲁巴语(7, 30)人口。对古代非洲基因组的分析表明,来自南非的石器时代的狩猎者和采集者与其他现代人群不同>260,000 years (31)B.P.而当今的西非人口的一部分血统是在南部非洲San(20)(尽管与其数据相一致的替代模型包括通过西部,东部和南部非洲人口之间的距离进行隔离的复杂模式)。将我们的结果放在非洲人口深度差异的复杂模式的背景下,将需要分析包括南部非洲San人口在内的各种非洲人口,以及包括缺乏近期信号的古代非洲基因组目前的San人口中存在的混合气体(32 )。

我们记录的近代渗入时期的一种解释是,古形式在非洲一直持续到最近(33)。或者,古人口本可以早些渗入现代人口,然后与我们在这里分析的人口的祖先杂交。我们在这里探索的模型不是相互排斥的,非洲人口的历史包括来自多个不同人口的遗传贡献似乎是有道理的,这一点可以由与渐入渐进的古人口相关的巨大有效人口来证明。相对而言,最近在非洲和中东的化石记录中发现了具有古代特征的化石(或古代和现代人类特征的组合)。虽然解剖学上的现代人类出现在大约20万年前的化石记录中,但直到35,000年前,整个撒哈拉以南非洲和中东都可以发现具有古今特色的化石。 34)。这些化石的例子包括Iwo Eleru(33)和Ishango(35),其被解释为与深层结构保持一致,并代表了非洲现代人与古人类之间相互作用的复杂历史。

我们已经分析了西非人口的渗入信号,这引起了关于古人味素的身份及其与非洲现代人类的相互作用的疑问。对肯尼亚Webuye(LWK)卢希亚CSFS的分析也揭示了古老的文化渗入的信号,尽管我们的解释由于LWK最近涉及与西部非洲人和东部非洲猎人与采集者有关的人群而变得复杂化(第S8节)(20)。非非洲人口(北京和犹他州的汉族居民具有北欧和西欧血统)在CSFS中也显示出类似的模式,这表明古血统的一部分在非洲和非非洲人口分裂之前就已共享。要详细了解古老的基因渗入及其在适应各种环境条件中的作用,就需要对整个非洲地理范围内现存和古代基因组的基因组进行分析。

材料和方法

有条件的站点频谱

我们定义CSFS,CSFSYRI,N,作为人口流行中衍生等位基因计数的直方图1 以观察相关外群流行中的衍生等位基因为条件2 (13)。我们定义 ck 作为在其上存在衍生等位基因的SNP的数目 k 样本中的染色体 n 流行中的总染色体1,而外群中的一条染色体会弹出2 携带一个衍生的等位基因。 CSFSYRI,N 是计数的向量 ck 为了 k ∈ {1…n − 1}.

等。 (13)表明,如果人口的祖先流行1 和 pop2 处于突变漂移平衡状态(即,祖先中的站点频谱是 f(x)1x,其中0< x <1是在多态性SNP处得出的等位基因频率),两个种群1 和 pop2 在没有后续混合物的情况下分裂,然后是CSFSYRI,N 预期是统一的,即CSFSYRI,N (k)=常数。此结果不取决于两个人口的人口统计学历史的任何其他方面1 or pop2,只是它们随机交配。我们使用CSFS来研究当今非洲人的基因渗入1 面向当今的非洲人和流行音乐2 到一个古老的人群,即尼安德特人或德尼索瓦。

应用CSFS来了解当今非洲人的历史的复杂性之一是由于已知的偏离简单的隔离模型而没有随后的混合而产生的。但是,我们考虑了古人口结构的可能性。这种结构可能有几种形式,包括正在构造的祖先尼安德特人种群,或者它可能涉及从早期现代人类到尼安德特人的基因流动(6),或者像Denisovans那样,可能包括来自高度不同的古种群的基因流(18)。我们进行了广泛的模拟,以表明古种群中的结构继续存在,并且还导致了统一的CSFS(S1节)。此外,在附录A中,我们表明即使古人口中存在结构,CSFS也是统一的。但是,非洲人口结构(人口1),因为它与古人口(流行2),例如由于掺混,会导致与均匀CSFS产生偏差。

数据处理

对于CSFS的主要分析,我们使用了1000个基因组第3期数据集(版本20130502)(36),高覆盖率的Vindija尼安德特人基因组(15)和高覆盖的Denisovan基因组(4)。我们使用了由1000个基因组联盟提供的带注释的祖先等位基因,仅分析了常染色体SNP。古老的基因型(Vindija和Denisovan)来自(15),它使用snpAD进行SNP调用[请参阅(15)],并且要求映射质量≥25和可映射性过滤器100。我们没有为图7中显示的数据应用额外的基因型质量过滤器。 S4。但是,当使用≥30和≥50的GQ(基因型质量)过滤器时,我们测试了频谱对古用基因型质量过滤器选择的敏感性,并且发现频谱形状差异很小(图S8) 。

此外,我们还使用黑猩猩基因组对祖先等位基因进行极化来计算CSFS(图S9A)(37)。如果黑猩猩等位基因与任何人类等位基因都不匹配,我们会删除这些位点。作为进一步的检查,我们还重复了该分析,只限于黑猩猩和猩猩基因组具有匹配等位基因的位点(38)。这些结果记录在图2中。 S9B。最后,我们重复了我们的分析,使用了来自(的(18 )。

来自1000个基因组数据的CSFS

我们计算了CSFSYRI,N where pop1 是现代人口和流行音乐2 是一个古老的人口。具体来说,我们选择了pop1,依次是来自尼日利亚(YRI),MSL,ESN和GWD的约鲁巴岛,而我们选择了pop2 是高覆盖率的Vindija Neanderthal或高覆盖率的Denisovan基因组(图S4)。

我们根据1000个基因组第3阶段的数据计算了CSFS(36),针对上述四个非洲人口中的每一个(图S4),以及来自北京(CHB)的CEPH CEU和汉族(图S6)。

对于所有种群,我们观察到一个U形频谱,在低频和高频处都有过量的等位基因。在非洲人口中,我们观察到,以Denisovan为条件进行调节的CSFS与Vindija Neanderthal几乎相同,除了最低频率的垃圾箱,其中Neanderthal CSFS的计数过多。我们将此差异解释为暗示这些人群中与尼安德特人有关的血统水平较低,与先前的研究一致(18)。在CEU和CHB中,我们还观察到Vindija尼安德特人和Denisovan的U形谱,但尼安德特人和Denisovan谱之间的差异更为明显,即在经过条件处理后,低频衍生位置的计数过多相对于德尼索瓦(Denisovan)的Vindija Neanderthal。这种差异可能反映了大约50,000年前非洲以外人群的尼安德特人渗入事件经历(21, 39)。 S8节探讨了在非洲和非非洲人群中观察U型CSFS的含义。

为了确定CSFS形状的鲁棒性,我们仅使用转换,颠换以及删除CpG位点后,在YRI中重新计算了CSFS。我们在这些突变类别中发现了非常相似的U形CSFS(图S7)。此外,我们检查了有偏向的基因转换是否会通过消除弱到强和强到弱的多态性来引起此信号。我们发现CSFS的形状保持不变而没有这些突变(图S10A)。最后,我们检查了CSFS的形状是否受选择或低重组率的影响。我们用了 B values from (40),估计有多少背景选择降低了多样性。我们仅限于前五分之一的基因组区域 B 值(即中性网站的前五分之一; B ≥800),并使用YRI个人重新计算频谱。我们发现在过滤之后形状保持不变(图S10B)。

型号比较

我们使用合并模拟来评估人口模型是否产生与经验CSFS相匹配的CSFS。为了评估给定的人口统计学模型ℳ与数据的拟合度,我们将根据ℳ模拟的数据计算的CSFS与根据经验数据计算的CSFS进行了比较。我们考虑了一个模型,其中通过从对模拟数据计算的CSFS中进行采样来获得经验CSFS。对于这些拟合,我们对包含给定数量的SNP的比例进行建模 k 衍生等位基因的数量,而不是SNP的数量。评估ℳ(下的模拟CSFS的拟合度 S)到观察到的CSFS(O),我们使用了多项式综合似然L(M)=P(OSM)=k=1n1(SkkSk)Ok

这里, k 索引导出的等位基因计数, Sk 表示具有 k在模拟CSFS中观察到的等位基因,而 Ok 表示具有 k在经验CSFS中观察到的等位基因。我们警告 L 是忽略SNP之间依赖性的综合可能性,因此 L 必须谨慎解释。在此处显示的结果中,我们报告了对数似然度(ℒℒ)。

贴合度

我们定义了拟合优度统计量,用于评估人口模型下计算的CSFS是否解释了经验CSFS的主要模式。拟合优度统计是通过尝试将模拟CSFS与经验CSFS拟合而获得的残差定义的。我们假设经验CSFS的每个导出等位基因频率仓中的SNP计数遵循二项式分布,其平均值由模拟CSFS中具有相同导出等位基因频率的SNP的比例给出。一种复杂的情况是,由于连锁不平衡,得出的等位基因频率的仓位之间的计数不是独立的。为了解决这种复杂性,我们尝试估计观察到的CSFS中独立观察的有效数量(而不是假设每个SNP是独立观察)。我们定义bin的残差 k asrk=moksksk(1sk)

这里, m 是独立SNP的有效数量, ok 代表具有等位基因计数的SNP的比例 k 在经验CSFS中, sk 是具有等位基因计数的SNP的比例 k 在模拟的CSFS中,以及 k 索引衍生的等位基因的计数。当观察的数量很大时,这些残差预计将近似呈正态分布(与CSFS一样,每个仓位都有>1000 observations). m 是确保残差标准化的比例因子。

计算 m,我们在相同的人口统计学模型下使用了两个重复的全基因组模拟(3 GB),并将一个设置为观测数据,将一个设置为模拟。我们划分了垃圾箱的数量 n 由残差平方的总和m=nk=1n(oksksk(1sk))2

良好的拟合将导致近似正态分布的残差,而较差的拟合将显着偏离正态分布。为了获得正式的拟合检验,我们使用KS检验将残差的分布与正态分布进行比较。 P 拒绝原假设的值表明该模型不适合数据。我们使用的等位基因计数范围从11到90,不包括最低频率和最高频率的区域,因为这些区域中的计数更容易受到未建模的基因分型错误的影响,从而导致对原假设的错误拒绝。为了评估一类模型(例如模型A,B和C)的拟合度,我们报告了 P 通过ABC获得的带有参数估计值的模型的值(第S3.1至S3.6节)。

最后,我们在拟合优度计算中将导出的等位基因计数的范围从[11,90]扩展到[6,95](表S8)。尽管没有一个模型能够充分拟合,但是模型C的模型要高得多 P 值比其他模型高,表明它在该等位基因计数范围内继续更好地解释了CSFS。由于潜在的人口统计学历史中未建模的复杂性,以及影响低频和高频SNP的错误过程,在衍生的等位基因计数的扩展范围内缺乏拟合可能。

模型拟合

我们使用R包abc(A)将ABC的人口统计模型拟合到每个非洲人口的CSFS。41)。使用以尼安德特人和丹尼索万血统为基础的非洲和非非洲人口相关模型,我们拟合了渐渗血统的分裂时间,混合时间,混合分数和有效人口规模(S5.2节)。我们从以前的分布中提取了每个参数的值,并使用ms(42),并为结果仿真计算了CSFS。我们重复了此过程75,000次。我们使用R包abc中的“神经网络”设置来计算四个参数中每个参数的后验分布,公差为0.005。对于混合时间和分裂时间,我们通过将后代生成时间与[25,33]上的均匀分布进行卷积来报告后代分布(以年为单位),以纳入生成时间的不确定性。

本地祖先推论

我们使用了ArchIE(23)推断50个YRI和50个MSL个体的基因组片段,这些个体可能将其祖先追溯到古种群。我们在一个模型上对ArchIE进行了训练,在该模型上,古人口分裂了B.P. 12,000世代。并渗入了2000年前的B.P.混合比例为2%(第S7节)。我们使用YRI和MSL的代表个体,通过MSMC的后验解码,计算了归类为古迹的片段和归类为非古迹的片段的合并时间。24)。我们还使用来自狩猎者-采集者群体,中非P格米人群体和古老群体的测试基因组,计算了古代和非古代段之间的尺度差异时间。通过从片段和测试基因组之间共享的突变数减去特定于该片段的突变数,计算出该比例差异。我们将该数字除以该段中的分离位点数,以通过局部突变率进行归一化。

补充材料

有关本文的补充材料,请访问: http://advances.cqonlead.com/cgi/content/full/6/7/eaax5097/DC1

S1节。当前的人口模型无法解释CSFS

第S2节。 CSFS不能用古人类和现代人类祖先的泛滥症来解释

第S3节。探索当今非洲人祖先的渗入模式

第S4节。模型A的参数探索

第S5节。估计最佳的古细菌渗入模型参数

第S6节。连续迁移与单脉冲

第S7节。本地祖先推论

第S8节。扩展讨论

第S9节。 ms命令行

图S1 Prüfer的人口统计模型 等。 (15)(有关详细信息,请参见S1节)。

图S2人口模型拓扑结构,渗入了无花果中当今非洲人模拟的祖先。 S20,S22,S24,S26,S28和S30。

图S3统计结果的人口模型拓扑。

图S4。来自数据集中所有非洲人口的1000个基因组第3阶段数据的CSFS。

图S5 Luhya人口中1000个基因组第3阶段数据的CSFS。

图S6。 CEU和CHB中1000个基因组第3阶段数据的CSFS。

图S7 YRI中CSFS在各种突变类型和1期1000基因组数据集中的稳健性。

图S8。 YRI中CSFS对原始基因组的基因型质量阈值的稳健性。

图S9。将备用来源用于祖先等位基因时,YRI中的CSFS。

图S10。控制有偏向的基因转换和背景选择时,YRI中的CSFS。

图S11。对基线模型(S1节)进行模拟,同时考虑到祖先的错误识别(e1)和古式中的基因分型错误(e2)。

图S12。突变率和重组率变化。

图S13从谢建华推论人口模型的模拟 等。 (19),涉及约鲁巴族,巴卡族和比亚卡族。

图S14。非洲人口结构和基因流动模型的模拟。

图S15。具有连续迁移的模型(m (以世代移民为单位))。

图S16。来自文献的当前人口模型无法解释图2中观察到的CSFS的形状。 S4。

图S17。涉及现代人类和古代祖先的结构的模型无法解释观察到的CSFS。

图S18。文献中涉及祖先结构的模型无法解释观察到的CSFS。

图S19。模型A.1:在非洲以外的事件发生之前,基因从现代人类祖先分支流回到现代人类祖先。

图S20。 sA.1模型:在非非洲事件之前,基因流从现代人类祖先分支流回到现代人类祖先的简化模型。

图S21。模型A.2:出非洲事件后,基因从现代人类祖先分支流入非洲分支。

图S22。 sA.2模型:“走出非洲”事件后从现代人类祖先分支流向非洲分支的基因流的简化模型。

图S23。模型B.1:在非洲以外的事件发生之前,基因从古细菌分支流向现代人类祖先。

图S24。 sB.1模型:在非洲以外事件发生之前,从古细菌分支流向现代人类祖先的基因流的简化模型。

图S25。模型B.2:非洲以外的事件发生后,基因从古支流向非洲支。

图S26。 sB.2模型:在非洲以外的事件之后,基因从古代分支进入非洲分支的简化模型。

图S27。模型C.1:在非洲以外的事件发生之前,基因从未知的古老分支流入现代人类祖先。

图S28。模型sC.1:在非洲以外的事件发生之前,基因从未知的古代分支进入现代人类祖先的简化模型。

图S29。模型C.2:在非洲以外的事件发生后,基因从未知的古支流向非洲支流。

图S30模型sC.2:非洲以外事件发生后,基因从未知的古代分支进入非洲分支的简化模型。

图S31模拟模型A,B,C的最佳拟合参数(S3节)。

图S32。人口为0:01的模型A.2 Na 在不知所措的人群中。

图S33。人口为1×10的模型A.2−4 Na 在不知所措的人群中。

图S34。人口为1×10的模型A.2−4 Na 最近20 ka B.P.人口激增和CEU和YRI之间的迁徙

图S35人口为1×10的模型A.2−5 Na 在人口激增的人群中,该人群的分行为200 ka B.P.。

图S36。模型A.2,其中渗入种群与古种群(550 ka B.P.)同时分裂,种群数量为0.01 Na.

图S37。 A.2模型,其中渗入种群与古种群同时分裂(765 ka B.P.)。

图S38。使用ABC对模型A.1进行参数估计,包括祖先错误识别(e1)和古式中的基因分型错误(e2)。

图S39使用ABC对模型A.2进行参数估计,包括祖先错误识别(e1)和古式中的基因分型错误(e2)。

图S40 YRI和CEU的边缘化联合CSFS来自模拟。

图S41。来自模型C的中性古SNP的等位基因频率分布,渗入度为13%,渗入时间为42 ka B.P.

图S42。 MSL和YRI的古段频率图。

图S43。来自基线模型的CSFS允许重复突变。

表S1。在这项工作中检查模型的描述。

表S2。我们模拟了Prüfer的数据 等。 (15)模型,并在古文中加入祖先的错误识别错误和基因分型错误。

表S3。模型适合于空模型,包括现代人类(MH)祖先的结构和与狂犬病的背离。

表S4。模型适合其他模型,包括其他谱系的混合物。

表S5。模型使用简化的人口统计数据适合其他模型。

表S6。模型适合模型A的变体。

表S7。使用ABC的所有人群的最佳拟合参数值。

表S8。 P 每个类别的人口模型的最佳拟合参数的拟合优度检验的值。

附录A. CSFS在古人口中结构统一。

附录B. CSFS在模型A下是对称的。

参考 (4355)

这是根据以下条款分发的开放获取文章 知识共享署名-非商业许可,它允许在任何介质中使用,分发和复制,只要最终的使用是 出于商业利益,并提供了适当引用的原始作品。

参考和注释

致谢: 我们感谢K. Lohmueller,N.Patterson,M.Lipson,M.Schumer,P.Moorjani,T.V.Kent,P.Skoglund,以及Sankararaman和Lohmueller实验室的成员提供了有益的意见和讨论。 资金: 美国国家科学基金会(NSF)研究生研究奖学金DGE-1650604支持A.D.,美国国家科学研究院(NIH)资助R00GM111744和R35GM125055,阿尔弗雷德·P·斯隆研究奖学金以及大川基金会的赠予部分支持美国科学。 作者贡献: A.D.和S.S.设计并进行了这项研究。 A.D.和S.S.撰写了这篇论文。 利益争夺: 作者宣称他们没有竞争利益。 数据和材料可用性: 本文和/或补充材料中提供了评估本文结论所需的所有数据。测序数据可从1000 Genomes项目网站获得 www.internationalgenome.org/data。可在以下位置拨打本地血统电话 //sriramlab.cass.idre.ucla.edu/public/。作者可能需要与本文相关的其他数据。
查看摘要

保持联系 科学进步

浏览本文