干细胞分化时染色质重组情况 联系客服

发布时间 : 星期三 文章干细胞分化时染色质重组情况更新完毕开始阅读c3c7b4d110a6f524ccbf85f2

干细胞分化时的染色质重组情况

JesseR. Dixon1,2*, Inkyung Jung1*, Siddarth Selvaraj1,3*, Yin Shen1, Jessica E.Antosiewicz-Bourget4, Ah Young Lee1, Zhen Ye1,Audrey Kim1, Nisha Rajagopal1, Wei Xie5, Yarui Diao1, Jing Liang6, Huimin Zhao6, Victor V. Lobanenkov7, Joseph R. Ecker8,James A. Thomson4,9,10 & Bing Ren1,11

高阶染色质结构正成为一个新兴的基因表达的重要调节器。虽然染色质的动态结构已经确定在基因组上,其在哺乳动物发展的完整的染色质动态结构范围和谱系规格还有待确定。通过在人类胚胎干细胞和四个人类干细胞导出谱系定位全基因组染色质,在谱系我们发现广泛染色质重组现象。我们观察到,尽管自缔合染色质域在分化期是稳定的,染色质在域间和域内的间显著的相互作用,改变了36%基因组内活跃或不活跃的染色体。通过单倍体解决染色质相互作用定位图和转录组数据集,我们发现多数的等位基因表达与等位基因偏倚染色质的启动子和增强子有关。我们的研究结果提供了一个全局视图的染色质动态和研究不同人类细胞谱系中远程控制的研究资源。 三维基因组织越来越被认为是一个基因表(DHS) 的数据集。同样的,这些实验系统提达的重要监管结构[1-4]。最近高通量的染色供了一个用潜在的基因表达和染色质表达质结构研究已经开始能阐明我们基因组的方式来和高价染色质可变性进行比较的机全局组织[4-10]。例如,最近我们和其他研会。此外,用一个新的方法来逐步定位高分究者发现间期染色体可以分为若干兆基大辨染色率染色体跨度阶段的等位基因小的拓扑域和较小的子域(也称为拓扑关联Lauren捕获数据(Hi-C)[15],我们逐步定域或TADs)[6-9]。这些TADs形成更高层次位H1基因组来分析等位基因特异性活动和的结构像“A”和“B”隔室[5,6]。这些“A”染色质结构。据我们所知,这是目前为止高和“B”隔室与基因组的其他功能密切相关,价染色质结构,等位基因特异性染色质结构如早起或晚期DNA复制时间和核板关联和状态,和等位基因特异性基因表达相关的[11,12]。尽管有这些研究,我们还不能完全最全面的数据集的分析。 了解人类细胞的染色质动态结构和它对细数据生成和分析 胞身份的影响。这里我们分析了H1型人类我们在H1型人类干细胞和每个四个人类型干细胞和四个人类干细胞谱系的全基因组谱系中的两种生物重复进行了Hi-C实验5,高价染色质,中内胚层(ME),间充质干细生成了一个完整的3.85千万的独特阅读对胞(MS),神经组细胞(NP)和类滋养细胞(补充表1)。我们规范化Hi-C数据16的(TB)[13]。这些谱系代表早期发育胚外和胚固有偏差,用许多指标证实我们Hi-Cdata高内在表观基因组图谱13中已经具有各自特重现性和准确性数据(扩展数据图1a-b,补点,在每个13,14的谱系中已经具有含充信息表2)。 mRNA-seq, 13-24组氨酸修饰的ChIP-seq, 广泛的A/B室开关 base-resolution methylC-seq和DNaseI高敏

Hi-C相互作用地图提供了多个层次的基因组织[4]。先前的研究证明了基因组组织被划分为A和B隔室,其中包含相对活跃和不活跃的部分[5,11]。目前,A和B隔室在分化时的改变和它们如何与谱系紧密相关的机制还不清楚。我们观察到不同的细胞类型的A/B隔室中都具有很大的空间可塑性,一个谱系分析中至少有有36%的基因开关隔室(方法;图1A和拓展数据图2A-C)。许多A/B隔室转换具有谱系特异性(图.1b)。值得注意的是,这似乎是一个B隔室在人类干细胞变成成 MScells或inIMR90成纤维细胞时进行大的扩张。这两种细胞已证实在分化过程中进行阻遏性的扩张异染色质的修改[13,17]。在这方面,在它们的基因组中似乎有类似的空间组织。我们观察到,改变他们的A / B隔室通常与一个或一系列TADs对应(图1 a,c和扩展数据图2 d,e),这表明TADs是动态染色体变化隔室的单位。与他人loci[18-20]之前的研究一致,我们发现从A隔室到B隔室的转变减少了基因的表达,而从B到A隔室的变化显示出更高的基因表达(图1 d)。此外,谱系限制性隔室A域,与其他域相比往

往包括更多的谱系限制性基因(扩展数据图3 a)。这虽然有一定意义,但表达变化的整体模式是微妙难解的。我们推测这种轻微的相关性可能是由于一部分基因影响隔室变化,尽管大多数基因仍不受影响,我们确认 718个公变的基因与基因表达和隔室开关有关(图1 e,扩展数据图3 b,c,和方法)。这些基因是富含低CpG含量的非协调启动子(21.8%对15.6%非协调基因,P值8310211,确切概率法),和几个重要的基因本体(GO),特别是有关细胞外蛋白质和细胞外矩阵的基因(补充表3)。总的来说,这些结果表明,在全局层面,在A和B隔间具有一个高度的可变性,此时有微妙的相应变化基因的表达,表明A和B隔间细胞的特异的基因表达,但不是决定性的基因表达模式。

域级的染色体动力学

接下来我们研究了亚染色体的高价染色体结构规模。先前的研究表明,染色体是由细胞型不变性的TADs组成[6,8]。在这六个谱系研究的中,我们观察到虽然定位的TADs在细

胞型之间保持稳定(图2),但域内的染色质结构发生很多变化。在域内我们观察到一个现象,细胞类型间的整个域的大部分的隔室相互作用的发生增加或减少(图2 b)。这表明TADs的子集在一个给定的谱系进行协调变化,广域方面相互作用的频率改变。每个谱系中数百的TADs家族发生这样的改变(图2 b和扩展数据图3 d),这种相互作用频率的变化或许与活跃的标签如DNS,H3K27ac和CTCF结合,负相关的压制性染色质修改如H3K27me3和H3K9me3相关(图2 c,详情见

图2 |染色质的相互作用频率的全域改变和染色质状态

a,在H1谱系和IMR90成纤维细胞中染色质相互作用的图。它也显示在胚胎干细胞内域的调用和每个谱系的方向性指数(DI)。b,ES和MS中相互作用频率的变化。ES中动频率高的区域用蓝色表示,MS中频率高的区域用黄色表示。TADs拥有一个共同的增加或减少域间的相互作用频率分别贴上黄色或蓝色, 并将频率数列出。域内非共同改变的地方显示灰色的。c,相互作用频率变化和染色质标记间每一个变化染色体的TADs(n523)箱线图的皮尔森相关系数。

晶须对应这1.53四分位范围内的最高值和最低值。d,随机林模型在预测域是否在增加或减少频率的准确性(n5768,793),随机选择Hi-c数据中的10歌数据子集测试。这个准确性也能检查使用实际数据(蓝色),环状排列(绿色)和一个随机排列的数据(黄色)。作为预期,随机排列数据有50%的准确率。精度是 考虑到前30,40,50%或预测的基础上统计的频率差异(误差的标准差从10个随机选择的数据子集中选取)。e,列举的染色质显示从10个随机选择的数据子集的基尼指数根据分类的重要性线图。晶须在1.53四分位范围对应的最高值和最低值。

法)。TADs同时也提高域间的B转向A相互作用频率,此时域的A向B的转换频率往往下降(扩增数据3e,f).与这个变化域的活动一致,域内基因在染色质中的活动,增加了域间的相互作用频率,而基因域内的相互作用调节频率往往下降(扩展数据图3 g,h)。 染色质状态和动态相互作用

为了理解染色质动态变化和其他基因和外遗传性特征,我们整合了理解染色质动力学之间的关系和其他基因和外遗传性特征,我们整合分析了组氨酸调控的Hi-C数据,DHC,和六个谱系中的CTCF结合数据。具体来说,我们试图通过染色质状态特征模式变化来预测染色质的相互作用频率。我们将基因组分为40 kb大小的区域并计算每个域内分化时染色质发生的变化。然后,我们建立了一个基于染色质特征的随机林分类模型来分类本区相互作用区的增加或减少的频率(见方方法)。该模型能够分类基因组区域相互作用的增加或减少的频率,有73%的准确度(图2 d图100%;扩展数据图4),增加到80%以上时,我们只考虑基于得到的频率差异最高的预测值(图2 d图30%)。这个随机林模型不仅表明染色质状态变化特性下的作用频率信息,它还能确定哪些染色质标记最有预测力。具体来说,每个染色质的标签的基尼系数“减少”一个给定的重要分类特征。在这方面,我们发现H3K4me1密度变化量是最重要的远程预测染色质的相互作用变化的特征(图2e和扩展数据图4b,c)。如H3K4me1主要存在在准备中的或活跃增强子[21,22],

并作为增强剂参与特异的细胞间的相互作用循环[23],这些结果显示增强子动力学可能在调节谱系中相互作用发挥着重要的作用。与这一假说相符,40 kb大小的区域更高的增强剂密度拥有更大的相互作用频率(扩展数据图4 d,e)。

等位基因特异性染色体组织

人类正常的二倍体细胞的每个染色体包含两个副本。在给定的亲代染色体变异的集合(也称父母的单体型)可用于确定两个同源染色体之间功能差异。先前的研究已经发现大

图3 | H1谱系的单倍体染色质组织。

a,变异/mb(绿色),分阶段(橙色)和沿着1号染色体遗传统计学变体(紫色)。插图缩放为1 mb区,变体的存在每个表示值单位为1。b等位基因的基因组浏览和特定的染色质功能和链特异性的信使rna序列。C,p1和p2 2号染色体等位基因的基因组浏览器的PC1值。d等位基因特定的隔间A / B模式和ZDBF2基因附近的mRNA-seq印迹。e,等位基因PC1值之间箱线图的的差异。印迹基因的地区(P=00.3)和等位基因(P=0.02)有更大的PC1值((KS)测试)。晶须对应1.53四分位范围内最高和最低值。f,类似于e,但有不同染色质活跃的区域(每200 kb等位基因的数量有偏倚)。0.1%最大值区的不同等位基因的活

性(橙色)显示了相比其它地区PC1的差异值

量的等位基因在基因表达上存在差异,包括

DNA甲基化、染色质状态[24-29]。除了个人基因研究位点[30-32],也包括对同源染色体间的高价的可变性染色质结构。最近我们研究室的工作[15]证明Hi-c数据重建单体型染色体范围,它允许染色质状态和研究基因表达为一个真正的二倍体。我们生成单倍型染色体范围合并,93.5%的所有的杂合变异体的H1-c的组合数据集,全基因组测序[15](图3)。

图4 |H1谱系里等位基因表达的

a,平均等位基因偏倚下的等位基因表达检测。b,等位基因之间变化的表达的绝对值(log2)密度图。c,可测试的表达(最少每次读入10个谱系)的基因结构的聚类表达率(log2)k - means(k=20)。d,PARP9基因的等位基因的变量表达基因组的浏览。e,等位基因偏倚基因与其他基因的印迹基因的一部分。(确切概

率法)。f,一部分等位基因偏倚中的基因印迹基因。g,从变异区到距离最近的等位基因变体基因累积密度图的。等位基因的特定变体使用组蛋白乙酰化,定义H3K9me3,H3K27me3、DHS和H3K4me3(KS测试)。h,等位基因偏倚基因的数量显示启动子区域等位基因特定的染色质。活跃的变异是由H3K4me3,DHS或组蛋白乙酰化作用引起的。不活跃活跃变异是由DNA甲基化和H3K9me3/27me3引起的。i,浏览mRNA-seq基因组和周围的染色质功能基因。

我们观察到一个预测下的单倍体高水平的一致性并从并读取“长插入”大小数据集的