组装组参考文档version1 联系客服

发布时间 : 星期三 文章组装组参考文档version1更新完毕开始阅读6320b48f9b89680202d82527

2 基于kmer的基因组大小估计

基于短片段估计整个序列长度问题可以抽象为如下问题: 假设存在完整连续序列G,随机选取片段长度为k,该片段称为kmer。当达到一定覆盖度时,根据kmer数量和深度估计序列长度G。

假设:kmer深度频数分布服从泊松分布(Havlak and Chen et al., 2004)。

Kmer distribution curve2.E+011.E+018.E+004.E+000.E+001611162126Depth

对于泊松分布,随机变量X?k的概率为:

SimulatedPoission(7)Frequency31364146

均值为λ,众数等于均值取整(floor(λ)),因此可将峰值对应深度作为kmer期望深度。 假设:选取的kmer能够遍历整个基因组时,则根据Lander_waterman算法,基因组大小(G)满足如下公式:

G?knumb?numkdepthbdepthknum?rnum?(l?k?1)bnum?rnum?l其中,

knum为kmer个数,kdepth为kmer期望深度,bnum为碱基个数,bdepth为碱基期望深度,

rnum为测序生成的read个数,l为测序read平均长度。

因此可以获得如下公式:

rnuml?k?1lGkbr?lbdepth?num?num?depth?lGGl?k?1

??从上述公式可知,若获得kmer期望深度,即可计算碱基期望深度以及基因组大小。kmer深

度频数分布服从泊松分布,因此可将kmer深度曲线主峰处深度作为kmer期望深度,从而估计基因组大小。

kdepthbdepth3 估计准确性影响因素

用拟南芥基因组,生成10X 100bp read。设定如下图内参数,其中深度有10X,20X;杂合率有0和1%;错误率有0和0.003。完成如下图: 30252015105016111621263136414610Xh0f010Xh0f0310Xh10f010Xh10f0320Xh10f03 1num kmer_num pkdepth genome_size used_base X node_num 10Xh0f0 306358 999579000 8 124947375 1189975000 9.5 101166945 10Xh10f0 2616526 999579000 7 142797000 1189975000 8.3 117532751 10Xh0f03 41062471 999579000 7 142797000 1189975000 8.3 142600356 10Xh10f03 43230395 999579000 6 166596500 1189975000 7.1 158454797

结论1:

杂合与错误均引起1处峰高增加,但两者的影响有量级上差异。错误的影响更大。两者也均会增加特异kmer数。 结论2:

10X时杂合与错误均引起主峰位置前移,两者混合可加快主峰前移。而20X时,该杂合率下并不引起主峰前移。表明小数据量时仅仅依靠错误率估计主峰前移是不够的,杂合率也会影响主峰位置的准确估计,从而导致基因组大小估计偏大。 结论3:

10X时,深度乘积曲线峰值在杂合率和错误率都有的情况下也前移,但慢于深度分布曲线峰值的前移速度。

由以上分析得出错误率会动过移动主峰位置严重影响基因组大小估计准确性,杂合率本身对主峰位置影响不大。但错误率、杂合率和深度三者综合作用会在不同程度上影响基因组大小估计准确性。下面分别对三者的影响进行分析。 (一)测序深度的影响

定义基因组大小为G,观测值为G?,kmer深度曲线实际峰值位置:dk?d?k??

G??G?则基因组大小偏差

G?d?k,由此可知,深度期望值越高,在相同?情况下,基因组大

小估计值偏差越小。

在不考虑其他因素的情况下,取整造成的?与期望深度值无关,所以高深度并不意味着取整误差一定就小。

用拟南芥基因组数据(nogap),生成100bp长的read,分别生成10X,15X,30X,40X。用17kmer分析,分别获得kmer深度分布曲线和深度乘积曲线。

depth effect on the kmer frequency curve1.40E+011.20E+011.00E+0140X8.00E+0030X6.00E+0025X4.00E+0015X10X2.00E+000.00E+001112131415161718191depth effect on the kmer product curve25000000020000000040X15000000030X25X10000000015X5000000010X01112131415161718191

depth Kmer num

Kmer

depth

Genome size Used base X

node_num

expect_X

error rate

10 999543216 8 124942902 1189932400 9 101167694 8.399652701 15 1499305416 12 124942118 1784887400 14 101208919 12.59939999 25 2498857368 20 124942868 2974830200 23 101210177 20.9991261 30 2998622424 25 119944896 3569788600 29 101210214 25.19889739 40 3998165640 33 121156534 4759721000 39 101210241 33.5985501

结论:

随着深度增加,整体估计准确性增加。但并不意味着高深度估计的一定比低深度估计的准。 乘积曲线峰值位置比深度分布曲线峰值位置大1,因为深度往往估计偏小,因此推荐采用乘积曲线峰值位置也估计基因组大小,从而反映基因组大小范围。 (二)错误率的影响

测序错误对kmer曲线的影响体现在两个方面,一方面unique kmer(node number)增加,甚至大于基因组;另一方面,深度为1的kmer频率增加。

从深度为1的kmer频率出发,对于长度为k的kmer来讲,假设1个错误碱基平均造成??k个特异kmer,则有如下等式:

4.995659

4.995 4.995631 0.79559 1.813788

??P?nb?f???k?n1P11nknk

?PnP其中1为深度为1的频率观测值,1为不受错误影响的情况下的实际值,f为错误率,b为

碱基总数,

nk为kmer总数, n1为kmer深度为1的kmer个数。

??P(X?1)???e因为kmer深度频率服从泊松分布,则,其中?即为kmer的期望峰值深

度。因为?往往小于100,因此随着?增加,深度为1处的概率减小,当??10时,值为0.045%。而错误率往往导致1出频率达到40%,相差1000倍。因此可以不用考虑这个影响。

从而获得等式:

f?错误率:

nknkn1??P)????(P?P111nb???knb???knb???k

其中?与该序列的重复特征,边际等有关,与深度也有一定关系但影响不大,拟南芥的估计

值大约是0.5。

用拟南芥基因组数据(nogap),生成100bp read,错误率为0,0.01,0.03,0.06和0.08的20X read。用17kmer分析,分别获得kmer深度分布曲线和深度乘积曲线。