QTL定位中常见的12个问题 联系客服

发布时间 : 星期日 文章QTL定位中常见的12个问题更新完毕开始阅读6c801294a300a6c30d229f75

数量性状基因定位研究中若干常见问题的分析与解答

李慧慧 张鲁燕 王建康*

中国农业科学院作物科学研究所/国家农作物基因资源与基因改良重大科学工程/CIMMYT中国办事处,北京100081

摘 要:QTL作图是基因精细定位、克隆以及有效开展分子育种的基础,在利用QTL作图开展数量性状基因

定位研究的过程中经常会碰到一些问题,与统计方法有关的一些问题包括:LOD的统计学意义是什么?检测QTL的可信度和LOD临界值的关系是什么?如何评价不同的QTL作图方法?提高QTL检测效率的途径有哪些?与遗传参数估计有关的一些问题包括:QTL的贡献率是如何计算出来的?如何确定QTL有利等位基因的来源?选择基因型分析的有效性如何?复合性状是否适宜于QTL作图?与作图群体及遗传图谱有关的一些问题包括:QTL作图群体中表型数据是否要求服从正态分布?加密标记是否可以显著提高QTL检测功效?缺失分子标记对QTL作图有什么影响?奇异分离标记对QTL作图有什么影响?笔者试图结合我们多年的研究工作对这些具有共性的12个常见问题做出分析和解答,供科研工作者参考。

关键词:数量性状;QTL作图;完备区间作图;似然比检验;功效分析

Analytical Answers to Frequently Asked Questions in Quantitative Trait Locus Mapping

LI Hui-Hui, ZHANG Lu-Yan, and WANG Jian-Kang*

Institute of Crop Sciences / National Key Facility for Crop Gene Resources and Genetic Improvement / CIMMYT China Office, Chinese Academy of

Agricultural Sciences, Beijing 100081, China?

Abstract: QTL mapping is an important step in gene fine mapping, map-based cloning, and the efficient use of gene information in molecular breeding. Questions are frequently met and asked in the application of QTL mapping in practical genetic populations. Questions related to statistical method of QTL mapping are: what does LOD score mean? What is the relationship between the reliability of detected QTL and the LOD threshold? How to evaluate different QTL mapping methods? How to improve the QTL detection power? Questions related to genetic parameter estimation are: how to calculate the phenotypic variance explained by each

本研究由国家自然科学基金项目(30771351)资助。

第一作者联系方式:Tel: 010-82106038; E-mail: lihuihui@caas.net.cn

* 通讯作者 (Correspondence author): 王建康,Tel: 010-82105846; E-mail: wangjk@caas.net.cn; jkwang@cgiar.org

1

detected QTL? How to determine the source of favorable alleles at detected QTL? How efficient is the selective genotyping? Can composite traits be used in QTL mapping? Questions related to linkage map and mapping populations are: Does the phenotype of a trait of interest have to follow a normal distribution? Does the increase in marker density greatly improve QTL mapping power? What effects will missing markers have in QTL mapping? What effects will segregation distortion have in QTL mapping? Our objective in this paper is to provide the analytical answers to 12 frequently asked questions, based on our studies in past several years.

Keywords: Quantitative trait; QTL mapping; Inclusive composite interval mapping; Likelihood ratio test; Power analysis

经典数量遗传学建立在多基因假说基础之上,把控制数量性状的基因作为一个整体,重点研究各种遗传效应与遗传方差的分解和估计,不区分个别基因在表型效应上的差异[1-3]。分子标记连锁图谱的大量出现,使得我们可以像研究质量性状基因一样研究数量性状基因,也可以把单个数量性状基因(quantitative trait gene or locus,简称QTL)定位在染色体上,并估计其遗传效应,这一过程称为QTL作图或定位[4]。QTL作图是基因精细定位和克隆的基础,目前已成为数量性状遗传研究的常用方法。QTL定位结果可以帮助育种家获得目标性状的遗传信息,借助与QTL连锁的分子标记在育种群体中跟踪和选择有利等位基因,提高选择的准确性和预见性。但是,在利用QTL作图开展遗传研究的过程中也经常碰到一些问题,这些问题大致可分为有关作图统计方法、有关遗传参数估计、以及有关作图群体及连锁图谱等三大类。笔者试图结合我们近些年的研究工作对具有共性的12个问题做出分析和解答,供广大科研工作者在利用QTL作图开展遗传研究时参考。与作图统计方法有关的四个问题是:LOD的统计学意义是什么?检测QTL的可信度和LOD临界值的关系是什么?如何评价不同的QTL作图方法?提高QTL检测效率的途径有哪些?与遗传参数估计有关的四个问题是:QTL的贡献率是如何计算出来的?如何确定QTL有利等位基因的来源?选择基因型分析的有效性如何?复合性状是否适宜于QTL作图?与作图群体及遗传图谱有关的四个问题是:QTL作图群体中表型数据是否要求服从正态分布?加密标记是否可以显著提高QTL检测功效?缺失分子标记对QTL作图有什么影响?奇异分离标记对QTL作图有什么影响?

1 QTL作图中的统计学问题 1.1 LOD的统计学意义是什么?

区间作图(Interval mapping,简称IM)[5]、复合区间作图(Composite interval mapping,简称CIM)[6]

和完备区间作图(Inclusive composite interval mapping,简称ICIM)[4,7-9]均利用极大似然估计原理,通过一维扫描在全基因组上逐点检测QTL的存在。检验的零假设(H0)是扫描位点上不存在QTL,备择假设(HA)是扫描位点上存在一个QTL,似然比统计量(LRT)用来衡量扫描位点上存在QTL的可能性大小。似然比统计量的一般定义是,

LRT??2ln(L0), LA其中ln是自然对数函数,L0是H0下似然函数的极大值,LA是HA下似然函数的极大值。似然比统计量大多数情况下有很好的统计学性质,即渐近服从?分布,?分布的自由度为两种假设下独立变量个数之差,

22

2

因此容易确定给定显著性水平下检验统计量的临界值。一些研究表明QTL作图时的似然比统计量可能不服从单一?分布,但却可以用2个不同自由度的混合?分布来近似[6,10],因此也可以确定给定显著性水平下检验统计量的临界值。

Lander和Botstein在提出IM的同时也提出利用人类遗传研究中常用的LOD (Likelihood of odd)值作为检验QTL是否存在的标准[5]。LOD值定义为极大似然函数比的常用对数,即,

22LOD?log(LA)?log(LA)?log(L0)。 L0因此,若LA是L0的10倍,则LOD=1;如果LA是L0的100倍,则LOD=2;如果LA是L0的1000倍,则LOD=3。根据LOD值和LRT值的定义,不难得到它们之间有如下关系:

LOD?LRTLRT? 或 LRT?4.6052LOD。

2ln(10)4.60521.2 检测QTL的可信度和LOD临界值之间的关系是什么?

与其他假设检验一样,QTL作图中的检验也可产生四种结果(图1)。当一个位点上没有QTL,通过测验却错误地判断有QTL存在,称这种现象为假阳性;当一个位点上有QTL,通过测验判断有QTL存在,称这种现象为真阳性;当一个位点上有QTL,通过测验却错误地判断没有QTL存在,称这种现象为假阴性;当一个位点上没有QTL,通过测验判断没有QTL存在,称这种现象为真阴性。假阳性和假阴性是统计测验中的两类错误,犯第一类错误(或假阳性)的概率(?)等于H0为真时被拒绝的概率,即,

?=P{拒绝H0|H0为真}=P{假阳性}/[P{假阳性}+P{真阴性}]。

犯第二类错误(或假阴性)的概率(?)等于H0为假时未被拒绝的概率,即,

?=P{未拒绝H0|H0为假}=P{假阴性}/[P{假阴性}+P{真阳性}]。

对于特定的检验方法而言,在一定的试验精确度下,降低?则会提高?,降低?则会提高?,同时降低?和?的途径是提高试验精确度和增加样本量。犯第一类错误的概率?一般在检验前设定,对一定的检验方法,给定?后?也是确定的。但是除t-测验外,大多数统计假设检验给定?下的?难以用代数解析式表示出来。

表1前5列给出LOD值1.0~5.0时对应的LRT值以及三种自由度下一次检验中犯第一类错误概率,犯

3

第一类错误概率?有时也叫做显著性概率;后4列给出显著性概率0.1~0.0001时对应的LOD临界值。以自由度2为例,LOD=1.30对应的显著性概率为0.05,如果只做一次假设检验,采用这样的LOD临界值就能保证假阳性的概率不超过0.05,即鉴定出的QTL是假阳性的概率低于0.05,或者说鉴定出的QTL为真的概率超过0.95。基于区间测验的QTL作图,一般在基因组内所有染色体上按一定步长逐点检验QTL的存在,而这些检验又不是完全独立的,因此也很难确定一次检验的显著性水平所对应的全局?。例如,如果每次检验均采用临界值LOD=3,当自由度为2时每个扫描位置对应的?近似为0.001,QTL作图需要知道的是全基因组检验后的?。由于QTL作图的复杂性,如涉及到多次非独立假设检验,不同物种有不同大小的基因组,不同作图群体有不同的标记数,零假设下似然比检验统计量服从什么样的渐近分布尚无定论,因此难以准确确定LOD临界值对应的一次检验和全局?,但一些非参数统计方法已用于给定全局?后LOD临界值的确定[11-12]。一般认为采用2~3的LOD临界值可以把全局?控制在0.05以内,在显性QTL和互作QTL作图中,似然比统计量有较大的自由度,还可适当考虑采用较高的临界值,如3~4。但通过理论或模拟,进一步明确QTL作图中似然比检验统计量的渐近分布还是必要的,笔者推测渐近分布可能与染色体条数、每条染色体长度、标记密度和QTL遗传效应类型等因素有关。

与所有假设检验一样,采用较高的LOD临界值会更好地控制假QTL的发生,同时遗传效应较小的真QTL却不易被检测出来。如何平衡两类错误的概率,这不仅仅是统计学问题,还要考虑到具体的研究目标。如果QTL作图只是初步确定基因在染色体上的位置,然后根据作图结果构建其他次级群体对检测到的QTL进行精细定位、甚至图位克隆,然后开展转基因工作,这类研究几乎不容许假QTL的发生。此时要适当提高检验QTL时的LOD临界值,保证后续研究中QTL的可靠性。另一方面,如果研究目标是把QTL作图结果用于标记辅助选择聚合育种,这时只有尽可能多地检测出控制育种目标性状的QTL,才能保证对所有控制育种性状的基因进行选择,因此有必要适当降低检验QTL时的LOD临界值,使得遗传效应较小的QTL也有机会被检测出来。此时即使有一些假QTL的存在,也不至于造成很大的损失。

4