生物信息学名词解释 联系客服

发布时间 : 星期二 文章生物信息学名词解释更新完毕开始阅读9f12d101fe4733687e21aa5e

expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay。

什么是比较基因组学

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。

什么是表观遗传学

表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默

(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。

什么是计算生物学

计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。

什么是基因组印记

基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。

什么是基因组学

基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。

什么是DNA甲基化

CpG岛,英文名称:CpG island

定义:位于多种脊椎动物已知基因转录起始位点周围、由胞嘧啶(C)和鸟嘧啶(G)组成的串联重复序列。

CpG岛(CpG island):CpG双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率,这些区段被称作CpG岛

DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二

核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。

什么是基因组注释

基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。 以上转自http://www.plob.org/2012/11/21/4810.html,稍加修改。

no-redudant protein(非冗余蛋白质)

像ncbi里边,因为采取的原则是100%identical的才merge到一起去,所以它的database里边那种nr nucleotide/protein,其实有很多都是REDUNDANT的,需要你自己manually

curate.http://arep.med.harvard.edu/seqanal/db.html

E-value

EXPECT

E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一alignment结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,alignment结果越显著。你可能会想为搜索设定一个期望值阀值(EXPECT),例如Defaults值设为10。这一设置则表示联配结果中将有10个匹配序列是由随机产生,如果联配的统计显著性值(E值)小于该值(10),则该alignment将被检出,换句话说,比较低的阀值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。 E=kmne^(-λs)

RNA Integrity Number (RIN)

The RNA integrity number (RIN) is a software tool designed to help scientists estimate the integrity of total RNA samples

TRS、DRS、SSR

根据重复序列在基因组中的分布形式可将其分为串联重复序列(Tandem Repeats

Sequence,TRS)和散布重复序列(Dispersed Repeats Sequence,DRS)。其中,串联重复序列是由相关的重复单位首尾相连、成串排列而成的。发现的串联重复序列主要有两类:一类是由功能基因组成的(如rRNA和组蛋白基因);另一类是由无功能的序列组成的。

根据重复序列的重复单位的长度,可将串联重复序列分为卫星DNA、微卫星DNA、小卫星 DNA等。微卫星DNA又叫简单重复序列(Simple Sequence Repeat,SSR),指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA,广泛分布于基因组的不同位置,长度一般在200 bp以下。

简单重复序(SSR)也称微卫星DNA,其串联重复的核心序列为1一6 bp,其中最常见是双核苷酸重复,即(CA) n和(TG) n每个微卫星DNA的核心序列结构相同,重复单位数目10一60个,其高度多态性主要来源于串联数目的不同。 根据SSR核心序列排列方式的不同,可分为3种类型:

完全型(perfect)。指核心序列以不间断的重复方式首尾相连构成的DNA。如: ATATATATATATATATATATATATATATATATAT

不完全型(imperfect)。指在SSR的核心序列之间有3个以下的非重复碱基,但两端的连续重复核心序列重复数大于3。如:

ATATATATGGATATATATATCGATATATATATATATATGGATATATATAT

复合型(compound)。指2个或2个以上的串联核心序列由3个或3个以上的连续的非重复碱基分隔开,但这种连续性的核心序列重复数不少于5。如:ATATATATATATATGGGATATATATATATA

3种类型中完全型是SSR标记中应用较多的一种类型。

Domain保守域 Conserved structural entities with distinctive secondary structure content and an hydrophobic core. In small disulphide-rich and Zn2+-binding or Ca2+- binding domains the hydrophobic core may be provided by cystines and metal ions, respectively. Homologous domains with common functions usually show sequence similarities.

结构域(structure domain)是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。

结构功能域通常由25~300个氨基酸残基组成,不同蛋白质分子中结构域的数目不同,同一个蛋白质分子中的几个结构域彼此相似或者不尽相同。结构域是蛋白质的功能、结构和进化单位,结构功能域分析对于蛋白质结构的分类和预测有着重要的作用。

Bits scores Alignment scores are reported by HMMer and BLAST as bits scores. The likelihood that the query sequence is a bona fide homologue of the database sequence is compared to the likelihood that the sequence was instead generated by a “random” model. Taking the logarithm (to base 2) of this likelihood ratio gives the bits score. P-value This represents a probability that, given a database of a particular size, random sequences score higher than a value X. P-values are generated by the BLAST algorithm that has been integrated into SMART. E-value This represents the number of sequences with a score greater-than, or

equal to, X, expected absolutely by chance. The E-value connects the score (“X”) of an alignment between a user-supplied sequence and a database sequence, generated by any algorithm, with how many alignments with similar or greater scores that would be expected from a search of a random sequence database of equivalent size. Since version 2.0 E-values are calculated using Hidden Markov Models, leading to more accurate estimates than before. Motif模体 Sequence motifs are short conserved regions of polypeptides. Sets of sequence motifs need not necessarily represent homologues.

motif又称模体,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。一般指构成任何一种特征序列的基本结构,但是多数情况下是指可能具有分子功能、结构性质或家族成员相关的任何序列模式。

motif作为结构域中的亚单位,表现结构域的各种生物学功能。常见的蛋白质结构motif,种类超过28类。常见的motif搜索方法主要基于两种,一种是序列模式(Pattern),另外一种是序列特征谱(Profile)。

Pattern 序列模式方法直接搜索关键的几个保守残基,忽略其他位置的氨基酸多态性。例如,“L-x(6)-L-x(6)-L-x(6)-L”(x表示任意氨基酸)为亮氨酸拉链结构的序列模式,这样一段序列多处于蛋白质的活性区域或重要结构区,较为保守,是motif搜索的目标之一。由于序列模式方法搜索的不是完整的结构域或整个蛋白的特征,故其适用于识别保守的功能区域,对于序列变异大的功能区域,则无法准确识别。此外,随机的氨基酸序列也可能出现短小的序列模式,故易产生假阳性,对于此类搜索需要搜索多个不同的数据库,得到尽可能多得同源序列,从而才能更好的说明序列中包含的信息。 Profile A pro file is a table of position-specific scores and gap penalties, representing an homologous family, that may be used to search sequence databases (Ref.: [1] , [2] , [3] ).

In CLUSTAL-W-derived profiles those sequences that are more distantly related are assigned higher weights ( [4] , [5] , [6] ). Issues in pro file-based database searching are discussed in Bork & Gibson (1996) [7] . 序列特征谱搜索是基于蛋白质序列多重比对结果中的保守序列区域进行搜索,由于考虑了不同保守度的氨基酸在相应位置的权重,可以更为敏感的检测到进化距离较远的蛋白质相关性,得到比序列模式方法更为灵敏的结果,但可靠的序列特征谱数目往往有限,因此该方法在进行新基因功能预测时受到了较大的障碍。 Alignment 多重比对,序列比较Representation of a prediction of the amino acids in tertiary structures of homologues that overlay in three dimensions.

3个月前 下一篇上一篇