RepeatMasker是一款用于寻找DNA序列中中间重复序列和低复杂度DNA序列的软件。这个软件的输出是对其中重复序列的碱基进行标注,默认的是改为N。目前56%的人类基因组重复序列的标注用的是这个工具。RepeatMasker 使用序列比较的工具包括:nhmmer, cross_match, ABBlast/WUBlast, RMBlast and Decypher。数据库位已经验证的重复序列数据库,目前也支持Dfam ( profile HMM library derived from Repbase sequences ) and Repbase。
官网: http://www.repeatmasker.org/
Transposable elements (TE)跟基因组结构,基因组大小,基因组重拍,host gene ,进化有关。从而影响基因组测序、组装、注释和序列比对。这样的结构在基因组中显得尤为重要。
- 串联重复(tandem repeats)
- 散在分布在基因组中的重复序列(interspersed repeats)。主要是transposable elements(TEs).
第一类串联重复包含:microsatellites 或 simple sequence repeats(1-6个碱基为一个重复单元) 和 minisatellites(10-60个碱基的长序列为一个重复单元).
TEs包含2种类型:class-I TEs通过RNA介导的(copy and paste)机制进行转座;class-II TEs通过DNA介导的(cut and paste)机制来转座. 前者称为retroelements,后者称为DNA transposons。
class-I TEs中主要由LTR(long terminal repeat)构成。LTR的部分序列可能具有编码功能。而non-LTR则包含2个子类:LINEs(long interspersed nuclear elements)和SINEs(short interspersed elements),其中前者可能具有编码功能,后者则没有。
class-II TEs中加入了一个子类 MITEs(miniature inverted repeat transposable elements),基于DNA的转座因子,但是确通过”copy and paste”的机制来转座(Wicker et al., 2007)。
- Tandem repeats 串连重复
- Satellite DNA 卫星DNA
- Variable number tandem repeat /Minisatellite 小卫星
- Short tandem repeat(STR)/Microsatellite (Trinucleotide repeat disorders)微卫星
- Interspersed repeats 散落重复
- Transposon (Transposable elements (TEs) )转座子
- Retrotransposon 反转录转座子
- SINEs - Alu sequence, MIR 短散落元件
- LINEs - LINE1, LINE2 长散落元件
- LTRs - HERV, MER4, retroposon 长末端重复
- DNA transposon DNA转座子
- MER1, MER2, Mariners
- TIR(Terminal Inverted Repeat) 末端方向重复
Discovery (发现新的)和Detect (从已知中确认) transposable elements的方法
RepeatMasker -pa 4 -species human -xsmall mask_output/temp.fasta -dir ./mask_output
-pa(rallel) [number]
The number of processors to use in parallel (only works for batch
files or sequences over 50 kb)
Specify the species or clade of the input sequence. The species name
must be a valid NCBI Taxonomy Database species name and be contained
in the RepeatMasker repeat database. Some examples are:
-species human
-species mouse
-species rattus
-species "ciona savignyi"
-species arabidopsis
Returns repetitive regions in lowercase (rest capitals) rather than
- Repeatmasker genome ID length < 50 序列名字长度不超过50个字符即可
