【5.2】blast数据库知多少

在本地化blast选择数据库的时候,我当时就傻眼了,这么多库,每个库都是啥意思啊,我该选择哪个库来完成我的工作,这个问题在我之前的博客中已经解决。而随着对blast的使用,有产生了一个新的问题,牛逼哄哄的nr的数据库到底算是核酸还是蛋白的数据库呢?

一 Nr数据库

non-redundant protein sequence database with entries from **GenPept**, **Swissprot**, **PIR**, PDF, PDB,and **NCBI RefSeq**

nt库:nucleotide sequence database, with entries from all traditional divisions of GenBank,  EMBL, and DDBJ excluding bulk divisions (gss, sts, pat, est, and htg divisions. wgs entries are also excluded. Not non-redundant.

NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。

NR和NT库都可以通过NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)进行在线BLAST,也可以在 ftp://ftp.ncbi.nih.gov/blast/db 地址中将数据直接下载下来,需要注意的是,NR和NT库是被切分为以数字命名的子数据库上传的(如下图所示),将所有的子数据库放到同一个目录下,解压缩后构建索引文件即可。

从blast官网给出的上面的截图可以看出,nr既在蛋白也在核酸数据中有。因为对于所有已知的或可能的编码序列,nr中的记录都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来),对于很多还给出了在专门蛋白数据库中的序列号。而PDB + SwissProt + PIR + PRF这些蛋白数据库中的条目,都给出了编码它们的核酸序列号,可以索引到nr中的相关序列。所以说nr相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。

GenBank

RefSeq

UniProt

总结

简单的说:

  • GenBank 是核苷酸数据库
  • RefSeq 是基因数据库
  • UniProt 是蛋白质数据库

他们之间无疑有着很深的联系,但区别在于数据库系统,形式,和范围。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn