GenBank - 中企百科sports.zqxb.org

GenBank

更新时间：2024-04-09 23:10

GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ，NCBI)建立的DNA序列数据库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等， 1998)。为保证数据尽可能的完全，GenBank与EMBL（欧洲EMBL-DNA数据库）、DDBJ（日本DNA数据库：DNA Data Bank of Japan）建立了相互交换数据的合作关系。

简介

大型数据库分成若干子库，有许多好处。首先，可以把数据库查询限定在某一特定部分，以便加快查询速度。其次，基因组计划快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列（HighThroughput Genomic Sequences，HTG）、表达序列标记（Expressed Sequence Tags，EST）、序列标记位点（SequenceTaggedSites，STS）和基因组概览序列（Genome Survey Sequences，GSS）单独分类。尽管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。

可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外，通过该系统的文献摘要数据库MEDLINE，可获取有关序列的进一步信息。在万维网上，进入NCBI的主页，可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索（详见第六章）。

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等字段建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发，价格比较便宜。随着数据库容量的增长，一套最新版的GenBank需要12张光盘存放，不仅生产成本很高，也不便于使用。光盘分发的方式已经停止，可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核甘酸碱基排列顺序和注释两部分。许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}