《GeneBank的使用》課件_第1頁
《GeneBank的使用》課件_第2頁
《GeneBank的使用》課件_第3頁
《GeneBank的使用》課件_第4頁
《GeneBank的使用》課件_第5頁
已閱讀5頁,還剩120頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、GeneBank的使用,生物信息學(xué)數(shù)據(jù)庫 核酸序列數(shù)據(jù)庫 蛋白質(zhì)序列數(shù)據(jù)庫 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 基因組數(shù)據(jù)庫 生物信息學(xué)數(shù)據(jù)庫的分類,GeneBank的使用,生物信息學(xué)數(shù)據(jù)庫 歐洲分子生物學(xué)實驗室的EMBL http:/www.embl-heidelberg.de 美國生物技術(shù)信息中心的GenBank /Genbank/ 日本國立遺傳研究所的DDBJ http:/www.ddbj.nig.ac.jp/searches-e.html 核酸序列數(shù)據(jù)庫,GeneBank的使用,GenBank數(shù)據(jù)庫結(jié)構(gòu),作用:了解序列數(shù)據(jù)庫的格式,有助于更好地提高數(shù)據(jù)

2、庫檢索的效率和準確性。 DDBJ數(shù)據(jù)庫的內(nèi)容和格式與GenBank相同,此處不作詳細介紹。 分別介紹EMBL和GenBank的數(shù)據(jù)庫結(jié)構(gòu),GeneBank的使用,GenBank數(shù)據(jù)庫數(shù)據(jù)注釋(/genbank/ ),GenBank庫包含所有已知的核酸序列和蛋白質(zhì)序列, 以及與它們相關(guān)的文獻著作和生物學(xué)注釋。 NCBI可提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù)。 數(shù)據(jù)庫 序列文件:注釋內(nèi)容文章 索引文件:檢索目錄文摘,GeneBank的使用,GenBank數(shù)據(jù)庫結(jié)構(gòu),完整的 GenBank數(shù)據(jù)庫包括序列文件,索引文件以及其它有關(guān)文件。 索引文件是

3、根據(jù)數(shù)據(jù)庫中作者、參考文獻等建立的,用于數(shù)據(jù)庫查詢。 GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質(zhì)序列數(shù)據(jù)庫 數(shù)據(jù)格式為FastA。,GeneBank的使用,GenBank數(shù)據(jù)庫結(jié)構(gòu),GenBank中最常用的是序列文件。 序列文件的基本單位:是序列條目,包括核苷酸堿基排列順序和注釋兩部分。 生物信息資源中心通過計算機網(wǎng)絡(luò)提供該數(shù)據(jù)庫文件。 注釋條目:文章的格式,(/genbank/,GeneBank的使用,Genbank,GeneBank的使用,Genbank 查找頁面,GeneBank的使用,D31716,描述部分,GeneBank的

4、使用,CDs are recurring units in polypeptide chains (sequence and structure motifs), the extents of which can be determined by comparative analysis. Molecular evolution uses such domains as building blocks and these may be recombined in different arrangements to make different proteins with different f

5、unctions.,CD s編碼序列,含終止密碼子 polyA_signal 多聚A信號,GeneBank的使用,D31716,特性表,序列本身,關(guān)鍵字,CDs are recurring units in polypeptide chains,GeneBank的使用,D31716,序列本身,GeneBank的使用,GeneBank的使用,序列結(jié)束,4859 bp,GeneBank的使用,D31716,GeneBank的使用,GenBank數(shù)據(jù)記錄,GeneBank的使用,GenBank數(shù)據(jù)記錄,GeneBank的使用,GenBank數(shù)據(jù)庫結(jié)構(gòu),GenBank序列文件由單個的序列條目組成。 序

6、列條目由字段組成,每個字段由關(guān)鍵字起始,后面為該字段的具體說明。 字段分若干次子字段,以次關(guān)鍵字或特性表說明符開始。 每個序列條目以雙斜杠“/”作結(jié)束標記,GeneBank的使用,GenBank數(shù)據(jù)庫結(jié)構(gòu),序列條目的格式非常重要,關(guān)鍵字從第一列開始,次關(guān)鍵字從第三列開始,特性表說明符從第五列開始。 每個字段可占一行,也可以占若干行。 若一行中寫不下時,繼續(xù)行以空格開始,GeneBank的使用,GenBank數(shù)據(jù)庫,物種:GenBank 庫里的數(shù)據(jù)按來源于大約100,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列) 記錄:每條GenBank數(shù)據(jù)記錄包含對序列的簡

7、要描述,它的科學(xué)命名,物種分類名稱,參考文獻,序列特征表,及序列本身,GeneBank的使用,GenBank數(shù)據(jù)庫,序列特征表:包含對序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點或修飾位點等 分類:所有數(shù)據(jù)記錄被劃分為如細菌類、病毒類、靈長類、嚙齒類,以及EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī)?;蚪M序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被分成若干文件,GeneBank的使用,注釋內(nèi)容,序列條目關(guān)鍵字: LOCUS (代碼), DEFINITION (說明), ACCESSION(編號), NID符(核酸標識), KEYWORDS (關(guān)鍵詞), SOURCE (數(shù)據(jù)來源), REFERE

8、NCE (文獻), FEATURES (特性表), BASE COUNT (堿基組成) ORIGIN (堿基排列順序)。 新版的核酸序列數(shù)據(jù)庫將引入新的關(guān)鍵詞SV (序列版本號),用“編號.版本號”表示,并取代關(guān)鍵詞NID,GeneBank的使用,LOCUS,LOCUS (代碼):是該序列條目的標記,或者說標識符, 蘊涵這個序列的功能:如HUMCYCLOX表示人的環(huán)氧化酶。 序列長度 類型 種屬來源 錄入日期等 說明字段是有關(guān)這一序列的簡單描述,GeneBank的使用,ACCESSION,ACCESSION (編號):具有唯一性和永久性,在文獻中引用這個序列時,應(yīng)該以此編號為準。,GeneBa

9、nk的使用,KEYWORDS,KEYWORDS (關(guān)鍵詞)字段:由該序列的提交者提供,包括 該序列的基因產(chǎn)物 其它相關(guān)信息,GeneBank的使用,SOURCE,SOURCE (數(shù)據(jù)來源)字段:說明該序列是從什么生物體、什么組織得到的 次關(guān)鍵字ORGANISM (種屬):指出該生物體的分類學(xué)地位,GeneBank的使用,REFERENCE,REFERENCE(文獻)字段:說明該序列中的相關(guān)文獻,包括 AUTHORS (作者), TITLE (題目)及 JOURNAL(雜志名)等, 以次關(guān)鍵詞列出。 MEDLINE的代碼:該代碼實際上是個超文本鏈接,點擊它可以直接調(diào)用上述文獻摘要。 一個序列可有

10、多篇文獻,以不同序號表示,并給出該序列中哪一部分與文獻有關(guān)。,GeneBank的使用,FEATURES,FEATURES (特性表):具有特定的格式,用來詳細描述序列特性。 特性表中帶有/db-xref/標志的字符可以連接到其它數(shù)據(jù)庫,如分類數(shù)據(jù)庫(taxon 9606), 以及蛋白質(zhì)序列數(shù)據(jù)庫(PID:g181254)。 序列中各部分的位置都在表中標明,5非編碼區(qū),編碼區(qū),3非編碼區(qū),多聚腺苷酸重復(fù)區(qū)域等。 翻譯所得信號肽以及最終蛋白質(zhì)產(chǎn)物 堿基含量字段,給出序列中的堿組成,GeneBank的使用,ORIGIN,ORIGIN行是序列的引導(dǎo)行 下面便是堿基序列 以雙斜杠行“/”結(jié)束。,Gene

11、Bank的使用,GenBank數(shù)據(jù)庫數(shù)據(jù)庫格式,FASTA格式 gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCT

12、GAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCA

13、TCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT (該序列沒有完全列出),GeneBank的使用,GenBank數(shù)據(jù)庫數(shù)據(jù)庫格式(1),FASTA格式:將一個DNA或者蛋白質(zhì)序列表示為一個帶有一些標記的核苷酸或氨基酸字符串。 大于號()表示一個新文件的開始 結(jié)束用(/) FASTA格式并沒有什么特殊的要求。,GeneBank的使用,FASTA格式序列的提交,GeneBank的使用,GenBank數(shù)據(jù)庫數(shù)據(jù)庫格式(1),FASTA格式特點: 只存儲了最少量的信息 它將所存儲的信息轉(zhuǎn)化為簡單的字符串 人和計算機對其存儲的信

14、息都具有極大的可讀性 FASTA格式在許多分子生物學(xué)軟件包中得到廣泛應(yīng)用。,GeneBank的使用,GenBank數(shù)據(jù)庫數(shù)據(jù)庫格式(2),GenBank純文本文件格式(GenBank flatfile, GBFF): GenBank、EMBL、DDBJ每天都相互同步更新各自的數(shù)據(jù)庫,它們是怎樣交換數(shù)據(jù)的呢?,GeneBank的使用,GBFF文件格式,GBFF是GenBank數(shù)據(jù)庫的基本信息單位, 是最為廣泛使用的生物信息學(xué)序列格式之一。,GeneBank的使用,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces

15、 cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE bakers yeast. ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Sacchar

16、omyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 REFERENCE 2

17、 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submissi

18、on JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 1.5028 /organism=Saccharomyces cerevisiae /db_xref=taxon:4932 /chromosome=IX /map=9 CDS 1.206 /codon_start=3 /product=TCP1-beta /protein_id=AAA98665.1 /db_xref=GI:1293614

19、 /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 687.3158 /gene=AXL2 CDS 687.3158 /gene=AXL2 /note=plasma membrane glycoprotein /codon_start=1 /function=required for axial budding pattern of S.cerevisiae /product=Axl2p /protein_id=AAA98666.1 /db_xref=GI:1293615

20、 /translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF (有部分序列未列出) VDFSNKSNVNVGQVKDIHGRIPEML BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct (有部分序列未列出) 4921 ttttca

21、gtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc /,GeneBank的使用,GBFF格式,按域(Field)可以劃分為三個部分 頭部包含整個記錄的信息(描述符); 第二部分包含了注釋這一記錄的特性; 第三部分是核苷酸序列本身。 所有序列數(shù)據(jù)庫記錄都在最后一行以“/”結(jié)尾。,GeneBank的使用,GBFF格式頭部Locus行,所有的GBFF都起始于LOCUS行: -+-+-+-+-+- 1 10 20 30

22、40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,GeneBank的使用,GBFF格式頭部Locus行,1、LOCUS行: 第一項是LOCUS名稱: 最初這一名稱是用來表示本記錄描述的基因座,以方便檢索相似序列: 前三個字母代表特定物種的名稱 第四、第五個字母代表如基因產(chǎn)物等特定的類別名稱。 如HUMHBB(人-珠蛋白基因區(qū)域)。,GeneBank的使用,GBFF格式頭部Locus行,LOCUS這種“十字符”命名方式已經(jīng)無法滿足基因在基因座中所包含的信息。 LOCUS名稱目前唯一的作用是它在數(shù)據(jù)庫中是獨一無二的,已不在具有任何實際意義。 僅

23、使用檢索號碼(acession number)以滿足對LOCUS名稱的要求 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,GeneBank的使用,GBFF格式頭部Locus行,第二項是序列長度。 GenBank對提交的序列長度沒有上限要求。 根據(jù)國際序列數(shù)據(jù)庫合作計劃的協(xié)議,為方便不同的軟件處理序列,規(guī)定單條數(shù)據(jù)庫記錄的長度不能超過350kb。 GenBank已經(jīng)很少接受長度低于50bp的序列。 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-19

24、99,GeneBank的使用,GBFF格式頭部Locus行,第三項表明序列的分子類型:其序列必須是一種單一的分子類型。 包括:基因組DNA、RNA、RNA前體、mRNA(cDNA)、tRNA等。 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,GeneBank的使用,GBFF格式頭部Locus行,第四項是GenBank分類碼:由三個字母組成, 分類碼將GenBank數(shù)據(jù)庫分為17個分支 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,Gen

25、eBank的使用,GenBank分類碼(GenBank Division),GeneBank的使用,GBFF格式頭部Locus行,第五項是最后修訂日期。 某些時候,它也是數(shù)據(jù)第一次被公開的日期。 這項簡單的信息并無法對此做出判斷。 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,GeneBank的使用,GBFF格式頭部DEFINITION行,2、DEFINITION行: 主要對GenBank記錄中所含的生物學(xué)意義做出總結(jié)。 它的說明內(nèi)容包括來源物種、基因/蛋白質(zhì)名稱; -+-+-+-+-+- 1 10 20 30 4

26、0 50 60 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.,GeneBank的使用,GBFF格式頭部DEFINITION行,如果序列是非編碼區(qū),則包含對序列功能的簡單描述;如果序列是一段編碼區(qū),則標明該序列是部分序列(partial cds)還是全序列(complete cds)。 -+-+-+-+-+- 1 10 20 30 40 50 60 DEFINITION Saccharomyces cer

27、evisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.,GeneBank的使用,GBFF格式頭部-ACCESSION行,3、檢索號(ACCESSION): 是序列記錄的唯一指針。 檢索號通常由一個字母加5個數(shù)字(U12345)或者由兩個字母加6個數(shù)字(AF123456)組成。 -+-+-+-+-+- 1 10 20 30 40 50 60 ACCESSION U49845 Dear GenBank Submitter: Thank you for your direc

28、t submission of sequence data to GenBank. We have provided a GenBank accession number for your nucleotide sequence: bankit660463 AY795899 We strongly recommend that this GenBank accession number appears in any publication that reports or discusses these data, as it gives the community a unique label

29、 with which they may retrieve your data from our on-line servers.,GeneBank的使用,GBFF格式頭部-ACCESSION行,檢索號在數(shù)據(jù)庫中是唯一而且不變的,即使數(shù)據(jù)的提交者改變數(shù)據(jù)的內(nèi)容。 在 ACCESSION行中可能出現(xiàn)多個檢索號,可能是因為數(shù)據(jù)提交者提交了一條與原記錄相關(guān)的新記錄,或者新提交的記錄覆蓋了原有的舊記錄。 第一個檢索號為主檢索號,而其余的統(tǒng)稱為二級檢索號。,GeneBank的使用,GBFF格式頭部VERSION行,4、版本號行:它的格式是:檢索號.版本號。 版本號于99年2月由三大數(shù)據(jù)庫采納使用。主要用

30、于識別數(shù)據(jù)庫中一條單一的特定核苷酸序列。 在數(shù)據(jù)庫中,如果某條序列數(shù)據(jù)發(fā)生了變化,即使是單堿基的改變,它的版本號都將增加,而它的檢索號保持不變 如由U12345.1變?yōu)閁12345.2。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 VERSION U49845.1 GI:1293613,GeneBank的使用,GBFF格式頭部VERSION行,版本號系統(tǒng)與跟在其后的GI(GenInfo Identifier)號系統(tǒng)是平行運行 當一條序列改變后,它將被賦予一個新的GI號,同時它的版本號將增加。 當依據(jù)核酸序列的內(nèi)部序列進行蛋白質(zhì)翻譯時,蛋白質(zhì)的翻譯發(fā)生任何

31、變換,核酸序列都將被賦予一個新的GI號。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 VERSION U49845.1 GI:1293613,GeneBank的使用,GBFF格式頭部KEYWORDS行,5、關(guān)鍵詞行:是用來描述序列的。如果該行中沒有任何內(nèi)容,那么就只包含一個“.”。 由于沒有對照詞匯表,所以NCBI GenBank拒絕接受關(guān)鍵詞,它只存在于舊的記錄中。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 KEYWORDS .,GeneBank的使用,GBFF格式頭部 SOURCE行,6、序列來源行:沒有做特

32、殊的規(guī)定,它通常包含序列來源生物的簡稱,有些時候也包含分子類型。 Organism:以NCBI的分類數(shù)據(jù)庫為依據(jù),指明物種的正式科學(xué)名稱。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 SOURCE bakers yeast. ORGANISM Saccharomyces cerevisiae Eukaryota(真核); Fungi(真菌); Ascomycota(子囊菌門); Hemiascomycetes(半子囊菌綱); Saccharomycetales; Saccharomycetaceae; Saccharomyces.,GeneBank的使用

33、,GBFF格式頭部REFERENCE行,7、參考文獻行:將與該數(shù)據(jù)有關(guān)的參考文獻均收錄在內(nèi),將最先發(fā)表的文獻列于第一位。 如果序列數(shù)據(jù)沒有被文獻報道,該行將顯示 “in press”或“unpublished” 如所引用文獻存在于MEDLINE數(shù)據(jù)庫中,將出現(xiàn)一個MEDLINE單一指針(unique identifier,UID)以便檢索。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,

34、C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709,GeneBank的使用,GBFF格式頭部REFERENCE行,如果序列是直接提交而未經(jīng)發(fā)表的,就將在標題(TITLE)中注明“直接提交(Direct Submission)” 在期刊(JOURNAL)中注明提交

35、日期,提交者姓名以及提交者的工作單位。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 REFERENCE 1 (bases 1 to 1939) AUTHORS Yi,CAO., Dairong,QIAO., Qinghua,HE. and Shunji,HE. TITLE Cloning and expression studies of a cDNA encoding UDP- glucose dehydrogenase from Dunaliella salina JOURNAL Unpublished,GeneBank的使用,GBFF格式中部,特性

36、表(FEATURES): 它描述基因和基因的產(chǎn)物,以及與序列相關(guān)的生物學(xué)特性。 特性表提供一個參考詞匯表以對合法的特性進行注釋 這些特性包括該序列是否執(zhí)行一個生物學(xué)功能; 它是否與一個生物學(xué)功能的表達相關(guān); 它是否與其它分子相互作用; 它是否影響一條序列的復(fù)制; 它是否與其它序列的重組相關(guān); 它是否是一條已識別的重復(fù)序列; 它是否有二級或三級結(jié)構(gòu); 它是否存在變異或者它是否被修訂過。,GeneBank的使用,GBFF格式中部,特性表格式:按表單的方式設(shè)計的,包含三個部分: 第一,特性關(guān)鍵詞(Feature key); 第二,特性位置(Location); 第三,限定詞(Qualifiers)。

37、 FEATURES Location/Qualifiers source 1.5028 /organism=“Saccharomyces cerevisiae”釀酒酵母 /mol_type=genomic DNA基因組DNA /db_xref=taxon:4932分類學(xué) /chromosome=IX染色體 /map=9,GeneBank的使用,GBFF格式中部FEATURES,第一,特性關(guān)鍵詞(Feature key),是一個簡要說明功能組的關(guān)鍵詞,允許加入新的或未定義的特性; 第二,特性位置(Location),指明在特性表中的什么地方找到相關(guān)特性,在位置特性中可以包含操作符(Operato

38、r)和功能性描述符(Descriptor)以指明序列需經(jīng)過怎樣的處理才能得到相應(yīng)的特性; 第三,限定詞(Qualifiers),相關(guān)特性的輔助信息,限定詞使用一組標準化的對照詞匯表以利于計算機從中提取信息。,GeneBank的使用,GBFF格式中部FEATURES,例1 Key Location/Qualifiers CDS 23.400 /product=alcohol dehydrogenase /gene=adhI 特性表含義: 該編碼序列(CDS)起始于第23堿基,終止于第400堿基 產(chǎn)物是乙醇脫氫酶 基因名稱是“adhI”。,GeneBank的使用,GBFF格式中部FEATURES,

39、例2 Key Location/Qualifiers CDS join(544.589,688.1032) /product=T-cell receptor beta-chain 特性表含義: 它表示記錄中所存儲的序列為部分編碼序列, 表達產(chǎn)物“T-細胞受體beta鏈”由序列內(nèi)兩個片段結(jié)合生成 指明兩個片段在序列中所處的位置。,GeneBank的使用,GBFF格式中部特性表關(guān)鍵詞,1、特性表的關(guān)鍵詞:以樹型結(jié)構(gòu)生成 misc_feature 生物學(xué)特性無法用特性表關(guān)鍵詞描述的序列 misc_difference 序列特性無法用特性表關(guān)鍵詞描述的序列 conflict 同一序列在不同的研究中在位

40、點或區(qū)域上有差異 unsure 序列不能確定的區(qū)域 old_sequence 該序列對以前的版本做過修訂 variation 包含穩(wěn)定突變的序列 modified_base 修飾過的核苷酸 gene 已識別為基因或已命名的序列區(qū)域 misc_signal 無法用信號特性關(guān)鍵詞描述的信號序列 promoter 轉(zhuǎn)錄起始區(qū) CAAT_signal 真核啟動子上游的CAAT盒,與RNA結(jié)合相關(guān) TATA_signal 真核啟動子的TATA盒 -35_signal 原核啟動子中的-35框 -10_signal 原核啟動子Pribow盒 GC_signal 真核啟動子的GC盒 RBS 核糖體結(jié)合位點 p

41、olyA_signal RNA轉(zhuǎn)錄本的剪切識別位點 enhancer 增強子 attenuator 與轉(zhuǎn)錄終止有關(guān)的序列 terminator 轉(zhuǎn)錄終止序列 rep_origin 雙鏈DNA復(fù)制起始區(qū),GeneBank的使用,GBFF格式中部特性表關(guān)鍵詞,misc_RNA 無法用RNA關(guān)鍵詞描述的轉(zhuǎn)錄物或RNA產(chǎn)物 prim_transcript 初始轉(zhuǎn)錄本 precursor_RNA 前體RNA mRNA 信使RNA 5clip 前體轉(zhuǎn)錄本中被剪切掉的5端序列 3clip 前體轉(zhuǎn)錄本中被剪切掉的3端序列 5UTR 5非翻譯區(qū) 3UTR 3非翻譯區(qū) exon 外顯子 CDS 蛋白質(zhì)編碼序列 s

42、ig_peptide 編碼信號肽的序列 transit_peptide 轉(zhuǎn)運蛋白編碼序列 mat_peptide 編碼成熟肽的序列 intron 內(nèi)含子 polyA_site RNA轉(zhuǎn)錄本的多聚腺苷酸化位點 rRNA 核糖體RNA tRNA 轉(zhuǎn)運RNA scRNA 小細胞質(zhì)RNA snRNA 小核RNA snoRNA 加工和修飾rRNA的小核RNA,GeneBank的使用,GBFF格式中部特性表關(guān)鍵詞,immunoglobulin_related C_region 免疫相關(guān)蛋白上的穩(wěn)定區(qū) D_segment 碼免疫球蛋白重鏈的可變區(qū)基因之一 J_segment 編碼免疫球蛋白輕鏈和重鏈的可變區(qū)

43、基因之一 N_region 插入重排免疫球蛋白片段間的核苷酸 S_region 免疫球蛋白重鏈的開關(guān)區(qū) V_region 免疫球蛋白輕鏈和重鏈的可變區(qū),和T細胞受體,和鏈;編碼可變的氨基末端部分;可由V_segment, D_segment, N_region和J_segment組成 V_segment 免疫球蛋白輕鏈和重鏈的可變區(qū)段,和T 細胞受體,和鏈;編碼大多數(shù)可變區(qū)(v_region) 和前導(dǎo)肽的最后幾個氨基酸 repeat_region 基因組中所包含的重復(fù)序列,GeneBank的使用,GBFF格式中部特性表關(guān)鍵詞,repeat_unit 單個的重復(fù)元件 LTR 長末端重復(fù)序列 Sa

44、tellite 衛(wèi)星重復(fù)序列 misc_binding 無法描述的核酸序列結(jié)合位點 primer_bind 復(fù)制、轉(zhuǎn)錄的引物結(jié)合位點 protein_bind 蛋白質(zhì)結(jié)合區(qū) STS 測序標簽位點 misc_recomb 無法用重組特性關(guān)鍵詞描述的重組事件 iDNA 通過重組所消除的DNA misc_structure 無法用結(jié)構(gòu)關(guān)鍵詞描述的核酸序列高級結(jié)構(gòu)或構(gòu)型 stem_loop 發(fā)夾結(jié)構(gòu) D-loop 線粒體中DNA中的取代環(huán),GeneBank的使用,GBFF格式中部Location,2、特性位置(Location):用來描述在序列中的什么區(qū)域能夠找到相關(guān)的特性,位置特性可以包含Compl

45、ement、Join、Order等三個操作符(Operator)。 467 指明序列中的單個堿基 340.565 指明包括起始和中止堿基在內(nèi)的一段連續(xù)序列 345.500 指明序列起始于起始堿基號之前的某個位置,但起始堿基號之前的特性邊界未知,GeneBank的使用,GBFF格式中部Location,1.888 指明特性起始于第一個已測序的堿基之前 (102.110) 指明正確位置未知,但包含在102和110號堿基之間 (23.45).600 指明序列特性起始堿基在23和45堿基之間,終止于600號堿基 (122.133).(204.221) 指明序列特性起始于122和133堿基之間,終止于2

46、04和221號堿基之間 123124 指明123和124號堿基之間的位點,如限制性酶切位點 145177 指明145和177堿基之間的某個位點,GeneBank的使用,GBFF格式中部Location,join(12.78,134.202) 12至78堿基及134至202堿基之間序列相應(yīng)連以構(gòu)成一段連續(xù)序列 complement(join(2691.4571,4918.5163) 紀錄中的特性處于2691至4571堿基以及4918至5163堿基之間的序列相連構(gòu)成的連續(xù)序列的互補鏈上 join(complement(4918.5163),complement(2691.4571) 將4918至5

47、163堿基之間序列的互補鏈與2691至4571間序列的互補鏈結(jié)合以構(gòu)成一段連續(xù)序列,GeneBank的使用,GBFF格式中部Location,complement(34.(122.126) 指明序列特性起始于與122至126堿基之間某個互補的堿基,終止于與34號堿基互補的堿基 J00194:100.202 指明起始于100號堿基,終止于202號堿基的序列在數(shù)據(jù)庫中的主檢索號為J00194,GeneBank的使用,GBFF格式中部 Qualifiers,3、限定詞(Qualifier): 為進一步說明特性表關(guān)鍵詞和特性位置提供的信息給出了一個通用機制。 格式:在“/”后跟上限定詞名稱,加上“=”

48、,其后是限定詞的值 Key Location/Qualifiers CDS 86.742 次黃嘌呤磷酸核糖轉(zhuǎn)移酶 /product=hypoxanthine phosphoribosyltransferase /label=hprt /note=hprt catalyzes vital steps in the reutilization pathway for purine biosynthesis and its deficiency leads to forms of gouty arthritis rep_origin 234.243 缺乏 /direction=left CDS 10

49、9.564 /usedin=X10009:catalase,重復(fù)利用,易患痛風(fēng)的關(guān)節(jié)炎,過氧化氫酶,GeneBank的使用,常見的特性表關(guān)鍵詞所使用的限定詞,GeneBank的使用,常見的特性表關(guān)鍵詞所使用的限定詞(續(xù)),GeneBank的使用,GBFF格式尾部ORIGIN,序列:類似于FASTA格式給出了所記錄的序列。 ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga 41 tctcaacaac ggaaccattg ccgacatgag acagttaggt 81 atcgtcgaga gttacaagct aaaacgagca gt

50、agtcagct (有部分序列未列出) 4921 ttttcagtgt tagattgctc taattctttg agctgttctc 4961 tcagctcctc atatttttct tgccatgact cagattctaa 5001 ttttaagcta ttcaatttct ctttgatc /,GeneBank的使用,總結(jié),全面了解GBFF文件格式及其所涉及的各個方面 GBFF是核苷酸和蛋白質(zhì)序列數(shù)據(jù)庫最常用的數(shù)據(jù)格式。 正確地理解數(shù)據(jù)庫格式成分的含義,知道從中如何提取生物學(xué)知識 在數(shù)據(jù)庫中進行檢索,使用不同的工具進行生物信息學(xué)分析,具有十分重要的意義。,GeneBank的使用

51、,圖C2.2人類某一EST克隆的Genbank(dbEST),GeneBank的使用,GeneBank的使用,GeneBank的使用,EMBL,生化實驗技術(shù)質(zhì)譜分析(Mass Spectrometry)等 細胞生物學(xué)(Cell Biology),研究細胞膜上蛋白和脂肪的分布,包括膜運輸、微管網(wǎng)絡(luò)、細胞核及細胞周期,焦點是Rab蛋白。 細胞生物物理(Cell Biophysics),重點是理論創(chuàng)新和實際應(yīng)用的研究,尤其是光學(xué)顯微鏡的完善使用。 分化(Differentiation),集中研究果蠅的早期發(fā)育。,GeneBank的使用,EMBL的研究內(nèi)容,基因表達(GeneExpression),研

52、究基因到蛋白質(zhì)信息傳遞的過程,尤其是核糖體合成在整個細胞生命過程中的重要作用。 結(jié)構(gòu)生物學(xué)(StructureBiology),在過去9年中建立了cDNA測序技術(shù)、生物計算、蛋白工程、晶體學(xué)、電子顯微鏡(EM)及核磁共振(VMR),研究肌肉巨型蛋白分子Titin。 Grenoble研究分部,主要研究蛋白質(zhì)合成過程,尤其揭示了G-蛋白-鳥苷酸交換因子偶聯(lián)物的結(jié)構(gòu) Hamburg研究分部,有關(guān)長期的分子生物學(xué)國際合作研究歷史,著重于結(jié)構(gòu)生物學(xué)研究,如光學(xué)測量系統(tǒng)、晶體學(xué)、X-線吸收光譜及小角散射。,GeneBank的使用,EMBL的研究內(nèi)容,Hinxton研究分部EBI,重點是與世界上其他分子生物

53、學(xué)數(shù)據(jù)庫進行合作研究,主要有EMBL核酸序列數(shù)據(jù)庫,于1980年開始建立,隨后參予了與日內(nèi)瓦大學(xué)共同進行的SWISS-PROT的建設(shè)。 在SWISS-PROT與EMBL核苷酸序列庫之間的數(shù)據(jù)轉(zhuǎn)移的基礎(chǔ)上,產(chǎn)生了新的數(shù)據(jù)庫TREMBL, 即使核苷酸序列庫的核苷酸序列自動翻譯成SWISS-PROT蛋白序列庫中的蛋白序列。 放射性雜交數(shù)據(jù)庫(Radiation Hybrid Database)。 Monterotondo研究中心:EMBL和歐洲其他研究機構(gòu)一起,加入到哺乳類生物學(xué)和生物醫(yī)學(xué)等的研究行列, 該中心位于意大利羅馬北部的Monterotondo。EMBL著重于鼠遺傳學(xué)研究,GeneBank

54、的使用,EMBL數(shù)據(jù)記錄,GeneBank的使用,EMBL數(shù)據(jù)庫結(jié)構(gòu),EMBL數(shù)據(jù)庫的基本單位也是序列條目,包括核甘酸堿基排列順序和注釋兩部分。 序列條目由字段組成,每個字段由標識字起始,后面為該字段的具體說明。 有些字段又分若干次子字段,以次標識字或特性表說明符開始,最后以雙斜杠“/”作本序列條目結(jié)束標記。,GeneBank的使用,EMBL數(shù)據(jù)庫結(jié)構(gòu),條目的關(guān)鍵字包括: ID(序列名稱), DE(序列簡單說明), AC(序列編號), SV(序列版本號), KW(與序列相關(guān)的關(guān)鍵詞), OS(序列來源的物種名), OC(序列來源的物種學(xué)名和分類學(xué)位置), RN (相關(guān)文獻編號或遞交序列的注冊信

55、息), RA (相關(guān)文獻作者或遞交序列的作者),,GeneBank的使用,EMBL數(shù)據(jù)庫結(jié)構(gòu),RT(相關(guān)文獻題目) RL (相關(guān)文獻雜志名或遞交序列的作者單位), RX(相關(guān)文獻Mediline引文代碼), RC(相關(guān)文獻注釋), RP (相關(guān)文獻其他注釋), CC(關(guān)于序列的注釋信息), DR (相關(guān)數(shù)據(jù)庫交叉引用號), FH (序列特征表起始), FT (序列特征表子項), SQ(堿基種類統(tǒng)計數(shù)),GeneBank的使用,EMBL數(shù)據(jù)庫記錄注釋代碼和內(nèi)容說明,GeneBank的使用,http:/www.ebi.ac.uk/ena/,GeneBank的使用,GeneBank的使用,GeneB

56、ank的使用,相關(guān)文獻數(shù)據(jù)庫(DR) 的說明,許多二級數(shù)據(jù)庫內(nèi)容來自初始數(shù)據(jù)庫 OMIM數(shù)據(jù)庫是有關(guān)人類遺傳疾病的數(shù)據(jù),如OMIM中的一個記錄與EMBL中一個已知序列的基因有關(guān),則該基因?qū)⑴c該記錄建立聯(lián)系,EMBL庫中該序列的DR欄中將包括OMIM和OMIM中相關(guān)記錄的名稱。 DR欄中有該DNA序列翻譯成蛋白質(zhì)序列的SWISS-PROT記錄號等。,GeneBank的使用,EMBL數(shù)據(jù)庫記錄,相關(guān)文獻數(shù)據(jù)庫,GeneBank的使用,相關(guān)文獻數(shù)據(jù)庫(DR) 的說明,DR欄內(nèi)容有助于了解與該原始DNA序列相關(guān)信息的狀況和存貯站點。 與DR欄有關(guān)的數(shù)據(jù)庫:SWISS-PROT、EMBL、OMIM、PROSITE(保守蛋白質(zhì)模序數(shù)據(jù)庫)、HSSP、PDB 、PIR 、MEDLNE(與RL欄相關(guān)的文獻摘要數(shù)據(jù)庫) 等。,GeneBank的使用,相關(guān)文獻數(shù)據(jù)庫(DR)的說明,注釋中另一個需要說明的重要內(nèi)容是主表數(shù)據(jù)(feature table data, FT)欄。 主表試圖將盡可能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論