《讀懂GeneBank數(shù)據(jù)》PPT課件.ppt_第1頁
《讀懂GeneBank數(shù)據(jù)》PPT課件.ppt_第2頁
《讀懂GeneBank數(shù)據(jù)》PPT課件.ppt_第3頁
《讀懂GeneBank數(shù)據(jù)》PPT課件.ppt_第4頁
《讀懂GeneBank數(shù)據(jù)》PPT課件.ppt_第5頁
已閱讀5頁,還剩121頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、生物信息學(xué)數(shù)據(jù)庫分類核酸序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫基因組數(shù)據(jù)庫生物信息學(xué)數(shù)據(jù)庫EMBL http:/歐洲分子生物學(xué)實(shí)驗(yàn)室生物信息學(xué)數(shù)據(jù)庫www。EMBL-海德堡基因銀行美國生物技術(shù)信息中心/Genbank/DDBJ http:/www.ddbj.nig.ac.jp/日本國家遺傳學(xué)研究所Searches-e.html核酸序列數(shù)據(jù)庫,基因銀行數(shù)據(jù)庫結(jié)構(gòu),功能:了解序列數(shù)據(jù)庫的格式有助于提高數(shù)據(jù)庫檢索的效率和準(zhǔn)確性。DDBJ數(shù)據(jù)庫的內(nèi)容和格式與GenBank相同,因此在此不再贅述。本文分別介紹了EMBL和GenBank的數(shù)據(jù)庫結(jié)構(gòu),

2、以及對GenBank數(shù)據(jù)庫數(shù)據(jù)的注釋。GenBank數(shù)據(jù)庫包含所有已知的核酸序列和蛋白質(zhì)序列,以及相關(guān)的文獻(xiàn)和生物學(xué)注釋。NCBI可以提供廣泛的數(shù)據(jù)查詢、序列相似性搜索和其他分析服務(wù)。數(shù)據(jù)庫序列文件:注釋內(nèi)容文章索引文件:搜索目錄摘要,基因銀行數(shù)據(jù)庫結(jié)構(gòu),完整的基因銀行數(shù)據(jù)庫,包括序列文件,索引文件和其他相關(guān)文件。索引文件是根據(jù)數(shù)據(jù)庫中的作者和引用建立的,用于數(shù)據(jù)庫查詢?;螂氖菑幕驇熘械暮怂嵝蛄蟹g而來的蛋白質(zhì)序列數(shù)據(jù)庫。數(shù)據(jù)庫的數(shù)據(jù)格式是FastA。GenBank數(shù)據(jù)庫結(jié)構(gòu),GenBank中最常用的序列文件。序列文件的基本單位是序列條目,它包括兩個(gè)部分:核苷酸堿基排列順序和注釋。生物信息

3、資源中心通過計(jì)算機(jī)網(wǎng)絡(luò)提供數(shù)據(jù)庫文件。評論項(xiàng)目:文章的格式,(/GenBank/,GenBank,基因銀行搜索頁,D31716,描述部分,CDs是多肽鏈中的重復(fù)單元(序列和結(jié)構(gòu)基序),其程度可以通過比較分析來確定。分子進(jìn)化使用這樣的結(jié)構(gòu)域作為構(gòu)建模塊,這些結(jié)構(gòu)域可以在不同的排列中重組,以制造具有不同功能的不同蛋白質(zhì)。CD s編碼序列,帶有終止密碼子的polyA_signal,D31716,特征表,序列本身,關(guān)鍵字,Cds是肽鏈中的重復(fù)單元,d31716,序列本身,序列末端,4859 bp,D31716,GenBank數(shù)據(jù)記錄,GenBank數(shù)據(jù)記錄,Ge

4、nBank數(shù)據(jù)庫結(jié)構(gòu),GenBank序列文件由單個(gè)序列條目組成。序列條目由字段組成,每個(gè)字段都以一個(gè)關(guān)鍵字開始,后面是字段的特定描述。該字段分為幾個(gè)子字段,從子關(guān)鍵字或?qū)傩员砻枋龇_始。每個(gè)序列條目都用雙斜線“/”標(biāo)記。GenBank數(shù)據(jù)庫結(jié)構(gòu)和序列條目的格式非常重要。關(guān)鍵字從第一列開始,次要關(guān)鍵字從第三列開始,屬性表描述符從第五列開始。每個(gè)字段可以占用一行或多行。如果有一行不能寫,那么接下來的一行就以空格開始?;驇鞌?shù)據(jù)庫中的數(shù)據(jù)和物種:基因庫數(shù)據(jù)庫是根據(jù)大約100,000個(gè)物種的基因組序列記錄的,其中56%是人類(所有序列的34%是人類EST序列)。每個(gè)基因庫數(shù)據(jù)記錄包含序列的簡要描述、它

5、的學(xué)名、物種分類名、參考文獻(xiàn)和序列特征表。以及序列本身、基因庫數(shù)據(jù)庫、序列特征表:包括對序列生物學(xué)特征的注釋,如編碼區(qū)、轉(zhuǎn)錄單位、重復(fù)區(qū)、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄分為16類,如細(xì)菌、病毒、靈長類、嚙齒類、EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī)?;蚪M序列數(shù)據(jù)等。其中科技英語數(shù)據(jù)分為幾個(gè)文件,注釋內(nèi)容,序列條目關(guān)鍵詞:軌跡,定義,訪問,NID,關(guān)鍵詞,來源,參考,特征,基數(shù)和起源。新版本的核酸序列數(shù)據(jù)庫將引入一個(gè)新的關(guān)鍵字SV(序列版本號),它將由“編號”表示。版本號”,并替換關(guān)鍵字NID、LOCES、LOCES(代碼):它是序列條目的標(biāo)記或標(biāo)識符,它包含該序列的功能:例如,HUMCYCLO

6、X代表人環(huán)氧合酶。序列長度、類型、物種、來源、進(jìn)入日期和其他描述性字段是對該序列的簡單描述。訪問,訪問(號碼):唯一和永久的。當(dāng)文獻(xiàn)中引用該序列時(shí),應(yīng)以該數(shù)字為準(zhǔn)。關(guān)鍵字,關(guān)鍵字字段:由序列提交者提供,包括序列基因產(chǎn)物的其他相關(guān)信息,SOURCE,SOURCE字段:子關(guān)鍵字組織(種和屬):表明生物體的分類地位,REFERENCE,REFERENCE字段:描述序列中的相關(guān)文件,包括作者、標(biāo)題和期刊,按子關(guān)鍵字列出。MEDLINE代碼:這個(gè)代碼實(shí)際上是一個(gè)超文本鏈接,點(diǎn)擊它可以直接調(diào)用上面的文檔摘要。一個(gè)序列可以有多個(gè)文檔,它們由不同的序列號表示,序列的哪一部分與文檔相關(guān)。FEATURES,F(xiàn)EA

7、TURES(屬性表):具有特定的格式,用于詳細(xì)描述序列特征。屬性表中帶有/db-xref/符號的字符可以連接到其他數(shù)據(jù)庫,如分類法9606和蛋白質(zhì)序列數(shù)據(jù)庫PID:g181254。序列中各部分的位置見表,包括5個(gè)非編碼區(qū)、編碼區(qū)、3個(gè)非編碼區(qū)、多聚腺苷酸化重復(fù)區(qū)等。信號肽和通過翻譯獲得的最終蛋白質(zhì)產(chǎn)物的堿基含量字段給出序列中的堿基組成。ORIGIN,ORIGIN是序列的第一行,然后基本序列以雙斜線“/”結(jié)束。GenBank數(shù)據(jù)庫格式,F(xiàn)ASTA格式gi | 1293613 | GB | u 49845.1 | scu 49845釀酒酵母TCP-1基因,部分CDs以及Axl2p (AXL2)和R

8、ev7p (REV7)基因,完成了CDs gatCCTCCATACTACAAGAGGTATCTCACTCACTAGTTAGATTACTAACAGACCACATAGATAGATTCAGTCAGATAGTCAGCTCATCTCATCTTATATATATATATATATATATATATATATATATATATATATATATATATATATATATAGACCAGATAGTATATATATACAGACCATAGATATAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGATTACTATTATATATATATATATATATATATATATATACACATACATACATACATACAT

9、ACATACATACATACATACATACATACATACATA大于號()表示(/) FASTA格式的新文件的開始和結(jié)束,沒有特殊要求。FASTA格式序列的提交,GenBank數(shù)據(jù)庫格式(1),F(xiàn)ASTA格式的特點(diǎn):它只存儲最少量的信息,并把存儲的信息轉(zhuǎn)換成簡單的字符串。人和計(jì)算機(jī)對存儲的信息都有很強(qiáng)的可讀性。FASTA格式在許多分子生物學(xué)軟件包中被廣泛使用。GenBank數(shù)據(jù)庫格式(2),GenBank平面文件(gbff) : GenBank,EMBL和DDBJ每天同步更新他們的數(shù)據(jù)庫。他們?nèi)绾谓粨Q數(shù)據(jù)?GBFF GBFF文件格式是GenBank數(shù)據(jù)庫的基本信息單元,也是應(yīng)用最廣泛的生物信

10、息學(xué)序列格式之一。,基因座SCU 49845 5028英國石油公司脫氧核糖核酸計(jì)劃編號21-1999年6月定義釀酒酵母TCP1-基因,部分CD,和Axl2p (AXL2)和Rev7p (REV7)基因,完全CD .登錄U49845版本U49845.1 GI:1293613關(guān)鍵字SOURCE .面包師酵母。生物釀酒酵母真核生物;真菌;子囊菌門;半子囊菌;酵母菌;酵母菌科;釀酒酵母。參考文獻(xiàn)1(堿基1至5028)作者托爾佩,洛杉磯,吉布斯,體育,尼爾森,j。和勞倫斯,c . w . TITLE REV7的克隆和測序,REV7是一種基因,其功能是在釀酒酵母雜志酵母10 (11),1503-1509

11、(1994) MEDLINE 95176709中進(jìn)行脫氧核糖核酸損傷誘導(dǎo)誘變所必需的10 (7),777-793(1996)MEDLINE 96194260 REFERENCE 3(基數(shù)1至5028) AUTHORS Roemer,t . TItle Direct Submission JourNal Submited(1996年2月22日)特里羅默,生物學(xué),耶魯大學(xué),康涅狄格州紐黑文,美國特征位置/限定符來源1.5028/生物體=釀酒酵母/db _ xref=分類單元:4932/染色體=9/圖譜=9個(gè)CDS 1.206/codon _ start=3/product=TCP1-/protei

12、n _ id=AA98665.1/db _ xref=GI33601293614/translation=SSIYNGSTLDLNNGTIMARQVISKLVVSASSEA AEVLLRVDNIIRARPTANRQHM基因687.3158 /gene=AXL2 CDS 687.3158/gene=AXL2/note=質(zhì)膜糖蛋白/密碼子_ start=1/函數(shù)=釀酒酵母軸向出芽模式所需/product=AXL2p/protein _ id=AAA 98666.1/db _ xref=GI 33601293615/translation=MTQLILLSLTATISLLHVATYPYPIKYPPOVRNESF(有部分序列未列出vdfsnksnvnvgqvkdihgripml BASE COUNT 1510 a 1074 c 835g 1609t ORIGIN 1 gatcctccat at ctccacct caggtttaga tcaacaac ggaaccattg 61 ccgacatgag acagttaggt at cgtcgaga gttacaagct aacgagcca gtagtct(有部分序列未列出)4921 ttttttttttcagtgt tagattgctc taattctttg agc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論