Uniprot蛋白數(shù)據(jù)庫專題知識講座_第1頁
Uniprot蛋白數(shù)據(jù)庫專題知識講座_第2頁
Uniprot蛋白數(shù)據(jù)庫專題知識講座_第3頁
Uniprot蛋白數(shù)據(jù)庫專題知識講座_第4頁
Uniprot蛋白數(shù)據(jù)庫專題知識講座_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Uniprot蛋白數(shù)據(jù)庫第1頁之前,世界上最廣泛使用蛋白數(shù)據(jù)庫為瑞士SWISS-PROT計劃建立數(shù)據(jù)庫,NHGRI項目主任Peter Good介紹說。但因為編輯詳細(xì)蛋白結(jié)構(gòu)數(shù)據(jù)庫時間緊迫,再加上資金短缺,SWISS-PROT無法跟上基因組學(xué)飛速前進(jìn)步伐,Good說。這種形勢造成了TrEMBL產(chǎn)生,這是計算機(jī)注釋SWISS-PROT分支數(shù)據(jù)庫,目標(biāo)是暫時儲存日益增多蛋白質(zhì)結(jié)構(gòu)信息。另外,美國蛋白信息資源(Protein Information Resource ,PIR)也獨立編輯其自己數(shù)據(jù)庫。以后,這三個計劃領(lǐng)導(dǎo)人將展開合作,將三大數(shù)據(jù)庫合并為一個。聯(lián)合起來力量將“降低重復(fù)工作,由此也能夠節(jié)約

2、無須要費用?!盨WISS-PROT領(lǐng)導(dǎo)人、英國劍橋歐洲生物信息研究院Rolf Apweiler說道。,UniProt將是SWISS-PROT、TrEMBL和PIR三大數(shù)據(jù)庫最正確整合一個集中化數(shù)據(jù)庫十分主要,密歇根大學(xué)腫瘤學(xué)家Samir Hanash對此表示同意。他同時也是人類蛋白組組織(Human Proteome Organisation)主席。然而,Hanash提醒說,UniProt只是一個開始,還需要建立其它數(shù)據(jù)庫來儲存相關(guān)蛋白質(zhì)何時何處于機(jī)體中活動信息,他說。()這句話不但代表了Uniport數(shù)據(jù)庫,也是代表了整個生物信息學(xué),科研本就是站在巨人肩膀上發(fā)展,那么這個肩膀也得與時俱進(jìn)了!

3、Uniport前世今生第2頁UniProt(全稱Universal Protein),它整合了三個老字號數(shù)據(jù)庫(Swiss-Prot、 TrEMBL 和 PIR-PSD )數(shù)據(jù)。是當(dāng)前信息最豐富、資源最廣無償?shù)鞍踪|(zhì)數(shù)據(jù)庫(注意沒有之一哦?。?。UniProt知識庫(UniProtKB)是搜集蛋白質(zhì)功效信息中心樞紐,含有準(zhǔn)確,一致和豐富注釋。除了捕捉每個UniProtKB條目強(qiáng)制關(guān)鍵數(shù)據(jù)(主要是氨基酸序列,蛋白名稱或描述,分類數(shù)據(jù)和引用信息)外,還會添加盡可能多注釋信息。這包含廣泛接收生物本體論,分類和交叉引用,以及以試驗數(shù)據(jù)和計算數(shù)據(jù)證據(jù)歸屬形式注釋質(zhì)量明確指示。第3頁蛋白質(zhì)序列從哪里來?由Un

4、iProtKB提供超出95蛋白質(zhì)序列起源于已經(jīng)提交給公共核酸數(shù)據(jù)庫,EMBL-Bank / GenBank / DDBJ數(shù)據(jù)庫(INSDC)編碼序列(CDS)翻譯。全部這些序列以及作者提交相關(guān)數(shù)據(jù)都自動整合到UniProtKB / TrEMBL中。 除翻譯CDS之外,UniProtKB蛋白質(zhì)序列能夠來自:1、在PDB數(shù)據(jù)庫。2、經(jīng)過直接蛋白質(zhì)測序試驗取得序列,經(jīng)過Edman降解或MS / MS試驗并提交給UniProtKB / Swiss-Prot。只有約5UniProtKB / Swiss-Prot條目包含經(jīng)過直接蛋白質(zhì)測序取得序列數(shù)據(jù)(含有關(guān)鍵字條目列表Direct protein seq

5、uencing)。3、從文件(ig PRF或其他期刊掃描項目)掃描序列。4、從基因預(yù)測,沒有提交序列EMBL-Bank / GenBank登錄/ DDBJ。5、序列起源于內(nèi)部基因預(yù)測,在非常特殊情況下。第4頁Uniprot主要功效查詢蛋白質(zhì)序列以及其它各種信息查詢蛋白質(zhì)組找相同蛋白質(zhì)對比各種蛋白質(zhì)序列查詢蛋白質(zhì)相關(guān)文件第5頁網(wǎng)站網(wǎng)址為/,先來看看全景圖吧!這個數(shù)據(jù)庫能夠大致分為6個主題部分,如上圖紅框所表示1、UniProtKB;2、UniRef;3、UNIParc;4、Proteomics;5、Supporting data。6、檢索區(qū)第6頁這次我們先游覽第一個主題,也是最經(jīng)典部分。(其實其

6、它主題我自己還沒有完全搞明白)1、UniProtKB(UniversalProtein Knowledge base)它是經(jīng)過教授校驗數(shù)據(jù)集,又分成兩部分(綠框部分,不用擔(dān)心,這些都是無償,不是那種濫收費園中園)1.1、Swiss-Prot(經(jīng)過人工檢驗、校驗條目)高質(zhì)量、人工注釋、非冗余數(shù)據(jù)集;主要來自文件中研究結(jié)果和E-value校驗過計算分析結(jié)果。截止到昨天Swiss-Prot 包含556,196條統(tǒng)計,(8月10日有519,348 條統(tǒng)計,7年后增加了3萬多條統(tǒng)計,評價天天大約10幾條統(tǒng)計,速度還是比較慢。) 1.2、TrEMBL (計算機(jī)自動注釋、未經(jīng)人工校驗條目)該數(shù)據(jù)主要是利用計

7、算機(jī)對大量基因組數(shù)據(jù)流進(jìn)行分析注釋(人工校驗速度暫時無法跟上數(shù)據(jù)產(chǎn)生速度)。截止到昨天年03月19日TrEMBL 包含98,705,220條統(tǒng)計,(8月10日有110,636,205 條統(tǒng)計,7年后數(shù)據(jù)量降低了很多,預(yù)計是去掉了很多重復(fù)數(shù)據(jù))另外大家會注意到這里數(shù)據(jù)是Swiss-Pro數(shù)據(jù)100多倍。進(jìn)入方式各種多樣,1、主頁默認(rèn)入口就是UniProt;2、能夠直接點擊紅框1區(qū)域進(jìn)入;3、也能夠經(jīng)過點擊紅框6,系統(tǒng)會彈出下拉菜單如圖2所表示,選擇UniProt紅框1即可進(jìn)入。第7頁檢索區(qū)主要是為了讓有經(jīng)驗同學(xué)快速找到自己感興趣蛋白質(zhì),能夠按照蛋白質(zhì)名稱、序列,ID號等方式檢索。紅框1區(qū)是對這個

8、主題區(qū)域簡明介紹第8頁 紅框2區(qū)能夠讓游客依據(jù)自己喜好來顯示蛋白質(zhì)數(shù)據(jù),比如能夠只顯示經(jīng)過人工校驗條目;能夠只看專屬于某個物種蛋白質(zhì);還能夠檢索物種分類;還有直接快速進(jìn)入UniRef通道以及視頻化幫助,演示文件紅框3區(qū)是主題區(qū),這里列出了全部UniProt數(shù)據(jù)庫蛋白質(zhì)條目,因為數(shù)據(jù)太多(這個數(shù)字其實是Swiss-Pro與TrEMBL兩部分總和),每頁顯示25條(您能夠自己選擇每頁顯示數(shù)目 10、25、50、100或200),第9頁Entry:是UniProt給每個蛋白質(zhì)賦予獨一無二ID號Entry name: 是蛋白ID簡明名字Protein names: 蛋白質(zhì)名字Gene names: 編

9、碼這個蛋白Gene名字Organism:蛋白質(zhì)種屬起源Length: 氨基酸長度第10頁第11頁首先sp表示,Swiss-Prot數(shù)據(jù)庫是注釋精煉蛋白序列庫,它全部序列都經(jīng)過了科學(xué)家查閱文件核實(reviewed, manually annotated) 。P02769是蛋白在uniprot上ID號,即蛋白身份證號。ALBU_BOVIN是蛋白在uniprot上登錄名,跟P02769是一個作用。Serum albumin是蛋白名稱,即蛋白姓名啦。OS表示Organism,也就是物種名稱,數(shù)據(jù)庫中物種名稱普通為拉丁名稱,牛血清白蛋白Bostaurus當(dāng)然是牛拉丁。GN表示gene name,即基因

10、名稱PE表示ProteinExistence,即蛋白可靠性,PE=1、2、3、4、5分別對應(yīng)以下,能夠看出數(shù)字越小可靠性越高:1. Experimental evidence at protein level 蛋白質(zhì)水平試驗證據(jù)2. Experimental evidence at tran level 轉(zhuǎn)錄水平試驗證據(jù)3. Protein inferred from homology 從同源蛋白質(zhì)推斷4. Protein predicted 蛋白質(zhì)預(yù)測5. Protein uncertain 蛋白質(zhì)不確定SV表示SequenceVersion,即序列版本,即蛋白身份證第二代,第三代這里需要指

11、出是,除了sp,有時還會出現(xiàn)TR。第12頁紅框2區(qū)只看專屬于某個物種蛋白質(zhì)第13頁紅框3區(qū)第一行t BLAST: 這個按鈕能夠讓你用感興趣蛋白質(zhì)序列做BLAST分析(就是查一下在UniProt數(shù)據(jù)庫中,還有哪些蛋白質(zhì)氨基酸序列與你感興趣蛋白質(zhì)相同或相同),別小瞧這個功效,知道哪些蛋白與目標(biāo)蛋白序列相同,就有可能知道這個蛋白含有哪些生物系功效,假如恰好還有其它相同蛋白結(jié)構(gòu)信息,就能幫助你大致知道這個蛋白空間結(jié)構(gòu)。使用這個功效必須先選中,只能選中一個蛋白質(zhì)。i Align: t BLAST是對單個蛋白序列與數(shù)據(jù)庫數(shù)據(jù)進(jìn)行比對,i Align能夠讓你對多個蛋白質(zhì)序列之間進(jìn)行相同性比對,這種分析能夠讓

12、你找到這些蛋白之間結(jié)構(gòu)保守區(qū)域,還能夠依據(jù)蛋白質(zhì)相同性,分析這些蛋白之間親緣關(guān)系,進(jìn)化先后次序等?;揪植勘葘λ阉鞴ぞ叩?4頁= Download:這個輕易了解,您能夠下載蛋白序列數(shù)據(jù),能夠下載選中蛋白,也能夠下載全部蛋白(做蛋白質(zhì)組學(xué)分析人經(jīng)慣用,不然沒有必要全部下載,不過有時候最好定時下載更新一下,還是很有必要)下載格式也各種多樣,比如FASTA,Text,Excel,XML,List等,假如數(shù)據(jù)量大,還能夠選擇壓縮以后下載。b Add to basket: 這個按鈕功效是能夠隨時將你感興趣蛋白質(zhì)條目加入購物籃以備后期使用,最多能夠加400條數(shù)據(jù),呵呵,這個不是超市購物籃,是不收費。e C

13、olumns: 這個能夠讓您定制蛋白數(shù)據(jù)列信息,就是自己定制顯示哪些列信息,這個內(nèi)容非常多,包含名稱和分類學(xué)信息,序列信息(氨基酸長度,分子量,SNP等),功效信息(EC number, 信號通路,活性位點,各種結(jié)合位點等),相互作用信息,表示信息,亞細(xì)胞定位信息, 翻譯后修飾,結(jié)構(gòu),家族及結(jié)構(gòu)域信息, 序列信息.太多了,感興趣自己進(jìn)去看吧!b Add to basket: 這個按鈕功效是能夠隨時將你感興趣蛋白質(zhì)條目加入購物籃以備后期使用,最多能夠加400條數(shù)據(jù),呵呵,這個不是超市購物籃,是不收費第15頁UniProt參考群集(UniRef)提供來自UniProt知識庫(包含同種型)和選定Un

14、iParc統(tǒng)計序列集合集合,方便以各種分辨率取得對序列空間全方面覆蓋,同時從視圖中隱藏冗余序列(但不包含其描述)。與UniParc不一樣,序列片段被合并到UniRef中:UniRef100數(shù)據(jù)庫將含有來自任何生物體11個或更多殘基相同序列和亞片段組合成單個UniRef條目,顯示代表性蛋白質(zhì)序列,全部合并登錄號條目和鏈接到對應(yīng)UniProtKB和UniParc統(tǒng)計。UniRef90是經(jīng)過用UniRef100序列對11個或更多殘基進(jìn)行聚類而構(gòu)建CD-HIT算法(Li W.和Godzik A.,Bioinformatics,22:1658-1659,),使得每個簇由與最長序列(aka)含有最少90序

15、列同一性和80種子序列)。一樣,UniRef50是經(jīng)過對UniRef90種子序列進(jìn)行聚類構(gòu)建,這些序列與聚類中最長序列含有最少50序列同一性,而且含有最少80重合性。在之前,沒有重合閾值,所以簇長度愈加不均勻。UniRef90和UniRef50產(chǎn)生數(shù)據(jù)庫大小分別降低約58和79,提供顯著更加快序列相同性搜索。種子序列是群集中最長組員。然而,最長序列并不總是最豐富。其它集群組員往往有更多生物相關(guān)信息(名稱,功效,交叉引用)第16頁UniParc是一個主要序列庫,是一個全方面存放庫,它反應(yīng)了全部蛋白質(zhì)序列歷史。聯(lián)合研究中心為全部來自不一樣起源新和經(jīng)過修改蛋白質(zhì)序列提供了全部信息,以確保完整覆蓋在一

16、個單一站點。它包含不但UniProtKB還翻譯從EMBL-Bank / DDBJ基因庫核苷酸序列數(shù)據(jù)庫,利用數(shù)據(jù)庫真核基因組,H-Invitational數(shù)據(jù)庫(H-Inv),國際蛋白質(zhì)指數(shù)(IPI),蛋白質(zhì)數(shù)據(jù)庫(PDB),蛋白質(zhì)研究基金會(脈沖),NCBI年代參考序列集合(RefSeq),數(shù)據(jù)庫模式,SGD,TAIR擬南芥和WormBase TROME和蛋白質(zhì)序列。為了防止冗余,序列被作為字符串處理,全部序列在整個長度上都是完全相同,不論源組織是什么。新和更新序列天天都被加載,交叉引用源數(shù)據(jù)庫加入號,并提供一個序列版本,在對底層序列更改上增加。每個UniParc條目中存放基本信息是標(biāo)識符、

17、序列、循環(huán)冗余檢驗號、源數(shù)據(jù)庫(s)和添加和版本號,以及時間戳。第17頁第18頁UniProt提供了幾組被認(rèn)為由其基因組已被完全測序有機(jī)體表示蛋白質(zhì),被稱為“蛋白質(zhì)組”。在過去,這些集合是基于生物分類學(xué),結(jié)合關(guān)鍵詞完整蛋白質(zhì)組,但伴隨越來越多同一生物體基因組正在測序,我們引入了獨特蛋白質(zhì)組標(biāo)識符來區(qū)分個體蛋白質(zhì)組。這些蛋白質(zhì)組能夠從UniProt網(wǎng)站Proteomes部分查詢和下載。作為蛋白質(zhì)組一部分UniProtKB條目與其蛋白質(zhì)組相互參考。第19頁文件引用分類亞細(xì)胞定位 亞細(xì)胞定位是指某種蛋白或表示產(chǎn)物在細(xì)胞內(nèi)詳細(xì)存在部位。比如在核內(nèi)、胞質(zhì)內(nèi)或者細(xì)胞膜上存在。GFP是綠色熒光蛋白,在掃描共

18、聚焦顯微鏡激光照射下會發(fā)出綠色熒光,從而能夠準(zhǔn)確地定位蛋白質(zhì)位置。交叉引用數(shù)據(jù)庫:UniProtKB條目標(biāo)交叉引用部分顯示數(shù)據(jù)庫顯式和隱式鏈接,比如核苷酸序列數(shù)據(jù)庫,模型生物數(shù)據(jù)庫以及基因組學(xué)和蛋白質(zhì)組學(xué)資源。一個條目能夠交叉引用幾十個不一樣數(shù)據(jù)庫,并有幾百個單獨鏈接。疾病:包括蛋白質(zhì)人類疾病關(guān)鍵詞第20頁討論與展望UniProt 是一個集中收錄蛋白質(zhì)資源并能與其它資源相 互聯(lián)絡(luò)數(shù)據(jù)庫 , 也是當(dāng)前為止收錄蛋白質(zhì)序列目錄最廣泛 、 功效注釋最全方面一個數(shù)據(jù)庫 。 UniProt 是由歐洲生物信息學(xué)研究所(European Bioinformatics Institute)、美國蛋白質(zhì)信息資源(Prontein Information Resource)以及瑞士生物信息研究所(Swiss Institute of Bioinformatics)等機(jī)構(gòu)共同組成UniProt協(xié)會(UniProt Consortium)編輯、制作一個信息資源,意在為從事當(dāng)代生物研究科研人員提供一個相關(guān)蛋白質(zhì)序列及其相關(guān)功效方面廣泛、高質(zhì)量并可無償使用共享數(shù)據(jù)庫。它功效有很多,基本能夠滿足做蛋白需求(當(dāng)前我是這么看因為,我沒做我也不知道還有啥需要補(bǔ)充),不過因為功效繁多,造成真極難明白,尤其是初學(xué)者,希望這個網(wǎng)站以后能出一些針對初學(xué)者教學(xué)文章。第21頁對于生物信息學(xué)思索生物

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論