生物信息學簡單介紹_第1頁
生物信息學簡單介紹_第2頁
生物信息學簡單介紹_第3頁
生物信息學簡單介紹_第4頁
生物信息學簡單介紹_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生物信息學Bioinformaticscontent1.生物信息學簡介2.生物信息學數(shù)據(jù)庫3.生物信息學軟件4.生物信息學門戶網(wǎng)站5.生物信息學在基因芯片技術(shù)中的作用1.生物信息學簡介

1.1生物信息學(Bioinformatics)這一名詞的由來1.2Bioinformatics的定義1.3獲取生物的完整基因組1.4發(fā)現(xiàn)新基因和新的核苷酸多態(tài)性1.5基因組中非編碼蛋白質(zhì)區(qū)域的結(jié)構(gòu)與功能1.1生物信息學(Bioinformatics)這一名詞的由來

八十年代末期,馬來西亞的美籍學者林華安(HwaA.Lim)認識到將計算機科學與生物學結(jié)合起來的重要意義,開始留意要為這一領(lǐng)域構(gòu)思一個合適的名稱。因此不久,他便進一步把它更改為“bio-informatics(或bio/informatics)”。但由于當時的電子郵件系統(tǒng)與今日不同,名稱中的-或/符號經(jīng)常會引起許多問題,林博士于是將其去除,“bioinformatics”就正式誕生了,林博士也因此贏得了“生物信息學之父”的美譽。20世紀50年代以來,生命科學進入了前所未有的高速發(fā)展階段,在短短幾十年積累了大量的數(shù)據(jù)。據(jù)不完全統(tǒng)計,目前在國際數(shù)據(jù)庫中記錄的DNA序列的堿基早已超過了100億;而隨著人類和其他模式生物基因組測序的完成,可以預(yù)計今后DNA序列數(shù)據(jù)的增長將更為驚人;與此同時,蛋白質(zhì)的一級結(jié)構(gòu),即氨基酸序列的數(shù)據(jù)的積累也隨之增加,迄今已測定一萬多種蛋白質(zhì)的不同分辨率的空間結(jié)構(gòu)。這一切構(gòu)成了一個生物學數(shù)據(jù)的海洋。6WhatisBioinformatics?如何從海量數(shù)據(jù)中發(fā)掘出人類生存和發(fā)展所需的知識,誕生了一門新興的交叉科學生物信息學。1.2定義廣義:指對基因組研究中的相關(guān)生物信息的獲取、加工、存儲、分配、分析、和解釋。它包括了兩層含義:一是、對海量數(shù)據(jù)的收集、整理與服務(wù);二是、從中發(fā)現(xiàn)新的規(guī)律。具體來說,生物信息學是把基因組DNA序列信息作為源頭,找到基因組序列中代表蛋白質(zhì)和RNA基因的編碼區(qū),同時闡明基因組中大量存在的非編碼區(qū)的信息實質(zhì),破譯隱藏在DNA序列中的遺傳語言規(guī)律。在此基礎(chǔ)上歸納、整理與基因組遺傳信息釋放及調(diào)控相關(guān)的轉(zhuǎn)錄普和蛋白質(zhì)普的數(shù)據(jù),從而認識生物有機體的代謝、發(fā)育、分化、進化規(guī)律。狹義:采用信息科學技術(shù),借助數(shù)學、生物學的理論、方法,對各種生物信息(包括核酸、蛋白質(zhì)等)的收集、加工、儲存、分析、解釋的一門學科。1.3獲取生物的完整基因組模式生物基因組計劃酵母、線蟲、果蠅、細菌、擬南芥等共約50多種已完成,70余種正在進行。目前總量已達60億堿基對!基因組研究的首要目標是獲得生物體的基因組全部核苷酸序列。humanArabidopsisThermotoga

maritimaEscherichiacoliBuchnerasp.APSRickettsia

prowazekiiUreaplasma

urealyticumBacillussubtilisDrosophilamelanogasterThermoplasma

acidophilumPlasmodiumfalciparumHelicobacterpylorimouseCaenorhabitis

elegansratBorrelia

burgorferiBorrelia

burgorferiAquifex

aeolicusNeisseria

meningitidis

Z2491Mycobacteriumtuberculosis模式生物virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenomesizesinnucleotidepairs(base-pairs)10410810510610710111010109bonyfishamphibiansEscherichiacoli

大腸桿菌大腸桿菌是研究得最為詳盡的一個模式生物。這種只有1.6微米長的、可以迅速繁殖的單細胞原核生物,已經(jīng)成為實驗室和基因工程的重要工具。EscherichiacoliO157:H7EscherichiacoliK12模式生物(ModelOrganism)Drosophilamelanogaster

果蠅繁殖很快、容易誘發(fā)變異的小昆蟲。總長達1.8億核苷酸。

模式生物(ModelOrganism)Arabidopsisthaliana

擬南芥?zhèn)€體生活周期只有6周的十字花科小草,是一種理想的模式植物。模式生物(ModelOrganism)模式生物(ModelOrganism)小鼠(Mus

musculus)

基因組大小與人類相近,約30億個核苷酸對;1.4發(fā)現(xiàn)新基因和新的核苷酸多態(tài)性發(fā)現(xiàn)新基因是當前國際上基因組研究的熱點,使用生物信息學的方法是發(fā)現(xiàn)新基因的重要手段。比如啤酒酵母完整基因組所包含的基因約6000個,大約60%的基因是通過信息分析得到的。1.2.1基因的電腦克隆利用EST數(shù)據(jù)庫發(fā)現(xiàn)新基因也被稱為基因的電腦克隆。EST序列是基因表達的短的cDNA序列,它們攜帶著完整基因的某些片段的信息。目前,Genbank的EST數(shù)據(jù)庫中水稻EST序列已達124萬條,擬南芥達80萬條,而人類的EST序列已超過957萬余條,它大約覆蓋了人類基因的90%以上?;虻碾娔X克隆原理很簡單,就是找到屬于同一基因的所有EST片段,再把它們連接起來。由于EST序列是全世界很多實驗室隨機產(chǎn)生的,所以屬于同一基因的很多EST序列間必然有大量重復(fù)小片段,利用這些小片段作為標志就可以把不同的EST連接起來,直到發(fā)現(xiàn)了他們的全長,這樣就可以通過電腦克隆到一個基因。如果這個基因以前未曾發(fā)現(xiàn)過,那它就是一個新基因。但是進行電腦克隆基因的程序設(shè)計復(fù)雜,計算量巨大。1.2.2從基因組DNA中預(yù)測新基因從基因組序列預(yù)測新基因,本質(zhì)上是把基因組上編碼蛋白質(zhì)的區(qū)域和非編碼蛋白質(zhì)的區(qū)域區(qū)分開來。對于理論方法來講就是要找到在編碼區(qū)和非編碼區(qū)哪些數(shù)學、物理學特征是不一樣的。將這些序列與已知基因數(shù)據(jù)庫進行比較,就可以發(fā)現(xiàn)新基因。1.2.3發(fā)現(xiàn)核苷酸多態(tài)性

核苷酸多態(tài)性(singlenucleotidepolymorphism,SNP)是指基因組內(nèi)DNA中某一特定核苷酸位置上存在轉(zhuǎn)換、顛換、插入、缺失等變化?,F(xiàn)在普遍認為SNP研究是植物基因組計劃走向應(yīng)用的重要步驟之一。因為SNP將提供一個強有力的工具,用于與重要農(nóng)藝形狀相關(guān)基因的鑒定以及生物學的基礎(chǔ)研究等。1.5基因組中非編碼蛋白質(zhì)區(qū)域的結(jié)構(gòu)與功能近年來的研究表明,在細菌這樣的微生物中,非編碼蛋白質(zhì)的區(qū)域只占整個基因組序列的10%~20%。隨著生物的進化,非編碼區(qū)越來越多,在高等生物和人的基因組中非編碼序列已占基因組序列的絕大部分。這表明這些非編碼序列必定具有重要的生物功能。普遍的認識是,它們與基因的表達調(diào)控有關(guān)。對人類基因組來說,迄今為止,人們真正掌握規(guī)律的只有DNA上的編碼蛋白質(zhì)的區(qū)域(基因),最新資料說明這部分序列只占基因組的1.1%。僅占人類基因組1.1%的編碼區(qū)的相關(guān)研究已經(jīng)締造了數(shù)十名諾貝爾獎獲得者,98%非編碼區(qū)蘊含的成果數(shù)量將是十分可觀的,因此尋找這些區(qū)域的編碼特征、信息調(diào)節(jié)與表達規(guī)律是未來相當長時間內(nèi)的熱點課題,是取得重要成果的源泉。2.生物信息學數(shù)據(jù)庫數(shù)據(jù)庫是生物信息學的主要內(nèi)容,各種數(shù)據(jù)庫幾乎覆蓋了生命科學的各個領(lǐng)域。目前國際上已建立了許多公共生物信息學數(shù)據(jù)庫,包括核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、蛋白質(zhì)片段數(shù)據(jù)庫、生物大分子結(jié)構(gòu)數(shù)據(jù)庫和生物學文獻數(shù)據(jù)庫等。這些數(shù)據(jù)庫有專門的機構(gòu)建立和維護,這些機構(gòu)負責數(shù)據(jù)的收集、組織、管理和發(fā)布,并提供在線檢索和分析工具,向生物學研究人員提供有用的信息。生物信息分析已經(jīng)成為分子生物學研究必須要借助的一種方法。數(shù)據(jù)及其相關(guān)的分析軟件是生物信息學研究和應(yīng)用的重要基礎(chǔ),也是分子生物學研究必備的工具。雖然分子生物學研究各個領(lǐng)域的側(cè)重點有所不同,但是研究對象之間存在著密切的內(nèi)在聯(lián)系,如DNA與蛋白質(zhì)序列之間、基因調(diào)控與基因表達之間的聯(lián)系等,因而實驗數(shù)據(jù)之間就必然存在著某些聯(lián)系。一個研究領(lǐng)域的相關(guān)數(shù)據(jù)會影響另一個領(lǐng)域的進展。各類數(shù)據(jù)庫已成為聯(lián)系分子生物學各個方面研究的橋梁和紐帶。生物信息學數(shù)據(jù)庫幾個明顯的特征:(1)數(shù)據(jù)庫更新速度不斷加快,數(shù)據(jù)量呈指數(shù)增長。如,核酸序列數(shù)據(jù)以每年翻番的速度增長,而增長更快的則是數(shù)據(jù)庫的使用頻率,每年增長幅度為200~

500%。(2)數(shù)據(jù)庫的復(fù)雜程度不斷增加。除基本數(shù)據(jù)之外,還包括大量的注釋、鏈接、參考文獻等信息。(3)數(shù)據(jù)庫使用的高度計算機和網(wǎng)絡(luò)化。許多數(shù)據(jù)庫服務(wù)器已從工作站升級到大型服務(wù)器,使數(shù)據(jù)庫能夠高效地管理數(shù)據(jù)和為用戶服務(wù),并在專門的硬件上運行服務(wù)程序。(4)面向應(yīng)用。各個數(shù)據(jù)庫除了提供數(shù)據(jù)外還提供許多分析工具,如核酸數(shù)據(jù)庫提供的序列搜索、基因識別程序等。(5)二級數(shù)據(jù)庫的開發(fā)。在原始數(shù)據(jù)庫的基礎(chǔ)上進一步開發(fā)出許多二級數(shù)據(jù)庫,如蛋白質(zhì)分類數(shù)據(jù)庫、蛋白質(zhì)二級結(jié)構(gòu)數(shù)據(jù)庫等。2.1核酸序列數(shù)據(jù)庫1.GenBank/EMBL/DDBJ2.基因組數(shù)據(jù)庫3.表達序列標簽數(shù)據(jù)庫4.序列標記位點數(shù)據(jù)庫5.面向基因聚類數(shù)據(jù)庫GenBankEMBLDDBJ

2.1.13大核酸數(shù)據(jù)庫

Genbank

Genbank是美國國家生物技術(shù)信息中心(NCBI)建立和維護的DNA數(shù)據(jù)庫。由按物種及數(shù)據(jù)獲取手段分割成的17個子數(shù)據(jù)庫構(gòu)成。使用Entrez數(shù)據(jù)管理系統(tǒng),通過該系統(tǒng)可以檢索基本的DNA基因圖譜、蛋白質(zhì)序列及結(jié)構(gòu)數(shù)據(jù)庫。其中通過與MEDLINE的連接,還能夠得到關(guān)于該序列的更進一步的信息,比如有關(guān)的文獻摘要甚至全文。

EMBL核酸序列數(shù)據(jù)庫EMBL是歐洲生物信息學研究所(EBI)維護的核酸序列數(shù)據(jù)構(gòu)成,查詢檢索可以通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。DDBJ數(shù)據(jù)庫

日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)。使用其主頁上提供的SRS工具進行數(shù)據(jù)檢索和序列分析。GenBankPublicfreeAvailableviaInternetEMBLDataLibraryDDBJ(DNADataBankofJapan)三大基因數(shù)據(jù)庫之間的關(guān)系

這三個機構(gòu)相互合作互通有無,數(shù)據(jù)庫中的數(shù)據(jù)基本一致,僅在格式上有些差異,但對某一特定序列的查詢,三個數(shù)據(jù)庫會給出一樣的結(jié)果。這三個數(shù)據(jù)庫的數(shù)據(jù)來源于世界各國眾多的研究機構(gòu)和核酸測序小組以及科學文獻。現(xiàn)在,用戶可以通過互聯(lián)網(wǎng)將核酸序列數(shù)據(jù)提交給這三個數(shù)據(jù)庫系統(tǒng)的任何一個。http:///http://www.ddbj.nig.ac.jp/searches-e.htmlhttp://www.ebi.ac.uk/embl/2.1.2基因組數(shù)據(jù)庫隨著核酸測序技術(shù)的迅速發(fā)展,已經(jīng)獲得一部分生物的全基因數(shù)據(jù),如人、小鼠、大鼠、擬南芥、酵母等。這些數(shù)據(jù)對認識基因組信息的奧秘、了解生物體生長發(fā)育的規(guī)律至關(guān)重要。國際上有專門的機構(gòu)收集和管理這些數(shù)據(jù)。EntrezGenomes所收集的基因組數(shù)據(jù)量非常大。該數(shù)據(jù)庫還提供了一個基因組瀏覽工具MapViewer,利用這個工具,用戶可以很方便地得到所需要的數(shù)據(jù)。目前國際上有一些專門的模式生物基因組數(shù)據(jù)庫,這些數(shù)據(jù)庫側(cè)重于收集某種生物基因組的相關(guān)數(shù)據(jù)。2.1.3表達序列標簽數(shù)據(jù)庫(dbEST)表達序列標簽(EST)方法是識別轉(zhuǎn)錄序列的最有效方法。EST序列中含有大量的基因信息,利用這些信息可以發(fā)現(xiàn)新的基因,闡明基因的功能。表達序列標簽數(shù)據(jù)庫dbEST是GenBank的一個部分,該數(shù)據(jù)庫包括不同生物的EST序列及其他相關(guān)信息,主要是從大量不同的組織和器官得到短的mRNA片段。截止2004年4月,該數(shù)據(jù)庫含有2000萬個登陸項,EST數(shù)據(jù)庫的主要作用是通過搜索比較,給實驗新得到的一條cDNA序列或基因組序列賦予公認的功能。2.1.4序列標記位點數(shù)據(jù)庫dbSTS序列標記位點(sequensetaggedsites,STS)數(shù)據(jù)庫是NCBI的一個數(shù)據(jù)源,也是GenBank的一個部分,包含已知序列的序列標記位點組成和定位信息??梢酝ㄟ^BLAST搜索STS序列,或者直接通過FTP下載序列。2.1.5面向基因聚類數(shù)據(jù)庫UniGene面向基因聚類數(shù)據(jù)庫UniGene將GenBank中的序列進行自動分類,形成面向基因群的非冗余集合。每個UniGene群包含代表一個惟一基因的多個序列,附有該基因相關(guān)的信息,如基因表達的組織類型、定位圖譜等。除了基因的序列之外,還包括大量的EST序列。UniGene即可以作為發(fā)現(xiàn)新基因的數(shù)據(jù)源,也可以作為進行大規(guī)模表達分析的輔助工具。需要指出的是,自動分類的過程還有待于進一步發(fā)展和完善。目前,UniGene中包括人類、果蠅、擬南芥、水稻等生物的相關(guān)數(shù)據(jù),因為這些生物有大量的EST數(shù)據(jù)。2.2蛋白質(zhì)序列數(shù)據(jù)庫1.蛋白質(zhì)信息資源數(shù)據(jù)庫PIR2.SWISS-PROT3.TrEMBL4.蛋白質(zhì)數(shù)據(jù)庫UniProt2.2.1.蛋白質(zhì)信息資源數(shù)據(jù)庫ProteinInformationResource,簡稱PIR●這個數(shù)據(jù)庫是一個經(jīng)過注釋的、全面的和非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。所有序列數(shù)據(jù)都經(jīng)過了處理,絕大多數(shù)序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進行了分類?!駷榱颂岣叩鞍踪|(zhì)預(yù)測和實驗數(shù)據(jù)之間的相互吻合度,PIR建立了一套系統(tǒng),允許研究者們遞交、分類、提取文獻信息。PIR提供了在超家族、域和模體水平上的對蛋白的分類。PIR同時提供了蛋白的結(jié)構(gòu)和功能信息,并給出了與其他40個數(shù)據(jù)庫之間的相互參考。PIR還提供了一個非冗余的蛋白質(zhì)數(shù)據(jù)庫,包括從PIR-PSD,SWISS-PROT,TrEMBL,GenPept,PDB收集來的約800,000條序列,對每條序列給出了一個符合的名稱和相關(guān)文獻。為了提高數(shù)據(jù)庫的協(xié)同工作能力,PIR采用開發(fā)的數(shù)據(jù)庫框架,利用XML技術(shù)進行數(shù)據(jù)發(fā)布。除了蛋白質(zhì)序列數(shù)據(jù)以外,PIR還包含以下信息:(1)蛋白質(zhì)名稱、蛋白質(zhì)的分類、蛋白質(zhì)的來源;(2)關(guān)于原始數(shù)據(jù)的參考文獻;(3)蛋白質(zhì)功能和蛋白質(zhì)的一般特征,包括基因表達、翻譯后處理、活化等;(4)序列中相關(guān)的位點、功能區(qū)域。PIR提供三種類型的檢索服務(wù):(1)基于文本的交互式查詢,用戶通過關(guān)鍵字進行數(shù)據(jù)查詢。(2)標準的序列相似性搜索,包括BLAST、FASTA等。(3)結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等。主頁的導(dǎo)航

2.2.2.SWISS-PROT

1.瑞士Geneva大學和歐洲生物信息學研究所(EBI)合作維護(1986年);

2.在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點;3.數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列,這些序列經(jīng)過檢驗和注釋;

SWISS-PROT的網(wǎng)址:/sprotSWISS-PROT是目前國際上權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫。SWISS-PROT中的蛋白質(zhì)序列是經(jīng)過注釋的。SWISS-PROT中的數(shù)據(jù)來源于不同源地:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù);(3)從科學文獻中摘錄;(4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。SWISS-PROT有三個明顯特點(1)注釋。在SWISS-PROT中,數(shù)據(jù)分為核心數(shù)據(jù)和注釋兩大類。對于數(shù)據(jù)庫中的每一個序列登錄項,核心數(shù)據(jù)包括:序列數(shù)據(jù)、參考文獻、分類信息(蛋白質(zhì)生物來源的描述)等,而注釋包括:①蛋白質(zhì)的功能描述;②翻譯后修飾;③域和功能位點,如鈣結(jié)合區(qū)域、ATP結(jié)合位點等;④蛋白質(zhì)的二級結(jié)構(gòu);⑤蛋白質(zhì)的四級結(jié)構(gòu),如同構(gòu)二聚體、異構(gòu)三聚體等;⑥與其它蛋白質(zhì)的相似性;⑦由于缺乏該蛋白質(zhì)而引起的疾病;⑧序列的矛盾、變化等。(2)最小冗余。對于給定的蛋白質(zhì),許多數(shù)據(jù)庫根據(jù)不同的文獻報道設(shè)置分立的登錄項,而在SWISS-PROT中,盡量將相關(guān)的數(shù)據(jù)歸并,降低數(shù)據(jù)庫的冗余程度。如果不同來源的原始數(shù)據(jù)有矛盾,則在相應(yīng)序列特征表中加以注釋。(3)與其它數(shù)據(jù)庫的連接。SWISS-PROT目前已經(jīng)建立了與其它30多個相關(guān)數(shù)據(jù)庫的交叉索引,即對于每一個SWISS-PROT的登錄項,有許多指向其它數(shù)據(jù)庫相關(guān)數(shù)據(jù)的指針,這便于用戶迅速得到相關(guān)的信息。例如,根據(jù)到蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的索引,用戶不僅可以得到某個蛋白質(zhì)的序列,還可以進一步得到其結(jié)構(gòu)。現(xiàn)有的交叉索引有:到EMBL核酸序列數(shù)據(jù)庫的索引,到PROSITE模式數(shù)據(jù)庫的索引,到生物大分子結(jié)構(gòu)數(shù)據(jù)庫PDB的索引等。用戶可以通過網(wǎng)絡(luò)將蛋白質(zhì)序列數(shù)據(jù)提交給SWISS-PROT,或者對蛋白質(zhì)數(shù)據(jù)進行修改。SWISS-PROT提供序列序列查詢及相似蛋白質(zhì)序列搜索工具 2.2.3.TrEMBL目前大多數(shù)蛋白質(zhì)序列不是直接由實驗得到,而是通過DNA序列映射而得到的。TrEMBL

是一個計算機注釋的蛋白質(zhì)數(shù)據(jù)庫,作為SWISS-PROT數(shù)據(jù)庫的補充。網(wǎng)址是:(http://www.ebi.ac.uk/trembl/index.html)該數(shù)據(jù)庫主要包含從EMBL/Genbank/DDBJ核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且,這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。TrEMBL有兩個部分,分別是SP-TrEMBL(SWISS-PROTTrEMBL)和REM-TrEMBL(REMaining

TrEMBL)。SP-TrEMBL包含最終將要集成到SWISS-PROT的數(shù)據(jù),所有的SP-TrEMBL序列都已被賦予SWISS-PROT的登錄號。這部分數(shù)據(jù)可以看成是SWISS-PROT數(shù)據(jù)庫的預(yù)備庫。REM-TrEMBL包括所有不準備放入SWISS-PROT的數(shù)據(jù),因此這部分數(shù)據(jù)都沒有登錄號。如人工合成的蛋白質(zhì)序列、申請專利的序列、偽基因?qū)?yīng)的蛋白質(zhì)序列等。TrEMBL數(shù)據(jù)庫的26.0版(2004年3月)擁有1069649條蛋白質(zhì)序列,總氨基酸長度達到335331748。EBI將上述3個蛋白質(zhì)數(shù)據(jù)庫(即PIR、SWISS-PROT和TrEMBL)統(tǒng)一起來,建立了一個蛋白質(zhì)數(shù)據(jù)倉庫UniProt(UniversalProteinResource),其網(wǎng)址為:http://www.ebi.ac.uk/uniprot/index.html)。

UniProt包含3個部分:(1)UniProtKnowledgebase(UniProt),這是蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心;(2)UniProtNon-redundantReference(UniRef)數(shù)據(jù)庫,該數(shù)據(jù)庫將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中,以便提高搜索速度;目前,根據(jù)序列相似程度形成3個子庫,即UniRef100、UniRef90和UniRef50;(3)UniProtArchive(UniParc),是一個資源庫,記錄所有蛋白質(zhì)序列的歷史。用戶可以通過文本查詢數(shù)據(jù)庫,可以利用BLAST程序搜索數(shù)據(jù)庫,也可以直接通過FTP下載數(shù)據(jù)。

2.2.4.蛋白質(zhì)數(shù)據(jù)庫UniProt蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫生物大分子結(jié)構(gòu)數(shù)據(jù)庫核酸序列數(shù)據(jù)庫主要有GenBank,EMBL,DDBJ等.蛋白質(zhì)序列數(shù)據(jù)庫主要有SWISS-PROT,PIR,TrEMBL等,蛋白結(jié)構(gòu)數(shù)據(jù)庫有PDB,MMDB等,與基因組有關(guān)的數(shù)據(jù)庫還有dbEST,OMIM等,

PDB(proteindatabank)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論