生物分子數(shù)據(jù)庫市公開課一等獎百校聯(lián)賽特等獎?wù)n件_第1頁
生物分子數(shù)據(jù)庫市公開課一等獎百校聯(lián)賽特等獎?wù)n件_第2頁
生物分子數(shù)據(jù)庫市公開課一等獎百校聯(lián)賽特等獎?wù)n件_第3頁
生物分子數(shù)據(jù)庫市公開課一等獎百校聯(lián)賽特等獎?wù)n件_第4頁
生物分子數(shù)據(jù)庫市公開課一等獎百校聯(lián)賽特等獎?wù)n件_第5頁
已閱讀5頁,還剩102頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第四章生物分子數(shù)據(jù)庫主講人:孫嘯制作人:劉志華東南大學(xué)吳健雄試驗室第1頁第一節(jié)引言生物分子數(shù)據(jù)高速增加分子生物學(xué)及相關(guān)領(lǐng)域研究人員快速取得最新試驗數(shù)據(jù)

建立生物分子數(shù)據(jù)庫

第2頁生物分子數(shù)據(jù)庫應(yīng)滿足5個方面主要需求(1)時間性(2)注釋(3)支撐數(shù)據(jù)(4)數(shù)據(jù)質(zhì)量(5)集成性第3頁生物分子數(shù)據(jù)庫

一級數(shù)據(jù)庫數(shù)據(jù)庫中數(shù)據(jù)直接起源于試驗取得原始數(shù)據(jù),只經(jīng)過簡單歸類整理和注釋

二級數(shù)據(jù)庫對原始生物分子數(shù)據(jù)進(jìn)行整理、分類結(jié)果,是在一級數(shù)據(jù)庫、試驗數(shù)據(jù)和理論分析基礎(chǔ)上針對特定應(yīng)用目標(biāo)而建立。第4頁生物分子數(shù)據(jù)庫幾個顯著特征:(1)數(shù)據(jù)庫更新速度不停加緊數(shù)據(jù)量呈指數(shù)增加趨勢(2)數(shù)據(jù)庫使用頻率增加更加快(3)數(shù)據(jù)庫復(fù)雜程度不停增加(4)數(shù)據(jù)庫網(wǎng)絡(luò)化(5)面向應(yīng)用(6)先進(jìn)軟硬件配置第5頁第二節(jié)核酸序列數(shù)據(jù)庫國際上權(quán)威核酸序列數(shù)據(jù)庫(1)歐洲分子生物學(xué)試驗室EMBL

http://www.embl-heidelberg.de

(2)美國生物技術(shù)信息中心GenBank/Web/Genbank/index.html

(3)日本遺傳研究所DDBJ

http://www.ddbj.nig.ac.jp/第6頁核酸序列數(shù)據(jù)增加趨勢(縱軸代表總核酸序列長度,單位:百萬bp)

第7頁

三個數(shù)據(jù)庫中數(shù)據(jù)基本一致,僅在數(shù)據(jù)格式上有所差異,對于特定查詢,三個數(shù)據(jù)庫響應(yīng)結(jié)果一樣。這三個數(shù)據(jù)庫是綜合性DNA和RNA序列數(shù)據(jù)庫,每條統(tǒng)計代表一個單獨、連續(xù)、附有注釋DNA或RNA片段。以下著重介紹EBML第8頁

MBL中數(shù)據(jù)分類情況(單位:Gigabases)(EST-Expressedsequencetags;STS-sequencetaggedsites)(取自http://www3.ebi.ac.uk/Services/DBStats/)

第9頁

21Mar37,943,364,438basesin24,353,128records.

第10頁“ID”為序列標(biāo)識符行,包含登錄號、類型,分子長度

“AC”為登錄號行;“XX”為分隔符號行;

“DT”為創(chuàng)建和更新日期行“DE”為序列描述行;“KW”為關(guān)鍵字行;“OG”行描述細(xì)胞組織;“OS”行描述生物體種屬;“OC”行描述生物體分類信息;“RN”描述參考文件編號;“RP”描述參考文件頁碼;“RA”描述參考文件作者;“RT”描述參考文件題目;“RL”描述參考文件出處;“RC”描述參考文件注解;“RX”、“DR”行描述交叉引用信息;“FH”為特征開始符號;“FT”為特征表行(1)FeatureKey,它是描述域生物功效關(guān)鍵字;(2)Location,指明特征在序列中特定位置;(3)Qualifiers,描述關(guān)于一個特征輔助信息;文件體由序列本身所組成,由“SQ”標(biāo)志行開始。序列結(jié)束標(biāo)識是“//”。EMBL核酸數(shù)據(jù)庫中每一個序列數(shù)據(jù)被賦予一個登錄號,它是一個永久性唯一標(biāo)識

EMBL序列數(shù)據(jù)用外在ASCII文本文件來表示,而每一個文件分為文件頭和文件體兩大部分文件頭由一系列信息描述行所組成,文件頭實際上對應(yīng)于一個序列注釋(annotation)第11頁提交數(shù)據(jù)(1)編輯電子表格(2)利用Authorin程序(3)利用基于WWW網(wǎng)絡(luò)環(huán)境序列提交系統(tǒng)第12頁使用EMBL(1)CD-ROM形式(2)ftp服務(wù)器(3)Gopher服務(wù)器(4)WWW服務(wù)器這是當(dāng)前最慣用一個形式

第13頁EMBL提供一些與序列相關(guān)檢索操作(基于3W服務(wù)器)(1)序列查詢最簡單查詢就是經(jīng)過序列登錄號(如X58929)或序列名稱(如SCARGC)直接查詢。假如找到所查詢序列,則服務(wù)器將查詢結(jié)果以HTML文件返回給用戶假如數(shù)據(jù)庫中該序列有到MEDLINE交叉索引,則系統(tǒng)同時返回與包含參考文件摘要等信息MEDLINE鏈接假如該序列有到其它數(shù)據(jù)庫交叉索引,也返回對應(yīng)鏈接第14頁比如:登錄號為J00231核酸序列含有這么一個交叉索引行:DR SWISS-PROT:P01860;GC3_HUMAN(2)核酸同源性搜索3W服務(wù)器支持用戶使用FastA程序進(jìn)行核酸同源搜索。FastA依據(jù)給定目標(biāo)序列在數(shù)據(jù)庫中搜索其同源序列。第15頁2、基因組數(shù)據(jù)庫(GDB)

人類基因組計劃所得到圖譜數(shù)據(jù)

當(dāng)前GDB包含對下述三種對象描述:(1)人類基因組區(qū)域

包含基因、克隆、PCR標(biāo)識物、斷點、細(xì)胞遺傳學(xué)標(biāo)識、易碎位點、EST、綜合區(qū)域、contigs、重復(fù)等;(2)人類基因組圖譜,

包含細(xì)胞遺傳學(xué)圖譜、連接圖譜、輻射混合圖譜、contig圖譜、集成圖譜,全部這些圖譜都能夠被直觀地顯示出來;(3)人類基因組中改變,

包含基因突變和基因多態(tài)性,加上等位基因頻率數(shù)據(jù)。第16頁與染色體相關(guān)信息第17頁其它模式生物基因組數(shù)據(jù)庫如:鼠基因組數(shù)據(jù)庫MGD(/)酵母基因組數(shù)據(jù)庫SGD(/Saccharomyces/)第18頁Ensembl(/)3、人類基因組數(shù)據(jù)庫EnsemblEnsembl包含全部公開人類基因組DNA序列,經(jīng)過注釋形成關(guān)于序列特征。現(xiàn)在包含其它基因組,如大鼠、小鼠、線蟲、果蠅等。比如:基因經(jīng)過試驗發(fā)覺或者是經(jīng)過GenScan程序預(yù)測其它特征: 單核苷酸多態(tài)性(SNP)、重復(fù)序列等第19頁Ensembl數(shù)據(jù)庫結(jié)構(gòu)圖第20頁Ensembl提供各種查詢方式

經(jīng)過關(guān)鍵字查詢用BLAST進(jìn)行相同序列搜索

另一個更直觀方式是顯示各染色體 用戶能夠在染色體水平上選擇感興趣位點, 逐層放大 瀏覽整個基因組第21頁第22頁人第9號染色體及大鼠對應(yīng)染色體片段第23頁4、表示序列標(biāo)識數(shù)據(jù)庫dbESTEST(ExpressedSequenceTags)方法已被證實是識別轉(zhuǎn)錄序列最有效方法,EST序列大約覆蓋了人類基因90%。

DbEST(/dbEST/)是GenBank一個部分,該數(shù)據(jù)庫包含不一樣生物EST序列數(shù)據(jù)及其它相關(guān)信息,主要是從大量不一樣組織和器官得到短mRNA片段。

WEB頁面或emailFTP相關(guān)EST數(shù)據(jù)dbEST數(shù)據(jù)庫第24頁5、序列標(biāo)識位點數(shù)據(jù)庫dbSTSSTS(SequenceTaggedSites)是序列標(biāo)識位點dbSTS(/dbSTS/)是NCBI一個數(shù)據(jù)源,包含基因組短標(biāo)識序列(STS)組成和定位信息。能夠經(jīng)過BLAST搜索STS序列。第25頁6、面向基因聚類數(shù)據(jù)庫UniGeneUniGene(/UniGene/)數(shù)據(jù)庫將GenBank中序列進(jìn)行自動分類,形成面向基因群非冗余集合。每個UniGene群包含:代表一個唯一基因多個序列,附有該基因相關(guān)信息,如基因表示組織類型、定位圖譜除了基因序列之外,還包含大量EST序列。當(dāng)前,UniGene中包含人類、大鼠、小鼠、牛相關(guān)數(shù)據(jù),因為這些生物有大量EST數(shù)據(jù)。第26頁第三節(jié)蛋白質(zhì)序列數(shù)據(jù)庫目標(biāo): 幫助研究者判別和解釋蛋白質(zhì)序列信息, 研究分子進(jìn)化、功效基因組。它是一個全方面、經(jīng)過注釋、非冗余蛋白質(zhì)序列數(shù)據(jù)庫。全部序列數(shù)據(jù)都經(jīng)過整理,超出99%序列已按蛋白質(zhì)家族分類,二分之一以上還按蛋白質(zhì)超家族進(jìn)行了分類。1、PIR(ProteinInformationResource)第27頁除了蛋白質(zhì)序列數(shù)據(jù)之外,PIR還包含以下信息:(1)蛋白質(zhì)名稱、蛋白質(zhì)分類、蛋白質(zhì)起源;(2)關(guān)于原始數(shù)據(jù)參考文件;(3)蛋白質(zhì)功效和蛋白質(zhì)普通特征,包含基因表示、翻譯后處理、活化等;(4)序列中相關(guān)位點、功效區(qū)域。第28頁PIR提供三種類型檢索服務(wù):一是基于文本交互式查詢,用戶經(jīng)過關(guān)鍵字進(jìn)行數(shù)據(jù)查詢。二是標(biāo)準(zhǔn)序列相同性搜索,包含BLAST、FastA等。三是結(jié)合序列相同性、注釋信息和蛋白質(zhì)家族信息高級搜索,包含按注釋分類相同性搜索、結(jié)構(gòu)域搜索等。第29頁三個子數(shù)據(jù)庫第30頁2、SWISS-PROT

SWISS-PROT(http://www.expasy.ch/sprot/sprot-top.html)是當(dāng)前國際上比較權(quán)威蛋白質(zhì)序列數(shù)據(jù)庫,其中蛋白質(zhì)序列是經(jīng)過注釋SWISS-PROT中數(shù)據(jù)起源于不一樣源地:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出適當(dāng)數(shù)據(jù);(3)從科學(xué)文件中摘錄;(4)研究人員直接提交蛋白質(zhì)序列數(shù)據(jù)

SWISS-PROT有三個顯著特點:第31頁(1)注釋在SWISS-PROT中,數(shù)據(jù)分為關(guān)鍵數(shù)據(jù)和注釋兩大類。關(guān)鍵數(shù)據(jù)包含:序列數(shù)據(jù)、參考文件、分類信息(蛋白質(zhì)生物起源描述)注釋包含:(A)蛋白質(zhì)功效描述;(B)翻譯后修飾;(C)域和功效位點,如鈣結(jié)合區(qū)域、ATP結(jié)合位點等;(D)蛋白質(zhì)二級結(jié)構(gòu);(E)蛋白質(zhì)四級結(jié)構(gòu),如同構(gòu)二聚體、異構(gòu)三聚體等;(F)與其它蛋白質(zhì)相同性;(G)因為缺乏該蛋白質(zhì)而引發(fā)疾??;(H)序列矛盾、改變等。第32頁(2)最小冗余盡可能將相關(guān)數(shù)據(jù)歸并,降低數(shù)據(jù)庫冗余程度。假如不一樣起源原始數(shù)據(jù)有矛盾,則在對應(yīng)序列特征表中加以注釋。(3)與其它數(shù)據(jù)庫連接對于每一個登錄項,有許多指向其它數(shù)據(jù)庫相關(guān)數(shù)據(jù)指針,這便于用戶快速得到相關(guān)信息?,F(xiàn)有交叉索引有:到EMBL核酸序列數(shù)據(jù)庫索引,到PROSITE模式數(shù)據(jù)庫索引,到生物大分子結(jié)構(gòu)數(shù)據(jù)庫PDB索引等。第33頁

提交序列數(shù)據(jù)(a)編輯電子表格(b)利用Authorin程序(c)WWW服務(wù)器使用SWISS-PROT(a)CD-ROM形式(b)ftp服務(wù)器(c)Gopher服務(wù)器(d)WWW服務(wù)器(SRS)與序列相關(guān)操作(a)序列查詢(b)搜索同源蛋白質(zhì)序列 第34頁TrEMBL(http://www.ebi.ac.uk/trembl/index.html)是與SWISS-PROT相關(guān)一個數(shù)據(jù)庫。包含從EMBL核酸數(shù)據(jù)庫中依據(jù)編碼序列(CDS)翻譯而得到蛋白質(zhì)序列,而且這些序列還未集成到SWISS-PROT數(shù)據(jù)庫中。TrEMBL有兩個部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)包含最終將要集成到SWISS-PROT數(shù)據(jù),全部SP-TrEMBL序列都已被賦予SWISS-PROT登錄號。(2)REM-TrEMBL(REMainingTrEMBL)包含全部不準(zhǔn)備放入SWISS-PROT數(shù)據(jù),所以這部分?jǐn)?shù)據(jù)都沒有登錄號。3、TrEMBL第35頁包含:

Swiss-ProtTrEMBLPIR

用戶能夠經(jīng)過文本查詢數(shù)據(jù)庫,能夠利用BLAST程序搜索數(shù)據(jù)庫,也能夠直接經(jīng)過FTP下載數(shù)據(jù)。4、蛋白質(zhì)數(shù)據(jù)倉庫UniProt第36頁UniProt包含3個部分:(1)UniProtKnowledgebase(UniProt)

蛋白質(zhì)序列、功效、分類、交叉引用等信息存取中心(2)UniProtNon-redundantReference(UniRef)數(shù)據(jù)庫將親密相關(guān)蛋白質(zhì)序列組合到一條統(tǒng)計中方便提升搜索速度;(3)UniProtArchive(UniParc)資源庫,統(tǒng)計全部蛋白質(zhì)序列歷史。第37頁第四節(jié)生物大分子結(jié)構(gòu)數(shù)據(jù)庫1、PDB(ProteinDataBank)PDB中含有經(jīng)過試驗(X射線晶體衍射,核磁共振NMR)測定生物大分子三維結(jié)構(gòu)蛋白質(zhì)核酸糖類其它復(fù)合物第38頁一個是顯式序列信息(explicitsequence) 在PDB文件中,以關(guān)鍵字SEQRES作為顯式序列標(biāo)識,以該關(guān)鍵字打頭每一行都是關(guān)于序列信息。一個是隱式序列信息(implicitsequence)

PDB隱式序列即為立體化學(xué)數(shù)據(jù),包含每個原子名稱和原子三維坐標(biāo)。第39頁第40頁HEADERHYDROLASE19-FEB-971ADZTITLETHESOLUTIONSTRUCTUREOFTHESECONDKUNITZDOMAINOFTITLE2TISSUEFACTORPATHWAYINHIBITOR,NMR,30STRUCTURESCOMPNDMOL_ID:1;COMPND2MOLECULE:TISSUEFACTORPATHWAYINHIBITOR;。。。。。。COMPND8BIOLOGICAL_UNIT:MONOMERSOURCEMOL_ID:1;。。。。。。SOURCE7EXPRESSION_SYSTEM_PLASMID:PFLAGKEYWDSHYDROLASE,INHIBITOR,COAGULATIONEXPDTANMR,30STRUCTURESAUTHORM.J.M.BURGERING,L.P.M.ORBONSREVDAT125-FEB-981ADZ0JRNLAUTHM.J.BURGERING,L.P.ORBONS,A.VANDERDOELEN,。。。。。。REMARK1REFERENCE1REMARK1AUTHM.T.STUBBSIIREMARK1TITLSTRUCTURALASPECTSOFFACTORXAINHIBITION。。。。。。REMARK999SEQUENCEREMARK9991ADZSWSP106461-111NOTINATOMSLISTREMARK9991ADZSWSP10646183-304NOTINATOMSLISTREMARK999THEFIRSTNINERESIDUESARENOTPARTOFTHETFPIDOMAINIIREMARK999SEQUENCEBUTAREFROMTHEPFLAGPEPTIDECLONINGVECTOR.DBREF1ADZ171SWSP10646TFPI_HUMAN112182SEQADV1ADZASP1SWSP10646ILE112ENGINEEREDSEQADV1ADZTYR2SWSP10646ILE113ENGINEEREDSEQRES171ASPTYRLYSASPASPASPASPLYSLEULYSPROASPPHESEQRES271CYSPHELEUGLUGLUASPPROGLYILECYSARGGLYTYRSEQRES371ILETHRARGTYRPHETYRASNASNGLNTHRLYSGLNCYSSEQRES471GLUARGPHELYSTYRGLYGLYCYSLEUGLYASNMETASNSEQRES571ASNPHEGLUTHRLEUGLUGLUCYSLYSASNILECYSGLUSEQRES671ASPGLYPROASNGLYPHEHELIX11ASP12PHE1554HELIX22ASN34THR3653HELIX33LEU57ILE6317SHEET1A2ARG29ASN330SHEET2A2GLN38PHE42-1NPHE42OARG29CRYST11.0001.0001.00090.0090.0090.00P11ORIGX11.0000000.0000000.0000000.00000ORIGX20.0000001.0000000.0000000.00000ORIGX30.0000000.0000001.0000000.00000SCALE11.0000000.0000000.0000000.00000SCALE20.0000001.0000000.0000000.00000SCALE30.0000000.0000001.0000000.00000

圖4.5PDB文件PDB文件示意第41頁顯示分子結(jié)構(gòu)(RasMol,ChemView)第42頁2、MMDB(MolecularModelingDatabase)分子模型MMDB是(NCBI)所開發(fā)生物信息數(shù)據(jù)庫集成系統(tǒng)Entrez一個部分,數(shù)據(jù)庫內(nèi)容包含來自于試驗生物大分子結(jié)構(gòu)數(shù)據(jù)。與PDB相比,對于數(shù)據(jù)庫中每一個生物大分子結(jié)構(gòu),MMDB含有許多附加信息,如分子生物學(xué)功效、產(chǎn)生功效機(jī)制、分子進(jìn)化歷史等。還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。第43頁MMDB實用工具第44頁第五節(jié)其它生物分子數(shù)據(jù)庫核酸序列改變單堿基多態(tài)性SNPs(Singlenucleotidepolymorphisms)SNPs對人類遺傳學(xué)研究和醫(yī)學(xué)應(yīng)用含有主要意義不論對于人類種群遺傳學(xué)研究,還是對疾病性狀分析或個體化醫(yī)療,都需要深入地研究SNPs。1、單堿基多態(tài)性數(shù)據(jù)庫dbSNP(/SNP/),第45頁實例:GTTTGTGATTACTTTGTAAAAACAGTGTAATAAGTACTCACTAAAGGAAATTTAGAAAATGATAAGCTTAAggccgggcatggtgcctcatgcctgtaatcctagcactttgggaggctgaggtgggtggatcacctgagctcaggagttccagatcatcctggacaatatggtgaaaccctgtctacgcttaaaatacgRaaattagccgggcgtggtggggcatgcctgtggtctcagctactttggagactaaggtagaaggatcacttgaatcctggaggtggaggttgcagagtgagccaatatcgtgccactgcactccagcctaggtgacagaggaagactctgtctcaaaaaaaagaaaaTAAGGCCAGACACGGGGGCTCATGCTTGTAATCR=A/G第46頁單倍型數(shù)據(jù)第47頁2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫SCOPSCOP數(shù)據(jù)庫(http://scop.mrc-lmb.cam.ac.uk/scop/)目標(biāo)是提供關(guān)于已知結(jié)構(gòu)蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系詳細(xì)描述,包含蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中全部條目。SCOP數(shù)據(jù)庫除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系信息外,對于每一個蛋白質(zhì)還包含下述信息:到PDB連接,序列,參考文件,結(jié)構(gòu)圖像等。能夠按結(jié)構(gòu)和進(jìn)化關(guān)系對蛋白質(zhì)分類,分類結(jié)果是一個含有層次結(jié)構(gòu)樹,其主要層次是家族、超家族和折疊:(1)家族:含有顯著進(jìn)化關(guān)系(2)超家族:含有遠(yuǎn)源進(jìn)化關(guān)系,含有共同進(jìn)化源(3)折疊類:主要結(jié)構(gòu)相同第48頁第49頁3、蛋白質(zhì)二級結(jié)構(gòu)數(shù)據(jù)庫DSSPDSSP(http://www.sander.embl-heidelberg.de/dssp/)是一個二級結(jié)構(gòu)推導(dǎo)數(shù)據(jù)庫。對生物大分子數(shù)據(jù)庫PDB中任何一個蛋白質(zhì),依據(jù)其三維結(jié)構(gòu)推導(dǎo)出對應(yīng)二級結(jié)構(gòu)。對研究蛋白質(zhì)序列與蛋白質(zhì)二級結(jié)構(gòu)及空間結(jié)構(gòu)關(guān)系非常有用除了二級結(jié)構(gòu)以外,DSSP還包含蛋白質(zhì)幾何特征及溶劑可及表面。第50頁TheDSSPcodeH=alphahelixB=residueinisolatedbeta-bridgeE=extendedstrand,participatesinbetaladderG=3-helix(3/10helix)I=5helix(pihelix)T=hydrogenbondedturnS=bend例:第51頁4、蛋白質(zhì)同源序列比對數(shù)據(jù)庫HSSPHSSP(http://www.sander.embl-heidelberg.de/hssp/)二級數(shù)據(jù)庫。數(shù)據(jù)起源于PDB,或起源于SWISS-PROT對于PDB中每一個蛋白質(zhì),HSSP將與其同源全部蛋白質(zhì)序列對比排列起來,從而將相同序列蛋白質(zhì)聚集成結(jié)構(gòu)同源家族。HSSP有利于分析蛋白質(zhì)保守區(qū)域,研究蛋白質(zhì)進(jìn)化關(guān)系,有利于蛋白質(zhì)分子設(shè)計。第52頁FromPDBFromSwiss-prot多重序列比對已知結(jié)構(gòu)→未知結(jié)構(gòu)第53頁5、OMIMOMIM(OnlineMendelianInheritanceinMan),是關(guān)于人類基因和遺傳疾病分類數(shù)據(jù)庫。該數(shù)據(jù)庫搜集了已知人類基因及因為這些基因突變或者缺失而造成遺傳疾病。OMIM使用非常方便查詢程序依據(jù)輸入到檢索窗口一個或幾個詞執(zhí)行簡單查詢,返回含有該詞文檔列表,用戶能夠在列表中選擇一個或更多異常查看其OMIM統(tǒng)計全文:80/entrez/query.fcgi?db=OMIM

第54頁瀏覽染色體第55頁6、EPDEPD(http://www.epd.isb-sib.ch/)是真核基因開啟子數(shù)據(jù)庫 提供從EMBL中得到真核基因開啟子序列,目標(biāo)是幫助試驗研究人員、生物信息學(xué)研究人員分析真核基因轉(zhuǎn)錄信號。第56頁7、TRRDTRRD是一個關(guān)于基因調(diào)控信息集成數(shù)據(jù)庫,該數(shù)據(jù)庫搜集真核生物基因轉(zhuǎn)錄調(diào)控區(qū)域結(jié)構(gòu)和功效信息。每一個TRRD條目對應(yīng)于一個基因,包含特定基因各種結(jié)構(gòu)-功效特征TRRD6.0包含七個相關(guān)數(shù)據(jù)表:(1)基因描述表TRRDGENES(2)控制區(qū)域表TRRDLCR(3)調(diào)控區(qū)域表TRRDUNITS(4)轉(zhuǎn)錄因子結(jié)合位點表TRRDSITES(5)轉(zhuǎn)錄因子表TRRDFACTORS(6)表示模式表TRRDEXP(7)試驗起源表TRRDBIB第57頁8、TRANSFACTRANSFAC(http://transfac.gbf.de/)是真核基因順式調(diào)控元件和反式作用因子數(shù)據(jù)庫,數(shù)據(jù)搜集對象從酵母到人類TRANSFAC包含6類數(shù)據(jù):(1)SITE類數(shù)據(jù)(2)GENE類數(shù)據(jù)(3)FACTOR類數(shù)據(jù)(4)CELL類數(shù)據(jù)(5)CLASS類數(shù)據(jù)(6)MATRIX數(shù)據(jù)第58頁9、BODYMAPBODYMAP(http://bodymap.ims.u-tokyo.ac.jp/)是關(guān)于人和老鼠基因表示信息數(shù)據(jù)庫,基因表示數(shù)據(jù)來自于不一樣組織、不一樣細(xì)胞以及不一樣時刻。這里基因表示數(shù)據(jù)實際上是3’端EST。經(jīng)過分析這些數(shù)據(jù),用戶能夠初步掌握基因活性,了解組織中mRNA組成,研究基因表示規(guī)律,發(fā)覺新基因。第59頁10、PROSITEPROSITE(http://www.expasy.ch/prosite/)是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫,包含含有生物學(xué)意義位點、模式、可幫助識別蛋白質(zhì)家族統(tǒng)計特征。PROSITE中包括序列模式包含酶催化位點、配體結(jié)合位點、與金屬離子結(jié)合殘基、二硫鍵半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合區(qū)域等。PROSITE還包含依據(jù)多序列比對而構(gòu)建序列統(tǒng)計特征,能更敏感地發(fā)覺一個序列是否含有對應(yīng)特征。第60頁11、DBCatDBCat是生物信息數(shù)據(jù)庫目錄數(shù)據(jù)庫,它搜集了500多個生物信息學(xué)數(shù)據(jù)庫信息,并依據(jù)它們應(yīng)用領(lǐng)域進(jìn)行了分類DNARNA蛋白質(zhì)基因組圖譜蛋白質(zhì)結(jié)構(gòu)文件著作等基本類型,(biogen.fr/services/dbcat/)第61頁DBCat中分類數(shù)據(jù)庫個數(shù)

數(shù)據(jù)對象數(shù)據(jù)庫個數(shù)DNA87RNA29Protein94Genomic58Mapping29Proteinstructure18Literature43Miscellaneous153第62頁12、PubMedPubMed(/)是NCBI維護(hù)生物學(xué)、醫(yī)學(xué)文件引用數(shù)據(jù)庫,提供對MEDLINE、Pre-MEDLINE等文件數(shù)據(jù)庫引用查詢和對大量網(wǎng)絡(luò)科學(xué)類電子期刊鏈接。利用Entrez系統(tǒng)能夠?qū)ubMed進(jìn)行方便查詢檢索。第63頁第六節(jié)數(shù)據(jù)庫搜索數(shù)據(jù)庫使用關(guān)鍵字查詢目標(biāo)搜索序列搜索問題 搜索效率 標(biāo)準(zhǔn)算法—O(n2)最流行序列數(shù)據(jù)庫快速搜索程序FastABLAST第64頁FASTA基本思想:序列s:序列t:找出兩個序列含有最大匹配相對位移1、FASTA算法位移=66810s:A-A-Tt:--A-A-T

357位移=3第65頁FASTP基本算法是次序?qū)?shù)據(jù)庫中每一個序列與查詢序列比較,返回與查詢序列非常相同數(shù)據(jù)庫序列首先確定兩個序列共同k元組(即連續(xù)k個字符,k-tup),對于蛋白質(zhì)序列,k=1或2。k決定了字串大小。增大k參數(shù)就會降低字串命中數(shù)目,也就會降低所需要最正確搜索數(shù)目,提升搜索速度。第66頁算法設(shè)置兩個數(shù)據(jù)結(jié)構(gòu):(1)查找表

存放第一條序列各k元組位置(2)位移向量

位移決定一個序列相對于另一個發(fā)生字符替換位置。 假如共同k元組起始于s[i]和t[j],則位移等于i-j。

第67頁

1234567891011s=HARFYAAQIVL

查找表

A2,6,7F4H1I9L11Q8R3V10Y512345678t= VDMAAQIA

位移+9-2-3+2+2-6+2+1-2+3+2-1位移向量-7-6-5-4-3-2-10+1+2+3+4+5+6+7+8+9+10

11211411最大匹配位移第68頁位移累計最大值意義:(1)該位移下匹配最多(2)計算對應(yīng)動態(tài)規(guī)劃矩陣對角線附近區(qū)域?qū)嶋H處理:將在同一位移下距離較近多個k元組聯(lián)合起來,形成區(qū)域。一個區(qū)域可被看成是一個片段對,或無空白局部對比排列,依據(jù)匹配或失配對區(qū)域進(jìn)行打分。對產(chǎn)生5個最好區(qū)域按PAM矩陣進(jìn)行重新打分,最高得分就是序列s和序列t相同性初始得分。對于數(shù)據(jù)庫中每一個序列,按上述方法計算與查詢序列比較初始得分。依據(jù)初始得分將全部數(shù)據(jù)庫序列按非遞增次序排序,對于排在前面幾個含有最高初始得分序列,利用動態(tài)規(guī)劃算法計算它們與查詢序列最優(yōu)對比排列得分,但計算過程僅限于初始對比排列(對應(yīng)于初始得分對比排列)附近區(qū)域。第69頁FastA最新版本是FastA3軟件包,下表2列出FastA3家族全部組員:FastA家族程

序查詢序列類型數(shù)據(jù)庫類型FastADNADNA蛋白質(zhì)蛋白質(zhì)FASTXFASTYDNA蛋白質(zhì)TFastA蛋白質(zhì)DNATFASTXTFASTY蛋白質(zhì)DNAFASTSTFASTS一系列多肽片段蛋白質(zhì)DNAFASTFTFASTF有序多肽混合物蛋白質(zhì)DNA第70頁FastA使用界面第71頁2、BLASTBLAST是基本局部對比排列搜索工具簡稱。研制BLAST最初目標(biāo)是為了改進(jìn)FastA算法性能,經(jīng)過尋找更小、更加好熱點,提升計算速度。為了深入提升數(shù)據(jù)庫搜索速度,BLAST增加了限制,即在序列局部比對中不包含空缺字符。第72頁BLAST基本思想:序列S:序列t:找出兩個序列共同短片段經(jīng)過擴(kuò)展后形成更長相同片斷擴(kuò)展擴(kuò)展第73頁給定一個查詢序列,BLAST返回全部查詢序列與數(shù)據(jù)庫序列得分超出某個閾值S片段對。閾值S能夠由用戶設(shè)定,但程序有一個缺省推薦值。選擇S基本標(biāo)準(zhǔn)是:一條隨機(jī)序列與查詢序列比較得分不會超出S第74頁在進(jìn)行序列兩兩比較之前,BLAST首先尋找一顆“種子”,它是兩個序列之間一個非常短片段對。種子能夠向兩個方向擴(kuò)展,直至到達(dá)擴(kuò)展最大可能得分。第75頁BLAST計算過程分為三個階段:(1)搜集一系列高得分串,形成高得分單詞表(2)搜索種子(3)擴(kuò)展種子第76頁對于蛋白序列搜索:單詞表——全部w個字符組成單詞 與查詢序列單詞比較得分超出T這里,w和T是兩個參數(shù)對于蛋白質(zhì)序列搜索推薦w值(即種子長度)為4這一步所得到高得分單詞表實際上是一些候選種子掃描數(shù)據(jù)庫,搜索那些處于單詞表中種子Hashtable有限自動機(jī)最終一步擴(kuò)展過程比較直觀。當(dāng)擴(kuò)展時得分低于該擴(kuò)展前面最正確得分某個下限時,擴(kuò)展停頓。第77頁對于DNA序列搜索,單詞表包含查詢序列長度為w全部單詞壓縮數(shù)據(jù),每個核酸僅用2位(bit)表示,4個核酸組成一個字節(jié)搜索、擴(kuò)展過程與對蛋白質(zhì)序列處理過程相同第78頁BLAST是一個序列數(shù)據(jù)庫搜索程序家族 其中有許多特定用途程序,第79頁BLAST使用界面第80頁第81頁實際應(yīng)用中傾向于蛋白質(zhì)序列搜索4種字符Vs.20種字符DNA序列數(shù)據(jù)庫龐大、冗余打分矩陣蛋白質(zhì)序列比DNA序列愈加保守第82頁3、VASTVAST是NCBI相同結(jié)構(gòu)搜索工具,它將一個新蛋白質(zhì)三維結(jié)構(gòu)與PDB或MMDB數(shù)據(jù)庫中結(jié)構(gòu)進(jìn)行比較。經(jīng)過結(jié)構(gòu)相同搜索,VAST列出若干與查詢待查詢結(jié)構(gòu)相同蛋白質(zhì),用戶利用系統(tǒng)提供交互顯示軟件Cn3D(Wangetal.,)觀察重合分子模型圖,詳細(xì)分析這些蛋白質(zhì)空間結(jié)構(gòu)關(guān)系,分析蛋白質(zhì)因為進(jìn)化而改變結(jié)構(gòu)區(qū)域。/Structure/VAST/)第83頁VAST比較有三個步驟:首先,在坐標(biāo)數(shù)據(jù)基礎(chǔ)上,標(biāo)出全部組成蛋白質(zhì)關(guān)鍵部分α螺旋和β片層。然后依據(jù)這些二級結(jié)構(gòu)單位位置計算向量。使用這些向量進(jìn)行結(jié)構(gòu)比對而不是整個一套坐標(biāo)。然后,算法試圖最正確地匹配這些向量,尋找類型和相對方位相同成對結(jié)構(gòu)單位,而且在這些單位之間還要有一樣連接方式。最終,在每個殘基位置上使用蒙特卡洛方法對結(jié)構(gòu)比對進(jìn)行優(yōu)化。第84頁第七節(jié)數(shù)據(jù)庫集成集成數(shù)據(jù)庫一個方法是結(jié)構(gòu)一個“數(shù)據(jù)倉庫”,使其包含各種數(shù)據(jù)庫中數(shù)據(jù)集,經(jīng)過自動或手工方式添加注釋和連接.Entrez和SRS就是這么一類系統(tǒng)。另一個實現(xiàn)數(shù)據(jù)庫集成方法是設(shè)計智能查詢工具,進(jìn)行數(shù)據(jù)庫虛擬集成。第85頁1、Entrez查詢和搜索系統(tǒng)集成NCBI各種數(shù)據(jù)庫中信息 核酸序列 蛋白質(zhì)序列 生物大分子結(jié)構(gòu) 基因組數(shù)據(jù) 生物分類數(shù)據(jù)庫 孟德爾人類遺傳學(xué)數(shù)據(jù)(OMIM) Pubmed/gorf/gorf.html

第86頁Entrez集成系統(tǒng)結(jié)構(gòu)如圖4.8所表示。

圖4.8、Entrez數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu)圖

第87頁

第88頁第89頁2.SRSSRS(SequenceRetrievalSystem)是EMBL研制一個基于WEB查詢系統(tǒng)SRS采取全菜單驅(qū)動方式包含EMBL、EMBL_NEW、SwissProt、PIR等一級數(shù)據(jù)庫還包含許多二級數(shù)據(jù)庫, 如蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫Prosite、限制酶數(shù)據(jù)庫ReBase、PDB序列子集數(shù)據(jù)庫NRL_3D、真核基因開啟子數(shù)據(jù)庫EPD、E.coli數(shù)據(jù)庫ECD、酶名稱和反應(yīng)數(shù)據(jù)庫ENZYM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論