06第六章 常用生物信息學數(shù)據(jù)庫簡介_第1頁
06第六章 常用生物信息學數(shù)據(jù)庫簡介_第2頁
06第六章 常用生物信息學數(shù)據(jù)庫簡介_第3頁
06第六章 常用生物信息學數(shù)據(jù)庫簡介_第4頁
06第六章 常用生物信息學數(shù)據(jù)庫簡介_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第六章常用生物信息學數(shù)據(jù)庫簡介Bioinformatics一、引言二、生物信息學數(shù)據(jù)庫的簡介主要內(nèi)容三、生物信息學數(shù)據(jù)庫的檢索生物分子數(shù)據(jù)高速增長一、引言1.生物信息學數(shù)據(jù)庫產(chǎn)生生物分子數(shù)據(jù)高速增長

分子生物學及相關領域研究人員迅速獲得最新實驗數(shù)據(jù)

建立生物分子數(shù)據(jù)庫

2.生物分子數(shù)據(jù)庫分類(1)一級數(shù)據(jù)庫數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋。(2)二級數(shù)據(jù)庫對原始生物分子數(shù)據(jù)進行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎上針對特定的應用目標而建立的。一級數(shù)據(jù)庫基因組數(shù)據(jù)庫—基因組數(shù)據(jù)來自基因組作圖核酸或蛋白質(zhì)序列數(shù)據(jù)庫—測序結(jié)構(gòu)數(shù)據(jù)庫—X射線衍射和核磁共振這些數(shù)據(jù)庫是分子生物學的基本數(shù)據(jù)資源,通常稱為基本數(shù)據(jù)庫、初始數(shù)據(jù)庫,也稱一次數(shù)據(jù)庫。

國際上著名的一級核酸數(shù)據(jù)庫有Genbank、EMBL和DDBJ;蛋白質(zhì)序列數(shù)據(jù)庫有UniPROT和PIR等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等。二級數(shù)據(jù)庫它是根據(jù)生命科學不同研究領域的實際需要,對基因組圖譜、核酸和蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)以及文獻等數(shù)據(jù)進行分析、整理、歸納、注釋,構(gòu)建具有特殊生物學意義和專門用途的數(shù)據(jù)庫。

國際上二級生物學數(shù)據(jù)庫非常多,它們因針對不同的研究內(nèi)容和需要而各具特色,如轉(zhuǎn)錄因子和結(jié)合位點庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等。生物信息學工具染色體核酸蛋白質(zhì)基因組圖譜DNA序列蛋白質(zhì)序列蛋白質(zhì)結(jié)構(gòu)基因組數(shù)據(jù)庫核酸序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫二級數(shù)據(jù)庫基因組作圖序列測定結(jié)構(gòu)測定一級數(shù)據(jù)庫一級數(shù)據(jù)庫的數(shù)據(jù)量大,更新速度快,用戶面廣,通常需要高性能的計算機服務器、大容量的磁盤空間和專門的數(shù)據(jù)庫管理系統(tǒng)支撐。二級數(shù)據(jù)庫的容量則小得多,更新速度也不像一次數(shù)據(jù)庫那樣快,也可以不用大型商業(yè)數(shù)據(jù)庫軟件支持,這類針對不同問題開發(fā)的二次數(shù)據(jù)庫的最大特點是使用方便,特別適用于計算機使用經(jīng)驗不太豐富的生物學家。(1)數(shù)據(jù)庫的更新速度快,數(shù)據(jù)量呈指數(shù)增長;(2)數(shù)據(jù)庫使用頻率增長快;(3)數(shù)據(jù)庫的復雜程度不斷增加;(4)數(shù)據(jù)庫網(wǎng)絡化;(5)面向應用;(6)先進的軟硬件配置。3.生物信息數(shù)據(jù)庫6個明顯的特征二、生物信息學數(shù)據(jù)庫簡介國際上權(quán)威的核酸序列數(shù)據(jù)庫:(1)GenBank/Web/Genbank/index.html

(2)EMBL

http://www.embl-heidelberg.de

(3)DDBJ

http://www.ddbj.nig.ac.jp/(一)核酸序列數(shù)據(jù)庫三個數(shù)據(jù)庫都是綜合性的DNA和RNA序列數(shù)據(jù)庫,每條記錄代表一個單獨、連續(xù)、附有注釋的DNA或RNA片段。三個數(shù)據(jù)庫中的數(shù)據(jù)基本一致,僅在數(shù)據(jù)格式上有所差別,對于特定的查詢,三個數(shù)據(jù)庫的響應結(jié)果一樣。GenBankDDBJEMBLGenBank數(shù)據(jù)庫簡介GenBank數(shù)據(jù)庫是由美國生物技術信息中心(NationalCenterforBiotechnologyInformation,

NCBI)維護的一級核酸序列數(shù)據(jù)庫。GenBank數(shù)據(jù)庫的數(shù)據(jù)來源有三種:1、直接來源于測序工作者提交的序列;2、與其它數(shù)據(jù)機構(gòu)協(xié)作交換的數(shù)據(jù);3、美國專利局提供的專利數(shù)據(jù)。美國馬里蘭州的貝塞斯達

美國國家生物技術信息中心NCBI是美國國家醫(yī)學圖書館(NLM)的一部分。建立于1988年。NCBI保管GenBank的基因測序數(shù)據(jù)和Medline的生物醫(yī)學研究論文索引。所有的這些數(shù)據(jù)庫都可以通過Entrez搜索引擎在線訪問。核酸序列數(shù)據(jù)庫檢索界面:特征欄提供輔助檢索功能LOCUSU000964639221bpDNAcircularBCT18-NOV-1998DEFINITIONEscherichiacoliK-12MG1655completegenome.ACCESSIONU00096KEYWORDS.SOURCEEscherichiacoli.ORGANISMEscherichiacoliBacteria;Proteobacteria;gammasubdivision;Enterobacteriaceae;Escherichia.REFERENCE1(bases1to4639221)AUTHORSBlattner,F.R.,Plunkett,G.III,Bloch,C.A.,Perna,N.T.,Burland,V.,…TITLEThecompletegenomesequenceofEscherichiacoliK-12JOURNALScience277(5331),1453-1474(1997)MEDLINE97426617…COMMENTThissequencewasdeterminedbytheE.coliGenomeProjectattheUniversityofWisconsin-Madison(FrederickR.Blattner,director).SupportedbyNIHgrantsHG00301andHG01428(fromHumanGenomeProjectandNCHGR).TheentiresequencewasindependentlydeterminedfromE.coliK-12strainMG1655.PredictedopenreadingframesweredeterminedusingGeneMarksoftware,kindlysuppliedby…實例:

E.colik-12全基因組序列文件FEATURESLocation/Qualifierssource1..4639221/organism="Escherichiacoli"/strain="K-12“/sub_strain="MG1655"/db_xref="taxon:562"promoter71..99/note="factorSigma70;predicted+1startat106"promoter104..132/note="factorSigma70;predicted+1startat139"promoter188..212/note="factorSigma32;predicted+1startat219"gene190..255/note="b0001"/gene="thrL"CDS190..255/gene="thrL"/function="leader;Aminoacidbiosynthesis:Threonine"/note="o21;100pctidenticaltoLPT_ECOLISW:P03059"/codon_start=1/transl_table=11/product="thr

operonleaderpeptide"/db_xref="PID:g1786182"/translation="MKRISTTITTTITITTGNGAG“…BASECOUNT1142136a1179433c1176775g1140877tORIGIN1agcttttcat

tctgactgca

acgggcaata

tgtctctgtg

tggattaaaa

aaagagtgtc61tgatagcagc

ttctgaactg

gttacctgcc

gtgagtaaat

taaaatttta

ttgacttagg121tcactaaata

ctttaaccaa

tataggcata

gcgcacagac

agataaaaat

tacagagtac181acaacatcca

tgaaacgcat

tagcaccacc

attaccacca

ccatcaccat

taccacaggt241aacggtgcgg

gctgacgcgt

acaggaaaca

cagaaaaaag

cccgcacctg

cagtgcggg301cttttttttt

cgaccaaagg

taacgaggta

acaaccatgc

gagtgttgaa

gttcggcggt361acatcagtgg

caaatgcaga

acgttttctg

cgtgttgccg

atattctgga

aagcaatgcc421aggcaggggc

aggtggccac

cgtcctctct

gcccccgcca

aaatcaccaa

ccacctggtg……4639021caacatcaac

tgcaagcttt

acgcgaacga

gccatgacat

tgctgacgac

tctggcagtg4639081gcagatgaca

taaaactggt

cgactggtta

caacaacgcc

tggggctttt

agagcaacga4639141gacacggcaa

tgttgcaccg

tttgctgcat

gatattgaaa

aaaatatcac

caaataaaaa4639201acgccttagt

aagtatttttc//EMBL是最早的DNA序列數(shù)據(jù)庫,于1982年建立。

EMBL的數(shù)據(jù)來源主要有兩條途徑:

一是由序列發(fā)現(xiàn)者直接提交。幾乎所有的國際權(quán)威生物學刊物都要求作者在文章發(fā)表之前將所測定的序列提交給EMBL、GenBank或DDBJ,得到數(shù)據(jù)庫管理系統(tǒng)所簽發(fā)的登錄注冊號。二是從生物醫(yī)學期刊上收錄已經(jīng)發(fā)表的序列資料。EMBL數(shù)據(jù)庫簡介德國海德堡歐洲分子生物學實驗室EMBL(EuropeanMolecularBiologyLaboratory)創(chuàng)建于1974年,是一所非營利性的分子生物學研究機構(gòu),由27個歐洲會員國及澳大利亞(準會員國)資助。該實驗室在歐洲共有5處分站:位于德國海德堡的主實驗室、設在英國Hinxton的歐洲生物信息學研究所(EBI)、以及位于法國格勒諾布爾(Grenoble)、德國漢堡(Hamburg)、以及意大利蒙特羅頓多(Monterotondo)的分站。EBI維護并發(fā)布EMBL核酸序列數(shù)據(jù)庫—歐洲的主要核酸序列數(shù)據(jù)資源。英國辛克斯頓IDU00096standard;circulargenomicDNA;CON;4639221BP.ACU00096;SVU00096.1DT24-JUL-2003(Rel.76,Lastupdated,Version3)DEEscherichiacoliK-12MG1655completegenome.KW.OSEscherichiacoliK12OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;OCEnterobacteriaceae;Escherichia;Escherichiacoli.RN[1]RP1-4639221RXMEDLINE;97426617.RXPUBMED;9278503.RABlattnerF.R.,PlunkettG.III,BlochC.A.,PernaN.T.,BurlandV.,…RT"ThecompletegenomesequenceofEscherichiacoliK-12";RLScience277(5331):1453-1474(1997).DRGOA;O32528.DRREMTREMBL;AAC74436;AAC74436.DRSPTREMBL;O32530;O32530.DRSWISS-PROT;O32528;YPDI_ECOLI.…CCThissequencewasdeterminedbytheE.coliGenomeProjectattheCCUniversityofWisconsin-Madison(FrederickR.Blattner,director).CCSupportedbyNIHgrantsHG00301andHG01428(fromtheHumanGenomeCCProjectandNCHGR).TheentiresequencewasindependentlyCCdeterminedfromE.coliK-12strainMG1655.PredictedopenreadingCCframesweredeterminedusingGeneMarksoftware,kindlysuppliedby…FHKeyLocation/QualifiersFTsource1..4639221FT/db_xref="taxon:83333"FT/mol_type="genomicDNA"FT/organism="EscherichiacoliK12"FT/strain="K12"FT/sub_strain="MG1655"FTpromoter71..99FT/note="factorSigma70;predicted+1startat106"…FTCDS190..255FT/codon_start=1FT/db_xref="GOA:P03059"FT/db_xref="SWISS-PROT:P03059"FT/note="o21;100pctidenticaltoLPT_ECOLISW:P03059"FT/transl_table=11FT/gene="thrL"FT/function="leader;Aminoacidbiosynthesis:Threonine"FT/product="thr

operonleaderpeptide"FT/protein_id="AAC73112.1"FT/translation="MKRISTTITTTITITTGNGAG“…關于序列的注釋信息序列特征表子項序列特征表起始SQSequence4639221BP;1142136A;1179433C;1176775G;1140877T;0other;

agcttttcat

tctgactgca

acgggcaata

tgtctctgtg

tggattaaaa

aaagagtgtc60

tgatagcagc

ttctgaactg

gttacctgcc

gtgagtaaat

taaaatttta

ttgacttagg120

tcactaaata

ctttaaccaa

tataggcata

gcgcacagac

agataaaaat

tacagagtac180

acaacatcca

tgaaacgcat

tagcaccacc

attaccacca

ccatcaccat

taccacaggt240

aacggtgcgg

gctgacgcgt

acaggaaaca

cagaaaaaag

cccgcacctg

acagtgcggg300

cttttttttt

cgaccaaagg

taacgaggta

acaaccatgc

gagtgttgaa

gttcggcggt360

acatcagtgg

caaatgcaga

acgttttctg

cgtgttgccg

atattctgga

aagcaatgcc420

aggcaggggc

aggtggccac

cgtcctctct

gcccccgcca

aaatcaccaa

ccacctggtg480

gcgatgattg

aaaaaaccat

tagcggccag

gatgctttac

ccaatatcag

cgatgccgaa540…

tattgctatc

aattagcaac

attaatacaa

caaccggcga

aaagtgatgc

aacggcagac4639020

caacatcaac

tgcaagcttt

acgcgaacga

gccatgacat

tgctgacgac

tctggcagtg4639080

gcagatgaca

taaaactggt

cgactggtta

caacaacgcc

tggggctttt

agagcaacga4639140

gacacggcaa

tgttgcaccg

tttgctgcat

gatattgaaa

aaaatatcac

caaataaaaa4639200

acgccttagt

aagtatttttc4639221//GenBank和EMBL數(shù)據(jù)庫的主要內(nèi)容和格式:

序列名稱、長度、日期;序列說明、編號、版本號;物種來源、學名、分類學位置;相關文獻作者、題目、刊物、日期;序列特征表;堿基組成;序列(每行60個堿基)。

GenBank和EMBL數(shù)據(jù)庫的格式比較EMBL標識字GenBank標識字含義IDLOCUS序列名稱DEDEFINITION序列簡單說明ACACCESSION唯一的序列編號SVVERSION序列版本號KWKEYWORDS與序列相關的關鍵詞OSSOURCE序列來源的物種名OCORGANISM序列來源的物種學名和分類學位置DT建立日期RNREFERENCE相關文獻編號或提交注冊信息RAAUTHORS相關文獻作者或提交序列作者RTTITLE相關文獻題目RLJOURNAL相關文獻刊物名或作者單位RXMEDLINE相關文獻Medline引文代碼RCREMARK相關文獻注釋RP相關文獻其它注釋CCCOMMENT關于序列的注釋信息DR相關數(shù)據(jù)庫交叉引用號FHFEATURES序列特征表起始FT序列特征表子項SQBASECONTENT序列長度、堿基數(shù)目統(tǒng)計數(shù)空格ORIGIN序列////序列結(jié)束標志、空行頭部特性序列(二)蛋白質(zhì)序列數(shù)據(jù)庫

PIRUniProt目前國際上比較權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫,2002年由TrEMBL(EuropeanBioinformaticsInstitute,EBI)和Swiss-Prot(SwissInstituteofBioinformatics,SIB)合并形成。數(shù)據(jù)來源于:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導而來;(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù);(3)從科學文獻中摘錄;(4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。

http:///UniProt

PIR是由美國生物醫(yī)學基金會NBRF(NationalBiomedicalResearchFoundation)于1984年建立的。目的:

幫助研究者鑒別和解釋蛋白質(zhì)序列信息,研究分子進化、功能基因組。它是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進行了分類。(http:///pir/)PIR(ProteinInformationResource)除了蛋白質(zhì)序列數(shù)據(jù)之外,PIR還包含以下信息:

(1)蛋白質(zhì)名稱、蛋白質(zhì)的分類、蛋白質(zhì)的來源;(2)關于原始數(shù)據(jù)的參考文獻;(3)蛋白質(zhì)功能和蛋白質(zhì)的一般特征,包括基因表達、翻譯后處理、活化等;(4)序列中相關的位點、功能區(qū)域。PIR提供三種類型的檢索服務:一、基于文本的交互式查詢,用戶通過關鍵字進行數(shù)據(jù)查詢。二、標準的序列相似性搜索,包括BLAST、Fasta等。三、結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等。隨著核酸測序技術的迅速發(fā)展,人類已經(jīng)得到一部分生物的全基因組數(shù)據(jù),如人、小鼠、大鼠等。這些數(shù)據(jù)對于我們認識基因組信息的奧秘、了解生物體的生長發(fā)育的規(guī)律是非常重要的。GDB人類基因組數(shù)據(jù)庫SGD酵母基因組數(shù)據(jù)庫MGD鼠基因組數(shù)據(jù)庫FlyBase果蠅基因組數(shù)據(jù)庫WormBase線蟲基因組數(shù)據(jù)庫。。。。。。。。Ensembl綜合基因組數(shù)據(jù)庫(三)基因組數(shù)據(jù)庫GDB-人類基因組數(shù)據(jù)庫—TheGenomeDatabase美國JohnsHopkins大學于1990年建立的,現(xiàn)由加拿大兒童醫(yī)院生物信息中心負責管理。目前GDB包含對下述三種對象的描述:

1.人類基因組區(qū)域

2.人類基因組圖譜3.人類基因組中的變化

包括基因、克隆、PCR標記物、斷點、細胞遺傳學標記、易碎位點、EST、綜合區(qū)域、contigs、重復等;包含細胞遺傳學圖譜、連接圖譜、輻射混合圖譜、contig

圖譜、集成圖譜,所有這些圖譜都可以被直觀地顯示出來;包括基因突變和基因多態(tài)性,加上等位基因頻率數(shù)據(jù)。Ensembl數(shù)據(jù)庫

Ensembl是一個綜合基因組數(shù)據(jù)庫,它是由EBI和Sanger研究所共同開發(fā)的一個系統(tǒng)。

Ensembl包括所有公開的人類基因組DNA序列,通過注釋形成的關于序列的特征?,F(xiàn)在包括其他基因組,如大鼠、小鼠、線蟲、果蠅等。Ensembl數(shù)據(jù)庫還提供疾病、細胞等方面的信息,并且提供數(shù)據(jù)搜索、數(shù)據(jù)下載、統(tǒng)計分析等服務。Ensembl數(shù)據(jù)庫結(jié)構(gòu)圖Ensembl提供多種查詢方式:

通過關鍵字查詢;用BLAST進行相似序列的搜索;另一種更直觀的方式是顯示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論