數據庫-p第二章_第1頁
數據庫-p第二章_第2頁
數據庫-p第二章_第3頁
數據庫-p第二章_第4頁
數據庫-p第二章_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

教學http:/

/kech/sw

/華農主頁-南湖教苑-精品課程-國家精品課程-2007年國家精品課程-生物信息學參考DavidW.

Mount.

Bioinformatics:

SequenceandGenome ysis.(2nd

edition)NewYork:

Cold

Spring

Harbor

LaboratoryPress,

2004.等譯,生物信息學(第一版),高等教育

,2003。參考

崗、 ,生物信息學:方法與實踐,科學

,2002。A.

D.

Boxevanis

and

B.

F.

F.

Ouellette.Bioinformatics:

A

Practical

Guidetotheysis

of

Genes

and

Proteins.(3rdedition)

New

York:

Wile-Interscience,2004.了解各種生物數據庫掌握利用Internet上的各種數據庫、

,查找生物相關信息,分析和解釋各種生物數據。學習本課程的目的Sequenceysisysis

of

gene

expressionysis

of

regulationPrediction

of

protein

structureGenomeannotationComparative

genomics數據庫(Database)?、加工、發(fā)布和檢用于收集、整理、索數據的系統(tǒng)。生物類的數據庫種類很多(序列、結構、生物分子互作、其它)投稿文章首先要將核苷酸序列或蛋白質序列提交到相應的數據庫中數據庫(Database)?數據庫記錄通常包括兩部分原始數據對這些數據進行的生物學意義的注釋一個數據庫通常 了多個相關數據庫核苷酸數據庫-水稻抗病相關

OsDR8Taxonomy

數據庫Pubmed

數據庫NCBI-Protein

數據庫DQ176424ContentsBackground

(背景)Bioinformatics

Links(數據庫)Bioinformatics

Centres

(重要生物信息中心)數據庫和序列的格式數據庫檢索工具數據庫組數據庫(GDB,

ACeDB)結構數據庫(PDB,NDB)蛋白質序列數據庫(EMBL,SWISSPROT,PIR)核苷酸數據庫(GENBANK,DDBJ,EMBL)圖譜數據庫Bioinformatics生物信息學History1975-77

Sanger

and

his

colleagues

developed

rapid

DNA

sequencing

methods.--1977

introns

discovery--

1982

Databases

(GenBank,

KEGG)--1987 human

genetic

map1990

Launch

of

the

Human

Genome

Project--1992

2-nd

generation

map

of

human

genome--

1993

new

HGP

fiveyear

plan--

1994

Detailed

human

geneticmap--

1995

Twomicrobial

genomes

sequenced

physical

map

of

human

genome

completed--

1996

meeting

of

human

genome

sequenceMouse

genetic

mapA

eukaryote-

yeast

genome

sequenced--1997

E.coli

genome

sequenced--1998

HGP

includes

map

30.000human

genesNew

HGP

goals

for

2003Round

worm ans

sequenced--1999

Full-Scale

sequenced

beginchromosome222000

Fruit

fly

genomesequencedchromosome21--

2003

Planned

completing

of

human

sequencingMouse

working

draft--

2004

Mouse

sequencing

obtained1970’s

+1990’s

+2000+Half

dayontheweb,savesyouhalfmonthin

thelab.-

AlanBleasby數據庫的建設和發(fā)展GenomicGenomicExperimentalDataWarehousePrepareddataPatternsKnowledgeExpertKnowledgeOften

notexplicitlyimplemented生物數據庫的種類數據庫(一)數據庫工具建立純文本數據庫GenBank

數據庫、EMBL

核苷酸數據庫

SQL(結構化查詢語言)是世界上流行的和標準化的數據庫語言記錄文件和圖像能夠快速靈活MySQLhttp://d/SQL數據庫工具Access

OracleAceDB

數據庫工具AceDB:A

C.elegans

DataBase

(線蟲數據庫)組數據的工具G181L10440.420.84RM2240.21R15060.21Xa261.470.000.63NBS119RM144Y6855RAS128860.0011被廣泛應用的管理和提供數據形式豐富遺傳圖譜物理圖譜新陳代謝途徑1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactg

agaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataatttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(一)數據庫工具(二)各種生物數據庫1、核苷酸數據庫DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接來源于實驗數據大量氨基酸序列主要是非實驗來源數據coding

sequence

(CDS)EXONINTRONCDS(coding

sequence)1、核苷酸數據庫ORF

(open

reading

frame)真核生物

結構1、核苷酸數據庫三大核苷酸數據庫GenBank、EMBL核苷酸數據庫、DDBJ信息資源共享:以天為基礎進行數據庫之間的序列專利核苷酸序列United

States

Patent

and

Trademark

Office

(USPTO)European

Patent

Office

(EPO)Japan

Patent

Office

(JPO)1、核苷酸數據庫GenBankNCBI的核苷酸數據庫,包括部分蛋白質序列數據每天更新,每年 六版releaseftp://ftp.ncbi.nih.

/genbank/gbrel.txtRelease

178(2010.6.15)120,604,423sequences115,624,497,715

bases來源于370,000多個物種大約12%的序列來源于人(Homosapiens)Nucleic

Acids

Res.

2009;37(Database

issue):D26-31(1)GenBank……號或登陸號)每個序列有一個flatfile每條序列有三個專有的Locus

name(位點名)Accession

number

(GI(GenInfo

identifier)或標識(identifier)Sample

record(1)GenBank(1)GenBankThedivisionsofGenBankPRI

-

primate

sequencesROD

-

rodent

sequencesMAM

-

other

mammalian

sequencesVRT

-

other

vertebrate

sequencesINV

-

invertebrate

sequencesPLN

-

plant,

fungal,

and

algal

sequencesBCT

-

bacterial

sequencesVRL

-

viral

sequencesPHG

-

bacteriophage

sequencesSYN

-

synthetic

sequencesUNA

-

unannotated

sequencesEST

-

EST

sequences

(expressed

sequence

tags)PAT

-

patent

sequencesSTS

-

STS

sequences

(sequence

tagged

sites)GSS

-

GSS

sequences

(genome

survey

sequences)HTG

-

HTG

sequences

(high-throughput

genomic

sequences)HTC

-

unfinished

high-throughput

cDNA

sequencingENV

-

environmental

sampling

sequences(2)EST數據庫dbEST

(Database

of

Expressed

Sequence

Tags)GenBank的二級數據庫5’端或3’端的cDNA

序列(EST)200-500

bp“Single-pass

read”sequenceGenBank

中60%以上的序列是EST(3)UniGene數據庫UniGeneNCBI

的另一個核苷酸數據庫來源于同一

的非重復

EST

組成

序列群鼠、小鼠、斑馬魚、牛、豬等擬南芥、水稻、小麥、大麥、玉米等共計100多個物種UniGene主頁輸入

檢索(4)STS數據庫dbSTS

(Database

of

Sequence

Tagged

Sites)GenBank的二級數據庫

UniSTS短序列(200-500

bp),僅在

組中出現一次已定位于

如何找到一個STS檢索:NCBI主頁選擇UniSTS后輸入檢索到的條目

每一條目詳細內容點擊“map

viewer”查看

定位(4)STS數據庫contigScience

1989;245:1434-5.(5)GSS數據庫dbGSS

(Database

of

Genome

Survey

Sequences)片段的末端序列GenBank的二級數據庫組短序列cosmid/BAC/YAC

外源Alu

PCR

序列cosmid

/

BAC

/

YACHTGS

(High-Throughput

Genomic

Sequences)GenBank

的二級數據庫尚未完成

的 群(>

2

kb)的序列新序列的增加速度很快組 過程中(Phase

0、1、2)產生的過渡數據(6)HTGS數據庫Nature,

409,

860-921Phase2Unfinished,

ordered,

orientedcontigs,

with

or

without

gapsPhase3Finished,

no

gaps

(with

orwithout

annotations)one-to-fePhase0ss

readsof

asingle

clone

(not

contigs)Phase1Unfinished,

may

be

unordered,unoriented

contigs,

with

gaps鳥槍法(shotgun)流程水稻 組全 組大小:430Mb;每個Reads

讀長450bp;故覆蓋每個水稻

組所需反應:100萬;覆蓋水稻 組8X,需要800萬反應;每個反應的15200萬成本為19元,800萬反應總共需;人力費800萬。中國水稻組計劃的經費Genomesequencing: QUICKER,

SMALLER,

CHE

RX

PRIZE

FoundationNature

2008,

452:788GenomeNCBI

的另一個數據庫

完成和正在 物種物理圖等序列收集在GenBank組序列、遺傳圖、已經完成

的 組(截止2010年8月)Genome

Project——Statistics(7)組數據庫dbSNP

(Database

of

Single

Nucleotide

Polymorphisms)NCBI的數據庫,創(chuàng)建于1998.9約每300

bp

有一個SNP數據種類SNPInsertion/deletion

(Indel)Deletion/insertion/substitution

(DIS)發(fā)現致病 、進化分析…(8)單核苷酸多態(tài)性數據庫dbSNP主頁輸入檢索到的條目每一條目詳細內容代碼堿基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C標準堿基多意代碼(8)單核苷酸多態(tài)性數據庫(9)EMBL

(European

Molecular

Biology

Laboratory)Nucleotide

Sequence

DatabaseEBI

(European

Bioinformatics

Institute)

管理與GenBank收集的數據相同序列數據文檔格式與GenBank

不同數據庫主頁 輸入檢索到的條目每一條目詳細內容(10)DDBJ

(DNA

Data

Bank

ofJapan)與GenBank收集的序列數據相同

e-e.html數據庫主頁輸入檢索到的條目每一條目詳細內容文章要提供Accession

number(在三大核苷酸數據庫中通用)EPD

(Eukaryotic

Promoter

Database)由Weizmann

Institute

of

Science

in

Rehovot(Israel)

開創(chuàng)4806條真核生物啟動子序列(2009.6)人類 組中的啟動子大約19萬個同一個 具有多個啟動子(11)啟動子數據庫(12)miRNA數據庫miRBase收集了>14000條hairpin

precursormiRNA

序列(2010.4)來源于>100個物種可以通過miRNA名、

、位置等檢索數據庫分析一條DNA序列中是否可能包含miRNA2、蛋白質數據庫UniPROT由EBI

和SIB創(chuàng)辦分為兩個部分:來源于實驗的有詳細注釋的序列(SwissProt)和自動注釋序列(TrEMBL)與110個數據庫相互參照(cross-reference)可用

(Text

search)和序列比對(BLAST

similarity

search)進行檢索數據庫主頁,使用檢索結果頁面,reviewed(Swiss-Prot),unreviewed

(TrEMBL)Browse

bytaxonomy,keyword,

geneontology,

enzymeclassor

pathway條目詳細內容(1)UniPROT(2)其它類型的蛋白質數據庫PIR

(Protein

Information

Resource)蛋白質

分類蛋白質整合信息Prosite蛋白質結構域3、結構數據庫(1)PDB

(Protein

Data

Bank)由Brookhaven

National

Laboratories

創(chuàng)辦67,131個結構圖(2010.8)蛋白質核酸其它可通過BLAST

系統(tǒng)檢索X

射線衍射圖、

核磁 (NMR)

光譜圖和電鏡圖(文字和三維結構圖)(1)

PDB

(Protein

Data

Bank)(2)SWISS-3D

IMAGE蛋白質的平面和

圖來源于實驗結果理論模型4、酶和代謝數據庫KEGG

(Kyoto

Encyclopedia

of

Genes

andGenomes)各種代謝、遺傳等路徑圖可檢索參于各種路徑的KEGG主頁點擊“PATHWAY”“PATHWAY”網頁點擊任何代謝路徑,如糖酵解/糖原異生途徑(Glycolysis/Gluconeogenesis)檢索Genetic

Information

ProcessingKEGG主頁點擊“PATHWAY”“PATHWAY”網頁點擊任何遺傳信息路徑,如Protein

export

路徑可以查看參加這一路徑蛋白質的信息KEGG數據庫KEGG數據庫檢索Environmental

Information

ProcessingKEGG主頁點擊“PATHWAY”“PATHWAY”網頁點擊任何EnvironmentalInformation

Processing

路徑,如MAPK

signaling

pathway

路徑可以查看與這一路徑相連的其它信號路徑或參加這一路徑的蛋白質信息檢索Cellular

ProcessesKEGG主頁點擊“PATHWAY”“PATHWAY”網頁點擊任何Cellular

Processes路徑,如Cell

cycle

路徑可以查看與這一路徑相連的其它信號路徑或參加這一路徑的蛋白質信息KEGG數據庫5、物種分類數據庫物種分類界(Kingdom)門(Phylum)綱(Class)目(Order)科(Family)屬(Genus)種(Species)每一分類等級下可加設亞級(Sub-),如亞門、亞綱、亞科等。每一分類等級上可加設總級(Super-),如總綱、總目、總科等。Mouse:Mus

musculus動物界(Animal)脊索動物門(Chordata)脊椎動物亞門(Vertebrata)哺乳綱(Mammalia)嚙齒目(Rodentia)鼠科(Muridae)

小家鼠屬(Mus)小家鼠種(musculus)擬南芥系譜(lineage)查找某一物種的系譜樹在NCBI

Taxonomy

主頁輸入物種名稱“pig”lineageTaxonomy數據庫6、文獻數據庫(1)國家醫(yī)學 館的數據庫醫(yī)學、分子生物學、基礎生物學5400多種 ,來源于80多個國家文獻年限:1947年至今提供 ,全文免費全文收集在(2)其它類型的文獻數據庫OMIM

(Online

Mendelian

Inheritance

in

Man)NCBI

的數據庫,每天更新數據人類 、遺傳疾病名稱Agricola農部農業(yè)農業(yè)類館的數據庫輸入疾病、條目7、向數據庫提交和修改核苷酸和蛋白質序列提交:Submission修改:Update數據庫中的數據由大家無償提供,共同Accuracy??(1)向GenBank提交或修改核苷酸序列在GenBank主頁用BankIt

功能提交序列網上直接提交,簡單方便提交后立刻得到臨時二天內得到Accession

number用Sequin方法提交序列可 的電子表格自動確定CDS、ORF

和查找重復序列用Update

功能修改GenBank

中的序列和相關信息修改一次,version

的 就進一位Accession

number不變OldNew(2)向SWISS-PROT

提交或修改蛋白質序列網上直接操作只接收用蛋白質直接 的序列由核苷酸序列翻譯得到的蛋白質序列將進入TrEMBL上機操作熟悉各種數據庫重點了解GenBank

和SWISS-PROT的各種功能和適用范圍Xa26

nucleic

acid

sequence

(DQ426646,6000

bp):…ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAA

ATCT

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論