數(shù)據(jù)庫(kù)-p第二章_第1頁(yè)
數(shù)據(jù)庫(kù)-p第二章_第2頁(yè)
數(shù)據(jù)庫(kù)-p第二章_第3頁(yè)
數(shù)據(jù)庫(kù)-p第二章_第4頁(yè)
數(shù)據(jù)庫(kù)-p第二章_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

教學(xué)http:/

/kech/sw

/華農(nóng)主頁(yè)-南湖教苑-精品課程-國(guó)家精品課程-2007年國(guó)家精品課程-生物信息學(xué)參考DavidW.

Mount.

Bioinformatics:

SequenceandGenome ysis.(2nd

edition)NewYork:

Cold

Spring

Harbor

LaboratoryPress,

2004.等譯,生物信息學(xué)(第一版),高等教育

,2003。參考

崗、 ,生物信息學(xué):方法與實(shí)踐,科學(xué)

,2002。A.

D.

Boxevanis

and

B.

F.

F.

Ouellette.Bioinformatics:

A

Practical

Guidetotheysis

of

Genes

and

Proteins.(3rdedition)

New

York:

Wile-Interscience,2004.了解各種生物數(shù)據(jù)庫(kù)掌握利用Internet上的各種數(shù)據(jù)庫(kù)、

,查找生物相關(guān)信息,分析和解釋各種生物數(shù)據(jù)。學(xué)習(xí)本課程的目的Sequenceysisysis

of

gene

expressionysis

of

regulationPrediction

of

protein

structureGenomeannotationComparative

genomics數(shù)據(jù)庫(kù)(Database)?、加工、發(fā)布和檢用于收集、整理、索數(shù)據(jù)的系統(tǒng)。生物類(lèi)的數(shù)據(jù)庫(kù)種類(lèi)很多(序列、結(jié)構(gòu)、生物分子互作、其它)投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)的數(shù)據(jù)庫(kù)中數(shù)據(jù)庫(kù)(Database)?數(shù)據(jù)庫(kù)記錄通常包括兩部分原始數(shù)據(jù)對(duì)這些數(shù)據(jù)進(jìn)行的生物學(xué)意義的注釋一個(gè)數(shù)據(jù)庫(kù)通常 了多個(gè)相關(guān)數(shù)據(jù)庫(kù)核苷酸數(shù)據(jù)庫(kù)-水稻抗病相關(guān)

OsDR8Taxonomy

數(shù)據(jù)庫(kù)Pubmed

數(shù)據(jù)庫(kù)NCBI-Protein

數(shù)據(jù)庫(kù)DQ176424ContentsBackground

(背景)Bioinformatics

Links(數(shù)據(jù)庫(kù))Bioinformatics

Centres

(重要生物信息中心)數(shù)據(jù)庫(kù)和序列的格式數(shù)據(jù)庫(kù)檢索工具數(shù)據(jù)庫(kù)組數(shù)據(jù)庫(kù)(GDB,

ACeDB)結(jié)構(gòu)數(shù)據(jù)庫(kù)(PDB,NDB)蛋白質(zhì)序列數(shù)據(jù)庫(kù)(EMBL,SWISSPROT,PIR)核苷酸數(shù)據(jù)庫(kù)(GENBANK,DDBJ,EMBL)圖譜數(shù)據(jù)庫(kù)Bioinformatics生物信息學(xué)History1975-77

Sanger

and

his

colleagues

developed

rapid

DNA

sequencing

methods.--1977

introns

discovery--

1982

Databases

(GenBank,

KEGG)--1987 human

genetic

map1990

Launch

of

the

Human

Genome

Project--1992

2-nd

generation

map

of

human

genome--

1993

new

HGP

fiveyear

plan--

1994

Detailed

human

geneticmap--

1995

Twomicrobial

genomes

sequenced

physical

map

of

human

genome

completed--

1996

meeting

of

human

genome

sequenceMouse

genetic

mapA

eukaryote-

yeast

genome

sequenced--1997

E.coli

genome

sequenced--1998

HGP

includes

map

30.000human

genesNew

HGP

goals

for

2003Round

worm ans

sequenced--1999

Full-Scale

sequenced

beginchromosome222000

Fruit

fly

genomesequencedchromosome21--

2003

Planned

completing

of

human

sequencingMouse

working

draft--

2004

Mouse

sequencing

obtained1970’s

+1990’s

+2000+Half

dayontheweb,savesyouhalfmonthin

thelab.-

AlanBleasby數(shù)據(jù)庫(kù)的建設(shè)和發(fā)展GenomicGenomicExperimentalDataWarehousePrepareddataPatternsKnowledgeExpertKnowledgeOften

notexplicitlyimplemented生物數(shù)據(jù)庫(kù)的種類(lèi)數(shù)據(jù)庫(kù)(一)數(shù)據(jù)庫(kù)工具建立純文本數(shù)據(jù)庫(kù)GenBank

數(shù)據(jù)庫(kù)、EMBL

核苷酸數(shù)據(jù)庫(kù)

SQL(結(jié)構(gòu)化查詢(xún)語(yǔ)言)是世界上流行的和標(biāo)準(zhǔn)化的數(shù)據(jù)庫(kù)語(yǔ)言記錄文件和圖像能夠快速靈活MySQLhttp://d/SQL數(shù)據(jù)庫(kù)工具Access

OracleAceDB

數(shù)據(jù)庫(kù)工具AceDB:A

C.elegans

DataBase

(線(xiàn)蟲(chóng)數(shù)據(jù)庫(kù))組數(shù)據(jù)的工具G181L10440.420.84RM2240.21R15060.21Xa261.470.000.63NBS119RM144Y6855RAS128860.0011被廣泛應(yīng)用的管理和提供數(shù)據(jù)形式豐富遺傳圖譜物理圖譜新陳代謝途徑1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactg

agaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataatttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(一)數(shù)據(jù)庫(kù)工具(二)各種生物數(shù)據(jù)庫(kù)1、核苷酸數(shù)據(jù)庫(kù)DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接來(lái)源于實(shí)驗(yàn)數(shù)據(jù)大量氨基酸序列主要是非實(shí)驗(yàn)來(lái)源數(shù)據(jù)coding

sequence

(CDS)EXONINTRONCDS(coding

sequence)1、核苷酸數(shù)據(jù)庫(kù)ORF

(open

reading

frame)真核生物

結(jié)構(gòu)1、核苷酸數(shù)據(jù)庫(kù)三大核苷酸數(shù)據(jù)庫(kù)GenBank、EMBL核苷酸數(shù)據(jù)庫(kù)、DDBJ信息資源共享:以天為基礎(chǔ)進(jìn)行數(shù)據(jù)庫(kù)之間的序列專(zhuān)利核苷酸序列United

States

Patent

and

Trademark

Office

(USPTO)European

Patent

Office

(EPO)Japan

Patent

Office

(JPO)1、核苷酸數(shù)據(jù)庫(kù)GenBankNCBI的核苷酸數(shù)據(jù)庫(kù),包括部分蛋白質(zhì)序列數(shù)據(jù)每天更新,每年 六版releaseftp://ftp.ncbi.nih.

/genbank/gbrel.txtRelease

178(2010.6.15)120,604,423sequences115,624,497,715

bases來(lái)源于370,000多個(gè)物種大約12%的序列來(lái)源于人(Homosapiens)Nucleic

Acids

Res.

2009;37(Database

issue):D26-31(1)GenBank……號(hào)或登陸號(hào))每個(gè)序列有一個(gè)flatfile每條序列有三個(gè)專(zhuān)有的Locus

name(位點(diǎn)名)Accession

number

(GI(GenInfo

identifier)或標(biāo)識(shí)(identifier)Sample

record(1)GenBank(1)GenBankThedivisionsofGenBankPRI

-

primate

sequencesROD

-

rodent

sequencesMAM

-

other

mammalian

sequencesVRT

-

other

vertebrate

sequencesINV

-

invertebrate

sequencesPLN

-

plant,

fungal,

and

algal

sequencesBCT

-

bacterial

sequencesVRL

-

viral

sequencesPHG

-

bacteriophage

sequencesSYN

-

synthetic

sequencesUNA

-

unannotated

sequencesEST

-

EST

sequences

(expressed

sequence

tags)PAT

-

patent

sequencesSTS

-

STS

sequences

(sequence

tagged

sites)GSS

-

GSS

sequences

(genome

survey

sequences)HTG

-

HTG

sequences

(high-throughput

genomic

sequences)HTC

-

unfinished

high-throughput

cDNA

sequencingENV

-

environmental

sampling

sequences(2)EST數(shù)據(jù)庫(kù)dbEST

(Database

of

Expressed

Sequence

Tags)GenBank的二級(jí)數(shù)據(jù)庫(kù)5’端或3’端的cDNA

序列(EST)200-500

bp“Single-pass

read”sequenceGenBank

中60%以上的序列是EST(3)UniGene數(shù)據(jù)庫(kù)UniGeneNCBI

的另一個(gè)核苷酸數(shù)據(jù)庫(kù)來(lái)源于同一

的非重復(fù)

EST

組成

序列群鼠、小鼠、斑馬魚(yú)、牛、豬等擬南芥、水稻、小麥、大麥、玉米等共計(jì)100多個(gè)物種UniGene主頁(yè)輸入

檢索(4)STS數(shù)據(jù)庫(kù)dbSTS

(Database

of

Sequence

Tagged

Sites)GenBank的二級(jí)數(shù)據(jù)庫(kù)

UniSTS短序列(200-500

bp),僅在

組中出現(xiàn)一次已定位于

如何找到一個(gè)STS檢索:NCBI主頁(yè)選擇UniSTS后輸入檢索到的條目

每一條目詳細(xì)內(nèi)容點(diǎn)擊“map

viewer”查看

定位(4)STS數(shù)據(jù)庫(kù)contigScience

1989;245:1434-5.(5)GSS數(shù)據(jù)庫(kù)dbGSS

(Database

of

Genome

Survey

Sequences)片段的末端序列GenBank的二級(jí)數(shù)據(jù)庫(kù)組短序列cosmid/BAC/YAC

外源Alu

PCR

序列cosmid

/

BAC

/

YACHTGS

(High-Throughput

Genomic

Sequences)GenBank

的二級(jí)數(shù)據(jù)庫(kù)尚未完成

的 群(>

2

kb)的序列新序列的增加速度很快組 過(guò)程中(Phase

0、1、2)產(chǎn)生的過(guò)渡數(shù)據(jù)(6)HTGS數(shù)據(jù)庫(kù)Nature,

409,

860-921Phase2Unfinished,

ordered,

orientedcontigs,

with

or

without

gapsPhase3Finished,

no

gaps

(with

orwithout

annotations)one-to-fePhase0ss

readsof

asingle

clone

(not

contigs)Phase1Unfinished,

may

be

unordered,unoriented

contigs,

with

gaps鳥(niǎo)槍法(shotgun)流程水稻 組全 組大小:430Mb;每個(gè)Reads

讀長(zhǎng)450bp;故覆蓋每個(gè)水稻

組所需反應(yīng):100萬(wàn);覆蓋水稻 組8X,需要800萬(wàn)反應(yīng);每個(gè)反應(yīng)的15200萬(wàn)成本為19元,800萬(wàn)反應(yīng)總共需;人力費(fèi)800萬(wàn)。中國(guó)水稻組計(jì)劃的經(jīng)費(fèi)Genomesequencing: QUICKER,

SMALLER,

CHE

RX

PRIZE

FoundationNature

2008,

452:788GenomeNCBI

的另一個(gè)數(shù)據(jù)庫(kù)

完成和正在 物種物理圖等序列收集在GenBank組序列、遺傳圖、已經(jīng)完成

的 組(截止2010年8月)Genome

Project——Statistics(7)組數(shù)據(jù)庫(kù)dbSNP

(Database

of

Single

Nucleotide

Polymorphisms)NCBI的數(shù)據(jù)庫(kù),創(chuàng)建于1998.9約每300

bp

有一個(gè)SNP數(shù)據(jù)種類(lèi)SNPInsertion/deletion

(Indel)Deletion/insertion/substitution

(DIS)發(fā)現(xiàn)致病 、進(jìn)化分析…(8)單核苷酸多態(tài)性數(shù)據(jù)庫(kù)dbSNP主頁(yè)輸入檢索到的條目每一條目詳細(xì)內(nèi)容代碼堿基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C標(biāo)準(zhǔn)堿基多意代碼(8)單核苷酸多態(tài)性數(shù)據(jù)庫(kù)(9)EMBL

(European

Molecular

Biology

Laboratory)Nucleotide

Sequence

DatabaseEBI

(European

Bioinformatics

Institute)

管理與GenBank收集的數(shù)據(jù)相同序列數(shù)據(jù)文檔格式與GenBank

不同數(shù)據(jù)庫(kù)主頁(yè) 輸入檢索到的條目每一條目詳細(xì)內(nèi)容(10)DDBJ

(DNA

Data

Bank

ofJapan)與GenBank收集的序列數(shù)據(jù)相同

e-e.html數(shù)據(jù)庫(kù)主頁(yè)輸入檢索到的條目每一條目詳細(xì)內(nèi)容文章要提供Accession

number(在三大核苷酸數(shù)據(jù)庫(kù)中通用)EPD

(Eukaryotic

Promoter

Database)由Weizmann

Institute

of

Science

in

Rehovot(Israel)

開(kāi)創(chuàng)4806條真核生物啟動(dòng)子序列(2009.6)人類(lèi) 組中的啟動(dòng)子大約19萬(wàn)個(gè)同一個(gè) 具有多個(gè)啟動(dòng)子(11)啟動(dòng)子數(shù)據(jù)庫(kù)(12)miRNA數(shù)據(jù)庫(kù)miRBase收集了>14000條hairpin

precursormiRNA

序列(2010.4)來(lái)源于>100個(gè)物種可以通過(guò)miRNA名、

、位置等檢索數(shù)據(jù)庫(kù)分析一條DNA序列中是否可能包含miRNA2、蛋白質(zhì)數(shù)據(jù)庫(kù)UniPROT由EBI

和SIB創(chuàng)辦分為兩個(gè)部分:來(lái)源于實(shí)驗(yàn)的有詳細(xì)注釋的序列(SwissProt)和自動(dòng)注釋序列(TrEMBL)與110個(gè)數(shù)據(jù)庫(kù)相互參照(cross-reference)可用

(Text

search)和序列比對(duì)(BLAST

similarity

search)進(jìn)行檢索數(shù)據(jù)庫(kù)主頁(yè),使用檢索結(jié)果頁(yè)面,reviewed(Swiss-Prot),unreviewed

(TrEMBL)Browse

bytaxonomy,keyword,

geneontology,

enzymeclassor

pathway條目詳細(xì)內(nèi)容(1)UniPROT(2)其它類(lèi)型的蛋白質(zhì)數(shù)據(jù)庫(kù)PIR

(Protein

Information

Resource)蛋白質(zhì)

分類(lèi)蛋白質(zhì)整合信息Prosite蛋白質(zhì)結(jié)構(gòu)域3、結(jié)構(gòu)數(shù)據(jù)庫(kù)(1)PDB

(Protein

Data

Bank)由Brookhaven

National

Laboratories

創(chuàng)辦67,131個(gè)結(jié)構(gòu)圖(2010.8)蛋白質(zhì)核酸其它可通過(guò)BLAST

系統(tǒng)檢索X

射線(xiàn)衍射圖、

核磁 (NMR)

光譜圖和電鏡圖(文字和三維結(jié)構(gòu)圖)(1)

PDB

(Protein

Data

Bank)(2)SWISS-3D

IMAGE蛋白質(zhì)的平面和

圖來(lái)源于實(shí)驗(yàn)結(jié)果理論模型4、酶和代謝數(shù)據(jù)庫(kù)KEGG

(Kyoto

Encyclopedia

of

Genes

andGenomes)各種代謝、遺傳等路徑圖可檢索參于各種路徑的KEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何代謝路徑,如糖酵解/糖原異生途徑(Glycolysis/Gluconeogenesis)檢索Genetic

Information

ProcessingKEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何遺傳信息路徑,如Protein

export

路徑可以查看參加這一路徑蛋白質(zhì)的信息KEGG數(shù)據(jù)庫(kù)KEGG數(shù)據(jù)庫(kù)檢索Environmental

Information

ProcessingKEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何EnvironmentalInformation

Processing

路徑,如MAPK

signaling

pathway

路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息檢索Cellular

ProcessesKEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何Cellular

Processes路徑,如Cell

cycle

路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息KEGG數(shù)據(jù)庫(kù)5、物種分類(lèi)數(shù)據(jù)庫(kù)物種分類(lèi)界(Kingdom)門(mén)(Phylum)綱(Class)目(Order)科(Family)屬(Genus)種(Species)每一分類(lèi)等級(jí)下可加設(shè)亞級(jí)(Sub-),如亞門(mén)、亞綱、亞科等。每一分類(lèi)等級(jí)上可加設(shè)總級(jí)(Super-),如總綱、總目、總科等。Mouse:Mus

musculus動(dòng)物界(Animal)脊索動(dòng)物門(mén)(Chordata)脊椎動(dòng)物亞門(mén)(Vertebrata)哺乳綱(Mammalia)嚙齒目(Rodentia)鼠科(Muridae)

小家鼠屬(Mus)小家鼠種(musculus)擬南芥系譜(lineage)查找某一物種的系譜樹(shù)在NCBI

Taxonomy

主頁(yè)輸入物種名稱(chēng)“pig”lineageTaxonomy數(shù)據(jù)庫(kù)6、文獻(xiàn)數(shù)據(jù)庫(kù)(1)國(guó)家醫(yī)學(xué) 館的數(shù)據(jù)庫(kù)醫(yī)學(xué)、分子生物學(xué)、基礎(chǔ)生物學(xué)5400多種 ,來(lái)源于80多個(gè)國(guó)家文獻(xiàn)年限:1947年至今提供 ,全文免費(fèi)全文收集在(2)其它類(lèi)型的文獻(xiàn)數(shù)據(jù)庫(kù)OMIM

(Online

Mendelian

Inheritance

in

Man)NCBI

的數(shù)據(jù)庫(kù),每天更新數(shù)據(jù)人類(lèi) 、遺傳疾病名稱(chēng)Agricola農(nóng)部農(nóng)業(yè)農(nóng)業(yè)類(lèi)館的數(shù)據(jù)庫(kù)輸入疾病、條目7、向數(shù)據(jù)庫(kù)提交和修改核苷酸和蛋白質(zhì)序列提交:Submission修改:Update數(shù)據(jù)庫(kù)中的數(shù)據(jù)由大家無(wú)償提供,共同Accuracy??(1)向GenBank提交或修改核苷酸序列在GenBank主頁(yè)用BankIt

功能提交序列網(wǎng)上直接提交,簡(jiǎn)單方便提交后立刻得到臨時(shí)二天內(nèi)得到Accession

number用Sequin方法提交序列可 的電子表格自動(dòng)確定CDS、ORF

和查找重復(fù)序列用Update

功能修改GenBank

中的序列和相關(guān)信息修改一次,version

的 就進(jìn)一位Accession

number不變OldNew(2)向SWISS-PROT

提交或修改蛋白質(zhì)序列網(wǎng)上直接操作只接收用蛋白質(zhì)直接 的序列由核苷酸序列翻譯得到的蛋白質(zhì)序列將進(jìn)入TrEMBL上機(jī)操作熟悉各種數(shù)據(jù)庫(kù)重點(diǎn)了解GenBank

和SWISS-PROT的各種功能和適用范圍Xa26

nucleic

acid

sequence

(DQ426646,6000

bp):…ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAA

ATCT

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論