版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
教學(xué)http:/
/kech/sw
/華農(nóng)主頁(yè)-南湖教苑-精品課程-國(guó)家精品課程-2007年國(guó)家精品課程-生物信息學(xué)參考DavidW.
Mount.
Bioinformatics:
SequenceandGenome ysis.(2nd
edition)NewYork:
Cold
Spring
Harbor
LaboratoryPress,
2004.等譯,生物信息學(xué)(第一版),高等教育
,2003。參考
崗、 ,生物信息學(xué):方法與實(shí)踐,科學(xué)
,2002。A.
D.
Boxevanis
and
B.
F.
F.
Ouellette.Bioinformatics:
A
Practical
Guidetotheysis
of
Genes
and
Proteins.(3rdedition)
New
York:
Wile-Interscience,2004.了解各種生物數(shù)據(jù)庫(kù)掌握利用Internet上的各種數(shù)據(jù)庫(kù)、
,查找生物相關(guān)信息,分析和解釋各種生物數(shù)據(jù)。學(xué)習(xí)本課程的目的Sequenceysisysis
of
gene
expressionysis
of
regulationPrediction
of
protein
structureGenomeannotationComparative
genomics數(shù)據(jù)庫(kù)(Database)?、加工、發(fā)布和檢用于收集、整理、索數(shù)據(jù)的系統(tǒng)。生物類(lèi)的數(shù)據(jù)庫(kù)種類(lèi)很多(序列、結(jié)構(gòu)、生物分子互作、其它)投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)的數(shù)據(jù)庫(kù)中數(shù)據(jù)庫(kù)(Database)?數(shù)據(jù)庫(kù)記錄通常包括兩部分原始數(shù)據(jù)對(duì)這些數(shù)據(jù)進(jìn)行的生物學(xué)意義的注釋一個(gè)數(shù)據(jù)庫(kù)通常 了多個(gè)相關(guān)數(shù)據(jù)庫(kù)核苷酸數(shù)據(jù)庫(kù)-水稻抗病相關(guān)
OsDR8Taxonomy
數(shù)據(jù)庫(kù)Pubmed
數(shù)據(jù)庫(kù)NCBI-Protein
數(shù)據(jù)庫(kù)DQ176424ContentsBackground
(背景)Bioinformatics
Links(數(shù)據(jù)庫(kù))Bioinformatics
Centres
(重要生物信息中心)數(shù)據(jù)庫(kù)和序列的格式數(shù)據(jù)庫(kù)檢索工具數(shù)據(jù)庫(kù)組數(shù)據(jù)庫(kù)(GDB,
ACeDB)結(jié)構(gòu)數(shù)據(jù)庫(kù)(PDB,NDB)蛋白質(zhì)序列數(shù)據(jù)庫(kù)(EMBL,SWISSPROT,PIR)核苷酸數(shù)據(jù)庫(kù)(GENBANK,DDBJ,EMBL)圖譜數(shù)據(jù)庫(kù)Bioinformatics生物信息學(xué)History1975-77
Sanger
and
his
colleagues
developed
rapid
DNA
sequencing
methods.--1977
introns
discovery--
1982
Databases
(GenBank,
KEGG)--1987 human
genetic
map1990
Launch
of
the
Human
Genome
Project--1992
2-nd
generation
map
of
human
genome--
1993
new
HGP
fiveyear
plan--
1994
Detailed
human
geneticmap--
1995
Twomicrobial
genomes
sequenced
physical
map
of
human
genome
completed--
1996
meeting
of
human
genome
sequenceMouse
genetic
mapA
eukaryote-
yeast
genome
sequenced--1997
E.coli
genome
sequenced--1998
HGP
includes
map
30.000human
genesNew
HGP
goals
for
2003Round
worm ans
sequenced--1999
Full-Scale
sequenced
beginchromosome222000
Fruit
fly
genomesequencedchromosome21--
2003
Planned
completing
of
human
sequencingMouse
working
draft--
2004
Mouse
sequencing
obtained1970’s
+1990’s
+2000+Half
dayontheweb,savesyouhalfmonthin
thelab.-
AlanBleasby數(shù)據(jù)庫(kù)的建設(shè)和發(fā)展GenomicGenomicExperimentalDataWarehousePrepareddataPatternsKnowledgeExpertKnowledgeOften
notexplicitlyimplemented生物數(shù)據(jù)庫(kù)的種類(lèi)數(shù)據(jù)庫(kù)(一)數(shù)據(jù)庫(kù)工具建立純文本數(shù)據(jù)庫(kù)GenBank
數(shù)據(jù)庫(kù)、EMBL
核苷酸數(shù)據(jù)庫(kù)
SQL(結(jié)構(gòu)化查詢(xún)語(yǔ)言)是世界上流行的和標(biāo)準(zhǔn)化的數(shù)據(jù)庫(kù)語(yǔ)言記錄文件和圖像能夠快速靈活MySQLhttp://d/SQL數(shù)據(jù)庫(kù)工具Access
OracleAceDB
數(shù)據(jù)庫(kù)工具AceDB:A
C.elegans
DataBase
(線(xiàn)蟲(chóng)數(shù)據(jù)庫(kù))組數(shù)據(jù)的工具G181L10440.420.84RM2240.21R15060.21Xa261.470.000.63NBS119RM144Y6855RAS128860.0011被廣泛應(yīng)用的管理和提供數(shù)據(jù)形式豐富遺傳圖譜物理圖譜新陳代謝途徑1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactg
agaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataatttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(一)數(shù)據(jù)庫(kù)工具(二)各種生物數(shù)據(jù)庫(kù)1、核苷酸數(shù)據(jù)庫(kù)DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接來(lái)源于實(shí)驗(yàn)數(shù)據(jù)大量氨基酸序列主要是非實(shí)驗(yàn)來(lái)源數(shù)據(jù)coding
sequence
(CDS)EXONINTRONCDS(coding
sequence)1、核苷酸數(shù)據(jù)庫(kù)ORF
(open
reading
frame)真核生物
結(jié)構(gòu)1、核苷酸數(shù)據(jù)庫(kù)三大核苷酸數(shù)據(jù)庫(kù)GenBank、EMBL核苷酸數(shù)據(jù)庫(kù)、DDBJ信息資源共享:以天為基礎(chǔ)進(jìn)行數(shù)據(jù)庫(kù)之間的序列專(zhuān)利核苷酸序列United
States
Patent
and
Trademark
Office
(USPTO)European
Patent
Office
(EPO)Japan
Patent
Office
(JPO)1、核苷酸數(shù)據(jù)庫(kù)GenBankNCBI的核苷酸數(shù)據(jù)庫(kù),包括部分蛋白質(zhì)序列數(shù)據(jù)每天更新,每年 六版releaseftp://ftp.ncbi.nih.
/genbank/gbrel.txtRelease
178(2010.6.15)120,604,423sequences115,624,497,715
bases來(lái)源于370,000多個(gè)物種大約12%的序列來(lái)源于人(Homosapiens)Nucleic
Acids
Res.
2009;37(Database
issue):D26-31(1)GenBank……號(hào)或登陸號(hào))每個(gè)序列有一個(gè)flatfile每條序列有三個(gè)專(zhuān)有的Locus
name(位點(diǎn)名)Accession
number
(GI(GenInfo
identifier)或標(biāo)識(shí)(identifier)Sample
record(1)GenBank(1)GenBankThedivisionsofGenBankPRI
-
primate
sequencesROD
-
rodent
sequencesMAM
-
other
mammalian
sequencesVRT
-
other
vertebrate
sequencesINV
-
invertebrate
sequencesPLN
-
plant,
fungal,
and
algal
sequencesBCT
-
bacterial
sequencesVRL
-
viral
sequencesPHG
-
bacteriophage
sequencesSYN
-
synthetic
sequencesUNA
-
unannotated
sequencesEST
-
EST
sequences
(expressed
sequence
tags)PAT
-
patent
sequencesSTS
-
STS
sequences
(sequence
tagged
sites)GSS
-
GSS
sequences
(genome
survey
sequences)HTG
-
HTG
sequences
(high-throughput
genomic
sequences)HTC
-
unfinished
high-throughput
cDNA
sequencingENV
-
environmental
sampling
sequences(2)EST數(shù)據(jù)庫(kù)dbEST
(Database
of
Expressed
Sequence
Tags)GenBank的二級(jí)數(shù)據(jù)庫(kù)5’端或3’端的cDNA
序列(EST)200-500
bp“Single-pass
read”sequenceGenBank
中60%以上的序列是EST(3)UniGene數(shù)據(jù)庫(kù)UniGeneNCBI
的另一個(gè)核苷酸數(shù)據(jù)庫(kù)來(lái)源于同一
的非重復(fù)
EST
組成
序列群鼠、小鼠、斑馬魚(yú)、牛、豬等擬南芥、水稻、小麥、大麥、玉米等共計(jì)100多個(gè)物種UniGene主頁(yè)輸入
檢索(4)STS數(shù)據(jù)庫(kù)dbSTS
(Database
of
Sequence
Tagged
Sites)GenBank的二級(jí)數(shù)據(jù)庫(kù)
UniSTS短序列(200-500
bp),僅在
組中出現(xiàn)一次已定位于
上
如何找到一個(gè)STS檢索:NCBI主頁(yè)選擇UniSTS后輸入檢索到的條目
每一條目詳細(xì)內(nèi)容點(diǎn)擊“map
viewer”查看
定位(4)STS數(shù)據(jù)庫(kù)contigScience
1989;245:1434-5.(5)GSS數(shù)據(jù)庫(kù)dbGSS
(Database
of
Genome
Survey
Sequences)片段的末端序列GenBank的二級(jí)數(shù)據(jù)庫(kù)組短序列cosmid/BAC/YAC
外源Alu
PCR
序列cosmid
/
BAC
/
YACHTGS
(High-Throughput
Genomic
Sequences)GenBank
的二級(jí)數(shù)據(jù)庫(kù)尚未完成
的 群(>
2
kb)的序列新序列的增加速度很快組 過(guò)程中(Phase
0、1、2)產(chǎn)生的過(guò)渡數(shù)據(jù)(6)HTGS數(shù)據(jù)庫(kù)Nature,
409,
860-921Phase2Unfinished,
ordered,
orientedcontigs,
with
or
without
gapsPhase3Finished,
no
gaps
(with
orwithout
annotations)one-to-fePhase0ss
readsof
asingle
clone
(not
contigs)Phase1Unfinished,
may
be
unordered,unoriented
contigs,
with
gaps鳥(niǎo)槍法(shotgun)流程水稻 組全 組大小:430Mb;每個(gè)Reads
讀長(zhǎng)450bp;故覆蓋每個(gè)水稻
組所需反應(yīng):100萬(wàn);覆蓋水稻 組8X,需要800萬(wàn)反應(yīng);每個(gè)反應(yīng)的15200萬(wàn)成本為19元,800萬(wàn)反應(yīng)總共需;人力費(fèi)800萬(wàn)。中國(guó)水稻組計(jì)劃的經(jīng)費(fèi)Genomesequencing: QUICKER,
SMALLER,
CHE
RX
PRIZE
FoundationNature
2008,
452:788GenomeNCBI
的另一個(gè)數(shù)據(jù)庫(kù)
完成和正在 物種物理圖等序列收集在GenBank組序列、遺傳圖、已經(jīng)完成
的 組(截止2010年8月)Genome
Project——Statistics(7)組數(shù)據(jù)庫(kù)dbSNP
(Database
of
Single
Nucleotide
Polymorphisms)NCBI的數(shù)據(jù)庫(kù),創(chuàng)建于1998.9約每300
bp
有一個(gè)SNP數(shù)據(jù)種類(lèi)SNPInsertion/deletion
(Indel)Deletion/insertion/substitution
(DIS)發(fā)現(xiàn)致病 、進(jìn)化分析…(8)單核苷酸多態(tài)性數(shù)據(jù)庫(kù)dbSNP主頁(yè)輸入檢索到的條目每一條目詳細(xì)內(nèi)容代碼堿基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C標(biāo)準(zhǔn)堿基多意代碼(8)單核苷酸多態(tài)性數(shù)據(jù)庫(kù)(9)EMBL
(European
Molecular
Biology
Laboratory)Nucleotide
Sequence
DatabaseEBI
(European
Bioinformatics
Institute)
管理與GenBank收集的數(shù)據(jù)相同序列數(shù)據(jù)文檔格式與GenBank
不同數(shù)據(jù)庫(kù)主頁(yè) 輸入檢索到的條目每一條目詳細(xì)內(nèi)容(10)DDBJ
(DNA
Data
Bank
ofJapan)與GenBank收集的序列數(shù)據(jù)相同
e-e.html數(shù)據(jù)庫(kù)主頁(yè)輸入檢索到的條目每一條目詳細(xì)內(nèi)容文章要提供Accession
number(在三大核苷酸數(shù)據(jù)庫(kù)中通用)EPD
(Eukaryotic
Promoter
Database)由Weizmann
Institute
of
Science
in
Rehovot(Israel)
開(kāi)創(chuàng)4806條真核生物啟動(dòng)子序列(2009.6)人類(lèi) 組中的啟動(dòng)子大約19萬(wàn)個(gè)同一個(gè) 具有多個(gè)啟動(dòng)子(11)啟動(dòng)子數(shù)據(jù)庫(kù)(12)miRNA數(shù)據(jù)庫(kù)miRBase收集了>14000條hairpin
precursormiRNA
序列(2010.4)來(lái)源于>100個(gè)物種可以通過(guò)miRNA名、
、位置等檢索數(shù)據(jù)庫(kù)分析一條DNA序列中是否可能包含miRNA2、蛋白質(zhì)數(shù)據(jù)庫(kù)UniPROT由EBI
和SIB創(chuàng)辦分為兩個(gè)部分:來(lái)源于實(shí)驗(yàn)的有詳細(xì)注釋的序列(SwissProt)和自動(dòng)注釋序列(TrEMBL)與110個(gè)數(shù)據(jù)庫(kù)相互參照(cross-reference)可用
(Text
search)和序列比對(duì)(BLAST
similarity
search)進(jìn)行檢索數(shù)據(jù)庫(kù)主頁(yè),使用檢索結(jié)果頁(yè)面,reviewed(Swiss-Prot),unreviewed
(TrEMBL)Browse
bytaxonomy,keyword,
geneontology,
enzymeclassor
pathway條目詳細(xì)內(nèi)容(1)UniPROT(2)其它類(lèi)型的蛋白質(zhì)數(shù)據(jù)庫(kù)PIR
(Protein
Information
Resource)蛋白質(zhì)
分類(lèi)蛋白質(zhì)整合信息Prosite蛋白質(zhì)結(jié)構(gòu)域3、結(jié)構(gòu)數(shù)據(jù)庫(kù)(1)PDB
(Protein
Data
Bank)由Brookhaven
National
Laboratories
創(chuàng)辦67,131個(gè)結(jié)構(gòu)圖(2010.8)蛋白質(zhì)核酸其它可通過(guò)BLAST
系統(tǒng)檢索X
射線(xiàn)衍射圖、
核磁 (NMR)
光譜圖和電鏡圖(文字和三維結(jié)構(gòu)圖)(1)
PDB
(Protein
Data
Bank)(2)SWISS-3D
IMAGE蛋白質(zhì)的平面和
圖來(lái)源于實(shí)驗(yàn)結(jié)果理論模型4、酶和代謝數(shù)據(jù)庫(kù)KEGG
(Kyoto
Encyclopedia
of
Genes
andGenomes)各種代謝、遺傳等路徑圖可檢索參于各種路徑的KEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何代謝路徑,如糖酵解/糖原異生途徑(Glycolysis/Gluconeogenesis)檢索Genetic
Information
ProcessingKEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何遺傳信息路徑,如Protein
export
路徑可以查看參加這一路徑蛋白質(zhì)的信息KEGG數(shù)據(jù)庫(kù)KEGG數(shù)據(jù)庫(kù)檢索Environmental
Information
ProcessingKEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何EnvironmentalInformation
Processing
路徑,如MAPK
signaling
pathway
路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息檢索Cellular
ProcessesKEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何Cellular
Processes路徑,如Cell
cycle
路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息KEGG數(shù)據(jù)庫(kù)5、物種分類(lèi)數(shù)據(jù)庫(kù)物種分類(lèi)界(Kingdom)門(mén)(Phylum)綱(Class)目(Order)科(Family)屬(Genus)種(Species)每一分類(lèi)等級(jí)下可加設(shè)亞級(jí)(Sub-),如亞門(mén)、亞綱、亞科等。每一分類(lèi)等級(jí)上可加設(shè)總級(jí)(Super-),如總綱、總目、總科等。Mouse:Mus
musculus動(dòng)物界(Animal)脊索動(dòng)物門(mén)(Chordata)脊椎動(dòng)物亞門(mén)(Vertebrata)哺乳綱(Mammalia)嚙齒目(Rodentia)鼠科(Muridae)
小家鼠屬(Mus)小家鼠種(musculus)擬南芥系譜(lineage)查找某一物種的系譜樹(shù)在NCBI
Taxonomy
主頁(yè)輸入物種名稱(chēng)“pig”lineageTaxonomy數(shù)據(jù)庫(kù)6、文獻(xiàn)數(shù)據(jù)庫(kù)(1)國(guó)家醫(yī)學(xué) 館的數(shù)據(jù)庫(kù)醫(yī)學(xué)、分子生物學(xué)、基礎(chǔ)生物學(xué)5400多種 ,來(lái)源于80多個(gè)國(guó)家文獻(xiàn)年限:1947年至今提供 ,全文免費(fèi)全文收集在(2)其它類(lèi)型的文獻(xiàn)數(shù)據(jù)庫(kù)OMIM
(Online
Mendelian
Inheritance
in
Man)NCBI
的數(shù)據(jù)庫(kù),每天更新數(shù)據(jù)人類(lèi) 、遺傳疾病名稱(chēng)Agricola農(nóng)部農(nóng)業(yè)農(nóng)業(yè)類(lèi)館的數(shù)據(jù)庫(kù)輸入疾病、條目7、向數(shù)據(jù)庫(kù)提交和修改核苷酸和蛋白質(zhì)序列提交:Submission修改:Update數(shù)據(jù)庫(kù)中的數(shù)據(jù)由大家無(wú)償提供,共同Accuracy??(1)向GenBank提交或修改核苷酸序列在GenBank主頁(yè)用BankIt
功能提交序列網(wǎng)上直接提交,簡(jiǎn)單方便提交后立刻得到臨時(shí)二天內(nèi)得到Accession
number用Sequin方法提交序列可 的電子表格自動(dòng)確定CDS、ORF
和查找重復(fù)序列用Update
功能修改GenBank
中的序列和相關(guān)信息修改一次,version
的 就進(jìn)一位Accession
number不變OldNew(2)向SWISS-PROT
提交或修改蛋白質(zhì)序列網(wǎng)上直接操作只接收用蛋白質(zhì)直接 的序列由核苷酸序列翻譯得到的蛋白質(zhì)序列將進(jìn)入TrEMBL上機(jī)操作熟悉各種數(shù)據(jù)庫(kù)重點(diǎn)了解GenBank
和SWISS-PROT的各種功能和適用范圍Xa26
nucleic
acid
sequence
(DQ426646,6000
bp):…ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAA
ATCT
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工期保證措施
- 畢業(yè)論文的致謝詞范文(35篇)
- 《林黛玉進(jìn)賈府》教案
- 超市新穎促銷(xiāo)方案(12篇)
- 本科畢業(yè)實(shí)習(xí)的總結(jié)(3篇)
- 《紅星照耀中國(guó)》第六章《西北的紅星》讀后感(10篇)
- 稅務(wù)系統(tǒng)紀(jì)法知識(shí)判斷復(fù)習(xí)測(cè)試卷含答案
- 寧夏固原市第三中學(xué)2024-2025學(xué)年九年級(jí)上學(xué)期第一次質(zhì)量檢測(cè)化學(xué)試卷
- DB34∕T 4192-2022 社區(qū)居家養(yǎng)老社會(huì)工作服務(wù)規(guī)范
- 《數(shù)控立式加工中心機(jī)床技術(shù)規(guī)范》(征求意見(jiàn)稿)
- 中國(guó)心力衰竭診斷和治療指南2024解讀
- 2024年荊州市產(chǎn)業(yè)投資發(fā)展集團(tuán)有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 幕墻工程成品保護(hù)措施
- 客服如何管理自己的情緒
- 2024考古遺址保護(hù)棚技術(shù)規(guī)程
- 建設(shè)工程工傷預(yù)防培訓(xùn)課件
- 梅毒診斷與報(bào)告
- 草酸艾司西酞普蘭口服溶液-臨床用藥解讀
- 早期介入與前期物業(yè)管理-前期物業(yè)管理(物業(yè)管理課件)
- 美團(tuán)商業(yè)計(jì)劃書(shū)
- 電商產(chǎn)業(yè)園開(kāi)園方案
評(píng)論
0/150
提交評(píng)論