




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
教學http:/
/kech/sw
/華農主頁-南湖教苑-精品課程-國家精品課程-2007年國家精品課程-生物信息學參考DavidW.
Mount.
Bioinformatics:
SequenceandGenome ysis.(2nd
edition)NewYork:
Cold
Spring
Harbor
LaboratoryPress,
2004.等譯,生物信息學(第一版),高等教育
,2003。參考
崗、 ,生物信息學:方法與實踐,科學
,2002。A.
D.
Boxevanis
and
B.
F.
F.
Ouellette.Bioinformatics:
A
Practical
Guidetotheysis
of
Genes
and
Proteins.(3rdedition)
New
York:
Wile-Interscience,2004.了解各種生物數據庫掌握利用Internet上的各種數據庫、
,查找生物相關信息,分析和解釋各種生物數據。學習本課程的目的Sequenceysisysis
of
gene
expressionysis
of
regulationPrediction
of
protein
structureGenomeannotationComparative
genomics數據庫(Database)?、加工、發(fā)布和檢用于收集、整理、索數據的系統(tǒng)。生物類的數據庫種類很多(序列、結構、生物分子互作、其它)投稿文章首先要將核苷酸序列或蛋白質序列提交到相應的數據庫中數據庫(Database)?數據庫記錄通常包括兩部分原始數據對這些數據進行的生物學意義的注釋一個數據庫通常 了多個相關數據庫核苷酸數據庫-水稻抗病相關
OsDR8Taxonomy
數據庫Pubmed
數據庫NCBI-Protein
數據庫DQ176424ContentsBackground
(背景)Bioinformatics
Links(數據庫)Bioinformatics
Centres
(重要生物信息中心)數據庫和序列的格式數據庫檢索工具數據庫組數據庫(GDB,
ACeDB)結構數據庫(PDB,NDB)蛋白質序列數據庫(EMBL,SWISSPROT,PIR)核苷酸數據庫(GENBANK,DDBJ,EMBL)圖譜數據庫Bioinformatics生物信息學History1975-77
Sanger
and
his
colleagues
developed
rapid
DNA
sequencing
methods.--1977
introns
discovery--
1982
Databases
(GenBank,
KEGG)--1987 human
genetic
map1990
Launch
of
the
Human
Genome
Project--1992
2-nd
generation
map
of
human
genome--
1993
new
HGP
fiveyear
plan--
1994
Detailed
human
geneticmap--
1995
Twomicrobial
genomes
sequenced
physical
map
of
human
genome
completed--
1996
meeting
of
human
genome
sequenceMouse
genetic
mapA
eukaryote-
yeast
genome
sequenced--1997
E.coli
genome
sequenced--1998
HGP
includes
map
30.000human
genesNew
HGP
goals
for
2003Round
worm ans
sequenced--1999
Full-Scale
sequenced
beginchromosome222000
Fruit
fly
genomesequencedchromosome21--
2003
Planned
completing
of
human
sequencingMouse
working
draft--
2004
Mouse
sequencing
obtained1970’s
+1990’s
+2000+Half
dayontheweb,savesyouhalfmonthin
thelab.-
AlanBleasby數據庫的建設和發(fā)展GenomicGenomicExperimentalDataWarehousePrepareddataPatternsKnowledgeExpertKnowledgeOften
notexplicitlyimplemented生物數據庫的種類數據庫(一)數據庫工具建立純文本數據庫GenBank
數據庫、EMBL
核苷酸數據庫
SQL(結構化查詢語言)是世界上流行的和標準化的數據庫語言記錄文件和圖像能夠快速靈活MySQLhttp://d/SQL數據庫工具Access
OracleAceDB
數據庫工具AceDB:A
C.elegans
DataBase
(線蟲數據庫)組數據的工具G181L10440.420.84RM2240.21R15060.21Xa261.470.000.63NBS119RM144Y6855RAS128860.0011被廣泛應用的管理和提供數據形式豐富遺傳圖譜物理圖譜新陳代謝途徑1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactg
agaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataatttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(一)數據庫工具(二)各種生物數據庫1、核苷酸數據庫DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接來源于實驗數據大量氨基酸序列主要是非實驗來源數據coding
sequence
(CDS)EXONINTRONCDS(coding
sequence)1、核苷酸數據庫ORF
(open
reading
frame)真核生物
結構1、核苷酸數據庫三大核苷酸數據庫GenBank、EMBL核苷酸數據庫、DDBJ信息資源共享:以天為基礎進行數據庫之間的序列專利核苷酸序列United
States
Patent
and
Trademark
Office
(USPTO)European
Patent
Office
(EPO)Japan
Patent
Office
(JPO)1、核苷酸數據庫GenBankNCBI的核苷酸數據庫,包括部分蛋白質序列數據每天更新,每年 六版releaseftp://ftp.ncbi.nih.
/genbank/gbrel.txtRelease
178(2010.6.15)120,604,423sequences115,624,497,715
bases來源于370,000多個物種大約12%的序列來源于人(Homosapiens)Nucleic
Acids
Res.
2009;37(Database
issue):D26-31(1)GenBank……號或登陸號)每個序列有一個flatfile每條序列有三個專有的Locus
name(位點名)Accession
number
(GI(GenInfo
identifier)或標識(identifier)Sample
record(1)GenBank(1)GenBankThedivisionsofGenBankPRI
-
primate
sequencesROD
-
rodent
sequencesMAM
-
other
mammalian
sequencesVRT
-
other
vertebrate
sequencesINV
-
invertebrate
sequencesPLN
-
plant,
fungal,
and
algal
sequencesBCT
-
bacterial
sequencesVRL
-
viral
sequencesPHG
-
bacteriophage
sequencesSYN
-
synthetic
sequencesUNA
-
unannotated
sequencesEST
-
EST
sequences
(expressed
sequence
tags)PAT
-
patent
sequencesSTS
-
STS
sequences
(sequence
tagged
sites)GSS
-
GSS
sequences
(genome
survey
sequences)HTG
-
HTG
sequences
(high-throughput
genomic
sequences)HTC
-
unfinished
high-throughput
cDNA
sequencingENV
-
environmental
sampling
sequences(2)EST數據庫dbEST
(Database
of
Expressed
Sequence
Tags)GenBank的二級數據庫5’端或3’端的cDNA
序列(EST)200-500
bp“Single-pass
read”sequenceGenBank
中60%以上的序列是EST(3)UniGene數據庫UniGeneNCBI
的另一個核苷酸數據庫來源于同一
的非重復
EST
組成
序列群鼠、小鼠、斑馬魚、牛、豬等擬南芥、水稻、小麥、大麥、玉米等共計100多個物種UniGene主頁輸入
檢索(4)STS數據庫dbSTS
(Database
of
Sequence
Tagged
Sites)GenBank的二級數據庫
UniSTS短序列(200-500
bp),僅在
組中出現一次已定位于
上
如何找到一個STS檢索:NCBI主頁選擇UniSTS后輸入檢索到的條目
每一條目詳細內容點擊“map
viewer”查看
定位(4)STS數據庫contigScience
1989;245:1434-5.(5)GSS數據庫dbGSS
(Database
of
Genome
Survey
Sequences)片段的末端序列GenBank的二級數據庫組短序列cosmid/BAC/YAC
外源Alu
PCR
序列cosmid
/
BAC
/
YACHTGS
(High-Throughput
Genomic
Sequences)GenBank
的二級數據庫尚未完成
的 群(>
2
kb)的序列新序列的增加速度很快組 過程中(Phase
0、1、2)產生的過渡數據(6)HTGS數據庫Nature,
409,
860-921Phase2Unfinished,
ordered,
orientedcontigs,
with
or
without
gapsPhase3Finished,
no
gaps
(with
orwithout
annotations)one-to-fePhase0ss
readsof
asingle
clone
(not
contigs)Phase1Unfinished,
may
be
unordered,unoriented
contigs,
with
gaps鳥槍法(shotgun)流程水稻 組全 組大小:430Mb;每個Reads
讀長450bp;故覆蓋每個水稻
組所需反應:100萬;覆蓋水稻 組8X,需要800萬反應;每個反應的15200萬成本為19元,800萬反應總共需;人力費800萬。中國水稻組計劃的經費Genomesequencing: QUICKER,
SMALLER,
CHE
RX
PRIZE
FoundationNature
2008,
452:788GenomeNCBI
的另一個數據庫
完成和正在 物種物理圖等序列收集在GenBank組序列、遺傳圖、已經完成
的 組(截止2010年8月)Genome
Project——Statistics(7)組數據庫dbSNP
(Database
of
Single
Nucleotide
Polymorphisms)NCBI的數據庫,創(chuàng)建于1998.9約每300
bp
有一個SNP數據種類SNPInsertion/deletion
(Indel)Deletion/insertion/substitution
(DIS)發(fā)現致病 、進化分析…(8)單核苷酸多態(tài)性數據庫dbSNP主頁輸入檢索到的條目每一條目詳細內容代碼堿基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C標準堿基多意代碼(8)單核苷酸多態(tài)性數據庫(9)EMBL
(European
Molecular
Biology
Laboratory)Nucleotide
Sequence
DatabaseEBI
(European
Bioinformatics
Institute)
管理與GenBank收集的數據相同序列數據文檔格式與GenBank
不同數據庫主頁 輸入檢索到的條目每一條目詳細內容(10)DDBJ
(DNA
Data
Bank
ofJapan)與GenBank收集的序列數據相同
e-e.html數據庫主頁輸入檢索到的條目每一條目詳細內容文章要提供Accession
number(在三大核苷酸數據庫中通用)EPD
(Eukaryotic
Promoter
Database)由Weizmann
Institute
of
Science
in
Rehovot(Israel)
開創(chuàng)4806條真核生物啟動子序列(2009.6)人類 組中的啟動子大約19萬個同一個 具有多個啟動子(11)啟動子數據庫(12)miRNA數據庫miRBase收集了>14000條hairpin
precursormiRNA
序列(2010.4)來源于>100個物種可以通過miRNA名、
、位置等檢索數據庫分析一條DNA序列中是否可能包含miRNA2、蛋白質數據庫UniPROT由EBI
和SIB創(chuàng)辦分為兩個部分:來源于實驗的有詳細注釋的序列(SwissProt)和自動注釋序列(TrEMBL)與110個數據庫相互參照(cross-reference)可用
(Text
search)和序列比對(BLAST
similarity
search)進行檢索數據庫主頁,使用檢索結果頁面,reviewed(Swiss-Prot),unreviewed
(TrEMBL)Browse
bytaxonomy,keyword,
geneontology,
enzymeclassor
pathway條目詳細內容(1)UniPROT(2)其它類型的蛋白質數據庫PIR
(Protein
Information
Resource)蛋白質
分類蛋白質整合信息Prosite蛋白質結構域3、結構數據庫(1)PDB
(Protein
Data
Bank)由Brookhaven
National
Laboratories
創(chuàng)辦67,131個結構圖(2010.8)蛋白質核酸其它可通過BLAST
系統(tǒng)檢索X
射線衍射圖、
核磁 (NMR)
光譜圖和電鏡圖(文字和三維結構圖)(1)
PDB
(Protein
Data
Bank)(2)SWISS-3D
IMAGE蛋白質的平面和
圖來源于實驗結果理論模型4、酶和代謝數據庫KEGG
(Kyoto
Encyclopedia
of
Genes
andGenomes)各種代謝、遺傳等路徑圖可檢索參于各種路徑的KEGG主頁點擊“PATHWAY”“PATHWAY”網頁點擊任何代謝路徑,如糖酵解/糖原異生途徑(Glycolysis/Gluconeogenesis)檢索Genetic
Information
ProcessingKEGG主頁點擊“PATHWAY”“PATHWAY”網頁點擊任何遺傳信息路徑,如Protein
export
路徑可以查看參加這一路徑蛋白質的信息KEGG數據庫KEGG數據庫檢索Environmental
Information
ProcessingKEGG主頁點擊“PATHWAY”“PATHWAY”網頁點擊任何EnvironmentalInformation
Processing
路徑,如MAPK
signaling
pathway
路徑可以查看與這一路徑相連的其它信號路徑或參加這一路徑的蛋白質信息檢索Cellular
ProcessesKEGG主頁點擊“PATHWAY”“PATHWAY”網頁點擊任何Cellular
Processes路徑,如Cell
cycle
路徑可以查看與這一路徑相連的其它信號路徑或參加這一路徑的蛋白質信息KEGG數據庫5、物種分類數據庫物種分類界(Kingdom)門(Phylum)綱(Class)目(Order)科(Family)屬(Genus)種(Species)每一分類等級下可加設亞級(Sub-),如亞門、亞綱、亞科等。每一分類等級上可加設總級(Super-),如總綱、總目、總科等。Mouse:Mus
musculus動物界(Animal)脊索動物門(Chordata)脊椎動物亞門(Vertebrata)哺乳綱(Mammalia)嚙齒目(Rodentia)鼠科(Muridae)
小家鼠屬(Mus)小家鼠種(musculus)擬南芥系譜(lineage)查找某一物種的系譜樹在NCBI
Taxonomy
主頁輸入物種名稱“pig”lineageTaxonomy數據庫6、文獻數據庫(1)國家醫(yī)學 館的數據庫醫(yī)學、分子生物學、基礎生物學5400多種 ,來源于80多個國家文獻年限:1947年至今提供 ,全文免費全文收集在(2)其它類型的文獻數據庫OMIM
(Online
Mendelian
Inheritance
in
Man)NCBI
的數據庫,每天更新數據人類 、遺傳疾病名稱Agricola農部農業(yè)農業(yè)類館的數據庫輸入疾病、條目7、向數據庫提交和修改核苷酸和蛋白質序列提交:Submission修改:Update數據庫中的數據由大家無償提供,共同Accuracy??(1)向GenBank提交或修改核苷酸序列在GenBank主頁用BankIt
功能提交序列網上直接提交,簡單方便提交后立刻得到臨時二天內得到Accession
number用Sequin方法提交序列可 的電子表格自動確定CDS、ORF
和查找重復序列用Update
功能修改GenBank
中的序列和相關信息修改一次,version
的 就進一位Accession
number不變OldNew(2)向SWISS-PROT
提交或修改蛋白質序列網上直接操作只接收用蛋白質直接 的序列由核苷酸序列翻譯得到的蛋白質序列將進入TrEMBL上機操作熟悉各種數據庫重點了解GenBank
和SWISS-PROT的各種功能和適用范圍Xa26
nucleic
acid
sequence
(DQ426646,6000
bp):…ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAA
ATCT
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 經濟責任審計報告
- 2025年度高校畢業(yè)生就業(yè)實習保障協議書
- 2025年度馬術俱樂部項目合作協議書-馬術俱樂部青少年馬術俱樂部合作約定
- 二零二五年度政府辦公樓無償租用合同書
- 大連市2025年度租賃房屋押金管理合同
- 二零二五年度智慧城市建設項目多人合伙股東協議書
- 二零二五年度木材銷售代理服務合同樣本
- 2025年度湖南省勞動合同電子檔案管理規(guī)范
- 二零二五年度租車保險配套服務合同模板
- 二零二五年度展會現場醫(yī)療急救服務合同
- 幼小銜接教育探析的國內外文獻綜述5300字
- 講誠信課件教學課件
- 靜脈治療專科護士培訓
- 兒童歌曲課件教學課件
- 牛買賣合同范本
- 2024-2030年中國氣象服務行業(yè)運營優(yōu)勢分析與投資戰(zhàn)略規(guī)劃研究報告
- 勞務派遣投標方案(交通協管員外包項目)(技術方案)
- 金庸人物課件
- 2024年普通高等學校招生全國統(tǒng)一考試·新課標卷(化學)附試卷分析
- 人教版五年級下冊數學第2單元測試題帶答案
- 再生資源門店加盟協議書
評論
0/150
提交評論