生物信息學實用工具和數(shù)據(jù)庫_第1頁
生物信息學實用工具和數(shù)據(jù)庫_第2頁
生物信息學實用工具和數(shù)據(jù)庫_第3頁
生物信息學實用工具和數(shù)據(jù)庫_第4頁
生物信息學實用工具和數(shù)據(jù)庫_第5頁
已閱讀5頁,還剩82頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、生物信息學實用工具和數(shù)據(jù)庫汪佳宏網(wǎng)絡中心 & 醫(yī)研中心2015年9月主要內(nèi)容 1、生物信息學簡介2、Pathway/Network 數(shù)據(jù)庫3、Cytoscape的使用簡介 4、Gene Ontology5、DAVID和GSEA的使用簡介6、文獻挖掘工具介紹2Biologists collect molecular data: DNA & Protein sequences,gene expression, etc. Computer scientists (+Mathematicians, Statisticians, etc.)Develop tools, softwares, algori

2、thms to store and analyze the data.BioinformaticiansStudy biological questions by analyzing molecular dataThe field of science in which biology, computer science and information technology merge into a single discipline 3Bioinformatics生物信息學的應用基本: 使用Web-based工具和數(shù)據(jù)庫 基本的生物學分析需求,如NCBI、UCSC等專業(yè): 使用stand-a

3、lone工具 1. 桌面軟件(GUI)工具的使用,如Cluster 3.0,GSEA . 2. 無GUI的工具,使用命令行或腳本,如Tophat,Bedtools -生物學知識及Unix系統(tǒng)、Perl/Python/R.編程語言和shell腳本 -生物大數(shù)據(jù)的獲取,存儲和分析進階 1. 開發(fā)算法和工具: 專注于計算機,通常需要和生物學家合作 2. 數(shù)據(jù)或方法的公開使用: 創(chuàng)建數(shù)據(jù)庫和網(wǎng)頁4生物信息學所需計算機能力Linux/UNIX shell, awk, sed NGS pipeline toolsPerl/Python 正則表達式, BioPerl, BioPythonR & Biocon

4、ductor limma, edgeR, ggplot2 .軟件開發(fā) Java, PHP, 動態(tài)網(wǎng)頁設計 數(shù)據(jù)庫SQL5數(shù)據(jù)處理和編程工具: EXCEL UltraEdit Vim/Sublime/Notepat+ RStudio 學習Linux 在線學習 Cygwin虛擬機安裝Linux系統(tǒng) Vmware+BioLinux/Ubuntu67Linux常用命令參考書Command-line Bootcamp Unix and Perl Primer for Biologists 參考書8Ask and answer1. 生物信息學問答 2. 測序相關(guān)的生物信息學問答3. 計算機技術(shù)問答4. 更

5、多 Google9使用最廣的數(shù)據(jù)庫NCBI (The National Center for Biotechnology Information; EBI (The European Bioinformatics Institute) SwissProt/ExPASy (Swiss Bioinformatics Resource) PDB (The Protein Databank) 10AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage, BioMagResBank, BI

6、OMDB, BLOCKS, BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EM

7、BL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICT

8、VDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, P

9、IR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS,

10、TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc 11Some databases in the field of molecular biologyWeb-based 工具和數(shù)據(jù)庫NucleicAcidsResearch WebServer issue Over1000bioinformaticswebservers Database issue Over1000bioinformatics databases其他期刊 Bioinformatics/D

11、atabase(oxford)/BMC Bioinformatics 匯總資源 12Common IdentifiersSpecies-specificHUGO HGNC BRCA2MGI MGI:109337RGD 2219 ZFIN ZDB-GENE-060510-3 FlyBase CG9097 WormBase WBGene00002299 or ZK1067.1 SGD S000002187 or YDL029WAnnotationsInterPro IPR015252OMIM 600185Pfam PF09104Gene Ontology GO:0000724SNPs rs2889

12、7757Experimental PlatformAffymetrix 208368_3p_s_atAgilent A_23_P99452CodeLink GE60169Illumina GI_4502450-SGeneEnsembl ENSG Entrez Gene 675Unigene Hs.34012RNA transcriptGenBank BC026160.1RefSeq NM_000059Ensembl ENST ProteinEnsembl ENSP RefSeq NP_000050.2UniProt BRCA2_HUMAN IPI IPI00412408.1EMBL AF309

13、413 PDB 1MIU13 基因ID轉(zhuǎn)換 14基因ID轉(zhuǎn)換g:Convert Input gene/protein/transcript IDs (mixed)Type of output ID15Pathways vs Networks16KEGGKEGG是Kyoto Encyclopedia of Genes and Genomes的簡稱,是系統(tǒng)分析基因產(chǎn)物和化合物在細胞中的代謝途徑以及這些基因產(chǎn)物的功能的數(shù)據(jù)庫。它從代謝物、酶、生化反應、基因調(diào)控和蛋白質(zhì)相互作用等方面來研究生物通路。17 KEGG Pathway Diagram18Reactome19 BioCartaCell Cyc

14、le: G1/S Check Point 20Protein-Protein Interaction21BioGRID HPRD MINT IntAct STRING 22 Pathway Commons23 GeneMANIA24 iHOP Hoffmann, R., Valencia, A.Nature Genetics 2004Hoffmann, R., Valencia, A.Bioinformatics 2005從PubMed句子檢索基因的互作信息,構(gòu)建互作網(wǎng)絡25iHOP26Pathway & network Pathguide目前匯總了547個生物通路和分子相互作用的相關(guān)資源 N

15、ucleic Acids Res.200627生物網(wǎng)絡的可視化和分析工具CytoscapeNAVIGaTOROsprey28Cytoscape - Network VisualizationCytoscape isan open source software platform for visualizing complex networks and integrating these with any type of attribute data. a lot of apps are available for various kinds of problem domains, includ

16、ing bioinformatics, social network analysis, and semantic web. Cytoscape界面30導入網(wǎng)絡圖加載已有的網(wǎng)絡File Import Network File 支持格式:31查詢公共數(shù)據(jù)庫從BioGrid 查詢KRAS相互作用數(shù)據(jù)并構(gòu)建網(wǎng)絡圖32 編輯網(wǎng)絡33修改網(wǎng)絡中節(jié)點和邊的樣式操作網(wǎng)絡導航網(wǎng)絡7Part II34放大、縮小和移動網(wǎng)絡等網(wǎng)絡自動布局 7Part II35Circular Layout創(chuàng)建子網(wǎng)絡36創(chuàng)建子網(wǎng)絡37 The Cytoscape App38The Cytoscape App39自動安裝已下載工具的安

17、裝構(gòu)建網(wǎng)絡40構(gòu)建網(wǎng)絡41Gene Ontology (GO) GO(Gene Ontology)是一套國際標準化的基因功能描述的分類系統(tǒng)。GO分為三大類:Biological Process、Molecular Function和Cellular Component),分別用來描述基因編碼的產(chǎn)物所參與的生物過程、所具有的分子功能及所處的細胞環(huán)境。選擇特定層級的GO term按照基因(或蛋白)的功能注釋,對基因進行分類。glucose-6-phosphate isomerase activityCell division42 GO 術(shù)語和分級一組標準化的GO術(shù)語注釋基因:Protein kin

18、aseApoptosisCell cycleGO術(shù)語逐層分級,越往下越細致is-apart-ofGO術(shù)語可能有多個子級或父級43GO術(shù)語和分級特定層級的GO術(shù)語注釋的基因自動添加給所有上層術(shù)語AURKB44Annotation SourcesManual annotationCurated by scientistsHigh qualitySmall number (time-consuming to create)Reviewed computational analysisElectronic annotationAnnotation derived without human valid

19、ationComputational predictions (accuracy varies)Lower quality than manual codesKey point: be aware of annotation origin 45Evidence TypesExperimental Evidence CodesEXP: Inferred from ExperimentIDA: Inferred from Direct AssayIPI: Inferred from Physical InteractionIMP: Inferred from Mutant PhenotypeIGI

20、: Inferred from Genetic InteractionIEP: Inferred from Expression PatternIEA: Inferred from electronic annotationAuthor Statement Evidence CodesTAS: Traceable Author StatementNAS: Non-traceable Author StatementCurator Statement Evidence CodesIC: Inferred by CuratorND: No biological Data availableComp

21、utational Analysis Evidence CodesISS: Inferred from Sequence or Structural SimilarityISO: Inferred from Sequence OrthologyISA: Inferred from Sequence AlignmentISM: Inferred from Sequence ModelIGC: Inferred from Genomic ContextRCA: inferred from Reviewed Computational Analysis 46Gene Ontology47DAVID基

22、因功能注釋 48DAVID整合的數(shù)據(jù)庫49基因功能注釋列表5051基因功能注釋圖表基因功能注釋聚類采用模糊聚類的辦法將功能相似的詞匯聚在一起。判斷功能相似的依據(jù)是它們共享輸入基因的數(shù)量。52基因功能注釋聚類計算Kappa相關(guān)系數(shù),確定基因之間的關(guān)聯(lián)程度。53基于kappa相關(guān)系數(shù)的模糊聚類A)點代表基因,點之間的距離代表基因間的關(guān)聯(lián)程度(kappa分值)。B)以每個點為種子,聚類。如果每一類有足夠多的成員(例如, = 3個成員且kappa分值=0.4),則保留(實線),否則放棄(虛線)。C)如果兩個類滿足多重連鎖規(guī)則(即共有= 50%的成員),則融合為一類。不斷重復該過程,直到不能融合為止。D

23、)最后得到3類基因。其中紅色基因分屬兩類(即模糊聚類)。未歸類的基因都丟掉。功能注釋聚類結(jié)果DAVID功能總結(jié)Identify enriched biological themes, particularly GO termsDiscover enriched functional-related gene groupsCluster redundant annotation termsVisualize genes on BioCarta & KEGG pathway mapsDisplay related many-genes-to-many-terms on 2-D view.Searc

24、h for other functionally related genes not in the list List interacting proteinsExplore gene names in batch Link gene-disease associations Highlight protein functional domains and motifs Redirect to related literatures Convert gene identifiers from one type to another.And more 5657Upload the list of

25、 Gene IDsSelect ENTREZ_GENE_IDClick on Gene list輸入基因列表58Check the submitted gene listThis allows you to view functional annotation from various resources including GO確認基因列表59If you have clicked on Functional Annotation tool, you are at this pageAll these can be changed by users Click here will open

26、a new window to show the clusters of functional annotations (terms)選擇注釋數(shù)據(jù)庫60注釋結(jié)果列表 關(guān)鍵詞注釋基因列表 構(gòu)建基因網(wǎng)絡 GO 和 Pathway 分析GenCLiP 2.0 Wang, J.H., et al. Bioinformatics. 2014關(guān)鍵詞注釋基因列表手動添加未自動注釋的關(guān)鍵詞基因功能集富集分析參考文獻:Subramanian A, Tamayo P, Mootha VK, et al. Gene set enrichment analysis: a knowledge-based approac

27、h for interpreting genome-wide expression profiles. PNAS. 2005 Oct 25;102(43):15545-50.GSEA-Gene Set Enrichment Analysis63 基因功能數(shù)據(jù)庫染色體位置基因集信號通路基因集轉(zhuǎn)錄共調(diào)控基因集腫瘤相關(guān)基因的共表達基因集GO注釋基因集 64免疫系統(tǒng)相關(guān)基因集癌癥表達基因集生物學狀態(tài)和過程標簽基因集GSEA分析概述假定測試樣品分屬于兩個不同類別。例如:腫瘤與正常,耐藥與不耐藥,預后好與預后差等。芯片中的每個基因根據(jù)它們的表達與不同類別的關(guān)聯(lián)程度進行排序(從大到小,從正到負),形成基因全集L。給定一個事先定義好的功能基因集S(例如來自共同的信號通路、染色體定位或GO分類等),GSEA判定S中的成員是在L中隨機分布還是主要集中在頂端(或者底部)。如果是后者,那么S與不同類別密切相關(guān)。65GSEA分析概述66GSEA分析的基本過程計算富集分值(Enrichment Score;ES)從芯片基因全集L的頂端開始,從上往下走。如果遇到功能基因集S的成員,就增加分值;如果遇到不是S的成員,就減少分值。分值的增加程度與所遇S成員與不同類別的關(guān)聯(lián)程度呈正相關(guān)。即,如果該

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論