APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第1頁(yè)
APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第2頁(yè)
APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第3頁(yè)
APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第4頁(yè)
APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物信息學(xué)在腫瘤研究中的應(yīng)用張 新 宇中國(guó)醫(yī)科院腫瘤醫(yī)院/腫瘤研究所中心實(shí)驗(yàn)室生物信息學(xué)腫瘤生物信息學(xué)平臺(tái)功能簡(jiǎn)介及應(yīng)用實(shí)例生物信息學(xué)的概念:A. 生物信息學(xué)是一門(mén)新興的交叉學(xué)科,它將數(shù)學(xué)和計(jì)算機(jī)知識(shí)應(yīng)用于生物學(xué),以獲取、加工、存儲(chǔ)、分類、檢索與分析生物大分子的信息,從而理解這些信息的生物學(xué)意義。B. 簡(jiǎn)言之,生物信息學(xué)就是運(yùn)用計(jì)算機(jī)技術(shù),處理、分析生物學(xué)數(shù)據(jù),以揭示生物學(xué)數(shù)據(jù)背后蘊(yùn)藏的意義。生物信息學(xué)研究的要素計(jì)算機(jī)(服務(wù)器/工作站)及操作系統(tǒng)專業(yè)人員專業(yè)軟件Internet網(wǎng)絡(luò)及生物學(xué)數(shù)據(jù)庫(kù)生物信息學(xué)研究分類算法開(kāi)發(fā)生物學(xué)研究應(yīng)用BlastBlast生物信息學(xué)和腫瘤研究的關(guān)系How is

2、tumor generated ?1996, 97國(guó)際象棋人機(jī)大戰(zhàn)被譽(yù)為“人類智力極限”的特級(jí)大師,卡斯帕羅夫 VS IBM深藍(lán)What Can Bioinformatics Do in Cancer Research?How to Do?腫瘤生物信息學(xué)平臺(tái)簡(jiǎn)介數(shù)據(jù)庫(kù)平臺(tái)自主開(kāi)發(fā)的綜合分析體系 自主開(kāi)發(fā)的其他獨(dú)立功能軟件 其他引進(jìn)并安裝調(diào)試好的軟件包 平臺(tái)的產(chǎn)生及發(fā)展數(shù)據(jù)庫(kù)平臺(tái):(基于Linux系統(tǒng)的MySQL數(shù)據(jù)庫(kù)系統(tǒng))1) Reference, Locus Link, Unigene, Mapview及相關(guān)GenBank數(shù)據(jù)庫(kù)。2) Gene Ontology 數(shù)據(jù)庫(kù), 從細(xì)胞定位,基因功

3、能,信號(hào)通路三個(gè)角度提供對(duì)各種基因的功能及所在信號(hào)通路的注釋。數(shù)據(jù)庫(kù)平臺(tái)(續(xù))3) UCSC Human Genome 數(shù)據(jù)庫(kù) (Golden Path)。4) 格式化的Blast數(shù)據(jù)庫(kù) (nt, nr, human_est, htg, swissprot, yeast, mouse_est )。5) 實(shí)驗(yàn)室原始數(shù)據(jù)及分析結(jié)果數(shù)據(jù)庫(kù)。(加密保護(hù))Computational Velocity: Doubled after 18 months;DNA Data Quantity: Doubled after 14 months;腫瘤生物信息學(xué)平臺(tái)簡(jiǎn)介數(shù)據(jù)庫(kù)平臺(tái)自主開(kāi)發(fā)的綜合分析體系 自主開(kāi)發(fā)的其他

4、獨(dú)立功能軟件 其他引進(jìn)并安裝調(diào)試好的軟件包 平臺(tái)的產(chǎn)生及發(fā)展自主開(kāi)發(fā)的綜合分析體系 cDNA, mRNA及EST序列的高通量綜合分析平臺(tái) 基因芯片數(shù)據(jù)分析平臺(tái) 信號(hào)通路 (Gene-gene interaction)分析平臺(tái) 注:每個(gè)平臺(tái)都包含幾個(gè)部分,每部分又是一個(gè)可獨(dú)立運(yùn)行的功能體系 cDNA, mRNA及EST序列的高通量綜合分析平臺(tái)a) 序列格式化,包括去除載體,屏蔽簡(jiǎn)單重復(fù)序列,計(jì)算核酸組成及長(zhǎng)度,以Fasta格式輸出。b) 比對(duì)Reference mRNA序列及Unigene序列,找出已知基因,并進(jìn)行聚類分析。c) 對(duì)新基因序列進(jìn)一步與人類染色體比對(duì),篩選出可靠的新基因序列,排除錯(cuò)

5、誤序列。cDNA, mRNA及EST序列的高通量綜合分析平臺(tái) (續(xù))d) 新EST序列延伸,全長(zhǎng)cDNA序列電子克隆及功能結(jié)構(gòu)域分析。e) 點(diǎn)突變或者SNP分析f) 制作基因表達(dá)圖譜 (PDF格式)Primary Analysis of Lung Cancer SSH cDNA Library 分析實(shí)例Definition of EST ESTs offer a rapid and inexpensive route to gene discovery, reveal expression and regulation data (Vasmatis, et al,1998), highligh

6、t gene sequence diversity and splicing (Wolfberg and Landsman, 1997), and may identify more than half of known human genes (Hillier, et al, 1996).背景知識(shí):EST (Expressed Sequence Tag):從cDNA 庫(kù)隨機(jī)挑選出一個(gè)克隆來(lái)自動(dòng)測(cè)序,長(zhǎng)度一般為500bp。Mask Vector and FormatBlast to Reference mRNA DBBlast to Human EST DBScreened Known Gen

7、esHuman EST DB None-hit ESTCluster ESTs by GeneMap to Human GenomeBlast to Human GenomeNew GenesGarbage ESTsIn silico EST ElongationReference DB None-hit ESTSequencing ResultProceduresGene Expression MapPoint Mutation/SNP AnalysisOriginal sequence Database原始輸入序列Cluster Result Database已知基因聚類分析結(jié)果New G

8、ene (EST) Database新基因ESTElongated ESTIDNo2_rlcrt0-000159.fas;Length=2540.AGCGGGTCCCGCCTCCCAGCGACTCTCGGCAGTGCCGGAGTCGGGTGGGTTGGCGGCTATAAAGCTGGTAGCGAAGGGGAGGCGCCGCGGACTGTCCTAGGTACACTTTTCTCATAAAGTTTAGCCTACAGAAACTATCGCCACCCAAATTAAACATCACCCAAGCTAATATTCTTTCCTCCTTCTAAAGATGAGCTAGCGAAACTTTTTATAGGTTGTCCCTTTAA

9、TGCAGCTTTTTAGAATAAACATTTTTACATTTTTTCTTAAAAGAATTATTTTTTGAAGTCTGAGGAAAAATCCGCTTGCCTAGTGAATTTGGCACACACAGAGTAACAACAAATCAAACTTTAAGCTAGCAACCAACACACAAAATAAGCATGCAAGGAATAGAATAAGTTTTATATGGATAAGGTATTTTAGCCAACTCCACTTATAAGGTATTACAAAATCTCTATATNGTTTTGAAGCTATGTGTCGCAGTTTAAAGTTACTTTTAACAATAATACGTATATTTACAATTGACTTAA

10、AAAACTATTTTCAAGGAAGTTAGAAACCTATGGCACACCAACGCATCTTCTGGAAAATGAAGACGATACAATGTCATGTGGCAAGTTTCAATATATGAAGGACTAGACCAGTG.新基因EST電子延伸結(jié)果Using Reference mRNA Database Blast Output to Search Mutation/SNPMutations Found from Blast Output Analysis點(diǎn)突變/SNP分析結(jié)果Deletion (ClustalX 1.82)點(diǎn)突變/SNP分析結(jié)果 (續(xù))Insertion (Clusta

11、lW 1.82)點(diǎn)突變/SNP分析結(jié)果Here “-” means insertion點(diǎn)突變/SNP分析結(jié)果 (續(xù))Further AnalysisFrom SNP to Haplotype6 SSH Libraries Gene Expresstion Map to Human Genomes(122+X)基因表達(dá)圖譜Expression level of genes in SSH librariesDifferent Colors correspond to different librariesIs there a LOH?Expressed in two down-regulated

12、librariesLOH map vs. SSH mapLung Cancer Related LOHLung Cancer Related SSH基因芯片數(shù)據(jù)分析平臺(tái) a) 對(duì)raw data進(jìn)行標(biāo)準(zhǔn)化處理,并確定thredshold值(低于該值表示基因不表達(dá),沒(méi)有雜交信號(hào))b) 結(jié)合R/S+,SAS通過(guò)生物統(tǒng)計(jì)學(xué)手段篩選具有顯著性差異表達(dá)的基因c) 進(jìn)一步的芯片分析手段不一而足,可結(jié)合具體分析目標(biāo)進(jìn)行具體分析。已經(jīng)做過(guò)的分析有:建立從array到全基因組轉(zhuǎn)錄圖譜,基因表達(dá)圖譜;聚類分析(hierarchical, SOM and K-means clustering); 結(jié)合Gene On

13、tology, Biocarta, KEGG數(shù)據(jù)庫(kù)進(jìn)行相關(guān)pathway分析等Normalization背景知識(shí):PathWay Analysis背景知識(shí):分析實(shí)例Genome-wide Gene Expression Map and Analysis of Non-Small Cell Lung Cancer Based on MicroarrayPNAS November 20, 2001 vol. 98 no. 24Original Array DataChip: Human U95A oligonucleotide probe arrays (Affymetrix, SantaClar

14、a, CA) 12,600 cDNA cloneSample: Squamous cell lung carcinomas 21Adenocarcinomas127Normal Lung 17Array data (normalized)Analysis ProceduresFinding genes from 12,600 cDNA cloneGet 7932 genesFlagging the values lower than threshold valueAbout half values keepedDoing T-test with SAS/R for each geneHiera

15、rchical ClusteringDivide into two parts: up-regulated and down-regulatedConstruction of Gene Expression Map and Transcriptome MapClustering Result肺鱗癌基因表達(dá)圖譜(3號(hào)染色體)肺鱗癌轉(zhuǎn)錄圖譜(3號(hào)染色體)High-resolution detection of differentially expressed chromosomal regions in NSCLC was obtained by using moving-median metho

16、dScreening of important NSCLC-related geneAnalysis Procedures (Cont.) Results75% (24 of 32) of our results were consistent with the previous studies. And the counterparts in other reports, normally with larger sizes, were narrowed down and many specific genes involved in these regions were identifie

17、d. 4 new aberrant regions in squamous carcinoma, 2q31-32, 12q23-24, 14q22-q24 and Xp11.4-p11.23, were discovered. 肺鱗癌基因異常表達(dá)區(qū)域分析結(jié)果 信號(hào)通路 (Gene-gene Interaction) 分析平臺(tái) a) 選擇關(guān)鍵詞,從 GO數(shù)據(jù)庫(kù)中尋找相關(guān)基因,比如 extracellular表示為分泌蛋白b) 通過(guò)GO, BioCarta和Kegg信號(hào)通路數(shù)據(jù)分析給定基因所屬的信號(hào)通路,功能分類等c) 比較多組基因按功能,通路分組在統(tǒng)計(jì)學(xué)上的差異,從而得到各組基因的功能差異d)

18、新信號(hào)通路的分析(正在開(kāi)發(fā) Gene Ontology Pathway Network特點(diǎn):DAG (非循環(huán)),可用數(shù)據(jù)庫(kù)表達(dá)背景知識(shí):BioCarta Cell Cycle Pathway 特點(diǎn):以調(diào)控通路為主背景知識(shí):KEGG酮體代謝 Pathway 特點(diǎn):以代謝通路為主背景知識(shí):分析給定基因所屬的信號(hào)通路GO:0003673-biological_process-physiological processes-cell growth and/or maintenance(D10S170)-cell proliferation(FTH1,AKR1C3,C20orf1)-cell cycle

19、(AHR,BUB1,STAG2)-DNA replication and chromosome cycle-chromosome segregation(STAG2)-mitotic chromosome segregation分析實(shí)例比較多組基因按功能分組在統(tǒng)計(jì)學(xué)上的差異,從而得到各組基因的功能差異26 N: 15 219 T: 78 429 nucleotide binding32 N: 28 396 T: 120 728 nucleic acid binding2 N: 1 31 T: 21 91 structural constituent of ribosome47 N: 0 0 T

20、: 1 7 apoptosis inhibitor activity38 N: 0 0 T: 10 50 transcription factor activity37 N: 1 13 T: 1 13 enzyme inhibitor activity46 N: 6 46 T: 6 46 metal ion binding分析實(shí)例小結(jié) 相對(duì)于手工操作,生物信息學(xué)高通量綜合分析體系具有以下基本特點(diǎn):1)使計(jì)算機(jī)快速、忠實(shí)地執(zhí)行一些冗長(zhǎng)、瑣碎的工作,既節(jié)約時(shí)間,又避免操作失誤。2)可以完成一些手工操作無(wú)法勝任的分析任務(wù)。3)對(duì)實(shí)驗(yàn)室進(jìn)一步工作具有預(yù)見(jiàn)性和指示性。4)最終分析結(jié)果需要經(jīng)過(guò)實(shí)驗(yàn)室驗(yàn)證。

21、腫瘤生物信息學(xué)平臺(tái)簡(jiǎn)介數(shù)據(jù)庫(kù)平臺(tái)自主開(kāi)發(fā)的綜合分析體系 自主開(kāi)發(fā)的其他獨(dú)立功能軟件 其他引進(jìn)并安裝調(diào)試好的軟件包 平臺(tái)的產(chǎn)生及發(fā)展自主開(kāi)發(fā)的其他獨(dú)立功能軟件 1) 基于mRNA/cDNA序列的siRNA設(shè)計(jì):查找符合siRNA條件的核酸片斷,并自動(dòng)比對(duì) Human Genome進(jìn)行特異性篩選,最后給出最佳序列及陰性對(duì)照序列。2) 從給定的一組基因名稱,得到適合制作 cDNA基因芯片的cDNA克隆(image clone)序列。3) DNA芯片數(shù)據(jù)分析及cDNA文庫(kù)序列分析并制作全基因組基因表達(dá)圖譜和轉(zhuǎn)錄圖譜自主開(kāi)發(fā)的其他獨(dú)立功能軟件(續(xù))4) 從一組給定的基因中篩選具有特定功能 (或者性質(zhì))的

22、基因,比如分泌蛋白的篩選,以Gene Ontology數(shù)據(jù)庫(kù)和高通量信號(hào)肽及跨膜區(qū)domain分析雙重符合為標(biāo)準(zhǔn)。5) 給定一組accession number,通過(guò)網(wǎng)絡(luò)或者本地?cái)?shù)據(jù)庫(kù)自動(dòng)快速獲得序列及注釋,以及各種序列格式轉(zhuǎn)化。自主開(kāi)發(fā)的其他獨(dú)立功能軟件(續(xù))6) 全自動(dòng)SAGEmap分析,可分析序列或者基因在NCBI SAGEmap中各種組織庫(kù)的表達(dá)豐度。7) DNA/RNA 最長(zhǎng)ORF分析并翻譯,在大多數(shù)情況下,cDNA和EST的最長(zhǎng)ORF為其實(shí)際閱讀框架。8) 電子EST序列延伸及全長(zhǎng)cDNA獲得。自主開(kāi)發(fā)的其他獨(dú)立功能軟件(續(xù))9) 核酸序列自身冗余度檢測(cè),建立一個(gè)逐步擴(kuò)大的數(shù)據(jù)庫(kù),

23、檢測(cè)提交的一條或多條序列是否在數(shù)據(jù)庫(kù)中有overlap或者相同基因,對(duì)新序列則加入到數(shù)據(jù)庫(kù)中。10) 自動(dòng)Blast及結(jié)果解析。11) 從染色體的巨大contig序列的任意位置截取任意長(zhǎng)度的片斷,以進(jìn)行后續(xù)分析。應(yīng)用Gene Ontology數(shù)據(jù)庫(kù)及EMBOSS軟件包預(yù)測(cè)SSH文庫(kù)基因中分泌蛋白(圖示:2號(hào)染色體)分析實(shí)例Screened siRNA target sites for X1blue:IDX1_blue;Nonsense=0;Length=21;GC=38%;A=8;G=5;C=3;T=5AAAGATGTGGAAAGTTACCTCsiRNASense: AGAUGUGGAAAGU

24、UACCUCUUAntisense: GAGGUAACUUUCCACAUCUUUNegative Control Sense: GGAUGUACGGCAAAUUCUAUUNegative Control Antisense: UAGAAUUUGCCGUACAUCCUU分析實(shí)例全自動(dòng)SAGEmap分析分析實(shí)例從accession number通過(guò)網(wǎng)絡(luò)或者本地?cái)?shù)據(jù)庫(kù)自動(dòng)快速獲得序列及注釋NM_002737NM_002738X07109NM_002739NM_002740NM_006255NM_005400NM_002742NM_005813L07032NM_002744NM_006254分析實(shí)例N

25、M_005400 Homo sapiens protein kinase C, epsilon (PRKCE), mRNA.CTCCCCGCCCCGACCATGGTAGTGTTCAATGGCCTTCTTAAGATCAAAATCTGCGAGGCCGTGAGCTTGAAGCCCACAGCCTGGTCGCTGCGCCATGCGGTGGGACCCCGGCCGCAGACTTTCCTTCTCGACCCCTACATTGCCCTCAATGTGGACGACTCGCGCATCGGCCAAACGGCC.NM_005813 Homo sapiens protein kinase C, nu (PRKCN), mRNA

26、.AAAGTTCATCCCCCCAGAATGAAAATGAGGACATTTGAGAAGGTGATTTAAGGTGTGGACATTTGAGAAGGTGTCCTATCAAATTAGTAAACCAAAGGAAAAGTACTGAATAGATTAATCHSPKCB2A Human mRNA for protein kinase C (PKC) type beta II.CAGAGCCGGCGCAGGGGAAGCGCCCGGGGCCCCGGGTGCAGCAGCGCCCGCCGCCTCCCG小結(jié)功能軟件大都來(lái)源于具體的需求,其特點(diǎn)為實(shí)用性。大型的綜合分析體系是建立在若干個(gè)小的功能軟件的基礎(chǔ)上。隨著獨(dú)立功能軟件的豐富,建立特定功能的綜合分析體系的速度將越來(lái)越快。腫瘤生物信息學(xué)平臺(tái)簡(jiǎn)介數(shù)據(jù)庫(kù)平臺(tái)自主開(kāi)發(fā)的綜合分析體系 自主開(kāi)發(fā)的其他獨(dú)立功能軟件 其他引進(jìn)并安裝調(diào)試好的軟件包 平臺(tái)的產(chǎn)生及發(fā)展其他引進(jìn)并安裝調(diào)試好的軟件包 EMBOSS (包含幾十種不同功能的軟件,相當(dāng)于基于Linux系統(tǒng)的免費(fèi)GCG軟件包,且適合高通量分析 )JaMBW (Java based Molecular Biologists Workbench):分子生物綜合工作臺(tái)軟件,全名為。是由 European Molecular Biol

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論