后基因組時代的生物信息(1)_第1頁
后基因組時代的生物信息(1)_第2頁
后基因組時代的生物信息(1)_第3頁
后基因組時代的生物信息(1)_第4頁
后基因組時代的生物信息(1)_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、編輯ppt 1 1 后基因組時代的生物信息后基因組時代的生物信息 編輯ppt2 2 HGPHGP人類基因組計劃人類基因組計劃 這張解剖圖將包括4張小 圖,包括了人類基因組計 劃的全部主要內(nèi)容,它們 分別是遺傳圖(連鎖圖)、 物理圖、序列圖和轉(zhuǎn)錄圖。 3 3 編輯ppt 后基因組時代的生物信息學后基因組時代的生物信息學 2003年HGP測序工作全部完成后,生命科學進入后基 因組時代。 后基因組時代的工作重點是:在整體水平上對基 因組的功能進行研究。由此誕生了功結(jié)構(gòu)基因組學功結(jié)構(gòu)基因組學 能基因?qū)W能基因?qū)W,結(jié)構(gòu)是功能的基礎(chǔ),又產(chǎn)生了。 在功能基因組學的基礎(chǔ)上又產(chǎn)生了蛋白組學蛋白組學和 RNARNA

2、組學組學。 前基因組時代的前基因組時代的“釣魚釣魚”和后基因和后基因 組時代的組時代的“撈魚撈魚” 6 6 編輯ppt 在全細胞的水平,識別所有基因組表達產(chǎn)物:在全細胞的水平,識別所有基因組表達產(chǎn)物: mRNA: cDNA 陣列 蛋白質(zhì):二維電泳 質(zhì)譜 研究生物大分子相互作用:研究生物大分子相互作用: 闡明基因組表達在發(fā)育過程中的時、空的整體調(diào)控網(wǎng) 絡(luò)。 蛋白質(zhì)組學:蛋白質(zhì)組學: 高通量解析蛋白質(zhì)的高級結(jié)構(gòu),是連接基因組功能研 究和新藥開發(fā)的橋梁。 7 7 編輯ppt 基因組學、生物信息學與新藥研制基因組學、生物信息學與新藥研制 未來的藥物研究過程將是基于生物信息未來的藥物研究過程將是基于生物

3、信息 知識挖掘的過程知識挖掘的過程 數(shù)據(jù)處理和 關(guān)聯(lián)分析 發(fā)現(xiàn)藥物 作用對象 確定靶目標 分子 針對靶目標 進行合理的 藥物設(shè)計 8 8 編輯ppt CDNA CDNA 微陣列微陣列 基因表達數(shù)據(jù)的網(wǎng)絡(luò)資源 GEO ( /geo ) ArrayExpress( http:/www.ebi.ac.uk/arrayexpress/ ) SMD ( / ) 除了以上 3 個綜合性的基因表達數(shù)據(jù)倉庫外,還有一些專門的基因表 達數(shù)據(jù)庫,例如 YMD (Yale Microarray Datab

4、ase , / microarray/) ArrayDB ( /arraydb/ ) BodyMap ( http:/bodymap.ims.u-tokyo.ac.jp/ ) ExpressDB( /ExpressDB/ ) HuGE Index(Human Gene Expression Index ,/welcome/index.html) 9 9 編輯ppt 差異表達基因的選擇差異表達基因的選擇

5、 篩選差異基因包括: 表達數(shù)據(jù)的獲取和標準化 標記物的差異、熒光標記檢測效能的差異以 及樣品RNA的原始濃度的差異。 基因表達矩陣的構(gòu)建 mn的基因表達矩陣,用以記錄基因在不同 的實驗條件下的表達譜。通常m為基因的數(shù) 目,n為實驗的次數(shù)或芯片的數(shù)目。 差異表達基因的篩選:t-檢驗和 方差分析 1010 編輯ppt 基因表達數(shù)據(jù)的聚類分析基因表達數(shù)據(jù)的聚類分析 聚類分析可將具有相似表達模式的基因聚在一起, 分析同類基因的功能,并對未知基因的功能和生物學 特性進行推測。 1111 編輯ppt 幾種常用的聚類方法幾種常用的聚類方法 分層聚類(hierarchical clustering,HCL)

6、K-均值聚類(K-mean clustering,KMC) SOM聚類(self-organizing map clustering, SOM) 1212 編輯ppt 分層聚類分層聚類 分裂或凝聚 算法運行到某一階段,類別劃分結(jié)果達到聚類標準時即可停止算法運行到某一階段,類別劃分結(jié)果達到聚類標準時即可停止 分裂或凝聚分裂或凝聚; ; 1313 編輯ppt 層次聚類優(yōu)缺點層次聚類優(yōu)缺點 優(yōu)點:優(yōu)點:所得結(jié)果可方便地進行可視化觀察。 缺點:缺點:選取某一水平( 即某一類間距離)的類數(shù)作最 終結(jié)果,此一步較為主觀,很難確定哪個水平可給出 最好的結(jié)果。此方法的復(fù)雜度與所分析表達譜數(shù)目的 平方呈正比,對

7、于現(xiàn)在數(shù)據(jù)集的大小而言是一大問題。 1414 編輯ppt K-K-均值聚類均值聚類 1515 編輯ppt 優(yōu)點:優(yōu)點:思想簡單易行,時間復(fù)雜性接近線性,對大規(guī)模 數(shù)據(jù)的挖掘具有高效性和可伸縮性。 缺點:缺點:該算法要求預(yù)指定類數(shù),而實際應(yīng)用中很難預(yù) 測類數(shù),因此需要通過試誤,即使用多套不同的參數(shù) 設(shè)定,比較其結(jié)果,并且從生物學角度對結(jié)果進行驗 證。 K-K-均值聚類均值聚類 1616 編輯ppt SOMSOM聚類聚類 SOM(自組織映射)的由來: 1991,Kohonen提出,模擬人腦中的神經(jīng)元層; 人腦中不同的神經(jīng)元區(qū)域負責不同的功能; 一旦有外部刺激,與刺激相關(guān)的神經(jīng)元會被激勵,并 且其附

8、近神經(jīng)元也會受到激勵; 編輯ppt 1717 SOM聚類(一) 輸入數(shù)據(jù) 獲勝神經(jīng)元 臨近神經(jīng)元 1 2 編輯ppt 1818 SOM SOM聚類聚類(二) 輸入數(shù)據(jù) 獲勝神經(jīng)元 臨近神經(jīng)元 不同的神經(jīng)元區(qū)域代表不同的輸入數(shù)據(jù)模式 3 4 編輯ppt 1919 SOM SOM聚類的優(yōu)缺點聚類的優(yōu)缺點 優(yōu)點:優(yōu)點:可以實現(xiàn)實時學習,網(wǎng)絡(luò)具有自穩(wěn)定性,無須 外界給出評價函數(shù),能夠識別向量空間中最有意義的 特征,抗噪音能力強。 缺點:缺點:與K-均值聚類相似,它也需要預(yù)先指定參數(shù) ( 結(jié)點群的拓撲構(gòu)形),因而遇到與之相似的困難 2020 編輯ppt 基因網(wǎng)絡(luò)研究的前提假定和基本原理基因網(wǎng)絡(luò)研究的前提

9、假定和基本原理 什么是基因調(diào)控網(wǎng)絡(luò)? 細胞、DNA、蛋白質(zhì)、基因、基因網(wǎng)絡(luò) 為什么要研究基因調(diào)控網(wǎng)絡(luò)? 從分子水平認識細胞組織的功能。 我完全不懂生物學;我為什么要講這個?我完全不懂生物學;我為什么要講這個? 了解基因調(diào)控網(wǎng)絡(luò),對我們有什么啟發(fā)?了解基因調(diào)控網(wǎng)絡(luò),對我們有什么啟發(fā)? 2121 編輯ppt 基因和蛋白質(zhì) 基因網(wǎng)絡(luò)研究的前提假定和基本原理基因網(wǎng)絡(luò)研究的前提假定和基本原理 2222 編輯ppt 基因表達的調(diào)控:不同層次 基因網(wǎng)絡(luò)研究的前提假定和基本原理基因網(wǎng)絡(luò)研究的前提假定和基本原理 2323 編輯ppt 基因調(diào)控網(wǎng)絡(luò)是指一組調(diào)控因子如何調(diào)控一套基因表 達的過程. 機體的功能發(fā)展來緣

10、于遺傳網(wǎng)絡(luò)間的互作。 基因網(wǎng)絡(luò)研究的前提假定和基本原理基因網(wǎng)絡(luò)研究的前提假定和基本原理 2424 編輯ppt 基因調(diào)控網(wǎng)絡(luò)研究的目的基因調(diào)控網(wǎng)絡(luò)研究的目的 識別和推斷基因網(wǎng)絡(luò)的結(jié)構(gòu)、特性和調(diào)控關(guān)系 認識復(fù)雜的分子調(diào)控過程 理解支配基因表達和功能的基本規(guī)則 揭示基因表達過程中的信息傳輸規(guī)律 整體的框架下研究基因的功能 2525 編輯ppt 基因調(diào)控網(wǎng)絡(luò)構(gòu)建的方法基因調(diào)控網(wǎng)絡(luò)構(gòu)建的方法 布爾網(wǎng)絡(luò)模型: 線性組合模型: 加權(quán)矩陣模型: )()(tXwttX j j iji )( 1 1 ) 1( jjj tra i e tu j jiji tuWtr)()( 2626 編輯ppt 近年來發(fā)表的基于微

11、陣列數(shù)據(jù)進行基因近年來發(fā)表的基于微陣列數(shù)據(jù)進行基因 調(diào)控網(wǎng)絡(luò)構(gòu)建和分析的軟件包調(diào)控網(wǎng)絡(luò)構(gòu)建和分析的軟件包 2727 編輯ppt 2828 編輯ppt 基因調(diào)控網(wǎng)絡(luò)整合分析基因調(diào)控網(wǎng)絡(luò)整合分析 基因表達數(shù)據(jù) DNA 序列 轉(zhuǎn)錄因子與順式調(diào)控元件相互作用 蛋白蛋白相互作用 蛋白在細胞中的定位等 再結(jié)合生物學實驗驗證生物學實驗驗證,可以完善基因調(diào)控網(wǎng)絡(luò)。經(jīng) 過若干次的建模模擬實驗循環(huán)可以逼近真實的生 物學基因調(diào)控網(wǎng)絡(luò)。 2929 編輯ppt 第二節(jié)第二節(jié) 功能基因與蛋白質(zhì)信息的文本挖掘功能基因與蛋白質(zhì)信息的文本挖掘 3030 編輯ppt 文本挖掘的提出文本挖掘的提出 雷諾氏?。菏且环N治療方法和病因?qū)W

12、都未知的血液 系統(tǒng)疾病,表現(xiàn)為血液循環(huán)紊亂,血液黏度升高。 其他文獻中發(fā)現(xiàn)食用魚油可以降低血液黏度。 Swanson把這兩種知識聯(lián)系起來提出食用魚油應(yīng)該 對雷諾氏病病人有幫助的假設(shè)。 3年后有人通過臨床實驗證實了這一點 從文獻中可以發(fā)現(xiàn)或者挖掘到以前未知的知識 3131 編輯ppt 文本挖掘的方法文本挖掘的方法 基于文獻的生物信息分析最重要一點就是如何找出隱 含的、具有語義關(guān)聯(lián)的生物概念進行下一步的推理, 這也是最為復(fù)雜的步驟。主要有以下方法: 基于統(tǒng)計的方法 基于自然語言處理的方法 基于關(guān)聯(lián)規(guī)則挖掘的方法 于模式識別的方法 3232 編輯ppt 基于統(tǒng)計方法的文本挖掘基于統(tǒng)計方法的文本挖掘

13、基于統(tǒng)計的方法是通過詞的共現(xiàn)對已知 基因或者其他生物信息關(guān)系進行聚類分析, 得到新的基因或生物功能相互作用關(guān)系,或 通過查找彼此間經(jīng)常同時出現(xiàn)但不是隨機出 現(xiàn)的實體,進而鑒別出關(guān)系。 3333 編輯ppt CHAUSSABELCHAUSSABEL等提等提 出了一種用文獻輪出了一種用文獻輪 廓挖掘微陣列表達廓挖掘微陣列表達 數(shù)據(jù)技術(shù)數(shù)據(jù)技術(shù) 3434 編輯ppt PUBGENE(HTTP:/WWW.PUBGENE.ORG/PUBGENE(HTTP:/WWW.PUBGENE.ORG/) 3535 編輯ppt 基于自然語言處理的方法基于自然語言處理的方法 基于自然語言處理的系統(tǒng):通過分析語法結(jié)構(gòu)進行

14、關(guān) 系抽取,對句子從詞法、句法和語義上進行解析,把自然 語言分解為可以從中提取出關(guān)系的結(jié)構(gòu)。 例子: Medstract EngCG 3636 編輯ppt 基于關(guān)聯(lián)規(guī)則挖掘的方法基于關(guān)聯(lián)規(guī)則挖掘的方法 關(guān)聯(lián)規(guī)則相對于其他在基因芯片數(shù)據(jù)分析中使用 的數(shù)據(jù)挖掘技術(shù)(例如聚類分析、主成份分析、因子 分析等)而言,能夠推測基因之間表達關(guān)聯(lián)關(guān)系。 關(guān)聯(lián)規(guī)則一般形式是LHSRHS S。 例子: geneA geneB ,geneC 3737 編輯ppt 基于模式識別的方法基于模式識別的方法 基于模式識別的方法是對與已知有關(guān)系的實體 相鄰近的文本進行模式的抽象,再利用生成的模式對 測試語料集文本進行模式匹配

15、,最終得到基因或蛋白 質(zhì)關(guān)系結(jié)果。 例子: RLIMSP 3838 編輯ppt 第三節(jié)第三節(jié) 分子進化和系統(tǒng)發(fā)育分析分子進化和系統(tǒng)發(fā)育分析 3939 編輯ppt 分子進化和系統(tǒng)發(fā)育分析分子進化和系統(tǒng)發(fā)育分析 我們學醫(yī),又不研究物種,學進化有什么用?我們學醫(yī),又不研究物種,學進化有什么用? 廣西地區(qū)動物HEV基因型及亞型分布 過度繁殖有限的生活條件 + 導(dǎo)致導(dǎo)致 生存斗爭+ 變異 導(dǎo)致導(dǎo)致 適者生存+有利性狀遺傳 導(dǎo)致導(dǎo)致 生物新類型出現(xiàn) 達爾文把這種在生存斗爭中,適者生存、不適者被淘汰的過達爾文把這種在生存斗爭中,適者生存、不適者被淘汰的過 程,叫做程,叫做自然選擇自然選擇。 過度繁殖 生存斗

16、爭 遺傳變異 適者生存 達爾文的達爾文的“自然選擇自然選擇”學說學說 基因突變基因突變 1、核苷酸替代、插 入/缺失、重組 2、基因轉(zhuǎn)換 固定在生物個體固定在生物個體 以及物種內(nèi)以及物種內(nèi) 遺傳漂變遺傳漂變 自然選擇自然選擇 傳遞給后代傳遞給后代 產(chǎn)生新的形態(tài)、性狀產(chǎn)生新的形態(tài)、性狀 分子系統(tǒng)學是研究進化機制的一個重要工具。分子系統(tǒng)學是研究進化機制的一個重要工具。 生物進化的分子機制生物進化的分子機制 a b c d abcd 拓撲結(jié)構(gòu):拓撲結(jié)構(gòu): 有根樹:有根樹:反映時間順序反映時間順序 無根樹:無根樹:反映距離反映距離 理論上,一個理論上,一個DNA序列在物種形成或基因復(fù)制時,分裂序列在物

17、種形成或基因復(fù)制時,分裂 成兩個子序列,因此系統(tǒng)發(fā)育樹一般是二歧的。成兩個子序列,因此系統(tǒng)發(fā)育樹一般是二歧的。 一般考慮二歧的樹結(jié)構(gòu):二歧樹一般考慮二歧的樹結(jié)構(gòu):二歧樹 分支:分支: 內(nèi)部分支內(nèi)部分支 外部分支外部分支 節(jié)點:節(jié)點: 內(nèi)部節(jié)點內(nèi)部節(jié)點 外部節(jié)點外部節(jié)點 1、特征數(shù)據(jù)特征數(shù)據(jù)(character data): 提供了基因、個體、群體或物種的信息提供了基因、個體、群體或物種的信息 2、距離數(shù)據(jù)距離數(shù)據(jù)(distance data)或或相似性數(shù)據(jù)相似性數(shù)據(jù)(similarity data): 涉及的則是成對基因、個體、群體或物種的信息。涉及的則是成對基因、個體、群體或物種的信息。 距

18、離矩陣距離矩陣 距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。 反之反之? 1、特征數(shù)據(jù)特征數(shù)據(jù)(character data): 提供了基因、個體、群體或物種的信息提供了基因、個體、群體或物種的信息 2、距離數(shù)據(jù)距離數(shù)據(jù)(distance data)或或相似性數(shù)據(jù)相似性數(shù)據(jù)(similarity data): 涉及的則是成對基因、個體、群體或物種的信息。涉及的則是成對基因、個體、群體或物種的信息。 距離矩陣距離矩陣 距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。 反之反之? 編輯ppt 4545 paralogs orthologs 4646 編輯ppt

19、分子進化與系統(tǒng)發(fā)育分析軟件分子進化與系統(tǒng)發(fā)育分析軟件 4747 編輯ppt 第四節(jié)第四節(jié) 單核苷酸多態(tài)性與連鎖不平衡單核苷酸多態(tài)性與連鎖不平衡 4848 編輯ppt 人類基因組多態(tài)性人類基因組多態(tài)性 4949 編輯ppt 遺傳信息檢驗遺傳信息檢驗 風險估計風險估計 5050 編輯ppt 研究研究 臨床醫(yī)學轉(zhuǎn)換臨床醫(yī)學轉(zhuǎn)換 分子遺傳流行病學分子遺傳流行病學 Is there a familial aggregation ? Is it genetic ? Which genetic model ? Which genes ? Contribution in general population

20、Clinical observation Case-control study Twin study Adoption study Migration study Segregation study Linkage study Association study Gene-gene Gene-environment 基因分型基因分型 分析DNA序列的變異性 人類DNA序列99.9%都是一樣的 3000 000 核酸存在差異 通常定義為多態(tài)性SNP其較低等位位點頻率 1% 遺傳變異研究的目的 挖掘遺傳性疾病的病因以及預(yù)防預(yù)測 進行個性化醫(yī)療 通過位點確定疾病基因 一般術(shù)語一般術(shù)語 5454 編輯

21、ppt 連鎖不平衡(連鎖不平衡( LD LD) 在某一群體中,不同座 位上某兩個等位基因出現(xiàn) 在同一條單元型上的頻率 與預(yù)期的隨機頻率之間存 在明顯差異的現(xiàn)象。 5555 編輯ppt 微衛(wèi)星標記微衛(wèi)星標記 2-4個核苷酸重復(fù) GAACGTACTGAACGTACTCACACACACACACACACACACACACACATTTGACTTTGAC TTCGATGATATTCGATGATAGATAGATAGATAGATAGATAGATAGATAGATACGTCGT 重復(fù)數(shù)( 30) 具有高度多態(tài)性 均勻分布在整個基因組 通過PCR就可以鑒別出來 A C G T G T C G G T C T T A A A Maternal chromosome A C G T G T C C G T C T T A A A Paternal chromosome A C G T G T C G G T C T T A A A Maternal chromosome A C G T G T C G G T C T T A A A Paternal chromosome A C G T G T C C G T C T T A A A Maternal chromosome A C G T G

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論