數(shù)據(jù)挖掘和基因表達調控信息分析_第1頁
數(shù)據(jù)挖掘和基因表達調控信息分析_第2頁
數(shù)據(jù)挖掘和基因表達調控信息分析_第3頁
數(shù)據(jù)挖掘和基因表達調控信息分析_第4頁
數(shù)據(jù)挖掘和基因表達調控信息分析_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘和基因表達調控信息分析第四節(jié)第四節(jié) 基因表達數(shù)據(jù)的聚類分析基因表達數(shù)據(jù)的聚類分析基因表達數(shù)據(jù)主要來自于兩個方面:基因表達數(shù)據(jù)主要來自于兩個方面:一是基因芯片,這是最主要的表達數(shù)據(jù)來一是基因芯片,這是最主要的表達數(shù)據(jù)來源,利用基因芯片技術可以大規(guī)模并行獲源,利用基因芯片技術可以大規(guī)模并行獲取基因轉錄結果取基因轉錄結果mRNA的數(shù)據(jù)。的數(shù)據(jù)。表達系列分析表達系列分析SAGE和差異顯示、蛋白質芯和差異顯示、蛋白質芯片等是快速檢測蛋白質及其含量的另一類片等是快速檢測蛋白質及其含量的另一類技術。技術。聚類分析是模式識別中一種非常有吸聚類分析是模式識別中一種非常有吸引力的方法,特別適用于模式分類數(shù)

2、引力的方法,特別適用于模式分類數(shù)不知道的情況。不知道的情況。從機器學習的角度來看,有兩種基本從機器學習的角度來看,有兩種基本的聚類分析:的聚類分析:有教師聚類有教師聚類無教師聚類無教師聚類基因表達數(shù)據(jù)聚類分析一般包括以下基因表達數(shù)據(jù)聚類分析一般包括以下幾個步驟:幾個步驟:()確定基因表達的數(shù)據(jù)()確定基因表達的數(shù)據(jù)()計算相似性矩陣,各個矩陣元素代()計算相似性矩陣,各個矩陣元素代表兩個基因的表達是否相似表兩個基因的表達是否相似()選擇算法進行聚類分析()選擇算法進行聚類分析()顯示分析結果。()顯示分析結果。 對數(shù)據(jù)進行聚類分析之前,必須將包含在基對數(shù)據(jù)進行聚類分析之前,必須將包含在基因表達

3、矩陣中的數(shù)據(jù)進行相似程度分析,并因表達矩陣中的數(shù)據(jù)進行相似程度分析,并且對分析結果進行量化。且對分析結果進行量化。 通常情況下,相似往往被賦于一個較大的量通常情況下,相似往往被賦于一個較大的量化的值,而不相似則由一個較小的量化的值化的值,而不相似則由一個較小的量化的值來表示。來表示。在實際計算中,往往以距離代替相似的概念,在實際計算中,往往以距離代替相似的概念,相似性度量被轉化為兩個基因表達模式之間相似性度量被轉化為兩個基因表達模式之間的距離。距離越小,表達模式越相近,反之,的距離。距離越小,表達模式越相近,反之,則表達模式差異大。則表達模式差異大。 幾種常用的聚類方法 1簡單聚類簡單聚類2層

4、次式聚類層次式聚類3K平均聚類平均聚類4自組織映射神經(jīng)網(wǎng)絡自組織映射神經(jīng)網(wǎng)絡5. 模糊聚類分析方法模糊聚類分析方法6、聚類分析結果的樹圖表示、聚類分析結果的樹圖表示1、簡單聚類假設有假設有n個基因個基因表達數(shù)據(jù)向量分別為表達數(shù)據(jù)向量分別為X1, X2, XN 令任意一個基因的表達向量為第一個聚類的中令任意一個基因的表達向量為第一個聚類的中心心 依次處理其它基因依次處理其它基因 在處理第在處理第i個基因時,首先計算該基因的表達個基因時,首先計算該基因的表達數(shù)據(jù)向量與現(xiàn)有各類中心的距離數(shù)據(jù)向量與現(xiàn)有各類中心的距離 假設與第假設與第j類的距離類的距離Dij最小,并且最小,并且DijT,則,則將基因將

5、基因i分配到第分配到第j類;否則生成一個新類,該類;否則生成一個新類,該類的中心為第類的中心為第i個基因的表達向量。個基因的表達向量。2、層次式聚類、層次式聚類 3、K平均聚類平均聚類 任意選取K個基因表達向量作為初始聚類中心 Z1, Z2, Zk 反復迭代計算 如果|X-Zj(l)| |X-Zi(l)|(i=1,2,K,ij),則將X所代表的基因歸于第j類。按照上述辦法處理所有的基因; 經(jīng)過上述處理,聚類可能發(fā)生變化,因此需要重新計算K個新聚類中心: 對于所有的聚類中心,如果Zj(l+1)=Zj(l)(j=1,2,K),則迭代結束,得到最后的聚類結果;否則繼續(xù)進行迭代計算。 )(1) 1(l

6、fXjjjXNlZ4、自組織映射神經(jīng)網(wǎng)絡自組織映射神經(jīng)網(wǎng)絡 圖9.12 SOM聚類結果示意5、模糊聚類分析方法模糊聚類分析方法 主要過程:主要過程:(1)建立模糊相似矩陣)建立模糊相似矩陣(2)生成模糊等價矩陣)生成模糊等價矩陣(3)構建動態(tài)聚類圖)構建動態(tài)聚類圖6、聚類結果顯示聚類結果顯示 圖圖9.15 基因表達模式聚類結果圖示基因表達模式聚類結果圖示分類分析方法分類分析方法 有監(jiān)督學習有監(jiān)督學習 疾病診斷、細胞類型識別疾病診斷、細胞類型識別樣本分類:(例)樣本分類:(例) 急性淋巴細胞白血病急性淋巴細胞白血病(ALL)急性髓性白血病急性髓性白血病(AML)例:兩類劃分例:兩類劃分 問題:問

7、題: 基因的選擇?基因的選擇? 分類的方法?分類的方法? 貝葉斯分類法貝葉斯分類法 支持向量機(支持向量機(SVM) k最近鄰法最近鄰法 神經(jīng)網(wǎng)絡方法神經(jīng)網(wǎng)絡方法 決策樹方法決策樹方法 投票分類法(多分類器)投票分類法(多分類器) 7、主成分分析主成分分析PCA 圖圖9.13 主元素對應特征值圖示主元素對應特征值圖示分析基因表達數(shù)據(jù)分析基因表達數(shù)據(jù)發(fā)現(xiàn)與疾病直接相關的基因發(fā)現(xiàn)與疾病直接相關的基因發(fā)現(xiàn)這些基因的活動規(guī)律發(fā)現(xiàn)這些基因的活動規(guī)律第五節(jié)第五節(jié) 基因調控網(wǎng)絡分析基因調控網(wǎng)絡分析一個基因網(wǎng)絡由一組生物分子(如基因、蛋一個基因網(wǎng)絡由一組生物分子(如基因、蛋白質)以及它們之間的相互作用構成,這

8、些白質)以及它們之間的相互作用構成,這些生物分子共同完成一些特定的細胞功能任務。生物分子共同完成一些特定的細胞功能任務。在實際分析過程中,往往以圖這種數(shù)據(jù)結構在實際分析過程中,往往以圖這種數(shù)據(jù)結構表示基因網(wǎng)絡,圖中的節(jié)點代表基因或者蛋表示基因網(wǎng)絡,圖中的節(jié)點代表基因或者蛋白質,而節(jié)點之間的連線代表基因、蛋白質白質,而節(jié)點之間的連線代表基因、蛋白質之間的相互作用?;蚓W(wǎng)絡描述了特定細胞之間的相互作用?;蚓W(wǎng)絡描述了特定細胞或組織中的功能路徑,如代謝、基因調控,或組織中的功能路徑,如代謝、基因調控,信號傳導等。信號傳導等。圖圖9.16 基因表達在化學催化中的作用基因表達在化學催化中的作用ProB

9、谷氨酰激酶 反應 表達 催化 谷氨酸鹽 谷氨酰磷酸脂 A TP ADP 產(chǎn)生 產(chǎn)生 底物 底物 ProB 谷 氨 酰 激 酶 反 應 表 達 催 化 谷 氨 酸 鹽 谷 氨 酰 磷 酸 脂 ATP NADPH;H+ 產(chǎn) 生 ProA 谷 氨 酰 磷 酸 脂 還 原 酶 反 應 表 達 催 化 谷 氨 酰 半 醛 NADP 產(chǎn) 生 1-吡 咯 啉 -羧 基 NACPH 自 然 產(chǎn) 生 ProC 1-吡 咯 啉-5-羧 基 還 原 酶 反 應 表 達 催 化 脯 氨 酸 NADP 產(chǎn) 生 ADP H2O 抑 制 抑 制 圖圖9.17 代謝路徑示例:脯氨酸的生物合成代謝路徑示例:脯氨酸的生物合成基因

10、表達實際上是細胞、組織、器官基因表達實際上是細胞、組織、器官受遺傳和環(huán)境影響的結果。受遺傳和環(huán)境影響的結果。一個基因的轉錄和表達由細胞的生化一個基因的轉錄和表達由細胞的生化狀態(tài)所決定,在一個基因的轉錄過程狀態(tài)所決定,在一個基因的轉錄過程中,一組轉錄因子作用于該基因的啟中,一組轉錄因子作用于該基因的啟動子區(qū)域,控制該基因轉錄,而這些動子區(qū)域,控制該基因轉錄,而這些轉錄因子本身又是其它基因的產(chǎn)物。轉錄因子本身又是其它基因的產(chǎn)物。當一個基因通過轉錄、翻譯形成功能當一個基因通過轉錄、翻譯形成功能基因產(chǎn)物后,它將改變細胞的生化狀基因產(chǎn)物后,它將改變細胞的生化狀態(tài),從而直接或間接地影響其它基因態(tài),從而直接

11、或間接地影響其它基因的表達,甚至影響自身的表達。多個的表達,甚至影響自身的表達。多個基因的表達不斷變化,使得細胞的生基因的表達不斷變化,使得細胞的生化狀態(tài)不斷地變化?;癄顟B(tài)不斷地變化。一個基因的表達受其它基因的影響,一個基因的表達受其它基因的影響,而這個基因又會影響其它基因的表達,而這個基因又會影響其它基因的表達,這種相互影響、相互制約關系構成了這種相互影響、相互制約關系構成了復雜的基因表達調控網(wǎng)絡。復雜的基因表達調控網(wǎng)絡。 基因表達數(shù)據(jù)之中隱含基因之間的相基因表達數(shù)據(jù)之中隱含基因之間的相互作用關系,因而可以通過分析基因互作用關系,因而可以通過分析基因表達數(shù)據(jù),構建基因調控網(wǎng)絡。表達數(shù)據(jù),構建

12、基因調控網(wǎng)絡。幾種基因調控網(wǎng)絡模型 1、布爾網(wǎng)絡模型A B C A B C系統(tǒng)運行軌跡系統(tǒng)運行軌跡 循環(huán)循環(huán) A B C 1 1 1 0 2 1 1 1 3 0 1 1 4 0 0 1 5 0 0 0 6 0 0 0前一個狀態(tài)前一個狀態(tài) 后一個狀態(tài)后一個狀態(tài) 作用規(guī)則作用規(guī)則(1) A激活激活B(2) B激活激活A和和C(3) C抑制抑制A2、線性組合模型線性組合模型是一種連續(xù)網(wǎng)絡模型,在這種模型中,一個基因的表達值是若干個其它基因表達值的加權和。基本表示形式為:jjijitXwttX)()(3、加權矩陣模型加權矩陣模型與線性組合模型相似,在該模型中,一個基因的表達值是其它基因表達值的函數(shù)。 jjijituWtr)()(4、互信息關聯(lián)網(wǎng)絡可以用距離或相關系數(shù)作為基因表達模式之間的相似性度量,還可以用另外一種度量形式,即用熵和互信息描述基因與基因的關聯(lián)。一個基因表達模式的熵是該模式所含信息量的度量。設X是一個基因表達模式,用下式計算熵:niiixPxPXH12)(log)()(5、基因調控網(wǎng)絡實例真核生物生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論