版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基因表達數據的聚類分析基因表達數據主要來自于兩個方面:一是基因芯片,這是最主要的表達數據來源,利用基因芯片技術可以大規(guī)模并行獲取基因轉錄結果mRNA的數據。表達系列分析SAGE和差異顯示、蛋白質芯片等是快速檢測蛋白質及其含量的另一類技術。生物信息學的基因聚類實際分析聚類分析是模式識別中一種非常有吸引力的方法,特別適用于模式分類數不知道的情況。從機器學習的角度來看,有兩種基本的聚類分析:有監(jiān)督聚類無監(jiān)督聚類生物信息學的基因聚類實際分析基因表達數據聚類分析一般包括以下幾個步驟:(1)確定基因表達的數據(2)計算相似性矩陣,各個矩陣元素代表兩個基因的表達是否相似(3)選擇算法進行聚類分析(4)顯示分析結果。生物信息學的基因聚類實際分析對數據進行聚類分析之前,必須將包含在基因表達矩陣中的數據進行相似程度分析,并且對分析結果進行量化。通常情況下,相似往往被賦于一個較大的量化的值,而不相似則由一個較小的量化的值來表示。在實際計算中,往往以距離代替相似的概念,相似性度量被轉化為兩個基因表達模式之間的距離。距離越小,表達模式越相近,反之,則表達模式差異大。生物信息學的基因聚類實際分析生物信息學的基因聚類實際分析幾種常用的聚類方法1.簡單聚類2.層次式聚類3.K平均聚類4.自組織映射神經網絡5.模糊聚類分析方法6、聚類分析結果的樹圖表示生物信息學的基因聚類實際分析1、簡單聚類假設有n個基因表達數據向量分別為X1,X2,…,XN
令任意一個基因的表達向量為第一個聚類的中心依次處理其它基因在處理第i個基因時,首先計算該基因的表達數據向量與現有各類中心的距離假設與第j類的距離Dij最小,并且Dij<T,則將基因i分配到第j類;否則生成一個新類,該類的中心為第i個基因的表達向量。生物信息學的基因聚類實際分析2、層次式聚類
生物信息學的基因聚類實際分析3、K平均聚類
任意選取K個基因表達向量作為初始聚類中心
Z1,Z2,…,Zk
反復迭代計算如果||X-Zj(l)||<||X-Zi(l)||(i=1,2,…,K,i
j),則將X所代表的基因歸于第j類。按照上述辦法處理所有的基因;經過上述處理,聚類可能發(fā)生變化,因此需要重新計算K個新聚類中心:
對于所有的聚類中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),則迭代結束,得到最后的聚類結果;否則繼續(xù)進行迭代計算。
生物信息學的基因聚類實際分析4、自組織映射神經網絡
生物信息學的基因聚類實際分析圖9.12SOM聚類結果示意生物信息學的基因聚類實際分析5、模糊聚類分析方法主要過程:(1)建立模糊相似矩陣(2)生成模糊等價矩陣(3)構建動態(tài)聚類圖生物信息學的基因聚類實際分析6、聚類結果顯示
基因表達模式聚類結果圖示生物信息學的基因聚類實際分析分類分析方法
有監(jiān)督學習疾病診斷、細胞類型識別樣本分類:(例)急性淋巴細胞白血病(ALL)急性髓性白血病(AML)生物信息學的基因聚類實際分析例:兩類劃分
生物信息學的基因聚類實際分析問題:基因的選擇?分類的方法?貝葉斯分類法支持向量機(SVM)
k最近鄰法神經網絡方法決策樹方法投票分類法(多分類器)
生物信息學的基因聚類實際分析7、主成分分析PCA
生物信息學的基因聚類實際分析圖9.13主元素對應特征值圖示生物信息學的基因聚類實際分析生物信息學的基因聚類實際分析分析基因表達數據發(fā)現與疾病直接相關的基因發(fā)現這些基因的活動規(guī)律生物信息學的基因聚類實際分析基因調控網絡分析一個基因網絡由一組生物分子(如基因、蛋白質)以及它們之間的相互作用構成,這些生物分子共同完成一些特定的細胞功能任務。在實際分析過程中,往往以圖這種數據結構表示基因網絡,圖中的節(jié)點代表基因或者蛋白質,而節(jié)點之間的連線代表基因、蛋白質之間的相互作用?;蚓W絡描述了特定細胞或組織中的功能路徑,如代謝、基因調控,信號傳導等。生物信息學的基因聚類實際分析
基因表達在化學催化中的作用生物信息學的基因聚類實際分析代謝路徑示例:脯氨酸的生物合成生物信息學的基因聚類實際分析基因表達實際上是細胞、組織、器官受遺傳和環(huán)境影響的結果。一個基因的轉錄和表達由細胞的生化狀態(tài)所決定,在一個基因的轉錄過程中,一組轉錄因子作用于該基因的啟動子區(qū)域,控制該基因轉錄,而這些轉錄因子本身又是其它基因的產物。當一個基因通過轉錄、翻譯形成功能基因產物后,它將改變細胞的生化狀態(tài),從而直接或間接地影響其它基因的表達,甚至影響自身的表達。多個基因的表達不斷變化,使得細胞的生化狀態(tài)不斷地變化。生物信息學的基因聚類實際分析一個基因的表達受其它基因的影響,而這個基因又會影響其它基因的表達,這種相互影響、相互制約關系構成了復雜的基因表達調控網絡?;虮磉_數據之中隱含基因之間的相互作用關系,因而可以通過分析基因表達數據,構建基因調控網絡。生物信息學的基因聚類實際分析幾種基因調控網絡模型1、布爾網絡模型生物信息學的基因聚類實際分析ABC
ABC 系統(tǒng)運行軌跡
循環(huán)ABC111021113011400150006000前一個狀態(tài)
后一個狀態(tài)
作用規(guī)則(1)A激活B(2)B激活A和C(3)C抑制A生物信息學的基因聚類實際分析生物信息學的基因聚類實際分析2、線性組合模型線性組合模型是一種連續(xù)網絡模型,在這種模型中,一個基因的表達值是若干個其它基因表達值的加權和?;颈硎拘问綖椋荷镄畔W的基因聚類實際分析3、加權矩陣模型加權矩陣模型與線性組合模型相似,在該模型中,一個基因的表達值是其它基因表達值的函數。生物信息學的基因聚類實際分析4、互信息關聯網絡可以用距離或相關系數作為基因表達模式之間的相似性度量,還可以用另外一種度量形式,即用熵和互信息描述基因與基因的關聯。一個基因表達模式的熵是該模式所含信息量的度量。設X是一個基因表達模式,用下式計算熵:生物信息學的基因聚類實際分析該基因網描述了四類實體:
(a
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《跳蹦蹦床的大象》少兒美術教育繪畫課件創(chuàng)意教程教案
- 蒲公英課件文庫
- 西南林業(yè)大學《產品攝影》2023-2024學年第一學期期末試卷
- 西京學院《設計模式》2023-2024學年第一學期期末試卷
- 2023年1月福建省普通高中學業(yè)水平合格性考試歷史試題(原卷版)
- 陀螺課件 圖文
- 西京學院《面向對象程序設計》2022-2023學年期末試卷
- 西華師范大學《小學數學課程與教學》2022-2023學年第一學期期末試卷
- 西華師范大學《運動技能學習與控制》2022-2023學年期末試卷
- 臺兒莊介紹課件
- 廚房消防安全知識預防措施
- 國際經濟與貿易職業(yè)規(guī)劃報告
- 消毒供應中心進修后匯報
- 讀書好書開啟智慧之門
- 以人民為中心
- 2024年盾構機電纜行業(yè)分析報告及未來發(fā)展趨勢
- 運維培訓課件
- 慢性咳嗽中醫(yī)護理宣教
- 伐檀課件教案
- 小學教育中的體驗式學習方法
- 《機房技術培訓》課件
評論
0/150
提交評論