基因表達(dá)數(shù)據(jù)分析

上傳人：縱*** IP屬地：湖北上傳時間：2022-09-22 格式：PPTX 頁數(shù)：67 大?。?.62MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩62頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物信息基礎(chǔ)Basics in Bioinformatics第8章基因表達(dá)數(shù)據(jù)分析生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室3內(nèi)容提要引言基因表達(dá)與基因表達(dá)調(diào)控基因表達(dá)數(shù)據(jù)分析的意義基因表達(dá)數(shù)據(jù)的來源基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)控網(wǎng)絡(luò)模型兩種信息載體DNA分子蛋白質(zhì)分子生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室4分子中攜帶的信息每個生物信息載體的分子至少攜帶三種信息遺傳信息與功

2、能相關(guān)的結(jié)構(gòu)信息進(jìn)化信息生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室5生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室6攜帶基因相同,為何表現(xiàn)不同？生物體中，每個細(xì)胞帶有同樣的基因、攜帶相同的遺傳信息，但一個基因在不同組織、不同細(xì)胞中的表現(xiàn)卻不一樣為什么？如何測量這種表現(xiàn)差異性？生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室7內(nèi)容提要引言基因表達(dá)與基因表達(dá)調(diào)控的概念基因表達(dá)數(shù)據(jù)分析的意義基因表達(dá)數(shù)據(jù)的來源基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)

3、控網(wǎng)絡(luò)模型生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室8基因表達(dá)數(shù)據(jù)基因表達(dá)(Gene Expression)即遺傳信息從DNA傳遞到蛋白質(zhì)的過程基因表達(dá)數(shù)據(jù)這里特指基于DNA微陣列實驗得到的反映mRNA 豐度的數(shù)據(jù)不包括基因表達(dá)的最終產(chǎn)物（即蛋白質(zhì)）的豐度數(shù)據(jù)可通過DNA微陣列技術(shù)獲得比如：cDNA微陣列，寡核苷酸芯片從全基因組水平定量或定性檢測基因轉(zhuǎn)錄產(chǎn)物mRNA 的含量生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室9基因表達(dá)調(diào)控基因表達(dá)調(diào)控: 對基因表達(dá)過程的調(diào)節(jié)機(jī)制或控制過程基因表達(dá)調(diào)控的重要性

4、生物體中,每個細(xì)胞攜帶同樣的基因；但同一個基因在不同組織、不同細(xì)胞中的表現(xiàn)并不一樣，這是由基因表達(dá)調(diào)控機(jī)制所決定一個細(xì)胞在特定時刻僅僅產(chǎn)生很少一部分蛋白質(zhì) (即基因組中只有很少一部分基因得以表達(dá))基因表達(dá)調(diào)控機(jī)制根據(jù)各個細(xì)胞的功能要求，精確地控制每種蛋白質(zhì)的生產(chǎn)數(shù)量生物體完整的生命過程是基因組中各個基因按照一定的時空次序開關(guān)的結(jié)果生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室10內(nèi)容提要引言基因表達(dá)與基因表達(dá)調(diào)控的概念基因表達(dá)數(shù)據(jù)分析的用途與意義基因表達(dá)數(shù)據(jù)的來源基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)控網(wǎng)絡(luò)模型生物信息基礎(chǔ)

5、 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室11基因表達(dá)數(shù)據(jù)分析的用途基因表達(dá)數(shù)據(jù)中蘊含著基因活動的信息，反映細(xì)胞當(dāng)前的生理狀態(tài)了解基因表達(dá)的時空規(guī)律,了解基因的功能獲得基因表達(dá)調(diào)控信息探索基因表達(dá)的代謝途徑探索疾病的可能發(fā)生機(jī)理生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室12基因表達(dá)數(shù)據(jù)分析的意義闡明基因表達(dá)情況在不同條件下或不同細(xì)胞類型中，哪些基因的表達(dá)存在差異，基因的功能是什么哪些基因的表達(dá)是細(xì)胞狀態(tài)特異性的？根據(jù)它們的行為可以判斷細(xì)胞的狀態(tài)(生存、增殖、分化、凋亡、癌變或應(yīng)激等)揭示基因調(diào)控路徑和調(diào)

6、控網(wǎng)絡(luò)在特定條件下，哪些基因的表達(dá)發(fā)生顯著變化，這些基因受到哪些基因的調(diào)節(jié)，或者這些基因控制哪些基因的表達(dá)生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室13內(nèi)容提要引言基因表達(dá)與基因表達(dá)調(diào)控的概念基因表達(dá)數(shù)據(jù)分析的用途與意義基因表達(dá)數(shù)據(jù)的來源基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)控網(wǎng)絡(luò)模型基因表達(dá)數(shù)據(jù)的獲取高通量檢測基因組mRNA 豐度的方法cDNA 微陣列、寡核苷酸芯片即利用4 種核苷酸之間兩兩配對互補的特性，使兩條在序列上互補的單核苷酸鏈形成雙鏈(這個過程被稱為雜交)基本技術(shù)路線: 制備芯片，在一個約1cm大小的玻璃片上

7、，將稱為探針的cDNA 或寡核苷酸片段固定在上面從細(xì)胞或組織中提取mRNA ，通過合成熒光標(biāo)記的cDNA，與芯片雜交用激光顯微鏡或熒光顯微鏡檢測雜交后的芯片，獲取熒光強(qiáng)度，分析并得到細(xì)胞中mRNA 豐度的信息生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室14基因表達(dá)數(shù)據(jù)的獲取示意圖生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室15基因表達(dá)數(shù)據(jù)的獲取示意圖生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室16基因表達(dá)數(shù)據(jù)獲取與分析過程生物信息基礎(chǔ) - Basic

8、s in Bioinformatics模式識別與智能系統(tǒng)實驗室17生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室18內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)控網(wǎng)絡(luò)模型基因表達(dá)數(shù)據(jù)在不同條件下，基于DNA微陣列實驗得到的反映mRNA 豐度的數(shù)據(jù)數(shù)據(jù)即m n 矩陣X:m: 基因的數(shù)目n: 條件數(shù)條件包括:藥物作用的時間溫度腫瘤類型不同患者等每個芯片中的數(shù)據(jù)陣列拉直成一個列向量生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室19基因表達(dá)數(shù)據(jù)的形式矩陣 X 中元素表示第個基因在第個

9、條件下的表達(dá)水平值行向量表示基因在個條件下的表達(dá)水平，稱為基因i的表達(dá)譜列向量表示某一條件下各基因的表達(dá)水平X x11x1nxm1xmn生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室20基因表達(dá)數(shù)據(jù)預(yù)處理數(shù)據(jù)的標(biāo)準(zhǔn)化去均值、單位方差ijixx iji基因表達(dá)數(shù)據(jù)的特點：維數(shù)高、噪聲大且相關(guān)、數(shù)據(jù)重復(fù)度低等數(shù)據(jù)清洗數(shù)據(jù)的缺值填充清除不完整數(shù)據(jù)合并重復(fù)數(shù)據(jù) 矩陣填充(Matrix Completion)生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室21生物信息基礎(chǔ) - Basics in Bioi

10、nformatics模式識別與智能系統(tǒng)實驗室22內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法差異顯著性檢測k-均值(k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)（感知器）基因表達(dá)調(diào)控網(wǎng)絡(luò)模型生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室23基因表達(dá)數(shù)據(jù)分析的3個層次分析單個基因的表達(dá)水平根據(jù)在不同實驗條件下，基因表達(dá)水平的變化，來判斷它的功能例如根據(jù)表達(dá)差異的顯著性來確定腫瘤分型相關(guān)的特異基因方法：統(tǒng)計學(xué)中的假設(shè)檢驗同時分析多個基因，將基因分組，研究基因的共同功能、相互作用和協(xié)同調(diào)控方法：聚類分析嘗試推斷潛在的基

11、因調(diào)控網(wǎng)絡(luò)，從機(jī)理上解釋觀察到的基因表達(dá)數(shù)據(jù)方法: 反向工程方法生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室24基因表達(dá)差異的顯著性分析對于基因表達(dá)數(shù)據(jù)的分析，目的是要識別在不同條件下有顯著表達(dá)差異的基因顯著表達(dá)差異通常是指，一個基因在不同條件中表達(dá)水平的檢測值在排除實驗、檢測等因素外，達(dá)到一定的差異，具有統(tǒng)計學(xué)意義，同時也具有生物學(xué)意義常用的分析方法有3類第1類稱之為倍數(shù)分析，計算每一個基因在兩個條件下的Ratio 值，若大于給定閾值，則為表達(dá)差異顯著的基因第2類方法采用統(tǒng)計分析中的t 檢驗和方差分析，計算表達(dá)差異的置信度，來分析差異

12、是否具有統(tǒng)計顯著性第3類是建模的方法，通過確定兩個條件下的模型參數(shù)是否相同來判斷表達(dá)差異的顯著性生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室25假設(shè)檢驗確定零假設(shè)H0和備選假設(shè)H1 H0：在兩個條件下，平均表達(dá)水平是相等的H1:在兩個條件下，平均表達(dá)水平是變化的構(gòu)造一個統(tǒng)計量根據(jù)統(tǒng)計量，計算概率值pp: 表示在零假設(shè)成立的情況下，出現(xiàn)該數(shù)據(jù)的概率如果p小于給定的顯著性水平，則拒絕零假設(shè)，接受備選假設(shè)生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室26內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方

13、法差異顯著性檢測k-均值(k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)（感知器）基因表達(dá)調(diào)控網(wǎng)絡(luò)模型基因表達(dá)數(shù)據(jù)的聚類對基因表達(dá)數(shù)據(jù)聚類，可以實現(xiàn)對基因分組生物學(xué)意義: 表達(dá)譜相似的基因可能有相似的功能，因此按基因表達(dá)譜對基因進(jìn)行分組聚類是一種無監(jiān)督學(xué)習(xí)方法典型算法有: k-均值、層次聚類、自組織特征映射網(wǎng) 絡(luò)、譜聚類生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室27k-均值算法的初始值Step 2. 更新中心點: 計算出每個簇的新的中心點:Step 3. 重復(fù)第1和2步，直到達(dá)到最大步數(shù)或目標(biāo)函數(shù)變化小于閾值為止Step 0

14、. 隨機(jī)選定 K 個數(shù)據(jù)點作為中心 1 ,.,K1NjjNi 1 i, ji rx ,Step 1. 數(shù)據(jù)點的指派/歸類: 將每個數(shù)據(jù)點歸到離它最近的那個中心點所代表的簇(cluster)中如果D xi ,k D xi ,j , j k則令 ri,k 1 ，否則為0；其中D(.,.)表示距離函數(shù)2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室282NKNKi, jiji, jJ i1j1i1j1rDx ,rxi jji, jrNi 1Nk-均值聚類示例 (1/5)Step 0. 初始化: k: 預(yù)先指定的聚類數(shù)目隨機(jī)選取k個點作為k個簇(cl

15、uster)中心如右圖 panel 所示生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室29k-均值聚類示例 (2/5)Step 1. 基于最近鄰規(guī)則進(jìn)行數(shù)據(jù) 點的指派(assignment)/歸類計算其它數(shù)據(jù)點與k個中心點的距離距離哪個cluster 的中心點近，就被歸入哪個cluster中如右圖 panel (b)所示生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室30k-均值聚類示例 (3/5)Step 2. 中心點的更新根據(jù)各個cluster所包含的數(shù)據(jù)點，計算新的聚類中心點如右圖 pa

16、nel (c)所示生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室31k-均值聚類示例 (4/5)Step 1. 基于更新后的均值重新進(jìn) 行數(shù)據(jù)點指派 (assignment)如右圖 panel (d)所示生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室32k-均值聚類示例 (5/5)Step 3. 若不滿足停止條件，重復(fù)Step 1和 Step 2如右圖 panel(e)(i)所示停止條件:迭代次數(shù)達(dá)到中心點不改變目標(biāo)函數(shù)變化量小于閾值生物信息基礎(chǔ) - Basics in Bioinformatics

17、模式識別與智能系統(tǒng)實驗室33k-均值聚類示例每次迭代將減少目標(biāo)函數(shù)值收斂于全局或局部最小值生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室34如果數(shù)據(jù)中的聚類結(jié)構(gòu)比較復(fù)雜k-means算法無法給出滿意的結(jié)果需要考慮譜聚類(Spectral Clustering)算法生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室35生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室36譜聚類(Spectral Clustering)什么是譜聚類？對數(shù)據(jù)先變換(譜嵌入)，再使用k-均

18、值聚類算法源自代數(shù)學(xué)中的譜圖理論，即用矩陣特征分解來分析問題主要工具：圖的拉普拉斯矩陣圖拉普拉斯(Graph Laplacian)矩陣規(guī)范化的LaplacianU. von Luxburg, “A tutorial on spectral clustering”, Statistics and Computing 17, 2006.L I D1/ 2WD1/ 2D diagd1 , dN ,di j wij非規(guī)范的LaplacianL D W ,W是點對之間的相似度，矩陣W要求對稱譜聚類之版本1：minCut基本步驟: 1. 定義相似度矩陣W2. 由W構(gòu)造圖Laplacian矩陣L = D

19、W ，D為對角陣, W要求對稱3. 對L進(jìn)行奇異值分解U, S, V = SVD(L)SVD為奇異值分解，其中奇異值按由小到大排列4. 通過零特征值數(shù)目估計聚類的個數(shù)k，使用k個最小特征值對應(yīng)的k個右奇異值向量V作為新的特征，運行 k-means由于矩陣L是對稱矩陣，其奇異值分解與特征值分解結(jié)果一樣生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室37生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室38譜聚類之版本2： Normalized Cut基本步驟 : 1. 定義相似度矩陣W 2. 由W構(gòu)造圖Lap

20、lacian矩陣并規(guī)范化:3. 對L進(jìn)行奇異值分解U, S, V = SVD(L)SVD為奇異值分解，其中奇異值按由小到大排列4. 通過零特征值數(shù)目估計聚類的個數(shù)k，使用k個最小特征值對應(yīng)的k個右奇異值向量V作為新的特征，運行 k-meansL I D1/ 2WD1/ 2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室39內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法差異顯著性檢測k-均值(k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)（感知器）基因表達(dá)調(diào)控網(wǎng)絡(luò)模型主成分分析Principal Component Ana

21、lysis (PCA)是一種掌握數(shù)據(jù)主要矛盾的統(tǒng)計分析方法它可以從多個變量中分析出主要影響因素、進(jìn) 而揭示事物的本質(zhì)，簡化問題PCA的目的把高維數(shù)據(jù)投影到低維空間PCA的目標(biāo)尋找r個新變量，使他們反映事物的主要特征，壓縮原有數(shù)據(jù)矩陣的規(guī)模生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室40主成分分析主成分分析是一種線性降維技術(shù)使用樣本協(xié)方差矩陣的主特征向量作為坐標(biāo)軸，定義一個新坐標(biāo)系，然后把數(shù)據(jù)投影到這個新坐標(biāo)系中本質(zhì)上，相當(dāng)于進(jìn)行坐標(biāo)系變換給定數(shù)據(jù)矩陣X x , x , x, 構(gòu)造投影矩陣P，則低維特征即為投影Y PT X生物信息基礎(chǔ) - Ba

22、sics in Bioinformatics模式識別與智能系統(tǒng)實驗室41其中 Y y1 , y2 , yn ,y Rri12ni其中 x Rm主成分分析基本步驟: Step 1: 計算樣本協(xié)方差矩陣SnTiS 1n ix x i1Step 2: 特征值分解S p p ,p Rm , i 1,., riiiiStep 3: 提取主方向，構(gòu)造投影矩陣PP p1 , p2 , pr ,取前r個最大特征值對應(yīng)的特征向量構(gòu)造投影矩陣P，低維特征可以通過計算投影獲得生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室42實例: 酵母菌數(shù)據(jù)上的降維和聚類結(jié)果-8-6-

23、4246-2-1012345-20First Principal ComponentSecond Principal Component-3 Principal Component Scatter Plot with Colored Clusters6 YMR250WYGR043CYNL036WYGL138CYGL184CEMPTYYJL194WYPL012WYGR138CYDR019CYMR206WLAMBYDFAR018CYMR322CLAMBDAYKL141WYML128CYLR149C YGR070WYLR327CYAL060WYLR409CYLR339CYPL273WYOR095C1

24、23456生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室43奇異值分解奇異值分解(Singular Value Decomposition) 是一個能適用于任意矩陣的一種分解方法X UV T 假設(shè)X是一個m x n的矩陣，那么得到的U是一個m x m的方陣（其向量是正交的，U里面的向量稱為左奇異向量），是一個m x n的矩陣（除了對角線的元素都是0，對角線上的元素稱為奇異值），V是一個n x n的矩陣，其向量也是正交的，V里的向量稱為右奇異向量）生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室44jjj

25、 XX T p p奇異值分解與特征值分解的聯(lián)系計算 XXT，則得到一個對稱方陣，對這個對稱方陣計算特征值分解，得到nj1XX T U U Tjjj p pT 其中U p1, p2 , pn ,生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室45 diag 1, 2 , n 利用SVD分解，可以得到XX T UV T V U T U2U TX T X V U T UV T V 2V TX的左奇異向量與矩陣XXT的特征向量一致X的右奇異向量與矩陣XTX的特征向量一致其中 2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能

26、系統(tǒng)實驗室46矩陣的低秩近似如果矩陣X的秩是r，則可以采用緊湊表示若X的秩大于r，我們?nèi)钥墒褂弥萺矩陣去近似矩陣X(其中r遠(yuǎn)小于m和n)V TmrrrnrX U=m x nm x r 若要壓縮空間來表示原矩陣X，只需存儲U,和Vr x rr x nXUVTxx47實例: 酵母菌基因表達(dá)數(shù)據(jù)集上的降維46-2-10123456-3-8-6-4-202生物信息基礎(chǔ) - Basics in BioinforFmiarstitc sPrin模c式ipa識l C別o與m智po能ne系nt統(tǒng)實驗室Second Principal ComponentYDR019CYGR043CYGL184CYGL138

27、CYMR206WYMR250WYML128CYLR149CYDL204WYJL194WYPL012WEMPTYEMPTYYNL036WYHL033CYPL273WYMR322CYLR013WYGL170CTm2222n2nUV CV T2 n21Vv , v其中 C Um222 顯示了m個基因在以v1和v2為坐標(biāo)軸的坐標(biāo)系中的分布V TPrincipal Component Scatter PlotmrrrnrX U生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室48內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法差異顯著性檢測k-均值(

28、k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)（感知器）基因表達(dá)調(diào)控網(wǎng)絡(luò)模型生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室49基因表達(dá)數(shù)據(jù)的分類在生物醫(yī)學(xué)中，基因表達(dá)數(shù)據(jù)可以應(yīng)用于腫瘤型診斷1999 年， Golub 等人的研究證明了腫瘤亞型之間在基因表達(dá)上的差異，通過對一組特異基因的表達(dá)檢測，可以進(jìn)行臨床診斷，并指導(dǎo)治療方案的制定基于基因表達(dá)數(shù)據(jù)的腫瘤分類：根據(jù)已知腫瘤類型的樣本數(shù)據(jù)來構(gòu)建分類器，然后對新的表達(dá)數(shù)據(jù)進(jìn) 行分類，從而確定腫瘤的類型T. Golub, D. Slonim, P. Tamayo, et al.

29、“Molecular classification of cancer: class discovery and class prediction by genes expression monitoring,” Science, vol. 286, no. 5439, pp. 531537, 1999.1. 最近鄰(Nearest Neighbor)規(guī)則最近鄰規(guī)則的原則: “觀其友，識其人” 局部鄰域定義為與測試向量x最鄰近的訓(xùn)練樣本，即xiN1 x arg min d x, xi y j其中 xi X x1 , x2 ,., xN 把x的響應(yīng)y定義為y F x其中 j : x j N1

30、xx1 , y1 , x2 , y2 ,., xn , yn X x1 , x2 ,., xn訓(xùn)練樣本:生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室502. k-近鄰(k-NN)規(guī)則k近鄰規(guī)則的原則: “觀其友，識其人” 局部鄰域定義為與測試向量x最鄰近的k個訓(xùn)練樣本，即回歸問題:分類問題:使用多數(shù)表決規(guī)則，使用表決獲勝的類別來定義x的類別其中xi X x1 , x2 ,., xN 把x的響應(yīng)y定義為xiNk x arg min d x, xi jykjNk xy F x 1x1 , y1 , x2 , y2 ,., xn , yn X x1 ,

31、x2 ,., xn訓(xùn)練樣本:生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室51生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室52內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法差異顯著性檢測k-均值(k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)（感知器）基因表達(dá)調(diào)控網(wǎng)絡(luò)模型生物神經(jīng)元的結(jié)構(gòu)神經(jīng)元構(gòu)成樹突：接受從其他神經(jīng)元傳入信息的神經(jīng)元纖維胞體：接受外來的信息，對各種信息進(jìn)行匯總，并進(jìn) 行閾值處理，產(chǎn)生神經(jīng)沖動軸突：連接其他神經(jīng)元的樹突和細(xì)胞體，以及完成神經(jīng)元之間的信息傳遞突

32、觸的特點：單方向的傳遞信息，且強(qiáng)度可變、具有學(xué)習(xí)功能生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室53神經(jīng)元模型單個M-P神經(jīng)元數(shù)學(xué)表達(dá)kx wy iki i0,1,.,n所有輸入連接的指標(biāo), 從0開始生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室54神經(jīng)元模型神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本信息處理單位突觸權(quán)值：對輸入信號加權(quán)加法器構(gòu)成線性組合激活函數(shù)限制神經(jīng)元輸器出振幅生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室55激活函數(shù)類型階躍函數(shù)或符號函數(shù)(a) McCull

33、och-Pitts模型線性函數(shù) (b) / 分段線性函數(shù) (d)Sigmoid函數(shù) (c) t 11 expat生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室56線性分類尋找一個線性判別函數(shù)g(x) = wTx ，對于來自類別C1 和 C2 的樣本z如果 g(z) 0, 我們把z 判定為類別1如果 g(z) 0, 我們把z判定為類別2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室57感知器 (Perceptron)即1個MP神經(jīng)元非線性神經(jīng)元數(shù)學(xué)表達(dá)mTiiw x i0y wx 其中 t 1t 01t

34、 0生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室58感知器訓(xùn)練算法假設(shè)輸入數(shù)據(jù)是線性可分的感知器模型感知器的訓(xùn)練更新權(quán)值w權(quán)值更新規(guī)則其中w w yi yi xiTiiy sgnw x,y wT x sgnwT x 0生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室59多層感知器(MLP)Rumelhart, Hinton & Williams, “Learning representations by back-propagating errors”, Nature, 1986生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室60生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基因表達(dá)數(shù)據(jù)分析

文檔簡介

溫馨提示

最新文檔

評論

基因表達(dá)數(shù)據(jù)分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔