基因表達(dá)數(shù)據(jù)分析_第1頁
基因表達(dá)數(shù)據(jù)分析_第2頁
基因表達(dá)數(shù)據(jù)分析_第3頁
基因表達(dá)數(shù)據(jù)分析_第4頁
基因表達(dá)數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物信息基礎(chǔ)Basics in Bioinformatics第8章 基因表達(dá)數(shù)據(jù)分析生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室3內(nèi)容提要引言基因表達(dá)與基因表達(dá)調(diào)控基因表達(dá)數(shù)據(jù)分析的意義基因表達(dá)數(shù)據(jù)的來源基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)控網(wǎng)絡(luò)模型兩種信息載體DNA分子蛋白質(zhì)分子生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室4分子中攜帶的信息每個生物信息載體的分子至少攜帶三種信 息遺傳信息與功

2、能相關(guān)的結(jié)構(gòu)信息進(jìn)化信息生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室5生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室6攜帶基因相同,為何表現(xiàn)不同?生物體中,每個細(xì)胞帶有同樣的基因、攜 帶相同的遺傳信息,但一個基因在不同組 織、不同細(xì)胞中的表現(xiàn)卻不一樣為什么?如何測量這種表現(xiàn)差異性?生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室7內(nèi)容提要引言基因表達(dá)與基因表達(dá)調(diào)控的概念基因表達(dá)數(shù)據(jù)分析的意義基因表達(dá)數(shù)據(jù)的來源基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)

3、控網(wǎng)絡(luò)模型生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室8基因表達(dá)數(shù)據(jù)基因表達(dá)(Gene Expression)即遺傳信息從DNA傳遞到蛋白質(zhì)的過程基因表達(dá)數(shù)據(jù)這里特指基于DNA微陣列實驗得到的反映mRNA 豐度 的數(shù)據(jù)不包括基因表達(dá)的最終產(chǎn)物(即蛋白質(zhì))的豐度數(shù)據(jù)可通過DNA微陣列技術(shù)獲得比如:cDNA微陣列,寡核苷酸芯片從全基因組水平定量或定性檢測基因轉(zhuǎn)錄產(chǎn)物mRNA 的含量生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室9基因表達(dá)調(diào)控基因表達(dá)調(diào)控: 對基因表達(dá)過程的調(diào)節(jié)機(jī)制或控制過程基因表達(dá)調(diào)控的重要性

4、生物體中,每個細(xì)胞攜帶同樣的基因;但同一個基因在 不同組織、不同細(xì)胞中的表現(xiàn)并不一樣,這是由基因 表達(dá)調(diào)控機(jī)制所決定一個細(xì)胞在特定時刻僅僅產(chǎn)生很少一部分蛋白質(zhì) (即基因組中 只有很少一部分基因得以表達(dá))基因表達(dá)調(diào)控機(jī)制根據(jù)各個細(xì)胞的功能要求,精確地控制每種 蛋白質(zhì)的生產(chǎn)數(shù)量生物體完整的生命過程是基因組中各個基因按照一定的時空次 序開關(guān)的結(jié)果生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室10內(nèi)容提要引言基因表達(dá)與基因表達(dá)調(diào)控的概念基因表達(dá)數(shù)據(jù)分析的用途與意義基因表達(dá)數(shù)據(jù)的來源基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)控網(wǎng)絡(luò)模型生物信息基礎(chǔ)

5、 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室11基因表達(dá)數(shù)據(jù)分析的用途基因表達(dá)數(shù)據(jù)中蘊含著基因活動的信息, 反映細(xì)胞當(dāng)前的生理狀態(tài)了解基因表達(dá)的時空規(guī)律,了解基因的功能獲得基因表達(dá)調(diào)控信息探索基因表達(dá)的代謝途徑探索疾病的可能發(fā)生機(jī)理生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室12基因表達(dá)數(shù)據(jù)分析的意義闡明基因表達(dá)情況在不同條件下或不同細(xì)胞類型中,哪些基因的表達(dá)存 在差異,基因的功能是什么哪些基因的表達(dá)是細(xì)胞狀態(tài)特異性的?根據(jù)它們的行 為可以判斷細(xì)胞的狀態(tài)(生存、增殖、分化、凋亡、癌 變或應(yīng)激等)揭示基因調(diào)控路徑和調(diào)

6、控網(wǎng)絡(luò)在特定條件下,哪些基因的表達(dá)發(fā)生顯著變化,這些 基因受到哪些基因的調(diào)節(jié),或者這些基因控制哪些基 因的表達(dá)生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室13內(nèi)容提要引言基因表達(dá)與基因表達(dá)調(diào)控的概念基因表達(dá)數(shù)據(jù)分析的用途與意義基因表達(dá)數(shù)據(jù)的來源基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)控網(wǎng)絡(luò)模型基因表達(dá)數(shù)據(jù)的獲取高通量檢測基因組mRNA 豐度的方法cDNA 微陣列、寡核苷酸芯片即利用4 種核苷酸之間兩兩配對互補的特性,使兩條在序列上 互補的單核苷酸鏈形成雙鏈(這個過程被稱為雜交)基本技術(shù)路線: 制備芯片,在一個約1cm大小的玻璃 片上

7、,將稱為探針的cDNA 或寡核苷酸 片段固定在上面從細(xì)胞或組織中提取mRNA ,通過合 成熒光標(biāo)記的cDNA,與芯片雜交用激光顯微鏡或熒光顯微鏡檢測雜交后 的芯片,獲取熒光強(qiáng)度,分析并得到細(xì)胞 中mRNA 豐度的信息生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室14基因表達(dá)數(shù)據(jù)的獲取示意圖生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室15基因表達(dá)數(shù)據(jù)的獲取示意圖生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室16基因表達(dá)數(shù)據(jù)獲取與分析過程生物信息基礎(chǔ) - Basic

8、s in Bioinformatics模式識別與智能系統(tǒng)實驗室17生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室18內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法基因表達(dá)調(diào)控網(wǎng)絡(luò)模型基因表達(dá)數(shù)據(jù)在不同條件下,基于DNA微陣列實驗得到 的反映mRNA 豐度的數(shù)據(jù)數(shù)據(jù)即m n 矩陣X:m: 基因的數(shù)目n: 條件數(shù)條件包括:藥物作用的時間溫度腫瘤類型不同患者等每個芯片中的數(shù)據(jù)陣列拉直成一個列向量生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室19基因表達(dá)數(shù)據(jù)的形式矩陣 X 中元素 表示第 個基因在第 個

9、條件下的 表達(dá)水平值行向量表示基因 在 個 條件下的表達(dá)水平,稱為 基因i的表達(dá)譜列向量表示某一條件 下各基因的表達(dá)水平X x11x1nxm1xmn生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室20基因表達(dá)數(shù)據(jù)預(yù)處理數(shù)據(jù)的標(biāo)準(zhǔn)化 去均值、單位方差ijixx iji基因表達(dá)數(shù)據(jù)的特點:維數(shù)高、噪聲大且相關(guān)、數(shù)據(jù)重復(fù)度低等數(shù)據(jù)清洗數(shù)據(jù)的缺值填充清除不完整數(shù)據(jù)合并重復(fù)數(shù)據(jù) 矩陣填充(Matrix Completion)生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室21生物信息基礎(chǔ) - Basics in Bioi

10、nformatics模式識別與智能系統(tǒng)實驗室22內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法差異顯著性檢測k-均值(k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)(感知器)基因表達(dá)調(diào)控網(wǎng)絡(luò)模型生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室23基因表達(dá)數(shù)據(jù)分析的3個層次分析單個基因的表達(dá)水平根據(jù)在不同實驗條件下,基因表達(dá)水平的變化,來判 斷它的功能例如根據(jù)表達(dá)差異的顯著性來確定腫瘤分型相關(guān)的特異基因方法:統(tǒng)計學(xué)中的假設(shè)檢驗同時分析多個基因,將基因分組,研究基因的共 同功能、相互作用和協(xié)同調(diào)控方法:聚類分析嘗試推斷潛在的基

11、因調(diào)控網(wǎng)絡(luò),從機(jī)理上解釋觀 察到的基因表達(dá)數(shù)據(jù)方法: 反向工程方法生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室24基因表達(dá)差異的顯著性分析對于基因表達(dá)數(shù)據(jù)的分析,目的是要識別在不同條件下有顯著表達(dá)差 異的基因顯著表達(dá)差異通常是指,一個基因在不同條件中表達(dá)水平的檢測值在排 除實驗、檢測等因素外,達(dá)到一定的差異,具有統(tǒng)計學(xué)意義,同時也具 有生物學(xué)意義常用的分析方法有3類第1類稱之為倍數(shù)分析,計算每一個基因在兩個條件下的Ratio 值,若大 于給定閾值,則為表達(dá)差異顯著的基因第2類方法采用統(tǒng)計分析中的t 檢驗和方差分析,計算表達(dá)差異的置信度, 來分析差異

12、是否具有統(tǒng)計顯著性第3類是建模的方法,通過確定兩個條件下的模型參數(shù)是否相同來判斷表 達(dá)差異的顯著性生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室25假設(shè)檢驗確定零假設(shè)H0和備選假設(shè)H1 H0:在兩個條件下,平均表達(dá)水平是相等的H1:在兩個條件下,平均表達(dá)水平是變化的構(gòu)造一個統(tǒng)計量根據(jù)統(tǒng)計量,計算概率值pp: 表示在零假設(shè)成立的情況下,出現(xiàn)該數(shù)據(jù)的概率如果p小于給定的顯著性水平,則拒絕零假設(shè),接受備選假設(shè)生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室26內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方

13、法差異顯著性檢測k-均值(k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)(感知器)基因表達(dá)調(diào)控網(wǎng)絡(luò)模型基因表達(dá)數(shù)據(jù)的聚類對基因表達(dá)數(shù)據(jù)聚類,可以實現(xiàn)對基因分組生物學(xué)意義: 表達(dá)譜相似的基因可能有相似的功 能,因此按基因表達(dá)譜對基因進(jìn)行分組聚類是一種無監(jiān)督學(xué)習(xí)方法典型算法有: k-均值、層次聚類、自組織特征映射網(wǎng) 絡(luò)、譜聚類生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室27k-均值算法的初始值Step 2. 更新中心點: 計算出每個簇的新的中心點:Step 3. 重復(fù)第1和2步,直到達(dá)到最大步數(shù)或目標(biāo)函數(shù)變化小于閾值 為止Step 0

14、. 隨機(jī)選定 K 個數(shù)據(jù)點作為中心 1 ,.,K1NjjNi 1 i, ji rx ,Step 1. 數(shù)據(jù)點的指派/歸類: 將每個數(shù)據(jù)點歸到離它最近的那個中心 點所代表的簇(cluster)中 如果D xi ,k D xi ,j , j k則令 ri,k 1 ,否則為0;其中D(.,.)表示距離函數(shù)2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室282NKNKi, jiji, jJ i1j1i1j1rDx ,rxi jji, jrNi 1Nk-均值聚類示例 (1/5)Step 0. 初始化: k: 預(yù)先指定的 聚類數(shù)目隨機(jī)選取k個點 作為k個簇(cl

15、uster)中心如右圖 panel 所示生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室29k-均值聚類示例 (2/5)Step 1. 基于最近 鄰規(guī)則進(jìn)行數(shù)據(jù) 點的指派(assignment)/歸 類計算其它數(shù)據(jù)點 與k個中心點的距 離距離哪個cluster 的中心點近,就 被歸入哪個cluster中如右圖 panel (b)所示生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室30k-均值聚類示例 (3/5)Step 2. 中心點 的更新根據(jù)各個cluster所包含的數(shù)據(jù)點,計 算新的聚類中 心點如右圖 pa

16、nel (c)所示生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室31k-均值聚類示例 (4/5)Step 1. 基于更新 后的均值重新進(jìn) 行數(shù)據(jù)點指派 (assignment)如右圖 panel (d)所示生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室32k-均值聚類示例 (5/5)Step 3. 若不滿 足停止條件, 重復(fù)Step 1和 Step 2如右圖 panel(e)(i)所示停止條件:迭代次數(shù)達(dá)到中心點不改變目標(biāo)函數(shù)變化 量小于閾值生物信息基礎(chǔ) - Basics in Bioinformatics

17、模式識別與智能系統(tǒng)實驗室33k-均值聚類示例每次迭代將減 少目標(biāo)函數(shù)值收斂于全局或 局部最小值生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室34如果數(shù)據(jù)中的聚類結(jié)構(gòu)比較復(fù)雜k-means算法無法給出滿意的結(jié)果 需要考慮譜聚類(Spectral Clustering)算法生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室35生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室36譜聚類(Spectral Clustering)什么是譜聚類?對數(shù)據(jù)先變換(譜嵌入),再使用k-均

18、值聚類算法源自代數(shù)學(xué)中的譜圖理論,即用矩陣特征分解來分析問題主要工具:圖的拉普拉斯矩陣圖拉普拉斯(Graph Laplacian)矩陣 規(guī)范化的LaplacianU. von Luxburg, “A tutorial on spectral clustering”, Statistics and Computing 17, 2006.L I D1/ 2WD1/ 2D diagd1 , dN ,di j wij非規(guī)范的LaplacianL D W ,W是點對之間的相似度,矩陣W要求對稱譜聚類之版本1:minCut基本步驟: 1. 定義相似度矩陣W2. 由W構(gòu)造圖Laplacian矩陣L = D

19、W ,D為對角陣, W要求對稱3. 對L進(jìn)行奇異值分解U, S, V = SVD(L)SVD為奇異值分解,其中奇異值按由小到大排列4. 通過零特征值數(shù)目估計聚類的個數(shù)k,使用k個最小 特征值對應(yīng)的k個右奇異值向量V作為新的特征,運行 k-means由于矩陣L是對稱矩 陣,其奇異值分解與 特征值分解結(jié)果一樣生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室37生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室38譜聚類之版本2: Normalized Cut基本步驟 : 1. 定義相似度矩陣W 2. 由W構(gòu)造圖Lap

20、lacian矩陣并規(guī)范化:3. 對L進(jìn)行奇異值分解U, S, V = SVD(L)SVD為奇異值分解,其中奇異值按由小到大排列4. 通過零特征值數(shù)目估計聚類的個數(shù)k,使用k個最小 特征值對應(yīng)的k個右奇異值向量V作為新的特征,運行 k-meansL I D1/ 2WD1/ 2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室39內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法差異顯著性檢測k-均值(k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)(感知器)基因表達(dá)調(diào)控網(wǎng)絡(luò)模型主成分分析Principal Component Ana

21、lysis (PCA)是一種掌握數(shù)據(jù)主要矛盾的統(tǒng)計分析方法它可以從多個變量中分析出主要影響因素、進(jìn) 而揭示事物的本質(zhì),簡化問題PCA的目的把高維數(shù)據(jù)投影到低維空間PCA的目標(biāo)尋找r個新變量,使他們反映事物的主要特征, 壓縮原有數(shù)據(jù)矩陣的規(guī)模生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室40主成分分析主成分分析是一種線性降維技術(shù)使用樣本協(xié)方差矩陣的主特征向量作為坐標(biāo)軸, 定義一個新坐標(biāo)系,然后把數(shù)據(jù)投影到這個新 坐標(biāo)系中本質(zhì)上,相當(dāng)于進(jìn)行坐標(biāo)系變換給定數(shù)據(jù)矩陣X x , x , x, 構(gòu)造投影矩陣P,則低維特征即為投影Y PT X生物信息基礎(chǔ) - Ba

22、sics in Bioinformatics模式識別與智能系統(tǒng)實驗室41其中 Y y1 , y2 , yn ,y Rri12ni其中 x Rm主成分分析基本步驟: Step 1: 計算樣本協(xié)方差矩陣SnTiS 1n ix x i1Step 2: 特征值分解S p p ,p Rm , i 1,., riiiiStep 3: 提取主方向,構(gòu)造投影矩陣PP p1 , p2 , pr ,取前r個最大特征值對應(yīng)的特征向量構(gòu)造投影矩陣P, 低維特征可以通過計算投影獲得生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室42實例: 酵母菌數(shù)據(jù)上的降維和聚類結(jié)果-8-6-

23、4246-2-1012345-20First Principal ComponentSecond Principal Component-3 Principal Component Scatter Plot with Colored Clusters6 YMR250WYGR043CYNL036WYGL138CYGL184CEMPTYYJL194WYPL012WYGR138CYDR019CYMR206WLAMBYDFAR018CYMR322CLAMBDAYKL141WYML128CYLR149C YGR070WYLR327CYAL060WYLR409CYLR339CYPL273WYOR095C1

24、23456生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室43奇異值分解奇異值分解(Singular Value Decomposition) 是一個能適用于任意矩陣的一種分解方法X UV T 假設(shè)X是一個m x n的矩陣,那么得到的U是一個m x m的方陣(其向 量是正交的,U里面的向量稱為左奇異向量),是一個m x n的矩陣(除了對角線的元素都是0,對角線上的元素稱為奇異 值),V是一個n x n的矩陣,其向量也是正交的,V里的向量稱 為右奇異向量)生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室44jjj

25、 XX T p p奇異值分解與特征值分解的聯(lián)系計算 XXT,則得到一個對稱方陣,對這個對稱方 陣計算特征值分解,得到nj1XX T U U Tjjj p pT 其中U p1, p2 , pn ,生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室45 diag 1, 2 , n 利用SVD分解,可以得到XX T UV T V U T U2U TX T X V U T UV T V 2V TX的左奇異向量與矩陣XXT的特征向量一致X的右奇異向量與矩陣XTX的特征向量一致 其中 2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能

26、系統(tǒng)實驗室46矩陣的低秩近似如果矩陣X的秩是r,則可以采用緊湊表示 若X的秩大于r,我們?nèi)钥墒褂弥萺矩陣去近似矩 陣X(其中r遠(yuǎn)小于m和n)V TmrrrnrX U=m x nm x r 若要壓縮空間來表示原矩陣X,只需存儲U,和Vr x rr x nXUVTxx47實例: 酵母菌基因表達(dá)數(shù)據(jù)集上的降維46-2-10123456-3-8-6-4-202生物信息基礎(chǔ) - Basics in BioinforFmiarstitc sPrin模c式ipa識l C別o與m智po能ne系nt統(tǒng)實驗室Second Principal ComponentYDR019CYGR043CYGL184CYGL138

27、CYMR206WYMR250WYML128CYLR149CYDL204WYJL194WYPL012WEMPTYEMPTYYNL036WYHL033CYPL273WYMR322CYLR013WYGL170CTm2222n2nUV CV T2 n21Vv , v其中 C Um222 顯示了m個基因 在以v1和v2為 坐標(biāo)軸的坐標(biāo)系中的分布V TPrincipal Component Scatter PlotmrrrnrX U生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室48內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法差異顯著性檢測k-均值(

28、k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)(感知器)基因表達(dá)調(diào)控網(wǎng)絡(luò)模型生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室49基因表達(dá)數(shù)據(jù)的分類在生物醫(yī)學(xué)中,基因表達(dá)數(shù)據(jù)可以應(yīng)用于 腫瘤型診斷1999 年, Golub 等人的研究證明了腫瘤亞型 之間在基因表達(dá)上的差異,通過對一組特異基 因的表達(dá)檢測,可以進(jìn)行臨床診斷,并指導(dǎo)治 療方案的制定基于基因表達(dá)數(shù)據(jù)的腫瘤分類:根據(jù)已知腫瘤類型 的樣本數(shù)據(jù)來構(gòu)建分類器,然后對新的表達(dá)數(shù)據(jù)進(jìn) 行分類,從而確定腫瘤的類型T. Golub, D. Slonim, P. Tamayo, et al.

29、“Molecular classification of cancer: class discovery and class prediction by genes expression monitoring,” Science, vol. 286, no. 5439, pp. 531537, 1999.1. 最近鄰(Nearest Neighbor)規(guī)則最近鄰規(guī)則的原則: “觀其友,識其人” 局部鄰域定義為與測試向量x最鄰近的訓(xùn)練樣 本,即xiN1 x arg min d x, xi y j其中 xi X x1 , x2 ,., xN 把x的響應(yīng)y定義為y F x其中 j : x j N1

30、xx1 , y1 , x2 , y2 ,., xn , yn X x1 , x2 ,., xn訓(xùn)練樣本:生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室502. k-近鄰(k-NN)規(guī)則k近鄰規(guī)則的原則: “觀其友,識其人” 局部鄰域定義為與測試向量x最鄰近的k個訓(xùn)練樣本,即回歸問題:分類問題:使用多數(shù)表決規(guī)則,使用表決獲勝的類別來定義x的類別其中xi X x1 , x2 ,., xN 把x的響應(yīng)y定義為xiNk x arg min d x, xi jykjNk xy F x 1x1 , y1 , x2 , y2 ,., xn , yn X x1 ,

31、x2 ,., xn訓(xùn)練樣本:生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室51生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室52內(nèi)容提要引言基因表達(dá)數(shù)據(jù)的預(yù)處理基因表達(dá)數(shù)據(jù)分析的主要方法差異顯著性檢測k-均值(k-means)聚類PCA / SVD最近鄰和k近鄰分類神經(jīng)網(wǎng)絡(luò)(感知器)基因表達(dá)調(diào)控網(wǎng)絡(luò)模型生物神經(jīng)元的結(jié)構(gòu)神經(jīng)元構(gòu)成樹突:接受從其他神經(jīng)元傳入信息的神經(jīng)元纖維胞體:接受外來的信息,對各種信息進(jìn)行匯總,并進(jìn) 行閾值處理,產(chǎn)生神經(jīng)沖動軸突:連接其他神經(jīng)元的樹突和細(xì)胞體,以及完成神 經(jīng)元之間的信息傳遞突

32、觸的特點:單方向的傳遞信息,且強(qiáng)度可變、 具有學(xué)習(xí)功能生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室53神經(jīng)元模型單個M-P神經(jīng)元數(shù)學(xué)表達(dá)kx wy iki i0,1,.,n所有輸入連接的指標(biāo), 從0開始生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室54神經(jīng)元模型神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本信息處理單位突觸權(quán)值:對輸入信號加權(quán)加法器構(gòu)成線性組合激活函數(shù)限制神經(jīng)元輸器出振幅生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室55激活函數(shù)類型階躍函數(shù)或符號函數(shù)(a) McCull

33、och-Pitts模型線性函數(shù) (b) / 分段線性函數(shù) (d)Sigmoid函數(shù) (c) t 11 expat生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室56線性分類尋找一個線性判別函數(shù)g(x) = wTx ,對于來自類 別C1 和 C2 的樣本z如果 g(z) 0, 我們把z 判定為類別1如果 g(z) 0, 我們把z判定為類別2生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室57感知器 (Perceptron)即1個MP神經(jīng)元 非線性神經(jīng)元 數(shù)學(xué)表達(dá)mTiiw x i0y wx 其中 t 1t 01t

34、 0生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室58感知器訓(xùn)練算法假設(shè)輸入數(shù)據(jù)是線性可分的感知器模型感知器的訓(xùn)練更新權(quán)值w權(quán)值更新規(guī)則其中w w yi yi xiTiiy sgnw x,y wT x sgnwT x 0生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室59多層感知器(MLP)Rumelhart, Hinton & Williams, “Learning representations by back-propagating errors”, Nature, 1986生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室60生物信息基礎(chǔ) - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論