《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析_第1頁(yè)
《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析_第2頁(yè)
《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析_第3頁(yè)
《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析_第4頁(yè)
《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析_第5頁(yè)
已閱讀5頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基因芯片技術(shù)第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析內(nèi)容提要:內(nèi)容提要:l第一節(jié)第一節(jié) 差異表達(dá)基因分析差異表達(dá)基因分析l第二節(jié)第二節(jié) 聚類分析聚類分析l第三節(jié)第三節(jié) 主成分分析主成分分析第第8章章 利用基因芯片進(jìn)行差異表達(dá)基因分析利用基因芯片進(jìn)行差異表達(dá)基因分析第一節(jié)第一節(jié) 差異表達(dá)基因分析差異表達(dá)基因分析 單張單張cDNAcDNA芯片差異表達(dá)基因芯片差異表達(dá)基因Aerobic 需氧Anaerobic不需氧差異表達(dá)基因分析差異表達(dá)基因分析l基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣本間差異表達(dá)基因。本間差異表達(dá)基因。l通常采用基因在實(shí)驗(yàn)組和對(duì)照組

2、中信號(hào)的比值作為通常采用基因在實(shí)驗(yàn)組和對(duì)照組中信號(hào)的比值作為衡量基因在兩種狀態(tài)下基因的表達(dá)差異。衡量基因在兩種狀態(tài)下基因的表達(dá)差異。l在雙色熒光系統(tǒng)中,用在雙色熒光系統(tǒng)中,用Cy5/Cy3Cy5/Cy3的比值來(lái)衡量基因的的比值來(lái)衡量基因的表達(dá)差異,也稱表達(dá)差異值。表達(dá)差異,也稱表達(dá)差異值。差異表達(dá)基因分析差異表達(dá)基因分析l在在AffymetrixAffymetrix等短的寡核苷酸芯片中,采用單色熒等短的寡核苷酸芯片中,采用單色熒光標(biāo)記的方式,實(shí)驗(yàn)組和對(duì)照組分別用兩張芯片進(jìn)光標(biāo)記的方式,實(shí)驗(yàn)組和對(duì)照組分別用兩張芯片進(jìn)行檢測(cè),表達(dá)差異值即為兩張芯片的信號(hào)比值。行檢測(cè),表達(dá)差異值即為兩張芯片的信號(hào)比

3、值。l噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)給篩選差異表達(dá)基因帶來(lái)了很大的麻煩。給篩選差異表達(dá)基因帶來(lái)了很大的麻煩。l必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的閾值。的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的閾值。 如何確定差異表達(dá)基因的閾值如何確定差異表達(dá)基因的閾值倍數(shù)法倍數(shù)法l優(yōu)點(diǎn):簡(jiǎn)單、直接。優(yōu)點(diǎn):簡(jiǎn)單、直接。l缺點(diǎn):沒(méi)有考慮差異表達(dá)的統(tǒng)計(jì)顯著性。比如,在某個(gè)實(shí)驗(yàn)中,缺點(diǎn):沒(méi)有考慮差異表達(dá)的統(tǒng)計(jì)顯著性。比如,在某個(gè)實(shí)驗(yàn)中,基因表達(dá)水平的變化不大,如果選擇判別域值為基因表達(dá)水平的變化不

4、大,如果選擇判別域值為2 2倍,則有可能倍,則有可能找不到幾個(gè)差異表達(dá)的基因,假陰性率比較高。但如果是主觀找不到幾個(gè)差異表達(dá)的基因,假陰性率比較高。但如果是主觀縮小判斷域值,又有可能增大假陽(yáng)性率??s小判斷域值,又有可能增大假陽(yáng)性率。 Z Z值法值法 l在一張?jiān)谝粡坈DNAcDNA芯片上一般都點(diǎn)了很多基因,其實(shí)這些基芯片上一般都點(diǎn)了很多基因,其實(shí)這些基因中只有一小部分表達(dá)有差異,所以一般都假設(shè)表達(dá)因中只有一小部分表達(dá)有差異,所以一般都假設(shè)表達(dá)的比率值滿足正態(tài)分布。的比率值滿足正態(tài)分布。lZ=(X-)/Z=(X-)/. |Z|=1.96. |Z|=1.96l在寡核苷酸芯片中,芯片上的基因在相應(yīng)實(shí)驗(yàn)

5、條件下在寡核苷酸芯片中,芯片上的基因在相應(yīng)實(shí)驗(yàn)條件下或相應(yīng)組織中也只有一小部分基因有表達(dá),可以假定或相應(yīng)組織中也只有一小部分基因有表達(dá),可以假定強(qiáng)度滿足對(duì)數(shù)正態(tài)分布,同樣可以對(duì)其作強(qiáng)度滿足對(duì)數(shù)正態(tài)分布,同樣可以對(duì)其作Z Z變換,使其變換,使其具有統(tǒng)計(jì)意義。具有統(tǒng)計(jì)意義。Z Z值法值法 缺點(diǎn):缺點(diǎn):l如果實(shí)驗(yàn)體系中沒(méi)有一條差異表達(dá)的基因,如果實(shí)驗(yàn)體系中沒(méi)有一條差異表達(dá)的基因,Z Z值法還是值法還是會(huì)挑選出會(huì)挑選出5 5的差異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中,的差異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中,總有一些由于背景噪聲產(chǎn)生的假陽(yáng)性點(diǎn)??傆幸恍┯捎诒尘霸肼暜a(chǎn)生的假陽(yáng)性點(diǎn)。l如果實(shí)際上實(shí)驗(yàn)中有大量的基因表

6、達(dá)發(fā)生改變,如果實(shí)際上實(shí)驗(yàn)中有大量的基因表達(dá)發(fā)生改變,Z Z值法值法還是機(jī)械的找出還是機(jī)械的找出5 5的差異表達(dá)基因,丟失了一部分真的差異表達(dá)基因,丟失了一部分真陽(yáng)性點(diǎn)。陽(yáng)性點(diǎn)。 排秩統(tǒng)計(jì)量法排秩統(tǒng)計(jì)量法l選擇一個(gè)統(tǒng)計(jì)量給基因排秩(研究多,方法多)選擇一個(gè)統(tǒng)計(jì)量給基因排秩(研究多,方法多)l為排秩統(tǒng)計(jì)量選擇一個(gè)閾值,在閾值之上的值將為排秩統(tǒng)計(jì)量選擇一個(gè)閾值,在閾值之上的值將被認(rèn)為是表達(dá)差異顯著的值被認(rèn)為是表達(dá)差異顯著的值重復(fù)芯片(重復(fù)芯片(replicatesreplicates)M M值法值法l根據(jù)比率平均值或根據(jù)比率平均值或M M值對(duì)基因排序。值對(duì)基因排序。M M值為信號(hào)強(qiáng)值為信號(hào)強(qiáng)度比值

7、的度比值的log2log2值,值,M M杠是任一特定基因在重復(fù)序列杠是任一特定基因在重復(fù)序列中中M M值的均值。值的均值。l缺點(diǎn):這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中缺點(diǎn):這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。例如,可能的不同芯片上表達(dá)水平的差異程度。例如,可能某一個(gè)基因在某一張芯片上某一個(gè)基因在某一張芯片上M M值很大,但在其他芯值很大,但在其他芯片上片上M M值很小,其實(shí)這條基因并沒(méi)有差異表達(dá),但值很小,其實(shí)這條基因并沒(méi)有差異表達(dá),但由于個(gè)別由于個(gè)別M M值的影響,從而顯示出一個(gè)差異表達(dá)的值的影響,從而顯示出一個(gè)差異表達(dá)的特性,造成假陽(yáng)性特性,造成假陽(yáng)性。 T

8、 T值排序值排序l假如一個(gè)基因在幾張重復(fù)芯片的假如一個(gè)基因在幾張重復(fù)芯片的M M值都很小,值都很小,但是這些但是這些M M值非常接近,所以值非常接近,所以s s值也非常小,這值也非常小,這樣可能會(huì)導(dǎo)致樣可能會(huì)導(dǎo)致t t值很大,從而會(huì)把這個(gè)本沒(méi)有值很大,從而會(huì)把這個(gè)本沒(méi)有差異表達(dá)的基因誤認(rèn)為差異表達(dá)。差異表達(dá)的基因誤認(rèn)為差異表達(dá)。 修正的修正的T T值法值法l修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。結(jié)果顯示:在一個(gè)模擬的數(shù)據(jù)集中,雖然帶有結(jié)果顯示:在一個(gè)模擬的數(shù)據(jù)集中,雖然帶有一些經(jīng)驗(yàn)性質(zhì),但用修正一些經(jīng)驗(yàn)性質(zhì),但用修正t-t-統(tǒng)計(jì)量給基因排秩統(tǒng)計(jì)量給基因

9、排秩比用均數(shù)和一般的比用均數(shù)和一般的t-t-統(tǒng)計(jì)量效果要好。統(tǒng)計(jì)量效果要好。 單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)Affymetrix,illumina芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法計(jì)算出一個(gè)統(tǒng)計(jì)性的計(jì)算出一個(gè)統(tǒng)計(jì)性的P值或者值或者score值,篩選差異表達(dá)基因。值,篩選差異表達(dá)基因。不同類樣本差異基因識(shí)別不同類樣本差異基因識(shí)別評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量l平均值平均值 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差比較多組數(shù)的方法比較多組數(shù)的方法lT檢驗(yàn):平均值檢驗(yàn):平均值lF檢驗(yàn):檢驗(yàn): 方差方差SAM(signifi

10、cance analysis of microarrays)微陣列顯著性分析微陣列顯著性分析 在單通道在單通道Oligo芯片中,尤其芯片中,尤其是是affymetrix芯芯片數(shù)據(jù)分析中片數(shù)據(jù)分析中用得較多用得較多雙通道雙通道cDNA芯片數(shù)據(jù)分析用得較多芯片數(shù)據(jù)分析用得較多False Discovery Rate (FDR)錯(cuò)誤發(fā)現(xiàn)率錯(cuò)誤發(fā)現(xiàn)率l統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基因,即通過(guò)假設(shè)檢驗(yàn)后,賦予每個(gè)基因統(tǒng)計(jì)顯著因,即通過(guò)假設(shè)檢驗(yàn)后,賦予每個(gè)基因統(tǒng)計(jì)顯著性或者性或者P P值,使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上值,使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上

11、的意義。的意義。l為了達(dá)到這個(gè)目的,統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤為了達(dá)到這個(gè)目的,統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤發(fā)現(xiàn)率(發(fā)現(xiàn)率(False Discovery RateFalse Discovery Rate)的方法來(lái)判斷)的方法來(lái)判斷差異基因。錯(cuò)誤發(fā)現(xiàn)率是評(píng)估檢驗(yàn)統(tǒng)計(jì)顯著性的差異基因。錯(cuò)誤發(fā)現(xiàn)率是評(píng)估檢驗(yàn)統(tǒng)計(jì)顯著性的最有力工具之一。最有力工具之一。 Multiple test (P-value adjustment)多重檢驗(yàn)(多重檢驗(yàn)(P-價(jià)值判斷)價(jià)值判斷)火山圖(火山圖(volcano plot)lStatistical test: P-value(統(tǒng)計(jì)檢驗(yàn):P值)lFold change: Ra

12、tio(折疊變換:比率)其他方法lB-statistics (Smyth,2004)lBayes T-test (Baldi and Long, 2001)lSAMROC (Broberg, 2002)lZhao-Pan method (Zhao and Pan, 2003)l lImproved Detection of Differentially Expressed Genesl對(duì)差異表達(dá)基因的改良性觀測(cè)對(duì)差異表達(dá)基因的改良性觀測(cè) lTime series microarray dataset 微陣列數(shù)據(jù)的時(shí)間序列微陣列數(shù)據(jù)的時(shí)間序列 聚類:聚類:發(fā)現(xiàn)一些未知的細(xì)胞狀態(tài)、疾病的亞型以及一

13、些能識(shí)別這些樣本狀態(tài)的基因,或者說(shuō)發(fā)現(xiàn)一類功能相似的基因或者一類有共同調(diào)控機(jī)制的基因。歸類(分類)歸類(分類):基于已有知識(shí),并有改進(jìn)現(xiàn)有知識(shí)的潛力,通過(guò)訓(xùn)練分類器來(lái)辨識(shí)與已知細(xì)胞狀態(tài)或疾病亞型相類似的樣本,或者是與已知的共調(diào)控基因表達(dá)相似的基因。 第二節(jié)第二節(jié) 基因芯片聚類分析基因芯片聚類分析 分類分類(classification)(classification)分類(classification)l樣本分類情況已知l分類基因選取l分類準(zhǔn)確性判斷:準(zhǔn)確率,相關(guān)性層級(jí)聚類方法:層級(jí)聚類方法:得到類似于進(jìn)化分析的系統(tǒng)樹(shù)圖,具有相似表達(dá)譜的基因彼此得到類似于進(jìn)化分析的系統(tǒng)樹(shù)圖,具有相似表達(dá)譜的基

14、因彼此臨近,他們可能具有相似的功能。臨近,他們可能具有相似的功能。其重要思想是:先將其重要思想是:先將n個(gè)樣本看成個(gè)樣本看成n類,計(jì)算類間的距離,再將類,計(jì)算類間的距離,再將相似性最高的兩類合并成為一個(gè)新類,得到相似性最高的兩類合并成為一個(gè)新類,得到n-1類,再重新計(jì)算類,再重新計(jì)算關(guān)系矩陣,不斷重復(fù)這個(gè)過(guò)程直至所有的基因融合成為一個(gè)關(guān)系矩陣,不斷重復(fù)這個(gè)過(guò)程直至所有的基因融合成為一個(gè)基因表達(dá)數(shù)據(jù)矩陣基因表達(dá)數(shù)據(jù)矩陣 (Affymetrix GeneChip (Affymetrix GeneChip oligonucleotide arrays)oligonucleotide arrays)G

15、ene expression table X:log sam/ref intensitiesX0:gene is overexpressedX0:gene is underexpressed 基因表達(dá)數(shù)據(jù)矩陣基因表達(dá)數(shù)據(jù)矩陣 (glass slides)Gene expression table X:log red/green intensitiesX0:gene is overexpressedX0:gene is underexpressed 數(shù)據(jù)矩陣具體形式數(shù)據(jù)矩陣具體形式數(shù)據(jù)形式數(shù)據(jù)形式對(duì)任意一個(gè)基因來(lái)說(shuō),樣本值是特征值,數(shù)據(jù)的維數(shù)是對(duì)任意一個(gè)基因來(lái)說(shuō),樣本值是特征值,數(shù)據(jù)的維數(shù)是M對(duì)

16、任意一個(gè)樣本來(lái)說(shuō),基因值是特征值,數(shù)據(jù)的維數(shù)是對(duì)任意一個(gè)樣本來(lái)說(shuō),基因值是特征值,數(shù)據(jù)的維數(shù)是N數(shù)據(jù)矩陣數(shù)據(jù)矩陣, ,基因數(shù)遠(yuǎn)大于樣品數(shù)?;驍?shù)遠(yuǎn)大于樣品數(shù)。聚類時(shí),考查基因間的相似性,從數(shù)學(xué)上講就是看對(duì)應(yīng)的聚類時(shí),考查基因間的相似性,從數(shù)學(xué)上講就是看對(duì)應(yīng)的M M維維數(shù)據(jù)之間的相似性。數(shù)據(jù)之間的相似性。Cluster&TreeviewCluster&Treeview軟件軟件Cluster&TreeviewCluster&Treeview軟件軟件Genesis軟件軟件預(yù)分析(預(yù)分析(Pre-Analysis)l重復(fù)值合并(重復(fù)值合并( replicate handling )l數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化(

17、數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化(data transformation and standardization)l缺失數(shù)據(jù)處理(缺失數(shù)據(jù)處理( missing value management )l基因篩選(基因篩選(pattern selection)重復(fù)值合并重復(fù)值合并在特定條件下把所有的重復(fù)值合并成一個(gè)數(shù)值可能更為方便,在特定條件下把所有的重復(fù)值合并成一個(gè)數(shù)值可能更為方便,而這一個(gè)值是給定基因而這一個(gè)值是給定基因/條件的代表。條件的代表。通常的合并:計(jì)算這些重復(fù)值的集中趨勢(shì)指標(biāo),如均數(shù)、中位通常的合并:計(jì)算這些重復(fù)值的集中趨勢(shì)指標(biāo),如均數(shù)、中位數(shù)或眾數(shù)。但是,使用一個(gè)集中趨勢(shì)指標(biāo)代替一組數(shù)值意味著數(shù)或

18、眾數(shù)。但是,使用一個(gè)集中趨勢(shì)指標(biāo)代替一組數(shù)值意味著信息的丟失,因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。信息的丟失,因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。 去除奇異值:可以通過(guò)計(jì)算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差,去除位去除奇異值:可以通過(guò)計(jì)算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差,去除位于給定區(qū)間外的數(shù)據(jù)(如均數(shù)加減于給定區(qū)間外的數(shù)據(jù)(如均數(shù)加減3個(gè)標(biāo)準(zhǔn)差外的數(shù)據(jù))。剩個(gè)標(biāo)準(zhǔn)差外的數(shù)據(jù))。剩余的數(shù)據(jù)重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差,并消除給定區(qū)間外的數(shù)據(jù)。余的數(shù)據(jù)重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差,并消除給定區(qū)間外的數(shù)據(jù)。重復(fù)值合并:重復(fù)值合并:數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化l數(shù)據(jù)變換的目的:在盡量保證原始數(shù)據(jù)特征不數(shù)據(jù)變換的目的:在盡量保證原始數(shù)據(jù)特征不變的前提下,使變換后

19、的數(shù)據(jù)更適于進(jìn)行統(tǒng)計(jì)變的前提下,使變換后的數(shù)據(jù)更適于進(jìn)行統(tǒng)計(jì)分析。分析。 l對(duì)數(shù)轉(zhuǎn)化(對(duì)數(shù)轉(zhuǎn)化(log-transformationlog-transformation)l中心化處理(中心化處理(centercenter)l單位圓化單位圓化l正態(tài)化(均值為正態(tài)化(均值為0 0,方差為,方差為1 1)缺失數(shù)據(jù)處理缺失數(shù)據(jù)處理l芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕?、點(diǎn)像素強(qiáng)度達(dá)芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕荨Ⅻc(diǎn)像素強(qiáng)度達(dá)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的數(shù)據(jù)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的數(shù)據(jù)點(diǎn),在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。點(diǎn),在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。l未觀測(cè)點(diǎn)

20、未觀測(cè)點(diǎn)l若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性,如特征基因若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性,如特征基因提取的奇異值分解、某些基因的聚類分析方法等,則提取的奇異值分解、某些基因的聚類分析方法等,則需要對(duì)含有缺失值的數(shù)據(jù)進(jìn)行處理需要對(duì)含有缺失值的數(shù)據(jù)進(jìn)行處理 l刪除含有缺失值的整條記錄,這種方法操作簡(jiǎn)單,但刪除含有缺失值的整條記錄,這種方法操作簡(jiǎn)單,但卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄,可能丟失大量卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄,可能丟失大量有價(jià)值的信息有價(jià)值的信息 l填充或修補(bǔ)缺失數(shù)據(jù)填充或修補(bǔ)缺失數(shù)據(jù)缺失數(shù)據(jù)的處理缺失數(shù)據(jù)的處理l固定值法,比如固定值法,比如0 0或者或者1 1l行平均法行平均

21、法l使用重復(fù)數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)據(jù)進(jìn)行填充。對(duì)于生物學(xué)重使用重復(fù)數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)據(jù)進(jìn)行填充。對(duì)于生物學(xué)重復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重,應(yīng)當(dāng)使用盡量同質(zhì)的樣復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重,應(yīng)當(dāng)使用盡量同質(zhì)的樣品對(duì)缺失值進(jìn)行估計(jì)。品對(duì)缺失值進(jìn)行估計(jì)。l使用基因間的相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行填充。奇異值分使用基因間的相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行填充。奇異值分解法,解法,KNNKNN法。法。l其他方法,最小二乘法擬合修補(bǔ),方差迭代分析,最其他方法,最小二乘法擬合修補(bǔ),方差迭代分析,最大可能性分析大可能性分析 缺失數(shù)據(jù)的處理方法缺失數(shù)據(jù)的處理方法KNN法K最近鄰法(最近鄰法(K-nearest neighborhood method)

22、:):假定某個(gè)基因在某個(gè)指標(biāo)上含有缺失值,計(jì)算含缺失值假定某個(gè)基因在某個(gè)指標(biāo)上含有缺失值,計(jì)算含缺失值的基因與在該指標(biāo)上無(wú)缺失的基因間的相似性指標(biāo)。的基因與在該指標(biāo)上無(wú)缺失的基因間的相似性指標(biāo)。與該基因相似性最大的與該基因相似性最大的K個(gè)基因稱為該基因的個(gè)基因稱為該基因的K個(gè)最近個(gè)最近鄰,這鄰,這K個(gè)基因在該指標(biāo)上的數(shù)據(jù)就是估計(jì)該基因缺失個(gè)基因在該指標(biāo)上的數(shù)據(jù)就是估計(jì)該基因缺失數(shù)據(jù)的基礎(chǔ),估計(jì)值可以是這數(shù)據(jù)的基礎(chǔ),估計(jì)值可以是這K個(gè)基因在該指標(biāo)上的均個(gè)基因在該指標(biāo)上的均數(shù),也可以是這數(shù),也可以是這K個(gè)基因的加權(quán)均數(shù)。個(gè)基因的加權(quán)均數(shù)。在加權(quán)均數(shù)中,權(quán)重為上面計(jì)算的基因間的相似性。在加權(quán)均數(shù)中,

23、權(quán)重為上面計(jì)算的基因間的相似性。K值的確定具有一定的經(jīng)驗(yàn)性,但不宜太大和太小。值的確定具有一定的經(jīng)驗(yàn)性,但不宜太大和太小。 基因篩選(基因篩選(gene selection)l在進(jìn)行分析之前,要先選擇用來(lái)分析的基因。芯片中的基在進(jìn)行分析之前,要先選擇用來(lái)分析的基因。芯片中的基因有上萬(wàn)條,相應(yīng)的數(shù)據(jù)矩陣也有上萬(wàn)行時(shí),要預(yù)先進(jìn)行因有上萬(wàn)條,相應(yīng)的數(shù)據(jù)矩陣也有上萬(wàn)行時(shí),要預(yù)先進(jìn)行基因的濾取,否則既會(huì)增加運(yùn)算的難度,又會(huì)引入了不必基因的濾取,否則既會(huì)增加運(yùn)算的難度,又會(huì)引入了不必要的基因,更增加了解釋結(jié)果的難度。要的基因,更增加了解釋結(jié)果的難度。l去掉無(wú)效基因,當(dāng)某條基因在表達(dá)譜數(shù)據(jù)中的無(wú)效數(shù)據(jù)個(gè)去掉

24、無(wú)效基因,當(dāng)某條基因在表達(dá)譜數(shù)據(jù)中的無(wú)效數(shù)據(jù)個(gè)數(shù)超過(guò)一定范圍時(shí),該基因就被認(rèn)為是一條無(wú)效基因,在數(shù)超過(guò)一定范圍時(shí),該基因就被認(rèn)為是一條無(wú)效基因,在聚類分析中不考慮該基因。一條基因表達(dá)譜數(shù)據(jù)的波動(dòng)很聚類分析中不考慮該基因。一條基因表達(dá)譜數(shù)據(jù)的波動(dòng)很小,即數(shù)據(jù)的方差小于一定范圍,意味著這條基因與所要小,即數(shù)據(jù)的方差小于一定范圍,意味著這條基因與所要研究的生物過(guò)程或?qū)ο箨P(guān)聯(lián)很小,也可濾掉。研究的生物過(guò)程或?qū)ο箨P(guān)聯(lián)很小,也可濾掉。基因篩選基因篩選針對(duì)特別目的針對(duì)特別目的的基因篩選,的基因篩選,如篩選不同類如篩選不同類之間差異表達(dá)之間差異表達(dá)基因,常用假基因,常用假設(shè)檢驗(yàn)的方法,設(shè)檢驗(yàn)的方法,比如比如t

25、檢驗(yàn)、檢驗(yàn)、F檢驗(yàn)等。檢驗(yàn)等。發(fā)展新算法新算法新角度新角度合并多種方法合并多種方法第三節(jié)第三節(jié) 主成分分析主成分分析(Principle Component Analysis,PCA) 不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu),去除數(shù)據(jù)的冗不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu),去除數(shù)據(jù)的冗余性,常用主成分分析法。余性,常用主成分分析法。降維概述降維概述降維:指將樣降維:指將樣本從輸入空間本從輸入空間通過(guò)線性或非通過(guò)線性或非線性映射到一線性映射到一個(gè)低維空間。個(gè)低維空間。降維:將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù),減少了無(wú)用信降維:將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù),減少了無(wú)用信息和冗余信息,減少了后續(xù)的計(jì)算量。當(dāng)降

26、至三維以下時(shí),可息和冗余信息,減少了后續(xù)的計(jì)算量。當(dāng)降至三維以下時(shí),可以使用可視化技術(shù),從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),發(fā)以使用可視化技術(shù),從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),發(fā)現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征。主成分分析(PCA,principal component analysis) l對(duì)于一組原始隨機(jī)變量為對(duì)于一組原始隨機(jī)變量為X X1 1,X,Xp p,尋找一個(gè)新的變量,尋找一個(gè)新的變量Z Z1 1,這,這個(gè)新的變量是原始變量的線性組合,個(gè)新的變量是原始變量的線性組合,Z Z1 1=a=a1111X X1 1+a+a2121X X2 2+a

27、+ap1p1X Xp p,并使得并使得Z Z1 1的變異最大化的變異最大化lZ1Z1即為原始變量的最大主成分,它使用一個(gè)變量試圖最大化即為原始變量的最大主成分,它使用一個(gè)變量試圖最大化地包含一組變量的變異。通常一個(gè)變量還不足夠,因此,需地包含一組變量的變異。通常一個(gè)變量還不足夠,因此,需要尋找第二個(gè)主成分要尋找第二個(gè)主成分Z2Z2,Z2Z2與與Z1Z1不相關(guān),且是除不相關(guān),且是除Z1Z1外具有最外具有最大方差的原始變量的線性組合。大方差的原始變量的線性組合。主成分分析主成分分析本章小結(jié)本章小結(jié):l確定兩個(gè)基因表達(dá)是否有差異,需要確定一個(gè)閾值,確定兩個(gè)基因表達(dá)是否有差異,需要確定一個(gè)閾值,超過(guò)這個(gè)值,兩個(gè)基因

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論