《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析

上傳人：b*** IP屬地：廣東上傳時(shí)間：2022-03-18 格式：PPT 頁(yè)數(shù)：61 大?。?.55MB 積分：30 舉報(bào) 版權(quán)申訴

《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析_第2頁(yè)

《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析_第3頁(yè)

《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析_第4頁(yè)

《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析_第5頁(yè)

已閱讀5頁(yè)，還剩56頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基因芯片技術(shù)第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析內(nèi)容提要：內(nèi)容提要：l第一節(jié)第一節(jié) 差異表達(dá)基因分析差異表達(dá)基因分析l第二節(jié)第二節(jié) 聚類分析聚類分析l第三節(jié)第三節(jié) 主成分分析主成分分析第第8章章利用基因芯片進(jìn)行差異表達(dá)基因分析利用基因芯片進(jìn)行差異表達(dá)基因分析第一節(jié)第一節(jié) 差異表達(dá)基因分析差異表達(dá)基因分析單張單張cDNAcDNA芯片差異表達(dá)基因芯片差異表達(dá)基因Aerobic 需氧Anaerobic不需氧差異表達(dá)基因分析差異表達(dá)基因分析l基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣本間差異表達(dá)基因。本間差異表達(dá)基因。l通常采用基因在實(shí)驗(yàn)組和對(duì)照組

2、中信號(hào)的比值作為通常采用基因在實(shí)驗(yàn)組和對(duì)照組中信號(hào)的比值作為衡量基因在兩種狀態(tài)下基因的表達(dá)差異。衡量基因在兩種狀態(tài)下基因的表達(dá)差異。l在雙色熒光系統(tǒng)中，用在雙色熒光系統(tǒng)中，用Cy5/Cy3Cy5/Cy3的比值來(lái)衡量基因的的比值來(lái)衡量基因的表達(dá)差異，也稱表達(dá)差異值。表達(dá)差異，也稱表達(dá)差異值。差異表達(dá)基因分析差異表達(dá)基因分析l在在AffymetrixAffymetrix等短的寡核苷酸芯片中，采用單色熒等短的寡核苷酸芯片中，采用單色熒光標(biāo)記的方式，實(shí)驗(yàn)組和對(duì)照組分別用兩張芯片進(jìn)光標(biāo)記的方式，實(shí)驗(yàn)組和對(duì)照組分別用兩張芯片進(jìn)行檢測(cè)，表達(dá)差異值即為兩張芯片的信號(hào)比值。行檢測(cè)，表達(dá)差異值即為兩張芯片的信號(hào)比

3、值。l噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)給篩選差異表達(dá)基因帶來(lái)了很大的麻煩。給篩選差異表達(dá)基因帶來(lái)了很大的麻煩。l必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的閾值。的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的閾值。如何確定差異表達(dá)基因的閾值如何確定差異表達(dá)基因的閾值倍數(shù)法倍數(shù)法l優(yōu)點(diǎn)：簡(jiǎn)單、直接。優(yōu)點(diǎn)：簡(jiǎn)單、直接。l缺點(diǎn)：沒(méi)有考慮差異表達(dá)的統(tǒng)計(jì)顯著性。比如，在某個(gè)實(shí)驗(yàn)中，缺點(diǎn)：沒(méi)有考慮差異表達(dá)的統(tǒng)計(jì)顯著性。比如，在某個(gè)實(shí)驗(yàn)中，基因表達(dá)水平的變化不大，如果選擇判別域值為基因表達(dá)水平的變化不

4、大，如果選擇判別域值為2 2倍，則有可能倍，則有可能找不到幾個(gè)差異表達(dá)的基因，假陰性率比較高。但如果是主觀找不到幾個(gè)差異表達(dá)的基因，假陰性率比較高。但如果是主觀縮小判斷域值，又有可能增大假陽(yáng)性率?？s小判斷域值，又有可能增大假陽(yáng)性率。 Z Z值法值法 l在一張?jiān)谝粡坈DNAcDNA芯片上一般都點(diǎn)了很多基因，其實(shí)這些基芯片上一般都點(diǎn)了很多基因，其實(shí)這些基因中只有一小部分表達(dá)有差異，所以一般都假設(shè)表達(dá)因中只有一小部分表達(dá)有差異，所以一般都假設(shè)表達(dá)的比率值滿足正態(tài)分布。的比率值滿足正態(tài)分布。lZ=(X-)/Z=(X-)/. |Z|=1.96. |Z|=1.96l在寡核苷酸芯片中，芯片上的基因在相應(yīng)實(shí)驗(yàn)

5、條件下在寡核苷酸芯片中，芯片上的基因在相應(yīng)實(shí)驗(yàn)條件下或相應(yīng)組織中也只有一小部分基因有表達(dá)，可以假定或相應(yīng)組織中也只有一小部分基因有表達(dá)，可以假定強(qiáng)度滿足對(duì)數(shù)正態(tài)分布，同樣可以對(duì)其作強(qiáng)度滿足對(duì)數(shù)正態(tài)分布，同樣可以對(duì)其作Z Z變換，使其變換，使其具有統(tǒng)計(jì)意義。具有統(tǒng)計(jì)意義。Z Z值法值法缺點(diǎn)：缺點(diǎn)：l如果實(shí)驗(yàn)體系中沒(méi)有一條差異表達(dá)的基因，如果實(shí)驗(yàn)體系中沒(méi)有一條差異表達(dá)的基因，Z Z值法還是值法還是會(huì)挑選出會(huì)挑選出5 5的差異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中，的差異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中，總有一些由于背景噪聲產(chǎn)生的假陽(yáng)性點(diǎn)?？傆幸恍┯捎诒尘霸肼暜a(chǎn)生的假陽(yáng)性點(diǎn)。l如果實(shí)際上實(shí)驗(yàn)中有大量的基因表

6、達(dá)發(fā)生改變，如果實(shí)際上實(shí)驗(yàn)中有大量的基因表達(dá)發(fā)生改變，Z Z值法值法還是機(jī)械的找出還是機(jī)械的找出5 5的差異表達(dá)基因，丟失了一部分真的差異表達(dá)基因，丟失了一部分真陽(yáng)性點(diǎn)。陽(yáng)性點(diǎn)。排秩統(tǒng)計(jì)量法排秩統(tǒng)計(jì)量法l選擇一個(gè)統(tǒng)計(jì)量給基因排秩（研究多，方法多）選擇一個(gè)統(tǒng)計(jì)量給基因排秩（研究多，方法多）l為排秩統(tǒng)計(jì)量選擇一個(gè)閾值，在閾值之上的值將為排秩統(tǒng)計(jì)量選擇一個(gè)閾值，在閾值之上的值將被認(rèn)為是表達(dá)差異顯著的值被認(rèn)為是表達(dá)差異顯著的值重復(fù)芯片（重復(fù)芯片（replicatesreplicates）M M值法值法l根據(jù)比率平均值或根據(jù)比率平均值或M M值對(duì)基因排序。值對(duì)基因排序。M M值為信號(hào)強(qiáng)值為信號(hào)強(qiáng)度比值

7、的度比值的log2log2值，值，M M杠是任一特定基因在重復(fù)序列杠是任一特定基因在重復(fù)序列中中M M值的均值。值的均值。l缺點(diǎn)：這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中缺點(diǎn)：這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。例如，可能的不同芯片上表達(dá)水平的差異程度。例如，可能某一個(gè)基因在某一張芯片上某一個(gè)基因在某一張芯片上M M值很大，但在其他芯值很大，但在其他芯片上片上M M值很小，其實(shí)這條基因并沒(méi)有差異表達(dá)，但值很小，其實(shí)這條基因并沒(méi)有差異表達(dá)，但由于個(gè)別由于個(gè)別M M值的影響，從而顯示出一個(gè)差異表達(dá)的值的影響，從而顯示出一個(gè)差異表達(dá)的特性，造成假陽(yáng)性特性，造成假陽(yáng)性。 T

8、 T值排序值排序l假如一個(gè)基因在幾張重復(fù)芯片的假如一個(gè)基因在幾張重復(fù)芯片的M M值都很小，值都很小，但是這些但是這些M M值非常接近，所以值非常接近，所以s s值也非常小，這值也非常小，這樣可能會(huì)導(dǎo)致樣可能會(huì)導(dǎo)致t t值很大，從而會(huì)把這個(gè)本沒(méi)有值很大，從而會(huì)把這個(gè)本沒(méi)有差異表達(dá)的基因誤認(rèn)為差異表達(dá)。差異表達(dá)的基因誤認(rèn)為差異表達(dá)。修正的修正的T T值法值法l修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。結(jié)果顯示：在一個(gè)模擬的數(shù)據(jù)集中，雖然帶有結(jié)果顯示：在一個(gè)模擬的數(shù)據(jù)集中，雖然帶有一些經(jīng)驗(yàn)性質(zhì)，但用修正一些經(jīng)驗(yàn)性質(zhì)，但用修正t-t-統(tǒng)計(jì)量給基因排秩統(tǒng)計(jì)量給基因

9、排秩比用均數(shù)和一般的比用均數(shù)和一般的t-t-統(tǒng)計(jì)量效果要好。統(tǒng)計(jì)量效果要好。單通道寡核苷酸芯片差異基因（兩個(gè)樣本直接比較）單通道寡核苷酸芯片差異基因（兩個(gè)樣本直接比較）Affymetrix，illumina芯片由于有探針重復(fù)，可以利用統(tǒng)計(jì)方法芯片由于有探針重復(fù)，可以利用統(tǒng)計(jì)方法計(jì)算出一個(gè)統(tǒng)計(jì)性的計(jì)算出一個(gè)統(tǒng)計(jì)性的P值或者值或者score值，篩選差異表達(dá)基因。值，篩選差異表達(dá)基因。不同類樣本差異基因識(shí)別不同類樣本差異基因識(shí)別評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量l平均值平均值標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差比較多組數(shù)的方法比較多組數(shù)的方法lT檢驗(yàn)：平均值檢驗(yàn)：平均值lF檢驗(yàn)：檢驗(yàn)：方差方差SAM（signifi

10、cance analysis of microarrays）微陣列顯著性分析微陣列顯著性分析在單通道在單通道Oligo芯片中，尤其芯片中，尤其是是affymetrix芯芯片數(shù)據(jù)分析中片數(shù)據(jù)分析中用得較多用得較多雙通道雙通道cDNA芯片數(shù)據(jù)分析用得較多芯片數(shù)據(jù)分析用得較多False Discovery Rate (FDR)錯(cuò)誤發(fā)現(xiàn)率錯(cuò)誤發(fā)現(xiàn)率l統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基因，即通過(guò)假設(shè)檢驗(yàn)后，賦予每個(gè)基因統(tǒng)計(jì)顯著因，即通過(guò)假設(shè)檢驗(yàn)后，賦予每個(gè)基因統(tǒng)計(jì)顯著性或者性或者P P值，使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上值，使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上

11、的意義。的意義。l為了達(dá)到這個(gè)目的，統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤為了達(dá)到這個(gè)目的，統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤發(fā)現(xiàn)率（發(fā)現(xiàn)率（False Discovery RateFalse Discovery Rate）的方法來(lái)判斷）的方法來(lái)判斷差異基因。錯(cuò)誤發(fā)現(xiàn)率是評(píng)估檢驗(yàn)統(tǒng)計(jì)顯著性的差異基因。錯(cuò)誤發(fā)現(xiàn)率是評(píng)估檢驗(yàn)統(tǒng)計(jì)顯著性的最有力工具之一。最有力工具之一。 Multiple test (P-value adjustment)多重檢驗(yàn)（多重檢驗(yàn)（P-價(jià)值判斷）價(jià)值判斷）火山圖（火山圖（volcano plot）lStatistical test: P-value（統(tǒng)計(jì)檢驗(yàn)：P值）lFold change: Ra

12、tio（折疊變換：比率）其他方法lB-statistics (Smyth,2004)lBayes T-test (Baldi and Long, 2001)lSAMROC (Broberg, 2002)lZhao-Pan method (Zhao and Pan, 2003)l lImproved Detection of Differentially Expressed Genesl對(duì)差異表達(dá)基因的改良性觀測(cè)對(duì)差異表達(dá)基因的改良性觀測(cè) lTime series microarray dataset 微陣列數(shù)據(jù)的時(shí)間序列微陣列數(shù)據(jù)的時(shí)間序列聚類：聚類：發(fā)現(xiàn)一些未知的細(xì)胞狀態(tài)、疾病的亞型以及一

13、些能識(shí)別這些樣本狀態(tài)的基因，或者說(shuō)發(fā)現(xiàn)一類功能相似的基因或者一類有共同調(diào)控機(jī)制的基因。歸類（分類）歸類（分類）：基于已有知識(shí)，并有改進(jìn)現(xiàn)有知識(shí)的潛力，通過(guò)訓(xùn)練分類器來(lái)辨識(shí)與已知細(xì)胞狀態(tài)或疾病亞型相類似的樣本，或者是與已知的共調(diào)控基因表達(dá)相似的基因。第二節(jié)第二節(jié) 基因芯片聚類分析基因芯片聚類分析分類分類(classification)(classification)分類(classification)l樣本分類情況已知l分類基因選取l分類準(zhǔn)確性判斷：準(zhǔn)確率，相關(guān)性層級(jí)聚類方法：層級(jí)聚類方法：得到類似于進(jìn)化分析的系統(tǒng)樹(shù)圖，具有相似表達(dá)譜的基因彼此得到類似于進(jìn)化分析的系統(tǒng)樹(shù)圖，具有相似表達(dá)譜的基

14、因彼此臨近，他們可能具有相似的功能。臨近，他們可能具有相似的功能。其重要思想是：先將其重要思想是：先將n個(gè)樣本看成個(gè)樣本看成n類，計(jì)算類間的距離，再將類，計(jì)算類間的距離，再將相似性最高的兩類合并成為一個(gè)新類，得到相似性最高的兩類合并成為一個(gè)新類，得到n-1類，再重新計(jì)算類，再重新計(jì)算關(guān)系矩陣，不斷重復(fù)這個(gè)過(guò)程直至所有的基因融合成為一個(gè)關(guān)系矩陣，不斷重復(fù)這個(gè)過(guò)程直至所有的基因融合成為一個(gè)基因表達(dá)數(shù)據(jù)矩陣基因表達(dá)數(shù)據(jù)矩陣 (Affymetrix GeneChip (Affymetrix GeneChip oligonucleotide arrays)oligonucleotide arrays)G

15、ene expression table X：log sam/ref intensitiesX0:gene is overexpressedX0:gene is underexpressed 基因表達(dá)數(shù)據(jù)矩陣基因表達(dá)數(shù)據(jù)矩陣 (glass slides)Gene expression table X：log red/green intensitiesX0:gene is overexpressedX0:gene is underexpressed 數(shù)據(jù)矩陣具體形式數(shù)據(jù)矩陣具體形式數(shù)據(jù)形式數(shù)據(jù)形式對(duì)任意一個(gè)基因來(lái)說(shuō)，樣本值是特征值，數(shù)據(jù)的維數(shù)是對(duì)任意一個(gè)基因來(lái)說(shuō)，樣本值是特征值，數(shù)據(jù)的維數(shù)是M對(duì)

16、任意一個(gè)樣本來(lái)說(shuō)，基因值是特征值，數(shù)據(jù)的維數(shù)是對(duì)任意一個(gè)樣本來(lái)說(shuō)，基因值是特征值，數(shù)據(jù)的維數(shù)是N數(shù)據(jù)矩陣數(shù)據(jù)矩陣, ,基因數(shù)遠(yuǎn)大于樣品數(shù)?；驍?shù)遠(yuǎn)大于樣品數(shù)。聚類時(shí)，考查基因間的相似性，從數(shù)學(xué)上講就是看對(duì)應(yīng)的聚類時(shí)，考查基因間的相似性，從數(shù)學(xué)上講就是看對(duì)應(yīng)的M M維維數(shù)據(jù)之間的相似性。數(shù)據(jù)之間的相似性。Cluster&TreeviewCluster&Treeview軟件軟件Cluster&TreeviewCluster&Treeview軟件軟件Genesis軟件軟件預(yù)分析（預(yù)分析（Pre-Analysis）l重復(fù)值合并（重復(fù)值合并（ replicate handling ）l數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化（

17、數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化（data transformation and standardization）l缺失數(shù)據(jù)處理（缺失數(shù)據(jù)處理（ missing value management ）l基因篩選（基因篩選（pattern selection）重復(fù)值合并重復(fù)值合并在特定條件下把所有的重復(fù)值合并成一個(gè)數(shù)值可能更為方便，在特定條件下把所有的重復(fù)值合并成一個(gè)數(shù)值可能更為方便，而這一個(gè)值是給定基因而這一個(gè)值是給定基因/條件的代表。條件的代表。通常的合并：計(jì)算這些重復(fù)值的集中趨勢(shì)指標(biāo)，如均數(shù)、中位通常的合并：計(jì)算這些重復(fù)值的集中趨勢(shì)指標(biāo)，如均數(shù)、中位數(shù)或眾數(shù)。但是，使用一個(gè)集中趨勢(shì)指標(biāo)代替一組數(shù)值意味著數(shù)或

18、眾數(shù)。但是，使用一個(gè)集中趨勢(shì)指標(biāo)代替一組數(shù)值意味著信息的丟失，因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。信息的丟失，因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。去除奇異值：可以通過(guò)計(jì)算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差，去除位去除奇異值：可以通過(guò)計(jì)算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差，去除位于給定區(qū)間外的數(shù)據(jù)（如均數(shù)加減于給定區(qū)間外的數(shù)據(jù)（如均數(shù)加減3個(gè)標(biāo)準(zhǔn)差外的數(shù)據(jù)）。剩個(gè)標(biāo)準(zhǔn)差外的數(shù)據(jù)）。剩余的數(shù)據(jù)重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差，并消除給定區(qū)間外的數(shù)據(jù)。余的數(shù)據(jù)重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差，并消除給定區(qū)間外的數(shù)據(jù)。重復(fù)值合并：重復(fù)值合并：數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化l數(shù)據(jù)變換的目的：在盡量保證原始數(shù)據(jù)特征不數(shù)據(jù)變換的目的：在盡量保證原始數(shù)據(jù)特征不變的前提下，使變換后

19、的數(shù)據(jù)更適于進(jìn)行統(tǒng)計(jì)變的前提下，使變換后的數(shù)據(jù)更適于進(jìn)行統(tǒng)計(jì)分析。分析。 l對(duì)數(shù)轉(zhuǎn)化（對(duì)數(shù)轉(zhuǎn)化（log-transformationlog-transformation）l中心化處理（中心化處理（centercenter）l單位圓化單位圓化l正態(tài)化（均值為正態(tài)化（均值為0 0，方差為，方差為1 1）缺失數(shù)據(jù)處理缺失數(shù)據(jù)處理l芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕?、點(diǎn)像素強(qiáng)度達(dá)芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕荨Ⅻc(diǎn)像素強(qiáng)度達(dá)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的數(shù)據(jù)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的數(shù)據(jù)點(diǎn)，在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。點(diǎn)，在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。l未觀測(cè)點(diǎn)

20、未觀測(cè)點(diǎn)l若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性，如特征基因若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性，如特征基因提取的奇異值分解、某些基因的聚類分析方法等，則提取的奇異值分解、某些基因的聚類分析方法等，則需要對(duì)含有缺失值的數(shù)據(jù)進(jìn)行處理需要對(duì)含有缺失值的數(shù)據(jù)進(jìn)行處理 l刪除含有缺失值的整條記錄，這種方法操作簡(jiǎn)單，但刪除含有缺失值的整條記錄，這種方法操作簡(jiǎn)單，但卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄，可能丟失大量卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄，可能丟失大量有價(jià)值的信息有價(jià)值的信息 l填充或修補(bǔ)缺失數(shù)據(jù)填充或修補(bǔ)缺失數(shù)據(jù)缺失數(shù)據(jù)的處理缺失數(shù)據(jù)的處理l固定值法，比如固定值法，比如0 0或者或者1 1l行平均法行平均

21、法l使用重復(fù)數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)據(jù)進(jìn)行填充。對(duì)于生物學(xué)重使用重復(fù)數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)據(jù)進(jìn)行填充。對(duì)于生物學(xué)重復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重，應(yīng)當(dāng)使用盡量同質(zhì)的樣復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重，應(yīng)當(dāng)使用盡量同質(zhì)的樣品對(duì)缺失值進(jìn)行估計(jì)。品對(duì)缺失值進(jìn)行估計(jì)。l使用基因間的相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行填充。奇異值分使用基因間的相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行填充。奇異值分解法，解法，KNNKNN法。法。l其他方法，最小二乘法擬合修補(bǔ)，方差迭代分析，最其他方法，最小二乘法擬合修補(bǔ)，方差迭代分析，最大可能性分析大可能性分析缺失數(shù)據(jù)的處理方法缺失數(shù)據(jù)的處理方法KNN法K最近鄰法（最近鄰法（K-nearest neighborhood method）

22、：）：假定某個(gè)基因在某個(gè)指標(biāo)上含有缺失值，計(jì)算含缺失值假定某個(gè)基因在某個(gè)指標(biāo)上含有缺失值，計(jì)算含缺失值的基因與在該指標(biāo)上無(wú)缺失的基因間的相似性指標(biāo)。的基因與在該指標(biāo)上無(wú)缺失的基因間的相似性指標(biāo)。與該基因相似性最大的與該基因相似性最大的K個(gè)基因稱為該基因的個(gè)基因稱為該基因的K個(gè)最近個(gè)最近鄰，這鄰，這K個(gè)基因在該指標(biāo)上的數(shù)據(jù)就是估計(jì)該基因缺失個(gè)基因在該指標(biāo)上的數(shù)據(jù)就是估計(jì)該基因缺失數(shù)據(jù)的基礎(chǔ)，估計(jì)值可以是這數(shù)據(jù)的基礎(chǔ)，估計(jì)值可以是這K個(gè)基因在該指標(biāo)上的均個(gè)基因在該指標(biāo)上的均數(shù)，也可以是這數(shù)，也可以是這K個(gè)基因的加權(quán)均數(shù)。個(gè)基因的加權(quán)均數(shù)。在加權(quán)均數(shù)中，權(quán)重為上面計(jì)算的基因間的相似性。在加權(quán)均數(shù)中，

23、權(quán)重為上面計(jì)算的基因間的相似性。K值的確定具有一定的經(jīng)驗(yàn)性，但不宜太大和太小。值的確定具有一定的經(jīng)驗(yàn)性，但不宜太大和太小。基因篩選（基因篩選（gene selection）l在進(jìn)行分析之前，要先選擇用來(lái)分析的基因。芯片中的基在進(jìn)行分析之前，要先選擇用來(lái)分析的基因。芯片中的基因有上萬(wàn)條，相應(yīng)的數(shù)據(jù)矩陣也有上萬(wàn)行時(shí)，要預(yù)先進(jìn)行因有上萬(wàn)條，相應(yīng)的數(shù)據(jù)矩陣也有上萬(wàn)行時(shí)，要預(yù)先進(jìn)行基因的濾取，否則既會(huì)增加運(yùn)算的難度，又會(huì)引入了不必基因的濾取，否則既會(huì)增加運(yùn)算的難度，又會(huì)引入了不必要的基因，更增加了解釋結(jié)果的難度。要的基因，更增加了解釋結(jié)果的難度。l去掉無(wú)效基因，當(dāng)某條基因在表達(dá)譜數(shù)據(jù)中的無(wú)效數(shù)據(jù)個(gè)去掉

24、無(wú)效基因，當(dāng)某條基因在表達(dá)譜數(shù)據(jù)中的無(wú)效數(shù)據(jù)個(gè)數(shù)超過(guò)一定范圍時(shí)，該基因就被認(rèn)為是一條無(wú)效基因，在數(shù)超過(guò)一定范圍時(shí)，該基因就被認(rèn)為是一條無(wú)效基因，在聚類分析中不考慮該基因。一條基因表達(dá)譜數(shù)據(jù)的波動(dòng)很聚類分析中不考慮該基因。一條基因表達(dá)譜數(shù)據(jù)的波動(dòng)很小，即數(shù)據(jù)的方差小于一定范圍，意味著這條基因與所要小，即數(shù)據(jù)的方差小于一定范圍，意味著這條基因與所要研究的生物過(guò)程或?qū)ο箨P(guān)聯(lián)很小，也可濾掉。研究的生物過(guò)程或?qū)ο箨P(guān)聯(lián)很小，也可濾掉。基因篩選基因篩選針對(duì)特別目的針對(duì)特別目的的基因篩選，的基因篩選，如篩選不同類如篩選不同類之間差異表達(dá)之間差異表達(dá)基因，常用假基因，常用假設(shè)檢驗(yàn)的方法，設(shè)檢驗(yàn)的方法，比如比如t

25、檢驗(yàn)、檢驗(yàn)、F檢驗(yàn)等。檢驗(yàn)等。發(fā)展新算法新算法新角度新角度合并多種方法合并多種方法第三節(jié)第三節(jié) 主成分分析主成分分析（Principle Component Analysis，PCA）不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu)，去除數(shù)據(jù)的冗不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu)，去除數(shù)據(jù)的冗余性，常用主成分分析法。余性，常用主成分分析法。降維概述降維概述降維：指將樣降維：指將樣本從輸入空間本從輸入空間通過(guò)線性或非通過(guò)線性或非線性映射到一線性映射到一個(gè)低維空間。個(gè)低維空間。降維：將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù)，減少了無(wú)用信降維：將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù)，減少了無(wú)用信息和冗余信息，減少了后續(xù)的計(jì)算量。當(dāng)降

26、至三維以下時(shí)，可息和冗余信息，減少了后續(xù)的計(jì)算量。當(dāng)降至三維以下時(shí)，可以使用可視化技術(shù)，從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn)，發(fā)以使用可視化技術(shù)，從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn)，發(fā)現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征。主成分分析（PCA，principal component analysis） l對(duì)于一組原始隨機(jī)變量為對(duì)于一組原始隨機(jī)變量為X X1 1,X,Xp p，尋找一個(gè)新的變量，尋找一個(gè)新的變量Z Z1 1，這，這個(gè)新的變量是原始變量的線性組合，個(gè)新的變量是原始變量的線性組合，Z Z1 1=a=a1111X X1 1+a+a2121X X2 2+a

27、+ap1p1X Xp p，并使得并使得Z Z1 1的變異最大化的變異最大化lZ1Z1即為原始變量的最大主成分，它使用一個(gè)變量試圖最大化即為原始變量的最大主成分，它使用一個(gè)變量試圖最大化地包含一組變量的變異。通常一個(gè)變量還不足夠，因此，需地包含一組變量的變異。通常一個(gè)變量還不足夠，因此，需要尋找第二個(gè)主成分要尋找第二個(gè)主成分Z2Z2，Z2Z2與與Z1Z1不相關(guān)，且是除不相關(guān)，且是除Z1Z1外具有最外具有最大方差的原始變量的線性組合。大方差的原始變量的線性組合。主成分分析主成分分析本章小結(jié)本章小結(jié):l確定兩個(gè)基因表達(dá)是否有差異，需要確定一個(gè)閾值，確定兩個(gè)基因表達(dá)是否有差異，需要確定一個(gè)閾值，超過(guò)這個(gè)值，兩個(gè)基因

人人文庫(kù)> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔