基因芯片技術(shù)利用基因芯片進(jìn)行差異表達(dá)基因分析解析_第1頁
基因芯片技術(shù)利用基因芯片進(jìn)行差異表達(dá)基因分析解析_第2頁
基因芯片技術(shù)利用基因芯片進(jìn)行差異表達(dá)基因分析解析_第3頁
基因芯片技術(shù)利用基因芯片進(jìn)行差異表達(dá)基因分析解析_第4頁
基因芯片技術(shù)利用基因芯片進(jìn)行差異表達(dá)基因分析解析_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基因芯片技術(shù)Gene chip technology內(nèi)容提要:第一節(jié) 差異表達(dá)基因分析第二節(jié) 聚類分析第三節(jié) 主成分分析第8章 利用基因芯片進(jìn)行差異表達(dá)基因分析第一節(jié)第一節(jié) 差異表達(dá)基因分差異表達(dá)基因分析析 單張單張cDNAcDNA芯片差異表達(dá)基因芯片差異表達(dá)基因Aerobic 需氧Anaerobic不需氧差異表達(dá)基因分析差異表達(dá)基因分析 基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣本間差異表達(dá)基因。 通常采用基因在實(shí)驗(yàn)組和對(duì)照組中信號(hào)的比值作為衡量基因在兩種狀態(tài)下基因的表達(dá)差異。 在雙色熒光系統(tǒng)中,用Cy5/Cy3Cy5/Cy3的比值來衡量基因的表達(dá)差異,也稱表達(dá)差異值。差異表達(dá)基因分析差異

2、表達(dá)基因分析 在AffymetrixAffymetrix等短的寡核苷酸芯片中,采用單色熒光標(biāo)記的方式,實(shí)驗(yàn)組和對(duì)照組分別用兩張芯片進(jìn)行檢測(cè),表達(dá)差異值即為兩張芯片的信號(hào)比值。 噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)給篩選差異表達(dá)基因帶來了很大的麻煩。 必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的閾值。 如何確定差異表達(dá)基因的閾值如何確定差異表達(dá)基因的閾值倍數(shù)法倍數(shù)法 優(yōu)點(diǎn):簡(jiǎn)單、直接。 缺點(diǎn):沒有考慮差異表達(dá)的統(tǒng)計(jì)顯著性。比如,在某個(gè)實(shí)驗(yàn)中,基因表達(dá)水平的變化不大,如果選擇判別域值為2 2倍,則有可能找不到幾個(gè)差異表達(dá)的基因,假陰性率比較高。但如果是主觀縮小判斷

3、域值,又有可能增大假陽性率。 Z Z值法值法 在一張cDNAcDNA芯片上一般都點(diǎn)了很多基因,其實(shí)這些基因中只有一小部分表達(dá)有差異,所以一般都假設(shè)表達(dá)的比率值滿足正態(tài)分布。 Z=(X-Z=(X-)/)/. |Z|=1.96. |Z|=1.96 在寡核苷酸芯片中,芯片上的基因在相應(yīng)實(shí)驗(yàn)條件下或相應(yīng)組織中也只有一小部分基因有表達(dá),可以假定強(qiáng)度滿足對(duì)數(shù)正態(tài)分布,同樣可以對(duì)其作Z Z變換,使其具有統(tǒng)計(jì)意義。Z Z值法值法 缺點(diǎn): 如果實(shí)驗(yàn)體系中沒有一條差異表達(dá)的基因,Z Z值法還是會(huì)挑選出5 5的差異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中,總有一些由于背景噪聲產(chǎn)生的假陽性點(diǎn)。 如果實(shí)際上實(shí)驗(yàn)中有大量的基因表達(dá)

4、發(fā)生改變,Z Z值法還是機(jī)械的找出5 5的差異表達(dá)基因,丟失了一部分真陽性點(diǎn)。 排秩統(tǒng)計(jì)量法排秩統(tǒng)計(jì)量法 選擇一個(gè)統(tǒng)計(jì)量給基因排秩(研究多,方法多) 為排秩統(tǒng)計(jì)量選擇一個(gè)閾值,在閾值之上的值將被認(rèn)為是表達(dá)差異顯著的值重復(fù)芯片(重復(fù)芯片(replicatesreplicates)M M值法值法 根據(jù)比率平均值或根據(jù)比率平均值或M M值對(duì)基因排序。值對(duì)基因排序。M M值為信號(hào)強(qiáng)度比值的值為信號(hào)強(qiáng)度比值的log2log2值,值,M M杠是任一特定基因杠是任一特定基因在重復(fù)序列中在重復(fù)序列中M M值的均值。值的均值。 缺點(diǎn):這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。缺點(diǎn):這一

5、排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。例如,可能某一個(gè)基因在某一張芯片上例如,可能某一個(gè)基因在某一張芯片上M M值很大,但在其他芯片上值很大,但在其他芯片上M M值很小,其實(shí)這條值很小,其實(shí)這條基因并沒有差異表達(dá),但由于個(gè)別基因并沒有差異表達(dá),但由于個(gè)別M M值的影響,從而顯示出一個(gè)差異表達(dá)的特性,造成值的影響,從而顯示出一個(gè)差異表達(dá)的特性,造成假陽性假陽性。 T T值排序值排序 假如一個(gè)基因在幾張重復(fù)芯片的假如一個(gè)基因在幾張重復(fù)芯片的M M值都很小,但是這些值都很小,但是這些M M值非常接近,所以值非常接近,所以s s值也值也非常小,這樣可能會(huì)導(dǎo)致非常小,這樣可能會(huì)

6、導(dǎo)致t t值很大,從而會(huì)把這個(gè)本沒有差異表達(dá)的基因誤認(rèn)為值很大,從而會(huì)把這個(gè)本沒有差異表達(dá)的基因誤認(rèn)為差異表達(dá)。差異表達(dá)。 修正的修正的T T值法值法 修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。結(jié)果顯示:在一個(gè)模擬的數(shù)據(jù)集修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。結(jié)果顯示:在一個(gè)模擬的數(shù)據(jù)集中,雖然帶有一些經(jīng)驗(yàn)性質(zhì),但用修正中,雖然帶有一些經(jīng)驗(yàn)性質(zhì),但用修正t-t-統(tǒng)計(jì)量給基因排秩比用均數(shù)和一般的統(tǒng)計(jì)量給基因排秩比用均數(shù)和一般的t-t-統(tǒng)計(jì)量效果要好。統(tǒng)計(jì)量效果要好。 單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)Affymetrix,illumina

7、芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法計(jì)算出一個(gè)統(tǒng)計(jì)性的計(jì)算出一個(gè)統(tǒng)計(jì)性的P值或者值或者score值,篩選差異表達(dá)基因。值,篩選差異表達(dá)基因。不同類樣本差異基因識(shí)別不同類樣本差異基因識(shí)別評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量 平均值平均值 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差232.7232.7198.2198.2137.7137.784.384.3218.6218.6181.5181.5216.7216.78787比較多組數(shù)的方法比較多組數(shù)的方法 T檢驗(yàn):平均值 F檢驗(yàn): 方差SAM(significance analysis of microarrays)微陣列顯著性分析微陣列顯著

8、性分析 在單通道在單通道Oligo芯片中,尤其芯片中,尤其是是affymetrix芯芯片數(shù)據(jù)分析中片數(shù)據(jù)分析中用得較多用得較多雙通道雙通道cDNA芯片數(shù)據(jù)分析用得較多芯片數(shù)據(jù)分析用得較多False Discovery Rate (FDR)錯(cuò)誤發(fā)現(xiàn)錯(cuò)誤發(fā)現(xiàn)率率 統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基因,即通過假設(shè)檢驗(yàn)后,賦予每個(gè)基因統(tǒng)計(jì)顯著性或者P P值,使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上的意義。 為了達(dá)到這個(gè)目的,統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤發(fā)現(xiàn)率(False Discovery RateFalse Discovery Rate)的方法來判斷差異基因。錯(cuò)誤發(fā)現(xiàn)率是評(píng)估檢驗(yàn)統(tǒng)計(jì)顯著性的最有力工具之一

9、。 Multiple test (P-value adjustment)多重檢驗(yàn)(P-價(jià)值判斷)火山圖(volcano plot) Statistical test: P-value(統(tǒng)計(jì)檢驗(yàn):P值) Fold change: Ratio(折疊變換:比率)其他方法 B-statistics (Smyth,2004) Bayes T-test (Baldi and Long, 2001) SAMROC (Broberg, 2002) Zhao-Pan method (Zhao and Pan, 2003) Improved Detection of Differentially Expresse

10、d Genes 對(duì)差異表達(dá)基因的改良性觀測(cè) Time series microarray dataset 微陣列數(shù)據(jù)的時(shí)間序列 聚類:發(fā)現(xiàn)一些未知的細(xì)胞狀態(tài)、疾病的亞型以及一些能識(shí)別這些樣本狀態(tài)的基因,或者說發(fā)現(xiàn)一類功能相似的基因或者一類有共同調(diào)控機(jī)制的基因。歸類(分類):基于已有知識(shí),并有改進(jìn)現(xiàn)有知識(shí)的潛力,通過訓(xùn)練分類器來辨識(shí)與已知細(xì)胞狀態(tài)或疾病亞型相類似的樣本,或者是與已知的共調(diào)控基因表達(dá)相似的基因。 第二節(jié) 基因芯片聚類分析 分類分類(classification)(classification)分類(classification) 樣本分類情況已知 分類基因選取 分類準(zhǔn)確性判斷:準(zhǔn)確

11、率,相關(guān)性層級(jí)聚類方法:層級(jí)聚類方法:得到類似于進(jìn)化分析的系統(tǒng)樹圖,具有相似表達(dá)譜的基因彼此臨近,他們可能具有相似的功能。其重要思想是:先將n個(gè)樣本看成n類,計(jì)算類間的距離,再將相似性最高的兩類合并成為一個(gè)新類,得到n-1類,再重新計(jì)算關(guān)系矩陣,不斷重復(fù)這個(gè)過程直至所有的基因融合成為一個(gè)基因表達(dá)數(shù)據(jù)矩陣基因表達(dá)數(shù)據(jù)矩陣 (Affymetrix GeneChip (Affymetrix GeneChip oligonucleotide arrays)oligonucleotide arrays)Gene expression table X:log sam/ref intensitiesX0:g

12、ene is overexpressedX0:gene is underexpressed 基因表達(dá)數(shù)據(jù)矩陣基因表達(dá)數(shù)據(jù)矩陣 (glass slides)Gene expression table X:log red/green intensitiesX0:gene is overexpressedX0:gene is underexpressed 數(shù)據(jù)矩陣具體形式數(shù)據(jù)矩陣具體形式數(shù)據(jù)形式數(shù)據(jù)形式對(duì)任意一個(gè)基因來說,樣本值是特征值,數(shù)據(jù)的維數(shù)是對(duì)任意一個(gè)基因來說,樣本值是特征值,數(shù)據(jù)的維數(shù)是M對(duì)任意一個(gè)樣本來說,基因值是特征值,數(shù)據(jù)的維數(shù)是對(duì)任意一個(gè)樣本來說,基因值是特征值,數(shù)據(jù)的維數(shù)是N數(shù)據(jù)

13、矩陣數(shù)據(jù)矩陣, ,基因數(shù)遠(yuǎn)大于樣品數(shù)?;驍?shù)遠(yuǎn)大于樣品數(shù)。聚類時(shí),考查基因間的相似性,從數(shù)學(xué)上講就是看對(duì)應(yīng)的聚類時(shí),考查基因間的相似性,從數(shù)學(xué)上講就是看對(duì)應(yīng)的M M維維數(shù)據(jù)之間的相似性。數(shù)據(jù)之間的相似性。Cluster&TreeviewCluster&Treeview軟件軟件Cluster&TreeviewCluster&Treeview軟件軟件Genesis軟件預(yù)分析(預(yù)分析(Pre-Analysis) 重復(fù)值合并(重復(fù)值合并( replicate handling ) 數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化(數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化(data transformation and sta

14、ndardization) 缺失數(shù)據(jù)處理(缺失數(shù)據(jù)處理( missing value management ) 基因篩選(基因篩選(pattern selection)重復(fù)值合并重復(fù)值合并在特定條件下把所有的重復(fù)值合并成一個(gè)數(shù)值可能更為方便,而這一個(gè)值是給定基因/條件的代表。通常的合并:計(jì)算這些重復(fù)值的集中趨勢(shì)指標(biāo),如均數(shù)、中位數(shù)或眾數(shù)。但是,使用一個(gè)集中趨勢(shì)指標(biāo)代替一組數(shù)值意味著信息的丟失,因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。 去除奇異值:可以通過計(jì)算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差,去除位于給定區(qū)間外的數(shù)據(jù)(如均數(shù)加減3個(gè)標(biāo)準(zhǔn)差外的數(shù)據(jù))。剩余的數(shù)據(jù)重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差,并消除給定區(qū)間外的數(shù)據(jù)。重復(fù)值合并:重復(fù)值

15、合并:數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化 數(shù)據(jù)變換的目的:在盡量保證原始數(shù)據(jù)特征不變的前提下,使變換后的數(shù)據(jù)更數(shù)據(jù)變換的目的:在盡量保證原始數(shù)據(jù)特征不變的前提下,使變換后的數(shù)據(jù)更適于進(jìn)行統(tǒng)計(jì)分析。適于進(jìn)行統(tǒng)計(jì)分析。 對(duì)數(shù)轉(zhuǎn)化(對(duì)數(shù)轉(zhuǎn)化(log-transformationlog-transformation) 中心化處理(中心化處理(centercenter) 單位圓化單位圓化 正態(tài)化(均值為正態(tài)化(均值為0 0,方差為,方差為1 1)缺失數(shù)據(jù)處理缺失數(shù)據(jù)處理 芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕?、點(diǎn)像素強(qiáng)度芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕荨Ⅻc(diǎn)像素強(qiáng)度達(dá)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的達(dá)到

16、飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的數(shù)據(jù)點(diǎn),在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。數(shù)據(jù)點(diǎn),在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。 未觀測(cè)點(diǎn)未觀測(cè)點(diǎn) 若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性,如特征基若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性,如特征基因提取的奇異值分解、某些基因的聚類分析方法等,因提取的奇異值分解、某些基因的聚類分析方法等,則需要對(duì)含有缺失值的數(shù)據(jù)進(jìn)行處理則需要對(duì)含有缺失值的數(shù)據(jù)進(jìn)行處理 刪除含有缺失值的整條記錄,這種方法操作簡(jiǎn)單,刪除含有缺失值的整條記錄,這種方法操作簡(jiǎn)單,但卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄,可能丟失但卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄,可能丟失大量有價(jià)值的信息大量有價(jià)值的信

17、息 填充或修補(bǔ)缺失數(shù)據(jù)填充或修補(bǔ)缺失數(shù)據(jù)缺失數(shù)據(jù)的處理缺失數(shù)據(jù)的處理 固定值法,比如固定值法,比如0 0或者或者1 1 行平均法行平均法 使用重復(fù)數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)據(jù)進(jìn)行填充。對(duì)于生物學(xué)使用重復(fù)數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)據(jù)進(jìn)行填充。對(duì)于生物學(xué)重復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重,應(yīng)當(dāng)使用盡量同質(zhì)重復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重,應(yīng)當(dāng)使用盡量同質(zhì)的樣品對(duì)缺失值進(jìn)行估計(jì)。的樣品對(duì)缺失值進(jìn)行估計(jì)。 使用基因間的相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行填充。使用基因間的相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行填充。奇異值奇異值分解法,分解法,KNNKNN法。法。 其他方法,最小二乘法擬合修補(bǔ),方差迭代分析,其他方法,最小二乘法擬合修補(bǔ),方差迭代分析,最大可能性分析最大可能

18、性分析 缺失數(shù)據(jù)的處理方法缺失數(shù)據(jù)的處理方法KNN法K最近鄰法(K-nearest neighborhood method):假定某個(gè)基因在某個(gè)指標(biāo)上含有缺失值,計(jì)算含缺失值的基因與在該指標(biāo)上無缺失的基因間的相似性指標(biāo)。與該基因相似性最大的K個(gè)基因稱為該基因的K個(gè)最近鄰,這K個(gè)基因在該指標(biāo)上的數(shù)據(jù)就是估計(jì)該基因缺失數(shù)據(jù)的基礎(chǔ),估計(jì)值可以是這K個(gè)基因在該指標(biāo)上的均數(shù),也可以是這K個(gè)基因的加權(quán)均數(shù)。在加權(quán)均數(shù)中,權(quán)重為上面計(jì)算的基因間的相似性。K值的確定具有一定的經(jīng)驗(yàn)性,但不宜太大和太小。 基因篩選(基因篩選(gene selection) 在進(jìn)行分析之前,要先選擇用來分析的基因。芯片中的基因有上

19、萬條,相應(yīng)的數(shù)據(jù)矩陣也有上萬行時(shí),要預(yù)先進(jìn)行基因的濾取,否則既會(huì)增加運(yùn)算的難度,又會(huì)引入了不必要的基因,更增加了解釋結(jié)果的難度。 去掉無效基因,當(dāng)某條基因在表達(dá)譜數(shù)據(jù)中的無效數(shù)據(jù)個(gè)數(shù)超過一定范圍時(shí),該基因就被認(rèn)為是一條無效基因,在聚類分析中不考慮該基因。一條基因表達(dá)譜數(shù)據(jù)的波動(dòng)很小,即數(shù)據(jù)的方差小于一定范圍,意味著這條基因與所要研究的生物過程或?qū)ο箨P(guān)聯(lián)很小,也可濾掉?;蚝Y選基因篩選針對(duì)特別目的的基因篩選,如篩選不同類之間差異表達(dá)基因,常用假設(shè)檢驗(yàn)的方法,比如t檢驗(yàn)、F檢驗(yàn)等。發(fā)展新算法新算法新角度新角度合并多種方法合并多種方法第三節(jié) 主成分分析(Principle Component Ana

20、lysis,PCA) 不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu),去除數(shù)據(jù)的冗余性,常用主成分分析法。降維概述降維概述降維:指將樣降維:指將樣本從輸入空間本從輸入空間通過線性或非通過線性或非線性映射到一線性映射到一個(gè)低維空間。個(gè)低維空間。降維:將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù),減少了無用信息和冗余信息,減少了后續(xù)的計(jì)算量。當(dāng)降至三維以下時(shí),可以使用可視化技術(shù),從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),發(fā)現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征。主成分分析(PCA,principal component analysis) 對(duì)于一組原始隨機(jī)變量為X X1 1,X,Xp p,尋找一個(gè)新的變量Z Z1 1,這個(gè)新的變量是

21、原始變量的線性組合,Z Z1 1=a=a1111X X1 1+a+a2121X X2 2+a+ap1p1X Xp p,并使得Z Z1 1的變異最大化 Z1Z1即為原始變量的最大主成分,它使用一個(gè)變量試圖最大化地包含一組變量的變異。通常一個(gè)變量還不足夠,因此,需要尋找第二個(gè)主成分Z2Z2,Z2Z2與Z1Z1不相關(guān),且是除Z1Z1外具有最大方差的原始變量的線性組合。主成分分析主成分分析本章小結(jié):確定兩個(gè)基因表達(dá)是否有差異,需要確定一個(gè)閾值,超過這個(gè)值,兩個(gè)基因表達(dá)就有差異。閾值的確定需要依賴很多數(shù)學(xué)算法,常用的有:倍數(shù)法、Z值法、排秩統(tǒng)計(jì)量法等。對(duì)于重復(fù)芯片的差異基因表達(dá)分析,常用方法有:M值法、

22、T值排序法、P值檢驗(yàn)等。聚類的目的是發(fā)現(xiàn)一些未知的細(xì)胞狀態(tài)、疾病的亞型以及一些能識(shí)別這些樣本狀態(tài)的基因,或者說發(fā)現(xiàn)一類功能相似的基因或者一類有共同調(diào)控機(jī)制的基因。其中最常用的方法是層級(jí)聚類,Cluster&Treeview是最常用的聚類分析軟件之一。本章小結(jié):在篩選差異表達(dá)基因時(shí),先要對(duì)數(shù)據(jù)進(jìn)行預(yù)分析,即對(duì)重復(fù)值進(jìn)行合并、對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換和標(biāo)準(zhǔn)化處理,對(duì)缺失數(shù)據(jù)進(jìn)行處理。預(yù)分析之后,才能進(jìn)行基因篩選。如果想不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu),并去除數(shù)據(jù)的冗余性,常用主成分分析法,其中最主要的思想是對(duì)數(shù)據(jù)進(jìn)行降維處理。 在分析兩個(gè)基因表達(dá)是否有差異是,需要確定閾值,常用確定閾值的方法有哪些??jī)?yōu)缺

23、點(diǎn)是什么? 聚類和分類的區(qū)別? 什么是層級(jí)聚類? 請(qǐng)簡(jiǎn)要介紹缺失數(shù)據(jù)的處理方法-KNN法? 在篩選差異表達(dá)基因時(shí),對(duì)數(shù)據(jù)進(jìn)行預(yù)分析的主要步驟有哪些? 主成分分析的主要思想是什么?The End Thank you重復(fù)芯片(重復(fù)芯片(replicatesreplicates)M M值法值法 根據(jù)比率平均值或根據(jù)比率平均值或M M值對(duì)基因排序。值對(duì)基因排序。M M值為信號(hào)強(qiáng)度比值的值為信號(hào)強(qiáng)度比值的log2log2值,值,M M杠是任一特定基因杠是任一特定基因在重復(fù)序列中在重復(fù)序列中M M值的均值。值的均值。 缺點(diǎn):這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。缺點(diǎn):這一排序

24、法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。例如,可能某一個(gè)基因在某一張芯片上例如,可能某一個(gè)基因在某一張芯片上M M值很大,但在其他芯片上值很大,但在其他芯片上M M值很小,其實(shí)這條值很小,其實(shí)這條基因并沒有差異表達(dá),但由于個(gè)別基因并沒有差異表達(dá),但由于個(gè)別M M值的影響,從而顯示出一個(gè)差異表達(dá)的特性,造成值的影響,從而顯示出一個(gè)差異表達(dá)的特性,造成假陽性假陽性。 單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)Affymetrix,illumina芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法計(jì)算出一個(gè)統(tǒng)計(jì)性的計(jì)算出一個(gè)統(tǒng)計(jì)性的P值或者值或者score值,篩選差異表達(dá)基因。值,篩選差異表達(dá)基因。比較多組數(shù)的方法比較多組數(shù)的方法 T檢驗(yàn):平均值 F檢驗(yàn): 方差比較多組數(shù)的方法比較多組數(shù)的方法 T檢驗(yàn):平均值 F檢驗(yàn): 方差 Improved Detection of Differentially Expressed Genes 對(duì)差異表達(dá)基因的改良性觀測(cè) Time series microarray dataset 微陣列數(shù)據(jù)的時(shí)間序列 缺失數(shù)據(jù)的處理缺失數(shù)據(jù)的處理 固定值法,比如固定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論