《基因芯片技術(shù)》第5章基因芯片數(shù)據(jù)質(zhì)量_第1頁(yè)
《基因芯片技術(shù)》第5章基因芯片數(shù)據(jù)質(zhì)量_第2頁(yè)
《基因芯片技術(shù)》第5章基因芯片數(shù)據(jù)質(zhì)量_第3頁(yè)
《基因芯片技術(shù)》第5章基因芯片數(shù)據(jù)質(zhì)量_第4頁(yè)
《基因芯片技術(shù)》第5章基因芯片數(shù)據(jù)質(zhì)量_第5頁(yè)
已閱讀5頁(yè),還剩94頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基因芯片技術(shù)基因芯片技術(shù)Gene chip technology內(nèi)容提要:內(nèi)容提要:l第一節(jié)第一節(jié) 基因芯片數(shù)據(jù)質(zhì)量基因芯片數(shù)據(jù)質(zhì)量l第二節(jié)第二節(jié) 基因芯片弱信號(hào)處理基因芯片弱信號(hào)處理l第三節(jié)第三節(jié) 基因芯片數(shù)據(jù)歸一化基因芯片數(shù)據(jù)歸一化第五章第五章 生物芯片數(shù)據(jù)質(zhì)量生物芯片數(shù)據(jù)質(zhì)量生物學(xué)驗(yàn)證和解釋生物學(xué)驗(yàn)證和解釋芯片實(shí)驗(yàn)芯片實(shí)驗(yàn)實(shí)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)設(shè)計(jì)圖像處理圖像處理數(shù)據(jù)歸一化數(shù)據(jù)歸一化生物問(wèn)題生物問(wèn)題假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)差異基因差異基因分類(lèi)分析分類(lèi)分析數(shù)據(jù)分析數(shù)據(jù)分析聚類(lèi)分析聚類(lèi)分析失敗失敗通過(guò)通過(guò)數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理質(zhì)量控制質(zhì)量控制第一節(jié)第一節(jié) 基因芯片數(shù)據(jù)質(zhì)量基因芯片數(shù)據(jù)質(zhì)量一、芯片圖形常見(jiàn)問(wèn)題一、

2、芯片圖形常見(jiàn)問(wèn)題二、芯片誤差產(chǎn)生原因二、芯片誤差產(chǎn)生原因三、如何減少芯片誤差三、如何減少芯片誤差四、芯片數(shù)據(jù)質(zhì)量判斷四、芯片數(shù)據(jù)質(zhì)量判斷五、芯片平臺(tái)實(shí)驗(yàn)數(shù)據(jù)的評(píng)估五、芯片平臺(tái)實(shí)驗(yàn)數(shù)據(jù)的評(píng)估一、芯片圖像常見(jiàn)問(wèn)題:一、芯片圖像常見(jiàn)問(wèn)題:(1)是否有雜質(zhì))是否有雜質(zhì)(2)信號(hào)點(diǎn)強(qiáng)度是否太高或太低)信號(hào)點(diǎn)強(qiáng)度是否太高或太低(3)是否有刮擦痕跡)是否有刮擦痕跡(4)背景強(qiáng)度是否過(guò)高)背景強(qiáng)度是否過(guò)高圖像和背景都很均一圖像和背景都很均一信號(hào)強(qiáng)度不均一信號(hào)強(qiáng)度不均一可能是雜交液或者芯片本身有問(wèn)題,需要重新進(jìn)行雜交??赡苁请s交液或者芯片本身有問(wèn)題,需要重新進(jìn)行雜交。擦擦痕痕質(zhì)量好的雙通道質(zhì)量好的雙通道cDNA

3、芯片芯片紅色熒光背景高紅色熒光背景高二、芯片誤差來(lái)源分析二、芯片誤差來(lái)源分析l基因芯片技術(shù)是一種基因芯片技術(shù)是一種半定量半定量的分析手段,存在誤差、的分析手段,存在誤差、且很難克服。且很難克服。l在芯片實(shí)驗(yàn)中,要在芯片實(shí)驗(yàn)中,要盡量降低盡量降低誤差,以提高數(shù)據(jù)分析的誤差,以提高數(shù)據(jù)分析的準(zhǔn)確性。準(zhǔn)確性。 芯片誤差來(lái)源芯片誤差來(lái)源1 1)生物學(xué)差異生物學(xué)差異:內(nèi)在的、受到遺傳和環(huán)境因素影響。:內(nèi)在的、受到遺傳和環(huán)境因素影響。2 2)實(shí)驗(yàn)過(guò)程實(shí)驗(yàn)過(guò)程誤差:誤差:(1 1)芯片制備過(guò)程誤差:克隆的準(zhǔn)確性、)芯片制備過(guò)程誤差:克隆的準(zhǔn)確性、PCRPCR擴(kuò)增及擴(kuò)增及產(chǎn)物純化過(guò)程、點(diǎn)樣及點(diǎn)樣后處理產(chǎn)物純化

4、過(guò)程、點(diǎn)樣及點(diǎn)樣后處理(2 2)樣本檢測(cè)過(guò)程誤差:)樣本檢測(cè)過(guò)程誤差:RNARNA抽提和標(biāo)記過(guò)程、雜交抽提和標(biāo)記過(guò)程、雜交過(guò)程過(guò)程 (3 3)檢測(cè)系統(tǒng)誤差:硬件、軟件)檢測(cè)系統(tǒng)誤差:硬件、軟件誤差原因誤差原因克隆的準(zhǔn)確性克隆的準(zhǔn)確性 l目前目前cDNAcDNA克隆的主要來(lái)源是商業(yè)化公司提供的克隆,克隆的主要來(lái)源是商業(yè)化公司提供的克隆,其其克隆準(zhǔn)確性?xún)H為克隆準(zhǔn)確性?xún)H為65-85%65-85%l克隆誤差產(chǎn)生主要原因:克隆誤差產(chǎn)生主要原因:1 1)含質(zhì)粒的細(xì)菌培養(yǎng)及質(zhì)粒抽提過(guò)程中存在污染)含質(zhì)粒的細(xì)菌培養(yǎng)及質(zhì)粒抽提過(guò)程中存在污染2 2)克隆重排過(guò)程人為的錯(cuò)誤)克隆重排過(guò)程人為的錯(cuò)誤誤差原因誤差原因P

5、CRPCR擴(kuò)增及產(chǎn)物純化過(guò)擴(kuò)增及產(chǎn)物純化過(guò)程程 l影響影響cDNAcDNA質(zhì)量的原因:質(zhì)量的原因: A.A.模板的質(zhì)量:最好是純化的質(zhì)粒,不能有污染。模板的質(zhì)量:最好是純化的質(zhì)粒,不能有污染。B.PCRB.PCR引物序列的特異性:特異性低的引物會(huì)導(dǎo)致非引物序列的特異性:特異性低的引物會(huì)導(dǎo)致非特異性擴(kuò)增、多帶、拖尾、甚至無(wú)擴(kuò)增產(chǎn)物。特異性擴(kuò)增、多帶、拖尾、甚至無(wú)擴(kuò)增產(chǎn)物。 l純化方法也會(huì)影響芯片質(zhì)量純化方法也會(huì)影響芯片質(zhì)量 A.A.沉淀法:離心力不足,會(huì)導(dǎo)致回收率不穩(wěn)定。沉淀法:離心力不足,會(huì)導(dǎo)致回收率不穩(wěn)定。 B.B.樹(shù)脂純化法:成本比較高,純化得率低于沉淀法。樹(shù)脂純化法:成本比較高,純化得率

6、低于沉淀法。誤差原因誤差原因點(diǎn)樣及點(diǎn)樣后處理點(diǎn)樣及點(diǎn)樣后處理 l點(diǎn)樣儀點(diǎn)樣儀精密度精密度:影響芯片矩陣:影響芯片矩陣整齊度整齊度。l點(diǎn)樣針清洗不徹底:導(dǎo)致點(diǎn)樣針清洗不徹底:導(dǎo)致DNADNA探針間交叉污染。探針間交叉污染。l點(diǎn)樣點(diǎn)樣針磨損程度針磨損程度和針堵塞的情況:造成陽(yáng)電點(diǎn)的大和針堵塞的情況:造成陽(yáng)電點(diǎn)的大小和形狀不同。小和形狀不同。l點(diǎn)樣后處理:包括水合、交聯(lián)、洗脫未結(jié)合的探針、點(diǎn)樣后處理:包括水合、交聯(lián)、洗脫未結(jié)合的探針、封閉等步驟,這個(gè)過(guò)程會(huì)影響到封閉等步驟,這個(gè)過(guò)程會(huì)影響到DNADNA固定在芯片上的固定在芯片上的效率效率。誤差原因誤差原因RNARNA抽提方法抽提方法 lRNARNA的

7、質(zhì)量直接影響標(biāo)記效率和實(shí)驗(yàn)的成功率,的質(zhì)量直接影響標(biāo)記效率和實(shí)驗(yàn)的成功率,可以說(shuō)是導(dǎo)致芯片實(shí)驗(yàn)失敗的可以說(shuō)是導(dǎo)致芯片實(shí)驗(yàn)失敗的最主要的原因。最主要的原因。l不同物種、不同組織類(lèi)型由于細(xì)胞成分的不同導(dǎo)不同物種、不同組織類(lèi)型由于細(xì)胞成分的不同導(dǎo)致致RNARNA的純度和得率有較大的差異,有些甚至需的純度和得率有較大的差異,有些甚至需要特殊的實(shí)驗(yàn)流程,而芯片公司一般是要特殊的實(shí)驗(yàn)流程,而芯片公司一般是SOPSOP(標(biāo)(標(biāo)準(zhǔn)化)作業(yè)。準(zhǔn)化)作業(yè)。誤差原因誤差原因RNARNA的標(biāo)記過(guò)程的標(biāo)記過(guò)程 l標(biāo)記反應(yīng)的過(guò)程中不同的標(biāo)記反應(yīng)的過(guò)程中不同的mRNAmRNA,其逆轉(zhuǎn)錄效率,其逆轉(zhuǎn)錄效率會(huì)有所差異,從而導(dǎo)致

8、誤差。會(huì)有所差異,從而導(dǎo)致誤差。 l標(biāo)記過(guò)程中產(chǎn)生誤差的主要因素有:標(biāo)記過(guò)程中產(chǎn)生誤差的主要因素有:(1 1)mRNAmRNA的固有性質(zhì)與逆轉(zhuǎn)錄酶的固有性質(zhì)與逆轉(zhuǎn)錄酶(2 2)逆轉(zhuǎn)錄引物)逆轉(zhuǎn)錄引物 (3 3)熒光染料)熒光染料 (4 4)標(biāo)記后產(chǎn)物純化)標(biāo)記后產(chǎn)物純化誤差原因誤差原因雜交過(guò)程雜交過(guò)程 l雜交是個(gè)雜交是個(gè)非常復(fù)雜非常復(fù)雜的過(guò)程,受到的過(guò)程,受到1 1)雜交的時(shí))雜交的時(shí)間和空間、間和空間、2 2)玻片的表面物質(zhì)的親水性和疏)玻片的表面物質(zhì)的親水性和疏水性、水性、3 3)探針在玻片表面上的分布和構(gòu)型、)探針在玻片表面上的分布和構(gòu)型、4 4)4 4)溫度、)溫度、5 5)雜交液配方

9、和濃度等影響,)雜交液配方和濃度等影響,l如果考慮到如果考慮到6 6)探針和靶序列的長(zhǎng)度、)探針和靶序列的長(zhǎng)度、7 7)G+CG+C含量、含量、8 8)SNPSNP等影響,情況會(huì)更復(fù)雜。等影響,情況會(huì)更復(fù)雜。誤差原因誤差原因硬件硬件l不同的掃描方式就會(huì)帶來(lái)誤差,即使使用同一不同的掃描方式就會(huì)帶來(lái)誤差,即使使用同一類(lèi)但由不同公司生產(chǎn)的掃描儀,由于硬件配置類(lèi)但由不同公司生產(chǎn)的掃描儀,由于硬件配置和光路設(shè)計(jì)的不同,也會(huì)帶來(lái)一定的誤差。和光路設(shè)計(jì)的不同,也會(huì)帶來(lái)一定的誤差。 l光漂白現(xiàn)象也會(huì)對(duì)芯片數(shù)據(jù)的質(zhì)量帶來(lái)一定的光漂白現(xiàn)象也會(huì)對(duì)芯片數(shù)據(jù)的質(zhì)量帶來(lái)一定的誤差。誤差。 誤差原因誤差原因軟件軟件 l不同

10、軟件的核心算法不同,因此同一原始圖片經(jīng)不同軟件的核心算法不同,因此同一原始圖片經(jīng)過(guò)不同軟件處理后,數(shù)據(jù)會(huì)不同。過(guò)不同軟件處理后,數(shù)據(jù)會(huì)不同。 l同一軟件,取信號(hào)點(diǎn)和背景的原理也有好幾種,同一軟件,取信號(hào)點(diǎn)和背景的原理也有好幾種,通過(guò)不同方法讀取的數(shù)據(jù),也有一定的偏差。通過(guò)不同方法讀取的數(shù)據(jù),也有一定的偏差。 l軟件質(zhì)量會(huì)影響掃描圖像定位的準(zhǔn)確度和數(shù)據(jù)的軟件質(zhì)量會(huì)影響掃描圖像定位的準(zhǔn)確度和數(shù)據(jù)的精確性等重要參數(shù),因此需要精確性等重要參數(shù),因此需要選擇質(zhì)量好的圖像選擇質(zhì)量好的圖像處理軟件處理軟件。 三、如何減少芯片誤差三、如何減少芯片誤差l實(shí)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)設(shè)計(jì)1 1)重復(fù):生物學(xué)重復(fù)、技術(shù)上重復(fù))重復(fù)

11、:生物學(xué)重復(fù)、技術(shù)上重復(fù)2 2)直接比較:使用正反或環(huán)式標(biāo)記法,平衡染料和樣本)直接比較:使用正反或環(huán)式標(biāo)記法,平衡染料和樣本的差異。的差異。 l實(shí)驗(yàn)過(guò)程的質(zhì)控實(shí)驗(yàn)過(guò)程的質(zhì)控1 1)制備過(guò)程的原材料檢測(cè))制備過(guò)程的原材料檢測(cè)2 2)生產(chǎn)過(guò)程)生產(chǎn)過(guò)程3 3)成品質(zhì)控)成品質(zhì)控l數(shù)據(jù)處理與矯正數(shù)據(jù)處理與矯正 減少誤差減少誤差對(duì)基片進(jìn)行檢測(cè)對(duì)基片進(jìn)行檢測(cè)l目前,國(guó)內(nèi)外沒(méi)有統(tǒng)一的基片質(zhì)檢方案。目前,國(guó)內(nèi)外沒(méi)有統(tǒng)一的基片質(zhì)檢方案。l好的基片好的基片背景低背景低DNADNA的固定能力強(qiáng)的固定能力強(qiáng)平整度,平整度,質(zhì)檢主質(zhì)檢主要考察這三個(gè)參數(shù)。此外,要檢查是否有劃痕和污點(diǎn)。要考察這三個(gè)參數(shù)。此外,要檢查是

12、否有劃痕和污點(diǎn)。l每批基片抽出一定比例,用標(biāo)記有熒光染料的每批基片抽出一定比例,用標(biāo)記有熒光染料的DNADNA探針探針點(diǎn)樣、固定、洗脫,通過(guò)比較洗脫前后的熒光信號(hào)變化,點(diǎn)樣、固定、洗脫,通過(guò)比較洗脫前后的熒光信號(hào)變化,測(cè)定基片的固定率。測(cè)定基片的固定率。 l基片表面的基片表面的化學(xué)基團(tuán)的穩(wěn)定性化學(xué)基團(tuán)的穩(wěn)定性較差,較差,保存時(shí)間保存時(shí)間對(duì)其固定對(duì)其固定的效率影響很大。的效率影響很大。減少誤差減少誤差對(duì)探針進(jìn)行檢測(cè)對(duì)探針進(jìn)行檢測(cè)l對(duì)于對(duì)于cDNAcDNA芯片,所獲得的芯片,所獲得的cDNAcDNA克隆克隆必須是經(jīng)過(guò)嚴(yán)格測(cè)序的,必須是經(jīng)過(guò)嚴(yán)格測(cè)序的,而且克隆的而且克隆的保存保存也必須嚴(yán)格,以防止污

13、染。在使用之前以及也必須嚴(yán)格,以防止污染。在使用之前以及PCRPCR之后,還應(yīng)之后,還應(yīng)抽出抽出5 5的克隆進(jìn)行再測(cè)序的克隆進(jìn)行再測(cè)序,以判斷克隆的位,以判斷克隆的位置是否有錯(cuò)亂或污染。置是否有錯(cuò)亂或污染。l對(duì)于直接點(diǎn)樣的寡核苷酸芯片,對(duì)供應(yīng)商提供的寡核苷酸質(zhì)對(duì)于直接點(diǎn)樣的寡核苷酸芯片,對(duì)供應(yīng)商提供的寡核苷酸質(zhì)量也有較高的要求,主要體現(xiàn)在純度量也有較高的要求,主要體現(xiàn)在純度序列的正確性序列的正確性濃度濃度等方面,一般需要等方面,一般需要HPLCHPLC純化,并要求供應(yīng)商提供質(zhì)檢結(jié)果。純化,并要求供應(yīng)商提供質(zhì)檢結(jié)果。l我們只能使用分光光度計(jì)測(cè)得其濃度和質(zhì)量狀況。我們只能使用分光光度計(jì)測(cè)得其濃度和

14、質(zhì)量狀況。根據(jù)測(cè)得根據(jù)測(cè)得濃度和體積計(jì)算出所給的探針總量。例如,濃度和體積計(jì)算出所給的探針總量。例如,260/280260/280應(yīng)該大于應(yīng)該大于1.61.6,以防止產(chǎn)品中有太多單核苷酸或者太多引物合成不完全。,以防止產(chǎn)品中有太多單核苷酸或者太多引物合成不完全。 減少誤差減少誤差對(duì)對(duì)PCRPCR產(chǎn)物進(jìn)行質(zhì)檢產(chǎn)物進(jìn)行質(zhì)檢lPCRPCR的污染控制是一個(gè)很重要的環(huán)節(jié),應(yīng)的污染控制是一個(gè)很重要的環(huán)節(jié),應(yīng)嚴(yán)格遵守操作嚴(yán)格遵守操作規(guī)程規(guī)程。l質(zhì)檢質(zhì)檢PCRPCR產(chǎn)物質(zhì)量主要采用的方法是產(chǎn)物質(zhì)量主要采用的方法是瓊脂糖凝膠電泳瓊脂糖凝膠電泳,一個(gè)合格的產(chǎn)物,要求電泳條帶是清晰的單帶。條帶一個(gè)合格的產(chǎn)物,要求電

15、泳條帶是清晰的單帶。條帶的亮度代表了擴(kuò)增的量,如果是多條帶或拖尾的亮度代表了擴(kuò)增的量,如果是多條帶或拖尾(smear)(smear),則則PCRPCR產(chǎn)物的質(zhì)量就達(dá)不到要求。產(chǎn)物的質(zhì)量就達(dá)不到要求。l有條件的還可以對(duì)純化后的每個(gè)有條件的還可以對(duì)純化后的每個(gè)PCRPCR產(chǎn)物用產(chǎn)物用9696孔的紫外孔的紫外分光光度計(jì)分光光度計(jì)進(jìn)行定量分析進(jìn)行定量分析。 減少誤差減少誤差對(duì)玻片上對(duì)玻片上cDNA固定濃度檢修檢測(cè)固定濃度檢修檢測(cè)1. 熒光染料染色法:從各批次制備中抽取若干張芯片在配制染料(SYTO 61 )中浸泡5分鐘(室溫),依次用TE、H2O和無(wú)水乙醇洗滌。干燥后,用掃描儀對(duì)芯片進(jìn)行掃描,掃描波長(zhǎng)

16、為535 nm。2. 使用標(biāo)記的寡核苷酸雜交:使用標(biāo)記的寡核苷酸與cDNA雜交可以反映cDNA探針的相對(duì)量。3. 與組織的RNA雜交:這種方式完全與正式的實(shí)驗(yàn)相同,因此能最能真實(shí)反映芯片質(zhì)量。 四、芯片數(shù)據(jù)的質(zhì)量判斷四、芯片數(shù)據(jù)的質(zhì)量判斷芯片數(shù)據(jù)的質(zhì)量:芯片數(shù)據(jù)的質(zhì)量:(1)整張芯片的質(zhì)量)整張芯片的質(zhì)量(2)芯片上各個(gè)點(diǎn)的質(zhì)量)芯片上各個(gè)點(diǎn)的質(zhì)量 評(píng)價(jià)芯片質(zhì)量的方法:評(píng)價(jià)芯片質(zhì)量的方法:(1)信噪比:最簡(jiǎn)單的方法就是計(jì)算整個(gè)芯片的信噪比。)信噪比:最簡(jiǎn)單的方法就是計(jì)算整個(gè)芯片的信噪比。信噪比太低表示整個(gè)芯片的背景太高信噪比太低表示整個(gè)芯片的背景太高,這張芯片的,這張芯片的質(zhì)量質(zhì)量不是很好不是

17、很好。(2)散點(diǎn)圖)散點(diǎn)圖散點(diǎn)圖散點(diǎn)圖l散點(diǎn)圖:散點(diǎn)圖:用來(lái)表示在用來(lái)表示在cDNAcDNA芯片中兩個(gè)組織芯片中兩個(gè)組織中基因表達(dá)量的中基因表達(dá)量的比例比例信息信息。 l橫坐標(biāo):表示實(shí)驗(yàn)組橫坐標(biāo):表示實(shí)驗(yàn)組織(織(Cy5Cy5標(biāo)記)的樣點(diǎn)標(biāo)記)的樣點(diǎn)信號(hào)強(qiáng)度對(duì)數(shù)值。信號(hào)強(qiáng)度對(duì)數(shù)值。l縱坐標(biāo):表示參照組縱坐標(biāo):表示參照組織(織(Cy3Cy3標(biāo)記)的樣點(diǎn)標(biāo)記)的樣點(diǎn)信號(hào)強(qiáng)度對(duì)數(shù)值。信號(hào)強(qiáng)度對(duì)數(shù)值。l4545度的對(duì)角線:基因度的對(duì)角線:基因表達(dá)穩(wěn)定不變的區(qū)域。表達(dá)穩(wěn)定不變的區(qū)域。B散點(diǎn)圖的作用散點(diǎn)圖的作用-對(duì)芯片質(zhì)量進(jìn)行監(jiān)控對(duì)芯片質(zhì)量進(jìn)行監(jiān)控 自身校驗(yàn)實(shí)驗(yàn):自身校驗(yàn)實(shí)驗(yàn):將一份樣本平均分成兩份進(jìn)行將

18、一份樣本平均分成兩份進(jìn)行自身校驗(yàn)實(shí)自身校驗(yàn)實(shí)驗(yàn)驗(yàn),理論上所有點(diǎn)的位置都應(yīng)在,理論上所有點(diǎn)的位置都應(yīng)在4545度對(duì)角線上,但考慮到度對(duì)角線上,但考慮到系統(tǒng)誤差,散點(diǎn)的分布表現(xiàn)一定的區(qū)域,分布區(qū)域越小,系統(tǒng)誤差,散點(diǎn)的分布表現(xiàn)一定的區(qū)域,分布區(qū)域越小,系統(tǒng)越穩(wěn)定,誤差也越小。系統(tǒng)越穩(wěn)定,誤差也越小。 圖片分析:圖片分析:兩條兩條紅色平行線表示紅色平行線表示系統(tǒng)本身誤差的系統(tǒng)本身誤差的閾值,紅色平行閾值,紅色平行線中間的點(diǎn)表示線中間的點(diǎn)表示沒(méi)有表達(dá)差異。沒(méi)有表達(dá)差異。紅色平行線以外紅色平行線以外的區(qū)域則是偏離的區(qū)域則是偏離較大的點(diǎn),在自較大的點(diǎn),在自身比較中代表假身比較中代表假陽(yáng)性。陽(yáng)性。 M-AM

19、-A散點(diǎn)圖散點(diǎn)圖散點(diǎn)圖與散點(diǎn)圖與M-AM-A散點(diǎn)圖比較散點(diǎn)圖比較 l散點(diǎn)圖:顯示起來(lái)非常直接,但由于在實(shí)驗(yàn)中沒(méi)有差異散點(diǎn)圖:顯示起來(lái)非常直接,但由于在實(shí)驗(yàn)中沒(méi)有差異表達(dá)的基因總是占絕大多數(shù),所以散點(diǎn)圖往往表現(xiàn)出很表達(dá)的基因總是占絕大多數(shù),所以散點(diǎn)圖往往表現(xiàn)出很大的線性,以至于其他一些特性難以觀察到。大的線性,以至于其他一些特性難以觀察到。lM-AM-A散點(diǎn)圖:散點(diǎn)圖:1 1)增加了空間的延展性,顯示了差異表達(dá)隨強(qiáng)度的分布。)增加了空間的延展性,顯示了差異表達(dá)隨強(qiáng)度的分布。2 2)更易觀察到兩種熒光強(qiáng)度之間的一些非線性的特征。)更易觀察到兩種熒光強(qiáng)度之間的一些非線性的特征。單個(gè)點(diǎn)的質(zhì)量單個(gè)點(diǎn)的質(zhì)

20、量 l評(píng)估單個(gè)點(diǎn)質(zhì)量的方法:評(píng)估單個(gè)點(diǎn)質(zhì)量的方法:(1 1)根據(jù)點(diǎn)的物理特性)根據(jù)點(diǎn)的物理特性(2 2)評(píng)估點(diǎn)的強(qiáng)度:此點(diǎn)與同一張芯片或重復(fù)芯片上同)評(píng)估點(diǎn)的強(qiáng)度:此點(diǎn)與同一張芯片或重復(fù)芯片上同樣基因的點(diǎn)強(qiáng)度是否一致。樣基因的點(diǎn)強(qiáng)度是否一致。l重復(fù)點(diǎn)信號(hào)值:理論上是滿足重復(fù)點(diǎn)信號(hào)值:理論上是滿足正態(tài)分布正態(tài)分布,利用所有的重,利用所有的重復(fù)點(diǎn)求出它們所滿足的正態(tài)分布,假如某個(gè)信號(hào)點(diǎn)的信復(fù)點(diǎn)求出它們所滿足的正態(tài)分布,假如某個(gè)信號(hào)點(diǎn)的信號(hào)值顯著偏離這個(gè)正態(tài)分布,那么這個(gè)信號(hào)點(diǎn)的數(shù)據(jù)質(zhì)號(hào)值顯著偏離這個(gè)正態(tài)分布,那么這個(gè)信號(hào)點(diǎn)的數(shù)據(jù)質(zhì)量可能不是很好。量可能不是很好。如何處理質(zhì)量低的信號(hào):如何處理質(zhì)量低

21、的信號(hào):1 1)直接濾除質(zhì)量低的信號(hào)點(diǎn):這種處理有時(shí)候會(huì)過(guò))直接濾除質(zhì)量低的信號(hào)點(diǎn):這種處理有時(shí)候會(huì)過(guò)于武斷,因?yàn)橐恍┑唾|(zhì)量點(diǎn)也會(huì)蘊(yùn)含有用的信息。于武斷,因?yàn)橐恍┑唾|(zhì)量點(diǎn)也會(huì)蘊(yùn)含有用的信息。2 2)給高質(zhì)量點(diǎn)以高的權(quán)重值,低質(zhì)量點(diǎn)以低的權(quán)重)給高質(zhì)量點(diǎn)以高的權(quán)重值,低質(zhì)量點(diǎn)以低的權(quán)重值,然后進(jìn)行分析。值,然后進(jìn)行分析。 基于芯片圖像處理信號(hào)點(diǎn)的質(zhì)量基于芯片圖像處理信號(hào)點(diǎn)的質(zhì)量 l信號(hào)點(diǎn)的大小和規(guī)則程度:一些信號(hào)點(diǎn)直徑太小或者形狀不信號(hào)點(diǎn)的大小和規(guī)則程度:一些信號(hào)點(diǎn)直徑太小或者形狀不規(guī)則,和圓相差太大,這些點(diǎn)通常認(rèn)為質(zhì)量不是很好;規(guī)則,和圓相差太大,這些點(diǎn)通常認(rèn)為質(zhì)量不是很好;2. 信噪比:只有

22、信噪比比較高的信號(hào)點(diǎn),數(shù)據(jù)的可信度才高;信噪比:只有信噪比比較高的信號(hào)點(diǎn),數(shù)據(jù)的可信度才高;3. 信號(hào)點(diǎn)周?chē)谋尘皬?qiáng)度:某個(gè)信號(hào)點(diǎn)周?chē)谋尘斑h(yuǎn)遠(yuǎn)大于其信號(hào)點(diǎn)周?chē)谋尘皬?qiáng)度:某個(gè)信號(hào)點(diǎn)周?chē)谋尘斑h(yuǎn)遠(yuǎn)大于其他信號(hào)點(diǎn)周?chē)谋尘?,那么這個(gè)信號(hào)點(diǎn)很可能被污染了;他信號(hào)點(diǎn)周?chē)谋尘?,那么這個(gè)信號(hào)點(diǎn)很可能被污染了;4. 信號(hào)點(diǎn)背景的均一程度:背景均一程度高的信號(hào)點(diǎn),是質(zhì)量信號(hào)點(diǎn)背景的均一程度:背景均一程度高的信號(hào)點(diǎn),是質(zhì)量高的點(diǎn);高的點(diǎn);5. 信號(hào)的飽和程度:飽和像素過(guò)多的信號(hào)點(diǎn),數(shù)據(jù)準(zhǔn)確性令人信號(hào)的飽和程度:飽和像素過(guò)多的信號(hào)點(diǎn),數(shù)據(jù)準(zhǔn)確性令人懷疑。懷疑。 五、芯片平臺(tái)實(shí)驗(yàn)數(shù)據(jù)的評(píng)估五、芯片平臺(tái)實(shí)驗(yàn)數(shù)據(jù)的

23、評(píng)估 芯片平臺(tái)實(shí)驗(yàn)數(shù)據(jù)的評(píng)估:芯片平臺(tái)實(shí)驗(yàn)數(shù)據(jù)的評(píng)估:通過(guò)芯片實(shí)驗(yàn)、數(shù)據(jù)提取獲得通過(guò)芯片實(shí)驗(yàn)、數(shù)據(jù)提取獲得的數(shù)據(jù)是否反映了實(shí)驗(yàn)的真實(shí)情況。的數(shù)據(jù)是否反映了實(shí)驗(yàn)的真實(shí)情況。要評(píng)價(jià)芯片數(shù)據(jù)的好壞,重復(fù)實(shí)驗(yàn)是必不可少的,目前不要評(píng)價(jià)芯片數(shù)據(jù)的好壞,重復(fù)實(shí)驗(yàn)是必不可少的,目前不同實(shí)驗(yàn)室采用不同的方法利用重復(fù)實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行評(píng)價(jià),同實(shí)驗(yàn)室采用不同的方法利用重復(fù)實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行評(píng)價(jià),可以大致地歸納為兩大類(lèi)可以大致地歸納為兩大類(lèi): 一是篩選到的一是篩選到的差異表達(dá)基因差異表達(dá)基因的可的可靠性,二是靠性,二是統(tǒng)計(jì)分析系統(tǒng)的重復(fù)性統(tǒng)計(jì)分析系統(tǒng)的重復(fù)性。 評(píng)估參考:評(píng)估參考:自身比較實(shí)驗(yàn)自身比較實(shí)驗(yàn) :假陽(yáng)性、假陰性

24、:假陽(yáng)性、假陰性相關(guān)系數(shù)相關(guān)系數(shù)變異系數(shù)(變異系數(shù)(coefficient of variation, CV) r1/r2值值 自身比較實(shí)驗(yàn)自身比較實(shí)驗(yàn) l自身比較實(shí)驗(yàn)自身比較實(shí)驗(yàn)(Self-comparison experiment,SCE):):實(shí)驗(yàn)組和對(duì)照組的實(shí)驗(yàn)組和對(duì)照組的RNA來(lái)自同一份樣本,在雙色熒光來(lái)自同一份樣本,在雙色熒光標(biāo)記系統(tǒng)中,兩種熒光標(biāo)記同一標(biāo)記系統(tǒng)中,兩種熒光標(biāo)記同一RNA,從理論上講,從理論上講,所有基因的信號(hào)比值應(yīng)該為所有基因的信號(hào)比值應(yīng)該為1,在散點(diǎn)圖上形成一條,在散點(diǎn)圖上形成一條斜率為斜率為1的直線。此方法已成為評(píng)價(jià)的直線。此方法已成為評(píng)價(jià)芯片試驗(yàn)體系芯片試驗(yàn)

25、體系的的一個(gè)重要的方式。一個(gè)重要的方式。自身比較實(shí)驗(yàn)自身比較實(shí)驗(yàn)l衡量篩選到的差異表達(dá)基因的可靠性衡量篩選到的差異表達(dá)基因的可靠性假陽(yáng)性基因與假陽(yáng)性率假陽(yáng)性基因與假陽(yáng)性率l自身比較實(shí)驗(yàn),理論上不存在差異表達(dá)基因,但自身比較實(shí)驗(yàn),理論上不存在差異表達(dá)基因,但實(shí)際上會(huì)檢測(cè)到少量基因的實(shí)驗(yàn)組實(shí)際上會(huì)檢測(cè)到少量基因的實(shí)驗(yàn)組/ /對(duì)照組比值超對(duì)照組比值超過(guò)閾值,這些即為過(guò)閾值,這些即為假陽(yáng)性基因假陽(yáng)性基因 。l閾值是人為設(shè)定的主觀標(biāo)準(zhǔn),以閾值為基礎(chǔ)來(lái)判閾值是人為設(shè)定的主觀標(biāo)準(zhǔn),以閾值為基礎(chǔ)來(lái)判斷假陽(yáng)性存在很大的主觀性。斷假陽(yáng)性存在很大的主觀性。l在特定的閾值下,假陽(yáng)性率的大小可以反映出芯在特定的閾值下,

26、假陽(yáng)性率的大小可以反映出芯片系統(tǒng)的誤差情況,假陽(yáng)性率高,則芯片數(shù)據(jù)誤片系統(tǒng)的誤差情況,假陽(yáng)性率高,則芯片數(shù)據(jù)誤差大。差大。l因此,假陽(yáng)性率可以作為一個(gè)芯片平臺(tái)的重要質(zhì)因此,假陽(yáng)性率可以作為一個(gè)芯片平臺(tái)的重要質(zhì)量指標(biāo)。量指標(biāo)。假陽(yáng)性率越低,芯片平臺(tái)的可靠性越高。假陽(yáng)性率越低,芯片平臺(tái)的可靠性越高。 假陽(yáng)性產(chǎn)生的原因:假陽(yáng)性產(chǎn)生的原因: 1 1)由隨機(jī)誤差引起:雜質(zhì)、背景等因素)由隨機(jī)誤差引起:雜質(zhì)、背景等因素2 2)在雙熒光系統(tǒng)中,在雙熒光系統(tǒng)中,Cy3Cy3和和Cy5Cy5兩種染料對(duì)不同基因的兩種染料對(duì)不同基因的摻入效率略有不同,摻入效率略有不同,會(huì)引入一部分的假陽(yáng)性,這部分會(huì)引入一部分的假陽(yáng)

27、性,這部分差異并不是隨機(jī)的,與基因序列或信號(hào)強(qiáng)度都有一定差異并不是隨機(jī)的,與基因序列或信號(hào)強(qiáng)度都有一定的關(guān)系。的關(guān)系。 這些假陽(yáng)性只能通過(guò)這些假陽(yáng)性只能通過(guò)染料互換(染料互換(Dye SwappingDye Swapping)標(biāo)記)標(biāo)記的重復(fù)實(shí)驗(yàn)的重復(fù)實(shí)驗(yàn)加以去除。只是染料的差異不大,因此,加以去除。只是染料的差異不大,因此,在很多研究中往往忽略。在很多研究中往往忽略。 假陰性產(chǎn)生原因假陰性產(chǎn)生原因1)系統(tǒng)誤差:信號(hào)值的線性工作范圍和背景的原因?qū)е拢┫到y(tǒng)誤差:信號(hào)值的線性工作范圍和背景的原因?qū)е翪y3/Cy5的比值比實(shí)際的表達(dá)比值小的比值比實(shí)際的表達(dá)比值小2)表達(dá)差異倍數(shù)本身比較小,而人為的判

28、定閾值為)表達(dá)差異倍數(shù)本身比較小,而人為的判定閾值為0.5-2.0;3)弱信號(hào)導(dǎo)致的無(wú)效基因;)弱信號(hào)導(dǎo)致的無(wú)效基因;4)生物學(xué)樣本的不純,如病變組織中混有正常細(xì)胞導(dǎo)致)生物學(xué)樣本的不純,如病變組織中混有正常細(xì)胞導(dǎo)致Cy3/Cy5的比值比實(shí)際的表達(dá)比值小的比值比實(shí)際的表達(dá)比值小5)非特異性雜交導(dǎo)致的檢測(cè)比值壓縮,尤其是)非特異性雜交導(dǎo)致的檢測(cè)比值壓縮,尤其是cDNA芯片回芯片回導(dǎo)致更強(qiáng)的非特異性雜交;導(dǎo)致更強(qiáng)的非特異性雜交;6)基因芯片上一般并不覆蓋所有的基因,樣本中的一些陽(yáng)性)基因芯片上一般并不覆蓋所有的基因,樣本中的一些陽(yáng)性基因由于在芯片上沒(méi)有對(duì)應(yīng)的探針,從而不能探測(cè)出?;蛴捎谠谛酒蠜](méi)

29、有對(duì)應(yīng)的探針,從而不能探測(cè)出?;蛐酒臄?shù)據(jù)一般不考慮假陰性問(wèn)題,僅對(duì)陽(yáng)性基因進(jìn)行基因芯片的數(shù)據(jù)一般不考慮假陰性問(wèn)題,僅對(duì)陽(yáng)性基因進(jìn)行分析和進(jìn)一步研究。分析和進(jìn)一步研究。 相關(guān)系數(shù)(相關(guān)系數(shù)(correlation coefficientcorrelation coefficient) lr r在在-1-1到到1 1之間。之間。l如果如果r r為為0 0表示完全不相關(guān)。表示完全不相關(guān)。r r等于等于1 1時(shí)為完全正時(shí)為完全正相關(guān),等于相關(guān),等于-1-1時(shí)為完全負(fù)相關(guān)。時(shí)為完全負(fù)相關(guān)。l相關(guān)系數(shù)用于衡量芯片的重復(fù)性有一定的參考相關(guān)系數(shù)用于衡量芯片的重復(fù)性有一定的參考價(jià)值價(jià)值 。cDNAcDNA芯

30、片中使用相關(guān)系數(shù)芯片中使用相關(guān)系數(shù)l衡量衡量同一張芯片中的兩種熒光信號(hào)的重復(fù)性同一張芯片中的兩種熒光信號(hào)的重復(fù)性:當(dāng):當(dāng)Cy3Cy3和和Cy5Cy5信號(hào)信號(hào)值之間的相關(guān)系數(shù)接近值之間的相關(guān)系數(shù)接近1 1,表明兩種熒光信號(hào)的相關(guān)程度非常高,表明兩種熒光信號(hào)的相關(guān)程度非常高,從而證明雙色熒光系統(tǒng)可靠性高;從而證明雙色熒光系統(tǒng)可靠性高;l在兩次重復(fù)實(shí)驗(yàn)中在兩次重復(fù)實(shí)驗(yàn)中,得到兩組,得到兩組Cy5/Cy3Cy5/Cy3比值,計(jì)算兩組比值之間比值,計(jì)算兩組比值之間的相關(guān)系數(shù),的相關(guān)系數(shù),作為判斷重復(fù)性的標(biāo)準(zhǔn)作為判斷重復(fù)性的標(biāo)準(zhǔn)。理論上如果數(shù)據(jù)完全重。理論上如果數(shù)據(jù)完全重復(fù),則其比值的相關(guān)系數(shù)為復(fù),則其比

31、值的相關(guān)系數(shù)為1 1,但由于系統(tǒng)誤差的存在,比值往,但由于系統(tǒng)誤差的存在,比值往往小于往小于1 1,國(guó)際上沒(méi)有公認(rèn)的判斷芯片數(shù)據(jù)重復(fù)性的標(biāo)準(zhǔn),國(guó)際上沒(méi)有公認(rèn)的判斷芯片數(shù)據(jù)重復(fù)性的標(biāo)準(zhǔn),不同不同實(shí)驗(yàn)的實(shí)驗(yàn)的R R值相差很大,有人在特定實(shí)驗(yàn)中曾用比值的相關(guān)系數(shù)大值相差很大,有人在特定實(shí)驗(yàn)中曾用比值的相關(guān)系數(shù)大于于0.70.7作為判斷重復(fù)實(shí)驗(yàn)成功的標(biāo)準(zhǔn)。作為判斷重復(fù)實(shí)驗(yàn)成功的標(biāo)準(zhǔn)。 相關(guān)系數(shù)衡量重復(fù)性的局限性相關(guān)系數(shù)衡量重復(fù)性的局限性 l相關(guān)系數(shù)的大小不僅與芯片的重復(fù)性有關(guān),還與兩個(gè)比較樣本之間的表相關(guān)系數(shù)的大小不僅與芯片的重復(fù)性有關(guān),還與兩個(gè)比較樣本之間的表達(dá)差異程度有關(guān),即當(dāng)實(shí)驗(yàn)組和對(duì)照組兩個(gè)樣

32、本表達(dá)差異小、差異表達(dá)達(dá)差異程度有關(guān),即當(dāng)實(shí)驗(yàn)組和對(duì)照組兩個(gè)樣本表達(dá)差異小、差異表達(dá)基因的數(shù)量非常少時(shí),相關(guān)系數(shù)很低?;虻臄?shù)量非常少時(shí),相關(guān)系數(shù)很低。l如果樣本的真實(shí)差異基因很少,意味著絕大部分的基因是非差異表達(dá)基如果樣本的真實(shí)差異基因很少,意味著絕大部分的基因是非差異表達(dá)基因,用相關(guān)系數(shù)評(píng)估就不適當(dāng)因,用相關(guān)系數(shù)評(píng)估就不適當(dāng),容易錯(cuò)誤地得出重復(fù)性不好的結(jié)論。,容易錯(cuò)誤地得出重復(fù)性不好的結(jié)論。變異系數(shù)(變異系數(shù)(coefficient of variation, CVcoefficient of variation, CV) l當(dāng)芯片數(shù)據(jù)重復(fù)較多時(shí),可以用比值的變異系數(shù)來(lái)判斷當(dāng)芯片數(shù)據(jù)重復(fù)較

33、多時(shí),可以用比值的變異系數(shù)來(lái)判斷數(shù)數(shù)據(jù)的重復(fù)性據(jù)的重復(fù)性,好處在于屏蔽了樣本的量綱和均數(shù)大小的影,好處在于屏蔽了樣本的量綱和均數(shù)大小的影響。響。l計(jì)算每個(gè)基因比值的計(jì)算每個(gè)基因比值的CVCV值,用所有基因的平均值,用所有基因的平均CVCV值衡量整值衡量整張芯片實(shí)驗(yàn)的重復(fù)性。張芯片實(shí)驗(yàn)的重復(fù)性。CVCV值越小,表示重復(fù)性越好。值越小,表示重復(fù)性越好。l變異系數(shù)適合于衡量多組芯片的重復(fù)。變異系數(shù)適合于衡量多組芯片的重復(fù)。l變異系數(shù)的計(jì)算需要多組芯片的重復(fù),涉及比較高昂的成變異系數(shù)的計(jì)算需要多組芯片的重復(fù),涉及比較高昂的成本,所以本,所以這一指標(biāo)主要用于芯片平臺(tái)的測(cè)評(píng)這一指標(biāo)主要用于芯片平臺(tái)的測(cè)評(píng)。

34、l正式的實(shí)驗(yàn)一般重復(fù)做兩、三次,就無(wú)法采用變異系數(shù)作正式的實(shí)驗(yàn)一般重復(fù)做兩、三次,就無(wú)法采用變異系數(shù)作為衡量實(shí)驗(yàn)重復(fù)性的依據(jù)。為衡量實(shí)驗(yàn)重復(fù)性的依據(jù)。r1/r2r1/r2值值 1)r1/r2值是指兩次重復(fù)實(shí)驗(yàn)比值相除2)從理論上講同一個(gè)點(diǎn)(基因)的兩次重復(fù)實(shí)驗(yàn)Ratio1/Ratio21,也就是說(shuō)log2(r1/r2)應(yīng)該是0。但由于誤差的存在,r1/r2值往往偏離1,偏離程度越大,表明該點(diǎn)的重復(fù)性越差。3)r1/r2值作為篩選重復(fù)實(shí)驗(yàn)中的有效點(diǎn)的標(biāo)準(zhǔn)。通常當(dāng)r1/r2值落在0.5-2區(qū)間時(shí),認(rèn)為是有效重復(fù),而落在該區(qū)間外的點(diǎn)被認(rèn)為重復(fù)性不好,可以作為無(wú)效點(diǎn)被過(guò)濾。4)用有效點(diǎn)的百分率作為衡量

35、整個(gè)芯片實(shí)驗(yàn)重復(fù)性的參數(shù)。落在有效區(qū)間內(nèi)的點(diǎn)作為重復(fù)好的基因,這些有效點(diǎn)占總基因數(shù)的百分?jǐn)?shù)即為有效點(diǎn)的百分率,百分率越高,重復(fù)越好。r1/r2r1/r2值不足值不足l當(dāng)基因差異表達(dá)的倍數(shù)過(guò)大,使得兩種熒光信號(hào)中有一個(gè)過(guò)強(qiáng)或過(guò)弱而落在線性工作范圍之外,r1/r2值就會(huì)產(chǎn)生較大的誤差,從而被過(guò)濾l一些低豐度基因,由于信號(hào)弱導(dǎo)致比值的波動(dòng)大。比如某一個(gè)基因在兩次實(shí)驗(yàn)中的比值分別為100和30,r1/r2為3.33,那么把這個(gè)點(diǎn)作為無(wú)效點(diǎn)剔除就不妥當(dāng),因?yàn)檫@個(gè)基因的兩次實(shí)驗(yàn)都顯示了上調(diào)表達(dá)。 第二節(jié)第二節(jié) 基因芯片弱信號(hào)處理基因芯片弱信號(hào)處理弱信號(hào)與噪聲弱信號(hào)與噪聲背景噪聲背景噪聲有生物意義的弱信號(hào)有

36、生物意義的弱信號(hào)分離開(kāi)來(lái)非常重要分離開(kāi)來(lái)非常重要 信信號(hào)號(hào)強(qiáng)強(qiáng)度度低低分離弱信號(hào)和噪音的方法分離弱信號(hào)和噪音的方法l1 1 重復(fù)芯片實(shí)驗(yàn):缺點(diǎn)重復(fù)芯片實(shí)驗(yàn):缺點(diǎn)成本較高,而且會(huì)成本較高,而且會(huì)提高芯片數(shù)據(jù)的復(fù)雜性。提高芯片數(shù)據(jù)的復(fù)雜性。l2 2 找到一個(gè)適當(dāng)?shù)拈撝担旱陀谠撝档男盘?hào)點(diǎn)認(rèn)找到一個(gè)適當(dāng)?shù)拈撝担旱陀谠撝档男盘?hào)點(diǎn)認(rèn)為是無(wú)意義點(diǎn)和不可靠點(diǎn),應(yīng)當(dāng)濾除不進(jìn)入后為是無(wú)意義點(diǎn)和不可靠點(diǎn),應(yīng)當(dāng)濾除不進(jìn)入后續(xù)數(shù)據(jù)分析;高于該值的信號(hào)點(diǎn)認(rèn)為是一些真續(xù)數(shù)據(jù)分析;高于該值的信號(hào)點(diǎn)認(rèn)為是一些真正的弱信號(hào)點(diǎn)和可靠點(diǎn),應(yīng)當(dāng)進(jìn)入后續(xù)的數(shù)據(jù)正的弱信號(hào)點(diǎn)和可靠點(diǎn),應(yīng)當(dāng)進(jìn)入后續(xù)的數(shù)據(jù)分析,挖掘出具有生物意義的信息。分析,

37、挖掘出具有生物意義的信息。 閾值確定方法閾值確定方法l固定值法:固定值法:設(shè)定一個(gè)固定閾值,小于這個(gè)閾值就設(shè)定一個(gè)固定閾值,小于這個(gè)閾值就是弱信號(hào)點(diǎn)。但每張芯片的特性并不一樣,所以是弱信號(hào)點(diǎn)。但每張芯片的特性并不一樣,所以用一個(gè)通用的值來(lái)區(qū)分信號(hào)過(guò)于絕對(duì)化。用一個(gè)通用的值來(lái)區(qū)分信號(hào)過(guò)于絕對(duì)化。l信噪比法:信噪比法:計(jì)算單個(gè)信號(hào)的信噪比來(lái)確定這個(gè)信計(jì)算單個(gè)信號(hào)的信噪比來(lái)確定這個(gè)信號(hào)是否是弱信號(hào),但是弱信號(hào)點(diǎn)通常是信噪比較號(hào)是否是弱信號(hào),但是弱信號(hào)點(diǎn)通常是信噪比較低的,所以用這種標(biāo)準(zhǔn)低的,所以用這種標(biāo)準(zhǔn)過(guò)于嚴(yán)格過(guò)于嚴(yán)格,很多有信息的,很多有信息的弱信號(hào)點(diǎn)將會(huì)失去。弱信號(hào)點(diǎn)將會(huì)失去。閾值確定方法閾值

38、確定方法l背景平均值加兩倍方差:背景平均值加兩倍方差:計(jì)算整個(gè)片子背景平均計(jì)算整個(gè)片子背景平均值加兩倍方差作為閾值,但本底的波動(dòng)則會(huì)導(dǎo)致值加兩倍方差作為閾值,但本底的波動(dòng)則會(huì)導(dǎo)致閾值的波動(dòng)。閾值的波動(dòng)。l陰性對(duì)照點(diǎn)平均信號(hào)值加兩倍方差:陰性對(duì)照點(diǎn)陰性對(duì)照點(diǎn)平均信號(hào)值加兩倍方差:陰性對(duì)照點(diǎn)平均信號(hào)值加兩倍方差平均信號(hào)值加兩倍方差作為閾值。有效的陰性對(duì)作為閾值。有效的陰性對(duì)照點(diǎn)是有限的,不足以形成正態(tài)分布;而且這種照點(diǎn)是有限的,不足以形成正態(tài)分布;而且這種方法易于受到陰性對(duì)照點(diǎn)自身的影響;有時(shí)由于方法易于受到陰性對(duì)照點(diǎn)自身的影響;有時(shí)由于點(diǎn)樣針受到污染,或者同源雜交使得陰性對(duì)照點(diǎn)點(diǎn)樣針受到污染,或

39、者同源雜交使得陰性對(duì)照點(diǎn)的信號(hào)強(qiáng)度值很高,這些都會(huì)使得最后得到的閾的信號(hào)強(qiáng)度值很高,這些都會(huì)使得最后得到的閾值波動(dòng)較大。值波動(dòng)較大。 利用強(qiáng)度累積分布函數(shù)確定弱信號(hào)閾值利用強(qiáng)度累積分布函數(shù)確定弱信號(hào)閾值 任何組織任何組織或細(xì)胞中都或細(xì)胞中都有一定比例有一定比例的不表達(dá)基的不表達(dá)基因,這些不因,這些不表達(dá)基因和表達(dá)基因和PCRPCR或雜交或雜交過(guò)程中失敗過(guò)程中失敗基因位于累基因位于累積分布函數(shù)積分布函數(shù)底部。底部。分離弱信號(hào)和噪聲的閾值:分離弱信號(hào)和噪聲的閾值:TD對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換 l對(duì)數(shù)轉(zhuǎn)換能夠提供從生物學(xué)角度上易于解釋和有意義的對(duì)數(shù)轉(zhuǎn)換能夠提供從生物學(xué)角度上易于解釋和有意

40、義的數(shù)據(jù)。數(shù)據(jù)。l對(duì)數(shù)變換減弱了方差和平均值,使得表達(dá)的變化獨(dú)立于對(duì)數(shù)變換減弱了方差和平均值,使得表達(dá)的變化獨(dú)立于其產(chǎn)生的強(qiáng)度位置,在低強(qiáng)度值處的倍數(shù)改變與高強(qiáng)度其產(chǎn)生的強(qiáng)度位置,在低強(qiáng)度值處的倍數(shù)改變與高強(qiáng)度值處發(fā)生的倍數(shù)改變具有可比性。值處發(fā)生的倍數(shù)改變具有可比性。l對(duì)數(shù)轉(zhuǎn)換后的數(shù)據(jù)的分布呈現(xiàn)出較好的對(duì)稱(chēng)性和正態(tài)性。對(duì)數(shù)轉(zhuǎn)換后的數(shù)據(jù)的分布呈現(xiàn)出較好的對(duì)稱(chēng)性和正態(tài)性。一些常用的統(tǒng)計(jì)分析方法,如一些常用的統(tǒng)計(jì)分析方法,如t t檢驗(yàn)、檢驗(yàn)、F F檢驗(yàn)、相關(guān)和回檢驗(yàn)、相關(guān)和回歸等方法都要求數(shù)據(jù)滿足正態(tài)分布或近似正態(tài)分布。歸等方法都要求數(shù)據(jù)滿足正態(tài)分布或近似正態(tài)分布。l如果使用以如果使用以2 2為底

41、的對(duì)數(shù),后續(xù)的分析和數(shù)據(jù)的解釋將非為底的對(duì)數(shù),后續(xù)的分析和數(shù)據(jù)的解釋將非常方便。例如,要選擇具有常方便。例如,要選擇具有4 4倍以上變化的基因可以在比倍以上變化的基因可以在比值直方圖的值直方圖的log2(ratio)=2log2(ratio)=2處截取。處截取。 第三節(jié)第三節(jié)基因芯片數(shù)據(jù)歸一化基因芯片數(shù)據(jù)歸一化(normalization)數(shù)據(jù)的歸一化數(shù)據(jù)的歸一化l歸一化:歸一化:消除系統(tǒng)誤差的影響,使得同一芯片上和不同消除系統(tǒng)誤差的影響,使得同一芯片上和不同芯片間基因表達(dá)水平的直接比較無(wú)法實(shí)現(xiàn)。芯片間基因表達(dá)水平的直接比較無(wú)法實(shí)現(xiàn)。l芯片掃描的原始數(shù)據(jù)中,存在著各種偏差,在對(duì)芯片數(shù)芯片掃描的

42、原始數(shù)據(jù)中,存在著各種偏差,在對(duì)芯片數(shù)據(jù)進(jìn)行分析之前,必須進(jìn)行數(shù)據(jù)的校正據(jù)進(jìn)行分析之前,必須進(jìn)行數(shù)據(jù)的校正, ,才能使分析的才能使分析的結(jié)果真實(shí)地反映生物學(xué)功能。結(jié)果真實(shí)地反映生物學(xué)功能。雙色熒光標(biāo)記法所引起的系統(tǒng)變異雙色熒光標(biāo)記法所引起的系統(tǒng)變異 (1)熒光物質(zhì)的物理、化學(xué)屬性。)熒光物質(zhì)的物理、化學(xué)屬性。Cy3和和cy5光量子范圍不同,光量子范圍不同,cy5有時(shí)具有比有時(shí)具有比cy3更高的背景水平。更高的背景水平。(2)掃描儀的硬件設(shè)計(jì)可能對(duì))掃描儀的硬件設(shè)計(jì)可能對(duì)cy3和和cy5具有不同的讀取效率。具有不同的讀取效率。(3)標(biāo)記的方法。絕大多數(shù))標(biāo)記的方法。絕大多數(shù)cDNA微陣列都會(huì)引入

43、基因或序列微陣列都會(huì)引入基因或序列特異性偏倚。某些基因使用一種染料標(biāo)記比使用另外一種染料特異性偏倚。某些基因使用一種染料標(biāo)記比使用另外一種染料標(biāo)記具有更強(qiáng)的熒光信號(hào),并且這并非隨機(jī)現(xiàn)象,而是在重復(fù)標(biāo)記具有更強(qiáng)的熒光信號(hào),并且這并非隨機(jī)現(xiàn)象,而是在重復(fù)實(shí)驗(yàn)中穩(wěn)定出現(xiàn)。理論上,在自身對(duì)照實(shí)驗(yàn)中所有基因的實(shí)驗(yàn)中穩(wěn)定出現(xiàn)。理論上,在自身對(duì)照實(shí)驗(yàn)中所有基因的cy3/cy5應(yīng)為應(yīng)為1。由雙色熒光標(biāo)記所產(chǎn)生的系統(tǒng)偏倚導(dǎo)致在。由雙色熒光標(biāo)記所產(chǎn)生的系統(tǒng)偏倚導(dǎo)致在cy3和和cy5標(biāo)記物具有相同的量時(shí),它們的熒光強(qiáng)度并不相等。標(biāo)記物具有相同的量時(shí),它們的熒光強(qiáng)度并不相等。 系統(tǒng)誤差的幾種圖形呈現(xiàn)方法系統(tǒng)誤差的幾種

44、圖形呈現(xiàn)方法 l散點(diǎn)圖散點(diǎn)圖 箱式圖:箱式圖:可以在圖形上對(duì)一組數(shù)據(jù)的均數(shù)、中位可以在圖形上對(duì)一組數(shù)據(jù)的均數(shù)、中位數(shù)、上、下四份位數(shù)和最大、最小值進(jìn)行顯示,數(shù)、上、下四份位數(shù)和最大、最小值進(jìn)行顯示,直觀地反映出數(shù)據(jù)的集中趨勢(shì)和離散趨勢(shì)。按照直觀地反映出數(shù)據(jù)的集中趨勢(shì)和離散趨勢(shì)。按照某個(gè)分類(lèi)變量進(jìn)行分組的直方圖可以對(duì)不同組的某個(gè)分類(lèi)變量進(jìn)行分組的直方圖可以對(duì)不同組的數(shù)據(jù)分布情況進(jìn)行直觀的比較。數(shù)據(jù)分布情況進(jìn)行直觀的比較。 M-A 圖圖 X axis: A average intensity A = 0.5*log(Cy3*Cy5)Y axis: M log ratio M = log(Cy3/C

45、y5) 分布密度圖分布密度圖空間點(diǎn)圖:芯片上的每一個(gè)點(diǎn)的數(shù)據(jù)都可以在該空間點(diǎn)圖:芯片上的每一個(gè)點(diǎn)的數(shù)據(jù)都可以在該平面圖上顯示出來(lái)平面圖上顯示出來(lái) 數(shù)據(jù)的歸一化步驟數(shù)據(jù)的歸一化步驟l兩個(gè)基本步驟:不變表達(dá)基因(非差異表達(dá)基兩個(gè)基本步驟:不變表達(dá)基因(非差異表達(dá)基因)的選取以及校準(zhǔn)方法。因)的選取以及校準(zhǔn)方法。l不變表達(dá)基因不變表達(dá)基因:指表達(dá)水平在研究條件和對(duì)照:指表達(dá)水平在研究條件和對(duì)照條件下沒(méi)有發(fā)生變化的基因。條件下沒(méi)有發(fā)生變化的基因。不變表達(dá)基因的不變表達(dá)基因的選取對(duì)于成功的歸一化和分析是非常重要的。選取對(duì)于成功的歸一化和分析是非常重要的。 l校準(zhǔn)方法:線性,非線性,穩(wěn)健(降低奇異點(diǎn)校準(zhǔn)方

46、法:線性,非線性,穩(wěn)?。ń档推娈慄c(diǎn)的影響),其他算法的影響),其他算法用于歸一化的非差異表達(dá)基因選擇用于歸一化的非差異表達(dá)基因選擇 l歸一化的第一步是選擇非差異表達(dá)基因或不變歸一化的第一步是選擇非差異表達(dá)基因或不變表達(dá)基因。表達(dá)基因。l全部基因全部基因 l管家基因管家基因 l對(duì)照基因?qū)φ栈騦秩不變基因(秩不變基因(rank-invariant genesrank-invariant genes) 全部基因全部基因 l芯片上的絕大多數(shù)基因都是非差異表達(dá)的芯片上的絕大多數(shù)基因都是非差異表達(dá)的,僅有比例,僅有比例非常小的基因在兩個(gè)非常小的基因在兩個(gè)mRNAmRNA樣品中的表達(dá)有差異,因?yàn)闃悠分械谋?/p>

47、達(dá)有差異,因?yàn)楦鶕?jù)生物學(xué)知識(shí),若有很多基因的表達(dá)都發(fā)生了改變,根據(jù)生物學(xué)知識(shí),若有很多基因的表達(dá)都發(fā)生了改變,這種改變對(duì)生物體來(lái)說(shuō)將是致死的;上調(diào)和下調(diào)基因這種改變對(duì)生物體來(lái)說(shuō)將是致死的;上調(diào)和下調(diào)基因的表達(dá)水平具有對(duì)稱(chēng)性。的表達(dá)水平具有對(duì)稱(chēng)性。l這種方法被成功應(yīng)用于染色體規(guī)模的微陣列,芯片上這種方法被成功應(yīng)用于染色體規(guī)模的微陣列,芯片上的基因數(shù)目很大,通常大于的基因數(shù)目很大,通常大于50005000,在各實(shí)驗(yàn)條件下具,在各實(shí)驗(yàn)條件下具有差異表達(dá)的基因數(shù)目不超過(guò)有差異表達(dá)的基因數(shù)目不超過(guò)1010。l但由于不同生物樣品表達(dá)圖譜通常具有較大的差異,但由于不同生物樣品表達(dá)圖譜通常具有較大的差異,因此

48、使用全部基因或絕大多數(shù)基因(對(duì)表達(dá)水平兩端因此使用全部基因或絕大多數(shù)基因(對(duì)表達(dá)水平兩端的數(shù)據(jù)進(jìn)行截尾)進(jìn)行歸一化將導(dǎo)致在準(zhǔn)確性方面受的數(shù)據(jù)進(jìn)行截尾)進(jìn)行歸一化將導(dǎo)致在準(zhǔn)確性方面受到一定程度的限制。到一定程度的限制。 管家基因管家基因l管家基因管家基因:在各種條件下具有穩(wěn)定表達(dá)的基因。:在各種條件下具有穩(wěn)定表達(dá)的基因。l在進(jìn)行強(qiáng)度依存偏倚的歸一化時(shí),管家基因的熒在進(jìn)行強(qiáng)度依存偏倚的歸一化時(shí),管家基因的熒光強(qiáng)度范圍應(yīng)該包含光強(qiáng)度范圍應(yīng)該包含芯片上所有點(diǎn)的熒光強(qiáng)度的芯片上所有點(diǎn)的熒光強(qiáng)度的整個(gè)范圍整個(gè)范圍,l這對(duì)管家基因來(lái)說(shuō)存在一定的困難,因?yàn)楣芗一@對(duì)管家基因來(lái)說(shuō)存在一定的困難,因?yàn)楣芗一蛲ǔ?/p>

49、是高表達(dá)基因,對(duì)應(yīng)于高熒光強(qiáng)度的點(diǎn),因通常是高表達(dá)基因,對(duì)應(yīng)于高熒光強(qiáng)度的點(diǎn),而在低的熒光強(qiáng)度下的管家基因較少。因此,當(dāng)而在低的熒光強(qiáng)度下的管家基因較少。因此,當(dāng)可以預(yù)先確定的管家基因的數(shù)量較少或管家基因可以預(yù)先確定的管家基因的數(shù)量較少或管家基因的強(qiáng)度不能覆蓋信號(hào)強(qiáng)度的整個(gè)范圍時(shí),使用管的強(qiáng)度不能覆蓋信號(hào)強(qiáng)度的整個(gè)范圍時(shí),使用管家基因進(jìn)行非線性的歸一化通常得不到較好的結(jié)家基因進(jìn)行非線性的歸一化通常得不到較好的結(jié)果。果。 管家基因管家基因l實(shí)際上,找出一組在各種實(shí)驗(yàn)條件下表達(dá)都不發(fā)實(shí)際上,找出一組在各種實(shí)驗(yàn)條件下表達(dá)都不發(fā)生改變的管家基因是非常困難的,但找到一組在生改變的管家基因是非常困難的,但

50、找到一組在特定實(shí)驗(yàn)條件下的特定實(shí)驗(yàn)條件下的“臨時(shí)臨時(shí)”管家基因還是可行的。管家基因還是可行的。l最近的研究表明管家基因的表達(dá)水平也會(huì)發(fā)生顯最近的研究表明管家基因的表達(dá)水平也會(huì)發(fā)生顯著的改變,因此使用管家基因?qū)ξ㈥嚵斜磉_(dá)數(shù)據(jù)著的改變,因此使用管家基因?qū)ξ㈥嚵斜磉_(dá)數(shù)據(jù)進(jìn)行歸一化有可能得到錯(cuò)誤的結(jié)果。進(jìn)行歸一化有可能得到錯(cuò)誤的結(jié)果。對(duì)照基因?qū)φ栈騦使用外源性對(duì)照方法:來(lái)源于合成的使用外源性對(duì)照方法:來(lái)源于合成的DNADNA序列序列或者與實(shí)驗(yàn)生物不同的其他生物的或者與實(shí)驗(yàn)生物不同的其他生物的DNADNA,這些,這些對(duì)照序列理論上應(yīng)當(dāng)具有相同的紅、綠熒光強(qiáng)對(duì)照序列理論上應(yīng)當(dāng)具有相同的紅、綠熒光強(qiáng)度,可

51、以用于歸一化。度,可以用于歸一化。 l使用滴定系列方法:含有相同的基因或使用滴定系列方法:含有相同的基因或ESTEST,但不同濃度的點(diǎn)被點(diǎn)樣在芯片上。理論上,在但不同濃度的點(diǎn)被點(diǎn)樣在芯片上。理論上,在強(qiáng)度的整個(gè)范圍內(nèi)這些點(diǎn)都具有相同的紅、綠強(qiáng)度的整個(gè)范圍內(nèi)這些點(diǎn)都具有相同的紅、綠熒光強(qiáng)度值。熒光強(qiáng)度值。對(duì)照基因?qū)φ栈虺S糜诘味ㄏ盗械某S糜诘味ㄏ盗械腄NADNA有兩種:有兩種:1 1)染色體)染色體DNADNA:在各種條件下都具有恒定的表達(dá):在各種條件下都具有恒定的表達(dá)水平,因此可以用于滴定序列,但染色體水平,因此可以用于滴定序列,但染色體DNADNA太太復(fù)雜。復(fù)雜。2 2)特定設(shè)計(jì)的微陣列樣

52、本池()特定設(shè)計(jì)的微陣列樣本池(MSPMSP,microarray microarray sample poolsample pool):它包含了微陣列上的所有基因,):它包含了微陣列上的所有基因,類(lèi)似于沒(méi)有中間插入序列的染色體類(lèi)似于沒(méi)有中間插入序列的染色體DNADNA,從而為,從而為標(biāo)記標(biāo)記cDNAcDNA上的每個(gè)片斷提供潛在的探針,因此上的每個(gè)片斷提供潛在的探針,因此在不同的生物學(xué)樣品間具有較恒定的表達(dá)。在不同的生物學(xué)樣品間具有較恒定的表達(dá)。對(duì)照基因?qū)φ栈騦MSPMSP作為歸一化的對(duì)照基因滿足兩個(gè)條件:作為歸一化的對(duì)照基因滿足兩個(gè)條件:(1 1)在不同生物學(xué)樣品間具有恒定的表達(dá),具)在不

53、同生物學(xué)樣品間具有恒定的表達(dá),具有最小的樣本特異性偏倚有最小的樣本特異性偏倚(2 2)強(qiáng)度范圍包含整個(gè)芯片上點(diǎn)的強(qiáng)度范圍。)強(qiáng)度范圍包含整個(gè)芯片上點(diǎn)的強(qiáng)度范圍。l由于由于MSPMSP構(gòu)建方面的挑戰(zhàn)性,得到非常高強(qiáng)度構(gòu)建方面的挑戰(zhàn)性,得到非常高強(qiáng)度的表達(dá)還存在一定的困難。實(shí)際應(yīng)用中,通常的表達(dá)還存在一定的困難。實(shí)際應(yīng)用中,通常在在MSPMSP中加入高表達(dá)基因來(lái)解決。中加入高表達(dá)基因來(lái)解決。 秩不變基因(秩不變基因(rank-invariant genesrank-invariant genes) l如果芯片上沒(méi)有外部對(duì)照如果芯片上沒(méi)有外部對(duì)照DNADNA,沒(méi)有關(guān)于哪些基因?yàn)椋瑳](méi)有關(guān)于哪些基因?yàn)椴?/p>

54、異表達(dá)基因,哪些基因?yàn)榉遣町惐磉_(dá)基因,及有差異表達(dá)基因,哪些基因?yàn)榉遣町惐磉_(dá)基因,及有多少基因的表達(dá)發(fā)生了顯著性變化的先驗(yàn)知識(shí),非多少基因的表達(dá)發(fā)生了顯著性變化的先驗(yàn)知識(shí),非差異表達(dá)基因的選擇差異表達(dá)基因的選擇只能依靠數(shù)學(xué)的方法來(lái)只能依靠數(shù)學(xué)的方法來(lái)實(shí)現(xiàn)。實(shí)現(xiàn)。l對(duì)一張芯片上所有點(diǎn)的整體熒光強(qiáng)度值按照從小到對(duì)一張芯片上所有點(diǎn)的整體熒光強(qiáng)度值按照從小到大的順序進(jìn)行排序,每個(gè)點(diǎn)的序次稱(chēng)為該點(diǎn)的大的順序進(jìn)行排序,每個(gè)點(diǎn)的序次稱(chēng)為該點(diǎn)的秩秩。l秩不變基因:秩不變基因:在同一張芯片上紅、綠強(qiáng)度的秩相同在同一張芯片上紅、綠強(qiáng)度的秩相同或非常接近的基因?;蚍浅=咏幕?。歸一化方法歸一化方法lGlobal

55、normalization (Scaling)全局歸一法全局歸一法(縮放法)(縮放法)lIntensity-dependent normalization局部加局部加權(quán)歸一化法權(quán)歸一化法lQuantile Normalization分位數(shù)歸一化法分位數(shù)歸一化法Global normalization全局歸一化全局歸一化l單張芯片單張芯片全局歸一化:建立在一定的假定基礎(chǔ)上:全局歸一化:建立在一定的假定基礎(chǔ)上:紅紅- -綠偏移在整個(gè)序列上是常數(shù),即紅、綠強(qiáng)度是通綠偏移在整個(gè)序列上是常數(shù),即紅、綠強(qiáng)度是通過(guò)常數(shù)因子相關(guān)聯(lián),過(guò)常數(shù)因子相關(guān)聯(lián), R=k R=k* *G G。全局歸一化的目標(biāo)就。全局歸一化

56、的目標(biāo)就是估計(jì)此常數(shù)因子是估計(jì)此常數(shù)因子 k k,通過(guò)減去,通過(guò)減去c c對(duì)比值進(jìn)行校正,對(duì)比值進(jìn)行校正,使得非差異表達(dá)基因的強(qiáng)度比為使得非差異表達(dá)基因的強(qiáng)度比為1 1,即把對(duì)數(shù)比的中,即把對(duì)數(shù)比的中心移到心移到0 0。一般計(jì)算方法取芯片上。一般計(jì)算方法取芯片上所有對(duì)數(shù)比數(shù)值的所有對(duì)數(shù)比數(shù)值的均數(shù)或中位數(shù)均數(shù)或中位數(shù)。l多張芯片全局歸一化:多張芯片全局歸一化: Xinorm = k*Xi (k:(k:校正因子校正因子) )。一般計(jì)算方法取一般計(jì)算方法取某一張某一張芯片上所有對(duì)數(shù)比數(shù)值的均芯片上所有對(duì)數(shù)比數(shù)值的均數(shù)或中位數(shù)。數(shù)或中位數(shù)。單張芯片雙通道校正效果單張芯片雙通道校正效果 BeforeA

57、fter單張芯片雙通道校正效果單張芯片雙通道校正效果 多張芯片校正效果多張芯片校正效果 Intensity-dependent normalizationl比值與強(qiáng)度相關(guān)(或者說(shuō)比值對(duì)于點(diǎn)的熒光強(qiáng)度存在系統(tǒng)比值與強(qiáng)度相關(guān)(或者說(shuō)比值對(duì)于點(diǎn)的熒光強(qiáng)度存在系統(tǒng)依存性)而全局歸一化方法不能解決此強(qiáng)度依存偏倚。依存性)而全局歸一化方法不能解決此強(qiáng)度依存偏倚。l局部加權(quán)線性回歸和其它穩(wěn)健的線性回歸方法局部加權(quán)線性回歸和其它穩(wěn)健的線性回歸方法可以用于消可以用于消除強(qiáng)度依存效應(yīng)的作用。除強(qiáng)度依存效應(yīng)的作用。l模型建立后,將被用于對(duì)數(shù)據(jù)進(jìn)行校正:每個(gè)數(shù)據(jù)點(diǎn)的垂模型建立后,將被用于對(duì)數(shù)據(jù)進(jìn)行校正:每個(gè)數(shù)據(jù)點(diǎn)的垂

58、直坐標(biāo)直坐標(biāo)M M值減去擬合的指數(shù)曲線所確定的值,使得染色的值減去擬合的指數(shù)曲線所確定的值,使得染色的偏倚得以校正。偏倚得以校正。l染色所造成的偏倚在染色所造成的偏倚在MAMA圖中常呈指數(shù)型分布,因此可圖中常呈指數(shù)型分布,因此可以基于實(shí)驗(yàn)數(shù)據(jù)擬合指數(shù)函數(shù)的參數(shù)。以基于實(shí)驗(yàn)數(shù)據(jù)擬合指數(shù)函數(shù)的參數(shù)。l由于微陣列通常包含大量的數(shù)據(jù)點(diǎn),通常不對(duì)原始的由于微陣列通常包含大量的數(shù)據(jù)點(diǎn),通常不對(duì)原始的所有數(shù)據(jù)擬合模型,而是采用更為簡(jiǎn)便的處理方法,所有數(shù)據(jù)擬合模型,而是采用更為簡(jiǎn)便的處理方法,在散點(diǎn)圖中把水平在散點(diǎn)圖中把水平X X軸劃分為若干強(qiáng)度區(qū)間,相當(dāng)于軸劃分為若干強(qiáng)度區(qū)間,相當(dāng)于把圖形分割成對(duì)應(yīng)把圖形分

59、割成對(duì)應(yīng)X X軸不同區(qū)間的若干豎條,計(jì)算每軸不同區(qū)間的若干豎條,計(jì)算每個(gè)區(qū)間內(nèi)數(shù)據(jù)點(diǎn)的重心,對(duì)所有的重心數(shù)據(jù)點(diǎn)擬合形個(gè)區(qū)間內(nèi)數(shù)據(jù)點(diǎn)的重心,對(duì)所有的重心數(shù)據(jù)點(diǎn)擬合形如如y=a+bexp(-cx)y=a+bexp(-cx)的指數(shù)曲線,目的是得到能夠呈的指數(shù)曲線,目的是得到能夠呈現(xiàn)數(shù)據(jù)中染色偏倚的指數(shù)曲線參數(shù)的最佳組合?,F(xiàn)數(shù)據(jù)中染色偏倚的指數(shù)曲線參數(shù)的最佳組合。局部加權(quán)線性回歸局部加權(quán)線性回歸llocally weighted scatter plot smoothlocally weighted scatter plot smooth,簡(jiǎn)寫(xiě)為,簡(jiǎn)寫(xiě)為 LOWESSLOWESS和和LOESSLOES

60、S。兩種方法都使用局部加權(quán)線性回歸對(duì)。兩種方法都使用局部加權(quán)線性回歸對(duì)數(shù)據(jù)進(jìn)行平滑。數(shù)據(jù)進(jìn)行平滑。l平滑過(guò)程是在局部進(jìn)行的,每個(gè)平滑值是由給定點(diǎn)臨近平滑過(guò)程是在局部進(jìn)行的,每個(gè)平滑值是由給定點(diǎn)臨近一定范圍內(nèi)所有的數(shù)據(jù)點(diǎn)決定的;平滑過(guò)程是通過(guò)加權(quán)一定范圍內(nèi)所有的數(shù)據(jù)點(diǎn)決定的;平滑過(guò)程是通過(guò)加權(quán)實(shí)現(xiàn)的,給定數(shù)據(jù)點(diǎn)一定范圍內(nèi)的數(shù)據(jù)點(diǎn)是通過(guò)加權(quán)回實(shí)現(xiàn)的,給定數(shù)據(jù)點(diǎn)一定范圍內(nèi)的數(shù)據(jù)點(diǎn)是通過(guò)加權(quán)回歸建立起來(lái)的,距離給定數(shù)據(jù)點(diǎn)不同距離的數(shù)據(jù)在建立歸建立起來(lái)的,距離給定數(shù)據(jù)點(diǎn)不同距離的數(shù)據(jù)在建立局部回歸方程時(shí)的權(quán)重不同。局部回歸方程時(shí)的權(quán)重不同。lLOWESSLOWESS和和LOESSLOESS兩種方法的區(qū)別

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論