據(jù)預(yù)處理方法_第1頁
據(jù)預(yù)處理方法_第2頁
據(jù)預(yù)處理方法_第3頁
據(jù)預(yù)處理方法_第4頁
據(jù)預(yù)處理方法_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基因芯片數(shù)據(jù)預(yù)處理個(gè)技術(shù)環(huán)節(jié)基因芯片(gene

chip),又稱DNA微陣列(microarray),是由大量DNA或寡核苷酸探針密集排列所形成的探針陣列,其工作的基本原理是通過堿基互補(bǔ)配對(duì)檢測生物信息。實(shí)驗(yàn)要求:單通道——一張芯片檢驗(yàn)一種狀態(tài)

;雙通道——差異表達(dá)基因的篩選儲(chǔ)存的生物信息:寡核苷酸芯片(常為單通道)、cDNA芯片(常為雙通道)基因芯片制備樣品制備mRNA提取等雜交反應(yīng)信號(hào)檢測與分析基因芯片的實(shí)驗(yàn)流程(雙通道)單通道/雙通道基因芯片實(shí)例雜交完成后,要對(duì)基因芯片進(jìn)行“讀片”,即應(yīng)用激光共聚焦熒光掃描顯微鏡,對(duì)基因芯片表面的每個(gè)位點(diǎn)進(jìn)行檢測?;蛐酒瑪?shù)據(jù)分析:對(duì)從基因芯片高密度雜交點(diǎn)陣圖中提取的雜交點(diǎn)熒光信號(hào)進(jìn)行定量分析,通過有效數(shù)據(jù)篩選和相關(guān)基因表達(dá)譜聚類,發(fā)現(xiàn)基因的表達(dá)譜和功能之間的聯(lián)系?;虮磉_(dá)值探針

?熒光值計(jì)算機(jī)“讀片”機(jī)理cDNA芯片、載有較長片段的寡核苷酸芯片采用雙色熒光系統(tǒng):目前常用Cy3一dUTP(綠色)標(biāo)記對(duì)照組mRNA,Cy5一dUTP(紅色)標(biāo)記樣品組

mRNA用不同波長的熒光掃描芯片,將掃描所得每一點(diǎn)熒光信號(hào)值自動(dòng)輸入計(jì)算機(jī)并進(jìn)行信息處理,給出每個(gè)點(diǎn)在不同波長下的熒光強(qiáng)度值及其比值,同時(shí)計(jì)算機(jī)還給出直觀的顯色圖。在樣品中呈高表達(dá)的基因其雜交點(diǎn)呈紅色,相反,在對(duì)照組中高表達(dá)的基因其雜交點(diǎn)呈綠色,在兩組中表達(dá)水平相當(dāng)?shù)娘@黃色,這些信號(hào)就代表了樣品中基因的轉(zhuǎn)錄表達(dá)情況。將樣品中的DNA/RNA標(biāo)上熒光標(biāo)記,則可以定量檢驗(yàn)基因的表達(dá)水平。數(shù)據(jù)預(yù)處理分析流程:算法(以cDNA芯片為例)探針?biāo)綌?shù)據(jù)獲得(計(jì)算機(jī)掃描圖像)數(shù)據(jù)預(yù)處理:背景處理、數(shù)據(jù)清洗、提取表達(dá)值、標(biāo)準(zhǔn)化、匯總獲取基因表達(dá)數(shù)據(jù):判斷差異基因表達(dá)聚類和分析1

探針?biāo)綌?shù)據(jù)(probe-level

data)的獲得提取生物樣品的mRNA并反轉(zhuǎn)錄成cDNA,同時(shí)用熒光素或同位素標(biāo)記。在液相中與基因芯片上的探針雜交,經(jīng)洗膜后用圖像掃描儀捕獲芯片上的熒光或同位素信號(hào),由此獲得的圖像就是基因芯片的原始數(shù)據(jù)(raw

data),也叫探針?biāo)綌?shù)據(jù)。獲取探針?biāo)降臄?shù)據(jù)是芯片數(shù)據(jù)處理的第一步,然后需要對(duì)其進(jìn)行預(yù)處理(pre-processing),以獲得基因表達(dá)數(shù)據(jù)(gene

expression

data)。基因表達(dá)數(shù)據(jù)是芯片數(shù)據(jù)處理的基礎(chǔ)?;蛐酒结?biāo)綌?shù)據(jù)處理的R軟件包有affy,

affyPLM,

affycomp,

gcrma等。2

預(yù)處理2.1

背景(background)處理背景處理即過濾芯片雜交信號(hào)中屬于非特異性的背景噪音部分。一般以圖像處理軟件對(duì)芯片劃格后,每個(gè)雜交點(diǎn)周圍區(qū)域各像素吸光度的平均值作為背景,但此法存在芯片不同區(qū)域背景扣減不均勻的缺點(diǎn)。也可利用芯片最低信號(hào)強(qiáng)度的點(diǎn)(代表非特異性的樣本與探針結(jié)合值)或綜合整個(gè)芯片非雜交點(diǎn)背景所得的平均吸光值做為背景。背景處理之后,我們可以將芯片數(shù)據(jù)放入一個(gè)矩陣中:其中,各字母的意義如下:N:條件數(shù);G:基因數(shù)目(一般情況下,G>>N);行向量mi=(mi1,mi2,…,miN)表示基因i在N個(gè)條件下的表達(dá)水平(這里指絕對(duì)表達(dá)水平,亦即熒光強(qiáng)度值);列向量mj=(m1j,m2j,…,mGj)表示在第j個(gè)條件下各基因的表達(dá)水平(即一張芯片的數(shù)據(jù));元素mij表示第基因i在第j個(gè)條件下(絕對(duì))基因表達(dá)數(shù)據(jù)。m可以是R(紅色,Cy5,代表樣品組)。也可以是G(綠色,Cy3,代表對(duì)照組)。;變異系數(shù)法(變異系數(shù)=均數(shù)/標(biāo)準(zhǔn)差,如果變異系數(shù)接近或大于10%則認(rèn)為數(shù)據(jù)不可靠而刪除);前景值<200;前景值-平均數(shù)/前景值-中位數(shù)<80%2.2

數(shù)據(jù)清洗(data

cleaning)經(jīng)過背景校正后的芯片數(shù)據(jù)中可能會(huì)產(chǎn)生負(fù)值,還有一些單個(gè)異常大(或?。┑姆澹ü龋┬盘?hào)(隨機(jī)噪聲)。對(duì)于負(fù)值和噪聲信號(hào),通常的處理方法就是將其去除,常見數(shù)據(jù)經(jīng)驗(yàn)型舍棄方法有:標(biāo)準(zhǔn)值或奇異值舍棄法;變異系數(shù)法;前景值<200;前景值-平均數(shù)/前景值-中位數(shù)<80%等等。然而,數(shù)據(jù)的缺失對(duì)后續(xù)的統(tǒng)計(jì)分析(尤其是層式聚類和主成分分析)有致命的影響。Affy公司的芯片分析系統(tǒng)會(huì)直接將負(fù)值修正為一個(gè)固定值。對(duì)數(shù)據(jù)的刪除,通常是刪去所在的列向量或行向量。一個(gè)比較常用的做法是,事先定義個(gè)閾值M。若行(列)向量中的缺失數(shù)據(jù)量達(dá)到閾值M,則刪去該向量。若未達(dá)到M,有兩種方法處理,一是以0或者用基因表達(dá)譜中的平均值或中值代替,另一個(gè)是分析基因表達(dá)譜的模式,從中得到相鄰數(shù)據(jù)點(diǎn)之間的關(guān)系,據(jù)此利用相鄰數(shù)據(jù)點(diǎn)估算得到缺失值(類似于插值)。填補(bǔ)缺失值(

k臨近法):利用與待補(bǔ)缺基因距離最近的k個(gè)臨近基因的表達(dá)值來預(yù)測待填補(bǔ)基因的表達(dá)值。根據(jù)鄰居基因在樣本中的加權(quán)平均估計(jì)缺失值。數(shù)數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換并并不不是是必必不不可可少少的的步步驟驟,,如如果果樣樣本本量量大大,,且且數(shù)數(shù)據(jù)據(jù)呈呈正正態(tài)態(tài)分分布布就就沒沒有有必必要要進(jìn)進(jìn)行行數(shù)數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換。。因因?yàn)闉閿?shù)數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換也也存存在在不不利利影影響響。。2.3

提取表達(dá)值由于芯片數(shù)據(jù)的小樣本和大變量的特點(diǎn),導(dǎo)致數(shù)據(jù)分布呈偏態(tài)、標(biāo)準(zhǔn)差大。對(duì)數(shù)轉(zhuǎn)換能使上調(diào)、下調(diào)的基因連續(xù)分布在0的周圍,更加符合正態(tài)分布,同時(shí)對(duì)數(shù)轉(zhuǎn)換使熒光信號(hào)強(qiáng)度的標(biāo)準(zhǔn)差減少,利于進(jìn)一步的數(shù)據(jù)分析。cDNA芯片:對(duì)雙通道數(shù)據(jù)使用Cy5(紅)和Cys3(綠)兩種熒光標(biāo)記分別標(biāo)記case和control樣本的cDNA序列。掃描儀采用兩種波長對(duì)基因芯片的圖像進(jìn)行掃描,根據(jù)每個(gè)點(diǎn)的光密度值計(jì)算相對(duì)應(yīng)的絕對(duì)表達(dá)量(intensity);然后圖像分析軟件通過芯片的背景噪音以及雜交點(diǎn)的光密度分析,對(duì)每個(gè)點(diǎn)的intensity校準(zhǔn),利用Cy5/Cy3的值獲取case與control組不同基因的表達(dá)值ratio((R/Gratio);一般選擇以2為底的對(duì)數(shù)轉(zhuǎn)化數(shù)據(jù),比如R/G=1,則

log2R/G=0,即認(rèn)為表達(dá)量沒有發(fā)生變化,當(dāng)R/G=2

或者,R/G=0.5,則log值為1

或–1,這是可以認(rèn)為表達(dá)量都發(fā)生兩倍的變化。以下的數(shù)據(jù)處理都是對(duì)log2R/G的形式進(jìn)行分析。2.4

歸一化經(jīng)過背景處理和數(shù)據(jù)清洗處理后的修正值反映了基因表達(dá)的水平。然而在芯片試驗(yàn)中,各個(gè)芯片的絕對(duì)光密度值是不一樣的,在比較各個(gè)試驗(yàn)結(jié)果之前必需將其歸一化(normalization,也稱作標(biāo)準(zhǔn)化)。數(shù)據(jù)的歸一化目的是調(diào)整由于基因芯片技術(shù)引起的誤差,不是調(diào)整生物RNA

樣本的差異。在同一塊芯片上雜交的、由不同熒光分子標(biāo)記的兩個(gè)樣品間的數(shù)據(jù),也需歸一化。常用的標(biāo)準(zhǔn)化方法有“看家基因法”、基于總光密度的方法、回歸方法、比率統(tǒng)計(jì)法等。比率統(tǒng)計(jì)法此方法用于標(biāo)準(zhǔn)化同一塊芯片上雜交的兩種樣品,并且建立于以下的假設(shè)之上:在近似的兩個(gè)樣品中,雖然基因有上調(diào)和下調(diào),但一些基本的基因(如管家基因)的表達(dá)量是近似相同的。由此得出一個(gè)近似概率密度公式:比率T

=R

/G(R

和G分別是芯片上第K個(gè)點(diǎn)的紅光和綠光的強(qiáng)度),經(jīng)過迭代算法處理得到一個(gè)平均表達(dá)比率及其可信限,用于數(shù)據(jù)的標(biāo)準(zhǔn)化計(jì)算。常用的方法是平均數(shù)、中位數(shù)標(biāo)準(zhǔn)化(mean

or

median

normalization):將各組實(shí)驗(yàn)的數(shù)據(jù)的log

ratio

中位數(shù)或平均數(shù)調(diào)整在同一水平。中位數(shù)標(biāo)準(zhǔn)化:將每個(gè)芯片上的數(shù)值減去各自芯片上log

Ratio值的中位數(shù),使得所有芯片的log

Ratio值中位數(shù)就變成了0,從而不同芯片間logRaito具有可比性。3

差異基因表達(dá)分析經(jīng)過預(yù)處理,探針?biāo)綌?shù)據(jù)轉(zhuǎn)變?yōu)榛虮磉_(dá)數(shù)據(jù)。為了便于應(yīng)用一些統(tǒng)計(jì)和數(shù)學(xué)術(shù)語,基因表達(dá)數(shù)據(jù)仍采用矩陣形式。倍數(shù)分析方法:倍數(shù)變換fold

change,單純的case與control組表達(dá)值相比較,對(duì)沒有重復(fù)實(shí)驗(yàn)樣本的芯片數(shù)據(jù),或者雙通道數(shù)據(jù)采用這種方法(該方法是對(duì)基因芯片的ratio值從大到小排序,即cy5/cy3比值,一般0.5-2.0之間內(nèi)的基因不存在差異表達(dá),范圍之外存在差異表達(dá)。缺點(diǎn)是倍數(shù)選取具有任意性,可能不恰當(dāng))參數(shù)法分析(t檢驗(yàn)):當(dāng)t超過根據(jù)可信度選擇的標(biāo)準(zhǔn)時(shí),

比較的兩樣本被認(rèn)為存在著差異。但小樣本基因芯片實(shí)驗(yàn)會(huì)導(dǎo)致不可信的變異估計(jì),此時(shí)采用調(diào)節(jié)性T檢驗(yàn)。非參數(shù)分析:由于微陣列數(shù)據(jù)存在“噪聲”干擾而且不滿足正態(tài)分布假設(shè),用t檢驗(yàn)有風(fēng)險(xiǎn)。非參數(shù)檢驗(yàn)并不要求數(shù)據(jù)滿足特殊分布的假設(shè),所以可使用非參數(shù)方法對(duì)變量進(jìn)行篩選。如經(jīng)驗(yàn)貝葉斯法、芯片顯著性分析SAM法。常用的利用R的limma包使用t檢驗(yàn)篩選差異表達(dá)基因,利用R的siggenes包使用SAM方法篩選差異表達(dá)基因。False

Discovery

Rate

(FDR)在基因芯片的實(shí)驗(yàn)中,每一個(gè)基因/探針,都是一個(gè)獨(dú)立的實(shí)驗(yàn)?;蛐酒焊咄?,>1,000個(gè)基因/探針。

因此,無論怎么比較,總會(huì)有一些基因會(huì)是統(tǒng)計(jì)顯著性差異表的——

可能是隨機(jī)產(chǎn)生的。如何評(píng)估表達(dá)差異基因預(yù)測的有效性?

FDR

=

p-value

*

No.

of

Genes例:1,000個(gè)探針的雙通道芯片,以p-value

<

0.01為域值,發(fā)現(xiàn)7個(gè)上調(diào)基因,5個(gè)下調(diào)基因,分析結(jié)果是否具有統(tǒng)計(jì)學(xué)意義?計(jì)算:

FDR=

0.01*1,000=10

(隨機(jī))

。7個(gè)上調(diào)基因,5個(gè)下調(diào)基因<

10,因此上例計(jì)算的結(jié)果無統(tǒng)計(jì)學(xué)意義。FDR必須遠(yuǎn)小于發(fā)現(xiàn)的差異表達(dá)基因數(shù)目。另一種常用基因芯片——寡核苷酸表達(dá)譜芯片的數(shù)據(jù)預(yù)處理:由于探針長度較短(20-25bp),采用匹配/失配探針對(duì)方法,即設(shè)計(jì)一個(gè)特異的寡核苷酸(

PM匹配)、同時(shí)設(shè)計(jì)一個(gè)非特異性的寡核苷酸探針(

MM失配),該探針僅僅在中間位置有一個(gè)堿基替換。用PM與MM之間的差值作為信號(hào)強(qiáng)度,來解決寡核苷酸之間非特異性雜交的噪聲影響。一般設(shè)計(jì)11-20對(duì)探針來檢測一個(gè)轉(zhuǎn)錄本。寡核苷酸芯片與cDNA芯片的數(shù)據(jù)預(yù)處理差別主要集中在轉(zhuǎn)錄表達(dá)值的獲取,即如何將11-20對(duì)探針值轉(zhuǎn)化為單個(gè)轉(zhuǎn)錄的表達(dá)值呢,常用三種預(yù)處理方法,即MAS、RAM法、MBEI法。MAS方法將芯片分為k(默認(rèn)值為16)個(gè)網(wǎng)格區(qū)域,用每個(gè)區(qū)域使用信號(hào)強(qiáng)度最低的2%探針去計(jì)算背景值和噪聲。R

M

A

,

該方法使用回旋(

convolution)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論