chap結構生物信息學_第1頁
chap結構生物信息學_第2頁
chap結構生物信息學_第3頁
chap結構生物信息學_第4頁
chap結構生物信息學_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物信息學第八章基因芯片分析中國科學技術大學目前一頁\總數五十六頁\編于十一點本章內容提要1.Microarray簡介2.圖像處理與數據標準化3.基因芯片的數據分析4.Microarray:工具&數據庫目前二頁\總數五十六頁\編于十一點基因芯片1.基因芯片(1987)2.根據免疫測定的(immunoassay)的方法予以改進3.高通量、點陣以及Northern雜交同時測定細胞內數千個基因的表達情況將mRNA反轉錄成cDNA與芯片上的探針雜交4.芯片的體積非常?。何⒘繕悠返臋z測5.基因表達情況的定量分析6.其他類型的芯片:組織芯片蛋白質芯片目前三頁\總數五十六頁\編于十一點基因芯片的密度:100-1millionDNA探針/1cm2將樣品中的DNA/RNA表上熒光標記,則可以定量檢驗基因的表達水平堿基互補目前四頁\總數五十六頁\編于十一點基因表達情況的定量測定1.發(fā)現在特定生長時期,或者隨著環(huán)境變化,那些基因的表達收到誘導或者抑制2.在相同條件下,上調或者下調變化規(guī)律相似的基因,可能具有功能上的關聯3.可以從共表達的基因中尋找調控模體4.基因表達的模式可以用來表征異常的細胞調控,例如,癌癥的診斷目前五頁\總數五十六頁\編于十一點基因芯片技術的類型按技術手段、探針類型分類1.Shortoligonucleotidearrays(Affymetrix)2.cDNAarrays(Brown/Botstein)3.Longoligoarrays(Agilent)4.Serialanalysisofgeneexpression(SAGE)按實驗要求分類1.單通道(SingleChannel):一次檢驗一種狀態(tài)2.雙通道(DualChannel):差異表達基因的篩選目前六頁\總數五十六頁\編于十一點兩類主流的DNA芯片1.cDNAmicroarrays:將500~5,000bp的cDNA固載到介質上(例如玻璃),Stanford開發(fā)設計,通常為雙通道2.DNAchips:將寡核苷酸探針(20~80-mer)合成到芯片上,Affymetrix開發(fā)設計,通常為單通道目前七頁\總數五十六頁\編于十一點(1)cDNAmicroarrayscDNAclones目前八頁\總數五十六頁\編于十一點Robotspotter普通的蓋玻片cDNAmicroarrays的制備目前九頁\總數五十六頁\編于十一點差異表達基因的篩選Treatment/controlNormal

/tumortissueBrain/liver…目前十頁\總數五十六頁\編于十一點點樣后的cDNAMicroarrays目前十一頁\總數五十六頁\編于十一點GenesmRNAsamplesGeneexpressionlevelofgeneiinmRNAsamplej=Log(Redintensity/Greenintensity)Log(Avg.PM-Avg.MM)

sample1 sample2 sample3 sample4 sample5 …1 0.46 0.30 0.80 1.51 0.90 ...2 -0.10 0.49 0.24 0.06 0.46 ...3 0.15 0.74 0.04 0.10 0.20 ...4 -0.45 -1.03 -0.79 -0.56 -0.32 ...5 -0.06 1.06 1.35 1.09 -1.09 ...基因表達的數據目前十二頁\總數五十六頁\編于十一點(1)DNAchips目前十三頁\總數五十六頁\編于十一點目前十四頁\總數五十六頁\編于十一點DNAchips的制備:

Affymetrixphotolitography探針長度:25bp每個基因:22-40個探針PerfectMatch(PM)vs.MisMatch(MM)probes目前十五頁\總數五十六頁\編于十一點點樣后的Genechip目前十六頁\總數五十六頁\編于十一點總結目前十七頁\總數五十六頁\編于十一點基因芯片的實驗流程目前十八頁\總數五十六頁\編于十一點2.圖像處理與數據標準化單通道基因芯片

white(veryhigh)

red(high)

Yellow(alittlehigh)green(medium)blue(low)black(no)目前十九頁\總數五十六頁\編于十一點圖像處理植根區(qū)域生長法(SRG)FixedCircle柵格化:確定點的位置圖象分割(Segmentation):將點從背景中分離出來。抽提亮度:各個像素亮度的平均值(mean)或中位數(median)背景校正:局部或全局目前二十頁\總數五十六頁\編于十一點基因表達量的定量對于每個點,我們可以計算Redintensity=Rfg-Rbgfg=foreground,bg=background,andGreenintensity=Gfg-Gbgandcombinetheminthelog(base2)ratioLog2(Redintensity/Greenintensity)

Greenintensity(medium):~1目前二十一頁\總數五十六頁\編于十一點Microarray:誤差的來源系統(tǒng)的隨機的

log

signalintensity

logRNAabundance目前二十二頁\總數五十六頁\編于十一點Microarray:誤差的來源1.圖像分析2.掃描3.DNA雜交過程(溫度、時間、混合均勻程度等)4.探針的標記5.RNA的抽提6.加樣7.其他目前二十三頁\總數五十六頁\編于十一點Red/green比值存在亮度的傾向M=log2R/G=log2R-log2G=(log2R+log2G)/2Valuesshouldscatteraboutzero.目前二十四頁\總數五十六頁\編于十一點數據標準化beforeafter目前二十五頁\總數五十六頁\編于十一點3.基因芯片的數據分析(1)差異表達基因的分析(2)基因共表達分析(3)基因表達數據的聚類(4)基因表達數據的分類(5)MaptoGO(6)Generegulatorynetwork目前二十六頁\總數五十六頁\編于十一點(1)差異表達基因的分析1.差異表達基因的分析:尋找處理前后表達上調或者下調的基因2.Arethetreatmentsdifferent?3.使用標準的統(tǒng)計學方法檢驗(t-testorf-test),發(fā)現統(tǒng)計顯著性差異表達的基因,4.如果處理本身并不顯著,則結果無意義目前二十七頁\總數五十六頁\編于十一點統(tǒng)計學分析1.Foldchange,一般2-foldincreaseordecrease(平行實驗的樣本較少)2.p-value(平行實驗的樣本較多)under-expressedover-expressed/2/2目前二十八頁\總數五十六頁\編于十一點P-value:學生分布1.T-test:學生分布2.Excel函數:TTEST(array1,array2,tails,type)Array1為第一個數據集Array2為第二個數據集Tails指示分布曲線的尾數。如果tails=1,函數TTEST使用單尾分布。如果tails=2,函數TTEST使用雙尾分布Type為t檢驗的類型1成對2等方差雙樣本檢驗3異方差雙樣本檢驗目前二十九頁\總數五十六頁\編于十一點P-value:學生分布1.一般選擇雙尾分布2.異方差雙樣本檢驗3.Excel函數:=TTEST(B2:D2,E2:G2,2,3)

4.C:對照組;T:實驗組C1C2C3T1T2T3TTESTGene11.3221.6761.4573.5264.2343.8790.001988目前三十頁\總數五十六頁\編于十一點MultipleComparisons1.在基因芯片的實驗中,每一個基因/探針,都是一個獨立的實驗2.基因芯片:高通量,>1,000個基因/探針3.因此,無論怎么比較,總會有一些基因會是統(tǒng)計顯著性差異表的——可能是隨機產生的4.如何評估表達差異基因預測的有效性?5.例:1,000個探針的雙通道芯片,以p-value<0.01為域值,發(fā)現7個上調基因,5個下調基因,分析結果是否具有統(tǒng)計學意義?目前三十一頁\總數五十六頁\編于十一點FalseDiscoveryRate(FDR)1.Falsepositiveprediction:“Type1error"or"FalseDiscovery"2.FalseDiscoveyRate(FDR)=p-value*No.ofGenes上例:FDR=0.01*1,000=10(隨機)7個上調基因,5個下調基因<10因此上例計算的結果無統(tǒng)計學意義3.FDR必須遠小于發(fā)現的差異表達基因數目實驗的有效性p-value的選擇目前三十二頁\總數五十六頁\編于十一點(2)基因共表達分析1.在N個不同的條件下(時間序列的芯片數據),考察基因X和Y的表達是否相似2.Gene1#是否與Gene2#、Gene3#和Gene4#共表達?3.共表達:正相關:相似的表達譜,可能存在正關聯負相關:相反的表達譜,可能存在負調控EisenMB,etal.,(1998)PNAS95:14863-14868GeneNameT1T2T3T4T5T6Gene1#123456Gene2#100200300400550610Gene3#660540430320210101Gene4#150421535725451670998目前三十三頁\總數五十六頁\編于十一點沒有相關性?目前三十四頁\總數五十六頁\編于十一點基因相關性分析1.Spearmanrankcorrelation2.Kendall'stau3.Euclideandistance4.Pearsoncorrelationcoefficient:-1~1Excel函數:=PEARSON(array1,array2)EisenMB,etal.,(1998)PNAS95:14863-14868目前三十五頁\總數五十六頁\編于十一點Pearson相關系數1.r~[-1,1]r~1,正相關r~-1,負相關Gene1#Gene2#Gene3#Gene1#Gene2#0.996368Gene3#-0.99988-0.99611Gene4#0.2452920.254855-0.2395結論:Gene1#與Gene2#表達正相關,與Gene3#表達負相關,與Gene4#無關聯目前三十六頁\總數五十六頁\編于十一點(3)基因表達數據的聚類1.將表達譜相似的基因聚類在一起2.無督導學習(unsupervisedlearning)3.Patternfinding:發(fā)現新的模式4.聚類方法:A.HierarchicalclusteringB.K-meansclusteringHierarchicalClustering目前三十七頁\總數五十六頁\編于十一點Hierarchicalclustering1.用樹狀結構來表征基因表達之間的相似性/相關性2.優(yōu)點:不需要指定結果有多少類Object123451223654109459853DistancematrixDistanceCluster01,2,3,4,52(1,2),3,4,53(1,2),3,(4,5)4(1,2),(3,4,5)5(1,2,3,4,5)目前三十八頁\總數五十六頁\編于十一點K-meansclustering1.對數據進行聚類2.必須給定結果分成多少類!3.假設,該例中,指定為聚成5類目前三十九頁\總數五十六頁\編于十一點K-meansclustering1.隨便選取5個點,作為每一個類的中心點目前四十頁\總數五十六頁\編于十一點K-meansclustering2.計算其他點與這5個中心點的距離距離:歐氏距離馬氏距離皮爾孫相關系數…點的歸類:離哪個中心點近,歸哪個類目前四十一頁\總數五十六頁\編于十一點K-meansclustering3.針對每一類中的每一個點,計算其與其他點的距離,加和,除以該類點的數目;找到新的中心點,即改點到該類中其他點的平均值最?。淮_定新的5個中心點!目前四十二頁\總數五十六頁\編于十一點K-meansclustering4.重復2,3,直到結果收斂實際操作時,因結果完全收斂時間過長,一般指定迭代的次數,如1,000次目前四十三頁\總數五十六頁\編于十一點K-meansclustering5.最終結果:所有基因芯片數據被聚成5類軟件:Cluster3.0,MichaelEissen,Stanford目前四十四頁\總數五十六頁\編于十一點(4)基因表達數據的分類1.根據基因表達的數據將樣本分成兩類或多類;2.督導學習(supervisedlearning):根據發(fā)現的pattern進行預測3.應用:癌癥vs.正常組織癌癥的亞型、不同階段(良性的vs.惡性的)對藥物的敏感性(tamoxifenforbreastcancer)目前四十五頁\總數五十六頁\編于十一點DiffuselargeB-celllymphoma(DLBCL)1.通過聚類發(fā)現各種亞型之間的關系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論