版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第七章基因芯片數(shù)據(jù)分析MicroarrayDataAnalysis第一節(jié)芯片平臺(tái)及數(shù)據(jù)庫(GeneralMicroarrayPlatformandDatabase)一、cDNA微陣列芯片寡核苷酸芯片類似于cDNA芯片,但是在探針的設(shè)計(jì)上優(yōu)于cDNA芯片,它的探針并不是來源于cDNA克隆,而是預(yù)先設(shè)計(jì)并合成的代表每個(gè)基因特異片段的約50mer左右長度的序列,然后將其點(diǎn)樣到特定的基質(zhì)上制備成芯片,從而克服了探針序列太長導(dǎo)致的非特異性交叉雜交和由于探針雜交條件變化巨大導(dǎo)致的數(shù)據(jù)結(jié)果的不可靠。二、寡核苷酸芯片
五、基因表達(dá)倉庫GeneExpressionOmnibus,GEO六、斯坦福微陣列數(shù)據(jù)庫TheStanfordMicroarrayDatabase,SMD第二節(jié)基因芯片數(shù)據(jù)預(yù)處理
(GeneralMicroarrayDataTypeandDatabase)一、基因芯片數(shù)據(jù)提取與過濾(一)
cDNA微陣列芯片(二)
Affymetrix公司的原位合成芯片定性信息提?。篜/A/M(Present/Absent/Marginal)定量信息提?。夯谔结樇瘏R總后的基因水平的熒光信號(hào)強(qiáng)度值數(shù)據(jù)過濾
數(shù)據(jù)過濾的目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)、或者明顯的噪聲數(shù)據(jù)。過閃耀現(xiàn)象物理因素導(dǎo)致的信號(hào)污染雜交效能低點(diǎn)樣問題其它二、數(shù)據(jù)補(bǔ)缺(一)數(shù)據(jù)缺失類型非隨機(jī)缺失基因表達(dá)豐度過高或過低隨機(jī)缺失與基因表達(dá)豐度無關(guān),數(shù)據(jù)補(bǔ)缺主要針對(duì)隨機(jī)缺失情況(二)數(shù)據(jù)補(bǔ)缺方法1、簡單補(bǔ)缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average2、K近鄰法選擇與具有缺失值基因的k個(gè)鄰居基因用鄰居基因的加權(quán)平均估計(jì)缺失值參數(shù):鄰居個(gè)數(shù)距離函數(shù)3、回回歸法法三、數(shù)數(shù)據(jù)標(biāo)標(biāo)準(zhǔn)化化(一)為什什么要要進(jìn)行行數(shù)據(jù)據(jù)標(biāo)準(zhǔn)準(zhǔn)化存在不不同來來源的的系統(tǒng)統(tǒng)誤差差染料物物理特特性差差異(熱和和光敏敏感性性,半半衰期期等)染料連連接效效能點(diǎn)樣針針差異異數(shù)據(jù)收收集過過程中中掃描描設(shè)施施不同芯芯片差差異實(shí)驗(yàn)條條件差差異(二)運(yùn)用用哪些些基因因進(jìn)行行標(biāo)準(zhǔn)準(zhǔn)化處處理芯片上上大部部分基基因(假設(shè)設(shè)芯片片上大大部分分基因因在不不同條條件下下表達(dá)達(dá)量相相同)不同條條件間間穩(wěn)定定表達(dá)達(dá)的基基因(如持持家基基因)控制序序列(spikedcontrol)合成DNA序列列或外外源的的DNA序序列,,在不不同條條件下下表達(dá)達(dá)水平平相同同。1、片片內(nèi)標(biāo)標(biāo)化(Within-slidenormalization)(1)全全局標(biāo)標(biāo)化(Globalnormalization)(三)cDNA芯芯片數(shù)據(jù)標(biāo)標(biāo)準(zhǔn)化處理理假設(shè):R=k*G方法:C=log2k:中值或均均值(2)熒光光強(qiáng)度依賴的的標(biāo)化(Intensitydependentnormalization)為什么方法:scatter-plotsmootherlowess擬合c(A)為為MvsA的擬合函數(shù)標(biāo)化后的數(shù)據(jù)據(jù)(3)點(diǎn)樣樣針依賴的標(biāo)標(biāo)化(Within-print-tip-groupnormalization)為什么一張芯片的不不同區(qū)域運(yùn)用用不同的點(diǎn)樣樣針點(diǎn)樣,從從而引入點(diǎn)樣樣針帶來的系系統(tǒng)誤差。method(4)尺度度調(diào)整(Scaleadjustment)為什么調(diào)整不同柵格格(grids)間的數(shù)數(shù)據(jù)離散度方法:計(jì)算不不同柵格的尺尺度因子2、片間標(biāo)化化(Multiple-slidenormalization)線性標(biāo)化法(Linearscalingmethods)與芯片內(nèi)標(biāo)化化的尺度調(diào)整整(Scaleadjustment)方方法類似非線性標(biāo)化法法(non-linearmethods)分位數(shù)標(biāo)化法法(Quantilenormalization)兩張芯片的表表達(dá)數(shù)據(jù)的分分位數(shù)標(biāo)化至至相同,即分分布于對(duì)角線線上。3、染色互換換實(shí)驗(yàn)(dye-swapexperiment)的標(biāo)化實(shí)驗(yàn)組對(duì)對(duì)照照組芯片1cy5(R)cy3(G’’)芯片2cy3(G)cy5(R’’)前提假設(shè):c︽c’方法:1、提取定定性信號(hào)(1)對(duì)每個(gè)個(gè)探針對(duì)計(jì)算算RR=(PM-MM)/(PM+MM)(2)比較R與定義的閾閾值Tau(小的正值,,默認(rèn)值為0.015).(3)單單側(cè)的的Wilcoxon’sSignedRanktest產(chǎn)產(chǎn)生p值,,根據(jù)據(jù)p值值定義義定量量信號(hào)號(hào)值PresentcallMarginalcallAbsentcall(四四)Affymetrix芯芯片片數(shù)數(shù)據(jù)據(jù)標(biāo)標(biāo)準(zhǔn)準(zhǔn)化化2、、提提取取定定量量信信號(hào)號(hào)(1)分分析析步步驟驟獲取取探探針針?biāo)狡綌?shù)數(shù)據(jù)據(jù)背景景值值效效正正標(biāo)準(zhǔn)準(zhǔn)化化處處理理探針針特特異異背背景景值值效效正正探針針集集信信號(hào)號(hào)的的匯匯總總(2)分分析析方方法法M=log2R-log2GA=(log2R+log2G)/2前面面提提及及的的標(biāo)標(biāo)準(zhǔn)準(zhǔn)化化方方法法僅僅效效正正了了數(shù)數(shù)據(jù)據(jù)分分布布的的中中心心,,在在不不同同的的柵柵格格間間log-Ratios的的方方差差也也不不同同。。第三三節(jié)節(jié)差差異異表表達(dá)達(dá)分分析析(AnalysisofDifferentiallyExpressionGene)一、倍數(shù)數(shù)法實(shí)驗(yàn)條件件下的表表達(dá)值對(duì)照條件件下的表表達(dá)值通常以2倍差異異為閾值值,判斷斷基因是是否差異異表達(dá)二、統(tǒng)計(jì)計(jì)學(xué)方法法1、t檢檢驗(yàn)法運(yùn)用t檢檢驗(yàn)法可可以判斷斷基因在在兩不同同條件下下的表達(dá)達(dá)差異是是否具有有顯著性性2、方差差分析方差分析析可用于于基因在在兩種或或多種條條件間的的表達(dá)量量的比較較,它將將基因在在樣本之之間的總總變異分分解為組組間變異異和組內(nèi)內(nèi)變異兩兩部分。。通過方方差分析析的假設(shè)設(shè)檢驗(yàn)判判斷組間間變異是是否存在在,如果果存在則則表明基基因在不不同條件件下的表表達(dá)有差差異。三、SAM(SignificanceAnalysisofMicroarrays)(一)多多重假假設(shè)檢驗(yàn)驗(yàn)問題Ⅰ型錯(cuò)誤誤(假陽陽性)即即在假設(shè)設(shè)檢驗(yàn)作作推斷結(jié)結(jié)論時(shí),,拒絕了了實(shí)際上上正確的的檢驗(yàn)假假設(shè),即即將無差差異表達(dá)達(dá)的基因因判斷為為差異表表達(dá)。Ⅱ型錯(cuò)誤誤(假陰陰性)即即不拒絕絕實(shí)際上上不正確確的,即即將有差差異表達(dá)達(dá)的基因因判斷為為無差異異表達(dá)。。在進(jìn)行差差異基因因挑選時(shí)時(shí),整個(gè)個(gè)差異基基因篩選選過程需需要做成成千上萬萬次假設(shè)設(shè)檢驗(yàn),,導(dǎo)致假假陽性率率的累積積增大。。對(duì)于這這種多重重假設(shè)檢檢驗(yàn)帶來來的放大大的假陽陽性率,,需要進(jìn)進(jìn)行糾正正。常用用的糾正正策略有有Bonferroni效正正,控制制FDR(FalseDiscoveryRate)值等等。(二)分分析步步驟計(jì)算統(tǒng)計(jì)計(jì)量擾動(dòng)實(shí)驗(yàn)驗(yàn)條件,,計(jì)算擾擾動(dòng)后的的基因表表達(dá)的相相對(duì)差異異統(tǒng)計(jì)量量計(jì)算擾動(dòng)動(dòng)后的平平均相對(duì)對(duì)差異統(tǒng)統(tǒng)計(jì)量確定差異異表達(dá)基基因閾值值:以最最小的正值和和最大的的負(fù)值作作為統(tǒng)計(jì)計(jì)閾值,運(yùn)用用該閾值值,統(tǒng)計(jì)計(jì)在值中中超過該閾值值的假陽陽性基因因個(gè)數(shù),,估計(jì)假陽性性發(fā)現(xiàn)率率FDR值。通過調(diào)整整FDR值的大大小得到到差異表達(dá)基因因。四、信息息熵運(yùn)用信息息熵進(jìn)行行差異基基因挑選選時(shí),不不需要用用到樣本本的類別別信息,,所以運(yùn)運(yùn)用信息息熵找到到的差異異基因是是指在所所有條件件下表達(dá)達(dá)波動(dòng)比比較大的的基因。。第四節(jié)基因芯片片數(shù)據(jù)的的聚類分分析(ClusterAnalysisofMicroarrayData)(一)相相似性測測度幾何距離離線性相關(guān)關(guān)系數(shù)非線性相相關(guān)系數(shù)數(shù)互信息其它(二)層次聚類類層次聚類類算法將將研究對(duì)對(duì)象按照照它們的的相似性性關(guān)系用用樹形圖圖進(jìn)行呈呈現(xiàn),進(jìn)進(jìn)行層次次聚類時(shí)時(shí)不需要要預(yù)先設(shè)設(shè)定類別別個(gè)數(shù),,樹狀的的聚類結(jié)結(jié)構(gòu)可以以展示嵌嵌套式的的類別關(guān)關(guān)系。在對(duì)含非非單獨(dú)對(duì)對(duì)象的類類進(jìn)行合合并或分分裂時(shí),,常用的的類間度度量方法法(三)k均值聚聚類基本思想想(四)自自組織映映射聚類類基本思想想:在不不斷的學(xué)學(xué)習(xí)過程程中,輸輸出層的的神經(jīng)元元根據(jù)輸輸入樣本本的特點(diǎn)點(diǎn)進(jìn)行權(quán)權(quán)重調(diào)整整,最后后拓樸結(jié)結(jié)構(gòu)發(fā)生生了改變變第五節(jié)基基因芯芯片數(shù)據(jù)據(jù)的分類類分析(ClassificationofMicroarrayData)一、線性性判別分分類器二、k近近鄰分類類法基本思想想三、決策策樹(一)基基本思想想決策樹又又稱為多多級(jí)分類類器,利利用決策策樹分類類可以把把一個(gè)復(fù)復(fù)雜的多多類別分分類問題題轉(zhuǎn)化為為若干個(gè)個(gè)簡單的的分類問問題來解解決決策樹的的結(jié)構(gòu)::一個(gè)樹樹性的結(jié)結(jié)構(gòu),內(nèi)內(nèi)部節(jié)點(diǎn)點(diǎn)上選用用一個(gè)屬屬性進(jìn)行行分割,,每個(gè)分分叉都是是分割的的一個(gè)部部分,葉葉子節(jié)點(diǎn)點(diǎn)表示一一個(gè)分布布(二)分分析步驟驟:提取取分類規(guī)規(guī)則,進(jìn)進(jìn)行分類類預(yù)測在構(gòu)造決決策樹的的過程中中最重要要的一點(diǎn)點(diǎn)是在每每一個(gè)分分裂節(jié)點(diǎn)點(diǎn)確定用用那個(gè)屬屬性來分分類(或或分裂))這就涉及及到關(guān)于于使用什什么準(zhǔn)則則來衡量量使用A屬性比比使用B屬性更更合理決策樹分類算法output訓(xùn)練集決策樹input(三)衡衡量準(zhǔn)則則信息增益益——Informationgain基尼指數(shù)數(shù)——Giniindex第六節(jié)常常用的的表達(dá)譜譜分析軟軟件(GeneralMicroa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度醫(yī)院醫(yī)技人員技能提升合同4篇
- 打雜工合同范本(2篇)
- 二零二五年度農(nóng)村土地整治項(xiàng)目承包合同書4篇
- 二零二五年度充電樁充電服務(wù)補(bǔ)貼資金管理合同3篇
- 二零二五版高端鎳氫電池產(chǎn)品定制研發(fā)合同范本4篇
- 二零二五年度農(nóng)場租賃合同農(nóng)業(yè)生態(tài)修復(fù)與保護(hù)協(xié)議4篇
- 2025年度房地產(chǎn)租賃合同房屋質(zhì)量及維修責(zé)任約定4篇
- 2025年互聯(lián)網(wǎng)+內(nèi)資股東股權(quán)投資合同
- 二零二五版智能門禁系統(tǒng)與電梯聯(lián)動(dòng)工程合同3篇
- 2025年度互聯(lián)網(wǎng)企業(yè)程序員聘用合同模板
- 2024年中考語文滿分作文6篇(含題目)
- 第一節(jié)-貨幣資金資料講解
- 如何提高售后服務(wù)的快速響應(yīng)能力
- 北師大版 2024-2025學(xué)年四年級(jí)數(shù)學(xué)上冊(cè)典型例題系列第三單元:行程問題“拓展型”專項(xiàng)練習(xí)(原卷版+解析)
- 2023年譯林版英語五年級(jí)下冊(cè)Units-1-2單元測試卷-含答案
- Unit-3-Reading-and-thinking課文詳解課件-高中英語人教版必修第二冊(cè)
- 施工管理中的文檔管理方法與要求
- DL∕T 547-2020 電力系統(tǒng)光纖通信運(yùn)行管理規(guī)程
- 種子輪投資協(xié)議
- 執(zhí)行依據(jù)主文范文(通用4篇)
- 浙教版七年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)課件
評(píng)論
0/150
提交評(píng)論