浙江大學(xué)沃森研究院 實(shí)習(xí)3芯片的基本數(shù)據(jù)處理和分析_第1頁(yè)
浙江大學(xué)沃森研究院 實(shí)習(xí)3芯片的基本數(shù)據(jù)處理和分析_第2頁(yè)
浙江大學(xué)沃森研究院 實(shí)習(xí)3芯片的基本數(shù)據(jù)處理和分析_第3頁(yè)
浙江大學(xué)沃森研究院 實(shí)習(xí)3芯片的基本數(shù)據(jù)處理和分析_第4頁(yè)
浙江大學(xué)沃森研究院 實(shí)習(xí)3芯片的基本數(shù)據(jù)處理和分析_第5頁(yè)
已閱讀5頁(yè),還剩83頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)習(xí)三

芯片的基本數(shù)據(jù)處理和分析

阮陟馮曄陳歡樓小燕

實(shí)習(xí)一基因組數(shù)據(jù)注釋和功能分析實(shí)習(xí)二核苷酸序列分析實(shí)習(xí)三芯片的基本數(shù)據(jù)處理和分析實(shí)習(xí)四蛋白質(zhì)結(jié)構(gòu)與功能分析實(shí)習(xí)五蛋白質(zhì)組學(xué)數(shù)據(jù)分析實(shí)習(xí)六系統(tǒng)生物學(xué)軟件實(shí)習(xí)課程內(nèi)容基因組學(xué)轉(zhuǎn)錄物組學(xué)蛋白質(zhì)組學(xué)系統(tǒng)生物學(xué)實(shí)習(xí)內(nèi)容:TIGRTM4軟件的介紹和使用GenMAPP軟件的介紹和使用GEO數(shù)據(jù)庫(kù)的介紹芯片數(shù)據(jù)分析的一般流程:芯片雜交實(shí)驗(yàn),芯片數(shù)據(jù)采集(讀取掃描圖)數(shù)據(jù)基本處理數(shù)據(jù)提交公共數(shù)據(jù)庫(kù)數(shù)據(jù)生物信息學(xué)分析

ApackageofOpenSourcesoftwareprogramsforMicroarrayanalysis

芯片數(shù)據(jù)采集(讀取掃描圖)數(shù)據(jù)基本處理存儲(chǔ)整理芯片數(shù)據(jù)(數(shù)據(jù)庫(kù))芯片數(shù)據(jù)分析結(jié)果的圖形顯示(

/)TIGRTM4:Cy3Cy5Cy5-cDNACy3-cDNARTRTcDNAarray樣本mRNA對(duì)照mRNATIF掃描圖常見(jiàn)的雙通道(dualchannel)實(shí)驗(yàn)流程:對(duì)照基因(referencegene):綠色熒光標(biāo)記(G)樣本基因(samplegene):紅色熒光標(biāo)記(R)什么是區(qū)塊(block)?非飽和區(qū)域飽和區(qū)域信號(hào)雜交的一些概念背景探針區(qū)域MEV文件:MEV格式的芯片數(shù)據(jù)UID: Uniqueidentifierforthisspot.IA: Integratedintensityforchannel1(Cy3).IB: Integratedintensityforchannel2(Cy5).R: Row(slide_row).C: Column(slidecolumn).MR: Meta-row(blockrow).MC: Meta-column(blockcolumn).SR: Sub-row(rowinblock).SC: Sub-column(columninblock).FlagA: TIGRSpotFinderflagvalueforchannel1.FlagB: TIGRSpotFinderflagvalueforchannel2.BkgA: Backgroundintensityforchannel1.BkgB: Backgroundintensityforchannel2.SAA: Spotareaforchannel1.SAB: Spotareaforchannel2.MedA: MedianIntensityforchannel1(Cy3).MedB: MedianIntensityforchannel2(Cy5).位置信號(hào)值FlagsinMevfile:A–0non-saturatedpixelsinthespotB–0-50non-saturatedpixelsinthespotC–50ormorenon-saturatedpixelsinthespotX–spotisrejected,duetospotshapeandintensityrelativetobackgroundY–backgroundishigherthanspotintensityZ–spotnotdetectedbySpotfindergoodMEV注釋文件(后綴名為.ann)GenePix格式(.gpr)Agilent格式(.txt):ExpressConverter:芯片數(shù)據(jù)的格式轉(zhuǎn)換下載地址:/programs/ExprConvt2_0.zip;下載后,解壓安裝即可。“開(kāi)始”->“所有程序”處打開(kāi)。需要先安裝Java,Java下載地址:;ExpressConverter主界面:ExpressConverter使用方法:選擇“InputFormat→GenPix”,指定輸入的文件格式;

選擇“File→Selectinputfiles”,選定一個(gè)或多個(gè)需要轉(zhuǎn)換的文件;選擇“File→Startconverting”,格式開(kāi)始轉(zhuǎn)換。待狀態(tài)欄顯示“Convertingissuccessful”后,格式轉(zhuǎn)換完成。此時(shí)在原genepix存放的文件夾中會(huì)出現(xiàn)文件名相同但擴(kuò)展名不同的.mev和.ann的文件。

inputoutput課堂練習(xí)使用ExpressConverter將testdata.gpr轉(zhuǎn)換成testdata.mev和testdata.ann。用記事本查看testdata.gpr,testdata.mev和testdata.ann。ExpressConverter快捷方式:“開(kāi)始”→“所有程序”testdata.gpr:C:\ProgramFiles\ExpressConverter\samples\MIDAS:數(shù)據(jù)基本處理下載地址是:/midas.html。此程序不用安裝下載后解壓就可以使用。(需要先安裝Java)進(jìn)入文件夾,雙擊打開(kāi)Midas.bat文件,會(huì)出現(xiàn)后臺(tái)運(yùn)行窗口和圖形界面窗口。低質(zhì)量數(shù)據(jù)過(guò)濾根據(jù)Flag過(guò)濾根據(jù)信號(hào)和背景值過(guò)濾芯片內(nèi)的數(shù)據(jù)標(biāo)準(zhǔn)化(Normalization)AAMAplotInmanymicroarraygeneexpressionexperiments,thegeneralassumptionisthatmostofthegeneswouldnotseeanychangeintheirexpression.Thereforethemajorityofthepointsontheyaxis(M)wouldbelocatedat0,sincelog(1)is0.區(qū)塊間均一化處理MIDAS程序界面MIDAS可選的數(shù)據(jù)處理方法

標(biāo)準(zhǔn)化處理方法TotalIntensitynormalization

低質(zhì)量數(shù)據(jù)過(guò)濾方法Invalid-intensitycheckingLOWESS(Locfit)normalizationIterativelinearregressionnormalizationIterativelogmeancenteringnormalizationRatioStatisticsnormalizationLowintensityfilterStandarddeviationregularizationSliceanalysis(non-statistical)In-slidereplicatesanalysisFlip-dyeconsistencycheckingRatioStatisticsconfidenceintervalcheckingSignal/NoisecheckingCross-file-trimSpotQCflagcheckingMA-ANOVACross-slidereplicatest-test(statistical)Cross-slideone-classSAM(statistical)

差異表達(dá)基因識(shí)別方法用MIDAS處理單張雙色芯片的基本流程芯片數(shù)據(jù)的讀入;低質(zhì)量數(shù)據(jù)的過(guò)濾;標(biāo)準(zhǔn)化(包括區(qū)塊間的均一化);結(jié)果文件的輸出。Step1:芯片數(shù)據(jù)的讀入Step2:低質(zhì)量數(shù)據(jù)的過(guò)濾Step3:標(biāo)準(zhǔn)化(包括區(qū)塊間的均一化)Step4:結(jié)果文件的輸出結(jié)果文件(夾)*_MDS.mevRawLow_intensity_filterLowessSd_regMIDAS統(tǒng)計(jì)作圖(MIDASInvestigation窗口查看)R-Iplot(.prc)Boxplot(.box)FlipDyeDiagnosticplot(.rrc)Intensityplot(.ity,.lty)Z-scoreDistributionplot(.his)SAMplot(.sam)課堂練習(xí)使用MIDAS處理testdata.mev,并查看結(jié)果文件;MIDAS程序位置:C:\zcni\shiyan3\MIDAS2_19,雙擊Midas.bat打開(kāi)程序;輸入文件testdata.mev由ExpressConverter產(chǎn)生,在C:\ProgramFiles\ExpressConverter\example\。多樣本芯片實(shí)驗(yàn)實(shí)驗(yàn)適用范圍:分型,不同發(fā)育階段的表達(dá),不同劑量藥物下的表達(dá)等;使用共同的對(duì)照:采用標(biāo)準(zhǔn)對(duì)照,或?qū)⑺袠悠坊旌献鳛楣餐瑢?duì)照。多樣本實(shí)驗(yàn)的兩種常用分析聚類(lèi)分析差異表達(dá)基因的篩選下載地址:/mev.html

。此程序不用安裝下載后解壓就可以使用(需要先安裝Java)進(jìn)入軟件所在的文件夾(免安裝),雙擊打開(kāi)TMEV.bat文件,會(huì)出現(xiàn)后臺(tái)運(yùn)行窗口和圖形界面窗口。MeV4.3程序主界面常用工具欄導(dǎo)航欄結(jié)果界面MeV4.3支持的文件格式MIDASMEV,TAV格式表格格式GEO格式Affymetrix格式GPR格式Agilent格式專(zhuān)題一表格格式數(shù)據(jù)的讀入與轉(zhuǎn)化專(zhuān)題二系統(tǒng)聚類(lèi)法對(duì)基因和樣本聚類(lèi)專(zhuān)題三使用SAM查找差異表達(dá)基因?qū)n}一表格格式數(shù)據(jù)的讀入與轉(zhuǎn)化①選擇“File→LoadData”彈出導(dǎo)入數(shù)據(jù)對(duì)話(huà)框②③④⑤⑥數(shù)據(jù)起始位置不同顏色表示相對(duì)表達(dá)量樣本名基因名Heatmap

View專(zhuān)題二系統(tǒng)聚類(lèi)法對(duì)基因和樣本聚類(lèi)①②聚類(lèi)分析結(jié)果圖:存儲(chǔ)和注釋感興趣的分類(lèi):①單擊鼠標(biāo)左鍵選中目標(biāo)分類(lèi)使其高亮化;②右鍵選擇菜單中的StoreCluster,并設(shè)置注釋的名稱(chēng)和顏色等信息。專(zhuān)題三使用SAM查找差異表達(dá)基因①不同實(shí)驗(yàn)類(lèi)型樣本分組②③④⑤Sam結(jié)果:ExpressionImagesSam結(jié)果:CentroidGraphsSam結(jié)果:ExpressionGraphsSam結(jié)果:TableViews如何進(jìn)一步學(xué)習(xí)使用MeV①在使用軟件的過(guò)程中隨時(shí)查閱即時(shí)幫助②查閱軟件的使用手冊(cè)(Manual)③前往TM4主頁(yè)查閱最新信息和軟件更新課堂練習(xí)使用MeV處理TDMS_format_sample.txt

,并查看結(jié)果文件;MEV程序位置:C:\zcni\shiyan3\MeV_4_3,雙擊TMEV.bat打開(kāi)程序;輸入文件TDMS_format_sample.txt位于:C:\zcni\shiyan3\MeV_4_3\data\。GenMAPP

一款將芯片數(shù)據(jù)和代謝途徑結(jié)合起來(lái)的圖形化顯示工具下載地址:/download.asp;雙擊安裝文件安裝GenMAPP;打開(kāi)GenMAPP程序,從菜單“Data→DownloadDatafromGenMAPP.org”下載自己感興趣物種的MAPP文件和GeneDatabase。

GenMAPP安裝和更新GenMAPP基本概念MAPP:描述了模式生物的代謝途徑圖。目前MAPP數(shù)據(jù)庫(kù)中包含了人(H.sapiens)、小鼠(M.musculus)、大鼠(R.norvegicus)、酵母(S.cerevisiae)、線(xiàn)蟲(chóng)(C.elegans)、狗(C.familiaris)、雞(G.gallus)、牛(B.taurus)、果蠅(D.melanogaster)和斑馬魚(yú)(D.rerio)等模式生物。

Genedatabase:包含了上述物種所含基因的注釋及其基因標(biāo)識(shí)號(hào)(ID)。對(duì)于每個(gè)基因,GeneDatabase會(huì)建立它在各個(gè)geneIDsystem中的對(duì)應(yīng)關(guān)系。比如,Trp53基因在MGI(小鼠基因組數(shù)據(jù)庫(kù))中的標(biāo)識(shí)號(hào)為MGI:98834,而在UniGene數(shù)據(jù)庫(kù)中標(biāo)識(shí)號(hào)為Mm.222,在Ensembl數(shù)據(jù)庫(kù)中標(biāo)識(shí)號(hào)為ENSMUSG00000059552。IDSystem(Species)SystemCodeAffymetrixProbeSetIDXPDBPdEMBLEmPfamPfEnsemblEnRefSeqQEntrezGeneLRGD(R.norvegicus)RFlyBase(D.melanogaster)FSGD(S.cerevisiae)DGeneOntologyTUniProt/TrEMBLSHUGOHUniGeneUInterProIWormBase(C.elegans)WMGI(M.musculus)MZFIN(D.rerio)ZOMIMOmOtherOStep1:打開(kāi)“GenMAPP2”程序。選擇菜單“Data→ChooseGeneDatabase”按照實(shí)驗(yàn)物種選擇合適的基因庫(kù)。Step2:從菜單“File→Open”打開(kāi)自己感興趣的MAPP文件。Step3:從菜單“Data→ChooseExpressionDataset”打開(kāi)表達(dá)量文件(.gex)并選擇相應(yīng)的顏色集。Step4:點(diǎn)擊感興趣的基因查看注釋如何制作.gex表達(dá)量文件?將芯片數(shù)據(jù)用Excel中按一定格式整理2.將Excel另存為文本文件(txt后綴名或csv后綴名),可在Data菜單“ExpressionDatasets→Newdataset”導(dǎo)入該文本文件。此時(shí),程序會(huì)向用戶(hù)提問(wèn)文件中的數(shù)據(jù)是數(shù)值型還是文本型,對(duì)文本文件要在圖示框中選勾,點(diǎn)擊“OK”即可,一般ControlAverage、TreatedAverage、FoldChange和p-value為數(shù)值型,其他為文本型。

如何制作顏色集(colorset)?在菜單“Data→ExpressionDatasetManager”界面下從菜單“Colorsets→new”新定義一個(gè)顏色集。

課堂練習(xí)在“開(kāi)始”→“所有程序”處打開(kāi)GenMAPP2程序;GeneDatabase文件位置:

C:\GenMAPP2Data\GeneDatabases\;MAPP文件位置:C:\GenMAPP2Data\MAPPs\;芯片表達(dá)量文件位置:

C:\GenMAPP2Data\ExpressionDatasets\;芯片數(shù)據(jù)的檢索和提交常用的芯片數(shù)據(jù)庫(kù)NCBIGEO:

/geo/EBIArrayExpress:http://www.ebi.ac.uk/microarray-as/aer/?#ae-main[0]

StanfordMicroarrayDatabase:/UCSCMicroarrayDatabase:/research/research_microarraydata.shtmlGEO(GeneExpressionOmnibus)主頁(yè)檢索入口提交入口也可這樣檢索:

NCBI主頁(yè)

Search“GEODatasets”以檢索人類(lèi)癌癥相關(guān)的芯片實(shí)驗(yàn)為例,輸入“humanANDcancer”:每條記錄包含的信息:Platform: 芯片信息Sample:樣本信息Series:系列信息Platform信息:Platform_title:芯片名稱(chēng);Platform_technology:點(diǎn)制芯片探針的方法,例如ORF或cDNA的PCR產(chǎn)物(spottedDNA/cDNA)、原位雜交的寡核苷酸(insituoligonucleotide)和直接點(diǎn)樣的寡核苷酸(spottedoligonucleotide)等;Platform_distribution:注明是否屬于商品芯片(non-commercial,commercial,custom-commercial);Platform_organism:芯片適用的物種;Platform_manufacturer:芯片制作單位;Platform_manufacture_protocol:芯片制作的實(shí)驗(yàn)過(guò)程,例如探針合成方式和點(diǎn)樣方式等;platform_table:芯片中每一個(gè)點(diǎn)的探針的內(nèi)容。Sample信息:Sample_title:樣本名稱(chēng);Sample_supplementary_file:樣本附件的名稱(chēng)。附件指的是芯片雜交后掃描的TIFF格式的圖像等文件。Sample_source_name_ch1:channel1樣本DNA/RNA材料的來(lái)源(來(lái)源于哪個(gè)組織,細(xì)胞等等);Sample_organism_ch1:channel1樣本DNA/RNA材料來(lái)源于哪個(gè)物種;Sample_characteristics_ch1:channel1樣本DNA/RNA材料的特點(diǎn);Sample_molecule_ch1:channel1樣本分子的特性(totalRNA,polyARNA,cytoplasmicRNA,nuclearRNA,genomicDNA,等等);Sample_extract_protocol_ch1:channel1樣本提取的步驟;Sample_label_ch1:channel1樣本標(biāo)記的染料(Cy3orCy5);Sample_label_protocol_ch1:channel1樣本標(biāo)記染料的步驟;Sample_source_name_ch2,Sample_organism_ch2,Sample_characteristics_ch2,Sample_gro

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論