探索性數(shù)據(jù)分析_第1頁(yè)
探索性數(shù)據(jù)分析_第2頁(yè)
探索性數(shù)據(jù)分析_第3頁(yè)
探索性數(shù)據(jù)分析_第4頁(yè)
探索性數(shù)據(jù)分析_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

探索性數(shù)據(jù)分析探索性數(shù)據(jù)分析介紹當(dāng)有?扔給你?份數(shù)據(jù)時(shí),你對(duì)這份數(shù)據(jù)完全陌?,?沒有?夠的業(yè)務(wù)背景,會(huì)不會(huì)感覺?從下?。如果你什么都不管,直接把數(shù)據(jù)喂給各種模型,卻發(fā)現(xiàn)效果不好,因?yàn)槟銢]有好的特征,那么你可能需要的是數(shù)據(jù)探索。?先什么是探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)?實(shí)際上,這是?系列的?法,它的?的就是讓你最?化對(duì)數(shù)據(jù)的直覺,為了讓你對(duì)數(shù)據(jù)有感覺,你不僅需要知道數(shù)據(jù)?有什么,你還需要知道數(shù)據(jù)?沒有什么,?完成這件事情的?法只有?個(gè),那就是結(jié)合各種統(tǒng)計(jì)學(xué)的圖形把數(shù)據(jù)以各種形式展現(xiàn)在我們?前。它可以完成這些事情:讓你最?程度得到數(shù)據(jù)的直覺發(fā)掘潛在的結(jié)構(gòu)重要的變量刪除異常值檢驗(yàn)潛在的假設(shè)建?初步的模型決定最優(yōu)因?的設(shè)置舉?個(gè)例?:X1Y1X2Y2X3Y3X4Y4108.04109.14107.4686.5886.9588.1486.7785.76137.58138.741312.7487.7198.8198.7797.1188.84118.33119.26117.8188.47149.96148.1148.8487.0467.2466.1366.0885.2544.2643.145.391912.51210.84129.13128.1585.5674.8277.2676.4287.9155.6854.7455.7386.89有這么?些數(shù)據(jù),如果你通過?些描述性的指標(biāo)來表?這些數(shù)據(jù),你或許可以得到這些:對(duì)于X1Y1這兩列數(shù)據(jù)N=11MeanofX=9.0MeanofY=7.5Intercept=3Slope=0.5Standarddeviationofresiduals=1.126Correlation=81.7%對(duì)于X2Y2這兩列數(shù)據(jù)N=11MeanofX=9.0MeanofY=7.5Intercept=3Slope=0.5Standarddeviationofresiduals=1.126Correlation=81.7%對(duì)于X3Y3這兩列數(shù)據(jù)N=11MeanofX=9.0MeanofY=7.5Intercept=3Slope=0.5Standarddeviationofresiduals=1.126Correlation=81.7%

X4Y4跟他們都是?模?樣的,但是如果你把他們畫出來你會(huì)發(fā)現(xiàn)他們完全不?樣。我們從圖中可以?常容易看出數(shù)據(jù)集1是明顯的線性關(guān)系數(shù)據(jù)集2是明顯的?次關(guān)系數(shù)據(jù)集3明顯存在異常值數(shù)據(jù)集4顯然是糟糕的實(shí)驗(yàn)設(shè)計(jì)造成的。有?個(gè)點(diǎn)飛去了遠(yuǎn)?EDA技術(shù)在這?節(jié)將要介紹當(dāng)你拿到?些數(shù)據(jù)時(shí),去探索它所?到的?些技術(shù),以及分析的?法。這些技術(shù)可以劃分為兩類,?是基于圖像的,?是基于定量?法的。探索性數(shù)據(jù)分析常?的?些常見問題:數(shù)據(jù)的典型值是多少(均值,中位數(shù)等)?典型值的不確定性是什么??組數(shù)據(jù)的良好分布擬合是什么?數(shù)據(jù)的分位數(shù)是多少??個(gè)?程上的修改是否有作???個(gè)因?是否有影響?最重要的因素是什么?來?不同實(shí)驗(yàn)室的測(cè)量結(jié)果是否相等?將響應(yīng)變量與?組因變量相關(guān)聯(lián)的最佳函數(shù)是什么?什么是最好的因?設(shè)置?我們可以將時(shí)間相關(guān)數(shù)據(jù)中的信號(hào)與噪聲分離嗎?我們可以從多變量數(shù)據(jù)中提取任何結(jié)構(gòu)嗎?數(shù)據(jù)是否有離群值?第?步,你需要根據(jù)你的任務(wù)來決定EDA需要回答以上哪些問題,哪些問題對(duì)你來說是最重要的。當(dāng)你決定好需要回答哪些問題時(shí),就可以選擇合適的EDA技術(shù)去回答你的問題。接來下我會(huì)逐?介紹各個(gè)數(shù)據(jù)探索的技術(shù)下?部分?到的數(shù)據(jù)在這?:,直接復(fù)制到R中運(yùn)?即可1.?相關(guān)圖這是?種常見的檢驗(yàn)數(shù)據(jù)集隨機(jī)性的技術(shù)。它通過計(jì)算不同時(shí)滯下的?相關(guān)系數(shù)來刻畫。圖中的Y軸是?相關(guān)系數(shù):其中是?協(xié)?差取值在-1到1之間橫坐標(biāo)是:時(shí)滯(timelag)h(h=1,2,3,…)從形式上看?協(xié)?差有點(diǎn)像協(xié)?差,但它與傳統(tǒng)協(xié)?差的定義不太?樣。?則是序列的樣本?差。?相關(guān)圖刻畫了不同時(shí)滯下時(shí)間序列的?相關(guān)性。所以?相關(guān)圖還常常?來對(duì)AR模型進(jìn)?定階。?如說有這么?個(gè)時(shí)間序列AR(2):那么它的1階,2階的?相關(guān)系數(shù)應(yīng)該很?,然后階數(shù)越?,?相關(guān)系數(shù)逐漸減少。?相關(guān)圖可以回答以下?個(gè)問題:數(shù)據(jù)是否是隨機(jī)的??些觀測(cè)值會(huì)不會(huì)與它附近的觀測(cè)值相關(guān)?該時(shí)間序列是不是?噪聲?是不是正弦波?是不是?回歸的?適合它的時(shí)間序列模型是什么?模型是不是這種形式?我們對(duì)??張?相關(guān)圖看看:隨機(jī)序列:弱?相關(guān)(系數(shù)的取值很?):強(qiáng)?相關(guān):正弦波:2.雙柱狀圖(Bihistogram)這是?種與兩樣本t檢驗(yàn)相對(duì)應(yīng)的技術(shù),當(dāng)你還在糾結(jié)于均值,尺度,偏度,異常值,峭度等等數(shù)字背后直觀感覺時(shí),其實(shí)簡(jiǎn)單的把數(shù)據(jù)的直?圖就很明顯了。它除了?較兩個(gè)變量的分布之外,還可以有另外的?法。?如說,我們可以畫出不同性別,男?這兩個(gè)?平下的??的分布,從??較性別是否會(huì)對(duì)??有顯著的影響??梢?R語(yǔ)?來畫該圖library(Hmisc)histbackback(split(y,batch),ylab="StrengthofCeramic",brks=seq(300,900,by=25))3.塊圖(BlockPlot)這是?個(gè)對(duì)應(yīng)于?差分析(ANOVA)的EDA技術(shù)。它可以給予我們?差分析所沒有的直觀感受。它可以直觀地判斷?個(gè)因?是否有?。縱坐標(biāo):變量Y的值(平均失敗每?時(shí))橫坐標(biāo):所有次要因?的?平的組合(在這?是plantspeedshift這3個(gè)因?共有種組合)圖中的1,2表?主要因?(weldmethod)取1和取2時(shí)對(duì)Y的不同影響。從圖中我們可以看到,顯然不管次要因?的取值如何,weldmethod取2時(shí),?部分時(shí)間都?取1更有效。從?證明了,我們這個(gè)weldmethod因?是?個(gè)?常泛化和穩(wěn)定的特征。我們也可以從圖中看到次要因?的哪?個(gè)組合是最有效的。畫圖代碼:library(dplyr)avg<-df%>%group_by(lab,batch)%>%summarise(x=mean(y))##Generatetheblockplot.boxplot(avg$x~avg$lab,medlty="blank",ylab="CeramicStrength",xlab="Laboratory",main="BatchMeansforEachLaboratory")##Addlabelsforthebatchmeans.text(avg$lab[avg$batch==1],avg$x[avg$batch==1],labels=avg$batch[avg$batch==1],pos=1)text(avg$lab[avg$batch==2],avg$x[avg$batch==2],labels=avg$batch[avg$batch==2],pos=3)4.BootstrapPlot縱坐標(biāo):有放回抽樣的樣本計(jì)算出來的統(tǒng)計(jì)量橫坐標(biāo):抽樣的次數(shù)BootstrapPlot就是簡(jiǎn)單地把每次抽樣,從?計(jì)算得到的統(tǒng)計(jì)量畫出來這圖是500次隨機(jī)抽樣,計(jì)算均值的Bootstrap圖,可以看到均值集中在650左右,同時(shí)也可以計(jì)算出均值所在的90%置信區(qū)間是[644.7045,655.5157]要注意的是bootstrap并不適?于所有的分布和統(tǒng)計(jì)量。例如,由于均勻分布的形狀,bootstrap不適于估計(jì)嚴(yán)重依賴于尾部的統(tǒng)計(jì)的分布,例如取值范圍。library(boot)##BootstrapandCIformean.disavectorofintegerindexesset.seed(0)samplemean<-function(x,d){return(mean(x[d]))}b1=boot(y,samplemean,R=500)z1=boot.ci(b1,conf=0.9,type="basic")meanci=paste("90%CI:","(",round(z1$basic[4],4),",",round(z1$basic[5],4),")",sep="")##Generatebootstrapplot.par(mfrow=c(1,2))plot(b1$t,type="l",ylab="Mean",main=meanci)hist(b1$t,main="BootstrapMean",xlab="Mean")5.Box-CoxLinearityPlotbox-cox變換:它可以?來消除偏斜和其他分布特征,使得能夠?qū)?shù)據(jù)向正態(tài)分布靠攏。這樣做的?的是因?yàn)?部分模型或檢驗(yàn)都需要對(duì)變量的分布做正態(tài)性假設(shè),如果變量不滿?正態(tài)分布,那么就有可能導(dǎo)致模型不準(zhǔn)確,那么做?個(gè)box-cox變換或許是?個(gè)不錯(cuò)的選擇。這?個(gè)圖可以回答這兩個(gè)問題box-cox變換是否對(duì)擬合效果有提升?box-cox變換最合適的參數(shù)是什么?當(dāng)然,對(duì)于boxcox的參數(shù)選擇,我們可以選擇?個(gè)使得數(shù)據(jù)變換后的正態(tài)性最強(qiáng)來進(jìn)?選擇。以下是通過對(duì)Y回歸,然后計(jì)算不同下回歸后的正態(tài)性,如果擬合的Y值越滿?正態(tài)分布則認(rèn)為該的取值越好(這是因?yàn)榫€性模型是假設(shè)噪聲服從正態(tài)分布的)library(MASS)boxcox(Volume~log(Height)+log(Girth),data=trees,lambda=seq(-0.25,0.25,length=10)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論