數(shù)據(jù)描述性分析與繪.ppt_第1頁
數(shù)據(jù)描述性分析與繪.ppt_第2頁
數(shù)據(jù)描述性分析與繪.ppt_第3頁
數(shù)據(jù)描述性分析與繪.ppt_第4頁
數(shù)據(jù)描述性分析與繪.ppt_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計描述與繪圖,1、統(tǒng)計描述 2、繪圖方法 3、實驗練習(xí),授課內(nèi)容,授課目的,學(xué)習(xí)如何應(yīng)用R軟件的統(tǒng)計描述與繪圖,R的統(tǒng)計分析分為統(tǒng)計描述和統(tǒng)計推斷兩部分。統(tǒng)計描述是通過繪制統(tǒng)計圖形、編制統(tǒng)計表、計算統(tǒng)計量等方法來表述數(shù)據(jù)的分布特征。 描述統(tǒng)計量包括了均值、中位數(shù)、次序統(tǒng)計量、百分?jǐn)?shù)、方差、標(biāo)準(zhǔn)差、變異系數(shù)、極差、偏度系數(shù)等,是數(shù)據(jù)的位置度量、分散程度和分布形狀的體現(xiàn)。 還包括分布函數(shù)、直方圖、經(jīng)驗分布圖、QQ圖、莖葉圖、箱線圖等等,均值(mean)的基本用法是 mean(x, trim=0, na.rm=FALSE); 其中x是要計算均值的那個量,trim是計算均值前,去掉x兩端觀測值的比例

2、,na.rm如果是TRUE,則表示刪除NA再計算均值,允許缺失數(shù)據(jù)。 x x mean(x) 1 6.5,若要分別求矩陣的行和列,則要用apply()函數(shù) apply(x, 1, mean) 1 5.5 6.5 7.5 apply(x, 2, mean) 1 2 5 8 11 若x是個date frame, 則返回的是各列的平均值 mean(as.data.frame(x) V1 V2 V3 V4 2 5 8 11 因此多元數(shù)據(jù)的輸入采用數(shù)據(jù)框的形式,會便于后期數(shù)據(jù)的處理,w w.mean w.na mean(w.na); NA w.na.mean-mean(w.na, na.rm=TRUE)

3、; 1 62.36,若要計算數(shù)據(jù)的加權(quán)平均,可以用weighted.mean()函數(shù),其基本格式為: weighted.mean(x, w, na.rm=FALSE) 其中w是數(shù)據(jù)x的權(quán)重系數(shù),其維數(shù)與x相同,基本用法與mean()相同,唯一有區(qū)別的地方是: weighted.mean()不適用于數(shù)據(jù)框,它作用在數(shù)據(jù)框的時候,和作用于矩陣的時候,結(jié)果是一樣的,返回全部數(shù)據(jù)的加權(quán)平均,百分?jǐn)?shù),將數(shù)據(jù)按從小到大的順序排列后,取p分位數(shù),若np是整數(shù),則取第np和第np加一個數(shù)的平均;若np不是整數(shù),取第np+1那個數(shù)。 計算百分?jǐn)?shù)要用到的函數(shù)是quantile(),基本格式為: quantile(

4、x, probs=seq(0,1,0.25), na.rm=FALSE, names=TRUE, type=7, ) probs給出相應(yīng)的百分位數(shù),默認(rèn)值是0,0.25,0.5,0.75,1;na.rm是處理缺失數(shù)據(jù)的,na.rm=TRUE時,NA和NaN將從數(shù)據(jù)中移走,向量取值中若有NA或NaN,要添加這一參數(shù),否則會出錯;names若為TRUE,返回值當(dāng)中有names這個屬性; type是取值1-9的整數(shù),選擇了九種分位數(shù)算法(具體算法見幫助文件)中的一種,w.quantile attributes(w.quantile) $names 1 0% 25% 50% 75% 100% quan

5、tile(w, probs=seq(0,1, 0.2) 0% 20% 40% 60% 80% 100% 47.4 56.98 62.20 64.00 67.32 75.00,數(shù)據(jù)的分布,數(shù)據(jù)的分布主要考察分布函數(shù)(p), 密度函數(shù)(d), 分位數(shù)函數(shù)(q)及產(chǎn)生隨機數(shù)(r). 以正態(tài)分布為例: data dnorm(data, mean=0, sd=1, log=F); pnorm(data, mean=0, sd=1, lower.tail=T, log.p=F); p qnorm(p, mean=0, sd=1, lower.tail=T, log.p=F); 1 1.959964 1.6

6、44854 # 0.05/2, 0.1/2分位數(shù),直方圖、經(jīng)驗分布圖與QQ圖,cl-read.table(chapter4-cl.txt, header=T); 用hist()函數(shù)可以繪制直方圖。 hist的一般用法為: hist(x, breaks=Sturges, freq=NULL, probability=!freq, ) break規(guī)定了直方圖的組距(必須覆蓋數(shù)據(jù)的范圍);freq是邏輯變量,TRUE是頻率直方圖,F(xiàn)ALSE是密度直方圖;probability和freq相反,TRUE是密度直方圖,F(xiàn)ALSE是頻率直方圖。其他參數(shù)詳見幫助文檔,hist(cl$Weight,用densi

7、ty()函數(shù)可以繪制與直方圖配套的核密度估計。 density的一般用法為: density(x, bw=nrd0, adjust=1, kernel=c(gaussian, ), ) bw是帶寬,默認(rèn)值R畫出光滑圖形;kernel是核函數(shù);adjust表示實際帶寬是adjust*bw。其他參數(shù)詳見幫助文檔。 w hist(w, freq=F); w.density - density(w); w.density Call: density.default(x = w) Data: w (15 obs.); Bandwidth bw = 3.478 x y Min. :36.97 Min. :

8、9.044e-05 1st Qu.:49.08 1st Qu.:4.402e-03 Median :61.20 Median :1.603e-02 Mean :61.20 Mean :2.061e-02 3rd Qu.:73.32 3rd Qu.:3.409e-02 Max. :85.43 Max. :5.518e-02,lines(w.density, col=blue); xlines(x, dnorm(x, mean(w), sd(w), col=red,經(jīng)驗分布函數(shù)ecdf()可以估計總體的分布函數(shù),一般用法為: ecdf(x) 若要在R中畫出經(jīng)驗分布函數(shù),則用plot函數(shù): plot

9、(ecdf(x), ylab=Fn(x), verticals=FALSE, col.01line=gray70) verticals是邏輯變量,TRUE時表示畫豎線,否則不畫豎線;col.01line是0-1線的顏色。 plot(ecdf(w), verticals=T, do.p=F); x lines(x, pnorm(x, mean(w), sd(w,不畫左連續(xù)點,QQ圖是用來鑒別樣本的分布是否近似于某種類型的分布 qqnorm()和qqline()提供了畫正態(tài)QQ圖和相應(yīng)直線的方法 qqnorm(y, ylim, xlab= , ylab= , plot.it=TRUE, datax

10、=FALSE) plot.it是邏輯變量,TRUE時將結(jié)果畫出來;datax是將樣本數(shù)據(jù)放x軸,默認(rèn)值是FALSE。 qqplot(x, y, plot.it=TRUE); 比較x和y的分布接近程度,qqnorm(w);qqline(w, col=red,莖葉圖、箱線圖,莖葉圖stem()可以細(xì)致地看出數(shù)據(jù)分布的結(jié)構(gòu)。 stem()的一般用法為: stem(x, scale=1, width=80) scale控制了莖葉圖的長度,默認(rèn)值是1,如果scale=2,則表示將0-9這10個個位數(shù)分成兩段,04為一段,59為一段;width是繪圖的寬度,x stem(x); The decimal p

11、oint is 1 digit(s) to the right of the | 2 | 5 3 | 4 | 5 5 | 045 6 | 148 7 | 25589 8 | 134445667999 9 | 0112 10 | 0,stem(x, scale=2) The decimal point is 1 digit(s) to the right of the | 2 | 5 3 | 3 | 4 | 4 | 5 5 | 04 5 | 5 6 | 14 6 | 8 7 | 2 7 | 5589 8 | 13444 8 | 5667999 9 | 0112 9 | 10 | 0,stem(x

12、, scale=0.5); # scale也可以是小數(shù),等于0.5時,表示將0-9這10個個位數(shù)分成1/2段,即20個數(shù)為一段 The decimal point is 1 digit(s) to the right of the | 2 | 5 4 | 5045 6 | 14825589 8 | 1344456679990112 10 | 0,箱線圖boxplot()直觀地展現(xiàn)數(shù)據(jù)分布的主要特征。 boxplot()有三種基本的用法: boxplot(x, ) boxplot(x, , range=1.5, width, varwidth, notch=FALSE, outline=TRUE

13、, , horizontal=FALSE, add=FALSE, at=NULL) boxplot(formula, data, , subset, na.action=NULL); x是數(shù)據(jù)構(gòu)成的數(shù)值型向量;range控制了“觸須”的范圍(默認(rèn)值1.5);notch=TRUE時,箱線圖帶有切口(切口表示中位數(shù)的近似95%置信區(qū)間); outline是邏輯變量,TRUE時標(biāo)出異常點;horizontal是邏輯變量,TRUE表示把箱線圖繪制成水平狀(默認(rèn)值為FALSE); add是邏輯變量,TRUE時表示在原圖上畫圖,否則替換一張圖(默認(rèn)值為FALSE)。 若用最后一種形式,fomular是公式

14、;data給出了公式作用的對象;subset是可選參數(shù),可以給定要繪制的數(shù)據(jù)子集;na.action表示對NA數(shù)據(jù)作出處理,默認(rèn)值為NULL,即忽略NA數(shù)據(jù),A B boxplot(A, B, names=c(A, B), col=c(red, blue); boxplot(A, B, notch=T, outline=T, names=c(A, B), col=c(3,5,InsectSprays; boxplot(countspray, data=InsectSprays, col=lightgray) boxplot(countspray, data=InsectSprays, notc

15、h=T, col=2:7, add=T,boxplot(decrease treatment, data = OrchardSprays, log = y, col = bisque,R中的繪圖命令高級圖形函數(shù),R的圖形函數(shù)分為兩類: 高級圖形函數(shù)直接繪制圖形并可自動生成坐標(biāo)軸等附屬圖形元素; 低級圖形函數(shù)可以修改已有的圖形或者為繪圖規(guī)定一些選擇項。 高級圖形函數(shù)總是開始一個新圖。下面我們介紹常用的高級圖形函數(shù),以及用來修飾這些高級圖形函數(shù)的常用可選參數(shù),最常用的是plot()函數(shù)。比如, plot(x,y)(其中x,y是向量)對兩個變量畫散點圖。 用plot(z) (其中z是一個定義了x變量

16、和y變量的列表,或者一個兩列的矩陣)也可以達到同樣目的。 如果x是一個時間序列對象(時間序列對象用ts()函數(shù)生成),plot(x)繪制時間序列曲線圖。 如果x是一個普通向量,則繪制x的值對其下標(biāo)的散點圖。 如果x是復(fù)數(shù)向量則繪制虛部對實部的散點圖。 如果f是一個因子,則plot(f)繪制f的條形圖(每個因子水平的個數(shù))。 如果f是因子,y是同長度的數(shù)值向量,則plot(f,y)對f的每一因子水平繪制y中相應(yīng)數(shù)值的盒形圖。 如果d是一個數(shù)據(jù)框,則plot(d)對d的每兩個變量之間作圖(散點圖等,如果X是一個數(shù)值型矩陣或數(shù)據(jù)框,用pairs(X)可以繪制每兩列之間的散點圖矩陣。這在變量個數(shù)不太多

17、時可以同時看到多個變量的兩兩關(guān)系,變量太多時則圖示過小而看不清。 協(xié)同圖(coplot)是一種多變量的探索性分析圖形。其形式為coplot(y x | z),其中x 和y是數(shù)值型向量,z是同長度的因子。對z的每一水平,繪制相應(yīng)組的x和y的散點圖,pairs(cl,coplot(Weight Height | Sex,高級圖形函數(shù)的常用選項,高級圖形函數(shù)有一些共同的選項,作為函數(shù)的可選參數(shù)(自變量)。例如: plot(x) plot(x, main=Graph of x) 其中的main就是一個可選參數(shù),用來指定圖形的標(biāo)題。沒有此選項時圖形就沒有標(biāo)題。這樣的選項還有,低級圖形函數(shù),高級圖形函數(shù)可

18、以迅速簡便地繪制常見類型的圖形,但是,某些情況下你可能希望繪制一些有特殊要求的圖形。比如,你希望坐標(biāo)軸按照自己的設(shè)計繪制,在已有的圖上增加另一組數(shù)據(jù),在圖中加入一行文本注釋,繪出多個曲線代表的數(shù)據(jù)的標(biāo)簽,等等。 低級圖形函數(shù)讓你在已有的圖的基礎(chǔ)上進行添加。 低級圖形函數(shù)一般需要指定位置信息,其中的坐標(biāo)指的是所謂用戶坐標(biāo),即前面的高級圖形函數(shù)所建立的坐標(biāo)系中的坐標(biāo)。坐標(biāo)可以用兩個向量x和y給出,也可以由一個兩列的矩陣給出。如果交互作圖可以用下面介紹的locator()函數(shù)來交互地從圖形中直接輸入坐標(biāo)位置。 常用的低級圖形函數(shù)羅列如下,圖形參數(shù)詳解,鑒于繪制有特殊需要的圖形是R的一個強項,而使用圖

19、形參數(shù)是完成此類任務(wù)的重要手段,我們在這里較詳細(xì)地介紹R的各種圖形參數(shù)。這些圖形參數(shù)可以大體上分為以下的幾個大類,我們將分別介紹: 圖形元素控制 坐標(biāo)軸與坐標(biāo)刻度 圖形邊空 一頁多圖,一、圖形元素,圖形由點、線、文本、多邊形等元素構(gòu)成。下列的圖形參數(shù)用來控制圖形元素的繪制細(xì)節(jié),plot(c(0, 100), c(0, 100), type=n, axes=F, xlab=, ylab=) legend(10,90, as.character(0:9), pch=0:9) legend(50,90, as.character(10:18), pch=10:18,二、坐標(biāo)軸與坐標(biāo)刻度,許多高級圖形

20、帶有坐標(biāo)軸,還可以先不畫坐標(biāo)軸然后用axis()單獨加。 函數(shù)box()用來畫坐標(biāo)區(qū)域四周的框線。 坐標(biāo)軸包括三個部件:軸線(用lty可以控制線型),刻度線,刻度標(biāo)簽。它們可以用如下的圖形參數(shù)來控制,三、圖形邊空,R中一個單獨的圖由繪圖區(qū)域(繪圖的點、線等畫在這個區(qū)域中)和包圍繪圖區(qū)域的邊空組成,邊空中可以包含坐標(biāo)軸標(biāo)簽、坐標(biāo)軸刻度標(biāo)簽、標(biāo)題、小標(biāo)題等,繪圖區(qū)域一般被坐標(biāo)軸包圍。 R缺省的圖形邊空常常太大,以至于有時圖形窗口較小時邊空占了整個圖形的很大一部分。 par()函數(shù)用來訪問或修改當(dāng)前圖形設(shè)備的圖形參數(shù)。 邊空的大小由mai參數(shù)或mar參數(shù)控制,它們都是四個元素的向量,分別規(guī)定下方、左

21、方、上方、右方的邊空大小,其中mai取值的單位是英寸,而mar的取值單位是文本行高度。例如: par(mai=c(1, 0.5, 0.5, 0) par(mar=c(4, 2, 2, 1,四、一頁多圖,R可以在同一頁面開若干個按行、列排列的窗格,在每個窗格中可以作一幅圖。 每個圖有自己的邊空,而所有圖的外面可以包一個“外邊空”。 一頁多圖用mfrow參數(shù)或mfcol參數(shù)規(guī)定,如,par(mfrow=c(3,2) 表示同一頁有三行兩列共六個圖,而且次序為按行填放。類似地, par(mfcol=c(3,2) 規(guī)定相同的窗格結(jié)構(gòu),但是次序為按列填放,即先填滿第一列的三個再填第二列。 要取消一頁多圖只

22、要再運行 par(mfrow=c(1,1)即可。 缺省時無外邊空。為了規(guī)定外邊空大小,可以用omi參數(shù)或oma參數(shù)。omi參數(shù)使用英寸為單位,oma參數(shù)以文本行高為單位,兩個參數(shù)均為四個元素的向量,分別給出下、左、上、右方的邊空大小。如: par(oma=c(2,0,3,0) 函數(shù)mtext用來在外邊空加文字標(biāo)注。其用法為 mtext(text, side = 3, line = 0, outer = FALSE,其中text為要加的文本內(nèi)容,side表示在哪一邊寫(1為下,2為左,3為上,4為右),line 表示邊空從里向外數(shù)的第幾行,最里面的一行是第0號,outer=TRUE時使用外邊空,否則會使用當(dāng)前圖的邊空。例如: par(mfrow=c(2,2), oma=c(0,0,3,0), mar=c(2,1,1,0.1) plot(Height) plot(Sex) boxplot(WeightSex) plot(Height,Weight) mtext(Simulation Data, outer=T, cex=1.5,在多圖環(huán)境中還可以用mfg參數(shù)來直接跳到某一個窗格,比如 par(mfg=c(2,2,3,2) 表示在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論