R的簡單介紹和線性回歸ppt課件_第1頁
R的簡單介紹和線性回歸ppt課件_第2頁
R的簡單介紹和線性回歸ppt課件_第3頁
R的簡單介紹和線性回歸ppt課件_第4頁
R的簡單介紹和線性回歸ppt課件_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、R學習的分享目錄一、R的介紹 1.R的特點 2.R的界面 3.R的使用注意事項二、R中數(shù)據(jù)創(chuàng)建 1.數(shù)據(jù)的輸入 1.1. 向量 1.1.1向量的賦值 1.1.2有序向量的賦值 1.2.矩陣的創(chuàng)建 1.3.數(shù)據(jù)框的創(chuàng)建 1.3.1表格輸入 1.3.2數(shù)據(jù)框的直接輸入 2.數(shù)據(jù)讀入目錄三、統(tǒng)計分析方法簡介3.1方差分析和多重比較 3.1.1方差分析和多重比較的命令調用3.2假設檢驗 3.2.1假設檢驗的命令調用3.3主成分和因子分析 3.3.1主成分和因子分析的命令調用3.4判別分析及命令3.5聚類分析 3.5.1聚類分析函數(shù)的命令調用3.6回歸分析 3.6.1回歸分析的詳細解釋 R R的介紹的介

2、紹 R是什么: R是一個有著統(tǒng)計分析功能及強大作圖功能的軟件系統(tǒng),是由奧克蘭大學統(tǒng)計學系的Ross Ihaka和Robert Gentleman共同創(chuàng)立,并受到貝爾實驗室s語言的影響。R的特點 1.免費性:R是一個免費的統(tǒng)計分析軟件; 2.運算能力強大:同Matlab一樣不需要編譯就可執(zhí)行代碼;3.幫助功能完善:可通過help命令可隨時了解R所提供的各類函數(shù)的使用方法或例子; 4.R有頂尖水準的制圖:在可視化方面,R的效果特別好,并能保存為各種形式的文件; 5.統(tǒng)計分析能力尤為突出:R內(nèi)嵌了許多統(tǒng)計分析函數(shù),一些中間結果既可保存到專門的文件,也可直接用于進一步的分析。 6.R的界面中文版的R界

3、面從后開始輸入數(shù)據(jù),代碼等R的使用注意事項R的命令對大小寫敏感,這在使用命令方式安裝和載入程序包時應特別注意。輸入R的命令中盡量使用英文字符,避免使用中文字符。同一行中可輸入多個命令,需用 ; 隔開,# 認為是注釋內(nèi)容,不予執(zhí)行。R中所有的函數(shù)后都帶圓括號賦值一般用 a a 1 1 2 3 4 5 b b1 one two three four five“ d d1 TRUE FALSE1.1.2有序向量的賦值 生成有序的向量可以使用seq命令, s1 s1 1 -5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.51

4、5 2.0 2.5 3.0 3.5 4.0 4.5 5.0還有其他的賦值向量的命令不再詳細舉例。1.2.矩陣創(chuàng)建創(chuàng)建一個矩陣:Mymatix cells rnames cnamesmymatrix mymatrix C1 C2R1 1 26R2 24 681.3.1表格輸入如果要輸入以下表格的數(shù)據(jù)可以使用矩陣,也可用數(shù)據(jù)框的形式 bloodtype jnbq cs xjt xjgs patientdata patientdata bloodtype jnbq cs xjt xjgs1 zc 8.90 12.00 34.71 44.002 lj 10.63 18.05 46.18 67.243

5、yc 19.84 30.55 73.06 116.82血壓狀態(tài)血壓狀態(tài) 冠狀動脈冠狀動脈機能不全機能不全猝死猝死心絞痛心絞痛心肌梗塞心肌梗塞正常正常8.91234.7144臨界臨界10.6318.0546.1867.24異常異常19.8430.5573.06116.821.3.2數(shù)據(jù)框的直接輸入同樣的,可以在R中新建數(shù)據(jù)框,直接輸入數(shù)據(jù)。命令格式如下:比如創(chuàng)建一個名為mydata的數(shù)據(jù)框,它含有三個變量,age(數(shù)值型)、gender字符型)、weight數(shù)值型)。命令為: mydata mydata-edit(mydata)2.數(shù)據(jù)讀入R可以讀取多種形式的形式。 以導入csv,xls,txt

6、為例:mydataframemydataframe library(RODBC) channel mydataframe odbcClose(channel)txt讀?。?mydata choose.dir()或者 file.choose()直接從彈出的對話框中了來查找文件。三、統(tǒng)計分析方法簡介統(tǒng)計分析方法:統(tǒng)計分析方法:常用的主要方法有:線性回歸,方差分常用的主要方法有:線性回歸,方差分析與多重比較,假設檢驗,主成分和析與多重比較,假設檢驗,主成分和因子分析,判別分析,聚類分析。因子分析,判別分析,聚類分析。3.1方差分析方差分析:用于分析分類型自變量與數(shù)值型自變量之間的關方差分析:用于分析

7、分類型自變量與數(shù)值型自變量之間的關系,即分析多各總體均值是否相等的方法。具體根據(jù)影響因素系,即分析多各總體均值是否相等的方法。具體根據(jù)影響因素的不同,可以分為單因素方差分析,雙因素方差分析的不同,可以分為單因素方差分析,雙因素方差分析例:某城市從例:某城市從4 4個排污口取水,進行某種處理后檢測大腸桿個排污口取水,進行某種處理后檢測大腸桿菌數(shù)量,單位面積內(nèi)菌落數(shù)如下表所示,請分析各個排污口的菌數(shù)量,單位面積內(nèi)菌落數(shù)如下表所示,請分析各個排污口的大腸桿菌數(shù)量是否有差別。大腸桿菌數(shù)量是否有差別。排污口屬于分類型自變量,大腸桿菌數(shù)量屬于數(shù)值型因變量。排污口屬于分類型自變量,大腸桿菌數(shù)量屬于數(shù)值型因變

8、量。 分析的問題是:不同排污口大腸桿菌的數(shù)量是否相等。分析的問題是:不同排污口大腸桿菌的數(shù)量是否相等。排污口排污口1 12 23 34 4大腸桿菌數(shù)量9,12,7,520,14,18,1212,7,6,1023,13,16,21方差分析代碼X-c(9,12,7,5,20,14,18,12,12,7,6,10,23,13,16,21)A-factor(rep(1:4,each=4)fcfx-data.frame(X,A)fcfxaov.fcfx-aov(XA,data=fcfx)summary(aov.fcfx)plot(fcfx$Xfcfx$A)pairwise.t.test(X,A,p.ad

9、just.method=holm)TukeyHSD(aov(XA,fcfx)3.1多重比較多重比較是在方差分析得到否定結論后,為確定是哪些組之間存在差異,兩兩之間進行的比較分析。假設上述問題經(jīng)分析得到的結果是四個排污口的大腸桿菌的數(shù)量是有差異的。那么具體是哪些排污口數(shù)量不同造成的,可進行多重比較。3.1.1方差分析與多重比較命令函數(shù)的調用格式:aov.miss-aov(formula,data=Null,projections=FALSE,qr=TRUE,contrast=NULL,)多重比較的T檢驗命令pairwise.t.test(x,g,p.adjust.method=p.adjust.

10、methods,poor.sd=TRUE,)x是影響變量構成的向量,g是分組向量因子)方差分析的對象數(shù)據(jù)框是否返回邏輯預測值是否返回QR分解因素對比合并方差調整p值3.2假設檢驗 假設檢驗是依據(jù)樣本去推測總體特征。假設檢驗是依據(jù)樣本去推測總體特征。 思想:是基于小概率事件在一次試驗中不思想:是基于小概率事件在一次試驗中不發(fā)生的原理。發(fā)生的原理。 某車間用一臺包裝機包裝精鹽某車間用一臺包裝機包裝精鹽, , 額定標額定標準每袋凈重準每袋凈重500g, 500g, 設包裝機包裝出的鹽每設包裝機包裝出的鹽每袋凈重袋凈重XNXN,22) 某天隨機地抽取某天隨機地抽取9 9袋袋, , 稱得凈重為稱得凈重為

11、490,506, 508, 502, 498, 490,506, 508, 502, 498, 511, 510, 515, 512. 511, 510, 515, 512. 問該包裝機工作是問該包裝機工作是否正常否正常? ? H0 H0:=500 H1=500 H1:500500 3.2.1假設檢驗命令調用z.test-function(x,n,sigma,alpha,u0=0,alternative=“two.sided”)類似的可以調用t.test,chisq.var.test檢驗3.3主成分和因子分析 主成分分析:將多個變量通過線性變換以選出較少個數(shù)重要變量,而又盡可能多的保留原始樣本

12、的信息。 因子分析:用少數(shù)幾個因子去描述許多指標或因素之間的聯(lián)系,即將相關比較密切的幾個變量歸在同一類中,每一類變量就成為一個因子,以較少的幾個因子反映原資料的大部分信息。3.3.1主成分分析隨機抽取30名某年級中學生,測量其身高(X1), 體重(X2), 胸圍(X3), 坐高(X4), 數(shù)據(jù)如下表所示, 試對這30名學生身體四項指標作主成分分析。 序號 X1 X2 X3 X4 序號 X1 X2 X3 X4 1 148 41 72 78 2 34 71 76 3 160 49 77 86 4 149 36 67 79 5 159 45 80 86 6 142 31 66 76 7 153 43

13、 76 83 8 150 43 77 79 9 151 42 77 80 10 31 68 74 11 140 29 64 74 12 161 47 78 84 通過對以上四項指標做主成分分析,可以構造由四個指標的線性組合組成的主成分,來解釋數(shù)據(jù)。本例中經(jīng)過主成分分析中可構造出一個反應學生魁梧成度的主成分y1和反應學生胖瘦的主成分y2。主成分分析代碼x-read.csv(student.csv)student.pr weight fhl womendataplot(fhlweight, type=b,col=red,xlab=體重,ylab=肺活量,xlim=c(40,50),ylim=c(0

14、,3.5) 通過圖形發(fā)現(xiàn),體重與肺活量之間有較強的線性關系。進一步做線性回歸分析: fit summary(fit)Call:lm(formula = fhl weight, data = womendata)Residuals: Min 1Q Median 3Q Max -0.30590 -0.16699 0.03269 0.12481 0.33128 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) -1.58154 1.27732 -1.238 0.2619 weight 0.09321 0.02741 3.401 0.0145 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 0.2421 on 6 degrees of freedomMultiple R-squared: 0.65

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論