統(tǒng)計分析系統(tǒng)SAS應用_第1頁
統(tǒng)計分析系統(tǒng)SAS應用_第2頁
統(tǒng)計分析系統(tǒng)SAS應用_第3頁
統(tǒng)計分析系統(tǒng)SAS應用_第4頁
統(tǒng)計分析系統(tǒng)SAS應用_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、統(tǒng)計分析系統(tǒng)SAS應用7、相關和回歸分析概述在科學研究和生產實踐中,經常需要進行兩類變量之間關系的分析。例如作物產量和種植密度、害蟲的發(fā)生量和氣象因子、動物的體重和生長天數(shù)等,這些變量之間的關系分析即相關和回歸分析。相關和回歸分析是生物學研究中最為常用的統(tǒng)計分析方法之一。7、相關和回歸分析相關和回歸分析基本概念在多元統(tǒng)計分析中相關和回歸兩個概念密不可分,兩者在統(tǒng)計學中的應用都很廣泛。相關分析(Correlation Analysis)是用來考察兩個變量間(x與y)的相互變化的關聯(lián)關系,x與y的地位是平等的,兩變量間沒有因果關系。回歸分析(Regression Analysis)是研究一個或多個

2、依變量與另一些自變量關系的統(tǒng)計方法。主要思想是用最小二乘法擬合依變量與自變量的回歸模型,從而把具有不確定關系的若干變量轉化為有確定關系的方程模型來近似的分析,通過自變量的變化預測依變量的變化趨勢。7.1 概述相關分析計算反映各個變量之間相關密切程度和性質的統(tǒng)計數(shù)?;貧w關系一般用反映依變量和自變量之間數(shù)量關系的回歸方程表示,求解方法通常采用最小二乘法。回歸分析依自變量個數(shù)的多少分為一元回歸和多元回歸;依依變量和自變量之間關系的性質分為線性回歸和非線性回歸。線性相關和回歸分析的SAS過程主要有相關分析(CORR)、回歸分析(REG)和廣義線性模型(GLM)。7.2 常用過程的實現(xiàn)方法1、CORR過

3、程過程格式PROC CORR 選項;VAR 變量表;WITH 變量表;PARTIAL 變量;1、CORR過程語句說明除了PROC語句為必需,其他語句都是可選的,如果省略所有的可選語句,則對所有變量作相關分析。 默認情況下,CORR過程所進行的相關分析將給出分析變量的描述性統(tǒng)計結果、Pearson相關系數(shù)以及每個分析變量所對應的概率值。PROC CORR語句選項設定相關系數(shù),例如Pearson,Spearman等,缺省為Pearson相關系數(shù)。VAR語句指明分析的變量。1、CORR過程語句說明with語句設定放在左邊的變量此時var語句的變量間和with語句的變量間的相關系數(shù)不給出,只輸出兩組變

4、量間的相關系數(shù)。With語句缺省時,將計算var語句的變量之間的兩兩相關系數(shù)。PARTIAL語句指明偏相關變量。設定partial變量時進行偏相關分析。相關分析結果輸出包括簡單統(tǒng)計數(shù)和相關系數(shù)及顯著性。Corr過程兩個變量之間相關分析的實例2、REG過程REG過程是一個通用的回歸過程。它采用最小二乘法擬合線性回歸模型。它還提供多種選擇最優(yōu)線性回歸方程的方法,是一個應用最廣泛的回歸過程。過程格式Proc reg 選項;Model 依變量自變量/選項;Weight 變量;Print 選項;Plot y軸變量*x軸變量;2、REG過程語句選項Proc reg語句Data輸入數(shù)據(jù)集Outsscp輸出數(shù)

5、據(jù)集,存儲平方乘積和矩陣Outest輸出數(shù)據(jù)集,存儲參數(shù)估計值等。Simple 給出簡單統(tǒng)計數(shù)Corr 給出簡單相關系數(shù)2、REG過程語句選項Model語句設定線性數(shù)學模型等,Selection模型選擇方法包括none(全模型)、stepwise(逐步回歸)、forward(逐個選入)、backward(逐個剔除)等。Weight語句指定加權系數(shù)變量Plot語句制作散點圖3、GLM過程過程格式Proc glm 選項;Model 依變量自變量/選項;Run;3、GLM過程語句說明Proc glm語句設定分析所用的數(shù)據(jù)集和數(shù)據(jù)顯示方式。Model語句定義模型和需要輸出的統(tǒng)計數(shù)回歸分析模型一般有以下

6、形式Model y=x; 一元線性回歸模型。Model y=x1 x2 x3; 三元線性回歸模型。Model y=x1 x2 x1*x2 x1*x1 x2*x2; 二元多項式回歸模型。應用舉例7.3 多元線性回歸REG過程不僅可以完成只有一個自變量的簡單直線回歸,還可以作含有多個自變量的多元線性回歸。作多元線性回歸時REG過程的語法格式與簡單直線回歸的語法幾乎完全相同,只要把要分析的多個自變量名放在MODEL語句中應變量后即可。因為多元線性回歸時一般要作自變量的篩選,涉及到MODEL語句的選項。7.3 多元線性回歸語法選項SELECTION=method,規(guī)定變量篩選的方法,method可以是

7、以下幾種選項 FORWARD(或F),前進法,按照SLE規(guī)定的P值從無到有依次選一個變量進入模型; BACKWARD(或B),后退法,按照SLS規(guī)定的P值從含有全部變量的模型開始,依次剔除一個變量;STEPWISE(或S),逐步法,按照SLE的標準依次選入變量,同時對模型中現(xiàn)有的變量按SLS的標準剔除不顯著的變量;NONE,即不選擇任何選項,不作任何變量篩選,此時使用的是含有全部自變量的全回歸模型。7.3 多元線性回歸語法選項SELECTION=method,規(guī)定變量篩選的方法,method可以是以下幾種選項 SLE=概率值,入選標準,規(guī)定變量入選模型的顯著性水平,前進法的默認是0.5,逐步法

8、是0.15 SLS=概率值,剔除標準,指定變量保留在模型的顯著水平,后退法默認為0.10,逐步法是0.15 標準化偏回歸系數(shù) STB 可用來比較各個自變量作用的大小 應用實例7.4 非線性回歸分析7.4 非線性回歸分析對于呈非線性關系的數(shù)據(jù),有時通過適當?shù)淖兞哭D換,即可化為線性回歸方程利用REG過程求解。在SAS系統(tǒng)中,更為一般的方法是利用非線性回歸過程(NLIN)直接進行非線性最小二乘擬合。7.4.1 NLIN過程過程格式Proc nlin 選項;Model 依變量模型表達式;Parms 參數(shù)初值;Der.參數(shù)偏導表達式;Run;7.4.1 NLIN過程語句說明PROC NLIN語句選項Da

9、ta分析數(shù)據(jù)集Method循環(huán)迭代方法包括GAUSS(高斯牛頓法),MARQUARDT(麥夸特法),NEWTON(牛頓法),GRADIENT(梯度法)和DUD(試位法)等。MODEL語句定義非線性回歸模型,直接給出非線性回歸方程的表達式。例如Logistic方程可以寫作:y=k/(1+a*exp(-b*x))7.4.1 NLIN過程語句說明PARMS語句設定參數(shù)初始值。初始值的設定有時會對計算結果產生較大影響。當?shù)荒苁諗繒r,可以嘗試使用不同的初始值重新計算。DER語句給出非線性回歸方程對參數(shù)的一階或二階偏導。應用實例8. 聚類分析聚類分析(Cluster Analysis)是研究物以類聚的

10、一種統(tǒng)計分析方法。用于對事物類別尚不清楚,甚至事物總共可能有幾類都不能確定的情況下進行事物分類的場合。一般依樣本間的距離或相似系數(shù)進行。聚類方法有很多,常用的有系統(tǒng)聚類法(Hierarchical Cluster)和動態(tài)聚類法(Disjoint Cluster)。8.聚類分析系統(tǒng)聚類法按照樣本距離定義類間距離,將n個樣本各自看成一類,對兩類距離最小的樣本合并,重新計算類間距離。如此反復進行,直到所有樣本合并成為一類。最后結果用聚類系譜圖反映。動態(tài)聚類法基于上限-中心點-重心的原理,首先將n個樣本初步分成g類,作為聚類個數(shù)的“上限”,從中確定其“中心點”,用作迭代的起點,然后每考察一個樣本觀察值

11、,就把它移到最靠近的類,并算出每一類的“重心”,再考察一個觀察點移動到另一類。若能減少樣本對于各自中心的離差之和,則把此兩類的中心同時移到新的重心,并以重新計算重心取代原來的重心,如此反復迭代,直到再也無法降低樣本與重心離差之和為止,移動終止,分成g類。8. 聚類分析SAS軟件主要有以下4個聚類過程:CLUSTERFASTCLUSVARCLUSTREE8.1 CLUSTER過程過程格式PROC CLUSTER 選項;VAR 變量表;COPY 變量表;RUN;8.1 CLUSTER過程語法格式PROC CLUSTER選項DATA=數(shù)據(jù)數(shù)據(jù)集OUTTREE=輸出數(shù)據(jù)集,供TREE過程調用METHO

12、D=算法主要算法包括:WARD(離差平方和法),AVERAGE(類平均法),CENTROID(重心法),COMPLETE(最長距離法),SINGLE(最短距離法),MEDIAN(中間距離法),DENSITY(密度法),F(xiàn)LEXIBLE(可變距離法),TWOSTAGE(兩段連鎖密度法)8.1 CLUSTER過程語法格式VAR語句此語句列出在聚類分析中所使用的數(shù)值型變量。缺省時使用全部變量。COPY語句指明從輸入數(shù)據(jù)集中拷貝一些變量到輸出數(shù)據(jù)集中。8.2 TREE過程本過程利用CLUSTER過程和VARCLUSTER過程生成的數(shù)據(jù)集繪制樹狀結構圖。過程格式PROC TREE 選項;RUN;語句說明PROC TREE選項DATA=輸入數(shù)據(jù)集OUT=輸出數(shù)據(jù)集Horizontal 規(guī)定樹的高度為水平方向,根在左側,如缺省,則高度軸為垂直方向,根在上部。8.3 FASTCLUS過程FASTCLUS過程叫動態(tài)聚類過程,也叫快速聚類。它是在一個變量或幾個變量的歐式距離基礎上對數(shù)據(jù)進行分類,這些類之間互

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論