第6章 相關(guān)分析回歸分析和聚類分析_第1頁
第6章 相關(guān)分析回歸分析和聚類分析_第2頁
第6章 相關(guān)分析回歸分析和聚類分析_第3頁
第6章 相關(guān)分析回歸分析和聚類分析_第4頁
第6章 相關(guān)分析回歸分析和聚類分析_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第6章相關(guān)分析,回歸分析和聚類分析

本章內(nèi)容第一節(jié)相關(guān)分析第二節(jié)回歸分析第三節(jié)聚類分析第一節(jié)相關(guān)分析

相關(guān)分析是一種描述變量之間的相關(guān)程度的分析方法。在相關(guān)分析中,所有變量都是隨機(jī)變量,它們之間并不存在被解釋變量和解釋變量之間的關(guān)系。相關(guān)分析有簡單相關(guān)和多元相關(guān)、線性相關(guān)和非線性相關(guān)之間的關(guān)系、正相關(guān)和負(fù)相關(guān)之分。什么是相關(guān)分析?相關(guān)系數(shù)r的取值范圍正相關(guān):0<r≤1負(fù)相關(guān):-1≤r<0完全相關(guān):|r|=1函數(shù)關(guān)系完全不相關(guān):|r|=0高度相關(guān):|r|≥0.8中度相關(guān):0.5≤|r|≤0.8不相關(guān):|r|≤0.3一、簡單相關(guān)分析總體相關(guān)系數(shù)Cov(x,y)表示隨機(jī)變量x與y的協(xié)方差Var(x)表示隨機(jī)變量x的方差Var(y)表示隨機(jī)變量y的方差總體相關(guān)系數(shù)滿足如下性質(zhì):|ρxy|≤1|ρxy|=1的充要條件是X和Y依概率線性相關(guān)??傮w相關(guān)系數(shù)ρxy一般是得不到的,我們只能根據(jù)樣本觀測值估計(jì)。樣本相關(guān)系數(shù)式中:Sxy是x,y的協(xié)方差

Sx是x的樣本方差

Sy是y的樣本方差相關(guān)系數(shù)的假設(shè)檢驗(yàn)對(duì)簡單相關(guān)系數(shù)的統(tǒng)計(jì)檢驗(yàn)是計(jì)算t統(tǒng)計(jì)量T統(tǒng)計(jì)量服從n-2個(gè)自由度的t分布例題1某機(jī)構(gòu)調(diào)查10個(gè)公司的年齡和年銷售額的統(tǒng)計(jì)數(shù)據(jù)。公司年齡X銷售額Y13252106035254635512606156579608220995510750步驟在“Analyze”菜單“Correlate”中選擇Bivariate命令;在Variable對(duì)話框中,選擇”年齡”和”銷售額”兩個(gè)變量;在CorrelationCoefficients框中選擇相關(guān)系數(shù)的類型,共有3中,本例選擇Person在TestofSignificance框中選擇Two-tailed檢驗(yàn)Flagsignificationscorrelations表示相關(guān)分析結(jié)果將不顯示統(tǒng)計(jì)檢驗(yàn)的相伴概率,而是以*號(hào)表示繪制散點(diǎn)圖在“Graphs”菜單中選擇scatter命令本例只想繪制年齡和銷售額的散布情況,因此選擇”Simple”打開“Difine”對(duì)話框,選擇X、Y軸單擊“OK”結(jié)果與討論相關(guān)系數(shù)為0.923,通過99%的可信度檢驗(yàn)二、多元相關(guān)分析相關(guān)分析的目的在于對(duì)若干變量之間的關(guān)聯(lián)程度進(jìn)行估計(jì)。一般都進(jìn)行多元線性相關(guān)分析,而很少考慮非線性的相關(guān)關(guān)系。這是因?yàn)楹笳呖梢赃M(jìn)行變量的轉(zhuǎn)換,最終將其歸到線性關(guān)系。多元線性回歸模型:公司銷售額Y年齡X2人數(shù)x312534260101432556435610560121666515177609138202295597105076多元相關(guān)系數(shù)多元相關(guān)系數(shù)是度量一個(gè)變量與其他所有變量相關(guān)程度的數(shù)量指標(biāo)。記為R。R定義為最小二乘估計(jì)值?與變量Y的觀測值的簡單相關(guān)系數(shù)。多元相關(guān)系數(shù)R式中:式中:R表示變量Y與變量x2,x3,…,xk的相關(guān)程度用多重相關(guān)系數(shù)多重相關(guān)系數(shù)的顯著性檢驗(yàn)構(gòu)造零假設(shè):H0:對(duì)立假設(shè):H1:假設(shè)檢驗(yàn)統(tǒng)計(jì)量為:偏相關(guān)系數(shù)在多元相關(guān)分析中,偏相關(guān)是指對(duì)兩個(gè)變量在其余變量保持不變的條件下的相關(guān)關(guān)系。例如:Y=β1+β2xi2+β3xi3+ui剔除x2的影響,求Y由其他變量所解釋的成分

Yi=d1+d2xi3+li剔除Y的影響,求x2由其他變量所解釋的成分

xi2=g1+g2xi3+hili,hi為殘差。求偏相關(guān)系數(shù)記Y與x3的偏相關(guān)系數(shù)為r12.3任意兩個(gè)變量i,j的偏相關(guān)系數(shù)為:結(jié)果與討論第二節(jié)回歸分析

回歸分析是通過一定的數(shù)學(xué)表達(dá)式描述變量之間的數(shù)量變化關(guān)系,并進(jìn)行預(yù)測?;貧w分析分為:一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計(jì)、時(shí)間序列的曲線估計(jì)等模型。

回歸分析和相關(guān)分析都是研究變量間關(guān)系的統(tǒng)計(jì)學(xué)課題。但兩者有所側(cè)重:在回歸分析中,變量Y成為因變量,自變量x可以是隨機(jī)變量;而在相關(guān)分析中,x,y都是隨機(jī)變量;回歸分析通過一定的數(shù)學(xué)表達(dá)式描述變量之間的數(shù)量變化關(guān)系,并進(jìn)行預(yù)測。一、一元線性回歸分析是在排除其他影響因素或假定其他影響因素確定的條件下,分析某一個(gè)因素(自變量)是如何影響另一事務(wù)(因變量)的過程。計(jì)算公式其中:X是自變量;y是因變量;β0是回歸常數(shù);β1是回歸系數(shù);ε是隨機(jī)擾動(dòng)項(xiàng)最小二乘法基本思想是使殘差e的平方:

e2=∑(y-?)2=最小假設(shè)檢驗(yàn)對(duì)于一元線性回歸方程:統(tǒng)計(jì)量F服從第一自由度為1,第二自由度為n-2的F分布例題年份糧食產(chǎn)量(萬噸)化肥(萬噸)播種面積(公頃)19882097.5291.9913943419892134.5333.6906369419902148.7386.2884238719912314.5502902339219922217.1541.5890401619932904.0610.8930769219942893.5661.5901401919952710.5662.7903500019962545.7677.5937642719972948.4637.4936000019982663.0724.59057823步驟在Analyze中選擇Regression中的Linear選擇自變量和因變量第三節(jié)聚類分析

(ClusterAnalysis)基本原理和方法系統(tǒng)聚類法K值聚類法一.原理和方法人們所研究的樣品或者指標(biāo)(變量)之間存在不同程度的相似性(親疏關(guān)系)。聚類分析是研究“物以類聚”的一種方法,有時(shí)稱為群分析、點(diǎn)群分析、簇類分析。分類問題是各個(gè)學(xué)科普遍存在的問題。如:市場營銷中細(xì)分市場、人口研究中生育分類模式,等等。案例樂購(Tesco)是英國最大,世界第三大零售商,樂購在客戶忠誠度方面領(lǐng)先同行.樂購在利用信息技術(shù)進(jìn)行數(shù)據(jù)挖掘、增強(qiáng)客戶忠誠度方面走在前列.樂購利用磁卡掃描技術(shù)和電子會(huì)員卡(存儲(chǔ)包括年齡、收入、職業(yè)和信用等級(jí)等屬性)結(jié)合起來分析會(huì)員的偏好和消費(fèi)模式樂購根據(jù)消費(fèi)者的偏好識(shí)別了6個(gè)細(xì)分群體;根據(jù)生活階段分出了8個(gè)細(xì)分群體;根據(jù)使用和購買周期劃分了11個(gè)細(xì)分群體;根據(jù)購買習(xí)慣和行為模式更是細(xì)分5000個(gè)群體。帶來的好處更有針對(duì)性的價(jià)格策略更有選擇性的采購計(jì)劃更個(gè)性化的促銷活動(dòng)更貼心的客戶活動(dòng)更可測的營銷活動(dòng)更有信服力的市場調(diào)查基本思想聚類分析就是采用定量數(shù)學(xué)方法,根據(jù)一批樣品的多個(gè)觀測指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類型的依據(jù)。把一些相似程度較大的樣品(指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣品又聚合為另一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的單位,直到把所有的樣品聚合完畢。聚類矩陣有N個(gè)對(duì)象,P個(gè)指標(biāo)。聚類分析就是依據(jù)這P個(gè)指標(biāo),對(duì)這n個(gè)對(duì)象進(jìn)行聚類變量(指標(biāo))的選擇變量(指標(biāo))并非越多越好。變量太多,難以判斷聚類結(jié)果的實(shí)際意義只要指標(biāo)之間有一定的相關(guān)關(guān)系(不必高度相關(guān)),就可以對(duì)所觀察的一群個(gè)體分類,從而對(duì)個(gè)體進(jìn)行進(jìn)一步的研究。如:可以根據(jù)消費(fèi)者偏好對(duì)產(chǎn)品進(jìn)行分類如果指標(biāo)過多,也可以對(duì)指標(biāo)分類,把有相近含義的指標(biāo)聚在一起,把整個(gè)指標(biāo)群分為若干類。聚類分析的類型樣本聚類:又稱Q型聚類,是對(duì)觀測量(case)進(jìn)行聚類。例如:在一堆古化石中找出,哪些是人骨?哪些是猿猴骨頭?變量聚類:又稱R型聚類,對(duì)觀測變量進(jìn)行聚類,能夠找出彼此獨(dú)立且具有代表性的自變量。聚類分析的步驟:選擇描述事物對(duì)象的變量(指標(biāo))。要求選取的變量既要能夠全面反映對(duì)象性質(zhì)的各個(gè)方面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論