應(yīng)用多元統(tǒng)計分析1_第1頁
應(yīng)用多元統(tǒng)計分析1_第2頁
應(yīng)用多元統(tǒng)計分析1_第3頁
應(yīng)用多元統(tǒng)計分析1_第4頁
應(yīng)用多元統(tǒng)計分析1_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

應(yīng)用多元統(tǒng)計分析

趙博娟編著

參考書目:《從數(shù)據(jù)到結(jié)論》,吳喜之編著,中國統(tǒng)計出版社BusinessStatistics:ADecision-makingApproach(D.F.Groebner&P.W.Shannon)《Applied

Multivariate

Statistical

Analysi》第6版,R.A.JohnsonandD.W.Wichern清華大學(xué)出版社,2008。《應(yīng)用多元統(tǒng)計分析》,高惠旋編著,北京大學(xué)出版社,2005。《多元統(tǒng)計分析》何曉群編著,中國人民大學(xué)出版社。

第一章數(shù)據(jù)收集和描述

第一節(jié)數(shù)據(jù)收集

第二節(jié)兩變量圖描述和量化分析

第三節(jié)多變量圖描述

第四節(jié)上機實現(xiàn)

第一節(jié)數(shù)據(jù)收集

1.1.1一手和二手?jǐn)?shù)據(jù)

一手?jǐn)?shù)據(jù)(primarydata,也叫原始數(shù)據(jù))是一些組織或個人為了某些特定的應(yīng)用或研究目的,必須自己來收集的數(shù)據(jù).二手?jǐn)?shù)據(jù)(secondary

data)是其他人收集的(對于他們來說是一手?jǐn)?shù)據(jù)),而你僅僅用它來進(jìn)行分析或進(jìn)行數(shù)據(jù)挖掘,該數(shù)據(jù)對你來說則是二手?jǐn)?shù)據(jù).常見的二手?jǐn)?shù)據(jù)包括從期刊和網(wǎng)絡(luò)上找到的,由政府、機構(gòu)、公司、組織專門收集和維護(hù)的數(shù)據(jù),比如:外匯牌價、房價、人口抽樣調(diào)查結(jié)果等數(shù)據(jù)在開展一手?jǐn)?shù)據(jù)收集前,要先調(diào)研一下是否已經(jīng)有相應(yīng)的二手?jǐn)?shù)據(jù)存在.而在使用二手?jǐn)?shù)據(jù)的過程中,要了解數(shù)據(jù)的來源及其真實和可靠程度,是否符合研究目的,以便恰當(dāng)?shù)剡M(jìn)行分析并解釋結(jié)果.試驗數(shù)據(jù)和觀測數(shù)據(jù)

試驗數(shù)據(jù)(experimental

data)中的自變量取值是可以人為改變的.比如,通過調(diào)節(jié)冶煉金屬的時間、溫度和原料配比,尋找最佳組合條件,以煉成滿足某些性能指標(biāo)的金屬材料;這類數(shù)據(jù)便于分析因果關(guān)系.實踐中,我們遇到的絕大部分二手?jǐn)?shù)據(jù)都是觀測數(shù)據(jù)(observational

data).如跟蹤觀測研究吸煙與罹患癌癥的關(guān)系等.這類數(shù)據(jù)的自變量不能隨意調(diào)節(jié),我們不能在身體健康狀況完全類似的人中隨機抽樣,強迫一部分人吸煙而另一部分不吸,之后觀測他們將來是否罹患癌癥.

第一節(jié)數(shù)據(jù)收集

1.1.2數(shù)據(jù)的度量級別和類型

名義數(shù)據(jù)(nominaldata),也叫定性數(shù)據(jù)或分類數(shù)據(jù)(categoricaldata),是最低級形式的數(shù)據(jù),我們可以對數(shù)據(jù)取值任意編號.如對婚姻狀態(tài),可以用1~4或M,S,D和O分別標(biāo)記,即是M(已婚),S(未婚),D(離婚)和O(其他)有序數(shù)據(jù)(ordinal

data)-比名義數(shù)據(jù)高一級別,數(shù)據(jù)的類別是有序的.如健康狀態(tài):1(非常健康),2(健康),3(一般),4(不健康)和5(非常不健康).

級別--從低到高包括:

區(qū)間數(shù)據(jù)(intervaldata)是有序的,而且任意兩點的距離是可以精確度量出來的.如華氏(Fahrenheit)和攝氏(Celsius)溫度.比率數(shù)據(jù)(ratiodata)有真正有意義的零點,度量級別最高.如體重、高度、距離、錢包里的錢數(shù)等等.口袋沒錢,不管是美元還是人民幣元,都是0.

第一節(jié)數(shù)據(jù)收集

數(shù)據(jù)的類型

定量數(shù)據(jù)(quantitivedata)-指可以用數(shù)字量化的數(shù)據(jù),具體地又可以分為連續(xù)型(如身高)數(shù)據(jù)和離散型(如某路口每月交通事故次數(shù))數(shù)據(jù);定性數(shù)據(jù)(qualititivedata)-指取值分類別的數(shù)據(jù),如性別為男女.定性數(shù)據(jù)可以是名義數(shù)據(jù),也可以是有序數(shù)據(jù).定量數(shù)據(jù)可以是區(qū)間數(shù)據(jù),也可以是比率數(shù)據(jù).從數(shù)據(jù)整體特點來看,數(shù)據(jù)類型還可以分為:橫截面數(shù)據(jù)(cross-sectional)是在某個固定的時間點觀測得到的一組數(shù)據(jù),如某校大學(xué)生高考入學(xué)成績;時間序列數(shù)據(jù)(timeseriesdata)和縱向數(shù)據(jù)(longitudinaldata)中,每個對象都有重復(fù)觀測,這些重復(fù)觀測可能是按某種順序的不同的時間點或不同的狀況采集的.許多社會和醫(yī)學(xué)領(lǐng)域的前瞻群組跟蹤研究(prospectivecohortstudy)和回顧群組調(diào)查研究(retrospectivecohortstudy)都在不同時間點有多次觀測值.

第一節(jié)數(shù)據(jù)收集

1.1.3數(shù)據(jù)存放格式

截面數(shù)據(jù)的存放很簡單.以用Excel進(jìn)行數(shù)據(jù)收集整理為例,-可將第一行存放變量名(variable),-從第二行開始,每一行存放一個樣品或?qū)ο蟮挠^測值,即一行數(shù)據(jù)對應(yīng)一個樣本觀測.-每個變量名所對應(yīng)的列為各樣本點的觀測值.

對于時間序列,前瞻群組跟蹤研究數(shù)據(jù)和回顧群組調(diào)查研究數(shù)據(jù),每一個觀測對象可以在幾個不同時間點有觀測值,這種數(shù)據(jù)有兩種存放方式:(1).每一個對象有幾行觀測值,常稱長表格式(longform);(2).每一個對象僅有一行觀測值,不同時間觀測點用不同的變量名,常稱短表或?qū)挶砀袷?shortform或wideform).

對于一些整合后的列聯(lián)表數(shù)據(jù),也可以存成矩形表格形式.-可在變量名中添加一個頻數(shù)(計數(shù)),-將表格中的數(shù)值放在這個頻數(shù)變量所在的列.-這類數(shù)據(jù)在分析中通常要做加權(quán)處理.

第二節(jié)兩變量圖描述和量化分析

對于這個數(shù)據(jù),我們一般會關(guān)心casual(臨時用戶人數(shù))、regist(注冊用戶人數(shù))或cnt(臨時用戶和注冊用戶人數(shù)之和)受天氣和季節(jié)的影響情況,也就是把這三個定量變量之一看成因變量(dependentvariable),其他的定性或定量變量看為自變量(independentvariable),做回歸分析.本節(jié)我們先就數(shù)據(jù)中的不同變量類型,介紹如何用圖描述和簡單量化分析了解變量之間的關(guān)系.

第二節(jié)兩變量圖描述和量化分析

其結(jié)果顯示四個季節(jié)人數(shù)均值相等的零假設(shè)被拒絕,而且后三個季度各自的平均人數(shù)都分別顯著高于第一季度的平均人數(shù).

第二節(jié)兩變量圖描述和量化分析

二、量化分析在兩個變量不相關(guān)(即變量的相關(guān)系數(shù)r=0)的零假設(shè)下,其中n是樣本量.此檢驗與兩個變量之間線性回歸系數(shù)是否為零的假設(shè)檢驗是等價的,它們有相同的p值,詳見第3章內(nèi)容.結(jié)果表明,對于給定的顯著性水平0.05,--

temp,atemp,windspd與cnt不相關(guān)的零假設(shè)被拒絕,

--但hum和cnt無關(guān)的零假設(shè)沒被拒絕.--溫度temp和體感溫度atemp越高,人數(shù)cnt越多;--風(fēng)速windspd越高,人數(shù)cnt越少.

一、圖描述

觀察兩個定性變量之間的關(guān)系,如季節(jié)season和天氣情況weathsit,可用列聯(lián)表(contingencytable),也可用旁置或摞在一起的條形圖通過比較各行(或列)觀測頻數(shù)是否成比例,判斷兩個定性變量取值之間是否獨立.

1.2.3兩個定性變量

第二節(jié)兩變量圖描述和量化分析

第三節(jié)多變量圖描述

在用臉譜圖對觀測對象進(jìn)行比較分析時,臉譜形狀受各變量次序的影響很大.如果將本例中8個變量的次序換一下,得到的臉譜圖會很不一樣.另外,不同人關(guān)注的臉的部位有很大不同,有人在意胖瘦,有人在意五官.實踐中臉譜圖必須與聚類分析等量化分析方法結(jié)合使用.與臉譜圖相比,雷達(dá)圖和星圖受變量排序和人為主觀偏好的影響較小.注意:

第三節(jié)多變量圖描述

1.3.3輪廓圖--把多個變量(或樣品)的取值放在同一個圖中用線連起來,就是輪廓圖(又稱折線圖).--圖1.7展示了8個變量在31個地區(qū)的取值.--當(dāng)然,我們也可以行列顛倒,畫31條折線,以顯示31個地區(qū)在8個變量(方面)的取值.它們都有助于比較31個地區(qū)取值的不同.--輪廓圖的優(yōu)點是直觀明了,缺點是在變量或樣品多的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論