版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
應(yīng)用多元統(tǒng)計分析
趙博娟編著
參考書目:《從數(shù)據(jù)到結(jié)論》,吳喜之編著,中國統(tǒng)計出版社BusinessStatistics:ADecision-makingApproach(D.F.Groebner&P.W.Shannon)《Applied
Multivariate
Statistical
Analysi》第6版,R.A.JohnsonandD.W.Wichern清華大學(xué)出版社,2008。《應(yīng)用多元統(tǒng)計分析》,高惠旋編著,北京大學(xué)出版社,2005。《多元統(tǒng)計分析》何曉群編著,中國人民大學(xué)出版社。
第一章數(shù)據(jù)收集和描述
第一節(jié)數(shù)據(jù)收集
第二節(jié)兩變量圖描述和量化分析
第三節(jié)多變量圖描述
第四節(jié)上機實現(xiàn)
第一節(jié)數(shù)據(jù)收集
1.1.1一手和二手?jǐn)?shù)據(jù)
一手?jǐn)?shù)據(jù)(primarydata,也叫原始數(shù)據(jù))是一些組織或個人為了某些特定的應(yīng)用或研究目的,必須自己來收集的數(shù)據(jù).二手?jǐn)?shù)據(jù)(secondary
data)是其他人收集的(對于他們來說是一手?jǐn)?shù)據(jù)),而你僅僅用它來進(jìn)行分析或進(jìn)行數(shù)據(jù)挖掘,該數(shù)據(jù)對你來說則是二手?jǐn)?shù)據(jù).常見的二手?jǐn)?shù)據(jù)包括從期刊和網(wǎng)絡(luò)上找到的,由政府、機構(gòu)、公司、組織專門收集和維護(hù)的數(shù)據(jù),比如:外匯牌價、房價、人口抽樣調(diào)查結(jié)果等數(shù)據(jù)在開展一手?jǐn)?shù)據(jù)收集前,要先調(diào)研一下是否已經(jīng)有相應(yīng)的二手?jǐn)?shù)據(jù)存在.而在使用二手?jǐn)?shù)據(jù)的過程中,要了解數(shù)據(jù)的來源及其真實和可靠程度,是否符合研究目的,以便恰當(dāng)?shù)剡M(jìn)行分析并解釋結(jié)果.試驗數(shù)據(jù)和觀測數(shù)據(jù)
試驗數(shù)據(jù)(experimental
data)中的自變量取值是可以人為改變的.比如,通過調(diào)節(jié)冶煉金屬的時間、溫度和原料配比,尋找最佳組合條件,以煉成滿足某些性能指標(biāo)的金屬材料;這類數(shù)據(jù)便于分析因果關(guān)系.實踐中,我們遇到的絕大部分二手?jǐn)?shù)據(jù)都是觀測數(shù)據(jù)(observational
data).如跟蹤觀測研究吸煙與罹患癌癥的關(guān)系等.這類數(shù)據(jù)的自變量不能隨意調(diào)節(jié),我們不能在身體健康狀況完全類似的人中隨機抽樣,強迫一部分人吸煙而另一部分不吸,之后觀測他們將來是否罹患癌癥.
第一節(jié)數(shù)據(jù)收集
1.1.2數(shù)據(jù)的度量級別和類型
名義數(shù)據(jù)(nominaldata),也叫定性數(shù)據(jù)或分類數(shù)據(jù)(categoricaldata),是最低級形式的數(shù)據(jù),我們可以對數(shù)據(jù)取值任意編號.如對婚姻狀態(tài),可以用1~4或M,S,D和O分別標(biāo)記,即是M(已婚),S(未婚),D(離婚)和O(其他)有序數(shù)據(jù)(ordinal
data)-比名義數(shù)據(jù)高一級別,數(shù)據(jù)的類別是有序的.如健康狀態(tài):1(非常健康),2(健康),3(一般),4(不健康)和5(非常不健康).
級別--從低到高包括:
區(qū)間數(shù)據(jù)(intervaldata)是有序的,而且任意兩點的距離是可以精確度量出來的.如華氏(Fahrenheit)和攝氏(Celsius)溫度.比率數(shù)據(jù)(ratiodata)有真正有意義的零點,度量級別最高.如體重、高度、距離、錢包里的錢數(shù)等等.口袋沒錢,不管是美元還是人民幣元,都是0.
第一節(jié)數(shù)據(jù)收集
數(shù)據(jù)的類型
定量數(shù)據(jù)(quantitivedata)-指可以用數(shù)字量化的數(shù)據(jù),具體地又可以分為連續(xù)型(如身高)數(shù)據(jù)和離散型(如某路口每月交通事故次數(shù))數(shù)據(jù);定性數(shù)據(jù)(qualititivedata)-指取值分類別的數(shù)據(jù),如性別為男女.定性數(shù)據(jù)可以是名義數(shù)據(jù),也可以是有序數(shù)據(jù).定量數(shù)據(jù)可以是區(qū)間數(shù)據(jù),也可以是比率數(shù)據(jù).從數(shù)據(jù)整體特點來看,數(shù)據(jù)類型還可以分為:橫截面數(shù)據(jù)(cross-sectional)是在某個固定的時間點觀測得到的一組數(shù)據(jù),如某校大學(xué)生高考入學(xué)成績;時間序列數(shù)據(jù)(timeseriesdata)和縱向數(shù)據(jù)(longitudinaldata)中,每個對象都有重復(fù)觀測,這些重復(fù)觀測可能是按某種順序的不同的時間點或不同的狀況采集的.許多社會和醫(yī)學(xué)領(lǐng)域的前瞻群組跟蹤研究(prospectivecohortstudy)和回顧群組調(diào)查研究(retrospectivecohortstudy)都在不同時間點有多次觀測值.
第一節(jié)數(shù)據(jù)收集
1.1.3數(shù)據(jù)存放格式
截面數(shù)據(jù)的存放很簡單.以用Excel進(jìn)行數(shù)據(jù)收集整理為例,-可將第一行存放變量名(variable),-從第二行開始,每一行存放一個樣品或?qū)ο蟮挠^測值,即一行數(shù)據(jù)對應(yīng)一個樣本觀測.-每個變量名所對應(yīng)的列為各樣本點的觀測值.
對于時間序列,前瞻群組跟蹤研究數(shù)據(jù)和回顧群組調(diào)查研究數(shù)據(jù),每一個觀測對象可以在幾個不同時間點有觀測值,這種數(shù)據(jù)有兩種存放方式:(1).每一個對象有幾行觀測值,常稱長表格式(longform);(2).每一個對象僅有一行觀測值,不同時間觀測點用不同的變量名,常稱短表或?qū)挶砀袷?shortform或wideform).
對于一些整合后的列聯(lián)表數(shù)據(jù),也可以存成矩形表格形式.-可在變量名中添加一個頻數(shù)(計數(shù)),-將表格中的數(shù)值放在這個頻數(shù)變量所在的列.-這類數(shù)據(jù)在分析中通常要做加權(quán)處理.
第二節(jié)兩變量圖描述和量化分析
對于這個數(shù)據(jù),我們一般會關(guān)心casual(臨時用戶人數(shù))、regist(注冊用戶人數(shù))或cnt(臨時用戶和注冊用戶人數(shù)之和)受天氣和季節(jié)的影響情況,也就是把這三個定量變量之一看成因變量(dependentvariable),其他的定性或定量變量看為自變量(independentvariable),做回歸分析.本節(jié)我們先就數(shù)據(jù)中的不同變量類型,介紹如何用圖描述和簡單量化分析了解變量之間的關(guān)系.
第二節(jié)兩變量圖描述和量化分析
其結(jié)果顯示四個季節(jié)人數(shù)均值相等的零假設(shè)被拒絕,而且后三個季度各自的平均人數(shù)都分別顯著高于第一季度的平均人數(shù).
第二節(jié)兩變量圖描述和量化分析
二、量化分析在兩個變量不相關(guān)(即變量的相關(guān)系數(shù)r=0)的零假設(shè)下,其中n是樣本量.此檢驗與兩個變量之間線性回歸系數(shù)是否為零的假設(shè)檢驗是等價的,它們有相同的p值,詳見第3章內(nèi)容.結(jié)果表明,對于給定的顯著性水平0.05,--
temp,atemp,windspd與cnt不相關(guān)的零假設(shè)被拒絕,
--但hum和cnt無關(guān)的零假設(shè)沒被拒絕.--溫度temp和體感溫度atemp越高,人數(shù)cnt越多;--風(fēng)速windspd越高,人數(shù)cnt越少.
一、圖描述
觀察兩個定性變量之間的關(guān)系,如季節(jié)season和天氣情況weathsit,可用列聯(lián)表(contingencytable),也可用旁置或摞在一起的條形圖通過比較各行(或列)觀測頻數(shù)是否成比例,判斷兩個定性變量取值之間是否獨立.
1.2.3兩個定性變量
第二節(jié)兩變量圖描述和量化分析
第三節(jié)多變量圖描述
在用臉譜圖對觀測對象進(jìn)行比較分析時,臉譜形狀受各變量次序的影響很大.如果將本例中8個變量的次序換一下,得到的臉譜圖會很不一樣.另外,不同人關(guān)注的臉的部位有很大不同,有人在意胖瘦,有人在意五官.實踐中臉譜圖必須與聚類分析等量化分析方法結(jié)合使用.與臉譜圖相比,雷達(dá)圖和星圖受變量排序和人為主觀偏好的影響較小.注意:
第三節(jié)多變量圖描述
1.3.3輪廓圖--把多個變量(或樣品)的取值放在同一個圖中用線連起來,就是輪廓圖(又稱折線圖).--圖1.7展示了8個變量在31個地區(qū)的取值.--當(dāng)然,我們也可以行列顛倒,畫31條折線,以顯示31個地區(qū)在8個變量(方面)的取值.它們都有助于比較31個地區(qū)取值的不同.--輪廓圖的優(yōu)點是直觀明了,缺點是在變量或樣品多的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年抽油煙機和爐灶行業(yè)市場現(xiàn)狀供需分析及重點企業(yè)投資評估規(guī)劃分析研究報告
- 2024-2030年抗生素和抗真菌藥行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2024-2030年打印紙行業(yè)市場深度分析及發(fā)展策略研究報告
- 2024-2030年手術(shù)器械產(chǎn)業(yè)發(fā)展分析及發(fā)展趨勢與投資前景預(yù)測報告
- 2024-2030年急診電子健康記錄儀(EHR)行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2024-2030年微流控芯片行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資前景研究報告
- 2024-2030年廢金屬分類分析儀行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2024-2030年幼年產(chǎn)品行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2024-2030年工程機械金融租賃行業(yè)市場深度分析及標(biāo)桿企業(yè)與發(fā)展前景研究報告
- 2024-2030年工業(yè)合成油市場投資前景分析及供需格局研究預(yù)測報告
- 國家開放大學(xué)《管理英語4》章節(jié)測試參考答案
- 注塑部績效考核表
- 熱力管道固定支架軸向推力計算表
- 泵站工程施工質(zhì)量管理體系與措施
- 收到基-空干基-干基(圖解)
- 三一重工服務(wù)營銷體系建構(gòu)
- 拉深件坯料尺寸計算
- 諧波齒輪減速器的設(shè)計與建模
- 大中型泵站工程管理崗位設(shè)置及定員標(biāo)準(zhǔn)
- 參加全科醫(yī)學(xué)學(xué)習(xí)的心得體會(多篇)
- sfp光模塊接口類型及辨認(rèn)辦法
評論
0/150
提交評論