應(yīng)用統(tǒng)計(jì)學(xué)-緒論_第1頁
應(yīng)用統(tǒng)計(jì)學(xué)-緒論_第2頁
應(yīng)用統(tǒng)計(jì)學(xué)-緒論_第3頁
應(yīng)用統(tǒng)計(jì)學(xué)-緒論_第4頁
應(yīng)用統(tǒng)計(jì)學(xué)-緒論_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、馬昕經(jīng)濟(jì)學(xué)教研室電話:62783253(H)Email: 應(yīng)用統(tǒng)計(jì)學(xué)教材:何曉群多元統(tǒng)計(jì)分析,中國人民大學(xué)出版社,2004參考書何曉群現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用,中國人民大學(xué)出版社,1998王學(xué)民應(yīng)用多元分析,上海財(cái)經(jīng)大學(xué)出版社Jams M Lattin等著,多元數(shù)據(jù)分析(英文版),機(jī)械工業(yè)出版社考核方法:讀書報(bào)告:30分(考試前交)期末考試(開卷) :70分課程內(nèi)容:第一章 緒論第二章 向量、矩陣與多維正態(tài)分布第三章 聚類分析第四章 判別分析第五章 方差分析第六章 回歸分析第七章 主成分分析第八章 因子分析第九章 對應(yīng)分析第十章 結(jié)構(gòu)方程模型第一章 緒論多元數(shù)據(jù)分析的必要性多元數(shù)據(jù)分析方法概論多

2、元數(shù)據(jù)的描述統(tǒng)計(jì)基本知識(shí)回顧一、多元數(shù)據(jù)分析的必要性信息時(shí)代數(shù)據(jù)時(shí)代,決策:經(jīng)驗(yàn)科學(xué)經(jīng)濟(jì)發(fā)展科學(xué)研究軍事企業(yè)組織信息組織市場分析投資決策設(shè)備管理你的直覺判斷總是正確的嗎?基于數(shù)據(jù)分析的決策對La Quinta旅館進(jìn)行以回歸分析為基礎(chǔ)的選址數(shù)據(jù)分析從大量數(shù)據(jù)中發(fā)現(xiàn)盡可能多的有用信息,從而把握事物特征的過程每個(gè)數(shù)據(jù):反映某個(gè)事物某一方面的特征統(tǒng)計(jì)學(xué):單變量分析描述統(tǒng)計(jì)集中趨勢離散趨勢變量分布異常點(diǎn)推斷統(tǒng)計(jì):從樣本統(tǒng)計(jì)量推斷總體參數(shù)參數(shù)估計(jì):樣本均值估計(jì)總體均值,假設(shè)檢驗(yàn):總體均值或方差的檢驗(yàn),兩總體均值/方差相等的檢驗(yàn)相關(guān)分析:兩個(gè)隨機(jī)變量間的(線性)相關(guān)程度回歸分析:一個(gè)隨機(jī)變量和一組隨機(jī)變量間

3、的依存/相關(guān)關(guān)系為什么需要多元數(shù)據(jù)?一般來說事物通常具有多面性,即每一事物有多方面特征例:學(xué)生的能力、物種、國家經(jīng)濟(jì)實(shí)力、企業(yè)競爭力必須全面考慮事物的各個(gè)方面,才能對其正確認(rèn)識(shí)。兩變量分析有時(shí)會(huì)得到虛假結(jié)果Distinguishing MidgesSuppose we are interested in measuring the wing length and the antenna length.Distinguishing MidgesWhat can you do with both variables that you cant do with just one of them?Si

4、mpsons ParadoxExample: 44% of male applicants are admitted by a university, but only 33% of female applicantsDoes this mean there is unfair discrimination?University investigates and breaks down figures for Engineering and English programmesMaleFemaleAccept3520Refuse entry4540Total8060為什么需要多元數(shù)據(jù)-續(xù)Sim

5、psons ParadoxNo relationship between sex and acceptance for either programmeSo no evidence of discriminationWhy?More females apply for the English programme, but it it hard to get intoMore males applied to Engineering, which has a higher acceptance rate than EnglishMust look deeper than single cross

6、-tab to find this outEngineeringMaleFemaleAccept3010Refuse entry3010Total6020EnglishMaleFemaleAccept510Refuse entry1530Total2040Simpsons ParadoxIn this example, the bivariate analysis (cross-tabulation or correlation) gave misleading resultsIntroducing another variable gave a better understanding of

7、 the dataIt even reversed the initial conclusions二、多元數(shù)據(jù)分析過程及方法反映對象行為的、可被觀測的所有特征面精選特征面子集行為數(shù)據(jù)測量模型模式多元分析方法行為數(shù)據(jù)結(jié)構(gòu)蠓:身體長度、翅膀長度、翅膀?qū)挾?、觸角長度、翅膀長度、觸角長度定比數(shù)據(jù)Some Common Patterns in Point Clouds planes filaments clusters outliersData Analysis:Finding and Interpreting such Patterns多元數(shù)據(jù)分析方法概述多元分析的目的:探索數(shù)據(jù)的模式(結(jié)構(gòu))多元數(shù)據(jù)

8、分析的難點(diǎn):維度太多使我們難以發(fā)現(xiàn)規(guī)律、把握重點(diǎn)多元分析方法的核心:概要和簡化工具:矩陣代數(shù)、統(tǒng)計(jì)軟件具體方法聚類分析:按距離遠(yuǎn)近分類判別分析:給定樣本定類親疏判別主成分分析、因子分析、對應(yīng)分析:找出主要因素,化簡數(shù)據(jù)方差分析多元回歸分析結(jié)構(gòu)方程模型GroupingDiscriminating Principle Component, Factoring,CorrespondenceInferring推斷exploring探索數(shù)據(jù)模式Structural Equation Model課程重點(diǎn)強(qiáng)調(diào)方法的應(yīng)用而非理論推導(dǎo)強(qiáng)調(diào)方法的內(nèi)涵與幾何解釋強(qiáng)調(diào)SPSS軟件的應(yīng)用和結(jié)果的解釋牢記:從數(shù)據(jù)中獲取信

9、息沒有確定的方法具體問題具體分析三、多元數(shù)據(jù)的描述數(shù)據(jù)的計(jì)量尺度:告訴我們從數(shù)據(jù)中可獲得哪些信息。品質(zhì)數(shù)據(jù):計(jì)算無意義定類尺度:按窮盡和互斥原則將對象某種特征歸類通常用虛擬變量表示:定序尺度對象特征等級(jí)或順序差別的測度三、多元數(shù)據(jù)的描述數(shù)值數(shù)據(jù)定距尺度:測度對象特征的間距,不能做絕對比較。定比尺度:即可測度間距,又可做絕對比較。數(shù)值數(shù)據(jù)的矩陣表示: 樣本數(shù)n,變量數(shù)p數(shù)據(jù)的矩陣描述注:若無特別說明,向量均指列向量四、統(tǒng)計(jì)基本知識(shí)回顧:單變量分析描述統(tǒng)計(jì)參數(shù)估計(jì)假設(shè)檢驗(yàn)相關(guān)與回歸1. 描述統(tǒng)計(jì)描述數(shù)據(jù)的集中趨勢均值中位數(shù)眾數(shù)描述數(shù)據(jù)的離散趨勢極差方差、標(biāo)準(zhǔn)差變異系數(shù)異常點(diǎn)目的:描述數(shù)據(jù)分布與正態(tài)

10、分布的可能偏離正態(tài)分布具有許多有利于統(tǒng)計(jì)的特性一般獨(dú)立隨機(jī)事件的分布都服從正態(tài)分布人的身高,產(chǎn)品質(zhì)量偏度:用來度量對稱性的指標(biāo)峰度:刻畫一個(gè)分布陡峭或平緩程度的指標(biāo)正態(tài)右偏左偏正態(tài)比正態(tài)更陡比正態(tài)平緩分布的偏度與峰度標(biāo)準(zhǔn)化變量對于任意變量x,將觀測值轉(zhuǎn)換成相應(yīng)Z值的過程稱為將該變量標(biāo)準(zhǔn)化,所得到的變量Z稱為標(biāo)準(zhǔn)化變量。 相對度量例:地區(qū)供電局?jǐn)?shù)據(jù)基本概念2、參數(shù)估計(jì)總體樣本變量觀測值華北電大的所有學(xué)生華北電大的所有學(xué)生中所有抽取的100名學(xué)生基本概念(續(xù))參數(shù)統(tǒng)計(jì)量精確度準(zhǔn)確度偏誤標(biāo)準(zhǔn)差:小標(biāo)準(zhǔn)誤:小標(biāo)準(zhǔn)差:大標(biāo)準(zhǔn)誤:小標(biāo)準(zhǔn)誤差standard error標(biāo)準(zhǔn)差standard deviati

11、on抽樣推斷:從樣本統(tǒng)計(jì)量推斷總體參數(shù)參數(shù)估計(jì):在未知總體參數(shù)的情況下,利用樣本統(tǒng)計(jì)量來估計(jì)總體參數(shù)的方法。參數(shù)點(diǎn)估計(jì)參數(shù)區(qū)間估計(jì)假設(shè)檢驗(yàn):先對總體參數(shù)作一個(gè)假設(shè),然后通過搜集樣本數(shù)據(jù),用樣本統(tǒng)計(jì)量判斷對總體參數(shù)的假設(shè)是否成立參數(shù)估計(jì):總體參數(shù)的點(diǎn)估計(jì)假設(shè)在總體X中, 為未知參數(shù)(均值、方差、成數(shù)等)。由樣本(x1、x2xn )構(gòu)造統(tǒng)計(jì)量 來估計(jì)未知參數(shù),稱 為的點(diǎn)估計(jì)量。 將某次抽樣的樣本觀測值,代入即得該估計(jì)量的一個(gè)點(diǎn)估計(jì)值 。方法 矩估計(jì)法 極大似然估計(jì)法 最小二乘法設(shè)為待估計(jì)的總體參數(shù), 為樣本統(tǒng)計(jì)量,則的優(yōu)良標(biāo)準(zhǔn)為:點(diǎn)估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)指樣本統(tǒng)計(jì)量抽樣分布的平均值等于被估計(jì)的總體指標(biāo)

12、無偏性設(shè) 和 是總體指標(biāo)的兩個(gè)無偏估計(jì)量,有效性若,則稱為比 更有效的估計(jì)量如果隨著樣本容量n的增大,樣本估計(jì)量在概率意義下越來越接近于總體真實(shí)值,則稱該估計(jì)量是待估參數(shù)的一致估計(jì)量。一致性一致性是對一個(gè)估計(jì)量的最起碼要求?!叭绻阍趎趨于無窮大時(shí)還不能正確地得到它,那你就不應(yīng)該做這件事”葛蘭杰n1n2n3n1n2n3置信度(1-)反映了估計(jì)的可靠程度。根據(jù)樣本指標(biāo)和抽樣極限誤差可以得到滿足一定置信度的總體指標(biāo)的可能范圍定義設(shè)總體參數(shù)為,L、U為由樣本確定的兩個(gè)統(tǒng)計(jì)量,對于給定的(01),有P(LU)=1-,則稱(L, U)為參數(shù)的置信度為1-的置信區(qū)間參數(shù)估計(jì):參數(shù)的區(qū)間估計(jì)可靠度精確度為什

13、么要做區(qū)間估計(jì)?任意抽出一個(gè)婦女,試猜測其體重,猜對贏50元,猜錯(cuò)輸50元如何猜?輸贏概率如何?例:20個(gè)婦女的體重資料如表, 平均體重:123.6pound,標(biāo)準(zhǔn)差:15.5猜均值上下一個(gè)標(biāo)準(zhǔn)差:贏的概率?輸?shù)母怕什戮瞪舷聝蓚€(gè)標(biāo)準(zhǔn)差:輸贏概率?區(qū)間估計(jì)原理0.6827落在范圍內(nèi)的概率為68.27%樣本抽樣分布曲線原總體分布曲線置信度1-=0.6827區(qū)間估計(jì)原理0.9545落在范圍內(nèi)的概率為95.45%樣本抽樣分布曲線原總體分布曲線置信度1-=0.9545目的前提條件 置信度的置信區(qū)間估計(jì)總體均值正態(tài)總體方差已知估計(jì)總體均值正態(tài)總體方差未知(小樣本)估計(jì)總體均值 置信區(qū)間一覽表總體分布知,

14、正態(tài)總體方差未知(大樣本)例 某保險(xiǎn)公司從投保人中隨機(jī)抽取36人,計(jì)算出此36人平均年齡為39.5歲,已知投保人年齡近似正態(tài)分布,標(biāo)準(zhǔn)差7.2歲,試以99%的可靠度求所有投保人平均年齡的置信區(qū)間。如果將可靠度降低到95%的水平呢?解:求所有投保人平均年齡的置信區(qū)間?,F(xiàn)有一個(gè)點(diǎn)估計(jì)量在點(diǎn)估計(jì)量基礎(chǔ)上,構(gòu)造投保人平均年齡的置信區(qū)間關(guān)鍵是置信區(qū)間的寬度是多少。置信區(qū)間寬度取決于置信度和抽樣平均誤差:根據(jù)置信度查表得到在99%的置信度下,投保人年齡總體均值的置信區(qū)間為: (39.5-3.1, 39.5+3.1)36.442.6置信度95%,Z/2=1.96, =1.96*1.2=2.35, 置信區(qū)間(

15、37.2,41.9)3、假設(shè)檢驗(yàn)采用邏輯上的反證法先認(rèn)為假設(shè)為真,觀察在此前提下所抽到樣本的出現(xiàn)是否合理。若合理則判斷假設(shè)可接受,反之拒絕假設(shè)。判斷是否合理的依據(jù)統(tǒng)計(jì)上的小概率原理(即這里的反證法是基于一定概率的反證法)。 假設(shè)檢驗(yàn)的步驟提出原假設(shè)和備擇假設(shè):收集樣本數(shù)據(jù),確定適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量及其分布規(guī)定顯著性水平,確定拒絕域和接受域計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值作出統(tǒng)計(jì)決策假設(shè)的三種形式:Z臨界點(diǎn)Z/2接受域-Z/2ZZ/2Z臨界點(diǎn)-Z拒絕域Z -ZZ臨界點(diǎn)Z拒絕域ZZ接受域Z Z在原假設(shè)為真的前提下,出現(xiàn)觀察到的樣本以及更極端樣本的概率。P值(P-value):拒絕原假設(shè)的最小顯著性水平。如果檢驗(yàn)的統(tǒng)

16、計(jì)量為t,c是從樣本得到的統(tǒng)計(jì)量的值。左側(cè)檢驗(yàn)時(shí),P值= ptc右側(cè)檢驗(yàn)時(shí),P值= ptc雙側(cè)檢驗(yàn)中,P值=單側(cè)P值的2倍。Z臨界點(diǎn)-tcZ臨界點(diǎn)t/2c精確p值例:某機(jī)器制造出的肥皂厚度為5公分。今欲了解機(jī)器性能是否良好,隨機(jī)抽取10塊肥皂為樣本,測得平均厚度為5.3公分,樣本標(biāo)準(zhǔn)差為0.3公分。試以0.05的顯著性水平檢驗(yàn)機(jī)器性能良好的假設(shè)。建立假設(shè)檢驗(yàn)統(tǒng)計(jì)量接受域:tT0.05/2=2.263.16T0.01/2=3.25P(3.16)=0.01155利用 P 值進(jìn)行決策若P值 ,不能拒絕 H0若P值 0 為正相關(guān), 0 為負(fù)相關(guān);|=0 表示不存在線性關(guān)系;|1 表示完全線性相關(guān);0|

17、1表示存在不同程度線性相關(guān): | 0.4 為低度線性相關(guān); 0.4 | 0.7為顯著線性相關(guān); 0.7| 1.0為高度線性相關(guān)。樣本相關(guān)系數(shù)有容量為n的樣本(xi,yi)i=1,2,n相關(guān)系數(shù)的假設(shè)檢驗(yàn)實(shí)際研究中,相關(guān)系數(shù)一般都是利用樣本數(shù)據(jù)計(jì)算得到的,因而隨樣本的變化而變化,具有一定的隨機(jī)性。從樣本相關(guān)系數(shù)推斷總體相關(guān)系數(shù)需要進(jìn)行假設(shè)檢驗(yàn)。相關(guān)系數(shù)的檢驗(yàn)分為兩類:總體相關(guān)系數(shù)是否為0的檢驗(yàn),即總體是否相關(guān)的檢驗(yàn)相關(guān)系數(shù)等于某一給定值的檢驗(yàn)相關(guān)系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn)法)提出假設(shè):目的檢驗(yàn)總體兩變量間線性相關(guān)性是否顯著步驟構(gòu)造檢驗(yàn)統(tǒng)計(jì)量:相關(guān)系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn)法) 根據(jù)給定的顯著性水平,確定臨界值 ; 計(jì)算檢驗(yàn)統(tǒng)計(jì)量并做出決策。 確定接受域與拒絕域:若 ,則接受H0 ,表示總體兩變量間線性相關(guān)性不顯著;若 ,則拒絕H0 ,表示總體兩變量間線性相關(guān)性顯著步驟手表需求回歸分析指對于具有因果關(guān)系的諸相關(guān)變量,根據(jù)其相關(guān)關(guān)系的具體形式,選擇合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論