一維數(shù)據(jù)的數(shù)字特征_第1頁
一維數(shù)據(jù)的數(shù)字特征_第2頁
一維數(shù)據(jù)的數(shù)字特征_第3頁
一維數(shù)據(jù)的數(shù)字特征_第4頁
一維數(shù)據(jù)的數(shù)字特征_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

12024/8/12內(nèi)容及學(xué)時安排數(shù)據(jù)描述性分析+軟件

1312345判別分析8

6聚類分析8

方差分析10

主成分與典型相關(guān)分析8回歸分析1322024/8/12參考資料《數(shù)據(jù)分析方法》,梅長林編著,高等教育出版社《實用統(tǒng)計方法》,梅長林編,科學(xué)出版社《應(yīng)用多元統(tǒng)計分析》,高惠璇編,北京大學(xué)出版社《使用統(tǒng)計方法與SAS系統(tǒng)》,高惠璇編,北京大學(xué)出版社《多元統(tǒng)計分析》(二版),何曉群編,中國人民大學(xué)出版社《應(yīng)用回歸分析》(二版),何曉群編,中國人民大學(xué)出版社《統(tǒng)計建模與R軟件》,薛毅編著,清華大學(xué)出版社《應(yīng)用多元統(tǒng)計分析》(第二版),沃爾夫?qū)?哈德勒,利奧波德.西馬著,陳詩一譯《AppliedMultivariatesStatisticalAnalysis》,WolfgangH?rdle,L?opoldSimar32024/8/12考核方式考核:期末成績(閉卷考試+上機(jī)考試):60%。平時成績(平時作業(yè)+考勤+大報告):40%。課程作業(yè)(1)作業(yè)題目在網(wǎng)絡(luò)教學(xué)平臺公布,按格式要求,以電子版方式通過平臺提交。(2)每位學(xué)生應(yīng)保留每次作業(yè)備份直到課程結(jié)束。(3)雷同的作業(yè)均按0分計算。42024/8/12大報告:要求:(1)調(diào)研,收集數(shù)據(jù);(2)數(shù)據(jù)處理;(3)選合適的統(tǒng)計模型建模;(4)2-3人一組,寫一篇大論文上交。做PPT匯報,10-20分鐘,提問2-3個問題。論文和答辯各占60、40分。老師占70%,學(xué)生30%。

52024/8/12目的要求:掌握各種方法的原理和應(yīng)用范圍,會建立模型;用SAS等軟件進(jìn)行統(tǒng)計分析,熟悉輸出結(jié)果,進(jìn)行解釋。建議:理論應(yīng)用并重:理論的重點是思路,應(yīng)用的重點是實踐。重視練習(xí):多做練習(xí)加深理解,實際操作熟悉軟件。不缺課:內(nèi)容前后呼應(yīng),缺課不利學(xué)習(xí)。

“師傅領(lǐng)進(jìn)門,修行在個人”。先修課程:

數(shù)學(xué)分析、高等代數(shù)、概率論與數(shù)理統(tǒng)計62024/8/12

緒論0.1課程內(nèi)涵0.2課程體系及應(yīng)用0.3統(tǒng)計學(xué)的產(chǎn)生與發(fā)展0.4統(tǒng)計學(xué)與其他學(xué)科的關(guān)系0.5統(tǒng)計軟件0.6應(yīng)用案例及選題參考72024/8/120緒論

0.1課程內(nèi)涵

數(shù)據(jù)分析(統(tǒng)計學(xué)statistics)以數(shù)據(jù)為依據(jù),以統(tǒng)計方法為理論、計算機(jī)及統(tǒng)計軟件為工具,研究多變量問題、挖掘數(shù)據(jù)的統(tǒng)計規(guī)律的學(xué)科。通過收集數(shù)據(jù)--整理數(shù)據(jù)--分析數(shù)據(jù)和由數(shù)據(jù)得出結(jié)論的一組概念、原則和方法(建模)。以歸納為主要思維方式。82024/8/12統(tǒng)計學(xué)與其他學(xué)科的關(guān)系統(tǒng)計與數(shù)學(xué):數(shù)學(xué)思維以演繹為主;統(tǒng)計以歸納為主,兼有演繹;數(shù)學(xué)是工具:統(tǒng)計各領(lǐng)域利用幾乎所有數(shù)學(xué);但統(tǒng)計本身的數(shù)學(xué)為具體目標(biāo)服務(wù),一般不形成數(shù)學(xué)體系。統(tǒng)計與計算機(jī)的關(guān)系最初的計算機(jī)是為科學(xué)計算而設(shè)計和建造的。統(tǒng)計是大型計算機(jī)的最早用戶,由于統(tǒng)計和數(shù)據(jù)打交道,沒有計算機(jī)發(fā)展統(tǒng)計就沒有前途.計算機(jī)和統(tǒng)計的發(fā)展相輔相成路口每過去20輛小轎車,有100輛自行車通過.平均每10個轎車載12個人.于是,你認(rèn)為小轎車和自行車在路口運載能力為24:100---典型的統(tǒng)計思維過程92024/8/12數(shù)據(jù)分析研究的過程收集數(shù)據(jù)(取得數(shù)據(jù))整理數(shù)據(jù)(處理數(shù)據(jù))解釋數(shù)據(jù)(結(jié)果說明)分析數(shù)據(jù)(研究數(shù)據(jù))實際問題102024/8/12你想過下面的問題嗎?如何根據(jù)抽樣數(shù)據(jù)研究該年級學(xué)生的學(xué)習(xí)成績?用各科成績總和作為綜合指標(biāo),比較成績差異;根據(jù)各科成績相近程度對學(xué)生進(jìn)行分類(文科成績好與理科好);研究各科成績間關(guān)系(物理與數(shù)學(xué)成績,文科與理科成績).某年級抽6名學(xué)生5門課期末成績序號政治語文外語數(shù)學(xué)物理

19994931001002998896999731009881961004938888999651009172967867573889789統(tǒng)計分析是以各變量n次觀測組成的數(shù)據(jù)矩陣為依據(jù),依實際問題需要進(jìn)行分析數(shù)據(jù)矩陣“數(shù)據(jù)!數(shù)據(jù)!數(shù)據(jù)!”、“我不能做無米之炊!”—Sherlock·福爾摩斯112024/8/120.2課程體系及應(yīng)用

大部分學(xué)科都涉及數(shù)據(jù)分析工作,因此統(tǒng)計幾乎可與任一學(xué)科結(jié)合起來。如生物統(tǒng)計(biostatistics)、經(jīng)濟(jì)計量學(xué)(econometrics計量地理、及熱門的生物信息(bioinformation)和數(shù)據(jù)挖掘(Data

Mining)的方法主體都是統(tǒng)計。122024/8/12通過測各類數(shù)據(jù),判斷文物出現(xiàn)的年代、種族.成績分析和預(yù)測.由高考成績和高中成績關(guān)系,預(yù)測高考成績;按成績進(jìn)行分類(文理)、排名.根據(jù)檢查數(shù)據(jù)或病例資料診斷病例.分析氣象站資料(雨量,氣溫,氣壓,風(fēng)速等),進(jìn)行天氣預(yù)報.分析污染氣體濃度,布局監(jiān)測點,污染治理.處理地質(zhì)觀測數(shù)據(jù),進(jìn)行礦產(chǎn)預(yù)測、構(gòu)造解釋、工程勘探等.測人體部位尺寸,作統(tǒng)計分析,決定服裝型號及比例.農(nóng)業(yè)灌區(qū)分類,品種篩選.宏觀經(jīng)濟(jì)、微觀經(jīng)濟(jì)的應(yīng)用.研究青少年犯罪各因素間關(guān)系及變化規(guī)律.虛詞頻數(shù),鑒定作品體育,軍事,生物,心理學(xué),保險,地震預(yù)報等.多元統(tǒng)計量分布,性質(zhì),理論—概率統(tǒng)計,描述性分析1章參數(shù)估計和假設(shè)檢驗—概率統(tǒng)計中統(tǒng)計推斷、方差分析變量間相互依賴關(guān)系—2回歸分析;兩組變量間關(guān)系—4典型相關(guān)分析相關(guān)變量變?yōu)椴幌嚓P(guān);高維數(shù)據(jù)降維—4主成分、典型相關(guān)分析變量或樣品按相似程度分類—6聚類、5判別分析132024/8/12社會經(jīng)濟(jì)統(tǒng)計數(shù)理統(tǒng)計政治算術(shù)國勢學(xué)派最早流派之一。創(chuàng)始人德國康令(H.Conring1606-81)和阿享瓦爾(G.Achenwall1719—72).采用文字記述形式,把重要事項系統(tǒng)整理羅列(報表).創(chuàng)始人格朗特(J.Graunt1620—74)和威廉.配第(W.Petty1623-87)。主張以數(shù)字、重量和尺度來說話,用圖表形式概括數(shù)字資料.創(chuàng)始人比利時凱特勒(L.A.J.Quetelet1796-74),產(chǎn)生19世紀(jì)中,把概率論引進(jìn)統(tǒng)計學(xué),為統(tǒng)計數(shù)量分析奠定數(shù)理基礎(chǔ)(數(shù)學(xué)統(tǒng)計學(xué)院).代表人恩格爾(1821-96)和梅爾(1841-1925).19世紀(jì)后興起德國,融會國勢和政治算術(shù)學(xué)派觀點,把政府統(tǒng)計和社會調(diào)查融合起來,形成社會經(jīng)濟(jì)統(tǒng)計學(xué),影響較大.(經(jīng)濟(jì)管理學(xué)院).0.3統(tǒng)計學(xué)的產(chǎn)生與發(fā)展統(tǒng)計學(xué)的產(chǎn)生:17世紀(jì)中葉,英國威廉配第《政治算術(shù)》問世.

142024/8/120.3統(tǒng)計學(xué)的產(chǎn)生與發(fā)展歷史上著名的統(tǒng)計學(xué)家JacobBernoulli(伯努利)(1654-1705)EdmondHalley(哈雷)(1656-1742)DeMoivre(棣莫弗)(1667-1754)ThomasBayes(貝葉斯)(1702-1761)LeonhardEuler(歐拉)(1707-1783)PierreSimonLaplace(拉普拉斯)(1749-1827)AdrienMarieLegendre(勒讓德)(1752-1833)ThomasRobertMalthus(馬爾薩斯)(1766-1834)FriedrichGauss(高斯)(1777-1855)JohannGregorMendel(孟德爾)(1822-1884)KarlPearson(皮爾遜)(1857-1936)RonaldAylmerFisher(費希爾)(1890-1962)JerzyNeyman(奈曼)(1894-1981)EgonSharpePearson(皮爾遜)(1895-1980)WilliamFeller(費勒)(1906-1970).ThomasRobertMalthus(馬爾薩斯)PierreSimonLaplace(拉普拉斯)LeonhardEuler(歐拉)FriedrichGauss(高斯)JohannGregorMendel(孟德爾)152024/8/12ExcelSPSSRMATLABSAS數(shù)據(jù)分析功能強(qiáng)大,統(tǒng)計分析領(lǐng)域巨無霸。全球100強(qiáng)91家用SAS。需一定編程技術(shù),價高以編程為主的軟件,應(yīng)用廣泛,有統(tǒng)計包。免費開源,編程方便,可從網(wǎng)上下載軟件包和程序。學(xué)統(tǒng)計用的多,主要問題沒有“傻瓜化”易操作,功能全,價格低。非統(tǒng)計工作者的選擇數(shù)據(jù)表格軟件,畫圖和簡單統(tǒng)計分析功能(需裝數(shù)據(jù)分析功能)04常用統(tǒng)計軟件介紹162024/8/12FORTRANGAUSSEviewsS-PLUSArcGis地理信息處理軟件,空間統(tǒng)計分析Minitab、Statistica:功能強(qiáng)大齊全,“傻瓜化”,不普遍。處理回歸和時間序列的軟件應(yīng)用廣、歷史長、速度快、功能強(qiáng)、有統(tǒng)計包。需編程,操作不易。04常用統(tǒng)計軟件介紹搞經(jīng)濟(jì)的喜歡,編程強(qiáng)。中國用的不多172024/8/120.5應(yīng)用案例及選題參考美國選舉例子:誰會在1936選舉中獲勝?AlfLondon還是

F.D.R.(羅斯福)?

LiteraryDigest(文摘)送出一千萬份問卷(返回二百四十萬份)后,預(yù)測London會贏.而Gallop(蓋洛普)只問了5000人說

Roosevelt(羅斯福)會贏.最后羅斯福和蓋洛普都贏了.文摘倒閉了.182024/8/12大學(xué)排名:非常敏感的問題。不同機(jī)構(gòu)得出不同結(jié)果;如何理解這些結(jié)果呢?如何對學(xué)生成績進(jìn)行綜合評價?--主成分公司信用評價:一些公司試圖得到貸款時無不良記錄。如何根據(jù)它們的財務(wù)和商業(yè)資料來判斷一個公司的信用等級呢?我國東部和西部概念比較籠統(tǒng)。如何選擇一些指標(biāo)來把各省,或各市縣甚至村進(jìn)行分類呢?DNA鑒定、蝴蝶的分類--聚類分析如何才能夠客觀得到電視節(jié)目收視率,以確定廣告價格是否合理呢?確定紅樓夢前四十和后四十回是否曹雪芹一人寫?0.6應(yīng)用案例及選題參考192024/8/12高中成績和大學(xué)成績是否密切相關(guān)?地震與油價上漲有關(guān)嗎?--相關(guān)分析水質(zhì)污染和那些因素有關(guān)?如何確定重金屬污染源?--回歸如何設(shè)計調(diào)查問卷,收集數(shù)據(jù),調(diào)查大學(xué)生喜歡的手機(jī)品牌?兩種小麥品種產(chǎn)量是否有顯著差異?0.6應(yīng)用案例及選題參考202024/8/121.1.1一維總體的分布1.1.2表示位置的數(shù)字特征

1.1.4表示分布形狀的數(shù)字特征1.1.3表示分散性的數(shù)字特征§1.1一維數(shù)據(jù)的數(shù)字特征212024/8/121.1.1一維總體的分布X為一維總體,分布函數(shù)

—總體p分位數(shù)

數(shù)字特征

222024/8/121.均值(mean)

1.1一維數(shù)據(jù)的數(shù)字特征

來自總體X的n個數(shù)據(jù):—樣本觀測值,n—容量1.1.2表示位置的數(shù)字特征總體樣本總體取值的平均程度232024/8/12張村有個張千萬,九個鄰居窮光蛋;統(tǒng)計平均算資產(chǎn),個個都是張百萬。

缺點:易受異常值的影響。缺乏抗擾性、穩(wěn)健性優(yōu)點:總體均值無偏一致估計.含數(shù)據(jù)完整信息242024/8/12觀測值從小到大排列

其中——次序統(tǒng)計量252024/8/12例1.1某城市隨機(jī)抽取9個家庭,調(diào)查每個家庭的人均月收入數(shù)據(jù)(單位:元),如下:

10807507801080850960200012501630計算人均月收入的均值及中位數(shù).解:順序統(tǒng)計量

75078085096010801080125016302000

np=2.25非整數(shù),[np]+1=3262024/8/1274.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.367.367.372.775.873.575.072.773.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4計算均值,中位數(shù),上,下四分位數(shù),M0.99,M0.95,M0.95,M0.90,M0.10,M0.05,M0.01分位數(shù)及三均值。例1.2某單位100名女生測定血清蛋白含量(g/L),數(shù)據(jù):272024/8/12解:利用SAS系統(tǒng)PROCUNIVARIATE過程實現(xiàn).程序:data

examp1_2;/*建立數(shù)據(jù)集*/inputx@@;/*輸入變量x,不換行*/cards;/*數(shù)據(jù)行*/74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.367.367.372.775.873.575.072.773.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4;proc

univariatedata=examp1_2;/*調(diào)用單變量univariate過程*/

varx;/*變量x*/run;/*運行*/282024/8/12

分位數(shù)(定義5)

分位數(shù)估計值

100%最大值84.3099%M0.9982.9595%M0.9580.5090%M0.9079.1575%Q3上四分位75.8050%中位數(shù)M73.5025%Q1下四分位71.2010%M0.1068.405%M0.0567.301%M0.0164.650%最小值64.30分位數(shù)即排在約第100p位置的數(shù)據(jù)292024/8/121.方差、標(biāo)準(zhǔn)差與變異系數(shù)

標(biāo)準(zhǔn)差(方差)越大,觀察值分布越分散;反之越集中.

刻劃數(shù)據(jù)相對分散指標(biāo)——方差——標(biāo)準(zhǔn)差——變異系數(shù)1.1.3表示分散性的數(shù)字特征302024/8/12

—樣本均值等為總體均值的一致估計數(shù)字特征的作用P

—樣本均值等為總體均值的一致估計—樣本p分位數(shù)為總體p分位數(shù)的相合估計

樣本方差、標(biāo)準(zhǔn)差與變異系數(shù)為總體方差、標(biāo)準(zhǔn)差、變異系數(shù)的相合估計時,有

312024/8/121.偏度(skewness)分布偏斜度,反映以均值為中心的分布不對稱程度1.1.3表示分布形狀的數(shù)字特征

其中s樣本標(biāo)準(zhǔn)差.分布對稱;稱正偏度(右偏態(tài))均值右邊數(shù)據(jù)更分散;負(fù)偏度,均值左邊的數(shù)據(jù)更分散.左偏度

有極大數(shù)

有極小數(shù)頻數(shù)頻數(shù)---總體偏度其中s樣本標(biāo)準(zhǔn)差.分布對稱;稱正偏度(右偏態(tài))均值右邊數(shù)據(jù)更分散;負(fù)偏度,均值左邊的數(shù)據(jù)更分散.---總體偏度其中s樣本標(biāo)準(zhǔn)差.分布對稱;稱正偏度(右偏態(tài))均值右邊數(shù)據(jù)更分散;負(fù)偏度,均值左邊的數(shù)據(jù)更分散.---總體偏度其中s樣本標(biāo)準(zhǔn)差.分布對稱;稱正偏度(右偏態(tài))均值右邊數(shù)據(jù)更分散;負(fù)偏度,均值左邊的數(shù)據(jù)更分散.

右偏度頻數(shù)左偏度頻數(shù)322024/8/122.峰度

—樣本峰度相對尖銳的分布,尾部粗,異常數(shù)值多;負(fù)峰則相對平坦,尾部細(xì)與正態(tài)分布相比某分布的尖銳或平坦度.為樣本觀察值消除量綱影響的四階中心矩減去3,再按樣本數(shù)進(jìn)行無偏修正

尖峰粗尾

平峰細(xì)尾——總體峰度,度量總體扁平程度332024/8/12例1.4

從1952-2001年我國國民生產(chǎn)總值第一、二、三產(chǎn)業(yè)產(chǎn)值數(shù)據(jù)(見書例1.3).計算總值、第一、二、三產(chǎn)業(yè)產(chǎn)值主要數(shù)字特征,考察異常情況.解:程序如下:dataexamp1_4;inputyearxx1x2x3;cards;1952679.0342.9141.8194.31953824.0378.0192.5253.5……200195933.314609.949069.132254.3;run;proc

univariate

data=examp1_4;varxx1x2x3;

/*對xx1x2x3進(jìn)行univariate過程分析,輸出變量的結(jié)果*/run;342024/8/12結(jié)果:(1)國民生產(chǎn)總值數(shù)字特征特點:又上下截斷點分別為

94年以后數(shù)據(jù)均為特大值,從而說明從94年后,國民生產(chǎn)總值迅速增長。

均值與中位數(shù)M差距較大,均方差S、極差R都大,數(shù)據(jù)取值分散,偏度g1及g2取較大正值,說明右偏態(tài),數(shù)據(jù)有較多的特大值。(2)~(4)第一、二、三產(chǎn)業(yè)結(jié)果類似352024/8/12

UNIVARIATE過程

變量:x

N50權(quán)重總和50

均值16764.454

大觀測總和838222.7

標(biāo)準(zhǔn)偏差s26948.1675方差

726203730大

偏度g1

右偏1.86888604峰度g2

有極端值2.18137482

未校平方和4.96363E10校正平方和3.5584E10

變異系數(shù)160.74587標(biāo)準(zhǔn)誤差均值3811.04639基本統(tǒng)計測度位置變異性均值16764.45標(biāo)準(zhǔn)偏差

26948

中位數(shù)

3099.60方差726203730

眾數(shù).極差R95254

四分位極差R115452

位置檢驗:Mu0=0數(shù)據(jù)是否取值0檢驗

檢驗--統(tǒng)計量----------P值-------

學(xué)生tt4.398911Pr>|t|<.0001

符號M25Pr>=|M|<.0001

符號秩S637.5Pr>=|S|<.0001362024/8/12

分位數(shù)(定義5)分位數(shù)估計值100%最大值95933.399%95933.395%81910.990%71173.675%Q316909.250%中位數(shù)3099.625%Q11457.010%1048.05%859.01%679.00%最小值679.0

極值觀測

----最小值----------最大值-----

值觀測值觀測

679174462.646824278345.247859381910.948910489403.6491028595933.350372024/8/12課堂總結(jié)數(shù)據(jù)的位置特征——均值、中位數(shù)、分位數(shù)、三均值數(shù)據(jù)的分散性特征——方差、標(biāo)準(zhǔn)差、極差及四分位極差分布形狀特征——偏度、峰度1.掌握數(shù)據(jù)的數(shù)字特征2.掌握運用SAS軟件計算這些數(shù)字特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論