1.1一維數(shù)據(jù)數(shù)字特征_第1頁
1.1一維數(shù)據(jù)數(shù)字特征_第2頁
1.1一維數(shù)據(jù)數(shù)字特征_第3頁
1.1一維數(shù)據(jù)數(shù)字特征_第4頁
1.1一維數(shù)據(jù)數(shù)字特征_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 教 案20112012學(xué)年第一學(xué)期主 講 教 師李曉燕課 程 名 稱數(shù)據(jù)分析課程類別專業(yè)限選課學(xué)時(shí)及學(xué)分68;4授 課 班 級(jí)信息091使 用 教 材數(shù)據(jù)分析方法系(院.部)數(shù)理系教研室(實(shí)驗(yàn)室)信息與計(jì)算科學(xué)教研室數(shù)據(jù)分析總學(xué)時(shí):68 適用專業(yè):信息與計(jì)算科學(xué)內(nèi)容:數(shù)據(jù)的描述性分析 10學(xué)時(shí)線性回歸分析 13學(xué)時(shí)3.方差分析 10學(xué)時(shí)4.主成分分析與典型相關(guān)分析 8學(xué)時(shí)5.判別分析 8學(xué)時(shí)6.聚類分析 8學(xué)時(shí)7.Bayes統(tǒng)計(jì)分析 8學(xué)時(shí)8. SAS軟件介紹 3學(xué)時(shí)教材:數(shù)據(jù)分析方法,梅長林、范金城編,高等教育出版社.參考資料:實(shí)用統(tǒng)計(jì)方法,梅長林、周家良編,科學(xué)出版社;SAS統(tǒng)計(jì)分析應(yīng)用

2、,董大鈞編,電子工業(yè)出版社;應(yīng)用多元統(tǒng)計(jì)分析,高惠璇編,北京大學(xué)出版社.作業(yè):每周一次,以上機(jī)操作為主,通過網(wǎng)絡(luò)平臺(tái)布置與提交,批1/2.課時(shí)授課計(jì)劃課次序號(hào): 01 一、課題:1.1 一維數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù) 二、課型:新授課三、目的要求:1.掌握數(shù)據(jù)的數(shù)字特征(均值、方差等);2.掌握幾種描述性分析的SAS過程和作圖過程計(jì)算這些數(shù)字特征及進(jìn)行描述性分析.四、教學(xué)重點(diǎn):均值、方差等數(shù)字特征.教學(xué)難點(diǎn):基本概念的理解.五、教學(xué)方法及手段:傳統(tǒng)教學(xué)與上機(jī)實(shí)驗(yàn)相結(jié)合六、參考資料:1.實(shí)用統(tǒng)計(jì)方法,梅長林,周家良編,科學(xué)出版社;2.SAS統(tǒng)計(jì)分析應(yīng)用,董大鈞主編,電子工業(yè)出版社七、作業(yè):1.1八

3、、授課記錄:授課日期11.9.5班次信息091九、授課效果分析:0 緒論一數(shù)據(jù)分析(也即多元統(tǒng)計(jì)分析)研究的內(nèi)容和方法數(shù)據(jù)分析:是以數(shù)據(jù)為依據(jù),以統(tǒng)計(jì)方法為理論、計(jì)算機(jī)及軟為工具,研究多變量問題、挖掘數(shù)據(jù)的統(tǒng)計(jì)規(guī)律的學(xué)科.例如 下表給出某年級(jí)隨機(jī)抽取的7名學(xué)生5門課程期末考試的成績: 序號(hào) 政治 語文 外語 數(shù)學(xué) 物理 1 99 94 93 100 100 2 99 88 96 99 97 3 100 98 81 96 100 4 93 88 88 99 96 5 100 91 72 96 78 6 90 78 82 75 96 7 75 73 88 97 89如何根據(jù)抽樣數(shù)據(jù)研究該年級(jí)學(xué)生的

4、學(xué)習(xí)成績?用各科成績總和作為綜合指標(biāo),比較學(xué)生成績的好壞;根據(jù)各科成績的近似程度對(duì)學(xué)生進(jìn)行分類(成績好的與成績差的,文科成績好的與理科成績好的);研究各科成績之間的關(guān)系(物理與數(shù)學(xué)成績的關(guān)系,文科成績與理科成績的關(guān)系)等.綜上所述,多元統(tǒng)計(jì)分析是以各變量的n次觀測數(shù)據(jù)所組成的數(shù)據(jù)矩陣為依據(jù)的,根據(jù)實(shí)際問題的需要,給出種種方法.英統(tǒng)計(jì)學(xué)家肯德爾(Kendall) 概括多元統(tǒng)計(jì)分析研究內(nèi)容和方法為以下幾方面:1.多元統(tǒng)計(jì)的理論基礎(chǔ)包括多維隨機(jī)向量及多維正態(tài)隨機(jī)向量及由此定義的各種多元統(tǒng)計(jì)量,推導(dǎo)其分布并研究性質(zhì)、抽樣分布理論概率統(tǒng)計(jì)、數(shù)據(jù)描述性分析.2.多元數(shù)據(jù)的統(tǒng)計(jì)推斷參數(shù)估計(jì)和假設(shè)檢驗(yàn)問題.特

5、別是多元正態(tài)分布的均值向量及協(xié)方差陣的估計(jì)和假設(shè)檢驗(yàn)等問題數(shù)據(jù)描述性分析、方差分析、Bayses統(tǒng)計(jì)推斷.3.變量間的相互關(guān)系(1)相互依賴關(guān)系:分析一個(gè)或幾個(gè)變量的變化是否依賴于另一些變量的變化,建立變量間的定量關(guān)系式,并用于預(yù)測或控制回歸分析.(2)變量間的相互關(guān)系:分析兩組變量間的相互關(guān)系典型相關(guān)分析.颶風(fēng)和蝴蝶.4.簡化數(shù)據(jù)結(jié)構(gòu)(降維問題)通過變換將相關(guān)的變量變?yōu)椴幌嚓P(guān)的;高維數(shù)據(jù)投影到低維空間,簡化問題又損失信息不太多.如主成分分析、因子分析、相關(guān)分析、對(duì)應(yīng)分析等方法. 5.分類與判別(歸類問題)將考察的變量按相似程度分類聚類分析、判別分析.多元統(tǒng)計(jì)分析的起源:20世紀(jì)初,以1928

6、年威沙特(Wishart)發(fā)表的論文多元正態(tài)總體樣本協(xié)方差矩陣的精確分布為開端,之后費(fèi)希爾(Fisher)、霍特林(Hotelling)、羅伊(Roy)、許寶騄等做了一系列奠基性的工作.20世紀(jì)50年代中期,電子計(jì)算機(jī)的出現(xiàn)和發(fā)展,使得多元統(tǒng)計(jì)分析在地質(zhì)、氣象、醫(yī)學(xué)、社會(huì)學(xué)等方面得到廣泛的應(yīng)用.二多元統(tǒng)計(jì)分析的應(yīng)用1.教育學(xué)學(xué)生成績分析和預(yù)測.如高考成績和高中成績的關(guān)系,以此預(yù)測高考成績;給出考生成績次序排隊(duì)的最佳方案;利用高中成績進(jìn)行分類(按文理科、總成績).2.醫(yī)學(xué)根據(jù)檢查數(shù)據(jù)或病例資料建立診斷準(zhǔn)則,診斷病例.3.氣象學(xué)根據(jù)各地氣象站的氣象指標(biāo)資料(降雨量、氣溫、氣壓、濕度、風(fēng)速、風(fēng)向等)

7、做統(tǒng)計(jì)分析,進(jìn)行天氣預(yù)報(bào)等.4.環(huán)境科學(xué)分析污染氣體濃度,布局監(jiān)測點(diǎn),污染治理.5.地質(zhì)學(xué)處理地質(zhì)觀測數(shù)據(jù),進(jìn)行礦產(chǎn)預(yù)測、礦產(chǎn)構(gòu)造解釋、部署勘探工程等.6.考古學(xué)對(duì)發(fā)現(xiàn)的文物通過測得各類數(shù)據(jù),判斷出現(xiàn)的年代、種族等.7.服裝工業(yè)抽樣調(diào)查人體幾十個(gè)部位的尺寸數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析,決定服裝各型號(hào)及比例.使生產(chǎn)地成衣適應(yīng)大多數(shù)顧客的需要.8.經(jīng)濟(jì)學(xué)宏觀經(jīng)濟(jì)、微觀經(jīng)濟(jì)的應(yīng)用.9.農(nóng)業(yè)農(nóng)業(yè)灌區(qū)分類,農(nóng)機(jī)分類等.10.社會(huì)科學(xué)通過調(diào)查研究青少年犯罪各因素間的相互關(guān)系及變化規(guī)律,進(jìn)行預(yù)防.11.文學(xué)如復(fù)旦大學(xué)統(tǒng)計(jì)系李賢平使用聚類、主成分、相關(guān)分析,選定10個(gè)與情節(jié)無關(guān)的虛詞為變量,統(tǒng)計(jì)每一回虛詞出現(xiàn)的頻數(shù),進(jìn)

8、行統(tǒng)計(jì)分析,證明前80回為曹雪芹所寫,而后40回是他人所寫.12.其他體育科研、軍事科學(xué)、生物學(xué)、心理學(xué)、生態(tài)學(xué)、保險(xiǎn)、火警預(yù)報(bào)、地震預(yù)報(bào)、中醫(yī)陰陽學(xué)說研究等.第一章 數(shù)據(jù)的分布數(shù)據(jù)的描述性分析即從數(shù)據(jù)出發(fā)概括數(shù)據(jù)的特征.分為數(shù)字特征和分布特征.數(shù)字特征:用簡單的量概括數(shù)據(jù)包含的主要信息或特征.包括數(shù)據(jù)的集中位置、分散程度、數(shù)據(jù)分布的形狀特征等.表達(dá)數(shù)據(jù)集中位置的指標(biāo),用以描述觀察值的平均水平,如均值、中位數(shù)、分位數(shù)、三均值.表達(dá)數(shù)據(jù)的分散成度或變異的指標(biāo),用以描述觀察值間參差別不齊的程度,如方差、標(biāo)準(zhǔn)差、變異系數(shù)、極差、四分位數(shù)等.表達(dá)數(shù)據(jù)分布的形狀的數(shù)字特征等,如峰度和偏度.分布特征:反應(yīng)

9、數(shù)據(jù)整體結(jié)構(gòu)特征.本章介紹一維和多維數(shù)據(jù)描述性分析的基本內(nèi)容,包括數(shù)據(jù)的數(shù)字特征與分布特征的描述性分析.簡介多維正態(tài)分布的定義和性質(zhì). 1.1 一維數(shù)據(jù)的數(shù)字特征設(shè)有n個(gè)一維數(shù)據(jù): 它們是從所研究的對(duì)象(總體)X中觀測得到的,稱為樣本觀測值,n為樣本容量.數(shù)據(jù)分析的任務(wù):對(duì)樣本觀測值進(jìn)行分析,提取數(shù)據(jù)中所包含的有用的信息,進(jìn)一步對(duì)總體的信息做出推斷.首先用一些簡單的量概括數(shù)據(jù)中包含的信息或特征.1.1.1 表示位置的數(shù)字特征1均值(mean) (1.1) 為的(簡單算術(shù))平均數(shù),簡稱均值.描述數(shù)據(jù)取值的平均位置.注意:10 優(yōu)點(diǎn):是總體均值的無偏一致估計(jì),含有數(shù)據(jù)的完整信息,是位置的主要測度值

10、.適用于數(shù)值型數(shù)據(jù),不適用于分類和順序數(shù)據(jù). 20 缺點(diǎn):易受數(shù)據(jù)中異常值的影響,缺乏抗擾性、穩(wěn)健性.因此,在數(shù)據(jù)分析中還要考慮其他一些描述位置的數(shù)字特征. 30 其他平均值(不要求)(1)加權(quán)算術(shù)平均值(arithmetic mean) 其中為出現(xiàn)的頻數(shù).(2)幾何平均值(geometric mean)幾何平均值適用于表達(dá)呈對(duì)數(shù)正態(tài)分布資料的平均水平.常用于速度、比率等變量的平均.為觀察值的總乘積開次方根: 為避免溢出及方便計(jì)算,常用對(duì)數(shù)計(jì)算,也稱對(duì)數(shù)平均值: 加權(quán)幾何平均為: (3)調(diào)和平均值(harmonic mean )也稱倒數(shù)平均值.調(diào)和平均值適用于表達(dá)呈極嚴(yán)重的正偏態(tài)分布資料的平均

11、水平,有簡單調(diào)和平均值與加權(quán)調(diào)和平均值兩種: 簡單調(diào)和平均值 加權(quán)調(diào)和平均值 (4)分組數(shù)據(jù)加權(quán)平均數(shù)據(jù)被分成組,各組組中值為,各組變量出現(xiàn)的頻數(shù)為,則分組加權(quán)平均公式為: 當(dāng)數(shù)據(jù)量多時(shí),采用分組加權(quán)平均,可大大減少工作量,又不至于造成太大誤差.40 次序統(tǒng)計(jì)量:將觀測值從小到大排列,記為其中:分別為最小和最大次序統(tǒng)計(jì)量.2中位數(shù)(median) (1.2)中位數(shù)將總體或樣本的全部觀察值分成兩部分,每部分各有50%個(gè)觀察值,其計(jì)算方法為:先將原始觀察值按由小到大順序排列后,位次處于中間的那個(gè)觀察值為中位數(shù).觀察值為奇數(shù)時(shí),處于中間的那個(gè)數(shù)為中位數(shù).偶數(shù)時(shí)處于中間的兩個(gè)數(shù)的均值為中位數(shù).中位數(shù)是

12、位置平均值,受異常值影響小,較好的穩(wěn)健性在具有個(gè)別極大或極小值的分布數(shù)列中,中位數(shù)比算術(shù)平均值更具有代表性.適用于測量的順序數(shù)據(jù),表達(dá)數(shù)值型數(shù)據(jù)的集中趨勢(shì),不適用分類數(shù)據(jù).3分位數(shù)(percentile) (1.3)分位數(shù)為順序性數(shù)據(jù).,的分位數(shù)以表示,將總體或樣本觀察值分成兩部分,其中有100個(gè)觀察值不超過.中位數(shù)就是0.5分位數(shù).實(shí)際應(yīng)用中,0.25與0.75分位數(shù)重要,分別稱為下、上四分位數(shù).簡記為 4三均值 (1.4)為的加權(quán)平均,權(quán)重分別是.代表前25%部分,后25%部分,及中間的50%部分.在實(shí)際中,既要充分利用信息,又要較強(qiáng)的穩(wěn)健性,可以將這些量綜合起來,采用三均值作為概括位置的

13、數(shù)字特征.5. 眾數(shù)(mode)一組數(shù)據(jù)中出現(xiàn)頻數(shù)最多的變量值稱為眾數(shù),列為頻數(shù)表的資料,頻數(shù)最大的組的組中值為眾數(shù).適用于粗略地表示呈單峰分布資料的集中趨勢(shì).當(dāng)數(shù)據(jù)個(gè)數(shù)較少時(shí),眾數(shù)就是出現(xiàn)次數(shù)最多的個(gè)數(shù)據(jù).例1.1 某城市隨機(jī)抽取9個(gè)家庭,調(diào)查每個(gè)家庭的人均月收入數(shù)據(jù)(單位:元),如下: 1080 750 780 1080 850 960 2000 1250 1630計(jì)算人均月收入的均值及中位數(shù).解:順序統(tǒng)計(jì)量 750 780 850 960 1080 1080 1250 1630 2000, , 中位數(shù), ,眾數(shù)出現(xiàn)2次.二數(shù)字特征的作用總體的分布為 (或),即為總體均值的相合估計(jì)P,總體

14、分布的分位數(shù). 樣本分位數(shù)為總體分位數(shù)的相合估計(jì).例1.2 對(duì)某單位100名女學(xué)生測定血清蛋白含量(g/L),數(shù)據(jù)如下:74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4

15、 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4計(jì)算均值,中位數(shù),上,下四分位數(shù),M0.99,M0.95,M0.90,M0.10,M0.05,M0.

16、01分位數(shù)及三均值.解:利用SAS系統(tǒng)的PROC UNIVARIATE過程實(shí)現(xiàn).計(jì)算程序:data examp1_2;input x ;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2

17、81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;proc univariate data=examp1_2; /* 調(diào)

18、用univariate過程,這里無選項(xiàng),表示按此過程的默認(rèn)輸出結(jié)果*/ var x;run;注意:此過程的默認(rèn)結(jié)果輸出含有:N、MEAN、Sum、Std Dev、Variance、Skewness、Kurtosis、Ussr、Css、T(t檢驗(yàn)的值)、Prt(p值)、各種分位數(shù)、中位數(shù)、Range、Modern等.程序運(yùn)行結(jié)果The SAS System 17:39 Friday, August 27, 2009 7 The UNIVARIATE Procedure UNIVARIATE 過程 Variable 變量: x Moments 矩N 100 Sum Weights 權(quán)重總和 100

19、Mean 均值 73.66 Sum Observations 觀測總和 7366Std Deviation 標(biāo)準(zhǔn)偏差 3.94008153 Variance 方差 15.5242424Skewness 偏度 0.06007521 Kurtosis 峰度 0.03386864Uncorrected SS USSR 544116.46 Corrected SS CSS 1536.9未校平方和 校正平方和Coeff Variation CV 5.34901103 Std Error Mean 0.39400815變異系數(shù) 標(biāo)準(zhǔn)誤差均值Basic Statistical Measures 基本統(tǒng)計(jì)測度Location Variability 位置 變異性 Mean 均值 73.66000 Std Deviation 標(biāo)準(zhǔn)偏差 3.94008 Median 中位數(shù)M 73.50000 Variance 方差 15.52424 Mode 眾數(shù) 73.50000 Range 極差 20.00000 I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論