數(shù)據統(tǒng)計與分析方法_第1頁
數(shù)據統(tǒng)計與分析方法_第2頁
數(shù)據統(tǒng)計與分析方法_第3頁
數(shù)據統(tǒng)計與分析方法_第4頁
數(shù)據統(tǒng)計與分析方法_第5頁
已閱讀5頁,還剩116頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、瞎子王國里,有一只眼精的人就是國王!心電圖的由來1780年有一天,年有一天,43歲的意大利解歲的意大利解剖學家伽伐尼剖學家伽伐尼Galvani Luigi,1737-1798),在實驗室解剖青),在實驗室解剖青蛙,在用銀質手術刀觸碰放在鐵盤上蛙,在用銀質手術刀觸碰放在鐵盤上的青蛙的時候,無意間發(fā)現(xiàn)青蛙腿部的青蛙的時候,無意間發(fā)現(xiàn)青蛙腿部肌肉抽搐了一下,仿佛受到電流的刺肌肉抽搐了一下,仿佛受到電流的刺激如果換用一種金屬器械去觸動青激如果換用一種金屬器械去觸動青蛙,就無此種反應。蛙,就無此種反應。1832年,一個晴朗的日子,還是年,一個晴朗的日子,還是意大利,還是青蛙,只是做實驗的意大利,還是青蛙

2、,只是做實驗的人換成了馬泰烏奇。人換成了馬泰烏奇。這一次,馬泰烏奇探測到損傷和未這一次,馬泰烏奇探測到損傷和未損傷的肌肉之間存在一種電流,他損傷的肌肉之間存在一種電流,他稱之為稱之為“肌肉電流肌肉電流”。他發(fā)現(xiàn),包。他發(fā)現(xiàn),包括心臟在內,一切正在收縮的肌肉括心臟在內,一切正在收縮的肌肉都會產生肌肉電流。都會產生肌肉電流。1、什么是數(shù)據? 數(shù)據表現(xiàn)形式數(shù)據表現(xiàn)形式表現(xiàn)形式一表現(xiàn)形式一數(shù)據列表數(shù)據表現(xiàn)形式二數(shù)據表現(xiàn)形式二2 24 48 82 26 69 92 22 24 42 24 45 53 38 81 15 59 95 52 25 55 52 25 54 42 23 37 72 21 11 1

3、1 17 71 11 16 66 62 24 47 74 42 22 23 30 03 33 32 20 04 41 12 24 42 20 06 66 67 74 47 70 03 36 66 64 41 10 04 40 03 33 33 30 03 34 43 34 47 77 70 01 10 00 02 20 00 03 30 00 04 40 00 05 50 00 06 60 00 07 70 00 08 80 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月描述性分

4、析:數(shù)據分時段走勢、差距變化情況以及描述性分析:數(shù)據分時段走勢、差距變化情況以及 相應的時間背景相應的時間背景銷售碼洋趨勢圖銷售碼洋趨勢圖數(shù)據表現(xiàn)形式三數(shù)據表現(xiàn)形式三3 31 1. .0 0% %3 36 6. .2 2% %4 43 3. .4 4% %3 36 6. .4 4% %6 64 4. .3 3% %8 85 5. .3 3% %5 57 7. .5 5% %6 60 0. .2 2% %5 53 3. .5 5% %4 47 7. .4 4% %3 39 9. .5 5% %3 35 5. .5 5% %3 33 3. .0 0% %1 13 3. .2 2% %2 21 1.

5、 .1 1% %3 30 0. .8 8% %3 36 6. .1 1% %4 49 9. .0 0% %6 67 7. .0 0% %5 51 1. .5 5% %4 47 7. .3 3% %4 43 3. .3 3% %3 37 7. .4 4% %3 30 0. .4 4% %2 25 5. .5 5% %2 27 7. .3 3% %0 0% %1 10 0% %2 20 0% %3 30 0% %4 40 0% %5 50 0% %6 60 0% %7 70 0% %8 80 0% %9 90 0% %1 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7

6、7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月銷售碼洋結構比銷售碼洋結構比1、計量資料 (measurement data) 用儀器、工具等測量方法獲得的數(shù)據,又稱數(shù)值變量。 特點:有計量單位,如患者的身高(cm),體重(kg),血壓(kPa)等.2、計數(shù)資料 (count data) 按某種屬性分類計數(shù)后得到的數(shù)據,又稱無序分類變量,有二分類和多分類兩種情形. 特點:無計量單位,如膚色(黑白)、血型(ABO)、職業(yè)(工農兵)、性別(男,女)等.3、等級資料 (ordinal data) 半定性或半定量的觀察結果,有大小順序,又稱有序分類變量.如 癌癥分期:早、中、

7、晚。 藥物療效:治愈、好轉、無效、死亡。 尿蛋白: ,+,+及以上住院號住院號年齡年齡身高身高體重體重住院住院天數(shù)天數(shù)職業(yè)職業(yè)文化文化程度程度分娩分娩方式方式妊娠妊娠結局結局2716571.55無無中學中學順產順產足月足月2216074.05無無小學小學助產助產足月足月2515868.06管理員管理員大學大學順產順產足月足月2316169.05無無中學中學剖宮產剖宮產足月足月2515962.011商業(yè)商業(yè)中學中學剖宮產剖宮產足月足月2715768.02無無小學小學順產順產早產早產2015866.04無無中學中學助產助產早產早產2415870.53無無中學中學助產助產足月足月2915457.07

8、干部干部中學中學剖宮產剖宮產足月足月計量資料計數(shù)資料 例:一組2040歲成年人的血壓以12kPa為界分為正常與異常兩組,統(tǒng)計每組例數(shù) 8 低血壓 8 正常血壓 12 輕度高血壓 15 中度高血壓 17 重度高血壓計量資料等級資料計數(shù)資料什么是統(tǒng)計方法什么是統(tǒng)計方法 統(tǒng)計方法統(tǒng)計方法是指有關收集、整理、是指有關收集、整理、分析和解釋統(tǒng)計分析和解釋統(tǒng)計數(shù)據數(shù)據,并對其所,并對其所反映的問題作出一定結論的方法反映的問題作出一定結論的方法。統(tǒng)計方法統(tǒng)計方法是一種從微觀結構上是一種從微觀結構上來研究物質的宏觀性質及其規(guī)律來研究物質的宏觀性質及其規(guī)律的獨特的方法。的獨特的方法。一般統(tǒng)計方法 根據數(shù)據的類型

9、可以分為以下三種統(tǒng)計方法根據數(shù)據的類型可以分為以下三種統(tǒng)計方法 1 、計量資料的統(tǒng)計方法、計量資料的統(tǒng)計方法* 2 、計數(shù)資料的統(tǒng)計方法、計數(shù)資料的統(tǒng)計方法 3 、等級資料的統(tǒng)計方法、等級資料的統(tǒng)計方法運用統(tǒng)計方法應遵循的原則&堅持用數(shù)據說話的基本觀點。&有目的地收集數(shù)據。&掌握數(shù)據的來源。&認真整理數(shù)據。統(tǒng)計分析流程統(tǒng)計分析流程確定問題確定分析目標采用科學方法收集數(shù)據考察數(shù)據時效性整理數(shù)據統(tǒng)計分析出具分析報告,提出解決意或建議1 1、頻數(shù)分布、頻數(shù)分布 (frequency distribution)(frequency distribution)為了了解數(shù)據

10、的分布情況,可以編制頻數(shù)表(frequency table).(1)求極差(range):即最大值與最小值之差,又稱為全距。(2)數(shù)據分組: 由樣本容量n確定組數(shù)、通常分10-15個組; 一般采取等距分組, 組距=極差/組數(shù)。(3)列出組段:第一組段的下限略小于最小值,最后一個組段上限必須包含最大值,其它組段上限值忽略。(4)劃記計數(shù):用劃記法將所有數(shù)據歸納到各組段,得到各組段的頻數(shù)。l 頻數(shù)表的編制步驟編號編號血清甘油三脂血清甘油三脂編號編號血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 4

11、0.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.78 80.640.641591591.711.711601601.771.77 表2-1: 160名正常成年女子的血清甘油三酯(mmol/L) 組段組段 (1) 劃劃 記記(2) 頻數(shù),頻數(shù),f(3) 組中值,組中值,X(4) fX(5)= (3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正130.8511.050.9正正正正正正170.951

12、6.151.0正正正正正正181.0518.901.1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正正正131.4518.851.5正正91.5512.401.6正正 81.6514.851.71.8 合計合計 31.755.25160182.30編制頻數(shù)表,繪制頻數(shù)分布圖對稱分布:以頻數(shù)最多組段為中心左右大體對稱.右(正)偏態(tài)分布: 頻數(shù)最多組段右側組段數(shù)多.(skewed to the right distribution)左(負)偏態(tài)分布: 頻數(shù)最多組段左側組段數(shù)多.(skewed to the right

13、 distribution)2、集中趨勢的描述 統(tǒng)計上使用平均數(shù)(average)來反映計量資料的集中趨勢( central tendency ). 常用平均數(shù)有:1. 算術均數(shù)(arithmetic mean),簡稱均數(shù) (mean)2. 幾何均數(shù)(geometric mean)3. 中位數(shù) (median)4. 百分位數(shù)(percentile)nXnXXXXn21iikkkffXffffXffXfXXfX32132111lglgiiifXGf12nnGX XX為偶數(shù)為奇數(shù)nxxnxMdnnn22/12/2/ )1(3、離散趨勢的描述 反映數(shù)據的離散度(Dispersion), 即個體觀察值

14、的變異(variation)程度, 常用的統(tǒng)計指標有: 1. 極差(Range) (全距) 2. 四分位數(shù)間距 (Quartile range) 3. 方差(Variance) 4. 標準差(Standard Deviation) 5. 變異系數(shù)(Coefficient of Variation)minmaxXXR221XXnSn四分位間距:QRP75 P25%100XSCV住院號住院號年齡年齡職業(yè)職業(yè)文化程度文化程度分娩方式分娩方式妊娠結局妊娠結局27無無中學中學順產順產足月足月22無無小學小學助產助產足月足月25管理人員管理人員大學大學順產順產足月足月24知識分子知識分子中學中學順產順產早

15、產早產30管理人員管理人員大學大學順產順產足月足月32無無小學小學剖宮產剖宮產足月足月27無無中學中學順產順產死產死產29無無大學大學剖宮產剖宮產足月足月25農民農民中學中學順產順產足月足月26無無小學小學順產順產足月足月1、計數(shù)資料數(shù)據的整理、計數(shù)資料數(shù)據的整理按年齡(按年齡(2 2歲一組)與職業(yè)整理歲一組)與職業(yè)整理年齡年齡工人工人管理人員管理人員農民農民商業(yè)服務商業(yè)服務無無知識分子知識分子總計總計1818 2 2 0 0 0 0 0 0 3 3 0 0 5 52020 9 9 2 2 6 61010 1818 0 0 454522222828 7 710102424 7070111115

16、015024245050343428285252153153444436136126265050434325254545133133707036636628283434353510103434 7878575724824830301111141411112222 3939171711411432321414 2 2 3 31414 2424 3 3 60603434 4 4 2 2 5 5 3 3 1212 2 2 28283636 2 2 1 1 1 1 4 4 5 5 1 1 14143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0

17、0 0 0 0 2 2合計合計 207207 141141102102208208537537206206140114012、常用相對數(shù)指標 計數(shù)資料常用的數(shù)據形式是絕對數(shù),如某病的出院人數(shù),治愈人數(shù)等.但絕對數(shù)不具可比性,需要計算相對數(shù).l 率(rate):說明某現(xiàn)象或某事物發(fā)生的頻率或強度。率=(實際發(fā)生數(shù)/可能發(fā)生總數(shù))比例基數(shù) 比例基數(shù):100%、1000、10000/萬、100000(1/10萬)等 如:發(fā)病率、死亡率、發(fā)生率、陽性率、患病率等l 構成比(proportion):說明某一事物內部,各組成部分所占的比重,也叫百分比。構成比=(某部分觀察單位數(shù)/各組成部分觀察單位總數(shù))1

18、00% 如:教研室20人中高級職稱有5人,占25。l 相對比(relative ratio):是A、B兩個有關指標之比,說明A是B的若干倍或百分之幾,通常用倍數(shù)或分數(shù)表示。如:男:女、醫(yī)生:護士、教師:學生 年齡組年齡組 受檢人數(shù)受檢人數(shù)白內障白內障例數(shù)例數(shù) 患者年齡患者年齡構成比(構成比(%)患病率(患病率(%)=(3)/(2)4050607080合計合計560441296149 2268129135 97 1915.1828.7930.1321.65 4.2412.1429.2545.6165.1086.36 1468448100.0030.52例例: 率與構成比率與構成比(1) 不能以構

19、成比代替率。(2) 計算相對數(shù)的分母不宜過小, 小則直接敘述。(3) 進行率的對比分析時,應注意資料可比性。如比較療效時,比較組間應病情輕重相同,性別影響,應按性別分組后再作比較。(4) 正確求平均率。 例: 若P1=x1/n1 P2=x2/n2 P3=x3/n3 P(x1+ x2+ x3)/ n1+ n2+ n3) (正確) P(P1+ P2+ P3)/3 (錯誤)3、相對數(shù)應用注意事項 統(tǒng)計表(statistical table)數(shù)據代替文字描述,便于統(tǒng)計結果的精確、簡潔的表達和對比分析. 統(tǒng)計圖(statistical chart)用圖形代替數(shù)據,獲得直觀、形象的效果.定義:將統(tǒng)計分析的

20、事物及指標用表格列出.特點:避免長篇文字敘述,便于閱讀和對比分析;數(shù)據具體.定義:用點的位置,線段的升降,直條的長短或面積的大小等形式表達統(tǒng)計資料.特點:直觀,醒目,常給人以深刻印象.統(tǒng)計表由以下幾個部分組成:標題、標目、線條、數(shù)字、備注表2-9 某省某工廠 1994、1998年四項檢測指標異常檢出率檢測檢測指標指標1994年年1998年年受檢人數(shù)受檢人數(shù) 異常人數(shù)異常人數(shù) 檢出率檢出率(%) 受檢人數(shù)受檢人數(shù)異常人數(shù)異常人數(shù) 檢出率檢出率(%) 血壓血壓 心率心率 TTT GPT 5195195195195544362010.16 0.48 6.94 3.855825825825823839

21、23166.526.703.952.75 :TTT(麝香草酚濁度試驗),(麝香草酚濁度試驗), :GPT(谷丙轉氨酶)。(谷丙轉氨酶)。 (丁建生等丁建生等. 中國衛(wèi)生統(tǒng)計中國衛(wèi)生統(tǒng)計 1999; 16(3):166 )1、統(tǒng)計表的結構. . . 縱 標 目總 標 目(單位). 合 計 . . 橫 標 目縱 標 目縱 標 目縱 標 目總 標 目橫標目的總 標 目備注:表號 標題(包括何時、何地、何事)2、三線表 根據分組標目的復雜程度,統(tǒng)計表可大致分為簡單表根據分組標目的復雜程度,統(tǒng)計表可大致分為簡單表和復合表。和復合表。 簡單表簡單表(simple table)(simple table):

22、只按一個特征或標志分組。:只按一個特征或標志分組。如表如表2-8 2-8 。 復合表復合表(combinative table) (combinative table) :按兩個或兩個以上特:按兩個或兩個以上特征或標志結合起來分組。如表征或標志結合起來分組。如表2-92-9。3、統(tǒng)計表的分類表表 2-15 第第三三組組病病人人各各年年存存活活及及死死亡亡情情況況 (原原表表) 年年份份(1) 病病例例數(shù)數(shù)(2) 存存活活數(shù)數(shù)(3) 住住院院期期死死亡亡總總例例數(shù)數(shù) (4)=(2)+(3) 急急性性期期 死死亡亡數(shù)數(shù) (5) 住住院院期期總總病病死死率率(%) (6)=(4)/(2) 急急性性期

23、期病病死死率率(%) (7)=(5)/(2) 1964 17 9 8 7 47.1 41.2 1965 13 8 5 4 38.5 30.8 1966 15 8 7 6 46.7 40.0 1967 15 9 6 6 40.0 40.0 1968 12 8 4 4 33.3 33.3 合合計計 72 42 30 27 41.7 37.5 表表 2-16 19641968 年年急急性性心心肌肌梗梗塞塞患患者者的的病病死死率率 (修修改改表表) 死死亡亡例例數(shù)數(shù) 病病死死率率(%) 年年份份 病病例例數(shù)數(shù) 住住院院數(shù)數(shù) 急急性性期期 住住院院期期 急急性性期期 1964 17 8 7 47.1 4

24、1.2 1965 13 5 4 38.5 30.8 1966 15 7 6 46.7 40.0 1967 15 6 6 40.0 40.0 1968 12 4 4 33.3 33.3 合合計計 72 30 27 41.7 37.5 3、不良統(tǒng)計表的修改 統(tǒng)計圖(statistical chart 或statistical graph)是用點、線、面等幾何圖形,直觀形象地表達、描述數(shù)據或結果。 3、統(tǒng)計圖 SPSS繪制基本圖形SPSS繪制基本圖形條形圖(Bar Chart) 用途:用等寬直條的長短來表示相互獨立的各統(tǒng)計指標的數(shù)值大小,也叫直條圖. 分單式和復式兩種.單式條形圖復式條形圖圓圖(Pi

25、e Chart) 用途:以圓的半徑將圓面分割成多個大小不等的扇形,以扇形面積來表達構成比的圖形。 線圖(Line Chart) 用途:適用于連續(xù)變量資料,說明某事物因時間、條件推移而變遷的趨勢。 直方圖(Histogram) 用途:直方圖是以面積表示數(shù)量,適用于表達連續(xù)性資料的頻數(shù)或頻率分布。 什么是數(shù)據分析 請牢記: 所有的分析要從“結果結果” 出發(fā),沒有結論的數(shù)字羅列并不是分析; “結果結果”:發(fā)現(xiàn)問題和解決問題。 數(shù)據分析不是一門復雜的科學數(shù)據分析不是一門復雜的科學;而是一些簡單的“common sense”;復雜的運算通常只是令分析結果更差而不是更好;絕大多數(shù)是簡單的想法和簡單的溝通

26、數(shù)據分析有時候是一門藝術數(shù)據分析有時候是一門藝術同樣的數(shù)據會有不同的解讀優(yōu)秀和平庸的差異,有時候差在一種靈感數(shù)據分析目的讓數(shù)據說話;行動的向導;杜絕浪費;提供決策的依據。數(shù)據分析誤區(qū)數(shù)據分析誤區(qū)誤區(qū)一誤區(qū)一: :展示元素不宜大于展示元素不宜大于3 3個個0 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00 09 90 00 00 00 00 01 10 00

27、00 00 00 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月數(shù)據分析誤區(qū)數(shù)據分析誤區(qū)誤區(qū)二誤區(qū)二:時間序列數(shù)據最好使用折線圖,而不宜使時間序列數(shù)據最好使用折線圖,而不宜使用柱狀圖等用柱狀圖等0 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00

28、 09 90 00 00 00 00 01 10 00 00 00 00 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月誤區(qū)三:研究用數(shù)據最好不使用三維立體圖研究用數(shù)據最好不使用三維立體圖1 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月S S1 1S S3 30 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04

29、40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00 09 90 00 00 00 00 01 10 00 00 00 00 00 0數(shù)據分析誤區(qū)數(shù)據分析誤區(qū)誤區(qū)四:為避免圖表的欺騙性,圖線最好占據誤區(qū)四:為避免圖表的欺騙性,圖線最好占據2/3 2/3 至至3/43/4的高度(調整的高度(調整Y Y軸刻度)軸刻度)7 7 3 3 . . 7 7 % %6 6 8 8 . . 1 1 % %6 6 9 9 . . 0 0 % %7 7 2 2 . . 9 9 % %7 7 3

30、3 . . 1 1 % %7 7 5 5 . . 6 6 % %7 7 0 0 . . 9 9 % %7 7 1 1 . . 9 9 % %7 7 1 1 . . 6 6 % %6 6 9 9 . . 0 0 % %6 6 2 2 . . 2 2 % %6 6 7 7 . . 1 1 % %7 7 5 5 . . 7 7 % %8 8 3 3 . . 5 5 % %7 7 1 1 . . 5 5 % %7 7 5 5 . . 4 4 % %7 7 9 9 . . 0 0 % %7 7 5 5 . . 8 8 % %7 7 6 6 . . 9 9 % %7 7 4 4 . . 5 5 % %6

31、6 8 8 . . 9 9 % %7 7 2 2 . . 9 9 % %7 7 7 7 . . 3 3 % %6 6 7 7 . . 7 7 % %7 7 5 5 . . 5 5 % %7 7 9 9 . . 6 6 % %0 0 % %1 1 0 0 % %2 2 0 0 % %3 3 0 0 % %4 4 0 0 % %5 5 0 0 % %6 6 0 0 % %7 7 0 0 % %8 8 0 0 % %9 9 0 0 % %1 1 0 0 0 0 % %1 1 2 2 月月 1 1 月月 2 2 月月 3 3 月月 4 4 月月 5 5 月月 6 6 月月 7 7 月月 8 8 月月

32、9 9 月月 1 1 0 0 月月 1 1 1 1 月月 1 1 2 2 月月7 73 3. .7 7% %6 68 8. .1 1% %6 69 9. .0 0% %7 72 2. .9 9% %7 73 3. .1 1% %7 75 5. .6 6% %7 70 0. .9 9% %7 71 1. .9 9% %7 71 1. .6 6% %6 69 9. .0 0% %6 62 2. .2 2% %6 67 7. .1 1% %7 75 5. .7 7% %8 83 3. .5 5% %7 71 1. .5 5% %7 75 5. .4 4% %7 79 9. .0 0% %7 75 5

33、. .8 8% %7 76 6. .9 9% %7 74 4. .5 5% %6 68 8. .9 9% %7 72 2. .9 9% %7 77 7. .3 3% %6 67 7. .7 7% %7 75 5. .5 5% %7 79 9. .6 6% %6 60 0% %6 65 5% %7 70 0% %7 75 5% %8 80 0% %8 85 5% %1 12 2月月 1 1月月 2 2月月 3 3月月 4 4月月 5 5月月 6 6月月 7 7月月 8 8月月 9 9月月 1 10 0月月 1 11 1月月 1 12 2月月數(shù)據分析誤區(qū)數(shù)據分析誤區(qū)1 1、抽樣法、抽樣法* *2

34、2、聚類分析(、聚類分析(Cluster AnalysisCluster Analysis)* *3 3、因子分析(、因子分析(Factor AnalysisFactor Analysis)4 4、相關分析、相關分析(Correlation Analysis)(Correlation Analysis)5 5、對應分析對應分析(Correspondence Correspondence AnalysisAnalysis)6 6、回歸分析(、回歸分析(regression analysis)regression analysis)7 7、方差分析、方差分析(ANOVA/Analysis of (

35、ANOVA/Analysis of Variance)Variance)總體、個體總體、個體總體又叫母體,是研究對象的全體??傮w又叫母體,是研究對象的全體。出版商一個批次到貨出版商一個批次到貨的全部都可以稱為總體。的全部都可以稱為總體。構成總體的基本單位,稱為個體。構成總體的基本單位,稱為個體。每冊書都是一個個體。每冊書都是一個個體。來貨檢驗常用抽樣方法進行,即從來貨總件數(shù)中抽出一部分件數(shù),并來貨檢驗常用抽樣方法進行,即從來貨總件數(shù)中抽出一部分件數(shù),并測試每件的有關冊數(shù)是否夠數(shù)的特性數(shù)據,進行統(tǒng)計分析后,對總體測試每件的有關冊數(shù)是否夠數(shù)的特性數(shù)據,進行統(tǒng)計分析后,對總體作出估計和判斷。作出估計

36、和判斷。一般地,設一個總體含有一般地,設一個總體含有N N個個個體個體,從,從中逐個不放回地中逐個不放回地抽取抽取n n個個體作為個個體作為樣本樣本(nNnN),如果每次抽取使),如果每次抽取使總體總體內的各內的各個個體被抽到的個個體被抽到的機會機會都相等,就把這種都相等,就把這種抽樣方法叫做簡單隨機抽樣。抽樣方法抽樣方法叫做簡單隨機抽樣。抽樣方法主要包括:隨機抽樣、分層抽樣、整體主要包括:隨機抽樣、分層抽樣、整體抽樣、系統(tǒng)抽樣。抽樣、系統(tǒng)抽樣。樣本樣本樣本樣本又叫又叫子樣子樣,是從總體中抽出來一部分個體的集合。,是從總體中抽出來一部分個體的集合。樣本中每個個體叫樣本中每個個體叫樣品樣品,樣本

37、中所包含樣品數(shù)目稱為樣本大小,樣本中所包含樣品數(shù)目稱為樣本大小,又叫又叫樣本量樣本量,常用,常用n n表示。表示。對樣本的特性進行測定,所得的數(shù)據稱為對樣本的特性進行測定,所得的數(shù)據稱為樣本值樣本值。當樣本個數(shù)越多時,分析結果越接近總體的值,樣本對總體的代當樣本個數(shù)越多時,分析結果越接近總體的值,樣本對總體的代表性就越好。表性就越好。抽樣方法抽樣方法用的統(tǒng)計抽樣方法主要有以下三種用的統(tǒng)計抽樣方法主要有以下三種書書業(yè)業(yè)公公司司抽樣方法抽樣方法隨機抽樣隨機抽樣指總體中每一個個體都有同等可能的機會被抽到。這種抽樣方法事先不能考慮抽取哪一個樣品,完全用偶然方法抽樣,常用抽簽或利用隨機數(shù)表來抽取樣品以保

38、證樣品代表性。抽樣當圖書品種不多時,隨機抽樣是一種有效的抽樣方法;抽樣方法抽樣方法分層抽樣分層抽樣分層抽樣是先將總體按照研究內容密切有關的主要因素分類或分層,然后在各層中按照隨機原則抽取樣本。分層抽樣可以減少層內差異,增加樣本的代表性。抽樣樣本當?shù)截洰a品較多時,分層抽樣是一種有效的抽樣方法;當?shù)截洰a品較多時,分層抽樣是一種有效的抽樣方法;抽樣方法抽樣方法系統(tǒng)抽樣系統(tǒng)抽樣從總體中每隔K個個體抽取一個個體的抽樣方法,比值K是總體容量N與樣本容量n之比;當出版商批量發(fā)貨及產品特別多時,并且易作某種次序的整理時,當出版商批量發(fā)貨及產品特別多時,并且易作某種次序的整理時,系統(tǒng)抽樣比分層抽樣好;系統(tǒng)抽樣比

39、分層抽樣好; 1, 2, . K K+ 1, K+2, ., 2K 2K + 1, 2K+2, ., 3K 直到 N為止例,從具有1000個個體的總體中抽取50個個體??傮w、樣本、數(shù)據間的關系總體、樣本、數(shù)據間的關系總體總體樣本樣本結論結論數(shù)據數(shù)據抽樣分析管理測試數(shù)理整理和統(tǒng)計數(shù)理整理和統(tǒng)計抽樣的目的是通過樣本來反映總體。抽樣的目的是通過樣本來反映總體。在書業(yè)公司經營管理中,常常將測試的樣本數(shù)據,通過整理加工,找在書業(yè)公司經營管理中,常常將測試的樣本數(shù)據,通過整理加工,找出它們的特性,從而推斷總體的變化規(guī)律、趨勢和性質。出它們的特性,從而推斷總體的變化規(guī)律、趨勢和性質。一批數(shù)據的分布情況,可以

40、用中心傾向及數(shù)據的分散程度來表示,表一批數(shù)據的分布情況,可以用中心傾向及數(shù)據的分散程度來表示,表示中心傾向的有平均值、中位值等,表示數(shù)據分散程度的有方差、標示中心傾向的有平均值、中位值等,表示數(shù)據分散程度的有方差、標準偏差、極差等。準偏差、極差等。描述總體數(shù)據離散程度的參數(shù)為方差描述總體數(shù)據離散程度的參數(shù)為方差2 2 ,描述總體數(shù)據中心傾向的,描述總體數(shù)據中心傾向的數(shù)為均值數(shù)為均值 。若利用樣本參數(shù)近似描述總體狀況時,可以利用樣本。若利用樣本參數(shù)近似描述總體狀況時,可以利用樣本方差方差S S2 2近似代替總體方差近似代替總體方差2 2,利用樣本均值,利用樣本均值X X近似代替總體均值近似代替總

41、體均值p p。數(shù)理整理和統(tǒng)計數(shù)理整理和統(tǒng)計樣本平均值樣本平均值樣本中位值樣本中位值X = X1+X2+X3 .+Xnn中位值是按照數(shù)據大小順序排列位于中間的數(shù)值,中位值記為X若n為偶數(shù),則取位于中間兩個數(shù)值的平均值為中位值;數(shù)理整理和統(tǒng)計數(shù)理整理和統(tǒng)計樣本極差樣本極差樣本方差和樣本標準偏差樣本方差和樣本標準偏差樣本方差和樣本標準差就是用來度量數(shù)據波動幅度大小的一個重要特性值。樣本方差是一組數(shù)據中每一個數(shù)值與平均值之差的平方和的平均值,通常記為S2;樣本方差的平方根S稱作樣本標準偏差,它與樣本方差一樣,是反映一組數(shù)據分散程度的特性值:樣本極差表示一組數(shù)據分布的范圍,是指數(shù)據中最大值與最小值的差:

42、 R = Xmax - Xmin2、聚類分析 聚類分析指將物理或抽象對象的集合分組成為由聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。類似的對象組成的多個類的分析過程。 聚類是將數(shù)據分類到不同的類或者簇這樣的一個聚類是將數(shù)據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據出發(fā),

43、自動進分類的標準,聚類分析能夠從樣本數(shù)據出發(fā),自動進行分類。行分類。 聚類分析所使用方法的不同,常常會得到不同的聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數(shù)據進行聚類分析,結論。不同研究者對于同一組數(shù)據進行聚類分析,所得到的聚類數(shù)未必一致。所得到的聚類數(shù)未必一致。分類 俗語說,物以類聚、人以群分。 但什么是分類的根據呢? 比如,要想把中國的縣分成若干類,就有很多種分類法; 可以按照自然條件來分, 比如考慮降水、土地、日照、濕度等各方面; 也可以考慮收入、教育水準、醫(yī)療條件、基礎設施等指標; 既可以用某一項來分類,也可以同時考慮多項指標來分類。 聚類分析 對于一個數(shù)據,

44、人們既可以對變量(指標)進行分類(相當于對數(shù)據中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數(shù)據中的行分類)。 比如學生成績數(shù)據就可以對學生按照理科或文科成績(或者綜合考慮各科成績)分類, 當然,并不一定事先假定有多少類,完全可以按照數(shù)據本身的規(guī)律來分類。 下面要介紹的分類的方法稱為聚類分析(cluster analysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學上是對稱的,沒有什么不同。 飲料數(shù)據(drink.sav ) 16種飲料的熱量、咖啡因、鈉及價格四種變量種飲料的熱量、咖啡因、鈉及價格四種變量 如何度量遠近? 如果想要對如果想要對100個

45、學生進行分類,如果僅僅知道個學生進行分類,如果僅僅知道他們的數(shù)學成績,則只好按照數(shù)學成績來分類;他們的數(shù)學成績,則只好按照數(shù)學成績來分類;這些成績在直線上形成這些成績在直線上形成100個點。這樣就可以把個點。這樣就可以把接近的點放到一類。接近的點放到一類。 如果還知道他們的物理成績,這樣數(shù)學和物理成如果還知道他們的物理成績,這樣數(shù)學和物理成績就形成二維平面上的績就形成二維平面上的100個點,也可以按照距個點,也可以按照距離遠近來分類。離遠近來分類。 三維或者更高維的情況也是類似;只不過三維以三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據中上的圖形無法直觀地畫

46、出來而已。在飲料數(shù)據中,每種飲料都有四個變量值。這就是四維空間點,每種飲料都有四個變量值。這就是四維空間點的問題了。的問題了。 聚類分析聚類分析1、系統(tǒng)聚類法、系統(tǒng)聚類法-(分層聚類)系統(tǒng)聚類法(分層聚類)系統(tǒng)聚類法是應用最廣泛的一種(是應用最廣泛的一種(Hierarchical Cluster過程過程) 1)、)、 聚類原則:都是相近的聚為一類,即聚類原則:都是相近的聚為一類,即距離最近或最相似的聚為距離最近或最相似的聚為 一類。一類。 2)、)、 分層聚類的方法可以用于樣本聚類(分層聚類的方法可以用于樣本聚類(Q)型,也可以用于變量聚類()型,也可以用于變量聚類(R型)。型)。2、非系統(tǒng)聚

47、類法、非系統(tǒng)聚類法-(快速聚類法(快速聚類法-K-均均值聚類法)(值聚類法)(K-means Cluster)3、兩步聚類法、兩步聚類法-一種探索性的聚類方法(一種探索性的聚類方法(TwoStep Cluster)K-K-均值聚類分析均值聚類分析K-means Cluster 又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類法。法。優(yōu)點:優(yōu)點: 是占內存少、計算量小、處理速度快,特別適合大樣本是占內存少、計算量小、處理速度快,特別適合大樣本的聚類分析。的聚類分析。缺點:缺點: 應用范圍有限,要求用戶制定分類數(shù)目應用范圍有限,要求用戶制定分類數(shù)目(

48、要告知要告知),只能,只能對對觀測量(樣本)觀測量(樣本)聚類,而不能對變量聚類,且所使用的聚類聚類,而不能對變量聚類,且所使用的聚類變量必須都是連續(xù)性變量變量必須都是連續(xù)性變量。時間序列分析時間序列分析( time series ( time series analysis)analysis)方法方法, ,強調的是通過對一個強調的是通過對一個區(qū)域進行一定時間段內的連續(xù)遙感觀區(qū)域進行一定時間段內的連續(xù)遙感觀測,提取圖像有關特征,并分析其變測,提取圖像有關特征,并分析其變化過程與發(fā)展規(guī)模。當然,首先需要化過程與發(fā)展規(guī)模。當然,首先需要根據檢測對象的時相變化特點來確定根據檢測對象的時相變化特點來確

49、定遙感監(jiān)測的周期,從而選擇合適的遙遙感監(jiān)測的周期,從而選擇合適的遙感數(shù)據。感數(shù)據。時間序列分析時間序列分析( time series analysis)( time series analysis)時間序列的基本概念時間序列的基本概念一、時間序列1、含義:指被觀察到的依時間為序排列的數(shù)據序列。2、特點: (1)現(xiàn)實的、真實的一組數(shù)據,而不是數(shù)理統(tǒng)計中做實驗得到的。既然是真實的,它就是反映某一現(xiàn)象的統(tǒng)計指標,因而,時間序列背后是某一現(xiàn)象的變化規(guī)律。 (2)動態(tài)數(shù)據。2010年11月17日-2011年4月8日上證綜指二、時間序列分析 時間序列分析:是一種根據動態(tài)數(shù)據揭示系統(tǒng)動態(tài)結構和規(guī)律的統(tǒng)計方法

50、。其基本思想基本思想:根據系統(tǒng)的有限長度的運行記錄(觀察數(shù)據),建立能夠比較精確地反映序列中所包含的動態(tài)依存關系的數(shù)學模型,并借以對系統(tǒng)的未來進行預報三、確定性時間序列分析與隨機性時間序列分析:時間序列依據其特征,有以下幾種表現(xiàn)形式,并產生與之相適應的分析方法:(1)長期趨勢變化 受某種基本因素的影響,數(shù)據依時間變化時表現(xiàn)為一種確定傾向,它按某種規(guī)則穩(wěn)步地增長或下降。使用的分析方法有:移動平均法、指數(shù)平滑法、模型擬和法等;(2)季節(jié)性周期變化 受季節(jié)更替等因素影響,序列依一固定周期規(guī)則性的變化,又稱商業(yè)循環(huán)。采用的方法:季節(jié)指數(shù);(3)循環(huán)變化 周期不固定的波動變化。(4)隨機性變化由許多不確

51、定因素引起的序列變化。它所使用的分析方法就是我們要講的時間序列分析。 趨勢變化分析 確定性變化分析 周期變化分析 循環(huán)變化分析時間序列分析 隨機性變化分析: AR、MA、ARMA模型 Wold分解定理(1938) 對于任何一個離散平穩(wěn)過程 它都可以分解為兩個不相關的平穩(wěn)序列之和,其中一個為確定性的,另一個為隨機性的,不妨記作 其中: 為確定性序列, 為隨機序列, 它們需要滿足如下條件 (1) (2) (3)txtttVxtV t0jjtjt020, 1jj ), 0(2WNtstVEst , 0),(確定性序列與隨機序列的定義 對任意序列 而言,令 關于q期之前的序列值作線性回歸 其中 為回歸

52、殘差序列, 。 確定性序列,若 隨機序列,若t2)(qtVar2lim0qq)(lim2tqqyVarCramer分解定理(1961) 任何一個時間序列 都可以分解為兩部分的疊加:其中一部分是由多項式決定的確定性趨勢成分,另一部分是平穩(wěn)的零均值誤差成分,即txtttx確定性影響隨機性影響taB)(djjjt0循環(huán)變動循環(huán)變動C(Cyclical)不規(guī)則變動不規(guī)則變動I(Irregular)季節(jié)變動季節(jié)變動S(Seasonal)長期趨勢長期趨勢T(Trend)對兩個分解定理的理解 Wold分解定理說明任何平穩(wěn)序列都可以分解為確定性序列和隨機序列之和。它是現(xiàn)代時間序列分析理論的靈魂,是構造ARMA

53、模型擬合平穩(wěn)序列的理論基礎。 Cramer 分解定理是Wold分解定理的理論推廣,它說明任何一個序列的波動都可以視為同時受到了確定性影響和隨機性影響的綜合作用。平穩(wěn)序列要求這兩方面的影響都是穩(wěn)定的,而非平穩(wěn)序列產生的機理就在于它所受到的這兩方面的影響至少有一方面是不穩(wěn)定的。 確定性時序分析的目的 克服其它因素的影響,單純測度出某一個確定性因素對序列的影響 推斷出各種確定性因素彼此之間的相互作用關系及它們對序列的綜合影響4-3-2 4-3-2 時間序列時間序列趨勢分析趨勢分析 目的 有些時間序列具有非常顯著的趨勢,我們分析的目的就是要找到序列中的這種趨勢,并利用這種趨勢對序列的發(fā)展作出合理的預測

54、 常用方法 趨勢擬合法 平滑法趨勢擬合法 趨勢擬合法就是把時間作為自變量,相應的序列觀察值作為因變量,建立序列值隨時間變化的回歸模型的方法 分類 線性擬合 非線性擬合線性擬合 使用場合 長期趨勢呈現(xiàn)出線形特征 模型結構)(, 0)(ttttIVarIEIbtax例:擬合澳大利亞政府19811990年每季度的消費支出序列 線性擬合 模型 參數(shù)估計方法 最小二乘估計 參數(shù)估計值2)(, 0)(40,2 , 1,ttttIVarIEtIbtax12.89,69.8498ba擬合效果圖非線性擬合 使用場合 長期趨勢呈現(xiàn)出非線形特征 參數(shù)估計指導思想 能轉換成線性模型的都轉換成線性模型,用線性最小二乘法

55、進行參數(shù)估計 實在不能轉換成線性的,就用迭代法進行參數(shù)估計 常用非線性模型模型變換變換后模型參數(shù)估計方法線性最小二乘估計線性最小二乘估計迭代法迭代法迭代法2ctbtaTtttabT ttbcaTtbcateTttbcaT122tt ttTTlnaalnbbln2ctbtaTttbaTt例: 對上海證券交易所每月末上證指數(shù)序列進行模型擬合 非線性擬合模型變換參數(shù)估計方法線性最小二乘估計擬合模型:2ctbtaTt22tt 20952. 02517.502tTt擬合效果圖時間序列預測法時間序列預測法 時間序列預測法可用于短期預測、中期預測和長期預測。根據對資料分析方法的不同,又可分為:簡單序時平均數(shù)

56、法、加權序時平均數(shù)法平滑法 平滑法是進行趨勢分析和預測時常用的一種方法。它是利用修勻技術,削弱短期隨機波動對序列的影響,使序列平滑化,從而顯示出長期趨勢變化的規(guī)律 簡單平均數(shù)法 :也稱算術平均法。即把若干歷史時期的統(tǒng)計數(shù)值作為觀察值,求出算術平均數(shù)作為下期預測值。這種方法基于下列假設:“過去這樣,今后也將這樣”,把近期和遠期數(shù)據等同化和平均化,因此只能適用于事物變化不大的趨勢預測。如果事物呈現(xiàn)某種上升或下降的趨勢,就不宜采用此法。 加權平均數(shù)法: 就是把各個時期的歷史數(shù)據按近期和遠期影響程度進行加權,求出平均值,作為下期預測值。移動平均法 基本思想 假定在一個比較短的時間間隔里,序列值之間的差

57、異主要是由隨機波動造成的。根據這種假定,我們可以用一定時間間隔內的平均值作為某一期的估計值 分類 n期中心移動平均 n期移動平均移動平均期數(shù)確定的原則 事件的發(fā)展有無周期性 以周期長度作為移動平均的間隔長度 ,以消除周期效應的影響 對趨勢平滑的要求 移動平均的期數(shù)越多,擬合趨勢越平滑 對趨勢反映近期變化敏感程度的要求 移動平均的期數(shù)越少,擬合趨勢越敏感移動平均預測)(121nlTlTlTlTxxxnxilxilxxilTilTilT,時間序列模型的基本概念及其適用性時間序列模型的基本概念及其適用性時間序列模型的基本概念時間序列模型的基本概念 隨 機 時 間 序 列 模 型 (隨 機 時 間 序

58、 列 模 型 ( n i m e s e r i e s modeling)是指僅用它的過去值及隨機擾動項所建立起來的模型,其一般形式為 Yn=F(Yn-1, Yn-2, , n) 建立具體的時間序列模型,需解決如下三個建立具體的時間序列模型,需解決如下三個問題問題: (1)模型的具體形式模型的具體形式 (2)時序變量的滯后期時序變量的滯后期 (3)隨機擾動項的結構隨機擾動項的結構 例如,取線性方程、一期滯后以及白噪聲隨機擾動項( n =n),模型將是一個1階自回階自回歸過程歸過程AR(1): Yn=aYn-1+ n這里, n特指一白噪聲一白噪聲。 一般的p階自回歸過程階自回歸過程AR(p)是

59、 Yn=a1Yn-1+ a2Yn-2 + + apYn-p + n (*) (1)如果隨機擾動項是一個白噪聲(n=n),則稱(1)式為一純純AR(p)過程(過程(pure AR(p) process),記為 Yn=a1Yn-1+ a2Yn-2 + + apYn-p +n (2)如果n不是一個白噪聲,通常認為它是一個q階的移動平均(移動平均(moving average)過程)過程MA(q): n=n - c1n-1 - c2n-2 - - cqn-q 該式給出了一個純純MA(q)過程(過程(pure MA(p) process)。 一般的p階自回歸過程階自回歸過程AR(p)是 Yn=a1Yn-1+ a2Yn-2 + + apYn-p

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論