第2章 基本概念與基礎(chǔ)知識(shí)_第1頁
第2章 基本概念與基礎(chǔ)知識(shí)_第2頁
第2章 基本概念與基礎(chǔ)知識(shí)_第3頁
第2章 基本概念與基礎(chǔ)知識(shí)_第4頁
第2章 基本概念與基礎(chǔ)知識(shí)_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)介紹與計(jì)量模型相關(guān)的非常有用的介紹與計(jì)量模型相關(guān)的非常有用的統(tǒng)計(jì)學(xué)概念統(tǒng)計(jì)學(xué)概念在地理數(shù)量分析中應(yīng)用廣泛是許多計(jì)量方法的基礎(chǔ)知識(shí)而相關(guān)系數(shù)相關(guān)系數(shù)是貫穿整個(gè)地理數(shù)學(xué)方法的重要概念一、 什么是統(tǒng)計(jì)學(xué)二、 統(tǒng)計(jì)學(xué)的基本問題統(tǒng)計(jì)的涵義:統(tǒng)計(jì)的涵義:統(tǒng)計(jì)工作、統(tǒng)計(jì)資料、 統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)的過去與現(xiàn)在:統(tǒng)計(jì)學(xué)的過去與現(xiàn)在:統(tǒng)計(jì)學(xué)中的各大著名學(xué)派、統(tǒng)計(jì)學(xué)的現(xiàn)代格局統(tǒng)計(jì)學(xué)的研究方法:統(tǒng)計(jì)學(xué)的研究方法:大量觀察法 、統(tǒng)計(jì)描述法 、統(tǒng)計(jì)推斷法 、統(tǒng)計(jì)模型法 統(tǒng)計(jì)學(xué)的內(nèi)容統(tǒng)計(jì)學(xué)的內(nèi)容 :描述統(tǒng)計(jì)學(xué) 、推斷統(tǒng)計(jì)學(xué)案例:案例:我該什么時(shí)候上網(wǎng)?我該什么時(shí)候上網(wǎng)? 統(tǒng)計(jì)工作是為了管理或認(rèn)識(shí)的需要,對(duì)社會(huì)經(jīng)濟(jì)現(xiàn)

2、象和自然現(xiàn)象進(jìn)行數(shù)量收集的活動(dòng)。誰做? 統(tǒng)計(jì)局系統(tǒng)、 企業(yè)信息化 統(tǒng)計(jì)資料是統(tǒng)計(jì)工作過程中所取得的各項(xiàng)數(shù)字資料以及與之各項(xiàng)數(shù)字資料以及與之相關(guān)信息相關(guān)信息的總稱。統(tǒng)計(jì)資料是統(tǒng)計(jì)工作取得的能夠說明所研究對(duì)象的數(shù)據(jù)。例如國內(nèi)生產(chǎn)總值數(shù)據(jù),說明整個(gè)國家的生產(chǎn)規(guī)模。這些數(shù)據(jù)經(jīng)常會(huì)在報(bào)紙、雜志上出現(xiàn)。 統(tǒng)計(jì)學(xué)是在統(tǒng)計(jì)工作的經(jīng)驗(yàn)積累到一定程度時(shí)自然產(chǎn)生的,它是收集、整理、描述分析統(tǒng)計(jì)數(shù)據(jù)的方法和技術(shù),為我們的決策提供方面的依據(jù)。 不列顛百科全書對(duì)統(tǒng)計(jì)學(xué)的定義為:“統(tǒng)計(jì)學(xué)是關(guān)于收集和分析數(shù)據(jù)的科學(xué)和藝術(shù)”。 中華人民共和國國家統(tǒng)計(jì)局企業(yè)信息化模式藝術(shù):金字塔1. 1. 國勢(shì)學(xué)派國勢(shì)學(xué)派 2. 2. 政治算術(shù)

3、學(xué)派政治算術(shù)學(xué)派 3. 3. 數(shù)理統(tǒng)計(jì)學(xué)派數(shù)理統(tǒng)計(jì)學(xué)派 4. 4. 社會(huì)統(tǒng)計(jì)學(xué)派社會(huì)統(tǒng)計(jì)學(xué)派 一是以社會(huì)經(jīng)濟(jì)問題為主要研究對(duì)象的社會(huì)經(jīng)濟(jì)統(tǒng)計(jì),從屬于應(yīng)用經(jīng)濟(jì)學(xué)。 二是以方法和應(yīng)用研究為主的數(shù)理統(tǒng)計(jì)。從學(xué)科的角度看,從屬于數(shù)學(xué)。 趨勢(shì):小批量數(shù)據(jù)海量數(shù)據(jù);應(yīng)用領(lǐng)域越來越廣泛;催生新的交叉學(xué)科,如空間統(tǒng)計(jì)學(xué);“萬能”的方法論學(xué)科,成為近百年來,最有用的科學(xué)之一。代表人物:【德國】康令和阿亨瓦爾:開設(shè)國勢(shì)學(xué)課貢獻(xiàn):提出世界公認(rèn)的名詞統(tǒng)計(jì)學(xué)(Statistics) 評(píng)價(jià):“有統(tǒng)計(jì)之名,無統(tǒng)計(jì)之實(shí)”的學(xué)派 代表人物:【英國】威廉配第和約翰格朗特貢獻(xiàn):開用數(shù)量方法研究社會(huì)經(jīng)濟(jì)現(xiàn)象之先河評(píng)價(jià):“有統(tǒng)計(jì)之實(shí),

4、無統(tǒng)計(jì)之名”的學(xué)派 政治算術(shù)是一部用數(shù)量方法研究社會(huì)問題的著作。在書中,威廉佩蒂以勞動(dòng)價(jià)值論為基礎(chǔ),對(duì)英、法、荷三國進(jìn)行了國情、國力的數(shù)量對(duì)比分析,以此為依據(jù),為當(dāng)時(shí)英國社會(huì)經(jīng)濟(jì)發(fā)展出謀劃策。 馬克思稱配第是“政治經(jīng)濟(jì)學(xué)之父,在某種程度上也可以說是統(tǒng)計(jì)學(xué)的創(chuàng)始人” 代表人物:【法國、比利時(shí)、英國】人才濟(jì)濟(jì)。 拉普拉斯、凱特勒、戈賽特 、費(fèi)希爾、內(nèi)曼、卡爾 皮爾遜貢獻(xiàn): (1)完成統(tǒng)計(jì)學(xué)和概率論結(jié)合(2)建立了豐富的數(shù)理統(tǒng)計(jì)理論 他設(shè)計(jì)的“直線相關(guān)系數(shù)”是最常用的相關(guān)系數(shù),從其構(gòu)思過程中,體會(huì)“對(duì)稱美”;他構(gòu)建的“ 檢驗(yàn)”是最常用的檢驗(yàn)方法,從其公式形式中,體會(huì)“簡(jiǎn)單美”。許多學(xué)者把卡爾皮爾遜尊

5、稱為“統(tǒng)計(jì)學(xué)之父”。2代表人物:【德國】克尼斯、恩格爾和梅爾觀點(diǎn): 統(tǒng)計(jì)學(xué)的研究對(duì)象是社會(huì)現(xiàn)象,目的在于明確社會(huì)現(xiàn)象的內(nèi)在聯(lián)系和相互之間的關(guān)系。 在研究過程中,要用全面調(diào)查,也可以適量的使用抽樣調(diào)查抽樣調(diào)查。 大量觀察法是指統(tǒng)計(jì)研究各種現(xiàn)象和過程要從總體上加以考察,對(duì)現(xiàn)象總體中的全部或足夠多的個(gè)體進(jìn)行調(diào)查研究,將充分占有的實(shí)際數(shù)據(jù)資料,作為認(rèn)識(shí)的基礎(chǔ)。 統(tǒng)計(jì)描述法是對(duì)由調(diào)查或?qū)嶒?yàn)得到的統(tǒng)計(jì)數(shù)據(jù)資料進(jìn)行整理、歸類,計(jì)算出各種能反映總體數(shù)量特征的綜合指標(biāo),并加以分析研究,從而得出需要的數(shù)據(jù)資料信息,用表格、圖形和統(tǒng)計(jì)指標(biāo)數(shù)值來表示的統(tǒng)計(jì)方法。 統(tǒng)計(jì)推斷法是指以一定的置信水平,根據(jù)樣本數(shù)據(jù)資料來判斷

6、總體數(shù)量特征的歸納推理方法。 根據(jù)一定的理論和假定條件,用數(shù)學(xué)方程去模擬現(xiàn)實(shí)現(xiàn)象相互關(guān)系。利用它可對(duì)現(xiàn)象和過程中存在的數(shù)量關(guān)系進(jìn)行比較完整和近似的描述,簡(jiǎn)化客觀存在的復(fù)雜的其他關(guān)系,以便對(duì)現(xiàn)象狀態(tài)和變化過程進(jìn)行數(shù)量上的評(píng)價(jià)、預(yù)測(cè)和控制。 描述統(tǒng)計(jì)學(xué)研究如何取得反映客觀現(xiàn)象的數(shù)據(jù),并通過圖表形式對(duì)所收集的數(shù)據(jù)進(jìn)行加工處理和顯示,進(jìn)而通過綜合、概括與分析得出反映客觀現(xiàn)象的規(guī)律性數(shù)量特征。Descriptive Statistics 推斷統(tǒng)計(jì)學(xué)是研究如何根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)量特征的方法,它是在對(duì)樣本數(shù)據(jù)進(jìn)行描述的基礎(chǔ)上,對(duì)統(tǒng)計(jì)總體的未知數(shù)量特征作出以概率形式表述的推斷。Inferential S

7、tatistics 案例收集數(shù)據(jù)收集數(shù)據(jù) 整理數(shù)據(jù)整理數(shù)據(jù) 分析數(shù)據(jù)分析數(shù)據(jù) 展現(xiàn)結(jié)果展現(xiàn)結(jié)果 作出決策作出決策早點(diǎn)起,在網(wǎng)上飛馳 互聯(lián)網(wǎng)的用戶人數(shù)及分布、信息流量分布、域名注冊(cè)、用戶通常在什么時(shí)間上網(wǎng)等信息都可以從電訊局或網(wǎng)絡(luò)公司的業(yè)務(wù)記錄中獲得 。匯總每天某個(gè)時(shí)間點(diǎn)上,在線用戶占注冊(cè)用戶的比例來反映用戶通常上網(wǎng)的時(shí)間 一、變量與數(shù)據(jù)二、數(shù)據(jù)處理三、基本概念四、計(jì)算工具 1.1 變量分類系統(tǒng)之一 第一種系統(tǒng)將變量歸結(jié)為分類變量、順序變量和數(shù)量變量。G.R. Iversen 等在統(tǒng)計(jì)學(xué):基本概念和方法一書中,首先將回歸分析的變量分為兩大類:( 1)自變量(independent variabl

8、e,獨(dú)立變量),又叫解釋變量(explanatory variable)。(2)因變量(dependent variable,依存變量),又叫響應(yīng)變量(response variable)。關(guān)于自變量和因變量,我們?cè)诨貧w分析中將要反復(fù)講到。 (1)分類型變量(categorical variable):它的值是非數(shù)量的范疇。例如對(duì)于性別變量,它的值就是男和女,可以分別表示為1和0。 (2)順序型變量(rank variable):它的值是有序的。例如對(duì)態(tài)度變量,它的值就是反對(duì)、中立和贊同,可以分別表示為-1、0 和1;對(duì)比賽名次變量,它的值是第一、第二和第三,可以分別表示1、2 和3。有時(shí)也叫

9、做“次序變量(ordinal variable)”,因?yàn)橐獙?duì)數(shù)值排次序。 (3)數(shù)量型變量(metric variable):它的值是可以作為數(shù)學(xué)計(jì)算(加、乘)的有意義的數(shù)值。比如收入、重量、年齡等。不同類型的變量不同類型的變量因變量和自變量的類型因變量和自變量的類型1.2 變量分類系統(tǒng)之二 第二個(gè)系統(tǒng)將變量歸結(jié)為名義變量、次序變量和間隔變量。D.G. Kleinbaum 等在應(yīng)用回歸分析和其他多變量方法一書中根據(jù)測(cè)度的水平給出了如下變量分類:名義(nominal)變量、次序(ordinal)變量和間隔(interval)變量。大體上對(duì)應(yīng)于前面的分類變量、順序變量和數(shù)值變量。 (1)名義(no

10、minal)變量:數(shù)值上最弱的一種測(cè)度水平。 (2)次序(ordinal)變量:較高的測(cè)度水平,不僅將數(shù)分為幾個(gè)類別,而且理出順序。 (3)間隔(interval)變量:這種變量不僅可以給出數(shù)據(jù)類別的順序,而且可以給出不同類別之間距離的有意義的測(cè)度。四個(gè)數(shù)據(jù)集:四個(gè)數(shù)據(jù)集:中國主要宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)集、某年世界各國基本情況數(shù)據(jù)集 公司人力資源部數(shù)據(jù)集 、企業(yè)流水線上的抽樣數(shù)據(jù)集數(shù)據(jù)按測(cè)量的精度分:數(shù)據(jù)按測(cè)量的精度分:分類數(shù)據(jù)(categorical data)、順序數(shù)據(jù)(rank data) 數(shù)值型數(shù)據(jù)(metric data)定距尺度、定比尺度 數(shù)據(jù)按是否與時(shí)間有關(guān)分?jǐn)?shù)據(jù)按是否與時(shí)間有關(guān)分 :

11、時(shí)間序列數(shù)據(jù)(time series data)、截面數(shù)據(jù)(cross-sectional data)1、認(rèn)識(shí)數(shù)據(jù)、認(rèn)識(shí)數(shù)據(jù) 2、 數(shù)據(jù)標(biāo)準(zhǔn)化2.1 數(shù)據(jù)標(biāo)準(zhǔn)化的方法2.2 標(biāo)準(zhǔn)化數(shù)據(jù)的性質(zhì)2.3 廣義標(biāo)準(zhǔn)化 3、相關(guān)系數(shù)與相似系數(shù)3.1 相關(guān)/似系數(shù)的計(jì)算公式3.2 幾何意義和實(shí)例3.3 基于二樣本的變量相關(guān)系數(shù) 4、實(shí)驗(yàn)和調(diào)查數(shù)據(jù)的處理4.1 平均值代表真實(shí)值4.2 平均值代表真實(shí)值的數(shù)學(xué)原理 5、數(shù)據(jù)的缺失與估計(jì)總體 、個(gè)體、樣本、標(biāo)志、變量、指標(biāo)均值、方差、標(biāo)準(zhǔn)離差、協(xié)方差、極差、變異系數(shù)、標(biāo)準(zhǔn)誤差、自由度統(tǒng)計(jì)計(jì)算工具是完成統(tǒng)計(jì)分析的必統(tǒng)計(jì)計(jì)算工具是完成統(tǒng)計(jì)分析的必要條件。要條件。常用

12、的統(tǒng)計(jì)分析軟件常用的統(tǒng)計(jì)分析軟件 分類數(shù)據(jù)是對(duì)事物進(jìn)行分類的結(jié)果,數(shù)據(jù)的主要特征是采用文字、數(shù)字的代碼和其他符號(hào)對(duì)事物進(jìn)行簡(jiǎn)單的分類和分組。分類數(shù)據(jù)以定類尺度(nominal scale)來衡量。 即:等級(jí)數(shù)據(jù) 是對(duì)事物進(jìn)行分類的結(jié)果,只是這些分類在語義上表現(xiàn)出明顯的等級(jí)或順序關(guān)系,例如,學(xué)生的成績(jī)可以分為優(yōu)秀、良好、中等、及格和不及格。順序數(shù)據(jù)以定序尺度(ordinal scale)來衡量。 數(shù)值型數(shù)據(jù)是使用自然或度量衡單位對(duì)事物進(jìn)行測(cè)量的結(jié)果,其結(jié)果表現(xiàn)為具體數(shù)值。數(shù)值型數(shù)據(jù)有兩種衡量尺度:一是定距(間隔)尺度(interval scale)二是定比尺度(ratio scale)區(qū)別:“零

13、點(diǎn)” 時(shí)間序列數(shù)據(jù)(time series data)是在不同時(shí)間上收集到的數(shù)據(jù),它所描述的是現(xiàn)象隨時(shí)間而變化的情況。 截面數(shù)據(jù)(cross-sectional data)是在相同或近似相同的時(shí)間點(diǎn)上收集的數(shù)據(jù),它所描述的是現(xiàn)象在某一時(shí)刻或某一時(shí)間段的變化情況???體 統(tǒng)計(jì)總體,簡(jiǎn)稱總體(Population),就是統(tǒng)計(jì)所要研究的事物或現(xiàn)象的全體,即由客觀存在的,具有某種共同特征的許多個(gè)別事物構(gòu)成的整體。 總體的特點(diǎn):大量性、同質(zhì)性、差異性、相對(duì)性個(gè) 體 個(gè)體(Item Unit)是構(gòu)成統(tǒng)計(jì)總體的個(gè)別事物,又稱為總體單位。 樣 本 樣本(Sample)是指從統(tǒng)計(jì)總體中抽取出來作為代表這一總體的

14、、由部分個(gè)體組成的集合體。抽取原則:隨機(jī)、非隨機(jī)標(biāo) 志 統(tǒng)計(jì)標(biāo)志,簡(jiǎn)稱標(biāo)志(characteristic),是指每個(gè)個(gè)體所共同具有的屬性或特征,它是說明個(gè)體的屬性或特征的具體名稱。標(biāo)志按其性質(zhì)分為品質(zhì)標(biāo)志和數(shù)量標(biāo)志。 標(biāo)志按變異情況分為不變標(biāo)志和可變標(biāo)志。 可變的數(shù)量標(biāo)志稱為變量,其值稱為變量值。指 標(biāo) 統(tǒng)計(jì)指標(biāo),簡(jiǎn)稱指標(biāo)(indicator),是反映總體數(shù)量特征的,由各個(gè)個(gè)體的標(biāo)志值匯總綜合而成。任何一個(gè)統(tǒng)計(jì)指標(biāo)都是經(jīng)過了從個(gè)別到一般、從具體到抽象的過程,它體現(xiàn)總體特征,具有綜合性。注意:口徑 外延、維度分類:數(shù)量指標(biāo)、質(zhì)量指標(biāo)總體指標(biāo)、樣本指標(biāo)變 量 變量(variable)總是可以用數(shù)值

15、形式表現(xiàn)的,可變的數(shù)量標(biāo)志和所有的統(tǒng)計(jì)指標(biāo)都是變量。分類:離散型變量、連續(xù)型變量確定性變量、隨機(jī)變量 【例】根據(jù)大量資料統(tǒng)計(jì)結(jié)果,汽車的車禍有70%發(fā)生于中速行駛時(shí),30%發(fā)生于高速行駛時(shí),就此能否認(rèn)為高速行駛比中速行駛更安全?維 度 它是反映客觀事物的規(guī)?;蛩降闹笜?biāo),它表現(xiàn)為匯總后直接得到的絕對(duì)數(shù)或總量,又稱之為總量指標(biāo)或絕對(duì)指標(biāo)。數(shù)量指標(biāo)是最基本的指標(biāo),它是計(jì)算其他指標(biāo)的基礎(chǔ)。數(shù)量指標(biāo)包括標(biāo)志總量和總體單位總量,如總產(chǎn)值、工資總額、人口總數(shù)、企業(yè)個(gè)數(shù)等。數(shù)量指標(biāo) 它是反映客觀現(xiàn)象之間的相互聯(lián)系、比例關(guān)系、發(fā)展速度、內(nèi)部結(jié)構(gòu)的指標(biāo),一般用相對(duì)數(shù)或平均數(shù)表示。如勞動(dòng)生產(chǎn)率、成本利潤(rùn)率、人均國

16、民收入等。質(zhì)量指標(biāo)是由兩個(gè)數(shù)量指標(biāo)對(duì)比求得的,它是由數(shù)量指標(biāo)派生的。質(zhì)量指標(biāo)均值(均值(mean, average),一階矩一階矩 均值作為一組數(shù)據(jù)的代表,反映的是這組數(shù)據(jù)的平均水平,其幾何意義是一組數(shù)據(jù)的重心位置所在。因此,平均數(shù)是一個(gè)“位置”概念。算術(shù)平均數(shù)的計(jì)算公式為:這意味著:如果用一個(gè)數(shù)去代表一組數(shù)據(jù)的整體水平,只有 的代表性最強(qiáng)。因此均值均值可以最好地代表數(shù)據(jù)的中心位置中心位置。被稱為離均差平方和,簡(jiǎn)稱離差平方和離差平方和。 方差(方差(variance, var)、二階矩和標(biāo)準(zhǔn)離差)、二階矩和標(biāo)準(zhǔn)離差(standard deviation, stdev) 方差用以衡量數(shù)據(jù)的集中或

17、分散程度。如果參數(shù)序列是總體(population)本身,則采用總體方差(population variance);如果參數(shù)序列是總體的抽樣結(jié)果即樣本(sample),則采用抽樣方差(sample variance)??傮w方差公式為總體方差也叫二階中心矩(secondary central moment)為標(biāo)準(zhǔn)離差(standard derivation),有時(shí)簡(jiǎn)稱標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(SD),它是觀測(cè)值與均值之間的平均距離。因此,方差本質(zhì)上是一個(gè)距離概念。協(xié)方差(協(xié)方差(covariance, cov 或或covar) 協(xié)方差協(xié)方差用以衡量?jī)蓚€(gè)變量的協(xié)變趨勢(shì)即共同離散程度,計(jì)算公式為極差(極差(ra

18、nge)、變異系數(shù)()、變異系數(shù)(coefficient of variability)、標(biāo)準(zhǔn)誤差()、標(biāo)準(zhǔn)誤差(standard error,ste) 極差極差又稱范圍,用以反映數(shù)據(jù)之間的最大差距,計(jì)算公式為 統(tǒng)計(jì)分析中用以反映樣本變異程度的參量有標(biāo)準(zhǔn)離差和極差,此外還有平均離差(mean deviation,MD),定義為變異系數(shù)變異系數(shù)用于衡量數(shù)據(jù)的波動(dòng)性。計(jì)算公式為 標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)誤差用以衡量實(shí)測(cè)數(shù)據(jù)對(duì)預(yù)測(cè)數(shù)據(jù)的偏離程度,或者說實(shí)測(cè)數(shù)據(jù)相對(duì)于回歸線的離散程度。計(jì)算公式自由度(自由度(degree of freedom, df)物理學(xué)家對(duì)自由度的定義:為了確定一個(gè)運(yùn)動(dòng)的物體的位置,所需要的

19、獨(dú)立的坐標(biāo)數(shù)?;蛘哒f,一個(gè)系統(tǒng)的自由度是指系統(tǒng)運(yùn)動(dòng)時(shí),可以獨(dú)立改變的幾何參量的數(shù)目。統(tǒng)計(jì)學(xué)家的定義:為了得出所有觀測(cè)值所需要的最小觀測(cè)值的數(shù)目。統(tǒng)計(jì)學(xué)意義的自由度包括如下類別: 總自由度總自由度:樣品數(shù)目或者說樣本容量減 1,即n-1 回歸自由度:回歸自由度:自變量數(shù)目,亦即解釋變量數(shù)目,通常用字母 k 或者m 表示。 剩余自由度:剩余自由度:樣品數(shù)目減去變量數(shù)目再減 1,或者總自由度減去回歸自由度,即n-k-1 或者n-m-1。 三者的關(guān)系: 總自由度回歸自由度剩余自由度總自由度回歸自由度剩余自由度 我們?cè)趯?shí)際工作遇到的數(shù)據(jù),通常是基于多次測(cè)量的多變量分析對(duì)象。研究這類數(shù)據(jù),并建立數(shù)學(xué)模型,

20、稱為多變量分析,或者多元數(shù)據(jù)分析(analyzing multivariate data)。多元變量分析多元變量分析的對(duì)象可以抽象為一個(gè)數(shù)據(jù)陣列或者數(shù)據(jù)組(data array)。數(shù)據(jù)的排列方式一般是, 從左到右為變量( variable ), 自上而下為項(xiàng)目( item), 或者叫做研究對(duì)象(object),或者叫做事例或數(shù)據(jù)組(case)。這些變量和項(xiàng)目縱橫排列,構(gòu)成定量分析表格2.1 數(shù)據(jù)標(biāo)準(zhǔn)化的方法數(shù)據(jù)標(biāo)準(zhǔn)化的方法 如果上表描述的是一個(gè)具體的研究對(duì)象,表中的xij 都已被賦值,則我們稱之為數(shù)據(jù)集合,或者簡(jiǎn)稱數(shù)據(jù)集(data set),第i 個(gè)項(xiàng)目稱為第i 次測(cè)量 (measuremen

21、t)。如表所示,假定有m 個(gè)變量,n 個(gè)樣品,則可以進(jìn)一步抽象為一個(gè)mn 的矩陣X。對(duì)應(yīng)于現(xiàn)實(shí)中的某種數(shù)據(jù)集,方程如下計(jì)算結(jié)果叫做標(biāo)準(zhǔn)計(jì)分(得分)(standard score)2.2 標(biāo)準(zhǔn)化數(shù)據(jù)的性質(zhì)標(biāo)準(zhǔn)化數(shù)據(jù)的性質(zhì) 如果取 屬于中心化處理,中心化的數(shù)據(jù)均值為0,但量綱并不統(tǒng)一。中心化數(shù)據(jù)在時(shí)間序列分析時(shí)間序列分析中常常用到。 如果取 屬于量綱一致化處理,精度加權(quán)距離的計(jì)算就是基于這種數(shù)據(jù)計(jì)算歐式距離。經(jīng)過量綱一致化處理的數(shù)據(jù)標(biāo)準(zhǔn)差為1,但均值不為0。量綱一致化在聚類分析和判別分析聚類分析和判別分析中常常用到。 標(biāo)準(zhǔn)化的主要優(yōu)點(diǎn)可以歸結(jié)為兩條:其一,消除量綱差異的影響,回歸系數(shù)具有可比性;其

22、二,將數(shù)據(jù)的重心位置平移到坐標(biāo)原點(diǎn)位置,便于直觀判斷。經(jīng)過標(biāo)準(zhǔn)化處理的變量,相關(guān)系數(shù)等于協(xié)方差及夾角余弦,有助于幾何分析。數(shù)據(jù)標(biāo)準(zhǔn)化在主成分分析、因子分析和聚類分析中常常用到。在回歸分析中,如果計(jì)算標(biāo)準(zhǔn)化回歸系數(shù)和標(biāo)準(zhǔn)化殘差,則必須對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。2.3 廣義標(biāo)準(zhǔn)化廣義標(biāo)準(zhǔn)化 除了上述常規(guī)的標(biāo)準(zhǔn)化處理方法之外,還有其他數(shù)據(jù)標(biāo)準(zhǔn)化方式,統(tǒng)稱為廣義標(biāo)準(zhǔn)化。廣義的數(shù)據(jù)標(biāo)準(zhǔn)化還有極差標(biāo)準(zhǔn)化和極差正規(guī)化等。 極差標(biāo)準(zhǔn)化極差標(biāo)準(zhǔn)化將數(shù)值轉(zhuǎn)化到-1+1 之間,計(jì)算公式為式中R(x)表示極差最大值與最小值之差。顯然,與前述標(biāo)準(zhǔn)化的不同之處在于用極差代替了標(biāo)準(zhǔn)差。 極差標(biāo)準(zhǔn)化值的特點(diǎn):其一,均值為0。其二

23、,數(shù)值在-1 和+1 之間,但絕對(duì)值最大值一般不會(huì)達(dá)到1。 極差正規(guī)化極差正規(guī)化將數(shù)值轉(zhuǎn)化到01 之間,計(jì)算公式為 極差正規(guī)化極差正規(guī)化值的特點(diǎn):原來的最大值為1,原來的最小值為0,即有 有時(shí)為了在正規(guī)化正規(guī)化的同時(shí)將變量大小改變方向原來的大變成小、小變成大,則采用如下計(jì)量公式 此外,還有下面幾種數(shù)據(jù)轉(zhuǎn)換方式經(jīng)過這類處理的數(shù)據(jù)特點(diǎn)是均值為1。經(jīng)過這類處理的數(shù)據(jù)特點(diǎn)是最大值為1。原來最小值變?yōu)樵瓉碜钚≈底優(yōu)?,最大值變?yōu)?,最大值變?yōu)?,數(shù)值依然在,數(shù)值依然在01之間。之間。 3、相關(guān)系數(shù)(R型分析)與相似系數(shù)(Q型分析)3.1 相關(guān)/似系數(shù)的計(jì)算公式 假定有 n 個(gè)樣品,m 個(gè)變量,則可以建立一

24、個(gè)原始數(shù)據(jù)矩陣X 如下 相關(guān)系數(shù)(相關(guān)系數(shù)(correlation coefficient)是對(duì)于變量變量而言,第j 和第k 個(gè)變量的相關(guān)系數(shù),計(jì)算公式為或 相似系數(shù)(相似系數(shù)(similar coefficient)是針對(duì)樣本樣本而言,第i 和第r 個(gè)樣品的相似系數(shù),計(jì)算公式為或?qū)τ谌我鈨蓚€(gè)變量x 和y 的相關(guān)系數(shù)可以用標(biāo)準(zhǔn)計(jì)分標(biāo)準(zhǔn)計(jì)分表示,即有 3.2 幾何意義和實(shí)例 相關(guān)系數(shù)與相似系數(shù)的幾何意義是相似的,可以類比得知。下面基于標(biāo)準(zhǔn)化數(shù)據(jù),說明相關(guān)系數(shù)的幾何意義。為了簡(jiǎn)明起見,標(biāo)準(zhǔn)化數(shù)據(jù)的右上角標(biāo)省略。對(duì)于標(biāo)準(zhǔn)化數(shù)據(jù),原點(diǎn)為O( x, y )=O(0,0),計(jì)算X與Y的夾角這正是標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)系數(shù)公式。其中 下表是2000 年北京、天津及上海的非農(nóng)業(yè)人口和建成區(qū)面積(表)。非農(nóng)業(yè)人口和建成區(qū)面積為變量,城市為樣品。 在變量(建成區(qū)面積和非農(nóng)業(yè)人口)空間中表示樣品(北京、天津和上海)Q 型分析型分析(基于變量分析樣品);在樣品(北京、天津和上海)空間中表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論