統(tǒng)計(jì)方法總結(jié)_第1頁(yè)
統(tǒng)計(jì)方法總結(jié)_第2頁(yè)
統(tǒng)計(jì)方法總結(jié)_第3頁(yè)
統(tǒng)計(jì)方法總結(jié)_第4頁(yè)
統(tǒng)計(jì)方法總結(jié)_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

蘭州商學(xué)院統(tǒng)計(jì)學(xué)院統(tǒng)計(jì)建模作業(yè)(第一次)題目:統(tǒng)計(jì)建模方法總結(jié)班級(jí):09級(jí)統(tǒng)計(jì)三班姓名:王玥學(xué)號(hào):20090601339年月日統(tǒng)計(jì)方法統(tǒng)計(jì)方法是指用以收集數(shù)據(jù)、分析數(shù)據(jù)和有數(shù)據(jù)得出結(jié)論所用的一系列方法的總稱。一、統(tǒng)計(jì)與數(shù)據(jù)統(tǒng)計(jì)方法是研究數(shù)據(jù)的方法,研究統(tǒng)計(jì)方法首先要研究數(shù)據(jù),及研究數(shù)據(jù)的定義、數(shù)據(jù)的搜集方法、數(shù)據(jù)的分類和數(shù)據(jù)的來(lái)源等。1、定義:變量的特點(diǎn)是從一次觀察到下一次觀察會(huì)出現(xiàn)不同結(jié)果。把觀察到的結(jié)果記錄下來(lái)就是數(shù)據(jù)。2、數(shù)據(jù)的搜集方法:(1)普查:是專門組織的一次性全面調(diào)查,適用于搜集某些不能或不適宜于定期的全面統(tǒng)計(jì)報(bào)表搜集的統(tǒng)計(jì)資料,以摸清重大的國(guó)情、國(guó)力。(2)抽樣調(diào)查:第一,是一種非全面調(diào)查;第二,按照隨機(jī)原則從總體中抽取一部分單位作為樣本進(jìn)行觀察研究;第三,能夠根據(jù)部分調(diào)查的實(shí)際資料對(duì)調(diào)查對(duì)象的總體的數(shù)量特征進(jìn)行推斷;第四,在抽樣調(diào)查中會(huì)存在抽樣誤差,但這個(gè)誤差可以事先計(jì)算并加以控制;第五,樣本是從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素的數(shù)目稱為樣本量;第六,在實(shí)際調(diào)查中,抽樣方法主要有兩種,概率抽樣和非概率抽樣。常用的概率抽樣形式為:a、簡(jiǎn)單隨機(jī)抽樣(最基本的形式);b、分層抽樣:先分“層”或“組”,再在每一層中進(jìn)行抽;c、整群抽樣:先分“組”或“群”,然后對(duì)抽中的一個(gè)群的全體進(jìn)行調(diào)查;d、系統(tǒng)抽樣:又稱等距抽樣,特點(diǎn)為在總體中每隔一定距離抽選一個(gè)被調(diào)查者。e、多階段抽樣(3)統(tǒng)計(jì)報(bào)表:對(duì)于大型國(guó)有企業(yè)來(lái)說(shuō),利用統(tǒng)計(jì)報(bào)表搜集數(shù)據(jù),具有時(shí)間快、成本低的優(yōu)點(diǎn)。(4)重點(diǎn)調(diào)查:在調(diào)查對(duì)象中選擇一部分重點(diǎn)單位進(jìn)行的一種非全面調(diào)查。這些重點(diǎn)單位雖然數(shù)目不多,但它們具有所研究現(xiàn)象的數(shù)量在總體總量中占據(jù)絕大部分的特點(diǎn)。(5)典型調(diào)查:也是一種非全面的專門調(diào)查,在對(duì)被調(diào)查對(duì)象進(jìn)行全面分析的基礎(chǔ)上,有意識(shí)地選擇若干具有典型意義的或有代表性的單位進(jìn)行的調(diào)查。3、數(shù)據(jù)的分類:(1)定性變量(數(shù)據(jù))與定量變量(數(shù)據(jù))定性數(shù)據(jù)的最大特點(diǎn)是它只能反映現(xiàn)象的屬性特點(diǎn),而不能說(shuō)明具體量的大小的差異;定性變量又可分為分類變量和順序變量。分類數(shù)據(jù)只能用來(lái)區(qū)分事物,而不能用來(lái)表明事物之間的大小、優(yōu)劣關(guān)系;順序數(shù)據(jù)的數(shù)據(jù)之間雖然可以比較大小,卻無(wú)法計(jì)算相互之間大小、高低或優(yōu)劣的距離。定量變量可以用數(shù)值表示其觀察結(jié)果,而且這些數(shù)值具有明確的數(shù)值含義,不僅能分類而且能測(cè)量出來(lái)具體大小和差異。(2)觀測(cè)數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)4、數(shù)據(jù)的來(lái)源:(1)直接來(lái)源:即通過(guò)自己的調(diào)查或?qū)嶒?yàn)活動(dòng),直接獲得的第一手?jǐn)?shù)據(jù)。(2)間接數(shù)據(jù):即數(shù)據(jù)是由別人通過(guò)調(diào)查或?qū)嶒?yàn)的方式搜集的。使用者只是找到它們并加以使用。主要渠道有:各類統(tǒng)計(jì)年鑒;各類專業(yè)期刊、報(bào)紙、書籍所提供的文獻(xiàn)參考資料;從互聯(lián)網(wǎng)、圖書館查閱到的相關(guān)資料,等等。二、統(tǒng)計(jì)分析方法統(tǒng)計(jì)分析數(shù)據(jù)的方法大體上可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)兩大類。其中,描述統(tǒng)計(jì)是研究數(shù)據(jù)搜集、處理和描述的統(tǒng)計(jì)學(xué)方法;推斷統(tǒng)計(jì)則是研究如何利用樣本數(shù)據(jù)來(lái)推斷總體特征的統(tǒng)計(jì)學(xué)方法,內(nèi)容包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩大類。描述性統(tǒng)計(jì)方法1、可用頻數(shù)分布表和圖形來(lái)描述定性數(shù)據(jù)。(1)頻數(shù)分布表:先把事物所有的類別都列出來(lái),然后統(tǒng)計(jì)出每一類別的頻數(shù),就是一張頻數(shù)分布表。頻數(shù)分布表中落在某一特定類別的數(shù)據(jù)個(gè)數(shù)稱為頻數(shù)。(2)餅圖主要用于總體中各組成部分所占比重的研究;條形圖用于觀察不同類別數(shù)據(jù)的多少或分布情況;環(huán)形圖可以比較不同變量之間的結(jié)構(gòu)差異。2、用頻數(shù)分布表展示定量數(shù)據(jù)(1)對(duì)數(shù)據(jù)進(jìn)行分組,一般的分組個(gè)數(shù)在5——15之間。(2)確定組距,組距=上限-下限。確定組距時(shí),一般應(yīng)當(dāng)掌握以下原則:一是要考慮各組的劃分是否能區(qū)分總體內(nèi)部各個(gè)組成部分的性質(zhì)差別;二是要能準(zhǔn)確地清晰地反映總體單位的分布特征。確定組距時(shí),如研究的現(xiàn)象變動(dòng)比較均勻,可以采用等距分組;否則采用不等距分組。(3)統(tǒng)計(jì)出各級(jí)的頻數(shù)及頻數(shù)分布表(采取“上限不在內(nèi)”的原則)。3、定量數(shù)據(jù)的圖形表示(1)直方圖:橫坐標(biāo)代表變量分組,縱坐標(biāo)代表各變量值出現(xiàn)的頻數(shù)。(2)折線圖:用于表示現(xiàn)象的分配情況、現(xiàn)象在時(shí)間上的變化和兩個(gè)現(xiàn)象之間的依存關(guān)系等。(3)散點(diǎn)圖:反映兩個(gè)變量的關(guān)系。4、統(tǒng)計(jì)表的相關(guān)內(nèi)容(1)使用統(tǒng)計(jì)表的目的:一是在文章中使用它以支持自己的觀點(diǎn);二是利用它組織數(shù)據(jù)。(2)統(tǒng)計(jì)表一般由五個(gè)部分組成,即表頭、行標(biāo)題、列標(biāo)題、數(shù)字資料和表外附加。表頭應(yīng)該放在表的上方;行標(biāo)題和列標(biāo)題一般放在表的第一行和第一列;表外附加通常放在統(tǒng)計(jì)表的下方。(3)通常情況下,統(tǒng)計(jì)表的左右兩邊不能封口。5、反映定量數(shù)據(jù)集中趨勢(shì)的統(tǒng)計(jì)量:平均數(shù)、中位數(shù)、眾數(shù)和分位數(shù)等。平均數(shù)的主要缺點(diǎn)是更容易受少數(shù)極端數(shù)值的影響,對(duì)于嚴(yán)重偏態(tài)分布的數(shù)據(jù),平均數(shù)的代表性較差。中位數(shù)和眾數(shù)不受極端值的影響,具有統(tǒng)計(jì)上的穩(wěn)健性,當(dāng)數(shù)據(jù)為偏態(tài)分布,特別是偏斜程度較大時(shí),可以考慮選擇中位數(shù)和眾數(shù),這時(shí)它們的代表性要比平均數(shù)好。6、反映定量數(shù)據(jù)離散趨勢(shì)的統(tǒng)計(jì)量:極差、四分位差、標(biāo)準(zhǔn)差和方差。(重點(diǎn)在于標(biāo)準(zhǔn)差、離散系數(shù)與標(biāo)準(zhǔn)分?jǐn)?shù)的公式。)標(biāo)準(zhǔn)差、方差與離散系數(shù)的判定標(biāo)準(zhǔn):數(shù)值越大,說(shuō)明它的各個(gè)觀測(cè)值分布的越分散,安的趨中程度就越差;反之,數(shù)值越小越好,代表性越強(qiáng)。推斷統(tǒng)計(jì)方法第一種、參數(shù)估計(jì):總體分布是總體中所有觀察值所形成的分布;總體中觀察值可以視為隨機(jī)變量。1、數(shù)理統(tǒng)計(jì)學(xué)的相關(guān)證明:(1)樣本均值的均值(或期望)就是總體均值,即;(2)重置抽樣時(shí),樣本均值的標(biāo)準(zhǔn)差為總體標(biāo)準(zhǔn)差的,或者說(shuō)樣本均值的方差為總體方差的,即;(3)不重置抽樣時(shí),樣本均值的標(biāo)準(zhǔn)差為,其中,為修正系數(shù),當(dāng)總體為有限總體,N比較大而時(shí),修正系數(shù)可以簡(jiǎn)化為。2、樣本均值的分布(1)當(dāng)總體服從正態(tài)分布時(shí),樣本均值一定服從正態(tài)分布;(2)若總體為未知的非正態(tài)分布時(shí),只要樣本容量n足夠大(通常要求),樣本均值仍會(huì)接近正態(tài)分布;(3)如果總體不是正態(tài)分布,當(dāng)n為小樣本時(shí)(通常n<30),樣本均值的分布則不服從正態(tài)分布。3、統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤差,也稱為標(biāo)準(zhǔn)誤:(1)樣本均值的標(biāo)準(zhǔn)誤差:;(2)樣本比例的標(biāo)準(zhǔn)誤差:。4、評(píng)價(jià)估計(jì)量的標(biāo)準(zhǔn)(1)無(wú)偏性:指估計(jì)量抽樣分布的期望值等于被估計(jì)的總體參數(shù)。(2)有效性:指估計(jì)量的方差盡可能小。(3)一致性:指隨著樣本量的增大,點(diǎn)估計(jì)量的值越來(lái)越接近被估計(jì)總體的參數(shù)。5、一個(gè)總體均值的區(qū)間估計(jì)(1)大樣本的估計(jì)():;(2)小樣本的估計(jì)():,注意t值的自由度為n-1。6、一個(gè)總體比例的區(qū)間估計(jì):。7、估計(jì)總體均值時(shí)樣本量的確定——;注意:(1)樣本量與置信水平成正比關(guān)系、與總體方差成正比、與允許的估計(jì)誤差的平方成反比;(2)當(dāng)允許誤差縮小為原來(lái)的50%時(shí),樣本量要擴(kuò)為原來(lái)的4倍;(3)計(jì)算得出的樣本量如有小數(shù),無(wú)論大小,一律進(jìn)一位。8、估計(jì)總體比例時(shí)樣本量的確定——;注意:如未給出比例的具體數(shù)字,比例可取0.5以保證達(dá)到最大。第二種、假設(shè)檢驗(yàn):1、假設(shè)檢驗(yàn)是先對(duì)總體參數(shù)或分布形式提出某種假設(shè),然后利用樣本信息和相關(guān)統(tǒng)計(jì)量的分布特征去檢驗(yàn)這個(gè)假定,做出是否拒絕原來(lái)假設(shè)的結(jié)論。2、小概率事件:指在一次事件中幾乎不可能發(fā)生的事件。一般稱之為“顯著性水平”,用a表示,一般取值為:a=0.05或a=5%。3、假設(shè)檢驗(yàn)的步驟:(1)提出原假設(shè)H0和備擇假設(shè)H1;注意:如果備擇假設(shè)H1出現(xiàn)的是不等號(hào),稱為雙尾檢驗(yàn);如果備擇假設(shè)H1出現(xiàn)的是大于號(hào)或小于號(hào),稱為單尾檢驗(yàn)。(2)確定檢驗(yàn)統(tǒng)計(jì)量;(3)確定顯著性水平;注意:第一、拒絕正確原假設(shè)的錯(cuò)誤常被稱為第一類錯(cuò)誤或棄真錯(cuò)誤;當(dāng)備擇假設(shè)正確時(shí),反而認(rèn)為原假設(shè)正確的錯(cuò)誤被稱為第二類錯(cuò)誤或取偽錯(cuò)誤。第二、這兩類錯(cuò)誤不可能同時(shí)犯,當(dāng)然也不是必然犯其中錯(cuò)誤之一。第三、犯第一類錯(cuò)誤的概率最大不超過(guò)a,但無(wú)法算出犯第二類錯(cuò)誤的概率。一般情況下,人們認(rèn)為犯第一類錯(cuò)誤的后果更嚴(yán)重一些,因此通常會(huì)取一個(gè)較小的值。(4)根據(jù)數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量值和與這個(gè)統(tǒng)計(jì)量值相對(duì)應(yīng)的概率值P值,并進(jìn)行決策。注意:第一,拒絕域的大小與顯著性水平有關(guān)。當(dāng)樣本量固定時(shí),拒絕域隨的減小而減小。第二,檢驗(yàn)決策準(zhǔn)則:雙側(cè)檢驗(yàn):統(tǒng)計(jì)量的值的絕對(duì)值>臨界值,或時(shí),拒絕原假設(shè);左側(cè)檢驗(yàn):統(tǒng)計(jì)量的值<臨界值,或時(shí),拒絕原假設(shè);右側(cè)檢驗(yàn):統(tǒng)計(jì)量的值>臨界值,或時(shí),拒絕原假設(shè)。4、總結(jié):(1)假設(shè)檢驗(yàn)依據(jù)的是小概率原理;(2)小概率標(biāo)準(zhǔn)在抽樣前依需要確定;(3)假設(shè)檢驗(yàn)的結(jié)果只能是拒絕或不拒絕原來(lái)假設(shè),而不能證明原假設(shè)成立;(4)統(tǒng)計(jì)假設(shè)檢驗(yàn)的結(jié)果不是絕對(duì)正確。5、總體均值的假設(shè)檢驗(yàn):(1)大樣本:總體方差已知,統(tǒng)計(jì)量;總體方差未知,統(tǒng)計(jì)量。(2)小樣本:統(tǒng)計(jì)量,注意:t的自由度為n-1。6、總體比例的假設(shè)檢驗(yàn):統(tǒng)計(jì)量第三種、相關(guān)分析:1、一個(gè)變量的變化完全決定另一個(gè)變量的變化,這種確定性的關(guān)系稱為函數(shù)關(guān)系;另外還存在一種有著密切的聯(lián)系但又不是嚴(yán)格的、確定的關(guān)系,稱為相關(guān)關(guān)系。2、相關(guān)關(guān)系的分類(1)線性相關(guān)與非線性相關(guān)或曲線相關(guān);(2)正相關(guān)與負(fù)相關(guān);3、相關(guān)系數(shù)(r)檢驗(yàn)的統(tǒng)計(jì)量,t的臨界值為;4、r的取值范圍:(-1.1)。第四種、回歸分析:1、一元線性回歸模型:2、估計(jì)的線性回歸方程:3、參數(shù)估計(jì)的基本思想:最小二乘法,即使得觀測(cè)值與其回歸值的離差越小越好,也就是使得達(dá)到最小。4、回歸系數(shù)公式:5、回歸系數(shù)的意義:是直線的截距,表示當(dāng)解釋變量為零時(shí)y的平均值;回歸系數(shù)是直線的斜率,表示解釋變量x每增加一個(gè)單位,被解釋變量將相應(yīng)地平均變化個(gè)單位。6、回歸方程的顯著性檢驗(yàn):F檢驗(yàn)。7、回歸系數(shù)的顯著性檢驗(yàn):t檢驗(yàn)。注意:在一元線性回歸方程中,回歸方程的顯著性檢驗(yàn):F檢驗(yàn)與回歸系數(shù)的顯著性檢驗(yàn):t檢驗(yàn)結(jié)論是一致的;但是在多元線性回歸方程中,這兩種檢驗(yàn)不再等價(jià)。8、回歸方程的擬合程度分析:(1)判定系數(shù)R2,取值范圍在[0,1],R2=1時(shí),擬合是完全的,即所有觀測(cè)值都在直線上;R2越接近于1,說(shuō)明方程的擬合程度越好;(2)估計(jì)標(biāo)準(zhǔn)誤差。9、多元線性回歸分析中的判定系數(shù)R2,因?yàn)榻忉屪兞康脑龆?,?dǎo)致判定系數(shù)R2也會(huì)虛增。為了真實(shí)反映多元線性回歸方程的擬合程度,需要對(duì)判定系數(shù)R2進(jìn)行處理,計(jì)算調(diào)整后的多重判定系數(shù)。R2的平方根稱為多重相關(guān)系數(shù),也稱為復(fù)相關(guān)系數(shù),它度量了因變量同k個(gè)自變量的總體相關(guān)程度。第五種、時(shí)間序列分析:1、時(shí)間序列是指反映社會(huì)、經(jīng)濟(jì)、自然現(xiàn)象的數(shù)據(jù)按時(shí)間先后順序記錄形成的數(shù)列。一個(gè)時(shí)間序列由兩個(gè)要素構(gòu)成:一是現(xiàn)象所屬的時(shí)間;另一個(gè)是對(duì)應(yīng)不同時(shí)間的統(tǒng)計(jì)指標(biāo)數(shù)值。2、長(zhǎng)期趨勢(shì)分析方法:(1)回歸方程法:若時(shí)間數(shù)列的逐期增長(zhǎng)量近似于一個(gè)常量,則趨勢(shì)近似一條直線;若時(shí)間數(shù)列中的二級(jí)增長(zhǎng)量大體相同,則趨勢(shì)近似一條拋物線;若時(shí)間數(shù)列中各期環(huán)比發(fā)展速度大體相同,則趨勢(shì)近似一條指數(shù)曲線。(2)移動(dòng)平均法:關(guān)鍵在于平均期數(shù)或步長(zhǎng)的選擇。一般來(lái)說(shuō),被平均的項(xiàng)數(shù)越多,修勻的作用就越大,但得到的平均數(shù)就越少;反之亦然。如果數(shù)列存在自然周期,應(yīng)根據(jù)周期確定移動(dòng)步長(zhǎng)。局限有二:一是在計(jì)算移動(dòng)平均值時(shí),只使用近期的N個(gè)數(shù)值,沒有充分利用時(shí)間數(shù)列的全部數(shù)據(jù)信息;二是對(duì)參與運(yùn)算的N個(gè)數(shù)據(jù)等權(quán)看待,這往往與實(shí)際情況不符。(3)指數(shù)平滑法:可以彌補(bǔ)移動(dòng)平均法的局限。關(guān)鍵在于確定一個(gè)合適的平滑系數(shù)a(0<a<1)。A取值接近于1時(shí),近期數(shù)據(jù)作用最大;當(dāng)時(shí)間數(shù)列變化劇烈時(shí),宜選較大的a值;a取值接近0時(shí),則各期數(shù)據(jù)的作用緩慢減弱,呈比較平穩(wěn)的狀態(tài)。一次指數(shù)平滑用于較為平穩(wěn)的時(shí)間序列,一般a取值不大于0.5。第六種、方差分析:1、方差分析的基本方法:方差分析(AnalysisofVariance,簡(jiǎn)稱ANOVA),又稱“變異數(shù)分析”或“F檢驗(yàn)”,是R.A.Fisher發(fā)明的,用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動(dòng)狀。造成波動(dòng)的原因可分成兩類,一是不可控的隨機(jī)因素,另一是研究中施加的對(duì)結(jié)果形成影響的可控因素。方差分析是從觀測(cè)變量的方差入手,研究諸多控制變量中那些變量是對(duì)觀測(cè)變量有顯著影響的變量。2、作用:多個(gè)樣本均數(shù)間兩兩比較常用q檢驗(yàn)的方法,即Newman-kueuls法,其基本步驟為:建立檢驗(yàn)假設(shè)-->樣本均數(shù)排序-->計(jì)算q值-->查q界值表判斷結(jié)果。3、基本思想:通過(guò)分析研究中不同來(lái)源的變異對(duì)總變異的貢獻(xiàn)大小,從而確定可控因素對(duì)研究結(jié)果影響力的大小4、分類:(1)單因素方差分析a、概念理解步驟是用來(lái)研究一個(gè)控制變量的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。這里,由于僅研究單個(gè)因素對(duì)觀測(cè)變量的影響,因此稱為單因素方差分析。第一步是明確觀測(cè)變量和控制變量;第二步是剖析觀測(cè)變量的方差:第三步是通過(guò)比較觀測(cè)變量總離差平方和各部分所占的比例,推斷控制變量是否給觀測(cè)變量帶來(lái)了顯著影響。b、原理總結(jié)在觀測(cè)變量總離差平方和中,如果組間離差平方和所占比例較大,則說(shuō)明觀測(cè)變量的變動(dòng)主要是由控制變量引起的,可以主要由控制變量來(lái)解釋,控制變量給觀測(cè)變量帶來(lái)了顯著影響;反之,如果組間離差平方和所占比例小,則說(shuō)明觀測(cè)變量的變動(dòng)不是主要由控制變量引起的,不可以主要由控制變量來(lái)解釋,控制變量的不同水平?jīng)]有給觀測(cè)變量帶來(lái)顯著影響,觀測(cè)變量值的變動(dòng)是由隨機(jī)變量因素引起的。(2)多因素方差分析基本思想:多因素方差分析用來(lái)研究?jī)蓚€(gè)及兩個(gè)以上控制變量是否對(duì)觀測(cè)變量產(chǎn)生顯著影響。這里,由于研究多個(gè)因素對(duì)觀測(cè)變量的影響,因此稱為多因素方差分析。多因素方差分析不僅能夠分析多個(gè)因素對(duì)觀測(cè)變量的獨(dú)立影響,更能夠分析多個(gè)控制因素的交互作用能否對(duì)觀測(cè)變量的分布產(chǎn)生顯著影響,進(jìn)而最終找到利于觀測(cè)變量的最優(yōu)組合。(3)協(xié)方差分析5、方差分析的基本假定:(1)每個(gè)總體都應(yīng)服從正態(tài)分布;(2)各個(gè)總體的方差必須相同;(3)觀測(cè)值是獨(dú)立的。第七種、判別分析判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對(duì)象的各種特征值判別其類型歸屬問(wèn)題的一種多變量統(tǒng)計(jì)分析方法。在氣候分類、農(nóng)業(yè)區(qū)劃、土地類型劃分中有著廣泛的應(yīng)用。其基本原理是按照一定的判別準(zhǔn)則,建立一個(gè)或多個(gè)判別函數(shù),用研究對(duì)象的大量資料確定判別函數(shù)中的待定系數(shù),并計(jì)算判別指標(biāo)。據(jù)此即可確定某一樣本屬于何類。判別分析有二級(jí)判別、多級(jí)判別、逐步判別等多種方法。第八種、聚類分析1、基本思想:我們所研究的樣品(網(wǎng)點(diǎn))或指標(biāo)(變量)之間存在程度不同的相似性(親疏關(guān)系——以樣品間距離衡量)。于是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類型的依據(jù)。把一些相似程度較大的樣品(或指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標(biāo))又聚合為另一類,直到把所有的樣品(或指標(biāo))聚合完畢,這就是分類的基本思想。在聚類分析中,通常我們將根據(jù)分類對(duì)象的不同分為Q型聚類分析和R型聚類分析兩大類。2、聚類方法:(1)直接聚類法:先把各個(gè)分類對(duì)象單獨(dú)視為一類,然后根據(jù)距離最小的原則,依次選出一對(duì)分類對(duì)象,并成新類。如果其中一個(gè)分類對(duì)象已歸于一類,則把另一個(gè)也歸入該類;如果一對(duì)分類對(duì)象正好屬于已歸的兩類,則把這兩類并為一類。每一次歸并,都劃去該對(duì)象所在的列與列序相同的行。經(jīng)過(guò)m-1次就可以把全部分類對(duì)象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖。(2)最短距離聚類法:最短距離聚類法,是在原來(lái)的m×m距離矩陣的非對(duì)角元素中找出,把分類對(duì)象Gp和Gq歸并為一新類Gr,然后按計(jì)算公式計(jì)算原來(lái)各類與新類之間的距離,這樣就得到一個(gè)新的(m-1)階的距離矩陣;再?gòu)男碌木嚯x矩陣中選出最小者dij,把Gi和Gj歸并成新類;再計(jì)算各類與新類的距離,這樣一直下去,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論