大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能_第1頁(yè)
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能_第2頁(yè)
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能_第3頁(yè)
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能_第4頁(yè)
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能_第5頁(yè)
已閱讀5頁(yè),還剩235頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)時(shí)代的

數(shù)據(jù)挖掘與商務(wù)智能1第三部分基于統(tǒng)計(jì)的傳統(tǒng)數(shù)據(jù)分析技術(shù)2數(shù)據(jù)分析基本概念統(tǒng)計(jì)學(xué)簡(jiǎn)介測(cè)量與數(shù)據(jù)數(shù)據(jù)來(lái)源數(shù)據(jù)的類型數(shù)據(jù)預(yù)處理技術(shù)3統(tǒng)計(jì)數(shù)據(jù)分析方法描述統(tǒng)計(jì)推斷統(tǒng)計(jì)常用統(tǒng)計(jì)分析軟件4數(shù)學(xué)家的幽默統(tǒng)計(jì)學(xué)家調(diào)侃數(shù)學(xué)家:你們不是說(shuō)若X=Y且Y=Z,則X=Z嗎!那么想必你若喜歡一個(gè)女孩,那么這個(gè)女孩喜歡的男生你也喜歡吧?數(shù)學(xué)家反問(wèn)道:那么你把左手放到一鍋一百度的開(kāi)水中,右手放到一鍋零度的冰水里想來(lái)也沒(méi)事吧!因?yàn)樗鼈兤骄贿^(guò)是五十度而已!”5何為統(tǒng)計(jì)學(xué)?統(tǒng)計(jì)與數(shù)量有關(guān),同時(shí)它已經(jīng)滲透到社會(huì)經(jīng)濟(jì)活動(dòng)和科學(xué)研究的方方面面。那么究竟何為統(tǒng)計(jì)?統(tǒng)計(jì)是如何開(kāi)展研究的?作為一門科學(xué)的統(tǒng)計(jì)學(xué)與其他學(xué)科有何區(qū)別與聯(lián)系?6統(tǒng)計(jì)(Statistics)的涵義統(tǒng)計(jì)是人們認(rèn)識(shí)客觀世界總體數(shù)量變動(dòng)關(guān)系和變動(dòng)規(guī)律的活動(dòng)的總稱,是認(rèn)識(shí)客觀世界的有力工具。統(tǒng)計(jì)學(xué)是研究如何測(cè)定、收集、整理、歸納和分析反映客觀現(xiàn)象總體數(shù)量的數(shù)據(jù),以便給出正確認(rèn)識(shí)的方法論科學(xué)。7統(tǒng)計(jì)的研究對(duì)象的特點(diǎn)數(shù)量性。統(tǒng)計(jì)數(shù)據(jù)是客觀事物量的反映。總體性。統(tǒng)計(jì)的數(shù)量研究是對(duì)現(xiàn)象總體中各單位普遍存在的事實(shí)進(jìn)行大量觀察和綜合分析。變異性。總體各單位的特征表現(xiàn)存在著差異,而且這些差異并不是事先可以預(yù)知的。8統(tǒng)計(jì)研究的基本環(huán)節(jié)統(tǒng)計(jì)設(shè)計(jì)收集數(shù)據(jù)整理與分析資料積累開(kāi)發(fā)應(yīng)用統(tǒng)計(jì)學(xué)理論與相關(guān)實(shí)質(zhì)性學(xué)科理論描述統(tǒng)計(jì)推斷統(tǒng)計(jì)統(tǒng)計(jì)調(diào)查、實(shí)驗(yàn)9統(tǒng)計(jì)設(shè)計(jì)根據(jù)所要研究問(wèn)題的性質(zhì),在有關(guān)學(xué)科理論的指導(dǎo)下,制定統(tǒng)計(jì)指標(biāo)、指標(biāo)體系和統(tǒng)計(jì)分類,給出統(tǒng)一的定義、標(biāo)準(zhǔn)。同時(shí)提出收集、整理和分析數(shù)據(jù)的方案和工作進(jìn)度等。搞好統(tǒng)計(jì)設(shè)計(jì)不僅要有統(tǒng)計(jì)學(xué)的一般理論和方法為指導(dǎo),而且還要求設(shè)計(jì)者對(duì)所要研究的問(wèn)題本身具有深刻的認(rèn)識(shí)和相關(guān)的學(xué)科知識(shí)。10收集數(shù)數(shù)據(jù)統(tǒng)計(jì)數(shù)數(shù)據(jù)的的收集集有兩兩種基基本方方法。。對(duì)于大大多數(shù)數(shù)自然然科學(xué)學(xué)和工工程技技術(shù)研研究來(lái)來(lái)說(shuō),,有可可能通通過(guò)有有控制制的科科學(xué)實(shí)實(shí)驗(yàn)去去取得得數(shù)據(jù)據(jù),這這時(shí)可可以采采用實(shí)實(shí)驗(yàn)法法。對(duì)于社社會(huì)經(jīng)經(jīng)濟(jì)現(xiàn)現(xiàn)象來(lái)來(lái)說(shuō),,一般般無(wú)法法進(jìn)行行重復(fù)復(fù)實(shí)驗(yàn)驗(yàn),要要取得得有關(guān)關(guān)數(shù)據(jù)據(jù)就必必須進(jìn)進(jìn)行調(diào)調(diào)查觀觀察。。海量數(shù)數(shù)據(jù)的的積累累?。。?!11整理與與分析析描述統(tǒng)統(tǒng)計(jì)是指對(duì)對(duì)采集集的數(shù)數(shù)據(jù)進(jìn)進(jìn)行登登記、、審核核、整整理、、歸類類,在在此基基礎(chǔ)上上進(jìn)一一步計(jì)計(jì)算出出各種種能反反映總總體數(shù)數(shù)量特特征的的綜合合指標(biāo)標(biāo),并并用圖圖表的的形式式表示示經(jīng)過(guò)過(guò)歸納納分析析而得得到的的各種種有用用的統(tǒng)統(tǒng)計(jì)信信息。。推斷統(tǒng)統(tǒng)計(jì)是在對(duì)對(duì)樣本本數(shù)據(jù)據(jù)進(jìn)行行描述述的基基礎(chǔ)上上,利利用一一定的的方法法根據(jù)據(jù)樣本本數(shù)據(jù)據(jù)去估估計(jì)或或檢驗(yàn)驗(yàn)總體體的數(shù)數(shù)量特特征。。推斷斷統(tǒng)計(jì)計(jì)是現(xiàn)現(xiàn)代統(tǒng)統(tǒng)計(jì)學(xué)學(xué)的主主要內(nèi)內(nèi)容。。12統(tǒng)計(jì)資資料的的積累累、開(kāi)開(kāi)發(fā)與與應(yīng)用用對(duì)于已已經(jīng)公公布的的統(tǒng)計(jì)計(jì)資料料需要要加以以積累累,同同時(shí)還還可以以進(jìn)行行進(jìn)一一步的的加工工,結(jié)結(jié)合相相關(guān)的的實(shí)質(zhì)質(zhì)性學(xué)學(xué)科的的理論論知識(shí)識(shí)去進(jìn)進(jìn)行分分析和和利用用。如何何更更好好地地將將統(tǒng)統(tǒng)計(jì)計(jì)數(shù)數(shù)據(jù)據(jù)和和統(tǒng)統(tǒng)計(jì)計(jì)方方法法應(yīng)應(yīng)用用于于各各自自的的研研究究領(lǐng)領(lǐng)域域是是應(yīng)應(yīng)用用統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)研研究究的的一一個(gè)個(gè)重重要要方方面面。。13統(tǒng)計(jì)計(jì)學(xué)學(xué)的的流流派派政治治算算術(shù)術(shù)學(xué)學(xué)派派國(guó)勢(shì)勢(shì)學(xué)學(xué)派派社會(huì)會(huì)統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)派派數(shù)理理統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)派派理論論統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)應(yīng)用用統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)14政治治算算術(shù)術(shù)學(xué)學(xué)派派與與國(guó)國(guó)勢(shì)勢(shì)學(xué)學(xué)派派政治治算算術(shù)術(shù)學(xué)學(xué)派派。。最最早早的的統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)源源于于17世紀(jì)紀(jì)英英國(guó)國(guó)。。其其代代表表人人物物是是威威廉廉..配配第第(WilliamPatty,1623—1687年)。政政治治算算術(shù)術(shù)學(xué)學(xué)派派主主張張用用大大量量觀觀察察和和數(shù)量量分分析析等方方法法對(duì)對(duì)社社會(huì)會(huì)經(jīng)經(jīng)濟(jì)濟(jì)現(xiàn)現(xiàn)象象進(jìn)進(jìn)行行研研究究的的主主張張,,為為統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)的的發(fā)發(fā)展展開(kāi)開(kāi)辟辟了了廣廣闊闊的的前前景景。。國(guó)勢(shì)勢(shì)學(xué)學(xué)派派。。最最早早使使用用“統(tǒng)計(jì)計(jì)學(xué)學(xué)”這一一術(shù)術(shù)語(yǔ)語(yǔ)的的是是德德國(guó)國(guó)國(guó)國(guó)勢(shì)勢(shì)學(xué)學(xué)派派。。國(guó)國(guó)勢(shì)勢(shì)學(xué)學(xué)派派雖雖然然創(chuàng)創(chuàng)造造了了統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)這這一一名名詞詞,,但但他他們們主主要要使用用文文字字記記述述方方法法對(duì)國(guó)國(guó)情情國(guó)國(guó)力力進(jìn)進(jìn)行行研研究究,,其其學(xué)學(xué)科科內(nèi)內(nèi)容容與與現(xiàn)現(xiàn)代代統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)有有較較大大差差別別。。15社會(huì)會(huì)統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)派派1850年,,德德國(guó)國(guó)的的統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)家家克克尼尼斯斯(K.G.A.knies)發(fā)表表了了題題為為《獨(dú)立立科科學(xué)學(xué)的的統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)》的論論文文,,提提出出統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)是是一一門門獨(dú)獨(dú)立立的的社社會(huì)會(huì)科科學(xué)學(xué),,是是一一門門對(duì)對(duì)社社會(huì)會(huì)經(jīng)經(jīng)濟(jì)濟(jì)現(xiàn)現(xiàn)象象進(jìn)進(jìn)行行數(shù)數(shù)量量對(duì)對(duì)比比分分析析的的科科學(xué)學(xué)。。各國(guó)國(guó)學(xué)學(xué)者者在在社社會(huì)會(huì)經(jīng)經(jīng)濟(jì)濟(jì)統(tǒng)統(tǒng)計(jì)計(jì)指指標(biāo)標(biāo)的的設(shè)設(shè)定定與與計(jì)計(jì)算算、、指指數(shù)數(shù)的的編編制制、、資資料料的的收收集集與與整整理理、、統(tǒng)統(tǒng)計(jì)計(jì)調(diào)調(diào)查查的的組組織織和和實(shí)實(shí)施施、、經(jīng)經(jīng)濟(jì)濟(jì)社社會(huì)會(huì)的的數(shù)數(shù)量量分分析析和和預(yù)預(yù)測(cè)測(cè)等等方方面面做做出出的的貢貢獻(xiàn)獻(xiàn)已已成成為為現(xiàn)現(xiàn)代代統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)的的重重要要組組成成部部分分。。例如如,,“恩格格爾爾系系數(shù)數(shù)”,至至今今仍仍為為人人們們廣廣泛泛使使用用。。國(guó)國(guó)內(nèi)內(nèi)生生產(chǎn)產(chǎn)總總值值(GDP)的核核算算方方法法被被稱稱為為“20世紀(jì)紀(jì)最最偉偉大大的的發(fā)發(fā)明明之之一一。?!?6數(shù)理理統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)派派認(rèn)為為統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)是是一一門門通通用用的的方方法法論論科科學(xué)學(xué)。。創(chuàng)創(chuàng)始始人人是是比比利利時(shí)時(shí)統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)家家凱凱特特勒勒(AdolpheQuetelet,1796—1874年)。他他所所著著的的代代表表作作《社會(huì)物理理學(xué)》等將概率率論和統(tǒng)統(tǒng)計(jì)方法法引入社社會(huì)經(jīng)濟(jì)濟(jì)方面的的研究。。從19世紀(jì)中葉葉到20世紀(jì)中葉葉,數(shù)理理統(tǒng)計(jì)學(xué)學(xué)得到迅迅速發(fā)展展。英國(guó)生物物學(xué)家高高爾頓提提出并闡闡述了“相關(guān)”的概念;;皮爾遜提提出了計(jì)計(jì)算復(fù)相相關(guān)和偏偏相關(guān)的的方法。。戈塞特建建立了“小樣本理理論”,即所謂謂的“t分布”;費(fèi)歇爾樣樣本相關(guān)關(guān)系數(shù)的的分布、、方差分分析、實(shí)實(shí)驗(yàn)設(shè)計(jì)計(jì)等方面面的研究究中做出出了重要要貢獻(xiàn)。。到20世紀(jì)中期期,數(shù)理理統(tǒng)計(jì)學(xué)學(xué)的基本本框架已已經(jīng)形成成。數(shù)理理統(tǒng)計(jì)學(xué)學(xué)派成為為英美等等國(guó)統(tǒng)計(jì)計(jì)學(xué)界的的主流。。17理論統(tǒng)計(jì)計(jì)學(xué)和應(yīng)應(yīng)用統(tǒng)計(jì)計(jì)學(xué)歷經(jīng)300多年的發(fā)發(fā)展,統(tǒng)統(tǒng)計(jì)學(xué)目目前已經(jīng)經(jīng)成為橫橫跨社會(huì)會(huì)科學(xué)和和自然科科學(xué)領(lǐng)域域的多科科性的科科學(xué)?!敖y(tǒng)計(jì)學(xué)是是有關(guān)如如何測(cè)定定、收集集和分析析反映客客觀現(xiàn)象象總體數(shù)數(shù)量的數(shù)數(shù)據(jù),以以便給出出正確認(rèn)認(rèn)識(shí)的方方法論科科學(xué)。”現(xiàn)代統(tǒng)計(jì)計(jì)學(xué)可以以分為兩兩大類::一類是是以抽象象的數(shù)量量為研究究對(duì)象,,研究一一般的收收集數(shù)據(jù)據(jù)、整理理數(shù)據(jù)和和分析數(shù)數(shù)據(jù)方法法的理論統(tǒng)計(jì)計(jì)學(xué)。另一類類是以各各個(gè)不同同領(lǐng)域的的具體數(shù)數(shù)量為研研究對(duì)象象的應(yīng)用統(tǒng)計(jì)計(jì)學(xué)。18數(shù)學(xué)與統(tǒng)統(tǒng)計(jì)學(xué)的的聯(lián)系數(shù)學(xué)與統(tǒng)統(tǒng)計(jì)學(xué)都都是研究究數(shù)量規(guī)規(guī)律的,,都要利利用各種種公式進(jìn)進(jìn)行運(yùn)算算。數(shù)學(xué)中的的概率論論,為統(tǒng)統(tǒng)計(jì)學(xué)提提供了數(shù)數(shù)量分析析的理論論基礎(chǔ)。。統(tǒng)計(jì)學(xué)學(xué)中的理理論統(tǒng)計(jì)計(jì)學(xué)以抽抽象的數(shù)數(shù)量為研研究對(duì)象象,其大大部分內(nèi)內(nèi)容也可可以看作作是數(shù)學(xué)學(xué)的分支支。19統(tǒng)計(jì)學(xué)與與數(shù)學(xué)的的區(qū)別從研究對(duì)對(duì)象看,,數(shù)學(xué)以以最一般般的形式式研究數(shù)數(shù)量的聯(lián)聯(lián)系和空空間形式式。統(tǒng)計(jì)計(jì)學(xué)特別別是應(yīng)用用統(tǒng)計(jì)學(xué)學(xué)則總是是與客觀觀的對(duì)象象聯(lián)系在在一起的的。從研究方方法看,,數(shù)學(xué)主主要是邏邏輯推理理和演繹繹論證的的方法。。而統(tǒng)計(jì)計(jì)本質(zhì)上上是歸納的方法。。統(tǒng)計(jì)學(xué)學(xué)家特別別是應(yīng)用用統(tǒng)計(jì)學(xué)學(xué)家需要要深入實(shí)實(shí)際,進(jìn)進(jìn)行調(diào)查查或?qū)嶒?yàn)驗(yàn)去取得得數(shù)據(jù),,研究時(shí)時(shí)不僅要要運(yùn)用統(tǒng)統(tǒng)計(jì)的方方法,而而且還要要掌握某某一專門門領(lǐng)域的的知識(shí)。。20測(cè)量與數(shù)數(shù)據(jù)數(shù)據(jù)是通通過(guò)把感感興趣領(lǐng)領(lǐng)域里的的實(shí)體以以某種測(cè)量過(guò)程程映射到符符號(hào)表示示得到的的。測(cè)量就是是把實(shí)體體的一個(gè)個(gè)給定屬屬性與一一個(gè)變量量值聯(lián)系系起來(lái)。。屬性(變變量):重量屬性(變變量)值值:2kg測(cè)量21統(tǒng)計(jì)數(shù)據(jù)據(jù)基本構(gòu)成要

素實(shí)體(Element)變量(Variable)觀測(cè)(Observation)關(guān)于實(shí)體體的一種種屬性或或特征研究對(duì)象象由各實(shí)實(shí)體組成成關(guān)于某一一實(shí)體所所有各變變量的信信息22變量與變變量值說(shuō)明現(xiàn)象象的某一一數(shù)量特特征的概概念也被被稱為變變量,變變量的具具體取值值是變量量值,統(tǒng)統(tǒng)計(jì)數(shù)據(jù)據(jù)就是統(tǒng)統(tǒng)計(jì)變量量的具體體表現(xiàn)。。連續(xù)型變變量是指指變量的的取值在在數(shù)軸上上連續(xù)不不斷,無(wú)無(wú)法一一一列舉,,即在一一個(gè)區(qū)間間內(nèi)可以以取任意意實(shí)數(shù)值值。離散型變變量是指指變量的的其取值值是整數(shù)數(shù)值,可可以一一一列舉。。23例:?jiǎn)T工工個(gè)人資資料表姓名性別年齡身高(m)體重(kg)民族公司服務(wù)年限受教育年限甲男331.8565漢318乙女251.6555回216丙男261.7260滿115丁女351.6053回416戊男321.8368漢21924變量的測(cè)測(cè)度等級(jí)級(jí)變量的測(cè)測(cè)度等級(jí)級(jí):量化化程度變量的測(cè)測(cè)度等級(jí)級(jí)直接關(guān)關(guān)系到數(shù)數(shù)據(jù)分析析方法的的選擇。。常用的劃劃分為四四種名義測(cè)度度(Nominal)有序測(cè)度度(Ordinal)間距測(cè)度度(Interval)比率測(cè)度度(Ratio)25名義測(cè)度度(Nominal)變量用多多種狀態(tài)態(tài)來(lái)表示示,這些些狀態(tài)之之間既沒(méi)沒(méi)有數(shù)量量關(guān)系,,也沒(méi)有有等級(jí)關(guān)關(guān)系。例如,性性別(男男、女)),顏色色(紅、、黃、藍(lán)藍(lán))可以用數(shù)數(shù)字表示示(編碼碼),但但數(shù)字只只是用作作標(biāo)簽。。編碼的的數(shù)值之之間不存存在有實(shí)實(shí)際意義義的量的的關(guān)系。。26有序測(cè)度度(Ordinal)有序測(cè)度度量化水水平高于于名義測(cè)測(cè)度變量編碼碼不僅具具有分類類的作用用,而且且也存在在量的關(guān)關(guān)系(等等級(jí)或次次序關(guān)系系)。例如,受受教育程程度(文文盲半文文盲1、小學(xué)2、初中3、高中4、大學(xué)及及以上5)編碼的數(shù)數(shù)值之間間存在有有實(shí)際意意義的量量的關(guān)系系,編碼碼值可以以應(yīng)用于于不等式式計(jì)算。。27間距測(cè)度度(Interval)變量取值值不再是是類的編編碼,而而是采用用一定單單位的實(shí)實(shí)際測(cè)量量值??煽梢远攘苛?jī)蓚€(gè)不不同變量量值之間間的差異異及大小小。例如,溫溫度(5攝氏度,,10攝氏度))數(shù)值之間間可以進(jìn)進(jìn)行加法法和減法法,但不不不能進(jìn)進(jìn)行乘除除計(jì)算。。因?yàn)檫@這一測(cè)度度等級(jí)的的變量所所取得的的0值不是物物理意義義上的絕絕對(duì)0。28比率測(cè)度度(Ratio)最高級(jí)的的測(cè)度等等級(jí)。大多數(shù)物物理量,例如質(zhì)量量,長(zhǎng)度以及及能量都都是比率率測(cè)度;華氏溫度度也是比比率測(cè)度度??梢赃M(jìn)行行各種運(yùn)運(yùn)算。較高等級(jí)級(jí)的變量量可以降降級(jí)使用用。29數(shù)據(jù)來(lái)源源30總體和樣樣本總體:又又稱母體體,指所所要研究究對(duì)象的的全體,,由許多多客觀存存在的具具有某種種共同性性質(zhì)的單單位構(gòu)成成??傮w體單位數(shù)數(shù)用N表示。樣本:又又稱子樣樣,來(lái)自自總體,,是從總總體中按按隨機(jī)原原則抽選選出來(lái)的的部分,,由抽選選的單位位構(gòu)成。。樣本單單位數(shù)((容量))用n表示??傮w是唯唯一的、、確定的的,而樣樣本是不不確定的的、可變變的、隨隨機(jī)的。。31總體參數(shù)數(shù)和樣本本統(tǒng)計(jì)量量總體參數(shù)數(shù):反映映總體數(shù)數(shù)量特征征的指標(biāo)標(biāo)。其數(shù)數(shù)值是唯唯一的、、確定的的。樣本統(tǒng)計(jì)計(jì)量:根根據(jù)樣本本分布計(jì)計(jì)算的指指標(biāo),是是隨機(jī)變變量。平均數(shù)標(biāo)準(zhǔn)差、方差參數(shù)、2統(tǒng)計(jì)量S、S2總體樣本32數(shù)據(jù)的類類型橫截面數(shù)數(shù)據(jù)又稱稱為靜態(tài)態(tài)數(shù)據(jù),,它是指指在同一一時(shí)間對(duì)對(duì)同一總總體內(nèi)不不同單位位的數(shù)量量進(jìn)行觀觀察而獲獲得的數(shù)數(shù)據(jù)。時(shí)間序列列數(shù)據(jù)又又稱為動(dòng)動(dòng)態(tài)數(shù)據(jù)據(jù),它是是指在不不同時(shí)間間對(duì)同一一總體的的數(shù)量表表現(xiàn)進(jìn)行行觀察而而獲得的的數(shù)據(jù)。。例如,2008年全國(guó)各各省市自自治區(qū)的的國(guó)內(nèi)生生產(chǎn)總值值就屬于于橫截面面數(shù)據(jù)。。而“十一五”期間我國(guó)國(guó)歷年的的國(guó)內(nèi)生生產(chǎn)總值值就屬于于時(shí)間序序列數(shù)據(jù)據(jù)。面板數(shù)據(jù)據(jù):橫截截面數(shù)據(jù)據(jù)與時(shí)間間序列數(shù)數(shù)據(jù)交織織在一起起。非結(jié)構(gòu)化化數(shù)據(jù)33面板數(shù)據(jù)據(jù)所謂“面板數(shù)據(jù)據(jù)”也稱為“平行數(shù)據(jù)據(jù)”,是指對(duì)對(duì)不同時(shí)時(shí)刻的截截面?zhèn)€體體作連續(xù)續(xù)觀測(cè)所所得到的的多維時(shí)時(shí)間序列列數(shù)據(jù)。。例如,在在研究生生產(chǎn)成本本與企業(yè)業(yè)規(guī)模和和技術(shù)進(jìn)進(jìn)步的關(guān)關(guān)系時(shí),,選擇不不同規(guī)模模企業(yè)在在不同時(shí)時(shí)間上的的數(shù)據(jù)作作為樣本本觀測(cè)值值,這些些觀測(cè)值值數(shù)據(jù)就就是面板板數(shù)據(jù)。。34非結(jié)構(gòu)化化數(shù)據(jù)相對(duì)于結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)(即存儲(chǔ)在在數(shù)據(jù)庫(kù)庫(kù)中,可可以用二二維表結(jié)結(jié)構(gòu)來(lái)邏邏輯表達(dá)達(dá)的數(shù)據(jù)據(jù))而言,不方便用用數(shù)據(jù)庫(kù)庫(kù)二維表表來(lái)表現(xiàn)現(xiàn)的數(shù)據(jù)據(jù)即稱為為非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)。包括所有有格式的的辦公文文檔、文文本、圖圖片、各各類報(bào)表表、圖像像和音頻頻/視頻信息等等等。據(jù)調(diào)查,現(xiàn)在在人們所使用用的數(shù)據(jù)有80%是非結(jié)構(gòu)化的的,而非結(jié)構(gòu)構(gòu)化的數(shù)據(jù)又又往往同結(jié)構(gòu)構(gòu)化的數(shù)據(jù)結(jié)結(jié)合在一起。。35數(shù)據(jù)與模型的的關(guān)系數(shù)據(jù)1數(shù)據(jù)2……數(shù)據(jù)n模型分析結(jié)果決策方案輸入輸出處理過(guò)程36數(shù)據(jù)的質(zhì)量數(shù)據(jù)分析的有有效性與數(shù)據(jù)據(jù)質(zhì)量密不可可分。GIGO-GarbageIn,GarbageOut.垃圾進(jìn),垃圾圾出。37數(shù)據(jù)的質(zhì)量數(shù)據(jù)分析研究究的目的不同同,對(duì)樣本數(shù)數(shù)據(jù)要求也不不同。選擇樣樣本數(shù)據(jù),除除了考慮數(shù)據(jù)據(jù)的可得性之之外,還必須須考慮數(shù)據(jù)的的可用性。為保證分析結(jié)結(jié)論的可靠性性,應(yīng)從完整整性、準(zhǔn)確性性、可比性和和一致性等方方面對(duì)選取的的樣本數(shù)據(jù)的的質(zhì)量進(jìn)行考考慮。38數(shù)據(jù)的完整性性人們無(wú)論是從從宏觀、中觀觀和微觀角度度研究的現(xiàn)象象都可以看成成一個(gè)系統(tǒng),,研究所依據(jù)據(jù)的數(shù)據(jù),作作為系統(tǒng)狀態(tài)態(tài)和其內(nèi)部機(jī)機(jī)制及外部環(huán)環(huán)境的數(shù)量應(yīng)應(yīng)該是完整的的,否則,模模型就無(wú)法確確定。在統(tǒng)計(jì)計(jì)模型中,表表現(xiàn)為樣本數(shù)數(shù)據(jù)的完整性性。百分之百的完完整是難以達(dá)達(dá)到的,但對(duì)對(duì)于少數(shù)“遺失數(shù)據(jù)”,必須采用科科學(xué)的方法人人為地補(bǔ)充以以達(dá)到數(shù)據(jù)的的完整性。39數(shù)據(jù)的準(zhǔn)確性性數(shù)據(jù)的準(zhǔn)確性性包括兩個(gè)方方面的含義。。一是它必須準(zhǔn)準(zhǔn)確反映它所所代表的研究究對(duì)象的狀態(tài)態(tài),要求統(tǒng)計(jì)計(jì)數(shù)據(jù)或調(diào)查查數(shù)據(jù)本身是是準(zhǔn)確的;二是它必須是是模型研究中中所要求的數(shù)數(shù)據(jù),它要求求研究人員準(zhǔn)準(zhǔn)確地選擇、、應(yīng)用數(shù)據(jù)。。40數(shù)據(jù)的可比性性與一致性數(shù)據(jù)的可比性性即數(shù)據(jù)口徑徑問(wèn)題,在統(tǒng)統(tǒng)計(jì)模型研究究中人們得到到的統(tǒng)計(jì)數(shù)據(jù)據(jù),經(jīng)常具有有比較差的可可比性,其原原因在于統(tǒng)計(jì)計(jì)范圍口徑的的變化,必須須進(jìn)行處理后后才能為研究究所用。統(tǒng)計(jì)分析方法法,是從歷史史的數(shù)據(jù)或同同一時(shí)間截面面的不同點(diǎn)的的數(shù)據(jù)中尋找找其內(nèi)在規(guī)律律性,如果數(shù)數(shù)據(jù)是不可比比的,當(dāng)然找找出的規(guī)律并并不能反映對(duì)對(duì)象本身的固固有規(guī)律。數(shù)據(jù)的一致性性并不是可比比性可以包容容的,主要指指縱向一致性性(例如用于商品品分類的代碼碼不一致)。41數(shù)據(jù)預(yù)處理為什么需要預(yù)預(yù)處理數(shù)據(jù)清理數(shù)據(jù)集成和變變換數(shù)據(jù)規(guī)約42為什么需要預(yù)預(yù)處理臟數(shù)據(jù)不完整,含噪噪聲,不一致致數(shù)據(jù)清理通過(guò)過(guò)填寫空缺值值,平滑噪聲聲數(shù)據(jù),識(shí)別別刪除異常點(diǎn)點(diǎn),并解決不不一致來(lái)清理理數(shù)據(jù)。43臟數(shù)據(jù)形成的的原因?yàn)E用縮寫詞數(shù)據(jù)輸入錯(cuò)誤誤數(shù)據(jù)中的內(nèi)嵌嵌控制信息不同的慣用語(yǔ)語(yǔ)重復(fù)記錄丟失值拼寫變化不同的計(jì)量單單位過(guò)時(shí)的編碼44數(shù)據(jù)清理的重重要性臟數(shù)據(jù)的普遍遍存在,使得得在大型數(shù)據(jù)據(jù)庫(kù)中維護(hù)數(shù)數(shù)據(jù)的正確性性和一致性成成為一個(gè)非常常困難的任務(wù)務(wù)。數(shù)據(jù)清理可以以改進(jìn)數(shù)據(jù)的的質(zhì)量,從而而有助于提高高分析和挖掘掘過(guò)程的精度度和性能。45數(shù)據(jù)清理處理理內(nèi)容填充空缺值格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除除錯(cuò)誤糾正重復(fù)數(shù)據(jù)的清清除46空缺值忽略元組人工填充空缺缺值使用一個(gè)全局局常量填充空空缺值使用屬性的平平均值填充空空缺值使用與給定元元組屬于同一一類的所有樣樣本的屬性平平均值填充空空缺值使用最有可能能的值填充空空缺值47噪聲數(shù)據(jù)如何平滑數(shù)據(jù)據(jù),去掉噪聲聲數(shù)據(jù)平滑技術(shù)術(shù)分箱聚類計(jì)算機(jī)和人工工檢查相結(jié)合合回歸48分箱(binning)分箱方法通過(guò)過(guò)考察數(shù)據(jù)的的“近鄰”來(lái)光滑有序數(shù)數(shù)據(jù)的值。平滑方法:按箱平均值平平滑按箱中值平滑滑按箱邊界值平平滑49分箱方法用于于數(shù)據(jù)平滑價(jià)格數(shù)據(jù)(美元):4,8,9,15,21,21,24,25,26,28,29,34*劃分為(等頻頻)箱:-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34*用箱均值平滑滑:-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29*用箱的邊界平平滑:-箱1:4,4,4,15-箱2:21,21,25,25-箱3:26,26,26,3450聚類可以通過(guò)聚類類檢測(cè)異常點(diǎn)點(diǎn)每個(gè)簇(Cluster)中的數(shù)據(jù)用用其中心值代代替落在簇之外的的點(diǎn)為異常點(diǎn)點(diǎn),一般情況況下可以忽略略異常點(diǎn)。51聚類(Clustering)52計(jì)算機(jī)和人工工檢查相結(jié)合合先通過(guò)聚類等等方法找出異異常點(diǎn)。這些些異常點(diǎn)可能能包含有用的的信息。人工再審查這這些異常點(diǎn)。。53回歸通過(guò)構(gòu)造函數(shù)數(shù)來(lái)符合數(shù)據(jù)據(jù)變化的趨勢(shì)勢(shì),這樣可以以用一個(gè)變量量預(yù)測(cè)另一個(gè)個(gè)變量。線性回歸非線性回歸xyy=x+1X1Y1Y1’54數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源源中的數(shù)據(jù)結(jié)結(jié)合起來(lái)存放放在一個(gè)一致致的數(shù)據(jù)存儲(chǔ)儲(chǔ)(如數(shù)據(jù)倉(cāng)倉(cāng)庫(kù))中。實(shí)體識(shí)別問(wèn)題題:模式集成成和對(duì)象匹配配冗余:某個(gè)屬屬性可以由別別的屬性推出出。相關(guān)分析與相相關(guān)性RA,B.RA,B>0,正相關(guān)。A隨B的值得增大而而增大RA,B=0,不相關(guān)。AB無(wú)關(guān)RA,B<0,負(fù)相關(guān)。A隨B的值得增大而而減少重復(fù)同一數(shù)數(shù)據(jù)存儲(chǔ)多次次數(shù)據(jù)值沖突的的檢測(cè)和處理理55數(shù)據(jù)變換平滑:去掉數(shù)數(shù)據(jù)中的噪聲聲聚集:對(duì)數(shù)據(jù)據(jù)進(jìn)行匯總或或聚集數(shù)據(jù)概化:使使用概念分層層,用高層概概念替換低層層或“原始”數(shù)據(jù)。規(guī)范化:將將屬性數(shù)據(jù)據(jù)按比例縮縮放,使之之落入一個(gè)個(gè)小的特定定區(qū)間,例例如[0,1],[-1,1]屬性構(gòu)造(特征構(gòu)造):由給定的屬屬性構(gòu)造和和添加新的的屬性,以以幫助提高高精度和對(duì)對(duì)高維數(shù)據(jù)據(jù)結(jié)構(gòu)的理理解56數(shù)據(jù)規(guī)范化化最小最大規(guī)規(guī)范化小數(shù)定標(biāo)規(guī)規(guī)范化Z-Score規(guī)范化(μ:均值,σ:標(biāo)準(zhǔn)差)57數(shù)據(jù)規(guī)約數(shù)據(jù)集的壓壓縮表示,,但是能和和原始數(shù)據(jù)據(jù)集達(dá)到相相同或基本本相同的分分析結(jié)果主要策略:數(shù)據(jù)立方體體聚集屬性子集選選擇維規(guī)約(通通過(guò)變換降降維)數(shù)值規(guī)約58屬性子集選選擇刪除不相關(guān)關(guān)的屬性((維)來(lái)減減少數(shù)據(jù)量量。找出最小屬屬性集合,,使得數(shù)據(jù)據(jù)類的概率率分布盡可可能地接近近使用所有有屬性的原原分布如何選取??貪心算法逐步向前選選擇逐步后向刪刪除向前選擇和和后向刪除除相結(jié)合決策樹(shù)歸納納59維規(guī)約維規(guī)約使用用數(shù)據(jù)編碼碼或變換,,以便得到到原數(shù)據(jù)的的規(guī)約或“壓縮”表示。有損,無(wú)損損小波變換與與主成分分分析(PCA)小波變換將數(shù)據(jù)向量量D轉(zhuǎn)換成為數(shù)數(shù)值上不同同的小波系系數(shù)的向量量D’.對(duì)D’進(jìn)行剪裁,,保留小波波系數(shù)最強(qiáng)強(qiáng)的部分。。60主成分分析析PCA通過(guò)尋找變變量方差最最大投影軸軸,判斷有多少少不相關(guān)變變量,并將原變量量組合成新新量,這大大可以以減少計(jì)算算的復(fù)雜性性,同時(shí)保證盡盡可能小地地丟失信息息,即降維可以用以分分解變量為為幾個(gè)不相相關(guān)分量相比于反射射映射或交交叉相關(guān)方方法,PCA對(duì)樣本要求求不高對(duì)數(shù)據(jù)預(yù)處處理,去掉一些不不重要或無(wú)無(wú)關(guān)量61主成分分析析(PCA)x2x1e62數(shù)值規(guī)約通過(guò)選擇可可替代的、、規(guī)模小的的數(shù)據(jù)表示示形式來(lái)減減少數(shù)據(jù)量量參數(shù)方法(例如回歸)模型假設(shè)、、參數(shù)估計(jì)計(jì)。存放數(shù)數(shù)據(jù)參數(shù),,而不是實(shí)實(shí)際數(shù)據(jù)。。例如回歸模模型、對(duì)數(shù)數(shù)線性模型型等非參數(shù)方法法不預(yù)先假設(shè)設(shè)模型直方圖,聚類,抽樣63抽樣(有放放回和無(wú)放放回)SRSWOR(simplerandomsamplewithoutreplacement)SRSWRRawData64聚類后抽樣樣原始數(shù)據(jù)聚類抽樣65離散化和概概念分層離散化技術(shù)術(shù)用來(lái)減少少給定連續(xù)續(xù)屬性的個(gè)個(gè)數(shù)通常是遞歸歸的。大量時(shí)間花花在排序上上。對(duì)于給定的的數(shù)值屬性性,概念分分層定義了了該屬性的的一個(gè)離散散化的值。。66數(shù)值數(shù)據(jù)離離散化和概概念分層分箱直方圖分析析聚類分析基于熵的離離散化通過(guò)自然劃劃分分段3-4-5規(guī)則根據(jù)直觀劃劃分產(chǎn)生數(shù)數(shù)值概念分分層67數(shù)值概念分分層(-$400-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000 Low=-$1,000 High=$2,000Step2:Step4:Step1:-$351 -$159 profit $1,838 $4,700 MinLow(i.e,5%-tile) High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)Step3:($1,000-$2,000)68概念分層自自動(dòng)生成根據(jù)每個(gè)屬屬性的不同同值的個(gè)數(shù)數(shù)產(chǎn)生概念念分層國(guó)家省市街道15distinctvalues365distinctvalues3567distinctvalues674,339distinctvalues69數(shù)據(jù)預(yù)處理理小結(jié)數(shù)據(jù)預(yù)處理理對(duì)于數(shù)據(jù)據(jù)倉(cāng)庫(kù)和數(shù)數(shù)據(jù)挖掘都都是一個(gè)重重要的問(wèn)題題,因?yàn)閷?shí)實(shí)際數(shù)據(jù)多多半是不完完整的、有有噪聲和不不一致的。。數(shù)據(jù)預(yù)處理理包括數(shù)據(jù)據(jù)清理、數(shù)數(shù)據(jù)集成、、數(shù)據(jù)變換換和數(shù)據(jù)規(guī)規(guī)約。盡管已經(jīng)開(kāi)開(kāi)發(fā)了許多多數(shù)據(jù)預(yù)處處理方法,,由于不一一致或臟數(shù)數(shù)據(jù)數(shù)量巨巨大以及問(wèn)問(wèn)題本身的的復(fù)雜性,,數(shù)據(jù)預(yù)處處理仍然是是一個(gè)活躍躍的研究領(lǐng)領(lǐng)域。70統(tǒng)計(jì)數(shù)據(jù)分分析方法描述統(tǒng)計(jì)推斷統(tǒng)計(jì)常用統(tǒng)計(jì)分分析軟件71統(tǒng)計(jì)數(shù)據(jù)分分析方法統(tǒng)計(jì)學(xué)探索索客觀現(xiàn)象象數(shù)量規(guī)律律性的過(guò)程程反映客觀現(xiàn)現(xiàn)象的統(tǒng)計(jì)計(jì)數(shù)據(jù)描述統(tǒng)計(jì)學(xué)學(xué)(統(tǒng)計(jì)數(shù)據(jù)據(jù)的收集、、整理、顯顯示和分析析)推斷統(tǒng)計(jì)學(xué)學(xué)(利用樣本本信息和概概率論對(duì)總總體數(shù)量特特征進(jìn)行估估計(jì)并檢驗(yàn)驗(yàn))概率論(分分布理論、、大數(shù)定律律、中心極極限定理))總體內(nèi)在的的數(shù)量規(guī)律律72描述統(tǒng)計(jì)的的作用對(duì)事物的全全局認(rèn)識(shí)和和大局把握握描述粗略分分布形狀描述現(xiàn)象基基本特征和和基本框架架73描述統(tǒng)計(jì)數(shù)據(jù)整理集中趨勢(shì)和和離中趨勢(shì)勢(shì)相關(guān)分析74數(shù)據(jù)整理數(shù)據(jù)分組統(tǒng)計(jì)指標(biāo)統(tǒng)計(jì)表和統(tǒng)統(tǒng)計(jì)圖按照研究的的目的,將搜集到的的原始數(shù)據(jù)據(jù)進(jìn)行加工工,從中提取有有用的信息息,并搜索索其中的數(shù)數(shù)量規(guī)律性性。數(shù)據(jù)分組統(tǒng)計(jì)數(shù)據(jù)的的分組分組是將總總體所有單單位按一定定的標(biāo)準(zhǔn)區(qū)區(qū)分為若干干部分分組的目的的:概括數(shù)數(shù)據(jù),清晰晰條理76如何分組??將具有共性性的個(gè)體歸歸入同一組組將總體內(nèi)部部個(gè)體間的的差異通過(guò)過(guò)組別區(qū)分分開(kāi)來(lái)77統(tǒng)計(jì)數(shù)據(jù)的的分組空間數(shù)列是按不同地地區(qū)標(biāo)志進(jìn)進(jìn)行的分組組。例如人人口按省、、市、自治治區(qū)分組;;品質(zhì)數(shù)列是按現(xiàn)象的的性質(zhì)、類類別標(biāo)志進(jìn)進(jìn)行的分組組。例如人人口按性別別和民族分分組;時(shí)間數(shù)列按時(shí)間發(fā)生生的先后順順序分組。。例如我國(guó)國(guó)解放后各各年的人口口數(shù)字;GDP變量數(shù)列是按某一數(shù)數(shù)量標(biāo)志大大小順序進(jìn)進(jìn)行的分組組。例如某某企業(yè)按工工資收入的的多少分組組;78次數(shù)分配數(shù)據(jù)觀察值值在各組中中的個(gè)數(shù)稱稱為次數(shù),各組間的的次數(shù)稱為為次數(shù)分配。次數(shù)分配描述了總體體的結(jié)構(gòu)和和特征。例如:某企業(yè)非熟熟練工人的的月工資額額(百元))數(shù)據(jù)如下下表所示,,應(yīng)如何分分組?79某企業(yè)非熟練工人的月工資額(百元)人員編號(hào)月收入人員編號(hào)月收入人員編號(hào)月收入110611992185284129422106311131192310149114872410551091511825966911697261057111171032710781071810328128912119952911110105201063010180變量次數(shù)分分配的編制制1、將原始資資料順序排排序2、確定組數(shù)數(shù)與組距3、將各個(gè)數(shù)數(shù)據(jù)按其數(shù)數(shù)值大小歸歸入相應(yīng)的的組內(nèi)4、確定組限限81確定組數(shù)與與組距如果數(shù)據(jù)分分布比較均均勻、對(duì)稱稱,即中間間數(shù)值次數(shù)數(shù)多,大小小極端值次次數(shù)少,考考慮用以下下公式來(lái)確確定組數(shù):Sturges提出的經(jīng)驗(yàn)驗(yàn)公式組數(shù)=1+3.322×logn。式中,n表示總次數(shù)數(shù),log表示以10為底的對(duì)數(shù)數(shù)。在不等距分分組情況下下,要比較較各組次數(shù)數(shù)或分析總總體結(jié)構(gòu),,要消除由由組距不等等造成的影影響。為此此需計(jì)算單單位組距的的次數(shù),即即頻數(shù)密度度。組距=(觀觀察值中的的最大數(shù)值值-觀察值值中的最小小數(shù)值)/組數(shù)82分組計(jì)算組數(shù)=1+3.322×logn=5.9(n=30)分6組組距:每組組區(qū)間的寬寬度=(觀察值值中的最大大數(shù)值-觀察察值值中中的的最最小小數(shù)數(shù)值值))/組數(shù)數(shù)=(128-84)/6=7.383分6組,,組組距距784,85,87,91,91,94,95,96,97,99,101,101,103,103………計(jì)算算不不方方便便84結(jié)合合實(shí)實(shí)際際數(shù)數(shù)據(jù)據(jù)比較較計(jì)計(jì)算算組組距距值值((7.3),,組組距距為為10比較較好好計(jì)計(jì)算算且且方方便便,,分組組的的組組數(shù)數(shù)相相應(yīng)應(yīng)從從6減少少為為5。最最小小值值為為83,下下限限從從80開(kāi)始始,,85按5組,,10元作作為為組組距距,,計(jì)計(jì)算算次次數(shù)數(shù)。。組限限::區(qū)區(qū)間間界界限限80-89求次次數(shù)數(shù)分分配配表表和和直直方方圖圖86次數(shù)數(shù)分分配配表表工資收入次數(shù)分配表工資收入分組次數(shù)80-90(80-89)390-100(90-99)7100-11013110-1205120-1302合計(jì)3087作圖圖88用excel作直直方方圖圖89分兩兩組組工資收入次數(shù)分配表工資收入分組次數(shù)80-10513105-13017合計(jì)30反映不出觀察值分布特征90分組組太太細(xì)細(xì)會(huì)會(huì)出出現(xiàn)現(xiàn)什什么么問(wèn)問(wèn)題題??91分組組數(shù)數(shù)據(jù)據(jù)的的圖圖示示(直方方圖圖的的繪繪制制)140150210直方圖下的面積之和等于1某電電腦腦公公司司銷銷售售量量分分布布的的直直方方圖圖我一眼就看出來(lái)了,銷售量在170~180之間的天數(shù)最多!190200180160170頻數(shù)(天)25201510530220230240銷售售量量((臺(tái)臺(tái)))92次數(shù)數(shù)曲曲線線用直直線線線線段段連連接接直直方方圖圖各各組組條條形形頂頂端端中中值值,,形形成成一一條條平平滑滑的的曲曲線線,,即即次數(shù)數(shù)曲曲線線。常見(jiàn)見(jiàn)的的四四種種次次數(shù)數(shù)曲曲線線::正態(tài)態(tài)分分布布曲曲線線,,偏偏態(tài)態(tài)曲曲線線,,J形曲曲線線和和U形曲曲線線。正態(tài)態(tài)分分布布曲曲線線偏態(tài)態(tài)曲曲線線J形曲曲線線U形曲曲線線正偏偏((右右偏偏))負(fù)偏偏((左左偏偏))93累計(jì)計(jì)次次數(shù)數(shù)分分布布周工資上組限組次數(shù)小于上組限的累計(jì)次數(shù)小于上組限的累計(jì)百分比%80-9090-100100-110110-120120-130901001101201303713523102328301033779310094統(tǒng)計(jì)表表和統(tǒng)統(tǒng)計(jì)圖圖一個(gè)完完整的的統(tǒng)計(jì)計(jì)表要要求有有:表表號(hào)、、表名名、分分組標(biāo)標(biāo)志或或說(shuō)明明、指指標(biāo)名名稱及及數(shù)值值;統(tǒng)計(jì)圖圖有條條形圖圖、線線形圖圖、圓圓餅圖圖、立立體圖圖、枝枝葉圖圖等;;統(tǒng)計(jì)圖線形圖條形圖圓餅圖95示例數(shù)數(shù)據(jù)96線形圖圖(Linegraph)(億元)97條形圖圖(Barchart)(億元)98圓餅圖圖(Piechart)99環(huán)形圖圖(doughnutchart)環(huán)形圖圖中間間有一一個(gè)“空洞”,樣本本或總總體中中的每每一部部分?jǐn)?shù)數(shù)據(jù)用用環(huán)中中的一一段表表示與餅圖圖類似似,但但又有有區(qū)別別餅圖只只能顯顯示一一個(gè)總總體各各部分分所占占的比比例環(huán)形圖圖則可可以同同時(shí)繪繪制多多個(gè)樣樣本或或總體體的數(shù)數(shù)據(jù)系系列,,每一一個(gè)樣樣本或或總體體的數(shù)數(shù)據(jù)系系列為為一個(gè)個(gè)環(huán)用于結(jié)結(jié)構(gòu)比比較研研究用于展展示分分類和和順序序數(shù)據(jù)據(jù)100環(huán)形圖圖8%36%31%15%7%33%26%21%13%10%

非常不滿意

不滿意

一般

滿意

非常滿意

甲乙兩城市家庭對(duì)住房狀況的評(píng)價(jià)101多變量量數(shù)據(jù)據(jù)—雷達(dá)圖圖(radarchart)也稱為為蜘蛛蛛圖(spiderchart)顯示多多個(gè)變變量的的圖示示方法法在顯示示或?qū)?duì)比各各變量量的數(shù)數(shù)值總總和時(shí)時(shí)十分分有用用假定各各變量量的取取值具具有相相同的的正負(fù)負(fù)號(hào),,總的的絕對(duì)對(duì)值與與圖形形所圍圍成的的區(qū)域域成正正比可用于于研究究多個(gè)個(gè)樣本本之間間的相相似程程度102多變量量數(shù)據(jù)據(jù)—雷達(dá)圖圖(雷達(dá)圖圖的制制作)設(shè)有n組樣本本S1,S2,…,Sn,每個(gè)個(gè)樣本本測(cè)得得P個(gè)變量量X1,X2,…,XP,要繪繪制這這P個(gè)變量量的雷雷達(dá)圖圖,其其具體體做法法是先做一一個(gè)圓圓,然然后將將圓P等分,,得到到P個(gè)點(diǎn),,令這這P個(gè)點(diǎn)分分別對(duì)對(duì)應(yīng)P個(gè)變量量,在在將這這P個(gè)點(diǎn)與與圓心心連線線,得得到P個(gè)輻射射狀的的半徑徑,這這P個(gè)半徑徑分別別作為為P個(gè)變量量的坐坐標(biāo)軸軸,每每個(gè)變變量值值的大大小由由半徑徑上的的點(diǎn)到到圓心心的距距離表表示將同一一樣本本的值值在P個(gè)坐標(biāo)標(biāo)上的的點(diǎn)連連線。。這樣樣,n個(gè)樣本本形成成的n個(gè)多邊邊形就就是一一個(gè)雷雷達(dá)圖圖103多變量量數(shù)據(jù)據(jù)—雷達(dá)圖圖(例題分分析)【例】2003年我國(guó)國(guó)城鄉(xiāng)鄉(xiāng)居民民家庭庭平均均每人人各項(xiàng)項(xiàng)生活活消費(fèi)費(fèi)支出出構(gòu)成成數(shù)據(jù)據(jù)如表表。試試?yán)L制制雷達(dá)達(dá)圖2003年城鄉(xiāng)居民家庭平均每人生活消費(fèi)支出構(gòu)成(%)項(xiàng)目城鎮(zhèn)居民農(nóng)村居民

食品衣著家庭設(shè)備用品及服務(wù)醫(yī)療保健交通通訊娛樂(lè)教育文化服務(wù)居住雜項(xiàng)商品與服務(wù)37.129.796.307.3111.0814.3510.743.3045.595.674.205.968.3612.1315.872.21104多變量量數(shù)據(jù)據(jù)—雷達(dá)圖圖(例題分分析)105106散點(diǎn)圖圖(ScatterDiagram)107集中趨趨勢(shì)和和離中中趨勢(shì)勢(shì)集中趨趨勢(shì)的的計(jì)量量離中趨趨勢(shì)的的計(jì)量量偏斜度度和峰峰度的的計(jì)量量108次數(shù)分分配后后有兩兩個(gè)特特征集中趨趨勢(shì)的的計(jì)量量。集中趨趨勢(shì)反反映一一組數(shù)數(shù)據(jù)中中各數(shù)數(shù)據(jù)所所具有的的共同同趨勢(shì)勢(shì),即即資料料中各各數(shù)據(jù)據(jù)聚集的的位置置離中((離散散)趨趨勢(shì)的的計(jì)量量109算術(shù)平平均值值簡(jiǎn)單算算術(shù)平平均數(shù)數(shù)計(jì)算算公式式:它反映映數(shù)據(jù)據(jù)集中中的主主要測(cè)測(cè)度。110加權(quán)算算數(shù)平平均數(shù)數(shù)111算數(shù)平平均值值的好好性質(zhì)質(zhì)一數(shù)據(jù)觀觀察值值與均均值的的離差差值之之和為為零此性質(zhì)質(zhì)表明明均值值是個(gè)個(gè)數(shù)值值的重重心112算數(shù)平平均值值的好好性質(zhì)質(zhì)二觀察值值與均均值的的離差差平方方和最最小,,為任意意數(shù)。。113均值的的缺點(diǎn)點(diǎn)均值易易受極極端值值的影影響,,某個(gè)個(gè)極端端大值值或極極端小小值都都會(huì)影影響均均值的的代表表性。。同時(shí)時(shí)還影影響其其對(duì)集集中趨趨勢(shì)測(cè)測(cè)度的的準(zhǔn)確確性114中位數(shù)數(shù)將數(shù)據(jù)據(jù)觀察察值按按其其變量量值由由小到到大的的順序序排序序?yàn)槿绻麄€(gè)個(gè)數(shù)為為奇數(shù)數(shù),中中位數(shù)數(shù)所在在位置置位置上上的數(shù)數(shù)值為為成為為中位位數(shù);;用表表示中中位數(shù)數(shù),6,7,8,9,12,15,18115舉例1987年美國(guó)國(guó)家庭庭收入入中位位數(shù)大大約是是30800美元。。收入入直方方圖有有一個(gè)個(gè)長(zhǎng)的的右尾尾部,,且平平均數(shù)數(shù)較高高一些些,為為37000美元。。在處處理長(zhǎng)長(zhǎng)尾的的分布布時(shí),,統(tǒng)計(jì)計(jì)學(xué)家家常常常使用用中位位數(shù)而而不用用平均均數(shù),,理由由在于于在某某些情情況下下,平平均數(shù)數(shù)過(guò)多多地注注意了了分布布的極極端尾尾部的的小百百分比比的事事例。。116眾數(shù)數(shù)眾數(shù)是是一組組資料料中出出現(xiàn)此此書最最多的的那個(gè)個(gè)數(shù)值值,也也反映映數(shù)據(jù)據(jù)集中中的程程度。。20,15,18,20,20,22,20,2320,20,15,19,19,20,19,2510,11,13,16,15,25,8,12117對(duì)稱分分布平均數(shù)數(shù)與中中位數(shù)數(shù)相同同眾數(shù)平均數(shù)數(shù)中位數(shù)數(shù)118均值是是數(shù)據(jù)據(jù)分布布的平平衡點(diǎn)點(diǎn)或重重心中位數(shù)數(shù)把這這個(gè)分分布劃劃分為為兩半半眾數(shù)正正好是是分布布的頂頂端119長(zhǎng)左尾尾部—負(fù)偏態(tài)態(tài)—左偏態(tài)態(tài)平均數(shù)數(shù)小于于中位位數(shù)120幾何均均值凡是變變量值值乘積積等于于總比比率或或總速速度的的現(xiàn)象象都可可以用用幾何何平均均數(shù)來(lái)來(lái)計(jì)算算平均均率或或平均均速度度。主要用用于指指數(shù)和和平均均發(fā)展展速度度的計(jì)計(jì)算,,用表表示,,公式式為::121表示變變異((離散散)程程度的的特征征數(shù)數(shù)據(jù)的變異程度產(chǎn)品質(zhì)量檢查的結(jié)果說(shuō)明生產(chǎn)是否穩(wěn)定測(cè)量的結(jié)果說(shuō)明測(cè)量方法或儀器是精密還是粗糙學(xué)生的成績(jī)成績(jī)是否整齊(而不是高低)122離散程程度的的測(cè)度度離散程程度的的測(cè)度度的主主要方方法是是:極極差和和方差差極差極差也也稱為為全距距,是是一組組數(shù)據(jù)據(jù)的最最大值值和最最小值值的差差:例如::天氣氣預(yù)報(bào)報(bào)123方差方差是是觀察察值與與其均均值離離差平平方和和的均均值,,又有有總體體方差差和樣樣本方方差之之分;;124標(biāo)準(zhǔn)差差標(biāo)準(zhǔn)差差是方方差的的正平平方根根總體標(biāo)標(biāo)準(zhǔn)差差樣本標(biāo)標(biāo)準(zhǔn)差差125用Excel計(jì)算描描述統(tǒng)統(tǒng)計(jì)量量將120個(gè)銷售售量的的數(shù)據(jù)據(jù)輸入入到Excel工作表表中,,然后后按下下列步步驟操操作第1步:選擇【工具】下拉菜菜單第2步:選擇【數(shù)據(jù)分分析】選項(xiàng)第3步:在分析析工具具中選選擇【描述統(tǒng)統(tǒng)計(jì)】,然后后選擇擇【確定】第4步:當(dāng)對(duì)話話框出出現(xiàn)時(shí)時(shí)在【輸入?yún)^(qū)區(qū)域】方框內(nèi)內(nèi)鍵入入數(shù)據(jù)區(qū)區(qū)域在【輸出選選項(xiàng)】中選擇擇輸出區(qū)區(qū)域選擇【匯總統(tǒng)統(tǒng)計(jì)】選擇【確定】實(shí)例計(jì)計(jì)算126Excel中的統(tǒng)統(tǒng)計(jì)函函數(shù)MODE—計(jì)算眾眾數(shù)MEDIAN—計(jì)算中中位數(shù)數(shù)QUARTILE—計(jì)算四四分位位數(shù)AVERAGE—計(jì)算平平均數(shù)數(shù)HARMEAN—計(jì)算簡(jiǎn)簡(jiǎn)單調(diào)調(diào)和平平均數(shù)數(shù)GEOMEAN—計(jì)算幾幾何平平均數(shù)數(shù)AVEDEV—計(jì)算平平均差差STDEV—計(jì)算樣樣本標(biāo)標(biāo)準(zhǔn)差差STDEVP—計(jì)算總總體標(biāo)標(biāo)準(zhǔn)差差SKEW—計(jì)算偏偏態(tài)系系數(shù)KURT—計(jì)算峰峰態(tài)系系數(shù)TRIMMEAN—計(jì)算切切尾均均值127數(shù)據(jù)分分布特特征和和描述述統(tǒng)計(jì)計(jì)量數(shù)據(jù)分布特征集中趨勢(shì)離散程度分布形狀中位數(shù)平均數(shù)異眾比率四分位差極差偏態(tài)系數(shù)平均差方差或標(biāo)準(zhǔn)差峰態(tài)系數(shù)眾數(shù)離散系數(shù)128因變量量(Y)與自變變量(X)之間的的關(guān)系系根據(jù)因因變量量與自自變量量之間間的關(guān)關(guān)系不不同,,可以以分為為兩種種類型型:函數(shù)關(guān)關(guān)系統(tǒng)計(jì)關(guān)關(guān)系129變量之之間的的關(guān)系系函數(shù)關(guān)關(guān)系::變量量之間間依一一定的的函數(shù)數(shù)形成成的一一一對(duì)對(duì)應(yīng)關(guān)關(guān)系,,若兩兩個(gè)變變量分分別記記做Y與X,則當(dāng)當(dāng)Y與X之間存存在函函數(shù)關(guān)關(guān)系時(shí)時(shí),X值一旦旦被指指定,,Y值就是是唯一一確定定的。。130函數(shù)關(guān)關(guān)系函數(shù)關(guān)關(guān)系的的例子子某種商商品的的銷售售額(y)與銷售售量(x)之間的的關(guān)系系可表表示為為y=px(p為單價(jià)價(jià))圓的面面積(S)與半徑徑之間間的關(guān)關(guān)系可可表示示為S=r2企業(yè)的的原材材料消消耗額額(y)與產(chǎn)量量(x1)、單位位產(chǎn)量量消耗耗(x2)、原材材料價(jià)價(jià)格(x3)之間的的關(guān)系系可表表示為為y=x1x2x3131變量之之間的的關(guān)系系統(tǒng)計(jì)關(guān)關(guān)系::兩個(gè)個(gè)變量量之間間存在在某種種關(guān)系系,但但變量量Y并不是是由變變量X唯一確確定的的,它它們之之間沒(méi)沒(méi)有嚴(yán)嚴(yán)格的的一一一對(duì)應(yīng)應(yīng)關(guān)系系。兩兩個(gè)變變量間間的這這種關(guān)關(guān)系就就是統(tǒng)統(tǒng)計(jì)關(guān)關(guān)系,,亦稱稱相關(guān)關(guān)關(guān)系。兩個(gè)個(gè)變量量之間間若存存在線線性關(guān)關(guān)系稱稱為線性相相關(guān),存在在非線線性關(guān)關(guān)系稱稱為曲線相相關(guān),通常常通過(guò)過(guò)適當(dāng)當(dāng)?shù)淖冏兞孔冏儞Q,,曲線線相關(guān)關(guān)可轉(zhuǎn)轉(zhuǎn)換為為線性性相關(guān)關(guān)。132相關(guān)關(guān)關(guān)系相關(guān)關(guān)關(guān)系的的例子子商品的的消費(fèi)費(fèi)量(y)與居民民收入入(x)之間的的關(guān)系系商品的的消費(fèi)費(fèi)量(y)與物價(jià)價(jià)(x)之間的的關(guān)系系商品銷銷售額額(y)與廣告告費(fèi)支支出(x)之間的的關(guān)系系糧食畝畝產(chǎn)量量(y)與施肥肥量(x1)、降雨雨量(x2)、溫度度(x3)之間的的關(guān)系系收入水水平(y)與受教教育程程度(x)之間的的關(guān)系系父親身身高(y)與子女女身高高(x)之間的的關(guān)系系133總體相相關(guān)系系數(shù)134樣本相相關(guān)系系數(shù)135樣本相關(guān)關(guān)系數(shù)136樣本相關(guān)關(guān)系數(shù)137相關(guān)關(guān)系系的測(cè)度度(相關(guān)系系數(shù)取值值及其意意義)-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無(wú)線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加138相關(guān)性的的可視化化Scatterplotsshowingthesimilarityfrom––1to1.139示例為研究股股票收益益與風(fēng)險(xiǎn)險(xiǎn)之間的的關(guān)系,,抽選了了美國(guó)15種股票,,計(jì)算它它們?cè)?956~1980年間的平平均收益益率和標(biāo)標(biāo)準(zhǔn)差如如表(美美國(guó)15種股票平平均收益益率與標(biāo)標(biāo)準(zhǔn)差)),試計(jì)計(jì)算收益益率與風(fēng)風(fēng)險(xiǎn)之間間的相關(guān)關(guān)系數(shù)。。計(jì)算結(jié)果果為:r=0.6376,說(shuō)明了了平均收收益越大大風(fēng)險(xiǎn)也也越大。。140相關(guān)分析析中應(yīng)注注意的問(wèn)問(wèn)題相關(guān)系數(shù)數(shù)不解釋釋兩個(gè)變變量間的的因果關(guān)關(guān)系,它它只是表表明了兩兩個(gè)變量量間互相相影響的的程度和和方向。。有時(shí)兩變變量之間間不存在在相關(guān)關(guān)關(guān)系,但但卻可能能出現(xiàn)較較高的相相關(guān)系數(shù)數(shù),要警警惕虛假假相關(guān)導(dǎo)導(dǎo)致的錯(cuò)錯(cuò)誤結(jié)論論。141推斷統(tǒng)計(jì)計(jì)參數(shù)估計(jì)計(jì)假設(shè)檢驗(yàn)驗(yàn)方差分析析回歸分析析時(shí)間序列列分析推斷性統(tǒng)計(jì)學(xué)142相關(guān)分析析與回歸歸分析相關(guān)分析析就是用一一個(gè)指標(biāo)標(biāo)來(lái)表明明現(xiàn)象間間相互依依存關(guān)系系的密切切程度。。廣義的的相關(guān)分分析包括括相關(guān)關(guān)關(guān)系的分分析(狹狹義的相相關(guān)分析析)和回回歸分析析?;貧w分析析是指對(duì)具具有相關(guān)關(guān)關(guān)系的的現(xiàn)象,,根據(jù)其其相關(guān)關(guān)關(guān)系的具具體形態(tài)態(tài),選擇擇一個(gè)合合適的數(shù)數(shù)學(xué)模型型(稱為為回歸方方程式)),用來(lái)來(lái)近似地地表達(dá)變變量間的的平均變變化關(guān)系系的一種種統(tǒng)計(jì)分分析方法法。143回歸模型型的類型型一個(gè)自變變量?jī)蓚€(gè)以上上自變量量回歸模型型多元回歸歸一元回歸歸線性回歸歸非線性回回歸線性回歸歸非線性回回歸144一元線性性回歸模模型統(tǒng)計(jì)關(guān)系系的特征征統(tǒng)計(jì)關(guān)系系特征觀測(cè)點(diǎn)散散布在統(tǒng)統(tǒng)計(jì)關(guān)系系直線的的周圍,,此種情情況說(shuō)明明Y的變化除除了受自自變量X影響以外外,還受受其他因因素的影影響。因此試圖圖建立這這樣一個(gè)個(gè)回歸模模型,通通過(guò)對(duì)此此模型所作的一一些假設(shè)設(shè),可以以體現(xiàn)出出上述統(tǒng)統(tǒng)計(jì)關(guān)系系所刻劃劃的特征征。因變量Y隨自變量量X有規(guī)律的的變化,,而統(tǒng)計(jì)計(jì)關(guān)系直直線描述述了這一一變化的的趨勢(shì)。。145一元線性性回歸模模型假設(shè)設(shè)根據(jù)統(tǒng)計(jì)計(jì)關(guān)系特特征,可可以進(jìn)行行下述假假設(shè):假設(shè)(2)這些Y的概率分分布的均均值,有規(guī)律的的隨X變化而變變化(1)對(duì)于自變變量的每每一水平平X,存在著Y的一個(gè)概概率分布布;146一元線性性回歸模模型Y與X具有統(tǒng)計(jì)計(jì)關(guān)系而且且是線性性建立回歸模型型Yi=β0+β1Xi+εi(i=1,2,···,n)其中,(Xi,Yj)表示(X,Y)的第i個(gè)觀測(cè)值值,β0,β1為參數(shù),,β0+β1Xi為反映統(tǒng)統(tǒng)計(jì)關(guān)系系直線的的分量,,εi為反映在在統(tǒng)計(jì)關(guān)關(guān)系直線線周圍散散布的隨隨機(jī)分量量εi~N(0,σ2)。147一元線性性回歸模模型對(duì)于任意意Xi值有:⑴Yi服從正態(tài)態(tài)分布⑵E(Yi)=β0+β1Xi;⑶⑷各Yi間相互獨(dú)獨(dú)立Yi~N(β0+β1Xi,σ2)148一元線性性回歸方方程最小二乘乘法Y與X之間為線性關(guān)關(guān)系選出一條條最能反反映Y與X之間關(guān)系系規(guī)律的直直線149一元線性性回歸方方程Yi=β0+β1Xi+εiβ0和β1均未知根據(jù)樣本本數(shù)據(jù)對(duì)β0和β1進(jìn)行估計(jì)計(jì)β0和β1的估計(jì)值為b0和b1建立一元元線性回回歸方程程150一元線性性回歸方方程一般而言言,所求求的b0和b1應(yīng)能使每每個(gè)樣本本觀測(cè)點(diǎn)點(diǎn)(Xi,Yi)與回歸直直線之間間的偏差差盡可能能小,即即使觀察察值與擬擬合值的誤誤差平方方和Q達(dá)到最小小。回歸方程程原理圖圖151一元線性性回歸方方程令Q達(dá)到最小小值b0和b1稱為最小小二乘估估計(jì)量微積分中中極值的必要條條件令偏導(dǎo)數(shù)數(shù)為0解方程152一元線性性回歸方方程153模型適在對(duì)一元元線性回回歸模型型的適合合性進(jìn)行行分析時(shí)時(shí),由于誤差差項(xiàng)是不不可觀測(cè)測(cè)或測(cè)量量的,需借助殘殘差的圖像,來(lái)考察模模型是否否存在以以下情況況:異方方差性和自自相關(guān)性性。154誤差項(xiàng)的的異方差差性檢驗(yàn)驗(yàn)若不不具有有常數(shù)方方差,稱模型存存在異方方差性。。此時(shí),殘差如下圖所所示,數(shù)數(shù)據(jù)點(diǎn)呈呈現(xiàn)發(fā)散散或收斂斂趨勢(shì)。。在此此種情況況下,最小二乘乘法失效效,因此需按按照一定定方法對(duì)對(duì)數(shù)據(jù)進(jìn)進(jìn)行變換。155誤差項(xiàng)的的異方差差性檢驗(yàn)驗(yàn)誤差項(xiàng)具具有異方方差性的的殘差圖圖156誤差項(xiàng)的的自相性性關(guān)檢驗(yàn)驗(yàn)如果觀測(cè)測(cè)值是來(lái)來(lái)自一個(gè)個(gè)時(shí)間序序列的樣樣本,則很可能能出現(xiàn)誤差差項(xiàng)是不獨(dú)立立的,將殘差et與時(shí)間t作殘差圖,將呈現(xiàn)出出有規(guī)則則的變化化趨勢(shì)。。稱模型型存在自自相關(guān)(Autocorrelation)現(xiàn)象,也也需按一一定方法法對(duì)數(shù)據(jù)據(jù)進(jìn)行修修正。157誤差項(xiàng)的的自相性性關(guān)檢驗(yàn)驗(yàn)誤差項(xiàng)具具有負(fù)自自相關(guān)性性的殘差差圖158誤差項(xiàng)的的自相性性關(guān)檢驗(yàn)驗(yàn)誤差項(xiàng)具具有正自自相關(guān)性性的殘差差圖159多元線性性回歸分分析多元線性性回歸的的基本思思想是什什么?多元線性性回歸的的模型與與一元線線性回歸歸有什么么異同??與一元線線性回歸歸相比,,多元線線性回歸歸的檢驗(yàn)驗(yàn)有何特特殊之處處?多元線性性回歸分分析的定定義多元線性性回歸分分析:研研究因變變量(被被解釋變變量)與與兩個(gè)或或兩個(gè)以以上自變變量(解解釋變量量)之間間的回歸歸問(wèn)題,,稱為多多元回歸歸分析。。線性回歸歸自變量個(gè)個(gè)數(shù)大于等于于2多元線性回歸161多元線性性回歸模模型若因變量量Y與解解釋變量量X1,X2,XK……具有線性性關(guān)系,,它們之之間的線線性回歸歸模型可可表示為為(其中中b0,b1,…,bk為回歸系系數(shù),u為隨機(jī)擾擾動(dòng)項(xiàng))):多元線性性回歸的的基本理理論162多元線性性回歸模模型將n個(gè)觀察數(shù)數(shù)據(jù)代入入上述模模型,則則問(wèn)題轉(zhuǎn)轉(zhuǎn)化為::多元線性性回歸的的基本理理論163多元線性性回歸模模型多元線性性回歸的的基本理理論寫為矩陣陣形式::164多元線性性回歸模模型多元線性性回歸的的基本理理論即:其中,Y,u是n維向量,,b是k維向量,,x是m×k矩陣165多元線性性回歸模模型多元線性性回歸的的基本理理論基本假定定:①②166多元線性性回歸模模型多元線性性回歸的的基本理理論③④167參數(shù)的最最小二乘乘估計(jì)采用最小小二乘估估計(jì)回歸歸系數(shù)b令:取最小值值168參數(shù)的最最小二乘乘估計(jì)Q在最小值值處偏導(dǎo)導(dǎo)數(shù)為0,得:采用最小小二乘估估計(jì)回歸歸系數(shù)b169參數(shù)的最最小二乘乘估計(jì)采用最小小二乘估估計(jì)回歸歸系數(shù)b整理得::求解該聯(lián)聯(lián)立方程程組即可可得170回歸方程程的顯著著性檢驗(yàn)驗(yàn)假設(shè)求得的回回歸方程程為:總離差平平方和分分解171總離差平平方和分分解同一元回回歸,可可得:并且:(10-6)172總離差平平方和分分解總離差平平方和::即是:回歸平方方和:殘差平方方和:173樣本決定定系數(shù)對(duì)對(duì)回歸方方程““擬合優(yōu)優(yōu)度”的的檢驗(yàn)樣本決定定系數(shù)RR2,又稱復(fù)復(fù)決定系系數(shù),或或多重決決定系數(shù)數(shù)。定義:樣本決定定系數(shù)RR2174樣本決定定系數(shù)對(duì)對(duì)回歸方方程““擬合優(yōu)優(yōu)度”的的檢驗(yàn)樣本容量量增大(n↑)R2也隨之增增大(R2↑)R2的大小很難說(shuō)明明問(wèn)題R2存在的問(wèn)問(wèn)題175樣本決定定系數(shù)對(duì)對(duì)回歸方方程““擬合優(yōu)優(yōu)度”的的檢驗(yàn)R2的改進(jìn)當(dāng)n為小樣本本,解釋釋變量數(shù)數(shù)很大時(shí)時(shí),上式式可能為為負(fù)數(shù),,這時(shí)取取其值為為0。R2與均

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論