高級(jí)應(yīng)用統(tǒng)計(jì)學(xué)-基本概念與數(shù)據(jù)特征的初步分析_第1頁
高級(jí)應(yīng)用統(tǒng)計(jì)學(xué)-基本概念與數(shù)據(jù)特征的初步分析_第2頁
高級(jí)應(yīng)用統(tǒng)計(jì)學(xué)-基本概念與數(shù)據(jù)特征的初步分析_第3頁
高級(jí)應(yīng)用統(tǒng)計(jì)學(xué)-基本概念與數(shù)據(jù)特征的初步分析_第4頁
高級(jí)應(yīng)用統(tǒng)計(jì)學(xué)-基本概念與數(shù)據(jù)特征的初步分析_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

沈琪

2010前情回顧

Previouslyreviewed

前情回顧定類尺度(NominalLevel)定序尺度(OrdinalLevel)定距尺度(IntervalLevel)定比尺度(RatioLevel)前情回顧問卷設(shè)計(jì)中的若干重要問題SomeimportantproblemsinQuestionnairedesign能夠獲得誠實(shí)的回答單選問題的備選答案應(yīng)當(dāng)是一個(gè)答案空間的完整劃分并且互相排斥多選題的答案必須分布在兩個(gè)以上的維度。多選問題的備選答案,至少有一部分不是互相排斥的。問題的陳述和備選答案都不能有多重含義。問題設(shè)計(jì)的用語要含義明確,不能讓應(yīng)答者產(chǎn)生不同的理解。在問題的陳述中,要對(duì)所詢問的行為的時(shí)間、方式、目的做必要的限定。前情回顧7.在問卷問題中,凡是能夠限定數(shù)量范圍的要盡量限定。不僅要從研究目的,還要從應(yīng)答者的角度來審核問卷問題設(shè)置的合理性。8.問題的不同提法可能導(dǎo)致不同的回答結(jié)果。9.對(duì)于得不到誠實(shí)回答而又必須了解的數(shù)據(jù),可以通過變換問題的提法來獲得相應(yīng)的數(shù)據(jù),或者通過了解相對(duì)數(shù)據(jù)來判斷總體的情況。10.問卷不能太長,以20~30分鐘為宜。11.把相對(duì)容易回答和相對(duì)有趣的問題放在問卷的前面,難得放在后面。12.問卷設(shè)計(jì)一定要通過小規(guī)模訪談來修改。問卷設(shè)計(jì)中的若干重要問題SomeimportantproblemsinQuestionnairedesign數(shù)據(jù)預(yù)處理/dws148f/statisticsresourcesmain.asp.au/nceph/surfstathome/sufrstat.html/govdocs/stats.html統(tǒng)計(jì)學(xué)網(wǎng)絡(luò)資源沈琪

2010高級(jí)應(yīng)用統(tǒng)計(jì)學(xué)

——基本概念與數(shù)據(jù)特征的初步分析

BasicConceptsandPreliminaryAnalysisofDataCharacteristics

基本概念BasicConcepts……………數(shù)據(jù)預(yù)處理DataPreprocessing……常用統(tǒng)計(jì)參數(shù)StatisticalParameters………………具體案例Cases………………………010203導(dǎo)讀04第一節(jié)基本概念

BasicConcepts

基本概念總體(Population)個(gè)體(Individual)指標(biāo)(Variable)數(shù)據(jù)(Data)離散變量(discretevariable)連續(xù)變量(continuousvariable)基本概念比例(Proportion):一個(gè)總體中各個(gè)部分的數(shù)量占總體數(shù)量的比重,通常反映總體的構(gòu)成或結(jié)構(gòu)。比率(Ration):各不同類別的數(shù)量比值??梢允峭豢傮w中不同部分的數(shù)量對(duì)比

如:總?cè)丝谥校耗行?女性;GDP中:固定資產(chǎn)投資/居民消費(fèi)GDP中:三次產(chǎn)業(yè)增加值之比可以是同一現(xiàn)象在不同時(shí)間或空間上的數(shù)量之比

如:不同年份GDP之比

經(jīng)濟(jì)增長率不同地區(qū)GDP之比

兩個(gè)地區(qū)經(jīng)濟(jì)水平差異第二節(jié)數(shù)據(jù)預(yù)處理

DataPreprocessing

數(shù)據(jù)預(yù)處理(一)一、數(shù)據(jù)的審核、篩選、排序1、審核(examinationandverification):對(duì)第一手資料(直接調(diào)查或試驗(yàn)取得):審核其完整性與準(zhǔn)確性如:文化程度:小學(xué)職業(yè):大學(xué)教師對(duì)第二手資料(獲取他人的資料):審核其完整性、準(zhǔn)確性、適用性、時(shí)效性數(shù)據(jù)預(yù)處理(一)

2、篩選(datafildtering):剔除不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù);將符合特定條件的數(shù)據(jù)篩選出來。數(shù)據(jù)預(yù)處理(一)3、數(shù)據(jù)的排序(datarank)數(shù)據(jù)排序是按一定順序?qū)?shù)據(jù)排列。排序目的:a、通過瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征趨勢或解決問題的線索;b、有助于數(shù)據(jù)的檢查糾錯(cuò);c、為分組提供依據(jù)。數(shù)據(jù)預(yù)處理(二)二、數(shù)據(jù)分組(datagrouping)與頻數(shù)分布(frequencydistribution)預(yù)處理數(shù)據(jù)分組計(jì)算頻數(shù)描述統(tǒng)計(jì)數(shù)據(jù)預(yù)處理(二)數(shù)據(jù)分組統(tǒng)計(jì)分組(statisticalgroup)是將預(yù)處理過的數(shù)據(jù)按照某種特征或標(biāo)準(zhǔn)分成不同的組別。◎統(tǒng)計(jì)分組標(biāo)志(indicant):分組時(shí)所依據(jù)的特征或標(biāo)準(zhǔn),有品質(zhì)標(biāo)志(attributiveindicant)和數(shù)量標(biāo)志(quantitativeindicant)?!蝾l數(shù)分布表(frequencydistributiontable):對(duì)分組后的數(shù)據(jù),計(jì)算各組中數(shù)據(jù)出現(xiàn)的次數(shù)或頻數(shù)所形成的匯總表。數(shù)據(jù)預(yù)處理(二)◎

頻數(shù)分布或次數(shù)分布(Frequencydistribution):全部數(shù)據(jù)按其分組標(biāo)志在各組內(nèi)的分布狀況。分布在各組內(nèi)的數(shù)據(jù)個(gè)數(shù)稱為頻數(shù)或次數(shù)。Afrequencydistributionisatabularsummaryofasetofdatashowingthefrequency(ornumber)

ofitemsineachofseveralnonoverlappingclasses.◎相對(duì)頻數(shù)(Relativefrequency)/頻率/比重:各組頻數(shù)與全部頻數(shù)之和的比重。Therelativefrequencyofaclassistheproportionofthetotalnumberofdataitemsbelongingtotheclass.(=Frequencyoftheclass/n)◎百分?jǐn)?shù)頻數(shù)(Percentagefrequency):istherelativefrequencymultipliedby100.數(shù)據(jù)預(yù)處理(二)50個(gè)計(jì)算機(jī)購買者所購買的不同品牌的機(jī)型數(shù)據(jù)品質(zhì)標(biāo)志分組數(shù)據(jù)預(yù)處理(二)

Table,

FrequencyDistribution/RelativeandPercentageFrequencyofComputerPurchases

CompanyFrequencyRelativeFrequencyPercentageFrequencyApple130.2626Compaq120.2424Gatewy200050.1010IBM90.1818PackardBell110.2222Total501.00100Theobjectiveindevelopingafrequencydistributionistoprovideinsightsaboutthedatathatcannotbequicklyobtainedbylookingonlyattheoriginaldata.數(shù)據(jù)預(yù)處理(二)分組計(jì)頻基本步驟:確定組數(shù)

確定組距

(按組)整理成分布頻數(shù)表數(shù)量標(biāo)志分組數(shù)據(jù)預(yù)處理(二)一會(huì)計(jì)事務(wù)所對(duì)其20家客戶(clients)年底帳目輯核(audits)時(shí)間(天)統(tǒng)計(jì)如下表:Table

Year-EndAuditTimes(indays)1214191815151817202722232221332814181613數(shù)據(jù)預(yù)處理(二)1、確定組數(shù)(Numberofclasses)。組數(shù)的確定一般視數(shù)據(jù)本身的特點(diǎn)及數(shù)據(jù)的多少而定。實(shí)際分組時(shí)常按斯特格斯(Sturges)提出的經(jīng)驗(yàn)公式來確定組數(shù)K:其中N為數(shù)據(jù)的個(gè)數(shù)(總體單位數(shù)或樣本數(shù)),一般對(duì)結(jié)果取整數(shù)。數(shù)據(jù)預(yù)處理(二)2、確定組距(Widthofclasses):組距是一個(gè)組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定:

組距=(最大值-最小值)/組數(shù)數(shù)據(jù)預(yù)處理(二)確定各組組限(Classlimits)并據(jù)此整理頻數(shù)分布表。數(shù)據(jù)預(yù)處理(二)1、分組所遵循的主要原則是“不重不漏”(eachdatavaluebelongstooneclassandonlyoneclass)。因此,最低組限(Thelowerclasslimit)

數(shù)據(jù)的最小值,最大組限(Theupperclasslimit)

數(shù)據(jù)的最大值;另外,數(shù)據(jù)在每組中的歸屬習(xí)慣上采用“上組限不在內(nèi)”。

2、對(duì)離散型數(shù)據(jù),可采用相鄰兩組組限間斷的辦法解決“不重”的問題(如6~10,11~15,16~20等);對(duì)連續(xù)型數(shù)據(jù),往往采用相鄰兩組組限重疊,根據(jù)“上限不在內(nèi)原則”解決“不重”問題(如[5,10),[10,15),[15,20)等)。數(shù)據(jù)預(yù)處理(二)一會(huì)計(jì)事務(wù)所對(duì)其20家客戶(clients)年底帳目輯核(audits)時(shí)間(天)統(tǒng)計(jì)如下表:Table

Year-EndAuditTimes(indays)1214191815151817202722232221332814181613數(shù)據(jù)預(yù)處理(二)例中:K=1+lg20/lg2=1+4.32=5.325組距=(33-12)/5=4.2,可取整數(shù)5為最后選定的組距。

例中是離散型數(shù)據(jù)(天),采用組限間斷方法,因此可得頻數(shù)分布表如下:Table,

Frequencydistribution,relativefrequencyandpercentfrequencydistributionfortheaudit-timedataAuditFrequencyRelativePercentTime(days)FrequencyFrequency

10~14

40.202015~1980.404020~2450.252525~2920.101030~3410.055Total201.00100數(shù)據(jù)預(yù)處理(三)現(xiàn)實(shí)中的分析對(duì)象常常是多個(gè)要素(elements)構(gòu)成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱(unitsanddimension),其數(shù)值的變異(variation)可能是很大的,這就會(huì)對(duì)各種統(tǒng)計(jì)分析方法(statisticalanalysismethod)的計(jì)算結(jié)果(results)產(chǎn)生影響。因此當(dāng)分析要素的對(duì)象(object)確定之后,在進(jìn)行分析之前,首先要對(duì)要素進(jìn)行數(shù)據(jù)處理(DataPreprocessing)。三、數(shù)據(jù)的標(biāo)準(zhǔn)化(standardizationofdata)數(shù)據(jù)預(yù)處理(三)①總和標(biāo)準(zhǔn)化。分別求出各要素所對(duì)應(yīng)的數(shù)據(jù)的總和,以各要素的數(shù)據(jù)除以該要素的數(shù)據(jù)的總和,即

這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù)滿足數(shù)據(jù)預(yù)處理(三)②標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即由這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù),各要素的平均值為0,標(biāo)準(zhǔn)差為1,即

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論