統(tǒng)計(jì)學(xué)基礎(chǔ)03)第3章 數(shù)據(jù)的整理與顯.ppt_第1頁(yè)
統(tǒng)計(jì)學(xué)基礎(chǔ)03)第3章 數(shù)據(jù)的整理與顯.ppt_第2頁(yè)
統(tǒng)計(jì)學(xué)基礎(chǔ)03)第3章 數(shù)據(jù)的整理與顯.ppt_第3頁(yè)
統(tǒng)計(jì)學(xué)基礎(chǔ)03)第3章 數(shù)據(jù)的整理與顯.ppt_第4頁(yè)
統(tǒng)計(jì)學(xué)基礎(chǔ)03)第3章 數(shù)據(jù)的整理與顯.ppt_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第 3 章 數(shù)據(jù)的整理與顯示,第 3 章 數(shù)據(jù)的整理與顯示,3.1 數(shù)據(jù)的預(yù)處理 3.2 分類和順序數(shù)據(jù)的整理與顯示 3.3 數(shù)值型數(shù)據(jù)的整理與顯示 3.4 統(tǒng)計(jì)表,學(xué)習(xí)目標(biāo),了解數(shù)據(jù)預(yù)處理的內(nèi)容和目的 掌握分類和順序數(shù)據(jù)的整理與顯示方法 掌握數(shù)值型數(shù)據(jù)的整理與顯示方法 用Excel作頻數(shù)分布表和形圖 合理使用統(tǒng)計(jì)表,3.1 數(shù)據(jù)的預(yù)處理,一. 數(shù)據(jù)審核 二. 數(shù)據(jù)篩選 三. 數(shù)據(jù)排序,數(shù)據(jù)的預(yù)處理,數(shù)據(jù)的審核 檢查數(shù)據(jù)中的錯(cuò)誤 數(shù)據(jù)的篩選 找出符合條件的數(shù)據(jù) 數(shù)據(jù)排序 升序和降序 尋找數(shù)據(jù)的基本特征,數(shù)據(jù)審核,數(shù)據(jù)審核原始數(shù)據(jù) (raw data), 審核的內(nèi)容 完整性審核 檢查應(yīng)調(diào)查的單位或個(gè)體是否有遺漏 所有的調(diào)查項(xiàng)目或指標(biāo)是否填寫齊全 準(zhǔn)確性審核 檢查數(shù)據(jù)是否真實(shí)反映客觀實(shí)際情況,內(nèi)容是否符合實(shí)際 檢查數(shù)據(jù)是否有錯(cuò)誤,計(jì)算是否正確等,數(shù)據(jù)的審核原始數(shù)據(jù) (raw data),審核數(shù)據(jù)準(zhǔn)確性的方法 邏輯檢查 從定性角度,審核數(shù)據(jù)是否符合邏輯,內(nèi)容是否合理,各項(xiàng)目或數(shù)字之間有無相互矛盾的現(xiàn)象 主要用于對(duì)分類和順序據(jù)的審核 計(jì)算檢查 檢查調(diào)查表中的各項(xiàng)數(shù)據(jù)在計(jì)算結(jié)果和計(jì)算方法上有無錯(cuò)誤 主要用于對(duì)數(shù)值型數(shù)據(jù)的審核,數(shù)據(jù)的審核二手?jǐn)?shù)據(jù) (second hand data),適用性審核 弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料 確定數(shù)據(jù)是否符合自己分析研究的需要 時(shí)效性審核 盡可能使用最新的數(shù)據(jù) 確認(rèn)是否必要做進(jìn)一步的加工整理,數(shù)據(jù)篩選與排序,數(shù)據(jù)篩選 (data filter),當(dāng)數(shù)據(jù)中的錯(cuò)誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補(bǔ)時(shí),需要對(duì)數(shù)據(jù)進(jìn)行篩選 數(shù)據(jù)篩選的內(nèi)容包括 將某些不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù)予以剔除 將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔除,用Excel進(jìn)行數(shù)據(jù)篩選,8名學(xué)生的考試成績(jī)數(shù)據(jù),數(shù)據(jù)篩選 (data filter),數(shù)據(jù)排序 (data rank),按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢(shì),找到解決問題的線索 排序有助于對(duì)數(shù)據(jù)檢查糾錯(cuò),以及為重新歸類或分組等提供依據(jù) 在某些場(chǎng)合,排序本身就是分析的目的之一 排序可借助于計(jì)算機(jī)完成,數(shù)據(jù)排序 (方法),分類數(shù)據(jù)的排序 字母型數(shù)據(jù),排序有升序降序之分,但習(xí)慣上用升序 漢字型數(shù)據(jù),可按漢字的首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分 數(shù)值型數(shù)據(jù)的排序 遞增排序:設(shè)一組數(shù)據(jù)為x1,x2,xn,遞增排序后可表示為:x(1)x(2)x(n),3.2 分類和順序數(shù)據(jù)的整理與顯示,一. 分類數(shù)據(jù)的整理與顯示 二. 順序數(shù)據(jù)的整理與顯示,數(shù)據(jù)的整理與顯示 (基本問題),要弄清所面對(duì)的數(shù)據(jù)類型,因?yàn)椴煌愋偷臄?shù)據(jù),所采取的處理方式和方法是不同的 對(duì)分類數(shù)據(jù)和順序數(shù)據(jù)主要是做分類整理 對(duì)數(shù)值型數(shù)據(jù)則主要是做分組整理 適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù),分類數(shù)據(jù)的整理與圖示,分類數(shù)據(jù)的整理 (基本過程),1. 列出各類別,3. 制作頻數(shù)分布表 4. 用圖形顯示數(shù)據(jù),分類數(shù)據(jù)的整理 (可計(jì)算的指標(biāo)),頻數(shù)(frequency) :落在各類別中的數(shù)據(jù)個(gè)數(shù) 比例(proportion) :某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值 百分比(percentage) :將對(duì)比的基數(shù)作為100而計(jì)算的比值 比率(ratio) :不同類別數(shù)值的比值,分類數(shù)據(jù)整理頻數(shù)分布表 (例題分析),【例】一家市場(chǎng)調(diào)查公司為研究不同品牌飲料的市場(chǎng)占有率,對(duì)隨機(jī)抽取的一家超市進(jìn)行了調(diào)查。調(diào)查員在某天對(duì)50名顧客購(gòu)買飲料的品牌進(jìn)行了記錄,如果一個(gè)顧客購(gòu)買某一品牌的飲料,就將這一飲料的品牌名字記錄一次 。右邊就是記錄的原始數(shù)據(jù),用Excel制作頻數(shù)分布表,分類數(shù)據(jù)的圖示條形圖 (bar Chart),用寬度相同的條形的高度或長(zhǎng)短來表示各類別數(shù)據(jù)的圖形 有單式條形圖、復(fù)式條形圖等形式 主要用于反映分類數(shù)據(jù)的頻數(shù)分布 繪制時(shí),各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖,分類數(shù)據(jù)的圖示條形圖 (例題分析),分類數(shù)據(jù)的圖示餅圖 (pie Chart),也稱圓形圖,是用圓形及園內(nèi)扇形的面積來表示數(shù)值大小的圖形 主要用于表示總體或樣本中各組成部分所占的比例,對(duì)于研究結(jié)構(gòu)性問題十分有用 繪制圓形圖時(shí),總體中各部分所占的百分比用園內(nèi)的各個(gè)扇形面積表示,這些扇形的中心角度,是按各部分?jǐn)?shù)據(jù)百分比占3600的相應(yīng)比例確定的,分類數(shù)據(jù)的圖示餅圖 (例題分析),順序數(shù)據(jù)的整理與圖示,順序數(shù)據(jù)的整理 (可計(jì)算的指標(biāo)),1. 累積頻數(shù)(cumulative frequencies):各類別頻數(shù)的逐級(jí)累加 2. 累積頻率(cumulative percentages):各類別頻率(百分比)的逐級(jí)累加,順序數(shù)據(jù)的頻數(shù)分布表 (例題分析),【例】在一項(xiàng)城市住房問題的研究中,研究人員在甲乙兩個(gè)城市各抽樣調(diào)查300戶,其中的一個(gè)問題是:“您對(duì)您家庭目前的住房狀況是否滿意? 1非常不滿意;2不滿意;3一般;4滿意;5非常滿意。,順序數(shù)據(jù)的頻數(shù)分布表 (例題分析),順序數(shù)據(jù)的圖示累計(jì)頻數(shù)分布圖 (例題分析),甲城市家庭對(duì)住房狀況評(píng)價(jià)的累積頻數(shù)分布,環(huán)形圖 (annular chart),環(huán)形圖中間有一個(gè)“空洞”,總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示 環(huán)形圖與圓形圖類似,但又有區(qū)別 圓形圖只能顯示一個(gè)總體各部分所占的比例 環(huán)形圖則可以同時(shí)繪制多個(gè)總體的數(shù)據(jù)系列,每一個(gè)總體的數(shù)據(jù)系列為一個(gè)環(huán) 環(huán)形圖可用于結(jié)構(gòu)比較研究 環(huán)形圖主要用于展示分類和順序數(shù)據(jù),環(huán)形圖 (例題分析),3.3 數(shù)值型數(shù)據(jù)的整理與顯示,一. 數(shù)據(jù)分組 二. 數(shù)值型數(shù)據(jù)的圖示,數(shù)據(jù)分組,分組方法,分組方法,單變量值分組 (要點(diǎn)),1. 將一個(gè)變量值作為一組 2. 適合于離散變量 3. 適合于變量值較少的情況,組距分組 (要點(diǎn)),將變量值的一個(gè)區(qū)間作為一組 適合于連續(xù)變量 適合于變量值較多的情況 需要遵循“不重不漏”的原則 可采用等距分組,也可采用不等距分組,組距分組 (步驟),確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實(shí)際分組時(shí),可以按 Sturges 提出的經(jīng)驗(yàn)公式來確定組數(shù)K,確定組距:組距(Class Width)是一個(gè)組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即 組距( 最大值 - 最小值) 組數(shù),統(tǒng)計(jì)出各組的頻數(shù)并整理成頻數(shù)分布表,組距分組 (幾個(gè)概念),1. 下限(low limit) :一個(gè)組的最小值 2. 上限(upper limit) :一個(gè)組的最大值 3. 組距(class width) :上限與下限之差 4. 組中值(class midpoint) :下限與上限之間的中點(diǎn)值,頻數(shù)分布表的編制 (例題分析),【例】某電腦公司2002年前四個(gè)月各天的銷售量數(shù)據(jù)(單位:臺(tái))。試對(duì)數(shù)據(jù)進(jìn)行分組。,頻數(shù)分布表的編制 (步驟),確定組數(shù):根據(jù) Sturges 提出的經(jīng)驗(yàn)公式得組數(shù)K為:,確定各組的組距: 組距( 237 - 141) 10=9.6 10,用Excel制作頻數(shù)分布表,等距分組表 (上下組限重疊),等距分組表 (上下組限間斷),等距分組表 (使用開口組),組距分組與不等距分組 (在表現(xiàn)頻數(shù)分布上的差異),等距分組 各組頻數(shù)的分布不受組距大小的影響 可直接根據(jù)絕對(duì)頻數(shù)來觀察頻數(shù)分布的特征 不等距分組 各組頻數(shù)的分布受組距大小不同的影響 各組絕對(duì)頻數(shù)的多少不能反映頻數(shù)分布的實(shí)際狀況 需要用頻數(shù)密度(頻數(shù)密度=頻數(shù)/組距)反映頻數(shù)分布的實(shí)際狀況,數(shù)值型數(shù)據(jù)的圖示,分組數(shù)據(jù)直方圖和折線圖,分組數(shù)據(jù)直方圖 (histogram),用矩形的寬度和高度來表示頻數(shù)分布的圖形,實(shí)際上是用矩形的面積來表示各組的頻數(shù)分布 在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖 直方圖下的總面積等于1,分組數(shù)據(jù)的圖示 (直方圖的繪制),某電腦公司銷售量分布的直方圖,我一眼就看出來了,銷售量在170180之間的天數(shù)最多!,分組數(shù)據(jù)直方圖 (直方圖與條形圖的區(qū)別),條形圖是用條形的長(zhǎng)度(橫置時(shí))表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的 直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義 直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列 條形圖主要用于展示分類數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù),分組數(shù)據(jù)折線圖 (frequency polygon),折線圖也稱頻數(shù)多邊形圖 是在直方圖的基礎(chǔ)上,把直方圖頂部的中點(diǎn)(組中值)用直線連接起來,再把原來的直方圖抹掉 折線圖的兩個(gè)終點(diǎn)要與橫軸相交,具體的做法是 第一個(gè)矩形的頂部中點(diǎn)通過豎邊中點(diǎn)(即該組頻數(shù)一半的位置)連接到橫軸,最后一個(gè)矩形頂部中點(diǎn)與其豎邊中點(diǎn)連接到橫軸 折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的,分組數(shù)據(jù)的圖示 (折線圖的繪制),折線圖與直方圖 下的面積相等!,140,150,210,某電腦公司銷售量分布的折線圖,190,200,180,160,170,220,230,240,數(shù)值型數(shù)據(jù)的圖示,STATISTICA,未分組數(shù)據(jù)莖葉圖和箱線圖,未分組數(shù)據(jù)莖葉圖 (stem-and-leaf display),用于顯示未分組的原始數(shù)據(jù)的分布 由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的 以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉 樹葉上只保留一位數(shù)字 對(duì)于n(20 n 300)個(gè)數(shù)據(jù),莖葉圖最大行數(shù)不超過 L = 10 lg(n) 6. 莖葉圖類似于橫置的直方圖,但又有區(qū)別 直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值 莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息,未分組數(shù)據(jù)莖葉圖 (例題分析),未分組數(shù)據(jù)莖葉圖 (擴(kuò)展的莖葉圖),未分組數(shù)據(jù)箱線圖 (box plot),用于顯示未分組的原始數(shù)據(jù)的分布 箱線圖由一組數(shù)據(jù)的5個(gè)特征值繪制而成,它由一個(gè)箱子和兩條線段組成 其繪制方法是: 首先找出一組數(shù)據(jù)的5個(gè)特征值,即最大值、最小值、中位數(shù)Me 和兩個(gè)四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU) 連接兩個(gè)四分(位)數(shù)畫出箱子,再將兩個(gè)極值點(diǎn)與箱子相連接,未分組數(shù)據(jù)單批數(shù)據(jù)箱線圖 (箱線圖的構(gòu)成),未分組數(shù)據(jù)單批數(shù)據(jù)箱線圖 (例題分析),分布的形狀與箱線圖,不同分布的箱線圖,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析),【例】 從某大學(xué)經(jīng)濟(jì)管理專業(yè)二年級(jí)學(xué)生中隨機(jī)抽取11人,對(duì)8門主要課程的考試成績(jī)進(jìn)行調(diào)查,所得結(jié)果如表。試?yán)L制各科考試成績(jī)的批比較箱線圖,并分析各科考試成績(jī)的分布特征,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析),8門課程考試成績(jī)的箱線圖,11名學(xué)生8門課程考試成績(jī)的箱線圖,Min-Max,25%-75%,Median value,45,55,65,75,85,95,105,學(xué)生1,學(xué)生2,學(xué)生3,學(xué)生4,學(xué)生5,學(xué)生6,學(xué)生7,學(xué)生8,學(xué)生9,學(xué)生10,學(xué)生11,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析),數(shù)值型數(shù)據(jù)的圖示,時(shí)間序列數(shù)據(jù)線圖,時(shí)間序列數(shù)據(jù)線圖 (line plot), 繪制線圖時(shí)應(yīng)注意以下幾點(diǎn) 時(shí)間一般繪在橫軸,指標(biāo)數(shù)據(jù)繪在縱軸 圖形的長(zhǎng)寬比例要適當(dāng),其長(zhǎng)寬比例大致為10:7 一般情況下,縱軸數(shù)據(jù)下端應(yīng)從“0”開始,以便于比較。數(shù)據(jù)與“0”之間的間距過大時(shí),可以采取折斷的符號(hào)將縱軸折斷,時(shí)間序列數(shù)據(jù)線圖 (例題分析),【例】已知19912000年我國(guó)城鄉(xiāng)居民家庭的人均收入數(shù)據(jù)如表。試?yán)L制線圖,時(shí)間序列數(shù)據(jù)線圖 (例題分析),數(shù)值型數(shù)據(jù)的圖示,多變量數(shù)據(jù)雷達(dá)圖,顯示多個(gè)變量的圖示方法 在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時(shí)十分有用 假定各變量的取值具有相同的正負(fù)號(hào),總的絕對(duì)值與圖形所圍成的區(qū)域成正比 可用于研究多個(gè)樣本之間的相似程度,多變量數(shù)據(jù)雷達(dá)圖 (radar chart), 設(shè)有n組樣本S1,S2,Sn,每個(gè)樣本測(cè)得P個(gè)變量X1,X2,Xp,要繪制這P個(gè)變量的雷達(dá)圖,其具體做法是,多變量數(shù)據(jù)雷達(dá)圖 (雷達(dá)圖的制作),先做一個(gè)圓,然后將圓P等分,得到P個(gè)點(diǎn),令這P個(gè)點(diǎn)分別對(duì)應(yīng)P個(gè)變量,在將這P個(gè)點(diǎn)與圓心連線,得到P個(gè)幅射狀的半徑,這P個(gè)半徑分別作為P個(gè)變量的坐標(biāo)軸,每個(gè)變量值的大小由半徑上的點(diǎn)到圓心的距離表示 再將同一樣本的值在P個(gè)坐標(biāo)上的點(diǎn)連線。這樣,n個(gè)樣本形成的n個(gè)多邊形就是一個(gè)雷達(dá)圖,多變量數(shù)據(jù)雷達(dá)圖 (例題分析),【例】2000年我國(guó)城鄉(xiāng)居民家庭平均每人各項(xiàng)生活消費(fèi)支出構(gòu)成數(shù)據(jù)如表。試?yán)L制雷達(dá)圖。,今天的主食是面包,多變量數(shù)據(jù)雷達(dá)圖 (例題分析),數(shù)據(jù)類型及圖示 (小結(jié)),3.4 統(tǒng)計(jì)表,一. 統(tǒng)計(jì)表的構(gòu)成 二. 統(tǒng)計(jì)表的設(shè)計(jì),統(tǒng)計(jì)表的結(jié)構(gòu),行標(biāo)題,列標(biāo)題,數(shù)字資料,表頭,附加,合理安排統(tǒng)計(jì)表的結(jié)構(gòu) 總標(biāo)題內(nèi)容應(yīng)滿足3W 要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論