學(xué)習(xí)如何應(yīng)用R軟件對數(shù)據(jù)進行整理與顯示

上傳人：2*** IP屬地：湖北上傳時間：2021-11-30 格式：PPT 頁數(shù)：133 大?。?.03MB 積分：28 舉報 版權(quán)申訴

學(xué)習(xí)如何應(yīng)用R軟件對數(shù)據(jù)進行整理與顯示_第2頁

學(xué)習(xí)如何應(yīng)用R軟件對數(shù)據(jù)進行整理與顯示_第3頁

學(xué)習(xí)如何應(yīng)用R軟件對數(shù)據(jù)進行整理與顯示_第4頁

學(xué)習(xí)如何應(yīng)用R軟件對數(shù)據(jù)進行整理與顯示_第5頁

已閱讀5頁，還剩128頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、實驗?zāi)康膶嶒災(zāi)康膶嶒瀮?nèi)容實驗內(nèi)容學(xué)習(xí)如何應(yīng)用學(xué)習(xí)如何應(yīng)用R R軟件對數(shù)據(jù)進行整理與顯示軟件對數(shù)據(jù)進行整理與顯示1 1、統(tǒng)計方法簡介、統(tǒng)計方法簡介 2 2、應(yīng)用實例、應(yīng)用實例3 3、實驗作業(yè)、實驗作業(yè)統(tǒng)計學(xué)知識統(tǒng)計學(xué)知識統(tǒng)計研究的過程收集數(shù)據(jù)收集數(shù)據(jù)整理數(shù)據(jù)整理數(shù)據(jù)解釋數(shù)據(jù)解釋數(shù)據(jù)分析數(shù)據(jù)分析數(shù)據(jù)統(tǒng)計分析方法統(tǒng)計方法統(tǒng)計方法描述統(tǒng)計描述統(tǒng)計推斷統(tǒng)計推斷統(tǒng)計參數(shù)估計參數(shù)估計假設(shè)檢驗假設(shè)檢驗描述統(tǒng)計(descriptive statistics)1. 內(nèi)容內(nèi)容整理數(shù)據(jù) 展示數(shù)據(jù) 描述性分析2. 目的目的描述數(shù)據(jù)特征找出數(shù)據(jù)的基本規(guī)律推斷統(tǒng)計 (inferential statistics)1.

2、內(nèi)容內(nèi)容參數(shù)估計假設(shè)檢驗2. 目的目的對總體特征作出推斷描述統(tǒng)計與推斷統(tǒng)計的關(guān)系統(tǒng)計的應(yīng)用領(lǐng)域統(tǒng)計學(xué)統(tǒng)計學(xué)經(jīng)濟學(xué)經(jīng)濟學(xué)管理學(xué)管理學(xué)醫(yī)學(xué)醫(yī)學(xué)工程學(xué)工程學(xué)社會學(xué)社會學(xué)統(tǒng)計數(shù)據(jù)的分類統(tǒng)計數(shù)據(jù)的分類統(tǒng)計數(shù)據(jù)的分類按計量層次按計量層次按時間狀況按時間狀況按收集方法按收集方法統(tǒng)計數(shù)據(jù)的分類 (按計量尺度分)1. 分類數(shù)據(jù)分類數(shù)據(jù)(categorical data) 對事物進行分類的結(jié)果數(shù)據(jù)表現(xiàn)為類別，用文字來表述例如，人口按性別分為男、女兩類 2. 順序數(shù)據(jù)順序數(shù)據(jù)(rank data) 對事物類別順序的測度數(shù)據(jù)表現(xiàn)為類別，用文字來表述例如，產(chǎn)品分為一等品、二等品、三等品、次品等 3. 數(shù)值型數(shù)據(jù)數(shù)值型

3、數(shù)據(jù)(metric data) 對事物的精確測度結(jié)果表現(xiàn)為具體的數(shù)值例如：身高為175cm、168cm、183cm統(tǒng)計數(shù)據(jù)的分類(按收集方法分)1. 觀測的數(shù)據(jù)觀測的數(shù)據(jù)(observational data) 通過調(diào)查或觀測而收集到的數(shù)據(jù)在沒有對事物人為控制的條件下而得到的有關(guān)社會經(jīng)濟現(xiàn)象的統(tǒng)計數(shù)據(jù)幾乎都是觀測數(shù)據(jù)2. 試驗的數(shù)據(jù)試驗的數(shù)據(jù)(experimental data) 在試驗中控制試驗對象而收集到的數(shù)據(jù)比如，對一種新藥療效的試驗，對一種新的農(nóng)作物品種的試驗等自然科學(xué)領(lǐng)域的數(shù)據(jù)大多數(shù)都為試驗數(shù)據(jù)統(tǒng)計數(shù)據(jù)的分類(按時間狀況分)1. 截面數(shù)據(jù)(cross-sectional data)

4、在相同或近似相同的時間點上收集的數(shù)據(jù)描述現(xiàn)象在某一時刻的變化情況比如，2002年我國各地區(qū)的國內(nèi)生產(chǎn)總值數(shù)據(jù)2. 時間序列數(shù)據(jù)(time series data) 在不同時間上收集到的數(shù)據(jù)描述現(xiàn)象隨時間變化的情況比如，1996年至2002年國內(nèi)生產(chǎn)總值數(shù)據(jù)總體和樣本1. 總體總體(population)所研究的全部元素的集合，其中的每一個元素稱為個體分為有限總體和無限總體有限總體的范圍能夠明確確定，且元素的數(shù)目是有限的無限總體所包括的元素是無限的，不可數(shù)的2. 樣本樣本 (sample)從總體中抽取的一部分元素的集合構(gòu)成樣本的元素的數(shù)目稱為樣本容量參數(shù)和統(tǒng)計量1. 參數(shù)參數(shù)(parame

5、ter)研究者想要了解的總體的某種特征值所關(guān)心的參數(shù)主要有總體均值()、標(biāo)準(zhǔn)差()、總體比例()等總體參數(shù)通常用希臘字母表示 2. 統(tǒng)計量統(tǒng)計量(statistic)根據(jù)樣本數(shù)據(jù)計算出來的一個量所關(guān)心的樣本統(tǒng)計量有樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等樣本統(tǒng)計量通常用小寫英文字母來表示變量(Variable) 1. 說明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級等變量的具體表現(xiàn)稱為變量值，即數(shù)據(jù)2. 變量可以分為分類變量(categorical variable) ：說明事物類別的一個名稱順序變量(rank variable ) ：說明事物有序類別的一個名稱數(shù)

6、值型變量(metric variable ) ：說明事物數(shù)字特征的一個名稱離散變量：取有限個值連續(xù)變量：可以取無窮多個值統(tǒng)計中的幾個基本概念幾種常用的統(tǒng)計軟件(Software) 典型的統(tǒng)計軟件典型的統(tǒng)計軟件 SAS SPSS MINITAB STATISTICA S-PLUS R Excel 1 數(shù)據(jù)的搜集1.1 數(shù)據(jù)的來源數(shù)據(jù)的來源1.2 調(diào)查數(shù)據(jù)調(diào)查數(shù)據(jù)1.3 實驗數(shù)據(jù)實驗數(shù)據(jù)1.4 數(shù)據(jù)的誤差數(shù)據(jù)的誤差1.5 數(shù)據(jù)文件數(shù)據(jù)文件學(xué)習(xí)目標(biāo)1. 數(shù)據(jù)的來源數(shù)據(jù)的來源2. 搜集數(shù)據(jù)的調(diào)查方法搜集數(shù)據(jù)的調(diào)查方法3. 問卷設(shè)計問卷設(shè)計4. 搜集數(shù)據(jù)的實驗方法搜集數(shù)據(jù)的實驗方法5. 數(shù)據(jù)的誤差

7、數(shù)據(jù)的誤差6. 數(shù)據(jù)的質(zhì)量要求數(shù)據(jù)的質(zhì)量要求系統(tǒng)外部的數(shù)據(jù)1. 統(tǒng)計部門和政府部門公布的有關(guān)資料，如各類統(tǒng)計年鑒2. 各類經(jīng)濟信息中心、信息咨詢機構(gòu)、專業(yè)調(diào)查機構(gòu)等提供的數(shù)據(jù)3. 各類專業(yè)期刊、報紙、書籍所提供的資料4. 各種會議，如博覽會、展銷會、交易會及專業(yè)性、學(xué)術(shù)性研討會上交流的有關(guān)資料5. 從互聯(lián)網(wǎng)或圖書館查閱到的相關(guān)資料數(shù)據(jù)的間接來源系統(tǒng)內(nèi)部的數(shù)據(jù)1. 業(yè)務(wù)資料，如與業(yè)務(wù)經(jīng)營活動有關(guān)的各種單據(jù)，記錄2. 經(jīng)營活動過程中的各種統(tǒng)計報表3. 各種財務(wù)，會計核算和分析資料等二手?jǐn)?shù)據(jù)的特點1. 搜集容易，采集成本低2. 作用廣泛分析所要研究的問題提供研究問題的背景幫助研究者更好地定義

8、問題檢驗和回答某些疑問和假設(shè) 尋找研究問題的思路和途徑3. 搜集二手資料在研究中應(yīng)優(yōu)先考慮二手?jǐn)?shù)據(jù)的評估1. 數(shù)據(jù)是誰搜集的？可信度評估2. 為什么目的而搜集的？3. 數(shù)據(jù)是怎樣搜集的？ 4. 什么時候搜集的？數(shù)據(jù)的直接來源(原始數(shù)據(jù))1. 調(diào)查數(shù)據(jù)通過調(diào)查方法獲得的數(shù)據(jù)通常是對社會現(xiàn)象而言通常取自有限總體 2. 實驗數(shù)據(jù)通過實驗方法得到的數(shù)據(jù)通常是對自然現(xiàn)象而言也被廣泛運用到社會科學(xué)中如心理學(xué)、教育學(xué)、社會學(xué)、經(jīng)濟學(xué)、管理學(xué)等抽樣方法圖表標(biāo)題抽樣方式抽樣方式概率抽樣概率抽樣非概率抽樣非概率抽樣簡單隨機抽樣簡單隨機抽樣分層抽樣分層抽樣整群抽樣整群抽樣系統(tǒng)抽樣系統(tǒng)抽樣多階段抽樣多階段抽樣

9、方便抽樣方便抽樣判斷抽樣判斷抽樣自愿樣本自愿樣本滾雪球抽樣滾雪球抽樣配額抽樣配額抽樣1.2 調(diào)查數(shù)據(jù)概率抽樣與非概率抽樣的比較1. 概率抽樣依據(jù)隨機原則抽選樣本樣本統(tǒng)計量的理論分布存在可根據(jù)調(diào)查的結(jié)果推斷總體2. 非概率抽樣不是依據(jù)隨機原則抽選樣本樣本統(tǒng)計量的分布是不確定的無法使用樣本的結(jié)果推斷總體搜集數(shù)據(jù)的基本方法搜集數(shù)據(jù)的基本方法搜集數(shù)據(jù)的基本方法調(diào)查的數(shù)據(jù)調(diào)查的數(shù)據(jù)實驗的數(shù)據(jù)實驗的數(shù)據(jù)自填式自填式面訪式面訪式電話式電話式各調(diào)查方法的比較自填式面訪式電話式調(diào)查時間慢慢中等中等快捷快捷調(diào)查費用低低高高低低問卷難度要求容易要求容易可以復(fù)雜可以復(fù)雜要求容易要求容易有形輔助物的使用中等利用中等利

10、用充分利用充分利用無法利用無法利用調(diào)查過程控制簡單簡單復(fù)雜復(fù)雜容易容易調(diào)查員作用的發(fā)揮無法發(fā)揮無法發(fā)揮充分發(fā)揮充分發(fā)揮一般發(fā)揮一般發(fā)揮回答率最低最低較高較高一般一般實驗租和對照組1. 將研究對象分為兩組：實驗組和對照組2. 實驗組和隨機組的產(chǎn)生應(yīng)遵循隨機原則，而且應(yīng)該匹配匹配指對實驗單位的背景材料進行分析比較，將情況類似的每對單位分別隨機地分配到實驗組和對照組實驗中的若干問題1. 人的意愿研究的對象是人的時候，在劃分實驗組和對照組時的隨機原則將面臨挑戰(zhàn)2. 心理問題人們對被研究非常敏感，這使得他們更加注意自我，從而走到事物的另一個極端 3. 道德問題當(dāng)某種實驗涉及道德問題時，人們會處于進退

11、兩難的尷尬境地實驗中的統(tǒng)計1. 實驗設(shè)計本身就是一個統(tǒng)計問題2. 確定進行實驗所需要的單位的個數(shù)，以保證實驗可以達到統(tǒng)計顯著的結(jié)果3. 將統(tǒng)計的思想融入到實驗設(shè)計中，使實驗設(shè)計符合統(tǒng)計分析的標(biāo)準(zhǔn)4. 對實驗數(shù)據(jù)進行分析時，統(tǒng)計可以提供最恰當(dāng)?shù)姆治龇椒?抽抽樣樣誤誤差差抽樣框誤差回答誤差無回答誤差調(diào)查員誤差非非抽抽樣樣誤誤差差數(shù)數(shù)據(jù)據(jù)的的誤誤差差1.4 數(shù)據(jù)的誤差抽樣誤差(sampling error)1. 由于抽樣的隨機性所帶來的誤差 2. 所有樣本可能的結(jié)果與總體真值之間的平均性差異 3. 影響抽樣誤差的大小的因素樣本量的大小總體的變異性非抽樣誤差(non-sampling error)1

12、. 相對抽樣誤差而言2. 除抽樣誤差之外的，由于其他原因造成的樣本觀察結(jié)果與總體真值之間的差異3. 存在于所有的調(diào)查之中概率抽樣，非概率抽樣，全面性調(diào)查4. 有抽樣框誤差、回答誤差、無回答誤差、調(diào)查員誤差、測量誤差誤差的控制1. 抽樣誤差可計算和控制2. 非抽樣誤差的控制調(diào)查員的挑選調(diào)查員的培訓(xùn)督導(dǎo)員的調(diào)查專業(yè)水平調(diào)查過程控制調(diào)查結(jié)果進行檢驗、評估現(xiàn)場調(diào)查人員進行獎懲的制度統(tǒng)計數(shù)據(jù)的質(zhì)量要求1. 精精度：度：最低的抽樣誤差或隨機誤差2. 準(zhǔn)準(zhǔn) 確確性：性：最小的非抽樣誤差或偏差3. 關(guān)關(guān) 聯(lián)聯(lián) 性：性：滿足用戶決策、管理和研究的需要4. 及及時時性：性：在最短的時間里取得并公布數(shù)據(jù)5.

13、一一致致性：性：保持時間序列的可比性6. 最低成本：最低成本：以最經(jīng)濟的方式取得數(shù)據(jù) 2 數(shù)據(jù)的整理與顯示2.1 數(shù)據(jù)的預(yù)處理數(shù)據(jù)的預(yù)處理 2.2 分類和順序數(shù)據(jù)的整理與顯示分類和順序數(shù)據(jù)的整理與顯示2.3 數(shù)值型數(shù)據(jù)的整理與顯示數(shù)值型數(shù)據(jù)的整理與顯示2.4 統(tǒng)計表統(tǒng)計表學(xué)習(xí)目標(biāo)1. 了解數(shù)據(jù)預(yù)處理的內(nèi)容和目的了解數(shù)據(jù)預(yù)處理的內(nèi)容和目的2. 掌握分類和順序數(shù)據(jù)的整理與顯示方法掌握分類和順序數(shù)據(jù)的整理與顯示方法3. 掌握數(shù)值型數(shù)據(jù)的整理與顯示方法掌握數(shù)值型數(shù)據(jù)的整理與顯示方法4. 用用R作作頻數(shù)分布表和形頻數(shù)分布表和形圖圖5. 合理使用統(tǒng)計表合理使用統(tǒng)計表1. 數(shù)據(jù)的審核檢查數(shù)據(jù)中的錯誤2

14、. 數(shù)據(jù)的篩選找出符合條件的數(shù)據(jù)3. 數(shù)據(jù)排序升序和降序?qū)ふ覕?shù)據(jù)的基本特征2.1 數(shù)據(jù)的預(yù)處理數(shù)據(jù)的預(yù)處理數(shù)據(jù)審核原始數(shù)據(jù)(raw data) 審核的內(nèi)容審核的內(nèi)容1. 完整性審核檢查應(yīng)調(diào)查的單位或個體是否有遺漏所有的調(diào)查項目或指標(biāo)是否填寫齊全2. 準(zhǔn)確性審核檢查數(shù)據(jù)是否真實反映客觀實際情況，內(nèi)容是否符合實際檢查數(shù)據(jù)是否有錯誤，計算是否正確等數(shù)據(jù)的審核原始數(shù)據(jù)(raw data)審核數(shù)據(jù)準(zhǔn)確性的方法審核數(shù)據(jù)準(zhǔn)確性的方法1. 邏輯檢查從定性角度，審核數(shù)據(jù)是否符合邏輯，內(nèi)容是否合理，各項目或數(shù)字之間有無相互矛盾的現(xiàn)象主要用于對分類和順序據(jù)的審核2. 計算檢查檢查調(diào)查表中的各項數(shù)據(jù)在計算結(jié)果和計算

15、方法上有無錯誤主要用于對數(shù)值型數(shù)據(jù)的審核數(shù)據(jù)的審核二手?jǐn)?shù)據(jù)(second hand data)1. 適用性審核弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料確定數(shù)據(jù)是否符合自己分析研究的需要2. 時效性審核盡可能使用最新的數(shù)據(jù)3. 確認(rèn)是否必要做進一步的加工整理數(shù)據(jù)篩選(data filter)1. 當(dāng)數(shù)據(jù)中的錯誤不能予以糾正，或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補時，需要對數(shù)據(jù)進行篩選2. 數(shù)據(jù)篩選的內(nèi)容包括將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除將符合某種特定條件的數(shù)據(jù)篩選出來，而不符合特定條件的數(shù)據(jù)予以剔1. 要弄清所面對的數(shù)據(jù)類型，因為不同類型的數(shù)據(jù)，所采取的處理方式和方法是

16、不同的2. 對分類數(shù)據(jù)和順序數(shù)據(jù)主要是做分類整理3. 對數(shù)值型數(shù)據(jù)則主要是做分組整理4. 適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù)；但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)分類數(shù)據(jù)的整理(基本過程)1.列出各類別分類分類分類分類分類分類頻數(shù)頻數(shù)頻數(shù)頻數(shù)頻數(shù)頻數(shù)比例比例比例比例比例比例百分比百分比百分比百分比百分比百分比比率比率比率比率比率比率A A AB B BC C CD D DE E E分類數(shù)據(jù)的整理(可計算的統(tǒng)計量)1.頻數(shù)頻數(shù)(frequency) ：落在各類別中的數(shù)據(jù)個數(shù)2.比例比例(proportion) ：某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值3.百分比百分比(

17、percentage) ：將對比的基數(shù)作為100而計算的比值4.比率比率(ratio) ：不同類別數(shù)值的比值分類數(shù)據(jù)整理頻數(shù)分布表 (例題分析)例例1 讀取某公司雇員數(shù)據(jù)（讀取某公司雇員數(shù)據(jù)（SPSS數(shù)據(jù)文件）數(shù)據(jù)文件）,保存為保存為R數(shù)數(shù)據(jù)文件，指定因子各水平的標(biāo)簽，分析性別、是否少數(shù)據(jù)文件，指定因子各水平的標(biāo)簽，分析性別、是否少數(shù)民族、工作類型、教育程度等頻數(shù)分布。民族、工作類型、教育程度等頻數(shù)分布。 y=read.spss(E:/R/Employee data.sav, use.value.labels=F, to.data.frame=T,max.value.labels=Inf, t

18、s=FALSE) Names(y);1 ID GENDER BDATE EDUC JOBCAT SALARY 7 SALBEGIN JOBTIME PREVEXP MINORITY y y$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c(Yes, No),exclude=NA,order=F) y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),labels=c(經(jīng)理,

19、保管員,服務(wù)員),exclude=NA,order=F) Edata=y; save(Edata, file = E:/R/Employee data.Rdata) load(E:/R/Edata.Rdata); attach(Edata); table(Edata$JOBCAT)經(jīng)理經(jīng)理保管員保管員服務(wù)員服務(wù)員 84 27 363 table(Edata$GENDER) f m 216 258 table(Edata$MINORITY) Yes No 104 370 table(Edata$EDUC) 8 12 14 15 16 17 18 19 20 21 53 190 6 116 5

20、9 11 9 27 2 1 分類數(shù)據(jù)的圖示條形圖(bar Chart)1. 用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)的圖形2. 有單式條形圖、復(fù)式條形圖等形式3. 主要用于反映分類數(shù)據(jù)的頻數(shù)分布4. 繪制時，各類別可以放在縱軸，稱為條形圖，也可以放在橫軸，稱為柱形圖分類數(shù)據(jù)的圖示條形圖 (例題分析)15119690481216頻數(shù)可口可樂旭日升冰茶百事可樂匯源果汁露露品牌不同品牌飲料的頻數(shù)分布不同品牌飲料的頻數(shù)分布例例2 對公司雇員數(shù)據(jù)，做出性別、工作類型、對公司雇員數(shù)據(jù)，做出性別、工作類型、教育程度等條形圖。教育程度等條形圖。plot(Edata$GENDER)plot(Edata$JO

21、BCAT) hist(Edata$EDUC)fm050100150200250Histogram of Edata$EDUCEdata$EDUCFrequency8101214161820050100150分類數(shù)據(jù)的圖示餅圖(pie Chart)1. 也稱圓形圖，是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形2. 主要用于表示總體或樣本中各組成部分所占的比例，對于研究結(jié)構(gòu)性問題十分有用3. 繪制圓形圖時，總體中各部分所占的百分比用園內(nèi)的各個扇形角度表示，這些扇形的中心角度，是按各部分?jǐn)?shù)據(jù)百分比占3600的相應(yīng)比例確定的分類數(shù)據(jù)的圖示餅圖 (例題分析)不同品牌飲料的構(gòu)成不同品牌飲料的構(gòu)成可口可樂3

22、0%旭日升冰茶22%匯源果汁12%百事可樂18%露露18%例例3 對公司雇員數(shù)據(jù)，做出性別、工作類型、對公司雇員數(shù)據(jù)，做出性別、工作類型、教育程度等餅圖。教育程度等餅圖。 pie(table(Edata$GENDER) pie(table(Edata$JOBCAT) pie(table(Edata$EDUC)fm8121415161718192021順序數(shù)據(jù)的整理(可計算的指標(biāo))1. 累積頻數(shù)累積頻數(shù)(cumulative frequencies)：各類別頻數(shù)的逐級累加2. 累積頻率累積頻率(cumulative percentages)：各類別頻率(百分比)的逐級累加順序數(shù)據(jù)的頻數(shù)分布表(例

23、題分析)甲城市家庭對住房狀況評價的頻數(shù)分布甲城市家庭對住房狀況評價的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù)(戶戶)百分比百分比(%)向上累積向上累積向下累積向下累積戶數(shù)戶數(shù)(戶戶)百分比百分比(%)戶數(shù)戶數(shù)(戶戶)百分比百分比(%) 非常不滿意非常不滿意不滿意不滿意一般一般滿意滿意非常滿意非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計合計300100.0順序數(shù)據(jù)的頻數(shù)分布表 (例題分析)乙城市家庭對住房狀況評價的頻數(shù)分布乙城市家庭對住房狀況評價的頻數(shù)分

24、布回答類別回答類別乙城市乙城市戶數(shù)戶數(shù)(戶戶)百分比百分比(%)向上累積向上累積向下累積向下累積戶數(shù)戶數(shù)(戶戶)百分比百分比(%)戶數(shù)戶數(shù)(戶戶)百分比百分比(%) 非常不滿意非常不滿意不滿意不滿意一般一般滿意滿意非常滿意非常滿意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合計合計300100.0順序數(shù)據(jù)的圖示累計頻數(shù)分布圖 (例題分析)243001322252700100200300400 非常不滿意不滿意一般滿意非常滿意

25、累積戶數(shù)（戶）(a)向上累積向上累積27616830300750100200300400 非常不滿意不滿意一般滿意非常滿意累積戶數(shù)（戶）(b)向下累積向下累積環(huán)形圖(annular chart)1. 環(huán)形圖中間有一個“空洞”，總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示2. 環(huán)形圖與圓形圖類似，但又有區(qū)別圓形圖只能顯示一個總體各部分所占的比例環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列，每一個總體的數(shù)據(jù)系列為一個環(huán)3. 環(huán)形圖可用于結(jié)構(gòu)比較研究 4. 環(huán)形圖主要用于展示分類和順序數(shù)據(jù)環(huán)形圖 (例題分析)8%36%31%15%7%33%26%21%13%10% 非常不滿意不滿意一般滿意非常滿意

26、甲乙兩城市家庭對住房狀況的評價甲乙兩城市家庭對住房狀況的評價分組方法分組方法等距分組等距分組異距分組異距分組單變量值分組單變量值分組組距分組組距分組單變量值分組(要點)1. 將一個變量值作為一組2. 適合于離散變量3. 適合于變量值較少的情況組距分組 (要點)1. 將變量值的一個區(qū)間作為一組2. 適合于連續(xù)變量3. 適合于變量值較多的情況4. 需要遵循“不重不漏”的原則5. 可采用等距分組，也可采用不等距分組組距分組(步驟)1.確定組數(shù)：組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時，可以按 Sturges 提出的經(jīng)驗公式來確定組數(shù)K組距分組(幾個概念)1. 下限下限(low

27、 limit) ：一個組的最小值2. 上限上限(upper limit) ：一個組的最大值3. 組距組距(class width) ：上限與下限之差4. 組中值組中值(class midpoint) ：下限與上限之間的中點值頻數(shù)分布表的編制(例題分析)頻數(shù)分布表的編制(步驟)1. 確定組數(shù)：根據(jù) Sturges 提出的經(jīng)驗公式得組數(shù)K為：等距分組表(上下組限重疊)等距分組表(上下組限間斷)等距分組表(使用開口組)組距分組與不等距分組(在表現(xiàn)頻數(shù)分布上的差異)1. 等距分組各組頻數(shù)的分布不受組距大小的影響可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征2. 不等距分組各組頻數(shù)的分布受組距大小不同的影響各組

28、絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況需要用頻數(shù)密度（頻數(shù)密度=頻數(shù)/組距）反映頻數(shù)分布的實際狀況分組數(shù)據(jù)直方圖(histogram)1. 用矩形的寬度和高度來表示頻數(shù)分布的圖形，實際上是用矩形的面積面積來表示各組的頻數(shù)分布2. 在直角坐標(biāo)中，用橫軸表示數(shù)據(jù)分組，縱軸表示頻數(shù)或頻率，各組與相應(yīng)的頻數(shù)就形成了一個矩形，即直方圖3. 直方圖下的總面積等于1數(shù)值型數(shù)據(jù)的圖示分組數(shù)據(jù)的圖示(直方圖的繪制)直方圖下的面積之和等于1?例例4 對公司雇員數(shù)據(jù)，做出工資數(shù)據(jù)直方圖。對公司雇員數(shù)據(jù)，做出工資數(shù)據(jù)直方圖。 hist(Edata$SALARY) hist(Edata$SALARY,labels =

29、 T)Histogram of Edata$SALARYEdata$SALARYFrequency20000400006000080000100000140000050100150200Histogram of Edata$SALARYEdata$SALARYFrequency200004000060000800001000001400000501001502003323010733262210452101分組數(shù)據(jù)直方圖(直方圖與條形圖的區(qū)別)1.條形圖是用條形的長度(橫置時)表示各類別頻數(shù)的多少，其寬度(表示類別)則是固定的2.直方圖是用面積表示各組頻數(shù)的多少，矩形的高度表示每一組的頻數(shù)或百

30、分比，寬度則表示各組的組距，其高度與寬度均有意義3.直方圖的各矩形通常是連續(xù)排列，條形圖則是分開排列4.條形圖主要用于展示分類數(shù)據(jù)，直方圖則主要用于展示數(shù)值型數(shù)據(jù)分組數(shù)據(jù)折線圖(frequency polygon)1.折線圖也稱頻數(shù)多邊形圖2.是在直方圖的基礎(chǔ)上，把直方圖頂部的中點(組中值)用直線連接起來，再把原來的直方圖抹掉3.折線圖的兩個終點要與橫軸相交，具體的做法是第一個矩形的頂部中點通過豎邊中點（即該組頻數(shù)一半的位置）連接到橫軸，最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等，二者所表示的頻數(shù)分布是一致的分組數(shù)據(jù)的圖示(折線圖的繪制)折線圖與直方圖下的

31、面積相等！未分組數(shù)據(jù)莖葉圖(stem-and-leaf display)1.用于顯示未分組的原始數(shù)據(jù)的分布2.由“莖”和“葉”兩部分構(gòu)成，其圖形是由數(shù)字組成的3.以該組數(shù)據(jù)的高位數(shù)值作樹莖，低位數(shù)字作樹葉4.樹葉上只保留一位數(shù)字5.對于n(20 n 300)個數(shù)據(jù)，莖葉圖最大行數(shù)不超過 L = 10 lg(n) 6. 莖葉圖類似于橫置的直方圖，但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況，但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況，又能給出每一個原始數(shù)值，保留了原始數(shù)據(jù)的信息未分組數(shù)據(jù)莖葉圖(例題分析)未分組數(shù)據(jù)莖葉圖(擴展的莖葉圖)未分組數(shù)據(jù)箱線圖(box plot)1. 用于顯示未分組的

32、原始數(shù)據(jù)的分布2. 箱線圖由一組數(shù)據(jù)的5個特征值繪制而成，它由一個箱子和兩條線段組成3. 其繪制方法是：首先找出一組數(shù)據(jù)的5個特征值，即最大值最大值、最最小值小值、中位數(shù)中位數(shù)Me 和兩個四分位數(shù)四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU）連接兩個四分（位）數(shù)畫出箱子，再將兩個極值點與箱子相連接未分組數(shù)據(jù)單批數(shù)據(jù)箱線圖(箱線圖的構(gòu)成)未分組數(shù)據(jù)單批數(shù)據(jù)箱線圖(例題分析)分布的形狀與箱線圖例例5 對公司雇員數(shù)據(jù)，做出工資數(shù)據(jù)箱線圖。對公司雇員數(shù)據(jù)，做出工資數(shù)據(jù)箱線圖。 boxplot(Edata$SALARY, data = Edata, col = lightgray);20000400006

33、000080000120000未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析)11名學(xué)生各科的考試成績數(shù)據(jù)名學(xué)生各科的考試成績數(shù)據(jù)課程名稱課程名稱學(xué)生編號學(xué)生編號1234567891011英語英語經(jīng)濟數(shù)學(xué)經(jīng)濟數(shù)學(xué)西方經(jīng)濟學(xué)西方經(jīng)濟學(xué)市場營銷學(xué)市場營銷學(xué)財務(wù)管理財務(wù)管理基礎(chǔ)會計學(xué)基礎(chǔ)會計學(xué)統(tǒng)計學(xué)統(tǒng)計學(xué)計算機應(yīng)用基礎(chǔ)計算機應(yīng)用基礎(chǔ)766593746870558590958187757391789751768570926881717488698465739570786690737884709363798060878167869183777690708283829284817069727875789188669

34、48085718674687962818155787075687177未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖(例題分析)Min-Max25%-75%Median value455565758595105學(xué)生1學(xué)生2學(xué)生3學(xué)生4學(xué)生5學(xué)生6學(xué)生7學(xué)生8學(xué)生9學(xué)生10學(xué)生11未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析)例例6 對某公司雇員數(shù)據(jù)，分析性別與工作類型、對某公司雇員數(shù)據(jù)，分析性別與工作類型、性別與是否少數(shù)民族的特征，作出交叉頻數(shù)分布表。性別與是否少數(shù)民族的特征，作出交叉頻數(shù)分布表。 ftable(Edatac(GENDER,JOBCAT) JOBCAT 經(jīng)理經(jīng)理保管員保管員服務(wù)員服務(wù)員 GENDER f

35、 10 0 206m 74 27 157 ftable(Edatac(GENDER,MINORITY) MINORITY Yes NoGENDER f 40 176 m 64 194例例7 對某公司雇員數(shù)據(jù)，分析不同性別、工作類對某公司雇員數(shù)據(jù)，分析不同性別、工作類型、少數(shù)民族的收入差異，型、少數(shù)民族的收入差異，作出多批數(shù)據(jù)箱線作出多批數(shù)據(jù)箱線圖圖。 boxplot(splitEdata$SALARYEdata$GENDER, data = Edata, col = lightgray); boxplot(Edata$SALARYEdata$JOBCAT, data = Edata, col

36、= lightgray); boxplot(Edata$SALARYEdata$MINORITY, data = Edata, col = lightgray); fm20000400006000080000120000YesNo20000400006000080000120000例例8 對某公司雇員數(shù)據(jù)，分析不同性別、工作類對某公司雇員數(shù)據(jù)，分析不同性別、工作類型之間的收入差異，型之間的收入差異，作出多批數(shù)據(jù)箱線圖作出多批數(shù)據(jù)箱線圖。 boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER),col = lightgray); bo

37、xplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT),col = lightgray); 不同性別在不同工作類型上的當(dāng)前工資比較。與不同性別在不同工作類型上的當(dāng)前工資比較。與工資增長率不同，性別差異在工資水平上的差異工資增長率不同，性別差異在工資水平上的差異十分明顯，男性的工資水平無論在十分明顯，男性的工資水平無論在Clerical還是還是Manager上都比女性的平均工資水平高。上都比女性的平均工資水平高。 split package:base R Documentation Divide into Groups Descripti

38、on: split divides the data in the vector x into the groups defined by f. The assignment forms replace values corresponding to such a division. Unsplit reverses the effect of split. Usage: split(x, f, drop = FALSE, .) split(x, f, drop = FALSE, .) - value unsplit(value, f, drop = FALSE) Arguments: x:

39、vector or data frame containing values to be divided into groups. f: a factor in the sense that as.factor(f) defines the grouping, or a list of such factors in which case their interaction is used for the grouping. drop: logical indicating if levels that do not occur should be dropped (if f is a fac

40、tor or a list). value: a list of vectors or data frames compatible with a splitting of x. Recycling applies if the lengths do not match. .: further potential arguments passed to methods. Details: split and split- are generic functions with default and data.frame methods. f is recycled as necessary a

41、nd if the length of x is not a multiple of the length of f a warning is printed. unsplit works only with lists of vectors. The data frame method can also be used to split a matrix into a list of matrices, and the assignment form likewise, provided they are invoked explicitly. Any missing values in f

42、 are dropped together with the corresponding values of x. Value: The value returned from split is a list of vectors containing the values for the groups. The components of the list are named by the _used_ factor levels given by f. (If f is longer than x then some of the components will be of zero le

43、ngth.) The assignment forms return their right hand side. unsplit returns a vector for which split(x, f) equals value References: Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) _The New S Language_. Wadsworth & Brooks/Cole. See Also: cut Examples: require(stats) n - 10; nn - 100; g - fac

44、tor(round(n * runif(n * nn) x - rnorm(n * nn) + sqrt(as.numeric(g); xg - split(x, g); boxplot(xg, col = lavender, notch = TRUE, varwidth = TRUE); sapply(xg, length); sapply(xg, mean) # Calculate z-scores by group z - unsplit(lapply(split(x, g), scale), g) tapply(z, g, mean) # or z - x; split(z, g) -

45、 lapply(split(x, g), scale); tapply(z, g, sd) # Split a matrix into a list by columns ma - cbind(x = 1:10, y = (-4:5)2);split(ma, col(ma); split(1:10, 1:2)boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT),plot=F); Value List with the following components: stats： a matrix, each column contai

46、ns the extreme of the lower whisker, the lower hinge, the median, the upper hinge and the extreme of the upper whisker for one group/plot. n： a vector with the number of observations in each group. conf： a matrix where each column contains the lower and upper extremes of the notch. out: the values o

47、f any data points which lie beyond the extremes of the whiskers. group: a vector of the same length as out whose elements indicate which group the outlier belongs to names: a vector of names for the groups $stats ,1 ,2 ,3 ,4 ,5 ,6 1, 34410.0 38700 NA 29550 15750 19650 2, 41550.0 54900 NA 30150 21450

48、 26700 3, 45187.5 63750 NA 30750 24000 29850 4, 55750.0 73750 NA 30975 27750 34950 5, 58125.0 100000 NA 31950 37050 46000 $n 1 10 74 0 27 206 157 $conf ,1 ,2 ,3 ,4 ,5 ,6 1, 38092.61 60287.8 NA 30499.14 23306.47 28809.692, 52282.39 67212.2 NA 31000.86 24693.53 30890.31 $out 1 103750 135000 110625 103

49、500 24300 33750 34500 35250 35250 28500 11 38850 54000 51000 38550 40800 37650 52650 80000 50550 66875 21 49000 $group 1 2 2 2 2 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 6 $names 1 f.經(jīng)理 m.經(jīng)理 f.保管員 m.保管員 f.服務(wù)員 m.服務(wù)員例例9 對某公司雇員數(shù)據(jù)，分析不同性別、民族之對某公司雇員數(shù)據(jù)，分析不同性別、民族之間的收入差異；間的收入差異；作出多批數(shù)據(jù)箱線圖作出多批數(shù)據(jù)箱線圖。 boxplot(split(Edata

50、$SALARY,list(Edata$MINORITY,Edata$GENDER),col = lightgray); boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$MINORITY),col = lightgray);例例10 對某公司雇員數(shù)據(jù)，分析不同民族、工作類對某公司雇員數(shù)據(jù)，分析不同民族、工作類型之間的收入差異；型之間的收入差異；作出多批數(shù)據(jù)箱線圖作出多批數(shù)據(jù)箱線圖。 boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$MINORITY),col = lightgray); boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$JOBCAT),col = lightgray);時間序列數(shù)據(jù)線圖(line plot) 繪制線圖時應(yīng)注意以下幾點繪制線圖時應(yīng)注意以下幾點1. 時間一般繪在橫軸，指標(biāo)數(shù)據(jù)繪在縱軸2. 圖形的長寬比例要適當(dāng)，其長寬比例大致為10：73. 一般情況下，縱軸數(shù)據(jù)下端應(yīng)從“0”開始，以便于比較。數(shù)據(jù)與“0”之間的間距過大時，可以采取折斷的符號將縱軸折斷時間序列數(shù)據(jù)線圖 (例題分析) 19912000年城鄉(xiāng)居民家庭人均收入年城鄉(xiāng)居民家庭人均收入年份年份城鎮(zhèn)居民城鎮(zhèn)居民農(nóng)村居民農(nóng)村居民1991

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

學(xué)習(xí)如何應(yīng)用R軟件對數(shù)據(jù)進行整理與顯示

文檔簡介

溫馨提示

最新文檔

評論

學(xué)習(xí)如何應(yīng)用R軟件對數(shù)據(jù)進行整理與顯示

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔