統(tǒng)計學基礎PPT[3頁]課件_第1頁
統(tǒng)計學基礎PPT[3頁]課件_第2頁
統(tǒng)計學基礎PPT[3頁]課件_第3頁
統(tǒng)計學基礎PPT[3頁]課件_第4頁
統(tǒng)計學基礎PPT[3頁]課件_第5頁
已閱讀5頁,還剩326頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、統(tǒng)計學基礎賈俊平中國人民大學出版社北京第一章統(tǒng)計和數(shù)據(jù)第二章數(shù)據(jù)的收集目錄第三章數(shù)據(jù)整理與展示第四章數(shù)據(jù)分布特征的測度第五章抽樣與參數(shù)估計第六章假設檢驗第七章相關與回歸分析第八章時間序列分析和預測第九章指數(shù)01第一章統(tǒng)計和數(shù)據(jù)收集、分析、表述和解釋數(shù)據(jù)的科學統(tǒng)計學(statistics)是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學。描述統(tǒng)計(descriptive statistics)是研究數(shù)據(jù)收集、處理和描述的統(tǒng)計學方法。推斷統(tǒng)計(inferential statistics)是研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計學方法。什么是統(tǒng)計學?統(tǒng)計的應用領域目前,統(tǒng)計方法已被應用到自然

2、科學和社會科學的眾多領域,統(tǒng)計學也已發(fā)展成為由若干分支學科組成的學科體系??梢哉f,幾乎所有的研究領域都要用到統(tǒng)計方法。統(tǒng)計是適用于所有學科領域的通用數(shù)據(jù)分析方法,只要有數(shù)據(jù)的地方就會用到統(tǒng)計方法。用統(tǒng)計識別作者用簡單的描述統(tǒng)計量得到一個重要發(fā)現(xiàn)挑戰(zhàn)者號航天飛機失事預測 統(tǒng)計常常被人們有意或無意地濫用,比如,錯誤的統(tǒng)計定義、錯誤的圖表展示、不合理的樣本、數(shù)據(jù)的遺漏或邏輯錯誤等。這些誤用有些是常識性的,有些是技術性的,有些則是故意的。作為從數(shù)據(jù)中尋找事實的統(tǒng)計,卻被有些人變成了歪曲事實的工具。數(shù)據(jù)分析的真正目的是從數(shù)據(jù)中找出規(guī)律,從數(shù)據(jù)中尋找啟發(fā),而不是尋找支持。真正的數(shù)據(jù)分析事先是沒有結(jié)論的,通

3、過對數(shù)據(jù)的分析才能得出結(jié)論。 此外,統(tǒng)計也往往被作為兩個極端使用:一個極端是不懂或不太懂統(tǒng)計的人認為統(tǒng)計沒什么用。他們因為不懂統(tǒng)計而瞧不起統(tǒng)計,他們不用或幾乎不用統(tǒng)計方法分析數(shù)據(jù),即使做些統(tǒng)計分析,也往往是表面上的。 另一個極端是把簡單問題復雜化。特別是在管理領域,一些管理者把本來可以用簡單方法解決的問題故意復雜化,他們?yōu)樽C明管理的科學性,建立一個別人看不懂的模型,編一大堆程序,輸出一大堆數(shù)字和符號;他們得出用統(tǒng)計語言陳述的結(jié)論,提出一些似是而非的建議。這樣的分析往往脫離了管理問題,對實際決策也未必有用。統(tǒng)計的誤用與濫用7統(tǒng)計數(shù)據(jù)及其類型數(shù)據(jù)(data)是對現(xiàn)象進行計量的結(jié)果。統(tǒng)計數(shù)據(jù)不僅僅是

4、數(shù)字,也可以是文字。按照所采用的計量尺度不同,可以將統(tǒng)計數(shù)據(jù)分為分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)。統(tǒng)計數(shù)據(jù)的分類統(tǒng)計數(shù)據(jù)的分類按計量層次分類的數(shù)據(jù)順序的數(shù)據(jù)數(shù)值型數(shù)據(jù)按時間狀況截面的數(shù)據(jù)時序的數(shù)據(jù)按收集方法觀察的數(shù)據(jù)試驗的數(shù)據(jù)統(tǒng)計數(shù)據(jù)的分類 (按計量尺度分)分類數(shù)據(jù)(categorical data) 對事物進行分類的結(jié)果數(shù)據(jù)表現(xiàn)為類別,用文字來表述例如,人口按性別分為男、女兩類 順序數(shù)據(jù)(rank data) 對事物類別順序的測度數(shù)據(jù)表現(xiàn)為類別,用文字來表述例如,產(chǎn)品分為一等品、二等品、三等品、次品等 數(shù)值型數(shù)據(jù)(metric data) 對事物的精確測度結(jié)果表現(xiàn)為具體的數(shù)值例如:身高為175

5、cm、168cm、183cm統(tǒng)計數(shù)據(jù)的分類(按收集方法分)觀測的數(shù)據(jù)(observational data) 通過調(diào)查或觀測而收集到的數(shù)據(jù)在沒有對事物人為控制的條件下而得到的有關社會經(jīng)濟現(xiàn)象的統(tǒng)計數(shù)據(jù)幾乎都是觀測數(shù)據(jù)試驗的數(shù)據(jù)(experimental data) 在試驗中控制試驗對象而收集到的數(shù)據(jù)比如,對一種新藥療效的試驗,對一種新的農(nóng)作物品種的試驗等自然科學領域的數(shù)據(jù)大多數(shù)都為試驗數(shù)據(jù)統(tǒng)計數(shù)據(jù)的分類(按時間狀況分)截面數(shù)據(jù)(cross-sectional data) 在相同或近似相同的時間點上收集的數(shù)據(jù)描述現(xiàn)象在某一時刻的變化情況比如,2002年我國各地區(qū)的國內(nèi)生產(chǎn)總值數(shù)據(jù)時間序列數(shù)據(jù)(t

6、ime series data) 在不同時間上收集到的數(shù)據(jù)描述現(xiàn)象隨時間變化的情況比如,1996年至2002年國內(nèi)生產(chǎn)總值數(shù)據(jù)統(tǒng)計中的基本概念總體1. 包含所研究的全部個體(數(shù)據(jù))的集合,稱為總體(population),其中的每一個元素稱為個體 2. 分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的無限總體所包括的元素是無限的,不可數(shù)的樣本1.從總體中抽取的一部分元素的集合2.構(gòu)成樣本的元素的數(shù)目稱為樣本容量 參數(shù)1.研究者想要了解的總體的某種特征值2.所關心的參數(shù)主要有總體均值( )、標準差( )、總體比例( )等3.總體參數(shù)通常用希臘字母表示統(tǒng)計量1. 根據(jù)樣本數(shù)據(jù)

7、計算出來的一個量 2.所關心的樣本統(tǒng)計量有樣本均值(x)、樣本標準差(s)、樣本比例(p)等3.樣本統(tǒng)計量通常用小寫英文字母來表示 變 量(Variable) 說明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級等變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù)變量可以分為分類變量(categorical variable) :說明事物類別的一個名稱順序變量(rank variable ) :說明事物有序類別的一個名稱數(shù)值型變量(metric variable ) :說明事物數(shù)字特征的一個名稱 離散變量:只能取可數(shù)值的變量連續(xù)變量:可以在直線上或區(qū)間中取任何值的變量統(tǒng)計中的幾個基本概念平均數(shù)標準差比

8、例參數(shù)統(tǒng)計量xsp總體樣本02第二章數(shù)據(jù)的收集一、數(shù)據(jù)的間接來源對大多數(shù)使用者來說,親自去做調(diào)查往往是不可能的。使用者所使用的數(shù)據(jù)大多數(shù)是別人調(diào)查或科學實驗的數(shù)據(jù),對使用者來說稱為二手數(shù)據(jù)。二手數(shù)據(jù)主要是公開出版的或公開報道的數(shù)據(jù),當然有些是尚未公開出版的數(shù)據(jù)。在我國,公開出版或報道的社會經(jīng)濟統(tǒng)計數(shù)據(jù)主要來自國家和地方的統(tǒng)計部門以及各種報刊媒介。除了公開出版的統(tǒng)計數(shù)據(jù)外,還可以通過其他渠道使用一些尚未公開的統(tǒng)計數(shù)據(jù),以及廣泛分布在各種報紙、雜志、圖書、廣播、電視傳媒中的各種數(shù)據(jù)資料。利用二手數(shù)據(jù)對使用者來說既經(jīng)濟又方便,但使用時應注意統(tǒng)計數(shù)據(jù)的含義、計算口徑和計算方法,以避免誤用或濫用。同時,

9、在引用二手數(shù)據(jù)時,一定要注明數(shù)據(jù)的來源,以尊重他人的勞動成果。二、數(shù)據(jù)的直接來源統(tǒng)計數(shù)據(jù)的直接來源主要有兩個渠道:一是調(diào)查或觀察;二是實驗。調(diào)查是取得社會經(jīng)濟數(shù)據(jù)的重要手段,其中有統(tǒng)計部門進行的統(tǒng)計調(diào)查,也有其他部門或機構(gòu)為特定目的而進行的調(diào)查,如市場調(diào)查等;實驗是取得自然科學數(shù)據(jù)的主要手段。統(tǒng)計數(shù)據(jù)的來源從統(tǒng)計數(shù)據(jù)本身的來源看,統(tǒng)計數(shù)據(jù)最初都來源于直接的調(diào)查或?qū)嶒灐5珡氖褂谜叩慕嵌瓤?統(tǒng)計數(shù)據(jù)主要來源于兩種渠道:一是來源于直接的調(diào)查和科學實驗,對使用者來說,這是統(tǒng)計數(shù)據(jù)的直接來源,我們稱之為第一手或直接的統(tǒng)計數(shù)據(jù);二是來源于別人調(diào)查或?qū)嶒灥臄?shù)據(jù),對使用者來說,這是統(tǒng)計數(shù)據(jù)的間接來源,我們稱之

10、為第二手或間接的統(tǒng)計數(shù)據(jù)。抽樣調(diào)查調(diào)查對象的總體中隨機抽取一部分單位作為樣本進行調(diào)查,并根據(jù)樣本調(diào)查結(jié)果來推斷總體數(shù)量特征的一種數(shù)據(jù)收集方法目的是推斷總體的未知數(shù)字特征最常用的調(diào)查方式具有經(jīng)濟性、時 效性強、適應面廣、準確性高等特點1普查1. 為特定目的專門組織的非經(jīng)常性全面調(diào)查2. 通常是一次性或周期性的3. 一般需要規(guī)定統(tǒng)一的標準調(diào)查時間4. 數(shù)據(jù)的規(guī)范化程度較高5. 應用范圍比較狹窄2統(tǒng)計表報1.統(tǒng)計調(diào)查方式之一2.過去曾經(jīng)是我國主要的數(shù)據(jù)收集方式3.按照國家有關法規(guī)的規(guī)定,自上而下地統(tǒng)一布置、自下而上地逐級提供基本統(tǒng)計數(shù)據(jù)4.有各種各樣的類型3統(tǒng)計調(diào)查方式重點調(diào)查和典型調(diào)查重點調(diào)查從調(diào)

11、查對象的全部單位中選擇少數(shù)重點單位進行調(diào)查調(diào)查結(jié)果不能用于推斷總體典型調(diào)查從調(diào)查對象的全部單位中選擇少數(shù)典型單位進行調(diào)查目的是描述和揭示事物的本質(zhì)特征和規(guī)律調(diào)查結(jié)果不能用于推斷總體4數(shù)據(jù)的搜集方法數(shù)據(jù)的搜集方法詢問調(diào)查訪問調(diào)查觀察實驗電話調(diào)查郵寄調(diào)查觀察電腦輔助座談會個別深訪實驗訪問調(diào)查 (Personal interview)1.調(diào)查者與被調(diào)查者通過面對面地交談而獲得資料2.有標準式訪問和非標準式訪問標準式訪問通常按事先設計好的問卷進行非標準式訪問事先一般不制作問卷對不起,打擾了!郵寄調(diào)查 (Mail survey)也稱郵寄問卷調(diào)查是一種標準化調(diào)查調(diào)查者與被調(diào)查者沒有直接的語言交流,信息的傳

12、遞依賴于問卷通過某種方式將調(diào)查表或問卷送至某被調(diào)查者手中,由被調(diào)查者填寫,然后將問卷寄回指定收集點問卷或表格的發(fā)放方式有郵寄、宣傳媒介傳送、專門場所分發(fā)三種電話調(diào)查 (Telephone survey)調(diào)查者利用電話與被調(diào)查者進行語言交流以獲得信息時效快、成本低問題的數(shù)量不宜過多 電腦輔助調(diào)查(ComputerAssisted Telephone Interviewing)又稱電腦輔助電話調(diào)查電腦與電話相結(jié)合完成調(diào)查的全過程一般需借助專門的軟件進行硬件設備要求較高座談會 (Colloquia)1.也稱集體訪談2.將一組被調(diào)查者集中在調(diào)查現(xiàn)場,讓他們對調(diào)查的主題發(fā)表意見以獲得資料3.參加座談會的

13、人數(shù)不宜過多,一般為610人4.側(cè)重于定性研究個別深度訪問 (Personal Interviewing)一次只有一名受訪者參加、針對特殊問題的調(diào)查適合于較隱秘的問題,如個人隱私問題;或較敏感的問題,如政治方面的問題側(cè)重于定性研究觀察法 (Observational method)1.就調(diào)查對象的行動和意識,調(diào)查人員邊觀察邊記錄以收集所需信息2.調(diào)查人員不是強行介入3.能夠在被調(diào)查者不察覺的情況下獲得資料實驗法 (Experimental method)1.在設定的特殊實驗場所、特殊狀態(tài)下,對調(diào)查對象進行實驗以獲得所需資料2.有室內(nèi)實驗法和市場實驗法30調(diào)查設計在收集數(shù)據(jù)之前,需要制定出一套周

14、密、完整的調(diào)查方案,以指導整個調(diào)查工作,使調(diào)查得以順利地實施和完成。調(diào)查方案設計的好壞直接影響到調(diào)查數(shù)據(jù)的質(zhì)量。010203(一)調(diào)查目的調(diào)查要達到的具體目標回答“為什么調(diào)查?”調(diào)查之前必須明確確定調(diào)查對象和調(diào)查單位調(diào)查對象是根據(jù)調(diào)查目的確定的調(diào)查研究的總體或調(diào)查范圍。調(diào)查單位是構(gòu)成調(diào)查對象中的每一個單位,它是調(diào)查項目和調(diào)查內(nèi)容的承擔者或載體,也是我們收集數(shù)據(jù)、分析數(shù)據(jù)的基本單位。調(diào)查項目和調(diào)查表調(diào)查項目要解決的問題是“調(diào)查什么”,也就是調(diào)查的具體內(nèi)容。調(diào)查表是用于登記調(diào)查數(shù)據(jù)的一種表格,一般由表頭、表體和表外附加三部分組成。除上面介紹的幾項主要內(nèi)容外,調(diào)查方案中還應明確調(diào)查所采用的方式和方法

15、、調(diào)查時間及調(diào)查組織和實施的具體細則。調(diào)查方案設計市場調(diào)查在現(xiàn)代企業(yè)的營銷與管理中扮演著越來越重要的角色,它是企業(yè)獲得有關市場信息的重要手段。(一) 調(diào)查問卷的基本結(jié)構(gòu)調(diào)查問卷是用來收集調(diào)查數(shù)據(jù)的一種工具,是調(diào)查者根據(jù)調(diào)查目的和要求所設計的,由一系列問題、備選答案、說明以及碼表組成的一種調(diào)查形式。不同的調(diào)查問卷在具體結(jié)構(gòu)、題型、措詞、版式等設計上會有所不同,但在結(jié)構(gòu)上一般都由開頭部分、甄別部分、主體部分和背景部分組成。調(diào)查問卷設計1.開頭部分26開頭部分一般包括問候語、填表說明和問卷編號等內(nèi)容。(1)問候語。在自填式問卷中,寫好問候語十分重要,它可以引起被調(diào)查者對調(diào)查的重視,消除顧慮,激發(fā)參與

16、意識,以爭取他們的積極合作。問候語要語氣親切,誠懇禮貌,文字要簡潔準確,并在結(jié)尾處對被調(diào)查者的參與和合作表示感謝。(2)填表說明。在自填式問卷中要有詳細的填表說明,讓被調(diào)查者知道如何填寫問卷,如何將問卷返回到調(diào)查者手中。這部分內(nèi)容可以集中放在問卷的前面,也可以分散到各有關問題的前面。下面是一份自填式問卷集中寫明填寫要求的例子:(3)問卷的編號。主要用于識別問卷、調(diào)查者、被調(diào)查者姓名和地址等,以便于校對檢查、更正錯誤。女士/小姐/先生 您好!我是市場調(diào)查公司訪問院,我們正在進行一項有關公眾醫(yī)療保險意識方面的調(diào)查,目的是了解人們對醫(yī)療保險的看法和意見,以便更好地促進醫(yī)療保險事業(yè)的發(fā)展。您的回答無所

17、謂對錯,只要真實地反映了您的情況和看法,就達到了這次調(diào)查的目的。希望您能積極參與,我們對您的回答完全是保密的。調(diào)查要耽擱您一些時間,請您諒解。謝謝您的支持與合作!填寫要求:請您在所選擇答案的題號上畫圈對只許選擇一個答案的問題只能畫一個圈;對可選多個答案的問題,請在你認為合適的答案上畫圈需填寫數(shù)字的題目在留出的橫線上填寫對于表格中選擇答案的題目,在所選的欄目內(nèi)畫勾對注明要求您自己填寫的內(nèi)容,請在規(guī)定的地方填上您的意見 甄別部分1. 甄別也稱為過濾,它是先對被調(diào)查者進行過濾,篩選掉不需要的部分,然后針對特定的被調(diào)查者進行調(diào)查2. 通過甄別,可以篩選掉與調(diào)查事項有直接關系的人,以達到避嫌的目的3.

18、可以確定哪些人是合格的被調(diào)查者,哪些人不是4. 甄別的目的是確保被調(diào)查者合格,能夠作為該市場調(diào)查項目的代表,從而符合調(diào)查研究的需要 35主體部分是調(diào)查問卷的核心內(nèi)容包括所要調(diào)查的全部問題,主要由問題和答案所組成 背景部分通常放在問卷的最后,主要是有關被調(diào)查者的一些背景資料該部分所包含的各項問題,可使研究者根據(jù)背景資料對被調(diào)查者進行分類比較分析 問卷所要調(diào)查的資料由若干個提問的具體項目即問題所組成。因此,如何科學準確地提出所要調(diào)查的問題,是問卷設計中十分重要的一步。1. 提問的內(nèi)容盡可能短。如果提問的問題太長,不僅會給被調(diào)查者的理解帶來一定的困難,也會使其感到厭煩,從而不利于對問題的回答。2.

19、用詞要確切、通俗問卷中的用詞一定要保證所要提問的問題清楚明了。用詞是否確切,具體可按5W1H準則加以推敲。5W即Who(誰),Where(何處),When(何時),Why(為什么),What(什么事),How(如何),以此來判斷問題是否清楚。3.一項提問只包含一項內(nèi)容。4.避免誘導性提問。問卷中提問的問題不能帶有傾向性,而應保持中立。5.避免否定式的提問。在日常生活中,人們往往習慣肯定陳述的提問,而不習慣否定陳述的提問6.避免敏感性問題。敏感性問題是指被調(diào)查者不愿意讓別人知道答案的問題。提問項目的設計用詞要確切、通俗請問您使用什么牌子的洗發(fā)水?請問您最近三個月使用什么牌子的洗發(fā)水? 您最近一段

20、時間使用什么品牌的化妝品? 您最近一個月使用什么品牌的化妝品? 您覺得這種電視機的畫面質(zhì)量怎么樣? 您是否認為使用電腦數(shù)字技術制作的廣告更具有吸引力? 一項提問只包含一項內(nèi)容您覺得這種新款轎車的加速性能和制動性能怎么樣? 您覺得這種新款轎車的加速性能怎么樣?您覺得這種新款轎車的制動性能怎么樣?避免誘導性提問人們認為長虹牌彩電質(zhì)量不錯,你覺得怎么樣?您覺得長虹牌彩電的質(zhì)量怎么樣? 避免否定形式的提問您覺得這種產(chǎn)品的新包裝不美觀嗎?您覺得這種產(chǎn)品的新包裝美觀嗎? 回答項目的設計(回答的類型與方法)回答的類型與方法開放性問題(自由回答型)封閉性問題(選擇回答型)兩項選擇法多項選擇法順序選擇法評定尺度

21、法雙向列聯(lián)法限制選擇型多項選擇型單項選擇型開放性問題對問題的回答未提供任何具體的答案,由被調(diào)查者根據(jù)自己的想法自由作出回答屬于自由回答型優(yōu)點:比較靈活,適合于搜集更深層次的信息,特別適合于那些尚未弄清各種可能答案或潛在答案類型較多的問題。而且可以使被調(diào)查者充分表達自己的意見和想法,有利于被調(diào)查者發(fā)揮自己的創(chuàng)造缺點:由于會出現(xiàn)各種各樣的答案,給調(diào)查后的資料整理帶來一定困難 封閉性問題對問題事先設計出了各種可能的答案,由被調(diào)查者從中選擇問題的答案是標準化的,有利于被調(diào)查者對問題的理解和回答,也有利于調(diào)查后的資料整理對答案的要求較高,對一些比較復雜的問題,有時很難把答案設計周全問題的答案是選擇回答型

22、,所以設計出的答案一定要窮盡和互斥回答方法有:兩項選擇法、多項選擇法、順序選擇法、評定尺度法、雙向列聯(lián)法五種 封閉性問題(兩項選擇法)答案只有兩項,要求被調(diào)查者選擇其中之一來回答優(yōu)點:被調(diào)查者只需在二中之中選擇一項,回答比較容易;調(diào)查后的數(shù)據(jù)處理也很方便缺點:得到的信息量較少;當被調(diào)查者對兩項答案均不滿意時,很難作出回答 您家里有電視機嗎? 1. 有 2沒有 封閉性問題(多項選擇法)在設計問卷時,對一個問題給出三個或三個以上的答案,讓被調(diào)查者從中選擇進行回答根據(jù)要求選擇的答案多少不同,有以下類型單項選擇型:要求被調(diào)查者對所給出的問題答案選擇其中的一項 多項選擇型:要求被調(diào)查者對所給出的問題答案

23、中,選出自己認為合適的答案,數(shù)量不受限制限制選擇型:要求被調(diào)查者在所給出的問題答案中,選出自己認為合適的答案,但數(shù)量要受一定限制 封閉性問題(單項選擇法實例)單項選擇型 您覺得哪種類型的廣告宣傳效果最好? (選一項) 1電視廣告 2廣播廣告 3雜志廣告 4報紙廣告 5路牌廣告 封閉性問題(多項選擇法實例)多項選擇型 請問您在購買小轎車時,主要考慮哪些因素? (選出您認為合適的答案) 1價格 6維修費用 2款式 7乘坐舒適 3品牌 8行使平穩(wěn) 4耗油量 9加速性能 5售后服務 10制動性能 封閉性問題(順序選擇法)問題答案有多個,要求被調(diào)查者在回答時,對所選的答案按要求的順序或重要程度加以排列。

24、其中,對所選的的答案數(shù)量可以進行一定的限制,也可以不進行限制問題答案不僅可以反映所要調(diào)查的內(nèi)容,而且可以反映出被調(diào)查者對問題的看法,從而增加了信息量 您在購買這種牌子的電視機時,主要是考慮哪些因素? 1產(chǎn)品的品牌 2價格合理 3售后服務 4外形美觀 5維修方便 (按重要程度進行排序) 封閉性問題(評定尺度法)問題答案,由表示不同等級的形容詞組成, 并按照一定的程度排序,由被調(diào)查者依次 選擇 您對這種新款轎車是否感到滿意? 1非常滿意;2比較滿意;3一般 4不太滿意;5不滿意。 封閉性問題(雙向列聯(lián)法)將兩類不同問題綜合到一起,通常用表格來表現(xiàn)表的橫向是一類問題,縱向是另一類問題這種問題結(jié)構(gòu)可以

25、反映兩方面因素的綜合作用,提供單一類型問題無法提供的信息可以節(jié)省問卷的篇幅 封閉性問題(雙向列聯(lián)法實例)神龍富康捷 達桑塔納1.耗油量低2. 外觀大方3.乘坐舒適4. 整車價格合理5. 駕駛?cè)菀?. 制動性好7. 維修方便8.零配件齊全9.故障率低10.售后服務周到請在您贊同項目的空格內(nèi)劃“” 問題順序的設計問題的安排應具有邏輯性問題的順序應先易后難能引起被調(diào)查者興趣的問題放在前面開放性問題放在后面一、統(tǒng)計數(shù)據(jù)的誤差統(tǒng)計數(shù)據(jù)的誤差通常是指統(tǒng)計數(shù)據(jù)與客觀現(xiàn)實之間的差距,誤差主要有抽樣誤差和非抽樣誤差兩類。抽樣誤差主要是指在用樣本數(shù)據(jù)進行推斷時所產(chǎn)生的隨機誤差。非抽樣誤差是調(diào)查過程中由于調(diào)查者或被

26、調(diào)查者的人為因素所造成的誤差。1統(tǒng)計數(shù)據(jù)的質(zhì)量要求數(shù)據(jù)的質(zhì)量包括多方面的含義,它不僅僅是指數(shù)據(jù)本身的準確性或誤差的大小。(1)精度,即最低的抽樣誤差或隨機誤差;(2)準確性,即最小的非抽樣誤差或偏差;(3)關聯(lián)性,即滿足用戶決策、管理和研究的需要;(4)及時性,即在最短的時間里取得并公布數(shù)據(jù);(5)一致性,即保持時間序列的可比性;(6)最低成本,即在滿足以上標準的前提下,以最經(jīng)濟的方式取得數(shù)據(jù)。2統(tǒng)計數(shù)據(jù)的質(zhì)量03第三章數(shù)據(jù)的整理與顯示一、數(shù)據(jù)審核 數(shù)據(jù)審核就是檢查數(shù)據(jù)是否有錯誤。從不同渠道取得的數(shù)據(jù),在審核的內(nèi)容和方法上有所不同,不同類型的統(tǒng)計數(shù)據(jù),在審核內(nèi)容和方法上也有所差異。 對于通過調(diào)

27、查取得的原始數(shù)據(jù)(raw data),應主要從完整性和準確性兩個方面去審核。 對于通過其他渠道取得的二手數(shù)據(jù),應著重審核數(shù)據(jù)的適用性和時效性。三、數(shù)據(jù)排序數(shù)據(jù)排序是按一定順序?qū)?shù)據(jù)排列,以便于研究者通過數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索。除此之外,排序還有助于對數(shù)據(jù)進行檢查糾錯,以及為重新歸類或分組等提供方便。數(shù)據(jù)的預處理是數(shù)據(jù)整理的先前步驟,它是在對數(shù)據(jù)分類或分組之前所做的必要處理,內(nèi)容包括數(shù)據(jù)的審核、篩選、排序等。二、數(shù)據(jù)篩選對審核過程中發(fā)現(xiàn)的錯誤應盡可能予以糾正。在調(diào)查結(jié)束后,如果對數(shù)據(jù)中發(fā)現(xiàn)的錯誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補時,就需要對數(shù)據(jù)進行篩

28、選。據(jù)篩選(data filter)包括兩方面內(nèi)容:一是將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除;二是將符合某種特定條件的數(shù)據(jù)篩選出來,而將不符合特定條件的數(shù)據(jù)予以剔除。數(shù)據(jù)的篩選可借助于計算機自動完成。12數(shù)據(jù)的預處理用Excel進行數(shù)據(jù)篩選 8名學生的考試成績數(shù)據(jù) 數(shù)據(jù)篩選(data filter)數(shù)據(jù)排序 (data rank)按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索排序有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供依據(jù)在某些場合,排序本身就是分析的目的之一排序可借助于計算機完成數(shù)據(jù)排序 (方法)分類數(shù)據(jù)的排序字母型數(shù)據(jù),排序有升序降序之分,但習慣上

29、用升序漢字型數(shù)據(jù),可按漢字的首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分數(shù)值型數(shù)據(jù)的排序遞增排序:設一組數(shù)據(jù)為x1,x2,xn,遞增排序后可表示為:x(1)x(2)x(2)x(n)品質(zhì)數(shù)據(jù)的整理與展示一、頻數(shù)與頻數(shù)分布分類數(shù)據(jù)本身就是對事物的一種分類,因此,在整理時除了要列出所分的類別外,還要計算出每一類別的頻數(shù)、頻率或比例、比率,同時選擇適當?shù)膱D形進行顯示,以便對數(shù)據(jù)及其特征有一個初步的了解1. 落在某一特定類別(或組)中的數(shù)據(jù)個數(shù),稱為頻數(shù)(frequency)。2. 把各個類別及落在其中的相應頻數(shù)全部列出,并用表格形式表現(xiàn)出來,稱為頻數(shù)分布(frequency dis

30、tribution)。61用Excel生成定性數(shù)據(jù)的頻數(shù)分布表第1步:選擇“數(shù)據(jù)”菜單中的“數(shù)據(jù)透視表和數(shù)據(jù)透視圖”命令。第2步:確定數(shù)據(jù)源區(qū)域(在操作前將光標放在任意數(shù)據(jù)單元格內(nèi),系統(tǒng)會自動選定數(shù)據(jù)源區(qū)域)。第3步: 在“向?qū)?步驟之3”對話框中選擇數(shù)據(jù)透視表的輸出位置, 然后選擇“布局”選項。第4步:在“向?qū)Р季帧睂υ捒蛑?依次將“飲料類型”拖至行(或列)區(qū)域,將“顧客性別”拖至列(或行)區(qū)域,將“飲料類型”拖至“數(shù)據(jù)”區(qū)域。第5步:單擊“確定”按鈕,自動返回“向?qū)?步驟之3”對話框。單擊“完成”按鈕,結(jié)束操作。對于分類數(shù)據(jù)的頻數(shù)分布表,還可以使用比例、百分比、比率等統(tǒng)計量進行分析。分類數(shù)

31、據(jù)的整理(可計算的指標)頻數(shù)(frequency) :落在各類別中的數(shù)據(jù)個數(shù)比例(proportion) :某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值百分比(percentage) :將對比的基數(shù)作為100而計算的比值比率(ratio) :不同類別數(shù)值的比值分類數(shù)據(jù)的圖示條形圖(bar Chart)用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)的圖形有單式條形圖、復式條形圖等形式主要用于反映分類數(shù)據(jù)的頻數(shù)分布繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖分類數(shù)據(jù)的圖示條形圖(bar Chart)用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)的圖形有單式條形圖、復式條形圖等形式主要用于反映分類

32、數(shù)據(jù)的頻數(shù)分布繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖分類數(shù)據(jù)的圖示餅圖(pie Chart)也稱圓形圖,是用圓形及園內(nèi)扇形的面積來表示數(shù)值大小的圖形主要用于表示總體或樣本中各組成部分所占的比例,對于研究結(jié)構(gòu)性問題十分有用繪制圓形圖時,總體中各部分所占的百分比用園內(nèi)的各個扇形面積表示,這些扇形的中心角度,是按各部分數(shù)據(jù)百分比占3600的相應比例確定的分類數(shù)據(jù)的圖示環(huán)形圖環(huán)形圖與餅圖類似,但又有區(qū)別。環(huán)形圖中間有一個“空洞”,每個樣本用一個環(huán)來表示,樣本中的每一部分數(shù)據(jù)用環(huán)中的一段表示。因此環(huán)形圖可顯示多個樣本各部分所占的比例,從而有利于構(gòu)成的比較研究。67數(shù)值型數(shù)據(jù)的

33、整理與展示一、數(shù)據(jù)分組數(shù)值型數(shù)據(jù)表現(xiàn)為數(shù)字,在整理時通常是對其進行分組。數(shù)據(jù)分組的主要目的是觀察數(shù)據(jù)的分布特征。1. 根據(jù)統(tǒng)計分析的需要,將原始數(shù)據(jù)按照某種標準劃分成不同的組別,稱為數(shù)據(jù)分組。2. 在組距分組中,一個組的最小值稱為下限(low limit),一個組的最大值稱為上限(upper limit)。用Excel生成定量數(shù)據(jù)的頻數(shù)分布表選擇“工具”菜單中的“數(shù)據(jù)分析”命令。在“數(shù)據(jù)分析”對話框中選擇“直方圖”命令,單擊“確定”按鈕。當出現(xiàn)對話框時,在“輸入?yún)^(qū)域”方框內(nèi)輸入原始數(shù)據(jù)所在的區(qū)域;在“接收區(qū)域”方框內(nèi)輸入上限值所在的區(qū)域;在“輸出區(qū)域”方框內(nèi)輸入結(jié)果輸出的位置;選擇“圖表輸出”

34、命令,單擊“確定”按鈕。分組方法分組方法等距分組異距分組單變量值分組組距分組單變量值分組1. 將一個變量值作為一組2. 適合于離散變量3. 適合于變量值較少的情況組距分組將變量值的一個區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組組距分組(步驟)確定組數(shù):組數(shù)的確定應以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時,可以按 Sturges 提出的經(jīng)驗公式來確定組數(shù)K確定組距:組距(Class Width)是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即 組距( 最大值 - 最小值) 組數(shù) 統(tǒng)計出各組的

35、頻數(shù)并整理成頻數(shù)分布表 組距分組(幾個概念)1. 下限(low limit) :一個組的最小值2. 上限(upper limit) :一個組的最大值3. 組距(class width) :上限與下限之差4. 組中值(class midpoint) :下限與上限之間的中點值下限值+上限值2組中值 =頻數(shù)分布表的編制(例題分析)【例】某電腦公司2015年前4個月每天的銷售額數(shù)據(jù)。試對數(shù)據(jù)進行分組。頻數(shù)分布表的編制(步驟)確定組數(shù):根據(jù) Sturges 提出的經(jīng)驗公式得組數(shù)K為:確定各組的組距: 組距( 237 - 141) 10=9.6 10等距分組表(上下組限重疊)等距分組表(上下組限間斷)等距

36、分組表(使用開口組)組距分組與不等距分組(在表現(xiàn)頻數(shù)分布上的差異)等距分組各組頻數(shù)的分布不受組距大小的影響可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征不等距分組各組頻數(shù)的分布受組距大小不同的影響各組絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況需要用頻數(shù)密度(頻數(shù)密度=頻數(shù)/組距)反映頻數(shù)分布的實際狀況分組數(shù)據(jù)直方圖(histogram)用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際上是用矩形的面積來表示各組的頻數(shù)分布在直角坐標中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應的頻數(shù)就形成了一個矩形,即直方圖直方圖下的總面積等于1分組數(shù)據(jù)直方圖(直方圖與條形圖的區(qū)別)條形圖是用條形的長度(橫置時)表示各

37、類別頻數(shù)的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列條形圖主要用于展示分類數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù)未分組數(shù)據(jù)莖葉圖(stem-and-leaf display)用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉樹葉上只保留一位數(shù)字對于n(20 n 300)個數(shù)據(jù),莖葉圖最大行數(shù)不超過 L = 10 lg(n) 6. 莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察

38、一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息未分組數(shù)據(jù)箱線圖(box plot)用于顯示未分組的原始數(shù)據(jù)的分布箱線圖由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成其繪制方法是:首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me 和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連接兩個四分(位)數(shù)畫出箱子,再將兩個極值點與箱子相連接 未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析)【例】 從某大學經(jīng)濟管理專業(yè)二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調(diào)查,所得結(jié)果如表。試繪制各科考試成績的批比較箱線圖,

39、并分析各科考試成績的分布特征11名學生各科的考試成績數(shù)據(jù)課程名稱學生編號1234567891011英語經(jīng)濟數(shù)學西方經(jīng)濟學市場營銷學財務管理基礎會計學統(tǒng)計學計算機應用基礎76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖(例題分析)8門課程考試成績的箱線圖11名學生8門課程考

40、試成績的箱線圖Min-Max25%-75%Median value455565758595105學生1學生2學生3學生4學生5學生6學生7學生8學生9學生10學生11未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析)多變量數(shù)據(jù)的圖示:雷達圖當有兩個或兩個以上變量時,利用一般的點圖方法就很難做到了。為此,人們研究了多變量的圖示方法,其中有散點圖、三維散點圖、氣泡圖、雷達圖、臉譜圖、星座圖、連接向量圖等。在此我們主要介紹雷達圖的繪制方法。從一個點出發(fā),用每一條射線代表一個變量,多個變量的數(shù)據(jù)點連接成線,即圍成一個區(qū)域,多個樣本即圍成多個區(qū)域,這就是雷達圖,利用它可以研究多個樣本之間的相似程度。 設有n組樣本S

41、1,S2,Sn,每個樣本測得P個變量X1,X2,Xp,要繪制這P個變量的雷達圖,其具體做法是多變量數(shù)據(jù)雷達圖(雷達圖的制作) 先做一個圓,然后將圓P等分,得到P個點,令這P個點分別對應P個變量,在將這P個點與圓心連線,得到P個幅射狀的半徑,這P個半徑分別作為P個變量的坐標軸,每個變量值的大小由半徑上的點到圓心的距離表示 再將同一樣本的值在P個坐標上的點連線。這樣,n個樣本形成的n個多邊形就是一個雷達圖數(shù)據(jù)類型及圖示 (小結(jié))04第四章數(shù)據(jù)分布特征的測度90一、平均數(shù)一組數(shù)據(jù)相加后除以數(shù)據(jù)的個數(shù)而得到的結(jié)果,稱為平均數(shù),也稱為均值(mean)。設一組數(shù)據(jù)為:x1 ,x2 , ,xn(xN) 樣本

42、均值總體均值加權均值 (Weighted mean)設各組的組中值為:M1 ,M2 , ,Mk 相應的頻數(shù)為: f1 , f2 , ,fk樣本加權均值總體加權均值已改至此!某電腦公司銷售量數(shù)據(jù)分組表按銷售量分組組中值(Mi)頻數(shù)(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合計12022200加權平均數(shù) (例題分析)加權平均

43、數(shù)(權數(shù)對均值的影響) 甲乙兩組各有10名學生,他們的考試成績及其分布數(shù)據(jù)如下 甲組: 考試成績(x ): 0 20 100 人數(shù)分布(f ):1 1 8 乙組: 考試成績(x): 0 20 100 人數(shù)分布(f ):8 1 1中位數(shù)(median)排序后處于中間位置上的值Me50%50%不受極端值的影響主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)各變量值與中位數(shù)的離差絕對值之和最小,即原始數(shù)據(jù):順序數(shù)據(jù):順序數(shù)據(jù)的中位數(shù) (例題分析)解:中位數(shù)的位置為 300/2150 從累計頻數(shù)看,中位數(shù)在“一般”這一組別中 中位數(shù)為 Me=一般甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶

44、數(shù) (戶)累計頻數(shù) 非常不滿意 不滿意 一般 滿意 非常滿意 24108 93 45 30 24132225270300合計300數(shù)值型數(shù)據(jù)的中位數(shù) (9個數(shù)據(jù)的算例)【例】 9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9中位數(shù) 1080數(shù)值型數(shù)據(jù)的中位數(shù) (10個數(shù)據(jù)的算例)【例】:10個家庭的人均月收入數(shù)據(jù)排 序: 660 750 780 850 960 1080 1250 1500 16

45、30 2000位 置: 1 2 3 4 5 6 7 8 9 10 與中位數(shù)類似的還有四分位數(shù)(quartile)、十分位數(shù)(decile)和百分位數(shù)(percentile)等四分位數(shù)排序后處于25%和75%位置上的值分位數(shù)QLQMQU25%25%25%25%四分位數(shù)是通過3個點將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。很顯然,中間的四分位數(shù)就是中位數(shù),因此通常所說的四分位數(shù)是指處在25%位置上的數(shù)值(下四分位數(shù))和處在75%位置上的數(shù)值(上四分位數(shù))。四分位數(shù)(位置的確定)原始數(shù)據(jù):順序數(shù)據(jù):順序數(shù)據(jù)的四分位數(shù) (例題分析)解:QL位置= (300)/4 =75 QU位置 =(330

46、0)/4 =225 從累計頻數(shù)看, QL在“不滿意”這一組別中; QU在“一般”這一組別中 四分位數(shù)為 QL = 不滿意 QU = 一般甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù) (戶)累計頻數(shù) 非常不滿意 不滿意 一般 滿意 非常滿意 24108 93 45 30 24132225270300合計300數(shù)值型數(shù)據(jù)的四分位數(shù) (9個數(shù)據(jù)的算例)【例】:9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5

47、6 7 8 9數(shù)值型數(shù)據(jù)的四分位數(shù) (10個數(shù)據(jù)的算例)【例】:10個家庭的人均月收入數(shù)據(jù)排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10 眾數(shù)除平均數(shù)、中位數(shù)和四分位數(shù)外,有些時候也會使用眾數(shù)作為數(shù)據(jù)水平的度量。眾數(shù)(mode)是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最多的數(shù)值,用Mo表示。一般情況下,只有在數(shù)據(jù)量較大時眾數(shù)才有意義。從分布的角度看,眾數(shù)是一組數(shù)據(jù)分布的最高峰點所對應的數(shù)值。如果數(shù)據(jù)的分布沒有明顯的最高峰點,眾數(shù)也可能不存在;如果有兩個或多個最高峰點,也可以有兩個或多個眾數(shù)。104各度量值的比較眾

48、數(shù)、中位數(shù)、平均數(shù)的特點和應用眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大時應用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時應用平均數(shù)易受極端值影響數(shù)學性質(zhì)優(yōu)良數(shù)據(jù)對稱分布或接近對稱分布時應用數(shù)據(jù)類型與集中趨勢測度值數(shù)據(jù)類型和所適用的集中趨勢測度值數(shù)據(jù)類型分類數(shù)據(jù) 順序數(shù)據(jù)間隔數(shù)據(jù)比率數(shù)據(jù)適用的測度值眾數(shù)中位數(shù)均值均值四分位數(shù)眾數(shù)調(diào)和平均數(shù)眾數(shù)中位數(shù)幾何平均數(shù)四分位數(shù) 中位數(shù)四分位數(shù)眾數(shù)離散程度的度量 集中趨勢只是數(shù)據(jù)分布的一個特征,它所反映的是各變量值向其中心值聚集的程度。而各變量值之間的差異狀況如何呢?這就需要考察數(shù)據(jù)的分散程度。數(shù)據(jù)的分散程度是數(shù)據(jù)分布的另一個重要特征,它所反映的是各

49、變量值遠離其中心值的程度,因此也稱為離中趨勢。集中趨勢的各測度值是對數(shù)據(jù)水平的一個概括性度量,它對一組數(shù)據(jù)的代表程度取決于該組數(shù)據(jù)的離散水平。數(shù)據(jù)的離散程度越大,集中趨勢的測度值對該組數(shù)據(jù)的代表性就越差,離散程度越小,其代表性就越好。而離中趨勢的各測度值就是對數(shù)據(jù)離散程度所作的描述。 描述數(shù)據(jù)離散程度采用的測度值,主要有極差、四分位差、平均差、方差、標準差以及測度相對離散程度的離散系數(shù)等。極差和四分位差(一)極差一組數(shù)據(jù)的最大值與最小值之差,稱為極差(range),也稱全距,用R表示。極差的計算公式為:R=max(xi)-min(xi)(4.5) 極差是描述數(shù)據(jù)離散程度的最簡單測度值,計算簡單

50、,易于理解,但它容易受極端值的影響。由于極差只是利用了一組數(shù)據(jù)兩端的信息,不能反映出中間數(shù)據(jù)的分散狀況,因而不能準確地描述出數(shù)據(jù)的分散程度。在實際應用中,通常把極差作為數(shù)據(jù)離散程度的一個參考值。(二)四分位差上四分位數(shù)與下四分位數(shù)之差,稱為四分位差(quartile deviation),也稱為內(nèi)距或四分間距(inter-quartile range),用Qd表示。四分位差的計算公式為:Qd=Q75%-Q25%(4.6)四分位差反映了中間50%數(shù)據(jù)的離散程度。其數(shù)值越小,說明中間的數(shù)據(jù)越集中;數(shù)值越大,說明中間的數(shù)據(jù)越分散。四分位差不受極值的影響。108平均差(mean deviation)各

51、變量值與其均值離差絕對值的平均數(shù)能全面反映一組數(shù)據(jù)的離散程度數(shù)學性質(zhì)較差,實際中應用較少計算公式為未分組數(shù)據(jù)組距分組數(shù)據(jù)平均差 (例題分析) 含義:每一天的銷售量平均數(shù)相比, 平均相差17臺某電腦公司銷售量數(shù)據(jù)平均差計算表 按銷售量分組組中值(Mi)頻數(shù)(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合

52、計1202040方差和標準差(variance and standard deviation)數(shù)據(jù)離散程度的最常用測度值反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標準差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差4 6 8 10 12x = 8.3樣本方差和標準差 (simple variance and standard deviation)未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!樣本方差自由度(degree of freedom)一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)當樣本數(shù)據(jù)的個數(shù)為 n 時,若樣

53、本均值x 確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則 x = 5。當 x = 5 確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差2時,它是2的無偏估計量樣本標準差 (例題分析)某電腦公司銷售量數(shù)據(jù)平均差計算表 按銷售量分組組中值(Mi)頻數(shù)(fi)140150150 160160 170170 180180 190190 20020

54、0 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合計12055400樣本標準差 (例題分析) 含義:每一天的銷售量與平均數(shù)相比, 平均相差21.58臺某電腦公司銷售量數(shù)據(jù)平均差計算表 按銷售量分組組中值(Mi)頻數(shù)(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 2401451551651751851952

55、05215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合計12055400標準分數(shù)標準分數(shù) (例題分析)經(jīng)驗法則經(jīng)驗法則表明:當一組數(shù)據(jù)對稱分布時約有68%的數(shù)據(jù)在平均數(shù)加減1個標準差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個標準差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個標準差的范圍之內(nèi) 比較幾組數(shù)據(jù)的離散程度離散系數(shù)120離散系數(shù) (例題分析)在2008年8月10日舉行的第29屆北京奧運會女子10米氣手槍決賽中,進入決賽的8名運動員的預賽成績和最后10槍的決賽成績?nèi)绫?5所示。評價哪名

56、運動員的發(fā)揮更穩(wěn)定。從離散系數(shù)可以看出,在最后10槍的決賽中,發(fā)揮比較穩(wěn)定的運動員是塞爾維亞的亞斯娜舍卡里奇和中國的郭文珺,發(fā)揮不穩(wěn)定的運動員是蒙古的卓格巴德拉赫蒙赫珠勒和波蘭的萊萬多夫斯卡薩貢。離散系數(shù) (例題分析)數(shù)據(jù)類型與離散程度測度值數(shù)據(jù)類型和所適用的離散程度測度值數(shù)據(jù)類型分類數(shù)據(jù) 順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測度值異眾比率四分位差 方差或標準差 異眾比率 離散系數(shù)(比較時用) 平均差 極差 四分位差 異眾比率偏態(tài)與峰態(tài)的度量扁平分布尖峰分布偏態(tài)峰態(tài)左偏分布右偏分布與標準正態(tài)分布比較!通過直方圖和莖葉圖等就可以知道數(shù)據(jù)的分布是否對稱。對于不對稱的分布,要想知道不對稱的程度,則需要計算相應的

57、描述統(tǒng)計量。偏態(tài)系數(shù)和峰態(tài)系數(shù)就是對分布對稱程度和峰值高低的一種度量。偏態(tài)(skewness)統(tǒng)計學家Pearson于1895年首次提出,它是對數(shù)據(jù)分布對稱性的測度。數(shù)據(jù)分布的不對稱性,稱為偏態(tài)(skewness) 判別偏態(tài)的方向并不困難,但要測度偏斜的程度則需要計算偏態(tài)系數(shù)(coefficient of skewness)。數(shù)據(jù)分布偏斜程度的測度2.偏態(tài)系數(shù)=0為對稱分布3.偏態(tài)系數(shù) 0為右偏分布4.偏態(tài)系數(shù) 0為左偏分布偏態(tài)系數(shù) (skewness coefficient)根據(jù)原始數(shù)據(jù)計算根據(jù)分組數(shù)據(jù)計算峰態(tài)(kurtosis)統(tǒng)計學家Pearson于1905年首次提出,它是對數(shù)據(jù)分布平峰

58、或尖峰程度的測度。數(shù)據(jù)分布的平峰或尖峰程度,稱為峰態(tài)(kurtosis)。峰態(tài)系數(shù)=0扁平峰度適中峰態(tài)系數(shù)0為尖峰分布峰態(tài)系數(shù) (kurtosis coefficient)根據(jù)原始數(shù)據(jù)計算根據(jù)分組數(shù)據(jù)計算05第五章抽樣與參數(shù)估計一、概率抽樣方法一般的抽樣推斷都建立在概率抽樣的基礎上。概率抽樣是根據(jù)一個已知的概率來抽取樣本單位,也就是說,哪個單位被抽中與否不取決于研究人員的主觀意愿,而是取決于客觀的機會概率。(一)簡單隨機抽樣從含有N個元素的總體中,抽取n個元素作為樣本,使得每一個容量為n的樣本都有相同的機會(概率)被抽中,這樣的抽樣方式稱為簡單隨機抽樣(simple random sampli

59、ng),也稱純隨機抽樣。簡單隨機抽樣是其他抽樣方法的基礎。簡單隨機抽樣有兩種抽取元素的方法:重復抽樣和不重復抽樣。抽樣與抽樣分布由于一個元素有可能被重復抽中,所以稱為重復抽樣。從總體中抽取一個元素后,把這個元素放回到總體中再抽取第二個元素,直至抽取n個元素為止。這樣的抽樣方法稱為重復抽樣(sampling without replacement)。不重復抽樣時,每個總體元素不可能被重復抽中,所以稱為不重復抽樣。一個元素被抽中后不再放回總體,然后再從所剩下的元素中抽取第二個元素,直到抽取n個元素為止,這樣的抽樣方法稱為不重復抽樣(sampling with replacement)。抽樣與抽樣分

60、布分層抽樣(stratified sampling)將抽樣單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本優(yōu)點保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而提高估計的精度組織實施調(diào)查方便既可以對總體參數(shù)進行估計,也可以對各層的目標量進行估計系統(tǒng)抽樣(systematic sampling)將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內(nèi)隨機地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其它樣本單位先從數(shù)字1到k之間隨機抽取一個數(shù)字r作為初始單位,以后依次取r+k,r+2k等單位優(yōu)點:操作簡便,可提高估計的精度缺點:對估計量方差的估計比較困難整群抽樣(c

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論