(01)第1章-統(tǒng)計和統(tǒng)計數(shù)據(jù)_第1頁
(01)第1章-統(tǒng)計和統(tǒng)計數(shù)據(jù)_第2頁
(01)第1章-統(tǒng)計和統(tǒng)計數(shù)據(jù)_第3頁
(01)第1章-統(tǒng)計和統(tǒng)計數(shù)據(jù)_第4頁
(01)第1章-統(tǒng)計和統(tǒng)計數(shù)據(jù)_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)分析

(方法與案例)

作者賈俊平統(tǒng)計學統(tǒng)

Statisticsyyyy-M-統(tǒng)計思維總有一天會像讀與寫一樣成為一個有效率公民的必備能力。

——H.G.Wells統(tǒng)計名言yyyy-M-yyyy-M-第1章統(tǒng)計和統(tǒng)計數(shù)據(jù)1.1

統(tǒng)計及其應用領(lǐng)域1.2怎樣獲得統(tǒng)計數(shù)據(jù)?Statisticsyyyy-M-學習目標統(tǒng)計學的含義統(tǒng)計學的研究內(nèi)容統(tǒng)計的應用領(lǐng)域統(tǒng)計數(shù)據(jù)的類型獲得統(tǒng)計數(shù)據(jù)的途徑y(tǒng)yyy-M-你相信這樣的一些統(tǒng)計結(jié)論嗎?吸煙對健康是有害的,吸香煙的男性減少壽命2250天不結(jié)婚的男性會減少壽命3500天,不結(jié)婚的女性會減少壽命1600天身體超重30%會使壽命減少1300天每天攝取500毫升維生素C,生命可延長6年身材高的父親,其子女的身高也較高二個出生的子女沒有第一個聰明,第三個出生的子女沒有第二個聰明,依此類推學生們在聽了莫扎特鋼琴曲10分鐘后的推理測試會比他們聽10分鐘娛樂磁帶或其他曲目做得更好上課坐在前面的學生平均考試分數(shù)比坐在后面的學生高漂亮的女性有損男性的智力。男性在看到漂亮女性時智力會下降,這就是為什么大學里的女孩子比男孩子學習好的原因yyyy-M-1.1統(tǒng)計及其應用領(lǐng)域

1.1.1統(tǒng)計學研究什么?

1.1.2統(tǒng)計的應用第1章統(tǒng)計和統(tǒng)計數(shù)據(jù)yyyy-M-1.1.1統(tǒng)計學研究什么?1.1統(tǒng)計及其應用領(lǐng)域yyyy-M-什么是統(tǒng)計學?

(statistics)1.收集數(shù)據(jù):取得數(shù)據(jù)2.處理數(shù)據(jù):圖表展示分析數(shù)據(jù):利用統(tǒng)計方法分析數(shù)據(jù)數(shù)據(jù)解釋:結(jié)果的說明得到結(jié)論:從數(shù)據(jù)分析中得出客觀結(jié)論

收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學

yyyy-M-統(tǒng)計方法統(tǒng)計方法描述統(tǒng)計推斷統(tǒng)計參數(shù)估計假設(shè)檢驗yyyy-M-描述統(tǒng)計

(descriptivestatistics)研究數(shù)據(jù)收集、整理和描述的統(tǒng)計學方法內(nèi)容搜集數(shù)據(jù)整理數(shù)據(jù)展示數(shù)據(jù)描述性分析目的描述數(shù)據(jù)特征找出數(shù)據(jù)的基本規(guī)律02550Q1Q2Q3Q4¥x=30s2=105yyyy-M-推斷統(tǒng)計

(inferentialstatistics)研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計學方法內(nèi)容參數(shù)估計假設(shè)檢驗目的對總體特征作出推斷樣本總體yyyy-M-統(tǒng)計學研究什么?物理學研究的是如熱、光、電、運動規(guī)律那樣的自然現(xiàn)象化學家測定物質(zhì)的組成及化學元素之間的交互作用生物學家研究植物和動物的生活數(shù)學家則在給出的假定之下沉溺于他自己推演各種命題的游戲這些學科中的每一門都有它自己的問題,而且有解決這些問題的各自的方法,各學科為此而成為一門單獨的學科yyyy-M-統(tǒng)計學研究什么?統(tǒng)計學沒有任何固定的對象,是一門獨特的學問統(tǒng)計學研究的是來自各領(lǐng)域的數(shù)據(jù),由解決其他領(lǐng)域內(nèi)的問題而存在并興旺發(fā)達。按薩維奇(L.J.Savage)的說法:統(tǒng)計學基本上是寄生的??垦芯科渌I(lǐng)域內(nèi)的工作而生存。這不是對統(tǒng)計學的輕視,這是因為對很多寄主來說,如果沒有寄生蟲就會死。對有的動物來說,如果沒有寄生蟲就不能消化它們的食物。因此,人類奮斗的很多領(lǐng)域,如果沒有統(tǒng)計學,雖然不會死亡,但一定會變得很弱yyyy-M-統(tǒng)計學研究什么?統(tǒng)計學是一門科學統(tǒng)計學提供一套方法和技術(shù),這些方法和技術(shù)不能用于固定模式,使用者在給定的情況下必須根據(jù)所掌握的專門知識選擇使用的方法,而且,如果需要還要進行必要的修正統(tǒng)計方法是通用的數(shù)據(jù)分析方法。這些方法不是為某個特定的問題領(lǐng)域而構(gòu)造的統(tǒng)計學是一種技術(shù)如同工業(yè)生產(chǎn)過程中的質(zhì)量控制程序一樣,統(tǒng)計方法是為保證產(chǎn)品達到所希望的質(zhì)量和保持其穩(wěn)定性的的管理系統(tǒng)中建立起來的統(tǒng)計方法也能用于控制、減少和考察不確定性統(tǒng)計學是一門藝術(shù)作為歸納推理的統(tǒng)計方法不是沒有爭議的。不同的人對同一組數(shù)據(jù)的分析可能得到不同的結(jié)論一本印度小說《紅色城堡》(TheRedFort)說:使用數(shù)字講故事取決于統(tǒng)計學家的技巧和他們的經(jīng)驗。在這個意義下,統(tǒng)計學也是一門藝術(shù)yyyy-M-統(tǒng)計是一種思維方式統(tǒng)計思維總有一天會像讀與寫一樣成為一個有效率公民的必備能力(H.G.Wells)在終極的分析中,一切知識都是歷史;在抽象的意義下,一切科學都是數(shù)學;在理性的基礎(chǔ)上,所有的判斷都是統(tǒng)計學(C.R.Rao)yyyy-M-統(tǒng)計方法體系yyyy-M-1.1.2統(tǒng)計的應用1.1統(tǒng)計及其應用領(lǐng)域yyyy-M-統(tǒng)計的應用領(lǐng)域【例1-1】用統(tǒng)計識別作者

1787—1788年,三位作者AlexanderHamilton,JohnJay和JamesMadison為了說服紐約人認可憲法,匿名發(fā)表了著名的85篇論文。這些論文中的大多數(shù)作者已經(jīng)得到了識別,但是,其中的12篇論文的作者身份引起了爭議通過對不同單詞的頻數(shù)進行統(tǒng)計分析,得出的結(jié)論是,JamesMadison最有可能是這12篇論文的作者?,F(xiàn)在,對于這些存在爭議的論文,認為JamesMadison是原創(chuàng)作者的說法占主導地位,而且?guī)缀蹩梢钥隙ㄟ@種說法是正確yyyy-M-統(tǒng)計的應用領(lǐng)域【例1-2】用簡單的描述統(tǒng)計量得到一個重要發(fā)現(xiàn)

費舍(R.A.Fisher)在1952的一篇文章中舉了一個例子,說明如何由基本的描述統(tǒng)計量的知識引出一個重要的發(fā)現(xiàn)。20世紀早期,哥本哈根卡爾堡實驗室的施密特(J.Schmidt)發(fā)現(xiàn)不同地區(qū)所捕獲的同種魚類的脊椎骨和鰓線的數(shù)量有很大不同;甚至在同一海灣內(nèi)不同地點所捕獲的同種魚類,也發(fā)現(xiàn)這樣的傾向然而,鰻魚的脊椎骨的數(shù)量變化不大。施密特從歐洲各地、冰島、亞速爾群島以及尼羅河等幾乎分離的海域里所捕獲的鰻魚的樣本中,計算發(fā)現(xiàn)了幾乎一樣的均值和標準偏差值。由此,施密特推斷所有各個不同海域內(nèi)的鰻魚是由海洋中某公共場所繁殖的。后來名為“戴納(Dana)”的科學考察船在一次遠征中發(fā)現(xiàn)了這個場所yyyy-M-統(tǒng)計的應用領(lǐng)域【例1-3】挑戰(zhàn)者號航天飛機失事預測

1986年1月28日清晨,載有7名宇航員的挑戰(zhàn)者號進入發(fā)射狀態(tài)。就在發(fā)射前,有冰片牢附在機殼上。幾分鐘后,正當電視新聞報道它已進入軌道時,航天飛機在毀滅性的爆炸聲中化成碎片,機上的宇航員片骨未存推動航天飛機進入太空的兩個固體燃料發(fā)動機是由Thiokol公司制造的。失事前一天晚上,Thiokol公司的經(jīng)理們和國家航空航天局就如期發(fā)射還是推遲發(fā)射產(chǎn)生了爭執(zhí)。天氣預報發(fā)射時的氣溫為310F。爭執(zhí)的結(jié)果采納了Thiokol公司經(jīng)理們的建:按計劃發(fā)射航天飛機。因為他們覺得沒有確鑿證據(jù)表明低溫會對固體燃料火箭推進器的性能產(chǎn)生影響yyyy-M-統(tǒng)計的應用領(lǐng)域【例1-3】挑戰(zhàn)者號航天飛機失事預測在此次失事前,該航天飛機24次發(fā)射成功。將航天飛機送入太空的兩個固體燃料推進器由6只O型項圈密封。在幾次飛行中,曾發(fā)生過O型項圈被腐蝕或氣體泄漏事故。這樣的事故是及其危險的。前24次發(fā)射中有一次發(fā)動機遭到了永久性破壞。根據(jù)23次飛行中發(fā)生腐蝕或泄漏事故的次數(shù)(因變量)及火箭連接處的溫度(自變量)數(shù)據(jù),進行線性回歸得到的回歸方程為當溫度為310F時,O型項圈發(fā)生事故的預計次數(shù)為2.225次。結(jié)果顯示連接處的溫度與O型項圈事故之間有一定的相關(guān)性。如果當時那些經(jīng)理們看到了回歸的預測結(jié)果,也許推遲發(fā)射會成為其謹慎的選擇yyyy-M-統(tǒng)計的誤用與濫用大約在一個世紀以前,政治家BenjaminDisraeli曾有一個著名的論斷:“有三類謊言:謊言、糟透的謊言和統(tǒng)計”。他還說:“圖并沒有說謊,是說謊者在畫圖”歷史學家AndrewLang說,一些人使用統(tǒng)計“就像喝醉酒的人使用街燈柱—支撐的功能多于照明”統(tǒng)計濫用不好的樣本過小的樣本誤導性圖表局部描述故意曲解yyyy-M-統(tǒng)計的誤用與濫用統(tǒng)計應用上的兩個極端不用或幾乎不用統(tǒng)計簡單問題復雜化在統(tǒng)計應用中,這兩個極端都是不可取的簡單的方法不一定沒用,復雜的方法也不一定有用。正如有的學者所說的,最簡單的模型往往是最有用的統(tǒng)計應該恰當?shù)貞玫剿芷鹱饔玫牡胤健2荒馨呀y(tǒng)計神秘化,更不能歪曲統(tǒng)計,把統(tǒng)計作為掩蓋實事的陷阱yyyy-M-1.2怎樣獲得統(tǒng)計數(shù)據(jù)

1.2.1變量與數(shù)據(jù)

1.2.2數(shù)據(jù)的來源第1章統(tǒng)計和統(tǒng)計數(shù)據(jù)yyyy-M-1.2.1變量與數(shù)據(jù)1.2怎樣獲得統(tǒng)計數(shù)據(jù)yyyy-M-變量與數(shù)據(jù)變量(variable)從一次觀察到下一次觀察會出現(xiàn)不同結(jié)果的某種特征觀察一個企業(yè)的銷售額,這個月和上個月有所不同;觀察股票市場上漲股票的家數(shù),今天與昨天數(shù)量不一樣;觀察一個班學生的生活費支出,一個人和另一個人不一樣;投擲一枚骰子觀察其出現(xiàn)的點數(shù),這次投擲的結(jié)果和下一次也不一樣“企業(yè)銷售額”、“上漲股票的家數(shù)”、“生活費支出”、“投擲一枚骰子出現(xiàn)的點數(shù)”等就是變量數(shù)據(jù)(data)觀察到的變量的結(jié)果yyyy-M-變量與數(shù)據(jù)定量變量(quantitativevariable)或數(shù)值變量(metricvariable)可以用阿拉伯數(shù)據(jù)來記錄其觀察結(jié)果如“企業(yè)銷售額”、“上漲股票的家數(shù)”、“生活費支出”、“投擲一枚骰子出現(xiàn)的點數(shù)”定量變量的觀察結(jié)果稱為定量數(shù)據(jù)或數(shù)值型數(shù)據(jù)(metricdata)分類變量(categoricalvariable)表現(xiàn)為不同的類別如“性別”、“企業(yè)所屬的行業(yè)”、“學生所在的學院”等分類變量的觀察結(jié)果就是分類數(shù)據(jù)(categoricaldata)順序變量(rankvariable)或有序分類變量具有一定順序的類別變量如考試成績按等級,一個人對事物的態(tài)度順序變量的觀察結(jié)果就是順序數(shù)據(jù)或有序分類數(shù)據(jù)(rankdata)分類變量和順序變量統(tǒng)稱為定性變量(qualitativevariable)yyyy-M-1.2.2數(shù)據(jù)的來源1.2怎樣獲得統(tǒng)計數(shù)據(jù)yyyy-M-數(shù)據(jù)的來源尋找二手數(shù)據(jù)抽取樣本總體(population):包含所研究的全部個體(數(shù)據(jù))的集合樣本(sample):從總體中抽取的一部分元素的集合樣本量(samplesize):構(gòu)成樣本的元素的數(shù)目概率抽樣方法yyyy-M-概率抽樣

(probabilitysampling)根據(jù)一個已知的概率來抽取樣本單位,也稱隨機抽樣特點按一定的概率以隨機原則抽取樣本抽取樣本時使每個單位都有一定的機會被抽中每個單位被抽中的概率是已知的,或是可以計算出來的當用樣本對總體目標量進行估計時,要考慮到每個樣本單位被抽中的概率yyyy-M-簡單隨機抽樣

(simplerandomsampling)從總體N個單位(元素)中隨機地抽取n個單位作為樣本,使得總體中每一個元素都有相同的機會(概率)被抽中

抽取元素的具體方法有重復抽樣和不重復抽樣特點簡單、直觀,在抽樣框完整時,可直接從中抽取樣本用樣本統(tǒng)計量對目標量進行估計比較方便局限性當N很大時,不易構(gòu)造抽樣框抽出的單位很分散,給實施調(diào)查增加了困難沒有利用其他輔助信息以提高估計的效率yyyy-M-簡單隨機樣本

(simplerandomsample)由簡單隨機抽樣形成的樣本從總體N個單位中隨機地抽取n個單位作為樣本,使得每一個容量為n樣本都有相同的機會(概率)被抽中參數(shù)估計和假設(shè)檢驗所依據(jù)的主要是簡單隨機樣本yyyy-M-分層抽樣

(stratifiedsampling)將總體單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本優(yōu)點保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而提高估計的精度組織實施調(diào)查方便既可以對總體參數(shù)進行估計,也可以對各層的目標量進行估計yyyy-M-系統(tǒng)抽樣

(systematicsampling)將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內(nèi)隨機地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本單位先從數(shù)字1到k之間隨機抽取一個數(shù)字r作為初始單位,以后依次取r+k,r+2k…等單位優(yōu)點:操作簡便,可提高估計的精度缺點:對估計量方差的估計比較困難yyyy-M-整群抽樣

(clustersampling)將總體中若干個單位合并為組(群),抽樣時直接抽取群,然后對中選群中的所有單位全部實施調(diào)查特點抽樣時只需群的抽樣框,可簡化工作量調(diào)查的地點相對集中,節(jié)省調(diào)查費用,方便調(diào)查的實施缺點是估計的精度較差yyyy-M-用計算機生成隨機數(shù)和

簡單隨機樣本軟件應用yyyy-M-用Excel生成個指定數(shù)之間的隨機數(shù)生成位于兩個指定數(shù)之間的一個隨機數(shù)(RANDBETWEEN函數(shù))第1步:在Excel表格界面中,直接點擊【fx】命令第2步:在復選框“函數(shù)分類”中點擊【全部】選項,并在“函數(shù)名”中點擊【RANDBETWEEN】選項,然后【確定】第3步:在【Bottom】輸入要返回的最小整數(shù)(本例為1)

在【Top】輸入要返回的最大整數(shù)(本例為100)

單擊【確定】即可得到一個隨機數(shù)(要得到多個隨機數(shù)向下復制即可)生成兩個指定數(shù)之間的隨機數(shù)Excelyyyy-M-用Excel0~1之間均勻分布的隨機數(shù)生成位于0~1之間的均勻分布隨機數(shù)

(RAND函數(shù))第1步:在Excel表格界面中,直接點擊【fx】命令第2步:在“函數(shù)分類”中點擊【全部】選項,并在“函數(shù)名”中點擊

【RAND】選項,然后【確定】,單擊【確定】即可得到一個隨機數(shù)(要得到多個隨機數(shù)向下復制即可)若要生成a與b之間的隨機實數(shù),請使用

RAND()*(b-a)+a若要對結(jié)果四舍五入為整數(shù),請使用ROUND(RAND()*(b-a)+a,0)如果要使用函數(shù)RAND生成一隨機數(shù),并且使之不隨單元格計算而改變,可以在編輯欄中輸入“=RAND()”,保持編輯狀態(tài),然后按F9,將公式永久性地改為隨機數(shù)

生成均勻分布的隨機數(shù)Excelyyyy-M-用E

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論