統(tǒng)計學─從數據到結論01一些基本概念課件_第1頁
統(tǒng)計學─從數據到結論01一些基本概念課件_第2頁
統(tǒng)計學─從數據到結論01一些基本概念課件_第3頁
統(tǒng)計學─從數據到結論01一些基本概念課件_第4頁
統(tǒng)計學─從數據到結論01一些基本概念課件_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統(tǒng)計學─從數據到結論吳喜之編著中國統(tǒng)計出版社參考書目:1、《商務與經濟統(tǒng)計精要》(原書第2版)戴維R·安德森等著,機械工業(yè)出版社,2005。2、《統(tǒng)計分析與SPSS的應用》,薛薇編著,中國人民大學出版社,2001。3、《多元統(tǒng)計分析》何曉群編著,中國人民大學出版社,2004。4、《統(tǒng)計學教學案例》,王吉利等主編,中國統(tǒng)計出版社,2004。第一章一些基本概念什么是統(tǒng)計呢?報表?數字?你覺得你們需要統(tǒng)計嗎?為什么?§1.1統(tǒng)計是什么?統(tǒng)計是人類思維的一個歸納過程站在一個路口,看到每過去20輛小轎車時,也有100輛自行車通過而且平均每10個轎車載有12個人于是,你認為小汽車和自行車在這個路口的運載能力為24:100這是一個典型的統(tǒng)計思維過程統(tǒng)計學可以應用于幾乎所有的領域:精算,農業(yè),動物學,人類學,考古學,審計學,晶體學,人口統(tǒng)計學,牙醫(yī)學,生態(tài)學,經濟計量學,教育學,選舉預測和策劃,工程,流行病學,金融,水產漁業(yè)研究,遺傳學,地理學,地質學,歷史研究,人類遺傳學,水文學,工業(yè),法律,語言學,文學,勞動力計劃,管理科學,市場營銷學,醫(yī)學診斷,氣象學,軍事科學,核材料安全管理,眼科學,制藥學,物理學,政治學,心理學,心理物理學,質量控制,宗教研究,社會學,調查抽樣,分類學,氣象改善,博彩等?!?.1統(tǒng)計是什么?一句話,統(tǒng)計學(statistics)是用以收集數據,分析數據和由數據得出結論的一組概念、原則和方法。你想過下面的問題嗎?當你買了一臺電視時,被告知三年內可以免費保修。你想過廠家憑什么這樣說嗎?說多了,廠家會損失;說少了,會失去競爭,也是損失。到底這個保修期是怎樣決定的呢?大學排名是一個非常敏感的問題。不同的機構得出不同的結果;各自都說自己是客觀、公正和有道理的。到底如何理解這些不同的結果呢?你想過下面的問題嗎?任何公司都有一個信用問題。當然,在這些公司試圖得到貸款時并沒有不還貸的不良記錄。如何根據它們的財務和商業(yè)資料來判斷一個公司的信用等級呢?我國東部和西部的概念是一個比較籠統(tǒng)的概念。如何能夠根據需要,選擇一些指標來把各省,或各市縣甚至村進行分類呢?疾病傳播時,如何能夠通過感染者入院前后的各種因素得到一個疾病傳染方式的模型呢?你想過下面的問題嗎?如何通過大眾調查來得到性別、年齡、職業(yè)、收入等各種因素與公眾對某項事物(比如商品或政策)的態(tài)度的關系呢?一個從來沒有研究過紅樓夢的統(tǒng)計學家如何根據比較寫作習慣得出紅樓夢從哪一段開始就不是曹雪芹的手筆了呢?如何才能夠客觀地得到某個電視節(jié)目的收視率,以確定廣告的價格是否合理呢?你如何理解下面說法?“某國的綜合競爭力排名第43位”“該國家屬于發(fā)展中國家”“該藥品療效99%”“該國貧富差距大”“這個縣收入比那個縣高”“該結果統(tǒng)計顯著”“消費價格指數為120%”“他的血壓已經正常了”可以想象出的統(tǒng)計應用例子如何確定觀眾/聽眾是否忠實于某節(jié)目(專欄)如何對電視節(jié)目排名次什么因素影響一個節(jié)目的收視率如何按照各種不同環(huán)境估計某商店的顧客人數如何按照各種指標評價雇員如何把地區(qū)(市縣鎮(zhèn)等)按照各種指標分類如何確定紅樓夢第幾回不是曹雪芹所寫如何確定一個產品的可靠性如何進行偏差較少的民意調查如何根據一些財務數據發(fā)現漏稅的嫌疑單位?關于美國選舉的兩個例子(1)誰會在1936選舉中獲勝?AlfLondon還是

F.D.R.(羅斯福)?LiteraryDigest

(文摘)送出一千萬份問卷(返回二百四十萬份)后,預測London會贏.而Gallop(蓋洛普)只問了5000人說

Roosevelt(羅斯福)會贏.最后羅斯福和蓋洛普都贏了.文摘倒閉了.誰會在1948選舉中獲勝?ThomasDewey還是HarryTruman(杜魯門)?Crossley,Gallop(蓋洛普),Roper所有都預測Dewey會贏(每個機構用了5000個問卷).最后(包括蓋洛普)他們都輸了,而杜魯門贏了.關于美國選舉的兩個例子(2)統(tǒng)計的一些做法統(tǒng)計可以指導我們收集數據.當擁有來自一些變量(指標)的數據或記錄,但缺乏模型來描述這些變量之間關系的情況下,可用統(tǒng)計方法建立模型.在有了一定的模型時,統(tǒng)計可以確定手中數據是否令人信服地支持某種論點.模型也用來對未來進行預測.統(tǒng)計直觀的圖表展示,可以使各個領域的專家容易理解中國統(tǒng)計的獨特歷史環(huán)境中國統(tǒng)計過去分為“統(tǒng)計學”(文科的列寧主義統(tǒng)計)和“數理統(tǒng)計”(數學類的國際意義上的統(tǒng)計)國內一些學者把統(tǒng)計稱為是經濟學科的一部分,則是中國特有的與前蘇聯關聯的國情所造成;讀者可以從《蘇聯大百科全書》的統(tǒng)計學條款得到答案。但前蘇聯的經濟學中的統(tǒng)計學概念是其意識形態(tài)和計劃經濟體系的產物,其模型多屬于小學數學水平,很難稱為數學模型。這與現代經濟學所需要的大量的統(tǒng)計和數學形成鮮明對照.前蘇聯式的“統(tǒng)計學”不是目前國際流行意義上的統(tǒng)計學或統(tǒng)計學的分支。統(tǒng)計的內容和需要的知識數學的幾乎所有內容(不一定事先知道需要什么)用計算機做統(tǒng)計計算其他(對象)領域的知識計算機的重要性由于統(tǒng)計和數據打交道,沒有計算機的發(fā)展統(tǒng)計就沒有前途.計算機和統(tǒng)計的發(fā)展相輔相成§1.2現實中的隨機性和規(guī)律性從中學起,我們就知道自然科學的許多定律,例如物理中的牛頓三定律,物質不滅定律以及化學中的各種定律等等。但是在許多領域,很難用如此確定的公式或論述來描述一些現象。比如,人的壽命是很難預先確定的。一個吸煙、喝酒、不鍛煉、而且一口長葷的人可能比一個很少得病、生活習慣良好的人活得長。因此,可以說,活得長短是有一定隨機性的(randomness)。這種隨機性可能和人的經歷、基因、習慣等無數說不清的因素都有關系。概率和機會你可能經常聽到概率(probability)這個名詞。例如在天氣預報中會提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,從某種意義說來,概率描述了某件事情發(fā)生的機會。顯然,這種概率不可能超過百分之百,也不可能少于百分之零。換言之,概率是在0和1之間的一個數,說明某事件發(fā)生的機會有多大。有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八。其實你想說的是你很可能去,但又沒有完全肯定。實際上,到了周末,你或者去,或者不去;不可能有分身術把百分之八十的你放到公園,而其余的放在別處。有些概率是可以估計的比如擲骰子。只要沒有人在骰子上做手腳,你得到6點的概率應該是六分之一。得到其他點的概率也是一樣。得到6的概率或者機會是可以知道的,但擲骰子的結果還只可能是六個數目之一。這個已知的規(guī)律就反映了規(guī)律性,而得到哪個結果則反映了隨機性。如果你擲1000次骰子,那么,大約有六分之一的可能會得到6;這也是隨機性呈現有規(guī)律的一個體現?!?.3變量和數據一節(jié)火車車廂有多少坐位是一個固定的數目,稱為常數(constant)或者常量。但是,開車后,坐在這節(jié)車廂的旅客有多少就沒準了。這有隨機性。該車廂的乘客數為變量(variable)?!?.3變量和數據一個學校的注冊在校男女生比例是固定的,為常量但是,該校任意一群學生的男女生比例就不一定和全校的比例一樣了,它為變量(variable)?!?.3變量和數據當變量按照隨機規(guī)律所取的值是數量時該變量稱為定量變量或數量變量(quantitativevariable);因為是隨機的,也稱為隨機變量(randomvariable)。如身高體重,購買某商品的人數等等§1.3變量和數據象性別,觀點之類的取非數量值的變量就稱為定性變量或屬性變量或分類變量(qualitativevariable,或categoricalvariable)。這些定性變量也可以由定量變量來描述,如男女生的數目,持有某觀點的人數比例等等。§1.3變量和數據定性變量只有用數量來描述時,才有可能建立數學模型,并使用計算機來分析。數據中它們通常用啞元(dummyvariable)代表,比如性別用0、1代表,三種收入用0、1、2代表(或用字母代表)§1.3變量和數據有了變量,何謂數據?不同機構調查所得到的北京收入萬元以上市民的比例都不一樣,這是變量而這些調查產生一些數目,這些數目就是數據(data)數據是關于變量的觀測值?!?.3變量和數據通過數據可驗證有關的理論或假定。比如通過抽樣調查驗證美國選民對共和黨候選人的支持率是否超過50%通過抽樣,可以檢驗某批產品是否合格等等§1.4變量之間的關系現實世界緊密聯系的人們想知道投資方式和經濟效益之間的關系、旅客人數和經濟發(fā)展之間的關系等等不討論變量之間的關系,就無從談起任何有深度的應用,統(tǒng)計的基本概念就僅僅是擺設而已?!?.4.1定量變量間的關系例1.1.廣告投入和銷售之間的關系。下表(數據ads.txt)顯示了某企業(yè)的廣告投入和銷售額之間的關系(萬元)。橫坐標代表廣告投入,而縱坐標代表銷售收入??吹贸鲇泻畏N關系嗎?§1.4.1定量變量間的關系能否從該數據回答下面問題:這兩個變量是否有關系?如果有,它們的關系是否顯著?這些關系是什么關系,能否用數學模型來描述?這個關系是否帶有普遍性?這個關系是不是因果關系?§1.4.1定量變量間的關系關于因果關系在可控制的試驗中,較容易找到因果關系;比如治療方式和療效的關系等但是,一般來說,變量之間有關系這個事實并不意味著一定存在明確的因果關系?!?.4.1定量變量間的關系比如,北京GDP在一年中是快速增長的,而一個剛出生的巴拿馬嬰兒在這一年中的體重也是快速增長的如果畫出圖來,它們有類似線性的關系但它們顯然沒有因果關系§1.4.1定量變量間的關系只要有關系,即使不是因果關系也不妨礙人們利用這種關系來進行推斷。比如利用公雞打鳴來預報太陽升起;雖然公雞打鳴絕對不是日出的原因(雖然打鳴發(fā)生在先)§1.4.1定量變量間的關系簡單的辦法(諸如畫圖)可以得到一些信息,但不一定能夠給出滿意的答案需要更多的工具和手段來進行數值分析得到更加嚴格和精確的解答因此,需要繼續(xù)我們的課程§1.4.2定性變量間的關系例1.2.下面是對123人進行關于某項政策調查所得結果的一個簡單的三維表,它顯示了人們的收入和性別對該項政策的觀點。(table7.txt)。計算機軟件所應用的數據形式§1.4.2定性變量間的關系從這個數據,希望可以看出收入、性別對觀點是否有影響及如何影響如果要得到更加精確的結論,就要進行進一步的分析和計算這是后面列聯表分析或多項分布對數線性模型的內容§1.4.3定性和定量變量間的混和關系有些數據不是僅有定性變量或僅有定量變量需要知道包括定性和定量兩種變量的一些變量之間的關系下面數據就包含兩種變量Asthma.txt數據§1.4.3定性和定量變量間的混和關系該數據有2個定性變量(性別,污染程度)、一個定量變量(年齡)以及發(fā)生哮喘的人數我們希望知道哮喘和這三個變量之間的關系這將在Poisson對數線性模型中討論§1.5統(tǒng)計、計算機與統(tǒng)計軟件現代生活越來越離不開計算機了最初的計算機僅僅是為科學計算而設計和建造的。統(tǒng)計是大型計算機的最早用戶,現在仍然是數值計算的主要用戶§1.5統(tǒng)計、計算機與統(tǒng)計軟件計算機的使用,從計算機語言到“傻瓜式”地點擊鼠標輸出結果也從數字輸出到各種可以想象得到的形式。輸入數據,點鼠標做一些選項,就可得到漂亮結果但其中充滿了危險的陷阱§1.5統(tǒng)計、計算機與統(tǒng)計軟件計算機無法識別你的統(tǒng)計方面的錯誤錯誤的方法、錯誤的數據形式都必然輸出錯誤的結果(雖然看上去可能很漂亮),得到大量垃圾另外,統(tǒng)計軟件輸出的結果太多、很難都理解§1.5統(tǒng)計、計算機與統(tǒng)計軟件統(tǒng)計軟件的種類很多。書中僅介紹最常見的幾種。只要學會使用一種“傻瓜式”軟件或編程軟件,使用其他類似的軟件也不會困難;最多看看幫助和說明即可。學習軟件的最好方式是需要時在使用中學。統(tǒng)計軟件SPSS:這是一個很受歡迎的統(tǒng)計軟件;它容易操作,輸出漂亮,功能齊全,價格合理。對于非統(tǒng)計工作者是很好的選擇。Excel:它嚴格說來并不是統(tǒng)計軟件,但作為數據表格軟件,必然有一定統(tǒng)計計算功能。而且凡是有MicrosoftOffice的計算機,基本上都裝有Excel。但要注意,有時在裝Office時沒有裝數據分析的功能,那就必須裝了才行。當然,畫圖功能是都具備的。對于簡單分析,Excel還算方便,但隨著問題的深入,Excel就不那么“傻瓜”,需要使用函數,甚至根本沒有相應的方法了。多數專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。SAS:這是功能非常齊全的軟件;盡管價格不菲,許多公司還是因為其功能眾多和某些美國政府機構認可而使用。盡管現在已經盡量“傻瓜化”,仍然需要一定的訓練才可以進入。對于基本統(tǒng)計課程則不那么方便。統(tǒng)計軟件S-plus:這是統(tǒng)計學家喜愛的軟件。不僅由于其功能齊全,而且由于其強大的編程功能,使得研究人員可以編制自己的程序來實現自己的理論和方法。它也在進行“傻瓜化”以爭取顧客。但仍然以編程方便為顧客所青睞。R軟件:這是一個免費的,由志愿者管理的軟件。其編程語言與S-plus所基于的S語言一樣,很方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論