統(tǒng)計學(xué)之從數(shù)據(jù)到結(jié)論_第1頁
統(tǒng)計學(xué)之從數(shù)據(jù)到結(jié)論_第2頁
統(tǒng)計學(xué)之從數(shù)據(jù)到結(jié)論_第3頁
統(tǒng)計學(xué)之從數(shù)據(jù)到結(jié)論_第4頁
統(tǒng)計學(xué)之從數(shù)據(jù)到結(jié)論_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計學(xué)之從數(shù)據(jù)到結(jié)論統(tǒng)計學(xué)─從數(shù)據(jù)到結(jié)論第一章一些基本概念§1.1統(tǒng)計是什么?統(tǒng)計是人類思維的一個歸納過程站在一個路口,看到每過去20輛小轎車時,也有100輛自行車通過而且平均每10個轎車載有12個人于是,你認(rèn)為小汽車和自行車在這個路口的運載能力為24:100這是一個典型的統(tǒng)計思維過程§1.1統(tǒng)計是什么?一般來說,統(tǒng)計先從現(xiàn)實世界收集數(shù)據(jù)(信息),如觀測路口的交通然后,根據(jù)數(shù)據(jù)作出判斷,稱為模型模型是從數(shù)據(jù)產(chǎn)生的模型也需要根據(jù)新的信息來改進(jìn)不存在完美的模型模型的最終結(jié)局都是被更能夠說明現(xiàn)實世界的新模型所取代統(tǒng)計學(xué)可以應(yīng)用于幾乎所有的領(lǐng)域:精算,農(nóng)業(yè),動物學(xué),人類學(xué),考古學(xué),審計學(xué),晶體學(xué),人口統(tǒng)計學(xué),牙醫(yī)學(xué),生態(tài)學(xué),經(jīng)濟(jì)計量學(xué),教育學(xué),選舉預(yù)測和策劃,工程,流行病學(xué),金融,水產(chǎn)漁業(yè)研究,遺傳學(xué),地理學(xué),地質(zhì)學(xué),歷史研究,人類遺傳學(xué),水文學(xué),工業(yè),法律,語言學(xué),文學(xué),勞動力計劃,管理科學(xué),市場營銷學(xué),醫(yī)學(xué)診斷,氣象學(xué),軍事科學(xué),核材料安全管理,眼科學(xué),制藥學(xué),物理學(xué),政治學(xué),心理學(xué),心理物理學(xué),質(zhì)量控制,宗教研究,社會學(xué),調(diào)查抽樣,分類學(xué),氣象改善,博彩等?!?.1統(tǒng)計是什么?一句話,統(tǒng)計學(xué)(statistics)是用以收集數(shù)據(jù),分析數(shù)據(jù)和由數(shù)據(jù)得出結(jié)論的一組概念、原則和方法。以歸納為主要思維方式的統(tǒng)計不是以演繹為主的數(shù)學(xué)統(tǒng)計可應(yīng)用于各個不同學(xué)科,在有些學(xué)科已經(jīng)有其特有的方法和特點;如生物統(tǒng)計(biostatistics)、經(jīng)濟(jì)計量學(xué)(econometrics)以及目前很熱門的生物信息(bioinformation)和數(shù)據(jù)挖掘(DataMining)的方法主體都是統(tǒng)計?!?.2現(xiàn)實中的隨機(jī)性和規(guī)律性,概率和機(jī)會從中學(xué)起,我們就知道物理學(xué)的許多定律,例如v=v0+at;F=ma等等但是在許多領(lǐng)域,很難用如此確定的公式或論述來描述一些現(xiàn)象?!?.2現(xiàn)實中的隨機(jī)性和規(guī)律性,概率和機(jī)會一些現(xiàn)象既有規(guī)律性又有隨機(jī)性(randomness)肺癌患者中(主動或被動)吸煙的比例較大,這體現(xiàn)了規(guī)律性而絕非每個吸煙的人都會患肺癌,這體現(xiàn)了隨機(jī)性§1.2現(xiàn)實中的隨機(jī)性和規(guī)律性,概率和機(jī)會再如,一般來說,白種人身材比黃種人要高些,這就是規(guī)律性但對于具體的一個白人和一個黃種人,就很難說誰高誰矮了,這體現(xiàn)隨機(jī)性§1.2現(xiàn)實中的隨機(jī)性和規(guī)律性,概率和機(jī)會什么是概率(probability)?新聞中最常見的是“降水概率”從某種意義說來,概率描述了某件事情發(fā)生的機(jī)會。顯然,這種概率不可能超過百分之百,也不可能少于百分之零。概率是在0和1之間(也可能是0或1)的一個數(shù),描述某事件發(fā)生的機(jī)會。§1.2現(xiàn)實中的隨機(jī)性和規(guī)律性,概率和機(jī)會有些概率是無法精確推斷的。比如你明天感冒的概率有些概率是可以知道的。比如在打橋牌時得到一手黑桃的概率為1/635013559600,大約為1.574770×10-12(條件是洗牌均勻,沒有作弊)。實際上得任何特定的一手牌的概率都是一樣的,對嗎?§1.3變量和數(shù)據(jù)一節(jié)火車車廂有多少坐位是一個固定的數(shù)目,稱為常數(shù)(constant)或者常量。但是,開車后,坐在這節(jié)車廂的旅客有多少就沒準(zhǔn)了。這有隨機(jī)性。該車廂的乘客數(shù)為變量(variable)?!?.3變量和數(shù)據(jù)一個學(xué)校的注冊在校男女生比例是固定的,為常量但是,該校任意一群學(xué)生的男女生比例就不一定和全校的比例一樣了,它為變量(variable)?!?.3變量和數(shù)據(jù)當(dāng)變量按照隨機(jī)規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)量變量(quantitativevariable);因為是隨機(jī)的,也稱為隨機(jī)變量(randomvariable)。如身高體重,購買某商品的人數(shù)等等§1.3變量和數(shù)據(jù)象性別,觀點之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞?qualitativevariable,或categoricalvariable)。這些定性變量也可以由定量變量來描述,如男女生的數(shù)目,持有某觀點的人數(shù)比例等等。§1.3變量和數(shù)據(jù)定性變量只有用數(shù)量來描述時,才有可能建立數(shù)學(xué)模型,并使用計算機(jī)來分析。數(shù)據(jù)中它們通常用啞元(dummyvariable)代表,比如性別用0、1代表,三種收入用0、1、2代表(或用字母代表)§1.3變量和數(shù)據(jù)有了變量,何謂數(shù)據(jù)?不同機(jī)構(gòu)調(diào)查所得到的北京收入萬元以上市民的比例都不一樣,這是變量而這些調(diào)查產(chǎn)生一些數(shù)目,這些數(shù)目就是數(shù)據(jù)(data)數(shù)據(jù)是關(guān)于變量的觀測值?!?.3變量和數(shù)據(jù)通過數(shù)據(jù)可驗證有關(guān)的理論或假定。比如通過抽樣調(diào)查驗證美國選民對共和黨候選人的支持率是否超過50%通過抽樣,可以檢驗?zāi)撑a(chǎn)品是否合格等等§1.4變量之間的關(guān)系現(xiàn)實世界緊密聯(lián)系的人們想知道投資方式和經(jīng)濟(jì)效益之間的關(guān)系、旅客人數(shù)和經(jīng)濟(jì)發(fā)展之間的關(guān)系等等不討論變量之間的關(guān)系,就無從談起任何有深度的應(yīng)用,統(tǒng)計的基本概念就僅僅是擺設(shè)而已。§1.4.1定量變量間的關(guān)系例1.1.廣告投入和銷售之間的關(guān)系。下表(數(shù)據(jù)ads.txt)顯示了某企業(yè)的廣告投入和銷售額之間的關(guān)系(萬元)。橫坐標(biāo)代表廣告投入,而縱坐標(biāo)代表銷售收入??吹贸鲇泻畏N關(guān)系嗎?§1.4.1定量變量間的關(guān)系能否從該數(shù)據(jù)回答下面問題:這兩個變量是否有關(guān)系?如果有,它們的關(guān)系是否顯著?這些關(guān)系是什么關(guān)系,能否用數(shù)學(xué)模型來描述?這個關(guān)系是否帶有普遍性?這個關(guān)系是不是因果關(guān)系?§1.4.1定量變量間的關(guān)系關(guān)于因果關(guān)系在可控制的試驗中,較容易找到因果關(guān)系;比如治療方式和療效的關(guān)系等但是,一般來說,變量之間有關(guān)系這個事實并不意味著一定存在明確的因果關(guān)系?!?.4.1定量變量間的關(guān)系比如,北京GDP在一年中是快速增長的,而一個剛出生的巴拿馬嬰兒在這一年中的體重也是快速增長的如果畫出圖來,它們有類似線性的關(guān)系但它們顯然沒有因果關(guān)系§1.4.1定量變量間的關(guān)系只要有關(guān)系,即使不是因果關(guān)系也不妨礙人們利用這種關(guān)系來進(jìn)行推斷。比如利用公雞打鳴來預(yù)報太陽升起;雖然公雞打鳴絕對不是日出的原因(雖然打鳴發(fā)生在先)§1.4.1定量變量間的關(guān)系簡單的辦法(諸如畫圖)可以得到一些信息,但不一定能夠給出滿意的答案需要更多的工具和手段來進(jìn)行數(shù)值分析得到更加嚴(yán)格和精確的解答因此,需要繼續(xù)我們的課程§1.4.2定性變量間的關(guān)系例1.2.下面是對123人進(jìn)行關(guān)于某項政策調(diào)查所得結(jié)果的一個簡單的三維表,它顯示了人們的收入和性別對該項政策的觀點。(table7.txt)。計算機(jī)軟件所應(yīng)用的數(shù)據(jù)形式§1.4.2定性變量間的關(guān)系從這個數(shù)據(jù),希望可以看出收入、性別對觀點是否有影響及如何影響如果要得到更加精確的結(jié)論,就要進(jìn)行進(jìn)一步的分析和計算這是后面列聯(lián)表分析或多項分布對數(shù)線性模型的內(nèi)容§1.4.3定性和定量變量間的混和關(guān)系有些數(shù)據(jù)不是僅有定性變量或僅有定量變量需要知道包括定性和定量兩種變量的一些變量之間的關(guān)系下面數(shù)據(jù)就包含兩種變量Asthma.txt數(shù)據(jù)§1.4.3定性和定量變量間的混和關(guān)系該數(shù)據(jù)有2個定性變量(性別,污染程度)、一個定量變量(年齡)以及發(fā)生哮喘的人數(shù)我們希望知道哮喘和這三個變量之間的關(guān)系這將在Poisson對數(shù)線性模型中討論§1.5統(tǒng)計、計算機(jī)與統(tǒng)計軟件現(xiàn)代生活越來越離不開計算機(jī)了最初的計算機(jī)僅僅是為科學(xué)計算而設(shè)計和建造的。統(tǒng)計是大型計算機(jī)的最早用戶,現(xiàn)在仍然是數(shù)值計算的主要用戶§1.5統(tǒng)計、計算機(jī)與統(tǒng)計軟件計算機(jī)的使用,從計算機(jī)語言到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論