數(shù)據(jù)、模型與決策課件_第1頁(yè)
數(shù)據(jù)、模型與決策課件_第2頁(yè)
數(shù)據(jù)、模型與決策課件_第3頁(yè)
數(shù)據(jù)、模型與決策課件_第4頁(yè)
數(shù)據(jù)、模型與決策課件_第5頁(yè)
已閱讀5頁(yè),還剩757頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)、模型與決策

Data,ModelsandDecisions數(shù)據(jù)、模型與決策

Data,ModelsandDeci11、主要講授課程:計(jì)量經(jīng)濟(jì)學(xué)、運(yùn)籌學(xué)、經(jīng)濟(jì)預(yù)測(cè)與決策技術(shù)2、主要研究方向:多元統(tǒng)計(jì)半?yún)?shù)統(tǒng)計(jì)中估計(jì)問(wèn)題因果效應(yīng)推斷1、主要講授課程:2本課程的主要內(nèi)容數(shù)據(jù)分析的基本內(nèi)容計(jì)量模型的基本方法預(yù)測(cè)與決策的基本技術(shù)軟件的簡(jiǎn)單應(yīng)用本課程的主要內(nèi)容數(shù)據(jù)分析的基本內(nèi)容3

本課程的特點(diǎn)

數(shù)據(jù)、模型與決策流程結(jié)論決策執(zhí)行結(jié)果管理者信息提供模型反饋數(shù)據(jù)、模型與決策的目的是在科學(xué)、符合邏輯和合理的基礎(chǔ)上制定決策本課程的特點(diǎn)

數(shù)據(jù)、模型與決策流程結(jié)論決策執(zhí)4

特點(diǎn):以數(shù)據(jù)為基礎(chǔ)。將數(shù)據(jù)作為基本的信息來(lái)源,以對(duì)實(shí)際問(wèn)題的了解為基本結(jié)構(gòu),以數(shù)據(jù)對(duì)結(jié)構(gòu)的吻合程度為標(biāo)準(zhǔn)。以模型為手段。以數(shù)學(xué)理論與方法為工具定量研究社會(huì)經(jīng)濟(jì)現(xiàn)象之間的關(guān)系,形成較嚴(yán)密的研究特色,具有較好的可試驗(yàn)性。決策是目的且具有量的特征,定量可以對(duì)問(wèn)題的描述較精確,能對(duì)問(wèn)題的本質(zhì)進(jìn)行深入、廣泛的推斷,為科學(xué)決策提供依據(jù)。是一門(mén)多學(xué)科交叉的科學(xué),數(shù)理統(tǒng)計(jì)學(xué)與運(yùn)籌學(xué)、管理學(xué)是其基礎(chǔ)計(jì)算機(jī)技術(shù)是必不可少的工具。特點(diǎn):以數(shù)據(jù)為基礎(chǔ)。將數(shù)據(jù)作為基本的信息來(lái)源,以對(duì)實(shí)際問(wèn)題5實(shí)際問(wèn)題1:資源分配問(wèn)題潘得羅索工業(yè)公司生產(chǎn)膠合板,根據(jù)厚度和所用木材的質(zhì)量而有所不同。因?yàn)楫a(chǎn)品在一個(gè)競(jìng)爭(zhēng)的環(huán)境中進(jìn)行銷售,產(chǎn)品的價(jià)格由市場(chǎng)決定。所以每個(gè)月管理層面臨的一個(gè)關(guān)鍵問(wèn)題是選擇產(chǎn)品組合以獲取盡可能多的利潤(rùn)。需要考慮當(dāng)前生產(chǎn)產(chǎn)品必須的各種資源的可得數(shù)量。六項(xiàng)最重要的資源為(1)四種類型的原木(根據(jù)原木的質(zhì)量區(qū)分)和(2)生產(chǎn)膠合板的兩項(xiàng)關(guān)鍵作業(yè)的生產(chǎn)能力(模壓作業(yè)和刨光作業(yè))。

你們公司有這樣的經(jīng)歷嗎?實(shí)際問(wèn)題1:資源分配問(wèn)題潘得羅索工業(yè)公司生產(chǎn)膠合板,根據(jù)厚度6實(shí)際問(wèn)題2:銷售量評(píng)估某食品公司生產(chǎn)各種系列的冷飲食品,冷飲食品生產(chǎn)是季節(jié)性,需要提前組織生產(chǎn)。一般是每年四月就要制訂接下去的五個(gè)月生產(chǎn)計(jì)劃,包括生產(chǎn)的冷飲品種、等級(jí)、規(guī)格與原料組合。因此要制訂采購(gòu)計(jì)劃和工廠生產(chǎn)能力計(jì)劃,以滿足市場(chǎng)的需要。如何來(lái)預(yù)測(cè)客戶的需求量呢?

預(yù)測(cè)對(duì)生產(chǎn)計(jì)劃有多重要?實(shí)際問(wèn)題2:銷售量評(píng)估某食品公司生產(chǎn)各種系列的冷飲食品,冷飲7案例1有兄弟姐妹一起成長(zhǎng),不僅增添親情,而且有預(yù)防疾病的好處一項(xiàng)來(lái)自澳大利亞的研究表明:兄弟姐妹在6歲之前的相互傳染病毒可以增強(qiáng)免疫功能,并預(yù)防多發(fā)性硬化癥。塔斯馬尼亞州研究者觀察了136名多發(fā)性硬化癥患者,并與272名健康者進(jìn)行了對(duì)比。有兄弟姐妹的人得病少案例1有兄弟姐妹一起成長(zhǎng),不僅增添親情,而且有預(yù)防疾病的好8科學(xué)家發(fā)現(xiàn):在幼兒時(shí)期與兄弟姐妹有五年以上密切生活的人患多發(fā)性硬化癥的幾率下降了88%,而與兄弟姐妹接觸1-3年的人可降低43%??茖W(xué)家發(fā)現(xiàn):在幼兒時(shí)期與兄弟姐妹有五年以上密切生活的人患多發(fā)9案例2科學(xué)家最近發(fā)現(xiàn)了保持苗條身材的奧妙。如果一個(gè)人平時(shí)閑不住,小動(dòng)作很多,日常消耗的熱量就多,就能保持苗條的身材。美國(guó)梅歐醫(yī)院請(qǐng)來(lái)了20位志愿者,進(jìn)行了為期一年的研究。志愿者分為兩組,一組較瘦,另一組輕度微胖。所有志愿者都穿上一種帶有傳感器的特制內(nèi)衣,內(nèi)衣里的裝置每隔半秒鐘記錄一次人體的姿態(tài)與活動(dòng)“坐立不安”讓人苗條案例2科學(xué)家最近發(fā)現(xiàn)了保持苗條身材的奧妙。如果一個(gè)人平時(shí)閑不10志愿者照常進(jìn)行他們的日常工作與活動(dòng),所有食物由研究人員提供研究人員發(fā)現(xiàn),輕度微胖者更喜歡坐著,而身材苗條組的人閑不住。瘦人組的平均“坐立不安”的時(shí)間比胖人組多2個(gè)小時(shí),相當(dāng)于多消耗350卡熱量如果胖人組也這么不“消停”的話,一年下來(lái)完全可以減輕14-18磅的體重此外,研究人員還發(fā)現(xiàn):一個(gè)人愛(ài)動(dòng)還是喜靜是天生的,與體重?zé)o關(guān)。在研究的第二階段,讓瘦人多吃1000卡志愿者照常進(jìn)行他們的日常工作與活動(dòng),所有食物由研究人員提供11熱量,胖人少吃1000卡熱量,他們的生活習(xí)慣沒(méi)有改變。這項(xiàng)研究為肥胖者提供了新的希望。以上幾個(gè)問(wèn)題說(shuō)明在現(xiàn)實(shí)生活中,不管是進(jìn)行決策還是進(jìn)行研究發(fā)現(xiàn)新結(jié)果,都離不開(kāi)數(shù)據(jù)。熱量,胖人少吃1000卡熱量,他們的生活習(xí)慣沒(méi)有改變。12第一章、數(shù)據(jù)與數(shù)據(jù)展示1.數(shù)據(jù)概述:可分為科學(xué)數(shù)據(jù)、社會(huì)數(shù)據(jù)、商業(yè)數(shù)據(jù)。(依來(lái)源與用途)分類:數(shù)值型與屬性型靜態(tài)數(shù)據(jù)與動(dòng)態(tài)數(shù)據(jù)時(shí)間序列數(shù)據(jù)、截面數(shù)據(jù)、面板數(shù)據(jù)定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)與定比數(shù)據(jù)第一章、數(shù)據(jù)與數(shù)據(jù)展示1.數(shù)據(jù)概述:可分為科學(xué)數(shù)據(jù)、社會(huì)數(shù)據(jù)13(一)數(shù)據(jù)的來(lái)源1、已存在的數(shù)據(jù)。包括存在于組織中的一些個(gè)人信息資料;一些專門(mén)收集與維護(hù)數(shù)據(jù)的公司所擁有的商務(wù)數(shù)據(jù);政府機(jī)構(gòu)2、調(diào)查研究獲得的數(shù)據(jù)??煞譃閷?shí)驗(yàn)性研究與觀察性研究(一)數(shù)據(jù)的來(lái)源1、已存在的數(shù)據(jù)。包括存在于組織中的一些個(gè)人14(二)數(shù)據(jù)收集的道德準(zhǔn)則與行為規(guī)范基本準(zhǔn)則:數(shù)據(jù)的客觀性與可重復(fù)性行為規(guī)范:(1)盡可能收集原始數(shù)據(jù)或第一手?jǐn)?shù)據(jù)(2)引用數(shù)據(jù)時(shí),要辨別是否侵犯知識(shí)產(chǎn)權(quán),合法引用要注明數(shù)據(jù)的來(lái)源。(3)原始數(shù)據(jù)有異常時(shí),要分析異常的原因,不得隨意刪除、篡改數(shù)據(jù)。(4)要說(shuō)明數(shù)據(jù)處理的工具、方法及處理過(guò)程(5)通過(guò)問(wèn)卷調(diào)查的數(shù)據(jù),要說(shuō)明調(diào)查內(nèi)容、調(diào)查表的設(shè)計(jì)等(二)數(shù)據(jù)收集的道德準(zhǔn)則與行為規(guī)范基本準(zhǔn)則:數(shù)據(jù)的客觀性與可15(三)數(shù)據(jù)圖表表示數(shù)據(jù)收集好了,那我們就來(lái)看看從數(shù)據(jù)中能挖到什么寶藏了!3.1類別數(shù)據(jù)的表格表示例3.1交通事故的駕駛因素分析造成交通事故的駕駛因素有判斷失誤、察覺(jué)得晚、駕駛錯(cuò)誤、偏離規(guī)定的行駛路線和酒后或疲勞駕駛等。某地區(qū)交通管理部門(mén)對(duì)某段時(shí)間中的50起交通事故進(jìn)行駕駛因素分析,得到的原始數(shù)據(jù)如下:(三)數(shù)據(jù)圖表表示數(shù)據(jù)收集好了,那我們就來(lái)看看從數(shù)據(jù)中能挖到16駕駛錯(cuò)誤察覺(jué)得晚察覺(jué)得晚判斷失誤駕駛錯(cuò)誤察覺(jué)得晚判斷失誤察覺(jué)得晚判斷失誤察覺(jué)得晚判斷失誤酒后或疲勞駕駛察覺(jué)得晚判斷失誤察覺(jué)得晚駕駛錯(cuò)誤判斷失誤駕駛錯(cuò)誤察覺(jué)得晚判斷失誤酒后或疲勞駕駛察覺(jué)得晚察覺(jué)得晚察覺(jué)得晚察覺(jué)得晚察覺(jué)得晚偏離規(guī)定的行駛路線判斷失誤駕駛錯(cuò)誤察覺(jué)得晚判斷失誤判斷失誤判斷失誤察覺(jué)得晚駕駛錯(cuò)誤察覺(jué)得晚察覺(jué)得晚駕駛錯(cuò)誤察覺(jué)得晚判斷失誤判斷失誤駕駛錯(cuò)誤駕駛錯(cuò)誤判斷失誤駕駛錯(cuò)誤駕駛錯(cuò)誤酒后或疲勞駕駛察覺(jué)得晚察覺(jué)得晚察覺(jué)得晚駕駛錯(cuò)誤察覺(jué)得晚察覺(jué)得晚判斷失誤駕駛錯(cuò)誤察覺(jué)得晚判斷失誤察覺(jué)17從例3.1的數(shù)據(jù),你能看出些什么?也許你看出了“察覺(jué)得晚”、“判斷失誤”等因素比較多,“偏離規(guī)定的行駛路線”、“酒后或疲勞駕駛”等因素比較少。很好!其實(shí),只要借助一些簡(jiǎn)單的圖表,就能對(duì)數(shù)據(jù)加以整理并進(jìn)行初步的定量分析。一些常用的軟件如Excel,幾乎能完美地為你完成這些圖表!從例3.1的數(shù)據(jù),你能看出些什么?18我們從表1很容易看出:哪些因素是比較主要的因素?各因素之間頻率的差異有多大?等等。有時(shí),累積頻率也需要在頻數(shù)頻率分布表中列出。每一類的累積頻率是指,從第一類開(kāi)始累積到該類的頻率總和,即將該類及其之前的所有類的頻率相加。譬如,為了分析駕駛因素中的主要因素,我們可以進(jìn)一步改進(jìn)表1,按照頻數(shù)或頻率從大到小的順序,將各因素排序后列出來(lái),并加上累積頻率一項(xiàng),結(jié)果列于表2中。我們從表1很容易看出:19

表2分析駕駛因素中主要因素的頻數(shù)頻率分布表駕駛因素頻數(shù)頻率(%)累積頻率%察覺(jué)得晚214242判斷失誤142870駕駛錯(cuò)誤112292酒后或疲勞駕駛3698偏離規(guī)定的行駛路線12100合計(jì)50100

用Excel制作定性數(shù)據(jù)頻數(shù)頻率分布表

表2分析駕駛因素中主要因素的頻數(shù)頻率分布表駕駛因素頻數(shù)20累積頻率更常用于有序數(shù)據(jù)的分析中。我們來(lái)看一個(gè)例子。例3.2博客調(diào)查(/blogsurvey/thebloggingiceberg.html)PerseusDevelopment公司在其網(wǎng)頁(yè)上發(fā)布了一項(xiàng)關(guān)于博客的調(diào)查報(bào)告。該調(diào)查根據(jù)8個(gè)博客服務(wù)商提供的博客用戶資料,得到了各年齡段的人創(chuàng)建的博客數(shù),頻數(shù)頻率分布表3顯示了調(diào)查結(jié)果。累積頻率更常用于有序數(shù)據(jù)的分析中。我們來(lái)看一個(gè)例子。21

表3各年齡段的博客創(chuàng)建情況10-1255,5001.351.3513-192,120,00051.4552.8020-291,630,00039.5692.3530-39241,0005.8598.2030-4941,7001.0199.2150-5918,5000.4599.66年齡段創(chuàng)建的博客數(shù)

頻率(%)累積頻率(%)60-6913,9000.34100.00合計(jì)4,120,600100.00表3各年齡段的博客創(chuàng)建情況10-1222數(shù)據(jù)的圖形表示用于數(shù)據(jù)描述的圖形比較多,譬如常用的餅狀圖、柱狀圖、直方圖,以及在統(tǒng)計(jì)學(xué)中常用的莖葉圖、排列圖等等。當(dāng)我們?cè)诳紤]各種圖的時(shí)候,把變量稍加分類會(huì)有幫助。有的變量具備有意義的數(shù)值尺度,如身高幾厘米、考試成績(jī)幾分等;而有的變量只是把個(gè)體分到不同類別而已,如性別、職業(yè)或教育程度。類別變量只記錄所屬類別,譬如,例1的變量就是類別變量,它包含5個(gè)類,個(gè)體的數(shù)據(jù)就是指?jìng)€(gè)體屬于其中某個(gè)類。要表示類別變量的分布,可以用餅圖,也可用柱狀圖或條形圖,等等。以下是例3.1的圖形表示。數(shù)據(jù)的圖形表示23數(shù)據(jù)、模型與決策課件24數(shù)據(jù)、模型與決策課件25柱形圖與條形圖作法

垂直柱狀組成的圖形稱為柱形圖,水平條狀組成的圖形稱為條形圖。例:創(chuàng)建我國(guó)2001-2004年第一、第二和第三產(chǎn)業(yè)產(chǎn)值數(shù)量的變化的柱形圖。年份第一產(chǎn)業(yè)第二產(chǎn)業(yè)第三產(chǎn)業(yè)20011.541184.875003.3153020021.611735.298023.6074820031.692816.127413.9188020042.076817.238724.37206柱形圖與條形圖作法年份第一產(chǎn)業(yè)第二產(chǎn)業(yè)第三產(chǎn)業(yè)20011.526打開(kāi)Excel表,單擊“插入圖標(biāo)”工具圖標(biāo),選擇圖表類型-柱形圖和子圖標(biāo)類型,點(diǎn)擊“下一步”。

打開(kāi)Excel表,單擊“插入圖標(biāo)”工具圖標(biāo),選擇圖表類型-柱272.選擇目標(biāo)數(shù)據(jù),用鼠標(biāo)選定B4:D8,單擊“系列”卡片,點(diǎn)擊“下一步”。2.選擇目標(biāo)數(shù)據(jù),用鼠標(biāo)選定B4:D8,單擊“系列”卡片283.輸入系列名稱,用鼠標(biāo)選定“分類(X)軸標(biāo)志”A5:A8,單擊“下一步”3.輸入系列名稱,用鼠標(biāo)選定“分類(X)軸標(biāo)志”A5:A294.輸入或修改“標(biāo)題”、“坐標(biāo)軸”、“網(wǎng)格線”、“圖例”、“數(shù)據(jù)標(biāo)志”、“數(shù)據(jù)表”等屬性,單擊“下一步”。

4.輸入或修改“標(biāo)題”、“坐標(biāo)軸”、“網(wǎng)格線”、“圖例”、305.選擇圖表位置,單擊“完成”。5.選擇圖表位置,單擊“完成”。316.圖表完成。如果需要,可以雙擊圖表中任何一部分進(jìn)行修改。

圖表區(qū)分類軸分類軸標(biāo)題數(shù)值軸圖例圖表標(biāo)題系列“第一產(chǎn)業(yè)”繪圖區(qū)數(shù)值軸主要網(wǎng)格線數(shù)值軸標(biāo)題系列“第二產(chǎn)業(yè)”系列“第三產(chǎn)業(yè)”6.圖表完成。如果需要,可以雙擊圖表中任何一部分進(jìn)行修改。32直方圖因?yàn)轭悇e變量的可能值相對(duì)來(lái)說(shuō)不多,所以我們可以用餅狀圖或柱狀圖來(lái)呈現(xiàn)類別變量的分布。那么像月收入這種數(shù)量變量要如何呈現(xiàn)呢?因?yàn)閿?shù)量變量的可能值太多,所以不太可能用餅狀圖或柱狀圖來(lái)呈現(xiàn)。若將數(shù)量變量的數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆纸M,再畫(huà)出分布圖,那么將會(huì)比較清楚。這就是本節(jié)中我們將重點(diǎn)介紹的圖形——直方圖(histogram),它是描述數(shù)量變量分布最常用的圖。在平面直角坐標(biāo)系中,用橫軸表示各類觀察值,縱軸表示頻數(shù)或頻率,所繪制的由若干個(gè)長(zhǎng)方形所組成的圖形,就叫做頻數(shù)分布直方圖,簡(jiǎn)稱直方圖。通過(guò)直方圖,我們可以比較快速、直觀地把握整體的分布情況。直方圖因?yàn)轭悇e變量的可能值相對(duì)來(lái)說(shuō)不多,所以我們可以用餅狀圖33直方圖作法步驟:1)確定直方圖的區(qū)間個(gè)數(shù),填入每個(gè)組界值;

2)打開(kāi)“工具”菜單;

3)選擇“數(shù)據(jù)分析”;

4)選擇“直方圖”;

5)在“直方圖”對(duì)話框中填入數(shù)據(jù)用Excel制作定量數(shù)據(jù)頻數(shù)頻率分布表和直方圖見(jiàn)例1.14直方圖作法步驟:用Excel制作定量數(shù)據(jù)頻數(shù)頻率分布表和直方34(四)數(shù)據(jù)集中與分散屬性的度量某兩個(gè)班《DMD》考試成績(jī)?nèi)缦拢?08576786793889075666577748381708364966079868071798987747865978991617977858978728684888466697874778981如何評(píng)價(jià)這兩個(gè)班的學(xué)習(xí)成績(jī)呢?(四)數(shù)據(jù)集中與分散屬性的度量某兩個(gè)班《DMD》考試成績(jī)?nèi)缦?5描述數(shù)據(jù)的分布屬性是描述統(tǒng)計(jì)的主要內(nèi)容,數(shù)據(jù)的分布屬性包括:數(shù)據(jù)的頻數(shù)分布和直方圖數(shù)據(jù)集中屬性的指標(biāo)(平均數(shù)、中位數(shù)、眾數(shù)、比例)數(shù)據(jù)離散屬性的指標(biāo)(極差、方差、標(biāo)準(zhǔn)差)數(shù)據(jù)分布形態(tài)的指標(biāo)(偏度、峰度)數(shù)據(jù)的計(jì)數(shù)和求和數(shù)據(jù)之間的相關(guān)程度的指標(biāo)(相關(guān)系數(shù))Excel中的統(tǒng)計(jì)功能有以下三種實(shí)現(xiàn)方法使用Excel的菜單統(tǒng)計(jì)工具使用Excel統(tǒng)計(jì)函數(shù)使用Excel統(tǒng)計(jì)插件(例如PHStat等)描述數(shù)據(jù)的分布屬性是描述統(tǒng)計(jì)的主要內(nèi)容,數(shù)據(jù)的分布屬性包括:36數(shù)據(jù)集中趨勢(shì)的測(cè)度均值:一組數(shù)據(jù)的平均值。

中位數(shù):數(shù)據(jù)序列中位于中間的值。

眾數(shù):發(fā)生次數(shù)最多的值。數(shù)據(jù)集中趨勢(shì)的測(cè)度37不同年齡段每周上網(wǎng)時(shí)間的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)不同年齡段每周上網(wǎng)時(shí)間的平均值=AVERAGE(B23:B138一組數(shù)據(jù)按大小順序排列以后,處于中間位置的數(shù)據(jù)。對(duì)于奇數(shù)組,中位數(shù)是中間的一個(gè),對(duì)于偶數(shù)組,中位數(shù)是中間的兩個(gè)的平均值。

=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)一組數(shù)據(jù)按大小順序排列以后,處于中間位置的數(shù)據(jù)。對(duì)于奇數(shù)組,39眾數(shù)是一組數(shù)據(jù)出現(xiàn)次數(shù)最多的數(shù)值。如果一組數(shù)據(jù)各不相同,則這組數(shù)據(jù)不存在眾數(shù)?!安煌挲g段上網(wǎng)時(shí)間均值的區(qū)間估計(jì).xls”數(shù)據(jù)的如下:=MODE(B23:B158)=MODE(C23:C279)=MODE(D23:D186)=MODE(E23:E133)=MODE(F23:F86)眾數(shù)是一組數(shù)據(jù)出現(xiàn)次數(shù)最多的數(shù)值。如果一組數(shù)據(jù)各不相同,則這40標(biāo)準(zhǔn)差:反映數(shù)據(jù)的離散程度。方差:是標(biāo)準(zhǔn)差的平方。極差:最大與最小之差。標(biāo)準(zhǔn)誤:通常只針對(duì)抽樣均值而言。標(biāo)準(zhǔn)差:反映數(shù)據(jù)的離散程度。41標(biāo)準(zhǔn)差的重要性切比雪夫定理:任何一組數(shù)據(jù),設(shè)它的平均數(shù)為μ,標(biāo)準(zhǔn)差為σ,這組數(shù)據(jù)落在范圍內(nèi)的數(shù)據(jù)個(gè)數(shù)占數(shù)據(jù)總數(shù)的比例,至少是。這個(gè)定理說(shuō)明了標(biāo)準(zhǔn)差是數(shù)據(jù)分散程度的一個(gè)普遍性的指標(biāo)。標(biāo)準(zhǔn)差的重要性42在工業(yè)生產(chǎn)中,產(chǎn)品的指標(biāo)總會(huì)出現(xiàn)波動(dòng),一般都把產(chǎn)品指標(biāo)的變動(dòng)控制在指標(biāo)平均值加減3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),認(rèn)為這是生產(chǎn)正常的標(biāo)志。如果產(chǎn)品指標(biāo)波動(dòng)超出這個(gè)范圍,說(shuō)明生產(chǎn)系統(tǒng)不正常。在工業(yè)生產(chǎn)中,產(chǎn)品的指標(biāo)總會(huì)出現(xiàn)波動(dòng),一般都把產(chǎn)品指標(biāo)的變動(dòng)43在投資風(fēng)險(xiǎn)分析中,評(píng)價(jià)投資收益有兩個(gè)指標(biāo),一個(gè)是收益期望值(平均值),另一個(gè)是收益的標(biāo)準(zhǔn)差。投資收益的標(biāo)準(zhǔn)差表示投資風(fēng)險(xiǎn)的大小,標(biāo)準(zhǔn)差越大,風(fēng)險(xiǎn)越大。低收益低風(fēng)險(xiǎn)低收益高風(fēng)險(xiǎn)高收益低風(fēng)險(xiǎn)高收益高風(fēng)險(xiǎn)收益期望值收益標(biāo)準(zhǔn)差在投資風(fēng)險(xiǎn)分析中,評(píng)價(jià)投資收益有兩個(gè)指標(biāo),一個(gè)是收益期望值(44

變異系數(shù)標(biāo)準(zhǔn)差是測(cè)定數(shù)據(jù)離散程度的標(biāo)志,但由于不同的數(shù)據(jù)數(shù)值大小不同,相同的離散程度,數(shù)值比較大的標(biāo)準(zhǔn)差也會(huì)比較大。以下是不同年齡組每周上網(wǎng)時(shí)間的統(tǒng)計(jì)數(shù)據(jù):為了比較大小不同的幾組數(shù)據(jù)的離散程度,定義如下的變異系數(shù)(CoefficientofVariation):18歲以下18-24歲25-30歲31-40歲40歲以上均值6.58820.92220.29316.32415.281標(biāo)準(zhǔn)差2.3682.2212.8882.7803.658變異系數(shù)0.3590.1060.1420.1700.239變異系數(shù)18歲以下18-24歲25-30歲31-40歲4045(五)數(shù)據(jù)頻數(shù)分布形態(tài)描述數(shù)據(jù)頻數(shù)分布形態(tài)的指標(biāo)有兩個(gè)峰度:設(shè)數(shù)據(jù)個(gè)數(shù)為N個(gè),峰度計(jì)算公式為峰度系數(shù)是描述數(shù)據(jù)分布陡峭或平坦的指標(biāo)。正態(tài)分布的峰度為0.比正態(tài)分布平坦的峰度為負(fù)值。(五)數(shù)據(jù)頻數(shù)分布形態(tài)描述數(shù)據(jù)頻數(shù)分布形態(tài)的指標(biāo)有兩個(gè)46偏度:描述數(shù)據(jù)分布對(duì)稱性指標(biāo)。公式為正態(tài)分布偏度為0,數(shù)據(jù)頻數(shù)右偏,偏度系數(shù)為負(fù);左偏為正。偏度:描述數(shù)據(jù)分布對(duì)稱性指標(biāo)。公式為47(六)數(shù)據(jù)的統(tǒng)計(jì)相關(guān)性1.因果相關(guān)性:指變量X與變量Y之間存在因果關(guān)系。因果關(guān)系可以通過(guò)理論或?qū)嶒?yàn)證實(shí)。2.統(tǒng)計(jì)相關(guān)性:指變量X的數(shù)值與變量Y的數(shù)值之間可以找出統(tǒng)計(jì)關(guān)系,統(tǒng)計(jì)關(guān)系是一種數(shù)量關(guān)系,不需要、還沒(méi)有或不可能解釋二者之間的相關(guān)的原因。因果相關(guān)的變量不一定有統(tǒng)計(jì)相關(guān)性,有統(tǒng)計(jì)相關(guān)的也不一定有因果關(guān)系(六)數(shù)據(jù)的統(tǒng)計(jì)相關(guān)性1.因果相關(guān)性:指變量X與變量Y之間48數(shù)據(jù)、模型與決策課件49線性相關(guān)系數(shù):反映兩個(gè)變量之間線性統(tǒng)計(jì)關(guān)系的指標(biāo)。分總體相關(guān)系數(shù)與樣本相關(guān)系數(shù)。設(shè)有兩個(gè)變量X,Y,其均值與方差分別為則總體相關(guān)相關(guān)系數(shù)為線性相關(guān)系數(shù):反映兩個(gè)變量之間線性統(tǒng)計(jì)關(guān)系的指標(biāo)。分總體相關(guān)50

其中稱為X,Y的協(xié)方差。樣本相關(guān)系數(shù)的計(jì)算公式為

其中51

用R表示總體相關(guān)系數(shù),r表示樣本相關(guān)系數(shù)。相關(guān)系數(shù)反映了數(shù)據(jù)之間的線性相關(guān)程度。即便數(shù)據(jù)存在非線性相關(guān),R與r可能為0.以后一般指線性相關(guān)。相關(guān)系數(shù)沒(méi)有單位,其值為-1r1。r值為正表示正相關(guān),r值為負(fù)表示負(fù)相關(guān),r絕對(duì)值反應(yīng)兩變量間相關(guān)關(guān)系的密切程度,絕對(duì)值越大說(shuō)明相關(guān)關(guān)系越密切,r的絕對(duì)值等于1為完全相關(guān),r=0為零相關(guān)。用R表示總體相關(guān)系數(shù),r表示樣本相關(guān)系數(shù)。相關(guān)系數(shù)反映52第二章、概率論與統(tǒng)計(jì)學(xué)基礎(chǔ)(一)隨機(jī)事件、隨機(jī)變量與頻數(shù)事件分類:確定性與隨機(jī)性。隨機(jī)變量:表示隨機(jī)事件各種可能結(jié)果的變量。每一個(gè)隨機(jī)變量都有確定的可能取值。隨機(jī)變量分類:離散型與連續(xù)型。第二章、概率論與統(tǒng)計(jì)學(xué)基礎(chǔ)(一)隨機(jī)事件、隨機(jī)變量與頻數(shù)53隨機(jī)事件的運(yùn)算隨機(jī)事件的交(Intersection):事件A和事件B同時(shí)發(fā)生的事件稱為事件A和事件B的交。記為A∩B或AandB隨機(jī)事件的并(Union):事件A和事件B至少一個(gè)發(fā)生的事件稱為事件A和事件B的并。記為A∪B或AorB。如果兩個(gè)事件不可能同時(shí)發(fā)生,則這兩個(gè)事件是互斥(Mutuallyexclusive)的。隨機(jī)事件的差:事件A發(fā)生而事件B不發(fā)生,則稱這個(gè)事件是A與B的差事件。A-B隨機(jī)事件的運(yùn)算54樣本數(shù)、頻數(shù)

對(duì)隨機(jī)變量,我們感興趣的是它的各種可能結(jié)果發(fā)生幾率有多大。可以通過(guò)記錄隨機(jī)變量發(fā)生的次數(shù),稱為樣本數(shù)。觀察它的各種可能結(jié)果出現(xiàn)的次數(shù),稱之為隨機(jī)變量頻數(shù)。假設(shè)隨機(jī)變量X可能取這m個(gè)結(jié)果,記取的次數(shù)為稱為隨機(jī)變量取值的頻數(shù)。那么,當(dāng)樣本數(shù)為N時(shí),有樣本數(shù)、頻數(shù)對(duì)隨機(jī)變量,我們感興趣的是它的各種可能結(jié)果發(fā)55相對(duì)頻數(shù):隨機(jī)變量可能結(jié)果的頻數(shù)與樣本數(shù)之比,記為:顯然,所有相對(duì)頻數(shù)之和為1,即例:見(jiàn)教材P50例相對(duì)頻數(shù):隨機(jī)變量可能結(jié)果的頻數(shù)與樣本數(shù)之比,記為:56(二)離散隨機(jī)變量及分布當(dāng)樣本量不斷增加時(shí),離散隨機(jī)變量相對(duì)頻數(shù)趨向于一個(gè)穩(wěn)定的值,稱之為隨機(jī)變量的概率。記隨機(jī)變量X取某一個(gè)值的概率為即有

幾個(gè)概率法則法則1:概率值都在0~1之間。法則2:所有可能性的概率之和等于1法則3:如果事件A和事件B互斥,那么兩個(gè)事件的并發(fā)生的概率等于兩事件發(fā)生的概率之和。即P(A∪B)=P(A)+P(B)(二)離散隨機(jī)變量及分布當(dāng)樣本量不斷增加時(shí),離散隨機(jī)變量相對(duì)57法則4:如果兩事件不是互斥的,那么兩個(gè)事件的并發(fā)生的概率等于兩事件發(fā)生的概率之和,減去兩事件的交發(fā)生的概率。即:P(A∪B)=P(A)+P(B)-P(A∩B)離散隨機(jī)變量分布律:離散隨機(jī)變量可以用分布律表示其取值的概率。分布函數(shù):對(duì)給定的一個(gè)實(shí)數(shù),隨機(jī)變量不超過(guò)這個(gè)值的概率(也稱累積概率)。法則4:如果兩事件不是互斥的,那么兩個(gè)事件的并發(fā)生的概率等于58記分布函數(shù)為F(x),則表達(dá)式為

很顯然,分布函數(shù)是一個(gè)分段右連續(xù)函數(shù)。2、幾個(gè)重要的離散分布貝努利分布:如果一個(gè)隨機(jī)變量X只有兩個(gè)結(jié)果,而且兩個(gè)結(jié)果發(fā)生概率是不變的,則稱這個(gè)隨機(jī)變量服從貝努利。記X的兩個(gè)取值分別為0與1,取0的概率為p,則X的概率分布律為

記分布函數(shù)為F(x),則表達(dá)式為59

二項(xiàng)分布:重復(fù)了n

次的貝努利分布試驗(yàn)。設(shè)成功的概率為P,則在n次試驗(yàn)中成功了x次的概率為記為.二項(xiàng)分布的均值為np,方差為np(1-p).

泊松分布:在排隊(duì)系統(tǒng)中,比如到公交站的人數(shù),到銀行的人數(shù),常常假定單位時(shí)間內(nèi)到達(dá)的客人數(shù)滿足如下條件:(1)單位時(shí)間內(nèi)到達(dá)的顧客數(shù)的均值與到達(dá)時(shí)間無(wú)關(guān),這稱為隨機(jī)變量的平穩(wěn)性。(2)任何兩個(gè)到達(dá)的顧客之間是獨(dú)立的,稱為普遍性。二項(xiàng)分布:重復(fù)了n次的貝努利分布試驗(yàn)。設(shè)成功的概60(3)前面到達(dá)顧客人數(shù)不影響后面到達(dá)顧客人數(shù),稱為無(wú)后效性。(4)所有有限時(shí)間內(nèi)到達(dá)的顧客總數(shù)是有限的,稱為有限性??梢缘贸鲇衚個(gè)顧客到達(dá)的概率為其中,為單位時(shí)間到達(dá)的顧客數(shù)量的均值。

(3)前面到達(dá)顧客人數(shù)不影響后面到達(dá)顧客人數(shù),稱為無(wú)后效性。61(三)連續(xù)型隨機(jī)變量及概率分布例(略)對(duì)連續(xù)型隨機(jī)變量X,概率曲線記為f(x),即隨機(jī)變量X的概率密度函數(shù),簡(jiǎn)稱密度函數(shù);累積概率曲線記為F(x),即隨機(jī)變量X的累積概率分布函數(shù),簡(jiǎn)稱分布函數(shù)。命題1:設(shè)連續(xù)型隨機(jī)變量X的取值范圍為[a,b],密度函數(shù)為f(x),分布函數(shù)為F(x),則有(1)隨機(jī)變量X落在區(qū)間中的概率為:(三)連續(xù)型隨機(jī)變量及概率分布例(略)62(2)密度函數(shù)在隨機(jī)變量所有取值范圍內(nèi)的積分為1.

(3)(4)

(5)(2)密度函數(shù)在隨機(jī)變量所有取值范圍內(nèi)的積分為1.63幾個(gè)重要的連續(xù)隨機(jī)變量分布1.正態(tài)分布:若隨機(jī)變量的密度函數(shù)為:其中,為正態(tài)分布的均值與標(biāo)準(zhǔn)差。分布函數(shù)為:幾個(gè)重要的連續(xù)隨機(jī)變量分布1.正態(tài)分布:若隨機(jī)變量的密度函64

正態(tài)分布xOμμ+σμ-σf(x)正態(tài)分布xOμμ+σμ-σ65標(biāo)準(zhǔn)正態(tài)分布:當(dāng)時(shí),正態(tài)分布稱為標(biāo)準(zhǔn)正態(tài)分布。一般正態(tài)分布做變換即可化為標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布:當(dāng)66標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)(x)的曲線有以下特征:是偶函數(shù),關(guān)于y軸對(duì)稱,即當(dāng)x=0時(shí),取得最大值

x取值離原點(diǎn)越遠(yuǎn),(x)值越小。在x=1有兩個(gè)拐點(diǎn)。曲線與x軸間所夾面積為1對(duì)分布函數(shù)有標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)(x)的曲線有以下特征:67如果,則X的分布函數(shù)

例設(shè)X~N(0,1),求P{|X|<x},并計(jì)算P{|X|<1.28}。設(shè)某種產(chǎn)品的重量X服從N(100,16)。如果產(chǎn)品的重量在95~105之間屬于合格品,求產(chǎn)品是合格品的概率。已知小麥穗長(zhǎng)服從N(9.978,1.4412),求下列概率: (1)穗長(zhǎng)小于6.536cm。 (2)穗長(zhǎng)大于12.128cm。 (3)穗長(zhǎng)在8.573cm與9.978cm之間。如果,則X的分布函68從甲到乙地有兩條路線,走第一條路所需時(shí)間服從N(50,100),走第二條路時(shí)間服從N(60,16),問(wèn):(1).若有70分鐘可用,走哪條路好?(2).若只有65分鐘呢?從甲到乙地有兩條路線,走第一條路所需時(shí)間服從N(50,10069指數(shù)分布:若一個(gè)隨機(jī)變量X的密度函數(shù)為

則稱隨機(jī)變量服X從指數(shù)分布,記為其分布函數(shù)為:指數(shù)分布有許多性質(zhì)(略)。指數(shù)分布:若一個(gè)隨機(jī)變量X的密度函數(shù)為70均勻分布:如果隨機(jī)變量落在某一區(qū)域的上的點(diǎn)的概率相等,則稱這個(gè)隨機(jī)變量服從均勻分布。三角分布。超幾何分布。伽馬分布F-分布t-分布均勻分布:如果隨機(jī)變量落在某一區(qū)域的上的點(diǎn)的概率相等,則稱這71隨機(jī)變量的期望值和方差離散隨機(jī)變量的期望值對(duì)于離散隨機(jī)變量X,期望值是這個(gè)隨機(jī)變量的所有可能結(jié)果,用每一個(gè)結(jié)果發(fā)生的概率作為權(quán)重的加權(quán)平均。設(shè)隨機(jī)變量X有n個(gè)取值,第i個(gè)取值等于xi的概率為f(xi),則隨機(jī)變量X的期望值E[X]等于離散隨機(jī)變量的方差(Variance)隨機(jī)變量的期望值和方差離散隨機(jī)變量的期望值72方差度量隨機(jī)變量的不確定性,方差越大,結(jié)果的不確定越大。由于方差的單位和變量的單位不同,因此常用標(biāo)準(zhǔn)差(Standarddeviation)表示隨機(jī)變量的波動(dòng)的大小。由于標(biāo)準(zhǔn)差的單位和變量相同,因此它比方差更有意義。標(biāo)準(zhǔn)差是對(duì)風(fēng)險(xiǎn)的一種測(cè)度,因此它在金融模型中是一個(gè)關(guān)鍵的概念。方差度量隨機(jī)變量的不確定性,方差越大,結(jié)果的不確定越大。由于73例:風(fēng)險(xiǎn)投資問(wèn)題有一項(xiàng)風(fēng)險(xiǎn)投資,每次投資成功和失敗的概率都是50%。投入1元資本,如果成功,連本帶利資本增值為2.2元,如果失敗,投入的資金全部損失,資本變?yōu)?。為了避免所有的資本全部損失,每次只投入當(dāng)前資本的一半。假設(shè)最初的資本為100萬(wàn)元,而這項(xiàng)投資的次數(shù)沒(méi)有限制。問(wèn)題:這項(xiàng)投資的前景如何?是一本萬(wàn)利,還是血本無(wú)歸?例:風(fēng)險(xiǎn)投資問(wèn)題有一項(xiàng)風(fēng)險(xiǎn)投資,每次投資成功和失敗的概74解1設(shè)初始資本A=100萬(wàn)元,投資成功的資本增值率為K=2.2

第一次投資成功后的資本為:

A/2+KA/2=(K+1)A/2

第一次投資失敗后的資本為:

A/2

第一次投資后的資本的期望值為:

0.5(K+1)A/2+0.5A/2=0.5(K+2)A/2=0.5(K/2+1)A解1設(shè)初始資本A=100萬(wàn)元,投資成功的資本增值率為K=275第二次投資成功后的資本為:

0.5(K+2)A/4+0.5(K+2)KA/4=0.5(K+2)(K+1)A/4第二次投資失敗后的資本為:0.5(K+2)A/4第二次投資以后的資本期望值為:

0.5*0.5(K+2)(K+1)A/4+0.5*0.5(K+2)A/4 =0.52(K+2)2A/4 =[0.5(K/2+1)]2A……第n次投資以后的資本期望值為:

[0.5(K/2+1)]nA=[0.5*(1.1+1)]nA=(1.05)nA當(dāng)n無(wú)限增大時(shí),資本會(huì)無(wú)限增加,即投資是一本萬(wàn)利的。第二次投資成功后的資本為:76解2設(shè)投資2n次,當(dāng)n很大時(shí),其中大約有n次成功,n次失敗。其中對(duì)投資者最有利的是前n次都成功,后n次全失敗。 第1次成功后的資本為

A/2+KA/2=(K+1)A/2

第2次成功后的資本為

(K+1)A/4+K(K+1)A/4=(K+1)2A/4=(K/2+1/2)2A

……

第n次成功后的資本為

(K/2+1/2)nA 解2設(shè)投資2n次,當(dāng)n很大時(shí),其中大約有n次成功,n次失敗77第1次失敗后的資本為

(K/2+1/2)nA/2第2次失敗后的資本為

(K/2+1/2)nA/22 ……第n次失敗后的資本為

(K/2+1/2)nA/2n=(K/4+1/4)nA=(0.8)nA當(dāng)n無(wú)限增大時(shí),2n次投資以后的資本趨向于0。即投資將會(huì)血本無(wú)歸。解法1和解法2的結(jié)果顯然是矛盾的,至少有一個(gè)是錯(cuò)的,哪一個(gè)是錯(cuò)的?錯(cuò)在哪里?第1次失敗后的資本為78連續(xù)隨機(jī)變量的期望值設(shè)連續(xù)隨機(jī)變量X的概率分布密度函數(shù)為f(x),它的期望值為[a,b]是隨機(jī)變量所在的變化范圍,a可以是-∞,b可以是+∞。隨機(jī)變量X的方差為隨機(jī)變量X的標(biāo)準(zhǔn)差為連續(xù)隨機(jī)變量的期望值79聯(lián)合分布、邊際分布與條件概率在描述一些事物的運(yùn)行規(guī)律,比如螞蟻爬行所處的位置,飛機(jī)在空中的位置這樣一些隨機(jī)事件,就必須考慮多個(gè)隨機(jī)變量構(gòu)成的變量組。設(shè)是一隨機(jī)變量組,則X的分布稱為聯(lián)合分布。設(shè)其密度函數(shù)為則分布函數(shù)為聯(lián)合分布、邊際分布與條件概率在描述一些事物的運(yùn)行規(guī)律,比如螞80例:假定某種疾病的發(fā)病人數(shù)與年齡及某個(gè)化驗(yàn)指標(biāo)有關(guān),現(xiàn)有1898名患者資料見(jiàn)P72例2.15.將表中的統(tǒng)計(jì)人數(shù)除以總?cè)藬?shù)1898人,得到患病人數(shù)關(guān)于年齡和化驗(yàn)指標(biāo)的聯(lián)合概率分布:化驗(yàn)指標(biāo)0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年齡y1.0000.0060.0610.1240.3210.48818-24y10.0380.0000.0000.0000.0110.02725-34y20.0850.0000.0000.0070.0330.04435-44y30.1510.0000.0060.0230.0480.07345-54y40.2550.0040.0180.0470.0720.11355-64y50.3190.0020.0250.0280.1120.15265以上y60.1520.0000.0110.0190.0440.077例:假定某種疾病的發(fā)病人數(shù)與年齡及某個(gè)化驗(yàn)指標(biāo)有關(guān),現(xiàn)有1881由表中的數(shù)據(jù)可以看出,如果某個(gè)患者的年齡在55-64歲之間,化驗(yàn)指標(biāo)在6.0-7.9之間,他患病的概率為11.2%?;?yàn)指標(biāo)0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年齡y1.0000.0060.0610.1240.3210.48818-24y10.0380.0000.0000.0000.0110.02725-34y20.0850.0000.0000.0070.0330.04435-44y30.1510.0000.0060.0230.0480.07345-54y40.2550.0040.0180.0470.0720.11355-64y50.3190.0020.0250.0280.1120.15265以上y60.1520.0000.0110.0190.0440.077由表中的數(shù)據(jù)可以看出,如果某個(gè)患者的年齡在55-64歲之間,82設(shè)年齡為隨機(jī)變量X,化驗(yàn)指標(biāo)為隨機(jī)變量Y,表中的數(shù)值記為f(x,y),稱為隨機(jī)變量X和Y的聯(lián)合概率分布。第一行數(shù)值表示不考慮年齡(x)時(shí),化驗(yàn)指標(biāo)(y)的概率函數(shù),第一列數(shù)值表示不考慮化驗(yàn)指標(biāo)(y)時(shí),年齡(x)的概率函數(shù)。第一行和第一列稱為邊際概率(Marginalprobability)化驗(yàn)指標(biāo)0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年齡y1.0000.0060.0610.1240.3210.48818-24y10.0380.0000.0000.0000.0110.02725-34y20.0850.0000.0000.0070.0330.04435-44y30.1510.0000.0060.0230.0480.07345-54y40.2550.0040.0180.0470.0720.11355-64y50.3190.0020.0250.0280.1120.15265以上y60.1520.0000.0110.0190.0440.077設(shè)年齡為隨機(jī)變量X,化驗(yàn)指標(biāo)為隨機(jī)變量Y,表中的數(shù)值記為f(83如果離散型隨機(jī)變量x與y的聯(lián)合概率為f(x,y),則變量x與y的邊際概率為:

如果連續(xù)型隨機(jī)變量x與y的聯(lián)合密度函數(shù)為f(x,y),則變量x與y的邊際概率密度為如果離散型隨機(jī)變量x與y的聯(lián)合概率為f(x,y),則變量x84相互獨(dú)立的隨機(jī)變量例:已知隨機(jī)變量(X,Y)的聯(lián)合分布如下表1/121/121/61/21/481/481/2401/121/121/6-11/161/161/8-231-1/2xy相互獨(dú)立的隨機(jī)變量例:已知隨機(jī)變量(X,Y)的聯(lián)合分布如下表85經(jīng)過(guò)簡(jiǎn)單的計(jì)算,可以發(fā)現(xiàn)對(duì)(X,Y)的任意取值(x,y),有f(x,y)=f(x)f(y),但前述某疾病例子不存在這個(gè)情況。

隨機(jī)變量獨(dú)立:對(duì)二元隨機(jī)變量(X,Y),如果其聯(lián)合分布函數(shù)可以表示為兩個(gè)邊緣分布函數(shù)的乘積,則稱隨機(jī)變量X與Y相互獨(dú)立。充分必要條件:

離散型:連續(xù)型:f(x,y),f(x),f(y)分別表示聯(lián)合密度函數(shù)與邊緣密度函數(shù)經(jīng)過(guò)簡(jiǎn)單的計(jì)算,可以發(fā)現(xiàn)對(duì)(X,Y)的任意取值(x,y),有86條件概率在一個(gè)隨機(jī)事件(Y)已經(jīng)發(fā)生的條件下,某一個(gè)隨機(jī)事件(X)發(fā)生的概率,稱為條件概率。記為f(x|y)。人數(shù)化驗(yàn)指標(biāo)0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年齡y18981211523561092618-24y173000215225-34y21610014638435-44y3286012439213945-54y44848358913721555-64y56064475321328965以上y62880213684147條件概率在一個(gè)隨機(jī)事件(Y)已經(jīng)發(fā)生的條件下,某一個(gè)隨機(jī)事件87由下表看出,55-64歲的患者人數(shù)為606人,其中化驗(yàn)指標(biāo)的6.0-7.9之間的患者人數(shù)為213人,所求的條件概率為:213/606=0.351。人數(shù)化驗(yàn)指標(biāo)0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年齡y18981211523561092618-24y173000215225-34y21610014638435-44y3286012439213945-54y44848358913721555-64y56064475321328965以上y62880213684147年齡在55-64歲之間的人數(shù)為606人化驗(yàn)指標(biāo)在6.0-7.9之間、年齡在55-64歲之間的人數(shù)為213人由下表看出,55-64歲的患者人數(shù)為606人,其中化驗(yàn)指標(biāo)的88以上的計(jì)算表明,條件概率f(x|y)等于聯(lián)合分布概率f(x,y)除以邊際概率f(y)由此得到,聯(lián)合分布概率等于條件概率乘以邊際概率:化驗(yàn)指標(biāo)0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年齡y1.0000.0060.0610.1240.3210.48818-24y10.0380.0000.0000.0000.0110.02725-34y20.0850.0000.0000.0070.0330.04435-44y30.1510.0000.0060.0230.0480.07345-54y40.2550.0040.0180.0470.0720.11355-64y50.3190.0020.0250.0280.1120.15265以上y60.1520.0000.0110.0190.0440.077聯(lián)合分布概率f(x,y)邊際概率f(y)以上的計(jì)算表明,條件概率f(x|y)等于聯(lián)合分布概率f(x,89統(tǒng)計(jì)學(xué)概述統(tǒng)計(jì)學(xué)是處理統(tǒng)計(jì)數(shù)據(jù)的科學(xué)。統(tǒng)計(jì)學(xué)在科學(xué)研究、社會(huì)經(jīng)濟(jì)分析、商業(yè)決策和日常生活中有廣泛的應(yīng)用。根據(jù)處理統(tǒng)計(jì)數(shù)據(jù)的目的和方法的不同,統(tǒng)計(jì)學(xué)可以分為描述統(tǒng)計(jì)、推斷統(tǒng)計(jì)和預(yù)測(cè)統(tǒng)計(jì)。下面簡(jiǎn)要介紹這三類統(tǒng)計(jì)的主要內(nèi)容。描述統(tǒng)計(jì)統(tǒng)計(jì)數(shù)據(jù)有不同的特征。例如,哈爾濱市和三亞市的年氣溫變化顯然有很大差別。哈爾濱的年溫差(一年中最高氣溫和最低氣溫之差)較大而三亞的年溫差較小,兩地的年平均氣溫(全年每小時(shí)氣溫的平均值)也相差很大。描述統(tǒng)計(jì)就是計(jì)算和分析統(tǒng)計(jì)數(shù)據(jù)的一些統(tǒng)計(jì)指標(biāo),用來(lái)表示統(tǒng)計(jì)數(shù)據(jù)的特點(diǎn)。這些統(tǒng)計(jì)指標(biāo)包括前面介紹過(guò)的均值、方差、標(biāo)準(zhǔn)差、中位數(shù)、極差以及峰度、偏度、相關(guān)系數(shù)等。研究分析和表示統(tǒng)計(jì)數(shù)據(jù)的統(tǒng)計(jì)特征,就是描述統(tǒng)計(jì)的主要內(nèi)容。統(tǒng)計(jì)學(xué)概述統(tǒng)計(jì)學(xué)是處理統(tǒng)計(jì)數(shù)據(jù)的科學(xué)。統(tǒng)計(jì)學(xué)在科學(xué)研究、社會(huì)90推斷統(tǒng)計(jì)我們經(jīng)常需要通過(guò)數(shù)據(jù)的研究,來(lái)確定某一個(gè)統(tǒng)計(jì)結(jié)論有效的范圍,或者用統(tǒng)計(jì)數(shù)據(jù)證實(shí)或否定一些統(tǒng)計(jì)結(jié)論。例如,通過(guò)抽樣檢測(cè)得出“某件產(chǎn)品的合格率為97%”,通過(guò)市場(chǎng)調(diào)查確定“某商品的市場(chǎng)份額為12%”,根據(jù)民意調(diào)查得知“某候選人在未來(lái)的選舉中得票的比例為59%”。由于這些統(tǒng)計(jì)數(shù)據(jù)是根據(jù)抽樣得到的,重復(fù)進(jìn)行抽樣,這些數(shù)據(jù)會(huì)有所不同。因此,在得出這些統(tǒng)計(jì)數(shù)據(jù)的同時(shí),還需要了解它們?cè)诙啻蠓秶鷥?nèi),在多大程度上是可信的。這些例子都是為了確定統(tǒng)計(jì)結(jié)論的有效范圍。推斷統(tǒng)計(jì)91預(yù)測(cè)統(tǒng)計(jì)在日常生活和經(jīng)濟(jì)活動(dòng)中,經(jīng)常需要對(duì)已經(jīng)觀察到的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析研究,以便估計(jì)將要發(fā)生的數(shù)據(jù)。例如:通過(guò)對(duì)某一城市歷年氣溫的分析,預(yù)測(cè)明年夏季這個(gè)城市的最高氣溫;通過(guò)對(duì)以往股市行情的分析,預(yù)測(cè)股市今后的走勢(shì);根據(jù)一些父母的身高統(tǒng)計(jì)數(shù)據(jù),來(lái)預(yù)測(cè)未成年子女未來(lái)的身高等等。預(yù)測(cè)統(tǒng)計(jì)92第三章、抽樣與估計(jì)什么是抽樣為什么要抽樣商業(yè)調(diào)查中需要研究的總體,由于數(shù)量太大,或者調(diào)查具有破壞性,往往無(wú)法進(jìn)行。例如要調(diào)查全部電視觀眾每天看電視的頻道和收看時(shí)間,顯然是不可能的。要測(cè)定生產(chǎn)的每一個(gè)燈泡的壽命,由于是破壞性的,也不可能全部進(jìn)行測(cè)試。抽樣是商業(yè)調(diào)查的一個(gè)必要和可行的方法。抽樣的目的是從樣本得到盡可能充足的信息,用來(lái)有效推斷總體的狀況。第三章、抽樣與估計(jì)什么是抽樣為什么要抽樣93抽樣方法抽樣方法可以從不同的角度來(lái)劃分。從樣本是否隨機(jī)獲取分,可以分為:主觀抽樣判斷抽樣:根據(jù)專家的判斷選取樣本,例如選擇特征典型的顧客方便抽樣:用容易獲得的方法獲取樣本,例如選取某一天到達(dá)的顧客概率抽樣簡(jiǎn)單隨機(jī)抽樣:每個(gè)樣本都有相同的機(jī)會(huì)被抽中分群抽樣:具有相同統(tǒng)計(jì)屬性的群,隨機(jī)抽取若干群進(jìn)行統(tǒng)計(jì),例如,在杭州市重點(diǎn)中學(xué)中隨機(jī)抽取兩所,統(tǒng)計(jì)高考平均成績(jī)。抽樣方法94

其他抽樣方式系統(tǒng)抽樣:從總體中按照一定的規(guī)律間隔性抽取樣本,例如根據(jù)電話號(hào)碼順序每間隔100個(gè)抽取1個(gè)。分層抽樣:具有不同統(tǒng)計(jì)屬性的層,根據(jù)各層總體的比例,進(jìn)行抽樣。例如,根據(jù)發(fā)達(dá)、欠發(fā)達(dá)、不發(fā)達(dá)地區(qū)人數(shù),按比例抽樣統(tǒng)計(jì)農(nóng)民人均收入。整群抽樣:將不同生產(chǎn)批號(hào)的產(chǎn)品作為一群,抽取其中某一個(gè)批號(hào)的產(chǎn)品作為樣本連續(xù)過(guò)程的抽樣:例如連續(xù)生產(chǎn)線上每間隔一定時(shí)間或間隔一定數(shù)量的產(chǎn)品作為樣本其他抽樣方式95抽樣誤差分析例1誰(shuí)先動(dòng)手?有人調(diào)查研究酒吧里的打架致死事件,發(fā)現(xiàn)其中90%都是死掉的那個(gè)人先動(dòng)手。真是這樣嗎?如果你跟人打架把對(duì)方給揍死了,警察問(wèn)你誰(shuí)先動(dòng)手的時(shí)候你怎么回答?抽樣誤差分析例1誰(shuí)先動(dòng)手?96例2美國(guó)的種族效應(yīng)

1989年,紐約市選出第一位黑人市長(zhǎng),維吉尼亞選出第一位黑人州長(zhǎng)。這兩個(gè)事件,在投票所訪問(wèn)投完票的選民后所預(yù)測(cè)到的勝負(fù)差距,都比實(shí)際開(kāi)票的差距大。因此,調(diào)查機(jī)構(gòu)相當(dāng)確定,有些受訪選民因?yàn)椴辉赋姓J(rèn)沒(méi)投票給黑人候選人而說(shuō)了謊。例2美國(guó)的種族效應(yīng)97例3權(quán)威人物的意見(jiàn)有兩個(gè)內(nèi)容相同的問(wèn)題:?jiǎn)栴}A:陸軍部和海軍部應(yīng)當(dāng)合并為統(tǒng)一的作戰(zhàn)部,您同意么?問(wèn)題B:艾森豪威爾將軍說(shuō),陸軍部和海軍部應(yīng)當(dāng)合并為統(tǒng)一的作戰(zhàn)部,您同意么?結(jié)果對(duì)問(wèn)題A表示同意的比例為29%,而對(duì)問(wèn)題B表示同意的比例為49%,兩者相距甚遠(yuǎn)。無(wú)疑,權(quán)威人物艾森豪威爾將軍的意見(jiàn)影響了被調(diào)查者的意見(jiàn)。例3權(quán)威人物的意見(jiàn)98例4總統(tǒng)選舉預(yù)測(cè)1936年民主黨人羅斯福任美國(guó)總統(tǒng)第一任滿,共和黨人蘭登與他競(jìng)選總統(tǒng)。

《文學(xué)摘要》雜志根據(jù)有約二百四十萬(wàn)人參加的民意測(cè)驗(yàn),預(yù)測(cè)蘭登會(huì)以57%對(duì)43%的優(yōu)勢(shì)獲勝。自1916年以來(lái)的五屆總統(tǒng)選舉中,《文學(xué)摘要》雜志都正確地預(yù)測(cè)出獲勝的一方,其影響力很大。那時(shí)蓋洛普剛剛設(shè)立起他的調(diào)查機(jī)構(gòu),他根據(jù)一個(gè)約五萬(wàn)人的樣本,預(yù)測(cè)羅斯福會(huì)以56%對(duì)44%的優(yōu)勢(shì)獲勝。實(shí)際結(jié)果是,羅斯福以62%對(duì)38%的優(yōu)勢(shì)勝出。當(dāng)時(shí)有人說(shuō),這次選舉的最大贏家不是羅斯福,而是蓋洛普。自這之后,蓋洛普的調(diào)查機(jī)構(gòu)得到迅速的發(fā)展,國(guó)內(nèi)外聞名,而《文學(xué)摘要》雜志不久就垮了。

《文學(xué)摘要》雜志的調(diào)查方法有什么問(wèn)題?例4總統(tǒng)選舉預(yù)測(cè)99實(shí)際的抽樣調(diào)查是很復(fù)雜的,即使采用了好的隨機(jī)抽樣方法、準(zhǔn)確地計(jì)算了誤差界限,調(diào)查結(jié)果也不一定可靠。就拿例3.1來(lái)說(shuō),本來(lái)應(yīng)該是對(duì)打架雙方都進(jìn)行調(diào)查,但已經(jīng)死去的被調(diào)查者無(wú)法回答,而剩下的被調(diào)查者又可能為保全自己而不如實(shí)地回答。那么,這樣的調(diào)查結(jié)果會(huì)可靠嗎?下面,我們來(lái)看看抽樣調(diào)查中的基本概念、抽樣的誤差來(lái)源,以及抽樣調(diào)查者應(yīng)如何與之奮斗。實(shí)際的抽樣調(diào)查是很復(fù)雜的,即使采用了好的隨機(jī)抽樣方法、準(zhǔn)確地1001、抽樣的基本概念a、總體和樣本b、抽樣c、抽樣目標(biāo)d、抽樣誤差e、抽樣方法f、抽樣方案設(shè)計(jì)1、抽樣的基本概念a、總體和樣本1012、抽樣誤差分析統(tǒng)計(jì)調(diào)查的目的是取得能準(zhǔn)確反映客觀狀況的統(tǒng)計(jì)數(shù)據(jù)。在許多時(shí)候,調(diào)查結(jié)果并不能準(zhǔn)確地表現(xiàn)事實(shí),總會(huì)有誤差出現(xiàn)。在調(diào)查的各個(gè)階段,誤差都有可能出現(xiàn)。如果其中一個(gè)階段出現(xiàn)了較大誤差,可能會(huì)把其他階段都進(jìn)行得很好的一次調(diào)查毀掉,因此必須認(rèn)真細(xì)致地實(shí)施調(diào)查的每一個(gè)階段、嚴(yán)格控制誤差。為了保證統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,了解誤差的來(lái)源與減小誤差的措施很有必要。2、抽樣誤差分析統(tǒng)計(jì)調(diào)查的目的是取得能準(zhǔn)確反映客觀狀況的統(tǒng)計(jì)102繼續(xù)例4從常理來(lái)看,應(yīng)該調(diào)查數(shù)據(jù)越多,結(jié)論越可靠。羅斯福的實(shí)際得票率為62%,《文學(xué)摘要》雜志的預(yù)測(cè)為43%,誤差達(dá)到19%。誤差之大令人驚異。這樣大的誤差是怎么得來(lái)的呢?經(jīng)過(guò)研究發(fā)現(xiàn),原因在于《文學(xué)摘要》雜志選取樣本有偏性。雜志是根據(jù)電話簿和俱樂(lè)部會(huì)員的名冊(cè),將問(wèn)卷郵寄給一千萬(wàn)人。當(dāng)時(shí)美國(guó)四個(gè)家庭中僅有一家裝電話。他選取的樣本有排斥窮人的選擇偏性。這樣的民意測(cè)驗(yàn)非常不利于民主黨人羅斯福。繼續(xù)例4103此外,《文學(xué)摘要》雜志調(diào)查的一千萬(wàn)人中只有二百四十萬(wàn)人回答了問(wèn)卷,不回答者可能非常有別于回答者,這二百四十萬(wàn)人代表不了被郵寄問(wèn)卷的一千萬(wàn)人。譬如,1936年《文學(xué)摘要》雜志的一次專門(mén)的調(diào)查,給在芝加哥的選民每三人寄去一張問(wèn)卷。約20%的被調(diào)查者作了回答,其中支持蘭登的超過(guò)半數(shù)。但是在選舉中,蘭登在芝加哥的得票率只有三分之一。所以當(dāng)出現(xiàn)高不回答率時(shí),謹(jǐn)防不回答偏性。心理研究表明,低收入和高收入的人傾向于不回答問(wèn)卷,因此中等收入的人在回答者中的比例過(guò)高。為此現(xiàn)代調(diào)查機(jī)構(gòu)更喜歡采用親自詢問(wèn)來(lái)代替郵寄問(wèn)卷此外,《文學(xué)摘要》雜志調(diào)查的一千萬(wàn)人中只有二百四十萬(wàn)人回答了104即使親自詢問(wèn),也有不回答偏性的問(wèn)題。訪問(wèn)員來(lái)訪時(shí),不在家的人與在家接受訪問(wèn)的人可能在工作時(shí)間、家庭關(guān)系和社會(huì)背景等方面有比較大的差異,從而看法也不一樣。例如有一項(xiàng)關(guān)于快餐的市場(chǎng)調(diào)查。抽取500戶家庭進(jìn)行調(diào)查。白天訪問(wèn)時(shí),有150戶家庭沒(méi)人。能不能僅用白天有人的350戶家庭的數(shù)據(jù)?不能。這里有不回答偏性。白天不在家的150戶可能是吃快餐比較多的家庭。即使親自詢問(wèn),也有不回答偏性的問(wèn)題。105誤差按其性質(zhì)可以分為兩類,一類是抽樣誤差,它是由于抽選樣本的隨機(jī)性而產(chǎn)生的誤差。只有采用概率抽樣的方式才可能估計(jì)抽樣誤差。另一類是非抽樣誤差,它是指除抽樣誤差以外的、由于各種原因而引起的誤差。在概率抽樣、非概率抽樣和全面調(diào)查中,非抽樣誤差都有可能存在。若采用了概率抽樣方法,那么我們可以估計(jì)出抽樣誤差的大小,還可以通過(guò)選擇樣本量的大小來(lái)控制抽樣誤差。在謹(jǐn)慎執(zhí)行的抽樣調(diào)查中,抽樣誤差通常不大。而非抽樣誤差相對(duì)比較難以估計(jì)和控制。誤差按其性質(zhì)可以分為兩類,一類是抽樣誤差,它是由于抽選樣本的106提高抽樣技術(shù)是非常重要的。若采用了隨機(jī)抽樣方法,那么我們可以估計(jì)出抽樣誤差的大小,還可以通過(guò)選擇樣本量的大小來(lái)控制抽樣誤差。樣本數(shù)太大,浪費(fèi)人力、物力與財(cái)力,太少常常結(jié)論不準(zhǔn)確。樣本大小必須保證抽樣誤差不超過(guò)允許的范圍為前提提高抽樣技術(shù)是非常重要的。若采用了隨機(jī)抽樣方法,那么我們可以107在單純隨機(jī)重復(fù)抽樣條件下,估計(jì)總體均值所需樣本數(shù)可按以下公式計(jì)算

在單純隨機(jī)不重復(fù)抽樣的條件下,估計(jì)總體的平均數(shù)所需樣本為其中,n-抽取的樣本數(shù);

t-標(biāo)準(zhǔn)正態(tài)概率分布下置信區(qū)間的臨界值

σ-總體標(biāo)準(zhǔn)差

Δ-允許誤差范圍

N-總體中個(gè)體總數(shù)在單純隨機(jī)重復(fù)抽樣條件下,估計(jì)總體均值所需樣本數(shù)可按以下公式108樣本數(shù)據(jù)的統(tǒng)計(jì)分析樣本均值、方差、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤抽樣是隨機(jī)進(jìn)行的,因此樣本數(shù)據(jù)的屬性,如樣本數(shù)據(jù)的均值、方差、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)誤等也是隨機(jī)變量。這些隨機(jī)變量具有怎樣的統(tǒng)計(jì)特性,是我們關(guān)注的問(wèn)題。首先來(lái)研究樣本均值、方差、標(biāo)準(zhǔn)差與樣本數(shù)n的關(guān)系。用函數(shù)RAND產(chǎn)生1000個(gè)隨機(jī)變量作為總體,樣本數(shù)分別為50、100和200。三個(gè)樣本的均值、方差和標(biāo)準(zhǔn)差如圖3.7所示。樣本數(shù)據(jù)的統(tǒng)計(jì)分析樣本均值、方差、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤109樣本數(shù)據(jù)的統(tǒng)計(jì)分析樣本均值、方差、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤抽樣是隨機(jī)進(jìn)行的,因此樣本數(shù)據(jù)的屬性,如樣本數(shù)據(jù)的均值、方差、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)誤等也是隨機(jī)變量。這些隨機(jī)變量具有怎樣的統(tǒng)計(jì)特性,是我們關(guān)注的問(wèn)題。首先來(lái)研究樣本均值、方差、標(biāo)準(zhǔn)差與樣本數(shù)n的關(guān)系。用函數(shù)RAND產(chǎn)生1000個(gè)隨機(jī)變量作為總體,樣本數(shù)分別為50、100和200。三個(gè)樣本的均值、方差和標(biāo)準(zhǔn)差如下表所示。樣本數(shù)據(jù)的統(tǒng)計(jì)分析樣本均值、方差、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤110數(shù)據(jù)、模型與決策課件111從上表可以看出,樣本數(shù)量越大,樣本的均值、方差、標(biāo)準(zhǔn)差越接近總體相應(yīng)的數(shù)值。如果抽樣是隨機(jī)的,樣本的均值也是一個(gè)隨機(jī)變量。下面我們來(lái)研究,樣本均值這個(gè)隨機(jī)變量服從什么樣的分布。概率論中有一個(gè)非常重要的定理稱為中心極限定理,該定理的內(nèi)容是:無(wú)論總體服從何種分布,只要樣本數(shù)越來(lái)越大,樣本均值就會(huì)逐漸接近正態(tài)分布。這個(gè)正態(tài)分布的均值為總體均值μ,標(biāo)準(zhǔn)差為

其中σ為總體標(biāo)準(zhǔn)差。因此,當(dāng)樣本數(shù)n很大時(shí),樣本均值的標(biāo)準(zhǔn)差將會(huì)逐步接近零。也就是說(shuō),當(dāng)樣本數(shù)量足夠大時(shí),樣本均值和總體均值μ將會(huì)非常接近從上表可以看出,樣本數(shù)量越大,樣本的均值、方差、標(biāo)準(zhǔn)差越接近112Excel抽樣工具Excel“工具/數(shù)據(jù)分析/抽樣”提供了周期抽樣和隨機(jī)抽樣兩種功能。Excel表“研究所員工資料.xls”提供了115名員工的信息。如果希望從該數(shù)據(jù)中每間隔7個(gè)樣本抽取1個(gè)員工,操作如下:打開(kāi)“工具/數(shù)據(jù)分析/抽樣”Excel抽樣工具113“輸入?yún)^(qū)域”選擇A1:A116,“抽樣方法”選擇“周期”,“周期”輸入7,“輸出選項(xiàng)”選擇“輸出區(qū)域”,并選擇M2。“輸入?yún)^(qū)域”選擇A1:A116,“抽樣方法”選擇“周期”,“114得到M2:M17共16個(gè)員工的樣本。由于周期抽是按樣本編號(hào)從小到大抽取的,無(wú)論抽到的樣本放回還是不放回,任何樣本不可能被重復(fù)抽中。得到M2:M17共16個(gè)員工的樣本。115如果“抽樣方法”選擇“隨機(jī)”,就需要輸入“樣本數(shù)”,例如樣本數(shù)為15。

如果“抽樣方法”選擇“隨機(jī)”,就需要輸入“樣本數(shù)”,例如樣本116點(diǎn)估計(jì)案例:德軍有多少輛坦克二戰(zhàn)中,盟軍非常希望知道德軍總共制造了多少輛坦克。德國(guó)人在制造坦克時(shí)總是墨守成規(guī)的,他們把坦克從1開(kāi)始連續(xù)地進(jìn)行編號(hào)。在戰(zhàn)爭(zhēng)過(guò)程中,盟軍繳獲了了一些坦克,并記錄了他們的生產(chǎn)編號(hào),那么怎樣利用這些號(hào)碼來(lái)估計(jì)坦克總數(shù)。點(diǎn)估計(jì)案例:德軍有多少輛坦克117在這個(gè)問(wèn)題中,總體參數(shù)是未知的坦克總數(shù)N,而繳獲坦克的編號(hào)就是樣本。假設(shè)我們是盟軍中負(fù)責(zé)解決這個(gè)問(wèn)題的統(tǒng)計(jì)人員??梢钥隙?,制造出來(lái)的坦克數(shù)大于等于最大坦克編號(hào)。為了找到坦克數(shù)比最大編號(hào)大多少?可以先找到繳獲坦克的平均數(shù),并認(rèn)為這個(gè)數(shù)是全部編號(hào)的中點(diǎn),那么總的坦克數(shù)就是這個(gè)數(shù)的兩倍。這就需要特別假設(shè)繳獲的坦克代表了所有坦克的一個(gè)隨機(jī)樣本在這個(gè)問(wèn)題中,總體參數(shù)是未知的坦克總數(shù)N,而繳獲坦克的編號(hào)就118這種估計(jì)N的方法缺點(diǎn)是:不能保證均值的2倍一定大于記錄的中的最大值N的另一個(gè)點(diǎn)估計(jì)公式是:用觀測(cè)到的最大編號(hào)乘以1+1/n,其中n表示繳獲坦克數(shù)。從戰(zhàn)后發(fā)現(xiàn)的德軍記錄來(lái)看,盟軍的估計(jì)值非常接近所生產(chǎn)坦克的真實(shí)值。記錄而且表明統(tǒng)計(jì)估計(jì)比通常通過(guò)其他情報(bào)方式作出估計(jì)要大大接近于真實(shí)數(shù)統(tǒng)計(jì)學(xué)家比諜報(bào)人員做得更漂亮這種估計(jì)N的方法缺點(diǎn)是:不能保證均值的2倍一定大于記錄的中的119估計(jì)(Estimation)是運(yùn)用樣本的數(shù)據(jù)來(lái)測(cè)量總體參數(shù)的值。估計(jì)有點(diǎn)估計(jì)和區(qū)間估計(jì)。點(diǎn)估計(jì)(Pointestimation)是用樣本測(cè)定總體的單一參數(shù)。區(qū)間估計(jì)(Intervalestimation)給出總體參數(shù)的取值范圍,同時(shí)給出一個(gè)計(jì)算標(biāo)準(zhǔn)誤的方法。不同的樣本對(duì)總體參數(shù)的估計(jì)是不相同的。如果所有可能的點(diǎn)估計(jì)的均值等于總體參數(shù),這樣的估計(jì)稱為“無(wú)偏的”,否則是“有偏的”。估計(jì)(Estimation)是運(yùn)用樣本的數(shù)據(jù)來(lái)測(cè)量總體參數(shù)的120無(wú)偏估計(jì)的圖解

總體參數(shù)無(wú)偏估計(jì)并不能根據(jù)一次抽樣的樣本就能得到總體參數(shù)的精確值。理論上說(shuō),只有當(dāng)抽樣次數(shù)越來(lái)越多,這些抽樣估計(jì)的均值,才會(huì)逐步靠近總體參數(shù)。估計(jì)1、2、3、4的均值估計(jì)2估計(jì)1估計(jì)3估計(jì)4樣本1樣本2樣本3樣本4無(wú)偏估計(jì)的圖解121點(diǎn)估計(jì)點(diǎn)估計(jì)就是用抽樣得到的一個(gè)樣本的統(tǒng)計(jì)參數(shù)(樣本均值、樣本方差、樣本標(biāo)準(zhǔn)差等)來(lái)估計(jì)總體相應(yīng)的統(tǒng)計(jì)參數(shù)(總體均值、總體方差、總體標(biāo)準(zhǔn)差等)。點(diǎn)估計(jì)包括:統(tǒng)計(jì)學(xué)理論可以證明,以上四個(gè)點(diǎn)估計(jì)都是無(wú)偏的點(diǎn)估計(jì)被估計(jì)的總體參數(shù)樣本均值總體均值μ樣本方差s2總體方差σ2樣本標(biāo)準(zhǔn)差s總體標(biāo)準(zhǔn)差σ樣本比例p總體比例π點(diǎn)估計(jì)點(diǎn)估計(jì)被估計(jì)的總體參數(shù)樣本均值總體均值122

樣本參數(shù)總體參數(shù)統(tǒng)計(jì)學(xué)理論可以證明,數(shù)量為n的樣本,它們的方差s2和標(biāo)準(zhǔn)差s的分母為n-1時(shí),它們對(duì)總體方差和總體標(biāo)準(zhǔn)差的估計(jì)才是無(wú)偏的。如果分母是n,對(duì)總體方差和標(biāo)準(zhǔn)差的估計(jì)會(huì)偏小。

樣本均值

總體均值

樣本方差

總體方差樣本參數(shù)總體參數(shù)123運(yùn)用無(wú)偏的點(diǎn)估計(jì),只有在樣本數(shù)據(jù)足夠大時(shí),點(diǎn)估計(jì)才有把握可以代表總體的統(tǒng)計(jì)指標(biāo)。但是,點(diǎn)估計(jì)無(wú)法了解估計(jì)值和真實(shí)總體參數(shù)之間的誤差。即樣本數(shù)量要大到什么程度,有多大的把握,可以保證所估計(jì)的總體參數(shù)落在事先確定的范圍內(nèi)。要解決這個(gè)問(wèn)題,需要用區(qū)間估計(jì)。運(yùn)用無(wú)偏的點(diǎn)估計(jì),只有在樣本數(shù)據(jù)足夠大時(shí),點(diǎn)估計(jì)才有把握可以124區(qū)間估計(jì)置信區(qū)間區(qū)間估計(jì)(Intervalestimates)解決真實(shí)的總體參數(shù)以什么概率,落入哪一個(gè)區(qū)間范圍的問(wèn)題。這個(gè)概率稱為置信水平(Levelofconfidence),這個(gè)區(qū)間稱為置信區(qū)間(Confidenceinterval,CI)。例如“在90%的置信水平下,總體參數(shù)的置信區(qū)間是10±2”,其中10是根據(jù)樣本計(jì)算得到的點(diǎn)估計(jì),2是邊際誤差。即這個(gè)區(qū)間為[8,12]。這個(gè)區(qū)間[8,12]可能包括也可能不包括總體均值。置信水平為90%,表示如果進(jìn)行100次抽樣,得到到100個(gè)不同的區(qū)間估計(jì),那么其中90%的區(qū)間估計(jì)包括真實(shí)的總體均值。區(qū)間估計(jì)置信區(qū)間區(qū)間估計(jì)(Intervalestimat125置信區(qū)間的寬度(即總體參數(shù)估計(jì)的精確性)和兩個(gè)因素有關(guān):樣本數(shù)量n和置信水平。在一定的置信水平下(例如90%),樣本數(shù)量越多,置信區(qū)間寬度越小,也就是對(duì)總體參數(shù)的估計(jì)越精確。樣本數(shù)量n不變的情況下,置信水平要求越高(例如90%,95%,99%等),置信區(qū)間寬度越大,即對(duì)總體參數(shù)的估計(jì)范圍越大。在一般情況下,置信水平為90%就可以了,在要求比較高的情況下,置信水平可以提高到95%,在極少數(shù)要求非常高的情況下,置信水平可以設(shè)為99%。置信區(qū)間的寬度(即總體參數(shù)估計(jì)的精確性)和兩個(gè)因素有關(guān):樣本126均值的置信區(qū)間

為了用樣本的均值求出總體均值的置信區(qū)間,首先需要研究樣本均值的分布。設(shè)總體均值為μ,標(biāo)準(zhǔn)差為σ。反復(fù)抽取樣本數(shù)為n的樣本。由于抽樣的隨機(jī)性,每次抽取的樣本都不相同,樣本的均值也不相同。因此,樣本的均值是一個(gè)隨機(jī)變量。統(tǒng)計(jì)學(xué)的理論分析可以證明,無(wú)論總體服從什么分布,當(dāng)樣本數(shù)n很大時(shí),樣本的均值這個(gè)隨機(jī)變量服從正態(tài)分布,它的均值等于總體均值μ,標(biāo)準(zhǔn)差等于總體標(biāo)準(zhǔn)差σ除以n的平方根,即:

稱為樣本的標(biāo)準(zhǔn)誤。均值的置信區(qū)間為了用樣本的均值求出總體均值的置信區(qū)間,首先需127

總體均值的抽樣分布包含總體均值的一個(gè)置信區(qū)間

128計(jì)算總體均值置信區(qū)間的三種方法1.先計(jì)算標(biāo)準(zhǔn)正態(tài)分布的置信區(qū)間,再進(jìn)行區(qū)間變換1-α1-α計(jì)算總體均值置信區(qū)間的三種方法1.先計(jì)算標(biāo)準(zhǔn)正態(tài)分布的置信129=NORMSINV($B$4)=B8/SQRT(B19)=B11*B12=B7-B13=B7+B13=NORMSINV($B$4)=B8/SQRT(B19)=B1302.用NORMINV函數(shù)直接計(jì)算正態(tài)分布的置信區(qū)間抽取樣本數(shù)為n的一個(gè)樣本計(jì)算樣本均值,并將作為總體均值的點(diǎn)估計(jì)計(jì)算樣本的標(biāo)準(zhǔn)差s,并將s作為總體標(biāo)準(zhǔn)差的點(diǎn)估計(jì)計(jì)算樣本的標(biāo)準(zhǔn)誤用NORMINV(α/2,,)

和NORMINV(1-α/2,,)分別計(jì)算正態(tài)分布的置信區(qū)間的左端點(diǎn)和右端點(diǎn)1-αα/2α/2累積概率為α/2累積概率為1-α/22.用NORMINV函數(shù)直接計(jì)算正態(tài)分布的置信區(qū)間1-α131=NORMINV($B$4,B7,B8/SQRT(B16))=NORMINV($B$3,B7,B8/SQRT(B16))=NORMINV($B$4,B7,B8/SQRT(B16))1323.用函數(shù)CONFIDENCE計(jì)算區(qū)間值(置信區(qū)間的半徑)抽取樣本數(shù)為n的一個(gè)樣本計(jì)算樣本均值,并將作為總體均值的點(diǎn)估計(jì)計(jì)算樣本的標(biāo)準(zhǔn)差s,并將s作為總體標(biāo)準(zhǔn)差的點(diǎn)估計(jì)用CONFIDENCE(α,s,n)計(jì)算正態(tài)分布的置信區(qū)間的區(qū)間值(區(qū)間半徑)用-CONFIDENCE(α,s,n)作為置信區(qū)間的左端點(diǎn)用+CONFIDENCE(α,s,n)作為置信區(qū)間的右端點(diǎn)注意:用函數(shù)CONFIDENCE構(gòu)造置信區(qū)間時(shí),不需要計(jì)算

α/2、(1-α/2)和標(biāo)準(zhǔn)誤,函數(shù)會(huì)根據(jù)α、樣本標(biāo)準(zhǔn)差s和樣本數(shù)n自動(dòng)計(jì)算。3.用函數(shù)CONFIDENCE計(jì)算區(qū)間值(置信區(qū)間的半徑)133例3.5計(jì)算“不同年齡段上網(wǎng)時(shí)間統(tǒng)計(jì).xls”中6個(gè)年齡組看電視時(shí)間均值的95%置信區(qū)間。=CONFIDENCE($B$2,B7,B14)=B6-B8=B6+B8例3.5計(jì)算“不同年齡段上網(wǎng)時(shí)間統(tǒng)計(jì).xls”中6個(gè)年齡組134

均值標(biāo)準(zhǔn)差s區(qū)間值置信區(qū)間左端點(diǎn)置信區(qū)間右端點(diǎn)18歲以下6.58822.36790.39806.19036.986218-24歲20.92222.22070.271520.650721.193725-30歲20.29272.88850.436819.855920.729531-40歲16.32432.78030.508215.816216.832540歲以上15.28133.65790.869414.411816.1507

135影響置信區(qū)間寬度的因素分析

數(shù)據(jù)量均值標(biāo)準(zhǔn)差s區(qū)間值左端點(diǎn)右端點(diǎn)18歲以下1366.58822.36790.39806.19036.986218-24歲25720.92222.22070.271520.650721.193725

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論