清華大學(xué)MBA高級教程1_第1頁
清華大學(xué)MBA高級教程1_第2頁
清華大學(xué)MBA高級教程1_第3頁
清華大學(xué)MBA高級教程1_第4頁
清華大學(xué)MBA高級教程1_第5頁
已閱讀5頁,還剩593頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、蔣紹忠蔣紹忠 編著編著北京大學(xué)出版社北京大學(xué)出版社 2012年年12月月數(shù)據(jù)、模型與決策數(shù)據(jù)、模型與決策 第第2版版第第1部分部分 數(shù)據(jù)與統(tǒng)計數(shù)據(jù)與統(tǒng)計Data, Models and DecisionsPart One: Data and Statistics第1章 數(shù)據(jù)和數(shù)據(jù)展示第2章 概率論和統(tǒng)計學(xué)基礎(chǔ)第3章 抽樣和估計第4章 假設(shè)檢驗(yàn)第5章 問卷調(diào)查第6章 回歸分析目目 錄錄1.1 數(shù)據(jù)1.2 Excel基礎(chǔ)1.3 數(shù)據(jù)透視表和模擬運(yùn)算表1.4 數(shù)據(jù)展示圖1.5 數(shù)據(jù)的分布屬性第第1章章 數(shù)據(jù)和數(shù)據(jù)展示數(shù)據(jù)和數(shù)據(jù)展示“氣象臺今天18點(diǎn)發(fā)布的報告,本市今天晴,最高氣溫12.3,最低氣溫5

2、.1,偏北風(fēng)5級。明天天氣預(yù)報:小雨,106,微風(fēng),降水概率70%”?!?6日上證綜指突破了5000點(diǎn)關(guān)口,以5018.18點(diǎn)大幅高開,午后更創(chuàng)下5036.35點(diǎn)的歷史新高。當(dāng)日上證綜指報收于4998.47點(diǎn),較前一交易日微漲0.18”?!敖刂恋谒墓?jié)7分鐘,姚明在場上15投5中得到16分,8個籃板、1次助攻、1次斷球、1次封蓋,并有2次犯規(guī)和2次失誤”?!敖裉毂臼锌諝馕廴局笖?shù)為78,空氣質(zhì)量描述為良,主要污染物為可吸入顆粒。預(yù)計明天空氣污染指數(shù)為4050,空氣質(zhì)量描述為優(yōu)。”1.1 數(shù)據(jù)以上四段文字分別用不同類型的數(shù)據(jù)發(fā)布了不同的信息。其中“晴”、“小雨”、“最低氣溫12.3”、“降水概率70

3、”、“上證指數(shù)3018.18點(diǎn)”、“得分16分”、“8個籃板”、“空氣污染指數(shù)78”、“空氣質(zhì)量描述優(yōu)、良”等都是數(shù)據(jù)。數(shù)據(jù)是信息的重要組成部分,每個人時時刻刻都要和數(shù)據(jù)打交道,數(shù)據(jù)成為現(xiàn)代社會生活不可或缺的因素。數(shù)據(jù)根據(jù)其來源和用途可以大致分為科學(xué)數(shù)據(jù)、社會數(shù)據(jù)和商業(yè)數(shù)據(jù)??茖W(xué)數(shù)據(jù)是自然現(xiàn)象、科學(xué)試驗(yàn)和工程項(xiàng)目的過程和結(jié)果的記錄,社會數(shù)據(jù)是社會非商業(yè)活動的事件記錄,如人口、教育、犯罪等數(shù)據(jù)。商業(yè)數(shù)據(jù)是經(jīng)濟(jì)和商業(yè)活動的記錄,如宏觀經(jīng)濟(jì)數(shù)據(jù)、股市數(shù)據(jù)、企業(yè)經(jīng)營數(shù)據(jù)等。這些分類不是絕對的,例如環(huán)境數(shù)據(jù)既是科學(xué)數(shù)據(jù),又是社會數(shù)據(jù)。在商業(yè)活動中,無論是商業(yè)情報、商業(yè)計劃、商業(yè)報表、商業(yè)決策,都離不開數(shù)

4、據(jù)。數(shù)據(jù)展示和處理技術(shù),是商業(yè)活動的一項(xiàng)基本技能。本書的核心,就是介紹商業(yè)活動中基本的數(shù)據(jù)處理方法,用各種模型分析和處理數(shù)據(jù),以及利用數(shù)據(jù)進(jìn)行科學(xué)正確的商業(yè)決策。科學(xué)數(shù)據(jù)的主要特征是數(shù)據(jù)來源、記錄過程和數(shù)據(jù)處理的客觀性??茖W(xué)數(shù)據(jù)要求數(shù)據(jù)的客觀性和可重復(fù)性,數(shù)據(jù)的獲取和處理過程應(yīng)盡可能避免人為因素的影響。而大多數(shù)商業(yè)數(shù)據(jù)本身就是人為活動的結(jié)果,而且一些商業(yè)數(shù)據(jù)的獲得只能依靠問卷調(diào)查來獲得。因此,和科學(xué)數(shù)據(jù)相比,許多商業(yè)數(shù)據(jù)中,人為因素是不可避免的。但是這決不意味著,商業(yè)數(shù)據(jù)可以隨心所欲地編造或篡改。和科學(xué)數(shù)據(jù)一樣,數(shù)據(jù)的客觀性和可重復(fù)性原則同樣是商業(yè)數(shù)據(jù)獲取和處理的基本原則。即在相同環(huán)境下,對于

5、同一個問題,由不同的人一次或多次獲取的數(shù)據(jù),應(yīng)該沒有本質(zhì)的區(qū)別。只有遵從數(shù)據(jù)客觀性和可重復(fù)性原則來獲取和處理數(shù)據(jù),數(shù)據(jù)處理的結(jié)果才有意義。本書介紹的數(shù)據(jù)處理、建模技術(shù)和決策分析方法,主要針對商業(yè)領(lǐng)域。對政府、教育、科研、醫(yī)療衛(wèi)生等非商業(yè)行業(yè)也是適用的。p統(tǒng)計學(xué)(Statistics)是收集數(shù)據(jù)、從變化的數(shù)據(jù)中找出規(guī)律的理論和方法。統(tǒng)計學(xué)方法是現(xiàn)代商業(yè)研究的主要方法之一。統(tǒng)計學(xué)的主要方法:n 描述統(tǒng)計(Descriptive Statistics) 收集和處理數(shù)據(jù),獲取和表達(dá)數(shù)據(jù)的統(tǒng)計特性n 推斷統(tǒng)計(Statistics Inference) 依據(jù)樣本推斷總體的未知參數(shù)n 預(yù)測統(tǒng)計(Predi

6、ctive Statistics) 利用歷史數(shù)據(jù)對未來情況進(jìn)行預(yù)言p數(shù)據(jù)的作用n用圖表直觀展示數(shù)據(jù),便于了解情況n研究變量之間的關(guān)系,發(fā)現(xiàn)數(shù)據(jù)的規(guī)律n研究數(shù)據(jù)的發(fā)展,預(yù)測未來n建立數(shù)據(jù)模型,進(jìn)行數(shù)據(jù)試驗(yàn)n利用數(shù)據(jù)模型,進(jìn)行輔助決策p數(shù)據(jù)、模型與決策的關(guān)系n數(shù)據(jù)是基礎(chǔ),模型是工具,決策是目標(biāo)p數(shù)據(jù)的來源和種類n商務(wù)數(shù)據(jù)的來源l企業(yè)內(nèi)部 生產(chǎn)數(shù)據(jù)、財務(wù)數(shù)據(jù)、銷售數(shù)據(jù)等l企業(yè)外部 行業(yè)數(shù)據(jù)、社會經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)等l其他來源 來自網(wǎng)絡(luò)的數(shù)據(jù)、問卷調(diào)查數(shù)據(jù)等n商務(wù)數(shù)據(jù)的分類l根據(jù)變量個數(shù):單變量數(shù)據(jù) 單一產(chǎn)品的銷售量多變量數(shù)據(jù) 產(chǎn)品的銷售量、成本、利潤等l根據(jù)數(shù)據(jù)的屬性: 數(shù)值型:123.1萬元、23.5、

7、4700點(diǎn)連續(xù)型數(shù)據(jù):123.1萬元、23.5 、離散型數(shù)據(jù): 5個籃板、120個集裝箱、 屬性型:天氣晴、陰、雨;股市升、降;CPI高、中、低;質(zhì)量好、中、差,屬性型數(shù)據(jù)都是離散的。l根據(jù)數(shù)據(jù)的變化 不隨時間變化、相對穩(wěn)定的數(shù)據(jù)稱為靜態(tài)數(shù)據(jù)。 隨時間變化的數(shù)據(jù)稱為動態(tài)數(shù)據(jù)。項(xiàng)目數(shù)據(jù)數(shù)據(jù)性質(zhì)姓名王大明靜態(tài)性別男靜態(tài)出生年月1970年4月靜態(tài)年齡37歲動態(tài)出生地北京靜態(tài)學(xué)歷本科靜態(tài)身高176厘米靜態(tài)體重73公斤動態(tài)年收入13萬元動態(tài)l時間序列數(shù)據(jù)、截面數(shù)據(jù)和面板數(shù)據(jù)1978年2004我國能源生產(chǎn)量(單位:億噸標(biāo)煤)按照時間前后發(fā)生的數(shù)據(jù)稱為時間序列數(shù)據(jù)。年份1978 1980 1985 1989

8、 1990 1991 1992 1993 1994 1995能源生產(chǎn)總量6.26.38.510.110.310.410.711.111.812.9年份1996 1997 1998 1999 2000 2001 2002 2003 2004能源生產(chǎn)總量13.213.212.410.910.612.013.815.918.4序號城市2005年空氣質(zhì)量二級以上的天數(shù)(天)二級以上天數(shù)占全年比例(%)1北京23464.112天津29881.643哈爾濱30182.474上海32288.225廣州33290.962005年五個城市空氣質(zhì)量指標(biāo)如下:同一時間段發(fā)生的數(shù)據(jù)稱為截面數(shù)據(jù)。面板數(shù)據(jù)(panel

9、data) 具有時間序列和截面兩個維度的數(shù)據(jù)成為面板數(shù)據(jù)。有的文獻(xiàn)把panel data譯為“時間序列截面數(shù)據(jù)” 。 例如,中國四個直轄市2000-2004年的GDP(單位:億元)如下表:20002001200120032004北京上海天津重慶89579106810117911128101213911 以上數(shù)據(jù)就是一個面板數(shù)據(jù)。以上數(shù)據(jù)的每一行都是時間序列數(shù)據(jù),每一列都是截面數(shù)據(jù)。l 定類數(shù)據(jù)(Categorical/Nominal Data)由不同類別組成的數(shù)據(jù)稱為定類數(shù)據(jù)。各類數(shù)據(jù)的類型和單位一般都不相同。不同類的數(shù)據(jù)之間有些可以運(yùn)算,有些則不能運(yùn)算。 戶總數(shù)(萬戶)總?cè)丝跀?shù)(萬人)男(萬

10、人)女(萬人)全市204.52651.68332.62319.06市區(qū)120.56401.59204.43197.16桐廬縣14.3239.4420.119.34淳安縣14.6545.1623.3521.81建德市17.2150.8226.3724.45富陽市20.262.7832.0530.73臨安市17.5951.8926.3125.57 問卷調(diào)查中,下列變量的數(shù)據(jù)都是定類數(shù)據(jù)“您的性別” 男 女“您的職業(yè)” 教師 公務(wù)員 企業(yè)主 公司職員 其他“產(chǎn)品銷往” 內(nèi)地 港澳臺 東南亞 西亞 非洲 南美洲 北美洲 澳洲 歐洲l定序數(shù)據(jù)(Ordinal Data)城市重慶德陽綿陽達(dá)縣雅安西昌環(huán)境評

11、價值(無量綱)0.9883 0.1732 0.3172 0.7885 0.3713 0.6037評價等級三級一級二級三級二級二級僅表明對象的排列次序的數(shù)據(jù)稱為定序數(shù)據(jù),定序數(shù)據(jù)之間的差或比值一般沒有意義。問卷調(diào)查中,以下問題獲得的數(shù)據(jù)都是定序數(shù)據(jù):“學(xué)歷” 初中 高中 大學(xué)本科 碩士 博士“年收入” 2萬元以下 2萬元7萬元 712萬元 12萬元以上“居住地” 村鎮(zhèn) 縣城 縣級市 地級市 省城 直轄市l(wèi)定距數(shù)據(jù)(Interval Data) 數(shù)據(jù)沒有絕對的零值,沒有倍數(shù)關(guān)系,只有相互之間的差距有實(shí)際意義。20062006年大學(xué)評價得分(引自年大學(xué)評價得分(引自“中國管理科學(xué)研究院中國管理科學(xué)研

12、究院”)校 名總得分人才培養(yǎng)科學(xué)研究清華大學(xué) 北京大學(xué) 浙江大學(xué) 復(fù)旦大學(xué) 南京大學(xué) 華中科技大學(xué) 上海交通大學(xué) 270.74236.93197.31147.63130.88120.45117.35116.93110.1489.5269.1462.2756.26 51.14 153.80126.80107.7978.49 68.62 64.19 66.21 問卷調(diào)查中,以下問題獲得的數(shù)據(jù)都是定距數(shù)據(jù):“喜好” 非常喜歡 比較喜歡 無所謂 不太喜歡 很不喜歡 “收入” 小于5萬元 5萬元10萬元 10萬元15萬元 15萬元以上“滿意度” 很滿意 比較滿意 一般 不太滿意 很不滿意l定比數(shù)據(jù)(Ra

13、tio Data) 定比數(shù)據(jù)具有明確的零點(diǎn),可以計算數(shù)據(jù)的比率。例如2010年美國的GDP是中國的2.55倍。國家總值(億美元)國家總值(億美元)1美國146,2416英國22,5852中國57,4517意大利20,3663日本53,9088巴西20,2354德國33,0589加拿大15,6365法國25,55410俄羅斯14,769在問卷調(diào)查中,以下問題獲得的數(shù)據(jù)是定比數(shù)據(jù):“年收入為:” 萬元“每周平均上網(wǎng)時間為:” 小時“每次網(wǎng)上購物的平均支出為:” 元l根據(jù)數(shù)據(jù)的連續(xù)性l 離散數(shù)據(jù)屬性數(shù)據(jù)(Attribute Data)數(shù)據(jù)是整數(shù)或者若干可能的結(jié)果之一。例如顧客投訴的次數(shù),產(chǎn)品中不合格

14、的個數(shù),天氣是晴天、陰天或下雨。l 連續(xù)數(shù)據(jù)變量數(shù)據(jù)(Variable Data)數(shù)據(jù)是連續(xù)變量。例如產(chǎn)品的成本、利潤、交貨時間等。數(shù)據(jù)按類型劃分?jǐn)?shù)值數(shù)據(jù)屬性數(shù)據(jù)按相互關(guān)系劃分時序數(shù)據(jù)截面數(shù)據(jù)定類數(shù)據(jù)定序數(shù)據(jù)定距數(shù)據(jù)定比數(shù)據(jù)連續(xù)數(shù)據(jù)離散數(shù)據(jù)按時間劃分靜態(tài)數(shù)據(jù)動態(tài)數(shù)據(jù)按變化劃分p總體(Population)具有特定屬性的對象的全體。例如:n 2010年杭州市年收入在12萬元以上的個人;n 收看北京奧運(yùn)會開幕式的所有電視觀眾。p樣本(Sample)某個總體的一部分。例如:n 10,000個杭州市年收入在12萬元以上的個人;n 1,000位收看北京奧運(yùn)會開幕式的電視觀眾。 由于總體的數(shù)量往往很大,獲

15、取全部信息不可能或代價太高。通過樣本來推斷總體的性質(zhì),是統(tǒng)計學(xué)的主要方法之一??傮w和樣本p 模型是對客觀對象的簡化描述,用于研究客觀對象在變化的環(huán)境中可能出現(xiàn)的結(jié)果。模型分為物理模型、邏輯模型、數(shù)學(xué)模型、計算機(jī)模型等。n三峽水庫泥沙淤積物理模型n精神病發(fā)病機(jī)理的邏輯模型n汽車減震彈簧震動的數(shù)學(xué)模型n駕駛員訓(xùn)練的計算機(jī)模型模型研究具有代價低、可用任何參數(shù)進(jìn)行試驗(yàn)、可重復(fù)試驗(yàn)等優(yōu)點(diǎn),但任何模型都不可避免地和客觀對象或多或少有差距。決策模型p本課程介紹的決策模型n風(fēng)險分析模型(Risk Analysis Models) 不確定環(huán)境下的風(fēng)險評估n決策分析模型(Decision Analysis Mod

16、els) 在幾種備選方案中選擇恰當(dāng)?shù)姆桨竛仿真模型(Simulation Models) 模仿變化的環(huán)境,分析可能出現(xiàn)的結(jié)果n優(yōu)化模型(Optimization Models) 求出在資源限制條件下的最優(yōu)決策方案 決策環(huán)境 決策要求 輸入決策模型p 決策模型通常是數(shù)學(xué)模型和計算機(jī)模型。決策模型的類型:n 描述性模型:如果輸入條件是,那么結(jié)果是。n 優(yōu)化模型:輸入決策應(yīng)該遵從的條件,輸出優(yōu)化的決策方案p 決策模型的運(yùn)行方式 結(jié)果 輸出模型定義模型結(jié)構(gòu)模型參數(shù)p 單元格的引用p 單元格的格式p 數(shù)據(jù)輸入方法p 條件格式工具p 數(shù)據(jù)分列工具p 數(shù)據(jù)透視表p 模擬運(yùn)算表1.2 Excel 基礎(chǔ)實(shí)現(xiàn)Ex

17、cel功能三種方法n Excel內(nèi)置函數(shù)Excel有非常豐富的內(nèi)置函數(shù),學(xué)習(xí)其中一些常用函數(shù)是本課程的重要內(nèi)容nExcel菜單工具同時Excel還有大量菜單工具,包括加載宏工具。其中一些常用的菜單工具和加載宏工具也是本課程必須掌握的內(nèi)容nExcel VBA(Visual Basic Application)編程Excel還提供了VBA編程工具來實(shí)現(xiàn)內(nèi)置函數(shù)和菜單工具不能完成的功能。本課程會提供VBA編程實(shí)現(xiàn)的一個工具數(shù)據(jù)分析工具箱,但不要求掌握VBA編程。VBA編程內(nèi)置函數(shù)實(shí)現(xiàn)Excel功能三種方法之間的關(guān)系菜單工具數(shù)據(jù)單元格=SUM(B$8:B$11)=SUM(C$8:C$11)=SUM(D

18、$8:D$11)=$B$5*B8+$C$5*C8+$D$5*D8=$B$5*B9+$C$5*C9+$D$5*D9=$B$5*B10+$C$5*C10+$D$5*D10=$B$5*B11+$C$5*C11+$D$5*D11=SUM(F8:F11)單元格的相對引用和絕對引用數(shù)據(jù)單元格=SUM(B$8:B$11)=SUM(C$8:C$11)=SUM(D$8:D$11)=$B$6*B8+$C$6*C8+$D$6*D8=$B$6*B9+$C$6*C9+$D$6*D9=$B$6*B10+$C$6*C10+$D$6*D10=$B$6*B11+$C$6*C11+$D$6*D11=SUM(F8:F11)Exce

19、l2007單元格有多種格式,包括:“常規(guī)、數(shù)值、貨幣、會計專用、短日期、長日期、時間、百分比、分?jǐn)?shù)、科學(xué)計數(shù)、文本、其他數(shù)字格式”等12種格式。選定需要定義格式的單元格,打開Excel“數(shù)字”功能區(qū)“常規(guī)”下拉菜單,選擇格式類型就可以定義需要的格式。打開下拉菜單,選擇格式單擊按鈕,打開格式對話窗口單元格的格式Excel 2007的單元格格式設(shè)置單擊“其他數(shù)字格式”,轉(zhuǎn)到數(shù)據(jù)格式對話窗口其中,“常規(guī)”和“文本”兩種格式?jīng)]有格式選項(xiàng),其他格式都有不同的選項(xiàng)。例如“數(shù)值”格式有小數(shù)位數(shù)、是否選用千分位分隔符、負(fù)數(shù)的顯示方式等選項(xiàng)。日期格式把日期系列數(shù)顯示為定義的日期格式。日期系列數(shù)是從1開始的整數(shù),

20、數(shù)字1表示1900年1月1日,2表示1900年1月2日等等。日期系列數(shù)和日期格式的轉(zhuǎn)換如下圖所示:=A2=A3=A20不同的時間格式如下:數(shù)據(jù)輸入是數(shù)據(jù)分析和建模的第一步,采用正確的數(shù)據(jù)輸入方法可以提高數(shù)據(jù)輸入的效率、減少數(shù)據(jù)輸入的錯誤。Excel數(shù)據(jù)輸入的方法有: l直接鍵盤輸入l用自定義格式輸入l輸入序列l(wèi)用“有效性”工具輸入l用條件函數(shù)IF輸入l用字符提取函數(shù)RIGHT、LEFT、MID輸入l用查找函數(shù)VLOOKUP輸入數(shù)據(jù)輸入方法l 直接鍵盤輸入鍵盤輸入是Excel數(shù)據(jù)輸入最基本、最常用的輸入方法。鍵盤輸入遇到的常見問題有:數(shù)值格式輸入的數(shù)字最大為15位,多于15位的數(shù)字將自動轉(zhuǎn)換成科

21、學(xué)計數(shù)格式。例如,常規(guī)或數(shù)值格式的單元格中輸入18位身份證號碼按回車確認(rèn)后,顯示為:3.3106E+17。因此,如果需要輸入15位以上的數(shù)字,需要將單元格定義為文本格式,或者在常規(guī)或數(shù)值格式單元格中,先輸入撇號,然后輸入數(shù)字。用文本格式輸入的身份證號碼,在查找、檢索和計算時會出現(xiàn)一些問題,有時需要把文本格式轉(zhuǎn)換成數(shù)值格式。轉(zhuǎn)換的方法在具體問題中介紹。l自定義格式輸入如果某些單元格中輸入的數(shù)據(jù)有相同的字符,例如,出生于20世紀(jì)、出生地為杭州市的身份證號碼前8個字符“33010619”,可以將需要輸入身份證號碼的單元格定義為“自定義格式”如下:“330106

22、19”。這樣,輸入身份證號碼時,只需要輸入后面10個字符,即可完整顯示身份證號碼。以上“自定義格式”的對話窗口如下:用自定義格式輸入后的效果如下圖。其中黃色的單元格是用”33010619”自定義格式。l 輸入序列1,2,3,4,;一,二,三,四,;A,B,C,D,;甲,乙,丙,丁,;子,丑,寅,卯,等都是序列。Excel2007數(shù)字序列的輸入方法: 輸入數(shù)字序列的前兩個數(shù)字,拖動單元格右下十字鈕,就可以生成數(shù)字序列。 l用Excel菜單“開始編輯填充系列Excel2007輸入自定義序列單擊Office按鈕單擊“Excel選項(xiàng)”單擊“編輯自定義列表”出現(xiàn)“自定義序列”對話窗口對話窗口中,可以在“

23、輸入序列”文本框中輸入自定義序列,也可以“從單元格中導(dǎo)入序列”。Excel2007的數(shù)據(jù)有效性工具l 用“有效性”工具輸入Excel有效性工具是數(shù)據(jù)輸入的常用方法,它可以提高輸入效率,減少輸入錯誤。單擊Excel菜單:“數(shù)據(jù)數(shù)據(jù)有效性”:單擊“數(shù)據(jù)”單擊“數(shù)據(jù)有效性”出現(xiàn)以下“數(shù)據(jù)有效性”對話窗口。其中有四個選項(xiàng)卡:“設(shè)置”、“輸入信息”、“出錯警告”和“輸入法模式”。如果輸入的數(shù)據(jù)是職工出生年月,在“允許”下拉菜單中選定“日期”,輸入“開始日期”和“結(jié)束”日期:如果輸入的數(shù)據(jù)是職工身份證號碼,在“允許”下拉中選定“文本長度”,“數(shù)據(jù)”下拉選定“等于”,“長度”輸入18.“輸入信息”卡片用于用

24、戶定制選定輸入單元格時出現(xiàn)的提示信息。例如,對于輸入身份證號碼的單元格,提示信息如下:當(dāng)選定輸入單元格時,出現(xiàn)提示信息的效果如下:數(shù)據(jù)有效性工具還可以定制輸入出錯警告。定制輸入職工出生日期的“出錯警告”如下圖:定制輸入職工身份證號碼的“出錯警告”如下圖:輸入的身份證號碼不足18位時出現(xiàn)的錯誤警告。有效性工具中,可以建立輸入項(xiàng)目的下拉菜單,特別適合輸入定制的項(xiàng)目。打開“數(shù)據(jù)有效性/設(shè)置/允許”下拉菜單,選定“序列”在“來源”中,輸入定制項(xiàng)目單元格范圍,單擊確定。將光標(biāo)置于選定的C2:C17的每一個單元格,都將出現(xiàn)下拉箭頭。選定下拉菜單中的院校名稱,就可以方便地輸入所選內(nèi)容。l 用條件函數(shù)IF輸入

25、有許多輸入信息之間是有聯(lián)系的,例如18位身份證號碼的第17位表示性別,如果是奇數(shù),表示男性;是偶數(shù),表示女性。數(shù)字是奇數(shù)還是偶數(shù)可以用函數(shù)MOD(number,divisor)來測試,函數(shù)MOD(number,divisor)返回number除以divisor的余數(shù)。number為被除數(shù),divisor為除數(shù)。當(dāng)divisor=2時,如果number是偶數(shù), MOD(number,divisor)=0 或 FALSE如果number是奇數(shù), MOD(number,divisor)=1 或 TRUE因此,如果身份證號碼為A2,性別可以用以下函數(shù)得到:IF(MOD(MID(A2,17,1),2),

26、”男”,”女”)如果出現(xiàn)的條件有兩個以上,可用嵌套的IF函數(shù)實(shí)現(xiàn)。例如:如果獎金發(fā)放金額由考核等級確定:AB1考核等級獎金額度2A20003B10004C0設(shè)考核等級單元格為A2,計算獎金額度的函數(shù)為:IF(A2=“A”,2000,IF(A2=“B”,1000,0)IF函數(shù)嵌套的層數(shù)最多為7層。由于多層嵌套的IF函數(shù)構(gòu)造比較復(fù)雜,容易出錯。多個條件的情況,還是推薦用函數(shù)VLOOKUP來實(shí)現(xiàn)。l 用字符提取函數(shù)RIGHT、LEFT、MID輸入許多數(shù)據(jù)包含不同的信息,例如18位身份證號碼中就包含了出生地、出生日期、性別等信息。身份證中不同位置的數(shù)字對應(yīng)的信息如下:12345678910111213

27、1415161718出生地出生日期序號出生省出生市年份月份日期性別出生縣要從身份證號碼中提取相應(yīng)的信息,就需要用以上三個函數(shù)。123456789101112131415161718出生地出生日期序號出生省出生市年份月份日期性別出生縣設(shè)身份證號碼單元格為A2,提取出生省份:LEFT(A2,2)*10000提取出生市:MID(A2,3,2)*100提取出生縣:MID(A2,3,4)提取出生日期:MID(A2,7,4)&”-”&MID(A2,11,2)&”-”&MID(A2,13,2)提取序號:RIGHT(A2,4)提取性別:MOD(MID(A2,17,1),2) 返

28、回值1為男性,0為女性l 用查找函數(shù)VLOOKUP輸入在表格或數(shù)值數(shù)組的首列查找指定的數(shù)值,并由此返回表格或數(shù)組當(dāng)前行中指定列處的數(shù)值。 VLOOKUP 中的 “V” 代表垂直。VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)lookup_value 為需要在數(shù)組第一列中查找的數(shù)值。col_index_num 為 table_array 中待返回的匹配值的列序號。range_lookup 為一邏輯值,指明函數(shù) VLOOKUP 返回時是精確匹配還是近似匹配。如果為 TRUE (1)或省略,則返回近似匹配值,也就是說,如果找不

29、到精確匹配值,則返回小于 lookup_value 的最大數(shù)值;如果 range_value 為 FALSE(0),函數(shù) VLOOKUP 將返回精確匹配值。table_array 為需要在其中查找數(shù)據(jù)的數(shù)據(jù)表。對于非精確匹配查找, table_array的第一列必須排序,對于精確匹配查找,則不必排序。=VLOOKUP(B3,$G$2:$G$6,2,0)=VLOOKUP(B2,$G$2:$G$6,2,0)=VLOOKUP(B13,$G$2:$G$6,2,0)用VLOOKUP函數(shù)可以實(shí)現(xiàn)多個條件數(shù)據(jù)的查找和輸入。l VLOOKUP在計算個人所得稅中的應(yīng)用 根據(jù)全國人大常委員第二十一次會議對個人所得

30、稅法的修改,工資、薪金所得,以每月收入額減除費(fèi)用三千五百元后的余額,為應(yīng)納稅所得額。所得稅稅率表如下:級數(shù)全月應(yīng)納稅所得額稅率(%)速算扣除數(shù)(元)1 不超過1500元的 302 超過1500元至4500元的部分101053 超過4500元至9000元的部分205554 超過9000元至35000元的部分2510055 超過35000元至55000元的部分3027556 超過55000元至80000元的部分3555057 超過80000元的部分4513505個人所得稅計算表=B11-B12=VLOOKUP(B3,A2:E8,4,1)=VLOOKUP(B3,A2:E8,5,1)=B13*B14-

31、B15年總收入確定為24萬元的條件下,月薪和年終獎的優(yōu)化計算由上表可以看出,當(dāng)月薪發(fā)放為16000元時,月收入和年終獎兩項(xiàng)個人所得稅之和30135元為最低。“條件格式”工具是將符合一定的條件的單元格的格式(邊框、底色、文本格式、文本顏色等)改變?yōu)橛脩舳ㄖ频男问?。條件格式常用于突出顯示某些單元格的內(nèi)容,也可以用于美化Excel表格。條件格式工具單擊“開始”單擊“條件格式”打開“條件格式”,選取“新建規(guī)則”根據(jù)菜單提示建立條件規(guī)則并不是所有的Excel的數(shù)據(jù)都需要用鍵盤輸入,很多數(shù)據(jù)來自網(wǎng)絡(luò)或其他信息系統(tǒng),Excel讀入這些數(shù)據(jù)后,往往需要根據(jù)數(shù)據(jù)不同的屬性,將這些數(shù)據(jù)分為不同的列。Excel菜單

32、:“數(shù)據(jù)分列”的數(shù)據(jù)分列工具就可以完成這一工作。Excel讀入的數(shù)據(jù)有三種情況:1. 字段之間有空格、逗號、制表符等分割符。2. 字段沒有任何分隔符,但每個字段的長度是確定的。3. 字段之間既沒有分隔符,字段的長度也各不相同。對于前兩種情況,Excel分列工具可以方便地實(shí)現(xiàn)分列。第三種情況則需要用戶分析數(shù)據(jù)的特點(diǎn),在字段之間插入分隔符,然后再實(shí)現(xiàn)數(shù)據(jù)分列。數(shù)據(jù)分列工具從網(wǎng)上搜素并下載“身份證號碼和地址對照表”如下:這個表只有一列,其中包括身份證號的前六位和相應(yīng)的地址,兩個字段之間有空格分隔。需要把身份證號和地址分為兩列。選定“數(shù)據(jù)”單擊“分列”打開Excel菜單:“數(shù)據(jù)分列”:彈出“文本分列向

33、導(dǎo)”,選擇“分隔符號”,單擊“下一步”。在“分隔符號”中選定“空格”,預(yù)覽中出現(xiàn)分列的演示。單擊“下一步”。設(shè)置數(shù)據(jù)的類型為“常規(guī)”,單擊“完成”。這樣就完成了數(shù)據(jù)分列。注意到這個數(shù)據(jù)的第一個字段“身份證號”是六個字符,因此也可以用“固定寬度”分列。選定“固定寬度”,單擊“下一步”。用戶可以拖動分列線自定義列寬。單擊“下一步”。同樣可以完成分列。從網(wǎng)上下載的“浙江移動營業(yè)廳”數(shù)據(jù)如下:可以看出其中有“縣區(qū)”、“營業(yè)廳名稱”、“地址”、“營業(yè)廳時間”四個字段,每個字段沒有固定的寬度,也沒有任何分隔符。需要用“替換”工具在“廳”和“店”后面、在“號”后面、在“)”后面添加分隔符“,”,然后分列。這

34、個對話窗口和Excel2003完全相同n 數(shù)據(jù)透視表 數(shù)據(jù)透視表是Excel中的功能強(qiáng)大的工具。運(yùn)用數(shù)據(jù)透視表可以提取Excel表中的某幾個關(guān)鍵數(shù)據(jù),并創(chuàng)建相應(yīng)的交叉統(tǒng)計表格。例如,對于附帶光盤中的“研究所員工資料”:1.3 數(shù)據(jù)透視表和模擬運(yùn)算表1. 分析各“部門”和“男女職工”的人數(shù)。2. 分析“部門/職務(wù)”和“性別/專業(yè)”平均工資。序號姓名性別生日專業(yè)部門職務(wù)職稱學(xué)歷月薪1鄧賽鵬男1954年1月7日計算機(jī)控制研究室副所長高級工程師碩士78002吳起杭男1964年11月9日通信通信研究室工程師本科57003曹平原男1977年11月27日通信通信研究室工程師本科37004馬良男1980年1月

35、1日計算機(jī)控制研究室助理工程師本科31005顧琳英女1962年3月31日管理控制研究室工程師本科59006馬大暉男1968年12月16日計算機(jī)控制研究室工程師碩士51007孫曉斌男1974年4月24日管理光電研究室工程師本科43008車大明男1969年10月28日通信通信研究室工程師本科50009侯顯耀男1976年6月2日計算機(jī)圖形研究室工程師本科3900Excel2007數(shù)據(jù)透視表選定“插入”單擊“數(shù)據(jù)透視表”選擇數(shù)據(jù)區(qū)域和數(shù)據(jù)透視表的位置:在右側(cè)“字段列表”中,選擇行字段、列字段和計數(shù)項(xiàng)得到數(shù)據(jù)透視表:單擊字段的下拉菜單,可以選擇統(tǒng)計的范圍。例如,“部門”中不包括“辦公室”:得到不包括部門

36、“辦公室”的人數(shù)統(tǒng)計:為什么“計數(shù)項(xiàng)”是“姓名”,數(shù)據(jù)區(qū)域出現(xiàn)的數(shù)字是人數(shù)?右鍵單擊數(shù)據(jù)區(qū)域,在右鍵菜單中選定“數(shù)據(jù)匯總依據(jù)”,可以看到當(dāng)前數(shù)據(jù)匯總依據(jù)為“計數(shù)”: 把“姓名”換成“月薪”,把“職稱”放到“部門”下面,把“學(xué)歷”放到“性別”下面,就可以產(chǎn)生行列都是二層,“求和項(xiàng)”為“月薪”的數(shù)據(jù)透視表:右鍵單擊數(shù)據(jù)區(qū)域,將數(shù)據(jù)區(qū)域的屬性定義為“求和”,則數(shù)據(jù)區(qū)域的數(shù)字是“合計工資”。同樣的方法,也可以求“最高工資”、“最低工資”或“平均工資”。您所在的城市:北京南京西安昆明長沙您的性別:男女您的年齡:25歲以下2555歲55歲以上您的年薪:10萬元以下 10萬20萬元 20萬30萬元 30萬元

37、以上您對這輛車外觀的評價:好(5分) 較好(4分) 一般(3分) 較差(2分) 差(1分)您對這輛車動力性能的評價:好(5分) 較好(4分) 一般(3分) 較差(2分) 差(1分)您對這輛車安全性能的評價:好(5分) 較好(4分) 一般(3分) 較差(2分) 差(1分)問卷調(diào)查表的內(nèi)容如下:數(shù)據(jù)透視表在問卷調(diào)查中的應(yīng)用問卷調(diào)查統(tǒng)計表如下,每張問卷產(chǎn)生一行。對汽車外觀評價的統(tǒng)計表如下:對汽車動力評價的統(tǒng)計表如下:對汽車安全性評價的統(tǒng)計表如下:在以上問卷匯總的基礎(chǔ)上,在第4章中,我們將介紹用方差分析的方法,分析不同城市、不同性別、不同年收入的購車人對該車外觀、安全性、和動力性能的評價是否有顯著性的

38、差別。 2xccyvfxcxcxyyvfn 數(shù)據(jù)表數(shù)據(jù)表分為一維數(shù)據(jù)表和二維數(shù)據(jù)表。l 一維數(shù)據(jù)表設(shè)產(chǎn)量為x,固定成本為cf,變動成本為cv,總成本為y,平均成本為 ,則總成本和平均成本的表達(dá)式為:y選定“數(shù)據(jù)”單擊“假設(shè)分析”“數(shù)據(jù)表”打開數(shù)據(jù)表:單擊“數(shù)據(jù)”/“數(shù)據(jù)工具”/“假設(shè)分析”/“數(shù)據(jù)表”彈出以下對話窗口:=B2+B3*B42=B5/B4=B6構(gòu)造一維數(shù)據(jù)表如下:將“數(shù)據(jù)表”的“產(chǎn)量”和“平均成本”兩列數(shù)據(jù)范圍D3:E11選定,打開Excel菜單“數(shù)據(jù)數(shù)據(jù)工具假設(shè)分析數(shù)據(jù)表”,出現(xiàn)“數(shù)據(jù)表”對話窗口。在“輸入引用列的單元格”中輸入B4,單擊“確定”:得到模擬運(yùn)算表的計算結(jié)果如下:從

39、表中可以看到不同產(chǎn)量下的平均成本,當(dāng)產(chǎn)量為105噸時,平均成本最低,為94.87元/噸。=B2+B3*B42=B5/B4=B6n 二維數(shù)據(jù)表創(chuàng)建總成本單元格B5和平均成本單元格B6的計算公式,創(chuàng)建“數(shù)據(jù)表”列變量“固定成本”的變化范圍、行變量“產(chǎn)量”的變化范圍以及“平均成本”單元格F3對單元格B6的引用:在“數(shù)據(jù)表”對話窗口的“輸入引用行的單元格”中輸入自變量“固定成本”的單元格位置B2,“輸入引用列的單元格”中輸入自變量“產(chǎn)量”的單元格位置B4,單擊確定,完成二維“數(shù)據(jù)表”計算。二維數(shù)據(jù)表的計算結(jié)果如下:從上表中可以看出“平均成本”隨“產(chǎn)量”和“固定成本”變化的情況。p 柱形圖與條形圖垂直柱

40、狀組成的圖形稱為柱形圖,水平條狀組成的圖形稱為條形圖。創(chuàng)建我國20012004年第一、第二和第三產(chǎn)業(yè)產(chǎn)值數(shù)量的變化的柱形圖。1.4 數(shù)據(jù)展示圖年份第一產(chǎn)業(yè)第二產(chǎn)業(yè)第三產(chǎn)業(yè)20011.541184.875003.3153020021.611735.298023.6074820031.692816.127413.91880 20042.076817.238724.37206Excel插入數(shù)據(jù)圖形選定“插入”單擊“創(chuàng)建圖表”選擇圖標(biāo)類型,單擊確定。單擊“設(shè)計”菜單項(xiàng),在“圖標(biāo)布局”和“圖表式樣”中選擇需要的布局和式樣:如果選擇有圖表標(biāo)題和坐標(biāo)軸標(biāo)題的布局,則得到如下的圖表。單擊標(biāo)題可以修改標(biāo)題文本。

41、修改橫坐標(biāo)軸:右鍵單擊橫坐標(biāo)軸,選擇右鍵菜單“設(shè)置坐標(biāo)軸格式”,彈出如右對話窗口。在此對話窗口中可以設(shè)置橫坐標(biāo)軸的各種屬性。修改縱坐標(biāo)軸:右鍵單擊縱坐標(biāo)軸,選擇右鍵菜單“設(shè)置坐標(biāo)軸格式”,彈出如右對話窗口。在此對話窗口中可以設(shè)置縱坐標(biāo)軸的各種屬性。修改柱形格式:右鍵單擊任一柱形,選擇右鍵菜單“設(shè)置數(shù)據(jù)系列格式”,彈出如右對話窗口。在此對話窗口中可以設(shè)置數(shù)據(jù)系列的各種屬性。圖表完成。如果需要,可以雙擊圖表中任何一部分進(jìn)行修改。圖表區(qū)分類軸分類軸標(biāo)題數(shù)值軸圖例圖表標(biāo)題系列“第一產(chǎn)業(yè)”繪圖區(qū)數(shù)值軸主要網(wǎng)格線數(shù)值軸標(biāo)題系列“第二產(chǎn)業(yè)”系列“第三產(chǎn)業(yè)”堆積百分比柱形圖的制作是類似的,例如我國200120

42、04年三次產(chǎn)業(yè)的堆積百分比柱形圖如下:年份總量煤 炭石 油天然氣水電19785714440400.81 12971.69 1828.61 1942.90 19806027543518.55 12476.93 1868.53 2411.00 19857668258124.96 13112.62 1687.00 3757.42 19899693473766.77 16575.71 2035.61 4555.90 19909870375211.69 16384.70 2072.76 5033.85 199110378378978.86 17746.89 2075.66 4981.58 1992109

43、17082641.69 19104.75 2074.23 5349.33 199311599386646.77 21110.73 2203.87 6031.64 199412273792052.75 21356.24 2332.00 6996.01 1978年2004年我國能源消費(fèi)總量及組成(單位:萬噸標(biāo)煤)創(chuàng)建“20012004年三次產(chǎn)業(yè)總值.xls”中“第一產(chǎn)業(yè)”、“第二產(chǎn)業(yè)”、“第三產(chǎn)業(yè)”總量的折線圖如下:餅圖:2004年我國煤炭、石油、天然氣、水電消費(fèi)量的餅圖p原油消費(fèi)量和天然氣消費(fèi)量的散點(diǎn)圖其他Excel圖表雷達(dá)圖收益性 安全性 流動性 成長性 生產(chǎn)性企業(yè)10.70.80.80.60

44、.9企業(yè)20.90.60.40.50.7p其他Excel圖表氣泡圖用圖表和曲線圖展示數(shù)據(jù)(21)p數(shù)據(jù)的圖表展示方法總結(jié)優(yōu)點(diǎn):傳達(dá)的信息直觀,數(shù)據(jù)之間的關(guān)系清楚,非常適合作為討論問題時的表達(dá)工具。缺點(diǎn): 1. 不能對數(shù)據(jù)進(jìn)行定量分析。 2. 有些信息容易被故意夸大或隱瞞,如同一組數(shù)據(jù),由于坐標(biāo)刻度不同,既可以解釋為“波動很大”(下左圖),也可以解釋為“波動很小”(下右圖)。用圖表和曲線圖展示數(shù)據(jù)(23)描述數(shù)據(jù)的分布屬性是描述統(tǒng)計的主要內(nèi)容,數(shù)據(jù)的分布屬性包括:l數(shù)據(jù)的頻數(shù)分布和直方圖l數(shù)據(jù)集中屬性的指標(biāo)(平均數(shù)、中位數(shù)、眾數(shù)、比例)l數(shù)據(jù)離散屬性的指標(biāo)(極差、方差、標(biāo)準(zhǔn)差)l數(shù)據(jù)分布形態(tài)的指

45、標(biāo)(偏度、峰度)l數(shù)據(jù)的計數(shù)和求和l數(shù)據(jù)之間的相關(guān)程度的指標(biāo)(相關(guān)系數(shù))Excel中的統(tǒng)計功能有以下三種實(shí)現(xiàn)方法l使用Excel的菜單統(tǒng)計工具l使用Excel統(tǒng)計函數(shù)l使用Excel統(tǒng)計插件(如“PHStat2”、“數(shù)據(jù)分析工具箱”等)1.5 數(shù)據(jù)的分布屬性繪制“飲料全年日銷售量”頻數(shù)直方圖。首先計算365天銷售量的最小值和最大值。確定頻數(shù)統(tǒng)計的分布區(qū)間:統(tǒng)計頻數(shù)分布 繪制頻數(shù)直方圖安裝Excel分析工具單擊Office按鈕單擊“Excel選項(xiàng)”選定“分析工具庫”,單擊“轉(zhuǎn)到”選定“分析工具庫”,單擊“確定”如果是第一次使用分析工具庫,出現(xiàn)以下對話窗口:單擊“是”開始配置Office2007單

46、擊“是”重新啟動系統(tǒng)單擊Office按鈕在“數(shù)據(jù)”選項(xiàng)卡片中出現(xiàn)“數(shù)據(jù)分析”工具圖標(biāo)。單擊“數(shù)據(jù)分析”彈出“數(shù)據(jù)分析”對話窗口打開菜單:數(shù)據(jù)數(shù)據(jù)分析,出現(xiàn)以下窗口:選擇“直方圖”,單擊“確定”。Excel“數(shù)據(jù)數(shù)據(jù)分析直方圖”繪制頻數(shù)直方圖“輸入?yún)^(qū)域”為B2:B366,“接收區(qū)域”為H2:H15,“輸出區(qū)域”為J2,選定“累積百分率”和“圖表輸出”,單擊“確定”得到飲料銷售量356個數(shù)據(jù)的頻數(shù)和頻數(shù)直方圖:$J$2在指定位置J2生成發(fā)生頻數(shù)統(tǒng)計表和頻數(shù)直方圖接收(箱)頻率(天)累積 %13010.2714092.741504113.971606130.681704041.641803751.7

47、81902658.902003067.122103977.812203687.672302494.252401498.08250699.732601100.00其他0100.00合計365注:Excel2003中文版直方圖工具輸出結(jié)果中,frequency誤譯為“頻率”,在統(tǒng)計學(xué)中應(yīng)譯為“頻數(shù)”。用Excel函數(shù)FREQUENCY生成數(shù)據(jù)頻數(shù)圖 先用鼠標(biāo)選擇準(zhǔn)備好的頻數(shù)區(qū)域I2:I15,然后在函數(shù)欄中輸入函數(shù)“=FREQUENCY( )”。從提示可以看出,這個函數(shù)有兩個參數(shù),第一個參數(shù)data_array為銷售量 B2:B366,第二個參數(shù)bin_array為區(qū)間H2:H15。輸入完畢后,按組

48、合鍵“CTRL+SHIFT+ENTER”,頻數(shù)就出現(xiàn)在I2:I15區(qū)域中。Excel有一些函數(shù),它們的輸出結(jié)果不是產(chǎn)生的一個單元格中,而是同時產(chǎn)生的一個區(qū)域中,這樣的函數(shù)稱為“向量函數(shù)”。FREQUENCY就是一個向量函數(shù)。 繪制I2:I15頻數(shù)柱形圖如圖1.54,得到和“數(shù)據(jù)”“分析”“數(shù)據(jù)分析”“直方圖”同樣的結(jié)果。數(shù)據(jù)的分布屬性數(shù)據(jù)的分布屬性包括數(shù)據(jù)的集中屬性、數(shù)據(jù)的分散屬性以及數(shù)據(jù)頻數(shù)的形態(tài)三大類:n 數(shù)據(jù)集中屬性的指標(biāo)l均值A(chǔ)veragel中位數(shù)Medianl眾數(shù)Moden 數(shù)據(jù)的分散屬性的指標(biāo)l極差Rangel方差Variance l標(biāo)準(zhǔn)差Standard Deviationl標(biāo)準(zhǔn)

49、誤Standard Errorn 數(shù)據(jù)頻數(shù)的分布形態(tài)指標(biāo)l偏度Skewnessl峰度Kurtosis算術(shù)平均數(shù)(Average) n設(shè)總體包括N個觀察值x1,x2,.,xN,則總體平均值(均值)為:Nxnii1n設(shè)n個樣本為x1,x2,xn,樣本平均值(均值)為:nxxnii1集中趨勢的測度不同年齡段每周上網(wǎng)時間的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)一組數(shù)據(jù)按大小順序排列以后,處于中間位置的數(shù)據(jù)。對于奇數(shù)組,中位數(shù)是中間的一個,對于偶數(shù)組,中位數(shù)是

50、中間的兩個的平均值。中位數(shù)(Median)=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)眾數(shù)是一組數(shù)據(jù)出現(xiàn)次數(shù)最多的數(shù)值。如果一組數(shù)據(jù)各不相同,則這組數(shù)據(jù)不存在眾數(shù)。“不同年齡段上網(wǎng)時間均值的區(qū)間估計.xls”數(shù)據(jù)的如下:眾數(shù)(Mode)=MODE(B23:B158)=MODE(C23:C279)=MODE(D23:D186)=MODE(E23:E133)=MODE(F23:F86)18歲以下每周上網(wǎng)時間的頻數(shù)圖如下:由頻數(shù)圖可以看到,出現(xiàn)次數(shù)最多的數(shù)據(jù)是每周上網(wǎng)6小時,為

51、28人,因此這組數(shù)據(jù)的眾數(shù)為6。即: MODE(B18:B153)=6以下兩組人群年收入的平均值都等于12萬元,但很明顯它們分布的離散程度是不同的。測量數(shù)據(jù)離散程度的指標(biāo)有:l極差(Range)l方差(Variance)l標(biāo)準(zhǔn)方差(Standard Deviation )離散屬性的測度全距是一組數(shù)據(jù)x1,x2,xn中最大值和最小值之差。即:max(x1,x2,xn)-min(x1,x2,xn)全距可以表示數(shù)據(jù)的離散程度,全距越大離散程度越大。全距只和數(shù)據(jù)中兩個數(shù)值有關(guān),容易受到奇異數(shù)據(jù)的影響。 第一組人群年收入的全距=17-7=10(萬元),第二組人群年收入的全距=22-2=20,第二組人群年

52、收入的離散程度大于第一組人群年的收入。全距(Range)方差分為總體方差和樣本方差。n 總體方差的計算公式為:Nxnii122)(其中xi為第i個數(shù)據(jù),N為總體數(shù)據(jù)的個數(shù),為總體平均數(shù)。方差是數(shù)據(jù)離散程度的指標(biāo),方差越大,離散程度越大。方差的單位是數(shù)據(jù)單位的平方。Excel計算總體方差的函數(shù)是VARP。方差(Variance)n樣本方差的計算公式為1)(122nxxsnii由于實(shí)際處理的數(shù)據(jù)大多數(shù)都是樣本數(shù)據(jù),因此樣本方差應(yīng)用更多。Excel計算樣本方差的函數(shù)是VAR。標(biāo)準(zhǔn)差(Standard deviation)標(biāo)準(zhǔn)差是方差的平方根。n 計算總體標(biāo)準(zhǔn)差的公式為:Nxnii12)(n計算樣本標(biāo)

53、準(zhǔn)差的公式為:1)(12nxxsnii標(biāo)準(zhǔn)差的單位和數(shù)據(jù)的單位相同,因此比方差更容易理解,應(yīng)用也更多。Excel計算總體標(biāo)準(zhǔn)差的函數(shù)是STDEVP,計算樣本標(biāo)準(zhǔn)差的函數(shù)是STDEV。標(biāo)準(zhǔn)差的重要性 很多數(shù)據(jù)都服從所謂的“正態(tài)分布”,例如成年的身高、產(chǎn)品的尺寸、瓶裝飲料的容量等等。 服從正態(tài)分布的數(shù)據(jù),均值為,標(biāo)準(zhǔn)差為。落在(- 3,+ 3 )中的數(shù)據(jù)占總數(shù)據(jù)的99.73%,即只有0.27%的數(shù)據(jù)落在這個范圍以外;落在(- 6,+ 6 )中的數(shù)據(jù)占總數(shù)據(jù)的99.99999%,只有0.000001%即百萬分之一的數(shù)據(jù)落在這個范圍以外。由此可見,標(biāo)準(zhǔn)差是度量數(shù)據(jù)分散程度的重要指標(biāo)。-6 -3 -3

54、-6 99.73% 99.999999% 在工業(yè)生產(chǎn)中,產(chǎn)品的指標(biāo)總會出現(xiàn)波動,一般都把產(chǎn)品指標(biāo)的變動控制在指標(biāo)平均值加減3個標(biāo)準(zhǔn)差的范圍內(nèi),認(rèn)為這是生產(chǎn)正常的標(biāo)志。96624.002953.929543.如果產(chǎn)品指標(biāo)波動超出這個范圍,說明生產(chǎn)系統(tǒng)不正常。 在投資風(fēng)險分析中,評價投資收益有兩個指標(biāo),一個是收益期望值(平均值),另一個是收益的標(biāo)準(zhǔn)差。投資收益的標(biāo)準(zhǔn)差表示投資風(fēng)險的大小,標(biāo)準(zhǔn)差越大,風(fēng)險越大。收益期望值收益標(biāo)準(zhǔn)差低收益低風(fēng)險低收益高風(fēng)險高收益低風(fēng)險高收益高風(fēng)險 標(biāo)準(zhǔn)差是測定數(shù)據(jù)離散程度的標(biāo)志,但由于不同的數(shù)據(jù)數(shù)值大小不同,相同的離散程度,數(shù)值比較大的標(biāo)準(zhǔn)差也會比較大。以下是不同年齡

55、組每周上網(wǎng)時間的統(tǒng)計數(shù)據(jù): 為了比較大小不同的幾組數(shù)據(jù)的離散程度,定義如下的變異系數(shù)(Coefficient of Variation ):均值標(biāo)準(zhǔn)差)變異系數(shù)(CV變異系數(shù)18歲以下18-24歲25-30歲31-40歲40歲以上均值6.588 20.922 20.293 16.324 15.281 標(biāo)準(zhǔn)差2.368 2.221 2.888 2.780 3.658 變異系數(shù)0.359 0.106 0.142 0.170 0.239 正態(tài) CS=0.57左偏 CS=0.92右偏 CS=-0.27n偏態(tài)系數(shù)(Coefficient of Skewness) -1 -0.5 0 0.5 1 近似對稱

56、稍右偏稍左偏明顯右偏明顯左偏CS平均數(shù)中位數(shù)眾數(shù) 對稱分布平均數(shù)中位數(shù)眾數(shù)右偏眾數(shù)中位數(shù)平均數(shù)左偏分布形態(tài)測度313)()2)(1(niixnnnCS Excel中有計算數(shù)據(jù)偏度的函數(shù)“=SKEW(數(shù)據(jù)范圍)”,Excel的偏度公式為: 有的文獻(xiàn)計算數(shù)據(jù)偏度還有其他的公式。例如SPSS計算偏度的公式為:313)() 1(1niixnCS分布形態(tài)測度峰態(tài)系數(shù)測定分布形態(tài)的峰態(tài)系數(shù)(Coefficient of Kurtosis)CK0 尖峰分布CK=-1.13CK=18.24峰態(tài)系數(shù)和直觀的圖示有區(qū)別,圖示和坐標(biāo)刻度有關(guān))3)(2() 1(3)()3)(2)(1() 1(2414nnnxnnnn

57、nCKnii Excel中有計算數(shù)據(jù)峰度的函數(shù)KURT,Excel的偏度公式為: 有的文獻(xiàn)計算數(shù)據(jù)峰度度還有其他的公式。例如SPSS計算偏度的公式為:3)() 1(1414niixnCK Excel以上對數(shù)據(jù)的描述統(tǒng)計的每一項(xiàng)內(nèi)容,也可以單獨(dú)用相應(yīng)的Excel函數(shù)計算。這些函數(shù)是:均值A(chǔ)VERAGE 中位數(shù)MEDIAN眾數(shù)MODE標(biāo)準(zhǔn)差STDEVP(總體) STDEV(樣本)方差VARP (總體)VAR(樣本)偏度SKEW峰度KURT最大值MAX最小值MIN求和SUM計數(shù)COUNT利用以上函數(shù)計算18歲以下組每周上網(wǎng)時間統(tǒng)計指標(biāo)如下:Excel可以對數(shù)據(jù)進(jìn)行各種統(tǒng)計度量,包括平均數(shù)、標(biāo)準(zhǔn)誤、中

58、位數(shù)、眾數(shù)、標(biāo)準(zhǔn)差、樣本方差、峰度、偏度、全距、最大值、最小值、計數(shù)、均值置信區(qū)間等。單擊Excel菜單:“數(shù)據(jù)”/“數(shù)據(jù)分析”,彈出“數(shù)據(jù)分析”對話窗口:Excel 描述統(tǒng)計工具選擇“描述統(tǒng)計”,單擊“確定”。選擇“輸入?yún)^(qū)域”、“分組方式”,在“輸出選項(xiàng)”中選擇“新工作表組”和新工作表名稱,選定“匯總統(tǒng)計”。單擊“確定”。得到18歲以下每周上網(wǎng)時間數(shù)據(jù)的匯總統(tǒng)計結(jié)果:注:Excel2003中文版描述統(tǒng)計工具輸出結(jié)果中,“區(qū)域”是“Range”的誤譯,應(yīng)該譯為“全距”。作為練習(xí),將“數(shù)據(jù)A B C D的描述統(tǒng)計.xls”中四組數(shù)據(jù)用描述統(tǒng)計工具得到相應(yīng)的統(tǒng)計指標(biāo),并創(chuàng)建它們的頻數(shù)圖。數(shù)據(jù)A數(shù)據(jù)

59、B數(shù)據(jù)C數(shù)據(jù)D數(shù)據(jù)A、B、C、D的頻數(shù)圖n 變量之間的因果關(guān)系l 固定資產(chǎn)投資增加和GDP增長l 二氧化碳排放量和平均氣溫上升l 吸煙數(shù)量和年限與肺癌的發(fā)病率n 變量之間的統(tǒng)計關(guān)系l 海水平均溫度與災(zāi)害性天氣天數(shù)(厄爾尼諾現(xiàn)象)l 公司高爾夫球水平與公司股票市場表現(xiàn)l 超市啤酒銷售量和紙尿布銷售量n 具有因果關(guān)系的變量不一定有統(tǒng)計關(guān)系,有統(tǒng)計關(guān)系的變量也不一定有因果關(guān)系。n 了解變量的統(tǒng)計關(guān)系對管理決策具有重要意義。變量之間的統(tǒng)計關(guān)系p變量的相關(guān)系數(shù)中國足球超級聯(lián)賽2006賽季15支球隊?wèi)?zhàn)績統(tǒng)計數(shù)據(jù)如下:中國足球超級聯(lián)賽(簡稱“中超”)“進(jìn)球數(shù)” 和“平均進(jìn)球數(shù)” 的相關(guān)系數(shù)為0.999,它們

60、的散點(diǎn)圖如下??梢钥闯鏊鼈冋嚓P(guān):“進(jìn)球數(shù)”和“失球數(shù)”的相關(guān)系數(shù)為-0.453,可以看出它們負(fù)相關(guān)?!柏?fù)場次”和“積分”的散點(diǎn)圖,相關(guān)系數(shù)為-0.929??梢钥闯鏊鼈冐?fù)相關(guān)?!笆驍?shù)”和“平均積分”的散點(diǎn)圖,相關(guān)系數(shù)為-0.808??梢钥闯鏊鼈冐?fù)相關(guān)。 相關(guān)(Correlation)就是兩個變量之間存在線性關(guān)系。相關(guān)系數(shù)(Correlation Coefficient)用來測定兩個變量之間的相關(guān)程度。變量X與Y的總體相關(guān)系數(shù)為:yxyxYX),cov(,其中,NyxYXniiixi1)(),cov(稱為協(xié)方差(Covariance),x,y,x,y分別是變量X和Y的平均值和標(biāo)準(zhǔn)差。類似地,樣本的相關(guān)系數(shù)為:yxNiiii

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論