ch1數(shù)據(jù)和數(shù)據(jù)展示_第1頁
ch1數(shù)據(jù)和數(shù)據(jù)展示_第2頁
ch1數(shù)據(jù)和數(shù)據(jù)展示_第3頁
ch1數(shù)據(jù)和數(shù)據(jù)展示_第4頁
ch1數(shù)據(jù)和數(shù)據(jù)展示_第5頁
已閱讀5頁,還剩168頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

蔣紹忠編著北京大學出版社2009年12月數(shù)據(jù)、模型與決策第1篇

數(shù)據(jù)與統(tǒng)計

Data,ModelsandDecisions

PartOne:DataandStatistics第1章 數(shù)據(jù)和數(shù)據(jù)展示第2章 概率論和統(tǒng)計學基礎第3章 抽樣和估計第4章假設檢驗第5章 回歸分析第6章 統(tǒng)計預測目錄第7章風險決策和蒙特卡羅模擬第8章風險分析工具CrystalBall第9章管理系統(tǒng)模擬第10章管理系統(tǒng)優(yōu)化第11章多目標決策目錄1.1 數(shù)據(jù)1.2 Excel基礎1.3 數(shù)據(jù)透視表和模擬運算表1.4 數(shù)據(jù)展示圖1.5 數(shù)據(jù)的分布屬性第1章數(shù)據(jù)和數(shù)據(jù)展示“氣象臺今天18點發(fā)布的報告,本市今天晴,最高氣溫12.3℃,最低氣溫5.1℃,偏北風5級。明天天氣預報:小雨,10℃~6℃,微風,降水概率70%”?!?6日上證綜指突破了5000點關口,以5018.18點大幅高開,午后更創(chuàng)下5036.35點的歷史新高。當日上證綜指報收于4998.47點,較前一交易日微漲0.18%”?!敖刂恋谒墓?jié)7分鐘,姚明在場上15投5中得到16分,8個籃板、1次助攻、1次斷球、1次封蓋,并有2次犯規(guī)和2次失誤”?!敖裉毂臼锌諝馕廴局笖?shù)為78,空氣質量描述為良,主要污染物為可吸入顆粒。預計明天空氣污染指數(shù)為40-50,空氣質量描述為優(yōu)?!?.1數(shù)據(jù)以上四段文字分別用不同類型的數(shù)據(jù)發(fā)布了不同的信息。其中“晴”、“小雨”、“最低氣溫12.3℃”、“降水概率70%”、“上證指數(shù)3018.18點”、“得分16分”、“8個籃板”、“空氣污染指數(shù)78”、“空氣質量描述‘優(yōu)’、‘良’”等都是數(shù)據(jù)。數(shù)據(jù)是信息的重要組成部分,每個人時時刻刻都要和數(shù)據(jù)打交道,數(shù)據(jù)成為現(xiàn)代社會生活不可或缺的因素。數(shù)據(jù)根據(jù)其來源和用途可以大致分為科學數(shù)據(jù)、社會數(shù)據(jù)和商業(yè)數(shù)據(jù)。科學數(shù)據(jù)是自然現(xiàn)象、科學試驗和工程項目的過程和結果的記錄,社會數(shù)據(jù)是社會非商業(yè)活動的事件記錄,如人口、教育、犯罪等數(shù)據(jù)。商業(yè)數(shù)據(jù)是經(jīng)濟和商業(yè)活動的記錄,如宏觀經(jīng)濟數(shù)據(jù)、股市數(shù)據(jù)、企業(yè)經(jīng)營數(shù)據(jù)等。這些分類不是絕對的,例如環(huán)境數(shù)據(jù)既是科學數(shù)據(jù),又是社會數(shù)據(jù)。在商業(yè)活動中,無論是商業(yè)情報、商業(yè)計劃、商業(yè)報表、商業(yè)決策,都離不開數(shù)據(jù)。數(shù)據(jù)展示和處理技術,是商業(yè)活動的一項基本技能。本書的核心,就是介紹商業(yè)活動中基本的數(shù)據(jù)處理方法,用各種模型分析和處理數(shù)據(jù),以及利用數(shù)據(jù)進行科學正確的商業(yè)決策??茖W數(shù)據(jù)的主要特征是數(shù)據(jù)來源、記錄過程和數(shù)據(jù)處理的客觀性??茖W數(shù)據(jù)要求數(shù)據(jù)的客觀性和可重復性,數(shù)據(jù)的獲取和處理過程應盡可能避免人為因素的影響。而大多數(shù)商業(yè)數(shù)據(jù)本身就是人為活動的結果,而且一些商業(yè)數(shù)據(jù)的獲得只能依靠問卷調查來獲得。因此,和科學數(shù)據(jù)相比,許多商業(yè)數(shù)據(jù)中,人為因素是不可避免的。但是這決不意味著,商業(yè)數(shù)據(jù)可以隨心所欲地編造或篡改。和科學數(shù)據(jù)一樣,數(shù)據(jù)的客觀性和可重復性原則同樣是商業(yè)數(shù)據(jù)獲取和處理的基本原則。即在相同環(huán)境下,對于同一個問題,由不同的人一次或多次獲取的數(shù)據(jù),應該沒有本質的區(qū)別。只有遵從數(shù)據(jù)客觀性和可重復性原則來獲取和處理數(shù)據(jù),數(shù)據(jù)處理的結果才有意義。本書介紹的數(shù)據(jù)處理、建模技術和決策分析方法,主要針對商業(yè)領域。對政府、教育、科研、醫(yī)療衛(wèi)生等非商業(yè)行業(yè)也是適用的。統(tǒng)計學(Statistics)是收集數(shù)據(jù)、從變化的數(shù)據(jù)中找出規(guī)律的理論和方法。統(tǒng)計學方法是現(xiàn)代商業(yè)研究的主要方法之一。統(tǒng)計學的主要方法:描述統(tǒng)計(DescriptiveStatistics)收集和處理數(shù)據(jù),獲取和表達數(shù)據(jù)的統(tǒng)計特性推斷統(tǒng)計(StatisticsInference)依據(jù)樣本推斷總體的未知參數(shù)預測統(tǒng)計(PredictiveStatistics)利用歷史數(shù)據(jù)對未來情況進行預言數(shù)據(jù)的作用用圖表直觀展示數(shù)據(jù),便于了解情況研究變量之間的關系,發(fā)現(xiàn)數(shù)據(jù)的規(guī)律研究數(shù)據(jù)的發(fā)展,預測未來建立數(shù)據(jù)模型,進行數(shù)據(jù)試驗利用數(shù)據(jù)模型,進行輔助決策數(shù)據(jù)、模型與決策的關系數(shù)據(jù)是基礎,模型是工具,決策是目標數(shù)據(jù)的來源和種類商務數(shù)據(jù)的來源企業(yè)內部生產(chǎn)數(shù)據(jù)、財務數(shù)據(jù)、銷售數(shù)據(jù)等企業(yè)外部行業(yè)數(shù)據(jù)、社會經(jīng)濟統(tǒng)計數(shù)據(jù)等其他來源來自網(wǎng)絡的數(shù)據(jù)、問卷調查數(shù)據(jù)等商務數(shù)據(jù)的分類根據(jù)變量個數(shù):單變量數(shù)據(jù)單一產(chǎn)品的銷售量多變量數(shù)據(jù)產(chǎn)品的銷售量、成本、利潤等根據(jù)數(shù)據(jù)的屬性:數(shù)值型:123.1萬元、23.5℃、4700點……連續(xù)型數(shù)據(jù):123.1萬元、23.5℃、……離散型數(shù)據(jù):5個籃板、120個集裝箱、……屬性型:天氣-晴、陰、雨;股市-升、降;CPI-高、中、低;質量-好、中、差,……屬性型數(shù)據(jù)都是離散的。根據(jù)數(shù)據(jù)的變化不隨時間變化、相對穩(wěn)定的數(shù)據(jù)稱為靜態(tài)數(shù)據(jù)。隨時間變化的數(shù)據(jù)稱為動態(tài)數(shù)據(jù)。 項目數(shù)據(jù)數(shù)據(jù)性質姓名王大明靜態(tài)性別男靜態(tài)出生年月1970年4月靜態(tài)年齡37歲動態(tài)出生地北京靜態(tài)學歷本科靜態(tài)身高176厘米靜態(tài)體重73公斤動態(tài)年收入13萬元動態(tài)時間序列數(shù)據(jù)和截面數(shù)據(jù)年份1978198019851989199019911992199319941995農(nóng)村居民家庭67.761.857.854.858.857.657.658.158.958.6城鎮(zhèn)居民家庭57.556.953.354.554.253.853.050.350.050.1年份199619971998199920002001200220032004農(nóng)村居民家庭56.355.153.452.649.147.746.245.647.2城鎮(zhèn)居民家庭48.846.644.742.139.438.237.737.137.71978年~2004年農(nóng)村與城鎮(zhèn)家庭恩格爾系數(shù)(食品支出占家庭總支出的百分比,單位:%)按照時間前后發(fā)生的數(shù)據(jù)稱為時間序列數(shù)據(jù)。序號城市2005年空氣質量二級以上的天數(shù)(天)二級以上天數(shù)占全年比例(%)1北京23464.112天津29881.643哈爾濱30182.474上海32288.225廣州33290.962005年五個城市空氣質量指標如下:同一時間段發(fā)生的數(shù)據(jù)稱為截面數(shù)據(jù)。定類數(shù)據(jù)(Categorical/NominalData)由不同類別組成的數(shù)據(jù)稱為定類數(shù)據(jù)。各類數(shù)據(jù)的類型和單位一般都不相同。不同類的數(shù)據(jù)之間有些可以運算,有些則不能運算。戶總數(shù)(萬戶)總人口數(shù)(萬人)男(萬人)女(萬人)全市204.52651.68332.62319.06市區(qū)120.56401.59204.43197.16桐廬縣14.3239.4420.119.34淳安縣14.6545.1623.3521.81建德市17.2150.8226.3724.45富陽市20.262.7832.0530.73臨安市17.5951.8926.3125.57定序數(shù)據(jù)(OrdinalData)城市重慶德陽綿陽達縣雅安西昌環(huán)境評價值(無量綱)0.98830.17320.31720.78850.37130.6037評價等級三級一級二級三級二級二級僅表明對象的排列次序的數(shù)據(jù)稱為定序數(shù)據(jù),定序數(shù)據(jù)之間的差或比值一般沒有意義。定距數(shù)據(jù)(IntervalData)數(shù)據(jù)沒有絕對的零值,沒有倍數(shù)關系,只有相互之間的差距有實際意義。2006年大學評價得分(引自“中國管理科學研究院”)校

名總得分人才培養(yǎng)科學研究清華大學北京大學浙江大學復旦大學南京大學華中科技大學上海交通大學270.74236.93197.31147.63130.88120.45117.35116.93110.1489.5269.1462.2756.2651.14153.80126.80107.7978.4968.6264.1966.21定比數(shù)據(jù)(RatioData)

定比數(shù)據(jù)具有明確的零點(0是這組數(shù)據(jù)的原點),可以計算數(shù)據(jù)的比率。例如2008年美國的GDP是中國的4.15倍。國家總值(億美元)人均(美元)1美國139800462802日本52900414803中國3370025204德國32800397105英國25700424306法國25200412007意大利20900359808西班拿大136004147010俄羅斯114008030根據(jù)數(shù)據(jù)的連續(xù)性離散數(shù)據(jù)-屬性數(shù)據(jù)(AttributeData)數(shù)據(jù)是整數(shù)或者若干可能的結果之一。例如顧客投訴的次數(shù),產(chǎn)品中不合格的個數(shù),天氣是晴天、陰天或下雨。連續(xù)數(shù)據(jù)-變量數(shù)據(jù)(VariableData)數(shù)據(jù)是連續(xù)變量。例如產(chǎn)品的成本、利潤、交貨時間等。數(shù)據(jù)按類型劃分數(shù)值數(shù)據(jù)屬性數(shù)據(jù)按相互關系劃分時序數(shù)據(jù)截面數(shù)據(jù)定類數(shù)據(jù)定序數(shù)據(jù)定距數(shù)據(jù)定比數(shù)據(jù)連續(xù)數(shù)據(jù)離散數(shù)據(jù)按時間劃分靜態(tài)數(shù)據(jù)動態(tài)數(shù)據(jù)按變化劃分總體(Population)具有特定屬性的對象的全體。例如:2005年杭州市年收入在12萬元以上的個人;收看北京奧運會開幕式的所有電視觀眾。樣本(Sample)某個總體的一部分。例如:10,000個杭州市年收入在12萬元以上的個人;1,000位收看北京奧運會開幕式的電視觀眾。由于總體的數(shù)量往往很大,獲取全部信息不可能或代價太高。通過樣本來推斷總體的性質,是統(tǒng)計學的主要方法之一。總體和樣本模型是對客觀對象的簡化描述,用于研究客觀對象在變化的環(huán)境中可能出現(xiàn)的結果。模型分為物理模型、邏輯模型、數(shù)學模型、計算機模型等。三峽水庫泥沙淤積物理模型精神病發(fā)病機理的邏輯模型汽車減震彈簧震動的數(shù)學模型駕駛員訓練的計算機模型模型研究具有代價低、可用任何參數(shù)進行試驗、可重復試驗等優(yōu)點,但任何模型都不可避免地和客觀對象或多或少有差距。決策模型本課程介紹的決策模型風險分析模型(RiskAnalysisModels)不確定環(huán)境下的風險評估決策分析模型(DecisionAnalysisModels)在幾種備選方案中選擇恰當?shù)姆桨阜抡婺P停⊿imulationModels)模仿變化的環(huán)境,分析可能出現(xiàn)的結果優(yōu)化模型(OptimizationModels)求出在資源限制條件下的最優(yōu)決策方案

決策環(huán)境決策要求

輸入決策模型決策模型通常是數(shù)學模型和計算機模型。決策模型的類型:描述性模型:如果輸入條件是…,那么結果是…。優(yōu)化模型:輸入決策應該遵從的條件,輸出優(yōu)化的決策方案決策模型的運行方式

結果輸出模型定義模型結構模型參數(shù)單元格的引用單元格的格式數(shù)據(jù)輸入方法條件格式工具數(shù)據(jù)分列工具數(shù)據(jù)透視表模擬運算表1.2Excel基礎數(shù)據(jù)單元格=SUM(B$8:B$11)=SUM(C$8:C$11)=SUM(D$8:D$11)=$B$5*B8+$C$5*C8+$D$5*D8=$B$5*B9+$C$5*C9+$D$5*D9=$B$5*B10+$C$5*C10+$D$5*D10=$B$5*B11+$C$5*C11+$D$5*D11=SUM(F8:F11)單元格的相對引用和絕對引用數(shù)據(jù)單元格=SUM(B$8:B$11)=SUM(C$8:C$11)=SUM(D$8:D$11)=$B$6*B8+$C$6*C8+$D$6*D8=$B$6*B9+$C$6*C9+$D$6*D9=$B$6*B10+$C$6*C10+$D$6*D10=$B$6*B11+$C$6*C11+$D$6*D11=SUM(F8:F11)單元格的格式Excel單元格有多種格式,包括:“常規(guī)、數(shù)值、貨幣、日期、時間、百分比、分數(shù)、科學計數(shù)、文本、特殊、自定義”等11種格式。選定需要定義格式的單元格,打開Excel菜單:格式\單元格,彈出單元格格式對話窗口:其中,“常規(guī)”和“文本”兩種格式?jīng)]有格式選項,其他格式都有不同的選項。例如“數(shù)值”格式有小數(shù)位數(shù)、是否選用千分位分隔符、負數(shù)的顯示方式等選項。日期格式把日期系列數(shù)顯示為定義的日期格式。日期系列數(shù)是從1開始的整數(shù),數(shù)字1表示1900年1月1日,2表示1900年1月2日等等。日期系列數(shù)和日期格式的轉換如下圖所示:=A2=A3=A20不同的時間格式如下:數(shù)據(jù)輸入是數(shù)據(jù)分析和建模的第一步,采用正確的數(shù)據(jù)輸入方法可以提高數(shù)據(jù)輸入的效率、減少數(shù)據(jù)輸入的錯誤。Excel數(shù)據(jù)輸入的方法有:直接鍵盤輸入用自定義格式輸入輸入序列用“有效性”工具輸入用條件函數(shù)IF輸入用字符提取函數(shù)RIGHT、LEFT、MID輸入用查找函數(shù)VLOOKUP輸入數(shù)據(jù)輸入方法直接鍵盤輸入鍵盤輸入是Excel數(shù)據(jù)輸入最基本、最常用的輸入方法。鍵盤輸入遇到的常見問題有:數(shù)值格式輸入的數(shù)字最大為15位,多于15位的數(shù)字將自動轉換成科學計數(shù)格式。例如,常規(guī)或數(shù)值格式的單元格中輸入18位身份證號碼按回車確認后,顯示為:3.3106E+17。因此,如果需要輸入15位以上的數(shù)字,需要將單元格定義為文本格式,或者在常規(guī)或數(shù)值格式單元格中,先輸入撇號’,然后輸入數(shù)字。用文本格式輸入的身份證號碼,在查找、檢索和計算時會出現(xiàn)一些問題,有時需要把文本格式轉換成數(shù)值格式。轉換的方法在具體問題中介紹。自定義格式輸入如果某些單元格中輸入的數(shù)據(jù)有相同的字符,例如,出生于20世紀、出生地為杭州市的身份證號碼前8個字符“33010619”,可以將需要輸入身份證號碼的單元格定義為“自定義@格式”如下:“33010619”@。這樣,輸入身份證號碼時,只需要輸入后面10個字符,即可完整顯示身份證號碼。以上“自定義@格式”的對話窗口如下:用自定義格式@輸入后的效果如下圖。其中黃色的單元格是用”33010619”@自定義格式。注意:自定義格式輸入的數(shù)據(jù)仍為輸入的數(shù)據(jù),不包括@之前的數(shù)據(jù)輸入序列1,2,3,4,…;一,二,三,四,…;A,B,C,D,…;甲,乙,丙,丁,…;子,丑,寅,卯,等都是序列。數(shù)字序列的輸入方法:輸入數(shù)字序列的前兩個數(shù)字,拖動單元格右下十字鈕。用Excel菜單“編輯\填充\序列…”工具生成數(shù)據(jù)序列。定義其他序列的方法:打開Excel菜單“工具\選項\自定義序列”;在對話框中輸入一個序列,單擊“添加”;用單元格選擇選定一個序列,單擊“導入”。定義序列以后,就可以用數(shù)字序列一樣的方法輸入。Excel菜單:“工具\選項\自定義系列”對話窗口如下:2010版本:文件----選項----高級-----常規(guī)-----編輯自定義列表序列可以在對話窗口中直接輸入,單擊“添加”后生成。如下圖:也可以事先在Excel表中輸入序列,然后在對話窗口中選用“從單元格中導入序列”,選定$A$1:$A$7,單擊“導入”生成序列。這種方法比較適合生成較長的序列。自定義序列后,只要輸入序列第一個值,拖動單元格右下十字鈕,就可以輸入整個序列。如圖:用“有效性”工具輸入Excel有效性工具是數(shù)據(jù)輸入的常用方法,它可以提高輸入效率,減少輸入錯誤。打開Excel菜單:“數(shù)據(jù)\有效性”,出現(xiàn)以下“數(shù)據(jù)有效性”對話窗口。其中有四個卡片:“設置”、“輸入信息”、“出錯警告”和“輸入法模式”。其中,“設置”卡片用來設置數(shù)據(jù)的有效性范圍。例如,數(shù)值型數(shù)據(jù)可以設置最小值和最大值、字符型數(shù)據(jù)可以設置字符長度等。一旦輸入的數(shù)據(jù)在有效范圍以外,將會出現(xiàn)出錯警告。例如,職工“出生年月”的值應該在1949年(60歲)到1991年(18歲)之間;手機號碼應該為11位,固話號碼應該為8位,等等。如果輸入的數(shù)據(jù)是職工出生年月,在“允許”下拉菜單中選定“日期”,輸入“開始日期”和“結束”日期:如果輸入的數(shù)據(jù)是職工身份證號碼,在“允許”下拉中選定“文本長度”,“數(shù)據(jù)”下拉選定“等于”,“長度”輸入18.“輸入信息”卡片用于用戶定制選定輸入單元格時出現(xiàn)的提示信息。例如,對于輸入身份證號碼的單元格,提示信息如下:當選定輸入單元格時,出現(xiàn)提示信息的效果如下:數(shù)據(jù)有效性工具還可以定制輸入出錯警告。定制輸入職工出生日期的“出錯警告”如下圖:定制輸入職工身份證號碼的“出錯警告”如下圖:輸入的身份證號碼不足18位時出現(xiàn)的錯誤警告。有效性工具中,可以建立輸入項目的下拉菜單,特別適合輸入定制的項目。打開“允許”下拉菜單,選定“序列”在“來源”中,輸入定制項目單元格范圍,單擊確定。將光標置于選定的C2:C17的每一個單元格,都將出現(xiàn)下拉箭頭。選定下拉菜單中的院校名稱,就可以方便地輸入所選內容。用條件函數(shù)IF輸入有許多輸入信息之間是有聯(lián)系的,例如18位身份證號碼的第17位表示性別,如果是奇數(shù),表示男性;是偶數(shù),表示女性。數(shù)字是奇數(shù)還是偶數(shù)可以用函數(shù)MOD(number,divisor)來測試,函數(shù)MOD(number,divisor)返回number除以divisor的余數(shù)。number為被除數(shù),divisor為除數(shù)。當divisor=2時,如果number是偶數(shù),MOD(number,divisor)=0或FALSE如果number是奇數(shù),MOD(number,divisor)=1或TRUE因此,如果身份證號碼為A2,性別可以用以下函數(shù)得到:

IF(MOD(MID(A2,17,1),2),”男”,”女”)如果出現(xiàn)的條件有兩個以上,可用嵌套的IF函數(shù)實現(xiàn)。例如:如果獎金發(fā)放金額由考核等級確定:AB1考核等級獎金額度2A20003B10004C0設考核等級單元格為A2,計算獎金額度的函數(shù)為:

IF(A2=“A”,2000,IF(A2=“B”,1000,0))IF函數(shù)嵌套的層數(shù)最多為7層。由于多層嵌套的IF函數(shù)構造比較復雜,容易出錯。多個條件的情況,還是推薦用函數(shù)VLOOKUP來實現(xiàn)。用字符提取函數(shù)RIGHT、LEFT、MID輸入許多數(shù)據(jù)包含不同的信息,例如18位身份證號碼中就包含了出生地、出生日期、性別等信息。身份證中不同位置的數(shù)字對應的信息如下:123456789101112131415161718出生地出生日期序號出生省出生市年份月份日期性別出生縣要從身份證號碼中提取相應的信息,就需要用以上三個函數(shù)。123456789101112131415161718出生地出生日期序號出生省出生市年份月份日期性別出生縣設身份證號碼單元格為A2,提取出生省份: LEFT(A2,2)提取出生市: MID(A2,3,2)提取出生縣: MID(A2,3,4)提取出生日期:MID(A2,7,4)&”-”&MID(A2,11,2)&”-”&MID(A2,13,2)提取序號: RIGHT(A2,4)提取性別: MOD(MID(A2,17,1),2)

返回值1為男性,0為女性如果要顯示籍貫呢?用查找函數(shù)VLOOKUP輸入在表格或數(shù)值數(shù)組的首列查找指定的數(shù)值,并由此返回表格或數(shù)組當前行中指定列處的數(shù)值。VLOOKUP中的“V”代表垂直。VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)lookup_value

為需要在數(shù)組第一列中查找的數(shù)值。col_index_num

為table_array中待返回的匹配值的列序號。range_lookup

為一邏輯值,指明函數(shù)VLOOKUP返回時是精確匹配還是近似匹配。如果為TRUE(1)或省略,則返回近似匹配值,也就是說,如果找不到精確匹配值,則返回小于lookup_value的最大數(shù)值;如果range_value為FALSE(0),函數(shù)VLOOKUP將返回精確匹配值。table_array

為需要在其中查找數(shù)據(jù)的數(shù)據(jù)表。對于非精確匹配查找,table_array的第一列必須排序,對于精確匹配查找,則不必排序。=VLOOKUP(B3,$G$2:$H$6,2,0)=VLOOKUP(B2,$G$2:$H$6,2,0)=VLOOKUP(B13,$G$2:$H$6,2,0)用VLOOKUP函數(shù)可以實現(xiàn)多個條件數(shù)據(jù)的查找和輸入。VLOOKUP在計算個人所得稅中的應用=(B13-B14)*VLOOKUP(B13-B14,A2:E10,4,1)-VLOOKUP(B13-B14,A2:E10,5,1)“條件格式”工具是將符合一定的條件的單元格的格式(邊框、底色、文本格式、文本顏色等)改變?yōu)橛脩舳ㄖ频男问健l件格式常用于突出顯示某些單元格的內容,也可以用于美化Excel表格。例如,在根據(jù)考核等級評定獎金的Excel表中,將考核等級為A用紅色表示。選定“考核等級”B2:B13,打開Excel菜單:“格式\條件格式”:條件格式工具在“條件1”下拉菜單中選擇“單元格數(shù)值”,中間下拉菜單選擇“等于”,右側下拉菜單輸入“A”。然后單擊“格式”,選定文本字體和顏色。單擊“確定”。得到效果如下:條件格式也可以用于美化Excel表,運用條件格式前的表格如下:左側下拉菜單選擇“公式”,在右側窗口中輸入公式:MOD(ROW(),2),單擊“確定”?!皸l件格式”產(chǎn)生的效果如下圖:在“條件格式”對話窗口中單擊“添加”,可以增加第二個條件?!皸l件格式”最多可以有三個條件。設置兩個條件的“條件格式”產(chǎn)生的效果如下圖:如果設置的多個條件是互相沖突的,不會出現(xiàn)任何提示,所定義的格式也不會起作用。并不是所有的Excel的數(shù)據(jù)都需要用鍵盤輸入,很多數(shù)據(jù)來自網(wǎng)絡或其他信息系統(tǒng),Excel讀入這些數(shù)據(jù)后,往往需要根據(jù)數(shù)據(jù)不同的屬性,將這些數(shù)據(jù)分為不同的列。Excel菜單:“數(shù)據(jù)\分列”的數(shù)據(jù)分列工具就可以完成這一工作。Excel讀入的數(shù)據(jù)有三種情況:字段之間有空格、逗號、制表符等分割符。字段沒有任何分隔符,但每個字段的長度是確定的。字段之間既沒有分隔符,字段的長度也各不相同。對于前兩種情況,Excel分列工具可以方便地實現(xiàn)分列。第三種情況則需要用戶分析數(shù)據(jù)的特點,在字段之間插入分隔符,然后再實現(xiàn)數(shù)據(jù)分列。數(shù)據(jù)分列工具從網(wǎng)上搜素并下載“身份證號碼和地址對照表”如下:這個表只有一列,其中包括身份證號的前六位和相應的地址,兩個字段之間有空格分隔。需要把身份證號和地址分為兩列。打開Excel菜單:“數(shù)據(jù)\分列”,彈出“文本分列向導”,選擇“分隔符號”,單擊“下一步”。在“分隔符號”中選定“空格”,預覽中出現(xiàn)分列的演示。單擊“下一步”。設置數(shù)據(jù)的類型為“常規(guī)”,單擊“完成”。這樣就完成了數(shù)據(jù)分列。注意到這個數(shù)據(jù)的第一個字段“身份證號”是六個字符,因此也可以用“固定寬度”分列。選定“固定寬度”,單擊“下一步”。用戶可以拖動分列線自定義列寬。單擊“下一步”。同樣可以完成分列。從網(wǎng)上下載的“浙江移動營業(yè)廳”數(shù)據(jù)如下:可以看出其中有“縣區(qū)”、“營業(yè)廳名稱”、“地址”、“營業(yè)廳時間”四個字段,每個字段沒有固定的寬度,也沒有任何分隔符。需要用“替換”工具在“廳”和“店”后面、在“號”后面、在“)”后面添加分隔符“,”,然后分列。

數(shù)據(jù)透視表數(shù)據(jù)透視表是Excel中的功能強大的工具。運用數(shù)據(jù)透視表可以提取Excel表中的某幾個關鍵數(shù)據(jù),并創(chuàng)建相應的交叉統(tǒng)計表格。例如,對于附帶光盤中的“研究所員工資料”:1.3數(shù)據(jù)透視表和模擬運算表分析各“部門”和“男女職工”的人數(shù)。分析“部門/職務”和“性別/專業(yè)”平均工資。序號姓名性別生日專業(yè)部門職務職稱學歷月薪1鄧賽鵬男1954年1月7日計算機控制研究室副所長高級工程師碩士78002吳起杭男1964年11月9日通信通信研究室工程師本科57003曹平原男1977年11月27日通信通信研究室工程師本科37004馬良男1980年1月1日計算機控制研究室助理工程師本科31005顧琳英女1962年3月31日管理控制研究室工程師本科59006馬大暉男1968年12月16日計算機控制研究室工程師碩士51007孫曉斌男1974年4月24日管理光電研究室工程師本科43008車大明男1969年10月28日通信通信研究室工程師本科50009侯顯耀男1976年6月2日計算機圖形研究室工程師本科3900打開菜單:“數(shù)據(jù)>數(shù)據(jù)透視表和數(shù)據(jù)透視圖”選擇圖表類型:選擇數(shù)據(jù)區(qū)域:確定數(shù)據(jù)透視表生成的位置:分別將行字段、列字段和數(shù)據(jù)字段拉到相應的區(qū)域得到數(shù)據(jù)透視表:單擊字段的下拉菜單,可以選擇統(tǒng)計的范圍。例如,“部門”中不包括“辦公室”:得到不包括部門“辦公室”的人數(shù)統(tǒng)計:為什么拉到數(shù)據(jù)區(qū)域的是“姓名”,數(shù)據(jù)區(qū)域出現(xiàn)的數(shù)字是“人數(shù)”?右鍵單擊數(shù)據(jù)區(qū)域,出現(xiàn)右鍵菜單,選定“字段屬性”:可以看到默認的字段屬性為“計數(shù)”,因此數(shù)據(jù)字段出現(xiàn)的數(shù)字是人數(shù)。

把“職稱”拉到“部門”右邊,把“學歷”拉到“性別”下面,把“月薪”拉到數(shù)據(jù)區(qū)域,就可以產(chǎn)生二層數(shù)據(jù)透視表:二層數(shù)據(jù)透視表如下:右鍵單擊數(shù)據(jù)區(qū)域,將數(shù)據(jù)區(qū)域的屬性定義為“求和”,則數(shù)據(jù)區(qū)域的數(shù)字是“合計工資”。同樣的方法,也可以求“最高工資”、“最低工資”或“平均工資”。您所在的城市:□北京 □南京 □西安 □昆明 □長沙您的性別:□男 □女您的年齡:□25歲以下 □25~55歲 □55歲以上您的年薪:□10萬元以下□10萬~20萬元□20萬~30萬元□30萬元以上您對這輛車外觀的評價:□好(5分)□較好(4分)□一般(3分)□較差(2分)□差(1分)您對這輛車動力性能的評價:□好(5分)□較好(4分)□一般(3分)□較差(2分)□差(1分)您對這輛車安全性能的評價:□好(5分)□較好(4分)□一般(3分)□較差(2分)□差(1分)問卷調查表的內容如下:數(shù)據(jù)透視表在問卷調查中的應用問卷調查統(tǒng)計表如下,每張問卷產(chǎn)生一行。對汽車外觀評價的統(tǒng)計表如下:對汽車動力評價的統(tǒng)計表如下:對汽車安全性評價的統(tǒng)計表如下:在以上問卷匯總的基礎上,在第4章中,我們將介紹用方差分析的方法,分析不同城市、不同性別、不同年收入的購車人對該車外觀、安全性、和動力性能的評價是否有顯著性的差別。

模擬運算表模擬運算表分為一維模擬運算表和二維模擬運算表。一維模擬運算表表設產(chǎn)量為x,固定成本為cf,變動成本為cv,總成本為y,平均成本為,則總成本和平均成本的表達式為:=B2+B3*B4=B5/B4=B6構造一維模擬運算表如下:將“模擬運算表”的“產(chǎn)量”和“平均成本”兩列數(shù)據(jù)范圍F3:G17選定,打開Excel菜單“數(shù)據(jù)>模擬運算表”,出現(xiàn)“模擬運算表”對話窗口:得到模擬運算表的計算結果如下:=B2+B3*B4=B5/B4=B6二維模擬運算表創(chuàng)建總成本單元格B5和平均成本單元格B6的計算公式,創(chuàng)建“模擬運算表”列變量“固定成本”的變化范圍、行變量“產(chǎn)量”的變化范圍以及“平均成本”單元格F3對單元格B6的引用:在“模擬運算表”對話窗口的“輸入引用行的單元格”中輸入自變量“固定成本”的單元格位置B2,“輸入引用列的單元格”中輸入自變量“產(chǎn)量”的單元格位置B4,單擊確定,完成二維“模擬運算表”計算。完成模擬運算表的計算。柱形圖與條形圖垂直柱狀組成的圖形稱為柱形圖,水平條狀組成的圖形稱為條形圖。創(chuàng)建我國2001-2004年第一、第二和第三產(chǎn)業(yè)產(chǎn)值數(shù)量的變化的柱形圖。1.4數(shù)據(jù)展示圖年份第一產(chǎn)業(yè)第二產(chǎn)業(yè)第三產(chǎn)業(yè)20011.541184.875003.3153020021.611735.298023.6074820031.692816.127413.9188020042.076817.238724.372061.打開Excel表,單擊“插入圖標”工具圖標,選擇圖表類型-柱形圖和子圖標類型,點擊“下一步”。用圖表和曲線圖展示數(shù)據(jù)(2)2.選擇目標數(shù)據(jù),用鼠標選定B4:D8,單擊“系列”卡片,點擊“下一步”。用圖表和曲線圖展示數(shù)據(jù)(3)3.輸入系列名稱,用鼠標選定“分類(X)軸標志”A5:A8,單擊“下一步”用圖表和曲線圖展示數(shù)據(jù)(4)4.輸入或修改“標題”、“坐標軸”、“網(wǎng)格線”、“圖例”、“數(shù)據(jù)標志”、“數(shù)據(jù)表”等屬性,單擊“下一步”。用圖表和曲線圖展示數(shù)據(jù)(5)5.選擇圖表位置,單擊“完成”。用圖表和曲線圖展示數(shù)據(jù)(6)6.圖表完成。如果需要,可以雙擊圖表中任何一部分進行修改。用圖表和曲線圖展示數(shù)據(jù)(7)圖表區(qū)分類軸分類軸標題數(shù)值軸圖例圖表標題系列“第一產(chǎn)業(yè)”繪圖區(qū)數(shù)值軸主要網(wǎng)格線數(shù)值軸標題系列“第二產(chǎn)業(yè)”系列“第三產(chǎn)業(yè)”7.堆積百分比柱形圖的制作是類似的,例如我國2001-2004年三次產(chǎn)業(yè)的堆積百分比柱形圖如下:用圖表和曲線圖展示數(shù)據(jù)(8)用圖表和曲線圖展示數(shù)據(jù)(9)年份總量煤炭石油天然氣水電19785714440400.8112971.691828.611942.9019806027543518.5512476.931868.532411.0019857668258124.9613112.621687.003757.4219899693473766.7716575.712035.614555.9019909870375211.6916384.702072.765033.85199110378378978.8617746.892075.664981.58199210917082641.6919104.752074.235349.33199311599386646.7721110.732203.876031.64199412273792052.7521356.242332.006996.01………………1978年-2004年我國能源消費總量及組成(單位:萬噸標煤)創(chuàng)建“1978-2004年中國能源消費.xls”中“總量”、“煤炭”、“石油”、“天然氣”、“水電”消費量的折線圖餅圖:2004年我國煤炭、石油、天然氣、水電消費量的餅圖用圖表和曲線圖展示數(shù)據(jù)(17)原油消費量和天然氣消費量的散點圖用圖表和曲線圖展示數(shù)據(jù)(19)其他Excel圖表-雷達圖收益性安全性流動性成長性生產(chǎn)性企業(yè)10.70.80.80.60.9企業(yè)20.90.60.40.50.7用圖表和曲線圖展示數(shù)據(jù)(20)其他Excel圖表-氣泡圖用圖表和曲線圖展示數(shù)據(jù)(21)數(shù)據(jù)的圖表展示方法總結優(yōu)點:傳達的信息直觀,數(shù)據(jù)之間的關系清楚,非常適合作為討論問題時的表達工具。缺點:1.不能對數(shù)據(jù)進行定量分析。

2.有些信息容易被故意夸大或隱瞞,如同一組數(shù)據(jù),由于坐標刻度不同,既可以解釋為“波動很大”(下左圖),也可以解釋為“波動很小”(下右圖)。用圖表和曲線圖展示數(shù)據(jù)(23)描述數(shù)據(jù)的分布屬性是描述統(tǒng)計的主要內容,數(shù)據(jù)的分布屬性包括:數(shù)據(jù)的頻數(shù)分布和直方圖數(shù)據(jù)集中屬性的指標(平均數(shù)、中位數(shù)、眾數(shù)、比例)數(shù)據(jù)離散屬性的指標(極差、方差、標準差)數(shù)據(jù)分布形態(tài)的指標(偏度、峰度)數(shù)據(jù)的計數(shù)和求和數(shù)據(jù)之間的相關程度的指標(相關系數(shù))Excel中的統(tǒng)計功能有以下三種實現(xiàn)方法使用Excel的菜單統(tǒng)計工具使用Excel統(tǒng)計函數(shù)使用Excel統(tǒng)計插件(例如PHStat等)1.5數(shù)據(jù)的分布屬性繪制“飲料全年日銷售量”頻數(shù)直方圖。首先計算365天銷售量的最小值和最大值。確定頻數(shù)統(tǒng)計的分布區(qū)間:統(tǒng)計頻數(shù)分布繪制頻數(shù)直方圖打開菜單:工具>數(shù)據(jù)分析,出現(xiàn)以下窗口:選擇“直方圖”,單擊“確定”。Excel“工具>數(shù)據(jù)分析>直方圖”繪制頻數(shù)直方圖“輸入?yún)^(qū)域”為B2:B366,“接收區(qū)域”為H2:H15,“輸出區(qū)域”為J2,選定“累積百分率”和“圖表輸出”,單擊“確定”得到飲料銷售量356個數(shù)據(jù)的頻數(shù)和頻數(shù)直方圖:$J$2在指定位置J2生成發(fā)生頻數(shù)統(tǒng)計表和頻數(shù)直方圖接收(箱)頻率(天)累積%13010.2714092.741504113.971606130.681704041.641803751.781902658.902003067.122103977.812203687.672302494.252401498.08250699.732601100.00其他0100.00合計365注:Excel2003中文版直方圖工具輸出結果中,frequency誤譯為“頻率”,在統(tǒng)計學中應譯為“頻數(shù)”。用Excel函數(shù)FREQUENCY生成數(shù)據(jù)頻數(shù)圖

先用鼠標選擇準備好的頻數(shù)區(qū)域I2:I15,然后在函數(shù)欄中輸入函數(shù)“=FREQUENCY()”。從提示可以看出,這個函數(shù)有兩個參數(shù),第一個參數(shù)data_array為銷售量B2:B366,第二個參數(shù)bin_array為區(qū)間H2:H15。輸入完畢后,按組合鍵“CTRL+SHIFT+ENTER”,頻數(shù)就出現(xiàn)在I2:I15區(qū)域中。Excel有一些函數(shù),它們的輸出結果不是產(chǎn)生的一個單元格中,而是同時產(chǎn)生的一個區(qū)域中,這樣的函數(shù)稱為“向量函數(shù)”。FREQUENCY就是一個向量函數(shù)。

繪制I2:I15頻數(shù)柱形圖如圖1.54,得到和“工具>數(shù)據(jù)分析>直方圖”同樣的結果。數(shù)據(jù)的分布屬性數(shù)據(jù)的分布屬性包括數(shù)據(jù)的集中屬性、數(shù)據(jù)的分散屬性以及數(shù)據(jù)頻數(shù)的形態(tài)三大類:數(shù)據(jù)集中屬性的指標均值 Average中位數(shù) Median眾數(shù) Mode

數(shù)據(jù)的分散屬性的指標極差 Range方差 Variance標準差 StandardDeviation標準誤 StandardError

數(shù)據(jù)頻數(shù)的分布形態(tài)指標偏度 Skewness峰度 Kurtosis算術平均數(shù)(Average)設總體包括N個觀察值x1,x2,......,xN,則總體平均值(均值)μ為:設n個樣本為x1,x2,……,xn,樣本平均值(均值)為:集中趨勢的測度不同年齡段每周上網(wǎng)時間的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)一組數(shù)據(jù)按大小順序排列以后,處于中間位置的數(shù)據(jù)。對于奇數(shù)組,中位數(shù)是中間的一個,對于偶數(shù)組,中位數(shù)是中間的兩個的平均值。中位數(shù)(Median)=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)眾數(shù)是一組數(shù)據(jù)出現(xiàn)次數(shù)最多的數(shù)值。如果一組數(shù)據(jù)各不相同,則這組數(shù)據(jù)不存在眾數(shù)。“不同年齡段上網(wǎng)時間均值的區(qū)間估計.xls”數(shù)據(jù)的如下:眾數(shù)(Mode)=MODE(B23:B158)=MODE(C23:C279)=MODE(D23:D186)=MODE(E23:E133)=MODE(F23:F86)18歲以下每周上網(wǎng)時間的頻數(shù)圖如下:由頻數(shù)圖可以看到,出現(xiàn)次數(shù)最多的數(shù)據(jù)是每周上網(wǎng)6小時,為28人,因此這組數(shù)據(jù)的眾數(shù)為6。即:

MODE(B18:B153)=6以下兩組數(shù)據(jù)的平均值都等于14,但很明顯它們分布的離散程度是不同的。測量數(shù)據(jù)離散程度的指標有:極差(Range)方差(Variance)標準方差(StandardDeviation)離散屬性的測度全距是一組數(shù)據(jù)x1,x2,…,xn中最大值和最小值之差。即: max(x1,x2,…,xn)-min(x1,x2,…,xn)全距可以表示數(shù)據(jù)的離散程度,全距越大離散程度越大。全距只和數(shù)據(jù)中兩個數(shù)值有關,容易受到奇異數(shù)據(jù)的影響。

數(shù)據(jù)A的全距=18-11=7,數(shù)據(jù)B的全距=39-3=36,數(shù)據(jù)B的離散程度大于數(shù)據(jù)A。全距(Range)方差分為總體方差和樣本方差??傮w方差的計算公式為:其中xi為第i個數(shù)據(jù),N為總體數(shù)據(jù)的個數(shù),μ為總體平均數(shù)。方差是數(shù)據(jù)離散程度的指標,方差越大,離散程度越大。方差的單位是數(shù)據(jù)單位的平方。Excel計算總體方差的函數(shù)是VARP。方差(Variance)序號xixi-μ(xi-μ)2111-39213-113162441841651511613-11712-24μ14σ25.14序號xixi-μ(xi-μ)213-1112127-74931511439256255140065-98174-10100μ14σ2139.57樣本方差的計算公式為由于實際處理的數(shù)據(jù)大多數(shù)都是樣本數(shù)據(jù),因此樣本方差應用更多。Excel計算樣本方差的函數(shù)是VAR。標準差(Standarddeviation)標準差是方差的平方根。計算總體標準差的公式為:計算樣本標準差的公式為:標準差的單位和數(shù)據(jù)的單位相同,因此比方差更容易理解,應用也更多。Excel計算總體標準差的函數(shù)是STDEVP,計算樣本標準差的函數(shù)是STDEV。標準差的重要性切比雪夫定理:任何一組數(shù)據(jù),設它的平均數(shù)為μ,標準差為σ,這組數(shù)據(jù)落在范圍內的數(shù)據(jù)個數(shù)占數(shù)據(jù)總數(shù)的比例,至少是這個定理說明了標準差是數(shù)據(jù)分散程度的一個普遍性的指標。在工業(yè)生產(chǎn)中,產(chǎn)品的指標總會出現(xiàn)波動,一般都把產(chǎn)品指標的變動控制在指標平均值加減3個標準差的范圍內,認為這是生產(chǎn)正常的標志。如果產(chǎn)品指標波動超出這個范圍,說明生產(chǎn)系統(tǒng)不正常。

在投資風險分析中,評價投資收益有兩個指標,一個是收益期望值(平均值),另一個是收益的標準差。投資收益的標準差表示投資風險的大小,標準差越大,風險越大。收益期望值收益標準差低收益低風險低收益高風險高收益低風險高收益高風險

標準差是測定數(shù)據(jù)離散程度的標志,但由于不同的數(shù)據(jù)數(shù)值大小不同,相同的離散程度,數(shù)值比較大的標準差也會比較大。以下是不同年齡組每周上網(wǎng)時間的統(tǒng)計數(shù)據(jù):

為了比較大小不同的幾組數(shù)據(jù)的離散程度,定義如下的變異系數(shù)(CoefficientofVariation):變異系數(shù)18歲以下18-24歲25-30歲31-40歲40歲以上均值6.58820.92220.29316.32415.281標準差2.3682.2212.8882.7803.658變異系數(shù)0.3590.1060.1420.1700.239正態(tài)CS=0.57左偏CS=0.92右偏CS=-0.27偏態(tài)系數(shù)(CoefficientofSkewness)-1-0.500.51近似對稱稍右偏稍左偏明顯右偏明顯左偏CS平均數(shù)=中位數(shù)=眾數(shù) 對稱分布平均數(shù)<中位數(shù)<眾數(shù) 右偏眾數(shù)<

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論