




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、1、數(shù)據(jù)分析概述 1.1定義:數(shù)據(jù)也稱觀測值,是實驗、測量、觀察、調(diào)查等的結(jié)果,常以數(shù)量的形式給出。數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內(nèi)在規(guī)律。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。 1.2 通常需分析的數(shù)據(jù)有商務與經(jīng)濟數(shù)據(jù)、醫(yī)藥統(tǒng)計數(shù)據(jù)、游戲運行數(shù)據(jù)等。數(shù)據(jù)分析工作者需要有多學科背景,首先要對所分析的對象要有比較全面的了解。 1.3 數(shù)據(jù)分析的常規(guī)方法是用excel做統(tǒng)計表與統(tǒng)計圖,專業(yè)方法有模型、回歸分析、時間序列分析、聚類分析、神經(jīng)網(wǎng)絡、正交設計、
2、方差分析、結(jié)構(gòu)方程模型、關(guān)聯(lián)分析等。這些方法的具體內(nèi)涵等用到時再講。第1頁/共31頁 1.4 常用的數(shù)據(jù)分析軟件簡介: spss軟件是全球范圍內(nèi)最流行的數(shù)據(jù)分析軟件;sas軟件具有比較強大的編程功能,適合專業(yè)人士使用;eviews軟件進行計量經(jīng)濟分析的人員用得比較多;dps軟件是浙江大學唐啟義發(fā)明的數(shù)據(jù)分析軟件,它是目前唯一的中國人自己發(fā)明的數(shù)據(jù)分析軟件,是spss軟件與excel的山寨版;其它的數(shù)據(jù)分析軟件還有g(shù)auss與minitab等。這些軟件的基本功能都差不多,只是側(cè)重點有些差別。 excel也有數(shù)據(jù)分析功能,對于一般的數(shù)據(jù)分析用excel也就足夠了,本講后面講述excel函數(shù)與繪圖功
3、能。第2頁/共31頁 1.5 數(shù)據(jù)分析的一般步驟: 1、數(shù)據(jù)的收集、整理、錄入、校對等; 2、對收集的數(shù)據(jù)進行描述性統(tǒng)計分析,選擇數(shù)據(jù)分析的方法。 3、利用已知數(shù)據(jù)建立模型,發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律,并利用模型對未來作出預測或者做出理性的決策。 4、比較預測的數(shù)據(jù)與現(xiàn)實數(shù)據(jù),校正模型,提高預測的準確性或者做出更理性的決策。第3頁/共31頁2、判定數(shù)據(jù)計算錯誤的辦法 2.1 在數(shù)據(jù)收集的過程中,或多或少會出現(xiàn)數(shù)據(jù)誤差或者錯誤。數(shù)據(jù)校對工作者有必要掌握一些判定數(shù)據(jù)計算錯誤的辦法。當然多算幾次會提高計算的準確率,但是數(shù)據(jù)較多時,如何快速有效的判定計算的正誤就需要一些專業(yè)的方法了。 2.2 位數(shù)估計與首位、
4、末尾數(shù)據(jù)校對法:這是一個簡單的辦法,當你沒有時間來校對數(shù)據(jù)時可以采用此法做些粗略的判斷。第4頁/共31頁 2.3 棄九法:此法的數(shù)學原理是利用同余的性質(zhì)。我們先從例子開始敘述: 加法: 例1:假設商品一的銷售金額為1568964元,商品二的銷售金額為3625878元,統(tǒng)計表上兩者的結(jié)果為5194742元,問此表有沒有問題?我們計算1568964的各位數(shù)字的和,注意超過9就取除以9的余數(shù)即可,這樣我們可以口算得到數(shù)字3,同理3625878可以用棄九法得到數(shù)字3,5194742用棄九法得到數(shù)字5,由于3+3=6不是5,故可以判定數(shù)據(jù)計算有誤。 減法:我們可以先轉(zhuǎn)化到加法,再用棄九法判斷。第5頁/共
5、31頁12121010aaaaaannn 乘法: 例2:假設某件商品的單價是137元,銷售量為128793件,經(jīng)計算得到17653741,判斷此計算結(jié)果的正誤。137用棄九法處理等于2,128793經(jīng)處理等于3,那么23=6,17653741經(jīng)處理等于7,故可以判定數(shù)據(jù)計算失誤。我們用正確的數(shù)據(jù)來驗證棄九法的合理性,正確結(jié)果應該是17644641,此數(shù)經(jīng)棄九法處理等于6,滿足棄九法。 除法:我們可以先轉(zhuǎn)換到乘法,再用棄九法處理。 棄九法的數(shù)學原理:記第6頁/共31頁 那么此數(shù)除以九之后所得余數(shù)與各位數(shù)字相加除以九之后得到的結(jié)果相同。即由于99)110(910nnnnnaaa99910222aa
6、a9911aa) 9(mod1212aaaaaann即第7頁/共31頁 最后一個式子表示兩邊除以九后的余數(shù)相同,是同余理論中的符號。 不知道聽者有沒有發(fā)現(xiàn),用棄九法判斷計算的正確性有時候失效,實質(zhì)上用此法判斷計算正誤,如果判斷計算是錯誤的,那么一定是計算錯了,但是判斷是正確的,卻實質(zhì)上計算不一定正確。例如上面的乘法的例子,如果我們計算得到17554641,那么按照棄九法,不能判斷出此結(jié)果是錯誤的,但是實質(zhì)結(jié)果應當是17644641。 不過由于出現(xiàn)計算錯誤的原因一般是忘記進位,或者用計算機計算時少輸入一個數(shù)字等,故用棄九法來檢驗計算的正確性還是比較有效的。第8頁/共31頁3、描述性統(tǒng)計 3.1
7、頻數(shù)與頻率:頻數(shù)指樣本中某數(shù)據(jù)出現(xiàn)的次數(shù);頻率指頻數(shù)除以樣本的數(shù)目。 例3:我們分析下列數(shù)據(jù): 上面數(shù)據(jù)中2出現(xiàn)的頻數(shù)為3,頻率為3/20=0.15。 我們在RFM模型中會遇到這樣的數(shù)據(jù)組。13243521523434133434第9頁/共31頁 我們用excel函數(shù)求上面數(shù)據(jù)的頻數(shù)與頻率:假如我們依次把以上數(shù)據(jù)輸入在A1到A20中,那么我們可以在B1中用countif函數(shù)計算2出現(xiàn)的頻數(shù),即輸入=countif(A1:A20,2)即可得到2的頻數(shù)為3;我們在B2中輸入=B2/20或者=countif(A1:A20,2)/20即可。 注: 1.我們可以用=count(A1:A20)計算這組數(shù)據(jù)
8、的個數(shù)。 2.當數(shù)據(jù)很多時,用excel函數(shù)計算頻數(shù)與頻率是個很好的辦法。 3.用spss等數(shù)據(jù)分析專門的軟件也有此功能,實際上后面提到excel函數(shù)與圖表功能用spss等數(shù)據(jù)分析專門的軟件都能做,并且效果可能更好。第10頁/共31頁 下面用excel繪圖功能畫出這組數(shù)據(jù)的頻數(shù)分布圖: 我們先把這組數(shù)據(jù)中1,2,3,4,5的頻數(shù)計算出來,得到3,3,7,5,2;依次輸入到C1,C5單元格中;然后選擇excel中的圖表向?qū)Вó斎籶pt中也有繪圖功能),選擇直方圖,隨意選擇一種子圖表類型,點擊下一步,接下來在出現(xiàn)的界面中的數(shù)據(jù)區(qū)域輸入=sheet1!$C$1:$C$5;系列選擇列;點擊下一步,在圖
9、表標題中輸入頻數(shù)分布圖,分類軸中輸入數(shù)值,數(shù)值中輸入頻數(shù),點擊完成得到下圖:第11頁/共31頁0246812345頻數(shù)分布圖數(shù)值頻數(shù)系列1第12頁/共31頁 做頻數(shù)分布圖與上面的方法類似,不過我們?yōu)榱烁蜗笠幌拢x擇餅圖,作圖如下:頻率分布圖0.15 0.15 0.35 0.25 0.10 12345第13頁/共31頁 3.2平均數(shù):表示一組數(shù)據(jù)的總和除以數(shù)據(jù)的個數(shù)。 我們用excel函數(shù)計算例3那組數(shù)據(jù)的平均值,即=average(a1:a20),經(jīng)excel計算得到3. 3.3數(shù)學期望(用E表示):變量的一切可能取值與其對應的概率P的乘積之和稱為數(shù)學期望。實際上就是一組數(shù)據(jù)的加權(quán)平均值。這
10、組數(shù)據(jù)中1,2,3,4,5出現(xiàn)的概率分別為:0.15,0.15,0.35,0.25,0.10 ,故E=1*0.15+2*0.15+3*0.35+4*0.25+5*0.10=3,與平均數(shù)相同。第14頁/共31頁 3.4方差( ):方差就是所有數(shù)據(jù)偏差的平方和除以數(shù)據(jù)的總數(shù)。即 這里 是平均值。我們用excel函數(shù)計算例3中那組數(shù)據(jù)的方差,即=var(a1:a20),經(jīng)計算得1.473684. 注:對于樣本的方差,數(shù)學上取樣本數(shù)據(jù)偏差的平方和除以(樣本數(shù)據(jù)總數(shù)減一),這樣處理是可以有更優(yōu)良的統(tǒng)計性質(zhì),即無偏性: 具體證明要用到比較多的數(shù)學知識,excel中的var函數(shù)也是這樣計算的,聽者可以參看該
11、函數(shù)的幫助功能。 3.5標準差 :即方差的算術(shù)平方根。excel函數(shù)計算表達式為=stdevp(a1:a20),經(jīng)計算得1.213954.)1/()(21nxxnii2x221)1/)(nxxEnii第15頁/共31頁nyEyxExyxniii1)()(),cov( 3.6協(xié)方差(cov):我們直接用公式定義: 我們計算a1:a10,a11:a20這兩組數(shù)據(jù)的協(xié)方差,用excel函數(shù)計算的表達式=covar(a1:a10,a11:a20),可得到-0.16. 第16頁/共31頁 3.7相關(guān)系數(shù):定義式為 計算a1:a10,a11:a20這兩組數(shù)據(jù)的相關(guān)系數(shù),excel函數(shù)的表達式為 =corr
12、el(a1:a10,a11:a20),可得-0.13109. 以上為數(shù)據(jù)分析中經(jīng)常碰到的幾個基本概念。yxxyyx),cov(第17頁/共31頁 3.8現(xiàn)在有必要對excel函數(shù)做一個大概的總述了,數(shù)據(jù)分析用到的excel函數(shù)一般是以下三類:1.數(shù)學與三角函數(shù);2.統(tǒng)計函數(shù);3.邏輯函數(shù)。財務的同事對excel函數(shù)可能比我可精通,因為excel中有大量的財務函數(shù),及查找與引用函數(shù)。 我們用excel函數(shù)可以做基本的四則混合運算,也可以求對數(shù)、三角函數(shù)等,例如求sin45的值,不過excel只能識別弧度制的角,故先要換算,excel函數(shù)的表達式為: =sin(45*pi()/180)或者=sin
13、(radians(45),這里pi表示圓周率,radians表示弧度,可得到結(jié)果為0.707107.第18頁/共31頁 3.9數(shù)據(jù)分析中對excel繪圖功能也用得比較多,下面再介紹幾種圖表的繪制方法: 1:折線圖,做時間序列分析時用得比較多。 時間序列數(shù)據(jù)指的數(shù)據(jù)按時間變動的一組數(shù)據(jù),例如2000年到2010年中國的GDP數(shù)據(jù),銷售人員1月份到12月份的銷售量數(shù)據(jù),最近一個月內(nèi)的股票收盤價數(shù)據(jù)等都是時間序列數(shù)據(jù)。 與時間序列數(shù)據(jù)對應的是截面數(shù)據(jù),即固定時間的數(shù)據(jù),如2010年世界各國的GDP數(shù)據(jù),某交易日股票收盤價數(shù)據(jù)。第19頁/共31頁 例4:某銷售人員1月份到8月份的銷售量數(shù)據(jù)如下,請用折
14、線圖描述出來。月份月份12345678件325336378421368370290387第20頁/共31頁 我們按照作圖步驟可得到一下圖像:0100200300400500123456781月份到八月份的銷售量12345678325336378421368370290387月份件月份件第21頁/共31頁 2:散點圖 例5:我們分析價格與銷售量的數(shù)據(jù),收集到的資料如下: 我們思考以下問題:價格與銷售量的函數(shù)表達式?并預測單價下降到30時的銷售量?銷售金額最大化時的價格與銷售量分別是多少? 具體計算涉及到回歸分析,我們本講先畫去散點圖,看價格與銷售量的關(guān)系如何。單價單價45424038373532
15、銷售量102105108110112115120第22頁/共31頁 我們按照以前的方法畫出散點圖如下: 注意添加趨勢線,以便觀察單價與銷售量的關(guān)系。 我們觀察散點圖,可以知道它們是近似線性的關(guān)系,這條趨勢線的方程如何得到,等回歸分析再講。909510010511011512012501020304050單價與銷售量的關(guān)系102105108110112115120單價銷售量系列1線性 (系列1)第23頁/共31頁4、正態(tài)分布與數(shù)據(jù)標準化222)(21)(xexf 4.1正態(tài)分布:概率論中最重要的一種分布,也是自然界最常見的一種分布。該分布由兩個參數(shù)平均值和方差決定。概率密度函數(shù)曲線以均值為對稱中
16、線,方差越小,分布越集中在均值附近。概率密度函數(shù)的表達式為:第24頁/共31頁 這里 為均值, 為標準差。概率密度函數(shù)指的是滿足以下兩個條件的函數(shù):1: ;2: 或者 ,前面指的是離散形式,后者指連續(xù)形式。 實際中,例如一個省所有學生的高考成績,大量的銷售量數(shù)據(jù)等,近似地服從正態(tài)分布,我們可以先通過做頻數(shù)分布圖,再添加趨勢線,可以得到近似的正態(tài)分布圖。 學過概率論的人知道,由中心極限定理,許多其他分布的極限形式都是正態(tài)分布,也就是說數(shù)據(jù)越多,成為正態(tài)分布的趨勢越明顯。1)(ixf0)(ixf1)( dxxf第25頁/共31頁 我們用excel畫出標準正態(tài)分布 的圖像。首先我們求x對應的函數(shù)值,
17、得到數(shù)據(jù)表如下:2221)(xexf-4-2-1.414-1011.414240.0001340.0539910.1467630.2419710.398942280.2419707250.1467626630.0539909670.00013383第26頁/共31頁 我們用平滑散點圖的辦法得到如下圖形:00.10.20.30.40.5-6-4-20246標準正態(tài)分布的圖像系列1第27頁/共31頁 正態(tài)曲線下面積分布: 1實際工作中,正態(tài)曲線下橫軸上一定區(qū)間的面積反映該區(qū)間的數(shù)據(jù)占總數(shù)據(jù)的百分比,或變量值落在該區(qū)間的概率(概率分布)。不同 范圍內(nèi)正態(tài)曲線下的面積可用公式計算。 2.幾個重要的面積比例軸與正態(tài)曲線之間的面積恒等于1。正態(tài)曲線下,橫軸區(qū)間(-,+)內(nèi)的面積為0.68,橫軸區(qū)間(-1.96,+1.96)內(nèi)的面積為0.95,橫軸區(qū)間(-2.58,+2.58)內(nèi)的面積為0.9973。 3.我們可以用excel函數(shù)驗證第2條的性質(zhì)。我們在標準正態(tài)分布的條件下驗證,即=0,=1,的情況下。如在(-1.96,1.96)區(qū)間內(nèi)面積的計算,由正態(tài)分布的對稱性,我們先求(-,-1.96)時的標準正態(tài)分布曲線下的面積,用excel函數(shù)的表達式為=normsdist(-1.96) ,可得
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第二單元 第2節(jié) 探秘智能家居 教學設計 -2023-2024學年粵教清華版初中信息技術(shù)八年級下冊
- 人教版初中歷史與社會八年級上冊 4.1.1 三國鼎立與西晉的統(tǒng)一 教學設計
- 高中信息技術(shù)選修5教學設計-6.2.1 人工智能對人類的影響-教科版
- Unit 3 The Internet Discovering Useful Structures 教學設計-2023-2024學年高中英語人教版(2019)必修第二冊
- 短期公寓租賃合作合同(3篇)
- 第11課 遼宋夏金元的經(jīng)濟、社會與文化 教學設計-2024-2025學年高中歷史統(tǒng)編版(2019)必修中外歷史綱要上冊
- 2025年服務器遷移合同模板
- 2025年標準化基質(zhì)土購銷合同模板
- 2025年二手汽車抵押借款合同范文
- 2025年北京市租賃房屋代理合同范本
- 杭州市淳安縣國有企業(yè)招聘筆試真題2024
- 安徽省蕪湖市2024-2025學年第一學期期末考試七年級語文試卷(含答案)
- 2024政府采購評審專家考試真題庫及答案
- 2024年花盆市場分析現(xiàn)狀
- 2025山東省退役軍人事務廳所屬事業(yè)單位招聘人員歷年高頻重點提升(共500題)附帶答案詳解
- 2024年社區(qū)工作者考試時事政治模擬題及答案
- 物業(yè)服務行業(yè)禮儀培訓
- 退市新規(guī)解讀-上海證券交易所、大同證券
- 教育部中國特色學徒制課題:現(xiàn)代職業(yè)教育體系建設背景下中國特色學徒制治理體系與資源配置研究
- 22陳涉世家 司馬遷 公開課一等獎創(chuàng)新教學設計 度部編版初中語文九年級下冊
- 外墻真石漆施工方案
評論
0/150
提交評論