![數(shù)據(jù)分析方法簡介_第1頁](http://file4.renrendoc.com/view10/M00/24/0A/wKhkGWVwX7yAQ2KjAACYAikwFyc062.jpg)
![數(shù)據(jù)分析方法簡介_第2頁](http://file4.renrendoc.com/view10/M00/24/0A/wKhkGWVwX7yAQ2KjAACYAikwFyc0622.jpg)
![數(shù)據(jù)分析方法簡介_第3頁](http://file4.renrendoc.com/view10/M00/24/0A/wKhkGWVwX7yAQ2KjAACYAikwFyc0623.jpg)
![數(shù)據(jù)分析方法簡介_第4頁](http://file4.renrendoc.com/view10/M00/24/0A/wKhkGWVwX7yAQ2KjAACYAikwFyc0624.jpg)
![數(shù)據(jù)分析方法簡介_第5頁](http://file4.renrendoc.com/view10/M00/24/0A/wKhkGWVwX7yAQ2KjAACYAikwFyc0625.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
數(shù)據(jù)分析方法簡介數(shù)據(jù)分析作圖法柱形圖和條形圖 折線圖和組合圖 餅圖和四象限散點圖 統(tǒng)計分析概率論描述性統(tǒng)計假設檢測方差分析回歸分析(一元)聚類分析K-mean支持向量機神經(jīng)網(wǎng)絡作圖法:柱形圖和條形圖
條形圖,兩個數(shù)據(jù)系列
疊加條形圖表2135408454
柱形圖
旋風狀圖(水平堆疊圖)類別A類別B類別C類別D類別E類別F類別G類別H線性圖餅圖
四象限散點圖11.40511.50511.60511.70511.80511.90512.00512.10512.20512.30512.405頻數(shù)頻數(shù)直方圖統(tǒng)計分析:基礎概率學那么數(shù)據(jù)分布性質(zhì)平均數(shù)中位數(shù)眾數(shù)集中趨勢極差方差標準差離散趨勢偏態(tài)分布形態(tài)四分位差峰度描述統(tǒng)計分析平均數(shù)是將總體中所有個體的數(shù)量標志差異抽象化,用以反映現(xiàn)象在一定時間、地點條件下的一般水平或代表性水平.對象:個體單位的數(shù)量差異;手段:將數(shù)量差異抽象化,即去差異;目的:反映各個個體現(xiàn)象數(shù)值的一般水平,代表性水平僅適用于定距變量。(單位數(shù)必須一樣)平均數(shù)將總體中的各個個體數(shù)值按照大小順序排列,居于中間位置的數(shù)值,便是中位數(shù)。中位數(shù)中位數(shù)它把觀察總數(shù)一分為二,其中一半具有比它小的變量值,另一半具有比它大的變量值。所以,中位值是數(shù)據(jù)序列之中央位置的值。是一種集中趨勢或平均指標位于中間位置的數(shù)值如果數(shù)據(jù)為奇數(shù)項,中位數(shù)是中間位置的數(shù)值如果數(shù)據(jù)為偶數(shù)項,中位數(shù)是中間位置兩個數(shù)值的平均數(shù)是一種位置平均數(shù)不受總體中極值的影響中位數(shù)用具有頻數(shù)最多的值來表示變量的集中值。適用于任何層次的變量,只要知道頻次分布,就能找到眾值。因此,它最易求出,也特別適用于單峰對稱的情況。也是比較兩個分布是否相近首先要考慮的參數(shù)。對于多峰的圖形,由于眾值不唯一,用此法就不適當了。眾數(shù)1.三值都是希望通過一個數(shù)值來描述整體特征,以便簡化資料。都是反映了變量的集中趨勢。2.眾值僅使用于了資料中最大頻次數(shù),因此,資料使用是不完全的;中位值只考慮了變量的順序和居中位置,對不按序排序的數(shù),不在中位的數(shù)值的大或小反映不出來;均值既考慮到頻次,又考慮到變量值的大小,因此,反映最靈敏。3.雖然均值對資料信息利用最充分,但對嚴重偏態(tài)的分布,會失去它應有的代表性。只對單峰和基本對稱的圖形,用均值作為集中趨勢才是合理的。對偏態(tài)的分布,應使用中位值作為集中趨勢。眾數(shù)、中數(shù)和均數(shù)的比較對稱圖形偏態(tài)圖形偏態(tài)圖形眾值中位值均值眾值中位值均值眾值均值中位值偏態(tài)和三值的關系是測定總體中各個個體單位標志值差異的變動范圍或差異程度的指標。離散趨勢測量的是數(shù)據(jù)的分散程度,就是樣本中最大值與最小值之差。反映標志值的變動范圍極差計算簡便,易于理解,應用普遍。極差=最大標志值-最小標志值極差一組數(shù)據(jù)中,各數(shù)據(jù)與它們的平均數(shù)的差的平方的平均數(shù)。方差一般步驟:求平均-再求差-然后平方-最后再平均計算公式:標準差是一組數(shù)值自平均值分散開來的程度的一種測量觀念。一個較大的標準差,代表大部分的數(shù)值和其平均值之間差異較大;一個較小的標準差,代表這些數(shù)值較接近平均值。標準差理想的分布形態(tài)是對稱的,但在現(xiàn)實生活中,現(xiàn)象之分布并不完全對稱,而是或多或少地不同程度地存在著非對稱情況,在統(tǒng)計上將這個非對稱分布稱為偏態(tài)。表征概率分布密度曲線相對于平均值不對稱程度的特征數(shù)。偏度偏度如果偏度=0,則表明此分布為對稱分布;如果偏度<0,則表明此分布為左偏態(tài),此時數(shù)據(jù)位于均值左邊的比位于右邊的多;如果偏度>0,則表明此分布為右偏態(tài),此時數(shù)據(jù)位于均值右邊的比位于左邊的多;非對稱分布稱為偏態(tài)峰度峰度是表明一個次數(shù)分布陡峭或平緩的指標。一個總體分布的峰度越大,分布形態(tài)便越陡峭,總體的數(shù)值便越集中一個總體分布峰度越小,分布形態(tài)便越平緩,總體的數(shù)值便越分散,差異便越用EXCEL進行描述性統(tǒng)計工具——數(shù)據(jù)分析——描述統(tǒng)計檢驗假設事先對總體參數(shù)或分布形式作出某種假設然后利用樣本信息來判斷原假設是否成立采用邏輯上的反證法,依據(jù)統(tǒng)計上的小概率原理假設檢驗的基本思想提出原假設和備擇假設確認適當?shù)慕y(tǒng)計檢驗量規(guī)定顯著性水平計算檢驗統(tǒng)計量的值作出統(tǒng)計決策步驟顯著性水平與拒絕域未知總體方差—雙尾T檢驗用EXCEL進行假設檢驗工具—數(shù)據(jù)分析-t檢驗-雙樣本等方差假設P值小于0.05,有顯著差異方差分析目的:檢驗多個總體均值是否相等通過分析數(shù)據(jù)的誤差判斷各總體均值是否相等一般提法H0
:m1=m2=…=
mk
自變量對因變量沒有顯著影響H1:m1
,m2
,…
,mk不全相等自變量對因變量有顯著影響注意:拒絕原假設,只表明至少有兩個總體的均值不相等,并不意味著所有的均值都不相等假設:單因素方差分析(基本結(jié)構(gòu))單因素方差分析原理總結(jié)在觀測變量總離差平方和中,如果組間離差平方和所占比例較大,則說明觀測變量的變動主要是由控制變量引起的,可以主要由控制變量來解釋,控制變量給觀測變量帶來了顯著影響;反之,如果組間離差平方和所占比例小,則說明觀測變量的變動不是主要由控制變量引起的,不可以主要由控制變量來解釋,控制變量的不同水平?jīng)]有給觀測變量帶來顯著影響,觀測變量值的變動是由隨機變量因素引起的。統(tǒng)計決策
將統(tǒng)計量的值F與給定的顯著性水平
的臨界值F
進行比較,作出對原假設H0的決策根據(jù)給定的顯著性水平
,在F分布表中查找與第一自由度df1=k-1、第二自由度df2=n-k相應的臨界值F
若F>F
,則拒絕原假設H0
,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響若F<F
,則不能拒絕原假設H0
,無證據(jù)支持表明所檢驗的因素對觀察值有顯著影響用EXCEL進行單因素方差分析工具——數(shù)據(jù)分析——方差分析-單因素方差分析回歸分析:一元回歸回歸和相關都是研究兩個變量相互關系的分析方法。但相關分析是研究兩個變量之間相關的方向和相關的密切程度,它不能指出兩變量相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化關系。而回歸分析則是通過一定的數(shù)學方程來反映變量之間相互關系的具體形式,以便從一個已知量來推測另一個未知量,為估算預測提供一個重要的方法。相關分析既可以研究因果關系的現(xiàn)象也可以研究共變的現(xiàn)象,不必確定兩變量中誰是自變量,誰是因變量。而回歸分析是研究兩變量具有因果關系的數(shù)學形式,因此必須事先確定變量中自變量與因變量的地位。在相關分析中計算相關系數(shù)的兩變量是對等的,改變兩變量的地位并不影響相關系數(shù)的數(shù)值。在回歸分析中因變量是隨機的,自變量是可控制的解釋變量,不是隨機變量,二者地位不對等。因此回歸分析只能用自變量來估計因變量,而不允許由因變量來推測自變量。即:一元線性回歸分析或直線回歸分析是回歸分析中最簡單最基本的一種。自變量只有一個,所擬合的回歸方程實際上就是直線方程。在現(xiàn)象互為根據(jù)的情況下,可以有兩個回歸方程--y倚x的方程和x倚y的方程。根本任務是設法在分散的具有線性關系的相關點之間配合一條最優(yōu)的直線,以表明兩變量之間具體的變動關系,并可以據(jù)以進行預測等。表現(xiàn)形式:y=a+bx簡單線性回歸分析首先:確定變量間是不是確實存在大致的線性相關關系——作相關圖、計算相關系數(shù)第二:就是擬合直線方程:確認參數(shù)a、b第三:預測自變量簡單線性回歸分析步驟假如有以下資料:某企業(yè)上半年產(chǎn)品產(chǎn)量與單位成本的資料月份產(chǎn)量(千件)單位成本(元)123456234345737271736968
※以產(chǎn)量為自變量,單位成本為因變量擬合直線回歸方程。
作相關圖:75706560x產(chǎn)量y單位成本132654
※從相關圖上可以看出產(chǎn)量與單位成本間存在相關關系
計算相關系數(shù)顯然說明產(chǎn)量和單位成本之間存在高度負相關。擬合直線方程:
已知產(chǎn)量和單位成本之間存在高度的相關關系,那么我們完全可以先把直線回歸方程的一般形式寫出來,即式中:a是直線的截距;
b是直線的斜率,即回歸系數(shù);
yc表示因變量y的估計值。最小二乘法(最小平方法)求參數(shù)a、b:
最小二乘法的原理:使擬合的直線上的點到實際值點的距離平方和最小,即所謂的yc到y(tǒng)的“離差平方和最小”,yc為擬合曲線上據(jù)以推算的估計值,y為實際值。75706560x產(chǎn)量y單位成本132654擬合直線實際值回歸方程為:y=77.37-1.82x用Excel進行一元回歸分析使用INTERCEPT和SLOPE函數(shù)使用LINEST函數(shù)(還可以給出估計標準誤差、判定系數(shù)等數(shù)值)使用數(shù)據(jù)分析工具
用FORECAST函數(shù)預測用TREND函數(shù)預測聚類分析:K-meanK-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。k個初始類聚類中心點的選取對聚類結(jié)果具有較大的影響,因為在該算法第一步中是隨機的選取任意k個對象作為初始聚類的中心,初始地代表一個簇。該算法在每次迭代中對數(shù)據(jù)集中剩余的每個對象,根據(jù)其與各個簇中心的距離將每個對象重新賦給最近的簇。當考察完所有數(shù)據(jù)對象后,一次迭代運算完成,新的聚類中心被計算出來。如果在一次迭代前后,V的值沒有發(fā)生變化,說明算法已經(jīng)收斂。K-MEANS算法的工作原理及流程K-MEANS算法輸入:聚類個數(shù)k,以及包含n個數(shù)據(jù)對象的數(shù)據(jù)庫。輸出:滿足方差最小標準的k個聚類。處理流程(1)從n個數(shù)據(jù)對象任意選擇k個對象作為初始聚類中心;(2)根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根
據(jù)最小距離重新對相應對象進行劃分;(3)重新計算每個(有變化)聚類的均值(中心對象)(4)循環(huán)(2)到(3)直到每個聚類不再發(fā)生變化為止+1-1
支持向量機+1-1
支持向量機+1-1
支持向量機+1-1
支持向量機+1-1線性分類器的間隔(margin):到超平面最近的樣本與此超平面之間的距離。
支持向量機+1-1具有最大間隔的線性分類器叫做最大間隔線性分類器。其就是一種最簡單的支持向量機(SVM)(稱為線性支持向量機,即LSVM)線性支持向量機
支持向量機+1-1支持向量(SupportVectors):是那些距離超平面最近的點。具有最大間隔的線性分類器叫做最大間隔線性分類器。其就是一種最簡單的支持向量機(SVM)(稱為線性支持向量機,即LSVM)線性支持向量機
支持向量機線性不可分?生物神經(jīng)元典型的神經(jīng)元,即神經(jīng)細胞結(jié)構(gòu):胞體、樹突、軸突、突觸胞體:神經(jīng)細胞的本體,完成普通細胞的生存功能。樹突:有大量的分枝,接受來自其他神經(jīng)元的信號。軸突:用以輸出信號。突觸:神經(jīng)元相聯(lián)系的部位,對樹突的突觸為興奮性的,使下一個神經(jīng)元興奮;對胞體的突觸為抑制性的,阻止下一個神經(jīng)元興奮。神經(jīng)網(wǎng)絡人工神經(jīng)元人工神經(jīng)元模型:xi:輸入,神經(jīng)元的輸入值ωi:權(quán)值,突觸的連接強度f:輸出函數(shù),非線性函數(shù)y:輸出神經(jīng)元動作:常用輸出函數(shù):閾值函數(shù):神經(jīng)網(wǎng)絡前饋神經(jīng)網(wǎng)絡:各神經(jīng)元接受前級輸入,并輸出到下一級,無反饋,可用一有向無環(huán)圖表示。前饋網(wǎng)絡通常分為不同的層,第i層的輸入只與第i-1層的輸出聯(lián)接??梢妼樱狠斎雽雍洼敵鰧与[層:中間層輸出方式:ACON:allclassesonenet,多輸出型OCON:oneclassonenet,單輸出型ACONOCON多輸出型應用典型方法ACON應用最多,典型方法是:網(wǎng)絡的每個輸入節(jié)點對應于樣本的一個特征輸出層單元
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 1《白鷺》說課稿-2024-2025學年統(tǒng)編版語文五年級上冊
- 2025技術(shù)咨詢合同書
- 2025大連市住宅小區(qū)物業(yè)管理委托合同
- 2024年五年級品社下冊《同是炎黃子孫》說課稿 山東版001
- 5《玲玲的畫》說課稿-2024-2025學年語文二年級上冊統(tǒng)編版
- 2023二年級數(shù)學下冊 6 有余數(shù)的除法第5課時 解決問題(1)說課稿 新人教版
- 27我的伯父魯迅先生(說課稿)-2024-2025學年六年級上冊語文統(tǒng)編版001
- 2024-2025學年高中地理下學期第4周說課稿(世界的自然資源)
- 2023三年級數(shù)學上冊 一 動物趣聞-克、千克、噸的認識 信息窗2噸的認識說課稿 青島版六三制
- 蕪湖廠房推拉棚施工方案
- 運動技能學習與控制課件第五章運動中的中樞控制
- 財務部規(guī)范化管理 流程圖
- 蘇教版2023年小學四年級數(shù)學下冊教學計劃+教學進度表
- 小學作文指導《難忘的一件事》課件
- 斷絕關系協(xié)議書范文參考(5篇)
- 量子力學課件1-2章-波函數(shù)-定態(tài)薛定諤方程
- 最新變態(tài)心理學課件
- 工程洽商記錄表格
- 【自考練習題】石家莊學院概率論與數(shù)理統(tǒng)計真題匯總(附答案解析)
- 農(nóng)村集體“三資”管理流程圖
- 高中英語 牛津譯林版必修第三冊 Unit 2詞匯全解
評論
0/150
提交評論