![埃森哲大數據分析方法課件_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/28/f18bef53-f349-495f-aa1c-ff576bac186d/f18bef53-f349-495f-aa1c-ff576bac186d1.gif)
![埃森哲大數據分析方法課件_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/28/f18bef53-f349-495f-aa1c-ff576bac186d/f18bef53-f349-495f-aa1c-ff576bac186d2.gif)
![埃森哲大數據分析方法課件_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/28/f18bef53-f349-495f-aa1c-ff576bac186d/f18bef53-f349-495f-aa1c-ff576bac186d3.gif)
![埃森哲大數據分析方法課件_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/28/f18bef53-f349-495f-aa1c-ff576bac186d/f18bef53-f349-495f-aa1c-ff576bac186d4.gif)
![埃森哲大數據分析方法課件_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/28/f18bef53-f349-495f-aa1c-ff576bac186d/f18bef53-f349-495f-aa1c-ff576bac186d5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、埃森哲大數據分析方法1大數據分析大數據分析-埃森哲埃森哲2015-7埃森哲大數據分析方法目錄概述概述數據分析框架數據分析框架數據分析方法數據分析方法數據理解數據理解& &數據準備數據準備數據分析支撐工具數據分析支撐工具關聯(lián)分析關聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時序模型時序模型結構優(yōu)化結構優(yōu)化埃森哲大數據分析方法數據分析即從數據、信息到知識的過程,數據分析需要數學理論、行業(yè)經驗以及計算機工具三者結合分析分析誤區(qū)誤區(qū)數據數據挖掘挖掘工具支撐數學&統(tǒng)計學知識行業(yè)經驗傳統(tǒng)傳統(tǒng)分析分析機器機器學習學習數學數學&統(tǒng)計學知識統(tǒng)計學知識數據分析的基礎,將整理、描述、預
2、測數據的手段、過程抽象為數學模型的理論知識工具支撐工具支撐各種廠商開發(fā)了數據分析的工具、模塊,將分析模型封裝,使不了解技術的人也能夠快捷的實現(xiàn)數學建模,快速響應分析需求。行業(yè)經驗行業(yè)經驗行業(yè)經驗可在數據分析前確定分析需求,分析中檢驗方法是否合理,以及分析后指導應用,但行業(yè)特征不同,其應用也不同,因此本文不展開介紹傳統(tǒng)分析傳統(tǒng)分析在數據量較少時,傳統(tǒng)的數據分析已能夠發(fā)現(xiàn)數據中包含的知識,包括結構分析、杜邦分析等模型,方法成熟,應用廣泛,本文不展開介紹分析誤區(qū)分析誤區(qū)不了解分析模型的數學原理,會導致錯誤的使用模型,而得出錯誤的分析結論,影響業(yè)務決策,因此在選用分析模型時,要深入了解該模型的原理和使
3、用限制機器學習機器學習不需要人過多干預,通過計算機自動學習,發(fā)現(xiàn)數據規(guī)律,但結論不易控制。數據挖掘數據挖掘數據挖掘是挖掘數據背后隱藏的知識的重要手段埃森哲大數據分析方法隨著計算機技術發(fā)展和數據分析理論的更新,當前的數據分析逐步成為機器語言、統(tǒng)計知識兩個學科的交集(備選)數據數據挖掘挖掘計算機技術統(tǒng)計學、人工智能業(yè)務數據數據挖掘數據挖掘就是充分利用了統(tǒng)計學和人工智能技術的應用程序,并把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解決的問題。信息處理信息處理信息處理信息處理信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢的回答反映的是直接存放在數
4、據庫中的信息。它們不反映復雜的模式,或隱藏在數據庫中的規(guī)律。傳統(tǒng)分析傳統(tǒng)分析數據分析數據分析工具工具傳統(tǒng)分析傳統(tǒng)分析在數據量較少時,傳統(tǒng)的數據分析已能夠發(fā)現(xiàn)數據中包含的知識,包括結構分析、杜邦分析等模型,方法成熟,應用廣泛,本文不展開介紹數據分析工具數據分析工具各種廠商開發(fā)了數據分析的工具、模塊,將分析模型封裝,使不了解技術的人也能夠快捷的實現(xiàn)數學建模,快速響應分析需求。埃森哲大數據分析方法隨著計算機科學的進步,數據挖掘、商務智能、大數據等概念的出現(xiàn),數據分析的手段和方法更加豐富一系列以事實為支持,輔助商業(yè)決策的技術和方法,曾用名包括專家系統(tǒng)、智能決策等一般由數據倉庫、聯(lián)機分析處理、數據挖掘、
5、數據備份和恢復等部分組成對數據分析的體系化管理,數據分析的主體依然是數據挖掘結構分析分組分析杜邦分析預警分析常規(guī)分析常規(guī)分析揭示數據之間的靜態(tài)關系分析過程滯后對數據質量要求高商務智能商務智能數據挖掘數據挖掘大數據技術大數據技術數據可視化數據可視化統(tǒng)計學和計算機技術等多學科的結合揭示數據之間隱藏的關系將數據分析的范圍從“已知”擴展到“未知”,從“過去”推向“將來”從多種類型的數據中,快速獲取知識的能力數據挖掘技術的衍生大數據時代,展示數據可以更好輔助理解數據、演繹數據本文在描述數據分析的流程后,重點介紹通用的數據分析方法和主流的應用工具、軟件。隨著數據量的不斷擴大,數據分析理論正處于飛速發(fā)展期,
6、因此本文的方法側重于基礎原理介紹。數據數據分析分析埃森哲大數據分析方法目錄概述概述數據分析框架數據分析框架數據分析方法數據分析方法數據理解數據理解& &數據準備數據準備數據分析支撐工具數據分析支撐工具關聯(lián)分析關聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時序模型時序模型結構優(yōu)化結構優(yōu)化埃森哲大數據分析方法1. 1.業(yè)務理解業(yè)務理解(business understanding(business understanding) 確定目標、明確分析需求2. 2.數據理解(數據理解(data understandingdata understanding) 收集原始數據、描述數據、探索數
7、據、檢驗數據質量3. 3.數據準備數據準備(data preparation)(data preparation) 選擇數據、清洗數據、構造數據、整合數據、格式化數據4. 4.建立模型建立模型(modeling(modeling) 選擇建模技術、參數調優(yōu)、生成測試計劃、構建模型5. 5.評估模型評估模型(evaluation)(evaluation) 對模型進行較為全面的評價,評價結果、重審過程6. 6.部署部署(deployment)(deployment) 分析結果應用數據分析標準流程crisp-dm為90年代由sig組織(當時)提出,已被業(yè)界廣泛認可的數據分析流程。埃森哲大數據分析方法數
8、據分析框架業(yè)務理解業(yè)務理解數據理解數據理解數據準備數據準備建立模型建立模型理解業(yè)務背景,評估分析需求模型評估模型評估應用應用 理解業(yè)務背景:理解業(yè)務背景:數據分析的本質是服務于業(yè)務需求,如果沒有業(yè)務理解,缺乏業(yè)務指導,會導致分析無法落地。 評估業(yè)務需求:評估業(yè)務需求:判斷分析需求是否可以轉換為數據分析項目,某些需求是不能有效轉換為數據分析項目的,比如不符合商業(yè)邏輯、數據不足、數據質量極差等。數據收集數據清洗 數據收集:數據收集:抽取的數據必須能夠正確反映業(yè)務需求,否則分析結論會對業(yè)務將造成誤導。 數據清洗:數據清洗:原始數據中存在數據缺失和壞數據,如果不處理會導致模型失效,因此對數據通過過濾“
9、去噪”從而提取出有效數據數據探索數據轉換選擇方法、工具,建立模型建模過程評估模型結果評估分析結果應用分析模型改進 探索數據:探索數據:運用統(tǒng)計方法對數據進行探索,發(fā)現(xiàn)數據內部規(guī)律。 數據轉換:數據轉換:為了達到模型的輸入數據要求,需要對數據進行轉換,包括生成衍生變量、一致化、標準化等。 建立模型:建立模型:綜合考慮業(yè)務需求精度、數據情況、花費成本等因素,選擇最合適的模型。在實踐中對于一個分析目的,往往運用多個模型,然后通過后續(xù)的模型評估,進行優(yōu)化、調整,以尋求最合適的模型。 建模過程評估:建模過程評估:對模型的精度、準確性、效率和通用性進行評估。, 模型結果評估:模型結果評估:評估是否有遺漏的
10、業(yè)務,模型結果是否回答了當初的業(yè)務問題,需要結合業(yè)務專家進行評估。 結果應用:結果應用:將模型應用于業(yè)務實踐,才能實現(xiàn)數據分析的真正價值:產生商業(yè)價值和解決業(yè)務問題。 模型改進:模型改進:對模型應用效果的及時跟蹤和反饋,以便后期的模型調整和優(yōu)化。 埃森哲大數據分析方法業(yè)務理解數據理解數據準備建立模型模型評估開始是否明確需求否否數據探索結構分析分布特性特征描述分類與回歸聚類分析時序模型關聯(lián)分析結構優(yōu)化分析結果應用數據分析框架圖例流程概要方法分類處理方法模型檢驗理解業(yè)務背景,評估分析需求是是否滿足要求收集數據否是是建立模型貝葉斯神經網絡c4.5決策樹指數平滑支持向量機灰色理論k均值算法fp-gro
11、wth算法apriori算法均方根誤差均方誤差正概率統(tǒng)計群間差異度群內相似度業(yè)務符合度支持度置信度均方根誤差均方誤差正概率統(tǒng)計灰色理論遺傳算法數據清洗數據轉換svm算法knn算法埃森哲大數據分析方法目錄概述概述數據分析框架數據分析框架數據分析方法數據分析方法數據理解數據理解& &數據準備數據準備數據分析支撐工具數據分析支撐工具關聯(lián)分析關聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時序模型時序模型結構優(yōu)化結構優(yōu)化埃森哲大數據分析方法數據清洗&數據探索 數據收集的方法多種多樣,本文不再詳述。在對收集的數據進行分析前,要明確數據類型、規(guī)模,對數據有初步理解,同時要對數據中的“噪
12、聲”進行處理,以支持后續(xù)數據建模。數據清洗數據清洗 異常值判別 缺失值處理 數據結構統(tǒng)一(人為因素較多,無統(tǒng)一方法,本文不詳述)數據探索數據探索 特征描述 分布推斷 結構優(yōu)化數據探索數據探索數據清洗和數據探索通常交互進行數據清洗和數據探索通常交互進行數據探索有助于選擇數據清洗方法數據探索有助于選擇數據清洗方法數據清洗后可以更有效的進行數據探索數據清洗后可以更有效的進行數據探索埃森哲大數據分析方法給定一個置信概率,并確定一個置信限,凡超過此限的誤差,就認為它不屬于隨機誤差范圍,將其視為異常值。常用的方法(數據來源于同一分布,且是正態(tài)的):拉依達準則、肖維勒準則、格拉布斯準則、狄克遜準則、t檢驗。
13、根據人們對客觀事物、業(yè)務等已有的認識,判別由于外界干擾、人為誤差等原因造成實測數據偏離正常結果,判斷異常值。比較困難數據清洗的第一步是識別會影響分析結果的“異常”數據,然后判斷是否剔除。目前常用的識別異常數據的方法有物理判別法和統(tǒng)計判別法數據清洗:1.異常值判別物理判別法統(tǒng)計判別法慎重對待刪除異常值:慎重對待刪除異常值:為減少犯錯誤的概率,可多種統(tǒng)計判別法結合使用,并盡力尋找異常值出現(xiàn)的原因;若有多個異常值,應逐個刪除,即刪除一個異常值后,需再行檢驗后方可再刪除另一個異常值檢驗方法以正態(tài)分布為前提,若數據偏離正態(tài)分布或樣本較小時,則檢驗結檢驗方法以正態(tài)分布為前提,若數據偏離正態(tài)分布或樣本較小時
14、,則檢驗結果未必可靠,果未必可靠,校驗是否正態(tài)分布可借助w檢驗、d檢驗注意注意埃森哲大數據分析方法13判別方法判別方法判別公式判別公式剔除范圍剔除范圍操作步驟操作步驟評價評價拉依達準則拉依達準則(33準則)準則)大于+3小于-3求均值、標準差,進行邊界檢驗,剔除一個異常數據,然后重復操作,逐一剔除適合用于n185時的樣本判定肖維勒準則肖維勒準則(等概率準則)(等概率準則)大于 + zc(n)小于 - zc(n)求均值、標準差,比對系數讀取zc(n)值,邊界檢驗,剔除一個異常數據,然后重復操作,逐一剔除實際中zc(n) f(n,),說明x(n)離群遠,則判定該數據為異常數據將數據由小到大排成順序
15、統(tǒng)計量,求極差,比對狄克遜判斷表讀取 f(n,)值,邊界檢驗,剔除一個異常數據,然后重復操作,逐一剔除異常值只有一個時,效果好;同側兩個數據接近,效果不好當n處于 3 ,25時,判別效果較好t t檢驗檢驗最大、最小數據與均值差值大于分別檢驗最大、最小數據,計算不含被檢驗最大或最小數據時的均值及標準差,逐一判斷并刪除異常值異常值只有一個時,效果好;同側兩個極端數據接近時,效果不好;因而有時通過中位數代替平均數的調整方法可以有效消除同側異常值的影響()30.003p xu icnxxz(n,)ixxt 1( n ,)ixxt12(n ,)(n ,)itxxt0()(1 )()(1 )( 2 )(1
16、 )()(1 )nnnnfxxxxxxxx或()(1 )( ,)( ,)nxxk nxxk n 或( ,)k n 常見統(tǒng)計判別法常見統(tǒng)計判別法埃森哲大數據分析方法14由包含m個插補值的向量代替每一個缺失值,然后對新產生的m個數據集使用相同的方法處理,得到處理結果后,綜合結果,最終得到對目標變量的估計在給定完全數據和前一次迭代所得到的參數估計的情況下計算完全數據對應的對數似然函數的條件期望(e步),后用極大化對數似然函數以確定參數的值,并用于下步的迭代(m步)基于完整的數據集,建立回歸方程(模型),對于包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充;但當變量不是線性相
17、關或預測變量高度相關時會導致估計偏差先根據歐式距離或相關分析確定距離缺失數據樣本最近的k個樣本,將這k個值加權平均來估計缺失數據值取所有對象(或與該對象具有相同決策屬性值的對象)的平均值來填充該缺失的屬性值數據清洗:數據清洗:2. 2.缺失值處理缺失值處理平均值填充平均值填充k最近距離法最近距離法回歸回歸極大似線估極大似線估計計多重插補法多重插補法 在數據缺失嚴重時,會對分析結果造成較大影響,因此對剔除的異常值以及缺失值,要采用合理的方法進行填補,常見的方法有平均值填充、k最近距離法、回歸法、極大似線估計法等隨著數據量的增大,異常值和缺失值對整體分析結果的影響會逐漸變小,因此在“大數據”模式下
18、,數據清洗可忽略異常值和缺失值的影響,而側重對數據結構合理性的分析埃森哲大數據分析方法數據探索 通過數據探索,初步發(fā)現(xiàn)數據特征、規(guī)律,為后續(xù)數據建模提供輸入依據,常見的數據探索方法有數據特征描述、相關性分析、主成分分析等。 結構優(yōu)化描述已有數據特征- 數據分布特征描述- 數據探索要遵循由淺入深、由易到難的步驟數據探索要遵循由淺入深、由易到難的步驟概率分布特征描述推斷整體數據特征- 參數檢驗- 非參數檢驗- 探索數據之間的關系- 相關性分析- 主成分分析- 埃森哲大數據分析方法數據特征描述中心位置中心位置diagramdiagram 2 2diagramdiagram 2 2diagramdia
19、gram 3 3圖形特征圖形特征分散程度分散程度中心位置中心位置v 眾數眾數v 中位數中位數/四分位數四分位數v 均值均值分散程度分散程度v 方差和標準差方差和標準差v 極差、四分位差極差、四分位差v 標準分數標準分數 z-scorev 離散系數離散系數圖形特征圖形特征v 偏度偏度數據分布偏斜程度的測度v 峰度峰度數據分布扁平程度的測度左偏分布右偏分布扁平分布尖峰分布埃森哲大數據分析方法數據概率分布 概率分布可以表述隨機變量取值的概率規(guī)律,是掌握數據變化趨勢和范圍的一個重要手段。離散分布離散分布均勻分布二項分布幾何分布離散型均勻分布是一個離散型概率分布,其中有限個數值擁有相同的概率1.在每次試
20、驗中只有兩種可能的結果,而且是互相對立的;2.每次實驗是獨立的,與其它各次試驗結果無關;3.結果事件發(fā)生的概率在整個系列試驗中保持不變,則這一系列試驗稱為伯努力試驗。以下兩種離散型概率分布中的一種:在伯努利試驗中,得到一次成功所需要的試驗次數x。x的值域是 1, 2, 3, . 在得到第一次成功之前所經歷的失敗次數y=x 1。y的值域是 0, 1, 2, 3, . 泊松近似泊松近似是二項分布的一種極限形式。其強調如下的試驗前提:一次抽樣的概率值相對很小,而抽取次數值又相對很大。因此泊松分布又被稱之為罕有事件分布。泊松分布指出,如果隨機一次試驗出現(xiàn)的概率為p,那么在n次試驗中出現(xiàn)k次的概率按照泊
21、松分布應該為連續(xù)分布連續(xù)分布均勻分布指數分布正態(tài)分布如果連續(xù)型隨機變量具有如下p=1/(b-a)的概率密度函數,其中xa,b,則稱服從上的均勻分布指數分布可以用來表示獨立隨機事件發(fā)生的時間間隔,比如指數分布還用來描述大型復雜系統(tǒng)(如計算機)的平均故障間隔時間mtbf的失效分布正態(tài)分布若隨機變量x服從一個數學期望為、方差為2的高斯分布,記為n(,2)。其概率密度函數為正態(tài)分布的期望值決定了其位置,其標準差決定了分布的幅度。因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。我們通常所說的標準正態(tài)分布是 = 0, = 1的正態(tài)分布埃森哲大數據分析方法數據分布初步推斷參數檢驗:數據的分布已知的情況下,對數
22、據分布的參數是否落在相應范圍內進行檢驗 假設檢驗是數理統(tǒng)計學中根據一定假設條件由樣本推斷總體的一種方法,可以分為參數檢驗和非參數檢驗。非參數檢驗:一般是在不知道數據分布的前提下,檢驗數據的分布情況檢驗方法名檢驗方法名稱稱問題類型問題類型假設假設卡方檢驗檢測實際觀測頻數與理論頻數之間是否存在差異觀測頻數與理論頻數無差異k-s檢驗檢驗變量取值是否為正態(tài)分布服從正態(tài)分布游程檢驗檢測一組觀測值是否有明顯變化趨勢無明顯變化趨勢二項分布假設檢驗通過樣本數據檢驗樣本來自的總體是否服從指定的概率為p的二項分布服從概率為p的二項分布檢驗方法名稱檢驗方法名稱問題類型問題類型假設假設適用條件適用條件抽樣方法抽樣方法
23、單樣本t檢驗判斷一個總體平均數等于平均數等于已知數總體平均數等于a總體服從正態(tài)分布從總體中抽取一個樣本f檢驗判斷兩總體方差方差相等兩總體方差相等總體服從正態(tài)分布從兩個總體中各抽取一個樣本獨立樣本 t檢驗判斷兩總體平均數平均數相等兩總體平均數相等1、總體服從正態(tài)分布2、兩總體方程相等從兩個總體中各抽取一個樣本配對樣本t檢驗判斷指標實驗前后平均數相等指標實驗前后平均數相等1、總體服從正態(tài)分布2、兩組數據是同一試驗對象在試驗前后的測試值抽取一組試驗對象,在試驗前測得試驗對象某指標的值,進行試驗后再測得試驗對象該指標的取值二項分布假設檢驗隨機抽樣實驗的成功概率的檢驗總體概率等于p總體服從二項分布從總體
24、中抽取一個樣本總結1、參數檢驗是針對參數做的假設,非參數檢驗是針對總體分布情況做的假設。 2、二者的根本區(qū)別在于參數檢驗要利用到總體的信息,以總體分布和樣本信息對總體參數作出推斷;非參數檢驗不需要利用總體的信息。埃森哲大數據分析方法相關系數是考察變量之間的相關程度的變量,相關分析是優(yōu)化數據結構的基礎相關系數是考察變量之間的相關程度的變量,相關分析是優(yōu)化數據結構的基礎0 00.40.40.60.60.80.81.01.00.20.2負相關負相關正相關正相關極強相關強相關中等相關弱相關弱相關或無(線性)相關適適用用條條件件結構優(yōu)化相關性分析 用于分析的多個變量間可能會存在較多的信息重復,若直接用來
25、分析,會導致模型復雜,同時可能會引起模型較大誤差,因此要初步探索數據間的相關性,剔除重復因素。spearmanspearman秩相關系數秩相關系數衡量兩個變量之間聯(lián)系(變化趨勢)的強弱在秩(排序)的相對大小基礎上得到,對異常值更穩(wěn)健pearsonpearson相關系數相關系數衡量兩個變量線性相關性的強弱在方差和協(xié)方差的基礎上得到的,對異常值敏感kendallkendall相關系數相關系數基于協(xié)同思想得到,衡量變量之間的協(xié)同趨勢對異常值穩(wěn)健特特點點服從正態(tài)分布或接近正態(tài)的單峰分布兩個變量為連續(xù)數據兩個變量均為連續(xù)數據或等級數據兩個變量均為連續(xù)數據或等級數據偏相關分析偏相關分析二元變量相關分析二元
26、變量相關分析距離相關分析距離相關分析研究兩個變量之間線性相關關系時,控制可能對其產生影響的變量對觀測量之間或變量之間相似或不相似程度的一種測度埃森哲大數據分析方法檢驗動機檢驗動機: 樣本數據只是總體的一個實現(xiàn),因此,根據現(xiàn)有數據計算出來的相關系數只是變量相關系數的一個觀測值,又稱為樣本相關系數。欲根據這個樣本相關系數來估計總體相關系數,必須進行顯著性檢驗。其原假設:在總體中,兩個變量的相關系數(總體相關系數)為零檢驗意義檢驗意義: 計算在原假設成立的情況下(也就是在兩個變量相關系數為零的情況下),由于抽樣的原因(收集樣本數據的原因)得到當前的樣本相關系數(可能這個系數并不為零,甚至還比較大)的
27、概率。(p值越小說明越是小概率事件,不可能發(fā)生,拒絕原假設)檢驗方法檢驗方法: t檢驗(常用) :對于近似高斯分布的數據(如兩個變量服從雙變量正態(tài)分布), 相關系數的 樣本分布 近似地服從自由度為n2的 t分布;如果樣本容量不是特別小(通常大于30),即使觀測數據不服從正態(tài)分布,依然可使用t檢驗結構優(yōu)化相關性分析埃森哲大數據分析方法 karl pearson(1901)探究如何通過少數幾個主成分(principal component)來解釋多個變量間的內部結構時提出主成分分析法,旨在從原始變量中導出少數幾個主分量,使其盡可能多地保留原始變量的信息,且彼此間互不相關內涵內涵:將彼此相關的一組指
28、標變量轉化為彼此獨立的一組新的指標變量,并用其中較少的幾個新指標變量就能綜合反映原多個指標變量所包含主要信息的多元統(tǒng)計方法結構優(yōu)化主成分分析應用應用:數據的壓縮和解釋,即常被用來尋找和簡化判斷事物或現(xiàn)象的綜合指標,并對綜合指標所包含的信息進行適當的解釋原理:原理:設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。埃森哲大數據分析方法22 數據轉換或統(tǒng)一成適合于挖掘的形式,通常的做法有數據泛化、標準化、屬性構造等,本文詳細介紹數據標準化的方法,即統(tǒng)
29、一數據的量綱及數量級,將數據處理為統(tǒng)一的基準的方法。基期標準化法基期標準化法直線法直線法折線法折線法曲線法曲線法 選擇基期作為參照, 各期標準化數據各期數據/基期數據數據轉換數據轉換各方法都有缺點,要根據客觀事物的特征及所選用的分析方法來確定,如聚類分析、關聯(lián)分析等常用直線法,且聚類分析必須滿足無量綱標準;而綜合評價則折線和曲線方法用得較多能簡就簡,能簡就簡,能用直線盡量不用曲線。 極值法: z-score法:max(x )min(x ),max(x )max(x )max(x )min(x )iiiiiiiiiiiixxxxxx21,s=(xx)1iiixxxsn其中0(xa)(axb)1(
30、xb)iiiiixaxba 某些數據在不同值范圍,采用不同的標準化方法,通常用于綜合評價示例 log函數法: arctan函數法: 對數函數法、模糊量化模式等 埃森哲大數據分析方法目錄概述概述數據分析框架數據分析框架數據分析方法數據分析方法數據理解數據理解& &數據準備數據準備數據分析支撐工具數據分析支撐工具關聯(lián)分析關聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時序模型時序模型結構優(yōu)化結構優(yōu)化埃森哲大數據分析方法分類定義:定義: 按照某種指定的屬性特征將數據歸類。需要確定類別的概念描述,并找出類判別準則。分類的目的是獲得一個分類函數或分類模型(也常常稱作分類器),該模型能把數據集
31、合中的數據項映射到某一個給定類別。 分類是利用訓練數據集通過一定的算法而求得分類規(guī)則的。是模式識別的基礎。 分類可用于提取描述重要數據類的模型或預測未來的數據趨勢。 銀行根據客戶以往貸款記錄情況,將客戶分為低風險客戶和高風險客戶,學習得到分類器。對一個新來的申請者,根據分類器計算風險,決定接受或拒絕該申請分析影響變壓器正常運行的因素,預測變壓器是否有故障,若有故障,故障為放電故障、過熱故障、短路故障等的哪一種。持續(xù)時長持續(xù)時長 13yes no72%9698%設備類型設備類型 110359%設備類型設備類型 2負荷負荷負荷負荷 6then 是否提薪= 是 分類模型(model)訓練數據模型的使
32、用p識別未知對象的所屬類別p模型正確性的評價已標記分類的測試樣本與模型的實際分類結果進行比較模型的正確率是指測試集中被正確分類的樣本數與樣本總數的百分比。測試集與訓練集相分離,否則將出現(xiàn)過擬合(over-fitting)現(xiàn)象分類模型測試數據(唐旭, 高級, 4)提薪提薪? ?是是埃森哲大數據分析方法分類分類的主要算法:分類的主要算法:knnknn算法、算法、決策樹(cart、c4.5等)、svm算法、貝葉斯算法、bp神經網絡等埃森哲大數據分析方法分類分類的主要算法:分類的主要算法:knn算法、決策樹(cart、c4.5c4.5等)、svm算法、貝葉斯算法、bp神經網絡等算法介紹:算法介紹: c
33、4.5是一種類似二叉樹或多叉樹的樹結構。樹中的每個非葉結點(包括根結點)對應于訓練樣本集總一個非類屬性的測試,非葉結點的每一個分支對應屬性的一個測試結果,每個葉結點代表一個類或類分布。從根結點到葉子結點的一條路徑形成一條分類規(guī)則。決策樹可以很方便地轉化為分類規(guī)則,一種非常直觀的分類模型的表示形式。 c45屬于一種歸納學習算法。歸納學習(inductive learning)旨在從大量經驗數據中歸納抽取一般的判定規(guī)則和模式,它是機器學習(machine learning)中最核心、最成熟的一個分支。 根據有無導師指導,歸納學習又分為有導師學習(supervised learning,又稱為示例學
34、習)和無導師學習(unsupervised learning)。 c45屬于有導師的學習算法。算法特點:算法特點:(1)模型直觀清晰,分類規(guī)則易于解釋;(2)解決了連續(xù)數據值的學習問題;(3)提供了將學習結果決策樹到等價規(guī)則集的轉換功能。決策樹示例:套用俗語,決策樹分類的思想類似于找對象?,F(xiàn)想象一個女孩的母親要給這個女孩介紹男朋友,于是有了下面的對話: 女兒:多大年紀了? 母親:26。 女兒:長的帥不帥? 母親:挺帥的。 女兒:收入高不? 母親:不算很高,中等情況。 女兒:是公務員不? 母親:是,在稅務局上班呢。 女兒:那好,我去見見。埃森哲大數據分析方法分類分類的主要算法:分類的主要算法:k
35、nn算法、決策樹(cart、c4.5c4.5等)、svm算法、貝葉斯算法、bp神經網絡等設每個數據樣本用一個n維特征向量來描述n個屬性的值,即:x=x1,x2,xn,假定有m個類,分別用c1, c2,,cm表示。給定一個未知的數據樣本x(即沒有類標號),若樸素貝葉斯分類法將未知的樣本x分配給類ci,則一定是p(ci|x)p(cj|x) 1jm,ji根據貝葉斯定理由于p(x)對于所有類為常數,最大化后驗概率p(ci|x)可轉化為最大化先驗概率p(x|ci)p(ci)。如果訓練數據集有許多屬性和元組,計算p(x|ci)的開銷可能非常大,為此,通常假設各屬性的取值互相獨立,這樣先驗概率p(x1|ci
36、),p(x2|ci),p(xn|ci)可以從訓練數據集求得。根據此方法,對一個未知類別的樣本x,可以先分別計算出x屬于每一個類別ci的概率p(x|ci)p(ci),然后選擇其中概率最大的類別作為其類別。樸素貝葉斯算法成立的前提是各屬性之間互相獨立。當數據集滿足這種獨立性假設時,分類的準確度較高,否則可能較低。另外,該算法沒有分類規(guī)則輸出。貝葉斯圖像識別貝葉斯圖像識別貝葉斯方法是一個非常通用的推理框架。其核心理念可以描述成:analysis by synthesis (通過合成來分析)。06 年的認知科學新進展上有一篇論文就是講用貝葉斯推理來解釋視覺識別的,一圖勝千言,下圖就是摘自這篇論文:首先
37、是視覺系統(tǒng)提取圖形的邊角特征,然后使用這些特征自底向上地激活高層的抽象概念(比如是 e 還是 f 還是等號),然后使用一個自頂向下的驗證來比較到底哪個概念最佳地解釋了觀察到的圖像埃森哲大數據分析方法分類分類的主要算法:分類的主要算法:knn算法、決策樹(cart、c4.5c4.5等)、svm算法、貝葉斯算法、bp神經網絡等 bp(back propagation)網絡是1986年由rumelhart(魯姆哈特)和mccelland(麥克利蘭)為首的科學家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W絡,是目前應用最廣泛的神經網絡模型之一。bp網絡能學習和存貯大量的輸入-輸出模式映射關系,而無
38、需事前揭示描述這種映射關系的數學方程。它的學習規(guī)則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小。bp神經網絡模型拓撲結構包括輸入層(input)、隱層(hidden layer)和輸出層(output layer)。bpbp神經網絡學習過程神經網絡學習過程 正向傳播: 輸入樣本-輸入層-各隱藏層-輸出層 判斷是否轉入反向傳播階段 若輸出層的實際輸出與期望輸出不符 誤差反傳 誤差以某種形式在各層表示-修正各層單元的權值 網絡輸出的誤差減少到可接受的程度或達到預先設定的學習次數為止bpbp神經網絡的不足神經網絡的不足首先,由于學習速率是固定的,因此網絡的收斂速度
39、慢,需要較長的訓練時間。其次,bp算法可以使權值收斂到某個值,但并不保證其為誤差平面的全局最小值。再次,網絡隱含層的層數和單元數的選擇尚無理論上的指導,一般是根據經驗或者通過反復實驗確定。最后,網絡的學習和記憶具有不穩(wěn)定性。也就是說,如果增加了學習樣本,訓練好的網絡就需要從頭開始訓練,對于以前的權值和閾值是沒有記憶的。存款情況庫存情況銷售情況人員規(guī)模高風險低風險無風險輸入層隱藏層輸出層埃森哲大數據分析方法回歸產生產生:英國統(tǒng)計學家f.galton(法蘭西斯高爾頓)(1822-1911)和其學生k.pearson(卡爾.皮爾遜)(1856-1936)觀察了1078對夫婦,以每對夫婦的平均身高為x
40、,而取他們成年的兒子的身高為y,得到如下經驗方程: y=33.73+0.516x定義:定義: 假定同一個或多個獨立變量存在相關關系,尋找相關關系的模型。不同于時間序列法的是:模型的因變量是隨機變量,而自變量是可控變量。分為線性回歸和非線性回歸,通常指連續(xù)要素之間的模型關系,是因果關系分析的基礎。(回歸研究的是數據之間的非確定性關系)0100200300400500-1000100200300 gaussian kernel polynomial kernelresidual errordata series 線性回歸算法尋找屬性與預測目標之間的線性關系。通過屬性選擇與去掉相關性,去掉與問題無關
41、的變量或存在線性相關性的變量。 在建立回歸模型之前,可先進行主成分分析,消除屬性之間的相關性。最后通過最小二乘法,算法得到各屬性與目標之間的線性系數。埃森哲大數據分析方法分類分類:前提:前提: 正態(tài)性假設:總體誤差項需服從正態(tài)分布,反之則最小二乘估計不再是最佳無偏估計,不能進行區(qū)間估計和假設檢驗 零均值性假設:在自變量取一定值的條件下,其總體各誤差項的條件平均值為零,反之無法得到無偏估計 等方差性假設:在自變量取一定值的條件下,其總體各誤差項的條件方差為一常數,反之無法得到無偏估計 獨立性假設 :誤差項之間相互獨立(不相關),誤差項與自變量之間應相互獨立,否則最小二乘估計不再是有效估計檢驗檢驗
42、:回歸模型回歸回歸- -線性回歸線性回歸 一元線性回歸一元線性回歸只有一個變量x與因變量y有關,x與y都是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布多元線性回歸多元線性回歸分析多個變量與因變量y的關系, x與y都是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布logisticlogistic線性回歸線性回歸分析多個變量與因變量y的關系, y通常是離散型或定性變量,該模型對因變量y的分布無要求模型顯著性:f檢驗,讀取p值并同置信度比較,判斷回歸模型顯著性系數顯著性:t檢驗,讀取p值并同置信度比較,判斷該自變量是否顯著影響因變量擬合優(yōu)度殘差檢驗:繪制殘差圖(標準化殘差直方圖及散點圖),檢驗殘差的正
43、態(tài)性及獨立性,若所描繪的點都在以0為橫軸的直線上下隨機散布,則回歸直線對各個觀測值的擬合情況良好決定系數: 度量自變量對因變量變化的解釋程度,愈接近1則線性關系愈強2r樣本容量:n 30或n 3(p+1);其中n為樣本容量,p為自變量數目埃森哲大數據分析方法分類模型評估分類模型評估效果指標測試集選取指標呈現(xiàn)保持法隨機二次抽樣交叉驗證自助法基于統(tǒng)計基于比率誤差、離差、kappa統(tǒng)計量、 準確率置信區(qū)間、錯誤率觀測差混淆矩陣roc曲線ks曲線lift圖響應率曲線目的:模型之間的比選以及單模型預測效果捕獲率曲線/增益圖準確率敏感性特異性精度ks值lift值響應率捕獲率埃森哲大數據分析方法分類模型評估
44、方法方法描述描述圖示圖示保持法將原始數據集隨機地劃分到兩個獨立的集合:訓練集和檢驗集。通常,三分之二的數據分配到訓練集,其余三分之一分配到檢驗集。模型的效果指標如準確率、誤差等由訓練集導出。隨機二次抽樣多次重復使用保持法,得到一組準確率等效果指標。交叉驗證最常用的是k-折交叉法,將原始數據分成k份,每次用其中一份為測試集,其余為訓練集運行,總共運行k次,記錄誤差。自助法有放回抽樣。訓練集的樣本為n,放回原數據集,重新有放回地均勻抽取n個樣本后,剩余的數據集作為測試集。原始數原始數據集據集訓練集訓練集測試集測試集模型評估建立模型2/31/3原始原始數據數據集集模型評估建立模型1/k1/k1/k1
45、/k有放回抽取n樣本建立模型測試集模型評估訓練集(n)總數據集測試集選取方法埃森哲大數據分析方法效果指標基于比率10合計1aba+b0cdc+d合計a+cb+da+b+c+d預測類實際類以二分類為例,說明幾個重要效果指標概念。下圖為混淆矩陣。通過銀行辦理信用卡的例子做指標的業(yè)務解釋。最常用的評估指標,用以評價模型分類是否正確。但是,對于不平衡問題(即0類的占大多數),準確率去評價就不夠。例如銀行辦理信用卡,模型只用一條規(guī)則“所有人不違約”,結果準確率達到1000/1200=83.3%。但這樣的模型毫無意義。準確率適合于平衡問題。正確識別正元組的百分比。如例中,敏感性為80/200=40%,因此
46、該模型正確標識真元組(稀有類)的能力還是比較差的,但是還是高于違約的總占比200/1200=16.7%違約不違約合計違約80120200不違約209801000合計10011001200預測類實際類正確識別負元組的百分比。例子中為98%。預測為正元類中實際為正元類所占的百分比。衡量預測類1的精確性。例子中為80%。該案例中模型對于違約的人群,可以識別40%;如果一個人通過模型判斷為違約類,則80%可能該人為違約的。敏感性和精度是兩個重要指標,可以綜合這兩個指標,如f等。示例敏感性=a/(a+b)準確率=(a+d)/(a+b+c+d)特異性=d/(c+d)精度=a/(a+c)分類模型評估埃森哲大
47、數據分析方法以真正率及敏感性為縱軸,假正率=1-特異性為橫軸做圖。給定一個二類問題,我們可以對檢驗集的不同部分,顯示模型可以正確識別正樣本的比例與模型將負樣本錯誤標識為正樣本的比例之間的比較評定。敏感性的增加以錯誤正例的增加為代價。 roc曲線增益圖ks曲線模型預測為概率值,即為1類的概率為多少,為0類的概率為多少。將1類、0類的概率 按照大小由高到底排列,并將各自的累計百分比畫在一個圖里。縱坐標代表累計百分比,橫坐標為預測的概率區(qū)間。0、1曲線的最大距離為ks值,反映模型區(qū)分0、1類的能力,越大代表模型將0、1分開程度越大。一般大于0.2較好。如圖ks=0.47.和捕獲率曲線是一樣的,詳見捕
48、獲率曲線。理想模型:100%預測正確下的曲線。這里假設1類占總數為30%。模型的曲線越靠近理想曲線,預測水平越高??捎胓ini系數衡量。gini系數=模型曲線與隨機曲線之間的面積/理想模型曲線與隨機曲線之間的面積。越接近1越好。分類模型評估埃森哲大數據分析方法響應率曲線捕獲率曲線在每個區(qū)間里進行計算,1類的累計數占該區(qū)間累計的總數比例作為響應率響應率。比如在排序前10%中,模型1得出1類樣本占比80%,模型2為73%。響應率越高越好,改圖顯示模型1較模型2更好。是在每個區(qū)間段,計算1類的累計值占總體1類的百分比作為捕獲率捕獲率。衡量的是某累計區(qū)間抓住1類的對象占總體的比例。隨機概率:隨機概率:
49、不用模型隨機抽取數據得到的比率。比如響應率,總數據中1類占比20%,那抽取10%數據理論占比應該還是20%。橫坐標:橫坐標:按照模型結果概率得分從高到底排序,分成10個區(qū)間。適合于模型輸出值為概率得分,如貝葉斯分類、后向傳播等。lift值=響應率/隨機概率。比如對10000名淺在顧客進行概率打分,預測其購買商品的可能性,若實際中有900人會購買,則9%為隨機概率。抽取概率排名前10%的人數,即1000人,預測600人購買,則前10%的響應率為600/1000=60%,則lift值=60%/9%=6.67.lift圖三個指標在實際業(yè)務中使用比較多,因為其直觀、通俗易懂;同時有利于劃分不同的目標人
50、群,前10%?、20%?根據業(yè)務需要挑選受眾規(guī)模。分類模型評估埃森哲大數據分析方法目錄概述概述數據分析框架數據分析框架數據分析方法數據分析方法數據理解數據理解& &數據準備數據準備數據分析支撐工具數據分析支撐工具關聯(lián)分析關聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時序模型時序模型結構優(yōu)化結構優(yōu)化埃森哲大數據分析方法聚類分析 聚類分析對具有共同趨勢或結構的數據進行分組,將數據項分組成多個簇(類),簇之間的數據差別應盡可能大,簇內的數據差別應盡可能小,即“最小化簇間的相似性, 最大化簇內的相似性”。示例基于劃分基于劃分的聚類的聚類基于層次基于層次的聚類的聚類基于密度基于密度的聚類的
51、聚類基于網格基于網格的聚類的聚類基于模型基于模型的聚類的聚類 對給定的數據集合,事先指定劃分為k個類別。 典型算法:典型算法:k-均值法均值法和k-中心點算法等。 對給定的數據集合進行層次分解,不需要預先給定聚類數,但要給定終止條件,包括凝聚法和分裂法兩類。 典型算法:典型算法: cure、chameleon、birch、agglomerative 只要某簇鄰近區(qū)域的密度超過設定的閾值,則擴大簇的范圍,繼續(xù)聚類。這類算法可以獲得任意形狀的簇。 典型算法:典型算法:dbscan、optics和denclue等 首先將問題空間量化為有限數目的單元,形成一個空間網格結構,隨后聚類在這些網格之間進行。
52、 典型算法:典型算法:sting、warecluster和clique等 。為每個簇假定一個模型,尋找數據對模型的最佳擬合。所基于的假設是:數據是根據潛在的概率分布生成的。典型算法:典型算法:cobweb和神經網絡算法等。埃森哲大數據分析方法聚類分析k均值聚類39-2-1.5-1-0.500.511.5200.511.522.53xyiteration 1-2-1.5-1-0.500.511.5200.511.522.53xyiteration 2-2-1.5-1-0.500.511.5200.511.522.53xyiteration 3-2-1.5-1-0.500.511.5200.511
53、.522.53xyiteration 4-2-1.5-1-0.500.511.5200.511.522.53xyiteration 5-2-1.5-1-0.500.511.5200.511.522.53xyiteration 6 利用k-means聚類算法,把原始數據聚成三個不同的簇的應用實例如左圖示(k=3)?;舅悸坊舅悸罚海?)首先,隨機選擇k個數據點做為聚類中心;(2)然后,計算其它點到這些聚類中心點的距離,通過對簇中距離平均值的計算,不斷改變這些聚類中心的位置,直到這些聚類中心不再變化為止。應用實例 k-means算法,也被稱為k-平均或k-均值,是一種得到最廣泛使用的聚類算法。主
54、要思想是:首先將各個聚類子集內的所有數據樣本的均值作為該聚類的代表點,然后把每個數據點劃分到最近的類別中,使得評價聚類性能的準則函數達到最優(yōu),從而使同一個類中的對象相似度較高,而不同類之間的對象的相似度較小。埃森哲大數據分析方法聚類模型評估聚類評估指標評估指標公式定義公式定義圖示定義圖示定義凝聚度衡量一個族內對象凝聚情況分離度衡量族與族之間的差異輪廓系數綜合了凝聚度和分離度相似度矩陣通過與理想相似矩陣比較,看聚類效果共性分類相關系數衡量共性分類矩陣與原相異度矩陣之間的相關度,用以評估哪種層次聚類方法最好。目的:評估聚類效果、確定合適的分類數量、聚類模型的選擇埃森哲大數據分析方法目錄概述概述數據
55、分析框架數據分析框架數據分析方法數據分析方法數據理解數據理解& &數據準備數據準備數據分析支撐工具數據分析支撐工具關聯(lián)分析關聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時序模型時序模型結構優(yōu)化結構優(yōu)化埃森哲大數據分析方法關聯(lián)規(guī)則關聯(lián)分析 association 市場組合分析 套裝產品分析 目錄設計 交叉銷售 定義:定義: 自然界中某種事物發(fā)生時其他事物也會發(fā)生,則這種聯(lián)系稱之為關聯(lián)。反映事件之間依賴或關聯(lián)的知識稱為關聯(lián)型知識(又稱依賴關系)。要求找出描述這種關聯(lián)的規(guī)則,并用以預測或識別。 關聯(lián)分析的目的是找出數據集合中隱藏的關聯(lián)網,是離散變量因果分析的基礎。舉例: 通過發(fā)現(xiàn)顧客放
56、入其購物籃中不同商品之間的聯(lián)系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。例如,在同一次購物中,如果顧客購買牛奶的同時,也購買面包(和什么類型的面包)的可能性有多大? 這種信息可以引導銷售,可以幫助零售商有選擇地經銷和安排貨架。例如,將牛奶和面包盡可能放近一些,可以進一步刺激一次去商店同時購買這些商品。埃森哲大數據分析方法喝咖啡(a)不喝咖啡(a)合計喝茶(b)15050200不喝茶(b)650150800合計8002001000關聯(lián)規(guī)則設關聯(lián)規(guī)則: ,a或b為項集,支持度= ,表示同時包含a、b事務占總事務的百分比;置信度= ,是預測
57、性指標,表示a事務發(fā)生b事務發(fā)生的可能性。顯然支持度為對稱指標,即 都一樣,而置信度為非對稱指標,二者不同。我們以茶和咖啡的案例做指標說明。ab/a bab/aababa或b基本概念基本概念aa合計bf11f10f1+bf01f00f0+合計f+1f+0f示例支持度(喝茶喝咖啡)=150/1000=15%;置信度(喝茶喝咖啡)=150/200=75%。即一個人喝茶那么他75%可能喝咖啡。再看,不管一個人是否喝茶,其喝咖啡的比例為800/1000=80%75%。即一個人喝茶其喝咖啡的可能性由80%降低到75%,因此喝茶喝咖啡的高置信度實際上是一個誤導,其忽略了喝咖啡的支持度。因此,支持度-置信度
58、的評估框架是不完善的。置信度除以喝咖啡的支持度,即75%/80%=0.94。大于1表示正相關,而且越大相關性越強;等于1表示相互獨立;小于1表示負相關。興趣因子興趣因子對于連續(xù)變量相關性用pearson相關系數,pearson相關系數用來衡量兩個數據集合是否在一條線上面,它用來衡量定距變量間的線性關系。如衡量國民收入和居民儲蓄存款、身高和體重、高中成績和高考成績等變量間的線性相關關系。相關性相關性埃森哲大數據分析方法關聯(lián)規(guī)則主要的關聯(lián)算法:主要的關聯(lián)算法:aprioriapriori關聯(lián)算法、關聯(lián)算法、fp-growth關聯(lián)算法等; apriori算法是最基本的一種關聯(lián)規(guī)則算法,它采用布爾關聯(lián)
59、規(guī)則的挖掘頻繁項集的算法,利用逐層搜索的方法挖掘頻繁項集。埃森哲大數據分析方法關聯(lián)規(guī)則 fp-growth算法不產生候選集而直接生成頻繁集的頻繁模式增長算法,該算法采用分而治之的策略:在第一次掃描數據庫之后,把數據庫中的頻繁項目集壓縮到一棵頻繁模式樹中,形成投影數據庫,同時保留其中的關聯(lián)信息,隨后繼續(xù)將fp-tree分成一些條件樹,對這些條件樹分別進行挖掘。fp-tree的構建f,c,b組合滿足條件主要的關聯(lián)算法:主要的關聯(lián)算法:apriori關聯(lián)算法、fp-growthfp-growth關聯(lián)算法關聯(lián)算法等;埃森哲大數據分析方法關聯(lián)規(guī)則關聯(lián)規(guī)則模型評估目的:識別有意義(有價值)的關聯(lián)模式客觀度
60、量評價項集:對稱度量指標評價關聯(lián)規(guī)則:非對稱客觀度量支持度相關性興趣因子余弦jaccard集體強度置信度j度量gini指標可信度因子互信息信任度主觀度量可視化基于主觀模板的度量基于主觀興趣的度量.埃森哲大數據分析方法目錄概述概述數據分析框架數據分析框架數據分析方法數據分析方法數據理解數據理解& &數據準備數據準備數據分析支撐工具數據分析支撐工具關聯(lián)分析關聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時序模型時序模型結構優(yōu)化結構優(yōu)化埃森哲大數據分析方法時間序列時間序列:是按時間順序的一組數字序列構成序列構成:組合模型:組合模型: 加法模型:假定時間序列是基于4種成份相加而成的。長期趨勢并不影響季節(jié)變動;y=t+s+c+i 乘法模型:假定時間序列是基于4種成份相乘而成的。假定季節(jié)變動與循環(huán)變動為長期趨勢的函
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 產品風險分析報告
- 男性辦公室職員健康管理-從肥胖開始
- 生產線技術改造培訓匯報-提高生產效率
- 白水泥出口業(yè)務中的國際客戶關系管理
- 多肽復合物項目申請立項可行性研究報告
- 紙繩洗衣筐行業(yè)深度研究報告
- 2022-2027年中國醫(yī)療器械行業(yè)市場發(fā)展現(xiàn)狀及投資前景展望報告
- 2025年水泥制件項目可行性研究報告
- 懲罰性賠償在環(huán)境民事公益訴訟中的適用問題研究
- 基于多源數據綜合研究青藏高原云特性的多時空尺度變化特征
- 河北省縣市鄉(xiāng)鎮(zhèn)衛(wèi)生院社區(qū)衛(wèi)生服務中心基本公共衛(wèi)生服務醫(yī)療機構名單目錄地址2415家
- 視頻號精細化運營培訓課件
- 粗粒土和巨粒土最大干密度試驗檢測記錄表
- 土木工程專業(yè)畢業(yè)論文任務書 土木工程專業(yè)電大畢業(yè)論文
- (完整版)漢密爾頓焦慮量表(HAMA)
- 電力電子技術全套課件
- 配電箱(剩余電流動作斷路器)檢測報告
- 編外人員錄用審批表
- 倪海廈《天紀》講義
- 建設年飼養(yǎng)240萬只蛋雛雞培育基地項目可行性研究報告
- 黃金太陽漆黑的黎明金手指
評論
0/150
提交評論