01-數(shù)據(jù)挖掘基礎(chǔ)知識培訓(xùn)

上傳人：r*** IP屬地：北京上傳時間：2024-12-22 格式：PPTX 頁數(shù)：55 大?。?.76MB 積分：1.2 舉報 版權(quán)申訴

已閱讀5頁，還剩50頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘基礎(chǔ)知識培訓(xùn)2024/12/2221.數(shù)據(jù)挖掘基本原理3.數(shù)據(jù)挖掘技術(shù)4.最優(yōu)化技術(shù)5.文本挖掘技術(shù)2.數(shù)據(jù)預(yù)處理技術(shù)什么是數(shù)據(jù)挖掘2024/12/223隨著信息技術(shù)的高速發(fā)展，全球新產(chǎn)生的數(shù)據(jù)年增40%，全球信息總量每兩年就可以翻番！而對新增數(shù)據(jù)的處理，能力以及其利用率的增長則不足5%。全球數(shù)據(jù)總量增長趨勢每兩年翻一番什么是數(shù)據(jù)挖掘2024/12/224

數(shù)據(jù)挖掘(DataMining)

●數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

數(shù)據(jù)爆炸式增長激增的數(shù)據(jù)背后隱藏著許多重要的信息，人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析；目前的數(shù)據(jù)庫系統(tǒng)僅能夠?qū)崿F(xiàn)數(shù)據(jù)的錄入、查詢和統(tǒng)計等功能，但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則，無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢，顯示出它的局限性；1995年數(shù)據(jù)挖掘應(yīng)運(yùn)而生聯(lián)機(jī)事務(wù)處理(OLTP)數(shù)據(jù)管理，查詢技術(shù)上世紀(jì)70年代以來,關(guān)系式數(shù)據(jù)庫

聯(lián)機(jī)分析處理(OLAP)對數(shù)據(jù)匯總、合并、聚集，驗證假設(shè)上世紀(jì)80年代后期,數(shù)據(jù)倉庫1995年后,數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DM，DataMining)數(shù)據(jù)建模、算法(非常規(guī)方法)知識：趨勢、規(guī)則、模式、結(jié)構(gòu)數(shù)據(jù)挖掘是一門交叉學(xué)科，融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)從商業(yè)數(shù)據(jù)到商業(yè)信息化的進(jìn)化2024/12/225進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集

(60年代)“過去五年中我的總收入是多少？”計算機(jī)、磁帶和磁盤IBMCDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問

(80年代)“在新英格蘭的分部去年三月的銷售額是多少？”關(guān)系數(shù)據(jù)庫(RDBMS)結(jié)構(gòu)化查詢語言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少？波士頓據(jù)此可得出什么結(jié)論？”聯(lián)機(jī)分析處理(OLAP)多維數(shù)據(jù)庫數(shù)據(jù)倉庫PilotComshareArborCognosMicrostrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘

（正在流行）“下個月波士頓的銷售會怎么樣？為什么？”高級算法多處理器計算機(jī)海量數(shù)據(jù)庫PilotLockheedIBMSGI其他初創(chuàng)公司提供預(yù)測性的信息數(shù)據(jù)挖掘的社會需求2024/12/226數(shù)據(jù)爆炸，知識貧乏

苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)政府POS.人口統(tǒng)計生命周期數(shù)據(jù)挖掘與統(tǒng)計分析的區(qū)別2024/12/227數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析（如查詢、報表、聯(lián)機(jī)應(yīng)用分析）的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘得到的信息具有先未知，有效和可實用三個特征。一市場分析師在為超市規(guī)劃貨品架柜擺設(shè)時，可能會先假設(shè)嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品，接著便可利用OLAP的工具去驗證此假設(shè)是否為真，又成立的證據(jù)有多明顯；但DataMining則不然，執(zhí)行DataMining的人將龐大的結(jié)帳數(shù)據(jù)整理后，并不需要假設(shè)或期待可能的結(jié)果，透過Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則，于是我們可能得到例如尿布和啤酒常被同時購買的意料外之發(fā)現(xiàn)，這是OLAP所做不到的。做OLAP分析，我們找找哪些人總是不及時向電信運(yùn)營商繳錢，一般會分析收入低的人往往會繳費(fèi)不及時。通過分析，發(fā)現(xiàn)不及時繳錢的窮人占71%。而數(shù)據(jù)挖掘則不同，它自己去分析原因。原因可能是，家住在五環(huán)以外的人，不及時繳錢。這些結(jié)論對推進(jìn)工作有很深的價值，比如在五環(huán)外作市場調(diào)研，發(fā)現(xiàn)需要建立更多的合作渠道以方便繳費(fèi)。這是數(shù)據(jù)挖掘的價值。數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)2024/12/228數(shù)據(jù)倉庫數(shù)據(jù)清洗和集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評價圖形用戶接口知識庫數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程60

業(yè)務(wù)理解、數(shù)據(jù)預(yù)處理（數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備）包含60%工作量；需要注意的是，以上6個步驟并非完全按照此順序來執(zhí)行。在實際應(yīng)用中，需要針對不同的應(yīng)用環(huán)境和實際情況作出必要的調(diào)整。此外，一個數(shù)據(jù)挖掘項目通常并不是一次性地執(zhí)行了上述6個步驟就結(jié)束了，它往往是一個反復(fù)迭代、不斷完善的過程。CRISP-DM1999年歐盟機(jī)構(gòu)聯(lián)合起草.通過近幾年的發(fā)展，在各種KDD過程模型中成為標(biāo)準(zhǔn)流程。數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程商業(yè)理解也叫業(yè)務(wù)理解，最初的階段集中在理解項目的目標(biāo)和從業(yè)務(wù)的角度理解需求，同時將這個知識轉(zhuǎn)換為數(shù)據(jù)挖掘問題的定義和完成目標(biāo)的初步計劃。數(shù)據(jù)理解數(shù)據(jù)理解階段是從初始的數(shù)據(jù)收集開始，通過一些活動的處理目的是熟悉數(shù)據(jù)，識別數(shù)據(jù)的質(zhì)量問題，首次發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在屬性，或是探索引起興趣的子集去形成隱含信息的假設(shè)。比如“前一天對當(dāng)天影響較大”數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備階段包括從未處理的數(shù)據(jù)集中構(gòu)造最終數(shù)據(jù)集的所有活動。這些數(shù)據(jù)將是模型工具的輸入值。這個階段的任務(wù)有的需要執(zhí)行多次，沒有任何規(guī)定的順序。任務(wù)包括表、記錄和屬性的選擇，以及模型工具轉(zhuǎn)換和清洗數(shù)據(jù)。建模模型這個階段，可以選擇和應(yīng)用不同的模型技術(shù)，模型參數(shù)被調(diào)整到最佳的數(shù)值。一般，有些技術(shù)可以解決一類相同的數(shù)據(jù)挖掘問題。有些技術(shù)在數(shù)據(jù)形成上有特殊要求，因此需要經(jīng)常跳回到數(shù)據(jù)準(zhǔn)備階段。模型評估到這個階段，已經(jīng)從數(shù)據(jù)分析的角度建立了高質(zhì)量的模型。在開始最后部署模型之前，需要徹底地評估模型，檢查構(gòu)造模型的步驟，確保模型可以完成業(yè)務(wù)目標(biāo)。這個階段的關(guān)鍵目的是檢驗是否有重要業(yè)務(wù)問題沒有被充分考慮。結(jié)果部署模型的創(chuàng)建不是挖掘過程的結(jié)束。這個階段可以產(chǎn)生數(shù)據(jù)分析報告，或?qū)崿F(xiàn)一個比較復(fù)雜的、可重復(fù)的數(shù)據(jù)挖掘過程。目錄2024/12/22111.數(shù)據(jù)挖掘基本原理3.數(shù)據(jù)挖掘技術(shù)4.最優(yōu)化技術(shù)5.文本挖掘技術(shù)2.數(shù)據(jù)預(yù)處理技術(shù)為什么進(jìn)行數(shù)據(jù)預(yù)處理2024/12/2212現(xiàn)實世界的數(shù)據(jù)是“骯臟的”——數(shù)據(jù)多了，什么問題都會出現(xiàn)不完整缺少數(shù)據(jù)值；缺乏某些重要屬性；僅包含匯總數(shù)據(jù)；e.g.,occupation=""有噪聲包含錯誤或者孤立點e.g.Salary=-10數(shù)據(jù)不一致e.g.,在編碼或者命名上存在差異(studentId,stu_id)e.g.,過去的等級：“1,2,3”,現(xiàn)在的等級：“A,B,C”e.g.,Age=“42”Birthday=“03/07/1997”數(shù)據(jù)為什么會變“臟”2024/12/2213不完整數(shù)據(jù)的成因數(shù)據(jù)收集的時候就缺乏合適的值數(shù)據(jù)收集時和數(shù)據(jù)分析時的不同考慮因素人為/硬件/軟件問題噪聲數(shù)據(jù)（不正確的值）的成因數(shù)據(jù)收集工具的問題數(shù)據(jù)輸入時的人為/計算機(jī)錯誤數(shù)據(jù)傳輸中產(chǎn)生的錯誤數(shù)據(jù)不一致性的成因不同的數(shù)據(jù)源違反了函數(shù)依賴性數(shù)據(jù)預(yù)處理的重要性2024/12/2214數(shù)據(jù)預(yù)處理現(xiàn)實世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量，從而有助于提高其后的挖掘過程的精度和性能。由于高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù)，因此數(shù)據(jù)預(yù)處理是知識發(fā)現(xiàn)過程的重要步驟。數(shù)據(jù)預(yù)處理技術(shù)2024/12/2215數(shù)據(jù)清理-缺失值(missingvalue)忽略元組人工填寫遺漏值使用一個全局常量填充遺漏值使用屬性的平均值填充遺漏值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充遺漏值(利用決策樹、回歸、貝葉斯等算法)數(shù)據(jù)預(yù)處理技術(shù)2024/12/2216數(shù)據(jù)清理-噪聲數(shù)據(jù)(noisedata)分箱(Binning)回歸聚類基于統(tǒng)計的方法數(shù)據(jù):4,8,9,15,21,21,24,25,26,28,29,34分箱并利用均值平滑:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,29xyy=x+1X1Y1Y1’則認(rèn)為x為離群點數(shù)據(jù)預(yù)處理技術(shù)2024/12/2217數(shù)據(jù)變換屬性構(gòu)造：可以構(gòu)造新的屬性并添加到屬性集中，以幫助挖掘過程。數(shù)據(jù)泛化：使用概念分層，用高層次概念替換低層次“原始”數(shù)據(jù)。規(guī)范化：將屬性數(shù)據(jù)按比例縮放，使之落入一個小的特定區(qū)間。例：將人的年齡分為：少年，青年，中年，老年最小-最大規(guī)范化:z-score規(guī)范化（零-均值規(guī)范化）:中心化:小數(shù)定標(biāo)規(guī)范化:數(shù)據(jù)預(yù)處理技術(shù)2024/12/2218屬性選擇屬性降維維數(shù)災(zāi)難（CurseofDimensionality）數(shù)據(jù)數(shù)量要求呈爆炸式增長常用相似性度量，距離度量失效模型參數(shù)劇增降維：將高維數(shù)據(jù)通過某種技術(shù)變換到低維，并極大保持原有數(shù)據(jù)信息降維假設(shè)：高維數(shù)據(jù)存在本質(zhì)低維表示從大量的可能冗余的屬性中選擇出對于問題相關(guān)屬性。屬性1屬性2屬性3屬性4屬性5決策屬性屬性1屬性2屬性5決策屬性目錄2024/12/22191.數(shù)據(jù)挖掘基本原理3.數(shù)據(jù)挖掘技術(shù)4.最優(yōu)化技術(shù)5.文本挖掘技術(shù)2.數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)挖掘技術(shù)2024/12/22204.關(guān)聯(lián)規(guī)則5.時間序列1.聚類2.分類3.回歸聚類2024/12/2221聚類分析Clustering

客戶細(xì)分市場細(xì)分入侵檢測盜電檢測……

聚類:

對具有共同趨勢或結(jié)構(gòu)的數(shù)據(jù)進(jìn)行分組(數(shù)據(jù)劃分)。將數(shù)據(jù)項分組成多個類,類之間的數(shù)據(jù)差別應(yīng)盡可能大,類內(nèi)的數(shù)據(jù)差別應(yīng)盡可能小。即“最小化類間的相似性,最大化類內(nèi)的相似性”。聚類分析可以建立宏觀的概念，發(fā)現(xiàn)數(shù)據(jù)的分布模式。是知識發(fā)現(xiàn)的基礎(chǔ)?？蛻粜袨椋瓋r值細(xì)分模型海量客戶行為數(shù)據(jù)/特征數(shù)據(jù)組內(nèi)行為特點相似組間行為差異較大的客戶分組KMeans聚類算法；層次聚類算法；EM聚類算法；視覺聚類算法；…….聚類2024/12/2222主要聚類算法的分類劃分方法給定n個對象或數(shù)據(jù)元組的數(shù)據(jù)庫，劃分方法構(gòu)建數(shù)據(jù)的k個劃分，每個劃分表示一簇，k<=n。常用的算法包括k-means，k-moid法。層次方法層次分析法創(chuàng)建給定數(shù)據(jù)對象集的層次分解。根據(jù)層次的分解的形成方式，層次的方法可以分類為聚集（自底向上）的和分裂的方法?；诿芏确椒ㄖ饕枷胧牵褐灰班徲颉敝械拿芏龋▽ο蠡驍?shù)據(jù)點的數(shù)目）超過某個閾值，就繼續(xù)聚類。基于網(wǎng)格方法基于網(wǎng)格的方法把對象空間量化為有限數(shù)目的單元，形成一個網(wǎng)格結(jié)構(gòu)。所有的聚類操作都在這個網(wǎng)格結(jié)構(gòu)化進(jìn)行?；谀Ｐ头椒ɑ谀Ｐ偷姆椒槊看丶俣ㄒ粋€模型，并尋找數(shù)據(jù)對給定模型的最佳擬合。常用算法:EM

(期望最大化)、SOM（自組織特征映射）。聚類2024/12/2223常用聚類算法——k-means(k均值)，原理及軟件實現(xiàn)。處理流程如下：首先，隨機(jī)地選擇k個對象，每個對象代表一個簇的初始均值或中心。其次，對剩余的每個對象，根據(jù)其與各個簇均值的距離，將它指派到最近似的簇。然后計算每個簇的新均值。這個過程不斷重復(fù)，直到準(zhǔn)則函數(shù)收斂。通常采用平方誤差準(zhǔn)則。算法：k均值。用于劃分的k均值算法，每個簇的中心用簇中對象的均值表示。輸入：k：簇的數(shù)目（聚類個數(shù)），D：包含那個對象的數(shù)據(jù)集。輸出：k個簇的集合。方法：

（1）從D中任意選擇k個對象作為初始簇中心；

（2）repeat

（3）

根據(jù)簇中對象的均值，將每個對象（再）指派到最相思的簇；

（4）

更新簇均值，即計算每個簇中對象的均值；

（5）until不再發(fā)生變化過程演示聚類2024/12/2224訓(xùn)練數(shù)據(jù)集數(shù)據(jù)挖掘算法建模KMeans視覺聚類……分類2024/12/2225

分類(模式識別)：分類是研究己分類資料的特征，分析對象屬性，據(jù)此建立一個分類函數(shù)或分類模型，然后運(yùn)用該模型將其他未經(jīng)分類或新的數(shù)據(jù)分派到不同的組中。

銀行根據(jù)客戶以往貸款記錄情況，將客戶分為低風(fēng)險客戶和高風(fēng)險客戶，學(xué)習(xí)得到分類器。對一個新來的申請者，根據(jù)分類器計算風(fēng)險，決定接受或拒絕該申請分析影響變壓器正常運(yùn)行的因素，預(yù)測變壓器是否有故障，若有故障，故障為放電故障、過熱故障、短路故障等的哪一種?？蛻粼u價；垃圾郵件識別；根據(jù)核磁共振掃描的結(jié)果區(qū)分惡性腫瘤和良性腫瘤信息用卡客戶信用度的劃分；……C4.5決策樹算法；SVM算法；神經(jīng)網(wǎng)絡(luò)算法；Logistic回歸算法；樸素貝葉斯網(wǎng)絡(luò)算法；…….分類2024/12/2226分類算法在解決實際問題時經(jīng)常會把數(shù)據(jù)拆分為兩個數(shù)據(jù)集：訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集。通過數(shù)據(jù)挖掘算法對訓(xùn)練數(shù)據(jù)集進(jìn)行建模，尋找X和Y之間的數(shù)學(xué)模型，然后通過測試數(shù)據(jù)集來驗證該數(shù)學(xué)模型的準(zhǔn)確率，如果誤差能夠達(dá)控制到一定精度，則認(rèn)為該模型很好的反映了X和Y的關(guān)系，可以用來進(jìn)行預(yù)測和分析。數(shù)據(jù)挖掘算法建模決策樹SVM……訓(xùn)練數(shù)據(jù)集測試數(shù)據(jù)集Y=f(x1,

x2,x3,

xn)通過數(shù)據(jù)挖掘找到函數(shù)f(x)通過測試數(shù)據(jù)集驗證f(x)分類-決策樹2024/12/2227決策樹是一種用樹來展現(xiàn)數(shù)據(jù)受各變量的影響情形的預(yù)測模型，根據(jù)對目標(biāo)變量產(chǎn)生這效應(yīng)的不同而構(gòu)建的分類的規(guī)則。其最終表現(xiàn)形式是一種if-then（如果...，那么...）的推理規(guī)則。RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K劃分屬性訓(xùn)練數(shù)據(jù)決策樹模型分類-決策樹2024/12/2228訓(xùn)練數(shù)據(jù)RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80KAssignCheatto“No”測試數(shù)據(jù)回歸2024/12/2229

回歸：確定因素與因素或原因與結(jié)果之間的函數(shù)關(guān)系。通常指連續(xù)要素之間的模型關(guān)系。主要用于連續(xù)量的預(yù)測;是因果關(guān)系分析的基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)；SVM算法；線性回歸算法；L1/2稀疏迭代算法；…….回歸2024/12/2230回歸算法在解決實際問題時經(jīng)常會把數(shù)據(jù)拆分為兩個數(shù)據(jù)集：訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集。通過數(shù)據(jù)挖掘算法對訓(xùn)練數(shù)據(jù)集進(jìn)行建模，尋找X和Y之間的數(shù)學(xué)模型，然后通過測試數(shù)據(jù)集來驗證該數(shù)學(xué)模型的準(zhǔn)確率，如果誤差能夠達(dá)控制到一定精度，則認(rèn)為該模型很好的反映了X和Y的關(guān)系，可以用來進(jìn)行預(yù)測和分析。數(shù)據(jù)挖掘算法建模線性回歸神經(jīng)網(wǎng)絡(luò)……訓(xùn)練數(shù)據(jù)集測試數(shù)據(jù)集Y=f(x1,

x2,x3,

xn)通過數(shù)據(jù)挖掘找到函數(shù)f(x)通過測試數(shù)據(jù)集驗證f(x)關(guān)聯(lián)規(guī)則2024/12/2231關(guān)聯(lián)分析Association

市場組合分析套裝產(chǎn)品分析套餐推薦交叉銷售……

關(guān)聯(lián)：關(guān)聯(lián)規(guī)則反映一個事物與其它事物之間的相互依存性和關(guān)聯(lián)性；如果兩個事物或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系，那么其中一個事物就能夠通過其它事物預(yù)測到。關(guān)聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。Apriori算法；FPGrowth算法；Partition算法；…….關(guān)聯(lián)規(guī)則2024/12/2232顧客購買商品1面包，黃油，尿布，啤酒2咖啡，糖，小甜餅，鮭魚，啤酒3面包，黃油，咖啡，尿布，啤酒，雞蛋4面包，黃油，鮭魚，雞5雞蛋，面包，黃油6鮭魚，尿布，啤酒7面包，茶，糖雞蛋8咖啡，糖，雞，雞蛋9面包，尿布，啤酒，鹽10茶，雞蛋，小甜餅，尿布，啤酒……………..規(guī)則：“買啤酒”“買尿布”。Support(支持度)=60%Confidence(置信度)=80%support(X

Y)＝(包含X和Y的樣本數(shù)/樣本總數(shù))×100％；confidence(X

Y)＝(包含X和Y的樣本數(shù)/包含X的樣本數(shù))×100％；時間序列2024/12/2233數(shù)據(jù)挖掘算法建模AprioriFPGrowth……訓(xùn)練數(shù)據(jù)集[X1=T]=>[X4=T]......名詞型屬性數(shù)值型屬性時間序列2024/12/2234OpenAccn’tAddNewProductDecreaseUsage???Time

庫存預(yù)測

電力負(fù)荷預(yù)測

銷量預(yù)測

……OpenAccn’tAddNewProductDecreaseUsage???Time時間序列：變量隨時間變化，按等時間間隔所取得的觀測值序列，稱時間序列。時間序列分析法主要通過與當(dāng)前預(yù)測時間點相近的歷史時刻的數(shù)據(jù)來預(yù)測當(dāng)時時刻的值。SARIMA算法；稀疏時間序列算法；時間序列2024/12/2235常用時間序列算法——傳統(tǒng)方法，原理及軟件實現(xiàn)。簡單平均法：根據(jù)已有的t期觀察值通過簡單平均來預(yù)測第t+1期的數(shù)值。數(shù)學(xué)表達(dá)式如下：

；適合于對較為平穩(wěn)的時間序列進(jìn)行預(yù)測。簡單移動平均：把第t+1期之前之前最近的T期數(shù)據(jù)加以平均做第t+1期的數(shù)值。數(shù)學(xué)表達(dá)式如下：

；消除遠(yuǎn)期數(shù)據(jù)對當(dāng)前的影響。平均誤差平方和確定T。加權(quán)移動平均法：對近期的觀察值和遠(yuǎn)期的觀察值賦予不同的權(quán)值，再進(jìn)行預(yù)測。數(shù)學(xué)表達(dá)式如下：

，其中，，實際中較少使用。時間序列2024/12/2236常用時間序列算法——指數(shù)平滑法，原理及軟件實現(xiàn)。指數(shù)平滑法是對移動平均法進(jìn)行了改進(jìn)和發(fā)展，是生產(chǎn)預(yù)測常用的一種方法。包含多種類型模型：1）簡單指數(shù)平滑模型：也稱為一次指數(shù)平滑法。適用無明顯趨勢和季節(jié)性序列。數(shù)學(xué)表達(dá)式如下：實際運(yùn)算采用倒序，首先計算L(1)=αY(1)+(1-α)L(0)，其中L(0)=Y(1)或最遠(yuǎn)三期的均值。2）布朗單一參數(shù)指數(shù)平滑模型：屬于二次指數(shù)平滑法。是對一次指數(shù)平滑值再次進(jìn)行一次平滑。

，，適合于有線性趨勢但沒有季節(jié)性的序列。（不是直接利用一次平滑做預(yù)測，而是利用平滑值對時間序列的線性趨勢做平滑）簡單指數(shù)平滑適應(yīng)序列數(shù)據(jù)特征布朗單一參數(shù)指數(shù)平滑適應(yīng)序列數(shù)據(jù)特征時間序列2024/12/2237常用時間序列算法——指數(shù)平滑法，原理及軟件實現(xiàn)。3）霍特（Holt）雙參數(shù)指數(shù)平滑：與布朗單一參數(shù)指數(shù)平滑模型原理基本相似，但不直接用二次指數(shù)平滑值進(jìn)行計算，而是分別對原序列和序列的趨勢進(jìn)行平滑。它使用兩個參數(shù)，分別是α和γ，二者取值均在[0,1]區(qū)間。數(shù)學(xué)公式如下：，這里，L(t)稱為數(shù)據(jù)平滑值，T(t)為趨勢平滑值。（霍特方法是一種改進(jìn)，在估計L(t)時，給L(t-1)加上一個趨勢增量T(t-1)，解決了估計值時間滯后的問題。其中，趨勢增量也是一個指數(shù)平滑估計值。平滑參數(shù)的需要選擇幾組不同的值來進(jìn)行分析和比較，以預(yù)測誤差最小的一組來平滑常數(shù)。）適用于線性趨勢但沒有季節(jié)性的序列。比布朗更加常用，但在計算大型序列的估計值時會花費(fèi)更多的時間。時間序列2024/12/2238常用時間序列算法——指數(shù)平滑法，原理及軟件實現(xiàn)。4）阻尼趨勢指數(shù)平滑：霍特模型在考查時間序列中可能存在的固有趨勢時，它假設(shè)這個趨勢在時間上是永久持續(xù)的。也就是說，無論時間發(fā)展多久，每一期與前一期相比都有一個相對穩(wěn)定的趨勢增量T(1-1)。然而，對現(xiàn)實中的許多時間序列來說，這個假設(shè)往往是不切實際的。比如一個百米運(yùn)動員的訓(xùn)練成績組成的時間序列，在剛開始進(jìn)行訓(xùn)練時，成績的增幅往往較大，但隨著時間的推移成績的增幅會越來越小。阻尼趨勢指數(shù)平滑模型，是對霍特模型的調(diào)整，用于對具有逐漸衰退的線性趨勢但沒有季節(jié)性的序列進(jìn)行預(yù)測。除了霍特模型中的兩個參數(shù)外，還包括3個參數(shù)φ，介于[0,1]，用來表示趨勢的衰退比例。數(shù)學(xué)表達(dá)式如下：時間序列2024/12/2239常用時間序列算法——指數(shù)平滑法，原理及軟件實現(xiàn)。季節(jié)性變動是客觀事物常見的一種變化規(guī)則，例如瓜果、服裝的銷量，會隨著季節(jié)的不同出現(xiàn)周期性的變動，鐵路、航空客運(yùn)量等會隨著節(jié)假日出現(xiàn)周期性變動。季節(jié)性模型包括如下三種：5）簡單季節(jié)指數(shù)平滑：6）溫特加法指數(shù)平滑模型：適用于沒有趨勢且季節(jié)效應(yīng)不隨時間變化的時間序列。適用于沒有趨勢且季節(jié)效應(yīng)不隨時間變化的時間序列。7）溫特乘法指數(shù)平滑模型：L(t)為數(shù)據(jù)平滑值，T(t)為趨勢平滑值，S(t)為季節(jié)平滑值，s是周期長度（也就是一年中包含的樣本數(shù)量），α、γ、δ為3個平滑參數(shù)。適用于具有線性趨勢且季節(jié)效應(yīng)隨序列的大小變化的序列時間序列2024/12/2240常用時間序列算法——ARMA模型（自回歸移動平均模型），原理及軟件實現(xiàn)。ARMA是目前最常用的擬合平穩(wěn)隨機(jī)序列的模型。平穩(wěn)隨機(jī)序列，直觀地說，其折線圖沒有明顯的上升或下降的趨勢，統(tǒng)計特性不隨時間的推移而變化。并且平穩(wěn)時間序列必須是0均值的。在應(yīng)用ARMA模型前，需要先對時間序列進(jìn)行0均值化和差分平穩(wěn)化處理。細(xì)分為3個模型：1）AR(p)模型（自回歸模型）：模型公式如下：

其中，Yt是時間序列在第t期的觀察值，P是AR模型的階數(shù)，et是誤隨機(jī)差項。當(dāng)φ0=0時，Yt

是一個零均值的時間序列。2）MA(q)模型（移動平均模型）：基本思想是，時間序列模型可以根據(jù)平均前期預(yù)測誤差來建立，在前期預(yù)測值之上加上預(yù)測誤差便可得到現(xiàn)在的預(yù)測值。模型公式如下：

其中，Yt

是時間序列在第t期的觀察值，q是MA模型的階數(shù)，et是誤隨機(jī)差項。2）ARMA(p,q)模型（自回歸移動平均模型）：AR和MA的有效組合，模型公式如下：

，p=0時是MA模型，q=0時是AR模型。時間序列2024/12/2241常用時間序列算法——ARMA模型（自回歸移動平均模型），原理及軟件實現(xiàn)。ARMA模型類型判定，主要根據(jù)自相關(guān)、偏自相關(guān)的截尾和拖尾特征判定。判定方法如下：模型自相關(guān)函數(shù)偏自相關(guān)函數(shù)AR(p)拖尾p步截尾MA(q)q步截尾拖尾ARMA(p,q)拖尾拖尾1-1211-121自相關(guān)、偏自相關(guān)函數(shù)的截尾性1-11-11-1自相關(guān)、偏自相關(guān)函數(shù)的拖尾性時間序列2024/12/2242常用時間序列算法——ARIMA模型（自回歸移動平均模型），原理及軟件實現(xiàn)。ARIMA模型可以描述各種非平穩(wěn)的時間序列，是時間序列最一般的表示形式，包括了AR(p)、MA(q)、ARMA(p,q)、ARIMA(p,d,q)以及各種組合模型。一般建模過程如下：注：在實際中不考慮數(shù)據(jù)特征的或數(shù)據(jù)特征不明顯的情況下，優(yōu)先選擇采用ARIMA進(jìn)行時間序列建模，但其建模過程較為復(fù)雜，需要對ARIMA的建模過程進(jìn)行充分理解。采集數(shù)據(jù)平穩(wěn)性檢驗確定模型參數(shù)參數(shù)估計模型檢驗預(yù)測差分運(yùn)算否是是否時間序列2024/12/2243訓(xùn)練數(shù)據(jù)集測試集數(shù)據(jù)挖掘算法建模SARIMA稀疏時間序列……目錄2024/12/22441.數(shù)據(jù)挖掘基本原理3.數(shù)據(jù)挖掘技術(shù)4.最優(yōu)化技術(shù)5.文本挖掘技術(shù)2.數(shù)據(jù)預(yù)處理技術(shù)最優(yōu)化技術(shù)介紹2024/12/2245最優(yōu)化是一門應(yīng)用十分廣泛的學(xué)科，它研究在有限種或無限種可行方案中挑選最優(yōu)方案，構(gòu)造尋求最優(yōu)解的計算方法。如生活中經(jīng)常遇到求利潤最高，產(chǎn)量最大，成本最低，時間最短等實際問題，這些問題都是優(yōu)化問題。最優(yōu)化問題的模型如下：最優(yōu)化問題求解步驟如下：前期分析模型定義模型求解分析問題，找出要解決的目標(biāo)，約束條件，并確立最優(yōu)化的目標(biāo)建立最優(yōu)化問題的數(shù)學(xué)模型，列出目標(biāo)函數(shù)和約束條件針對建立的模型，選擇合適的求解方法決策變量、

人人文庫> 全部分類> 應(yīng)用文書 > 產(chǎn)品手冊

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

01-數(shù)據(jù)挖掘基礎(chǔ)知識培訓(xùn)

文檔簡介

溫馨提示

最新文檔

評論

01-數(shù)據(jù)挖掘基礎(chǔ)知識培訓(xùn)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔