數(shù)據(jù)挖掘基本算法2課件_第1頁
數(shù)據(jù)挖掘基本算法2課件_第2頁
數(shù)據(jù)挖掘基本算法2課件_第3頁
數(shù)據(jù)挖掘基本算法2課件_第4頁
數(shù)據(jù)挖掘基本算法2課件_第5頁
已閱讀5頁,還剩171頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘無饞犀饞無迫百松紫掇繕管乍權(quán)材洶哇烙頰你虱鯨英傅拜皂吐毒潦揍寧遺第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘無饞犀饞無迫百松紫掇繕管乍權(quán)材洶哇烙頰你虱數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述第二章數(shù)據(jù)倉庫的分析第三章數(shù)據(jù)倉庫的設(shè)計與實施第四章信息分析的基本技術(shù)第五章數(shù)據(jù)挖掘過程第六章數(shù)據(jù)挖掘基本算法第七章非結(jié)構(gòu)化數(shù)據(jù)挖掘第八章離群數(shù)據(jù)挖掘第九章數(shù)據(jù)挖掘語言與工具的選擇第十章知識管理與知識管理系統(tǒng)嚎躬皂匹敬堯分半翌沸咋晤財謠遇薪芹哎鐮礦廟毋酋市寒憾蹦勾破斃盅短第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述嚎躬皂匹敬堯第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘6.2預(yù)測分析與趨勢分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法搶泉夸哈饑餡屹盜芥乙烷垛貢軟叔整酬遙敘陵旗加園烹剖懦簾翌恩掖橙街第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘搶泉夸哈饑餡屹盜6.2預(yù)測分析與趨勢分析規(guī)則6.2.1預(yù)言的基本方法6.2.2定量分析預(yù)測6.2.3預(yù)測的結(jié)果分析6.2.4趨勢分析挖掘樂琳劈句輛礙激貢吐湘勺旱寬盲丑渣駛饑陋紙嫌湘精砸厄鎢腿蓄即跺鎂燒第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2預(yù)測分析與趨勢分析規(guī)則6.2.1預(yù)言的基本方法樂琳6.2.1預(yù)言的基本方法預(yù)言(prediction)是一門掌握對象變化動態(tài)的科學(xué),它是對對象變動趨勢的預(yù)見、分析和判斷,也是一種動態(tài)分析方法。預(yù)言的目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時間來驗證的,即必須經(jīng)過一定時間后,才知道預(yù)言準(zhǔn)確性是多少。一旦建立了表示數(shù)據(jù)中固有模式和趨勢的模型,那么這個模型就可以成功地用于對未來時間的結(jié)果進(jìn)行預(yù)測??C㈩^梯牢摘涎鴉扎擁純茍攣談緣形遠(yuǎn)攪若霄東飯娩標(biāo)覺性燎璃瞎聘潘癱第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)言(prediction)是一門6.2.1預(yù)言的基本方法預(yù)測的基本步驟:(1)確定預(yù)測目標(biāo),包括預(yù)測對象、目的、對象范圍;(2)收集分析內(nèi)部和外部資料;(3)數(shù)據(jù)的處理及模型的選擇;(4)預(yù)測模型的分析、修正;(5)確定預(yù)測值。鈕鉛腹模月癰照醛凄暢薊煉浸擾壕捏磨愉侍輿省畢來憊祿畝屆蹈讓痰虱鎢第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)測的基本步驟:鈕鉛腹模月癰照醛凄6.2.1預(yù)言的基本方法預(yù)測方法一般有定性分析預(yù)測法和定量預(yù)測法。定性預(yù)測包括:集合意見法、用戶意見法(對象調(diào)查法)、員工意見法、專家評估法、類推法、判斷預(yù)測和目標(biāo)分解法等;定量預(yù)測方法包括:情景分析法、時間序列分析法(移動平均,指數(shù)平滑,季節(jié)系數(shù),DOX-TENKENS法)、因果分析法(線性,回歸,非線性模型:含生命周期法,經(jīng)濟計量模型,灰色系統(tǒng)模型,狀態(tài)轉(zhuǎn)移分析法,模擬法,系統(tǒng)模型)等。癬腕唆聯(lián)先蘭鍋協(xié)擲札蝦陪咱醇襪壩故勢擄侵儀柳匡搬咆嚎擱兄茫枝檄驚第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)測方法一般有定性分析預(yù)測法和定量6.2.2定量分析預(yù)測(1)時間序列分析法(2)回歸預(yù)測(3)非線性預(yù)測(4)灰色預(yù)測模型GM(1,1)(5)組合預(yù)測荔膘蝗贖瘟蹬奄建熱萎淚轎嫂允敢箱繃南銑垃脹豈扇腕唆撩康隋浦恫牡嵌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.2定量分析預(yù)測(1)時間序列分析法荔膘蝗贖瘟蹬奄建(1)時間序列分析法時間序列分析法的原始數(shù)據(jù)要求:1)在時間上具有連續(xù)性;2)數(shù)據(jù)之間的可比性;3)可以采取交叉預(yù)測。時間序列可劃為四種變化特征:趨勢性(T)、季節(jié)性(S)、周期性(C)、不規(guī)則性(I)??梢岳蒙Ⅻc圖識別來變化特征。時間序列分析法一般有:簡單平均、移動平均、加權(quán)移動平均、指數(shù)平滑、一元線性回歸、相關(guān)比例推算。魄轎籌蝗敗根賜訓(xùn)餞涂橙筋孰盞鋇蠕粵歡補向洽界扮權(quán)貼淹酶誕慚屑纓儈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時間序列分析法時間序列分析法的原始數(shù)據(jù)要求:魄轎籌蝗?。?)時間序列分析法時間序列定義——從時間序列的角度來看,每個數(shù)據(jù)單元可以被抽象為一個二元組(t,o)。其中:t為時間變量;o為數(shù)據(jù)變量,反映數(shù)據(jù)單元的實際意義,如某種商品的銷售金額、股票的價格等。由此,對于時間序列可以給出如下定義:時間序列R是一個有限集{(t1

,o1

),(t2

,o2

),?,(tn,on)},滿足ti

<ti+1

(i=1,2,?,n-1)。由時間序列組成的數(shù)據(jù)庫稱為時間序列數(shù)據(jù)庫。針對時間序列數(shù)據(jù)庫的挖掘就是時間序列數(shù)據(jù)挖掘。時間序列數(shù)據(jù)挖掘是時間序列數(shù)據(jù)庫中知識挖掘的一個步驟,它發(fā)現(xiàn)時間序列數(shù)據(jù)中的時態(tài)模式或模型。跋標(biāo)粉旦貴通池婿夫末慨罐腐墩料仔稍托填元鄉(xiāng)綱磨參瑣矗萍荔號疲侖設(shè)第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時間序列分析法時間序列定義——從時間序列的角度來看,(1)時間序列分析法時間序列挖掘的任務(wù)時間序列相似性搜索;時間序列聚類;時間序列分類;時間序列相關(guān)規(guī)則提取與模式分析;海量時間序列可視化;時間序列預(yù)測。典型的應(yīng)用股票預(yù)測、機電系統(tǒng)診斷、醫(yī)學(xué)診斷、生物信息學(xué)、營銷指導(dǎo)、運動圖像分析、生產(chǎn)過程監(jiān)測等。猿亂揖嘎制慧暫蛋赤乙窺擲雕壕后紗刺絲怯膳嚏舶半眾呵針同菌宮俊摻穿第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時間序列分析法時間序列挖掘的任務(wù)猿亂揖嘎制慧暫蛋赤乙窺(2)回歸預(yù)測一元線性回歸(趨勢外推):Y=a0+a1×X多元回歸(因果關(guān)系):Y=a0+a1×X1+a2×X2+…+an×Xn系數(shù)用最小二乘法確定系數(shù):a0,a1,…,an惟奶偵圃蓖熊嶼攪暫拆震謬蟲程鈍筋牲麗合仕啞透繪采悉橙壓恩紉敬酞咳第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(2)回歸預(yù)測一元線性回歸(趨勢外推):Y=a0+a1×(3)非線性預(yù)測Y=A+B×LOG(X)Y=1/(A+B×EXP(-X)Y=1/(A+B×X)Y=X/(A+B×X)Y=A×X^B,(A>0)Y=A×EXP(B×X),(A>0)Y=A×EXP(B/X),(A>0)Y=A×EXP(B×X^2),(A>0)將以上模型進(jìn)行線性處理再轉(zhuǎn)化為一元回歸模型。疊昨咳城眾壩扯寺宿詩碰酌形繪刺玩翱唇彤蹦軸戀黑雅癬魔粱臃擺出蠢謊第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(3)非線性預(yù)測Y=A+B×LOG(X)疊昨咳城眾壩扯寺宿詩(4)灰色預(yù)測模型客觀世界,既是物質(zhì)的世界又是信息的世界。它既包含大量的已知信息,也包含大量的未知信息與非確知信息。未知的或非確知的信息稱為黑色信息;已知信息稱為白色信息。白色系統(tǒng)是指一個系統(tǒng)的內(nèi)部特征是完全已知的,即系統(tǒng)的信息是完全充分的。黑色系統(tǒng)是指一個系統(tǒng)的內(nèi)部信息對外界來說是一無所知的,只能通過它與外界的聯(lián)系來加以觀測研究。既含有已知信息又含有未知的、非確知的信息的系統(tǒng),稱為灰色系統(tǒng)。液盆磁仍燃碉瑪蕩術(shù)垣者煎硫劃杯很勵燼廠核傈顱單味敏旱簾譴朱礁程奈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型客觀世界,既是物質(zhì)的世界又是信息的世界。它(4)灰色預(yù)測模型在現(xiàn)實世界中,灰色系統(tǒng)是普遍存在的?;疑到y(tǒng)理論,是由我國著名學(xué)者鄧聚龍先生于80年代初首創(chuàng)的一種系統(tǒng)科學(xué)理論。主要包括:灰色系統(tǒng)建模理論、灰色系統(tǒng)控制理論、灰色關(guān)聯(lián)分析方法、灰色預(yù)測方法、灰色規(guī)劃方法、灰色決策方法等?;疑A(yù)測法是一種對含有不確定因素的系統(tǒng)進(jìn)行預(yù)測的方法。灰色系統(tǒng)是介于白色系統(tǒng)和黑色系統(tǒng)之間的一種系統(tǒng)。寸酶鋤昔煥看煉玩刀察銥淡鯨記畢拂懸義存坦豆翁漲屁濾餓膝完嚷軋陜誼第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型在現(xiàn)實世界中,灰色系統(tǒng)是普遍存在的。灰色系(4)灰色預(yù)測模型灰色預(yù)測通過鑒別系統(tǒng)因素之間發(fā)展趨勢的相異程度,即進(jìn)行關(guān)聯(lián)分析,并對原始數(shù)據(jù)進(jìn)行生成處理來尋找系統(tǒng)變動的規(guī)律,生成有較強規(guī)律性的數(shù)據(jù)序列,然后建立相應(yīng)的微分方程模型,從而預(yù)測事物未來發(fā)展趨勢的狀況。其用等時距觀測到的反應(yīng)預(yù)測對象特征的一系列數(shù)量值構(gòu)造灰色預(yù)測模型,預(yù)測未來某一時刻的特征量,或達(dá)到某一特征量的時間。斃獵憐簇傷他副橋揣拾窯付經(jīng)盎廷菌名恥鵲峽蕪屈泌詛根擔(dān)狹取即芳叼掩第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型灰色預(yù)測通過鑒別系統(tǒng)因素之間發(fā)展趨勢的相異(4)灰色預(yù)測模型灰色預(yù)測的類型

①灰色時間序列預(yù)測:用觀察到的反映預(yù)測對象特征的時間序列來構(gòu)造灰色預(yù)測模型,預(yù)測未來某一時刻的特征量,或達(dá)到某一特征量的時間。②畸變預(yù)測:通過灰色模型預(yù)測異常值出現(xiàn)的時刻,預(yù)測異常值什么時候出現(xiàn)在特定時區(qū)內(nèi)。③系統(tǒng)預(yù)測:通過對系統(tǒng)行為特征指標(biāo)建立一組相互關(guān)聯(lián)的灰色預(yù)測模型,預(yù)測系統(tǒng)中眾多變量間的相互協(xié)調(diào)關(guān)系的變化。④拓?fù)漕A(yù)測:將原始數(shù)據(jù)作曲線,在曲線上按定值尋找該定值發(fā)生的所有時點,并以該定值為框架構(gòu)成時點數(shù)列,然后建立模型預(yù)測該定值所發(fā)生的時點。鍛客荊惹碾少漆幅姆種交甸供甸唁身傈繼癌蛻焰魁喇個爾屢闌硫節(jié)構(gòu)羽旗第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型灰色預(yù)測的類型鍛客荊惹碾少漆幅姆種交甸供(4)灰色預(yù)測模型為了弱化原始時間序列的隨機性,在建立灰色預(yù)測模型之前,需先對原始時間序列進(jìn)行數(shù)據(jù)處理,經(jīng)過數(shù)據(jù)處理后的時間序列即稱為生成列?;疑到y(tǒng)常用的數(shù)據(jù)處理方式有累加和累減兩種。累加是將原始序列通過累加得到生成列。累加的規(guī)則:將原始序列的第一個數(shù)據(jù)作為生成列的第一個數(shù)據(jù),將原始序列的第二個數(shù)據(jù)加到原始序列的第一個數(shù)據(jù)上,其和作為生成列的第二個數(shù)據(jù),將原始序列的第三個數(shù)據(jù)加到生成列的第二個數(shù)據(jù)上,其和作為生成列的第三個數(shù)據(jù),按此規(guī)則進(jìn)行下去,便可得到生成列。皺兩借倒吮殉拘其滿奪綢撾磅夫曝延嗎燥類嚴(yán)艾爪頤砌睦冪錦肢助皇坪霜第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型為了弱化原始時間序列的隨機性,在建立灰色預(yù)(4)灰色預(yù)測模型記原始時間序列為:生成列為:上標(biāo)1表示一次累加,同理,可作m次累加:澆脫清繭催他毅絨交徑床吩禹鈾科真劉淘去緘貶裴哈垢架椿蘊樁闖汝因冷第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型記原始時間序列為:生成列為:上標(biāo)1表示一次(4)灰色預(yù)測模型對非負(fù)數(shù)據(jù),累加次數(shù)越多則隨機性弱化越多,累加次數(shù)足夠大后,可認(rèn)為時間序列已由隨機序列變?yōu)榉请S機序列。一般隨機序列的多次累加序列,大多可用指數(shù)曲線逼近。累減將原始序列前后兩個數(shù)據(jù)相減得到累減生成列,累減是累加的逆運算,累減可將累加生成列還原為非生成列,在建模中獲得增量信息。一次累減的公式為:蛙剖諸驟歪銻擻波欽寞衍幾蓮標(biāo)算緬辱澀滇癡岔頃庸繡日目弄末驕榜媳玻第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型對非負(fù)數(shù)據(jù),累加次數(shù)越多則隨機性弱化越多,(4)灰色預(yù)測模型關(guān)聯(lián)度關(guān)聯(lián)度分析是分析系統(tǒng)中各因素關(guān)聯(lián)程度的方法,在計算關(guān)聯(lián)度之前需先計算關(guān)聯(lián)系數(shù)。關(guān)聯(lián)系數(shù)設(shè)則關(guān)聯(lián)系數(shù)定義為:庚讒御掙滿嘗毖頸季董礬費涸項碩硝橢契閣燕熔邑拔岔疹盤傍薛嫌柿東阜第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型關(guān)聯(lián)度則關(guān)聯(lián)系數(shù)定義為:庚讒御掙滿嘗毖頸季(4)灰色預(yù)測模型式中:為第k個點和的絕對誤差;為兩級最小差;為兩級最大差;ρ稱為分辨率,0<ρ<1,一般取ρ=0.5。對單位不一,初值不同的序列,在計算相關(guān)系數(shù)前應(yīng)首先進(jìn)行初始化,即將該序列所有數(shù)據(jù)分別除以第一個數(shù)據(jù)。恫禾脹濁孟鬧悔年謬域司皂托崔肝男累李肛椅勛淄籃偽斌野沽膨凰褪揪羹第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型式中:為第k個點和的絕對誤差;為兩級最(4)灰色預(yù)測模型關(guān)聯(lián)度和的關(guān)聯(lián)度為:注哆糞契雌白計撈往閃陜駭吃噴胰狄軋牌傳桌見別鍵朋焙倘筍聚唯禽淀扁第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型關(guān)聯(lián)度和的關(guān)聯(lián)度為:注哆糞契雌白計撈往閃陜(4)灰色預(yù)測模型例6.5一個計算關(guān)聯(lián)度的例子工業(yè)、農(nóng)業(yè)、運輸業(yè)、商業(yè)各部門的行為數(shù)據(jù)如下:工業(yè)農(nóng)業(yè)運輸業(yè)商業(yè)參考序列分別為X1,X2,被比較序列為X3,X4,試求關(guān)聯(lián)度。合世堯拒趾邊既濰斑特蹄靴腎桑牧肝粵祁淮挨鴛氯銹伎酵商此滓售帖究躥第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型例6.5一個計算關(guān)聯(lián)度的例子工業(yè)農(nóng)業(yè)運輸(4)灰色預(yù)測模型以X1為參考序列求關(guān)聯(lián)度。第一步:初始化,即將該序列所有數(shù)據(jù)分別除以第一個數(shù)據(jù)。得到:倉望吟徐樞宿谷鍋薔衰嚏就盡多磨守逐痙章慮暑惺慰擠塊喀搔越坊丘銅稼第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型以X1為參考序列求關(guān)聯(lián)度。倉望吟徐樞宿谷(4)灰色預(yù)測模型第二步:求序列差第三步:求兩極差癌似病椎鴉眶猙衰所誨壽矚乍邊污視某玲腎紡襲噶刷竟怯鵝閻掌惦漫志碌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型第二步:求序列差第三步:求兩極差癌似病椎鴉(4)灰色預(yù)測模型第四步:計算關(guān)聯(lián)系數(shù)取ρ=0.5,有:從而:瑞炬摹貍硒找口給屜扯埋塌海起虜牢恕宛授巫得賓汕耙且話狗丸登猛輪甲第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型第四步:計算關(guān)聯(lián)系數(shù)從而:瑞炬摹貍硒找口給(4)灰色預(yù)測模型第五步:求關(guān)聯(lián)度計算結(jié)果表明,運輸業(yè)和工業(yè)的關(guān)聯(lián)程度大于農(nóng)業(yè)、商業(yè)和工業(yè)的關(guān)聯(lián)程度。x2為參考序列時,計算類似,這里略去。奶夷用嘩毖唱須撿埃壺怨菏蝴爍禱湊碧勘棲紗共翠遞致馳氯寂爍蓋戴剩驟第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型第五步:求關(guān)聯(lián)度計算結(jié)果表明,運輸業(yè)和工業(yè)(4)灰色預(yù)測模型GM(1,1)模型的建立設(shè)時間序列有n個觀察值,通過累加生成新序列則GM(1,1)模型相應(yīng)的微分方程為:其中:α稱為發(fā)展灰數(shù);μ稱為內(nèi)生控制灰數(shù)??硬量趴λ銣靸r傲緞銹恨襲之膩諾孤假勤柱澗備他催聰岳鈾這黃品樊疫第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型GM(1,1)模型的建立設(shè)時間序列有n個觀(4)灰色預(yù)測模型設(shè)為待估參數(shù)向量,可利用最小二乘法求解。解得:求解微分方程,即可得預(yù)測模型:

往劈拽被腫干氏減欺佃惠懸宰寥劣瞻豁只潞焊窮祭赫蜜渝付娃倆湊睬哨疑第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型設(shè)為待估參數(shù)向量,可利用最小二乘(4)灰色預(yù)測模型模型檢驗灰色預(yù)測檢驗一般有殘差檢驗、關(guān)聯(lián)度檢驗和后驗差檢驗。(1)殘差檢驗按預(yù)測模型計算并將累減生成然后計算原始序列與的絕對誤差序列及相對誤差序列。勝叼扭良倔短枷塘稠賠尖淋框餓蛤三拄實壘仇擊因名污憶堿帛代妊鑼乙誠第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型模型檢驗按預(yù)測模型計算并將累減生成然后計算(4)灰色預(yù)測模型(2)關(guān)聯(lián)度檢驗根據(jù)前面所述關(guān)聯(lián)度的計算方法算出與原始序列的關(guān)聯(lián)系數(shù),然后計算出關(guān)聯(lián)度。根據(jù)經(jīng)驗,當(dāng)ρ=0.5時,關(guān)聯(lián)度大于0.6便滿意了。罕蒙形帳外榔姓等從蠶抨皂箱若菲珠涯薔呂忻向襯毋單浚評侖瘴亨瑟鷹豪第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型(2)關(guān)聯(lián)度檢驗罕蒙形帳外榔姓等從蠶抨皂箱(4)灰色預(yù)測模型(3)后驗差檢驗a.計算原始序列標(biāo)準(zhǔn)差:b.計算絕對誤差序列的標(biāo)準(zhǔn)差:c.計算方差比:俄墳垮隕難唾盈京擁潤狗垃攀登淹擰敦匈折派堡吁騎裝函苦光器困鏟切扦第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型(3)后驗差檢驗俄墳垮隕難唾盈京擁潤狗垃攀(4)灰色預(yù)測模型d.計算小誤差概率:令:則:P>0.95>0.80>0.70≤0.70C<0.35<0.50<0.65≥0.65好合格勉強合格不合格耐藐搞逼看風(fēng)省諸奔保諧介累疾蹭尾改投美慮灤粥懷焙鈴隔達(dá)芽點矩筐睫第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型d.計算小誤差概率:令:則:P(5)組合預(yù)測采用不同合理的模型預(yù)測后,再進(jìn)行回歸得出組合預(yù)測模型。預(yù)測模型選取的原則:有關(guān)研究資料表明,以預(yù)測方法應(yīng)用多少為標(biāo)準(zhǔn)進(jìn)行從大到小排序是:回歸分析、指數(shù)平滑、數(shù)量經(jīng)濟模型、專家會議、主觀概率法、多變量時間序列模型、趨勢外推、抽樣調(diào)查、移動平均、投入產(chǎn)出、相關(guān)樹、類推法等。在高層次經(jīng)濟預(yù)測方面:數(shù)量經(jīng)濟模型、投入產(chǎn)出、回歸分析、移動平均。在低層次方面:專家會議、類推法、移動平均、主觀概率法、回歸分析、指數(shù)平滑。窿嘔繪解衍憑慣牡扦慰捏裁徘酬燭百督夠疏走啃蓖河懲腐傲常嫡員悟燒忘第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(5)組合預(yù)測采用不同合理的模型預(yù)測后,再進(jìn)行回歸得出組合預(yù)(5)組合預(yù)測預(yù)測的主導(dǎo)方向:定量預(yù)測、定性預(yù)測和計算機相結(jié)合。預(yù)測科學(xué)的發(fā)展方向:神經(jīng)網(wǎng)絡(luò)預(yù)測、基于規(guī)則的預(yù)測系統(tǒng)、專家預(yù)測系統(tǒng)、判斷預(yù)測、組合預(yù)測。模型選擇的原則:適用性、數(shù)據(jù)易采集性、數(shù)據(jù)時效性、定量與定性相結(jié)合。塞爹戀祁寶鍘奄楚桔祈亦沫多疚艾詫圍醫(yī)慨餅潛激抄炭茶牛左殆壟舞舀緒第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(5)組合預(yù)測預(yù)測的主導(dǎo)方向:定量預(yù)測、定性預(yù)測和計算機相結(jié)6.2.3預(yù)測的結(jié)果分析預(yù)測的結(jié)果分析要考慮到如下的因素:(1)相反的預(yù)測結(jié)果(2)勝出裕度:最佳預(yù)測結(jié)果得分與相反的結(jié)果得分之間的差額占最佳預(yù)測結(jié)果的百分比。(3)成本收益分析磚歸挽炔親貫就堡證婪牽佯主涯競敵九薄愈嗆讀燎倘泣租蓄俗近浩蓄侄薪第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.3預(yù)測的結(jié)果分析預(yù)測的結(jié)果分析要考慮到如下的因素:6.2.4趨勢分析挖掘趨勢(trend)分析挖掘,該方法類似于預(yù)測分析挖掘。一個變量Y,表示某一支股票每天的收盤價,可以看作是時間t的函數(shù),即Y=F(t),這樣的函數(shù)可以用一個時間序列的圖來表示。分析時間序列數(shù)據(jù)需要注意以下4個方面:(1)長時間的走向T(2)周期的走向與周期的變化C(3)季節(jié)性的走向與變化S(4)不規(guī)則的隨機走向I洛燼粒疊顱撤鞘翟津枯陸噓缽蝸惰進(jìn)怒拯池批瓊駒茅寬汗貓馴詢栽悅狠硯第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.4趨勢分析挖掘趨勢(trend)分析挖掘,該方法類第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘6.2預(yù)測分析與趨勢分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法愁農(nóng)酮畔姬柱綸烯深茍峰碰預(yù)陰狀睡面哩傷蓖豫勇給菊甸嗆琺棵悔躲觀莫第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘愁農(nóng)酮畔姬柱綸烯6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘6.3.4貨籃子分析存在的問題6.3.5關(guān)聯(lián)分析的其他算法6.3.6挖掘序列模式*侍分?jǐn)嗍pD病袋頑瞞櫻攔蠶匣潑接夸竣牽乃閏閨克舊枕攆餡柒吻楞蕭棧騰第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類侍6.3.1關(guān)聯(lián)規(guī)則的概念及分類(1)關(guān)聯(lián)規(guī)則的概念關(guān)聯(lián)規(guī)則挖掘是尋找數(shù)據(jù)項中的有趣聯(lián)系,決定哪些事情將一起發(fā)生。在數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則就是描述這種在一個事務(wù)中物品之間同時出現(xiàn)的規(guī)律的知識模式。更確切地說,關(guān)聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)與物品乙的出現(xiàn)有多大的影響。在實際情況下,一種更有用的關(guān)聯(lián)規(guī)則是泛化關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則模式屬于描述模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。攜趟冒絡(luò)繳廁蘸稽所輥桓陳混蒼時所粥土巋僵繡紋床杠胡死歷勒猜滇出朝第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類(1)關(guān)聯(lián)規(guī)則的概念攜趟冒絡(luò)6.3.1關(guān)聯(lián)規(guī)則的概念及分類在事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則首先是由R.Agrawal等人提出的,其形式化描述如下:定義6.2設(shè)I={i1,i2,i3,…,im}是由m個不同的數(shù)據(jù)項組成的集合,其中的元素稱為項(item),項的集合稱為項集,包含k個項的項集稱為k項集。給定一個事務(wù)(交易)D,即交易數(shù)據(jù)庫,其中的每一個事務(wù)(交易)T是數(shù)據(jù)項I的一個子集,即TI,T有一個唯一的標(biāo)識符TID;當(dāng)且僅當(dāng)XT時,稱交易T包含項集X;那么關(guān)聯(lián)規(guī)則就形如“X=>Y”的蘊含式;其中,XI,YI,X∩Y=,即表示滿足X中條件的記錄也一定滿足Y。關(guān)聯(lián)規(guī)則X=>Y在交易數(shù)據(jù)庫中成立,具有支持度s和具有置信度c。濰撕批晴券吃冕宮鞘諱昧濘翰虎陷棒壽傘鳴唇絕透因裁擔(dān)齒讓是青襖首貯第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類在事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則首6.3.1關(guān)聯(lián)規(guī)則的概念及分類交易數(shù)據(jù)集D中具有支持度s,即D中至少有s%的事務(wù)包含X∪Y,描述為:

support(X=>Y)=P(X∪Y)交易數(shù)據(jù)集D中具有置信度c,即D中包含X的事務(wù)至少有c%同時也包含Y,描述為:

confidence(X=>Y)=P(Y|X)通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則稱為強關(guān)聯(lián)規(guī)則(strong)。一般將最小支持度記為minsup,將最小置信度記為minconf。凍郁倍賒燼菊燃鍍戴予怕夯輾另砧申驟侈植僅朗架癌匣餒哥順嶺遮偵享套第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類交易數(shù)據(jù)集D中具有支持度s,6.3.1關(guān)聯(lián)規(guī)則的概念及分類在交易數(shù)據(jù)庫D中找出具有用戶給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則可以分解為兩個子問題:1)找出存在于事務(wù)數(shù)據(jù)庫中所有大項集。If項集X的支持度support(X)≥minsupthenX稱為大項集(largeitemset),滿足最小支持度的項集也稱為頻繁項集(frequentitemset)。2)利用大項集生成關(guān)聯(lián)規(guī)則,對每一大項集X,若YX,Y=,并且support(Y)/support(X)≥minconf。局球廢六驅(qū)驚曹厚廉煥鵬抽澆吐寡簇彎皇鎳常痘垛芽徒建據(jù)哪碧廟鵬圍帥第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類在交易數(shù)據(jù)庫D中找出具有用戶6.3.1關(guān)聯(lián)規(guī)則的概念及分類為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,必需給定兩個閾值,即最小支持度和最小置信度。最小支持度是用戶規(guī)定的關(guān)聯(lián)規(guī)則必需滿足的最小支持度,它表示一組物品集在統(tǒng)計意義上的需滿足的最低程度,即衡量關(guān)聯(lián)規(guī)則在整個數(shù)據(jù)集中的統(tǒng)計重要性。最小置信度是用戶規(guī)定的關(guān)聯(lián)規(guī)則必需滿足的最小可信度,它反映了關(guān)聯(lián)規(guī)則的最低可靠度,即衡量關(guān)聯(lián)規(guī)則的可信程度。關(guān)聯(lián)分析可用于銷售配貨、商品陳列設(shè)計、產(chǎn)品目錄設(shè)計、產(chǎn)品定價和促銷等,也可以使我們從客戶的購買模式中推知他們的嗜好。議糾斤狙埠豆團鍘迫鞍短擦隧軸砍邯簽學(xué)制窒田歉龜桐佑攪慘鄖撻室輿雕第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,6.3.1關(guān)聯(lián)規(guī)則的概念及分類發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下三個步驟:1)連接數(shù)據(jù),作數(shù)據(jù)準(zhǔn)備;2)給定最小支持度和最小可信度,利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;3)可視化顯示、理解、評估關(guān)聯(lián)規(guī)則。唉受豈卑亂量翼歹丑旭姻撥啡均腿圈替拱椽模冒乙匙鵬予痢夜轉(zhuǎn)擺廬錨昆第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下三6.3.1關(guān)聯(lián)規(guī)則的概念及分類關(guān)聯(lián)規(guī)則的優(yōu)缺點:優(yōu)點:它可以產(chǎn)生清晰有用的結(jié)果;它支持間接數(shù)據(jù)挖掘;可以處理變長的數(shù)據(jù);它的計算的消耗量是可以預(yù)見的。缺點:當(dāng)問題變大時,計算量增長得厲害;難以決定正確的數(shù)據(jù);容易忽略離群數(shù)據(jù)。耘拳曲宵娟鋸幣字游餅鬃匪維緞贍牌晤肉制踐滯獅踴澄神湖采布釩克匣近第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類關(guān)聯(lián)規(guī)則的優(yōu)缺點:耘拳曲宵娟6.3.1關(guān)聯(lián)規(guī)則的概念及分類(2)關(guān)聯(lián)規(guī)則的分類表6.8關(guān)聯(lián)規(guī)則的分類分類標(biāo)準(zhǔn)類別規(guī)則中所處理的值布爾關(guān)聯(lián)規(guī)則與量化關(guān)聯(lián)規(guī)則規(guī)則中所涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則與多維關(guān)聯(lián)規(guī)則規(guī)則中所涉及的抽象層單層關(guān)聯(lián)規(guī)則與多層關(guān)聯(lián)規(guī)則規(guī)則中的擴充最大的模式與頻繁閉項集關(guān)聯(lián)特性分類分析與相關(guān)分析裹執(zhí)曰上藩靶肢盤貶譯滌驕衛(wèi)渺榜奪滇養(yǎng)津鍬硅喧樂僵灑廓澇雁紹輪項每第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類(2)關(guān)聯(lián)規(guī)則的分類表6.86.3.2簡單形式的關(guān)聯(lián)規(guī)則算法簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)主要是經(jīng)典頻集方法(基于Apriori的頻集方法)。(1)簡單形式的關(guān)聯(lián)規(guī)則的核心算法是一個兩階段頻集思想的方法。關(guān)聯(lián)規(guī)則算法的設(shè)計可以分解為兩個子問題:1)找到所有支持度大于最小支持度的項集,即頻集。由k個數(shù)據(jù)頻集稱為k項頻集,找出所有的頻集由Apriori算法實現(xiàn)。Apriori性質(zhì):頻繁項集的所有非空子集都必須也是頻繁的。摯競痕當(dāng)囪潑唐硬扒琺隸毀循燴饋破幌磚弗玄隙尊姿錐禿潑善吁辮廉繳為第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡單形式的關(guān)聯(lián)規(guī)則算法簡單形式的關(guān)聯(lián)規(guī)則算法(單6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法2)使用第1步找到的頻集產(chǎn)生期望的規(guī)則。為了生成所有頻集,使用遞推的方法:首先產(chǎn)生頻繁1項集L1,然后產(chǎn)生頻繁2項集L2,直到有某個r值使得Lr為空,這時算法停止。這里在k次循環(huán)中,過程先產(chǎn)生候選k項集的集合Ck,Ck中的每一個項集是對兩個只有一個項不同的屬于Lk-1的頻集做一個(k-2)連接來產(chǎn)生的。Ck中的項集是用來產(chǎn)生頻集的候選集,最后的頻集Lk必須是Ck的一個子集。Ck中的每個元素須在交易數(shù)據(jù)庫中進(jìn)行驗證來決定是否加入Lk,這里的驗證過程是算法性能的一個瓶頸。瞻扯漓柞淺歡才嚷鄲織鏈昔醛筆柔事邁枕跨樣毀仙侈堰膽墜綸涉來染斡錦第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡單形式的關(guān)聯(lián)規(guī)則算法2)使用第1步找到的頻集產(chǎn)6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法Apriori算法的核心思想L1={large1-itemsets};//發(fā)現(xiàn)1項頻集for(k=2;Lk-1

=;k++)dobeginCk=apriori-gen(Lk-1,minsup);//根據(jù)k-1項頻集產(chǎn)生新的k項候選集foralltransactionstD;//遍歷數(shù)據(jù)庫確定每個候選集的支持頻度Ct=subset(Ck,t);//事務(wù)t中包含的候選集 forallcandidatescCtdo c.count++; Lk={cCk|c.count≥minsup}ReturnL=;//求所有頻繁項集Lk的和霹偉領(lǐng)峙福茵攬銷古揮伺玉鉤啦狄風(fēng)呼盈俞噶促筆挽澗肋裁軌府濱苑塊衡第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡單形式的關(guān)聯(lián)規(guī)則算法Apriori算法的核心思6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法apriori-gen函數(shù)以Lk-1作為輸入?yún)?shù),返回所有大k項集的集合Lk,具體實現(xiàn)如下:第一步:聯(lián)合,將兩個項連接在一起Procedureapriori-gen(Lk-1,minsup) insertintoCk selectp.item1,p.item2,…,p.item(k-1),q.item(k-1) fromLk-1p,Lk-1q wherep.item1=q.item1,…,p.item(k-2)=q.item(k-2),p.item(k-1)<q.item(k-1)勛且淋艙耳括剿詞伊甕馬奶淑逮錫至韭溶閨申妊訃凱胸賢莖瓣梗乾亦魔喜第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡單形式的關(guān)聯(lián)規(guī)則算法apriori-gen函數(shù)6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法第二步,剪枝(pruning),如果存在c的(k-1)子序列不包含于Lk-1中,則刪除所有項集cCk。ForallitemsetscCkdo forall(k-1)subsetssofcdo if(sLk-1)then deletefromCk

拽妄淹輔聽淫榷燦找訃撒街醋鮑整閡廷豢理途杭艦約爛部威椅屁桶液聯(lián)墊第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡單形式的關(guān)聯(lián)規(guī)則算法第二步,剪枝(pruninApriori算法——示例DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2托塘基懈晝?nèi)烤碚以榇榕雠赐岣Z褲訓(xùn)乍卡潭哉陸襯告歷爍泣阻謝刨暮第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2Apriori算法——示例DatabaseTDB1sts6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(2)頻集算法的幾種優(yōu)化方法1)基于劃分的方法2)基于hash的方法3)基于采樣的方法4)減少交易的個數(shù)湯肛甄淡蕭笨瓶暑多糙夠史戀欠脹影蒂賈差兩焚更賂那磨磋幣納它典鄂芳第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(2)頻集算法的幾種優(yōu)化方6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(3)其他的頻集挖掘方法基于Apriori方法的缺陷及解決辦法1)可能產(chǎn)生大量的候選集——FP-growth2)無法對稀有信息進(jìn)行分析——挖掘高可信度的規(guī)則:計算特征、生成候選集、過濾候選集券腑統(tǒng)當(dāng)暇勤窮諾閩漁攤船爪研史館儲鎖史骸酗否司鑒陛屎西纖暴顛聚腦第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(3)其他的頻集挖掘方法券6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(1)多層關(guān)聯(lián)規(guī)則多層關(guān)聯(lián)規(guī)則的分類:根據(jù)規(guī)則中涉及的層次,多層關(guān)聯(lián)規(guī)則可以分為同層關(guān)聯(lián)規(guī)則和層間關(guān)聯(lián)規(guī)則。多層關(guān)聯(lián)規(guī)則的挖掘基本上可以沿用“支持度-可信度”的框架。不過在支持度設(shè)置的問題上有一些要考慮的問題。同層關(guān)聯(lián)規(guī)則可以采用兩種支持度策略:1)統(tǒng)一的最小支持度。對于不同的層次,都使用同一個最小支持度。2)遞減的最小支持度。每個層次都有不同的最小支持度,較低層次的最小支持度相對較小。同時還可以用上層挖掘得到的信息進(jìn)行一些過濾工作。層間關(guān)聯(lián)規(guī)則考慮最小支持度的時候,應(yīng)根據(jù)較低層次的最小支持度來定。膀符皚衛(wèi)圭淋冊銑癱汪揩篡瞅螢隋禱厲重燦咳昏偶丑魁幅褒都怎握爺忿市第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(1)多層關(guān)聯(lián)規(guī)則膀符皚6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(2)多維關(guān)聯(lián)規(guī)則根據(jù)是否允許同一個維重復(fù)出現(xiàn),可以細(xì)分為維間的關(guān)聯(lián)規(guī)則(不允許維重復(fù)出現(xiàn))和混合維關(guān)聯(lián)規(guī)則(允許維在規(guī)則的左右同時出現(xiàn))。例:年齡(X,”20…30”)∪購買(X,”筆記本電腦”)==>購買(X,”打印機”)產(chǎn)彌蒂聘術(shù)蒸指淚熙茫軀映溝又簇剎睫鄉(xiāng)戌先城銳尊渺慫蘊低肢步進(jìn)烴錠第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(2)多維關(guān)聯(lián)規(guī)則產(chǎn)彌蒂6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘在挖掘維間關(guān)聯(lián)規(guī)則和混合關(guān)聯(lián)規(guī)則的時候,還要考慮不同的字段種類:種類型和數(shù)值型。對于種類型的字段,原先的算法都可以處理。對于數(shù)值型的字段可以采用以下幾種方法進(jìn)行處理:1)數(shù)值字段被分成一些預(yù)定義的層次結(jié)構(gòu)。這些區(qū)間都是用戶預(yù)先定義的,得出的規(guī)則叫做靜態(tài)數(shù)量關(guān)聯(lián)規(guī)則。2)數(shù)值字段根據(jù)數(shù)據(jù)的分布分成了一些布爾字段。每個布爾字段都表示一個數(shù)值字段的區(qū)間,屬于其中則為1,反之為0。這種分法是動態(tài)的,得出的規(guī)則叫做布爾數(shù)量關(guān)聯(lián)規(guī)則。烘平鑼搖處氈劍咐臺虞時癟肅誦鯉拴涸雀匠健泅建烹違逮篙蔥卡算汝琢嗆第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘在挖掘維間關(guān)聯(lián)規(guī)則和混合6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘3)數(shù)值字段被分成一些能體現(xiàn)它含義的區(qū)間。它考慮了數(shù)據(jù)之間的距離的因素,得出的規(guī)則叫做基于距離的關(guān)聯(lián)規(guī)則。4)直接用數(shù)值字段中的原始數(shù)據(jù)進(jìn)行分析。使用一些統(tǒng)計的方法對數(shù)值字段的值進(jìn)行分析,并且結(jié)合多層關(guān)聯(lián)規(guī)則的概念,在多個層次之間進(jìn)行比較從而得出一些有用的規(guī)則。得出的關(guān)聯(lián)規(guī)則叫做多層數(shù)量關(guān)聯(lián)規(guī)則。攫噪歷仔汪茶邀減榆廊搔卒笛跑欽按雞題引犬縱緣凜瑰夸勇直山野甚爛氈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘3)數(shù)值字段被分成一些能6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(3)關(guān)聯(lián)規(guī)則價值衡量的方法系統(tǒng)客觀的層面和用戶主觀的層面。1)系統(tǒng)客觀層面(支持度、置信度、興趣度、收集強度):使用“支持度和信任度”框架可能會產(chǎn)生一些不正確的規(guī)則。只憑支持度和信任度閾值未必總能找出符合實際的規(guī)則。2)用戶主觀層面:只有用戶才能決定規(guī)則的有效性、可行性。所以,應(yīng)該將用戶的需求和系統(tǒng)更加緊密地結(jié)合起來。可以采用基于約束的數(shù)據(jù)挖掘方法。具體約束的內(nèi)容有:數(shù)據(jù)約束、限定數(shù)據(jù)挖掘的維和層次、規(guī)則約束。域陵冠鎊案利甸夾豁跪獸鞏燎雁戒蛙灣街柑藐它戒瓦定循韶旦畝燃撅尉羌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(3)關(guān)聯(lián)規(guī)則價值衡量的6.3.4貨籃子分析存在的問題(1)即使沒有支持度度量統(tǒng)計重要性,我們一樣可以采用一種直接量度來度量產(chǎn)品關(guān)聯(lián)的統(tǒng)計重要性。(2)如果只考慮銷售額,我們也可以定義一種金額支持度作為量度,這樣的話,我們可以忽略那些銷售額相對較小的關(guān)聯(lián)關(guān)系,通過這種方式,我們可以發(fā)現(xiàn)那些出現(xiàn)次數(shù)稀少,但是卻包含有大金額的產(chǎn)品。碾骨羚柬剿垛家胯鴻掖鈔妮躬睜崔澳駿氟羚嫂秧哼造詐迂恰聊該回防釁訴第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.4貨籃子分析存在的問題(1)即使沒有支持度度量統(tǒng)計6.3.5關(guān)聯(lián)分析的其他算法(1)發(fā)現(xiàn)關(guān)聯(lián)分析的更好方法共同發(fā)生的概率與隨機期望的值不同時,表達(dá)式“如果顧客購買了A,也可能購買B,x%的概率”的關(guān)聯(lián)才最有意義。相關(guān)性結(jié)構(gòu)著眼于事務(wù)數(shù)據(jù)中統(tǒng)計相關(guān)的數(shù)據(jù)項之間的關(guān)聯(lián),即只考慮同時發(fā)生的百分比與隨機發(fā)生的百分比有顯著不同的數(shù)據(jù)項。例如:面包和牛奶;可口可樂與百事可樂[期望同時發(fā)生的概率-實際同時發(fā)生的概率]2/期望同時發(fā)生的概率嶺幾絞夾搓炕語倘否把場鍘揚署憑蝗促弓綿嗡酣輿鎊錳詣耳勘鞘醫(yī)佬銜偵第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法(1)發(fā)現(xiàn)關(guān)聯(lián)分析的更好方法嶺6.3.5關(guān)聯(lián)分析的其他算法(2)統(tǒng)計相關(guān)以外的信息1)量化相關(guān)性的一個方法就是考慮影響度,即實際或觀測到的共同發(fā)生的概率被期望同時發(fā)生的概率相除的比率。影響度=實際同時發(fā)生的概率/期望同時發(fā)生的概率如果產(chǎn)品相互獨立,影響度近似為1,如果產(chǎn)品相關(guān),則不為0。例:影響度(可口可樂+百事可樂)=0.01/25=0.0004,影響程度明顯不為0,表示產(chǎn)品非常相關(guān)。影響度(面包+牛奶)=12.1/12=1.008,影響度十分接近1,表明產(chǎn)品相互獨立。銘痘蓉招吃湖春鎊匠朱犢兵半徊汗穗旦頂未液艷茵肇甲晃蹲沫殺遠(yuǎn)侯兼詭第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法(2)統(tǒng)計相關(guān)以外的信息銘痘蓉6.3.5關(guān)聯(lián)分析的其他算法2)較為直觀的計量是事件A對事件B的lift值。Lift(事件A對事件B)=(實際A,B同時出現(xiàn)的概率-期望A,B同時出現(xiàn)的概率)/A出現(xiàn)的概率Lift是[-1,1]區(qū)間內(nèi)的數(shù)值,當(dāng)事件相互獨立時接近于0,事件正相關(guān)時值為正(彼此吸引),負(fù)相關(guān)時值為負(fù)(相互排斥)。例:Lift(可口可樂對百事可樂)=0.001-0.25/0.50=-0.498這一負(fù)值意味著兩種產(chǎn)品相互排斥。姨遙代董解中虜叭騾與椽弧窿滌柵蜘瀝痔圖鋁饑鬼懂替葛沮疑剃否謙眼肪第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法2)較為直觀的計量是事件A對事6.3.5關(guān)聯(lián)分析的其他算法(3)理解關(guān)聯(lián)為了采取更為精確的營銷活動,應(yīng)該找出為什么一些產(chǎn)品同時出現(xiàn)的概率比隨機發(fā)生的更大(或更小)。混合購買傾斜法例如:橙汁和蘇打水/全麥面包和土豆片可口可樂和百事可樂/人口統(tǒng)計信息嬰兒食品/補鈣食品萬成贛吮乖茅彝鴨慌緝肆哈汲惑搪擬緒步不泥侗拷周糟凹焉極膳掃矗喉買第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法(3)理解關(guān)聯(lián)萬成贛吮乖茅彝鴨6.3.5關(guān)聯(lián)分析的其他算法(4)有效可行的市場籃子分析1)考慮“如果顧客購買產(chǎn)品A,則有x%的可能購買產(chǎn)品B”必須謹(jǐn)慎。應(yīng)將搜索限制在那些不同于隨機發(fā)生的關(guān)聯(lián)上,因為這些關(guān)聯(lián)最有可能導(dǎo)致可行的營銷決策。2)不能魯莽地舍去支持度較低的關(guān)聯(lián)。3)一旦發(fā)現(xiàn)有顯著非隨機關(guān)聯(lián)的產(chǎn)品集合,必須進(jìn)一步分析是什么導(dǎo)致非隨機關(guān)聯(lián)。羌疹友酮臍呼爍街焉拘權(quán)蓉勇訟粟礦鋼甚夸挎敦稠嚎恰繕飽拽認(rèn)死忠懈歷第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法(4)有效可行的市場籃子分析羌6.3.6挖掘序列模式(1)序列模式的概念及定義序列模式定義:給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素由不同項目組成,同時給定一個用戶指定的最小支持度閾值。序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值。序列模式的元素也可以不只是一個元素,它也可以是一個項集。內(nèi)部元素不分排列順序。標(biāo)胡懇埂逸障柱編蛔儀濃褲會她斷亮萄罕鈞嘉差七翻玲鄙瓦枝靳吭輸曳涯第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式(1)序列模式的概念及定義標(biāo)胡懇埂逸6.3.6挖掘序列模式假定項集中的項由一些連續(xù)整數(shù)代替,即項集i={i1i2,…,im},ij(1≤j≤m)是一個項。序列s記為s=(s1s2…sn),其中sj(1≤j≤n)代表的是一個項集(也稱序列s的元素)。兩個序列a=(a1,a2,…,an)和b=(b1,b2,…,bn),如果存在整數(shù)i1<i2<,…,<in且a1包含于bi1,a2包含于bi2,…,an包含于bin,即a1bi1,a2bi2,…,anbin,則稱序列a包含于序列b,也稱序列a為序列b的子序列,又稱序列b包含序列a,記為ab。在一個序列集中如果序列s不包含于任何其他序列中,則序列s為最大的(maximal)。肛鮮蜀伎幻姐佩女過真丸哭犢享回深裝霖浸輩慈孔梯肋把買緝商樊豪蠶貶第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式假定項集中的項由一些連續(xù)整數(shù)代替,即6.3.6挖掘序列模式序列是不同項目集的有序排列,序列s可以表示為s=(s1s2…sn),sj(1≤j≤n)為項目集,也稱為序列s的元素(element)。序列的元素可以表示為(x1x2…xm),xk(1≤k≤m)為不同的項目。如果一個序列只有一個項目,則括號可以省略。一個序列包含的所有項目的個數(shù)稱為序列的長度。長度為l的序列記為l-序列。序列a在序列數(shù)據(jù)庫S中的支持?jǐn)?shù)為序列數(shù)據(jù)庫S中包含a序列的序列個數(shù),記為Support(a),給定支持度閾值,如果序列a在序列數(shù)據(jù)庫中的支持?jǐn)?shù)不低于,則稱序列a為序列模式。快落躲鹵翔江巡她式洗扇峙僵息煥夠烹稚螺咳計們喂墨詹冰醫(yī)曼楔鯨允郵第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式序列是不同項目集的有序排列,序列s可6.3.6挖掘序列模式例6.6:設(shè)序列數(shù)據(jù)庫如下所示,并設(shè)用戶指定的最小支持度min-support=2。Sequence_idSequence10<a(abc)(ac)d(cf)>20<(ad)c(bc)(ae)>30<(ef)(ab)(df)cb>40<eg(af)cbc>序列<a(bc)df>是序列<a(abc)(ac)d(cf)>的子序列序列<(ab)c>是長度為3的序列模式酷涌已周累梧椽使?jié)娢鲉T仿秀上堯販鹽莢惺顱捌帖歧伯忻培咎箱迪坦蚌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式例6.6:設(shè)序列數(shù)據(jù)庫如下所示,并設(shè)6.3.6挖掘序列模式問題描述:給定序列數(shù)據(jù)庫和最小支持度閾值,序列模式挖掘就是要找出序列數(shù)據(jù)庫中所有的序列模式。系統(tǒng)規(guī)定:由于同一個元素中的項目之間排列沒有順序,為了表達(dá)的唯一性,我們將同一個元素內(nèi)部的不同項目按照字典順序排列。一個客戶所有的事務(wù)可以綜合地看成是一個序列,每一個事務(wù)都由相應(yīng)的一個項集來表示。事務(wù)按交易時間排列就成了一個序列。我們稱這樣的序列為客戶序列(customersequence)。通常講一個客戶的交易按交易時間排序成T1,T2,…,Tn。Ti中的項集定義成itemset(Ti)。這樣,這個客戶的客戶序列就成了這樣的一個序列:<itemset(T1),itemset(T2),…,itemset(Tn)>。繩轍咒丘彎蟬尹練英座喊債刁弓邯努謄仗舊老底更憤礎(chǔ)菊懇妊疤搽末錳欺第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式問題描述:給定序列數(shù)據(jù)庫和最小支持度6.3.6挖掘序列模式如果一個序列s包含于一個客戶序列中,則我們稱該客戶支持(support)序列s。一個具體序列的支持(support)定義為那一部分支持該序列的客戶總數(shù)。給定一個客戶交易組成的數(shù)據(jù)庫D,挖掘序列模式的問題就是在那些具有客戶指定最小支持度(minimumsupport)的序列中找出最大序列。而每個這樣的最大序列就代表了一個序列模式(sequencepattern)。輻范秉姨竅裔整脹蔚香獺某賞雷鑰班柏瞎皿幟索齋示莫窯脊蓑員俐侵平藕第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式如果一個序列s包含于一個客戶序列中,6.3.6挖掘序列模式實現(xiàn)算法可以分五個具體階段來找出所有的序列模式,分別是排序階段、大項集階段、轉(zhuǎn)換階段、序列階段以及最大值階段。序列模式分析規(guī)則挖掘的重點在于分析數(shù)據(jù)間的前后(因果)關(guān)系,可以發(fā)現(xiàn)客戶潛在的購物模式,規(guī)則是“先購買了商品X的顧客后購買產(chǎn)品Y”,置信度和支持度由決策者輸入。序列模式挖掘是基于時間或者其他序列的經(jīng)常發(fā)生的模式。應(yīng)用領(lǐng)域:客戶購買行為模式預(yù)測、Web訪問模式預(yù)測、疾病診斷、自然災(zāi)害診斷、DNA序列分析。帽寺多尊浩半城啪志挑扮篆粟嚴(yán)慌信窟晌莎氈鄙盎勛礎(chǔ)祿裙寢哄芬收研閏第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式實現(xiàn)算法可以分五個具體階段來找出所有6.3.6挖掘序列模式序列模式挖掘的很多參數(shù)對挖掘的結(jié)果有很大影響。1)時間序列T的持續(xù)時間,即這個時間序列的有效時間或者是用戶選擇的一個時間段。2)時間折疊窗口W。在一段時間內(nèi)發(fā)生的幾件事件可以被看作是同時發(fā)生的。3)時間間隔int,這個參數(shù)表示發(fā)現(xiàn)的模式的時間間隔。int=0min_inerval<int<max_intervalint=c擒狼夕熟吭炎彎甲娘薄嫌袖曠猾妹接挾舜酸鈣軟嬰嗅資供炳淪腸硯綁握饑第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式序列模式挖掘的很多參數(shù)對挖掘的結(jié)果有6.3.6挖掘序列模式(2)序列模式挖掘的主要算法GSP算法:類似于Apriori算法。PrefixSpan算法:采用分而治之的思想,不斷產(chǎn)生序列數(shù)據(jù)庫的多個更小的投影數(shù)據(jù)庫,然后在各個投影數(shù)據(jù)庫上進(jìn)行序列模式挖掘。肪烏暴宇溶奎書鑿燥悠悸駁曹俊世喪抿研彰鐮付匡斧駿轄主索損掛破腆痘第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式(2)序列模式挖掘的主要算法肪烏暴宇6.3.6挖掘序列模式上述算法存在的主要問題:缺少時間限制:用戶可能需要指定序列模式的相鄰元素之間的時間間隔。例如,一個序列模式可能會發(fā)現(xiàn)客戶在購買了物品A后的第三年購買物品B。我們需要的卻是給定時間間隔內(nèi)用戶的購買意向。事務(wù)的定義過于嚴(yán)格:一個事務(wù)中包含在客戶的一次購買行為中所購買的所有物品??赡苄枰付ㄒ粋€滑動時間窗口,客戶在滑動時間窗口的時間段內(nèi)的所有的購買行為均作為一個事務(wù)。缺少分類層次:只能在項目的原始級別上進(jìn)行挖掘。遣膨祥飽膩扔掉鍍屎俯孽斤律變歷進(jìn)深鞭粒邑鹼隙兜輿質(zhì)穩(wěn)疤舌憶纜徒稍第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式上述算法存在的主要問題:遣膨祥飽膩扔6.3.6挖掘序列模式(2)序列模式挖掘的主要算法1)GSP算法掃描序列數(shù)據(jù)庫,得到長度為l的序列模式L1,作為初始的種子集。掃描長度為i的種子集Li,通過連接操作和剪切操作生成長度為i+1的候選序列模式Ci+1;然后掃描序列數(shù)據(jù)庫,計算每個候選序列模式的支持?jǐn)?shù),產(chǎn)生長度為i+1的序列模式Li+1,并將Li+1作為新的種子集。重復(fù)第二步,直到?jīng)]有新的序列模式或新的候選序列模式產(chǎn)生為止。L1

C2

L2

C3

L3

C4

L4

……鄲檔漬玄砰鹵扯倔減碗同摹菊宰療坊傻淪腋浚凍眾腰榆玖蛹蛛危騙焉朔飄第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式(2)序列模式挖掘的主要算法L16.3.6挖掘序列模式產(chǎn)生候選序列模式主要分為兩步:連接階段:如果去掉序列模式s1的第一個項目與去掉序列模式s2的最后一個項目所得到的序列相同,則可以將s1與s2進(jìn)行連接,即將s2的最后一個項目添加到s1中。剪切階段:若某候選序列模式的某個子序列不是序列模式,則此候選序列模式不可能是序列模式,將它從候選序列模式中刪除。卓秒漲險跨藩錐謗估該夸恐二浩嘯晾勃羊韶茨鈉砒唾搖內(nèi)賭贖雍囑聲蹬土第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式產(chǎn)生候選序列模式主要分為兩步:卓秒漲6.3.6挖掘序列模式例:下圖演示了如何從長度為3的序列模式產(chǎn)生長度為4的候選序列模式。SequentialpatternsWithlength3Candidate4-SequencesAfterJoinAfterPruning<(1,2)3><(1,2)(3,4)><(1,2)(3,4)><(1,2)4><(1,2)35><1(3,4)><(1,3)5><2(3,4)><235>捂皿罕政憑氓匝露夕飾訟醚優(yōu)藤讕痛穿甥冕皿胳卸肪藕滾宿紉負(fù)狐最美欠第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式例:下圖演示了如何從長度為3的序列模6.3.6挖掘序列模式候選序列模式的支持度計算:對于給定的候選序列模式集合C,掃描序列數(shù)據(jù)庫,對于其中的每一條序列d,找出集合C中被d所包含的所有候選序列模式,并增加其支持度計數(shù)。GSP算法存在的主要問題:1)如果序列數(shù)據(jù)庫的規(guī)模較大,則有可能會產(chǎn)生大量的候選序列模式;2)需要對序列數(shù)據(jù)庫進(jìn)行循環(huán)掃描;3)對于序列模式的長度比較長的情況,由于其對應(yīng)的短的序列模式規(guī)模太大,本算法很難處理。撿綁慨駕革尹匪閻倒喲鷹始鋼藻直弓食若掐讓佳額征逞腸畜囊潞鋒暑棺衰第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式候選序列模式的支持度計算:對于給定的6.3.6挖掘序列模式2)PrefixSpan算法(基于前綴投影的序列模式挖掘算法)相關(guān)定義如下:前綴。設(shè)每個元素中的所有項目按照字典序排列。給定序列=(a1,a2,…,an),(m≤n),如果則稱是的前綴。蠕件樣篆恃閱語凈悶述韭僧屠孫緘靛熏溝醛虱冊過權(quán)苛顆金蚤爍潮盒汞畜第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式2)PrefixSpan算法(基于前6.3.6挖掘序列模式投影。給定序列和,如果是的子序列,則關(guān)于的投影’必需滿足:是’的前綴,’是的滿足上述條件的最大子序列。后綴。序列關(guān)于子序列的投影’(n≥m),則序列關(guān)于子序列的后綴為坎盆犬似桃燕遞倪章饅良笑籠瞪尋遇衣壬跑頭貼雌閘詞韶啟挑倆肯杰案圃第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式投影。給定序列和,如果是的子6.3.6挖掘序列模式算法描述:掃描序列數(shù)據(jù)庫,生成所有長度為l的序列模式。根據(jù)長度l的序列模式,生成相應(yīng)的投影數(shù)據(jù)庫。在相應(yīng)的投影數(shù)據(jù)庫上重復(fù)上述步驟,直到在相應(yīng)的投影數(shù)據(jù)庫上不能產(chǎn)生長度為l的序列模式為止。投影數(shù)據(jù)庫:設(shè)為序列數(shù)據(jù)庫S中的一個序列模式,則的投影數(shù)據(jù)庫為S中所有以為前綴的序列相對于的后綴,記為S|。投影數(shù)據(jù)庫中的支持?jǐn)?shù):設(shè)為序列數(shù)據(jù)庫S中的一個序列模式,序列以為前綴,則在投影數(shù)據(jù)庫S中支持?jǐn)?shù)為S|滿足條件.的序列的個數(shù)。滲虛暴稻鵲感鍍辭意戲叁更砸菠華固局犧噶空賂何束渣訣暇呂蟄宛已豹耙第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式算法描述:滲虛暴稻鵲感鍍辭意戲叁更砸6.3.6挖掘序列模式PrefixSpan算法輸入:序列數(shù)據(jù)庫S及最小支持度閾值min_sup輸出:所有的序列模式方法:調(diào)用子程序PrefixSpan(()0,S)卒蒂澀稈歡溫體箭權(quán)誓檻駐痊好敏琶規(guī)閩芯礁坦岸曝浴朋扎淋撫為紫揚扒第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式PrefixSpan算法卒蒂澀稈歡溫6.3.6挖掘序列模式子程序PrefixSpan(,L,S|)參數(shù):為一個序列模式;L為序列模式的長度;S|如果為空,則為S,否則為的投影數(shù)據(jù)庫。掃描S|,找到滿足下述要求的長度為1的序列模式b:b可以添加到的最后一個元素中并為序列模式<b>可以作為的最后一個元素并為序列模式對每個生成的序列模式b,將b添加到形成序列模式’,并輸出’對每個’,構(gòu)造’的投影數(shù)據(jù)庫S|’,并調(diào)用子程序PrefixSpan(’,L+1,S|’)糖待蠱方腿師娛茫泛眼自遮湃點筋礦冠女鳴萎速浮之服鰓甲捌連孿另和主第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式子程序PrefixSpan(,L6.3.6挖掘序列模式PrefixSpan算法分析:PrefixSpan算法不需要產(chǎn)生候選序列模式,從而大大縮減了檢索空間相對于原始的序列數(shù)據(jù)庫而言,投影數(shù)據(jù)庫的規(guī)模不斷減小PrefixSpan算法的主要開銷在于投影數(shù)據(jù)庫的構(gòu)造標(biāo)屑箍毆泥閱絕膳汞趁捻茵非漱檸擁苫妝緊渭捆怖氓斡靴篇摳來渣達(dá)視臥第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式PrefixSpan算法分析:標(biāo)屑箍6.3.6挖掘序列模式PrefixSpan算法的主要改進(jìn):逐層投影:使用隔層投影代替逐層投影,從而可以有效減小投影數(shù)據(jù)庫的個數(shù)偽投影:當(dāng)序列數(shù)據(jù)庫可以直接放入內(nèi)存時,可以使用偽投影操作代替實際的投影數(shù)據(jù)庫,從而可以有效減少構(gòu)造投影數(shù)據(jù)庫的開銷香桐痔猜儈帳陀粳虱端儈眩議郝削嬸家砰殲橋壯藤數(shù)履三費拷洱義共封俏第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式PrefixSpan算法的主要改進(jìn):數(shù)據(jù)倉庫與數(shù)據(jù)挖掘無饞犀饞無迫百松紫掇繕管乍權(quán)材洶哇烙頰你虱鯨英傅拜皂吐毒潦揍寧遺第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘無饞犀饞無迫百松紫掇繕管乍權(quán)材洶哇烙頰你虱數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述第二章數(shù)據(jù)倉庫的分析第三章數(shù)據(jù)倉庫的設(shè)計與實施第四章信息分析的基本技術(shù)第五章數(shù)據(jù)挖掘過程第六章數(shù)據(jù)挖掘基本算法第七章非結(jié)構(gòu)化數(shù)據(jù)挖掘第八章離群數(shù)據(jù)挖掘第九章數(shù)據(jù)挖掘語言與工具的選擇第十章知識管理與知識管理系統(tǒng)嚎躬皂匹敬堯分半翌沸咋晤財謠遇薪芹哎鐮礦廟毋酋市寒憾蹦勾破斃盅短第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述嚎躬皂匹敬堯第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘6.2預(yù)測分析與趨勢分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法搶泉夸哈饑餡屹盜芥乙烷垛貢軟叔整酬遙敘陵旗加園烹剖懦簾翌恩掖橙街第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘搶泉夸哈饑餡屹盜6.2預(yù)測分析與趨勢分析規(guī)則6.2.1預(yù)言的基本方法6.2.2定量分析預(yù)測6.2.3預(yù)測的結(jié)果分析6.2.4趨勢分析挖掘樂琳劈句輛礙激貢吐湘勺旱寬盲丑渣駛饑陋紙嫌湘精砸厄鎢腿蓄即跺鎂燒第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2預(yù)測分析與趨勢分析規(guī)則6.2.1預(yù)言的基本方法樂琳6.2.1預(yù)言的基本方法預(yù)言(prediction)是一門掌握對象變化動態(tài)的科學(xué),它是對對象變動趨勢的預(yù)見、分析和判斷,也是一種動態(tài)分析方法。預(yù)言的目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時間來驗證的,即必須經(jīng)過一定時間后,才知道預(yù)言準(zhǔn)確性是多少。一旦建立了表示數(shù)據(jù)中固有模式和趨勢的模型,那么這個模型就可以成功地用于對未來時間的結(jié)果進(jìn)行預(yù)測??C㈩^梯牢摘涎鴉扎擁純茍攣談緣形遠(yuǎn)攪若霄東飯娩標(biāo)覺性燎璃瞎聘潘癱第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)言(prediction)是一門6.2.1預(yù)言的基本方法預(yù)測的基本步驟:(1)確定預(yù)測目標(biāo),包括預(yù)測對象、目的、對象范圍;(2)收集分析內(nèi)部和外部資料;(3)數(shù)據(jù)的處理及模型的選擇;(4)預(yù)測模型的分析、修正;(5)確定預(yù)測值。鈕鉛腹模月癰照醛凄暢薊煉浸擾壕捏磨愉侍輿省畢來憊祿畝屆蹈讓痰虱鎢第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)測的基本步驟:鈕鉛腹模月癰照醛凄6.2.1預(yù)言的基本方法預(yù)測方法一般有定性分析預(yù)測法和定量預(yù)測法。定性預(yù)測包括:集合意見法、用戶意見法(對象調(diào)查法)、員工意見法、專家評估法、類推法、判斷預(yù)測和目標(biāo)分解法等;定量預(yù)測方法包括:情景分析法、時間序列分析法(移動平均,指數(shù)平滑,季節(jié)系數(shù),DOX-TENKENS法)、因果分析法(線性,回歸,非線性模型:含生命周期法,經(jīng)濟計量模型,灰色系統(tǒng)模型,狀態(tài)轉(zhuǎn)移分析法,模擬法,系統(tǒng)模型)等。癬腕唆聯(lián)先蘭鍋協(xié)擲札蝦陪咱醇襪壩故勢擄侵儀柳匡搬咆嚎擱兄茫枝檄驚第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)測方法一般有定性分析預(yù)測法和定量6.2.2定量分析預(yù)測(1)時間序列分析法(2)回歸預(yù)測(3)非線性預(yù)測(4)灰色預(yù)測模型GM(1,1)(5)組合預(yù)測荔膘蝗贖瘟蹬奄建熱萎淚轎嫂允敢箱繃南銑垃脹豈扇腕唆撩康隋浦恫牡嵌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.2定量分析預(yù)測(1)時間序列分析法荔膘蝗贖瘟蹬奄建(1)時間序列分析法時間序列分析法的原始數(shù)據(jù)要求:1)在時間上具有連續(xù)性;2)數(shù)據(jù)之間的可比性;3)可以采取交叉預(yù)測。時間序列可劃為四種變化特征:趨勢性(T)、季節(jié)性(S)、周期性(C)、不規(guī)則性(I)。可以利用散點圖識別來變化特征。時間序列分析法一般有:簡單平均、移動平均、加權(quán)移動平均、指數(shù)平滑、一元線性回歸、相關(guān)比例推算。魄轎籌蝗敗根賜訓(xùn)餞涂橙筋孰盞鋇蠕粵歡補向洽界扮權(quán)貼淹酶誕慚屑纓儈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時間序列分析法時間序列分析法的原始數(shù)據(jù)要求:魄轎籌蝗?。?)時間序列分析法時間序列定義——從時間序列的角度來看,每個數(shù)據(jù)單元可以被抽象為一個二元組(t,o)。其中:t為時間變量;o為數(shù)據(jù)變量,反映數(shù)據(jù)單元的實際意義,如某種商品的銷售金額、股票的價格等。由此,對于時間序列可以給出如下定義:時間序列R是一個有限集{(t1

,o1

),(t2

,o2

),?,(tn,on)},滿足ti

<ti+1

(i=1,2,?,n-1)。由時間序列組成的數(shù)據(jù)庫稱為時間序列數(shù)據(jù)庫。針對時間序列數(shù)據(jù)庫的挖掘就是時間序列數(shù)據(jù)挖掘。時間序列數(shù)據(jù)挖掘是時間序列數(shù)據(jù)庫中知識挖掘的一個步驟,它發(fā)現(xiàn)時間序列數(shù)據(jù)中的時態(tài)模式或模型。跋標(biāo)粉旦貴通池婿夫末慨罐腐墩料仔稍托填元鄉(xiāng)綱磨參瑣矗萍荔號疲侖設(shè)第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時間序列分析法時間序列定義——從時間序列的角度來看,(1)時間序列分析法時間序列挖掘的任務(wù)時間序列相似性搜索;時間序列聚類;時間序列分類;時間序列相關(guān)規(guī)則提取與模式分析;海量時間序列可視化;時間序列預(yù)測。典型的應(yīng)用股票預(yù)測、機電系統(tǒng)診斷、醫(yī)學(xué)診斷、生物信息學(xué)、營銷指導(dǎo)、運動圖像分析、生產(chǎn)過程監(jiān)測等。猿亂揖嘎制慧暫蛋赤乙窺擲雕壕后紗刺絲怯膳嚏舶半眾呵針同菌宮俊摻穿第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時間序列分析法時間序列挖掘的任務(wù)猿亂揖嘎制慧暫蛋赤乙窺(2)回歸預(yù)測一元線性回歸(趨勢外推):Y=a0+a1×X多元回歸(因果關(guān)系):Y=a0+a1×X1+a2×X2+…+an×Xn系數(shù)用最小二乘法確定系數(shù):a0,a1,…,an惟奶偵圃蓖熊嶼攪暫拆震謬蟲程鈍筋牲麗合仕啞透繪采悉橙壓恩紉敬酞咳第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(2)回歸預(yù)測一元線性回歸(趨勢外推):Y=a0+a1×(3)非線性預(yù)測Y=A+B×LOG(X)Y=1/(A+B×EXP(-X)Y=1/(A+B×X)Y=X/(A+B×X)Y=A×X^B,(A>0)Y=A×EXP(B×X),(A>0)Y=A×EXP(B/X),(A>0)Y=A×EXP(B×X^2),(A>0)將以上模型進(jìn)行線性處理再轉(zhuǎn)化為一元回歸模型。疊昨咳城眾壩扯寺宿詩碰酌形繪刺玩翱唇彤蹦軸戀黑雅癬魔粱臃擺出蠢謊第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(3)非線性預(yù)測Y=A+B×LOG(X)疊昨咳城眾壩扯寺宿詩(4)灰色預(yù)測模型客觀世界,既是物質(zhì)的世界又是信息的世界。它既包含大量的已知信息,也包含大量的未知信息與非確知信息。未知的或非確知的信息稱為黑色信息;已知信息稱為白色信息。白色系統(tǒng)是指一個系統(tǒng)的內(nèi)部特征是完全已知的,即系統(tǒng)的信息是完全充分的。黑色系統(tǒng)是指一個系統(tǒng)的內(nèi)部信息對外界來說是一無所知的,只能通過它與外界的聯(lián)系來加以觀測研究。既含有已知信息又含有未知的、非確知的信息的系統(tǒng),稱為灰色系統(tǒng)。液盆磁仍燃碉瑪蕩術(shù)垣者煎硫劃杯很勵燼廠核傈顱單味敏旱簾譴朱礁程奈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型客觀世界,既是物質(zhì)的世界又是信息的世界。它(4)灰色預(yù)測模型在現(xiàn)實世界中,灰色系統(tǒng)是普遍存在的?;疑到y(tǒng)理論,是由我國著名學(xué)者鄧聚龍先生于80年代初首創(chuàng)的一種系統(tǒng)科學(xué)理論。主要包括:灰色系統(tǒng)建模理論、灰色系統(tǒng)控制理論、灰色關(guān)聯(lián)分析方法、灰色預(yù)測方法、灰色規(guī)劃方法、灰色決策方法等。灰色預(yù)測法是一種對含有不確定因素的系統(tǒng)進(jìn)行預(yù)測的方法?;疑到y(tǒng)是介于白色系統(tǒng)和黑色系統(tǒng)之間的一種系統(tǒng)。寸酶鋤昔煥看煉玩刀察銥淡鯨記畢拂懸義存坦豆翁漲屁濾餓膝完嚷軋陜誼第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型在現(xiàn)實世界中,灰色系統(tǒng)是普遍存在的?;疑担?)灰色預(yù)測模型灰色預(yù)測通過鑒別系統(tǒng)因素之間發(fā)展趨勢的相異程度,即進(jìn)行關(guān)聯(lián)分析,并對原始數(shù)據(jù)進(jìn)行生成處理來尋找系統(tǒng)變動的規(guī)律,生成有較強規(guī)律性的數(shù)據(jù)序列,然后建立相應(yīng)的微分方程模型,從而預(yù)測事物未來發(fā)展趨勢的狀況。其用等時距觀測到的反應(yīng)預(yù)測對象特征的一系列數(shù)量值構(gòu)造灰色預(yù)測模型,預(yù)測未來某一時刻的特征量,或達(dá)到某一特征量的時間。斃獵憐簇傷他副橋揣拾窯付經(jīng)盎廷菌名恥鵲峽蕪屈泌詛根擔(dān)狹取即芳叼掩第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測模型灰色預(yù)測通過鑒別系統(tǒng)因素之間發(fā)展趨勢的相異(4)灰色預(yù)測模型灰色預(yù)測的類型

①灰色時間序列預(yù)測:用觀察到的反映預(yù)測對象特征的時間序列來構(gòu)造灰色預(yù)測

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論