版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、項目名稱不確定數(shù)據(jù)流高效用頻繁模式挖掘研究項目負責人(簽名)所在學校(蓋章)1本項目研究意義及國內(nèi)外同類研究工作現(xiàn)狀(附主要參考文獻及出處):研究意義:本課題將“高效用頻繁模式”的概念,及“跨數(shù)據(jù)流”和“跨事務”的組合模式概念拓展到不確定數(shù)據(jù)流領域,提出在多重不確定數(shù)據(jù)流上進行模式挖掘建模及算法研究的計算框架;其算法實現(xiàn)(作為開源軟件發(fā)布)也可為數(shù)據(jù)分析行業(yè)的頻繁模式挖掘提供計算工具。研究背景、現(xiàn)狀和動機:頻繁模式 以事件發(fā)生的頻度為依據(jù),揭示數(shù)據(jù)表象所可能隱含的規(guī)律。例如,從金融數(shù)據(jù)流中識別出的頻繁模式可用于發(fā)現(xiàn)可疑交易線索,醫(yī)療圖像中的頻繁模式可用于病灶的識別和分類等。 隨著社會行業(yè)對數(shù)據(jù)
2、分析技術的需求演進,頻繁模式挖掘的數(shù)據(jù)對象也從確定性數(shù)據(jù)、布爾型事件(事件發(fā)生與否)拓展到不確定數(shù)據(jù)( uncertain data)和包含效用( utility)的數(shù)據(jù) 。數(shù)據(jù)的不確定性來源于數(shù)據(jù)產(chǎn)生、收集、存儲和傳輸過程中的隨機性因素、預處理中的統(tǒng)計計算、或數(shù)據(jù)概念本身的概率屬性等;例如,根據(jù)對電子商務網(wǎng)站頁面的訪問記錄,只能獲得潛在客戶對特定商品購買傾向的一個估計,即一個概率性指標。數(shù)據(jù)的“效用”值表示該數(shù)據(jù)的利潤或重要度;例如購物單中商品的單價和數(shù)量等。由于數(shù)據(jù)的不確定性和數(shù)據(jù)的效用屬性普遍存在于現(xiàn)實世界各個領域中,因此近年來高效用模式( high utility pattern )挖
3、掘和不確定數(shù)據(jù)頻繁模式挖掘等研究逐漸成為數(shù)據(jù)挖掘領域的研究熱點之一。但是,目前不確定數(shù)據(jù)集上的頻繁模式挖掘,僅僅考慮了模式的期望支持數(shù),而沒有考慮到模式的效用值;同時缺乏對多數(shù)據(jù)流及模式的時間關聯(lián)的綜合考慮,難以滿足數(shù)據(jù)分析行業(yè)的計算需求:首先,在許多領域應用中,事件的“效用” (即收益,數(shù)值型屬性)可能具有不確定性。例如,根據(jù)特定的投資策略對金融歷史數(shù)據(jù)進行回測時,由于高頻數(shù)據(jù)的隨機波動性,預定的成交時間和成交價格不可能被精確實現(xiàn),實現(xiàn)的收益也是一個不確定數(shù)據(jù)。因此,效用概念的建模應該導入不確定性,以適應此類計算需求。其次,隨著大數(shù)據(jù)應用的發(fā)展,特別是互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的海量數(shù)據(jù)流和金融領域的高
4、頻數(shù)據(jù)的迅猛發(fā)展,數(shù)據(jù)流的綜合分析已經(jīng)成為大數(shù)據(jù)研究的關注點之一,因為對多個相互間有內(nèi)在關聯(lián)的數(shù)據(jù)流的綜合分析(即“跨流”分析) ,比僅僅分析單個數(shù)據(jù)流,更容易發(fā)現(xiàn)事物潛在的規(guī)律和模式。例如,綜合大氣溫度、云層分布、風力變化等數(shù)據(jù),對于估計未來颶風的形成,要比單獨依賴一個因素更為可靠;根據(jù)多只股票的交易數(shù)據(jù),結(jié)合社會和企業(yè)的經(jīng)濟狀況,及各事件在時間上的先后關系(即“跨事務”關聯(lián))等信息,來尋找市場的發(fā)展趨勢,比單純考察一只股票的數(shù)據(jù)更為合理。因此,應考慮在多重數(shù)據(jù)流上、并考慮到模式之間的時間關聯(lián)進行模式挖掘的建模研究。綜上所述, 頻繁模式挖掘領域的科學研究,其發(fā)展趨勢,應將研究對象拓展到包含效
5、用信息的多個不確定數(shù)據(jù)流上,研究其高效用頻繁模式挖掘的相關模型及算法。此研究有著強烈的社會需求背景,其成果可廣泛應用于金融業(yè)、商業(yè)、制造業(yè)、氣象、環(huán)境、醫(yī)療乃至社會人文統(tǒng)計等各個領域。國內(nèi)外研究現(xiàn)狀分析:傳統(tǒng)的頻繁模式挖掘處理的是確定性的非數(shù)值型數(shù)據(jù)(“字面”數(shù)據(jù)) ,其典型算法包括Apriori 1、FP-Growth 2和 H-Mine 3 等。隨著不確定數(shù)據(jù)的迅速發(fā)展和業(yè)界對事務項效用值的重視,近年來, 高效用模式挖掘和不確定數(shù)據(jù)上的頻繁模式挖掘成為數(shù)據(jù)挖掘領域的熱點之一,在 KDD 、ICDM、PAKDD 、 ICDE 等重要會議和數(shù)據(jù)挖掘領域頂級期刊TKDE 等上也多有關注(參見表2
6、 和表 3)。目前,模式挖掘研究主要集中于單個數(shù)據(jù)集或數(shù)據(jù)流;下面分別介紹不確定數(shù)據(jù)集上頻繁模式挖掘、高效用模式挖掘、多重數(shù)據(jù)流及跨事務(事務間)模式挖掘,和模式挖掘并行算法的研究現(xiàn)狀。(1) 不確定數(shù)據(jù)中頻繁模式挖掘不確定數(shù)據(jù)是帶有概率屬性的數(shù)據(jù);如表1 所示,不確定數(shù)據(jù)集中的每個事務項,都包含一個概率值,表示該事務項發(fā)生的概率。表 1一個不確定數(shù)據(jù)集的 例事 ID事 集t1(a: 0.8), (b: 0.7)(d: 0.9), (f: 0.5)t2(c: 0.8), (d: 0.85), (e: 0.4)t3(c: 0.85), (d: 0.6), (e: 0.6)不 確 定 數(shù) 據(jù) 集D
7、中 的 頻 繁 模 式X用 其 期望支持數(shù) 描 述 , 該 期望支持數(shù) 定 義 為SC1 C2 C3SC1C2 C3SS1S2S3C1 C2C3數(shù)據(jù)流數(shù)據(jù)流數(shù)據(jù)流|0.34|0.6|0.8|1,其中 t 是事務, P(X, t)根據(jù)獨立同分布原則由X 中的所有事務項在事務 t(a)界標窗口模型(b)時間衰減窗口模型(c)滑動窗口模型|0.34|0.6|0.8|1|0.34|0.6|0.8|1S:數(shù)據(jù)流中指定的起點; C1,C2,C3:分別為 3個不同的處理點; S1,S2,S3:分別為 3個不同的起點.中的概率的乘積給出。不 確 定 數(shù) 據(jù) 集 上 的 頻 繁 模 式 挖 掘 算 法 主 要
8、分 為 逐 層 挖 掘 (level-wise) 和 模 式 增 長(pattern-growth) 兩種方式,分別基于Apriori 和 FP-Growth 算法。(1.1) 靜態(tài)不確定數(shù)據(jù)集上的頻繁模式挖掘研究現(xiàn)狀表 2 列出了靜態(tài)數(shù)據(jù)集上的一些重要算法及其特征。其中,采用逐層挖掘的算法需要多次掃描數(shù)據(jù)集,并產(chǎn)生大量的候選項集來挖掘頻繁模式;該類算法的優(yōu)化主要是通過減少候選項集個數(shù)來提高算法效率。表 2 不確定數(shù)據(jù)集上的 繁模式挖掘的主要算法( * 號者 本 的成果)時間研究者 文出 算法名稱方法2007Chui C KPAKDD 2007U-Apriori 4 level-wise,Ka
9、o Bcandidate-testLeung C2007S, Carmichael C L,ICDM Workshops 2007UF-Growth 5 pattern-growthHao B2009Aggarwal C C, Li YKDD 2009HU-Mine 6pattern-growth200KDD 20pattern-growth,Aggarwal C C, Li YUFP-Mine 6 candidate-te9t近似 /精確精確精確精確精確2011Wang L, Cheung D,IEEE TKDEMBP 7level-wise,Cheng Rcandidate-test201
10、2Sun X, Liu LJournal of AdvancementsIMBP 8 *level-wise,Wang Shin Computing Technologycandidate-test2012Lin C W, Hong T PExpert Systems withCUFP-Mine 9 candidate-testApplications2013Wang L, Feng LJournal of ComputersAT-Mine 10*pattern-growth精確近似精確精確模式增長方式的算法則需要遞歸地進行子樹的創(chuàng)建。UF-Growth 的主要缺陷是不能將數(shù)據(jù)高效的壓縮到一棵
11、樹上,從而造成維護數(shù)據(jù)集的樹比較大,算法的挖掘效率受到影響。UFP-Mine將數(shù)據(jù)集高效的壓縮到樹上,但是壓縮的時候,丟失了事務項集的概率信息,因此只能從樹上得到候選項集,最后還需要掃描一遍數(shù)據(jù)集來計算候選項集的期望支持數(shù)。CUFP-Mine 的優(yōu)點是不需要遞歸的挖掘頻繁模式;在設定閾值較大的情況下,能夠較快的發(fā)現(xiàn)頻繁模式;其缺點是內(nèi)存開銷較大。 本課題申請者 等提出算法 AT-Mine ,該算法將數(shù)據(jù)集以較大的壓縮比維護在一棵樹上,同時沒有丟失事務項集的概率信息,最終算法的挖掘效率得到了較大的提高。(1.2) 不確定數(shù)據(jù)流上的頻繁模式挖掘研究現(xiàn)狀數(shù)據(jù)流上的頻繁模式概念,仍然定義在單個事務上,
12、不考慮跨事務的模式(不同時間上的組合模式);其挖掘方法,一般是采用“窗口”獲取當前用戶關注的數(shù)據(jù),然后基于已有的靜態(tài)數(shù)據(jù)集上的頻繁模式挖掘算法,設計數(shù)據(jù)流中被關注數(shù)據(jù)上的挖掘算法。目前有3 種典型的窗口模型 11 :界標窗口模型 (Landmark WindowModel) 、時間衰減窗口模型(Damped WindowModel) 和滑動窗口模型 (Sliding Window Model),如圖 1 所示。SC1 C2 C3SC1 C2 C3S S1S2 S3C1 C2 C3數(shù)據(jù)流數(shù)據(jù)流數(shù)據(jù)流 |0.34|0.6|0.8|1 |0.34|0.6|0.8|1|0.34|0.6|0.8|1(a
13、)界標窗口模型(b)時間衰減窗口模型(c)滑動窗口模型S: 數(shù)據(jù)流中指定的起點; C1,C2,C3:分別為 3個不同的處理點; S1,S2,S3:分別為 3個不同的起點.圖1三種窗口模型界標窗口模型中的窗口指特定一時間點(或數(shù)據(jù)流中一條特定的數(shù)據(jù))到當前時間(或當前條數(shù)據(jù))之間的數(shù)據(jù),如圖1(a)所示,在C1、C2 和 C3 時刻,窗口中的數(shù)據(jù)分別包含了從S點到 C1 點、 C2 點和 C3 點之間的數(shù)據(jù)。時間衰減窗口模型和界標窗口模型所包含的數(shù)據(jù)是相同的,只是衰減窗口中的每條數(shù)據(jù)有不同的權(quán)重,距離當前時間越近,數(shù)據(jù)的權(quán)重越大,如圖1(b)所示;實際上,時間衰減窗口模型是界標窗口模型的一個特例
14、。滑動窗口模型中,每次處理數(shù)據(jù)的個數(shù)固定或者是每次處理數(shù)據(jù)的時間段長度是固定的,如圖1(c) 所示。已有的不確定數(shù)據(jù)流上頻繁模式挖掘算法主要基于UF-Growth 及滑動窗口技術或時間衰減窗口技術構(gòu)造。Leung 等作者 12 提出兩個基于滑動窗口的算法 UF-streaming 和 SUF-Growth ,每個滑動窗口包含固定批數(shù)的數(shù)據(jù),當一個窗口滿了以后,每來一批數(shù)據(jù),都會先從窗口中刪除一批最老的數(shù)據(jù),然后再將新來數(shù)據(jù)添加到窗口中。算法 UF-streaming 采用 FP-streaming 13的方法, 預定義兩個最小期望支持數(shù)preMinsup 和minSup (preMinsup
15、minSup),UF-streaming 挖掘的頻繁模式的支持數(shù)大于等于minSup,而支持數(shù)介于 preMinsup 和 minSup 之間的項集稱為潛在頻繁模式,也會和頻繁模式一起保存到一棵樹UF-stream 上。該算法利用UF-Growth挖掘每批數(shù)據(jù)中的期望支持數(shù)大于等于preMinsup 的項集做為候選項集,并保存到一個樹UF-stream 上, UF-stream 樹上每個節(jié)點記錄窗口中每批數(shù)據(jù)的期望支持數(shù);當新來一批數(shù)據(jù)中的候選項集被添加到UF-stream 樹上之前,會將樹上最老批次數(shù)據(jù)對應的候選項集從樹上刪除;當一個節(jié)點上總的期望支持數(shù)(所有批上的期望支持數(shù)的和 ) 大于等
16、于 minSup,則該節(jié)點到根節(jié)點對應的項集就是一個頻繁模式。該算法是一個近似的挖掘算法,會丟失一部分頻繁模式。SUF-Growth 算法主要基于算法 UF-Growth ,該算法將每批數(shù)據(jù)添加到樹 UF-Tree 的時候,節(jié)點分別記錄每批數(shù)據(jù)的期望支持數(shù);當新來一批數(shù)據(jù)的時候,會首先將樹上最老批次的數(shù)據(jù)刪除,然后將新來數(shù)據(jù)添加到樹上;挖掘頻繁模式的時候從該樹上讀取數(shù)據(jù),采用模式增長的方式進行。文獻 14, 15 中提出的算法采用的是時間衰減窗口模型,仍然采用UF-Tree 來存儲窗口中的事務項集。 由于 UF-Tree 共享同一個節(jié)點時, 不僅要求項相同, 還要求項對應的概率值也相同,因此該
17、樹結(jié)構(gòu)的存儲需要大量的空間,同時也需要較多的處理時間。本課題申請者等在文獻 16 中采用滑動窗口方式(模型),在算法 AT-Mine 的基礎上,給出一個不確定數(shù)據(jù)流上的頻繁模式挖掘算法UDS-FIM ;該算法給出兩種新的樹結(jié)構(gòu)分別來維護窗口中數(shù)據(jù)和挖掘過程中的子數(shù)據(jù)集,并保證挖掘過程中事務項集的信息不會丟失;最終使數(shù)據(jù)流上的頻繁模式挖掘算法的時空效率得到較大的提升。綜上所述, 目前的不確定數(shù)據(jù)流上的模式挖掘研究,尚有 3 個方面的問題沒有解決: 沒有考慮事務項的“效用值”(參見下節(jié)的闡述) 。局限在“事務內(nèi)”的模式挖掘,沒有考慮“跨事務” 的模式 (即來源于不同時間、不同事務的組合模式) 。
18、沒有考慮多重數(shù)據(jù)流問題;但多重數(shù)據(jù)流上的“跨流”模式具有重要的現(xiàn)實意義,因為它是綜合考察異構(gòu)數(shù)據(jù)流和多因素關聯(lián)的基礎。據(jù)此,在不確定數(shù)據(jù)流模式挖掘研究中,包含“效用”數(shù)據(jù)、建立“跨流”和“跨事務”模式,是此領域發(fā)展的必然趨勢。此為本課題的研究動機之一。(2) 高效用模式挖掘研究現(xiàn)狀2004 年, Yao 等首先提出了高效用模式挖掘的相應定義和數(shù)學模型17 :數(shù)據(jù)集 D 上一個項 集X的 效 用 值u(X) , 被 定 義 為X 在 所 有 事 務 t上 的 效 用 值 的 總 和 , 即研究多重不確多重具有效用數(shù)據(jù)實驗對定數(shù)據(jù)流多重具有效用值值的數(shù)據(jù)流高頻金融數(shù)據(jù)象)的不確定數(shù)據(jù)流)和電子商務
19、數(shù)(據(jù),服務于:,其中 D 是一個帶有效用值的數(shù)據(jù)集、u(X, t)是項集 X 在事務 t 上的線(線研路多重不確定數(shù)據(jù)路模式挖掘線的高效用模式挖掘1.樣本數(shù)據(jù)概念頻繁模式路高效用模式2.預處理實驗模3.算法驗證型高效用頻繁模式4.算法分析5.并行設計算6.模型修正多重不確定數(shù)多重數(shù)據(jù)流中7.應用探索法據(jù)流中的頻繁究流中的高效用頻繁模式挖掘效用;它是一個項集的總利潤,例如:“牛奶” +“面包”組合在所有的購物記錄中所產(chǎn)生的利潤的總和,即為該模式的總效用值。高效用模式挖掘的目標,就是找出效用值u( X)不小于用戶預先設定的最小效用值的所有項集。隨著行業(yè)對定量數(shù)據(jù)日益重視,高效用模式挖掘也成為數(shù)據(jù)
20、挖掘研究的一個熱點。下面就靜態(tài)數(shù)據(jù)和數(shù)據(jù)流兩種數(shù)據(jù)對象上的研究現(xiàn)狀進行簡要介紹。(2.1) 靜態(tài)數(shù)據(jù)集上高效用模式挖掘研究現(xiàn)狀表 3 是靜態(tài)數(shù)據(jù)集上高效用模式挖掘的主要算法的一個簡要總結(jié)。表3 高效用模式挖掘的主要算法時研究者論文出處方法間2004Yao H, Hamilton HICDM 2004采用高估項集效用值的辦法來首J, et al.先挖掘候選項集,再從中識別高效用模式 17 。2005Liu Y , Liao W, et al.Advances in首先提出 twu 模型來計算候選項Knowledge集的高估值;然后給出一個層次Discovery and的挖掘算法 Two-Phas
21、e18 。Data Mining2006Yao H, Hamilton HData &UMining 19 :采用效用值上限的.Knowledge剪枝策略來降低候選項集個數(shù);EngineeringUMining_H 19:采用啟發(fā)式的策略來降低候選項集的個數(shù)。2008Li Y C, YData andIIDS 20 :同 Apriori 采用層次方h J S, et al.Knowledge式產(chǎn)生高效用模式。Engineering2009Ahmed C F,IEEE TKDEIHUP 21 :采用模式增長的方式Tanbeer S K, et al.產(chǎn)生候選項集,然后再掃描數(shù)據(jù)集從候選項集中確認
22、高效用模式。2010Tseng V S, Wu CKDD 2010UP-Growth 22:對算法 IHUP 進W, et行了優(yōu)化,減少候選項集的個數(shù)。al.特點產(chǎn)生候選項集; 需要多次數(shù)據(jù)集的掃描。產(chǎn)生候項集;需要多次數(shù)據(jù)集的掃描。產(chǎn)生候選項集; 需要次數(shù)據(jù)集的掃描; 會失去一部分高效用模式。產(chǎn)生候選項集; 多次掃描數(shù)據(jù)集。產(chǎn)生候選項集; 需要3 次數(shù)據(jù)集的掃描。產(chǎn)生候選項集; 需要3 次數(shù)據(jù)集的掃描。2011Lin C W, Hong T P,Expert Systemset al.withApplications2012Liu M, Qu J.CIKM 20122012Liu J, Wa
23、ng K, eIal.DM 20122013TsIEEE TKDEng V S, Shie B, etal.HUP-Growth 23 :將事務項集及效用值信息維護在一棵樹上,然后計算每項所有可能超集的效用值,從中確認高效用模式。HUI-Miner 24 :同 Apriori 算法層次方式產(chǎn)生高效用模式。d2HUP 25 :通過枚舉項集的方法來挖掘高效用模式;同時需要維護枚舉樹和事務項集。UP-Growth 26:對算法 IHUP 進行了優(yōu)化,減少候選項集的個數(shù)。需要計算大量項集的效用值, 從中確認高效用項集。層次方式產(chǎn)生項集,然后從相關效用數(shù)組中計算項集的效用值。枚舉項集的方法。產(chǎn)生候選項集
24、; 多次數(shù)據(jù)集掃描。2005 年, Liu 等18 提出了一個典型算法Two-Phase,相對文獻 17 中的方法, Two-Phase的時間效率得到了較大的提高,但是該算法仍然存在Apriori 算法需要掃描多遍數(shù)據(jù)集的缺點;同時該方法也是通過候選項集來產(chǎn)生高效用模式,其時間效率仍然不是很理想。為了解決已存在算法的低效率問題,特別是挖掘稠密數(shù)據(jù)集時的低效率問題,Erwin 等 27 提出了一個基于樹結(jié)構(gòu)的高效用模式挖掘算法CTU-Mine 。然而,該算法只是在挖掘稠密數(shù)據(jù)集或用戶設定的最小效用值比較低的時候,性能才優(yōu)于Two-Phase 算法。Ahmed 等 21 提出一個不需要多次掃描數(shù)據(jù)
25、集的算法IHUP 。算法 IHUP 先將事務項集及效用信息存儲在一棵IHUP-Tree 上,然后首先從樹上挖掘到候選項集,再掃描數(shù)據(jù)集來確認候選項集的真實效用值,從中找到所有的高效用模式。Tseng 等在文獻 22, 26中對算法IHUP 進行改進,主要是針對建樹方法的改進,主要目的是減少產(chǎn)生的候選項集個數(shù)。算法D 2HUP25 采用項集枚舉的方法挖掘高效用模式,該算法主要通過剪枝策略提高挖掘的時間效率,但是需要大量的空間來維護枚舉樹和事務項集。HUI-Miner 24 同 Apriori算法采用層次方式產(chǎn)生高效用模式,每層中需要產(chǎn)生大量的項集,并計算每個項集的效用值; 同時還需要維護每個項集
26、所在事務 ID 、相應事務中的效用值和事務中其余項的效用值信息,因此該算法空間消耗較大。(2.2) 數(shù)據(jù)流上高效用模式挖掘研究現(xiàn)狀Tseng 等 28 提出了第一個數(shù)據(jù)流中高效用模式挖掘算法THUI ,該算法整合了Two-Phase算法和滑動窗口的方式來挖掘數(shù)據(jù)流上的高效用模式,每個窗口中有固定批數(shù)的數(shù)據(jù),每批數(shù)據(jù)又有固定個數(shù)的事務項集。該算法首先挖掘出窗口的第一批數(shù)據(jù)中的候選2 項集,當?shù)诙鷶?shù)據(jù)到來的時候, 再挖掘出前二批數(shù)據(jù)中的候選2 項集,依次挖掘出整個窗口中的候選2 項集,用所有的候選2 項集再產(chǎn)生全部的候選項集,最后還需要再掃描一遍數(shù)據(jù)集從候選項集中確認高效用模式。該算法是一個近似
27、算法,它的主要問題是需要產(chǎn)生并維護候選項集,并且還需要掃描數(shù)據(jù)集來統(tǒng)計每個候選項集的效用值,甚至有時候會產(chǎn)生大量的候選項集。Li 等 29 提出兩個基于滑動窗口的算法MHUI-BIT& MHUI-TID,這兩個算法都采用類Apriori 算法的方式逐層產(chǎn)生所有的候選項集,然后再掃描數(shù)據(jù)集來統(tǒng)計候選項集的效用值。算法 MHUI-BIT 和 MHUI-TID 分別采用 bit-vector 和 TID-lists 兩個結(jié)構(gòu)來存儲當前窗口中每批數(shù)據(jù),利用這兩個結(jié)構(gòu)能檢索到與候選項集相關的事務,從而可以快速的統(tǒng)計候選項集的效用值,實驗結(jié)果也驗證了這兩個算法的時間效率優(yōu)于算法THUI 。2010 年,
28、Ahmed 等 30 提出一個仍然基于滑動窗口的算法HUPMS ,該算法采用樹結(jié)構(gòu)來維護窗口中每批數(shù)據(jù)的事務項集,通過一遍數(shù)據(jù)集掃描,將窗口中的事務項集維護在一棵樹上;當需要挖掘窗口中的高效用模式的時候,采用模式增長的方式從樹上挖掘出所有的候選項集;最后再掃描一次數(shù)據(jù)集來統(tǒng)計所有候選項集的效用值。該算法相對算法MHUI-BIT&MHUI-TID ,可以有效的減少候選項集的個數(shù),實驗也驗證了該算法有比較好的時間性能。2013年,本課題申請者 等 31提出 HUM-UT 算法,通過一遍數(shù)據(jù)集掃描,即可在不產(chǎn)生候選項集的條件下完成挖掘,其時間效率有較大提高(一個數(shù)量級以上)。綜上所述,目前的高效用模
29、式挖掘研究,存在如下不足:沒有針對不確定數(shù)據(jù)的建模。 挖掘在單個數(shù)據(jù)流上進行,并且沒有考慮跨事務的模式挖掘。此外,總效用的計算采用簡單求和方式,沒有考慮到效用的概率分布和波動等因素,偶然事件可能導致挖掘結(jié)果與實際模式的較大偏離。因此,根據(jù)行業(yè)實際需求修正現(xiàn)有的效用計算模型,包含不確定數(shù)據(jù)和多數(shù)據(jù)流處理等,有著重要的現(xiàn)實意義。此亦為本課題的研究動機之一。附:參考文獻:1 R. Agrawal, T. Imielinski and A. Swami. Mining association rules between sets of items in large databases. 1993 AC
30、M SIGMOD International Conference on Management of Data. 1993. Washington, DC, United States.2 J. Han, J. Pei and Y. Yin. Mining frequent patterns without candidate generation. ACM SIGMOD International Conference on Management of Data. 2000. Dallas, TX, United States.3 J. Pei, et al. H-mine: Hyper-s
31、tructure mining of frequent patterns in large databases. IEEE International Conference on Data Mining (ICDM 2001). 2001. San Jose, CA, United States.4 C. Chui, B. Kao and E. Hung. Mining frequent itemsets from uncertain data. 11th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD
32、 2007). 2007. Nanjing, China.5 C.K. Leung, C.L. Carmichael and B. Hao. Efficient mining of frequent patterns from uncertain data. IEEE International Conference on Data Mining Workshops (ICDM Workshops 2007). 2007. Omaha, NE, United States.6 C.C. Aggarwal, et al. Frequent pattern mining with uncertai
33、n data. 15th ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining (KDD 2009). 2009. Paris, France.7 L. Wang, et al. Efficient Mining of Frequent Itemsets on Large Uncertain Databases. IEEE Transactions on Knowledge and Data Engineering, 2012. 24(12): pp. 2170-2183.8 X. Sun, L. L
34、im and S. Wang. An approximation algorithm of mining frequent itemsets from uncertain dataset. International Journal of Advancements in Computing Technology, 2012. 4(3): pp. 42-49.9 C.W. Lin and T.P. Hong. A new mining approach for uncertain databases using CUFP trees. Expert Systems with Applicatio
35、ns, 2012. 39(4): pp. 4084 4093.10 L. Wang, L. Feng and M. Wu. AT-Mine: An Efficient Algorithm of Frequent Itemset Mining on Uncertain Dataset. Journal of Computers, 2013. 8(6): pp. 1417-1426.11 R. Rawat and N. Jain. A Survey on Frequent ItemSet Mining Over Data Stream. International Journal of Elect
36、ronics Communication and Computer Engineering (IJECCE), 2013. 4(1): pp. 86-87.12 C.K. Leung and B. Hao. Mining of frequent itemsets from streams of uncertain data. International Conference on13 C. Giannella, et al. Mining frequent patterns in data streams at multiple time granularities. Next generat
37、ion data mining, 2003. 2003(212): pp. 191-212.14 C.K. Leung and F. Jiang. Frequent itemset mining of uncertain data streams using the damped window model. 26th Annual ACM Symposium on Applied Computing (SAC 2011). 2011. TaiChung, Taiwan.15 C.K. Leung and F. Jiang. Frequent pattern mining from time-f
38、ading streams of uncertain data. 13th International Conference on Data Warehousing and Knowledge Discovery (DaWaK 2011). 2011. Toulouse, France.16 L. Wang, L. Feng and M. Wu. UDS-FIM: An efficient algorithm of frequent itemsets mining over uncertain transaction data streams. Journal of Software, 201
39、4. 9(1): pp. 44-56.17 H. Yao, H.J. Hamilton and G.J. Butz. A foundational approach to mining itemset utilities from databases. 4th SIAM International Conference on Data Mining (ICDM 2004). 2004. Lake Buena Vista, FL, United States.18 Y. Liu, W.K. Liao and A. Choudhary. A two-phase algorithm for fast
40、 discovery of high utility itemsets. 9th Pacific-Asia conference on Advances in Knowledge Discovery and Data Mining. 2005. Hanoi, Viet nam.19 H. Yao and H.J. Hamilton. Mining itemset utilities from transaction databases. Data and Knowledge Engineering, 2006. 59(3): pp. 603-626.20 Y.C. Li, J.S. Yeh a
41、nd C.C. Chang. Isolated items discarding strategy for discovering high utility itemsets. Dataand Knowledge Engineering, 2008. 64(1): pp. 198-217.21 C.F. Ahmed, et al. Efficient Tree Structures for High Utility Pattern Mining in Incremental Databases. IEEE Transactions on Knowledge and Data Engineeri
42、ng, 2009. 21(12): pp. 1708-1721.22 V.S. Tseng, et al. UP-Growth: An efficient algorithm for high utility itemset mining. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2010). 2010. Washington, DC, United States.23 C.W. Lin, T.P. Hong and W.H. Lu. An effective tree st
43、ructure for mining high utility itemsets. Expert Systemswith Applications, 2011. 38(6): pp. 7419-7424.24 M. Liu and J. Qu. Mining high utility itemsets without candidate generation. 21st ACM International Conference on Information and Knowledge Management (CIKM 2012). 2012. Maui, HI, United States.2
44、5 J. Liu, K. Wang and B. Fung. Direct Discovery of High Utility Itemsets without Candidate Generation. 12th IEEE International Conference on Data Mining (ICDM 2012). 2012.26 V.S. Tseng, et al. Efficient Algorithms for Mining High Utility Itemsets from Transactional Databases. IEEE Transactions on Kn
45、owledge and Data Engineering, 2013. 25(8): pp. 1772-86.27 A. Erwin, R.P. Gopalan and N.R. Achuthan. CTU-mine: An efficient high utility itemset mining algorithm usingthe pattern growth approach. 7th IEEE International Conference on Computer and Information Technology. 2007.28 V.S. Tseng, C. Chu and
46、T. Liang. Efficient mining of temporal high utility itemsets from data streams. 2nd International Workshop on Utility-Based Data Mining. 2006.29H. Li, et al. Fast and memory efficient mining of high utility itemsets in data streams. 8th IEEE InternationalConference on Data Mining (ICDM 2008 ). 2008.
47、30C.F. Ahmed, S.K. Tanbeer and B. Jeong, Efficient mining of high utility patterns over data streams with a slidingwindow method, in Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing2010. 2010, Springer Berlin Heidelberg. pp. 99-113.31 L. Feng, L. Wang and
48、B. Jin. UT-Tree: Efficient mining of high utility itemsets from data streams. Intelligent Data Analysis (SCI&EI ), 2013. 17(4): pp. 585-602.2主要研究內(nèi)容、目標、方案和進度及擬解決的關鍵問題:研究內(nèi)容:本課題的核心, 在于 多重不確定數(shù)據(jù)流上模式挖掘的模型和算法的研究。 根據(jù)已有的研究基礎,本著循序漸進的原則,擬定的研究內(nèi)容分3 個部分:(1)多重不確定數(shù)據(jù)流上的頻繁模式挖掘:建立多重不確定數(shù)據(jù)流上跨流、跨事務的“頻繁模式”的概念模型和挖掘模型,并設計挖掘
49、算法。(2)多重數(shù)據(jù)流上的高效用模式的挖掘:建立多重數(shù)據(jù)流上跨流、跨事務的“高效用模式”的概念模型和挖掘模型,并設計挖掘算法。(3)多重不確定數(shù)據(jù)流上的高效用頻繁模式的挖掘:融合上述兩個概念模型,建立多重不確定數(shù)據(jù)流上跨流、跨事務的“高效用頻繁模式”的概念模型和挖掘模型,并設計挖掘算法?,F(xiàn)將以上 3 方面的內(nèi)容詳述如下。(1) 多重不確定數(shù)據(jù)流上的頻繁模式挖掘多重不確定數(shù)據(jù)流上的頻繁模式,由模式的“期望支持數(shù)”描述(這一點與已有的不確定數(shù)據(jù)流頻繁模式概念相同) ;它和已有概念的區(qū)別在于:此概念模型處理的是多個異構(gòu)數(shù)據(jù)流,其挖掘出的頻繁模式,包括“跨事務頻繁模式(來源自多個不同時間上、不同事務中的組合模式) ”和“跨數(shù)據(jù)流頻繁模式”兩種擴展類型的頻繁模式。此項內(nèi)容研究在給定的期望支持數(shù)下,應用窗口技術,挖掘最小閾值下的頻繁模式和 top-k 頻繁模式的算法,并分析算法效率隨窗口寬度、模式長度、期望支持數(shù)大小等的關系。該項研究的創(chuàng)新之處, 在于將模式在時間上的關聯(lián)關系、 以及不同流內(nèi)模式間關
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年版房屋買賣合同:購房者與開發(fā)商之間的購房權(quán)益、交付時間等詳細約定
- 2024年標準油漆施工合作合同版B版
- 2024年科研成果保密合同
- 正裝復合模裝課程設計
- 2024年漳州衛(wèi)生職業(yè)學院單招職業(yè)適應性測試題庫帶答案
- 完善財務報告的透明度要求計劃
- 商城服務員工作總結(jié)
- 安防行業(yè)顧問工作總結(jié)
- 分析倉庫工作中的服務意識計劃
- 2025年中考英語一輪復習之主謂一致
- 氮氣緩沖罐安全操作規(guī)程
- 金工釩鈦科技有限公司-年處理600萬噸低品位釩鈦磁鐵礦選礦項目可行性研究報告
- ncv65系列安裝金盤5發(fā)版說明
- 國能神皖安慶發(fā)電有限責任公司廠內(nèi)108MW-108MWh儲能項目環(huán)境影響報告表
- 鐵路試驗檢測技術
- 2023-2024人教版小學2二年級數(shù)學下冊(全冊)教案【新教材】
- 小學奧數(shù)基礎教程(附練習題和答案)
- 九年級語文上學期教學工作總結(jié)
- TWSJD 002-2019 醫(yī)用清洗劑衛(wèi)生要求
- GB/T 7324-2010通用鋰基潤滑脂
- 杭州地鐵一號線工程某盾構(gòu)區(qū)間實施施工組織設計
評論
0/150
提交評論