OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文_第1頁(yè)
OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文_第2頁(yè)
OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文_第3頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的經(jīng)過(guò)。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)歷法則)和形式識(shí)別等眾多方法來(lái)實(shí)現(xiàn)上述目的。下面是學(xué)習(xí)啦我今天為大家精心準(zhǔn)備的:OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建相關(guān)論文。內(nèi)容僅供瀏覽與參考!OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建全文如下:1OLAM模型本文提出的OLAM模型對(duì)OLAP中數(shù)據(jù)立方體和星型形式的概念分別進(jìn)行了拓展,涵蓋問(wèn)題的整個(gè)搜索空間,能夠比擬全面地反映多維數(shù)據(jù)挖掘的本質(zhì).下面描繪相應(yīng)的理論方法、基本權(quán)標(biāo)和數(shù)據(jù)構(gòu)造.1.1從數(shù)據(jù)立方體到影響域本文在OLAM模型中引進(jìn)基本權(quán)標(biāo):影響域(influencedomain).影響域與多維空間的數(shù)據(jù)立方體在邏輯上是等價(jià)的.但立方體上計(jì)算的是聚合(aggregation),而影響域上計(jì)算的是蘊(yùn)涵(implication),即數(shù)據(jù)中隱藏的形式.影響域同立方體一樣具有屬性和值,不同點(diǎn)在于它具有置信度(confidence).立方體將維映射至度量,而影響域?qū)⒕S和度量映射至置信而影響域?qū)⒍?一個(gè)影響域可視為一個(gè)函數(shù),其映射關(guān)系從維和度量映射至一置信度級(jí)別.影響域可視為是廣義概念上的數(shù)據(jù)立方體空間,由于影響域的大小通常比數(shù)據(jù)立方體要大得多,OLAM分析經(jīng)常在更細(xì)的粒度上分析更多的維,或?qū)Χ鄠€(gè)特性之間的關(guān)系進(jìn)行探索.由于每次重新計(jì)算的代價(jià)太昂貴,所以需要在比星型形式存儲(chǔ)有更多的聚合的形式上進(jìn)行,即采用下一節(jié)所提出的旋轉(zhuǎn)形式.為了遍歷整個(gè)影響域,需要將OLAP運(yùn)算與影響性分析穿插.能夠看出,影響域的操作可在多維和多層次的抽象空間中進(jìn)行,有利于靈敏地挖掘知識(shí).而文獻(xiàn)〔3,4,5〕的操作是基于數(shù)據(jù)立方體的多維數(shù)據(jù)挖掘,包含在基于影響域的操作之內(nèi),是其中的特例.影響域概念可用面向?qū)ο蟮乃枷朊枥L,這樣有助于生成一個(gè)較好的構(gòu)造化的框架.影響域包含六個(gè)主要特性:(1)基本維(類);(2)屬性;(3)對(duì)象或?qū)嵗?(4)層次;(5)度量;(6)蘊(yùn)涵.其中,基本維是一種高層次的類型劃分,如產(chǎn)品、客戶等.每個(gè)類/維具有一屬性集合,如產(chǎn)品維具有屬性價(jià)格、顏色等.每個(gè)類/維有對(duì)象或要素作為實(shí)例,對(duì)象的每個(gè)屬性具有一個(gè)值.在類和屬性內(nèi)存在層次,例如,對(duì)類來(lái)講,商標(biāo)類是產(chǎn)品的父類;對(duì)屬性來(lái)講,屬性集合地區(qū),城市,省}是一個(gè)層次.度量是在維構(gòu)成的空間上的計(jì)算.蘊(yùn)涵是在維和度量構(gòu)成的立方體空間上的計(jì)算.1.2從星型形式到旋轉(zhuǎn)形式從面向?qū)ο蟮慕嵌葋?lái)看,數(shù)據(jù)立方體與影響域的特性不盡一樣,包含基本維(類)、屬性、對(duì)象或?qū)嵗哟我约岸攘窟@五個(gè)特性,OLAP的星型形式通常直接映射在該對(duì)象構(gòu)造中.星型形式每個(gè)維表都可看成一個(gè)對(duì)象,對(duì)象的屬性代表在維表中的列,度量在各個(gè)維構(gòu)成的空間上進(jìn)行計(jì)算.圖1給出一個(gè)星型形式的例子,包含四個(gè)基本維:商店維、客戶維、產(chǎn)品維和定貨維,中央的事實(shí)表中存有度量和各個(gè)基本維的碼值.星型形式是用來(lái)處理聚合運(yùn)算的,該形式能很好地用于OLAP,但它本身不帶數(shù)據(jù)挖掘功能,不能用于OLAM,因而需要將星型形式作相應(yīng)擴(kuò)展.在對(duì)影響域進(jìn)行分析的經(jīng)過(guò)中,通常將分析焦點(diǎn)聚焦在星型形式中的維表上(如產(chǎn)品或商店,如圖1所示).由于在分析中要用附加的聚合或選擇的數(shù)據(jù)項(xiàng)以豐富維表內(nèi)容,因而對(duì)于每個(gè)庫(kù)表來(lái)講,需要比星型形式存儲(chǔ)更多的數(shù)據(jù).分析的焦點(diǎn)在各個(gè)維表之間不斷轉(zhuǎn)換,例如從客戶維轉(zhuǎn)換至商店維再到產(chǎn)品維等等,能夠看作是焦點(diǎn)在繞著星型形式旋轉(zhuǎn),因而,本文引入旋轉(zhuǎn)形式的概念,將OLAM的分析構(gòu)造命名為旋轉(zhuǎn)形式.圖2顯示出與圖1中星型形式所對(duì)應(yīng)的旋轉(zhuǎn)形式的例子.旋轉(zhuǎn)形式的中心存儲(chǔ)的是影響域的蘊(yùn)涵,外圍是各個(gè)維表的碼值以及聚焦度量和其它度量,四周呈輻射狀的是各個(gè)維表.在執(zhí)行影響域分析時(shí),焦點(diǎn)沿著不同的基本維(或類)旋轉(zhuǎn),在維和度量構(gòu)成的廣義數(shù)據(jù)立方體空間上執(zhí)行蘊(yùn)涵運(yùn)算對(duì)應(yīng)于圖1的旋轉(zhuǎn)形式的例子如圖3所示,旋轉(zhuǎn)形式中的庫(kù)表具有五個(gè)主要部分:(1)中的庫(kù)表具有五個(gè)主要部分聚焦維;(2)聚焦度量;(3)內(nèi)部屬性;(4)外部屬性;(5)非聚焦度量.聚焦維代表當(dāng)前分析焦點(diǎn)所在的基本維,如圖2所示的客戶維;聚焦度量代表用戶關(guān)心的度量,如利潤(rùn);內(nèi)部屬性是聚焦維中的屬性,如客戶年齡等;外部屬性是非聚焦維中的屬性,如某客戶最喜歡的產(chǎn)品顏色等;非聚焦度量是用于輔助決策的度量,如某客戶平均一次購(gòu)買的商品的數(shù)目.由此能夠看出影響域中的存儲(chǔ)形式與OLAP是不同的.2實(shí)現(xiàn)OLAM機(jī)制的討論OLAM機(jī)制具有交互的特性,而且求蘊(yùn)涵函數(shù)的計(jì)算代價(jià)比擬昂貴,因而在大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中實(shí)現(xiàn)OLAM機(jī)制的關(guān)鍵是解決快速響應(yīng)和有效實(shí)現(xiàn)的問(wèn)題.必須考慮如下因素:2.1快速響應(yīng)和高性能挖掘OLAM若想獲得快速響應(yīng)和高的性能,會(huì)比OLAP困難,由于數(shù)據(jù)挖掘的計(jì)算代價(jià)通常比OLAP昂貴.快速響應(yīng)對(duì)于交互式挖掘是致關(guān)重要的,有時(shí)為了得到快速響應(yīng)甚至能夠犧牲精度,由于交互式挖掘能一步步引導(dǎo)挖掘者聚焦在搜索空間并查找越來(lái)越多重要的形式.一旦用戶能限定小的搜索空間,就可調(diào)用更高級(jí)的而速度較慢的挖掘算法進(jìn)行細(xì)致分析.可考慮采用逐步精化數(shù)據(jù)挖掘質(zhì)量的OLAM方法:首先在大數(shù)據(jù)集上用快速挖掘算法標(biāo)識(shí)出感興趣的形式/區(qū)域,然后用代價(jià)較高但較準(zhǔn)確的算法進(jìn)行具體分析.2.2基于數(shù)據(jù)立方體的挖掘方法基于數(shù)據(jù)立方體的挖掘方法應(yīng)該是OLAM機(jī)制的核心.基于立方體的數(shù)據(jù)挖掘已經(jīng)有很多研究,包括概念描繪、分類、關(guān)聯(lián)、預(yù)測(cè)、聚類等.基于立方體的挖掘繼承了關(guān)系型或事務(wù)型數(shù)據(jù)挖掘方法的思想,并具有很多特性.在基于立方體的有效挖掘算法領(lǐng)域需要更多的研究.高性能數(shù)據(jù)立方體技術(shù)對(duì)OLAM很重要.由于一個(gè)挖掘系統(tǒng)需要計(jì)算大量維之間的關(guān)系或具體細(xì)節(jié),這樣的數(shù)據(jù)不可能都預(yù)先實(shí)體化,有必要聯(lián)機(jī)動(dòng)態(tài)計(jì)算數(shù)據(jù)立方體的一部分.另外,多特性數(shù)據(jù)立方體的有效計(jì)算,以及支持具有復(fù)雜維和度量的非傳統(tǒng)的數(shù)據(jù)立方體,對(duì)有效地?cái)?shù)據(jù)挖掘都很重要.因而,需進(jìn)一步開(kāi)發(fā)數(shù)據(jù)立方體技術(shù).2.3選擇或添加數(shù)據(jù)挖掘算法關(guān)系型查詢處理能用不同的處理途徑對(duì)同一查詢生成一樣的答案,但是采用不同的數(shù)據(jù)挖掘算法可能會(huì)生成顯著不同的挖掘結(jié)果.因而,提供多種可選的數(shù)據(jù)挖掘算法很重要.另外,用戶也許想本人開(kāi)發(fā)一個(gè)算法,假如提供標(biāo)準(zhǔn)開(kāi)放的API,而且OLAM系統(tǒng)經(jīng)過(guò)很好地模塊化,用戶就有可能增加或修改數(shù)據(jù)挖掘算法.用戶定義的數(shù)據(jù)挖掘算法能夠較好地利用一些開(kāi)發(fā)良好的系統(tǒng)構(gòu)件以及知識(shí)可視化工具,并與已有的數(shù)據(jù)挖掘功能合成.因存在有多個(gè)數(shù)據(jù)挖掘功能,怎樣在某一詳細(xì)應(yīng)用中選定適宜的數(shù)據(jù)挖掘功能是一個(gè)問(wèn)題,必須熟悉應(yīng)用問(wèn)題、數(shù)據(jù)特征以及數(shù)據(jù)挖掘功能的作用,有時(shí)需要執(zhí)行交互探索式分析來(lái)選擇適宜的功能.因而,建造探索式分析工具以及構(gòu)建面向應(yīng)用的語(yǔ)義層是兩個(gè)重要的解決方案.OLAM提供探索式分析工具,進(jìn)一步的研究應(yīng)該放在為詳細(xì)應(yīng)用自動(dòng)選擇數(shù)據(jù)挖掘功能上.2.4在多個(gè)數(shù)據(jù)挖掘功能之間交互OLAM的優(yōu)勢(shì)不僅僅在于選擇一系列的數(shù)據(jù)挖掘功能,也在于在多個(gè)數(shù)據(jù)挖掘和OLAP功能之間交互.例如首先切割立方體的一部分,基于一指定的類屬性將該部分分類并查找關(guān)聯(lián)規(guī)則,然后下挖在更細(xì)2.5可視化工具為了有效地顯示OLAP挖掘結(jié)果并與挖掘處理交互,開(kāi)發(fā)多種知識(shí)和數(shù)據(jù)可視化工具很重要.圖表、曲線、決策樹(shù)、規(guī)則圖、立方體視圖、boxplot圖等是描繪數(shù)據(jù)挖掘結(jié)果的有效工具,幫助用戶監(jiān)測(cè)數(shù)據(jù)挖掘的經(jīng)過(guò)并與挖掘經(jīng)過(guò)交互.2.6可擴(kuò)展性O(shè)LAM系統(tǒng)與用戶及知識(shí)可視化軟件包在頂端通訊,與數(shù)據(jù)立方體在底端通訊.它應(yīng)該高度模塊化,并具有可擴(kuò)展性,由于它可能會(huì)與多個(gè)子系統(tǒng)合成并以多種方式擴(kuò)展.應(yīng)該擴(kuò)展OLAP挖掘技術(shù)至高級(jí)的和/或特殊用處的數(shù)據(jù)庫(kù)系統(tǒng),包括擴(kuò)展的關(guān)系型、面向?qū)ο蟮摹⑽谋?、空間、時(shí)間、多媒體和異種數(shù)據(jù)庫(kù)以及Internet信息系統(tǒng).對(duì)復(fù)雜類型的數(shù)據(jù),包括構(gòu)造化、半構(gòu)造化和非構(gòu)造化數(shù)據(jù)的OLAP挖掘也是一重要的研究方向.2.7做書(shū)簽和回溯技術(shù)OLAM借助于數(shù)據(jù)立方體導(dǎo)航,提供應(yīng)用戶充分的自由,運(yùn)用任一數(shù)據(jù)挖掘算法序列來(lái)探索和發(fā)現(xiàn)知識(shí).當(dāng)從一個(gè)數(shù)據(jù)挖掘狀態(tài)轉(zhuǎn)換至另一狀態(tài)時(shí)經(jīng)??捎泻芏囗?xiàng)選擇擇.可做個(gè)書(shū)簽,假如發(fā)現(xiàn)一個(gè)途徑無(wú)意義,就回到原先的狀態(tài)并探索其它的方法.這種做標(biāo)記和回溯機(jī)制防止用戶迷失在OLAM空間中.3結(jié)論利用OLAM模型沿著多個(gè)維進(jìn)行挖掘,觀察沿著這些維的形式,進(jìn)行合并,并以智能的方式與用戶進(jìn)行交互,能夠在多維數(shù)據(jù)庫(kù)的不同的部位和不同的抽象級(jí)別交互地執(zhí)行挖掘.它有如下優(yōu)點(diǎn):(1)便于交互式探索性的數(shù)據(jù)分析.有效的數(shù)據(jù)挖掘需要探索性的數(shù)據(jù)分析功能〔6〕.用戶常希望靈敏地遍歷數(shù)據(jù)庫(kù),選擇任一部分的相關(guān)數(shù)據(jù),在不同的抽象級(jí)別上分析,并以不同的形式表示知識(shí)/結(jié)果.OLAM便于對(duì)不同的數(shù)據(jù)子集在不同抽象級(jí)別上進(jìn)行數(shù)據(jù)挖掘,這連同數(shù)據(jù)/知識(shí)可視化工具將大大加強(qiáng)探索性數(shù)據(jù)挖掘的能力和靈敏性.(2)聯(lián)機(jī)選擇數(shù)據(jù)挖掘功能.事先預(yù)測(cè)挖掘何種類型的知識(shí)是困難的,對(duì)于用戶來(lái)講,經(jīng)常不知道想挖掘什么樣的知識(shí).通過(guò)OLAM模型將OLAP與多個(gè)數(shù)據(jù)挖掘功能結(jié)合,用戶能夠靈敏選擇所需的數(shù)據(jù)挖掘功能,并動(dòng)態(tài)交換數(shù)據(jù)挖掘任務(wù).本文所提出的OLAM模型的理論方法、基本權(quán)標(biāo)和數(shù)據(jù)構(gòu)造將數(shù)據(jù)挖掘和OLAP技術(shù)結(jié)合在一個(gè)統(tǒng)一的框架之中,大大加強(qiáng)了決策分析的功能和靈敏性.該模型有助于在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中交互式地挖掘多層次的知識(shí),是一個(gè)很有前景的方向.參考文獻(xiàn):1E.F.Codd,S.B.Codd,C.T.Salley.Beyonddecisionsupport.〔J〕Computerworld,27(30),July19932UsamaMFayyad,51lunwen/database/GregoryPiatetsky-Shapiroetal.Advancesinknowledgediscoveryanddatamining.〔M〕California:AAAI/MITPress,19963J.W.Han.Towardson-lineanalyticalmininginlargedatabases.〔R〕ACMSIGMODRecord,1998.27:97~1074J.W.Han,S.Chee,andJ.Y.Chiang.Issuesforon-lineanalyticalminingofdatawarehouses.〔C〕Proc.of1998SIGMOD96WorkshoponResearchIssuesonDataMiningandKnowledgeDiscovery(DMKD98),Seattle,Washington,June19985J.W.Han.OLAPMining:AnIntegrationofOLAP

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論