基于云計算的Web數(shù)據(jù)挖掘(免積分_第1頁
基于云計算的Web數(shù)據(jù)挖掘(免積分_第2頁
基于云計算的Web數(shù)據(jù)挖掘(免積分_第3頁
基于云計算的Web數(shù)據(jù)挖掘(免積分_第4頁
基于云計算的Web數(shù)據(jù)挖掘(免積分_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第38卷第1OA期2011年l0月計算機科學Computer ScienceVo138 No10A0ct 2011基于云計算的Web數(shù)據(jù)挖掘程苗(中國科學技術(shù)大學管理學院 合肥)摘要因特網(wǎng)是一個巨大的、分布廣泛的信息服務(wù)中心,其上產(chǎn)生的海量數(shù)據(jù)通常是地理上分布、異構(gòu)、動態(tài)的,復雜性也越來越高,若用已有的集中式數(shù)據(jù)挖掘方法則不能滿足應用的要求。為了解決這些問題,提出了一種基于云計算的web數(shù)據(jù)挖掘方法:將海量數(shù)據(jù)和挖掘任務(wù)分解到多臺服務(wù)器上并行處理。采用Hadoop開源平臺,建立一個基于Apriori算法的并行關(guān)聯(lián)規(guī)則挖掘算法來驗證了該系統(tǒng)的高效性。還提出“計算向存儲遷移”的設(shè)計思想,將計算在數(shù)

2、據(jù)存儲節(jié)點就地執(zhí)行,從而避免了大量數(shù)據(jù)在網(wǎng)絡(luò)上的傳遞,不會占用大量帶寬。關(guān)鍵詞云計算,數(shù)據(jù)挖掘,MapReduce,關(guān)聯(lián)規(guī)則W eb Data M ining Based on Cloud-computingCHENG M iao(School of Management,University of Science and Technology of China,Hefei ,China)Abstract Internet is a huge and widely distributed information service center,the vast amounts of data g

3、enerated on theInternet are usually geographically distributed,heterogeneous,dynamic and become more complex,it carl not meet therequirements if we use the existing centralized data mining methodsTo solve these problems,proposed a cloud computing-based Web data ning method,the massive data and minin

4、g tasks will be decomposed on multiple computers parallelyprocessedW e use open platform Hadoop tO establish a parallel association rules mining algorithm based onApriori,and it tests an d veriftes the efficiency of systemThis paper propo sed a design thinking that“migrate the calculation to the sto

5、re”,the calculation will be implemented on the local storage nodes,thus it can avoid the large amount ofdata transmission on the network,and wi11 not take a lot of bandwidtbKeywords Cloud-computing,Data mining,MapReduce,Association rules1 概述隨著Internet技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)呈指數(shù)形式飛速增長,如何在這個全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息成為數(shù)

6、據(jù)挖掘研究的熱點。Web數(shù)據(jù)挖掘是建立在對web上海量數(shù)據(jù)分析的基礎(chǔ)上,利用數(shù)據(jù)挖掘算法有效地收集、選擇和存儲所感興趣的信息以及在日益增多的信息中發(fā)現(xiàn)新的概念和它們之間的關(guān)系,實現(xiàn)信息處理的自動化。這對企業(yè)獲取有用可靠的外界信息,商業(yè)運作過程中收集、分析數(shù)據(jù)從而做出正確決策有著十分重要的意義。Web數(shù)據(jù)挖掘主要是以網(wǎng)絡(luò)日志為研究對象,利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)用戶行為的潛在規(guī)律。目前,基于網(wǎng)絡(luò)日志的用戶行為模式研究已在網(wǎng)絡(luò)安全、電子商務(wù)、遠程教育等多個領(lǐng)域得到了廣泛的應用,是當前的熱點研究之一。網(wǎng)絡(luò)日志文件中的數(shù)據(jù)主要包括URL請求、頁面間鏈接的拓撲結(jié)構(gòu)、注冊用戶特征等。采用關(guān)聯(lián)規(guī)則分析,可獲取用戶

7、頁面訪問行為間的關(guān)系;采用聚類分析,可將特征相似的用戶或頁面歸并分組;采用分類分析,可對用戶行為特征進行歸類識別;采用頻繁序列模式分析,可獲取用戶訪問習慣。這些常用數(shù)據(jù)挖掘方法獲取的用戶行為模式,解決了頁面自動導航、頁面重要性評價以及改進網(wǎng)站設(shè)計、提高網(wǎng)站運營效益等問題。由于因特網(wǎng)本身所具有的分布廣泛、用戶眾多等特性,也使得其上所產(chǎn)生的數(shù)據(jù)是海量的、地理上分布的、異構(gòu)的、動態(tài)的,這給現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)帶來了難題:處理這些數(shù)據(jù)的復雜度很高,系統(tǒng)的計算能力很難達到要求。目前,Web日志挖掘還有待研究的問題主要有兩個:一是如何整合與處理分布式的Web日志;二是如何開發(fā)出高性能、可伸縮的分布并行的挖掘

8、算法,保證挖掘的效率。為了解決高性能計算問題,國內(nèi)外學者提出了基于集群、基于Agem等的各種分布式并行數(shù)據(jù)挖掘平臺,提高了數(shù)據(jù)挖掘系統(tǒng)的處理能力,但實現(xiàn)卻相對復雜且只能針對特殊應用。之后,M Cannatard。等人基于Globus Toolkit設(shè)計了一種分布式并行知識發(fā)現(xiàn)平臺,該平臺利用Globus Toolkit所提供的網(wǎng)格計算能力,解決了傳統(tǒng)數(shù)據(jù)挖掘計算能力不足的問題。近幾年的研究8 集中在基于Globus Toolkit平臺并行數(shù)據(jù)挖掘算法的實現(xiàn)與改進方面。但網(wǎng)格計算缺少商業(yè)化實現(xiàn),且Globus Tolkit是基于中間件技術(shù),需要通過編程或安裝設(shè)置來搭建底層架構(gòu),增加了系統(tǒng)實現(xiàn)的難

9、度5。本文受博士點基金項目(2OO8O358O024),創(chuàng)新研究群體科學基金()資助。程苗(1986一),女,碩士生,主要研究方向為云計算、數(shù)據(jù)挖掘。 146 Web數(shù)據(jù)挖掘處理的是海量數(shù)據(jù),而且以指數(shù)級增長,同時所設(shè)計到的挖掘算法相當復雜,有的算法需要多次掃描數(shù)據(jù)庫,當數(shù)據(jù)量增加時會增加掃描的代價;有的算法需要存儲各序列的相關(guān)信息,當信息量很大時,會帶來存儲上的問題。因此,將云計算融入Web數(shù)據(jù)挖掘中將具有非常重要的現(xiàn)實意義,可以解決Internet上廣域分布的海量數(shù)據(jù)挖掘問題。2 MapReduce編程模式MapReduce是一個用以進行大數(shù)據(jù)量計算的編程模型,同時也是一種高效的任務(wù)調(diào)度模

10、型,它將一個任務(wù)分成很多更細粒度的子任務(wù),這些子任務(wù)能夠在空閑的處理節(jié)點之間調(diào)度,使得處理速度越快的節(jié)點處理越多的任務(wù),從而避免處理速度慢的節(jié)點延長整個任務(wù)的完成時間。它將大型分布式計算表達為一個對數(shù)據(jù)鍵值對集合進行串行化分布式操作,包括Map(映射)和Reduce(化簡)兩個階段。Ma p是一個分的過程,用于將輸人數(shù)據(jù)結(jié)合拆分為大量的數(shù)據(jù)片段,并將每一個數(shù)據(jù)片段分配給一個計算機處理,達到分布式運算的效果,而Reduce則把分開的數(shù)據(jù)合到了一起,最后將匯總結(jié)果輸出。MapReduce的執(zhí)行由兩種不同類型的節(jié)點負責,Master和Worker。Worker負責數(shù)據(jù)處理,Master負責任務(wù)調(diào)度及

11、不同節(jié)點之間的數(shù)據(jù)共享。執(zhí)行一個MapReduce操作需要5個步驟:輸入文件、將文件分割并分配給多個WO1-ker并行執(zhí)行、本地寫中間文件、合并中間文件、輸出最終結(jié)果。具體流程如下】 : Ma pReduce庫將輸入文件分成16到64MB的M份,并在集群的不同機器上執(zhí)行程序的備份。 Ma ster節(jié)點的程序負責找出空閑的worker節(jié)點并為它們分配子任務(wù)(M 個Ma p子任務(wù)和R個Reduce子任務(wù))。被分配到Ma p子任務(wù)的Worker節(jié)點讀入已經(jīng)分割好的文件作為輸入,經(jīng)過處理后生成keyvalue對,并調(diào)用用戶編寫的Ma p函數(shù),Map函數(shù)的中間結(jié)果緩存在內(nèi)存種并周期性地寫入本地磁盤。這些

12、中間數(shù)據(jù)通過分區(qū)函數(shù)分成R個區(qū),并且將它們在本地磁盤的位置信息發(fā)送給Ma ster,然后再由Ma ster將位置信息發(fā)送給執(zhí)行Reduce子任務(wù)的節(jié)點。執(zhí)行Reduce子任務(wù)的節(jié)點從Ma ster獲取子任務(wù)后,根據(jù)位置信息調(diào)用map工作節(jié)點所在的本地磁盤上的中間數(shù)據(jù),并利用中間數(shù)據(jù)的key值進行排序,將具有相同鍵的對合并。執(zhí)行Reduce子任務(wù)的節(jié)點遍歷所有排序后的中間數(shù)據(jù),并傳遞給用戶定義的reduce函數(shù)。Reduce函數(shù)的結(jié)果將被輸出到一個最終的輸出文件。當所有的map子任務(wù)和reduce子任務(wù)完成時,Master節(jié)點將R份Reduce結(jié)果返回給用戶程序,用戶程序?qū)⑦@些數(shù)據(jù)合并得到最終結(jié)

13、果。3 基于云計算的Web數(shù)據(jù)挖掘系統(tǒng)設(shè)計與實現(xiàn)31 概述基于云計算的Web數(shù)據(jù)挖掘系統(tǒng)是在Internet上廣域分布的海量數(shù)據(jù)和計算資源的環(huán)境中發(fā)現(xiàn)數(shù)據(jù)模式和獲取新的知識和規(guī)律?;谠朴嬎愕膚eb數(shù)據(jù)挖掘同傳統(tǒng)web數(shù)據(jù)挖掘的基本過程一致,分為數(shù)據(jù)預處理、數(shù)據(jù)挖掘、模式評價3個階段,只是在數(shù)據(jù)的處理方式上有所不同,其區(qū)別有:借助Hadoop的MapReduce思想,1)在收集數(shù)據(jù)時,一改傳統(tǒng)將所有數(shù)據(jù)、文件統(tǒng)一存儲在數(shù)據(jù)倉庫中的做法,將Web上廣域分布的海量數(shù)據(jù)經(jīng)過過濾、清洗、轉(zhuǎn)換和合并,并轉(zhuǎn)化為半結(jié)構(gòu)化的XML文件后,保存到分布式文件系統(tǒng)中。同一文件都會復制副本并將其保存在不同的存儲節(jié)點上

14、,這樣不僅可以解決傳統(tǒng)Web數(shù)據(jù)挖掘中普遍存在的存儲容量擴展和Io操作問題,還可以有效地避免因機器故障而帶來的數(shù)據(jù)丟失問題。2)在執(zhí)行某一具體挖掘任務(wù)時,由任務(wù)主節(jié)點(Ma ster)負責整個的控制工作,創(chuàng)建子節(jié)點的從屬任務(wù),然后交由web上空閑的計算資源(ServieeNode)去處理,Service-Node將狀態(tài)和完成的信息向Master匯報。最后再由Master負責將所有結(jié)果進行合并。32 計算與存儲整合在Internet中,網(wǎng)絡(luò)帶寬是相對稀缺的資源。Ma pReduce的Map在各節(jié)點進行操作,處理過程中一般沒有數(shù)據(jù)的傳輸工作,只是在Reduce過程中需要向Master傳送計算結(jié)果,

15、對于Web數(shù)據(jù)挖掘這種數(shù)據(jù)密集型的計算任務(wù),這種方法節(jié)省了大量的數(shù)據(jù)傳輸時間。由于網(wǎng)絡(luò)傳輸速度遠小于CPU計算速度,因此有人提出了以計算來換通信的編程策略??梢酝ㄟ^讓輸入數(shù)據(jù)保存在構(gòu)成集群機器的本地磁盤上的方式來減少網(wǎng)絡(luò)帶寬的開銷。我們可以將數(shù)據(jù)文件分成64M大小的塊,在不同的機器上保存塊的拷貝。由Ma ster保存這些塊的位置信息,并在保存相應輸人數(shù)據(jù)塊的設(shè)備上執(zhí)行Ma p任務(wù)。這種方法使得大部分輸入數(shù)據(jù)都是在本地機器讀取的,并不占用網(wǎng)絡(luò)帶寬。33 數(shù)據(jù)文件的備份在設(shè)計云計算系統(tǒng)時,不但要考慮計算與存儲的整合,還必須在節(jié)點失效時考慮計算和存儲的遷移。一般的云計算系統(tǒng)(Hadoop)實現(xiàn)存儲的

16、遷移,但對計算和存儲同時遷移則做得不好,實現(xiàn)計算遷移的基礎(chǔ)是數(shù)據(jù)塊必須采用副本策略,這樣計算遷移時才能重新找到所要處理的數(shù)據(jù)。一般來看信息通過網(wǎng)絡(luò)進行遷移是比較慢的,而計算的遷移可以由系統(tǒng)很快完成,在有副本策略的系統(tǒng)中,只需要找到副本所在地,將計算遷移過去就完成了存儲和計算的遷移工作,所以效率非常高。34 系統(tǒng)架構(gòu)在本文設(shè)計的基于云計算的web數(shù)據(jù)挖掘系統(tǒng)(見圖1)中,節(jié)點分為3類。一類是主控節(jié)點(Master),在云中,Master只有一個,負責調(diào)度與協(xié)調(diào)計算節(jié)點之間的工作進程;一類節(jié)點是算法存儲節(jié)點,負責存儲數(shù)據(jù)挖掘所需的算法;還有一類節(jié)點是服務(wù)節(jié)點(ServiceNode),負責存儲分好

17、塊的XML文件以及執(zhí)行由Master分配的任務(wù),并把計算結(jié)果返回給Ma ster。相應地,基于云計算的Web數(shù)據(jù)挖掘系統(tǒng)分為3層:數(shù)據(jù)存儲層、挖掘算法層和業(yè)務(wù)處理層。 47 I 客戶端一一一一一一一一一一一 燕 客佳壹L L傳輸元數(shù)據(jù),包括調(diào)用的算法以壓=i匿愿螳毯量所在位置l Master l一一一申請需數(shù)所據(jù) _J一 l所逗在避位熬握置 一一一一一一一一一=:1算法庫l l NameNode將_調(diào)用的算法傳輸至原始數(shù)據(jù)所在的子節(jié)點子節(jié)點的元數(shù)據(jù)如子節(jié)點IP地址是否空闈等ServicsNode l l ServiceNode l l ServiceNode結(jié)是返回到主控節(jié)點進行匯總圖1 基于

18、云計算的Web數(shù)據(jù)挖掘系統(tǒng)架構(gòu)341 數(shù)據(jù)存儲層該層應具備的如下功能:能夠?qū)eb上收集到的文件,如Web日志文件等自動解析成半結(jié)構(gòu)化XML文件,并裝入分布式存儲系統(tǒng)中;能夠自動復制XML文件,復制的XML文件被隨機地存儲在一個DataNode上,防止因某個DataNode癱瘓而帶來的數(shù)據(jù)丟失問題; 能夠長期存儲包含用戶使用信息、用戶基本信息的文件;提供大量分布式數(shù)據(jù)集的訪問接口;分布式文件系統(tǒng)中有新的DataNode加入或有舊的DataNode刪除時,能夠自動更新。分布式文件系統(tǒng)負責XML文件的存儲和讀取,它由一個主節(jié)點(NameNode)和多個子節(jié)點(DataNode)構(gòu)成。在實際中,單個

19、存儲節(jié)點失效的情況是經(jīng)常存在的,在系統(tǒng)設(shè)計時必須將不可信節(jié)點的失效屏蔽在系統(tǒng)之內(nèi),因此該文件系統(tǒng)使用副本復制存儲策略來實現(xiàn)文件系統(tǒng)的高可靠性。本文將每個XML復制一個,分別存儲在2個DataNode上。如圖2所示,NameNode存儲著每一個XML文件的元數(shù)據(jù),這些元數(shù)據(jù)包括XML文件的II)地址等,通過該節(jié)點可以對存儲在系統(tǒng)分布式文件系統(tǒng)的XML文件進行訪問和處理。NameNode還負責管理文件的存儲等服務(wù),但實際的數(shù)據(jù)并不存放在NameNode上。DataNode用于實際數(shù)據(jù)的存放,對DataNode上數(shù)據(jù)的訪問并不通過NameNode,而是與用戶直接建立數(shù)據(jù)通信。DataNode每隔一段

20、時間向NameNode發(fā)送一個信號,以證明該DataNode工作正常,沒有出現(xiàn)故障。如果NameNode沒有收到該信號,則表示DataNode出現(xiàn)故障,Nam eNode則將保存在其他節(jié)點上的副本復制到另一個DataNode上,始終保持系統(tǒng)中每個XML文件都有2個,從而保證了系統(tǒng)的高可靠性。 148 圖2 文件存儲系統(tǒng)的結(jié)構(gòu)用戶保存XML文件的操作過程如下:首先向Nam eNode提交保存請求,Nam eNode將XML文件分割為多個大小為64M 的子文件,并查詢元數(shù)據(jù)表找到空閑的DataNode,然后將存儲數(shù)據(jù)的DataNode的IP地址返回給用戶,并通知其它接收副本的DataNode,同時

21、將文件的元數(shù)據(jù)(分成幾個子文件、每個子文件存儲在哪個DataNode上)寫入元數(shù)據(jù)表中。用戶根據(jù)結(jié)果直接與相應的DataNode建立連接,將子文件寫入DataNode中。342 挖掘算法層該層(算法庫)存儲了用于數(shù)據(jù)挖掘的各種算法,這些算法都是基于傳統(tǒng)挖掘算法改進后的適用于云計算平臺的并行數(shù)據(jù)挖掘算法。在實際調(diào)用時,該節(jié)點首先從Master獲取元數(shù)據(jù)(調(diào)用何種算法,執(zhí)行該算法的節(jié)點的所在位置),然后將相應算法傳輸?shù)皆紨?shù)據(jù)所在的節(jié)點上。本文實現(xiàn)的并行關(guān)聯(lián)規(guī)則挖掘算法是基于Apriori算法改進的。343 業(yè)務(wù)處理層分布式數(shù)據(jù)挖掘子系統(tǒng)設(shè)計的核心是任務(wù)調(diào)度,所有挖掘器統(tǒng)一由Master負責調(diào)度,

22、執(zhí)行流程如下:ServiceNode每隔一段時間向Master發(fā)送一個信號,以證明該ServiceNode工作正常。Master將該ServiceNode放入空閑節(jié)點列表。Master接收用戶的業(yè)務(wù)申請,獲得各數(shù)據(jù)塊的存儲信息以及所需調(diào)用的挖掘算法,然后向挖掘算法存儲節(jié)點申請所需挖掘算法,算法節(jié)點直接將算法發(fā)送到原始數(shù)據(jù)所在的ServiceNode節(jié)點上,計算任務(wù)立即在文件存儲服務(wù)器就地啟動計算工作,完成后只向Master傳送相關(guān)結(jié)果,并不向M_aster傳送文件數(shù)據(jù)塊,Master匯總后生成最終的結(jié)果返回給用戶。這一過程中沒有了文件的傳送和重組過程,計算和存儲都在一個節(jié)點上面,節(jié)省了數(shù)據(jù)傳輸

23、的時間。35 基于云計算的Web數(shù)據(jù)挖掘算法用于數(shù)據(jù)挖掘的算法種類繁多,例如關(guān)聯(lián)規(guī)則、聚類、分類等,其中關(guān)聯(lián)規(guī)則挖掘在Web日志分析、個性化信息推薦等諸多方面發(fā)揮著重要的作用,普遍應用于Web數(shù)據(jù)挖掘領(lǐng)域。關(guān)聯(lián)規(guī)則挖掘分兩步進行,第一步是找出所有的頻繁項集;第二步是在頻繁項集的基礎(chǔ)上產(chǎn)生關(guān)聯(lián)規(guī)則。為了找出所有的頻繁項集,目前普遍采用迭代的方法,即:首先找出頻繁1一項集L ,接著找出頻繁2項集_Lz,一直到某個五使得L 為空,最終算法結(jié)束。當求 時,首先通過 一 的自連接生成候選項集 ,然后檢查G 的每一個元素,滿足用戶自定義的最小支持度閾值的元素就是工吐的元素 顯然,在web這個廣域數(shù)據(jù)源上驗

24、證 的元素是算法的一個瓶頸,會產(chǎn)生大量的候選項集合和重復掃描數(shù)據(jù)庫。本文提出的基于云計算平臺的Apriori算法將以上兩項工作分配給“云”中多個計算節(jié)點ServiceNode并行處理,即各個計算節(jié)點ServieeNode分別求出各自局部頻繁項集,再由Master統(tǒng)計出各頻繁項集的全局支持合計數(shù),并最終確定全局頻繁項集,這可以大大提高Apriori算法的挖掘效率。本文實現(xiàn)的Web并行數(shù)據(jù)挖掘算法是在傳統(tǒng)Apriori算法上改進的,挖掘過程如下:用戶通過Web瀏覽器提出數(shù)據(jù)挖掘服務(wù)請求,指定關(guān)聯(lián)規(guī)則的最小支持度和最小置信度。 Master接收到挖掘請求后,向NameNode申請所需的XML數(shù)據(jù)文件

25、,同時訪問空閑節(jié)點列表,將ServiceNode的元數(shù)據(jù)(機器名、IP地址是否空閑)返回到Master。Master將元數(shù)據(jù)發(fā)送給算法存儲節(jié)點,算法存儲節(jié)點將Apriori算法發(fā)送到原始數(shù)據(jù)所在節(jié)點。各ServiceNode首先掃描本地數(shù)據(jù)庫,統(tǒng)計庫中事務(wù)的個數(shù)、每個項的出現(xiàn)次數(shù),然后根據(jù)挖掘流程和Apriori算法,得到局部的候選1一項集,再把統(tǒng)計結(jié)果和局部候選1一項集發(fā)送到Master計算得出全局1一項集,然后再把全局頻繁1一項集發(fā)送到各個ServiceNode生成更精確的局部頻繁1一項集,再由局部1一項集得出局部候選2一項集,掃描本地數(shù)據(jù)庫中的事務(wù),統(tǒng)計每個項的出現(xiàn)次數(shù),把新的局部候選2

26、一項集和統(tǒng)計結(jié)果發(fā)往Master如此重復,直到生成符合用戶定義的滿足最小支持度的頻繁項集,最后根據(jù)置信度閾值生成規(guī)則。Ma ster將得到的關(guān)聯(lián)規(guī)則返回給用戶。36 算法結(jié)果該系統(tǒng)由7臺服務(wù)器(均安裝Linux以及Hadoop云計算系統(tǒng))組成,其中1臺作為客戶端和主控節(jié)點,1臺作為算法存儲節(jié)點,5臺作為服務(wù)節(jié)點ServieeNode。在并行執(zhí)行過程中,時間消耗主要在各節(jié)點之間建立連接以及數(shù)據(jù)的傳輸。首先,將所有數(shù)據(jù)放在主節(jié)點上直接調(diào)用Aprior算法,計算出執(zhí)行時間;然后將數(shù)據(jù)集分割成5個子文件分別保存在5個ServieeNode上,將Aprior算法從算法存儲節(jié)點上并行傳到1、3、5個Ser

27、vieeNode上執(zhí)行,計算出時間;最后將Aprior算法分別拷貝到5個ServiceNode上,將數(shù)據(jù)文件傳輸?shù)?、3、5個ServiceNode上執(zhí)行,計算出時間。通過3個實驗對比,可以發(fā)現(xiàn)執(zhí)行效率隨著數(shù)據(jù)量的增明顯得到提高。同時,隨著數(shù)據(jù)量的增加,向存儲節(jié)點傳輸算法的時間也明顯少于向算法節(jié)點傳輸數(shù)據(jù)。本文基于云計算平臺改進的Aproior算法,由于其對各個節(jié)點頻繁項集的篩選都是在全局端進行的,因此既不會流失有效的關(guān)聯(lián)規(guī)則,也不會產(chǎn)生無效的關(guān)聯(lián)規(guī)則7。結(jié)束語傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)運行于UNIX小型機的集中平臺上,這在海量數(shù)據(jù)以及應用愈加復雜的Web挖掘中受到很多限制。與傳統(tǒng)Web數(shù)據(jù)挖掘相比,基

28、于云計算的Web數(shù)據(jù)挖掘系統(tǒng)通過“云”中多個資源完成原先由一個節(jié)點承擔的挖掘工作,使資源得到了充分利用,提高了數(shù)據(jù)挖掘過程的效率?;谠朴嬎愕臄?shù)據(jù)挖掘工作意義重大,它不僅能夠提高挖掘效率,還克服了網(wǎng)格環(huán)境的弊端,能夠面向商業(yè)應用,更具有價值。參考文獻11 李健,徐超,譚守標一種weh數(shù)據(jù)挖掘系統(tǒng)的設(shè)計和研究I-J計算機技術(shù)與發(fā)展,2009,19(2)E2 張濤Web數(shù)據(jù)挖掘現(xiàn)狀分析J-1科學之友,2009,6(17)E3 潘正高Web數(shù)據(jù)挖掘技術(shù)綜述EJ電腦知識與技術(shù),2009,5(15)E4 席景科,闖大順Web數(shù)據(jù)挖掘中數(shù)據(jù)集成問題的研究EJ計算機工程與設(shè)計,2006,8(27)E5 紀俊

29、一種基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計與實現(xiàn)ED青島:青島大學,20096 鄭晶基于網(wǎng)格的并行數(shù)據(jù)挖掘算法的實現(xiàn)EJ福建工程學院學報,2010,2(8)7 齊玉成,鄭麗英,高三營基于網(wǎng)格的數(shù)據(jù)挖掘算法J電腦知識與技術(shù)8 Cannataro M,Talia D,Trunfio P KNOWLEDGE GRID:HighPerformance Knowledge Discovery on the GridcLectureNotes In Computer Science,Vo12242,Proceedings of the SecondInternational W orkshop on Grid

30、Co mputing2001:38509 Ye Yan-bin,Chiang C-CA Parallel Apriori Algorithm for FrequentItem sets MiningCff Proceedings of the Fourth IntemationalCo nference on Software Engineering Research Management and Applications(SERA06)2006:87-941O Armbrust M,F(xiàn)ox A,Griffith R,et a1Above the Clouds:ABerkeley View of Cloud Co mputingEl1萬至臻基于Map

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論