




免費預覽已結(jié)束,剩余1頁可下載查看
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘工具隨著計算機技術和信息技術的發(fā)展,信息的增長速度呈現(xiàn)指數(shù)上升,最近幾十年產(chǎn)生了很多超大型數(shù)據(jù)庫,遍及超級市場銷售、銀行存款、天文學、行政辦公、科學研究、信息量的急劇增長,使傳統(tǒng)分析方法遠遠不能滿足現(xiàn)實的需求。面對海量數(shù)據(jù),如何從中發(fā)現(xiàn)有價值的信息或知識,成為一項非常艱巨的任務。人們急切的需要一種去粗存精、去偽存真的技術,能夠從海量的數(shù)據(jù)中提取知識和信息的數(shù)據(jù)挖掘技術應運而生。 數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這些數(shù)據(jù)可以是結(jié)構(gòu)化的,如關系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本,圖形,圖像數(shù)據(jù),甚至是分布在網(wǎng)絡上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的,可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以進行數(shù)據(jù)自身的維護。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計技術和人工智能以及知識工程等領域的研究成果構(gòu)建自己的理論體系,是一個交叉學科領域,可以集成數(shù)據(jù)數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等技術。數(shù)據(jù)挖掘的常用工具數(shù)據(jù)挖掘工具的市場一般分為三個組成部分:通用型工具、綜合DSSOLAP數(shù)據(jù)挖掘工具和快速發(fā)展的面向特定應用的工具。通用型工具占有最大和最成熟的那部分市場。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型,其中包括的主要工具有IBM 公司Almaden 研究中心開發(fā)的QUEST 系統(tǒng),SGI 公司開發(fā)的MineSet 系統(tǒng),加拿大Simon Fraser 大學開發(fā)的DBMiner 系統(tǒng)、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等軟件。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應用來選擇。綜合數(shù)據(jù)挖掘工具這一部分市場反映了商業(yè)對具有多功能的決策支持工具的真實和迫切的需求。商業(yè)要求該工具能提供管理報告、在線分析處理和普通結(jié)構(gòu)中的數(shù)據(jù)挖掘能力。這些綜合工具包括Cognos Scenario和Business Objects等。 面向特定應用工具這一部分工具正在快速發(fā)展,在這一領域的廠商設法通過提供商業(yè)方案而不是尋求方案的一種技術來區(qū)分自己和別的領域的廠商。這些工具是縱向的、貫穿這一領域的方方面面,其常用工具有重點應用在零售業(yè)的KD1、主要應用在保險業(yè)的OptionChoices和針對欺詐行為探查開發(fā)的HNC軟件。下面簡單介紹幾種常用的數(shù)據(jù)挖掘工具:1. QUESTQUEST 是IBM 公司Almaden 研究中心開發(fā)的一個多任務數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應用開發(fā)提供高效的數(shù)據(jù)開采基本構(gòu)件。系統(tǒng)具有如下特點:1、提供了專門在大型數(shù)據(jù)庫上進行各種開采的功能:關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時間序列聚類、決策樹分類、遞增式主動開采等。2、各種開采算法具有近似線性(O(n))計算復雜度,可適用于任意大小的數(shù)據(jù)庫。3、算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。4、為各種發(fā)現(xiàn)功能設計了相應的并行算法。2. MineSetMineSet 是由SGI 公司和美國Standford 大學聯(lián)合開發(fā)的多任務數(shù)據(jù)挖掘系統(tǒng)。MineSet 集成多種數(shù)據(jù)挖掘算法和可視化工具,幫助用戶直觀地、實時地發(fā)掘、理解大量數(shù)據(jù)背后的知識。MineSet 2.6 有如下特點:1、MineSet 以先進的可視化顯示方法聞名于世。MineSet 2.6 中使用了6 種可視化工具來表現(xiàn)數(shù)據(jù)和知識。對同一個挖掘結(jié)果可以用不同的可視化工具以各種形式表示,用戶也可以按照個人的喜好調(diào)整最終效果, 以便更好地理解。MineSet 2.6 中的可視化工具有Splat Visualize、Scatter Visualize、Map Visualize、Tree Visualize、Record Viewer、Statistics Visualize、Cluster Visualizer,其中Record Viewer 是二維表,Statistics Visualize 是二維統(tǒng)計圖,其余都是三維圖形,用戶可以任意放大、旋轉(zhuǎn)、移動圖形,從不同的角度觀看。2、提供多種數(shù)據(jù)挖掘模式。包括分類器、回歸模式、關聯(lián)規(guī)則、聚類歸、判斷列重要度。3、支持多種關系數(shù)據(jù)庫??梢灾苯訌腛racle、Informix、Sybase 的表讀取數(shù)據(jù),也可以通過SQL 命令執(zhí)行查詢。4、多種數(shù)據(jù)轉(zhuǎn)換功能。在進行挖掘前,MineSet 可以去除不必要的數(shù)據(jù)項,統(tǒng)計、集合、分組數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)類型,構(gòu)造表達式由已有數(shù)據(jù)項生成新的數(shù)據(jù)項,對數(shù)據(jù)采樣等。5、操作簡單。6、支持國際字符。7、可以直接發(fā)布到Web。3. DBMinerDBMiner 是加拿大Simon Fraser 大學開發(fā)的一個多任務數(shù)據(jù)挖掘系統(tǒng),它的前身是DBLearn。該系統(tǒng)設計的目的是把關系數(shù)據(jù)庫和數(shù)據(jù)開采集成在一起,以面向?qū)傩缘亩嗉壐拍顬榛A發(fā)現(xiàn)各種知識。DBMiner 系統(tǒng)具有如下特色:1、能完成多種知識的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關聯(lián)規(guī)則、分類規(guī)則、演化知識、偏離知識等。2、綜合了多種數(shù)據(jù)開采技術:面向?qū)傩缘臍w納、統(tǒng)計分析、逐級深化發(fā)現(xiàn)多級規(guī)則、元規(guī)則引導發(fā)現(xiàn)等方法。3、提出了一種交互式的類SQL 語言數(shù)據(jù)開采查詢語言DMQL。4、能與關系數(shù)據(jù)庫平滑集成。5、實現(xiàn)了基于客戶/ 服務器體系結(jié)構(gòu)的Unix 和PC(Windows/NT)版本的系統(tǒng)。4、IBM Intelligent MinerIBM公司以它在美國及世界各地的研究實驗室發(fā)展數(shù)年的資料探勘解決方案,發(fā)展出了一系列包括在人工智能、機制學習、語言分析及知識發(fā)掘上的應用和基本研究的精密軟件。IBM的Intelligent Miner在資料探勘工具的領導地位上是極具競爭力的,因為它提供了以下的好處: 包含了最廣泛的資料探勘技術及算法 ,可容納相當大的資料量的能力且有強大的計算能力;事實上,這套產(chǎn)品在IBM SP的大量平行硬件系統(tǒng)上執(zhí)行效率最好,這套產(chǎn)品也可以在IBM或非IBM平臺上執(zhí)行 豐富的APIs可用來發(fā)展自定的資料探勘應用軟件; 所有資料探勘引擎和資料操作函式可以透過C+函式庫來存取 Intelligent Miner支持classification、prediction、association rules generation、clustering、sequential pattern detection和time series analysis算法,Intelligent Miner藉由利用精密的資料可視化技術及強大的Java-based使用者接口來增加它的可用性(目標大多鎖定在有經(jīng)驗的使用者),Intelligent Miner支持DB2關系型數(shù)據(jù)庫管理系統(tǒng),并整合大量精密的資料操作函式結(jié)論整體而言,Intelligent Miner(for Data)是市場上最大容量及功能強大的工具,在顧客評定報告中它的整體效能是最好的,有所算法的效能甚至比其它應用不同的應用軟件還要好,IBM將它定位在企業(yè)資料探勘解決方案的先鋒。 5、SAS Enterprise MinerSAS Enterprise Miner在資料探勘工具市場是非常杰出的工具,它運用了SAS統(tǒng)計模塊的力量和影響力,且它增加了一系列的資料探勘算法,SAS使用它的取樣、探測、修改、模式、評價(SEMMA)方法提供可以支持廣泛的模式,包含合并、叢集、決策樹、類神精網(wǎng)絡、和統(tǒng)計回歸 SASEnterpriseMiner適用于初學者及專業(yè)使用者,它的GUI接口是以資料流為導向,且它容易了解及使用,它允計分析師藉由使用連結(jié)連接資料節(jié)點及程序節(jié)點的方式建構(gòu)一視覺數(shù)據(jù)流程圖,除此之外,接口還允許程序碼直接嵌入資料流因為支持多重模式。Enterprise Miner允許使用者比較models和利用評估節(jié)點所選擇之最適模式,除此之外,Enterprise Miner提供產(chǎn)生評定模式之評定節(jié)點能夠存取任何SAS應用軟件結(jié)論SAS利用它在統(tǒng)計分析軟件上的專業(yè)來發(fā)展全功能、易于使用、可靠且可管理的系統(tǒng),有大范圍的模式選項和算法、設計良好的使用者接口、利用已存在的資料儲存能力,和在統(tǒng)計分析上相當大的市場占有率(允許公司取得SAS新增的組件比增加一套新的工作來得好多了),對SAS來說,它在資料探勘市場上終究還是領導者整體而言,這個工具適用于企業(yè)在資料探勘的發(fā)展及整個CRM的決策支持應用.6、Oracle DarwinDarwin常被認為是最早資料探勘工具之一,可見它的知名度,最近,Oracle從Thinking Machines公司取得Darwin來加強它的產(chǎn)品系列?S別是CRM方面,資料探勘可以扮演一個重要的角色,以下將討論由Thinking Machines公司發(fā)展和行銷的Darwin之特色(Oracle也許決定改變?nèi)魏谓M件及工具架構(gòu)) Darwin資料探勘工具組是一個復雜的產(chǎn)品,包含了三個資料探勘工具:neural networks、decision tree、和K-nearest neighbor,Darwin neural network tool (Darwin-Net)提供廣泛的model建立工具組,它可以處理明確和連續(xù)預測因素和目標變量且可以用于分類、預測及預測問題決策樹工具(DarwinTree)使用CART算法,且可以用于以明確和連續(xù)變量來分類問題解決,K-nearest neighbor工具(DarwinMatch)可用于以明確相依變量,和明確且連續(xù)預測變量來分類問題解決雖然每個組件工具有一些缺點,Darwin包含了模式評價的完全功能組,它可對所有模式型態(tài)產(chǎn)生summary statistics、confusion matrices、lift tablesDarwin提供初學者及專家相當好的使用者接口,雖然接口顯得較適合專業(yè)使用者從一個大量并行計算機的第一制造者可知,Darwin在處理效能及范圍有強大的優(yōu)勢,它的算法對并行計算是最適合的,且有足夠的彈性執(zhí)行平行及循序架構(gòu),Oracle當然不會忽視這種能力,且它定位在幫助Oracle成為可以包含到一個大型的全球企業(yè)的數(shù)據(jù)庫及應用產(chǎn)品的首要廠商主要使用的算法為neural network、decision tree、和K-nearest neighborneural network-training algorithms包含back propagation,steepest descent,modified Newton等方法decision tree使用CART algorithms可選擇所需的子樹數(shù)目自動的修改決策樹K-nearest neighbor algorithm是memory-based reasoning(MBR)技術,它可依訓練組中K最接近的匹配記錄來預測相依變量值結(jié)論Darwin的優(yōu)點是支持多重算法(計畫加入基因算法及人工智能邏輯)它可在多種主從式架構(gòu)上執(zhí)行,服務器端可以是單處理器、同步多處理器或大量平行處理器,在多處理器服務器上,Darwin可以取得硬件及大范圍能力的優(yōu)勢,Darwin證明了強大的效能及大范圍的能力,整體而言,Darwin定位在中、大范圍的執(zhí)行.7、Clementine(SPSS)Clementine是SPSS所發(fā)行的一種資料探勘工具,此工具結(jié)合了多種圖形使用者接口的分析技術,包含neural networks、association rules、及rule-induction techniques,這些工具提供容易使用的可視化程序環(huán)境來執(zhí)行這些分析功能。Clementine使用圖形象征的方法,就是透過托拉鼠標和連接屏幕上的功能節(jié)點,這些節(jié)點提供了data access、data manipulation、data visualization、machine learning以及model analysis,模式的組成是從一個pallet中選取合適之節(jié)點,并放置在屏幕上再連接各節(jié)點Clementine有強大的資料存取能力包含flat file及關系型數(shù)據(jù)庫(經(jīng)由ODBC),Clementine也可讓modeling的結(jié)果持續(xù)的寫回一ODBC的DBMS輸入資料的操作包含配對合并及衍生新字段的能力,Clementine的資料可視化能力包含散布圖、平面圖及Web分析. 8、Thought and Scenario(Cognos)Cognos介紹兩個資料探勘工具的組合:4Thought和Scenario來鞏固它在OLAP市場的位置,這些工具藉由利用neural networks和CHAID技術提供資料探勘能力,一般而言,Cognos所有平臺和特殊用途的窗口環(huán)境都支持這些工具,這兩個工具都需要電子表格、數(shù)據(jù)庫和ASCII文字文件作為資料來源 4Thought可以處理在尋求價格最佳化、需求預測及效能預測及衡量等各種商業(yè)問題,4Thought使用multilayer perceptron OLAP、neural network技術,適用于分析問題,處理non-linear forms、noisy datal及small data sets,4Thought提供了兩個主要的分析:time series analysis及customer profiling,time series analysis尋找周期性的行為趨勢,而customer profiling處理人口統(tǒng)計資料,例如,預測一顧客是否會購買一特定的產(chǎn)品Scenario是設計用來分類及結(jié)合問題;它可以找出一資料組中變量間的關系,Scenario使用Chi-squared Automatic Interaction Detection(CHAID),且可以產(chǎn)生多種對預測變量劃分的方法,Scenario提供不同的分析策略、自動取樣及決策樹的產(chǎn)生,然而,Scenario并不是用來處理分類的目標變量,Scenario在資料探測及可視化是十分強大的Scenario及4Thought的共同優(yōu)點是他們廣泛且直覺的使用者接口,他們的目標鎖定在初學者,它使用繪圖表示univariable analysis或decision tree metaphor,且提供一良好的視覺表達方式來表現(xiàn)在區(qū)域間的資料變量,趨勢分析及相關因素,Scenario有一template可分析從競爭及每季獲利信息Cognos表示它將以它的PowerPlay(OLAP)及Impromptu(reporting)應用軟件整合4Thought及Scenario.9、Database Mining Workstation(HNC)HNC是最成功的資料探勘公司之一,它的Database Mining Workstation(DMW)是一種廣為接受的信用卡詐騙分析應用的neural network tool,DMW由Windows-based software applications和custom processing board所組成,其它HNC產(chǎn)品包含F(xiàn)alcon和ProfitMax在財務服務及HNC打算要在通訊業(yè)中擴張的Advanced Telecommunications Abuse Control System (ATACS)詐騙偵測解決方案之應用 DMW neural network支持back propagation neural network且可以自動及手動的模式來作業(yè),它的模式可以使用廣泛的統(tǒng)計和計算預測變量和對一相依變量的敏感度之相關性的功能來解釋DMW提供大量的使用者定義選項允許在算法修改、資料準備、和操作函式上有很大的彈性,DMW有效的處理明確且連續(xù)的變量,并且可以用于預測、分類、及預測問題,DMW提供初學者及有經(jīng)驗使用者包含進階調(diào)整選項及描述能力之接口,DMW也提供可用于直銷活動的商業(yè)templateDMW在產(chǎn)生精確及有效預測模式上是十分優(yōu)異的,它的處理效能及范圍足以支持主要的信用卡處理需求結(jié)論DMW是強大、成熟的產(chǎn)品,且市場接受度非常好,它的詐騙偵測分類應用可用于實時分析信用卡交易,這是它在范圍及效能上最好的證明.10、Decision Series(NeoVista)NeoVista解決方案的Decision Series是廣泛使用的資料探勘工作,這間公司是由大量平行硬件廠商MasPar公司所發(fā)展出來的,類似于Darwin,這就具有了強大的理解及可調(diào)整范圍之執(zhí)行方式,高效能資料探勘解決方案 Decision Series是一提供整合可描述及預測分析算法的data mining及knowledge environment,算法在執(zhí)行由使用者自定的各種控件是非常有效率的,分析能力包含clustering、association rules,neural networks、及decision tree,Decision Series以資料存取及資料轉(zhuǎn)換引擎完全的整合這些算法,因為公司的背景,它可以在公司所宣稱達到近線性范圍能力的SMP系統(tǒng)中高度的調(diào)整并行操作,工具的范圍能力可在零售業(yè)的存貨管理中的調(diào)度得到證明,Decision Series可用于每周零售商分析銷售點資料,資料可表示大約70GB從使用能力的觀點來看,Decision Series定位在有經(jīng)驗的老手所使用的工具,NeoVista發(fā)展易于使用的GUI接口,且提供專家顧問服務(稱之為Knowledge Discovery Engineers,或KDE),它們常working on-site部分的prototype或pilot project工具的軟件架構(gòu)是由幾個組件和以對象導向設計所組成的,資料探勘引擎建立在資料存取及資料轉(zhuǎn)換層的頂端,也提供了另一引擎稱為DecisionAccess,資料探勘引擎繼承DecisionAccess特性且因此可以容易的連結(jié)在一起結(jié)論Decision Series是一強大的產(chǎn)品,它在架構(gòu)及資料探勘算法上是十分優(yōu)異的,且可以調(diào)整范圍和采取平行硬件架構(gòu)的優(yōu)點,在使用者評估上,它在確定的問題類別時,在范圍能力、預測精確及處理時間上執(zhí)行得非常好,整體而言,Decision Series定位于大范圍分析的執(zhí)行.11、KnowledgeSEEKER and Knowledge Studio(Angoss)Angoss Software所開發(fā)的KnowledgeSEEKER(KS)是一套決策樹資料探勘工具,它使用CART及CHAID為決策樹的算法用以找出資料組中預測因素和相依變量間的關系,就其本身而論,KS可以明確且連續(xù)的相依變量用來分類問題這套工具的主要定位在于資料探測能力,它的使用者接口提供決策樹模式的圖形表示,使用者可以選擇每一個分枝及指定預測變量群,在自動方式下,所有產(chǎn)生的分枝也是可用的,KS提供專業(yè)使用者大量的調(diào)整能力,包含修改算法或限制樹的成長,KS包含它的統(tǒng)計推論引擎的AIP可以用C產(chǎn)生模式和匯入它們的結(jié)果到外部應用程序結(jié)論KnowledgeSEEKER是在目標行銷上可調(diào)整顧客范圍大小之一套成熟的軟件,在顧客的評比中,它的效能和精確度都是適當?shù)臑榱司S持產(chǎn)品的氣勢,Angoss在1998年5月擴充KnowledgeSEEKER成大型分析架構(gòu),稱為Knowledge Studio,它整合了各廠商的資料探勘組件成為共同的環(huán)境,藉由提供決策樹、類神精網(wǎng)絡、網(wǎng)頁接口及Java的可移植性,Angoss計畫將Knowledge Studio定位成資料倉儲發(fā)展的關鍵組件,Knowledge Studio也利用Windows的興起,推出了SDK,SDK使用ActiveX技術幫助其將產(chǎn)品嵌入垂直應用軟件,Angoss已經(jīng)和數(shù)家廠商發(fā)展高度的合作,包含Cognos、MCI/SHL、AT&T及Tandem.12、Model 1 and Pattern Recognition Workbench(Unica)最近在資料探勘市場的調(diào)查,Unica估計在IBM及Information Discovery之后有大約9%的市場占有率,這顯示出Unica已整合了Model 1(原來是Group 1)和它自己的Pattern Recognition Workbench(PRW) PRW是一般的資料探勘工具,因此Model 1對Unica而言是垂直應用軟件,而且它在公司中似乎是成長的產(chǎn)品線,Mod
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 移動互聯(lián)網(wǎng)時代的技術變革試題及答案
- 探秘軟件設計師考試試題及答案攻略
- 統(tǒng)計學的應用實例研究試題及答案
- 投資決策風險題及答案
- 網(wǎng)絡管理與用戶體驗試題及答案
- 軟件設計師考試反饋與調(diào)整試題及答案
- 法學概論學生交流平臺搭建試題及答案
- 信息系統(tǒng)架構(gòu)的優(yōu)化與合理化建議試題及答案
- 行政管理試題設計與答案分析
- 2025年軟考設計師的核心試題及答案
- 學院“十五五”大學文化建設規(guī)劃
- GB/T 45545-2025廚房家具配合尺寸
- 安全生產(chǎn)管理和培訓制度
- 2025山東濟南先行投資集團有限責任公司及權屬公司社會招聘169人筆試參考題庫附帶答案詳解
- 八年級心理健康微課件
- 建設工程消防驗收課件
- 《大眾敏捷制造》課件
- 采礦機器人技術發(fā)展-全面剖析
- 地質(zhì)勘查合同補充協(xié)議
- 某橋梁工程專項施工方案
- 信息技術服務質(zhì)量承諾及保障措施
評論
0/150
提交評論