數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)_第1頁(yè)
數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)_第2頁(yè)
數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)_第3頁(yè)
數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)_第4頁(yè)
數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)摘要:從數(shù)據(jù)挖掘的定義出發(fā),介紹了數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡(luò)法、決策樹(shù)法、遺傳算法、粗糙集法、模糊集法和關(guān)聯(lián)規(guī)則法等概念及其各自的優(yōu)缺點(diǎn);詳細(xì)總結(jié)了國(guó)內(nèi)外數(shù)據(jù)挖掘的研究現(xiàn)狀及研究熱點(diǎn),指出了數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。關(guān)鍵詞:數(shù)據(jù)挖掘;挖掘算法;神經(jīng)網(wǎng)絡(luò);決策樹(shù);粗糙集;模糊集;研究現(xiàn)狀;發(fā)展趨勢(shì)Abstract:Fromthedefinitionofdatamining,thepaperintroducedconceptsandadvantagesanddisadvantagesofneuralnetworkalgorithmdecisiontreealgorithm,geneti

2、calgorithm,roughsetmethodfuzzysetmethodandassociationrulemethodofdataminingsummarizeddomesticandinternationalresearchsituationandfocusofdataminingindetailsandpointedoutthedevelopmenttrendofdatamining.Keywords:datamining,algorithmofdatamining,neuralnetwork,decisiontree,roughsetfuzzysetresearchsituati

3、ondevelopmenttendency1引言隨著信息技術(shù)的迅猛發(fā)展,許多行業(yè)如商業(yè)、企業(yè)、科研機(jī)構(gòu)和政府部門(mén)等都積累了海量的、不同形式存儲(chǔ)的數(shù)據(jù)資料1。這些海量數(shù)據(jù)中往往隱含著各種各樣有用的信息,僅僅依靠數(shù)據(jù)庫(kù)的查詢檢索機(jī)制和統(tǒng)計(jì)學(xué)方法很難獲得這些信息,迫切需要能自動(dòng)地、智能地將待處理的數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息,從而達(dá)到為決策服務(wù)的目的。在這種情況下,一個(gè)新的技術(shù)數(shù)據(jù)挖掘(DataMining,DM)技術(shù)應(yīng)運(yùn)而生2。數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,它融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、知識(shí)工程、信息檢索等最新技術(shù)的研究成果,其應(yīng)用非常廣泛。只要是有分析價(jià)值的數(shù)據(jù)庫(kù),都可以利用數(shù)據(jù)挖掘工具

4、來(lái)挖掘有用的信息。數(shù)據(jù)挖掘典型的應(yīng)用領(lǐng)域包括市場(chǎng)、工業(yè)生產(chǎn)、金融、醫(yī)學(xué)、科學(xué)研究、工程診斷等。本文主要介紹數(shù)據(jù)挖掘的主要算法及其各自的優(yōu)缺點(diǎn),并對(duì)國(guó)內(nèi)外的研究現(xiàn)狀及研究熱點(diǎn)進(jìn)行了詳細(xì)的總結(jié),最后指出其發(fā)展趨勢(shì)及問(wèn)題所在。江西理工大學(xué)數(shù)據(jù)挖掘就是從大量的、有噪聲的、不完全的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取有效的、新穎的、潛在有用的知識(shí)的非平凡過(guò)程3。數(shù)據(jù)挖掘過(guò)程如圖1所示。這些數(shù)據(jù)的類(lèi)型可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的、甚至是異構(gòu)型的。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的、非數(shù)學(xué)的、也可以是歸納的。最終被發(fā)現(xiàn)了的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等4。數(shù)據(jù)|數(shù)據(jù)|目標(biāo)數(shù)據(jù)預(yù)處理|預(yù)處理數(shù)

5、據(jù)選擇轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換模式|叫知識(shí)開(kāi)采評(píng)價(jià)4AA4A圖1數(shù)據(jù)挖掘過(guò)程目前,數(shù)據(jù)挖掘的算法主要包括神經(jīng)網(wǎng)絡(luò)法、決策樹(shù)法、遺傳算法、粗糙集法、模糊集法、關(guān)聯(lián)規(guī)則法等。2.1 神經(jīng)網(wǎng)絡(luò)法神經(jīng)網(wǎng)絡(luò)法是模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,是一種通過(guò)訓(xùn)練來(lái)學(xué)習(xí)的非線性預(yù)測(cè)模型,可完成分類(lèi)、聚類(lèi)、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法主要表現(xiàn)在權(quán)值的修改上。其優(yōu)點(diǎn)是具有抗干擾、非線性學(xué)習(xí)、聯(lián)想記憶功能,對(duì)復(fù)雜情況能得到精確的預(yù)測(cè)結(jié)果;缺點(diǎn)是不適合處理高維變量,不能觀察中間的學(xué)習(xí)過(guò)程,具有黑箱”性,輸出結(jié)果也難以解釋;其次是需較長(zhǎng)的學(xué)習(xí)時(shí)間。神經(jīng)網(wǎng)絡(luò)法主要應(yīng)用于數(shù)據(jù)挖據(jù)的聚類(lèi)技術(shù)中。2.2 決策樹(shù)法決策樹(shù)是通過(guò)

6、一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程,其表現(xiàn)形式是類(lèi)似于樹(shù)形結(jié)構(gòu)的流程圖。最典型的算法是J.R.QUINLAN于1986年提出的ID3算法5,之后在ID3算法的基礎(chǔ)上又提出了極其流行的C4.5算法6。采用決策樹(shù)法的優(yōu)點(diǎn)是決策制定的過(guò)程是可見(jiàn)的,不需要長(zhǎng)時(shí)間構(gòu)造過(guò)程、描述簡(jiǎn)單,易于理解,分類(lèi)速度快;缺點(diǎn)是很難基于多個(gè)變量組合發(fā)現(xiàn)規(guī)則。決策樹(shù)法擅長(zhǎng)處理非數(shù)值型數(shù)據(jù),而且特別適合大規(guī)模的數(shù)據(jù)處2.3 遺傳算法遺傳算法是一種采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來(lái)生成實(shí)現(xiàn)規(guī)則的、基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。它的基本觀點(diǎn)是適者生存”原理,具有隱含并行性、易于和其它模型結(jié)合等性質(zhì)主要的優(yōu)點(diǎn)是可以處理許多數(shù)據(jù)

7、類(lèi)型,同時(shí)可以并行處理各種數(shù)據(jù),對(duì)問(wèn)題的種類(lèi)有很強(qiáng)的魯棒性;缺點(diǎn)是需要的參數(shù)太多,編碼困難,一般計(jì)算量比較大。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),解決其它技術(shù)難以解決的問(wèn)題。2.4 粗糙集法粗糙集法也稱粗糙集理論,是一種新的處理含糊、不精確、不完備問(wèn)題的數(shù)學(xué)工具,可以處理數(shù)據(jù)約簡(jiǎn)、數(shù)據(jù)相關(guān)性發(fā)現(xiàn)、數(shù)據(jù)意義的評(píng)估等問(wèn)題。具優(yōu)點(diǎn)是算法簡(jiǎn)單,不需要關(guān)于數(shù)據(jù)的任何預(yù)備的或額外的信息;缺點(diǎn)是難以直接處理連續(xù)的屬性,須先進(jìn)行屬性的離散化。因此,連續(xù)屬性的離散化問(wèn)題是制約粗糙集理論實(shí)用化的難點(diǎn)7。粗糙集理論主要應(yīng)用于近似推理、數(shù)字邏輯分析和化簡(jiǎn)、建立預(yù)測(cè)模型等問(wèn)題。2.5 模糊集法模糊集法利用模糊集合理論對(duì)問(wèn)題進(jìn)

8、行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類(lèi)分析。模糊集合理論是用隸屬度來(lái)描述模糊事物的屬性7。系統(tǒng)的復(fù)雜性越高,模糊性就越強(qiáng)。2.6 關(guān)聯(lián)規(guī)則法關(guān)聯(lián)規(guī)則反應(yīng)了事物之間的相互依賴性或關(guān)聯(lián)性。其最著名的算法是R.AGRAWAL等人提出的Apriori算法。最小支持度和最小可信度是為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則給定的2個(gè)閾值。在這個(gè)意義上,數(shù)據(jù)挖掘的目的就是從源數(shù)據(jù)庫(kù)中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。3數(shù)據(jù)挖掘研究現(xiàn)狀3.1國(guó)外研究現(xiàn)狀知識(shí)發(fā)現(xiàn)網(wǎng)(KnowledgeDiscoveryinDatabasesKDD)與DM是數(shù)據(jù)庫(kù)領(lǐng)域中最重要的課題之一。KDD一詞是在1989年8月于美國(guó)底特律市

9、召開(kāi)的第十一屆國(guó)際人工智能會(huì)議上正式形成的。1995年在加拿大蒙特利爾召開(kāi)的首屆KDD&DataMining國(guó)際學(xué)術(shù)會(huì)議上,把數(shù)據(jù)挖掘技術(shù)分為科研領(lǐng)域的知識(shí)發(fā)現(xiàn)與工程領(lǐng)域的數(shù)據(jù)挖掘9。之后每年召開(kāi)一次這樣的會(huì)議,經(jīng)過(guò)十幾年的努力,數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)取得了豐碩的成果。目前,對(duì)KDD的研究主要圍繞理論、技術(shù)和應(yīng)用這三個(gè)方面展開(kāi)。多種理論與方法的合理整合是大多數(shù)研究者采用的有效技術(shù)。目前,國(guó)外數(shù)據(jù)挖掘的最新發(fā)展主要有對(duì)發(fā)現(xiàn)知識(shí)的方法的進(jìn)一步研究,如近年來(lái)注重對(duì)Bayes(貝葉斯)方法以及Boosting方法的研究和改進(jìn)提高;KDD與數(shù)據(jù)庫(kù)的緊密結(jié)合;傳統(tǒng)的統(tǒng)計(jì)學(xué)回歸方法在KDD中的應(yīng)用。

10、在應(yīng)用方面主要體現(xiàn)在KDD商業(yè)軟件工具從解決問(wèn)題的孤立過(guò)程轉(zhuǎn)向建立解決問(wèn)題的整體系統(tǒng),主要用戶有保險(xiǎn)公司、大型銀行和銷(xiāo)售業(yè)等。許多計(jì)算機(jī)公司和研究機(jī)構(gòu)都非常重視數(shù)據(jù)挖掘的開(kāi)發(fā)應(yīng)用,舊M和微軟都相繼成立了相應(yīng)的研究中心10o美國(guó)是全球數(shù)據(jù)挖掘研究最繁榮的地區(qū),并占據(jù)著研究的核心地位。由于數(shù)據(jù)挖掘軟件市場(chǎng)需求量的增大,包括國(guó)際知名公司在內(nèi)的很多軟件公司都紛紛加入到了數(shù)據(jù)挖掘工具研發(fā)的行列中來(lái),到目前已開(kāi)發(fā)了一系列技術(shù)成熟、應(yīng)用價(jià)值較高的數(shù)據(jù)挖掘軟件。以下為目前最主要的數(shù)據(jù)挖掘軟件:(1)KnowledgeStudio:由Angoss軟件公司開(kāi)發(fā)的能夠靈活地導(dǎo)入外部模型和產(chǎn)生規(guī)則的數(shù)據(jù)挖掘工具。最大

11、的優(yōu)點(diǎn):響應(yīng)速度快,且模型、文檔易于理解,SDK中容易加入新的算法。(2)IBMIntelligentMiner:該軟件能自動(dòng)實(shí)現(xiàn)數(shù)據(jù)選擇、轉(zhuǎn)換、發(fā)掘和結(jié)果呈現(xiàn)一整套數(shù)據(jù)挖掘操作;支持分類(lèi)、預(yù)測(cè)、關(guān)聯(lián)規(guī)則、聚類(lèi)等算法,并且具有強(qiáng)大的API函數(shù)庫(kù),可以創(chuàng)建定制的模型。(3)SPSSClementine:SPSS是世界上最早的統(tǒng)計(jì)分析軟件之一。Clementine是SPSS的數(shù)據(jù)挖掘應(yīng)用工具,它可以把直觀的用戶圖形界面與多種分析技術(shù)如神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則和規(guī)則歸納技術(shù)結(jié)合在一起。該軟件首次引入了數(shù)據(jù)挖掘流概念,用戶可以在同一3個(gè)工作流環(huán)境中清理數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)和構(gòu)建模型。(4)CognosScenar

12、io該軟件是基于樹(shù)的高度視圖化的數(shù)據(jù)挖掘工具,可以用最短的響應(yīng)時(shí)間得出最精確的結(jié)果。止匕外,還有由美國(guó)Insightful公司開(kāi)發(fā)的I-Miner、SGI公司和美國(guó)Standford大學(xué)聯(lián)合開(kāi)發(fā)的Minset、Unica公司開(kāi)發(fā)的AffiniumModel、加拿大SimonFraser大學(xué)開(kāi)發(fā)的DBMiner、HNC公司開(kāi)發(fā)的用于信用卡詐騙分析的DatabaseMiningWorkstation、NeoVista開(kāi)發(fā)的DecisionSeries等。3.2國(guó)內(nèi)研究現(xiàn)狀與國(guó)外相比,國(guó)內(nèi)對(duì)數(shù)據(jù)挖掘的研究起步稍晚且不成熟,目前正處于發(fā)展階段。最新發(fā)展:分類(lèi)技術(shù)研究中,試圖建立其集合理論體系,實(shí)現(xiàn)海量

13、數(shù)據(jù)處理;將粗糙集和模糊集理論二者融合用于知識(shí)發(fā)現(xiàn);構(gòu)造模糊系統(tǒng)辨識(shí)方法與模糊系統(tǒng)知識(shí)模型;構(gòu)造智能專家系統(tǒng);研究中文文本挖掘的理論模型與實(shí)現(xiàn)技術(shù);利用概念進(jìn)行文本挖掘。我國(guó)也有不少新興的數(shù)據(jù)挖掘軟件:(1)MSMiner:由中科院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室開(kāi)發(fā)的多策略通用數(shù)據(jù)挖掘平臺(tái)11。該平臺(tái)對(duì)數(shù)據(jù)和挖掘策略的組織有很好的靈活性。(2)DMiner:由上海復(fù)旦德門(mén)軟件公司開(kāi)發(fā)的具有自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘系統(tǒng)。該系統(tǒng)提供了豐富的數(shù)據(jù)可視化控件來(lái)展示分析結(jié)果,實(shí)現(xiàn)了數(shù)據(jù)查詢結(jié)果可視化、數(shù)據(jù)層次結(jié)構(gòu)可視化、多維數(shù)據(jù)結(jié)構(gòu)可視化、復(fù)雜數(shù)據(jù)可視化。(3)ScopeMiner:由東北大學(xué)開(kāi)發(fā)的

14、面向先進(jìn)制造業(yè)的綜合數(shù)據(jù)挖掘系統(tǒng)。(4)iDMiner:由海爾青大公司研發(fā)的具有自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘平臺(tái)。該平臺(tái)大膽采用了國(guó)際通用業(yè)界標(biāo)準(zhǔn),對(duì)該軟件今后的發(fā)展有很大的促進(jìn)作用,同時(shí)也為國(guó)內(nèi)同類(lèi)軟件的開(kāi)發(fā)提供了一條新的思路。除此之外,還有復(fù)旦德門(mén)公司開(kāi)發(fā)的CIAS和ARMiner、東北大學(xué)軟件中心開(kāi)發(fā)的基于SAS的OpenMiner以及南京大學(xué)開(kāi)發(fā)的一個(gè)原型系統(tǒng)Knight等。目前,國(guó)內(nèi)數(shù)據(jù)挖掘軟件產(chǎn)業(yè)還不成熟,從事此方面研究的人員主要集中在高校,只有少部分分布在研究所或公司,且大多數(shù)研究項(xiàng)目都是由政府資助,主要的研究方向集中在數(shù)據(jù)挖掘的學(xué)習(xí)算法、理論方面以及實(shí)際應(yīng)用。研究的產(chǎn)品尚未得到國(guó)際市

15、場(chǎng)的認(rèn)可,在國(guó)際上的使用更是為數(shù)甚少。4數(shù)據(jù)挖掘的研究熱點(diǎn)及發(fā)展趨勢(shì)就目前來(lái)看,數(shù)據(jù)挖掘的幾個(gè)研究熱點(diǎn)主要包括網(wǎng)站的數(shù)據(jù)挖掘(WebSiteDataMining)、生物信息或基因(Bioinformatics/Genomics)的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘(TextualMining)”。網(wǎng)站的數(shù)據(jù)挖掘就是從網(wǎng)站的各類(lèi)數(shù)據(jù)中得到有價(jià)值的信息,與一般的數(shù)據(jù)挖掘差別不大,但是其數(shù)據(jù)格式很大一部分來(lái)自于點(diǎn)擊率,與傳統(tǒng)的數(shù)據(jù)庫(kù)格式有區(qū)別。生物信息或基因的數(shù)據(jù)挖掘?qū)θ祟?lèi)生存發(fā)展有著非常重要的意義,基因的組合千變?nèi)f化,能否找出病人的基因和正常人的基因的不同之處,進(jìn)而對(duì)其加以改變,這就需要數(shù)據(jù)挖掘技術(shù)的支持

16、。但其數(shù)據(jù)形式、挖掘算法模型比較復(fù)雜。文本的數(shù)據(jù)挖掘和一般的數(shù)據(jù)挖掘相差很大,是指從文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的技術(shù),在分析方法方面比較困難,目前還沒(méi)有真正的具備分析功能的文本挖掘軟件。隨著越來(lái)越多的業(yè)務(wù)需求被不斷開(kāi)拓,數(shù)據(jù)挖掘已成功應(yīng)用于社會(huì)生活的方方面面,目前在很多領(lǐng)域如商業(yè)、醫(yī)學(xué)、科學(xué)研究等均有不少成功的應(yīng)用案例。為了提高系統(tǒng)的決策支持能力,像ERP、SCM、HR等一些應(yīng)用系統(tǒng)也逐漸與數(shù)據(jù)挖掘集成起來(lái)。多種理論與方法的合理整合是大多數(shù)研究者數(shù)據(jù)挖掘采用的有效技術(shù)14o以下是未來(lái)比較重要的數(shù)據(jù)挖掘發(fā)展趨勢(shì):(1)數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化描述:標(biāo)準(zhǔn)的數(shù)據(jù)挖掘語(yǔ)言將有助于數(shù)據(jù)挖掘的系統(tǒng)化開(kāi)發(fā)

17、。改進(jìn)多個(gè)數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進(jìn)其在企業(yè)和社會(huì)中的使用。(2)尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法:可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)??梢栽诎l(fā)現(xiàn)知識(shí)的過(guò)程中進(jìn)行很好的人機(jī)交互15o數(shù)據(jù)的可視化起到了推動(dòng)人們主動(dòng)進(jìn)行知識(shí)發(fā)現(xiàn)的作用。(3)與特定數(shù)據(jù)存儲(chǔ)類(lèi)型的適應(yīng)問(wèn)題:根據(jù)不同的數(shù)據(jù)存儲(chǔ)類(lèi)型的特點(diǎn),進(jìn)行針對(duì)性的研究是目前流行以及將來(lái)一段時(shí)間必須面對(duì)的問(wèn)題。(4)網(wǎng)絡(luò)與分布式環(huán)境下的KDD問(wèn)題:隨著Internet的不斷發(fā)展,網(wǎng)絡(luò)資源日漸豐富,這就需要分散的技術(shù)人員各自獨(dú)立地處理分離數(shù)據(jù)庫(kù)的工作方式應(yīng)是可協(xié)作的16o因此,考慮適應(yīng)分布式與網(wǎng)絡(luò)環(huán)境的工具、技術(shù)及系統(tǒng)將是數(shù)據(jù)挖掘中一

18、個(gè)最為重要和繁榮的子領(lǐng)域。(5)應(yīng)用的探索:隨著數(shù)據(jù)挖掘的日益普遍,其應(yīng)用范圍也日益擴(kuò)大,如生物醫(yī)學(xué)、5電信業(yè)、零售業(yè)等領(lǐng)域。由于數(shù)據(jù)挖掘在處理特定應(yīng)用問(wèn)題時(shí)存在局限性,因此,目前的研究趨勢(shì)是開(kāi)發(fā)針對(duì)于特定應(yīng)用的數(shù)據(jù)挖掘系統(tǒng)。(6)數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)系統(tǒng)的集成:數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)已經(jīng)成為信息處理系統(tǒng)的主流。數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)是與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的緊耦合17。5結(jié)語(yǔ)針對(duì)數(shù)據(jù)挖掘的主要算法,分析了各自的優(yōu)缺點(diǎn)及其所適用的領(lǐng)域,并根據(jù)目前國(guó)內(nèi)外數(shù)據(jù)挖掘的研究現(xiàn)狀和研究熱點(diǎn)指出了未來(lái)幾年數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。目前數(shù)據(jù)挖掘逐漸從高端的研究轉(zhuǎn)向常用的數(shù)據(jù)分析,在國(guó)外像金融業(yè)

19、、零售業(yè)等這樣一些對(duì)數(shù)據(jù)分析需求比較大的領(lǐng)域已經(jīng)成功地采用了數(shù)據(jù)挖掘技術(shù)來(lái)輔助決策。盡管如此,數(shù)據(jù)挖掘技術(shù)仍然面臨著許多問(wèn)題和挑戰(zhàn),如超大規(guī)模數(shù)據(jù)集中的數(shù)據(jù)挖掘效率有待提高,開(kāi)發(fā)適應(yīng)于多數(shù)據(jù)類(lèi)型、容噪的挖掘方法,網(wǎng)絡(luò)與分布式環(huán)境下的數(shù)據(jù)挖掘,動(dòng)態(tài)數(shù)據(jù)和知識(shí)的數(shù)據(jù)挖掘等??傊瑪?shù)據(jù)挖掘只是一個(gè)強(qiáng)大的工具,它不會(huì)在缺乏指導(dǎo)的情況下自動(dòng)地發(fā)現(xiàn)模型,而且得到的模型必須在現(xiàn)實(shí)生活中驗(yàn)證,數(shù)據(jù)分析者必須知道你所選用的挖掘算法的原理是什么以及是如何工作的,并且要深刻了解期望解決問(wèn)題的領(lǐng)域,理解數(shù)據(jù),了解其過(guò)程,只有這樣才能解釋最終所得到的結(jié)果,從而促使挖掘模型的不斷完善和提高,使得數(shù)據(jù)挖掘真正地滿足信息時(shí)代

20、人們的要求,服務(wù)于社會(huì)。參考文獻(xiàn)1胡侃,夏紹瑋.基于大型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)采掘:研究綜述J.軟件學(xué)報(bào),1998,9(1):53-63.2陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向J.電腦與信息技術(shù),2006,2(1):46-49.3HANJiawei,KAMBERM.數(shù)據(jù)挖掘:概念與技術(shù)M.范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2001.4陜粉麗.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及應(yīng)用J.現(xiàn)代企業(yè)教育,2008(6):101-102.5QUINLANJR.InductionofDecisionTreesJ.MachineLearning1986,1(1):8.6QULINLANJR.C4.5:ProgramsforMachineLearningM.SanMateo,Calif:MorganKaufmann,1993.7李華,劉帆李茂,等.數(shù)據(jù)挖掘理論及應(yīng)用研究J.斷塊油氣田,2010,23(1):88-89.8FAYYADUPIATESKY-SHAPIRGOSMYTHP.TheKDDProcessforExtr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論