![數(shù)據(jù)挖掘與數(shù)據(jù)分析論文_第1頁](http://file4.renrendoc.com/view/17af23101a23b86b7b77d7e1b1110842/17af23101a23b86b7b77d7e1b11108421.gif)
![數(shù)據(jù)挖掘與數(shù)據(jù)分析論文_第2頁](http://file4.renrendoc.com/view/17af23101a23b86b7b77d7e1b1110842/17af23101a23b86b7b77d7e1b11108422.gif)
![數(shù)據(jù)挖掘與數(shù)據(jù)分析論文_第3頁](http://file4.renrendoc.com/view/17af23101a23b86b7b77d7e1b1110842/17af23101a23b86b7b77d7e1b11108423.gif)
![數(shù)據(jù)挖掘與數(shù)據(jù)分析論文_第4頁](http://file4.renrendoc.com/view/17af23101a23b86b7b77d7e1b1110842/17af23101a23b86b7b77d7e1b11108424.gif)
![數(shù)據(jù)挖掘與數(shù)據(jù)分析論文_第5頁](http://file4.renrendoc.com/view/17af23101a23b86b7b77d7e1b1110842/17af23101a23b86b7b77d7e1b11108425.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘技術(shù)與應(yīng)用綜述***(**大學(xué)經(jīng)管學(xué)院**班河北石家莊050000)摘要:數(shù)據(jù)挖掘能為決策者提供重要的,極有價值的信息或知識,越來越多的大中型公司開始運用數(shù)據(jù)挖掘來分析公司的數(shù)據(jù)來輔助決策支持,市場方略制訂等。本文重要從技術(shù)和應(yīng)用兩個方面對數(shù)據(jù)挖掘進(jìn)行了綜合敘述和討論。核心詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;分類與預(yù)測;數(shù)據(jù)倉庫;決策支持系統(tǒng)GeneraldescriptionofDataminingtechnologyandapplication****(HebeiUniversityofEconomicsandManagementofInformationManagementandInformationSystemL082classesShijiazhuang050000)Pickto:dataminingcanprovideimportantdecisionmakers,extremelyvaluableinformationorknowledge,moreandmorelargeandmedium-sizedenterprisestartedusingdataminingtoanalyzecompanydatatoassistdecisionsupport,marketstrategyformulation,etc.Thisarticlemainlyfromthetechnologyandapplicationofdataminingintwoaspectsofsyntheticallyexpoundedanddiscussed.Keywords:datamining;Associationrules;Classificationandforecast;Datawarehouse;Decisionsupportsystem引言:近年來,數(shù)據(jù)挖掘引發(fā)了信息產(chǎn)業(yè)界的極大關(guān)注,其重要因素是存在大量數(shù)據(jù),能夠廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識能夠廣泛用于多個應(yīng)用,涉及商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計和科學(xué)探索等。數(shù)據(jù)挖掘的來源:公司存在大量數(shù)據(jù),且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識能夠廣泛用于多個應(yīng)用,涉及商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計和科學(xué)探索等。數(shù)據(jù)挖掘運用了來自以下某些領(lǐng)域的思想:(1)來自統(tǒng)計學(xué)的抽樣、預(yù)計和假設(shè)檢查,(2)人工智能、模式識別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也快速地接納了來自其它領(lǐng)域需要是發(fā)明之母。數(shù)據(jù)采集和和存儲技術(shù)的進(jìn)步造成龐大的數(shù)據(jù)庫日益增多,并的思想,這些領(lǐng)域涉及最優(yōu)化、進(jìn)化計算、信息論、信號解決、可視化和信息檢索。某些其它領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢解決支持。源于高性能(并行)計算的技術(shù)在解決海量數(shù)據(jù)集方面經(jīng)常是重要的。分布式技術(shù)也能協(xié)助解決海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起解決時更是至關(guān)重要。數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取隱含在其中的,人們事先不懂得的,但又是潛在的有用信息和知識的過程。數(shù)據(jù)挖掘是一門跨學(xué)科的技術(shù),統(tǒng)計學(xué),數(shù)據(jù)庫技術(shù),機(jī)器學(xué)習(xí),模式識別,人工智能,可視化技術(shù),在數(shù)據(jù)挖掘中起著作用.數(shù)據(jù)挖掘的意義:數(shù)據(jù)挖掘能為決策者提供重要的,極有價值的信息或知識,越來越多的大中型公司開始運用數(shù)據(jù)挖掘來分析公司的數(shù)據(jù)來輔助決策從而提高競爭力.數(shù)據(jù)挖掘慣用技術(shù)數(shù)據(jù)挖掘系統(tǒng)運用的技術(shù)越多,得出的成果精確性就越高。因素很簡樸,對于某一種技術(shù)不適應(yīng)的問題,其它辦法卻可奏效。這重要取決于問題的類型以及數(shù)據(jù)的類型和規(guī)模。重要的數(shù)據(jù)挖掘技術(shù)有:(1)
關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則是應(yīng)用最為廣泛的一種數(shù)據(jù)挖掘辦法,重要目的是為了發(fā)現(xiàn)數(shù)據(jù)中的有關(guān)聯(lián)系,重要應(yīng)用在零售業(yè)方面,通過發(fā)現(xiàn)顧客購置的商品之間的聯(lián)系,分析顧客的購置習(xí)慣,這種關(guān)聯(lián)發(fā)現(xiàn)能夠協(xié)助零售商制訂營銷方略.在描述有關(guān)關(guān)聯(lián)規(guī)則時,我們來看一種有趣的故事:"尿布與啤酒"的故事。在一家超市里,有一種有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一種笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實案例,并始終為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠精確理解顧客在其門店的購置習(xí)慣,沃爾瑪對其顧客的購物行為進(jìn)行購物籃分析,想懂得顧客經(jīng)常一起購置的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的具體原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪運用數(shù)據(jù)挖掘辦法對這些數(shù)據(jù)進(jìn)行分析和挖掘。一種意外的發(fā)現(xiàn)是:"跟尿布一起購置最多的商品竟是啤酒!通過大量實際調(diào)查和分析,揭示了一種隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,某些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買某些啤酒。產(chǎn)生這一現(xiàn)象的因素是:美國的太太們常囑咐她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡樸關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不懂得數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使懂得也是不擬定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或有關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,后來諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作涉及對原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一種重要的課題,近來幾年已被業(yè)界所廣泛研究。關(guān)聯(lián)規(guī)則研究有下列三種趨勢:從單一概念層次的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)到多概念層次的關(guān)聯(lián)規(guī)則發(fā)現(xiàn).提高算法效率:1.減少掃描數(shù)據(jù)庫次數(shù),2.運用采樣技術(shù),對要挖掘的數(shù)據(jù)集進(jìn)行選擇,3是采用并行數(shù)據(jù)挖掘。進(jìn)一步解決所獲得的關(guān)聯(lián)規(guī)則,含糊關(guān)聯(lián)規(guī)則的獲取和發(fā)現(xiàn)等.(2)分類與預(yù)測分類能夠用于預(yù)測,分類能夠從歷史數(shù)據(jù)統(tǒng)計中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對將來數(shù)據(jù)進(jìn)行預(yù)測?;跊Q策樹的分類是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法,它從一組無次序,無規(guī)則的事例推理中以決策樹表達(dá)形式的分類規(guī)則,決策樹的基本算法是以自頂向下遞歸的方式來構(gòu)造決策樹的。(3)基于神經(jīng)網(wǎng)絡(luò)的挖掘神經(jīng)網(wǎng)絡(luò)辦法是在模擬生物神經(jīng)系統(tǒng)的構(gòu)造和功效而建立起來的,現(xiàn)在,已經(jīng)出現(xiàn)了多個網(wǎng)絡(luò)模型和學(xué)習(xí)算法,重要用于分類,優(yōu)化,模式識別,預(yù)測和控制等領(lǐng)域。在數(shù)據(jù)挖掘領(lǐng)域,重要采用前向神經(jīng)網(wǎng)絡(luò)提取分類規(guī)則?;谏窠?jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類普通含有較小的分類誤差和對噪聲數(shù)據(jù)有較強(qiáng)的魯棒性。但是神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程和訓(xùn)練成果難以理解。(4)遺傳算法遺傳算法是一種優(yōu)化技術(shù),在遺傳算法的實施過程中,首先對規(guī)定解的問題進(jìn)行編碼,產(chǎn)生初始群體,計算個體的適應(yīng)度,再進(jìn)行染色體的復(fù)制,交叉,變異等操作,重復(fù)這個過程,直到找到最佳或較佳個體為止。在數(shù)據(jù)挖掘中,往往把數(shù)據(jù)挖掘任務(wù)體現(xiàn)為一種搜索問題,使用遺傳算法的強(qiáng)大搜索能力找到最優(yōu)解。(5)可視化挖掘技術(shù)可視化技術(shù)就是為人們參加知識挖掘的過程提供方便,采用某些較直觀的辦法協(xié)助理解數(shù)據(jù)庫中的數(shù)據(jù)和挖掘后產(chǎn)生的規(guī)則??梢暬诰蚣夹g(shù)涉及:①數(shù)據(jù)可視化②數(shù)據(jù)挖掘過程的可視化③數(shù)據(jù)挖掘成果的可視化數(shù)據(jù)挖掘的應(yīng)用1).科學(xué)研究由于先進(jìn)的科學(xué)儀器和觀察儀器的使用,在科學(xué)和工程中產(chǎn)生了大量的數(shù)據(jù),這為數(shù)據(jù)挖掘在科學(xué)研究中的應(yīng)用發(fā)明了條件.①在天文學(xué)上的應(yīng)用②在生物學(xué)上的應(yīng)用③在化學(xué)工程上的應(yīng)用2)商業(yè)應(yīng)用商業(yè)應(yīng)用是數(shù)據(jù)挖掘最重要的應(yīng)用領(lǐng)域.涉及一下幾方面:①市場營銷市場營銷重要是通過數(shù)據(jù)分割和模型預(yù)測的辦法來選擇潛在的顧客,方便向他們推銷產(chǎn)品,而不是盲目的選擇顧客來推銷,從而增加產(chǎn)品推銷的成功率.②數(shù)據(jù)挖掘在金融保險業(yè)上的應(yīng)用典型的金融分析領(lǐng)域有投資評定,股票交易市場預(yù)測,信貸審核等,風(fēng)險評定,收益分析,欺詐鑒別等.③零售業(yè)上的應(yīng)用重要是通過分析商品銷售的歷史統(tǒng)計,以識別顧客的購物模式和傾向,提高服務(wù)質(zhì)量,和商品銷售量,設(shè)計更有效的商品布置方式,以及在總體上減少成本提高利潤.④數(shù)據(jù)挖掘在電信業(yè)上的應(yīng)用隨著電信業(yè)市場的逐步開放,市場競爭將會日趨激烈,這就使理解顧客的消費模式,保存顧客,建模銷售新產(chǎn)品的有效途徑成為必須,這樣就為數(shù)據(jù)挖掘發(fā)明了極大的需求.如數(shù)據(jù)挖掘能夠回答電信業(yè)提出的下列問題:如何保存顧客,并保持他的忠實度?那種顧客可能發(fā)生波動?什么時候能夠接受高風(fēng)險投資,如新建一條光纜線路?如何預(yù)測會買附加的業(yè)務(wù)?⑤醫(yī)療保健業(yè)上的應(yīng)用在衛(wèi)生保健業(yè)上數(shù)據(jù)挖掘業(yè)得到了廣泛的應(yīng)用,以電子格式儲存病人的統(tǒng)計,以及醫(yī)學(xué)信息系統(tǒng)的發(fā)展產(chǎn)生了大量能夠在線運用的臨床數(shù)據(jù),用數(shù)據(jù)挖掘的辦法從這些數(shù)據(jù)中提取出來的規(guī)律和信息能夠輔助醫(yī)生做出決策.數(shù)據(jù)挖掘的過程(1)數(shù)據(jù)準(zhǔn)備①數(shù)據(jù)選用目的是擬定發(fā)現(xiàn)任務(wù)的操作對象,即目的數(shù)據(jù),它是根據(jù)顧客的需要從原始數(shù)據(jù)中抽取的一組數(shù)據(jù).②數(shù)據(jù)預(yù)解決數(shù)據(jù)預(yù)解決重要涉及消除噪聲,去除異常點.推導(dǎo)計算缺失值,消除重復(fù)統(tǒng)計,完畢數(shù)據(jù)類型轉(zhuǎn)換等.③數(shù)據(jù)變換重要目的是消減數(shù)據(jù)維數(shù),即從初始特性中找出真正有用的特性,以減少數(shù)據(jù)挖掘時的系統(tǒng)開銷。(2)數(shù)據(jù)挖掘階段首先要明確挖掘的任務(wù)和目的,如數(shù)據(jù)總結(jié),分類,聚類,關(guān)聯(lián)規(guī)則發(fā)現(xiàn),或序列模式發(fā)現(xiàn)等,擬定任務(wù)后就要決定采用什么樣的算法.選擇實現(xiàn)算法要考慮下列因素:①不同的數(shù)據(jù)有不同的特點,需要用與之有關(guān)的算法來進(jìn)行挖掘.②不同的顧客獲取知識的目的不同,有的顧客但愿獲取描述型的,容易理解的知識,而有的顧客但愿獲得預(yù)測精確度盡量高的預(yù)測知識.(3)成果解釋和評定數(shù)據(jù)挖掘階段挖掘出來的模式,通過顧客或機(jī)器的評價,可能不滿足顧客規(guī)定,這時需要整個知識發(fā)現(xiàn)過程退回到挖掘階段之前,如重新選用數(shù)據(jù),采用新的數(shù)據(jù)變換辦法,設(shè)定新的數(shù)據(jù)挖掘參數(shù)值,甚至更換一種算法(如分類有多個辦法,每種辦法效果都不同.)另外,如果KDD是面對顧客的,可能要對發(fā)現(xiàn)的模式進(jìn)行可視化,或轉(zhuǎn)換為顧客易懂的形式.數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的任務(wù)重要是:關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等。關(guān)聯(lián)分析(associationanalysis)兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分為簡樸關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。普通用支持度和可信度兩個閥值來度量關(guān)聯(lián)規(guī)則的有關(guān)性,還不停引入愛好度、有關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。聚類分析(clustering)聚類是把數(shù)據(jù)按攝影似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。分類(classification)分類就是找出一種類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,普通用規(guī)則或決策樹模式表達(dá)。預(yù)測(predication)預(yù)測是運用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對將來數(shù)據(jù)的種類及特性進(jìn)行預(yù)測。時序模式(time-seriespattern)時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。偏差分析(deviation)在偏差中涉及諸多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在諸多異常狀況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常狀況是非常重要的。偏差檢查的基本辦法就是尋找觀察成果與參考之間的差別。數(shù)據(jù)挖掘的發(fā)展趨勢由于許多應(yīng)用問題往往比超市購置問題更復(fù)雜,大量研究從不同的角度對關(guān)聯(lián)規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘辦法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范疇。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究重要集中于兩個方面,即擴(kuò)展典型關(guān)聯(lián)規(guī)則能夠解決問題的范疇,改善典型關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則愛好性。數(shù)據(jù)挖掘語言的設(shè)計,高效有用的數(shù)據(jù)挖掘辦法和系統(tǒng)的開發(fā),交互和集成的數(shù)據(jù)挖掘環(huán)境的建立以及應(yīng)用數(shù)據(jù)挖掘技術(shù)解決大型應(yīng)用問題,都是數(shù)據(jù)挖掘研究人員﹑系統(tǒng)和應(yīng)用開發(fā)人員面臨的重要問題。參考文獻(xiàn):[1]王建會;王洪偉;申展;胡運發(fā);
一種實用高效的文本分類算法[J]
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年春江蘇開放大學(xué)大學(xué)英語B(2)作業(yè)答案
- 激發(fā)員工創(chuàng)造力培訓(xùn)體系建立
- 續(xù)約勞動合同范本(2篇)
- 維修泵房的合同(2篇)
- 2024-2025學(xué)年遼寧省點石聯(lián)考高二上學(xué)期期末考試英語試卷(解析版)
- 江蘇省蘇州市五中2024-2025學(xué)年高一上學(xué)期12月月考物理試題(解析版)
- Module 2(單元測試)小學(xué)英語三年級下冊 外研版(一起)(含答案)
- 轉(zhuǎn)英語專業(yè)申請書
- 中國粉針劑行業(yè)市場深度評估及投資策略咨詢報告
- 男性減脂飲食與運動結(jié)合的策略
- GB/T 45177-2024人工光型植物工廠光環(huán)境技術(shù)規(guī)范
- 2025年中考語文模擬試卷(含答案解析)
- 2024-2025年天津河西區(qū)七年級上學(xué)期期末道德與法治試題(含答案)
- 2025年個人學(xué)習(xí)領(lǐng)導(dǎo)講話心得體會和工作措施例文(6篇)
- 2025大連機(jī)場招聘109人易考易錯模擬試題(共500題)試卷后附參考答案
- 2020-2025年中國中小企業(yè)行業(yè)市場調(diào)研分析及投資戰(zhàn)略咨詢報告
- 物流中心原材料入庫流程
- 長沙市2025屆中考生物押題試卷含解析
- 預(yù)制板粘貼碳纖維加固計算表格
- 2024-2025學(xué)年廣東省深圳市寶安區(qū)八年級(上)期末語文試卷
- 2024年芽苗菜市場調(diào)查報告
評論
0/150
提交評論