淺析數(shù)據(jù)挖掘技術的概念及運行過程_第1頁
淺析數(shù)據(jù)挖掘技術的概念及運行過程_第2頁
淺析數(shù)據(jù)挖掘技術的概念及運行過程_第3頁
免費預覽已結束,剩余3頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、淺析數(shù)據(jù)挖掘技術的概念及運行過程摘 要:隨著當前現(xiàn)代科技的發(fā)展,計算機在各方面都得到了廣泛的應用,計算機給人們的生活帶來了翻天覆地的變化,人們對計算機的重視程度越來越高。 但是應該看到,計算機一方面帶來了巨大的便利條件,另一方面也帶來了很多問題,數(shù)據(jù)庫中積累下來海量的數(shù)據(jù),這些數(shù)據(jù)中往往隱藏著很多的重要信息。如果能夠對這些數(shù)據(jù)進行深入的分析,并且從中找到潛在的規(guī)律,會對管理者決策起到非常大的作用。但是目前的數(shù)據(jù)分析工具還不能夠使?jié)M足深層次分析的需要,當前從海量數(shù)據(jù)中挖掘出重要信息并為之所用,已成為一個新的研究課題。本文主要是在分析數(shù)據(jù)挖掘技術概念的基礎上,分析了數(shù)據(jù)挖掘的運行過程。關鍵詞:數(shù)據(jù)

2、挖掘概念運行過程一、數(shù)據(jù)挖掘的概念與分類1、數(shù)據(jù)挖掘技術的概念隨著現(xiàn)代科技的迅猛發(fā)展,計算機數(shù)據(jù)管理系統(tǒng)在社會各方面都得到了廣泛的應用,尤其是關系數(shù)據(jù)庫系統(tǒng)已成為了當前事務處理的強有力工具。人類在更廣泛的領域內應用數(shù)據(jù)庫技術,加大了對空間數(shù)據(jù)庫、工程數(shù)據(jù)庫、時間數(shù)據(jù)庫、統(tǒng)計數(shù)據(jù)庫等的研究和應用,這使得越來越多的數(shù)據(jù)在數(shù)據(jù)庫中被積累下來。就目前來講,計算機數(shù)據(jù)庫可以高效完成的工作有:數(shù)據(jù)的查詢、收錄以及統(tǒng)計等,還不能夠從眾多的信息中挖掘出來有效信息,以找出數(shù)據(jù)中潛藏的規(guī)律,同時也不能夠利用現(xiàn)有的數(shù)據(jù)資源對未來發(fā)展趨勢進行科學預測。正是因為缺乏挖掘數(shù)據(jù)背后隱藏的知識手段,結果導致了現(xiàn)代信息技術中“

3、數(shù)據(jù)爆炸但知識缺乏”的現(xiàn)象,于是數(shù)據(jù)挖掘應運而生。 數(shù)據(jù)挖掘具有廣闊的應用和發(fā)展前景,是數(shù)據(jù)庫研究、開發(fā)和應用最活躍的分支之一。數(shù)據(jù)挖掘簡稱 DM,也被稱為數(shù)據(jù)庫中只是發(fā)現(xiàn)。從上個世紀 90 年代,數(shù)據(jù)挖掘技術就迅速發(fā)展起來。所謂數(shù)據(jù)挖掘就是指將事先隱藏在數(shù)據(jù)中的、有重大價值的而又未被發(fā)現(xiàn)的信息從大量數(shù)據(jù)中挖掘并提取出來的過程。數(shù)據(jù)挖掘出的內容應該是使用者有興趣的信息,而且應該是大家容易接受的信息,同時這些信息容易被理解分析和再運用;挖掘的目標數(shù)據(jù)應該是大量的現(xiàn)實中存在的有效數(shù)據(jù);數(shù)據(jù)挖掘所挖掘的對象也是多種多樣的,它可以是文本、圖像和圖形等半結構化的數(shù)據(jù),也可以是關系型數(shù)據(jù)庫中的數(shù)據(jù)等結構化

4、的數(shù)據(jù),同時還可以是分布在網(wǎng)絡上的異構型數(shù)據(jù)。一般可以把數(shù)據(jù)挖掘發(fā)現(xiàn)的知識分為“概念、模式、規(guī)律、規(guī)則等幾種形式。這些知識可以以新知識的形式轉存到相應的系統(tǒng)知識存儲機構中,相關的專家領域可以用其來修正原有的知識體系,同時決策者可以用這些知識來輔助決策過程?!庇纱宋覀兛梢钥吹綌?shù)據(jù)挖掘是門交叉學科,涉及到數(shù)據(jù)庫、數(shù)理統(tǒng)計、機器學習、模式識別、神經(jīng)網(wǎng)絡、粗糙集和模糊集等相關技術,數(shù)據(jù)挖掘采用的主要方法有關聯(lián)規(guī)則、遺傳算法、模糊論方法、決策樹方法、人工神經(jīng)網(wǎng)絡、粗糙集方法、貝葉斯模型等;數(shù)據(jù)挖掘過程中涉及到數(shù)據(jù)清理、數(shù)據(jù)采集、數(shù)據(jù)變換、數(shù)據(jù)分析、數(shù)據(jù)挖掘以及數(shù)據(jù)結果表示等一系列環(huán)節(jié)。通常情況下,人們把

5、信息和數(shù)據(jù)看作是知識的表現(xiàn)形式,而實際上我們更應該重視概念、規(guī)則、模式以及約束等。數(shù)據(jù)挖掘把原來對知識的簡單應用擴展到了對知識信息的深度提取和運用。在學生成績管理系統(tǒng)中,挖掘現(xiàn)有的學生信息數(shù)據(jù)庫,提取那些對學生成績有影響的屬性信息,進行綜合分析,幫助學??茖W合理地制定教學計劃。隨著此類應用需求的不斷增加,各領域學者都積極投身于數(shù)據(jù)挖掘這門前沿學科的研究,尤其是人工智能、計算機數(shù)據(jù)庫以及數(shù)理統(tǒng)計等方面的學者。我們知道現(xiàn)實中的數(shù)據(jù)分為三種:結構化的、半結構化的、還有異構型的,現(xiàn)在學校里存儲的學生信息一般都會采用其中的一種類型。數(shù)據(jù)挖掘的知識可以應用到學生基本信息和學校管理決策方面的管理和數(shù)據(jù)查詢與

6、優(yōu)化,同時也可以應用到數(shù)據(jù)庫自身的維護方面。總之,在學校管理方面數(shù)據(jù)挖掘的應用前景是非常廣闊的。2、數(shù)據(jù)挖掘技術的分類數(shù)據(jù)挖掘可以根據(jù)不同的標準作出不同的分類。按照數(shù)據(jù)挖掘功能可以將數(shù)據(jù)挖掘分為兩大類:預測性挖掘和描述性挖掘。按照數(shù)據(jù)庫類型,數(shù)據(jù)挖掘可以分為面向對象數(shù)據(jù)挖掘、有關系數(shù)據(jù)庫挖掘、多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘、事務數(shù)據(jù)庫的數(shù)據(jù)挖掘、數(shù)據(jù)倉庫的數(shù)據(jù)挖掘以及模糊數(shù)據(jù)挖掘等等多種類型的數(shù)據(jù)挖掘。按照數(shù)據(jù)挖掘對象對數(shù)據(jù)挖掘進行分類,主要可以分為數(shù)據(jù)庫數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web 數(shù)據(jù)挖掘、以及文本數(shù)據(jù)挖掘等。按照數(shù)據(jù)挖掘的任務進行分類,可以分為序列模式挖掘、關聯(lián)規(guī)則挖掘、分類數(shù)據(jù)挖掘、預測挖

7、掘、聚類數(shù)據(jù)挖掘和偏差分析挖掘等類型。按照數(shù)據(jù)挖掘的技術和方法分類,數(shù)據(jù)挖掘可以分為統(tǒng)計分析類、歸納學習類、模糊數(shù)學類、聚類方法類、放生物技術類以及可視化技術類等。二、數(shù)據(jù)挖掘的基本運行過程數(shù)據(jù)挖掘中首先要確定需要解決的目標,了解挖掘該目標的背景以及工作的業(yè)務流程。這樣才能夠充分發(fā)揮出挖掘的作用,提取最有價值的信息。問題定義的如何對數(shù)據(jù)模型建立的好壞有著直接關系,所以一定要做好這一步驟。數(shù)據(jù)挖掘的第二步就是建立模型,把待挖掘的數(shù)據(jù)存儲到大型數(shù)據(jù)庫中,然后在此數(shù)據(jù)庫基礎上建立數(shù)據(jù)倉庫,建立各種統(tǒng)計查詢、圖表以及挖掘模型等等。其中這些挖掘數(shù)據(jù)不需要挖掘者自己開發(fā),而是這些挖掘模型自身數(shù)據(jù)庫系統(tǒng)提供

8、的,所以只需要建立數(shù)據(jù)庫就行。數(shù)據(jù)挖掘的第三步就是數(shù)據(jù)分析環(huán)節(jié),對數(shù)據(jù)進行分析其目的就是為了找出預測中有影響力的因素,然后整合這些影響力因素,并且找出關鍵影響因素。最終通過對各因素的影響力的分析,得出一個更有分析價值的影響因素。數(shù)據(jù)挖掘的第四個環(huán)節(jié)就是準備數(shù)據(jù)環(huán)節(jié),該環(huán)節(jié)主要包括選擇原始數(shù)據(jù)、提前處理目標數(shù)據(jù)、整合綜合數(shù)據(jù)等三個方面的工作。數(shù)據(jù)的選擇是指準備所有待挖掘數(shù)據(jù)集中屬性和相關數(shù)據(jù)等,選擇出來重要的數(shù)據(jù)集。然后就是對數(shù)據(jù)進行分析,對數(shù)據(jù)集中的數(shù)據(jù)進行過濾、離散化、填補等,從而分析出更有價值的信息,這就是提前處理目標數(shù)據(jù)環(huán)節(jié);接著就是數(shù)據(jù)的整合環(huán)節(jié),這個環(huán)節(jié)的主要工作就是把現(xiàn)有的數(shù)據(jù)集整

9、合為一個可以適應挖掘算法需要的分析模型數(shù)據(jù)集。數(shù)據(jù)挖掘的第五步就是模型選擇的環(huán)節(jié),根據(jù)數(shù)據(jù)特點選擇合適的挖掘算法,包括決策樹算法、神經(jīng)網(wǎng)絡算法、分類分析、聚類分析等。對于那些數(shù)據(jù)集中的數(shù)據(jù)還要進行相應的轉化。數(shù)據(jù)挖掘的第六步就是數(shù)據(jù)挖掘環(huán)節(jié),驗證決策的正確性,這一步要把前面步驟所得出的相關信息運用到各項業(yè)務流程中去。數(shù)據(jù)挖掘的核心是模式發(fā)現(xiàn),充分利用數(shù)據(jù)挖掘方法分析經(jīng)過轉換得到的數(shù)據(jù),探索出一個特定的數(shù)據(jù)集或者感興趣的模式。數(shù)據(jù)挖掘的第七步就是進行結果分析,采取有效措施對挖掘結果進行分析驗證,保證發(fā)現(xiàn)模式的正確性。剔除冗余或者無關鍵的模式,對于不能滿足用戶要求的模式要重新進行數(shù)據(jù)選取,甚至要更換一種挖掘算法。數(shù)據(jù)挖掘的第八個環(huán)節(jié)就是知識表示,要對發(fā)現(xiàn)的模式進行可視化,表示轉化為一種用戶易懂的形式,例如可以把分類決策樹轉換為“if-then ”的形式。參考文獻: 姚雙良.數(shù)據(jù)挖掘在高校成績分類管理中的?用研究J.江蘇科技大學學報(社會科學版). 2011(02),第37 頁 宋虎森.數(shù)理統(tǒng)計方法在學生成績管理中的應用J. 長治學院學報 . 2006( 05),第 26 頁1 姚雙良 .數(shù)據(jù)挖掘在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論