數(shù)據(jù)挖掘論文_第1頁(yè)
數(shù)據(jù)挖掘論文_第2頁(yè)
數(shù)據(jù)挖掘論文_第3頁(yè)
數(shù)據(jù)挖掘論文_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、淺析數(shù)據(jù)挖掘與olap摘 要:隨著社會(huì)經(jīng)濟(jì)的發(fā)展,市場(chǎng)狀態(tài)的變化越來(lái)越快,也越來(lái)越多樣化,決策者為了能夠盡快調(diào)整市場(chǎng)策略,迫切需要一個(gè)決策支持系統(tǒng)以解決各方面的問(wèn)題。而數(shù)據(jù)挖掘、olap是當(dāng)前大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的新型信息分析技術(shù),在許多領(lǐng)域得到了廣泛應(yīng)用,取得了很好的成效。數(shù)據(jù)挖掘技術(shù)可以幫助我們從海量數(shù)據(jù)中發(fā)現(xiàn)有用的模式,已經(jīng)成為數(shù)據(jù)庫(kù)研究的一個(gè)新的熱點(diǎn)。olap(聯(lián)機(jī)分析處理)已成為一種重要的決策支持工具。它提供對(duì)數(shù)據(jù)快速的、可交互的、多角度的即席查詢,為決策服務(wù)。關(guān)鍵詞:數(shù)據(jù)挖掘;聯(lián)機(jī)分析處理;數(shù)據(jù)倉(cāng)庫(kù)analysis of datamining and online analysis

2、 process(olap)abstract:with the development of social economy, the market changes more quickly and variably. in order to change the tactic of market quickly, the person who makes strategic decision wants to have a decision support system which is used to solve problems. data mining and olap are then

3、ew information analysis and integration techniques in the area of large data base system and data warehouse.data mining technology can help us discover useful schema from great capacity of data, and has become a new hotspot hi database research field. olap (on line analytical processing) is a powerf

4、ul decision support tool, which provides fast, interactive ad-hoc query from many prospects and facilitates the decision making. key words:datamining ;online analysis process(olap);data warehouse ( dw ) 引言隨著計(jì)算機(jī)技術(shù)和internet技術(shù)的發(fā)展,以及企業(yè)在以往事物型處理中數(shù)據(jù)的不斷積累,一方面企業(yè)數(shù)據(jù)資源日益豐富,信息超載,另一方面數(shù)據(jù)資源中蘊(yùn)含的知識(shí)企業(yè)卻至今未能得到充分的挖掘和利用,“

5、數(shù)據(jù)豐富而知識(shí)貧乏”是常見(jiàn)現(xiàn)象。如何才能不被信息風(fēng)暴所淹沒(méi),并能從中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息的利用率,已經(jīng)成為企業(yè)急需面對(duì)的的一個(gè)問(wèn)題。因此,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。而獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。數(shù)據(jù)挖掘是信息技術(shù)自然進(jìn)化的結(jié)果。其中數(shù)據(jù)挖掘技術(shù)包括數(shù)據(jù)清理、數(shù)據(jù)集成和聯(lián)機(jī)分析處理(olap)等技術(shù)。olap 是一種分析技術(shù),具有匯總、合并和聚集功能,以及從不同的角度觀察信息的能力。所以在這種背景下,數(shù)據(jù)挖掘、olap技術(shù)應(yīng)運(yùn)而

6、生。這是兩種基于大量數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的新型數(shù)據(jù)分析技術(shù)。一 數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。關(guān)于數(shù)據(jù)挖掘,一種較為公認(rèn)的定義是由g.piatetsky-shapiro等人提出的。他們認(rèn)為:數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫(kù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、實(shí)現(xiàn)不知道的,潛在有用的信息。數(shù)據(jù)挖掘是一個(gè)交叉科學(xué)領(lǐng)域,受多個(gè)學(xué)科影響,包括數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。此外,依賴于所用的數(shù)據(jù)挖掘方法,可以使用其它學(xué)科的技術(shù),如神經(jīng)網(wǎng)絡(luò)、模糊/粗糙集理論、知識(shí)表示、歸納邏輯程序設(shè)計(jì)、或高性能計(jì)算。依賴于所挖掘的數(shù)據(jù)類型或給定的數(shù)據(jù)挖掘應(yīng)用,數(shù)據(jù)挖掘

7、系統(tǒng)也可能集成空間數(shù)據(jù)分析、信息提取、模式識(shí)別、圖象分析、信號(hào)處理、計(jì)算機(jī)圖形學(xué)、web 技術(shù)、經(jīng)濟(jì)、或心理學(xué)領(lǐng)域的技術(shù)。它不僅面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。這樣一來(lái),就把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的末端查詢操作,提高到為各級(jí)經(jīng)營(yíng)決策者提供決策支持。二 olap(聯(lián)機(jī)分析處理)聯(lián)機(jī)分析處理(olap)的概念最早是由關(guān)系數(shù)據(jù)庫(kù)之父e.f.codd于1993年提出的,他同時(shí)提出了關(guān)于olap的12條準(zhǔn)則。它是基于大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的信息分析過(guò)程

8、,是大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的用戶接口部分,其目的是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表要求。olap是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)分析,是數(shù)據(jù)倉(cāng)庫(kù)上的分析展示工具。olap的基本思想是從多方面和多角度以多維的形式來(lái)觀察企業(yè)的狀態(tài)和了解企業(yè)的變化。它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上,它專門(mén)用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持,可以應(yīng)分析人員要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營(yíng)狀況,了解市場(chǎng)需求,制定正確方案,排除存在的問(wèn)題,增加效益。即提供給用戶強(qiáng)大的統(tǒng)計(jì)、分析、報(bào)表處理功能及進(jìn)行趨勢(shì)預(yù)測(cè)能

9、力。olap是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的數(shù)據(jù)分析處理。它有兩個(gè)特點(diǎn):一是在線性(on line),由客戶機(jī)/服務(wù)器這種體系結(jié)構(gòu)來(lái)完成的;二是多維分析,這也是olap的核心所在。數(shù)據(jù)的多維視圖使用戶能從多角度、多側(cè)面、多層次的查看包含在數(shù)據(jù)中的信息。簡(jiǎn)單地講,olap就是共享多維信息的快速分析。它是跨部門(mén)、面向主題的,其基本特點(diǎn)是快速性、可分析性、多維性、信息性和共享性。也就是說(shuō),olap能快速響應(yīng)用戶的要求,能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析,能提供多維數(shù)據(jù)分析的多維視圖,能及時(shí)獲得信息和管理大容量的信息,以及能在大量用戶群中共享潛在的數(shù)據(jù)。其中“多維性”是其核心靈魂。目前,針對(duì)olap技術(shù)的研

10、究領(lǐng)域相當(dāng)活躍,對(duì)olap的理解也不斷深入。有人提出了olap的更為簡(jiǎn)潔的定義,如nigel pendse提出的fasmi (fast analysis of shared multidimensional information)。他將olap所滿足的特點(diǎn)用五個(gè)詞來(lái)描述:fast對(duì)用戶請(qǐng)求的快速響應(yīng);analysis可以應(yīng)用多種統(tǒng)計(jì)分析工具、算法對(duì)數(shù)據(jù)進(jìn)行分析;shared多個(gè)用戶同時(shí)存取數(shù)據(jù)時(shí),保證系統(tǒng)的安全性;multidimensional體現(xiàn)了olap應(yīng)用多維的實(shí)質(zhì);information指應(yīng)用所需的數(shù)據(jù)及其導(dǎo)出信息。olap包含了三種數(shù)據(jù)模型,molap是基于多維數(shù)據(jù)庫(kù)存儲(chǔ)方式建立

11、的olap;表現(xiàn)為“超立方”結(jié)構(gòu),采用類似于多維數(shù)組的結(jié)構(gòu);rolap是基于關(guān)系數(shù)據(jù)庫(kù)的olap,它是一個(gè)平面結(jié)構(gòu),用關(guān)系數(shù)據(jù)庫(kù)表示多維數(shù)據(jù)時(shí),采用星型模型;holap(hybrid olap),即混和olap介于molap和rolap之間,在holap中,對(duì)最常用的維度和維層次,使用多維數(shù)據(jù)表來(lái)存儲(chǔ),對(duì)于用戶不常用的維度和數(shù)據(jù),采用rolap星型結(jié)構(gòu)來(lái)存儲(chǔ)。olap的兩種結(jié)構(gòu)分析如下:圖 olap的邏輯結(jié)構(gòu)圖 olap的物理結(jié)構(gòu)三 數(shù)據(jù)挖掘與olao的區(qū)別與聯(lián)系數(shù)據(jù)挖掘和olap都是基于大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析技術(shù),有著一定的聯(lián)系和區(qū)別。數(shù)據(jù)倉(cāng)庫(kù)可以看作數(shù)據(jù)挖掘的一個(gè)重要預(yù)處理步驟。此

12、外,數(shù)據(jù)倉(cāng)庫(kù)提供聯(lián)機(jī)分析處理(olap)工具,用于各種粒度的多維數(shù)據(jù)分析,有利于有效的數(shù)據(jù)挖掘。進(jìn)一步講,許多其它數(shù)據(jù)挖掘功能,如分類、預(yù)測(cè)、關(guān)聯(lián)、聚集,都可以與olap 操作集成,以加強(qiáng)多個(gè)抽象層上的交互知識(shí)挖掘。從數(shù)據(jù)倉(cāng)庫(kù)觀點(diǎn),數(shù)據(jù)挖掘與olap都是數(shù)據(jù)倉(cāng)庫(kù)的分析工具, 但在實(shí)際應(yīng)用中各有側(cè)重,數(shù)據(jù)挖掘可以看作是olap的高級(jí)階段。數(shù)據(jù)挖掘是一種挖掘型的分析工具,建立在數(shù)據(jù)源的基礎(chǔ)上。它主要是利用各種分析方法主動(dòng)地去挖掘大量數(shù)據(jù)中蘊(yùn)涵的規(guī)律,產(chǎn)生一些假設(shè),幫助人們?cè)谶@些假設(shè)的基礎(chǔ)上更有效地進(jìn)行決策;而olap則是一種求證性的分析工具,建立在多維視圖的基礎(chǔ)之上,以數(shù)據(jù)倉(cāng)庫(kù)為直接數(shù)據(jù)源,強(qiáng)調(diào)執(zhí)

13、行效率和對(duì)用戶命令的及時(shí)響應(yīng)。一般由用戶預(yù)先設(shè)定一些假設(shè),然后使用olap去驗(yàn)證這些假設(shè),提供可以使用戶很方便地進(jìn)行數(shù)據(jù)分析的手段。在輔助決策時(shí),前者是基于用戶建立的一系列假設(shè)驅(qū)動(dòng),通過(guò)olap來(lái)證實(shí)或者推翻這些假設(shè),是一個(gè)演繹推理的過(guò)程;數(shù)據(jù)挖掘是通過(guò)歸納的方式,在海量數(shù)據(jù)中主動(dòng)找尋模型,自動(dòng)發(fā)掘隱藏在數(shù)據(jù)中的價(jià)值信息。簡(jiǎn)單地說(shuō)兩者的區(qū)別在于,相對(duì)于olap,數(shù)據(jù)挖掘把更多的主動(dòng)權(quán)交給了挖掘工具,在一定程度上,可以看成是人工智能的初級(jí)應(yīng)用。此外,olap限于結(jié)構(gòu)化數(shù)據(jù),側(cè)重與用戶的交互、快速響應(yīng)以及提供多維視圖,而數(shù)據(jù)挖掘還可以分析諸如文本的、空間的和多媒體的非結(jié)構(gòu)化數(shù)據(jù)。 雖然兩者在不同角

14、度和層面上存在很大的差異,但數(shù)據(jù)挖掘與olap也有一定的互補(bǔ)性,這兩種分析工具本身又是相輔相成的,且界限正在逐漸模糊。olap的分析結(jié)果可以補(bǔ)充到系統(tǒng)知識(shí)庫(kù)中,給數(shù)據(jù)挖掘提供分析信息并作為數(shù)據(jù)挖掘的依據(jù);數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)可以指導(dǎo)olap的分析處理,拓展olap分析的深度,以便發(fā)現(xiàn)olap所不能發(fā)現(xiàn)的更為復(fù)雜、細(xì)致的信息。由此可見(jiàn),olap與數(shù)據(jù)挖掘各有所長(zhǎng),如果能將二者結(jié)合起來(lái),發(fā)展一種建立在olap和數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的新的挖掘技術(shù),將更能適應(yīng)實(shí)際的需要。四 結(jié)束語(yǔ)數(shù)據(jù)挖掘是興起于九十年代的一項(xiàng)用于決策支持的新技術(shù)。作為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的一個(gè)重要步驟,它主要對(duì)數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。隨著各種計(jì)算機(jī)技術(shù),如數(shù)據(jù)模型、數(shù)據(jù)庫(kù)技術(shù)和應(yīng)用開(kāi)發(fā)技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)也在不斷發(fā)展。在數(shù)據(jù)挖掘領(lǐng)域,一些研究成果已被用于各種平臺(tái)下的數(shù)據(jù)挖掘。在數(shù)據(jù)挖掘的許多不同范例和結(jié)構(gòu)中,數(shù)據(jù)挖掘和olap以及在多維數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)集成在一起形成了一種新型的分析技術(shù),聯(lián)機(jī)分析挖掘(olam,也稱olap 挖掘)。對(duì)于數(shù)據(jù)挖掘的應(yīng)用應(yīng)通過(guò)實(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論