版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)研究綜述陶雪嬌,胡曉峰,劉洋(國防大學信息作戰(zhàn)與指揮訓練教研部,北京100091)研究機構Gartne:的定義:大數(shù)據(jù)是指需要新處理模式才能具有更強的決策 力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。維基百科的定義:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主 流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策 目的的資訊。麥肯錫的定義:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi) 容進行采集、存儲、管理和分析的贊據(jù)焦合。數(shù)據(jù) 冊數(shù)據(jù) *數(shù)據(jù)k數(shù)據(jù)致?lián)J綀D2多處理階段模型圖1 IDC全球數(shù)據(jù)使用量預測數(shù)據(jù)挖掘的焦點集中在尋求數(shù)據(jù)挖掘
2、過程中的可視化方法,使知識發(fā)現(xiàn)過程能夠被用戶理解,便于在知識發(fā)現(xiàn)過程中的人機交互;研究在網(wǎng)絡環(huán)境卜的數(shù)據(jù)挖掘技術,特別是在Internet上建立數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)服務器,與數(shù)據(jù)庫服務器配合,實現(xiàn)數(shù)據(jù)挖掘;加強對各種非結構化或半結構化數(shù)據(jù)的挖掘,如多媒體數(shù)據(jù)、文本數(shù)據(jù)和圖像數(shù)據(jù)等。數(shù)據(jù)量的成倍增長挑戰(zhàn)數(shù)據(jù)存儲能力大數(shù)據(jù)及其潛在的商業(yè)價值要求使用專門的數(shù)據(jù)庫技術和專用的數(shù)據(jù)存儲設備, 傳統(tǒng)的數(shù)據(jù)庫追求高度的數(shù)據(jù)一致性和容錯性,缺乏較強的擴展性和較好的系統(tǒng)可用性,小能有效存儲視頻、音頻等非結構化和半結構化的數(shù)據(jù)。目前,數(shù)據(jù)存儲能力的增長遠遠趕小上數(shù)據(jù)的增長,設計最合理的分層存儲架構成為信
3、息系統(tǒng)的關鍵。數(shù)據(jù)類型的多樣性挑戰(zhàn)數(shù)據(jù)挖掘能力數(shù)據(jù)類型的多樣化,對傳統(tǒng)的數(shù)據(jù)分析平臺發(fā)出了挑戰(zhàn)。從數(shù)據(jù)庫的觀點看,挖掘算法的有效性和可伸縮性是實現(xiàn)數(shù)據(jù)挖掘的關鍵,而現(xiàn)有的算法往往適合常駐內(nèi)存的小數(shù)據(jù)集,大型數(shù)據(jù)庫中的數(shù)據(jù)可能無法同時導入內(nèi)存,隨著數(shù)據(jù)規(guī)模的小斷增大,算法的效率逐漸成為數(shù)據(jù)分析流程的瓶頸。要想徹底改變被動局面,需要對現(xiàn)有架構、組織體系、資源配置和權力結構進行重組。對大數(shù)據(jù)的處理速度挑戰(zhàn)數(shù)據(jù)處理的時效性隨著數(shù)據(jù)規(guī)模的小斷增大,分析處理的時間相應地越來越長,而大數(shù)據(jù)條件對信息處理的時效性要求越來越高。傳統(tǒng)的數(shù)據(jù)挖掘技術在數(shù)據(jù)維度和規(guī)模增大時,需要的資源呈指數(shù)增長,面對 PB級以上的海
4、量數(shù)據(jù),N1ogN甚至線性復雜度的算法都難以接受,處理大數(shù)據(jù)需要簡單有效的人工智能算法和新的問題求解方法。數(shù)據(jù)跨越組織邊界傳播挑戰(zhàn)信息安全隨著技術的發(fā)展,大量信息跨越組織邊界傳播,信息安全問題相伴而生,不僅是沒有價值的數(shù)據(jù)大量出現(xiàn),保密數(shù)據(jù)、隱私數(shù)據(jù)也成倍增長,國家安全、知識產(chǎn)權、 個人信息等等都面臨著前所未有的安全挑戰(zhàn)。大數(shù)據(jù)時代,犯罪分子獲取信息更加容易,人們防范、打擊犯罪行為更加困難,這對數(shù)據(jù)存儲的物理安全性以及數(shù)據(jù)的多副本與容災機制提出了更高的要求。要想應對瞬息萬變的安全問題, 最關鍵的是算法和特征,如何建立相應的強大安全防御體系來發(fā)現(xiàn)和識別安全漏洞是保證信息安全的重要環(huán)節(jié)。大數(shù)據(jù)時代
5、的到來挑戰(zhàn)人才資源從大數(shù)據(jù)中獲取價值至少需要三類關鍵人才隊伍:一是進行大數(shù)據(jù)分析的資深分析型人才;二是精通如何申請、使用大數(shù)據(jù)分析的管理者和分析家;三是實現(xiàn)大數(shù)據(jù)的技術支持人才。此外, 由于大數(shù)據(jù)涵蓋內(nèi)容廣泛,所需的高端專業(yè)人才小僅包括程序員和數(shù)據(jù)庫工程師,同時也需要天體物理學家、生態(tài)學家、數(shù)學和統(tǒng)計學家、社會網(wǎng)絡學家和社會行為心理學家等??梢灶A測,在未來幾年,資深數(shù)據(jù)分析人才短缺問題將越來越突顯。同時, 需要具有前瞻性思維的實干型領導者,能夠基于從大數(shù)據(jù)中獲得的見解和分析,制定相應策略并貫徹執(zhí)行。大數(shù)據(jù)分析與處理方法分析孔志文(廣東省民政職業(yè)技術學校,廣州510310)二、大數(shù)據(jù)分析的基本方
6、面大數(shù)據(jù)分析可以劃分為五個基本方而。一是具有預測性分析能力。分析員可以通過數(shù)據(jù)挖掘來更好地理解數(shù)據(jù),而預測性分析是分析員在數(shù)據(jù)挖掘的基礎上結合可視化分析得到的結果做出一些預測性的判斷。二是具有數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理能力 。 數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析的重點,是應用在管理方而的最佳實踐,通過數(shù)據(jù)的標準化流程和工具,可以達到一個預先設定好的高質(zhì)量的分析結果。三是具有可視化分析能力。可視化是服務于分析專家和使用用戶的,數(shù)據(jù)可視化是數(shù)據(jù)分析的基木要求,它可以通過屏幕顯示器直觀地展示數(shù)據(jù),提供給使用者,還可以讓數(shù)據(jù)自己說話,讓使用者聽到結果。四是具有數(shù)據(jù)挖掘算法。 可視化是給數(shù)據(jù)專家和使用用戶提供的,數(shù)據(jù)
7、挖掘是給機器使用的,通過集群、分割、孤立點分析等算法,深入數(shù)據(jù)內(nèi)部,挖掘使用價值,數(shù)據(jù)挖掘算法不僅要處理大量的大數(shù)據(jù),也要保持處理大數(shù)據(jù)的運行速度。五是具有語義引擎。語義引擎能從“文檔” 中只能提取信息,解決了非結構化數(shù)據(jù)多樣性帶來的數(shù)據(jù)分析困擾,通過語義引擎,能解析、提取、分析數(shù)據(jù),完成使用者所需要的信息提取。三、大數(shù)據(jù)處理方法.大數(shù)據(jù)處理流程大數(shù)據(jù)整個處理流程可概括為四步。一是大數(shù)據(jù)采集過程。用戶端數(shù)據(jù)通過多個數(shù)據(jù)庫來接收,用戶可以通過這些數(shù)據(jù)進行簡單的查詢和處理,在大數(shù)據(jù)采集過程中,可能有大量的用戶來進行訪問和操作,并發(fā)訪問和使用量高,有時可峰值可達上百萬,需要采集端部署大量的數(shù)據(jù)庫才能
8、支持止常運行。二是進行大數(shù)據(jù)統(tǒng)計和分析過程。統(tǒng)計和分析是通過對分布式計算集群內(nèi)存儲的數(shù)據(jù)進行分析和分類匯總,通過大數(shù)據(jù)處理方法,以滿足使用者需求,統(tǒng)計與分析主要特點和挑戰(zhàn)是分析所涉及的數(shù)據(jù)量大,極大地占用系統(tǒng)資源。三是大數(shù)據(jù)導入和預處理過程。 因為采集端木身有很多數(shù)據(jù)庫,在統(tǒng)計和分析數(shù)據(jù)時,如果對這些海量數(shù)據(jù)進行有效分析,還應該把來自各個前端數(shù)據(jù)導入集中的大型分布式數(shù)據(jù)庫,也可以導入分布式存儲集群,導入后在集群基礎上再進行簡單的清洗和預處理工作,導入和預處理環(huán)節(jié)主要特點是導入數(shù)據(jù)量大,每秒導入量經(jīng)常達到幾百兆,有時會達到千兆級別。四是大數(shù)據(jù)挖掘過程。數(shù)據(jù)挖掘與統(tǒng)計分析過程不同的是數(shù)據(jù)挖掘沒有預
9、先設定好的主題,主要在依據(jù)現(xiàn)有的數(shù)據(jù)進行計算,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求,達到預測效果。.大數(shù)據(jù)處理技術Hadoop架構。Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。 Hadoop 具有可靠性,能維護多個工作數(shù)據(jù)副木,可以對存儲失敗的節(jié)點重新分布處理。它具有高效性,通過并行處理加快處理速度。具有可伸縮性,能夠處理PB級數(shù)據(jù)。Hadoop架構的關鍵點是借助大量 PC構成一個PC群難以實現(xiàn)對 數(shù)據(jù)的處理。處理數(shù)據(jù)時,現(xiàn)分析數(shù)據(jù),后結合分配的相應電腦處理數(shù)據(jù),最后整合數(shù)據(jù)處理結果。淺談數(shù)據(jù)挖掘技術及其應用舒正渝1.西北師范大學數(shù)信學院計算機系,甘肅蘭州730070; 2.蘭州理工
10、中等專業(yè)學校,甘肅蘭州730050)摘要 :科技的進步,特別是信息產(chǎn)業(yè)的發(fā)展,把我們帶入了一個嶄新的信息時代。數(shù)據(jù)庫管理系統(tǒng)的應用領域涉及到了各行各業(yè),但目前所能做到的只是對數(shù)據(jù)庫中已有的數(shù)據(jù)進行存儲、查詢、 統(tǒng)計等功能,通過這些數(shù)據(jù)獲得的信息量僅占整個數(shù)據(jù)庫信息量的一小部分,如何才能從中提取有價值的知識,進一步提高信息量利用率,因此需要新的技術來自動、智能和快速地分析海量的原始數(shù)據(jù),以使數(shù)據(jù)得以充分利用,由此引發(fā)了一個新的研究方向:數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的理論與技術研究。數(shù)據(jù)挖掘技術在分析大量數(shù)據(jù)中具有明顯優(yōu)勢,基于數(shù)據(jù)挖掘的分析技術在金融、保險、電信等有大量數(shù)據(jù)的行業(yè)已有著廣泛的應用。2 數(shù)據(jù)
11、挖掘的定義數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn) (Knowledge Discovery in Database,簡稱KDD),比較公認的定義是由U. M. Fayyad等人提出的:數(shù)據(jù)挖掘就 是從大量的、小完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中,提取隱含在其中的、 人們事先小知道的、但又是潛在的有用的信息和知識的過程,提取的知識表示為概念(Concepts規(guī)則(Rules規(guī)律(Regularities模式(Patterns滸形式。數(shù)據(jù)挖掘是一種決策支持過程,分析各組織原有的數(shù)據(jù),做出歸納的推理,從中挖掘出潛在的模式,為管理人員決策提供支持。3 數(shù)據(jù)挖掘的過程KDD的整
12、個過程包括在指定的數(shù)據(jù)庫中用數(shù)據(jù)挖掘算法提取模型,以及圍繞數(shù)據(jù)挖掘所進行的預處理和結果表達等一系列的步驟,是一個需要經(jīng)過反復的多次處理的過程。整個知識發(fā)現(xiàn)過程是由若干挖掘步驟組成的,而數(shù)據(jù)挖掘僅是其中的一個主要步驟。整個知識發(fā)現(xiàn)的主要步驟有以下幾點。3. 1 目標定義階段要求定義出明確的數(shù)據(jù)挖掘目標。目標定義是否適度將影響到數(shù)據(jù)挖掘的成敗, 因此往往需要具有數(shù)據(jù)挖掘經(jīng)驗的技術人員和具有應用領域知識的專家以及最終用戶緊密協(xié)作,一方面明確實際工作中對數(shù)據(jù)挖掘的要求,另一方面通過對各種學習算法的對比進而確定可用的算法。3. 2數(shù)據(jù)準備階段數(shù)據(jù)準備在整個數(shù)據(jù)挖掘過程中占的比例最大,通常達到60%左右。
13、這個階段又可以進一步劃分成三個子步驟:數(shù)據(jù)選擇(DataSelection), 數(shù)據(jù)預處理(DataProcessing和數(shù)據(jù)變換(Data Transformation)。數(shù)據(jù)選擇主要指從已存在的數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取相關數(shù)據(jù),形成目標數(shù)據(jù)(Target Data)。 數(shù)據(jù)預處理對提取的數(shù)據(jù)進行處理,使之符合數(shù)據(jù)挖掘的要求。數(shù)據(jù)變換的主要目的是精減數(shù)據(jù)維數(shù),即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時要考慮的特征或變量個數(shù)。3 數(shù)據(jù)挖掘階段這一階段進行實際的挖掘工作。首先是算法規(guī)劃, 即決定采用何種類型的數(shù)據(jù)挖掘方法。然后,針對該挖掘方法選擇一種算法。完成了上述的準備工作后,就可以運行數(shù)
14、據(jù)挖掘算法模塊了。這個階段是數(shù)據(jù)挖掘分析者和相關領域?qū)<易铌P心的階段,也可以稱之為真正意義上的數(shù)據(jù)挖掘。4結果解釋和評估階段根據(jù)最終用戶的決策目的對提取的信息進行分析,把最有價值的信息提取出來。 對于數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式還要經(jīng)過用戶或機器的評估,對于存在冗余或無關的模式要將其刪除;對于小能滿足用戶要求的模式,則需要退回到上一階段。另外, 數(shù)據(jù)挖掘面對的最終用戶是人,因此要對發(fā)現(xiàn)的模式進行可視化,或者把結果轉(zhuǎn)換為用戶易懂的其他方式。數(shù)據(jù)挖掘的研究方向目前研究主要從以卜幾個方面開展:1)針對小同的數(shù)據(jù)挖掘任務開發(fā)專用的數(shù)據(jù)挖掘系統(tǒng)。一個功能很強的數(shù)據(jù)挖掘系統(tǒng)要能夠處理各種類型的數(shù)據(jù)是小現(xiàn)實的,
15、應當根據(jù)特定類型數(shù)據(jù)的挖掘任務構造專用的數(shù)據(jù)挖掘系統(tǒng),如關系數(shù)據(jù)庫挖掘,空問數(shù)據(jù)庫挖掘等。2)高效率的挖掘算法。數(shù)據(jù)挖掘算法必須是高效的, 即算法的運行時問必須是可預測的和可接受的,帶有指數(shù)甚至是中階多項式的算法,沒有實際使用價值。3)提高數(shù)據(jù)挖掘結果的有效性、確定性和可表達性。 對已發(fā)現(xiàn)的知識應能準確地描述數(shù)據(jù)庫中的內(nèi)容,并能用于實際領域。對有缺陷的數(shù)據(jù)應當根據(jù)小確定性度量,以近似規(guī)律或定量規(guī)則形式表示出來。還應能很好地處理和抑制噪聲數(shù)據(jù)和小希望的數(shù)據(jù)。4)數(shù)據(jù)挖掘結果的可視化。數(shù)據(jù)挖掘任務由非領域?qū)<抑付ǎ韵M詈蟀l(fā)現(xiàn)的知識用用戶理解的方式表達出來。5)多抽象層上的交互式數(shù)據(jù)挖掘。交互
16、式數(shù)據(jù)挖掘允許用戶交互地精煉數(shù)據(jù)挖掘需求,動態(tài)改變數(shù)據(jù)焦點,逐步深化數(shù)據(jù)挖掘過程,從小同角度小同抽象層次上靈活地觀察數(shù)據(jù)和挖掘結果。6)多源數(shù)據(jù)挖掘。計算) L網(wǎng)絡把許多數(shù)據(jù)源聯(lián)接在一起,形成巨大的分布式異構數(shù)據(jù)庫。小同來源數(shù)據(jù)的格式和語義小統(tǒng)一, 數(shù)據(jù)挖掘系統(tǒng)應當能夠幫助用戶揭示異構數(shù)據(jù)庫的高級數(shù)據(jù)規(guī)律。今后特別重視把數(shù)據(jù)挖掘技術與工nternet 技術及 weU 技術緊密結合起來,開發(fā)出基于工 nternet 和 WeU 的數(shù)據(jù)挖掘軟件工具。7)數(shù)據(jù)挖掘的安全性和保密性。加強數(shù)據(jù)的安全性和保密性,防比侵犯別人隱私和泄漏敏感信息。3數(shù)據(jù)挖掘方法與技術3. 1數(shù)據(jù)挖掘常用的方法DM的技術基礎是
17、人工智能,人工智能是以自動機為手段,通過模擬人類宏觀外顯的思維行為,從而高效率地解決現(xiàn)實世界問題的科學和技術。僅利用了人工智能中一些已經(jīng)成熟的算法和技術,下而介紹數(shù)據(jù)挖掘和知識發(fā)現(xiàn) 的幾種常用方法。3.1.1人工神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡方法是模擬人腦神經(jīng)元結構,以 MP模型和Hebb學習規(guī)則為 基礎。它主要有三種神經(jīng)網(wǎng)絡模型:前饋式網(wǎng)絡、反饋式網(wǎng)絡、自組織網(wǎng)絡。3. 1.2遺傳算法遺傳算法是模擬生物進化過程的算法,由三個基本算子(或過程)組成: 繁殖(選擇)、交叉(重組)、變異(突變)。3. 1.3決策樹方法決策樹方法是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性宇段,建立決策樹的
18、一個結點,再根據(jù)該屬性宇段的不同取值建立樹的分支;在每個分支集中重復建立樹的下層結點和分支的過程國際上最早的、也是最有影響的決策樹方法是 Quiulan研究的ID3方法。在數(shù)據(jù)采掘和知識發(fā)現(xiàn)中應用的人工智能技術還有鄰近搜索方法、集合論的粗集方法、規(guī)則推理、模糊邏輯、公式發(fā)現(xiàn),等等。3. 2 數(shù)據(jù)挖掘的分析方法Dn 系統(tǒng)利用的技術越多,得出的結果精確性就越高,從功能上可以將Dn的分析方法劃分為以下四種:3. 2. 1 關聯(lián)分析關聯(lián)分析,即利用關聯(lián)規(guī)則進行數(shù)據(jù)挖掘。在數(shù)據(jù)挖掘研究領域,對于關聯(lián)分析的研究開展得比較深入,人們提出了多種關聯(lián)規(guī)則的挖掘算法,如APRIORI,STEM,AIS , DH等
19、算法。關聯(lián)分析的口的是挖掘隱藏在數(shù)據(jù)間的相互關系,它能 發(fā)現(xiàn)數(shù)據(jù)庫中形如“90%的顧客在一次購買?S動中購買商品 A的同時購買商品B, 之類的知識。關聯(lián)分析就是生成所有具有用戶指定的最小置信度和最小支持度的關聯(lián)規(guī)則。3. 2. 2)字列模式分析序列模式分析和關聯(lián)分析法相似,其口的也是為了采掘出數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點在于分析數(shù)據(jù)間的前后(因果)關系。運用序列模式分析銷售記錄,零售商則可以發(fā)現(xiàn)客戶潛在的購物模式,例如客戶在購買微波爐前常購買何種商品。3. 2. 3分類分析設有一個數(shù)據(jù)庫和一組具有不同特征的類別(標記),該數(shù)據(jù)庫中的每一個記錄都賦予一個類別的標記,這樣的數(shù)據(jù)庫稱為示例
20、數(shù)據(jù)庫或訓練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其它數(shù)據(jù)庫中的記錄進行分類。3. 2. 4聚類分析與分類分析法不同,聚類分析法的輸入集是一組未標定的記錄,也就是說此時輸入的記錄還沒有進行任何分類。其口的是根據(jù)一定的規(guī)則,合理地劃分記錄集合,并用顯式或隱式的方法描述不同的類別。此外還如下的有關方法:預測模型、數(shù)據(jù)庫分段、聯(lián)系分析、偏差檢測、可視化等等。3 數(shù)據(jù)挖掘的應用I技術旨在發(fā)現(xiàn)隱藏在大量數(shù)據(jù)之間的尚未被認識的知識,因此數(shù)據(jù)密集 型領域是I的主要應用方向,這些行業(yè)有金融、教育、科學研究、醫(yī)療衛(wèi)生、 產(chǎn)品制造、
21、市場營銷、社會治安等等,很多期刊和會議文獻都有介紹和分析,本 文不在贅述。數(shù)據(jù)挖掘技術及其應用孫義明曾繼東北京 2861-6 分箱 三、數(shù)據(jù)挖掘技術數(shù)據(jù)挖掘是指以提取隱含的定性關系為目的、利用先進商業(yè)軟件工具對海量數(shù)據(jù)資料進行的計算機輔助分析。雖然普通的數(shù)據(jù)庫訪問方式也能獲取與預期結果相符的信息,但數(shù)據(jù)挖掘技術更加注重對先前并不為分析人員所知的隱含模式和關系的發(fā)掘。通過用數(shù)學方法對入庫信息進行系統(tǒng)篩選,數(shù)據(jù)挖掘有助于識別用其他方式很難發(fā)現(xiàn)的重要傾向和模式。.節(jié)點分析節(jié)點分析的目的是確定完全不同的異體之間的關系,而僅從表面上看它們之間并沒有明顯的關聯(lián)。節(jié)占指的早柑壯分舉圖中的分離點.存此圖中.一
22、織數(shù)據(jù)可根據(jù)多種不同算法分成完全不同的類別。從根節(jié)點的劃分(第一分離點)開始,后面的每一節(jié)點都應用一種檢測標準,這種方法一直延續(xù)下去,直到到達樹狀結構圖末端的分離停止處,也就是到達終端節(jié)點。 如果一切進展順利,在這些終端節(jié)點就會發(fā)現(xiàn),已成功分離出所關注的組成員?!癆級威脅”小組成員稱,”在受關注類別中包括9 11劫機犯之一一穆 罕默德阿塔的名字?!边@一方法類似于用硬幣分離器將1 分、 5 分、 1 角和 2 角 5 分硬幣按規(guī)格大小分開。 這時的檢測標準是尺寸大小。當然, 當操作對象不是硬幣而是涉及更復雜分級和更抽象標準的數(shù)據(jù)資料時,這種分類遠非如此簡單直接。最理想的情況但是, 在實際操作中難
23、免會是終端節(jié)點單一明了,比如說只包含單獨一類成員。出現(xiàn)誤分類,因而這些模式需要進一步精確。.數(shù)據(jù)準備數(shù)據(jù)挖掘是被稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD龐雜程序的組成部分,整套程序包括數(shù)據(jù)清理、融合、篩選、轉(zhuǎn)換和挖掘,以及模式評估及最終的認識表達。在探討過程中,數(shù)據(jù)挖掘一詞常常用來描述整個過程,然而, 作為數(shù)據(jù)挖掘先導的數(shù)據(jù)準備往往比實際挖掘更加費時。數(shù)據(jù)挖掘方案初期需關注的較重要事項之一,是仔細研究待分析數(shù)據(jù)的類型。數(shù)據(jù)可分為兩類:結構化數(shù)據(jù)和非結構化數(shù)據(jù)。結構化數(shù)據(jù)駐存在磁盤或文件的固定區(qū)域,相關數(shù)據(jù)庫和電子數(shù)據(jù)表就是典型的結構化數(shù)據(jù)。不在固定位置駐存而是以松散形式存在的數(shù)據(jù)(如文本文檔或圖像)稱為非結
24、構化數(shù)據(jù)。它們各自的字詞很少帶有關聯(lián)信息,但組合到一起就會形成一種語境,其含義可歸結為字詞的集合,但對任何一個單字來說又不具必然性。同樣,就圖像而言,人們通常都是從整體上來解釋一幅圖,而不是分析其各個部分。然而, 對于機器識別來說,可能只需幾個特征就能完成一次精確識別。非結構化數(shù)據(jù)可分為兩個基本類別。第一類是固有的、非語言基礎的文件,如圖像、 視頻或音頻文件。第二類是基于書寫或打印語言的文本文件,如文字處理文檔、 電子郵件或電子數(shù)據(jù)表。盡管存在顯著差異,這兩類非結構化數(shù)據(jù)都能以相同方式進行處理。一種標準處理方式傾向于從文本中識別和提取關鍵特征,而后該文本又可作為分析數(shù)據(jù)使用。這個被稱作特征提取
25、的過程,是對非結構化數(shù)據(jù)進行挖掘的一個關鍵步驟。數(shù)據(jù)整理具有減少內(nèi)存需求和詢問反應時間的計算優(yōu)勢,因而通常有利于待分析數(shù)據(jù)量的精簡。特征提取是通過對基于關鍵字組合的原始數(shù)據(jù)進行分析,生成一組新的、更加簡潔的數(shù)據(jù)。特征提取還可用于圖像中實體目標的識別或分類。假如有人駕駛飛機、無人機和衛(wèi)星上多光譜傳感器的功能得到擴展,只需提取最顯著的特征,就可從龐大的圖庫中發(fā)掘出一個特定區(qū)域。例如, 樹葉紋絡和顏色、 道路樣式、甚至是鄰近建筑的外形,都能夠從無人機拍攝的實時影像中提取出來, 并可從中挖掘出應用了關聯(lián)規(guī)則分析方法的模式。關聯(lián)規(guī)則分析用來描述多條信息一起出現(xiàn)或相互關聯(lián)的情況,并能利用經(jīng)過提煉加工的圖像
26、資料來揭示先前可能并未發(fā)現(xiàn)的、非相關區(qū)域之間的關系,比如預示有地下掩體的地形地貌和道路連通方式。.分類預測結束信息采集和加工后,可利用多種方法對數(shù)據(jù)資料進行模式化處理。這些挖掘手段旨在識別那些可用于未來預測的現(xiàn)有數(shù)據(jù)資料的特征。關聯(lián)規(guī)則挖掘可用來描述多條信息一起出現(xiàn)或相互關聯(lián)的情況,關聯(lián)規(guī)則通常是 “如果 , , 那么 , 。 ”的構成形式。這些方法可用于營銷研究,以確定產(chǎn)品布局,或者是通過對制造爆炸裝置最有可能購買的物品的確認來實現(xiàn)預防犯罪的目的。利用關聯(lián)規(guī)則對某國軍事基地之間的車輛活動進行挖掘分析,從而確定該國是在轉(zhuǎn)運剩余物資還是在進行戰(zhàn)爭準備。分類預測術屬于古時候的發(fā)明,人們利用這種技術
27、創(chuàng)造出一個模型,以便對未來數(shù)據(jù)中的類似事件進行預測。此產(chǎn)品由一種能夠?qū)⒎诸悢?shù)據(jù)歸類的分類樹構成。 分類法是一種能夠?qū)⒛承┦荜P注特征從對象總體中分離出來的普通方法,其基礎是來自于一套己知訓練數(shù)據(jù)的模型。這些訓練模型可用來識別和預測未知數(shù)據(jù)的類似模式。作為最古老的數(shù)據(jù)挖掘方法之一的聚類分析法和最近鄰分類法的原理十分簡單,即具有共性的事物之間比無共性的事物之間的聯(lián)系更為緊密。分類預測會產(chǎn)生誤分類風險。誤分類問題的典型案例出現(xiàn)在1999 年春天,當時美國防部將原有的一個項目分配給了美陸軍情報與保密司令部信息控制中心。此項目旨在利用數(shù)據(jù)相關工具確定那些方法是否適用于反情報作戰(zhàn)。這次實驗的目的是確定數(shù)據(jù)挖
28、掘能否識別前方公司存在對中國的技術泄密風險。大量關聯(lián)圖表揭示了技術轉(zhuǎn)讓的諸多途徑,其中涉及一些知名人物,例如時任斯坦福大學教務長的康多利扎賴斯和美國防部前任部長威廉科恩。當然,這些誤分類很容易識別,但方法問題和眾多潛在(或錯誤)關聯(lián)將嚴重損害用同一模式得出的其他分類的價值。兼任美國眾議院武裝部隊委員會和眾議院國家安全委員會副主席的科特韋爾登,2005年9月在參議院司法委員會的聽證會上就“ A級威脅”問題作證時 稱,雖然早在2001年就有人提出要廢棄“ A級威脅”,但一個新的數(shù)據(jù)挖掘項目 己在美國防部內(nèi)部得到了廣泛提議。該項目呼吁組建一個名為A級預測(AbleProvidence ),類似于“A
29、級威脅”的小組,在海軍情報部門負責人領導下從可公開利用的開放源信息中搜集情報。.文本挖掘?qū)τ诜墙Y構化文本數(shù)據(jù)來說,作為從多種文本源中提取信息的結果,文本挖掘 (數(shù)據(jù)挖掘的一種)是對先前未知模式的層層剝離。數(shù)據(jù)被聯(lián)接起來,從而形成新的理論或引出深層含義。有人可能會把文本挖掘與使用互聯(lián)網(wǎng)搜索引擎尋找信息這類做法聯(lián)系在一起,但網(wǎng)上搜索只能查找那些已知的、有所記述的主題,而文本挖掘的目的是發(fā)現(xiàn)未知信息,很可能是以前沒有明確記述的信息。通過對電子郵件信息、網(wǎng)上聊天室和其他文本源進行分析,文本挖掘可以成為一種用來搜尋潛在恐怖主義威脅的工具,美國隋報機構對此很感興趣。在英語方面,文本挖掘已經(jīng)是一項十分龐大和
30、艱巨的任務,而其他語言文本使這項工作更加復雜。常規(guī)數(shù)據(jù)挖掘與文本挖掘的一個重要區(qū)別是,文本挖掘是從自然語言文本中提取一些模式,而不是從實際常規(guī)系統(tǒng)的事實數(shù)據(jù)庫中提取。從原始文本資料到內(nèi)容總結過程中的用語提取,使文本資料中使用頻率最高的字詞和短語被羅列出來, 而諸如連詞之類的常用詞并不包括在內(nèi)。較為困難的是獲得這些字頻列表并用某種數(shù)學模式來確定是否能提取出有意義的內(nèi)在關聯(lián)。文本挖掘的一種分析方式被稱為潛在語義索引(LSI ,) 它更注重從文獻庫中提取字詞的潛在含義(dimension )。 換言之, 一種普通語境被賦予了多種語義。Google這類搜索引擎也會用到LSI以改善同義和多義情況下的文件
31、查詢和信息檢索。就同義來說,不同作者可能使用不同詞語來描述同一種想法,因此, 當一個人就某個主題進行查詢、但使用的主題詞與實際出現(xiàn)在文獻中的并不相同時,他可能就無法檢索到這個文獻。相反,就多義來說,同一詞語可能有多重含義,因此, 檢索者有可能查到并非自己想要的、而是與其他備選含義對應的文獻。應用LSI的目的是找到信息檢索的最理想層次。LSI充分利用概念性文獻內(nèi)容。舉例來說,檢索不是對個別項的搜索,而是一種概念性搜索,比如,別克、豐田和福特在概念上都是被視為汽車,而不是它們各自的標識。LSI的主旨是對可成圖(mapped濘詞的潛在語境或語句源予以確認。而后這些個別項被“成圖”到一個能夠?qū)⑺鼈冇脭?shù)
32、學方法表現(xiàn)出來的“概念空間” 。遺憾的是,由于所有信息都是以不帶語義的數(shù)字形式存在,人類并非很容易就能理解此概念空間。這會使 LSI難以理解,因而必須用專業(yè)軟件完成結果解釋并進行適當數(shù)值分配。針對同現(xiàn)詞找出有意義的關聯(lián)規(guī)則是文本挖掘面臨的一個主要挑戰(zhàn)。一個詞(例如“炸彈, )與其他不同的詞(如 “戰(zhàn)爭” 或 “百老匯, )組合時。數(shù)據(jù)挖掘技術及其應用袁溪(西安義理學院陜西西安11006.5)數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(Data Mining, DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。發(fā)現(xiàn)了的知識可以被用于信
33、息管理、查詢優(yōu)化、決策支持、過程控制等, 還可以進行數(shù)據(jù)自身的維護。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計技術和人工智能以及知識工程等領域的研究成果構建自己的理淪體系,是一個交叉學科領域,集成了數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等技術作為多學科綜合產(chǎn)物的數(shù)據(jù)挖掘技術雖然歷史較短,但從 20 世紀 90 年代以來,由于其面對海量數(shù)據(jù)處理的有效性使得它越來越引起人們的重視,發(fā)展速度很快從某種意義上說,數(shù)據(jù)挖掘(DM)是數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD)勺一個過程,然而,大部分學者 認為KDD和DM是兩個等價的概念,研究人工智能的人習慣稱 KDD,而研究數(shù) 據(jù)庫的人習慣稱DM我們對KDD和DM不進行區(qū)分,統(tǒng)
34、稱為數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術數(shù)據(jù)挖掘的過程雖然我們把各個步驟按順序排列,但要注意數(shù)據(jù)挖掘過程并不是線性的。要取得好的結果就要不斷反復重復這些步驟。各步驟的內(nèi)容如下確定業(yè)務對象:清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的。(2)數(shù)據(jù)準備:數(shù)據(jù)的選擇:搜索所有與業(yè)務對象有關的內(nèi)部和外部數(shù)據(jù)信息, 并從中選擇出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù)數(shù)據(jù)的預處理:研究數(shù)據(jù)的質(zhì)量,為進一步的分析做準備。并確定將要進行的挖掘操作的類型。數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個分析模型。這個分析模型是針對挖掘算法建立
35、的。建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關鍵。(3)數(shù)據(jù)挖掘:對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘。除了選擇合適的挖掘算法外,其余一切工作都能自動地完成(4)結果分析:解釋并評估結果其使用的分析方法一般應作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術。(5)知識的同化:將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結構中去。數(shù)據(jù)挖掘技術的任務(1)關聯(lián)分析:關聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。若兩個或多個數(shù)據(jù)項的取值之間重復出現(xiàn)且概率很高時,就存在某種關聯(lián),可以建立起這些數(shù)據(jù)項的關聯(lián)規(guī)則例如,買面包的顧客有9 0 0,6的人還買牛奶,這是一條關聯(lián)規(guī)則若商店中將面包和牛奶放在一起銷偉,將
36、會提高它們的銷量。(2)l 列模式 :通過時間序列搜索出重復發(fā)生概率較高的模式。序列模式分析非常適于尋找事物的發(fā)生趨勢或重復性模式例如,在所有購買了激光打印機的人中,半年后80%的人再購買新硒鼓,20%的人用舊硒鼓裝碳粉,在所有購買了彩色電視機的人中,有60%的人再購買VCD產(chǎn)品(3)聚類:數(shù)據(jù)庫中的數(shù)據(jù)可以劃分為一系列有意義的子集,即類在同一類別中, 個體之間的距離較小,而不同類別的個體之間的距離偏大。聚類增強了人們對客觀現(xiàn)實的認識,即通過聚類建立宏觀概念例如雞、鴨、鵝等都屬于家禽(4)分類:分類是數(shù)據(jù)挖掘中應用得最多的任務。分類是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的
37、內(nèi)涵描述。(5)偏差檢側(cè):偏差檢測是用來發(fā)現(xiàn)與正常情況不同的異常和變化,并進一步分析這種變化是否是有意的詐騙行為,還是正常的變化如果是異常行為,則提示預防措施,如果是正常的變化,那么就需要更新數(shù)據(jù)庫記錄。4 數(shù)據(jù)挖掘技術的發(fā)展方向數(shù)據(jù)挖掘面臨著許多挑戰(zhàn)性的研究問題,這也是該技術未來發(fā)展的一個方向和趨勢。4. 1 可仲縮的和交互的數(shù)據(jù)挖掘方法與傳統(tǒng)的數(shù)據(jù)分析方法相比,數(shù)據(jù)挖掘必須能夠有效的處理大量數(shù)據(jù),并盡可能是交互的由于收集的數(shù)據(jù)量不斷劇增,因此對于單個和集成的數(shù)據(jù)挖掘功能, 可仲縮的算法顯得十分重要。它致力于在增加用戶交互的同時,全面提高挖掘過程的總效率。4. 2 Web挖掘由于 Web 上
38、存在大量信息,并且Web 在當今社會扮演的角色越來越重要,Web內(nèi)容挖掘Web日志挖掘和互聯(lián)網(wǎng)上數(shù)據(jù)挖掘服務將成為數(shù)據(jù)挖掘中最重要和興旺的領域之一。4. 3 分布式數(shù)據(jù)挖掘傳統(tǒng)的數(shù)據(jù)挖掘方法是集中式的,在當今很多分布式計算環(huán)境不能很好的工作因此,分布式數(shù)據(jù)挖掘方法是未來一個重要的研究課題。4.4可視數(shù)據(jù)挖掘可視數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)知識的一種有效途徑。可視數(shù)據(jù)挖掘技術的系統(tǒng)研究與開發(fā)將有助于推動和使用數(shù)據(jù)挖掘作為數(shù)據(jù)分析的基本工具。4.5生物數(shù)據(jù)挖掘盡管生物數(shù)據(jù)挖掘可以看做“應用探索”和“挖掘復雜數(shù)據(jù)類型”,但是生物數(shù)據(jù)獨特的復雜性、豐富性、 規(guī)模和重要性需要數(shù)據(jù)挖掘的特殊關注挖掘DNA和
39、蛋自質(zhì)序列、挖掘高維微陣列數(shù)據(jù)、生物路徑和網(wǎng)絡分析,以及通過數(shù)據(jù)挖掘集成生物數(shù)據(jù)都是生物數(shù)據(jù)挖掘有趣課題。數(shù)據(jù)挖掘技術及其在決策支持系統(tǒng)中的應用Data Mining Technique and the Application in the Decision Support Systems米浦波 郭景峰(燕山大學計算機科學系劉國華 秦皇島 066004a 數(shù)據(jù)挖掘技術及其產(chǎn)生的結果數(shù)據(jù)挖掘技術可以劃分為五大類方法:預測建模法(Predictive Modeling),聚類法(Clustering),概括方法(Summarization),相關模型法(Dependency Modeling)和
40、變化及偏差探測法(Change and Deviation Detection)lo預測建模法是在數(shù)據(jù)庫中基于某些字段而對一個或幾個字段進行預測,當被預測字段值是連續(xù)值時,預測問題是一個回歸問題,線性回歸分析法、神經(jīng)網(wǎng)絡可以解決回歸問題;而當被預測字段值是枚舉值時,這一問題是一個分類問題,遺傳算法和決策樹方法都是得到普遍使用的分類法。聚類法又稱為無指導的分類( Unsupervised Classification, )它的宗旨是實事求是的按被處理對象的特征將數(shù)據(jù)劃分為各個子集。聚類法具體分為三種:距離度量法(Metric-distance based methods ),樣本法(Model-
41、based methods)和分割法(Partition-based methods )。 它與分類的區(qū)別是分類是在訓練數(shù)據(jù)集中進行,數(shù)據(jù)的類別是已知的。概括方法要做的是產(chǎn)生各個數(shù)據(jù)子集的特征概括及尋找數(shù)據(jù)字段與字段間的關系。 統(tǒng)計學的知識在前者用途廣泛,而關聯(lián)規(guī)則所要做的工作屬于后者的范疇。相關模型法是從數(shù)據(jù)中找到因果關系。通過導出數(shù)據(jù)中的不規(guī)則的結構,通常能加深對數(shù)據(jù)的理解。因果關系的模型既可以是隨機產(chǎn)生的(如 :關于概率分布控制數(shù)據(jù)的陳述),也可以是確定的(如 :數(shù)據(jù)中字段間的函數(shù)相關性),密度估計法、不規(guī)則建模法4通常屬于這一范疇。變化及偏差探測法用來解釋時間序列或其它類型序列的信息,
42、如:量值隨時間的變化;還有檢測異常情況,如:分類中的反常實例,模式的例外,觀察結果對模型預測的偏差。這一類方法的顯著特點是對信息的觀察次序很重要。數(shù)據(jù)挖掘技術可以產(chǎn)生五種基本的數(shù)據(jù)類型。第一種是關聯(lián)信息,它顯示與單個事件相關聯(lián)的信息,典型的例子是啤酒一尿布間題;第二種是序列信息,它顯示了在總的時間內(nèi)相鏈接的一些事件;第三種是分類信息,它是最常用的一種信息,描述了一組事物特性的模式;第四種是聚類信息,它把那些沒有類別的數(shù)據(jù)聚類成多各類別,給用戶“物以類聚”的宏觀概念 ;第五種是預測信息,它可以通過使用隱藏在數(shù)據(jù)中的模型來估計一些數(shù)據(jù)的未來值。3 數(shù)據(jù)挖掘過程的各個階段數(shù)據(jù)挖掘是從數(shù)據(jù)中識別真實、
43、新穎、有用的、可理解的信息的復雜過程。盡管如今人們的研究重點放在對挖掘算法的研制、分析與應用上,但數(shù)據(jù)選擇和數(shù)據(jù)的預處理卻是整個挖掘過程中最耗時的活動, 并 且它們的結果影響整個過程是否能夠成功產(chǎn)生結果。圖1描述了數(shù)據(jù)挖掘的一般 過程,它是一個迭代過程。下面就過程的不同階段分別描述。數(shù)提倉庫軻苴定義數(shù)據(jù)庫圖I數(shù)據(jù)挖掘過程的主要步費羊相與露咪堀數(shù)據(jù)預處理在挖掘算法開始執(zhí)行以前還要進行一項復雜耗時的工作一數(shù)據(jù)預處理,它可以提高算法的精度,產(chǎn)生更可靠的結果,對決策支持更有效。側(cè)除噪音由于歷史或人為的原因,數(shù)據(jù)庫中不可避免的存在錯誤數(shù)據(jù)一噪音。錯誤有兩類屬性錯誤和分類錯誤。噪音的干擾會大大降低算法的精
44、度,所以要將它們 刪除掉。但噪音卻是不可能完全避免的,許多挖掘算法采取各自相應的優(yōu)化措施 提高精度,如決策樹建模法采用剪枝的方法hl0遺失值填充數(shù)據(jù)遺失值填充問題是預處理過程中的一個難點。 如果將具有遺失值的數(shù)據(jù) 刪除掉,不僅會造成資源的浪費,還會丟失掉隱藏在數(shù)據(jù)中、數(shù)據(jù)挖掘任務所尋 求的信息。尤其在數(shù)據(jù)量不大的情況下,對遺失值進行填充尤為重要。另一方面, 對遺失值的不正確的填充卻會引人新的噪音,產(chǎn)生負面影響。目前在解決這一問題上已經(jīng)提出了許多解決方案。它們大多尋求數(shù)據(jù)中屬性值與屬性值之間的關 系、屬性與屬性之間的關系、屬性值與屬性之間的關系來對遺失值進行填充8在這一方面的研究中,我們引人“相
45、似度”的概念,從數(shù)據(jù)與數(shù)據(jù)間的關系人手, 提出一個基于決策樹的遺失值填充的新算法。數(shù)據(jù)類型的轉(zhuǎn)化根據(jù)不同實際情況需要把數(shù)據(jù)的類型轉(zhuǎn)化:將連續(xù)型數(shù)據(jù)值離散化或?qū)㈦x散型數(shù)據(jù)值連續(xù)化。例如使用決策樹方法中的m3 時,由于m3 處理離散型數(shù)值,可利用二分法將數(shù)據(jù)中屬性值為連續(xù)型的轉(zhuǎn)化為離散型,然后在建立決策樹。挖掘數(shù)據(jù)這是整個挖掘過程的核心部分,也是人們當前研究工作的重點。許多算法被研制并得到使用、推廣。 已經(jīng)有許多成熟的挖掘技術在實踐中應用。如決策樹方法在醫(yī)療3、 金融領域 91 得到廣泛的使用。一項挖掘工作是一個龐大復雜的工程, 使用單一的挖掘方法通常無法完成任務,需要對多種方法綜合使用。而技術的
46、綜合通常產(chǎn)生更高的效率,這也是挖掘技術未來發(fā)展的新方向之一。評價挖掘結果及優(yōu)化在挖掘結果產(chǎn)生后通常要對結果進行評價,判斷它的可靠性、可理解性及效率。 如果一個挖掘結果是不可靠或是難于理解,那么它的可用性就會很低甚至是不可用的。對挖掘結果的評價也是對挖掘算法好壞優(yōu)略的衡量。如在決策樹算法中, 通常把數(shù)據(jù)分為訓練數(shù)據(jù)集和測試集,從訓練數(shù)據(jù)集產(chǎn)生的決策樹要在測試集中測試數(shù)據(jù)精確性,并進行優(yōu)化。當精度太低時,就沒有進行優(yōu)化的必要了。由于噪音不可完全避免,優(yōu)化就顯得尤為重要。如今, 人們將各種方法綜合使用,取長補短。如:在測試集中,用遺傳算法對決策樹進行優(yōu)化,解決它的全局最優(yōu)問題。結果的可視化這是一個以
47、什么樣的形式將知識展現(xiàn)給使用者的問題。知識的表示方法對決策支持很重要,尤其是高層決策人士不了解具體的知識產(chǎn)生過程,恰當?shù)谋硎緦λ麄冋_的選擇、利用知識起關鍵的作用。傳統(tǒng)的方法是將知識用公式、規(guī)則、表或圖來表示?,F(xiàn)在大多數(shù)的研究是如何利用可視化技術形象、生動、 具體的表示挖掘到的知識。4 數(shù)據(jù)挖掘在決策支持系統(tǒng)中的應用無論最終挖掘出來的結果是用來描述/理解、預測或是干預,我們尋求知識的目的都是為了運用知識,提高決策支持的能力。由于數(shù)據(jù)挖掘技術的發(fā)展,為決策支持系統(tǒng)開辟了新的發(fā)展方向,數(shù)據(jù)挖掘系統(tǒng)作為一個子系統(tǒng)在決策支持系統(tǒng)中發(fā)揮著重要的作用。如圖2 所示,描述了新決策支持系統(tǒng)的基本結構。用戶卜問
48、題綜合與交互系統(tǒng)新決策支持系統(tǒng)結構大數(shù)據(jù)分析與處理方法分析孔志文(廣東省民政職業(yè)技術學校,廣州510310)數(shù)據(jù)挖掘技術、應用及發(fā)展趨勢(重要內(nèi)容)張春華王陽(空軍第二航空學院,長春130022)引言世紀之交,隨著數(shù)據(jù)庫和網(wǎng)絡等技術的迅速發(fā)展,我們產(chǎn)生和收集數(shù)據(jù)的能力已經(jīng)迅速提高,大量的數(shù)據(jù)儲存在數(shù)據(jù)庫和數(shù)據(jù)倉庫中,我們已被淹沒在數(shù)據(jù)和信息的汪洋大海中。人們需要有新的、更有效的手段地各種大量數(shù)據(jù)進行挖掘以發(fā)揮其潛能,數(shù)據(jù)挖掘正是在這樣的應用需求環(huán)境下產(chǎn)生并迅速發(fā)展起來的,它的出現(xiàn)為自動和智能地把海量的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識提供了手段。KDD與數(shù)據(jù)挖掘KDD (Knowledge Disco
49、very In DatabaseD識發(fā)現(xiàn)是從大量數(shù)據(jù)中提取出可信的、新穎的、 有效的并能被人理解的模式的處理過程。DM (Data Iv&ning )一數(shù)據(jù)挖掘是KDD過程的一個重要步驟,它是從大量的、不完全的、不噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。一個典型的數(shù)據(jù)挖掘系統(tǒng),一般是由圖1 所示的幾個部分組成。數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器,存儲著用戶將要挖掘的,所感興趣的數(shù)據(jù)。知識庫是領域知識的一個應用,它用于引導搜索或評估挖掘的結果模式是否有意義,是知識的不同屬性或?qū)傩灾颠M行不同層次的抽象。數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)所必不可少的部
50、分,理想的是由一些列而向任務的功能模塊組成,如特征分析、相關分析、分類、 評估以及偏差分析。模式評估模塊運用各種興趣尺度對得到的模式進行評估同時還與數(shù)據(jù)挖掘掘模塊進行交互,使挖掘的方向集中在感興趣的模式上。用戶的圖形界而接口是用戶和數(shù)據(jù)挖掘系統(tǒng)交互的接口。允許用戶指定有關參數(shù)的值,直接參與到數(shù)據(jù)挖掘的查詢、搜索中。用戶圖形界面接口1 廠廠: 模式評一數(shù)據(jù)挖掘數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器數(shù)據(jù)清洗,數(shù)據(jù)集成,過濾二數(shù)據(jù)基地數(shù)據(jù)倉庫數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(Data Mining,簡稱DM),歷史雖然較短,但從20世紀90年代以 來,它的發(fā)展速度很快,加之它是多學科綜合的產(chǎn)物,目前還沒有一個完整的定 義,人
51、們提出了多種數(shù)據(jù)挖掘的定義4,例如:SASW究所(1997): “在大量相關數(shù)據(jù)基礎之上進行數(shù)據(jù)探索和建立相關模型的 先進方法”。Bhavani (1999):使用模式識別技術、統(tǒng)計和數(shù)學技術,在大量的數(shù)據(jù)中發(fā) 現(xiàn)有意義的新關系、模式和趨勢的過程”。Hand et al (2000): “數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價值信息 的過程”。以下給出一個被普遍采用的定義描述:數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn) (Knowledge Discovery from Database簡稱KDD),它是一個從大量數(shù)據(jù)中抽取挖 掘出未知的、有價值的模式或規(guī)律等知識的復雜過程。數(shù)據(jù)挖掘的全過程定義描述
52、如圖1.1所示4圖L1數(shù)據(jù)挖掘全過程數(shù)據(jù)挖掘系統(tǒng)總體結構基于圖1.1所示的數(shù)據(jù)挖掘過程,一個典型的數(shù)據(jù)挖掘系統(tǒng) (如圖1.2所示) 主要包含以下主要部件4.數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫,它表示數(shù)據(jù)挖掘?qū)ο笫怯梢粋€(或組、數(shù)據(jù)庫、 數(shù)據(jù)倉庫、數(shù)據(jù)表單或其它信息數(shù)據(jù)庫組成。通常需要使用數(shù)據(jù)清洗和數(shù)據(jù)集成 操作,對這些數(shù)據(jù)對象進行初步的處理。數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器,這類服務器負責根據(jù)用戶的數(shù)據(jù)挖掘請求,讀取相關的數(shù)據(jù)。知識庫,此處存放數(shù)據(jù)挖掘所需要的領域知識, 這些知識將用于指導數(shù)據(jù)挖掘的 搜索過程,或者用于幫助對挖掘結果的評估。挖掘算法中所使用的用戶定義的閡 值就是最簡單的領域知識。數(shù)據(jù)挖掘引擎,
53、這是數(shù)據(jù)挖掘系統(tǒng)的最基本部件,它通常包含一組挖掘功能模塊, 以便完成定性歸納、關聯(lián)分析、分類歸納、進化計算和偏差分析等挖掘功能。.模式評估模塊,該模塊可根據(jù)趣味標準(interestingness measures)協(xié)助數(shù)據(jù)挖 掘模塊聚焦挖掘更有意義的模式知識。當然該模塊能否與數(shù)據(jù)挖掘模塊有機結合,與數(shù)據(jù)挖掘模塊所使用的具體挖掘算法有關。顯然若數(shù)據(jù)挖掘算法能夠與知識評估方法有機結合將有助提高其數(shù)據(jù)挖掘的效率。5.可視化用戶界面,該模塊幫助用戶與數(shù)據(jù)挖掘系統(tǒng)本身進行溝通交流。一方面 用戶通過該模塊將自己的挖掘要求或任務提交給挖掘系統(tǒng),以及提供挖掘搜索所需要的相關知識;另一方面系統(tǒng)通過該模塊向用戶展示或解釋數(shù)據(jù)挖掘的結果或中間結
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高考語文復習知識清單第2章文學類文本閱讀(一)小說專題01賞析小說故事情節(jié)(學生版+解析)
- 臍橙樹打藥安全責任書承包合同(2篇)
- 南京工業(yè)大學浦江學院《專業(yè)綜合實訓(通信工程)》2022-2023學年第一學期期末試卷
- 南京工業(yè)大學浦江學院《審計學》2023-2024學年第一學期期末試卷
- 多變的紙條說課稿
- 小石城7#樓 施工組織設計
- 南京工業(yè)大學浦江學院《建筑給水排水工程》2023-2024學年第一學期期末試卷
- 《小石潭記》說課稿
- 小學音樂面試《哦十分鐘》說課稿
- 南京工業(yè)大學《中日比較文學》2022-2023學年第一學期期末試卷
- 醫(yī)院培訓課件:《ECMO概述及其護理》
- 餐飲門店運營管理手冊
- 《生物試卷分析》課件
- 反賄賂與反腐敗的危機防控
- 學校食堂維修合同書
- 護士如何處理病患的溝通和沖突問題
- 泵與泵站知識點總結
- 輪對-輪對的故障與檢修限度(車輛構造檢修課件)
- 2023年永生花行業(yè)分析報告及未來五至十年行業(yè)發(fā)展報告
- 12、口腔科診療指南及技術操作規(guī)范
- 人居環(huán)境科學講義
評論
0/150
提交評論