版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)倉庫學號:1004458班級:193113姓名:華秀指導老師:李程俊1月20日目錄TOC\o"1-2"\h\u9028一、數(shù)據(jù)倉庫的定義 15013二、實時數(shù)據(jù)倉庫的技術基礎和研究現(xiàn)狀 21961.技術基礎: 257602.研究現(xiàn)狀 613922三、什么是OLTP、OLAP它們的區(qū)別有哪些? 62225OLTP: 615442OLAP: 68304OLAP和OLTP的區(qū)別 715110四、OLAP有哪些操作 72724五、數(shù)據(jù)立方體 88469六、數(shù)據(jù)挖掘分類 925493七、數(shù)據(jù)挖掘技術 102444(1)決策樹辦法 104722(2)關聯(lián)規(guī)則 1032208(3)神經(jīng)網(wǎng)絡 101590(4)遺傳算法 1014193(5)聚類分析 111711(6)統(tǒng)計學習 1127031(7)粗糙集 118874八、Kmeans聚類算法 11一、數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫之父BillInmon在1991年出版的“BuildingtheDataWarehouse”一書中所提出的定義被廣泛接受:數(shù)據(jù)倉庫(DataWarehouse)是一種面對主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策(DecisionMakingSupport)。對于數(shù)據(jù)倉庫的概念我們能夠從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面對分析型數(shù)據(jù)解決,它不同于公司現(xiàn)有的操作型數(shù)據(jù)庫;另首先,數(shù)據(jù)倉庫是對多個異構的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),并且寄存在數(shù)據(jù)倉庫中的數(shù)據(jù)普通不再修改。數(shù)據(jù)倉庫是近年來才提出的新概念.所謂數(shù)據(jù)倉庫(DataWarehouse)是指這樣一種數(shù)據(jù)的存儲地,來自于異地、異構的數(shù)據(jù)源或數(shù)據(jù)庫的數(shù)據(jù)經(jīng)加工后在數(shù)據(jù)倉庫中存儲、提取和維護.傳統(tǒng)數(shù)據(jù)庫重要面對業(yè)務解決,而數(shù)據(jù)倉庫面對復雜數(shù)據(jù)分析、高層決策支持.數(shù)據(jù)倉庫提供來自種類不同的應用系統(tǒng)的集成化和歷史化的數(shù)據(jù),為有關部門或公司進行全局范疇的戰(zhàn)略決策和長久趨勢分析提供了有效的支持.數(shù)據(jù)倉庫使顧客擁有任意提取數(shù)據(jù)的自由,而不干擾業(yè)務數(shù)據(jù)庫的正常運行.現(xiàn)在,某些公司已經(jīng)在傳統(tǒng)數(shù)據(jù)解決方面有了較豐富的經(jīng)驗,他們采用數(shù)據(jù)倉庫但愿能從中得到更多好處,例如,以合理的代價獲得有效的決策支持、增進公司中業(yè)務解決過程的重組、改善并強化對客戶的服務、強化公司的資產/負債管理、增進市場優(yōu)化、加速資金周轉、協(xié)助實現(xiàn)公司的規(guī)模優(yōu)化.數(shù)據(jù)倉庫的產生和發(fā)展為數(shù)據(jù)采掘技術開辟了新的戰(zhàn)場,同時也提出了新的規(guī)定和挑戰(zhàn).現(xiàn)在的研究還重要著眼于數(shù)據(jù)倉庫的構建和維護的基本理論、辦法上,例如數(shù)據(jù)倉庫更新問題的研究,由于這是邁向實用化的第一步的、首要的任務.下一步將把重點放在數(shù)據(jù)倉庫的有效應用研究上.為高級的決策支持服務是數(shù)據(jù)倉庫的最后目的,因此基于數(shù)據(jù)倉庫的數(shù)據(jù)采掘理論和技術的研究,自然成為信息科學學術界的熱點問題.二、實時數(shù)據(jù)倉庫的技術基礎和研究現(xiàn)狀1.技術基礎:數(shù)據(jù)倉庫系列技術,重要支撐技術有下列某些:數(shù)據(jù)庫技術、ETL技術、OLAP技術、元數(shù)據(jù)管理技術、前臺呈現(xiàn)技術、報表技術、挖掘技術、仿真優(yōu)化技術。這些支撐技術結合各行業(yè)業(yè)務后,能夠生產各式各樣的應用。固然這些技術中,重點突出了在數(shù)據(jù)倉庫方面的特性,而無視了計算機技術的某些特性。例如:OLAP技術,那么就需要計算機存儲技術、壓縮技術、分區(qū)技術、加解密技術、圖形化技術等等,這里就不再單獨列示。數(shù)據(jù)庫技術是支撐數(shù)據(jù)倉庫技術的最基礎技術。有關系數(shù)據(jù)庫、層次數(shù)據(jù)庫、網(wǎng)絡數(shù)據(jù)庫等類型,現(xiàn)在呈現(xiàn)比較好的發(fā)展態(tài)勢的對象關系數(shù)據(jù)庫也是一種類型。最典型的是關系數(shù)據(jù)庫的應用。在數(shù)據(jù)倉庫實踐中,關系數(shù)據(jù)庫是實質的數(shù)據(jù)庫存儲工具,但針對不同的數(shù)據(jù)倉庫方案,有的關系數(shù)據(jù)庫是還提供了有關的數(shù)據(jù)倉庫元素的查詢函數(shù)或組件,在支撐數(shù)據(jù)倉庫數(shù)據(jù)存儲的基礎上,還能支撐數(shù)據(jù)倉庫的數(shù)據(jù)探查,例如:Teradata,但是,大部分數(shù)據(jù)庫,以及在大部分數(shù)據(jù)倉庫建設方案中,只是運用數(shù)據(jù)庫作為數(shù)據(jù)存儲的工具。這樣,實質上數(shù)據(jù)倉庫與數(shù)據(jù)庫在技術體現(xiàn)看起來可能是同樣的,但是,在系統(tǒng)存儲模型上卻有著本質的區(qū)別。數(shù)據(jù)庫技術在存儲模型建設方面強調數(shù)據(jù)模型的規(guī)范性和高效存儲能力(少冗余),例如:關系模式符合第三范式。但是,數(shù)據(jù)倉庫技術在存儲模型建設方面強調數(shù)據(jù)查詢的方便性和快速響應能力。那么,在數(shù)據(jù)倉庫技術存儲模型方面,基于數(shù)據(jù)庫技術而發(fā)展的關系模式的理念已經(jīng)被顛覆,取而代之是多個各樣的數(shù)據(jù)倉庫數(shù)據(jù)模型。如:星型模型,雪花模型等等。數(shù)據(jù)庫表也將原來的關系模式改稱為了事實表和維表,將原來數(shù)據(jù)庫技術中并不關心的屬性域及之間的關系,也分別取了自己的業(yè)務名稱,如:維度,量度,層次,粒度等。星形構造數(shù)據(jù)模型:
雪花構造數(shù)據(jù)模型:
兩者區(qū)別:星型架構中,每個維度都有一種由某些部分構成的主鍵,該主鍵連接到事實數(shù)據(jù)表中由多個部分構成的主鍵的一種部分。在雪花模型中,一種或多個維表分解成多個表,每個表都有連接到主維度表而不是事實數(shù)據(jù)表的有關性維度表。
ETL技術是支撐數(shù)據(jù)倉庫系統(tǒng)正常運轉的基本技術。由于數(shù)據(jù)倉庫系統(tǒng)是集成的、與時間有關的數(shù)據(jù)集合。隨著時間的推移,多個新數(shù)據(jù)的進入,舊數(shù)據(jù)的轉移等等工作,倉庫建設前后,都沒有間斷過。要實現(xiàn)這些數(shù)據(jù)的自動更新運轉,以及新業(yè)務數(shù)據(jù)、舊格式新的不同代碼的數(shù)據(jù)進行較好的適應性自動更新運轉,ETL技術是必不可少的技術之一。ETL是Extraction、Transformation、Loading數(shù)據(jù)抽取、轉換、裝載系統(tǒng),該系統(tǒng)整合不同的數(shù)據(jù)源過來的數(shù)據(jù),并對數(shù)據(jù)進行初步的規(guī)格化整頓,清洗除雜。OLAP技術聯(lián)機分析解決(OLAP)的概念最早是由關系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當時,Codd認為聯(lián)機事務解決(OLTP)已不能滿足終端顧客對數(shù)據(jù)庫查詢分析的需要,SQL對大數(shù)據(jù)庫進行的簡樸查詢也不能滿足顧客分析的需求。顧客的決策分析需要對關系數(shù)據(jù)庫進行大量計算才干得到成果,而查詢的成果并不能滿足決策者提出的需求。因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。Codd提出OLAP的12條準則來描述OLAP系統(tǒng)。基于Codd的12條準則,各個軟件開發(fā)廠家見仁見智,其中一種流派,認為能夠沿用關系型數(shù)據(jù)庫來存儲多維數(shù)據(jù),于是,基于稀疏矩陣表達辦法的星型構造(starschema)就出現(xiàn)了。后來又演化出雪花構造。為了與多維數(shù)據(jù)庫相區(qū)別,則把基于關系型數(shù)據(jù)庫的OLAP稱為RelationalOLAP,簡稱ROLAP。代表產品有InformixMetacube、MicrosoftSQLServerOLAPServices。ArborSoftware嚴格遵照Codd的定義,自行建立了多維數(shù)據(jù)庫,來寄存聯(lián)機分析系統(tǒng)數(shù)據(jù),開創(chuàng)了多維數(shù)據(jù)存儲的先河,后來的諸多家公司紛紛采用多維數(shù)據(jù)存儲。被人們稱為MuiltdimensionOLAP,簡稱MOLAP,代表產品有Hyperion(原ArborSoftware)Essbase、ShowcaseStrategy等。相對于ServerOLAP而言。部分分析工具廠家建議把部分數(shù)據(jù)下載到本地,為顧客提供本地的多維分析。代表產品有BrioDesigner,BusinessObject。這樣也形成了另一種OLAP俗稱ClientOLAP??v觀整個OLAP以及BI的發(fā)展歷史,從OLTP統(tǒng)計功效à特定模型查詢開發(fā)àROLAPàMOLAP和ClientOLAP,這樣一種產品的不停創(chuàng)新發(fā)展過程中,使OLAP技術不停成熟和得到市場的承認,也為BI應用提供了較好的技術保障,使得與傳統(tǒng)的OLTP系統(tǒng)在市場中平分秋色。基于Codd的12條準則具體是:準則1OLAP模型必須提供多維概念視圖;準則2透明性準則;準則3存取能力推測;準則4穩(wěn)定的報表能力;準則5客戶/服務器體系構造;準則6維的等同性準則;準則7動態(tài)的稀疏矩陣解決準則;準則8多顧客支持能力準則;準則9非受限的跨維操作;準則10直觀的數(shù)據(jù)操縱;準則11靈活的報表生成;準則12不受限的維與聚集層次元數(shù)據(jù)管理技術:所謂元數(shù)據(jù)metadata是有關數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設過程中所產生的有關數(shù)據(jù)源定義,目的定義,轉換規(guī)則等有關的核心數(shù)據(jù)。同時元數(shù)據(jù)還包含有關數(shù)據(jù)含義的商業(yè)信息,全部這些信息都應當妥善保存,并較好地管理。為數(shù)據(jù)倉庫的發(fā)展和使用提供方便。元數(shù)管理中,能有效的優(yōu)化數(shù)據(jù)倉庫中的多個數(shù)據(jù)模型,乃至能夠通過元數(shù)據(jù)管理實現(xiàn)一種多個數(shù)據(jù)倉庫數(shù)據(jù)模型的生產平臺。高效的建立數(shù)據(jù)模型,并同時高效的管理對無感情數(shù)據(jù)的描述數(shù)據(jù),數(shù)據(jù)一致,描述一致,理解一致,使模型能不停改善和繼承。前臺呈現(xiàn)技術:重要是含有對集成的數(shù)據(jù)模型(例如:倉庫模型、多維CUBE等)含有數(shù)據(jù)探查、檢索、靈活的圖表、甚至影像多媒體的呈現(xiàn)技術。前臺呈現(xiàn)技術重要的技術目的是將沒有感情的、枯燥的構造化數(shù)據(jù),用和諧的方式、靈活的方式、可定義的方式呈現(xiàn)出來,使不懂數(shù)據(jù)構造的人一眼就能夠理解其中數(shù)據(jù)的含義和業(yè)務體現(xiàn)?,F(xiàn)在已經(jīng)進行較好實踐該技術的產品,主流重要有:CognosPowerplay,Bo,Brio等等。報表技術:該技術重要是將集成的數(shù)據(jù)模型(例如:倉庫模型、多維CUBE等)里的數(shù)據(jù),按照復雜的格式、指定行列統(tǒng)計項形成的特殊的報表。普通簡樸的報表能夠使用前臺呈現(xiàn)技術實現(xiàn),而復雜的報表則需要報表技術來滿足規(guī)定。報表技術中,能夠靈活的制訂多個報表模版庫和指標庫,根據(jù)每個區(qū)塊或單元格的需要引用指標,實現(xiàn)一系列復雜的符合規(guī)定的報表成果。現(xiàn)在重要的主流產品有:CognosR,Brio,CrystalReports,OracleReports等等。挖掘技術:該技術能實現(xiàn)找出數(shù)據(jù)庫中隱藏的信息,用模型來擬合數(shù)據(jù),探索型數(shù)據(jù)分析(Exploratorydataanalysis),數(shù)據(jù)驅動型的發(fā)現(xiàn)(Datadrivendiscovery),演繹型學習(Deductivelearning)功效。運用一種或多個算法,對海量數(shù)據(jù)進行探索,試圖發(fā)現(xiàn)未知的模式或關系,最后做出預測或總結規(guī)律。使用挖掘技術建立的數(shù)據(jù)模型我們稱為挖掘模型。挖掘模型的精度是挖掘模型的生命。影響模型的精度的因素重要有下列某些方面的重要因素:(1)建模數(shù)據(jù)的數(shù)據(jù)質量以及應用模型的數(shù)據(jù)質量;(2)對不同數(shù)據(jù)的業(yè)務理解,并能有效的寬定預選模型變量因素;(3)模型的對的的模式使用和挖掘算法使用;(4)模型的對的參數(shù)使用和技巧使用?,F(xiàn)在主流的挖掘工具重要有:DataMinerforJava,DB2IntelligentMiner,AnalysisServices(MinerEngine),SASEnterpriseMiner,Clementine等等。仿真優(yōu)化技術:仿真優(yōu)化技術是運用一系列參數(shù)化的條件來模擬現(xiàn)實復雜環(huán)境中的人和物,根據(jù)各活動實體的內在復雜關系的互相作用,在實驗室中就能夠預知將來的一種技術辦法。仿真技術是對現(xiàn)實場景的模擬,然后,運用模擬的模型,推演將來。影響仿真推演,獲得最優(yōu)化方案的重要因素有:對現(xiàn)實環(huán)境中多個因素及影響權重的充足考慮并得到技術表達;對多個因素之間復雜聯(lián)系充足定義;數(shù)據(jù)充足且質量可靠;仿真及優(yōu)化算法及參數(shù)運用得當?,F(xiàn)在市面重要有的產品有:SIMUL8,Matlab等等。2.研究現(xiàn)狀實時數(shù)據(jù)倉庫面臨的第一種挑戰(zhàn)就是數(shù)據(jù)抽取、轉換、清洗、加載進數(shù)據(jù)倉庫的過程。幾乎全部的ETL工具和系統(tǒng),不管是由廠商提供的還是顧客單獨編程實現(xiàn)的,都是基于批解決的工作模式.源數(shù)據(jù)普通按每天、每七天或每月這種固定的周期加載進數(shù)據(jù)倉庫。并且在數(shù)據(jù)加載的過程中,數(shù)據(jù)倉庫處在停工的狀態(tài),顧客不允許訪問數(shù)據(jù)倉庫。普通這種盯L過程是在夜晚進行的,因此對傳統(tǒng)數(shù)據(jù)倉庫的顧客沒有什么影響,但是實時數(shù)據(jù)倉庫就不允許數(shù)據(jù)倉庫處在這種停工的基于盯L實時數(shù)據(jù)倉庫數(shù)據(jù)加載方式是批解決的過程,是通過不??s短批解決的周期,盡量靠近實時。這是一種準實時數(shù)據(jù)倉庫的實現(xiàn)模式。若顧客對實時性的規(guī)定并不高,例如能夠接受按一天或幾小時的實時性,這是一種較好解決方案,由于這種方案基于傳統(tǒng)數(shù)據(jù)倉庫,是對傳統(tǒng)數(shù)據(jù)倉庫的改善,不會變化原有投資:但如果顧客實時性規(guī)定比較高,采用這種方式,就要不停增加硬件投入,通過提高系統(tǒng)的執(zhí)行性能解決實時性的問題,又會增加顧客的投資,因此這是一種準實時的方式,而不是真正意義上的實時數(shù)據(jù)倉庫。三、什么是OLTP、OLAP它們的區(qū)別有哪些?OLTP:On-LineTransactionProcessing聯(lián)機事務解決系統(tǒng)(OLTP)也稱為面對交易的解決系統(tǒng),其基本特性是顧客的原始數(shù)據(jù)能夠立刻傳送到計算中心進行解決,并在很短的時間內給出解決成果。這樣做的最大優(yōu)點是能夠即時地解決輸入的數(shù)據(jù),及時地回答。也稱為實時系統(tǒng)(RealtimeSystem)。衡量聯(lián)機事務解決系統(tǒng)的一種重要性能指標是系統(tǒng)性能,具體體現(xiàn)為實時響應時間(ResponseTime),即顧客在終端上送入數(shù)據(jù)之后,到計算機對這個請求給出回復所需要的時間。OLTP數(shù)據(jù)庫旨在使事務應用程序僅寫入所需的數(shù)據(jù),方便盡快解決單個事務。支持大量并發(fā)顧客定時添加和修改數(shù)據(jù)。反映隨時變化的單位狀態(tài),但不保存其歷史統(tǒng)計。包含大量數(shù)據(jù),其中涉及用于驗證事務的大量數(shù)據(jù)。含有復雜的構造。能夠進行優(yōu)化以對事務活動做出響應。提供用于支持單位日常運行的技術基礎構造。個別事務能夠很快地完畢,并且只需訪問相對較少的數(shù)據(jù)。OLTP系統(tǒng)旨在解決同時輸入的成百上千的事務。OLAP:聯(lián)機分析解決,英文名稱為On-LineAnalysisProcessing,簡寫為OLAP。隨著數(shù)據(jù)庫技術的發(fā)展和應用,數(shù)據(jù)庫存儲的數(shù)據(jù)量從20世紀80年代的兆(M)字節(jié)及千兆(G)字節(jié)過渡到現(xiàn)在的兆兆(T)字節(jié)和千兆兆(P)字節(jié),同時,顧客的查詢需求也越來越復雜,涉及的已不僅是查詢或操縱一張關系表中的一條或幾條統(tǒng)計,并且要對多張表中千萬條統(tǒng)計的數(shù)據(jù)進行數(shù)據(jù)分析和信息綜合,關系數(shù)據(jù)庫系統(tǒng)已不能全部滿足這一規(guī)定。操作型應用和分析型應用,特別是在性能上難以兩全,人們經(jīng)常在關系數(shù)據(jù)庫中放寬了對冗余的限制,引入了統(tǒng)計及綜合數(shù)據(jù),但這些統(tǒng)計綜合數(shù)據(jù)的應用邏輯是分散而雜亂的、非系統(tǒng)化的,因此分析功效有限,不靈活,維護困難。在國外,不少軟件廠商采用了發(fā)展其前端產品來彌補關系數(shù)據(jù)庫管理系統(tǒng)支持的局限性,他們通過專門的數(shù)據(jù)綜合引擎,輔之以更加直觀的數(shù)據(jù)訪問界面,力圖統(tǒng)一分散的公共應用邏輯,在短時間內響應非數(shù)據(jù)解決專業(yè)人員的復雜查詢規(guī)定。1993年,E.F.Codd(關系數(shù)據(jù)庫之父)將這類技術定義為“聯(lián)機分析解決”。聯(lián)機分析解決是共享多維信息的、針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析的快速軟件技術。它通過對信息的多個可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行進一步觀察。決策數(shù)據(jù)是多維數(shù)據(jù),多維數(shù)據(jù)就是決策的重要內容。OLAP專門設計用于支持復雜的分析操作,側重對決策人員和高層管理人員的決策支持,能夠根據(jù)分析人員的規(guī)定快速、靈活地進行大數(shù)據(jù)量的復雜查詢解決,并且以一種直觀而易懂的形式將查詢成果提供應決策人員,方便他們精確掌握公司(公司)的經(jīng)營狀況,理解對象的需求,制訂對的的方案。聯(lián)機分析解決含有靈活的分析功效、直觀的數(shù)據(jù)操作和分析成果可視化表達等突出優(yōu)點,從而使顧客對基于大量復雜數(shù)據(jù)的分析變得輕松而高效,以利于快速做出對的判斷。它可用于證明人們提出的復雜的假設,其成果是以圖形或者表格的形式來表達的對信息的總結。它并不將異常信息標記出來,是一種知識證明的辦法。OLAP和OLTP的區(qū)別OLTPOLAP顧客操作人員,低層管理人員決策人員,高級管理人員功效日常操作解決分析決策DB設計面對應用面對主題數(shù)據(jù)現(xiàn)在的,最新的細節(jié)的,二維的分立的歷史的,聚集的,多維的集成的,統(tǒng)一的存取讀/寫數(shù)十條統(tǒng)計讀上百萬條統(tǒng)計工作單位簡樸的事務復雜的查詢顧客數(shù)上千個上百個DB大小100MB-GB100GB-TB四、OLAP有哪些操作我們已經(jīng)懂得OLAP的操作是以查詢——也就是數(shù)據(jù)庫的SELECT操作為主,但是查詢能夠很復雜,例如基于關系數(shù)據(jù)庫的查詢能夠多表關聯(lián),能夠使用COUNT、SUM、AVG等聚合函數(shù)。OLAP正是基于多維模型定義了某些常見的面對分析的操作類型是這些操作顯得更加直觀。OLAP的多維分析操作涉及:鉆?。―rill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(Pivot),下面還是以上面的數(shù)據(jù)立方體為例來逐個解釋下:
鉆?。―rill-down):在維的不同層次間的變化,從上層降到下一層,或者說是將匯總數(shù)據(jù)拆分到更細節(jié)的數(shù)據(jù),例如通過對第二季度的總銷售數(shù)據(jù)進行鉆取來查看第二季度4、5、6每月的消費數(shù)據(jù),如上圖;固然也能夠鉆取浙江省來查看杭州市、寧波市、溫州市……這些都市的銷售數(shù)據(jù)。上卷(Roll-up):鉆取的逆操作,即從細粒度數(shù)據(jù)向高層的聚合,如將江蘇省、上海市和浙江省的銷售數(shù)據(jù)進行匯總來查看江浙滬地區(qū)的銷售數(shù)據(jù),如上圖。切片(Slice):選擇維中特定的值進行分析,例如只選擇電子產品的銷售數(shù)據(jù),或者第二季度的數(shù)據(jù)。切塊(Dice):選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進行分析,例如選擇第一季度到第二季度的銷售數(shù)據(jù),或者是電子產品和日用品的銷售數(shù)據(jù)。旋轉(Pivot):即維的位置的交換,就像是二維表的行列轉換,如圖中通過旋轉實現(xiàn)產品維和地區(qū)維的交換。五、數(shù)據(jù)立方體數(shù)據(jù)立方體是一類多維矩陣,讓顧客從多個角度探索和分析數(shù)據(jù)集,普通是一次同時考慮三個因素(維度)。當我們試圖從一堆數(shù)據(jù)中提取信息時,我們需要工具來協(xié)助我們找到那些有關聯(lián)的和重要的信息,以及探討不同的情景。一份報告,不管是印在紙上的還是出現(xiàn)在屏幕上,都是數(shù)據(jù)的二維表達,是行和列構成的表格。在我們只有兩個因素要考慮時,這就足矣,但在真實世界中我們需要更強的工具。數(shù)據(jù)立方體是二維表格的多維擴展,猶如幾何學中立方體是正方形的三維擴展同樣?!傲⒎襟w”這個詞讓我們想起三維的物體,我們也能夠把三維的數(shù)據(jù)立方體看作是一組類似的互相疊加起來的二維表格。但是數(shù)據(jù)立方體不局限于三個維度。大多數(shù)在線分析解決(OLAP)系統(tǒng)能用諸多個維度構建數(shù)據(jù)立方體,例如,微軟的SQLServerAnalysisServices工具允許維度數(shù)高達64個(即使在空間或幾何范疇想像更高維度的實體還是個問題)。在實際中,我們常慣用諸多個維度來構建數(shù)據(jù)立方體,但我們傾向于一次只看三個維度。數(shù)據(jù)立方體之因此有價值,是由于我們能在一種或多個維度上給立方體做索引。關系OLAP就運用了關系數(shù)據(jù)庫模型。ROLAP數(shù)據(jù)立方體是按關系表格的集合實現(xiàn)的(最多可達維度數(shù)目的兩倍),來替代多維陣列。其中的表格叫做立方單元,代表特定的視圖。由于立方單元是一種常規(guī)的數(shù)據(jù)庫表格,因此我們能用傳統(tǒng)的RDBMS技術(如索引和連接)來解決和查詢它們。這種形式對大量的數(shù)據(jù)集合可能是有效的,由于這些表格必須只能包含實際有數(shù)據(jù)的數(shù)據(jù)立方單元。但是ROLAP缺少了用MOLAP實現(xiàn)時所含有的內在索引功效。相反,給定表格中的每個統(tǒng)計必須涉及全部的屬性值而任何集合的或摘要的數(shù)據(jù)。這種額外的開銷可能會抵消掉某些節(jié)省出來的空間,而隱性索引的缺少意味著我們必須提供顯性的索引。從構造角度看,數(shù)據(jù)立方體由兩個單元構成:維度和測度。維度已經(jīng)解釋過了,測度就是實際的數(shù)據(jù)值。六、數(shù)據(jù)挖掘分類從不同的視角看,數(shù)據(jù)挖掘技術有幾個分類辦法[2]:根據(jù)發(fā)現(xiàn)知識的種類分類;根據(jù)挖掘的數(shù)據(jù)庫的種類分類和根據(jù)采用的技術分類.*根據(jù)發(fā)現(xiàn)知識的種類分類這種分類辦法有:總結(Summarization)規(guī)則采掘、特性(Characterization)規(guī)則采掘、關聯(lián)(Association)規(guī)則采掘、分類(Classification)規(guī)則采掘、聚類(Clustering)規(guī)則采掘、趨勢(Trend)分析、偏差(Deviation)分析、模式分析(PatternAnalysis)等.如果以采掘知識的抽象層次劃分,又有原始層次(PrimitiveLevel)的數(shù)據(jù)采掘、高層次(HighLevel)的數(shù)據(jù)采掘和多層次(MultipleLevel)的數(shù)據(jù)采掘等.*根據(jù)采掘的數(shù)據(jù)庫分類數(shù)據(jù)采掘基于的數(shù)據(jù)庫類型有:關系型(Relational)、事務型Transactional)、面對對象型(Objected-Oriented)、主動型(Active)、空間型(Spatial)、時間型(Temporal)、文本型(Textual)、多媒體(Multi-Media)、異質(Heterogeneous)數(shù)據(jù)庫和遺留(Legacy)系統(tǒng)等.七、數(shù)據(jù)挖掘技術數(shù)據(jù)挖掘中的慣用技術(1)決策樹辦法決策樹是代表著決策集的樹形構造,普通都是自上而下生成的,選擇分類的辦法有諸多個,但是目的一致,就是對目的類嘗試最佳的分類。決策樹是一種慣用于預測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到某些有價值的,潛在的信息。它的重要優(yōu)點是描述簡樸,分類速度快,特別適合大規(guī)模的數(shù)據(jù)解決。最有影響和最早的決策樹辦法是由quinlan提出的出名的基于信息嫡的ID3算法。它的重要問題是:ID3是非遞增學習算法;ID3決策樹是單變量決策樹,復雜概念的體現(xiàn)困難;同性間的互有關系強調不夠;抗噪性差。針對上述問題,出現(xiàn)了許多較好的改善算法,如Schhlnlner和fisher設計了ID4遞增式學習算法等。最為典型的決策樹學習算法是ID3算法,它采用自頂向下不回溯方略,確保找到一種簡樸的樹,算法C4.5是ID3算法的擴展,將分類領域從類別屬性擴展到數(shù)值型屬性。(2)關聯(lián)規(guī)則關聯(lián)規(guī)則用來揭示數(shù)據(jù)與數(shù)據(jù)之間未知的互相依賴關系。由一種條件和一種成果構成的,形如IF...THEN…的簡樸形式就叫做規(guī)則,關聯(lián)規(guī)則挖掘就是掃描整個數(shù)據(jù)集,從中找出含有給定的最小支持度和最小置信度的關聯(lián)規(guī)則。其中最具代表性的是R.Agrawal提出的Apriori算法。(3)神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡是仿照生理神經(jīng)網(wǎng)絡構造的非線性預測模型,通過學習進行模式識別。它基于人腦的組織模式,將眾多構造和功效極其簡樸的神經(jīng)元通過多個方式聯(lián)接成一種復雜的網(wǎng)絡構造,以實現(xiàn)復雜的智能行為。神經(jīng)網(wǎng)絡含有很強的自學習能力,能夠自動地從訓練樣本中學習領域知識,網(wǎng)絡含有很強的自適應能力,并且神經(jīng)網(wǎng)絡的智能活動體現(xiàn)為一種并行的聯(lián)想方式,能夠像人腦同樣實現(xiàn)快速的“推理”。神經(jīng)網(wǎng)絡能夠分成四種類型,即前向型、反饋型、隨機型和自組織競爭型。神經(jīng)網(wǎng)絡的性質重要取決于兩個因素:一種是網(wǎng)絡的拓撲構造,另一種是網(wǎng)絡的權值和工作規(guī)則,這兩者結合起來構成一種網(wǎng)絡的重要特性。隨著網(wǎng)絡構造和功效的不同,網(wǎng)絡權值的學習算法也不同,從學習過程的組織與管理而言分有監(jiān)督學習與無監(jiān)督學習;從學習過程的推理和決策方式而言分擬定性學習、隨機學習和含糊學習。(4)遺傳算法遺傳算法是一種基于生物進化論和分子遺傳學的搜索優(yōu)化算法。它首先將問題的可能的解按某種形式進行編碼,編碼后的解稱為染色體;隨機選用N個染色體作為初始種群,再根據(jù)預定的評價函數(shù)對每個染色體計算適應值,性能較好的染色體有較高的適應值;選擇適應值較高的染色體進行復制,并通過遺傳算子,產生一群新的更適應環(huán)境的染色體,形成新的種群,直至最后收斂到一種最適應環(huán)境的個體,得到問題的最優(yōu)化解。(5)聚類分析聚類是將數(shù)據(jù)集分成若干不同的類,使得在同一類的數(shù)據(jù)對象盡量相似,而不同類中的數(shù)據(jù)盡量相異。聚類與分類的根本區(qū)別在于:分類需要事先懂得所根據(jù)的對象特性,而聚類是在不懂得對象特性的基礎上要找到這個特性。因此在諸多應用中,聚類分析作為一種數(shù)據(jù)預解決過程,是進一步分析和解決數(shù)據(jù)的基礎。聚類分析能夠作為一種獲得數(shù)據(jù)分布狀況、觀察每個類的特性和對特定類進一步分析的獨立工具。通過聚類,能夠識別密集和稀疏的區(qū)域,發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間的互有關系等。(6)統(tǒng)計學習統(tǒng)計分析辦法重要用于完畢知識總結和關系型知識挖掘。對關系表中的各屬性進行統(tǒng)計分析,找出它們之間存在的關系。關系表中的屬性之間普通存在兩種關系:第一種是函數(shù)關系,能用函數(shù)公式表達的擬定性關系。第二種是有關關系,即不能通過函數(shù)公式表達的關系,例如人的年紀與血壓之間,這些變量之間存在著親密的關系,但不能由一種(或幾個)變量的數(shù)值精確地求出另一種變量的值。但擬定性和有關關系之間并沒有一道不可逾越的鴻溝。由于測量誤差等因素,擬定性關系事實上往往通過有關關系呈現(xiàn)出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 動火安全課件
- 醫(yī)院反腐倡廉廉潔行醫(yī)專題黨課宣講課件
- 《超市盤點操作流程》課件
- 贛南科技學院《現(xiàn)代企業(yè)管理學》2023-2024學年第一學期期末試卷
- 應急照明系統(tǒng)培訓課件
- 大學生安全教育(共31張課件)-2024鮮版
- 七年級語文上冊第二單元體驗親情8世說新語二則高效教案新人教版
- 2022年-2023年公務員(國考)之公共基礎知識??寄M試題
- 氣胸護理查房
- 慶元旦表演安全課件
- 事故隱患報告和舉報獎勵制度
- 腹部外傷門診病歷
- 品質異常處理及要求培訓
- 模具部年終總結--ppt課件
- 立式熱虹吸再沸器機械設計說明書
- 國家開放大學電大《生產與運作管理》2025-2026期末試題及答案
- 質量保證大綱(共14頁)
- 關于歐盟新版EMC標準EN55032的解析
- 木材材積表0.1-10米.xls
- 輕質隔墻板安裝合同協(xié)議書范本標準版
- 車輛管理各崗位績效考核量表
評論
0/150
提交評論