




已閱讀5頁(yè),還剩99頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),1,第四部分 新技術(shù)篇,ch.14數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 1. 概述 2. 數(shù)據(jù)倉(cāng)庫(kù) 3 .數(shù)據(jù)挖掘,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),2,Ch14. 1.概述,(1)數(shù)據(jù)管理的層次結(jié)構(gòu) (2)數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 (3)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),3,Ch14. 1.概述,(1)數(shù)據(jù)管理的層次結(jié)構(gòu) 下圖不同管理層次的三類(lèi)信息系統(tǒng):,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),4,Ch14. 1.概述,事務(wù)處理系統(tǒng)(TPS,Transaction Processing System)對(duì)于基層管理人員來(lái)說(shuō),所要完成的數(shù)據(jù)管理任務(wù)基本上是針對(duì)某種業(yè)務(wù)應(yīng)用來(lái)做單項(xiàng)性管理。對(duì)這個(gè)層次的信息系統(tǒng)來(lái)說(shuō),一般是掌握基層業(yè)務(wù)部門(mén)的操作信息、運(yùn)行狀態(tài)、完成日常管理。本書(shū)介紹的關(guān)系數(shù)據(jù)庫(kù)技術(shù),建立相應(yīng)的聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP,Online Transaction Processing),顯然能很好地完成這項(xiàng)任務(wù)。 管理信息系統(tǒng)(MIS,Management Information System)對(duì)于中層管理人員來(lái)說(shuō),所要完成的數(shù)據(jù)管理任務(wù)是起承上啟下的作用,一方面要綜合有關(guān)基層部門(mén)的有關(guān)信息,另一方面要向高層領(lǐng)導(dǎo)提供相關(guān)決策信息,并落實(shí)高層領(lǐng)導(dǎo)提出的全局性總目標(biāo)。本書(shū)介紹的關(guān)系數(shù)據(jù)庫(kù)技術(shù),基于OLTP建立的信息系統(tǒng),信息內(nèi)容適合綜合化處理,也可以較好地完成任務(wù)。 決策支持系統(tǒng)(DSS,Decision Support System)對(duì)于高層領(lǐng)導(dǎo)人員來(lái)說(shuō),主要的任務(wù)是制定企事業(yè)單位的總目標(biāo)并提出落實(shí)總目標(biāo)的方針與預(yù)算。在這一層次,數(shù)據(jù)管理的任務(wù)重要應(yīng)是對(duì)數(shù)據(jù)的決策分析。目前,數(shù)據(jù)都是DBMS統(tǒng)一管理,企事業(yè)單位都相應(yīng)建立起了操作型數(shù)據(jù)庫(kù)。以下我們看到,在這種操作型數(shù)據(jù)庫(kù)基礎(chǔ)上,想要構(gòu)建DSS,有很大困難,是不適合的。在這種背景下,數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)技術(shù)應(yīng)運(yùn)而生。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),5,Ch14. 1.概述,(2)數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 數(shù)據(jù)管理對(duì)于高層管理人員,主要是進(jìn)行決策分析。從決策分析的要求看,傳統(tǒng)的操作型數(shù)據(jù)庫(kù),所建立OLTP系統(tǒng)是很不合適的。為什么呢?可從決策分析所需要數(shù)據(jù)有以下幾個(gè)方面的特征來(lái)看: 面向主題:決策分析都是圍繞一些主題而展開(kāi)的,如銷(xiāo)售企業(yè),圍繞顧客、供應(yīng)商、產(chǎn)品、銷(xiāo)售組織等主題,關(guān)注決策者關(guān)注的數(shù)據(jù)建模與分析,而不把注意力放在機(jī)構(gòu)的日常操作和事務(wù)處理。對(duì)于決策分析的主題來(lái)說(shuō),所需的數(shù)據(jù)多為總結(jié)性數(shù)據(jù),而不一定需要操作型數(shù)據(jù)庫(kù)大量存放的細(xì)節(jié)數(shù)據(jù)。這也正解釋高層管理人員對(duì)現(xiàn)行數(shù)據(jù)管理的一種批評(píng)“數(shù)據(jù)豐富,信息貧乏”。 集成的:決策分析所需數(shù)據(jù)將是多種異構(gòu)數(shù)據(jù)源,不但需要本單位的數(shù)據(jù),也需要有關(guān)的其他單位的數(shù)據(jù)。這些數(shù)據(jù)有些來(lái)自各類(lèi)數(shù)據(jù)庫(kù),有些來(lái)自文件,也有些來(lái)自Internet網(wǎng)獲取的HTML文件。所需的數(shù)據(jù)是多種異構(gòu)數(shù)據(jù)源的集成。 時(shí)變的:決策分析不但需要反映當(dāng)前情況的數(shù)據(jù)(如23個(gè)月),還需要?dú)v史數(shù)據(jù)(通常是510年),以便分析變化趨勢(shì),進(jìn)行決策。由于數(shù)據(jù)須在時(shí)間維上展開(kāi),數(shù)據(jù)量將是非常巨大的。 非易失的:決策分析所需的數(shù)據(jù)不一定需要及時(shí)更新,通常只需兩種訪問(wèn)方式:數(shù)據(jù)的初始化裝入和以讀為主的訪問(wèn)。 在這樣的背景下,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)應(yīng)運(yùn)而生。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),6,Ch14. 1.概述,20世紀(jì)80年代中期,提出了數(shù)據(jù)倉(cāng)庫(kù)的概念。到底什么是數(shù)據(jù)倉(cāng)庫(kù)?可以有多種方式定義,很難提出一個(gè)嚴(yán)格的定義?,F(xiàn)在通常采用被稱為數(shù)據(jù)倉(cāng)庫(kù)之父的W.H. Inmon的說(shuō)法作為定義:“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理部門(mén)的決策過(guò)程”。 (3)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘 對(duì)于構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù),如何使用?數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的用戶界面包括的若干決策工具和接口,其中一個(gè)重要的技術(shù)就是數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱維DM,也稱為知識(shí)發(fā)現(xiàn)KDD,Knowledge Discovery in DB and DW)。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),7,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),(1)概述 (2)數(shù)據(jù)倉(cāng)庫(kù)的建立數(shù)據(jù)模型、數(shù)據(jù)模式 (3)OLAP技術(shù),2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),8,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),(1)概述 1)數(shù)據(jù)倉(cāng)庫(kù)的定義 現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)定義中的4個(gè)特性作進(jìn)一步解釋: 主題性:傳統(tǒng)的操作型數(shù)據(jù)庫(kù)系統(tǒng)都是圍繞某一企事業(yè)單位的應(yīng)用來(lái)組織數(shù)據(jù)的,而數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)則是用于決策分析,要面向主題來(lái)組織數(shù)據(jù)。下圖表示數(shù)據(jù)組織圍繞保險(xiǎn)公司面向主題的一個(gè)例子。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),9,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),集成性:面向應(yīng)用的操作型數(shù)據(jù)庫(kù)系統(tǒng),對(duì)不同應(yīng)用有不同的表示方法,而當(dāng)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)時(shí),必須消除各種應(yīng)用問(wèn)題的許多不一致性。如圖示例說(shuō)明數(shù)據(jù)倉(cāng)庫(kù)的集成問(wèn)題。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),10,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),時(shí)變性:操作型數(shù)據(jù)庫(kù)一般的數(shù)據(jù)時(shí)間期限是6090天,而數(shù)據(jù)倉(cāng)庫(kù)通常要存放510年的數(shù)據(jù);操作型數(shù)據(jù)庫(kù)含有“當(dāng)前值”的數(shù)據(jù),其準(zhǔn)確性在訪問(wèn)時(shí)是有效的,但此當(dāng)前值數(shù)據(jù)能被更新。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)僅僅是一系列某一時(shí)刻生成的復(fù)雜的快照;操作型數(shù)據(jù)庫(kù)的基本結(jié)構(gòu)中可能包含也可能不包含時(shí)間元素,如年、月、日等。而數(shù)據(jù)倉(cāng)庫(kù)中的基本數(shù)據(jù)結(jié)構(gòu)總是包含某種時(shí)間元素。圖示例說(shuō)明數(shù)據(jù)隨時(shí)間變化的問(wèn)題。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),11,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),非易失性:對(duì)于傳統(tǒng)的操作型數(shù)據(jù)庫(kù)通常是一次訪問(wèn)或處理一到若干個(gè)記錄,可隨時(shí)對(duì)數(shù)據(jù)進(jìn)行更新;但數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)具有非常不同的特性:其數(shù)據(jù)倉(cāng)庫(kù)不進(jìn)行一般意義下的數(shù)據(jù)更新。圖表示數(shù)據(jù)的非易失性問(wèn)題。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),12,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),2)DBS與DWS DBS是我們前面詳細(xì)講過(guò)的一種數(shù)據(jù)管理系統(tǒng),第一部分就概述了系統(tǒng)組成結(jié)構(gòu)的三大部分:數(shù)據(jù)庫(kù)、數(shù)據(jù)管理系統(tǒng)和用戶界面。聯(lián)機(jī)操作型數(shù)據(jù)庫(kù)系統(tǒng)主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢處理,所以,這種系統(tǒng)也稱為聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP,Online Transaction Processing)。 數(shù)據(jù)倉(cāng)庫(kù)是在數(shù)據(jù)庫(kù)基礎(chǔ)上產(chǎn)生的一種數(shù)據(jù)集合,用于數(shù)據(jù)管理中的決策分析。對(duì)數(shù)據(jù)倉(cāng)庫(kù)而言,自然也有數(shù)據(jù)庫(kù)系統(tǒng)概念,是管理、使用數(shù)據(jù)倉(cāng)庫(kù)的一種數(shù)據(jù)管理系統(tǒng)。它的系統(tǒng)組成體系機(jī)構(gòu)可用圖表示。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),13,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),(2)數(shù)據(jù)倉(cāng)庫(kù)的建立數(shù)據(jù)模型、數(shù)據(jù)模式 1)數(shù)據(jù)倉(cāng)庫(kù)模型 正像建立數(shù)據(jù)庫(kù)的重點(diǎn)是研究數(shù)據(jù)模型、數(shù)據(jù)模式一樣,對(duì)于數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō),有必要深入理解兩個(gè)概念數(shù)據(jù)模型與數(shù)據(jù)模式。 數(shù)據(jù)倉(cāng)庫(kù)一般來(lái)說(shuō)是基于多維數(shù)據(jù)模型(Multi-Dimension Data Model)。該模型將數(shù)據(jù)看作數(shù)據(jù)立方體(Data Cube)形式。 現(xiàn)舉例說(shuō)明數(shù)據(jù)立方體的概念。下圖是銷(xiāo)售數(shù)據(jù)的數(shù)據(jù)立方體示例。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),14,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),所有的銷(xiāo)售數(shù)據(jù)組織成立方體形式,以多維形式對(duì)數(shù)據(jù)建模和觀察,它由維和事實(shí)定義。 維是關(guān)于一個(gè)企事業(yè)想要記錄的數(shù)據(jù)方面,如示例中列出的商店時(shí)間商品就是設(shè)計(jì)的3個(gè)維,每一個(gè)維都有一個(gè)維表與之相連,進(jìn)一步描述這個(gè)維。例如,商店的維表可以包含屬性:商店名、地址、電話、經(jīng)理等。 事實(shí)多維數(shù)據(jù)模型都是圍繞主題來(lái)組織的,該主題就用事實(shí)表表示。事實(shí)是用數(shù)值度量的。例如,上面例子圍繞銷(xiāo)售主題建立數(shù)據(jù)倉(cāng)庫(kù)的事實(shí),事實(shí)表包括相關(guān)維表的關(guān)鍵字、銷(xiāo)售量、銷(xiāo)售金額等。 立方體比較直觀,便于圖示。但在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)立方體的多維,當(dāng)然不是局限于3維,可以是n維的。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),15,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),2)數(shù)據(jù)模式 采用數(shù)據(jù)模型來(lái)描述某一具體企事業(yè)單位的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù),就引入了另一個(gè)概念數(shù)據(jù)模式。 多維數(shù)據(jù)模型,具體的維表與事實(shí)表如何組織描述,可以有多種不同形式。常見(jiàn)的形式有:星型、雪花型以及事實(shí)星座型。 現(xiàn)仍以銷(xiāo)售數(shù)據(jù)倉(cāng)庫(kù)為例。圖14-8,14-9,14-10分別示例說(shuō)明三種數(shù)據(jù)模式。 圖14-8 銷(xiāo)售數(shù)據(jù)星型模式:,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),16,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),圖14-9 銷(xiāo)售數(shù)據(jù)雪花模式:,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),17,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),圖14-10 銷(xiāo)售與貨運(yùn)事實(shí)星座模式:,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),18,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),在上述數(shù)據(jù)建模中,對(duì)數(shù)據(jù)立方體再介紹以下概念。 度量(Measure)的分類(lèi)與計(jì)算數(shù)據(jù)立方體的度量是一個(gè)數(shù)值函數(shù),指的是對(duì)數(shù)據(jù)立方體的每一個(gè)點(diǎn)所求的值。數(shù)據(jù)立方體空間的多維點(diǎn),可由維值對(duì)來(lái)定義,例如某一空間點(diǎn)上,時(shí)間“1季度”,商品“PC機(jī)”,商店“No.1”,通過(guò)對(duì)給定點(diǎn)的各維值對(duì)來(lái)聚集數(shù)據(jù),即計(jì)算該點(diǎn)的度量值。度量可以根據(jù)所用的聚集函數(shù)而分成三類(lèi): 分配型:假設(shè)數(shù)據(jù)劃分為n個(gè)集合,函數(shù)在每一部分上計(jì)算得到一個(gè)聚集值。如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的數(shù)據(jù)一樣,則該函數(shù)就是一種分配型的計(jì)算。例如:計(jì)算Count()可以這樣計(jì)算,先將數(shù)據(jù)立方體分割為若干個(gè)子立方體的集合,對(duì)每個(gè)子立方體計(jì)算Count(),然后求和。這樣,Count()就是分配型的聚集函數(shù)。同理,Sum(),Min(),Max()也是分配型聚集函數(shù)。 代數(shù)型:如果能夠由一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(其中M是一個(gè)有界整數(shù)),而每個(gè)參數(shù)都可由一個(gè)分配型聚集函數(shù)求得,則稱這種計(jì)算是代數(shù)型的。例如,Avg()可由Sum()/Count()計(jì)算,其中Sum()與Count()都是分配型聚集函數(shù)。類(lèi)似地,min_N(),max_N()等也都是代數(shù)型聚集函數(shù)。 整體型:整體型聚集函數(shù)既不滿足分配型,也不滿足代數(shù)型,例如取中位數(shù)(一組數(shù)的位數(shù)數(shù)是指數(shù)據(jù)按大小排序后,取居中的一個(gè)數(shù),若有偶數(shù)個(gè)數(shù),則取居中兩數(shù)的平均值)就是一個(gè)整體型聚集函數(shù)。 概念分層數(shù)據(jù)模式中有一個(gè)概念分層的問(wèn)題,概念分層是一個(gè)映射序列,對(duì)于數(shù)據(jù)模式來(lái)說(shuō),隱含有概念分層的問(wèn)題,例如,商品維表中的小類(lèi)大類(lèi),商店維表中的市名省名,如期維表中的日月季度年。數(shù)據(jù)模式中的概念分層,為數(shù)據(jù)管理的分析綜合提供了方便。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),19,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),3)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的步驟 與數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)庫(kù)設(shè)計(jì)過(guò)程相類(lèi)似,數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建要按一定的步驟進(jìn)行,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)一般有兩個(gè)主要步驟:數(shù)據(jù)準(zhǔn)備階段;數(shù)據(jù)倉(cāng)庫(kù)模式設(shè)計(jì)階段。 數(shù)據(jù)準(zhǔn)備階段:主要是ETL(抽取、轉(zhuǎn)換、裝載),數(shù)據(jù)抽取是指從異構(gòu)多數(shù)據(jù)源中圍繞主題選取相關(guān)的數(shù)據(jù),并要對(duì)這些數(shù)據(jù)進(jìn)行清理,消除噪聲和不一致數(shù)據(jù),并完成集成過(guò)程中的轉(zhuǎn)換,使數(shù)據(jù)具有集成性,表示方式一致,并轉(zhuǎn)換為適合聚集操作的有關(guān)形式。經(jīng)過(guò)數(shù)據(jù)轉(zhuǎn)換階段的工作,才能將數(shù)據(jù)源裝載到數(shù)據(jù)倉(cāng)庫(kù)中。 數(shù)據(jù)倉(cāng)庫(kù)模式設(shè)計(jì)階段:面對(duì)實(shí)際應(yīng)用問(wèn)題,如何面向主題進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(采用多維數(shù)據(jù)模型設(shè)計(jì)星型、雪花等數(shù)據(jù)模式)是一個(gè)用戶、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)人員共同合作要完成的一個(gè)重要工作,有較大的難度。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),20,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),設(shè)計(jì)方法通常有三種:自頂向下(Top-Down),自底向上(Bottom-Up),混合方法。 自頂向下方法由總體規(guī)劃與設(shè)計(jì)開(kāi)始,當(dāng)對(duì)必須解決的業(yè)務(wù)應(yīng)用問(wèn)題比較清楚,已掌握成熟的技術(shù),可采用這種方法。首先,建立企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù):對(duì)已所要抽取的操作型數(shù)據(jù)庫(kù)細(xì)工和其它數(shù)據(jù),使用集中模式,一次數(shù)據(jù)重構(gòu),將冗余與不一致盡量減少,構(gòu)建全局性的企業(yè)數(shù)據(jù)倉(cāng)庫(kù);然后,圍繞部門(mén)主題,建立數(shù)據(jù)集市(Data Mart)。 自底向上方法從實(shí)驗(yàn)與原型開(kāi)始,先建部門(mén)數(shù)據(jù)集市,然后擴(kuò)大到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。首先,局限在一定的主題范圍,本部門(mén)自治設(shè)計(jì),建立部門(mén)局部的數(shù)據(jù)集市;然后,在若干個(gè)數(shù)據(jù)集市建成后,去除冗余與不一致性,將創(chuàng)建企業(yè)數(shù)據(jù)倉(cāng)庫(kù)作為首期目標(biāo)。 混合方法可以認(rèn)為是上面兩種方法的混合,既能利用自頂向下方法有計(jì)劃的戰(zhàn)略性特點(diǎn),由能保持自底向上方法快速實(shí)現(xiàn)與較快應(yīng)用的優(yōu)點(diǎn)。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),21,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),(3)OLAP技術(shù) 1)概述 2)多維分析技術(shù) 3)OLAP操作語(yǔ)言 1)概述 OLAP的由來(lái)傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng),是一種面向操作型數(shù)據(jù)的環(huán)境,處理對(duì)象是確定的業(yè)務(wù)數(shù)據(jù),目的是解決特定業(yè)務(wù)處理問(wèn)題。例如,典型計(jì)費(fèi)系統(tǒng)、航班售票系統(tǒng)等。這種系統(tǒng)的數(shù)據(jù)時(shí)效性強(qiáng),需及時(shí)更新數(shù)據(jù),而大量的歷史數(shù)據(jù)不得不保存到脫機(jī)的存儲(chǔ)介質(zhì)中去。那么,如何利用這些海量數(shù)據(jù),完成面向決策分析的任務(wù),傳統(tǒng)的OLTP就難以勝任。這樣,OLAP就應(yīng)運(yùn)而生,正如數(shù)據(jù)倉(cāng)庫(kù)之父W.H.Inmon所講的,“現(xiàn)在該是把哪些歷史數(shù)據(jù)搬出來(lái)的時(shí)候了?!甭?lián)機(jī)分析處理(OLAP)的概念,最早是由關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)奠基人E.F.Codd在1993年提出的。當(dāng)時(shí),Codd認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析的需求,SQL的簡(jiǎn)單查詢不能滿足用戶的分析需求。終端用戶的決策分析,需要對(duì)大量數(shù)據(jù)經(jīng)過(guò)計(jì)算而得到?jīng)Q策,Codd提出了多維數(shù)據(jù)模型的多維分析的概念,即出現(xiàn)了OLAP技術(shù)的概念。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),22,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),OLAP的定義OLAP是一種基于數(shù)據(jù)集合(數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù))的面向分析處理的技術(shù)。采用OLAP技術(shù),用戶能靈活操縱某企事業(yè)單位的數(shù)據(jù),以多維數(shù)據(jù)模型的形式,從多方面、多角度來(lái)觀察數(shù)據(jù)的狀態(tài),從而為決策分析提供有力支持。 OLAP、OLTP的比較OLTP基于關(guān)系操作型數(shù)據(jù)庫(kù),OLAP基于數(shù)據(jù)倉(cāng)庫(kù),重點(diǎn)在于數(shù)據(jù)分析與決策,是對(duì)共享多維數(shù)據(jù)的決策分析。 OLTP與OLAP的比較,可用表14-1以展示。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),23,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),表14-1 OLTP與OLAP的比較,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),24,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),OLAP系統(tǒng)的特征 快速性:OLAP系統(tǒng)采用專(zhuān)門(mén)的存儲(chǔ)形式,經(jīng)過(guò)大量的預(yù)計(jì)算,雖然操作涉及復(fù)雜的事務(wù),但分析過(guò)程仍具有快速性特點(diǎn); 可分析性:系統(tǒng)處理的問(wèn)題與有關(guān)的邏輯和統(tǒng)計(jì)分析,不是一般的簡(jiǎn)單計(jì)算; 共享性:潛在地共享有關(guān)數(shù)據(jù); 多維性:這是OLAP的關(guān)鍵特性,可從不同難度進(jìn)行計(jì)算; 信息性:這是OLAP的目的所在,完成數(shù)據(jù)的信息解釋。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),25,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),2)多維分析技術(shù) OLAP多維分析技術(shù)建立在多維數(shù)據(jù)模型的基礎(chǔ)上,涉及的重要概念列舉如下: 維是人們觀察數(shù)據(jù)的特定角度,是考慮問(wèn)題時(shí)的一類(lèi)屬性,屬性集合構(gòu)成一個(gè)維(如:時(shí)間維、地理維等)。 維的層次人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以表示細(xì)節(jié)程度不同的各個(gè)描述方面(如:時(shí)間維分別是日期、月份、季度、年)。 維的成員維的一個(gè)取值,是數(shù)據(jù)項(xiàng)在某維中位置的描述(如:“某年某月某日”是在時(shí)間維上某一位置的描述)。 度量用戶瀏覽多維數(shù)據(jù)集時(shí)查看的數(shù)值,是用來(lái)評(píng)測(cè)分析的一種指標(biāo)值。如:社會(huì)保險(xiǎn)系統(tǒng)中的基金收繳金額、養(yǎng)老金撥付金額,就是一種度量值。 立方體多維數(shù)據(jù)集合,是分析的一個(gè)主題,由多個(gè)維和若干度量值構(gòu)建并匯總而成的多維數(shù)據(jù)結(jié)構(gòu)集合,是OLAP的分析對(duì)象。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),26,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),OLAP系統(tǒng)基本操作 : 切片和切塊(Slice,Dice)在多維數(shù)據(jù)立方體中,按二維進(jìn)行切片,按三維進(jìn)行切塊,可得到所需的某部分?jǐn)?shù)據(jù)。如圖14-11就表示社會(huì)保險(xiǎn)數(shù)據(jù)在地理、時(shí)間、單位分類(lèi)進(jìn)行切塊和切片的數(shù)據(jù)。 圖14-11 社會(huì)保險(xiǎn)數(shù)據(jù)立方體的切片、切塊示例:,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),27,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),鉆?。―rill)鉆取包含向下鉆?。―rill-down)和向上鉆?。―rill-up)/上卷(Roll-up)操作,在操作中鉆取的深度與維所劃分的層次是相對(duì)的。圖14-12表示社會(huì)保險(xiǎn)數(shù)據(jù)立方體按單位維向下/向上鉆取的數(shù)據(jù)示例。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),28,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)通過(guò)旋轉(zhuǎn)(也稱為轉(zhuǎn)軸),可以得到不同視角的數(shù)據(jù)。圖14-13表示社會(huì)保險(xiǎn)數(shù)據(jù)立方體的旋轉(zhuǎn)操作示例。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),29,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),3)OLAP操作語(yǔ)言 傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的操作語(yǔ)言是SQL,那么對(duì)多維數(shù)據(jù)立方體的OLAP操作語(yǔ)言是什么呢?這方面的標(biāo)準(zhǔn)化還有待進(jìn)一步工作,這里以微軟提供的MDX語(yǔ)言為例進(jìn)行介紹。 MDX語(yǔ)言概述: MDX(Multidimensional Expression)是一種支持多維數(shù)據(jù)立方體定義和操作的語(yǔ)言,由微軟公司提供。MDX在語(yǔ)法的很多方面與SQL相似,但不能算是SQL語(yǔ)言的擴(kuò)展。MDX提供數(shù)據(jù)結(jié)構(gòu)定義的DQL語(yǔ)法,用于創(chuàng)建(和刪除)多維數(shù)據(jù)集、維度、度量值以及它們的坐標(biāo)對(duì)象的MDX命令。MDX提供多維立方體操作的查詢語(yǔ)句,包含了與SQL類(lèi)似的Select、From、Where子句,MDX還提供了函數(shù)等,增強(qiáng)了操作能力。 基本的MDX查詢是: Select , From Where , SQL語(yǔ)言是從表返回一個(gè)仍是表的二維數(shù)據(jù)集,而MDX是從多維數(shù)據(jù)集返回多維數(shù)據(jù)子集。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),30,Ch14. 2. 數(shù)據(jù)倉(cāng)庫(kù),現(xiàn)以社會(huì)保險(xiǎn)系統(tǒng)中的應(yīng)用為例加以說(shuō)明。 Select 地理.西安.市本級(jí), 地理.西安.雁塔區(qū) ON COLUMNS, 時(shí)間.2001年, 時(shí)間.2002年 ON ROWS From 基金收繳 Where (單位.事業(yè), 收繳類(lèi)型.正常繳納) 即可得到如下結(jié)果。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),31,Ch14. 3.數(shù)據(jù)挖掘,(1)概述 (2)數(shù)據(jù)挖掘的過(guò)程 (3)數(shù)據(jù)挖掘的基本方法 (4)復(fù)雜數(shù)據(jù)類(lèi)型的挖掘,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),32,Ch14.3. (1)概述,(1)概述:1)數(shù)據(jù)挖掘技術(shù)的產(chǎn)生; 2)數(shù)據(jù)挖掘的定義. 1)數(shù)據(jù)挖掘技術(shù)的產(chǎn)生: 從數(shù)據(jù)庫(kù)技術(shù)的發(fā)展過(guò)程看,20世紀(jì)80年代以來(lái),數(shù)據(jù)庫(kù)系統(tǒng)在各行各業(yè)廣泛應(yīng)用,全球的信息量每隔20個(gè)月就要增加一倍。一個(gè)中等規(guī)模的企業(yè)每天要產(chǎn)生100MB以上的業(yè)務(wù)數(shù)據(jù),據(jù)統(tǒng)計(jì),1993年全球的計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)容量約為2000TB,到2000年增加到300萬(wàn)TB。但是,據(jù)估計(jì),目前一個(gè)大型企事業(yè)單位的數(shù)據(jù),大約只有7得到較好地應(yīng)用,對(duì)于數(shù)據(jù)管理來(lái)說(shuō),陷入了一個(gè)尷尬境地“數(shù)據(jù)豐富,信息(知識(shí))貧乏”。 數(shù)據(jù)管理用于決策分析的技術(shù)應(yīng)運(yùn)而生:一方面數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的提出與發(fā)展,另一方面數(shù)據(jù)挖掘技術(shù)的產(chǎn)生。 先看一個(gè)例子:啤酒與尿布的故事美國(guó)加州某超市連鎖店通過(guò)對(duì)存儲(chǔ)的銷(xiāo)售數(shù)據(jù)采用數(shù)據(jù)挖掘技術(shù)分析發(fā)現(xiàn):下班前后或周末購(gòu)買(mǎi)嬰兒尿布的顧客較多為男性,往往同時(shí)購(gòu)買(mǎi)啤酒,兩類(lèi)互不相干的商品有一定的關(guān)聯(lián)。于是,連鎖店經(jīng)理當(dāng)機(jī)立斷,重新布置貨架,將男士們需要的日常生活用品就近布置,取得了有關(guān)商品銷(xiāo)量大增的驕人業(yè)績(jī)。 80年代以來(lái),人們逐漸關(guān)注這方面的研究,其它數(shù)據(jù)挖掘的例子也就層出不窮 .正像數(shù)據(jù)庫(kù)技術(shù)的發(fā)展一樣,開(kāi)始時(shí)是一個(gè)一個(gè)行業(yè)的建立使用,逐步鋪開(kāi)。數(shù)據(jù)挖掘技術(shù),目前雖沒(méi)有數(shù)據(jù)庫(kù)技術(shù)這樣家喻戶曉,但經(jīng)過(guò)多年的發(fā)展,應(yīng)用領(lǐng)域也已是一個(gè)熱門(mén)領(lǐng)域,應(yīng)用面已相當(dāng)廣泛。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),33,Ch14.3. (1)概述,2)數(shù)據(jù)挖掘的定義 較為廣泛接受的數(shù)據(jù)挖掘定義是:提取隱含于數(shù)據(jù)集合(數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它數(shù)據(jù)集合)中未知的、有用的、不一般的(即不象OLAP中那樣計(jì)算總和、平均值子類(lèi)的普通信息)信息或知識(shí)。數(shù)據(jù)挖掘,也有另外一種說(shuō)法:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)KDD(Knowledge Discovery in Database)或知識(shí)提?。↘nowledge Extraction),數(shù)據(jù)/模式分析(Data/Pattern Analysis),也有人認(rèn)為數(shù)據(jù)挖掘DM是KDD的一個(gè)步驟,特別在討論實(shí)現(xiàn)過(guò)程時(shí),往往認(rèn)為KDD是較廣泛的過(guò)程,而DM是其中的一個(gè)步驟。 從數(shù)據(jù)庫(kù)技術(shù)看,在邏輯上從大量數(shù)據(jù)中提取規(guī)則,數(shù)據(jù)挖掘采用的是歸納推理的方法。而根據(jù)大量數(shù)據(jù),采用歸納方法,推斷出一般化的規(guī)則、規(guī)律,也就是形成信息或知識(shí)。從更廣泛的角度來(lái)看,數(shù)據(jù)挖掘是一門(mén)跨學(xué)科的技術(shù),綜合采用了統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能、可視化技術(shù),很難嚴(yán)格區(qū)分?jǐn)?shù)據(jù)挖掘與這些學(xué)科之間的界限。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),34,Ch14.3. (2)數(shù)據(jù)挖掘的過(guò)程,(2)數(shù)據(jù)挖掘的過(guò)程:1)知識(shí)發(fā)現(xiàn)KDD的全過(guò)程 2)數(shù)據(jù)挖掘(Data Mining,DM)過(guò)程 1)知識(shí)發(fā)現(xiàn)KDD的全過(guò)程,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),35,Ch14.3. (2)數(shù)據(jù)挖掘的過(guò)程,2)數(shù)據(jù)挖掘(Data Mining,DM)過(guò)程 數(shù)據(jù)挖掘作為整個(gè)知識(shí)發(fā)現(xiàn)(KDD)的一個(gè)重要步驟,起著關(guān)鍵作用。有時(shí),當(dāng)單獨(dú)將數(shù)據(jù)挖掘過(guò)程抽出來(lái)闡述時(shí),也經(jīng)常把KDD過(guò)程與DM過(guò)程不加區(qū)分,正像提到KDD概念、DM概念時(shí)也不加區(qū)分。 數(shù)據(jù)挖掘過(guò)程,可用下圖來(lái)表示。某種意義上看,也是知識(shí)發(fā)現(xiàn)的全過(guò)程,其中的模式(Pattern)發(fā)現(xiàn)數(shù)據(jù)挖掘的關(guān)鍵步驟,相當(dāng)于上面KDD過(guò)程中的數(shù)據(jù)挖掘。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),36,Ch14.3. (2)數(shù)據(jù)挖掘的過(guò)程,數(shù)據(jù)選擇:數(shù)據(jù)挖掘正像采礦一樣,先要通過(guò)地質(zhì)普查找到礦藏所在源,這里就是提出挖掘的目標(biāo),也就是選擇好限定的主題,來(lái)選擇相關(guān)的數(shù)據(jù)。例如,目標(biāo)是優(yōu)化銷(xiāo)售策略,那么,根據(jù)這樣的目標(biāo),圍繞此主題選取與銷(xiāo)售相關(guān)的數(shù)據(jù)記錄作為數(shù)據(jù)挖掘的對(duì)象。 數(shù)據(jù)預(yù)處理:對(duì)于選擇好的數(shù)據(jù),必須經(jīng)過(guò)預(yù)處理提高數(shù)據(jù)質(zhì)量,才能使得數(shù)據(jù)挖掘更加有效。因?yàn)椴唤?jīng)預(yù)處理的數(shù)據(jù),往往垃圾數(shù)據(jù)比較多,數(shù)據(jù)的決策分析是一種典型的“垃圾進(jìn)垃圾出”的過(guò)程,數(shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)挖掘的結(jié)果有重要的影響。數(shù)據(jù)預(yù)處理技術(shù)主要包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。 模式(Pattern)發(fā)現(xiàn):這是數(shù)據(jù)挖掘的關(guān)鍵一步。蘊(yùn)涵在數(shù)據(jù)中的規(guī)律、規(guī)則或特征,也就是通常所說(shuō)的知識(shí),表現(xiàn)在數(shù)據(jù)的某種模式上,發(fā)現(xiàn)數(shù)據(jù)模式關(guān)鍵是人機(jī)交互地選擇算法,這一步是數(shù)據(jù)挖掘中的核心內(nèi)容,下面我們將單列一節(jié)介紹數(shù)據(jù)挖掘的基本內(nèi)容與方法。 解釋評(píng)估:通過(guò)模式發(fā)現(xiàn)算法可以得到較多的模式。對(duì)于給定的用戶,是否對(duì)所有模式都感興趣,答案是否定的。所以,數(shù)據(jù)挖掘過(guò)程的最后一步,是討論從挖掘出的模式中得到有趣模式的問(wèn)題,即對(duì)用戶有用的模式,也就是對(duì)挖掘出的模式進(jìn)行解釋評(píng)估。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),37,Ch14.3. (2)數(shù)據(jù)挖掘的過(guò)程,有關(guān)解釋評(píng)估,需要討論以下一些問(wèn)題: 模式興趣度的度量:一是客觀度量,例如對(duì)于形如XY的關(guān)聯(lián)規(guī)則,客觀度量通常采用支持度和置信度來(lái)定義,支持度Support(XY) = P(XY),其中P(XY)是項(xiàng)集X和Y并的概率。置信度Confidence(XY) = P(Y|X),其中P(Y|X)是包含X的事務(wù)也包含Y的概率。對(duì)于度量再引入閾值,由用戶來(lái)控制,用戶可以認(rèn)為置信度閾值不超過(guò)50%的模式是無(wú)趣的。對(duì)此,下面還要詳細(xì)討論的。另一種是主觀度量,實(shí)際上是用戶的一種主觀預(yù)感,認(rèn)為合理的或認(rèn)為出乎意料的,給出模式是否有趣的結(jié)論。 數(shù)據(jù)挖掘的完全性:數(shù)據(jù)挖掘能否挖掘出所有有趣的模式,這是較難做到的。只能說(shuō),對(duì)于某些數(shù)據(jù)挖掘任務(wù),根據(jù)用戶提出的限制和興趣度量,在一定條件下保證算法的完全性。 數(shù)據(jù)挖掘能夠僅僅產(chǎn)生有趣的模式嗎?往往數(shù)據(jù)挖掘可能會(huì)生成一些不是有趣的模式,我們希望僅僅產(chǎn)生有趣模式,這是一個(gè)數(shù)據(jù)挖掘優(yōu)化問(wèn)題。如何識(shí)別真正有趣的模式,過(guò)濾掉一些不感興趣的模式,采用興趣度度量來(lái)知道數(shù)據(jù)挖掘過(guò)程,是數(shù)據(jù)挖掘中最后一步重要的工作。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),38,Ch14.3. (3)數(shù)據(jù)挖掘的基本方法,(3)數(shù)據(jù)挖掘的基本方法 數(shù)據(jù)挖掘算法,針對(duì)不同的挖掘任務(wù),有很多不同的方法,本節(jié)只闡述下面4種基本方法:1分類(lèi)、2聚類(lèi)、3關(guān)聯(lián)分析、4時(shí)間序列。 1)分類(lèi) 概述 分類(lèi)是對(duì)數(shù)據(jù)的一個(gè)重要抽象,從機(jī)器學(xué)習(xí)的觀點(diǎn)看,分類(lèi)是一種監(jiān)督學(xué)習(xí),即根據(jù)應(yīng)用的需要確定分類(lèi)的類(lèi)別,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)的分類(lèi)學(xué)習(xí)歸納出分類(lèi)規(guī)則,利用測(cè)試數(shù)據(jù)對(duì)模型的準(zhǔn)確率進(jìn)行測(cè)試,再對(duì)數(shù)據(jù)進(jìn)行分類(lèi)操作。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),39,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,分類(lèi)過(guò)程分兩步完成,如圖所示。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),40,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,分類(lèi)算法 以決策樹(shù)算法為例,說(shuō)明分類(lèi)算法的思路。例如,要對(duì)顧客是否購(gòu)買(mǎi)電腦進(jìn)行測(cè)試,圖就是決策樹(shù)的示例。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),41,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,算法14-1:Generate_Decision_Tree(由給定的訓(xùn)練數(shù)據(jù)生成決策樹(shù)) 輸入:訓(xùn)練樣本Samples,由離散值屬性表示,候選屬性的集合是Attribute_List 輸出:決策樹(shù) 算法描述: )創(chuàng)建節(jié)點(diǎn)N; )if Samples 都在同一類(lèi)C then 返回N作為葉節(jié)點(diǎn),以類(lèi)C標(biāo)記; )if Attribute_List 為空 then 返回N作為葉節(jié)點(diǎn),標(biāo)記為Samples中類(lèi)別個(gè)數(shù)最多的類(lèi)別;/多數(shù)表決 )從Attribute_List中選擇一個(gè)信息增益最大的屬性test_attribute;/屬性選擇方法的信息增益概念,需要解釋 并將此節(jié)點(diǎn)N標(biāo)記為test_attribute; )for each test_attribute 中的已知取值ai 由節(jié)點(diǎn)N長(zhǎng)出一個(gè)條件為test_attribute=ai的分支;/劃分Samples 設(shè)Si是Samples中test_attribute = ai的樣本的集合;/其中的一個(gè)劃分 )if Si為空 then 加上一個(gè)葉節(jié)點(diǎn),標(biāo)記為Samples中類(lèi)別最多的類(lèi); )else 加上一個(gè)由Generate_Decision_Tree (Si, Attribute_List, test_attribute)返回的節(jié)點(diǎn);,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),42,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,信息增益方法:這是上面決策樹(shù)算法中屬性選擇的基本方法。 信息增益的定義。設(shè)S識(shí)包含s個(gè)數(shù)據(jù)樣本的集合,假定類(lèi)標(biāo)號(hào)屬性具有m個(gè)不同值,即定義m個(gè)不同的類(lèi)別Ci(i=1,2,m),設(shè)si是類(lèi)Ci中的樣本數(shù),對(duì)一個(gè)給定的樣本分類(lèi)可給出所需的期望信息: 其中pi是任一樣本屬于類(lèi)別Ci的概率,可按si/s估計(jì),對(duì)數(shù)函數(shù)以2為底,是因?yàn)樾畔⒁远M(jìn)制位編碼。設(shè)屬性A具有v個(gè)不同值a1,a2,av,利用屬性A可將數(shù)據(jù)集合S劃分為v個(gè)子集S1,S2,Sv,其中Sj包含了S集合中屬性A取aj值的樣本。若屬性A被選為測(cè)試屬性,設(shè)sij為子集sj中屬于Ci類(lèi)的樣本數(shù),那么,利用屬性A劃分當(dāng)前樣本集所需的期望信息是: 其中當(dāng)作第j個(gè)子集的權(quán)值,而是對(duì)于給定子集Sj的期望信息。E(A)計(jì)算結(jié)果越小,表示其子集劃分結(jié)果越好。在A上分支將獲得的編碼信息是:Gain(A)=I(S1,Sm)-E(A)定義為利用屬性A對(duì)當(dāng)前分支節(jié)點(diǎn)進(jìn)行劃分的信息增益。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),43,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,現(xiàn)以購(gòu)買(mǎi)電腦相關(guān)的訓(xùn)練數(shù)據(jù)樣本為例,說(shuō)明信息增益方法的思路。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),44,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,對(duì)于表給出的訓(xùn)練數(shù)據(jù)集合,分類(lèi)的標(biāo)記為2類(lèi),類(lèi)C1對(duì)應(yīng)于買(mǎi)電南yes,類(lèi)C2對(duì)應(yīng)于no,類(lèi)yes有9個(gè)樣本,類(lèi)no有5個(gè)樣本,計(jì)算得到: 現(xiàn)計(jì)算有關(guān)屬性的信息增益,從屬性年齡開(kāi)始, 對(duì)年齡 40 s13=3 s23=2 I(s11,s21)=0.971 樣本按年齡劃分,期望信息為:,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),45,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,故這種劃分的信息增益是:Gain(年齡)I(s1,s2)-E(age)=0.246。類(lèi)似地,可以計(jì)算Gain(收入)=0.029,Gain(是否學(xué)生)=0.151,Gain(信用評(píng)估)=-0.048,由于年齡在屬性中具有最高的信息增益,被選作為測(cè)試屬性,對(duì)此可創(chuàng)建分支的節(jié)點(diǎn)。也就是一開(kāi)始給出的決策樹(shù)示例將Age作為分支節(jié)點(diǎn)的原因。 我們以決策樹(shù)方法簡(jiǎn)述了算法的實(shí)現(xiàn)過(guò)程。分類(lèi)算法除了決策樹(shù)方法外,常用的方法還有很多,例如:基于統(tǒng)計(jì)學(xué)的貝葉斯分類(lèi)方法、神經(jīng)網(wǎng)絡(luò)分類(lèi)方法、k-最近鄰方法、遺傳算法、粗糙集方法、模糊集方法等等。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),46,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,2)聚類(lèi) 概述 分類(lèi)是指定類(lèi)別將數(shù)據(jù)集合劃分的一種技術(shù),從其學(xué)習(xí)角度來(lái)看,是有指導(dǎo)的學(xué)習(xí)。而聚類(lèi)也是要對(duì)數(shù)據(jù)集合進(jìn)行分析加以劃分,但要?jiǎng)澐值念?lèi)別是未知的,是一種無(wú)指導(dǎo)的學(xué)習(xí)。 聚類(lèi)是指將數(shù)據(jù)集合劃分為由類(lèi)似數(shù)據(jù)組成的多個(gè)類(lèi)(也可稱為簇,cluster)的過(guò)程,同一類(lèi)(或簇)中的數(shù)據(jù)彼此相似,與其它類(lèi)中的數(shù)據(jù)相異。 聚類(lèi)的典型應(yīng)用領(lǐng)域有:市場(chǎng)營(yíng)銷(xiāo)(幫助市場(chǎng)營(yíng)銷(xiāo)人員發(fā)現(xiàn)基本顧客的不同群組,利用這一分析制定更有針對(duì)性的營(yíng)銷(xiāo)計(jì)劃),生物研究(用于動(dòng)物植物聚類(lèi),對(duì)基因聚類(lèi),獲得對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)),城市規(guī)劃(根據(jù)房屋的類(lèi)型、價(jià)值、地理位置對(duì)城市房屋分組),Web文檔分類(lèi)(Web文檔數(shù)據(jù)是海量的,獲得有關(guān)文檔的特性,聚類(lèi)后加以逐類(lèi)分析)等等。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),47,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,聚類(lèi)技術(shù)的相關(guān)概念:點(diǎn)與距離。 點(diǎn)將數(shù)據(jù)視為多維空間中點(diǎn)的集合,數(shù)據(jù)聚類(lèi)問(wèn)題演化為多維空間中點(diǎn)的聚類(lèi)問(wèn)題。至于如何將數(shù)據(jù)視作多維空間中的點(diǎn),有不同的表示方法:(1)將數(shù)據(jù)表示為向量,數(shù)據(jù)集合是一個(gè)向量集合,Xi(i=1,2,N)是N個(gè)點(diǎn)的數(shù)據(jù)向量集合,引入中心點(diǎn) (2)數(shù)據(jù)集合看作是矩陣形式,表示為關(guān)系數(shù)據(jù)庫(kù)表的形式,其中一行就是數(shù)據(jù)集合中的一個(gè)點(diǎn)。 距離有了點(diǎn)的概念,自然可引入基于點(diǎn)的距離概念,距離可表示為兩點(diǎn)之間的歐幾里德距離: 或曼哈頓距離: 數(shù)據(jù)點(diǎn)之間的相似與相異,用距離的大小加以度量,進(jìn)行聚類(lèi)分析。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),48,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,聚類(lèi)算法 劃分法典型的劃分法是K-平均算法。給定某一包含n個(gè)數(shù)據(jù)元素的數(shù)據(jù)庫(kù),生成的類(lèi)(或簇)的數(shù)目為K,將n個(gè)數(shù)據(jù)劃分為K類(lèi)(Kn),以使同一類(lèi)中的數(shù)據(jù)相似,而不同類(lèi)中的數(shù)據(jù)相異。下面是K-平均算法的描述。 算法14-2:K-平均 /劃分的K-平均算法基于簇中數(shù)據(jù)的平均值 輸入:簇的數(shù)據(jù)K,數(shù)據(jù)庫(kù)包含n個(gè)元組D=x1,xn 輸出:K個(gè)簇,是平方誤差準(zhǔn)則最小 算法: for k=1,K do /令r(k)是從D=x1,xn中隨機(jī)選取的一個(gè)點(diǎn) while 在聚類(lèi)Ck中有變化發(fā)生 do 形成聚類(lèi):for k=1,K do Ck=xD|d(rk,x) d(rj,x)對(duì)所有j=1,K, jk; end; 計(jì)算新的聚類(lèi)中心:for k=1,K do rk=Ck內(nèi)點(diǎn)的平均值向量; end; end;,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),49,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,k-平均算法,開(kāi)始為每個(gè)聚類(lèi)選擇一個(gè)初始的中心點(diǎn),然后以初始中心值為核心形成聚類(lèi),再用迭代法反復(fù)修改初始的聚類(lèi),直到無(wú)明顯改進(jìn)為止。k-平均算法的復(fù)雜度是O(knI),k是聚類(lèi)數(shù),n為數(shù)據(jù)集合大小,I是迭代次數(shù),通常kn,In,算法以局部最優(yōu)結(jié)束。 層次法將所有數(shù)據(jù)組織成一顆聚類(lèi)的樹(shù),分別可以自底向上或自頂向下進(jìn)行層次分解,自底向上分解的層次法通常稱為凝聚的,自頂向下分解的層次法通常稱為分裂的。一般以凝聚的層次聚類(lèi)用得較多。其算法可簡(jiǎn)單描述如下: for i=1,n 令C=x(i); while 存在一個(gè)以上的聚類(lèi) do 令Ci和Cj為使系統(tǒng)中任意兩個(gè)聚類(lèi)間的距離D=(Ck,Cn)最小化得兩個(gè)聚類(lèi); Ci=CiCj; end;,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),50,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,除了以上兩種主要的聚類(lèi)方法以外,還有其它較多的聚類(lèi)方法:基于密度的方法、基于網(wǎng)格的方法、基于模型的方法等等,還有一些聚類(lèi)算法集成了多種聚類(lèi)方法的思想,綜合性采用多種聚類(lèi)技術(shù)可取得更好的聚類(lèi)效果。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),51,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,3)關(guān)聯(lián)分析 概述 關(guān)聯(lián)分析是數(shù)據(jù)挖掘中較早引起興趣得一種數(shù)據(jù)分析方法,關(guān)聯(lián)分析是發(fā)現(xiàn)數(shù)據(jù)集合中數(shù)據(jù)之間的聯(lián)系。數(shù)據(jù)之間的聯(lián)系,可能表現(xiàn)為兩種形式:一種是同一交易(有時(shí)也可說(shuō)是同一事務(wù))內(nèi)數(shù)據(jù)之間的聯(lián)系,如在顧客的一筆交易中,購(gòu)買(mǎi)兩種不同商品之間的聯(lián)系;另一種是不同交易內(nèi)數(shù)據(jù)之間的聯(lián)系,如一個(gè)顧客在一次交易中買(mǎi)了甲商品,探討另一次交易中購(gòu)買(mǎi)乙商品的可能性,也是研究數(shù)據(jù)之間的聯(lián)系。在數(shù)據(jù)挖掘領(lǐng)域,前者就是此處所述的關(guān)聯(lián)分析,后者是下節(jié)要講述的時(shí)間序列。 關(guān)聯(lián)分析中的若干基本概念:,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),52,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,支持度 可信度,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),53,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,關(guān)聯(lián)規(guī)則舉例,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),54,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,關(guān)聯(lián)分析典型算法 關(guān)聯(lián)分析典型算法,比較有名的是Apriori算法(1993年R.Agrawal等人提出)。該算法實(shí)現(xiàn)分兩步:1)找出所有頻繁數(shù)據(jù)項(xiàng)集(frequent itemsets):即找出所有支持度超過(guò)指定閾值的數(shù)據(jù)項(xiàng)集;2)利用頻繁數(shù)據(jù)項(xiàng)集,生成候選的關(guān)聯(lián)規(guī)則,并驗(yàn)證其可信度,如果可信度超過(guò)指定的閾值,則該關(guān)聯(lián)規(guī)則即為所要找關(guān)聯(lián)規(guī)則。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),55,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,算法14-3:Apriori算法,利用層次迭代找出頻繁項(xiàng)集 輸入:交易(事務(wù))數(shù)據(jù)庫(kù)D,最小支持度閾值min_sup 輸出:D中的頻繁項(xiàng)集L 流程: L1=find_frequent_1_itemset(D);/發(fā)現(xiàn)1-項(xiàng)集 for(k=2;Lk-1;k+) Ck=apriori_gen(Lk-1,min_sup);/根據(jù)頻繁k-1項(xiàng)集產(chǎn)生候選k項(xiàng)集 for each tD /掃描數(shù)據(jù)庫(kù)D Ct=subset(Ck,t);/獲得t所包含的候選項(xiàng)集 for each cCt,C.count+; Lk=cCk|C.countmin_sup return L=UkLk;,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),56,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,Procedure apriori_gen(Lk-1:k-1-項(xiàng)集;min_sup:最小支持度閾值) for each l1Lk-1 for each l2Lk-1 if ( l11=l21)(l12=l22) (l1k-2=l2k-2) l1k-1=l2k-1 then C=l1l2;/將兩個(gè)項(xiàng)集連接到一起 if has_infrequent_subset (c,Lk-1) then delete c;/除去不可能產(chǎn)生頻繁項(xiàng)集的候選 else Ck=CkC; return Ck;,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),57,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,Procedure has_infrequent_subset(C,Lk-1) for each (k-1)-subset s of C if s!Lk-1 return TRUE; else return FALSE;,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),58,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,4)時(shí)間序列 概述 時(shí)間序列數(shù)據(jù)挖掘,是指表示不同交易之間的數(shù)據(jù)關(guān)聯(lián),例如,某一顧客多次購(gòu)買(mǎi)商品,每次交易的數(shù)據(jù)項(xiàng)集構(gòu)成時(shí)間序列,在時(shí)間序列中發(fā)現(xiàn)的模式,就是一種數(shù)據(jù)之間的關(guān)聯(lián)。下圖就是不同交易的數(shù)據(jù)之間關(guān)聯(lián)的示例。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),59,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),60,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),61,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,對(duì)這種時(shí)間序列的數(shù)據(jù),為找到數(shù)據(jù)之間關(guān)聯(lián),引入如下概念。 設(shè)有兩個(gè)不同顧客的數(shù)據(jù)項(xiàng)序列為和,如有整數(shù)i1包含于之中,表示 。這種包含關(guān)系,即表示這兩個(gè)顧客都支持序列,即這兩個(gè)表示不同時(shí)間的交易數(shù)據(jù)之間存在關(guān)聯(lián)性。 例如,圖中, 表示顧客2和5都支持,而 表示顧客1、3和5都支持,支持度s% = 40%,凡是支持度超過(guò)指定閾值的序列稱為頻繁序列,對(duì)于時(shí)間序列挖掘而言,其基本問(wèn)題就是要找出頻繁序列。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),62,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,時(shí)間序列挖掘基本方法 現(xiàn)介紹AprioriAll算法,它是尋找頻繁序列的基本方法,圖14-23是該算法的描述。 Procedure AprioriAll() begin L1frequent 1-sequences; /1-sequences是只包含一個(gè)數(shù)據(jù)項(xiàng)集的序列 for (k:=2; Lk-1=; k+) do Ck:=AprioriG(Lk-1); /生成k-sequence候選序列集 forall custom-sequences in the dataset do forall cancidates cCk contained in custom-sequence do c.count+; Lk:= cCk |c.count minsupport Answer:=Maximal sequences in kLk; end,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),63,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,AprioriG() : insert into Ck select p.fitemset1,p.fitemsetk-1, q.fitemsetk-1 from Lk-1 p, Lk-1 q where p.fitemset1=q.fitemset1, p.fitemsetk-2=q.fitemsetk-2, p.fitemsetk-1q.fitemsetq-1; 其中fitemset是頻繁數(shù)據(jù)項(xiàng)集。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),64,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,從此算法的實(shí)現(xiàn)過(guò)程看,與前面關(guān)聯(lián)分析算法Apriori較為相像,實(shí)際上將帶時(shí)間的交易數(shù)據(jù)轉(zhuǎn)換為顧客的數(shù)據(jù)項(xiàng)集序列,就為尋找頻繁數(shù)據(jù)項(xiàng)集作了準(zhǔn)備。算法實(shí)施前,先將交易數(shù)據(jù)排序(以顧客標(biāo)識(shí)為主鍵,交易時(shí)間為次鍵進(jìn)行升序排序),然后篩選出頻繁數(shù)據(jù)項(xiàng)集,在此基礎(chǔ)上經(jīng)過(guò)變換發(fā)現(xiàn)頻繁序列。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),65,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,時(shí)間序列挖掘的其它內(nèi)容 時(shí)間序列是指包含隨時(shí)間變化而發(fā)生的數(shù)值或事件序列,對(duì)這類(lèi)數(shù)據(jù)的挖掘,上面所述內(nèi)容屬于挖掘序列模式,即從與時(shí)間相關(guān)的數(shù)據(jù)中,挖掘出相關(guān)的頻繁發(fā)生模式,例如所舉例子,從購(gòu)買(mǎi)某類(lèi)商品的顧客可能會(huì)在近期內(nèi)購(gòu)買(mǎi)另一類(lèi)商品,就是一種序列模式。除此以外,時(shí)序數(shù)據(jù)挖掘還有趨勢(shì)分析,相似搜索等重要內(nèi)容。 趨勢(shì)分析時(shí)序數(shù)據(jù)中包含一個(gè)變量Y,可以認(rèn)為是時(shí)間的函數(shù)Y=F(t),時(shí)序分析即研究其中的趨勢(shì)變化、循環(huán)變化、季節(jié)性變化或無(wú)規(guī)律變化。采用數(shù)學(xué)上的平滑方法、曲線擬合方法、最小二乘法等可以完成有關(guān)的數(shù)據(jù)分析,制定預(yù)測(cè)方案。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),66,Ch14.3.(3)數(shù)據(jù)挖掘的基本方法,相似搜索給定了一個(gè)時(shí)間序列數(shù)據(jù),相似搜索是發(fā)現(xiàn)所有與它相似的時(shí)序數(shù)據(jù),是一種序列匹配問(wèn)題。相似搜索有如下主要的方法:(1)數(shù)據(jù)轉(zhuǎn)換,從時(shí)域到頻域。通常采用傅立葉變換、小波變換就可以完成這種轉(zhuǎn)換。采用歐幾里德的概念進(jìn)行相似性測(cè)量,完成數(shù)據(jù)匹配。(2)索引方法。采用R-樹(shù)、R*樹(shù),改進(jìn)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),提高相似搜索的速度。(3)時(shí)間序列查詢語(yǔ)言,完成復(fù)雜查詢,支持范圍查詢、最鄰近查詢等,搜索與給定時(shí)序數(shù)據(jù)相似的時(shí)序數(shù)據(jù)。,2019年4月1日星期一,數(shù)據(jù)庫(kù)教程(沈-06.8),67,Ch14.3 (4)復(fù)雜數(shù)據(jù)類(lèi)型的挖掘,(4)復(fù)雜數(shù)據(jù)類(lèi)型的挖掘 前面所介紹的數(shù)據(jù)挖掘,主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行討論的。而復(fù)雜數(shù)據(jù)類(lèi)型,諸如文本數(shù)據(jù)、多媒體數(shù)據(jù)、Web數(shù)據(jù)都表現(xiàn)為半結(jié)構(gòu)化或非結(jié)構(gòu)化形式,此處對(duì)復(fù)雜數(shù)據(jù)類(lèi)型的挖掘,舉文本、多媒體和Web這三類(lèi)較流行的數(shù)據(jù)進(jìn)行簡(jiǎn)要介紹。 1)文本數(shù)據(jù)挖掘 以文本形式存放的數(shù)據(jù),包含一些半結(jié)構(gòu)化字段,如標(biāo)題、作者、出版社、出版時(shí)間、長(zhǎng)度等,但也包含無(wú)結(jié)構(gòu)的文本內(nèi)容。對(duì)這類(lèi)半結(jié)構(gòu)化的文本數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析方法是采用情報(bào)檢索(Information Retrieval),大部分是利用索引來(lái)完成檢索。但是,在文本數(shù)據(jù)迅猛增加時(shí),傳統(tǒng)情報(bào)檢索已無(wú)法滿足實(shí)際需求。例如,不知道文本中究竟包含哪些內(nèi)容時(shí),要想準(zhǔn)確查詢較為困難,想對(duì)文本進(jìn)行比較
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療技術(shù)助力下的化學(xué)實(shí)驗(yàn)教學(xué)策略分析
- 教育心理學(xué)的智慧解碼學(xué)生行為背后
- 心理輔導(dǎo)在招生過(guò)程中的作用
- 教育技術(shù)與職業(yè)發(fā)展
- 企業(yè)內(nèi)部培訓(xùn)與教育心理學(xué)的結(jié)合
- 醫(yī)療教育機(jī)器人的研發(fā)與應(yīng)用前景
- 教育投資的新風(fēng)向游戲化學(xué)習(xí)平臺(tái)融資指南
- 2025屆江西省新余市高二物理第二學(xué)期期末綜合測(cè)試模擬試題含解析
- 培養(yǎng)學(xué)習(xí)動(dòng)力教育心理學(xué)的力量
- 企業(yè)園區(qū)的智能交通管理方案
- 醫(yī)護(hù)人員手衛(wèi)生知識(shí)培訓(xùn)課件
- FZT 63005-2019 機(jī)織腰帶行業(yè)標(biāo)準(zhǔn)
- 醫(yī)院培訓(xùn)課件:《分級(jí)護(hù)理制度》
- 廣東省普通高中生物學(xué)業(yè)水平合格性考試真題卷含答案
- SHT 3081-2019 石油化工儀表接地設(shè)計(jì)規(guī)范
- 國(guó)際談判與國(guó)際公文寫(xiě)作-知到答案、智慧樹(shù)答案
- 新課標(biāo)背景下的大單元教學(xué)研究:國(guó)內(nèi)外大單元教學(xué)發(fā)展與演進(jìn)綜述
- 2024年江蘇南京六合區(qū)竹鎮(zhèn)鎮(zhèn)司法調(diào)解員招聘筆試參考題庫(kù)附帶答案詳解
- JJG 105-2000轉(zhuǎn)速表行業(yè)標(biāo)準(zhǔn)
- 血管活性藥物應(yīng)用的護(hù)理
- 調(diào)解方法與技巧
評(píng)論
0/150
提交評(píng)論