《商業(yè)分析實(shí)務(wù)》商業(yè)分析的技術(shù)環(huán)境_第1頁(yè)
《商業(yè)分析實(shí)務(wù)》商業(yè)分析的技術(shù)環(huán)境_第2頁(yè)
《商業(yè)分析實(shí)務(wù)》商業(yè)分析的技術(shù)環(huán)境_第3頁(yè)
《商業(yè)分析實(shí)務(wù)》商業(yè)分析的技術(shù)環(huán)境_第4頁(yè)
《商業(yè)分析實(shí)務(wù)》商業(yè)分析的技術(shù)環(huán)境_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

商業(yè)分析的技術(shù)環(huán)境數(shù)據(jù)倉(cāng)庫(kù)周邊技術(shù)與工具產(chǎn)品挖掘任務(wù)與方法01數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)比較項(xiàng)目傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容與業(yè)務(wù)相關(guān)的數(shù)據(jù)與決策相關(guān)的數(shù)據(jù)數(shù)據(jù)模型關(guān)系、層次結(jié)構(gòu)關(guān)系、多維結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化程度高,適合運(yùn)算操作數(shù)據(jù)結(jié)構(gòu)化程度始終負(fù)載事務(wù)處理量大,但每個(gè)事務(wù)涉及的記錄數(shù)很少查詢量小,但每次需要查詢大量的記錄事務(wù)輸出一般很少可能非常大訪問(wèn)經(jīng)常是隨機(jī)地讀、寫(xiě)操作經(jīng)常是只讀操作面向用戶普通的業(yè)務(wù)處理人員高級(jí)的決策管理人員匯總情況原始數(shù)據(jù),不做匯總多層次匯總,數(shù)據(jù)細(xì)節(jié)有損失停機(jī)可能意味著災(zāi)難性錯(cuò)誤可能意味著延遲決策數(shù)據(jù)時(shí)間期限60-90天5-10年設(shè)計(jì)避免冗余,符合范式引入冗余,反范式傳統(tǒng)數(shù)據(jù)庫(kù)缺乏集成性主體不明確數(shù)據(jù)需求不匹配,無(wú)法支持決策分析活動(dòng)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是基于大規(guī)模數(shù)據(jù)庫(kù)的決策支持系統(tǒng)環(huán)境的核心,是進(jìn)行數(shù)據(jù)分析和決策制定的一種技術(shù)方案。關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的定義,目前被廣泛接受的是由數(shù)據(jù)倉(cāng)庫(kù)之父WilliamH.Inmon在“BuildingtheDataWarehouse”一書(shū)中所提出的定義——數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)過(guò)程而不是一個(gè)項(xiàng)目,是一個(gè)環(huán)境而不是一件產(chǎn)品。數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)(1)面向主題“面向主題”是數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)組織的最基本原則。操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)的面向主題正是相對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)的面向應(yīng)用而言。所謂面向應(yīng)用是指系統(tǒng)實(shí)現(xiàn)過(guò)程中主要圍繞著一些應(yīng)用或功能,而面向主題則是考慮一個(gè)個(gè)的問(wèn)題域,對(duì)問(wèn)題域涉及的數(shù)據(jù)和分析數(shù)據(jù)所采用的功能給予同樣的重視。所謂“主題”,是一個(gè)邏輯概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。(2)集成的數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的集成,是指在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中,對(duì)多個(gè)外部數(shù)據(jù)源中格式不同、定義各異的數(shù)據(jù),按既定的策略進(jìn)行抽取、清洗、轉(zhuǎn)換等一系列處理,使之成為一個(gè)有機(jī)的整體。這在數(shù)據(jù)倉(cāng)庫(kù)的所有特點(diǎn)中是最重要的。數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)(3)相對(duì)穩(wěn)定的操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。而數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中內(nèi)容的更新、追加等操作是不頻繁的,一般依據(jù)既定的周期或條件閾值進(jìn)行。并且,數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)后,雖然也有刪除、更新等操作,但決定這種操作的閾值條件是較難滿足的,這種情況是非常罕見(jiàn)的,通常只需要定期的加載、刷新。(4)反映歷史變化數(shù)據(jù)倉(cāng)庫(kù)是以維的形式對(duì)數(shù)據(jù)進(jìn)行組織的,時(shí)間維是數(shù)據(jù)倉(cāng)庫(kù)中很重要的維度之一,數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容會(huì)隨時(shí)間的變化而不斷得到增補(bǔ)、更新。操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)雖然不會(huì)隨業(yè)務(wù)的發(fā)生而頻繁地更新數(shù)據(jù),但為了保證決策分析的正確性,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容定期加以增補(bǔ)和更新是十分必要的。所以數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。數(shù)據(jù)倉(cāng)庫(kù)相關(guān)概念1.數(shù)據(jù)源構(gòu)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù),必然要有充足的數(shù)據(jù)來(lái)源,為數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)提供進(jìn)行分析的“原材料”——數(shù)據(jù),這些數(shù)據(jù)來(lái)源成為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源(DataSource)。數(shù)據(jù)倉(cāng)庫(kù)并不直接存儲(chǔ)事務(wù)數(shù)據(jù),其數(shù)據(jù)往往來(lái)源于多個(gè)數(shù)據(jù)源,并且數(shù)據(jù)源并不局限于傳統(tǒng)數(shù)據(jù)庫(kù),也可以是其他類型的數(shù)據(jù),甚至是非結(jié)構(gòu)化的信息,如文本文件,也可以是網(wǎng)絡(luò)資源。數(shù)據(jù)倉(cāng)庫(kù)必須將不同來(lái)源的數(shù)據(jù)聚集合并為結(jié)構(gòu)一致的數(shù)據(jù)集,使其能夠準(zhǔn)確反映該來(lái)源的事務(wù)運(yùn)行情況和歷史記錄。從業(yè)務(wù)系統(tǒng)中提取的或從外部數(shù)據(jù)源中導(dǎo)入的數(shù)據(jù),經(jīng)過(guò)清洗、轉(zhuǎn)化后,成為數(shù)據(jù)倉(cāng)庫(kù)的原始數(shù)據(jù)。(它們是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的一部分,但不是全部)數(shù)據(jù)倉(cāng)庫(kù)相關(guān)概念2.元數(shù)據(jù)數(shù)據(jù)是對(duì)事物的描述,“元數(shù)據(jù)”就是描述數(shù)據(jù)的數(shù)據(jù),它提供了相關(guān)數(shù)據(jù)的環(huán)境,是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)、操作數(shù)據(jù)的進(jìn)程以及應(yīng)用程序的結(jié)構(gòu)和意義的描述信息。元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、運(yùn)行中有著十分重要的作用,它所描述的對(duì)象涉及數(shù)據(jù)倉(cāng)庫(kù)的各個(gè)方面。元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的上層,用于記錄數(shù)據(jù)倉(cāng)庫(kù)中對(duì)象的位置。為了從操作型環(huán)境向數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù):包括所有源數(shù)據(jù)項(xiàng)的名稱、屬性及其在提取倉(cāng)庫(kù)中的轉(zhuǎn)化決策支持系統(tǒng)元數(shù)據(jù):用來(lái)與最終用戶的多維商業(yè)模型和前端工具之間建立映射元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)綜合文檔,是數(shù)據(jù)倉(cāng)庫(kù)的核心,它決定了數(shù)據(jù)分析的有效性。通過(guò)元數(shù)據(jù)可以將數(shù)據(jù)倉(cāng)庫(kù)和復(fù)雜的數(shù)據(jù)源系統(tǒng)的變化隔離,是數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)和維護(hù)的一個(gè)關(guān)鍵因素,也是保證數(shù)據(jù)提取質(zhì)量的依據(jù)。數(shù)據(jù)倉(cāng)庫(kù)相關(guān)概念3.數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)級(jí)的,能為整個(gè)企業(yè)各個(gè)部門(mén)的運(yùn)行提供決策支持手段;而數(shù)據(jù)集市則是部門(mén)級(jí)的,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱之為部門(mén)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)的工作范圍和成本常常是巨大的。信息技術(shù)部門(mén)必須對(duì)所有的用戶用以整個(gè)企業(yè)的眼光對(duì)待任何一次決策分析,這樣就形成了代價(jià)很高、耗時(shí)較長(zhǎng)的大項(xiàng)目。于是提供更緊密集成的、擁有完整圖形接口并且價(jià)格吸引人的工具——數(shù)據(jù)集市(DataMart)就應(yīng)運(yùn)而生。作為一種更小、更集中的數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市為公司提供了一條分析商業(yè)數(shù)據(jù)的廉價(jià)途徑,主要針對(duì)某個(gè)具有戰(zhàn)略意義的應(yīng)用或者具體部門(mén)級(jí)的應(yīng)用,支持用戶利用已有的數(shù)據(jù)獲得重要的競(jìng)爭(zhēng)優(yōu)勢(shì)或者找到進(jìn)入新市場(chǎng)的具體解決方案。一個(gè)企業(yè)只需建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),但企業(yè)卻可以有多個(gè)數(shù)據(jù)集市。數(shù)據(jù)集市是面向部門(mén)的,這就要求它的整個(gè)實(shí)施過(guò)程由部門(mén)定義、設(shè)計(jì)和開(kāi)發(fā),也由部門(mén)來(lái)管理和維護(hù)。同時(shí),數(shù)據(jù)集市相對(duì)數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模較小,便于實(shí)施,購(gòu)買(mǎi)較便宜,投資回收快。無(wú)論如何,數(shù)據(jù)集市的數(shù)據(jù)和功能都是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,并不擁有數(shù)據(jù)倉(cāng)庫(kù)的全部數(shù)據(jù)及功能??梢哉J(rèn)為數(shù)據(jù)集市是一個(gè)提供更詳細(xì)的、預(yù)先存在的數(shù)據(jù)倉(cāng)庫(kù)的摘要子集,可升級(jí)到完整的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)相關(guān)概念是為了滿足企業(yè)內(nèi)部各部門(mén)的分析需求而建立的微型數(shù)據(jù)倉(cāng)庫(kù)。這類數(shù)據(jù)集市的服務(wù)對(duì)象層次較低,數(shù)據(jù)規(guī)模較小,結(jié)構(gòu)也相對(duì)簡(jiǎn)單,大多沒(méi)有元數(shù)據(jù)部件。這類數(shù)據(jù)集市也可以實(shí)施集成,以構(gòu)建完整的數(shù)據(jù)倉(cāng)庫(kù)。從屬型數(shù)據(jù)集市的內(nèi)容并不直接來(lái)自外部數(shù)據(jù)源,而是從數(shù)據(jù)倉(cāng)庫(kù)中得到。在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部,數(shù)據(jù)根據(jù)分析主題,劃分為若干個(gè)子集,進(jìn)行組織、存放。數(shù)據(jù)劃分成集市之后,在進(jìn)行某個(gè)確定主題的分析時(shí),可以有效縮小數(shù)據(jù)的檢索范圍,明顯提高數(shù)據(jù)倉(cāng)庫(kù)的效率。數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)1.兩層體系結(jié)構(gòu)(DB-DW)數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)2.三層體系結(jié)構(gòu)(DB-ODS-DW)作用:為數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù),減少數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)抽取的復(fù)雜性。及時(shí)的OLAP分析。全聚德OLTP操作。數(shù)據(jù)模型1.概念模型概念模型是客觀世界到計(jì)算機(jī)系統(tǒng)的一個(gè)中間層次,最常用的表示方法是E-R(實(shí)體-關(guān)系)圖,除此之外,還有面向?qū)ο蠓椒ā?dòng)態(tài)模型分析法等。設(shè)計(jì)概念模型的目的,是對(duì)所涉及的現(xiàn)實(shí)世界中的所有客觀實(shí)體,進(jìn)行科學(xué)的、全面的分析和抽象,為數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建制定出“藍(lán)圖”。這是成功構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的第一步。概念模型設(shè)計(jì)的關(guān)鍵,是要保證所有與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的客觀實(shí)體(即業(yè)務(wù)內(nèi)容)均得到正確的理解,并被完整地包含在模型當(dāng)中。2.物理模型數(shù)據(jù)倉(cāng)庫(kù)的物理模型,是指邏輯模型在計(jì)算機(jī)世界中的具體實(shí)現(xiàn)方法,包括物理存取、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的構(gòu)造、數(shù)據(jù)存放位置的確定,以及存儲(chǔ)分配策略等。數(shù)據(jù)倉(cāng)庫(kù)的物理數(shù)據(jù)模型是在邏輯模型的基礎(chǔ)上實(shí)現(xiàn)的。不同層次的建模側(cè)重點(diǎn):(1)應(yīng)用層的建模應(yīng)當(dāng)面向應(yīng)用。(2)業(yè)務(wù)信息層的建模應(yīng)當(dāng)以用戶及客戶為中心。(3)數(shù)據(jù)整合層的建模應(yīng)當(dāng)面向主題。數(shù)據(jù)模型3.邏輯模型對(duì)概念模型進(jìn)行細(xì)分,即可構(gòu)造出數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型。邏輯模型,是從概念模型過(guò)渡到物理模型的中間層次,因此又稱為中間層數(shù)據(jù)模型。數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型描述了數(shù)據(jù)倉(cāng)庫(kù)的主題的邏輯實(shí)現(xiàn),即每個(gè)主題對(duì)應(yīng)的模式定義。一般而言,高層概念模型中的每一個(gè)主要的實(shí)體或主題域,都需要建立一個(gè)對(duì)應(yīng)的邏輯模型。邏輯模型是數(shù)據(jù)的邏輯結(jié)構(gòu),如多維模型、關(guān)系模型和層次模型等。目前,對(duì)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的討論大多集中在邏輯模型,其中最常用的是多維模型。多維模型中的基本概念:維是指人們觀察數(shù)據(jù)的特定角度。例如,企業(yè)常常關(guān)心不同銷售數(shù)據(jù)隨時(shí)間變化的情況,所以時(shí)間就是一個(gè)維度。維的層次是指人們觀察數(shù)據(jù)的某個(gè)特定角度還可以存在細(xì)節(jié)程度不同的多個(gè)描述。一個(gè)維度往往有多個(gè)層次。例如描述日期維度時(shí),可以有年、季度、月和日等不同層次,則年、季度、月和日就是時(shí)間維度的層次。維成員是指維的一個(gè)取值。如果一個(gè)維是多層次的,則該維度的成員就是在不同層次上取值的組合。例如時(shí)間維有年、月和日三個(gè)層次,則分別在三個(gè)層次上各取一個(gè)值組合起來(lái)就得到時(shí)間維的一個(gè)成員,即“某年某月某日”。度量描述了要分析的數(shù)值,例如銷售額等。粒度是指數(shù)據(jù)倉(cāng)庫(kù)所保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度越?。环粗?,細(xì)化程度越低,粒度越大。02周邊技術(shù)與產(chǎn)品工具ETL(Extract,TransformandLoad)為了實(shí)現(xiàn)對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行有效地維護(hù)和管理,使數(shù)據(jù)倉(cāng)庫(kù)能夠準(zhǔn)確、安全、可靠地從數(shù)據(jù)庫(kù)中取出數(shù)據(jù),經(jīng)過(guò)加工轉(zhuǎn)換成有規(guī)律信息之后,供管理人員進(jìn)行分析,需要一種程序來(lái)對(duì)數(shù)據(jù)進(jìn)行凈化提煉,ETL(Extract,TransformandLoad)正是這樣的程序。ETL是數(shù)據(jù)倉(cāng)庫(kù)的最基本流程,原來(lái)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過(guò)抽取、轉(zhuǎn)換并加載到數(shù)據(jù)倉(cāng)庫(kù)中心存儲(chǔ)庫(kù)的過(guò)程就被稱為ETL過(guò)程,制定這一過(guò)程的測(cè)量稱之為ETL策略,而完成ETL過(guò)程的工具則是ETL工具。ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié),也是企業(yè)數(shù)據(jù)管理的核心,按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的后續(xù)環(huán)節(jié)影響比較大。ETL(Extract,TransformandLoad)1.數(shù)據(jù)抽取數(shù)據(jù)抽取即是從數(shù)據(jù)源中抽取數(shù)據(jù)的過(guò)程。源數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)數(shù)據(jù)抽取完成的,從一個(gè)或多個(gè)源數(shù)據(jù)庫(kù)中通過(guò)記錄選取進(jìn)行數(shù)據(jù)復(fù)制的過(guò)程。抽取過(guò)程是將記錄寫(xiě)入ODS或者臨時(shí)區(qū)以備進(jìn)一步處理。數(shù)據(jù)抽取是ETL的首要任務(wù),解決的主要問(wèn)題是確定需要抽取的數(shù)據(jù),并選用適當(dāng)?shù)某槿》绞?。?shù)據(jù)抽取的主要功能:數(shù)據(jù)提取。數(shù)據(jù)清洗。生成衍生數(shù)據(jù)。數(shù)據(jù)抽取的方式有多種,主要包括時(shí)戳方式、日志方式、全表對(duì)比方式、全表刪除插入方式等。ETL(Extract,TransformandLoad)2.數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是將抽取出的數(shù)據(jù)進(jìn)行過(guò)濾、合并、解碼和解釋等,為數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建有效數(shù)據(jù)的過(guò)程。一旦數(shù)據(jù)抽取完成,則需要設(shè)計(jì)并確定轉(zhuǎn)換規(guī)則應(yīng)用于已抽取的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換需要理解業(yè)務(wù)側(cè)重點(diǎn)、信息需求和目前可用的源數(shù)據(jù)。常用的轉(zhuǎn)換規(guī)則:字段級(jí)的轉(zhuǎn)換。清潔和凈化。多數(shù)據(jù)源處理。聚合和匯總。3.數(shù)據(jù)加載數(shù)據(jù)加載是將轉(zhuǎn)換好的數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)中,通常分為以下幾種方式:(1)初始裝載。(2)增量裝載。(3)完全刷新。在選擇ETL工具時(shí),應(yīng)當(dāng)從以下幾個(gè)原則出發(fā)進(jìn)行考慮:ETL對(duì)平臺(tái)的支持;對(duì)數(shù)據(jù)源的支持;數(shù)據(jù)轉(zhuǎn)換功能;管理和調(diào)度功能;集成和開(kāi)放性;對(duì)元數(shù)據(jù)管理。周邊技術(shù)OLAP技術(shù)目前主流的OLAP產(chǎn)品有OracleExpress/Discoverer、SQLServerAnalysisServices、DB2OLAPServer、SASOLAPServer等,這些產(chǎn)品都可以生成多維數(shù)據(jù)立方體,提供多維數(shù)據(jù)的快速分析,支持所有主流關(guān)系型數(shù)據(jù)庫(kù)如DB2,Oracle,SQLServer,Sybase等,同時(shí)可讀取關(guān)系數(shù)據(jù)庫(kù)中細(xì)節(jié)數(shù)據(jù),實(shí)現(xiàn)混合在線分析(HOLAP)或關(guān)系型在線分析(ROLAP)。報(bào)表技術(shù)報(bào)表技術(shù)主要是將集成在數(shù)據(jù)模型里的數(shù)據(jù),按照復(fù)雜的格式、指定行列統(tǒng)計(jì)項(xiàng),計(jì)算形成的特殊表格。一般的簡(jiǎn)單報(bào)表可以使用通用的前臺(tái)展現(xiàn)技術(shù)實(shí)現(xiàn),而復(fù)雜的報(bào)表則需要使用特定的報(bào)表技術(shù)。主流的報(bào)表技術(shù)都可以靈活的制定各種報(bào)表模版庫(kù)和指標(biāo)庫(kù),并根據(jù)每個(gè)區(qū)塊或單元格的需要引用指標(biāo),實(shí)現(xiàn)一系列復(fù)雜的符合要求的報(bào)表的自動(dòng)生成。數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識(shí)的過(guò)程。通過(guò)數(shù)據(jù)挖掘能找出數(shù)據(jù)中隱藏的信息,實(shí)現(xiàn)用模型來(lái)擬合數(shù)據(jù)、探索、分析數(shù)據(jù),驅(qū)動(dòng)知識(shí)發(fā)現(xiàn),實(shí)現(xiàn)機(jī)器學(xué)習(xí)等功能。數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品Oracle公司的數(shù)據(jù)倉(cāng)庫(kù)解決方案包含了業(yè)界領(lǐng)先的數(shù)據(jù)庫(kù)平臺(tái)、開(kāi)發(fā)工具和應(yīng)用系統(tǒng),能夠提供一系列的數(shù)據(jù)倉(cāng)庫(kù)工具集和服務(wù),具有多用戶數(shù)據(jù)倉(cāng)庫(kù)管理能力,多種分區(qū)方式,較強(qiáng)的與OLAP工具的交互能力,及快速和便捷的數(shù)據(jù)移動(dòng)機(jī)制等特性。IBM公司的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品稱為DB2DataWarehouseEdition,它結(jié)合了DB2數(shù)據(jù)服務(wù)器的長(zhǎng)處和IBM的商業(yè)智能基礎(chǔ)設(shè)施,集成了用于倉(cāng)庫(kù)管理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘以及OLAP分析和報(bào)告的核心組件,提供了一套基于可視數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)智能解決方案。微軟的SQLServer提供了三大服務(wù)和一個(gè)工具來(lái)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的整合,為用戶提供了可用于構(gòu)建典型和創(chuàng)新的分析應(yīng)用程序所需的各種特性、工具和功能,可以實(shí)現(xiàn)建模、ETL、建立查詢分析或圖表、定制KPI、建立報(bào)表和構(gòu)造數(shù)據(jù)挖掘應(yīng)用及發(fā)布等功能。SAS公司的數(shù)據(jù)倉(cāng)庫(kù)解決方案是一個(gè)由30多個(gè)專用模塊構(gòu)成的架構(gòu)體系,適應(yīng)于對(duì)企業(yè)級(jí)的數(shù)據(jù)進(jìn)行重新整合,支持多維、快速查詢,提供服務(wù)于OLAP操作和決策支持的數(shù)據(jù)采集、管理、處理和展現(xiàn)功能。03挖掘任務(wù)與方法挖掘任務(wù)與方法數(shù)據(jù)挖掘的基本任務(wù)按照其挖掘需要達(dá)到的目標(biāo)可以分為分類和預(yù)測(cè)、聚類分析、關(guān)聯(lián)規(guī)則、異常檢測(cè)和智能推薦等。通過(guò)完成以上任務(wù),發(fā)現(xiàn)數(shù)據(jù)的價(jià)值來(lái)指導(dǎo)商業(yè)決策。按照是否有預(yù)先設(shè)置分類可以分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)模型也可以稱為描述性模型,可以概括出數(shù)據(jù)中潛在的模式(相關(guān)、趨勢(shì)、聚類、軌跡和異常)。有監(jiān)督模型則是根據(jù)其他屬性的值預(yù)測(cè)出特定屬性的值,被預(yù)測(cè)的屬性是目標(biāo)變量、因變量,用來(lái)做預(yù)測(cè)的是說(shuō)明變量、自變量。無(wú)監(jiān)督學(xué)習(xí)模型有監(jiān)督學(xué)習(xí)模型分類與預(yù)測(cè)分類與預(yù)測(cè)是一種基于類標(biāo)號(hào)的學(xué)習(xí)方式。這種類標(biāo)號(hào)若是離散的,屬于分類問(wèn)題;若是連續(xù)的,則屬于預(yù)測(cè)問(wèn)題,或者稱為回歸問(wèn)題。分類能反映事物的類別,進(jìn)而對(duì)事態(tài)發(fā)展進(jìn)行預(yù)測(cè)。分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。分類的目的是:分析輸入數(shù)據(jù),通過(guò)在訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來(lái)的特性,為每一個(gè)類找到一種準(zhǔn)確的描述或者模型。數(shù)據(jù)分類操作步驟:根據(jù)給定的訓(xùn)練集,找到合適的映射函數(shù)。使用上一步訓(xùn)練完成的函數(shù)和預(yù)測(cè)數(shù)據(jù)的類別,或者利用該函數(shù)的模型,對(duì)數(shù)據(jù)集中的每一類別進(jìn)行描述,形成分類規(guī)則。分類與預(yù)測(cè)決策樹(shù)分類器算法決策樹(shù)構(gòu)建利用訓(xùn)練樣本生成決策樹(shù)模型的過(guò)程特別關(guān)注如何找出用于定義某節(jié)點(diǎn)測(cè)試的分割點(diǎn),若已選定某分割點(diǎn),如何將數(shù)據(jù)進(jìn)行劃分決策樹(shù)修剪通過(guò)刪除部分節(jié)點(diǎn)和子樹(shù),以避免“過(guò)度擬合修剪策略基于代價(jià)復(fù)雜度的修剪悲觀修剪MDL修剪分類器可主要應(yīng)用于以下場(chǎng)景:文本分類:電商將客戶的按照關(guān)鍵詞進(jìn)行分類和情感分析。信用風(fēng)險(xiǎn)分析:將信用卡申請(qǐng)按照中、低、高風(fēng)險(xiǎn)分類??蛻繇憫?yīng)分析:預(yù)測(cè)哪些客戶會(huì)對(duì)電信公司的產(chǎn)品促銷活動(dòng)會(huì)響應(yīng)??蛻袅魇ьA(yù)測(cè):預(yù)測(cè)哪些客戶會(huì)流失。不滿意客戶預(yù)測(cè):預(yù)測(cè)哪些客戶會(huì)對(duì)移動(dòng)公司的服務(wù)不滿意,以提前進(jìn)行客戶滿意度提升。聚類分析聚類分析(ClusterAnalysis)的一般定義是根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的數(shù)據(jù)類,是“物以類聚,人以群分”在原始數(shù)據(jù)集中的使用,它將物理或抽象對(duì)象的集合組成為由類似對(duì)象組成的多個(gè)類的過(guò)程被成為聚類。由聚類所組成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一簇中的對(duì)象彼此類似,與其他簇中的對(duì)象相異,最終實(shí)現(xiàn)屬于同一個(gè)類別的個(gè)體之間距離盡可能?。ǜ呦嗨贫龋?,而不同類別的個(gè)體間距離盡可能大(相似度盡可能小)。目前主要有基于劃分的聚類算法、基于層次的聚類算法、基于密度聚類算法、基于網(wǎng)格的聚類算法、基于神經(jīng)網(wǎng)絡(luò)的聚類算法和基于統(tǒng)計(jì)學(xué)的聚類算法。聚類分析k-means是一種典型的劃分聚類算法,它用一個(gè)聚類的中心來(lái)代表一個(gè)簇,即在迭代過(guò)程中選擇的聚點(diǎn)不一定是聚類中的一個(gè)點(diǎn),該算法只能處理數(shù)值型數(shù)據(jù)。k-modesK-Means算法的擴(kuò)展,采用簡(jiǎn)單匹配方法來(lái)度量分類型數(shù)據(jù)的相似度。k-prototypes結(jié)合了K-Means和K-Modes兩種算法,能夠處理混合型數(shù)據(jù)。k-medoids在迭代過(guò)程中選擇簇中的某點(diǎn)作為聚點(diǎn),PAM是典型的k-medoids算法。CLARACLARA算法在PAM的基礎(chǔ)上采用了抽樣技術(shù),能夠處理大規(guī)模數(shù)據(jù)。CLARANSCLARANS算法融合了PAM和CLARA兩者的優(yōu)點(diǎn),是第一個(gè)用于空間數(shù)據(jù)庫(kù)的聚類算法。FocusedCLARAN采用了空間索引技術(shù)提高了CLARANS算法的效率。PCM模糊集合理論引入聚類分析中并提出了PCM模糊聚類算法?;趧澐值姆椒ǎ≒artition-basedmethods):其原理就是需要對(duì)一堆散點(diǎn)進(jìn)行聚類,最終聚類結(jié)果為“類內(nèi)的點(diǎn)都足夠近,類間的點(diǎn)都足夠遠(yuǎn)”。首先我們要確定這堆散點(diǎn)最后聚成幾類,然后挑選幾個(gè)點(diǎn)作為初始中心點(diǎn),再然后依據(jù)預(yù)先定好的啟發(fā)式算法給數(shù)據(jù)點(diǎn)做迭代重置,直到最后到達(dá)“類內(nèi)的點(diǎn)都足夠近,類間的點(diǎn)都足夠遠(yuǎn)”的目標(biāo)效果?;趧澐值木垲惗噙m用于中等體量的數(shù)據(jù)集,但我們也不知道“中等”到底有多“中”,所以不妨理解成,數(shù)據(jù)集越大,越有可能陷入局部最小。聚類分析基于層次的聚類算法(Hierarchicalmethods):其首先計(jì)算樣本之間的距離,每次將距離最近的點(diǎn)合并到同一個(gè)類,然后再計(jì)算類與類之間的距離,將距離最近的類合并為一個(gè)大類,不停的合并,直到合成了一個(gè)類。層次聚類算法根據(jù)層次分解的順序分為:自下底向上和自上向下,即凝聚的層次聚類算法和分裂的層次聚類算法,也可以理解為自下而上法和自上而下法。自下而上法就是一開(kāi)始每個(gè)個(gè)體都是一個(gè)類,然后根據(jù)聯(lián)系尋找同類,最后形成一個(gè)“類”。自上而下法就是反過(guò)來(lái),一開(kāi)始所有個(gè)體都屬于一個(gè)“類”,然后根據(jù)聯(lián)系排除異己,最后每個(gè)個(gè)體都成為一個(gè)“類”。CURE采用抽樣技術(shù)先對(duì)數(shù)據(jù)集D隨機(jī)抽取樣本,再采用分區(qū)技術(shù)對(duì)樣本進(jìn)行分區(qū),然后對(duì)每個(gè)分區(qū)局部聚類,最后對(duì)局部聚類進(jìn)行全局聚類。ROCK也采用了隨機(jī)抽樣技術(shù),該算法在計(jì)算兩個(gè)對(duì)象的相似度時(shí),同時(shí)考慮了周圍對(duì)象的影響。CHEMALOEN首先由數(shù)據(jù)集構(gòu)造成一個(gè)K-最近鄰圖Gk,再通過(guò)一個(gè)圖的劃分算法將圖Gk劃分成大量的子圖,每個(gè)子圖代表一個(gè)初始子簇,最后用一個(gè)凝聚的層次聚類算法反復(fù)合并子簇,找到真正的結(jié)果簇。SBACSBAC算法則在計(jì)算對(duì)象間相似度時(shí),考慮了屬性特征對(duì)于體現(xiàn)對(duì)象本質(zhì)的重要程度,對(duì)于更能體現(xiàn)對(duì)象本質(zhì)的屬性賦予較高的權(quán)值。BIRCHBIRCH算法利用樹(shù)結(jié)構(gòu)對(duì)數(shù)據(jù)集進(jìn)行處理,葉結(jié)點(diǎn)存儲(chǔ)一個(gè)聚類,用中心和半徑表示,順序處理每一個(gè)對(duì)象,并把它劃分到距離最近的結(jié)點(diǎn),該算法也可以作為其他聚類算法的預(yù)處理過(guò)程。BUBBLEBUBBLE算法則把BIRCH算法的中心和半徑概念推廣到普通的距離空間。BUBBLE-FMBUBBLE-FM算法通過(guò)減少距離的計(jì)算次數(shù),提高了BUBBLE算法的效率。聚類分析基于密度聚類的思想就是定一個(gè)距離半徑,最少有多少個(gè)點(diǎn),然后把可以到達(dá)的點(diǎn)都連起來(lái),判定為同類。其原理簡(jiǎn)單說(shuō)畫(huà)圈,其中要定義兩個(gè)參數(shù),一個(gè)是圈的最大半徑,一個(gè)是一個(gè)圈里最少應(yīng)容納幾個(gè)點(diǎn),最后在一個(gè)圓圈里的,就是一個(gè)類。它解決了k-means解決不了不規(guī)則形狀聚類的問(wèn)題,同時(shí)也對(duì)噪聲數(shù)據(jù)的處理比較好。DBSCANDBSCAN算法是一種典型的基于密度的聚類算法,該算法采用空間索引技術(shù)來(lái)搜索對(duì)象的鄰域,引入了“核心對(duì)象”和“密度可達(dá)”等概念,從核心對(duì)象出發(fā),把所有密度可達(dá)的對(duì)象組成一個(gè)簇。GDBSCAN算法通過(guò)泛化DBSCAN算法中鄰域的概念,以適應(yīng)空間對(duì)象的特點(diǎn)。OPTICSOPTICS算法結(jié)合了聚類的自動(dòng)性和交互性,先生成聚類的次序,可以對(duì)不同的聚類設(shè)置不同的參數(shù),來(lái)得到用戶滿意的結(jié)果。FDCFDC算法通過(guò)構(gòu)造k-dtree把整個(gè)數(shù)據(jù)空間劃分成若干個(gè)矩形空間,當(dāng)空間維數(shù)較少時(shí)可以大大提高DBSCAN的效率。基于網(wǎng)格的聚類算法(dding-based)是指將對(duì)象空間量化為有限數(shù)目的單元,形成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),所有聚類都在這個(gè)網(wǎng)絡(luò)中進(jìn)行。其基本思想是將每個(gè)屬性的可能值分割成許多相鄰的區(qū)間,創(chuàng)建網(wǎng)格單元的集合,每個(gè)對(duì)象落入一個(gè)網(wǎng)格單元,網(wǎng)格單元對(duì)應(yīng)的屬性區(qū)間包含該對(duì)象的值。這種算法的處理速度很快,其處理時(shí)間獨(dú)立于數(shù)據(jù)對(duì)象的數(shù)目,只與量化空間中每一維的單元數(shù)目有關(guān)。STING利用網(wǎng)格單元保存數(shù)據(jù)統(tǒng)計(jì)信息,從而實(shí)現(xiàn)多分辨率的聚類WaveCluster在聚類分析中引入了小波變換的原理,主要應(yīng)用于信號(hào)處理領(lǐng)域。(備注:小波算法在信號(hào)處理,圖形圖像,加密解密等領(lǐng)域有重要應(yīng)用,是一種比較高深和牛逼的東西)CLIQUE是一種結(jié)合了網(wǎng)格和密度的聚類算法聚類分析神經(jīng)網(wǎng)絡(luò)(NeuralNetworks,NN)是通過(guò)模擬人的大腦處理機(jī)制的生理功能,有大量的、簡(jiǎn)單的處理單元(或稱神經(jīng)元)廣泛互連形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng),具有大規(guī)模并行、分布式存儲(chǔ)和處理、自組織、自適應(yīng)和自學(xué)習(xí)的能力,特別適用于處理需要同時(shí)考慮需要因素和條件的、不精確和模糊的信息處理問(wèn)題,目前已廣泛應(yīng)用于語(yǔ)音識(shí)別、圖像識(shí)別與理解、計(jì)算機(jī)視覺(jué)、智能機(jī)器人、故障檢測(cè)等領(lǐng)域中。由于神經(jīng)網(wǎng)絡(luò)具有魯棒性強(qiáng)、可去除噪聲等優(yōu)點(diǎn),所以不會(huì)把幾個(gè)噪聲數(shù)據(jù)單獨(dú)聚為一類,從而有效地避免了早上數(shù)據(jù)對(duì)于聚類結(jié)果的影響。自組織神經(jīng)網(wǎng)絡(luò)(SOM)是比較常用的神經(jīng)網(wǎng)絡(luò)聚類算法,可以在一維或二維的處理單元陣列上,形成輸入信號(hào)的特征拓?fù)浞植?。該方法的基本思想是由外界輸入不同的樣本到人工的自組織映射網(wǎng)絡(luò)中,一開(kāi)始時(shí),輸入樣本引起輸出興奮細(xì)胞的位置各不相同,但自組織后會(huì)形成一些細(xì)胞群,它們分別代表了輸入樣本,反映了輸入樣本的特征。SOM神經(jīng)網(wǎng)絡(luò)模型聚類算法綜合評(píng)價(jià)表算法名稱可伸縮性適合的數(shù)據(jù)類型高維性異常數(shù)據(jù)的抗干擾性聚類形狀算法效率WaveCluster很高數(shù)值型很高較高任意形狀很高ROCK很高混合型很高很高任意形狀一般BIRCH較高數(shù)值型較低較低球形很高CURE較高數(shù)值型一般很高任意形狀較高K-Prototypes一般混合型較低較低任意形狀一般DENCLUE較低數(shù)值型較高一般任意形狀較高OptiGrid一般數(shù)值型較高一般任意形狀一般CLIQUE較高數(shù)值型較高較高任意形狀較低DBSCAN一般數(shù)值型較低較高任意形狀一般CLARANS較低數(shù)值型較低較高球形較低關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則模式屬于描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無(wú)監(jiān)督學(xué)習(xí)的方法。關(guān)聯(lián)分析又稱為購(gòu)物籃分析,是數(shù)據(jù)挖掘領(lǐng)域常見(jiàn)的一種算法,主要用于發(fā)現(xiàn)隱藏于大型數(shù)據(jù)集中的有意義的聯(lián)系。關(guān)聯(lián)分析所得到的結(jié)果,我們可以用關(guān)聯(lián)規(guī)則或者頻繁項(xiàng)集的形式表示。項(xiàng)集指的是在關(guān)聯(lián)分析中,包含0個(gè)或多個(gè)的項(xiàng)稱為項(xiàng)集。如果一個(gè)項(xiàng)集包含k個(gè)項(xiàng),那么就稱為k項(xiàng)集。比如{牛奶,咖啡}則稱為2項(xiàng)集。尿布和啤酒關(guān)聯(lián)規(guī)則涉及的四個(gè)參數(shù):可信度(Confidence)對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量支持度(Support)對(duì)關(guān)聯(lián)規(guī)則重要性的衡量期望可信度(ExpectedConfidence)描述了在沒(méi)有物品集A的作用下,物品集B本身的支持度作用度(Li

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論