《大數(shù)據(jù)分析實(shí)務(wù)》課件第1章:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述_第1頁
《大數(shù)據(jù)分析實(shí)務(wù)》課件第1章:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述_第2頁
《大數(shù)據(jù)分析實(shí)務(wù)》課件第1章:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述_第3頁
《大數(shù)據(jù)分析實(shí)務(wù)》課件第1章:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述_第4頁
《大數(shù)據(jù)分析實(shí)務(wù)》課件第1章:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述

第一章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù) 1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘 1.3 商務(wù)智能

1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.1數(shù)據(jù)的層次性

39攝氏度體溫1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.1數(shù)據(jù)的層次性

石家莊2021年7月1日氣溫39攝氏度石家莊(1971年-2021年)7月平均氣溫39攝氏度1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.1數(shù)據(jù)的層次性

知識(shí)信息數(shù)據(jù)數(shù)據(jù)是信息的載體,信息是數(shù)據(jù)的內(nèi)涵客觀事物的數(shù)量、屬性、位置及其相互關(guān)系進(jìn)行抽象表示反應(yīng)了客觀世界的規(guī)律性,與決策相關(guān)1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.1數(shù)據(jù)的層次性

清明時(shí)節(jié)雨紛紛立夏耕田小滿灌水芒種看果夏至看禾小暑谷熟大暑忙收1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.1數(shù)據(jù)的層次性

石家莊哪種病的死亡率最高?1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.1數(shù)據(jù)的層次性

1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.2數(shù)據(jù)倉(cāng)庫(kù)出現(xiàn)的原因

數(shù)據(jù)庫(kù)存在的問題數(shù)據(jù)量增長(zhǎng)迅速,處理復(fù)雜問題的性能下降明顯存在信息孤島現(xiàn)象,異構(gòu)環(huán)境的數(shù)據(jù)轉(zhuǎn)換和共享困難數(shù)據(jù)主要面向事務(wù)處理,缺少對(duì)決策和數(shù)據(jù)分析的支撐1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.2數(shù)據(jù)倉(cāng)庫(kù)出現(xiàn)的原因

傳統(tǒng)數(shù)據(jù)庫(kù)在當(dāng)前數(shù)據(jù)量增長(zhǎng)迅速、經(jīng)營(yíng)管理中決策支持、數(shù)據(jù)分析要求越來越高的背景下,越來越力不從心,無法擔(dān)當(dāng)作為大規(guī)模數(shù)據(jù)綜合分析平臺(tái)的重任,管理決策任務(wù)需要有一種新的理論、技術(shù)和工具來提供支持,這就是數(shù)據(jù)倉(cāng)庫(kù)。1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.3數(shù)據(jù)倉(cāng)庫(kù)的概念

數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、隨時(shí)間變化的、非易失的數(shù)據(jù)集合,用于支持管理層的決策過程。是一種為信息分析提供了良好的基礎(chǔ)并支持管理決策活動(dòng)的分析環(huán)境,是面向主題的、集成的、穩(wěn)定的、不可更新的、隨時(shí)間變化的、分層次的多維的集成數(shù)據(jù)集合1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.3數(shù)據(jù)倉(cāng)庫(kù)的概念

面向主題:數(shù)據(jù)倉(cāng)庫(kù)以支持管理層的決策為目的,圍繞著某些具體的分析主題而組織數(shù)據(jù)組合起來,共同形成對(duì)該對(duì)象的較為完整、一致、準(zhǔn)確的描述,這一被描述的對(duì)象就是“主題”確定了主題之后,就應(yīng)對(duì)業(yè)務(wù)數(shù)據(jù)庫(kù)的內(nèi)容加以組織歸類。1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.3數(shù)據(jù)倉(cāng)庫(kù)的概念

數(shù)據(jù)集成性:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的集成性,是指在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的過程中,多個(gè)外部數(shù)據(jù)源內(nèi)格式不同、定義各異的數(shù)據(jù),按既定的策略經(jīng)過抽取、清洗、轉(zhuǎn)換等一系列處理,最終構(gòu)成一個(gè)有機(jī)的整體。1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.3數(shù)據(jù)倉(cāng)庫(kù)的概念

數(shù)據(jù)集成性:數(shù)據(jù)倉(cāng)庫(kù)從業(yè)務(wù)數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)后,并不直接將其導(dǎo)入,而是進(jìn)行一系列的預(yù)處理工作,即對(duì)數(shù)據(jù)進(jìn)行篩選、清洗和轉(zhuǎn)換、綜合等工作(ETL),以解決數(shù)據(jù)中存在的問題。1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.3數(shù)據(jù)倉(cāng)庫(kù)的概念

數(shù)據(jù)非易失性:數(shù)據(jù)按照業(yè)務(wù)要求在操作型數(shù)據(jù)庫(kù)系統(tǒng)產(chǎn)生、更新、刪除和查詢。但是數(shù)據(jù)倉(cāng)庫(kù)則體現(xiàn)出一種不同數(shù)據(jù)的特性。數(shù)據(jù)被裝載(load)到數(shù)據(jù)倉(cāng)庫(kù)后,被打上一個(gè)時(shí)間戳。數(shù)據(jù)倉(cāng)庫(kù)中的這個(gè)數(shù)據(jù)代表了在某一時(shí)刻業(yè)務(wù)數(shù)據(jù)庫(kù)中對(duì)應(yīng)數(shù)據(jù)項(xiàng)的描述,可以稱之為數(shù)據(jù)快照。雖然隨著時(shí)間的流逝,在實(shí)際業(yè)務(wù)中這個(gè)數(shù)據(jù)字段可能早已發(fā)生變化,但是在數(shù)據(jù)倉(cāng)庫(kù)中,該數(shù)據(jù)仍代表在這個(gè)時(shí)間戳?xí)r刻,該數(shù)據(jù)項(xiàng)的值,不會(huì)隨著后續(xù)裝載進(jìn)來的新數(shù)據(jù)而發(fā)生變化。1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.3數(shù)據(jù)倉(cāng)庫(kù)的概念

數(shù)據(jù)隨時(shí)間變化:數(shù)據(jù)的時(shí)變性,是指數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容隨時(shí)間的變化而不斷得到增補(bǔ)、更新。正如上面談到非易失性時(shí)說的,數(shù)據(jù)倉(cāng)庫(kù)對(duì)導(dǎo)入其中的數(shù)據(jù)給定一個(gè)時(shí)間戳,使之成為一個(gè)描述特定時(shí)刻特征的數(shù)據(jù)快照。數(shù)據(jù)時(shí)變性的實(shí)質(zhì),就是指數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)能利用快照數(shù)據(jù),形成歷史數(shù)據(jù)的軌跡,描述業(yè)務(wù)隨時(shí)間變化的情況1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.3數(shù)據(jù)倉(cāng)庫(kù)的概念

事務(wù)處理環(huán)境不適于決策支持應(yīng)用:要提高分析和決策的效率和有效性,就必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照決策支持處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境。也就是說,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。數(shù)據(jù)倉(cāng)庫(kù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.4數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的差異

1.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)1.1.5數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)應(yīng)用

新一代的商業(yè)模式則側(cè)重于客戶的需求,以客戶為中心,以需求定制產(chǎn)品。有了數(shù)據(jù)倉(cāng)庫(kù)后,企業(yè)可以通過大量的、各方各面的數(shù)據(jù)分析客戶是誰,他喜歡什么樣的產(chǎn)品和服務(wù),應(yīng)該如何提供更好的產(chǎn)品和服務(wù)給他,并以此創(chuàng)造更多利潤(rùn)。零售業(yè)、電信、銀行等,在中國(guó)郵政如何應(yīng)用。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.1數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘早期在人工智能(ArtificialIntelligence,AI)中被稱為知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),指的是從大量數(shù)據(jù)中尋找未知的、有價(jià)值的模式或規(guī)律等知識(shí)的過程。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.1數(shù)據(jù)挖掘概念

知識(shí)發(fā)現(xiàn)過程數(shù)據(jù)清洗(DataCleaning):清除噪聲數(shù)據(jù)、不一致的數(shù)據(jù)和與挖掘主題明顯無關(guān)的數(shù)據(jù);數(shù)據(jù)集成(DataIntegration):將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)整合到一起,形成一致的、完整的數(shù)據(jù)描述;數(shù)據(jù)轉(zhuǎn)換(DataTransform):通過匯總或聚集將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式;數(shù)據(jù)挖掘(DataMining):知識(shí)發(fā)現(xiàn)的一個(gè)基本步驟,利用智能方法挖掘模式、規(guī)則、網(wǎng)絡(luò)等知識(shí);模式評(píng)估(PatternEvaluation):根據(jù)一定評(píng)估標(biāo)準(zhǔn)或度量(Measure)從挖掘結(jié)果中篩選出有意義的知識(shí);知識(shí)表示(KnowledgeRepresentation):利用可視化和知識(shí)表示技術(shù),向用戶展示所挖掘出的相關(guān)知識(shí)。

1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.1數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程

數(shù)據(jù)商務(wù)環(huán)境下的數(shù)據(jù)挖掘過程主要?jiǎng)澐譃橐韵逻^程:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估、模型發(fā)布。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程

商業(yè)理解確定商業(yè)目標(biāo)分析項(xiàng)目背景、具體商業(yè)目標(biāo)如何定義項(xiàng)目成功進(jìn)行形勢(shì)評(píng)估描述項(xiàng)目擁有的資源、需求的資源和限制、項(xiàng)目風(fēng)險(xiǎn)可能的偶發(fā)因素、成本與收益確定數(shù)據(jù)挖掘目標(biāo)該目標(biāo)應(yīng)具有可評(píng)估性和可實(shí)現(xiàn)性定義數(shù)據(jù)挖掘成功的標(biāo)準(zhǔn)

制定項(xiàng)目計(jì)劃,描述和評(píng)估需使用的工具、方法1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程

數(shù)據(jù)理解收集原始數(shù)據(jù),撰寫數(shù)據(jù)收集報(bào)告,說明數(shù)據(jù)來源完成數(shù)據(jù)描述報(bào)告完成數(shù)據(jù)的探索性分析報(bào)告,說明業(yè)務(wù)數(shù)據(jù)的基本情況撰寫數(shù)據(jù)質(zhì)量報(bào)告,說明數(shù)據(jù)基本質(zhì)量,如空缺值情況、字段完整率。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程

數(shù)據(jù)準(zhǔn)備根據(jù)業(yè)務(wù)理解和挖掘目標(biāo),在已得到的數(shù)據(jù)集中確定挖掘時(shí)要包含(或去除)的數(shù)據(jù)根據(jù)數(shù)據(jù)探索性分析報(bào)告和質(zhì)量報(bào)告,設(shè)計(jì)數(shù)據(jù)清洗方案,撰寫數(shù)據(jù)清洗報(bào)告根據(jù)現(xiàn)有數(shù)據(jù)字段設(shè)計(jì)數(shù)據(jù)重構(gòu)方案,生成新的字段;整合相關(guān)數(shù)據(jù)格式化數(shù)據(jù),使之適合于后續(xù)分析1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程

建立模型從商業(yè)理解和可用的數(shù)據(jù)出發(fā)選擇挖掘算法使用快速挖掘工具建立模型調(diào)整模型,分析模型結(jié)果,通過和預(yù)期結(jié)果比較分析、修訂模型參數(shù)得到模型結(jié)果,整理挖掘結(jié)論1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程

模型評(píng)估結(jié)果評(píng)估,結(jié)合商業(yè)理解評(píng)估挖掘結(jié)果,描述商業(yè)結(jié)論與管理、營(yíng)銷人員溝通,確定下一步的工作,做出決策是否結(jié)束模型調(diào)整。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程

結(jié)果發(fā)布設(shè)計(jì)模型維護(hù)計(jì)劃及方案撰寫最終的數(shù)據(jù)挖掘報(bào)告項(xiàng)目總結(jié)1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.3數(shù)據(jù)挖掘典型應(yīng)用

客戶細(xì)分客戶獲得客戶保持交叉銷售個(gè)性服務(wù)資源優(yōu)化異常事件確定1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.4基于電子商務(wù)數(shù)據(jù)挖掘技術(shù)

Web挖掘技術(shù):內(nèi)容挖掘、結(jié)構(gòu)挖掘、使用模式挖掘等能夠預(yù)測(cè)客戶的消費(fèi)趨勢(shì),市場(chǎng)的走向,指導(dǎo)企業(yè)建設(shè)個(gè)性化智能網(wǎng)站提供個(gè)性化服務(wù)1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.5典型的數(shù)據(jù)挖掘方法

關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則表示如X?Y形式,含義是數(shù)據(jù)庫(kù)的某記錄中如果出現(xiàn)了X情況,則也會(huì)出現(xiàn)Y的情況。這個(gè)寫法與數(shù)據(jù)庫(kù)中的函數(shù)依賴一致,但表述的則是數(shù)據(jù)庫(kù)中記錄的實(shí)際購(gòu)買行為。一個(gè)數(shù)據(jù)挖掘系統(tǒng)可以從一個(gè)商場(chǎng)的銷售(交易事務(wù)處理)記錄數(shù)據(jù)中,挖掘出如下所示的關(guān)聯(lián)規(guī)則:該商場(chǎng)有2%的顧客同時(shí)購(gòu)買了土豆和蘋果,但購(gòu)買土豆的人中有60%購(gòu)買了蘋果

土豆?蘋果【support=2%,confidence=60%】1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.5典型的數(shù)據(jù)挖掘方法

分類:根據(jù)已有的實(shí)例建立一個(gè)模型,使之能夠識(shí)別對(duì)象所屬類別,該模型可以用于將未定類別的對(duì)象劃分到已知類別的工作該典型的分類應(yīng)用在商業(yè)中的客戶識(shí)別、老客戶維系、新客戶獲取等方面在河北省內(nèi),年齡在25歲到35歲的男士,且月收入在6000-10000之間,最有可能購(gòu)買2013款的大眾CC1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.5典型的數(shù)據(jù)挖掘方法

聚類:根據(jù)最大化簇內(nèi)的相似性、最小化簇間的相似性的原則將數(shù)據(jù)對(duì)象聚類或分組,所形成的每個(gè)簇可以看作一個(gè)數(shù)據(jù)對(duì)象類該聚類分析與分類預(yù)測(cè)方法明顯不同之處在于,后者所學(xué)習(xí)獲取分類預(yù)測(cè)模型所使用的數(shù)據(jù)是已知類別歸屬,屬于有教師監(jiān)督學(xué)習(xí)方法;而聚類分析(無論是在學(xué)習(xí)還是在歸類預(yù)測(cè)時(shí))所分析處理的數(shù)據(jù)均是無(事先確定)類別歸屬,類別歸屬標(biāo)志在聚類分析處理的數(shù)據(jù)集中是不存在的1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.5典型的數(shù)據(jù)挖掘方法

時(shí)間序列模式:時(shí)間序列模式側(cè)重于挖掘出數(shù)據(jù)的前后時(shí)間順序關(guān)系,分析是否存在一定趨勢(shì),以預(yù)測(cè)未來的訪問模式顧客購(gòu)買商品A,接著購(gòu)買商品B,而后購(gòu)買商品C,即“序列A-B-C出現(xiàn)的頻率較高”1.3 商務(wù)智能商務(wù)智能是多項(xiàng)技術(shù)交叉在一起的復(fù)合應(yīng)用,即將數(shù)據(jù)、信息成功地轉(zhuǎn)化為決策知識(shí),提供一種決策的輔助手段。商務(wù)智能還是一套完整的解決方案。它是將數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘等結(jié)合起來應(yīng)用到商業(yè)活動(dòng)中,從不同數(shù)據(jù)源收集數(shù)據(jù),經(jīng)過抽取、轉(zhuǎn)換和加載的過程,送入到數(shù)據(jù)倉(cāng)庫(kù)。然后使用合適的查詢與分析工具、數(shù)據(jù)挖掘工具和聯(lián)機(jī)分析處理工具對(duì)信息進(jìn)行再處理,將信息轉(zhuǎn)變成為輔助決策的知識(shí),最后將知識(shí)呈現(xiàn)于用戶面前,以實(shí)現(xiàn)技術(shù)服務(wù)與決策的目的。1.3 商務(wù)智能數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的關(guān)系數(shù)據(jù)挖掘的數(shù)據(jù)主要來源于數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)不是數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論