BI相關(guān)知識簡介_第1頁
BI相關(guān)知識簡介_第2頁
BI相關(guān)知識簡介_第3頁
BI相關(guān)知識簡介_第4頁
BI相關(guān)知識簡介_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、ETL和數(shù)據(jù)倉庫簡介和數(shù)據(jù)倉庫簡介2OLAP簡介簡介3成功案例成功案例4BI簡介簡介11. 概念 BI為Business Intelligence(商業(yè)智能)的簡稱,指應(yīng)用在商業(yè)信息的收集,集成,分析和報告上的技術(shù)和應(yīng)用與實踐。 一種流行的說法:BI就是由數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)、OLAP(Online Analystical Processing 在線聯(lián)機分析處理)、幾大過程組成的一個總稱。2. 目的 支持商業(yè)決策 3. 評價指標 BI使用KPI(Key Performance Indication)即關(guān)鍵業(yè)績指標作為他的評價指標。 (KPI是通過對組織內(nèi)部流程的輸入端、輸出端的關(guān)

2、鍵參數(shù)進行設(shè)置、取樣、計算、分析,衡量流程績效的一種目標式量化管理指標,是把企業(yè)的戰(zhàn)略目標分解為可操作的工作目標的工具,是企業(yè)績效管理的基礎(chǔ)。) ETL和數(shù)據(jù)倉庫簡介和數(shù)據(jù)倉庫簡介2OLAP簡介簡介3 BI簡介簡介211. ETL過程 ETL是數(shù)據(jù)抽?。‥xtracting)、轉(zhuǎn)換(Transforming)、清洗(Cleaning)、裝載(Loading)幾個過程的簡稱。 ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過ETL最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。 數(shù)據(jù)清洗 重復(fù)行數(shù)據(jù)的清理,無用字段的清理,空值的處理等,正則表達式的使用。 數(shù)據(jù)轉(zhuǎn)換

3、數(shù)據(jù)類型的轉(zhuǎn)換,比如int轉(zhuǎn)varchar,字符型轉(zhuǎn)日期型(如20090801轉(zhuǎn)2009-08-01)等等。 有時候需要,還有類似用1標識男,2表示女;在PUSH中如果用戶有回訪我們用True表示,沒有回訪用False標識等轉(zhuǎn)換。 2. 數(shù)據(jù)倉庫概念 數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理。 數(shù)據(jù)倉庫中的數(shù)據(jù)不會隨著時間的改變而改變。3. 數(shù)據(jù)倉庫的分類u 標準數(shù)據(jù)倉庫u 數(shù)據(jù)集市u 多層數(shù)據(jù)倉庫u 聯(lián)合式數(shù)據(jù)倉庫ETL和數(shù)據(jù)倉庫簡介和數(shù)據(jù)倉庫簡介2OLAP簡介簡介 BI簡介簡介13數(shù)據(jù)倉庫和數(shù)據(jù)倉庫和OLAP簡介簡介22OL

4、AP OLAP在線聯(lián)機分析處理的簡稱,又叫多維數(shù)據(jù)分析, 他是指使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會的定義) OLAP與OLTP的區(qū)別 聯(lián)機事務(wù)處理OLTP(Online Transaction Processing)、聯(lián)機分析處理OLAP(Online Analytical Processing)OLTP數(shù)據(jù) OLAP數(shù)據(jù) 原始數(shù)據(jù) 導(dǎo)出數(shù)據(jù) 細節(jié)性數(shù)據(jù) 綜合性和提煉性數(shù)據(jù) 當(dāng)前值數(shù)據(jù) 歷史數(shù)據(jù) 可更新 可更新,但周期性刷新

5、 一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大 面向應(yīng)用,事務(wù)驅(qū)動 面向分析,分析驅(qū)動 面向操作人員,支持日常操作 面向決策人 員支持管理需要 幾個概念事實表 度量值所在的表稱為事實數(shù)據(jù)表,事實表所表現(xiàn)的特點是包含數(shù)值數(shù)據(jù)(事實),而這些數(shù)值數(shù)據(jù)可以統(tǒng)計匯總以提供有關(guān)單位運作歷史的信息。此外,每個事實數(shù)據(jù)表還包括一個或多個列,這些列作為引用相關(guān)的維度表的外碼。2. 度量值 度量值是決策者所關(guān)心的具有實際意義的數(shù)值。維度3. 維度是人們觀察數(shù)據(jù)的角度。維度表包含描述事實數(shù)據(jù)表中的事實記錄的特性。事實表度量值維度 維度分類: 常規(guī)維度 最常見的一種維度,由維度級別的字段類型,又可把它分為標準維度和時間維

6、度 虛擬維度 基于物理維度列的邏輯維度,它也是基于另外一個維度所提供的成員屬性或列。 父子維度 基于單張維度表的兩個不同列,這兩個列一起定義了維度成員的沿襲關(guān)系,一列稱為成員列表,標識每個成員;另一列稱為父鍵列,標識每個成員的父代。 注意: 父子維度中成員鍵必須唯一成員鍵列父鍵列4 . 粒度 粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。(如我們Wappush中時間維度細化到日,日就是我們的最小粒度) 粒度越小,細分級別越高;粒度越大,細分級別越低。 5. 維度級別 人們觀察數(shù)據(jù)的某個特定角度(即某個維) 存在的細節(jié)程度各個描述方面(如時間維:日、月份、季度、年)。 注意: 為了

7、顯示維度的級別及要求的上卷、下鉆我們一定要按維度級別的需求順序設(shè)計 6. 維度表與事實表的連接 (Jasper上不好說明這點,為更形象化,下面的事例是由微軟上的sql server analysis server設(shè)計的) 星型模式、雪花模式、混合模式 星型模型 雪花模式: 混合模式: 7. OLAP的分類 按照存儲方式:ROLAP、MOLAP、HOLAP。 ROLAP優(yōu)勢: 沒有大小限制,現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用,可以通過SQL實現(xiàn)詳細數(shù)據(jù)與概要數(shù)據(jù)的存儲?,F(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對OLAP做了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL 的OLAP擴

8、展(cube,rollup)等大大提高ROALP的速度 MOLAP優(yōu)勢:性能好、響應(yīng)速度快 專為OLAP所設(shè)計,支持高性能的決策支持計算復(fù)雜的跨維計算多用戶的讀寫操作行級的計算 ROLAP缺點:一般比MDD響應(yīng)速度慢,不支持有關(guān)預(yù)計算的讀寫操作,SQL無法完成部分計算無法完成多行的計算,無法完成維之間的計算 MOLAP缺點: 增加系統(tǒng)復(fù)雜度,增加系統(tǒng)培訓(xùn)與維護費用受操作系統(tǒng)平臺中文件大小的限制,難以達到TB 級(只能1020G),需要進行預(yù)計算,可能導(dǎo)致數(shù)據(jù)爆炸,無法支持維的動態(tài)變化,缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標準 多維數(shù)據(jù)分析方法多維數(shù)據(jù)分析方法下面的幾個方法通過此圖說明 1. 上卷 上卷指在

9、數(shù)據(jù)立方體中通過在級別中上升或通過消除某個或某些維萊觀察更概括的數(shù)據(jù)。2. 下鉆 下鉆是通過在維度級別中下降或通過引入某個或某些維來更細致地觀察數(shù)據(jù)。 兩個概念描述的如下圖所示:3. 切片 切片指在給定的數(shù)據(jù)立方體中對其中一個維的選擇操作。只取時間維4. 切塊 切塊對給定的數(shù)據(jù)立方體的兩個或多個維上的選擇操作。 下圖我們?nèi)×藭r間和地市兩個維度5. 轉(zhuǎn)軸 轉(zhuǎn)軸即改變維度的方向。 Wappush 報表展現(xiàn)版式的實現(xiàn) 需求分析 從上面的表中,我們分析得到涉及到的維度表有:時間維度、地市維度、用戶群維度;度量值為:上行總數(shù)、成功下行數(shù)以及拉動率。以及事實表和維度表所包含的字段如下表所示: 手工維護地區(qū)

10、信息根據(jù)發(fā)送任務(wù)表文件名命名規(guī)則立即生成統(tǒng)計當(dāng)前處理發(fā)送任務(wù)表中的分類,用戶群,然后更新到用戶群維度中如果要精確中小時的話,統(tǒng)計時還必須使用時間作為分組依據(jù)。但是對于用戶數(shù)來說,統(tǒng)計是以天為單位,精確到小時沒有意義的。事實表的欄目名稱和群發(fā)用戶群不會與任務(wù)數(shù)據(jù)表的中一一對應(yīng),如果任務(wù)數(shù)據(jù)表中同一欄目同一用戶群由于數(shù)據(jù)量大被分批發(fā)送的話,則這里統(tǒng)計時會被合并在一起,所以要了取得成功總量應(yīng)該是欄目和群發(fā)用戶群的總和。事實表分類用戶群ID地區(qū)名稱成功總量頁面點擊量上行用戶數(shù)時間Variable characters (40)Variable characters (10)Long integerLo

11、ng integerLong integerVariable characters (8)時間維度時間年月日Variable characters (8)Variable characters (4)Variable characters (2)Variable characters (2)用戶群維度分類用戶群ID分類一分類二群發(fā)用戶群Variable characters (40)Variable characters (20)Variable characters (20)Variable characters (40)地區(qū)地區(qū)名稱 Variable characters (10) 分析詳

12、情見: Wappush用戶拉動率分析過程文檔 ETL過程: 數(shù)據(jù)挖掘簡介 概念 數(shù)據(jù)挖掘時為了發(fā)現(xiàn)實現(xiàn)未知的規(guī)則和聯(lián)系而對大量詩句進行選擇、探索和建模的過程,目的在于得到對數(shù)據(jù)庫的擁有者來說有用的結(jié)果。 數(shù)據(jù)挖掘與OLAP OLAP是通常是用戶根據(jù)已知的情況對所關(guān)心的業(yè)務(wù)指標進行分析,所得到得為數(shù)據(jù)中相對表面的的信息;而數(shù)據(jù)挖掘則是在業(yè)務(wù)問題和 目標明確但考察的問題不清楚時,對數(shù)據(jù)進行探索,揭示隱藏其中的規(guī)律性,進而將其模型化,更多的是通過統(tǒng)計學(xué)等知識分析出眾多數(shù)據(jù)中隱含的信息。 數(shù)據(jù)挖掘過程明確數(shù)據(jù)分析目標對數(shù)據(jù)進行選擇、組織和預(yù)處理探索性分析數(shù)據(jù)及轉(zhuǎn)換確定在分析階段使用的統(tǒng)計方法用選定的方

13、法分析數(shù)據(jù)評價和比較實用的方法,選擇最后的分析模型解釋最終模型和它在決策過程中的應(yīng)用 SAS(Statistic analysis system)協(xié)會把數(shù)據(jù)挖掘概括為:SEMMA Sample(抽樣) 抽取數(shù)據(jù) Explore(探索) 對數(shù)據(jù)的事先檢測,尋找其中的關(guān)系和異常數(shù)據(jù),理解對哪些數(shù)據(jù)感興趣 Modify(修改)、Model(建模) 尋找能夠提供數(shù)據(jù)中包含的信息的重要變量和模型 Assess(評價) 評價數(shù)據(jù)挖掘過程發(fā)現(xiàn)的信息的有用性和可靠性,在世紀分析環(huán)境中應(yīng)用從模型中得到的規(guī)則 常用的數(shù)據(jù)挖掘工具 1.SPSS(Statical package for social system)

14、公司的Clementine,目前是12.0版本 2.SAS公司的EM(Enterprise Mine) 3.R語言 4.Sql Server也可作簡單的數(shù)據(jù)挖掘 數(shù)據(jù)挖掘常用模型和算法 1.關(guān)聯(lián)規(guī)則 挖掘數(shù)據(jù)中隱含的歌屬性之間的關(guān)聯(lián)性(相關(guān)性)包括GRI(generalized rule induction)、Apriori、Carma算法 2.決策樹 能被用來分類、預(yù)測,主要算法有 C5.0、CHAID(Chi-square Automatic Interaction Detection ) , QUEST(Quick Unbiased Efficient Statistical Tree)

15、. 3. 分類回歸樹 分類回歸樹C&RT(Category and Regression Tree),用來分類和回歸 4.聚類 把具有相似性質(zhì)的樣本聚在一起,使得類內(nèi)之間的方差最小,類間的方差最大,包括:K-means、Kohonen、Two Step、Anomaly等算法。 此外還有神經(jīng)網(wǎng)絡(luò)、Logistical回歸、線性回歸、PCA、時間序列、支持向量機等算法。 聚類它不是去預(yù)測某一結(jié)果,而是從輸入字段中發(fā)現(xiàn)特征,屬于無監(jiān)督學(xué)習(xí)。 聚類中衡量類間樣本的距離主要有 1. 歐氏距離 2. L1距離 3. 閔科夫斯基距離 1221,mijikjkkd x xxx1,mijikjkkd x

16、 xxx11,mppijikjkkd x xxx 下面我們通過一個簡單的例子說明聚類中常用的K-means算法 假定我們給定的一個二維樣本為x1,x2, x3,x4,x5,其中x1=(0,2), x2=(0,0),x3=(1.5,0),x4=(5,0),x5=(5,2),由樣本的隨機分布得到兩個類C1=x1,x2, x4, C2=x3,x5。 我們得到兩個類的重心為 類內(nèi)方差分別為12005200,1.66,0.66331.5502,3.25,1.0022MM222222212222220 1.6620.660 1.6600.665 1.6600.6619.361.53.250 153.250

17、0.668.12ee 所以我們得到總體平方誤差為 我們通過計算與M1和M2的最小距離,再分配所有的樣本點,得到2221227.48Eee11211122221323314224,2.14,3.401,1.79,3.401,0.83,2.011,3.41 ,2.012d M xd M xx Cd M xd M xxCd M xd M xxCd M xd M xxC 得到新類 的重心為 相應(yīng)的類內(nèi)方差和總 體平方誤差是1123245,Cx x xCx x120.5,0.67 ,5.0,1.0MM221224.17,2.006.17eeE 通過迭代后,總體誤差由27.1減少到6.17,通過再次迭代我

18、們發(fā)現(xiàn)類沒有發(fā)生變化,所以迭代停止。下面的類就是我們的結(jié)果1123245,Cx x xCx x 數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用 1. 客戶消費模式分析 客戶消費模式分析(如手機上網(wǎng)行為分析)是對客戶一段時間的消費數(shù)據(jù)以及客戶檔案資料等相關(guān)數(shù)據(jù)進行關(guān)聯(lián)分析,結(jié)合客戶的分類,可以從消費能力、消費習(xí)慣、消費周期等諸方面對客戶的話費行為進行分析和預(yù)測,從而為固話運營商的相關(guān)經(jīng)營決策提供依據(jù)。 2. 客戶市場推廣分析 客戶市場推廣分析(如優(yōu)惠策略預(yù)測仿真)是利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)優(yōu)惠策略的仿真,根據(jù)數(shù)據(jù)挖掘模型進行模擬計費和模擬出賬,其仿真結(jié)果可以揭示優(yōu)惠策略中存在的問題,并進行相應(yīng)的調(diào)整優(yōu)化,以達到優(yōu)惠促銷活動的收益最大化。 3. 客戶欠費分析和動態(tài)防欺詐 通過數(shù)據(jù)挖掘,總結(jié)各種騙費、欠費行為的內(nèi)在規(guī)律,并建立一套欺詐和欠費行為的規(guī)則庫。當(dāng)客戶的話費行為與該庫中規(guī)則吻合時,系統(tǒng)可以提示運營商相關(guān)部門采取措

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論