




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù),您如何選擇?假如你是一個商品零售公司的老板。
你的公司很先進,已經(jīng)實現(xiàn)了業(yè)務信息化,每一筆銷售單據(jù)都保存在數(shù)據(jù)庫中,日積月累,已經(jīng)保存了十余年的銷售數(shù)據(jù),上億條銷售記錄。
這時如果我問你:“反正三年前的數(shù)據(jù)留著也白白占地方,耗費存儲成本,索性把它們?nèi)珓h掉吧,這樣不用買硬盤就能容納新數(shù)據(jù),如何?”
你會從容的接受我這個建議嗎?
我們的直覺告訴我們:這些數(shù)據(jù)有用!
但這僅僅是一種直覺,到底該怎樣把這些占據(jù)大量存儲空間的數(shù)據(jù)的價值挖掘出來,讓這些數(shù)據(jù)從成本的消耗者變成利潤的促進者?大數(shù)據(jù),您如何選擇?假如你是一個商品零售公司的老板。
1BI閃亮登場沒錯,選擇BI來實現(xiàn).BI(BusinessIntelligence)是一種運用了數(shù)據(jù)倉庫、在線分析和數(shù)據(jù)挖掘等技術來處理和分析數(shù)據(jù)的嶄新技術,目的是為企業(yè)決策者提供決策支持。BI應用的兩大類別是信息類應用DW(數(shù)據(jù)倉庫)和知識類應用KDD(數(shù)據(jù)挖掘)。BI是種技術,或者說是解決方案.而不是某種工具。
BI閃亮登場沒錯,選擇BI來實現(xiàn).2BI應用行業(yè)行業(yè)分布銀行、通信、證券、保險、能源、煙草工廠、礦場、醫(yī)療衛(wèi)生零售、快消品電子商務、電子政務使用特點目前大部分用戶主要集中在信息類應用,即數(shù)據(jù)查詢+報表展示+OLAP分析的合理,其主要目的即減輕手工報表制作的壓力,提高工作效率.少量用戶(金融,通信,能源)集中在數(shù)據(jù)挖掘.BI應用行業(yè)行業(yè)分布3BI國內(nèi)應用難點BI工具在中國遇到的難題:*復雜表樣:中國的表樣設計思想與西方不同,西方報表傾向于僅用一張報表說明一個問題,而中國的報表傾向于將盡可能多的問題集中在一張報表中,這種思路直接導致了中國報表的復雜格式和詭異風格,同時導致在國外大受歡迎的水晶報表水土不服。*大數(shù)據(jù)量:中國是世界上人口最多的國家。以中國移動公司為例,僅我國一個省的用戶數(shù)量,就相當于歐洲一個中等國家的人口,是真正的海量數(shù)據(jù)!國外數(shù)據(jù)庫、數(shù)據(jù)倉庫和BI應用軟件,都在中國經(jīng)受著大數(shù)據(jù)量承載能力的考驗。*數(shù)據(jù)回寫:中國是世界上對BI系統(tǒng)要求最奇特的國家。本來BI系統(tǒng)是以忠實再現(xiàn)源數(shù)據(jù)為原則,但這個原則在中國遇到了難題,許多領導都提出了數(shù)據(jù)修改需求。筆者曾經(jīng)經(jīng)歷,挨罵頗多。BI國內(nèi)應用難點BI工具在中國遇到的難題:4BI應用分類
信息類BI應用(數(shù)據(jù)倉庫)知識類BI應用(數(shù)據(jù)挖掘)報表&圖表&地圖&中國式報表數(shù)據(jù)挖掘—探察數(shù)據(jù)規(guī)律自助樣式報表數(shù)據(jù)挖掘—數(shù)據(jù)建模&預測多維聯(lián)機分析(OLAP)BI應用分類信息類BI應用(數(shù)據(jù)倉庫)知識類BI應用(數(shù)據(jù)5BI實現(xiàn)過程后端(ETL)前端(報表開發(fā))源數(shù)據(jù)分析與探索Portal建設ODS建設模型與報表開發(fā)DW(數(shù)據(jù)倉庫)OLAP分析(CUBE建設)DM(數(shù)據(jù)集市)DM(數(shù)據(jù)挖掘)BI實現(xiàn)過程=前端+后端=源數(shù)據(jù)+ODS+DW+DM+OLAP+Report+
DMBI實現(xiàn)過程后端(ETL)前端(報表開發(fā))源數(shù)據(jù)分析與探索P6BI實施開發(fā)常用工具實施過程
工具源數(shù)據(jù)分析與探索SQL腳本ETLInformatica(PWC),DataStage,DTS/SSIS,Kettle,Beeload,ODI數(shù)據(jù)同步(源->ODS)Informatica(PWX),GoldenGateODS&DW&DM(關系型)MSSQL,Oracle,DB2
其他(MYSQL,Teradata)數(shù)據(jù)質(zhì)量管理Informatica(IDQ)報表開發(fā)工具SAPBO,COGNOS,水晶報表/易表,OBIEE,Brio,QlikView,SASSmartbi,POWER-BI,FinereportSpagoBI
,OpenI
OLAP開發(fā)工具Cognos(Powerplay)、Hyperion(Essbase)、微軟(AnalysisService)以及MicroStrategy報表開發(fā)組件FusionCharts,JFreeChart,MsChartPortal開發(fā)語言(平臺)JAVA,.NET,PHP…數(shù)據(jù)挖掘工具SAS,SPSSClementine,MATLAB…BI實施開發(fā)常用工具實施過程工具源數(shù)據(jù)分析與探索SQL腳本7BI架構圖-1
-無ODSBI架構圖-1
-無ODS8BI架構圖-2元數(shù)據(jù)組成(Metadata)業(yè)務系統(tǒng)到數(shù)據(jù)倉庫
數(shù)據(jù)倉庫
數(shù)據(jù)展現(xiàn)工具ETL
TargetDatabaseFront-EndToolETL人事銷售庫存財務RDBMSODS/StagingAreaRDBMS數(shù)據(jù)倉庫數(shù)據(jù)集市企業(yè)經(jīng)營分析客戶關系管理業(yè)務流程分析財務分析Metadata外部系統(tǒng)StatisticsClusteringNeuralNetsArtificialIntelligence業(yè)務股東管理OLAPBI架構圖-29支持源系統(tǒng)類型常見源系統(tǒng)數(shù)據(jù)類型關系型數(shù)據(jù)庫ACCESS、SQLSERVER、ORACLE、DB2TERADATA、GREENPLUM、MYSQL平面文件(Flatfile)EXCEL、TXTXML、HTML其他數(shù)據(jù)COBOLFILESAPORACLEEBS相關概念:OLTP,OLAP2.透明網(wǎng)關(異構源與目標的ETL)3.元數(shù)據(jù)(業(yè)務元數(shù)據(jù),技術元數(shù)據(jù))支持源系統(tǒng)類型常見源系統(tǒng)數(shù)據(jù)類型關系型數(shù)據(jù)庫ACCESS、S10ODSODS(OperationalDataStore)特征:ODS只是存放當前或接近當前的數(shù)據(jù)1)在業(yè)務系統(tǒng)和數(shù)據(jù)倉庫之間形成一個隔離層;減輕ETL對源系統(tǒng)壓力,相當于緩沖區(qū).2)轉移一部分業(yè)務系統(tǒng)明細查詢的功能3)外部數(shù)據(jù)/文件的臨時存放4)出報表,例如
客戶保單今天如果到期則發(fā)送預警報表.ODSODS(OperationalDataStore)11DW-數(shù)據(jù)倉庫DW,即數(shù)據(jù)倉庫(DataWarehouse)特征:面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.實際上.DW是多個表的集合,由多個維表與事實表組成.維度:
事物的某個方面,如時間、區(qū)域、供應商2.
度量/指標:需要分析的量,如銷量、庫存、價格、積分3.粒度:數(shù)據(jù)表中數(shù)據(jù)細化的程度,如到月、周、天等4.事實表、維度表5.代理鍵、退化維6.緩慢維度變化DW-數(shù)據(jù)倉庫DW,即數(shù)據(jù)倉庫(DataWarehouse1213維度:是一個與業(yè)務相關的觀察角度依賴于數(shù)據(jù)的有效性和表達業(yè)務成效的關鍵性能指標能夠回答類似下列問題:業(yè)務的每個方面可構造成一個維度,例如:時間維度由年、季度、月、周和天構成。所有的維度在一起提供了業(yè)務的多維視圖。這個多維視圖的數(shù)據(jù)被存為一個立方體。一個維度是管理員從數(shù)據(jù)倉庫提取的有效信息,并在同一個前題下以層的方式構造形成。例如:地區(qū)維度下有地域、國家、辦事處、銷售員4層。WhoWhatWhereWhen什么是維度?13維度:WhoWhatWhereWhen什么是維度?企業(yè)收集和存儲的將用于評價業(yè)務狀況的數(shù)值性數(shù)據(jù)例如:銷售額成本利潤庫存量交易數(shù)在企業(yè)活動中通常是通過如銷售額、費用、業(yè)務指標、庫存量和定額一類的關鍵性能指標------度量來監(jiān)測業(yè)務的成效。不同的度量能夠反映出不同的業(yè)務性質(zhì)。例如:假設針對企業(yè)的關鍵成功因素是客戶的滿意度。那么,對于產(chǎn)品制造商來說,可能要通過及時運輸貨物來衡量它;而客戶服務部門可能要用電話支持回應時間來衡量它。Howmuch什么是度量?1.度量在日常業(yè)務中相當于指標,
如KPI指標2.指標分為基礎指標和計算指標,如銷量同金額3.計算指標請注意afterrollup與beforrollup企業(yè)收集和存儲的將用于評價業(yè)務狀況的數(shù)值性數(shù)據(jù)Howmuc14DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)
是企業(yè)級數(shù)據(jù)倉庫的一個子集,它主要面向部門級業(yè)務,并且只面向某個特定的主題.不同行業(yè)數(shù)據(jù)集市的規(guī)模不同,如移動行業(yè)數(shù)據(jù)集市比很多企業(yè)的數(shù)據(jù)倉庫規(guī)模還要大.數(shù)據(jù)集市特征面向部門/機構,如財務部,人力資源部,市場部星型結構或雪花結構匯總數(shù)據(jù)(粒度較低)數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)集市DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)數(shù)據(jù)集15DM數(shù)據(jù)結構-星型
星型架構:
是一種非正規(guī)化的結構,多維數(shù)據(jù)集的每一個維度都直接與事實表相連接,不存在漸變維度,所以數(shù)據(jù)有一定的冗余,但效率較高.優(yōu)點:查詢效率較高DM數(shù)據(jù)結構-星型星型架構:16DM數(shù)據(jù)結構-雪花雪花模型雪花模型是對星型模型的擴展。它對星型模型的維表進一步層次化,原有的各維表可能被擴展為小的事實表,形成一些局部的"層次"區(qū)域,這些被分解的表都連接到主維度表而不是事實表。優(yōu)點:通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。DM數(shù)據(jù)結構-雪花雪花模型17OLAPOLAP(
On-LineAnalyticalProcessing)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術。OLAP的基本多維分析操作有鉆?。╮ollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(pivot)、drillacross、drillthrough等。OLAP有多種實現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP。常用OLAP工具:有HyperionEssbase,MicrosoftSQLServerOLAPServices,CognosTS,MicroStrategyOLAPOLAP(On-LineAnalyticalP18OLAP應用圖示使用向下鉆取(DrillDown)、切片和旋轉(SliceandDice)以及改變顯示方式來探察數(shù)據(jù)大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域
切片和旋轉ChangeDisplays
改變顯示相關概念:切塊,切片,旋轉,上鉆,下鉆2.CUBE3.層級OLAP應用圖示大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域切片和19數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD)
數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險,做出正確的決策。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫中20數(shù)據(jù)挖掘技術①分類。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機會。②回歸?;貧w分析方法反映的是事務數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項映射到一個實值預測變量的函數(shù),等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預測以及數(shù)據(jù)間的相關關系。④關聯(lián)規(guī)則。關聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關系的規(guī)則,即根據(jù)一個事務中某些項的出現(xiàn)可導出另一些項在同一事務中也出現(xiàn),即隱藏在數(shù)據(jù)間的關聯(lián)或相互關系。在客戶關系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關聯(lián)關系,找出影響市場營銷效果的關鍵因素,為產(chǎn)品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據(jù)。⑦Web頁挖掘。隨著Internet的迅速發(fā)展及Web的全球普及,使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web的海量數(shù)據(jù)進行分析,收集政治、經(jīng)濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營信息.數(shù)據(jù)挖掘技術①分類。分類是找出數(shù)據(jù)庫中一組數(shù)21案例-相關/回歸分析廣告支付和銷售量的相關性分析線性方程:銷售量(因)
=6.584+1.071*廣告費用(自)二次曲線方程:
銷售量=3.903+2.854*廣告費用—0.245*廣告費用2
案例-相關/回歸分析廣告支付和銷售量的相關性分析22算法與案例二次曲線擬合今后某一年汽車價格馬爾可夫鏈預測股票或期貨價格決策樹在銀行風險預警中的應用算法與案例二次曲線擬合今后某一年汽車價格23BI項目如何實施
--不含數(shù)據(jù)挖掘8.測試2.項目立項3.需求分析4.數(shù)據(jù)分析-質(zhì)量檢測5.概要設計-系統(tǒng)架構6.詳細設計7.開發(fā)/實施1.售前-項目調(diào)研9.試運行/驗收10.售后-維護概念模型邏輯模型物理模型BI項目如何實施
--不含數(shù)據(jù)挖掘8.測試2.項目立項3.24BI項目實施示意圖我想看到的報表是什么樣的用戶需求
DW設計報表規(guī)范ETL設計測試/試運行ETL開發(fā)/前端開發(fā)需求/建模&架構BI項目實施示意圖我想看到的報表用戶需求DW設計報表規(guī)范25BI項目工作量百分比BI項目工作量百分比26項目資源配備
--乙方項目管理項目經(jīng)理(項目總監(jiān)&項目經(jīng)理)項目助理需求調(diào)研(分析)需求分析師/業(yè)務顧問(開發(fā)工程師)ETL數(shù)據(jù)倉庫架構師/建模工程師ETL設計工程師/ETL開發(fā)工程師DBA(可由甲方人員擔任)報表開發(fā)建模工程師前端(報表)開發(fā)工程師Portal開發(fā)系統(tǒng)架構師軟件開發(fā)工程師測試軟件測試工程師項目資源配備
--乙方項目管理項目經(jīng)理(項目總監(jiān)&項目經(jīng)理)27階段性產(chǎn)出文檔--不含PORTAL開發(fā)
項目立項階段項目立項說明書項目組資源配置說明書項目計劃書需求調(diào)研階段需求分析說明書接口與環(huán)境說明書(針對第三方)系統(tǒng)體系架構設計說明書開發(fā)階段ETL設計說明書(概要設計)ETL&數(shù)據(jù)倉庫命名與開發(fā)規(guī)范ETL詳細設計說明書(映射,轉換,調(diào)度等)ETL應用調(diào)度與維護說明書報表命名與開發(fā)規(guī)范報表詳細設計說明書測試與運維環(huán)境與配置文檔軟件安裝文檔系統(tǒng)使用說明書階段性產(chǎn)出文檔項目立項階段項目立項說明書項目組資源配置說明書28項目計劃與風控
--以項目周期為6個月為例項目計劃與風控
--以項目周期為6個月為例29項目捷徑找到合適中間人
資質(zhì):采取合適開發(fā)模式,如迭代開發(fā)
甲方人員利于公關有權威性熟悉業(yè)務善于溝通項目捷徑找到合適中間人甲方人員利于公關有權威性熟悉業(yè)務善于溝30THANKYOU!THANKYOU!31大數(shù)據(jù),您如何選擇?假如你是一個商品零售公司的老板。
你的公司很先進,已經(jīng)實現(xiàn)了業(yè)務信息化,每一筆銷售單據(jù)都保存在數(shù)據(jù)庫中,日積月累,已經(jīng)保存了十余年的銷售數(shù)據(jù),上億條銷售記錄。
這時如果我問你:“反正三年前的數(shù)據(jù)留著也白白占地方,耗費存儲成本,索性把它們?nèi)珓h掉吧,這樣不用買硬盤就能容納新數(shù)據(jù),如何?”
你會從容的接受我這個建議嗎?
我們的直覺告訴我們:這些數(shù)據(jù)有用!
但這僅僅是一種直覺,到底該怎樣把這些占據(jù)大量存儲空間的數(shù)據(jù)的價值挖掘出來,讓這些數(shù)據(jù)從成本的消耗者變成利潤的促進者?大數(shù)據(jù),您如何選擇?假如你是一個商品零售公司的老板。
32BI閃亮登場沒錯,選擇BI來實現(xiàn).BI(BusinessIntelligence)是一種運用了數(shù)據(jù)倉庫、在線分析和數(shù)據(jù)挖掘等技術來處理和分析數(shù)據(jù)的嶄新技術,目的是為企業(yè)決策者提供決策支持。BI應用的兩大類別是信息類應用DW(數(shù)據(jù)倉庫)和知識類應用KDD(數(shù)據(jù)挖掘)。BI是種技術,或者說是解決方案.而不是某種工具。
BI閃亮登場沒錯,選擇BI來實現(xiàn).33BI應用行業(yè)行業(yè)分布銀行、通信、證券、保險、能源、煙草工廠、礦場、醫(yī)療衛(wèi)生零售、快消品電子商務、電子政務使用特點目前大部分用戶主要集中在信息類應用,即數(shù)據(jù)查詢+報表展示+OLAP分析的合理,其主要目的即減輕手工報表制作的壓力,提高工作效率.少量用戶(金融,通信,能源)集中在數(shù)據(jù)挖掘.BI應用行業(yè)行業(yè)分布34BI國內(nèi)應用難點BI工具在中國遇到的難題:*復雜表樣:中國的表樣設計思想與西方不同,西方報表傾向于僅用一張報表說明一個問題,而中國的報表傾向于將盡可能多的問題集中在一張報表中,這種思路直接導致了中國報表的復雜格式和詭異風格,同時導致在國外大受歡迎的水晶報表水土不服。*大數(shù)據(jù)量:中國是世界上人口最多的國家。以中國移動公司為例,僅我國一個省的用戶數(shù)量,就相當于歐洲一個中等國家的人口,是真正的海量數(shù)據(jù)!國外數(shù)據(jù)庫、數(shù)據(jù)倉庫和BI應用軟件,都在中國經(jīng)受著大數(shù)據(jù)量承載能力的考驗。*數(shù)據(jù)回寫:中國是世界上對BI系統(tǒng)要求最奇特的國家。本來BI系統(tǒng)是以忠實再現(xiàn)源數(shù)據(jù)為原則,但這個原則在中國遇到了難題,許多領導都提出了數(shù)據(jù)修改需求。筆者曾經(jīng)經(jīng)歷,挨罵頗多。BI國內(nèi)應用難點BI工具在中國遇到的難題:35BI應用分類
信息類BI應用(數(shù)據(jù)倉庫)知識類BI應用(數(shù)據(jù)挖掘)報表&圖表&地圖&中國式報表數(shù)據(jù)挖掘—探察數(shù)據(jù)規(guī)律自助樣式報表數(shù)據(jù)挖掘—數(shù)據(jù)建模&預測多維聯(lián)機分析(OLAP)BI應用分類信息類BI應用(數(shù)據(jù)倉庫)知識類BI應用(數(shù)據(jù)36BI實現(xiàn)過程后端(ETL)前端(報表開發(fā))源數(shù)據(jù)分析與探索Portal建設ODS建設模型與報表開發(fā)DW(數(shù)據(jù)倉庫)OLAP分析(CUBE建設)DM(數(shù)據(jù)集市)DM(數(shù)據(jù)挖掘)BI實現(xiàn)過程=前端+后端=源數(shù)據(jù)+ODS+DW+DM+OLAP+Report+
DMBI實現(xiàn)過程后端(ETL)前端(報表開發(fā))源數(shù)據(jù)分析與探索P37BI實施開發(fā)常用工具實施過程
工具源數(shù)據(jù)分析與探索SQL腳本ETLInformatica(PWC),DataStage,DTS/SSIS,Kettle,Beeload,ODI數(shù)據(jù)同步(源->ODS)Informatica(PWX),GoldenGateODS&DW&DM(關系型)MSSQL,Oracle,DB2
其他(MYSQL,Teradata)數(shù)據(jù)質(zhì)量管理Informatica(IDQ)報表開發(fā)工具SAPBO,COGNOS,水晶報表/易表,OBIEE,Brio,QlikView,SASSmartbi,POWER-BI,FinereportSpagoBI
,OpenI
OLAP開發(fā)工具Cognos(Powerplay)、Hyperion(Essbase)、微軟(AnalysisService)以及MicroStrategy報表開發(fā)組件FusionCharts,JFreeChart,MsChartPortal開發(fā)語言(平臺)JAVA,.NET,PHP…數(shù)據(jù)挖掘工具SAS,SPSSClementine,MATLAB…BI實施開發(fā)常用工具實施過程工具源數(shù)據(jù)分析與探索SQL腳本38BI架構圖-1
-無ODSBI架構圖-1
-無ODS39BI架構圖-2元數(shù)據(jù)組成(Metadata)業(yè)務系統(tǒng)到數(shù)據(jù)倉庫
數(shù)據(jù)倉庫
數(shù)據(jù)展現(xiàn)工具ETL
TargetDatabaseFront-EndToolETL人事銷售庫存財務RDBMSODS/StagingAreaRDBMS數(shù)據(jù)倉庫數(shù)據(jù)集市企業(yè)經(jīng)營分析客戶關系管理業(yè)務流程分析財務分析Metadata外部系統(tǒng)StatisticsClusteringNeuralNetsArtificialIntelligence業(yè)務股東管理OLAPBI架構圖-240支持源系統(tǒng)類型常見源系統(tǒng)數(shù)據(jù)類型關系型數(shù)據(jù)庫ACCESS、SQLSERVER、ORACLE、DB2TERADATA、GREENPLUM、MYSQL平面文件(Flatfile)EXCEL、TXTXML、HTML其他數(shù)據(jù)COBOLFILESAPORACLEEBS相關概念:OLTP,OLAP2.透明網(wǎng)關(異構源與目標的ETL)3.元數(shù)據(jù)(業(yè)務元數(shù)據(jù),技術元數(shù)據(jù))支持源系統(tǒng)類型常見源系統(tǒng)數(shù)據(jù)類型關系型數(shù)據(jù)庫ACCESS、S41ODSODS(OperationalDataStore)特征:ODS只是存放當前或接近當前的數(shù)據(jù)1)在業(yè)務系統(tǒng)和數(shù)據(jù)倉庫之間形成一個隔離層;減輕ETL對源系統(tǒng)壓力,相當于緩沖區(qū).2)轉移一部分業(yè)務系統(tǒng)明細查詢的功能3)外部數(shù)據(jù)/文件的臨時存放4)出報表,例如
客戶保單今天如果到期則發(fā)送預警報表.ODSODS(OperationalDataStore)42DW-數(shù)據(jù)倉庫DW,即數(shù)據(jù)倉庫(DataWarehouse)特征:面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.實際上.DW是多個表的集合,由多個維表與事實表組成.維度:
事物的某個方面,如時間、區(qū)域、供應商2.
度量/指標:需要分析的量,如銷量、庫存、價格、積分3.粒度:數(shù)據(jù)表中數(shù)據(jù)細化的程度,如到月、周、天等4.事實表、維度表5.代理鍵、退化維6.緩慢維度變化DW-數(shù)據(jù)倉庫DW,即數(shù)據(jù)倉庫(DataWarehouse4344維度:是一個與業(yè)務相關的觀察角度依賴于數(shù)據(jù)的有效性和表達業(yè)務成效的關鍵性能指標能夠回答類似下列問題:業(yè)務的每個方面可構造成一個維度,例如:時間維度由年、季度、月、周和天構成。所有的維度在一起提供了業(yè)務的多維視圖。這個多維視圖的數(shù)據(jù)被存為一個立方體。一個維度是管理員從數(shù)據(jù)倉庫提取的有效信息,并在同一個前題下以層的方式構造形成。例如:地區(qū)維度下有地域、國家、辦事處、銷售員4層。WhoWhatWhereWhen什么是維度?13維度:WhoWhatWhereWhen什么是維度?企業(yè)收集和存儲的將用于評價業(yè)務狀況的數(shù)值性數(shù)據(jù)例如:銷售額成本利潤庫存量交易數(shù)在企業(yè)活動中通常是通過如銷售額、費用、業(yè)務指標、庫存量和定額一類的關鍵性能指標------度量來監(jiān)測業(yè)務的成效。不同的度量能夠反映出不同的業(yè)務性質(zhì)。例如:假設針對企業(yè)的關鍵成功因素是客戶的滿意度。那么,對于產(chǎn)品制造商來說,可能要通過及時運輸貨物來衡量它;而客戶服務部門可能要用電話支持回應時間來衡量它。Howmuch什么是度量?1.度量在日常業(yè)務中相當于指標,
如KPI指標2.指標分為基礎指標和計算指標,如銷量同金額3.計算指標請注意afterrollup與beforrollup企業(yè)收集和存儲的將用于評價業(yè)務狀況的數(shù)值性數(shù)據(jù)Howmuc45DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)
是企業(yè)級數(shù)據(jù)倉庫的一個子集,它主要面向部門級業(yè)務,并且只面向某個特定的主題.不同行業(yè)數(shù)據(jù)集市的規(guī)模不同,如移動行業(yè)數(shù)據(jù)集市比很多企業(yè)的數(shù)據(jù)倉庫規(guī)模還要大.數(shù)據(jù)集市特征面向部門/機構,如財務部,人力資源部,市場部星型結構或雪花結構匯總數(shù)據(jù)(粒度較低)數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)集市DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)數(shù)據(jù)集46DM數(shù)據(jù)結構-星型
星型架構:
是一種非正規(guī)化的結構,多維數(shù)據(jù)集的每一個維度都直接與事實表相連接,不存在漸變維度,所以數(shù)據(jù)有一定的冗余,但效率較高.優(yōu)點:查詢效率較高DM數(shù)據(jù)結構-星型星型架構:47DM數(shù)據(jù)結構-雪花雪花模型雪花模型是對星型模型的擴展。它對星型模型的維表進一步層次化,原有的各維表可能被擴展為小的事實表,形成一些局部的"層次"區(qū)域,這些被分解的表都連接到主維度表而不是事實表。優(yōu)點:通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。DM數(shù)據(jù)結構-雪花雪花模型48OLAPOLAP(
On-LineAnalyticalProcessing)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術。OLAP的基本多維分析操作有鉆?。╮ollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(pivot)、drillacross、drillthrough等。OLAP有多種實現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP。常用OLAP工具:有HyperionEssbase,MicrosoftSQLServerOLAPServices,CognosTS,MicroStrategyOLAPOLAP(On-LineAnalyticalP49OLAP應用圖示使用向下鉆取(DrillDown)、切片和旋轉(SliceandDice)以及改變顯示方式來探察數(shù)據(jù)大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域
切片和旋轉ChangeDisplays
改變顯示相關概念:切塊,切片,旋轉,上鉆,下鉆2.CUBE3.層級OLAP應用圖示大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域切片和50數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD)
數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險,做出正確的決策。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫中51數(shù)據(jù)挖掘技術①分類。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機會。②回歸。回歸分析方法反映的是事務數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項映射到一個實值預測變量的函數(shù),等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預測以及數(shù)據(jù)間的相關關系。④關聯(lián)規(guī)則。關聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關系的規(guī)則,即根據(jù)一個事務中某些項的出現(xiàn)可導出另一些項在同一事務中也出現(xiàn),即隱藏在數(shù)據(jù)間的關聯(lián)或相互關系。在客戶關系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關聯(lián)關系,找出影響市場營銷效果的關鍵因素,為產(chǎn)品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據(jù)。⑦Web頁挖掘。隨著
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教練車合同范本
- 河北省邢臺市2024-2025學年高三下學期3月月考語文試題及參考答案
- 2025裝飾裝修合同書版范本
- 2025采購合同模板 電子產(chǎn)品采購合同含售后服務
- 2025年正式的非住宅小產(chǎn)權房購房合同
- 第24講 圓的相關概念及性質(zhì) 2025年中考數(shù)學一輪復習講練測(廣東專用)
- 第10講 一次函數(shù)(4考點+23題型)2025年中考數(shù)學一輪復習講練測(廣東專用)
- 2025家具購銷合同家具銷售合同
- 語言與社會知到課后答案智慧樹章節(jié)測試答案2025年春重慶大學
- 現(xiàn)代模板設計與創(chuàng)意
- GB/T 12227-2005通用閥門球墨鑄鐵件技術條件
- GA/T 832-2014道路交通安全違法行為圖像取證技術規(guī)范
- 以問題為導向的健康照顧教學課件
- 2021年湖北理工學院輔導員招聘考試題庫及答案解析
- 消防設備設施維護保養(yǎng)臺賬
- 新版《土地開發(fā)整理項目預算定額標準》講解
- 烏靈膠囊幻燈課件
- DBT29-265-2019 天津市市政基礎設施工程資料管理規(guī)程
- DB44∕T 1188-2013 電動汽車充電站安全要求
- 環(huán)網(wǎng)柜出廠檢驗規(guī)范標準
- 人教統(tǒng)編版高中語文必修下冊第八單元(單元總結)
評論
0/150
提交評論