版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGE2-目錄TOC\o"1-4"\h\z\u1背景 -1-2需求概述 -2-2.1電量分析 -2-2.1.1基本指標(biāo) -2-2.1.2深度分析 -3-2.2供電可靠性分析 -4-2.3電壓合格率分析 -5-2.4線損分析 -6-2.4.1基本指標(biāo) -7-2.4.2深度分析 -8-2.4.3圖形展示 -9-2.5裝備水平分析 -9-2.6人力資源分析 -10-3解決方案 -11-3.1創(chuàng)建倉(cāng)庫(kù)模型 -11-3.1.1主題1售電量 -11-3.1.2主題2用電量 -12-3.2數(shù)據(jù)抽取規(guī)則 -13-3.2.1分析業(yè)務(wù)系統(tǒng)庫(kù),對(duì)數(shù)據(jù)字典進(jìn)行分類 -14-3.2.2找出各業(yè)務(wù)系統(tǒng)內(nèi)及其與目標(biāo)數(shù)據(jù)庫(kù)之間存在的數(shù)據(jù)不一致。 -15-3.2.3設(shè)計(jì)出合適的轉(zhuǎn)換規(guī)則 -17-3.2.4設(shè)計(jì)數(shù)據(jù)抽取流程 -17-3.2.5設(shè)計(jì)數(shù)據(jù)抽取的流程的抽取方式,并開(kāi)始數(shù)據(jù)的抽取 -18-3.2.6對(duì)抽取到數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),進(jìn)行驗(yàn)證 -19-3.2.7完成數(shù)據(jù)的抽取 -19-3.3OLAP多維分析 -19-3.3.1多角度分析 -20-3.3.2圖形展示 -23-3.4數(shù)據(jù)挖掘 -24-3.4.1關(guān)聯(lián)分析 -25-3.4.2分類分析 -27-3.4.3預(yù)測(cè)分析 -28-4采用的技術(shù)及相關(guān)產(chǎn)品 -29-4.1構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)步驟 -29-4.2相關(guān)產(chǎn)品介紹 -31-4.2.1WarehouseManager -32-4.2.2CubeViews -34-4.2.2.1概述 -34-4.2.2.2建模及優(yōu)化過(guò)程 -36-4.2.3OLAPServer -37-4.2.3.1概述 -37-4.2.3.2使用MOLAP系列工具建立電力分析模型 -40-4.2.4Alphablox -43-4.2.4.1概述 -43-4.2.4.2AlphaBlox體系結(jié)構(gòu) -44-4.2.4.3AlphaBlox應(yīng)用 -46-4.2.4.4Cube分析引擎(AlphabloxCubingEngine) -47-4.2.5IntelligentMiner -48-4.2.5.1數(shù)據(jù)挖掘評(píng)分組件(IMScoring) -49-4.2.5.2數(shù)據(jù)挖掘建模組件(IMModeling) -50-4.2.5.3數(shù)據(jù)挖掘圖示化組件(IMVisualization) -51-5實(shí)施計(jì)劃 -52-5.1地緯公司的技術(shù)、實(shí)力與經(jīng)驗(yàn) -52-5.2實(shí)施開(kāi)發(fā)綜述 -52-5.3實(shí)施開(kāi)發(fā)計(jì)劃 -53-一、需求分析階段 -53-二、物理建模階段 -54-三、數(shù)據(jù)轉(zhuǎn)換(即ETL過(guò)程)階段 -54-四、生成多維模式并搭建立方體階段 -54-五、多維分析及展現(xiàn)階段 -54-六、數(shù)據(jù)挖掘階段 -55-附:工程實(shí)施整體計(jì)劃一覽表 -55-1背景隨著計(jì)算機(jī)應(yīng)用技術(shù)的普及,電力行業(yè)信息化建設(shè)得以突飛猛進(jìn)的發(fā)展,營(yíng)銷MIS系統(tǒng)、抄表自動(dòng)化系統(tǒng)、配電GIS系統(tǒng)、調(diào)度自動(dòng)化系統(tǒng)、變電生產(chǎn)管理系統(tǒng)、以及辦公自動(dòng)化OA系統(tǒng)等基礎(chǔ)應(yīng)用系統(tǒng)已經(jīng)在各電力企業(yè)得以建成并穩(wěn)定運(yùn)行。如何利用更前端的計(jì)算機(jī)技術(shù),在這些基礎(chǔ)應(yīng)用系統(tǒng)之上,建立更高層次的應(yīng)用,已成為各電力企業(yè)對(duì)內(nèi)提高自身管理水平和運(yùn)行效率、對(duì)外提高服務(wù)質(zhì)量、最終提升企業(yè)自身競(jìng)爭(zhēng)力的重要手段。目前,各級(jí)電力公司迫切需要對(duì)大量詳盡真實(shí)的歷史數(shù)據(jù)進(jìn)行綜合分析,及時(shí)準(zhǔn)確地掌握公司電力營(yíng)銷狀況,科學(xué)地預(yù)測(cè)電力市場(chǎng)的發(fā)展趨勢(shì),為制定電力政策和電力市場(chǎng)營(yíng)銷戰(zhàn)略提供依據(jù)。因此,運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和輔助決策支持相關(guān)技術(shù),建設(shè)電力營(yíng)銷數(shù)據(jù)倉(cāng)庫(kù)和輔助決策支持系統(tǒng)已成為一項(xiàng)關(guān)鍵的任務(wù)。在這種形勢(shì)下,濟(jì)南市供電局適時(shí)提出了建立濟(jì)南供電局輔助決策支持系統(tǒng)的任務(wù),通過(guò)對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)和人工錄入數(shù)據(jù)的挖掘,以指標(biāo)體系為中心,進(jìn)行深度分析和挖掘,為不同層次的管理人員提供決策的信息支持。濟(jì)南供電局輔助決策支持系統(tǒng)第一階段主要以電量、電壓合格率、供電可靠性、線損關(guān)鍵指標(biāo),輸、配、變電設(shè)備裝備水平,人力資源為重點(diǎn)。本方案暫以電量為主題給出建設(shè)實(shí)施初步方案。
2需求概述2.1電量分析通過(guò)對(duì)全公司、分部門、分變電站、分電壓等級(jí)、分時(shí)間段、分線路的供電量和售電量的數(shù)據(jù)顯示,提供電量的基本指標(biāo)數(shù)據(jù)。通過(guò)基本數(shù)據(jù)的再挖掘可實(shí)現(xiàn)不同用電時(shí)間段的售電量分析、不同地區(qū)的用電分析、不同電價(jià)類別的售電量分析、不同行業(yè)的用電分析、大用戶分析。數(shù)據(jù)來(lái)源營(yíng)銷自動(dòng)化系統(tǒng)。2.1.1基本指標(biāo)全公司供電量,各供電部公用區(qū)供電量,無(wú)損供電量電量,躉售供電量(按線路名稱統(tǒng)計(jì)、按躉售縣單位統(tǒng)計(jì))全公司售電量,各供電部公用區(qū)售電量,躉售電量統(tǒng)計(jì)表(按線路名稱統(tǒng)計(jì)、按躉售縣單位統(tǒng)計(jì)),無(wú)損電量(按電壓等級(jí)),各單位電費(fèi)口徑售電量、線損口徑售電量,各單位分壓售電量表,各單位分線售電量(各客戶售電量明細(xì))。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)任意時(shí)間段的分線供電量查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)任意時(shí)間段的分線售電量查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)查詢?nèi)我鈺r(shí)間段的分電壓售電量按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)查詢?nèi)我鈺r(shí)間段任意關(guān)口計(jì)量點(diǎn)供電量。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)查詢?nèi)我鈺r(shí)間段任意受電計(jì)量點(diǎn)售電量。2.1.2深度分析不同用電時(shí)間段的售電量分析根據(jù)不同月份用電總量統(tǒng)計(jì)數(shù)據(jù),縱向分析各個(gè)月份售電量變化趨勢(shì),橫向比較不同月份售電量差異,形成多維分析,比較不同月份之間售電量變化的差異;了解市場(chǎng)需求的時(shí)間屬性,及時(shí)捕捉市場(chǎng)的變化。不同地區(qū)的用電分析分析地區(qū)售電量歷史數(shù)據(jù),形成該地區(qū)售電量變化曲線,根據(jù)曲線走勢(shì)判斷該地區(qū)未來(lái)電量變化趨勢(shì);分析各地區(qū)對(duì)總體售電量漲跌的貢獻(xiàn)率;根據(jù)該地區(qū)各行業(yè)用戶分布情況,結(jié)合行業(yè)發(fā)展綜合指標(biāo),進(jìn)一步分析、判斷該地區(qū)售電量潛力;分析各經(jīng)濟(jì)指標(biāo)對(duì)電量漲幅的貢獻(xiàn)率。不同電價(jià)類別的售電量分析針對(duì)不同類別的電價(jià),統(tǒng)計(jì)售電量歷史數(shù)據(jù),分析不同類別電價(jià)的對(duì)應(yīng)售電量變化趨勢(shì);通過(guò)多維分析,橫向和縱向相結(jié)合,立體、直觀地分析售電量變化率差異,可以得到不同電價(jià)類別的售電量增長(zhǎng)潛力,為用電營(yíng)銷部分的電價(jià)調(diào)整提供決策依據(jù)。不同行業(yè)的用電分析按照行業(yè)分類,統(tǒng)計(jì)行業(yè)售電量,比較歷史數(shù)據(jù),形成不同行業(yè)售電量變化曲線;縱向分析某一行業(yè)售電量隨時(shí)間變化的趨勢(shì);橫向比較不同行業(yè)售電量的差異,重點(diǎn)關(guān)注不同行業(yè)之間售電量變化示行業(yè)用電潛力、各類用戶需求潛力和區(qū)域用電增長(zhǎng)潛力等,為企業(yè)決策人員提供重要的決策依據(jù)。大用戶分析大用戶分析是用電營(yíng)銷的重要環(huán)節(jié)。從各種角度分析大用戶的用電特征,制定貼身的營(yíng)銷策略,獲取更高經(jīng)營(yíng)利潤(rùn)。綜合統(tǒng)計(jì)分析用電量排名前十的用戶用電量增長(zhǎng)排名前十的用戶出現(xiàn)負(fù)增長(zhǎng)的用戶某月用電量的日分析與溫度同軸顯示售電量,同比增長(zhǎng)率,按單位、季度、用電類型,結(jié)合業(yè)擴(kuò)分析增長(zhǎng)原因。對(duì)緊急限電序位方案表進(jìn)行管理。包括負(fù)荷接近能力的預(yù)警,超負(fù)荷運(yùn)行報(bào)警等、限電序列資料等。2.2供電可靠性分析全公司、分單位的供電可靠率、用戶平均停電時(shí)間、停電用戶平均停電時(shí)間的基本數(shù)據(jù)。按月停電時(shí)間超過(guò)10小時(shí)的線路以及停電時(shí)間的長(zhǎng)短和停電次數(shù)分別對(duì)明細(xì)排序。在此基礎(chǔ)上可進(jìn)行可靠性影響因素分析計(jì)劃停電、臨時(shí)停電、故障對(duì)供電可靠率RS-1的影響,并詳細(xì)分析故障對(duì)可靠率的具體影響。數(shù)據(jù)來(lái)源抄表自動(dòng)化、配電GIS。具體指標(biāo)如下:用戶停電的明細(xì)(報(bào)表形式)對(duì)基本顯示數(shù)據(jù),按單位柱狀圖和報(bào)表顯示,歷史同期對(duì)比的柱狀圖顯示,本年度發(fā)展趨勢(shì)的折線圖顯示??煽啃杂绊懸蛩?,按單位和影響因素的柱狀圖和報(bào)表顯示,歷史同期對(duì)比的柱狀圖顯示,本年度發(fā)展趨勢(shì)的折線圖顯示。具體影響因素,按影響因素的柱狀圖和報(bào)表顯示,歷史同期對(duì)比的柱狀圖顯示,本年度發(fā)展趨勢(shì)的折線圖顯示。月停電時(shí)間超過(guò)10小時(shí)的線路報(bào)表顯示(本月),具體每條線路的本年度歷史停電時(shí)間折線圖顯示。按停電時(shí)間的長(zhǎng)短和停電次數(shù)分別對(duì)明細(xì)排序(本月)。2.3電壓合格率分析基本指標(biāo):城市綜合電壓合格率、A類電壓合格率、B類電壓合格率、C類電壓合格率、D類電壓合格率等基本數(shù)據(jù)。通過(guò)對(duì)幾個(gè)系統(tǒng)數(shù)據(jù)的深度挖掘,可對(duì)A類電壓合格率分析電壓質(zhì)量監(jiān)測(cè)點(diǎn)越上限在每天的時(shí)間段分布;和該段時(shí)間內(nèi)主變壓器分接頭位置、電容器投切狀態(tài)、系統(tǒng)負(fù)荷情況的信息顯示在一張圖標(biāo)上,判斷每天越限時(shí)間出現(xiàn)的時(shí)間段是否大致相同、是否自動(dòng)調(diào)壓、電容器是否自動(dòng)投切。B、C類電壓合格率,分析最差的幾個(gè)電壓質(zhì)量監(jiān)測(cè)點(diǎn)的供電半徑、無(wú)功配備情況,所供變電站無(wú)功補(bǔ)償情況,以分析原因。數(shù)據(jù)來(lái)源抄表自動(dòng)化系統(tǒng)、調(diào)度自動(dòng)化系統(tǒng)。WEB展示要求:綜合電壓合格率趨勢(shì)分析,歷史同期對(duì)比(折線圖)。分類別電壓合格率趨勢(shì)分析,歷史同期對(duì)比(折線圖)。具體明細(xì)的報(bào)表形式。分單位的趨勢(shì)分析,歷史同期對(duì)比(折線圖)。具體電壓質(zhì)量監(jiān)測(cè)點(diǎn)的電壓合格率趨勢(shì)分析,歷史同期對(duì)比(折線圖)。A類電壓質(zhì)量監(jiān)測(cè)點(diǎn)全天明細(xì)與主變壓器分接頭位置、電容器投切狀態(tài)、系統(tǒng)負(fù)荷情況同軸顯示。B、C、D類全月顯示與供電半徑、系統(tǒng)負(fù)荷情況、無(wú)功配備情況,所供變電站無(wú)功補(bǔ)償情況同軸顯示。2.4線損分析按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)任意時(shí)間段的分線線損率以及母線不平衡率等線損管理小指標(biāo)查詢分析。掌握任意時(shí)間段任意計(jì)量點(diǎn)檔案資料展示各時(shí)段線損情況,并可以對(duì)線損率進(jìn)行多項(xiàng)分析,包括綜合指標(biāo)分析、線損組成分析、趨勢(shì)分析、供(售)電量增長(zhǎng)分析、用戶分類用電分析等子系統(tǒng),對(duì)綜合、線損率歷史趨勢(shì)進(jìn)行全面分析,用戶用電量增長(zhǎng)分析。分析線路最近線損率變化異常。可以分層逐步分析,分析這條線路下的任一計(jì)量點(diǎn)電量、檔案資料等。對(duì)線損異常的線路,查詢線路手拉手運(yùn)行記錄、用電量波動(dòng)較大的客戶用電信息、客戶更換供電線路查詢、營(yíng)銷自動(dòng)化系統(tǒng)中各種基礎(chǔ)數(shù)據(jù)查詢,縮小對(duì)異常線路的分析范圍,使分析更有針對(duì)性。實(shí)時(shí)形成每時(shí)段線損率,實(shí)現(xiàn)超高報(bào)警。異常分析,對(duì)線損率變化異常的線路(售電量變化異常用戶)報(bào)警。提供降損決策分析,包括調(diào)整電壓,送電線路升壓,并聯(lián)無(wú)功補(bǔ)償,增加并列線路,增大導(dǎo)線面積等多種降損決策綜合分析.數(shù)據(jù)來(lái)源抄表自動(dòng)化系統(tǒng)。2.4.1基本指標(biāo)全公司供電量,各供電部公用區(qū)供電量,無(wú)損供電量電量,躉售供電量(按線路名稱統(tǒng)計(jì)、按躉售縣單位統(tǒng)計(jì))全公司售電量,各供電部公用區(qū)售電量,躉售電量統(tǒng)計(jì)表(按線路名稱統(tǒng)計(jì)、按躉售縣單位統(tǒng)計(jì)),無(wú)損電量(按電壓等級(jí)),各單位電費(fèi)口徑售電量、線損口徑售電量,各單位分壓售電量表,各單位分線售電量(各客戶售電量明細(xì))。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)任意時(shí)間段的分線供電量查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)任意時(shí)間段的分線售電量查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)任意時(shí)間段的分線線損率查詢分析。按照供電區(qū)域(全局、部門、變電站)任意時(shí)間段的母線不平衡率等線損管理小指標(biāo)查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)查詢?nèi)我鈺r(shí)間段的分電壓售電量按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)查詢?nèi)我鈺r(shí)間段任意關(guān)口計(jì)量點(diǎn)供電量。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)查詢?nèi)我鈺r(shí)間段任意受電計(jì)量點(diǎn)售電量。按照供電區(qū)域(全公司、部門、變電站、電壓等級(jí)、線路)查詢?nèi)我鈺r(shí)間段任意計(jì)量點(diǎn)檔案資料2.4.2深度分析以上指標(biāo)的上月同期,去年同期和指標(biāo)值比對(duì)展示各時(shí)段線損情況,并可以對(duì)線損率進(jìn)行多項(xiàng)分析,包括綜合指標(biāo)分析、線損組成分析、趨勢(shì)分析、供(售)電量增長(zhǎng)分析、用戶分類用電分析等子系統(tǒng),對(duì)綜合、線損率歷史趨勢(shì)進(jìn)行全面分析,用戶用電量增長(zhǎng)分析。手拉手線路拉手情況匯總表。手拉手線路線損綜合統(tǒng)計(jì)分析。分析線路最近線損率變化異常。可以分層逐步分析,分析這條線路下的任一計(jì)量點(diǎn)電量、檔案資料等。對(duì)線損異常的線路,查詢線路手拉手運(yùn)行記錄、用電量波動(dòng)較大的客戶用電信息、磁卡表電量分析、客戶抄表時(shí)間查詢、客戶更換供電線路查詢、營(yíng)銷自動(dòng)化系統(tǒng)中各種基礎(chǔ)數(shù)據(jù)查詢,縮小對(duì)異常線路的分析范圍,使分析更有針對(duì)性。手拉手線路線損分析。在計(jì)算線損時(shí)因?yàn)榫€路調(diào)度可能引起誤差,分析綜合線損。實(shí)時(shí)形成每時(shí)段線損率,實(shí)現(xiàn)超高報(bào)警。異常分析,對(duì)線損率變化異常的線路(售電量變化異常用戶)報(bào)警。提供降損決策分析,包括調(diào)整電壓,送電線路升壓,并聯(lián)無(wú)功補(bǔ)償,增加并列線路,增大導(dǎo)線面積等多種降損決策綜合分析.2.4.3圖形展示以上指標(biāo)和分析的圖形柱狀圖、折線圖、餅圖展示??梢匀我膺x擇一條或幾條線路進(jìn)行分析。對(duì)超過(guò)一定范圍的數(shù)據(jù)用紅色顯示。顯示某時(shí)間點(diǎn)的線損情況。如顯示各10點(diǎn)的線損曲線??梢苑治瞿骋粫r(shí)間段數(shù)據(jù)。每天的線損情況,可以顯示每天的線損曲線。以及每條線路每月線損曲線。2.5裝備水平分析變電站,開(kāi)關(guān)、互感器、隔離開(kāi)關(guān)、變壓器容量、保護(hù)綜自設(shè)備按變電站、電壓等級(jí)、產(chǎn)品型號(hào)、類型顯示統(tǒng)計(jì)結(jié)果。統(tǒng)計(jì)變電綜合自動(dòng)化率、雙配置率、無(wú)油化率、組合化率。以及變電設(shè)備到期需檢修、試驗(yàn)設(shè)備。檢修試驗(yàn)完成率。統(tǒng)計(jì)缺陷按數(shù)量、類型、變電站等展現(xiàn)歷史變化曲線圖形點(diǎn)擊可直接顯示明細(xì)。輸配電線路總條數(shù),總長(zhǎng)度。輸電線路按電壓等級(jí)、型號(hào)、架空和電纜、投運(yùn)時(shí)間(年)、資產(chǎn)統(tǒng)計(jì)條數(shù)和長(zhǎng)度。配電線路按單位、資產(chǎn)性質(zhì)、電纜架空、顯示統(tǒng)計(jì)結(jié)果。架空配電線路、配電變壓器、低壓臺(tái)區(qū)個(gè)數(shù),配電室、箱變、臺(tái)架、配電室、開(kāi)關(guān)站、環(huán)網(wǎng)柜、分支箱、聯(lián)絡(luò)柱上開(kāi)關(guān)、分段柱上開(kāi)關(guān)顯示統(tǒng)計(jì)結(jié)果。并可按照臺(tái)帳中的設(shè)備投運(yùn)日期統(tǒng)計(jì)需更換設(shè)備,按照試驗(yàn)時(shí)期統(tǒng)計(jì)需進(jìn)行試驗(yàn)的設(shè)備,按照巡視周期應(yīng)進(jìn)行巡視的線路及設(shè)備等。數(shù)據(jù)來(lái)源配電GIS,變電生產(chǎn)管理系統(tǒng)。2.6人力資源分析人員基本信息,可按部門、性別、身份、年齡結(jié)構(gòu)、工作年限、人員分類、專業(yè)職務(wù)、政治面貌、文化程度、用工形式、技能工資、崗位工資進(jìn)行統(tǒng)計(jì),并可交叉統(tǒng)計(jì)。構(gòu)建歷史數(shù)據(jù),反映職工調(diào)動(dòng)紀(jì)錄,記錄調(diào)動(dòng)時(shí)間,前后部門、崗位變動(dòng),主業(yè)職工人數(shù)、三產(chǎn)職工人數(shù)歷史曲線,生產(chǎn)、管理人員人數(shù)及比例歷史紀(jì)錄,全局人員、生產(chǎn)人員、管理人員中各種學(xué)歷比例歷史紀(jì)錄可進(jìn)行技能結(jié)構(gòu)分析、學(xué)歷層次分析、員工年齡變化趨勢(shì)分析、年齡結(jié)構(gòu)分析、專業(yè)分析統(tǒng)計(jì)、中層干部結(jié)構(gòu)分析、公司機(jī)關(guān)人員現(xiàn)狀分析、高級(jí)技能人才比例、人才密度等統(tǒng)計(jì)顯示。數(shù)據(jù)來(lái)源人事MIS系統(tǒng)。
3解決方案3.1創(chuàng)建倉(cāng)庫(kù)模型 根據(jù)對(duì)電力行業(yè)的營(yíng)銷系統(tǒng)、調(diào)度系統(tǒng)、抄表自動(dòng)化系統(tǒng)等的了解,我們提取了售電量、用電量?jī)蓚€(gè)主題,并根據(jù)可能影響該主題的相關(guān)因素,設(shè)計(jì)出該主題的星型模式。3.1.1主題1售電量主題售電量影響電量的因素:用戶(含大客戶)時(shí)間(粒度為天)行業(yè)分類用電類別電價(jià)類別供電區(qū)域 ——地區(qū) ——部門 ——變電站 ——線路 ——公用區(qū)電壓等級(jí)***售電量***構(gòu)建的星型模式:圖3-1售電量的星型模型3.1.2主題2用電量主題用電量影響電量的因素:變壓器時(shí)間(粒度為天)供電區(qū)域 ——地區(qū) ——部門 ——變電站 ——線路 ——公用區(qū)電壓等級(jí)業(yè)擴(kuò)——新增——增容外部因素——天氣(溫度)——政策——電價(jià)調(diào)整——經(jīng)濟(jì)形勢(shì)***用電量***構(gòu)建的星型模式:圖3-2用電量的星型模型3.2數(shù)據(jù)抽取規(guī)則數(shù)據(jù)抽取是根據(jù)元數(shù)據(jù)庫(kù)中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對(duì)異地異構(gòu)數(shù)據(jù)源(包括各平臺(tái)的數(shù)據(jù)庫(kù)、文本文件、HTML文件、知識(shí)庫(kù)等)進(jìn)行清理、轉(zhuǎn)換,對(duì)數(shù)據(jù)進(jìn)行重新組織和加工,裝載到數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)庫(kù)中。在組織不同來(lái)源的數(shù)據(jù)過(guò)程中,先將數(shù)據(jù)轉(zhuǎn)換成一種中間模式,再把它移至臨時(shí)工作區(qū)。加工數(shù)據(jù)是保證目標(biāo)數(shù)據(jù)庫(kù)中數(shù)據(jù)的完整性、一致性。在數(shù)據(jù)抽取過(guò)程中,必須在最終用戶的密切配合下,才能實(shí)現(xiàn)數(shù)據(jù)的真正統(tǒng)一。早期數(shù)據(jù)抽取是依靠手工編程和程序生成器實(shí)現(xiàn),現(xiàn)在則通過(guò)高效的工具來(lái)實(shí)現(xiàn),如Ardent公司的Infomoter產(chǎn)品、SAS的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品SAS/WA(WarehouseAdministrator)及各大數(shù)據(jù)倉(cāng)庫(kù)廠商推出的、完整的數(shù)據(jù)倉(cāng)庫(kù)解決方案。在本解決方案中,我們將采用IBM公司的DB2WarehouseManager來(lái)完成數(shù)據(jù)抽取。3.2.1分析業(yè)務(wù)系統(tǒng)庫(kù),對(duì)數(shù)據(jù)字典進(jìn)行分類了解各個(gè)業(yè)務(wù)系統(tǒng)庫(kù),分析需要從那些業(yè)務(wù)系統(tǒng)庫(kù)抽取數(shù)據(jù),并分析各個(gè)系統(tǒng)之間的聯(lián)系,熟悉要抽取數(shù)據(jù)的業(yè)務(wù)系統(tǒng)庫(kù)的數(shù)據(jù)字典。然后,對(duì)源數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行細(xì)分,將數(shù)據(jù)字典中的各字段轉(zhuǎn)換到分類數(shù)據(jù)表中,然后將整個(gè)數(shù)據(jù)抽取的過(guò)程建立在分類數(shù)據(jù)表的基礎(chǔ)上。分類數(shù)據(jù)抽取策略的實(shí)質(zhì)是將創(chuàng)建集合記錄過(guò)程中對(duì)導(dǎo)入記錄映像的分類和再分類工作的一部分提前至鍵值定義中,使得原本無(wú)法并行的概括鍵值和分類抽取集合鍵值過(guò)程變得可以并行操作,而且并行操作的各類人員或程序有了更明確的任務(wù)劃分,起到了分工合作的作用。從而在數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的構(gòu)建中,將源字段分類、分類字段鍵值概括、已抽取數(shù)據(jù)的再分類等工作分派給不同的人員并行處理,形成流水線效應(yīng),提高了工作效率。 分類數(shù)據(jù)抽取策略的過(guò)程如圖3-3所示:圖3-3分類數(shù)據(jù)抽取策略過(guò)程3.2.2找出各業(yè)務(wù)系統(tǒng)內(nèi)及其與目標(biāo)數(shù)據(jù)庫(kù)之間存在的數(shù)據(jù)不一致。各個(gè)源數(shù)據(jù)系統(tǒng)是由不同的公司在不同的時(shí)間開(kāi)發(fā)的,數(shù)據(jù)之間都存在很大的不一致。在不同的系統(tǒng)中,同一實(shí)體的編碼類型可能不一致。例如,有兩個(gè)數(shù)據(jù)源存儲(chǔ)與客戶有關(guān)的信息,在定義數(shù)據(jù)組成的客戶編碼類型時(shí),可能一個(gè)用的是可變字符型,而另一個(gè)用的是整型;在不同的系統(tǒng)中,同一實(shí)體的編碼方案可能不一致。例如,在定義客戶性別這一屬性的類型時(shí),一個(gè)可能是char(2),存儲(chǔ)的數(shù)據(jù)值為"男"和"女",另一個(gè)屬性類型為char(1),數(shù)據(jù)值為"F"和"M";有的系統(tǒng)還可能用的是0、1和2,0表示男,1表示女,2表示性別未知。不同系統(tǒng)中,數(shù)據(jù)存儲(chǔ)的粒度可能不一致。例如,在抄表自動(dòng)化系統(tǒng)中,對(duì)大客戶的抄表時(shí)間間隔精確到小時(shí),但是在目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)中,需要將抄表時(shí)間間隔精確到天。數(shù)據(jù)需要清理。有的系統(tǒng)因?yàn)殚_(kāi)發(fā)時(shí)間比較早,存儲(chǔ)它里面的數(shù)據(jù)可能已經(jīng)不在滿足現(xiàn)在實(shí)際需求,成為錯(cuò)誤數(shù)據(jù)。例如,在老的歷史數(shù)據(jù)中,存在一個(gè)計(jì)量點(diǎn)對(duì)應(yīng)多個(gè)有功表的情況,這是不符合實(shí)際需求的,但是,我們又必須要使用這些老的歷史數(shù)據(jù),這就要求對(duì)這些存在錯(cuò)誤的歷史數(shù)據(jù)進(jìn)行清洗、整理,以符合實(shí)際需求。在某些情況下,為了保證輸入數(shù)據(jù)的正確性,需要一個(gè)簡(jiǎn)單的算法。在復(fù)雜情況下,需要調(diào)用人工智能的一些子程序把輸入數(shù)據(jù)清理為可接受的輸出形式。一個(gè)維可能有多個(gè)級(jí)別,在業(yè)務(wù)系統(tǒng)庫(kù)中,這些數(shù)據(jù)可能存儲(chǔ)在多個(gè)表中,這需要將包含在多個(gè)表中的有關(guān)數(shù)據(jù)進(jìn)行合理合并。例如,客戶維包括供電局、供電所和客戶三個(gè)級(jí)別,它的層次如圖3-4所示:客戶維客戶維……供電局……供電所……客戶圖3-4客戶維的層次供電局、供電所的信息存儲(chǔ)單位信息表中,客戶信息存儲(chǔ)在客戶基本信息中,這就需要對(duì)兩張表進(jìn)行合并。目標(biāo)倉(cāng)庫(kù)可能只關(guān)心業(yè)務(wù)系統(tǒng)庫(kù)表中的一部分?jǐn)?shù)據(jù)。例如,在業(yè)務(wù)系統(tǒng)庫(kù)的客戶基本信息中,可能根據(jù)時(shí)間存放了一個(gè)客戶的多條信息,但是目標(biāo)倉(cāng)庫(kù)對(duì)每個(gè)客戶只需要一條信息就足夠了,這就需要對(duì)數(shù)據(jù)進(jìn)行清洗。需要提供缺省值。有時(shí)候,數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)輸出值沒(méi)有對(duì)應(yīng)的輸入源。這時(shí),必須提供缺省值。必須進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換。例如,EBCDIC到ASCII的轉(zhuǎn)換(或反過(guò)來(lái))必須進(jìn)行;有關(guān)日期的輸入數(shù)據(jù)格式是YY/MM/DD,當(dāng)它被寫入輸出文件時(shí),需要轉(zhuǎn)化為DD/MM/YY的格式。3.2.3設(shè)計(jì)出合適的轉(zhuǎn)換規(guī)則針對(duì)各個(gè)業(yè)務(wù)系統(tǒng)庫(kù)數(shù)據(jù)之間不一致,制定出相應(yīng)的轉(zhuǎn)換規(guī)則各個(gè)系統(tǒng)編碼類型的轉(zhuǎn)換。例如,源系統(tǒng)中,客戶編碼用的是整型,目標(biāo)倉(cāng)庫(kù)中,用的是char(12),那么將整型的每位轉(zhuǎn)換成一位字符,轉(zhuǎn)換完成,不足12位的,在前面用字符‘0’補(bǔ)足12位。各個(gè)系統(tǒng)編碼方案的轉(zhuǎn)換。例如,源系統(tǒng)中,客戶性別用的是“男”、“女”,而目標(biāo)倉(cāng)庫(kù)中,用的是“0”,“1”,“2”,那么做如下轉(zhuǎn)換:男->0女->1空值->2對(duì)數(shù)據(jù)進(jìn)行清理。例如,對(duì)一個(gè)計(jì)量點(diǎn)存在多個(gè)有功表的情況,就要按照實(shí)際情況,要么拆分成多個(gè)計(jì)量點(diǎn),要么,將多個(gè)有功表進(jìn)行求和。數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換。例如,ASCII碼轉(zhuǎn)換成EBCDIC,需要使用相應(yīng)的轉(zhuǎn)換函數(shù)。3.2.4設(shè)計(jì)數(shù)據(jù)抽取流程每個(gè)數(shù)據(jù)抽取流程完成一個(gè)功能相對(duì)獨(dú)立的實(shí)體的數(shù)據(jù)抽取,比如,一個(gè)抽取流程完成一個(gè)維或事實(shí)表的數(shù)據(jù)抽取。在本方案中,我們將借助于IBM公司的可視化數(shù)據(jù)抽取工具DB2WarehouseManager來(lái)完成數(shù)據(jù)抽取流程的設(shè)計(jì)。一個(gè)數(shù)據(jù)抽取流程可能會(huì)涉及到多個(gè)表,需要運(yùn)用多個(gè)數(shù)據(jù)抽取規(guī)則,進(jìn)行多個(gè)數(shù)據(jù)轉(zhuǎn)換,并且各個(gè)數(shù)據(jù)轉(zhuǎn)換之間存在制約關(guān)系,一個(gè)轉(zhuǎn)換必需在某個(gè)或某幾個(gè)轉(zhuǎn)換完成之后才能進(jìn)行。例如,客戶維的數(shù)據(jù)抽取流程需要從系統(tǒng)信息表和客戶基本信息表中抽取數(shù)據(jù),并且需要將客戶基本信息表中不需要的客戶信息清洗掉。客戶維數(shù)據(jù)抽取流程在DB2WarehouseManager中的設(shè)計(jì)如圖3-5所示:圖3-5客戶維數(shù)據(jù)抽取流程3.2.5設(shè)計(jì)數(shù)據(jù)抽取的流程的抽取方式,并開(kāi)始數(shù)據(jù)的抽取對(duì)大數(shù)據(jù)量實(shí)體的數(shù)據(jù)抽取進(jìn)行整體抽取,可能會(huì)占用太多時(shí)間,一般會(huì)采取增量抽取;對(duì)于小數(shù)據(jù)量的實(shí)體,可以考慮使用整體抽取。在數(shù)據(jù)抽取流程設(shè)計(jì)完成之后,就需要指定數(shù)據(jù)抽取流程的抽取方式,比如是人工抽取,還是自動(dòng);如果是自動(dòng),那么就需要指定開(kāi)始抽取的時(shí)間或時(shí)間間隔。對(duì)有制約關(guān)系的各個(gè)抽取流程,還要指定他們之間的先后關(guān)系。在數(shù)據(jù)抽取流程的抽取方式設(shè)計(jì)完成之后,就可以開(kāi)始數(shù)據(jù)的抽取了。3.2.6對(duì)抽取到數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),進(jìn)行驗(yàn)證 在數(shù)據(jù)抽取到數(shù)據(jù)倉(cāng)庫(kù)后,就需要對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證,看是否滿足一致性,是否滿足實(shí)際需求,是否達(dá)到了預(yù)期的目標(biāo)。如果,數(shù)據(jù)沒(méi)有達(dá)到預(yù)期的目標(biāo),就要找出不滿足需求的原因,重復(fù)步驟3.2.2-3.2.6,重新分析各系統(tǒng)之間存在的問(wèn)題,重新設(shè)計(jì)轉(zhuǎn)換規(guī)則、數(shù)據(jù)抽取流程。3.2.7完成數(shù)據(jù)的抽取 手工或定期地啟動(dòng)數(shù)據(jù)抽取流程,將數(shù)據(jù)從業(yè)務(wù)系統(tǒng)庫(kù)中抽取到數(shù)據(jù)倉(cāng)庫(kù)中。3.3OLAP多維分析針對(duì)電力系統(tǒng)將要建立的數(shù)據(jù)倉(cāng)庫(kù)模型,我們選擇OLAP展示作為數(shù)據(jù)倉(cāng)庫(kù)向用戶提供信息的接口,來(lái)滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求。3.3.1多角度分析對(duì)同一主題的數(shù)據(jù),OLAP展現(xiàn)可以在不同的角度對(duì)數(shù)據(jù)進(jìn)行展示,用戶可以根據(jù)需要,隨意組合展示的角度和展示的方式。例如,用戶選定對(duì)售電量主題進(jìn)行分析,可以從用戶、時(shí)間、行業(yè)分類、用電類別、電價(jià)類別、供電區(qū)域、電壓等級(jí)角度對(duì)售電量進(jìn)行。用戶在分析的過(guò)程中,既可以把上述所有的角度都選定,在各種角度綜合作用下的進(jìn)行分析,也可以只選擇自己感興趣的角度進(jìn)行分析。例如,可以進(jìn)行下列不同角度的展現(xiàn):某行業(yè)在各個(gè)時(shí)間段內(nèi)的電量趨勢(shì)及同期比。某用電類別在各個(gè)時(shí)間段內(nèi)的電量趨勢(shì)及同期比。某電價(jià)類別在各個(gè)時(shí)間段內(nèi)的電量趨勢(shì)及同期比。某供電區(qū)域在各個(gè)時(shí)間段內(nèi)的電量趨勢(shì)及同期比。某電壓等級(jí)在各個(gè)時(shí)間段內(nèi)的電量趨勢(shì)及同期比。在某段時(shí)間內(nèi),各行業(yè)用電量及其在總電量中所占的比重。在某段時(shí)間內(nèi),各用電類別用電量及其在總電量中所占的比重。在某段時(shí)間內(nèi),各電價(jià)類別用電量及其在總電量中所占的比重。在某段時(shí)間內(nèi),各供電區(qū)域用電量及其在總電量中所占的比重。在某段時(shí)間內(nèi),各電壓等級(jí)用電量及其在總電量中所占的比重。某電價(jià)類別中,不同供電區(qū)域在某段時(shí)間內(nèi)的用電量,及對(duì)比。某行業(yè)中,不同供電區(qū)域在某段時(shí)間內(nèi)的用電量,及對(duì)比。某用電類別中,不同供電區(qū)域在某段時(shí)間內(nèi)的用電量,及對(duì)比。某供電區(qū)域中,不同供電區(qū)域在某段時(shí)間內(nèi)的用電量,及對(duì)比。某電壓等級(jí)中,不同供電區(qū)域在某段時(shí)間內(nèi)的用電量,及對(duì)比。在某供電區(qū)域內(nèi),各行業(yè)用電在某段時(shí)間內(nèi)用電量,及其在總電量中所占的比重。在某供電區(qū)域內(nèi),各用電類別用電在某段時(shí)間內(nèi)用電量,及其在總電量中所占的比重。在某供電區(qū)域內(nèi),各電價(jià)類別用電在某段時(shí)間內(nèi)用電量,及其在總電量中所占的比重。在某供電區(qū)域內(nèi),各電壓等級(jí)用電在某段時(shí)間內(nèi)用電量,及其在總電量中所占的比重。某大客戶在各個(gè)時(shí)間段內(nèi)的電量趨勢(shì)及同期比。在某段時(shí)間內(nèi),各用電大戶的用電量,及其在總售電量中所占的比重。某行業(yè)中,各用電大戶在某段時(shí)間內(nèi)的用電量,及對(duì)比。某用電類別中,各用電大戶在某段時(shí)間內(nèi)的用電量,及對(duì)比。某電價(jià)類別中,各電大戶在某段時(shí)間內(nèi)的用電量,及對(duì)比。某供電區(qū)域中,各電大戶在某段時(shí)間內(nèi)的用電量,及對(duì)比。某電壓等級(jí)中,各電大戶在某段時(shí)間內(nèi)的用電量,及對(duì)比?!治鰰r(shí)除了維度的靈活選擇外,展示系統(tǒng)還支持在某一維度上的鉆取分析。例如,在按照行業(yè)分類和時(shí)間角度對(duì)售電量進(jìn)行分析時(shí),用戶可以根據(jù)需要采取向下鉆取(Drill)分析方式,查看時(shí)間角度上更細(xì)節(jié)的數(shù)據(jù),如可以查看每個(gè)季度每月的數(shù)據(jù)或只查看第四季度下面三個(gè)月的數(shù)據(jù),如圖3-6所示。圖3-6鉆取分析圖對(duì)于某角度細(xì)節(jié)粒度的數(shù)據(jù),如各行業(yè)分類每天的售電量,也可以采取上卷(Roll-up)的分析方式查看高粒度上的數(shù)據(jù),如可以對(duì)2004年1月份每天的數(shù)據(jù)進(jìn)行匯總。對(duì)于任何一個(gè)用戶關(guān)心的角度,只要此角度存在層次關(guān)系,我們的展示都可以進(jìn)行此種向高層的上卷和向下層的鉆取操作。讓用戶只是點(diǎn)擊一下鼠標(biāo),便可以站在不同層次之間瀏覽數(shù)據(jù),方便用戶既可以對(duì)細(xì)節(jié)數(shù)據(jù)的把握,有可以滿足用戶對(duì)綜合數(shù)據(jù)的需求。 我們的展示對(duì)同樣的一組數(shù)據(jù),可以以不同的視角進(jìn)行展現(xiàn)。對(duì)圖3-6所示的數(shù)據(jù),此時(shí)展示的是不同的行業(yè)的2004年四個(gè)季度的售電量??梢圆扇⌒D(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)分析方法,展示在2004年的四個(gè)季度中不同的行業(yè)的售電量。這種旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)操作,使得用戶對(duì)擁有同樣角度的數(shù)據(jù),可以這次以這個(gè)角度作為觀察的重點(diǎn),下次又以另一角度作為觀察的重點(diǎn)。此種操作方法,對(duì)同一組數(shù)據(jù),給用戶提供更靈活的觀察視角。3.3.2圖形展示 我們的展示既能提供數(shù)字報(bào)表展示,還能提供強(qiáng)大的圖形展示功能??梢詫?duì)數(shù)字報(bào)表以柱狀圖、餅圖、折線圖等圖形直觀的展現(xiàn)給用戶,還支持對(duì)用戶關(guān)心的圖形區(qū)域進(jìn)一步細(xì)化展示的功能。圖3-7給出了兩種圖形的組合圖形報(bào)表,左面的餅圖給出了不同地區(qū)的售電量占總售電量的比例,右面的折線圖給出了三種行業(yè)在2002、2003的八個(gè)季度中的售電量變化趨勢(shì)。圖3-7組合圖形報(bào)表我們對(duì)一般的圖形展示功能做了擴(kuò)充,支持在圖表上直接進(jìn)行分析,可以使用戶方便直觀進(jìn)行主題分析。如用戶查看2004年四個(gè)季度的不同行業(yè)分類的售電量(圖3-8),用戶如果此時(shí)僅想查看四個(gè)季度的“非普工業(yè)”的售電量,此時(shí)只需在“非普工業(yè)”點(diǎn)擊一下,圖形將顯示2004年四個(gè)季度的“非普工業(yè)”的售電量情況(3-9)。圖3-8行業(yè)分類售電量展現(xiàn)圖3-9非普工業(yè)售電量展現(xiàn)3.4數(shù)據(jù)挖掘 利用IntelligentMiner可實(shí)現(xiàn)關(guān)聯(lián)分析、聚類分析、分類、預(yù)測(cè)、時(shí)序模式和偏差分析等6種信息的挖掘方法。下面舉例說(shuō)明前3類挖掘。3.4.1關(guān)聯(lián)分析比如我們關(guān)心各線路之間售電量變化的相關(guān)性,這屬于挖掘中的關(guān)聯(lián)挖掘。首先我們需要在系統(tǒng)中指定我們認(rèn)為可能有關(guān)聯(lián)的線路,如從線路1到線路10的相關(guān)數(shù)據(jù),經(jīng)過(guò)系統(tǒng)的運(yùn)算分析我們可以得到一張如圖3-10所示的圖表:圖3-10關(guān)聯(lián)挖掘示意圖圖表可以告訴我們什么?圖中的節(jié)點(diǎn)表示不同的線路,節(jié)點(diǎn)之間的連線表示不同節(jié)點(diǎn)之間的關(guān)聯(lián)規(guī)則,連線的顏色代表該關(guān)聯(lián)規(guī)則的支持度,而連線的粗細(xì)程度代表著該關(guān)聯(lián)的改善度。所謂規(guī)則A==>B的支持度是指,A與B同時(shí)出現(xiàn)的概率;而A==>B的改善度是指,在A變化的情況下,B一定變化的概率。在圖中我們可以看到,線路8上售電量的改變有80%的概率會(huì)引起線路10上售電量的改變,而線路8和線路10在物理上并不一定是鄰近的。在這種情況下,如果我們要在線路8上新增一個(gè)用戶,而該用戶的用電量將會(huì)把線路8的平均負(fù)荷從50%提升到80%,這樣一來(lái),我們是不需要對(duì)線路8進(jìn)行改造的。但通過(guò)我們的挖掘分析可以知道,新增的用戶可能會(huì)大大提高線路10的平均負(fù)荷,而如果線路10本身已經(jīng)接近滿負(fù)荷,則我們需要對(duì)線路10進(jìn)行改造。我們可以利用關(guān)聯(lián)做什么?有了這樣的工具之后,我們可以分析許多與主題相關(guān)因素之間的關(guān)系,找到一些潛在的規(guī)則,而這樣的規(guī)則可能是我們?cè)谄綍r(shí)的工作中根本不會(huì)想到的。比如:供電區(qū)域與用電類別之間的關(guān)聯(lián):歷城區(qū)的售電量上漲時(shí),我市大宗工業(yè)的售電量也將大幅上漲。居民照明用電、商業(yè)用電及大宗工業(yè)用電之間的關(guān)系:居民照明的售電量大幅上升時(shí),商業(yè)用電也將大幅上升,而大宗工業(yè)的售電量可能會(huì)有相應(yīng)的減少。各電壓等級(jí)之間的關(guān)系:當(dāng)35KV以下的售電量大幅減少時(shí),220KV以上的售電量可能會(huì)有相應(yīng)的減少。農(nóng)業(yè)售電量與某種工業(yè)之間的關(guān)系:當(dāng)農(nóng)業(yè)售電量大幅上升時(shí),某特定工業(yè)的售電量可能隨之大幅上升。如果底層數(shù)據(jù)完整,我們甚至可以找出每天的溫度與日售電量之間的關(guān)聯(lián)規(guī)則,從而根據(jù)天氣預(yù)報(bào)來(lái)推測(cè)下一時(shí)間段的售電量。3.4.2分類分析比如我們想按自己的標(biāo)準(zhǔn)對(duì)所有的總電量進(jìn)行分類,而這種標(biāo)準(zhǔn)又可能是不固定的,比如,要看總電量中月用電量大于5萬(wàn)度的和小于等于5萬(wàn)度的各占多少,而在月用電量大于5萬(wàn)度的售電量中,大工業(yè)用電和非大工業(yè)用電各占多少。要實(shí)現(xiàn)這樣的目的,我們需要在系統(tǒng)中指定每一層的規(guī)則,經(jīng)過(guò)系統(tǒng)的分析運(yùn)算,我們可以得到一張類似于下圖的一張圖表:圖3-11分類挖掘示意圖圖中顯示的是一棵樹(shù),樹(shù)的根結(jié)點(diǎn)代表一定時(shí)間段內(nèi)的總電量,結(jié)點(diǎn)上方顯示的漢字即為我們自己定義的分類規(guī)則,在這里,我們把總電量按“月售電量>5萬(wàn)度”的標(biāo)準(zhǔn)分成兩部分。根結(jié)點(diǎn)的左結(jié)點(diǎn)代表月售電量大于5萬(wàn)度的用戶的售電量,而右結(jié)點(diǎn)代表小于等于5萬(wàn)度的售電量。在大于5萬(wàn)度的售電量中,我們又按“是否大工業(yè)”的標(biāo)準(zhǔn)進(jìn)行細(xì)分,又得到兩個(gè)結(jié)點(diǎn),以此類推。當(dāng)然,我們可以看到每一結(jié)點(diǎn)的具體數(shù)據(jù),如它在父結(jié)點(diǎn)的總量當(dāng)中所占有的百分比或絕對(duì)數(shù)量。3.4.3預(yù)測(cè)分析比如我們想根據(jù)大量的歷史數(shù)據(jù)來(lái)推測(cè)下一時(shí)間段(可能是月也可能是年)的售電量。要實(shí)現(xiàn)這樣的目的,我們需要在系統(tǒng)中指定預(yù)測(cè)時(shí)間段的長(zhǎng)度(如是一個(gè)月還是一年)、是否使用特定的模型、使用何種模型及指標(biāo)預(yù)測(cè)的角度之后,經(jīng)過(guò)系統(tǒng)的運(yùn)算、分析,我們會(huì)得到一張類似于圖3-12的圖表。圖3-12預(yù)測(cè)分析示意圖在圖中可以看到,我們可以隨時(shí)改變相應(yīng)的預(yù)測(cè)條件來(lái)生成新的預(yù)測(cè)結(jié)果。預(yù)測(cè)結(jié)果的展示可以是折線圖,柱狀圖或數(shù)據(jù)表等多種形式。
4采用的技術(shù)及相關(guān)產(chǎn)品4.1構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)步驟 具體來(lái)看,開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)的流程主要按照下列步驟:?jiǎn)?dòng)工程首先建立開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)工程的目標(biāo)及制定工程計(jì)劃。計(jì)劃包括數(shù)據(jù)來(lái)源、提供者、技術(shù)設(shè)備、資源、技能、組員培訓(xùn)、責(zé)任、方式方法、工程跟蹤及詳細(xì)工程調(diào)度等。建立技術(shù)環(huán)境選擇實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的軟硬件資源,包括開(kāi)發(fā)平臺(tái)、DBMS、網(wǎng)絡(luò)通信、開(kāi)發(fā)工具、終端訪問(wèn)工具及建立服務(wù)水平目標(biāo)(關(guān)于可用性、裝載、維護(hù)及查詢性能。)確定主題進(jìn)行數(shù)據(jù)建模(需求分析)根據(jù)決策需求確定主題,選擇數(shù)據(jù)源,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織進(jìn)行邏輯結(jié)構(gòu)設(shè)計(jì)。設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)庫(kù)(物理建模)依照需求分析得到的邏輯模式,開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的物理存儲(chǔ)結(jié)構(gòu),即設(shè)計(jì)多維數(shù)據(jù)結(jié)構(gòu)的事實(shí)表和維表。(Warehousemanager)數(shù)據(jù)轉(zhuǎn)換程序(即ETL過(guò)程)實(shí)現(xiàn)從源系統(tǒng)中抽取、清理、一致化、綜合、裝載數(shù)據(jù)等過(guò)程的設(shè)計(jì)和編碼。(Warehousemanager)管理元數(shù)據(jù)(部分已經(jīng)在步驟4、5中完成)定義元數(shù)據(jù),即表示、定義數(shù)據(jù)的意義及系統(tǒng)各組成部件之間的關(guān)系。元數(shù)據(jù)包括關(guān)鍵字、屬性、數(shù)據(jù)描述、物理數(shù)據(jù)結(jié)構(gòu)、源數(shù)據(jù)結(jié)構(gòu)、映射及轉(zhuǎn)換規(guī)則、綜合算法、代碼、默認(rèn)值、安全要求、變化及數(shù)據(jù)時(shí)限等。(Warehousemanager)創(chuàng)建倉(cāng)庫(kù)模式用定義好的事實(shí)表和維表生成多維模式。注,這個(gè)模式不存在層和層次的概念。(Warehousemanager)搭建立方體在已創(chuàng)建的倉(cāng)庫(kù)模式的基礎(chǔ)上,對(duì)維定義了層和層次;創(chuàng)建了需要預(yù)計(jì)算的量度;利用優(yōu)化器根據(jù)業(yè)務(wù)進(jìn)行了切片優(yōu)化和預(yù)處理,生成MQT(物化視圖);在模式中建立立方體,供查詢和多維分析使用。(CubeViews)開(kāi)發(fā)基于多維存儲(chǔ)的OLAP模型前面創(chuàng)建的模型是基于關(guān)系存儲(chǔ)的,在這里要?jiǎng)?chuàng)建基于多維存儲(chǔ)的OLAP模型。主要工作分為建模和部署兩步:(OLAPServer)基于倉(cāng)庫(kù)中的表建立OLAP模型首先建立元模型(包括創(chuàng)建星型或雪花模式,定義維、屬性、層和層次等);再建立元輪廓,即將前面定義的元模型轉(zhuǎn)換成OLAPServer所能識(shí)別的元數(shù)據(jù)。將建好的模型部署到AS(分析服務(wù)器)中;注意,CubeView和Olapserver是兩個(gè)并行使用的工具,后者的功能似乎比前者更強(qiáng)大。多維分析及展現(xiàn)使用數(shù)據(jù)分析和展現(xiàn)工具,開(kāi)發(fā)多維分析程序以及展現(xiàn)頁(yè)面。(Alphablox)查詢優(yōu)化IBM提供了專門的查詢優(yōu)化工具QueryPatroller,它通過(guò)幫助DBA控制和了解數(shù)據(jù)庫(kù)使用情況,從而實(shí)現(xiàn)預(yù)見(jiàn)性的管理、查詢信息分析、查詢監(jiān)控等。數(shù)據(jù)挖掘利用數(shù)據(jù)挖掘工具抽取以前沒(méi)有發(fā)現(xiàn)、可理解的、可操作的信息。包括聚類、關(guān)聯(lián)、分類、預(yù)測(cè)分析等。(IntelligentMiner)管理數(shù)據(jù)倉(cāng)庫(kù)環(huán)境數(shù)據(jù)倉(cāng)庫(kù)必須像其他系統(tǒng)一樣進(jìn)行管理,包括質(zhì)量檢測(cè)、管理決策支持工具及應(yīng)用程序,并定期進(jìn)行數(shù)據(jù)更新,使數(shù)據(jù)倉(cāng)庫(kù)正常運(yùn)行。4.2相關(guān)產(chǎn)品介紹IBM公司的DB2數(shù)據(jù)倉(cāng)庫(kù)企業(yè)版提供了完整的數(shù)據(jù)倉(cāng)庫(kù)解決方案,包括DB2ESE、DB2WarehouseManager、DB2CubeViews、DB2OLAPServer、DB2IntelligenceMiner和DB2Alphalox,整體框架如圖4-1所示:圖4-1DB2數(shù)據(jù)倉(cāng)庫(kù)解決方案整體框架 DB2ESE通過(guò)使用非共享體系結(jié)構(gòu)、查詢重寫、快速裝載、物化查詢表、復(fù)制的查詢匯總表、多維聚簇技術(shù)、動(dòng)態(tài)位圖索引等技術(shù),來(lái)提供了對(duì)通用海量并行數(shù)據(jù)倉(cāng)庫(kù)的支持;B2WarehouseManager提供了可視化的界面,方便了數(shù)據(jù)的加載、轉(zhuǎn)換和抽?。籇B2CubeViews是OLAP元數(shù)據(jù)交換工具及物化查詢表生成器,它通過(guò)將經(jīng)常關(guān)心的查詢做成物化表,大大加快了查詢的速度;OLAPServer是功能強(qiáng)大的OLAP分析工具,它能夠?qū)S進(jìn)行加、減、乘、除等各種運(yùn)算;DB2IntelligenceMiner是數(shù)據(jù)挖掘工具,它包括數(shù)據(jù)挖掘建模工具、數(shù)據(jù)挖掘評(píng)分工具和數(shù)據(jù)挖掘圖示化工具三部分;DB2Alphablox是遵循J2EE規(guī)范的前端展示開(kāi)發(fā)平臺(tái),它提供了基于WEB開(kāi)放標(biāo)準(zhǔn)的標(biāo)簽語(yǔ)言,可以快速開(kāi)發(fā)WEB分析應(yīng)用。4.2.1WarehouseManager WarehouseManager主要負(fù)責(zé)數(shù)據(jù)倉(cāng)庫(kù)建模、數(shù)據(jù)抽取等工作、倉(cāng)庫(kù)管理等。其主要任務(wù)分為以下幾部分:連接數(shù)據(jù)源。它支持關(guān)系的數(shù)據(jù)源,也支持平面文件,例txt文件。關(guān)系數(shù)據(jù)源可以是IBM的DB2數(shù)據(jù)庫(kù),也可以是其它廠家的數(shù)據(jù)庫(kù)產(chǎn)品,例如Oracle、Sybase等。數(shù)據(jù)源的連接可以通過(guò)IBM提供的“聯(lián)合數(shù)據(jù)庫(kù)”進(jìn)行管理連接,也可以直接通過(guò)ODBC進(jìn)行連接。定義數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)。實(shí)際包含兩步:定義目標(biāo)庫(kù)對(duì)應(yīng)的數(shù)據(jù)庫(kù);定義目標(biāo)表或文件。其中,目標(biāo)表的定義,可以自行進(jìn)行創(chuàng)建和結(jié)構(gòu)設(shè)計(jì),也可以在后面創(chuàng)建的Process中自動(dòng)生成。定義數(shù)據(jù)抽取規(guī)則。在WarehouseManager中,數(shù)據(jù)的抽取是通過(guò)定義Process來(lái)實(shí)現(xiàn)的,而Process包含了一系列Step,一個(gè)Step就是數(shù)據(jù)倉(cāng)庫(kù)中的一個(gè)操作,通過(guò)使用SQL語(yǔ)言或調(diào)用程序,steps定義了怎樣移動(dòng)和轉(zhuǎn)換數(shù)據(jù)。通過(guò)定義step,即可實(shí)現(xiàn)數(shù)據(jù)的抽取及轉(zhuǎn)換。定義主題區(qū)域SubjectArea。主題區(qū)域是存放與業(yè)務(wù)中的某個(gè)主題相關(guān)的進(jìn)程,其作用類似于資源管理器中的文件夾。例如,定義一個(gè)主題區(qū)域SalesSubjectArea,然后在該主題區(qū)域中定義一下4個(gè)process:BuildTimeDimensionProcess,BuildProductDimensionProcess,BuildMarketDimensionProcess,BuildSalesFactTableProcess。設(shè)置數(shù)據(jù)抽取周期。通過(guò)對(duì)數(shù)據(jù)抽取相應(yīng)的Process進(jìn)行調(diào)度,從而實(shí)現(xiàn)自動(dòng)按周期抽取數(shù)據(jù)。例如客戶信息每個(gè)星期要導(dǎo)入一次,則將其對(duì)應(yīng)的Process中的steps設(shè)置為“測(cè)試”模式后,即可進(jìn)行調(diào)度,規(guī)定調(diào)度頻率每周星期天12:00執(zhí)行一次;調(diào)度完成后,將steps再設(shè)置為“生產(chǎn)”模式,則系統(tǒng)就開(kāi)始按照調(diào)度設(shè)置來(lái)執(zhí)行該P(yáng)rocess。在此過(guò)程中,可以通過(guò)“正在運(yùn)行”窗口來(lái)查看被調(diào)度的Process當(dāng)前的運(yùn)行情況。創(chuàng)建倉(cāng)庫(kù)模式。倉(cāng)庫(kù)模式分為星型和雪花兩種。在創(chuàng)建倉(cāng)庫(kù)模式的時(shí)候,首先定義各個(gè)維表的主鍵(可能需要在控制中心和DWC中分別進(jìn)行定義),然后定義事實(shí)表的外鍵。通過(guò)主鍵和外鍵的定義,系統(tǒng)可以自動(dòng)生成倉(cāng)庫(kù)模式。如圖4-2所示。需要注意的是,在DWC中創(chuàng)建的模式中不存在層和層次的概念,即只簡(jiǎn)單的定義了維表和事實(shí)表的關(guān)系。而關(guān)于具體的維的層和層次的定義要到CubeViews或OlapServer中定義。圖4-2一個(gè)星型模式定義數(shù)據(jù)倉(cāng)庫(kù)安全性,即定義數(shù)據(jù)倉(cāng)庫(kù)用戶組和用戶。第一次登陸DWC時(shí)使用的用戶名和密碼是創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)控制庫(kù)時(shí)指定的DB2系統(tǒng)的用戶名和密碼。而在這里定義的用戶組和用戶,則是獨(dú)立于操作系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)的。定義了用戶組和用戶后,每創(chuàng)建一個(gè)倉(cāng)庫(kù)對(duì)象,例如倉(cāng)庫(kù)源、倉(cāng)庫(kù)目標(biāo)或Process等,都可以將它們的權(quán)限指定給某些用戶或用戶組。4.2.2CubeViews4.2.2.1概述DB2CubeViews是DB2UniversalDatabase?(DB2通用數(shù)據(jù)庫(kù))的一個(gè)加載功能部件,用于改進(jìn)DB2UDB?執(zhí)行OLAP處理的能力。通過(guò)DB2CubeViews,可以描述關(guān)系表的維結(jié)構(gòu)并創(chuàng)建OLAP構(gòu)造。DB2UDB中的新多維元數(shù)據(jù)具有以下兩個(gè)主要優(yōu)點(diǎn):優(yōu)點(diǎn)一、改進(jìn)商業(yè)智能工具和應(yīng)用程序之間的多維元數(shù)據(jù)流動(dòng)性使用OLAP中心(附帶的一種圖形界面),倉(cāng)儲(chǔ)和商業(yè)智能工具的用戶可以將多維元數(shù)據(jù)作為DB2數(shù)據(jù)庫(kù)一部分來(lái)存儲(chǔ),并使其可用于所有工具和應(yīng)用程序。優(yōu)點(diǎn)二、增強(qiáng)OLAP式的查詢的性能基于多維元數(shù)據(jù),可以使用OLAP中心中的優(yōu)化顧問(wèn)程序的建議來(lái)創(chuàng)建DB2摘要表。摘要表包含映射到OLAP結(jié)構(gòu)的預(yù)計(jì)算數(shù)據(jù)。從具有相同OLAP結(jié)構(gòu)的倉(cāng)儲(chǔ)或商業(yè)智能應(yīng)用程序生成的查詢的性能將會(huì)有所提高。一、CubeViews的作用CubeViews在數(shù)據(jù)倉(cāng)庫(kù)中的作用為建模和查詢優(yōu)化。所謂建模是指,我們的源數(shù)據(jù)存在于業(yè)務(wù)庫(kù)中,經(jīng)過(guò)ETL轉(zhuǎn)換到了WAREHOUSEMANAGER里,并在WM里對(duì)其進(jìn)行了表與表之間的連接操作,也就是所謂的星型模式。但在WM中所建的模式只有事實(shí)和維的概念,并沒(méi)有定義維中的層(Level)和層次(Hierarchy)。層和層次是在CUBEVIEWS建立的。所謂查詢優(yōu)化是指,在CUBEVIEWS中可以建立MQT(MaterializedQueryTable),即物化查詢表,用以存儲(chǔ)某些統(tǒng)計(jì)的中間結(jié)果,從而大大提高查詢的效率。二、CUBEVIEWS在BI流程中的地位CUBEVIEWS處于DW底層表與ROLAP之間,在底層數(shù)據(jù)表的基礎(chǔ)上建立起倉(cāng)庫(kù)的模式,以供后面的ROLAP及挖掘所用,所做的是ROLAP的前期準(zhǔn)備工作。如圖4-3所示。DB2DB2EDWmartmartmartDrilldowntodetailsDB2EDWmartmartmartMOLAPHybridOLAPBIToolMiddleTierROLAPDrilldowntodetails圖4-3CubeViews在BI流程中的地位4.2.2.2建模及優(yōu)化過(guò)程導(dǎo)入事實(shí):在CubeViews中指定由WarehouseM所建的星型模式中的事實(shí)表,并指定度量。建立維表的層(Level):導(dǎo)入事實(shí)表后,所有與事實(shí)表關(guān)聯(lián)的表都被看作維表導(dǎo)入,存在于模型下面的“維”結(jié)點(diǎn)中。但WM中并沒(méi)有對(duì)維進(jìn)行分層,在這里需要定義維的層。定義層次(Hierarchy):建立好各維的層次之后,需要對(duì)每個(gè)維建立至少一個(gè)層次。定義立方體:根據(jù)已經(jīng)建立的模型,選擇適當(dāng)?shù)木S和度量,建立一個(gè)具體的立方體,供Alphablox調(diào)用。創(chuàng)建或更新MQT:對(duì)模型進(jìn)行優(yōu)化切片,提高Olap查詢的效率。比較查詢效率:我們可以在生成MQT的前后分別在控制中心中對(duì)同一個(gè)庫(kù)執(zhí)行同一條ROLAP查詢語(yǔ)句,以觀察查詢效率的變化情況:沒(méi)有MQT時(shí):生成MQT之后:圖4-4查詢計(jì)劃及代價(jià)圖——沒(méi)有MQT時(shí)圖4-5查詢計(jì)劃及代價(jià)圖——有MQT時(shí)4.2.3OLAPServer4.2.3.1概述MOLAP表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn)(MultidimensionalOLAP)。以多維數(shù)據(jù)組織方式為核心,也就是說(shuō),MOLAP使用多維數(shù)組存儲(chǔ)數(shù)據(jù)。多維數(shù)據(jù)在存儲(chǔ)中將形成"立方塊(Cube)"的結(jié)構(gòu),在MOLAP中對(duì)"立方塊"的"旋轉(zhuǎn)"、"切塊"、"切片"是產(chǎn)生多維數(shù)據(jù)報(bào)表的主要技術(shù)。MOLAP系列工具主要包括:DB2OLAPServer、DB2OLAPIntegrationServer和DB2Administratorserver。如圖4-6所示。圖4-6MOLAP系列工具組成AnalyticServices分析服務(wù),一個(gè)可以運(yùn)行在多處理機(jī)環(huán)境下的多線程OLAP數(shù)據(jù)庫(kù)軟件。服務(wù)的主要功能有數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)緩存、計(jì)算和數(shù)據(jù)安全性管理。分析客戶端僅僅需要檢索和查看存儲(chǔ)在服務(wù)器上的數(shù)據(jù)。所有的分析服務(wù)應(yīng)用組件,包括數(shù)據(jù)庫(kù)輪廓、計(jì)算腳本及多維數(shù)據(jù)庫(kù)信息,都保存在服務(wù)中??梢詫⒎?wù)中的數(shù)據(jù)存儲(chǔ)在幾個(gè)磁盤上,從而使得支持大數(shù)據(jù)存儲(chǔ)。分析服務(wù)需要運(yùn)行在裝有支持多線程操作系統(tǒng)下,以便有效的管理多個(gè)同步的請(qǐng)求。服務(wù)也需要一個(gè)服務(wù)代理,它用來(lái)協(xié)調(diào)多個(gè)用戶對(duì)應(yīng)用程序的請(qǐng)求。MaxL作為一種多維數(shù)據(jù)庫(kù)的存取語(yǔ)言,能靈活進(jìn)行數(shù)據(jù)庫(kù)管理和維護(hù)。AdministrationServices作為分析服務(wù)數(shù)據(jù)庫(kù)和系統(tǒng)的管理接口的管理服務(wù),可以同時(shí)提供對(duì)多個(gè)分析服務(wù)的管理。使用管理服務(wù)可以設(shè)計(jì)、維護(hù)和管理多個(gè)分析服務(wù)器、應(yīng)用和數(shù)據(jù)庫(kù)。不需要打開(kāi)客戶端應(yīng)用,在管理服務(wù)的控制臺(tái)上就可以預(yù)覽數(shù)據(jù)。也可以通過(guò)提供的java插件來(lái)改變或擴(kuò)充功能。DeploymentServices部署服務(wù)允許分析服務(wù)器的多個(gè)實(shí)例運(yùn)行在多臺(tái)機(jī)器上,然而它們作為一個(gè)邏輯單元來(lái)給用戶提供服務(wù),在移除和出錯(cuò)時(shí)也當(dāng)作一個(gè)單元處理。部署服務(wù)使得數(shù)據(jù)庫(kù)集群擁有負(fù)載均衡能力和容錯(cuò)能力。IntegrationServices集成服務(wù)(一種可選擇的產(chǎn)品組件)使用元數(shù)據(jù)驅(qū)動(dòng)的方式使存儲(chǔ)在分析服務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)和存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中的細(xì)節(jié)數(shù)據(jù)建立關(guān)聯(lián)。此特性使商業(yè)用戶在做決策時(shí)可以參考更細(xì)節(jié)的數(shù)據(jù),也使IT經(jīng)理在設(shè)計(jì)和維護(hù)大規(guī)模分析應(yīng)用時(shí)可以設(shè)計(jì)更好的模塊結(jié)構(gòu)。此OLAP系統(tǒng)允許允許將分析服務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)中的部分?jǐn)?shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中。關(guān)系數(shù)據(jù)庫(kù)中存放的數(shù)據(jù)可以和分析服務(wù)的某一層次關(guān)聯(lián)。HAL(HyperionApplicationLink)是一個(gè)集成的商業(yè)自動(dòng)處理工具,它允許事務(wù)處理應(yīng)用、桌面應(yīng)用和Hyperion商業(yè)性能管理應(yīng)用之間雙向交換數(shù)據(jù)。SpreadsheetProductsandHyperionAnalyzer分析服務(wù)器的商業(yè)用戶接口工具HyperionAnalyzer,SpreadsheetServices,andSpreadsheetAdd-in,能給不同的用戶團(tuán)體對(duì)企業(yè)信息提供交互式的分析服務(wù)。HyperionAnalyzer,SpreadsheetServices,andSpreadsheetAdd-in可以使用戶對(duì)ERP系統(tǒng)、關(guān)系系統(tǒng)、多維系統(tǒng)及其它數(shù)據(jù)源創(chuàng)建直觀的基于Web的分析和報(bào)表。ApplicationProgrammingInterface(API)分析服務(wù)程序員接口(AnalyticServicesAPI)允許用戶根據(jù)需要?jiǎng)?chuàng)建應(yīng)用。APIReference提供了API中的函數(shù)、平臺(tái)和支持的編譯器的說(shuō)明文檔。DeveloperProducts不管用戶是否擁有編程的知識(shí),Essbase的開(kāi)發(fā)工具都能使用戶快速創(chuàng)建、管理和部署高質(zhì)量的企業(yè)級(jí)的分析應(yīng)用。這些產(chǎn)品,如ApplicationBuilder和HyperionObjects,提供一套完整的應(yīng)用程序接口、可拖拽的組件及一些服務(wù)。DataMining數(shù)據(jù)挖掘工具(分析服務(wù)的一個(gè)可選擇組件)能為用戶找出數(shù)據(jù)中暗含的關(guān)系和模式,使你更好的決策。用數(shù)據(jù)挖掘工具,用戶可以選擇一個(gè)合適的數(shù)據(jù)挖掘算法,建立模型,然后應(yīng)用到已經(jīng)建立好的分析服務(wù)的應(yīng)用和數(shù)據(jù)庫(kù)中。4.2.3.2使用MOLAP系列工具建立電力分析模型一、建模的方法所謂OLAP建模就是指對(duì)某個(gè)具體的應(yīng)用在OLAPserver中建立起針對(duì)此應(yīng)用的OLAP模型。在此,就是對(duì)電力中的售電量和用電量主題,根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)建立起相關(guān)的多維數(shù)據(jù)模型??梢杂萌N方法建立一個(gè)DB2OLAPServer的電力多維模型(在olapserver中此模型被稱作元輪廓)。方法一、通過(guò)應(yīng)用管理器(AdministrationServer)的GUI手動(dòng)建立維和成員。方法二、建立相互協(xié)調(diào)的文件集,并由ESSCMD或者M(jìn)axl通過(guò)批量模式建立一個(gè)輪廓。方法三、使用OLAP集成服務(wù)器。由于我們的任務(wù)是利用已存在的業(yè)務(wù)庫(kù)建立OLAP模型,所以應(yīng)使用第三種建模方法。利用集成服務(wù)器建模的主要過(guò)程如圖4-7所示。圖4-7集成服務(wù)器的建模過(guò)程二、建模的步驟利用采用集成服務(wù)器建模的步驟如下:Step1建立存放元數(shù)據(jù)(OLAP模型和OLAP輪廓)的元數(shù)據(jù)目錄,并與要建模的源數(shù)據(jù)連接。Step2根據(jù)需求中的要求,建立OLAP模型。如圖4-8所示。對(duì)關(guān)系數(shù)據(jù)源用戶來(lái)說(shuō),這個(gè)步驟包括創(chuàng)建OLAPmodel和利用它工作,創(chuàng)建事實(shí)表(facttable),創(chuàng)建account維,創(chuàng)建時(shí)間維,創(chuàng)建維和利用維工作,編輯和轉(zhuǎn)換(transforming)維表中的列,創(chuàng)建和編輯維表的連接(joining),創(chuàng)建和利用維表的層次(hierarchies)。圖4-8如何建立OLAP模型Step3根據(jù)建立的OLAP模型,建立OLAP輪廓;利用加載工具加載到AnalyticServer。 如圖4-9所示,建立輪廓的步驟,包括創(chuàng)建輪廓和用輪廓?jiǎng)?chuàng)建和加載成員和數(shù)據(jù)到分析服務(wù)器的數(shù)據(jù)庫(kù)中。主要過(guò)程如下:(1)創(chuàng)建輪廓(2)在輪廓中創(chuàng)建維、成員級(jí)別和度量(3)設(shè)置加載屬性、過(guò)濾屬性,設(shè)置混合分析成員級(jí)別;設(shè)置維、成員級(jí)別和度量在分析服務(wù)器輪廓中的屬性(4)加載維和成員級(jí)別到分析服務(wù)器輪廓(5)加載指定的數(shù)據(jù)到分析服務(wù)器數(shù)據(jù)庫(kù)中圖4-9建立輪廓的步驟4.2.4Alphablox4.2.4.1概述DB2Alphablox構(gòu)建于已有的應(yīng)用服務(wù)器環(huán)境之上,遵循J2EE體系結(jié)構(gòu),可以與J2EE應(yīng)用服務(wù)器集成,可以無(wú)縫的訪問(wèn)多個(gè)數(shù)據(jù)源,并可以很好的與其它應(yīng)用和服務(wù)集成,如圖4-10所示:DataWarehouseDataWarehouseDataMartRelationalDatabaseSystemsIE,NetscapeWeb
Application
ServerIntranet/
ExtranetClient
BrowserAppServerAlphabloxAnalystsBusinessUsers,Customers,Partners&SuppliersDataMart圖4-10DB2Alphablox在應(yīng)用服務(wù)器上的部署 在圖4-10中,DB2Alphablox及其所有完成分析的解決方案都作為遵循J2EE的應(yīng)用運(yùn)行在應(yīng)用服務(wù)器上,用戶通過(guò)Web瀏覽器來(lái)訪問(wèn)。傳統(tǒng)的查詢和報(bào)表工具,只跟應(yīng)用服務(wù)器交互,Alphablox能夠平衡應(yīng)用服務(wù)、Poertal服務(wù)和應(yīng)用服務(wù)器提供的集成代理服務(wù)。DB2Alphablox完全平衡了開(kāi)發(fā)、部署和維護(hù)分布式應(yīng)用的公共基礎(chǔ)4.2.4.2AlphaBlox體系結(jié)構(gòu)Alphablox包括如下組成部分:DB2Alphablox分析服務(wù)器(AnalysisServer)DB2Alphablox能夠完成分析的解決方案(analytic-enabledsolutions)DB2Alphablox管理應(yīng)用(administrationapplication)應(yīng)用服務(wù)器接口(Applicationserveradapters)Alphablox的體系結(jié)構(gòu)如圖4-11所示:圖4-11DB2Alphablox體系結(jié)構(gòu)AnalysisServer,Alphablox的核心組件,運(yùn)行在J2EE應(yīng)用服務(wù)器的業(yè)務(wù)層(Businesstier)。當(dāng)作為一個(gè)J2EE應(yīng)用在主服務(wù)器上運(yùn)行時(shí),它提供了全功能分析服務(wù)器的服務(wù)。ApplicationServerAdapter允許AnalysisServer與每個(gè)支持的應(yīng)用服務(wù)器通信,來(lái)執(zhí)行管理功能,其中許多功能,像定義應(yīng)用,在每個(gè)應(yīng)用服務(wù)器上被不同安裝。用戶和合作伙伴開(kāi)發(fā)的完成分析的應(yīng)用(analytic-enabledapplication)作為應(yīng)用服務(wù)器的應(yīng)用運(yùn)行在Web層。當(dāng)與AnalysisServer交互時(shí),應(yīng)用作為單獨(dú)的和封裝的J2EE應(yīng)用,可以獨(dú)立于AnalysisServer進(jìn)行部署、備份、升級(jí)和移植。Alphablox在應(yīng)用服務(wù)器的Web層注冊(cè)了兩類J2EE應(yīng)用,分別是:Alphablox服務(wù)器應(yīng)用和Alphablox管理應(yīng)用。應(yīng)用服務(wù)器像管理其它Web應(yīng)用一樣,管理Alphablox,它通過(guò)調(diào)用一個(gè)servlet來(lái)自動(dòng)開(kāi)始AnalysisServer。AnalysisServer根據(jù)應(yīng)用服務(wù)器收到的對(duì)它的請(qǐng)求和應(yīng)用服務(wù)器使用的管理模型,來(lái)掛起和重新開(kāi)始AnalysisServer。4.2.4.3AlphaBlox應(yīng)用一、什么是Alphablox應(yīng)用Forend-users(終端用戶):一組網(wǎng)頁(yè)的集合提供相關(guān)的、關(guān)鍵性業(yè)務(wù)信息與業(yè)務(wù)邏輯相集成使業(yè)務(wù)分析有個(gè)友好的界面Forapplicationdevelopers(應(yīng)用開(kāi)發(fā)者):是成為blox的組件的集合,由AlphabloxAnalysisServer管理。JSP網(wǎng)頁(yè)包括:JSP標(biāo)準(zhǔn)和自定義TagsHTML,CSS,JavaScriptJavascriptlets其他的Web組件(graphics,Flash,etc.)二、什么是BloxBlox是可重復(fù)使用的組件;使用自定義JSPtags添加到JSP頁(yè)面中;大多數(shù)使用JavaBeans技術(shù)創(chuàng)建;使用一個(gè)數(shù)據(jù)展現(xiàn)的Blox組件,需要指定以下幾方面::數(shù)據(jù)源和抽取數(shù)據(jù)的查詢?cè)鯓诱宫F(xiàn)數(shù)據(jù)想要怎樣讓用戶查看、操作、分析、共享、聯(lián)合或評(píng)論數(shù)據(jù);并不是所有的blox組件都是可見(jiàn)的。三、Blox的分類InfrastructureInfrastructureDataAccessPresentation&ManipulationGridBloxChartBloxToolbarBloxSpreadsheetBloxPresentBloxReportingBloxFormsBloxPageBloxRepositoryBloxStatusBloxDataBloxStoredproceduresBloxMDBQueryBlox圖4-12AlphabloxCategory(Analytics)4.2.4.4Cube分析引擎(AlphabloxCubingEngine)允許Alphablox以多維方式訪問(wèn)關(guān)系數(shù)據(jù);使用AlphabloxAdmin定義元數(shù)據(jù),來(lái)描述事實(shí)、維、層次結(jié)構(gòu)(層次)等;將來(lái)自blox的查詢請(qǐng)求轉(zhuǎn)換成SQL;到達(dá)Cube分析引擎的Blox查詢是用MDX語(yǔ)言描述的CubeCubeDefinitionsAlphabloxCubeServerRelationalDatabaseMDXSQL圖4-13AlphabloxCubingEngineDimensionalMetadataWarehouseDataDB2DatabaseTierApplicationServerTierCubeDefinitionimportAlphabloxCubeServer圖4-14CubeViewsIntegration4.2.5IntelligentMinerIBM公司的數(shù)據(jù)挖掘工具(IntelligenceMiner)由數(shù)據(jù)挖掘建模組件(IMModeling)、數(shù)據(jù)挖掘評(píng)分組件(IMScoring)和數(shù)據(jù)挖掘圖示化組件(IMVisualization)三部分組成,整體框架圖如圖4-15所示:圖4-15數(shù)據(jù)挖掘組件圖4.2.5.1數(shù)據(jù)挖掘評(píng)分組件(IMScoring)將IM4D或第三方挖掘工具挖掘出的模型直接倒入數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)打分可以在生產(chǎn)系統(tǒng)中完成支持DB2/ORACLE節(jié)約開(kāi)發(fā)、維護(hù)成本實(shí)現(xiàn)生產(chǎn)系統(tǒng)獨(dú)立、實(shí)時(shí)打分大大提高了:快速分析能力性能易用IMScoringDataAnalystHistoricalDataDataMiningWorkbenchDB2UDFScoredDataSQLPMMLmodel圖4-16數(shù)據(jù)挖掘評(píng)分組件(IMModeling)4.2.5.2數(shù)據(jù)挖掘建模組件(IMModeling)數(shù)據(jù)挖掘建模組件(IMModeling)提供在數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)中構(gòu)建數(shù)據(jù)挖掘模型的能力,可以使用聚類(Clustering)、分類(Classification)、關(guān)聯(lián)(Association)和預(yù)測(cè)(Prediction)等各種數(shù)據(jù)挖掘方法。ClassificationClassificationPredictionAssociations圖4-17數(shù)據(jù)挖掘建模組件(IMmodeling)4.2.5.3數(shù)據(jù)挖掘圖示化組件(IMVisualization)數(shù)據(jù)挖掘圖示化組件(IMVisualization)提供數(shù)據(jù)挖掘結(jié)果的圖形化展示,它通過(guò)MiningInterface將存放在DB2數(shù)據(jù)倉(cāng)庫(kù)中的挖掘結(jié)果以圖形化的方式展示給用戶,如圖4-18所示:DB2DB2MiningInterface圖4-18數(shù)據(jù)挖掘圖示化組件(IMVisualization)
5實(shí)施計(jì)劃電力數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在工程的實(shí)施開(kāi)發(fā)的時(shí)間上做了明確的限定,要求在2005年底完成數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建設(shè)工作。5.1地緯公司的技術(shù)、實(shí)力與經(jīng)驗(yàn)濟(jì)南市電力數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)工程項(xiàng)目覆蓋面廣,任務(wù)復(fù)雜,在工期上有嚴(yán)格的規(guī)定。在工程正式實(shí)施開(kāi)發(fā)以前,開(kāi)發(fā)商必需結(jié)合自身公司的實(shí)力、技術(shù)與經(jīng)驗(yàn),為工程的實(shí)施開(kāi)發(fā)規(guī)劃出一整套嚴(yán)謹(jǐn)、詳細(xì)、完備的工程實(shí)施開(kāi)發(fā)計(jì)劃,一套規(guī)范的可執(zhí)行的工程實(shí)施開(kāi)發(fā)計(jì)劃是整個(gè)工程成功實(shí)施的保障。地緯公司自成立以來(lái)十?dāng)?shù)年來(lái)一直從事大型系統(tǒng)的開(kāi)發(fā)與實(shí)施工作,承擔(dān)過(guò)多項(xiàng)大型的管理信息系統(tǒng)項(xiàng)目建設(shè)工作,例如:青海電力公司全省統(tǒng)一電力營(yíng)銷技術(shù)支持系統(tǒng)項(xiàng)目,山東全省范圍的社會(huì)保障技術(shù)支持系統(tǒng)建設(shè)項(xiàng)目、新疆建設(shè)兵團(tuán)(省級(jí))社會(huì)保障系統(tǒng)建設(shè)項(xiàng)目等。在建設(shè)大型系統(tǒng)方面具備豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。5.2實(shí)施開(kāi)發(fā)綜述仔細(xì)規(guī)劃項(xiàng)目質(zhì)量保證措施地緯公司通過(guò)以下措施來(lái)確保電力數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的實(shí)施開(kāi)發(fā)質(zhì)量:制定嚴(yán)密可行的實(shí)施計(jì)劃,整個(gè)工程嚴(yán)格按照計(jì)劃進(jìn)行;地緯公司已經(jīng)通過(guò)ISO9000認(rèn)證,公司質(zhì)量控制部利用ISO9000質(zhì)量管理規(guī)范對(duì)工程的軟件開(kāi)發(fā)及實(shí)施全過(guò)程進(jìn)行監(jiān)督和控制;建立完善的軟件開(kāi)發(fā)和工程實(shí)施的文檔體系。對(duì)程序進(jìn)行測(cè)試,對(duì)各個(gè)模塊之間的關(guān)聯(lián)情況下可能出現(xiàn)的問(wèn)題進(jìn)行嚴(yán)密的測(cè)試,并不斷完善在測(cè)試過(guò)程中暴露出來(lái)的問(wèn)題。在這過(guò)程中質(zhì)量控制小組將全程參與,確保軟件質(zhì)量。前期的需求調(diào)研需求調(diào)研是軟件開(kāi)發(fā)的最重要的環(huán)節(jié)之一,在調(diào)研的過(guò)程中能否真實(shí)、準(zhǔn)確地描述客戶的需求,對(duì)于軟件的開(kāi)發(fā)有著舉足輕重的影響。與客戶溝通不夠?qū)е聦?duì)同一個(gè)事物的描述或者理解有分歧和差異,或者調(diào)研過(guò)程中流于表面文字,而沒(méi)有進(jìn)入實(shí)際的操作,都可能造成在需求調(diào)研的過(guò)程中造成對(duì)需求不精確的理解。失之毫厘,謬之千里,需求調(diào)研的微小差異可能會(huì)在軟件的開(kāi)發(fā)過(guò)程中造成較大的偏差,直接影響了工程的建設(shè)質(zhì)量。為此我們?yōu)樾枨笳{(diào)研工作分配了充裕的人力的時(shí)間,制定了完善的調(diào)研方案,對(duì)需求調(diào)研的深度和廣度做了規(guī)范性的描述。確保需求調(diào)研的工作質(zhì)量。5.3實(shí)施開(kāi)發(fā)計(jì)劃電力數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目由需求分析、物理建模、數(shù)據(jù)轉(zhuǎn)換(即ETL過(guò)程)、生成多維模式并搭建立方體、多維分析及展現(xiàn)、數(shù)據(jù)挖掘六個(gè)階段組成。2005年9月1日――2005年12月31日共四個(gè)月,為系統(tǒng)建設(shè)實(shí)施階段。一、需求分析階段2005年9月1日――2005年9月20日為需求分析階段。由地緯公司熟悉電力行業(yè)業(yè)務(wù)的工程師組成的軟件開(kāi)發(fā)小組對(duì)供電公司的需求、軟硬件條件、數(shù)據(jù)狀況等情況進(jìn)行調(diào)研,對(duì)需求調(diào)研的結(jié)果進(jìn)行分析,同時(shí)考慮需求的廣泛適用性,歸結(jié)出其中共同的部分和相異的部分,以便下一步根據(jù)需求完成系統(tǒng)軟件開(kāi)發(fā)。二、物理建模階段2005年9月21日――2005年10月15日為物理建模階段。使用Warehousemanager,依照需求分析得到的邏輯模式,設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)庫(kù),開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的物理存儲(chǔ)結(jié)構(gòu),即設(shè)計(jì)多維數(shù)據(jù)結(jié)構(gòu)的事實(shí)表和維表。三、數(shù)據(jù)轉(zhuǎn)換(即ETL過(guò)程)階段2005年10月16日――2005年11月15日為數(shù)據(jù)轉(zhuǎn)換階段。使用Warehousemanager,實(shí)現(xiàn)從多個(gè)源系統(tǒng)中抽取、清理、一致化、綜合、裝載數(shù)據(jù)等過(guò)程的設(shè)計(jì)和編碼。(Warehousemanager)四、生成多維模式并搭建立方體階段2005年11月16日――2005年11月30日為生成多維模式并搭建立方體階段。使用Warehousemanager,用定義好的事實(shí)表和維表生成多維模式。使用CubeViews,在已創(chuàng)建的倉(cāng)庫(kù)模式的基礎(chǔ)上,對(duì)維定義了層和層次;創(chuàng)建了需要預(yù)計(jì)算的量度;利用優(yōu)化器根據(jù)業(yè)務(wù)進(jìn)行了切片優(yōu)化和預(yù)處理,生成MQT(物化視圖);在模式中建立立方體,供查詢和多維分析使用。五、多維分析及展現(xiàn)階段2005年12月1日――2005年12月15日為多維分析及展現(xiàn)階段。使用數(shù)據(jù)分析和展現(xiàn)工具Alphablox,開(kāi)發(fā)多維分析程序以及展現(xiàn)頁(yè)面。六、數(shù)據(jù)挖掘階段2005年12月16日――2005年12月31日為數(shù)據(jù)挖掘階段。使用數(shù)據(jù)挖掘建模工具DB2IntelligentMinerModeler進(jìn)行聚類、關(guān)聯(lián)、分類、預(yù)測(cè),使用數(shù)據(jù)挖掘模型圖示化工具DB2IntelligentMinerVisualization,使用圖形展示挖掘結(jié)果。附:工程實(shí)施整體計(jì)劃一覽表開(kāi)發(fā)階段起始時(shí)間終止時(shí)間需求分析階段2005年9月1日2005年9月20日物理建模階段2005年9月21日2005年10月15日數(shù)據(jù)轉(zhuǎn)換(即ETL過(guò)程)階段2005年10月16日2005年11月15日生成多維模式并搭建立方體2005年11月16日2006年11月30日多維分析及展現(xiàn)2005年12月1日2006年12月15日數(shù)據(jù)挖掘2005年12月16日2005年12月31日
附錄資料:不需要的可以自行刪除如何構(gòu)建銀行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)作為一項(xiàng)數(shù)據(jù)管理領(lǐng)域的新技術(shù),其精髓在于針對(duì)聯(lián)機(jī)分析處理(OLAP)提出了一種綜合的解決方案,與以往很多技術(shù)不同的是,它主要是一種概念,在此概念指導(dǎo)下完成系統(tǒng)的構(gòu)造。既沒(méi)有可以直接購(gòu)買到的現(xiàn)成產(chǎn)品,也沒(méi)有具體的分析規(guī)范和實(shí)現(xiàn)方法,也就是說(shuō)沒(méi)有成熟、可靠且被廣泛接受的數(shù)據(jù)倉(cāng)庫(kù)標(biāo)準(zhǔn)。在以往關(guān)系數(shù)據(jù)庫(kù)的設(shè)計(jì)和實(shí)現(xiàn)中,不僅有詳細(xì)的理論推導(dǎo),還有無(wú)數(shù)的設(shè)計(jì)實(shí)例,無(wú)論你使用的是什么公司的數(shù)據(jù)庫(kù)產(chǎn)品、開(kāi)發(fā)工具,只要按照規(guī)范做,那么實(shí)現(xiàn)同一業(yè)務(wù)需求的方案都會(huì)很相似。而現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)中,出現(xiàn)了MOLAP方案和ROLAP方案的區(qū)別,出現(xiàn)了形形色色的數(shù)據(jù)倉(cāng)庫(kù)建模工具、表現(xiàn)工具,而設(shè)計(jì)人員的個(gè)人經(jīng)驗(yàn)和素質(zhì)也會(huì)在其中扮演很重要的角色。
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的實(shí)現(xiàn)方式
目前在數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的實(shí)際應(yīng)用中主要包括如下幾種具體實(shí)現(xiàn)方式。
1、在關(guān)系數(shù)據(jù)庫(kù)上建立數(shù)據(jù)倉(cāng)庫(kù)(ROLAP)
2、在多維數(shù)據(jù)庫(kù)上建立數(shù)據(jù)倉(cāng)庫(kù)(MOLAP)
MOLAP方案是以多維方式來(lái)組織數(shù)據(jù),以多維方式來(lái)存儲(chǔ)數(shù)據(jù);ROLAP方案則以二維關(guān)系表為核心表達(dá)多維概念,通過(guò)將多維結(jié)構(gòu)劃分為兩類表:維表和事實(shí)表,使關(guān)系型結(jié)構(gòu)能較好地適應(yīng)多維數(shù)據(jù)的表示和存儲(chǔ)。在多維數(shù)據(jù)模型的表達(dá)方面,多維矩陣比關(guān)系表更清晰且占用的存儲(chǔ)更少,而通過(guò)關(guān)系表間的連接來(lái)查詢數(shù)據(jù)的ROLAP系統(tǒng),系統(tǒng)性能成為最大問(wèn)題。MOLAP方案比ROLAP方案要簡(jiǎn)明,索引及數(shù)據(jù)聚合可以自動(dòng)進(jìn)行并自動(dòng)管理,但同時(shí)喪失了一定的靈活性。ROLAP方案的實(shí)現(xiàn)較為復(fù)雜,但靈活性較好,用戶可以動(dòng)態(tài)定義統(tǒng)計(jì)和計(jì)算方式,另外能保護(hù)在已有關(guān)系數(shù)據(jù)庫(kù)上的投資。
由于兩種方案各有優(yōu)劣,因此在實(shí)際應(yīng)用中,往往將MOLAP和ROLAP結(jié)合使用,即所謂的混合模型。利用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)歷史數(shù)據(jù)、細(xì)節(jié)數(shù)據(jù)或非數(shù)值型數(shù)據(jù),發(fā)揮關(guān)系數(shù)據(jù)庫(kù)技術(shù)成熟的優(yōu)勢(shì),減少花費(fèi),而在多維數(shù)據(jù)庫(kù)中存儲(chǔ)當(dāng)前數(shù)據(jù)和常用統(tǒng)計(jì)數(shù)據(jù),以提高操作性能。
3、在原有關(guān)系庫(kù)上建立邏輯上的數(shù)據(jù)倉(cāng)庫(kù)
由于目前正在運(yùn)行的OLTP系統(tǒng)中已經(jīng)積累了海量數(shù)據(jù),如何從中提取出決策所需的有用信息就成為用戶最迫切的需要。新建數(shù)據(jù)倉(cāng)庫(kù)固然能從功能、性能各方面給出一個(gè)完整的解決方案,但需要投入大量的人力、物力,并且數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)和分析數(shù)據(jù)的積累需要一段時(shí)間,無(wú)法及時(shí)滿足用戶對(duì)信息分析的迫切需要。因此在籌建數(shù)據(jù)倉(cāng)庫(kù)的前期,可以采用一些合適的表現(xiàn)工具,在原有OLTP系統(tǒng)上建立起一個(gè)邏輯的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。盡管由于原有OLTP系統(tǒng)設(shè)計(jì)上的局限性,這樣的系統(tǒng)可能無(wú)法實(shí)現(xiàn)很多分析功能,但這樣一個(gè)系統(tǒng)中數(shù)據(jù)結(jié)構(gòu)固定、信息分析需求相對(duì)穩(wěn)定成熟,因此數(shù)據(jù)倉(cāng)庫(kù)的建模、實(shí)現(xiàn)過(guò)程會(huì)相對(duì)容易、便捷;同時(shí),這樣的系統(tǒng)也會(huì)成為將來(lái)真正數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的原型。
信息系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系
由于數(shù)據(jù)量大、數(shù)據(jù)來(lái)源多樣化,在商業(yè)銀行構(gòu)建管理信息系統(tǒng)時(shí),不可避免地會(huì)遇上如何管理這些浩如煙海的數(shù)據(jù),以及如何從中提取有用的信息的問(wèn)題;而數(shù)據(jù)倉(cāng)庫(kù)的最大優(yōu)點(diǎn)在于它能把企業(yè)網(wǎng)絡(luò)中不同信息島上的商業(yè)數(shù)據(jù)集中到一起,存儲(chǔ)在一個(gè)單一的集成的數(shù)據(jù)庫(kù)中,并提供各種手段對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析。因此可以說(shuō),在銀行使用數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建管理信息系統(tǒng),既有壓力,又有數(shù)據(jù)基礎(chǔ),它們之間的聯(lián)系是必然的,難以割舍的。
數(shù)據(jù)倉(cāng)庫(kù)在商業(yè)銀行的應(yīng)用范圍包括存款分析、貸款分析、客戶市場(chǎng)分析、相關(guān)金融業(yè)分析決策(證券、外匯買賣)、風(fēng)險(xiǎn)預(yù)測(cè)、效益分析等。
在銀行信息系統(tǒng)構(gòu)建時(shí),由于歷史情況和現(xiàn)實(shí)需求的不同,存在兩種途徑:
1、建設(shè)新系統(tǒng)
由于目前國(guó)內(nèi)商業(yè)銀行對(duì)銀行內(nèi)部運(yùn)營(yíng)的監(jiān)管,缺乏很好的數(shù)據(jù)搜集機(jī)制,因此可以在構(gòu)建管理信息系統(tǒng)時(shí),分?jǐn)?shù)據(jù)收集錄入和數(shù)據(jù)匯總分析兩部分來(lái)考慮。這樣的系統(tǒng)中由于不需考慮大量歷史數(shù)據(jù)的處理問(wèn)題,同時(shí)考慮到搜集過(guò)程中可能存在多個(gè)數(shù)據(jù)來(lái)源,因此可以在系統(tǒng)建設(shè)的同時(shí)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),將搜集來(lái)的各種數(shù)據(jù)通過(guò)數(shù)據(jù)抽取整合到數(shù)據(jù)倉(cāng)庫(kù)中。
2、完善原有系統(tǒng)
而對(duì)于已經(jīng)存在OLTP系統(tǒng),其中沉淀了大量歷史數(shù)據(jù),則可以先在原有系統(tǒng)上建立邏輯數(shù)據(jù)倉(cāng)庫(kù),即使用數(shù)據(jù)分析的表現(xiàn)工具,在關(guān)系模型上構(gòu)建一個(gè)虛擬的多維模型。當(dāng)系統(tǒng)需求穩(wěn)定后,再建立物理數(shù)據(jù)倉(cāng)庫(kù),這樣既節(jié)省投資,又縮短開(kāi)發(fā)工期。
實(shí)現(xiàn)中需要注意的問(wèn)題
一、模型設(shè)計(jì)中的問(wèn)題
模型設(shè)計(jì)(包括邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì))是系統(tǒng)的基礎(chǔ)和成敗的關(guān)鍵,在實(shí)際操作中,視實(shí)現(xiàn)技術(shù)的不同應(yīng)分別對(duì)下列問(wèn)題引起注意。
1、直接構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)
直接構(gòu)建數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024預(yù)應(yīng)力管樁勞務(wù)分包合同
- 2025年度智能辦公空間場(chǎng)地租賃合作協(xié)議書4篇
- 專項(xiàng)水電維修分包合同書2024版范例版
- 二零二五年度文化產(chǎn)業(yè)代理注銷合作協(xié)議3篇
- 2024年04月廣州銀行白云支行2024年社會(huì)招考筆試歷年參考題庫(kù)附帶答案詳解
- 2025年度產(chǎn)學(xué)研合作項(xiàng)目資金支持及財(cái)務(wù)管理合同4篇
- 專業(yè)短駁貨物運(yùn)輸協(xié)議示范文本版B版
- 2025年度廠房裝修項(xiàng)目環(huán)保評(píng)估與治理合同3篇
- 二零二五年度財(cái)務(wù)共享服務(wù)中心建設(shè)合同3篇
- 二零二五年度跨境電商供應(yīng)鏈金融連帶責(zé)任擔(dān)保協(xié)議3篇
- ICU常見(jiàn)藥物課件
- CNAS實(shí)驗(yàn)室評(píng)審不符合項(xiàng)整改報(bào)告
- 農(nóng)民工考勤表(模板)
- 承臺(tái)混凝土施工技術(shù)交底
- 臥床患者更換床單-軸線翻身
- 計(jì)量基礎(chǔ)知識(shí)培訓(xùn)教材201309
- 中考英語(yǔ) 短文填詞、選詞填空練習(xí)
- 一汽集團(tuán)及各合資公司組織架構(gòu)
- 阿特拉斯基本擰緊技術(shù)ppt課件
- 初一至初三數(shù)學(xué)全部知識(shí)點(diǎn)
- 新課程理念下的班主任工作藝術(shù)
評(píng)論
0/150
提交評(píng)論