基于數(shù)據(jù)倉庫維轉(zhuǎn)技術(shù)的IC卡話機(jī)分析系統(tǒng)_天津通信技術(shù)_第1頁
基于數(shù)據(jù)倉庫維轉(zhuǎn)技術(shù)的IC卡話機(jī)分析系統(tǒng)_天津通信技術(shù)_第2頁
基于數(shù)據(jù)倉庫維轉(zhuǎn)技術(shù)的IC卡話機(jī)分析系統(tǒng)_天津通信技術(shù)_第3頁
基于數(shù)據(jù)倉庫維轉(zhuǎn)技術(shù)的IC卡話機(jī)分析系統(tǒng)_天津通信技術(shù)_第4頁
基于數(shù)據(jù)倉庫維轉(zhuǎn)技術(shù)的IC卡話機(jī)分析系統(tǒng)_天津通信技術(shù)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、本文收錄于<<天津通信技術(shù)>>2003年4期基于數(shù)據(jù)倉庫和維度轉(zhuǎn)換技術(shù)的廣東電信公話IC話機(jī)話務(wù)動態(tài)分析系統(tǒng)馬根峰 (廣東電信公用電話管理中心 廣州 510635)摘要 在電信市場尤其是公話市場競爭激烈的今天,廣東電信公話中心的有關(guān)經(jīng)營分析人員比較迫切的想進(jìn)行眾多IC話機(jī)話務(wù)的動態(tài)分析,即不但要能從較高層面上分析全省或某些地區(qū)、所有或部分話機(jī)類型、某些地區(qū)某些話機(jī)類型的話務(wù)在某些時(shí)間段的變化,而且要能從細(xì)節(jié)上跟蹤每一部IC話機(jī)的200、IC話務(wù)在不同時(shí)期的變化。從而了解IC話機(jī)話務(wù)變化的原因或找出其中的規(guī)律,為管理者決策提供依據(jù)。但目前話機(jī)資料及話務(wù)數(shù)據(jù)分散于不同數(shù)據(jù)庫

2、表的組織方式確不能提供這樣的支撐,所以必須對數(shù)據(jù)進(jìn)行重新組織,并且要按照不同的分析需要對數(shù)據(jù)按照不同的綜合程度來組織。然而話務(wù)的動態(tài)分析還要求對話機(jī)資料更新、對話務(wù)信息表按照時(shí)間維度進(jìn)行轉(zhuǎn)換,通常的OLAP分析工具在對幾十萬條記錄的數(shù)據(jù)表進(jìn)行維度轉(zhuǎn)換時(shí)效率就極為低下。在這種前提下筆者編寫了”話務(wù)動態(tài)分析系統(tǒng)”,利用數(shù)據(jù)倉庫技術(shù)對數(shù)據(jù)源進(jìn)行挖掘、按照不同的粒度來組織;在數(shù)據(jù)倉庫設(shè)計(jì)時(shí)兼顧動態(tài)分析的需要,在數(shù)據(jù)倉庫數(shù)據(jù)生成時(shí)自已編寫程序?qū)崿F(xiàn)話務(wù)按照時(shí)間維度轉(zhuǎn)換,輕松地實(shí)現(xiàn)了話務(wù)的動態(tài)分析。關(guān)鍵詞 數(shù)據(jù)倉庫;OLAP;維度;分布式數(shù)據(jù)庫訪問技術(shù);事務(wù) The system dynamic analy

3、se of charge of pay phone for IC card in Public Payphone Center, Guangdong Telecom Corporation based on Data Warehousing & dimension conversionMA Gen-feng (Public Payphone Center, Guangdong Telecom Corporation, Guangzhou 510635)ABSTRACT: Today, the competition becomes more severe in telecom mark

4、et, especially in public pay phone market. The analyst in Public Payphone Center, Guangdong Telecom Corporation want to analyze the change of 200 & IC charge of many pay phone for IC card in different time as well as the influence on the change of the charge of all or part areas, all or part use

5、r types of pay phone, part areas and part user types of pay phone. If they do this they can find the reason for those change or the rule hide in those change so that they can support the decision-maker to make decision well. But the data of pay phone for IC card and the charge of them every month is

6、 distributed in many tables in database in On-Line operating environment now, it result in the huge difficulty to supply the analyst with sufficient proof to analyze the change of those charge above. So it is necessary to organize these data and store them in different integration level. What is mor

7、e, it is necessary to update the information of pay phone and convert the time dimensionality because of the analysis above. While the OLAP tools for Data Warehousing shows quite low efficient in the process of this conversion of table with millions records well. So I develop a system to process the

8、 analysis of the change of the charge of two hundred thousand pay phone for IC card easily. In the system, it is the first step to dig the detail data of phones and those charge to the Data Warehousing, followed by the high efficient time dimensionality conversion of phones and those charge to a tab

9、le then data in different integration level is created.KEY WORDS: Data Warehousing; OLAP; Dimensionality; Access to distributed Database; Transaction1 引言200及IC卡業(yè)務(wù)是廣東電信的一項(xiàng)重要業(yè)務(wù),因而對于眾多IC話機(jī)上發(fā)生的200及IC話務(wù)分析顯得非常必要。目前對于它們的分析主要包括層面比較高的地區(qū)級話務(wù)的變化以及某一計(jì)費(fèi)月IC話機(jī)的話務(wù)情況。但經(jīng)營分析人員即使知道了全省或部分地區(qū)的話務(wù)變化,卻不能找出其中的原因或規(guī)律。這所以采取這樣的分析方

10、式,就是因?yàn)镮C卡業(yè)務(wù)及200業(yè)務(wù)數(shù)據(jù)分散于操作型環(huán)境之中,并且都是以細(xì)節(jié)級數(shù)據(jù)存貯的(每個月IC話機(jī)的資料、IC話機(jī)的IC話費(fèi)、全省200業(yè)務(wù)的話費(fèi)分別存放在一個數(shù)據(jù)庫表中)。在這種操作型的環(huán)境中要想進(jìn)行”先高層后低層”的話務(wù)動態(tài)分析,即按照地區(qū)市縣支局的層次,結(jié)合IC話機(jī)的用戶類型來一級一級地找出IC話機(jī)話費(fèi)變化原因或規(guī)律,顯然是不現(xiàn)實(shí)的 。要想解決上面的問題,必須利用數(shù)據(jù)倉庫技術(shù)對話機(jī)資料數(shù)據(jù)及話務(wù)數(shù)據(jù)包括200及IC話務(wù)數(shù)據(jù)重新組織,對其按照不同的細(xì)節(jié)程度來設(shè)置不同的粒度來滿足不同層次上話務(wù)動態(tài)分析目標(biāo)的需要,形成一個綜合的、面向分析的環(huán)境;然后去掉各級粒度表中的時(shí)間維度,來滿足不同層

11、次上話務(wù)動態(tài)分析目標(biāo)的需要。但這些OLAP工具通常用于處理記錄較少的表的維度轉(zhuǎn)換,對于處理電信運(yùn)營商中存在的每個月都是幾十萬、幾百萬乃至幾千萬條記錄的表的維度轉(zhuǎn)換時(shí)從執(zhí)行時(shí)間上講是不可行的(處理百萬級數(shù)據(jù)表的維度轉(zhuǎn)換時(shí)運(yùn)行幾百個小時(shí)也得不到結(jié)果),所以筆者首先利用數(shù)據(jù)倉庫技術(shù)將數(shù)據(jù)進(jìn)行挖掘,在數(shù)據(jù)倉庫設(shè)計(jì)時(shí)兼顧動態(tài)分析的需要,在數(shù)據(jù)生成時(shí)自已編寫程序?qū)崿F(xiàn)維度轉(zhuǎn)換,然后基于維度轉(zhuǎn)換后的數(shù)據(jù)表來生成不同粒度的綜合級表。最終在PC機(jī)上僅用了十五分鐘就完成了二十多萬部200專用話機(jī)資料的更新及二十幾萬條記錄的話費(fèi)表的處理并生成了數(shù)據(jù)倉庫中的不同粒度的數(shù)據(jù),從而輕松地實(shí)現(xiàn)了話務(wù)的動態(tài)分析。2數(shù)據(jù)倉庫與O

12、LAP2.1 數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫技術(shù)是用以更好地支持企業(yè)或組織的決策分析處理的,面向主題的,集成的,不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合。它通過將數(shù)據(jù)按照不同的綜合程度(即粒度)來組織,以滿足不同分析的需要。 2.2 聯(lián)機(jī)分析處理OLAPOLAP是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問與分析。通過對信息(這里的信息已經(jīng)從原始的數(shù)據(jù)進(jìn)行了轉(zhuǎn)換,以反映用戶所能理解的企業(yè)的真實(shí)的”維”)的很多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進(jìn)行深入觀察。維是OLAP中的一個基本概念,它反映了人們觀察數(shù)據(jù)的特定角度,如電信業(yè)務(wù)分析中從不同的計(jì)費(fèi)月來觀察話機(jī)的話務(wù),這里的時(shí)間(計(jì)費(fèi)月)就

13、是一個維。一個維往往具有多個層次,如時(shí)間維可以從日期、月份、季度、年等不同的層次來描述。但在廣東電信公話管理中心,對IC話機(jī)話務(wù)的動態(tài)話務(wù)分析主要從月份這個層次來進(jìn)行。2.3 數(shù)據(jù)倉庫中的星型模式及改進(jìn)2.3.1 數(shù)據(jù)倉庫中的星型模式星型模式是用關(guān)系數(shù)據(jù)庫系統(tǒng)來實(shí)現(xiàn)的數(shù)據(jù)倉庫中最常見的模式,在這種模式下,數(shù)據(jù)倉庫由事實(shí)表和維表構(gòu)成。事實(shí)表中包含著用于分析的指標(biāo)和聯(lián)接維表的主鍵。如下面細(xì)節(jié)級話機(jī)話務(wù)和話機(jī)資料的關(guān)系模式話機(jī)話務(wù)(電話號碼,時(shí)間代碼,200話費(fèi),IC話費(fèi))話機(jī)(電話號碼, 地區(qū)代碼,市縣代碼,支局代碼,話機(jī)類型代碼,話機(jī)安裝地址,)地區(qū)(地區(qū)代碼,地區(qū)名,)時(shí)間(時(shí)間代碼,時(shí)間)在

14、這種模型下,可以很輕松地分析出某個維(如時(shí)間維中各月份)的話務(wù)總體情況,這就是在事實(shí)表中增加維度的好處;對于事實(shí)表中記錄不多的情況下,可以用OLAP的一些工具(如Brio)將時(shí)間維從事實(shí)表去掉,在事實(shí)表中增加時(shí)間維表的各個取值來作為事實(shí)表中的幾個字段,這樣就可以輕松地分析幾個時(shí)段的某個或某些維的話費(fèi)、某些話機(jī)的話費(fèi)的變化這類問題了。2.3.2 本系統(tǒng)中對于傳統(tǒng)星型模式的改進(jìn)對于廣東電信來說,每個月的IC話務(wù)數(shù)據(jù)都在二十多萬條記錄以上,n個月累加起來就是n*幾十萬,這樣龐大的表用OLAP工具來進(jìn)行維度轉(zhuǎn)換顯然是不現(xiàn)實(shí),也是不可行的;并且它還無法處理每個月二十多萬部IC話機(jī)的資料更新。筆者在<

15、;<廣東電信公話IC話機(jī)動態(tài)話務(wù)分析系統(tǒng)>>中的解決方法是,直接在數(shù)據(jù)倉庫各級粒度的話務(wù)表中去掉時(shí)間維度,增加時(shí)間維表中的值(各個月)作為各級粒度話務(wù)表的字段;又將話機(jī)資料和話務(wù)表合為一個表,這樣不但在進(jìn)行維度轉(zhuǎn)換時(shí)同時(shí)更新話機(jī)資料,而且能夠提高以后用戶查詢的響應(yīng)速度。在系統(tǒng)中用自己編寫的程序在PC機(jī)上僅運(yùn)行了十五分鐘的時(shí)間就完成了一個月二十多萬條記錄的話機(jī)資料表的更新和話務(wù)表的維度轉(zhuǎn)換、并且生成了各級粒度的綜合表。數(shù)據(jù)倉庫采取這種設(shè)計(jì)方案的另一個好處理就是每一次處理只需要處理一個月的數(shù)據(jù),而不是像OLAP工具那樣一次需要處理n個月的數(shù)據(jù)。3 系統(tǒng)中的數(shù)據(jù)倉庫設(shè)計(jì)3.1 廣東

16、電信公話中心操作型環(huán)境下的數(shù)據(jù)組織情況在廣東電信公用電話管理中心,200話機(jī)資料、所有200業(yè)務(wù)費(fèi)用的關(guān)系模式l IC話機(jī)資料的關(guān)系模式A84_xxxx(電話號碼,地區(qū)代碼,市縣代碼,支局代碼,話機(jī)使用標(biāo)志)l IC話機(jī)話務(wù)關(guān)系模式A92_IC_xxxx(電話號碼,總次數(shù),總時(shí)長秒,總時(shí)長分,總金額,免費(fèi)次數(shù),免時(shí)長秒,免時(shí)長分,地區(qū)代碼)l 全省200業(yè)務(wù)話費(fèi)的關(guān)系模式Fee_200_xxxx(電話號碼,總次數(shù),總通話時(shí)長秒,總計(jì)費(fèi)時(shí)長分,總金額,IP國際次數(shù),IP國際通話時(shí)長秒,IP國際計(jì)費(fèi)時(shí)長分,IP國際金額,地區(qū)) xxxx表示年月,如0302代表2003年2月的話機(jī)資料或話機(jī)話費(fèi)3.

17、2 系統(tǒng)的中數(shù)據(jù)倉庫設(shè)計(jì)考慮到篇幅,各步驟經(jīng)過簡化如下:l 概念模型設(shè)計(jì)l 邏輯模型設(shè)計(jì)l 數(shù)據(jù)倉庫生成3.2.1概念模型設(shè)計(jì)中的界定系統(tǒng)邊界在廣東電信公話中心,管理者最迫切進(jìn)行的分析主要有:l 分析各地區(qū)IC話機(jī)的200、IC話務(wù)的總體情況及不同時(shí)期的變化l 分析各種類型IC話機(jī)的200、IC話務(wù)總體情況及不同時(shí)期的變化l 分析各地區(qū)各種類型IC話機(jī)的200、IC話務(wù)情況及不同時(shí)期的變化l 分析各IC話機(jī)(包括新增、拆機(jī)的IC話機(jī))的200、IC話務(wù)情況及不同時(shí)期的變化要進(jìn)行以上的分析,所需數(shù)據(jù)應(yīng)包括:l 各地區(qū)不同時(shí)期IC話機(jī)的200、IC話務(wù)l 各種類型不同時(shí)期IC話機(jī)的200、IC話務(wù)

18、l 各地區(qū)各種類型IC話機(jī)不同時(shí)期的200、IC話務(wù)l IC話機(jī)在不同時(shí)期的200、IC話務(wù)3.2.2 邏輯模型設(shè)計(jì)l 確定粒度層次劃分粒度是數(shù)據(jù)綜合級別的程度。在數(shù)據(jù)倉庫中,多重粒度是必不可少的。數(shù)據(jù)倉庫的主要作用是DSS分析,因而其絕大部分查詢都基于一定程度的綜合數(shù)據(jù)之上,而只有較少的查詢涉及細(xì)節(jié)。在本系統(tǒng)中采用了五重重粒度,早期細(xì)節(jié)級的IC話機(jī)資料表A84_src和話費(fèi)細(xì)節(jié)級的表Fee_IC_src;維度轉(zhuǎn)換后的細(xì)節(jié)級話機(jī)話費(fèi)表PhoneICFee_detail;輕度綜合級的各地區(qū)、市縣、支局、話機(jī)類型的話務(wù)表phonefeeIC_littleuplvl表;較高綜合級的各地區(qū)、話機(jī)類型的

19、話務(wù)表phonefeeIC_midlvl;以及高度綜合級的各地區(qū)話務(wù)表phonefeeIC_Areahighlvl、各話機(jī)類型話務(wù)表phonefeeIC_Userhighlvl。l 關(guān)系模式定義;A84_src(G200_xxxx表各個字段,話機(jī)資料日期)Fee_IC_src(電話號碼,年月,200總金額,IC總金額,地區(qū))PhoneICFee_detail(A84_xxxx表各字段,話機(jī)資料日期,200301_200金額,200301_IC金額,200412_200金額, 200412_IC金額) 這里及以下綜合級表中的話機(jī)資料日期字段都經(jīng)過了編碼來反映話機(jī)的存在時(shí)間,不同于A84_src上

20、邊的話機(jī)資料日期字段phonefeeIC_littleuplvl(地區(qū),市縣,支局,話機(jī)類型,話機(jī)資料日期, 200301_200金額,200301_IC金額,200412_200金額, 200412_IC金額)phonefeeIC_midlvl(地區(qū),話機(jī)類型,話機(jī)資料日期, 200301_200金額,200301_IC金額,200412_200金額, 200412_IC金額)phonefeeIC_Areahighlvl(地區(qū),話機(jī)資料日期, 200301_200金額,200301_IC金額,200412_200金額, 200412_IC金額)phonefeeIC_Userhighlvl(話

21、機(jī)類型,話機(jī)資料日期,200301_200金額,200301_IC金額,200412_200金額, 200412_IC金額)對于關(guān)系模式的這種設(shè)計(jì),大家可能會一方面質(zhì)疑它的擴(kuò)展性,即它能用來分析其它年月的話務(wù)嗎?另一方面可能會質(zhì)疑如果它可以擴(kuò)展來統(tǒng)計(jì)更多時(shí)間的話務(wù)情況,那最多可以統(tǒng)計(jì)幾年的話務(wù)?只要向幾個話務(wù)表中增加幾個年月的金額字段,在我編寫的維度轉(zhuǎn)換程序中只要增加幾個變量及幾條賦值語句,就可以統(tǒng)計(jì)許多年的數(shù)據(jù);兩者,MS SQL SERVER7.0最多支持1024列的表,這可以用來統(tǒng)計(jì)分析40多年的數(shù)據(jù)。3.3 選定數(shù)據(jù)庫產(chǎn)品來建立數(shù)據(jù)倉庫目前數(shù)據(jù)倉庫的實(shí)現(xiàn)還主要借助于關(guān)系數(shù)據(jù)庫系統(tǒng),兩者

22、由于本系統(tǒng)中數(shù)據(jù)倉庫數(shù)據(jù)來自于遠(yuǎn)程數(shù)據(jù)庫,因此要用到分布式訪問技術(shù)。而遠(yuǎn)程數(shù)據(jù)庫系統(tǒng)是MS SQL SERVER7.0,加上MS SQL SERVER與其它數(shù)據(jù)庫系統(tǒng)的連接性能又比較好,更不用說與MS SQL SERVER的連接性能了,因此選用了MS SQL SERVER7.0來建立數(shù)據(jù)倉庫。同時(shí)這也符合分布式數(shù)據(jù)庫系統(tǒng)建立時(shí)盡量采用”同構(gòu)同質(zhì)”型局部數(shù)據(jù)庫管理系統(tǒng)的建議。 3.4 數(shù)據(jù)倉庫中數(shù)據(jù)的生成3.4.1 操作型環(huán)境數(shù)據(jù)的挖掘和數(shù)據(jù)倉庫中綜合級數(shù)據(jù)的生成在數(shù)據(jù)倉庫設(shè)計(jì)步驟中,數(shù)據(jù)倉庫的生成是其中的關(guān)鍵部分,它為DSS系統(tǒng)提供了基礎(chǔ)數(shù)據(jù)的支持。在這一步里所要做的工作是接口編程,以實(shí)現(xiàn)將操

23、作型環(huán)境下的數(shù)據(jù)裝載進(jìn)入數(shù)據(jù)倉庫環(huán)境。建立和設(shè)計(jì)這個接口,不僅要對數(shù)據(jù)進(jìn)行抽取,而且還要從面向應(yīng)用和操作的環(huán)境生成完整的數(shù)據(jù)。數(shù)據(jù)挖掘的方法主要有DTS工具,用客戶端開發(fā)語言的編程,以及DBMS的存貯過程。我在進(jìn)行數(shù)據(jù)倉庫數(shù)據(jù)挖掘及數(shù)據(jù)生成時(shí)均采用了存貯過程,原因在于它在數(shù)據(jù)庫/數(shù)據(jù)倉庫中的預(yù)編譯特性及在數(shù)據(jù)庫訪問時(shí)的高效率。3.4.2數(shù)據(jù)生成時(shí)的數(shù)據(jù)完整性控制數(shù)據(jù)倉庫中數(shù)據(jù)挖掘及綜合級數(shù)據(jù)生成時(shí)都完成了大量數(shù)據(jù)的INSERT操作,如果在某一時(shí)刻發(fā)生了某種錯誤或系統(tǒng)掉電,那么加載到數(shù)據(jù)倉庫中的數(shù)據(jù)的完整性就會遭到破壞,因此必須采取一定的措施來保障數(shù)據(jù)的完整性。MS SQL SERVER提供了事

24、務(wù),使得一個事務(wù)內(nèi)的所有語句被作為一個整體來執(zhí)行,遇到錯誤時(shí),可以回滾事務(wù),取消事務(wù)內(nèi)所做的所有改變,從而保證數(shù)據(jù)的完整性、一致性。 在數(shù)據(jù)倉庫數(shù)據(jù)挖掘時(shí),由于用到了公布式數(shù)據(jù)訪問技術(shù),所以要使用分布式事務(wù);而在進(jìn)行維度轉(zhuǎn)換時(shí)只需使用本地事務(wù)即可。3.4.3系統(tǒng)中的分布式數(shù)據(jù)庫訪問技術(shù)在數(shù)據(jù)倉庫數(shù)據(jù)挖掘時(shí),由于用到了遠(yuǎn)程數(shù)據(jù)庫的訪問,所以必須使用分布式數(shù)據(jù)訪問技術(shù)。MS SQL SERVER提供了遠(yuǎn)程數(shù)據(jù)庫訪問技術(shù),具體訪問遠(yuǎn)程數(shù)據(jù)表的方法為SELECT Column1,Column FROM Remote_Server.DbName.Owner.TableName3.3.4 數(shù)據(jù)挖掘的具體流程4 結(jié)束語在廣東電信公話業(yè)務(wù)的經(jīng)營分析中,目前使用的靜態(tài)話務(wù)分析在電信市場競爭日益加劇的今天,越來越不能滿足決策者的需要,只有使用話務(wù)的動態(tài)分析方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論