數(shù)據(jù)倉庫與數(shù)據(jù)挖掘項(xiàng)目建設(shè)策劃方案_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘項(xiàng)目建設(shè)策劃方案_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘項(xiàng)目建設(shè)策劃方案_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘項(xiàng)目建設(shè)策劃方案_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘項(xiàng)目建設(shè)策劃方案_第5頁
已閱讀5頁,還剩135頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘項(xiàng)目建設(shè)1. 數(shù)據(jù)倉庫知識(shí)簡介1.1軟件質(zhì)量操縱軟件質(zhì)量操縱的要緊目的是為了獲得更高的開發(fā)效率,幸免返工,提高產(chǎn)品的市場(chǎng)競爭力,從而為客戶提高符合質(zhì)量需求的穩(wěn)定可靠的軟件產(chǎn)品,同時(shí)它也是操縱方法的集合,包括軟件建模、度量、評(píng)審以及其他活動(dòng)。1.2用于軟件操縱的一般性方法如下:目標(biāo)問題度量法,即通過軟件質(zhì)量目標(biāo)并持續(xù)觀看這些目標(biāo)是否達(dá)到軟件質(zhì)量操縱的一種方法風(fēng)險(xiǎn)治理法,即識(shí)不與操縱軟件開發(fā)中對(duì)成功達(dá)到質(zhì)量目標(biāo)危害最大的哪些因素的系統(tǒng)性方法PDCA循環(huán)。這種方法發(fā)源于日本,是指打算plan,做do,檢查check,和行動(dòng)action1.3信息化的需求:隨著信息化的高速進(jìn)展,各行各

2、業(yè),各組織單位積存了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)存在于各單位的數(shù)據(jù)庫,各種報(bào)表、文檔中,真可謂是數(shù)據(jù)的海洋。這些數(shù)據(jù)中蘊(yùn)含著組織業(yè)務(wù)活動(dòng)的大量規(guī)則,包含著組織治理決策所需要的重要知識(shí),從這些數(shù)據(jù)中挖掘出有價(jià)值的信息,為治理決策提供支持是政府和企業(yè)事業(yè)單位共同面臨的問題。解決那個(gè)問題要緊依靠于亮相技術(shù):一是對(duì)整個(gè)組織各部門生產(chǎn)的各種業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一和綜合,把業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)化為商業(yè)信息,支持決策,即數(shù)據(jù)倉庫。二是發(fā)覺隱藏在各種數(shù)據(jù)之中有用的知識(shí),即數(shù)據(jù)挖掘。1.4以銀行為案例的IT整體架構(gòu)1.5數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫系統(tǒng)是指面向主題的、集成的、穩(wěn)定的同時(shí)又是隨時(shí)刻變化的大量的數(shù)據(jù)集合。在綜合使用一些應(yīng)用軟

3、件下,用戶獲得想要的信息,最終為經(jīng)營治理的決策提供有力的關(guān)心數(shù)據(jù)倉庫系統(tǒng)的業(yè)務(wù)特征是業(yè)務(wù)需求的范圍和內(nèi)容,不像業(yè)務(wù)系統(tǒng)那樣清晰和明確:系統(tǒng)建設(shè)的一個(gè)要緊風(fēng)險(xiǎn)是體現(xiàn)在軟件工程質(zhì)量和串接方面存在較大的過程風(fēng)險(xiǎn):系統(tǒng)建設(shè)的成功標(biāo)準(zhǔn)應(yīng)該由應(yīng)用系統(tǒng)的用戶數(shù)及其使用頻率作為重要參考依據(jù)。1.6數(shù)據(jù)倉庫的建設(shè)過程的挑戰(zhàn)如何來操縱風(fēng)險(xiǎn)、如何來保證質(zhì)量呢?把質(zhì)量操縱作為數(shù)據(jù)倉庫建設(shè)的生命線,把它貫穿于數(shù)據(jù)倉庫建設(shè)整個(gè)過程的始終。那么質(zhì)量操縱的中心環(huán)節(jié)又是什么呢?簡單而言,包括事前操縱:對(duì)方案和打算進(jìn)行充分的咨詢和論證;事中治理:對(duì)建設(shè)開發(fā)時(shí)期進(jìn)行持續(xù)不斷的過程操縱;事后操縱:關(guān)于建設(shè)成果通過測(cè)試、評(píng)審、驗(yàn)收、試

4、運(yùn)行等方式進(jìn)行面向結(jié)果的治理操縱。1.7數(shù)據(jù)倉庫的質(zhì)量操縱關(guān)于數(shù)據(jù)倉庫中的質(zhì)量治理問題的研究,目前有幾個(gè)要緊的切入點(diǎn):從數(shù)據(jù)倉庫的設(shè)計(jì)入手,簡歷適合全方位質(zhì)量操縱的體系結(jié)構(gòu)遵從生命周期觀點(diǎn),全過程操縱數(shù)據(jù)倉庫建設(shè)質(zhì)量按照數(shù)據(jù)倉庫兇的工作機(jī)制和部件構(gòu)成來制定質(zhì)量操縱標(biāo)準(zhǔn)數(shù)據(jù)倉庫質(zhì)量從本質(zhì)上講是總體數(shù)據(jù)質(zhì)量的問題。數(shù)據(jù)倉庫的質(zhì)量問題是一個(gè)主觀的標(biāo)準(zhǔn)問題,不同層次的人員對(duì)數(shù)據(jù)倉庫的質(zhì)量有不同的要求,必須依照追求的目標(biāo)來制定質(zhì)量的測(cè)評(píng)、預(yù)測(cè)標(biāo)準(zhǔn)并加以實(shí)現(xiàn),才能真正達(dá)到質(zhì)量操縱的目的1.8數(shù)據(jù)倉庫的精確定義上世紀(jì)80年代中期,“數(shù)據(jù)倉庫之父”William.H.Inmon先生在其建立數(shù)據(jù)倉庫一書中定義了

5、數(shù)據(jù)倉庫的概念,隨后又給出了更為精確的定義:數(shù)據(jù)倉庫是在企業(yè)治理和決策中面向主題的、集成的、與時(shí)刻相關(guān)的數(shù)據(jù)集合。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像是一種過程,是對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)整合、加工和分析的過程。而不是一種能夠購買的產(chǎn)品。1.9數(shù)據(jù)倉庫的特點(diǎn)1.9.1 數(shù)據(jù)倉庫是面向主題的主題是一個(gè)比較抽象的概念,是一種在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類后進(jìn)行分析利用的抽象。在邏輯意義上,它是對(duì)應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象,是針對(duì)某一決策問題而設(shè)置的面向主題的數(shù)據(jù)組織方式,確實(shí)是在較高層次上對(duì)分析對(duì)象數(shù)據(jù)的一個(gè)完整、統(tǒng)一、一致的描述,能完整及統(tǒng)一地描述出各個(gè)分析對(duì)

6、象所設(shè)計(jì)的相關(guān)企業(yè)的分項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系1.9.2 數(shù)據(jù)倉庫是集成的全面而正確的數(shù)據(jù)是進(jìn)行有效分析和決策的首要前提。在某一個(gè)主題的統(tǒng)帥下,需要對(duì)數(shù)據(jù)進(jìn)行抽取、清晰、轉(zhuǎn)換和加載等集成操作。因?yàn)椋簲?shù)據(jù)倉庫的數(shù)據(jù)不是直接從原有數(shù)據(jù)庫系統(tǒng)復(fù)制得到,因?yàn)樵袛?shù)據(jù)庫系統(tǒng)記錄的是每一項(xiàng)業(yè)務(wù)處理的流水賬,這類數(shù)據(jù)不適合用于分析處理。在進(jìn)入數(shù)據(jù)倉庫之前必須通過綜合計(jì)算,拋棄分析處理不需要的數(shù)據(jù)項(xiàng),增加一些可能涉及的外部數(shù)據(jù)。數(shù)據(jù)倉庫每一個(gè)主題所對(duì)應(yīng)的源數(shù)據(jù)在原數(shù)據(jù)庫中有可能有許多重復(fù)或不一致之處,必須將這些數(shù)據(jù)轉(zhuǎn)換成全局統(tǒng)一的定義,消除不一致和錯(cuò)誤之處,以保證數(shù)據(jù)的質(zhì)量。顯而易見的是,對(duì)不準(zhǔn)確,甚至不正

7、確的數(shù)據(jù)進(jìn)行分析得出的結(jié)果將不能用于明白企業(yè)領(lǐng)導(dǎo)者做出科學(xué)的決策1.9.3數(shù)據(jù)倉庫是相對(duì)穩(wěn)定的操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)依照需要發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)要緊供企業(yè)領(lǐng)導(dǎo)者決策分析之用,所涉及的數(shù)據(jù)操作要緊是數(shù)據(jù)查詢和分析,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)操作要緊是數(shù)據(jù)查詢和分析,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之后,一般情況下將會(huì)被長期保留,也確實(shí)是數(shù)據(jù)倉庫中一般有大量的查詢操作和分析,修改和刪除操作一般不多,通常只需要定期的加載、刷新。1.9.4數(shù)據(jù)倉庫是相對(duì)時(shí)刻變化的由于數(shù)據(jù)倉庫中的數(shù)據(jù)是為了分析用的,這使得數(shù)據(jù)倉庫中的數(shù)據(jù)總是擁有時(shí)刻維度。數(shù)據(jù)倉庫實(shí)際上確實(shí)是記錄系統(tǒng)的各個(gè)瞬態(tài),并將各個(gè)瞬態(tài)連續(xù)起

8、來形成動(dòng)畫,從而在數(shù)據(jù)分析的時(shí)候再現(xiàn)系統(tǒng)運(yùn)動(dòng)的全過程。數(shù)據(jù)提取的周期決定了動(dòng)畫間隔的時(shí)刻,數(shù)據(jù)提取的周期越短,則動(dòng)畫的速度越快1.10數(shù)據(jù)成熟度*商業(yè)智能包含(數(shù)據(jù)倉庫和數(shù)據(jù)挖掘)1.11商業(yè)智能(倉庫和挖掘)能夠關(guān)心我們做什么增加銷售額深化客戶關(guān)系研發(fā)客戶關(guān)系提供更好的服務(wù)提升運(yùn)營效率降低成本制定更好的決策1.12商業(yè)智能能夠回答的一些重要的問題舉例1.產(chǎn)品分析:哪些產(chǎn)品是營利性最好的?哪些產(chǎn)品是營利性最差的?2.銷售分析華南地區(qū)差不多開設(shè)2年以上的商店,銷售趨勢(shì)是如何樣的?哪些產(chǎn)品具有向上的銷售趨勢(shì),哪些客戶群體在購買這些產(chǎn)品?3.客戶分析盈利性排在前10%的客戶的特征是什么?盈利性最差的

9、10%客戶的特征是什么?哪些客戶在過去6個(gè)月中的購買量超過了所有客戶購買量均值2個(gè)標(biāo)準(zhǔn)差?盈利性最好的客戶群居住在什么地點(diǎn)?1.13數(shù)據(jù)倉庫的體系架構(gòu)數(shù)據(jù)倉庫的簡單層源數(shù)據(jù)層:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存在于關(guān)系型數(shù)據(jù)庫系統(tǒng)(Relational DataBase Management System,RDBMS)中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息和競爭對(duì)手的信息等等。數(shù)據(jù)導(dǎo)入層:要緊進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換、加載(Extract-Transform-Load,以下簡稱ETL)。把處理后符合業(yè)務(wù)邏輯規(guī)則的

10、數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫中。通過ETL調(diào)度治理、ETL日志治理、ETL出錯(cuò)治理來操縱治理數(shù)據(jù)加載的整個(gè)過程。通過數(shù)據(jù)質(zhì)量治理進(jìn)行數(shù)據(jù)的檢查,及時(shí)地操縱治理數(shù)據(jù)的質(zhì)量情況。數(shù)據(jù)存儲(chǔ)層:是整個(gè)數(shù)據(jù)倉庫的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和治理。數(shù)據(jù)倉庫的組織治理方式?jīng)Q定了它有不于傳統(tǒng)數(shù)據(jù)庫,同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采納什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍能夠分為企業(yè)級(jí)數(shù)據(jù)倉庫和部門級(jí)數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。數(shù)據(jù)集市可能是企業(yè)及數(shù)據(jù)倉庫的一個(gè)組成部

11、分。數(shù)據(jù)應(yīng)用層:要緊分為查詢、統(tǒng)計(jì)報(bào)表、多維分析和數(shù)據(jù)挖掘四大類應(yīng)用。數(shù)據(jù)展現(xiàn)層:要緊分為三大類。有一定技術(shù)經(jīng)驗(yàn)的業(yè)務(wù)人員進(jìn)行多維分析、數(shù)據(jù)挖掘;一般業(yè)務(wù)人員進(jìn)行查詢、統(tǒng)計(jì)報(bào)表打印;治理人員進(jìn)行用戶治理、權(quán)限治理等。1.14數(shù)據(jù)倉庫總體架構(gòu)*與上一張圖異曲同工1.15商業(yè)智能技術(shù)1. 數(shù)據(jù)倉庫:跨功能的數(shù)據(jù)庫歷史細(xì)節(jié)數(shù)據(jù)中型到大型的數(shù)據(jù)庫2. 數(shù)據(jù)集市:聚焦在選定的主題上依靠的(數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)庫)獨(dú)立的stand-alone3. 多維分析通過多個(gè)業(yè)務(wù)主題對(duì)匯總數(shù)據(jù)進(jìn)行分析以性能為導(dǎo)向?qū)?shù)據(jù)的不同層次進(jìn)行鉆取數(shù)據(jù)挖掘:工具驅(qū)動(dòng)依靠算法識(shí)不和預(yù)測(cè)1.16數(shù)據(jù)倉庫系統(tǒng)特征滿足分析或決策類的應(yīng)用

12、需求非操作型的應(yīng)用一套整體性的決絕方案由數(shù)據(jù)庫、前端工具、系統(tǒng)治理平臺(tái)等部分組成倉庫的特點(diǎn)(1)高質(zhì)量的數(shù)據(jù)平臺(tái)面向主題的、集成的、非易失的、隨時(shí)刻變化的數(shù)據(jù)存儲(chǔ)業(yè)務(wù)數(shù)據(jù)的統(tǒng)一視圖數(shù)據(jù)的一致性和完整性(2)靈活的分析和展現(xiàn)平臺(tái) 滿足分析、查詢、報(bào)表等多種類型的應(yīng)用需求1.17企業(yè)級(jí)數(shù)據(jù)倉庫模型的規(guī)劃1.18數(shù)據(jù)質(zhì)量治理體系1.19 OLAP多維分析1.20 成功幾個(gè)簡單原則總體規(guī)劃,分不實(shí)時(shí),急用先行,沿途下蛋1.21 分步實(shí)施規(guī)劃原則1. 緊迫程度要緊是從業(yè)務(wù)角度來講的,要緊因素包括:業(yè)務(wù)需求的緊迫性業(yè)務(wù)需求的重要性項(xiàng)目點(diǎn)可能帶來的效益大小2. 難易程度要緊是從技術(shù)方面考慮,阻礙因素包括可行

13、性、實(shí)現(xiàn)的復(fù)雜程度周期的長度技術(shù)的成熟度預(yù)備工作的進(jìn)度是否有足夠的數(shù)據(jù)支持關(guān)鍵技術(shù)是否成熟1.22 數(shù)據(jù)倉庫治理概述數(shù)據(jù)倉庫的治理在不同的數(shù)據(jù)倉庫建設(shè)時(shí)期,其范圍和內(nèi)容是不同的。數(shù)據(jù)倉庫治理以數(shù)據(jù)倉庫的生命周期分為規(guī)劃、開發(fā)、運(yùn)行和維護(hù)三個(gè)時(shí)期。與傳統(tǒng)應(yīng)用系統(tǒng)不同的是,數(shù)據(jù)倉庫的開發(fā)是一個(gè)持續(xù)整個(gè)生命周期的不斷演進(jìn)的過程。1.23在不同的時(shí)期,數(shù)據(jù)倉庫治理的重點(diǎn)是不同的1. 數(shù)據(jù)倉庫的規(guī)劃時(shí)期在現(xiàn)有系統(tǒng)中的位置、與現(xiàn)有系統(tǒng)的依靠關(guān)系;前景需求的描述;業(yè)務(wù)需求的確立;實(shí)施條件的審核2. 數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)施時(shí)期項(xiàng)目的范圍和打算的治理系統(tǒng)風(fēng)險(xiǎn)治理人員和組織結(jié)構(gòu)的簡歷系統(tǒng)架構(gòu)治理數(shù)據(jù)倉庫技術(shù)的選用關(guān)

14、鍵成功因素的確立3. 數(shù)據(jù)倉庫支持與完善時(shí)期數(shù)據(jù)一致性的維護(hù)性能的維護(hù)需求變更的維護(hù)備份與恢復(fù)的維護(hù)1.24人員的組成看系統(tǒng)結(jié)構(gòu)商業(yè)智能系統(tǒng)邏輯架構(gòu)2. 數(shù)據(jù)倉庫需求治理2.1 有哪些需求2.1.1 有哪些需求需求收集時(shí)期的目標(biāo)是搜集業(yè)務(wù)與IT需求,同時(shí)確定數(shù)據(jù)倉庫主題。這包括確定并記錄下列類型的需求。功能需求:用來講明系統(tǒng)將做什么非功能需求:確定將要建立的系統(tǒng)特性。如性能、可靠性、可用性、安全性、接口需求與設(shè)計(jì)約束等系統(tǒng)開發(fā)過程的詳細(xì)需求:包括使用的方法論、安裝與公布需求、驗(yàn)證、測(cè)試與培訓(xùn)需求等2.1.2 需求和需求分析的內(nèi)容需求分析的先決條件包括項(xiàng)目打算、主題模型、項(xiàng)目風(fēng)險(xiǎn)分析、數(shù)據(jù)質(zhì)量可

15、能、安全系統(tǒng)文檔、安全特征、用戶概況、評(píng)價(jià)數(shù)據(jù)倉庫標(biāo)準(zhǔn)、性能標(biāo)準(zhǔn)、主題、宏觀信息需求、IT標(biāo)準(zhǔn)、IT結(jié)構(gòu)、開發(fā)測(cè)試與生產(chǎn)環(huán)境及其期限、信息結(jié)構(gòu)文檔、宏觀業(yè)務(wù)需求和差不多的維模型等??商峤坏奈臋n包括:已確認(rèn)的驗(yàn)證后的數(shù)據(jù)異常報(bào)告、詳細(xì)需求文檔、測(cè)試打算、培訓(xùn)策略和項(xiàng)目打算等。2.1.3 需求分析的方法2.2 詳細(xì)需求的收集需求分析的第二步是收集詳細(xì)需求。采訪用戶是獲得需求的最慣用的方法。采訪需要記錄,同時(shí)將采訪記錄整理好以后由被采訪者確認(rèn)以及修改補(bǔ)充和再確認(rèn)。調(diào)查者對(duì)需要調(diào)查的內(nèi)容以及相關(guān)的業(yè)務(wù)術(shù)語有所了解,有采訪提綱,能夠與業(yè)務(wù)用戶單獨(dú)交談,假如參與的人過多會(huì)使得采訪者可不能坦誠招待,或發(fā)生相

16、互攻擊等情況,并應(yīng)該操縱每次采訪的時(shí)刻,如此的話能夠提高效率。2.3詳細(xì)需求2.3.1 對(duì)詳細(xì)業(yè)務(wù)需求的確定詳細(xì)的開發(fā)需求,包括:信息傳輸?shù)钠脚_(tái)、方法、形式及標(biāo)準(zhǔn),用戶站點(diǎn)的硬件平臺(tái),用戶方人員的計(jì)算機(jī)使用經(jīng)驗(yàn)與知識(shí),當(dāng)前使用的軟件一級(jí)接口需求:對(duì)用戶情況進(jìn)行調(diào)查,同時(shí)記錄使用倉庫的用戶數(shù)量與類型。對(duì)每類用戶的類型、安全約束、位置、計(jì)算環(huán)境等均進(jìn)行調(diào)查安全性需求,包括存取需求、裝載開發(fā)及轉(zhuǎn)換需求性能需求,包括容量、響應(yīng)時(shí)刻和刷新等需求2.3.2 差不多維模型的建立確認(rèn)用戶的數(shù)據(jù)倉庫類型需求。是需要一個(gè)單一的數(shù)據(jù)倉庫,依舊需要數(shù)據(jù)倉庫加上依靠型的數(shù)據(jù)集市,或者僅需要一個(gè)單一的數(shù)據(jù)集市。確認(rèn)主題和

17、差不多維。建立數(shù)據(jù)倉庫與所相關(guān)的數(shù)據(jù)集市的高級(jí)主題與差不多維的文檔。2.3.3 對(duì)信息結(jié)構(gòu)需求的收集確定數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu),詳細(xì)講明支持?jǐn)?shù)據(jù)倉庫的操作型系統(tǒng)的配置。該信息需要包括下列有關(guān)的軟硬件因素:OLTP系統(tǒng)名稱與類型、平臺(tái)(包括硬件與操作系統(tǒng))、網(wǎng)絡(luò)通信協(xié)議、可用的存儲(chǔ)空間。打算使用的軟硬件,確定與描述數(shù)據(jù)倉庫中打算使用的軟件與硬件結(jié)構(gòu),確定必須添加到當(dāng)前配置中的軟硬件。差距分析,確定當(dāng)前的IT基礎(chǔ)結(jié)構(gòu)與構(gòu)建數(shù)據(jù)倉庫所需的IT基礎(chǔ)結(jié)構(gòu)之間的所有不足之處。定義設(shè)計(jì)策略,需要為下列項(xiàng)目定義設(shè)計(jì)策略:安全模式、ETL、數(shù)據(jù)匯總、備份與恢復(fù)過程、錯(cuò)誤恢復(fù)程序、數(shù)據(jù)轉(zhuǎn)移策略等。2.3.4 分析數(shù)

18、據(jù)質(zhì)量評(píng)價(jià)用于構(gòu)造指定主題的數(shù)據(jù)質(zhì)量。找出所有的質(zhì)量問題并保證質(zhì)量改正過程的執(zhí)行。要緊的質(zhì)量問題包括正確性、完整性、及時(shí)性和唯一性。評(píng)估數(shù)據(jù)完整性并記錄發(fā)覺的問題,為不完整數(shù)據(jù)的所有實(shí)例建立文檔并保證改正過程的執(zhí)行。描述數(shù)據(jù)存在的質(zhì)量問題,為操作型系統(tǒng)治理員與業(yè)務(wù)過程所有者建立報(bào)告,描述數(shù)據(jù)存在的質(zhì)量問題以及它們對(duì)構(gòu)建數(shù)據(jù)倉庫的阻礙。用戶確認(rèn)數(shù)據(jù)庫質(zhì)量問題報(bào)告,用戶確認(rèn)數(shù)據(jù)質(zhì)量報(bào)告及建議的處理方法。確認(rèn)所有的業(yè)務(wù)規(guī)則,列出當(dāng)前所有阻礙構(gòu)建數(shù)據(jù)倉庫的業(yè)務(wù)規(guī)則。2.3.5 收集培訓(xùn)需求確認(rèn)或確定相關(guān)組的成員,并確認(rèn)相關(guān)的培訓(xùn)需求。這些組包括項(xiàng)目組最終用戶、測(cè)試組和維護(hù)人員等。本步驟的詳細(xì)內(nèi)容如下:

19、2.4需求修訂有關(guān)的文檔設(shè)計(jì)及策略在收集有關(guān)需求的基礎(chǔ)之上,更新審查有關(guān)文檔、打算和策略(要緊包括需求文檔、測(cè)試打算、測(cè)試策略和項(xiàng)目打算等),完善、調(diào)整和更新有關(guān)的內(nèi)容。所有修改過的方案都提交用戶,得到用戶的同意并確認(rèn)。2.5需求時(shí)期復(fù)審和總結(jié)完成需求分析時(shí)期的要緊工作之后,要對(duì)整個(gè)時(shí)期的工作進(jìn)行復(fù)審,同用戶代表進(jìn)行溝通協(xié)商,決定下一步的工作,將有關(guān)的文檔資料提交給用戶,假如同意接著下一個(gè)時(shí)期的工作,則將有關(guān)文檔提交給下一個(gè)時(shí)期的有關(guān)人員。2.6需求及需求治理時(shí)期質(zhì)量操縱的方法1. 定義并跟蹤業(yè)務(wù)需求和系統(tǒng)需求開發(fā)的方法和流程需求規(guī)則2. 需求分析第一步確實(shí)是要分析企業(yè)整體業(yè)務(wù),確定大的分析主

20、題及其自主體,這對(duì)整個(gè)數(shù)據(jù)倉庫需求分析工作是特不重要的。業(yè)務(wù)分析主題的確立有一下幾個(gè)原則:從業(yè)務(wù)角度動(dòng)身,而不是從技術(shù)角度動(dòng)身各主題相互獨(dú)立,關(guān)聯(lián)度達(dá)到最低涵蓋企業(yè)的所有業(yè)務(wù)3. 完全以業(yè)務(wù)為主導(dǎo),從分析企業(yè)整體業(yè)務(wù)入手,通過自上而下的業(yè)務(wù)分析,逐步理解和摸清各項(xiàng)業(yè)務(wù)工作的流程、職責(zé)和分析需求,再結(jié)合現(xiàn)有數(shù)據(jù)情況,形成一套完善的服務(wù)于業(yè)務(wù)工作的數(shù)據(jù)倉庫業(yè)務(wù)需求。4. 定義并跟蹤需求治理的方法和流程選擇需求治理工具定義需求變更治理流程需求配置治理5. 以“質(zhì)量保證建議”的形式對(duì)跟蹤過程中發(fā)覺的問題進(jìn)行分析,并提出解決方案建議。6. 在業(yè)務(wù)需求訪談的過程中按照以下方法工作:確認(rèn)該部門現(xiàn)有的信息系統(tǒng)

21、是否差不多全部在列表中,是否有新的系統(tǒng)沒在本次信息系統(tǒng)梳理的范圍內(nèi)(該系統(tǒng)有業(yè)務(wù)分析相關(guān)數(shù)據(jù)產(chǎn)生,能夠作為數(shù)據(jù)倉庫數(shù)據(jù)源使用)。7. 針對(duì)信息系統(tǒng),進(jìn)行以下內(nèi)容的調(diào)查:確認(rèn)該系統(tǒng)目前的運(yùn)行狀態(tài)確認(rèn)該系統(tǒng)要緊的業(yè)務(wù)職能確定該系統(tǒng)目前采納的數(shù)據(jù)庫類型,以及數(shù)據(jù)庫目前治理部門是誰。8. 和企業(yè)項(xiàng)目組以及業(yè)務(wù)部門相關(guān)人員,討論系統(tǒng)和系統(tǒng)之間的關(guān)聯(lián)關(guān)系以及迭代關(guān)系等。同時(shí)另外使用文檔進(jìn)行描述。9. 完全以業(yè)務(wù)為主導(dǎo),從分析企業(yè)整體業(yè)務(wù)入手,2.7需求及需求治理時(shí)期質(zhì)量操縱從業(yè)務(wù)角度動(dòng)身引導(dǎo)和采集客戶需求從分析方法動(dòng)身總結(jié)和歸納客戶需求明確非功能性需求有效操縱需求的范圍有效操縱需求的完備性簡歷可交互的需求

22、治理平臺(tái)建立需求變更操縱2.8需求規(guī)劃的指導(dǎo)思想明確需求規(guī)劃指導(dǎo)思想從規(guī)避整個(gè)項(xiàng)目的業(yè)務(wù)風(fēng)險(xiǎn)和技術(shù)風(fēng)險(xiǎn)的角色進(jìn)行規(guī)劃分時(shí)期成果提交、加強(qiáng)和業(yè)務(wù)部門的交流與反饋工作2.9確認(rèn)需求規(guī)劃原則2.9.1業(yè)務(wù)角度業(yè)務(wù)方面的覆蓋性業(yè)務(wù)需求的緊迫性業(yè)務(wù)需求亮點(diǎn)選擇2.9.2技術(shù)角度技術(shù)應(yīng)用的全面性非功能性需求的可測(cè)量性需求的數(shù)據(jù)滿足度需求的明確度2.10需求的大類查詢的需求報(bào)表的需求統(tǒng)計(jì)分析的需求多維分析的需求數(shù)據(jù)挖掘的需求2.11需求的成果1. 需求文檔(簽字確認(rèn)過的):簡單、易明白文字、圖表、頁面(或者DEMO),那個(gè)特不重要,是業(yè)務(wù)人員理解需求最有效的方法之一2. 正常情況下是一本書3.數(shù)據(jù)倉庫建模關(guān)

23、于數(shù)據(jù)倉庫的數(shù)據(jù)建模數(shù)據(jù)倉庫是一個(gè)結(jié)構(gòu)復(fù)雜的數(shù)據(jù)環(huán)境。一般的,數(shù)據(jù)倉庫數(shù)據(jù)模型特指基礎(chǔ)數(shù)據(jù)層的數(shù)據(jù)模型。數(shù)據(jù)倉庫數(shù)據(jù)模型同樣存在概念模型、邏輯模型、物理模型及語義模型等不同層次。一般的,邏輯數(shù)據(jù)模型是數(shù)據(jù)倉庫數(shù)據(jù)模型的起點(diǎn)與核心由于數(shù)據(jù)倉庫工程建設(shè)的龐大性與復(fù)雜性,一般的最佳實(shí)踐建議基于既有的商用邏輯數(shù)據(jù)模型通過一定的客戶化工作進(jìn)行數(shù)據(jù)倉庫數(shù)據(jù)模型的建設(shè)。保障數(shù)據(jù)模型的設(shè)計(jì)質(zhì)量加快數(shù)據(jù)倉庫的建設(shè)歷程 模型的特點(diǎn)數(shù)據(jù)往往是共享的,分布的用戶訪問集中的數(shù)據(jù),要求數(shù)據(jù)結(jié)構(gòu)不變或相對(duì)穩(wěn)定,好的數(shù)據(jù)模型設(shè)計(jì)能夠保持共享數(shù)據(jù)的一致性和用戶訪問的有效性。數(shù)據(jù)模型清晰地描述了系統(tǒng)完整的數(shù)據(jù)流程,是應(yīng)用程序作用

24、于系統(tǒng)的中介,通過數(shù)據(jù)模型改進(jìn)系統(tǒng),能夠提高系統(tǒng)的協(xié)調(diào)性與合理性,能夠產(chǎn)生更好的系統(tǒng)設(shè)計(jì)。數(shù)據(jù)倉庫的分析類型決定了模型的類型和模型的內(nèi)容,因?yàn)樘釂?、?bào)告及多維分析需要聚攏、清晰的元數(shù)據(jù)結(jié)構(gòu)。例如,多維分析需要變換粒度,這一點(diǎn)也要在模型中體現(xiàn)。一個(gè)清晰的數(shù)據(jù)倉庫模型能夠簡化前端用戶的任務(wù)。模型的類型企業(yè)級(jí)數(shù)據(jù)倉庫的數(shù)據(jù)模型通常有兩類:實(shí)體關(guān)系模型和多維模型。實(shí)體關(guān)系模型用來存儲(chǔ)企業(yè)集成的交易詳細(xì)數(shù)據(jù),是多維模型的數(shù)據(jù)來源和今后應(yīng)用擴(kuò)展的基礎(chǔ)多維模型要緊是面向多維分析應(yīng)用而建立的數(shù)據(jù)模型。模型設(shè)計(jì)的目標(biāo)模型設(shè)計(jì)的要緊目標(biāo)是:建立企業(yè)級(jí)的DDS模型,為數(shù)據(jù)倉庫的實(shí)施、應(yīng)用、維護(hù)、進(jìn)展提供基礎(chǔ)支持,具

25、體的目標(biāo)包括:梳理數(shù)據(jù),作為DDS模型設(shè)計(jì)的基礎(chǔ)建立企業(yè)級(jí)邏輯模型基于邏輯模型建立物理模型在數(shù)據(jù)庫上實(shí)現(xiàn)物理模型(備注:DDS是直接數(shù)字式頻率合成器(Direct Digital Synthesizer)的英文縮寫,是一項(xiàng)關(guān)鍵的數(shù)字化技術(shù)。與傳統(tǒng)的頻率合成器相比,DDS具有低成本、低功耗、高分辨率和快速轉(zhuǎn)換時(shí)刻等優(yōu)點(diǎn),廣泛使用在電信與電子儀器領(lǐng)域,是實(shí)現(xiàn)設(shè)備全數(shù)字化的一個(gè)關(guān)鍵技術(shù)。)模型設(shè)計(jì)的方法為了保證模型的質(zhì)量,我們制定了建模方法論,對(duì)DDS模型建立的步驟和具體操作給出了講明。多維建模過程遵循以下步驟:梳理數(shù)據(jù)建模元素(建模元素包括:事實(shí)、度量、維度)設(shè)計(jì)和完善事實(shí)、度量和維度多維模型設(shè)計(jì)

26、及驗(yàn)證關(guān)系型數(shù)據(jù)庫和OLAP邏輯模型設(shè)計(jì)、調(diào)整、驗(yàn)證物理模型設(shè)計(jì)、實(shí)施設(shè)計(jì)原則在DDS建模的具體設(shè)計(jì)過程中,要緊遵循4個(gè)差不多的設(shè)計(jì)原則:3.6.1 中立性原則中立性原則確實(shí)是指本次DDS所建的模型是中立的,能夠在全企業(yè)共享的,并不偏向特定的應(yīng)用。也確實(shí)是講,DDS中的數(shù)據(jù)不僅能夠?yàn)楫?dāng)前定義的應(yīng)用服務(wù),還能夠?yàn)榻窈笮枰⒌膽?yīng)用服務(wù)。因此,我們?cè)贒DS的設(shè)計(jì)過程中,必須要兼顧各種不同類型的應(yīng)用,例如,有專門多數(shù)據(jù)能夠同時(shí)面向OLAP和查詢。3.6.2 常用性原則常用性原則是指DDS中的數(shù)據(jù)內(nèi)容以常用為原則,即只有常用的數(shù)據(jù)才被納入DDS,關(guān)于那些特不用的數(shù)據(jù),則由ODS直接提供數(shù)據(jù)支持。(備注

27、:操作數(shù)據(jù)存儲(chǔ)ODS(Operational Data Store)是 HYPERLINK /item/%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93 t _blank 數(shù)據(jù)倉庫體系結(jié)構(gòu)中的一個(gè)可選部分,ODS具備數(shù)據(jù)倉庫的部分特征和 HYPERLINK /item/OLTP t _blank OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù)。)3.6.3 多樣性原則一般來講,DDS應(yīng)該是多維的,即DDS中所有數(shù)據(jù)都使用多維模型來構(gòu)建。但考慮到SSE(指令集)的實(shí)際情況,假如存在一些數(shù)據(jù)需求,它們既符合常用性原則(即它們比較常用),

28、又不適合用多維模型來構(gòu)建,那么我們將直接把這些數(shù)據(jù)從ODS復(fù)制到DDS中。因此這不是一個(gè)簡單的復(fù)制過程,而是需要進(jìn)行一定的整理,例如刪除多余的字段、統(tǒng)一鍵值等等。3.6.4 方便性原則在建模的過程中,應(yīng)當(dāng)遵循方便性原則,即當(dāng)數(shù)據(jù)冗余能夠帶來查詢上的方便時(shí),能夠考慮在數(shù)據(jù)中適當(dāng)增加冗余字段(尤其是維度表)3.7 數(shù)據(jù)資源層數(shù)據(jù)類不1.結(jié)構(gòu)化數(shù)據(jù):ER數(shù)據(jù);多維數(shù)據(jù)2.非結(jié)構(gòu)化數(shù)據(jù):Word文件、PDF文件、E-Mail、圖形文件3.8 數(shù)據(jù)倉庫(數(shù)據(jù)集市)的數(shù)據(jù)模型設(shè)計(jì)該步驟完成數(shù)據(jù)倉庫或數(shù)據(jù)集市的數(shù)據(jù)模型設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)倉庫或數(shù)據(jù)集市的概念模型按照需求分析的結(jié)果以及確立的主題建立概念模型設(shè)計(jì)數(shù)據(jù)倉

29、庫或數(shù)據(jù)集市的邏輯模型依照建立的概念模型以及相應(yīng)的轉(zhuǎn)換規(guī)則導(dǎo)出邏輯模型設(shè)計(jì)物理數(shù)據(jù)模型從概念模型導(dǎo)出物理模型,即設(shè)計(jì)數(shù)據(jù)倉庫中數(shù)據(jù)庫結(jié)構(gòu)、索引結(jié)構(gòu)、實(shí)例化視圖選擇策略和數(shù)據(jù)分片等3.9 設(shè)計(jì)概念模型輸入方法工具參與的角色輸出差不多維模型文檔概念建模技術(shù)多維模型設(shè)計(jì)工具DWAR,DWE概念模型文檔3.10 設(shè)計(jì)邏輯模型輸入方法工具參與的角色輸出概念模型文檔邏輯建模,物理建模技術(shù)型性模型,三范式模型DWAR,DWE邏輯的數(shù)據(jù)倉庫數(shù)據(jù)模型和數(shù)據(jù)集市數(shù)據(jù)模型3.11 設(shè)計(jì)物理模型輸入工具參與角色輸出邏輯模型文檔常用建模工具DWAR,DWE數(shù)據(jù)倉庫的物理模型和數(shù)據(jù)集市的物理模型3.12 邏輯模型設(shè)計(jì)的質(zhì)

30、量操縱盡管應(yīng)用星型模型和雪花模型可在概念模型設(shè)計(jì)中建立數(shù)據(jù)倉庫的概念模型,然而無法直接依靠概念模型作為概念模型到物理模型轉(zhuǎn)換的橋梁。數(shù)據(jù)倉庫的邏輯模型應(yīng)該與數(shù)據(jù)倉庫物理實(shí)現(xiàn)時(shí)所使用的數(shù)據(jù)庫匹配。由于目前數(shù)據(jù)倉庫一般都建立在關(guān)系數(shù)據(jù)庫基礎(chǔ)上,因此,數(shù)據(jù)倉庫設(shè)計(jì)過程中所采納的邏輯模型要緊是關(guān)系模型。利用關(guān)系模型不僅能夠創(chuàng)建星型模型與雪花模型中指標(biāo)實(shí)體的關(guān)系模式,而且還可創(chuàng)建星型模型與雪花模型維度實(shí)體和詳細(xì)類不實(shí)體的關(guān)系模式。進(jìn)行數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)時(shí),一般需要完成分析主題域,確定轉(zhuǎn)載到數(shù)據(jù)倉庫的主題,確定粒度層次劃分,確定數(shù)據(jù)分割策略,關(guān)系模式的定義和記錄系統(tǒng)定義,確定數(shù)據(jù)抽取模型等。邏輯模型的

31、最終設(shè)計(jì)成果應(yīng)該包含每個(gè)主題邏輯定義,且將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中,其中包括粒度劃分、數(shù)據(jù)分割各類、表劃分和數(shù)據(jù)來源等。3.13 邏輯模型設(shè)計(jì)質(zhì)量操縱的目標(biāo)邏輯數(shù)據(jù)模型是依照相應(yīng)的需求分析講明書以及數(shù)據(jù)來源分析建立起企業(yè)級(jí)的數(shù)據(jù)模型,監(jiān)控所建模型的準(zhǔn)確性、完整性和可擴(kuò)展性。要緊評(píng)審主題域是否能夠正確反映用戶的決策分析需求。從用戶對(duì)數(shù)據(jù)使用的要求,評(píng)審數(shù)據(jù)粒度的劃分和數(shù)據(jù)分割策略是否能夠滿足用戶決策分析的需要;評(píng)審從指標(biāo)實(shí)體、維實(shí)體和詳細(xì)類不實(shí)體轉(zhuǎn)換而來的各種關(guān)系模式是否滿足關(guān)系第三范式要求;為提高數(shù)據(jù)倉庫的運(yùn)行效率是否需要對(duì)這些關(guān)系模型進(jìn)行反規(guī)范化處理;數(shù)據(jù)的抽取模型是否建立了數(shù)據(jù)源與

32、數(shù)據(jù)倉庫的對(duì)應(yīng)關(guān)系,數(shù)據(jù)的約束條件和業(yè)務(wù)規(guī)則是否在這些模型中得到了正確的反映。3.14 邏輯模型設(shè)計(jì)質(zhì)量操縱的方法1. 依據(jù)數(shù)據(jù)源狀態(tài)報(bào)告和需求分析講明書對(duì)邏輯模型設(shè)計(jì)過程中的關(guān)鍵點(diǎn)進(jìn)行跟蹤檢查2. 以“檢查單”的形式對(duì)跟蹤檢查過程中發(fā)覺的問題進(jìn)行分析,并提出解決方案建議。3. 評(píng)審邏輯模型設(shè)計(jì)時(shí)期所提交的交付文檔,要緊包括:主題域分析報(bào)告,數(shù)據(jù)粒度劃分模型,數(shù)據(jù)分割策略,指標(biāo)實(shí)體,維實(shí)體與詳細(xì)類不實(shí)體的關(guān)系模式和數(shù)據(jù)抽取模型。3.15 跟蹤檢查以下關(guān)鍵點(diǎn)邏輯模型是否能滿足業(yè)務(wù)需求數(shù)據(jù)與需求映像關(guān)系是否有明確講明本時(shí)期需要對(duì)需求分析報(bào)告中列出的每一條需求逐一進(jìn)行分析,得出需求在實(shí)現(xiàn)過程中需要用

33、到的數(shù)據(jù),然后將這些數(shù)據(jù)的內(nèi)容依照多維模型的要求分成事實(shí)、維度、度量三大類信息并記錄下來業(yè)務(wù)邏輯單元的劃分是否合理主題和事實(shí)表的確定是否準(zhǔn)確3.16 常用的數(shù)據(jù)模型(主題域)資產(chǎn)、協(xié)議、財(cái)務(wù)、營銷、客戶、產(chǎn)品、渠道、機(jī)構(gòu)、交易、地域,共10個(gè)主題域3.17 FS-LDM模型框架3.17.1從金融機(jī)構(gòu)舉例:3.17.2跟蹤檢查以下關(guān)鍵點(diǎn):數(shù)據(jù)粒度的確定是否合理索引的策略是否合理關(guān)于漸變維的處理是否能最好地滿足業(yè)務(wù)需求關(guān)于維度緩慢變化的解決一般有三種方案能夠使用:覆蓋歷史記錄,直接更新維度字段的值在維度表中增加一條新的記錄,同時(shí)有標(biāo)志講明這條記錄的有效使用時(shí)刻區(qū)間,如此能夠保留歷史記錄在維表中增加

34、一個(gè)字段,記錄已更改的記錄舊的取值,如此也能夠保留歷史紀(jì)錄,然而只能保留前一個(gè)修改歷史。3.17.3 當(dāng)事人主題域細(xì)節(jié)模型局部展示3.17.4協(xié)議主題域細(xì)節(jié)模型局部展示3.17.5事件主題域細(xì)節(jié)模型局部展示3.17.5產(chǎn)品主題域細(xì)節(jié)模型局部展示3.17.6 地域主題域細(xì)節(jié)模型局部展示3.17.7 渠道主題域細(xì)節(jié)模型局部展示3.17.7 財(cái)務(wù)主題域細(xì)節(jié)模型局部展示ETCL策略和前端應(yīng)用4.1 ETL設(shè)計(jì)數(shù)據(jù)倉庫處理過程的設(shè)計(jì)是數(shù)據(jù)倉庫設(shè)計(jì)的核心。它涉及到數(shù)據(jù)倉庫初始裝載、更新、維護(hù)、歸檔、轉(zhuǎn)儲(chǔ)以及應(yīng)用接口等諸多方面4.2數(shù)據(jù)ETL過程設(shè)計(jì)依照模型設(shè)計(jì)的結(jié)果,設(shè)計(jì)ETL程序1. 數(shù)據(jù)初始ETL過程

35、設(shè)計(jì)。ETL過程實(shí)際上由三個(gè)子過程構(gòu)成:數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)加載。依照選用的數(shù)據(jù)倉庫工具將數(shù)據(jù)從數(shù)據(jù)源抽取到臨時(shí)數(shù)據(jù)集中,然后依照業(yè)務(wù)規(guī)則轉(zhuǎn)換和集成為數(shù)據(jù)倉庫中需要的數(shù)據(jù)格式,最后將轉(zhuǎn)換的結(jié)果裝入數(shù)據(jù)倉庫。2. 數(shù)據(jù)更新ETL過程設(shè)計(jì)。依照規(guī)劃的結(jié)果選擇相應(yīng)的更新策略,設(shè)計(jì)數(shù)據(jù)更新程序。3. 數(shù)據(jù)ETL過程中的錯(cuò)誤恢復(fù)過程設(shè)計(jì)。該過程負(fù)責(zé)對(duì)相應(yīng)的ETL程序在執(zhí)行過程中的錯(cuò)誤進(jìn)行恢復(fù),以保證數(shù)據(jù)倉庫中數(shù)據(jù)的完整性、準(zhǔn)確性。若ETL過程出錯(cuò),則數(shù)據(jù)倉庫中可能差不多存在部分不完整的數(shù)據(jù),需要將這些數(shù)據(jù)刪除,然后再查找錯(cuò)誤的緣故,重新執(zhí)行ETL程序等。4. 登記元數(shù)據(jù)。將關(guān)于ETL過程的元數(shù)據(jù)登記

36、到元數(shù)據(jù)中心庫中,便于進(jìn)行治理。制定單元測(cè)試打算從速度、數(shù)據(jù)質(zhì)量等方面測(cè)試ETL過程是否滿足用戶需求。4.3數(shù)據(jù)歸檔轉(zhuǎn)儲(chǔ)設(shè)計(jì)1. 設(shè)計(jì)數(shù)據(jù)歸檔轉(zhuǎn)儲(chǔ)過程。當(dāng)數(shù)據(jù)倉庫中的數(shù)據(jù)超過了預(yù)定的時(shí)限,或者專門少再被使用,要將它們歸檔到離線存儲(chǔ)中,或者需要將細(xì)節(jié)的數(shù)據(jù)匯總成較粗粒度級(jí)不,而后將細(xì)節(jié)數(shù)據(jù)歸檔2. 設(shè)計(jì)錯(cuò)誤恢復(fù)過程。即設(shè)計(jì)如何樣確定在數(shù)據(jù)歸檔過程中發(fā)生的錯(cuò)誤,以及恢復(fù)或者重啟的過程。3. 登記注冊(cè)元數(shù)據(jù),在元數(shù)據(jù)中心庫中登記關(guān)于數(shù)據(jù)歸檔過程的元數(shù)據(jù)4. 創(chuàng)建單元測(cè)試打算,測(cè)試數(shù)據(jù)歸檔過程是否滿足功能需要。4.4備份與恢復(fù)過程設(shè)計(jì)設(shè)計(jì)備份與恢復(fù)過程中錯(cuò)誤恢復(fù)過程、打算4.5作業(yè)調(diào)度過程設(shè)計(jì)設(shè)計(jì)作業(yè)

37、調(diào)度過程,即確定數(shù)據(jù)倉庫中的過程的時(shí)序,建立一個(gè)次序,同時(shí)計(jì)算出工作的環(huán)境,建立調(diào)度策略和標(biāo)準(zhǔn)文檔設(shè)計(jì)錯(cuò)誤恢復(fù)過程,在作業(yè)調(diào)度過程中發(fā)生的錯(cuò)誤和恢復(fù)或者重啟的過程注冊(cè)元數(shù)據(jù),在元數(shù)據(jù)中心庫中登記關(guān)于作業(yè)調(diào)度過程的元數(shù)據(jù)建立單元測(cè)試打算,以測(cè)試作業(yè)調(diào)度過程是否正確4.6設(shè)計(jì)安全訪問操縱機(jī)制設(shè)計(jì)數(shù)據(jù)安全機(jī)制,依照設(shè)計(jì)講明書設(shè)計(jì)數(shù)據(jù)設(shè)計(jì)數(shù)據(jù)安全機(jī)制,依照設(shè)計(jì)講明書設(shè)計(jì)數(shù)據(jù)倉庫安全性模型注冊(cè)元數(shù)據(jù),在中心庫中登記關(guān)于數(shù)據(jù)訪問操縱的元數(shù)據(jù)創(chuàng)建單元測(cè)試打算,以測(cè)試安全訪問操縱機(jī)制是否正確4.7ETL的質(zhì)量操縱數(shù)據(jù)倉庫中的數(shù)據(jù)是以面向主題的方式組織的,而業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)一般是圍繞著一個(gè)或幾個(gè)業(yè)務(wù)處理流程來

38、組織的,因此,將數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫中抽取并加載到數(shù)據(jù)倉庫就不是簡單的復(fù)制過程,而需要十分復(fù)雜的數(shù)據(jù)處理,即數(shù)據(jù)整合。數(shù)據(jù)整合的工作大致可分為4個(gè)步驟:數(shù)據(jù)抽取(Extract)、數(shù)據(jù)清晰(Cleaning)、數(shù)據(jù)轉(zhuǎn)換(Transformation)、數(shù)據(jù)加載(Loading),即ETCL。在實(shí)際的項(xiàng)目實(shí)施過程中,源數(shù)據(jù)有時(shí)不通過清洗就直接轉(zhuǎn)換加載進(jìn)入數(shù)據(jù)倉庫,如此的數(shù)據(jù)整合就變成了數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)加載,簡稱ETL。通常業(yè)內(nèi)將數(shù)據(jù)整合的工作通稱為ETL.4.8 ETL的質(zhì)量操縱的目標(biāo)ETL質(zhì)量操縱的目標(biāo)是保證ETL程序完成并通過測(cè)試,數(shù)據(jù)裝載進(jìn)入數(shù)據(jù)倉庫并通過數(shù)據(jù)驗(yàn)證與檢查。4.9 ETL

39、的質(zhì)量操縱的方法1. 依據(jù)數(shù)據(jù)源狀態(tài)報(bào)告、需求分析講明書、數(shù)據(jù)倉庫邏輯模型及講明文檔、數(shù)據(jù)倉庫物理模型及講明文檔對(duì)ETL過程中的關(guān)鍵點(diǎn)進(jìn)行跟蹤。2. 以“檢查單”的形式對(duì)跟蹤檢查過程中發(fā)覺的問題進(jìn)行分析,并提出解決方案建議。3. 評(píng)審邏輯模型設(shè)計(jì)時(shí)期所提交的交付文檔,要緊包括:數(shù)據(jù)源數(shù)據(jù)的映射表,ETL系統(tǒng)設(shè)計(jì)講明書,ETL子系統(tǒng)測(cè)試報(bào)告,ETL流程設(shè)計(jì)講明書,ETL調(diào)整維護(hù)講明書,ETL故障錯(cuò)誤恢復(fù)恢復(fù)講明書,ETL數(shù)據(jù)質(zhì)量操縱策略及流程,ETL回溯設(shè)計(jì)講明書,數(shù)據(jù)裝載工作報(bào)告,數(shù)據(jù)裝載狀態(tài)報(bào)告,ETL子系統(tǒng)測(cè)試報(bào)告,ETL用戶手冊(cè),ETL系統(tǒng)備份恢復(fù),ETL程序和源代碼4.10 ETL的要

40、緊任務(wù)包括數(shù)據(jù)源及其特性定義數(shù)據(jù)抽取、轉(zhuǎn)換和加載策略設(shè)計(jì);構(gòu)建和測(cè)試初始加載的程序和處理流程;構(gòu)建和測(cè)試日常加載的程序和處理流程。ETL的設(shè)計(jì)與實(shí)施要緊包括以下幾部分工作:數(shù)據(jù)源的確認(rèn)明確本系統(tǒng)的數(shù)據(jù)獵取來源,包括數(shù)據(jù)源的數(shù)據(jù)存儲(chǔ)格式、數(shù)據(jù)庫類型操作系統(tǒng)平臺(tái)、網(wǎng)絡(luò)狀況以及數(shù)據(jù)源數(shù)據(jù)的更新周期與方式等。源數(shù)據(jù)分析4.11 OLAP與前端的質(zhì)量操縱數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理是決策支持系統(tǒng)的有機(jī)組成部分。數(shù)據(jù)倉庫從分布在公司內(nèi)部各處的OLAP數(shù)據(jù)庫中提取數(shù)據(jù)并對(duì)所提取的數(shù)據(jù)進(jìn)行預(yù)處理,為公司決策分析提供所需的數(shù)據(jù):OLAP則利用存儲(chǔ)在數(shù)據(jù)倉庫中的數(shù)據(jù)完成各種分析操作,并以直觀易明白的形式將分析結(jié)果返回給

41、決策分析人員。4.11.1質(zhì)量操縱的目標(biāo)本時(shí)期質(zhì)量操縱的目標(biāo)為保證OLAP模型的設(shè)計(jì)、加載策略、權(quán)限設(shè)計(jì)以及前端展現(xiàn)設(shè)計(jì)嚴(yán)格滿足需求分析的要求;保證為最終用戶提供共享多維信息的快速分析和及時(shí)數(shù)據(jù)庫查詢,確保OLAP數(shù)據(jù)模型設(shè)計(jì)合理,具有良好的擴(kuò)展能力;OLAP數(shù)據(jù)加載過程正確、高效;前端展現(xiàn)部分嚴(yán)格滿足用戶需求同時(shí)性能優(yōu)越。質(zhì)量操縱方法OLAP質(zhì)量操縱方法要緊是對(duì)以下四個(gè)過程進(jìn)行評(píng)審:OLAP設(shè)計(jì)評(píng)審OLAP開發(fā)評(píng)審OLAP子系統(tǒng)測(cè)試過程及結(jié)果評(píng)審性能優(yōu)化方案及結(jié)果評(píng)審元數(shù)據(jù)治理與系統(tǒng)維護(hù)5.1要緊工具廠商數(shù)據(jù)庫廠商:DB2,Oracle,SUbase,MYSQL,SQLETCL工具廠商:In

42、formatica、Datastage、OWB、微軟DTS、 HYPERLINK /item/Beeload t _blank Beeload、 HYPERLINK /item/Kettle t _blank KettleOLAP工具廠商:Cognos(Powerplay)、Hyperion (Essbase)、微軟(Analysis Service)以及MicroStrategy幾大廠商的產(chǎn)品。前端展示廠商5.2元數(shù)據(jù)治理的質(zhì)量操縱元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),是指與業(yè)務(wù)和技術(shù)過程以及企業(yè)數(shù)據(jù)使用相關(guān)的所有數(shù)據(jù)及包含的知識(shí)信息。元數(shù)據(jù)通過定義數(shù)據(jù)倉庫的內(nèi)容,關(guān)心用戶找到進(jìn)行分析所需的相關(guān)信息。元數(shù)

43、據(jù)治理系統(tǒng),從全然上講,是將分散在數(shù)據(jù)倉庫各個(gè)環(huán)節(jié)的、獨(dú)立的元數(shù)據(jù)統(tǒng)一存儲(chǔ)在元數(shù)據(jù)存儲(chǔ)庫中,并將各個(gè)元數(shù)據(jù)有機(jī)的聯(lián)系在一起,因此,元數(shù)據(jù)治理系統(tǒng)的差不多任務(wù)是實(shí)現(xiàn)數(shù)據(jù)信息的治理即元數(shù)據(jù)的治理。通過元數(shù)據(jù)治理,使分散的數(shù)據(jù)信息成為一個(gè)統(tǒng)一的整體。5.3元數(shù)據(jù)治理的質(zhì)量操縱目標(biāo)元數(shù)據(jù)系統(tǒng)最終將提供對(duì)整個(gè)企業(yè)的元數(shù)據(jù)治理,實(shí)現(xiàn)企業(yè)級(jí)的運(yùn)行環(huán)境視圖。元數(shù)據(jù)治理將以數(shù)據(jù)倉庫數(shù)據(jù)環(huán)境為核心,完成對(duì)相關(guān)業(yè)務(wù)元數(shù)據(jù)及技術(shù)元數(shù)據(jù)的集成及應(yīng)用,提供數(shù)據(jù)路徑、數(shù)據(jù)歸屬信息,并對(duì)業(yè)務(wù)術(shù)語、文檔進(jìn)行集中治理,通過變更報(bào)告、阻礙分析以及業(yè)務(wù)術(shù)語治理等應(yīng)用,保證數(shù)據(jù)的完整性,操縱數(shù)據(jù)質(zhì)量,減少業(yè)務(wù)術(shù)語的歧義,建立業(yè)務(wù)人員之

44、間、技術(shù)人員之間、以及業(yè)務(wù)人員與技術(shù)人員之間的溝通平臺(tái)。5.4元數(shù)據(jù)治理的質(zhì)量操縱方法對(duì)元數(shù)據(jù)系統(tǒng)的質(zhì)量操縱,一般采納事前操縱的方法。所謂事前操縱是指在工作打算時(shí)期或打算前,對(duì)所要開展的工作進(jìn)行充分的咨詢?cè)u(píng)估。通過這種分析評(píng)估對(duì)所要開展的工作進(jìn)行充分的對(duì)比和論證,把相關(guān)的實(shí)施路徑、關(guān)聯(lián)關(guān)系、技術(shù)難點(diǎn)、業(yè)務(wù)范圍都梳理清晰。如此在實(shí)施的時(shí)候就能夠做到脈絡(luò)清晰、有的放矢。5.5元數(shù)據(jù)建設(shè)目標(biāo)元數(shù)據(jù)系統(tǒng)最終將提供對(duì)整個(gè)企業(yè)的元數(shù)據(jù)治理,實(shí)現(xiàn)企業(yè)級(jí)的運(yùn)行環(huán)境視圖。元數(shù)據(jù)治理將以數(shù)據(jù)倉庫數(shù)據(jù)環(huán)境為核心,完成對(duì)相關(guān)業(yè)務(wù)元數(shù)據(jù)及技術(shù)元數(shù)據(jù)的集成及應(yīng)用,提供數(shù)據(jù)路徑、數(shù)據(jù)歸屬信息,并對(duì)業(yè)務(wù)術(shù)語、文檔進(jìn)行集中治理

45、,通過變更報(bào)告、阻礙分析以及業(yè)務(wù)術(shù)語治理等應(yīng)用,保證數(shù)據(jù)的完整性,操縱數(shù)據(jù)質(zhì)量,減少業(yè)務(wù)術(shù)語的歧義,建立業(yè)務(wù)人員之間、技術(shù)人員之間、以及業(yè)務(wù)人員與技術(shù)人員之間的溝通平臺(tái)。(根5.3重復(fù))5.6元數(shù)據(jù)需求情況1. 元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),是指與業(yè)務(wù)和技術(shù)過程以及企業(yè)數(shù)據(jù)使用相關(guān)的所有數(shù)據(jù)及包含的知識(shí)信息。對(duì)本項(xiàng)目而言,元數(shù)據(jù)通過定義數(shù)據(jù)倉庫的內(nèi)容,關(guān)心用戶找到進(jìn)行分析所需的相關(guān)信息。2. 元數(shù)據(jù)存儲(chǔ)庫中含有兩類元數(shù)據(jù):技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)是為企業(yè)技術(shù)用戶和IT職員提供支持的元數(shù)據(jù),而業(yè)務(wù)元數(shù)據(jù)是為企業(yè)業(yè)務(wù)用戶提供支持的元數(shù)據(jù)。這兩類元數(shù)據(jù)之間有著緊密的聯(lián)系,對(duì)數(shù)據(jù)治理用戶來講,不僅

46、需要業(yè)務(wù)及技術(shù)元數(shù)據(jù)的支持,而且還要通過業(yè)務(wù)與技術(shù)元數(shù)據(jù)之間的關(guān)系來提高治理質(zhì)量。3. 元數(shù)據(jù)治理系統(tǒng),從全然上講,是將分散在數(shù)據(jù)倉庫各個(gè)環(huán)節(jié)的、獨(dú)立的元數(shù)據(jù)統(tǒng)一存儲(chǔ)在元數(shù)據(jù)存儲(chǔ)庫中,并將各個(gè)元數(shù)據(jù)有機(jī)的聯(lián)系在一起,因此,元數(shù)據(jù)治理系統(tǒng)的差不多任務(wù)是實(shí)現(xiàn)數(shù)據(jù)信息的治理即元數(shù)據(jù)的治理。通過元數(shù)據(jù)治理,使雜亂無章的數(shù)據(jù)信息成為一個(gè)統(tǒng)一的整體。4. 依照元數(shù)據(jù)的內(nèi)容,用戶的應(yīng)用需求可分為技術(shù)需求和業(yè)務(wù)需求兩個(gè)部分,分不面向技術(shù)用戶、業(yè)務(wù)用戶以及數(shù)據(jù)治理用戶。5.7元數(shù)據(jù)架構(gòu)設(shè)計(jì)1. 元數(shù)據(jù)系統(tǒng)本身是一個(gè)完整的數(shù)據(jù)信息治理系統(tǒng),因此,其體系架構(gòu)的內(nèi)容涵蓋了從需求分析、應(yīng)用設(shè)計(jì)到用戶規(guī)劃的整個(gè)過程,因此

47、,元數(shù)據(jù)治理系統(tǒng)的建設(shè)包括以下五個(gè)步驟:元數(shù)據(jù)需求定義元數(shù)據(jù)治理實(shí)現(xiàn)元數(shù)據(jù)應(yīng)用實(shí)現(xiàn)系統(tǒng)治理定義系統(tǒng)運(yùn)行維護(hù)定義2. 通過五個(gè)步驟的建設(shè),元數(shù)據(jù)系統(tǒng)將包括:元數(shù)據(jù)應(yīng)用模塊、元數(shù)據(jù)治理模塊、元數(shù)據(jù)展現(xiàn)模塊、系統(tǒng)治理模塊、系統(tǒng)運(yùn)行維護(hù)模塊共五大模塊。5.8元數(shù)據(jù)架構(gòu)設(shè)計(jì)(第九節(jié))項(xiàng)目治理是一整套體系,特不是在像數(shù)據(jù)倉庫建設(shè)如此的大型項(xiàng)目中。定位有3個(gè):監(jiān)督、審查和操縱。監(jiān)督:指追蹤項(xiàng)目進(jìn)展情況和狀態(tài)。審查:對(duì)項(xiàng)目的所有時(shí)期性成果,或者里程碑式的成果,包括整個(gè)項(xiàng)目的技術(shù)路線、技術(shù)策略、技術(shù)方法、項(xiàng)目治理的方法與策略等項(xiàng)目有關(guān)的情況做出評(píng)估意見。操縱:分為事前、事中和事后三種:事前操縱是盡量發(fā)覺潛在的風(fēng)

48、險(xiǎn),提早給業(yè)主預(yù)警;事中操縱則是在項(xiàng)目進(jìn)行中發(fā)覺問題后,推動(dòng)問題的解決,并監(jiān)控解決方法;事后操縱是在發(fā)生問題后提供補(bǔ)救建議和措施。5.9項(xiàng)目整體治理的目標(biāo)在數(shù)據(jù)倉庫項(xiàng)目實(shí)施過程中切實(shí)的加強(qiáng)的各類風(fēng)險(xiǎn)操縱和問題跟蹤,切實(shí)的化解了風(fēng)險(xiǎn)、解決了問題并保證了項(xiàng)目整體的質(zhì)量5.11項(xiàng)目整體治理的方法通過建立項(xiàng)目狀態(tài)指標(biāo),對(duì)項(xiàng)目治理各個(gè)方面依照本數(shù)據(jù)倉庫項(xiàng)目的實(shí)際情況定義不同的權(quán)重,以求真實(shí)的反映出各個(gè)時(shí)刻點(diǎn)的項(xiàng)目狀態(tài)進(jìn)度狀態(tài):是否按照打算執(zhí)行,進(jìn)度速度是否適當(dāng)。問題狀態(tài):問題是否嚴(yán)峻到阻礙進(jìn)度,問題是否持續(xù)未解決風(fēng)險(xiǎn)狀態(tài):風(fēng)險(xiǎn)發(fā)生的可能性,發(fā)生后對(duì)項(xiàng)目造成阻礙的程度。質(zhì)量狀態(tài):質(zhì)量操縱的狀態(tài)、整體質(zhì)量狀

49、態(tài)溝通狀態(tài):項(xiàng)目組內(nèi)溝通是否疲勞,工作效率是否低下環(huán)境狀態(tài):設(shè)備是否正常、軟件環(huán)境是否正常、辦公環(huán)境是否正常5.12項(xiàng)目總體治理的質(zhì)量操縱項(xiàng)目治理是一整套體系,特不是像數(shù)據(jù)倉庫建設(shè)如此的大型項(xiàng)目。那個(gè)地點(diǎn)項(xiàng)目治理不再僅僅局限于項(xiàng)目的打算、進(jìn)度、成本、質(zhì)量等方面,而是結(jié)合數(shù)據(jù)倉庫的特點(diǎn)緊密的結(jié)合數(shù)據(jù)倉庫的實(shí)施過程,并在這一過程中切實(shí)的加強(qiáng)各類風(fēng)險(xiǎn)操縱和問題跟蹤,切實(shí)的化解了風(fēng)險(xiǎn)、解決了問題并保證了項(xiàng)目整體的質(zhì)量。5.13項(xiàng)目總體治理的質(zhì)量操縱的目標(biāo)項(xiàng)目總體治理質(zhì)量操縱的目標(biāo)是在數(shù)據(jù)倉庫周期中治理者通過一些列的治理活動(dòng),在一定的時(shí)刻和預(yù)算范圍內(nèi),有效地利用人力、資源、技術(shù)和工具,使數(shù)據(jù)倉庫系統(tǒng)按照

50、預(yù)期的打算和質(zhì)量要求如期完成。5.14項(xiàng)目總體治理的質(zhì)量操縱的方法制定項(xiàng)目打算。在項(xiàng)目啟動(dòng)前,制定項(xiàng)目整體工作打算,為項(xiàng)目的整體工作打算制定依據(jù)確立相關(guān)會(huì)議制度。在項(xiàng)目治理的整個(gè)過程中制定相關(guān)的會(huì)議制度,針對(duì)不同層次的問題和風(fēng)險(xiǎn)實(shí)時(shí)、適度的進(jìn)行會(huì)議討論,保證項(xiàng)目各項(xiàng)工作的質(zhì)量。建立并各類治理指標(biāo),使整個(gè)項(xiàng)目狀態(tài)和治理情況量化并使之成為項(xiàng)目進(jìn)展質(zhì)量的晴雨表和指南針。確定項(xiàng)目治理的執(zhí)行指標(biāo)。項(xiàng)目的治理執(zhí)行指標(biāo)包括治理和執(zhí)行兩大部分,其中治理是指:治理能力體現(xiàn)項(xiàng)目治理方面的能力,以靜態(tài)能力為主,強(qiáng)調(diào)對(duì)關(guān)鍵的活動(dòng)進(jìn)行了治理;執(zhí)行是指:對(duì)各種打算、治理方法等的執(zhí)行能力。通過項(xiàng)目治理執(zhí)行指標(biāo)能夠明確的推斷

51、出項(xiàng)目的質(zhì)量是否進(jìn)行了有效的操縱。5.15項(xiàng)目狀態(tài)指標(biāo)通過建立項(xiàng)目狀態(tài)指標(biāo),對(duì)項(xiàng)目治理各個(gè)方面依照本數(shù)據(jù)倉庫項(xiàng)目的實(shí)際情況定義不同的權(quán)重,以求真是的反映出各個(gè)時(shí)刻點(diǎn)的項(xiàng)目狀態(tài)數(shù)據(jù)倉庫應(yīng)用包含:需求、模型設(shè)計(jì)、ETL、前端應(yīng)用、非結(jié)構(gòu)化、Portal等數(shù)據(jù)倉庫治理包含:元數(shù)據(jù)治理、數(shù)據(jù)倉庫治理、數(shù)據(jù)治理、備份與恢復(fù)等進(jìn)度狀態(tài):是否按照打算執(zhí)行,進(jìn)度速度是否適當(dāng)問題狀態(tài):問題是否嚴(yán)峻到阻礙進(jìn)度,問題是否持續(xù)未解決風(fēng)險(xiǎn)狀態(tài):風(fēng)險(xiǎn)發(fā)生的可能性,發(fā)生后對(duì)項(xiàng)目造成阻礙的程度。質(zhì)量狀態(tài):質(zhì)量操縱的狀態(tài)、整體質(zhì)量狀態(tài)溝通狀態(tài):項(xiàng)目組內(nèi)溝通是否疲勞,工作效率是否低下環(huán)境狀態(tài):設(shè)備是否正常、軟件環(huán)境是否正常、辦公

52、環(huán)境是否正常通過這些指標(biāo)的評(píng)定就能夠得出整個(gè)項(xiàng)目量化的狀態(tài)變化情況6 數(shù)據(jù)挖掘及其應(yīng)用6.1什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘:(實(shí)際上有多重定義)是從大量數(shù)據(jù)中挖掘事先未知而又有應(yīng)用價(jià)值的信息并將其用于決策過程中一個(gè)過程。6.2數(shù)據(jù)挖掘的要緊特點(diǎn)數(shù)據(jù)量大發(fā)覺過去未知、隱藏的信息汲取有價(jià)值信息使用所獲得信息關(guān)心制訂重要商業(yè)決策6.3數(shù)據(jù)挖掘簡單歷史數(shù)據(jù)挖掘的目的是從數(shù)據(jù)庫和數(shù)據(jù)倉庫中提取有價(jià)值的信息并將其用于商業(yè)決策,人們普遍能同意上述的觀點(diǎn),然而在提取信息的方法上觀點(diǎn)卻可能明顯不同。在過去的20多年里,銀行、金融、證券和許多其他行業(yè)一直使用傳統(tǒng)的統(tǒng)計(jì)分析的方法來有效識(shí)不潛在的客戶和治理投資風(fēng)險(xiǎn)。然而,在

53、過去的10多年里,非統(tǒng)計(jì)的方法差不多出現(xiàn)并普遍成為一種衡量人們非統(tǒng)計(jì)的、平均行為的有效方式。這種非平均的行為提供了一個(gè)使用非統(tǒng)計(jì)方法的直覺上基礎(chǔ),這種方法差不多成為數(shù)據(jù)挖掘的要緊方法之一,只是統(tǒng)計(jì)的方法對(duì)許多數(shù)據(jù)挖掘問題仍然是特不有效。依照統(tǒng)計(jì)和非統(tǒng)計(jì)方法之間的不同把數(shù)據(jù)挖掘分為兩種類型:假設(shè)驅(qū)動(dòng)和發(fā)覺驅(qū)動(dòng)的數(shù)據(jù)挖掘。兩者最大的區(qū)不在于提取信息的過程不同。6.4應(yīng)用在查找更為有效的區(qū)不能力中的若干數(shù)據(jù)源征信機(jī)構(gòu)數(shù)據(jù) 行為數(shù)據(jù) 交易數(shù)據(jù) 調(diào)查數(shù)據(jù) 普查數(shù)據(jù)人口統(tǒng)計(jì)數(shù)據(jù) 應(yīng)用數(shù)據(jù) 歷史數(shù)據(jù) 通訊信息 統(tǒng)計(jì)機(jī)構(gòu)數(shù)據(jù)6.5數(shù)據(jù)樣本抽樣抽取的樣本數(shù)據(jù)要足夠的小,小到計(jì)算機(jī)方便處理數(shù)據(jù)樣本足夠大,大到能夠

54、代表整體高質(zhì)量的數(shù)據(jù)6.6決定數(shù)據(jù)收集的因素?cái)?shù)據(jù)挖掘的目標(biāo)現(xiàn)有數(shù)據(jù)庫數(shù)據(jù)結(jié)構(gòu)現(xiàn)有數(shù)據(jù)源使用更多數(shù)據(jù)的成本與效益分析6.7數(shù)據(jù)預(yù)備派生新的屬性(變量)屬性(變量)的轉(zhuǎn)換選擇具有預(yù)估能力的變量6.8派生與轉(zhuǎn)換1. 屬性記錄的最重要的方面能夠概括為:缺失值的處理對(duì)歧義值的處理指標(biāo)性的一些變量的處理2. 缺失值經(jīng)常具有預(yù)估能力同時(shí)信息需要被計(jì)算,例如利用標(biāo)記物3. 數(shù)學(xué)的轉(zhuǎn)換6.9屬性的選擇6.10在銀行中可進(jìn)行的數(shù)據(jù)挖掘主題范例目標(biāo)模型 篩分模型 承保模型 行為模型 拖欠模型 破產(chǎn)模型 交叉銷售模型 客戶分割 損失預(yù)測(cè)模型 流失模型 收益能力分析 基于風(fēng)險(xiǎn)的價(jià)格分析欺詐探測(cè) 洗黑鈔票探測(cè) 新產(chǎn)品開發(fā)

55、6.11在保險(xiǎn)企業(yè)中可進(jìn)行的數(shù)據(jù)挖掘主題范例目標(biāo)模型 交叉銷售模型 客戶分割 損失預(yù)測(cè)模型 流失模型/挽留模型收益能力分析 基于風(fēng)險(xiǎn)的定價(jià)分析/制定利率 分析探測(cè) 索賠分析/索賠估算預(yù)測(cè)實(shí)際估算值 新產(chǎn)品開發(fā) 預(yù)算 資產(chǎn)負(fù)債治理6.12在證券行業(yè)中可進(jìn)行的數(shù)據(jù)挖掘主題范例市場(chǎng)操縱的探測(cè) 內(nèi)部交易的探測(cè) 關(guān)聯(lián)交易賬號(hào)的探測(cè) 市場(chǎng)趨勢(shì)分析機(jī)構(gòu)投資者的交易模式分析 投資者產(chǎn)出分析 批量交易分析 指數(shù)基金分析基金與其他金融產(chǎn)品的關(guān)聯(lián)性分析 上市公司財(cái)務(wù)數(shù)據(jù)與股票價(jià)格關(guān)系分析海外市場(chǎng)與國內(nèi)股票市場(chǎng)相關(guān)性分析 重大事件對(duì)市場(chǎng)的阻礙成員財(cái)務(wù)風(fēng)險(xiǎn)分析 成員交易風(fēng)險(xiǎn)分析 高風(fēng)險(xiǎn)上市公司分析6.13數(shù)據(jù)挖掘在稅務(wù)

56、應(yīng)用框架6.14數(shù)據(jù)挖掘在稅務(wù)應(yīng)用6.15在電信業(yè)要緊應(yīng)用客戶流失分析(Logistic回歸或決策樹)客戶細(xì)分(聚類算法)重入網(wǎng)用戶識(shí)不(消費(fèi)指紋結(jié)合IMEI)交叉銷售(關(guān)聯(lián)規(guī)則、聚類、決策樹等)客戶細(xì)分6.15商業(yè)智能在零售業(yè)應(yīng)用案例6.15在零售業(yè)應(yīng)用主題客戶分析 商品分析 銷售分析 營銷分析 供應(yīng)商分析 門店分析 職員分析6.16任務(wù)時(shí)刻分配6.17數(shù)據(jù)挖掘團(tuán)隊(duì)結(jié)構(gòu)業(yè)務(wù)分析師、數(shù)據(jù)挖掘分析師(數(shù)據(jù)挖掘算法,數(shù)據(jù))、IT專家、用戶6.18 GBICC數(shù)據(jù)挖掘過程模型商業(yè)目標(biāo)定義、數(shù)據(jù)源識(shí)不、數(shù)據(jù)手機(jī)、數(shù)據(jù)質(zhì)量審核(數(shù)據(jù)合法性、合理性)、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、建模(利用工具軟件)、結(jié)果評(píng)估、結(jié)

57、果應(yīng)用、模型監(jiān)控7 數(shù)據(jù)挖掘算法7.1 數(shù)據(jù)挖掘功能、算法及典型應(yīng)用(重要)7.2 分類差異分析邏輯回歸/正態(tài)回歸決策樹神經(jīng)網(wǎng)絡(luò)7.2.1 基于傳統(tǒng)統(tǒng)計(jì)學(xué)理論的判不分析TO classify each record as belonging to one of several well defined classes based on likelihood ratio7.2.2 邏輯回歸7.2.3 正態(tài)回歸7.2.4 決策樹7.2.5 神經(jīng)網(wǎng)絡(luò)誤區(qū)1:誤區(qū)2:神經(jīng)網(wǎng)絡(luò)有專門多關(guān)鍵點(diǎn)神經(jīng)網(wǎng)絡(luò)可分成兩大類7.3 分類segmentation7.3.1 分類的對(duì)象7.3.2 分類目的舉例7.3.3

58、K均值是一種差不多的統(tǒng)計(jì)方法用戶選擇K的數(shù)值7.3.4 K均值的限制7.3.5 人口統(tǒng)計(jì)學(xué)分群挖掘7.3.6 人口統(tǒng)計(jì)學(xué)分群挖掘的工作7.3.7 舉例講明1. 信用卡使用率的例子2.高端品牌店銷售情況,把美國民眾分成25類7.4 值預(yù)估7.4.1 線性回歸7.4.2 非線性回歸7.4.3靜函數(shù)RBF預(yù)估7.5關(guān)聯(lián)分析7.6 聯(lián)合分析其中重要參數(shù)有:支持度(support factor),置信度(Confidence factor),提升度(Lift)7.7 時(shí)刻序列分析7.8如何估算模型的效果的好的呢穩(wěn)定的模型KSGains Chart(從圖上看,神經(jīng)網(wǎng)絡(luò)比較好一些)7.9如何分類哪些最重要?

59、數(shù)據(jù)預(yù)備專門重要,步驟也專門重要8 數(shù)據(jù)庫營銷和數(shù)據(jù)挖掘8.1 客戶關(guān)系治理(CRM): 在合適的時(shí)刻、通過合適的渠道、在合適的價(jià)格內(nèi)、向合適的客戶提供合適的產(chǎn)品8.2 5個(gè)合適代表什么?新產(chǎn)品開發(fā)渠道優(yōu)化價(jià)格確定(風(fēng)險(xiǎn)調(diào)整價(jià)格)銷售與市場(chǎng)時(shí)效性*了解客戶自身的喜好8.3 客戶關(guān)系的核心是通過多方面的數(shù)據(jù)了解客戶,以轉(zhuǎn)變?yōu)橐钥蛻魹橹行男偷钠髽I(yè)聚焦于每個(gè)個(gè)體客戶的需求(客戶級(jí)不而非賬戶級(jí)不)跟蹤企業(yè)與客戶的互動(dòng),并把這些信息應(yīng)用到商業(yè)決策中(通過數(shù)據(jù)及文本挖掘)記錄下來客戶的需求和行為市場(chǎng)活動(dòng)旨在區(qū)分客戶,而非區(qū)分產(chǎn)品商業(yè)智能數(shù)據(jù)倉庫:數(shù)據(jù)集中和數(shù)據(jù)分析數(shù)據(jù)挖掘:利用數(shù)據(jù)挖掘算法的信息汲取過程8

60、.4 舉例:數(shù)據(jù)庫營銷案例-依照客戶喜好理解客戶需求8.4.1客戶喜好能夠從他們的財(cái)務(wù)活動(dòng)及消費(fèi)模式中識(shí)不出來8.4.2 喜好引擎把客戶行為按喜好分層組織喜好層次通常分為五級(jí)最高一級(jí)是特不一般的喜好,像文藝、汽車、購物、金融、家政和運(yùn)動(dòng)等下面各級(jí)逐漸揭示了越來越多的客戶消費(fèi)行為的細(xì)節(jié)對(duì)消費(fèi)行為的這種分層概括,有利于識(shí)不出其隱藏的消費(fèi)喜好這種對(duì)客戶喜好的分析能夠指導(dǎo)市場(chǎng)營銷,使?fàn)I銷活動(dòng)得到有效的響應(yīng)和最高的收益。8.4.3 喜好引擎關(guān)心銀行把每個(gè)客戶信息概括成具可操作性的客戶行為定位看下面的圖,逐漸細(xì)分level158.5交叉銷售的關(guān)聯(lián)分析8.5.1 對(duì)象8.5.2商業(yè)問題如何加深我們與客戶的關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論