



版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精品文檔大數據技術部建設數據倉庫的八個步驟2017年 04月 25日 編制精品文檔精品文檔建設數據倉庫的八個步驟摘要 :建立數據倉庫是一個解決企業(yè)問題的過程,業(yè)務人員往往不懂如何建立和使用數據倉庫,發(fā)揮其決策支持的作用 ;信息部門的人員往往又不懂業(yè)務,不知道應該建立哪些決策主題。關鍵詞 :數據倉庫元數據建設數據倉庫建立 數據倉庫 是一個解決企業(yè)問題的過程,業(yè)務人員往往不懂如何建立和使用數據倉庫 ,發(fā)揮其決策支持的作用;信息部門的人員往往又不懂業(yè)務,不知道應該建立哪些決策主題,從數據源中抽取哪些數據。 因此 數據倉庫 的項目小組應該由業(yè)務人員和信息部門的人員共同組成,雙方需要相互溝通,協作開發(fā)數
2、據倉庫 。開發(fā) 數據倉庫 的過程包括以下幾個步驟。1.系統(tǒng)分析,確定主題建立 數據倉庫 的第一個步驟就是通過與業(yè)務部門的充分交流,了解建立數據倉庫 所要解決的問題的真正含義,確定各個主題下的查詢分析要求。業(yè)務人員往往會羅列出很多想解決的問題,信息部門的人員應該對這些問題進行分類匯總,確定數據倉庫 所實現的業(yè)務功能。 一旦確定問題以后,信息部門的人員還需要確定一下幾個因素:·操作出現的頻率,即業(yè)務部門每隔多長時間做一次查詢分析。·在系統(tǒng)中需要保存多久的數據,是一年、兩年還是五年、十年。·用戶查詢數據的主要方式,如在時間維度上是按照自然年,還是財政年。·用戶
3、所能接受的響應時間是多長、是幾秒鐘,還是幾小時。精品文檔精品文檔由于雙方在理解上的差異,確定問題和了解問題可能是一個需要多次往復的過程,信息部門的人員可能需要做一些原型演示給業(yè)務部門的人員看, 以最終確定系統(tǒng)將要實現的功能確實是業(yè)務部門所需要的。2.選擇滿足數據倉庫系統(tǒng)要求的軟件平臺在數據倉庫 所要解決的問題確定后,第二個步驟就是選擇合適的軟件平臺,包括數據庫、建模工具、分析工具等。 這里有許多因素要考慮, 如系統(tǒng)對數據量、 響應時間、 分析功能的要求等,以下是一些公認的選擇標準:·廠商的背景和支持能力,能否提供全方位的技術支持和咨詢服務。·數據庫對大數據量(TB 級)的支
4、持能力。·數據庫是否支持并行操作。·能否提供 數據倉庫 的建模工具,是否支持對元數據 的管理。·能否提供支持大數據量的數據加載、轉換、傳輸工具(ETT )。·能否提供完整的決策支持工具集,滿足數據倉庫 中各類用戶的需要。3.建立數據倉庫的邏輯模型具體步驟如下:( 1)確定建立 數據倉庫 邏輯模型的基本方法。( 2)基于主題視圖,把主題視圖中的數據定義轉到邏輯數據模型中。( 3)識別主題之間的關系。精品文檔精品文檔( 4)分解多對多的關系。( 5)用范式理論檢驗邏輯數據模型。( 6)由用戶審核邏輯數據模型。4.邏輯數據模型轉化為數據倉庫數據模型具體步驟如下
5、:( 1)刪除非戰(zhàn)略性數據: 數據倉庫 模型中不需要包含邏輯數據模型中的全部數據項,某些用于操作處理的數據項要刪除。( 2)增加時間主鍵: 數據倉庫 中的數據一定是時間的快照,因此必須增加時間主鍵。( 3)增加派生數據: 對于用戶經常需要分析的數據,或者為了提高性能, 可以增加派生數據。( 4)加入不同級別粒度的匯總數據:數據粒度代表數據細化程度,粒度越大,數據的匯總程度越高。粒度是數據倉庫 設計的一個重要因素,它直接影響到駐留在數據倉庫 中的數據量和可以執(zhí)行的查詢類型。顯然,粒度級別越低,則支持的查詢越多;反之,能支持的查詢就有限。對數據操作的效率與能得到數據的詳細程度是一對矛盾,通常,人們
6、希望建成的系統(tǒng)既有較高的效率, 又能得到所需的詳細資料。 實施 數據倉庫 的一個重要原則就是不要試圖包括所有詳細數據,因為 90% 的分析需求是在匯總數據上進行的。試圖將粒度細化到最低層,只會增加系統(tǒng)的開銷,降低系統(tǒng)的性能。5.數據倉庫數據模型優(yōu)化數據倉庫 設計時,性能是一項主要考慮因素。在數據倉庫 建成后,也需要經常對其性能進行監(jiān)控,并隨著需求和數據量的變更進行調整。優(yōu)化 數據倉庫 設計的主要方法是:精品文檔精品文檔·合并不同的數據表。·通過增加匯總表避免數據的動態(tài)匯總。·通過冗余字段減少表連接的數量,不要超過35 個。·用 ID 代碼而不是描述信息作
7、為鍵值。·對數據表做分區(qū)。6.數據清洗轉換和傳輸由于業(yè)務系統(tǒng)所使用的軟硬件平臺不同,編碼方法不同,業(yè)務系統(tǒng)中的數據在加載到數據倉庫之前,必須進行數據的清洗和轉換,保證數據倉庫 中數據的一致性。在設計 數據倉庫 的數據加載方案時,必須考慮以下幾項要求:·加載方案必須能夠支持訪問不同的數據庫和文件系統(tǒng)。·數據的清洗、轉換和傳輸必須滿足時間要求,能夠在規(guī)定的時間范圍內完成。·支持各種轉換方法,各種轉換方法可以構成一個工作流。·支持增量加載,只把自上一次加載以來變化的數據加載到數據倉庫 。7.開發(fā)數據倉庫的分析應用建立 數據倉庫 的最終目的是為業(yè)務部門
8、提供決策支持能力,必須為業(yè)務部門選擇合適的工具實現其對 數據倉庫 中的數據進行分析的要求。信息部門所選擇的開發(fā)工具必須能夠:精品文檔精品文檔·滿足用戶的全部分析功能要求。數據倉庫 中的用戶包括了企業(yè)中各個業(yè)務部門,他們的業(yè)務不同,要求的分析功能也不同。 如有的用戶只是簡單的分析報表, 有些用戶則要求做預測和趨勢分析。·提供靈活的表現方式。分析的結果必須能夠以直觀、靈活的方式表現,支持復雜的圖表。使用方式上,可以是客戶機 / 服務器方式,也可以是瀏覽器方式。事實上,沒有一種工具能夠滿足數據倉庫 的全部分析功能需求,一個完整的數據倉庫 系統(tǒng)的功能可能是由多種工具來實現,因此必須
9、考慮多個工具之間的接口和集成性問題,對于用戶來說,希望看到的是一致的界面。8.數據倉庫的管理只重視 數據倉庫 的建立,而忽視 數據倉庫 的管理必然導致 數據倉庫 項目的失敗。 數據倉庫 管理主要包括數據庫管理和 元數據 管理。數據庫管理需要考以下幾個方面:·安全性管理。 數據倉庫 中的用戶只能訪問到他的授權范圍內的數據,數據在傳輸過程中的加密策略。·數據倉庫 的備份和恢復。數據倉庫 的大小和備份的頻率直接影響到備份策略。·如何保證 數據倉庫 系統(tǒng)的可用性,硬件還是軟件方法。·數據老化。設計 數據倉庫 中數據的存放時間周期和對過期數據的老化方法,如歷史數據
10、只保存匯總數據,當年數據保存詳細記錄。然而, 元數據 管理貫穿于整個系統(tǒng)的建設過程中,元數據 是描述數據的數據。在數據采集階段,元數據 主要包括下列信息:·源數據的描述定義:類型、位置、結構。精品文檔精品文檔·數據轉換規(guī)則:編碼規(guī)則、行業(yè)標準。·目標 數據倉庫 的模型描述:星型/雪花模型定義,維/事實結構定義。·源數據到目標數據倉庫 的映射關系:函數/表達式定義。·代碼:生成轉換程序、自動加載程序等。在數據管理階段,元數據 主要包括下列信息:·匯總數據的描述:匯總/聚合層次、物化視圖結構定義。·歷史數據存儲規(guī)則:位置、存儲粒
11、度。·多維數據結構描述:立方體定義、維結構、度量值、鉆取層次定義等。在數據展現階段,元數據 主要包括以下信息:·報表的描述:報表結構的定義。·統(tǒng)計函數的描述:各類統(tǒng)計分析函數的定義。·結果輸出的描述:圖、表輸出的定義。元數據 不但是獨立存放,而且對用戶是透明的,標準元數據 之間可以互相轉換。精品文檔精品文檔1、培訓目的1.1改善部門各級各類員工的知識結構、提升員工的綜合素質,提高員工的工作技能、 工作態(tài)度和行為模式, 滿足部門的快速發(fā)展需要,更好的完成部門的各項工作計劃與工作目標。1.2、加強部門各級各類員工職業(yè)素養(yǎng)與敬業(yè)精神,增強員工服務意識與服務水平
12、,打造高績效團隊,減少工作失誤,提高客戶滿意度,提高工作效率。1.3提升部門凝聚力、吸引力、向心力和戰(zhàn)斗力,為部門進一步發(fā)展儲備相關人才。1.4鍛煉員工的學習表達能力。1.5完善部門各項培訓制度、培訓流程以及建立系統(tǒng)的培訓體系,實現各項培訓工作順利、有效實施。2、培訓原則2.1 以部門戰(zhàn)略與員工需求為主線。2.2 以素質提升與能力培養(yǎng)為核心。2.3 以針對性、實用性、價值型為重點。2.4 以項目式培訓和持續(xù)性培訓相互穿插進行。2.5 堅持理論與實踐相結合、學習與總結相結合。2.6 堅持部門內部培訓為重點、內訓與外訓相結合。2.7 堅持學歷性教育培訓和崗位培訓相結合。2.8 實現由點、線式培訓到
13、全面系統(tǒng)性培訓轉變。精品文檔精品文檔3、培訓的實施3.1 培訓內容的決定部門所有成員對自己要培訓的需求提出建議,相關負責人收集并統(tǒng)計,根據統(tǒng)計結果, 按需求量較大或需求的緊迫性來決定培訓的內容。3.2培訓方式分為正式培訓和技術交流。正式培訓需要講師準備PPT、有關課件,利用投影等設備進行講授,并進行培訓效果考核和學員成績考查。技術交流可不準備課件,直接采用即興口頭演講的方式進行。3.3 培訓時間根據學習要求,不定期進行有關主題內容的培訓。3.4講師安排講師實行報名制。 根據部門發(fā)布的員工培訓需求統(tǒng)計結果,選擇自己熟悉或感興趣的培訓科目報名。部門經理根據報名情況決定講師人選。3.4培訓效果評估3
14、.4.1培訓后,參與人員對培訓的講師、培訓的內容、總體效果等做出評價。3.4.2 講師準備 10 個以內的培訓內容相關的試題, 受訓者根據培訓內容來做答, 經講師批閱后整理到員工培訓考核成績表, 并把成績表交由部門經理審閱,最后相關負責人存入個人培訓檔案。3.5獎懲方式對于正式培訓,培訓完后,參與培訓人員給講師打分,根據打分精品文檔精品文檔情況給予講師 0、1、2、3 分積分。對于技術交流,根據培訓內容和效果,給予所有主要參與者0,1,2分不等的積分。參加培訓者考核合格后給予0.5 、1 分不等積分。年終累計積分,根據積分情況給予獎勵。對于年終參加培訓積分不足年度部門總培訓積分的80%者,給予
15、一定的懲罰。4、培訓材料4.1 員工培訓簽到表4.2 講師應提前準備好培訓的PPT,如果培訓項目開發(fā)知識應準備好實例。4.3 培訓內容相關的試題4.4內部培訓效果評估表4.5 員工培訓考核成績表5、相關附件精品文檔精品文檔附件一員工培訓簽到表培訓內容培訓時間培訓講師培訓地點培訓方式考核方式應到人數實到人數缺席人數出勤率序出席時間離席時間備注序出席時間離席時間備注號姓 名姓 名(HH:MM)號1.12.3.24.5.36.7.48.9.510.11.612.13.114.15.216.17.318.19.420.21.522.23.624.25.126.27.228.29.330.31.432.
16、33.534.35.636.37.138.39.240.41.342.43.444.45.546.精品文檔精品文檔47.648.49.50.評估項目好一般差課堂紀律培訓總評學習態(tài)度講師表達課堂氛圍評估人 / 日期精品文檔精品文檔附件二員工培訓考核成績表培訓內容培訓時間培訓講師培訓地點培訓方式考核方式序號姓名理論得分應用得分序號姓名理論得分應用得分1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.35.36.37.38.39.40.41.42.43.44.45.
17、46.精品文檔精品文檔47.48.49.50.51.52.說明:員工入職培訓考核分為書面考核( 70%)與應用考核( 30%)兩部分;考核標準為: 60 分以下為不合格, 60-700 分為合格, 70-80 分為一般, 80-90 分為良, 90 分以上為優(yōu)。精品文檔精品文檔附件三內部培訓效果評估表部門:_ _姓名 :_培訓內容 :_培訓時間 :_請就下面每一項進行評價,并請在相對應的分數上打“”:課程內容很差差一般好很好優(yōu)秀1.課程目標是否符合我的工作和個人發(fā)展需要56789102.課程知識是否深度適中、易于理解56789103.課程內容是否切合實際、便于應用5678910培 訓 師4.培訓師表達是否清楚、態(tài)度友善56789105.培訓師對培訓內容是否有獨特精辟見解56789106.培訓師是否鼓勵學員參與,現場氣氛很好56789107.培訓師對學員提問是否所作出的回答與指導5678910培訓收獲8.獲得了適用的新知識和新理念5678910
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 草原草原生態(tài)補償金分配與使用考核試卷
- 林業(yè)防火機械裝備與應用考核試卷
- 探秘六年級模板
- 四年級學生成長解析
- 南京中醫(yī)藥大學《JAVA面向對象編程》2023-2024學年第二學期期末試卷
- 南京旅游職業(yè)學院《俄羅斯歷史》2023-2024學年第二學期期末試卷
- 江蘇省泰興市濟川中學2024-2025學年初三下學期5月練習數學試題含解析
- 吉林省長春市三中2025屆4月高三學業(yè)水平考試生物試題試卷含解析
- 山東省諸城市龍源學校2024-2025學年中考化學試題沖刺試卷含解析
- 洛陽理工學院《生物材料研究的基礎、前沿與應用》2023-2024學年第二學期期末試卷
- 小學奧數:乘法原理之染色法.專項練習及答案解析
- 西藏林芝地區(qū)地質災害防治規(guī)劃
- 入團志愿書樣本(空白)
- 老年人燙傷的預防與護理課件
- 部編版小學道德與法治六年級下冊《各不相同的生活環(huán)境》課件
- 國內外經濟形勢和宏觀經濟政策展望課件
- 國家文化安全
- 我的家鄉(xiāng)臨海課品課件
- 基礎會計教材電子版
- 臨床科室醫(yī)院感染風險評估檢查表
- 人文與社會五年級上教案知識講解
評論
0/150
提交評論