版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、中國移動集團重點中國移動集團重點/ /聯(lián)合研發(fā)項目聯(lián)合研發(fā)項目 結(jié)題匯報報告結(jié)題匯報報告 項目名稱:基于項目名稱:基于big cloud的經(jīng)分系統(tǒng)應用試驗與落地的經(jīng)分系統(tǒng)應用試驗與落地 項目編號:項目編號: 第2頁 開題計劃完成情況開題計劃完成情況 目目 錄錄 二、主要研究成果(整合后)二、主要研究成果(整合后) 三、三、20112011年工作展望年工作展望 第3頁 1.1 1.1 項目研究背景及意義項目研究背景及意義 運維運維 信息渠道信息渠道 擴展性擴展性 成本投入成本投入 穩(wěn)定性穩(wěn)定性 p傳統(tǒng)傳統(tǒng)unixunix小型機小型機+ +數(shù)數(shù) 據(jù)庫的架構(gòu)也可提供據(jù)庫的架構(gòu)也可提供 一定的擴展性,
2、但軟一定的擴展性,但軟 件和硬件在并行度大件和硬件在并行度大 的時候都會出現(xiàn)效率的時候都會出現(xiàn)效率 上的衰減。上的衰減。 p分庫的方案被越來分庫的方案被越來 越多采用,給數(shù)據(jù)共越多采用,給數(shù)據(jù)共 享、互通、運維帶來享、互通、運維帶來 一定復雜度一定復雜度 p經(jīng)分屬于資源密經(jīng)分屬于資源密 集型系統(tǒng),對存儲集型系統(tǒng),對存儲 和計算資源的需求和計算資源的需求 量很大,目前約有量很大,目前約有 62%62%的投入用于硬件的投入用于硬件 投資投資 p擠壓了原本應用擠壓了原本應用 于應用開發(fā)、咨詢于應用開發(fā)、咨詢 部分的費用部分的費用 p市場經(jīng)營、企業(yè)管理和一市場經(jīng)營、企業(yè)管理和一 線支持都越來越離不開經(jīng)
3、分線支持都越來越離不開經(jīng)分 及時性的保障。及時性的保障。 p目前數(shù)據(jù)備份、恢復、容目前數(shù)據(jù)備份、恢復、容 災等值得進一步探討災等值得進一步探討 p經(jīng)營分析相關信息大部經(jīng)營分析相關信息大部 分來自企業(yè)內(nèi)部,而隨著分來自企業(yè)內(nèi)部,而隨著 互聯(lián)網(wǎng)發(fā)展,互聯(lián)網(wǎng)成為互聯(lián)網(wǎng)發(fā)展,互聯(lián)網(wǎng)成為 世界最大的信息庫世界最大的信息庫 p信息獲取渠道相對匱乏信息獲取渠道相對匱乏 p數(shù)據(jù)倉庫、數(shù)據(jù)倉庫、etletl主主 機、數(shù)據(jù)集市等在機、數(shù)據(jù)集市等在 硬件、軟件平臺和硬件、軟件平臺和 應用運維方面存在應用運維方面存在 多套系統(tǒng)和平臺多套系統(tǒng)和平臺 p通過一套軟件系通過一套軟件系 統(tǒng)或平臺來維護,統(tǒng)或平臺來維護, 加入
4、動態(tài)適配和調(diào)加入動態(tài)適配和調(diào) 整,增強伸縮性整,增強伸縮性 第4頁 1.2 1.2 項目研究目標項目研究目標 充分利用云計算充分利用云計算“低硬件成本,高綜合利低硬件成本,高綜合利 用率,可擴展性強,高可靠性用率,可擴展性強,高可靠性”的特點,的特點, 優(yōu)化經(jīng)分現(xiàn)有技術架構(gòu)和管理模式,為經(jīng)優(yōu)化經(jīng)分現(xiàn)有技術架構(gòu)和管理模式,為經(jīng) 營分析系統(tǒng)的營分析系統(tǒng)的it基礎平臺構(gòu)建提供理論及技基礎平臺構(gòu)建提供理論及技 術的支撐術的支撐 探索探索paas/saas等模式,研究在設備虛等模式,研究在設備虛 擬化管理、集成化開發(fā)平臺和在線軟件使擬化管理、集成化開發(fā)平臺和在線軟件使 用等方面的應用,為一經(jīng)、南方基地等
5、建用等方面的應用,為一經(jīng)、南方基地等建 設及試點項目提供基礎設及試點項目提供基礎 云計算技術帶來的優(yōu)勢云計算技術帶來的優(yōu)勢 集中部署,提供共享集中部署,提供共享 服務服務 集中部署服務,運維簡集中部署服務,運維簡 便;給多省公司提供服便;給多省公司提供服 務提供及共享服務能力務提供及共享服務能力 低成本、高性能低成本、高性能 基于廉價的工業(yè)基于廉價的工業(yè)pc、虛、虛 擬化層及開源平臺形成擬化層及開源平臺形成 ;具備海量數(shù)據(jù)存儲、;具備海量數(shù)據(jù)存儲、 處理、分析能力處理、分析能力 高擴展性高擴展性 隨著節(jié)點數(shù)量增多,對隨著節(jié)點數(shù)量增多,對 數(shù)據(jù)處理的性能提升可數(shù)據(jù)處理的性能提升可 達線性達線性,
6、利舊能力強,利舊能力強, 擴容投入低擴容投入低 自主研發(fā)自主研發(fā) 自主研發(fā)基于自主研發(fā)基于bigcloudbigcloud 平臺,提供平臺,提供s/paass/paas支持支持 ,平臺及應用均可定制,平臺及應用均可定制 , 支持第三方集成支持第三方集成 獲取層獲取層 應用層應用層 數(shù)據(jù)層數(shù)據(jù)層 訪問層訪問層 結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù) 轉(zhuǎn)換轉(zhuǎn)換etletl 數(shù)據(jù)挖掘數(shù)據(jù)挖掘 云存儲云存儲 網(wǎng)頁分類網(wǎng)頁分類 互聯(lián)網(wǎng)互聯(lián)網(wǎng) 信息收集信息收集 應用搜索應用搜索 云數(shù)據(jù)庫云數(shù)據(jù)庫 前端展現(xiàn)前端展現(xiàn) 應用服務應用服務 數(shù)據(jù)封裝數(shù)據(jù)封裝云備份云備份 經(jīng)分系統(tǒng)架構(gòu)經(jīng)分系統(tǒng)架構(gòu) 數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)倉庫數(shù)據(jù)倉庫 本
7、項目本項目 探索探索的的 應用領應用領 域域 經(jīng)分云經(jīng)分云 規(guī)劃規(guī)劃 第5頁 1.3 1.3 項目研究內(nèi)容項目研究內(nèi)容 逐步承擔數(shù)據(jù)集市、數(shù)據(jù)倉庫的逐步承擔數(shù)據(jù)集市、數(shù)據(jù)倉庫的etl操作,減少數(shù)據(jù)庫內(nèi)轉(zhuǎn)換操作,減少數(shù)據(jù)庫內(nèi)轉(zhuǎn)換 替代低端磁盤陣列和磁帶庫等設備,承擔近線、離線數(shù)據(jù)存取替代低端磁盤陣列和磁帶庫等設備,承擔近線、離線數(shù)據(jù)存取 經(jīng)營分析系統(tǒng)引入云存儲技術的研究及實現(xiàn)經(jīng)營分析系統(tǒng)引入云存儲技術的研究及實現(xiàn) 基于云計算平臺的數(shù)據(jù)挖掘工具優(yōu)化及應用評估基于云計算平臺的數(shù)據(jù)挖掘工具優(yōu)化及應用評估 河北公司河北公司 基于云計算的經(jīng)分基于云計算的經(jīng)分etl 數(shù)據(jù)處理研究及實驗數(shù)據(jù)處理研究及實驗 河
8、南公司河南公司 經(jīng)分系統(tǒng)中云計算技術經(jīng)分系統(tǒng)中云計算技術 的拓展研究和應用的拓展研究和應用 湖北公司湖北公司 基于云計算的數(shù)據(jù)挖掘基于云計算的數(shù)據(jù)挖掘 應用應用 業(yè)支部業(yè)支部/研究院研究院 云計算應用試驗與落地云計算應用試驗與落地 業(yè)支部委托,研究院負責業(yè)支部委托,研究院負責big cloud 產(chǎn)品研發(fā);產(chǎn)品研發(fā); 探索云計算在經(jīng)分系統(tǒng)中各領域應用探索云計算在經(jīng)分系統(tǒng)中各領域應用 基于云計算平臺的經(jīng)營分析系統(tǒng)基于云計算平臺的經(jīng)營分析系統(tǒng)etl數(shù)據(jù)處理研究(第二階段)數(shù)據(jù)處理研究(第二階段) 探討基于云計算的數(shù)據(jù)挖掘探討基于云計算的數(shù)據(jù)挖掘工具工具支持經(jīng)分挖掘主題的能力支持經(jīng)分挖掘主題的能力 1
9、 2 3 4 5 6 7 bc- one st bc- etl 產(chǎn)品研發(fā)產(chǎn)品研發(fā)應用試點與落地應用試點與落地 bc- pdm 已向技術部申請項目調(diào)整,將子課題已向技術部申請項目調(diào)整,將子課題云數(shù)據(jù)庫中云數(shù)據(jù)庫中sql實現(xiàn)機制研究實現(xiàn)機制研究刪除刪除 第6頁 1.3 1.3 項目研究內(nèi)容項目研究內(nèi)容- -產(chǎn)品研發(fā)產(chǎn)品研發(fā) bc-etlbc-pdm 基于環(huán)的可橫向擴展的數(shù)據(jù)冗基于環(huán)的可橫向擴展的數(shù)據(jù)冗 余調(diào)度策略余調(diào)度策略 多種訪問接口,如多種訪問接口,如soap/rest 、ftp、http、原生對象訪問、原生對象訪問 接口、標準文件系統(tǒng)接口支持接口、標準文件系統(tǒng)接口支持 etl新增:中文半字清
10、洗;新增:中文半字清洗; 去極值、因子分析等去極值、因子分析等 數(shù)據(jù)探索新增:單變量分析數(shù)據(jù)探索新增:單變量分析 、多變量分析等、多變量分析等 對對sql腳本的支持腳本的支持 算法新增:屬性選擇、回歸算法新增:屬性選擇、回歸 樹、樹、cart決策樹、決策樹、chaid決決 策樹、社會關系網(wǎng)絡算法策樹、社會關系網(wǎng)絡算法 支持支持pmml標準標準 產(chǎn)品研發(fā)產(chǎn)品研發(fā) bc-onest 第7頁 1.3 1.3 項目研究內(nèi)容項目研究內(nèi)容- -應用試點與落地應用試點與落地 湖北公司湖北公司 河南公司河南公司 河北公司河北公司 基于基于bc-pdmbc-pdm的云挖掘經(jīng)的云挖掘經(jīng) 營分析應用研究;營分析應用
11、研究; 基于基于bc-pdmbc-pdm研究可移植研究可移植 的用戶特征挖掘分析及應用的用戶特征挖掘分析及應用 方法和營銷流程支持;方法和營銷流程支持; 基于基于bc-pdmbc-pdm研究網(wǎng)絡信研究網(wǎng)絡信 令分析實時性和時效性內(nèi)容令分析實時性和時效性內(nèi)容 及其對實時營銷的支撐。及其對實時營銷的支撐。 云計算基礎平臺實驗研究,云計算基礎平臺實驗研究, 包括經(jīng)分系統(tǒng)的云存儲、分包括經(jīng)分系統(tǒng)的云存儲、分 布式數(shù)據(jù)庫等實驗評估;布式數(shù)據(jù)庫等實驗評估; 數(shù)據(jù)集市的云化探索。數(shù)據(jù)集市的云化探索。 探討數(shù)據(jù)集市及探討數(shù)據(jù)集市及etletl特征,基于云計算實現(xiàn)數(shù)據(jù)集市的特征,基于云計算實現(xiàn)數(shù)據(jù)集市的etle
12、tl操作,并進行試驗對比操作,并進行試驗對比 評估評估; 探討探討bc-etlbc-etl對數(shù)據(jù)集市及數(shù)據(jù)對數(shù)據(jù)集市及數(shù)據(jù)etletl的支撐能力,進行實驗對比評估的支撐能力,進行實驗對比評估; 研究研究bc-etlbc-etl系統(tǒng)與現(xiàn)有加載工具、數(shù)據(jù)倉庫的集成與交互系統(tǒng)與現(xiàn)有加載工具、數(shù)據(jù)倉庫的集成與交互。 第8頁 1.4 1.4 研究總體框架研究總體框架 經(jīng)分系統(tǒng)應用試驗經(jīng)分系統(tǒng)應用試驗 河北公司河北公司經(jīng)分經(jīng)分etl數(shù)據(jù)處理研究及實驗數(shù)據(jù)處理研究及實驗 湖北公司基于云計算的挖掘主題應用主題湖北公司基于云計算的挖掘主題應用主題 河南公司經(jīng)分云存儲及數(shù)據(jù)集市的云化河南公司經(jīng)分云存儲及數(shù)據(jù)集市的
13、云化 數(shù)據(jù)挖掘工具庫:挖掘應用的算法工具數(shù)據(jù)挖掘工具庫:挖掘應用的算法工具 數(shù)據(jù)處理工具庫:數(shù)據(jù)處理工具庫:etl數(shù)據(jù)處理工具數(shù)據(jù)處理工具 對象存儲系統(tǒng):云存儲工具對象存儲系統(tǒng):云存儲工具 mapreduce:mapreduce并行程序框架并行程序框架 hyperdfs:海量數(shù)據(jù)的分布式文件系統(tǒng):海量數(shù)據(jù)的分布式文件系統(tǒng) cloudmaster: 云計算平臺系統(tǒng)管理云計算平臺系統(tǒng)管理 系統(tǒng)管理系統(tǒng)管理 cloudmaster 海量數(shù)據(jù)分布式文件系統(tǒng)海量數(shù)據(jù)分布式文件系統(tǒng) hyperdfs 河南公司河南公司 云存儲試點云存儲試點 數(shù)據(jù)處理工具庫數(shù)據(jù)處理工具庫 bc-etl 并行程序設計和開發(fā)環(huán)境
14、并行程序設計和開發(fā)環(huán)境 mapreduce 湖北公司湖北公司 數(shù)據(jù)挖掘試驗數(shù)據(jù)挖掘試驗 河北公司河北公司 etl試驗試驗 “大云大云”平臺層平臺層 河南公司河南公司 云存儲試驗云存儲試驗 數(shù)據(jù)挖掘工具庫數(shù)據(jù)挖掘工具庫 bc-pdm 對象存儲系統(tǒng)對象存儲系統(tǒng) bc-onest 第9頁 1.6 1.6 項目研究實施情況項目研究實施情況 2010年年5月月2010年年7月月2010年年9月月 2010年年12月月2010年年11月月 基于基于big cloudbig cloud 的經(jīng)分系統(tǒng)應的經(jīng)分系統(tǒng)應 用試驗與落地用試驗與落地 需求調(diào)研、培訓需求調(diào)研、培訓 評審、結(jié)題評審、結(jié)題 應用試驗總結(jié)、結(jié)題
15、應用試驗總結(jié)、結(jié)題 bigcloudbigcloud平臺研發(fā)平臺研發(fā) 應用平臺部署應用平臺部署 明確現(xiàn)網(wǎng)需求明確現(xiàn)網(wǎng)需求 應用平臺部署應用平臺部署 應用系統(tǒng)開發(fā)應用系統(tǒng)開發(fā) 應用試驗應用試驗 應用試驗評估應用試驗評估 應用試驗支撐應用試驗支撐 項目準備階段項目準備階段項目實施階段項目實施階段后期相關工作后期相關工作 業(yè)支業(yè)支/ / 研究院研究院 河北河北 湖北湖北 河南河南 該課題,在河北公司、湖北公司和河南公司的共同努力下,按計劃完成了課題中包含 的研究內(nèi)容,輸出的研究成果也達到了該聯(lián)合項目“開題報告”中的具體要求和目標。 第10頁 1.7 1.7 項目總體成果輸出項目總體成果輸出 基于云計
16、算的經(jīng)分系統(tǒng)基于云計算的經(jīng)分系統(tǒng)etl工具的工具的可行性分析可行性分析及及技術方案技術方案(河北、(河北、 業(yè)支業(yè)支/研究院)研究院) 基于云計算的經(jīng)分系統(tǒng)數(shù)據(jù)挖掘應用主題技術方案(湖北、業(yè)支基于云計算的經(jīng)分系統(tǒng)數(shù)據(jù)挖掘應用主題技術方案(湖北、業(yè)支/ 研究院)研究院) 經(jīng)分系統(tǒng)云存儲備份系統(tǒng)技術方案(河南、業(yè)支經(jīng)分系統(tǒng)云存儲備份系統(tǒng)技術方案(河南、業(yè)支/研究院)研究院) 其他文檔:測試用例、測試報告、使用說明等(河北、湖北、河南其他文檔:測試用例、測試報告、使用說明等(河北、湖北、河南 、業(yè)支、業(yè)支/研究院)研究院) 經(jīng)分系統(tǒng)并行經(jīng)分系統(tǒng)并行etl工具庫應用實驗(河北、業(yè)支工具庫應用實驗(河北
17、、業(yè)支/研究院)研究院) 數(shù)據(jù)挖掘應用主題實驗(湖北、業(yè)支數(shù)據(jù)挖掘應用主題實驗(湖北、業(yè)支/研究院)研究院) 云存儲備份系統(tǒng)應用試驗(河南、業(yè)支云存儲備份系統(tǒng)應用試驗(河南、業(yè)支/研究院)研究院) 基于基于big cloud的并行數(shù)據(jù)處理工具的并行數(shù)據(jù)處理工具bc-etl(研究院)(研究院) 基于基于big cloud的并行數(shù)據(jù)挖掘工具的并行數(shù)據(jù)挖掘工具bc-pdm(研究院)(研究院) 基于基于big cloud的云存儲系統(tǒng)的云存儲系統(tǒng)bc-onest(研究院)(研究院) 數(shù)據(jù)處理方法、裝置及系統(tǒng)(業(yè)支數(shù)據(jù)處理方法、裝置及系統(tǒng)(業(yè)支/研究院、河北、湖北)研究院、河北、湖北) 一種基于云計算的數(shù)
18、據(jù)挖掘方法、系統(tǒng)及裝置一種基于云計算的數(shù)據(jù)挖掘方法、系統(tǒng)及裝置(業(yè)支(業(yè)支/研究院)研究院) 第11頁 一一. . 開題計劃完成情況開題計劃完成情況 目目 錄錄 二、主要研究成果(整合后)二、主要研究成果(整合后) 產(chǎn)品研發(fā)成果產(chǎn)品研發(fā)成果 應用試點與落地成果應用試點與落地成果 三、三、20112011年工作展望年工作展望 第12頁 2.1.1 bc-etl2.1.1 bc-etl研發(fā)研發(fā)研發(fā)成果研發(fā)成果 bc-etl bc-etl研發(fā)成果研發(fā)成果 u結(jié)合省公司應用試驗支撐需求,完成了結(jié)合省公司應用試驗支撐需求,完成了etl新增及優(yōu)化功能的開發(fā),包括:新增及優(yōu)化功能的開發(fā),包括: 空行斷行清洗
19、、最大最小標準化、基于字段的集合差、去極值、最優(yōu)離散化、空行斷行清洗、最大最小標準化、基于字段的集合差、去極值、最優(yōu)離散化、 groupby max,min支持多字段、基于字段的去重、支持多字段、基于字段的去重、join操作的維表支持大于操作的維表支持大于 1mb數(shù)據(jù)、因子分析等數(shù)據(jù)、因子分析等 u新增數(shù)據(jù)探索模塊,實現(xiàn)了集中趨勢特征值(合計、計數(shù)、均值、眾數(shù)、中新增數(shù)據(jù)探索模塊,實現(xiàn)了集中趨勢特征值(合計、計數(shù)、均值、眾數(shù)、中 位數(shù)、百分位數(shù)、四分位數(shù)),離散趨勢特征值(最大值、最小值、全距、方位數(shù)、百分位數(shù)、四分位數(shù)),離散趨勢特征值(最大值、最小值、全距、方 差、標準差),分布趨勢特征值
20、(峰度、偏度)單個統(tǒng)計特征值(單個頻數(shù)、差、標準差),分布趨勢特征值(峰度、偏度)單個統(tǒng)計特征值(單個頻數(shù)、 單個百分比),單變量相關性分析等功能的并行化單個百分比),單變量相關性分析等功能的并行化 u為推進經(jīng)分現(xiàn)網(wǎng)落地目標,通過集成為推進經(jīng)分現(xiàn)網(wǎng)落地目標,通過集成hive分布式數(shù)據(jù)庫,提供了類分布式數(shù)據(jù)庫,提供了類sql腳本腳本 的使用支持;每個的使用支持;每個etl操作支持操作支持cwm標準的技術元數(shù)據(jù)輸出標準的技術元數(shù)據(jù)輸出 u文檔:專利文檔:專利1項、技術文檔項、技術文檔5份份 第13頁 2.1.2 bc-pdm2.1.2 bc-pdm研發(fā)成果研發(fā)成果 bc-etl bc-pdm研發(fā)成
21、果研發(fā)成果 u并行屬性選擇算法新增并行屬性選擇算法新增1個:個:pfeatureselect u社會關系網(wǎng)絡并行化算法新增社會關系網(wǎng)絡并行化算法新增15個:圖的基本特征(入度和出度、個:圖的基本特征(入度和出度、 betweenness、closeness、pagerank、聚類系數(shù)、最短路徑、聚類系數(shù)、最短路徑、 betweenness、網(wǎng)絡密度、網(wǎng)絡直徑、平均最短路徑、平均度數(shù)、網(wǎng)絡密度、網(wǎng)絡直徑、平均最短路徑、平均度數(shù)/平均權重平均權重/平平 均聚類系數(shù)),社區(qū)發(fā)現(xiàn)(網(wǎng)絡中極大團求解算法、極大團的合并算法、社團均聚類系數(shù)),社區(qū)發(fā)現(xiàn)(網(wǎng)絡中極大團求解算法、極大團的合并算法、社團 之間連接
22、關系求解算法、重疊社區(qū)向非重疊社區(qū)轉(zhuǎn)化算法、生成網(wǎng)絡的社團層之間連接關系求解算法、重疊社區(qū)向非重疊社區(qū)轉(zhuǎn)化算法、生成網(wǎng)絡的社團層 次結(jié)構(gòu)算法)、網(wǎng)絡圖的布局算法次結(jié)構(gòu)算法)、網(wǎng)絡圖的布局算法 u并行決策樹算法新增并行決策樹算法新增2個:個:pcart決策樹、決策樹、pchaid決策樹決策樹 u輸出文檔:專利輸出文檔:專利1項、技術文檔項、技術文檔16份、軟件源代碼份、軟件源代碼 u挖掘模型輸出支持挖掘模型輸出支持pmml標準:決策樹、神經(jīng)網(wǎng)絡、樸素貝葉斯等標準:決策樹、神經(jīng)網(wǎng)絡、樸素貝葉斯等 第14頁 2.1.3 bc-onest2.1.3 bc-onest研發(fā)成果研發(fā)成果 技術特征技術特征:
23、 p 支持多種訪問模式支持多種訪問模式: 基于基于web service模式;模式; 基于對象訪問基于對象訪問api模式;模式; 在其上構(gòu)建的在其上構(gòu)建的bc-nas可提供文件可提供文件 訪問模式;訪問模式; p 高可擴展性高可擴展性: 基于環(huán)形空間的重疊網(wǎng)存放元數(shù)據(jù);基于環(huán)形空間的重疊網(wǎng)存放元數(shù)據(jù); 支持節(jié)點在線擴容與移出,根據(jù)業(yè)支持節(jié)點在線擴容與移出,根據(jù)業(yè) 務變化動態(tài)增加存儲節(jié)點;務變化動態(tài)增加存儲節(jié)點; p 高可靠性高可靠性: 默認情況下元數(shù)據(jù)和數(shù)據(jù)均有三份默認情況下元數(shù)據(jù)和數(shù)據(jù)均有三份 副本,支持用戶根據(jù)需求自定義副副本,支持用戶根據(jù)需求自定義副 本數(shù)。本數(shù)。 p 高性能高性能: 在
24、在osd內(nèi),將多個對象塊順序?qū)懭雰?nèi),將多個對象塊順序?qū)懭?單個大文件尾部。單個大文件尾部。 第15頁 一一. . 開題計劃完成情況開題計劃完成情況 目目 錄錄 二、主要研究成果(整合后)二、主要研究成果(整合后) 產(chǎn)品研發(fā)成果產(chǎn)品研發(fā)成果 應用試點與落地成果應用試點與落地成果 三、三、20112011年工作展望年工作展望 第16頁 2.2.1 2.2.1 河北公司河北公司etletl試點試點概況概況 本項目選擇現(xiàn)網(wǎng)應用“用戶信息日匯總表”進行測試。該應用每日匯總用戶 (包含歷史用戶)信息,具備以下特點: 運算復雜度高:對用戶表、客戶表、用戶功能表、用戶積分表、渠道表、 品牌表、集團客戶表等進行
25、多表關聯(lián);對通話量、用戶數(shù)、通話費用等多字 段進行統(tǒng)計。該匯總表是數(shù)據(jù)倉庫模型的中間匯總層,是對底層數(shù)據(jù)的整合, 后續(xù)60%的應用都基于該表進行。用戶匯總信息表包含三類信息:用戶背 景信息(資料)、用戶行為信息(通話)、用戶消費信息(費用)。 數(shù)據(jù)量大:該表每日約1.2億條記錄,每日數(shù)據(jù)量約40gb; 運行時間長:運行時間平均每日約5小時左右。 :探索并驗證經(jīng)分系統(tǒng)etl數(shù)據(jù)處理移植到云平臺上的可行性,降低現(xiàn)網(wǎng)數(shù)據(jù)處理 和數(shù)據(jù)存儲的壓力 :本地評估,由河北公司經(jīng)分運維人員利用研究院提供的云平臺和bc-etl工具,實 現(xiàn)本省的業(yè)務目標 第17頁 抽?。焊鶕?jù)接口數(shù)據(jù)大小抽?。焊鶕?jù)接口數(shù)據(jù)大小 決定
26、由云平臺還是決定由云平臺還是etletl服務服務 器抽取器抽取 處理:云平臺承擔海量級處理:云平臺承擔海量級 接口數(shù)據(jù)(如話單類和日志接口數(shù)據(jù)(如話單類和日志 類接口)的庫外、庫內(nèi)處理;類接口)的庫外、庫內(nèi)處理; etletl服務器承擔輕量級接口服務器承擔輕量級接口 數(shù)據(jù)庫外處理數(shù)據(jù)庫外處理 加載:加載:bc-etlbc-etl處理后的結(jié)處理后的結(jié) 果數(shù)據(jù)不直接加載給數(shù)據(jù)倉果數(shù)據(jù)不直接加載給數(shù)據(jù)倉 庫,而是輸出給庫,而是輸出給etletl服務器,服務器, 由其統(tǒng)一加載入庫由其統(tǒng)一加載入庫 部分復雜度高、運行時間部分復雜度高、運行時間 長的庫內(nèi)數(shù)據(jù)處理操作可以長的庫內(nèi)數(shù)據(jù)處理操作可以 移置到移置
27、到bc-etlbc-etl,將需要處理,將需要處理 的數(shù)據(jù)從數(shù)據(jù)倉庫輸出到的數(shù)據(jù)從數(shù)據(jù)倉庫輸出到 bc-etlbc-etl 云平臺在經(jīng)分架構(gòu)中的位置:在經(jīng)分接口機和云平臺在經(jīng)分架構(gòu)中的位置:在經(jīng)分接口機和etletl加載服務器之間,使用云平臺加載服務器之間,使用云平臺 云平臺云平臺 bc-etlbc-etl 加載加載 海量級數(shù)據(jù)海量級數(shù)據(jù) 接口抽取接口抽取 清洗清洗 轉(zhuǎn)換轉(zhuǎn)換 匯總 匯總 關聯(lián)關聯(lián) 輕量級數(shù)據(jù)輕量級數(shù)據(jù) 接口抽取接口抽取 結(jié)果結(jié)果 數(shù)據(jù)數(shù)據(jù) 需要處理需要處理 的數(shù)據(jù)的數(shù)據(jù) 經(jīng)分接口機經(jīng)分接口機 etl服務器服務器 dwdw服務器服務器dwdw存儲存儲 數(shù)據(jù)倉庫數(shù)據(jù)倉庫 olap
28、 服務器服務器 報表報表 服務器服務器 webdm 服務器服務器服務器服務器 2.2.1 2.2.1 河北公司河北公司etletl試點試點經(jīng)分經(jīng)分etletl云化解決方案云化解決方案 bc-etl 第18頁 節(jié)點配置 cpu4核xeon 2.5g 內(nèi)存8gb 硬盤4*250gb 節(jié)點個數(shù)30 總計管理磁盤容量30tb 任務并行度1 總?cè)蝿樟?2 計算成本45萬 bc系統(tǒng)配置(研究院部署) 2.2.1 2.2.1 河北公司河北公司etletl試點試點平臺環(huán)境部署平臺環(huán)境部署 第19頁 業(yè)務目標:用戶信息日匯總業(yè)務目標:用戶信息日匯總 模塊一、用戶語音話單基礎匯總:模塊一、用戶語音話單基礎匯總:對
29、當日對當日gsm話單、話單、vpmn話單進行基礎匯總話單進行基礎匯總、合并,包括用戶通話、費用等信息。、合并,包括用戶通話、費用等信息。 模塊二模塊二、當天用戶日信息:獲取在網(wǎng)和離網(wǎng)用戶的相關信息,由用戶表、品牌表和渠道表進行關聯(lián)。、當天用戶日信息:獲取在網(wǎng)和離網(wǎng)用戶的相關信息,由用戶表、品牌表和渠道表進行關聯(lián)。 模塊三模塊三、集團客戶信息匯總集團客戶信息匯總:關聯(lián)大客戶表和集團客戶表。:關聯(lián)大客戶表和集團客戶表。 模塊四、用戶信息日匯總:模塊四、用戶信息日匯總:利用模塊一、二、三的結(jié)果利用模塊一、二、三的結(jié)果和和由數(shù)據(jù)倉庫導出的彩鈴信息匯總表、客戶表進行關聯(lián)匯總由數(shù)據(jù)倉庫導出的彩鈴信息匯總表
30、、客戶表進行關聯(lián)匯總。 2.2.1 2.2.1 河北公司河北公司etletl試點試點測試測試方案(方案(1 1) 模塊一模塊一 模塊二模塊二 模塊三模塊三 模塊四模塊四 第20頁 本部分功能:對語音話單、vpmn話單進行匯總, 匯總用戶通話類型、呼叫類型、漫游類型、 歸 屬地、通話時長、計費時長、本地費、漫游費、 長途費、信息費、呼叫次數(shù)等信息。 本部分功能:獲 取用戶的相關信 息,由用戶表、 品牌表、渠道表 進行關聯(lián),主要 匯總信息包括: 用戶標識、電話 號碼、品牌標識、 產(chǎn)品標識、客戶 標識、地域標識、 網(wǎng)絡類型、用戶 狀態(tài)、當前積分、 渠道標識、渠道 類型、開戶時間 等。 casewhe
31、ncasewhen 計算生成列 計算生成列 groupby select groupby select 合并 where 碼表join case when join 計算生成列 select 字段類型轉(zhuǎn)換 模 塊 一 模 塊 二 話單基礎匯總表 gsm話單vpmn話單 品牌 渠道 用戶表 當天用戶信息表 2.2.1 2.2.1 河北公司河北公司etletl試點試點測試測試方案(方案(2 2) 第21頁 當天用戶信息表 模 塊 三 模 塊 四 where inner join 計算生成列 select left join left join left join left join case wh
32、en 缺值處理 數(shù)據(jù)類型檢查group by select 本部分功能:本部分通過對當 天用戶信息表、客戶表、集團 客戶信息、語音話單匯總信息、 彩鈴用戶進行關聯(lián),生成用戶 日匯總信息。 本部分功能:獲取集團客戶匯總信 息,主要屬性包括:用戶標志,集團 客戶標志,集團客戶名稱,集團客戶編 號,集團客戶類型,客戶經(jīng)理,用戶類 型,成員角色。 用戶信息日匯總表 彩鈴信息匯總表 集團客戶信息匯總表 話單基礎匯總表 客戶表 集團客戶信息匯總 集團客戶用戶表 集團客戶信息表 2.2.1 2.2.1 河北公司河北公司etletl試點試點測試測試方案(方案(3 3) 第22頁 .1 1 河北公
33、司河北公司etletl試點試點測試結(jié)果分析(測試結(jié)果分析(1 1) 對平臺的功能正確性及數(shù)據(jù)準確性兩方面進行驗證: 本項目,主要應用bc平臺的etl類組件,包括導入組件、數(shù) 據(jù)類型檢查、case when組件、字段類型檢查、join組 件、where組件、計算生成列、select組件、groupby 組件等,經(jīng)測試以上組件功能性正確,可以滿足現(xiàn)網(wǎng)應用 需要。 功能正確性 數(shù)據(jù)準確性 本項目,涉及大量運算類操作,將bc平臺運算結(jié)果與現(xiàn)網(wǎng)數(shù) 據(jù)比對,與現(xiàn)網(wǎng)數(shù)據(jù)完全一致,滿足數(shù)據(jù)準確性。 工作 流運 行成 功界 面 第23頁 模塊bc平臺運行時間現(xiàn)網(wǎng)平臺運行時間 模塊一31分鐘 59秒19 min
34、7 sec 模塊二38分鐘 9秒30 min 6sec 模塊三3分鐘 12秒26 sec 模塊四1小時 59分鐘52秒4 hours 10min 33sec 測試模塊 模塊記錄 條數(shù) 模塊數(shù) 據(jù)大小 表a記錄操作表b記錄操作 表c記 錄 操作表d記錄操作表e記錄 (一)用戶語音 通話基礎匯總 16320824731gb218471340sum477066sum (二)獲取用戶 相關信息 12045475937gb122406417 left join 2374 left join 2383 (三)集團客戶 信息匯總 83612832.3gb13034926 inner join 313852
35、(四)匯總用戶 信息日表 12041564945gb120454759 left join 141163976 left join 8361283 left join 163208247 left join 20021995 .1 1 河北公司河北公司etletl試點試點測試結(jié)果分析(測試結(jié)果分析(2 2) 第24頁 改進建議改進建議 調(diào)度支持任務間依賴、觸發(fā)、時間觸發(fā)、時間窗口、優(yōu)先 級、并行度控制等 監(jiān)控任務間調(diào)度、運行狀態(tài)等信息實時監(jiān)控、告警 運維日志信息詳盡,方便維護人員定位 配置優(yōu)化組件參數(shù)配置、工作流配置等 界面風格統(tǒng)一,按鈕功能統(tǒng)一,用戶提示信息明確,美化 組件功能
36、增加某些數(shù)據(jù)庫函數(shù)、join優(yōu)化 業(yè)務模板將典型etl應用做成業(yè)務模板,方便各省公司復用 工作流復雜控制、備份、遷移、版本控制 2.2.1 2.2.1 河北公司河北公司etletl試點試點改進建議總結(jié)改進建議總結(jié) 第25頁 bc-etl系統(tǒng)與倉庫的集成與交互: .1河北公司河北公司etletl試點試點現(xiàn)網(wǎng)集成與交互現(xiàn)網(wǎng)集成與交互 第26頁 用戶特征識別用戶特征識別用戶特征組織用戶特征組織 云存儲平臺云存儲平臺 業(yè)務數(shù)據(jù)加載業(yè)務數(shù)據(jù)加載 bc-etlbc-etl 數(shù)據(jù)數(shù)據(jù)etletl處理處理 bc-pdmbc-pdm 數(shù)據(jù)降維數(shù)據(jù)降維 挖掘應用主題:挖掘應用主題: n 探索探索b
37、c-pdmbc-pdm在移動用戶特征挖掘中的應用在移動用戶特征挖掘中的應用 p用戶特征識別用戶特征識別 p用戶特征組織用戶特征組織 bc-pdmbc-pdm k-meansk-means :探索并驗證bc-pdm對現(xiàn)網(wǎng)挖掘應用主題的支撐能力,包括功能、性能、易用性等 :本地部署云平臺,本地評估,由湖北公司經(jīng)分運維人員利用研究院提供的bc-pdm 工具,實現(xiàn)本省的挖掘應用主題 .2 2 湖北公司湖北公司dmdm試點試點概況概況 第27頁 2.2 湖北公司湖北公司dmdm試點試點研究總體框架研究總體框架 第28頁 基于湖北移動構(gòu)建的經(jīng)營分析支撐體系和豐富的經(jīng)營分析 支
38、持資源,結(jié)合華中科技大學在云計算和數(shù)據(jù)挖掘等方面 已有和在研成果,本項目利用現(xiàn)有省級經(jīng)營分析系統(tǒng)資源 ,構(gòu)建基于數(shù)據(jù)倉庫和數(shù)據(jù)集市的應用級云計算平臺 - 提供經(jīng)營分析資源的整合、共享和協(xié)同的管理能力, 以提升經(jīng)營分析系統(tǒng)計算能力和響應效率 - 實現(xiàn)對云計算平臺系統(tǒng)的資源管理、性能監(jiān)控和故障 監(jiān)控 2.2 湖北公司湖北公司dmdm試點試點云云平臺部署(平臺部署(1 1) 第29頁 2.2 湖北公司湖北公司dmdm試點試點云平臺部署(云平臺部署(2 2) 湖北公司采用經(jīng)分利舊設備,在本地搭建云平臺測試環(huán)境,部署bc-pdm軟件 兩節(jié)點環(huán)境兩節(jié)點環(huán)境 六節(jié)點環(huán)境六節(jié)點
39、環(huán)境 優(yōu)勢:在省公司現(xiàn)網(wǎng)環(huán)境構(gòu)建物理私有云平臺,內(nèi)網(wǎng)數(shù)據(jù)傳輸保證數(shù) 據(jù)安全 十一節(jié)點環(huán)境十一節(jié)點環(huán)境 第30頁 2.2 湖北公司湖北公司dmdm試點試點云平臺部署(云平臺部署(3 3) 云計算平臺系統(tǒng)管理 性能管理 -實時監(jiān)控 -歷史查詢、統(tǒng)計 -熱點監(jiān)控 -可以和其他系統(tǒng)接口 故障管理 -實時發(fā)現(xiàn)主機和服務的故障 -可以進行故障的抑制和主動恢復 -可以和其他系統(tǒng)接口 -歷史查詢和統(tǒng)計 -故障的及時通知 資源管理 -動態(tài)管理虛擬機 -管理虛擬網(wǎng)絡 -監(jiān)控系統(tǒng)資源 -部署云服務 用戶管理 -實現(xiàn)整個系統(tǒng)的4a -統(tǒng)一用戶管理 -統(tǒng)一認證 -集中和分散授權 第31頁 2.2.2 2
40、.2.2 湖北公司湖北公司dmdm試點試點方法研究(方法研究(1 1) p 根據(jù)移動用戶通信行為、消費行為和業(yè)務辦理渠道分析,進行數(shù)據(jù)清 洗和匯總,挖掘用戶特征,并由特征構(gòu)成用戶聚類,從而進行營銷應 用研究 基于bc-pdm的經(jīng)分數(shù)據(jù)挖掘框架 第32頁 云云 存存 儲儲 平平 臺臺 云云 計計 算算 平平 臺臺 p為了能自動發(fā)現(xiàn)聚類結(jié)果的潛在類別個數(shù),本項目提出通過采用一種自定義判別函 數(shù)評估聚類結(jié)果,自適應確定k值的聚類分析方法 p原始數(shù)據(jù)經(jīng)過預處理、特征提取后即可得到原始用戶特征矩陣。對原始用戶特征矩 陣的每一列使用自適應k-means算法聚類,得到p組返回值,對這p組返回值按判別函 數(shù)的
41、最大值排序,取前g個判別函數(shù)最大值屬性,構(gòu)成用戶特征矩陣 .2 2 湖北公司湖北公司dmdm試點試點方法研究(方法研究(2 2) 第33頁 2.2.2 湖北公司湖北公司dm試點試點應用建模(應用建模(1) 基于云計算經(jīng)營分析數(shù)據(jù)挖掘平臺,整合數(shù)據(jù)倉庫和數(shù) 據(jù)集市資源,研究用戶行為分析方法 - 通過對某地市用戶數(shù)據(jù)的挖掘和分析,捕獲用戶行為特征 - 構(gòu)建用戶特征矩陣,實現(xiàn)用戶特征精準定位 - 提供用戶及其分群、分類、分層和分級的快速響應能力,支撐市 場運營需要 - 構(gòu)建用戶的內(nèi)容偏好、業(yè)務偏好、使用偏好、渠道偏好等相關用 戶行為畫像,為精準營銷和差異服務提供分類依據(jù) 第34頁 2.
42、2.2 湖北公司湖北公司dm試點試點應用建模應用建模(2) p 樣本準備和數(shù)據(jù)加載 p 根據(jù)某月內(nèi)某地市的移動用戶通信行為、消費行為和業(yè)務辦理渠道分析,為移動 通信的營銷模式提供業(yè)務支撐 數(shù)據(jù)表名稱數(shù)據(jù)表名稱數(shù)據(jù)表描述數(shù)據(jù)表描述數(shù)據(jù)表大小數(shù)據(jù)表大小 u1_subscriber某地市有效用戶信息表757.12 mb u1_serv_subscribe某地市優(yōu)惠訂購信息表2.23g u1_func_subscribe某地市服務訂購信息表1.12g u1_use某地市業(yè)務量匯總信息表6.66g u2_deal某地市業(yè)務受理信息表493.37mb 第35頁 p 構(gòu)建用戶特征矩陣 p 數(shù)據(jù)集中存在大量的
43、缺失數(shù)據(jù),需要 用到空值域約束和缺值處理組件對每 個屬性進行處理,然后再構(gòu)建特征選 擇矩陣 p 用戶特征聚類 p 再用kmeans算法聚類。根據(jù)經(jīng)驗值選 取初始中心點,如普通市話多,長話 多,漫游多,閑時通話多,短信多, 上網(wǎng)多用戶,標出每類用戶的顯著特 征,以這樣的數(shù)據(jù)作為中心點文件。 運行任務運行任務運行時間運行時間 用戶特征矩陣14分鐘20秒 用戶特征聚類28分鐘20秒 .2 2 湖北公司湖北公司dmdm試點試點應用建模(應用建模(3 3) a原始數(shù)據(jù)表的元數(shù)據(jù)信息原始數(shù)據(jù)表的元數(shù)據(jù)信息b特征選擇之后的元數(shù)據(jù)信息特征選擇之后的元數(shù)據(jù)信息 用戶特征選擇 fk-means算法聚
44、類算法聚類 輸出結(jié)果輸出結(jié)果 ak-means算法輸入部分算法輸入部分 數(shù)據(jù)數(shù)據(jù) bk-means算法聚類后算法聚類后 的輸出數(shù)據(jù)的輸出數(shù)據(jù) e對每個用戶進行類別標識對每個用戶進行類別標識 ck-means算法初始聚算法初始聚 類中心點文件類中心點文件 dk-means算法輸出的算法輸出的 聚類中心點文件聚類中心點文件 用戶特征聚類 第36頁 2.2.2 2.2.2 湖北公司湖北公司dmdm試點試點應用建模(應用建模(4 4) 有效用戶 信息表 優(yōu)惠訂購 信息表 服務訂購 信息表 業(yè)務量匯 總信息表 業(yè)務受理 信息表 數(shù)據(jù)維數(shù)高達251維, 按照用戶特征選擇原 則進行屬性篩選 保留92個屬性使
45、用 pca降維構(gòu)建用戶特 征矩陣 用戶特征矩陣 k-means聚類 用戶行為細分 試驗中將用戶分為:短信業(yè)務較多用戶,市試驗中將用戶分為:短信業(yè)務較多用戶,市 話話費多用戶,長話較多用戶,上網(wǎng)流量多,話話費多用戶,長話較多用戶,上網(wǎng)流量多, 外地漫游多用戶等外地漫游多用戶等 p 用戶行為挖掘及刻畫流程 第37頁 2.2.2 2.2.2 湖北公司湖北公司dmdm試點試點應用建模(應用建模(5 5) 直接評估。根據(jù)聚類結(jié)果給出 餅圖、直方圖、用戶在不同類別分 布的百分比等方式評估聚類結(jié)果。 營銷評估。根據(jù)市場的反饋信 息,評估系統(tǒng)的實用性、分析本 系統(tǒng)的成功與不足之處。 聚類模型評估方式: 聚類模
46、型業(yè)務意義: 對模型進行統(tǒng)計分析后,能得到這樣的結(jié)論:用戶特征描述由幾個關鍵詞組成,例如 “月通話時間超過50小時的用戶喜歡通過10086辦理業(yè)務”。通過計算每類用戶特征 相關值,決定用戶特征描述的關鍵詞。 p 挖掘模型評估 第38頁 .3 3 河南公司云存儲試點河南公司云存儲試點概況概況 各個數(shù)據(jù)集市各個數(shù)據(jù)集市 需要數(shù)據(jù),都需要數(shù)據(jù),都 通過通過etletl工具直工具直 接從數(shù)據(jù)倉庫接從數(shù)據(jù)倉庫 中抽取中抽取 數(shù)據(jù)集市下發(fā)數(shù)據(jù)集市下發(fā):河南移動經(jīng)分數(shù)據(jù)集市從:河南移動經(jīng)分數(shù)據(jù)集市從2005年開始年開始 建設到現(xiàn)在,從最初每天下發(fā)幾百兆數(shù)據(jù),發(fā)展到現(xiàn)建設到現(xiàn)在,從最初每天下發(fā)幾
47、百兆數(shù)據(jù),發(fā)展到現(xiàn) 在每天下發(fā)在每天下發(fā)1.2tb的數(shù)據(jù)量,數(shù)據(jù)量上升了近百倍。的數(shù)據(jù)量,數(shù)據(jù)量上升了近百倍。 :探索并驗證在現(xiàn)網(wǎng)數(shù)據(jù)集市下發(fā)引入云存儲的解決方案 :本地部署云平臺,由河南公司經(jīng)分運維人員利用研究院提供的云存儲工具進行本 地測試評估 第39頁 隨著下發(fā)數(shù)量的增加,現(xiàn)網(wǎng)數(shù)據(jù)集市系統(tǒng)數(shù)據(jù)下發(fā)暴露出了以下問題:異構(gòu)數(shù)隨著下發(fā)數(shù)量的增加,現(xiàn)網(wǎng)數(shù)據(jù)集市系統(tǒng)數(shù)據(jù)下發(fā)暴露出了以下問題:異構(gòu)數(shù) 據(jù)庫問題、數(shù)據(jù)重復抽取、裝載數(shù)據(jù)緩慢。據(jù)庫問題、數(shù)據(jù)重復抽取、裝載數(shù)據(jù)緩慢。 云存儲研究目標如下:云存儲研究目標如下: (1)解決異構(gòu)數(shù)據(jù)庫問題:河南移動省公司數(shù)據(jù)倉庫、地市數(shù)據(jù)集市、部門數(shù))解決異構(gòu)數(shù)
48、據(jù)庫問題:河南移動省公司數(shù)據(jù)倉庫、地市數(shù)據(jù)集市、部門數(shù) 據(jù)集市使用據(jù)集市使用oracle數(shù)據(jù)庫,而數(shù)據(jù)下沉集市使用數(shù)據(jù)庫,而數(shù)據(jù)下沉集市使用db2數(shù)據(jù)庫,這樣從省公司下數(shù)據(jù)庫,這樣從省公司下 發(fā)數(shù)據(jù)到數(shù)據(jù)下沉數(shù)據(jù)集市時,如果采用表對表直接裝載存在不同數(shù)據(jù)庫間字段匹發(fā)數(shù)據(jù)到數(shù)據(jù)下沉數(shù)據(jù)集市時,如果采用表對表直接裝載存在不同數(shù)據(jù)庫間字段匹 配兼容問題,需要經(jīng)過復雜的轉(zhuǎn)換才能裝載,影響裝載速度。配兼容問題,需要經(jīng)過復雜的轉(zhuǎn)換才能裝載,影響裝載速度。 使用云存儲,把數(shù)使用云存儲,把數(shù) 據(jù)抽取成文件,通過文件裝載解決性能問題。據(jù)抽取成文件,通過文件裝載解決性能問題。 (2)解決數(shù)據(jù)重復抽取問題:河南移動
49、現(xiàn)在存在地市數(shù)據(jù)集市、部門數(shù)據(jù)集市)解決數(shù)據(jù)重復抽取問題:河南移動現(xiàn)在存在地市數(shù)據(jù)集市、部門數(shù)據(jù)集市 和數(shù)據(jù)下沉集市,省公司每天都需要從數(shù)據(jù)倉庫中抽取、下發(fā)大量數(shù)據(jù),由于現(xiàn)在和數(shù)據(jù)下沉集市,省公司每天都需要從數(shù)據(jù)倉庫中抽取、下發(fā)大量數(shù)據(jù),由于現(xiàn)在 抽取方式大多是表對表直接抽取,這樣就存在同一類數(shù)據(jù)多個集市需要下發(fā),需要抽取方式大多是表對表直接抽取,這樣就存在同一類數(shù)據(jù)多個集市需要下發(fā),需要 在省公司數(shù)據(jù)倉庫重復抽取。使用云存儲,文件保存下來,直接使用文件裝載,不在省公司數(shù)據(jù)倉庫重復抽取。使用云存儲,文件保存下來,直接使用文件裝載,不 用再重新抽取數(shù)據(jù);用再重新抽取數(shù)據(jù); (3)解決裝載數(shù)據(jù)緩慢
50、問題:采用先在源數(shù)據(jù)庫端把數(shù)據(jù)抽取成文件,在目標)解決裝載數(shù)據(jù)緩慢問題:采用先在源數(shù)據(jù)庫端把數(shù)據(jù)抽取成文件,在目標 數(shù)據(jù)庫端再把數(shù)據(jù)文件裝載到數(shù)據(jù)庫中的速度大大高于直接采用表對表直接裝載。數(shù)據(jù)庫端再把數(shù)據(jù)文件裝載到數(shù)據(jù)庫中的速度大大高于直接采用表對表直接裝載。 云存儲能解決數(shù)據(jù)緩慢問題。云存儲能解決數(shù)據(jù)緩慢問題。 2.2.3 2.2.3 河南公司云存儲試點河南公司云存儲試點現(xiàn)有問題現(xiàn)有問題 第40頁 把需要下發(fā)的數(shù)把需要下發(fā)的數(shù) 據(jù)都抽取成數(shù)據(jù)據(jù)都抽取成數(shù)據(jù) 文件,保存在云文件,保存在云 存儲空間中,數(shù)存儲空間中,數(shù) 據(jù)集市需要時直據(jù)集市需要時直 接下發(fā)數(shù)據(jù)文件接下發(fā)數(shù)據(jù)文件 ,在數(shù)據(jù)集市側(cè),
51、在數(shù)據(jù)集市側(cè) 利用利用etletl進行裝進行裝 載。載。 2.2.3 2.2.3 河南公司云存儲試點河南公司云存儲試點云存儲解決方案云存儲解決方案 使用使用云存儲云存儲作為作為省公司、地市公司、縣公司之間傳送數(shù)據(jù)省公司、地市公司、縣公司之間傳送數(shù)據(jù)的的 平臺平臺,能,能解決性能問題解決性能問題、可擴展性問題,方便系統(tǒng)的維護??蓴U展性問題,方便系統(tǒng)的維護。 第41頁 .3 3 河南公司云存儲試點河南公司云存儲試點云存儲重要性云存儲重要性 云存儲在整個經(jīng)云存儲在整個經(jīng) 分數(shù)據(jù)下發(fā)流程分數(shù)據(jù)下發(fā)流程 中占據(jù)重要地位中占據(jù)重要地位 ,云存儲的性能,云存儲的性能 和穩(wěn)定性對系統(tǒng)和穩(wěn)定性對系
52、統(tǒng) 性能和穩(wěn)定性起性能和穩(wěn)定性起 到制約重要。云到制約重要。云 存儲的擴展性在存儲的擴展性在 很大程度上也決很大程度上也決 定了經(jīng)分系統(tǒng)的定了經(jīng)分系統(tǒng)的 可擴展性。可擴展性。 第42頁 主機組成主機組成 河南移動大云測試,共使用20臺hp dl385服務器,hp dl385服務器的配置信息 如下: 本地文件系統(tǒng)劃分本地文件系統(tǒng)劃分 2塊2tb磁盤采用raid1,劃分后,每臺2tb空間,供云存儲用的1.5tb,其他規(guī) 劃為系統(tǒng)目錄,詳細目錄見下表: 操作系統(tǒng)版本操作系統(tǒng)版本 已經(jīng)安裝os:redhat es 5.4。 云存儲軟件云存儲軟件 決定采用hdfs云存儲。主要原因是:經(jīng)分析該應用場景hd
53、fs更適合,且為明年 嘗試云etl提供方便,bc-etl是基于hdfs的。 2.2.3 2.2.3 河南公司云存儲試點河南公司云存儲試點平臺環(huán)境部署平臺環(huán)境部署 設備類型設備數(shù)量cpu數(shù)量cpu主頻內(nèi)存(gb)硬盤設備狀態(tài) hp dl3852022.4ghz32gb4tb新增 合計合計20202022032204 大云測 試服務 器 /boot1ext3操作系統(tǒng)啟動 lv_swapswap64swap臨時交換空間 lv_opt/opt30ext3產(chǎn)品安裝 lv_home/home40ext3個人目錄 lv_cloudlv_cloud/cloud/cloud15001500ext3ext3集團云
54、存儲測試集團云存儲測試 lv_tmp/tmp20ext3臨時目錄 lv_root/345ext3根 第43頁 2.2.3 2.2.3 河南公司云存儲試點河南公司云存儲試點測試用例測試用例 1. 易用性測試易用性測試 測試目的:可方便靈活地把云存儲測試主機納入生產(chǎn)系統(tǒng),能把云存儲主機看成一臺主機和一堆存儲。 測試步驟: 1)修改數(shù)據(jù)下發(fā)工具華為etl的配置,把云存儲主機當成etl的節(jié)點使用。 2)在云存儲主機上安裝數(shù)據(jù)庫客戶端的,配置成etl的節(jié)點。 3)在etl上配置調(diào)度,進行數(shù)據(jù)下發(fā)。 2. 性能測試性能測試 測試目的:通過云存儲把處理文件分開存儲在多個主機上,與現(xiàn)網(wǎng)存儲在磁盤陣列上對比,測
55、試存儲和數(shù)據(jù)處 理性能是否提高。 測試步驟: 1)在云存儲測試環(huán)境配置和現(xiàn)網(wǎng)相同的任務,模擬真實環(huán)境,運行任務。 2)記錄下文件獲取、文件傳輸、文件處理的總共時間,比較性能。 3. 可擴展性測試可擴展性測試 測試目的:通過增加云存儲主機數(shù)量,解決存儲空間和性能問題。在進行擴展時,不用修改應用部分,只需要 修改云存儲軟件的配置即可。 測試步驟: 1)使用10臺云存儲主機組成云存儲環(huán)境,進行文件訪問; 2)擴展至20臺云存儲主機組成云存儲環(huán)境,進行文件訪問; 4. 穩(wěn)定性測試穩(wěn)定性測試 測試目的:測試云存儲的穩(wěn)定性,不能因為一臺主機故障,影響整個系統(tǒng)使用以及故障的回復時效性。 測試步驟: 1)把云
56、存儲一臺主機停掉(停機或拔掉網(wǎng)線),進行數(shù)據(jù)裝載。 2)利用已經(jīng)保存的文件進行數(shù)據(jù)裝載,查看是否受影響。 3)進行主機切換后,進行裝載,查看是否恢復使用。 4)把停用主機恢復使用,查看系統(tǒng)使用情況。 第44頁 2.2.3 2.2.3 河南公司云存儲試點河南公司云存儲試點測試結(jié)果測試結(jié)果 1. 易用性測試易用性測試 把hadoop主節(jié)點當成etl節(jié)點,便能把云存儲系統(tǒng)納入使用,系統(tǒng)使用方便。 2. 性能測試性能測試 進程數(shù)進程數(shù)數(shù)據(jù)文件個數(shù)數(shù)據(jù)文件個數(shù)數(shù)據(jù)文件大小數(shù)據(jù)文件大小(m)(m)執(zhí)行時長執(zhí)行時長( (秒秒) ) 1010600240 10201160300 10502905360 101005730660 10500290502100 101000573004020 互聯(lián)網(wǎng)分析下發(fā)為例互聯(lián)網(wǎng)分析下發(fā)為例, ,完成操作為完成操作為: :從接口機讀取文件從接口機讀取文件,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2013-2022年北京市中考真題物理試題匯編:功和能章節(jié)綜合
- 2025年代理設備戰(zhàn)略合作協(xié)議(2篇)
- 2025年產(chǎn)品賠償協(xié)議樣本(三篇)
- 2025年九年級二班班主任的工作總結(jié)(三篇)
- 2025年個體單位用工合同標準范文(2篇)
- 2025年產(chǎn)品研發(fā)合作協(xié)議常用版(2篇)
- 智能家居項目居間合同-@-1
- 傳統(tǒng)制造業(yè)辦公室翻新合同
- 水產(chǎn)冷凍品運輸合同格式
- 2025年度保密技術合作開發(fā)合同
- 河北省滄州市五縣聯(lián)考2024-2025學年高一上學期期末英語試卷(含答案含含聽力原文無音頻)
- 福建省泉州市南安市2024-2025學年九年級上學期期末考試語文試題(無答案)
- 腫瘤護士培訓課件
- 新課標體育與健康水平二教案合集
- 2025屆高考語文一輪復習知識清單:古代詩歌鑒賞
- 醫(yī)療器材申請物價流程
- 我的消防文員職業(yè)規(guī)劃
- 2025年公司品質(zhì)部部門工作計劃
- 2024年世界職業(yè)院校技能大賽高職組“市政管線(道)數(shù)字化施工組”賽項考試題庫
- 華為研發(fā)部門績效考核制度及方案
- CSC資助出國博士聯(lián)合培養(yǎng)研修計劃英文-research-plan
評論
0/150
提交評論