格力大數據項目工作說明書_第1頁
格力大數據項目工作說明書_第2頁
格力大數據項目工作說明書_第3頁
格力大數據項目工作說明書_第4頁
格力大數據項目工作說明書_第5頁
免費預覽已結束,剩余9頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、格力大數據項目工作說明書格力大數據項目工作說明書北京西塔網絡科技股份有限公司二零一六年一月1 項目目標32 建設及服務內容 42.1 需求調研及數據標準化 42.2 大數據基礎平臺搭建 42.3 數據采集 42.4 分層存儲設計 52.5 數據加工處理 52.6 數據分析挖掘 52.7 內存數據庫 62.8 交互式探查分析 62.9 數據可視化應用 62.10 語音智能分析 62.11 文本、視頻、圖片存儲 62.12 大數據平臺運維監(jiān)控 62.13 大數據平臺任務調度 72.14 ETL過程可視化 72.15 培訓工作 73 建設方案84 時間進度與里程碑85 費用支付96 需求變更過程 9

2、6.1 變更依據 96.2 變更請求處理流程 97 雙方責任1.Q8 項目組織架構129 假定條件1.31項目目標在珠海格力電器股份有限公司的范圍內,分期實現(xiàn)格力工業(yè)大數據平臺項目的 數據集成、連接、處理、分析、挖掘等相關功能。本期項目包括設計、搭建大數據 平臺,接入商技一部、商技二部、計算機中心的銷售訂單等相關數據,實現(xiàn)設備故 障診斷、故障預測、產品統(tǒng)計、實時查詢、營銷支持、智能搜索等功能。故障診斷的業(yè)務目標:大數據平臺處理、分析商用空調運行時采集回傳的工況數據,及時、準確定位 運行故障并給出大致原因,為維護部門維修空調設備和系統(tǒng)提供信息支撐,降低故 障定位的時間、范圍和工作量,縮短停機時長

3、并提高客戶滿意度、忠誠度。故障預測的業(yè)務目標:大數據平臺利用數據挖掘、機器學習技術,通過學習業(yè)已存在的設備故障數據、 信息,尤其是發(fā)生故障的前兆數據,歸納故障發(fā)生的特點、規(guī)律知識,并利用流計 算相關技術及時發(fā)現(xiàn)潛在的故障及風險,及時預警,減少停機的次數及停機時長。另外發(fā)現(xiàn)停機模式、規(guī)律可以進一步應用到產品設計、改進過程中。產品統(tǒng)計的業(yè)務目標:大數據平臺利用集成的產品及銷售數據進行統(tǒng)計分析,用于分析產品的銷售情 況,客戶情況,銷售規(guī)律、特點及變化趨勢,用于指導產品的個性化設計及產品的 推廣銷售。實時查詢的業(yè)務目標:大數據平臺利用New SQL存儲技術存放設備數據,提供特定編號設備、一段時 間內工

4、況信息的實時查詢功能,用于業(yè)務人員分析、判斷特定設備在查詢時間范圍 內的工作狀態(tài),總結、發(fā)現(xiàn)業(yè)務規(guī)律。營銷支持的業(yè)務目標:大數據平臺利用集成的產品及銷售數據進行分析,發(fā)現(xiàn)其中先后、重復購買及 交叉購買情況和規(guī)律,提醒、推薦客戶購買特定的產品和服務,提高產品和服務的 銷量。智能搜索的業(yè)務目標:大數據平臺提供通過語音輸入完成產品及銷售數據的查詢、統(tǒng)計及分析的功能。2建設及服務內容以下所有內容基于1月19日版本的需求文檔。詳見格力大數據需求說明1.0 文檔,建設內容為基于Hadoop生態(tài)系統(tǒng)構建大數據平臺,內容包括商用空調、家用 空調、銷售等歷史數據的入庫,ETL處理,數據倉庫、離線計算、內存計算、

5、實時計 算、即席查詢、可視化展示等內容。具體內容如下:2.1 需求調研及數據標準化包括功能商技一部、商技二部、銷售、審計部門的需求調研、數據調研以及數據 標準化。2.2 大數據基礎平臺搭建基于Hadoop搭建大數據平臺,包括 HDFS、MapReduce、HBase Hive、 Spark, MySql 集群。使用HDFS儲原始數據,供離線分析挖掘;使用Spark/MapReduce執(zhí)行離線任務;使用HBase做實時查詢;使用Hive/Spark SQL做數據倉庫;使用MySql集群存儲分析結果書,供上層應用查詢。2.3 數據采集大數據采集包括非結構化數據、結構化數據的采集,非結構化數據采用F

6、lumeNG采集,Oracle/SQLServer/MySQL關系數據庫中的結構化數據采用 Sqoop收集。此外 還有實時流數據采用分布式消息隊列采集。Flume收集非結構化數據,F(xiàn)lume是一個高可用的,高可靠的,分布式的海量數 據采集、聚合和傳輸的系統(tǒng),F(xiàn)lume支持定制各類數據發(fā)送方,用于收集數據;同時, Flume提供對數據進行簡單處理,并寫入到HDFSoSqoop收集結構化數據,Sqoop(發(fā)音:skup),主要用于在 Hadoop(Hive)與傳統(tǒng) 的數據庫(mysql、postgresql)間進行數據的傳遞,可以將一個關系型數據庫(例如:MySQL,Oracle ,Postgre

7、s 等)中的數據導進到 Hadoop的HDFS,也可以將 HDFS勺數據導進到關系型數據庫中。Sqoop,類似于其他ETL工具,使用元數據模型 來判斷數據類型并在數據從數據源轉移到Hadoop時確保類型安全的數據處理。Sqoop專為大數據批量傳輸設計,能夠分割數據集并創(chuàng)建Hadoop任務來處理每個區(qū)塊。實時數據處理,通過采集層數據通過消息隊列組件Kafka接入到SparkStreaming里,Spark Streaming 實時處理后把結果存到 Hbase或Mysql等關系數 據庫中供用戶查詢。2.4 分層存儲設計通過將給定文件、數據集或應用程序的必需數據特征對數據進行分層存儲設計, 滿足不同

8、的應用場景。提供數據利用率與使用效率。將常用數據存儲在高速設備上, 而不太常用的數據存儲在低速設備上。在宏觀上,數據可以在不同的設備之間進行 數據復制遷移,分層保存。2.5 數據加工處理對數據進行分析和加工。包括對各種原始數據的分析、整理、計算、編輯等的加 工和處理。經過加工清洗后的數據根據不同的數據類型,選擇不同數據存儲方式, 可以存入HDFSft離線挖掘,或者存儲到實時性高的 MPPS:據庫進行統(tǒng)計分析。2.6 數據分析挖掘大數據分析系統(tǒng)以機器學習、數據挖掘等作為核心技術,構建于大數據管理系統(tǒng) 和云計算平臺之上。其中,大數據管理系統(tǒng)提供數據的存儲與查詢功能,云計算平 臺提供分布式并行計算服

9、務。通過分布式計算與統(tǒng)計分析服務器訪問大數據系統(tǒng), 實現(xiàn)KPI與報表統(tǒng)計分析服務。采用Spark MLlib做為數據挖掘和機器學習框架,MLlib是Spark的標準機器學習框架,MLlib相對于其他機器學習庫包具有更加優(yōu)異的性能或者更容易入門。MLlib機器學習庫具有完整的機器學習框架和各類別機器學習算法, 滿足各種場合的 需求。Mllib隨著Spark版本一起發(fā)布和應用。本系統(tǒng)采用 MLlib構建在Hadoop之 上對大數據進行挖掘處理,實現(xiàn)故障診斷、故障預測、配件庫存優(yōu)化等深度挖掘。2.7 內存數據庫內存數據庫是將全部數據駐留內存的分析型數據庫系統(tǒng),采用內存計算技術,從根本上解決了數據倉庫

10、由于磁盤I/O導致的性能瓶頸問題,具有性能高、成本低、 靈活、可擴展等眾多優(yōu)良特性,尤其適合做為大數據的計算引擎、分析引擎使用。把熱點數據加載到內存數據庫中,提供交互式探查分析、智能查詢分析等功能。2.8 交互式探查分析基于內存數據庫快速查詢,使用明細數據,免去清洗、聚合過程,更快速地分析 和揭露數據中蘊含的問題,直接由業(yè)務人員使用,免去提需求、澄清、確認溝通環(huán)節(jié), 快速實現(xiàn)分析意圖,提高了發(fā)現(xiàn)和解決問題的效率使用時可由全部數據快速過濾出 關注的部分數據進行分析;關注數據的特征可進一步由明細數據刻畫、佐證;可按 需保存分析場景、導出明細數據付諸解決。優(yōu)異的用戶體驗,以客戶體驗為中心設計,側重易

11、理解(業(yè)務視角,選擇、過濾、 分析)、易用(平鋪、圖形操作)、去除干擾(功能隱藏)、快速響應(內存計算)、 增加趣味性(改分檔數)。2.9 數據可視化應用提供通過實時查詢、產品統(tǒng)計功能,不做個性化推送。2.10 語音智能分析大數據平臺提供語言智能分析,通過錄入語言,將語言轉換為文本,并對文本 進行分詞和語義分析,提交到大數據平臺完成產品產品及銷售數據的查詢、統(tǒng)計及 分析的功能。2.11 文本、視頻、圖片存儲大數據平臺增加文本、音視頻、圖片等非結構化數據的存儲。2.12 大數據平臺運維監(jiān)控提供格力大數據平臺管理、運維工具及說明,包括服務器和運維系統(tǒng)都正常運行,運維系統(tǒng)可以對集群所有物理機進行性能

12、監(jiān)控,包括但不限于以下指標:CPU使用率、內存使用率、硬盤利用率、網絡流量、IO負載、系統(tǒng)負載均值、ETL監(jiān)控、數據質量監(jiān)控、等服務器性能指標進行監(jiān)控。運維要考慮大數據平臺的可擴展性,支持:1、 在線添加節(jié)點2、 服務擴展3、 組件的升級4、 異常處理:掛了的節(jié)點如何恢復,記錄日志方便追蹤2.13 大數據平臺任務調度任務調度系統(tǒng)能夠對各類任務進行配置、啟動、跟蹤。同時,應并具備任務聯(lián) 動能力,即可以將多個任務通過流程組裝成一個聯(lián)合任務,各任務之間存在相互制 約關系,任務調度管理能夠根據各任務的執(zhí)行狀態(tài)、結果來自動的啟動后續(xù)任務, 任務間允許并發(fā)及串行兩種模式。要求各任務的配置應當為可視化的配置

13、。對于任務啟動至少包括定時啟動和條件啟動兩種模式。同時允許管理員進行任 務的手動執(zhí)行。任務執(zhí)行可設定優(yōu)先級,比如按銷售 > 技術 > 質量 > 售后(銷售量大的 > 銷售 量小的 >生產 >檢驗來設定。2.14 ETL過程可視化ETL盡量滿足可配置性及可視化操作,如果甲方購買了第三方ETL可視化工具如kettle、Dataflow、Syncsoft等工具,乙方應支持甲方做集成工作。2.15 培訓工作從格力大數據平臺未來的使用及運行來看,北京西塔提供的培訓將達到如下的 目標:完成知識的轉移承建單位開發(fā)完成一個軟件系統(tǒng)后,將通過培訓工作實現(xiàn)知識的轉移,不僅包 括

14、軟件系統(tǒng)的使用方法,同樣還包括業(yè)務理念、系統(tǒng)運行維護方法、技術開發(fā)方法 等滿足系統(tǒng)未來業(yè)務拓展需要的各項技能與方法。實現(xiàn)全員的應用應用系統(tǒng)的建設目標即要建設一個全員參與使用的系統(tǒng),因此培訓的目標之一, 也是要使業(yè)務人員均可以熟練使用該系統(tǒng),增強業(yè)務人員的知識儲備,提高整個使 用應用系統(tǒng)的業(yè)務人員素質。保障系統(tǒng)的安全運行對格力大數據平臺的技術管理人員進行技術培訓,使其能掌握有關軟件產品及 系統(tǒng)的使用、維護、管理,達到能獨立進行管理、故障處理、日常測試維護、個性 化應用開發(fā)等工作目的,以保障北京西塔所提供的應用系統(tǒng)能夠正常、安全地運行。通過以上培訓使用戶系統(tǒng)管理員能夠獨立完成平臺的設置、管理、故障

15、恢復、應急處理等,能夠進行日常的數據庫備份及恢復操作、能夠獨立處理常見突發(fā)事件 及操作員提出的常見操作問題。3建設方案詳見格力大數據項目技術方案.docx »4時間進度與里程碑格力工業(yè)大數據平臺建設。項目工期要求:總工期 10個月分3個階段:里程碑階段性成果與提交物時間(月)付款1.項目簽約人員進場30%2.、基礎平臺搭建&業(yè) 務模型設計數據調研報告、數據標準化文檔需求規(guī)格說明書功能設計說明書220%3.業(yè)務需求開發(fā)ETL、業(yè)務模型開發(fā)、大數據服務接口開發(fā)、大數據標準可視化系統(tǒng)開發(fā)、MPP內存數據庫、交互式探查分析、智能語音搜索330%4.大數據管理系統(tǒng)大數據運維監(jiān)控系統(tǒng)大數

16、據任務管理系統(tǒng)大數據安全管理系統(tǒng)210%5.項目終驗產品配置說明應用系統(tǒng)部署架構說明平臺監(jiān)控、維護說明310%5費用支付以合同為準。6需求變更過程6.1 變更依據1 .變更請求除特殊緊急情況,只處理書面變更請求。2 .變更標準當工作說明書中建設內容所說明的工作項因某種原因(如實際業(yè)務變更、可 實現(xiàn)性變更等)發(fā)生增加、減少或變更時,認為變更發(fā)生。3 .變更申請樣式詳見需求變更申請表.docx » 。6.2 變更請求處理流程客戶項目經理將書面變更請求提交項目經理項目經理與技術經理或軟件架構師研究可行性項目經理將研究結果與變更請求一同提交項目控制委員會審批控制委員會將審批結果提交所有相關人

17、若審批通過,項目經理將變更請求提交項目團隊執(zhí)行相應修改項目管理計劃以便后續(xù)跟蹤7雙方責任甲方:珠海格力電器股份有限公司乙方:北京西塔網絡科技股份有限公司甲方責任自合同簽定后,成立項目領導協(xié)調小組并委派高層經理參與項目委員會,協(xié)調解決實施過程中的各種問題;共同審核批準項目實施計劃;共同進行項目實施過程中的重大事件的決策;共同根據項目過程中的進度、質量、技術、資源、風險等實行宏觀監(jiān)控; 幫助協(xié)調項目組織中甲方相關方的工作關系自合同簽訂后,委派項目經理或協(xié)調人在項目的各個階段,包括需求調研、系統(tǒng)開發(fā)、系統(tǒng)實施、驗收測試用 例制定、驗收測試、合同收尾與上線后支持等,協(xié)調項目組織中甲方或 其它相關方的工

18、作關系,包括相關的業(yè)務人員、技術人員等有責任根據雙方確認的實施進度提供必要的工作環(huán)境和工作支持,及時 應乙方的要求向乙方提供實施過程中所需的各種資料和數據、配合乙方 人員的工作在項目的各個階段乙方提交評審請求后,包括需求、設計、驗收測試用例與驗收報告,甲方有責任在 2個工作日內提供反饋確認在項目實施過程中,能及時應乙方的通知組織有關人員參與測試與培訓工作。甲方需提供給乙方一個20人的辦公場所,以及宿舍、出入證。甲方需要參與項目開發(fā)維護人員需要具備以下條件:開發(fā)人員:熟悉java或scala語言,具有一定的軟件開發(fā)、設計經驗。運維人員:深入理解linux系統(tǒng),運維體系結構,精于容量規(guī)劃、架構設計

19、、性能優(yōu)化;精通一門以上腳本語言(shellperlpython 等);熟悉 Hadoop大數據生態(tài)圈,包括 HDFS YARN Hive、HBase Spark 等 使用人員:有一定的計算機知識,能熟練使用 SQL語言以及瀏覽器。乙方責任乙方承諾所提供的大數據相關軟件具有自主知識產權,不侵犯任何第三者的 合法權益。負責甲方項目實施范圍內的開發(fā)與實施工作委派項目經理根據項目進展及工作范圍要求整合工作計劃, 并監(jiān)督實施,控制進度; 協(xié)調項目組內人員的分工合作,資源分配;向雙方匯報項目狀況,提出建議及改進措施;負責用戶需求匯總和分析;與用戶進行有效的溝通協(xié)調負責需求管理、需求變更管理、質量管理、進度管理、成本管理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論