大數(shù)據(jù)處理平臺構(gòu)架設(shè)計說明書_第1頁
大數(shù)據(jù)處理平臺構(gòu)架設(shè)計說明書_第2頁
大數(shù)據(jù)處理平臺構(gòu)架設(shè)計說明書_第3頁
大數(shù)據(jù)處理平臺構(gòu)架設(shè)計說明書_第4頁
大數(shù)據(jù)處理平臺構(gòu)架設(shè)計說明書_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)處理平臺及可視化架構(gòu)設(shè)計說明書版本:1.0變更記錄序號版本變更說明修改人/日期審批人/日期11.0創(chuàng)建1/14目錄TOC\o"1-5"\h\z\o"CurrentDocument"1.文檔介紹 3\o"CurrentDocument"文檔目的 3\o"CurrentDocument"文檔范圍 3\o"CurrentDocument"讀者對象 3\o"CurrentDocument"參考文獻 3\o"CurrentDocument"術(shù)語與縮寫解釋 3\o"CurrentDocument"系統(tǒng)概述 4\o"CurrentDocument"設(shè)計約束 5\o"CurrentDocument"設(shè)計策略 6\o"CurrentDocument"系統(tǒng)總體結(jié)構(gòu) 7\o"CurrentDocument"大數(shù)據(jù)集成分析平臺系統(tǒng)架構(gòu)設(shè)計 7\o"CurrentDocument"可視化平臺系統(tǒng)架構(gòu)設(shè)計 .1\o"CurrentDocument"其它 14\o"CurrentDocument"數(shù)據(jù)庫設(shè)計 14\o"CurrentDocument"系統(tǒng)管理 14\o"CurrentDocument"日志管理 142/141.文檔介紹文檔目的設(shè)計大數(shù)據(jù)集成分析平臺,主要功能是多種數(shù)據(jù)庫及文件數(shù)據(jù);訪問;采集;解析,清洗,ETL,同時可以編寫模型支持后臺統(tǒng)計分析算法。設(shè)計數(shù)據(jù)可視化平臺,應(yīng)用于大數(shù)據(jù)的可視化和互動操作。為此,根據(jù)“先進實用、穩(wěn)定可靠”的原則設(shè)計本大數(shù)據(jù)處理平臺及可視化平臺。文檔范大數(shù)據(jù)的處理,包括ETL、分析、可視化、使用。讀者對象管理人員、開發(fā)人員參考文獻術(shù)語與縮寫解釋縮寫、術(shù)語解釋BDBigdataSD系統(tǒng)設(shè)計,SystemDesign…3/142系統(tǒng)概述大數(shù)據(jù)集成分析平臺,分為9個層次,主要功能是對多種數(shù)據(jù)庫及網(wǎng)頁等數(shù)據(jù)進行訪采

集、解析,清洗,整合、ETL,同時編寫模型支持后臺統(tǒng)計分析算法,提供可信的數(shù)據(jù)。設(shè)計數(shù)據(jù)可視化平臺,分為3個層次,在大數(shù)據(jù)集成分析平臺的基礎(chǔ)上實現(xiàn)大實現(xiàn)數(shù)據(jù)的可視化和互動操作。4/14

3設(shè)計約束.系統(tǒng)必須遵循國家軟件開發(fā)的標準。.系統(tǒng)用java開發(fā),采用開源的中間件。.系統(tǒng)必須穩(wěn)定可靠,性能高,滿足每天千萬次的訪問。.保證數(shù)據(jù)的成功抽取、轉(zhuǎn)換、分析,實現(xiàn)高可信和高可用。5/14

5/144設(shè)計策略.系統(tǒng)高可用、高性能、易擴展,安全穩(wěn)定,實用可靠,滿足用戶的需要。.系統(tǒng)可以進行擴展,增加數(shù)據(jù)的種類和數(shù)量。.系統(tǒng)可以復用別的軟件和算法。6/14

6/145系統(tǒng)總體結(jié)構(gòu)5.1大數(shù)據(jù)集成分析平臺系統(tǒng)架構(gòu)設(shè)計用戶認E我藕Kalka-SlDn網(wǎng)陽MUCSl1.邏輯架構(gòu)相情折合慟雕源mt,挈喉國叫j£qEROEMSSfW?呻RLireAgert Fine婀 FlumeAgenliSSF用戶認E我藕Kalka-SlDn網(wǎng)陽MUCSl1.邏輯架構(gòu)相情折合慟雕源mt,挈喉國叫j£qEROEMSSfW?呻RLireAgert Fine婀 FlumeAgenliSSF惘)踴?(蚓wsL跳曲有miI副唧費,變髓錯本胃層府**囪忸■圖臣.置g-g2架構(gòu)說明系統(tǒng)分為9個層次:7/147/141)數(shù)據(jù)源:CSMAR數(shù)據(jù)庫、高頻系列數(shù)據(jù)庫、量化因子倉庫、風險控制模型數(shù)據(jù)庫、量化輿情數(shù)據(jù)庫、互聯(lián)網(wǎng)的網(wǎng)頁。2)數(shù)據(jù)獲取層:接收數(shù)據(jù)源的數(shù)據(jù)和抓取網(wǎng)頁,建立知識圖譜將網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化,為人工和機器決策提供依據(jù)。3)數(shù)據(jù)導入層:通過sqoop把數(shù)據(jù)庫的數(shù)據(jù)導入岫256,用flume、kafka把網(wǎng)頁導入hbase。4)數(shù)據(jù)加工層:對導入的數(shù)據(jù)進行清洗、抽取、整合,并存入數(shù)據(jù)核心存儲層。5)數(shù)據(jù)核心存儲層:采用hbase、關(guān)系數(shù)據(jù)庫保存加工后的數(shù)據(jù)。6)數(shù)據(jù)分析處理層:通過統(tǒng)計分析、數(shù)據(jù)挖掘、機器學習、風控模型等對大數(shù)據(jù)進行分析處理。7)數(shù)據(jù)服務(wù)存儲層:存儲分析結(jié)果,包括Elasticsearch分布式搜索,redis分布式緩存。8)應(yīng)用層:包括報表引擎、規(guī)則引擎、風控搜索引擎、用戶認證系統(tǒng)、統(tǒng)計分析接口等。9)服務(wù)層:對內(nèi)的應(yīng)用服務(wù)和對外的應(yīng)用服務(wù),為用戶提供系統(tǒng)功能。系統(tǒng)采用一系列先進的開源技術(shù)框架,實現(xiàn)大數(shù)據(jù)的抽取、ETL轉(zhuǎn)換、清洗、整合、匯總、統(tǒng)計分析,得出可信度高的結(jié)果,高速穩(wěn)定地響應(yīng)用戶的請求,可對公司的寬系列產(chǎn)品提供高質(zhì)量的支持。還可建立企業(yè)云,把大數(shù)據(jù)平臺放到云上。系統(tǒng)從CSMAR數(shù)據(jù)庫、高頻系列數(shù)據(jù)庫、量化因子倉庫、風險控制模型數(shù)據(jù)庫、量化輿情數(shù)據(jù)庫抽取數(shù)據(jù),還用機器爬蟲從互聯(lián)網(wǎng)上抓取與金融相關(guān)的網(wǎng)頁,對這些結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進行抽取、清洗、整合、轉(zhuǎn)換,存入hbase數(shù)據(jù)庫。統(tǒng)計分析程序采用一定的算法和模型通過spark、hadoop的yarn、hive、pig等讀取處理數(shù)據(jù),結(jié)果保存在服務(wù)層數(shù)據(jù)庫,為用戶提供可信的數(shù)據(jù),還可通過可視化以各種統(tǒng)計圖展現(xiàn)出來,通過pc、手機可以看到結(jié)果。系統(tǒng)提供可視化的操作界面,用戶可自己定義統(tǒng)計統(tǒng)計和參數(shù),系統(tǒng)計算分析后給出對應(yīng)的圖表。3.系統(tǒng)的特點8/141、高負載和海量數(shù)據(jù)處理能力以云存儲或本地存儲為基石,以云計算或企業(yè)服務(wù)器為處理核心,建立了海量的數(shù)據(jù)業(yè)務(wù)支撐的大數(shù)據(jù)平臺。每天可以承受千萬級PV的訪問壓力,支撐億級用戶及P級各類數(shù)據(jù)存儲如金融數(shù)據(jù)、網(wǎng)頁、日志文件、圖片、文檔、影音等。基于此大數(shù)據(jù)支撐平臺,不僅可以處理日以繼夜增長的18級數(shù)據(jù)增量,更能滿足各類實時業(yè)務(wù)需求2、業(yè)界領(lǐng)先的實時性在實時處理領(lǐng)域?qū)崿F(xiàn)秒級突破,可以對各項業(yè)務(wù)數(shù)據(jù)驚醒實時查看與統(tǒng)計,方便客戶快速做出決策和即時響應(yīng),適應(yīng)當今快節(jié)奏發(fā)展趨勢。如傳統(tǒng)監(jiān)控對年、月、周、日的頻次統(tǒng)計,可以實現(xiàn)24小時內(nèi)的實時監(jiān)控,和管理當前實時變化的統(tǒng)計儀表盤數(shù)據(jù),更能實現(xiàn)7*24的用戶實時行為監(jiān)測及秒級分析。3、全面運營監(jiān)控指標體系不僅擁有常見的接入站點的運營監(jiān)控流量指標如UV、PV、IP、新舊訪客數(shù),還建立了行為質(zhì)量指標如用戶的請求,統(tǒng)計分析的正確度,并可在此基礎(chǔ)之上加入客戶行為分析、統(tǒng)計模型調(diào)優(yōu)、算法調(diào)優(yōu)、網(wǎng)站訪客背景分析、鼠標點擊行為等高智能的分析功能,從而為業(yè)務(wù)發(fā)展及運營策略提供了有力的數(shù)據(jù)支撐。4、對用戶來源和數(shù)據(jù)的深入挖掘與分析通過該平臺不僅可以看到接入網(wǎng)站用戶的基本信息(跳出率、回訪次數(shù)、回訪頻率、國家分析、省份分析、城市分析、網(wǎng)絡(luò)位置、瀏覽器、移動終端等),還可以了解到客戶來源(如來源頁面、網(wǎng)站、搜索引擎、關(guān)鍵字等)。并且在此基礎(chǔ)上可以了解到客戶訪問路徑,對數(shù)據(jù)進行多維鉆取,進而對網(wǎng)站客戶數(shù)據(jù)信息的采集、挖掘更加深入。對大數(shù)據(jù)進行深入的分析,為提升網(wǎng)站流量、提供科學的推薦依據(jù)、實現(xiàn)高質(zhì)量的客戶差異化服務(wù)給出有力的數(shù)據(jù)支撐。5、對用戶行為進行實時跟蹤、立體分析及即時溝通和個性推薦服務(wù)可以針對實時在線的個體用戶進行WEBIM即時溝通,提供即時的一對一服務(wù)。并可以結(jié)合業(yè)務(wù)需求,在實現(xiàn)客服人員與用戶一對一的同時,展現(xiàn)該用戶的歷史業(yè)務(wù)操作行為及個性化信息,如用戶消費歷史記錄統(tǒng)計、行為習慣及喜好等。6、統(tǒng)一數(shù)據(jù)接入平臺9/14數(shù)據(jù)接入層采用sqoop、flume、分布式日志系統(tǒng),實現(xiàn)推拉模式的各種主流方式,并可按需升級為統(tǒng)一數(shù)據(jù)接入平臺,不僅支持日志及頁面源碼數(shù)據(jù),還可以實現(xiàn)各類接口數(shù)據(jù)的無縫可視化接入,如關(guān)系型和非關(guān)系型數(shù)據(jù)、各種主流非結(jié)構(gòu)化數(shù)據(jù)等。7、立體推薦及算法可替換平臺可以對數(shù)據(jù)進行多種分析算法和模型的處理,采用mahout、mlib的二元分類、線性回歸、聚類、協(xié)同過濾、卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行機器學習,采用RF(隨機森林)、SVM(支持向量機)、半監(jiān)督學習,通過訓練達到權(quán)重等參數(shù)的最佳化,優(yōu)化樣本空間,并實現(xiàn)完全自動化調(diào)參和學習。還可結(jié)合用戶群體特征、個性行為歷史及各種顯式、隱式反饋進行人腦分析,實現(xiàn)個體用戶和群體用戶的立體化推薦和全過程的人工干預。以算法平臺為支撐,建立了可視化的算法訓練和推薦結(jié)構(gòu)的過濾植入,以增強客戶個性化服務(wù)配置。實現(xiàn)了各種算法的替換、組合和深度學習,如傳統(tǒng)的UCF、ICF及業(yè)務(wù)創(chuàng)新的二度人脈剪枝算法等,以盡符合人腦思維習慣。8、多種風格統(tǒng)計分析數(shù)據(jù)展現(xiàn)方式對數(shù)據(jù)統(tǒng)計分析實現(xiàn)人性化的各種瀏覽器體驗,傳統(tǒng)風格如線性、柱形、餅狀分析圖為企業(yè)對不同時段網(wǎng)站訪問量、網(wǎng)站不同模塊的訪問量、針對訪客的不同分類進行更加直觀的分析。創(chuàng)新風格如熱力圖,更形象、視覺化的體現(xiàn)網(wǎng)站頁面不同位置客戶點擊密度,實時反映出群體用戶的興趣特征,增強運營。用戶可以自定義條件,得到可視化結(jié)果。9、主流客戶端的全端統(tǒng)計該方案不僅可以統(tǒng)計WINDOWS/MAC/LINUX各類PC用戶的主流瀏覽器客戶端(如IE、360、Chrome、Firefox等)的數(shù)據(jù),還能針對移動互聯(lián)網(wǎng)用戶統(tǒng)計主流移動客戶端(如iphone,ipad,Android手機等)的各類數(shù)據(jù),并能根據(jù)RESTful接口開發(fā)各類所需的各端統(tǒng)計,如WAP手機端,嵌入設(shè)備端等。10、操作體驗簡潔方便該方案秉承了人性化的設(shè)計理念。在確保精準、高效的基礎(chǔ)上簡化了操作過程,數(shù)據(jù)檢索分析一鍵解決,極大的方便了客戶使用。各類所10/14需統(tǒng)計數(shù)據(jù)一目了然,并能針對主要數(shù)據(jù)如用戶信息、用戶行為等進行一鍵化深度分析或即時服務(wù)操作。11、可靠性強以云平臺作為支撐。該平臺有極強的可靠性,能夠保證該軟件更穩(wěn)定、有效、安全的運行。12、可擴展性強以云平臺作為支撐,可以實現(xiàn)各類平臺組件按需橫向擴展,如存儲擴容、計算增強等。13、集成性強豐富的接口具有極強的集成性??梢詫崿F(xiàn)與企業(yè)內(nèi)部業(yè)務(wù)系統(tǒng)的高密度集成,根據(jù)不同業(yè)務(wù)部門需求調(diào)取數(shù)據(jù)和數(shù)據(jù)分析結(jié)果。14、可視化強統(tǒng)計分析數(shù)據(jù)以圖表,熱圖等方式體現(xiàn),方便客戶對比判斷,在使用時更舒適、方便,提供客戶體驗度。各種操作過程如算法訓練、人工干預、數(shù)據(jù)ETL等均實現(xiàn)可視化,根本性解決了手工代碼操作的問題。15、提供定制服務(wù)可以根據(jù)客戶的特定需求進行更豐富的功能擴展,量身打造適宜的實時運營分析及服務(wù)平臺。5.2可視化平臺系統(tǒng)架構(gòu)設(shè)計數(shù)據(jù)可視化平臺,實現(xiàn)大數(shù)據(jù)的可視化和互動操作。.邏輯架構(gòu)11/14

應(yīng)用系統(tǒng)數(shù)據(jù)源品@ 0D0 ? 。地需值 ?*|11 應(yīng)用系統(tǒng)數(shù)據(jù)源品@ 0D0 ? 。地需值 ?*|11 **N 陸火* 史?加 修第國… 熊注蛭V J可觸樹皿種的mw止淅 mm國&《t?i那掛.架構(gòu)說明系統(tǒng)分為3個層次:1)應(yīng)用系統(tǒng):提供可視化的操作界面和顯示結(jié)果,還包括決策支持、業(yè)務(wù)分析等。2)大數(shù)據(jù)平臺:包括分布式數(shù)據(jù)庫hbase,對大數(shù)據(jù)的ETL和分析使用。).數(shù)據(jù)源:包括集成平臺的所有數(shù)據(jù)??梢允褂冒俣鹊拈_源軟件echarts實現(xiàn)各種統(tǒng)計圖表的生成??梢暬Ч缦拢?2/14

Ufa招品計算指標~■O合同第合同金靜 /購魅建 1購要數(shù)量回款金額取^]-S3*t因心血上定5口?京福3..773.3OC5?產(chǎn)用Bld荻]-S3*t因心血上定5口?京福3..773.3OC5?產(chǎn)用Bld荻79幽19,436.300

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論