版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)處理平臺(tái)及可視化架構(gòu)設(shè)計(jì)說明書版本:1.0變更記錄序號(hào)版本變更說明修改人/日期審批人/日期11.0創(chuàng)立李萬鴻2023-3-18目錄11.文檔介紹31.1文檔目的31.2文檔范圍31.3讀者對(duì)象31.4參考文獻(xiàn)31.5術(shù)語與縮寫解釋32系統(tǒng)概述43設(shè)計(jì)約束54設(shè)計(jì)謀略65系統(tǒng)總體結(jié)構(gòu)75.1大數(shù)據(jù)集成分析平臺(tái)系統(tǒng)架構(gòu)設(shè)計(jì)75.2可視化平臺(tái)系統(tǒng)架構(gòu)設(shè)計(jì)116其它146.1數(shù)據(jù)庫(kù)設(shè)計(jì)146.2系統(tǒng)管理146.3日志管理141.文檔介紹文檔目的設(shè)計(jì)大數(shù)據(jù)集成分析平臺(tái),主要功能是多種數(shù)據(jù)庫(kù)及文件數(shù)據(jù);訪問;采集;解析,清洗,ETL,同時(shí)可以編寫模型支持后臺(tái)統(tǒng)計(jì)分析算法。設(shè)計(jì)數(shù)據(jù)可視化平臺(tái),應(yīng)用于大數(shù)據(jù)的可視化和互動(dòng)操作。為此,根據(jù)“先進(jìn)實(shí)用、穩(wěn)定可靠〞的原那么設(shè)計(jì)本大數(shù)據(jù)處理平臺(tái)及可視化平臺(tái)。文檔范圍大數(shù)據(jù)的處理,包括ETL、分析、可視化、使用。讀者對(duì)象管理人員、開發(fā)人員參考文獻(xiàn)術(shù)語與縮寫解釋縮寫、術(shù)語解釋BDBigdataSD系統(tǒng)設(shè)計(jì),SystemDesign…系統(tǒng)概述大數(shù)據(jù)集成分析平臺(tái),分為9個(gè)層次,主要功能是對(duì)多種數(shù)據(jù)庫(kù)及網(wǎng)頁(yè)等數(shù)據(jù)進(jìn)行訪采集、解析,清洗,整合、ETL,同時(shí)編寫模型支持后臺(tái)統(tǒng)計(jì)分析算法,提供可信的數(shù)據(jù)。設(shè)計(jì)數(shù)據(jù)可視化平臺(tái),分為3個(gè)層次,在大數(shù)據(jù)集成分析平臺(tái)的根底上實(shí)現(xiàn)大實(shí)現(xiàn)數(shù)據(jù)的可視化和互動(dòng)操作。設(shè)計(jì)約束1.系統(tǒng)必須遵循國(guó)家軟件開發(fā)的標(biāo)準(zhǔn)。2.系統(tǒng)用java開發(fā),采用開源的中間件。3.系統(tǒng)必須穩(wěn)定可靠,性能高,滿足每天千萬次的訪問。4.保證數(shù)據(jù)的成功抽取、轉(zhuǎn)換、分析,實(shí)現(xiàn)高可信和高可用。設(shè)計(jì)謀略系統(tǒng)高可用、高性能、易擴(kuò)展,平安穩(wěn)定,實(shí)用可靠,滿足用戶的需要。系統(tǒng)可以進(jìn)行擴(kuò)展,增加數(shù)據(jù)的種類和數(shù)量。系統(tǒng)可以復(fù)用別的軟件和算法。系統(tǒng)總體結(jié)構(gòu)大數(shù)據(jù)集成分析平臺(tái)系統(tǒng)架構(gòu)設(shè)計(jì)1.邏輯架構(gòu)2架構(gòu)說明系統(tǒng)分為9個(gè)層次:1〕數(shù)據(jù)源:CSMAR數(shù)據(jù)庫(kù)、高頻系列數(shù)據(jù)庫(kù)、量化因子倉(cāng)庫(kù)、風(fēng)險(xiǎn)控制模型數(shù)據(jù)庫(kù)、量化輿情數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)的網(wǎng)頁(yè)。2〕數(shù)據(jù)獲取層:接收數(shù)據(jù)源的數(shù)據(jù)和抓取網(wǎng)頁(yè),建立知識(shí)圖譜將網(wǎng)頁(yè)數(shù)據(jù)結(jié)構(gòu)化,為人工和機(jī)器決策提供依據(jù)。3〕數(shù)據(jù)導(dǎo)入層:通過sqoop把數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入hbase,用flume、kafka把網(wǎng)頁(yè)導(dǎo)入hbase。4〕數(shù)據(jù)加工層:對(duì)導(dǎo)入的數(shù)據(jù)進(jìn)行清洗、抽取、整合,并存入數(shù)據(jù)核心存儲(chǔ)層。5〕數(shù)據(jù)核心存儲(chǔ)層:采用hbase、關(guān)系數(shù)據(jù)庫(kù)保存加工后的數(shù)據(jù)。6〕數(shù)據(jù)分析處理層:通過統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、風(fēng)控模型等對(duì)大數(shù)據(jù)進(jìn)行分析處理。7〕數(shù)據(jù)效勞存儲(chǔ)層:存儲(chǔ)分析結(jié)果,包括Elasticsearch分布式搜索,redis分布式緩存。8〕應(yīng)用層:包括報(bào)表引擎、規(guī)那么引擎、風(fēng)控搜索引擎、用戶認(rèn)證系統(tǒng)、統(tǒng)計(jì)分析接口等。9〕效勞層:對(duì)內(nèi)的應(yīng)用效勞和對(duì)外的應(yīng)用效勞,為用戶提供系統(tǒng)功能。系統(tǒng)采用一系列先進(jìn)的開源技術(shù)框架,實(shí)現(xiàn)大數(shù)據(jù)的抽取、ETL轉(zhuǎn)換、清洗、整合、匯總、統(tǒng)計(jì)分析,得出可信度高的結(jié)果,高速穩(wěn)定地響應(yīng)用戶的請(qǐng)求,可對(duì)公司的寬系列產(chǎn)品提供高質(zhì)量的支持。還可建立企業(yè)云,把大數(shù)據(jù)平臺(tái)放到云上。系統(tǒng)從CSMAR數(shù)據(jù)庫(kù)、高頻系列數(shù)據(jù)庫(kù)、量化因子倉(cāng)庫(kù)、風(fēng)險(xiǎn)控制模型數(shù)據(jù)庫(kù)、量化輿情數(shù)據(jù)庫(kù)抽取數(shù)據(jù),還用機(jī)器爬蟲從互聯(lián)網(wǎng)上抓取與金融相關(guān)的網(wǎng)頁(yè),對(duì)這些結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行抽取、清洗、整合、轉(zhuǎn)換,存入hbase數(shù)據(jù)庫(kù)。統(tǒng)計(jì)分析程序采用一定的算法和模型通過spark、hadoop的yarn、hive、pig等讀取處理數(shù)據(jù),結(jié)果保存在效勞層數(shù)據(jù)庫(kù),為用戶提供可信的數(shù)據(jù),還可通過可視化以各種統(tǒng)計(jì)圖展現(xiàn)出來,通過pc、可以看到結(jié)果。系統(tǒng)提供可視化的操作界面,用戶可自己定義統(tǒng)計(jì)統(tǒng)計(jì)和參數(shù),系統(tǒng)計(jì)算分析后給出對(duì)應(yīng)的圖表。3.系統(tǒng)的特點(diǎn)高負(fù)載和海量數(shù)據(jù)處理能力以云存儲(chǔ)或本地存儲(chǔ)為基石,以云計(jì)算或企業(yè)效勞器為處理核心,建立了海量的數(shù)據(jù)業(yè)務(wù)支撐的大數(shù)據(jù)平臺(tái)。每天可以承受千萬級(jí)PV的訪
問壓力,支撐億級(jí)用戶及P級(jí)各類數(shù)據(jù)存儲(chǔ)如金融數(shù)據(jù)、網(wǎng)頁(yè)、日志文件、圖片、文檔、影音等?;诖舜髷?shù)據(jù)支撐平臺(tái),不僅可以處理日以繼夜增長(zhǎng)的TB級(jí)數(shù)據(jù)增量,更能滿足各類實(shí)時(shí)業(yè)務(wù)需求業(yè)界領(lǐng)先的實(shí)時(shí)性在實(shí)時(shí)處理領(lǐng)域?qū)崿F(xiàn)秒級(jí)突破,可以對(duì)各項(xiàng)業(yè)務(wù)數(shù)據(jù)驚醒實(shí)時(shí)查看與統(tǒng)計(jì),方便客戶快速做出決策和即時(shí)響應(yīng),適應(yīng)當(dāng)今快節(jié)奏開展趨勢(shì)。如傳統(tǒng)監(jiān)控對(duì)年、月、周、日的頻次統(tǒng)計(jì),可以實(shí)現(xiàn)24小時(shí)內(nèi)的實(shí)時(shí)監(jiān)控,和管理當(dāng)前實(shí)時(shí)變化的統(tǒng)計(jì)儀表盤數(shù)據(jù),更能實(shí)現(xiàn)7*24的用戶實(shí)時(shí)行為監(jiān)測(cè)及秒級(jí)分析。全面運(yùn)營(yíng)監(jiān)控指標(biāo)體系不僅擁有常見的接入站點(diǎn)的運(yùn)營(yíng)監(jiān)控流量指標(biāo)如UV、PV、IP、新舊訪客數(shù),還建立了行為質(zhì)量指標(biāo)如用戶的請(qǐng)求,統(tǒng)計(jì)分析的正確度,并可在此根底之上參加客戶行為分析、統(tǒng)計(jì)模型調(diào)優(yōu)、算法調(diào)優(yōu)、網(wǎng)站訪客背景分析、鼠標(biāo)點(diǎn)擊行為等高智能的分析功能,從而為業(yè)務(wù)開展及運(yùn)營(yíng)策略提供了有力的數(shù)據(jù)支撐。對(duì)用戶來源和數(shù)據(jù)的深入挖掘與分析通過該平臺(tái)不僅可以看到接入網(wǎng)站用戶的根本信息(跳出率、回訪次數(shù)、回訪頻率、國(guó)家分析、省份分析、城市分析、網(wǎng)絡(luò)位置、瀏覽器、移動(dòng)終端等),還可以了解到客戶來源(如來源頁(yè)面、網(wǎng)站、搜索引擎、關(guān)鍵字等)。并且在此根底上可以了解到客戶訪問路徑,對(duì)數(shù)據(jù)進(jìn)行多維鉆取,進(jìn)而對(duì)網(wǎng)站客戶數(shù)據(jù)信息的采集、挖掘更加深入。對(duì)大數(shù)據(jù)進(jìn)行深入的分析,為提升網(wǎng)站流量、提供科學(xué)的推薦依據(jù)、實(shí)現(xiàn)高質(zhì)量的客戶差異化效勞給出有力的數(shù)據(jù)支撐。對(duì)用戶行為進(jìn)行實(shí)時(shí)跟蹤、立體分析及即時(shí)溝通和個(gè)性推薦效勞可以針對(duì)實(shí)時(shí)在線的個(gè)體用戶進(jìn)行WEBIM即時(shí)溝通,提供即時(shí)的一對(duì)一效勞。并可以結(jié)合業(yè)務(wù)需求,在實(shí)現(xiàn)客服人員與用戶一對(duì)一的同時(shí),展現(xiàn)該用戶的歷史業(yè)務(wù)操作行為及個(gè)性化信息,如用戶消費(fèi)歷史記錄統(tǒng)計(jì)、行為習(xí)慣及喜好等。統(tǒng)一數(shù)據(jù)接入平臺(tái)數(shù)據(jù)接入層采用sqoop、flume、分布式日志系統(tǒng),實(shí)現(xiàn)推拉模式的各種主流方式,并可按需升級(jí)為統(tǒng)一數(shù)據(jù)接入平臺(tái),不僅支持日志及頁(yè)面源碼數(shù)據(jù),還可以實(shí)現(xiàn)各類接口數(shù)據(jù)的無縫可視化接入,如關(guān)系型和非關(guān)系型數(shù)據(jù)、各種主流非結(jié)構(gòu)化數(shù)據(jù)等。立體推薦及算法可替換平臺(tái)可以對(duì)數(shù)據(jù)進(jìn)行多種分析算法和模型的處理,采用mahout、mlib的二元分類、線性回歸、聚類、協(xié)同過濾、卷積神經(jīng)網(wǎng)絡(luò)〔CNN〕進(jìn)行機(jī)器學(xué)習(xí),采用RF〔隨機(jī)森林〕、SVM〔支持向量機(jī)〕、半監(jiān)督學(xué)習(xí),通過訓(xùn)練到達(dá)權(quán)重等參數(shù)的最正確化,優(yōu)化樣本空間,并實(shí)現(xiàn)完全自動(dòng)化調(diào)參和學(xué)習(xí)。還可結(jié)合用戶群體特征、個(gè)性行為歷史及各種顯式、隱式反應(yīng)進(jìn)行人腦分析,實(shí)現(xiàn)個(gè)體用戶和群體用戶的立體化推薦和全過程的人工干預(yù)。以算法平臺(tái)為支撐,建立了可視化的算法訓(xùn)練和推薦結(jié)構(gòu)的過濾植入,以增強(qiáng)客戶個(gè)性化效勞配置。實(shí)現(xiàn)了各種算法的替換、組合和深度學(xué)習(xí),如傳統(tǒng)的UCF、ICF及業(yè)務(wù)創(chuàng)新的二度人脈剪枝算法等,以盡符合人腦思維習(xí)慣。多種風(fēng)格統(tǒng)計(jì)分析數(shù)據(jù)展現(xiàn)方式對(duì)數(shù)據(jù)統(tǒng)計(jì)分析實(shí)現(xiàn)人性化的各種瀏覽器體驗(yàn),傳統(tǒng)風(fēng)格如線性、柱形、餅狀分析圖為企業(yè)對(duì)不同時(shí)段網(wǎng)站訪問量、網(wǎng)站不同模塊的訪問量、針對(duì)訪客的不同分類進(jìn)行更加直觀的分析。創(chuàng)新風(fēng)格如熱力圖,更形象、視覺化的表達(dá)網(wǎng)站頁(yè)面不同位置客戶點(diǎn)擊密度,實(shí)時(shí)反映出群體用戶的興趣特征,增強(qiáng)運(yùn)營(yíng)。用戶可以自定義條件,得到可視化結(jié)果。主流客戶端的全端統(tǒng)計(jì)該方案不僅可以統(tǒng)計(jì)WINDOWS/MAC/LINUX各類PC用戶的主流瀏覽器客戶端(如IE、360、Chrome、Firefox等)的數(shù)據(jù),還能針對(duì)移動(dòng)互聯(lián)網(wǎng)用戶統(tǒng)計(jì)主流移動(dòng)客戶端(如iphone,ipad,Android等)的各類數(shù)據(jù),并能根據(jù)RESTful接口開發(fā)各類所需的各端統(tǒng)計(jì),如WAP端,嵌入設(shè)備端等。操作體驗(yàn)簡(jiǎn)潔方便該方案秉承了人性化的設(shè)計(jì)理念。在確保精準(zhǔn)、高效的根底上簡(jiǎn)化了操作過程,數(shù)據(jù)檢索分析一鍵解決,極大的方便了客戶使用。各類所需統(tǒng)計(jì)數(shù)據(jù)一目了然,并能針對(duì)主要數(shù)據(jù)如用戶信息、用戶行為等進(jìn)行一鍵化深度分析或即時(shí)效勞操作??煽啃詮?qiáng)以云平臺(tái)作為支撐。該平臺(tái)有極強(qiáng)的可靠性,能夠保證該軟件更穩(wěn)定、有效、平安的運(yùn)行??蓴U(kuò)展性強(qiáng)以云平臺(tái)作為支撐,可以實(shí)現(xiàn)各類平臺(tái)組件按需橫向擴(kuò)展,如存儲(chǔ)擴(kuò)容、計(jì)算增強(qiáng)等。集成性強(qiáng)豐富的接口具有極強(qiáng)的集成性。可以實(shí)現(xiàn)與企業(yè)內(nèi)部業(yè)務(wù)系統(tǒng)的高密度集成,根據(jù)不同業(yè)務(wù)部門需求調(diào)取數(shù)據(jù)和數(shù)據(jù)分析結(jié)果??梢暬瘡?qiáng)統(tǒng)計(jì)分析數(shù)據(jù)以圖表,熱圖等方式表達(dá),方便客戶比照判斷,在使用時(shí)更舒適、方便,提供客戶體驗(yàn)度。各種操作過程如算法訓(xùn)練、人工干預(yù)、數(shù)據(jù)ETL等均實(shí)現(xiàn)可視化,根本性解決了手工代碼操作的問題。提供定制效勞可以根據(jù)客戶的特定需求進(jìn)行更豐富的功能擴(kuò)展,量身打造適宜的實(shí)時(shí)運(yùn)營(yíng)分析及效勞平臺(tái)??梢暬脚_(tái)系統(tǒng)架構(gòu)設(shè)計(jì)數(shù)據(jù)可視化平臺(tái),實(shí)現(xiàn)大數(shù)據(jù)的可視化和互動(dòng)操作。1.邏輯架構(gòu)2.架構(gòu)說明系統(tǒng)分為3個(gè)層次:1〕應(yīng)用系統(tǒng):提供可視化的操作界面和顯示結(jié)果,還包括決策
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)輿論生態(tài)構(gòu)建-洞察分析
- 半日家長(zhǎng)開放日活動(dòng)家長(zhǎng)的感言(10篇)
- 醫(yī)療保險(xiǎn)創(chuàng)新發(fā)展-洞察分析
- 醫(yī)院醫(yī)保每月工作總結(jié)(8篇)
- 《禽場(chǎng)的建筑詳解》課件
- 獸藥經(jīng)營(yíng)企業(yè)課件獸藥知識(shí)
- 辦公室里的知識(shí)競(jìng)賽動(dòng)植物百科的策劃與實(shí)踐
- 辦公室安全的應(yīng)急處理策略
- 利用虛擬技術(shù)豐富小學(xué)生的科學(xué)體驗(yàn)與實(shí)踐
- 健康綠色辦公如何用綠植美化辦公空間
- 漏洞修復(fù)策略優(yōu)化
- 手術(shù)安全培訓(xùn)
- 司機(jī)聘用協(xié)議書與司機(jī)聘用合同
- 汽車吊安全教育培訓(xùn)
- 浙江省寧波市慈溪市2023-2024學(xué)年高二上學(xué)期期末考試 物理 含解析
- 2024七年級(jí)數(shù)學(xué)上冊(cè)第4章相交線與平等線項(xiàng)目學(xué)習(xí)2包裝中的智慧習(xí)題課件新版華東師大版
- 2024湖南田漢大劇院事業(yè)單位招聘若干人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025屆全國(guó)名校大聯(lián)考物理高二第一學(xué)期期末聯(lián)考試題含解析
- 減肥課件模板教學(xué)課件
- 2024年部門年終總結(jié)
- 碼頭安全生產(chǎn)知識(shí)培訓(xùn)
評(píng)論
0/150
提交評(píng)論