![氣象大數(shù)據(jù)平臺(tái)建設(shè)方案_第1頁](http://file4.renrendoc.com/view/abb65a881b7e5283ba8bd96f5ecda8b3/abb65a881b7e5283ba8bd96f5ecda8b31.gif)
![氣象大數(shù)據(jù)平臺(tái)建設(shè)方案_第2頁](http://file4.renrendoc.com/view/abb65a881b7e5283ba8bd96f5ecda8b3/abb65a881b7e5283ba8bd96f5ecda8b32.gif)
![氣象大數(shù)據(jù)平臺(tái)建設(shè)方案_第3頁](http://file4.renrendoc.com/view/abb65a881b7e5283ba8bd96f5ecda8b3/abb65a881b7e5283ba8bd96f5ecda8b33.gif)
![氣象大數(shù)據(jù)平臺(tái)建設(shè)方案_第4頁](http://file4.renrendoc.com/view/abb65a881b7e5283ba8bd96f5ecda8b3/abb65a881b7e5283ba8bd96f5ecda8b34.gif)
![氣象大數(shù)據(jù)平臺(tái)建設(shè)方案_第5頁](http://file4.renrendoc.com/view/abb65a881b7e5283ba8bd96f5ecda8b3/abb65a881b7e5283ba8bd96f5ecda8b35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
引言在氣象行業(yè)內(nèi)部,氣象數(shù)據(jù)的價(jià)值已經(jīng)和正在被深入挖掘著。但是,不能將氣象預(yù)報(bào)產(chǎn)品的社會(huì)化推廣簡(jiǎn)單地認(rèn)為就是“氣象大數(shù)據(jù)的廣泛應(yīng)用”。大數(shù)據(jù)實(shí)際上是一種混雜數(shù)據(jù),氣象大數(shù)據(jù)應(yīng)該是指氣象行業(yè)所擁有的以及鎖接觸到的全體數(shù)據(jù),包括傳統(tǒng)的氣象數(shù)據(jù)和對(duì)外服務(wù)提供的影視音頻資料、網(wǎng)頁資料、預(yù)報(bào)文本以及地理位置相關(guān)數(shù)據(jù)、社會(huì)經(jīng)濟(jì)共享數(shù)據(jù)等等。傳統(tǒng)的”氣象數(shù)據(jù)“,地面觀測(cè)、氣象衛(wèi)星遙感、天氣雷達(dá)和數(shù)值預(yù)報(bào)產(chǎn)品四類數(shù)據(jù)占數(shù)據(jù)總量的90%以上,基本的氣象數(shù)據(jù)直接用途是氣象業(yè)務(wù)、天氣預(yù)報(bào)、氣候預(yù)測(cè)以及氣象服務(wù)。“大數(shù)據(jù)應(yīng)用”與目前的氣象服務(wù)有所不同,前者是氣象數(shù)據(jù)的“深度應(yīng)用”和“增值應(yīng)用”,后者是既定業(yè)務(wù)數(shù)據(jù)加工產(chǎn)品的社會(huì)推廣應(yīng)用?!按髷?shù)據(jù)的核心就是預(yù)測(cè)”,這是《大數(shù)據(jù)時(shí)代》的作者舍恩伯格的名言。天氣和氣候系統(tǒng)是典型的非線性系統(tǒng),無法通過運(yùn)用簡(jiǎn)單的統(tǒng)計(jì)分析方法來對(duì)其進(jìn)行準(zhǔn)確的預(yù)報(bào)和預(yù)測(cè)。人們常說的南美叢林里一只蝴蝶扇動(dòng)幾下翅膀,會(huì)在幾周后引發(fā)北美的一場(chǎng)暴風(fēng)雪這一現(xiàn)象,形象地描繪了氣象科學(xué)的復(fù)雜性。運(yùn)用統(tǒng)計(jì)分析方法進(jìn)行天氣預(yù)報(bào)在數(shù)十年前便已被氣象科學(xué)界否決了——也就是說,目前經(jīng)典的大數(shù)據(jù)應(yīng)用方法并不適用于天氣預(yù)報(bào)業(yè)務(wù)?,F(xiàn)在,氣象行業(yè)的公共服務(wù)職能越來越強(qiáng),面向政府提供決策服務(wù),面向公眾提供氣象預(yù)報(bào)預(yù)警服務(wù),面向社會(huì)發(fā)展,應(yīng)對(duì)氣候發(fā)展節(jié)能減排。這些決策信息怎么來依賴于我們對(duì)氣象數(shù)據(jù)的處理。氣象大數(shù)據(jù)應(yīng)該在跨行業(yè)綜合應(yīng)用這一“增值應(yīng)用”價(jià)值挖掘過程中煥發(fā)出的新的光芒。
大數(shù)據(jù)平臺(tái)的基本構(gòu)成概述“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘(SaaS),但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)(PaaS)和云存儲(chǔ)、虛擬化技術(shù)(IaaS)。大數(shù)據(jù)可通過許多方式來存儲(chǔ)、獲取、處理和分析。每個(gè)大數(shù)據(jù)來源都有不同的特征,包括數(shù)據(jù)的頻率、量、速度、類型和真實(shí)性。處理并存儲(chǔ)大數(shù)據(jù)時(shí),會(huì)涉及到更多維度,比如治理、安全性和策略。選擇一種架構(gòu)并構(gòu)建合適的大數(shù)據(jù)解決方案極具挑戰(zhàn),因?yàn)樾枰紤]非常多的因素。氣象行業(yè)的數(shù)據(jù)情況則更為復(fù)雜,除了“機(jī)器生成”(可以理解為遙測(cè)、傳感設(shè)備產(chǎn)生的觀測(cè)數(shù)據(jù),大量參與氣象服務(wù)和共享的信息都以文本、圖片、視頻等多種形式存儲(chǔ),符合“大數(shù)據(jù)”的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、veracity(真實(shí)性) 。這些信息長(zhǎng)期存儲(chǔ)于氣象各部門的平臺(tái)上未能加以合理利用。另一方面,這些數(shù)據(jù)本身就是分散存儲(chǔ)于多個(gè)服務(wù)器平臺(tái)上,急需應(yīng)用分布式平臺(tái)統(tǒng)一管理。因此,我們亟需一種結(jié)構(gòu)化和基于模式的方法來簡(jiǎn)化定義完整的大數(shù)據(jù)架構(gòu)的任務(wù)。因?yàn)樵u(píng)估一個(gè)業(yè)務(wù)場(chǎng)景是否存在大數(shù)據(jù)問題很重要,所以我們包含了一些線索來幫助確定哪些業(yè)務(wù)問題適合采用大數(shù)據(jù)解決方案。數(shù)據(jù)基礎(chǔ)決定平臺(tái)框架從分類大數(shù)據(jù)到選擇大數(shù)據(jù)解決方案RDBMS:關(guān)系型數(shù)據(jù)庫(kù);ETL:數(shù)據(jù)清晰、轉(zhuǎn)換、裝載的過程;ELT:數(shù)據(jù)清晰、裝載、轉(zhuǎn)換的過程;CDC:增量數(shù)據(jù)復(fù)制。有同步和異步兩種模式。數(shù)據(jù)種類結(jié)構(gòu)示例量安全性建模存儲(chǔ)和檢索集成使用主數(shù)據(jù)事務(wù)分析數(shù)據(jù)元數(shù)據(jù)結(jié)構(gòu)化觀測(cè)數(shù)據(jù)中-高數(shù)據(jù)庫(kù)、應(yīng)用程序和用戶訪問預(yù)定義的關(guān)系建?;蚓S度建模RDBMS/SQLETL/ELT、CDC應(yīng)用程序、BI和統(tǒng)計(jì)程序參考數(shù)據(jù)結(jié)構(gòu)化和半結(jié)構(gòu)化交換數(shù)據(jù)中-低平臺(tái)安全性靈活可擴(kuò)展XML/xQueryETL/ELT、消息使用基于系統(tǒng)文檔和內(nèi)容非結(jié)構(gòu)化預(yù)報(bào)文件高基于文件系統(tǒng)隨意文件系統(tǒng)/搜索操作系統(tǒng)級(jí)文件移動(dòng)內(nèi)容管理大數(shù)據(jù)-網(wǎng)頁-物聯(lián)網(wǎng)-衛(wèi)星/雷達(dá)等傳感器結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化云圖視頻語音網(wǎng)志高文件系統(tǒng)和數(shù)據(jù)庫(kù)靈活(鍵值)分布式文件系統(tǒng)/noSQLHadoop、MapReduce、ETL/ELT、消息BI和統(tǒng)計(jì)工具結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)“非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)依據(jù)大數(shù)據(jù)類型對(duì)業(yè)務(wù)問題進(jìn)行分類根據(jù)氣象服務(wù)需要,業(yè)務(wù)問題可分類為不同的大數(shù)據(jù)問題類型。以后,我們將使用此類型確定合適的分類模式(原子或復(fù)合)和合適的大數(shù)據(jù)解決方案。但第一步是將業(yè)務(wù)問題映射到它的大數(shù)據(jù)類型。下表列出了常見的業(yè)務(wù)問題并為每個(gè)問題分配了一種大數(shù)據(jù)類型。業(yè)務(wù)問題大數(shù)據(jù)問題描述公用事業(yè):臨近天氣預(yù)報(bào)機(jī)器生成數(shù)據(jù)依據(jù)站點(diǎn)觀測(cè)數(shù)據(jù)匯總和國(guó)家局下發(fā)文件、全球交換數(shù)據(jù)只做的預(yù)報(bào)信息政府決策:區(qū)域天氣預(yù)警機(jī)器生成的數(shù)據(jù)地理信息數(shù)據(jù)政府交換數(shù)據(jù)圖片視頻資料語音播報(bào)數(shù)據(jù)歷史災(zāi)害匯總微博等網(wǎng)頁數(shù)據(jù)政府機(jī)構(gòu)通過“智慧都市”等平臺(tái)整合IS關(guān)聯(lián)天氣預(yù)警產(chǎn)品、預(yù)警通知反饋、城區(qū)建筑布局與災(zāi)害易發(fā)分析結(jié)果預(yù)測(cè)預(yù)判轄區(qū)內(nèi)的災(zāi)情險(xiǎn)情,做好防災(zāi)避險(xiǎn)工作保險(xiǎn)業(yè):氣象相關(guān)險(xiǎn)種氣象預(yù)報(bào)Web與社交媒體數(shù)據(jù)依據(jù)氣象預(yù)報(bào)信息以及網(wǎng)絡(luò)媒體調(diào)查反饋,開辟“中暑險(xiǎn)”、“賞月險(xiǎn)”等多個(gè)險(xiǎn)種醫(yī)療保?。毫餍胁”O(jiān)控氣象預(yù)報(bào)生活指數(shù)根據(jù)歷史氣象資料和流行病歷史資料結(jié)合分析,預(yù)判流行病發(fā)展趨勢(shì),對(duì)流行病監(jiān)控、地區(qū)流行病學(xué)、藥物發(fā)明、臨床試驗(yàn)數(shù)據(jù)分析、病人病情分析等起著至關(guān)重要的作用此類分析也可以為醫(yī)藥企業(yè)的銷售行為提供參考期貨:農(nóng)產(chǎn)品災(zāi)害預(yù)測(cè)氣象災(zāi)害預(yù)警歷史氣候?qū)r(nóng)產(chǎn)品影響分析-用于氣象災(zāi)害提醒、農(nóng)產(chǎn)品價(jià)格變化預(yù)測(cè)-用于期貨市場(chǎng)預(yù)測(cè)分析使用大數(shù)據(jù)類型對(duì)大數(shù)據(jù)特征進(jìn)行分類按特定方向分析大數(shù)據(jù)的特征會(huì)有所幫助,例如以下特征:數(shù)據(jù)如何收集、分析和處理。對(duì)數(shù)據(jù)進(jìn)行分類后,就可以將它與合適的大數(shù)據(jù)模式匹配:分析類型—對(duì)數(shù)據(jù)執(zhí)行實(shí)時(shí)分析還是批量分析。請(qǐng)仔細(xì)考慮分析類型的選擇,因?yàn)檫@會(huì)影響一些有關(guān)產(chǎn)品、工具、硬件、數(shù)據(jù)源和預(yù)期的數(shù)據(jù)頻率的其他決策。一些用例可能需要混合使用兩種類型:臨近分析;分析必須實(shí)時(shí)或近實(shí)時(shí)地完成。歷史分析針對(duì)戰(zhàn)略性業(yè)務(wù)決策的趨勢(shì)分析;分析可采用批量模式。處理方法—要應(yīng)用來處理數(shù)據(jù)的技術(shù)類型(比如預(yù)測(cè)、分析、臨時(shí)查詢和報(bào)告)。業(yè)務(wù)需求確定了合適的處理方法??山Y(jié)合使用各種技術(shù)。處理方法的選擇,有助于識(shí)別要在您的大數(shù)據(jù)解決方案中使用的合適的工具和技術(shù)。數(shù)據(jù)頻率和大小—預(yù)計(jì)有多少數(shù)據(jù)和數(shù)據(jù)到達(dá)的頻率多高。知道頻率和大小,有助于確定存儲(chǔ)機(jī)制、存儲(chǔ)格式和所需的預(yù)處理工具。數(shù)據(jù)頻率和大小依賴于數(shù)據(jù)源:按需分析,與社交媒體數(shù)據(jù)一樣實(shí)時(shí)、持續(xù)提供(天氣數(shù)據(jù)、交易數(shù)據(jù))時(shí)序(基于時(shí)間的數(shù)據(jù))數(shù)據(jù)類型—要處理數(shù)據(jù)類型—交易、歷史、主數(shù)據(jù)等。知道數(shù)據(jù)類型,有助于將數(shù)據(jù)隔離在存儲(chǔ)中。內(nèi)容格式(傳入數(shù)據(jù)的格式)結(jié)構(gòu)化(例如RDMBS)、非結(jié)構(gòu)化(例如音頻、視頻和圖像)或半結(jié)構(gòu)化。格式確定了需要如何處理傳入的數(shù)據(jù),這是選擇工具、技術(shù)以及從業(yè)務(wù)角度定義解決方案的關(guān)鍵。數(shù)據(jù)源—數(shù)據(jù)的來源(生成數(shù)據(jù)的地方),比如Web和社交媒體、機(jī)器生成、人類生成等。識(shí)別所有數(shù)據(jù)源有助于從業(yè)務(wù)角度識(shí)別數(shù)據(jù)范圍。該圖顯示了使用最廣泛的數(shù)據(jù)源。數(shù)據(jù)使用者—處理的數(shù)據(jù)的所有可能使用者的列表:業(yè)務(wù)流程業(yè)務(wù)用戶企業(yè)應(yīng)用程序各種業(yè)務(wù)角色中的各個(gè)人員部分處理流程其他數(shù)據(jù)存儲(chǔ)庫(kù)或企業(yè)應(yīng)用程序硬件—將在其上實(shí)現(xiàn)大數(shù)據(jù)解決方案的硬件類型,包括商用硬件或最先進(jìn)的硬件。理解硬件的限制,有助于指導(dǎo)大數(shù)據(jù)解決方案的選擇。數(shù)據(jù)分類決定應(yīng)用方案將不同的數(shù)據(jù)類型集成后,統(tǒng)一按照大數(shù)據(jù)進(jìn)行處理,如下圖:
大數(shù)據(jù)平臺(tái)的邏輯層次邏輯構(gòu)成從框架上展示了各個(gè)組件的組織方式。這些層提供了一種方法來組織執(zhí)行特定功能的組件。這些層只是邏輯結(jié)構(gòu);這并不意味著支持每層的功能在獨(dú)立的機(jī)器或獨(dú)立的進(jìn)程上運(yùn)行。大數(shù)據(jù)平臺(tái)通常由以下邏輯層組成:數(shù)據(jù)集成層數(shù)據(jù)存儲(chǔ)層數(shù)據(jù)分析層數(shù)據(jù)使用層大數(shù)據(jù)集成層要全面考慮來自所有渠道的,所有可用于分析的數(shù)據(jù)。要求團(tuán)隊(duì)中的數(shù)據(jù)專家闡明執(zhí)行需求所需的數(shù)據(jù)。這些信息包括:格式—結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化。速度和數(shù)據(jù)量—數(shù)據(jù)到達(dá)的速度和傳送它的速率因數(shù)據(jù)源不同而不同。收集點(diǎn)—收集數(shù)據(jù)的位置,直接或通過數(shù)據(jù)提供程序,實(shí)時(shí)或以批量模式收集數(shù)據(jù)。數(shù)據(jù)可能來自某個(gè)主要來源,比如天氣條件,也有可能來自一個(gè)輔助來源,比如媒體贊助的天氣頻道。數(shù)據(jù)源的位置—數(shù)據(jù)源可能位于企業(yè)內(nèi)或外部。識(shí)別您具有有限訪問權(quán)的數(shù)據(jù),因?yàn)閷?duì)數(shù)據(jù)的訪問會(huì)影響可用于分析的數(shù)據(jù)范圍。大數(shù)據(jù)存儲(chǔ)層此層負(fù)責(zé)從數(shù)據(jù)源獲取數(shù)據(jù),并在必要時(shí),將它轉(zhuǎn)換為適合符合分析方式的格式。例如,可能需要轉(zhuǎn)換一幅圖,才能將它存儲(chǔ)在HadoopDistributedFileSystem(HDFS)存儲(chǔ)或關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)倉(cāng)庫(kù)中,以供進(jìn)一步處理。規(guī)范 1和治理策略要求為不同的數(shù)據(jù)類型提供合適的存儲(chǔ)。大數(shù)據(jù)分析層分析層讀取數(shù)據(jù)改動(dòng)和存儲(chǔ)層整理(digest)的數(shù)據(jù)。在某些情況下,分析層直接從數(shù)據(jù)源訪問數(shù)據(jù)。設(shè)計(jì)分析層需要認(rèn)真地進(jìn)行事先籌劃和規(guī)劃。必須制定如何管理以下任務(wù)的決策:生成想要的分析從數(shù)據(jù)中獲取洞察找到所需的實(shí)體定位可提供這些實(shí)體的數(shù)據(jù)的數(shù)據(jù)源理解執(zhí)行分析需要哪些算法和工具。大數(shù)據(jù)應(yīng)用層此層使用了分析層所提供的輸出。使用者可以是可視化應(yīng)用程序、人類、業(yè)務(wù)流程或服務(wù)??梢暬治鰧拥慕Y(jié)果可能具有挑戰(zhàn)。大數(shù)據(jù)平臺(tái)的功能架構(gòu)組件構(gòu)成橫向?qū)哟髷?shù)據(jù)集成層大數(shù)據(jù)來源:企業(yè)遺留系統(tǒng)—這些系統(tǒng)是企業(yè)應(yīng)用程序,執(zhí)行業(yè)務(wù)需要的分析并獲取需要的洞察:氣象網(wǎng)絡(luò)設(shè)備監(jiān)測(cè)系統(tǒng)氣象信息共享系統(tǒng)MICAPS網(wǎng)絡(luò)通信系統(tǒng)CMA-Cast突發(fā)應(yīng)急系統(tǒng)氣象預(yù)報(bào)系統(tǒng)氣象服務(wù)系統(tǒng)辦公自動(dòng)化……Web應(yīng)用程序開發(fā)--Web應(yīng)用程序和其他數(shù)據(jù)來源擴(kuò)充了企業(yè)擁有的數(shù)據(jù)。這些應(yīng)用程序可使用自定義的協(xié)議和機(jī)制來公開數(shù)據(jù)。數(shù)據(jù)管理系統(tǒng)(DMS)—數(shù)據(jù)管理系統(tǒng)存儲(chǔ)邏輯數(shù)據(jù)、流程、策略和各種其他類型的文檔:Microsoft?Excel?電子表格MicrosoftWord文檔這些文檔可以轉(zhuǎn)換為可用于分析的結(jié)構(gòu)化數(shù)據(jù)。文檔數(shù)據(jù)可公開為領(lǐng)域?qū)嶓w,或者數(shù)據(jù)改動(dòng)和存儲(chǔ)層可將它轉(zhuǎn)換為領(lǐng)域?qū)嶓w。數(shù)據(jù)存儲(chǔ)—數(shù)據(jù)存儲(chǔ)包含企業(yè)數(shù)據(jù)倉(cāng)庫(kù)、操作數(shù)據(jù)庫(kù)和事務(wù)數(shù)據(jù)庫(kù)。此數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),可直接使用或輕松地轉(zhuǎn)換來滿足需求。這些數(shù)據(jù)不一定存儲(chǔ)在分布式文件系統(tǒng)中,具體依賴于所處的上下文。智慧設(shè)備—智慧設(shè)備能夠捕獲、處理和傳輸使用最廣泛的協(xié)議和格式的信息。這方面的示例包括智能電話、儀表和醫(yī)療設(shè)備。這些設(shè)備可用于執(zhí)行各種類型的分析。絕大多數(shù)智慧設(shè)備都會(huì)執(zhí)行實(shí)時(shí)分析,但從智慧設(shè)備傳來的信息也可批量分析。聚合的數(shù)據(jù)提供程序—這些提供程序擁有或獲取數(shù)據(jù),并以復(fù)雜的格式和所需的頻率通過特定的過濾器公開它。每天都會(huì)產(chǎn)生海量的數(shù)據(jù),它們具有不同的格式,以不同的速度生成,而且通過各種數(shù)據(jù)提供程序、傳感器和現(xiàn)有企業(yè)提供。其他數(shù)據(jù)源—有許多數(shù)據(jù)來自自動(dòng)化的來源:地理信息:地圖地區(qū)詳細(xì)信息位置詳細(xì)信息經(jīng)濟(jì)熱點(diǎn)詳細(xì)信息(工農(nóng)業(yè)旅游交通教育醫(yī)療金融等等)人類生成的內(nèi)容:社交媒體電子郵件博客在線信息傳感器數(shù)據(jù):環(huán)境:天氣、降雨量、濕度、光線電氣:電流、能源潛力等導(dǎo)航裝置電離輻射、亞原子粒子等靠近、存在等位置、角度、位移、距離、速度、加速度聲音、聲震動(dòng)等汽車、運(yùn)輸?shù)葻崃?、熱度、溫度光學(xué)、光、成像、見光度化學(xué)壓力流動(dòng)、流體、速度力、密度級(jí)別等來自傳感器供應(yīng)商的其他數(shù)據(jù)大數(shù)據(jù)存儲(chǔ)層因?yàn)閭魅氲臄?shù)據(jù)可能具有不同的特征,所以數(shù)據(jù)改動(dòng)和存儲(chǔ)層中的組件必須能夠以各種頻率、格式、大小和在各種通信渠道上讀取數(shù)據(jù):數(shù)據(jù)獲取—從各種數(shù)據(jù)源獲取數(shù)據(jù),并將其發(fā)送到數(shù)據(jù)整理組件或存儲(chǔ)在指定的位置中。此組件必須足夠智能,能夠選擇是否和在何處存儲(chǔ)傳入的數(shù)據(jù)。它必須能夠確定數(shù)據(jù)在存儲(chǔ)前是否應(yīng)改動(dòng),或者數(shù)據(jù)是否可直接發(fā)送到業(yè)務(wù)分析層。數(shù)據(jù)整理—負(fù)責(zé)將數(shù)據(jù)修改為需要的格式,以實(shí)現(xiàn)分析用途。此組件可擁有簡(jiǎn)單的轉(zhuǎn)換邏輯或復(fù)雜的統(tǒng)計(jì)算法來轉(zhuǎn)換源數(shù)據(jù)。分析引擎將會(huì)確定所需的特定的數(shù)據(jù)格式。主要的挑戰(zhàn)是容納非結(jié)構(gòu)化數(shù)據(jù)格式,比如圖像、音頻、視頻和其他二進(jìn)制格式。分布式數(shù)據(jù)存儲(chǔ)—負(fù)責(zé)存儲(chǔ)來自數(shù)據(jù)源的數(shù)據(jù)。通常,這一層中提供了多個(gè)數(shù)據(jù)存儲(chǔ)選項(xiàng),比如分布式文件存儲(chǔ)(DFS)、云、結(jié)構(gòu)化數(shù)據(jù)源、NoSQL等。分析層這是從數(shù)據(jù)中提取業(yè)務(wù)洞察的層:分析層實(shí)體識(shí)別—負(fù)責(zé)識(shí)別和填充上下文實(shí)體。這是一個(gè)復(fù)雜的任務(wù),需要高效的高性能流程。數(shù)據(jù)整理組件應(yīng)為這個(gè)實(shí)體識(shí)別組件提供補(bǔ)充,將數(shù)據(jù)修改為需要的格式。分析引擎將需要上下文實(shí)體來執(zhí)行分析。分析引擎—使用其他組件(具體來講,包括實(shí)體鑒別、模型管理和分析算法)來處理和執(zhí)行分析。分析引擎可具有支持并行處理的各種不同的工作流、算法和工具。模型管理—負(fù)責(zé)維護(hù)各種統(tǒng)計(jì)模型,驗(yàn)證和檢驗(yàn)這些模型,通過持續(xù)培訓(xùn)模型來提高準(zhǔn)確性。然后,模型管理組件會(huì)推廣這些模型,它們可供實(shí)體識(shí)別或分析引擎組件使用。使用層這一層使用了從分析應(yīng)用程序獲取的業(yè)務(wù)洞察。分析的結(jié)果由組織內(nèi)的各個(gè)用戶和組織外部的實(shí)體(比如客戶、供應(yīng)商、合作伙伴和提供商)使用。此洞察可用于針對(duì)客戶提供產(chǎn)品營(yíng)銷信息。例如,借助從分析中獲取的洞察,公司可以使用客戶偏好數(shù)據(jù)和位置感知,在客戶經(jīng)過通道或店鋪時(shí)向他們提供個(gè)性化的營(yíng)銷信息。該洞察可用于檢測(cè)欺詐,實(shí)時(shí)攔截交易,并將它們與使用已存儲(chǔ)在企業(yè)中的數(shù)據(jù)構(gòu)建的視圖進(jìn)行關(guān)聯(lián)。在欺詐性交易發(fā)生時(shí),可以告知客戶可能存在欺詐,以便及時(shí)采取更正操作。此外,可以根據(jù)在數(shù)據(jù)改動(dòng)層完成的分析來觸發(fā)業(yè)務(wù)流程??梢詥?dòng)自動(dòng)化的步驟—例如,如果客戶接受了一條可自動(dòng)觸發(fā)的營(yíng)銷信息,則需要?jiǎng)?chuàng)建一個(gè)新訂單,如果客戶報(bào)告了欺詐,那么可以觸發(fā)對(duì)信用卡使用的阻止。分析的輸出也可由推薦引擎使用,該引擎可將客戶與他們喜歡的產(chǎn)品相匹配。推薦引擎分析可用的信息,并提供個(gè)性化且實(shí)時(shí)的推薦。使用層還為內(nèi)部用戶提供了理解、找到和導(dǎo)航企業(yè)內(nèi)外的鏈鎖信息的能力。對(duì)于內(nèi)部使用者,為業(yè)務(wù)用戶構(gòu)建報(bào)告和儀表板的能力使得利益相關(guān)者能夠制定精明的決策并設(shè)計(jì)恰當(dāng)?shù)膽?zhàn)略。為了提高操作有效性,可以從數(shù)據(jù)中生成實(shí)時(shí)業(yè)務(wù)警告,而且可以監(jiān)視操作性的關(guān)鍵績(jī)效指標(biāo):交易攔截器—此組件可實(shí)時(shí)攔截高容量交易,將它們轉(zhuǎn)換為一種容易被分析層理解的實(shí)時(shí)格式,以便在傳入數(shù)據(jù)上執(zhí)行實(shí)時(shí)分析。事務(wù)攔截器應(yīng)能夠集成并處理來自各種來源的數(shù)據(jù),比如傳感器、智能儀表、麥克風(fēng)、攝像頭、GPS設(shè)備、ATM和圖像掃描儀??梢允褂酶鞣N類型的適配器和API來連接到數(shù)據(jù)源。也可以使用各種加速器來簡(jiǎn)化開發(fā),比如實(shí)時(shí)優(yōu)化和流分析,視頻分析,銀行、保險(xiǎn)、零售、電信和公共運(yùn)輸領(lǐng)域的加速器,社交媒體分析,以及情緒分析。業(yè)務(wù)流程管理流程—來自分析層的洞察可供業(yè)務(wù)流程執(zhí)行語言(BPEL)流程、API或其他業(yè)務(wù)流程使用,通過自動(dòng)化上游和下游IT應(yīng)用程序、人員和流程的功能,進(jìn)一步獲取業(yè)務(wù)價(jià)值。實(shí)時(shí)監(jiān)視—可以使用從分析中得出的數(shù)據(jù)來生成實(shí)時(shí)警告??梢詫⒕姘l(fā)送給感興趣的使用者和設(shè)備,比如智能電話和平板電腦。可以使用從分析組件生成的數(shù)據(jù)洞察,定義并監(jiān)視關(guān)鍵績(jī)效指標(biāo),以便確定操作有效性。實(shí)時(shí)數(shù)據(jù)可從各種來源以儀表板的形式向業(yè)務(wù)用戶公開,以便監(jiān)視系統(tǒng)的健康或度量營(yíng)銷活動(dòng)的有效性。報(bào)告引擎—生成與傳統(tǒng)商業(yè)智能報(bào)告類似的報(bào)告的能力至關(guān)重要。用戶可基于從分析層中得到的洞察,創(chuàng)建臨時(shí)報(bào)告、計(jì)劃的報(bào)告或自助查詢和分析。推薦引擎—基于來自分析層的分析結(jié)果,推薦引擎可向購(gòu)物者提供實(shí)時(shí)的、相關(guān)的和個(gè)性化的推薦,提高電子商務(wù)交易中的轉(zhuǎn)換率和每個(gè)訂單的平均價(jià)值。該引擎實(shí)時(shí)處理可用信息并動(dòng)態(tài)地響應(yīng)每個(gè)用戶,響應(yīng)基于用戶的實(shí)時(shí)活動(dòng)、存儲(chǔ)在CRM系統(tǒng)中的注冊(cè)客戶信息,以及非注冊(cè)客戶的社交概況??梢暬桶l(fā)現(xiàn)—數(shù)據(jù)可跨企業(yè)內(nèi)外的各種聯(lián)邦的數(shù)據(jù)源進(jìn)行導(dǎo)航。數(shù)據(jù)可能具有不同的內(nèi)容和格式,所有數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)可組合來進(jìn)行可視化并提供給用戶。此能力使得組織能夠?qū)⑵鋫鹘y(tǒng)的企業(yè)內(nèi)容(包含在企業(yè)內(nèi)容管理系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)中)與新的社交內(nèi)容(例如tweet和博客文章)組合到單個(gè)用戶界面中。垂直層影響邏輯層(大數(shù)據(jù)來源、數(shù)據(jù)改動(dòng)和存儲(chǔ)、分析和使用層)的所有組件的各方面都包含在垂直層中:信息集成大數(shù)據(jù)治理系統(tǒng)管理服務(wù)質(zhì)量信息集成大數(shù)據(jù)應(yīng)用程序從各種數(shù)據(jù)起源、提供程序和數(shù)據(jù)源獲取數(shù)據(jù),并存儲(chǔ)在HDFS、NoSQL和MongoDB等數(shù)據(jù)存儲(chǔ)系統(tǒng)中。這個(gè)垂直層可供各種組件使用(例如數(shù)據(jù)獲取、數(shù)據(jù)整理、模型管理和交易攔截器),負(fù)責(zé)連接到各種數(shù)據(jù)源。集成將具有不同特征(例如協(xié)議和連接性)的數(shù)據(jù)源的信息,需要高質(zhì)量的連接器和適配器??梢允褂眉铀倨鬟B接到大多數(shù)已知和廣泛使用的來源。這些加速器包括社交媒體適配器和天氣數(shù)據(jù)適配器。各種組件還可以使用這一層在大數(shù)據(jù)存儲(chǔ)中存儲(chǔ)信息,從大數(shù)據(jù)存儲(chǔ)中檢索信息,以便處理這些信息。大多數(shù)大數(shù)據(jù)存儲(chǔ)都提供了服務(wù)和API來存儲(chǔ)和檢索該信息。大數(shù)據(jù)治理數(shù)據(jù)治理涉及到定義指南來幫助企業(yè)制定有關(guān)數(shù)據(jù)的正確決策。大數(shù)據(jù)治理有助于處理企業(yè)內(nèi)或從外部來源傳入的數(shù)據(jù)的復(fù)雜性、量和種類。在將數(shù)據(jù)傳入企業(yè)進(jìn)行處理、存儲(chǔ)、分析和清除或歸檔時(shí),需要強(qiáng)有力的指南和流程來監(jiān)視、構(gòu)建、存儲(chǔ)和保護(hù)數(shù)據(jù)。除了正常的數(shù)據(jù)治理考慮因素之外,大數(shù)據(jù)治理還包含其他因素:管理各種格式的大量數(shù)據(jù)。持續(xù)培訓(xùn)和管理必要的統(tǒng)計(jì)模型,以便對(duì)非結(jié)構(gòu)化數(shù)據(jù)和分析進(jìn)行預(yù)處理。請(qǐng)記住,設(shè)置處理非結(jié)構(gòu)化數(shù)據(jù)時(shí)的重要一步。為外部數(shù)據(jù)設(shè)置有關(guān)其保留和使用的策略和合規(guī)性制度。定義數(shù)據(jù)歸檔和清除策略。創(chuàng)建如何跨各種系統(tǒng)復(fù)制數(shù)據(jù)的策略。設(shè)置數(shù)據(jù)加密策略。服務(wù)質(zhì)量層此層復(fù)雜定義數(shù)據(jù)質(zhì)量、圍繞隱私和安全性的策略、數(shù)據(jù)頻率、每次抓取的數(shù)據(jù)大小和數(shù)據(jù)過濾器:數(shù)據(jù)質(zhì)量完整地識(shí)別所有必要的數(shù)據(jù)元素以可接受的新鮮度提供數(shù)據(jù)的時(shí)間軸依照數(shù)據(jù)準(zhǔn)確性規(guī)則來驗(yàn)證數(shù)據(jù)的準(zhǔn)確性采用一種通用語言(數(shù)據(jù)元組滿足使用簡(jiǎn)單業(yè)務(wù)語言所表達(dá)的需求)依據(jù)數(shù)據(jù)一致性規(guī)則驗(yàn)證來自多個(gè)系統(tǒng)的數(shù)據(jù)一致性在滿足數(shù)據(jù)規(guī)范和信息架構(gòu)指南基礎(chǔ)上的技術(shù)符合性圍繞隱私和安全的策略
需要策略來保護(hù)敏感數(shù)據(jù)。從外部機(jī)構(gòu)和提供程序獲取的數(shù)據(jù)可能包含敏感數(shù)據(jù)(比如Facebook用戶的聯(lián)系信息或產(chǎn)品定價(jià)信息)。數(shù)據(jù)可以來源于不同的地區(qū)和國(guó)家,但必須進(jìn)行相應(yīng)的處理。必須制定有關(guān)數(shù)據(jù)屏蔽和這類數(shù)據(jù)的存儲(chǔ)的決策??紤]以下數(shù)據(jù)訪問策略:數(shù)據(jù)可用性數(shù)據(jù)關(guān)鍵性數(shù)據(jù)真實(shí)性數(shù)據(jù)共享和發(fā)布數(shù)據(jù)存儲(chǔ)和保留,包括能否存儲(chǔ)外部數(shù)據(jù)等問題。如果能夠存儲(chǔ)數(shù)據(jù),數(shù)據(jù)可存儲(chǔ)多長(zhǎng)時(shí)間?可存儲(chǔ)何種類型的數(shù)據(jù)?數(shù)據(jù)提供程序約束(政策、技術(shù)和地區(qū))社交媒體使用條款(參見
參考資料)數(shù)據(jù)頻率
提供新鮮數(shù)據(jù)的頻率是多少?它是按需、連續(xù)還是離線的?抓取的數(shù)據(jù)大小
此屬性有助于定義可抓取的數(shù)據(jù)以及每次抓取后可使用的數(shù)據(jù)大小。過濾器
標(biāo)準(zhǔn)過濾器會(huì)刪除不想要的數(shù)據(jù)和數(shù)據(jù)中的干擾數(shù)據(jù),僅留下分析所需的數(shù)據(jù)。系統(tǒng)管理系統(tǒng)管理對(duì)大數(shù)據(jù)至關(guān)重要,因?yàn)樗婕暗娇缙髽I(yè)集群和邊界的許多系統(tǒng)。對(duì)整個(gè)大數(shù)據(jù)生態(tài)系統(tǒng)的健康的監(jiān)視包括:管理系統(tǒng)日志、虛擬機(jī)、應(yīng)用程序和其他設(shè)備關(guān)聯(lián)各種日志,幫助調(diào)查和監(jiān)視具體情形監(jiān)視實(shí)時(shí)警告和通知使用顯示各種參數(shù)的實(shí)時(shí)儀表板引用有關(guān)系統(tǒng)的報(bào)告和詳細(xì)分析設(shè)定和遵守服務(wù)水平協(xié)議管理存儲(chǔ)和容量歸檔和管理歸檔檢索執(zhí)行系統(tǒng)恢復(fù)、集群管理和網(wǎng)絡(luò)管理策略管理
功能應(yīng)用前面提到的技術(shù)架構(gòu)的這些層定義了各種組件,并對(duì)它們進(jìn)行分類,這些組件必須處理某個(gè)給定業(yè)務(wù)用例的功能性和非功能性需求。本文基于層和組件的概念,介紹了解決方案中所用的典型原子模式和復(fù)合模式。通過將所提出的解決方案映射到此處提供的模式,讓用戶了解需要如何設(shè)計(jì)組件,以及從功能角度考慮,應(yīng)該將它們放置在何處。模式有助于定義大數(shù)據(jù)解決方案的架構(gòu)。利用原子模式和復(fù)合模式可以幫助進(jìn)一步完善大數(shù)據(jù)解決方案的每個(gè)組件的角色和責(zé)任。 原子模式對(duì)于大數(shù)據(jù)上下文中經(jīng)常出現(xiàn)的問題,原子模式
有助于識(shí)別數(shù)據(jù)如何是被使用、處理、存儲(chǔ)和訪問的。它們還有助于識(shí)別所需的組件。訪問、存儲(chǔ)和處理來自不同數(shù)據(jù)源的多種數(shù)據(jù)需要不同的方法。每種模式都用于滿足特定的需求:例如,可視化、歷史數(shù)據(jù)分析、社交媒體數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)??梢詫⒍喾N原子模式結(jié)合使用,組成一個(gè)復(fù)合模式。這些原子模式?jīng)]有進(jìn)行分層或排序。例如,可視化模式可以與社交媒體的數(shù)據(jù)訪問模式直接交互,可視化模式還可以與高級(jí)分析處理模式進(jìn)行交互。數(shù)據(jù)使用組件這種類型的模式處理使用數(shù)據(jù)分析結(jié)果的各種方式。數(shù)據(jù)使用模式可以滿足幾個(gè)需求??梢暬M件可視化數(shù)據(jù)的傳統(tǒng)方式以圖表、儀表板和摘要報(bào)告為基礎(chǔ)。這些傳統(tǒng)的方法并不總是用來可視化數(shù)據(jù)的最佳方式。大數(shù)據(jù)可視化的典型需求(包括新出現(xiàn)的需求)如下所示:執(zhí)行流數(shù)據(jù)的實(shí)時(shí)分析和顯示基于上下文,以交互方式挖掘數(shù)據(jù)執(zhí)行高級(jí)搜索,并獲得建議并行可視化信息獲得先進(jìn)的硬件,支持未來的可視化需求正在進(jìn)行研究,以確定人類和機(jī)器如何使用大數(shù)據(jù)洞察。這些挑戰(zhàn)包括所涉及的數(shù)據(jù)量,并且需要將數(shù)據(jù)與上下文相關(guān)聯(lián)。必須在適當(dāng)?shù)纳舷挛闹酗@示洞察??梢暬瘮?shù)據(jù)的目的是為了更容易、更直觀地使用數(shù)據(jù),因此報(bào)告和儀表板可能提供全高清的觀看效果和3-D互動(dòng)視頻,并且可以為用戶提供使用應(yīng)用程序控制業(yè)務(wù)活動(dòng)和結(jié)果的能力。即席發(fā)現(xiàn)組件創(chuàng)建滿足所有業(yè)務(wù)需求的標(biāo)準(zhǔn)報(bào)告往往是不可行的,因?yàn)槠髽I(yè)的業(yè)務(wù)數(shù)據(jù)查詢會(huì)有不同的需求。用戶在查找特定信息時(shí),可能需要獲得根據(jù)問題的上下文執(zhí)行即席查詢的能力。即席分析可以幫助數(shù)據(jù)專家和關(guān)鍵業(yè)務(wù)用戶了解業(yè)務(wù)數(shù)據(jù)的行為。即席處理中涉及的復(fù)雜性來自多種因素:多個(gè)數(shù)據(jù)源可用于相同的域。單一的查詢可以有多個(gè)結(jié)果。輸出可以是靜態(tài)的,并具有多種格式(視頻、音頻、圖形和文本)。輸出可以是動(dòng)態(tài)和交互式的。數(shù)據(jù)轉(zhuǎn)儲(chǔ)組件在大數(shù)據(jù)的初步探索中,許多企業(yè)選擇使用現(xiàn)有的分析平臺(tái)來降低成本,并依賴于現(xiàn)有的技能。加強(qiáng)現(xiàn)有的數(shù)據(jù)存儲(chǔ)有助于拓寬可用于現(xiàn)有分析的數(shù)據(jù)的范圍,包括駐留在組織邊界內(nèi)外的數(shù)據(jù),比如社交媒體數(shù)據(jù),它可以豐富主數(shù)據(jù)。通過拓寬數(shù)據(jù)范圍,使之包含現(xiàn)有存儲(chǔ)中的新事實(shí)表、維度和主數(shù)據(jù),并從社交媒體獲取客戶數(shù)據(jù),組織可以獲得更深入的客戶洞察。但要牢記的是,新的數(shù)據(jù)集通常比較大,而現(xiàn)有的提取、轉(zhuǎn)換和加載工具可能不足以處理它。您可能需要使用具有大規(guī)模并行處理能力的高級(jí)工具來解決數(shù)據(jù)的數(shù)量、多樣性、真實(shí)性和速度特征。信息推送/通知組件大數(shù)據(jù)洞察使人類、企業(yè)和機(jī)器可以通過使用事件通知而立即采取行動(dòng)。通知平臺(tái)必須能夠處理及時(shí)發(fā)送出去的預(yù)計(jì)數(shù)量的通知。這些通知與大量郵件或群發(fā)短信不同,因?yàn)閮?nèi)容一般是特定于使用者的。例如,推薦引擎可以提供有關(guān)世界各地的龐大客戶群的洞察,而且可以將通知發(fā)送給這樣的客戶。自動(dòng)響應(yīng)組件從大數(shù)據(jù)獲得的業(yè)務(wù)洞察,可用于觸發(fā)或啟動(dòng)其他業(yè)務(wù)流程或事務(wù)數(shù)據(jù)處理組件無論數(shù)據(jù)是處于靜止?fàn)顟B(tài)還是在運(yùn)動(dòng)中,都可以處理大數(shù)據(jù)。具體情況取決于分析的復(fù)雜性,有可能不需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。這種模式解決了對(duì)大數(shù)據(jù)進(jìn)行實(shí)時(shí)、近實(shí)時(shí)或批量處理的方式。以下高級(jí)的大數(shù)據(jù)處理類別適用于大多數(shù)分析。這些類別通常也適用于基于RDBMS的傳統(tǒng)系統(tǒng)。惟一的區(qū)別是龐大規(guī)模的數(shù)據(jù)、多樣性和速度。在處理大數(shù)據(jù)時(shí),要使用機(jī)器學(xué)習(xí)、復(fù)雜事件處理、事件流處理、決策管理和統(tǒng)計(jì)模型管理等技術(shù)。歷史數(shù)據(jù)分析組件傳統(tǒng)的歷史數(shù)據(jù)分析僅限于預(yù)定義的數(shù)據(jù)時(shí)間段,這通常取決于數(shù)據(jù)保留策略。由于處理和存儲(chǔ)的限制,超出此時(shí)間段的數(shù)據(jù)通常會(huì)被歸檔或清除?;贖adoop的系統(tǒng)和其他等效的系統(tǒng)可以克服這些限制,因?yàn)樗鼈兙哂胸S富的存儲(chǔ)以及分布式大規(guī)模并行處理能力。運(yùn)營(yíng)、業(yè)務(wù)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)被移動(dòng)到大數(shù)據(jù)存儲(chǔ),您通過使用大數(shù)據(jù)平臺(tái)功能對(duì)它們進(jìn)行處理。歷史分析包括分析給定時(shí)間段、季節(jié)組合和產(chǎn)品的歷史趨勢(shì),并與最新的可用數(shù)據(jù)進(jìn)行比較。為了能夠存儲(chǔ)和處理如此龐大的數(shù)據(jù),您可以使用HDFS、NoSQL、SPSS?和InfoSphere?BigInsights?。高級(jí)分析組件大數(shù)據(jù)提供了很多實(shí)現(xiàn)創(chuàng)意洞察的機(jī)會(huì)。不同的數(shù)據(jù)集可以在多種上下文中存在關(guān)聯(lián)。發(fā)現(xiàn)這些關(guān)系需要?jiǎng)?chuàng)新的復(fù)雜算法和技術(shù)。高級(jí)分析包括預(yù)測(cè)、決策、推理過程、模擬、上下文信息標(biāo)識(shí)和實(shí)體解析。高級(jí)分析的應(yīng)用包括生物統(tǒng)計(jì)數(shù)據(jù)分析(例如,DNA分析)、空間分析、基于位置的分析、科學(xué)分析、研究,等等。高級(jí)分析要求大量的計(jì)算來管理大量的數(shù)據(jù)。數(shù)據(jù)專家可以指導(dǎo)您識(shí)別合適的技術(shù)、算法和數(shù)據(jù)集,以及在給定上下文中解決問題所需的數(shù)據(jù)源。比如SPSS、InfoSphereStreams和InfoSphereBigInsights等工具提供了這類功能。這些工具訪問存儲(chǔ)在大數(shù)據(jù)存儲(chǔ)系統(tǒng)(比如BigTable、HBase,等等)中的非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)(例如,JSON數(shù)據(jù))。預(yù)處理原始數(shù)據(jù)組件大數(shù)據(jù)解決方案主要由基于MapReduce的Hadoop系統(tǒng)和技術(shù)組成,MapReduce是開箱即用的分布式存儲(chǔ)和處理解決方案。然而,從非結(jié)構(gòu)化數(shù)據(jù)提取數(shù)據(jù)(例如,圖像、音頻、視頻、二進(jìn)制提要,甚至是文本)是一項(xiàng)復(fù)雜的任務(wù),需要具有機(jī)器學(xué)習(xí)能力并掌握自然語言處理等技術(shù)。另一個(gè)主要挑戰(zhàn)是如何驗(yàn)證這些技術(shù)和算法的輸出的準(zhǔn)確度和正確性。要對(duì)任何數(shù)據(jù)執(zhí)行分析,數(shù)據(jù)都必須是某種結(jié)構(gòu)化格式。從多個(gè)數(shù)據(jù)源訪問的非結(jié)構(gòu)化數(shù)據(jù)可以按原樣存儲(chǔ),然后被轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)(例如JSON),并被再次存儲(chǔ)到大數(shù)據(jù)存儲(chǔ)系統(tǒng)中。非結(jié)構(gòu)化文本可以轉(zhuǎn)換成半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。同樣,圖像、音頻和視頻數(shù)據(jù)需要轉(zhuǎn)換成可用于分析的格式。此外,使用預(yù)測(cè)和統(tǒng)計(jì)算法的高級(jí)分析的準(zhǔn)確性和正確性取決于用來訓(xùn)練其模型的數(shù)據(jù)和算法的數(shù)量。下面的列表顯示了將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)所需的算法和活動(dòng):文檔和文本分類特征提取圖像和文本分割關(guān)聯(lián)特征、變量和時(shí)間,然后提取包含時(shí)間的值輸出的準(zhǔn)確度檢查使用了混淆矩陣(confusionmatrix)等技術(shù)和其他手動(dòng)活動(dòng)數(shù)據(jù)專家可以幫助用戶選擇合適的技術(shù)和算法。即席分析組件處理大數(shù)據(jù)的即席查詢所帶來的挑戰(zhàn)不同于對(duì)結(jié)構(gòu)化數(shù)據(jù)執(zhí)行即席查詢時(shí)所面臨的挑戰(zhàn),由于數(shù)據(jù)源和數(shù)據(jù)格式不是固定的,所以需要使用不同的機(jī)制來檢索和處理數(shù)據(jù)。雖然大數(shù)據(jù)供應(yīng)商可以處理簡(jiǎn)單的即席查詢,但在大多數(shù)情況下,查詢是復(fù)雜的,因?yàn)楸仨氃谶\(yùn)行時(shí)動(dòng)態(tài)地發(fā)現(xiàn)數(shù)據(jù)、算法、格式和實(shí)體解析。所以需要利用數(shù)據(jù)專家和業(yè)務(wù)用戶的專業(yè)知識(shí)來定義下列任務(wù)所需的分析:識(shí)別并發(fā)現(xiàn)計(jì)算和算法識(shí)別并發(fā)現(xiàn)數(shù)據(jù)源定義所需的可以由計(jì)算使用的格式對(duì)數(shù)據(jù)執(zhí)行并行計(jì)算數(shù)據(jù)訪問組件在大數(shù)據(jù)解決方案中,有許多數(shù)據(jù)源,還有很多訪問數(shù)據(jù)的方式,本節(jié)將介紹最常見的幾種。web和社交媒體訪問組件Internet是提供許多目前可以獲得的洞察的數(shù)據(jù)源。在幾乎所有分析中,都會(huì)用到Web和社交媒體,但獲得這種數(shù)據(jù)需要不同的訪問機(jī)制。在所有數(shù)據(jù)源中,因?yàn)閃eb和社交媒體的多樣性、速度和數(shù)量,所以Web和社交媒體是最為復(fù)雜的。網(wǎng)站大約有40-50個(gè)類別,每一個(gè)類別都需要使用不同的方式來訪問數(shù)據(jù)。本節(jié)將列出這些類別,并介紹一些訪問機(jī)制。從大數(shù)據(jù)的角度講,高級(jí)的類別是商業(yè)站點(diǎn)、社交媒體站點(diǎn),以及具有特定和通用組件的站點(diǎn)。有關(guān)的訪問機(jī)制見圖3。如果需要的話,在完成預(yù)處理后,可將所訪問的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)中。Web和社交媒體訪問需要執(zhí)行以下步驟來訪問Web媒體信息。圖大數(shù)據(jù)訪問步驟非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)中的Web媒體訪問步驟A-1.爬網(wǎng)程序讀取原始數(shù)據(jù)。步驟A-2.數(shù)據(jù)被存儲(chǔ)在非結(jié)構(gòu)化存儲(chǔ)中。Web媒體訪問為結(jié)構(gòu)化存儲(chǔ)預(yù)處理數(shù)據(jù)步驟B-1.爬網(wǎng)程序讀取原始數(shù)據(jù)。步驟B-2.對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。步驟B-3.數(shù)據(jù)被存儲(chǔ)在結(jié)構(gòu)化存儲(chǔ)中。Web媒體訪問預(yù)處理非結(jié)構(gòu)化數(shù)據(jù)步驟C-1.在極少數(shù)情況下,來自供應(yīng)商的數(shù)據(jù)可以是非結(jié)構(gòu)化數(shù)據(jù)。步驟C-2.對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。步驟C-3.數(shù)據(jù)被存儲(chǔ)在結(jié)構(gòu)化存儲(chǔ)中。非結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)的Web媒體訪問步驟D-1.數(shù)據(jù)供應(yīng)商提供結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。步驟D-2.數(shù)據(jù)被存儲(chǔ)在結(jié)構(gòu)化或非結(jié)構(gòu)化存儲(chǔ)中。Web媒體訪問預(yù)處理非結(jié)構(gòu)化數(shù)據(jù)步驟E-1.不能使用在存儲(chǔ)時(shí)未經(jīng)過預(yù)處理的非結(jié)構(gòu)化數(shù)據(jù),除非它是結(jié)構(gòu)化格式的數(shù)據(jù)。步驟E-2.對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。步驟E-3.經(jīng)過預(yù)處理的結(jié)構(gòu)化數(shù)據(jù)被存儲(chǔ)在結(jié)構(gòu)化存儲(chǔ)中。如圖所示,數(shù)據(jù)可以直接存儲(chǔ)在存儲(chǔ)器中,或者可以對(duì)它們進(jìn)行預(yù)處理,并將它們轉(zhuǎn)換成一個(gè)中間格式或標(biāo)準(zhǔn)格式,然后再存儲(chǔ)它們。在可以分析數(shù)據(jù)之前,數(shù)據(jù)格式必須可用于實(shí)體解析或用于查詢所需數(shù)據(jù)。這種經(jīng)過預(yù)處理的數(shù)據(jù)可以存儲(chǔ)在一個(gè)存儲(chǔ)系統(tǒng)中。雖然預(yù)處理通常被認(rèn)為是微不足道的,但這項(xiàng)處理可能非常復(fù)雜和耗時(shí)。物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)的訪問組件設(shè)備生成的內(nèi)容包括來自傳感器的數(shù)據(jù)數(shù)據(jù)是從天氣信息、電氣儀表和污染數(shù)據(jù)等數(shù)據(jù)來源檢測(cè)到的,并且由傳感器捕獲。這些數(shù)據(jù)可以是照片、視頻、文本和其他二進(jìn)制格式。下圖說明了處理機(jī)器生成的數(shù)據(jù)的典型過程。圖5.設(shè)備生成的數(shù)據(jù)訪問圖5說明了訪問來自傳感器的數(shù)據(jù)的過程。由傳感器捕獲的數(shù)據(jù)可以發(fā)送到設(shè)備網(wǎng)關(guān),設(shè)備網(wǎng)關(guān)會(huì)對(duì)數(shù)據(jù)執(zhí)行一些初始預(yù)處理,并緩沖高速數(shù)據(jù)。機(jī)器生成的數(shù)據(jù)大多為二進(jìn)制格式(音頻、視頻和傳感器讀數(shù))或文本格式。這樣的數(shù)據(jù)最初可以存儲(chǔ)在存儲(chǔ)系統(tǒng)中,也可以對(duì)它們進(jìn)行預(yù)處理,然后再存儲(chǔ)它們。對(duì)于分析來說,要求執(zhí)行預(yù)處理?;A(chǔ)數(shù)據(jù)(觀測(cè)數(shù)據(jù)和生產(chǎn)數(shù)據(jù))的訪問模式可以存儲(chǔ)現(xiàn)有的事務(wù)、運(yùn)營(yíng)和倉(cāng)庫(kù)數(shù)據(jù),避免清除或歸檔數(shù)據(jù)(因?yàn)榇鎯?chǔ)和處理的限制),或減少在數(shù)據(jù)被其他使用者訪問時(shí)對(duì)傳統(tǒng)存儲(chǔ)的負(fù)載。對(duì)于大多數(shù)企業(yè)而言,事務(wù)、運(yùn)營(yíng)、主數(shù)據(jù)和倉(cāng)庫(kù)信息都是所有分析的核心。如果用在Internet上,或者通過傳感器和智能設(shè)備提供的非結(jié)構(gòu)化數(shù)據(jù)以及外部數(shù)據(jù)來增強(qiáng)此數(shù)據(jù),那么可以幫助組織獲得準(zhǔn)確的洞察,并執(zhí)行高級(jí)分析。使用由多個(gè)數(shù)據(jù)庫(kù)廠商提供的標(biāo)準(zhǔn)連接器,事務(wù)和倉(cāng)庫(kù)數(shù)據(jù)可以被推入存儲(chǔ)。預(yù)處理事務(wù)性數(shù)據(jù)要容易得多,因?yàn)閿?shù)據(jù)大多是結(jié)構(gòu)化的??梢允褂煤?jiǎn)單的提取、轉(zhuǎn)換和加載流程將事務(wù)數(shù)據(jù)移動(dòng)到存儲(chǔ)中。事務(wù)數(shù)據(jù)可以很容易地轉(zhuǎn)換成JSON和CSV等格式。使用Sqoop等工具可以更容易將事務(wù)數(shù)據(jù)推入存儲(chǔ)系統(tǒng),如HBase和HDFS。數(shù)據(jù)存儲(chǔ)組件存儲(chǔ)模式有助于確定適當(dāng)?shù)拇鎯?chǔ)各種數(shù)據(jù)的類型和格式。數(shù)據(jù)可以按原樣存儲(chǔ),根據(jù)鍵值對(duì)存儲(chǔ),或者以預(yù)定義的格式存儲(chǔ)。分布式文件系統(tǒng)(如GFS和HDFS)都能夠存儲(chǔ)任何類型的數(shù)據(jù)。但是,高效地檢索或查詢數(shù)據(jù)的能力會(huì)影響性能。技術(shù)的選擇很重要。分布式非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)組件大部分大數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),而且可以通過不同的方式針對(duì)不同的上下文提取它所擁有的信息。大多數(shù)時(shí)候,非結(jié)構(gòu)化數(shù)據(jù)必須按原樣并以其原始格式進(jìn)行存儲(chǔ)。這樣的數(shù)據(jù)可以存儲(chǔ)在分布式文件系統(tǒng)(如HDFS)和NoSQL文檔存儲(chǔ)(如MongoDB)中。這些系統(tǒng)提供了檢索非結(jié)構(gòu)化數(shù)據(jù)的有效方法。分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)組件結(jié)構(gòu)化數(shù)據(jù)包括從數(shù)據(jù)源到達(dá)的已經(jīng)是結(jié)構(gòu)化格式的數(shù)據(jù),以及經(jīng)過預(yù)處理,被轉(zhuǎn)換為JSON數(shù)據(jù)等格式的非結(jié)構(gòu)化數(shù)據(jù)。必須存儲(chǔ)已經(jīng)過轉(zhuǎn)換的數(shù)據(jù),避免從原始數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的頻繁數(shù)據(jù)轉(zhuǎn)換??梢允褂肎oogle的BigTable等技術(shù)來存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。BigTable是一個(gè)大規(guī)模容錯(cuò)式自我管理系統(tǒng),包括TB級(jí)的內(nèi)存和PB級(jí)的存儲(chǔ)。Hadoop中的HBase可媲美BigTable。它使用了HDFS作為底層存儲(chǔ)。傳統(tǒng)數(shù)據(jù)存儲(chǔ)組件對(duì)于存儲(chǔ)大數(shù)據(jù)而言,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)并不是最佳選擇,但在企業(yè)執(zhí)行初步數(shù)據(jù)探索的情況下,企業(yè)可能會(huì)選擇使用現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)、RDBMS系統(tǒng)和其他內(nèi)容存儲(chǔ)。這些現(xiàn)有的存??儲(chǔ)系統(tǒng)可用來存儲(chǔ)使用大數(shù)據(jù)平臺(tái)消化和過濾的數(shù)據(jù)。不要認(rèn)為傳統(tǒng)的數(shù)據(jù)存儲(chǔ)系統(tǒng)適用于大數(shù)據(jù)。云存儲(chǔ)組件許多云計(jì)算基礎(chǔ)架構(gòu)供應(yīng)商都有分布式結(jié)構(gòu)化、非結(jié)構(gòu)化的存儲(chǔ)能力。從傳統(tǒng)的配置、維護(hù)、系統(tǒng)管理、編程和建模角度講,大數(shù)據(jù)技術(shù)有點(diǎn)不同。此外,實(shí)現(xiàn)大數(shù)據(jù)解決方案所需的技能既罕見又昂貴。探索大數(shù)據(jù)技術(shù)的企業(yè)可以使用云解決方案來提供大數(shù)據(jù)的存儲(chǔ)、維護(hù)和系統(tǒng)管理。要存儲(chǔ)的數(shù)據(jù)往往是敏感數(shù)據(jù),這些數(shù)據(jù)包括醫(yī)療記錄和生物特征數(shù)據(jù)。您需要考慮數(shù)據(jù)安全性、數(shù)據(jù)共享、數(shù)據(jù)治理,以及有關(guān)數(shù)據(jù)的其他政策,在考慮將云作為大數(shù)據(jù)存儲(chǔ)庫(kù)的時(shí)候尤其如此。傳輸大量數(shù)據(jù)的能力也是云存儲(chǔ)的另一個(gè)重要考慮因素。復(fù)合模式原子模式
側(cè)重于提供執(zhí)行各項(xiàng)功能所需的能力。但是,復(fù)合模式
是基于端到端的解決方案進(jìn)行分類的。每個(gè)復(fù)合模式都要考慮一個(gè)或多個(gè)維度。在將復(fù)合模式應(yīng)用到每個(gè)模式時(shí),會(huì)有許多變化??梢詫?fù)合模式映射到一個(gè)或多個(gè)原子模式,以解決某個(gè)給定的業(yè)務(wù)問題。本文所述的復(fù)合模式列表是基于經(jīng)常發(fā)生的典型業(yè)務(wù)問題,但這不是復(fù)合模式的完整列表。存儲(chǔ)和探索復(fù)合組件如果業(yè)務(wù)問題需要存儲(chǔ)大量新數(shù)據(jù)和現(xiàn)有數(shù)據(jù),而且先前由于缺乏足夠的存儲(chǔ)和分析能力而一直未使用這些數(shù)據(jù),那么這種模式就非常有用。該模式旨在緩解對(duì)現(xiàn)有數(shù)據(jù)存儲(chǔ)的負(fù)載。所存儲(chǔ)的數(shù)據(jù)可用于初始勘探和即席發(fā)現(xiàn)。用戶可以推演報(bào)告,通過進(jìn)一步的處理來分析數(shù)據(jù)的質(zhì)量和價(jià)值。您可以使用ETL工具來預(yù)處理和凈化原始數(shù)據(jù),然后再進(jìn)行任何類型的分析。圖6.存儲(chǔ)和探索復(fù)合模式圖6說明了這種模式的多個(gè)維度。數(shù)據(jù)的使用目的可能只是存儲(chǔ)它,或處理和使用它。僅存儲(chǔ)的示例是,數(shù)據(jù)的獲取和存儲(chǔ)只是為了將來能夠滿足合規(guī)性或法律的要求。在處理和使用的情況下,分析的結(jié)果可以被處理和使用??梢詮淖罱l(fā)現(xiàn)的來源或從現(xiàn)有的數(shù)據(jù)存儲(chǔ)訪問數(shù)據(jù)。專業(yè)分析和預(yù)測(cè)分析組件使用此模式的情況是,使用多種處理技術(shù)執(zhí)行分析,因此,可以用新洞察豐富現(xiàn)有數(shù)據(jù),或創(chuàng)建可由各種用戶使用的輸出。該分析可以在事件發(fā)生的同時(shí)實(shí)時(shí)發(fā)生,或使用批量模式,根據(jù)收集到的數(shù)據(jù)獲得洞察。作為可以分析的靜態(tài)數(shù)據(jù)的示例,某電信公司可能構(gòu)建客戶流失模型,包括分析呼叫數(shù)據(jù)記錄、社交數(shù)據(jù)和事務(wù)數(shù)據(jù)。作為分析運(yùn)動(dòng)數(shù)據(jù)的示例,預(yù)測(cè)某個(gè)給定事務(wù)正在經(jīng)歷欺詐的需求必須實(shí)時(shí)或近實(shí)時(shí)地發(fā)生。圖7.專用和預(yù)測(cè)分析復(fù)合模式圖7說明了這種模式的多個(gè)維度。所執(zhí)行的處理可以是標(biāo)準(zhǔn)的或預(yù)測(cè)性的,并且可以包括決策。此外,可以將通知發(fā)送給與特定任務(wù)或消息有關(guān)的系統(tǒng)或用戶。該通知可以使用可視化功能。該處理可實(shí)時(shí)發(fā)生或以批量模式發(fā)生。OLAP在線分析大數(shù)據(jù)解決方案的最高級(jí)形式是,對(duì)數(shù)據(jù)集執(zhí)行分析,并且基于可重復(fù)的過去的行動(dòng)或行動(dòng)矩陣來暗示行動(dòng)。該操作可以是手動(dòng)、半自動(dòng)或全自動(dòng)的?;A(chǔ)分析需要高度準(zhǔn)確。行動(dòng)是預(yù)定義的,分析的結(jié)果被映射到行動(dòng)??刹僮鞣治鲋兴婕暗牡湫筒襟E是:分析數(shù)據(jù)以獲得洞察。制定決策。激活相應(yīng)的渠道,對(duì)正確的使用者采取行動(dòng)。圖8.可操作的分析復(fù)合模式圖8說明該分析可以是手動(dòng)、半自動(dòng)或全自動(dòng)的。如圖中的說明所示,它使用了原子模式。手動(dòng)操作
意味著系統(tǒng)基于分析的結(jié)果來提供建議操作,并由人類決定和執(zhí)行操作。半自動(dòng)
意味著,分析建議操作,但不需要通過人類干預(yù)來啟動(dòng)操作,或從一組建議的操作中進(jìn)行選擇。全自動(dòng)
表示在決策之后,系統(tǒng)立即執(zhí)行操作。例如,在設(shè)備被預(yù)測(cè)會(huì)發(fā)生故障之后,系統(tǒng)可以自動(dòng)創(chuàng)建一個(gè)工作訂單。原子模式和符合模式的映射下面的矩陣顯示了如何將原子模式映射到復(fù)合模式,復(fù)合模式是原子模式的組合。每個(gè)復(fù)合模式都被設(shè)計(jì)為針對(duì)具有一組特定特征的數(shù)據(jù)在特定情況下使用。矩陣顯示了模式的典型組合。必須對(duì)模式進(jìn)行調(diào)整,以滿足特定的情況和需求。在矩陣中,按照從最簡(jiǎn)單到最復(fù)雜的順序列出了復(fù)合模式?!皊toreandexplore(存儲(chǔ)和探索)”模式是最簡(jiǎn)單的。圖9.復(fù)合模式對(duì)原子模式的映射圖10.將原子模式映射到架構(gòu)層解決方案模式(模擬應(yīng)用場(chǎng)景)技術(shù)架構(gòu)實(shí)現(xiàn)方案概述技術(shù)架構(gòu)的關(guān)鍵問題hadoop此方案基于開源Apache
Hadoop的框架實(shí)現(xiàn)。因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡(jiǎn)稱HDFS。HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上數(shù)據(jù)庫(kù)此方案實(shí)際上是綜合利用傳統(tǒng)數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)、NOSQL等多種數(shù)據(jù)庫(kù)組合。傳統(tǒng)的數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)用于存儲(chǔ)結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),NOSQL數(shù)據(jù)庫(kù)用于存儲(chǔ)非結(jié)構(gòu)化的數(shù)據(jù)。之所以選擇組合的多數(shù)據(jù)庫(kù)并存方案,主要是考慮到氣象行業(yè)的數(shù)據(jù)存儲(chǔ)現(xiàn)狀比較復(fù)雜,在大叔據(jù)項(xiàng)目實(shí)施過程中很多分析是需要傳統(tǒng)數(shù)據(jù)和文件分析同時(shí)進(jìn)行的。另外,從NOSQL數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)需要一個(gè)緩沖處理。當(dāng)然,這種混合使用的方案會(huì)要求大量的ETL過程來進(jìn)行數(shù)據(jù)的轉(zhuǎn)換和存儲(chǔ)。流計(jì)算在傳統(tǒng)的數(shù)據(jù)分析策略中,數(shù)據(jù)被收集到一個(gè)數(shù)據(jù)庫(kù)中,并被搜索或查詢答案。這種分析方法更多地依賴于數(shù)據(jù)庫(kù)平臺(tái)的資源。Streams
計(jì)算軟件,這是一個(gè)突破性的移動(dòng)數(shù)據(jù)分析平臺(tái)。流計(jì)算動(dòng)態(tài)收集多個(gè)數(shù)據(jù)流,使用先進(jìn)的算法來提供近乎瞬時(shí)的分析。,流計(jì)算顛覆了這種策略,可用于需要立即作出決定的復(fù)雜動(dòng)態(tài)情況。數(shù)據(jù)庫(kù)功能支持開發(fā)及應(yīng)用接口平臺(tái)對(duì)外提供各種開發(fā)接口,包括完全兼容Hadoop生態(tài)圈開源各個(gè)組件API接口,REST訪問接口包括WebHDFS以及StarGate/HBaseREST接口;同時(shí)通過支持SQL2003標(biāo)準(zhǔn)以及PL/SQL,提供JDBC/ODBC接口,能夠使傳統(tǒng)業(yè)務(wù)場(chǎng)景向大數(shù)據(jù)平臺(tái)上進(jìn)行平滑遷移,并且平滑支持第三方BI報(bào)表工具,支持提供標(biāo)準(zhǔn)JDBC4.0(包括JDBCtype4driver)、ODBC3.5驅(qū)動(dòng),ODBC驅(qū)動(dòng)兼容linux、windows(32位或64位)。此外,大數(shù)據(jù)平臺(tái)為數(shù)據(jù)挖掘提供JavaAPI以及R語言接口。通過接口,用戶可以直接使用R語言與SQL進(jìn)行交互式數(shù)據(jù)挖掘探索,同時(shí)可以通過平臺(tái)開放的API進(jìn)行二次開發(fā),通過JDBC/ODBC接口給上層應(yīng)用進(jìn)行SQL查詢。此外,SQL中還包含了基礎(chǔ)的并行統(tǒng)計(jì)挖掘算法庫(kù)的JavaAPI,用戶可以通過并行算法庫(kù)進(jìn)行數(shù)據(jù)挖掘的二次開發(fā)。平臺(tái)提供的主要開發(fā)接口詳細(xì)描述如下:數(shù)據(jù)接口接口描述接口使用對(duì)象ODBC/JDBC接口在應(yīng)用中可以通過ODBC/JDBC連接字連接到SQL上層應(yīng)用開發(fā)人員BI報(bào)表工具WebHDFS接口提供REST的方式訪問HDFS上層應(yīng)用開發(fā)人員StarGate接口提供REST的方式訪問HBase上層應(yīng)用開發(fā)人員核心組件API接口提供各個(gè)組件API編程接口上層應(yīng)用開發(fā)人員數(shù)據(jù)挖掘開發(fā)人員R接口提供RStudioWeb圖形化開發(fā)界面,通過R語言調(diào)用并行算法庫(kù),并可通過并行化算子二次開發(fā)并行化算法。數(shù)據(jù)挖掘開發(fā)人員SQL語法兼容性SQL提供ANSISQL2003語法支持以及SQLServer語法及Oracle存儲(chǔ)過程語言擴(kuò)展,并且可以自動(dòng)識(shí)別HiveQL、SQL2003、SQLServer和PL/SQL語法,在保持跟Hive兼容的同時(shí)提供更強(qiáng)大的SQL支持。支持標(biāo)準(zhǔn)的SQL形式訪問數(shù)據(jù)??梢灾С謽?biāo)準(zhǔn)SQL以及PL/SQL,支持復(fù)雜的數(shù)據(jù)倉(cāng)庫(kù)類分析應(yīng)用,使得從原有數(shù)據(jù)庫(kù)系統(tǒng)遷移到Hadoop更為容易,可以幫助企業(yè)建立高速可擴(kuò)展的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市。SQL支持以下SQL要求:支持創(chuàng)建數(shù)據(jù)庫(kù)、刪除數(shù)據(jù)庫(kù)、配置數(shù)據(jù)庫(kù)的容量支持創(chuàng)建表、刪除表、增加表字段支持創(chuàng)建、修改、刪除視圖CREATE/DROP/ALERTVIEW支持表數(shù)據(jù)類型包括所有的結(jié)構(gòu)化數(shù)據(jù)類型如整形、字符串、浮點(diǎn)型、布爾型、二進(jìn)制、時(shí)間類型等,文檔數(shù)據(jù)類型如XML,JSON,BSON,以及針對(duì)圖片類文件的LOB類型;支持創(chuàng)建索引、刪除索引;支持所有類型的表的連接,支持表的集合運(yùn)算包括求并集、求交集、求差集,支持多層的SQL嵌套查詢,支持IN/NotIN/Exists/NotExists等復(fù)雜查詢支持字符串、日期等常用操作函數(shù)支持最大值、最小值、平均值等聚合函數(shù),支持常用Oracle函數(shù),支持selectinto、insertinto、mergeinto功能支持完整的增刪改語法,具體包括支持單條或者多條插入,支持單條更新和用子查詢更新,支持從表中刪除數(shù)據(jù),支持MergeInto功能。支持子查詢(sub-queryfactoring),包括非同步子查詢(Non-correlatedSub-query)和同步子查詢(CorrelatedSub-query),支持子查詢的多層嵌套。支持在whereclause子句使用同步和非同步subquery(包括IN和NOTIN)支持在Fromclause子句中使用非同步subquery支持Havingclause子句使用非同步subquery支持Selectlist里面使用同步和非同步subquery支持WITHAS語法,并可在系統(tǒng)運(yùn)行中實(shí)時(shí)決定是否選擇物理化WITHAS來加速查詢支持InnerJOIN,OuterJOIN(LeftOuterJOIN,RightOuterJOIN,FullOuterJOIN),ImplicitJOIN,NatureJOIN,CrossJOIN,SELFJOIN,Non-equiJOIN(JOIN條件可以是不等式),MapJOIN,leftsemijoin和leftantisemijoin支持union,intersect,except操作,并且他們可以作為topleveloperator支持in、between以及運(yùn)算符(+-*)直接操作subquery具備較完整的事務(wù)處理支持(包括嵌套事務(wù)),支持BEGINTRANSACTION,ENDTRANSACTION,COMMIT,ROLLBACK操作,支持自治事務(wù)支持基于預(yù)定義維度的數(shù)據(jù)查詢,支持簡(jiǎn)單查詢、組合查詢、模糊查詢等。支持標(biāo)準(zhǔn)DDL,DML,事務(wù)處理,支持SQL2003等,支持SQL子查詢及窗口函數(shù)。支持基本數(shù)據(jù)類型、復(fù)雜數(shù)據(jù)類型、withas子句、同步子查詢、相關(guān)子查詢、嵌套子查詢,窗口函數(shù)、聚合函數(shù)、類型轉(zhuǎn)換、集合函數(shù)、操作符、OraclePL/SQL過程擴(kuò)展,HiveQL。支持?jǐn)?shù)據(jù)累加、統(tǒng)計(jì)、關(guān)聯(lián)、比對(duì)、去重等各種常見的數(shù)據(jù)分析場(chǎng)景。支持標(biāo)準(zhǔn)SQL的方式來訪問Hadoop生態(tài)系統(tǒng)中的其他組件模塊,如Hive、Hbase、hdfs中的文件,并能跨數(shù)據(jù)源做關(guān)聯(lián)查詢和分析。平臺(tái)全面支持HiveQL、SQL2003標(biāo)準(zhǔn)等,可以有效支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)中常用的數(shù)據(jù)立方統(tǒng)計(jì)(CUBE/ROLLUP)、窗口聚合統(tǒng)計(jì)、嵌套(nested)/同步(correlated)子查詢、子表定義和操作,這些功能無法用HiveQL有效實(shí)現(xiàn)。平臺(tái)提供了對(duì)SQL2003標(biāo)準(zhǔn)最全面的支持,最大程度方便用戶開發(fā)基于Hadoop平臺(tái)的應(yīng)用和現(xiàn)有應(yīng)用的遷移。生命周期管理功能在大數(shù)據(jù)時(shí)代,對(duì)于海量數(shù)據(jù)應(yīng)該考慮數(shù)據(jù)的分級(jí)存儲(chǔ)方案以節(jié)約存儲(chǔ)成本。通常,我們會(huì)把數(shù)據(jù)分為熱數(shù)據(jù),在線數(shù)據(jù),近線數(shù)據(jù)和歸檔數(shù)據(jù)。不同的數(shù)據(jù)種類的應(yīng)用和處理會(huì)有不同的需求。對(duì)于熱數(shù)據(jù)和在線數(shù)據(jù),更多的需要考慮應(yīng)用在使用數(shù)據(jù)時(shí)的高效性,SQL用ssd的技術(shù)來加速熱數(shù)據(jù)處理。對(duì)于近線數(shù)據(jù),由于應(yīng)用存取的需求相比熱數(shù)據(jù)和在線數(shù)據(jù)大大減少,主要需要保證數(shù)據(jù)存儲(chǔ)的可靠性,并考慮如何在保證可靠性的基礎(chǔ)上能盡量減少副本以節(jié)約存儲(chǔ)空間。熱數(shù)據(jù)可以根據(jù)應(yīng)用需求,將經(jīng)常需要進(jìn)行分析的熱數(shù)據(jù)從HDFS或者HBase中加載到SQL中的SSD中。通過內(nèi)存加速分析,在秒級(jí)別響應(yīng),對(duì)數(shù)據(jù)進(jìn)行交互式探索挖掘。此外內(nèi)存數(shù)據(jù)庫(kù)還具備了通過R語言或者JAVAAPI對(duì)內(nèi)存數(shù)據(jù)庫(kù)中內(nèi)容進(jìn)行數(shù)據(jù)挖掘的能力。冷數(shù)據(jù)冷數(shù)據(jù)可以使用HDFS中ErasureCode功能進(jìn)行降低副本。ErasureCode可配置策略,指定HDFS中目錄,通過RaidServer監(jiān)控,在指定生命周期后將指定目錄下的文件降低其副本數(shù)為1,并由10個(gè)數(shù)據(jù)塊生成4個(gè)冗余校驗(yàn)塊的,將3倍存儲(chǔ)開銷降低到1.4倍,并且在數(shù)據(jù)可靠性方面,ErasureCode在14個(gè)數(shù)據(jù)塊中可容忍任意4個(gè)塊丟失,比3份冗余存儲(chǔ)可容忍2份數(shù)據(jù)塊丟失更可靠。冷數(shù)據(jù)可使用ErasureCode自動(dòng)降低存儲(chǔ)開銷。一個(gè)典型的應(yīng)用場(chǎng)景如:數(shù)據(jù)在導(dǎo)入HDFS后的一段時(shí)間內(nèi)訪問頻繁,在一段時(shí)間后訪問頻率降低甚至正常狀態(tài)下不訪問??梢酝ㄟ^設(shè)置該數(shù)據(jù)的冷卻時(shí)間,當(dāng)這些數(shù)據(jù)到達(dá)冷卻時(shí)間后,會(huì)自動(dòng)觸發(fā)降副本的進(jìn)程。表分區(qū)功能為了提升海量數(shù)據(jù)查詢性能,提供表分區(qū)功能。支持對(duì)表的單值分區(qū)和范圍分區(qū)。為一張表分區(qū):在物理上,將表中的數(shù)據(jù)按分區(qū)放在表目錄下的對(duì)應(yīng)子目錄中,一個(gè)分區(qū)對(duì)應(yīng)一個(gè)子目錄;在邏輯上,分區(qū)表和未分區(qū)表沒有區(qū)別。分區(qū)在創(chuàng)建表時(shí)完成,也可以通過ALTERTABLE來添加或者刪除。關(guān)于分區(qū)的建議,分區(qū)的目的是減少掃描成本。所以單個(gè)分區(qū)的大小和總分區(qū)數(shù)目都應(yīng)該控制在合理范圍內(nèi)。使用多層分區(qū)帶來的直接問題是總分區(qū)個(gè)數(shù)過多,因?yàn)榭偡謪^(qū)個(gè)數(shù)是所有分區(qū)鍵對(duì)應(yīng)分區(qū)個(gè)數(shù)的乘積。所以我們建議盡量減少使用多層分區(qū)對(duì)于時(shí)間、日期一類的值,使用單值分區(qū)會(huì)導(dǎo)致分區(qū)過多。推薦使用范圍分區(qū)(RANGEPARTITION)。范圍分區(qū)可以靈活控制分區(qū)的數(shù)量,并可根據(jù)數(shù)據(jù)本身的特點(diǎn)使得各個(gè)分區(qū)的大小也控制在合理范圍內(nèi),從而使得應(yīng)用性能得到保證。另外,有很多以往在Oracle系統(tǒng)上的應(yīng)用都是采取的范圍分區(qū),對(duì)范圍分區(qū)的支持也能使得原有應(yīng)用程序的遷移更加簡(jiǎn)單。表壓縮功能在SQL中對(duì)中間數(shù)據(jù)或最終數(shù)據(jù)做壓縮,是提高數(shù)據(jù)吞吐量和性能的一種手段。對(duì)數(shù)據(jù)做壓縮,可以大量減少磁盤的存儲(chǔ)空間,比如基于文本的數(shù)據(jù)文件,壓縮比可達(dá)三倍以上,同時(shí)壓縮后的文件在磁盤間傳輸和I/O也會(huì)大大減少。目前SQL使用hive存儲(chǔ)格式,并支持Snappy等多種壓縮算法。支持對(duì)表按照壓縮比例進(jìn)行及時(shí)透明壓縮。數(shù)據(jù)壓縮后支持查詢、修改、插入、刪除,此過程中無需解壓。大表索引管理目前HBase主要應(yīng)用在結(jié)構(gòu)化和半結(jié)構(gòu)化的大數(shù)據(jù)存儲(chǔ)上,在邏輯上,HBase的表數(shù)據(jù)按RowKey進(jìn)行字典排序,RowKey實(shí)際上是數(shù)據(jù)表的一級(jí)索引(PrimaryIndex),由于HBase本身沒有二級(jí)索引(SecondaryIndex)機(jī)制,基于索引檢索數(shù)據(jù)只能單純地依靠RowKey,為了能支持多條件查詢,開發(fā)者需要將所有可能作為查詢條件的字段一一拼接到RowKey中,這是HBase開發(fā)中極為常見的做法,但是無論怎樣設(shè)計(jì),單一RowKey固有的局限性決定了它不可能有效地支持多條件查詢。受限于單一RowKey在復(fù)雜查詢上的局限性,基于二級(jí)索引(SecondaryIndex)的解決方案成為最受關(guān)注的研究方向。為解決這一問題,HBase在索引支持上做了重大的完善和加強(qiáng)。使用索引的時(shí)候,支持?jǐn)?shù)據(jù)在已創(chuàng)建索引的情況下導(dǎo)入數(shù)據(jù),避免數(shù)據(jù)導(dǎo)入完畢后再創(chuàng)建索引的時(shí)間窗口。數(shù)據(jù)導(dǎo)入與導(dǎo)出Sqoop支持Oracle11g、IBMDB2、MySQL、PostgreSQL等數(shù)據(jù)庫(kù)。常用Sqoop將表從關(guān)系數(shù)據(jù)庫(kù)中全部拷貝到Hadoop中。Sqoop導(dǎo)入過程是分布式的,并支持全量以及增量式導(dǎo)入。Sqoop作為Map/Reduce客戶端,自動(dòng)生成Map-Reduce任務(wù),提交給Hadoop集群進(jìn)行分布式并行數(shù)據(jù)抽取。Sqoop支持將數(shù)據(jù)導(dǎo)入到HDFS,SQL和HBase,或者從HDFS,SQL或者HBase中導(dǎo)出到關(guān)系數(shù)據(jù)庫(kù)。支持同步以及異步形式將文件批量導(dǎo)入數(shù)據(jù)表中。從關(guān)系型數(shù)據(jù)庫(kù)中將數(shù)據(jù)導(dǎo)入到集群平臺(tái)后,需要對(duì)入庫(kù)后的數(shù)據(jù)與原先關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行校驗(yàn),以保證數(shù)據(jù)入庫(kù)后的一致性。數(shù)據(jù)校驗(yàn)在導(dǎo)入到集群平臺(tái)后或出賬完成,對(duì)關(guān)系型數(shù)據(jù)庫(kù)中當(dāng)月單據(jù)表進(jìn)行校驗(yàn),檢測(cè)單據(jù)表是否有變動(dòng),并從以下幾方面進(jìn)行驗(yàn)證:驗(yàn)證導(dǎo)入數(shù)據(jù)的表結(jié)構(gòu)信息;驗(yàn)證原關(guān)系型數(shù)據(jù)庫(kù)中與集群平臺(tái)中表總記錄條數(shù)是否一致;隨機(jī)抽取號(hào)碼,分別從原關(guān)系型數(shù)據(jù)庫(kù)中與集群平臺(tái)中獲取該號(hào)碼的所有單據(jù),對(duì)記錄數(shù)、單據(jù)的完整內(nèi)容進(jìn)行比對(duì),判斷是否一致;根據(jù)反饋的導(dǎo)入結(jié)果情況,如果出現(xiàn)錯(cuò)誤會(huì)反饋出錯(cuò)信息。導(dǎo)入模式可支持批量模式和增量模式批量模式:批量模式用于在平臺(tái)建設(shè)完成初期進(jìn)行歷史數(shù)據(jù)的遷移,將大量的基礎(chǔ)數(shù)據(jù)和歷史數(shù)據(jù)導(dǎo)入平臺(tái)集群??赏ㄟ^sqoop等ETL工具將數(shù)據(jù)導(dǎo)入到HDFS或HBase中;同樣可通過bulkload工具將批量數(shù)據(jù)導(dǎo)入到HBase中;也可以直接將數(shù)據(jù)直接傳入HDFS,其后可以通過建立外表的方式對(duì)數(shù)據(jù)進(jìn)行分析。增量模式:增量模式用于上線后將指定周期時(shí)間間隔(如每天,每小時(shí)或每10分鐘)內(nèi)的數(shù)據(jù)導(dǎo)入平臺(tái),可通過sqoop的增量導(dǎo)入等模式進(jìn)行。對(duì)于數(shù)據(jù)的導(dǎo)出支持SQL查詢結(jié)果導(dǎo)出為文本文件,可以設(shè)定文件的格式(分隔符等)、大小、命名。為了保障導(dǎo)出效率,系統(tǒng)內(nèi)所有節(jié)點(diǎn)并行導(dǎo)出。多級(jí)數(shù)據(jù)存儲(chǔ)考慮到海量數(shù)據(jù)平臺(tái)的特點(diǎn),平臺(tái)實(shí)現(xiàn)了多級(jí)數(shù)據(jù)存儲(chǔ)的方式。根據(jù)數(shù)據(jù)使用的特點(diǎn)分別對(duì)應(yīng)不同的存儲(chǔ)技術(shù)。平臺(tái)的多級(jí)存儲(chǔ)包括,支持獨(dú)立的分布式內(nèi)存列式存儲(chǔ),支持內(nèi)存/SSD緩存相結(jié)合的混合數(shù)據(jù)存儲(chǔ),支持常見的多副本磁盤存儲(chǔ),還支持低副本高容錯(cuò)的磁盤存儲(chǔ)方式。多級(jí)數(shù)據(jù)存儲(chǔ)技術(shù)中的ssd技術(shù),結(jié)合上層高效穩(wěn)定的SQL執(zhí)行引擎,基于分布式內(nèi)存列式存儲(chǔ)的SQL執(zhí)行比MapReduce框架快10~100倍,比開源的Spark快2~5倍。SQL將數(shù)據(jù)緩存在內(nèi)存中,通過高效的內(nèi)存計(jì)算達(dá)到快速掃描海量數(shù)據(jù)的目的。多級(jí)存儲(chǔ)技術(shù)中ErasureCode功能可降低數(shù)據(jù)存儲(chǔ)副本。ErasureCode可配置策略,指定HDFS中目錄,通過RaidServer監(jiān)控,在指定生命周期后將指定目錄下的文件降低其副本數(shù)為1,并由10個(gè)數(shù)據(jù)塊生成4個(gè)冗余校驗(yàn)塊的,將3倍存儲(chǔ)開銷降低到1.4倍,并且在數(shù)據(jù)可靠性方面,ErasureCode在14個(gè)數(shù)據(jù)塊中可容忍任意4個(gè)塊丟失,比3份冗余存儲(chǔ)可容忍2份數(shù)據(jù)塊丟失更可靠。冷數(shù)據(jù)可使用ErasureCode自動(dòng)降低存儲(chǔ)開銷。半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)支持HBase支持半結(jié)構(gòu)化數(shù)據(jù)(JSON/BSON,XML形式存儲(chǔ))和非結(jié)構(gòu)化數(shù)據(jù)例如純文本,圖片或者大對(duì)象的高效存取。由于越來越多的應(yīng)用在考慮對(duì)半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)做查詢,檢索和分析,對(duì)這些數(shù)據(jù)存儲(chǔ)的支持能簡(jiǎn)化應(yīng)用程序的開發(fā)工作,同時(shí)的優(yōu)化使得對(duì)這類數(shù)據(jù)的操作性能更高。全文數(shù)據(jù)處理HBase支持通過建立增量全文索引(全文索引首先會(huì)對(duì)記錄做分詞處理,再對(duì)分詞結(jié)果做相應(yīng)索引)對(duì)于全文關(guān)鍵字搜索達(dá)到秒級(jí)的返回。HBase提供了全文索引功能,支撐內(nèi)容管理,實(shí)現(xiàn)文字等非結(jié)構(gòu)化數(shù)據(jù)的提取和處理;提供增量創(chuàng)建全文索引的能力,可以實(shí)時(shí)搜索到新增的數(shù)據(jù)。安全可靠與運(yùn)維能力提供極為方便的管理工具,易于用戶進(jìn)行數(shù)據(jù)平臺(tái)的平臺(tái)的安裝、部署、配置、管理、監(jiān)控、告警等應(yīng)用,數(shù)據(jù)處理平臺(tái)提供配套系統(tǒng)管理工具M(jìn)anager,Manager管理工具提供以下功能:自動(dòng)部署、狀態(tài)監(jiān)控、資源分配與管理、用戶管理和權(quán)限管理、數(shù)據(jù)管理以及自動(dòng)告警。資源管理獨(dú)特的多租戶架構(gòu)能夠使企業(yè)內(nèi)部各部門之間安全地共享大數(shù)據(jù)資源平臺(tái),這種安全性主要表現(xiàn)在計(jì)算資源和數(shù)據(jù)資源的隔離。在資源隔離方面,YARN支持對(duì)計(jì)算資源和內(nèi)存資源的管理能力,避免占用內(nèi)存資源多的Spark或Map/Reduce集群之間爭(zhēng)搶內(nèi)存資源。對(duì)于數(shù)據(jù)資源的隔離,是物理隔離。首先數(shù)據(jù)統(tǒng)一存儲(chǔ)在大數(shù)平臺(tái)的文件系統(tǒng)上,平臺(tái)管理員可以通過權(quán)限管理數(shù)據(jù)隔離,使得不同用戶互不干擾地使用各自獨(dú)立的數(shù)據(jù)。同時(shí),管理員用戶還可以通過設(shè)置Quota的大小來限制每個(gè)用戶可以使用存儲(chǔ)空間的大小。對(duì)于計(jì)算資源的隔離,是邏輯隔離。平臺(tái)可以通過YARN對(duì)所有的計(jì)算資源進(jìn)行統(tǒng)一管理,可以按需動(dòng)態(tài)創(chuàng)建多個(gè)MapReduce分析集群或者SQL/Spark集群,每類業(yè)務(wù)或者每個(gè)部門可以使用一個(gè)獨(dú)立的MapReduce或SQL/Spark分析集群,并且同時(shí)運(yùn)行。缺省模式下集群就是創(chuàng)建在YARN上,可以非常方便的動(dòng)態(tài)創(chuàng)建和銷毀Spark或者M(jìn)ap/Reduce集群。對(duì)批量統(tǒng)計(jì)業(yè)務(wù),可以在每月運(yùn)行完成后動(dòng)態(tài)銷毀,從而節(jié)省計(jì)算資源,避免建立獨(dú)立的物理集群造成浪費(fèi)。這樣方便靈活部署業(yè)務(wù),適合對(duì)非7x24不間斷業(yè)務(wù)(例如周期性統(tǒng)計(jì)業(yè)務(wù))動(dòng)態(tài)部署。因此,對(duì)于分析平臺(tái)應(yīng)用,可以充分使用Yarn的特性,實(shí)現(xiàn)分析集群的按需創(chuàng)建與銷毀,從而幫助實(shí)現(xiàn)數(shù)據(jù)、資源、計(jì)算能力的統(tǒng)一調(diào)度和規(guī)劃。YARN支持同時(shí)對(duì)計(jì)算資源(CPU核心)和內(nèi)存資源的管理能力,避免占用內(nèi)存資源多的Spark或Map/Reduce集群之間爭(zhēng)搶內(nèi)存資源。在申請(qǐng)資源配額后,如果當(dāng)前用戶的資源緊張或受限,還可以動(dòng)態(tài)調(diào)配其他用戶的閑置資源加入,當(dāng)其他用戶使用時(shí)再歸還。平臺(tái)中不僅能通過YARN實(shí)現(xiàn)資源在不同計(jì)算集群之間的隔離與共享,并且在一個(gè)SQL/Spark計(jì)算集群內(nèi)部同樣能實(shí)現(xiàn)計(jì)算資源在不同資源池(Pool)的共享與隔離,通過公平調(diào)度算法保證高優(yōu)先級(jí)的Pool優(yōu)先拿到閑置資源,同時(shí)每個(gè)Pool具有指定的資源保有量,避免高負(fù)載批處理業(yè)務(wù)占用全部計(jì)算資源。大數(shù)據(jù)平臺(tái)基于YARN的資源調(diào)度框架,實(shí)現(xiàn)Spark和Map/Reduce集群,按需動(dòng)態(tài)創(chuàng)建與銷毀計(jì)算集群。為此,資源調(diào)度框架需要支持內(nèi)存管理和CPU調(diào)度,也需要增加對(duì)Spark資源各種調(diào)度算法的支持,包括:1)指定Spark資源使用策略;2)根據(jù)指定策略實(shí)現(xiàn)CPU與內(nèi)存的固定配額調(diào)度3)根據(jù)指定策略實(shí)現(xiàn)CPU與內(nèi)存百分比的配額調(diào)度4)根據(jù)指定策略實(shí)現(xiàn)SparkExecutor在各個(gè)計(jì)算節(jié)點(diǎn)的分布5)根據(jù)指定策略實(shí)現(xiàn)SparkExecutor個(gè)數(shù)的限定6)根據(jù)指定策略實(shí)現(xiàn)SparkExecutor在具體哪些節(jié)點(diǎn)上啟動(dòng)7)可提供開放的API和分布式框架,允許用戶靈活地開發(fā)所需的分析處理應(yīng)用,而不局限于SQL或存儲(chǔ)過程。支持通過公有云和私有云部署,對(duì)軟件基于Docker技術(shù)的容器化部署提供了初步支持。 大數(shù)據(jù)平臺(tái)通過一系列的性能優(yōu)化,保證用戶業(yè)務(wù)的高效運(yùn)行。同時(shí),平臺(tái)具備快速開發(fā)能力,根據(jù)實(shí)際現(xiàn)場(chǎng)的業(yè)務(wù)需求無償進(jìn)行定制化開發(fā)。系統(tǒng)容錯(cuò)性平臺(tái)的計(jì)算引擎SQL采用Spark架構(gòu),其對(duì)Spark進(jìn)行了大量的改進(jìn),極大提高了Spark功能和性能的穩(wěn)定性。Spark借助于新的計(jì)算容錯(cuò)思想,通過定義彈性數(shù)據(jù)集(ResilientDistributedDataset,簡(jiǎn)稱RDD)來實(shí)現(xiàn)容錯(cuò)。RDD是一種數(shù)據(jù)結(jié)構(gòu)的抽象,它封裝了計(jì)算和數(shù)據(jù)依賴,數(shù)據(jù)可以依賴于外部數(shù)據(jù)或者其他RDD,RDD本身不擁有數(shù)據(jù)集,它只記錄數(shù)據(jù)衍變關(guān)系的譜系,通過這種譜系實(shí)現(xiàn)數(shù)據(jù)的復(fù)雜計(jì)算變換,在發(fā)生錯(cuò)誤后通過追溯譜系重新計(jì)算完成容錯(cuò),如果計(jì)算的衍變譜系比較復(fù)雜,系統(tǒng)支持checkpoint來避免高代價(jià)的重計(jì)算發(fā)生。下圖為RDD的lineage關(guān)系圖,每個(gè)橢圓表示一個(gè)RDD,橢圓內(nèi)的每個(gè)圓性表示該RDD的一個(gè)Partition。冷數(shù)據(jù)可以使用HDFS中ErasureCode功能進(jìn)行降低副本。ErasureCode可配置策略,指定HDFS中目錄,通過RaidServer監(jiān)控,在指定生命周期后將指定目錄下的文件降低其副本數(shù)為1,并由10個(gè)數(shù)據(jù)塊生成4個(gè)冗余校驗(yàn)塊的,將3倍存儲(chǔ)開銷降低到1.4倍,并且在數(shù)據(jù)可靠性方面,ErasureCode在14個(gè)數(shù)據(jù)塊中可容忍任意4個(gè)塊丟失,比3份冗余存儲(chǔ)可容忍2份數(shù)據(jù)塊丟失更可靠。冷數(shù)據(jù)可使用ErasureCode自動(dòng)降低存儲(chǔ)開銷。一個(gè)典型的應(yīng)用場(chǎng)景如:數(shù)據(jù)在導(dǎo)入HDFS后的一段時(shí)間內(nèi)訪問頻繁,在一段時(shí)間后訪問頻率降低甚至正常狀態(tài)下不訪問??梢酝ㄟ^設(shè)置該數(shù)據(jù)的冷卻時(shí)間,當(dāng)這些數(shù)據(jù)到達(dá)冷卻時(shí)間后,會(huì)自動(dòng)觸發(fā)降副本的進(jìn)程。單點(diǎn)故障消除大數(shù)據(jù)集群能提供高可靠與高可用性保證,在集群中任意節(jié)點(diǎn)宕機(jī)的情況下,集群能穩(wěn)定運(yùn)行。分布式存儲(chǔ)HDFS通過高可靠的NamenodeHA方案,保證HDFS的高可靠性,始終有一個(gè)Namenode做熱備,防止單點(diǎn)故障問題。采用QJM的方式實(shí)現(xiàn)HA,文件系統(tǒng)元數(shù)據(jù)存儲(chǔ)在高可靠的由JournalNode組成的集群上。通過HDFS的3副本機(jī)制,保證單個(gè)DataNode的宕機(jī)不會(huì)對(duì)整體分布式存儲(chǔ)造成影響,HDFS在節(jié)點(diǎn)宕機(jī)導(dǎo)致副本丟失的情況下,會(huì)自動(dòng)將副本重新恢復(fù)為3,并對(duì)上層應(yīng)用透明。HBase通過多個(gè)HMaster實(shí)現(xiàn)高可靠與高可用,多個(gè)HMaster中只有1個(gè)HMaster作為ActiveHMaster,其余的HMaster作為熱備的HMaster,當(dāng)活躍的HMaster宕機(jī)時(shí),熱備的HMaster通過Zookeeper選舉出新的活躍的HMaster,秒級(jí)切換,保證服務(wù)的高可靠與高可用。YARN采用兩個(gè)ResourceManager保證集群資源調(diào)度管理的高可靠,一個(gè)ResourceManager作為Active的服務(wù)管理整個(gè)集群的CPU與內(nèi)存資源調(diào)度,另一個(gè)作為熱備的ResourceManager保證服務(wù)的高可靠。同時(shí),SQL通過重算機(jī)制,保證計(jì)算節(jié)點(diǎn)的宕機(jī)不會(huì)影響正在運(yùn)行的作業(yè)的正確性,使得節(jié)點(diǎn)的宕機(jī)僅僅會(huì)將該節(jié)點(diǎn)的計(jì)算子任務(wù)進(jìn)行重新計(jì)算,對(duì)整體作業(yè)的運(yùn)行與正確性不會(huì)造成影響。經(jīng)過測(cè)試驗(yàn)證,在分布式存儲(chǔ)角色NameNode宕機(jī)的情況下,熱備StandbyNameNode在1s內(nèi)完成切換,并對(duì)正在運(yùn)行的作業(yè)的正確性沒有造成任何影響。在計(jì)算存儲(chǔ)節(jié)點(diǎn)宕機(jī)的情況下,正在運(yùn)行的作業(yè)將該宕機(jī)節(jié)點(diǎn)上的計(jì)算子任務(wù)進(jìn)行了重算,最終返回正確結(jié)果。容災(zāi)與備份對(duì)于異地容災(zāi)的數(shù)據(jù)備份以及恢復(fù),對(duì)于不一樣的場(chǎng)景需求,用戶可以靈活地選擇不同級(jí)別的容災(zāi)備份的方案。在HBase層面的數(shù)據(jù),利用HBase的Replication機(jī)制,可以做到實(shí)時(shí)數(shù)據(jù)備份。數(shù)據(jù)寫入的時(shí)候會(huì)通過WAL(Write-AheadLogging)機(jī)制在寫入HBase之前先寫入日志,然后通過解析日志實(shí)時(shí)同步進(jìn)入災(zāi)備集群HBase,從而做到實(shí)時(shí)數(shù)據(jù)備份。在HDFS層面的數(shù)據(jù),用戶可以選擇強(qiáng)一致性容災(zāi)備份或者弱一致性容災(zāi)備份。對(duì)于重要敏感數(shù)據(jù),數(shù)據(jù)從客戶端寫入HDFS中,同時(shí)向兩個(gè)集群寫入數(shù)據(jù),當(dāng)兩個(gè)集群都完成寫入后,再開始一下個(gè)文件的寫入?;趶?qiáng)一致性的容災(zāi)方式對(duì)于集群的寫入性能會(huì)受到外部網(wǎng)絡(luò)的延時(shí)的影響,寫入性能會(huì)顯著下降,所以僅對(duì)重要敏感數(shù)據(jù)進(jìn)行強(qiáng)一致性備份。在數(shù)據(jù)的備份基礎(chǔ)上,保證關(guān)鍵業(yè)務(wù)在災(zāi)備集群上有足夠的資源,提供持續(xù)的穩(wěn)定服務(wù)。而弱一致性的方案則是單位周期內(nèi)(每小時(shí)、每天),基于HDFS的distcp機(jī)制,將寫入的數(shù)據(jù)以增量備份的方式通過網(wǎng)絡(luò)實(shí)現(xiàn)內(nèi)容在異地機(jī)房的備份?;谌跻恢滦缘娜轂?zāi)方式對(duì)于集群的運(yùn)行效率幾乎沒有影響,數(shù)據(jù)備份也能得到保證,但是最后單位周期內(nèi)寫入的數(shù)據(jù)無法得到備份。在線擴(kuò)容平臺(tái)提供了強(qiáng)大的在線擴(kuò)容功能,不需要宕機(jī)停庫(kù),不需要停止業(yè)務(wù),就可以添加新的節(jié)點(diǎn),實(shí)現(xiàn)擴(kuò)容。節(jié)點(diǎn)添加完成之后可以立即對(duì)新添加的節(jié)點(diǎn)進(jìn)行角色的分配,一旦配置成功,則新加的節(jié)點(diǎn)就會(huì)馬上投入運(yùn)算。擴(kuò)容之后的數(shù)據(jù)節(jié)點(diǎn)也不需要停機(jī)進(jìn)行數(shù)據(jù)重分布,系統(tǒng)自動(dòng)選擇空閑的時(shí)間進(jìn)行數(shù)據(jù)的重新分布。HDFS將文件的數(shù)據(jù)塊分配信息存放在NameNode服務(wù)器之上,文件數(shù)據(jù)塊的信息分布地存放在DataNode服務(wù)器上。當(dāng)整個(gè)系統(tǒng)容量需要擴(kuò)充時(shí),只需要增加DataNode的數(shù)量,系統(tǒng)會(huì)自動(dòng)地實(shí)時(shí)將新的服務(wù)器匹配進(jìn)整體陣列之中。之后,文件的分布算法會(huì)將數(shù)據(jù)塊搬遷到新的DataNode之中,不需任何系統(tǒng)當(dāng)機(jī)維護(hù)或人工干預(yù)。通過以上實(shí)現(xiàn),HDFS可以做到在不停止服務(wù)的情況下實(shí)時(shí)地加入新的服務(wù)器作為分布式文件系統(tǒng)的容量升級(jí),不需要人工干預(yù)文件的重新分布。大數(shù)據(jù)創(chuàng)新平臺(tái)設(shè)計(jì)質(zhì)控治理服務(wù)(云平臺(tái))各種調(diào)查數(shù)據(jù)質(zhì)量是氣象局業(yè)務(wù)成敗的關(guān)鍵,對(duì)于數(shù)據(jù)質(zhì)量的管控,“氣象局云”平臺(tái)從數(shù)據(jù)整合、數(shù)據(jù)預(yù)處理、資源入庫(kù)、資源監(jiān)控、資源利用等數(shù)據(jù)處理流程的各個(gè)環(huán)節(jié)入手,建立完善的數(shù)據(jù)生命周期管理與數(shù)據(jù)質(zhì)量管控機(jī)制,是對(duì)數(shù)據(jù)從獲取、清洗、轉(zhuǎn)換、關(guān)聯(lián)、存儲(chǔ)、使用等生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列質(zhì)量管理的活動(dòng)。數(shù)據(jù)質(zhì)量管理是循環(huán)管理過程,其終極目標(biāo)是通過可靠的數(shù)據(jù),提升數(shù)據(jù)在氣象局分析決策等業(yè)務(wù)中的使用價(jià)值。數(shù)據(jù)質(zhì)量作為大數(shù)據(jù)平臺(tái)的核心之一,具有多重屬性,其基本質(zhì)量特性主要包括:完整性、一致性、準(zhǔn)確性和及時(shí)性等四個(gè)方面,要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行較好地控制,就必須對(duì)數(shù)據(jù)的四個(gè)基本質(zhì)量特性進(jìn)行很好了解,從而在各個(gè)方面采取措施,杜絕數(shù)據(jù)質(zhì)量問題的出現(xiàn),使數(shù)據(jù)監(jiān)控工作真正達(dá)到控制數(shù)據(jù)質(zhì)量的目的。從上圖看出,數(shù)據(jù)質(zhì)量面向的是整個(gè)業(yè)務(wù)流程,從業(yè)務(wù)庫(kù)到ETL再到數(shù)據(jù)倉(cāng)庫(kù)都可以通過用戶自定義的數(shù)據(jù)質(zhì)量規(guī)則進(jìn)行管控。校驗(yàn)規(guī)則分為準(zhǔn)確性、完整性和一致性三種,分別面向三種不同的校驗(yàn)方案。業(yè)務(wù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中的已有數(shù)據(jù)可以直接進(jìn)行在線質(zhì)量規(guī)則校驗(yàn)。ETL過程中,可以通過質(zhì)量規(guī)則定義提供的數(shù)據(jù)清洗服務(wù)進(jìn)行數(shù)據(jù)的清洗。同時(shí),兩個(gè)或者多個(gè)數(shù)據(jù)源之間可以進(jìn)行數(shù)據(jù)比對(duì)。用戶可以通過選擇比對(duì)數(shù)據(jù)源,自定義比對(duì)規(guī)則,進(jìn)行在線數(shù)據(jù)比對(duì)。比對(duì)的結(jié)果可以反映出不同庫(kù)的表與表之間的數(shù)據(jù)差異,進(jìn)一步解決數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量校驗(yàn)的方式分為全部校驗(yàn)和抽樣校驗(yàn),執(zhí)行方式分為手動(dòng)執(zhí)行和定時(shí)執(zhí)行。質(zhì)量規(guī)則質(zhì)量規(guī)則分為兩部分:規(guī)則列表和對(duì)象列表。通過這兩部分可以正向和反向地進(jìn)行數(shù)據(jù)質(zhì)量校驗(yàn)。所謂的“正向”指的是先定義規(guī)則,在規(guī)則上選擇數(shù)據(jù)目錄與規(guī)則條件后,執(zhí)行檢測(cè)。“反向”指的是直接選中某個(gè)數(shù)據(jù)目錄,進(jìn)行數(shù)據(jù)質(zhì)量校驗(yàn)。規(guī)則列表包括各個(gè)規(guī)則的名稱、對(duì)象、級(jí)別、執(zhí)行建議、操作等。可以通過規(guī)則樹進(jìn)行分類篩選,規(guī)則樹包括準(zhǔn)確性、完整性和一致性三種規(guī)則類型。質(zhì)量規(guī)則是針對(duì)某個(gè)表中的某一列或者某幾列定制的約束條件,所以每個(gè)規(guī)則都需要選擇規(guī)則對(duì)象(數(shù)據(jù)目錄),制定規(guī)則范圍,規(guī)則范圍包括約束項(xiàng)(列),約束值,過濾條件等。定制的規(guī)則可以選擇建議處理方式(人工處理和定時(shí)處理),方便以后使用該規(guī)則進(jìn)行質(zhì)量檢測(cè)時(shí)找到最佳的處理方式。規(guī)則的級(jí)別可以調(diào)整為普通、警告、嚴(yán)重三種級(jí)別,從而對(duì)不同的質(zhì)量問題進(jìn)行相關(guān)的報(bào)警。自動(dòng)化監(jiān)控?cái)?shù)據(jù)流轉(zhuǎn)通過以上的一系列數(shù)據(jù)比對(duì)及檢測(cè)后,形成數(shù)據(jù)質(zhì)量報(bào)告,形象具體的描述數(shù)據(jù)質(zhì)量問題所在及處理情況,具體分為業(yè)務(wù)數(shù)據(jù)質(zhì)量報(bào)告和技術(shù)數(shù)據(jù)質(zhì)量報(bào)告。定期給相關(guān)負(fù)責(zé)人生成一份全過程的面向業(yè)務(wù)的數(shù)據(jù)質(zhì)量報(bào)告,包括業(yè)務(wù)庫(kù)的數(shù)據(jù)質(zhì)量問題,ETL中的數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量問題等,詳細(xì)羅列每個(gè)過程的數(shù)據(jù)質(zhì)量問題的責(zé)任人、問題個(gè)數(shù)、已處理個(gè)數(shù)、未處理個(gè)數(shù)等。直觀地反映這個(gè)階段的數(shù)據(jù)質(zhì)量問題。截圖如下:數(shù)據(jù)比對(duì)為了保證同步后的數(shù)據(jù)庫(kù)與源庫(kù)的一致性,需要建立一系列的比對(duì)規(guī)則,來檢驗(yàn)數(shù)據(jù)是否一致,一般來說都是采用增量比對(duì)的方式,這種方式可以減少重復(fù)比對(duì)的工作量,對(duì)于一些比對(duì)可以直接進(jìn)行修復(fù),有些比對(duì)可能需要通過發(fā)郵件進(jìn)行通知方式告知用戶,手動(dòng)進(jìn)行數(shù)據(jù)的修復(fù)。比對(duì)一般包括以下兩種:數(shù)據(jù)分條比對(duì):針對(duì)源庫(kù)中的每條數(shù)據(jù),將多個(gè)需要比對(duì)的列的值進(jìn)行Hash(一般是那些在ETL轉(zhuǎn)化中沒有進(jìn)行處理的列),比對(duì)兩個(gè)庫(kù)中數(shù)據(jù)相應(yīng)的Hash值是否一致,如果不一致,可以選擇自動(dòng)和手動(dòng)兩種模式進(jìn)行修復(fù),使數(shù)據(jù)達(dá)到一致。計(jì)算氣象局比對(duì),主要包括
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 三峽電力職業(yè)學(xué)院《多媒體虛擬現(xiàn)實(shí)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024年02月安徽2024年安徽阜南農(nóng)村商業(yè)銀行社會(huì)招考20人筆試歷年參考題庫(kù)附帶答案詳解
- 阿壩四川阿壩縣縣屬國(guó)有企業(yè)招聘高級(jí)管理人員3人筆試歷年參考題庫(kù)附帶答案詳解
- 黑龍江工商學(xué)院《銀行信貸實(shí)訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 大連汽車職業(yè)技術(shù)學(xué)院《字體設(shè)計(jì)與應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025至2030年中國(guó)抗沖擊內(nèi)珠盤數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2031年中國(guó)維生素C鈣膠囊行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)喜餅行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2030年中國(guó)真皮錢包數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)家電鋼化玻璃數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- pcs-9611d-x說明書國(guó)內(nèi)中文標(biāo)準(zhǔn)版
- 無人機(jī)航拍技術(shù)理論考核試題題庫(kù)及答案
- T∕CMATB 9002-2021 兒童肉類制品通用要求
- 工序勞務(wù)分包管理課件
- 暖通空調(diào)(陸亞俊編)課件
- 工藝評(píng)審報(bào)告
- 中國(guó)滑雪運(yùn)動(dòng)安全規(guī)范
- 畢業(yè)論文-基于51單片機(jī)的智能LED照明燈的設(shè)計(jì)
- 酒廠食品召回制度
- 中職數(shù)學(xué)基礎(chǔ)模塊上冊(cè)第一章《集合》單元檢測(cè)試習(xí)題及參考答案
- 化學(xué)魯科版必修一期末復(fù)習(xí)98頁P(yáng)PT課件
評(píng)論
0/150
提交評(píng)論