大數(shù)據(jù)架構(gòu)和模式_第1頁
大數(shù)據(jù)架構(gòu)和模式_第2頁
大數(shù)據(jù)架構(gòu)和模式_第3頁
大數(shù)據(jù)架構(gòu)和模式_第4頁
大數(shù)據(jù)架構(gòu)和模式_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)架構(gòu)和模式(一):大數(shù)據(jù)分類和架構(gòu)簡介1.本文對大數(shù)據(jù)做了哪些分類?2.對數(shù)據(jù)進行分類后,如何將它與合適的大數(shù)據(jù)模式匹配?如何將大數(shù)據(jù)分為不同的類別大數(shù)據(jù)問題的分析和解決通常很復(fù)雜。大數(shù)據(jù)的量、速度和種類使得提取信息和獲得業(yè)務(wù)洞察變得很困難。以下操作是一個良好的開端:依據(jù)必須處理的數(shù)據(jù)的格式、要應(yīng)用的分析類型、使用的處理技術(shù),以及目標(biāo)系統(tǒng)需要獲取、加載、處理、分析和存儲數(shù)據(jù)的數(shù)據(jù)源,對大數(shù)據(jù)問題進行分類。

概述大數(shù)據(jù)可通過許多方式來存儲、獲取、處理和分析。每個大數(shù)據(jù)來源都有不同的特征,包括數(shù)據(jù)的頻率、量、速度、類型和真實性。處理并存儲大數(shù)據(jù)時,會涉及到更多維度,比如治理、安全性和策略。選擇一種架構(gòu)并構(gòu)建合適的大數(shù)據(jù)解決方案極具挑戰(zhàn),因為需要考慮非常多的因素。這個“大數(shù)據(jù)架構(gòu)和模式”系列提供了一種結(jié)構(gòu)化和基于模式的方法來簡化定義完整的大數(shù)據(jù)架構(gòu)的任務(wù)。因為評估一個業(yè)務(wù)場景是否存在大數(shù)據(jù)問題很重要,所以我們包含了一些線索來幫助確定哪些業(yè)務(wù)問題適合采用大數(shù)據(jù)解決方案。

從分類大數(shù)據(jù)到選擇大數(shù)據(jù)解決方案如果您花時間研究過大數(shù)據(jù)解決方案,那么您一定知道它不是一個簡單的任務(wù)。本系列將介紹查找滿足您需求的大數(shù)據(jù)解決方案所涉及的主要步驟。我們首先介紹術(shù)語“大數(shù)據(jù)”所描述的數(shù)據(jù)類型。為了簡化各種大數(shù)據(jù)類型的復(fù)雜性,我們依據(jù)各種參數(shù)對大數(shù)據(jù)進行了分類,為任何大數(shù)據(jù)解決方案中涉及的各層和高級組件提供一個邏輯架構(gòu)。接下來,我們通過定義原子和復(fù)合分類模式,提出一種結(jié)構(gòu)來分類大數(shù)據(jù)業(yè)務(wù)問題。這些模式有助于確定要應(yīng)用的合適的解決方案模式。我們提供了來自各行各業(yè)的示例業(yè)務(wù)問題。最后,對于每個組件和模式,我們給出了提供了相關(guān)功能的產(chǎn)品。第1部分將介紹如何對大數(shù)據(jù)進行分類。本系列的后續(xù)文章將介紹以下主題:定義大數(shù)據(jù)解決方案的各層和組件的邏輯架構(gòu)理解大數(shù)據(jù)解決方案的原子模式理解用于大數(shù)據(jù)解決方案的復(fù)合(或混合)模式為大數(shù)據(jù)解決方案選擇一種解決方案模式確定使用一個大數(shù)據(jù)解決方案解決一個業(yè)務(wù)問題的可行性選擇正確的產(chǎn)品來實現(xiàn)大數(shù)據(jù)解決方案

依據(jù)大數(shù)據(jù)類型對業(yè)務(wù)問題進行分類業(yè)務(wù)問題可分類為不同的大數(shù)據(jù)問題類型。以后,我們將使用此類型確定合適的分類模式(原子或復(fù)合)和合適的大數(shù)據(jù)解決方案。但第一步是將業(yè)務(wù)問題映射到它的大數(shù)據(jù)類型。下表列出了常見的業(yè)務(wù)問題并為每個問題分配了一種大數(shù)據(jù)類型。

按類型對大數(shù)據(jù)問題分類,更容易看到每種數(shù)據(jù)的特征。這些特征可幫助我們了解如何獲取數(shù)據(jù),如何將它處理為合適的格式,以及新數(shù)據(jù)出現(xiàn)的頻率。來自不同來源的數(shù)據(jù)具有不同的特征;例如,社交媒體數(shù)據(jù)包含不斷傳入的視頻、圖像和非結(jié)構(gòu)化文本(比如博客文章)。表1.不同類型的大數(shù)據(jù)業(yè)務(wù)問題我們依據(jù)這些常見特征來評估數(shù)據(jù),下一節(jié)將詳細(xì)介紹這些特征:內(nèi)容的格式數(shù)據(jù)的類型(例如,交易數(shù)據(jù)、歷史數(shù)據(jù)或主數(shù)據(jù))將提供該數(shù)據(jù)的頻率意圖:數(shù)據(jù)需要如何處理(例如對數(shù)據(jù)的臨時查詢)處理是否必須實時、近實時還是按批次執(zhí)行。

使用大數(shù)據(jù)類型對大數(shù)據(jù)特征進行分類按特定方向分析大數(shù)據(jù)的特征會有所幫助,例如以下特征:數(shù)據(jù)如何收集、分析和處理。對數(shù)據(jù)進行分類后,就可以將它與合適的大數(shù)據(jù)模式匹配:1、分析類型—對數(shù)據(jù)執(zhí)行實時分析還是批量分析。請仔細(xì)考慮分析類型的選擇,因為這會影響一些有關(guān)產(chǎn)品、工具、硬件、數(shù)據(jù)源和預(yù)期的數(shù)據(jù)頻率的其他決策。一些用例可能需要混合使用兩種類型:2、欺詐檢測;分析必須實時或近實時地完成。3、針對戰(zhàn)略性業(yè)務(wù)決策的趨勢分析;分析可采用批量模式。4、處理方法—要應(yīng)用來處理數(shù)據(jù)的技術(shù)類型(比如預(yù)測、分析、臨時查詢和報告)。業(yè)務(wù)需求確定了合適的處理方法??山Y(jié)合使用各種技術(shù)。處理方法的選擇,有助于識別要在您的大數(shù)據(jù)解決方案中使用的合適的工具和技術(shù)。5、數(shù)據(jù)頻率和大小—預(yù)計有多少數(shù)據(jù)和數(shù)據(jù)到達的頻率多高。知道頻率和大小,有助于確定存儲機制、存儲格式和所需的預(yù)處理工具。數(shù)據(jù)頻率和大小依賴于數(shù)據(jù)源:按需分析,與社交媒體數(shù)據(jù)一樣實時、持續(xù)提供(天氣數(shù)據(jù)、交易數(shù)據(jù))時序(基于時間的數(shù)據(jù))6、數(shù)據(jù)類型—要處理數(shù)據(jù)類型—交易、歷史、主數(shù)據(jù)等。知道數(shù)據(jù)類型,有助于將數(shù)據(jù)隔離在存儲中。7、內(nèi)容格式(傳入數(shù)據(jù)的格式)結(jié)構(gòu)化(例如RDMBS)、非結(jié)構(gòu)化(例如音頻、視頻和圖像)或半結(jié)構(gòu)化。格式確定了需要如何處理傳入的數(shù)據(jù),這是選擇工具、技術(shù)以及從業(yè)務(wù)角度定義解決方案的關(guān)鍵。8、數(shù)據(jù)源—數(shù)據(jù)的來源(生成數(shù)據(jù)的地方),比如Web和社交媒體、機器生成、人類生成等。識別所有數(shù)據(jù)源有助于從業(yè)務(wù)角度識別數(shù)據(jù)范圍。該圖顯示了使用最廣泛的數(shù)據(jù)源。9、數(shù)據(jù)使用者—處理的數(shù)據(jù)的所有可能使用者的列表:業(yè)務(wù)流程業(yè)務(wù)用戶企業(yè)應(yīng)用程序各種業(yè)務(wù)角色中的各個人員部分處理流程其他數(shù)據(jù)存儲庫或企業(yè)應(yīng)用程序10、硬件—將在其上實現(xiàn)大數(shù)據(jù)解決方案的硬件類型,包括商用硬件或最先進的硬件。理解硬件的限制,有助于指導(dǎo)大數(shù)據(jù)解決方案的選擇。圖1描繪用于分類大數(shù)據(jù)的各種類別。定義大數(shù)據(jù)模式的關(guān)鍵類別已識別并在藍(lán)色方框中突出顯示。大數(shù)據(jù)模式(將在下一篇文章中定義)來自這些類別的組合。圖1.大數(shù)據(jù)分類

結(jié)束語和致謝在本系列剩余部分中,我們將介紹大數(shù)據(jù)解決方案的邏輯架構(gòu)和各層,從訪問到使用大數(shù)據(jù)。我們將提供數(shù)據(jù)源的完整列表,介紹專注于大數(shù)據(jù)解決方案的每個重要方面的原子模式。我們還將介紹復(fù)合模式,解釋可如何結(jié)合使用原子模式來解決特定的大數(shù)據(jù)用例。本系列最后將提供一些解決方案模式,在廣泛使用的用例與各個產(chǎn)品之間建立對應(yīng)關(guān)系。感謝RakeshR.Shinde在定義本系列的整體結(jié)構(gòu)上提供的指導(dǎo),以及對本系列的審閱和提供的寶貴評論。大數(shù)據(jù)架構(gòu)和模式(二)如何知道一個大數(shù)據(jù)解決方案是否適合您的組織1.如何判斷大數(shù)據(jù)問題是否需要大數(shù)據(jù)解決方案?

2.如何評估大數(shù)據(jù)解決方案的可行性?

3.可通過大數(shù)據(jù)技術(shù)獲取何種洞察?

4.是否所有大數(shù)據(jù)都存在大數(shù)據(jù)問題?簡介在確定投資大數(shù)據(jù)解決方案之前,評估可用于分析的數(shù)據(jù);通過分析這些數(shù)據(jù)而獲得的洞察;以及可用于定義、設(shè)計、創(chuàng)建和部署大數(shù)據(jù)平臺的資源。詢問正確的問題是一個不錯的起點。使用本文中的問題將指導(dǎo)您完成調(diào)查。答案將揭示該數(shù)據(jù)和您嘗試解決的問題的更多特征。盡管組織一般情況對需要分析的數(shù)據(jù)類型有一些模糊的理解,但具體的細(xì)節(jié)很可能并不清晰。畢竟,數(shù)據(jù)可能具有之前未發(fā)現(xiàn)的模式的關(guān)鍵,一旦識別了一種模式,對額外分析的需求就會變得很明顯。要幫助揭示這些未知的未知信息,首先需要實現(xiàn)一些基本用例,在此過程中,可以收集以前不可用的數(shù)據(jù)。構(gòu)建數(shù)據(jù)存儲庫并收集更多數(shù)據(jù)后,數(shù)據(jù)科學(xué)家就能夠更好地確定關(guān)鍵的數(shù)據(jù),更好地構(gòu)建將生成更多洞察的預(yù)測和統(tǒng)計模型。組織可能也已知道它有哪些信息是不知道的。要解決這些已知的未知,組織首先必須與數(shù)據(jù)科學(xué)家合作,識別外部或第三方數(shù)據(jù)源,實現(xiàn)一些依賴于此外部數(shù)據(jù)的用例。本文首先嘗試回答大多數(shù)CIO在實施大數(shù)據(jù)舉措之前通常會提出的問題,然后,本文將重點介紹一種將幫助評估大數(shù)據(jù)解決方案對組織的可行性的基于維度的方法。我的大數(shù)據(jù)問題是否需要大數(shù)據(jù)解決方案?大數(shù)據(jù),曾幾何時似乎很少出現(xiàn)組織多半會選擇以增量方式實現(xiàn)大數(shù)據(jù)解決方案。不是每個分析和報告需求都需要大數(shù)據(jù)解決方案。如果對于對大型數(shù)據(jù)集或來自多個數(shù)據(jù)源的臨時報告執(zhí)行并行處理的項目,那么可能沒有必要使用大數(shù)據(jù)解決方案。隨著大數(shù)據(jù)技術(shù)的到來,組織會問自己:“大數(shù)據(jù)是否是我的業(yè)務(wù)問題的正確解決方案,或者它是否為我提供了業(yè)務(wù)機會?”大數(shù)據(jù)中是否隱藏著業(yè)務(wù)機會?以下是我從CIO那里聽到的一些典型問題:如果我使用大數(shù)據(jù)技術(shù),可能會獲得何種洞察和業(yè)務(wù)價值?它是否可以擴充我現(xiàn)有的數(shù)據(jù)倉庫?我如何評估擴展當(dāng)前環(huán)境或采用新解決方案的成本?對我現(xiàn)有的IT治理有何影響?我能否以增量方式實現(xiàn)大數(shù)據(jù)解決方案?我需要掌握哪些具體的技能來理解和分析構(gòu)建和維護大數(shù)據(jù)解決方案的需求?我的現(xiàn)有企業(yè)數(shù)據(jù)能否用于提供業(yè)務(wù)洞察?來自各種來源的數(shù)據(jù)的復(fù)雜性在不斷增長。大數(shù)據(jù)解決方案對我有幫助嗎?維度可幫助評估大數(shù)據(jù)解決方案的可行性為了回答這些問題,本文提出了一種依據(jù)下圖中所示的維度來評估大數(shù)據(jù)解決方案的可行性的結(jié)構(gòu)化方法。來自可通過分析數(shù)據(jù)獲得的洞察的業(yè)務(wù)價值針對新數(shù)據(jù)來源和數(shù)據(jù)使用方式的治理考慮因素?fù)碛邢嚓P(guān)技能和贊助商的承諾的人員捕獲的數(shù)據(jù)量各種各樣的數(shù)據(jù)源、數(shù)據(jù)類型和數(shù)據(jù)格式生成數(shù)據(jù)的速度,需要對它執(zhí)行操作的速度,或者它更改的速度數(shù)據(jù)的真實性,或者數(shù)據(jù)的不確定性和可信賴性對于每個維度,我們都給出了一些關(guān)鍵問題。依據(jù)業(yè)務(wù)上下文,為每個維度分配一個權(quán)重和優(yōu)先級。評估會因業(yè)務(wù)案例和組織的不同而有所不同。您可以考慮在與相關(guān)的業(yè)務(wù)和IT利益相關(guān)者召開的一系列研討會中探討這些問題。業(yè)務(wù)價值:可通過大數(shù)據(jù)技術(shù)獲取何種洞察?許多組織想知道,他們在尋找的業(yè)務(wù)洞察能否通過大數(shù)據(jù)解決方案解決。沒有權(quán)威的指南能夠用來定義可從大數(shù)據(jù)獲取的洞察。具體場景需要由組織識別,而且這些場景在不斷演變。在確定和識別在實現(xiàn)后會給企業(yè)帶來重大價值的業(yè)務(wù)用例和場景的過程中,數(shù)據(jù)科學(xué)家起著至關(guān)重要的作用。數(shù)據(jù)科學(xué)家必須能夠理解關(guān)鍵績效指標(biāo),對數(shù)據(jù)應(yīng)用統(tǒng)計算法和復(fù)雜算法來獲得一個用例列表。用例因行業(yè)和業(yè)務(wù)不同而有所不同。研究市場競爭對手的行動、發(fā)揮作用的市場力量,以及客戶在尋找什么,會很有幫助。下表給出了來自各行各業(yè)的用例示例。表1.來自各行各業(yè)的示例用例潛在的客戶正在社交網(wǎng)絡(luò)和評論站點上生成大量新數(shù)據(jù)。在企業(yè)內(nèi),隨著客戶切換到在線渠道來執(zhí)行業(yè)務(wù)和與公司交互,交易數(shù)據(jù)和Web日志與日俱增。確定數(shù)據(jù)的優(yōu)先級首先為企業(yè)內(nèi)存在的數(shù)據(jù)創(chuàng)建一個清單。識別內(nèi)部系統(tǒng)和應(yīng)用程序中存在的數(shù)據(jù)以及從第三方傳入的數(shù)據(jù)。如果業(yè)務(wù)問題可使用現(xiàn)有數(shù)據(jù)解決,那么有可能不需要使用來自外部來源的數(shù)據(jù)。請考慮構(gòu)建一個大數(shù)據(jù)解決方案的成本,并權(quán)衡它與帶給業(yè)務(wù)部門的新洞察的價值。在有關(guān)現(xiàn)有客戶的歸檔數(shù)據(jù)的上下文中分析此新數(shù)據(jù)時,業(yè)務(wù)人員將獲得對新業(yè)務(wù)機會的洞察。主要滿足以下條件,大數(shù)據(jù)可提供可行的解決方案:從數(shù)據(jù)中開發(fā)的洞察所生成的價值,值得在大數(shù)據(jù)解決方案中投入的資本成本面向客戶的場景可證明來自洞察的潛在價值評估通過大數(shù)據(jù)解決方案獲取的業(yè)務(wù)價值時,請考慮您當(dāng)前的環(huán)境是否可擴展并權(quán)衡此投資的成本。我當(dāng)前的環(huán)境能否擴展?詢問以下問題,確定您能否擴充現(xiàn)有的數(shù)據(jù)倉庫平臺?當(dāng)前的數(shù)據(jù)集是否非常大,是否達到了TB或PB數(shù)量級?現(xiàn)有的倉庫環(huán)境是否包含生成或獲取的所有數(shù)據(jù)的存儲庫?是否有大量冷數(shù)據(jù)或人們很少接觸的數(shù)據(jù)未分析,可以通過分析這些數(shù)據(jù)獲得業(yè)務(wù)洞察?您是否需要丟棄數(shù)據(jù),因為無法存儲或處理它?您是否希望能夠在復(fù)雜且大量的數(shù)據(jù)上執(zhí)行數(shù)據(jù)探索?您是否希望能夠?qū)Ψ遣僮鲾?shù)據(jù)執(zhí)行分析?您是否有興趣使用數(shù)據(jù)執(zhí)行傳統(tǒng)和新類型的分析?您是否試圖延遲對現(xiàn)有數(shù)據(jù)倉庫的升級?您是否在尋求途徑降低執(zhí)行分析的總體成本?如果任何這些問題的答案是“是”,那么您就可以探索擴充現(xiàn)有數(shù)據(jù)倉庫環(huán)境的方式。擴展我當(dāng)前的環(huán)境的成本是多少?擴展現(xiàn)有數(shù)據(jù)倉庫平臺或IT環(huán)境與實現(xiàn)大數(shù)據(jù)解決方案的成本和可行性取決于:現(xiàn)有工具和技術(shù)現(xiàn)有系統(tǒng)的可伸縮性現(xiàn)有環(huán)境的處理能力現(xiàn)有平臺的存儲能力執(zhí)行的治理和策略現(xiàn)有IT應(yīng)用程序的異構(gòu)性組織中存在的技術(shù)和業(yè)務(wù)技能。它還依賴于將從新數(shù)據(jù)來源收集的數(shù)據(jù)量、業(yè)務(wù)用例的復(fù)雜性、處理的分析復(fù)雜性,以及獲取數(shù)據(jù)和擁有恰當(dāng)技能集的人員的成本?,F(xiàn)有的資源池能否開發(fā)新的大數(shù)據(jù)技能,或者是否可從外部雇傭擁有稀缺技能的人員?請注意,大數(shù)據(jù)舉措會對其他正在實施的項目產(chǎn)生影響。從新的來源獲取數(shù)據(jù)具有很高的成本。您首先應(yīng)當(dāng)識別系統(tǒng)和應(yīng)用程序內(nèi)部存在的數(shù)據(jù),以及目前收到的第三方數(shù)據(jù),這一點很重要。如果業(yè)務(wù)問題可以使用現(xiàn)有數(shù)據(jù)解決,那么有可能不需要使用來自外部來源的數(shù)據(jù)。在生成新工具和應(yīng)用程序之前,請評估組織的應(yīng)用程序組合。例如,一個普通的Hadoop平臺可能無法滿足您的需求,您可能必須購買專業(yè)的工具。或者相對而言,Hadoop的商業(yè)版本對當(dāng)前用例而言可能很昂貴,但可能需要用作長期投資來支持一個戰(zhàn)略性的大數(shù)據(jù)平臺。考慮大數(shù)據(jù)工具和技術(shù)需要的基礎(chǔ)架構(gòu)、硬件、軟件和維護的成本。對數(shù)據(jù)的治理和控制:對現(xiàn)有的IT治理有何影響?在決定是否實現(xiàn)一個大數(shù)據(jù)平臺時,組織可能會查看新數(shù)據(jù)源和新的數(shù)據(jù)元素類型,而這些信息當(dāng)前的所有權(quán)尚未明確定義。一些行業(yè)制度會約束組織獲取和使用的數(shù)據(jù)。例如,在醫(yī)療行業(yè),通過訪問患者數(shù)據(jù)來從中獲取洞察是否合法?類似的規(guī)則約束著所有行業(yè)。除了IT治理問題之外,組織的業(yè)務(wù)流程可能也需要重新定義和修改,讓組織能夠獲取、存儲和訪問外部數(shù)據(jù)。請在您的情況的上下文中考慮以下治理相關(guān)問題:安全性和隱私—為了與當(dāng)?shù)胤ㄒ?guī)一致,解決方案可以訪問哪些數(shù)據(jù)?可以存儲哪些數(shù)據(jù)?哪些數(shù)據(jù)應(yīng)在移動過程中加密?靜止數(shù)據(jù)呢?誰可以查看原始數(shù)據(jù)和洞察?數(shù)據(jù)的標(biāo)準(zhǔn)化—是否有標(biāo)準(zhǔn)約束數(shù)據(jù)?數(shù)據(jù)是否具有專用的格式?是否有部分?jǐn)?shù)據(jù)為非標(biāo)準(zhǔn)格式?數(shù)據(jù)可用的時段—數(shù)據(jù)在一個允許及時采取操作的時段是否可用?數(shù)據(jù)的所有權(quán)—誰擁有該數(shù)據(jù)?解決方案是否擁有適當(dāng)?shù)脑L問權(quán)和權(quán)限來使用數(shù)據(jù)?允許的用法:允許如何使用該數(shù)據(jù)?我能否增量地實現(xiàn)大數(shù)據(jù)解決方案?大數(shù)據(jù)解決方案可以采用增量方式實現(xiàn)。明確地定義業(yè)務(wù)問題的范圍,并以可度量的方式設(shè)置預(yù)期的業(yè)務(wù)收入提升,這樣做會很有幫助。對于基礎(chǔ)業(yè)務(wù)案例,請仔細(xì)列出問題的范圍和解決方案帶來的預(yù)期收益。如果該范圍太小,業(yè)務(wù)收益將無法實現(xiàn),如果范圍太大,獲得資金和在恰當(dāng)?shù)钠谙迌?nèi)完成項目就會很有挑戰(zhàn)性。在項目的第一次迭代中定義核心功能,以便能夠輕松地贏得利益相關(guān)者的信任。人員:是否已有恰當(dāng)?shù)募寄懿⒄{(diào)整了合適的人員?需要特定的技能來理解和分析需求,并維護大數(shù)據(jù)解決方案。這些技能包括行業(yè)知識、領(lǐng)域?qū)iL,以及有關(guān)大數(shù)據(jù)工具和技術(shù)的技術(shù)知識。擁有建模、統(tǒng)計、分析和數(shù)學(xué)方面的專業(yè)經(jīng)驗的數(shù)據(jù)科學(xué)家,是任何大數(shù)據(jù)舉措成功的關(guān)鍵。在實施一個新的大數(shù)據(jù)項目之前,確保已安排了合適的人員:您是否獲得利益相關(guān)者和其他愿意投資該項目的業(yè)務(wù)贊助者的支持?是否擁有熟悉該領(lǐng)域、能分析大量數(shù)據(jù)、而且能識別從數(shù)據(jù)生成有意義且有用的洞察的途徑的數(shù)據(jù)科學(xué)家?是否擁有可用于獲取洞察的現(xiàn)有數(shù)據(jù)?所有組織都擁有大量未用于獲取業(yè)務(wù)洞察的數(shù)據(jù)。這些數(shù)據(jù)包括日志文件、錯誤文件和來自應(yīng)用程序的操作數(shù)據(jù)。不要忽略此數(shù)據(jù),它是寶貴信息的潛在來源。數(shù)據(jù)復(fù)雜性是否在增長?查找數(shù)據(jù)復(fù)雜性增長的線索,尤其是在數(shù)據(jù)量、種類、速度和真實性方面。數(shù)據(jù)量是否已增長?如果滿足以下條件,您可能希望考慮大數(shù)據(jù)解決方案:數(shù)據(jù)大小達到PB和EB級,而且在不久的將來,它們可能增長到ZB級別。這一數(shù)據(jù)量給使用傳統(tǒng)方法(比如關(guān)系數(shù)據(jù)庫引擎)存儲、搜索、共享、分析和可視化數(shù)據(jù)帶來的技術(shù)和經(jīng)濟挑戰(zhàn)。數(shù)據(jù)處理目前可使用可用硬件上的大規(guī)模并行處理能力。數(shù)據(jù)種類是否已增多?如果滿足以下條件,各種各樣的數(shù)據(jù)可能都需要大數(shù)據(jù)解決方案:數(shù)據(jù)內(nèi)容和結(jié)構(gòu)無法預(yù)期或預(yù)測。數(shù)據(jù)格式各不相同,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。用戶和機器能夠以任何格式生成數(shù)據(jù),例如:Microsoft?Word文件、MicrosoftExcel?電子表格、MicrosoftPowerPoint演示文稿、PDF文件、社交媒體、Web和軟件日志、電子郵件、來自相機的照片和視頻、信息感知的移動設(shè)備、空中感知技術(shù)、基因組和醫(yī)療記錄。以前沒有為了獲得洞察而被挖掘的數(shù)據(jù)來源不斷地在產(chǎn)生新的數(shù)據(jù)類型。領(lǐng)域?qū)嶓w在不同的上下文中具有不同的含義。數(shù)據(jù)的速度是否已增長或改變?考慮您的數(shù)據(jù)是否:在快速更改,必須立即響應(yīng)擁有過多的傳統(tǒng)技術(shù)和方法,它們不再足以實時處理傳入的數(shù)據(jù)您的數(shù)據(jù)是否值得信賴?如果滿足以下條件,那么請考慮使用大數(shù)據(jù)解決方案:數(shù)據(jù)的真實性或準(zhǔn)確性未知。數(shù)據(jù)包含模糊不清的信息。不清楚數(shù)據(jù)是否完整。如果數(shù)據(jù)的量、種類、速度或真實性具有合理的復(fù)雜性,那么有可能會適合地采用大數(shù)據(jù)解決方案。對于更復(fù)雜的數(shù)據(jù),需要評估與實現(xiàn)大數(shù)據(jù)解決方案關(guān)聯(lián)的任何風(fēng)險。對于不太復(fù)雜的數(shù)據(jù),則應(yīng)該評估傳統(tǒng)的解決方案。是否所有大數(shù)據(jù)都存在大數(shù)據(jù)問題?不是所有大數(shù)據(jù)情形都需要大數(shù)據(jù)解決方案。請在市場中尋找線索。競爭對手在做什么?哪些市場力量在發(fā)揮作用?客戶想要什么?使用本文中的問題,幫助確定大數(shù)據(jù)解決方案是否適合于您的業(yè)務(wù)情形和您需要的業(yè)務(wù)洞察。如果認(rèn)為是時候?qū)嵤┐髷?shù)據(jù)項目了,請閱讀下一篇文章,其中會介紹如何定義一個邏輯架構(gòu),而且將會確定您的大數(shù)據(jù)解決方案需要的關(guān)鍵組件。作者:Divakar等

來源:DeveloperWorksEnd.

大數(shù)據(jù)架構(gòu)和模式(三)理解大數(shù)據(jù)解決方案的架構(gòu)層問題導(dǎo)讀1.大數(shù)據(jù)解決方案通常哪些邏輯層組成?2.本文講了大數(shù)據(jù)來源有哪些?3.大數(shù)據(jù)治理包含哪些因素?

概述這個“大數(shù)據(jù)架構(gòu)和模式”系列的第2部分介紹了一種評估大數(shù)據(jù)解決方案可行性的基于維度的方法。如果您已經(jīng)使用上一篇文章中的問題和提示分析了自己的情況,并且已經(jīng)決定開始構(gòu)建新的(或更新現(xiàn)有的)大數(shù)據(jù)解決方案,那么下一步就是識別定義項目的大數(shù)據(jù)解決方案所需的組件。

大數(shù)據(jù)解決方案的邏輯層邏輯層提供了一種組織您的組件的方式。這些層提供了一種方法來組織執(zhí)行特定功能的組件。這些層只是邏輯層;這并不意味著支持每層的功能在獨立的機器或獨立的進程上運行。大數(shù)據(jù)解決方案通常由以下邏輯層組成:1、大數(shù)據(jù)來源2、數(shù)據(jù)改動(massaging)和存儲層3、分析層4、使用層大數(shù)據(jù)來源:考慮來自所有渠道的,所有可用于分析的數(shù)據(jù)。要求組織中的數(shù)據(jù)科學(xué)家闡明執(zhí)行您需要的分析類型所需的數(shù)據(jù)。數(shù)據(jù)的格式和起源各不相同:格式—結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化。速度和數(shù)據(jù)量—數(shù)據(jù)到達的速度和傳送它的速率因數(shù)據(jù)源不同而不同。收集點—收集數(shù)據(jù)的位置,直接或通過數(shù)據(jù)提供程序,實時或以批量模式收集數(shù)據(jù)。數(shù)據(jù)可能來自某個主要來源,比如天氣條件,也有可能來自一個輔助來源,比如媒體贊助的天氣頻道。數(shù)據(jù)源的位置—數(shù)據(jù)源可能位于企業(yè)內(nèi)或外部。識別您具有有限訪問權(quán)的數(shù)據(jù),因為對數(shù)據(jù)的訪問會影響可用于分析的數(shù)據(jù)范圍。數(shù)據(jù)改動和存儲層:此層負(fù)責(zé)從數(shù)據(jù)源獲取數(shù)據(jù),并在必要時,將它轉(zhuǎn)換為適合數(shù)據(jù)分析方式的格式。例如,可能需要轉(zhuǎn)換一幅圖,才能將它存儲在HadoopDistributedFileSystem(HDFS)存儲或關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)倉庫中,以供進一步處理。合規(guī)性制度和治理策略要求為不同的數(shù)據(jù)類型提供合適的存儲。分析層:分析層讀取數(shù)據(jù)改動和存儲層整理(digest)的數(shù)據(jù)。在某些情況下,分析層直接從數(shù)據(jù)源訪問數(shù)據(jù)。設(shè)計分析層需要認(rèn)真地進行事先籌劃和規(guī)劃。必須制定如何管理以下任務(wù)的決策:生成想要的分析從數(shù)據(jù)中獲取洞察找到所需的實體定位可提供這些實體的數(shù)據(jù)的數(shù)據(jù)源理解執(zhí)行分析需要哪些算法和工具。使用層:此層使用了分析層所提供的輸出。使用者可以是可視化應(yīng)用程序、人類、業(yè)務(wù)流程或服務(wù)。可視化分析層的結(jié)果可能具有挑戰(zhàn)。有時,看看類似市場中的競爭對手是如何做的會有所幫助。每一層包含多種組件類型,下面將會介紹這些類型。

圖1.邏輯和垂直層的組件該圖顯示了邏輯和垂直層的組件大數(shù)據(jù)來源此層包含所有必要的數(shù)據(jù)源,提供了解決業(yè)務(wù)問題所需的洞察。數(shù)據(jù)是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),而且來自許多來源:1、企業(yè)遺留系統(tǒng)—

這些系統(tǒng)是企業(yè)應(yīng)用程序,執(zhí)行業(yè)務(wù)需要的分析并獲取需要的洞察:客戶關(guān)系管理系統(tǒng)結(jié)算操作大型機應(yīng)用程序企業(yè)資源規(guī)劃Web應(yīng)用程序開發(fā)Web應(yīng)用程序和其他數(shù)據(jù)來源擴充了企業(yè)擁有的數(shù)據(jù)。這些應(yīng)用程序可使用自定義的協(xié)議和機制來公開數(shù)據(jù)。

2、數(shù)據(jù)管理系統(tǒng)(DMS)—數(shù)據(jù)管理系統(tǒng)存儲邏輯數(shù)據(jù)、流程、策略和各種其他類型的文檔:Microsoft?Excel?電子表格MicrosoftWord文檔這些文檔可以轉(zhuǎn)換為可用于分析的結(jié)構(gòu)化數(shù)據(jù)。文檔數(shù)據(jù)可公開為領(lǐng)域?qū)嶓w,或者數(shù)據(jù)改動和存儲層可將它轉(zhuǎn)換為領(lǐng)域?qū)嶓w。3、數(shù)據(jù)存儲—數(shù)據(jù)存儲包含企業(yè)數(shù)據(jù)倉庫、操作數(shù)據(jù)庫和事務(wù)數(shù)據(jù)庫。此數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),可直接使用或輕松地轉(zhuǎn)換來滿足需求。這些數(shù)據(jù)不一定存儲在分布式文件系統(tǒng)中,具體依賴于所處的上下文。4、智慧設(shè)備—智慧設(shè)備能夠捕獲、處理和傳輸使用最廣泛的協(xié)議和格式的信息。這方面的示例包括智能電話、儀表和醫(yī)療設(shè)備。這些設(shè)備可用于執(zhí)行各種類型的分析。絕大多數(shù)智慧設(shè)備都會執(zhí)行實時分析,但從智慧設(shè)備傳來的信息也可批量分析。5、聚合的數(shù)據(jù)提供程序—這些提供程序擁有或獲取數(shù)據(jù),并以復(fù)雜的格式和所需的頻率通過特定的過濾器公開它。每天都會產(chǎn)生海量的數(shù)據(jù),它們具有不同的格式,以不同的速度生成,而且通過各種數(shù)據(jù)提供程序、傳感器和現(xiàn)有企業(yè)提供。其他數(shù)據(jù)源—有許多數(shù)據(jù)來自自動化的來源:地理信息:地圖地區(qū)詳細(xì)信息位置詳細(xì)信息礦井詳細(xì)信息人類生成的內(nèi)容:社交媒體電子郵件博客在線信息傳感器數(shù)據(jù):環(huán)境:天氣、降雨量、濕度、光線電氣:電流、能源潛力等導(dǎo)航裝置電離輻射、亞原子粒子等靠近、存在等位置、角度、位移、距離、速度、加速度聲音、聲震動等汽車、運輸?shù)葻崃?、熱度、溫度光學(xué)、光、成像、見光度化學(xué)壓力流動、流體、速度力、密度級別等來自傳感器供應(yīng)商的其他數(shù)據(jù)數(shù)據(jù)改動和存儲層因為傳入的數(shù)據(jù)可能具有不同的特征,所以數(shù)據(jù)改動和存儲層中的組件必須能夠以各種頻率、格式、大小和在各種通信渠道上讀取數(shù)據(jù):數(shù)據(jù)獲取—從各種數(shù)據(jù)源獲取數(shù)據(jù),并將其發(fā)送到數(shù)據(jù)整理組件或存儲在指定的位置中。此組件必須足夠智能,能夠選擇是否和在何處存儲傳入的數(shù)據(jù)。它必須能夠確定數(shù)據(jù)在存儲前是否應(yīng)改動,或者數(shù)據(jù)是否可直接發(fā)送到業(yè)務(wù)分析層。數(shù)據(jù)整理—負(fù)責(zé)將數(shù)據(jù)修改為需要的格式,以實現(xiàn)分析用途。此組件可擁有簡單的轉(zhuǎn)換邏輯或復(fù)雜的統(tǒng)計算法來轉(zhuǎn)換源數(shù)據(jù)。分析引擎將會確定所需的特定的數(shù)據(jù)格式。主要的挑戰(zhàn)是容納非結(jié)構(gòu)化數(shù)據(jù)格式,比如圖像、音頻、視頻和其他二進制格式。分布式數(shù)據(jù)存儲—負(fù)責(zé)存儲來自數(shù)據(jù)源的數(shù)據(jù)。通常,這一層中提供了多個數(shù)據(jù)存儲選項,比如分布式文件存儲(DFS)、云、結(jié)構(gòu)化數(shù)據(jù)源、NoSQL等。

分析層這是從數(shù)據(jù)中提取業(yè)務(wù)洞察的層:分析層實體識別—負(fù)責(zé)識別和填充上下文實體。這是一個復(fù)雜的任務(wù),需要高效的高性能流程。數(shù)據(jù)整理組件應(yīng)為這個實體識別組件提供補充,將數(shù)據(jù)修改為需要的格式。分析引擎將需要上下文實體來執(zhí)行分析。分析引擎—使用其他組件(具體來講,包括實體鑒別、模型管理和分析算法)來處理和執(zhí)行分析。分析引擎可具有支持并行處理的各種不同的工作流、算法和工具。模型管理—負(fù)責(zé)維護各種統(tǒng)計模型,驗證和檢驗這些模型,通過持續(xù)培訓(xùn)模型來提高準(zhǔn)確性。然后,模型管理組件會推廣這些模型,它們可供實體識別或分析引擎組件使用。

使用層這一層使用了從分析應(yīng)用程序獲取的業(yè)務(wù)洞察。分析的結(jié)果由組織內(nèi)的各個用戶和組織外部的實體(比如客戶、供應(yīng)商、合作伙伴和提供商)使用。此洞察可用于針對客戶提供產(chǎn)品營銷信息。例如,借助從分析中獲取的洞察,公司可以使用客戶偏好數(shù)據(jù)和位置感知,在客戶經(jīng)過通道或店鋪時向他們提供個性化的營銷信息。該洞察可用于檢測欺詐,實時攔截交易,并將它們與使用已存儲在企業(yè)中的數(shù)據(jù)構(gòu)建的視圖進行關(guān)聯(lián)。在欺詐性交易發(fā)生時,可以告知客戶可能存在欺詐,以便及時采取更正操作。此外,可以根據(jù)在數(shù)據(jù)改動層完成的分析來觸發(fā)業(yè)務(wù)流程。可以啟動自動化的步驟—例如,如果客戶接受了一條可自動觸發(fā)的營銷信息,則需要創(chuàng)建一個新訂單,如果客戶報告了欺詐,那么可以觸發(fā)對信用卡使用的阻止。分析的輸出也可由推薦引擎使用,該引擎可將客戶與他們喜歡的產(chǎn)品相匹配。推薦引擎分析可用的信息,并提供個性化且實時的推薦。使用層還為內(nèi)部用戶提供了理解、找到和導(dǎo)航企業(yè)內(nèi)外的鏈鎖信息的能力。對于內(nèi)部使用者,為業(yè)務(wù)用戶構(gòu)建報告和儀表板的能力使得利益相關(guān)者能夠制定精明的決策并設(shè)計恰當(dāng)?shù)膽?zhàn)略。為了提高操作有效性,可以從數(shù)據(jù)中生成實時業(yè)務(wù)警告,而且可以監(jiān)視操作性的關(guān)鍵績效指標(biāo):交易攔截器—此組件可實時攔截高容量交易,將它們轉(zhuǎn)換為一種容易被分析層理解的實時格式,以便在傳入數(shù)據(jù)上執(zhí)行實時分析。事務(wù)攔截器應(yīng)能夠集成并處理來自各種來源的數(shù)據(jù),比如傳感器、智能儀表、麥克風(fēng)、攝像頭、GPS設(shè)備、ATM和圖像掃描儀??梢允褂酶鞣N類型的適配器和API來連接到數(shù)據(jù)源。也可以使用各種加速器來簡化開發(fā),比如實時優(yōu)化和流分析,視頻分析,銀行、保險、零售、電信和公共運輸領(lǐng)域的加速器,社交媒體分析,以及情緒分析。業(yè)務(wù)流程管理流程—來自分析層的洞察可供業(yè)務(wù)流程執(zhí)行語言(BPEL)流程、API或其他業(yè)務(wù)流程使用,通過自動化上游和下游IT應(yīng)用程序、人員和流程的功能,進一步獲取業(yè)務(wù)價值。實時監(jiān)視—可以使用從分析中得出的數(shù)據(jù)來生成實時警告。可以將警告發(fā)送給感興趣的使用者和設(shè)備,比如智能電話和平板電腦??梢允褂脧姆治鼋M件生成的數(shù)據(jù)洞察,定義并監(jiān)視關(guān)鍵績效指標(biāo),以便確定操作有效性。實時數(shù)據(jù)可從各種來源以儀表板的形式向業(yè)務(wù)用戶公開,以便監(jiān)視系統(tǒng)的健康或度量營銷活動的有效性。報告引擎—生成與傳統(tǒng)商業(yè)智能報告類似的報告的能力至關(guān)重要。用戶可基于從分析層中得到的洞察,創(chuàng)建臨時報告、計劃的報告或自助查詢和分析。推薦引擎—基于來自分析層的分析結(jié)果,推薦引擎可向購物者提供實時的、相關(guān)的和個性化的推薦,提高電子商務(wù)交易中的轉(zhuǎn)換率和每個訂單的平均價值。該引擎實時處理可用信息并動態(tài)地響應(yīng)每個用戶,響應(yīng)基于用戶的實時活動、存儲在CRM系統(tǒng)中的注冊客戶信息,以及非注冊客戶的社交概況??梢暬桶l(fā)現(xiàn)—數(shù)據(jù)可跨企業(yè)內(nèi)外的各種聯(lián)邦的數(shù)據(jù)源進行導(dǎo)航。數(shù)據(jù)可能具有不同的內(nèi)容和格式,所有數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)可組合來進行可視化并提供給用戶。此能力使得組織能夠?qū)⑵鋫鹘y(tǒng)的企業(yè)內(nèi)容(包含在企業(yè)內(nèi)容管理系統(tǒng)和數(shù)據(jù)倉庫中)與新的社交內(nèi)容(例如tweet和博客文章)組合到單個用戶界面中。垂直層影響邏輯層(大數(shù)據(jù)來源、數(shù)據(jù)改動和存儲、分析和使用層)的所有組件的各方面都包含在垂直層中:信息集成大數(shù)據(jù)治理系統(tǒng)管理服務(wù)質(zhì)量信息集成大數(shù)據(jù)應(yīng)用程序從各種數(shù)據(jù)起源、提供程序和數(shù)據(jù)源獲取數(shù)據(jù),并存儲在HDFS、NoSQL和MongoDB等數(shù)據(jù)存儲系統(tǒng)中。這個垂直層可供各種組件使用(例如數(shù)據(jù)獲取、數(shù)據(jù)整理、模型管理和交易攔截器),負(fù)責(zé)連接到各種數(shù)據(jù)源。集成將具有不同特征(例如協(xié)議和連接性)的數(shù)據(jù)源的信息,需要高質(zhì)量的連接器和適配器??梢允褂眉铀倨鬟B接到大多數(shù)已知和廣泛使用的來源。這些加速器包括社交媒體適配器和天氣數(shù)據(jù)適配器。各種組件還可以使用這一層在大數(shù)據(jù)存儲中存儲信息,從大數(shù)據(jù)存儲中檢索信息,以便處理這些信息。大多數(shù)大數(shù)據(jù)存儲都提供了服務(wù)和API來存儲和檢索該信息。大數(shù)據(jù)治理數(shù)據(jù)治理涉及到定義指南來幫助企業(yè)制定有關(guān)數(shù)據(jù)的正確決策。大數(shù)據(jù)治理有助于處理企業(yè)內(nèi)或從外部來源傳入的數(shù)據(jù)的復(fù)雜性、量和種類。在將數(shù)據(jù)傳入企業(yè)進行處理、存儲、分析和清除或歸檔時,需要強有力的指南和流程來監(jiān)視、構(gòu)建、存儲和保護數(shù)據(jù)。除了正常的數(shù)據(jù)治理考慮因素之外,大數(shù)據(jù)治理還包含其他因素:1、管理各種格式的大量數(shù)據(jù)。2、持續(xù)培訓(xùn)和管理必要的統(tǒng)計模型,以便對非結(jié)構(gòu)化數(shù)據(jù)和分析進行預(yù)處理。請記住,設(shè)置處理非結(jié)構(gòu)化數(shù)據(jù)時的重要一步。3、為外部數(shù)據(jù)設(shè)置有關(guān)其保留和使用的策略和合規(guī)性制度。4、定義數(shù)據(jù)歸檔和清除策略。5、創(chuàng)建如何跨各種系統(tǒng)復(fù)制數(shù)據(jù)的策略。6、設(shè)置數(shù)據(jù)加密策略。

服務(wù)質(zhì)量層此層復(fù)雜定義數(shù)據(jù)質(zhì)量、圍繞隱私和安全性的策略、數(shù)據(jù)頻率、每次抓取的數(shù)據(jù)大小和數(shù)據(jù)過濾器:數(shù)據(jù)質(zhì)量1、完整地識別所有必要的數(shù)據(jù)元素2、以可接受的新鮮度提供數(shù)據(jù)的時間軸3、依照數(shù)據(jù)準(zhǔn)確性規(guī)則來驗證數(shù)據(jù)的準(zhǔn)確性4、采用一種通用語言(數(shù)據(jù)元組滿足使用簡單業(yè)務(wù)語言所表達的需求)5、依據(jù)數(shù)據(jù)一致性規(guī)則驗證來自多個系統(tǒng)的數(shù)據(jù)一致性6、在滿足數(shù)據(jù)規(guī)范和信息架構(gòu)指南基礎(chǔ)上的技術(shù)符合性圍繞隱私和安全的策略需要策略來保護敏感數(shù)據(jù)。從外部機構(gòu)和提供程序獲取的數(shù)據(jù)可能包含敏感數(shù)據(jù)(比如Facebook用戶的聯(lián)系信息或產(chǎn)品定價信息)。數(shù)據(jù)可以來源于不同的地區(qū)和國家,但必須進行相應(yīng)的處理。必須制定有關(guān)數(shù)據(jù)屏蔽和這類數(shù)據(jù)的存儲的決策。考慮以下數(shù)據(jù)訪問策略:A、數(shù)據(jù)可用性B、數(shù)據(jù)關(guān)鍵性C、數(shù)據(jù)真實性D、數(shù)據(jù)共享和發(fā)布E、數(shù)據(jù)存儲和保留,包括能否存儲外部數(shù)據(jù)等問題。如果能夠存儲數(shù)據(jù),數(shù)據(jù)可存儲多長時間?可存儲何種類型的數(shù)據(jù)?F、數(shù)據(jù)提供程序約束(政策、技術(shù)和地區(qū))G、社交媒體使用條款數(shù)據(jù)頻率提供新鮮數(shù)據(jù)的頻率是多少?它是按需、連續(xù)還是離線的?抓取的數(shù)據(jù)大小此屬性有助于定義可抓取的數(shù)據(jù)以及每次抓取后可使用的數(shù)據(jù)大小。過濾器標(biāo)準(zhǔn)過濾器會刪除不想要的數(shù)據(jù)和數(shù)據(jù)中的干擾數(shù)據(jù),僅留下分析所需的數(shù)據(jù)。系統(tǒng)管理系統(tǒng)管理對大數(shù)據(jù)至關(guān)重要,因為它涉及到跨企業(yè)集群和邊界的許多系統(tǒng)。對整個大數(shù)據(jù)生態(tài)系統(tǒng)的健康的監(jiān)視包括:A、管理系統(tǒng)日志、虛擬機、應(yīng)用程序和其他設(shè)備B、關(guān)聯(lián)各種日志,幫助調(diào)查和監(jiān)視具體情形C、監(jiān)視實時警告和通知D、使用顯示各種參數(shù)的實時儀表板E、引用有關(guān)系統(tǒng)的報告和詳細(xì)分析F、設(shè)定和遵守服務(wù)水平協(xié)議G、管理存儲和容量G、歸檔和管理歸檔檢索I、執(zhí)行系統(tǒng)恢復(fù)、集群管理和網(wǎng)絡(luò)管理J、策略管理結(jié)束語對開發(fā)人員而言,層提供了一種對大數(shù)據(jù)解決方案必須執(zhí)行的功能進行分類的途徑,為組織建議必需執(zhí)行這些功能所需的代碼。但是,對于想要從大數(shù)據(jù)獲取洞察的業(yè)務(wù)用戶,考慮大數(shù)據(jù)需求和范圍通常會有所幫助。原子模式解決了訪問、處理、存儲和使用大數(shù)據(jù)的機制,為業(yè)務(wù)用戶提供了一種解決需求和范圍的途徑。下一篇文章將介紹用于此用途的原子模式。作者:Divakar等

來源:DeveloperWorksEnd.大數(shù)據(jù)架構(gòu)和模式(四)大數(shù)據(jù)解決方案的原子模式和復(fù)合模式1.原子模式大數(shù)據(jù)解決方案有什么特點?

2.原子模式下的樣例模式有哪些?

3.復(fù)合模式有什么特點?

簡介本系列的第3部分介紹了大數(shù)據(jù)解決方案的邏輯層。這些層定義了各種組件,并對它們進行分類,這些組件必須處理某個給定業(yè)務(wù)用例的功能性和非功能性需求。本文基于層和組件的概念,介紹了解決方案中所用的典型原子模式和復(fù)合模式。通過將所提出的解決方案映射到此處提供的模式,讓用戶了解需要如何設(shè)計組件,以及從功能角度考慮,應(yīng)該將它們放置在何處。模式有助于定義大數(shù)據(jù)解決方案的架構(gòu)。利用原子模式和復(fù)合模式可以幫助進一步完善大數(shù)據(jù)解決方案的每個組件的角色和責(zé)任。本文介紹原子模式和復(fù)合模式。本系列的最后一篇文章將介紹解決方案模式。圖1.模式的類別該圖顯示了一下模式:原子模式、復(fù)合模式和解決方案模式

原子模式對于大數(shù)據(jù)上下文中經(jīng)常出現(xiàn)的問題,原子模式有助于識別數(shù)據(jù)如何是被使用、處理、存儲和訪問的。它們還有助于識別所需的組件。訪問、存儲和處理來自不同數(shù)據(jù)源的多種數(shù)據(jù)需要不同的方法。每種模式都用于滿足特定的需求:例如,可視化、歷史數(shù)據(jù)分析、社交媒體數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲??梢詫⒍喾N原子模式結(jié)合使用,組成一個復(fù)合模式。這些原子模式?jīng)]有進行分層或排序。例如,可視化模式可以與社交媒體的數(shù)據(jù)訪問模式直接交互,可視化模式還可以與高級分析處理模式進行交互。圖2.用于數(shù)據(jù)使用、處理、數(shù)據(jù)訪問和存儲的原子模式的示例該圖顯示了每種原子模式下的樣例模式的列表

數(shù)據(jù)使用模式這種類型的模式處理使用數(shù)據(jù)分析結(jié)果的各種方式。本節(jié)包括的數(shù)據(jù)使用模式可以滿足幾個需求。

可視化模式可視化數(shù)據(jù)的傳統(tǒng)方式以圖表、儀表板和摘要報告為基礎(chǔ)。這些傳統(tǒng)的方法并不總是用來可視化數(shù)據(jù)的最佳方式。大數(shù)據(jù)可視化的典型需求(包括新出現(xiàn)的需求)如下所示:1、執(zhí)行流數(shù)據(jù)的實時分析和顯示2、基于上下文,以交互方式挖掘數(shù)據(jù)3、執(zhí)行高級搜索,并獲得建議4、并行可視化信息5、獲得先進的硬件,支持未來的可視化需求正在進行研究,以確定人類和機器如何使用大數(shù)據(jù)洞察。這些挑戰(zhàn)包括所涉及的數(shù)據(jù)量,并且需要將數(shù)據(jù)與上下文相關(guān)聯(lián)。必須在適當(dāng)?shù)纳舷挛闹酗@示洞察??梢暬瘮?shù)據(jù)的目的是為了更容易、更直觀地使用數(shù)據(jù),因此報告和儀表板可能提供全高清的觀看效果和3-D互動視頻,并且可以為用戶提供使用應(yīng)用程序控制業(yè)務(wù)活動和結(jié)果的能力。

即席發(fā)現(xiàn)模式創(chuàng)建滿足所有業(yè)務(wù)需求的標(biāo)準(zhǔn)報告往往是不可行的,因為企業(yè)的業(yè)務(wù)數(shù)據(jù)查詢會有不同的需求。用戶在查找特定信息時,可能需要獲得根據(jù)問題的上下文執(zhí)行即席查詢的能力。即席分析可以幫助數(shù)據(jù)科學(xué)家和關(guān)鍵業(yè)務(wù)用戶了解業(yè)務(wù)數(shù)據(jù)的行為。即席處理中涉及的復(fù)雜性來自多種因素:1、多個數(shù)據(jù)源可用于相同的域。2、單一的查詢可以有多個結(jié)果。3、輸出可以是靜態(tài)的,并具有多種格式(視頻、音頻、圖形和文本)。4、輸出可以是動態(tài)和交互式的。

加強傳統(tǒng)的數(shù)據(jù)存儲在大數(shù)據(jù)的初步探索中,許多企業(yè)選擇使用現(xiàn)有的分析平臺來降低成本,并依賴于現(xiàn)有的技能。加強現(xiàn)有的數(shù)據(jù)存儲有助于拓寬可用于現(xiàn)有分析的數(shù)據(jù)的范圍,包括駐留在組織邊界內(nèi)外的數(shù)據(jù),比如社交媒體數(shù)據(jù),它可以豐富主數(shù)據(jù)。通過拓寬數(shù)據(jù)范圍,使之包含現(xiàn)有存儲中的新事實表、維度和主數(shù)據(jù),并從社交媒體獲取客戶數(shù)據(jù),組織可以獲得更深入的客戶洞察。但要牢記的是,新的數(shù)據(jù)集通常比較大,而現(xiàn)有的提取、轉(zhuǎn)換和加載工具可能不足以處理它。您可能需要使用具有大規(guī)模并行處理能力的高級工具來解決數(shù)據(jù)的數(shù)量、多樣性、真實性和速度特征。

通知模式大數(shù)據(jù)洞察使人類、企業(yè)和機器可以通過使用事件通知而立即采取行動。通知平臺必須能夠處理及時發(fā)送出去的預(yù)計數(shù)量的通知。這些通知與大量郵件或群發(fā)短信不同,因為內(nèi)容一般是特定于使用者的。例如,推薦引擎可以提供有關(guān)世界各地的龐大客戶群的洞察,而且可以將通知發(fā)送給這樣的客戶。

啟動一個自動響應(yīng)模式從大數(shù)據(jù)獲得的業(yè)務(wù)洞察,可用于觸發(fā)或啟動其他業(yè)務(wù)流程或事務(wù)。

處理模式無論數(shù)據(jù)是處于靜止?fàn)顟B(tài)還是在運動中,都可以處理大數(shù)據(jù)。具體情況取決于分析的復(fù)雜性,有可能不需要對數(shù)據(jù)進行實時處理。這種模式解決了對大數(shù)據(jù)進行實時、近實時或批量處理的方式。以下高級的大數(shù)據(jù)處理類別適用于大多數(shù)分析。這些類別通常也適用于基于RDBMS的傳統(tǒng)系統(tǒng)。惟一的區(qū)別是龐大規(guī)模的數(shù)據(jù)、多樣性和速度。在處理大數(shù)據(jù)時,要使用機器學(xué)習(xí)、復(fù)雜事件處理、事件流處理、決策管理和統(tǒng)計模型管理等技術(shù)。

歷史數(shù)據(jù)分析模式傳統(tǒng)的歷史數(shù)據(jù)分析僅限于預(yù)定義的數(shù)據(jù)時間段,這通常取決于數(shù)據(jù)保留策略。由于處理和存儲的限制,超出此時間段的數(shù)據(jù)通常會被歸檔或清除?;贖adoop的系統(tǒng)和其他等效的系統(tǒng)可以克服這些限制,因為它們具有豐富的存儲以及分布式大規(guī)模并行處理能力。運營、業(yè)務(wù)和數(shù)據(jù)倉庫的數(shù)據(jù)被移動到大數(shù)據(jù)存儲,您通過使用大數(shù)據(jù)平臺功能對它們進行處理。歷史分析包括分析給定時間段、季節(jié)組合和產(chǎn)品的歷史趨勢,并與最新的可用數(shù)據(jù)進行比較。為了能夠存儲和處理如此龐大的數(shù)據(jù),您可以使用HDFS、NoSQL、SPSS?和InfoSphere?BigInsights?。

高級分析模式大數(shù)據(jù)提供了很多實現(xiàn)創(chuàng)意洞察的機會。不同的數(shù)據(jù)集可以在多種上下文中存在關(guān)聯(lián)。發(fā)現(xiàn)這些關(guān)系需要創(chuàng)新的復(fù)雜算法和技術(shù)。高級分析包括預(yù)測、決策、推理過程、模擬、上下文信息標(biāo)識和實體解析。高級分析的應(yīng)用包括生物統(tǒng)計數(shù)據(jù)分析(例如,DNA分析)、空間分析、基于位置的分析、科學(xué)分析、研究,等等。高級分析要求大量的計算來管理大量的數(shù)據(jù)。數(shù)據(jù)科學(xué)家可以指導(dǎo)您識別合適的技術(shù)、算法和數(shù)據(jù)集,以及在給定上下文中解決問題所需的數(shù)據(jù)源。比如SPSS、InfoSphereStreams和InfoSphereBigInsights等工具提供了這類功能。這些工具訪問存儲在大數(shù)據(jù)存儲系統(tǒng)(比如BigTable、HBase,等等)中的非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)(例如,JSON數(shù)據(jù))。

預(yù)處理原始數(shù)據(jù)模式大數(shù)據(jù)解決方案主要由基于MapReduce的Hadoop系統(tǒng)和技術(shù)組成,MapReduce是開箱即用的分布式存儲和處理解決方案。然而,從非結(jié)構(gòu)化數(shù)據(jù)提取數(shù)據(jù)(例如,圖像、音頻、視頻、二進制提要,甚至是文本)是一項復(fù)雜的任務(wù),需要具有機器學(xué)習(xí)能力并掌握自然語言處理等技術(shù)。另一個主要挑戰(zhàn)是如何驗證這些技術(shù)和算法的輸出的準(zhǔn)確度和正確性。要對任何數(shù)據(jù)執(zhí)行分析,數(shù)據(jù)都必須是某種結(jié)構(gòu)化格式。從多個數(shù)據(jù)源訪問的非結(jié)構(gòu)化數(shù)據(jù)可以按原樣存儲,然后被轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)(例如JSON),并被再次存儲到大數(shù)據(jù)存儲系統(tǒng)中。非結(jié)構(gòu)化文本可以轉(zhuǎn)換成半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。同樣,圖像、音頻和視頻數(shù)據(jù)需要轉(zhuǎn)換成可用于分析的格式。此外,使用預(yù)測和統(tǒng)計算法的高級分析的準(zhǔn)確性和正確性取決于用來訓(xùn)練其模型的數(shù)據(jù)和算法的數(shù)量。下面的列表顯示了將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)所需的算法和活動:1、文檔和文本分類2、特征提取3、圖像和文本分割4、關(guān)聯(lián)特征、變量和時間,然后提取包含時間的值5、輸出的準(zhǔn)確度檢查使用了混淆矩陣(confusionmatrix)等技術(shù)和其他手動活動數(shù)據(jù)科學(xué)家可以幫助用戶選擇合適的技術(shù)和算法。

即席分析模式處理大數(shù)據(jù)的即席查詢所帶來的挑戰(zhàn)不同于對結(jié)構(gòu)化數(shù)據(jù)執(zhí)行即席查詢時所面臨的挑戰(zhàn),由于數(shù)據(jù)源和數(shù)據(jù)格式不是固定的,所以需要使用不同的機制來檢索和處理數(shù)據(jù)。雖然大數(shù)據(jù)供應(yīng)商可以處理簡單的即席查詢,但在大多數(shù)情況下,查詢是復(fù)雜的,因為必須在運行時動態(tài)地發(fā)現(xiàn)數(shù)據(jù)、算法、格式和實體解析。所以需要利用數(shù)據(jù)科學(xué)家和業(yè)務(wù)用戶的專業(yè)知識來定義下列任務(wù)所需的分析:1、識別并發(fā)現(xiàn)計算和算法2、識別并發(fā)現(xiàn)數(shù)據(jù)源3、定義所需的可以由計算使用的格式4、對數(shù)據(jù)執(zhí)行并行計算

訪問模式在大數(shù)據(jù)解決方案中,有許多數(shù)據(jù)源,還有很多訪問數(shù)據(jù)的方式,本節(jié)將介紹最常見的幾種。

Web和社交媒體訪問模式Internet是提供許多目前可以獲得的洞察的數(shù)據(jù)源。在幾乎所有分析中,都會用到Web和社交媒體,但獲得這種數(shù)據(jù)需要不同的訪問機制。在所有數(shù)據(jù)源中,因為Web和社交媒體的多樣性、速度和數(shù)量,所以Web和社交媒體是最為復(fù)雜的。網(wǎng)站大約有40-50個類別,每一個類別都需要使用不同的方式來訪問數(shù)據(jù)。本節(jié)將列出這些類別,并介紹一些訪問機制。從大數(shù)據(jù)的角度講,高級的類別是商業(yè)站點、社交媒體站點,以及具有特定和通用組件的站點。有關(guān)的訪問機制見圖3。如果需要的話,在完成預(yù)處理后,可將所訪問的數(shù)據(jù)存儲在數(shù)據(jù)存儲中。圖3.Web和社交媒體訪問該圖顯示了Web和社交媒體數(shù)據(jù)訪問需要執(zhí)行以下步驟來訪問Web媒體信息。圖4.大數(shù)據(jù)訪問步驟非結(jié)構(gòu)化數(shù)據(jù)存儲中的Web媒體訪問步驟A-1.爬網(wǎng)程序讀取原始數(shù)據(jù)。步驟A-2.數(shù)據(jù)被存儲在非結(jié)構(gòu)化存儲中。Web媒體訪問為結(jié)構(gòu)化存儲預(yù)處理數(shù)據(jù)步驟B-1.爬網(wǎng)程序讀取原始數(shù)據(jù)。步驟B-2.對數(shù)據(jù)進行預(yù)處理。步驟B-3.數(shù)據(jù)被存儲在結(jié)構(gòu)化存儲中。Web媒體訪問預(yù)處理非結(jié)構(gòu)化數(shù)據(jù)步驟C-1.在極少數(shù)情況下,來自供應(yīng)商的數(shù)據(jù)可以是非結(jié)構(gòu)化數(shù)據(jù)。步驟C-2.對數(shù)據(jù)進行預(yù)處理。步驟C-3.數(shù)據(jù)被存儲在結(jié)構(gòu)化存儲中。非結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)的Web媒體訪問步驟D-1.數(shù)據(jù)供應(yīng)商提供結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。步驟D-2.數(shù)據(jù)被存儲在結(jié)構(gòu)化或非結(jié)構(gòu)化存儲中。Web媒體訪問預(yù)處理非結(jié)構(gòu)化數(shù)據(jù)步驟E-1.不能使用在存儲時未經(jīng)過預(yù)處理的非結(jié)構(gòu)化數(shù)據(jù),除非它是結(jié)構(gòu)化格式的數(shù)據(jù)。步驟E-2.對數(shù)據(jù)進行預(yù)處理。步驟E-3.經(jīng)過預(yù)處理的結(jié)構(gòu)化數(shù)據(jù)被存儲在結(jié)構(gòu)化存儲中。如圖所示,數(shù)據(jù)可以直接存儲在存儲器中,或者可以對它們進行預(yù)處理,并將它們轉(zhuǎn)換成一個中間格式或標(biāo)準(zhǔn)格式,然后再存儲它們。在可以分析數(shù)據(jù)之前,數(shù)據(jù)格式必須可用于實體解析或用于查詢所需數(shù)據(jù)。這種經(jīng)過預(yù)處理的數(shù)據(jù)可以存儲在一個存儲系統(tǒng)中。雖然預(yù)處理通常被認(rèn)為是微不足道的,但這項處理可能非常復(fù)雜和耗時。

設(shè)備生成的數(shù)據(jù)模式設(shè)備生成的內(nèi)容包括來自傳感器的數(shù)據(jù)數(shù)據(jù)是從天氣信息、電氣儀表和污染數(shù)據(jù)等數(shù)據(jù)來源檢測到的,并且由傳感器捕獲。這些數(shù)據(jù)可以是照片、視頻、文本和其他二進制格式。下圖說明了處理機器生成的數(shù)據(jù)的典型過程。圖5.設(shè)備生成的數(shù)據(jù)訪問該圖顯示了設(shè)備生產(chǎn)的數(shù)據(jù)已被處理圖5說明了訪問來自傳感器的數(shù)據(jù)的過程。由傳感器捕獲的數(shù)據(jù)可以發(fā)送到設(shè)備網(wǎng)關(guān),設(shè)備網(wǎng)關(guān)會對數(shù)據(jù)執(zhí)行一些初始預(yù)處理,并緩沖高速數(shù)據(jù)。機器生成的數(shù)據(jù)大多為二進制格式(音頻、視頻和傳感器讀數(shù))或文本格式。這樣的數(shù)據(jù)最初可以存儲在存儲系統(tǒng)中,也可以對它們進行預(yù)處理,然后再存儲它們。對于分析來說,要求執(zhí)行預(yù)處理。

事務(wù)、運營和倉庫數(shù)據(jù)模式可以存儲現(xiàn)有的事務(wù)、運營和倉庫數(shù)據(jù),避免清除或歸檔數(shù)據(jù)(因為存儲和處理的限制),或減少在數(shù)據(jù)被其他使用者訪問時對傳統(tǒng)存儲的負(fù)載。對于大多數(shù)企業(yè)而言,事務(wù)、運營、主數(shù)據(jù)和倉庫信息都是所有分析的核心。如果用在Internet上,或者通過傳感器和智能設(shè)備提供的非結(jié)構(gòu)化數(shù)據(jù)以及外部數(shù)據(jù)來增強此數(shù)據(jù),那么可以幫助組織獲得準(zhǔn)確的洞察,并執(zhí)行高級分析。使用由多個數(shù)據(jù)庫廠商提供的標(biāo)準(zhǔn)連接器,事務(wù)和倉庫數(shù)據(jù)可以被推入存儲。預(yù)處理事務(wù)性數(shù)據(jù)要容易得多,因為數(shù)據(jù)大多是結(jié)構(gòu)化的??梢允褂煤唵蔚奶崛?、轉(zhuǎn)換和加載流程將事務(wù)數(shù)據(jù)移動到存儲中。事務(wù)數(shù)據(jù)可以很容易地轉(zhuǎn)換成JSON和CSV等格式。使用Sqoop等工具可以更容易將事務(wù)數(shù)據(jù)推入存儲系統(tǒng),如HBase和HDFS。

數(shù)據(jù)訪問模式的特殊變化:生物特征數(shù)據(jù)訪問此信息的數(shù)據(jù)訪問與對機器生成的數(shù)據(jù)的訪問非常相似。生物特征數(shù)據(jù)被歸類為生理和行為數(shù)據(jù),可以通過許多方式對大量數(shù)據(jù)進行分析。有些數(shù)據(jù)可通過傳感器來獲取,有些數(shù)據(jù)則需要身體樣品(血液、尿液等)。處理生物特征數(shù)據(jù)(如DNA數(shù)據(jù))需要更長的時間。生理數(shù)據(jù)包括指紋、掌紋、氣味和香味的信息,以及面部、聲音、視網(wǎng)膜和虹膜特征。行為數(shù)據(jù)包括打字模式、打字節(jié)奏、說話、走路、簽名匹配和步態(tài)。

存儲模式存儲模式有助于確定適當(dāng)?shù)拇鎯Ω鞣N數(shù)據(jù)的類型和格式。數(shù)據(jù)可以按原樣存儲,根據(jù)鍵值對存儲,或者以預(yù)定義的格式存儲。分布式文件系統(tǒng)(如GFS和HDFS)都能夠存儲任何類型的數(shù)據(jù)。但是,高效地檢索或查詢數(shù)據(jù)的能力會影響性能。技術(shù)的選擇很重要。

分布式非結(jié)構(gòu)化數(shù)據(jù)的存儲模式大部分大數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),而且可以通過不同的方式針對不同的上下文提取它所擁有的信息。大多數(shù)時候,非結(jié)構(gòu)化數(shù)據(jù)必須按原樣并以其原始格式進行存儲。這樣的數(shù)據(jù)可以存儲在分布式文件系統(tǒng)(如HDFS)和NoSQL文檔存儲(如MongoDB)中。這些系統(tǒng)提供了檢索非結(jié)構(gòu)化數(shù)據(jù)的有效方法。

分布式結(jié)構(gòu)化數(shù)據(jù)的存儲模式結(jié)構(gòu)化數(shù)據(jù)包括從數(shù)據(jù)源到達的已經(jīng)是結(jié)構(gòu)化格式的數(shù)據(jù),以及經(jīng)過預(yù)處理,被轉(zhuǎn)換為JSON數(shù)據(jù)等格式的非結(jié)構(gòu)化數(shù)據(jù)。必須存儲已經(jīng)過轉(zhuǎn)換的數(shù)據(jù),避免從原始數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的頻繁數(shù)據(jù)轉(zhuǎn)換??梢允褂肎oogle的BigTable等技術(shù)來存儲結(jié)構(gòu)化數(shù)據(jù)。BigTable是一個大規(guī)模容錯式自我管理系統(tǒng),包括TB級的內(nèi)存和PB級的存儲。Hadoop中的HBase可媲美BigTable。它使用了HDFS作為底層存儲。

傳統(tǒng)數(shù)據(jù)存儲的存儲模式對于存儲大數(shù)據(jù)而言,傳統(tǒng)的數(shù)據(jù)存儲并不是最佳選擇,但在企業(yè)執(zhí)行初步數(shù)據(jù)探索的情況下,企業(yè)可能會選擇使用現(xiàn)有的數(shù)據(jù)倉庫、RDBMS系統(tǒng)和其他內(nèi)容存儲。這些現(xiàn)有的存??儲系統(tǒng)可用來存儲使用大數(shù)據(jù)平臺消化和過濾的數(shù)據(jù)。不要認(rèn)為傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)適用于大數(shù)據(jù)。

云存儲的存儲模式許多云計算基礎(chǔ)架構(gòu)供應(yīng)商都有分布式結(jié)構(gòu)化、非結(jié)構(gòu)化的存儲能力。從傳統(tǒng)的配置、維護、系統(tǒng)管理、編程和建模角度講,大數(shù)據(jù)技術(shù)有點不同。此外,實現(xiàn)大數(shù)據(jù)解決方案所需的技能既罕見又昂貴。探索大數(shù)據(jù)技術(shù)的企業(yè)可以使用云解決方案來提供大數(shù)據(jù)的存儲、維護和系統(tǒng)管理。要存儲的數(shù)據(jù)往往是敏感數(shù)據(jù),這些數(shù)據(jù)包括醫(yī)療記錄和生物特征數(shù)據(jù)。您需要考慮數(shù)據(jù)安全性、數(shù)據(jù)共享、數(shù)據(jù)治理,以及有關(guān)數(shù)據(jù)的其他政策,在考慮將云作為大數(shù)據(jù)存儲庫的時候尤其如此。傳輸大量數(shù)據(jù)的能力也是云存儲的另一個重要考慮因素。

復(fù)合模式原子模式側(cè)重于提供執(zhí)行各項功能所需的能力。但是,復(fù)合模式是基于端到端的解決方案進行分類的。每個復(fù)合模式都要考慮一個或多個維度。在將復(fù)合模式應(yīng)用到每個模式時,會有許多變化??梢詫?fù)合模式映射到一個或多個原子模式,以解決某個給定的業(yè)務(wù)問題。本文所述的復(fù)合模式列表是基于經(jīng)常發(fā)生的典型業(yè)務(wù)問題,但這不是復(fù)合模式的完整列表。

存儲和探索模式如果業(yè)務(wù)問題需要存儲大量新數(shù)據(jù)和現(xiàn)有數(shù)據(jù),而且先前由于缺乏足夠的存儲和分析能力而一直未使用這些數(shù)據(jù),那么這種模式就非常有用。該模式旨在緩解對現(xiàn)有數(shù)據(jù)存儲的負(fù)載。所存儲的數(shù)據(jù)可用于初始勘探和即席發(fā)現(xiàn)。用戶可以推演報告,通過進一步的處理來分析數(shù)據(jù)的質(zhì)量和價值。您可以使用ETL工具來預(yù)處理和凈化原始數(shù)據(jù),然后再進行任何類型的分析。圖6.存儲和探索復(fù)合模式該圖顯示了模式的維度包括僅存儲、處理和使用圖6說明了這種模式的多個維度。數(shù)據(jù)的使用目的可能只是存儲它,或處理和使用它。僅存儲的示例是,數(shù)據(jù)的獲取和存儲只是為了將來能夠滿足合規(guī)性或法律的要求。在處理和使用的情況下,分析的結(jié)果可以被處理和使用??梢詮淖罱l(fā)現(xiàn)的來源或從現(xiàn)有的數(shù)據(jù)存儲訪問數(shù)據(jù)。

專用和可預(yù)測的分析復(fù)合模式使用此模式的情況是,使用多種處理技術(shù)執(zhí)行分析,因此,可以用新洞察豐富現(xiàn)有數(shù)據(jù),或創(chuàng)建可由各種用戶使用的輸出。該分析可以在事件發(fā)生的同時實時發(fā)生,或使用批量模式,根據(jù)收集到的數(shù)據(jù)獲得洞察。作為可以分析的靜態(tài)數(shù)據(jù)的示例,某電信公司可能構(gòu)建客戶流失模型,包括分析呼叫數(shù)據(jù)記錄、社交數(shù)據(jù)和事務(wù)數(shù)據(jù)。作為分析運動數(shù)據(jù)的示例,預(yù)測某個給定事務(wù)正在經(jīng)歷欺詐的需求必須實時或近實時地發(fā)生。圖7.專用和預(yù)測分析復(fù)合模式該圖顯示了專用和預(yù)測分析復(fù)合模式圖7說明了這種模式的多個維度。所執(zhí)行的處理可以是標(biāo)準(zhǔn)的或預(yù)測性的,并且可以包括決策。此外,可以將通知發(fā)送給與特定任務(wù)或消息有關(guān)的系統(tǒng)或用戶。該通知可以使用可視化功能。該處理可實時發(fā)生或以批量模式發(fā)生。

可操作的分析模式大數(shù)據(jù)解決方案的最高級形式是,對數(shù)據(jù)集執(zhí)行分析,并且基于可重復(fù)的過去的行動或行動矩陣來暗示行動。該操作可以是手動、半自動或全自動的?;A(chǔ)分析需要高度準(zhǔn)確。行動是預(yù)定義的,分析的結(jié)果被映射到行動??刹僮鞣治鲋兴婕暗牡湫筒襟E是:1、分析數(shù)據(jù)以獲得洞察。2、制定決策。3、激活相應(yīng)的渠道,對正確的使用者采取行動。圖8.可操作的分析復(fù)合模式該圖顯示了可操作的分析復(fù)合模式圖8說明該分析可以是手動、半自動或全自動的。如圖中的說明所示,它使用了原子模式。手動操作意味著系統(tǒng)基于分析的結(jié)果來提供建議操作,并由人類決定和執(zhí)行操作。半自動意味著,分析建議操作,但不需要通過人類干預(yù)來啟動操作,或從一組建議的操作中進行選擇。全自動表示在決策之后,系統(tǒng)立即執(zhí)行操作。例如,在設(shè)備被預(yù)測會發(fā)生故障之后,系統(tǒng)可以自動創(chuàng)建一個工作訂單。下面的矩陣顯示了如何將原子模式映射到復(fù)合模式,復(fù)合模式是原子模式的組合。每個復(fù)合模式都被設(shè)計為針對具有一組特定特征的數(shù)據(jù)在特定情況下使用。矩陣顯示了模式的典型組合。必須對模式進行調(diào)整,以滿足特定的情況和需求。在矩陣中,按照從最簡單到最復(fù)雜的順序列出了復(fù)合模式。“storeandexplore(存儲和探索)”模式是最簡單的。圖9.復(fù)合模式對原子模式的映射該圖顯示了復(fù)合模式對原子模式的映射

結(jié)束語采用基于模式的方法可以幫助業(yè)務(wù)團隊和技術(shù)團隊在解決方案的首要目標(biāo)上達成一致意見。技術(shù)團隊可以使用模式定義架構(gòu)性原則,并制定一些關(guān)鍵架構(gòu)決策。技術(shù)團隊可以將這些模式應(yīng)用到架構(gòu)層,并導(dǎo)出實現(xiàn)解決方案所需的組件集。通常情況下,解決方案從有限的范圍開始,然后企業(yè)會變得越來越有信心,相信解決方案會帶來價值。隨著演變的發(fā)生,與解決方案一致的復(fù)合模式與原子模式將會得到細(xì)化。在初始階段,可以使用模式來定義一個基于模式的架構(gòu),并映射出在該架構(gòu)中如何逐步設(shè)計組件。

圖10.將原子模式映射到架構(gòu)層該圖顯示了原子模式對架構(gòu)層的映射在本系列的第2部分中,我們描述了與大數(shù)據(jù)有關(guān)的復(fù)雜性,以及如何確定是否應(yīng)實現(xiàn)或更新您的大數(shù)據(jù)解決方案。在本文中,我們討論了原子模式和復(fù)合模式,并解釋了一個解決方案可以由多種模式組成。給定一個特定的上下文,您可能會發(fā)現(xiàn)某些模式是比其他模式更合適。我們建議您采用端到端的解決方案視圖,并考慮所涉及的模式,然后定義大數(shù)據(jù)解決方案的架構(gòu)。對于架構(gòu)師和設(shè)計師,映射到模式可以支持對架構(gòu)中各組件的責(zé)任進一步細(xì)化。對于業(yè)務(wù)用戶而言,它通常有助于更好地理解大數(shù)據(jù)問題的業(yè)務(wù)范圍,從而獲得有價值的洞察,讓解決方案滿足所期望的結(jié)果。此外,解決方案模式有助于定義最優(yōu)的組件集,根據(jù)業(yè)務(wù)問題是否需要使用數(shù)據(jù)發(fā)現(xiàn)和探索功能、專用和可預(yù)測的分析或者可操作的分析。請記住,在實現(xiàn)一個解決方案時,并沒有建議的原子、復(fù)合或解決方案模式的順序或次序。在本系列的下一篇文章中,將針對此用途介紹解決方案模式。作者:Divakar等

來源:DeveloperWorksEnd.大數(shù)據(jù)架構(gòu)和模式(五):利用大數(shù)據(jù)識別保險行業(yè)中的欺詐業(yè)務(wù)案例1.你認(rèn)為該如何利用大數(shù)據(jù)識別保險行業(yè)中的欺詐業(yè)務(wù)?

2.傳統(tǒng)解決欺詐的方案是什么?

3.本文解決方案模式:入門及獲得高級業(yè)務(wù)洞察分別是什么?

簡介本系列的第3部分描述了針對最常見的、經(jīng)常發(fā)生的大數(shù)據(jù)問題及其解決方案的原子模式和復(fù)合模式。本文將推薦可以用于架構(gòu)大數(shù)據(jù)解決方案的三個解決方案模式。每個解決方案模式都使用了一個復(fù)合模式,該模式由邏輯組件構(gòu)成(參見第3部分的介紹)。在本文末尾處,列出了產(chǎn)品和工具清單,它們可映射到每一個解決方案模式的組件。

解決方案模式以下各節(jié)將介紹可以用于架構(gòu)大數(shù)據(jù)解決方案的三個解決方案模式。為了說明這些模式,我們將它們應(yīng)用到特定的用例(例如,如何檢測醫(yī)療保險欺詐),但這些模式可以用于解決其他許多業(yè)務(wù)場景。每個解決方案模式都利用了一個復(fù)合模式的優(yōu)勢。在下表中,列出了本文介紹的解決方案模式,以及作為其基礎(chǔ)的復(fù)合模式。

用例描述:保險欺詐財務(wù)欺詐對金融業(yè)的所有領(lǐng)域都帶來了巨大的風(fēng)險。在美國,保險公司每年要損失數(shù)十億美元。在印度,僅僅是2011年的虧損總額就達到3000億印度盧比。除了經(jīng)濟損失,保險公司還會失去一些業(yè)務(wù),因為客戶感到不滿意。雖然許多保險監(jiān)管機構(gòu)已經(jīng)定義了框架和流程來控制欺詐行為,但他們往往只是對欺詐做出反應(yīng),而不是采取主動措施來預(yù)防它們。傳統(tǒng)的方法(如循環(huán)列入黑名單的客戶、保險代理人和員工)并不能解決欺詐問題。本文為大數(shù)據(jù)解決方案提出了一種解決方案模式,以本系列的第3部分中介紹的邏輯架構(gòu)以及第4部分中介紹的復(fù)合模式為基礎(chǔ)。保險欺詐是為了讓做出欺詐的當(dāng)事人或其他關(guān)聯(lián)方獲得不正當(dāng)或非法的好處的行為或疏忽。欺詐行為的種類包括:

保單持有人欺詐和索賠欺詐—在購買和執(zhí)行保險產(chǎn)品時對保險公司的欺詐包括提出保險索賠時的欺詐。中介欺詐—保險代理人、企業(yè)代理、中介或第三方代理人對保險公司或者保單持有人所做的欺詐。內(nèi)部欺詐—保險公司的董事、經(jīng)理,或其他任何人員或辦公室成員對保險公司所做的欺詐。

目前的欺詐檢測流程保險監(jiān)管委員會已經(jīng)建立了反欺詐政策,其中包括明確定義的欺詐行為監(jiān)控流程、搜索潛在的欺詐指標(biāo)(并發(fā)布列表)的流程,以及與執(zhí)法部門協(xié)調(diào)的流程。保險公司配置了專門分析欺詐索賠的工作人員。

目前的欺詐檢測流程的問題保險監(jiān)管機構(gòu)已明確定義了欺詐檢測和緩解的流程。傳統(tǒng)的解決方案使用的模型基于歷史欺詐數(shù)據(jù)、被列入黑名單的客戶和保險代理人,以及有關(guān)特定于領(lǐng)域的欺詐的數(shù)據(jù)。可用于檢測欺詐的數(shù)據(jù)被局制于給定保險公司的IT系統(tǒng)和一些外部源。目前的欺詐檢測流程大多是手工的,只能處理有限的數(shù)據(jù)集。保險公司可能無法調(diào)查所有指標(biāo)。通常很遲才檢測到欺詐,而且保險公司很難對每個欺詐案例都進行適當(dāng)?shù)母M。目前的欺詐檢測依賴于對現(xiàn)有欺詐案件的已知情況,所以每一種新型詐騙發(fā)生時,保險公司都不得不承擔(dān)第一次的損失。最傳統(tǒng)的方法在一個特定的數(shù)據(jù)源內(nèi)工作,無法容納不斷增長的各種不同來源的數(shù)據(jù)。大數(shù)據(jù)解決方案可以幫助解決這些挑戰(zhàn),并在保險公司的欺詐檢測中發(fā)揮重要作用。

解決方案模式:入門該解決方案模式基于存儲和探索復(fù)合模式。它集中處理數(shù)據(jù)的獲得并存儲來自企業(yè)內(nèi)部或外部的不同來源的相關(guān)數(shù)據(jù)。在圖1所示的數(shù)據(jù)源只是一個示例;領(lǐng)域?qū)<铱梢宰R別適當(dāng)?shù)臄?shù)據(jù)源。因為必須收集、存儲和處理來自多個來源的大量不同數(shù)據(jù),此業(yè)務(wù)挑戰(zhàn)是大數(shù)據(jù)解決方案的良好候選場景。下圖顯示了解決方案模式,它映射到了在第3部分中介紹過的邏輯架構(gòu)。

圖1.入門解決方案模式該圖顯示了邏輯層圖,此圖顯示了入門解決方案模式圖1使用以下數(shù)據(jù)提供者:1、外部數(shù)據(jù)源2、結(jié)構(gòu)化數(shù)據(jù)存儲3、經(jīng)過轉(zhuǎn)換的結(jié)構(gòu)化數(shù)據(jù)4、實體解析5、大數(shù)據(jù)瀏覽器組件醫(yī)療保健欺詐檢測所需的數(shù)據(jù)可以從不同的數(shù)據(jù)源和系統(tǒng)中獲得,比如銀行、醫(yī)療機構(gòu)、社交媒體和Internet機構(gòu)。這些數(shù)據(jù)包括來自博客、社交媒體、新聞機構(gòu)、各機構(gòu)的報告,以及X光報告等來源的非結(jié)構(gòu)化數(shù)據(jù)。更多示例請參見圖1中的數(shù)據(jù)源層。利用大數(shù)據(jù)分析,這些不同來源的信息可相互關(guān)聯(lián)和組合,并且被分析(在已定義規(guī)則的幫助下),以確定欺詐的可能性。在這種模式中,所需的外部數(shù)據(jù)是從數(shù)據(jù)供應(yīng)者那里獲得的,他們貢獻經(jīng)過預(yù)處理的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)已被轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。在經(jīng)過初始預(yù)處理后,這些數(shù)據(jù)被存儲在大數(shù)據(jù)存儲中。下一步是找出可能的實體,并從數(shù)據(jù)生成即席報告。實體識別是在數(shù)據(jù)中識別命名元素的任務(wù)。識別分析所需的所有實體必須都被識別出來,包括那些與其他實體沒有關(guān)系的松散實體。實體識別主要由數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析師執(zhí)行。實體解析可以像根據(jù)數(shù)據(jù)關(guān)系和上下文識別單一實體或復(fù)雜實體一樣簡單。此模式使用了簡單形式的實體解析組件。您可以簡單地將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成最適合于分析的格式,并直接存儲在大數(shù)據(jù)結(jié)構(gòu)化存儲中??梢栽诖藬?shù)據(jù)上執(zhí)行即席查詢,以獲得相關(guān)信息:給定的客戶、區(qū)域、保險產(chǎn)品、代理或?qū)徟藛T在給定期間內(nèi)的整體欺詐風(fēng)險某些代理或?qū)徟藛T,或跨保險公司的客戶過往的索賠檢查顧名思義,組織一般采用這種模式開始使用大數(shù)據(jù)。組織采用探索式方法,根據(jù)可用的數(shù)據(jù)評估可以生成什么樣的洞察。在這個階段,組織一般不會對高級分析技術(shù)進行投資,比如機器學(xué)習(xí)、特征提取和文本分析。

解決方案模式:獲得高級業(yè)務(wù)洞察這種模式比入門模式更高級。它在索賠處理的三個階段預(yù)測欺詐:索賠已經(jīng)解決。索賠處理正在進行中。剛剛收到索賠請求。對于前兩種情況,可以批量處理索賠,而且可以啟動欺詐檢測流程,它可能是常規(guī)報告流程的一部分,也可以由業(yè)務(wù)請求啟動。第3種情況可以近實時地進行處理。索賠請求攔截器會攔截索賠請求,啟動欺詐檢測流程(如果指示器報告這可能是一個欺詐案件),然后通知在系統(tǒng)中識別的利益相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論