




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
目錄SaaS模式云數(shù)據(jù)倉庫概述4SaaS模式云數(shù)據(jù)倉庫+BI13SaaSAI19SaaS模式云數(shù)據(jù)倉庫+實時分析27SaaS模式云數(shù)據(jù)倉庫+實時搜索39SaaS模式云數(shù)據(jù)倉庫+數(shù)據(jù)銀行49SaaS模式云數(shù)據(jù)倉庫概述<4SaaS模式云數(shù)據(jù)倉庫概述作者|曲寧阿里云智能產(chǎn)品專家SoftwareasaService(SaaS)是一種基于Web的軟件應用交付模式,它改變了用戶自己購買軟硬件設(shè)施、自行部署和運維服務的交付模式,讓應用服務直接對客戶可用。數(shù)據(jù)管理領(lǐng)域的技術(shù)演進以及云計算的蓬勃發(fā)展催生了基于云提供開箱即用的數(shù)據(jù)倉庫服務的產(chǎn)品模式-DataWarehouseasaService(DWaaS),最終用戶無需關(guān)心基礎(chǔ)設(shè)施、平臺軟件管理以及平臺運維和優(yōu)化升級工作。這部分工作由服務提供商完全托管并提供滿足SLA要求的高質(zhì)量服務,減少用戶的前期投入并加速價值實現(xiàn),讓數(shù)據(jù)倉庫服務回歸服務的本質(zhì)。阿里云MaxCompute正是基于云構(gòu)建的SaaS模式的數(shù)據(jù)倉庫服務,它的核心特點包括: (1)按需使用的在線服務MaxCompute預先準備了大規(guī)模資源池,無需預先資源開通、容量規(guī)劃,用戶可直接使用開展數(shù)據(jù)管理和分析工作;MaxCompute提供存儲計算分離和Serverless無服務器的架構(gòu)設(shè)計,面向用戶提供On-Demand的按需使用服務能力,用戶可僅為實際使用付費。 (2)集成現(xiàn)代數(shù)據(jù)倉庫完善功能的多租戶服務MaxCompute內(nèi)建了高性能存儲引擎,多種主流的計算分析引擎(SQL、機器學習、Spark等)和內(nèi)外部數(shù)據(jù)管理能力,滿足現(xiàn)代化數(shù)據(jù)倉庫分析需求;同時提供完善的API/SDK/CLI用戶接口,并支持與廣泛的生態(tài)集成;MaxCompute是個多租戶系統(tǒng),通過完善的多租戶隔離和管理能力。提供對不同組織的租戶間進行資源、數(shù)據(jù)、任務的強隔離以保障安全。同時通過權(quán)限控制機制,支持組織內(nèi)或組織間安全、受控地進行資源共享交換;同時為每個租戶提供資源監(jiān)控、任務管理、作業(yè)診斷能力,支持用戶自助進行必要的管理工作;MaxCompute提供完善的安全管理能力,包括:訪問控制與授權(quán)、多租戶/作業(yè)級別的安全隔離、操作審計、數(shù)據(jù)保護(隱私脫敏、數(shù)據(jù)加密、備份恢復、異地容災)等能力,滿足企業(yè)級不同的安全、合規(guī)需求。5>SaaS模式云數(shù)據(jù)倉庫概述企業(yè)用戶在關(guān)心數(shù)據(jù)倉庫產(chǎn)品新的交付模式和特性之外,會更加關(guān)心如何借助利用這一技術(shù)平臺滿足企業(yè)實際的業(yè)務需求。本電子書將介紹借助MaxCompute這一SaaS模式云數(shù)據(jù)倉庫服務的典型使用場景和價值,包括:數(shù)據(jù)民主化;云數(shù)據(jù)倉庫+AI:現(xiàn)代化的數(shù)據(jù)倉庫服務在統(tǒng)一的企業(yè)數(shù)據(jù)資產(chǎn)之上,不僅提供歷史分更需要是借助數(shù)據(jù)提供預測性分析,進行業(yè)務決策;云數(shù)據(jù)倉庫+實時分析:傳統(tǒng)數(shù)據(jù)倉庫以T+1洞察為主,如何為企業(yè)提供實時洞察分析能力,讓各級業(yè)務人員實時決策以提升業(yè)務效果成為數(shù)據(jù)倉庫領(lǐng)域的熱點話題;云數(shù)據(jù)倉庫+實時搜索:如何利用數(shù)據(jù)倉庫對多樣的企業(yè)數(shù)據(jù)進行加工、整合,為企業(yè)內(nèi)外部客戶提供更有效的信息檢索能力;云數(shù)據(jù)倉庫+數(shù)據(jù)銀行:SaaS模式能夠在服務級別與外部服務高價值服務進行預先集成,特別是外部高價值數(shù)據(jù)的集成能夠大大提升。MaxCompute與友盟數(shù)據(jù)銀行服務集成,低成本擴展企業(yè)數(shù)據(jù)能力;本期電子書將重點從SaaS模式云數(shù)據(jù)倉庫按需使用的核心能力-Serverless能力、"云數(shù)據(jù)倉庫+價值場景"這2個方面進行解讀。首先我們先重點介紹MaxCompute的Serverless能力介紹。一、Serverless簡介下圖是MaxCompute的Serverless架構(gòu),主要包括數(shù)據(jù)接入服務、多計算環(huán)境、儲存服務和管理幾個模塊。6SaaS模式云數(shù)據(jù)倉庫概述<6其中各個模塊的主要特點如下: (1)Serverless的數(shù)據(jù)接入服務提供Tunnel批量、流式導入,轉(zhuǎn)換為MaxCompute列存格式、自動伸縮等功能,且免費;可以免費使用LOAD/UNLOAD命令進行OSS導入/導出。 (2)Serverless的多計算環(huán)境Severless計算資源池,大規(guī)模計算資源池,On-demand按需提供,按作業(yè)付費;獨占計算資源:支持包年包月付費、Workload管理(負載隔離、優(yōu)先級、分時伸縮等);運行環(huán)境(runtime)支持ETL/OLAP/ML等大數(shù)據(jù)分析使用場景。 (3)Serverless的存儲服務與計算無關(guān),獨立伸縮,提供GB-EB級別的存儲服務;按實際存儲大小付費,降低成本;無需指定,默認面向分析優(yōu)化(列壓、壓縮);支持區(qū)分/分桶/Zorder等優(yōu)化手段。 (4)Serverless的管理開箱即用,內(nèi)建了完整的管理能力,以API/sdk/web-console管理;平臺側(cè)無需用戶運維,降低成本。77>SaaS模式云數(shù)據(jù)倉庫概述上面是對Serverless架構(gòu)的一個簡述,本文的重點是如何利用MaxComputeServerless計算資源來滿足數(shù)據(jù)倉庫的需求。下圖所示為MaxCompute計算資源管理與使用的邏輯模型。對于MaxCompute中的Project,實際上對應的是一個邏輯的數(shù)據(jù)倉庫隔離單元,我們可以根據(jù)不同的管理目標Project,兩個項目之間有獨立的數(shù)據(jù)和權(quán)限管理體系,并不互通,達到管理的隔離作用。當然,只有這樣的隔離空間還不足夠,因為我們的計算任務需要綁定計算資源,我們可以將Project與付費方式綁定,根據(jù)需求,對不同的Project設(shè)置不同的計費方式,使得不同的隔離空間使用不同的計算資源。在上述的體系之下,MaxCompute有著一些獨特的特點,首先就是有一個多租戶環(huán)境,我們在開通了MaxCompute可以根據(jù)不同的管理需求創(chuàng)建多個隔離的數(shù)據(jù)倉庫空間,對滿足不同的場景需要。如下圖所示,理想中的Serverless資源模型要求我們很好的規(guī)劃資源的利用方式才能夠完美的適配我們的實際需求(圖中黑線)。8SaaS模式云數(shù)據(jù)倉庫概述<8但是,實際上我們的客戶有不同的資源需求,有著眾多的差異化需求場景,其場景主要有:穩(wěn)定的周期性作業(yè)場景;業(yè)務高度增長、需求快速變化的場景;常規(guī)需求伴隨著突發(fā)需求的場景;測試/開發(fā)需求的場景。從各種場景中我們可以發(fā)現(xiàn),大數(shù)據(jù)計算對計算資源的需求方式并不是一個完完全全的純Serverless的按需分配的需求,而是不同的階段有不同的需求,且不同類型的需求有不同的要求,其對計算資源的需求特點主要包括如下: (1)業(yè)務敏捷性需求長期處于成長期,處理能力能滿足業(yè)務自然增長的需要,特別是業(yè)務快速變化的階段;可以是企業(yè)的初期,也可以是創(chuàng)新部門的創(chuàng)業(yè)業(yè)務。9>SaaS模式云數(shù)據(jù)倉庫概述 (2)周期性峰谷差異明顯每天、每月周期性的峰谷波動巨大,以峰值容量規(guī)劃,成本和SLA難以平衡;需要常規(guī)算力+彈性算力,根據(jù)調(diào)度/人為指定作業(yè)資源策略。 (3)穩(wěn)定的業(yè)務,關(guān)注關(guān)鍵任務的按SLA產(chǎn)出基線作業(yè),與非關(guān)鍵作業(yè)的SLA需求不同,基線產(chǎn)出時間需要保障;非關(guān)鍵作業(yè)盡可能低成本處理,同時不影響關(guān)鍵作業(yè)。 (4)資源治理:算例需求由快速變化轉(zhuǎn)變?yōu)榉€(wěn)定可預期對CU的容量規(guī)劃,相互轉(zhuǎn)換以及測算;固定資源的精細化的Workload管理??偟脕碚f,現(xiàn)實中我們的算力需求追求的目標就是在滿足現(xiàn)實中的差異化需求的前提下,還能夠達到成本最小化的目標。二、Serverless助力業(yè)務敏捷那么,MaxCompute的Serverless如何滿足上述的場景和需求呢?如果是一個業(yè)務快速發(fā)展、快速變化的企業(yè),我們建議使用MaxCompute的Serverless按需使用的計算資源。從管理上來講的話,我們可以建立不同的Project去做一些隔離的劃分,比如說建立一套開發(fā)測試環(huán)境,一套生產(chǎn)環(huán)境。對于有些分析師來講,他們往往隨機地需要對一些明細數(shù)據(jù)做大量的探索,或做機器學習分析,往往有一些突發(fā)的算力需求,且這個算力需求的規(guī)??赡芊浅4?,這個時候往往這些作業(yè)要和其他的環(huán)境隔離,因為他們是低頻的,但是卻需要對海量數(shù)據(jù)做分析。我們還可以按照組織劃分,比如很多企業(yè)的組織比較大,可以按照部門來進行劃分,使得每個部門有一個隔離的環(huán)境,各個部門作為一個獨立的組織,他們需要相對獨立的數(shù)據(jù)和計算資源,我們可以使用Serverless按需分配的這種模式。有了這種模式之后,企業(yè)無需進行容量規(guī)劃,在初期的時候可以使用按量付費的方式,通過這種超大的資源池來滿足各個部門的資源需求,避免資源的爭搶。總的來說,利用Serverless在各種作業(yè)情況下Serverless都能夠很好的滿足需求:在單作業(yè)的情況下,無論是規(guī)模大小,Serverless都可以很好的滿足不同規(guī)模的作業(yè)資源需求;在多并發(fā)的情況下,Serverless也能夠滿足多作業(yè)需求,避免出現(xiàn)資源的爭搶情況SaaS模式云數(shù)據(jù)倉庫概述<10出現(xiàn);在某些我們希望能夠控制作業(yè)費用的情況下,MaxCompute也可以提供費用預估+費用控制的方式來阻斷高額作業(yè)。通過上述的方式,MaxCompute+Serverless可以大大提升業(yè)務敏捷性,加速價值實現(xiàn)。另外,有一些企業(yè)結(jié)合自身日常的管理環(huán)境,更希望有一個相對穩(wěn)定的資源池,因為其本身有一定的資源規(guī)劃和資源治理的能力,這種情況下,我們購買一定固定規(guī)格大小的資源,然后按照職能或者按照組織劃分隔離環(huán)境,利用MaxCompute提供的配額組管理能力將切分成多個資源組,在財務可預測的前提下,滿足不同業(yè)務、不同組織的需求。這種模式的關(guān)鍵技術(shù)特點有:負載隔離,避免相互爭搶,資源優(yōu)先分配給關(guān)鍵項目和組織;作業(yè)優(yōu)先級:保障關(guān)鍵動態(tài)作業(yè)鏈路查出;設(shè)置白天、夜間資源分配策略,最大化利用資源。>SaaS模式云數(shù)據(jù)倉庫概述第三種場景是關(guān)于成本與業(yè)務敏捷性的融合。舉個例子,數(shù)據(jù)平臺的管理者可能經(jīng)常面預期;另外一類是一些關(guān)鍵作業(yè),我們愿意花費一定的代價把它加速完成去滿足業(yè)務需求,對于這類作業(yè)我們希望能夠拿到一些額外的算力;還有一類作業(yè)是面向數(shù)據(jù)科學家的探索型作業(yè),我們希望這類作業(yè)對我們的生產(chǎn)作業(yè)不要產(chǎn)生干擾,同時數(shù)據(jù)科學家又能利用強大的算力快速地完成業(yè)務假設(shè)和設(shè)想,我們可以將這類作業(yè)放在按需的資源池中;在復雜的企業(yè)中可能還會有創(chuàng)新類的業(yè)務,他們需要一個新的數(shù)據(jù)開發(fā)環(huán)境和應用創(chuàng)新的環(huán)境,我們可以新建一個數(shù)據(jù)倉庫的隔離環(huán)境,按需分配資源,幫助他們快速的去驗證業(yè)務假設(shè)。產(chǎn)品側(cè)我們主要提供了兩種能力給用戶:按量付費Project:發(fā)起的作業(yè)使用Serverless資源,可切換Project綁定的資源組;使用人員主動設(shè)定:根據(jù)需要臨時指定計算資源,作業(yè)級別的資源路由。上面的三種場景都是在日常運營中的真實場景,還有一個場景就是客戶在使用了按量付間之后,業(yè)務穩(wěn)定下來了,希望將項目放在固定的、預付費的資源池上。這時候就會遇到一個問題:如何進行資源的需求評估呢?畢竟之前按量付費的時候是不需要進行資源MaxCompute提供的元數(shù)據(jù)服務(informationschema)根據(jù)歷史的算力消耗情況來預估項目的整體算力需求,其關(guān)鍵信息有:基于informationschema按天統(tǒng)計近期項目作業(yè)消耗的計算單元時(算力單位:cu時);基于informationschema按天統(tǒng)計近期項目作業(yè)消耗最高的一天,計算每個小時的算力需求(算力單位:cu時)。SaaS模式云數(shù)據(jù)倉庫概述<12根據(jù)上面的信息我們就可以根據(jù)一定的規(guī)則來預測業(yè)務的算力需求,進行容量規(guī)劃,關(guān)于這部分的詳細內(nèi)容大家可以到阿里云社區(qū)查找相應的文章進行了解。上文主要分享了如何利用Serverless服務來更好的進行資源管理,低成本地滿足不同業(yè)務的資源需求??偟脕碚f: (1)按量付費的模式適合業(yè)務快速發(fā)展及變化階段,配合MaxCompute的costcontrol管理手段,既能滿足業(yè)務的算力需求,又能有效的控制成本。 (2)對于預付費的資源,我們可以通過quota管理,切分多個計算資源,做相應的負載隔離、分時管理,利用DataWorks+MaxCompute基線作業(yè)優(yōu)先級保障關(guān)鍵作業(yè)SLA。 (3)對于預付費固定資源和彈性按量付費組合的方式,我們可以根據(jù)作業(yè)級別選擇不同的計算資源:對于突發(fā)作業(yè),使用按量付費補充突發(fā)算力需求;對于周期性作業(yè)中的尖峰 (4)我們可以利用元數(shù)據(jù)來進行算力需求評估,進行容量規(guī)劃,從而在按量付費和預付費方式之間進行轉(zhuǎn)換,還可以利用元數(shù)據(jù)來進行資源消耗分析,進行資源的優(yōu)化,降低資源高消耗的作業(yè),做相應的資源治理。13>SaaS模式云數(shù)據(jù)倉庫+BISaaS模式云數(shù)據(jù)倉庫+BI作者|韋海青阿里云智能高級產(chǎn)品經(jīng)理簡介:簡介:本文為大家?guī)沓掷m(xù)定義SaaS模式云數(shù)據(jù)倉庫+BI的介紹。內(nèi)容包括云數(shù)據(jù)倉庫概述,BI使用場景與趨勢,基于MaxCompute云數(shù)倉+BI的特性,以及實踐案例。今天和大家一起探討一下我們SaaS模式下云數(shù)據(jù)倉庫加上商業(yè)智能BI能有什么新的東西出來。我們先來看一下云數(shù)據(jù)倉庫的一些概述。預測到2025年,全球數(shù)據(jù)增長至175ZB,中國數(shù)據(jù)量增長至48.6ZB。數(shù)據(jù)量暴漲這個前提下,我們看一下BI市場規(guī)模的增長。預測到2023年,我們中國BI軟件市場年復合增長率為32%。云計算也同樣在增速發(fā)展,2019年第四季中國云數(shù)據(jù)市場的增長率已經(jīng)達到66.9%。云數(shù)據(jù)倉庫可以讓企業(yè)幾分鐘內(nèi)創(chuàng)建并開始使用數(shù)據(jù)倉庫服務,在更低的成本下,專注通過對大規(guī)模數(shù)據(jù)進行多樣化的處理、挖掘、分析,快速獲得業(yè)務洞察。它有四大特SaaS模式云數(shù)據(jù)倉庫+BI商業(yè)智能(BI,BusinessIntelligence)是一種以提供決策分析性的運營數(shù)據(jù)為目的而建立的信息系統(tǒng)。隨著我們社會發(fā)展以及數(shù)據(jù)量的爆發(fā),在這么大量的數(shù)據(jù)支持之下,企業(yè)希望能快速從這些數(shù)據(jù)里邊挖掘出更科學的一些數(shù)據(jù),然后對我們的企業(yè)有一個科學化和數(shù)據(jù)化決策的幫助力。同時,BI也會助力企業(yè)用到一個精細化運營,客戶關(guān)系維護,還有成本控制等。我們看一下商業(yè)智能建立一個信息系統(tǒng)它主要的一個流程。首先是數(shù)據(jù)接入,將分散于我們企業(yè)內(nèi)外各種數(shù)據(jù)集成和進行整合。然后再進入一個數(shù)據(jù)準備階段,就是一個ETL的階段。然后再到一個數(shù)據(jù)分析的階段,最后將這些成果交給決策層,決策層就可以通過這數(shù)據(jù)里邊得到一些助力。15>SaaS模式云數(shù)據(jù)倉庫+BI隨著數(shù)據(jù)量的暴漲,我們的業(yè)務快速的增長,產(chǎn)生了各種分析需求。不僅僅是分析多樣,而且還想要實時的,比如說秒級的即時查詢。同時在這么大量的數(shù)據(jù)基礎(chǔ)上,數(shù)據(jù)的安全合規(guī)也越來越受到重視。所以需要快速的整合多系統(tǒng)數(shù)據(jù)和實現(xiàn)信息透明,以及構(gòu)建一個統(tǒng)一的簡單易用的可視化分析平臺,提高制表效率。這已經(jīng)成為BI系統(tǒng)的新的趨勢。IMaxCompute(原ODPS)是一項大數(shù)據(jù)計算服務,它能提供靈活快速、完全托管、高性能、低成本、安全的PB級數(shù)據(jù)倉庫解決方案,使您可以經(jīng)濟高效的分析處理海量數(shù)據(jù)?;贛axCompute云數(shù)據(jù)倉庫的基本架構(gòu)如下圖所示。底層的集群是MaxCompute本深度的集成了一個一站式大數(shù)據(jù)智能云研發(fā)平臺DataWorks。在云數(shù)據(jù)倉庫的這么一個體系下,可以做數(shù)據(jù)準備,進行各種清洗、加工、分析之后,就可以進入一個數(shù)據(jù)消費的階段。SaaS模式云數(shù)據(jù)倉庫+BI總結(jié)一下MaxCompute云數(shù)倉的特性。 (1)是一個開箱即用的在線服務。免平臺運維,總體擁有成本低。 (2)極致彈性能力。彈性擴展,無需容量規(guī)劃即可應對業(yè)務規(guī)模的快速變化。 (3)簡單易用,多功能計算服務。多種計算模型,多種數(shù)據(jù)通道,外部數(shù)據(jù)源聯(lián)邦計算。 (4)企業(yè)級安全能力。多租戶安全保障機制,細粒度授權(quán),數(shù)據(jù)加密、脫敏,備份恢復。 (5)生態(tài)融合。支持多樣數(shù)據(jù)源、生態(tài)工具和標準?;贛axCompute云數(shù)據(jù)倉庫,我們和BI工具是如何對接的呢。MaxCompute主要是一個存儲和計算服務,加上一個數(shù)據(jù)開發(fā)平臺DataWorks,組成了一個離線的云數(shù)據(jù)倉庫。在這之上,深度的集成了一個阿里云的QuickBI。它是一個分析報表工具,直接連接MaxCompute的數(shù)據(jù)表即可以自己對這個表進行分析。還有第三方的一些工具,帆軟,Tableau。同時我們在生態(tài)這一方面,JDBC同樣也是支持。還有一些企業(yè)、一些客戶對于商業(yè)智能這一塊有更加多樣化的一個需求或者個性的需求,現(xiàn)有對接的這些工具有可能不支持,那么它也可以通過SDK的方式來連接,從而實現(xiàn)基于MaxCompute云數(shù)據(jù)倉庫對接的一個商業(yè)智能的信息平臺。>SaaS模式云數(shù)據(jù)倉庫+BI我們看一下MaxCompute離線數(shù)倉是怎么實現(xiàn)一個高性能低延遲的分析查詢。它可以直接讀取離線數(shù)倉,支持多樣化的查詢分析,包括一些簡單的查詢、復雜的查詢、點查詢、聯(lián)邦查詢等等。它底層也可以有豐富的數(shù)據(jù)源,通過MaxCompute+MC-Hologres組成一個交互式分析。這么一個大數(shù)據(jù)生態(tài)下,它都可以無縫的對接。比如說QuickBI,Tableau,帆軟。所以它可以做到很快的上手,通過這么一個組合我們可以很快速的實現(xiàn)一個企業(yè)的信息平臺。Hadoop造,軟硬件維護成本高解決方案,能夠快速靈活支持業(yè)務發(fā)展所需的技術(shù)擴展。通過這么一個大數(shù)據(jù)解決方案,直接用了阿里云的QuickBI這個產(chǎn)品,實現(xiàn)了快速數(shù)智化轉(zhuǎn)型,擁抱新零售,降低TCO的MaxCompute+DataWorks,提高了他的數(shù)據(jù)業(yè)務的開發(fā)效率。SaaS模式云數(shù)據(jù)倉庫+BI一個完整的安全管理體系,同時還要滿足個性化安全需求;業(yè)務快速發(fā)展,需要能快速搭建、成本低、秒級擴展的數(shù)據(jù)中臺體系。我們給客戶創(chuàng)造的價值:基于MaxCompute開箱即用的應用滿足其在安全審計過程中的數(shù)據(jù)安全需求,縮短了需求響應時間并滿足其在數(shù)據(jù)安全上的個性化需求。19>SaaS模式云數(shù)據(jù)倉庫+AISaaS模式云數(shù)據(jù)倉庫+AI作者|孟碩阿里云智能產(chǎn)品專家簡介簡介:本文由阿里云計算平臺事業(yè)部MaxCompute產(chǎn)品經(jīng)理孟碩為大家?guī)怼冻掷m(xù)定義SaaS模式云數(shù)據(jù)倉庫+AI》的相關(guān)分享。 (一)人工智能的發(fā)展歷史人工智能是很早就出現(xiàn)的一個概念,起源于上個世紀50年代,之后由于種種原因人工智能經(jīng)歷了幾十年的漫長的消沉的過程,直到最近幾年人工智能才火熱起來。人工智能的發(fā)展其實有三次黃金時期:第一次是人工智能概念提出的時候,學者們以為AI技術(shù)能改變世二次是上個世紀80年代左右,此時已經(jīng)提出了神經(jīng)網(wǎng)絡(luò)等模擬人腦思考的算法,但是也并沒有得到很快的發(fā)展;第三次可以認為是從2010年左右開始的,與前兩次不一樣的是這次我們有大數(shù)據(jù)為生產(chǎn)資料,以強大的算力、云計算為基礎(chǔ)設(shè)施,包括IOT和5g技術(shù)的發(fā)展,有應用場景驅(qū)動,比如說搜索就是一個應用人工智能算法的眾多場景之一,所以這次是人工智能發(fā)展真正的黃金時期20SaaS模式云數(shù)據(jù)倉庫+AI20 (二)為什么需要MaxCompute+AIGartner在數(shù)據(jù)分析領(lǐng)域的是大趨勢預測如下:從中可以看出,Gartner認為在未來數(shù)據(jù)與分析的邊界逐漸模糊,并且預測在2022年,40%的機器學習工作將在非以機器學習為主要目的的平臺上(如數(shù)據(jù)倉庫)完成。因此,可以說MaxCompute+AI是大勢所趨。因為數(shù)據(jù)倉庫承載的是整個企業(yè)的數(shù)據(jù)資產(chǎn),尤其是MaxCompute,它是一個從TB到EB級,能夠彈性擴展大量存儲能力的數(shù)據(jù)平臺,所以數(shù)據(jù)倉庫內(nèi)置機器學習的優(yōu)勢非常明顯: (1)無需移動數(shù)據(jù)(數(shù)據(jù)量大),降低基礎(chǔ)設(shè)施成本、人工成本、減少數(shù)據(jù)安全風險; (2)數(shù)據(jù)訪問速度快(讓算法找數(shù)據(jù)); (3)可擴展性強; (4)純SQLML/Python更易用。而且數(shù)據(jù)倉庫內(nèi)置機器學習是各角色均收益的一種集成:對于商務人士來說,新想法可以快速得到快速試驗,ROI得到提升;對于數(shù)據(jù)科學家和數(shù)據(jù)分析師來說,大部分工作通過SQL/Python實現(xiàn),易用高效,且模型開發(fā)和生產(chǎn)環(huán)境可以無縫對接;對于數(shù)據(jù)庫管理員(DBA)來說,數(shù)據(jù)管理更加簡單,安全性更高。21>SaaS模式云數(shù)據(jù)倉庫+AI (三)MaxCompute現(xiàn)有的AI能力MaxCompute的產(chǎn)品特性在之前的講座中已經(jīng)具體講過了,這里不再贅述,其中MaxCompute集成AI的能力主要有:提供SQLML,可以直接使用標準SQL訓練機器學習模型,并對數(shù)據(jù)進行預測分析;Mars:使用Python科學計算、機器學習三方庫;可以用用戶熟悉的Spark-ML開展智能分析;與PAI無縫集成,提供強大的機器學習處理能力。上述的集成AI能力中,SQLML和Mars是MaxCompute的兩個原生AI擴展能力,本文我們重點介紹這兩個能力。為什么選擇SQL和Python這兩種語言呢?主要是因為SQL和Python是當前數(shù)據(jù)處理和機器學習領(lǐng)域中最火的兩種語言。下面兩張圖是SQL查詢語言的發(fā)展及現(xiàn)狀以及Python的發(fā)展。22SaaS模式云數(shù)據(jù)倉庫+AI22對于數(shù)據(jù)處理語言來講,關(guān)系型數(shù)據(jù)庫,也就是以SQL為基礎(chǔ)的關(guān)系型數(shù)據(jù)庫,包括類似的數(shù)據(jù)庫目前仍然占據(jù)了數(shù)據(jù)處理引擎的前幾名,有著穩(wěn)健的生態(tài);而Python已經(jīng)逐漸稱為數(shù)據(jù)分析領(lǐng)域和數(shù)據(jù)科學領(lǐng)域的主流語言,其有著強大的機器學習生態(tài)。因此選擇這兩種語言作為MaxCompute的AI集成,既是大勢所趨,又能減輕使用者的學習成本和遷移成本。23>SaaS模式云數(shù)據(jù)倉庫+AI我們將該項目的名字叫Mars,其最早是意味著Matrix和array,當然現(xiàn)在已經(jīng)不再局限于這兩者,數(shù)據(jù)維度可以達到非常高的程度;第二是意味著我們向著比登月更高的目標不斷的挑戰(zhàn)自己。那么我們?yōu)槭裁匆鯩ars呢?其主要原因有:為大規(guī)??茖W計算設(shè)計的:傳統(tǒng)的大數(shù)據(jù)引擎編程接口對科學計算不太友好,框架設(shè)計也不是為科學計算模型考慮的;傳統(tǒng)科學計算大多基于單機,而大規(guī)??茖W計算需要用到超算,并非普通人所能寄予的能力;傳統(tǒng)SQL模型科學計算的處理能力不足,做一些簡單的科學計算,比如矩陣轉(zhuǎn)置等等,效率也是非常低;目前R和Python基本上基于單機,其分布式擴展能力比較弱。目前,Mars是唯一的商業(yè)化的大規(guī)??茖W計算引擎,關(guān)于Mars的更多信息大家可以到阿里云官網(wǎng)查找。Mars的基本思路如下圖所示,主要是將Python中的主流科學計算和機器學習的庫做相應的分布式化處理。SaaS模式云數(shù)據(jù)倉庫+AI<24下面是一個簡單的SQLML的Demo介紹。首先,我們在DataWorks中新建一個工作流,會發(fā)現(xiàn)工作流中有很多組件,我們先建一個臨時查詢,如下圖所示:然后新建一張表,其中保存的是關(guān)于蘑菇的一些屬性,根據(jù)這些屬性數(shù)據(jù),我們可以對其進行分類。表建立好之后,我們可以將數(shù)據(jù)導入,因為該數(shù)據(jù)集比較小,所以我們從本地上傳csv文件,將列與表中的字段對應即可:225>SaaS模式云數(shù)據(jù)倉庫+AI之后,我們需要對特征進行onehot編碼,其結(jié)果如下圖所示:然后,我們將數(shù)據(jù)分成訓練集和測試集,并且分別將訓練集和測試集導入一張單獨的表回歸,一個常用的二分類算法:運行模型,很便捷地就可以得到訓練結(jié)果:26SaaS模式云數(shù)據(jù)倉庫+AI26通過上面的Demo,我們很容易的就完成了一次機器學習的訓練過程,其過程類似與使用SQL中的UDF,簡便、高效。上面Demo介紹的是SQLML,如果想使用Mars也非常簡單,我們只需要拖拽PyODPS3組件即可,如下圖所示。目前,Mars已經(jīng)可以試用,SQLML馬上就會和大家見面,歡迎大家進行試用。27>SaaS模式云數(shù)據(jù)倉庫+實時分析SaaS模式云數(shù)據(jù)倉庫+實時分析作者|孔亮阿里云智能產(chǎn)品專家,講述云數(shù)據(jù)倉庫MaxCompute的產(chǎn)品能力優(yōu)勢,面對實時分析場景的能力演進要求。進而以實時分析典型場景的全數(shù)據(jù)流程處理、建模和分析的最佳實踐,講解MaxCompute+MC-Hologres的解決方案,展現(xiàn)強強組合應的能力優(yōu)勢。庫的定義是面向主題、集成性、穩(wěn)定性和時變性,用于支持管理決策。數(shù)據(jù)倉庫的意義在于對企業(yè)的所有數(shù)據(jù)進行歸集,為企業(yè)各個部門提供統(tǒng)一的,規(guī)范的數(shù)據(jù)出口。數(shù)據(jù)倉庫(模型)本質(zhì)是人收集和存儲數(shù)據(jù),認識數(shù)據(jù),組織和管理數(shù)據(jù),使用數(shù)據(jù)決策的最佳實踐形成的方法論。模型本身與在哪、用什么技術(shù)無關(guān)。但邏輯模型和物理模型在最終方案中又是緊密結(jié)合的。用戶需要的是數(shù)倉的業(yè)務能力和技術(shù)能力。步、加工、存儲、建模、治理、查詢。但是為了實現(xiàn)數(shù)據(jù)倉庫的能力和價值必須要具備的基礎(chǔ)包括:IDC機房、部署、開通、高可用、SaaS模式云數(shù)據(jù)倉庫+實時分析<28、擴容。這些構(gòu)成了數(shù)倉總擁有成本。從各個角度看,總成本=核心能力成本+基礎(chǔ)成本=產(chǎn)品成本+服務成本=當前成本+長期成本+演進成本。MaxCompute是SaaS模式企業(yè)級云數(shù)據(jù)倉庫。SaaS模式云數(shù)據(jù)倉庫具有如下特點:?開箱即用?大規(guī)模高性能?免運維、專家優(yōu)化?靈活擴展?數(shù)據(jù)服務?豐富完善的數(shù)倉能力?高可用,容災備份?極致安全?低成本?能力快速演進能夠為企業(yè)免去擁有數(shù)據(jù)倉庫的基礎(chǔ)建設(shè)成本、維護成本、長期演進成本等非核心能力之外的投入。SaaS模式云數(shù)據(jù)倉庫可能的應用場景舉例如下:29>SaaS模式云數(shù)據(jù)倉庫+實時分析實時數(shù)據(jù)入倉和分析決策;業(yè)務運營場景-交互式業(yè)務指標計算、查詢;各行業(yè)搭建數(shù)據(jù)倉庫-流批一體、湖倉一體、云上彈性擴展大數(shù)據(jù)計算和存儲。SaaS模式云數(shù)據(jù)倉庫的產(chǎn)品優(yōu)勢包括:彈性負載需求;簡單易用多功能計算:預置多種計算模型和數(shù)據(jù)通道能力,開通即用;企業(yè)級平臺服務:支持開放生態(tài),提供企業(yè)級安全管理能力。與阿里云眾多大數(shù)據(jù)服務無縫集成;安全:多租戶環(huán)境下安全控制能力強;大規(guī)模集群性能強、全鏈路穩(wěn)定性高,阿里巴巴雙11場景驗證。SaaS模式云數(shù)據(jù)倉庫推薦場景和產(chǎn)品組合例如:實時分析場景-MaxCompute+MC-Hologres+Flink+DataWorks+QuickBI;機器學習場景-MaxCompute+PAI+DataWorks等。云數(shù)據(jù)倉庫包含的面向用戶的功能和數(shù)據(jù)流程,如下圖所示,開通MaxCompute云數(shù)倉即可擁有如下全部功能和能力。30SaaS模式云數(shù)據(jù)倉庫+實時分析30再提一遍大數(shù)據(jù)的5V能力 (1)容量(Volume)是指大規(guī)模的數(shù)據(jù)量,并且數(shù)據(jù)量呈持續(xù)增長趨勢。目前一般指超過10T規(guī)模的數(shù)據(jù)量,但未來隨著技術(shù)的進步,符合大數(shù)據(jù)標準的數(shù)據(jù)集大小也會變化。 (2)速率(Velocity)即數(shù)據(jù)生成、流動速率快。數(shù)據(jù)流動速率指指對數(shù)據(jù)采集、存儲以及分析具有價值信息的速度。因此也意味著數(shù)據(jù)的采集和分析等過程必須迅速及時。 (3)多樣性(Variety)指是大數(shù)據(jù)包括多種不同格式和不同類型的數(shù)據(jù)。數(shù)據(jù)來源包括人與系統(tǒng)交互時與機器自動生成,來源的多樣性導致數(shù)據(jù)類型的多樣性。根據(jù)數(shù)據(jù)是否半結(jié)構(gòu)化數(shù)據(jù)。 (4)真實性(Veracity)指數(shù)據(jù)的質(zhì)量和保真性。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)最好具有較高的信噪比。 (5)價值(Value)即低價值密度。隨著數(shù)據(jù)量的增長,數(shù)據(jù)中有意義的信息卻沒有成相應比例增長。而價值同時與數(shù)據(jù)的真實性和數(shù)據(jù)處理時間相關(guān),見圖。其中最關(guān)鍵的一點是:越接近數(shù)據(jù)源,越早進行分析和決策,越能發(fā)揮數(shù)據(jù)價值。1>SaaS模式云數(shù)據(jù)倉庫+實時分析實時分析的場景可以用以下兩個類比演化出來:類比1:大酒店同時具備其他綜合業(yè)務,發(fā)展出餐飲(實時)業(yè)務,用以更好的發(fā)揮協(xié)同作用。時交互式分析,形成Lambda架構(gòu)。類比2:飯店從餐飲(實時)業(yè)務發(fā)展而來,需要更好的外圍支持作用,并向綜合性發(fā)展。源回放,形成kappa架構(gòu),后續(xù)還要考慮實時數(shù)據(jù)和模型如何入倉。SaaS模式云數(shù)據(jù)倉庫+實時分析<32詳細分析這兩種演化場景如下:以數(shù)倉分析為主場景,根據(jù)業(yè)務實時性需求進行實時分析,構(gòu)建實時通道和實時交互式分析,形成Lambda架構(gòu)例如IOT設(shè)備監(jiān)控分析,下發(fā)策略,設(shè)備接收后上報新數(shù)據(jù)立,和數(shù)據(jù)源回放,形成kappa架構(gòu),后續(xù)還要考慮實時數(shù)據(jù)和模型如何入倉例如欺詐監(jiān)控,必須第一時間獲取分析結(jié)論,并關(guān)聯(lián)標簽精準識別,最后實時數(shù)據(jù)落入數(shù)倉與其他數(shù)據(jù)融合形成知識。進一步的,實時分析的主要能力要求如下: (1)應用生態(tài):?豐富的API、SDK;?BI工具無縫對接;?流式處理工具和分布式消息隊列無縫對接。 (2)極速查詢響應:?毫秒級響應速度,輕松滿足客戶海量數(shù)據(jù)復雜多維分析需求;?千萬QPS點查;?上千QPS簡單查詢。33>SaaS模式云數(shù)據(jù)倉庫+實時分析 (3)實時存儲:?億級寫入TPS;?寫入即可查詢。 (4)數(shù)倉查詢加速:?直接分析;?無數(shù)據(jù)搬遷;?無冗余存儲;?統(tǒng)一權(quán)限。 (5)聯(lián)合計算:?統(tǒng)一建模方法;?統(tǒng)一元數(shù)據(jù);?統(tǒng)一的管控治理體系;?分層劃域架構(gòu)下的演進和整合。常見的Lambda架構(gòu)有三大問題。34SaaS模式云數(shù)據(jù)倉庫+實時分析34 (1)一致性難題:?流和批語義完全不同;?離線層和實時層數(shù)據(jù)存儲和變換方式完全不同。 (2)環(huán)環(huán)相扣、多套系統(tǒng)、運維復雜、成本高昂:?多個不同的系統(tǒng);?大量的同步任務;?資源消耗巨大;?不同系統(tǒng)標準規(guī)范不統(tǒng)一。 (3)開發(fā)周期長、業(yè)務不敏捷:?錯誤難以診斷和定位;?修訂、補數(shù)周期長;?無法自助實時分析;?無法響應變化;?分析到服務的轉(zhuǎn)化周期長。35>SaaS模式云數(shù)據(jù)倉庫+實時分35以搜索推薦精細化運營的場景案例進行分析,開源方案的能力分散。如下圖所示,KVStore,MPP,實時數(shù)倉,數(shù)倉具有多種能力,最好能有一種技術(shù)方案將多種能力統(tǒng)一于一個引擎。將存儲、實時數(shù)倉、交互式分析、點查、OLAP分析等能力集于一身。MC-Hologres即是這個產(chǎn)品和解決方案。MC-Hologres將實時分析的架構(gòu)變得簡單和高效。以實時分析為中心設(shè)計,MC-Hologres能夠?qū)崿F(xiàn)實時寫入和實時分析、查詢。MC-Hologres提出云原生HSAP架構(gòu)中,一份數(shù)據(jù)同時用于實時分析、在線服務和實時離線數(shù)據(jù)統(tǒng)一存儲,與SaaS模式云數(shù)據(jù)倉庫MaxCompute完美結(jié)合。SaaS模式云數(shù)據(jù)倉庫+實時分析<36另一種場景,MC-Hologres可以作為云數(shù)據(jù)倉庫MaxCompute分析加速能力模塊和ADS層建模能力模塊。無數(shù)據(jù)搬遷、數(shù)據(jù)分析效率高。ADS層建模+服務統(tǒng)一、OLAP增強,如下圖所示。再看kappa架構(gòu),Kappa架構(gòu)是基于流式架構(gòu)的升級,需要回放和關(guān)聯(lián)數(shù)倉,后續(xù)還要考慮實時數(shù)據(jù)和模型如何入倉。開源方案實時數(shù)倉有以下問題:實時成本高、開發(fā)周期長、業(yè)務支持不靈活。Kappa架構(gòu)的原理就是在Lambda的基礎(chǔ)上進行了優(yōu)化,將實時分析和流部分進行了合并,將數(shù)據(jù)存儲和通道以消息隊列進行替代。因此對于Kappa架構(gòu)來說,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖層面進行了存儲和簡單建模,當需要進行離線分析或者再次計算的時候,則將數(shù)據(jù)湖的數(shù)據(jù)再次經(jīng)過消息隊列重播一次。Kappa架構(gòu)看起來簡潔,但是施難度相對較高,尤其是對于數(shù)據(jù)回放部分。37>SaaS模式云數(shù)據(jù)倉庫+實時分37如下圖所示,MC-Hologres可以將實時、離線、分析、服務一體化,做到了實時離線聯(lián)合分析,冷熱溫三類數(shù)據(jù)全洞察。MC-Hologres后提出了:實時、離線、分析、服務一體化方案。即前文描述的Lambda架構(gòu)簡化、交互查詢增強、kappa架構(gòu)增強,實時離線聯(lián)合分析,冷熱溫三類數(shù)據(jù)全洞察的方案能力。此方案適用于電商、游戲、社交等互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)化運營,如智能推薦、日志采集分析、用戶畫像、數(shù)據(jù)治理、業(yè)務大屏、搜索等場景。方案優(yōu)勢:阿里巴巴最佳實踐的大數(shù)據(jù)平臺, (1)技術(shù)領(lǐng)先性; (2)降本提效; (3)高附加值業(yè)務收益。涉及產(chǎn)品:日志服務SLS、數(shù)據(jù)傳輸DTS、DataHub、實時計算Flink、交互式分析、云數(shù)倉MaxCompute、數(shù)據(jù)治理DataWorks、QuickBI報表、DataV大屏、ES搜索、機器學習PAI。38SaaS模式云數(shù)據(jù)倉庫+實時分析<38小影是一款原創(chuàng)視頻、全能剪輯的短視頻社區(qū)APP,面向大眾提供短視頻創(chuàng)作工具,包括視頻剪輯、教程玩法、視頻拍攝,谷歌應用商城收入榜前五,全球累計用戶突破8.9億。用戶標簽數(shù)據(jù)開發(fā):客戶通過MaxCompute針對每天APP產(chǎn)生的客戶基礎(chǔ)屬性數(shù)行為日志數(shù)據(jù)、內(nèi)容數(shù)據(jù)等進行計算,每天離線更新用戶標簽的數(shù)據(jù),支持營銷業(yè)務的使用。MC-Hologres進行多標簽、多維度的實時分析,了解用戶屬性標簽與內(nèi)容標簽之間的關(guān)聯(lián)性,洞察交叉銷售機會,并通過人群圈選,進行APP消息PUSH。實時視頻推薦:客戶通過Flink+MaxCompute+MC-Hologres+PAI搭建個性化實時推薦系統(tǒng),基于用戶特征和實時行為特征,實時推薦個性化的短視頻內(nèi)容。39>SaaS模式云數(shù)據(jù)倉庫+實時搜索SaaS模式云數(shù)據(jù)倉庫+實時搜索作者|孟碩阿里云智能產(chǎn)品專家簡介簡介:本文由阿里云計算平臺事業(yè)部MaxCompute產(chǎn)品經(jīng)理孟碩為大家?guī)怼冻掷m(xù)定義SaaS模式云數(shù)據(jù)倉庫+實時搜索》的相關(guān)分享。以下是視頻內(nèi)容精華整理,主要包括 (一)MaxCompute我們把MaxCompute定義為SaaS模式的企業(yè)級云數(shù)據(jù)倉庫。在之前,我們可能會認為MaxCompute是一個離線數(shù)據(jù)處理引擎,也就是一個傳統(tǒng)的數(shù)倉,但MaxCompute所能做的事情要比傳統(tǒng)數(shù)倉多的多。因此,我們更傾向于把MaxCompute看成一個數(shù)據(jù)處理的平臺,在它上面我們可以做離線數(shù)據(jù)的處理,包括數(shù)據(jù)庫的應用,傳統(tǒng)數(shù)據(jù)倉庫的應用,以及近實時的數(shù)據(jù)采集和近實時的數(shù)據(jù)查詢,現(xiàn)在將其與MC-Holegres組件結(jié)合,我們還能做到實時數(shù)倉的應用場景。MaxCompute是阿里云的一個托管服務,它依托于阿里云強大的基礎(chǔ)設(shè)施,為用戶提供優(yōu)質(zhì)、便捷的服務,其架構(gòu)如下圖所示。SaaS模式云數(shù)據(jù)倉庫+實時搜索<40MaxCompute有著廣泛的應用場景,傳統(tǒng)數(shù)倉所能做的,MaxCompute都能做,主要包括:等;業(yè)務運營場景:交互式業(yè)務指標計算、查詢等;各行業(yè)搭建數(shù)據(jù)倉庫,比如流批一體、湖倉一體等;云上彈性擴展大數(shù)據(jù)計算和存儲。得益于可靠的架構(gòu)和強大的技術(shù)實力,MaxCompute有著非常優(yōu)秀的產(chǎn)品技術(shù)特性,主要包括: (1)全托管的Serverless的在線服務對外以API方式訪問的在線服務,開箱即用;預鋪設(shè)的大規(guī)模集群資源,近乎無限資源,按需使用和付費;無需平臺運維,最小化運維投入。 (2)彈性能力與擴展性存儲和計算獨立擴展,支持TB到EB級別數(shù)據(jù)規(guī)模的擴展能力,可以讓企業(yè)將全部數(shù)據(jù)資產(chǎn)保存在一個平臺上進行聯(lián)動分析,消除數(shù)據(jù)孤島;Serverless資源按需分配,實時根據(jù)業(yè)務峰谷變化帶來的需求變化分配資源,自動擴展;單作業(yè)可根據(jù)需要秒級獲得成千上萬Core。 (3)數(shù)據(jù)湖探索分析默認集成對數(shù)據(jù)湖(如OSS服務)的訪問分析,處理非結(jié)構(gòu)化或開放格式數(shù)據(jù);支持外表映射、Spark直接訪問方式開展數(shù)據(jù)湖分析;對用戶友好:在同一套數(shù)據(jù)倉庫服務和用戶接口下,實現(xiàn)數(shù)據(jù)湖分析和數(shù)據(jù)倉庫的關(guān)聯(lián)分析。 (4)集成AI能力與阿里云機器學習平臺PAI無縫集成,提供強大的機器學習處理能力;可使用用戶熟悉的Spark-ML開展智能分析;提供SQLML可以直接使用標準SQL訓練機器學習模型,并對數(shù)據(jù)進行預測分析;Mars:使用Python機器學習第三方庫。41>SaaS模式云數(shù)據(jù)倉庫+實時搜索 (5)支持流式采集和近實時分析支持流式數(shù)據(jù)的實時寫入(Tunnel),并在數(shù)據(jù)倉庫中開展分析;與云上主要流式服務深度集成,輕松接入各種來源流式;高性能秒級彈性并發(fā)查詢,滿足近實時分析場景。 (6)深度集成Spark引擎內(nèi)建ApacheSpark引擎,提供完整的Spark功能;與MaxCompute計算資源、數(shù)據(jù)和權(quán)限體系深度集成。 (7)統(tǒng)一而豐富的運算能力; (8)提供統(tǒng)一的企業(yè)數(shù)據(jù)視圖提供租戶級別的統(tǒng)一元數(shù)據(jù),讓企業(yè)能夠輕松獲得完整的企業(yè)數(shù)據(jù)目錄;對于更廣泛的數(shù)據(jù)源,通過外表建立數(shù)據(jù)倉庫與外部數(shù)據(jù)源的連接,ConnectnotCollect。 (9)企業(yè)級服務SLA保證:99.9%服務可用性保障;自助運維與自動化運維;硬件,網(wǎng)絡(luò),人為)機制。一般來講我們的大數(shù)據(jù)項目是需要很多個組件才能完成的,包括離線組件和實時組件。下圖一個常用的場景,它是集實時、離線、分析、服務于一體的一套方案,適用于數(shù)據(jù)化運是阿里巴巴最佳實踐的大數(shù)據(jù)平臺,具有技術(shù)領(lǐng)先性,降本提效,高附加值業(yè)務收益等優(yōu)勢。當然,整個方案涉及到的產(chǎn)品也非常多,包括日志服務SLS、數(shù)據(jù)傳輸DTS、DataHub、實時計算Flink等等,具體如下圖所示。42SaaS模式云數(shù)據(jù)倉庫+實時搜索42下圖是MaxCompute和MC-Hologres兩個組件融合之后的實時分析簡單架構(gòu),即云原生HASP系統(tǒng),通過該架構(gòu)我們可以實現(xiàn)實時寫入和實時查詢。與其他的OLAP應用不同的是這種架構(gòu)下MC-Hologres和MaxCompute是一體的,可以共享存儲,也就是說MC-Hologres可以直接讀取MaxCompute的數(shù)據(jù),大大降低了存儲成本。通過這兩個組件,我們還可以解決離線加速、聯(lián)邦分析、交互式分析等問題。43>SaaS模式云數(shù)據(jù)倉庫+實時搜索 (二)ElasticsearchElasticsearch是一個開源的分布式、RESTful風格的搜索和數(shù)據(jù)分析引擎,它的底層是開源庫ApacheLucene。Elasticsearch解決了Lucene使用時的繁復性,功能強大,使用簡單,能夠提供實時搜索服務。Elasticsearch應用場景廣泛,比如打車的場景中 (例如滴滴打車),使用查詢附近的車輛等功能時候,后臺就是Elasticsearch在為搜索做支撐,又比如在Github中,Elasticsearch可以幫助我們利用關(guān)鍵字等在站內(nèi)進行檢索。當然,不只是網(wǎng)站應用,包括手機APP,只要用到站內(nèi)搜索服務,都能夠用到Elasticsearch或者其他的搜索服務應用。我們?yōu)槭裁葱枰阉饕婺??實時搜索為什么現(xiàn)在這么火呢?之前我們在做數(shù)據(jù)分析的時候,可以通過寫程序的方式,但是寫程序?qū)τ谝恍?shù)據(jù)分析師來說是一個高門檻的任務,需要一定的學習成本,包括使用SQL也有一定的學習成本。但是有了搜索引擎之后,我們只需要按照一定的條件進行篩選就可以得到我們想要的信息,大大降低了學習成本。當前,主流的搜索引擎有兩個:Solr和Elasticsearch,兩者都基于Lucene發(fā)展而來。Lucene是當今最先進,最高效的全功能開源搜索引擎框架,但是Lucene只是一個分利用它的功能,需要在其基礎(chǔ)上進行擴展開發(fā),因此有了Solr和Elasticsearch。下圖是GoogleTrend中兩個搜索應用的趨勢分析,可以看出在實時搜索領(lǐng)域,近幾年Elasticsearch的熱度已經(jīng)超過了Solr,因為在實時搜索領(lǐng)域Elasticsearch的效果要好于好于Solr,但是不得不提的是Solr在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上進行查詢搜索的速度會更快一些。SaaS模式云數(shù)據(jù)倉庫+實時搜索<44目前,Elastic已經(jīng)宣布與阿里云建立長期合作和戰(zhàn)略伙伴關(guān)系。未來阿里云Elasticsearch將會兼容開源Elasticsearch的功能,以及Security、MachineLearning、Graph、APM等商業(yè)功能,致力于數(shù)據(jù)分析、數(shù)據(jù)搜索等場景服務,與Elastic合作,共同為客戶提供企業(yè)級權(quán)限管控、安全監(jiān)控告警、自動報表生成等場景服務。 (三)為什么需要MaxCompute+實時搜索45>SaaS模式云數(shù)據(jù)倉庫+實時搜索當前,實時搜索的主要應用場景有三個: (1)日志和指標分析(Log/IndicatorAnalysis); (2)安全(Security); (3)站內(nèi)檢索(WebHosting)。其場景的應用邏輯如下面三張圖所示。46SaaS模式云數(shù)據(jù)倉庫+實時搜索<46最佳實踐主要包括數(shù)據(jù)集成和數(shù)據(jù)監(jiān)控兩部分,其中數(shù)據(jù)集成指的是MaxCompute和Elasticsearch兩個組件之間怎么做數(shù)據(jù)交互。 (一)數(shù)據(jù)集成下圖是一個在線教育的案例,該案例大的背景是要監(jiān)控企業(yè)內(nèi)部包括用戶的C端產(chǎn)生的日志,還有內(nèi)部的服務端產(chǎn)生的日志,它由MaxCompute做數(shù)據(jù)的預分析,然后交由Elasticsearch做數(shù)據(jù)監(jiān)控,其痛點主要有如下三點: (1)監(jiān)控數(shù)據(jù)實時性要求高; (2)流量波動大,自建集群投入成本高; (3)數(shù)據(jù)權(quán)限粒度要求高。47>SaaS47對于以上痛點,一般通用的解決方案如上圖所示,包括數(shù)據(jù)采集和集中、數(shù)據(jù)ETL、數(shù)據(jù)分析和展現(xiàn)三部分,最后會得到如下圖所示的DashBoard。MaxCompute和Elasticsearch之間的數(shù)據(jù)交互是非常重要的一部分,將MaxCompute的數(shù)據(jù)導入Elasticsearch主要分為如下五步: (1)準備工作創(chuàng)建DataWorks工作空間并開通MaxCompute服務,準備MaxCompute數(shù)據(jù)源、創(chuàng)建阿里云Elasticsearch實例。 (2)步驟一:購買并創(chuàng)建獨享資源組購買并創(chuàng)建一個數(shù)據(jù)集成獨享資源組,并為該資源組綁定專有網(wǎng)絡(luò)和工作空間,獨享資源組可以保障數(shù)據(jù)快速、穩(wěn)定地傳輸。 (3)步驟二:添加數(shù)據(jù)源將MaxCompute和Elasticsearch數(shù)據(jù)源接入DataWorks的數(shù)據(jù)集成服務中。 (4)步驟三:配置并運行數(shù)據(jù)同步任務配置一個數(shù)據(jù)同步的腳本,將數(shù)據(jù)集成系統(tǒng)同步成功的數(shù)據(jù)存儲到Elasticsearch中,然后將獨享資源組作為一個可以執(zhí)行任務的資源,注冊到DataWorks的數(shù)據(jù)集成服務中,這個資源組將獲取數(shù)據(jù)源的數(shù)據(jù),并執(zhí)行將數(shù)據(jù)寫入Elasticsearch中的任務 (該任務將有數(shù)據(jù)集成系統(tǒng)統(tǒng)一下發(fā))。SaaS模式云數(shù)據(jù)倉庫+實時搜索<48 (5)步驟四:驗證數(shù)據(jù)同步結(jié)果在Kibana控制臺中,查看同步成功的數(shù)據(jù),并按條件查詢數(shù)據(jù)。 (二)數(shù)據(jù)監(jiān)控經(jīng)過上面的步驟,數(shù)據(jù)已經(jīng)導入了Elasticsearch,我們做數(shù)據(jù)監(jiān)控主要有如下兩步: (1)使用Kibana的discover,view,dashboard和其他對象來查看這些數(shù)據(jù); (2)通過導入預先準備好的Kibana對象,可以統(tǒng)一顯示直播數(shù)據(jù)。49>SaaS模式云數(shù)據(jù)倉庫+數(shù)據(jù)銀行SaaS模式云數(shù)據(jù)倉庫+數(shù)據(jù)銀行作者作者|隆志強阿里云智能高級產(chǎn)品專家簡介:本文將介紹SaaS模式云數(shù)據(jù)倉庫MaxCompute,如何助力數(shù)據(jù)銀行SaaS模式云戰(zhàn)略和一體化數(shù)據(jù)開放場景介紹。MaxCompute:SaaS模式企業(yè)級云數(shù)據(jù)倉庫的應用場景包括:廣告場景-用戶標簽計算、分析;業(yè)務運營場景-業(yè)務指標計算、查詢;各行業(yè)搭建數(shù)據(jù)倉庫;云上彈性擴展大數(shù)據(jù)計算和存儲。產(chǎn)品優(yōu)勢包括云原生極致彈性:大規(guī)模彈性負載需求;簡單易用多功能計算:預置多種計算模型和數(shù)據(jù)通道能力,開通即用;企業(yè)級平臺服務:支持開放生態(tài),提供企業(yè)級安全管理能力;與阿里云眾多大數(shù)據(jù)服務無縫集成;安全:多租戶環(huán)境下安全控制能力強;大規(guī)模集群性能強、全鏈路穩(wěn)定性高,阿里巴巴雙11場景驗證。推薦組合包括BI分析場景和機器學習場景,分別為MaxCompute+MC-Hologres+Flink+DataWorks+QuickBI,以及MaxCompute+PAI+DataWorks。50SaaS模式云數(shù)據(jù)倉庫+數(shù)據(jù)銀行<50MaxCompute算力資源產(chǎn)品解決方案如下圖所示。 (1)包年包月滿足常規(guī)需求,穩(wěn)定財務支出;支持作業(yè)優(yōu)先級,保障關(guān)鍵任務穩(wěn)定產(chǎn)出;支持存儲與計算資源包購買。51>SaaS模式云數(shù)據(jù)倉庫+數(shù)據(jù)銀行 (2)按需使用無服務器架構(gòu),超大規(guī)模的存儲和計算擴展能力;自動匹配業(yè)務需求,完美適配業(yè)務的高速變化;不使用不付費。 (3)多計算資源打通融合打通包年包月與按需使用的彈性資源,只需聯(lián)合開通,即可實現(xiàn)更優(yōu)的成本與性能平衡的資源解決方案。 (4)搶占空閑資源非預留計算資源,搶占并使用服務空閑計算資源,價格較包年包月標準計算資源下降74%。安全事件頻發(fā),云上大數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建護坡加固施工方案
- 房屋買賣合同預售合同
- 中華傳統(tǒng)美文鑒賞教學方法:古詩解析與創(chuàng)作訓練
- 屋面漏水導流施工方案
- 阜陽別墅木屋施工方案
- 接戶線施工方案
- 塔吊安裝專項施工方案
- 漢口閣樓安裝施工方案
- 鍋爐除渣干式排渣施工方案
- 年產(chǎn)12000噸聚羧酸高性能減水劑復配液及3000噸水泥助磨劑復配液項目環(huán)評報告表
- 2024年全國英語競賽《B類英語專業(yè)》初賽試題真題及答案
- 小學生中國舞課件大全
- 2025年南京信息職業(yè)技術(shù)學院單招職業(yè)技能測試題庫完整
- 《Spring框架》教學課件
- 2025年中考英語閱讀訓練:熱點-電影《哪吒》(含答案)
- 2025年中考英語時文閱讀 6篇有關(guān)電影哪吒2和 DeepSeek的英語閱讀(含答案)
- 客戶溝通技巧與客戶投訴處理培訓課件
- 完整版臨時用水用電施工方案
- 江蘇省南通市2025屆高三第一次調(diào)研測試數(shù)學試題(南通一模)(含答案)
- 【課件】進出口貨物報關(guān)單填制
- Codesys培訓課件教學課件
評論
0/150
提交評論