基于SQL on Hadoop的數(shù)據(jù)倉庫技術

上傳人：雪*** IP屬地：江蘇上傳時間：2022-09-23 格式：DOCX 頁數(shù)：26 大小：43.19KB 積分：15 舉報 版權申訴

免費預覽已結束，剩余23頁可下載查看

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、基于SQL on Hadoop 的數(shù)據(jù)倉庫技術數(shù)據(jù)倉庫是企業(yè)統(tǒng)一的數(shù)據(jù)管理的方式，將不同的應用中的數(shù)據(jù)匯聚，然后對這些數(shù)據(jù)加工和多維度分析，并最終展現(xiàn)給用戶。它幫助企業(yè)將紛繁浩雜的數(shù)據(jù)整合加工，并最終轉換為關鍵流程上的KPI，從而為決策/管理等提供最準確的支持，并幫助預測發(fā)展趨勢。因此，數(shù)據(jù)倉庫傳統(tǒng)數(shù)據(jù)倉庫交易系統(tǒng)以及OLAP 分析系統(tǒng)數(shù)據(jù)，他們會把這些數(shù)據(jù)全部集中起來，數(shù)據(jù)庫等。然后在這上面對數(shù)據(jù)進行加工，建立各種主題模型，再提供報表分析業(yè)務。一般來說，數(shù)據(jù)的處理和加工是通過離線的批處理來完成的，通過各種應用模型實現(xiàn)具體的報表加工。實時處理數(shù)據(jù)倉庫業(yè)需要處理實時的傳感器數(shù)據(jù)

2、來排查故障以保障電力的生產(chǎn)等。這類行務的需求。因此，實時數(shù)據(jù)倉庫增強了對實時性數(shù)據(jù)的處理能力要求，也要求系統(tǒng)的架構在技術層面上需要革命性的調(diào)整。關聯(lián)發(fā)現(xiàn)數(shù)據(jù)倉庫控制，反欺詐等業(yè)務。上下文無關聯(lián)的數(shù)據(jù)倉庫一般需要在架構設計上支持數(shù)據(jù)挖掘能力，并提供通用的算法接口來操作數(shù)據(jù)。數(shù)據(jù)集市較少，但往往對數(shù)據(jù)分析的延時有很高的要求，并需要和各種報表工具數(shù)據(jù)倉庫架構的挑戰(zhàn) 需要對它的架構做更多的一些演變。這些數(shù)據(jù)存在架構上的問題，無法通過業(yè)務層面的優(yōu)化來解決。譬如，一個省級農(nóng)信社的數(shù)據(jù)審計類的數(shù)據(jù)通常在十幾TB，現(xiàn)有基于關系數(shù) 據(jù)庫或者MPP 的數(shù)據(jù)倉庫方案已經(jīng)無法處理這么大數(shù)據(jù)，亟需一種新

3、的更強計算能力的架構設計來解決問題。其次，隨著業(yè)務的發(fā)展，數(shù)據(jù)源的類型也越來越多。很多行業(yè)的非結構化數(shù)據(jù)的產(chǎn)生速度非常快，使用傳統(tǒng)Oracle/DB2 的數(shù)據(jù)倉庫并不能很好的處理這些非結構化數(shù)據(jù)，往往需要額外構建一些系統(tǒng)作為補充。將各個數(shù)據(jù)庫統(tǒng)一化，有效的進行數(shù)據(jù)分析和批處理。而在過去，這個倉庫解決方案能有效的解決這些問題和挑戰(zhàn)?；诖髷?shù)據(jù)的數(shù)據(jù)倉庫關鍵技術上圖是一個典型的基于Hadoop 的數(shù)據(jù)倉庫的架構設計。數(shù)據(jù)管理，數(shù)據(jù)稽查和數(shù)據(jù)處理的工作調(diào)度層。數(shù)據(jù)存儲平臺包含多種數(shù)據(jù)源，有結構化數(shù)據(jù)和非結構化數(shù)據(jù)。結構化數(shù)據(jù)的處理分為三層，源，確保資源分配的合理性和有效性。此外，

4、上述方案還包括一個實時處理數(shù)據(jù)倉庫。實時的數(shù)據(jù)源通過消息窗口數(shù)據(jù)直接插入內(nèi)存后者SSD 中，從而可以對這部分數(shù)據(jù)做實時的從而實時的獲取業(yè)務需要的數(shù)據(jù)。庫，實時處理數(shù)據(jù)倉庫，關聯(lián)發(fā)現(xiàn)數(shù)據(jù)倉庫以及數(shù)據(jù)集市的需求，并通過邏輯劃分的方法使用一套資源來實現(xiàn)，無需多個項目重復建設。等）能夠部分實現(xiàn)數(shù)據(jù)倉庫的需求，但是離完整覆蓋還有一些距離。一分布式計算引擎基于關系數(shù)據(jù)庫的數(shù)據(jù)倉庫一個最大的痛點在于計算和處理能力不足，當數(shù)據(jù)量到達TB 量級后完全無法工作。因此，分布式的計算引擎是保健壯穩(wěn)定，必須能夠7*24 小時運行高負載業(yè)務高可擴展性，能夠隨著硬件資源的增加帶來處理能力的線性增長處理能力強，能夠處

5、理從GB 到幾百TB 量級的復雜SQL業(yè)務大的情況下（如100TB 級別）無法通過硬件資源的增加來解決，只能處理特定數(shù)據(jù)量級別的需求。性問題，是分布式計算引擎的最佳選擇。標準化的編程模型目前大部分在生產(chǎn)的數(shù)據(jù)倉庫是基于關系數(shù)據(jù)庫或者MPP 數(shù)據(jù)庫來實現(xiàn)的，一般系統(tǒng)規(guī)模都比較大，代碼量級是數(shù)萬到數(shù)十萬行SQL 或者 99 標準是大數(shù)據(jù)平臺構建數(shù)據(jù)倉庫的必備技術，而如果能夠支持一些常有利于企業(yè)將數(shù)據(jù)倉庫系統(tǒng)從原有架構上平滑遷移到基于Hadoop 的數(shù)據(jù)操作方式的多樣性或者能夠從文件或者消息隊列等數(shù)據(jù)源來加載源數(shù)據(jù)等。同時，這些操數(shù)據(jù)一致性保證分行的數(shù)據(jù)，以及外部數(shù)據(jù)源（如央行數(shù)據(jù)

6、）來加工。做并發(fā)的對統(tǒng)一數(shù)據(jù)源加工的過程中，數(shù)據(jù)的一致性必須得到保障。因此，基于大數(shù)據(jù) 性，持久性，完整性和原子性等特點。OLAP 交互式統(tǒng)計分析能力一些開源項目嘗試通過額外的存儲構建Cube 來加速HBase 中數(shù)據(jù)的統(tǒng)計分析能力，不過存在構建成本高，易出錯，不能支持Ad-Hoc 查詢等問題，此外需要提高穩(wěn)定性滿足商業(yè)上的需求。另外一些商業(yè)公司開始提供基于內(nèi)存或者SSD 的交互式統(tǒng)計分析的解決方案，通過將數(shù)據(jù)直接建立在SSD 或者內(nèi)存里，并通過內(nèi)置索引，多類型數(shù)據(jù)的處理能力影像資料，協(xié)議文件，以及一些專用的數(shù)據(jù)格式等在內(nèi)的非結構化數(shù)據(jù) 在企業(yè)業(yè)務中非常重要，大數(shù)據(jù)平臺需要提供存

7、儲和快速檢索的能力。開源HBase 提供MOB 技術來存儲和檢索非結構化數(shù)據(jù)，基本可以滿足及本地的圖像、文檔類數(shù)據(jù)的檢索，但是也存在一些問題，如Split 操作IO 成本很高，不支持Store File 的過濾等；此外不能很好支持 JSON/XML 等常用數(shù)據(jù)文件的操作也是一個缺點。另外一些數(shù)據(jù)庫如 MongoDB 對JSON 等的支持非常好，但是對視頻影像類非結構化數(shù)據(jù) 一個可行的技術方案是在HBase等類似方案中增加對JSON/XML 的原生編碼和解碼支持，通過SQL 層進行計算；同時改變大對象在HBase 減少IO 成本等優(yōu)化方式，來提供更有效的大對象的處理能力。實時計算與企業(yè)數(shù)據(jù)總

8、線關鍵。以銀行業(yè)信貸為例，以前的信貸流程是業(yè)務人員在客戶申請后去工商、司法等部門去申請征信數(shù)據(jù)后評分，周期長效率低。而如果采用關的微服務就可以實時的去接入征信、司法、工商等數(shù)據(jù)，通過總線上 Spark Streaming和Storm 都是不錯的實時計算框架，相比較而言，還可以實現(xiàn)引擎和資源共享。因此我們更加推薦使用Spark Streaming Storm 還主要是通過API來編程，而不是企業(yè)常用的SQL，因此很多的線下業(yè)務無法遷移到流式計算平臺上。從應用開發(fā)角度，提供SQL 業(yè)化的平臺已經(jīng)具備通過SQL 開發(fā)實時計算應用的能力。的數(shù)據(jù)都可以匯總到數(shù)據(jù)倉庫里面，因此Database

9、 Federation技術在進行分布式計算，同時也把常見的數(shù)據(jù)源所具備的特性推到數(shù)據(jù)源中，減少數(shù)據(jù)的傳輸量。一推一拉，使得其性能表現(xiàn)的十分顯著，對多重數(shù) 在這一領域有兩個流派，傳統(tǒng)的數(shù)據(jù)廠商希望用自己的SQL 引擎來覆蓋Hadoop，把Hadoop 隱藏在他們的引擎下面，這種方式?jīng)]有把計算完全分布出來。另外一種策略是利用Hadoop 的SQL 引擎來覆蓋原來數(shù)據(jù)探索與挖掘能力這由兩大方面原因造成，一方面是因為過去分析的數(shù)據(jù)都是采樣數(shù)據(jù)，沒有大規(guī)模的軟件系統(tǒng)來存放數(shù)據(jù)，也無法對大的數(shù)據(jù)進行分析。另一的計算分析，這使得過去的預測都相當不準確。除此以外，做預測性分析還應具備三方面特征，

10、要具有完成的工具。第即使在今天擁有工具的條件下，也仍然需要人來識別這些特征，做特征抽取。第二個是要有分布式機器學習的算法。目前，這種算法的數(shù)量仍要有應用的工具來幫我們建造一個完整的機器學習算法的pipeline，從安全性和權限管理對于大數(shù)據(jù)平臺，基于LDAP 協(xié)議的訪問控制和基于Kerberos 的安全認證技術是比較通用的解決方案。一套基于SQL 的數(shù)據(jù)庫/表的權限控制，管理員可以設置用戶對表的查詢，修改，刪除等權限，并包含一整套的角色設定，可以通過角色組的混合負載管理使多個租戶之間互不干擾。再者，它需要具備能力把批處理任務和實時任務分開處理，對一些實時任務進行優(yōu)化，從而可以支持多用戶多部門多種混合復雜的應用場景。熱點，涌現(xiàn)了很多解決方案，大概也有幾個流派，一種是基于據(jù)庫的框架都需要定制和改造，無法標準化。第二個弱點在于隔離性太由Kubernetes 提供資源調(diào)度和多租戶管理，因此更加標準化，方便統(tǒng) 一化部署和運維，目前我們認為是更好的解決方案。微服務架構統(tǒng)包括前端、中間件、數(shù)據(jù)庫都多個模塊，系統(tǒng)耦合性高，構建復雜。塊組建的，依靠依賴性讓系統(tǒng)自動把應用打包集裝，極大地促進了應用容器組成的應用系統(tǒng)，在上面可以運行幾千個應用，它的擴展性可以在幾分鐘之內(nèi)擴展到上千容器的規(guī)模。同時，它的資源隔離性也很好，滿足對多租戶的要求，進行

人人文庫> 全部分類> 應用文書 > 項目管理

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于SQL on Hadoop的數(shù)據(jù)倉庫技術

文檔簡介

溫馨提示

最新文檔

評論

基于SQL on Hadoop的數(shù)據(jù)倉庫技術

文檔簡介

溫馨提示

最新文檔

評論

相關文檔