數(shù)據(jù)庫架構(gòu)設(shè)計(jì)最佳實(shí)踐_第1頁
數(shù)據(jù)庫架構(gòu)設(shè)計(jì)最佳實(shí)踐_第2頁
數(shù)據(jù)庫架構(gòu)設(shè)計(jì)最佳實(shí)踐_第3頁
數(shù)據(jù)庫架構(gòu)設(shè)計(jì)最佳實(shí)踐_第4頁
數(shù)據(jù)庫架構(gòu)設(shè)計(jì)最佳實(shí)踐_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)庫架構(gòu)設(shè)計(jì)最佳實(shí)踐One Size Does not Fit All?OneSize DoesNot FitAll !M.Stonebraker 1943-獲得2014圖靈獎(jiǎng)自80年代后期開始,數(shù)據(jù)庫屆就開始討論關(guān)系數(shù)據(jù)庫的后繼者是誰?在關(guān)系數(shù)據(jù)庫內(nèi)部的最大努力來自于兩個(gè)方向:(1)模型擴(kuò)展:面向?qū)ο髷?shù)據(jù)庫與XML數(shù)據(jù)庫(2)專用系統(tǒng),one-size-does-not-fit-all(以M. Stonebraker為代表)Failed Aspirations in Database Systems(VLDB 2017)Oracle XML 和 面向?qū)ο髷?shù)據(jù)庫現(xiàn)狀是:這兩個(gè)方向一度都非常熱

2、,無論是學(xué)術(shù)界還是 數(shù)據(jù)庫廠商,都投入了大量的人力進(jìn)行這方面的研究。始終沒有大規(guī)模應(yīng)用,是一個(gè)無足輕重的特性。Stonebraker 研制的專用系統(tǒng)c-store(后改名Vertica)column store 系統(tǒng),適用于OLAP,后被HP收購(gòu)。h-store(后改名VoltDB)行存儲(chǔ)數(shù)據(jù)庫, 適用于事務(wù)OLTP。StreamBase,流數(shù)據(jù)庫,被TIBCO收購(gòu)。SciDB,科學(xué)數(shù)據(jù)庫,支持?jǐn)?shù)組(array)然而。Google三件套徹底改變了非結(jié)構(gòu)化數(shù)據(jù)管 理的生態(tài)。GFSMapReduceBigtableStonebraker對(duì)Hadoop的批評(píng)之聲Hadoop并非完美 “MapRedu

3、ce: A Major Step Backward”, Database ColumnBlog, Jan. 17, 2008丟失了大多數(shù)DBMS的特性不支持事務(wù)或者只支持簡(jiǎn)單的事務(wù)較低級(jí)的程序設(shè)計(jì)范型缺乏應(yīng)用開發(fā)工具和環(huán)境沒有索引Stonebraker數(shù)據(jù)庫市場(chǎng)呈現(xiàn)“百花齊放”的景象關(guān) 系 型非 關(guān) 系 型分析型操作型Sybase IQ VeticaInfobrightOracle DB2SQL Server Informix MySQL PostgreSQLMariaDBHive HAWQAster Teradata Greenplum Netzza圖CouchDBDynamoDBRedis

4、CouchbaseKey-value文檔Neo4JInfiniteGraphIngresSybase ASEOracle NoSQLMangoDBMemcacheDBF1MemSQLOceanbaseSpannerNewSQLAuroraHbase出路何在?Driven Force應(yīng)用驅(qū)動(dòng)創(chuàng)新數(shù)據(jù)庫應(yīng)用的變化推動(dòng)了數(shù)據(jù)庫技術(shù)的發(fā)展 軟硬件技術(shù)及計(jì)算平臺(tái)的發(fā)展水平與應(yīng)用需求 有著互動(dòng)的關(guān)系數(shù)據(jù)庫應(yīng)用的變化OLT POLA P?Store & Acces s第一代第二代第三代第四代第五代Store & Acces s非結(jié)構(gòu)化 數(shù)據(jù)結(jié)構(gòu)化 數(shù)據(jù)1、從無到有:數(shù)據(jù)管理概念的出現(xiàn)第一階段:從無到有,為了

5、讓數(shù)據(jù)存取高效ENIAC,美國(guó)1946Charles.W.Bachman1924-20171960年為通用電氣制造 了世界上第一個(gè)網(wǎng) 狀數(shù)據(jù)庫系統(tǒng)IDS積極推動(dòng)與促成了數(shù)據(jù)庫 標(biāo)準(zhǔn)的制定:DBTG 報(bào)告由于他在在數(shù)據(jù)庫技術(shù)的 產(chǎn)生、發(fā)展與推廣 應(yīng)用方面都發(fā)揮了 巨大的作用 1973 獲圖靈獎(jiǎng)2、OLTP第二階段:從層次/網(wǎng)狀走向關(guān)系,支持企 業(yè)級(jí)應(yīng)用Edgar F. Codd1922-20031970年Codd博士提出了關(guān)系模型,奠定了 關(guān)系數(shù)據(jù)庫的理論基礎(chǔ),1981年獲得 圖靈獎(jiǎng)Jim Gray由于事務(wù)處理研究方面的元?jiǎng)?chuàng)性 貢獻(xiàn)以及在將研究原型轉(zhuǎn)化為商業(yè)產(chǎn) 品的系統(tǒng)實(shí)現(xiàn)方面的技術(shù)領(lǐng)袖地位,

6、1998年獲獎(jiǎng)(時(shí)任微軟研究員)1980-2010的三十年是關(guān)系數(shù)據(jù)庫大行其道、 獨(dú)霸天下 的時(shí)期Jim Gray1944-20073、OLAP第三階段:從關(guān)系數(shù)據(jù)庫到數(shù)據(jù)倉(cāng)庫,支 持復(fù)雜數(shù)據(jù)分析與決策支持SQL語言只能支持“小分析”Bill Inmon 提出了數(shù)據(jù)倉(cāng)庫的概念 多維數(shù)據(jù)模型(CUBE模型) 面向主題的、集成的數(shù)據(jù)集OLAP分析(上鉆,下鉆操作等) 支持分析決策4、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)與訪問第四階段:從關(guān)系走向非結(jié)構(gòu)化數(shù)據(jù)關(guān)系數(shù)據(jù)庫的優(yōu)點(diǎn)來自關(guān)系模型,主要限 制也來自關(guān)系模型,無法管理非結(jié)構(gòu) 化數(shù)據(jù)!系統(tǒng)的擴(kuò)展之路成本高效率 低!最大的改變來自非數(shù)據(jù)庫圈,Google的貢獻(xiàn) 徹底改變

7、了非結(jié)構(gòu)化數(shù)據(jù)管理的生態(tài)Google三件套GFSMapRuduceBigtable新時(shí)代:以數(shù)據(jù)為中心計(jì)算機(jī)硬件數(shù)據(jù)庫等操作系統(tǒng)工具軟件應(yīng)用軟件大數(shù)據(jù)分析云計(jì)算以軟件為中心的體系以數(shù)據(jù)為中心的體系大數(shù)據(jù)應(yīng)用以數(shù)據(jù)為中心的計(jì)算(Data-Centric Computing)以數(shù)據(jù)為中心的計(jì)算匯聚和監(jiān)護(hù)多種數(shù)據(jù)源超大規(guī)模的數(shù)據(jù)存儲(chǔ)與管理通過數(shù)據(jù)分析實(shí)現(xiàn)數(shù)據(jù)增值高可控彈性資源管理(a) 傳統(tǒng)以計(jì)算為中心的模式(b) 以數(shù)據(jù)為中心的計(jì)算數(shù)據(jù)分析數(shù)據(jù)管理數(shù)據(jù) 匯聚 與 數(shù)據(jù) 監(jiān)護(hù)異 構(gòu) 大 數(shù) 據(jù) 源數(shù)據(jù)增值訪問 瓶頸整體架構(gòu)數(shù)據(jù)匯聚與 數(shù)據(jù)監(jiān)護(hù)*全球規(guī)模 數(shù)據(jù)管理多計(jì)算模型 數(shù)據(jù)分析高可控彈性資源管理

8、以數(shù)據(jù)為中心的計(jì)算(Data-Centric Computing)各類大數(shù)據(jù) 與人工智能 應(yīng)用各類數(shù)據(jù)源物聯(lián)網(wǎng)企業(yè)日志視頻監(jiān)控車聯(lián)網(wǎng)移動(dòng)互聯(lián)網(wǎng)PC智能制造電子商務(wù)商務(wù)智能社交網(wǎng)絡(luò) 搜索, 推薦智慧法務(wù)機(jī)器人自動(dòng)駕駛金融科技智慧物流醫(yī)學(xué)影像診斷醫(yī)療數(shù)據(jù)*Data Curation數(shù)據(jù)匯聚與數(shù)據(jù)監(jiān)護(hù)多源異構(gòu)數(shù)據(jù)的清洗集成如何針對(duì)多數(shù)據(jù)源中的異構(gòu)數(shù)據(jù)(關(guān)系、文本、圖等)進(jìn)行有效的清洗與鏈接大規(guī)模數(shù)據(jù)標(biāo)注如何在成本可控的前提下,獲得高質(zhì)量的標(biāo)注數(shù)據(jù)面向數(shù)據(jù)分析的隱私保護(hù)如何保護(hù)隱私的前提下,盡可能降低對(duì)數(shù)據(jù)分析效果的損失數(shù)據(jù)監(jiān)護(hù)的易用性優(yōu)化如何構(gòu)建端到端的數(shù)據(jù)準(zhǔn)備,提升數(shù)據(jù)監(jiān)護(hù)的易用性全球規(guī)模數(shù)據(jù)管理

9、全球規(guī)模分布式數(shù)據(jù)管理架構(gòu)如何基于計(jì)算與存儲(chǔ)分離思想,設(shè)計(jì)全球規(guī)模(global-scale)的分 布式數(shù)據(jù)管理系統(tǒng)架構(gòu)多數(shù)據(jù)模型存儲(chǔ)如何針對(duì)多種數(shù)據(jù)模型,動(dòng)態(tài)進(jìn)行多數(shù)據(jù)模型的存儲(chǔ)與管理優(yōu)化,提 升多種計(jì)算模型的數(shù)據(jù)訪問效率自適應(yīng)索引結(jié)構(gòu)如何針對(duì)不同數(shù)據(jù)模型和數(shù)據(jù)訪問規(guī)律,自適應(yīng)建立和調(diào)優(yōu)數(shù)據(jù)索引 結(jié)構(gòu)基于近數(shù)據(jù)計(jì)算的數(shù)據(jù)查詢優(yōu)化如何利用近數(shù)據(jù)計(jì)算思想,在更接近數(shù)據(jù)的層面進(jìn)行數(shù)據(jù)處理,減少 數(shù)據(jù)傳輸,優(yōu)化大數(shù)據(jù)查詢操作性能大規(guī)模分布式事務(wù)處理如何提高分布式事務(wù)的可靠性和執(zhí)行效率多計(jì)算模型數(shù)據(jù)分析基于異構(gòu)計(jì)算的數(shù)據(jù)分析如何圍繞數(shù)據(jù),充分利用多核CPU、GPU、FPGA等多元異構(gòu) 計(jì)算器件協(xié)同進(jìn)行

10、高效率的大數(shù)據(jù)分析基于近似計(jì)算的數(shù)據(jù)分析如何在保障近似比的前提下,大幅減小數(shù)據(jù)分析的開銷多計(jì)算模型的深度融合如何從接口到引擎,深度融合批處理、流計(jì)算等主流計(jì)算模型機(jī)器學(xué)習(xí)計(jì)算模型優(yōu)化如何在保障計(jì)算效率的前提下,提升分布式機(jī)器學(xué)習(xí)計(jì)算模型 支持的模型維度,以及如何基于迭代優(yōu)化方法,自動(dòng)調(diào)優(yōu)機(jī)器 學(xué)習(xí)模型參數(shù)國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目,高時(shí)效、可擴(kuò)展的大數(shù)據(jù)計(jì)算模型、優(yōu)化技術(shù)與系 統(tǒng)(主持人:中國(guó)人民大學(xué) 陳紅教授)高可控彈性資源管理面向多元異構(gòu)硬件的協(xié)同優(yōu)化問題如何針對(duì)計(jì)算新硬件和存儲(chǔ)新硬件的特性,充分發(fā)揮新硬件的優(yōu)勢(shì), 以及做好新硬件之間的協(xié)同優(yōu)化面向多租戶的資源隔離問題如何保障每個(gè)租戶不會(huì)互相干擾

11、,能夠準(zhǔn)確獲得預(yù)期的資源資源服務(wù)的質(zhì)量保障問題如何保障計(jì)算/存儲(chǔ)/網(wǎng)絡(luò)等資源服務(wù)的質(zhì)量智能分布式資源管理問題如何對(duì)分布式系統(tǒng)的多維資源進(jìn)行自動(dòng)化的高效分配、組織和管理國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目,軟件定義的云計(jì)算基礎(chǔ)理論與方法(主持人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所 徐志偉研究員)數(shù)據(jù)庫的主流應(yīng)用:OLMLStore & AccessOLTPOLAPOLML第一代第二代第三代第四代第五代Store & Access非結(jié)構(gòu)化 數(shù)據(jù)結(jié)構(gòu)化 數(shù)據(jù)OLMLOnline Machine Learning在一個(gè)數(shù)據(jù)集上選擇一個(gè)子集進(jìn)行訓(xùn)練用類SQL語言描述數(shù)據(jù)子集和學(xué)習(xí)任務(wù)實(shí)時(shí)更新模型(例如,一分鐘就需要更新模型)OL

12、ML vs OLTP/OLAPOLTP : relation model/ simple queryOLAP: cube model/ statistical analysisOLML: matrix model/ predictive analysis結(jié)果查詢cube分析預(yù)測(cè)分析Software Engineering for Machine Learning:A Case StudyICSE 2019最佳論文Best practices with machine learningin software engineeringA. End-to-end pipeline supportint

13、egrating ML development support into the traditional software development infrastructure.build environments to help engineers discover, gather, ingest, understand, and transform data, and then train, deploy, and maintain models.Best practices with machine learningin software engineeringB. Data avail

14、ability, collection, cleaning, and managementdata 對(duì)于ML很重要data attributes: “accessibility, accuracy, authoritativeness, freshness, latency, structuredness, ontological typing, connectedness, and semantic joinability.”Microsoft teams have found it necessary to blend data management tools with their ML

15、 frameworks to avoid the fragmentation of data and model management activities.the rapid evolution of data sources requires rigorous data versioning and sharing techniques討論:Data discovery and managementEngineers have to find, collect, curate, clean, and process data for use in model training and tu

16、ning.All the data has to be stored, tracked, and versioned.the data schema (and the data) change frequently, even many times per day多人協(xié)作場(chǎng)景的data versioning支撐OLML的“新型”數(shù)據(jù)庫長(zhǎng)啥樣?支持多數(shù)據(jù)模型(single engine multi models)支持存算分離(decoupling)支持自優(yōu)化自適應(yīng)自管理(self driven)支持混合架構(gòu)(integrated architecture)多數(shù)據(jù)模型應(yīng)用只關(guān)注系統(tǒng)性能和開發(fā)效率,

17、不關(guān)心如何實(shí)現(xiàn)為不同類型的數(shù)據(jù)提供最合適的數(shù)據(jù)存儲(chǔ)鍵值對(duì)圖文檔存儲(chǔ) 管理一個(gè)重要的判斷:大數(shù)據(jù)管理系統(tǒng)是 多數(shù)據(jù)模型并 存的,以便適 應(yīng)不用的要求。多模型數(shù)據(jù)庫TabularRDFXMLSpatialTextMulti-model DBJSON統(tǒng)一的數(shù)據(jù)庫引擎支持多模型存儲(chǔ)。不是不同的數(shù)據(jù)類型采用不同 的數(shù)據(jù)庫引擎。數(shù)據(jù)庫分類Relational DBMSSearch enginesDocument storesKey-value storesWide column storesGraph DBMSTime Series DBMSObject oriented DBMSRDF storesMu

18、ltivalue DBMSNative XML DBMSEvent StoresContent storesNavigational DBMS流行度排名Top 50數(shù)據(jù)庫類型數(shù)量Relational15Relational, Multi-model14Search engine4Search engine,Multi-model1Document3Document, Multi-model2Key-value1Key-value, Multi-model2Wide column2Wide column, Multi-model1Multi-model3Graph1Time Series1總計(jì)50存算分離(decoupling storage and omputation)存儲(chǔ)與計(jì)算分離是實(shí)現(xiàn)“以數(shù)據(jù)為中心計(jì)算時(shí)代”的必經(jīng)之路存儲(chǔ)與計(jì)算各自獨(dú)立擴(kuò)展。可以更好地應(yīng)對(duì)單一方面的不足。數(shù)據(jù)規(guī)模超過了集群存儲(chǔ)能力,則擴(kuò)展存儲(chǔ)(例如時(shí)序數(shù)據(jù)的管理)。“涌現(xiàn)式”大數(shù)據(jù)處理需求導(dǎo)致計(jì)算能力跟不上,則擴(kuò)展計(jì)算(例如阿里“雙十一”、12306的“春運(yùn)”)。以數(shù)據(jù)為中心的計(jì)算。同一份數(shù)據(jù)存儲(chǔ)(數(shù)據(jù)湖,Data Lake),同時(shí)支持上層各種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論