大數(shù)據(jù)分析和內(nèi)存計(jì)算課件_第1頁
大數(shù)據(jù)分析和內(nèi)存計(jì)算課件_第2頁
大數(shù)據(jù)分析和內(nèi)存計(jì)算課件_第3頁
大數(shù)據(jù)分析和內(nèi)存計(jì)算課件_第4頁
大數(shù)據(jù)分析和內(nèi)存計(jì)算課件_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析和內(nèi)存計(jì)算2023/9/12大數(shù)據(jù)分析和內(nèi)存計(jì)算2023/7/271提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核2023/9/12提綱大數(shù)據(jù)背景2023/7/272大數(shù)據(jù)(BigData)時(shí)代來臨移動(dòng)互聯(lián)網(wǎng)Mobile

Internet物聯(lián)網(wǎng)InternetofThings新量級、新處理模式、新企業(yè)智能2023/9/12大數(shù)據(jù)(BigData)時(shí)代來臨移動(dòng)互聯(lián)網(wǎng)物聯(lián)網(wǎng)新量級、新3在Web2.0時(shí)代,人們從信息的被動(dòng)接受者變成了主動(dòng)創(chuàng)造者2023/9/12在Web2.0時(shí)代,人們從信息的被動(dòng)接受者變成了主動(dòng)創(chuàng)造者4大數(shù)據(jù)舉例互聯(lián)網(wǎng):社交網(wǎng)絡(luò)、視頻、圖片、電子商務(wù)物聯(lián)網(wǎng):移動(dòng)設(shè)備、傳感器天文、地理、環(huán)境、氣象、交通信息掃描書籍、歷史文獻(xiàn)、社會(huì)交互信息醫(yī)療掃描、電子病歷2023/9/12大數(shù)據(jù)舉例互聯(lián)網(wǎng):社交網(wǎng)絡(luò)、視頻、圖片、電子商務(wù)2023/75大數(shù)據(jù)典型應(yīng)用搜索引擎:Google、Bing、Baidu、…電子商務(wù):淘寶、京東、Amazon、eBay…零售業(yè):Walmart可能凈利潤增長水平為60%或以上政府公共服務(wù)歐洲政府部門每年3500億美元,大約每年0.5%的增長率醫(yī)療服務(wù)美國每年3000億美元,大約每年0.7%的增長率制造業(yè)產(chǎn)品開發(fā)、組裝成本降低50%2023/9/12大數(shù)據(jù)典型應(yīng)用搜索引擎:Google、Bing、Baid6大數(shù)據(jù)潛力不同行業(yè)中,企業(yè)信息化成熟度差異明顯政府等行業(yè)的信息化成熟度明顯領(lǐng)先,總體處于擴(kuò)展和整合優(yōu)化階段;除金融和電信之外的服務(wù)行業(yè)的信息化建設(shè)成熟度相對較低,仍處在成長階段。對大數(shù)據(jù)的處理需求將啟發(fā)對于IT系統(tǒng)投資新熱點(diǎn),證實(shí)IT推動(dòng)業(yè)務(wù)發(fā)展,增加對IT投資。從IT系統(tǒng)走向大數(shù)據(jù)決策分析未來著眼點(diǎn)在于服務(wù)2000制造業(yè)金融電信政府互聯(lián)網(wǎng)企業(yè)自動(dòng)化走向初步信息化快速發(fā)展整體解決方案需求年600億投資規(guī)模信息化走向移動(dòng)互聯(lián)化基本架構(gòu)已經(jīng)建立相對成熟500億以上投資規(guī)模手工化向自動(dòng)化轉(zhuǎn)型:成熟度低成長階段中國建筑信息化投入占總收入0.03%建筑流通移動(dòng)互聯(lián)化數(shù)據(jù)智能化大數(shù)據(jù)2023/9/12大數(shù)據(jù)潛力不同行業(yè)中,企業(yè)信息化成熟度差異明顯從IT系統(tǒng)走向7大數(shù)據(jù)潛力2023/9/12大數(shù)據(jù)潛力2023/7/278國外大公司的角逐Google:滿足用戶需求,將互聯(lián)網(wǎng)將變得越來越智能。Facebook:人際網(wǎng)絡(luò),創(chuàng)造新的需求。Google利用好用的、免費(fèi)得軟件產(chǎn)品,換取對用戶的理解;通過精準(zhǔn)的廣告,找到生財(cái)之道,顛覆了微軟賣軟件拷貝賺錢的模式?;ヂ?lián)網(wǎng)越來越智能Google精確掌握用戶行為、獲取需求2023/9/12國外大公司的角逐Google:滿足用戶需求,將互聯(lián)網(wǎng)將變得越9國內(nèi)大數(shù)據(jù)計(jì)劃國內(nèi)各地制定云計(jì)算“十二五”規(guī)劃云計(jì)算、物聯(lián)網(wǎng)園區(qū)中國各地制定或公布了云計(jì)算、物聯(lián)網(wǎng)等產(chǎn)業(yè)規(guī)劃;這些工程的初始著眼點(diǎn)在房地產(chǎn),政績工程居多,大數(shù)據(jù)作為核心內(nèi)容端,使得政績工程變?yōu)槭褂霉こ獭?/p>

云計(jì)算、物聯(lián)網(wǎng)、社交化媒體、GIS為大數(shù)據(jù)提供了豐富的數(shù)據(jù)來源。因此大數(shù)據(jù)中包括的每個(gè)用戶的身份、地點(diǎn)、時(shí)間、喜好、厭惡、社會(huì)關(guān)系等等大量的信息。伴隨數(shù)據(jù)挖掘和分析的技術(shù)發(fā)展,我們即將步入基于大數(shù)據(jù)的智能化時(shí)代。2023/9/12國內(nèi)大數(shù)據(jù)計(jì)劃國內(nèi)各地制定云計(jì)算“十二五”規(guī)劃云計(jì)算、物聯(lián)網(wǎng)10提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核2023/9/12提綱大數(shù)據(jù)背景2023/7/2711大數(shù)據(jù)誕生BigData??疘T企業(yè)研究報(bào)告科學(xué)研究“第四范式”“十二五”規(guī)劃美國重大研究計(jì)劃DealingwithData專刊大數(shù)據(jù)誕生BigData??疘T企業(yè)研究報(bào)告科學(xué)研究“第四12傳染病預(yù)測海嘯實(shí)時(shí)預(yù)警搜索與電子商務(wù)大數(shù)據(jù)研究意義智能交通傳染病預(yù)測海嘯實(shí)時(shí)預(yù)警搜索與電子商務(wù)大數(shù)據(jù)研究意義智能交通13大數(shù)據(jù)研究意義居民消費(fèi)價(jià)格指數(shù)(CPI)CPI意義:與民生密切相關(guān)的國家經(jīng)濟(jì)決策重要指標(biāo)反映通貨膨脹率目前存在問題:“滯后、不科學(xué)”—原社科院金融發(fā)展室主任易憲容“86%認(rèn)為CPI與消費(fèi)感受不符合”—中國政協(xié)網(wǎng)如何準(zhǔn)確計(jì)算分析CPI大數(shù)據(jù)計(jì)算大數(shù)據(jù)研究意義居民消費(fèi)價(jià)格指數(shù)(CPI)如何準(zhǔn)確計(jì)算分析C14大數(shù)據(jù)定義及特點(diǎn)大數(shù)據(jù)是通過傳統(tǒng)數(shù)據(jù)庫技術(shù)和數(shù)據(jù)處理工具不能處理的龐大而復(fù)雜的數(shù)據(jù)集合。5億用戶8億商品20億PV/天用戶評論3萬條/秒5萬訂單/分鐘大數(shù)據(jù)定義及特點(diǎn)大數(shù)據(jù)是通過傳統(tǒng)數(shù)據(jù)庫技術(shù)和數(shù)據(jù)處理工具不能15提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核2023/9/12提綱大數(shù)據(jù)背景2023/7/2716什么是“大數(shù)據(jù)”?海量數(shù)據(jù)(信息)非結(jié)構(gòu)化數(shù)據(jù)Hadoop+Map/Reduce云計(jì)算數(shù)據(jù)(CloudData)數(shù)據(jù)密集型計(jì)算數(shù)據(jù)(DICData)2023/9/12什么是“大數(shù)據(jù)”?海量數(shù)據(jù)(信息)2023/7/2717大數(shù)據(jù)的性質(zhì)(4V)Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型ValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)巨大的數(shù)據(jù)價(jià)值2023/9/12大數(shù)據(jù)的性質(zhì)(4V)VolumeVarietyValueVe18大數(shù)據(jù)的性質(zhì)實(shí)例——城市計(jì)算速度快(Velocity)北京出租車每分鐘400萬條定位數(shù)據(jù)類型多(Variety)POI、路網(wǎng)、軌跡、路況、評論價(jià)值密度低(Value)特殊事件(賽事、事故)用戶評論(污染、堵塞)規(guī)模大(Volume)街旁網(wǎng)有1億次簽到數(shù)據(jù)機(jī)器&人工2023/9/12大數(shù)據(jù)的性質(zhì)實(shí)例——城市計(jì)算速度快(Velocity)類型多19大數(shù)據(jù)——外延與應(yīng)用密切相關(guān)的各類數(shù)據(jù),強(qiáng)調(diào)對于支持實(shí)際應(yīng)用所涉及到的多個(gè)來源且相互關(guān)聯(lián)的大量、高速、異構(gòu)、質(zhì)量差的數(shù)據(jù)生產(chǎn)數(shù)據(jù)、設(shè)計(jì)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)文本、多媒體數(shù)據(jù)、各種文檔數(shù)據(jù)HeterogeneousInformationNetwork世界上的數(shù)據(jù)80%是非結(jié)構(gòu)化數(shù)據(jù)80-20規(guī)則2023/9/12大數(shù)據(jù)——外延與應(yīng)用密切相關(guān)的各類數(shù)據(jù),強(qiáng)調(diào)對于支持實(shí)際20提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核2023/9/12提綱大數(shù)據(jù)背景2023/7/2721與大數(shù)據(jù)相關(guān)的幾個(gè)熱點(diǎn)問題非結(jié)構(gòu)化數(shù)據(jù)云計(jì)算與大數(shù)據(jù)Hadoop+HDFS+Map/ReduceNoSQL2023/9/12與大數(shù)據(jù)相關(guān)的幾個(gè)熱點(diǎn)問題非結(jié)構(gòu)化數(shù)據(jù)2023/7/2722什么是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)23SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog2023/9/12什么是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)23SocialMediaMa23云計(jì)算與大數(shù)據(jù)云計(jì)算是一種通過Internet以服務(wù)的方式提供動(dòng)態(tài)可伸縮的虛擬化的資源的計(jì)算模式云計(jì)算是繼大型主機(jī)、PC、互聯(lián)網(wǎng)之后的IT領(lǐng)域的最新一次重大變革Amazon和Google是始作俑者雖然云計(jì)算和大數(shù)據(jù)是沿著不同的道路發(fā)展而來的,兩者在技術(shù)和應(yīng)用上相輔相成云計(jì)算提供的服務(wù)離不開它所能承載的大數(shù)據(jù)解決大數(shù)據(jù)的挑戰(zhàn),云計(jì)算模式是可行的方案云計(jì)算遭遇大數(shù)據(jù)是發(fā)展的必然趨勢2023/9/12云計(jì)算與大數(shù)據(jù)云計(jì)算是一種通過Internet以服務(wù)的方式提24云計(jì)算與大數(shù)據(jù)云計(jì)算是一種通過Internet以服務(wù)的方式提供動(dòng)態(tài)可伸縮的虛擬化資源的計(jì)算模式云計(jì)算是繼大型主機(jī)、PC、互聯(lián)網(wǎng)之后的IT領(lǐng)域的最新一次重大變革Amazon和Google是始作俑者云計(jì)算技術(shù)、CTO、成本大數(shù)據(jù)業(yè)務(wù)、CEO、價(jià)值云計(jì)算遭遇大數(shù)據(jù)是發(fā)展的必然趨勢云計(jì)算與大數(shù)據(jù)云計(jì)算是一種通過Internet以服務(wù)的方式提25Amazon云服務(wù)彈性計(jì)算云EC2簡單存儲(chǔ)服務(wù)S3簡單數(shù)據(jù)庫服務(wù)SimpleDB簡單隊(duì)列服務(wù)SQS彈性MapReduce服務(wù)內(nèi)容推送服務(wù)CloudFront電子商務(wù)服務(wù)DevPay靈活支付服務(wù)FPS2023/9/12Amazon云服務(wù)彈性計(jì)算云EC22023/7/2726大數(shù)據(jù)技術(shù)就是Hadoop+M/R?來源于Google,在類似搜索引擎的查詢并行化分析處理領(lǐng)域取得極大成功針對大規(guī)模數(shù)據(jù)密集型應(yīng)用的編程范式(programmingparadigm)所基于的BigTable和HDFS是非常質(zhì)樸的數(shù)據(jù)模型和存儲(chǔ)系統(tǒng)適用領(lǐng)域有限,為大數(shù)據(jù)研究打開了思路,但絕不代表大數(shù)據(jù)技術(shù)全部回到起點(diǎn)來重新審視數(shù)據(jù)管理之目的2023/9/12大數(shù)據(jù)技術(shù)就是Hadoop+M/R?來源于Google,在類27MapReduceMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(一般大于1TB)的并行運(yùn)算的實(shí)現(xiàn)特性用戶自定義函數(shù)自動(dòng)并行化容錯(cuò)I/O調(diào)度監(jiān)聽MapReduceMapReduce是一種編程模型,用于大規(guī)28MapReduce2023/9/12MapReduce2023/7/2729Hadoop一個(gè)分布式系統(tǒng)和并行執(zhí)行環(huán)境Hadoop這個(gè)框架實(shí)現(xiàn)了MapReduce,方便用戶海量處理數(shù)據(jù)特點(diǎn):擴(kuò)容能力強(qiáng)成本低高效率可靠性適合場景大數(shù)據(jù)分析離線分析不適合場景少量數(shù)據(jù)復(fù)雜數(shù)據(jù)在線分析Hadoop一個(gè)分布式系統(tǒng)和并行執(zhí)行環(huán)境適合場景30大數(shù)據(jù)和數(shù)據(jù)庫的關(guān)系數(shù)據(jù)庫界從一開始就探索過,但還是過于保守忘不掉ACID,舍不得Relation,忽視實(shí)際應(yīng)用沉浸在自己的世界里空值理論(NullValue),泛關(guān)系(UniversalRelation)數(shù)據(jù)庫設(shè)計(jì)的范式理論(FD,MVD,4NF,5NF,……)潛意識(shí)地奉行“一招鮮”(OneSizeFitsAll,OSFA)Hadoop+Map/Reduce+Bigtable+HDFS響亮一擊回到起點(diǎn)來考慮數(shù)據(jù)管理問題,豁然開朗大數(shù)據(jù)是數(shù)據(jù)庫的自然延伸2023/9/12大數(shù)據(jù)和數(shù)據(jù)庫的關(guān)系數(shù)據(jù)庫界從一開始就探索過,但還是過于保守31數(shù)據(jù)庫關(guān)系代數(shù)索引查詢優(yōu)化事務(wù)處理姓名學(xué)號(hào)班級年齡性別住址籍貫電話張三100計(jì)9120男北京海淀北京89150李四200計(jì)9219男北京東城北京88888王五300計(jì)9318女北京西城北京77777趙六400計(jì)9419女北京朝陽北京99999劉七500計(jì)9521男北京豐臺(tái)北京88666課程名課程號(hào)地點(diǎn)教師DB15101李國良DB25102馮建華DM35103王建勇學(xué)號(hào)課程號(hào)分?jǐn)?shù)1001992001983002972023/9/12數(shù)據(jù)庫關(guān)系代數(shù)姓名學(xué)號(hào)班級年齡性別住址籍貫電話張三100計(jì)9322023/9/122023/7/27332023/9/122023/7/2734事務(wù)處理原子性(Atomicity)-不可分割

一致性(Consistency)-前后一致隔離性(Isolation)-并發(fā)持久性(Durability)-永久2023/9/12事務(wù)處理原子性(Atomicity)-不可分割202335大數(shù)據(jù)的系統(tǒng)需求Highperformance–高并發(fā)讀寫的需求 高并發(fā)、實(shí)時(shí)動(dòng)態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲(chǔ)和訪問的需求 類似SNS網(wǎng)站,海量用戶信息的高效率實(shí)時(shí)存儲(chǔ)和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求 需要擁有快速橫向擴(kuò)展能力、提供7*24小時(shí)不間斷服務(wù)2023/9/12大數(shù)據(jù)的系統(tǒng)需求2023/7/2736高并發(fā)讀寫大數(shù)據(jù)存儲(chǔ)的核心需求高效率存儲(chǔ)和訪問高可擴(kuò)展性和高可用性低成本建設(shè)運(yùn)維保證一致性的開銷過大,難以實(shí)現(xiàn)高并發(fā)存儲(chǔ)性能受限于控制器,性能難以保證關(guān)系型表單存儲(chǔ)難以適應(yīng)不同數(shù)據(jù)類型上億行數(shù)據(jù)的超級達(dá)標(biāo)效率極低傳統(tǒng)基于盤陣的存儲(chǔ)設(shè)備,造價(jià)昂貴,且市場壟斷嚴(yán)重,建設(shè)成本居高不下,擴(kuò)容成本尤其高許可和維護(hù)花費(fèi)高昂無法簡單的通過添加服務(wù)節(jié)點(diǎn)來擴(kuò)展數(shù)據(jù)容量和負(fù)載能力,難以進(jìn)行橫向擴(kuò)展數(shù)據(jù)庫升級需要停機(jī)維護(hù)和數(shù)據(jù)遷移,導(dǎo)致服務(wù)中斷不保證遵循ACID原則,提高并發(fā)讀寫性能Schema-Free存儲(chǔ)適應(yīng)不同數(shù)據(jù)類型舍棄SQL標(biāo)準(zhǔn)功能,盡量簡化數(shù)據(jù)操作,提升效率MapReduce實(shí)現(xiàn)高效訪問基于X86設(shè)備,價(jià)格低廉開源系統(tǒng),節(jié)省許可費(fèi)用支持水平擴(kuò)展,可簡單的通過添加服務(wù)節(jié)點(diǎn)來擴(kuò)展數(shù)據(jù)容量和負(fù)載能力數(shù)據(jù)庫升級不影響服務(wù)持續(xù)RDMSNoSQL2023/9/12高并發(fā)讀寫大數(shù)據(jù)存儲(chǔ)的高效率存儲(chǔ)和訪問高可擴(kuò)展性和高37大數(shù)據(jù)管理三個(gè)層次Web數(shù)據(jù)管理決策數(shù)據(jù)管理科學(xué)數(shù)據(jù)管理2023/9/12大數(shù)據(jù)管理三個(gè)層次Web數(shù)據(jù)管理2023/7/2738Web數(shù)據(jù)管理數(shù)據(jù)處理檢索實(shí)時(shí)檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)據(jù)圖搜索引擎BigQuery(Google)Pregel,TrinityGoogleAlertG.R-T.search,FBSearchGoogleTrends/AnalyticsPageRanketc.YahooPipes通常依賴于廉價(jià)PC機(jī)所搭建的集群2023/9/12Web數(shù)據(jù)管理數(shù)據(jù)處理檢索實(shí)時(shí)檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化39Web數(shù)據(jù)管理示例:社交媒體數(shù)據(jù)管理關(guān)注列表join活動(dòng)列表活動(dòng)列表join活動(dòng)列表實(shí)時(shí)統(tǒng)計(jì)推送系統(tǒng)的行為用戶頁面獲取個(gè)性化內(nèi)容展示“消息鏈”豐富信息量節(jié)省通訊目的看似簡單的頁面顯示需要后臺(tái)的大量查詢處理支持2023/9/12Web數(shù)據(jù)管理示例:社交媒體數(shù)據(jù)管理關(guān)注列表活動(dòng)列表實(shí)時(shí)統(tǒng)計(jì)40Web數(shù)據(jù)管理示例:社交媒體數(shù)據(jù)管理難點(diǎn)T:110M條消息/天≈1200條/秒

19GB/天(文本)W:峰值32312條/秒W:平均每個(gè)人關(guān)注540人

T:平均每個(gè)人關(guān)注36人W:轉(zhuǎn)發(fā)超過1000的微博中,超過80%的轉(zhuǎn)發(fā)發(fā)生在1個(gè)小時(shí)之內(nèi)的占59%要求:(準(zhǔn))實(shí)時(shí),大規(guī)模并發(fā)計(jì)算:查詢,連接,統(tǒng)計(jì)關(guān)注列表join活動(dòng)列表活動(dòng)列表join活動(dòng)列表實(shí)時(shí)統(tǒng)計(jì)推送T:W:2023/9/12Web數(shù)據(jù)管理示例:社交媒體數(shù)據(jù)管理難點(diǎn)關(guān)注列表活動(dòng)列表實(shí)時(shí)41決策數(shù)據(jù)管理數(shù)據(jù)處理檢索實(shí)時(shí)檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)據(jù)圖QA、

技術(shù)支持、

專家系統(tǒng)/

知識(shí)庫構(gòu)造OLAP報(bào)表物流優(yōu)化通常使用高性能服務(wù)器和專用存儲(chǔ)設(shè)備2023/9/12決策數(shù)據(jù)管理數(shù)據(jù)處理檢索實(shí)時(shí)檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)42決策數(shù)據(jù)管理傳統(tǒng)DBMS秉承的one-size-fits-all的理念不合適OLAP和數(shù)據(jù)倉庫技術(shù)在新的硬件和體系結(jié)構(gòu)情形下有新的發(fā)展機(jī)遇高可靠的MPP架構(gòu)內(nèi)存計(jì)算列存儲(chǔ)應(yīng)用:實(shí)時(shí)商務(wù)智能研究問題內(nèi)存數(shù)據(jù)庫,廉價(jià)高性能集群,優(yōu)化分析2023/9/12決策數(shù)據(jù)管理傳統(tǒng)DBMS秉承的one-size-fits-43決策數(shù)據(jù)管理示例:商務(wù)智能(BI)傳統(tǒng)處理方式離線:ETL,物化視圖,報(bào)表生成,規(guī)則提?。P陀?xùn)練在線:OLAP新問題:實(shí)時(shí)決策分析數(shù)據(jù)來源于各種傳感器GPS,RFID,…即時(shí)處理,即時(shí)響應(yīng)離線ETL不能滿足需要應(yīng)用:智能電網(wǎng)、供應(yīng)鏈管理、物流優(yōu)化、…2023/9/12決策數(shù)據(jù)管理示例:商務(wù)智能(BI)傳統(tǒng)處理方式2023/744科學(xué)數(shù)據(jù)管理數(shù)據(jù)處理檢索實(shí)時(shí)檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)/

半結(jié)構(gòu)數(shù)據(jù)文獻(xiàn)檢索內(nèi)容訂閱自動(dòng)綜述,知識(shí)庫構(gòu)建實(shí)驗(yàn)數(shù)據(jù)/觀測數(shù)據(jù)/檢測數(shù)據(jù)管理實(shí)驗(yàn)數(shù)據(jù)分析生物/…

數(shù)據(jù)分析異構(gòu)、分布式系統(tǒng)2023/9/12科學(xué)數(shù)據(jù)管理數(shù)據(jù)處理檢索實(shí)時(shí)檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)45新型信息服務(wù)的商業(yè)模式互聯(lián)網(wǎng)廣告:Web+BI2023/9/12新型信息服務(wù)的商業(yè)模式互聯(lián)網(wǎng)廣告:Web+BI2023/46新型信息服務(wù):互聯(lián)網(wǎng)廣告數(shù)據(jù)處理檢索實(shí)時(shí)檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)/

半結(jié)構(gòu)數(shù)據(jù)廣告選擇請求解析廣告檢索在線更新2023/9/12新型信息服務(wù):互聯(lián)網(wǎng)廣告數(shù)據(jù)處理檢索實(shí)時(shí)檢索查詢連續(xù)查詢分析47提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核2023/9/12提綱大數(shù)據(jù)背景2023/7/2748BigData帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式不同的數(shù)據(jù)管理策略超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量2023/9/12BigData帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式2023/749超越企業(yè)現(xiàn)有IT數(shù)據(jù)解決能量每天幾百GB、幾TB的資料,且持續(xù)成長中儲(chǔ)存Storing在收數(shù)據(jù)的同時(shí)做必要的前置處理(pre-processing),并區(qū)分?jǐn)?shù)據(jù)處理的優(yōu)先等級(prioritizing)計(jì)算Processing如何有效的避免因硬件毀壞所導(dǎo)致的資料損毀管理Managing如何從中挖掘出所關(guān)注事件的pattern或behavior分析Analyzing502023/9/12超越企業(yè)現(xiàn)有IT數(shù)據(jù)解決能量每天幾百GB、幾TB50大數(shù)據(jù)研究挑戰(zhàn)全面考量高可擴(kuò)展性高性能高度容錯(cuò)多類型傳統(tǒng)數(shù)據(jù)倉庫無法存儲(chǔ)日益增長的海量數(shù)據(jù)傳統(tǒng)數(shù)據(jù)倉庫無法有效處理新型業(yè)務(wù)的數(shù)據(jù)2023/9/12大數(shù)據(jù)研究挑戰(zhàn)全面考量2023/7/2751提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核2023/9/12提綱大數(shù)據(jù)背景2023/7/2752大數(shù)據(jù)處理平臺(tái)MapReduceHadoopSparkNoSQLKey-valueColumnAmazonEC2S3Mturk2023/9/12大數(shù)據(jù)處理平臺(tái)MapReduce2023/7/2753提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核2023/9/12提綱大數(shù)據(jù)背景2023/7/2754大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型大規(guī)模并行數(shù)據(jù)管理——MapReduce編程模型NoSQL數(shù)據(jù)模型CAP理論2023/9/12大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型2023/7/2755多租戶(Multi-Tenancy)多租戶是服務(wù)提供商來提供軟件和硬件在數(shù)據(jù)庫層面實(shí)現(xiàn)虛擬化用戶將軟件、硬件、維護(hù)移交給第三方用戶只需與第三方提供的服務(wù)交互2023/9/12多租戶(Multi-Tenancy)多租戶是服務(wù)提供商來提供56抓住長尾大型用戶$/用戶

運(yùn)營成本長尾理論獲利#用戶數(shù)長尾市場>>現(xiàn)有市場2023/9/12抓住長尾大型用戶$/用戶 運(yùn)營成本長尾理論#用戶數(shù)長尾57大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型大規(guī)模并行數(shù)據(jù)管理——MapReduce編程模型NoSQL數(shù)據(jù)庫CAP理論2023/9/12大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型2023/7/2758MapReduceMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(一般大于1TB)的并行運(yùn)算的實(shí)現(xiàn)特性用戶自定義函數(shù)自動(dòng)并行化容錯(cuò)I/O調(diào)度監(jiān)聽2023/9/12MapReduceMapReduce是一種編程模型,用于大規(guī)59MapReduce步驟Key-value2023/9/12MapReduce步驟Key-value2023/7/2760Hadoop一個(gè)分布式系統(tǒng)和并行執(zhí)行環(huán)境Hadoop這個(gè)框架實(shí)現(xiàn)了MapReduce,方便用戶海量處理數(shù)據(jù)特點(diǎn):擴(kuò)容能力強(qiáng)成本低高效率可靠性適合場景大數(shù)據(jù)分析離線分析不適合場景少量數(shù)據(jù)復(fù)雜數(shù)據(jù)在線分析2023/9/12Hadoop一個(gè)分布式系統(tǒng)和并行執(zhí)行環(huán)境適合場景2023/761大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型大規(guī)模并行數(shù)據(jù)管理——MapReduce編程模型NoSQLCAP理論2023/9/12大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型2023/7/2762NoSQL簡介NotOnlySQL,non-relationaldatabases處理超大數(shù)據(jù)量,TBorPB級別(Search)高并發(fā)(萬/s),不注重事務(wù)(CAP原則)易部署、易擴(kuò)展、易開發(fā)(透明)便宜2023/9/12NoSQL簡介NotOnlySQL,non-relati63NoSQL背景大數(shù)據(jù)時(shí)代下的系統(tǒng)需求Highperformance–高并發(fā)讀寫的需求 高并發(fā)、實(shí)時(shí)動(dòng)態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲(chǔ)和訪問的需求 類似SNS網(wǎng)站,海量用戶信息的高效率實(shí)時(shí)存儲(chǔ)和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求 需要擁有快速橫向擴(kuò)展能力、提供7*24小時(shí)不間斷服務(wù)2023/9/12NoSQL背景大數(shù)據(jù)時(shí)代下的系統(tǒng)需求2023/7/2764NoSQL數(shù)據(jù)庫分類Key/ValueStores(鍵/值存儲(chǔ)庫)AmazonSimpleDB/simpledb/BerkeleyDB/database/berkeley-db/db/index.htmlMemcacheDB/Redis/p/redis/DocumentStores(文檔庫)CouchDB/MongoDB/GraphDatabase(圖形數(shù)據(jù)庫)Neo4j/WideColumnStores(列存儲(chǔ)庫)Hadoop/Cassandra/cassandra/2023/9/12NoSQL數(shù)據(jù)庫分類Key/ValueStores(鍵/65大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型大規(guī)模并行數(shù)據(jù)管理——MapReduce編程模型NoSQLCAP理論2023/9/12大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型2023/7/2766CAP理論一致性(Consistenc)可用性(Availability)分區(qū)容錯(cuò)性(PartitionTolerance)三者只能滿足2個(gè)Availability可用性傳統(tǒng)關(guān)系數(shù)據(jù)庫Key-value數(shù)據(jù)庫Consistency一致性Partitiontolerance分區(qū)容錯(cuò)性2023/9/12CAP理論一致性(Consistenc)Availabili67大數(shù)據(jù)應(yīng)用舉例移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)空大數(shù)據(jù)2023/9/12大數(shù)據(jù)應(yīng)用舉例移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)2023/7/2768移動(dòng)互聯(lián)網(wǎng)擁有大數(shù)據(jù)大量用戶大量數(shù)據(jù)用戶通話信息用戶喜好位置信息網(wǎng)絡(luò)訪問電子交易用戶行為分析2023/9/12移動(dòng)互聯(lián)網(wǎng)擁有大數(shù)據(jù)大量用戶2023/7/2769大數(shù)據(jù)給移動(dòng)互聯(lián)網(wǎng)帶來的機(jī)遇大數(shù)據(jù)分析平臺(tái),通過挖掘海量用戶信息,提供更好服務(wù)用戶,更好創(chuàng)造價(jià)值更好的引入新客戶移動(dòng)廣告推送在線應(yīng)用平臺(tái)–applestore軟件即服務(wù)應(yīng)用平臺(tái)–amazon2023/9/12大數(shù)據(jù)給移動(dòng)互聯(lián)網(wǎng)帶來的機(jī)遇大數(shù)據(jù)分析平臺(tái),通過挖掘海量用戶70移動(dòng)網(wǎng)絡(luò)中用戶行為分析數(shù)據(jù)來源更多,除傳統(tǒng)數(shù)據(jù)外,我們還關(guān)注:用戶的通訊信息:電話、短信、數(shù)據(jù)服務(wù)基于位置的信息:GPS、WiFi、傳感器基于時(shí)間的信息:具體時(shí)間或日期2023/9/12移動(dòng)網(wǎng)絡(luò)中用戶行為分析數(shù)據(jù)來源更多,除傳統(tǒng)數(shù)據(jù)外,我們還關(guān)注71移動(dòng)網(wǎng)絡(luò)中用戶行為分析2023/9/12移動(dòng)網(wǎng)絡(luò)中用戶行為分析2023/7/2772個(gè)性化推薦的相關(guān)技術(shù)研究用戶用戶研究,用戶網(wǎng)上行為分析,用戶消費(fèi)心理社會(huì)化網(wǎng)絡(luò)分析研究商品文本挖掘圖像識(shí)別數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),模式識(shí)別,人工智能相關(guān)性算法,Behavior Targeting概率統(tǒng)計(jì),因子分析,主成分分析分布式計(jì)算因分析實(shí)時(shí)計(jì)算,實(shí)時(shí)推薦,事件營銷2023/9/12個(gè)性化推薦的相關(guān)技術(shù)研究用戶研究商品數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),模式73總體研究方案大規(guī)模多源異構(gòu)數(shù)據(jù)眾包、知識(shí)圖譜、情境感知能耗數(shù)學(xué)原理抽樣鄰域理論分析決策城市大數(shù)據(jù)挖掘分析數(shù)據(jù)獲取城市大數(shù)據(jù)深度理解與融合城市大數(shù)據(jù)知識(shí)圖譜構(gòu)建城市大數(shù)據(jù)的挖掘與分析實(shí)時(shí)智能交通城市設(shè)施規(guī)劃移動(dòng)用戶分析結(jié)構(gòu)化數(shù)據(jù)資源半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)資源總體研究方案大規(guī)模多源異構(gòu)數(shù)據(jù)眾包、知識(shí)圖譜、情境感知能耗數(shù)74大數(shù)據(jù)實(shí)例——城市計(jì)算速度快(Velocity)北京出租車每分鐘400萬條定位數(shù)據(jù)類型多(Variety)POI、路網(wǎng)、軌跡、路況、評論價(jià)值密度低(Value)特殊事件(賽事、事故)用戶評論(污染、堵塞)規(guī)模大(Volume)街旁網(wǎng)有1億次簽到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論