大數(shù)據(jù)研究與實(shí)踐西安鄭州_第1頁
大數(shù)據(jù)研究與實(shí)踐西安鄭州_第2頁
大數(shù)據(jù)研究與實(shí)踐西安鄭州_第3頁
大數(shù)據(jù)研究與實(shí)踐西安鄭州_第4頁
大數(shù)據(jù)研究與實(shí)踐西安鄭州_第5頁
已閱讀5頁,還剩185頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)研究與實(shí)踐zwm-dcs@一、什么叫大數(shù)據(jù)二、清華大學(xué)大數(shù)據(jù)研究與實(shí)踐1.大數(shù)據(jù)存儲(chǔ)

(1)云存儲(chǔ)系統(tǒng)MeePo(2)刪冗處理2.大數(shù)據(jù)處理平臺(tái)3.社交網(wǎng)絡(luò)4.海量數(shù)據(jù)處理課程2一、什么叫大數(shù)據(jù)3什么是大數(shù)據(jù)定義1:

大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合(維基百科定義)Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.Wiki4什么是大數(shù)據(jù)定義2:3VBigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization--Gartner

5大數(shù)據(jù)的4V特性VolumeVolumeVarietyVolume模態(tài)多樣VeracityVolume真?zhèn)坞y辨VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數(shù)據(jù)總量達(dá)40ZB,人均5.2TB分享的內(nèi)容條目超過25億個(gè)/天,增加數(shù)據(jù)超過500TB/天6什么是大數(shù)據(jù)定義3:

當(dāng)數(shù)據(jù)的規(guī)模和性能要求成為數(shù)據(jù)管理分析系統(tǒng)的重要設(shè)計(jì)和決定因素時(shí),這樣的數(shù)據(jù)就被稱為大數(shù)據(jù)不是簡(jiǎn)單地以數(shù)據(jù)規(guī)模來界定大數(shù)據(jù),要考慮數(shù)據(jù)查詢與分析的復(fù)雜程度以目前計(jì)算機(jī)硬件的發(fā)展水平看針對(duì)簡(jiǎn)單查詢(如關(guān)鍵字搜索),數(shù)據(jù)量為TB至PB級(jí)時(shí)可稱為大數(shù)據(jù)針對(duì)復(fù)雜查詢(如數(shù)據(jù)挖掘),數(shù)據(jù)量為GB至TB級(jí)時(shí)即可稱為大數(shù)據(jù)7什么是大數(shù)據(jù)定義4:

大數(shù)據(jù)有兩個(gè)基本特征不同于傳統(tǒng)的數(shù)據(jù)集:

1.大數(shù)據(jù)不一定存儲(chǔ)于固定的數(shù)據(jù)庫,而是分布在不同地方的網(wǎng)絡(luò)空間

2.大數(shù)據(jù)以半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)為主,具有較高的復(fù)雜性。8大數(shù)據(jù)涉及諸多不同的領(lǐng)域

用戶生成數(shù)據(jù)DeepWeb數(shù)據(jù)多模態(tài)內(nèi)容數(shù)據(jù)天文氣象基因醫(yī)學(xué)經(jīng)濟(jì)物理其他領(lǐng)域網(wǎng)絡(luò)與關(guān)系數(shù)據(jù)9大數(shù)據(jù)的價(jià)值科研價(jià)值1998年圖靈獎(jiǎng)得主、數(shù)據(jù)庫技術(shù)奠基人JimGray認(rèn)為數(shù)據(jù)驅(qū)動(dòng)的研究將是第四種科學(xué)研究范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大數(shù)據(jù)已為多個(gè)不同學(xué)科的研究工作提供了寶貴機(jī)遇經(jīng)濟(jì)價(jià)值麥肯錫全球研究院:大數(shù)據(jù)可為世界經(jīng)濟(jì)創(chuàng)造巨大價(jià)值,提高企業(yè)和公共部門的生產(chǎn)率和競(jìng)爭(zhēng)力,并為消費(fèi)者創(chuàng)造巨大的經(jīng)濟(jì)利益著名Gartner公司:到2015年,采用大數(shù)據(jù)和海量信息管理的公司將在各項(xiàng)財(cái)務(wù)指標(biāo)上,超過未做準(zhǔn)備的競(jìng)爭(zhēng)對(duì)手20%工業(yè)價(jià)值分析使用:揭示隱藏其中的信息,例如零售業(yè)中對(duì)門店銷售、地理和社會(huì)信息的分析能提升對(duì)客戶的理解二次開發(fā):創(chuàng)造出新產(chǎn)品和服務(wù)。例如Facebook通過結(jié)合大量用戶信息,定制出高度個(gè)性化的用戶體驗(yàn),并創(chuàng)造出一種新的廣告模式社會(huì)價(jià)值例如:2009年淘寶網(wǎng)推出淘寶CPI來反映網(wǎng)絡(luò)購物的消費(fèi)趨勢(shì)和價(jià)格動(dòng)態(tài)其他價(jià)值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.

著名出版公司O‘Reilly的創(chuàng)始人TimO‘Reilly10深網(wǎng)挖掘深空探索2012年我國(guó)神州九號(hào)進(jìn)入太空深海探測(cè)2012年我國(guó)蛟龍?zhí)柼綔y(cè)水下7000米實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的

深度挖據(jù)和高度利用!大數(shù)據(jù)的戰(zhàn)略意義大數(shù)據(jù)的深度資源挖掘與價(jià)值利用是國(guó)家戰(zhàn)略從深空

+

深海

深網(wǎng)11大數(shù)據(jù)的產(chǎn)業(yè)價(jià)值大數(shù)據(jù)是各行各業(yè)面臨的共同問題促進(jìn)工業(yè)與信息產(chǎn)業(yè)的生產(chǎn)效率提升未來產(chǎn)業(yè)競(jìng)爭(zhēng)的核心要素研究共性問題,突破核心技術(shù)12大數(shù)據(jù)的現(xiàn)實(shí)需求:感知現(xiàn)在13感知現(xiàn)在:歷史數(shù)據(jù)與當(dāng)前數(shù)據(jù)的融合,潛在線索與模式的挖掘,

事件、群體與社會(huì)發(fā)展?fàn)顟B(tài)的感知中國(guó)發(fā)展指數(shù)(物價(jià)、環(huán)境、健康)需求:掌握現(xiàn)狀,如淘寶CPI、環(huán)境指數(shù)難點(diǎn):PB級(jí)社會(huì)媒體數(shù)據(jù),百億級(jí)日志數(shù)據(jù),結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)關(guān)聯(lián),歷史與流式數(shù)據(jù)并存犯罪線索挖掘需求:發(fā)現(xiàn)線索,如罪犯行為軌跡難點(diǎn):PB級(jí)日志數(shù)據(jù)、EB級(jí)監(jiān)控?cái)?shù)據(jù)中發(fā)現(xiàn)嫌疑人及其行為模式猶如大海撈針問題與挑戰(zhàn):數(shù)據(jù)規(guī)模巨大、模態(tài)多樣、關(guān)聯(lián)復(fù)雜、真?zhèn)坞y辨

現(xiàn)有數(shù)據(jù)處理方法感知度量難、特征融合難、模式挖掘難13大數(shù)據(jù)的現(xiàn)實(shí)需求:預(yù)測(cè)未來聯(lián)合國(guó)“全球脈動(dòng)”(GlobalPulse):利用網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測(cè)失業(yè)率與疾病爆發(fā)等現(xiàn)象,利用數(shù)字化的早期預(yù)警信號(hào)來提前指導(dǎo)援助項(xiàng)目。問題與挑戰(zhàn):數(shù)據(jù)交互性強(qiáng)、實(shí)時(shí)性強(qiáng)、動(dòng)態(tài)演變,導(dǎo)致傳統(tǒng)數(shù)據(jù)計(jì)算方法:

數(shù)據(jù)生命周期的割裂、時(shí)效性與準(zhǔn)確性難以兼顧、演變趨勢(shì)難以預(yù)測(cè)基于Twitter數(shù)據(jù)的選舉結(jié)果預(yù)測(cè):通過對(duì)Twitter等網(wǎng)上公開數(shù)據(jù)的實(shí)時(shí)感知、動(dòng)態(tài)獲取與綜合分析,結(jié)合仿真調(diào)控,預(yù)測(cè)大選結(jié)果。預(yù)測(cè)未來:全量數(shù)據(jù)、流式數(shù)據(jù)、離線數(shù)據(jù)的關(guān)聯(lián)分析,態(tài)勢(shì)與效應(yīng)的判定與調(diào)控,揭示事物發(fā)展的演變規(guī)律,進(jìn)而對(duì)事物發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)14美國(guó)的大數(shù)據(jù)規(guī)劃-大數(shù)據(jù)上升為國(guó)家意志2012年3月29日,美國(guó)聯(lián)邦政府整合6個(gè)部門宣布2億美元的“BigDataResearchandDevelopmentInitiative”促進(jìn)采集、存儲(chǔ)、維護(hù)、管理、分析和共享海量數(shù)據(jù)的核心技術(shù);利用以上技術(shù)來加速科學(xué)與工程發(fā)現(xiàn)的步伐,強(qiáng)化國(guó)家安全,改變教育和學(xué)習(xí);培養(yǎng)開發(fā)和使用大數(shù)據(jù)技術(shù)的人力資源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA15歐盟的大數(shù)據(jù)規(guī)劃-基礎(chǔ)設(shè)施是先導(dǎo)Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大數(shù)據(jù)的數(shù)據(jù)信息化基礎(chǔ)設(shè)施(E-Infrastructure)是優(yōu)先資助領(lǐng)域GRDI2020-GlobalResearchDataInfrastructures建立針對(duì)科研大數(shù)據(jù)的基礎(chǔ)設(shè)施,實(shí)現(xiàn)數(shù)據(jù)管理系統(tǒng)、數(shù)字?jǐn)?shù)據(jù)圖書館、研究圖書館、數(shù)據(jù)工具和研究團(tuán)體的整合FP7Call8IntelligentInformationManagement-BigData預(yù)算5千萬歐元,2012-1-17截止目標(biāo):提升發(fā)現(xiàn)、分析、開采、使用大數(shù)據(jù)及其基礎(chǔ)設(shè)施的能力通過對(duì)大數(shù)據(jù)收集與分析創(chuàng)造更大價(jià)值探索基于大規(guī)?;ヂ?lián)數(shù)據(jù)資源與專用基礎(chǔ)設(shè)施的新型科學(xué)研究面向大數(shù)據(jù)的人力資源開發(fā)16目前大數(shù)據(jù)的規(guī)模IDC公司發(fā)布的數(shù)字宇宙研究報(bào)告稱:全球信息總量每?jī)赡昃蜁?huì)增長(zhǎng)一倍,2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(1021)。IDC認(rèn)為,到下一個(gè)十年(2020年),全球所有IT部門擁有服務(wù)器的總量將會(huì)比現(xiàn)在多出10倍,所管理的數(shù)據(jù)將會(huì)比現(xiàn)在多出50倍。預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量2011年企業(yè)創(chuàng)造、采集、管理和儲(chǔ)存信息的成本已經(jīng)下降到2005年的1/6,而同期企業(yè)關(guān)于數(shù)據(jù)的總投資自2005年以來卻反而上升了50%。數(shù)據(jù)成本的下降助推了數(shù)據(jù)量的增長(zhǎng),而新的數(shù)據(jù)源和數(shù)據(jù)采集技術(shù)的出現(xiàn)則大大增加了未來數(shù)據(jù)的類型,數(shù)據(jù)類型的增加導(dǎo)致現(xiàn)有數(shù)據(jù)空間維度增加,極大地增加了未來大數(shù)據(jù)的復(fù)雜度。17目前大數(shù)據(jù)規(guī)模─示例天文觀測(cè)數(shù)據(jù):SloanDigitalSkySurvey:2000年部署幾周收集的數(shù)據(jù)比歷史上收集的數(shù)據(jù)還多每晚收集200G的數(shù)據(jù),已收集了140TB=1.4x105GB的數(shù)據(jù)LargeSynopticSurveyTelescope:2016年完成部署每5天可收集105GB的數(shù)據(jù)物理實(shí)驗(yàn)數(shù)據(jù):LargeHadronCollider:2010年一年產(chǎn)生13PB=1.3x107GB數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù):Facebook:用戶超7億,每月上傳10億照片,每天生成3x105GB日志數(shù)據(jù)淘寶:有3.7億會(huì)員,在線商品8.8億,每天交易數(shù)千萬,產(chǎn)生2x104GB數(shù)據(jù)IBM估計(jì):全球每天生成2.5EB=2.5x109GB數(shù)據(jù),90%的已有數(shù)據(jù)是過去兩年生成的Cisco預(yù)測(cè):到2013年,互聯(lián)網(wǎng)上的數(shù)據(jù)將達(dá)到667EB=6.67x1011GB18大數(shù)據(jù)總量增長(zhǎng)態(tài)勢(shì)19收集的數(shù)據(jù)還沒有實(shí)現(xiàn)高度共享和深度利用

2.超大規(guī)模:為保證可靠性,需要存儲(chǔ)數(shù)據(jù)副本,實(shí)際存儲(chǔ)的數(shù)據(jù)量數(shù)倍于凈數(shù)據(jù)量

3.時(shí)空屬性:包含時(shí)間與位置信息

4.模糊高維:數(shù)據(jù)未必精確和完整:傳感器誤差,網(wǎng)絡(luò)中斷……

5.數(shù)據(jù)維度高:例如一次體檢可以得到數(shù)百項(xiàng)生命體征數(shù)據(jù)大數(shù)據(jù)特點(diǎn)20大數(shù)據(jù)與常規(guī)數(shù)據(jù)的對(duì)比常規(guī)數(shù)據(jù)范圍廣模態(tài)多增長(zhǎng)快關(guān)聯(lián)繁數(shù)據(jù)規(guī)模較小模態(tài)屬性受限增長(zhǎng)速度較慢關(guān)聯(lián)相對(duì)簡(jiǎn)單稠密與稀疏共存冗余與缺失并在動(dòng)態(tài)與靜態(tài)互現(xiàn)顯式與隱藏均有特性問題描述與存儲(chǔ)的挑戰(zhàn)分析與理解的挑戰(zhàn)挖掘與預(yù)測(cè)的挑戰(zhàn)挑戰(zhàn)大數(shù)據(jù)應(yīng)用目標(biāo)相對(duì)比較明確數(shù)據(jù)結(jié)構(gòu)相對(duì)比較簡(jiǎn)單時(shí)序長(zhǎng)持續(xù)時(shí)間較短處理方法通常為模型化、參數(shù)化21學(xué)術(shù)界對(duì)大數(shù)據(jù)的關(guān)注2012年1月,NaturePhysics上出版??癈omplexity”特別指出大數(shù)據(jù)為科學(xué)研究,特別是復(fù)雜性科學(xué)的研究提供了史無前例的機(jī)遇2008年,Nature出版??癇igData”從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟(jì)學(xué)、超級(jí)計(jì)算、環(huán)境科學(xué)、生物醫(yī)藥等多個(gè)方面介紹了大數(shù)據(jù)所帶來的技術(shù)挑戰(zhàn)2011年,Science刊登??癉ealingwithData”討論了數(shù)據(jù)洪流(Datadeluge)所帶來的挑戰(zhàn),也特別指出倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機(jī)會(huì)發(fā)揮科學(xué)技術(shù)對(duì)社會(huì)發(fā)展的巨大推動(dòng)作用2012年4月,歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會(huì)會(huì)刊ERCIMNews上出版??癇igData”討論了大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新數(shù)據(jù)庫技術(shù)等問題,并介紹了歐洲科研機(jī)構(gòu)開展的研究活動(dòng)和取得的創(chuàng)新性進(jìn)展22大數(shù)據(jù)會(huì)議/WorkshopBDA:InternationalConferenceonBigDataAnalyticshttp://cs.du.ac.in/BDA2012/bda12.html2012:12月24-26日,印度;第1屆BigMine:WorkshoponBigData,StreamsandHeterogeneousSourceMining:Algorithms,Systems,ProgrammingModelsandApplications/2012:與SIGKDD合辦;8月12日,北京;第1屆BigDataEurope系列會(huì)議/展示大數(shù)據(jù)實(shí)踐與方案;加強(qiáng)業(yè)界人員交流2012:

Zurich,Vienna,Paris,Frankfurt,London2013:Stockholm,Warsaw,IstanbulBigDataAnalytics2012http://www.whitehallmedia.co.uk/bda/6月20日,倫敦學(xué)術(shù)會(huì)議工業(yè)會(huì)議23二、清華大學(xué)大數(shù)據(jù)研究與實(shí)踐25關(guān)鍵問題及技術(shù)大數(shù)據(jù)的獲取、表示及傳輸大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)處理大數(shù)據(jù)查詢/分析26關(guān)鍵問題及技術(shù)部分典型的大數(shù)據(jù)技術(shù)實(shí)現(xiàn)MLBaseGraphLibHDFS/GFS/MooseFSHadoop/MRSparkDryadPregel/Hama……HiveSharkDryadLINQ大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)處理大數(shù)據(jù)查詢/分析大數(shù)據(jù)表示/壓縮非確定性線性系統(tǒng)/稀疏編碼……271.大數(shù)據(jù)存儲(chǔ)28大數(shù)據(jù)存儲(chǔ)要求高可用

–數(shù)據(jù)能夠隨時(shí)訪問,不丟失成本低

–對(duì)磁盤容量要求低性能

–訪問速度要快低開銷

–對(duì)CPU,網(wǎng)絡(luò)資源占用少優(yōu)先級(jí)由于I/O的速度遠(yuǎn)低于CPU和網(wǎng)絡(luò),優(yōu)先級(jí)應(yīng)為高可用>成本低>性能>低開銷高可用和低成本是兩個(gè)主要目標(biāo)29大數(shù)據(jù)存儲(chǔ)如何在保證數(shù)據(jù)高可用性的同時(shí),又最小化存儲(chǔ)容量需求這個(gè)問題可以簡(jiǎn)單抽象為:給定F個(gè)文件,存儲(chǔ)在P臺(tái)機(jī)器上,每臺(tái)機(jī)器有M塊硬盤,每塊硬盤的容量為C字節(jié),如何存儲(chǔ)這些文件,使得在2塊硬盤或兩臺(tái)機(jī)器故障的情況下,系統(tǒng)仍然能夠恢復(fù)出所有F個(gè)文件的內(nèi)容,并使得所占用的存儲(chǔ)容量最小30(1).清華云存儲(chǔ):MeePo31MeePo能做什么公共社區(qū)個(gè)人空間社區(qū)空間個(gè)人空間:每個(gè)注冊(cè)用戶享有20GB的個(gè)人空間,可以離線使用社區(qū)空間:簡(jiǎn)單申請(qǐng)可以建立社區(qū),擁有1TB的初始社區(qū)空間公共社區(qū):系統(tǒng)自建的社區(qū),向全部用戶開放,包含課程視頻、學(xué)習(xí)軟件、影音資料等實(shí)現(xiàn)文件數(shù)據(jù)的存儲(chǔ)和共享,將網(wǎng)絡(luò)資源與本地?zé)o縫集成根據(jù)不同的需求采取不同的緩存策略,增強(qiáng)用戶體驗(yàn)32MeePo客戶端完全本地化的使用體驗(yàn)MeePo客戶端個(gè)人空間:在線訪問、同步、備份社區(qū)空間:帶權(quán)限控制的共享公共空間:數(shù)據(jù)大集市MeePo客戶端基于關(guān)系的共享MeePo移動(dòng)客戶端MeePo

Website下載客戶端查看、上傳、下載創(chuàng)建社區(qū)加入社區(qū)消息發(fā)布MeePo:在線訪問在MeePo磁盤中播放視頻38MeePo:在線訪問在MeePo磁盤中編輯文檔39MeePo不只是存儲(chǔ)!從存儲(chǔ)平臺(tái)到資源平臺(tái)自主管理使用方便良性循環(huán)41實(shí)驗(yàn)室、班級(jí)建設(shè)不只是存儲(chǔ)平臺(tái)!FTP服務(wù)器群發(fā)E-Mail使用方便容量大長(zhǎng)期存儲(chǔ)42課程教學(xué)不只是存儲(chǔ)平臺(tái)!網(wǎng)絡(luò)學(xué)堂使用方便容量大交互性強(qiáng)43學(xué)生社團(tuán)不只是存儲(chǔ)平臺(tái)!使用方便容量大長(zhǎng)期存儲(chǔ)FTP服務(wù)器群發(fā)E-Mail44清華跳水隊(duì)不只是存儲(chǔ)平臺(tái)!訓(xùn)練視頻動(dòng)作分析參考資料45信息發(fā)布匯總不只是存儲(chǔ)平臺(tái)!講座資料活動(dòng)資料信息匯總?cè)喊l(fā)E-Mail46就業(yè)指導(dǎo)中心每天發(fā)布招聘信息發(fā)布各種文檔表格公司介紹和宣講就業(yè)指導(dǎo)學(xué)習(xí)材料不只是存儲(chǔ)平臺(tái)!網(wǎng)站發(fā)布查看方便節(jié)約資源易于管理群發(fā)E-Mail47從存儲(chǔ)平臺(tái)到社交平臺(tái)人與人的聯(lián)系共同的關(guān)注共同的愛好共同的背景共同的理想共同的性格……找到人與人之間的聯(lián)系加深人與人之間已有的聯(lián)系建立人與人之間更多的聯(lián)系找到有聯(lián)系的人與人48從存儲(chǔ)平臺(tái)到社交平臺(tái)數(shù)據(jù)支撐的社交網(wǎng)絡(luò)49從存儲(chǔ)平臺(tái)到支撐平臺(tái)!社團(tuán)建設(shè)班級(jí)管理課程教學(xué)娛樂分享辦公支撐自主學(xué)習(xí)實(shí)驗(yàn)室管理資源匯總學(xué)生科研學(xué)生學(xué)生學(xué)工行政教學(xué)教學(xué)50一個(gè)完整的MeePo系統(tǒng)MeePo系統(tǒng)架構(gòu)存儲(chǔ)服務(wù)器存儲(chǔ)服務(wù)器存儲(chǔ)服務(wù)器存儲(chǔ)服務(wù)器MeePo云存儲(chǔ)系統(tǒng)平臺(tái)分布式存儲(chǔ)管理(MeePoFS)數(shù)據(jù)存儲(chǔ)與共享服務(wù)(MeePoLM)校園網(wǎng)絡(luò)Windows客戶端Linux/Mac客戶端Web客戶端52MeePo使用方式互聯(lián)網(wǎng)絡(luò)個(gè)人用戶個(gè)人用戶個(gè)人用戶社區(qū)MeePo存儲(chǔ)服務(wù)器客戶端網(wǎng)站53MeePo客戶端與資源管理器無縫集成共享空間個(gè)人空間公共空間54MeePo用戶網(wǎng)站下載虛擬磁盤工具查看社區(qū)空間數(shù)據(jù)申請(qǐng)創(chuàng)建社區(qū)空間申請(qǐng)加入社區(qū)空間查看個(gè)人空間數(shù)據(jù)55MeePo管理后臺(tái)常用功能入口統(tǒng)計(jì)信息后臺(tái)入口56MeePo監(jiān)控后臺(tái)服務(wù)狀態(tài)監(jiān)控存儲(chǔ)容量監(jiān)控介質(zhì)狀態(tài)監(jiān)控網(wǎng)絡(luò)流量監(jiān)控存儲(chǔ)平臺(tái)監(jiān)控57MeePo與其他產(chǎn)品的比較比較RayFileQQ網(wǎng)盤DropBox華為網(wǎng)盤云應(yīng)用數(shù)據(jù)網(wǎng)頁磁盤本地虛擬磁盤點(diǎn)對(duì)點(diǎn)共享數(shù)據(jù)開放式共享數(shù)據(jù)特定群體共享存儲(chǔ)個(gè)人數(shù)據(jù)備份個(gè)人數(shù)據(jù)同步……云存儲(chǔ)系統(tǒng)同步工具126網(wǎng)盤云諾網(wǎng)盤金山快盤115網(wǎng)盤……59比較RayFileQQ網(wǎng)盤DropBox華為網(wǎng)盤……126網(wǎng)盤云諾網(wǎng)盤金山快盤115網(wǎng)盤……云應(yīng)用數(shù)據(jù)網(wǎng)頁磁盤本地虛擬磁盤點(diǎn)對(duì)點(diǎn)共享數(shù)據(jù)開放式共享數(shù)據(jù)特定群體共享存儲(chǔ)個(gè)人數(shù)據(jù)備份個(gè)人數(shù)據(jù)同步云存儲(chǔ)系統(tǒng)同步工具60MeePo在行動(dòng):清華大學(xué)20032–注冊(cè)用戶數(shù)511–注冊(cè)社區(qū)數(shù)89.88TB–數(shù)據(jù)總量300TB–系統(tǒng)存儲(chǔ)容量5-10MB/s–數(shù)據(jù)傳輸速度6TB–日均出口流量500GB–日均入口流量2600+–同時(shí)在線人數(shù)峰值1082–每秒請(qǐng)求數(shù)峰值社區(qū)類型比例@清華大學(xué)一份數(shù)據(jù)被共享了幾次?共享率@清華大學(xué)出入流量比例:12:1

理論公式:

12倍的對(duì)外流量12份的內(nèi)部存儲(chǔ)12次的復(fù)制粘貼(2).刪冗處理

64數(shù)據(jù)無處不在,但許多數(shù)據(jù)是重復(fù)的或者沒有價(jià)值,未來的任務(wù)主要不是獲取越來來越多的數(shù)據(jù),而是數(shù)據(jù)的去冗分類、去粗取精,從數(shù)據(jù)中挖掘知識(shí)。數(shù)據(jù)量大到一定程度,數(shù)據(jù)壓縮就必不可少。去重、壓縮和歸檔技術(shù)是大數(shù)據(jù)處理技術(shù)中不可或缺的組成部分?!按髷?shù)據(jù)”有簡(jiǎn)單和復(fù)雜之分。個(gè)體間聯(lián)系很少,只是個(gè)體數(shù)量龐大的“大數(shù)據(jù)”問題并不難解決;組合爆炸的困難產(chǎn)生于個(gè)體之間的聯(lián)系,社會(huì)網(wǎng)絡(luò)的復(fù)雜性來源于社會(huì)聯(lián)系?!靶∈澜纭币矔?huì)產(chǎn)生“大數(shù)據(jù)”。幾百年來,科學(xué)研究一直在做“從薄到厚”的事情,把“小數(shù)據(jù)”變成“大數(shù)據(jù)”,現(xiàn)在要做的事情是“從厚到薄”,要把大數(shù)據(jù)變成小數(shù)據(jù)。變“大數(shù)據(jù)”為“小數(shù)據(jù)”65SecondFridayFullBackupBCDEFLGHABCDEFGHIJFridayFullBackupABCDAEFGMonIncrementalABHTuesIncrementalCBIThursIncrementalACKWedsIncrementalEGJBackup Logical Estimated Physical Data Reduction周一的增量備份

300GB 100GB實(shí)際7–10x周二的增量備份

300GB 100GB實(shí)際7–10xKL周三的增量備份

300GB 100GB實(shí)際7–10x周四的增量備份

300GB 100GB實(shí)際7–10x第二個(gè)周五的全備份

800GB 100GB實(shí)際50–60xTOTAL 2800GB 1200GB周五的全備份

800GB 700GB實(shí)際2–4x

高效主存儲(chǔ)刪冗系統(tǒng)構(gòu)建方法什么是刪冗(DataDeduplication):一種數(shù)據(jù)精減方法(DataReduction),將重復(fù)數(shù)據(jù)以指針代替66云存儲(chǔ)領(lǐng)域:多個(gè)用戶共享同一存儲(chǔ),重復(fù)數(shù)據(jù)出現(xiàn)的概率極大提高。高性能計(jì)算領(lǐng)域:每輪計(jì)算產(chǎn)生的數(shù)據(jù)量極大,且有很大相似性。網(wǎng)絡(luò)社區(qū),網(wǎng)絡(luò)游戲等Internet服務(wù)領(lǐng)域,數(shù)據(jù)重復(fù)出現(xiàn)的概率極大網(wǎng)絡(luò)郵件系統(tǒng):相同的郵件數(shù)量非常大,比如垃圾郵件和頻繁轉(zhuǎn)發(fā)的郵件等。數(shù)據(jù)庫應(yīng)用領(lǐng)域:許多用戶數(shù)據(jù)和用戶信息均可能有相似之處?!赡艿膽?yīng)用場(chǎng)景67學(xué)術(shù)界近年的情況:FAST

2011DedupSession存儲(chǔ)界近年的收購集中在刪冗領(lǐng)域:2009,EMC收購DataDomain,21億$2010,Dell收購Ocarina,傳言1.5億$2010,IBM收購Storwize,傳言1.4億$潛在的收購:Netapp/EMC/Oracle收購Permabit?存儲(chǔ)刪冗成為研究熱點(diǎn)68主存儲(chǔ)目標(biāo):高性能,面向在線動(dòng)態(tài)增長(zhǎng)的數(shù)據(jù)延緩主存儲(chǔ)開銷減少主存儲(chǔ)空間消耗提高主存儲(chǔ)性能Data備份存儲(chǔ)目標(biāo):數(shù)據(jù)保護(hù)減少備份媒體的開銷減小備份窗口減小恢復(fù)時(shí)間目標(biāo):刪冗主存儲(chǔ),具有高性能,擴(kuò)展性,可靠性DataData$$$$$$$$$$$$$兩種刪冗方案:

備份存儲(chǔ)刪冗和主存儲(chǔ)器刪冗69主存儲(chǔ)刪冗系統(tǒng)好處延緩主存儲(chǔ)增長(zhǎng)的速度節(jié)省存儲(chǔ)空間,降低存儲(chǔ)成本提高主存儲(chǔ)系統(tǒng)性能減少備份數(shù)據(jù)量,增強(qiáng)通過網(wǎng)絡(luò)異地備份數(shù)據(jù)的能力主存儲(chǔ)刪冗難點(diǎn):主存儲(chǔ)性能要求高寫數(shù)據(jù)時(shí)刪冗過程計(jì)算開銷大數(shù)據(jù)劃分造成元數(shù)據(jù)量激增,元數(shù)據(jù)訪問成為瓶頸。高效主存儲(chǔ)刪冗系統(tǒng)構(gòu)建方法70高效主存儲(chǔ)刪冗系統(tǒng)構(gòu)建方法主要的創(chuàng)新:提出了基于相似數(shù)據(jù)段元數(shù)據(jù)索引組織方法。使用位置敏感哈希函數(shù)快速匹配相似數(shù)據(jù)段。以重復(fù)數(shù)據(jù)判斷率的少許下降換取性能提升71基于LSH的相似文件快速識(shí)別相似文件映射到同一哈希桶概率高基于p-stable位置敏感哈希函數(shù)讀操作處理流程查詢文件ID、塊號(hào)、數(shù)據(jù)段號(hào)讀取對(duì)應(yīng)數(shù)據(jù)段元數(shù)據(jù)集合根據(jù)數(shù)據(jù)塊元數(shù)據(jù)記錄存儲(chǔ)地址讀取數(shù)據(jù)塊內(nèi)容到緩存區(qū)返回緩存區(qū)數(shù)據(jù)給應(yīng)用寫操作處理流程工作原理72提出了基于位置敏感哈希的元數(shù)據(jù)快速匹配和索引構(gòu)建方法可用于創(chuàng)建通用設(shè)備,在通用情況下提高了元數(shù)據(jù)查詢和更新性能對(duì)于不同元數(shù)據(jù)存儲(chǔ)介質(zhì)(HDD或者SSD)都有效可調(diào)參數(shù)適應(yīng)不同類型文件存儲(chǔ)可控制系統(tǒng)緩存開銷擴(kuò)展性非常好,適用于創(chuàng)建集群化的分級(jí)刪冗存儲(chǔ)設(shè)備,也非常適用于創(chuàng)建云存儲(chǔ)設(shè)備應(yīng)用于發(fā)改委人大附中基礎(chǔ)教育試點(diǎn)項(xiàng)目中,賣給同有公司200萬樣機(jī)已發(fā)表文章2篇,申請(qǐng)專利1項(xiàng)高效主存儲(chǔ)刪冗系統(tǒng)構(gòu)建方法73主存儲(chǔ)刪冗系統(tǒng)PDFS關(guān)鍵問題:數(shù)據(jù)如何有效組織傳統(tǒng)思路:在一個(gè)大集合中找一個(gè)數(shù)據(jù),如何能盡快確定地找到PDFS思路:在一個(gè)大集合中找一個(gè)數(shù)據(jù),是否能僅在其某個(gè)子集合中查找,找到則進(jìn)行數(shù)據(jù)精簡(jiǎn),否則立即放棄。通過以數(shù)據(jù)壓縮率的些許降低,獲得了與普通主存儲(chǔ)設(shè)備幾乎一樣的讀寫性能74現(xiàn)有大數(shù)據(jù)存儲(chǔ)技術(shù)分布式文件系統(tǒng)分布式RAID冗余刪除系統(tǒng)75分布式文件系統(tǒng)GFS,HDFS,MooseFS等使用多副本技術(shù)提高數(shù)據(jù)的可用性和性能當(dāng)一個(gè)副本失效,系統(tǒng)自動(dòng)進(jìn)行數(shù)據(jù)的重分布,盡快恢復(fù)成3個(gè)副本多副本不僅帶來可用性上的好處,也帶來了性能上的好處缺點(diǎn):需要3X的存儲(chǔ)容量,存儲(chǔ)效率低,成本高76分布式RAIDGarthGibson等提出,并在Hadoop中實(shí)現(xiàn)了原型將RAID的思想擴(kuò)展到網(wǎng)絡(luò)連接的服務(wù)器上,分布式RAID6的效果是在典型負(fù)載下,以1.3X左右的容量獲得容2個(gè)錯(cuò)的能力提出異步編碼,即對(duì)新加入的文件,不馬上進(jìn)行RAID編碼,而是先進(jìn)行多副本拷貝缺點(diǎn):對(duì)常見的單點(diǎn)故障,數(shù)據(jù)恢復(fù)開銷大77現(xiàn)有的存儲(chǔ)冗余刪除技術(shù)在文件系統(tǒng)中存在廣泛的冗余多用戶存儲(chǔ)的相同文件,同一文件的不同版本,同一類文件的相近的文件頭等等冗余刪除技術(shù)尋找文件內(nèi)、文件之間的冗余數(shù)據(jù)塊對(duì)同一塊數(shù)據(jù),只保存一份新加入的文件,分塊后通過hash函數(shù)查找是否已保存有相同內(nèi)容的數(shù)據(jù)塊變長(zhǎng)的數(shù)據(jù)塊比定長(zhǎng)數(shù)據(jù)塊能夠刪除更多的冗余數(shù)據(jù)根據(jù)使用場(chǎng)景不同,分為用于備份的刪冗存儲(chǔ)系統(tǒng),如Venti,DataDomain等用于主存儲(chǔ)系統(tǒng)的刪冗系統(tǒng),可以在典型負(fù)載下,降低存儲(chǔ)需求30-40%缺點(diǎn):未考慮數(shù)據(jù)的可靠性,多個(gè)文件依賴同一數(shù)據(jù)塊,如果該數(shù)據(jù)塊損壞,多個(gè)文件都損壞78大數(shù)據(jù)的高效可靠存儲(chǔ)解決方法分布式RAID冗余刪除分布式RAID和冗余刪除的簡(jiǎn)單組合不能解決問題,兩個(gè)技術(shù)在很多設(shè)計(jì)決策方面有沖突在塊大小的選取塊長(zhǎng)是否可變編碼時(shí)機(jī)編碼范圍數(shù)據(jù)塊的擺放系統(tǒng)化地將數(shù)據(jù)可用性和冗余刪除技術(shù)統(tǒng)一考慮容2個(gè)錯(cuò)容量需求僅為0.9X高可用性+冗余刪除?792.大數(shù)據(jù)處理平臺(tái)

80關(guān)系數(shù)據(jù)庫曾經(jīng)是萬能的關(guān)系數(shù)據(jù)模型醫(yī)院信息管理系統(tǒng)(HIS)臨床信息系統(tǒng)(CIS)醫(yī)學(xué)影像信息系統(tǒng)(PACS)ICU監(jiān)護(hù)系統(tǒng)電子病歷遠(yuǎn)程健康監(jiān)護(hù)平臺(tái)用藥管理系統(tǒng)虛擬醫(yī)院81關(guān)系數(shù)據(jù)模型的優(yōu)點(diǎn)具有強(qiáng)大的知識(shí)表達(dá)能力能夠方便地為各種對(duì)象以及對(duì)象之間的聯(lián)系設(shè)計(jì)邏輯模型關(guān)系代數(shù)理論十分完備,并且易于實(shí)現(xiàn)支持結(jié)構(gòu)化查詢語言,讓用戶無需了解數(shù)據(jù)庫的實(shí)現(xiàn)82傳統(tǒng)關(guān)系數(shù)據(jù)庫的特點(diǎn)重視關(guān)系數(shù)據(jù)模型功能的完整實(shí)現(xiàn)原子性、一致性、分離性和持久性(ACID)優(yōu)化并發(fā)訪問性能不重視設(shè)計(jì)容錯(cuò)的并行化執(zhí)行引擎對(duì)“一次寫多次讀”的數(shù)據(jù)進(jìn)行存儲(chǔ)結(jié)構(gòu)優(yōu)化數(shù)據(jù)規(guī)模增大導(dǎo)致查詢執(zhí)行性能差的問題83大數(shù)據(jù)時(shí)代關(guān)系數(shù)據(jù)庫的困境實(shí)現(xiàn)關(guān)系數(shù)據(jù)模型理論的全部?jī)?nèi)容,同時(shí)對(duì)所有查詢做到高效執(zhí)行,幾乎是不可能的同樣的查詢,多種執(zhí)行方式,如何優(yōu)化執(zhí)行?數(shù)據(jù)與查詢?cè)谧兓?,不存在普適的物理存儲(chǔ)結(jié)構(gòu)和查詢優(yōu)化方法數(shù)據(jù)規(guī)模增大,原來高效的算法會(huì)變得低效實(shí)現(xiàn)事務(wù)處理要求的原子性、一致性、分離性和持久性(ACID)的開銷巨大84能夠并行化不意味著高可擴(kuò)展性復(fù)雜分析查詢結(jié)果1000小時(shí)復(fù)雜分析查詢結(jié)果復(fù)雜分析查詢結(jié)果1小時(shí)?1個(gè)節(jié)點(diǎn)100小時(shí)10個(gè)節(jié)點(diǎn)10小時(shí)?100個(gè)節(jié)點(diǎn)復(fù)雜分析查詢結(jié)果1000個(gè)節(jié)點(diǎn)節(jié)點(diǎn)失效、網(wǎng)絡(luò)中斷將成為常態(tài)!執(zhí)行過程中出錯(cuò),傳統(tǒng)的并行數(shù)據(jù)庫將重新執(zhí)行整條查詢!可能永遠(yuǎn)也無法完成查詢85大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)分類結(jié)構(gòu)化存儲(chǔ)(如關(guān)系型數(shù)據(jù)庫與數(shù)據(jù)倉庫):優(yōu)點(diǎn):數(shù)據(jù)結(jié)構(gòu)良好、功能完備、速度快缺點(diǎn):靈活性差、不易擴(kuò)展、預(yù)處理開銷大日志式存儲(chǔ)(如HadoopHive):優(yōu)點(diǎn):無需預(yù)處理、靈活性強(qiáng)、易于擴(kuò)展缺點(diǎn):功能較弱,需用戶介入以提供高級(jí)查詢功能半結(jié)構(gòu)化存儲(chǔ)(如BigTable、Key/Value存儲(chǔ)):優(yōu)點(diǎn):速度快,易于擴(kuò)展,預(yù)處理開銷適中缺點(diǎn):功能相對(duì)較弱,介于前兩者之間86例一·用電信息的大數(shù)據(jù)處理87用電信息的典型業(yè)務(wù)應(yīng)用場(chǎng)景業(yè)務(wù)應(yīng)用場(chǎng)景低壓數(shù)據(jù)完整率統(tǒng)計(jì)終端通訊流量統(tǒng)計(jì)低壓日電量計(jì)算用戶負(fù)荷數(shù)據(jù)查詢測(cè)試的目的比較傳統(tǒng)Oracle數(shù)據(jù)庫以及新型的大數(shù)據(jù)處理方法的性能88用電信息的大數(shù)據(jù)處理特征計(jì)算業(yè)務(wù)數(shù)據(jù)量規(guī)模十分龐大,并且隨著數(shù)據(jù)獲取精度的提高,數(shù)據(jù)規(guī)模增長(zhǎng)非常迅速計(jì)算任務(wù)會(huì)涉及到不同的計(jì)算場(chǎng)景,即構(gòu)造不同的應(yīng)用來獲取不同的數(shù)據(jù)進(jìn)行計(jì)算計(jì)算任務(wù)會(huì)從多個(gè)數(shù)據(jù)源獲得數(shù)據(jù),并進(jìn)行聯(lián)合分析,做數(shù)據(jù)的交叉89新的并行計(jì)算設(shè)計(jì)范式:MapReduceCarolBobCarolAliceAliceAliceBobAliceBobCarolBobBob文件

2文件

1文件

4文件

3Map節(jié)點(diǎn)Map節(jié)點(diǎn)Map節(jié)點(diǎn)Map節(jié)點(diǎn)(Alice,4)(Bob,5)(Carol,3)(Carol,1)(Carol,1)(Bob,1)(Alice,1)(Alice,1)(Alice,1)(Bob,1)(Alice,1)(Bob,1)(Carol,1)(Bob,1)(Bob,1)中間結(jié)果寫入本地磁盤Reduce節(jié)點(diǎn)Reduce節(jié)點(diǎn)Reduce節(jié)點(diǎn)通過網(wǎng)絡(luò)遠(yuǎn)程讀取中間結(jié)果數(shù)據(jù)混洗/歸并90MapReduce+GFS與并行數(shù)據(jù)庫的比較水平擴(kuò)展并行數(shù)據(jù)庫查詢速度快(100節(jié)點(diǎn)以內(nèi))缺點(diǎn):可擴(kuò)展性差容錯(cuò)性差價(jià)格昂貴MapReduce+GFS高可擴(kuò)展開源免費(fèi)缺點(diǎn):進(jìn)行復(fù)雜查詢時(shí),需要專門編寫代碼垂直擴(kuò)展網(wǎng)絡(luò)存儲(chǔ)結(jié)構(gòu)數(shù)據(jù)處理模式91測(cè)試環(huán)境本次測(cè)試環(huán)境由6臺(tái)機(jī)器構(gòu)成,采用Hadoop架構(gòu),其中1臺(tái)作為Master,另外5臺(tái)作為Salve或RegionServer,測(cè)試通過在Master節(jié)點(diǎn)上執(zhí)行Shell/HQL腳本以及即時(shí)查詢來完成。計(jì)算節(jié)點(diǎn)CPU:XeonE748071.87G4核8線程共計(jì)2顆操作系統(tǒng):CentOS網(wǎng)卡:1000M網(wǎng)卡內(nèi)存:32GOracle測(cè)試節(jié)點(diǎn)配置情況兩臺(tái)小型機(jī)上HP安騰小型機(jī),16路,64G內(nèi)存,硬件造價(jià)在300萬左右,通過OracleRAC的方式承擔(dān)數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算的任務(wù)92測(cè)試數(shù)據(jù)記錄數(shù)目某省3個(gè)月用電數(shù)據(jù)任務(wù)表:456958條低壓低壓測(cè)量點(diǎn)表:6100615條低壓表記表:3400231條低壓用戶表:5716317條低壓數(shù)據(jù)主表:3653409條低壓電量數(shù)據(jù)表:464562614條終端資產(chǎn)表:890620條934類場(chǎng)景測(cè)試結(jié)果對(duì)比測(cè)試中所使用的4個(gè)場(chǎng)景,性能平均提升9.8倍94例二·社保系統(tǒng)審計(jì)大數(shù)據(jù)處理審計(jì)署全國(guó)社會(huì)保障數(shù)據(jù)采集情況

為了開展針對(duì)我國(guó)社會(huì)保障的摸底性審計(jì)工作,審計(jì)署于2012年開展了全國(guó)社會(huì)保障資金審計(jì)。

對(duì)全國(guó)各省、市、縣,13種資金類別的歷年社會(huì)保障數(shù)據(jù)開展了數(shù)據(jù)采集工作。數(shù)據(jù)細(xì)化到每個(gè)參保人、每個(gè)參保企業(yè)各月的繳費(fèi)及支付信息。

最終獲得近100T的社會(huì)保障數(shù)據(jù)。96

由于我國(guó)社會(huì)保障信息化建設(shè)呈現(xiàn)非常顯著的“碎片化”特點(diǎn),即不同地區(qū)、不同資金甚至不同年度,所采用的信息系統(tǒng)均不相同。

導(dǎo)致本次國(guó)家審計(jì)的數(shù)據(jù)采集工作涉及到幾百種異構(gòu)信息系統(tǒng),多數(shù)信息系統(tǒng)包含上百張表、上千數(shù)據(jù)項(xiàng)。涉及Oracle、DB2、SQLServer、Sybase、MySQL、Access、FoxPro等幾乎全部主流DBMS系統(tǒng),也不乏Excel、Txt等利用文件管理的情況,部分地區(qū)甚至仍處于手工紙質(zhì)管理階段。社會(huì)保障數(shù)據(jù)的“碎片化”現(xiàn)狀97劃分方式

數(shù)據(jù)存儲(chǔ)方式

險(xiǎn)種的差異

統(tǒng)籌地域與行政區(qū)劃的異同

社保的業(yè)務(wù)流程集中存儲(chǔ)分散存儲(chǔ)混合征繳管理發(fā)放社會(huì)保障數(shù)據(jù)的“碎片化”現(xiàn)狀

社保信息系統(tǒng)的碎片化可按照險(xiǎn)種、存儲(chǔ)方式等劃分的幾類實(shí)際情況,其他因素包括信息化推進(jìn)程度、地域執(zhí)行、行業(yè)、時(shí)間等?;攫B(yǎng)老基本醫(yī)療工傷等低保等統(tǒng)籌層次與區(qū)劃相同統(tǒng)籌層次高于區(qū)劃統(tǒng)籌層次低于區(qū)劃混合98地市區(qū)劃或行業(yè)劃分業(yè)務(wù)流程險(xiǎn)種森工行業(yè)企業(yè)職工基本養(yǎng)老保險(xiǎn)發(fā)放數(shù)據(jù)A市職工基本醫(yī)療保險(xiǎn)征繳數(shù)據(jù)數(shù)據(jù)采集示例-數(shù)據(jù)集中情況此圖示中所代表的不同劃分方式下的社保數(shù)據(jù)碎片化程度社會(huì)保障數(shù)據(jù)的“碎片化”現(xiàn)狀

某省社保數(shù)據(jù)按照險(xiǎn)種、行業(yè)和業(yè)務(wù)經(jīng)辦的不同,造成的割裂情況。99地區(qū)所含數(shù)據(jù)大小描述A市數(shù)據(jù)地稅、社保、其它225GOracle數(shù)據(jù)備份A市數(shù)據(jù)財(cái)政、社保、統(tǒng)計(jì)155GOracle數(shù)據(jù)備份A市數(shù)據(jù)養(yǎng)老、工傷、醫(yī)療、失業(yè)、生育181GDB2數(shù)據(jù)庫備份B市社保數(shù)據(jù)養(yǎng)老、工傷、醫(yī)療、失業(yè)、生育15GDB2數(shù)據(jù)庫備份B市社保數(shù)據(jù)5.28GOracle數(shù)據(jù)備份C市社保數(shù)據(jù)失業(yè)、醫(yī)療、養(yǎng)老8GDB2數(shù)據(jù)庫備份D省直社保數(shù)據(jù)社保368MOracle數(shù)據(jù)備份D省直醫(yī)保數(shù)據(jù)醫(yī)保10.5GOracle數(shù)據(jù)備份E省社保數(shù)據(jù)社保1.56GOracle數(shù)據(jù)備份E省醫(yī)保數(shù)據(jù)醫(yī)保17.7GOracle數(shù)據(jù)備份E省某市監(jiān)獄管理局345MOracle數(shù)據(jù)備份E省某市社保數(shù)據(jù)社保10.5GOracle數(shù)據(jù)備份F省社保數(shù)據(jù)養(yǎng)老244GDB2數(shù)據(jù)庫備份F省農(nóng)墾數(shù)據(jù)養(yǎng)老34GDB2數(shù)據(jù)庫備份F省農(nóng)墾數(shù)據(jù)養(yǎng)老37.4GSybase數(shù)據(jù)庫備份F省行業(yè)數(shù)據(jù)鐵路/鐵路集體430MExcel等F省業(yè)務(wù)數(shù)據(jù)(特派辦)1.78G文本F省本級(jí)養(yǎng)老財(cái)務(wù)數(shù)據(jù)1.30M文本G省本級(jí)醫(yī)療財(cái)務(wù)數(shù)據(jù)537M文本G省地稅征收明細(xì)數(shù)據(jù)11.7MExcel、文本等H市593MFoxpro數(shù)據(jù)庫備份

部分地區(qū)數(shù)據(jù)庫類型及信息管理方式的差異。社會(huì)保障數(shù)據(jù)的“碎片化”現(xiàn)狀100政策分析模型績(jī)效監(jiān)測(cè)模型分析型監(jiān)測(cè)模型合法性合規(guī)性監(jiān)測(cè)模型基礎(chǔ)數(shù)據(jù)統(tǒng)計(jì)業(yè)務(wù)審計(jì)、財(cái)務(wù)審計(jì)、復(fù)核審計(jì)供養(yǎng)比、替代率、基尼系數(shù)可持續(xù)性、政策一致性等社會(huì)保障審計(jì)監(jiān)測(cè)模型體系架構(gòu)審計(jì)署全國(guó)社會(huì)保障數(shù)據(jù)分析特點(diǎn)101例三·某省移動(dòng)大數(shù)據(jù)處理2023/9/5102某省移動(dòng)大數(shù)據(jù)處理任務(wù)需求描述

移動(dòng)的每次業(yè)務(wù)(通話,上網(wǎng),發(fā)短信)都會(huì)產(chǎn)生一個(gè)類似日志一樣的記錄,這個(gè)記錄跟地理位置相關(guān),記錄了業(yè)務(wù)的詳細(xì)信息。移動(dòng)公司希望通過這些業(yè)務(wù)記錄數(shù)據(jù)的挖掘,對(duì)服務(wù)質(zhì)量,進(jìn)而對(duì)基站設(shè)置、布局等提出評(píng)估和指導(dǎo)。

計(jì)算任務(wù)主要兩部分:(1)對(duì)業(yè)務(wù)的地理位置進(jìn)行定位。日志收上來之后,沒有了地理位置信息,要逐條記錄進(jìn)行恢復(fù),這部分計(jì)算量很大,且要求接近實(shí)時(shí)的方式完成。(2)對(duì)定位好的日志信息,進(jìn)行統(tǒng)計(jì),如一段時(shí)間一個(gè)地理范圍內(nèi),短信的丟失率,掉話率等。統(tǒng)計(jì)的指標(biāo)沒有特別確定的條件,隨時(shí)可能更改,這部分也要對(duì)用戶在界面上的操作盡心快速響應(yīng)。例三·某省移動(dòng)大數(shù)據(jù)處理局部地縣的數(shù)據(jù)【現(xiàn)狀】配置:數(shù)據(jù)庫服務(wù)器硬件配置:

HP

DL380G7

2個(gè)Intel?

Xeon?處理器

E5645

(六核

2.40

GHz,12MB三級(jí)緩存),16G內(nèi)存。

操作系統(tǒng):WindowsServer2003R264企業(yè)版。數(shù)據(jù)庫:Oracle10.2g64位,單實(shí)例數(shù)據(jù):1000載頻的采集規(guī)模,10分鐘的MR文件大小為1G,MR數(shù)據(jù)條數(shù)為300萬條,可以在10分鐘以內(nèi)完成定位計(jì)算;例三·某省移動(dòng)大數(shù)據(jù)處理省級(jí)數(shù)據(jù)超過6萬載頻的采集規(guī)模,10分鐘的MR文件大小>60G,MR數(shù)據(jù)條數(shù)>18000萬條;目前無法滿足10分鐘完成所有MR的定位。

selectcell_idas"小區(qū)號(hào)",totalmras"MR采樣數(shù)(個(gè))",round(totalmr*0.48/3600,3)as"話務(wù)總量(Erl)",round(sum(totalmr)*100.0/totalnum,3)as"MR采樣數(shù)占比(%)"from(selectcell_id,nvl(sum(mr_num),0)totalmrfrommr_lose_crosswherebscin(6)anddate_time>=to_date('2012-03-2614:00:00','yyyy-mm-ddhh24:mi:ss')anddate_time<=to_date('2012-03-2618:50:00','yyyy-mm-ddhh24:mi:ss')groupbycell_id)a,(selectsum(mr_num)totalnumfrommr_lose_crosswherebscin(6)anddate_time>=to_date('2012-03-2614:00:00','yyyy-mm-ddhh24:mi:ss')anddate_time<=to_date('2012-03-2618:50:00','yyyy-mm-ddhh24:mi:ss'))bwheretotalnum>0groupbycell_id,totalmr,totalnumorderbytotalmrdesc指標(biāo)統(tǒng)計(jì)時(shí)所使用的組合查詢的例子:涉及到2個(gè)表的組合查詢:1063.社交網(wǎng)絡(luò)

107社交網(wǎng)絡(luò)數(shù)據(jù)-Volume新浪1000萬人每人(最多)1000條微博–5TB3億用戶~100TB還沒包括評(píng)論和圖片用戶Profile100GB量級(jí)用戶關(guān)系數(shù)億用戶,幾百億條邊,100GB量級(jí)數(shù)十億用戶,幾個(gè)TB量級(jí)108社交網(wǎng)絡(luò)數(shù)據(jù)-Velocity每天新浪發(fā)出上億條微博512*108Byte~=50GB關(guān)注關(guān)系的演化結(jié)點(diǎn)的增加按半年增加8000萬用戶估算,每天平均新增40萬關(guān)注關(guān)系的增加與取消109社交網(wǎng)絡(luò)數(shù)據(jù)-Variety微博–自然語言Profile/Tags用戶關(guān)注關(guān)系–圖非結(jié)構(gòu)化數(shù)據(jù)微博的轉(zhuǎn)發(fā)與評(píng)論關(guān)系-圖110社會(huì)化網(wǎng)絡(luò)分析舉例網(wǎng)絡(luò)的統(tǒng)計(jì)分析理解網(wǎng)絡(luò)的特點(diǎn),比如冪律分布,網(wǎng)絡(luò)直徑,6度聯(lián)系,小世界模型等社區(qū)發(fā)現(xiàn)如果要做廣告,給1000個(gè)人付費(fèi)轉(zhuǎn)發(fā),應(yīng)該請(qǐng)哪1000個(gè)人合適結(jié)點(diǎn)標(biāo)記已知部分用戶的特征,如何根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)傳播這些特征影響力分析一個(gè)用戶在哪方面具有影響力…111深度社會(huì)化網(wǎng)絡(luò)分析基于內(nèi)容的分析對(duì)微博內(nèi)容的分析情感分析(例如股票預(yù)測(cè))動(dòng)態(tài)網(wǎng)絡(luò)分析引入動(dòng)態(tài)信息可增加結(jié)果的準(zhǔn)確度,例如最近添加的邊比過去的邊對(duì)未來的邊的預(yù)測(cè)更有意義例如預(yù)測(cè)移動(dòng)和聯(lián)通電話的用戶的流失實(shí)時(shí)分析與反饋從了解社會(huì)的行為到改善社會(huì)的互動(dòng)112深入微博分析的例子:影響力測(cè)試*ABCtt-1ABCt-1t-1??問題:社會(huì)網(wǎng)絡(luò)中是否存在影響力?那種影響力的顯著的?方法:比較具有兩種關(guān)系三角形,但他們具有不同的時(shí)間戳.12假設(shè):如果P1(B->C)遠(yuǎn)大于P2(B->C),那么影響力是存在的*來自清華大學(xué)唐杰113社會(huì)化網(wǎng)絡(luò)分析對(duì)系統(tǒng)軟件的挑戰(zhàn)圖算法的數(shù)據(jù)局部性較差,使得數(shù)據(jù)訪問開銷很大一次L2/3CacheMiss要約200個(gè)時(shí)鐘周期,遠(yuǎn)程訪問要1000個(gè)以上的時(shí)鐘周期對(duì)內(nèi)存和外存都存在這個(gè)問題數(shù)據(jù)量較大,有時(shí)單機(jī)內(nèi)存難以存放,I/O量大分布式系統(tǒng)多機(jī)聚合內(nèi)存多個(gè)磁盤同時(shí)讀寫并行計(jì)算但圖劃分后由于網(wǎng)絡(luò)的Powerlaw使得平衡的劃分下通信量巨大114社會(huì)化網(wǎng)絡(luò)分析對(duì)系統(tǒng)軟件的挑戰(zhàn)對(duì)增量數(shù)據(jù)的支持困難保存多份快照,浪費(fèi)空間,圖的結(jié)構(gòu)特點(diǎn)使得傳統(tǒng)刪冗方法不一定適用采用Log的方法對(duì)構(gòu)造某一時(shí)刻的快照時(shí)間復(fù)雜度太高基于內(nèi)容的分析,實(shí)時(shí)分析與反饋微博內(nèi)容量巨大,現(xiàn)有深入的NLP技術(shù)還不能使用,僅使用簡(jiǎn)單的關(guān)鍵詞方法分析算法對(duì)大圖速度慢、成本高,結(jié)點(diǎn)大時(shí)計(jì)算量巨大115大計(jì)算量舉例

BetweennessCentrality–Allpairshortestpath(全點(diǎn)對(duì)最短路徑)復(fù)雜度

O(E*V)串行算法,6467個(gè)點(diǎn),26467條邊的圖,需要10秒數(shù)億結(jié)點(diǎn),百億條邊需要多少時(shí)間?116社會(huì)化網(wǎng)絡(luò)分析的發(fā)展算法系統(tǒng)目標(biāo)117解決挑戰(zhàn)的思路三個(gè)計(jì)算機(jī)系統(tǒng)有關(guān)領(lǐng)域的結(jié)合編程抽象易于程序員表達(dá)易于運(yùn)行時(shí)系統(tǒng)優(yōu)化數(shù)據(jù)存儲(chǔ)的格式提高訪問的局部性支持增量數(shù)據(jù)運(yùn)行時(shí)系統(tǒng)訪存優(yōu)化(如,預(yù)?。┩ㄐ艃?yōu)化(如,批處理)118示例一圖劃分和通信優(yōu)化GRACE.USENIXATC2012]把圖劃分為若干子圖,子圖內(nèi)邊較多,子圖之間邊較少,提高局部性通信進(jìn)行批處理,先結(jié)點(diǎn)內(nèi)通信,后結(jié)點(diǎn)間通信[PowerGraph.OSDI2012]GAS(Gatther,Apply,Scatter),拆分高度數(shù)結(jié)點(diǎn)119120示例二稀疏矩陣方法利用稀疏矩陣方法[Yanget.al,VLDB2011]稀疏矩陣廣泛應(yīng)用于有限元方法、天氣預(yù)報(bào)、EDA等科學(xué)與工程計(jì)算領(lǐng)域社交網(wǎng)絡(luò)可以表示為稀疏矩陣,很多重要的社交網(wǎng)絡(luò)分析算法如PageRank,HITS都可以表達(dá)為稀疏矩陣運(yùn)算原有稀疏矩陣表示方法CSR(CompressedSparseRow)等不適合于按冪律分布的社會(huì)網(wǎng)絡(luò)稀疏矩陣121

CSR(CompressedSparseRow)122123124示例三筆記本上的圖分析引擎社會(huì)網(wǎng)絡(luò)數(shù)據(jù)大,但也不是那么大新浪微博4億用戶,關(guān)系圖在內(nèi)存100GB可以保存微博數(shù)據(jù),1000萬人的大約5TB[OSDI12]GraphChi通過優(yōu)化對(duì)外存的訪問使小內(nèi)存的計(jì)算機(jī)單機(jī)系統(tǒng)也能進(jìn)行有效的社會(huì)化網(wǎng)絡(luò)分析數(shù)據(jù)放在硬盤上,通過排序和分片,把內(nèi)存作為滑動(dòng)窗口,并讓對(duì)外存數(shù)據(jù)的訪問都是順序訪問,而且降低讀寫次數(shù)125示例四對(duì)時(shí)序數(shù)據(jù)分析的存儲(chǔ)和編程支持硬件系統(tǒng)使用SSD外存,內(nèi)存不足以存下所需分析的圖,圖保存在SSD上輸入系統(tǒng)初始快照和Log分析所需生成多個(gè)快照的規(guī)則輸出在SSD上高效保存的多個(gè)快照,支持局部性優(yōu)化訪問SSD上多個(gè)快照的API支持預(yù)取和緩存機(jī)制的126SSD上的多快照數(shù)據(jù)布局圖在SSD上的保存形式邊的數(shù)組多份圖快照大量數(shù)據(jù)冗余基準(zhǔn)

+增量

D1:當(dāng)n很大時(shí),vertex的局部性會(huì)很差,要獲得SSn代價(jià)很大快照組n可根據(jù)情況調(diào)整SS0SS1SSn…SS0D1Dn…SS0D1Dn-1…SSnDn+1D2n-1……Group1Group2e11e12…e1ne21e22…e2mv1v2…e11’e13’…e21’e22’…v1’v2’…127訪問圖的APIGraphTraversefor(partition->IterateVertices(sid,vh);vh.HasNext();vh.Next()){ uint32_tcounter=0; for(vh.IterateEdgesSnapshot(eh);eh.HasNext();eh.Next()){

eh.GetTarget(tvh); volatileuint32_tvi=tvh.index(); counter++; }}128預(yù)取和替換預(yù)取的必要性內(nèi)存不夠放下全圖,需要從SSD上讀取API給出了一定的暗示,但不足夠手工預(yù)取API定義高層的抽象,實(shí)現(xiàn)更有效的預(yù)取編譯分析for(partition->IterateVertices(sid,vh);vh.HasNext();vh.Next()){ uint32_tcounter=0; for(vh.IterateEdgesSnapshot(eh);eh.HasNext();eh.Next()){

eh.GetTarget(tvh); volatileuint32_tvi=tvh.index(); counter++; }}129持續(xù)更新圖的挑戰(zhàn)在接受圖的動(dòng)態(tài)更新的情況下,仍能保持局部性優(yōu)化的存儲(chǔ),并可提供任意時(shí)刻的快照輸入流優(yōu)化局部性圖存儲(chǔ)系統(tǒng)任意時(shí)刻快照社會(huì)網(wǎng)絡(luò)分析應(yīng)用130總結(jié)社交網(wǎng)絡(luò)分析是典型的大數(shù)據(jù)分析問題,需要處理數(shù)據(jù)的Volume,Velocity和Variety社會(huì)網(wǎng)絡(luò)分析的主要方法是圖算法,局部性、大數(shù)據(jù)量和大計(jì)算量對(duì)計(jì)算機(jī)系統(tǒng)提出了挑戰(zhàn)計(jì)算機(jī)系統(tǒng)研究者將通過編程抽象、數(shù)據(jù)存儲(chǔ)和運(yùn)行時(shí)系統(tǒng)三個(gè)方面的結(jié)合來面對(duì)這些挑戰(zhàn)131正在做什么事?132大數(shù)據(jù)存儲(chǔ)方法大數(shù)據(jù)統(tǒng)計(jì)與查詢系統(tǒng)效能評(píng)價(jià)2012201020112003美國(guó)Google公司公布了大規(guī)模分布式文件系統(tǒng)GFSFacebook推出了專門針對(duì)海量小文件的文件系統(tǒng)Haystack2006開源社區(qū)開發(fā)了Hadoop分布式文件系統(tǒng)HDFS發(fā)布基準(zhǔn)測(cè)試程序集合SPECCPU2006Princeton發(fā)布多核基準(zhǔn)測(cè)試程序套件PARSEC3.0Yahoo!提出可擴(kuò)展的流處理引擎S4Yahoo!提出支持有狀態(tài)的增量數(shù)據(jù)計(jì)算模式NovaGoogle提出針對(duì)離線批量處理的map/reduce編程框架2004Google開發(fā)了全球規(guī)模擴(kuò)展的數(shù)據(jù)庫SpannerCMU提出強(qiáng)調(diào)I/O能力重要性的DISC模型2007面對(duì)大數(shù)據(jù)處理,現(xiàn)有系統(tǒng)架構(gòu)的不足片面強(qiáng)調(diào)計(jì)算與存儲(chǔ)效能,割裂了全量數(shù)據(jù)、流式數(shù)據(jù)和離線數(shù)據(jù)Life

Cycle通過弱一致性約束提高并發(fā)度,忽略了大數(shù)據(jù)異質(zhì)性帶來的訪問局部性差問題計(jì)算復(fù)雜性數(shù)據(jù)

復(fù)雜性系統(tǒng)

復(fù)雜性研究?jī)?nèi)容與思路研究現(xiàn)狀與問題研究?jī)?nèi)容:

全周期感知的網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算系統(tǒng)架構(gòu)體系

1331、感知、存儲(chǔ)與計(jì)算融合的分布式系統(tǒng)架構(gòu)2、低延遲高可靠的流式大數(shù)據(jù)計(jì)算框架與方法3、弱數(shù)據(jù)訪問局部性的批量大數(shù)據(jù)處理方法包括:富語義編程模型;數(shù)據(jù)和計(jì)算雙向流動(dòng)理論;感知、存儲(chǔ)與計(jì)算融合大數(shù)據(jù)分布策略與約簡(jiǎn)策略包括:系統(tǒng)節(jié)點(diǎn)彈性替代機(jī)制;細(xì)粒度的數(shù)據(jù)依賴性;資源調(diào)度與輕量的失效轉(zhuǎn)移算法等包括:穿透數(shù)據(jù)訪問時(shí)空局部性的大數(shù)據(jù)訪問關(guān)聯(lián)規(guī)則,研究貫穿整個(gè)存儲(chǔ)器棧的數(shù)據(jù)調(diào)度算法等研究?jī)?nèi)容與思路研究現(xiàn)狀與問題計(jì)算復(fù)雜性數(shù)據(jù)

復(fù)雜性系統(tǒng)

復(fù)雜性

研究?jī)?nèi)容:

全周期感知的網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算系統(tǒng)架構(gòu)體系

針對(duì)網(wǎng)絡(luò)大數(shù)據(jù)感知、存儲(chǔ)、計(jì)算全生命周期,設(shè)計(jì)自適應(yīng)感知、彈性存儲(chǔ)、離線簡(jiǎn)約計(jì)算和在線增量計(jì)算融合的體系架構(gòu),并提出針對(duì)性的新型效能模型和優(yōu)化方法,實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)簡(jiǎn)約感知、彈性存儲(chǔ)與實(shí)時(shí)高效計(jì)算134示范應(yīng)用一:

網(wǎng)絡(luò)違法犯罪線索發(fā)現(xiàn)與行為預(yù)警北京煙臺(tái)上??蛇_(dá)系統(tǒng)處理能力:每天流式數(shù)據(jù)100億條每天數(shù)據(jù)增量30TB數(shù)據(jù)感知、存儲(chǔ)與關(guān)聯(lián)線索融合分析:PB級(jí)分布式網(wǎng)絡(luò)大數(shù)據(jù)處理平臺(tái)分析全量數(shù)據(jù)發(fā)現(xiàn)犯罪行為基于公安部的實(shí)際需求,在分布式全量數(shù)據(jù)資源平臺(tái)上,對(duì)互聯(lián)網(wǎng)運(yùn)營(yíng)商/服務(wù)商的服務(wù)端全量日志數(shù)據(jù)和社區(qū)、論壇與微博的全量社會(huì)媒體數(shù)據(jù)進(jìn)行實(shí)時(shí)感知,融合離線數(shù)據(jù)與在線數(shù)據(jù)分析,發(fā)現(xiàn)犯罪行為線索135

示范應(yīng)用二:

社會(huì)發(fā)展指數(shù)的現(xiàn)狀感知與態(tài)勢(shì)預(yù)測(cè)

數(shù)據(jù)特點(diǎn)新華通訊社擁有的遍布全球的實(shí)時(shí)新聞媒體數(shù)據(jù)新華輿情擁有的覆蓋全國(guó)的社會(huì)輿情數(shù)據(jù)新華08擁有的國(guó)內(nèi)最大規(guī)模的非結(jié)構(gòu)化+結(jié)構(gòu)化金融服務(wù)數(shù)據(jù)阿里云所支持的國(guó)內(nèi)最大規(guī)模的網(wǎng)絡(luò)在線商品交易數(shù)據(jù)數(shù)據(jù)類型新聞媒體數(shù)據(jù)輿情數(shù)據(jù)金融數(shù)據(jù)在線交易數(shù)據(jù)依托新華社和阿里云的重要應(yīng)用背景,利用網(wǎng)絡(luò)大數(shù)據(jù)資源,建立分布式網(wǎng)絡(luò)大數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)對(duì)健康、教育、物價(jià)、環(huán)境污染等各項(xiàng)社會(huì)發(fā)展相關(guān)指數(shù)的現(xiàn)狀感知與態(tài)勢(shì)預(yù)測(cè)1364.海量數(shù)據(jù)處理課程137清華大學(xué)計(jì)算機(jī)系在本科生大三結(jié)束之后的暑假,為了提高學(xué)生的實(shí)踐能力,特別設(shè)置專業(yè)實(shí)踐暑期課程。專業(yè)實(shí)踐提供了學(xué)生設(shè)計(jì)和實(shí)現(xiàn)比較大的系統(tǒng)的機(jī)會(huì),實(shí)踐老師將進(jìn)行實(shí)際訓(xùn)練的指導(dǎo),使得學(xué)生能夠盡快入門。專業(yè)實(shí)踐需要應(yīng)用到比較復(fù)雜的軟件與硬件技術(shù),用以解決特定的問題,而不是單項(xiàng)知識(shí)點(diǎn)的教學(xué)。暑期課程概述1382007年開始開設(shè)課程,部分教材和資料由谷歌google提供,是全球第二個(gè)開展相關(guān)課程的學(xué)校相關(guān)資料可在網(wǎng)上查詢獲得/edu/parallel/index.html5個(gè)星期的專業(yè)實(shí)踐課,全部時(shí)間用于做實(shí)驗(yàn)與項(xiàng)目,沒有其它課程課程組織包括5次講課,3個(gè)實(shí)驗(yàn)以及一個(gè)大項(xiàng)目先修課程為:網(wǎng)絡(luò)原理,操作系統(tǒng),以及Java編程語言基于集群的大規(guī)模數(shù)據(jù)處理139對(duì)分布式系統(tǒng)中的一些基本概念進(jìn)行介紹,討論在進(jìn)行分布式系統(tǒng)設(shè)計(jì)中會(huì)涉及到的實(shí)際問題。針對(duì)真正的分布式系統(tǒng)的例子,例如google的分布式系統(tǒng)展開詳細(xì)地討論,使得學(xué)生能夠獲得初步的分布式系統(tǒng)的設(shè)計(jì)概念。另外,在課程設(shè)計(jì)中,會(huì)有很強(qiáng)的實(shí)踐環(huán)節(jié),學(xué)生將會(huì)通過對(duì)真正的分布式系統(tǒng)進(jìn)行編程獲得實(shí)踐經(jīng)驗(yàn)。教學(xué)目標(biāo)140課程的組織5次講課的內(nèi)容課程相關(guān)論文的閱讀論文討論,提交作業(yè)3個(gè)課程相關(guān)的實(shí)驗(yàn)最后的大項(xiàng)目(FinalProject)提交計(jì)劃中期報(bào)告,項(xiàng)目結(jié)題報(bào)告項(xiàng)目最后檢查匯報(bào)141學(xué)生需要提交的內(nèi)容作業(yè)(論文讀后感,思考題等)(占總成績(jī)20%)3個(gè)實(shí)驗(yàn)報(bào)告(占總成績(jī)30%)大項(xiàng)目相關(guān)(占總成績(jī)50%)大項(xiàng)目的建議書大項(xiàng)目結(jié)題報(bào)告大項(xiàng)目展示口頭報(bào)告142課程內(nèi)容與實(shí)驗(yàn)描述課程

1網(wǎng)絡(luò)與分布式系統(tǒng)簡(jiǎn)介課程

2Map/Reduce的理論與實(shí)現(xiàn)課程

3分布式文件系統(tǒng)與Google文件系統(tǒng)課程

4分布式圖算法與PageRank課程

5MapReduce在聚類中的應(yīng)用實(shí)驗(yàn)0Hadoop環(huán)境的配置實(shí)驗(yàn)1簡(jiǎn)單的倒排表實(shí)驗(yàn)實(shí)驗(yàn)2PageRank實(shí)驗(yàn)實(shí)驗(yàn)3MapReduce在聚類上的實(shí)驗(yàn)143Hadoop簡(jiǎn)介HDFS,MapReduceNameNode,DataNode,JobTracker,TaskTracker,基本的HDFS文件系統(tǒng)的操作Ls,copyFromLocal,運(yùn)行例子程序分析例子程序源代碼MapReduceWordCountinJava源程序的編寫,編譯與執(zhí)行學(xué)生手動(dòng)運(yùn)行例子程序LineIndexerLab0:Hadoop環(huán)境的配置144倒排表是搜索引擎的基礎(chǔ),在做實(shí)驗(yàn)之前對(duì)搜索引擎做必要介紹Step1:噪音詞的識(shí)別Step2:在ShakespeareCorpus(5.4M)數(shù)據(jù)集上計(jì)算并且獲得倒排表Step3:建議的擴(kuò)展實(shí)驗(yàn)數(shù)據(jù)清理在倒排索引上完成查詢程序完整的倒排索引其它的相關(guān)實(shí)驗(yàn)Lab1:簡(jiǎn)單的倒排表實(shí)驗(yàn)145Wikipedia的數(shù)據(jù)是直接從網(wǎng)上下載的英文原文的wikipedia的數(shù)據(jù)總的數(shù)據(jù)容量為10G各個(gè)網(wǎng)頁之間有鏈接互相聯(lián)系,分析鏈接可計(jì)算PageRank學(xué)生需要完成下面三個(gè)步驟:graphBuilder:從下載的數(shù)據(jù)中建立有向圖pageRankIterator:通過MapReduce迭代進(jìn)行PageRank的計(jì)算,獲得每一個(gè)頁面的PageRank值pageRankViewer:顯示最終結(jié)果Lab2:在Wikipedia數(shù)據(jù)集上完成PageRank146數(shù)據(jù)集容量為2G,是Netflix網(wǎng)站上所提供的數(shù)據(jù),為電影的標(biāo)識(shí)以及用戶對(duì)電影的評(píng)價(jià)。實(shí)驗(yàn)的目標(biāo)是使用聚類算法,通過給定的記錄數(shù)據(jù),找出400個(gè)左右的相關(guān)電影的集合。聚類算法為K-Means算法加上CanopyClustering算法Lab3:在Netflix數(shù)據(jù)上的K-means與Canopy算法的設(shè)計(jì)與實(shí)現(xiàn)147學(xué)生可以自由選擇所需要完成的大項(xiàng)目,并且可以按照2~3個(gè)人作為一個(gè)小組,鍛煉團(tuán)隊(duì)能力、項(xiàng)目必須體現(xiàn)出是分布式系統(tǒng)相關(guān)的項(xiàng)目建議基于hadoop的集群進(jìn)行構(gòu)建項(xiàng)目的工作強(qiáng)度為全時(shí)2.5~3周時(shí)間大項(xiàng)目類別的舉例:垂直搜索引擎,N單元的模擬,機(jī)器學(xué)習(xí)最后的大項(xiàng)目148小型的20個(gè)節(jié)點(diǎn)的集群,每個(gè)節(jié)點(diǎn)雙路四核cpu,150GSATA硬盤兩個(gè),4GB內(nèi)存,通過1G以太網(wǎng)絡(luò)進(jìn)行連接在大約15個(gè)學(xué)生之間進(jìn)行共享使用最新版本的Hadoop進(jìn)行實(shí)驗(yàn)和編程環(huán)境配置實(shí)驗(yàn)環(huán)境的設(shè)置149學(xué)生自由選擇項(xiàng)目的課題,必須與分布式系統(tǒng)相關(guān),建議使用hadoop集群系統(tǒng)完成運(yùn)算學(xué)生的選題主要集中在以下三個(gè)方面垂直搜索引擎N-Body系統(tǒng)的模擬,離散事件模擬機(jī)器學(xué)習(xí)學(xué)生的大項(xiàng)目作業(yè)情況概述150專注于某一個(gè)專門類別的搜索,獨(dú)立構(gòu)建一個(gè)小型的搜索引擎NotebookHuntress:專門用于搜索筆記本的搜索引擎ComgIT:專門用于消費(fèi)類電子產(chǎn)品的搜索引擎SMine水木精華區(qū)搜索:專門用于論壇的搜索IMAGESPY圖片搜索引擎:從互聯(lián)網(wǎng)上下載圖片數(shù)據(jù)以及相關(guān)文本,構(gòu)建圖片搜索引擎大項(xiàng)目——垂直搜索引擎類151構(gòu)建用于消費(fèi)類電子產(chǎn)品的垂直搜索引擎,通過論壇信息的搜集和檢索,為用戶購買消費(fèi)類電子產(chǎn)品提供幫助大項(xiàng)目展示

-ComgIT152大項(xiàng)目展示——NotebookHuntress構(gòu)建筆記本搜索引擎153通過MapReduce針對(duì)N-Body系統(tǒng)進(jìn)行模擬,以及對(duì)離散事件進(jìn)行模擬,模擬現(xiàn)有的一些物理現(xiàn)象,進(jìn)行統(tǒng)計(jì)特性分析等物理現(xiàn)象模擬(天體物理,布朗運(yùn)動(dòng)等)學(xué)校生活系統(tǒng)的模擬與統(tǒng)計(jì)學(xué)校商業(yè)的模擬大項(xiàng)目——N-Body系統(tǒng)的模擬,離散事件模擬類154模擬了小球的碰撞,大氣物理,布朗運(yùn)動(dòng),星球運(yùn)動(dòng)等物理現(xiàn)象大項(xiàng)目展示——物理現(xiàn)象的模擬y155模擬學(xué)生在校園里的活動(dòng),從而可以模擬和跟蹤傳染病在校園內(nèi)的傳播情況大項(xiàng)目展示

-Epidemic!156模擬學(xué)校的生活,模擬在清華學(xué)生宿舍一座小橋邊賣煎餅的情況,每天的各種原料的進(jìn)口以及煎餅的販賣情況大項(xiàng)目展示——小橋煎餅攤模擬157通過分布式計(jì)算,擴(kuò)展機(jī)器學(xué)習(xí)所能夠處理數(shù)據(jù)的量音樂聚類與檢索系統(tǒng)Netflix數(shù)據(jù)的LSI分解方法文本信息分類的方法大項(xiàng)目——機(jī)器學(xué)習(xí)類158WedeeplyappreciateGoogleandthegroupofHPCforprovidingsuchagreatopportunitytolearnMassDataComputingtechniques.ManythankstotheinstructorKangChenandtheTAYubingYin,fortheirwarm-heartedguideandhelp.Wehaveexperiencedagoodclassthesedays.Theprojectsareallgood,butthetimeseemstobealittleshorttofinishallthework.ManythankstoourteacherMr.ChenandTAYubing.ThisfiveweeksisaniceexperienceformeandI'venevertakenacourseinallthe3yearsthatmakesmesoenthusiasticforit.學(xué)生報(bào)告中的反饋159學(xué)生的實(shí)驗(yàn)情況:網(wǎng)絡(luò)應(yīng)用程序構(gòu)建,物理系統(tǒng)的模擬,機(jī)器學(xué)習(xí)算法的并行化?!皩W(xué)習(xí)到很多平時(shí)課堂上學(xué)不到的知識(shí)”同學(xué)的課后總結(jié)。Google公司參與最后的評(píng)定,很多大實(shí)驗(yàn)項(xiàng)目被認(rèn)為具有研究生的水平。教學(xué)效果與評(píng)價(jià)160課程對(duì)于全國(guó)高校的影響舉辦了有關(guān)此課程的全國(guó)著名高校研討班,第一期:北京大學(xué),上海交通大學(xué),浙江大學(xué),華中科技大學(xué),北京科技大學(xué)第二期:北京郵電大學(xué),北京交通大學(xué),北京信息科技大學(xué),北京大學(xué),上海交通大學(xué),復(fù)旦大學(xué),同濟(jì)大學(xué),中山大學(xué),華南理工大學(xué),南京大學(xué),東南大學(xué),西安交通大學(xué),中國(guó)科學(xué)技術(shù)大學(xué),電子科技大學(xué),蘭州大學(xué),煙臺(tái)大學(xué),大連理工大學(xué),四川大學(xué),天津大學(xué),遼寧師范大學(xué)161第一節(jié)活塞式空壓機(jī)的工作原理第二節(jié)活塞式空壓機(jī)的結(jié)構(gòu)和自動(dòng)控制第三節(jié)活塞式空壓機(jī)的管理復(fù)習(xí)思考題單擊此處輸入你的副標(biāo)題,文字是您思想的提煉,為了最終演示發(fā)布的良好效果,請(qǐng)盡量言簡(jiǎn)意賅的闡述觀點(diǎn)。第六章活塞式空氣壓縮機(jī)

piston-aircompressor壓縮空氣在船舶上的應(yīng)用:

1.主機(jī)的啟動(dòng)、換向;

2.輔機(jī)的啟動(dòng);

3.為氣動(dòng)裝置提供氣源;

4.為氣動(dòng)工具提供氣源;

5.吹洗零部件和濾器。

排氣量:單位時(shí)間內(nèi)所排送的相當(dāng)?shù)谝患?jí)吸氣狀態(tài)的空氣體積。單位:m3/s、m3/min、m3/h第六章活塞式空氣壓縮機(jī)

piston-aircompressor空壓機(jī)分類:按排氣壓力分:低壓0.2~1.0MPa;中壓1~10MPa;高壓10~100MPa。按排氣量分:微型<1m3/min;小型1~10m3/min;中型10~100m3/min;大型>100m3/min。第六章活塞式空氣壓縮機(jī)

piston-aircompressor第一節(jié)活塞式空壓機(jī)的工作原理容積式壓縮機(jī)按結(jié)構(gòu)分為兩大類:往復(fù)式與旋轉(zhuǎn)式兩級(jí)活塞式壓縮機(jī)單級(jí)活塞壓縮機(jī)活塞式壓縮機(jī)膜片式壓縮機(jī)旋轉(zhuǎn)葉片式壓縮機(jī)最長(zhǎng)的使用壽命-

低轉(zhuǎn)速(1460RPM),動(dòng)件少(軸承與滑片),潤(rùn)滑油在機(jī)件間形成保護(hù)膜,防止磨損及泄漏,使空壓機(jī)能夠安靜有效運(yùn)作;平時(shí)有按規(guī)定做例行保養(yǎng)的JAGUAR滑片式空壓機(jī),至今使用十萬小時(shí)以上,依然完好如初,按十萬小時(shí)相當(dāng)于每日以十小時(shí)運(yùn)作計(jì)算,可長(zhǎng)達(dá)33年之久。因此,將滑片式空壓機(jī)比喻為一部終身機(jī)器實(shí)不為過?;?葉)片式空壓機(jī)可以365天連續(xù)運(yùn)轉(zhuǎn)并保證60000小時(shí)以上安全運(yùn)轉(zhuǎn)的空氣壓縮機(jī)1.進(jìn)氣2.開始?jí)嚎s3.壓縮中4.排氣1.轉(zhuǎn)子及機(jī)殼間成為壓縮空間,當(dāng)轉(zhuǎn)子開始轉(zhuǎn)動(dòng)時(shí),空氣由機(jī)體進(jìn)氣端進(jìn)入。2.轉(zhuǎn)子轉(zhuǎn)動(dòng)使被吸入的空氣轉(zhuǎn)至機(jī)殼與轉(zhuǎn)子間氣密范圍,同時(shí)停止進(jìn)氣。3.轉(zhuǎn)子不斷轉(zhuǎn)動(dòng),氣密范圍變小,空氣被壓縮。4.被壓縮的空氣壓力升高達(dá)到額定的壓力后由排氣端排出進(jìn)入油氣分離器內(nèi)。4.被壓縮的空氣壓力升高達(dá)到額定的壓力后由排氣端排出進(jìn)入油氣分離器內(nèi)。1.進(jìn)氣2.開始?jí)嚎s3.壓縮中4.排氣1.凸凹轉(zhuǎn)子及機(jī)殼間成為壓縮空間,當(dāng)轉(zhuǎn)子開始轉(zhuǎn)動(dòng)時(shí),空氣由機(jī)體進(jìn)氣端進(jìn)入。2.轉(zhuǎn)子轉(zhuǎn)動(dòng)使被吸入的空氣轉(zhuǎn)至機(jī)殼與轉(zhuǎn)子間氣密范圍,同時(shí)停止進(jìn)氣。3.轉(zhuǎn)子不斷轉(zhuǎn)動(dòng),氣密范圍變小,空氣被壓縮。螺桿式氣體壓縮機(jī)是世界上最先進(jìn)、緊湊型、堅(jiān)實(shí)、運(yùn)行平穩(wěn),噪音低,是值得信賴的氣體壓縮機(jī)。螺桿式壓縮機(jī)氣路系統(tǒng):

A

進(jìn)氣過濾器

B

空氣進(jìn)氣閥

C

壓縮機(jī)主機(jī)

D

單向閥

E

空氣/油分離器

F

最小壓力閥

G

后冷卻器

H

帶自動(dòng)疏水器的水分離器油路系統(tǒng):

J

油箱

K

恒溫旁通閥

L

油冷卻器

M

油過濾器

N

回油閥

O

斷油閥冷凍系統(tǒng):

P

冷凍壓縮機(jī)

Q

冷凝器

R

熱交換器

S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論