版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)主要內(nèi)容第一部分:云計(jì)算與大數(shù)據(jù)技術(shù)簡(jiǎn)介簡(jiǎn)要介紹云計(jì)算和大數(shù)據(jù)技術(shù)的發(fā)展背景、主要技術(shù)特點(diǎn)、現(xiàn)狀與趨勢(shì)第二部分:大數(shù)據(jù)研究涉及的層面和主要研究?jī)?nèi)容主要介紹大數(shù)據(jù)研究所涉及的各個(gè)層面以及各層面下的主要研究?jī)?nèi)容和熱點(diǎn)問(wèn)題第三部分:大數(shù)據(jù)并行處理技術(shù)研究簡(jiǎn)要介紹在大數(shù)據(jù)方面所開(kāi)展的一些工作第一部分
云計(jì)算與大數(shù)據(jù)技術(shù)簡(jiǎn)介云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)計(jì)算技術(shù)發(fā)展的就是不同層面上計(jì)算模式發(fā)展和演變的;而相關(guān)支撐技術(shù)的成熟為計(jì)算模式的演變和實(shí)現(xiàn)提供了基礎(chǔ)和條件計(jì)算模式的演進(jìn)過(guò)程是受到一定的發(fā)展規(guī)律支配的,存在一定的必然性云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)計(jì)算模式變革的兩大根本目標(biāo):更方便快捷的使用方式更強(qiáng)大的計(jì)算能力在提供更強(qiáng)大計(jì)算能力的同時(shí),提供更加方便快捷的使用方式,是貫穿整個(gè)計(jì)算技術(shù)發(fā)展的主線云計(jì)算發(fā)展的背景
集中分散集中60-70’s:大型機(jī)(mainframe),
集中式、分時(shí)共享80-90’s:個(gè)人計(jì)算機(jī)人手一臺(tái)95-06:互聯(lián)網(wǎng)/網(wǎng)格/集群/數(shù)據(jù)中心
“天下大勢(shì),合久必分,分久必合”“否定之否定,螺旋式上升”從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)result+=ParseInt(v);基于大數(shù)據(jù)分析的推薦系統(tǒng)EachmapnodetakesinonepartitionandgenerateslocalfrequentitemsetsforthatpartitionusingApriorialgorithm.大規(guī)模數(shù)據(jù)并行處理應(yīng)用研究與開(kāi)發(fā)輿情分析(PublicOpinionAnalysis)處理:文檔數(shù)據(jù)記錄(如文本文件中的行,或數(shù)據(jù)表格中的行)將以“鍵值對(duì)”形式傳入map函數(shù);大數(shù)據(jù)處理的主要研究?jī)?nèi)容YongzhuangWei,ShuaiWang,ChunfengYuan,andYihuaHuang覆蓋表生成的遺傳面向新浪微博的關(guān)注推薦系統(tǒng)GoogleCloudInfrastructure
(GoogleAppEngine,PaaS型公用云平臺(tái))本課題組參加了廣東移動(dòng)信令檢測(cè)大數(shù)據(jù)云計(jì)算系統(tǒng)項(xiàng)目,并負(fù)責(zé)設(shè)計(jì)了基于Hadoop的云計(jì)算系統(tǒng)構(gòu)架和軟件框架,研究設(shè)計(jì)了基于MapReduce的信令數(shù)據(jù)查詢分析并行化算法和系統(tǒng)。大數(shù)據(jù)數(shù)據(jù)索引和查詢技術(shù)基于分布式內(nèi)存數(shù)據(jù)庫(kù)的大數(shù)據(jù)應(yīng)用問(wèn)題計(jì)算其它國(guó)內(nèi)外IT企業(yè)云計(jì)算研發(fā)云計(jì)算發(fā)展的背景60-70’s:大型機(jī)(mainframe),
集中式、分時(shí)共享IBM創(chuàng)始人托馬斯·沃森(ThomasJ.Watson):
“我認(rèn)為全球大概只需要五臺(tái)計(jì)算機(jī)就夠了?!?0年代,比爾蓋茨讀中學(xué)時(shí)需要以每小時(shí)40美金的費(fèi)用租用大型機(jī)終端做程序設(shè)計(jì)。從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)云計(jì)算發(fā)展的背景80-90’s:個(gè)人計(jì)算機(jī)(PC)人手一臺(tái)因此,比爾蓋茨產(chǎn)生了一個(gè)偉大的夢(mèng)想:“讓每一張桌子上有一臺(tái)電腦!”這個(gè)夢(mèng)想成就了微軟,推動(dòng)了個(gè)人計(jì)算時(shí)代的來(lái)臨。比爾蓋茨,1981年表示:“640KB內(nèi)存應(yīng)該對(duì)任何人都?jí)蛴昧恕!?980年微軟開(kāi)發(fā)DOS時(shí)曾認(rèn)為:“DOS只能管理1MB的空間,因?yàn)槲覀儫o(wú)法想象還有什么應(yīng)用軟件會(huì)需要更多的內(nèi)存?!睆挠?jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)作為一家未完全盈利的新型公司,顯然難以長(zhǎng)期承受巨額的基礎(chǔ)設(shè)施開(kāi)銷。ColumnStore個(gè)人認(rèn)為:一個(gè)計(jì)算系統(tǒng)必須具備以下兩個(gè)特征才能算是云計(jì)算系統(tǒng)(至少具備第一個(gè)特征):使用Mapreduce框架進(jìn)行軟件代碼分析每個(gè)Map節(jié)點(diǎn)處理完成的中間鍵值隊(duì)將由Combiner做一個(gè)合并壓縮,即把那些鍵名相同的鍵值對(duì)歸并為一個(gè)鍵名下的一組數(shù)值。if(!ht.例如:有一個(gè)巨大的數(shù)組,其最終結(jié)果需要排序,每個(gè)Map節(jié)點(diǎn)數(shù)據(jù)處理好后,為了避免在每個(gè)Reduce節(jié)點(diǎn)本地排序完成后還需要進(jìn)行全局排序,我們可以使用一個(gè)分區(qū)策略如:(d%R),d為數(shù)據(jù)大小,R為Reduce節(jié)點(diǎn)的個(gè)數(shù),則可根據(jù)數(shù)據(jù)的大小將其劃分到指定數(shù)據(jù)范圍的Reduce節(jié)點(diǎn)上,每個(gè)Reduce將本地?cái)?shù)據(jù)拍好序后即為最終結(jié)果年年初網(wǎng)站每天用戶數(shù)約為5000人,但到4月中旬,由于Facebook用戶開(kāi)始使用Animoto服務(wù),該網(wǎng)站在三天內(nèi)的用戶數(shù)大幅上升至75萬(wàn)人,所要求的服務(wù)器能力需要大約提高100倍,但該網(wǎng)站既無(wú)資金有無(wú)能力來(lái)建立規(guī)模如此巨大的計(jì)算能力,因此,該網(wǎng)站與云計(jì)算服務(wù)公司RightScale合作,設(shè)計(jì)了能夠在Amazon云中使用的應(yīng)用程序。從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)短文本多分類并行化算法完成SQL語(yǔ)句的解析處理并行編程模型與計(jì)算框架層研究?jī)?nèi)容采用啟發(fā)式演化方法對(duì)遺傳算法的種群規(guī)模、進(jìn)化機(jī)制、交叉概率、變異概率及其變種算法5個(gè)因素進(jìn)行取值組合演化,系統(tǒng)地探索各個(gè)因素對(duì)遺傳算法覆蓋表生成效果的影響程度和性質(zhì),并以覆蓋表規(guī)模和消耗時(shí)間為依據(jù)尋找出最佳配置Eachglobalcandidateitemsetand聚類(clustering)Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究云計(jì)算發(fā)展的背景95-06:互聯(lián)網(wǎng)/網(wǎng)格/集群/數(shù)據(jù)中心
分離的PC需要互連以交換信息共享資源互聯(lián)網(wǎng)連接更多的計(jì)算資源以解決大的計(jì)算問(wèn)題網(wǎng)格計(jì)算用很多微處理器構(gòu)建具有大型機(jī)處理能力的系統(tǒng)集群很多的集群存儲(chǔ)處理大量的信息數(shù)據(jù)中心Yahoo,Amazon,Google……從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)云計(jì)算發(fā)展的背景2006年至今“更分散同時(shí)也更集中”前端更加分散:2006年后,一方面前端更加分散,以智能和IPad為代表的智能移動(dòng)終端,推動(dòng)移動(dòng)計(jì)算技術(shù)發(fā)展“PC太大了,每個(gè)人口袋里應(yīng)該放一臺(tái)!”傳感網(wǎng)絡(luò)、普適計(jì)算、物聯(lián)網(wǎng)概念和技術(shù)“每一粒沙子都應(yīng)該是一臺(tái)計(jì)算機(jī)!”從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)移動(dòng)計(jì)算和物聯(lián)網(wǎng)云計(jì)算發(fā)展的背景2006年至今“更分散同時(shí)也更集中”后端更加集中:另一方面,后端更加集中,出現(xiàn)云計(jì)算概念和技術(shù),讓計(jì)算成為像水電一樣的公共服務(wù),便于資源共享,以及提供超大的計(jì)算能力從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)云計(jì)算云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)從信息處理及其模式看物聯(lián)網(wǎng)的發(fā)展信息是物理世界中對(duì)象和事物狀態(tài)屬性的抽象和表示信息處理是借助于計(jì)算機(jī)對(duì)信息進(jìn)行加工處理的過(guò)程信息處理完成后將反作用于物理世界中的對(duì)象和事物計(jì)算機(jī)物理世界信息云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)從信息處理及其模式看物聯(lián)網(wǎng)的發(fā)展按照從物理對(duì)象獲取和反饋信息的方式和對(duì)象與計(jì)算系統(tǒng)之間的耦合度,信息處理可分為4種模式:
早期計(jì)算模式主要是離線獲取、離線反饋的松耦合模式,信息處理和使用的效率不高
離線獲取在線反饋云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)從信息處理及其模式看物聯(lián)網(wǎng)的發(fā)展而現(xiàn)在越來(lái)越強(qiáng)調(diào)對(duì)物理對(duì)象信息處理的普遍性、時(shí)效性和方便性,因此越來(lái)越需要在線獲取和在線反饋的緊耦合模式,這就產(chǎn)生“物聯(lián)網(wǎng)”的概念和計(jì)算模式人作為物理世界中一類特殊對(duì)象、以及控制和使用計(jì)算系統(tǒng)的主體,如果我們綜合考慮人、計(jì)算系統(tǒng)和物理世界對(duì)象三者間的交互作用,這就產(chǎn)生“人機(jī)物系統(tǒng)”的概念和計(jì)算模式
云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢(shì)云計(jì)算與物聯(lián)網(wǎng)物聯(lián)網(wǎng)是前端計(jì)算能力向物理世界的前伸,使得計(jì)算系統(tǒng)與物理世界對(duì)象深度融合,獲取信息更加快速和多樣,信息量迅猛增長(zhǎng)云計(jì)算則是計(jì)算系統(tǒng)后端處理能力的拓展,為快速有效處理大量物理世界的信息提供有效的計(jì)算手段和計(jì)算能力兩者將相互結(jié)合,推動(dòng)新的計(jì)算模式和計(jì)算技術(shù)發(fā)展什么是云計(jì)算?CloudComputing,UtilityComputing,ServiceComputing……通過(guò)集中式遠(yuǎn)程計(jì)算資源池,以按需分配方式,為終端用戶提供強(qiáng)大而廉價(jià)的計(jì)算服務(wù)能力工業(yè)化部署、商業(yè)化運(yùn)作的大規(guī)模計(jì)算能力一種新的、可商業(yè)化的計(jì)算和服務(wù)模式計(jì)算能力像水電煤氣一樣,按需分配使用資源池物理上對(duì)用戶透明就像在云端一樣云計(jì)算概念的由來(lái)“Thecomputationandthedataandsoforthareintheservers.…Wecallitcloudcomputing.”(ErickSchmidt,2006)“computationmaysomedaybeorganizedasapublicutility”(JohnMcCarthy,1960)“云計(jì)算”的概念在2006年由Google公司正式提出但最初的思想雛形可追溯到更早的時(shí)間云計(jì)算的發(fā)展目標(biāo)云計(jì)算的一個(gè)重要目標(biāo)是,把計(jì)算能力變成像水電等公用服務(wù)一樣,隨用隨取,按需使用。故此也有人把云計(jì)算稱為“UtilityComputing”這里Utility不是效用、實(shí)用的意思,在英文里Utility有一個(gè)專門的含義,專指類似于水電煤氣的公用服務(wù),故UtilityComputing應(yīng)譯為“公用服務(wù)計(jì)算”云計(jì)算的主要特點(diǎn)透明的云端計(jì)算服務(wù)“無(wú)限”多的計(jì)算資源,提供強(qiáng)大的計(jì)算能力按需分配,彈性伸縮,取用方便,成本低廉資源共享,降低企業(yè)IT基礎(chǔ)設(shè)施建設(shè)維護(hù)費(fèi)用應(yīng)用部署快速而容易軟件/應(yīng)用功能更新方便快捷節(jié)省能源,綠色環(huán)保集計(jì)算技術(shù)之大成,具有很強(qiáng)的技術(shù)性、工程型特點(diǎn)云計(jì)算的分類按云計(jì)算服務(wù)層面進(jìn)行分類SaaS:SoftwareasaService提供各種應(yīng)用軟件服務(wù)PaaS:PlatformasaService提供軟件支撐平臺(tái)服務(wù)IaaS:InfrastructureasaService提供接近于裸機(jī)(物理機(jī)或虛擬機(jī))的計(jì)算資源
和基礎(chǔ)設(shè)施服務(wù)云計(jì)算硬件平臺(tái)云計(jì)算的分類云計(jì)算軟件支撐平臺(tái)云計(jì)算應(yīng)用服務(wù)軟件SaaS如騰訊云詞典PaaS如GoogleAppEngIaaS如AmazonEC2云計(jì)算應(yīng)用按云計(jì)算服務(wù)層面進(jìn)行分類云計(jì)算的分類按云計(jì)算系統(tǒng)類型進(jìn)行分類聯(lián)邦云計(jì)算戰(zhàn)略報(bào)告中,定義了4中云:公用云:提供面向社會(huì)大眾、公共群體的云計(jì)算服務(wù)如Amazon云平臺(tái),GoogleAppEng公有云有很多優(yōu)點(diǎn),但最大的一個(gè)缺點(diǎn)是難以保證數(shù)據(jù)的私密性私有云:提供面向應(yīng)用行業(yè)/組織內(nèi)的云計(jì)算服務(wù)如政府機(jī)關(guān)、移動(dòng)通信、學(xué)校等內(nèi)部使用的云平臺(tái)私有云可較好地解決數(shù)據(jù)私密性問(wèn)題,對(duì)移動(dòng)通信、公安等數(shù)據(jù)私密性要求特別高的企業(yè)或機(jī)構(gòu),建設(shè)私有云將是一個(gè)必然的選擇云計(jì)算的分類按云計(jì)算系統(tǒng)類型進(jìn)行分類社區(qū)云:提供面向社團(tuán)組織內(nèi)用戶使用的云計(jì)算平臺(tái)如航天局(NASA)Nebula云平臺(tái)為NASA內(nèi)的研究人員提供快速的IT訪問(wèn)服務(wù)混合云:包含以上2種以上云計(jì)算類型的混合式云平臺(tái)云計(jì)算發(fā)展的推動(dòng)力應(yīng)用需求推動(dòng)力大粒度應(yīng)用系統(tǒng)日益增多,系統(tǒng)規(guī)模日益擴(kuò)大應(yīng)用系統(tǒng)數(shù)據(jù)量爆炸性增長(zhǎng)中國(guó)移動(dòng)全國(guó)每天的短信通聯(lián)記錄數(shù)據(jù)達(dá)到500TB;而中國(guó)移動(dòng)一個(gè)流量最大的省每天的通聯(lián)記錄數(shù)據(jù)可達(dá)到65TB阿里巴巴電子商務(wù)平臺(tái)日處理數(shù)據(jù)量將達(dá)到500TB,目前淘寶交易總數(shù)據(jù)量已經(jīng)達(dá)到1500PB百度存儲(chǔ)100-1000PB數(shù)據(jù),每日處理10-100PB;存儲(chǔ)1千-1萬(wàn)億網(wǎng)頁(yè),索引100-1000億網(wǎng)頁(yè)僅年,全世界產(chǎn)生(萬(wàn)億GB)數(shù)據(jù),相當(dāng)于每位人每分鐘寫3條Twitter,不停地寫萬(wàn)年YouTube每分鐘有13h視頻上傳,每天數(shù)據(jù)10TB相當(dāng)于好萊塢每周發(fā)行57000部電影 云計(jì)算發(fā)展的推動(dòng)力應(yīng)用需求推動(dòng)力大粒度應(yīng)用系統(tǒng)日益增多,系統(tǒng)規(guī)模日益擴(kuò)大超大的計(jì)算量和計(jì)算復(fù)雜度用SGI工作站進(jìn)行電影渲染時(shí),每幀一般需要1~2小時(shí)一部2小時(shí)的電影渲染需要:
2小時(shí)x3600秒x24幀x(1~2小時(shí))/24小時(shí)=20~40年!特殊場(chǎng)景每幀可能需要60個(gè)小時(shí)(影片“星艦騎兵”中數(shù)千只蜘蛛爬行的場(chǎng)面),用橫向4096象素分辨率進(jìn)行渲染時(shí),如果以每幀60個(gè)小時(shí)的速度,則1秒的放映量(24幀)需要60天的渲染時(shí)間,1分鐘則需要100年!云計(jì)算發(fā)展的推動(dòng)力應(yīng)用需求推動(dòng)力小粒度應(yīng)用系統(tǒng)資源重復(fù)、無(wú)法共享
企業(yè)內(nèi)大量的小粒度應(yīng)用系統(tǒng)需要添置獨(dú)立的硬件資源,但不同應(yīng)用系統(tǒng)忙閑不均,忙時(shí)資源不夠,閑時(shí)資源空置,資源無(wú)法相互調(diào)配和共享,造成資源和資金浪費(fèi)淘寶網(wǎng)案例:后臺(tái)設(shè)置約15萬(wàn)臺(tái)服務(wù)器,服務(wù)于不同的應(yīng)用系統(tǒng);而不同應(yīng)用系統(tǒng)的負(fù)載不同,忙閑不均;據(jù)淘寶測(cè)算,如能在不同應(yīng)用間合理調(diào)配計(jì)算資源,大約可省去2/3約10萬(wàn)臺(tái)服務(wù)器,以每臺(tái)3萬(wàn)元計(jì)算,可節(jié)省約30億元!云計(jì)算發(fā)展的推動(dòng)力技術(shù)發(fā)展推動(dòng)力云計(jì)算是諸多計(jì)算技術(shù)發(fā)展成熟與自然進(jìn)化的產(chǎn)物計(jì)算機(jī)虛擬化技術(shù)、大規(guī)模并行計(jì)算、分布式存儲(chǔ)、面向服務(wù)構(gòu)架、公用服務(wù)計(jì)算等諸多技術(shù)廣泛應(yīng)用計(jì)算機(jī)系統(tǒng)規(guī)模和處理能力迅速擴(kuò)大技術(shù)發(fā)展成熟與自然進(jìn)化的結(jié)果云計(jì)算發(fā)展的重要性
“從來(lái)講,云計(jì)算已經(jīng)是無(wú)可爭(zhēng)議的主流……,整個(gè)信息工業(yè)都是以云計(jì)算為主流往前推動(dòng)的。云計(jì)算對(duì)整個(gè)信息技術(shù)和整個(gè)社會(huì)將帶來(lái)非常非常大的影響。”
微軟全球副總裁陸奇,年10月29日,“中國(guó)云·移動(dòng)互聯(lián)網(wǎng)創(chuàng)新大獎(jiǎng)賽決賽頒獎(jiǎng)典禮暨創(chuàng)新創(chuàng)業(yè)論壇”主題報(bào)告云計(jì)算發(fā)展的重要性
“是什么樣的推動(dòng)力產(chǎn)生云計(jì)算?什么樣的大浪潮可以把云計(jì)算繼續(xù)往前推動(dòng)?我個(gè)人的體會(huì),就是計(jì)算模式……。一種計(jì)算模式,真正有強(qiáng)大生命力的話,是必須要產(chǎn)生強(qiáng)大的社會(huì)經(jīng)濟(jì)價(jià)值,市場(chǎng)價(jià)值,同時(shí)對(duì)社會(huì)造成公益?!?/p>
微軟全球副總裁陸奇,年10月29日,“中國(guó)云·移動(dòng)互聯(lián)網(wǎng)創(chuàng)新大獎(jiǎng)賽決賽頒獎(jiǎng)典禮暨創(chuàng)新創(chuàng)業(yè)論壇”主題報(bào)告云計(jì)算發(fā)展的重要性年2月8日奧巴馬總統(tǒng)簽署了聯(lián)邦云計(jì)算戰(zhàn)略報(bào)告,制定該報(bào)告的目的:TheFederalGovernment’scurrentInformationTechnology(IT)environmentischaracterizedbylowassetutilization,afragmenteddemandforresources,duplicativesystems,environmentswhicharedifficulttomanage,andlongprocurementleadtimes.TheseinefficienciesnegativelyimpacttheFederalGovernment’sabilitytoservetheAmericanpublic.Cloudcomputinghasthepotentialtoplayamajorpartinaddressingtheseinefficienciesandimprovinggovernmentservicedelivery.Thecloudcomputingmodelcansignificantlyhelpagenciesgrapplingwiththeneedtoprovidehighlyreliable,innovativeservicesquicklydespiteresourceconstraints.聯(lián)邦政府部門計(jì)劃用全部的800億美元IT預(yù)算中的200億作為云計(jì)算平臺(tái)開(kāi)發(fā)建設(shè)的費(fèi)用。聯(lián)邦云計(jì)算戰(zhàn)略報(bào)告,/2/8云計(jì)算發(fā)展的重要性聯(lián)邦云計(jì)算戰(zhàn)略報(bào)告認(rèn)為:CloudisafundamentalshiftinITCloudcomputingenablesITsystemstobescalableandelastic.Endusersdonotneedtodeterminetheirexactcomputingresourcerequirementsupfront.Instead,theyprovisioncomputingresourcesasrequired,on-demand.Usingcloudcomputingservices,aFederalagencydoesnotneedtoowndatacenterinfrastructuretolaunchacapabilitythatservesmillionsofusersCloudcomputingcansignificantlyimprovepublicsectorITAnumberofgovernmentagenciesareadoptingcloudtechnologiesandarerealizingconsiderablebenefits.Forinstance,NASANebula,throughacommunitycloud,givesresearchersaccesstoITservicesrelativelyinexpensivelyinminutes.Priortoadoptingthisapproach,itwouldtakeresearchersmonthstoprocureandconfigurecomparableITresourcesandsignificantmanagementoversighttomonitorandupgradesystems.ApplyingcloudtechnologiesacrosstheentireFederalGovernmentcanyieldtremendousbenefitsinefficiency,agility,andinnovation.云計(jì)算發(fā)展現(xiàn)狀與趨勢(shì)業(yè)界云計(jì)算技術(shù)的發(fā)展自2006年Google公司提出云計(jì)算技術(shù)的概念后,全球IT著名企業(yè)紛紛予以極大關(guān)注,并投入了巨大力量進(jìn)行云計(jì)算技術(shù)的研究開(kāi)發(fā)。GoogleCloudInfrastructureSchedulerChubbyGFSmasterNodeNodeNode…UserGoogleAppEngineSchedulerslaveGFSLinuxNodeMapReduceFrameworkBigTableServerGoogleCloudInfrastructure
(GoogleAppEngine,PaaS型公用云平臺(tái))GoogleAppEngine提供了一種PaaS類型的云計(jì)算服務(wù)平臺(tái),用戶可租用該平臺(tái)的計(jì)算資源,并使用AppEngine提供的各種應(yīng)用開(kāi)發(fā)和支撐軟件平臺(tái)開(kāi)發(fā)和部署自己的應(yīng)用軟件S3EBSEC2EBSEC2EBSEC2EBSEC2SimpleDBSQSUserDeveloperAmazonElasticComputingCloud
(AmazonEC2,IaaS型公用云平臺(tái))SQS:SimpleQueueServiceEC2:RunningInstanceofVirtualMachinesEBS:ElasticBlockService,ProvidingtheBlockInterface,StoringVirtualMachineImagesS3:SimpleStorageService,SOAP,ObjectInterfaceSimpleDB:SimplifiedDatabaseAmazonEC2提供了一種IaaS類型的云計(jì)算服務(wù)平臺(tái),在該平臺(tái)上用戶可部署自己的系統(tǒng)軟件,完成應(yīng)用軟件的開(kāi)發(fā)和發(fā)布。租用案例12007年,紐約時(shí)報(bào)租用Amazon云計(jì)算平臺(tái),用于將1851-1922年紐約時(shí)報(bào)的1100萬(wàn)篇報(bào)刊文章轉(zhuǎn)換為PDF文件,供讀者上網(wǎng)免費(fèi)訪問(wèn)。共租用了100個(gè)EC2節(jié)點(diǎn),運(yùn)行了24小時(shí),處理了4TB的報(bào)刊原始掃描圖像,生成了的PDF文件。每節(jié)點(diǎn)每小時(shí)費(fèi)用為10美分,整個(gè)計(jì)算任務(wù)僅花費(fèi)了240美元(100節(jié)點(diǎn)x24小時(shí)x$0.10)!如果用自己的服務(wù)器,將需要數(shù)月和多得多的費(fèi)用!AmazonElasticComputingCloud租用案例2SmugMug(數(shù)億張照片,幾十萬(wàn)付費(fèi)用戶,僅50人)是一個(gè)在線照片存儲(chǔ)公司,初期和傳統(tǒng)公司一樣,建立了自己的數(shù)據(jù)中心,并通過(guò)不斷添置新的IT設(shè)備以適應(yīng)業(yè)務(wù)量增長(zhǎng),但是很快發(fā)現(xiàn)業(yè)務(wù)量增長(zhǎng)速度大大超過(guò)了設(shè)備添加的速度。作為一家未完全盈利的新型公司,顯然難以長(zhǎng)期承受巨額的基礎(chǔ)設(shè)施開(kāi)銷。最后公司選擇使用Amazon的S3服務(wù),結(jié)合公司實(shí)際情況,將最熱門的部分照片存儲(chǔ)在公司自己的服務(wù)器中,剩下的絕大部分照片則轉(zhuǎn)移到S3服務(wù)器中,由Amazon來(lái)提供照片的安全存儲(chǔ)。它把超過(guò)的數(shù)據(jù)存儲(chǔ)在Amazon的S3云存儲(chǔ)中,由此節(jié)約的服務(wù)和存儲(chǔ)成本接近100萬(wàn)美元。AmazonElasticComputingCloud2022/12/13AmazonElasticComputingCloud租用案例3Animoto公司為注冊(cè)用戶提供通過(guò)網(wǎng)站進(jìn)行圖片和音樂(lè)上傳、在線視頻制作和分享等服務(wù)。開(kāi)始選擇了一家web托管服務(wù)提供商來(lái)完成數(shù)據(jù)處理和信息存儲(chǔ)。年年初網(wǎng)站每天用戶數(shù)約為5000人,但到4月中旬,由于Facebook用戶開(kāi)始使用Animoto服務(wù),該網(wǎng)站在三天內(nèi)的用戶數(shù)大幅上升至75萬(wàn)人,所要求的服務(wù)器能力需要大約提高100倍,但該網(wǎng)站既無(wú)資金有無(wú)能力來(lái)建立規(guī)模如此巨大的計(jì)算能力,因此,該網(wǎng)站與云計(jì)算服務(wù)公司RightScale合作,設(shè)計(jì)了能夠在Amazon云中使用的應(yīng)用程序。這樣,使得該網(wǎng)站大大提高了計(jì)算能力,而費(fèi)用僅每小時(shí)每臺(tái)服務(wù)器10美分。它使用AmazonEC2快速擴(kuò)展處理能力,使用3500個(gè)同時(shí)運(yùn)行的虛擬實(shí)例,成功渡過(guò)了一次Web通信高峰期可能帶來(lái)的系統(tǒng)癱瘓。2022/12/13MicrosoftCloudServices
(WindowAzure,私有云平臺(tái)管理和服務(wù)軟件)
Azure?ServicesPlatformMicrosoftSharePointServicesMicrosoftDynamicsCRMServicesIBM云計(jì)算方案
(私有云計(jì)算平臺(tái)管理和服務(wù)軟件)提供私有云計(jì)算資源管理軟件平臺(tái),主要負(fù)責(zé)管理和調(diào)度虛擬計(jì)算資源,完成資源申請(qǐng)、調(diào)度和管理等整個(gè)生命周期管理其它國(guó)內(nèi)外IT企業(yè)云計(jì)算研發(fā)
除以上幾家全球著名的IT企業(yè)外,其它著名IT企業(yè)如Cisco、HP、EMC、VMWare等,都在大力推進(jìn)云計(jì)算技術(shù)和系統(tǒng)研發(fā)。國(guó)內(nèi)各大著名IT企業(yè),如中國(guó)移動(dòng)、中國(guó)電信、中國(guó)聯(lián)通、阿里巴巴、騰訊、百度、萬(wàn)網(wǎng)等,都在大力推動(dòng)云計(jì)算技術(shù)和系統(tǒng)研發(fā)。尤其是著名的網(wǎng)絡(luò)設(shè)備制造商中興通信和華為,正在開(kāi)始從傳統(tǒng)的網(wǎng)絡(luò)電信設(shè)備制造向計(jì)算技術(shù)領(lǐng)域轉(zhuǎn)移,他們把云計(jì)算作為實(shí)現(xiàn)重大戰(zhàn)略轉(zhuǎn)移的一個(gè)重大契機(jī)云計(jì)算發(fā)展現(xiàn)狀與趨勢(shì)中國(guó)移動(dòng)BigCloud云計(jì)算發(fā)展現(xiàn)狀目標(biāo)是建立可為中國(guó)移動(dòng)企業(yè)內(nèi)部進(jìn)行海量通信數(shù)據(jù)存儲(chǔ)和處理的使用的私有云平臺(tái),以及為社會(huì)大眾和群體使用的公有云平臺(tái)。阿里巴巴“飛天”云計(jì)算平臺(tái)已經(jīng)有超過(guò)2萬(wàn)個(gè)上線租用企業(yè)用戶中興通信中興通信云計(jì)算發(fā)展現(xiàn)狀與趨勢(shì)云計(jì)算發(fā)展趨勢(shì)云計(jì)算將提供一種新的計(jì)算模式和服務(wù)模式。云計(jì)算將是計(jì)算技術(shù)的一次重大變革,作為今后計(jì)算發(fā)展的潮流將大大改變現(xiàn)有的計(jì)算模式,對(duì)計(jì)算技術(shù)領(lǐng)域本身以及各個(gè)應(yīng)用行業(yè)都將帶來(lái)重大的影響,提供更多的發(fā)展機(jī)遇通過(guò)云計(jì)算人們能獲得前所未有的強(qiáng)大計(jì)算能力,并能按需分配,按需付費(fèi),提升了本地計(jì)算能力但使用成本低廉,而且還能大幅削減不斷升級(jí)軟硬件系統(tǒng)的費(fèi)用通過(guò)云計(jì)算平臺(tái)強(qiáng)大的計(jì)算和存儲(chǔ)能力,人們將能完成傳統(tǒng)系統(tǒng)所無(wú)法完成的計(jì)算和處理,開(kāi)發(fā)出更強(qiáng)大的應(yīng)用功能,提供更多智能化應(yīng)用云計(jì)算解決什么主要問(wèn)題?集中管理的計(jì)算資源池基于資源共享的小粒度應(yīng)用基于大規(guī)模計(jì)算資源的大粒度應(yīng)用基于資源共享的小粒度應(yīng)用基于資源共享的小粒度應(yīng)用基于資源共享的小粒度應(yīng)用基于資源共享的小粒度應(yīng)用用一個(gè)集中管理的巨大的計(jì)算資源池,提供巨大的計(jì)算資源和能力1)為小粒度應(yīng)用提供資源共享;2)為大粒度應(yīng)用提供大規(guī)模計(jì)算能力基于云計(jì)算的共享應(yīng)用與服務(wù)云計(jì)算系統(tǒng)的組成物理存儲(chǔ)計(jì)算資源池虛擬化彈性資源調(diào)度管理虛擬資源池小粒度應(yīng)用與服務(wù)分布式存儲(chǔ)并行計(jì)算框架查詢分析挖掘并行算法云安全管理云計(jì)算管理大數(shù)據(jù)應(yīng)用與服務(wù)云計(jì)算應(yīng)用與服務(wù)云計(jì)算的關(guān)鍵技術(shù)云計(jì)算的關(guān)鍵技術(shù)主要包括以下關(guān)鍵技術(shù)虛擬化技術(shù):虛擬機(jī)的安裝、設(shè)置、調(diào)度分配、使用、故障檢測(cè)與失效恢復(fù)等云計(jì)算構(gòu)架技術(shù):研究解決適合于云計(jì)算的系統(tǒng)軟硬件構(gòu)架資源調(diào)度技術(shù):解決物理或虛擬計(jì)算資源的自動(dòng)化分配、調(diào)度、配置、使用、負(fù)載均衡、回收等資源管理并行計(jì)算技術(shù):針對(duì)大數(shù)據(jù)或復(fù)雜計(jì)算應(yīng)用,解決數(shù)據(jù)或計(jì)算任務(wù)切分和并行計(jì)算算法設(shè)計(jì)問(wèn)題云計(jì)算的關(guān)鍵技術(shù)主要包括以下關(guān)鍵技術(shù)大數(shù)據(jù)存儲(chǔ)技術(shù):解決大數(shù)據(jù)的分布存儲(chǔ)、共享訪問(wèn)、數(shù)據(jù)備份等問(wèn)題云安全技術(shù):解決云計(jì)算系統(tǒng)的訪問(wèn)安全性、數(shù)據(jù)安全性(包括數(shù)據(jù)私密性)等問(wèn)題云計(jì)算應(yīng)用:面向各個(gè)行業(yè)的、不同形式的云計(jì)算應(yīng)用技術(shù)和系統(tǒng)此外,還有云計(jì)算中心的節(jié)能和散熱等工程技術(shù)問(wèn)題云計(jì)算的關(guān)鍵技術(shù)怎樣才算是云計(jì)算系統(tǒng)?個(gè)人認(rèn)為:一個(gè)計(jì)算系統(tǒng)必須具備以下兩個(gè)特征才能算是云計(jì)算系統(tǒng)(至少具備第一個(gè)特征):資源虛擬化和彈性調(diào)度解決小粒度應(yīng)用資源共享
基于虛擬化和彈性調(diào)度,以按需分配方式,為小粒度應(yīng)用提供計(jì)算資源,實(shí)現(xiàn)資源共享大數(shù)據(jù)存儲(chǔ)處理和并行計(jì)算服務(wù)提供大粒度應(yīng)用計(jì)算能力
基于云端的強(qiáng)大而廉價(jià)的計(jì)算能力,為大粒度應(yīng)用提供傳統(tǒng)計(jì)算系統(tǒng)或用戶終端所無(wú)法完成的計(jì)算服務(wù)。這些計(jì)算能力包括海量數(shù)據(jù)存儲(chǔ)能力、以及大規(guī)模并行計(jì)算能力。Wiki百科:bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtools
大數(shù)據(jù)意指一個(gè)超大的、難以用現(xiàn)有常規(guī)的數(shù)據(jù)庫(kù)管理技術(shù)和工具處理的數(shù)據(jù)集IDC報(bào)告:Bigdatatechnologiesdescribeanewgenerationoftechnologiesandarchitectures,designedtoeconomicallyextractvaluefromverylargevolumesofawidevarietyofdata,byenablinghigh-velocitycapture,discovery,and/oranalysis.
大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和構(gòu)架,用于以很經(jīng)濟(jì)的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值什么是大數(shù)據(jù)?大數(shù)據(jù)處理技術(shù)的重要性大數(shù)據(jù)(BigData)應(yīng)用需求出現(xiàn)越來(lái)越多的大數(shù)據(jù)應(yīng)用和行業(yè)需求。年,在Google成立10周年之際,《Nature》雜志出版一期專刊專門討論未來(lái)的大數(shù)據(jù)(BigData)處理相關(guān)的一系列技術(shù)問(wèn)題和挑戰(zhàn)。未來(lái)10多年數(shù)據(jù)將急劇增長(zhǎng)IDC研究報(bào)告《DataUniverseStudy》提出“數(shù)據(jù)宇宙”的說(shuō)法描述海量數(shù)據(jù)2007年年年年年大數(shù)據(jù)處理技術(shù)的重要性大數(shù)據(jù)處理技術(shù)的重要性未來(lái)急劇增長(zhǎng)的數(shù)據(jù)迫切需要尋求新的處理技術(shù)手段IDC報(bào)告《DataUniverseStudy》全世界權(quán)威IT咨詢公司研究報(bào)告預(yù)測(cè):全世界數(shù)據(jù)量未來(lái)10年將從年的增長(zhǎng)到年的35ZB,增長(zhǎng)44倍!年均增長(zhǎng)率>40%!0.8ZB:一堆DVD堆起來(lái)夠地球到月亮一個(gè)來(lái)回35ZB:一堆DVD堆起來(lái)是地球到火星距離的一半聯(lián)邦政府發(fā)布大數(shù)據(jù)研發(fā)專項(xiàng)研究計(jì)劃聯(lián)邦政府下屬的國(guó)防部、能源部、衛(wèi)生總署等7部委聯(lián)合推動(dòng),于年3月底發(fā)布了大數(shù)據(jù)研發(fā)專項(xiàng)研究計(jì)劃(BigDataInitiative),擬投入2億美元用于研究開(kāi)發(fā)科學(xué)探索、環(huán)境和生物醫(yī)學(xué)、教育和國(guó)家安全等重大領(lǐng)域和行業(yè)所急需的大數(shù)據(jù)處理技術(shù)和工具,把大數(shù)據(jù)研究上升到為國(guó)家發(fā)展戰(zhàn)略。大數(shù)據(jù)處理技術(shù)的重要性56“大數(shù)據(jù)研究的科學(xué)價(jià)值”李國(guó)杰,《中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》,vol.8,年3月,奧巴馬政府宣布2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,這是繼1993年宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署。政府認(rèn)為大數(shù)據(jù)是“未來(lái)的新石油”,將“大數(shù)據(jù)研究”上升為國(guó)家意志,對(duì)未來(lái)的科技與經(jīng)濟(jì)發(fā)展必將帶來(lái)深遠(yuǎn)影響。一個(gè)國(guó)家擁有數(shù)據(jù)的規(guī)模和運(yùn)用數(shù)據(jù)的能力將成為綜合國(guó)力的重要組成部分,對(duì)數(shù)據(jù)的占有和控制也將成為國(guó)家間和企業(yè)間新的爭(zhēng)奪焦點(diǎn)。大數(shù)據(jù)處理技術(shù)的重要性57數(shù)據(jù)科學(xué)(DataScience)
國(guó)內(nèi)外出現(xiàn)了“數(shù)據(jù)科學(xué)”的概念圖靈獎(jiǎng)獲得者JimGray:2007年最后一次演講中提出“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-IntensiveScientificDiscovery)”將成為科學(xué)研究的第四范式實(shí)驗(yàn)科學(xué)理論科學(xué)計(jì)算科學(xué)數(shù)據(jù)科學(xué)世界著名存儲(chǔ)技術(shù)公司EMC提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李國(guó)杰院士:“數(shù)據(jù)科學(xué)”研究的對(duì)象是什么?計(jì)算機(jī)科學(xué)是關(guān)于算法的科學(xué),數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)。大數(shù)據(jù)處理技術(shù)的重要性58大數(shù)據(jù)將帶來(lái)巨大的技術(shù)和商業(yè)機(jī)遇
大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來(lái)巨大的商業(yè)價(jià)值原始信息行業(yè)數(shù)據(jù)知識(shí)報(bào)表制圖電子文檔信息檢索數(shù)據(jù)倉(cāng)庫(kù)海量分析知識(shí)挖掘信息化技術(shù)大數(shù)據(jù)分析PC時(shí)代互聯(lián)網(wǎng)時(shí)代大數(shù)據(jù)時(shí)代大數(shù)據(jù)處理技術(shù)的重要性應(yīng)用數(shù)據(jù)規(guī)模急劇增加,傳統(tǒng)計(jì)算計(jì)算面臨嚴(yán)重挑戰(zhàn)中國(guó)移動(dòng)江蘇省通聯(lián)記錄(CDR)數(shù)據(jù)每月達(dá),而整個(gè)中國(guó)移動(dòng)每月則高達(dá)7-15PB數(shù)據(jù);如此巨大的數(shù)據(jù)量使得Oracle等數(shù)據(jù)庫(kù)系統(tǒng)已經(jīng)難以支撐和應(yīng)對(duì)南京市公安局320道路監(jiān)控云計(jì)算系統(tǒng),數(shù)據(jù)量為三年200億條、總量120TB的車輛監(jiān)控?cái)?shù)據(jù)中國(guó)深圳華大基因研究所成為全世界最大測(cè)序中心,每天產(chǎn)生300GB基因序列數(shù)據(jù)(每年100TB)百度存儲(chǔ)數(shù)百PB數(shù)據(jù),每天處理數(shù)據(jù)10PB淘寶存儲(chǔ)14PB交易數(shù)據(jù),每天新增數(shù)據(jù)40-50TB大數(shù)據(jù)處理技術(shù)發(fā)展的驅(qū)動(dòng)力60大數(shù)據(jù)處理技術(shù)發(fā)展的驅(qū)動(dòng)力大規(guī)模數(shù)據(jù)處理和行業(yè)應(yīng)用需求日益增加和迫切出現(xiàn)越來(lái)越多的大規(guī)模數(shù)據(jù)處理應(yīng)用需求,傳統(tǒng)系統(tǒng)難以提供足夠的存儲(chǔ)和計(jì)算資源進(jìn)行處理,云計(jì)算平臺(tái)是最理想的解決方案。調(diào)查顯示:目前,IT專業(yè)人員對(duì)云計(jì)算中諸多關(guān)鍵技術(shù)最為關(guān)心的是大規(guī)模數(shù)據(jù)并行處理技術(shù)大數(shù)據(jù)并行處理沒(méi)有通用和現(xiàn)成的解決方案對(duì)于應(yīng)用行業(yè)來(lái)說(shuō),云計(jì)算平臺(tái)軟件、虛擬化軟件都不需要自己開(kāi)發(fā),但行業(yè)的大規(guī)模數(shù)據(jù)處理應(yīng)用沒(méi)有現(xiàn)成和通用的軟件,需要針對(duì)特定的應(yīng)用需求專門開(kāi)發(fā),涉及到諸多并行化算法、索引查詢優(yōu)化技術(shù)研究、以及系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)大數(shù)據(jù)處理技術(shù)發(fā)展的驅(qū)動(dòng)力現(xiàn)有數(shù)據(jù)處理能力大幅落后于數(shù)據(jù)增長(zhǎng)速度
數(shù)據(jù)訪問(wèn)能力大幅落后于數(shù)據(jù)增長(zhǎng)速度磁盤容量增長(zhǎng)遠(yuǎn)遠(yuǎn)快過(guò)存儲(chǔ)訪問(wèn)帶寬和延遲:80年代中期數(shù)十MB到今天的TB量級(jí),增長(zhǎng)數(shù)十萬(wàn)倍,而延遲僅提高2倍,帶寬僅提高50倍!100TB數(shù)據(jù)順序讀一遍需要多少時(shí)間?設(shè)硬盤讀取訪問(wèn)速率128MB/秒1TB/128MB約小時(shí)100TB/128MB=217小時(shí)=9天!
即使用百萬(wàn)元高速磁盤陣列(800MB/s),仍需天!數(shù)據(jù)存儲(chǔ)能力大幅落后于數(shù)據(jù)增長(zhǎng)速度大數(shù)據(jù)處理技術(shù)發(fā)展的驅(qū)動(dòng)力海量數(shù)據(jù)隱含著更準(zhǔn)確的事實(shí)
研究發(fā)現(xiàn):大數(shù)據(jù)量可顯著提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確性;訓(xùn)練數(shù)據(jù)集越大,數(shù)據(jù)分類精度越高;大數(shù)據(jù)集上的簡(jiǎn)單算法能比小數(shù)據(jù)集上的復(fù)雜算法產(chǎn)生更好的結(jié)果,因此數(shù)據(jù)量足夠大時(shí)有可能使用代價(jià)很小的簡(jiǎn)單算法來(lái)達(dá)到很好的學(xué)習(xí)精度。例如,2001年,一個(gè)基于事實(shí)的簡(jiǎn)短問(wèn)答研究,如提問(wèn):WhoshotAbrahamLincoln?在很大的數(shù)據(jù)集時(shí),只要使用簡(jiǎn)單的模式匹配方法,找到在“shotAbrahamLincoln”前面的部分即可快速得到準(zhǔn)確答案:JohnWilkesBooth結(jié)構(gòu)特征結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)獲取和處理方式動(dòng)態(tài)(流式/增量式/線上)/實(shí)時(shí)數(shù)據(jù)靜態(tài)(線下數(shù)據(jù))/非實(shí)時(shí)數(shù)據(jù)關(guān)聯(lián)特征無(wú)關(guān)聯(lián)/簡(jiǎn)單關(guān)聯(lián)數(shù)據(jù)(鍵值記錄型數(shù)據(jù))復(fù)雜關(guān)聯(lián)數(shù)據(jù)(圖數(shù)據(jù))大數(shù)據(jù)的類型大數(shù)據(jù)的基本特點(diǎn)海量數(shù)據(jù)及其特點(diǎn)(4個(gè)V):Volume:大容量,TB-ZBVariety:多樣性Velocity:時(shí)效性Veracity:準(zhǔn)確性數(shù)據(jù)尺度和關(guān)聯(lián)度空間DataconnectednessDatasizeTypicalRDBMSSQLComfortZoneDisk-basedKey-valueStoreColumnStoreDocumentStoreGraphDB大數(shù)據(jù)問(wèn)題的基本特點(diǎn)大數(shù)據(jù)來(lái)自應(yīng)用行業(yè),具有極強(qiáng)的行業(yè)應(yīng)用需求特性數(shù)據(jù)規(guī)模極大,達(dá)到PB甚至EB量級(jí),超過(guò)任何傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的處理能力大數(shù)據(jù)處理給傳統(tǒng)計(jì)算技術(shù)帶來(lái)極大挑戰(zhàn),大多數(shù)傳統(tǒng)算法在面向大數(shù)據(jù)處理時(shí)都面臨問(wèn)題,需要重寫大數(shù)據(jù)研究的基本原則應(yīng)用需求為導(dǎo)向領(lǐng)域交叉為橋梁計(jì)算技術(shù)為支撐大數(shù)據(jù)問(wèn)題的特點(diǎn)和研究原則大數(shù)據(jù)研究的挑戰(zhàn)數(shù)據(jù)規(guī)模導(dǎo)致難以應(yīng)對(duì)的存儲(chǔ)和計(jì)算量數(shù)據(jù)規(guī)模導(dǎo)致傳統(tǒng)算法失效大數(shù)據(jù)復(fù)雜的數(shù)據(jù)關(guān)聯(lián)性導(dǎo)致高復(fù)雜度的計(jì)算大數(shù)據(jù)研究的基本途徑三個(gè)基本途徑:繼續(xù)尋找新算法降低計(jì)算復(fù)雜度降低大數(shù)據(jù)尺度,尋找數(shù)據(jù)尺度無(wú)關(guān)算法大數(shù)據(jù)并行化處理大數(shù)據(jù)研究的挑戰(zhàn)和基本途徑HadoopMapReduce是目前大數(shù)據(jù)處理的主流技術(shù)和平臺(tái)目前國(guó)際公認(rèn)和廣為接受、
最成功使用的大數(shù)據(jù)并行
處理主流技術(shù)和平臺(tái)精巧的設(shè)計(jì)和強(qiáng)大的功能分而治之的并行處理思想高層并行編程模型自動(dòng)化存儲(chǔ)計(jì)算軟件框架事實(shí)上的海量數(shù)據(jù)并行處理工業(yè)標(biāo)準(zhǔn),國(guó)內(nèi)外各大著名IT企業(yè)都在廣泛使用,Google,Amazon,FaceBook,IBM,百度,淘寶,騰訊…主流大數(shù)據(jù)處理技術(shù)MapReduce69更多有關(guān)Hadoop
MapReduce的基本設(shè)計(jì)思想、技術(shù)特點(diǎn)和工作原理,請(qǐng)參見(jiàn)本PPT168頁(yè)開(kāi)始的附錄。主流大數(shù)據(jù)處理技術(shù)MapReduce第二部分
大數(shù)據(jù)研究層面與主要研究?jī)?nèi)容技術(shù)層面大數(shù)據(jù)行業(yè)應(yīng)用/服務(wù)層應(yīng)用開(kāi)發(fā)層應(yīng)用技術(shù)層智能化計(jì)算層并行編程模型與計(jì)算框架層數(shù)據(jù)存儲(chǔ)管理層并行構(gòu)架和計(jì)算平臺(tái)層集群,多核,GPU,混合式構(gòu)架(如集群+多核,集群+GPU)云計(jì)算服務(wù)支撐平臺(tái)大數(shù)據(jù)查詢(SQL,NoSQL,實(shí)時(shí)查詢,線下分析)大數(shù)據(jù)存儲(chǔ)(DFS,HBase,MemDB,RDB)大數(shù)據(jù)預(yù)處理MapReduce,BSP,MPI,CUDA,OpenMP,定制式,混合式(如MapReduce+CUDA,MapReduce+MPI)并行化機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法社會(huì)網(wǎng)絡(luò),排名與推薦,商業(yè)智能,自然語(yǔ)言處理,生物信息媒體分析檢索,Web搜索與挖掘,3維建模與可視化…大數(shù)據(jù)研究層面和主要內(nèi)容電信/公安/商業(yè)/金融/遙感遙測(cè)/勘探/生物醫(yī)藥……領(lǐng)域應(yīng)用/服務(wù)需求和計(jì)算模型行業(yè)應(yīng)用系統(tǒng)開(kāi)發(fā)角色行業(yè)用戶領(lǐng)域?qū)<覒?yīng)用開(kāi)發(fā)者計(jì)算技術(shù)研究和開(kāi)發(fā)者大數(shù)據(jù)行業(yè)應(yīng)用與服務(wù)層行業(yè)應(yīng)用系統(tǒng)和服務(wù)行業(yè)應(yīng)用系統(tǒng)電信、公安、商業(yè)、金融、遙感遙測(cè)、地質(zhì)勘探、生物醫(yī)藥……行業(yè)應(yīng)用公共服務(wù)中間件領(lǐng)域應(yīng)用/服務(wù)需求和計(jì)算模型領(lǐng)域應(yīng)用問(wèn)題和需求領(lǐng)域應(yīng)用問(wèn)題計(jì)算模型大數(shù)據(jù)行業(yè)應(yīng)用開(kāi)發(fā)層行業(yè)應(yīng)用系統(tǒng)和服務(wù)大數(shù)據(jù)應(yīng)用開(kāi)發(fā)環(huán)境和工具大數(shù)據(jù)應(yīng)用和服務(wù)集成框架和接口大數(shù)據(jù)應(yīng)用測(cè)試環(huán)境和工具大數(shù)據(jù)應(yīng)用發(fā)布和運(yùn)行環(huán)境應(yīng)用技術(shù)層研究?jī)?nèi)容社會(huì)網(wǎng)絡(luò)排名與推薦系統(tǒng)商業(yè)智能媒體分析檢索Web挖掘與搜索3維建模與科學(xué)計(jì)算可視化生物信息自然語(yǔ)言處理……應(yīng)用技術(shù)層研究?jī)?nèi)容GoogleKnowledgeGraph
綜合應(yīng)用案例基于搜索關(guān)鍵詞語(yǔ)義理解和信息關(guān)聯(lián)性的智能化搜索功能,可提供搜索對(duì)象相關(guān)的綜合性和多樣化信息(文字和媒體信息)。涉及到前述大多數(shù)應(yīng)用技術(shù)的綜合性應(yīng)用:一種深度搜索技術(shù)基于語(yǔ)義分析理解基于信息關(guān)聯(lián)網(wǎng)絡(luò)分析多樣化排名與推薦基于圖片內(nèi)容的搜索目前GoogleKnowledgeGraph已經(jīng)有五億個(gè)信息“對(duì)象”包括35億個(gè)屬性和相互關(guān)系;但目前只支持英文,不支持中文應(yīng)用技術(shù)層研究?jī)?nèi)容GoogleKnowledgeGraph
綜合應(yīng)用案例應(yīng)用技術(shù)層研究?jī)?nèi)容社團(tuán)發(fā)現(xiàn)(CommunityDetection)網(wǎng)絡(luò)建模(NetworkModeling)中心分析和影響力建模(CentralityAnalysisandInfluenceModeling)分類推薦(ClassificationandRecommendation)隱私安全等(Privacy,SpamandSecurity)社會(huì)網(wǎng)絡(luò)應(yīng)用技術(shù)層研究?jī)?nèi)容常規(guī)排名(Ranking)多樣性排名(DiversifiedRanking)基于內(nèi)容的推薦(Content-basedRecommendation)基于標(biāo)簽的推薦(Tag-basedRecommendation)協(xié)同過(guò)濾推薦(CollaborativeFilteringRecommendation)排名與推薦系統(tǒng)應(yīng)用技術(shù)層研究?jī)?nèi)容大規(guī)模圖像檢索(ImageRetrieval)大規(guī)模圖像分類(ImageClassification)目標(biāo)檢測(cè)(Object
Recognition)視頻異常行為檢測(cè)(Abnormal
Event
Detection)媒體分析檢索應(yīng)用技術(shù)層研究?jī)?nèi)容深度Web搜索(DeepWebSearch,精確化、智能化、綜合化信息搜索)頁(yè)面分類(DocumentClassification)頁(yè)面聚類(DocumentCluster)網(wǎng)頁(yè)摘要(DocumentAutomaticSummarization)Web搜索與數(shù)據(jù)挖掘應(yīng)用技術(shù)層研究?jī)?nèi)容機(jī)器翻譯(MachineTranslation)情感分析(SentimentAnalysis)輿情分析(PublicOpinionAnalysis)智能輸入(SmartInput)問(wèn)答系統(tǒng)(QA)自然語(yǔ)言處理IBM智力競(jìng)賽機(jī)器人Watson是一個(gè)基于MapReduce數(shù)據(jù)并行處理和統(tǒng)計(jì)模型自然語(yǔ)言處理的成功應(yīng)用。IBM智力問(wèn)答機(jī)器人WatsonWatson收集了2億頁(yè)知識(shí)文本數(shù)據(jù),并基于HadoopMapReduce并行處理集群進(jìn)行數(shù)據(jù)分析,采用了優(yōu)化的并行體系結(jié)構(gòu)和優(yōu)化的知識(shí)和自然語(yǔ)言處理算法,可在1秒內(nèi)完成對(duì)大量非結(jié)構(gòu)化信息的檢索,并實(shí)時(shí)回答知識(shí)競(jìng)賽問(wèn)答題。IBM智力問(wèn)答機(jī)器人Watson應(yīng)用技術(shù)層研究?jī)?nèi)容地質(zhì)建模與分析(GeologicalModelingandAnalysis)電影渲染(MovieRendering)大規(guī)模數(shù)據(jù)可視化分析(ScaleVisualAnalytics)3維建模與大規(guī)模數(shù)據(jù)可視化應(yīng)用技術(shù)層研究?jī)?nèi)容高通量基因序列比對(duì)(High-ThroughputGeneSequenceAlignment)生物網(wǎng)絡(luò)建模與分析(BiologicalNetworkModeling
andAnalysis)生物信息處理智能化計(jì)算層研究?jī)?nèi)容大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法大數(shù)據(jù)處理并行化學(xué)習(xí)和挖掘算法不同并行模型下并行化學(xué)習(xí)和挖掘算法并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具和平臺(tái)2001,微軟研究院的BankoandBrill*等發(fā)表了一篇自然語(yǔ)言理解領(lǐng)域的經(jīng)典研究論文,探討訓(xùn)練數(shù)據(jù)集大小對(duì)分類精度的影響,發(fā)現(xiàn)數(shù)據(jù)越大,精度越高;更有趣的發(fā)現(xiàn)是,他們發(fā)現(xiàn)當(dāng)數(shù)據(jù)不斷增長(zhǎng)時(shí),不同算法的分類精度趨向于相同,使得小數(shù)據(jù)集時(shí)不同算法在精度上的差別基本消失!結(jié)論引起爭(zhēng)論:看似算法不再要緊,數(shù)據(jù)更重要!看似不再需要研究復(fù)雜算法,找更多數(shù)據(jù)就行了*M.BankoandE.Brili(2001).Scalingtoveryverylargecorporafornaturallanguagedisambiguation.ACL2001智能化計(jì)算層研究?jī)?nèi)容大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法2007,Google公司Brants*等基于MapReduce研究了一個(gè)基于2萬(wàn)億個(gè)單詞訓(xùn)練數(shù)據(jù)集的語(yǔ)言模型,比較了當(dāng)時(shí)最先進(jìn)的Kneser-Neysmoothing算法與他們稱之為“stupidbackoff“的簡(jiǎn)單算法,最后發(fā)現(xiàn),后者在小數(shù)據(jù)集時(shí)效果不佳,但在大數(shù)據(jù)集時(shí),該算法最終居然產(chǎn)生了更好的語(yǔ)言模型!結(jié)論:大數(shù)據(jù)集上的簡(jiǎn)單算法能比小數(shù)據(jù)集上的復(fù)雜算法產(chǎn)生更好的結(jié)果!*T.Brants,A.C.Popat,etal.LargeLanguageModelsinMachineTranslation.InEMNLP-CoNLL2007-Proceedingsofthe2007JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning智能化計(jì)算層研究?jī)?nèi)容大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法分類(Classification)大規(guī)模支持向量機(jī)(LargeScaleSVM)線性核、非線性核;大規(guī)模稀疏數(shù)據(jù)求解大規(guī)模凸二次規(guī)劃問(wèn)題神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)深度學(xué)習(xí)(DeepLearning),如深度置信網(wǎng)絡(luò)(DBN)、卷積神經(jīng)網(wǎng)絡(luò)等。BP、SOM網(wǎng)絡(luò)樸素貝葉斯(Na?veBayes)決策樹(shù)(DecisionTrees)、CART智能化計(jì)算層研究?jī)?nèi)容大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法聚類(Clustering)K-Means算法關(guān)聯(lián)規(guī)則挖掘Apriori算法參數(shù)估計(jì)(ParametersEstimation)EM算法智能化計(jì)算層研究?jī)?nèi)容大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法高維度數(shù)據(jù)降維(DimensionReduction)LDA算法、PCA算法、ICA算法、一些流形學(xué)習(xí)(ManifoldLearning)算法集成學(xué)習(xí)(EnsembleLearning)AdaBoost算法圖數(shù)據(jù)挖掘圖聚類,圖分類圖模式匹配(子圖同構(gòu)、最大公共子圖…)…智能化計(jì)算層研究?jī)?nèi)容并行編程模型與計(jì)算框架層研究?jī)?nèi)容MapReduceHadoop性能優(yōu)化針對(duì)I/0的優(yōu)化、針對(duì)充分利用內(nèi)存的優(yōu)化(Berkeley的Spark)針對(duì)流程的優(yōu)化(優(yōu)化Shuffle過(guò)程
、SHadoop)針對(duì)作業(yè)、任務(wù)和Slot資源的調(diào)度優(yōu)化(IBM的AMapReduce,F(xiàn)acebook的Corona)MapReduce并行計(jì)算框架改進(jìn)迭代式MapReduce執(zhí)行框架(Twister,HaLoop)流式MapReduce執(zhí)行框架(HadoopOnline)并行編程模型與計(jì)算框架層研究?jī)?nèi)容MapReduceMapReduce在不同構(gòu)架上的實(shí)現(xiàn)基于眾核構(gòu)架的MapReduce
(Stanford的Phoenix,上海交大基于多核的MapReduce)基于GPU的MapReduce(香港科大、上海交大)并行編程模型與計(jì)算框架層研究?jī)?nèi)容BSP
(BulkSynchronizedParallel)基于BSP模型的并行處理框架大規(guī)模圖數(shù)據(jù)并行處理框架和系統(tǒng)Google的Pregel微軟的TrinityCUDA、MPI、OpenMP提升可編程性并行編程模型與計(jì)算框架層研究?jī)?nèi)容定制式并行計(jì)算框架全內(nèi)存集群計(jì)算(Spark)大規(guī)模流式數(shù)據(jù)處理(S4)特定應(yīng)用問(wèn)題的定制式并行計(jì)算框架混合式并行計(jì)算模型和框架*MapReduce+CUDA并行計(jì)算框架的設(shè)計(jì)與優(yōu)化MapReduce+MPI和MapReduce+BSP并行計(jì)算框架設(shè)計(jì)與優(yōu)化*ASurveyofParallelProgrammingModelsandToolsintheMultiandMany-CoreEraJavierDiaz,CameliaMun?oz-Caro,andAlfonsoNino.IEEETRANSACTIONSONPARALLELANDDISTRIBUTEDSYSTEMS,VOL.23,NO.8,AUGUST大數(shù)據(jù)存儲(chǔ)管理層研究?jī)?nèi)容大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)的采集和傳輸大數(shù)據(jù)的清洗過(guò)濾和質(zhì)量管理技術(shù)大數(shù)據(jù)的壓縮技術(shù)記錄型大數(shù)據(jù)索引和查詢技術(shù)靜態(tài)記錄型大數(shù)據(jù)索引技術(shù)流式/增量式記錄型大數(shù)據(jù)索引技術(shù)大數(shù)據(jù)表的高效關(guān)系型操作(如查詢連接)大數(shù)據(jù)并行化查詢技術(shù)大數(shù)據(jù)存儲(chǔ)管理層研究?jī)?nèi)容圖數(shù)據(jù)表示和查詢技術(shù)靜態(tài)圖數(shù)據(jù)的表示和存儲(chǔ)靜態(tài)圖數(shù)據(jù)的查詢流式/增量式圖數(shù)據(jù)的表示和存儲(chǔ)流式/增量式圖數(shù)據(jù)的查詢圖數(shù)據(jù)并行化查詢技術(shù)SQL/NoSQL查詢語(yǔ)言接口與技術(shù)SQL/NoSQL查詢語(yǔ)言接口并行化查詢執(zhí)行機(jī)制大數(shù)據(jù)存儲(chǔ)管理層研究?jī)?nèi)容混合式數(shù)據(jù)表示和存儲(chǔ)管理模型結(jié)構(gòu)化/半結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)混合存儲(chǔ)管理模型NoSQL數(shù)據(jù)庫(kù)技術(shù)混合式數(shù)據(jù)下的數(shù)據(jù)關(guān)系和查詢操作技術(shù)大數(shù)據(jù)存儲(chǔ)管理層研究?jī)?nèi)容分布式數(shù)據(jù)庫(kù)HBase性能優(yōu)化基于HBase的大數(shù)據(jù)索引和查詢技術(shù)分布式內(nèi)存數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)基于分布式內(nèi)存數(shù)據(jù)庫(kù)的大數(shù)據(jù)應(yīng)用問(wèn)題計(jì)算分布式文件系統(tǒng)HDFS的優(yōu)化并行構(gòu)架和計(jì)算平臺(tái)層研究?jī)?nèi)容共享內(nèi)存構(gòu)架多核,GPU分布內(nèi)存構(gòu)架集群混合式構(gòu)架集群+多核集群+GPU并行構(gòu)架和計(jì)算平臺(tái)層研究?jī)?nèi)容大數(shù)據(jù)應(yīng)用/服務(wù)云計(jì)算支撐平臺(tái)大數(shù)據(jù)云存儲(chǔ)技術(shù)大數(shù)據(jù)并行計(jì)算系統(tǒng)可靠性與容錯(cuò)恢復(fù)技術(shù)云計(jì)算支撐平臺(tái)和框架第三部分
大數(shù)據(jù)并行處理技術(shù)研究大數(shù)據(jù)處理的主要技術(shù)問(wèn)題大數(shù)據(jù)處理的主要研究?jī)?nèi)容大數(shù)據(jù)存儲(chǔ)管理模型和技術(shù)大數(shù)據(jù)索引和查詢技術(shù)大數(shù)據(jù)并行編程模型和計(jì)算框架Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘并行算法大數(shù)據(jù)社會(huì)網(wǎng)絡(luò)分析基于大數(shù)據(jù)分析的推薦系統(tǒng)大數(shù)據(jù)自然語(yǔ)言處理大數(shù)據(jù)媒體分析檢索技術(shù)大規(guī)模Web挖掘與搜索大數(shù)據(jù)3維建模與可視化分析大數(shù)據(jù)并行處理應(yīng)用系統(tǒng)問(wèn)題背景
大數(shù)據(jù)使得傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)已經(jīng)難以勝任,在存儲(chǔ)能力和查詢性能上都難以滿足大數(shù)據(jù)存儲(chǔ)和查詢管理的需求。因此,需要針對(duì)應(yīng)用需求研究大數(shù)據(jù)的索引和查詢技術(shù)
大數(shù)據(jù)索引和查詢技術(shù)Oracle海量數(shù)據(jù)庫(kù)系統(tǒng)Exadata,每個(gè)定制集群系統(tǒng)2千萬(wàn)元,存儲(chǔ)100TB高性能數(shù)據(jù)IBM基于數(shù)據(jù)庫(kù)DB2構(gòu)建了定制的數(shù)據(jù)倉(cāng)庫(kù)集群系統(tǒng),每集群存儲(chǔ)數(shù)據(jù)60TB,價(jià)格5百萬(wàn)元這些定制的分布式關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)價(jià)格過(guò)于昂貴,而數(shù)據(jù)存儲(chǔ)處理能力仍然難以滿足大數(shù)據(jù)處理要求,且系統(tǒng)難以擴(kuò)充主要研究問(wèn)題
大數(shù)據(jù)索引和查詢技術(shù)主要研究非結(jié)構(gòu)化或半結(jié)構(gòu)化大數(shù)據(jù)的快速索引和查詢優(yōu)化技術(shù),尤其是面向特定應(yīng)用領(lǐng)域的大數(shù)據(jù)索引機(jī)制和管理技術(shù)、以及流式或增量式實(shí)時(shí)/準(zhǔn)實(shí)時(shí)數(shù)據(jù)的索引和查詢優(yōu)化技術(shù)
目前本報(bào)課題組正在研究基于分布式混合樹(shù)索引的大數(shù)據(jù)索引和快速查詢技術(shù)和算法。大數(shù)據(jù)索引和查詢技術(shù)大規(guī)模移動(dòng)通聯(lián)記錄索引和查詢技術(shù)移動(dòng)通聯(lián)記錄(CDR)數(shù)據(jù)量巨大,關(guān)系數(shù)據(jù)庫(kù)已經(jīng)越來(lái)越難以承受和勝任大量記錄的管理和查詢處理,為此,需要考慮基于Hadoop的分布式CDR數(shù)據(jù)存儲(chǔ)和查詢技術(shù)。例如,在移動(dòng)公司內(nèi)部,最常使用的查詢是依據(jù)號(hào)碼(一個(gè)指定號(hào)碼或者一個(gè)屏蔽了最后4位數(shù)字的萬(wàn)字段號(hào)碼查詢),加上其他查詢信息(如局向、撥打或接受時(shí)間等)。為此提高查詢速度,我們可以基于號(hào)碼建立專門的快速查詢索引表,然后使用兩分快速查找方法,即可快速查詢到指定號(hào)碼的CDR數(shù)據(jù)記錄。大數(shù)據(jù)索引和查詢技術(shù)大規(guī)模移動(dòng)通聯(lián)記錄索引和查詢技術(shù)CDR兩級(jí)查詢索引大數(shù)據(jù)數(shù)據(jù)索引和查詢技術(shù)基于號(hào)碼的等長(zhǎng)二級(jí)索引表,可以進(jìn)行快速的兩分查找定位一級(jí)索引表中的offset包含其他查詢信息,定位到指定號(hào)碼后,可進(jìn)行基于其他信息(局向、日期等)的進(jìn)一步查詢處理大規(guī)模移動(dòng)通聯(lián)記錄索引和查詢技術(shù)CDR兩級(jí)查詢索引大數(shù)據(jù)數(shù)據(jù)索引和查詢技術(shù)20億個(gè)號(hào)碼的CDR記錄最多只需要比較大約31次即可完成!面向在線查詢類任務(wù)的Hadoop系統(tǒng)性能優(yōu)化Hadoop系統(tǒng)設(shè)計(jì)時(shí)重點(diǎn)考慮了高吞吐率大數(shù)據(jù)的處理,在作業(yè)執(zhí)行性能上不夠理想,對(duì)實(shí)時(shí)響應(yīng)要求較高的查詢類作業(yè)難以滿足要求。我們進(jìn)行的工作:1.基于短作業(yè)任務(wù)調(diào)度的性能優(yōu)化2.基于動(dòng)態(tài)slot調(diào)度的性能優(yōu)化
Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究研究論文:BigDataMR,計(jì)算機(jī)研究與發(fā)展,IPDPSSHadoop:OptimizingExecutionPerformanceofShortMapReduceJobsRongGu,XiaoliangYang,JinshuangYan,ChunfengYuan,andYihuaHuangPerformanceOptimizationforShortMapReduceJobExecutioninHadoop
JinshuangYan,XiaoliangYang,RongGu,ChunfengYuan,andYihuaHuang基于短作業(yè)任務(wù)調(diào)度的Hadoop系統(tǒng)性能優(yōu)化
現(xiàn)有標(biāo)準(zhǔn)MapReduce作業(yè)初始化和結(jié)束時(shí)需要花費(fèi)十幾秒的常數(shù)時(shí)間,作業(yè)執(zhí)行時(shí),map和reduce任務(wù)的調(diào)度都依賴于心跳機(jī)制進(jìn)行任務(wù)調(diào)度時(shí)的消息傳遞和通信,因而任務(wù)調(diào)度時(shí)間開(kāi)銷較大,效率較低解決方案:weoptimizethesetupandcleanuptaskstoreducethetimecostduringtheinitializationandterminationstagesofajob我們優(yōu)化了作業(yè)初始化和作業(yè)結(jié)束階段的setup和cleanup兩個(gè)特殊任務(wù)的調(diào)度,去除了以前所有作業(yè)都需要花費(fèi)的十幾秒常數(shù)時(shí)間wedesignandimplementaninstantmessagingmodelintothestandardHadoopfortaskschedulingeventnotificationsbetweentheJobTrackerandTaskTrackers,insteadofusingtheoriginalheartbeat-basedcommunicationmechanism
我們?cè)贘obTracker和TaskTracker之間設(shè)計(jì)實(shí)現(xiàn)了一種即時(shí)消息傳遞機(jī)制,去除了原有的心跳通信機(jī)制,顯著縮短了作業(yè)內(nèi)任務(wù)的調(diào)度時(shí)間
Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究基于短作業(yè)任務(wù)調(diào)度的Hadoop系統(tǒng)性能優(yōu)化
實(shí)驗(yàn)結(jié)果:對(duì)WorldCount,
Grep和TeraSort等MapReduce的標(biāo)準(zhǔn)Benchmark程序執(zhí)行性能提升達(dá)到35%WorldCount
GrepTeraSort
Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究?jī)?yōu)化前優(yōu)化后基于動(dòng)態(tài)slot調(diào)度的Hadoop系統(tǒng)性能優(yōu)化
現(xiàn)有標(biāo)準(zhǔn)MapReduce作業(yè)執(zhí)行時(shí)其底層的Slot調(diào)度是通過(guò)靜態(tài)的配置文件設(shè)置的,作業(yè)執(zhí)行過(guò)程中即使有空閑的Slot也無(wú)法為忙綠的任務(wù)所使用,map任務(wù)與reduce任務(wù)間的Slot也不能互換使用,因而系統(tǒng)的Slot計(jì)算資源使用率不高,也導(dǎo)致作業(yè)執(zhí)行性能不高解決方案:
基本解決方案是,我們?cè)谧鳂I(yè)執(zhí)行過(guò)程中及時(shí)收集Hadoop系統(tǒng)Slot資源分配使用的動(dòng)態(tài)信息,并根據(jù)這些信息為作業(yè)動(dòng)態(tài)分配和調(diào)度Slot資源此項(xiàng)工作目前正在編碼實(shí)現(xiàn)和調(diào)試階段Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究基礎(chǔ)性大數(shù)據(jù)并行算法機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘基礎(chǔ)算法并行化聚類算法并行化分類算法并行化關(guān)聯(lián)規(guī)則挖掘算法神經(jīng)網(wǎng)絡(luò)并行化算法圖比對(duì)并行化算法……基礎(chǔ)性大數(shù)據(jù)并行算法頻繁項(xiàng)集挖掘并行化算法本研究組進(jìn)行了基于MapReduce的頻繁項(xiàng)集挖掘算法研究基本思路是基于傳統(tǒng)的Apriori算法和SON算法,提出并實(shí)現(xiàn)了一個(gè)并行化的頻繁項(xiàng)集挖掘算法PSON,用兩輪MapReduce實(shí)現(xiàn)了大規(guī)模頻繁項(xiàng)集挖掘并行計(jì)算研究論文,已發(fā)表于PAAP國(guó)際會(huì)議PSON:AParallelizedSONAlgorithmwithMapReduceforMiningFrequentSetsTaoXiao,ShuaiWang,ChunfengYuan,YihuaHuangTheFourthInternationalSymposiumonParallelArchitectures,AlgorithmsandProgramming(PAAP),Tianjin,Dec.9-11,SupposeIisanitemsetconsistingofitemsfromthetransactiondatabaseDLetNbethenumberoftransactionsDLetMbethenumberoftransactionsthatcontainalltheitemsof
IM/NisreferredtoasthesupportofIinD
ExampleHere,N=4,letI={I1,I2},thanM=2becauseI={I1,I2}iscontainedintransactionsT100andT400sothesupportofIis0.5(2/4=0.5)Ifsup(I)isnolessthatanuser-definedthreshold,thenIisreferredtoasafrequentitemsetGoaloffrequentsetsminingTofindallfrequentk-itemsetsfromatransactiondatabase(k=1,2,3,)枚舉計(jì)算的時(shí)間復(fù)雜度是:O(2n*N*t),n是Item的總數(shù),N是Transaction總數(shù),t是每個(gè)Transaction平均包含的Item數(shù)MapphaseEachmapnodetakesinonepartitionandgenerateslocalfrequentitemsetsforthatpartitionusingApriorialgorithm.ForeachlocalfrequentitemsetF,emitskey-valuepair<F,1>.Here,thevalue1isonlytoindicatethatFisalocalfrequentitemsetforthatpartition.ShuffleandSortphaseThesamelocalfrequentitemsetsaresenttoonereducenode.ReducephaseEachreducenodeemitsoneandonlyonekey-valuepair<F,1>toDFSFinallyMergingallthepairsinDFSgivesusallglobalcandidateitemsetsAssumptionEachnodeisgivenafullduplicateoftheglobalcandidateitemsetsgeneratedbythe1stMapReducejobbeforehandMapphaseEachmapnodecountsforeachoftheglobalcandidateitemsetsinthepartitionthemapnodeisassignedThenemitspairslike<C,v>whereCisaglobalcandidateitemsetand
visthecountofitinthatpartitionShuffleandSortphaseEachglobalcandidateitemsetanditscountsinallthepartitionsaresenttoonereducenodeReducephaseForeachglobalcandidateitemsetC,reducenodeaddsupalltheassociativecountsforCandemitsonlytheactualglobalfrequentitemsetstoDFSThetransactiondatabasesizevariesfrom6GBto60GB,withthenumberoftransactionsvariesfrom1millionto500billionConclusion:WhenthesizeofthedatabasereachesathresholdofhundredsofGB,PSONcanfinishrunninginanacceptableperiodoftime,achievingagoodperformanceinscale-upPSONcanachieveagoodperformanceinspeed-up基礎(chǔ)性大數(shù)據(jù)并行算法查詢推薦QUBIC并行化算法本研究組進(jìn)行了基于MapReduce的查詢推薦QUBIC并行化算法?;舅悸肥腔谟脩羧罩驹O(shè)計(jì)查詢推薦算法,首先挖掘用戶日志中Query與URL之間的關(guān)系,尋找Query中若干關(guān)聯(lián)性較大的組,最后基于MapReduce并行構(gòu)造Query-URL二部圖和查詢親和圖QAG,在此基礎(chǔ)上最終完成查詢?cè)~的聚類,并以此為基礎(chǔ)推薦查詢關(guān)鍵詞研究論文:南京大學(xué)碩士論文《基于MapReduce的信息檢索相關(guān)算法并行化研究與實(shí)現(xiàn)》,肖韜,,指導(dǎo)教師:袁春風(fēng),黃宜華基礎(chǔ)性大數(shù)據(jù)并行算法短文本多分類并行化算法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高考物理總復(fù)習(xí)專題十電磁感應(yīng)第3講電磁感應(yīng)定律的綜合應(yīng)用練習(xí)含答案
- 勞務(wù)分包合同價(jià)款確定技巧
- 2023年華僑生聯(lián)考英語(yǔ)作文真題
- 廣東省肇慶市高中英語(yǔ) Unit 4 Astronomy the science of the starsReading教案 新人教版必修3
- 九年級(jí)化學(xué)上冊(cè) 第1單元 步入化學(xué)殿堂 到實(shí)驗(yàn)室去 化學(xué)實(shí)驗(yàn)基本技能訓(xùn)練(一)教案(2)(新版)魯教版
- 2024年一年級(jí)品生下冊(cè)《班級(jí)小公約》教案 未來(lái)版
- 2024年九年級(jí)化學(xué)上冊(cè) 5.1 質(zhì)量守恒定律教案(pdf)(新版)新人教版
- 2024-2025學(xué)年高中物理 第一章 動(dòng)量守恒定律 3 動(dòng)量守恒定律教案 新人教版選擇性必修第一冊(cè)
- 2024年四年級(jí)英語(yǔ)下冊(cè) Unit 8 What Can You Do Lesson 2教案 陜旅版(三起)
- 山東濟(jì)南槐蔭區(qū)2024-2025學(xué)年七年級(jí)數(shù)學(xué)第一學(xué)期期中考試試題(含答案)
- 全文《中國(guó)式現(xiàn)代化》PPT
- 《紅樓夢(mèng)》深入研讀學(xué)習(xí)任務(wù)群設(shè)計(jì)
- 消毒供應(yīng)中心??圃囶}
- 12勞動(dòng)安全與工業(yè)衛(wèi)生
- 加油站兩體系制度
- 醫(yī)養(yǎng)康養(yǎng)中心設(shè)備配備清單
- TRIZ理論-創(chuàng)新方法課件
- 人教版六年級(jí)上學(xué)期科學(xué)4.14《風(fēng)能和水能》教學(xué)課件
- 瀝青混凝土面層夜間施工安全專項(xiàng)方案
- 客戶滿意度及設(shè)備使用情況調(diào)查表
- 國(guó)家開(kāi)放大學(xué)《政治學(xué)原理》章節(jié)自檢自測(cè)題參考答案
評(píng)論
0/150
提交評(píng)論