《面向電子商務的大數(shù)據(jù)存儲與分析技術及其應用》 項目總結_第1頁
《面向電子商務的大數(shù)據(jù)存儲與分析技術及其應用》 項目總結_第2頁
《面向電子商務的大數(shù)據(jù)存儲與分析技術及其應用》 項目總結_第3頁
《面向電子商務的大數(shù)據(jù)存儲與分析技術及其應用》 項目總結_第4頁
《面向電子商務的大數(shù)據(jù)存儲與分析技術及其應用》 項目總結_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

面向電子商務的大數(shù)據(jù)存儲與分析技術及其應用》項目總結報告一、項目概況項目基本信息:本項目是由東南大學和焦點科技股份有限公司聯(lián)合承擔,立項時間為2013年9月,項目編號(BY2013073-01),項目負責人為東南大學計算機科學與工程學院東方。本項目研究經(jīng)費210萬元,其中省撥款30萬元,單位自籌180萬元。隨著電子商務行業(yè)的深入發(fā)展,將會產(chǎn)生并積累更大規(guī)模的業(yè)務數(shù)據(jù),同時為了滿足用戶日益復雜的查詢請求,提高服務質量,電子商務提供商也必將支持更加高效的數(shù)據(jù)分析處理操作。此時電子商務將面臨PB級數(shù)據(jù)的存儲與分析處理,因此是一個典型的大數(shù)據(jù)處理應用。近年來,在電子商務數(shù)據(jù)量不斷擴大的同時,相應的數(shù)據(jù)分析與處理應用也日趨復雜?;诖?,實現(xiàn)電子商務大數(shù)據(jù)應用的高效執(zhí)行與處理將面臨新的挑戰(zhàn):(1) 如何實現(xiàn)電子商務圖數(shù)據(jù)查詢與分析傳統(tǒng)電子商務應用主要進行面向單一對象的數(shù)據(jù)分析與處理,如面向個體用戶的個性化推薦等,并不支持面向群體對象的數(shù)據(jù)挖掘與分析;另一方面,目前電子商務數(shù)據(jù)分析過程通?;诒斫Y構進行數(shù)據(jù)的逐行掃描計算,沒有考慮全局數(shù)據(jù)間的邏輯相關性。然而,隨著電子商務數(shù)據(jù)量的不斷增大,數(shù)據(jù)間的邏輯關系也變得不斷復雜化。此時用戶信息、商品信息以及用戶行為(購買、訪問等)之間具有廣泛的時空序列關系,可以建模成大規(guī)模圖結構(其中實體可表示為節(jié)點,關系可表示為邊)。此時的大數(shù)據(jù)處理過程可以轉化為基于圖數(shù)據(jù)的查詢與分析。因此為了能夠利用全局信息進行更加靈活的分析與挖掘,需要提供支持大規(guī)模復雜圖數(shù)據(jù)的查詢與分析機制。(2) 如何實現(xiàn)支持流式數(shù)據(jù)處理的大數(shù)據(jù)并行計算框架電子商務數(shù)據(jù)產(chǎn)生方式通常是流式的,然而傳統(tǒng)電子商務應用的數(shù)據(jù)更新時間往往是非實時的(以天為單位更新),在這種情況下數(shù)據(jù)的時效性往往得不到保證,而最新的數(shù)據(jù)在數(shù)據(jù)挖掘過程中所表現(xiàn)出的意義可能更為重要。因此面對電子商務產(chǎn)生的海量流數(shù)據(jù),對靜態(tài)數(shù)據(jù)的批處理已經(jīng)難以滿足業(yè)務需求。為了能夠讓電子商務數(shù)據(jù)分析應用更加具有實時性,需要對不斷到達的流式數(shù)據(jù)進行分析與處理。因此需要提供支持流式數(shù)據(jù)處理的大數(shù)據(jù)并行計算框架及相關技術。(3) 如何實現(xiàn)面向電子商務的大數(shù)據(jù)高效存儲、組織與管理隨著電子商務應用的不斷發(fā)展,電商平臺需要管理的數(shù)據(jù)容量、速率和價值在持續(xù)、快速增長,底層存儲系統(tǒng)也相應地面臨嚴峻的擴展問題;同時由于電子商務數(shù)據(jù)分析處理過程中對數(shù)據(jù)的訪問頻度各不相同,且隨時間變化,極有可能導致局部熱點數(shù)據(jù)過載以及系統(tǒng)負載不均等問題。為平衡性能、容量、能耗和價格等需求,亟需一種面向電子商務大數(shù)據(jù)的新型數(shù)據(jù)存儲架構及數(shù)據(jù)組織模式,在控制電商平臺運維成本同時,讓底層存儲系統(tǒng)更加高效化,數(shù)據(jù)管理更加智能化。根據(jù)以上分析,現(xiàn)有電子商務數(shù)據(jù)處理技術無法有效滿足大數(shù)據(jù)環(huán)境下電子商務的應用需求,缺乏完整的支持電子商務大數(shù)據(jù)處理的模型框架以及管理與分析的相關技術?;谏鲜鲂枨?,東南大學與焦點科技股份有限公司聯(lián)合承擔了江蘇省產(chǎn)學研前瞻性研究項目“面向電子商務的大數(shù)據(jù)存儲與分析技術及其應用”的研究工作,從實現(xiàn)電子商務大數(shù)據(jù)應用的高效執(zhí)行與處理所面臨的挑戰(zhàn)出發(fā),重點研究面向電子商務的大數(shù)據(jù)管理與分析技術。具體內(nèi)容包含四個方面1)研究圖結構的電子商務大數(shù)據(jù)處理機制:擬結合電子商務多源數(shù)據(jù)聯(lián)合分析及個性化推薦應用的數(shù)據(jù)特征,研究基于圖結構的新型數(shù)據(jù)組織模型,將原有結構化、非結構化數(shù)據(jù)按照時空特性進行抽象和重組織,形成圖數(shù)據(jù)。結合大規(guī)模圖數(shù)據(jù)所具有的內(nèi)在邏輯關系,設計面向上層應用的多指標圖分割算法,在考慮子圖間邏輯關系的前提下降低子圖間耦合性,進而提出通用分布式圖查詢算法,以支持上層分析和推薦應用。2)研究電子商務大數(shù)據(jù)流式處理模型及相關機制:為了滿足電子商務多源數(shù)據(jù)聯(lián)合分析及個性化推薦的實時性需求及推薦應用的時效性需求,我們還將基于通用數(shù)據(jù)并行計算平臺Hadoop研究基于數(shù)據(jù)本地化的流式處理模型,設計數(shù)據(jù)本地化機制、研究內(nèi)存管理機制、設計流水線任務調(diào)度機制,為上層電子商務應用提供透明的流式數(shù)據(jù)支撐平臺。3)研究電子商務大數(shù)據(jù)處理的自動分級存儲架構及數(shù)據(jù)組織與管理機制:針對電子商務大數(shù)據(jù)處理特性,以及不同的存儲設備在性能、容量、價格上的不同,研究并設計具有高度可擴展性、高效性以及自適應性的分級存儲系統(tǒng)架構,在此基礎上,研究海量電子商務相關數(shù)據(jù)的放置算法及數(shù)據(jù)遷移策略,從而更好地為大數(shù)據(jù)處理分析提供高效服務。4)支持電子商務應用的大數(shù)據(jù)處理平臺設計與實現(xiàn):面向電子商務大規(guī)模數(shù)據(jù)處理的實際需求,綜合運用分布式數(shù)據(jù)組織管理機制以及流式數(shù)據(jù)處理機制等上述理論研究成果,設計并實現(xiàn)大數(shù)據(jù)處理支撐平臺,并與企業(yè)現(xiàn)有的電子商務平臺進行整合,從而支持個性化推薦和數(shù)據(jù)挖掘等典型電子商務大數(shù)據(jù)應用,并且驗證本項目所取得的各項理論成果,與此同時,通過該系統(tǒng)的示范作用將項目研究成果加以推廣。二、項目實施情況經(jīng)東南大學及焦點科技股份有限公司雙方協(xié)作,本項目成立了以項目負責人為首的校企聯(lián)合研發(fā)團隊共計15人,其中副教授3人,講師2人,企業(yè)工程師5人,博碩士研究生5人。經(jīng)過兩年多的產(chǎn)學研合作研究,較系統(tǒng)研究了面向電子商務的大數(shù)據(jù)存儲與分析技術,成功研制了支持電子商務應用的大數(shù)據(jù)處理平臺原型系統(tǒng),集成到焦點科技股份有限公司現(xiàn)有的電子商務平臺并實現(xiàn)了示范應用,圓滿完成了研發(fā)和產(chǎn)業(yè)化任務。具體表現(xiàn)在以下幾方面:1)在基于圖結構的電子商務大數(shù)據(jù)處理方面,結合電子商務多源數(shù)據(jù)聯(lián)合分析及個性化推薦應用的數(shù)據(jù)特征,本項目研究了基于圖結構的新型數(shù)據(jù)組織模型,將原有結構化、非結構化數(shù)據(jù)按照時空特性進行抽象和重組織,形成圖數(shù)據(jù)。結合大規(guī)模圖數(shù)據(jù)所具有的內(nèi)在邏輯關系,設計了面向上層應用的多指標圖分割算法,在考慮子圖間邏輯關系的前提下降低子圖間耦合性,進而提出了通用分布式圖查詢算法,以支持上層分析和推薦應用。2)在電子商務大數(shù)據(jù)流式處理方面,為了滿足電子商務多源數(shù)據(jù)聯(lián)合分析及個性化推薦的實時性需求及推薦應用的時效性需求,本項目基于通用數(shù)據(jù)并行計算平臺Hadoop研究基于數(shù)據(jù)本地化的流式處理模型,設計了數(shù)據(jù)本地化機制、研究了內(nèi)存管理機制、設計了流水線任務調(diào)度機制,為上層電子商務應用提供流式數(shù)據(jù)支撐平臺。3)在面向電子商務大數(shù)據(jù)處理的自動分級存儲架構及數(shù)據(jù)組織與管理方面,針對電子商務大數(shù)據(jù)處理特性,以及不同的存儲設備在性能、容量、價格上的不同,研究并設計了具有高度可擴展性、高效性以及自適應性的分級存儲系統(tǒng)架構,在此基礎上,提出了海量電子商務相關數(shù)據(jù)的放置算法及數(shù)據(jù)遷移策略,從而更好地為大數(shù)據(jù)處理分析提供高效服務。4)在支持電子商務應用的大數(shù)據(jù)處理平臺的設計、實現(xiàn)與應用方面,面向電子商務大規(guī)模數(shù)據(jù)處理的實際需求,綜合運用分布式數(shù)據(jù)組織管理機制以及流式數(shù)據(jù)處理機制等上述理論研究成果,設計并實現(xiàn)了大數(shù)據(jù)處理支撐平臺,并與企業(yè)現(xiàn)有的電子商務平臺進行了整合,從而支持個性化推薦和數(shù)據(jù)挖掘等典型電子商務大數(shù)據(jù)應用。達到了圖數(shù)據(jù)處理加速比、流式處理加速比、處理響應時間以及平臺可擴展性等方面的設計要求,充分驗證了本研究的理論成果的可用性,提升了企業(yè)的服務質量和經(jīng)濟效益。5)項目完成時,共申請發(fā)明專利9項;軟件著作權1項;在國內(nèi)外核心期刊和會議上發(fā)表論文25篇,其中SCI收錄論文7篇,EI收錄論文24篇。6)項目研究過程中,培養(yǎng)博士研究生6名(張競慧、王宇翔、周經(jīng)亞、熊潤群、沈典、史濟源),碩士研究生6名(施洵、張毅、陳苗、張駿雪、楊業(yè)、丁玎)。項目執(zhí)行期間,焦點科技股份有限公司通過應用面向電子商務的大數(shù)據(jù)存儲與分析技術技術,為中國制造網(wǎng)平臺的運行提供了更好的支持。合計實現(xiàn)新增銷售580萬元,利稅233.5萬元。三、項目技術情況本項目主要圍繞面向電子商務的大數(shù)據(jù)存儲與分析技術,從基于圖結構的電子商務大數(shù)據(jù)處理機制、數(shù)據(jù)流式處理模型及相關機制、電子商務大數(shù)據(jù)處理的自動分級存儲架構及數(shù)據(jù)組織與管理機制以及支持電子商務應用的大數(shù)據(jù)處理平臺等四個方面進行研究與開發(fā),具體技術情況匯報如下:1) 圖結構的電子商務大數(shù)據(jù)處理機制?解決的關鍵技術結合電子商務多源數(shù)據(jù)聯(lián)合分析及個性化推薦應用的數(shù)據(jù)特征,研究基于圖結構的新型數(shù)據(jù)組織模型。結合大規(guī)模圖數(shù)據(jù)所具有的內(nèi)在邏輯關系,設計面向上層應用的基于超快技術的圖分割算法,在考慮子圖間邏輯關系的前提下降低子圖間耦合性,進而提出通用分布式圖查詢算法,以支持上層分析和推薦應用。?研究方法及技術路線基于超塊劃分算法的整體工作流程如圖1所示。給定原始的大規(guī)模圖數(shù)據(jù)后,首先將對大規(guī)模圖數(shù)據(jù)進行預劃分,形成原子快。原子塊根據(jù)應用的執(zhí)行模式組合后得到超塊,組合過程將同時考慮均衡計算負載以及減小網(wǎng)絡開銷這兩個目標。預劃分階段的主要任務是將大規(guī)模的圖數(shù)據(jù)通過一定的方法劃分為一組原子塊。劃分的方法可以采用基于哈希的方法或者聚類的方法。相較于超塊組合而言,圖數(shù)據(jù)的預劃分階段將需要較長的計算時間并消耗大量的計算資源。但是對于同一份圖數(shù)據(jù)而言,預劃分操作是離線進行的并且只會進行一次,因此其開銷是可以接受的。而在線動態(tài)超塊組合算法相比離線的劃分算法而言,則更加快速和高效。該階段將會利用預劃分階段產(chǎn)生的原子塊來生成超塊。相比原始的圖而言,原子塊的數(shù)量遠小于原始的圖的頂點,因此在線動態(tài)超塊組合算法只需要在一個較小的數(shù)據(jù)集上進行處理。受益于超塊組合這種快速、高效的方法,使得動態(tài)為每個應用進行滿足應用需求的數(shù)據(jù)劃分成為了可能。?取得成果及創(chuàng)新點針對各類圖數(shù)據(jù)處理應用資源需求各不相同的特點,本文提出了面向應用感知的大規(guī)模圖數(shù)據(jù)快速劃分方法。提出了大規(guī)模圖數(shù)據(jù)處理應用執(zhí)行模式抽取和分析技術和基于超塊思想的大規(guī)模圖數(shù)據(jù)劃分方法,通過自適應感知應用的資源需求,動態(tài)調(diào)整圖數(shù)據(jù)劃分策略,達到加快處理電子商務圖數(shù)據(jù)的目的。圖結構的電子商務大數(shù)據(jù)處理機制解決的關鍵技術為了滿足電子商務多源數(shù)據(jù)聯(lián)合分析及個性化推薦的實時性需求及推薦應用的時效性需求,我們還將基于通用數(shù)據(jù)并行計算平臺Hadoop研究基于數(shù)據(jù)本地化的流式處理模型,設計數(shù)據(jù)本地化機制、研究內(nèi)存管理機制、設計流水線任務調(diào)度機制,為上層電子商務應用提供透明的流式數(shù)據(jù)支撐平臺。研究方法及技術路線電子商務數(shù)據(jù)產(chǎn)生方式通常是流式的,然而傳統(tǒng)電子商務應用的數(shù)據(jù)更新時間往往是非實時的(以天為單位更新),在這種情況下數(shù)據(jù)的時效性往往得不到保證,而最新的數(shù)據(jù)在數(shù)據(jù)挖掘過程中所表現(xiàn)出的意義可能更為重要。因此面對電子商務產(chǎn)生的海量流數(shù)據(jù),對靜態(tài)數(shù)據(jù)的批處理已經(jīng)難以滿足業(yè)務需求。為了能夠讓電子商務數(shù)據(jù)分析應用更加具有實時性,需要對不斷到達的流式數(shù)據(jù)進行分析與處理。因此需要提供支持流式數(shù)據(jù)處理的大數(shù)據(jù)并行計算框架及相關技術。本項目通過數(shù)據(jù)本地化、中間數(shù)據(jù)分發(fā)流水線和基于KVBTree的內(nèi)存管理技術提高電子商務大數(shù)據(jù)流式數(shù)據(jù)處理執(zhí)行性能。在數(shù)據(jù)本地化及中間數(shù)據(jù)分發(fā)流水線方面,數(shù)據(jù)本地化技術使得數(shù)據(jù)提前發(fā)送、聚合與存儲;通過使用數(shù)據(jù)本地化機制,可以使數(shù)據(jù)發(fā)送與聚合同時進行,以提高系統(tǒng)處理速度。本項目提出基于概率統(tǒng)計的劃分方法,是根據(jù)數(shù)據(jù)分布的特點進行劃分,追求數(shù)據(jù)劃分的均勻性,可以保證StreamMapReduce各個節(jié)點負載的均衡性。有效解決簡單hash劃分法的不足。另一方面,對于大數(shù)據(jù)處理,系統(tǒng)瓶頸一般在于IO,CPU資源相對較充裕,通過分發(fā)流水線控制與調(diào)度,可以一定程度上提高CPU的使用率,由于計算結果直接傳遞到下一階段,一定程度上也緩解了當前節(jié)點的IO負載。具體如圖2所示。在基于KVBTree的內(nèi)存管理方面,由于MapReduce中間結果為<key,list(value)>這一特殊形式,需要設計特定的適用B+樹才能存放?;诖吮卷椖扛鶕?jù)大數(shù)據(jù)處理中的中間數(shù)據(jù)的特性,使用類似B+樹的索引結構管理大規(guī)模的中間數(shù)據(jù),保證其存儲的可靠性、大容量、高速讀寫等性能。具體包括相關數(shù)據(jù)結構的定義,如:樹節(jié)點結構,數(shù)據(jù)區(qū)結構,緩存區(qū)結構,緩存區(qū)信息頭結構等等;以及緩存區(qū)的建立與管理。具體如圖3所示。

l\xl\x■:102:x10:x103:x100:x104:x101:x105:x106:x?取得成果及創(chuàng)新點針對當前Hadoop等大數(shù)據(jù)處理模型在處理流式數(shù)據(jù)時效率低下的問題,提出了數(shù)據(jù)本地化處理、中間數(shù)據(jù)分發(fā)流水線和基于KVBTree的內(nèi)存管理等執(zhí)行優(yōu)化技術。上述技術通過減少計算節(jié)點間的數(shù)據(jù)傳輸量、減少計算節(jié)點間同步等待時間、減少磁盤10開銷,達到加快處理流式數(shù)據(jù)的目的。3) 電子商務大數(shù)據(jù)處理的自動分級存儲架構及數(shù)據(jù)組織與管理機制解決的關鍵技術針對電子商務大數(shù)據(jù)處理特性,以及不同的存儲設備在性能、容量、價格上的不同,研究并設計具有高度可擴展性、高效性以及自適應性的分級存儲系統(tǒng)架構,在此基礎上,研究海量電子商務相關數(shù)據(jù)的放置算法及數(shù)據(jù)遷移策略,從而更好地為大數(shù)據(jù)處理分析提供高效服務。研究方法及技術路線為平衡性能、容量、能耗和價格等需求,亟需一種面向電子商務大數(shù)據(jù)的新型數(shù)據(jù)存儲架構及數(shù)據(jù)組織模式,在控制電商平臺運維成本同時,讓底層存儲系統(tǒng)更加高效化,數(shù)據(jù)管理更加智能化。為實現(xiàn)上述目標,本項目提出了如圖4所示的采用異構性感知的動態(tài)副本放置策略的大規(guī)模異構Hadoop系統(tǒng)模型。

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□BigDataSetAdministrator圖4基于SLRP的異構Hadoop系統(tǒng)模型BigDataSetAdministrator在此基礎上,設計并實現(xiàn)了一個Hadoop集群節(jié)點的異構性感知模塊(Heterogeneity-awareModule,簡稱HaM),采用節(jié)點異構性感知算法(Heterogeneityawarealgorithm,簡稱Haag)對大規(guī)模Hadoop集群節(jié)點進行分級管理,形成多層級的虛擬存儲域(VirtualStorageTier,簡稱VST);然后,通過數(shù)據(jù)塊熱度監(jiān)測模塊(HotnessMonitor,簡稱HoM),采用文件訪問熱度感知的復制機制(Hotness-ProportionalReplication,簡稱HoP)確定其副本因子,以優(yōu)化存儲資源的利用率;在此基礎上,數(shù)據(jù)副本放置模塊(Snake-LikeReplicaPlacement,簡稱SLRP)在每個虛擬存儲域內(nèi)按照Snake-Like方式對數(shù)據(jù)塊及其副本進行布局,充分利用多層級VST內(nèi)節(jié)點性能的差異性,盡量把熱點數(shù)據(jù)及其副本分布在高性能的VST中,以此引導MapReduce任務集中運行在性能優(yōu)異的Hadoop節(jié)點上,并進行VST域內(nèi)的負載均衡;最后,通過能耗控制模塊(PowerControl,簡稱PoC)管理集群所有虛擬存儲域的能耗開銷,并結合基于SLRP的數(shù)據(jù)塊副本放置方案,按照一定的策略關閉或開啟集群中的節(jié)點,優(yōu)化Hadoop集群的能耗開銷。?取得成果及創(chuàng)新點針對電商平臺需要管理的數(shù)據(jù)容量、速率和價值在持續(xù)、快速增長導致底層存儲系統(tǒng)面臨嚴峻的擴展問題以及局部熱點數(shù)據(jù)過載和系統(tǒng)負載不均等問題,提出了大規(guī)模集群節(jié)點異構感知算法,并基于此設計了一種蛇形電商大數(shù)據(jù)放置策略,在控制電商平臺運維成本同時,讓底層存儲系統(tǒng)更加高效化,數(shù)據(jù)管理更加智能化。4) 支持電子商務應用的大數(shù)據(jù)處理平臺?解決的關鍵技術面向電子商務大規(guī)模數(shù)據(jù)處理的實際需求,綜合運用分布式數(shù)據(jù)組織管理機制以及流式數(shù)據(jù)處理機制等上述理論研究成果,設計并實現(xiàn)大數(shù)據(jù)處理支撐平臺,并與企業(yè)現(xiàn)有的電子商務平臺進行整合,從而支持個性化推薦和數(shù)據(jù)挖掘等典型電子商務大數(shù)據(jù)應用,并且驗證本項目所取得的各項理論成果。?研究方法及技術路線采用相關研究成果并基于開源云軟件部署相應的研究成果,實現(xiàn)支持電子商務應用的大數(shù)據(jù)處理平臺,具體架構及各組件間的邏輯交互關系如圖5所示。底層云計算環(huán)境為上層提供基礎設施;數(shù)據(jù)存儲管理層包括數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)預放置和數(shù)據(jù)遷移等;數(shù)據(jù)處理技術層包括大數(shù)據(jù)分析、大數(shù)據(jù)查詢和流式數(shù)據(jù)處理;應用服務層包括應用解析與構建、電子商務應用集合、任務調(diào)度和資源管理。對于數(shù)據(jù)存儲部分,由于電子商務平臺的客戶量大,用戶數(shù)據(jù)多達TB級,為了實現(xiàn)高效、可靠地數(shù)據(jù)存取,我們對底層各類存儲介質進行自動分級管理,并采用HadoopHDFS文件系統(tǒng)組織存儲海量的用戶數(shù)據(jù)。對于數(shù)據(jù)分析部分,利用圖查詢技術構建用戶數(shù)據(jù)全局視圖,基于圖數(shù)據(jù)時空序列關系及屬性邏輯關系實現(xiàn)兩階段圖分割算法和圖查詢算法,豐富個性化推薦結果,促進其完整性,同時使得數(shù)據(jù)挖掘內(nèi)容更加多樣化。此外,為了應對電子商務中數(shù)據(jù)流式到達情況,我們對HDFS系統(tǒng)進行二次開發(fā),設計基于內(nèi)存管理的數(shù)據(jù)本地化計算、存儲機制,實現(xiàn)流式數(shù)據(jù)的本地化處理,以提供對個性化推薦以及數(shù)據(jù)挖掘應用中流數(shù)據(jù)處理的支持。在任務調(diào)度和資源管理部分,我們采用HadoopMapreduce處理模型,針對性地分析電子商務應用的資源使用特點,優(yōu)化了其中的資源分配方案。在云基礎設施層,我們擬采用開源軟件OpenStack搭建云計算環(huán)境。OpenStack具有易擴展、較靈活、兼容性好等特點可以很容易地同其他模塊進行相互協(xié)作和配合。?取得成果及創(chuàng)新點結合電子商務平臺的特點,基于東南大學云計算平臺,開發(fā)完成基于子圖匹配的電子商務推薦、基于流式數(shù)據(jù)處理的在線聚集查詢、大數(shù)據(jù)分級存儲等模塊,實現(xiàn)了云計算環(huán)境下面向電子商務的查詢和推薦原型系統(tǒng)。通過將該系統(tǒng)與企業(yè)現(xiàn)有電子商務平臺的集成,完成了企業(yè)數(shù)據(jù)查詢與推薦的實際部署運行,達到了計算(存儲)可擴展性、數(shù)據(jù)處理實時性等設計要求,充分驗證了本研究的理論成果的可用性,提升了企業(yè)的服務質量和經(jīng)濟效益。四、合同任務指標完成情況在江蘇省產(chǎn)學研前瞻性研究項目的資助下,東南大學聯(lián)合焦點科技股份有限公司開展了緊密的產(chǎn)學研合作研究,取得了以下研究成果:1) 主要的技術指標完成情況深入研究了基于圖結構的電子商務大數(shù)據(jù)處理技術:提出了大規(guī)模圖數(shù)據(jù)處理應用執(zhí)行模式的抽取和分析機制。結合大規(guī)模圖數(shù)據(jù)所具有的內(nèi)在邏輯關系,設計面向上層應用感知的多指標圖分割算法,實現(xiàn)了復雜電子商務數(shù)據(jù)的快速組織與劃分。在考慮子圖間邏輯關系的前提下降低子圖間耦合性,進而提出通用分布式圖查詢算法。深入研究了電子商務大數(shù)據(jù)流式處理模型及相關技術:針對電子商務多源數(shù)據(jù)聯(lián)合分析及個性化推薦的實時性及時效性需求,建立了基于數(shù)據(jù)本地化的流式處理模型,提出了數(shù)據(jù)本地化及中間數(shù)據(jù)分發(fā)流水線技術,基于KVBTree的內(nèi)存管理技術。深入研究了面向電子商務大數(shù)據(jù)處理的自動分級存儲架構及數(shù)據(jù)組織與管理技術:針對電子商務大數(shù)據(jù)處理特性,以及不同的存儲設備在性能、容量、價格上的不同,建立了采用異構性感知的動態(tài)副本放置策略的大規(guī)模異構Hadoop系統(tǒng)模型,并提出Hadoop集群系統(tǒng)節(jié)點異構性感知算法、基于熱度感知的數(shù)據(jù)副本復制機制。東南大學和焦點科技股份有限公司結合電子商務的特點,基于所研發(fā)的大數(shù)據(jù)分析處理技術和東南大學云計算平臺,設計并研制出支持電子商務應用的大數(shù)據(jù)處理平臺。通過將該系統(tǒng)集成進焦點科技股份有限公司現(xiàn)有電子商務平臺進行應用及測試,證明本項目所研發(fā)的支持電子商務應用的大數(shù)據(jù)處理平臺具有可擴展性強、數(shù)據(jù)訪問延遲低、支持TB級數(shù)據(jù)處理等特點。(1)在基于圖結構的電子商務大數(shù)據(jù)處理方面,本系統(tǒng)支持十億用戶規(guī)模的圖數(shù)據(jù)數(shù)據(jù),并可近實時(秒級)地商品推薦。本系統(tǒng)可擴展性強,與單機環(huán)境相比,4臺服務器以上的集群環(huán)境的加速比大于2.5;(2)在電子商務大數(shù)據(jù)流式處理方面,本系統(tǒng)支持基于流式處理的電子商務數(shù)據(jù)在線聚集操作,可對TB級電子商務數(shù)據(jù)近實時(秒級)地進行分析處理。相較于Hadoop等采用Block方式處理數(shù)據(jù)的模型,流式數(shù)據(jù)數(shù)據(jù)處理的加速比大于2;(3)在面向電子商務大數(shù)據(jù)處理的自動分級存儲架構及數(shù)據(jù)組織與管理方面,支持大規(guī)模Hadoop集群節(jié)點的異構性感知,可形成多層級的虛擬存儲域,能夠完成PB級的電商大數(shù)據(jù)高效放置。對于熱點的電商大數(shù)據(jù)能夠在秒級范圍內(nèi)完成必要遷移,與現(xiàn)有HDFS相比,電商平臺任務的執(zhí)行效率提升了近25%;對于低價值的電商大數(shù)據(jù),則被自適應地遷移到低級存儲層級,有效提升了存儲空間效率,提升幅度超過30%。充分驗證了本研究的理論成果的可用性,滿足了不斷擴大的電子商務大數(shù)據(jù)分析處理應用需求,提升了企業(yè)的服務質量和經(jīng)濟效益。項目共申請發(fā)明專利9;軟件著作權1項;在國內(nèi)外核心期刊和會議上發(fā)表論文25篇,其中SCI收錄論文7篇,EI收錄論文24篇。項目培養(yǎng)博士研究生6名,碩士研究生6。焦點科技股份有限公司通過應用面向電子商務的大數(shù)據(jù)存儲與分析技術技術,為中國制造網(wǎng)平臺的運行提供了更好的支持。合計實現(xiàn)新增銷售580萬元,利稅233.5萬元。申請的國家發(fā)明專利熊潤群,羅軍舟,東方,金嘉暉.一種云數(shù)據(jù)中心大規(guī)模異構集群節(jié)點快速定量分級方法,國家發(fā)明專利,受權時間:2016.9,授理號:201610809567.2.張競慧,董堅,羅軍舟.一種基于日志分析的IaaS云平臺網(wǎng)絡故障定位方法及系統(tǒng),國家發(fā)明專利,受理時間:2016.9,受理號:201610808973.7.東方,羅軍舟,張毅,王宇翔,徐曉冬.大數(shù)據(jù)環(huán)境下的流式數(shù)據(jù)處理方法,國家發(fā)明專利,授權時間:2016.6,授權號:ZL201310287554.X東方,羅軍舟,沈典.一種用于云計算環(huán)境中防范旁路攻擊虛擬機的方法,國家發(fā)明專利,受權時間:2015.4,授權號:ZL201210356355.5.東方,羅軍舟,金嘉暉.基于網(wǎng)絡帶寬估計的云計算任務調(diào)度方法,國家發(fā)明專利,授權時間:2014.12,授權號:ZL201210205574.3.東方,陳苗,羅軍舟,孟憲棟.高性能計算和云計算混合環(huán)境中的動態(tài)資源管理方法,國家發(fā)明專利,受理時間:2014.8,受理號:201410410274.8.東方,周經(jīng)亞,羅軍舟.一種基于DHT機制的云存儲系統(tǒng)的資源動態(tài)分配方法,國家發(fā)明專利,受理時間:2014.7,受理號:201410326861.9.東方,羅軍舟,王巍,黃彬彬.一種基于動態(tài)定價策略的多數(shù)據(jù)中心成本優(yōu)化方法,國家發(fā)明專利,受理時間:2013.10,受理號:201310519850.8.東方,羅軍舟,施洵,朱夏,徐曉冬.電子商務環(huán)境下基于云計算處理模式的個性化推薦方法,國家發(fā)明專利,受理時間:2013.10,受理號:201310287555.4軟件著作權登記證書東方,施洵,張毅,張駿雪,王宇翔,朱夏.面向電子商務環(huán)境的協(xié)同過濾推薦系統(tǒng)軟件V1.0,計算機軟件著作權,登記號:2013SR163273(與焦點科技股份有限公司共同申請)論文發(fā)表ShiJ,LuoJ,DongF,etal.Elasticresourceprovisioningforscientificworkflowschedulingincloudunderbudgetanddeadlineconstraints[J].ClusterComputing,2016,19(1):167-182.ZhangJ,ChenJ,LuoJ,etal.Efficientlocation-awaredataplacementfordata-intensiveapplicationsingeo-distributedscientificdatacenters[J].TsinghuaScienceandTechnology,2016,21(5):471-481.DongF,ZhangJ,LuoJ,etal.Enablingapplication-awareflexiblegraphpartitionmechanismforparallelgraphprocessingsystems[J].ConcurrencyandComputation:PracticeandExperience,2016.ShenD,LuoJ,DongF,etal.Stochasticmodelingofdynamicright-sizingforenergy-efficiencyinclouddatacenters[J].FutureGenerationComputerSystems,2015,48:82-95.ZhangJ,LuoJ,DongF.Scientificworkflowschedulinginnon-dedicatedheterogeneousmulticlusterwithadvancereservations[J].IntegratedComputer-AidedEngineering,2015,22(3):261-280.ZhangJ,WangM,LuoJ,etal.Towardsoptimizedschedulingfordata-intensivescientificworkflowinmultipledatacenterenvironment[J].ConcurrencyandComputation:PracticeandExperience,2015,27(18):5606-5622.XiongR,LuoJ,DongF.OptimizingdataplacementinheterogeneousHadoopclusters[J].ClusterComputing,2015,18(4):1465-1480.DongF,LuoJ,LiuB.APerformanceFluctuation-AwareStochasticSchedulingMechanismforWorkflowApplicationsinCloudEnvironment[J].IEICETransactionsonInformationandSystems,Vol.E97-D,No.10,October2014,2641-2651WangY,LuoJ,SongA,etal.OATS:onlineaggregationwithtwo-levelsharingstrategyincloud[J].DistributedandParallelDatabases,2014,32(4):467-505.LuoJ,JinJ,ShanF.StandardizationofLow-LatencyTCPwithExplicitCongestionNotification:ASurvey[J],IEEEInternetComputing,vol.21,no.1,pp.48-55,Jan.-Feb.2017.ShenD,LuoJ,DongF,etal.AppBag:Application-AwareBandwidthAllocationforVirtualMachinesinCloudEnvironment[C]//ParallelProcessing(ICPP),201645thInternationalConferenceon.IEEE,2016:21-30.ShiJ,DongF,ZhangJ,etal.Resourceprovisioningoptimizationforservicehostingoncloudplatform[C].ComputerSupportedCooperativeWorkinDesign(CSCWD),2016IEEE20thInternationalConferenceon.IEEE,2016:340-345.LiuZ,DongF,ZhangJ,etal.AClient-SideDirectoryPrefetchingMechanismforGlusterFS[C].IEEEInternationalConferenceonSystems,Man,andCybernetics(SMC),2016:3942-3947.ZhouP,Dongf,XuZ,etal.ECStor:AFlexibleEnterprise-orientedCloudStorageSystembasedonGlusterFS[C].2016FourthInternationalConferenceonAdvancedCloudandBigData.IEEE,2016:13-18.JinJ,KhemmaratS,GaoL,etal.Queryingweb-scaleinformationnetworksthroughboundingmatchingscores[C].Proceedingsofthe24thInternationalConferenceonWorldWideWeb.ACM,2015:527-537.YangY,DongF,LuoJ.ComputingserviceSkyeubeforwebserviceselection[C].ComputerSupportedCooperativeWorkinDesign(CSCWD),2015IEEE19thInternationalConferenceon.IEEE,2015:614-619.ShiJ,DongF,ZhangJ,etal.Two-PhaseOnlineVirtualMachinePlacementinHeterogeneousCloudDataCenter[C].Systems,Man,andCybernetics(SMC),2015IEEEInternationalConferenceon.IEEE,2015:1369-1374.ZhangJ,DongF,ShenD,etal.Superblock:AnApplication-AwareDynamicPartitionStrategyforLarge-ScaleGraph[C].2015ThirdInternationalConferenceonAdvancedCloudandBigData.IEEE,2015:167-174.WangY,LuoJ,SongA,etal.ASampling-BasedHybridApproximateQueryProcessingSystemintheCloud[C].201443rdInternationalConferenceonParallelProcessing.IEEE,2014:291-300.JinJ,KhemmaratS,GaoL,etal.Adistributedapproachfortop-kstarqueriesonmassiveinformationnetworks[C].201420thIEEEInternationalConferenceonParallelandDistributedSystems(ICPADS).IEEE,2014:9-16.ShiJ,LuoJ,DongF,etal.Abudgetanddeadlineawarescientificworkflowresourceprovisioningandschedulingmechanismforcloud[C].ComputerSupportedCooperativeWorkinDesign(CSCWD),Proceedingsofthe2014IEEE18thInternationalConferenceon.IEEE,2014:672-677.ZhangJ,DongF,ShenD,etal.Gametheorybaseddynamicresourceallocationforhybridenvironmentwithcloudandbigdataapplication[C].2014IEEEInternationalConferenceonSystems,Man,andCybernetics(SMC).IEEE,2014:1128-1133.ShenD,DongF,ZhangJ,etal.Cost-EffectiveVirtualMachineImageReplicationManagementforCloudDataCenters[C].HighPerformanceComputingandCommunications,2014IEEE6thIntlSymponCyberspaceSafetyandSecurity,2014IEEE11thIntlConfonEmbeddedSoftwareandSyst(HPCC,CSS,ICESS),2014IEEEIntlConfon.IEEE,2014:229-236.XiongR,LuoJ,DongF.SLDP:ANovelDataPlacementStrategyforLarge-ScaleHeterogeneousHadoopCluster[C].2014SecondInternationalConferenceonAdvancedCloudandBigData(CBD),IEEE,2014:9-17.ChenM,DongF,LuoJ.DynamicresourcemanagementinaHPCandCloudhybridenviron

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論