云海Insight大數(shù)據(jù)解決方案_第1頁
云海Insight大數(shù)據(jù)解決方案_第2頁
云海Insight大數(shù)據(jù)解決方案_第3頁
云海Insight大數(shù)據(jù)解決方案_第4頁
云海Insight大數(shù)據(jù)解決方案_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 云海Insight大數(shù)據(jù)解決方案 云海Insight大數(shù)據(jù)解決方案摘要云海Insight提供Hadoop、Spark、MPP等多種主流架構(gòu)數(shù)據(jù)套件,搭建海量異構(gòu)數(shù)據(jù)集成、高效存儲(chǔ)、多場景計(jì)算和分析挖掘的綜合大數(shù)據(jù)平臺(tái),滿足多種數(shù)據(jù)類型(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))和多種計(jì)算場景(離線、近線、實(shí)時(shí))的不同需求,助力客戶實(shí)現(xiàn)傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化,做大做強(qiáng)數(shù)字經(jīng)濟(jì),為產(chǎn)業(yè)轉(zhuǎn)型升級(jí)提供新動(dòng)力。背景介紹據(jù) IDC 預(yù)測,全球大數(shù)據(jù)市場規(guī)模有望在 2017 年達(dá) 530 億美元,并在未來幾年內(nèi)依然保持30%以上的年復(fù)合增長率。國內(nèi)市場大數(shù)據(jù)研究雖然起步較晚,但是近幾年來,市場需求處于爆發(fā)期,發(fā)展迅

2、速。從細(xì)分產(chǎn)業(yè)來看,各大產(chǎn)業(yè)對大數(shù)據(jù)的呼聲越來越高,希望加快傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化,做大做強(qiáng)數(shù)字經(jīng)濟(jì),為產(chǎn)業(yè)轉(zhuǎn)型升級(jí)提供新動(dòng)力。大數(shù)據(jù)需求旺盛,在金融、電信、政務(wù)、醫(yī)療、能源等行業(yè)已經(jīng)起步,并逐步向其他行業(yè)擴(kuò)展。然而,由于大數(shù)據(jù)相關(guān)技術(shù)更新速度快、技術(shù)門檻高,多數(shù)傳統(tǒng)產(chǎn)業(yè)在這方面積累不足,大數(shù)據(jù)轉(zhuǎn)型過程中僅依靠自身力量困難重重,并且成本高昂。因此,希望有相關(guān)廠商提供成熟的大數(shù)據(jù)產(chǎn)品和一體化的解決方案。解決方案介紹由于數(shù)據(jù)的多源異構(gòu)、數(shù)據(jù)量大以及各種業(yè)務(wù)處理時(shí)間的不一致性,給大數(shù)據(jù)處理帶來了巨大挑戰(zhàn),僅靠單一的大數(shù)據(jù)處理技術(shù)無法滿足大數(shù)據(jù)處理需求。大數(shù)據(jù)平臺(tái)項(xiàng)目的建設(shè),應(yīng)采用當(dāng)前主流的技術(shù)架構(gòu)體

3、系;能支撐三到五年內(nèi)各類實(shí)時(shí)、近線、離線數(shù)據(jù)計(jì)算場景;隨著業(yè)務(wù)和數(shù)據(jù)規(guī)模的增加,通過分布式架構(gòu)可水平擴(kuò)充計(jì)算設(shè)備和存儲(chǔ)設(shè)備,實(shí)現(xiàn)資源的水平擴(kuò)展。由大數(shù)據(jù)處理平臺(tái)總體架構(gòu)可以看出,其應(yīng)具備完整的大數(shù)據(jù)采集、整合、存儲(chǔ)、處理、分析、展現(xiàn)和管理能力。大數(shù)據(jù)平臺(tái)建設(shè)數(shù)據(jù)集成平臺(tái)提供統(tǒng)一的數(shù)據(jù)總線,在傳統(tǒng)ETL基礎(chǔ)上增加對非結(jié)構(gòu)化數(shù)據(jù)、流數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)的支撐,通過實(shí)時(shí)數(shù)據(jù)預(yù)處理或單獨(dú)的批量數(shù)據(jù)離線處理腳本,協(xié)同完成數(shù)據(jù)清洗、去重、打標(biāo)簽、索引化、分發(fā)等大數(shù)據(jù)管控和治理體系建設(shè)。對于結(jié)構(gòu)化數(shù)據(jù),從技術(shù)實(shí)現(xiàn)上通過ETL工具進(jìn)行數(shù)據(jù)抽取。ETL工具基于業(yè)界主流的ETL產(chǎn)品Kettle來實(shí)現(xiàn),支持Oracle

4、、DB2、SqlServer、MySQL等主流關(guān)系數(shù)據(jù)庫之間以及到Hadoop的數(shù)據(jù)抽取。對于非結(jié)構(gòu)化數(shù)據(jù),特別是互聯(lián)網(wǎng)相關(guān)的網(wǎng)頁、圖片、視音頻文件等,主要通過分布式網(wǎng)絡(luò)爬蟲進(jìn)行獲取。該工具可實(shí)現(xiàn)數(shù)據(jù)采集、抽取、預(yù)處理、任務(wù)優(yōu)先級(jí)、任務(wù)監(jiān)測的靈活定義。通過與后端的智能化語義處理模塊協(xié)作,可實(shí)現(xiàn)高效的互聯(lián)網(wǎng)數(shù)據(jù)價(jià)值挖掘。數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)層面,傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式在海量數(shù)據(jù)場景下,存儲(chǔ)容量和讀取性能方面都出現(xiàn)了明顯的弊端。數(shù)據(jù)通過不同渠道采集集成到平臺(tái)之后,平臺(tái)根據(jù)數(shù)據(jù)的使用方式等采用不同的分布式存儲(chǔ)技術(shù)進(jìn)行存儲(chǔ),使得整個(gè)數(shù)據(jù)環(huán)境具備高度的伸縮性和擴(kuò)展性,滿足未來快速增長的數(shù)據(jù)規(guī)模,并充分保證數(shù)據(jù)存

5、儲(chǔ)方式的合理性及將來軟硬件的擴(kuò)展能力。除了原來的關(guān)系型數(shù)據(jù)庫外,大數(shù)據(jù)平臺(tái)還提供如下幾種存儲(chǔ)方式:基于HDFS分布式文件系統(tǒng),將數(shù)據(jù)的訪問和存儲(chǔ)分布在大量服務(wù)器之中,在可靠的多備份存儲(chǔ)的同時(shí)還能將訪問分布在集群中的各個(gè)服務(wù)器之上,通過分布式存儲(chǔ)實(shí)現(xiàn)數(shù)據(jù)的冗余備份,并提升大數(shù)據(jù)的訪問存取性能,高效低成本地應(yīng)對海量非結(jié)構(gòu)化數(shù)據(jù)和不需要關(guān)聯(lián)分析、Ad-hoc查詢較少的低價(jià)值密度結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和處理工作。KV列式數(shù)據(jù)存儲(chǔ),針對結(jié)構(gòu)化數(shù)據(jù),采用與傳統(tǒng)數(shù)據(jù)庫類似的設(shè)計(jì)模型,支持?jǐn)?shù)字、字符串、二進(jìn)制和布爾值等多種數(shù)據(jù)類型;針對半結(jié)構(gòu)化數(shù)據(jù),則允許開發(fā)者自定義數(shù)據(jù)模型,提供多種數(shù)據(jù)訪問方式,助力高性能應(yīng)用程

6、序的開發(fā)。MPP數(shù)據(jù)存儲(chǔ),針對海量數(shù)據(jù)提供無共享的分布式、并行處理架構(gòu),應(yīng)對海量結(jié)構(gòu)化數(shù)據(jù)的分析挖掘場景。內(nèi)存數(shù)據(jù)存儲(chǔ),基于全部數(shù)據(jù)都在內(nèi)存中的體系結(jié)構(gòu),在數(shù)據(jù)緩存、快速算法、并行操作方面進(jìn)行了相應(yīng)的改進(jìn),數(shù)據(jù)處理速度比傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)處理速度提升很多,可以有效解決數(shù)據(jù)訪問延時(shí)的問題。數(shù)據(jù)計(jì)算集成豐富的計(jì)算框架大規(guī)模數(shù)據(jù)計(jì)算與處理的場景復(fù)雜,性能要求高,因此需要采用分布式、可擴(kuò)展的計(jì)算和調(diào)度架構(gòu)。離線計(jì)算:需要調(diào)度批量任務(wù)來操作大規(guī)模靜態(tài)數(shù)據(jù),適合實(shí)時(shí)性要求不高的場景。通過將一個(gè)大的任務(wù)劃分成多個(gè)部分,分別交給多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行處理,綜合全面得到結(jié)果。流式計(jì)算:在數(shù)據(jù)的有效時(shí)間內(nèi)獲取其價(jià)值,是流

7、式計(jì)算系統(tǒng)的首要設(shè)計(jì)目標(biāo)。因此,當(dāng)數(shù)據(jù)到來后將立即對其進(jìn)行計(jì)算,而不再對其進(jìn)行緩存等待后續(xù)全部數(shù)據(jù)到來再進(jìn)行計(jì)算。流式計(jì)算主要用在搜索、實(shí)時(shí)監(jiān)測統(tǒng)計(jì)、實(shí)時(shí)推薦、垃圾郵件處理等場景。內(nèi)存計(jì)算:面對海量信息,傳統(tǒng)的技術(shù)架構(gòu)中需要讀取數(shù)據(jù),然后再進(jìn)行運(yùn)算,性能和效率不盡人如意。而內(nèi)存計(jì)算,將整個(gè)數(shù)據(jù)放入內(nèi)存,使每個(gè)事務(wù)在執(zhí)行過程中沒有I/O,相對于磁盤操作,內(nèi)存的數(shù)據(jù)讀寫速度要高出幾個(gè)數(shù)量級(jí)。圖計(jì)算:分布式圖計(jì)算通過抽象分布式存儲(chǔ)、并行計(jì)算等復(fù)雜問題,高效處理巨型圖的各種操作,從噪音很多的海量數(shù)據(jù)中抽取有用的信息,可以挖掘人、物和實(shí)體之間的潛在、不易觀察的行為和聯(lián)系。統(tǒng)一的調(diào)度管理和標(biāo)準(zhǔn)的開放服務(wù)通

8、過統(tǒng)一的資源調(diào)度框架,實(shí)現(xiàn)了不同計(jì)算框架的共享管理模式。通過這種共享管理模式,可以感知各節(jié)點(diǎn)的資源情況和計(jì)算壓力,自動(dòng)平衡和調(diào)度計(jì)算任務(wù),大大提升計(jì)算效率和資源有效利用率。提供標(biāo)準(zhǔn)的開放服務(wù)接口,將計(jì)算能力以服務(wù)接口的方式進(jìn)行暴露,易理解、易調(diào)用。服務(wù)接口提供統(tǒng)一認(rèn)證,接口調(diào)用時(shí)需提供賬號(hào)、密碼、密鑰、租戶信息等獲取訪問憑證,保證服務(wù)訪問的安全。數(shù)據(jù)分析挖掘智能搜索智能搜索引擎把相關(guān)的結(jié)構(gòu)化和非結(jié)構(gòu)化內(nèi)容信息抽取出來并進(jìn)行建模,經(jīng)過中文分詞技術(shù)建立起索引,讓用戶通過搜索快速地訪問到這些信息,并能做到根據(jù)用戶的個(gè)性化做出合理的排序結(jié)果。機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)提供方便易用的交互式界面,幫助使用者進(jìn)行離線

9、批量預(yù)測或在線實(shí)時(shí)預(yù)測。預(yù)測過程運(yùn)行在分布式系統(tǒng)中,基于內(nèi)存進(jìn)行迭代式計(jì)算,可以對海量數(shù)據(jù)進(jìn)行預(yù)測,具備極強(qiáng)的擴(kuò)展性,每天可以生成十幾億條預(yù)測結(jié)果。針對預(yù)制值,允許人工調(diào)整和修改,以確保數(shù)據(jù)讀取的準(zhǔn)確性,從而提升預(yù)測命中率。支持成熟、豐富的數(shù)據(jù)挖掘算法,可以生成分類、聚集、回歸模型,適應(yīng)在多種行業(yè)的機(jī)器學(xué)習(xí)場景。客戶收益Insight將業(yè)界主流的新型數(shù)據(jù)處理技術(shù)、架構(gòu)框架、分析模型、服務(wù)理念等內(nèi)置在產(chǎn)品中,各行業(yè)客戶可以基于該產(chǎn)品快速搭建起安全、高效、智能的大數(shù)據(jù)平臺(tái),快速實(shí)現(xiàn)傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化,做大做強(qiáng)數(shù)字經(jīng)濟(jì),為產(chǎn)業(yè)轉(zhuǎn)型升級(jí)提供新動(dòng)力。快速實(shí)現(xiàn)多源數(shù)據(jù)整合,挖掘數(shù)據(jù)全新價(jià)值實(shí)現(xiàn)內(nèi)外部信息資源的有效整合,全面提升數(shù)據(jù)共享和信息聯(lián)動(dòng)的運(yùn)轉(zhuǎn)效率,挖掘數(shù)據(jù)全新價(jià)值,支持決策管理。大幅減少數(shù)據(jù)計(jì)算時(shí)間,提升業(yè)務(wù)效率具有并行處理架構(gòu)、內(nèi)存計(jì)算等多重機(jī)制,保證數(shù)據(jù)加載、計(jì)算、訪問等各個(gè)環(huán)節(jié)數(shù)據(jù)處理效率,提升業(yè)務(wù)效率。實(shí)現(xiàn)在線擴(kuò)容,提升系統(tǒng)穩(wěn)定性支持集群在線擴(kuò)展,支持?jǐn)?shù)據(jù)存儲(chǔ)、加載和查詢性能線性增長,并具備多層次

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論