大數(shù)據(jù)應(yīng)用及其解決方案_第1頁
大數(shù)據(jù)應(yīng)用及其解決方案_第2頁
大數(shù)據(jù)應(yīng)用及其解決方案_第3頁
大數(shù)據(jù)應(yīng)用及其解決方案_第4頁
大數(shù)據(jù)應(yīng)用及其解決方案_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 收藏 | 大數(shù)據(jù)應(yīng)用及其解決方案(完整版) 1、大數(shù)據(jù)概述1.1. 概述大數(shù)據(jù),IT行業(yè)的又一次技術(shù)變革,大數(shù)據(jù)的浪潮洶涌而至,對國家治理、企業(yè)決策和個人生活都在產(chǎn)生深遠(yuǎn)的影響,并將成為云計(jì)算、物聯(lián)網(wǎng)之后信息技術(shù)產(chǎn)業(yè)領(lǐng)域又一重大創(chuàng)新變革。未來的十年將是一個“大數(shù)據(jù)”引領(lǐng)的智慧科技的時代、隨著社交網(wǎng)絡(luò)的逐漸成熟,移動帶寬迅速提升、云計(jì)算、物聯(lián)網(wǎng)應(yīng)用更加豐富、更多的傳感設(shè)備、移動終端接入到網(wǎng)絡(luò),由此而產(chǎn)生的數(shù)據(jù)及增長速度將比歷史上的任何時期都要多、都要快。數(shù)據(jù)技術(shù)發(fā)展歷史如圖一所示:圖一1.2. 大數(shù)據(jù)定義“大數(shù)據(jù)”是一個涵蓋多種技術(shù)的概念,簡單地說,是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)

2、行抓取、管理和處理的數(shù)據(jù)集合。IBM將“大數(shù)據(jù)”理念定義為4個V,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)及由此產(chǎn)生的價(jià)值(Value)。如圖二;圖二要理解大數(shù)據(jù)這一概念,首先要從大入手,大是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個V來總結(jié)(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。 數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。 數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。 價(jià)值密度低。

3、以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。 處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的大數(shù)據(jù)不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過解決巨量數(shù)據(jù)處理問題促進(jìn)其突破性發(fā)展。因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取

4、有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時代發(fā)展的前沿。1.3. 大數(shù)據(jù)技術(shù)發(fā)展大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和構(gòu)架,用于以很經(jīng)濟(jì)的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值,而且未來急劇增長的數(shù)據(jù)迫切需要尋求新的處理技術(shù)手段。如圖三所示:圖三在“大數(shù)據(jù)”(Big data)時代,通過互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng),人們能夠及時全面地獲得大信息。同時,信息自身存在形式的變化與演進(jìn),也使得作為信息載體的數(shù)據(jù)以遠(yuǎn)超人們想象的速度迅速膨脹。云時代的到來使得數(shù)據(jù)創(chuàng)造的主體由企業(yè)逐漸轉(zhuǎn)向個體,而個體所產(chǎn)生的絕大部分?jǐn)?shù)據(jù)為圖片、文檔、視頻等非結(jié)構(gòu)化數(shù)據(jù)。信息化技術(shù)的普及使得企業(yè)

5、更多的辦公流程通過網(wǎng)絡(luò)得以實(shí)現(xiàn),由此產(chǎn)生的數(shù)據(jù)也以非結(jié)構(gòu)化數(shù)據(jù)為主。預(yù)計(jì)到2012年,非結(jié)構(gòu)化數(shù)據(jù)將達(dá)到互聯(lián)網(wǎng)整個數(shù)據(jù)量的75%以上。用于提取智慧的“大數(shù)據(jù)”,往往是這些非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)、BI、鏈路挖掘等應(yīng)用對數(shù)據(jù)處理的時間要求往往以小時或天為單位。但“大數(shù)據(jù)”應(yīng)用突出強(qiáng)調(diào)數(shù)據(jù)處理的實(shí)時性。在線個性化推薦、股票交易處理、實(shí)時路況信息等數(shù)據(jù)處理時間要求在分鐘甚至秒級。全球技術(shù)研究和咨詢公司Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢之一,而其他領(lǐng)域的研究,如云計(jì)算、下一代分析、內(nèi)存計(jì)算等也都與“大數(shù)據(jù)”的研究相輔相成。Gartner

6、在其新興技術(shù)成熟度曲線中將“大數(shù)據(jù)”技術(shù)視為轉(zhuǎn)型技術(shù),這意味著“大數(shù)據(jù)”技術(shù)將在未來35年內(nèi)進(jìn)入主流。而 “大數(shù)據(jù)”的多樣性決定了數(shù)據(jù)采集來源的復(fù)雜性,從智能傳感器到社交網(wǎng)絡(luò)數(shù)據(jù),從聲音圖片到在線交易數(shù)據(jù),可能性是無窮無盡的。選擇正確的數(shù)據(jù)來源并進(jìn)行交叉分析可以為企業(yè)創(chuàng)造最顯著的利益。隨著數(shù)據(jù)源的爆發(fā)式增長,數(shù)據(jù)的多樣性成為“大數(shù)據(jù)”應(yīng)用亟待解決的問題。例如如何實(shí)時地及通過各種數(shù)據(jù)庫管理系統(tǒng)來安全地訪問數(shù)據(jù),如何通過優(yōu)化存儲策略,評估當(dāng)前的數(shù)據(jù)存儲技術(shù)并改進(jìn)、加強(qiáng)數(shù)據(jù)存儲能力,最大限度地利用現(xiàn)有的存儲投資。從某種意義上說,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。“大數(shù)據(jù)”不僅是一場技術(shù)變革,更是一場商業(yè)模式

7、變革。在“大數(shù)據(jù)”概念提出之前,盡管互聯(lián)網(wǎng)為傳統(tǒng)企業(yè)提供了一個新的銷售渠道,但總體來看,二者平行發(fā)展,鮮有交集。我們可以看到,無論是Google通過分析用戶個人信息,根據(jù)用戶偏好提供精準(zhǔn)廣告,還是Facebook將用戶的線下社會關(guān)系遷移在線上,構(gòu)造一個半真實(shí)的實(shí)名帝國,但這些商業(yè)和消費(fèi)模式仍不能脫離互聯(lián)網(wǎng),傳統(tǒng)企業(yè)仍無法嫁接到互聯(lián)網(wǎng)中。同時,傳統(tǒng)企業(yè)通過傳統(tǒng)的用戶分析工具卻很難獲得大范圍用戶的真實(shí)需求。企業(yè)從大規(guī)模制造過渡到大規(guī)模定制,必須掌握用戶的需求特點(diǎn)。在互聯(lián)網(wǎng)時代,這些需求特征往往是在用戶不經(jīng)意的行為中透露出來的。通過對信息進(jìn)行關(guān)聯(lián)、參照、聚類、分類等方法分析,才能得到答案?!按髷?shù)據(jù)”

8、在互聯(lián)網(wǎng)與傳統(tǒng)企業(yè)間建立一個交集。它推動互聯(lián)網(wǎng)企業(yè)融合進(jìn)傳統(tǒng)企業(yè)的供應(yīng)鏈,并在傳統(tǒng)企業(yè)種下互聯(lián)網(wǎng)基因。傳統(tǒng)企業(yè)與互聯(lián)網(wǎng)企業(yè)的結(jié)合,網(wǎng)民和消費(fèi)者的融合,必將引發(fā)消費(fèi)模式、制造模式、管理模式的巨大變革。大數(shù)據(jù)正成為IT行業(yè)全新的制高點(diǎn),各企業(yè)和組織紛紛助推大數(shù)據(jù)的發(fā)展,相關(guān)技術(shù)呈現(xiàn)百花齊放局面,并在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域嶄露頭角,具體情況如下圖四所示:圖四大數(shù)據(jù)將帶來巨大的技術(shù)和商業(yè)機(jī)遇,大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來巨大的商業(yè)價(jià)值,而隨著應(yīng)用數(shù)據(jù)規(guī)模急劇增加,傳統(tǒng)計(jì)算面臨嚴(yán)重挑戰(zhàn),大規(guī)模數(shù)據(jù)處理和行業(yè)應(yīng)用需求日益增加和迫切出現(xiàn)越來越多的大規(guī)模數(shù)據(jù)處理應(yīng)用需求,傳統(tǒng)系統(tǒng)難以提供足夠的存儲和計(jì)算資源進(jìn)行處

9、理,云計(jì)算技術(shù)是最理想的解決方案。調(diào)查顯示:目前,IT專業(yè)人員對云計(jì)算中諸多關(guān)鍵技術(shù)最為關(guān)心的是大規(guī)模數(shù)據(jù)并行處理技術(shù)大數(shù)據(jù)并行處理沒有通用和現(xiàn)成的解決方案對于應(yīng)用行業(yè)來說,云計(jì)算平臺軟件、虛擬化軟件都不需要自己開發(fā),但行業(yè)的大規(guī)模數(shù)據(jù)處理應(yīng)用沒有現(xiàn)成和通用的軟件,需要針對特定的應(yīng)用需求專門開發(fā),涉及到諸多并行化算法、索引查詢優(yōu)化技術(shù)研究、以及系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn),這些都為大數(shù)據(jù)處理技術(shù)的發(fā)展提供了巨大的驅(qū)動力。2、大數(shù)據(jù)應(yīng)用2.1. 大數(shù)據(jù)應(yīng)用闡述大數(shù)據(jù)能做什么?我們那么多地方探討大數(shù)據(jù),無非總結(jié)下來就做三件事:第一,對信息的理解。你發(fā)的每一張圖片、每一個新聞、每一個廣告,這些都是信息,你對這個信

10、息的理解是大數(shù)據(jù)重要的領(lǐng)域。第二,用戶的理解,每個人的基本特征,你的潛在的特征,每個用戶上網(wǎng)的習(xí)慣等等,這些都是對用戶的理解。第三,關(guān)系。關(guān)系才是我們的核心,信息與信息之間的關(guān)系,一條微博和另外一條微博之間的關(guān)系,一個廣告和另外一個廣告的關(guān)系。一條微博和一個視頻之間的關(guān)系,這些在我們?nèi)庋廴タ吹臅r候是相對簡單的。比如有條微博說這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來。但是用機(jī)器怎么能看出來這是一件事,以及他們之間的因果關(guān) 系,這是很有難度的。然后就是用戶與用戶之間的關(guān)系。哪些人你愿意收聽,是你的朋友,哪些是你感興趣的領(lǐng)域,你是一個音樂達(dá)人,你是一個吃貨,那個用戶也

11、 是一個吃貨,你愿意收聽他。這就是用戶與用戶之間的關(guān)系理解。還有用戶與信息之間的理解,就是你對哪一類型的微博感興趣,你對哪一類型的信息感興趣,如果 牽扯到商業(yè)化,你對哪一類的廣告或者商品感興趣。其實(shí)就是用戶與信息之間的關(guān)系,他無非是做這件事。大數(shù)據(jù)說的那么懸,其實(shí)主要是做三件事:對用戶的理解、對信息的理解、對關(guān)系的理解。如果我們在這三件事之間還要提一件事的話,一個叫趨勢。 他也是關(guān)系的一種變種,只是關(guān)系稍微遠(yuǎn)一點(diǎn),情感之間的分析,還有我們政府部門做的輿情監(jiān)控。他可以監(jiān)控大規(guī)模的數(shù)據(jù),可以分析出人的動向。在美國的好萊 塢,這兩年也是基于FACEBOOK和TIWTTER的數(shù)據(jù)來預(yù)測即將上映的電影的

12、票房。他也是一個趨勢的分析,只是我們把這個趨勢提前來。核心就是這三件事。2.2. 大數(shù)據(jù)應(yīng)用架構(gòu)2.3. 大數(shù)據(jù)行業(yè)應(yīng)用2.3.1. 醫(yī)療行業(yè)1. Seton Healthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測的首個客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過大數(shù)據(jù)處理,更好地分析病人的信息。2. 在加拿大多倫多的一家醫(yī)院,針對早產(chǎn)嬰兒,每秒鐘有超過3000次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對性地采取措施,避免早產(chǎn)嬰兒夭折。3. 它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡(luò)來收集數(shù)據(jù)的健康類App。也許未來數(shù)年后,它們搜集

13、的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經(jīng)代謝完成會自動提醒你再次服藥。2.3.2. 能源行業(yè)1. 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當(dāng)你的太陽能有多余電的時候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預(yù)測客戶的用電習(xí)慣等,從而推斷出在未來23個月時間里,整個電網(wǎng)大概需要多少電。有了這個預(yù)測后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果提前買就會比較便宜,買現(xiàn)貨就比較貴。通過這個預(yù)測后,

14、可以降低采購成本。2. 維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級計(jì)算機(jī),然后對氣象數(shù)據(jù)進(jìn)行分析,找出安裝風(fēng)力渦輪機(jī)和整個風(fēng)電場最佳的地點(diǎn)。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時便可完成。2.3.3. 通信行業(yè)1. XO Communications通過使用IBM SPSS預(yù)測分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測客戶的行為,發(fā)現(xiàn)行為趨勢,并找出存在缺陷的環(huán)節(jié),從而幫助公司及時采取措施,保留客戶。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過提供單個端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺,幫助通信企業(yè)制定更科學(xué)、合理決策。2.

15、電信業(yè)者透過數(shù)以千萬計(jì)的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業(yè),這是全新的資料經(jīng)濟(jì)。3. 中國移動通過大數(shù)據(jù)分析,對企業(yè)運(yùn)營的全業(yè)務(wù)進(jìn)行針對性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負(fù)責(zé)人,使他在最短時間內(nèi)獲知市場行情。4. NTT docomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務(wù)。2.3.4. 零售業(yè)1. 我們的某個客戶,是一家領(lǐng)先的專業(yè)時裝零售商,通過當(dāng)?shù)氐陌儇浬痰?、網(wǎng)絡(luò)及其郵購目錄業(yè)務(wù)為客戶提供服務(wù)。公司希望向客戶提供差異化服務(wù),如何定位公司的差異化,他們通過從 Tw

16、itter 和 Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨后他們認(rèn)識到必須保留兩類有價(jià)值的客戶:高消費(fèi)者和高影響者。希望通過接受免費(fèi)化妝服務(wù),讓用戶進(jìn)行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合,為業(yè)務(wù)挑戰(zhàn)提供了解決方案。Informatica的技術(shù)幫助這家零售商用社交平臺上的數(shù)據(jù)充實(shí)了客戶主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。2. 零售企業(yè)也監(jiān)控客戶的店內(nèi)走動情況以及與商品的互動。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調(diào)整售價(jià)上給出意見,此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時在保持市場份額的前提下,增加了高利潤

17、率自有品牌商品的比例。3、大數(shù)據(jù)解決方案3.1. 大數(shù)據(jù)技術(shù)組成大數(shù)據(jù)技術(shù)由四種技術(shù)構(gòu)成,它們包括:3.1.1. 分析技術(shù)分析技術(shù)意味著對海量數(shù)據(jù)進(jìn)行分析以實(shí)時得出答案,由于大數(shù)據(jù)的特殊性,大數(shù)據(jù)分析技術(shù)還處于發(fā)展階段,老技術(shù)會日趨完善,新技術(shù)會更多出現(xiàn)。大數(shù)據(jù)分析技術(shù)涵蓋了以下的的五個方面3.1.1.1. 可視化分析數(shù)據(jù)可視化無論對于普通用戶或是數(shù)據(jù)分析專家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說話,讓用戶直觀的感受到結(jié)果。3.1.1.2. 數(shù)據(jù)挖掘算法圖像化是將機(jī)器語言翻譯給人看,而數(shù)據(jù)挖掘就是機(jī)器的母語。分割、集群、孤立點(diǎn)分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù),挖掘價(jià)值。這些

18、算法一定要能夠應(yīng)付大數(shù)據(jù)的量,同時還具有很高的處理速度。3.1.1.3. 預(yù)測分析能力數(shù)據(jù)挖掘可以讓分析師對數(shù)據(jù)承載信息更快更好地消化理解,進(jìn)而提升判斷的準(zhǔn)確性,而預(yù)測性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。3.1.1.4. 語義引擎非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數(shù)據(jù)。語義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。3.1.1.5. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理數(shù)據(jù)質(zhì)量與管理是管理的最佳實(shí)踐,透過標(biāo)準(zhǔn)化流程和機(jī)器對數(shù)據(jù)進(jìn)行處理可以確保獲得一個預(yù)設(shè)質(zhì)量的分析結(jié)果。我們知道大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁存檔

19、、用戶點(diǎn)擊、商品信息、用戶關(guān)系等數(shù)據(jù)形成了持續(xù)增長的海量數(shù)據(jù)集。這些大數(shù)據(jù)中蘊(yùn)藏著大量可以用于增強(qiáng)用戶體驗(yàn)、提高服務(wù)質(zhì)量和開發(fā)新型應(yīng)用的知識,而如何高效和準(zhǔn)確的發(fā)現(xiàn)這些知識就基本決定了各大互聯(lián)網(wǎng)公司在激烈競爭環(huán)境中的位置。首先,以Google為首的技術(shù)型互聯(lián)網(wǎng)公司提出了MapReduce的技術(shù)框架,利用廉價(jià)的PC服務(wù)器集群,大規(guī)模并發(fā)處理批量事務(wù)。利用文件系統(tǒng)存放非結(jié)構(gòu)化數(shù)據(jù),加上完善的備份和容災(zāi)策略,這套經(jīng)濟(jì)實(shí)惠的大數(shù)據(jù)解決方案與之前昂貴的企業(yè)小型機(jī)集群+商業(yè)數(shù)據(jù)庫方案相比,不僅沒有丟失性能,而且還贏在了可擴(kuò)展性上。之前,我們在設(shè)計(jì)一個數(shù)據(jù)中心解決方案的前期,就要考慮到方案實(shí)施后的可擴(kuò)展性。

20、通常的方法是預(yù)估今后一段時期內(nèi)的業(yè)務(wù)量和數(shù)據(jù)量,加入多余的計(jì)算單元(CPU)和存儲,以備不時只需。這樣的方式直接導(dǎo)致了前期一次性投資的巨大,并且即使這樣也依然無法保證計(jì)算需求和存儲超出設(shè)計(jì)量時的系統(tǒng)性能。而一旦需要擴(kuò)容,問題就會接踵而來。首先是商業(yè)并行數(shù)據(jù)庫通常需要各節(jié)點(diǎn)物理同構(gòu),也就是具有近似的計(jì)算和存儲能力。而隨著硬件的更新,我們通常加入的新硬件都會強(qiáng)于已有的硬件。這樣,舊硬件就成為了系統(tǒng)的瓶頸。為了保證系統(tǒng)性能,我們不得不把舊硬件逐步替換掉,經(jīng)濟(jì)成本損失巨大。其次,即使是當(dāng)前最強(qiáng)的商業(yè)并行數(shù)據(jù)庫,其所能管理的數(shù)據(jù)節(jié)點(diǎn)也只是在幾十或上百這個數(shù)量級,這主要是由于架構(gòu)上的設(shè)計(jì)問題,所以其可擴(kuò)展

21、性必然有限。而MapReduce+GFS框架,不受上述問題的困擾。需要擴(kuò)容了,只需增加個機(jī)柜,加入適當(dāng)?shù)挠?jì)算單元和存儲,集群系統(tǒng)會自動分配和調(diào)度這些資源,絲毫不影響現(xiàn)有系統(tǒng)的運(yùn)行3.1.2. 存儲數(shù)據(jù)庫存儲數(shù)據(jù)庫(In-Memory Databases)讓信息快速流通,大數(shù)據(jù)分析經(jīng)常會用到存儲數(shù)據(jù)庫來快速處理大量記錄的數(shù)據(jù)流通。比方說,它可以對某個全國性的連鎖店某天的銷售記錄進(jìn)行分析,得出某些特征進(jìn)而根據(jù)某種規(guī)則及時為消費(fèi)者提供獎勵回饋。但傳統(tǒng)的關(guān)系型數(shù)據(jù)庫嚴(yán)格的設(shè)計(jì)定式、為保證強(qiáng)一致性而放棄性能、可擴(kuò)展性差等問題在大數(shù)據(jù)分析中被逐漸暴露。隨之而來,NoSQL數(shù)據(jù)存儲模型開始風(fēng)行。NoSQL,

22、也有人理解為Not Only SQL,并不是一種特定的數(shù)據(jù)存儲模型,它是一類非關(guān)系型數(shù)據(jù)庫的統(tǒng)稱。其特點(diǎn)是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對關(guān)系型數(shù)據(jù)庫,而是針對其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數(shù)據(jù)庫、列存儲等NoSQL數(shù)據(jù)庫是一種建立在云平臺的新型數(shù)據(jù)處理模式,NoSQL在很多情況下又叫做云數(shù)據(jù)庫。由于其處理數(shù)據(jù)的模式完全是分布于各種低成本服務(wù)器和存儲磁盤,因此它可以幫助網(wǎng)頁和各種交互性應(yīng)用快速處理過程中的海量數(shù)據(jù)。它為Zynga、AOL、Cisco以及其它一些企業(yè)提供網(wǎng)頁應(yīng)用支持。正常的數(shù)據(jù)庫需要

23、將數(shù)據(jù)進(jìn)行歸類組織,類似于姓名和帳號這些數(shù)據(jù)需要進(jìn)行結(jié)構(gòu)化和標(biāo)簽化。但是NoSQL數(shù)據(jù)庫則完全不關(guān)心這些,它能處理各種類型的文檔。在處理海量數(shù)據(jù)同時請求時,它也不會有任何問題。比方說,如果有1000萬人同時登錄某個Zynga游戲,它會將這些數(shù)據(jù)分布于全世界的服務(wù)器并通過它們來進(jìn)行數(shù)據(jù)處理,結(jié)果與1萬人同時在線沒什么兩樣?,F(xiàn)今有多種不同類型的NoSQL模式。商業(yè)化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;開源免費(fèi)的模式如CouchDB和Cassandra;還有亞馬遜最新推出的NoSQL云服務(wù)。3.1.3. 分布式計(jì)算技術(shù)分布式計(jì)算結(jié)合了NoSQL與實(shí)時分

24、析技術(shù),如果想要同時處理實(shí)時分析與NoSQL數(shù)據(jù)功能,那么你就需要分布式計(jì)算技術(shù)。分布式技術(shù)結(jié)合了一系列技術(shù),可以對海量數(shù)據(jù)進(jìn)行實(shí)時分析。更重要的是,它所使用的硬件非常便宜,因而讓這種技術(shù)的普及變成可能。SGI的Sunny Sundstrom解釋說,通過對那些看起來沒什么關(guān)聯(lián)和組織的數(shù)據(jù)進(jìn)行分析,我們可以獲得很多有價(jià)值的結(jié)果。比如說可以分發(fā)現(xiàn)一些新的模式或者新的行為。運(yùn)用分布式計(jì)算技術(shù),銀行可以從消費(fèi)者的一些消費(fèi)行為和模式中識別網(wǎng)上交易的欺詐行為。分布式計(jì)算技術(shù)讓不可能變成可能,分布式計(jì)算技術(shù)正引領(lǐng)著將不可能變?yōu)榭赡?。Skybox Imaging就是一個很好的例子。這家公司通過對衛(wèi)星圖片的分析

25、得出一些實(shí)時結(jié)果,比如說某個城市有多少可用停車空間,或者某個港口目前有多少船只。它們將這些實(shí)時結(jié)果賣給需要的客戶。沒有這個技術(shù),要想快速便宜的分析這么大量衛(wèi)星圖片數(shù)據(jù)將是不可能的。如圖五所示:圖五分布式計(jì)算技術(shù)是Google的核心,也是Yahoo的基礎(chǔ),目前分布式計(jì)算技術(shù)是基于Google創(chuàng)建的技術(shù),但是卻最新由Yahoo所建立。Google總共發(fā)表了兩篇論文,2004年發(fā)表的叫做MapReduce的論文介紹了如何在多計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)處理;另一篇于2003年發(fā)表,主要是關(guān)于如何在多服務(wù)器上存儲數(shù)據(jù)。來自于Yahoo的工程師Doug Cutting在讀了這兩篇論文后建立了分布式計(jì)算平臺,以他兒

26、子的玩具大象命名。如圖六所示圖六而Hadoop作為一個重量級的分布式處理開源框架已經(jīng)在大數(shù)據(jù)處理領(lǐng)域有所作為3.2. 大數(shù)據(jù)處理過程3.2.1. 采集大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r有可能會有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值

27、時達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。3.2.2. 導(dǎo)入/預(yù)處理雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進(jìn)行流式計(jì)算,來滿足部分業(yè)務(wù)的實(shí)時計(jì)算需求。導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆,甚至千兆級別。3.2.3. 統(tǒng)計(jì)/分析統(tǒng)計(jì)與分析主要利用分布

28、式數(shù)據(jù)庫,或者分布式計(jì)算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。3.2.4. 挖掘與前面統(tǒng)計(jì)和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(Predict)的效果,從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析

29、的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。整個大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個方面的步驟,才能算得上是一個比較完整的大數(shù)據(jù)處理3.3. 大數(shù)據(jù)處理的核心技術(shù)-Hadoop大數(shù)據(jù)技術(shù)涵蓋了硬軟件多個方面的技術(shù),目前各種技術(shù)基本都獨(dú)立存在于存儲、開發(fā)、平臺架構(gòu)、數(shù)據(jù)分析挖掘的各個相對獨(dú)立的領(lǐng)域。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術(shù)Hadoop。3.3.1. Hadoop的

30、組成大數(shù)據(jù)不同于傳統(tǒng)類型的數(shù)據(jù),它可能由TB甚至PB級信息組成,既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)類型缺乏一致性,使得標(biāo)準(zhǔn)存儲技術(shù)無法對大數(shù)據(jù)進(jìn)行有效存儲,而且我們也難以使用傳統(tǒng)的服務(wù)器和SAN方法來有效地存儲和處理龐大的數(shù)據(jù)量。這些都決定了“大數(shù)據(jù)”需要不同的處理方法,而Hadoop目前正是廣泛應(yīng)用的大數(shù)據(jù)處理技術(shù)。Hadoop是一個基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上受Google在2004年白皮書中闡述的MapReduce的技術(shù)啟發(fā)。Hadoop主要組件包含如圖七:圖七Hadoop Common:通用模塊, 支持其他Hadoo

31、p模塊 Ha d o o p Di s t r i b u t e d Fi l eSystem(HDFS):分布式文件系統(tǒng),用以提供高流量的應(yīng)用數(shù)據(jù)訪問 Hadoop YARN:支持工作調(diào)度和集群資源管理的框架 HadoopMapReduce:針對大數(shù)據(jù)的、靈活的并行數(shù)據(jù)處理框架其他相關(guān)的模塊還有: ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng) Oozie:負(fù)責(zé)MapReduce作業(yè)調(diào)度 HBase:可擴(kuò)展的分布式數(shù)據(jù)庫,可以將結(jié)構(gòu)性數(shù)據(jù)存儲為大表 Hive:構(gòu)建在MapRudece之上的數(shù)據(jù)倉庫軟件包 Pig:架構(gòu)在Hadoop之上的高級數(shù)據(jù)處理層在Hadoop框架中,最底層的HDFS存儲H

32、adoop集群中所有存儲節(jié)點(diǎn)上的文件。HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的(如圖八),圖八這些節(jié)點(diǎn)包括一個NameNode和大量的DataNode。存儲在HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個計(jì)算機(jī)中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。NameNode在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù),負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。它決定是否將文件映射到DataNode上的復(fù)制塊上。DataNode通常以機(jī)架的形

33、式組織,機(jī)架通過一個交換機(jī)將所有系統(tǒng)連接起來。H a d o o p M a p R e d u c e 是Google MapReduce的開源實(shí)現(xiàn)。MapReduce技術(shù)是一種簡潔的并行計(jì)算模型,它在系統(tǒng)層面解決了擴(kuò)展性、容錯性等問題,通過接受用戶編寫的Map函數(shù)和Reduce函數(shù),自動地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù)6。Hadoop提供了大量的接口和抽象類,從而為Hadoop應(yīng)用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。在H a d o o p 應(yīng)用實(shí)例中,一個代表客戶機(jī)在單個主系統(tǒng)上啟動Ma pRe d u c e的應(yīng)用程序稱為JobTracke

34、r。類似于NameNode,它是Ha d o o p 集群中唯一負(fù)責(zé)控制MapReduce應(yīng)用程序的系統(tǒng)。在應(yīng)用程序提交之后,將提供包含在HDFS中的輸入和輸出目錄。JobTr a cke r使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他TaskTracker從屬任務(wù)。MapReduce應(yīng)用程序被復(fù)制到每個出現(xiàn)輸入文件塊的節(jié)點(diǎn),將為特定節(jié)點(diǎn)上的每個文件塊創(chuàng)建一個唯一的從屬任務(wù)。每個TaskTracker將狀態(tài)和完成信息報(bào)告給JobTracker。如圖顯示一個示例集群中的工作分布,如圖九:圖九3.3.2. Hadoop的優(yōu)點(diǎn):Hadoop能夠使用戶輕松開發(fā)和運(yùn)行處理大數(shù)據(jù)的應(yīng)用程序。它主要有以下

35、幾個優(yōu)點(diǎn):3.3.2.1. 高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。3.3.2.2. 高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。3.3.2.3. 高效性。Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點(diǎn)的動態(tài)平衡,因此處理速度非???。3.3.2.4. 高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。Hadoop帶有用Java語言編寫的框架,因此運(yùn)行在Linux生產(chǎn)平臺上是非常理想的。Hadoop上的應(yīng)用程序也可以使用其他語言編寫,比如C+。3.3.3. Hado

36、op的不足Hadoop作為一個處理大數(shù)據(jù)的軟件框架,雖然受到眾多商業(yè)公司的青睞,但是其自身的技術(shù)特點(diǎn)也決定了它不能完全解決大數(shù)據(jù)問題。在當(dāng)前Hadoop的設(shè)計(jì)中,所有的metadata操作都要通過集中式的NameNode來進(jìn)行,NameNode有可能是性能的瓶頸。當(dāng)前Hadoop單一NameNode、單一Jobtracker的設(shè)計(jì)嚴(yán)重制約了整個Hadoop可擴(kuò)展性和可靠性。首先,NameNode和JobTracker是整個系統(tǒng)中明顯的單點(diǎn)故障源。再次,單一NameNode的內(nèi)存容量有限,使得Hadoop集群的節(jié)點(diǎn)數(shù)量被限制到2000個左右,能支持的文件系統(tǒng)大小被限制在10-50PB,最多能支持

37、的文件數(shù)量大約為1.5億左右。實(shí)際上,有用戶抱怨其集群的NameNode重啟需要數(shù)小時,這大大降低了系統(tǒng)的可用性。隨著Hadoop被廣泛使用,面對各式各樣的需求,人們期望Hadoop能提供更多特性,比如完全可讀寫的文件系統(tǒng)、Snapshot、Mirror等等。這些都是當(dāng)前版本的Hadoop不支持,但是用戶又有強(qiáng)烈需求的。3.3.4. 主要商業(yè)性“大數(shù)據(jù)”處理方案“大數(shù)據(jù)”被科技企業(yè)看作是云計(jì)算之后的另一個巨大商機(jī),包括IBM、谷歌、亞馬遜和微軟在內(nèi)的一大批知名企業(yè)紛紛掘金這一市場。此外,很多初創(chuàng)企業(yè)也開始加入到大數(shù)據(jù)的淘金隊(duì)伍中。Hadoop是非結(jié)構(gòu)數(shù)據(jù)庫的代表,低成本、高擴(kuò)展性和靈活性等優(yōu)勢

38、使其成為各種面向大數(shù)據(jù)處理分析的商業(yè)服務(wù)方案的首選。Oracle、IBM、Microsoft三大商業(yè)數(shù)據(jù)提供商是Hadoop的主要支持者。很多知名企業(yè)都以Hadoop技術(shù)為基礎(chǔ)提供自己的商業(yè)性大數(shù)據(jù)解決方案。這一部分主要介紹以Hadoop為基礎(chǔ)的典型商業(yè)性大數(shù)據(jù)解決方案。3.3.2.5. IBM InfoSphere大數(shù)據(jù)分析平臺I B M于2 0 1 1 年5 月推出的InfoSphere大數(shù)據(jù)分析平臺是一款定位為企業(yè)級的大數(shù)據(jù)分析產(chǎn)品。該產(chǎn)品包括BigInsight s和Streams,二者互補(bǔ),Biglnsights基于Hadoop,對大規(guī)模的靜態(tài)數(shù)據(jù)進(jìn)行分析,它提供多節(jié)點(diǎn)的分布式計(jì)算,

39、可以隨時增加節(jié)點(diǎn),提升數(shù)據(jù)處理能力。St reams采用內(nèi)存計(jì)算方式分析實(shí)時數(shù)據(jù)。它們將包括HadoopMapReduce在內(nèi)的開源技術(shù)緊密地與IBM系統(tǒng)集成起來。研究Hadoop這樣開源技術(shù)的人很多,但是IBM這次是真正將其變成了企業(yè)級的應(yīng)用,針對不同的人員增加不同的價(jià)值。InfoSphereBigInsight s 1.3的存儲和運(yùn)算框架采用了開源的Ha d o o pMa pRe d u c e,同時針對Ha d o o p 框架進(jìn)行了改造,采用了IBM特有的通用并行文件系統(tǒng)GPFS。利用GPFS的目的是為了避免單點(diǎn)故障,保證可用性。BigInsights中還有兩個分析產(chǎn)品Cognos和

40、SPSS,這兩個分析產(chǎn)品在傳統(tǒng)功能上加強(qiáng)了文本分析的功能,提供了一系列文本分析工具,并使用高級語言進(jìn)行自定義規(guī)則,如文本格式轉(zhuǎn)換等。目前BigInsights提供兩種版本,一種是企業(yè)版(Enterprise Edition),用于企業(yè)級的大數(shù)據(jù)分析解決方案。另一種是基礎(chǔ)版(Basic Edition),去掉了企業(yè)版中的大部分功能,用戶可以免費(fèi)下載,主要提供給開發(fā)人員和合作伙伴試用。St r e ams 最大的特點(diǎn)就是內(nèi)存分析,利用多節(jié)點(diǎn)PC服務(wù)器的內(nèi)存來處理大批量的數(shù)據(jù)分析請求。St reams的特點(diǎn)就是“小快靈”,數(shù)據(jù)是實(shí)時流動的,其分析反應(yīng)速度可以控制在毫秒級別,而BigInsights的

41、分析是批處理,反應(yīng)速度無法同St reams相比。總體來說,二者的設(shè)計(jì)架構(gòu)不同,也用于處理不同的大數(shù)據(jù)分析需求,并可以形成良好的互補(bǔ)。InfoSphere平臺僅僅是IBM大數(shù)據(jù)解決方案中的一部分。IBM大數(shù)據(jù)平臺包括4大部分:信息整合與治理組件、基于開源Apache Hadoop的框架而實(shí)現(xiàn)的Bi g I n s i g h t s 平臺、加速器,以及包含可視化與發(fā)現(xiàn)、應(yīng)用程序開發(fā)、系統(tǒng)管理的上層應(yīng)用。通過IBM的解決方案可以看出,解決大數(shù)據(jù)問題不能僅僅依靠Hadoop。3.3.2.6. Or a c l e Bi g Da t aAppliancOracle Big Data Applian

42、ce準(zhǔn)確地說是一款硬件產(chǎn)品,添加了Hadoop裝載器、應(yīng)用適配器以及Or acle新的NoSQL數(shù)據(jù)庫,主要目的是為了將非結(jié)構(gòu)化數(shù)據(jù)加載到關(guān)系型數(shù)據(jù)庫中去,并對軟硬件的集成做了一些優(yōu)化。Oracle BigData機(jī)包括開源Apache Hadoop、Oracle NoSQL數(shù)據(jù)庫、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、OracleHa d o o p 裝載器、Op e n So u r c eDistribution of R、Oracle Linux和Oracle Java HotSpot虛擬機(jī)。它能夠快速、便捷地與Oracle數(shù)據(jù)庫11g、Oracle Exadata數(shù)據(jù)庫云服務(wù)器

43、和Oracle Exalytics商務(wù)智能云服務(wù)器集成。分析師和統(tǒng)計(jì)人員可以運(yùn)行現(xiàn)有的R應(yīng)用,并利用R客戶端直接處理存儲在Oracle數(shù)據(jù)庫11g中的數(shù)據(jù),從而極大地提高可擴(kuò)展性、性能和安全性。3.3.2.7. Mi c r o s o f t S QLServer微軟已經(jīng)發(fā)布Hadoop Connectorfor SQL Se r ve r Pa r a l lel Dat aWarehouse和Hadoop Connectorfor SQL Ser ver社區(qū)技術(shù)預(yù)覽版本的連接器。該連接器是雙向的,用戶可以在Hadoop和微軟數(shù)據(jù)庫服務(wù)器之間向前或者向后遷移數(shù)據(jù)。微軟的SQL Server

44、 2012將并入Hadoop分布式計(jì)算平臺,微軟還將把Hadoop引入Windows Server和Azure(微軟的云服務(wù))。3.3.2.8. Sybase IQSybase IQ是Sybase公司推出的特別為數(shù)據(jù)倉庫設(shè)計(jì)的關(guān)系型數(shù)據(jù)庫,添加了Hadoop的集成,并提供了MapReduce的API。相比于傳統(tǒng)的“行式存儲”的關(guān)系型數(shù)據(jù)庫,Sybase IQ使用了獨(dú)特的列式存儲方式,在進(jìn)行分析查詢時,僅需讀取查詢所需的列,其垂直分區(qū)策略不僅能夠支持大量的用戶、大規(guī)模數(shù)據(jù),還可以提交對商業(yè)信息的高速訪問,其速度可達(dá)到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的百倍甚至千倍。3.3.5. 其他“大數(shù)據(jù)”解決方案“大數(shù)據(jù)”

45、解決方案并非只有Hadoop一種,許多知名企業(yè)還提供了其他的解決方案。3.3.2.9. EMCEMC 提供了兩種大數(shù)據(jù)存儲方案,即Isilon和Atmos。Isilon能夠提供無限的橫向擴(kuò)展能力,Atmos是一款云存儲基礎(chǔ)架構(gòu),在內(nèi)容服務(wù)方面,Atmos是很好的解決方案。在數(shù)據(jù)分析方面,EMC提供的解決方案、提供的產(chǎn)品是Greenplum,Greenplum有兩個產(chǎn)品,第一是GreenplumDatabase,GreenplumDatabase是大規(guī)模的并行成立的數(shù)據(jù)庫,它可以管理、存儲、分析PB量級的一些結(jié)構(gòu)性數(shù)據(jù),它下載的速度非常高,最高可以達(dá)到每小時10 T B,速度非常驚人。這是EMC

46、可以提供給企業(yè)、政府,用來分析海量的數(shù)據(jù)。但是Gr e e n p l umDa t a b a s e面對的是結(jié)構(gòu)化數(shù)據(jù)。很多數(shù)據(jù)超過9 0 % 是非結(jié)構(gòu)化數(shù)據(jù),E M C 有另外一個產(chǎn)品是GreenplumHD,GreenplumHD可以把非結(jié)構(gòu)化的數(shù)據(jù)或者是半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),然后讓GreenplumDatabase去處理。3.3.2.10. BigQueryBigQu e r y是Go og l e 推出的一項(xiàng)We b服務(wù),用來在云端處理大數(shù)據(jù)。該服務(wù)讓開發(fā)者可以使用Go o g l e 的架構(gòu)來運(yùn)行SQL語句對超級大的數(shù)據(jù)庫進(jìn)行操作。BigQuery允許用戶上傳他們的超大

47、量數(shù)據(jù)并通過其直接進(jìn)行交互式分析,從而不必投資建立自己的數(shù)據(jù)中心。Google曾表示BigQuery引擎可以快速掃描高達(dá)70TB未經(jīng)壓縮處理的數(shù)據(jù),并且可馬上得到分析結(jié)果。大數(shù)據(jù)在云端模型具備很多優(yōu)勢,BigQuery服務(wù)無需組織提供或建立數(shù)據(jù)倉庫。而BigQuery在安全性和數(shù)據(jù)備份服務(wù)方面也相當(dāng)完善。免費(fèi)帳號可以讓用戶每月訪問高達(dá)100GB的數(shù)據(jù),用戶也可以付費(fèi)使用額外查詢和存儲空間。3.3.6. 大數(shù)據(jù)”與科技文獻(xiàn)信息處理“大數(shù)據(jù)”目前主要指醫(yī)學(xué)、天文、地理、Web日志、多媒體信息等數(shù)據(jù),鮮有提及文獻(xiàn)信息。事實(shí)上,現(xiàn)在的科技文獻(xiàn)信息日益凸顯出“大數(shù)據(jù)”的特征,主要表現(xiàn)在以下幾個方面:更新

48、周期縮短;數(shù)量龐大;文獻(xiàn)的類型多樣;文獻(xiàn)載體數(shù)字化;文獻(xiàn)語種多樣化;文獻(xiàn)內(nèi)容交叉;文獻(xiàn)信息密度大??萍嘉墨I(xiàn)中所含的信息類型多樣,既有結(jié)構(gòu)性數(shù)據(jù),也有非結(jié)構(gòu)性文本和公式,如何利用“大數(shù)據(jù)”技術(shù)對文獻(xiàn)內(nèi)容進(jìn)行分析,挖掘用戶訪問日志、評價(jià)反饋等數(shù)據(jù)的價(jià)值,為用戶提供服務(wù)成為科技信息服務(wù)業(yè)急需思考和解決的問題。在科技文獻(xiàn)信息處理中,文本分析技術(shù)、語義計(jì)算技術(shù)、數(shù)據(jù)安全需要與“大數(shù)據(jù)”解決方案結(jié)合起來考慮實(shí)施,這樣才能更有效地提供知識服務(wù)。3.4. 大數(shù)據(jù)處理技術(shù)發(fā)展前景隨著大數(shù)據(jù)時代的來臨,應(yīng)用越來越廣,其發(fā)展前景是很光明的。3.4.1. 大數(shù)據(jù)復(fù)雜度降低大數(shù)據(jù)技術(shù)的落地將會有兩個特點(diǎn):一個是對Map

49、Reduce依賴越來越少,另外一個是會把Hadoop技術(shù)深入的應(yīng)用到企業(yè)的軟件架構(gòu)中。對于第一個特點(diǎn),像Cloudera的Impala和微軟的PolyBase這樣的軟件會得到充分發(fā)展,他們繞開了MapReduce,直接對存在HDFS中的數(shù)據(jù)進(jìn)行處理。對于第二個特點(diǎn),大規(guī)模的使用Hadoop是個必然趨勢,漸漸的就會形成行業(yè)的標(biāo)準(zhǔn),進(jìn)而成為更有價(jià)值的軟件基礎(chǔ),而不僅是自己內(nèi)部使用。3.4.2. 大數(shù)據(jù)細(xì)分市場大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展,將會創(chuàng)造出一些新的細(xì)分市場。例如,以數(shù)據(jù)分析和處理為主的高級數(shù)據(jù)服務(wù),將出現(xiàn)以數(shù)據(jù)分析作為服務(wù)產(chǎn)品提交的分析即服務(wù)(Analyze as a Service)業(yè)務(wù);將多種

50、信息整合管理,創(chuàng)造對大數(shù)據(jù)統(tǒng)一的訪問和分析的組件產(chǎn)品;基于社交網(wǎng)絡(luò)的社交大數(shù)據(jù)分析;甚至?xí)霈F(xiàn)大數(shù)據(jù)技能的培訓(xùn)市場,教授數(shù)據(jù)分析課程等。3.4.3. 大數(shù)據(jù)開源開源軟件為大數(shù)據(jù)市場帶來更多機(jī)會。與人們的傳統(tǒng)理解不同,大數(shù)據(jù)市場開源軟件的盛行不會抑制市場的商業(yè)機(jī)會,相反開源軟件將會給基礎(chǔ)架構(gòu)硬件、應(yīng)用程序開發(fā)工具、應(yīng)用、服務(wù)等各個方面的相關(guān)領(lǐng)域帶來更多的機(jī)會。3.4.4. Hadoop將加速發(fā)展做為大數(shù)據(jù)領(lǐng)域的代表技術(shù),許多企業(yè)都把明年的計(jì)劃聚焦在Hadoop之上。據(jù)預(yù)測,用戶對Hadoop的優(yōu)化將更注重硬件,同時,對企業(yè)友好的Hadoop技術(shù)市場將達(dá)到前所未有的高峰。從整體上說,不僅是Hado

51、op本身本會得到迅猛的發(fā)展,同時Hadoop在多個數(shù)據(jù)中心中的配置和無縫集成技術(shù)也將成為熱門。Hadoop的專業(yè)知識正在飛速增長,但是這方面優(yōu)秀的人才仍然很缺乏?;赟QL的Hadoop工具將會得到持續(xù)發(fā)展”。3.4.5. 打包的大數(shù)據(jù)行業(yè)分析應(yīng)用隨著大數(shù)據(jù)逐漸走向各個行業(yè),基于行業(yè)的大數(shù)據(jù)分析應(yīng)用需求也日益增長。未來幾年中針對特定行業(yè)和業(yè)務(wù)流程的分析應(yīng)用將會以預(yù)打包的形式出現(xiàn),這將為大數(shù)據(jù)技術(shù)供應(yīng)商打開新的市場。這些分析應(yīng)用內(nèi)容還會覆蓋很多行業(yè)的專業(yè)知識,也會吸引大量行業(yè)軟件開發(fā)公司的投入。3.4.6. 大數(shù)據(jù)分析的革命性方法出現(xiàn)在大數(shù)據(jù)分析上,將出現(xiàn)革命性的新方法。就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,

52、大數(shù)據(jù)可能是新一波技術(shù)革命。從前的很多算法和基礎(chǔ)理論可能會產(chǎn)生理論級別的突破。3.4.7. 大數(shù)據(jù)與云計(jì)算:深度融合大數(shù)據(jù)處理離不開云計(jì)算技術(shù),云計(jì)算為大數(shù)據(jù)提供彈性可擴(kuò)展的基礎(chǔ)設(shè)施支撐環(huán)境以及數(shù)據(jù)服務(wù)的高效模式,大數(shù)據(jù)則為云計(jì)算提供了新的商業(yè)價(jià)值,大數(shù)據(jù)技術(shù)與云計(jì)算技術(shù)必有更完美的結(jié)合。同樣的,云計(jì)算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興計(jì)算形態(tài),既是產(chǎn)生大數(shù)據(jù)的地方,也是需要大數(shù)據(jù)分析方法的領(lǐng)域。3.4.8. 大數(shù)據(jù)一體機(jī)陸續(xù)發(fā)布自云計(jì)算和大數(shù)據(jù)概念被提出后,針對該市場推出的軟硬件一體化設(shè)備就層出不窮。在未來幾年里,數(shù)據(jù)倉庫一體機(jī)、NoSQL 一體機(jī)以及其它一些將多種技術(shù)結(jié)合的一體化設(shè)備將進(jìn)一步快速發(fā)

53、展。page4、基于基站大數(shù)據(jù)應(yīng)用及案例4.1. 氣象災(zāi)害應(yīng)急短信發(fā)布平臺4.1.1. 概述4.1.1.1. 項(xiàng)目背景為有效預(yù)防、及時響應(yīng)和處置氣象災(zāi)害,保證氣象災(zāi)害應(yīng)急工作高效、有序進(jìn)行,最大限度地減輕或者避免氣象災(zāi)害造成的人員傷亡、財(cái)產(chǎn)損失以及對經(jīng)濟(jì)社會發(fā)展和生態(tài)環(huán)境保護(hù)產(chǎn)生的不利影響,將災(zāi)害信息及時通知相關(guān)人員,建設(shè)氣象災(zāi)害應(yīng)急短信發(fā)布平臺。4.1.1.2. 平臺概述本平臺是利用手機(jī)進(jìn)出特定小區(qū)需與交換機(jī)交換位置信息的特性,結(jié)合目前移動通信網(wǎng)絡(luò)及短消息發(fā)布平臺,實(shí)現(xiàn)在特定區(qū)域、特定時間對特定客戶群,發(fā)送特定服務(wù)短信的個性化信息服務(wù)。4.1.2. 平臺建設(shè)特點(diǎn)與原則4.1.2.1. 建設(shè)特

54、點(diǎn)平臺具有以下特點(diǎn): 針對性強(qiáng):特定區(qū)域、特定時間、特定客群、特定服務(wù)短信,投放準(zhǔn)確,不會影響特定區(qū)域外的用戶; 收看率高:手機(jī)自動接收,收看率高,見效快,比傳統(tǒng)媒體信息更深入用戶; 發(fā)布便捷:客戶通過網(wǎng)絡(luò)可以直接申請發(fā)布信息,從申請到發(fā)布僅需幾小時,可以及時修改; 成本低廉:定向發(fā)送有的放矢,平均成本更低廉。4.1.2.2. 建設(shè)原則 標(biāo)準(zhǔn)化:具有互操作性,可用性,可靠性,可擴(kuò)充性,可管理性,建立一個開放式,遵循國際標(biāo)準(zhǔn)的網(wǎng)絡(luò)系統(tǒng)。 先進(jìn)性:既要保證網(wǎng)絡(luò)的先進(jìn)性,同時也要兼顧技術(shù)的成熟性。 安全性:對于安全性我們將通過對用戶的區(qū)域劃分,建議選用專用防火墻實(shí)現(xiàn)對本地資源的安全保護(hù)。 擴(kuò)展性:網(wǎng)

55、絡(luò)設(shè)計(jì)必須為今后的擴(kuò)充留有足夠的余地,以保護(hù)用戶的投資,保證今后的網(wǎng)絡(luò)擴(kuò)充升級能力。l 保護(hù)投資:每個設(shè)備都進(jìn)行嚴(yán)格的選型,在滿足設(shè)計(jì)原則的功能前提下,提供最經(jīng)濟(jì)的設(shè)備配置方案。 可管理:先進(jìn)的網(wǎng)絡(luò)管理可為多業(yè)務(wù)網(wǎng)絡(luò)提供安全運(yùn)行的基礎(chǔ)。4.1.2.3. 大數(shù)據(jù)管理平臺特點(diǎn) 獨(dú)特的云任務(wù)管理技術(shù)使系統(tǒng)的并行效率提升顯著、硬件資源被充分用于大數(shù)據(jù)處理,縮短處理時間、節(jié)約硬件成本。 獨(dú)特的多層分布式緩存技術(shù)使系統(tǒng)的吞吐量更大,運(yùn)算性能更高,數(shù)據(jù)更加安全可靠。 雙引擎技術(shù)云計(jì)算引擎與傳統(tǒng)計(jì)算引擎協(xié)同工作,使得業(yè)務(wù)支持類型更豐富、三方對接更方便、并實(shí)現(xiàn)了應(yīng)用前端到后端的大數(shù)據(jù)處理以及秒級的響應(yīng)速度。 獨(dú)

56、特的云目錄管理技術(shù)使得數(shù)據(jù)存儲更完整,數(shù)據(jù)回收更靈活更即時,數(shù)據(jù)的近線存儲更方便。 實(shí)用的監(jiān)控體系全面監(jiān)控所有云節(jié)點(diǎn)、圖形化的指標(biāo)監(jiān)控、完備的存活與性能告警、對于分析集群工作狀態(tài)、性能瓶頸識別、故障分析提供實(shí)際數(shù)據(jù)支持。 方便快捷的安裝提供圖形與命令行2種安裝模式,適合本地與遠(yuǎn)程部署。部署操作基本自動化,適合于大規(guī)模集群的快速部署安裝。4.1.3. 平臺整體架構(gòu)4.1.3.1. 建設(shè)原理本平臺是通過分析移動通訊過程中的各種信令過程,獲得用戶當(dāng)前的位置信息。當(dāng)用戶的位置信息與業(yè)務(wù)選擇發(fā)送的特定區(qū)域一致時,為用戶發(fā)布業(yè)務(wù)定制的短信。為獲得準(zhǔn)確、全面的用戶信息(當(dāng)前位置信息和用戶手機(jī)號),需要監(jiān)控業(yè)務(wù)特定區(qū)域所屬的MSC/VLR到周邊的所有信令鏈路(即下面的拓?fù)鋱D中雙向箭頭所對應(yīng)的物理鏈路)。本項(xiàng)目使用的信令

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論