大數(shù)據(jù)技術(shù)與應(yīng)用_第1頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用_第2頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用_第3頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用_第4頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)概論當(dāng)移動(dòng)通信和互聯(lián)網(wǎng)給我們帶來(lái)的生活方式、思維方式的巨大改變還沒(méi)有消退的時(shí)候,大數(shù)據(jù)時(shí)代以排山倒海之勢(shì)到來(lái),什么是大數(shù)據(jù)?大數(shù)據(jù)能為人們帶來(lái)哪里益處?大數(shù)據(jù)如何改變?nèi)藗兊纳?、工作和學(xué)習(xí)?大數(shù)據(jù)下的政府、企業(yè)和過(guò)去有什么不同?這一系列的問(wèn)題困擾著很多人,甚至連一些專家學(xué)者也對(duì)此迷惘。在人人都談大數(shù)據(jù)的時(shí)代并不是每個(gè)人都真正理解大數(shù)據(jù)的精髓,因此本章給讀者簡(jiǎn)單的介紹一下大數(shù)據(jù)的定義、原理、方法、應(yīng)用及存在的問(wèn)題。以后各章將介紹與大數(shù)據(jù)有關(guān)的技術(shù)、工具、商業(yè)模型及應(yīng)用案例等,引導(dǎo)讀者逐步深入,了解和掌握大數(shù)據(jù)的基本知識(shí)和技能,為從事大數(shù)據(jù)及其相關(guān)產(chǎn)業(yè)打下基礎(chǔ)。1.1大數(shù)據(jù)的定義大數(shù)據(jù)(BigData)是指數(shù)據(jù)量大到用常規(guī)工具和方法無(wú)法進(jìn)行處理的蘊(yùn)含著大量?jī)r(jià)值的數(shù)據(jù)集合。因此大數(shù)據(jù)的核心是價(jià)值,數(shù)據(jù)量大只是大數(shù)據(jù)的表象,這也是為什么大數(shù)據(jù)引起業(yè)界廣泛關(guān)注的重要原因。由此可見,對(duì)于大數(shù)據(jù)的研究和應(yīng)用主要集中于兩點(diǎn):一、從技術(shù)層面研究大數(shù)據(jù)的模型及處理算法、開發(fā)相應(yīng)的處理工具等;二、從商業(yè)模式層面尋找大數(shù)據(jù)的商業(yè)模型、盈利模式、產(chǎn)業(yè)發(fā)展等。維克托·邁爾-舍恩伯格和肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中指出大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用對(duì)所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。從該定義看來(lái)大數(shù)據(jù)仍然體現(xiàn)在數(shù)據(jù)量大和價(jià)值兩方面。知名研究機(jī)構(gòu)Gartner對(duì)大數(shù)據(jù)給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。Gartner的定義更多的傾向于大數(shù)據(jù)的決策優(yōu)化作用。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有價(jià)值的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),初級(jí)或者粗糙的大數(shù)據(jù)產(chǎn)業(yè)主要是提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”;而更高層次的大數(shù)據(jù)產(chǎn)業(yè)將數(shù)據(jù)信息產(chǎn)生的價(jià)值應(yīng)用到具體的行業(yè),發(fā)揮行業(yè)價(jià)值,從而實(shí)現(xiàn)數(shù)據(jù)信息價(jià)值的倍增。這樣才能真正體現(xiàn)大數(shù)據(jù)的價(jià)值所在。1.2大數(shù)據(jù)與海量信息的關(guān)系在10年前,我們經(jīng)常聽到一個(gè)名詞“海量信息”,用來(lái)描述大量數(shù)據(jù),這是在信息技術(shù)飛速發(fā)展的大背景下,數(shù)據(jù)量增加帶來(lái)的現(xiàn)實(shí)問(wèn)題,為此國(guó)家在“十一五”期間還加大的對(duì)海量信息及其相關(guān)技術(shù)的研究。下面是國(guó)家科技部“973”計(jì)劃對(duì)信息領(lǐng)域的項(xiàng)目資助指南?!笆晃濉逼陂g,信息領(lǐng)域基礎(chǔ)研究的發(fā)展目標(biāo)是根據(jù)國(guó)際信息技術(shù)的發(fā)展趨勢(shì),結(jié)合我國(guó)的國(guó)情和發(fā)展?fàn)顩r,著重從信息獲取、處理、傳輸、存儲(chǔ)、再現(xiàn)、安全、利用,信息系統(tǒng)的基礎(chǔ)元器件、信息處理環(huán)境、科學(xué)計(jì)算、人工智能、控制理論等方面開展系統(tǒng)深入的研究,為我國(guó)信息產(chǎn)業(yè)的跨越式發(fā)展奠定堅(jiān)實(shí)的理論和技術(shù)基礎(chǔ)。

“十一五”期間,重點(diǎn)研究方向包括:

(1)微納集成電路、光電子器件和集成微系統(tǒng)的基礎(chǔ)研究;

(2)信息處理環(huán)境及科學(xué)計(jì)算的基礎(chǔ)研究;

(3)泛在、可控的下一代信息網(wǎng)絡(luò)的基礎(chǔ)研究;

(4)信息獲取的基礎(chǔ)研究;

(5)高可信、高效率軟件的基礎(chǔ)研究;

(6)智能信息處理、和諧人機(jī)交互的基礎(chǔ)研究;

(7)海量信息處理、存儲(chǔ)及應(yīng)用的基礎(chǔ)研究;

(8)量子通信的基礎(chǔ)研究;

(9)信息安全的基礎(chǔ)研究從科技部973重大基礎(chǔ)研究計(jì)劃資助的領(lǐng)域中可以看出,國(guó)家加大了對(duì)海量信息的研究力度,這里就產(chǎn)生了一個(gè)疑問(wèn),大數(shù)據(jù)大還是海量數(shù)據(jù)大?二者有何聯(lián)系?又有什么區(qū)別?海量信息僅僅是從數(shù)據(jù)量上進(jìn)行界定,海量數(shù)據(jù)指數(shù)據(jù)量巨大,用普通的方法和工具處理起來(lái)相對(duì)困難,其計(jì)算時(shí)間和運(yùn)算量較大,需要開發(fā)新的存儲(chǔ)、處理和挖掘等技術(shù)才可以進(jìn)行快速處理。大數(shù)據(jù)的數(shù)據(jù)量明顯遠(yuǎn)大于海量數(shù)據(jù),當(dāng)然二者沒(méi)有嚴(yán)格的區(qū)分門限,通常意義上講,大數(shù)據(jù)的數(shù)據(jù)量要大于海量數(shù)據(jù)。海量數(shù)據(jù)的很多分析處理技術(shù)可以用于大數(shù)據(jù)的分析與處理,同樣大數(shù)據(jù)的相關(guān)理論和方法同樣可以用于海量數(shù)據(jù)。大數(shù)據(jù)不僅僅從量上進(jìn)行了分析,而且從本質(zhì)上進(jìn)行了定義,突出了其核心價(jià)值。因此可以說(shuō)大數(shù)據(jù)是海量數(shù)據(jù)的升級(jí),大數(shù)據(jù)更突出了數(shù)據(jù)的本質(zhì)。既然談到數(shù)據(jù)量的問(wèn)題,這里有必要介紹關(guān)于數(shù)據(jù)量的一些常見數(shù)量單位。數(shù)據(jù)的最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進(jìn)率1024(210)來(lái)計(jì)算:1Byte=8bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB1TB=1,024GB=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576YB1DB=1,024NB=1,048,576BB當(dāng)前用的最多的關(guān)于大數(shù)據(jù)描述的數(shù)量級(jí)是TB和PB,一般行業(yè)或者政府機(jī)構(gòu)的數(shù)據(jù)基本在PB級(jí)上,比如目前某省的農(nóng)業(yè)數(shù)據(jù)大概有幾百TB到幾十個(gè)PB之間,全國(guó)的每天產(chǎn)生的交通數(shù)據(jù)大概是幾個(gè)到幾百個(gè)TB量級(jí)上。因此,如此大量的數(shù)據(jù)用傳統(tǒng)的數(shù)據(jù)庫(kù)存儲(chǔ)、查詢和處理方式無(wú)法實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)處理,導(dǎo)致時(shí)效性大打折扣,甚至不可用,例如在追擊逃犯的時(shí)候,需要快速查出犯罪分子的行動(dòng)路線、推測(cè)他可能去的地方等,如果數(shù)據(jù)處理速度較慢,很容易錯(cuò)過(guò)機(jī)會(huì)。同樣在商業(yè)領(lǐng)域,每天的電子商務(wù)交易記錄、顧客瀏覽記錄等都是大量的數(shù)據(jù),因此這些數(shù)據(jù)的處理都需要快速。1.3大數(shù)據(jù)的來(lái)源與特點(diǎn)隨著電子信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,各種電子設(shè)備和數(shù)據(jù)終端迅速走入尋常百姓家庭,以移動(dòng)通信發(fā)展為代表的手機(jī)等客戶端產(chǎn)生大量的數(shù)據(jù);以PC為代表的微機(jī)時(shí)代產(chǎn)生了大量的計(jì)算機(jī)數(shù)據(jù);以數(shù)碼相機(jī)為代表的電子設(shè)備產(chǎn)生大量的視頻、圖片數(shù)據(jù);以互聯(lián)網(wǎng)為代表的網(wǎng)絡(luò)應(yīng)用產(chǎn)生大量的web數(shù)據(jù)。因此大數(shù)據(jù)的產(chǎn)生是源于信息技術(shù)的發(fā)展和普及。所以遍布全球的物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。大數(shù)據(jù)的存在形式多種多樣,這也決定了大數(shù)據(jù)的處理非常困難,需要運(yùn)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、物理學(xué)等知識(shí)進(jìn)行全方位的研究。比如大數(shù)據(jù)可以是包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò),社會(huì)數(shù)據(jù),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨學(xué)科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;大規(guī)模的電子商務(wù)等等。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)庫(kù)應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)。大數(shù)據(jù)的4個(gè)“V”是指大數(shù)據(jù)有四個(gè)層面特點(diǎn):第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類型繁多。如網(wǎng)絡(luò)日志、視頻、圖片、音頻、文檔、地理位置信息等等。第三,處理速度快,極短的時(shí)間可從各種類型的數(shù)據(jù)中快速獲得具有較高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來(lái)很高的價(jià)值回報(bào)。因此業(yè)界將其歸納為4個(gè)“V”——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價(jià)值密度高)。從某種程度上說(shuō),大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡(jiǎn)言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)使該技術(shù)引起眾多企業(yè)的關(guān)注。大數(shù)據(jù)最核心的價(jià)值就是在于對(duì)于海量數(shù)據(jù)進(jìn)行存儲(chǔ)和分析。相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價(jià)、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。1.4大數(shù)據(jù)的用途大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用幾個(gè)部分。每部分側(cè)重點(diǎn)不同,目前人們關(guān)注最多的是大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問(wèn)題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營(yíng)管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。大數(shù)據(jù)的應(yīng)用范圍非常廣,可以說(shuō),需要信息的地方就需要大數(shù)據(jù)。為了便于給讀者直觀的了解,下面簡(jiǎn)單的介紹幾個(gè)大數(shù)據(jù)應(yīng)用場(chǎng)景。第一,利用大數(shù)據(jù)探索實(shí)現(xiàn)信息庫(kù)的充實(shí)??蛻舴?wù)、保險(xiǎn)、汽車、醫(yī)療、教育、交通和技術(shù)標(biāo)準(zhǔn)等行業(yè)需要儲(chǔ)備規(guī)模巨大的知識(shí)庫(kù),而龐大繁雜手冊(cè)和知識(shí)系統(tǒng)會(huì)造成重復(fù)查詢,導(dǎo)致系統(tǒng)延遲和成本上升。例如,IBMInfoSphereDataExplore使某全球航空制造商中的技師、支持人員和工程師能夠即時(shí)通過(guò)單一訪問(wèn)點(diǎn)查看位于不同應(yīng)用程序中的信息。部署第一年,該公司全天候支持的呼叫時(shí)間從過(guò)去的50分鐘縮短為15分鐘,每年節(jié)約3600萬(wàn)美元。第二,利用運(yùn)營(yíng)分析實(shí)現(xiàn)運(yùn)營(yíng)優(yōu)化。制造、能源、公共事業(yè)、電信、旅行和運(yùn)輸?shù)刃袠I(yè)需要時(shí)刻關(guān)注突發(fā)事件、通過(guò)大數(shù)據(jù)分析和視頻監(jiān)控提升運(yùn)營(yíng)效率并預(yù)測(cè)潛在風(fēng)險(xiǎn)。巴基斯坦移動(dòng)運(yùn)營(yíng)商Ufone部署了IBM大數(shù)據(jù)解決方案,通過(guò)實(shí)時(shí)識(shí)別用戶行為,開展應(yīng)對(duì)特定目標(biāo)的營(yíng)銷活動(dòng),并使用預(yù)測(cè)分析來(lái)設(shè)計(jì)更好的營(yíng)銷活動(dòng)和電話推廣計(jì)劃,有效降低了客戶流失率。第三,利用數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)充實(shí)現(xiàn)IT效率和規(guī)模效益提升。企業(yè)需要增強(qiáng)現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)架構(gòu),實(shí)現(xiàn)大容量數(shù)據(jù)傳輸、低時(shí)延、和實(shí)時(shí)查詢需求,確保有效利用預(yù)測(cè)分析和商業(yè)智能實(shí)現(xiàn)企業(yè)效益和管理水平的提升。某汽車制造商利用IBMInfoSphereBigInsights增強(qiáng)原有數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)快速部署并且更易于管理。第四,利用安全性和智能擴(kuò)展實(shí)現(xiàn)犯罪防范,實(shí)現(xiàn)社會(huì)和諧穩(wěn)定。政府、保險(xiǎn)、銀行、消防、教育等行業(yè)亟待利用大數(shù)據(jù)技術(shù)補(bǔ)充和加強(qiáng)傳統(tǒng)的安全解決方案。重點(diǎn)人群的監(jiān)控、重點(diǎn)領(lǐng)域的布防、重要事件的預(yù)防和應(yīng)急燈都需要大數(shù)據(jù)來(lái)實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè)、預(yù)防和定位等。秘密情報(bào)和監(jiān)視傳感器系統(tǒng)供應(yīng)商TerraEchos通過(guò)部署IBMInfoSphereStreams,能夠?qū)崟r(shí)分析流式傳輸?shù)穆晫W(xué)數(shù)據(jù)并對(duì)其進(jìn)行分類,并將實(shí)時(shí)捕獲和分析275MB聲學(xué)數(shù)據(jù)所需的時(shí)間從數(shù)小時(shí)減少到十四分之一秒,同時(shí)大幅提升監(jiān)控精確度。第五,利用大數(shù)據(jù)實(shí)現(xiàn)廣告的精準(zhǔn)推送,由于用戶對(duì)垃圾郵件和煩人的廣告比較討厭反感,各國(guó)都在加大整治垃圾郵件和非法廣告的力度,而網(wǎng)絡(luò)廣告商在收取廣告費(fèi)用的時(shí)候通常是按用戶的點(diǎn)擊數(shù)或者鏈接等,而不考慮廣告的效果。商家花出的廣告費(fèi)卻沒(méi)有收到相應(yīng)的效果,普通用戶收到不需要的廣告會(huì)反感,而需要廣告的人未必收到廣告信息。因此如果利用大數(shù)據(jù)技術(shù),分析客戶的喜好和行為習(xí)慣,將廣告精準(zhǔn)推送給需要的人,既不會(huì)產(chǎn)生垃圾信息,又能使客戶的費(fèi)用得到合理的使用。由此可見,大數(shù)據(jù)可以為廣告行業(yè)提供精準(zhǔn)的服務(wù),提升數(shù)據(jù)價(jià)值。其他應(yīng)用比如洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測(cè)犯罪的發(fā)生。google流感趨勢(shì)(GoogleFluTrends)利用搜索關(guān)鍵詞預(yù)測(cè)禽流感的散布。統(tǒng)計(jì)學(xué)家內(nèi)特·西爾弗(NateSilver)利用大數(shù)據(jù)預(yù)測(cè)2012美國(guó)選舉結(jié)果。麻省理工學(xué)院利用手機(jī)定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。梅西百貨的實(shí)時(shí)定價(jià)機(jī)制。根據(jù)需求和庫(kù)存的情況,該公司基于SAS的系統(tǒng)對(duì)多達(dá)7300萬(wàn)種貨品進(jìn)行實(shí)時(shí)調(diào)價(jià)。Tipp24AG針對(duì)歐洲博彩業(yè)構(gòu)建的下注和預(yù)測(cè)平臺(tái)。該公司用KXEN軟件來(lái)分析數(shù)十億計(jì)的交易以及客戶的特性,然后通過(guò)預(yù)測(cè)模型對(duì)特定用戶進(jìn)行動(dòng)態(tài)的營(yíng)銷活動(dòng)。這項(xiàng)舉措減少了90%的預(yù)測(cè)模型構(gòu)建時(shí)間。SAP公司正在試圖收購(gòu)KXEN?!癝AP想通過(guò)這次收購(gòu)來(lái)扭轉(zhuǎn)其長(zhǎng)久以來(lái)在預(yù)測(cè)分析方面的劣勢(shì)?!盠aney分析到。PredPolInc.公司通過(guò)與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預(yù)測(cè)算法的變體和犯罪數(shù)據(jù)來(lái)預(yù)測(cè)犯罪發(fā)生的幾率,可以精確到500平方英尺的范圍內(nèi)。在洛杉磯運(yùn)用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。經(jīng)典大數(shù)據(jù)案例-沃爾瑪經(jīng)典營(yíng)銷:啤酒與尿布“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國(guó)沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無(wú)關(guān)系的商品會(huì)經(jīng)常出現(xiàn)在同一個(gè)購(gòu)物籃中,這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過(guò)后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。在美國(guó)有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購(gòu)買尿布。父親在購(gòu)買尿布的同時(shí),往往會(huì)順便為自己購(gòu)買啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購(gòu)物籃的現(xiàn)象。如果這個(gè)年輕的父親在賣場(chǎng)只能買到兩件商品之一,則他很有可能會(huì)放棄購(gòu)物而到另一家商店,直到可以一次同時(shí)買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場(chǎng)嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購(gòu)物;而沃爾瑪超市也可以讓這些客戶一次購(gòu)買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布”故事的由來(lái)。當(dāng)然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國(guó)學(xué)者Agrawal提出通過(guò)分析購(gòu)物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購(gòu)買行為。艾格拉沃從數(shù)學(xué)及計(jì)算機(jī)算法角度提出了商品關(guān)聯(lián)關(guān)系的計(jì)算方法——Aprior算法。沃爾瑪從上個(gè)世紀(jì)90年代嘗試將Aprior算法引入到POS機(jī)數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。1.5數(shù)據(jù)價(jià)值眾所周知,企業(yè)數(shù)據(jù)本身就蘊(yùn)藏著價(jià)值,但是將有用的數(shù)據(jù)與沒(méi)有價(jià)值的數(shù)據(jù)進(jìn)行區(qū)分看起來(lái)可能是一個(gè)棘手的問(wèn)題。顯然,您所掌握的人員情況、工資表和客戶記錄對(duì)于企業(yè)的運(yùn)轉(zhuǎn)至關(guān)重要,但是其他數(shù)據(jù)也擁有轉(zhuǎn)化為價(jià)值的力量。一段記錄人們?nèi)绾卧谀纳痰隇g覽購(gòu)物的視頻、人們?cè)谫?gòu)買您的服務(wù)前后的所作所為、如何通過(guò)社交網(wǎng)絡(luò)聯(lián)系您的客戶、是什么吸引合作伙伴加盟、客戶如何付款以及供應(yīng)商喜歡的收款方式……所有這些場(chǎng)景都提供了很多指向,將它們抽絲剝繭,透過(guò)特殊的棱鏡觀察,將其與其他數(shù)據(jù)集對(duì)照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發(fā)生天翻地覆的轉(zhuǎn)變。但是屢見不鮮的是,很多公司仍然只是將信息簡(jiǎn)單堆在一起,僅將其當(dāng)作為滿足公司治理規(guī)則而必須要保存的信息加以處理,而不是將它們作為戰(zhàn)略轉(zhuǎn)變的工具。畢竟,數(shù)據(jù)和人員是業(yè)務(wù)部門僅有的兩筆無(wú)法被競(jìng)爭(zhēng)對(duì)手復(fù)制的財(cái)富。在善用的人手中,好的數(shù)據(jù)是所有管理決策的基礎(chǔ),帶來(lái)的是對(duì)客戶的深入了解和競(jìng)爭(zhēng)優(yōu)勢(shì)。數(shù)據(jù)是業(yè)務(wù)部門的生命線,必須讓數(shù)據(jù)在決策和行動(dòng)時(shí)無(wú)縫且安全地流到人們手中。所以,數(shù)據(jù)應(yīng)該隨時(shí)為決策提供依據(jù)??纯丛谡_道路和公共交通的使用信息這樣看起來(lái)甚至有點(diǎn)晦澀的數(shù)據(jù)時(shí)會(huì)發(fā)生什么:這些數(shù)據(jù)來(lái)源為一些私營(yíng)公司提供了巨大的價(jià)值,這些公司能夠善用這些數(shù)據(jù),創(chuàng)造滿足潛在需求的新產(chǎn)品和服務(wù)。企業(yè)需要向創(chuàng)造和取得數(shù)據(jù)方面的投入索取回報(bào)。有效管理來(lái)自新舊來(lái)源的數(shù)據(jù)以及獲取能夠破解龐大數(shù)據(jù)集含義的工具只是等式的一部分,但是這種挑戰(zhàn)不容低估。產(chǎn)生的數(shù)據(jù)在數(shù)量上持續(xù)膨脹;音頻、視頻和圖像等富媒體需要新的方法來(lái)發(fā)現(xiàn);電子郵件、IM、tweet和社交網(wǎng)絡(luò)等合作和交流系統(tǒng)以非結(jié)構(gòu)化文本的形式保存數(shù)據(jù),必須用一種智能的方式來(lái)解讀。但是,應(yīng)該將這種復(fù)雜性看成是一種機(jī)會(huì)而不是問(wèn)題。處理方法正確時(shí),產(chǎn)生的數(shù)據(jù)越多,結(jié)果就會(huì)越成熟可靠。傳感器、GPS系統(tǒng)和社交數(shù)據(jù)的新世界將帶來(lái)轉(zhuǎn)變運(yùn)營(yíng)的驚人新視角和機(jī)會(huì)。請(qǐng)不要錯(cuò)過(guò)。有些人會(huì)說(shuō),數(shù)據(jù)中蘊(yùn)含的價(jià)值只能由專業(yè)人員來(lái)解讀。但是澤字節(jié)經(jīng)濟(jì)并不只是數(shù)據(jù)科學(xué)家和高級(jí)開發(fā)員的天下。數(shù)據(jù)的價(jià)值在于將正確的信息在正確的時(shí)間交付到正確的人手中。未來(lái)將屬于那些能夠駕馭所擁有數(shù)據(jù)的公司,這些數(shù)據(jù)與公司自身的業(yè)務(wù)和客戶相關(guān),通過(guò)對(duì)數(shù)據(jù)的利用,發(fā)現(xiàn)新的洞見,幫助他們找出競(jìng)爭(zhēng)優(yōu)勢(shì)。1.6大數(shù)據(jù)主要分析和處理工具如此大量的數(shù)據(jù),靠人工分析顯然是不可能的,統(tǒng)計(jì)學(xué)家和計(jì)算高手也無(wú)法完成如此巨大的任務(wù),“工欲善其事,必先利其器”,因此對(duì)于大數(shù)據(jù)的分析和處理,必須有非常好的工具才行,而且不能指望一種工具可以解決所有問(wèn)題,當(dāng)前用于分析大數(shù)據(jù)的工具主要有開源與商用兩個(gè)生態(tài)圈。開源大數(shù)據(jù)生態(tài)圈:1、HadoopHDFS、HadoopMapReduce、HBase、Hive漸次誕生,早期Hadoop生態(tài)圈逐步形成。2、Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。3、NoSQL,membase、MongoDb商用大數(shù)據(jù)生態(tài)圈:1、一體機(jī)數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù):IBMPureData(Netezza),OracleExadata,SAPHana等等。2、數(shù)據(jù)倉(cāng)庫(kù):TeradataAsterData,EMCGreenPlum,HPVertica等等。3、數(shù)據(jù)集市:QlikView、Tableau、以及國(guó)內(nèi)的YonghongDataMart。[主要的大數(shù)據(jù)分析工具有:在大數(shù)據(jù)處理領(lǐng)域,最耀眼的明星是hadoop,Hadoop已被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺(tái),EMC、IBM、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱。對(duì)于大數(shù)據(jù)來(lái)說(shuō),最重要的還是對(duì)于數(shù)據(jù)的分析,從里面尋找有價(jià)值的數(shù)據(jù)幫助企業(yè)作出更好的商業(yè)決策。下面,我們就來(lái)看以下八大關(guān)于大數(shù)據(jù)分析的利器。EMC—Greenplum2010年EMC收購(gòu)了Greenplum推出EMCGreenplum統(tǒng)一分析平臺(tái)(UAP),數(shù)據(jù)團(tuán)隊(duì)和分析團(tuán)隊(duì)可以在該平臺(tái)上無(wú)縫地共享信息、協(xié)作分析。正因?yàn)槿绱?,UAP包括ECMGreenplum關(guān)系數(shù)據(jù)庫(kù)、EMCGreenplumHDHadoop發(fā)行版和EMCGreenplumChorus。EMC為大數(shù)據(jù)開發(fā)的硬件是模塊化的EMC數(shù)據(jù)計(jì)算設(shè)備(DCA),它能夠在一個(gè)設(shè)備里面運(yùn)行并擴(kuò)展Greenplum關(guān)系數(shù)據(jù)庫(kù)和GreenplumHD節(jié)點(diǎn)。DCA提供了一個(gè)共享的指揮中心(CommandCenter)界面,讓管理員可以監(jiān)控、管理和配置Greenplum數(shù)據(jù)庫(kù)和Hadoop系統(tǒng)性能及容量。隨著Hadoop平臺(tái)日趨成熟,預(yù)計(jì)分析功能會(huì)急劇增加。IBM—InfoSphereBigInsights幾年前,IBM開始在其實(shí)驗(yàn)室嘗試使用Hadoop,在2012年5月推出了InfoSphereBigInsights云版本的InfoSphereBigInsights使組織內(nèi)的任何用戶都可以做大數(shù)據(jù)分析。云上的BigInsights軟件可以分析數(shù)據(jù)庫(kù)里的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),使決策者能夠迅速將洞察轉(zhuǎn)化為行動(dòng)。IBM隨后又在10月通過(guò)其智慧云企業(yè)(SmartCloudEnterprise)基礎(chǔ)架構(gòu),將BigInsights和BigSheets作為一項(xiàng)服務(wù)來(lái)提供。據(jù)IBM聲稱,客戶用不了30分鐘就能搭建起Hadoop集群,并將數(shù)據(jù)轉(zhuǎn)移到集群里面,數(shù)據(jù)處理費(fèi)用是每個(gè)集群每小時(shí)60美分起價(jià)Informatica9.1Informatica公司在2012年10月推出了HParser,這是一種針對(duì)Hadoop而優(yōu)化的數(shù)據(jù)轉(zhuǎn)換環(huán)境。據(jù)Informatica聲稱,軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發(fā)人員提供了即開即用的解析功能,以便處理復(fù)雜而多樣的數(shù)據(jù)源,包括日志、文檔、二進(jìn)制數(shù)據(jù)或?qū)哟问綌?shù)據(jù),以及眾多行業(yè)標(biāo)準(zhǔn)格式(如銀行業(yè)的NACHA、支付業(yè)的SWIFT、金融數(shù)據(jù)業(yè)的FIX和保險(xiǎn)業(yè)的ACORD)。正如數(shù)據(jù)庫(kù)內(nèi)處理技術(shù)加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop里面,以便充分利用所有這些處理功能,不久會(huì)添加其他的數(shù)據(jù)處理代碼。InformaticaHParser是InformaticaB2BDataExchange家族產(chǎn)品及Informatica平臺(tái)的最新補(bǔ)充,旨在滿足從海量無(wú)結(jié)構(gòu)數(shù)據(jù)中提取商業(yè)價(jià)值的日益增長(zhǎng)的需求。去年,Informatica成功地推出了創(chuàng)新的Informatica9.1forBigData,是全球第一個(gè)專門為大數(shù)據(jù)而構(gòu)建的統(tǒng)一數(shù)據(jù)集成平臺(tái)?;萜铡猇ertica數(shù)據(jù)分析平臺(tái)惠普Vertica5.0在大數(shù)據(jù)分析領(lǐng)域站穩(wěn)腳跟,能提供高效數(shù)據(jù)存儲(chǔ)和快速查詢的列存儲(chǔ)數(shù)據(jù)庫(kù)實(shí)時(shí)分析平臺(tái)。該數(shù)據(jù)庫(kù)還支持大規(guī)模并行處理(MPP)。通過(guò)MPP的擴(kuò)展性可以讓Vertica為高端數(shù)字營(yíng)銷、電子商務(wù)客戶(比如AOL、Twitter、Groupon)分析處理的數(shù)據(jù)達(dá)到PB級(jí)?;萜照故玖艘豢頥ertica設(shè)備——VerticaAnalyticsAppliance,和小冰箱差不多大小。它是惠普融合基礎(chǔ)架構(gòu)中的一款全集成技術(shù)棧。通過(guò)這款新設(shè)備“惠普可以真正打開這個(gè)市場(chǎng),尤其是將分析作為一項(xiàng)服務(wù)的市場(chǎng)”。甲骨文—OracleBigDataAppliance甲骨文的BigDataAppliance集成系統(tǒng)包括Cloudera的Hadoop系統(tǒng)管理軟件和支持服務(wù)ApacheHadoop和ClouderaManager。甲骨文視BigDataAppliance為包括Exadata、Exalogic和ExalyticsIn-MemoryMachine的“建造系統(tǒng)”。Oracle大數(shù)據(jù)機(jī)(OracleBigDataAppliance),是一個(gè)軟、硬件集成系統(tǒng),在系統(tǒng)中融入了Cloudera的DistributionIncludingApacheHadoop、ClouderaManager和一個(gè)開源R。該大數(shù)據(jù)機(jī)采用OracleLinux操作系統(tǒng),并配備OracleNoSQL數(shù)據(jù)庫(kù)社區(qū)版本和OracleHotSpotJava虛擬機(jī)。BigDataAppliance為全架構(gòu)產(chǎn)品,每個(gè)架構(gòu)864GB存儲(chǔ),216個(gè)CPU內(nèi)核,648TBRAW存儲(chǔ),每秒40GB的InifiniBand連接。BigDataAppliance售價(jià)45萬(wàn)美元,每年硬軟件支持費(fèi)用為12%。微軟SQLServer2011年初微軟發(fā)布的SQLServerR2ParallelDataWarehouse(PDW,并行數(shù)據(jù)倉(cāng)庫(kù)),PDW使用了大規(guī)模并行處理來(lái)支持高擴(kuò)展性,它可以幫助客戶擴(kuò)展部署數(shù)百TB級(jí)別數(shù)據(jù)的分析解決方案。微軟目前已經(jīng)開始提供HadoopConnectorforSQLServerParallelDataWarehouse和HadoopConnectorforSQLServer社區(qū)技術(shù)預(yù)覽版本的連接器。微軟在2012年推出了基于Azure云平臺(tái)的測(cè)試版Hadoop服務(wù),2013年它推出與Windows兼容的基于Hadoop的大數(shù)據(jù)解決方案(BigDataSolution)。亞馬遜—MapReduce亞馬遜早在2009年就推出了亞馬遜彈性MapReduce(AmazonElasticMapReduce),彈性MapReduce是一項(xiàng)能夠迅速擴(kuò)展的Web服務(wù),運(yùn)行在亞馬遜彈性計(jì)算云(AmazonEC2)和亞馬遜簡(jiǎn)單存儲(chǔ)服務(wù)(AmazonS3)上。實(shí)現(xiàn)面對(duì)數(shù)據(jù)密集型任務(wù),比如互聯(lián)網(wǎng)索引、數(shù)據(jù)挖掘、日志文件分析、機(jī)器學(xué)習(xí)、金融分析、科學(xué)模擬和生物信息學(xué)研究,用戶需要多大容量,立即就能配置到多大容量。TeradataTeradata是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(EDW)的領(lǐng)導(dǎo)者,在數(shù)據(jù)庫(kù)分析領(lǐng)域不斷推陳出新,該公司購(gòu)AsterData—高級(jí)分析和管理各種非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的市場(chǎng)領(lǐng)導(dǎo)者和開拓者。Teradata日前宣布了一項(xiàng)AsterDataMapReduce產(chǎn)品的計(jì)劃,它建立在以往產(chǎn)品同樣的硬件平臺(tái)之上,而且在Teradata和AsterData之間新增了兩種集成方法。1.6.1大數(shù)據(jù)處理流程1、采集定義:利用多種輕型數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作特點(diǎn)和挑戰(zhàn):并發(fā)系數(shù)高使用的產(chǎn)品:MySQL,Oracle,HBase,Redis和MongoDB等,并且這些產(chǎn)品的特點(diǎn)各不相同2、統(tǒng)計(jì)分析定義:將海量的來(lái)自前端的數(shù)據(jù)快速導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù)或者分布式存儲(chǔ)集群,利用分布式技術(shù)來(lái)對(duì)存儲(chǔ)于其內(nèi)的集中的海量數(shù)據(jù)進(jìn)行普通的查詢和分類匯總等,以此滿足大多數(shù)常見的分析需求特點(diǎn)和挑戰(zhàn):導(dǎo)入數(shù)據(jù)量大,查詢涉及的數(shù)據(jù)量大,查詢請(qǐng)求多使用的產(chǎn)品:InfoBright,Hadoop(Pig和Hive),YunTable,SAPHana和OracleExadata,除Hadoop以做離線分析為主之外,其他產(chǎn)品可做實(shí)時(shí)分析3、挖掘定義:基于前面的查詢數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,來(lái)滿足高級(jí)別的數(shù)據(jù)分析需求特點(diǎn)和挑戰(zhàn):算法復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都大使用的產(chǎn)品:R,HadoopMahout1.7大數(shù)據(jù)的發(fā)展前景2013年5月10日,阿里巴巴集團(tuán)董事局主席馬云在淘寶十周年晚會(huì)上,將卸任阿里集團(tuán)CEO的職位,并在晚會(huì)上做卸任前的演講,馬云說(shuō):“大家還沒(méi)搞清PC時(shí)代的時(shí)候,移動(dòng)互聯(lián)網(wǎng)來(lái)了,還沒(méi)搞清移動(dòng)互聯(lián)網(wǎng)的時(shí)候,大數(shù)據(jù)時(shí)代來(lái)了。”大數(shù)據(jù)正在改變著產(chǎn)品和生產(chǎn)過(guò)程、企業(yè)和產(chǎn)業(yè),甚至競(jìng)爭(zhēng)本身的性質(zhì)。把信息技術(shù)看作是輔助或服務(wù)性的工具已經(jīng)成為過(guò)時(shí)的觀念,管理者應(yīng)該認(rèn)識(shí)到信息技術(shù)的廣泛影響和深刻含義,以及怎樣利用信息技術(shù)來(lái)創(chuàng)造有力而持久的競(jìng)爭(zhēng)優(yōu)勢(shì)。無(wú)疑,信息技術(shù)正在改變著我們習(xí)以為常的商業(yè)模式,一場(chǎng)關(guān)系到企業(yè)生死存亡的技術(shù)革命已經(jīng)到來(lái)。借著大數(shù)據(jù)時(shí)代的熱潮,微軟公司生產(chǎn)了一款數(shù)據(jù)驅(qū)動(dòng)的軟件,主要是為工程建設(shè)節(jié)約資源提高效率。在這個(gè)過(guò)程里可以為世界節(jié)約40%的能源。拋開這個(gè)軟件的前景不看,從微軟團(tuán)隊(duì)致力于研究開始,可以看他們的目標(biāo)不僅是為了節(jié)約了能源,更加關(guān)注智能化運(yùn)營(yíng)。通過(guò)跟蹤取暖器、空調(diào)、風(fēng)扇以及燈光等積累下來(lái)的超大量數(shù)據(jù),捕捉如何杜絕能源浪費(fèi)?!敖o我提供一些數(shù)據(jù),我就能做一些改變。如果給我提供所有數(shù)據(jù),我就能拯救世界?!蔽④浭访芩惯@樣說(shuō)。而智能建筑正是他的團(tuán)隊(duì)專注的事情。隨著全球范圍內(nèi)個(gè)人電腦、智能手機(jī)等設(shè)備的普及和新興市場(chǎng)內(nèi)不斷增長(zhǎng)的互聯(lián)網(wǎng)訪問(wèn)量,以及監(jiān)控?cái)z像機(jī)或智能電表等設(shè)備產(chǎn)生的數(shù)據(jù)爆增,使數(shù)字宇宙的規(guī)模在2012到2013兩年間翻了一番,達(dá)到驚人的2.8ZB。IDC預(yù)計(jì),到2020年,數(shù)字宇宙規(guī)模將超出預(yù)期,達(dá)到40ZB。40ZB究竟是個(gè)什么樣的概念呢?地球上所有海灘上的沙粒加在一起估計(jì)有七萬(wàn)零五億億顆。40ZB相當(dāng)于地球上所有海灘上的沙粒數(shù)量的57倍。也就是說(shuō)到2020年,數(shù)字宇宙將每?jī)赡攴环?;?020年,人均數(shù)據(jù)量將達(dá)5,247GB。該報(bào)告同時(shí)顯示,盡管個(gè)人和機(jī)器每天產(chǎn)生大量數(shù)據(jù),使數(shù)字宇宙前所未有地不斷膨脹,但僅有0.4%的全球數(shù)據(jù)得到了分析。由此可見,大數(shù)據(jù)的應(yīng)用幾乎是一塊未被開墾的處女地。云計(jì)算云計(jì)算(cloudcomputing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說(shuō)法。過(guò)去在圖中往往用云來(lái)表示電信網(wǎng),后來(lái)也用來(lái)表示互聯(lián)網(wǎng)和底層基礎(chǔ)設(shè)施的抽象。因此,云計(jì)算甚至可以讓你體驗(yàn)每秒10萬(wàn)億次的運(yùn)算能力,擁有這么強(qiáng)大的計(jì)算能力可以模擬核爆炸、預(yù)測(cè)氣候變化和市場(chǎng)發(fā)展趨勢(shì)。用戶通過(guò)電腦、筆記本、手機(jī)等方式接入數(shù)據(jù)中心,按自己的需求進(jìn)行運(yùn)算。對(duì)云計(jì)算的定義有多種說(shuō)法。對(duì)于到底什么是云計(jì)算,至少可以找到100種解釋?,F(xiàn)階段廣為接受的是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)定義:云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問(wèn),進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。念云計(jì)算(cloudcomputing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。(原文:CloudcomputingisastyleofcomputinginwhichdynamicallyscalableandoftenvirtualizedresourcesareprovidedasaserviceovertheInternet.)美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)定義:云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問(wèn),進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。XenSystem,以及在國(guó)外已經(jīng)非常成熟的Intel和IBM,各種“云計(jì)算”的應(yīng)用服務(wù)范圍正日漸擴(kuò)大,影響力也無(wú)可估量。由于云計(jì)算應(yīng)用的不斷深入,以及對(duì)大數(shù)據(jù)處理需求的不斷擴(kuò)大,用戶對(duì)性能強(qiáng)大、可用性高的4路、8路服務(wù)器需求出現(xiàn)明顯提速,這一細(xì)分產(chǎn)品同比增速超過(guò)200%。IBM在這一領(lǐng)域占有相當(dāng)?shù)膬?yōu)勢(shì),更值得關(guān)注的是,浪潮僅以天梭TS850一款產(chǎn)品在2011實(shí)現(xiàn)了超過(guò)15%的市場(chǎng)占有率,以不到1%的差距排名IBM,HP之后,成為中國(guó)高端服務(wù)器三強(qiáng)。2012年浪潮斥資近十億元研發(fā)的32路高端容錯(cuò)服務(wù)器天梭K1系統(tǒng)尚未面世,其巨大的市場(chǎng)潛力有待挖掘。原文:Cloudcomputingisamodelforenablingubiquitous,convenient,on-demandnetworkaccesstoasharedpoolofconfigurablecomputingresources(e.g.,networks,servers,storage,applications,andservices)thatcanberapidlyprovisionedandreleasedwithminimalmanagementeffortorserviceproviderinteraction.云計(jì)算常與網(wǎng)格計(jì)算、效用計(jì)算、自主計(jì)算相混淆。網(wǎng)格計(jì)算:分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)組成的一個(gè)超級(jí)虛擬計(jì)算機(jī),常用來(lái)執(zhí)行一些大型任務(wù);效用計(jì)算:IT資源的一種打包和計(jì)費(fèi)方式,比如按照計(jì)算、存儲(chǔ)分別計(jì)量費(fèi)用,像傳統(tǒng)的電力等公共設(shè)施一樣;自主計(jì)算:具有自我管理功能的計(jì)算機(jī)系統(tǒng)。事實(shí)上,許多云計(jì)算部署依賴于計(jì)算機(jī)集群(但與網(wǎng)格的組成、體系結(jié)構(gòu)、目的、工作方式大相徑庭),也吸收了自主計(jì)算和效用計(jì)算的特點(diǎn)。1983年,太陽(yáng)電腦(SunMicrosystems)提出“網(wǎng)絡(luò)是電腦”(“TheNetworkistheComputer”),2006年3月,亞馬遜(Amazon)推出彈性計(jì)算云(ElasticComputeCloud;EC2)服務(wù)。2006年8月9日,Google首席執(zhí)行官埃里克·施密特(EricSchmidt)在搜索引擎大會(huì)(SESSanJose2006)首次提出“云計(jì)算”(CloudComputing)的概念。Google“云端計(jì)算”源于Google工程師克里斯托弗·比希利亞所做的“Google101”項(xiàng)目。2007年10月,Google與IBM開始在美國(guó)大學(xué)校園,包括卡內(nèi)基梅隆大學(xué)、麻省理工學(xué)院、斯坦福大學(xué)、加州大學(xué)柏克萊分校及馬里蘭大學(xué)等,推廣云計(jì)算的計(jì)劃,這項(xiàng)計(jì)劃希望能降低分布式計(jì)算技術(shù)在學(xué)術(shù)研究方面的成本,并為這些大學(xué)提供相關(guān)的軟硬件設(shè)備及技術(shù)支持(包括數(shù)百臺(tái)個(gè)人電腦及BladeCenter與Systemx服務(wù)器,這些計(jì)算平臺(tái)將提供1600個(gè)處理器,支持包括Linux、Xen、Hadoop等開放源代碼平臺(tái))。而學(xué)生則可以通過(guò)網(wǎng)絡(luò)開發(fā)各項(xiàng)以大規(guī)模計(jì)算為基礎(chǔ)的研究計(jì)劃。2008年1月30日,Google宣布在臺(tái)灣啟動(dòng)“云計(jì)算學(xué)術(shù)計(jì)劃”,將與臺(tái)灣臺(tái)大、交大等學(xué)校合作,將這種先進(jìn)的大規(guī)模、快速將云計(jì)算技術(shù)推廣到校園。2008年2月1日,IBM(NYSE:IBM)宣布將在中國(guó)無(wú)錫太湖新城科教產(chǎn)業(yè)園為中國(guó)的軟件公司建立全球第一個(gè)云計(jì)算中心(CloudComputingCenter)。2008年7月29日,雅虎、惠普和英特爾宣布一項(xiàng)涵蓋美國(guó)、德國(guó)和新加坡的聯(lián)合研究計(jì)劃,推出云計(jì)算研究測(cè)試床,推進(jìn)云計(jì)算。該計(jì)劃要與合作伙伴創(chuàng)建6個(gè)數(shù)據(jù)中心作為研究試驗(yàn)平臺(tái),每個(gè)數(shù)據(jù)中心配置1400個(gè)至4000個(gè)處理器。這些合作伙伴包括新加坡資訊通信發(fā)展管理局、德國(guó)卡爾斯魯厄大學(xué)Steinbuch計(jì)算中心、美國(guó)伊利諾伊大學(xué)香賓分校、英特爾研究院、惠普實(shí)驗(yàn)室和雅虎。2008年8月3日,美國(guó)專利商標(biāo)局網(wǎng)站信息顯示,戴爾正在申請(qǐng)“云計(jì)算”(CloudComputing)商標(biāo),此舉旨在加強(qiáng)對(duì)這一未來(lái)可能重塑技術(shù)架構(gòu)的術(shù)語(yǔ)的控制權(quán)。2010年3月5日,Novell與云安全聯(lián)盟(CSA)共同宣布一項(xiàng)供應(yīng)商中立計(jì)劃,名為“可信任云計(jì)算計(jì)劃(TrustedCloudInitiative)”。2010年7月,美國(guó)國(guó)家航空航天局和包括Rackspace、AMD、Intel、戴爾等支持廠商共同宣布“OpenStack”開放源代碼計(jì)劃,微軟在2010年10月表示支持OpenStack與WindowsServer2008R2的集成;而Ubuntu已把OpenStack加至11.04版本中。2011年2月,思科系統(tǒng)正式加入OpenStack,重點(diǎn)研制OpenStack的網(wǎng)絡(luò)服務(wù)。特點(diǎn)云計(jì)算是通過(guò)使計(jì)算分布在大量的分布式計(jì)算機(jī)上,而非本地計(jì)算機(jī)或遠(yuǎn)程服務(wù)器中,企業(yè)數(shù)據(jù)中心的運(yùn)行將與互聯(lián)網(wǎng)更相似。這使得企業(yè)能夠?qū)①Y源切換到需要的應(yīng)用上,根據(jù)需求訪問(wèn)計(jì)算機(jī)和存儲(chǔ)系統(tǒng)。好比是從古老的單臺(tái)發(fā)電機(jī)模式轉(zhuǎn)向了電廠集中供電的模式。它意味著計(jì)算能力也可以作為一種商品進(jìn)行流通,就像煤氣、水電一樣,取用方便,費(fèi)用低廉。最大的不同在于,它是通過(guò)互聯(lián)網(wǎng)進(jìn)行傳輸?shù)?。被普遍接受的云?jì)算特點(diǎn)如下:(1)超大規(guī)模“云”具有相當(dāng)?shù)囊?guī)模,Google云計(jì)算已經(jīng)擁有100多萬(wàn)臺(tái)服務(wù)器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬(wàn)臺(tái)服務(wù)器。企業(yè)私有云一般擁有數(shù)百上千臺(tái)服務(wù)器?!霸啤蹦苜x予用戶前所未有的計(jì)算能力。(2)虛擬化云計(jì)算支持用戶在任意位置、使用各種終端獲取應(yīng)用服務(wù)。所請(qǐng)求的資源來(lái)自“云”,而不是固定的有形的實(shí)體。應(yīng)用在“云”中某處運(yùn)行,但實(shí)際上用戶無(wú)需了解、也不用擔(dān)心應(yīng)用運(yùn)行的具體位置。只需要一臺(tái)筆記本或者一個(gè)手機(jī),就可以通過(guò)網(wǎng)絡(luò)服務(wù)來(lái)實(shí)現(xiàn)我們需要的一切,甚至包括超級(jí)計(jì)算這樣的任務(wù)。(3)高可靠性“云”使用了數(shù)據(jù)多副本容錯(cuò)、計(jì)算節(jié)點(diǎn)同構(gòu)可互換等措施來(lái)保障服務(wù)的高可靠性,使用云計(jì)算比使用本地計(jì)算機(jī)可靠。(4)通用性云計(jì)算不針對(duì)特定的應(yīng)用,在“云”的支撐下可以構(gòu)造出千變?nèi)f化的應(yīng)用,同一個(gè)“云”可以同時(shí)支撐不同的應(yīng)用運(yùn)行。(5)高可擴(kuò)展性“云”的規(guī)模可以動(dòng)態(tài)伸縮,滿足應(yīng)用和用戶規(guī)模增長(zhǎng)的需要。(6)按需服務(wù)“云”是一個(gè)龐大的資源池,你按需購(gòu)買;云可以像自來(lái)水,電,煤氣那樣計(jì)費(fèi)。(7)極其廉價(jià)由于“云”的特殊容錯(cuò)措施可以采用極其廉價(jià)的節(jié)點(diǎn)來(lái)構(gòu)成云,“云”的自動(dòng)化集中式管理使大量企業(yè)無(wú)需負(fù)擔(dān)日益高昂的數(shù)據(jù)中心管理成本,“云”的通用性使資源的利用率較之傳統(tǒng)系統(tǒng)大幅提升,因此用戶可以充分享受“云”的低成本優(yōu)勢(shì),經(jīng)常只要花費(fèi)幾百美元、幾天時(shí)間就能完成以前需要數(shù)萬(wàn)美元、數(shù)月時(shí)間才能完成的任務(wù)。云計(jì)算可以徹底改變?nèi)藗兾磥?lái)的生活,但同時(shí)也要重視環(huán)境問(wèn)題,這樣才能真正為人類進(jìn)步做貢獻(xiàn),而不是簡(jiǎn)單的技術(shù)提升。(8)潛在的危險(xiǎn)性云計(jì)算服務(wù)除了提供計(jì)算服務(wù)外,還必然提供了存儲(chǔ)服務(wù)。但是云計(jì)算服務(wù)當(dāng)前壟斷在私人機(jī)構(gòu)(企業(yè))手中,而他們僅僅能夠提供商業(yè)信用。對(duì)于政府機(jī)構(gòu)、商業(yè)機(jī)構(gòu)(特別像銀行這樣持有敏感數(shù)據(jù)的商業(yè)機(jī)構(gòu))對(duì)于選擇云計(jì)算服務(wù)應(yīng)保持足夠的警惕。一旦商業(yè)用戶大規(guī)模使用私人機(jī)構(gòu)提供的云計(jì)算服務(wù),無(wú)論其技術(shù)優(yōu)勢(shì)有多強(qiáng),都不可避免地讓這些私人機(jī)構(gòu)以“數(shù)據(jù)(信息)”的重要性挾制整個(gè)社會(huì)。對(duì)于信息社會(huì)而言,“信息”是至關(guān)重要的。另一方面,云計(jì)算中的數(shù)據(jù)對(duì)于數(shù)據(jù)所有者以外的其他用戶云計(jì)算用戶是保密的,但是對(duì)于提供云計(jì)算的商業(yè)機(jī)構(gòu)而言確實(shí)毫無(wú)秘密可言。所有這些潛在的危險(xiǎn),是商業(yè)機(jī)構(gòu)和政府機(jī)構(gòu)選擇云計(jì)算服務(wù)、特別是國(guó)外機(jī)構(gòu)提供的云計(jì)算服務(wù)時(shí),不得不考慮的一個(gè)重要的前提。[應(yīng)用云物聯(lián)“物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)”。這有兩層意思:第一,物聯(lián)網(wǎng)的核心和基礎(chǔ)仍然是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎(chǔ)上的延伸和擴(kuò)展的網(wǎng)絡(luò);第二,其用戶端延伸和擴(kuò)展到了任何物品與物品之間,進(jìn)行信息交換和通信。物聯(lián)網(wǎng)的兩種業(yè)務(wù)模式:1.MAI(M2MApplicationIntegration),內(nèi)部MaaS;2.MaaS(M2MAsAService),MMO,Multi-Tenants(多租戶模型)。隨著物聯(lián)網(wǎng)業(yè)務(wù)量的增加,對(duì)數(shù)據(jù)存儲(chǔ)和計(jì)算量的需求將帶來(lái)對(duì)“云計(jì)算”能力的要求:1.云計(jì)算:從計(jì)算中心到數(shù)據(jù)中心在物聯(lián)網(wǎng)的初級(jí)階段,PoP即可滿足需求;2.在物聯(lián)網(wǎng)高級(jí)階段,可能出現(xiàn)MVNO/MMO營(yíng)運(yùn)商(國(guó)外已存在多年),需要虛擬化云計(jì)算技術(shù),SOA等技術(shù)的結(jié)合實(shí)現(xiàn)互聯(lián)網(wǎng)的泛在服務(wù):TaaS(everyTHINGAsAService)。云安全云安全(CloudSecurity)是一個(gè)從“云計(jì)算”演變而來(lái)的新名詞。云安全的策略構(gòu)想是:使用者越多,每個(gè)使用者就越安全,因?yàn)槿绱她嫶蟮挠脩羧?,足以覆蓋互聯(lián)網(wǎng)的每個(gè)角落,只要某個(gè)網(wǎng)站被掛馬或某個(gè)新木馬病毒出現(xiàn),就會(huì)立刻被截獲?!霸瓢踩蓖ㄟ^(guò)網(wǎng)狀的大量客戶端對(duì)網(wǎng)絡(luò)中軟件行為的異常監(jiān)測(cè),獲取互聯(lián)網(wǎng)中木馬、惡意程序的最新信息,推送到Server端進(jìn)行自動(dòng)分析和處理,再把病毒和木馬的解決方案分發(fā)到每一個(gè)客戶端。十種方法1.密碼優(yōu)先如果我們討論的是理想的情況的話,那么你的用戶名和密碼對(duì)于每一個(gè)服務(wù)或網(wǎng)站都應(yīng)該是唯一的,而且要得到許可。理由很簡(jiǎn)單:如果用戶名和密碼都是同一組,那么當(dāng)其中一個(gè)被盜了,其它的帳戶也同樣暴露了。2.檢查安全問(wèn)題在設(shè)置訪問(wèn)權(quán)限時(shí),盡量避開那些瞥一眼就能看出答案的問(wèn)題,例如,F(xiàn)acebook頭像。最好的方法選擇一個(gè)問(wèn)題,而這個(gè)問(wèn)題的答案卻是通過(guò)另一個(gè)問(wèn)題的答案。例如,如果你選擇的問(wèn)題是“小時(shí)候住在哪里”,答案最好是“黃色”之類的。3.試用加密方法無(wú)論這種方法是否可行,它都不失為一個(gè)好的想法。加密軟件需要來(lái)自用戶方面的努力,但它也有可能需要你去搶奪代碼憑證,因此沒(méi)有人能夠輕易獲得它。4.管理密碼這里講的是,你可能有大量的密碼和用戶名需要跟蹤照管。所以為了管理這些密碼,你需要有一個(gè)應(yīng)用程序和軟件在手邊,它們將會(huì)幫助你做這些工作。其中一個(gè)不錯(cuò)的選擇是LastPass。5.雙重認(rèn)證在允許用戶訪問(wèn)網(wǎng)站之前可以會(huì)有兩中使用模式。因此除了用戶名和密碼之外,唯一驗(yàn)證碼也是必不可少的。這一驗(yàn)證碼可能是以短信的形式發(fā)送到你的手機(jī)上,然后進(jìn)行登錄。通過(guò)這種方法,即使其它人得到了你的憑證,但他們得不到唯一驗(yàn)證碼,這樣的他們的登錄就會(huì)遭到拒絕。6.不要猶豫,立刻備份當(dāng)涉及到云中數(shù)據(jù)保護(hù)時(shí),人們被告知在物理硬盤上進(jìn)行數(shù)據(jù)備份時(shí),這聽起來(lái)可能有些奇怪,但這確實(shí)是需要你去做的事。這就是為什么需要一遍一遍反復(fù)思考;你應(yīng)該直接在你的外部硬盤上備份數(shù)據(jù),并隨身攜帶。7.完成即刪除為什么有都無(wú)限的數(shù)據(jù)存儲(chǔ)選擇時(shí),我們還要找麻煩去做刪除工作呢?原因在于,你永遠(yuǎn)不知道有多少數(shù)據(jù)會(huì)變成潛在的危險(xiǎn)。如果來(lái)自于某家銀行帳戶的郵件或警告信息時(shí)間太長(zhǎng),已經(jīng)失去了價(jià)值,那么就刪除它。[4]8.注意登錄的地點(diǎn)有時(shí)我們從別人設(shè)備上登錄的次數(shù),要比從自己設(shè)備上多得多。當(dāng)然,有進(jìn)我們也會(huì)忘記他人的設(shè)備可能會(huì)保存下我們的信息,保存在瀏覽器中。9.使用反病毒、反間諜軟件盡管是云數(shù)據(jù),但使用這一方法的原因在于你第一次從系統(tǒng)中訪問(wèn)云。因此,如果你的系統(tǒng)存在風(fēng)險(xiǎn),那么你的在線數(shù)據(jù)也將存在風(fēng)險(xiǎn)。一旦你忘記加密,那么鍵盤監(jiān)聽就會(huì)獲得你的云廠商密碼,最終你將失去所有。10.時(shí)刻都要管住自己的嘴巴永遠(yuǎn)都不要把你的云存儲(chǔ)內(nèi)容與別人共享。保持密碼的秘密性是必須的。為了附加的保護(hù)功能,不要告訴別人你所有使用的廠商或服務(wù)是什么。[4]云存儲(chǔ)云存儲(chǔ)是在云計(jì)算(cloudcomputing)概念上延伸和發(fā)展出來(lái)的一個(gè)新的概念,是指通過(guò)集群應(yīng)用、HYPERLINK

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論