大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目1 大數(shù)據(jù)與大數(shù)據(jù)時(shí)代_第1頁(yè)
大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目1 大數(shù)據(jù)與大數(shù)據(jù)時(shí)代_第2頁(yè)
大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目1 大數(shù)據(jù)與大數(shù)據(jù)時(shí)代_第3頁(yè)
大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目1 大數(shù)據(jù)與大數(shù)據(jù)時(shí)代_第4頁(yè)
大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目1 大數(shù)據(jù)與大數(shù)據(jù)時(shí)代_第5頁(yè)
已閱讀5頁(yè),還剩95頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目1大數(shù)據(jù)與大數(shù)據(jù)時(shí)代目錄1任務(wù)1.1:進(jìn)入大數(shù)據(jù)時(shí)代

【導(dǎo)讀案例】準(zhǔn)確預(yù)測(cè)地震

【任務(wù)描述】

【知識(shí)準(zhǔn)備】進(jìn)入大數(shù)據(jù)時(shí)代【作業(yè)】【實(shí)訓(xùn)操作】ETI公司的背景信息2任務(wù)1.2:熟悉大數(shù)據(jù)的定義【導(dǎo)讀案例】準(zhǔn)確預(yù)測(cè)地震討論:(1)請(qǐng)記錄下你曾經(jīng)親歷或者聽(tīng)說(shuō)過(guò)的地震事件:(2)針對(duì)地球上頻發(fā)的地震災(zāi)害,請(qǐng)盡可能多地列舉你所認(rèn)為的地震大數(shù)據(jù)內(nèi)容?(3)認(rèn)識(shí)大數(shù)據(jù),對(duì)地震活動(dòng)的方方面面(預(yù)報(bào)、預(yù)測(cè)與災(zāi)害減輕等)有什么意義?(4)請(qǐng)簡(jiǎn)單記述你所知道的上一周內(nèi)發(fā)生的國(guó)

際、國(guó)內(nèi)或者身邊的大事?!救蝿?wù)描述】(1)熟悉大數(shù)據(jù)與大數(shù)據(jù)時(shí)代的發(fā)生和發(fā)展。(2)深入理解:為什么說(shuō)“數(shù)據(jù)已經(jīng)成為了一種商業(yè)資本,一項(xiàng)重要的經(jīng)濟(jì)投入,可以創(chuàng)造新的經(jīng)濟(jì)利益?!保?)熟悉大數(shù)據(jù)的描述性分析、診斷性分析、預(yù)測(cè)性分析和規(guī)范性分析。【知識(shí)準(zhǔn)備】進(jìn)入大數(shù)據(jù)時(shí)代信息社會(huì)所帶來(lái)的好處是顯而易見(jiàn)的:每個(gè)人口袋里都揣有一部手機(jī),每臺(tái)辦公桌上都放著一臺(tái)電腦,每間辦公室內(nèi)都連接到局域網(wǎng)甚至互聯(lián)網(wǎng)。半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面和深度地融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。信息總量的變化還導(dǎo)致了信息形態(tài)的變化——量變引起了質(zhì)變。天文學(xué)——信息爆炸的起源1.1.11.1.1天文學(xué)——信息爆炸的起源綜合觀察社會(huì)各個(gè)方面的變化趨勢(shì),我們能真正意識(shí)到信息爆炸或者說(shuō)大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái)。以天文學(xué)為例,2000年斯隆數(shù)字巡天項(xiàng)目(見(jiàn)圖1-2)啟動(dòng)的時(shí)候,位于新墨西哥州的望遠(yuǎn)鏡在短短幾周內(nèi)收集到的數(shù)據(jù),就比世界天文學(xué)歷史上總共收集的數(shù)據(jù)還要多。到了2010年,信息檔案已經(jīng)高達(dá)1.4×242字節(jié)。不過(guò),預(yù)計(jì)2016年在智利投入使用的大型視場(chǎng)全景巡天望遠(yuǎn)鏡能在五天之內(nèi)就獲得同樣多的信息。1.1.1天文學(xué)——信息爆炸的起源圖1-2美國(guó)斯隆數(shù)字巡天望遠(yuǎn)鏡1.1.1天文學(xué)——信息爆炸的起源天文學(xué)領(lǐng)域發(fā)生的變化在社會(huì)各個(gè)領(lǐng)域都在發(fā)生。2003年,人類第一次破譯人體基因密碼的時(shí)候,辛苦工作了十年才完成了三十億對(duì)堿基對(duì)的排序。大約十年之后,世界范圍內(nèi)的基因儀每15分鐘就可以完成同樣的工作。在金融領(lǐng)域,美國(guó)股市每天的成交量高達(dá)70億股,而其中三分之二的交易都是由建立在數(shù)學(xué)模型和算法之上的計(jì)算機(jī)程序自動(dòng)完成的,這些程序運(yùn)用海量數(shù)據(jù)來(lái)預(yù)測(cè)利益和降低風(fēng)險(xiǎn)。1.1.1天文學(xué)——信息爆炸的起源互聯(lián)網(wǎng)公司更是要被數(shù)據(jù)淹沒(méi)了。谷歌公司每天要處理超過(guò)24拍字節(jié)(PB,250字節(jié))的數(shù)據(jù),這意味著其每天的數(shù)據(jù)處理量是美國(guó)國(guó)家圖書(shū)館所有紙質(zhì)出版物所含數(shù)據(jù)量的上千倍。臉書(shū)(Facebook)這個(gè)創(chuàng)立不過(guò)十來(lái)年的公司,每天更新的照片量超過(guò)1000萬(wàn)張,每天人們?cè)诰W(wǎng)站上點(diǎn)擊“喜歡”(Like)按鈕或者寫(xiě)評(píng)論大約有三十億次,這就為臉書(shū)公司挖掘用戶喜好提供了大量的數(shù)據(jù)線索。與此同時(shí),谷歌(Google)的子公司YouTube每月接待多達(dá)8億的訪客,平均每一秒鐘就會(huì)有一段長(zhǎng)度在一小時(shí)以上的視頻上傳。推特(Twitter)上的信息量幾乎每年翻一番,每天都會(huì)發(fā)布超過(guò)4億條微博。1.1.1天文學(xué)——信息爆炸的起源從科學(xué)研究到醫(yī)療保險(xiǎn),從銀行業(yè)到互聯(lián)網(wǎng),各個(gè)不同的領(lǐng)域都在講述著一個(gè)類似的故事,那就是爆發(fā)式增長(zhǎng)的數(shù)據(jù)量。這種增長(zhǎng)超過(guò)了我們創(chuàng)造機(jī)器的速度,甚至超過(guò)了我們的想象。我們周圍到底有多少數(shù)據(jù)?增長(zhǎng)的速度有多快?許多人試圖測(cè)量出一個(gè)確切的數(shù)字。盡管測(cè)量的對(duì)象和方法有所不同,但他們都獲得了不同程度的成功。南加利福尼亞大學(xué)安嫩伯格通信學(xué)院的馬丁?希爾伯特進(jìn)行了一個(gè)比較全面的研究,他試圖得出人類所創(chuàng)造、存儲(chǔ)和傳播的一切信息的確切數(shù)目。他的研究范圍不僅包括書(shū)籍、圖畫(huà)、電子郵件、照片、音樂(lè)、視頻(模擬和數(shù)字),還包括電子游戲、電話、汽車導(dǎo)航和信件。馬丁?希爾伯特還以收視率和收聽(tīng)率為基礎(chǔ),對(duì)電視、電臺(tái)這些廣播媒體進(jìn)行了研究。1.1.1天文學(xué)——信息爆炸的起源據(jù)他估算,僅在2007年,人類存儲(chǔ)的數(shù)據(jù)就超過(guò)了300艾字節(jié)(260字節(jié))。下面這個(gè)比喻應(yīng)該可以幫助人們更容易地理解這意味著什么:一部完整的數(shù)字電影可以壓縮成一個(gè)GB的文件,而一個(gè)艾字節(jié)相當(dāng)于10億GB,一個(gè)澤字節(jié)(ZB,270字節(jié))則相當(dāng)于1024艾字節(jié)??傊?,這是一個(gè)非常龐大的數(shù)量。1.1.1天文學(xué)——信息爆炸的起源有趣的是,在2007年的數(shù)據(jù)中,只有7%是存儲(chǔ)在報(bào)紙、書(shū)籍、圖片等媒介上的模擬數(shù)據(jù),其余全部是數(shù)字?jǐn)?shù)據(jù)。模擬數(shù)據(jù)也稱為模擬量,相對(duì)于數(shù)字量而言,指的是取值范圍是連續(xù)的變量或者數(shù)值,例如聲音、圖像、溫度、壓力等。模擬數(shù)據(jù)一般采用模擬信號(hào),例如用一系列連續(xù)變化的電磁波或電壓信號(hào)來(lái)表示。數(shù)字?jǐn)?shù)據(jù)也稱為數(shù)字量,相對(duì)于模擬量而言,指的是取值范圍是離散的變量或者數(shù)值。數(shù)字?jǐn)?shù)據(jù)則采用數(shù)字信號(hào),例如用一系列斷續(xù)變化的電壓脈沖(如用恒定的正電壓表示二進(jìn)制數(shù)1,用恒定的負(fù)電壓表示二進(jìn)制數(shù)0)或光脈沖來(lái)表示。1.1.1天文學(xué)——信息爆炸的起源但在不久之前,情況卻完全不是這樣的。雖然1960年就有了“信息時(shí)代”和“數(shù)字村鎮(zhèn)”的概念,在2000年的時(shí)候,數(shù)字存儲(chǔ)信息仍只占全球數(shù)據(jù)量的四分之一,當(dāng)時(shí),另外四分之三的信息都存儲(chǔ)在報(bào)紙、膠片、黑膠唱片和盒式磁帶這類媒介上。早期數(shù)字信息的數(shù)量并不多。對(duì)于長(zhǎng)期在網(wǎng)上沖浪和購(gòu)書(shū)的人來(lái)說(shuō),那只是一個(gè)微小的部分。事實(shí)上,在1986年的時(shí)候,世界上約40%的計(jì)算能力都在袖珍計(jì)算器上運(yùn)行,那時(shí)候,所有個(gè)人電腦的處理能力之和還沒(méi)有所有袖珍計(jì)算器處理能力之和高。但是因?yàn)閿?shù)字?jǐn)?shù)據(jù)的快速增長(zhǎng),整個(gè)局勢(shì)很快就顛倒過(guò)來(lái)了。按照希爾伯特的說(shuō)法,數(shù)字?jǐn)?shù)據(jù)的數(shù)量每三年多就會(huì)翻一倍。相反,模擬數(shù)據(jù)的數(shù)量則基本上沒(méi)有增加。1.1.1天文學(xué)——信息爆炸的起源到2013年,世界上存儲(chǔ)的數(shù)據(jù)達(dá)到約1.2澤字節(jié),其中非數(shù)字?jǐn)?shù)據(jù)只占不到2%。這樣大的數(shù)據(jù)量意味著什么?如果把這些數(shù)據(jù)全部記在書(shū)中,這些書(shū)可以覆蓋整個(gè)美國(guó)52次。如果將之存儲(chǔ)在只讀光盤(pán)上,這些光盤(pán)可以堆成五堆,每一堆都可以伸到月球。公元前3世紀(jì),埃及的托勒密二世竭力收集了當(dāng)時(shí)所有的書(shū)寫(xiě)作品,所以偉大的亞歷山大圖書(shū)館(見(jiàn)圖1-3)可以代表世界上所有的知識(shí)量。亞歷山大圖書(shū)館藏書(shū)豐富,有據(jù)可考的超過(guò)50000卷(紙草卷),包括《荷馬史詩(shī)》、《幾何原本》等。但是,當(dāng)數(shù)字?jǐn)?shù)據(jù)洪流席卷世界之后,每個(gè)地球人都可以獲得大量的數(shù)據(jù)信息,相當(dāng)于當(dāng)時(shí)亞歷山大圖書(shū)館存儲(chǔ)的數(shù)據(jù)總量的320倍之多。1.1.1天文學(xué)——信息爆炸的起源圖1-3舉世聞名的古代文化中心

——亞歷山大圖書(shū)館,毀于3世紀(jì)末的戰(zhàn)火1.1.1天文學(xué)——信息爆炸的起源事情真的在快速發(fā)展。人類存儲(chǔ)信息量的增長(zhǎng)速度比世界經(jīng)濟(jì)的增長(zhǎng)速度快4倍,而計(jì)算機(jī)數(shù)據(jù)處理能力的增長(zhǎng)速度則比世界經(jīng)濟(jì)的增長(zhǎng)速度快9倍。難怪人們會(huì)抱怨信息過(guò)量,因?yàn)槊總€(gè)人都受到了這種極速發(fā)展的沖擊。歷史學(xué)家伊麗莎白?愛(ài)森斯坦發(fā)現(xiàn),1453~1503年,這50年之間大約印刷了800萬(wàn)本書(shū)籍,比1200年之前君士坦丁堡建立以來(lái)整個(gè)歐洲所有的手抄書(shū)還要多。換言之,歐洲的信息存儲(chǔ)量花了50年才增長(zhǎng)了一倍(當(dāng)時(shí)的歐洲還占據(jù)了世界上相當(dāng)部分的信息存儲(chǔ)份額),而如今大約每三年就能增長(zhǎng)一倍。1.1.1天文學(xué)——信息爆炸的起源這種增長(zhǎng)意味著什么呢?彼特?諾維格是谷歌的人工智能專家,也曾任職于美國(guó)宇航局噴氣推進(jìn)實(shí)驗(yàn)室,他喜歡把這種增長(zhǎng)與圖畫(huà)進(jìn)行類比。首先,他要我們想想來(lái)自法國(guó)拉斯科洞穴壁畫(huà)上的標(biāo)志性的馬(見(jiàn)圖1-4)。這些畫(huà)可以追溯到一萬(wàn)七千年之前的舊石器時(shí)代。然后,再想想畢加索畫(huà)的馬,看起來(lái)和那些洞穴壁畫(huà)沒(méi)有多大的差別。事實(shí)上,畢加索看到那些洞穴壁畫(huà)的時(shí)候就曾開(kāi)玩笑說(shuō):“自那以后,我們就再也沒(méi)有創(chuàng)造出什么東西了?!?.1.1天文學(xué)——信息爆炸的起源圖1-4拉斯科洞穴壁畫(huà)1.1.1天文學(xué)——信息爆炸的起源回想一下壁畫(huà)上的那匹馬。當(dāng)時(shí)要畫(huà)一幅馬需要花費(fèi)很久的時(shí)間,而現(xiàn)在不需要那么久了。這就是一種改變,雖然改變的可能不是最核心的部分——畢竟這仍然是一幅馬的圖像。但是諾維格說(shuō),想象一下,現(xiàn)在我們能每秒鐘播放24幅不同形態(tài)的馬的圖片,這就是一種由量變導(dǎo)致的質(zhì)變:一部電影與一幅靜態(tài)的畫(huà)有本質(zhì)上的區(qū)別!大數(shù)據(jù)也一樣,量變導(dǎo)致質(zhì)變。物理學(xué)和生物學(xué)都告訴我們,當(dāng)我們改變規(guī)模時(shí),事物的狀態(tài)有時(shí)也會(huì)發(fā)生改變。1.1.1天文學(xué)——信息爆炸的起源以納米技術(shù)為例。納米技術(shù)專注于把東西變小而不是變大。其原理就是當(dāng)事物到達(dá)分子級(jí)別時(shí),它的物理性質(zhì)就會(huì)發(fā)生改變。一旦你知道這些新的性質(zhì),你就可以用同樣的原料來(lái)做以前無(wú)法做的事情。銅本來(lái)是用來(lái)導(dǎo)電的物質(zhì),但它一旦到達(dá)納米級(jí)別就不能在磁場(chǎng)中導(dǎo)電了。銀離子具有抗菌性,但當(dāng)它以分子形式存在的時(shí)候,這種性質(zhì)會(huì)消失。一旦到達(dá)納米級(jí)別,金屬可以變得柔軟,陶土可以具有彈性。同樣,當(dāng)我們?cè)黾铀玫臄?shù)據(jù)量時(shí),也就可以做很多在小數(shù)據(jù)量的基礎(chǔ)上無(wú)法完成的事情。1.1.1天文學(xué)——信息爆炸的起源有時(shí)候,我們認(rèn)為約束自己生活的那些限制,對(duì)于世間萬(wàn)物都有著同樣的約束力。事實(shí)上,盡管規(guī)律相同,但是我們能夠感受到的約束,很可能只對(duì)我們這樣尺度的事物起作用。對(duì)于人類來(lái)說(shuō),唯一一個(gè)最重要的物理定律便是萬(wàn)有引力定律。這個(gè)定律無(wú)時(shí)無(wú)刻不在控制著我們。但對(duì)于細(xì)小的昆蟲(chóng)來(lái)說(shuō),重力是無(wú)關(guān)緊要的。對(duì)它們而言,物理宇宙中有效的約束是表面張力,這個(gè)張力可以讓它們?cè)谒献杂尚凶叨粫?huì)掉下去。但人類對(duì)于表面張力毫不在意。1.1.1天文學(xué)——信息爆炸的起源大數(shù)據(jù)的科學(xué)價(jià)值和社會(huì)價(jià)值正是體現(xiàn)在這里。一方面,對(duì)大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的來(lái)源。另一方面,大數(shù)據(jù)已經(jīng)撼動(dòng)了世界的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟(jì)、人文以及社會(huì)的其他各個(gè)領(lǐng)域。盡管我們還處在大數(shù)據(jù)時(shí)代的初期,但我們的日常生活已經(jīng)離不開(kāi)它了。大數(shù)據(jù)的發(fā)展1.1.21.1.2大數(shù)據(jù)的發(fā)展如果僅僅是從數(shù)據(jù)量的角度來(lái)看的話,大數(shù)據(jù)在過(guò)去就已經(jīng)存在了。例如,波音的噴氣發(fā)動(dòng)機(jī)每30分鐘就會(huì)產(chǎn)生10TB的運(yùn)行信息數(shù)據(jù),安裝有4臺(tái)發(fā)動(dòng)機(jī)的大型客機(jī),每次飛越大西洋就會(huì)產(chǎn)生640TB的數(shù)據(jù)。世界各地每天有超過(guò)2.5萬(wàn)架的飛機(jī)在工作,可見(jiàn)其數(shù)據(jù)量是何等龐大。生物技術(shù)領(lǐng)域中的基因組分析,以及以NASA(美國(guó)國(guó)家航空航天局)為中心的太空開(kāi)發(fā)領(lǐng)域,從很早就開(kāi)始使用十分昂貴的高端超級(jí)計(jì)算機(jī)來(lái)對(duì)龐大的數(shù)據(jù)進(jìn)行分析和處理了。1.1.2大數(shù)據(jù)的發(fā)展現(xiàn)在和過(guò)去的區(qū)別之一,就是大數(shù)據(jù)已經(jīng)不僅產(chǎn)生于特定領(lǐng)域中,而且還產(chǎn)生于我們每天的日常生活中,臉書(shū)、推特、領(lǐng)英(LinkedIn)、微信、QQ等社交媒體上的文本數(shù)據(jù)就是最好的例子。而且,盡管我們無(wú)法得到全部數(shù)據(jù),但大部分?jǐn)?shù)據(jù)可以通過(guò)公開(kāi)的API(應(yīng)用程序編程接口)相對(duì)容易地進(jìn)行采集。在B2C(商家對(duì)顧客)企業(yè)中,使用文本挖掘(textmining)和情感分析等技術(shù),就可以分析消費(fèi)者對(duì)于自家產(chǎn)品的評(píng)價(jià)。1.1.2大數(shù)據(jù)的發(fā)展1.硬件性價(jià)比提高與軟件技術(shù)進(jìn)步計(jì)算機(jī)性價(jià)比的提高,磁盤(pán)價(jià)格的下降,利用通用服務(wù)器對(duì)大量數(shù)據(jù)進(jìn)行高速處理的軟件技術(shù)Hadoop的誕生,以及隨著云計(jì)算的興起,甚至已經(jīng)無(wú)需自行搭建這樣的大規(guī)模環(huán)境——上述這些因素,大幅降低了大數(shù)據(jù)存儲(chǔ)和處理的門(mén)檻。因此,過(guò)去只有像NASA這樣的研究機(jī)構(gòu)以及屈指可數(shù)的幾家特大企業(yè)才能做到的對(duì)大量數(shù)據(jù)的深入分析,現(xiàn)在只要極小的成本和時(shí)間就可以完成。無(wú)論是剛剛創(chuàng)業(yè)的公司還是存在多年的公司,也無(wú)論是中小企業(yè)還是大企業(yè),都可以對(duì)大數(shù)據(jù)進(jìn)行充分的利用。1.1.2大數(shù)據(jù)的發(fā)展(1)計(jì)算機(jī)性價(jià)比的提高。承擔(dān)數(shù)據(jù)處理任務(wù)的計(jì)算機(jī),其處理能力遵循摩爾定律,一直在不斷進(jìn)化。所謂摩爾定律,是美國(guó)英特爾公司共同創(chuàng)始人之一的高登?摩爾(GordonMoore,1929-)于1965年提出的一個(gè)觀點(diǎn),即“半導(dǎo)體芯片的集成度,大約每18個(gè)月會(huì)翻一番”。從家電賣(mài)場(chǎng)中所陳列的電腦規(guī)格指標(biāo)就可以一目了然地看出,現(xiàn)在以同樣的價(jià)格能夠買(mǎi)到的計(jì)算機(jī),其處理能力已經(jīng)和過(guò)去不可同日而語(yǔ)了。1.1.2大數(shù)據(jù)的發(fā)展(2)磁盤(pán)價(jià)格的下降。除了CPU性能的提高,硬盤(pán)等存儲(chǔ)器(數(shù)據(jù)的存儲(chǔ)裝置)的價(jià)格也明顯下降。2000年的硬盤(pán)驅(qū)動(dòng)器平均每GB容量的單價(jià)約為16美元到19美元,而現(xiàn)在卻只有7美分(換算成人民幣的話,就相當(dāng)于4~5毛錢(qián)的樣子),相當(dāng)于下降到了10年前的230~270分之一。除了價(jià)格,存儲(chǔ)器在重量方面也產(chǎn)生了巨大的進(jìn)步。1982年日立最早開(kāi)發(fā)的1.2GB硬盤(pán)驅(qū)動(dòng)器重量約為250磅(約合113千克)。而現(xiàn)在,32GB的微型SD卡重量卻只有0.5克左右,技術(shù)進(jìn)步的速度相當(dāng)驚人。1.1.2大數(shù)據(jù)的發(fā)展(3)大規(guī)模數(shù)據(jù)分布式處理技術(shù)Hadoop。這是一種可以在通用服務(wù)器上運(yùn)行的開(kāi)源分布式處理技術(shù),它的誕生成為了目前大數(shù)據(jù)浪潮的第一推動(dòng)力。如果只是結(jié)構(gòu)化數(shù)據(jù)不斷增長(zhǎng),用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),或者是其衍生技術(shù),就可以進(jìn)行存儲(chǔ)和處理了,但這樣的技術(shù)無(wú)法對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理。Hadoop的最大特征,就是能夠?qū)Υ罅糠墙Y(jié)構(gòu)化數(shù)據(jù)進(jìn)行高速處理。1.1.2大數(shù)據(jù)的發(fā)展2.云計(jì)算的普及大數(shù)據(jù)的處理環(huán)境現(xiàn)在在很多情況下并不一定要自行搭建了。例如,使用亞馬遜的云計(jì)算服務(wù)EC2(ElasticComputeCloud)和S3(SimpleStorageService),就可以在無(wú)需自行搭建大規(guī)模數(shù)據(jù)處理環(huán)境的前提下,以按用量付費(fèi)的方式,來(lái)使用由計(jì)算機(jī)集群組成的計(jì)算處理環(huán)境和大規(guī)模數(shù)據(jù)存儲(chǔ)環(huán)境了。此外,在EC2和S3上還利用預(yù)先配置的Hadoop工作環(huán)境提供了“EMR”(ElasticMapReduce)服務(wù)。利用這樣的云計(jì)算環(huán)境,即使是資金不太充裕的創(chuàng)業(yè)型公司,也可以進(jìn)行大數(shù)據(jù)的分析了。1.1.2大數(shù)據(jù)的發(fā)展實(shí)際上,在美國(guó),新的IT創(chuàng)業(yè)公司如雨后春筍般不斷出現(xiàn),它們通過(guò)利用亞馬遜的云計(jì)算環(huán)境,對(duì)大數(shù)據(jù)進(jìn)行處理,從而催生出新型的服務(wù)。這些公司如網(wǎng)絡(luò)廣告公司Razorfish、提供預(yù)測(cè)航班起飛晚點(diǎn)等“航班預(yù)報(bào)”服務(wù)的FlightCaster、對(duì)消費(fèi)電子產(chǎn)品價(jià)格走勢(shì)進(jìn)行預(yù)測(cè)的D等。1.1.2大數(shù)據(jù)的發(fā)展3.大數(shù)據(jù)作為BI的進(jìn)化形式認(rèn)識(shí)大數(shù)據(jù),我們還需要理解BI(BusinessIntelligence,商業(yè)智能)的潮流和大數(shù)據(jù)之間的關(guān)系。對(duì)企業(yè)內(nèi)外所存儲(chǔ)的數(shù)據(jù)進(jìn)行系統(tǒng)的集中、整理和分析,從而獲得對(duì)各種商務(wù)決策有價(jià)值的知識(shí)和觀點(diǎn),這樣的概念、技術(shù)及行為稱為BI。大數(shù)據(jù)作為BI的進(jìn)化形式,充分利用后不僅能夠高效地預(yù)測(cè)未來(lái),也能夠提高預(yù)測(cè)的準(zhǔn)確率。1.1.2大數(shù)據(jù)的發(fā)展BI的概念是1989年由時(shí)任美國(guó)高德納(Gartner)咨詢公司的分析師HowardDresner所提出的。Dresner當(dāng)時(shí)提出的觀點(diǎn)是,應(yīng)該將過(guò)去100%依賴信息系統(tǒng)部門(mén)來(lái)完成的銷售分析、客戶分析等業(yè)務(wù),通過(guò)讓作為數(shù)據(jù)使用者的管理人員以及一般商務(wù)人員等最終用戶來(lái)親自參與,從而實(shí)現(xiàn)決策的迅速化以及生產(chǎn)效率的提高。1.1.2大數(shù)據(jù)的發(fā)展BI通過(guò)分析由業(yè)務(wù)過(guò)程和信息系統(tǒng)生成的數(shù)據(jù)讓一個(gè)組織能夠獲取企業(yè)績(jī)效的內(nèi)在認(rèn)識(shí)。分析的結(jié)果可以用于改進(jìn)組織績(jī)效,或者通過(guò)修正檢測(cè)出的問(wèn)題來(lái)管理和引導(dǎo)業(yè)務(wù)過(guò)程。商務(wù)智能在企業(yè)中使用大數(shù)據(jù)分析,并且這種分析通常會(huì)被整合到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中以執(zhí)行分析查詢。如圖1-5所示,商務(wù)智能的輸出能以儀表板顯示,它允許管理者訪問(wèn)和分析數(shù)據(jù),且可以潛在地改進(jìn)分析查詢,從而對(duì)數(shù)據(jù)進(jìn)行深入挖掘。1.1.2大數(shù)據(jù)的發(fā)展圖1-5商務(wù)智能用于改善商業(yè)應(yīng)用,將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)以及儀表板的分析查詢結(jié)合起來(lái)1.1.2大數(shù)據(jù)的發(fā)展BI的主要目的是分析從過(guò)去到現(xiàn)在發(fā)生了什么、為什么會(huì)發(fā)生,并做出報(bào)告。也就是說(shuō),是將過(guò)去和現(xiàn)在進(jìn)行可視化的一種方式。例如,過(guò)去一年中商品A的銷售額如何,它在各個(gè)門(mén)店中的銷售額又分別如何。然而,現(xiàn)在的商業(yè)環(huán)境變化十分劇烈。對(duì)于企業(yè)今后的活動(dòng)來(lái)說(shuō),在將過(guò)去和現(xiàn)在進(jìn)行可視化的基礎(chǔ)上,預(yù)測(cè)出接下來(lái)會(huì)發(fā)生什么顯得更為重要。也就是說(shuō),從看到現(xiàn)在到預(yù)測(cè)未來(lái),BI也正在經(jīng)歷著不斷的進(jìn)化。1.1.2大數(shù)據(jù)的發(fā)展要對(duì)未來(lái)進(jìn)行預(yù)測(cè),從龐大的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)則和模式的數(shù)據(jù)挖掘(DataMining)是一種非常有用的手段。為了讓數(shù)據(jù)挖掘的執(zhí)行更加高效,就要使用能夠從大量數(shù)據(jù)中自動(dòng)學(xué)習(xí)知識(shí)和有用規(guī)則的機(jī)器學(xué)習(xí)技術(shù)。從特性上來(lái)說(shuō),機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)的要求是越多越好。也就是說(shuō),它和大數(shù)據(jù)可謂是天生一對(duì)。一直以來(lái),機(jī)器學(xué)習(xí)的瓶頸在于如何存儲(chǔ)并高效處理學(xué)習(xí)所需的大量數(shù)據(jù)。然而,隨著硬盤(pán)單價(jià)的大幅下降、Hadoop的誕生,以及云計(jì)算的普及,這些問(wèn)題正逐步得以解決?,F(xiàn)實(shí)中,對(duì)大數(shù)據(jù)應(yīng)用機(jī)器學(xué)習(xí)的實(shí)例正在不斷涌現(xiàn)。1.1.2大數(shù)據(jù)的發(fā)展4.從交易數(shù)據(jù)分析到交互數(shù)據(jù)分析對(duì)從像“賣(mài)出了一件商品”、“一位客戶解除了合同”這樣的交易數(shù)據(jù)中得到的“點(diǎn)”信息進(jìn)行統(tǒng)計(jì)還不夠,我們想要得到的是“為什么賣(mài)出了這件商品”、“為什么這個(gè)客戶離開(kāi)了”這樣的上下文(背景)信息。而這樣的信息,需要從與客戶之間產(chǎn)生的交互數(shù)據(jù)這種“線”信息中來(lái)探索。以非結(jié)構(gòu)化數(shù)據(jù)為中心的大數(shù)據(jù)分析需求的不斷高漲,也正是這種趨勢(shì)的一個(gè)反映。例如,像亞馬遜這樣運(yùn)營(yíng)電商網(wǎng)站的企業(yè),可以通過(guò)網(wǎng)站的點(diǎn)擊流數(shù)據(jù),追蹤用戶在網(wǎng)站內(nèi)的行為,從而對(duì)用戶從訪問(wèn)網(wǎng)站到最終購(gòu)買(mǎi)商品的行為路線進(jìn)行分析。這種點(diǎn)擊流數(shù)據(jù),正是表現(xiàn)客戶與公司網(wǎng)站之間相互作用的一種交互數(shù)據(jù)。1.1.2大數(shù)據(jù)的發(fā)展舉個(gè)例子,如果知道通過(guò)點(diǎn)擊站內(nèi)廣告最終購(gòu)買(mǎi)產(chǎn)品的客戶比例較高,那么針對(duì)其他客戶,就可以根據(jù)其過(guò)去的點(diǎn)擊記錄來(lái)展示他可能感興趣的商品廣告,從而提高其最終購(gòu)買(mǎi)商品的概率?;蛘?,如果知道很多用戶都會(huì)從某一個(gè)特定的頁(yè)面離開(kāi)網(wǎng)站,就可以下功夫來(lái)改善這個(gè)頁(yè)面的可用性。通過(guò)交互數(shù)據(jù)分析所得到的價(jià)值是非常之大的。對(duì)于消費(fèi)品公司來(lái)說(shuō),可以通過(guò)客戶的會(huì)員數(shù)據(jù)、購(gòu)物記錄、呼叫中心通話記錄等數(shù)據(jù)來(lái)尋找客戶解約的原因。隨著“社交化CRM”呼聲的高漲,越來(lái)越多的企業(yè)都開(kāi)始利用微信、Twitter等社交媒體來(lái)提供客戶支持服務(wù)了。上述這些都是表現(xiàn)與客戶之間交流的交互數(shù)據(jù),只要推進(jìn)對(duì)這些交互數(shù)據(jù)的分析,就可以越來(lái)越清晰地掌握客戶離開(kāi)的原因。1.1.2大數(shù)據(jù)的發(fā)展一般來(lái)說(shuō),網(wǎng)絡(luò)上的數(shù)據(jù)比真實(shí)世界中的數(shù)據(jù)更加容易收集,因此來(lái)自網(wǎng)絡(luò)的交互數(shù)據(jù)也得到了越來(lái)越多的利用。不過(guò),今后隨著傳感器等物態(tài)探測(cè)技術(shù)的發(fā)展和普及,在真實(shí)世界中對(duì)交互數(shù)據(jù)的利用也將不斷推進(jìn)。例如,在超市中,可以將由植入購(gòu)物車中的IC標(biāo)簽收集到的顧客行動(dòng)路線數(shù)據(jù)和POS等銷售數(shù)據(jù)相結(jié)合,從而分析出顧客買(mǎi)或不買(mǎi)某種商品的理由,這樣的應(yīng)用現(xiàn)在已經(jīng)開(kāi)始出現(xiàn)了。或者,也可以像前面講過(guò)的那樣,通過(guò)分析監(jiān)控?cái)z像機(jī)的視頻資料,來(lái)分析店內(nèi)顧客的行為。以前也并不是沒(méi)有對(duì)店內(nèi)的購(gòu)買(mǎi)行為進(jìn)行分析的方法,不過(guò),那種分析大多是由調(diào)查員肉眼觀察并記錄的,這種記錄是非數(shù)字化的,成本很高,而且收集到的數(shù)據(jù)也比較有限。1.1.2大數(shù)據(jù)的發(fā)展進(jìn)一步講,今后更為重要的是對(duì)連接網(wǎng)絡(luò)世界和真實(shí)世界的交互數(shù)據(jù)進(jìn)行分析。在市場(chǎng)營(yíng)銷中,O2O(OnlinetoOffline,線上與線下的結(jié)合)已經(jīng)逐步成為一個(gè)熱門(mén)的關(guān)鍵詞。所謂O2O,就是指網(wǎng)絡(luò)上的信息(在線)對(duì)真實(shí)世界(線下)的購(gòu)買(mǎi)行為產(chǎn)生的影響。舉例來(lái)說(shuō),很多人在準(zhǔn)備購(gòu)買(mǎi)一種商品時(shí)會(huì)先到評(píng)論網(wǎng)站去查詢商品的價(jià)格和評(píng)價(jià),然后再到實(shí)體店去購(gòu)買(mǎi)該商品。在O2O中,網(wǎng)絡(luò)上的哪些信息會(huì)對(duì)實(shí)際來(lái)店顧客的消費(fèi)行為產(chǎn)生關(guān)聯(lián),對(duì)這種線索的分析,即對(duì)交互數(shù)據(jù)的分析,顯得尤為重要。重新認(rèn)識(shí)數(shù)據(jù)1.1.31.1.3重新認(rèn)識(shí)數(shù)據(jù)如今,人們不再認(rèn)為數(shù)據(jù)是靜止和陳舊的。但在以前,一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就會(huì)被認(rèn)為已經(jīng)沒(méi)有用處了。比方說(shuō),在飛機(jī)降落之后,票價(jià)數(shù)據(jù)就沒(méi)有用了(對(duì)谷歌而言,則是一個(gè)檢索命令完成之后)。譬如某城市的公交車因?yàn)閮r(jià)格不依賴于起點(diǎn)和終點(diǎn),所以能夠反映重要通勤信息的數(shù)據(jù)被工作人員“自作主張”地丟棄了——設(shè)計(jì)人員如果沒(méi)有大數(shù)據(jù)的理念,就會(huì)丟失掉很多有價(jià)值的數(shù)據(jù)。數(shù)據(jù)已經(jīng)成為了一種商業(yè)資本,一項(xiàng)重要的經(jīng)濟(jì)投入,可以創(chuàng)造新的經(jīng)濟(jì)利益。事實(shí)上,一旦思維轉(zhuǎn)變過(guò)來(lái),數(shù)據(jù)就能被巧妙地用來(lái)激發(fā)新產(chǎn)品和新型服務(wù)。數(shù)據(jù)的奧妙只為謙遜、愿意聆聽(tīng)且掌握了聆聽(tīng)手段的人所知。1.1.3重新認(rèn)識(shí)數(shù)據(jù)最初,大數(shù)據(jù)這個(gè)概念是指需要處理的信息量過(guò)大,已經(jīng)超出了一般電腦在處理數(shù)據(jù)時(shí)所能使用的內(nèi)存量,因此工程師們必須改進(jìn)處理數(shù)據(jù)的工具。這導(dǎo)致了新的處理技術(shù)的誕生,例如谷歌的MapReduce和開(kāi)源Hadoop平臺(tái)。這些技術(shù)使得人們可以處理的數(shù)據(jù)量大大增加。更重要的是,這些數(shù)據(jù)不再需要用傳統(tǒng)的數(shù)據(jù)庫(kù)表格來(lái)整齊地排列,這些都是傳統(tǒng)數(shù)據(jù)庫(kù)結(jié)構(gòu)化查詢語(yǔ)言(SQL)的要求,而非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)就不再有這些要求。一些可以消除僵化的層次結(jié)構(gòu)和一致性的技術(shù)也出現(xiàn)了。同時(shí),因?yàn)榛ヂ?lián)網(wǎng)公司可以收集大量有價(jià)值的數(shù)據(jù),而且有利用這些數(shù)據(jù)的強(qiáng)烈的利益驅(qū)動(dòng)力,所以互聯(lián)網(wǎng)公司順理成章地成為了最新處理技術(shù)的領(lǐng)銜實(shí)踐者。1.1.3重新認(rèn)識(shí)數(shù)據(jù)今天,大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉,大數(shù)據(jù)還是改變市場(chǎng)、組織機(jī)構(gòu),以及政府與公民關(guān)系的方法。大數(shù)據(jù)時(shí)代對(duì)我們的生活,以及與世界交流的方式都提出了挑戰(zhàn)。數(shù)據(jù)集與數(shù)據(jù)分析1.1.41.1.4數(shù)據(jù)集與數(shù)據(jù)分析我們把一組或者一個(gè)集合的相關(guān)聯(lián)的數(shù)據(jù)稱作數(shù)據(jù)集。數(shù)據(jù)集中的每一個(gè)成員數(shù)據(jù),都應(yīng)與數(shù)據(jù)集中的其他成員擁有相同的特征或者屬性。以下是一些數(shù)據(jù)集的例子:存儲(chǔ)在一個(gè)文本文件中的推文一個(gè)文件夾中的圖像文件存儲(chǔ)在一個(gè)CSⅤ格式文件中的從數(shù)據(jù)庫(kù)中提取出來(lái)的行數(shù)據(jù)存儲(chǔ)在一個(gè)XML文件中的歷史氣象觀測(cè)數(shù)據(jù)例如XML數(shù)據(jù)、關(guān)系型數(shù)據(jù)和圖像數(shù)據(jù)就是三種不同數(shù)據(jù)格式的數(shù)據(jù)集。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析數(shù)據(jù)分析是一個(gè)通過(guò)處理數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)一些深層知識(shí)、模式、關(guān)系或是趨勢(shì)的過(guò)程。數(shù)據(jù)分析的總體目標(biāo)是做出更好的決策。舉個(gè)簡(jiǎn)單的例子,通過(guò)分析冰淇淋的銷售額數(shù)據(jù),發(fā)現(xiàn)一天中冰淇淋甜筒的銷量與當(dāng)天氣溫的關(guān)系。這個(gè)分析結(jié)果可以幫助商店根據(jù)天氣預(yù)報(bào)來(lái)決定每天應(yīng)該訂購(gòu)多少冰淇淋。通過(guò)數(shù)據(jù)分析,我們可以對(duì)分析過(guò)的數(shù)據(jù)建立起關(guān)系與模式。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析數(shù)據(jù)分析學(xué)是一個(gè)包含數(shù)據(jù)分析,且比數(shù)據(jù)分析更為寬泛的概念。數(shù)據(jù)分析學(xué)這門(mén)學(xué)科涵蓋了對(duì)整個(gè)數(shù)據(jù)生命周期的管理,而數(shù)據(jù)生命周期包含了數(shù)據(jù)收集、數(shù)據(jù)清理、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)管理等過(guò)程。此外,數(shù)據(jù)分析學(xué)還涵蓋了分析方法、科學(xué)技術(shù)、自動(dòng)化分析工具等。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析學(xué)發(fā)展了數(shù)據(jù)分析在高度可擴(kuò)展的、大量分布式技術(shù)和框架中的應(yīng)用,使之有能力處理大量的來(lái)自不同信息源的數(shù)據(jù)。大數(shù)據(jù)分析(學(xué))的生命周期通常會(huì)對(duì)大量非結(jié)構(gòu)化且未經(jīng)處理過(guò)的數(shù)據(jù)進(jìn)行識(shí)別、獲取、準(zhǔn)備和分析等操作,從這些數(shù)據(jù)中提取出能夠作為模式識(shí)別的輸入,或者加入現(xiàn)有的企業(yè)數(shù)據(jù)庫(kù)的有效信息。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析不同的行業(yè)會(huì)以不同的方式使用大數(shù)據(jù)分析工具和技術(shù),例如:在商業(yè)組織中,利用大數(shù)據(jù)的分析結(jié)果能降低運(yùn)營(yíng)開(kāi)銷,還有助于優(yōu)化決策。在科研領(lǐng)域,大數(shù)據(jù)分析能夠確認(rèn)一個(gè)現(xiàn)象的起因,并且能基于此提出更為精確的預(yù)測(cè)。在服務(wù)業(yè)領(lǐng)域,比如公眾行業(yè),大數(shù)據(jù)分析有助于人們以更低的開(kāi)銷提供更好的服務(wù)。大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過(guò)去的經(jīng)驗(yàn)或者直覺(jué)。根據(jù)分析結(jié)果的不同,我們大致可以將分析歸為4類,即描述性分析、診斷性分析、預(yù)測(cè)性分析和規(guī)范性分析。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析不同的分析類型將需要不同的技術(shù)和分析算法。這意味著在傳遞多種類型的分析結(jié)果的時(shí)候,可能會(huì)有大量不同的數(shù)據(jù)、存儲(chǔ)、處理要求。如圖1-6所示,生成高質(zhì)量的分析結(jié)果將加大分析環(huán)境的復(fù)雜性和開(kāi)銷。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析圖1-6從描述性分析到規(guī)范性分析,價(jià)值和復(fù)雜性都在不斷提升1.1.4數(shù)據(jù)集與數(shù)據(jù)分析1.描述性分析描述性分析往往是對(duì)已經(jīng)發(fā)生的事件進(jìn)行問(wèn)答和總結(jié)。這種形式的分析需要將數(shù)據(jù)置于生成信息的上下文中考慮。相關(guān)問(wèn)題可能包括:過(guò)去12個(gè)月的銷售量如何?根據(jù)事件嚴(yán)重程度和地理位置分類,收到的求助電話的數(shù)量如何?每一位銷售經(jīng)理的月銷售額是多少?據(jù)估計(jì),生成的分析結(jié)果80%都是自然可描述的。描述性分析提供了較低的價(jià)值,但也只需要相對(duì)基礎(chǔ)的訓(xùn)練集。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析進(jìn)行描述性分析常常借助OLTP、CRM、ERP等信息系統(tǒng)經(jīng)過(guò)描述性分析工具的處理生成的即席報(bào)表或者數(shù)據(jù)儀表板(dashboard)。報(bào)表常常是靜態(tài)的,并且是以數(shù)據(jù)表格或圖表形式呈現(xiàn)的歷史數(shù)據(jù)。查詢處理往往基于企業(yè)內(nèi)部存儲(chǔ)的可操作數(shù)據(jù),例如客戶關(guān)系管理系統(tǒng)(CRM)或者企業(yè)資源規(guī)劃系統(tǒng)(ERP)。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析2.診斷性分析診斷性分析旨在尋求一個(gè)已經(jīng)發(fā)生的事件的發(fā)生原因。這類分析的目標(biāo)是通過(guò)獲取一些與事件相關(guān)的信息來(lái)回答有關(guān)的問(wèn)題,最后得出事件發(fā)生的原因。相關(guān)的問(wèn)題可能包括:為什么Q2商品比Q1賣(mài)得多?為什么來(lái)自東部地區(qū)的求助電話比來(lái)自西部地區(qū)的要多?為什么最近三個(gè)月內(nèi)病人再入院的比率有所提升?1.1.4數(shù)據(jù)集與數(shù)據(jù)分析診斷性分析比描述性分析提供了更加有價(jià)值的信息,但同時(shí)也要求更加高級(jí)的訓(xùn)練集。診斷性分析常常需要從不同的信息源搜集數(shù)據(jù),并將它們以一種易于進(jìn)行下鉆和上卷分析的結(jié)構(gòu)加以保存。而診斷性分析的結(jié)果可以由交互式可視化界面顯示,讓用戶能夠清晰地了解模式與趨勢(shì)。診斷性分析是基于分析處理系統(tǒng)中的多維數(shù)據(jù)進(jìn)行的,而且,與描述性分析相比,它的查詢處理更加復(fù)雜。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析3.預(yù)測(cè)性分析預(yù)測(cè)性分析常在需要預(yù)測(cè)一個(gè)事件的結(jié)果時(shí)使用。通過(guò)預(yù)測(cè)性分析,信息將得到增值,這種增值主要表現(xiàn)在信息之間是如何相關(guān)的。這種相關(guān)性的強(qiáng)度和重要性構(gòu)成了基于過(guò)去事件對(duì)未來(lái)進(jìn)行預(yù)測(cè)的模型的基礎(chǔ)。這些用于預(yù)測(cè)性分析的模型與過(guò)去已經(jīng)發(fā)生的事件的潛在條件是隱式相關(guān)的,理解這一點(diǎn)很重要。如果這些潛在的條件改變了,那么用于預(yù)測(cè)性分析的模型也需要進(jìn)行更新。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析預(yù)測(cè)性分析提出的問(wèn)題常常以假設(shè)的形式出現(xiàn),例如:如果消費(fèi)者錯(cuò)過(guò)了一個(gè)月的還款,那么他們無(wú)力償還貸款的幾率有多大?如果以藥品B來(lái)代替藥品A的使用,那么這個(gè)病人生存的幾率有多大?如果一個(gè)消費(fèi)者購(gòu)買(mǎi)了商品A和商品B,那么他購(gòu)買(mǎi)商品C的概率有多大?預(yù)測(cè)性分析嘗試著預(yù)測(cè)事件的結(jié)果,而預(yù)測(cè)則基于模式、趨勢(shì)以及來(lái)自于歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的期望。這將讓我們能夠分辨風(fēng)險(xiǎn)與機(jī)遇。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析這種類型的分析涉及包含外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)的大數(shù)據(jù)集以及多種分析方法。與描述性分析和診斷性分析相比,這種分析顯得更有價(jià)值,同時(shí)也要求更加高級(jí)的訓(xùn)練集。如圖1-7所示,這種工具通常通過(guò)提供用戶友好的前端接口對(duì)潛在的錯(cuò)綜復(fù)雜的數(shù)據(jù)進(jìn)行抽象。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析圖1-7預(yù)測(cè)性分析能夠提供用戶友好型的前端接口1.1.4數(shù)據(jù)集與數(shù)據(jù)分析4.規(guī)范性分析規(guī)范性分析建立在預(yù)測(cè)性分析的結(jié)果之上,用來(lái)規(guī)范需要執(zhí)行的行動(dòng)。其注重的不僅是哪項(xiàng)操作最佳,還包括了其原因。換句話說(shuō),規(guī)范性分析提供了經(jīng)得起質(zhì)詢的結(jié)果,因?yàn)樗鼈兦度肓饲榫忱斫獾脑?。因此,這種分析常常用來(lái)建立優(yōu)勢(shì)或者降低風(fēng)險(xiǎn)。下面是兩個(gè)這類問(wèn)題的樣例:這三種藥品中,哪一種能提供最好的療效?何時(shí)才是拋售一只股票的最佳時(shí)機(jī)?1.1.4數(shù)據(jù)集與數(shù)據(jù)分析規(guī)范性分析比其他三種分析的價(jià)值都高,同時(shí)還要求最高級(jí)的訓(xùn)練集,甚至是專門(mén)的分析軟件和工具。這種分析將計(jì)算大量可能出現(xiàn)的結(jié)果,并且推薦出最佳選項(xiàng)。解決方案從解釋性的到建議性的均有,同時(shí)還能包括各種不同情境的模擬。這種分析能將內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)結(jié)合起來(lái)。內(nèi)部數(shù)據(jù)可能包括當(dāng)前和過(guò)去的銷售數(shù)據(jù)、消費(fèi)者信息、產(chǎn)品數(shù)據(jù)和商業(yè)規(guī)則。外部數(shù)據(jù)可能包括社會(huì)媒體數(shù)據(jù)、天氣情況、政府公文等等。如圖1-8所示,規(guī)范性分析涉及利用商業(yè)規(guī)則和大量的內(nèi)外部數(shù)據(jù)來(lái)模擬事件結(jié)果,并且提供最佳的做法。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析圖1-8規(guī)范性分析通過(guò)引入商業(yè)規(guī)則、內(nèi)部數(shù)據(jù)以及外部數(shù)據(jù)來(lái)進(jìn)行深入徹底的分析1.1.4數(shù)據(jù)集與數(shù)據(jù)分析5.關(guān)鍵績(jī)效指標(biāo)(KPI)關(guān)鍵績(jī)效指標(biāo)(KPI)是一種用來(lái)衡量一次業(yè)務(wù)過(guò)程是否成功的度量標(biāo)準(zhǔn)。它與企業(yè)整體的戰(zhàn)略目標(biāo)和任務(wù)相聯(lián)系。同時(shí),它常常用來(lái)識(shí)別經(jīng)營(yíng)業(yè)績(jī)中的一些問(wèn)題,以及闡釋一些執(zhí)行標(biāo)準(zhǔn)。因此,KPI通常是一個(gè)測(cè)量企業(yè)整體績(jī)效的特定方面的定量參考指標(biāo)。KPI常常通過(guò)專門(mén)的儀表板顯示。儀表板將多個(gè)關(guān)鍵績(jī)效指標(biāo)聯(lián)合起來(lái)展示,并且將實(shí)測(cè)值與關(guān)鍵績(jī)效指標(biāo)閾值相比較。【作業(yè)】4選1標(biāo)準(zhǔn)選擇題,必做?!緦?shí)訓(xùn)操作】ETI公司的背景信息課后實(shí)訓(xùn)操作,必做。下周上課前批改,不得補(bǔ)交(除請(qǐng)假外)。目錄1任務(wù)1.1:進(jìn)入大數(shù)據(jù)時(shí)代

【導(dǎo)讀案例】準(zhǔn)確預(yù)測(cè)地震

【任務(wù)描述】

【知識(shí)準(zhǔn)備】進(jìn)入大數(shù)據(jù)時(shí)代【作業(yè)】【實(shí)訓(xùn)操作】ETI公司的背景信息2任務(wù)1.2:熟悉大數(shù)據(jù)的定義【導(dǎo)讀案例】得數(shù)據(jù)者得天下討論:(1)為什么工業(yè)和信息化部原部長(zhǎng)苗圩說(shuō):“大數(shù)據(jù)是‘21世紀(jì)的石油和金礦’”?(2)中國(guó)是人口大國(guó)、制造業(yè)大國(guó)、互聯(lián)網(wǎng)大國(guó)、物聯(lián)網(wǎng)大國(guó),為什么說(shuō):“中國(guó)具備數(shù)據(jù)強(qiáng)國(guó)潛力,2020年數(shù)據(jù)規(guī)模將位居第一”?(3)請(qǐng)闡述,為什么說(shuō)“得數(shù)據(jù)者得天下”?(4)請(qǐng)簡(jiǎn)單記述你所知道的上一周內(nèi)發(fā)生的國(guó)

際、國(guó)內(nèi)或者身邊的大事。【任務(wù)描述】(1)熟悉大數(shù)據(jù)的狹義與廣義的定義。(2)熟悉大數(shù)據(jù)的3V與5V特征。(3)熟悉大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型?!局R(shí)準(zhǔn)備】熟悉大數(shù)據(jù)的定義最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”(BigData)這個(gè)概念。如今,這個(gè)概念幾乎應(yīng)用到了所有人類致力于發(fā)展的領(lǐng)域中。大數(shù)據(jù)的定義1.2.11.2.1大數(shù)據(jù)的定義所謂大數(shù)據(jù),狹義上可以定義為:用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。對(duì)大量數(shù)據(jù)進(jìn)行分析,并從中獲得有用觀點(diǎn),這種做法在一部分研究機(jī)構(gòu)和大企業(yè)中,過(guò)去就已經(jīng)存在了?,F(xiàn)在的大數(shù)據(jù)和過(guò)去相比,主要有三點(diǎn)區(qū)別:第一,隨著社交媒體和傳感器網(wǎng)絡(luò)等的發(fā)展,在我們身邊正產(chǎn)生出大量且多樣的數(shù)據(jù);第二,隨著硬件和軟件技術(shù)的發(fā)展,數(shù)據(jù)的存儲(chǔ)、處理成本大幅下降;第三,隨著云計(jì)算的興起,大數(shù)據(jù)的存儲(chǔ)、處理環(huán)境已經(jīng)沒(méi)有必要自行搭建。1.2.1大數(shù)據(jù)的定義所謂“用現(xiàn)有的一般技術(shù)難以管理”,例如是指用目前在企業(yè)數(shù)據(jù)庫(kù)占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫(kù)無(wú)法進(jìn)行管理的、具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)?;蛘咭部梢哉f(shuō),是指由于數(shù)據(jù)量的增大,導(dǎo)致對(duì)數(shù)據(jù)的查詢(Query)響應(yīng)時(shí)間超出允許范圍的龐大數(shù)據(jù)。研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。1.2.1大數(shù)據(jù)的定義麥肯錫說(shuō):“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過(guò)了傳統(tǒng)數(shù)據(jù)庫(kù)軟件獲取、存儲(chǔ)、營(yíng)理和分析的能力。這是一個(gè)被故意設(shè)計(jì)成主觀性的定義,并且是一個(gè)關(guān)于多大的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)的可變定義,即并不定義大于一個(gè)特定數(shù)字的TB才叫大數(shù)據(jù)。因?yàn)殡S著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會(huì)增長(zhǎng);并且定義隨不同的行業(yè)也有變化,這依賴于在一個(gè)特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從幾十TB到幾PB?!彪S著“大數(shù)據(jù)”的出現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價(jià)值的利用正逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn),在全球引領(lǐng)了又一輪數(shù)據(jù)技術(shù)革新的浪潮。大數(shù)據(jù)的3V和5V特征1.2.21.2.2大數(shù)據(jù)的3V和5V特征從字面來(lái)看,“大數(shù)據(jù)”這個(gè)詞可能會(huì)讓人覺(jué)得只是容量非常大的數(shù)據(jù)集合而已。但容量只不過(guò)是大數(shù)據(jù)特征的一個(gè)方面,如果只拘泥于數(shù)據(jù)量,就無(wú)法深入理解當(dāng)前圍繞大數(shù)據(jù)所進(jìn)行的討論。因?yàn)椤坝矛F(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個(gè)因素所造成的。IBM說(shuō):“可以用3個(gè)特征相結(jié)合來(lái)定義大數(shù)據(jù):數(shù)量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),或者就是簡(jiǎn)單的3V,即龐大容量、極快速度和種類豐富的數(shù)據(jù)”(見(jiàn)圖1-9)。1.2.2大數(shù)據(jù)的3V和5V特征圖1-9按數(shù)量、種類和速度來(lái)定義大數(shù)據(jù)1.2.2大數(shù)據(jù)的3V和5V特征1.Volume(數(shù)量)用現(xiàn)有技術(shù)無(wú)法管理的數(shù)據(jù)量,從現(xiàn)狀來(lái)看,基本上是指從幾十TB到幾PB這樣的數(shù)量級(jí)。當(dāng)然,隨著技術(shù)的進(jìn)步,這個(gè)數(shù)值也會(huì)不斷變化。最初考慮到數(shù)據(jù)的容量,是指被大數(shù)據(jù)解決方案所處理的數(shù)據(jù)量大,并且在持續(xù)增長(zhǎng)。數(shù)據(jù)容量大能夠影響數(shù)據(jù)的獨(dú)立存儲(chǔ)和處理需求,同時(shí)還能對(duì)數(shù)據(jù)準(zhǔn)各、數(shù)據(jù)恢復(fù)、數(shù)據(jù)管理的操作產(chǎn)生影響。如今,存儲(chǔ)的數(shù)據(jù)數(shù)量正在急劇增長(zhǎng)中,我們存儲(chǔ)所有事物,包括:環(huán)境數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等。有關(guān)數(shù)據(jù)量的對(duì)話已從TB級(jí)別轉(zhuǎn)向PB級(jí)別,并且不可避免地會(huì)轉(zhuǎn)向ZB級(jí)別??墒牵S著可供企業(yè)使用的數(shù)據(jù)量不斷增長(zhǎng),可處理、理解和分析的數(shù)據(jù)的比例卻不斷下降。1.2.2大數(shù)據(jù)的3V和5V特征典型的生成大量數(shù)據(jù)的數(shù)據(jù)源包括:在線交易,例如官方在線銷售點(diǎn)和網(wǎng)銀。科研實(shí)驗(yàn),例如大型強(qiáng)子對(duì)撞機(jī)和阿塔卡瑪大型毫米及次毫米波陣列望遠(yuǎn)鏡。傳感器,例如GPS傳感器,RFID標(biāo)簽,智能儀表或者信息技術(shù)。社交媒體、臉書(shū)、推特、微信、QQ等。1.2.2大數(shù)據(jù)的3V和5V特征2.Variety(種類、多樣性)數(shù)據(jù)多樣性指的是大數(shù)據(jù)解決方案需要支持多種不同格式、不同類型的數(shù)據(jù)。數(shù)據(jù)多樣性給企業(yè)帶來(lái)的挑戰(zhàn)包括數(shù)據(jù)聚合、數(shù)據(jù)交換、數(shù)據(jù)處理和數(shù)據(jù)存儲(chǔ)等。隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來(lái)自網(wǎng)頁(yè)、互聯(lián)網(wǎng)日志文件(包括單擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動(dòng)和被動(dòng)系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。1.2.2大數(shù)據(jù)的3V和5V特征種類表示所有的數(shù)據(jù)類型。其中,爆發(fā)式增長(zhǎng)的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫(kù)是很難存儲(chǔ)的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,在這些數(shù)據(jù)中,有一些是過(guò)去就一直存在并保存下來(lái)的。和過(guò)去不同的是,除了存儲(chǔ),還需要對(duì)這些大數(shù)據(jù)進(jìn)行分析,并從中獲得有用的信息。例如監(jiān)控?cái)z像機(jī)中的視頻數(shù)據(jù)。近年來(lái),超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控?cái)z像機(jī),最初目的是為了防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控?cái)z像機(jī)的視頻數(shù)據(jù)來(lái)分析顧客購(gòu)買(mǎi)行為的案例。1.2.2大數(shù)據(jù)的3V和5V特征例如,美國(guó)高級(jí)文具制造商萬(wàn)寶龍(Montblane)過(guò)去是憑經(jīng)驗(yàn)和直覺(jué)來(lái)決定商品陳列布局的,現(xiàn)在嘗試?yán)帽O(jiān)控?cái)z像頭對(duì)顧客在店內(nèi)的行為進(jìn)行分析。通過(guò)分析監(jiān)控?cái)z像機(jī)的數(shù)據(jù),將最想賣(mài)出去的商品移動(dòng)到最容易吸引顧客目光的位置,使得銷售額提高了20%。美國(guó)移動(dòng)運(yùn)營(yíng)商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監(jiān)控?cái)z像機(jī),可以統(tǒng)計(jì)來(lái)店人數(shù),還可以追蹤顧客在店內(nèi)的行動(dòng)路線、在展臺(tái)前停留的時(shí)間,甚至是試用了哪一款手機(jī)、試用了多長(zhǎng)時(shí)間等,對(duì)顧客在店內(nèi)的購(gòu)買(mǎi)行為進(jìn)行分析。1.2.2大數(shù)據(jù)的3V和5V特征3.Velocity(速度,速率)數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個(gè)重要特征。在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)產(chǎn)生得很快,在極短的時(shí)間內(nèi)就能聚集起大量的數(shù)據(jù)集。從企業(yè)的角度來(lái)說(shuō),數(shù)據(jù)的速率代表數(shù)據(jù)從進(jìn)入企業(yè)邊緣到能夠馬上進(jìn)行處理的時(shí)間。處理快速的數(shù)據(jù)輸入流,需要企業(yè)設(shè)計(jì)出彈性的數(shù)據(jù)處理方案,同時(shí)也需要強(qiáng)大的數(shù)據(jù)存儲(chǔ)能力。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過(guò)程中對(duì)它的數(shù)量和種類執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。1.2.2大數(shù)據(jù)的3V和5V特征根據(jù)數(shù)據(jù)源的不同,速率不可能一直很快。例如,核磁共振掃描圖像不會(huì)像高流量Web服務(wù)器的日志條目生成速度那么快。例如一分鐘內(nèi)能夠生成下列數(shù)據(jù):35萬(wàn)條推文、300小時(shí)的YouTube視頻、1.71億份電子郵件,以及330GB飛機(jī)引擎的傳感器數(shù)據(jù)。又如,遍布全國(guó)的便利店在24小時(shí)內(nèi)產(chǎn)生的POS機(jī)數(shù)據(jù),電商網(wǎng)站中由用戶訪問(wèn)所產(chǎn)生的網(wǎng)站點(diǎn)擊流數(shù)據(jù),高峰時(shí)達(dá)到每秒近萬(wàn)條的微信短文,全國(guó)公路上安裝的交通堵塞探測(cè)傳感器和路面狀況傳感器(可檢測(cè)結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。1.2.2大數(shù)據(jù)的3V和5V特征IBM在3V的基礎(chǔ)上又歸納總結(jié)了第四個(gè)V一一Veracity(真實(shí)和準(zhǔn)確)?!爸挥姓鎸?shí)而準(zhǔn)確的數(shù)據(jù)才能讓對(duì)數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實(shí)性及安全性?!?.2.2大數(shù)據(jù)的3V和5V特征IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)說(shuō):“大數(shù)據(jù)是一個(gè)貌似不知道從哪里冒出來(lái)的大的動(dòng)力。但是實(shí)際上,大數(shù)據(jù)并不是新生事物。然而,它確實(shí)正在進(jìn)入主流,并得到重大關(guān)注,這是有原因的。廉價(jià)的存儲(chǔ)、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過(guò)云和虛擬化存儲(chǔ)設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動(dòng)著大數(shù)據(jù)。大數(shù)據(jù)不是一個(gè)‘事物’,而是一個(gè)跨多個(gè)信息技術(shù)領(lǐng)域的動(dòng)力/活動(dòng)。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設(shè)計(jì)用于:通過(guò)使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價(jià)值(Value)?!?.2.2大數(shù)據(jù)的3V和5V特征這個(gè)定義除了揭示大數(shù)據(jù)傳統(tǒng)的3V

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論