版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)原理及技術(shù) 最近幾年,關(guān)于物聯(lián)網(wǎng),大數(shù)據(jù),云計算,炒的沸沸揚揚。似乎隨便2個節(jié)點之間能夠?qū)崿F(xiàn)通信就能稱作物聯(lián)網(wǎng);只要數(shù)據(jù)足夠大就稱之為大數(shù)據(jù);只要有數(shù)據(jù)足夠大的計算就叫做云計算。當(dāng)時國外社交媒體對于大數(shù)據(jù)的熱度稱呼其為:Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too。 這比喻恰到好處。似懂非懂,
2、似是而非的感覺。 大數(shù)據(jù)是近兩年被反復(fù)吟唱的一首驪歌。自從1980年,著名未來學(xué)家阿爾文托夫勒在第三次浪潮一書中將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”開始,IT界就不斷的為之傾倒。不過,“大數(shù)據(jù)”真的闖入凡人世界成為這個時代的流行詞匯還是從2012年開始。從baidu指數(shù)當(dāng)中可以清晰地看到,“大數(shù)據(jù)”在2012年6月之前還處在默默無聞階段,自此之后“大數(shù)據(jù)”指數(shù)一路飆升。努力回憶下生活中的小場景吧!此刻做PPT,稍微一轉(zhuǎn)眼,又看到了這些,這就不能算巧合吧!1. 好友親密度、qq空間、淘寶推送的東西等等涉及到數(shù)據(jù)與數(shù)據(jù)之間的相互關(guān)系,而并不是因果關(guān)系(往往習(xí)慣于因果思維邏輯去思考和理解問題
3、)2.DT(分銷商),可以設(shè)想一下,當(dāng)淘寶下單20分鐘就收到到貨信息,該是一種什么樣的體驗。(其實你的信息,什么時候想要什么東西都已經(jīng)被商戶預(yù)測啦,已經(jīng)提前將商品運往目的地。甚至你路過的廣告屏,視頻網(wǎng)站,包括使用的APP都將引導(dǎo)你消費。)3.數(shù)據(jù)足夠大就稱呼其為大數(shù)據(jù)嗎?(其實不然,關(guān)鍵在于其中承載的信息。數(shù)據(jù)處理之后才可以稱之為信息或者叫做知識。其實大數(shù)據(jù)可以這樣理解,當(dāng)數(shù)據(jù)增長速度超過了計算機處理能力的增長速度,這時就產(chǎn)生了大數(shù)據(jù)問題,好比馬車怎么也趕不上汽車,更別看汽車后備箱里面裝了什么東西。當(dāng)前流行的Hadoop等工具、MapReduce等方法有效地形成一套可以靈活擴展的解決方案,允許
4、用空間(集群規(guī)模)換取時間(運算時間),通過良好地管理,集群的處理能力能夠跟得上數(shù)據(jù)的增長速度,由此允許人們處理更大的數(shù)據(jù)(趕上汽車),從中提取出小數(shù)據(jù)所無法獲得的信息與價值(發(fā)現(xiàn)汽車后備箱里面藏的東西)。)當(dāng)然這里面設(shè)計很多技術(shù),數(shù)據(jù)采樣、數(shù)據(jù)處理、并行計算、建模、機器學(xué)習(xí),如何使用這些數(shù)學(xué)工具以及專業(yè)知識,便成為核心問題。Some fantastic scenesSome funny ideas 1.現(xiàn)在的數(shù)據(jù)挖掘、人工智能以及大數(shù)據(jù)的結(jié)合還只在一個較淺顯的層面,這方面還存在很大的突破瓶頸。大數(shù)據(jù)的應(yīng)用應(yīng)該體現(xiàn)在數(shù)據(jù)挖掘的深度上面。例如深圳的大疆無人機雖然占據(jù)全世界消費級無人機百分之70的
5、市場份額,但是相比軍事無人機,與美國的許多無人機存在不小的差距。因為大疆的大多數(shù)產(chǎn)品還是依靠遙控控制,離真正的人工智能還是有一定的距離的。2.在baidu關(guān)鍵詞中對比了“大數(shù)據(jù)”和“云計算”的近幾年趨勢,發(fā)現(xiàn)了一個有意思的曲線,2012年“云計算”熱度消退后,“大數(shù)據(jù)”走上了前臺,但卻再也沒有恢復(fù)到“云計算”的高度。這是不是表示“大數(shù)據(jù)”是“云計算”概念落空后的一餐冷飯呢?也許,誰知道呢。3.快速的處理數(shù)據(jù)盡快用于公司決策當(dāng)最低限度的數(shù)據(jù)邊界找到后,保證數(shù)據(jù)的快速處理就是你的能力所在。盡你的最大可能快速與客戶、設(shè)備、平臺基于這些數(shù)據(jù)進行接受和反饋,將分析和決策工作與執(zhí)行行動實時對接。4.小規(guī)模
6、的數(shù)據(jù)分析,會有很大噪音。1個人買了啤酒又買了尿不濕就說兩者有什么關(guān)聯(lián),但是如果幾百萬個用戶都顯示了這樣的關(guān)聯(lián),那就能說明一些問題了??墒菙?shù)據(jù)量一旦上了規(guī)模,傳統(tǒng)的系統(tǒng)就沒辦法很好的處理了。此案例還是被納為營銷界最成功的案例之一,究其竟還是巧妙的產(chǎn)品捆綁銷售方式!PS:(發(fā)現(xiàn)啤酒和尿不濕多為男人在周末采購,而且購買這兩種產(chǎn)品的顧客一般都是年齡在25至35周歲的青年男子,由于孩子尚在哺乳期,多數(shù)男人都接到了夫人的“圣旨”,下班后帶尿不濕回家,而周末正是美國體育比賽的高峰期,一杯啤酒就著比賽是多么愜意的事?。┯谑怯袖N售人員得到啟發(fā),在超市刻意將這2件商品擺放距離放近了許多,并且放置了一些牛肉干之類
7、的。最后每年可增加幾百美元的銷售額。 阿里亞馬遜ebay這些,成千上萬種貨物,每天成TB的甚至PB的數(shù)據(jù)量,要對大量不同的貨品種類作分析和推薦,近實時地更新給用戶看;推特和Facebook這些,根據(jù)用戶發(fā)布的信息和行為模式,快速地分析整合數(shù)據(jù)給出精確廣告投放是這些公司生存的根本。等移動互聯(lián)網(wǎng)或者物聯(lián)網(wǎng)更普及,數(shù)據(jù)量只會更大,結(jié)構(gòu)更隨意,分析更困難。能從中找到有意思的信息,用傳統(tǒng)手段就更難了。大數(shù)據(jù)的產(chǎn)生大數(shù)據(jù)技術(shù)的介紹大數(shù)據(jù)技術(shù)的應(yīng)用大數(shù)據(jù)的產(chǎn)生來源基于歷史數(shù)據(jù),利用數(shù)據(jù)建模定量分析不同球員特點,合理搭配,重新組隊;打破傳統(tǒng)思維,通過分析比賽數(shù)據(jù),尋找“性價比”最高球員,運用數(shù)據(jù)取得成功;布拉
8、德皮特主演的點球成金是一部美國奧斯卡獲獎影片,所講述的是皮特扮演的棒球隊總經(jīng)理利用計算機數(shù)據(jù)分析,對球隊進行了翻天覆地的改造,讓一家不起眼的小球隊能夠取得巨大的成功。來源Twitter上發(fā)布98000+新微博13000+個iPhone應(yīng)用下載Skype上37萬+分鐘的語音通話上傳6600張新照片到flickr發(fā)出1.68億+條EmailYouTube上上傳600+新視頻淘寶光棍節(jié)10680+個新訂單Facebook上更新69.5萬+條新狀態(tài)12306出票1840+張數(shù)據(jù)的爆炸式增長每分鐘的數(shù)據(jù)來源根據(jù)IDC 監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個速度在2020 年之前會
9、繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量數(shù)據(jù)量增加數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長。這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠遠超越了目前人力所能處理的范疇。來源傳統(tǒng)數(shù)據(jù)管理方式的缺陷:范圍非結(jié)構(gòu)化數(shù)據(jù)、內(nèi)外部數(shù)據(jù)混搭、云化處理等都會沖擊傳統(tǒng)管理模式。形式數(shù)據(jù)加工的復(fù)雜度和速度要求越來越高,也對傳統(tǒng)管理模式提出挑戰(zhàn)。內(nèi)涵數(shù)據(jù)的交換、轉(zhuǎn)讓、租賃、交易等各種創(chuàng)新模式,也要求新的管理手段。來源每天幾百 GB、 幾 TB 的資料,且持續(xù)成長中儲存Storing 在收數(shù)據(jù)的同時做必要的前置處理 (pre-processin
10、g),并區(qū)分?jǐn)?shù)據(jù)處理的優(yōu)先等級 (prioritizing)計算Processing如何有效的避免因硬件毀壞所導(dǎo)致的資料損毀管理Managing如何從中挖掘出所關(guān)注事件的 pattern 或 behavior分析Analyzing我們需要什么樣的數(shù)據(jù)管理方式?來源大數(shù)據(jù)應(yīng)運而生那么,什么是大數(shù)據(jù)?大數(shù)據(jù)技術(shù)的介紹 目前對大數(shù)據(jù)尚未有一個公認(rèn)的定義,不同的定義基本上是從特征出發(fā),試圖給出大數(shù)據(jù)的定義。大數(shù)據(jù)技術(shù)介紹 大數(shù)據(jù)很抽象,表示數(shù)據(jù)規(guī)模的龐大。 大數(shù)據(jù)泛指巨量的數(shù)據(jù)集,因可從中 挖掘出有價值的信息而受到重視。 華爾街日報將大數(shù)據(jù)時代、智能化生 產(chǎn)、 無線網(wǎng)絡(luò)革命稱為引領(lǐng)未來繁榮發(fā) 展的重大
11、技術(shù)變革。大數(shù)據(jù)技術(shù)介紹 何為大數(shù)據(jù)大數(shù)據(jù)指的是規(guī)模超過現(xiàn)有數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集額,并同時強調(diào)并不是超過某個特定數(shù)量級的數(shù)據(jù)集才是大數(shù)據(jù)大數(shù)據(jù)是具備海量、高速、多樣、可變等特征的多維數(shù)據(jù)集,需要通過可伸縮的體系結(jié)構(gòu)實現(xiàn)高效的存儲、處理和分析。技術(shù)能力視角大數(shù)據(jù)內(nèi)涵視角大數(shù)據(jù)技術(shù) 大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)就是“未來的新石油”。大數(shù)據(jù)帶來的思維變革:更多 不是隨機樣本而是全部數(shù)據(jù)更雜 不是精確性而是混雜性更好 不是因果關(guān)系而是相關(guān)關(guān)系大數(shù)據(jù)技術(shù)更多人口大普查全數(shù)據(jù)模式隨機采樣樣本模式大數(shù)據(jù)
12、應(yīng)用全數(shù)據(jù)模式是指在國家統(tǒng)一規(guī)定的時間內(nèi),按照統(tǒng)一的方法、統(tǒng)一的項目、統(tǒng)一的調(diào)查表和統(tǒng)一的標(biāo)準(zhǔn),對全國人口普遍地、逐戶逐人地進行的一次性調(diào)查登記;主要特點是調(diào)查組織高度集中性,普查對象的全面完整性;人口大普查耗時費力,一般來講是十年一次,新中國成立以來共進行了6次人口大普查;人口大普查是一種典型的全數(shù)據(jù)模式;大數(shù)據(jù)時代小數(shù)據(jù)時代大數(shù)據(jù)技術(shù)更多人口大普查全數(shù)據(jù)模式隨機采樣樣本模式大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式人口大普查是一種耗時耗費的工程,一般是以十年為單位;各國每年需要進行幾百次的小規(guī)模人口調(diào)查,采取隨機采樣分析的方式,這是一種樣本模式;源于實用并且很好的創(chuàng)新!隨機采樣分析是小數(shù)據(jù)時代的產(chǎn)物;大數(shù)據(jù)時代
13、小數(shù)據(jù)時代大數(shù)據(jù)技術(shù)更多人口大普查全數(shù)據(jù)模式隨機采樣樣本模式大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式我們已具備了大數(shù)據(jù)的各種技術(shù)能力,思維需要轉(zhuǎn)換到大數(shù)據(jù)的全數(shù)據(jù)模式:樣本=全部;大數(shù)據(jù)不用隨機分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法;這里的“大”是相對的相撲比賽所有數(shù)據(jù)存儲還不需要一個TB,但是是所有的數(shù)據(jù)!在大數(shù)據(jù)時代采用隨機采樣法,就像在汽車時代騎馬一樣,雖然特定情況下仍可采樣隨機采樣法,但是慢慢地我們會放棄它;大數(shù)據(jù)時代小數(shù)據(jù)時代大數(shù)據(jù)技術(shù)Google利用網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測流感基于全數(shù)據(jù)進行相撲比賽的作弊分析埃齊奧尼的Farecast有10萬億條數(shù)據(jù)預(yù)測機票價格喬布斯的癌癥抗?fàn)帲陨硭蠨NA和腫瘤DNA排序更
14、多大數(shù)據(jù)技術(shù)更雜從皮尺到哈勃望遠鏡,人類一直在追求測量的精確性,一方面源于對未知世界的認(rèn)知;一方面也源于收集信息的有限性;大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效;IBM的機器翻譯 VS Google的機器翻譯;紛繁的數(shù)據(jù)越多越好;大數(shù)據(jù)時代要求我們重新審視數(shù)據(jù)精確性的優(yōu)略;大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實現(xiàn)精確性;錯誤不是大數(shù)據(jù)固有的問題,而是一個需要我們?nèi)ソ鉀Q的問題,而且會將長期存在;混雜性,不是竭力避免,而是標(biāo)準(zhǔn)途徑;大數(shù)據(jù)技術(shù)更好佛教三世因果經(jīng)主要講:一是人的命是自己造就的;二是怎樣為自己造一個好命;三是行善積德與行兇作惡干壞事的因果循環(huán)報應(yīng)規(guī)律。佛教關(guān)于因果報應(yīng)的解釋原
15、因和結(jié)果是揭示客觀世界中普遍聯(lián)系著的事物具有先后相繼、彼此制約的一對范疇。原因是指引起一定現(xiàn)象的現(xiàn)象,結(jié)果是指由于原因的作用而引起的現(xiàn)象。哲學(xué)范疇的因果關(guān)系大數(shù)據(jù)的相關(guān)關(guān)系,而不強調(diào)因果關(guān)系;(舍恩伯格),其實這個只是一種對無法探究因果的妥協(xié),人類應(yīng)該去探尋因果,因為世界存在客觀的運轉(zhuǎn)規(guī)律;舍恩伯格對大數(shù)據(jù)的相關(guān)性解釋Kaggle,一個為所有人提供數(shù)據(jù)挖掘競賽的公司,在一次關(guān)于二手車的數(shù)據(jù)分析比賽中得到,橙色汽車有質(zhì)量問題的可能性是其它顏色汽車的一半。為什么?探尋事物的因果關(guān)系是人類的本性,但是大數(shù)據(jù)時代可以做某種程度的妥協(xié),可以只需要關(guān)注“是什么”,而忽略“為什么?”大數(shù)據(jù)技術(shù)VolumeV
16、arietyValueVelocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長;總數(shù)據(jù)量的8090%;比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍;是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍。大數(shù)據(jù)的異構(gòu)和多樣性;很多不同形式(文本、圖像、視頻、機器數(shù)據(jù));無模式或者模式不明顯;不連貫的語法或句義。大量的不相關(guān)信息;對未來趨勢與模式的可預(yù)測分析;深度復(fù)雜分析(機器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能)實時分析而非批量式分析;數(shù)據(jù)輸入、處理與丟棄;立竿見影而非事后見效4V特征大數(shù)據(jù)技術(shù)Volume1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相當(dāng)于50%的全美學(xué)術(shù)研究圖書館藏書信息內(nèi)容5EB相當(dāng)于至今全世界人類所講過的
17、話語1ZB如同全世界海灘上的沙子數(shù)量總和1YB相當(dāng)于7000位人類體內(nèi)的微細(xì)胞總和一般情況下,大數(shù)據(jù)是以PB、EB、ZB為單位進行計量的大數(shù)據(jù)技術(shù)Variety數(shù)據(jù)來源多數(shù)據(jù)類型多關(guān)聯(lián)性強企業(yè)內(nèi)部多個應(yīng)用系統(tǒng)的數(shù)據(jù)、互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的興起,帶來了微博、社交網(wǎng)站、傳感器等多種來源。保存在關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)只占少數(shù),7080%的數(shù)據(jù)是如圖片、音頻、視頻、模型、連接信息、文檔等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)之間頻繁交互,比如游客在旅行途中上傳的圖片和日志,就與游客的位置、行程等信息有了很強的關(guān)聯(lián)性。大數(shù)據(jù)技術(shù)Value大數(shù)據(jù)不僅僅是技術(shù),關(guān)鍵是產(chǎn)生價值可以從各個層面進行優(yōu)化,更要考慮整體挖掘大數(shù)據(jù)
18、的價值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息;價值密度低,是大數(shù)據(jù)的一個典型特征;大數(shù)據(jù)技術(shù)Velocity82254132215327現(xiàn)在及未來幾年內(nèi)美國的移動網(wǎng)絡(luò)數(shù)據(jù)流量增長(PB/月)源自英國Coda研究咨詢公司大數(shù)據(jù)的增長速度快大數(shù)據(jù)的處理速度快實時數(shù)據(jù)流處理的要求,是區(qū)別大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉庫技術(shù),BI技術(shù)的關(guān)鍵差別之一;1s 是臨界點,對于大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)形成答案,否則處理結(jié)果就是過時和無效的;中央政府對大數(shù)據(jù)的重視程度30習(xí)近平政府管理不僅要講究策略,還要講究手段,比如大數(shù)據(jù)技術(shù)的應(yīng)用,2014年3月8日“大數(shù)據(jù)”首次寫入政府工作報告奧巴馬“將投入巨資拉
19、動與大數(shù)據(jù)相關(guān)的產(chǎn)業(yè)”“數(shù)據(jù)為“未來的石油“,是美國綜合國力的一部分,是與陸權(quán)、海權(quán)、空權(quán)同等重要的“國家核心資產(chǎn)”。李克強:加快推進全國中小企業(yè)征信系統(tǒng)建設(shè),通過大數(shù)據(jù)等技術(shù)優(yōu)化中小企業(yè)征信資質(zhì)。李克強經(jīng)濟數(shù)據(jù)和目標(biāo)的進一步調(diào)整,中小企業(yè)將面臨更大的壓力,互聯(lián)網(wǎng)金融除了解決便利性問題外,更重要的是如何圍繞特有的大數(shù)據(jù)資源展開對實體經(jīng)濟的服務(wù)汪洋數(shù)據(jù)為王,財政工作離不開大數(shù)據(jù)大數(shù)據(jù)涉及的關(guān)鍵技術(shù) 需求 海量數(shù)據(jù)存儲技術(shù) 實時數(shù)據(jù)處理技術(shù) 數(shù)據(jù)高速傳輸技術(shù) 搜索技術(shù) 數(shù)據(jù)分析技術(shù)技術(shù)Hadoop,X86/MPPMap ReduceStreaming dataInfini BandEnterpri
20、se SearchText Analytics EngineVisual Data Modeling描述分布式文件系統(tǒng)流計算引擎服務(wù)器、存儲間高速通信文本檢索、智能搜索、實時搜索自然語言處理、文本情感分析、機器學(xué)習(xí)、聚類關(guān)聯(lián)、數(shù)據(jù)模型大數(shù)據(jù)的技術(shù)生態(tài)大數(shù)據(jù)本身是個很寬泛的概念,Hadoop生態(tài)圈(或者泛生態(tài)圈)基本上都是為了處理超過單機尺度的數(shù)據(jù)處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆,各有各的用處,互相之間又有重合。但是每個工具有自己的特性,雖然奇怪的組合也能工作,但是未必是最佳選擇。這里限于時間考慮只介紹了Hadoop HSFS和MapReduce / Tez /
21、Spark。 該圖為一個Hadoop生態(tài)圈示意圖 HDFS(Hadoop Distributed FileSystem分布式文件系統(tǒng))的設(shè)計本質(zhì)上是為了大量的數(shù)據(jù)能橫跨成百上千臺機器,但是你看到的是一個文件系統(tǒng)而不是很多文件系統(tǒng)。比如你說我要獲取/hdfs/tmp/file1的數(shù)據(jù),你引用的是一個文件路徑,但是實際的數(shù)據(jù)存放在很多不同的機器上。你作為用戶,不需要知道這些,就好比在單機上你不關(guān)心文件分散在什么磁道什么扇區(qū)一樣。HDFS為你管理這些數(shù)據(jù)。 接下來處理數(shù)據(jù),雖然HDFS可以為你整體管理不同機器上的數(shù)據(jù),但是這些數(shù)據(jù)太大了。那么我如果要用很多臺機器處理,我就面臨了如何分配工作,如果一臺
22、機器掛了如何重新啟動相應(yīng)的任務(wù),機器之間如何互相通信交換數(shù)據(jù)以完成復(fù)雜的計算等等。這就是MapReduce / Tez / Spark的功能。MapReduce是第一代計算引擎,Tez和Spark是第二代。MapReduce的設(shè)計,采用了很簡化的計算模型,只有Map和Reduce兩個計算過程(中間用Shuffle串聯(lián))什么是Map什么是Reduce? 考慮如果你要統(tǒng)計一個巨大的文本文件存儲在類似HDFS上,你想要知道這個文本里各個詞的出現(xiàn)頻率。你啟動了一個MapReduce程序。Map階段,幾百臺機器同時讀取這個文件的各個部分,分別把各自讀到的部分分別統(tǒng)計出詞頻,產(chǎn)生類似(hello, 121
23、00次),(world,15214次)等等這樣的Pair(我這里把Map和Combine放在一起說以便簡化);這幾百臺機器各自都產(chǎn)生了如上的集合,然后又有幾百臺機器啟動Reduce處理。Reducer機器A將從Mapper機器收到所有以A開頭的統(tǒng)計結(jié)果,機器B將收到B開頭的詞匯統(tǒng)計結(jié)果(當(dāng)然實際上不會真的以字母開頭做依據(jù),而是用函數(shù)產(chǎn)生Hash值以避免數(shù)據(jù)串化。因為類似X開頭的詞肯定比其他要少得多,而你不希望數(shù)據(jù)處理各個機器的工作量相差懸殊)。然后這些Reducer將再次匯總,(hello,12100)(hello,12311)(hello,345881)= (hello,370292)。每個
24、Reducer都如上處理,你就得到了整個文件的詞頻結(jié)果。這看似是個很簡單的模型,但很多算法都可以用這個模型描述了。 MapReduce的簡單模型雖然好用,但是很笨重。第二代的Tez和Spark除了內(nèi)存Cache之類的新feature,本質(zhì)上來說,是讓Map/Reduce模型更通用,讓Map和Reduce之間的界限更模糊,數(shù)據(jù)交換更靈活,更少的磁盤讀寫,以便更方便地描述復(fù)雜算法,取得更高的吞吐量。 大數(shù)據(jù)涉及的關(guān)鍵技術(shù)基于SQL語言: 面對OLAP的傳統(tǒng)行和列不基于SQL或map-reduce的: 由谷歌率先發(fā)起數(shù)據(jù)流: 基于運行商數(shù)據(jù)直接生成任意圖形新平臺技術(shù)數(shù)據(jù)入口/匯聚數(shù)據(jù)平臺分析不同范圍
25、的服務(wù)傳統(tǒng)交付模式-單片或基于設(shè)備的解決方案云: 能夠充分利用物理設(shè)施的彈性,以實現(xiàn)處理快速增長數(shù)據(jù)的能力“數(shù)據(jù)庫將演變成一個虛擬的,基于云計算,超級可擴展的分布式平臺?!? Forrester analyst Jim Kobielus新的傳輸方案大數(shù)據(jù)涉及的關(guān)鍵技術(shù)大數(shù)據(jù)(Hadoop)NoSQL數(shù)據(jù)庫數(shù)據(jù)倉庫部署架構(gòu)水平擴展水平擴展大部分垂直擴展,少數(shù)水平擴展大部分水平擴展數(shù)據(jù)類型文件存儲,沒有數(shù)據(jù)類型簡單數(shù)據(jù)類型豐富的數(shù)據(jù)類型豐富的數(shù)據(jù)類型數(shù)據(jù)模型非常簡陋的數(shù)據(jù)模型簡單靈活數(shù)據(jù)模型豐富的數(shù)據(jù)模型完善豐富的數(shù)據(jù)模型數(shù)據(jù)關(guān)系沒有數(shù)據(jù)關(guān)系描述非常簡單的數(shù)據(jù)關(guān)系描述數(shù)據(jù)關(guān)系完善數(shù)據(jù)關(guān)系完善數(shù)據(jù)一
26、致無一致性弱一致性強一致性強一致性數(shù)據(jù)安全安全性很弱安全性很弱安全性很高安全性很高計算類型離線批量處理,只讀,低并發(fā)實時CRUD操作,海量并發(fā)實時CRUD操作,高并發(fā)離線批量處理,只讀,低并發(fā)適用場景低密度數(shù)據(jù)海量存儲,數(shù)據(jù)預(yù)處理,預(yù)計算高并發(fā)實時在線交易,查詢,報表高價值數(shù)據(jù)統(tǒng)一存儲和計算平臺常見用例日志處理,用戶行為分析,搜索引擎用戶資料,微博,金融反欺詐金融賬戶,電信計費,稅務(wù)等企業(yè)數(shù)據(jù)倉庫關(guān)于大數(shù)據(jù)相關(guān)性關(guān)系的一些爭議性的觀點 我覺得大數(shù)據(jù)的信息來源還存在著局限性。首先,目前網(wǎng)絡(luò)并不能覆蓋生活的全部。依然存在一部分人群與網(wǎng)絡(luò)的聯(lián)系不密切。如果單憑網(wǎng)絡(luò)數(shù)據(jù)就對信息做判斷,其實是很片面的。
27、還有關(guān)于在不少關(guān)于大數(shù)據(jù)的書籍或是論文中強調(diào)的以相關(guān)關(guān)系替代因果關(guān)系的說法。我表示不太明白這點。因為目前計算機所作出的都是相關(guān)關(guān)系的判斷,而無法提供給人類明確的因果關(guān)系。但是基于自己以前的知識積累,感覺人類在利用計算機進行數(shù)據(jù)處理的時候,基本上都是由計算機給出的基礎(chǔ)之上再加以人為的因果判斷。哪怕是格蘭杰因果檢驗,雖然沒學(xué)過,但是個人理解其實質(zhì)也不是反映兩個變量之間的因果關(guān)系,而是“依賴于使用過去某些時點上所有信息的最佳最小二乘預(yù)測的方差”。因此在多數(shù)情況下,比如在學(xué)習(xí)多元統(tǒng)計、計量經(jīng)濟課程的時候,我們還是考慮變量之間的相關(guān)性。但是相關(guān)不代表因果。這就跟女士的裙長和股市漲跌一樣,不是說女士裙子越
28、短股市就越能往上走的。而大數(shù)據(jù)就真的沒運用到因果關(guān)系嗎?我覺得也不是這樣。比如說之前谷歌通過大數(shù)據(jù)做的流行病預(yù)測,其實還是運用了因果關(guān)系。谷歌就是假定人們?nèi)ゾW(wǎng)上進行相關(guān)搜索的原因是人們自己或者身邊的人出現(xiàn)了相關(guān)癥狀。我覺得這個世界是不可能單純地依靠“相關(guān)性”來決策的,因為這違背了人類的好奇心。事物之間相關(guān)性越大,就越是讓人想要知道這背后的原因。對我來說,僅僅基于相關(guān)關(guān)系而不考慮背后的因果關(guān)系的決策有點空中樓閣,不太靠譜。因此我不認(rèn)為因果關(guān)系會退出歷史舞臺。大數(shù)據(jù)技術(shù)大數(shù)據(jù)目前所存在的安全隱患:大數(shù)據(jù)基礎(chǔ)設(shè)施安全威脅大數(shù)據(jù)存儲安全威脅隱私泄露問題針對大數(shù)據(jù)的高級持續(xù)性攻擊數(shù)據(jù)訪問安全威脅其它安全
29、威脅大數(shù)據(jù)時代下沒有隱私 一個技術(shù)領(lǐng)域的大牛討論過關(guān)于隱私信息重組(這個詞我們自己造),實際就是充分利用掌握的信息去破解密碼。常規(guī)的算法是跑密碼字典,不得不承認(rèn),中國人在密碼上不在乎,當(dāng)初學(xué)校我在的校區(qū)我同級的共7000多人,有3000多人的密碼,我能用我設(shè)計的37個密碼跑出來,37個啊。在利用學(xué)校bug后,我拿到個人信息,然后通過我們設(shè)計的算法,利用了個人信息,得出幾組最可能的密碼,加入37個密碼中,經(jīng)過測試有4900多個人密碼被破解自那以后我發(fā)現(xiàn)人們對密碼設(shè)置規(guī)則固定而且與個人信息有關(guān)在大數(shù)據(jù)下,基于云計算,加上特定的網(wǎng)絡(luò)爬蟲,完全可以爬取任何一個人的信息。接著,我們可以嘗試撞庫了,常用的
30、126.163。新浪,QQ郵箱,雅虎,天涯,csdn等等只要設(shè)計再設(shè)計時將所有網(wǎng)站的后臺或者前臺登錄模擬出來了,完全可以利用這些信息去嘗試登錄。搜索電影女主角的故事(人肉搜索)Some tips 一、謹(jǐn)防釣魚網(wǎng)站二、慎連免費WiFi三、不在社交平臺中隨意透露個人信息四、慎重參加網(wǎng)絡(luò)調(diào)查、抽獎活動五、妥善處理快遞單、車票、快遞包裝盒上六、及時清除舊手機的數(shù)據(jù)信息、廢棄的手機卡大數(shù)據(jù)的應(yīng)用應(yīng)用分析預(yù)測大數(shù)據(jù)的應(yīng)用 此事經(jīng)被紐約時報報道后,塔吉特“大數(shù)據(jù)”的巨大威力轟動全美。 在美國,有一位父親怒氣沖沖地跑到塔吉特賣場,質(zhì)問為何將帶有嬰兒用品優(yōu)惠券的廣告郵件,寄送給他正在念高中的女兒? 然而后來證實
31、,他的女兒果真懷孕了。這名女孩搜尋商品的關(guān)鍵詞,以及在社交網(wǎng)站所顯露的行為軌跡,使沃爾瑪捕捉到了她的懷孕信息。 模型發(fā)現(xiàn),許多孕婦在第2個妊娠期的開始會買許多大包裝的無香味護手霜;在懷孕的最初20周大量購買補充鈣、鎂、鋅的善存片之類的保健品。最后塔吉特選出了25種典型商品的消費數(shù)據(jù)構(gòu)建了“懷孕預(yù)測指數(shù)”,通過這個指數(shù),Target能夠在很小的誤差范圍內(nèi)預(yù)測到顧客的懷孕情況,因此Target就能早早地把孕婦優(yōu)惠廣告寄發(fā)給顧客。大數(shù)據(jù)的應(yīng)用 亞馬遜 “預(yù)測式發(fā)貨”的新專利,可以通過對用戶數(shù)據(jù)的分析,在他們還沒有下單購物前,提前發(fā)出包裹。 這項技術(shù)可以縮短發(fā)貨時間,從而降低消費者前往實體店的沖動。從
32、下單到收貨之間的時間延遲可能會降低人們的購物意愿,導(dǎo)致他們放棄網(wǎng)上購物。 所以,亞馬遜可能會根據(jù)之前的訂單和其他因素,預(yù)測用戶的購物習(xí)慣,從而在他們實際下單前便將包裹發(fā)出。根據(jù)該專利文件,雖然包裹會提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹仍會暫存在快遞公司的轉(zhuǎn)運中心或卡車?yán)铩?亞馬遜為了決定要運送哪些貨物,亞馬遜可能會參考之前的訂單、商品搜索記錄、愿望清單、購物車,甚至包括用戶的鼠標(biāo)在某件商品上懸停的時間。大數(shù)據(jù)的應(yīng)用 在籌備大選的過程中,奧巴馬背后的數(shù)據(jù)分析團隊一直在收集、存儲和分析選民數(shù)據(jù)。 在這次的大選中,奧巴馬競選陣營的高級助理們決定將參考這一團隊所得出的數(shù)據(jù)分析結(jié)果來制定下一步
33、的競選方案。利用在競選中可獲得的選民行動、行為、支持偏向方面的大量數(shù)據(jù)。 比如,在東海岸找到一位對女性群體具備相同號召力的名人,從而復(fù)制“克魯尼效應(yīng)”并為奧巴馬籌集競選資金。 “Twitter的政治指數(shù)”提供了一個衡量社會化媒體平臺的用戶如何評價候選人的方式。奧巴馬積極的情緒指數(shù)是59,而羅姆尼的只有53。大數(shù)據(jù)的應(yīng)用 回顧“老鼠倉”的查處過程,在馬樂一案中,“大數(shù)據(jù)”首次介入。深交所此前通過“大數(shù)據(jù)”查出的可疑賬戶高達300個。 實際上,早在2009年,上交所曾經(jīng)有過利用“大數(shù)據(jù)”設(shè)置“捕鼠器”的設(shè)想。通過建立相關(guān)的模型,設(shè)定一定的指標(biāo)預(yù)警,即相關(guān)指標(biāo)達到某個預(yù)警點時監(jiān)控系統(tǒng)會自動報警。 而
34、此次在馬樂案中亮相的深交所的“大數(shù)據(jù)” 監(jiān)測系統(tǒng),更是引起了廣泛關(guān)注。深交所有幾十人的監(jiān)控室,設(shè)置了200多個指標(biāo)用于監(jiān)測估計,一旦出現(xiàn)股價偏離大盤走勢,深交所利用大數(shù)據(jù)查探異動背后是哪些人或機構(gòu)在參與。大數(shù)據(jù)的應(yīng)用 在摩托車生產(chǎn)廠商哈雷戴維森公司位于賓尼法尼亞州約克市新翻新的摩托車制造廠,軟件不停的在記錄著微小的制造數(shù)據(jù),如噴漆室風(fēng)扇的速度等等。當(dāng)軟件察覺風(fēng)扇速度、溫度、濕度或其它變量脫離規(guī)定數(shù)值,它就會自動調(diào)節(jié)機械。哈雷戴維森同時還使用軟件,還尋找制約公司每86秒完成一臺摩托車制造工作的瓶頸。最近,這家公司的管理者通過研究數(shù)據(jù),認(rèn)為安裝后擋泥板的時間過長。通過調(diào)整工廠配置,哈雷戴維森提高了
35、安裝該配件的速度。 美國一些紡織及化工生產(chǎn)商,根據(jù)從不同的百貨公司POS機上收集的產(chǎn)品銷售速度信息,將原來的18周送貨速度減少到3周,這對百貨公司分銷商來說,能以更快的速度拿到貨物,減少倉儲。對生產(chǎn)商來說,積攢的材料倉儲也能減少很多。大數(shù)據(jù)的應(yīng)用 谷歌基于每天來自全球的30 多億條搜索指令設(shè)立了一個系統(tǒng),這個系統(tǒng)在2009 年甲流爆發(fā)之前就開始對美國各地區(qū)進行“流感預(yù)報”,并推出了“谷歌流感趨勢”服務(wù)。 谷歌在這項服務(wù)的產(chǎn)品介紹中寫道:搜索流感相關(guān)主題的人數(shù)與實際患有流感癥狀的人數(shù)之間存在著密切的關(guān)系。雖然并非每個搜索“流感”的人都患有流感,但谷歌發(fā)現(xiàn)了一些檢索詞條的組合并用特定的數(shù)學(xué)模型對其
36、進行分析后發(fā)現(xiàn),這些分析結(jié)果與傳統(tǒng)流感監(jiān)測系統(tǒng)監(jiān)測結(jié)果的相關(guān)性高達97%。 這也就表示,谷歌公司能做出與疾控部門同樣準(zhǔn)確的傳染源位置判斷,并且在時間上提前了一到兩周?!贝髷?shù)據(jù)的應(yīng)用 國際大石油公司一直都非常重視數(shù)據(jù)管理。如雪佛龍公司將5萬臺桌面系統(tǒng)與1800個公司站點連接,消除煉油、銷售與運輸“下游系統(tǒng)”中的重復(fù)流程和系統(tǒng),每年節(jié)省5000萬美元,過去4年已獲得了凈現(xiàn)值約為2億美元的回報。 準(zhǔn)確預(yù)測太陽能和風(fēng)能需要分析大量數(shù)據(jù),包括風(fēng)速、云層等氣象數(shù)據(jù)。丹麥風(fēng)輪機制造商維斯塔斯( Vestas Wind Systems),通過在世界上最大的超級計算機上部署IBM大數(shù)據(jù)解決方案,得以通過分析包括PB量級氣象報告潮汐相位、地理空間、衛(wèi)星圖像等結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù),優(yōu)化風(fēng)力渦輪機布局,有效提高風(fēng)力渦輪機的性能,為客戶提供精確和優(yōu)化的風(fēng)力渦輪機配置方案
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課件插連接教學(xué)課件
- 水果趣味課件教學(xué)課件
- 2024年培訓(xùn)學(xué)校安全培訓(xùn)與發(fā)展協(xié)議
- 2024年廣告投放合同標(biāo)的與服務(wù)內(nèi)容的詳細(xì)規(guī)定
- 2024年度軟件開發(fā)與維護擔(dān)保合同
- 2024互聯(lián)網(wǎng)公司與網(wǎng)絡(luò)安全公司之間的安全服務(wù)合同
- 2024年員工福利方案設(shè)計與實施合同
- 2024營銷推廣服務(wù)合同范本
- 2024廠房租賃協(xié)議私人廠房出租合同
- 2024年度大數(shù)據(jù)分析平臺建設(shè)與技術(shù)支持合同
- MOOC創(chuàng)新創(chuàng)業(yè)與管理基礎(chǔ)(東南大學(xué))
- 【基于活動理論的信息技術(shù)課程教學(xué)研究8300字(論文)】
- 年產(chǎn)15萬噸PET的生產(chǎn)工藝設(shè)計-畢業(yè)論文
- 車間生產(chǎn)計劃完成情況統(tǒng)計表
- 品管圈(QCC)降低ICU護士床頭交接班缺陷率課件
- 《左道:中國宗教文化中的神與魔》讀書筆記模板
- 2023年初級游泳救生員理論知識考試題庫(濃縮400題)
- 施工現(xiàn)場臨時用電安全技術(shù)規(guī)范
- 同仁堂藥品目錄
- 社會問題概論
- 高中語文-如何讀懂古詩詞教學(xué)設(shè)計學(xué)情分析教材分析課后反思
評論
0/150
提交評論