淺析:大數(shù)據(jù)漫談之多樣性和混雜性_第1頁
淺析:大數(shù)據(jù)漫談之多樣性和混雜性_第2頁
淺析:大數(shù)據(jù)漫談之多樣性和混雜性_第3頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

淺析:大數(shù)據(jù)漫談之多樣性和混雜性

1.大數(shù)據(jù)是一種新的數(shù)據(jù)形態(tài)和實踐,它與當前主流的數(shù)據(jù)應(yīng)用實踐并存,而非取代。而且,它在相當長的時間內(nèi)仍然是個新鮮事物,即使年復合增長率高達32%,到2016年全球大數(shù)據(jù)技術(shù)和服務(wù)市場總額也就是240億美金左右(IDC在2012年底的預(yù)測)。不切實際、一窩蜂地上大數(shù)據(jù)項目不應(yīng)鼓勵。明明不算大數(shù)據(jù),要裝成有,偏要削足適履上馬Hadoop和NoSQL,更不足取。2.大數(shù)據(jù)也是一種戰(zhàn)略、世界觀和習慣。即使今天沒有大體量的數(shù)據(jù),還是可以盡可能自覺、客觀、全面地測量世界,為未來的大數(shù)據(jù)實踐做準備。對于一個企業(yè)或系統(tǒng)來說,挑戰(zhàn)在數(shù)據(jù)采集,而非存儲。微信在設(shè)計之初就把數(shù)據(jù)監(jiān)控精細化,并納入基礎(chǔ)框架,這是意識和實力的體現(xiàn)。有多少公司像彭博社那樣“如饑似渴”地采集數(shù)據(jù)?它能夠雇傭一個衛(wèi)星每周對位于俄克拉何馬的美國最大原油儲備庫拍照,根據(jù)油罐浮動頂?shù)年幱伴L度來判斷原油儲備量的變化。成功者有成功的必然性。3.“數(shù)據(jù)即價值”的價值觀早已存在,Value不是大數(shù)據(jù)專享的屬性,小數(shù)據(jù)照樣有大價值。大數(shù)據(jù)的功勞在于喚醒大家的意識和覺悟。同樣,從數(shù)據(jù)中發(fā)現(xiàn)價值的實踐也由來已久,橫跨數(shù)據(jù)庫、統(tǒng)計學和機器學習交叉學科的數(shù)據(jù)分析是大數(shù)據(jù)分析的基礎(chǔ),但傳統(tǒng)的數(shù)據(jù)分析實踐是無法適應(yīng)大數(shù)據(jù)的發(fā)展的,這一點我會在分析這一部分中細談??傊?,不能神化大數(shù)據(jù)是萬靈藥,也不能矮化大數(shù)據(jù)就是包裝舊概念。對一部分人來說,大數(shù)據(jù)已經(jīng)是個客觀存在和競爭優(yōu)勢;對絕大多數(shù)人來說,大數(shù)據(jù)可以是一種“從現(xiàn)在做起”的世界觀,和未雨綢繆、決戰(zhàn)未來的戰(zhàn)略。本系列確有為大數(shù)據(jù)推波助瀾之意,但不會隨波逐流兜售概念;相反,我會剝開每一個概念,追溯它的源頭和發(fā)展過程,并給出個人的見解。正文:上回說到對大數(shù)據(jù)大體量的界定,只有少數(shù)產(chǎn)業(yè)和企業(yè)能夠?qū)Υ篌w量感同身受,對更多的憧憬者來說,大數(shù)據(jù)不是進行時,而是未來時。這讓無數(shù)空有一身Hadoop技藝的架構(gòu)師和程序猿/媛扼腕太息。且慢,聽聽微軟研究院這位老哥的吐槽:根據(jù)微軟和Yahoo的統(tǒng)計,所有Hadoop任務(wù)放一起一平均,輸入數(shù)據(jù)集的大小也就是十幾個GB;即使是Facebook,90%的任務(wù)數(shù)據(jù)集小于100GB。這這這?這又讓言必稱ZB的布道者們情何以堪?說來說去還是要回到大數(shù)據(jù)的定義上來。上回說IDC為業(yè)界巨擘搖旗吶喊ZB時代,旋即又用100TB作為大數(shù)據(jù)的門檻。其實,100TB不是故事的全部。這次好好擺一擺IDC對大數(shù)據(jù)的界定。IDC高手論道,一張圖搞定:它的三步界定法是這樣講的:1.三個數(shù)據(jù)源場景:數(shù)據(jù)要么不小于100TB,要么來自于超高速的數(shù)據(jù)流,或者年增速大于60%。這三者是OR的關(guān)系,滿足其一即可。這下好,很多中小企業(yè)可以進入大數(shù)據(jù)的候選隊伍了。王侯將相,寧有種乎?數(shù)據(jù)少但速度可以快,基數(shù)小但增速可以大,只要秉持自覺、客觀、全面測量世界的大數(shù)據(jù)觀。2.無論你有哪種或哪幾種數(shù)據(jù),必須部署在可動態(tài)適應(yīng)的基礎(chǔ)設(shè)施(dynamicallyadaptableinfrastructure)上。IDC專門強調(diào),此基礎(chǔ)設(shè)施并非一定要水平擴展架構(gòu)(scale-outinfrastructure),傳統(tǒng)的scale-up架構(gòu)也行。更重要的是,這個新名詞把基于云的基礎(chǔ)設(shè)施也包括了進去。要做大數(shù)據(jù)并非一定要自己部署Hadoop或NoSQL,把基礎(chǔ)設(shè)施的事情留給云,自己專心從數(shù)據(jù)里提煉價值,不亦樂乎?有了AmazonAWS,四個人就可以做一個大數(shù)據(jù)初創(chuàng)企業(yè)Prismatic。3.第三步兩個數(shù)據(jù)部署場景:部署中必須有不少于兩個的數(shù)據(jù)格式或數(shù)據(jù)源,或者高速流數(shù)據(jù)源(如點擊流或機器產(chǎn)生的數(shù)據(jù)流)。好吧,不用執(zhí)念于Volume了,我們接著這第三步講Variety。自道哥(DougLaney)開立“三V經(jīng)”伊始,Variety在大數(shù)據(jù)五個大V(前幾天某人又提了第六個V,Viability,以后再表)排名老三,為什么Variety拿到系列第二篇講呢?在下不是百曉生,自然不敢亂排座次。雖然在下確實自賦過順口溜一句:“大(Volume)、雜(Variety)、快(Velocity)、真(Veracity)、值(Value)”(大雜膾真值),但這萬萬不是Variety排第二的理由。Variety能做老二的最大底氣來自于占大數(shù)據(jù)體量八成以上的非結(jié)構(gòu)化數(shù)據(jù)。天知道這“八成”是怎么算出來的,但既然美林從98年就開始在企業(yè)數(shù)據(jù)市場這么說,十幾年過去應(yīng)該有增無減。Variety從本義來說是指數(shù)據(jù)種類的多樣性,我把數(shù)據(jù)質(zhì)量的多樣性即混雜性(舍恩伯格《大數(shù)據(jù)時代》中對messy的翻譯正好是“混雜”)也放入這一篇講。按理說混雜性也可以放在Veracity篇,但我感覺從方法論上多樣性和混雜性有更多的相通之處。多樣性如果一定要把數(shù)據(jù)分類,最簡單的方法是分兩類,結(jié)構(gòu)化與非結(jié)構(gòu)化。再深究下去,非結(jié)構(gòu)化事實上是未必成立的概念。信息里的“結(jié)構(gòu)”是永遠存在的,只不過結(jié)構(gòu)尚未被發(fā)現(xiàn),或結(jié)構(gòu)變化無定(半結(jié)構(gòu)化或多結(jié)構(gòu)化),或者結(jié)構(gòu)存在但機器卻處理不了。就像最典型的非結(jié)構(gòu)化數(shù)據(jù)—文本,它有語言學意義上的結(jié)構(gòu)(語法和語義),又有敘事意義上的結(jié)構(gòu)(三段式、先破后立等),還具有結(jié)構(gòu)化的元數(shù)據(jù)(作者、標題、發(fā)布時間等),但文本一直是非結(jié)構(gòu)化數(shù)據(jù)的典型。有老學究一本正經(jīng)說:非結(jié)構(gòu)化?此言差矣;應(yīng)該說非模型化(unmodeled),結(jié)構(gòu)本在,只是未建模而已。早期的非結(jié)構(gòu)化數(shù)據(jù),在企業(yè)數(shù)據(jù)的語境里主要是文本,如電子郵件,文檔,健康/醫(yī)療記錄。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,又擴展到網(wǎng)頁、社交媒體、感知數(shù)據(jù),涵蓋音頻、圖片、視頻、模擬信號等等,真正詮釋了數(shù)據(jù)的多樣性。從另一個維度上看,數(shù)據(jù)的多樣性又表現(xiàn)在數(shù)據(jù)來源和用途上。拿衛(wèi)生保健數(shù)據(jù)來講,大致有藥理學科研數(shù)據(jù),臨床數(shù)據(jù),個人行為和情感數(shù)據(jù),就診/索賠記錄和開銷數(shù)據(jù)四類。麥肯錫在《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》里關(guān)于美國衛(wèi)生保健行業(yè)如何利用多樣化數(shù)據(jù)給出了精彩的建議,有興趣的可以去讀一讀。又如交通領(lǐng)域。北京市交通智能化分析平臺數(shù)據(jù)源來自路網(wǎng)攝像頭/傳感器、地面公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業(yè),還有問卷調(diào)查和GIS數(shù)據(jù)。從數(shù)據(jù)體量和速度上也達到了大數(shù)據(jù)的規(guī)模:4萬輛浮動車每天產(chǎn)生2000萬條記錄;交通卡刷卡記錄每天1900萬條;手機定位數(shù)據(jù)每天1800萬條;出租車運營數(shù)據(jù)每天100萬條;高速ETC數(shù)據(jù)每天50萬條;針對8萬戶家庭的定期調(diào)查,等等。發(fā)掘這些形態(tài)各異、快慢不一的數(shù)據(jù)流之間的相關(guān)性,是大數(shù)據(jù)做前人之未做、前人所不能的機會。更甚者,交通狀況與其它領(lǐng)域的數(shù)據(jù)都存在較強的關(guān)聯(lián)性:有研究發(fā)現(xiàn),可以從供水系統(tǒng)數(shù)據(jù)中發(fā)現(xiàn)晨洗的高峰時間,加上一個偏移量(通常是40-45分鐘)就是交通早高峰時間;同樣可以從電網(wǎng)數(shù)據(jù)中統(tǒng)計出傍晚辦公樓集中關(guān)燈的時間,加上偏移量來估計出晚上的堵車時點。國外的研究還發(fā)現(xiàn)了交通事故率與睡眠質(zhì)量的關(guān)聯(lián),不一而足。有人說咖啡館的好處是“l(fā)etideashavesex”,大數(shù)據(jù)產(chǎn)生價值的關(guān)鍵是“l(fā)etdatahavesex”。尤其是對不能坐擁大數(shù)據(jù)的企業(yè)來說,跳出自己的圈子,尋找新的相關(guān)數(shù)據(jù)源(如社交媒體,上下游企業(yè)或廣告、應(yīng)用聯(lián)盟,數(shù)據(jù)市場)是出奇制勝的策略。即使牛如Apple,它也要雜湊Google、WolframAlpha、Wikipedia、Yelp等不同的外部數(shù)據(jù)源來讓Siri足夠聰明?;祀s性我把混雜性作為數(shù)據(jù)質(zhì)量的一個考量(數(shù)據(jù)質(zhì)量的問題,在漫談第五個V即Veracity的時候,還要涉及),即數(shù)據(jù)里混有雜質(zhì)的特性。數(shù)據(jù)的混雜性是不可避免的,既可能有數(shù)據(jù)產(chǎn)生主體的問題,又可能有采集手段、存儲方式的問題。有人說這不是個新問題,我們很早以前就搞數(shù)據(jù)清洗。話是沒錯,只是在大數(shù)據(jù)時代,我們完全可以用一種更輕松的心態(tài)看待混雜性,并接受它帶來的精確性的問題。試想,如果雜質(zhì)是偶然的,它一定會被更多的正確的數(shù)據(jù)淹沒掉;如果噪音存在規(guī)律,足夠多的數(shù)據(jù)可以發(fā)現(xiàn)這個規(guī)律,從而把噪音過濾;如果誤差是內(nèi)在的必然性,更多樣化的數(shù)據(jù)采集和信息融合也必然能糾正誤差。拿幾個我在Intel做過的項目作為例子:1.定位:GPS有幾十米的誤差,但加上了地圖數(shù)據(jù)可以保證你導航無虞;GPS信號在城市環(huán)境里時斷時續(xù),基于慣性導航的系統(tǒng)可以維持導航系統(tǒng)的工作;基于運動傳感器的室內(nèi)慣性導航有累積誤差,而且辦公室環(huán)境里磁傳感器受干擾嚴重,辦法是跟基于Wifi的室內(nèi)定位和地圖匹配結(jié)合起來;通過SLAM(SimultaneousLocalizationandMapping)構(gòu)建室內(nèi)地圖同樣受慣性導航傳感器精度的限制,但如果有Wifi的幫忙,或者有大量路徑軌跡,完全可以把誤差糾正,等等。2.智慧城市里的視覺分析:基于單個攝像頭的車牌抓取和識別可能受光照條件、空氣能見度、車輛運行速度和遮擋情況的影響,但獲得的部分信息(不完整車牌和車輛特征)可以跟其它攝像頭獲取的信息進行對照和相互印證。3.PM2.5的檢測儀太貴,5000美刀,很準很穩(wěn)定。買個灰塵傳感器,幾十塊人民幣,不準不穩(wěn)定。那兩個傳感器放一起呢,平均、平滑過的數(shù)據(jù)穩(wěn)定了很多。再把這個數(shù)據(jù)跟官方的數(shù)據(jù)做關(guān)聯(lián),跟開放遙感數(shù)據(jù)(MODIS)推測的PM2.5值做關(guān)聯(lián),跟區(qū)域溫濕度、氣壓和風向做關(guān)聯(lián),也許你就有了個200塊人民幣的個人PM2.5檢測儀。類似數(shù)據(jù)融合的例子有很多,涉及連續(xù)時/空軸的同質(zhì)數(shù)據(jù)和同一時/空點的異構(gòu)數(shù)據(jù)。時空關(guān)系是最典型的一種上下文語境(context)。在數(shù)據(jù)全集前提下,通過上下文語境來組織、過濾和呈現(xiàn)具有相關(guān)性的數(shù)據(jù)集/數(shù)據(jù)流是提升管理和分析效率的一種重要方式。大數(shù)據(jù)采集和存儲盡量要全集,而管理和分析未必是多多益善(以后在分析篇中詳述),抓住context很關(guān)鍵。在數(shù)據(jù)管理上,geocodeddata或timeseries數(shù)據(jù)庫就是利用時空語境來組織和優(yōu)化多源數(shù)據(jù)的例子。對于數(shù)據(jù)擁有者而言,數(shù)據(jù)的多樣性和混雜性具有多重含義:1.原始數(shù)據(jù)層面,多樣性是不因意志轉(zhuǎn)移的事實,必須準備好多種采集和存儲手段,保留這種多樣性。首先是采集。彭博社近乎偏執(zhí)地采集數(shù)據(jù),從用戶使用彭博終端的每一次按鍵,到每一個員工的即時位置,從公司創(chuàng)始人每一次訪問家族基金的記錄,到前文所述石油庫存的照片,甚至發(fā)展到丑聞。對絕大多數(shù)企業(yè)來說,除了前面所說的外部數(shù)據(jù)源,仔細研究一下IT系統(tǒng)的日志和歸檔功能,也許無需大動干戈就有意外的收獲。對于個人來說,基督教有諺云“凡走過必留下痕跡”。大可不必像MITGeekDebRoy那樣把自家過日子的分分秒秒都錄下來,也不用像Bell定律的提出者GordonBell那樣把生活工作的點滴事無巨細記錄到MyLifeBits里,“TotalRecall”(電影《全面記憶》,Bell在2009年寫的一篇文章以此為標題)還太遙遠,但有了手機,我們真的可以更好地記錄自己、量化自我。Smalldata是Bigdata的一個有趣側(cè)面,以后也許還會述及。其次是存儲。對于非結(jié)構(gòu)化數(shù)據(jù),文件系統(tǒng)是主流的存儲選擇,但是在存取、索引以及元數(shù)據(jù)管理上不是最優(yōu)。而結(jié)構(gòu)化數(shù)據(jù)主要依靠關(guān)系型數(shù)據(jù)庫,主要問題是結(jié)構(gòu)變化時太折騰,當數(shù)據(jù)在TB級是也太慢。NoSQL數(shù)據(jù)庫應(yīng)時而生,一是能支持靈活的結(jié)構(gòu)(schema)和非結(jié)構(gòu)化數(shù)據(jù),二是針對大數(shù)據(jù)體量可擴展性更好。同時,文件系統(tǒng)也得到了發(fā)展,與對象存儲相映生輝,不僅在效率上提升(如FacebookHaystack對小圖片文件),也能更好地支持管理和分析(如支持SQL-like語言來操作)。由于NoSQL數(shù)據(jù)庫和文件/對象存儲不能很好地支持數(shù)據(jù)庫事務(wù)(ACID),不但關(guān)系型數(shù)據(jù)庫還有用武之地,NewSQL數(shù)據(jù)庫也因此脫穎而出。2.數(shù)據(jù)準備層面,怎么對多樣化的數(shù)據(jù)建模,怎么在把多樣化的原始數(shù)據(jù)轉(zhuǎn)換為元數(shù)據(jù),怎么在元數(shù)據(jù)里保留數(shù)據(jù)多樣性、又能夠保證數(shù)據(jù)處理手段的統(tǒng)一性。這是一個很大的課題。數(shù)據(jù)處理前會有大量的時間做數(shù)據(jù)準備(到達80%),涉及到抽取、清洗、轉(zhuǎn)換和集成,做得不好就只能是悲慘的“garbagein,garbageout”了。對于非結(jié)構(gòu)化數(shù)據(jù)而言,最大的問題是究竟抽取什么出來,是一些特定的低階特征、還是具有高階語義的標記或元數(shù)據(jù)?到頭來,非結(jié)構(gòu)化數(shù)據(jù)的“結(jié)構(gòu)”很容易受到主觀假設(shè)的影響。多樣化數(shù)據(jù)的存儲有幾個問題,一個是多類數(shù)據(jù)放一起還是分開存,二是元數(shù)據(jù)怎么存儲、與源數(shù)據(jù)如何關(guān)聯(lián),還有就是怎么能夠最好地支持未來的分析。BoozAllen的DataLake是把幾方面做得比較好的。對于非結(jié)構(gòu)化數(shù)據(jù)來說,ApacheUIMA(UnstructuredInformationManagementArchitecture)是不錯的選擇,IBM的Watson主機在《Jeopardy》里戰(zhàn)勝人類,軍功章里有UIMA的一份。3.數(shù)據(jù)處理層面,主要是怎么在處理中利用好數(shù)據(jù)的多樣性。這個在數(shù)據(jù)分析篇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論