分析:大數(shù)據(jù)的財富與陷阱_第1頁
分析:大數(shù)據(jù)的財富與陷阱_第2頁
分析:大數(shù)據(jù)的財富與陷阱_第3頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

分析:大數(shù)據(jù)的財富與陷阱

2013年10月28日,三名新疆籍恐怖分子駕吉普車沖撞天安門,恐怖分子當場全部燒死,可是警方僅用了10多個小時就全部抓住了5名同伙。警方如何快速鎖定嫌疑犯,這是國家秘密,但是從媒體披露的蛛絲馬跡中,我們還是能發(fā)現(xiàn)無處不在的監(jiān)控視頻和電信追蹤起到了至關重要的作用。從天安門廣場追溯過去的海量信息,通過一些模糊匹配方法能快速地過濾信息,最后找出恐怖活動與嫌疑犯的相關性——這就是大數(shù)據(jù)的威力。沒有最大,只有更大維基百科這樣定義大數(shù)據(jù)(Bigdata):大數(shù)據(jù)或巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無法在合理時間內通過人工截取、管理、處理并整理成為人類所能解讀的信息。我們舉個例子,IBM團隊為了讓電腦戰(zhàn)勝國際象棋冠軍卡斯帕羅夫,收集了將近100年來的60萬盤高手的棋譜,這個就是大數(shù)據(jù),人腦是無法記憶所有這些棋譜并加以有效利用的。1997年,國際象棋特級大師卡斯帕羅夫在《危險邊緣》(jeopardy)節(jié)目中首次輸給了IBM深藍電腦,成為轟動一時的新聞。電腦能戰(zhàn)勝人腦,秘訣就在于存儲在深藍電腦內的棋譜大數(shù)據(jù)??茖W家們研制了人工智能博弈軟件,能從大量的棋譜中找出最合適的步驟,這是人腦所無法企及的。有人把大數(shù)據(jù)的特征歸納為4V:Volume(量大)、Variety(多樣)、Velocity(高速)、Value(價值密度低)。讓我們來回顧一下剛剛過去的“雙十一”節(jié),那天淘寶商城達成了1.88億筆交易,總交易額達創(chuàng)紀錄的350.19億元。這些交易記錄就形成了那天瘋狂網(wǎng)購的大數(shù)據(jù)。這樣的記錄首先體現(xiàn)在數(shù)據(jù)量巨大上。我們知道一部高清電影的容量大約有1GB,而1024個GB就是一個TB,再1024個TB就是一個PB,而大數(shù)據(jù)往往達到PB數(shù)量級,可見數(shù)據(jù)量大得無法想象。其次,就是數(shù)據(jù)的多樣性,交易的品種、賣家的信息、買家的信息、快遞的信息、支付的信息,構成了一個行業(yè)多樣化的數(shù)據(jù)鏈。第三,就是數(shù)據(jù)產生的速度極快,檢索結果的速度也要求快,要在幾百萬件商品中查找出一類商品,其檢索速度只需要1秒,這是傳統(tǒng)技術無法達到的。最后,需要說明的是,大數(shù)據(jù)的內容雖然真實、完整地反映了客觀世界,但它的價值密度很低,如果不去研究挖掘,大數(shù)據(jù)是不會自動產生有用結果的。比如,在街景的海量監(jiān)控視頻中,犯罪分子留下的蹤影也許只有幾秒鐘。大數(shù)據(jù)時代英國的大數(shù)據(jù)權威專家維克托·邁爾-舍恩伯格(ViktorMayer-Sch?nberger)寫過一本書,書名就叫《大數(shù)據(jù)時代》,書中首次斷言人類已經(jīng)無可逆轉地跨入了大數(shù)據(jù)時代。據(jù)他估算,人類在2000年時大約只有四分之一的信息實現(xiàn)了數(shù)字化,其他的四分之三的信息仍然以報紙、書籍、膠片、磁帶等形式存在,但是到了2007年人類存儲的數(shù)據(jù)超過了300艾字節(jié),相當于3000億GB的信息量。大數(shù)據(jù)時代在生活、工作和思維上給人們帶來了巨大變革。首先,是數(shù)據(jù)的形式由原來的關系型數(shù)據(jù)(如電子表格形式)更多地表現(xiàn)為非關系型數(shù)據(jù)(如用戶評論、圖片等);數(shù)據(jù)存儲方式也由原來集中式存儲變?yōu)榉植际酱鎯?,大型?shù)據(jù)不得不存儲在不同地方的存儲服務器中,通過網(wǎng)絡進行互聯(lián)訪問,構成所謂的云存儲。其次,是對數(shù)據(jù)處理的方式發(fā)生了根本變化,人們已無法只用一臺電腦處理數(shù)據(jù),必須依賴網(wǎng)絡后面的云平臺,進行云計算,才能有效處理大數(shù)據(jù)。在對大數(shù)據(jù)處理上,我們可以看到三個有趣的變化:在小數(shù)據(jù)時代,人們限于獲取數(shù)據(jù)的困難,只能采用隨機抽樣的方式獲取數(shù)據(jù)樣本,然后根據(jù)樣本數(shù)據(jù)進行分析預測。一旦樣本出現(xiàn)偏差,那推導出的結果就會產生很大的誤差。而在大數(shù)據(jù)時代,我們能輕易地得到數(shù)據(jù)全體,而不再需要樣本。譬如,阿里巴巴能得到所有買家的數(shù)據(jù),它能輕易地統(tǒng)計“光棍節(jié)”那天的交易金額,算出哪個地區(qū)交易最活躍,可以通過媒體實時轉播交易盛況。這就是大數(shù)據(jù)的全數(shù)據(jù)模式,數(shù)據(jù)處理的范圍是全體,而不再是樣本。第二個變化,是不再一味地追求數(shù)據(jù)的精確性。由于大數(shù)據(jù)的多樣性、豐富性、動態(tài)性(在處理的同時,數(shù)據(jù)還在大量產生),強調數(shù)據(jù)的精確性是做不到的,也沒有必要。紛繁的數(shù)據(jù)會混雜在一起,看起來好像全無用處,甚至有些還是錯誤的數(shù)據(jù),但是沒有關系,這就是大數(shù)據(jù)的本性,看似無關無用的一堆數(shù)據(jù)卻蘊含著無限商機。想一想,當人們在百度上比以往更多地搜索“感冒”“發(fā)熱”等關鍵字時,往往意味著某地將要爆發(fā)流感,甚至還能預測是什么流感,這就是大數(shù)據(jù)的威力。第三個變化,是關注數(shù)據(jù)之間的相關性,而不是因果關系。比方說,通過挖掘天貓商城的交易數(shù)據(jù),發(fā)現(xiàn)購買德龍咖啡機的買家,會有很高的比例購買寵物糧食,那商家會不失時機地推薦你購買皇家狗糧??Х葯C與狗糧沒有因果關系,但卻有內在的相關性。數(shù)據(jù)之間的相關性,就是大數(shù)據(jù)所蘊含的價值,也是商家追求的商機。大數(shù)據(jù)的相關性,告訴我們在面對錯綜繁雜的大數(shù)據(jù)時,我們不需要去研究“為什么”,只要知道“是什么”就足夠了。最后,大數(shù)據(jù)時代將催生一個數(shù)據(jù)挖掘行業(yè),出現(xiàn)一批數(shù)字科學家。簡單地說,數(shù)據(jù)挖掘就是從收集的數(shù)據(jù)中用一定的算法分析計算,得到我們所需要信息和知識的過程。傳統(tǒng)的統(tǒng)計分析是將數(shù)據(jù)按已知的類別進行分類統(tǒng)計,然后尋找有價值的數(shù)據(jù)。如果給定的分類是不合理的或是錯誤的,那統(tǒng)計出來的結果就不會產生最好的效果。而數(shù)據(jù)挖掘采用的是一種叫“聚類”的方法,它事先不需要人工分類,而是由算法分析數(shù)據(jù)的屬性,將數(shù)據(jù)自動聚集成“類”,使“類”間的相似性盡量小,“類”內的相似性盡量大。比方說,保險業(yè)務涵蓋各類人群、各種職業(yè),所以設計某個險種潛在的客戶目標群,需要對大量數(shù)據(jù)進行挖掘,才能找出不同的客戶群和重要系數(shù),這不是事先人為設定的。要“讓數(shù)據(jù)自己說話”,這樣才能因地制宜地制訂營銷計劃,科學測算盈虧平衡,為保險企業(yè)創(chuàng)造更多利潤。大數(shù)據(jù)的紅利有人斷言,數(shù)據(jù)將成為人類的重要資產,成為比石油和黃金更為重要的可重復開發(fā)使用的資源。筆者也認同這個觀點。最近,媒體報道“三馬”聯(lián)手買保險新聞,這是一個攢取大數(shù)據(jù)紅利的例子?!叭R”利用阿里巴巴、騰訊和平安保險三家公司掌握大數(shù)據(jù)的優(yōu)勢,成立了網(wǎng)絡保險公司——眾安在線,這是具里程碑的互聯(lián)網(wǎng)金融創(chuàng)新,旨在利用大數(shù)據(jù)對保險消費者進行準確定位和精準營銷,瞄準的主要是80后、90后的消費者??梢?,利用大數(shù)據(jù)技術將是未來各保險公司搶奪市場非常關鍵的一環(huán)。另一個有益的應用將是利用大數(shù)據(jù)來防范電信詐騙。電信詐騙是當今社會的一大頑疾,如果電信、銀行、互聯(lián)網(wǎng)、公安等各方擯棄利益糾結,共享各自的大數(shù)據(jù),那么最大限度地杜絕電信詐騙是完全可能的。我們只要分析挖掘各方的大數(shù)據(jù),找出電信詐騙相關性的數(shù)據(jù)因數(shù),然后建立動態(tài)監(jiān)控模型,那么一旦相關數(shù)據(jù)出現(xiàn),公安就能根據(jù)數(shù)據(jù)鏈快速找到詐騙犯。炒股的高手都想賺取大數(shù)據(jù)概念股的紅利。大數(shù)據(jù)的紅利在哪里?存在于大數(shù)據(jù)的擁有者、大數(shù)據(jù)技術公司和大數(shù)據(jù)價值挖掘者(也就是提供思維的數(shù)據(jù)科學家)。馬云說過:未來的世界是數(shù)據(jù)的世界。大數(shù)據(jù)時代已經(jīng)撼動了世界的方方面面,從工業(yè)、農業(yè)、商業(yè)、科技到政府、醫(yī)療、教育、文化以及社會的其他各個領域,人們的生活日益被數(shù)據(jù)所改變??梢哉f,大數(shù)據(jù)是一種比石油、黃金還要珍貴的資源,誰掌握了足夠多的數(shù)據(jù),誰就搶占了制高點,增強了競爭力,也就掌握了未來。大數(shù)據(jù)的負面清單大數(shù)據(jù)無疑是一個資源寶庫,它蘊藏著巨大的價值,有待人們去挖掘。但是,就像硬幣有兩面一樣,大數(shù)據(jù)也有其負面清單,我把它歸結為數(shù)據(jù)壟斷、侵犯隱私和數(shù)據(jù)誤導三個主要方面。數(shù)據(jù)壟斷是大數(shù)據(jù)的最大隱患。我們知道,大數(shù)據(jù)技術使得人類的態(tài)度、情緒、行為等以往認為難以測量的方面,都可以變?yōu)閿?shù)據(jù)來進行分析和預測。一旦大數(shù)據(jù)掌握在少數(shù)企業(yè)或政府部門之間,他們?yōu)榱司S護自己的利益而拒絕信息流動,這不僅浪費了數(shù)據(jù)資源,而且會阻礙數(shù)據(jù)創(chuàng)新,形成數(shù)據(jù)壟斷。比方說,全國的房產數(shù)據(jù)如果能共享,這對國家了解房產的整體、真實情況非常有益,也能輕易挖出貪污腐敗的嫌疑分子,但是這些數(shù)據(jù)往往掌握在地方部門之間,不能形成有效共享。侵犯隱私是大數(shù)據(jù)的影子,只有將大數(shù)據(jù)置于法律的陽光下才能驅除。被斯諾登揭露的美國“棱鏡計劃”,就是利用訪問大數(shù)據(jù)的能力,監(jiān)控互聯(lián)網(wǎng)、電信等九大營運商的數(shù)據(jù)庫,從中挖掘“有用信息”,達到收集情報、秘密監(jiān)控的目的。電話、電郵、文檔、視頻、照片、聊天記錄等幾乎所有的信息都暴露在“棱鏡”之下,大數(shù)據(jù)為侵犯隱私開了方便之門。如果不對大數(shù)據(jù)的獲取、訪問、共享加以法律約束,那么個人隱私將不復存在。美國最近有一款照片分享軟件(Snapchat)應用很火,因為它能滿足年輕人保護隱私的需要。在Snapchat中如果你分享一張照片給你的朋友,它將在對方閱讀后馬上自動刪除,同時禁止在閱讀時屏幕截圖,具有“閱后即焚”的功效。因此,Snapchat也適合于發(fā)送商業(yè)機密或者敏感信息,焚毀后的照片不會在網(wǎng)上留下痕跡。這是人們反抗大數(shù)據(jù)的一個案例。但是在日常生活中,人們無法避開使用電信、互聯(lián)網(wǎng)、微博、微信、QQ等服務,透過這些服務所記錄的大數(shù)據(jù),幾乎透明無遺地顯露了一個人的社交關系網(wǎng)。數(shù)據(jù)誤導是大數(shù)據(jù)風險的一個側面,如果不對數(shù)據(jù)挖掘的結果加以評估驗證,那利用大數(shù)據(jù)可能帶來錯誤結果。雖然大數(shù)據(jù)容忍有數(shù)據(jù)差錯,但如何有人主動地弄“臟”數(shù)據(jù),整個大數(shù)據(jù)就會被人為扭曲,加進了虛假信息。比如,我們在上淘寶網(wǎng)時,總是非常關注賣家的信用等級,但是總有一些賣家弄虛作假,通過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論