大數(shù)據(jù)時代的思維變革_第1頁
大數(shù)據(jù)時代的思維變革_第2頁
大數(shù)據(jù)時代的思維變革_第3頁
大數(shù)據(jù)時代的思維變革_第4頁
大數(shù)據(jù)時代的思維變革_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1.大數(shù)據(jù)時代的思維變革1.大數(shù)據(jù)時代的思維變革——更好“更好”——不是因果關(guān)系,而是相關(guān)關(guān)系知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。關(guān)聯(lián)物,預測的關(guān)鍵“是什么”,而不是“為什么”改變,從操作方式開始大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒?997年,24歲的格雷格·林登(Greg

Linden)在華盛頓大學就讀博士,研究人工智能,閑暇之余,他會在網(wǎng)上賣書。他的網(wǎng)店運營才兩年就已經(jīng)生意興隆。林登被亞馬遜聘為軟件工程師,以確保網(wǎng)站的正常運行。詹姆斯·馬庫斯(James

arcus)回憶說:“推薦信息往往為你提供與你以前購買物品有微小差異的產(chǎn)品,并且循環(huán)往復?!闭材匪埂ゑR庫斯從1996年到2001年都是亞馬遜的書評家,在他的回憶錄《亞馬遜》(Amazonia)里,他說道:“那種感覺就像你和一群腦殘在一起逛書店?!睋?jù)說亞馬遜銷售額的三分之一都是來自于它的個性化推薦系統(tǒng)。林登與亞馬遜推薦系統(tǒng)1997年,林登,亞馬遜,推薦書籍1998年“item-to-item”協(xié)同過濾技術(shù)書評團隊被解散評論家所創(chuàng)造的銷售業(yè)績計算機生成內(nèi)容所產(chǎn)生的銷售業(yè)績海明威作品與菲茨杰拉德的書知道是什么就夠了,沒必要知道為什么

據(jù)說亞馬遜銷售額的三分之一都是來自于它的個性化推薦系統(tǒng)。在大數(shù)據(jù)時代之前,相關(guān)關(guān)系的應用很少。因為數(shù)據(jù)很少而且收集數(shù)據(jù)很費時費力,所以統(tǒng)計學家們喜歡找到一個關(guān)聯(lián)物,然后收集與之相關(guān)的數(shù)據(jù)進行相關(guān)關(guān)系分析來評測這個關(guān)聯(lián)物的優(yōu)劣。那么,如何尋找這個關(guān)聯(lián)物呢?除了僅僅依靠相關(guān)關(guān)系,專家們還會使用一些建立在理論基礎上的假想來指導自己選擇適當?shù)年P(guān)聯(lián)物。這些理論就是一些抽象的觀點,關(guān)于事物是怎樣運作的。然后收集與關(guān)聯(lián)物相關(guān)的數(shù)據(jù)來進行相關(guān)關(guān)系分析,以證明這個關(guān)聯(lián)物是否真的合適。如果不合適,人們通常會固執(zhí)地再次嘗試,因為擔心可能是數(shù)據(jù)收集的錯誤,而最終卻不得不承認一開始的假想甚至假想建立的基礎都是有缺陷和必須修改的。這種對假想的反復試驗促進了學科的發(fā)展。但是這種發(fā)展非常緩慢,因為個人以及團體的偏見會蒙蔽我們的雙眼,導致我們在設立假想、應用假想和選擇關(guān)聯(lián)物的過程中犯錯誤。總之,這是一個煩瑣的過程,只適用于小數(shù)據(jù)時代。關(guān)聯(lián)物,預測的關(guān)鍵

相關(guān)關(guān)系:相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)值之間的數(shù)理關(guān)系。強和弱

通過給我們找到一個現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預測未來。實例:沃爾瑪——蛋撻與颶風生活中的相關(guān)關(guān)系身高與前臂的長度小數(shù)據(jù)時代的相關(guān)關(guān)系大數(shù)據(jù)時代的相關(guān)關(guān)系–谷歌流感預測:5億個數(shù)學模型建立在相關(guān)關(guān)系分析法基礎上的預測是大數(shù)據(jù)的核心。數(shù)據(jù)驅(qū)動的關(guān)于大數(shù)據(jù)的相關(guān)關(guān)系分析法,取代了基于假想的易出錯的方法。大數(shù)據(jù)的相關(guān)關(guān)系分析法更準確、更快,而且不易受偏見的影響。實例FICO提出“遵從醫(yī)囑評分”一系列變量→是否按時吃藥益百利預測個人收入信用卡交易記錄→預測個人收入1$證明一個人的收入狀況10$中英人壽保險公司申請人的健康隱患信用報告、市場分析報告→高血壓、糖尿病和抑郁癥5$血液尿液樣本130$美國折扣零售商塔吉特懷孕預測UPS與汽車修理預測UPS國際快遞公司從2000年就開始使用預測性分析來監(jiān)測自己全美60000輛車規(guī)模的車隊,這樣就能及時地進行防御性的修理。如果車在路上拋錨損失會非常大,因為那樣就需要再派一輛車,會造成延誤和再裝載的負擔,并消耗大量的人力物力,所以以前UPS每兩三年就會對車輛的零件進行定時更換。但這種方法不太有效,因為有的零件并沒有什么毛病就被換掉了。通過監(jiān)測車輛的各個部位,UPS如今只需要更換需要更換的零件,從而節(jié)省了好幾百萬美元。有一次,監(jiān)測系統(tǒng)甚至幫助UPS發(fā)現(xiàn)了一個新車的一個零件有問題,因此免除了可能會造成的困擾。預測分析法一個能發(fā)現(xiàn)可能的流行歌曲的算法系統(tǒng)防止機器失效和建筑倒塌異常情況與正常情況

通過找出一個關(guān)聯(lián)物并監(jiān)控它,我們就能預測未來。實例:UPS與汽車維修預測–2000年,60000輛收集和分析數(shù)據(jù)的花費比出現(xiàn)停產(chǎn)的損失小得多。

當收集、存儲和分析數(shù)據(jù)的成本較高的時候,應該適當?shù)貋G棄一些數(shù)據(jù)。醫(yī)療設備獲取病人的數(shù)據(jù)安大略理工大學IBM醫(yī)院卡羅琳·麥格雷戈檢測處理即時的病人信息早產(chǎn)兒病情診斷16個數(shù)據(jù)點1260/秒在明顯感染癥狀出現(xiàn)的24小時之前,可發(fā)現(xiàn)早產(chǎn)兒的穩(wěn)定是病情感染前的準備..幸福的非線性關(guān)系多年來,經(jīng)濟學家和政治家一直錯誤地認為收入水平和幸福感是成正比的。我們從數(shù)據(jù)圖表上可以看到,雖然統(tǒng)計工具呈現(xiàn)的是一種線性關(guān)系,但事實上,它們之間存在一種更復雜的動態(tài)關(guān)系:對于收入水平在1萬美元以下的人來說,一旦收入增

加,幸福感會隨之提升;但對于收入水平在1萬美元以上的人來說,幸福感并不會隨著收入水平提高而提升。如果能發(fā)現(xiàn)這層關(guān)系,我們看到的就應該是一條曲線,而不是統(tǒng)計工具分析出來的直線。當我們說人類是通過因果關(guān)系了解世界時,我們指的是我們在理解和解釋世界各種現(xiàn)象時使用的兩種基本方法:一種是通過快速、虛幻的因果關(guān)系,還有一種就是通過緩慢、有條不紊的因果關(guān)系。大數(shù)據(jù)會改變這兩種基本方法在我們認識世界時所扮演的角色。是什么,而不是為什么

在小數(shù)據(jù)時代,相關(guān)關(guān)系分析和因果分析都不容易,都耗費巨大,都要從建立假設開始。非線性關(guān)系小數(shù)據(jù)時代,計算機能力的不足限制了非線性關(guān)系的研究實例:幸福的非線性關(guān)系因果關(guān)系是否存在不費力的快速思維費力的慢性思維實例:感冒、狂犬疫苗

我們的直接愿望就是了解因果關(guān)系。即使無因果聯(lián)系存在,我們也還是會假定其存在。

研究證明,這只是我們的認知方式,與每個人的文化背景、生長環(huán)境以及教育水平是無關(guān)的。當我們看到兩件事情接連發(fā)生的時候,我們會習慣性地從因果關(guān)系的角度來看待它們??纯聪旅娴娜湓挘酣C弗雷德的父母遲到了;供應商快到了;弗雷德生氣了?!ダ椎聻槭裁瓷鷼?

快速思維模式使人們偏向用因果聯(lián)系來看待周圍的一切,即使這種關(guān)系并不存在。–冬天不戴帽子和感冒事實證明,一般來說,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,這也只適用于七分之一的案例中。無論如何,就算沒有狂犬疫苗,這個小男孩活下來的概率還是有85%??袢呙邕@個例子來說,1885年7月6日,法國化學家路易·巴斯德(Louis

Pasteur)接診了一個9歲的小孩約瑟夫·梅斯特(Joseph

Meister),他被帶有狂犬病

毒的狗咬了。巴斯德剛剛研發(fā)出狂犬疫苗,也實驗驗證過效果了。梅斯特的父母就懇求巴斯德給他們的兒子注射一針。巴斯德做了,梅斯特活了下來。發(fā)布會上,巴斯德因為把一個小男孩從死神手中救出而大受褒獎。一般來說,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。例如,Kaggle,一家為所有人提供數(shù)據(jù)挖掘競賽平臺的公司,舉辦了關(guān)于二手車的質(zhì)量競賽。二手車經(jīng)銷商將二手車數(shù)據(jù)提供給參加比賽的統(tǒng)計學家,統(tǒng)計學家們用這些數(shù)據(jù)建立一個算法系統(tǒng)來預測經(jīng)銷商拍賣的哪些車有可能出現(xiàn)質(zhì)量問題。相關(guān)關(guān)系分析表明,橙色的車有質(zhì)量問題的可能性只有其他車的一半。當我們讀到這里的時候,不禁也會思考其中的原因。難道是因為橙色車的車主更愛車,所以車被保護得更好嗎?或是這種顏色的車子在制造方面更精良些嗎?還是因為橙色的車更顯眼、出車禍的概率更小,所以轉(zhuǎn)手的時候,各方面的性能保持得更好?馬上,我們就陷入了各種各樣謎一樣的假設中。若要找出相關(guān)關(guān)系,我們可以用數(shù)學方法,但如果是因果關(guān)系的話,這卻是行不通的。所以,我們沒必要一定要找出相關(guān)關(guān)系背后的原因,當我們知道了“是什么”的時候,“為什么”其實沒那么重要了,否則就會催生一些滑稽的想法。比方說上面提到的例子里,我們是不是應該建議車主把車漆成橙色呢?畢竟,這樣就說明車子的質(zhì)量更過硬?。∠嚓P(guān)關(guān)系很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都是很清晰的。而我們一旦把因果關(guān)系考慮進去,這些視角就有可能被蒙蔽掉。–實例:kaggle二手車質(zhì)量競賽橙色的車

因果是相關(guān)關(guān)系的一種。相關(guān)關(guān)系分析通常情況下能取代因果關(guān)系起作用,即使不可取代的情況下,它也能指導因果關(guān)系起作用。–實例:曼哈頓沙井蓋的爆炸聯(lián)合愛迪生電力公司(Con

Edison)每年都會對沙井蓋進行常規(guī)檢查和維修。過去,這完全看運氣,如果工作人員檢查到的正好是即將爆炸的就最好了,因為沙井蓋爆炸威力可不小。2007年,聯(lián)合愛迪生電力公司向哥倫比亞大學的統(tǒng)計學家求助,希望他們通過對一些歷史數(shù)據(jù)的研究,比如說通過研究以前出現(xiàn)過的問題、基礎設施之間的聯(lián)系,進而預測出可能會出現(xiàn)問題并且需要維修的沙井蓋。如此一來,它們就只要把自己的人力物力集中在維修這些沙井蓋上。這是一個復雜的大數(shù)據(jù)問題。光在紐約,地下電纜就有15萬公里,都足夠環(huán)繞地球三周半了。而曼哈頓有大約51000個沙井蓋和服務設施,其中很多設施都是在愛迪生那個時代建成的,而且有二十分之一的電纜在1930年之前就鋪好了。盡管1880以來的數(shù)據(jù)都保存著,卻很雜亂,因為從沒想過要用來進行數(shù)據(jù)分析。這些數(shù)據(jù)都是由會計人員或進行整修的工作人員記錄下來的,因為是手記,所以說這些數(shù)據(jù)雜亂一點也不為過。改變,從操作開始實例:曼哈頓沙井蓋爆炸–每年,因沙井蓋內(nèi)部失火,紐約每年有很多沙井蓋會發(fā)生爆炸。

聯(lián)合愛迪生電力公司(ConEdison)每年都會對沙井蓋進行常規(guī)檢查和維修。

2007年,聯(lián)合愛迪生電力公司向哥倫比亞大學的統(tǒng)計學家求助,希望他們通過對一些歷史數(shù)據(jù)的研究,預測出可能會出現(xiàn)問題并且需要維修的沙井蓋。聯(lián)合愛迪生電力公司(Con

Edison)每年都會對沙井蓋進行常規(guī)檢查和維修。過去,這完全看運氣,如果工作人員檢查到的正好是即將爆炸的就最好了,因為沙井蓋爆炸威力可不小。2007年,聯(lián)合愛迪生電力公司向哥倫比亞大學的統(tǒng)計學家求助,希望他們通過對一些歷史數(shù)據(jù)的研究,比如說通過研究以前出現(xiàn)過的問題、基礎設施之間的聯(lián)系,進而預測出可能會出現(xiàn)問題并且需要維修的沙井蓋。如此一來,它們就只要把自己的人力物力集中在維修這些沙井蓋上。這是一個復雜的大數(shù)據(jù)問題。光在紐約,地下電纜就有15萬公里,都足夠環(huán)繞地球三周半了。而曼哈頓有大約51000個沙井蓋和服務設施,其中很多設施都是在愛迪生那個時代建成的,而且有二十分之一的電纜在1930年之前就鋪好了。盡管1880以來的數(shù)據(jù)都保存著,卻很雜亂,因為從沒想過要用來進行數(shù)據(jù)分析。這些數(shù)據(jù)都是由會計人員或進行整修的工作人員記錄下來的,因為是手記,所以說這些數(shù)據(jù)雜亂一點也不為過。改變,從操作開始這是一個復雜的大數(shù)據(jù)問題。僅紐約,地下電纜就有15萬公里;曼哈頓有大約51000個沙井蓋和服務設施,很多設施都是在愛迪生那個時代建成的有二十分之一的電纜在1930年之前就鋪好了。1880以來的數(shù)據(jù)都保存著,卻很雜亂,聯(lián)合愛迪生電力公司(Con

Edison)每年都會對沙井蓋進行常規(guī)檢查和維修。過去,這完全看運氣,如果工作人員檢查到的正好是即將爆炸的就最好了,因為沙井蓋爆炸威力可不小。2007年,聯(lián)合愛迪生電力公司向哥倫比亞大學的統(tǒng)計學家求助,希望他們通過對一些歷史數(shù)據(jù)的研究,比如說通過研究以前出現(xiàn)過的問題、基礎設施之間的聯(lián)系,進而預測出可能會出現(xiàn)問題并且需要維修的沙井蓋。如此一來,它們就只要把自己的人力物力集中在維修這些沙井蓋上。這是一個復雜的大數(shù)據(jù)問題。光在紐約,地下電纜就有15萬公里,都足夠環(huán)繞地球三周半了。而曼哈頓有大約51000個沙井蓋和服務設施,其中很多設施都是在愛迪生那個時代建成的,而且有二十分之一的電纜在1930年之前就鋪好了。盡管1880以來的數(shù)據(jù)都保存著,卻很雜亂,因為從沒想過要用來進行數(shù)據(jù)分析。這些數(shù)據(jù)都是由會計人員或進行整修的工作人員記錄下來的,因為是手記,所以說這些數(shù)據(jù)雜亂一點也不為過。改變,從操作開始這是一個復雜的大數(shù)據(jù)問題。僅紐約,地下電纜就有15萬公里;曼哈頓有大約51000個沙井蓋和服務設施,很多設施都是在愛迪生那個時代建成的有二十分之一的電纜在1930年之前就鋪好了。1880以來的數(shù)據(jù)都保存著,卻很雜亂,負責這個項目的統(tǒng)計學家辛西亞·魯?。–ynthia

Rudin)回憶道:乍看這些數(shù)據(jù)的時候,我們從未想過能從這些未經(jīng)處理的數(shù)據(jù)中找出想要的信息。我打印了一個關(guān)于所有電纜的表格。如果把這個表格卷起來的話,除非你在地上拖,不然你絕對提不起它來。而我們需要處理的就是這么多沒有處理過的數(shù)據(jù)。只有理解了這些數(shù)據(jù),才能從中淘金,并傾己所有創(chuàng)建一個好的預測模型。

負責這個項目的統(tǒng)計學家辛西亞·魯?。–ynthiaRudin)將雜亂的數(shù)據(jù)整理好給機器處理發(fā)現(xiàn)了大型沙井蓋爆炸的106種預警情況。在布朗克斯(Bronx)的電網(wǎng)測試中,他們對2008年中期之前的數(shù)據(jù)都進行了分析,并利用這些數(shù)據(jù)預測了2009年會出現(xiàn)問題的沙井蓋。

預測效果非常好,在他們列出的前10%的高危沙井蓋名單里,有44%的沙井蓋都發(fā)生了嚴重的事故。

最重要的因素是這些電纜的使用年限和有沒有出現(xiàn)過問題。2008年,《連線》雜志主編克里斯·安德森(Chris

Anderson)就指出:“數(shù)據(jù)爆炸使得科學的研究方法都落伍了?!焙髞?,他又在《拍字節(jié)時代》(The

Petabyte

Age)的封面故事中講到,大量的數(shù)據(jù)從某種程度上意味著“理論的終結(jié)”。安德森也表示,用一系列的因果關(guān)系來驗證各種猜想的傳統(tǒng)研究范式已經(jīng)不實用了,如今它已經(jīng)被無需理論指導的純粹的相關(guān)關(guān)系研究所取代。大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒ù罅康臄?shù)據(jù)從某種程度上意味著“理論的終結(jié)”。——2008年,《連線》主編克里斯·安德森大數(shù)據(jù)是在理論的基礎上形成的。理論貫穿于大數(shù)據(jù)的整個過程。–數(shù)據(jù)的收集、分析、結(jié)果解讀接下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論