大數(shù)據(jù)時代的利與弊_第1頁
大數(shù)據(jù)時代的利與弊_第2頁
大數(shù)據(jù)時代的利與弊_第3頁
大數(shù)據(jù)時代的利與弊_第4頁
大數(shù)據(jù)時代的利與弊_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、雖然早已聽說過舍恩伯格的大數(shù)據(jù)時代,但直到前不久才瀏覽本書的內(nèi)容,看完之后還是有點震撼的,主要是大數(shù)據(jù)對我們?nèi)粘I詈退季S的影響太大了。下面摘取部分原文表述或案例來梳理一下這本書,其中有我本人的部分總結(jié)和評述。有三個案例比較有意思,一是福特的名言,“如果當年去問顧客他們想要什么,他們肯定會告訴我:一匹更快的馬?!眴滩妓苟嗄陙沓掷m(xù)不斷地改善Mac筆記本依賴的可能是行業(yè)分析,但是他發(fā)行的iPod、iPhone和iPad靠的不是數(shù)據(jù),而是直覺,第六感。谷歌公司內(nèi)部的研究表明工作表現(xiàn)與大學(xué)畢業(yè)時的平均績點沒有關(guān)系,但其創(chuàng)始人依然要應(yīng)聘者提供分數(shù)。前兩個例子(福特和蘋果)說明大數(shù)據(jù)有時候是無效的,后面谷

2、歌的例子則說明管理層對數(shù)據(jù)過度的執(zhí)著。大數(shù)據(jù)對人類生活的破壞莫過于它過于強大的預(yù)測功能,如通過一個人過去的表現(xiàn)可以準確預(yù)測到他在特定環(huán)境下一定會犯罪,那么,社會保障機制就會懲罰一個從來沒有犯錯的人。如書中所述:“因為預(yù)測的結(jié)果幾乎不可辯駁,人們也就無法為自己開脫。但這種基于預(yù)測得出的懲罰不僅違背自由意志的原則,同時也否定了人們會突然改變選擇的可能性。以上弊多些,下面談利。聰明的公司會從人們與信息交互中收集數(shù)據(jù)廢氣,以用來改善現(xiàn)有的服務(wù)或推出全新的服務(wù)。“擁有知識曾意味著掌握過去,現(xiàn)在則更意味著能夠預(yù)測未來?!?這句話很精辟?!扒閳蠓治鰡T結(jié)合實地考察報告和過去IED襲擊地點、時間和人員傷亡的詳細

3、信息,據(jù)此預(yù)測一天中最安全的運送路線?!鳖愃频?,我也聽說過美國建立的爆炸物碎片博物館的事情,基于爆炸物的各種信息追蹤恐怖分子武器彈藥的生產(chǎn)基地和儲存地點?!盀榱舜龠M大數(shù)據(jù)平臺的良性競爭,政府必須運用反壟斷條例。”谷歌對量化數(shù)據(jù)的極致追求可能過頭了,因此激起了員工的反抗。(弊)通過大數(shù)據(jù)預(yù)測來判斷和懲罰人類的潛在行為是對公平公正和自由意志的一種褻瀆。(弊)過去是要成為一個優(yōu)秀的生物學(xué)家就需要認識很多生物學(xué)家,但現(xiàn)在可能是,要解決一個生物難題或許和天體物理學(xué)家或數(shù)據(jù)視圖設(shè)計師聯(lián)系即可。由于大數(shù)據(jù)的功勞,微軟機器翻譯部門的統(tǒng)計學(xué)家在茶余飯后的談資就是每次一有語言學(xué)家離開他們的團隊,翻譯質(zhì)量就會好一點

4、。當亞馬遜的貝索斯發(fā)現(xiàn)算法推薦能促進銷量增加的時候,他就不再需要書籍評論員了“有風險才有回報?!备髦堑倪x擇是讓自己受益,汽車制造商與供貨商的例子十分精彩,感興趣的可以參見原書p171.上班高峰期交通狀況的變好說明失業(yè)率增加,即經(jīng)濟狀況變差。谷歌和亞馬遜:數(shù)據(jù)、技能和思維三者兼?zhèn)涞膬?yōu)秀公司。數(shù)據(jù)的擁有者可能沒有使用數(shù)據(jù)的動機和強制要求。外行人的思維不受專業(yè)限制,可能做出有更有價值的發(fā)現(xiàn)。數(shù)據(jù)科學(xué)家是統(tǒng)計學(xué)家、軟件程序員、圖形設(shè)計師和作家的結(jié)合體。谷歌首席經(jīng)濟學(xué)家范里安認為統(tǒng)計學(xué)家是世界上最棒的職業(yè),“如果你想成功,你不應(yīng)該成為一個普通的、可被隨意替代的人,你應(yīng)該成為稀缺的、不可替代的那類人?!?/p>

5、“數(shù)據(jù)非常之多,但是真正缺乏的是從數(shù)據(jù)提取價值的能力?!盌ataMarket向人們提供其他機構(gòu)(如聯(lián)合國、世界銀行和歐盟統(tǒng)計局等)的免費數(shù)據(jù),真的嗎?無形資產(chǎn),如數(shù)據(jù)占到美國上市公司價值的75%。政府才是大數(shù)據(jù)的原始采集者,因此奧巴馬說的很好,“面對懷疑,公開優(yōu)先”,就是政府應(yīng)該承擔的責任。丹麥癌癥協(xié)會的案例:手機是否增加致癌率。他們使用的數(shù)據(jù)集原本根本不是用來研究這個問題的,基于“樣本=總體”,做出了重大發(fā)現(xiàn):使用移動電話與癌癥風險增加不存在任何關(guān)聯(lián)。這項研究彰顯了“重組數(shù)據(jù)(二次利用)”的魅力。思維的轉(zhuǎn)換案例:零售商在店內(nèi)安裝監(jiān)控攝像頭不僅能認出商店扒手,還能跟蹤在商店購物的顧客和他們停留

6、的位置。零售商利用后面的信息可以設(shè)計店面的最佳布局并判斷營銷活動的有效性。在此之前,監(jiān)控攝像頭僅用于安保,現(xiàn)在則變成的一種可以增加收入的投資。同樣是亞馬遜和谷歌的案例,AOL和Nuance與他們合作簡直虧死了,大公司真可怕!同樣是震撼的案例:“數(shù)據(jù)的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。”1)Farecast利用機票銷售數(shù)據(jù)來預(yù)測未來的機票價格;2)谷歌重復(fù)使用搜索關(guān)鍵詞來預(yù)測流感的傳播;3)麥格雷戈博士用嬰兒的生命體征預(yù)測傳染病的發(fā)生;4)莫里重新利用老船長的日志而發(fā)現(xiàn)了洋流。幾十年的試驗和錯誤才實現(xiàn)現(xiàn)有加油站的有效分配,但電動汽車的充電站的需求

7、和設(shè)置點目前還不得而知。哈哈,“魚不知道自己是濕的”,真的嗎?驗證碼的發(fā)明人路易斯27歲時獲得了50萬美元的麥克阿瑟的“天才獎”。(題外話:2012年美國的最低工資是7.25美元/小時,一天工作八小時的話,則是348元人民幣。)一點點的不精確比完全精確更有效。當?shù)匕鍞?shù)據(jù)化的時候,它能滋生無窮無盡的用途。大數(shù)據(jù)分析表明:個人償還債務(wù)的可能性和其朋友償還債務(wù)的可能性正相關(guān),物以類聚,人以群分啊!UPS最佳行車路徑:盡量少左轉(zhuǎn),因為左轉(zhuǎn)要求貨車在交叉路口穿過去,所以更容易出事故。貨車往往需要等待一會才能左轉(zhuǎn),因此更耗油,減少左轉(zhuǎn)使得行車的安全性和效率都得到了大幅提升。萊維斯:“預(yù)測給我們知識,而知識

8、賦予我們智慧和洞見?!眎Phone本身就是一個“移動間諜”,同樣包括安卓的和微軟的手機。谷歌,一個喜歡跨界的叛逆的大數(shù)據(jù)公司。亞馬遜深諳數(shù)字化內(nèi)容的意義,而谷歌觸及了數(shù)據(jù)化內(nèi)容的價值。哈佛大學(xué)的研究人員發(fā)現(xiàn)5000億個單詞中有一半以上在字典中無法找到,真的嗎?1900年以前,因果關(guān)系(causality)這個詞比相關(guān)關(guān)系(correlation)使用頻率高,但在1900年之后,情況相反。(GoogleNgramViewer)Data”這個詞在拉丁文里是“已知”的意思。鄧肯說:一旦你知道了結(jié)果,一切都很容易。感冒與穿戴之間沒有直接關(guān)系?!皵?shù)據(jù)表明,早產(chǎn)兒的穩(wěn)定不但不是疾病好轉(zhuǎn)的標志,反而是暴風雨

9、前的寧靜,就像是身體要它的器官做好抵抗困難的準備?!鳖愃朴诨毓夥嫡瞻。 耙粋€東西要出故障,不會是瞬間的,而是慢慢地出問題的?!北鶅鋈叻且蝗罩?!達爾文的表弟費朗西斯-高爾頓爵士就注意到了人的身高與前臂長度的關(guān)系,達爾文家族真是厲害,好像每個人都是科學(xué)家!相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)值之間的數(shù)理關(guān)系。印象派的畫風:近看每一筆都是混亂的,退后一步看卻是一副偉大的作品。快速獲得事物的一個大概的輪廓和發(fā)展脈絡(luò),就要比嚴格的精確性要重要的多。偉大的物理學(xué)家開爾文男爵:測量就是認知。一個在關(guān)系網(wǎng)內(nèi)有著眾多好友的人的重要性不如一個與很多關(guān)系網(wǎng)外的人有聯(lián)系的人,說明多樣性的額外價值。Structureand

10、tiestrengthsinmobilecommunicationnetworks.擁有全部或幾乎全部的數(shù)據(jù),我們就能夠從不同的角度,更細致地觀察和研究數(shù)據(jù)的方方面面。大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。異常值也是很有用的信息,如甄別信用卡詐騙。我們不能滿足于正態(tài)分布一般中庸平凡的景象,生活中真正有趣的事情經(jīng)常藏匿在細節(jié)之中,而采樣分析法無法捕捉到這些細節(jié)。“采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。當樣本數(shù)量達到某個值后,我們從個體身上得到的信息越來越少。”-p33,但這只是傳統(tǒng)的數(shù)據(jù)收集方法,且必須保證“隨機性”才是成立的!寶貝不止一

11、個,每個數(shù)據(jù)集內(nèi)部都隱藏著某些未被發(fā)覺的價值?!薄跋嚓P(guān)關(guān)系也許不能準確地告知我們某件事情為何發(fā)生,但是它會提醒我們這個事情正在發(fā)生?!贝髷?shù)據(jù)的核心就是預(yù)測?!薄拔锢韺W(xué)和生物學(xué)都告訴我們,當我們改變規(guī)模時,事物的狀態(tài)也有也會發(fā)生改變“數(shù)據(jù)的奧妙只為謙遜、愿意聆聽且掌握聆聽手段的人所知?!惫雀铻闇y試檢索詞條,總共處理了4.5億個不同的數(shù)學(xué)模型,驚嘆!“越是萬能的,就越是空洞的?!敝晾砻?!大數(shù)據(jù)時代處理數(shù)據(jù)理念上的三大轉(zhuǎn)變:要全體不要抽樣、要效率不要絕對精確、要相關(guān)不要因果?!白钪匾氖侨藗兛梢栽诤艽蟪潭壬蠌膶τ谝蚬P(guān)系的追求中解脫出來,轉(zhuǎn)而將注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上,只要發(fā)現(xiàn)兩個現(xiàn)象之間存在的顯著相關(guān)性,就可以創(chuàng)造巨大的經(jīng)濟和社會效益,而弄清二者為什么相關(guān)可以留待學(xué)者們慢慢研究。”一謝文大數(shù)據(jù)在公共衛(wèi)生、商業(yè)服務(wù)領(lǐng)域的應(yīng)用:不再追求精確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論