大數(shù)據(jù)與我們的生活_第1頁
大數(shù)據(jù)與我們的生活_第2頁
大數(shù)據(jù)與我們的生活_第3頁
大數(shù)據(jù)與我們的生活_第4頁
大數(shù)據(jù)與我們的生活_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)與我們的生活2021年被稱為“大數(shù)據(jù)元年,這一年幾乎所有的世界級互聯(lián)網(wǎng)企業(yè),都將業(yè)務(wù)觸角延伸至大數(shù)據(jù)產(chǎn)業(yè);無論社交平臺逐鹿、電商價格大戰(zhàn)還是門戶網(wǎng)站的競爭,都有它的影子.如今,一個大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時代正在開啟.?大數(shù)據(jù)時代?的作者維克托教授曾說,大數(shù)據(jù)的真實(shí)價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在外表之下.互聯(lián)網(wǎng)的出現(xiàn)使得我們身邊的社交網(wǎng)絡(luò),電子商務(wù)與移動通信把人類社會帶入了一個以“PB024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)的新時代.而開掘數(shù)據(jù)價值、征服數(shù)據(jù)海洋的“動力就是云計(jì)算.云計(jì)算出現(xiàn)之前,傳統(tǒng)的計(jì)算機(jī)是無法處理如此量大并且不規(guī)那么的“非結(jié)構(gòu)

2、數(shù)據(jù)的.而以云計(jì)算為根底的信息存儲、分享和挖掘手段,可以廉價、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲下來,并隨時進(jìn)行分析與計(jì)算.大數(shù)據(jù)與云計(jì)算是一個問題的兩個方面:一個是問題,一個是解決問題的方法.那么在這里普及一下云計(jì)算的概念.云計(jì)算(CloudComputing)是分布式處理(DistributedComputing)、并行處理(ParallelComputing)和網(wǎng)格計(jì)算(GridComputing)的開展,或者說是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn).云計(jì)算的根本原理是,通過使計(jì)算分布在大量的分布式計(jì)算機(jī)上,而非本地計(jì)算機(jī)或遠(yuǎn)程效勞器中,企業(yè)數(shù)據(jù)中央的運(yùn)行將更與互聯(lián)網(wǎng)相似.這使得企業(yè)能

3、夠?qū)①Y源切換到需要的應(yīng)用上,根據(jù)需求訪問計(jì)算機(jī)和存儲系統(tǒng).它意味著計(jì)算水平也可以作為一種商品進(jìn)行流通,就像煤氣、水電一樣,取用方便,費(fèi)用低廉.最大的不同在于,它是通過互聯(lián)網(wǎng)進(jìn)行傳輸?shù)?這里我們沒有必要將云計(jì)算的概念搞得十分透徹,因?yàn)樗旧砭拖裨埔粯?我們只需要知道它可以為我們提供本地主機(jī)無法提供的超強(qiáng)計(jì)算水平和各種效勞,可以用云計(jì)算的方式解決許多在原本看來無法解決的問題.我們回到正題,什么是大數(shù)據(jù)對于“大數(shù)據(jù)(Bigdata)研究機(jī)構(gòu)Gartner給出了這樣的定義.大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化水平的海量、高增長率和多樣化的信息資產(chǎn).在維克才e邁爾-舍恩伯格及

4、肯尼斯庫克耶編寫的?大數(shù)據(jù)時代?中,大數(shù)據(jù)指不用隨機(jī)分析法抽樣調(diào)查這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理.而舊M那么提出了大數(shù)據(jù)的5V特點(diǎn):Volume大量、Velocity高速、Variety多樣、Veracity精確、Value價值.大量是指數(shù)據(jù)量的規(guī)模可以從數(shù)百TB到數(shù)十百TB甚至EB.高速是指大數(shù)據(jù)需要在一定的時間限度下得到及時的處理.多樣是指大數(shù)據(jù)包括各種格式和形態(tài)的數(shù)據(jù).精確是指大數(shù)據(jù)的處理結(jié)果要保證一定的準(zhǔn)確性.價值那么是大數(shù)據(jù)的根本所在.數(shù)據(jù)的收集方式有很多方法,通過瀏覽器可以獲取用戶上網(wǎng)的瀏覽記錄,搜索引擎可以輕而易舉地獲取全球每天發(fā)出的數(shù)十億條搜索指令,購物網(wǎng)站可以得到顧客

5、的購置記錄,也可以根據(jù)人們在社交軟件上面的聊天記錄來收集有用的信息,還可以通過讓別人做網(wǎng)頁上面的答卷來收集信息,知道人們對于一種東西的看法和態(tài)度.這些收集起來的數(shù)據(jù)就會全部都儲藏在一起,然后有用的時候就會用特殊的軟件來分析處理這些數(shù)據(jù),國家有國家的數(shù)據(jù),很多的公司也有自己的數(shù)據(jù)庫,一個公司的數(shù)據(jù)庫越大就代表了這個公司的實(shí)力越強(qiáng),未來開展的可能性也就越大越好.當(dāng)然這些數(shù)據(jù)最主要的并不是絕對的大,而是有用的信息比擬多,覆蓋的范圍比擬廣,是一種相對的大.這樣分析出來的結(jié)果也就越準(zhǔn)確,這些數(shù)據(jù)可以準(zhǔn)確的反映現(xiàn)在社會上面發(fā)生的事情和現(xiàn)在人們的心理狀態(tài),可以預(yù)測到很多事情的未來的開展方向,有的公司可以根據(jù)

6、這些數(shù)據(jù)發(fā)現(xiàn)自己的缺乏和治理漏洞,及時的改變和處理,延長企業(yè)的壽命,增加企業(yè)的資產(chǎn)和競爭水平.通過數(shù)據(jù),也可以知道現(xiàn)在社會上面主流的東西是什么,只有抓住主流的社會,才能跟上時代的步伐,順應(yīng)歷史的潮流,抓住機(jī)遇,開展自己的公司和事業(yè).大數(shù)據(jù)時代的三個轉(zhuǎn)變大數(shù)據(jù)的精髓在于我們分析信息時的三個轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會的方法.第一個轉(zhuǎn)變就是,在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣.19世紀(jì)以來,當(dāng)面臨大量數(shù)據(jù)時,社會都依賴于采樣分析,但采樣分析是信息缺乏時代和信息流受限制的模擬數(shù)據(jù)時代的產(chǎn)物.為了讓分析變得簡單,我們會把

7、數(shù)據(jù)量縮減到最小,潛意識里認(rèn)為我們與大量數(shù)據(jù)的交流困難是自然現(xiàn)象,而沒有意識到這只是當(dāng)時技術(shù)條件下的一種人為限制.與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來了更高的精確性,也讓我們看到了一些以前無法發(fā)現(xiàn)的細(xì)節(jié).第二個轉(zhuǎn)變就是,研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度.當(dāng)我們測量事物的水平受限時,關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的.這種思維方式適用于掌握“小數(shù)據(jù)量的情況,由于需要分析的數(shù)據(jù)很少,所以我們必須盡可能精確地量化我們的記錄.當(dāng)我們擁有海量即時數(shù)據(jù)時,絕對的精準(zhǔn)不再是我們追求的主要目標(biāo).擁有了大數(shù)據(jù),我們不再需要對一個現(xiàn)象刨根究底,只要掌握大體的開展方向即可.并不是說

8、我們完全放棄精確度,只是適當(dāng)忽略圍觀層面上的精確度讓我們在宏觀層面擁有更好的洞察力.第三個轉(zhuǎn)變因前兩個轉(zhuǎn)變而促成,即我們不再熱衷于尋找因果關(guān)系,在大數(shù)據(jù)時代,我們無須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這會給我們提供非常新奇且具有價值的觀點(diǎn).相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會發(fā)生,但它會提醒我們這件事請正在發(fā)生.大數(shù)據(jù)告訴我們“是什么而不是“為什么.在大數(shù)據(jù)時代,我們不必知道現(xiàn)象背后的原因,我們只需要讓數(shù)據(jù)發(fā)聲.要全體不要抽樣當(dāng)我們可以獲得海量數(shù)據(jù)的時候,采樣這種用最少的數(shù)據(jù)得到最多信息的方法就沒什么=總體的數(shù)據(jù)意義了.隨著收集和處理數(shù)據(jù)的技術(shù)水平越來越強(qiáng),我們更

9、加傾向于“樣本處理方式.收集的數(shù)據(jù)越來越多,分析和預(yù)測結(jié)果就會越來越準(zhǔn)確.喬布斯在與癌癥抗?fàn)幍倪^程中采用了不同的方式,成為世界上第一個對自身所有的DNA和腫瘤DNA進(jìn)行排序的人,他得到的不是一個只有一系列標(biāo)記的基因組樣本,而是包括整個基因密碼的數(shù)據(jù)文檔.對于普通的癌癥患者,醫(yī)生只能期望他的DNA排列同實(shí)驗(yàn)中使用的樣本足夠相似,但是,喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成按所需效果用藥.如果癌癥病變導(dǎo)致藥物失效,醫(yī)生就可以及時更換另一種藥.雖然傳奇的喬布斯最終在2021年離開了這個曾被他改變的世界,但是這種獲得所有數(shù)據(jù)而不僅僅是樣本的方法還是使他的生命延長了好幾年.要效率不要絕對精確對于小數(shù)

10、據(jù)而言,最根本、最重要的要求就是減少錯誤,保證質(zhì)量.由于收集的信息量比擬少,所以我們必須保證記錄下來的數(shù)據(jù)盡量精確.同時我們需要與各種各樣的混亂作斗爭.混亂,簡單的說就是隨著數(shù)據(jù)的增加,錯誤率也會相應(yīng)的增加,還可以指格式的不一致.2000年的時候,微軟研究中央一直在尋求改良Word中拼寫檢查的方法.但是他們不能確定是努力改良現(xiàn)有的算法、研發(fā)新算法還是添加更細(xì)膩精致的特點(diǎn)更有效.所以在實(shí)施這些舉措之前,他們往現(xiàn)有的4種常見算法中添加更多的數(shù)據(jù),先是一千萬字,再到一億字,最后到十億.當(dāng)數(shù)據(jù)只有500萬的時候,有一種簡單的算法表現(xiàn)很差,但當(dāng)數(shù)據(jù)到達(dá)10億的時候,它變成了最好的,準(zhǔn)確率從原來的75%提

11、升到了95%以上.相反少量數(shù)據(jù)情況下運(yùn)行的最好的算法,參加到更多的數(shù)據(jù)時也會像其他算法一樣有所提升,但卻成了在大數(shù)據(jù)條件下運(yùn)行得最不好的,它的準(zhǔn)確率從86%提升到了94%.2006年,谷歌公司也開始涉足機(jī)器譯.谷歌譯系統(tǒng)為了練習(xí)計(jì)算機(jī),會吸收它能找到的所有譯.它會從各種各樣語言的公司網(wǎng)站上尋找對譯文檔,還會去尋找聯(lián)合國和歐盟這些國際組織發(fā)布的官方文件和報(bào)告的譯本.谷歌譯部的負(fù)責(zé)人指出,“谷歌的譯系統(tǒng)不會像舊M的Candide一樣只是仔細(xì)地譯300萬句話,它會掌握用不同語言譯的質(zhì)量參差不齊的數(shù)十億文檔.其輸入源很混亂,但較其他譯系統(tǒng)而言,谷歌的譯質(zhì)量相對而言還是最好的.和微軟一樣,谷歌譯的成功在

12、于它接受了有錯誤的數(shù)據(jù).這就是“練習(xí)集,可以正確地推算出英語詞匯搭配在一起的可能性.要相關(guān)不要因果亞馬遜公司為了提升書籍銷量,最初雇傭了一個由20多名書評家和編輯組成的團(tuán)隊(duì),他們創(chuàng)立了“亞馬遜的聲音這個版塊,為的就是開掘潛在的顧客,提升顧客購置商品的概率.后來,亞馬遜的創(chuàng)始人以及總裁林登,決定嘗試一個極富創(chuàng)造力的想法:根據(jù)顧客個人以前的購物喜好,為其推薦具體的書籍.亞馬遜從每一個顧客身上捕獲了大量的數(shù)據(jù),顧客的信息數(shù)據(jù)量非常大,亞馬遜先用傳統(tǒng)的方法對其進(jìn)行處理,通過樣本分析找到客戶之間的相似性.但是這種算法的推薦效果并不好.很快,林登意識到推薦系統(tǒng)實(shí)際上并沒有必要把顧客與其他顧客進(jìn)行比照,而只

13、需要找到產(chǎn)品之間的關(guān)聯(lián)性.這樣一來,每個人登錄了亞馬遜網(wǎng)站后看到的商品信息都會與自己曾經(jīng)的瀏覽、購置記錄相關(guān)聯(lián),是專門為我們每個人“設(shè)計(jì)的網(wǎng)頁.我們身邊的大數(shù)據(jù)搜狗輸入法最新版本的iOS版搜狗拼音輸入法可以通過已經(jīng)輸入的文字來預(yù)測下一個可能需要輸入的文字.電腦版的搜狗拼音輸入法可以糾正拼音輸入時的錯誤比方說我們輸入了zengzahng,輸入法會自動糾正為zengzhang,從而匹配出“增長各類猜你喜歡一是從你的購置或?yàn)g覽記錄分析,推薦相似的產(chǎn)品.二是從人的角度,推薦和比擬相似的其他人所購置的產(chǎn)品.Siri的語音識別iDevices的Siri語音識別功能已被證實(shí)非常受歡送,它也受到大數(shù)據(jù)的支持.

14、通過機(jī)器捕捉的語音數(shù)據(jù)被上傳到云分析平臺上,在那里與其他用戶數(shù)以百萬計(jì)的輸入命令進(jìn)行對比,幫助其更好地識別語音模式機(jī)器學(xué)習(xí),更精確地將用戶與他們正在尋找的數(shù)據(jù)匹配起來.大數(shù)據(jù)存在的問題大數(shù)據(jù)能告訴我們是什么,但不能告訴我們?yōu)槭裁幢M管大數(shù)據(jù)能夠非常好地檢測相關(guān)性,特別是那些用小數(shù)據(jù)集可能無法測出的微妙相關(guān)性,但是它并不會告訴我們哪一種相關(guān)性是有意義的.大數(shù)據(jù)只能是輔助工具,通過大數(shù)據(jù)下結(jié)論是有風(fēng)險(xiǎn)的大數(shù)據(jù)可以輔助科學(xué)調(diào)查,但不可能成功地完全代替.比方谷歌預(yù)測流感的案例曾經(jīng)是大數(shù)據(jù)的典范.2021年,谷歌通過相當(dāng)大的宣傳稱它可以通過分析與流感相關(guān)的搜索預(yù)測流感爆發(fā)的趨勢,這種準(zhǔn)確性和快速甚至超過了疾病限制和預(yù)防中央等官方機(jī)構(gòu).但是幾年后,谷歌宣稱的流感預(yù)測并沒有得到好的結(jié)果.最近一篇?科學(xué)雜志?的文章解釋道,谷歌流感預(yù)測的失敗很大程度上是由于谷歌搜索引擎自己在不斷的更新,這個時候收集的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論