![大數(shù)據(jù)與我們的生活_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/25/309b80a8-b055-4b50-a9a4-2ceeb48dd84e/309b80a8-b055-4b50-a9a4-2ceeb48dd84e1.gif)
![大數(shù)據(jù)與我們的生活_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/25/309b80a8-b055-4b50-a9a4-2ceeb48dd84e/309b80a8-b055-4b50-a9a4-2ceeb48dd84e2.gif)
![大數(shù)據(jù)與我們的生活_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/25/309b80a8-b055-4b50-a9a4-2ceeb48dd84e/309b80a8-b055-4b50-a9a4-2ceeb48dd84e3.gif)
![大數(shù)據(jù)與我們的生活_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/25/309b80a8-b055-4b50-a9a4-2ceeb48dd84e/309b80a8-b055-4b50-a9a4-2ceeb48dd84e4.gif)
![大數(shù)據(jù)與我們的生活_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/25/309b80a8-b055-4b50-a9a4-2ceeb48dd84e/309b80a8-b055-4b50-a9a4-2ceeb48dd84e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)與我們的生活2013年被稱為“大數(shù)據(jù)元年”,這一年幾乎所有的世界級互聯(lián)網(wǎng)企業(yè),都將業(yè)務(wù)觸角延伸至大數(shù)據(jù)產(chǎn)業(yè);無論社交平臺逐鹿、電商價格大戰(zhàn)還是門戶網(wǎng)站的競爭,都有它的影子。如今,一個大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時代正在開啟。大數(shù)據(jù)時代的作者維克托教授曾說,大數(shù)據(jù)的真實(shí)價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之下?;ヂ?lián)網(wǎng)的出現(xiàn)使得我們身邊的社交網(wǎng)絡(luò),電子商務(wù)與移動通信把人類社會帶入了一個以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)的新時代。而發(fā)掘數(shù)據(jù)價值、征服數(shù)據(jù)海洋的“動力”就是云計算。云計算出現(xiàn)之前,傳統(tǒng)的計算機(jī)是無法處理如此量大并且不規(guī)則的“非
2、結(jié)構(gòu)數(shù)據(jù)”的。而以云計算為基礎(chǔ)的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲下來,并隨時進(jìn)行分析與計算。大數(shù)據(jù)與云計算是一個問題的兩個方面:一個是問題,一個是解決問題的方法。那么在這里普及一下云計算的概念。云計算(Cloud Computing)是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計算(Grid Computing)的發(fā)展,或者說是這些計算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。云計算的基本原理是,通過使計算分布在大量的分布式計算機(jī)上,而非本地計算機(jī)或遠(yuǎn)程服務(wù)器中,企業(yè)數(shù)據(jù)中心的運(yùn)行將更與互聯(lián)網(wǎng)相似
3、。這使得企業(yè)能夠?qū)①Y源切換到需要的應(yīng)用上,根據(jù)需求訪問計算機(jī)和存儲系統(tǒng)。它意味著計算能力也可以作為一種商品進(jìn)行流通,就像煤氣、水電一樣,取用方便,費(fèi)用低廉。最大的不同在于,它是通過互聯(lián)網(wǎng)進(jìn)行傳輸?shù)摹?這里我們沒有必要將云計算的概念搞得十分透徹,因?yàn)樗旧砭拖裨埔粯?,我們只需要知道它可以為我們提供本地主機(jī)無法提供的超強(qiáng)計算能力和各種服務(wù),可以用云計算的方式解決許多在原本看來無法解決的問題。我們回到正題,什么是大數(shù)據(jù)?對于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
4、在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的大數(shù)據(jù)時代中,大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。而IBM則提出了大數(shù)據(jù)的5V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(精確)、Value(價值)。大量是指數(shù)據(jù)量的規(guī)??梢詮臄?shù)百TB到數(shù)十百TB甚至EB。高速是指大數(shù)據(jù)需要在一定的時間限度下得到及時的處理。多樣是指大數(shù)據(jù)包括各種格式和形態(tài)的數(shù)據(jù)。精確是指大數(shù)據(jù)的處理結(jié)果要保證一定的準(zhǔn)確性。價值則是大數(shù)據(jù)的根本所在。數(shù)據(jù)的收集方式有很多方法,通過瀏覽器可以獲取用戶上網(wǎng)的瀏覽記錄,搜索引擎可以輕而易舉地獲取全球每天發(fā)
5、出的數(shù)十億條搜索指令,購物網(wǎng)站可以得到顧客的購買記錄,也可以根據(jù)人們在社交軟件上面的聊天記錄來收集有用的信息,還可以通過讓別人做網(wǎng)頁上面的答卷來收集信息,知道人們對于一種東西的看法和態(tài)度。這些收集起來的數(shù)據(jù)就會全部都儲藏在一起,然后有用的時候就會用特殊的軟件來分析處理這些數(shù)據(jù),國家有國家的數(shù)據(jù),很多的公司也有自己的數(shù)據(jù)庫,一個公司的數(shù)據(jù)庫越大就代表了這個公司的實(shí)力越強(qiáng),未來發(fā)展的可能性也就越大越好。當(dāng)然這些數(shù)據(jù)最主要的并不是絕對的大,而是有用的信息比較多,覆蓋的范圍比較廣,是一種相對的大。這樣分析出來的結(jié)果也就越準(zhǔn)確,這些數(shù)據(jù)可以準(zhǔn)確的反映現(xiàn)在社會上面發(fā)生的事情和現(xiàn)在人們的心理狀態(tài),可以預(yù)測到
6、很多事情的未來的發(fā)展方向,有的公司可以根據(jù)這些數(shù)據(jù)發(fā)現(xiàn)自己的不足和管理漏洞,及時的改變和處理,延長企業(yè)的壽命,增加企業(yè)的資產(chǎn)和競爭能力。通過數(shù)據(jù),也可以知道現(xiàn)在社會上面主流的東西是什么,只有抓住主流的社會,才能跟上時代的步伐,順應(yīng)歷史的潮流,抓住機(jī)遇,發(fā)展自己的公司和事業(yè)。大數(shù)據(jù)時代的三個轉(zhuǎn)變大數(shù)據(jù)的精髓在于我們分析信息時的三個轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會的方法。第一個轉(zhuǎn)變就是,在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣。19世紀(jì)以來,當(dāng)面臨大量數(shù)據(jù)時,社會都依賴于采樣分析,但采樣分析是信息缺乏時代和信息流受限制的模擬數(shù)
7、據(jù)時代的產(chǎn)物。為了讓分析變得簡單,我們會把數(shù)據(jù)量縮減到最小,潛意識里認(rèn)為我們與大量數(shù)據(jù)的交流困難是自然現(xiàn)象,而沒有意識到這只是當(dāng)時技術(shù)條件下的一種人為限制。與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來了更高的精確性,也讓我們看到了一些以前無法發(fā)現(xiàn)的細(xì)節(jié)。第二個轉(zhuǎn)變就是,研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度。當(dāng)我們測量事物的能力受限時,關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以我們必須盡可能精確地量化我們的記錄。當(dāng)我們擁有海量即時數(shù)據(jù)時,絕對的精準(zhǔn)不再是我們追求的主要目標(biāo)。擁有了大數(shù)據(jù),我們不再需要對一個現(xiàn)象刨
8、根究底,只要掌握大體的發(fā)展方向即可。并不是說我們完全放棄精確度,只是適當(dāng)忽略圍觀層面上的精確度讓我們在宏觀層面擁有更好的洞察力。第三個轉(zhuǎn)變因前兩個轉(zhuǎn)變而促成,即我們不再熱衷于尋找因果關(guān)系,在大數(shù)據(jù)時代,我們無須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這會給我們提供非常新穎且具有價值的觀點(diǎn)。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會發(fā)生,但它會提醒我們這件事請正在發(fā)生。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時代,我們不必知道現(xiàn)象背后的原因,我們只需要讓數(shù)據(jù)發(fā)聲。要全體不要抽樣當(dāng)我們可以獲得海量數(shù)據(jù)的時候,采樣這種用最少的數(shù)據(jù)得到最多信息的方法就沒什么意義了。隨著收集
9、和處理數(shù)據(jù)的技術(shù)能力越來越強(qiáng),我們更加傾向于“樣本=總體”的數(shù)據(jù)處理方式。收集的數(shù)據(jù)越來越多,分析和預(yù)測結(jié)果就會越來越準(zhǔn)確。喬布斯在與癌癥抗?fàn)幍倪^程中采用了不同的方式,成為世界上第一個對自身所有的DNA和腫瘤DNA進(jìn)行排序的人,他得到的不是一個只有一系列標(biāo)記的基因組樣本,而是包括整個基因密碼的數(shù)據(jù)文檔。對于普通的癌癥患者,醫(yī)生只能期望他的DNA排列同實(shí)驗(yàn)中使用的樣本足夠相似,但是,喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成按所需效果用藥。如果癌癥病變導(dǎo)致藥物失效,醫(yī)生就可以及時更換另一種藥。雖然傳奇的喬布斯最終在2011年離開了這個曾被他改變的世界,但是這種獲得所有數(shù)據(jù)而不僅僅是樣本的方法還是
10、使他的生命延長了好幾年。要效率不要絕對精確對于小數(shù)據(jù)而言,最基本、最重要的要求就是減少錯誤,保證質(zhì)量。因?yàn)槭占男畔⒘勘容^少,所以我們必須確保記錄下來的數(shù)據(jù)盡量精確。同時我們需要與各種各樣的混亂作斗爭?;靵y,簡單的說就是隨著數(shù)據(jù)的增加,錯誤率也會相應(yīng)的增加,還可以指格式的不一致。2000年的時候,微軟研究中心一直在尋求改進(jìn)Word中拼寫檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新算法還是添加更細(xì)膩精致的特點(diǎn)更有效。所以在實(shí)施這些措施之前,他們往現(xiàn)有的4種常見算法中添加更多的數(shù)據(jù),先是一千萬字,再到一億字,最后到十億。當(dāng)數(shù)據(jù)只有500萬的時候,有一種簡單的算法表現(xiàn)很差,但當(dāng)數(shù)據(jù)達(dá)到1
11、0億的時候,它變成了最好的,準(zhǔn)確率從原來的75%提高到了95%以上。相反少量數(shù)據(jù)情況下運(yùn)行的最好的算法,加入到更多的數(shù)據(jù)時也會像其他算法一樣有所提高,但卻成了在大數(shù)據(jù)條件下運(yùn)行得最不好的,它的準(zhǔn)確率從86%提高到了94%。2006年,谷歌公司也開始涉足機(jī)器翻譯。谷歌翻譯系統(tǒng)為了訓(xùn)練計算機(jī),會吸收它能找到的所有翻譯。它會從各種各樣語言的公司網(wǎng)站上尋找對譯文檔,還會去尋找聯(lián)合國和歐盟這些國際組織發(fā)布的官方文件和報告的譯本。谷歌翻譯部的負(fù)責(zé)人指出,“谷歌的翻譯系統(tǒng)不會像IBM的Candide一樣只是仔細(xì)地翻譯300萬句話,它會掌握用不同語言翻譯的質(zhì)量參差不齊的數(shù)十億文檔。”盡管其輸入源很混亂,但較其
12、他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對而言還是最好的。和微軟一樣,谷歌翻譯的成功在于它接受了有錯誤的數(shù)據(jù)。這就是“訓(xùn)練集”,可以正確地推算出英語詞匯搭配在一起的可能性。要相關(guān)不要因果亞馬遜公司為了提高書籍銷量,最初雇傭了一個由20多名書評家和編輯組成的團(tuán)隊(duì),他們創(chuàng)立了“亞馬遜的聲音”這個版塊,為的就是發(fā)掘潛在的顧客,提高顧客購買商品的概率。后來,亞馬遜的創(chuàng)始人以及總裁林登,決定嘗試一個極富創(chuàng)造力的想法:根據(jù)顧客個人以前的購物喜好,為其推薦具體的書籍。亞馬遜從每一個顧客身上捕獲了大量的數(shù)據(jù),顧客的信息數(shù)據(jù)量非常大,亞馬遜先用傳統(tǒng)的方法對其進(jìn)行處理,通過樣本分析找到客戶之間的相似性。但是這種算法的推薦
13、效果并不好。很快,林登意識到推薦系統(tǒng)實(shí)際上并沒有必要把顧客與其他顧客進(jìn)行對比,而只需要找到產(chǎn)品之間的關(guān)聯(lián)性。這樣一來,每個人登錄了亞馬遜網(wǎng)站后看到的商品信息都會與自己曾經(jīng)的瀏覽、購買記錄相關(guān)聯(lián),是專門為我們每個人“設(shè)計”的網(wǎng)頁。我們身邊的大數(shù)據(jù)搜狗輸入法最新版本的iOS版搜狗拼音輸入法可以通過已經(jīng)輸入的文字來預(yù)測下一個可能需要輸入的文字。電腦版的搜狗拼音輸入法可以糾正拼音輸入時的錯誤比如說我們輸入了zengzahng,輸入法會自動糾正為zengzhang,從而匹配出“增長”各類猜你喜歡一是從你的購買或?yàn)g覽記錄分析,推薦相似的產(chǎn)品。二是從人的角度,推薦和比較相似的其他人所購買的產(chǎn)品。Siri的語
14、音識別iDevices的Siri語音識別功能已被證明非常受歡迎,它也受到大數(shù)據(jù)的支持。通過機(jī)器捕捉的語音數(shù)據(jù)被上傳到云分析平臺上,在那里與其他用戶數(shù)以百萬計的輸入命令進(jìn)行對比,幫助其更好地識別語音模式(機(jī)器學(xué)習(xí)),更精確地將用戶與他們正在尋找的數(shù)據(jù)匹配起來。大數(shù)據(jù)存在的問題大數(shù)據(jù)能告訴我們是什么,但不能告訴我們?yōu)槭裁幢M管大數(shù)據(jù)能夠非常好地檢測相關(guān)性,特別是那些用小數(shù)據(jù)集可能無法測出的微妙相關(guān)性,但是它并不會告訴我們哪一種相關(guān)性是有意義的。大數(shù)據(jù)只能是輔助工具,通過大數(shù)據(jù)下結(jié)論是有風(fēng)險的大數(shù)據(jù)可以輔助科學(xué)調(diào)查,但不可能成功地完全代替。比如谷歌預(yù)測流感的案例曾經(jīng)是大數(shù)據(jù)的典范。2009年,谷歌通過相當(dāng)大的宣傳稱它可以通過分析與流感相關(guān)的搜索預(yù)測流感爆發(fā)的趨勢,這種準(zhǔn)確性和快速甚至超過了疾病控制和預(yù)防中心等官方機(jī)構(gòu)。但是幾年后,谷歌宣稱的流感預(yù)測并沒有得到好的結(jié)果。最近一篇科學(xué)雜志的文章解釋道,谷歌流感預(yù)測的失敗很大程度上是因?yàn)楣雀杷阉饕孀约涸诓粩嗟母?,這個時候收
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國表面肌電測試系統(tǒng)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國一次鋰亞硫酰氯電池行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國動態(tài)圖像粒度粒形分析系統(tǒng)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2023年全球及中國無人駕駛接駁小巴行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025小飯店員工的勞動合同范本
- 出境旅游合同書
- 2025辦公室裝修合同書集錦
- 房產(chǎn)股權(quán)轉(zhuǎn)讓合同
- 存量房買賣合同合同范本
- 陸路貨物運(yùn)輸合同承運(yùn)人定義年
- 2023學(xué)年度第一學(xué)期高三英語備課組工作總結(jié)
- 臨建標(biāo)準(zhǔn)化圖集新版
- 安監(jiān)人員考核細(xì)則(2篇)
- 生活老師培訓(xùn)資料課件
- 2020年新概念英語第一冊lesson97-102單元檢測
- 腹主動脈瘤(護(hù)理業(yè)務(wù)學(xué)習(xí))
- 注射用醋酸亮丙瑞林微球
- 大學(xué)生就業(yè)指導(dǎo)PPT(第2版)全套完整教學(xué)課件
- 家具安裝工培訓(xùn)教案優(yōu)質(zhì)資料
- 湖南大一型抽水蓄能電站施工及質(zhì)量創(chuàng)優(yōu)匯報
- envi二次開發(fā)素材包-idl培訓(xùn)
評論
0/150
提交評論