版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄1什么是大數(shù)據(jù)2思維變革之一:樣本=總體3思維變革之二:接受數(shù)據(jù)的混雜性4思維變革之三:數(shù)據(jù)的相關(guān)關(guān)系第4章大數(shù)據(jù)時(shí)代的思維變革信息社會(huì)所帶來(lái)的好處是顯而易見(jiàn)的:每個(gè)人口袋里都揣有一部手機(jī),每臺(tái)辦公桌上都放著一臺(tái)電腦,每間辦公室內(nèi)都連接到局域網(wǎng)甚至互聯(lián)網(wǎng)。半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面和深度地融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。信息總量的變化導(dǎo)致了信息形態(tài)的變化——量變引起了質(zhì)變。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”(BigData)這個(gè)概念。如今,這個(gè)概念幾乎應(yīng)用到了所有人類(lèi)致力于發(fā)展的領(lǐng)域中。什么是大數(shù)據(jù)4.14.1什么是大數(shù)據(jù)數(shù)據(jù)是反映客觀事物屬性的記錄,是信息的具體表現(xiàn)形式。數(shù)據(jù)經(jīng)過(guò)加工處理之后,就成為信息;而信息需要經(jīng)過(guò)數(shù)字化轉(zhuǎn)變成數(shù)據(jù)才能存儲(chǔ)和傳輸。所以,數(shù)據(jù)和信息之間是相互聯(lián)系的。數(shù)據(jù)和信息也是有區(qū)別的。從信息論的觀點(diǎn)來(lái)看,描述信源的數(shù)據(jù)是信息和數(shù)據(jù)冗余之和,即:數(shù)據(jù)=信息+數(shù)據(jù)冗余。數(shù)據(jù)是數(shù)據(jù)采集時(shí)提供的,信息是從采集的數(shù)據(jù)中獲取的有用信息,即信息可以簡(jiǎn)單地理解為數(shù)據(jù)中包含的有用的內(nèi)容。4.1什么是大數(shù)據(jù)一個(gè)消息越不可預(yù)測(cè),它所含的信息量就越大。事實(shí)上,信息的基本作用就是消除人們對(duì)事物了解的不確定性。信息量是指從N個(gè)相等的可能事件中選出一個(gè)事件所需要的信息度量和含量。從這個(gè)定義看,信息量跟概率是密切相關(guān)的。4.1.1天文學(xué)——信息爆炸的起源綜合觀察社會(huì)各個(gè)方面的變化趨勢(shì),我們能真正意識(shí)到信息爆炸或者說(shuō)大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái)。以天文學(xué)為例,2000年斯隆數(shù)字巡天項(xiàng)目(見(jiàn)圖4-1)啟動(dòng)的時(shí)候,位于新墨西哥州的望遠(yuǎn)鏡在短短幾周內(nèi)收集到的數(shù)據(jù),就比世界天文學(xué)歷史上總共收集的數(shù)據(jù)還要多。到了2010年,信息檔案已經(jīng)高達(dá)4.4×242字節(jié)。不過(guò),預(yù)計(jì)2016年在智利投入使用的大型視場(chǎng)全景巡天望遠(yuǎn)鏡能在五天之內(nèi)就獲得同樣多的信息。4.1.1天文學(xué)——信息爆炸的起源圖4-1美國(guó)斯隆數(shù)字巡天望遠(yuǎn)鏡4.1.1天文學(xué)——信息爆炸的起源天文學(xué)領(lǐng)域發(fā)生的變化在社會(huì)各個(gè)領(lǐng)域都在發(fā)生。2003年,人類(lèi)第一次破譯人體基因密碼的時(shí)候,辛苦工作了十年才完成了三十億對(duì)堿基對(duì)的排序。大約十年之后,世界范圍內(nèi)的基因儀每15分鐘就可以完成同樣的工作。在金融領(lǐng)域,美國(guó)股市每天的成交量高達(dá)70億股,而其中三分之二的交易都是由建立在數(shù)學(xué)模型和算法之上的計(jì)算機(jī)程序自動(dòng)完成的,這些程序運(yùn)用海量數(shù)據(jù)來(lái)預(yù)測(cè)利益和降低風(fēng)險(xiǎn)。4.1.1天文學(xué)——信息爆炸的起源互聯(lián)網(wǎng)公司更是要被數(shù)據(jù)淹沒(méi)了。谷歌公司每天要處理超過(guò)24拍字節(jié)(PB,250字節(jié))的數(shù)據(jù),這意味著其每天的數(shù)據(jù)處理量是美國(guó)國(guó)家圖書(shū)館所有紙質(zhì)出版物所含數(shù)據(jù)量的上千倍。Facebook(臉書(shū))這個(gè)創(chuàng)立不過(guò)十來(lái)年的公司,每天更新的照片量超過(guò)1000萬(wàn)張,每天人們?cè)诰W(wǎng)站上點(diǎn)“贊”(Like)按鈕或者寫(xiě)評(píng)論大約有三十億次,這就為Facebook公司挖掘用戶(hù)喜好提供了大量的數(shù)據(jù)線(xiàn)索。與此同時(shí),谷歌子公司YouTube每月接待多達(dá)8億的訪(fǎng)客,平均每一秒鐘就會(huì)有一段長(zhǎng)度在一小時(shí)以上的視頻上傳。推特(Twitter)上的信息量幾乎每年翻一番,每天都會(huì)發(fā)布超過(guò)4億條微博。4.1.1天文學(xué)——信息爆炸的起源從科學(xué)研究到醫(yī)療保險(xiǎn),從銀行業(yè)到互聯(lián)網(wǎng),各個(gè)不同的領(lǐng)域都在講述著一個(gè)類(lèi)似的故事,那就是爆發(fā)式增長(zhǎng)的數(shù)據(jù)量。這種增長(zhǎng)超過(guò)了我們創(chuàng)造機(jī)器的速度,甚至超過(guò)了我們的想象。人類(lèi)存儲(chǔ)信息量的增長(zhǎng)速度比世界經(jīng)濟(jì)的增長(zhǎng)速度快4倍,而計(jì)算機(jī)數(shù)據(jù)處理能力的增長(zhǎng)速度則比世界經(jīng)濟(jì)的增長(zhǎng)速度快9倍,每個(gè)人都受到了這種極速發(fā)展的沖擊。4.1.1天文學(xué)——信息爆炸的起源以納米技術(shù)為例。納米技術(shù)專(zhuān)注于把東西變小而不是變大。其原理就是當(dāng)事物到達(dá)分子級(jí)別時(shí),它的物理性質(zhì)就會(huì)發(fā)生改變。一旦你知道這些新的性質(zhì),就可以用同樣的原料來(lái)做以前無(wú)法做的事情。銅本來(lái)是用來(lái)導(dǎo)電的物質(zhì),但它一旦到達(dá)納米級(jí)別就不能在磁場(chǎng)中導(dǎo)電了。銀離子具有抗菌性,但當(dāng)它以分子形式存在的時(shí)候,這種性質(zhì)會(huì)消失。一旦到達(dá)納米級(jí)別,金屬可以變得柔軟,陶土可以具有彈性。同樣,當(dāng)我們?cè)黾铀玫臄?shù)據(jù)量時(shí),也就可以做很多在小數(shù)據(jù)量的基礎(chǔ)上無(wú)法完成的事情。4.1.1天文學(xué)——信息爆炸的起源大數(shù)據(jù)的科學(xué)價(jià)值和社會(huì)價(jià)值正是體現(xiàn)在這里。一方面,對(duì)大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的來(lái)源。另一方面,大數(shù)據(jù)已經(jīng)撼動(dòng)了世界的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟(jì)、人文以及社會(huì)的其他各個(gè)領(lǐng)域。盡管我們還處在大數(shù)據(jù)時(shí)代的初期,但我們的日常生活已經(jīng)離不開(kāi)它了。4.1.2大數(shù)據(jù)的定義所謂大數(shù)據(jù),狹義上可以定義為:用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。對(duì)大量數(shù)據(jù)進(jìn)行分析,并從中獲得有用觀點(diǎn),這種做法在一部分研究機(jī)構(gòu)和大企業(yè)中,過(guò)去就已經(jīng)存在了?,F(xiàn)在的大數(shù)據(jù)和過(guò)去相比,主要有三點(diǎn)區(qū)別:第一,隨著社交媒體和傳感器網(wǎng)絡(luò)等的發(fā)展,在我們身邊正產(chǎn)生出大量且多樣的數(shù)據(jù);第二,隨著硬件和軟件技術(shù)的發(fā)展,數(shù)據(jù)的存儲(chǔ)、處理成本大幅下降;第三,隨著云計(jì)算的興起,大數(shù)據(jù)的存儲(chǔ)、處理環(huán)境已經(jīng)沒(méi)有必要自行搭建。4.1.2大數(shù)據(jù)的定義所謂“用現(xiàn)有的一般技術(shù)難以管理”,例如是指用目前在企業(yè)數(shù)據(jù)庫(kù)占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫(kù)無(wú)法進(jìn)行管理的、具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)?;蛘咭部梢哉f(shuō),是指由于數(shù)據(jù)量的增大,導(dǎo)致對(duì)數(shù)據(jù)的查詢(xún)(Query)響應(yīng)時(shí)間超出允許范圍的龐大數(shù)據(jù)。研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。4.1.2大數(shù)據(jù)的定義麥肯錫說(shuō):“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過(guò)了傳統(tǒng)數(shù)據(jù)庫(kù)軟件獲取、存儲(chǔ)、營(yíng)理和分析的能力。這是一個(gè)被故意設(shè)計(jì)成主觀性的定義,并且是一個(gè)關(guān)于多大的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)的可變定義,即并不定義大于一個(gè)特定數(shù)字的TB才叫大數(shù)據(jù)。因?yàn)殡S著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會(huì)增長(zhǎng);并且定義隨不同的行業(yè)也有變化,這依賴(lài)于在一個(gè)特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從幾十TB到幾PB。”隨著“大數(shù)據(jù)”的出現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價(jià)值的利用正逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn),在全球引領(lǐng)了又一輪數(shù)據(jù)技術(shù)革新的浪潮。4.1.3用3V描述大數(shù)據(jù)特征從字面來(lái)看,“大數(shù)據(jù)”這個(gè)詞可能會(huì)讓人覺(jué)得只是容量非常大的數(shù)據(jù)集合而已。但容量只不過(guò)是大數(shù)據(jù)特征的一個(gè)方面,如果只拘泥于數(shù)據(jù)量,就無(wú)法深入理解當(dāng)前圍繞大數(shù)據(jù)所進(jìn)行的討論。因?yàn)椤坝矛F(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個(gè)因素所造成的。IBM說(shuō):“可以用3個(gè)特征相結(jié)合來(lái)定義大數(shù)據(jù):數(shù)量(Volume,或稱(chēng)容量)、種類(lèi)(Variety,或稱(chēng)多樣性)和速度(Velocity),或者就是簡(jiǎn)單的3V,即龐大容量、極快速度和種類(lèi)豐富的數(shù)據(jù)”(見(jiàn)圖4-2)。4.1.3用3V描述大數(shù)據(jù)特征圖4-2按數(shù)量、種類(lèi)和速度來(lái)定義大數(shù)據(jù)4.1.3用3V描述大數(shù)據(jù)特征1.Volume(數(shù)量)用現(xiàn)有技術(shù)無(wú)法管理的數(shù)據(jù)量,從現(xiàn)狀來(lái)看,基本上是指從幾十TB到幾PB這樣的數(shù)量級(jí)。當(dāng)然,隨著技術(shù)的進(jìn)步,這個(gè)數(shù)值也會(huì)不斷變化。如今,存儲(chǔ)的數(shù)據(jù)數(shù)量正在急劇增長(zhǎng)中,我們存儲(chǔ)所有事物,包括:環(huán)境數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等。有關(guān)數(shù)據(jù)量的對(duì)話(huà)已從TB級(jí)別轉(zhuǎn)向PB級(jí)別,并且不可避免地會(huì)轉(zhuǎn)向ZB級(jí)別。可是,隨著可供企業(yè)使用的數(shù)據(jù)量不斷增長(zhǎng),可處理、理解和分析的數(shù)據(jù)的比例卻不斷下降。4.1.3用3V描述大數(shù)據(jù)特征2.Variety(種類(lèi)、多樣性)隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來(lái)自網(wǎng)頁(yè)、互聯(lián)網(wǎng)日志文件(包括單擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動(dòng)和被動(dòng)系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。種類(lèi)表示所有的數(shù)據(jù)類(lèi)型。其中,爆發(fā)式增長(zhǎng)的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫(kù)是很難存儲(chǔ)的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。4.1.3用3V描述大數(shù)據(jù)特征當(dāng)然,在這些數(shù)據(jù)中,有一些是過(guò)去就一直存在并保存下來(lái)的。和過(guò)去不同的是,除了存儲(chǔ),還需要對(duì)這些大數(shù)據(jù)進(jìn)行分析,并從中獲得有用的信息。例如監(jiān)控?cái)z像機(jī)中的視頻數(shù)據(jù)。近年來(lái),超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控?cái)z像機(jī),最初目的是為了防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控?cái)z像機(jī)的視頻數(shù)據(jù)來(lái)分析顧客購(gòu)買(mǎi)行為的案例。例如,美國(guó)高級(jí)文具制造商萬(wàn)寶龍(Montblane)過(guò)去是憑經(jīng)驗(yàn)和直覺(jué)來(lái)決定商品陳列布局的,現(xiàn)在嘗試?yán)帽O(jiān)控?cái)z像頭對(duì)顧客在店內(nèi)的行為進(jìn)行分析。通過(guò)分析監(jiān)控?cái)z像機(jī)的數(shù)據(jù),將最想賣(mài)出去的商品移動(dòng)到最容易吸引顧客目光的位置,使得銷(xiāo)售額提高了20%。4.1.3用3V描述大數(shù)據(jù)特征3.Velocity(速度)數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個(gè)重要特征。就像我們收集和存儲(chǔ)的數(shù)據(jù)量和種類(lèi)發(fā)生了變化一樣,生成和需要處理數(shù)據(jù)的速度也在變化。不要將速度的概念限定為與數(shù)據(jù)存儲(chǔ)相關(guān)的增長(zhǎng)速率,應(yīng)動(dòng)態(tài)地將此定義應(yīng)用到數(shù)據(jù),即數(shù)據(jù)流動(dòng)的速度。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過(guò)程中對(duì)它的數(shù)量和種類(lèi)執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。例如,遍布全國(guó)的便利店在24小時(shí)內(nèi)產(chǎn)生的POS機(jī)數(shù)據(jù),電商網(wǎng)站中由用戶(hù)訪(fǎng)問(wèn)所產(chǎn)生的網(wǎng)站點(diǎn)擊流數(shù)據(jù),高峰時(shí)達(dá)到每秒近萬(wàn)條的微信短文,全國(guó)公路上安裝的交通堵塞探測(cè)傳感器和路面狀況傳感器(可檢測(cè)結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。4.1.3用3V描述大數(shù)據(jù)特征IBM在3V的基礎(chǔ)上又歸納總結(jié)了第四個(gè)V一一Veracity(真實(shí)和準(zhǔn)確)?!爸挥姓鎸?shí)而準(zhǔn)確的數(shù)據(jù)才能讓對(duì)數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實(shí)性及安全性?!?.1.3用3V描述大數(shù)據(jù)特征IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)說(shuō):“大數(shù)據(jù)是一個(gè)貌似不知道從哪里冒出來(lái)的大的動(dòng)力。但是實(shí)際上,大數(shù)據(jù)并不是新生事物。然而,它確實(shí)正在進(jìn)入主流,并得到重大關(guān)注,這是有原因的。廉價(jià)的存儲(chǔ)、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過(guò)云和虛擬化存儲(chǔ)設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動(dòng)著大數(shù)據(jù)。大數(shù)據(jù)不是一個(gè)‘事物’,而是一個(gè)跨多個(gè)信息技術(shù)領(lǐng)域的動(dòng)力/活動(dòng)。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設(shè)計(jì)用于:通過(guò)使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價(jià)值(Value)?!?.1.3用3V描述大數(shù)據(jù)特征這個(gè)定義除了揭示大數(shù)據(jù)傳統(tǒng)的3V基本特征,即Volume(大數(shù)據(jù)量)、Variety(多樣性)和Velocity(高速),還增添了一個(gè)新特征:Value(價(jià)值)??傊?,大數(shù)據(jù)是個(gè)動(dòng)態(tài)的定義,不同行業(yè)根據(jù)其應(yīng)用的不同有著不同的理解,其衡量標(biāo)準(zhǔn)也在隨著技術(shù)的進(jìn)步而改變。我們從廣義層面上再為大數(shù)據(jù)下一個(gè)定義(見(jiàn)圖4-3):“所謂大數(shù)據(jù),是一個(gè)綜合性概念,它包括因具備3V(Volume/Variety/Velocity)特征而難以進(jìn)行管理的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)、處理、分析的技術(shù),以及能夠通過(guò)分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織?!?.1.3用3V描述大數(shù)據(jù)特征圖4-3廣義的大數(shù)據(jù)4.1.3用3V描述大數(shù)據(jù)特征“存儲(chǔ)、處理、分析的技術(shù)”,指的是用于大規(guī)模數(shù)據(jù)分布式處理的框架Hadoop、具備良好擴(kuò)展性的NoSQL數(shù)據(jù)庫(kù),以及機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析等;“能夠通過(guò)分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織”,指的是目前十分緊俏的“數(shù)據(jù)科學(xué)家”這類(lèi)人才,以及能夠?qū)Υ髷?shù)據(jù)進(jìn)行有效運(yùn)用的組織。4.1.4大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型大數(shù)據(jù)具有多種形式,從高度結(jié)構(gòu)化的財(cái)務(wù)數(shù)據(jù),到文本文件、多媒體文件和基因定位圖的任何數(shù)據(jù),都可以稱(chēng)為大數(shù)據(jù)。由于數(shù)據(jù)自身的復(fù)雜性,作為一個(gè)必然的結(jié)果,處理大數(shù)據(jù)的首選方法就是在并行計(jì)算的環(huán)境中進(jìn)行大規(guī)模并行處理(MassivelyParallelProcessing,MPP),這使得同時(shí)發(fā)生的并行攝取、并行數(shù)據(jù)裝載和分析成為可能。實(shí)際上,大多數(shù)的大數(shù)據(jù)都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,這需要不同的技術(shù)和工具來(lái)處理和分析。大數(shù)據(jù)最突出的特征是它的結(jié)構(gòu)。圖4-4顯示了幾種不同數(shù)據(jù)結(jié)構(gòu)類(lèi)型數(shù)據(jù)的增長(zhǎng)趨勢(shì),由圖可知,未來(lái)數(shù)據(jù)增長(zhǎng)的80%~90%將來(lái)自于不是結(jié)構(gòu)化的數(shù)據(jù)類(lèi)型(半、準(zhǔn)和非結(jié)構(gòu)化)。4.1.4大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型圖4-4數(shù)據(jù)增長(zhǎng)日益趨向非結(jié)構(gòu)化4.1.4大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型雖然圖4-4顯示了4種不同的、相分離的數(shù)據(jù)類(lèi)型,實(shí)際上,有時(shí)這些數(shù)據(jù)類(lèi)型是可以被混合在一起的。例如,有一個(gè)傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)保存著一個(gè)軟件支持呼叫中心的通話(huà)日志,這里有典型的結(jié)構(gòu)化數(shù)據(jù),比如日期/時(shí)間戳、機(jī)器類(lèi)型、問(wèn)題類(lèi)型、操作系統(tǒng),這些都是在線(xiàn)支持人員通過(guò)圖形用戶(hù)界面上的下拉式菜單輸入的。另外,還有非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),比如自由形式的通話(huà)日志信息,這些可能來(lái)自包含問(wèn)題的電子郵件,或者技術(shù)問(wèn)題和解決方案的實(shí)際通話(huà)描述。另外一種可能是與結(jié)構(gòu)化數(shù)據(jù)有關(guān)的實(shí)際通話(huà)的語(yǔ)音日志或者音頻文字實(shí)錄。即使是現(xiàn)在,大多數(shù)分析人員還無(wú)法分析這種通話(huà)日志歷史數(shù)據(jù)庫(kù)中的最普通和高度結(jié)構(gòu)化的數(shù)據(jù),因?yàn)橥诰蛭谋拘畔⑹且豁?xiàng)強(qiáng)度很大的工作,并且無(wú)法簡(jiǎn)單地實(shí)現(xiàn)自動(dòng)化。4.1.4大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型人們通常最熟悉結(jié)構(gòu)化數(shù)據(jù)的分析,然而,半結(jié)構(gòu)化數(shù)據(jù)(XML)、“準(zhǔn)”結(jié)構(gòu)化數(shù)據(jù)(網(wǎng)站地址字符串)和非結(jié)構(gòu)化數(shù)據(jù)代表了不同的挑戰(zhàn),需要不同的技術(shù)來(lái)分析。如今,人們不再認(rèn)為數(shù)據(jù)是靜止和陳舊的。但在以前,一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就會(huì)被認(rèn)為已經(jīng)沒(méi)有用處了。比方說(shuō),在飛機(jī)降落之后,票價(jià)數(shù)據(jù)就沒(méi)有用了。又如某城市的公交車(chē)因?yàn)閮r(jià)格不依賴(lài)于起點(diǎn)和終點(diǎn),所以能夠反映重要通勤信息的數(shù)據(jù)就可能被丟棄了——設(shè)計(jì)人員如果沒(méi)有大數(shù)據(jù)的理念,就會(huì)丟失掉很多有價(jià)值的數(shù)據(jù)。4.1.4大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型今天,大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉,大數(shù)據(jù)還是改變市場(chǎng)、組織機(jī)構(gòu),以及政府與公民關(guān)系的方法。大數(shù)據(jù)時(shí)代對(duì)我們的生活,以及與世界交流的方式都提出了挑戰(zhàn)。實(shí)際上,大數(shù)據(jù)的精髓在于我們分析信息時(shí)的三個(gè)轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會(huì)的方法,這三個(gè)轉(zhuǎn)變是相互聯(lián)系和相互作用的。思維變革之一:樣本=總體4.24.2思維變革之一:樣本=總體大數(shù)據(jù)時(shí)代的第一個(gè)轉(zhuǎn)變,是要分析與某事物相關(guān)的更多的數(shù)據(jù),有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再是只依賴(lài)于分析隨機(jī)采樣的少量的數(shù)據(jù)樣本。19世紀(jì)以來(lái),當(dāng)面臨大量數(shù)據(jù)時(shí),社會(huì)都依賴(lài)于采樣分析。但是采樣分析是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)代的產(chǎn)物。以前我們通常把這看成是理所當(dāng)然的限制,但高性能數(shù)字技術(shù)的流行讓我們意識(shí)到,這其實(shí)是一種人為的限制。與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來(lái)了更高的精確性,也讓我們看到了一些以前樣本無(wú)法揭示的細(xì)節(jié)信息。4.2思維變革之一:樣本=總體在某些方面,人們依然沒(méi)有完全意識(shí)到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力,還是在信息匱乏的假設(shè)下做很多事情,假定自己只能收集到少量信息。這是一個(gè)自找實(shí)現(xiàn)的過(guò)程。人們甚至發(fā)展了一些使用盡可能少的信息的技術(shù)。例如,統(tǒng)計(jì)學(xué)的一個(gè)目的就是用盡可能少的數(shù)據(jù)來(lái)證實(shí)盡可能重大的發(fā)現(xiàn)。事實(shí)上,我們形成了一種習(xí)慣,那就是在制度、處理過(guò)程和激勵(lì)機(jī)制中盡可能地減少數(shù)據(jù)的使用。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣數(shù)千年來(lái),政府一直都試圖通過(guò)收集信息來(lái)管理國(guó)民,只是到最近,小企業(yè)和個(gè)人才有可能擁有大規(guī)模收集和分類(lèi)數(shù)據(jù)的能力,而此前,大規(guī)模的計(jì)數(shù)都是政府的事情。以人口普查為例。據(jù)說(shuō)古代埃及曾進(jìn)行過(guò)人口普查,《舊約》和《新約》中對(duì)此都有所提及。那次由奧古斯都愷撒(見(jiàn)圖4-5)主導(dǎo)實(shí)施的人口普查,提出了“每個(gè)人都必須納稅”。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣圖4-5奧古斯都愷撒4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣1086年的《末日審判書(shū)》對(duì)當(dāng)時(shí)英國(guó)的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記載。皇家委員穿越整個(gè)國(guó)家對(duì)每個(gè)人、每件事都做了記載,后來(lái)這本書(shū)用《圣經(jīng)》中的《末日審判書(shū)》命名,因?yàn)槊總€(gè)人的生活都被赤裸裸地記載下來(lái)的過(guò)程就像接受“最后的審判”一樣。然而,人口普查是一項(xiàng)耗資且費(fèi)時(shí)的事情,盡管如此,當(dāng)時(shí)收集的信息也只是一個(gè)大概情況,實(shí)施人口普查的人也知道他們不可能準(zhǔn)確記錄下每個(gè)人的信息。實(shí)際上,“人口普查”這個(gè)詞來(lái)源于拉丁語(yǔ)的“censere”,本意就是推測(cè)、估算。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣三百多年前,一個(gè)名叫約翰·格朗特的英國(guó)縫紉用品商提出了一個(gè)很有新意的方法,來(lái)推算出鼠疫時(shí)期倫敦的人口數(shù),這種方法就是后來(lái)的統(tǒng)計(jì)學(xué)。這個(gè)方法不需要一個(gè)人一個(gè)人地計(jì)算。雖然這個(gè)方法比較粗糙,但采用這個(gè)方法,人們可以利用少量有用的樣本信息來(lái)獲取人口的整體情況。雖然后來(lái)證實(shí)他能夠得出正確的數(shù)據(jù)僅僅是因?yàn)檫\(yùn)氣好,但在當(dāng)時(shí)他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此,無(wú)論是進(jìn)行人口普查還是其他大數(shù)據(jù)類(lèi)的任務(wù),人們還是一直使用清點(diǎn)這種“野蠻”的方法。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣考慮到人口普查的復(fù)雜性以及耗時(shí)耗費(fèi)的特點(diǎn),政府極少進(jìn)行普查。古羅馬在擁有數(shù)十萬(wàn)人口的時(shí)候每5年普查一次。美國(guó)憲法規(guī)定每10年進(jìn)行一次人口普查,而隨著國(guó)家人口越來(lái)越多,只能以百萬(wàn)計(jì)數(shù)。但是到19世紀(jì)為止,即使這樣不頻繁的人口普查依然很困難,因?yàn)閿?shù)據(jù)變化的速度超過(guò)了人口普查局統(tǒng)計(jì)分析的能力。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣新中國(guó)建立后,先后于1953、1964和1982年舉行過(guò)3次人口普查。前3次人口普查是不定期進(jìn)行的,自1990年第4次全國(guó)人口普查開(kāi)始改為定期進(jìn)行。根據(jù)《中華人民共和國(guó)統(tǒng)計(jì)法實(shí)施細(xì)則》和國(guó)務(wù)院的決定以及國(guó)務(wù)院2010年頒布的《全國(guó)人口普查條例》規(guī)定,人口普查每10年進(jìn)行一次,尾數(shù)逢0的年份為普查年度。兩次普查之間,進(jìn)行一次簡(jiǎn)易人口普查。2020年為第七次全國(guó)人口普查時(shí)間。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣新中國(guó)第一次人口普查的標(biāo)準(zhǔn)時(shí)間是1953年6月30日24時(shí),所謂人口普查的標(biāo)準(zhǔn)時(shí)間,就是規(guī)定一個(gè)時(shí)間點(diǎn),無(wú)論普查員入戶(hù)登記在哪一天進(jìn)行,登記的人口及其各種特征都是反映那個(gè)時(shí)間點(diǎn)上的情況。根據(jù)上述規(guī)定,不管普查員在哪天進(jìn)行入戶(hù)登記,普查對(duì)象所申報(bào)的都應(yīng)該是標(biāo)準(zhǔn)時(shí)間的情況。通過(guò)這個(gè)標(biāo)準(zhǔn)時(shí)間,所有普查員普查登記完成后,經(jīng)過(guò)匯總就可以得到全國(guó)人口的總數(shù)和各種人口狀況的數(shù)據(jù)。1953年11月1日發(fā)布了人口普查的主要數(shù)據(jù),當(dāng)時(shí)全國(guó)人口總數(shù)為601938035人。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣第六次人口普查的標(biāo)準(zhǔn)時(shí)間是2010年11月1日零時(shí)。2011年4月,發(fā)布了第六次全國(guó)人口普查主要數(shù)據(jù)。此次人口普查登記的全國(guó)總?cè)丝跒?339724852人。與2000年第五次人口普查相比,10年增加7390萬(wàn)人,增長(zhǎng)5.84%,年平均增長(zhǎng)0.57%,比1990年到2000年年均1.07%的增長(zhǎng)率下降了0.5個(gè)百分點(diǎn)。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣美國(guó)在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過(guò)時(shí)的。1890年進(jìn)行的人口普查,預(yù)計(jì)要花費(fèi)13年的時(shí)間來(lái)匯總數(shù)據(jù)。然而,因?yàn)槎愂辗謹(jǐn)偤蛧?guó)會(huì)代表人數(shù)確定都是建立在人口的基礎(chǔ)上的,必須獲得正確且及時(shí)的數(shù)據(jù)。很明顯,人們已有的數(shù)據(jù)處理工具已經(jīng)難以應(yīng)付了。后來(lái),美國(guó)人口普查局就委托發(fā)明家赫爾曼·霍爾瑞斯(被稱(chēng)為現(xiàn)代自動(dòng)計(jì)算之父)用他的穿孔卡片制表機(jī)(見(jiàn)圖4-6)來(lái)完成1890年的人口普查。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣圖4-6霍爾瑞斯普查機(jī)4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣經(jīng)過(guò)大量的努力,霍爾瑞斯成功地在1年時(shí)間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這在當(dāng)時(shí)簡(jiǎn)直就是一個(gè)奇跡,它標(biāo)志著自動(dòng)處理數(shù)據(jù)的開(kāi)端,也為后來(lái)IBM公司的成立奠定了基礎(chǔ)。但是,將其作為收集處理大數(shù)據(jù)的方法依然過(guò)于昂貴。畢竟,每個(gè)美國(guó)人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計(jì)。對(duì)于一個(gè)跨越式發(fā)展的國(guó)家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣這就是問(wèn)題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是,當(dāng)數(shù)量無(wú)比龐大時(shí),這又不太現(xiàn)實(shí)。那如何選擇樣本呢?事實(shí)證明,問(wèn)題的關(guān)鍵是選擇樣本時(shí)的隨機(jī)性。統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽(tīng)起來(lái)很不可思議,但事實(shí)上,研究表明,當(dāng)樣本數(shù)量達(dá)到了某個(gè)值之后,我們從新個(gè)體身上得到的信息會(huì)越來(lái)越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣在商業(yè)領(lǐng)域,隨機(jī)采樣被用來(lái)監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對(duì)生產(chǎn)出來(lái)的每個(gè)產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來(lái)說(shuō),隨機(jī)采樣讓大數(shù)據(jù)問(wèn)題變得更加切實(shí)可行。同理,它將客戶(hù)調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問(wèn)題變成了社會(huì)科學(xué)問(wèn)題。4.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴(lài)于采樣的絕對(duì)隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過(guò)程中存在任何偏見(jiàn),分析結(jié)果就會(huì)相去甚遠(yuǎn)。此外,隨機(jī)采樣不適合考察子類(lèi)別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯(cuò)誤率會(huì)大大增加。因此,在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域失去了作用。4.2.2大數(shù)據(jù)與喬布斯的癌癥治療由于技術(shù)成本大幅下跌以及在醫(yī)學(xué)方面的廣闊前景,個(gè)人基因排序(DNA分析)成為了一門(mén)新興產(chǎn)業(yè)(見(jiàn)圖4-7)。從2007年起,硅谷的新興科技公司23andme就開(kāi)始分析人類(lèi)基因,價(jià)格僅為幾百美元。這可以揭示出人類(lèi)遺傳密碼中一些會(huì)導(dǎo)致其對(duì)某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andme希望能通過(guò)整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。公司對(duì)某人的一小部分DNA進(jìn)行排序,標(biāo)注出幾十個(gè)特定的基因缺陷。這只是該人整個(gè)基因密碼的樣本,還有幾十億個(gè)基因堿基對(duì)未排序。最后,23andme只能回答其標(biāo)注過(guò)的基因組表現(xiàn)出來(lái)的問(wèn)題。發(fā)現(xiàn)新標(biāo)注時(shí),該人的DNA必須重新排序,更準(zhǔn)確地說(shuō),是相關(guān)的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發(fā)現(xiàn)問(wèn)題,但不能回答事先未考慮到的問(wèn)題。4.2.2大數(shù)據(jù)與喬布斯的癌癥治療圖4-7世界民族基因總圖(美國(guó))4.2.2大數(shù)據(jù)與喬布斯的癌癥治療蘋(píng)果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭(zhēng)的過(guò)程中采用了不同的方式,成為世界上第一個(gè)對(duì)自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬(wàn)美元的費(fèi)用,這是23andme報(bào)價(jià)的幾百倍之多。所以,他得到了包括整個(gè)基因密碼的數(shù)據(jù)文檔。對(duì)于一個(gè)普通的癌癥患者,醫(yī)生只能期望她的DNA排列同試驗(yàn)中使用的樣本足夠相似。但是,史蒂夫·喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導(dǎo)致藥物失效,醫(yī)生可以及時(shí)更換另一種藥。喬布斯曾經(jīng)開(kāi)玩笑地說(shuō):“我要么是第一個(gè)通過(guò)這種方式戰(zhàn)勝癌癥的人,要么就是最后一個(gè)因?yàn)檫@種方式死于癌癥的人。”雖然他的愿望都沒(méi)有實(shí)現(xiàn),但是這種獲得所有數(shù)據(jù)而不僅是樣本的方法還是將他的生命延長(zhǎng)了好幾年。4.2.3全數(shù)據(jù)模式:樣本=總體采樣的目的是用最少的數(shù)據(jù)得到最多的信息,而當(dāng)我們可以獲得海量數(shù)據(jù)的時(shí)候,它就沒(méi)有什么意義了。如今,感應(yīng)器、手機(jī)導(dǎo)航、網(wǎng)站點(diǎn)擊和微信等被動(dòng)地收集了大量數(shù)據(jù),而計(jì)算機(jī)可以輕易地對(duì)這些數(shù)據(jù)進(jìn)行處理——數(shù)據(jù)處理技術(shù)己經(jīng)發(fā)生了翻天覆地的改變。在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生了。如果可能的話(huà),我們會(huì)收集所有的數(shù)據(jù),即“樣本=總體”,這是指我們能對(duì)數(shù)據(jù)進(jìn)行深度探討。4.2.3全數(shù)據(jù)模式:樣本=總體分析整個(gè)數(shù)據(jù)庫(kù),而不是對(duì)一個(gè)小樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性。所以,我們現(xiàn)在經(jīng)常會(huì)放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù)。我們需要足夠的數(shù)據(jù)處理和存儲(chǔ)能力,也需要最先進(jìn)的分析技術(shù)。同時(shí),簡(jiǎn)單廉價(jià)的數(shù)據(jù)收集方法也很重要。過(guò)去,這些問(wèn)題中的任何一個(gè)都很棘手。在一個(gè)資源有限的時(shí)代,要解決這些問(wèn)題需要付出很高的代價(jià)。但是現(xiàn)在,解決這些難題已經(jīng)變得簡(jiǎn)單容易得多。曾經(jīng)只有大公司才能做到的事情,現(xiàn)在絕大部分的公司都可以做到了。4.2.3全數(shù)據(jù)模式:樣本=總體通過(guò)使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會(huì)在大量數(shù)據(jù)中淹沒(méi)掉的情況。例如,信用卡詐騙是通過(guò)觀察異常情況來(lái)識(shí)別的,只有掌握了所有的數(shù)據(jù)才能做到這一點(diǎn)。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進(jìn)行對(duì)比。這是一個(gè)大數(shù)據(jù)問(wèn)題。而且,因?yàn)榻灰资羌磿r(shí)的,所以你的數(shù)據(jù)分析也應(yīng)該是即時(shí)的。因?yàn)榇髷?shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。當(dāng)然,有些時(shí)候,我們還是可以使用樣本分析法,畢竟我們?nèi)匀换钤谝粋€(gè)資源有限的時(shí)代。但是更多時(shí)候,利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。思維變革之二:接受數(shù)據(jù)的混雜性4.34.3思維變革之二:接受數(shù)據(jù)的混雜性大數(shù)據(jù)時(shí)代的第二個(gè)轉(zhuǎn)變,是我們樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜,而不再一味追求其精確性。在越來(lái)越多的情況下,使用所有可獲取的數(shù)據(jù)變得更為可能,但為此也要付出一定的代價(jià)。數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確,與此同時(shí),一些錯(cuò)誤的數(shù)據(jù)也會(huì)混進(jìn)數(shù)據(jù)庫(kù)。然而,重點(diǎn)是我們能夠努力避免這些問(wèn)題,適當(dāng)忽略微觀層面上的精確度會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力。當(dāng)我們擁有海量即時(shí)數(shù)據(jù)時(shí),絕對(duì)的精準(zhǔn)不再是我們追求的主要目標(biāo)。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布在全球多個(gè)服務(wù)器上。擁有了大數(shù)據(jù),我們不再需要對(duì)一個(gè)現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可。當(dāng)然,我們也不是完全放棄了精確度,只是不再沉迷于此。4.3.1允許不精確對(duì)“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量。因?yàn)槭占男畔⒘勘容^少,所以我們必須確保記錄下來(lái)的數(shù)據(jù)盡量精確。無(wú)論是確定天體的位置還是觀測(cè)顯微鏡下物體的大小,為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測(cè)量的工具,發(fā)展了可以準(zhǔn)確收集、記錄和管理數(shù)據(jù)的方法。在采樣的時(shí)候,對(duì)精確度的要求就更高更苛刻了。因?yàn)槭占畔⒌挠邢抟馕吨?xì)微的錯(cuò)誤會(huì)被放大,甚至有可能影響整個(gè)結(jié)果的準(zhǔn)確性。然而,在不斷涌現(xiàn)的新情況里,允許不精確的出現(xiàn)已經(jīng)成為一個(gè)亮點(diǎn)。因?yàn)榉潘闪巳蒎e(cuò)的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)也多了起來(lái),還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡(jiǎn)單了,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。4.3.1允許不精確同時(shí),我們需要與各種各樣的混亂做斗爭(zhēng)?;靵y,簡(jiǎn)單地說(shuō)就是隨著數(shù)據(jù)的增加,錯(cuò)誤率也會(huì)相應(yīng)增加。所以,如果橋梁的壓力數(shù)據(jù)量增加1000倍的話(huà),其中的部分讀數(shù)就可能是錯(cuò)誤的,而且隨著讀數(shù)量的增加,錯(cuò)誤率可能也會(huì)繼續(xù)增加。在整合來(lái)源不同的各類(lèi)信息的時(shí)候,因?yàn)樗鼈兺ǔ2煌耆恢?,所以也?huì)加大混亂程度?;靵y還可以指格式的不一致性,因?yàn)橐_(dá)到格式一致,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到。4.3.1允許不精確當(dāng)然,在萃取或處理數(shù)據(jù)的時(shí)候,混亂也會(huì)發(fā)生。因?yàn)樵谶M(jìn)行數(shù)據(jù)轉(zhuǎn)化的時(shí)候,我們是在把它變成另外的事物。比如,葡萄是溫帶植物,溫度是葡萄生長(zhǎng)發(fā)育的重要因素,假設(shè)你要測(cè)量一個(gè)葡萄園的溫度,但是整個(gè)葡萄園只有一個(gè)溫度測(cè)量?jī)x,那你就必須確保這個(gè)測(cè)量?jī)x是精確的而且能夠一直工作。反過(guò)來(lái),如果每100棵葡萄樹(shù)就有一個(gè)測(cè)量?jī)x,有些測(cè)試的數(shù)據(jù)可能會(huì)是錯(cuò)誤的,可能會(huì)更加混亂,但眾多的讀數(shù)合起來(lái)就可以提供一個(gè)更加準(zhǔn)確的結(jié)果。因?yàn)檫@里面包含了更多的數(shù)據(jù),而它不僅能抵消掉錯(cuò)誤數(shù)據(jù)造成的影響,還能提供更多的額外價(jià)值。4.3.1允許不精確大數(shù)據(jù)在多大程度上優(yōu)于算法,這個(gè)問(wèn)題在自然語(yǔ)言處理上表現(xiàn)得很明顯。2000年,微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)Word程序中語(yǔ)法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同的變化。很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立在百萬(wàn)字左右的語(yǔ)料庫(kù)基礎(chǔ)上。最后,他們決定往4種常見(jiàn)的算法中逐新添加數(shù)據(jù),先是一千萬(wàn)字,再到一億字,最后到十億。4.3.1允許不精確結(jié)果有點(diǎn)令人吃驚。他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。當(dāng)數(shù)據(jù)只有500萬(wàn)的時(shí)候,有一種簡(jiǎn)單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來(lái)的75%提高到了95%以上。與之相反地,在少量數(shù)據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時(shí),也會(huì)像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。后來(lái),班科和布里爾在他們發(fā)表的研究論文中寫(xiě)到,“如此一來(lái),我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上?!?.3.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法20世紀(jì)40年代,計(jì)算機(jī)由真空管制成,要占據(jù)整個(gè)房間這么大的空間。而機(jī)器翻譯也只是計(jì)算機(jī)開(kāi)發(fā)人員的一個(gè)想法。在冷戰(zhàn)時(shí)期,美國(guó)掌握了大量關(guān)于蘇聯(lián)的各種資料,但缺少翻譯這些資料的人手。所以,計(jì)算機(jī)翻譯也成了亟待解決的問(wèn)題。最初,計(jì)算機(jī)研發(fā)人員打算將語(yǔ)法規(guī)則和雙語(yǔ)詞典結(jié)合在一起。1954年,IBM以計(jì)算機(jī)中的250個(gè)詞語(yǔ)和六條語(yǔ)法規(guī)則為基礎(chǔ),將60個(gè)俄語(yǔ)詞組翻譯成了英語(yǔ),結(jié)果振奮人心。IBM701通過(guò)穿孔卡片讀取了一句話(huà),并將其譯成了“我們通過(guò)語(yǔ)言來(lái)交流思想”。在慶祝這個(gè)成就的發(fā)布會(huì)上,一篇報(bào)道就有提到,這60句話(huà)翻譯得很流暢。這個(gè)程序的指揮官利昂?多斯特爾特表示,他相信“在三五年后,機(jī)器翻譯將會(huì)變得很成熟”。4.3.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法事實(shí)證明,計(jì)算機(jī)翻譯最初的成功誤導(dǎo)了人們。1966年,一群機(jī)器翻譯的研究人員意識(shí)到,翻譯比他們想象的更困難,他們不得不承認(rèn)自己的失敗。機(jī)器翻譯不能只是讓電腦熟悉常用規(guī)則,還必須教會(huì)電腦處理特殊的語(yǔ)言情況。畢竟,翻譯不僅僅只是記憶和復(fù)述,也涉及選詞,而明確地教會(huì)電腦這些非常不現(xiàn)實(shí)。在20世紀(jì)80年代后期,IBM的研發(fā)人員提出了一個(gè)新的想法。與單純教給計(jì)算機(jī)語(yǔ)言規(guī)則和詞匯相比,他們?cè)噲D讓計(jì)算機(jī)自己估算一個(gè)詞或一個(gè)詞組適合于用來(lái)翻譯另一種語(yǔ)言中的一個(gè)詞和詞組的可能性,然后再?zèng)Q定某個(gè)詞和詞組在另一種語(yǔ)言中的對(duì)等詞和詞組。4.3.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法20世紀(jì)90年代,IBM這個(gè)名為Candide的項(xiàng)目花費(fèi)了大概十年的時(shí)間,將大約有300萬(wàn)句之多的加拿大議會(huì)資料譯成了英語(yǔ)和法語(yǔ)并出版。由于是官方文件,翻譯的標(biāo)準(zhǔn)就非常高。用那個(gè)時(shí)候的標(biāo)準(zhǔn)來(lái)看,數(shù)據(jù)量非常之龐大。統(tǒng)計(jì)機(jī)器學(xué)習(xí)從誕生之日起,就聰明地把翻譯的挑戰(zhàn)變成了一個(gè)數(shù)學(xué)問(wèn)題,而這似乎很有效!計(jì)算機(jī)翻譯能力在短時(shí)間內(nèi)就提高了很多。然而,在這次飛躍之后,IBM公司盡管投入了很多資金,但取得的成效不大。最終,IBM公司停止了這個(gè)項(xiàng)目。4.3.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法2006年,谷歌公司也開(kāi)始涉足機(jī)器翻譯,這被當(dāng)作實(shí)現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個(gè)目標(biāo)的一個(gè)步驟。谷歌翻譯開(kāi)始利用一個(gè)更大更繁雜的數(shù)據(jù)庫(kù),也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語(yǔ)言之間的文本翻譯。4.3.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法為了訓(xùn)練計(jì)算機(jī),谷歌翻譯系統(tǒng)會(huì)吸收它能找到的所有翻譯。它從各種各樣語(yǔ)言的公司網(wǎng)站上尋找對(duì)譯文檔,還會(huì)去尋找聯(lián)合國(guó)和歐盟這些國(guó)際組織發(fā)布的官方文件和報(bào)告的譯本。它甚至?xí)账僮x項(xiàng)目中的書(shū)籍翻譯。谷歌翻譯部的負(fù)責(zé)人弗朗茲·奧齊是機(jī)器翻譯界的權(quán)威,他指出,“谷歌的翻譯系統(tǒng)不會(huì)像Candide一樣只是仔細(xì)地翻譯300萬(wàn)句話(huà),它會(huì)掌握用不同語(yǔ)言翻譯的質(zhì)量參差不齊的數(shù)十億頁(yè)的文檔。”不考慮翻譯質(zhì)量的話(huà),上萬(wàn)億的語(yǔ)料庫(kù)就相當(dāng)于950億句英語(yǔ)。4.3.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法盡管其輸入源很混亂,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對(duì)而言還是最好的,而且可翻譯的內(nèi)容更多。到2012年年中,谷歌數(shù)據(jù)庫(kù)涵蓋了60多種語(yǔ)言,甚至能夠接受14種語(yǔ)言的語(yǔ)音輸入,并有很流利的對(duì)等翻譯。之所以能做到這些,是因?yàn)樗鼘⒄Z(yǔ)言視為能夠判別可能性的數(shù)據(jù),而不是語(yǔ)言本身。如果要將印度語(yǔ)譯成加泰羅尼亞語(yǔ),谷歌就會(huì)把英語(yǔ)作為中介語(yǔ)言。因?yàn)樵诜g的時(shí)候它能適當(dāng)增減詞匯,所以谷歌的翻譯比其他系統(tǒng)的翻譯靈活很多。4.3.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法谷歌的翻譯之所以更好并不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制。和微軟的班科和布里爾一樣,這是因?yàn)楣雀璺g增加了很多各種各樣的數(shù)據(jù)。從谷歌的例子來(lái)看,它之所以能比IBM的Candide系統(tǒng)多利用成千上萬(wàn)的數(shù)據(jù),是因?yàn)樗邮芰擞绣e(cuò)誤的數(shù)據(jù)。2006年,谷歌發(fā)布的上萬(wàn)億的語(yǔ)料庫(kù),就是來(lái)自于互聯(lián)網(wǎng)的一些廢棄內(nèi)容。這就是“訓(xùn)練集”,可以正確地推算出英語(yǔ)詞匯搭配在一起的可能性。4.3.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法谷歌公司人工智能專(zhuān)家彼得·諾維格在一篇題為《數(shù)據(jù)的非理性效果》的文章中寫(xiě)道,“大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效?!彼麄兙椭赋?,混雜是關(guān)鍵?!坝捎诠雀枵Z(yǔ)料庫(kù)的內(nèi)容來(lái)自于未經(jīng)過(guò)濾的網(wǎng)頁(yè)內(nèi)容,所以會(huì)包含一些不完整的句子、拼寫(xiě)錯(cuò)誤、語(yǔ)法錯(cuò)誤以及其他各種錯(cuò)誤。況且,它也沒(méi)有詳細(xì)的人工糾錯(cuò)后的注解。但是,谷歌語(yǔ)料庫(kù)的數(shù)據(jù)優(yōu)勢(shì)完全壓倒了缺點(diǎn)?!?.3.3紛繁的數(shù)據(jù)越多越好通常傳統(tǒng)的統(tǒng)計(jì)學(xué)家都很難容忍錯(cuò)誤數(shù)據(jù)的存在,在收集樣本的時(shí)候,他們會(huì)用一整套的策略來(lái)減少錯(cuò)誤發(fā)生的概率。在結(jié)果公布之前,他們也會(huì)測(cè)試樣本是否存在潛在的系統(tǒng)性偏差。這些策略包括根據(jù)協(xié)議或通過(guò)受過(guò)專(zhuān)門(mén)訓(xùn)練的專(zhuān)家來(lái)采集樣本。但是,即使只是少量的數(shù)據(jù),這些規(guī)避錯(cuò)誤的策略實(shí)施起來(lái)還是耗費(fèi)巨大。尤其是當(dāng)我們收集所有數(shù)據(jù)的時(shí)候,在大規(guī)模的基礎(chǔ)上保持?jǐn)?shù)據(jù)收集標(biāo)準(zhǔn)的一致性不太現(xiàn)實(shí)。如今,我們已經(jīng)生活在信息時(shí)代。我們掌握的數(shù)據(jù)庫(kù)越來(lái)越全面,它包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)。我們不再需要那么擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價(jià)消除所有的不確定性。4.3.3紛繁的數(shù)據(jù)越多越好在華盛頓州布萊恩市的英國(guó)石油公司(BP)切里波因特?zé)捰蛷S(見(jiàn)圖4-8)里,無(wú)線(xiàn)感應(yīng)器遍布于整個(gè)工廠,形成無(wú)形的網(wǎng)絡(luò),能夠產(chǎn)生大量實(shí)時(shí)數(shù)據(jù)。在這里,酷熱的惡劣環(huán)境和電氣設(shè)備的存在有時(shí)會(huì)對(duì)感應(yīng)器讀數(shù)有所影響,形成錯(cuò)誤的數(shù)據(jù)。但是數(shù)據(jù)生成的數(shù)量之多可以彌補(bǔ)這些小錯(cuò)誤。隨時(shí)監(jiān)測(cè)管道的承壓使得BP能夠了解到,有些種類(lèi)的原油比其他種類(lèi)更具有腐蝕性。以前,這都是無(wú)法發(fā)現(xiàn)也無(wú)法防止的。4.3.3紛繁的數(shù)據(jù)越多越好圖4-8煉油廠4.3.3紛繁的數(shù)據(jù)越多越好有時(shí)候,當(dāng)我們掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要了,我們同樣可以掌握事情的發(fā)展趨勢(shì)。除了一開(kāi)始會(huì)與我們的直覺(jué)相矛盾之外,接受數(shù)據(jù)的不精確和不完美,我們反而能夠更好地進(jìn)行預(yù)測(cè),也能夠更好地理解這個(gè)世界。4.3.3紛繁的數(shù)據(jù)越多越好值得注意的是,錯(cuò)誤性并不是大數(shù)據(jù)本身固有的特性,而是一個(gè)亟需我們?nèi)ヌ幚淼默F(xiàn)實(shí)問(wèn)題,并且有可能長(zhǎng)期存在。它只是我們用來(lái)測(cè)量、記錄和交流數(shù)據(jù)的工具的一個(gè)缺陷。因?yàn)閾碛懈髷?shù)據(jù)量所能帶來(lái)的商業(yè)利益遠(yuǎn)遠(yuǎn)超過(guò)增加一點(diǎn)精確性,所以通常我們不會(huì)再花大力氣去提升數(shù)據(jù)的精確性。這又是一個(gè)關(guān)注焦點(diǎn)的轉(zhuǎn)變,正如以前,統(tǒng)計(jì)學(xué)家們總是把他們的興趣放在提高樣本的隨機(jī)性而不是數(shù)量上。如今,大數(shù)據(jù)給我們帶來(lái)的利益,讓我們能夠接受不精確的存在了。4.3.45%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)據(jù)估計(jì),只有5%的數(shù)字?jǐn)?shù)據(jù)是結(jié)構(gòu)化的且能適用于傳統(tǒng)數(shù)據(jù)庫(kù)。如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無(wú)法被利用,比如網(wǎng)頁(yè)和視頻資源。我們?cè)趺纯创褂盟袛?shù)據(jù)和使用部分?jǐn)?shù)據(jù)的差別,以及我們?cè)鯓舆x擇放松要求并取代嚴(yán)格的精確性,將會(huì)對(duì)我們與世界的溝通產(chǎn)生深刻的影響。隨著大數(shù)據(jù)技術(shù)成為日常生活中的一部分,我們應(yīng)該開(kāi)始從一個(gè)比以前更大更全面的角度來(lái)理解事物,也就是說(shuō)應(yīng)該將“樣本=總體”植入我們的思維中。4.3.45%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)相比依賴(lài)于小數(shù)據(jù)和精確性的時(shí)代,大數(shù)據(jù)因?yàn)楦鼜?qiáng)調(diào)數(shù)據(jù)的完整性和混雜性,幫助我們進(jìn)一步接近事實(shí)的真相。當(dāng)我們的視野局限在我們可以分析和能夠確定的數(shù)據(jù)上時(shí),我們對(duì)世界的整體理解就可能產(chǎn)生偏差和錯(cuò)誤。不僅失去了去盡力收集一切數(shù)據(jù)的動(dòng)力,也失去了從各個(gè)不同角度來(lái)觀察事物的權(quán)利。所以,局限于狹隘的小數(shù)據(jù)中,我們可以自豪于對(duì)精確性的追求,但是就算我們可以分析得到細(xì)節(jié)中的細(xì)節(jié),也依然會(huì)錯(cuò)過(guò)事物的全貌。大數(shù)據(jù)要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,但認(rèn)為每個(gè)問(wèn)題只有一個(gè)答案的想法是站不住腳的。思維變革之三:數(shù)據(jù)的相關(guān)關(guān)系4.44.4思維變革之三:數(shù)據(jù)的相關(guān)關(guān)系在傳統(tǒng)觀念下,人們總是致力于找到一切事情發(fā)生背后的原因。然而在很多時(shí)候,尋找數(shù)據(jù)間的關(guān)聯(lián)并利用這種關(guān)聯(lián)就足夠了。這些思想上的重大轉(zhuǎn)變導(dǎo)致了第三個(gè)變革:我們嘗試著不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了。4.4思維變革之三:數(shù)據(jù)的相關(guān)關(guān)系如果數(shù)百萬(wàn)條電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機(jī)制就沒(méi)有這種治療方法本身來(lái)得重要。同樣,只要我們知道什么時(shí)候是買(mǎi)機(jī)票的最佳時(shí)機(jī),就算不知道機(jī)票價(jià)格瘋狂變動(dòng)的原因也無(wú)所謂了。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因,我們只要讓數(shù)據(jù)自己發(fā)聲。我們不再需要在還沒(méi)有收集數(shù)據(jù)之前,就把我們的分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲,我們會(huì)注意到很多以前從來(lái)沒(méi)有意識(shí)到的聯(lián)系的存在。4.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵雖然在小數(shù)據(jù)世界中相關(guān)關(guān)系也是有用的,但如今在大數(shù)據(jù)的背景下,通過(guò)應(yīng)用相關(guān)關(guān)系,我們可以比以前更容易、更快捷、更清楚地分析事物。所謂相關(guān)關(guān)系,其核心是指量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值很有可能也會(huì)隨之增加。我們已經(jīng)看到過(guò)這種很強(qiáng)的相關(guān)關(guān)系,比如谷歌流感趨勢(shì):在一個(gè)特定的地理位置,越多的人通過(guò)谷歌搜索特定的詞條,該地區(qū)就有更多的人患了流感。相反,相關(guān)關(guān)系弱就意味著當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值幾乎不會(huì)發(fā)生變化。例如,我們可以尋找關(guān)于個(gè)人的鞋碼和幸福的相關(guān)關(guān)系,但會(huì)發(fā)現(xiàn)它們幾乎扯不上什么關(guān)系。4.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵相關(guān)關(guān)系通過(guò)識(shí)別有用的關(guān)聯(lián)物來(lái)幫助我們分析一個(gè)現(xiàn)象,而不是通過(guò)揭示其內(nèi)部的運(yùn)作機(jī)制。當(dāng)然,即使是很強(qiáng)的相關(guān)關(guān)系也不一定能解釋每一種情況,比如兩個(gè)事物看上去行為相似,但很有可能只是巧合。相關(guān)關(guān)系沒(méi)有絕對(duì),只有可能性。也就是說(shuō),不是亞馬遜推薦的每本書(shū)都是顧客想買(mǎi)的書(shū)。但是,如果相關(guān)關(guān)系強(qiáng),一個(gè)相關(guān)鏈接成功的概率是很高的。這一點(diǎn)很多人可以證明,他們的書(shū)架上有很多書(shū)都是因?yàn)閬嗰R遜推薦而購(gòu)買(mǎi)的。4.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵通過(guò)找到一個(gè)現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測(cè)未來(lái)。如果A和B經(jīng)常一起發(fā)生,我們只需要注意到B發(fā)生了.就可以預(yù)測(cè)A也發(fā)生了。這有助于我們捕捉可能和A一起發(fā)生的事情,即使我們不能直接測(cè)量或觀察到A。更重要的是,它還可以幫助我們預(yù)測(cè)未來(lái)可能發(fā)生什么。當(dāng)然,相關(guān)關(guān)系是無(wú)法預(yù)知未來(lái)的,他們只能預(yù)測(cè)可能發(fā)生的事情。但是,這已經(jīng)極其珍貴了。在大數(shù)據(jù)時(shí)代,建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心。這種預(yù)測(cè)發(fā)生的頻率非常高,以至于我們經(jīng)常忽略了它的創(chuàng)新性。當(dāng)然,它的應(yīng)用會(huì)越來(lái)越多。4.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵在社會(huì)環(huán)境下尋找關(guān)聯(lián)物只是大數(shù)據(jù)分析法采取的一種方式。同樣有用的一種方法是,通過(guò)找出新種類(lèi)數(shù)據(jù)之間的相互聯(lián)系來(lái)解決日常需要。比方說(shuō),一種稱(chēng)為預(yù)測(cè)分析法的方法就被廣泛地應(yīng)用于商業(yè)領(lǐng)域,它可以預(yù)測(cè)事件的發(fā)生。這可以指一個(gè)能發(fā)現(xiàn)可能的流行歌曲的算法系統(tǒng)——音樂(lè)界廣泛采用這種方法來(lái)確保它們看好的歌曲真的會(huì)流行;也可以指那些用來(lái)防止機(jī)器失效和建筑倒塌的方法?,F(xiàn)在,在機(jī)器、發(fā)動(dòng)機(jī)和橋梁等基礎(chǔ)設(shè)施上放置傳感器變得越來(lái)越平常了,這些傳感器被用來(lái)記錄散發(fā)的熱量、振幅、承壓和發(fā)出的聲音等。4.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵一個(gè)東西要出故障,不會(huì)是瞬間的,而是慢慢地出問(wèn)題的。通過(guò)收集所有的數(shù)據(jù),我們可以預(yù)先捕捉到事物要出故障的信號(hào),比方說(shuō)發(fā)動(dòng)機(jī)的嗡嗡聲、引擎過(guò)熱都說(shuō)明它們可能要出故障了。系統(tǒng)把這些異常情況與正常情況進(jìn)行對(duì)比,就會(huì)知道什么地方出了毛病。通過(guò)盡早地發(fā)現(xiàn)異常,系統(tǒng)可以提醒我們?cè)诠收现案鼡Q零件或者修復(fù)問(wèn)題。通過(guò)找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測(cè)未來(lái)。4.4.2是“什么”,而不是“為什么”在小數(shù)據(jù)時(shí)代,相關(guān)關(guān)系分析和因果分析都不容易,耗費(fèi)巨大,都要從建立假設(shè)開(kāi)始,然后進(jìn)行實(shí)驗(yàn)——這個(gè)假設(shè)要么被證實(shí)要么被推翻。但是,由于兩者都始于假設(shè),這些分析就都有受偏見(jiàn)影響的可能,極易導(dǎo)致錯(cuò)誤。與此同時(shí),用來(lái)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度醫(yī)療廢物處理及回收服務(wù)合同4篇
- 2025年度木結(jié)構(gòu)工程綠色施工技術(shù)指導(dǎo)合同3篇
- FIDIC合同條件中的紅皮書(shū)是指
- 2025年度木屑廢棄物資源化利用合同4篇
- 2025年租賃房屋租賃合同解除后責(zé)任承擔(dān)協(xié)議3篇
- 二零二五年度城市綠化景觀工程養(yǎng)護(hù)合同范本3篇
- 2025年度綠色環(huán)保技術(shù)研發(fā)項(xiàng)目貸款合同及違約賠償條款4篇
- 2025年度農(nóng)產(chǎn)品進(jìn)出口代理服務(wù)合同2篇
- 2025年度漁船買(mǎi)賣(mài)合同(含漁船改裝與升級(jí)服務(wù))4篇
- 二零二五年度木制玩具生產(chǎn)木工勞務(wù)分包合同4篇
- 鹽酸埃克替尼臨床療效、不良反應(yīng)與藥代動(dòng)力學(xué)的相關(guān)性分析的開(kāi)題報(bào)告
- 消防設(shè)施安全檢查表
- 組合結(jié)構(gòu)設(shè)計(jì)原理 第2版 課件 第6、7章 鋼-混凝土組合梁、鋼-混凝土組合剪力墻
- 建筑公司資質(zhì)常識(shí)培訓(xùn)課件
- 旅居管家策劃方案
- GB/T 26316-2023市場(chǎng)、民意和社會(huì)調(diào)查(包括洞察與數(shù)據(jù)分析)術(shù)語(yǔ)和服務(wù)要求
- 春節(jié)值班安全教育培訓(xùn)
- 帶狀皰疹護(hù)理查房
- 平衡計(jì)分卡-化戰(zhàn)略為行動(dòng)
- 幼兒園小班下學(xué)期期末家長(zhǎng)會(huì)PPT模板
- 幼兒教師干預(yù)幼兒同伴沖突的行為研究 論文
評(píng)論
0/150
提交評(píng)論