版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)與科學(xué)范式的轉(zhuǎn)變,自然辯證法論文題目:第一章:第二章:第三章:第四章:大數(shù)據(jù)與科學(xué)范式的轉(zhuǎn)變第五章:后記/以下為參考文獻(xiàn):4、大數(shù)據(jù)與科學(xué)范式的轉(zhuǎn)變?cè)谇皟烧吕铮瑪?shù)據(jù)含義的范疇主要集中在計(jì)算機(jī)中的數(shù)據(jù)以及測(cè)量數(shù)據(jù)這兩方面。但實(shí)際上,數(shù)據(jù)的外延要廣得多,不僅包含更大范圍的非構(gòu)造化數(shù)據(jù),還能夠通過(guò)元數(shù)據(jù)、二元數(shù)據(jù)等形式歸納或推演出獨(dú)具價(jià)值的衍生數(shù)據(jù)。所以,從數(shù)據(jù)到大數(shù)據(jù)的經(jīng)過(guò),是將數(shù)據(jù)的概念廣泛化,同時(shí)予以數(shù)據(jù)以擴(kuò)展性和延伸性。在這里基礎(chǔ)上,誕生了大數(shù)據(jù)科學(xué),也稱(chēng)數(shù)據(jù)科學(xué)的新學(xué)科。大數(shù)據(jù)概念誕生于硬件技術(shù)的快速革新以及以云計(jì)算和物聯(lián)網(wǎng)為核心的網(wǎng)絡(luò)技術(shù)的普及。很讓人驚訝的是,早在1988年BW就在文中表現(xiàn)出與大數(shù)據(jù)時(shí)代高度吻合的思想,即基于數(shù)據(jù)驅(qū)動(dòng)的科學(xué)知識(shí)的自動(dòng)發(fā)現(xiàn)。在被譽(yù)為第四范式的數(shù)據(jù)科學(xué)來(lái)勢(shì)兇猛,讓人措手不及之時(shí),它已經(jīng)融入大部分基礎(chǔ)、實(shí)驗(yàn)與應(yīng)用型科學(xué)當(dāng)中,如生物化學(xué)、天文學(xué)和實(shí)驗(yàn)物理學(xué)等。這一章主要討論關(guān)于數(shù)據(jù)密集型科學(xué)的哲學(xué)問(wèn)題,以及大數(shù)據(jù)方式方法論背景下數(shù)據(jù)經(jīng)歷體驗(yàn)主義與基礎(chǔ)主義進(jìn)路的整合。4.1大數(shù)據(jù)的技術(shù)變革。大數(shù)據(jù)概念是信息化經(jīng)過(guò)中極具突破性的階段。我們知道,信息化的本質(zhì)是將現(xiàn)實(shí)世界的事物轉(zhuǎn)化成計(jì)算機(jī)能夠表示的數(shù)據(jù),即信息化是一個(gè)生產(chǎn)數(shù)據(jù)的經(jīng)過(guò),數(shù)據(jù)被大量生產(chǎn)而在網(wǎng)絡(luò)空間中構(gòu)成了數(shù)據(jù)資源。當(dāng)下大數(shù)據(jù)的應(yīng)用就是對(duì)網(wǎng)絡(luò)空間中數(shù)據(jù)資源開(kāi)發(fā)利用的一種表現(xiàn)。人們認(rèn)識(shí)到數(shù)據(jù)是一種重要的資源,價(jià)值宏大,但在開(kāi)發(fā)利用數(shù)據(jù)資源的經(jīng)過(guò)中碰到了技術(shù)問(wèn)題,就需要新技術(shù)和新方式方法來(lái)解決。從技術(shù)上來(lái)講,大數(shù)據(jù)就是指所牽涉的數(shù)據(jù)量規(guī)模宏大到無(wú)法通過(guò)傳統(tǒng)人工手段,在合理時(shí)間內(nèi)到達(dá)截取、管理、處理并整理成為人類(lèi)所能解讀的形式的信息。也就是,以現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。如此定義就將大數(shù)據(jù)的概念限定在大的含義上。其實(shí),所謂大數(shù)據(jù),并不是一定要超過(guò)特定TB值的數(shù)據(jù)量才算大數(shù)據(jù),而是一個(gè)綜合性概念,最初它包括具備3V:數(shù)據(jù)規(guī)模大〔Volume〕、數(shù)據(jù)類(lèi)型多樣化〔Variety〕、數(shù)據(jù)流動(dòng)更新快〔Velocity〕,后來(lái)增加了價(jià)值〔Value〕這一項(xiàng),構(gòu)成4V的主要特征.第一點(diǎn),不用講是容量大,數(shù)據(jù)規(guī)模的爆發(fā)式增長(zhǎng),是繼云計(jì)算、物聯(lián)網(wǎng)等一大批數(shù)據(jù)技術(shù)成熟之后,使得大數(shù)據(jù)技術(shù)的突現(xiàn)與風(fēng)行成為必然的趨勢(shì)。我們知道大數(shù)據(jù)本身,既不是科學(xué)也不是技術(shù),而是一種客觀存在,不管是物理意義上的,還是虛擬網(wǎng)絡(luò)上的。尤其在互聯(lián)網(wǎng)技術(shù)成熟的今天,各行各業(yè)的大數(shù)據(jù),規(guī)模從TB到PB到EB到ZB,以3個(gè)數(shù)量級(jí)的階梯迅速增長(zhǎng)。這些數(shù)據(jù),很難用傳統(tǒng)的數(shù)據(jù)庫(kù)工具來(lái)存儲(chǔ)或處理,人類(lèi)在認(rèn)知上把握如此巨量的數(shù)據(jù)時(shí)面臨更大的挑戰(zhàn)。當(dāng)然,根據(jù)摩爾定律,每隔18個(gè)月電腦硬件性能將提升一倍,所以人類(lèi)保存數(shù)據(jù)的能力提高也是必然。第二點(diǎn),數(shù)據(jù)類(lèi)型的多樣性。普適計(jì)算條件下,互聯(lián)網(wǎng)社交媒體高度發(fā)達(dá),使得人類(lèi)生產(chǎn)數(shù)據(jù)的能力不斷強(qiáng)大。主要通過(guò)SQL標(biāo)準(zhǔn)語(yǔ)言來(lái)對(duì)數(shù)據(jù)庫(kù)進(jìn)行操作的,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),能夠存儲(chǔ)和查詢(xún)的往往是構(gòu)造化的數(shù)據(jù),但對(duì)于互聯(lián)網(wǎng)大量充斥的非構(gòu)造化數(shù)據(jù)則束手無(wú)策,像文本、圖片和視頻。怎樣處理、分析這些數(shù)據(jù)成為一個(gè)問(wèn)題。以NoSQL數(shù)據(jù)庫(kù)為代表的新型數(shù)據(jù)庫(kù)的興起,突破了關(guān)系數(shù)據(jù)庫(kù)模型過(guò)于注重?cái)?shù)據(jù)一致性原則和數(shù)據(jù)的構(gòu)造,能夠在數(shù)據(jù)大量增加時(shí),通過(guò)橫向擴(kuò)展〔scaleout〕來(lái)擴(kuò)大服務(wù)器的容量,這樣就解決了數(shù)據(jù)存儲(chǔ)的問(wèn)題。第三點(diǎn),產(chǎn)生、更新頻率。當(dāng)下,我們需要對(duì)不斷流入的大量數(shù)據(jù)進(jìn)行實(shí)時(shí)處理的流數(shù)據(jù)處理技術(shù),這是與關(guān)系型數(shù)據(jù)庫(kù)從更本上完全不同的一種數(shù)據(jù)處理技術(shù)。關(guān)系數(shù)據(jù)庫(kù)需要先將數(shù)據(jù)保存到位于硬盤(pán)上的表中,然后,在應(yīng)用程序發(fā)出查詢(xún)的時(shí)間點(diǎn),對(duì)所有的數(shù)據(jù)一起進(jìn)行處理,并將結(jié)果輸出到內(nèi)存中。如此,每次發(fā)出查詢(xún)指令是時(shí)都要將這一經(jīng)過(guò)執(zhí)行一遍,在數(shù)據(jù)量增加時(shí),性能就會(huì)惡化。對(duì)應(yīng)的,在流數(shù)據(jù)處理中,數(shù)據(jù)直接在內(nèi)存中進(jìn)行處理,實(shí)現(xiàn)了高速處理。通過(guò)這樣的方式,能夠?qū)?shù)據(jù)處理的延遲控制在百萬(wàn)分之秒的級(jí)別,實(shí)現(xiàn)了每秒數(shù)十萬(wàn)到數(shù)百萬(wàn)條數(shù)據(jù)的超高速處理。第四點(diǎn),數(shù)據(jù)的價(jià)值。我以為這是大數(shù)據(jù)技術(shù)的核心,也就是關(guān)于怎樣高效地從大數(shù)據(jù)中獲取有意義的信息。對(duì)于這一問(wèn)題的實(shí)踐衍生出機(jī)器學(xué)習(xí)、形式辨別、數(shù)據(jù)挖掘等一大批數(shù)據(jù)智能技術(shù)。機(jī)器學(xué)習(xí)是人工智能的研究課題之一,是一種在計(jì)算機(jī)上實(shí)現(xiàn)相當(dāng)于人類(lèi)自然學(xué)習(xí)能力的技術(shù)和手段,通過(guò)對(duì)一定數(shù)量的樣本數(shù)據(jù)進(jìn)行分析,能夠從這些數(shù)據(jù)中挖掘出有用的規(guī)則和知識(shí)。數(shù)據(jù)挖掘是對(duì)大量存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,并從發(fā)現(xiàn)數(shù)據(jù)中隱藏的互相關(guān)系和形式的技術(shù)?;跀?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等數(shù)據(jù)分析技術(shù)的成熟,人類(lèi)使用數(shù)據(jù)的能力不斷提高。借助海量、開(kāi)放、鏈接這三個(gè)基本屬性,大數(shù)據(jù)技術(shù)的實(shí)用性及其廣泛,能夠牽涉社會(huì)生產(chǎn)的各個(gè)層面。在科學(xué)領(lǐng)域,大數(shù)據(jù)技術(shù)是機(jī)器學(xué)習(xí)一項(xiàng)重要應(yīng)用。2018年之前,關(guān)于機(jī)器學(xué)習(xí)的應(yīng)用主要具體表現(xiàn)出在如,車(chē)牌辨別、手寫(xiě)字符辨別與網(wǎng)絡(luò)攻擊防備等方面。但在2018之后,大數(shù)據(jù)概念興起,機(jī)器學(xué)習(xí)開(kāi)場(chǎng)呈現(xiàn)出與大數(shù)據(jù)技術(shù)高度耦合的狀態(tài),所以,大數(shù)據(jù)技術(shù)就是機(jī)器學(xué)習(xí)應(yīng)用的最佳場(chǎng)所。大數(shù)據(jù)的亮點(diǎn)在于預(yù)測(cè),2018年,甲型H1N1流感爆發(fā)的幾周前,谷歌流感趨勢(shì)成功預(yù)測(cè)了流感在美國(guó)境內(nèi)的傳播,其分析結(jié)果甚至詳細(xì)到特定的地區(qū)和州,并且非常及時(shí),令公共衛(wèi)生官員備感震驚。2020年,百度預(yù)測(cè)世界杯比賽結(jié)果,從淘汰賽到?jīng)Q賽全部預(yù)測(cè)準(zhǔn)確。大數(shù)據(jù)之所以擁有如此宏大的實(shí)踐價(jià)值,關(guān)鍵在于機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用,使得數(shù)據(jù)在華而不實(shí)發(fā)揮了作用。大數(shù)據(jù)的核心是利用數(shù)據(jù)的價(jià)值,而機(jī)器學(xué)習(xí)則是利用數(shù)據(jù)價(jià)值的關(guān)鍵技術(shù)。對(duì)于大數(shù)據(jù)而言,機(jī)器學(xué)習(xí)是不可或缺的,同時(shí)對(duì)于機(jī)器學(xué)習(xí)而言,更多的數(shù)據(jù)也會(huì)提升模型的精到準(zhǔn)確性。兩者相輔相成,共同促進(jìn)。4.2數(shù)據(jù)密集型科學(xué)與科學(xué)第四范式。之前我們提到大數(shù)據(jù)的出現(xiàn)是當(dāng)代科學(xué)信息化經(jīng)過(guò)中極具里程碑意義的,不僅僅僅是由于我們能夠生產(chǎn)大量數(shù)據(jù),并且也有足夠的能力來(lái)處理,而是它對(duì)科學(xué)范式基本理念的突破性變革。大數(shù)據(jù)誕生伊始被定義為是關(guān)于能夠處理大量數(shù)據(jù)的技術(shù)挑戰(zhàn)層面,也就是所謂的3V.但是,基于3V的定義也面臨很多問(wèn)題,最為重要的是,容量、多樣性和速度都是關(guān)系概念,因而,大數(shù)據(jù)會(huì)被簡(jiǎn)單的以為是依靠于硬盤(pán)技術(shù)進(jìn)步的昔日的小數(shù)據(jù)。僅僅強(qiáng)調(diào)絕對(duì)的數(shù)據(jù)量很難在關(guān)于科學(xué)方式方法論上建立更有意義的發(fā)展。所以,4V概念的興起也彌補(bǔ)了上述缺乏,這也與數(shù)據(jù)科學(xué)的出現(xiàn)有關(guān)。數(shù)據(jù)科學(xué)是一個(gè)系統(tǒng)性的穿插學(xué)科,其目的是通過(guò)各種方式從數(shù)據(jù)中獲取有價(jià)值的知識(shí)或認(rèn)識(shí),無(wú)論數(shù)據(jù)是構(gòu)造化的還是非構(gòu)造化的。有人以為數(shù)據(jù)科學(xué)就是研究數(shù)據(jù)的科學(xué),與統(tǒng)計(jì)學(xué)類(lèi)似,由于統(tǒng)計(jì)學(xué)研究的對(duì)象也是數(shù)據(jù)。但是,兩者分別所指的數(shù)據(jù)并非同一概念,數(shù)據(jù)本身是一種極為廣泛的概念,只要是對(duì)客觀事物記錄下來(lái)的、能夠鑒別的符號(hào)都能夠稱(chēng)之為數(shù)據(jù),包括數(shù)字、文字、音頻、視頻等。統(tǒng)計(jì)學(xué)研究的數(shù)據(jù)固然類(lèi)型豐富,但往往局限于構(gòu)造化數(shù)據(jù),比類(lèi)別數(shù)據(jù)、有序數(shù)據(jù)等定性數(shù)據(jù),定距數(shù)據(jù)、定比數(shù)據(jù)等定量數(shù)據(jù)。數(shù)據(jù)科學(xué)所指的數(shù)據(jù)范圍則更為廣泛,不僅包括這些傳統(tǒng)的構(gòu)造性數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)頁(yè)等半構(gòu)造化和非構(gòu)造化數(shù)據(jù)。這些數(shù)據(jù)體量宏大,是大數(shù)據(jù)時(shí)代的主要成員。數(shù)據(jù)科學(xué)主要包括兩個(gè)方面:首先,用數(shù)據(jù)的方式方法來(lái)研究科學(xué)和用科學(xué)的方式方法來(lái)研究數(shù)據(jù)。前者包括生物信息學(xué)、天體信息學(xué)、數(shù)字地球等領(lǐng)域,后者包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)等領(lǐng)域。數(shù)據(jù)的方式方法來(lái)研究科學(xué),在早期天文學(xué)領(lǐng)域應(yīng)用極為頻繁。我們知道,開(kāi)普勒關(guān)于行星運(yùn)動(dòng)的三大定律就是從大量觀察數(shù)據(jù)中推出的數(shù)據(jù)模型而發(fā)展出來(lái)的。另一方面,用科學(xué)的方式方法研究數(shù)據(jù),包括數(shù)據(jù)的獲取、存儲(chǔ)和數(shù)據(jù)的分析。華而不實(shí)牽涉大量的技術(shù)問(wèn)題,包括數(shù)據(jù)量的存儲(chǔ)問(wèn)題和數(shù)據(jù)構(gòu)造的處理問(wèn)題。詳細(xì)來(lái)講,就是從某些已經(jīng)知道的數(shù)據(jù)出發(fā),推導(dǎo)加工出一些新的數(shù)據(jù)。在描繪敘述數(shù)據(jù)的時(shí)候,不僅描繪敘述數(shù)據(jù)本身,還要描繪敘述數(shù)據(jù)之間的聯(lián)絡(luò),發(fā)現(xiàn)各因素之間的相關(guān)性,進(jìn)而在數(shù)據(jù)中提取新的信息。事實(shí)上,用數(shù)據(jù)的方式方法來(lái)研究科學(xué)與用科學(xué)的方式方法來(lái)研究數(shù)據(jù),科學(xué)實(shí)踐在兩者之間的區(qū)分是很模糊的,往往被看作為視角的不同,完全能夠互相利用、同時(shí)進(jìn)行。朱揚(yáng)勇、熊赟提出將網(wǎng)絡(luò)空間的所有數(shù)據(jù)作為數(shù)據(jù)界〔datanature〕來(lái)研究,以為數(shù)據(jù)科學(xué)主要有兩個(gè)內(nèi)涵:一個(gè)是研究數(shù)據(jù)本身、包括類(lèi)型、狀態(tài)、屬性和變化形式和變化規(guī)律;另一個(gè)是為自然科學(xué)和社會(huì)科學(xué)研究提供一種新方式方法,稱(chēng)為科學(xué)研究的數(shù)據(jù)方式方法,其目的在于揭示自然界和人類(lèi)行為現(xiàn)象和規(guī)律。數(shù)據(jù)密集型科學(xué)研究被以為是繼實(shí)驗(yàn)方式方法、理論方式方法和模擬方式方法之后的第四種科學(xué)研究范式。上面提到的開(kāi)普勒形式就是第四范式的典型,第三定律就是在對(duì)所采集并仔細(xì)保存的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行挖掘和分析的基礎(chǔ)上建立起的新理論。它以收集、管理和分析海量數(shù)據(jù)以獲得新發(fā)現(xiàn)為重要特征,需要研究數(shù)據(jù)的現(xiàn)象和規(guī)律,這促使科學(xué)開(kāi)場(chǎng)考慮關(guān)于數(shù)據(jù)的科學(xué),即數(shù)據(jù)科學(xué)。已故圖靈獎(jiǎng)獲得者吉姆格雷以為:科學(xué)的世界已經(jīng)發(fā)生變化。新的研究形式是通過(guò)儀器收集數(shù)據(jù)或通過(guò)模擬方式方法產(chǎn)生數(shù)據(jù),然后用軟件進(jìn)行處理,再將進(jìn)行的信息和知識(shí)存儲(chǔ)于計(jì)算機(jī)中??茖W(xué)家們只是在這個(gè)工作流中相當(dāng)靠后的步驟才開(kāi)場(chǎng)審視他們的數(shù)據(jù)。用于這種數(shù)據(jù)密集型科學(xué)的技術(shù)和方式方法是如此迥然不同,所以,從計(jì)算科學(xué)中把數(shù)據(jù)密集型科學(xué)區(qū)分出來(lái)作為一個(gè)新的、科學(xué)探尋求索的第四范式頗有價(jià)值。當(dāng)前,國(guó)際上對(duì)于大數(shù)據(jù)方式方法中的形式〔pattern〕與模型〔model〕并沒(méi)有作區(qū)分。大數(shù)據(jù)的目的就是發(fā)現(xiàn)海量數(shù)據(jù)中潛在的模型。在這里意義上,大數(shù)據(jù)方式方法是一種模型方式方法。皮奇〔W.Pietsch〕以為大數(shù)據(jù)科學(xué)首先需要與計(jì)算機(jī)仿真區(qū)分開(kāi)來(lái),指出這是信息技術(shù)應(yīng)用于科學(xué)中的兩種截然不同的方式方法。計(jì)算機(jī)仿真能夠視為以計(jì)算的方式檢驗(yàn)數(shù)學(xué)模型的含義,而數(shù)據(jù)科學(xué)則是在大量數(shù)據(jù)集中尋找內(nèi)在的因果構(gòu)造。他指出兩者有如下區(qū)別:第一,研究對(duì)象不同。大數(shù)據(jù)面向的是海量數(shù)據(jù),而計(jì)算機(jī)仿真面向的是根據(jù)系統(tǒng)建立的數(shù)學(xué)模型。因而大數(shù)據(jù)是數(shù)據(jù)驅(qū)動(dòng)的,計(jì)算機(jī)仿真是模型驅(qū)動(dòng)的。第二,推理邏輯不同。大數(shù)據(jù)是根據(jù)數(shù)據(jù)歸納得出數(shù)據(jù)模型,而計(jì)算機(jī)仿真是根據(jù)模型演繹得出計(jì)算結(jié)果。第三,自動(dòng)程度不同。大數(shù)據(jù)從數(shù)據(jù)獲取、數(shù)據(jù)建模以及預(yù)測(cè)均是計(jì)算機(jī)自動(dòng)進(jìn)行,而計(jì)算機(jī)仿真只要仿真實(shí)驗(yàn)這一步是自動(dòng)的,僅僅占了科學(xué)研究經(jīng)過(guò)中的一小部分。第四,講明力不同。計(jì)算機(jī)仿真的模型假設(shè)為模型的講明提供了堅(jiān)實(shí)的基礎(chǔ),大數(shù)據(jù)由于建模經(jīng)過(guò)的自動(dòng)化而缺乏這樣一個(gè)基礎(chǔ)。因而前者講明力較高,而后者講明力較低。綜上所述,盡管大數(shù)據(jù)與計(jì)算機(jī)仿真都運(yùn)用了當(dāng)代計(jì)算機(jī)以及網(wǎng)絡(luò)技術(shù),但兩者有著眾多區(qū)別。這也印證了吉姆格雷的觀點(diǎn):大數(shù)據(jù)是繼實(shí)驗(yàn)、理論以及計(jì)算機(jī)仿真之后的第四范式。在這里意義上,大數(shù)據(jù)帶來(lái)了新的科學(xué)方式方法,代表著科學(xué)方式方法的變革。大量科學(xué)數(shù)據(jù)在處理經(jīng)過(guò)中牽涉三個(gè)主要階段,數(shù)據(jù)獲得、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析。這里我們集中討論數(shù)據(jù)分析這一塊。皮奇提出數(shù)據(jù)密集型科學(xué)的兩個(gè)主要特性:1〕數(shù)據(jù)表征了所有〔至少為大部分〕與特定研究問(wèn)題方面相關(guān)的被審查現(xiàn)象的構(gòu)造〔configuration〕。2〕實(shí)現(xiàn)了從數(shù)據(jù)捕獲、數(shù)據(jù)處理到數(shù)據(jù)建模的整個(gè)科學(xué)經(jīng)過(guò)的自動(dòng)化。這種數(shù)據(jù)觀點(diǎn)特別類(lèi)似于波根和伍德沃德的立場(chǎng),以為大部分科學(xué)現(xiàn)象都是從數(shù)據(jù)中推導(dǎo)出來(lái),由于當(dāng)下的數(shù)據(jù)體大宏大、內(nèi)容豐富,足以覆蓋我們所研究領(lǐng)域的大部分現(xiàn)象。另外,依靠于標(biāo)準(zhǔn)性極強(qiáng)的特征,數(shù)據(jù)一旦作為科學(xué)研究的基底,科學(xué)家完全能夠通過(guò)復(fù)雜的建模工具實(shí)現(xiàn)現(xiàn)象模型的推導(dǎo),以及理論模型的建構(gòu),這就實(shí)現(xiàn)了整個(gè)科學(xué)發(fā)現(xiàn)經(jīng)過(guò)的自動(dòng)化。能夠講,大數(shù)據(jù)背景下的知識(shí)發(fā)現(xiàn)經(jīng)過(guò)與BW所預(yù)測(cè)料想的從數(shù)據(jù)推導(dǎo)現(xiàn)象的經(jīng)過(guò)如出一轍,華而不實(shí)推導(dǎo)方式牽涉統(tǒng)計(jì)推理、歸納整合和形式辨別。所以,數(shù)據(jù)密集型科學(xué)范式就是我們?cè)诘谌轮兴偨Y(jié)出的基礎(chǔ)主義途徑,即將科學(xué)知識(shí)發(fā)現(xiàn)建立在數(shù)據(jù)之上;只要數(shù)據(jù)的體量足夠大,我們便能夠從中得到任何想要的知識(shí)。當(dāng)然,第四范式也遭到傳統(tǒng)科學(xué)方式方法的很大爭(zhēng)議,華而不實(shí)牽涉很多科學(xué)哲學(xué)概念,如解釋、模型和因果性,較為核心的問(wèn)題就是相關(guān)關(guān)系推理的合法性。4.3大數(shù)據(jù)科學(xué)對(duì)基礎(chǔ)主義與經(jīng)歷體驗(yàn)主義的整合。4.3.1邏輯經(jīng)歷體驗(yàn)主義的遺產(chǎn)。在第二章結(jié)尾談到關(guān)于語(yǔ)義模型的經(jīng)歷體驗(yàn)主義特征,由于語(yǔ)義觀假設(shè)數(shù)據(jù)模型與底層現(xiàn)象之間存在某種同構(gòu)關(guān)系,在對(duì)現(xiàn)象進(jìn)行解釋時(shí)不免將數(shù)據(jù)模型的經(jīng)歷體驗(yàn)背景偷運(yùn)過(guò)來(lái),而喪失了實(shí)在現(xiàn)象的先驗(yàn)特性。所以,固然語(yǔ)義論者竭力推崇以模型族的方式重構(gòu)科學(xué)知識(shí),但是其仍然繼承了邏輯經(jīng)歷體驗(yàn)主義的遺產(chǎn)。經(jīng)歷體驗(yàn)主義者以為,要接受一個(gè)科學(xué)理論,我們不需要承諾那些不可觀察的事物能通過(guò)人的知覺(jué)系統(tǒng)或?qū)嶒?yàn)儀器獲得。他們聲稱(chēng)科學(xué)理論被接受或否認(rèn)僅僅基于一個(gè)基礎(chǔ),就是符合觀察的事實(shí)能夠拯救現(xiàn)象以實(shí)現(xiàn)本質(zhì)規(guī)則的統(tǒng)一描繪敘述。大數(shù)據(jù)科學(xué)背景下,數(shù)據(jù)的體量龐大往往能夠覆蓋所有的經(jīng)歷體驗(yàn)可能的事實(shí),它們是作為理論推導(dǎo)的基質(zhì)。同時(shí),數(shù)據(jù)又是作為經(jīng)歷體驗(yàn)事實(shí)的表征,使得大數(shù)據(jù)科學(xué)研究成為典型的經(jīng)歷體驗(yàn)主義,由此獲得一個(gè)美名:大數(shù)據(jù)經(jīng)歷體驗(yàn)主義或新經(jīng)歷體驗(yàn)主義。另一方面,在基礎(chǔ)主義看來(lái),即便數(shù)據(jù)和數(shù)據(jù)模型是理論負(fù)載的,但相關(guān)的理論負(fù)載并不會(huì)影響實(shí)在現(xiàn)象的獲得。由于數(shù)據(jù)-現(xiàn)象之間的關(guān)系并非演繹或歸納推理,而是一種提供證據(jù)的經(jīng)過(guò),這一經(jīng)過(guò)是實(shí)踐性的。也就是講,數(shù)據(jù)-現(xiàn)象推論不會(huì)受科學(xué)家的主觀意圖所影響,現(xiàn)象的獲得也不會(huì)受限于局部數(shù)據(jù)的特征性。理論拯救了現(xiàn)象,由此捕捉了世界的構(gòu)造。并且,理論也不必為解釋數(shù)據(jù)或者為數(shù)據(jù)的合理性提供證據(jù),理論只需要解釋現(xiàn)象即可。所以,數(shù)據(jù)-現(xiàn)象-理論之間構(gòu)成一種對(duì)稱(chēng)的線性關(guān)系。BW竭力在數(shù)據(jù)和理論之間做出嚴(yán)格且清楚明晰的區(qū)分,就是為擬建理論博取客觀合理性,但是這一點(diǎn)如在第三章所論證的那樣難以實(shí)現(xiàn)。一般來(lái)講,理論的前身是作為理論模型的建構(gòu),其牽涉的基礎(chǔ)理論前提和主觀背景假設(shè)往往是不可避免的。由此看來(lái),BW兩人早年文章中所具體表現(xiàn)出的基礎(chǔ)主義立場(chǎng)是不徹底的,也是其基本觀點(diǎn)的最大弊病。以數(shù)據(jù)密集型科學(xué)為代表的大數(shù)據(jù)科學(xué)不僅僅僅是擅于于數(shù)據(jù)挖掘和形式提取技術(shù),更值得一提的是其背后更為深入的數(shù)據(jù)基礎(chǔ)主義假設(shè)。這一假設(shè)以為,整個(gè)人類(lèi)的知識(shí)總量和當(dāng)代信息技術(shù)為我們提供了一個(gè)宏大的經(jīng)歷體驗(yàn)數(shù)據(jù)池,之所以稱(chēng)之為經(jīng)歷體驗(yàn)的即是由于數(shù)據(jù)獲得的理論背景,而理論的獲得可以以通過(guò)數(shù)學(xué)或經(jīng)歷體驗(yàn)科學(xué)的背景理論所建構(gòu)出來(lái)。所以,數(shù)據(jù)池與理論之間是一個(gè)宏大的互動(dòng)循環(huán)經(jīng)過(guò)。當(dāng)然,這也很容易導(dǎo)致無(wú)趣,比方由于科學(xué)知識(shí)的基礎(chǔ)建立與經(jīng)歷體驗(yàn)數(shù)據(jù)之上,那么就無(wú)所謂純粹而普遍的自然定律,一切皆是科學(xué)家主觀建構(gòu)的;再比方,經(jīng)歷體驗(yàn)數(shù)據(jù)的所用被過(guò)度夸張,有人就以為科學(xué)完全能夠放棄理論獲取,轉(zhuǎn)而讓數(shù)據(jù)自個(gè)發(fā)聲,甚至提出因果關(guān)系以數(shù)據(jù)之間相關(guān)關(guān)系代替,這一論點(diǎn)在下一節(jié)主要闡述。當(dāng)然,這些看法無(wú)疑是片面的,其基礎(chǔ)主義立場(chǎng)脫離了BW之前對(duì)于理論拯救現(xiàn)象的基本設(shè)定,而過(guò)度放大了數(shù)據(jù)本身的單一作用。科學(xué)知識(shí)的發(fā)現(xiàn)是一個(gè)互動(dòng)的經(jīng)過(guò),科學(xué)家往往先是建立起他們的第一人稱(chēng)知識(shí),再擴(kuò)展出被共同體所認(rèn)可的客觀知識(shí)。基于建構(gòu)主義的系統(tǒng)能夠同時(shí)彌補(bǔ)BW在D-P-T模型中的數(shù)據(jù)定位偏離以及大數(shù)據(jù)經(jīng)歷體驗(yàn)主義過(guò)度樂(lè)觀導(dǎo)致的缺乏。大數(shù)據(jù)時(shí)代引發(fā)的自動(dòng)科學(xué)發(fā)現(xiàn)能夠?yàn)樘峁┲R(shí)導(dǎo)向的歸納提供方式方法,使其能夠從數(shù)據(jù)中學(xué)習(xí)形式并且預(yù)測(cè),并且為數(shù)據(jù)模型驅(qū)動(dòng)的演繹推理提供方式方法,能夠幫助科學(xué)對(duì)數(shù)據(jù)形式做出講明和解釋。所以,數(shù)據(jù)經(jīng)歷體驗(yàn)經(jīng)歷體驗(yàn)主義與基礎(chǔ)主義整合不僅給予科學(xué)歸納主義更多的可能性,同時(shí),概率認(rèn)識(shí)論的發(fā)展與因果性問(wèn)題方面的工作提升了大數(shù)據(jù)發(fā)現(xiàn)本身的能力,使其應(yīng)付更多不確定性問(wèn)題。4.3.2因果性與基于預(yù)測(cè)的相關(guān)關(guān)系。關(guān)于因果關(guān)系的討論來(lái)歷已久,最具代表性的觀點(diǎn)來(lái)自休謨,他講因果性歸結(jié)于心理聯(lián)絡(luò),構(gòu)成形而上學(xué)意義上對(duì)普遍知識(shí)的懷疑論。如今,科學(xué)解釋和科學(xué)系統(tǒng)的根基仍然是因果關(guān)系或者講因果機(jī)制。我們習(xí)慣于先假設(shè)世界是怎樣運(yùn)作的,然后通過(guò)收集和分析數(shù)據(jù)來(lái)驗(yàn)證這種假想。當(dāng)然,這一經(jīng)過(guò)也不是獲取知識(shí)的唯一進(jìn)路。建立在相關(guān)關(guān)系分析法基礎(chǔ)上的大數(shù)據(jù)方式方法就能夠?qū)崿F(xiàn)對(duì)科學(xué)現(xiàn)象的預(yù)測(cè)。相關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值很有可能也會(huì)隨之增加。相反,相關(guān)關(guān)系弱就意味著當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值幾乎不會(huì)發(fā)生變化。當(dāng)然嚴(yán)格的講,即使沒(méi)有相關(guān)性,另一個(gè)數(shù)據(jù)值可以能大幅變化,只是沒(méi)有趨勢(shì)可循罷了。相關(guān)關(guān)系通過(guò)辨別有用的關(guān)聯(lián)物來(lái)幫助我們分析一個(gè)現(xiàn)象,而不是通過(guò)揭示其內(nèi)部的運(yùn)作機(jī)制。通過(guò)給我們找到一個(gè)現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系能夠幫我們捕捉如今和將來(lái)。當(dāng)然,相關(guān)關(guān)系是無(wú)法預(yù)知將來(lái)的,它們只能預(yù)測(cè)可能發(fā)生的事情。由此,我們理解世界不再需要建立在假設(shè)的基礎(chǔ)上,這個(gè)假設(shè)是指針對(duì)現(xiàn)象建立的有關(guān)其產(chǎn)生機(jī)制和內(nèi)在機(jī)理的假設(shè)。大數(shù)據(jù)的相關(guān)關(guān)系分析法更為準(zhǔn)確、快速且不易受偏見(jiàn)的影響,能夠解決基于假設(shè)的易錯(cuò)的弊病。安德森〔C.Anderson〕說(shuō)到,大量數(shù)據(jù)從某種程度上意味著理論的終結(jié).用一系列的因果關(guān)系來(lái)驗(yàn)證各種猜測(cè)的傳統(tǒng)研究范式已經(jīng)不再實(shí)用了,如今它已經(jīng)被無(wú)需理論指導(dǎo)的純粹的相關(guān)關(guān)系研究所取代。這種講法極為大膽,意味著,直到當(dāng)前為止,我們一直都是將理論應(yīng)用到實(shí)踐中來(lái)分析和理解世界,而如今的大數(shù)據(jù)時(shí)代,我們不再需要理論,只要關(guān)心數(shù)據(jù)就足夠了。這就表示所有的普遍規(guī)則都不重要了,重要的是數(shù)據(jù)分析,它能夠揭示一切問(wèn)題。理論的終結(jié)暗示著,盡管理論仍存在于像物理、化學(xué)這樣的學(xué)科中,但大數(shù)據(jù)分析不需要成形的概念。這種講法實(shí)在荒唐。實(shí)際上,大數(shù)據(jù)是在理論的基礎(chǔ)上構(gòu)成,比方大數(shù)據(jù)分析就用到了統(tǒng)計(jì)和數(shù)學(xué)理論,有時(shí)候會(huì)用到計(jì)算機(jī)科學(xué)理論。這些固然不是像萬(wàn)有引力等描繪敘述特定現(xiàn)象產(chǎn)生原因的理論,但仍然是理論。而且我們需要意識(shí)到,建立在這些理論上的大數(shù)據(jù)分析形式是實(shí)現(xiàn)大數(shù)據(jù)預(yù)測(cè)能力的重要因素。當(dāng)然,我們需要意識(shí)到,對(duì)于因果問(wèn)題的證實(shí)本身就是個(gè)難題,即便使用數(shù)學(xué)這種精到準(zhǔn)確的方式,因果關(guān)系也很難得到證明;我們也無(wú)法通過(guò)標(biāo)準(zhǔn)的等式將因果關(guān)系表示出清楚。所以,與相關(guān)性一樣,因果關(guān)系被完全證實(shí)的可能性幾乎是沒(méi)有的,我們只能講,某兩者之間很可能存在因果關(guān)系。固然,形而上學(xué)意義上的因果關(guān)系很難得到證實(shí),但是,這并不意味者由數(shù)據(jù)推出的相關(guān)關(guān)系就擁有了于因果關(guān)系相等的講明效果。實(shí)際而言,大數(shù)據(jù)很多都是不相干的噪音。除非有很好的信息技術(shù)進(jìn)行過(guò)濾和處理,否則,由錯(cuò)誤數(shù)據(jù)導(dǎo)出的結(jié)論必然也是誤導(dǎo)性的。固然,大數(shù)據(jù)為我們提供了觀察世界的新角度,但它還是像原油一樣粗糙渾濁,沒(méi)有良好的加工方式,就無(wú)法加工成為人類(lèi)所需要的汽油和阿司匹林。同時(shí),數(shù)據(jù)表現(xiàn)存在先天的不確定性,大數(shù)據(jù)或數(shù)據(jù)科學(xué)中,不再挑選樣本,總體數(shù)據(jù)的模型映射往往只取決于數(shù)據(jù)本身的好壞。大數(shù)據(jù)方式方法所產(chǎn)生的不確定性技術(shù)上稱(chēng)為過(guò)擬合,即對(duì)數(shù)據(jù)本身的過(guò)度依靠而使得數(shù)據(jù)集中的噪音和不確定性被放大。所以,建立于大數(shù)據(jù)基礎(chǔ)上的相關(guān)關(guān)系是缺乏普遍確定性的。關(guān)于相關(guān)關(guān)系能否能夠取代因果關(guān)系,或者講相關(guān)性的獲得成為科學(xué)研究的中心一直充滿(mǎn)爭(zhēng)議。(大數(shù)據(jù)時(shí)代〕的譯者周濤教授以為:有了機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,我們解決問(wèn)題的方式變成了訓(xùn)練所有可能的模型和擬合所有可能的參數(shù):?jiǎn)栴}從一個(gè)端口進(jìn)去,答案:從另一個(gè)端口出來(lái),中間則是個(gè)黑匣子,由于沒(méi)有人能夠從成千上萬(wàn)的參數(shù)擬合值里面讀到科學(xué),我們讀到的只是計(jì)算機(jī)工程.因而,得到了結(jié)果而忽略了經(jīng)過(guò).與其講大數(shù)據(jù)讓我們重視相關(guān)甚于因果,不如講機(jī)器學(xué)習(xí)和以結(jié)果為導(dǎo)向的研究思路讓我們變成這樣。但是,我們也要成認(rèn),大數(shù)據(jù)分析方式方法并不都是如此。比方,科學(xué)家在瑞士日內(nèi)瓦建造大型對(duì)撞機(jī),從中獲取了人類(lèi)歷史上最大規(guī)模的單位時(shí)間數(shù)據(jù),其目的是試圖解答關(guān)于因果關(guān)系的偉大問(wèn)題,即證明希格斯玻色子能否存在。對(duì)該問(wèn)題的深切進(jìn)入探究絕非僅僅期望于某種相關(guān)關(guān)系的驗(yàn)證。所以,周濤坦然:以為相關(guān)重于因果,是某些有代表性的大數(shù)據(jù)分析手段〔如機(jī)器學(xué)習(xí)〕里面內(nèi)稟的實(shí)用主義的魅影,絕非大數(shù)據(jù)本身的訴求。放棄了對(duì)因果的追求,就是放棄了人凌駕于計(jì)算機(jī)之上的智力優(yōu)勢(shì),是人類(lèi)本身的放縱和墮落。當(dāng)然,退一步講,我們完全想到相關(guān)性與因果性?xún)烧咧g并不是完全對(duì)立的關(guān)系。很多情況下,一旦我們完成了對(duì)大數(shù)據(jù)的相關(guān)關(guān)系分析,就會(huì)繼續(xù)研究更深層次因果關(guān)系,找出背后的因果機(jī)制。在任何時(shí)代,我們都希望用因果關(guān)系來(lái)講明所發(fā)現(xiàn)的互相關(guān)系,即便因果關(guān)系只是一種特殊的相關(guān)關(guān)系,相關(guān)關(guān)系分析也不能取代因果關(guān)系的作用。但是,反過(guò)來(lái)講,相關(guān)性分析卻能夠指導(dǎo)因果關(guān)系的發(fā)現(xiàn)。4.3.3大數(shù)據(jù)定律。如今,大數(shù)據(jù)時(shí)代下的數(shù)據(jù)產(chǎn)量驚人,近十年的知識(shí)增長(zhǎng)量等于過(guò)去人類(lèi)一百年的知識(shí)總量。技術(shù)層面,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的迅速擴(kuò)大,已經(jīng)導(dǎo)致數(shù)據(jù)豐富,信息貧乏,缺少知識(shí)的尷尬局面。于是,從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)〔KnowledgeDiscoveryinDatabases〕成為熱門(mén)。對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類(lèi)或聚類(lèi),挖掘數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則或者序列規(guī)則,分析作為孤立點(diǎn)的數(shù)據(jù)對(duì)象的異常行為,或者預(yù)測(cè)數(shù)據(jù)對(duì)象的演變趨勢(shì)等等,人們開(kāi)場(chǎng)關(guān)注發(fā)現(xiàn)知識(shí)任務(wù)的背景,關(guān)注怎樣描繪敘述知識(shí)表征的特征和類(lèi)型。所以,從普遍知識(shí)的獲取方面,知識(shí)產(chǎn)量以及我們的思維方式已經(jīng)在傳統(tǒng)的定律知識(shí)方面有了大幅度的擴(kuò)展。這就是大數(shù)據(jù)科學(xué)所引起了關(guān)于科學(xué)定律與解釋的一般性問(wèn)題。由于大數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 痛經(jīng)課件流程教學(xué)課件
- 手機(jī)原理課件教學(xué)課件
- 護(hù)士課件英語(yǔ)教學(xué)課件
- 公司機(jī)密保密協(xié)議
- 2024年市場(chǎng)營(yíng)銷(xiāo)與協(xié)作合同
- 2024年城市供水管道鋪設(shè)工程承包合同
- 2024可再生能源發(fā)電并網(wǎng)服務(wù)合同
- 2024年婚姻外遇協(xié)議書(shū)
- 2024年《夏令營(yíng)老師與營(yíng)員心理輔導(dǎo)協(xié)議》心理輔導(dǎo)內(nèi)容與保密原則
- 2024年企業(yè)間產(chǎn)品生產(chǎn)與銷(xiāo)售合同
- 2024新版七年級(jí)英語(yǔ)單詞表
- 2024年廣東省高職高考語(yǔ)文試卷及答案
- 2024至2030年中國(guó)眼部護(hù)理行業(yè)運(yùn)營(yíng)現(xiàn)狀與未來(lái)需求趨勢(shì)分析報(bào)告
- 圓圈正義讀書(shū)分享課件
- 四平事業(yè)單位筆試真題及答案2024
- 一年級(jí)數(shù)學(xué)上冊(cè)蘇教版《連加、連減》教學(xué)設(shè)計(jì)
- 北師大版數(shù)學(xué)二年級(jí)上冊(cè)小學(xué)數(shù)學(xué)口算、簡(jiǎn)算、計(jì)算、應(yīng)用題及能力提升訓(xùn)練檢測(cè)題(含答案)
- 跨文化商務(wù)交際課程教學(xué)大綱
- 學(xué)前兒童英語(yǔ)教育與活動(dòng)指導(dǎo)(學(xué)前教育專(zhuān)業(yè))全套教學(xué)課件
- 化工產(chǎn)品銷(xiāo)售管理制度
- 螺旋藻生物學(xué)特征課件講解
評(píng)論
0/150
提交評(píng)論