![機器學(xué)習(xí)對于經(jīng)濟學(xué)應(yīng)用研究的適用性,計量經(jīng)濟學(xué)論文_第1頁](http://file4.renrendoc.com/view/b582505af3ad23e6f1dacf972f8f58b2/b582505af3ad23e6f1dacf972f8f58b21.gif)
![機器學(xué)習(xí)對于經(jīng)濟學(xué)應(yīng)用研究的適用性,計量經(jīng)濟學(xué)論文_第2頁](http://file4.renrendoc.com/view/b582505af3ad23e6f1dacf972f8f58b2/b582505af3ad23e6f1dacf972f8f58b22.gif)
![機器學(xué)習(xí)對于經(jīng)濟學(xué)應(yīng)用研究的適用性,計量經(jīng)濟學(xué)論文_第3頁](http://file4.renrendoc.com/view/b582505af3ad23e6f1dacf972f8f58b2/b582505af3ad23e6f1dacf972f8f58b23.gif)
![機器學(xué)習(xí)對于經(jīng)濟學(xué)應(yīng)用研究的適用性,計量經(jīng)濟學(xué)論文_第4頁](http://file4.renrendoc.com/view/b582505af3ad23e6f1dacf972f8f58b2/b582505af3ad23e6f1dacf972f8f58b24.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
機器學(xué)習(xí)對于經(jīng)濟學(xué)應(yīng)用研究的適用性,計量經(jīng)濟學(xué)論文摘要:機器學(xué)習(xí)以數(shù)據(jù)、文本、圖片等現(xiàn)實經(jīng)歷體驗信息為研究對象,通過計算機與人工智能相結(jié)合的算法進行深度挖掘,對經(jīng)歷體驗現(xiàn)實進行建模與預(yù)測。因其對高維、復(fù)雜、大樣本數(shù)據(jù)的模型選擇和預(yù)測優(yōu)勢,應(yīng)用于經(jīng)濟學(xué)研究,尤其是微觀經(jīng)濟學(xué)、能源經(jīng)濟和金融市場領(lǐng)域。機器學(xué)習(xí)在數(shù)據(jù)發(fā)現(xiàn)與變量創(chuàng)造、預(yù)測、因果推斷、政策評估、理論檢驗等領(lǐng)域有較好的應(yīng)用,但其在經(jīng)濟學(xué)應(yīng)用研究中的作用與局限是值得注意的問題。本文關(guān)鍵詞語:機器學(xué)習(xí);經(jīng)濟研究;方式方法論;作用與局限;Abstract:Asafieldconcerningdata-drivenalgorithm,MachineLearningtakesrealexperienceinformationsuchasdata,text,andpicturesasresearchobjects,andperformsdeepminingthroughalgorithmscombiningcomputersandartificialintelligencetomodelandpredictempiricalreality.Duetoitsmodelselectionandpredictionadvantagesforhigh-dimensional,complexandlargesampledata,itisgeneratingnewopportunitiesforinnovativeresearchineconomics,especiallyinthefieldsofmicroeconomics,energyeconomyandfinancialmarkets.Machinelearninghasagoodapplicationinthefieldsofdatadiscoveryandvariablecreation,prediction,causalinference,policyevaluation,andtheoreticaltesting,butitsroleandlimitationsinappliedeconomicsresearcharealsonoteworthy.Keyword:machinelearning;economicresearch;economicsmethodology;capabilitiesandlimitations;隨著人工智能的興起,機器學(xué)習(xí)〔MachineLearning〕最初作為人工智能的一個分支,在各個領(lǐng)域迅速崛起,其對巨量、復(fù)雜信息的處理、預(yù)測能力和基于數(shù)據(jù)科學(xué)的各種算法體系,使其成為數(shù)字經(jīng)濟時代的創(chuàng)新驅(qū)動力之一?;ヂ?lián)網(wǎng)及大數(shù)據(jù)形式下的經(jīng)濟活動促使了更多高維、復(fù)雜經(jīng)歷體驗數(shù)據(jù)的產(chǎn)生,機器學(xué)習(xí)在科學(xué)研究領(lǐng)域的應(yīng)用為新范式下的經(jīng)濟研究提供了新型的研究方式方法,進而促使經(jīng)濟學(xué)研究由當(dāng)下的線性、低維、有限樣本、抽象模型向非線性、高維、大樣本、復(fù)雜模型的轉(zhuǎn)向。經(jīng)濟學(xué)實證研究及計量經(jīng)濟學(xué)模型理論研究中對機器學(xué)習(xí)的應(yīng)用及相關(guān)文獻的出現(xiàn),是這次轉(zhuǎn)向的主要標(biāo)志。2021年美國經(jīng)濟學(xué)年會上,蘇珊艾西〔SusanAthey)1初次提出機器學(xué)習(xí)方式方法對經(jīng)濟研究的影響,進一步引發(fā)了學(xué)界對機器學(xué)習(xí)的廣泛關(guān)注。應(yīng)用機器學(xué)習(xí)進行實證研究的英文文獻主要出現(xiàn)于微觀經(jīng)濟學(xué)、能源經(jīng)濟學(xué)和金融市場領(lǐng)域,隨著近兩年機器學(xué)習(xí)算法的不斷開發(fā),機器學(xué)習(xí)也開場嘗試應(yīng)用于宏觀領(lǐng)域的失業(yè)、通貨膨脹等問題。但應(yīng)用機器學(xué)習(xí)進行經(jīng)濟學(xué)實證研究的中文文獻還非常少,仍處于初始起步階段。機器學(xué)習(xí)范式作為一種新興數(shù)據(jù)驅(qū)動的模型體系,引起經(jīng)濟學(xué)界廣泛關(guān)注。機器學(xué)習(xí)模型體系與傳統(tǒng)的數(shù)理統(tǒng)計及計量經(jīng)濟學(xué)模型方式方法有何不同,其適用領(lǐng)域及在詳細應(yīng)用實踐中的作用怎樣?本文致力于對以上問題作出回答,并嘗試從更宏觀的方式方法論層面來理解機器學(xué)習(xí)范式的本質(zhì)及其在經(jīng)濟研究中的作用與局限。一、機器學(xué)習(xí)的內(nèi)涵界定機器學(xué)習(xí)的內(nèi)涵較為廣泛,當(dāng)前對機器學(xué)習(xí)的內(nèi)涵有多種界定,包括廣義的和狹義的兩方面。廣義的機器學(xué)習(xí)以為,機器學(xué)習(xí)是計算機科學(xué)的一些分支領(lǐng)域的集合,也是機器一系列在計算機科學(xué)、工程學(xué)、統(tǒng)計學(xué)尤其是社會科學(xué)中發(fā)展和使用。由于機器學(xué)習(xí)算法廣泛應(yīng)用于不同學(xué)科,不同領(lǐng)域或?qū)W科對機器學(xué)習(xí)的界定也不同。2狹義的機器學(xué)習(xí)則來自各個學(xué)科對機器學(xué)習(xí)的分別界定。如計算機科學(xué)以為,機器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心,是當(dāng)代人工智能的本質(zhì),機器學(xué)習(xí)簡單來講就是涵蓋了統(tǒng)計推斷的人工智能。工業(yè)和工程學(xué)等領(lǐng)域以為,機器學(xué)習(xí)是對能基于現(xiàn)有經(jīng)歷體驗自動改良計算機算法的研究[1](P1-2〕,這種算法對人工智能的發(fā)展具有關(guān)鍵的促進作用。統(tǒng)計學(xué)以為,機器學(xué)習(xí)是從數(shù)據(jù)中挖掘出有價值的信息,是更高層次層次、更智能化的數(shù)據(jù)挖掘方式方法。統(tǒng)計學(xué)對機器學(xué)習(xí)三個層次的劃分是基于計算機視覺理論創(chuàng)始人馬爾〔Marr〕關(guān)于計算機視覺的三級論定義的,他并將機器學(xué)習(xí)分為初級、中級和高級三個層次。[2](P19-45〕初級機器學(xué)習(xí)是獲取數(shù)據(jù)和提取數(shù)據(jù)特征;中級機器學(xué)習(xí)是數(shù)據(jù)處理與分析,包括應(yīng)用問題導(dǎo)向的模型和方式方法的應(yīng)用,也就是數(shù)據(jù)挖掘,但機器學(xué)習(xí)的數(shù)據(jù)挖掘更強調(diào)問題導(dǎo)向,重在提出和發(fā)展模型、方式方法及算法,并討論其背后的數(shù)學(xué)原理或理論基礎(chǔ);高級機器學(xué)習(xí)是通過統(tǒng)計推斷而到達某種智能與認(rèn)知。統(tǒng)計學(xué)以為,機器學(xué)習(xí)和數(shù)據(jù)挖掘具有一樣的本質(zhì),只是數(shù)據(jù)挖掘更偏向于數(shù)據(jù)端,而機器學(xué)習(xí)則偏向于智能端。計量經(jīng)濟學(xué)以為,機器學(xué)習(xí)是一種應(yīng)用計量經(jīng)濟學(xué)研究方式方法[3],是傳統(tǒng)計量經(jīng)濟學(xué)研究方式方法在數(shù)據(jù)處理與預(yù)測領(lǐng)域的一種進步,是大數(shù)據(jù)背景下計量經(jīng)濟學(xué)回歸分析及預(yù)測方式方法的發(fā)展,機器學(xué)習(xí)基于計算機的算法,其本質(zhì)是對計量經(jīng)濟學(xué)工具箱的一種豐富。經(jīng)濟學(xué)以為,機器學(xué)習(xí)是一個領(lǐng)域,旨在開發(fā)應(yīng)用于數(shù)據(jù)集的算法,這些算法主要集中于回歸〔預(yù)測〕、分類和聚類任務(wù),分為有監(jiān)督機器學(xué)習(xí)和無監(jiān)督機器學(xué)習(xí)兩類:有監(jiān)督的機器學(xué)習(xí)是在樣本數(shù)據(jù)或向量預(yù)先設(shè)定好標(biāo)簽〔一系列的預(yù)先假定,如分類的標(biāo)準(zhǔn)〕的前提下,總結(jié)出樣本向量的映射關(guān)系,如正則化回歸和分類;無監(jiān)督的機器學(xué)習(xí)是在沒有對樣本數(shù)據(jù)或向量設(shè)定任何標(biāo)簽的情況下,從數(shù)據(jù)中辨別出其內(nèi)部蘊含關(guān)系的一種挖掘工作3,聚類是典型的無監(jiān)督機器學(xué)習(xí)。從機器學(xué)習(xí)的算法出現(xiàn)及其學(xué)科應(yīng)用來看,機器學(xué)習(xí)具有計算機與人工智能的學(xué)科背景,涵蓋部分統(tǒng)計學(xué)學(xué)科內(nèi)容,研究方式方法具有高度兼容性,可應(yīng)用于各個領(lǐng)域、學(xué)科門類,對機器學(xué)習(xí)泛泛的廣義界定或基于某個領(lǐng)域、學(xué)科門類的狹義界定,都是不恰當(dāng)?shù)?。因而,基于對機器學(xué)習(xí)的研究對象、學(xué)科主旨、學(xué)科特點和方式方法論基礎(chǔ),我們對機器學(xué)習(xí)的內(nèi)涵作出如下界定:機器學(xué)習(xí)是旨在通過數(shù)據(jù)、文本、圖片等現(xiàn)實經(jīng)歷體驗信息,通過計算機算法來進行深度挖掘,進而對經(jīng)歷體驗現(xiàn)實進行建模及預(yù)測的一門科學(xué)。機器學(xué)習(xí)強大的數(shù)據(jù)、文本、圖片處理功能,基于計算機和人工智能的深度挖掘功能和基于數(shù)據(jù)、文本、圖像等高度復(fù)雜經(jīng)歷體驗信息的模型選擇及預(yù)測功能,使其廣泛應(yīng)用于現(xiàn)實世界的各個領(lǐng)域,并與各個領(lǐng)域現(xiàn)有研究方式方法相結(jié)合,演化并生成了合適各個領(lǐng)域獨特研究的系列機器學(xué)習(xí)算法,并伴隨著各領(lǐng)域的發(fā)展而不斷進化生成新的算法體系,這使得機器學(xué)習(xí)成為一門以多學(xué)科穿插共融為其首要特點的經(jīng)歷體驗科學(xué)。從機器學(xué)習(xí)本身的學(xué)科特征看,機器學(xué)習(xí)以現(xiàn)實的經(jīng)歷體驗信息為研究對象,以計算機和人工智能相結(jié)合的算法為研究方式方法,以數(shù)據(jù)科學(xué)、人工智能為算法邏輯基礎(chǔ),以對現(xiàn)實復(fù)雜的經(jīng)歷體驗信息進行系統(tǒng)化表示出與準(zhǔn)確預(yù)測為學(xué)科宗旨,以多領(lǐng)域的穿插共融的高度兼容性和進步性為學(xué)科特點。從機器學(xué)習(xí)學(xué)科的方式方法論基礎(chǔ)看,機器學(xué)習(xí)以邏輯實證主義為其方式方法論基礎(chǔ),以數(shù)據(jù)導(dǎo)向的研究形式為其研究范式,以模型與經(jīng)歷體驗信息的一致為其模型體系的特征。二、機器學(xué)習(xí)對于經(jīng)濟學(xué)應(yīng)用研究的適用性〔一〕經(jīng)濟研究領(lǐng)域的機器學(xué)習(xí)機器學(xué)習(xí)的研究方式方法主要包括有監(jiān)督機器學(xué)習(xí)和無監(jiān)督機器學(xué)習(xí)兩類。經(jīng)濟學(xué)研究領(lǐng)域,有監(jiān)督機器學(xué)習(xí)通常需要使用一組特征或變量〔X〕來預(yù)測結(jié)果〔Y〕,詳細操作就是將數(shù)據(jù)集分為訓(xùn)練集和測試集,訓(xùn)練集用來發(fā)現(xiàn)映射關(guān)系,測試集則用來檢驗訓(xùn)練集中總結(jié)出的映射關(guān)系。訓(xùn)練集中的觀測變量是設(shè)定了標(biāo)簽〔假定〕的,通過構(gòu)造X的估計值x〔x=E[Y|X=x]〕的一個估計量,在獨立數(shù)據(jù)集中估計Y的真實值,這里假定觀測是獨立的、訓(xùn)練集與測試集中的X與Y具有一樣的聯(lián)合分布。有監(jiān)督的機器學(xué)習(xí)方式方法主要包括回歸和分類,兩者主要特點是,回歸算法中的標(biāo)簽一般是連續(xù)的值,而分類算法中的標(biāo)簽一般是離散的值?;貧w,如預(yù)測房屋價值或油價,一般要根據(jù)房屋地理位置、房屋條件等標(biāo)簽或市場行情、油價歷史波動等標(biāo)簽,這里的房屋價值或油價是連續(xù)的數(shù)值。分類,如垃圾郵件挑選,標(biāo)簽為〔1,-1〕,分別表示垃圾郵件和非垃圾郵件,是非連續(xù)的。這里的回歸指正則化回歸,如套索估計〔LASSO〕、嶺回歸和彈性網(wǎng),分類包括隨機森林、回歸樹、支持向量機〔SVM〕、神經(jīng)網(wǎng)絡(luò)、矩陣分解等[4],有監(jiān)督機器學(xué)習(xí)還包括模型平均方式方法等。這里,套索估計、嶺回歸等作為高維回歸方式方法,已經(jīng)開場在經(jīng)濟研究中遭到較大關(guān)注。無監(jiān)督機器學(xué)習(xí)主要牽涉尋找具有類似變量的觀測聚類,可以解釋為降維,常用于視頻、圖像或文本樣本。典型的無監(jiān)督機器學(xué)習(xí)模型是對系列觀測的一種分區(qū),分區(qū)沒有標(biāo)簽的監(jiān)督,只要某些聚類特征,如每個子區(qū)間中的元素在某種度量方式上具有類似特征,概率向量或權(quán)重向量可以作為聚類特征,根據(jù)概率向量和權(quán)重向量進行分區(qū)。4無監(jiān)督機器學(xué)習(xí)將所有經(jīng)歷體驗信息輸入系統(tǒng)化為樣本信息,以數(shù)據(jù)驅(qū)動的方式,在宏大的信息中辨別并挖掘出有用信息,進而創(chuàng)造出可用于經(jīng)濟分析的解釋變量或被解釋變量。經(jīng)濟學(xué)研究中常用的無監(jiān)督機器學(xué)習(xí)包括K-平均算法、主題建模、社區(qū)發(fā)現(xiàn)等?!捕硻C器學(xué)習(xí)與統(tǒng)計學(xué)、計量經(jīng)濟學(xué)經(jīng)濟學(xué)領(lǐng)域中,機器學(xué)習(xí)的應(yīng)用常會與統(tǒng)計學(xué)、計量經(jīng)濟學(xué)相混淆,因此,首先將機器學(xué)習(xí)與統(tǒng)計學(xué)、計量經(jīng)濟學(xué)相對照,有利于我們更好地了解機器學(xué)習(xí)及其在經(jīng)濟學(xué)研究中的獨特適用性。作為多學(xué)科的穿插與融合,機器學(xué)習(xí)與統(tǒng)計學(xué)在很多研究內(nèi)容上都有重合。拉瑞瓦瑟曼〔LarryWasserman〕以為:這兩門學(xué)科〔機器學(xué)習(xí)和數(shù)理統(tǒng)計〕關(guān)心的是同一件事,即我們能從數(shù)據(jù)中學(xué)到什么,并指出統(tǒng)計學(xué)中的評估、分類器、數(shù)據(jù)點、回歸與分類、協(xié)變量、響應(yīng)理念可分別對應(yīng)于機器學(xué)習(xí)中的學(xué)習(xí)、假設(shè)、用例、有監(jiān)督學(xué)習(xí)、特征、標(biāo)記理念,以為兩個學(xué)科的這些詞匯在含義上是等同的。[5]機器學(xué)習(xí)和統(tǒng)計學(xué)都致力于從數(shù)據(jù)中獲取信息或規(guī)律,但是,這兩門學(xué)科的研究方式方法卻具有本質(zhì)的區(qū)別。首先,機器學(xué)習(xí)源于計算機科學(xué)與人工智能,它更多地關(guān)心怎樣構(gòu)建一個系統(tǒng)去分析數(shù)據(jù),也更注重模型的預(yù)測效果;源于數(shù)學(xué)的統(tǒng)計學(xué)是以數(shù)據(jù)為基礎(chǔ),利用數(shù)學(xué)方程式來探究變量變化規(guī)律,更注重模型的可解釋性。其次,機器學(xué)習(xí)并不必須對有關(guān)變量之間的潛在關(guān)系提出先驗假設(shè),只需通過算法辨別數(shù)據(jù)中潛在規(guī)律,并應(yīng)用規(guī)律于新數(shù)據(jù)進行預(yù)測;統(tǒng)計學(xué)則必須了解數(shù)據(jù)的生成經(jīng)過、分布規(guī)律、估計量的統(tǒng)計特征和期望參數(shù)的類型。最后,機器學(xué)習(xí)對復(fù)雜數(shù)據(jù)處理的能力,使其可適用于高維數(shù)據(jù)和復(fù)雜的高維模型,統(tǒng)計建模通常適用于相對低維的數(shù)據(jù)和低維模型。與計量經(jīng)濟學(xué)相比,機器學(xué)習(xí)旨在產(chǎn)生準(zhǔn)確可行的預(yù)測,而計量經(jīng)濟學(xué)旨在建立可靠的因果關(guān)系。計量經(jīng)濟學(xué)的主要目的是揭示變量間的因果關(guān)系,如x或Pr(Y=k|X=x〕估計量的構(gòu)造或表示出,重點討論其他條件不變的前提下,變量X變化對Y的影響。相比之下,機器學(xué)習(xí)旨在對經(jīng)歷體驗數(shù)據(jù)〔數(shù)據(jù)〕或經(jīng)歷體驗事實〔文本、圖像〕做出準(zhǔn)確的模型選擇和預(yù)測,重點不是估計量的構(gòu)造,而是最小化預(yù)測結(jié)果與真實結(jié)果之間的偏差,實現(xiàn)更為精到準(zhǔn)確的擬合與預(yù)測。固然機器學(xué)習(xí)與統(tǒng)計學(xué)、計量經(jīng)濟學(xué)側(cè)重點不同,但這并不阻礙機器學(xué)習(xí)與其他兩個框架的協(xié)同,這種協(xié)同與互補使機器學(xué)習(xí)在經(jīng)濟學(xué)的應(yīng)用研究中獨具適用性。首先,發(fā)現(xiàn)數(shù)據(jù)方面,機器學(xué)習(xí)能夠發(fā)現(xiàn)數(shù)據(jù),進而用于創(chuàng)造計量模型估計中的被解釋變量〔Y〕。如Athey等在研究西班牙谷歌新聞的關(guān)閉對消費者閱讀新聞類型的影響時,將被閱讀的不同類別新聞份額設(shè)定為被解釋變量,應(yīng)用無監(jiān)督學(xué)習(xí)對新聞進行分類,使用網(wǎng)絡(luò)理論中的社區(qū)檢測技術(shù)進行分析。[6]其次,模型設(shè)定與選擇方面,機器學(xué)習(xí)適用于復(fù)雜、高維的大數(shù)據(jù)分析,與計量經(jīng)濟學(xué)相結(jié)合,能夠構(gòu)建高維的復(fù)雜計量模型,機器學(xué)習(xí)的模型選擇方式方法可以用于躲避不當(dāng)?shù)挠嬃磕P驮O(shè)定。最后,模型估計方面,計量經(jīng)濟學(xué)模型應(yīng)用機器學(xué)習(xí)技術(shù)能夠估計更逼近經(jīng)歷體驗現(xiàn)實的復(fù)雜模型。如能夠使用機器學(xué)習(xí)方式方法,對超多種商品進行分析,研究消費者對商品組合的偏好,進而討論幾萬種組合可能性?!踩硻C器學(xué)習(xí)的優(yōu)勢與實現(xiàn)機器學(xué)習(xí)最突出的優(yōu)勢在于對大樣本、高維度數(shù)據(jù)的處理與預(yù)測,其靈敏的功能形式能夠適應(yīng)不同的數(shù)據(jù)構(gòu)造,更好地預(yù)測樣本。有監(jiān)督的機器學(xué)習(xí)算法致力于獲取對Y的更好預(yù)測,如基于N個樣本的觀測特征X來預(yù)測Y,機器學(xué)習(xí)會設(shè)定損失函數(shù)L(y^,y〕,并在數(shù)據(jù)中找到具有較低期望預(yù)期〔E(y,x)[L(y^,y〕]〕的損失函數(shù)f^,用于樣本的預(yù)測。如一個住房調(diào)查的應(yīng)用研究顯示,套索、回歸樹、隨機森林、機器學(xué)習(xí)集成法等機器學(xué)習(xí)方式方法樣本內(nèi)與樣本外的預(yù)測都更優(yōu)于普通最小二乘法,在中等規(guī)樣子容貌本和有限變量的情況下機器學(xué)習(xí)的預(yù)測仍保有優(yōu)勢。[7]除此之外,機器學(xué)習(xí)的模型檢驗范式主要采用穿插驗證法,K折穿插驗證法的應(yīng)用最為廣泛。穿插驗證的基本思路是在數(shù)據(jù)量缺乏的情況下,通過切分給定數(shù)據(jù)集,將數(shù)據(jù)集重新組合為訓(xùn)練集與測試集,重復(fù)使用數(shù)據(jù)進行訓(xùn)練、測試和模型選擇。穿插驗證即便在小樣本下都顯示出良好的性能,對于大樣本,有效性就更為凸顯。三、機器學(xué)習(xí)在經(jīng)濟學(xué)中的應(yīng)用〔一〕數(shù)據(jù)發(fā)現(xiàn)與變量創(chuàng)造隨著網(wǎng)絡(luò)與人工智能的發(fā)展,經(jīng)濟學(xué)研究尤其是微觀經(jīng)濟學(xué)研究日趨大數(shù)據(jù)化,機器學(xué)習(xí)能夠處理高維非常規(guī)數(shù)據(jù)、圖像和文本信息,進而發(fā)現(xiàn)新數(shù)據(jù)、創(chuàng)造新變量。如機器學(xué)習(xí)對衛(wèi)星圖像的處理就提供了有意義的經(jīng)濟數(shù)據(jù),不僅能夠科學(xué)討論夜間燈光度與經(jīng)濟產(chǎn)出之間的關(guān)系[8],還能夠根據(jù)衛(wèi)星圖像來預(yù)估將來農(nóng)產(chǎn)品產(chǎn)出規(guī)模[9],引出了一系列關(guān)于衛(wèi)星數(shù)據(jù)的經(jīng)濟增長研究。在缺乏相對可靠的經(jīng)濟產(chǎn)出數(shù)據(jù)的情況下,新數(shù)據(jù)顯得尤為重要,尤其是對發(fā)展中國家貧困問題的研究,機器學(xué)習(xí)提供了大量的可追蹤數(shù)據(jù)。[10]機器學(xué)習(xí)還能夠通過辨別文本信息來提供新數(shù)據(jù)來源。如通過辨別網(wǎng)上消費者對產(chǎn)品或服務(wù)的在線文本評價來獲得相關(guān)消費者消費偏好的數(shù)據(jù)信息,可以通過在線評價數(shù)據(jù)來對餐廳的受歡迎程度、衛(wèi)生達標(biāo)程度等進行預(yù)測。[11]機器學(xué)習(xí)還能夠用來創(chuàng)造新變量,如研究西班牙谷歌新聞的關(guān)閉對消費者閱讀新聞類型的影響,這里被閱讀的不同類別新聞?wù)急仁潜唤忉屪兞?。[6]使用無監(jiān)督機器學(xué)習(xí)開創(chuàng)建立變量還有一個優(yōu)點,就是不需要解釋變量,如樣本分割法的模型設(shè)定與調(diào)整,與傳統(tǒng)的計量經(jīng)濟學(xué)基于解釋變量來調(diào)整模型設(shè)定不同,樣本分割的模型調(diào)整是基于一個樣本的,進而會減少解釋變量與被解釋變量之間偽回歸問題的產(chǎn)生?!捕愁A(yù)測機器學(xué)習(xí)的宗旨是獲得準(zhǔn)確的預(yù)測。與統(tǒng)計學(xué)不同,機器學(xué)習(xí)不需對函數(shù)形式、變量間的互相作用和參數(shù)的統(tǒng)計分布來做先驗假定,機器學(xué)習(xí)更注重的是對構(gòu)造化和非構(gòu)造化數(shù)據(jù)做出準(zhǔn)確預(yù)測。這使得機器學(xué)習(xí)算法更適用于能源價格的預(yù)測。由于能源商品價格具有非線性、滯后依靠、非平穩(wěn)性和波動性聚類等復(fù)雜特性,這使得簡單的傳統(tǒng)模型預(yù)測具有挑戰(zhàn)性,機器學(xué)習(xí)方式方法在處理復(fù)雜的內(nèi)部動態(tài)時具有更高層次的靈敏性,因此具有更卓越的預(yù)測性能。支持向量機〔SVM〕,人工神經(jīng)網(wǎng)絡(luò)〔ANN〕和遺傳算法〔GA〕是能源經(jīng)濟學(xué)研究中最常用的方式方法,用于預(yù)測能源商品價格、預(yù)測或模擬能源消費及需求。為了提高預(yù)測的準(zhǔn)確性,多種機器學(xué)習(xí)算法被組合使用,如基于經(jīng)歷體驗形式分解〔EMD〕的神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)〔NNEL〕方式方法。機器學(xué)習(xí)與傳統(tǒng)計量經(jīng)濟學(xué)方式方法的結(jié)合成為經(jīng)濟學(xué)應(yīng)用機器學(xué)習(xí)進行預(yù)測的一個趨勢,如動態(tài)非線性自回歸模型〔NARX〕,集合經(jīng)歷體驗形式分解模型〔EEMD〕,由最小二乘支持向量機模型〔LeastSquareSVM〕和粒子群優(yōu)化模型〔PSO〕結(jié)合產(chǎn)生的LSSVM-PSO模型,廣義自回歸條件異方差模型〔GARCH〕等,都是機器學(xué)習(xí)與計量經(jīng)濟學(xué)模型的結(jié)合使用。除此之外,傳統(tǒng)的計量經(jīng)濟學(xué)時間序列向量自回歸〔VAR〕模型也與隨機森林相結(jié)合使用,能夠克制原來VAR模型中的弱點,提高預(yù)測能力。除此之外,幾種機器學(xué)習(xí)方式方法混合起來使用也是一種新趨勢?;旌鲜褂脮@著提高預(yù)測的準(zhǔn)確性,也具有更高層次的通用性和實用性。如螢火蟲算法〔FA〕與最小二乘SVR(LSSVR〕混合使用構(gòu)成的FA-LSSVR算法,統(tǒng)計上證實FA-LSSVR模型比其他機器學(xué)習(xí)算法單獨使用,或比現(xiàn)有傳統(tǒng)計量經(jīng)濟模型、AI模型,在預(yù)測的精到準(zhǔn)確性方面更有優(yōu)勢。[12]機器學(xué)習(xí)方式方法強大的樣本外預(yù)測能力,對異構(gòu)數(shù)據(jù)和大規(guī)模數(shù)據(jù)的處理能力,如深度學(xué)習(xí)〔DL〕對異構(gòu)數(shù)據(jù)的處理能力,對數(shù)據(jù)質(zhì)量的低敏感度的處理,使得機器學(xué)習(xí)在經(jīng)濟研究中具有更好地讓數(shù)據(jù)講話的功能?!踩骋蚬茢嘤斜O(jiān)督機器學(xué)習(xí)的模型選擇是以對測試樣本的最優(yōu)擬合為基礎(chǔ)的,其目的是準(zhǔn)確預(yù)測。因而,機器學(xué)慣用于因果推斷,需要改變原有的目的函數(shù)。因果推斷是經(jīng)濟學(xué)應(yīng)用研究的重要方面,近兩年,機器學(xué)習(xí)也越來越多地被應(yīng)用于因果推斷。機器學(xué)慣用于因果推斷的一個方面是處理效應(yīng),包括非混淆假設(shè)下平均處理效應(yīng)的估計和處理效應(yīng)異質(zhì)性的估計。[13]正則化回歸的雙選方式方法是機器學(xué)習(xí)最早應(yīng)用于因果推斷的算法,用于處理存在多個協(xié)變量、結(jié)果模型稀疏的情況,近期雙重機器學(xué)習(xí)算法也被用來估計非混淆假設(shè)下的平均處理效應(yīng)。因果樹〔causaltrees〕和因果森林〔causalforests〕被應(yīng)用于處理效應(yīng)異質(zhì)性的估計,這里異質(zhì)性指的是觀察到的協(xié)變量的異質(zhì)性。因果樹算法應(yīng)用于經(jīng)濟學(xué)田野實驗,產(chǎn)生了關(guān)于異質(zhì)性的可信的和可解釋的結(jié)果。因果樹也與計量經(jīng)濟學(xué)方式方法結(jié)合使用,如與高斯混合模型〔GMM模型〕共同使用,用于建立GMM模型中異質(zhì)性的分類樹。因果森林本質(zhì)上是基于不同樣本的因果樹的均值,某種角度上能夠被看作為一種近期鄰匹配方式方法,技術(shù)上是通過構(gòu)建漸進正太性獲得用于預(yù)測的隨機森林,再將結(jié)果拓展到因果推斷。近年來,因果森林框架又拓展至模型的非參數(shù)異質(zhì)性,這里的模型指所有可通過GMM方式方法進行參數(shù)估計的模型,這種廣義隨機森林[14]能夠作為傳統(tǒng)方式方法的替代方式方法,如局部廣義矩方式方法或局部最大似然法。機器學(xué)習(xí)還能夠應(yīng)用于矩陣完成和構(gòu)造模型,進行因果關(guān)系的討論。當(dāng)觀測數(shù)據(jù)矩陣存在缺失,如地區(qū)或時期數(shù)據(jù)缺失,機器學(xué)習(xí)方式方法能夠使用兩個或多個低秩矩陣來逼近存在數(shù)據(jù)缺失的復(fù)雜矩陣。構(gòu)造模型中,機器學(xué)習(xí)算法可應(yīng)用于消費者選擇領(lǐng)域中,大數(shù)據(jù)條件下的貝葉斯類模型估計。四、機器學(xué)習(xí)在應(yīng)用中需注意的問題為了更好地理解機器學(xué)習(xí)在經(jīng)濟研究中的地位和作用,我們將機器學(xué)習(xí)置于更宏大的框架經(jīng)濟學(xué)方式方法論框架下,客觀認(rèn)識機器學(xué)習(xí)在經(jīng)濟學(xué)研究中的方式方法論本質(zhì),進而從一個更清楚明晰的視閾來看待機器學(xué)習(xí)范式在經(jīng)濟研究中的作用與局限,以便更科學(xué)地使用機器學(xué)習(xí)研究方式方法。〔一〕機器學(xué)習(xí)的方式方法論本質(zhì)1.方式方法論基礎(chǔ)上,機器學(xué)習(xí)是邏輯實證主義的一種深化機器學(xué)習(xí)在經(jīng)濟學(xué)研究中的應(yīng)用,究其方式方法論本質(zhì),是與計量經(jīng)濟學(xué)同源的邏輯實證主義方式方法論。5邏輯實證主義以為,源于經(jīng)歷體驗數(shù)據(jù)的歸納推理是知識的重要來源,知識是由數(shù)學(xué)、邏輯學(xué)思維和經(jīng)歷體驗觀測組成,人類對知識的認(rèn)知應(yīng)以經(jīng)歷體驗事實為基礎(chǔ)、運用邏輯工具將其體系化,進而從現(xiàn)有體系推演出新的結(jié)論,并以經(jīng)歷體驗觀測的方式進行驗證。機器學(xué)習(xí)以觀測數(shù)據(jù)、文本或圖片等經(jīng)歷體驗觀測信息為研究對象,以計算機和人工智能相結(jié)合的邏輯算法為研究方式方法,詳細操作時將觀測分為訓(xùn)練集和測試集,訓(xùn)練集針對觀測進行推理歸納,測試集針對歸納結(jié)果進行檢驗。從詳細應(yīng)用方式及經(jīng)過來看,機器學(xué)習(xí)研究范式是對邏輯實證主義的再現(xiàn)。同時,機器學(xué)習(xí)更是邏輯實證主義在人工智能和大數(shù)據(jù)時期的一種深化。首先,從研究對象來看,機器學(xué)習(xí)能夠處理更大規(guī)模、更復(fù)雜情況的經(jīng)歷體驗觀測,相對于計量經(jīng)濟學(xué)或數(shù)理統(tǒng)計模型方式方法,機器學(xué)習(xí)對經(jīng)歷體驗觀測的處理更具優(yōu)勢,其模型選擇更逼近經(jīng)歷體驗現(xiàn)實;其次,從對知識認(rèn)知的體系化經(jīng)過來看,機器學(xué)習(xí)也是以經(jīng)歷體驗事實為基礎(chǔ)并運用邏輯工具將其體系化,但機器學(xué)習(xí)對經(jīng)歷體驗事實的觀測、推理和歸納,是基于計算機和人工智能的結(jié)合,是對復(fù)雜經(jīng)歷體驗事實〔數(shù)據(jù)〕的推理、歸納和運算,是數(shù)學(xué)、邏輯學(xué)思維的高度體系化。最后,機器學(xué)習(xí)采用穿插驗證的方式,即將原始觀測分成訓(xùn)練集和測試集,將訓(xùn)練集歸納的結(jié)果在測試集進行檢驗,屢次劃分,循環(huán)驗證,是邏輯實證主義經(jīng)歷體驗觀測驗證的深化。2.研究范式上,機器學(xué)習(xí)是數(shù)據(jù)導(dǎo)向研究范式的一種優(yōu)化機器學(xué)習(xí)對經(jīng)歷體驗信息〔數(shù)據(jù)、文本或圖像〕的處理,是通過計算機及人工智能將經(jīng)歷體驗信息系統(tǒng)化為數(shù)據(jù)信息,并以數(shù)據(jù)為驅(qū)動,基于經(jīng)歷體驗數(shù)據(jù)的模型選擇及預(yù)測是機器學(xué)習(xí)的突出優(yōu)勢。機器學(xué)習(xí)這一特征,與計量經(jīng)濟學(xué)及數(shù)理經(jīng)濟學(xué)的研究范式一致,同屬于數(shù)據(jù)導(dǎo)向的研究范式。數(shù)據(jù)導(dǎo)向的研究范式強調(diào)讓數(shù)據(jù)講話,將數(shù)據(jù)關(guān)系作為模型設(shè)定基礎(chǔ),并根據(jù)數(shù)據(jù)關(guān)系決定其所表述的經(jīng)濟主體之間的關(guān)系。但數(shù)據(jù)僅僅是經(jīng)濟活動主體之間現(xiàn)實關(guān)系的映射,是結(jié)果而非原因,只要在充分分析經(jīng)濟主具體表現(xiàn)出實關(guān)系的基礎(chǔ)上討論數(shù)據(jù)關(guān)系,才能準(zhǔn)確地確定模型形式。因而,經(jīng)濟學(xué)研究又轉(zhuǎn)向了理論與數(shù)據(jù)綜合的關(guān)系導(dǎo)向研究范式。6將機器學(xué)習(xí)置于經(jīng)濟學(xué)研究范式的發(fā)展歷程來看,能夠較為明顯地判定出,機器學(xué)習(xí)屬于數(shù)據(jù)導(dǎo)向的研究范式,其眾多算法在發(fā)現(xiàn)數(shù)據(jù)、創(chuàng)造變量、更好地圍繞大規(guī)模復(fù)雜數(shù)據(jù)進行模型選擇方面的奉獻,是對數(shù)據(jù)導(dǎo)向研究范式的一種偏向數(shù)據(jù)端的優(yōu)化。同樣,可以較明顯地發(fā)現(xiàn),機器學(xué)習(xí)研究范式體系里缺少了相應(yīng)的理論及關(guān)系部分的分析內(nèi)容。3.模型體系上,機器學(xué)習(xí)是模型與經(jīng)歷體驗數(shù)據(jù)的一致基于現(xiàn)實復(fù)雜、高維、動態(tài)數(shù)據(jù)進行模型選擇,在模型體系方面,機器學(xué)習(xí)的模型體系充分具體表現(xiàn)出了模型與經(jīng)歷體驗數(shù)據(jù)的一致。模型方式方法一直是經(jīng)濟學(xué)應(yīng)用研究中的主要方式方法,模型體系中,經(jīng)濟模型與經(jīng)濟理論、經(jīng)歷體驗現(xiàn)實的三位一體是經(jīng)濟學(xué)模型方式方法科學(xué)性的重要具體表現(xiàn)出。模型是真實世界的構(gòu)造表示,修辭學(xué)清楚地對理論模型與經(jīng)歷體驗?zāi)P妥鞒隽私缍ǎ碚撃P痛砝碚?,?jīng)歷體驗?zāi)P痛碚鎸嵤澜?,科學(xué)的經(jīng)濟研究模型,要求理論模型與經(jīng)歷體驗?zāi)P鸵恢?,?jīng)歷體驗?zāi)P团c數(shù)據(jù)一致,也就是理論、模型與經(jīng)歷體驗現(xiàn)實三者的一致。[15](P121-122〕機器學(xué)習(xí)的模型體系中,數(shù)據(jù)愈加大規(guī)?;?、復(fù)雜化,模型愈加高維化,模型選擇取決于數(shù)據(jù)特征。因而,機器學(xué)習(xí)模型體系中,模型與數(shù)據(jù)的一致性要高于數(shù)理經(jīng)濟學(xué)和計量經(jīng)濟學(xué)中的模型方式方法,基本實現(xiàn)了模型與經(jīng)歷體驗數(shù)據(jù)的一致。但這里也存在一個較為明顯的方面,科學(xué)的經(jīng)濟學(xué)模型體系要求模型與經(jīng)濟理論、經(jīng)歷體驗現(xiàn)實的三位一體,機器學(xué)習(xí)模型體系中缺少了經(jīng)濟理論這一部分?!捕硻C器學(xué)習(xí)的作用與局限從機器學(xué)習(xí)方式方法論的本質(zhì)可見,機器學(xué)習(xí)模型最大的優(yōu)勢具體表現(xiàn)出在強大的數(shù)據(jù)端功能上,能夠更好地讓數(shù)據(jù)講話,能夠基于對更大規(guī)模、更復(fù)雜的數(shù)據(jù)建立更貼近經(jīng)歷體驗現(xiàn)實的模型體系,更好地發(fā)揮經(jīng)歷體驗數(shù)據(jù)的映射作用。經(jīng)濟模型是經(jīng)濟活動經(jīng)歷體驗現(xiàn)實的似真與近律,數(shù)理統(tǒng)計模型和計量經(jīng)濟學(xué)模型基于經(jīng)歷體驗數(shù)據(jù)的建模經(jīng)過中,從可能機制到經(jīng)歷體驗?zāi)P屯茖?dǎo)的經(jīng)過并不正式、經(jīng)歷體驗?zāi)P团c經(jīng)歷體驗數(shù)據(jù)生成經(jīng)過也并不嚴(yán)格一致,模型方式方法存在著方式方法論上固有的非精到準(zhǔn)確性。[16]傳統(tǒng)的數(shù)理統(tǒng)計模型和計量經(jīng)濟學(xué)模型對復(fù)雜數(shù)據(jù)的處理能力相對較低,使其模型與經(jīng)歷體驗現(xiàn)實的似真程度也就相對較低。機器學(xué)習(xí)則在這方面獨具優(yōu)勢,進而模型體系在經(jīng)濟研究中能更好地逼近經(jīng)歷體驗現(xiàn)實。機器學(xué)習(xí)在方式方法論本質(zhì)上的優(yōu)勢,同時也是其方式方法論層面固有的局限。從方式方法論基礎(chǔ)來看,邏輯實證主義的顯著特征具體表現(xiàn)出在重視觀測和證實,但反對因果、不重視解釋。[17](P139-150〕對經(jīng)歷體驗數(shù)據(jù)的重視和復(fù)雜觀測的處理能力是機器學(xué)習(xí)毋庸置疑的優(yōu)勢,但邏輯實證主義的缺乏在機器學(xué)習(xí)范式上也具體表現(xiàn)出得較為明顯:首先,先驗假設(shè)方面,機器學(xué)習(xí)沒有像統(tǒng)計學(xué)或計量經(jīng)濟學(xué)那樣重視假設(shè),導(dǎo)致對數(shù)據(jù)生成經(jīng)過方面的討論不夠充分,固然決策樹之類的算法能夠辨別每個特征的影響以及特征之間的線性和非線性關(guān)系,但還有一些機器學(xué)習(xí)方式方法,如人工神經(jīng)網(wǎng)絡(luò)〔ANN〕和支持向量機〔SVM〕,還是黑盒子范式,與更透明的線性回歸模型相比,其結(jié)果的獲得經(jīng)過更難以理解。其次,因果關(guān)系方面,因果關(guān)系不是機器學(xué)習(xí)討論的重點,這也是其與計量經(jīng)濟學(xué)較明顯的差異。最后,模型可解釋性方面,機器學(xué)習(xí)不重視模型可解釋性,這是其與統(tǒng)計學(xué)較大的差異。從研究范式和模型體系來看,機器學(xué)習(xí)的研究范式和模型體系中都缺少了經(jīng)濟研究中的核心內(nèi)容:經(jīng)濟理論。對于經(jīng)濟研究而言,理論的高度決定了研究的高度。數(shù)理模型或計量模型對經(jīng)濟理論的討論主要通過基于經(jīng)濟理論的先驗假定、理論模型設(shè)定和因果影響〔參數(shù)〕的估計來實現(xiàn)的。機器學(xué)習(xí)通過開發(fā)新算法和與傳統(tǒng)計量經(jīng)濟學(xué)方式方法相結(jié)合,來討論因果推斷問題,但機器學(xué)習(xí)對因果推斷的討論側(cè)重于算法的創(chuàng)新,因果關(guān)系或構(gòu)造關(guān)系的研究還未成為機器學(xué)習(xí)范式的主要內(nèi)容。同時,機器學(xué)習(xí)仍側(cè)重于數(shù)據(jù)驅(qū)動環(huán)節(jié),其模型體系暫時還未實現(xiàn)經(jīng)歷體驗數(shù)據(jù)、模型與經(jīng)濟理論的三位一體。對于經(jīng)濟學(xué)應(yīng)用研究,需要明確的是,無論在研究的方式方法論層面還是詳細實踐層面,思想相比于工具都是更重要的。因而,在應(yīng)用機器學(xué)習(xí)研究范式之前要先確定研究的目的是什么,是預(yù)測、解釋還是因果關(guān)系,假如是后兩者,則在使用機器學(xué)習(xí)范式的同時,更應(yīng)致力于了解經(jīng)濟活動背后的可能理論體系,了解數(shù)據(jù)所映射的經(jīng)濟現(xiàn)實中真實經(jīng)濟主體之間的關(guān)系,使機器學(xué)習(xí)范式在更好的發(fā)揮數(shù)據(jù)端作用的同時,進一步提升機器學(xué)習(xí)研究范式的科學(xué)性?!踩硲?yīng)用中的一些詳細問題在理解機器學(xué)習(xí)范式的方式方法論本質(zhì),進而明了其在經(jīng)濟研究中的作用與局限的基礎(chǔ)上,詳細應(yīng)用時,還應(yīng)注意一些細節(jié)問題,了解機器學(xué)習(xí)算法的優(yōu)缺點,以便正確地使用機器學(xué)習(xí)范式,確保其研究結(jié)果的科學(xué)性與可信性。關(guān)于機器學(xué)習(xí)范式中經(jīng)濟理論的缺位,機器學(xué)習(xí)模型體系缺少經(jīng)濟理論的指導(dǎo)和先驗假定的約束。經(jīng)濟思想的討論是經(jīng)濟研究的核心,數(shù)量經(jīng)濟研究的主旨之一是通過數(shù)量的精到準(zhǔn)確性來解釋、闡述和證明理論及思想的正確性,從這一角度來講,機器學(xué)習(xí)范式是一種工具,一種講明、闡釋和證偽的工具。因而,在應(yīng)用機器學(xué)習(xí)進行經(jīng)濟研究時,不能舍本逐末,只專注于算法的創(chuàng)新而忽視研究要展示的主題和思想。理論的高度決定研究的高度,講清楚問題與機制也需要有經(jīng)濟理論,因而,使用機器學(xué)習(xí)算法,應(yīng)注重理論與實證的結(jié)合。關(guān)于機器學(xué)習(xí)結(jié)果的精到準(zhǔn)確性,幾乎所有的機器學(xué)習(xí)或深度學(xué)習(xí)都存在一定程度的誤判率,誤判率幾乎是無法消除的,只能在使用經(jīng)過中盡可能地正確使用每種方式方法,將誤判率降到最低;傳統(tǒng)機器學(xué)習(xí)中回歸、分類這些算法里都有一個要把獲取到的數(shù)據(jù)集分成訓(xùn)練集和測試集的經(jīng)過。用訓(xùn)練集數(shù)據(jù)來做訓(xùn)練、歸納關(guān)系,用測試集數(shù)據(jù)來做驗證、避免過度擬合,訓(xùn)練集與測試集的樣本量劃分,通常會按總樣本量的8∶2或7∶3進行劃分,沒有確定的標(biāo)準(zhǔn),劃分上主觀性較強,一定程度上可能會影響機器學(xué)習(xí)結(jié)果的精到準(zhǔn)確性。關(guān)于機器學(xué)習(xí)模型的可解釋性,在詳細應(yīng)用時常會在模型的可解釋性和過度擬合的風(fēng)險之間進行權(quán)衡,當(dāng)模型包含變量相對樣本大小太多時就會有過度擬合問題。[3]存在過度擬合問題時,選用模型在訓(xùn)練集的擬合良好程度會明顯優(yōu)于其在獨立測試集的擬合表現(xiàn)。詳細應(yīng)用時能夠使用穿插驗證方式方法來避免過度擬合問題,或通過最小化均方誤差來確定模型的復(fù)雜程度,或是對多種不同模型取平均,有時是對每個子樣本進行估計〔如隨機森林〕。關(guān)于機器學(xué)習(xí)的穩(wěn)健性,機器學(xué)習(xí)算法專注于非線性和動態(tài)特性,這也使得它們在模型設(shè)定和訓(xùn)練集估計方面不那么穩(wěn)健。因而詳細應(yīng)用中,在設(shè)置和校準(zhǔn)機器學(xué)習(xí)算法時需要十分注意這個問題,由于數(shù)據(jù)集中的任一微小變化可能會導(dǎo)致不同的結(jié)果。由于此屬性,建議應(yīng)用機器學(xué)習(xí)進行模型設(shè)定和模型選擇時,進行多種模型設(shè)定檢驗和穩(wěn)健性檢驗,使用驗證數(shù)據(jù)集校準(zhǔn)模型,并且只要在校準(zhǔn)模型后,才使用測試數(shù)據(jù)集對其進行評估。關(guān)于機器學(xué)習(xí)的樣本要求,機器學(xué)習(xí)算法通常需要大樣本對大量觀察進行適當(dāng)?shù)赜?xùn)練和測試,尤其是復(fù)雜模型。對樣本的要求,也是在宏觀經(jīng)濟學(xué)等領(lǐng)域應(yīng)用機器學(xué)習(xí)的一個主要限制,宏觀經(jīng)濟領(lǐng)域的觀測數(shù)量相對有限,通常是50到100個觀測的樣本量。機器學(xué)習(xí)需要充分的數(shù)據(jù)來對數(shù)據(jù)分布特征進行正確地表示,不過當(dāng)數(shù)據(jù)相對缺乏時,幾種機器學(xué)習(xí)方式方法的混合使用,能夠一定程度上降低數(shù)據(jù)缺乏引發(fā)的模型選擇風(fēng)險。[18]除此之外,還應(yīng)將經(jīng)濟理論作為模型變量的選擇指南,尤其是宏觀經(jīng)濟領(lǐng)域的研究,如通貨膨脹、失業(yè)等問題及數(shù)據(jù)頻率不高時的能源消費問題的研究,在模型選擇時更應(yīng)注重經(jīng)濟理論。關(guān)于機器學(xué)習(xí)在經(jīng)濟研究應(yīng)用中的趨勢,機器學(xué)習(xí)方式方法與計量經(jīng)濟學(xué)模型方式方法、數(shù)理統(tǒng)計學(xué)模型方式方法固然源自不同分支,但三者之間的差距正在不斷縮小,呈現(xiàn)出顯著的互相學(xué)習(xí)和借鑒的趨勢,機器學(xué)習(xí)方式方法正與傳統(tǒng)計量經(jīng)濟學(xué)方式方法相結(jié)合,相互補充,應(yīng)用于經(jīng)濟學(xué)應(yīng)用研究。大數(shù)據(jù)及人工智能提供了史無前例的數(shù)據(jù)量和不斷創(chuàng)新的研究方式方法,隨著數(shù)據(jù)科學(xué)的發(fā)展,將來三者之間的聯(lián)絡(luò)將會愈加嚴(yán)密,甚至逐步通過互補而趨同。同時,由于機器學(xué)習(xí)在經(jīng)濟學(xué)應(yīng)用研究中的進一步使用,經(jīng)濟學(xué)研究內(nèi)容上也將更具包涵性,更趨向于跨學(xué)科或多學(xué)科穿插研究。以下為參考文獻[1]MitchellT.MachineLearning[M].NewYork:McGrawHillHigherEducation,1997.[2]Marr,D.Vision:AComputationalApproach[M].SanFrancisco:FreemanCo,1982.[3]SendhilMullainathanandJannSpiess.MachineLearning:AnAppliedEconometricApproach[J].JournalofEconomicPerspectives,2021(2).[4]H.R.Varian.BigData:NewTricksforEconometrics[J].TheJournalofEconomicPerspectives,2020(2).[5]LarryWasserman.ThoughtsonStatisticsandMachineLearning[EB/OL].,2020-12-16.[6]SAthey,MMMobiusandJPal.TheImpactofAggregatorsonInternetNewsConsumption[EB/OL]./gsb-cmis/gsb-cmis-download-auth/406636,2021-10-31.[7]Ludwig,Jens,SendhilMullainathanandJannSpiess.MachineLearningTestsforEffectsonMultipleOutcomes[EB/OL]./abs/2021arXiv170701473L/abstract,2021-07-10.[8]Henderson,JVernon,AdamStoreygardandDavidNWeil.MeasuringEconomicGrowthfromOuterSpace[J].AmericanEconomicReview,2020(2).[9]Lobell,DavidB.TheUseofSatelliteDataforCropYieldGapAnalysis[J].FieldCropsResearch,2020(143).[10]Jean,Neal,MarshallBurke,M
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 魯人版道德與法治九年級上冊11.1《合同是當(dāng)事人之間的法律》聽課評課記錄
- 滬教版數(shù)學(xué)九年級下冊27.1《圓的基本性質(zhì)》聽評課記錄
- 人教版地理七年級下冊第三節(jié)《撒哈拉以南的非洲》聽課評課記錄1
- 人教版七年級數(shù)學(xué)下冊 聽評課記錄5.1.3 第1課時《同位角、內(nèi)錯角、同旁內(nèi)角》
- 蘇科版數(shù)學(xué)七年級下冊聽評課記錄7.5多邊形的內(nèi)角和與外角和
- 聽評課記錄表8篇二年級
- 【部編版】道德與法治九年級下冊2.1《推動和平與發(fā)展》聽課評課記錄
- 湘教版數(shù)學(xué)七年級下冊《相交直線所成的角》聽評課記錄
- 生產(chǎn)計劃外包合同(2篇)
- 獨生子女合同
- 九年級下冊滬教版上?;瘜W(xué)5.2酸和堿的性質(zhì)研究 課件
- 全國初中數(shù)學(xué)競賽分類匯編及解析
- 06歲兒童眼保健知識培訓(xùn)課件
- 企業(yè)商業(yè)秘密保護操作指引(2023版)
- 三年級數(shù)學(xué)口算題300道 (可直接打印)
- 益生芽孢桿菌體外抑菌活性及耐藥性研究
- 2023數(shù)聯(lián)網(wǎng)(DSSN)白皮書
- ISO17025經(jīng)典培訓(xùn)教材
- 消防設(shè)施操作和維護保養(yǎng)規(guī)程
- 反面典型案例剖析材料范文(通用6篇)
- 餐飲行業(yè)品牌介紹商務(wù)宣傳PPT模板
評論
0/150
提交評論