因果推斷模型評(píng)估教育政策的定量方法_第1頁
因果推斷模型評(píng)估教育政策的定量方法_第2頁
因果推斷模型評(píng)估教育政策的定量方法_第3頁
因果推斷模型評(píng)估教育政策的定量方法_第4頁
因果推斷模型評(píng)估教育政策的定量方法_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

因果推斷模型評(píng)估教育政策的定量方法

一、教育政策評(píng)估方法在過去10年中,隨著國家“科學(xué)發(fā)展”的不斷深化教育政策制定領(lǐng)域,教育政策研究的數(shù)據(jù)庫不斷增加,我國教育政策評(píng)估領(lǐng)域的定量研究迅速增加。一個(gè)科學(xué)的、對(duì)納稅人負(fù)責(zé)的教育政策的制定和實(shí)施應(yīng)該由以下幾個(gè)環(huán)節(jié)構(gòu)成:政策設(shè)計(jì)、論證、制定、實(shí)施、評(píng)估、改進(jìn)。由于教育問題錯(cuò)綜復(fù)雜、教育資源投入巨大,而且教育政策和改革直接影響到學(xué)生和家庭的前途命運(yùn)、乃至國家人才培養(yǎng)的目標(biāo),因此,制定和實(shí)施有效的教育政策至關(guān)重要。而準(zhǔn)確評(píng)估政策的效果則是實(shí)現(xiàn)這一目標(biāo)的技術(shù)關(guān)鍵。政策評(píng)估方法包括定量研究方法和質(zhì)性研究方法。國際上整個(gè)社會(huì)科學(xué)的發(fā)展趨勢越來越青睞定量研究方法,國內(nèi)教育政策分析類研究也越來越偏愛實(shí)證研究。這一方面說明了不論是政策制定者還是教育研究者都希望用更加科學(xué)、嚴(yán)謹(jǐn)?shù)姆绞街贫ê驮u(píng)估教育政策;但另一方面,現(xiàn)有的定量研究存在很多局限,部分定量研究類文章在研究設(shè)計(jì)、研究規(guī)范性以及定量研究的局限認(rèn)識(shí)不足。本文嘗試概括性地介紹國際主流教育政策定量研究方法,并探討混合式教育政策評(píng)估方法的優(yōu)勢,希望對(duì)教育政策評(píng)估有一定借鑒意義。本文將首先界定教育政策評(píng)估的概念以及本文所討論的定量研究方法的范圍,隨后簡要介紹美國近幾十年教育政策定量研究方法的發(fā)展歷程。文章的主體有兩部分:(1)對(duì)定量研究方法中的因果推斷模型的介紹;(2)對(duì)定量研究方法的局限的討論以及對(duì)混合式教育政策評(píng)估方法的討論。二、國際主流教育政策評(píng)估的定量研究方法中的因果推定模型教育政策和改革(下文統(tǒng)稱為政策)的目標(biāo)基本上都是為了提高教育質(zhì)量和教育公平。教育政策評(píng)估包括對(duì)不同階段(小學(xué)、中學(xué)、高等教育等)的教育政策實(shí)施效果的評(píng)估。每一項(xiàng)教育政策的出臺(tái),都有其期望實(shí)現(xiàn)的目標(biāo)(即提高某項(xiàng)教育產(chǎn)出,比如學(xué)生某科成績、某項(xiàng)能力、升學(xué)率、就業(yè)率,教師質(zhì)量等)。政策評(píng)估的目的就是通過科學(xué)的研究設(shè)計(jì),把某項(xiàng)政策的效果識(shí)別出來。其結(jié)論主要有兩類:(1)該政策對(duì)相應(yīng)的期望產(chǎn)出到底有沒有顯著影響?(2)如果有,那么這個(gè)影響是正向還是負(fù)向、影響大小如何?轉(zhuǎn)換成定量研究的術(shù)語,就是某項(xiàng)教育政策的實(shí)施和目標(biāo)教育產(chǎn)出的變化是否有因果關(guān)系(該項(xiàng)教育政策是否是導(dǎo)致目標(biāo)教育產(chǎn)出變化的原因,還是另有他因)?這里需要強(qiáng)調(diào)的一點(diǎn)是,只有因果關(guān)系才能為教育政策制定和評(píng)估提供可靠的依據(jù),相關(guān)關(guān)系則不能說明問題。因此,本文主要討論教育政策評(píng)估定量研究方法中的因果推斷模型。因果推斷模型不僅僅是國際主流教育政策評(píng)估的定量研究方法,也是公共財(cái)政、勞動(dòng)力經(jīng)濟(jì)學(xué)等多個(gè)社會(huì)科學(xué)領(lǐng)域所主要采用的實(shí)證研究方法。因果推斷法首先在實(shí)證經(jīng)濟(jì)學(xué)中發(fā)展,隨著教育理論的發(fā)展和高質(zhì)量教育研究數(shù)據(jù)的增加,因果推斷法也逐漸被引入教育政策評(píng)估。以美國為例,自從1966年科爾曼報(bào)告(1)對(duì)美國教育現(xiàn)狀敲響警鐘以來,美國政府、學(xué)校以及學(xué)術(shù)界都在積極尋求提高教育質(zhì)量和教育公平的方法。上至聯(lián)邦政府,下至州政府、各學(xué)區(qū)紛紛開展各類教育實(shí)驗(yàn)、改革和資助項(xiàng)目。而且各項(xiàng)教育政策、改革項(xiàng)目等都要接受學(xué)術(shù)界的跟蹤效果評(píng)估。這一方面是為了滿足政府問責(zé)制的要求,另一方面也是為了根據(jù)實(shí)際效果改進(jìn)下一步財(cái)政撥款的分配方案。例如美國的教育券,特許學(xué)校(charterschool),STAR(2)項(xiàng)目,大規(guī)模的大學(xué)生資助(例如PellGrant,Statemeritaid),以及墨西哥的有條件的現(xiàn)金轉(zhuǎn)移支付(3)(Conditionalcashtransfer)等??梢哉f,迫于國家人才培養(yǎng)的需要以及來自公眾監(jiān)督的壓力,把教育財(cái)政撥款用于最有效果、有效率的改革和政策上,已經(jīng)成為公認(rèn)的價(jià)值取向和評(píng)判標(biāo)準(zhǔn)(當(dāng)然,提高教育公平也是很重要的一條標(biāo)準(zhǔn))。然而,在我國的教育定量研究中,這些方法鮮被使用。其中一個(gè)重要因素是數(shù)據(jù)的不可獲得。從文獻(xiàn)中可以看到,很多國家從聯(lián)邦政府到地方政府、甚至到學(xué)校都進(jìn)行了很多由政府主導(dǎo)并資助的、由學(xué)者參與設(shè)計(jì)和評(píng)估的教育實(shí)驗(yàn)和教育改革,這些實(shí)驗(yàn)和改革在一開始就考慮了實(shí)驗(yàn)的研究設(shè)計(jì),并注意在整個(gè)過程中跟蹤搜集數(shù)據(jù)。有的實(shí)驗(yàn)會(huì)持續(xù)很多年,這也保證了研究者有足夠的時(shí)間序列數(shù)據(jù)來識(shí)別干預(yù)效應(yīng)。而且,這些數(shù)據(jù)是對(duì)大部分學(xué)術(shù)研究者開放的,并鼓勵(lì)學(xué)者們應(yīng)用這些數(shù)據(jù)去研究現(xiàn)實(shí)問題。但在中國,盡管我們有很多的教育改革和教育實(shí)驗(yàn),但這些干預(yù)在設(shè)計(jì)和實(shí)施過程中沒有考慮到后續(xù)評(píng)估所需要的研究設(shè)計(jì)和數(shù)據(jù)需求。即便有一部分管理數(shù)據(jù),這些數(shù)據(jù)也不對(duì)學(xué)術(shù)界公開。因此,如果政府和相關(guān)機(jī)構(gòu)作為公共服務(wù)的提供方,能夠本著科學(xué)的精神,使得政策的執(zhí)行過程中的數(shù)據(jù)搜集常態(tài)化,并鼓勵(lì)廣大定量研究者應(yīng)用數(shù)據(jù)做出嚴(yán)謹(jǐn)?shù)姆治?則不僅教育研究的水平會(huì)得到大幅度提高,也為后續(xù)的政策和項(xiàng)目改進(jìn)提供科學(xué)的依據(jù)。三、大學(xué)質(zhì)量變化情況下的識(shí)別策略因果推斷模型是基于傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)(尤其是最小二乘法和工具變量法)發(fā)展起來的一套基于實(shí)驗(yàn)理念的定量研究方法。國際上已經(jīng)有一系列系統(tǒng)總結(jié)因果推斷模型的論文和著作(4)。因此本文的重點(diǎn)在于介紹,而非系統(tǒng)論述。教育政策評(píng)估中最常見到的問題就是內(nèi)生解釋變量和自選擇問題。例如,如果我們想研究大學(xué)質(zhì)量對(duì)大學(xué)畢業(yè)生工資的影響,我們會(huì)估算大學(xué)畢業(yè)生工資對(duì)大學(xué)質(zhì)量這個(gè)變量的回歸系數(shù),即大學(xué)質(zhì)量的變化是否能解釋大學(xué)畢業(yè)生工資變化。但OLS假設(shè)所有自變量(包括大學(xué)質(zhì)量)必須是外生的,即所研究系統(tǒng)之外的因素決定的。但事實(shí)上大學(xué)質(zhì)量往往是由高考擇校過程決定的,即由學(xué)生能力、高考成績、家庭背景、學(xué)校偏好等變量決定的。如果由于缺失變量問題,其中的若干個(gè)變量在殘差項(xiàng)中,大學(xué)質(zhì)量就成為內(nèi)生解釋變量。這時(shí)候用OLS估計(jì)的大學(xué)質(zhì)量的系數(shù)是有偏的,我們很難講高質(zhì)量大學(xué)的畢業(yè)生工資高到底是因?yàn)閷W(xué)生本身能力強(qiáng)、家庭背景好,還是因?yàn)閮?yōu)質(zhì)的大學(xué)教育。因此,因果推斷法的主要思路就是尋找能幫助我們識(shí)別因果關(guān)系的外生的變化(externalvariation)。為實(shí)現(xiàn)這個(gè)目的而進(jìn)行的研究設(shè)計(jì)也被稱為識(shí)別策略(identificationstrategy),即識(shí)別出外生變化以估算因果效應(yīng)(causaleffect)。Angrist&Pischke在書中第一章就提出了應(yīng)用定量研究方法成功做出因果推斷所必須回答的四個(gè)問題:(1)你所感興趣的因果關(guān)系是什么?(2)如果設(shè)計(jì)一個(gè)理想的實(shí)驗(yàn)來識(shí)別這個(gè)因果關(guān)系,這個(gè)實(shí)驗(yàn)應(yīng)該如何設(shè)計(jì)?(3)你的識(shí)別策略是什么?(4)你的統(tǒng)計(jì)推斷模式是什么?本文也建議研究者在做研究設(shè)計(jì)或者評(píng)估其他研究時(shí)都嘗試回答這四個(gè)問題。下面將分別介紹幾類常用的因果推斷模型。1.干預(yù)效應(yīng)的估計(jì)隨機(jī)試驗(yàn)可以說是因果推斷模型中的黃金原則。隨機(jī)試驗(yàn)以外的其他方法,其實(shí)都是在模擬隨機(jī)試驗(yàn)的條件。因此,我們首先討論隨機(jī)試驗(yàn)?zāi)P?。在后續(xù)討論中,我們把教育政策、改革或者項(xiàng)目統(tǒng)稱為干預(yù)(intervention)(2)。當(dāng)我們想評(píng)估一個(gè)干預(yù)到底有沒有效果時(shí),有一個(gè)根本性的、無法解決的難題就是數(shù)據(jù)缺失問題。因?yàn)榻逃芯坎煌谧匀豢茖W(xué)實(shí)驗(yàn),可以找到兩個(gè)完全一樣的被試(比如:成分完全一樣的兩份試劑)。在教育研究中,每一個(gè)被試都具有獨(dú)特性,對(duì)干預(yù)的反應(yīng)都會(huì)不一樣。嚴(yán)格地講,如果我們想識(shí)別一個(gè)干預(yù)的效果,應(yīng)該看同一個(gè)被試在接受干預(yù)和不接受干預(yù)這兩種情況下產(chǎn)出的差別。但是由于教育過程具有不可逆的特點(diǎn),我們不可能讓一個(gè)學(xué)生既接受干預(yù)、又不接受干預(yù)。例如,如果我們想研究公立小學(xué)和私立小學(xué)哪個(gè)對(duì)提高學(xué)生成績更有效,我們不可能讓一個(gè)學(xué)生先去公立小學(xué)上完六年后,再退回到6歲、重新在私立小學(xué)讀六年,然后比較這兩種教育的差別。為了后續(xù)模型討論的方便,我們先設(shè)定模型。假定:其中Yi是第i個(gè)學(xué)生的某種教育產(chǎn)出,Di是指示第i個(gè)學(xué)生是否接受干預(yù)的虛擬變量。Di=1表示該學(xué)生接受了干預(yù),Di=0表示該學(xué)生沒有接受干預(yù)。Y1i是當(dāng)該學(xué)生接受干預(yù)時(shí)的教育產(chǎn)出,Y0i是當(dāng)該學(xué)生沒有接受干預(yù)時(shí)的教育產(chǎn)出。如果我們想識(shí)別一個(gè)干預(yù)的效果,應(yīng)該搜集Y1i和Y0i,然后看兩個(gè)數(shù)值之差。數(shù)據(jù)缺失問題是指,現(xiàn)實(shí)中,我們無法同時(shí)觀測到Y(jié)1i和Y0i,而只能觀測到兩者之一。對(duì)此問題的解決方法是放棄對(duì)Y1i–Y0i(3)的估算,用E[Y1i]-E[Y0i]來代替。對(duì)Y1i和Y0i期望值的估計(jì)主要是通過計(jì)算樣本均值來實(shí)現(xiàn)的。換言之,我們可以尋找兩組人,這兩組人在重要特征(例如:性別、年齡、家庭背景等)上的平均值是一樣的(用于模擬同一個(gè)人)。我們可以同時(shí)讓一組人接受干預(yù)(稱為實(shí)驗(yàn)組),另一組人不接受干預(yù)(稱為對(duì)照組)。這樣,如果兩組人在統(tǒng)計(jì)上是可比的(identical),那么干預(yù)結(jié)束后,實(shí)驗(yàn)組和對(duì)照組在教育產(chǎn)出均值上的差距就應(yīng)該是干預(yù)造成的。嚴(yán)格的數(shù)學(xué)推導(dǎo)如下:其中等式左邊的是我們觀察到的:E[Y1i|Di=1]表示給定被試被分到實(shí)驗(yàn)組,她接受干預(yù)后的期望產(chǎn)出,E[Y0i|Di=0]表示給定被試被分到對(duì)照組,她沒有接受干預(yù)的期望產(chǎn)出。在等式右邊,我們減了一項(xiàng)E[Y0i|Di=1],又加了一項(xiàng)E[Y0i|Di=1],因此等號(hào)不變。E[Y0i|Di=1]的含義是給定被試被分到實(shí)驗(yàn)組,但如果她沒接受干預(yù),期望產(chǎn)出是多少。那么等式右邊前兩項(xiàng)E[Y1i|Di=1]-E[Y0i|Di=1]=E[Y1i-Y0i|Di=1]就是發(fā)生在實(shí)驗(yàn)組上的平均干預(yù)效應(yīng)(AverageTreatmentEffectontheTreated,ATT)。等式右邊的后兩項(xiàng)E[Y0i|Di=1]-E[Y0i|Di=0]比較的是實(shí)驗(yàn)組和對(duì)照組在都沒有接受干預(yù)時(shí)期望產(chǎn)出的差異,這反映了兩組人本質(zhì)上的差異,因此也被稱為選擇偏誤(selectionbias)。自選擇偏誤一般是由參與者根據(jù)自己的個(gè)人特征選擇接受干預(yù)與否造成的,這在教育領(lǐng)域很常見(例如擇校、選擇家教輔導(dǎo)等)。因此,我們要尋找系統(tǒng)外的外部變化來解決這個(gè)問題。隨機(jī)試驗(yàn)是說實(shí)驗(yàn)參與者被隨機(jī)分配到實(shí)驗(yàn)組或者對(duì)照組,即Di的取值和實(shí)驗(yàn)參與者的特征無關(guān)。研究者隨機(jī)分配實(shí)驗(yàn)參與者為這種研究設(shè)計(jì)提供了外部變化。因此,根據(jù)條件期望值的定義,這時(shí),我們觀測到的兩組人員期望產(chǎn)出的差異,就是我們想估算的干預(yù)效應(yīng):我們在計(jì)算過程中,當(dāng)然可以根據(jù)上述思路通過簡單的均值比較和t檢驗(yàn)來估算干預(yù)效應(yīng)和標(biāo)準(zhǔn)差。但我們還可以通過回歸方程的形式來估算。即其中δ即為干預(yù)效應(yīng),其估算值和標(biāo)準(zhǔn)差都和E[Y1i-Y0i|Di=1]相等。即和均值比較及t檢驗(yàn)結(jié)果相同。但回歸方程的優(yōu)勢在于,我們可以根據(jù)已有理論,在等式右邊加入控制變量,使得估計(jì)值的標(biāo)準(zhǔn)差減小,從而提高估算的精確度,提高統(tǒng)計(jì)推斷力(1)(Statisticalpower(2)),并提高模型的擬合優(yōu)度(Goodnessoffit)。控制變量必須滿足三個(gè)要求:(1)在理論上確實(shí)是對(duì)產(chǎn)出變量Y有因果關(guān)系的影響因素、且方程形式是線性;(2)根據(jù)理論和實(shí)際情況,控制變量必須是外生解釋變量,即與殘差項(xiàng)不相關(guān);(3)控制變量必須在隨機(jī)分組之前產(chǎn)生,因?yàn)殡S機(jī)分組之后產(chǎn)生的變量很可能是隨機(jī)分組及試驗(yàn)干預(yù)產(chǎn)生的,從而有因果倒置的危險(xiǎn)。新的方程形式如下:隨機(jī)試驗(yàn)法是社會(huì)科學(xué)從自然科學(xué)的定量研究方法中借鑒的,在因果推斷法中被認(rèn)為是黃金標(biāo)準(zhǔn)。但是隨機(jī)試驗(yàn)法在實(shí)施過程中往往會(huì)出現(xiàn)很多問題,使得最終的效果并不是真正的隨機(jī)試驗(yàn)。下面我們簡單討論幾個(gè)常見的問題。首先,試驗(yàn)參與者可能根據(jù)個(gè)人的意愿、違背隨機(jī)分組結(jié)果,選擇另一個(gè)組(crossovers)。比如,我們在某小學(xué)進(jìn)行一個(gè)隨機(jī)試驗(yàn),考察某種教學(xué)方式是否能更好的提高教學(xué)質(zhì)量。有的學(xué)生被隨機(jī)分配到實(shí)驗(yàn)組,有的學(xué)生被隨機(jī)分配到對(duì)照組。但學(xué)生家長聽說這個(gè)實(shí)驗(yàn)后,可能會(huì)不同意現(xiàn)有的分組結(jié)果。有的學(xué)生被分到對(duì)照組,但其家長可能覺得不能錯(cuò)過這個(gè)實(shí)驗(yàn)機(jī)會(huì),因此找校長和班主任爭取讓自己的孩子進(jìn)入實(shí)驗(yàn)組。有的學(xué)生被分到實(shí)驗(yàn)組,但其家長可能覺得這個(gè)實(shí)驗(yàn)對(duì)自己的孩子不合適,因此會(huì)找校長和班主任爭取讓自己的孩子進(jìn)入對(duì)照組。這種重新選擇的行為往往和家長的個(gè)人特征有關(guān)(家庭背景、對(duì)學(xué)生的關(guān)心程度等),而這些個(gè)人特征往往對(duì)學(xué)生的成績是有影響的。因此,這樣導(dǎo)致的最終分組結(jié)果實(shí)際上受到了家長的影響,使得分組結(jié)果不是真正的隨機(jī)分配,兩組學(xué)生在基本特征上也并不相同。這種情況可以通過工具變量法(Instrumentalvariable,IV)來解決。給定Di是分配結(jié)果,Zi是實(shí)驗(yàn)者初始的分配原則。Di因?yàn)槭艿郊议L等因素的影響而具有內(nèi)生性,Zi則是完全外生變量,Di受Zi的影響,因此Zi可以作為Di的工具變量。因此,兩階段最小二乘法(2-StageLeastSquare,2SLS)的公式如下:其次,實(shí)驗(yàn)組的學(xué)生可能與對(duì)照組的學(xué)生私下交流他們接受干預(yù)的收獲和感受,或者他們在其他場合(比如其他課堂)上的表現(xiàn)間接影響了對(duì)照組學(xué)生,從而產(chǎn)生溢出效應(yīng)(spillovereffect)。如果這種情況發(fā)生,即便對(duì)照組的學(xué)生沒有接受干預(yù),但依然受到了干預(yù)的影響。這時(shí)候兩組學(xué)生的差異比真正的干預(yù)效應(yīng)要小。再次,隨機(jī)試驗(yàn)的一個(gè)暗含假設(shè)是實(shí)驗(yàn)組和對(duì)照組的成員不會(huì)因?yàn)閰⑴c這個(gè)隨機(jī)試驗(yàn)課題而對(duì)其行為和產(chǎn)出產(chǎn)生影響,但現(xiàn)實(shí)中往往不是這樣。參與者因?yàn)閰⑴c實(shí)驗(yàn)本身而產(chǎn)生的行為上的變化叫做霍桑效應(yīng)(Hawthorneeffect)。其中,對(duì)照組的成員可能因?yàn)樽约涸趯?duì)照組而更加努力學(xué)習(xí),以證明自己即便在對(duì)照組,也會(huì)表現(xiàn)很好,這就叫做約翰亨利效應(yīng)(JohnHenryeffect)。如果這種情況發(fā)生,我們的估計(jì)值比真正的干預(yù)效應(yīng)要小。上述這些問題都會(huì)影響隨機(jī)試驗(yàn)法的內(nèi)部效度(internalvalidity),即研究設(shè)計(jì)是否能從邏輯上保證其結(jié)果的可靠性。此外,由于隨機(jī)試驗(yàn)往往只是針對(duì)一個(gè)較小的樣本進(jìn)行分析(例如:在一個(gè)學(xué)校內(nèi)、一個(gè)學(xué)區(qū)內(nèi)、或者某個(gè)年級(jí)內(nèi)),因此其樣本很難代表更廣大的群體(例如:全國小學(xué)生)。這就使得隨機(jī)試驗(yàn)法的外部效度(externalvalidity)受到影響,即無法把隨機(jī)試驗(yàn)結(jié)論推廣到更廣大的群體。此外,隨機(jī)試驗(yàn)的實(shí)施成本非常高,需要政府、學(xué)校、家長的支持和配合,且會(huì)涉及到研究倫理問題,這種方法在教育政策評(píng)估中并不是經(jīng)常使用,而是作為研究設(shè)計(jì)的標(biāo)準(zhǔn)。已發(fā)表的教育研究中使用隨機(jī)試驗(yàn)法的有Krueger(1)、Stem(2)、Lee(3)、Banerjee等(4)。2.干預(yù)效應(yīng)的估計(jì)由于隨機(jī)試驗(yàn)法在實(shí)施過程中往往很難實(shí)現(xiàn)真正的隨機(jī)分配,而且家長和學(xué)校也不一定會(huì)支持這樣的試驗(yàn),研究者會(huì)尋找自然發(fā)生的試驗(yàn)或者用現(xiàn)有的觀察數(shù)據(jù)(observationaldata,區(qū)別于實(shí)驗(yàn)數(shù)據(jù),即實(shí)驗(yàn)過程中采集的數(shù)據(jù))構(gòu)造試驗(yàn)條件。前一種情況被稱為自然實(shí)驗(yàn),采用的估計(jì)方法是雙重差分法。后一種情況被稱為準(zhǔn)實(shí)驗(yàn)(quasi-experiment),包括斷點(diǎn)回歸(Regressiondiscontinuity),傾向分?jǐn)?shù)配對(duì)法(Propensityscorematching)等。自然實(shí)驗(yàn)所需要的外部變化來自于不受人為控制的大事件的發(fā)生,使得被研究對(duì)象被迫的被隨機(jī)分成實(shí)驗(yàn)組和對(duì)照組。比如自然災(zāi)害導(dǎo)致政策的變化,使得一部分人受到影響,而另一部分人沒有受到影響;或者某項(xiàng)政策/法案在一個(gè)地區(qū)實(shí)施,但沒有在另一個(gè)類似的地區(qū)實(shí)施。我們?nèi)匀话堰@個(gè)事件稱為干預(yù),把受到干預(yù)影響的人群稱為實(shí)驗(yàn)組,把沒有受到干預(yù)影響的人群稱為對(duì)照組。如果已有的觀察數(shù)據(jù)在干預(yù)前后、對(duì)實(shí)驗(yàn)組和對(duì)照組都有記錄,那么我們就可以用雙重差分法估計(jì)干預(yù)效應(yīng)。如圖1所示,橫軸代表時(shí)間,縱軸代表產(chǎn)出Y,干預(yù)發(fā)生時(shí)間為ti,觀察數(shù)據(jù)在干預(yù)前后的觀測時(shí)間分別為t1和t2。真正的干預(yù)效應(yīng)應(yīng)該是Ya-Yb,但研究者能觀測到的數(shù)據(jù)只有Yt1和Yt2。如果我們用Yt1-Yt2作為干預(yù)效應(yīng)的估算值,則這個(gè)值是有偏的(biased)。Yt1-Yt2和Ya-Yb之間的差異是由Y隨時(shí)間變化的趨勢引起的,這個(gè)時(shí)間趨勢指的是即便沒有干預(yù)發(fā)生,Y仍然隨時(shí)間變化而產(chǎn)生的變化。為了解決這個(gè)問題,我們只要把時(shí)間趨勢從Yt1-Yt2中剝離掉即可。假設(shè)我們能夠找到一個(gè)對(duì)照組,這個(gè)對(duì)照組的產(chǎn)出隨時(shí)間變化的趨勢與實(shí)驗(yàn)組一樣,這樣我們就可以通過對(duì)照組估算出時(shí)間效應(yīng)(Y隨時(shí)間變化的程度)。如圖2,Yc1和Yc2是在時(shí)間點(diǎn)t1和t2時(shí)對(duì)控制組的觀測值,則Yc1-Yc2是控制組的時(shí)間效應(yīng)。由于除了沒有接受干預(yù)以外,控制組和實(shí)驗(yàn)組隨時(shí)間變化的趨勢一樣,Yc1-Yc2也是實(shí)驗(yàn)組的時(shí)間效應(yīng)。這樣,干預(yù)效應(yīng)=(Yt1-Yt2)-(Yc1-Yc2),即兩個(gè)差分的差分。直觀上講,我們只不過通過對(duì)照組構(gòu)造了一個(gè)沒有接受干預(yù)時(shí)的實(shí)驗(yàn)組,即紅色虛線所表示的部分。其中,ΔΔY就是干預(yù)效應(yīng)。因此,我們在用雙重差分法時(shí),可以把相應(yīng)的均值和標(biāo)準(zhǔn)差填入上表,并把均值比較以及t檢驗(yàn)的結(jié)果填到“做差”這一列,即可得到估算結(jié)果。當(dāng)然,我們也可以用回歸的方法實(shí)現(xiàn)這個(gè)估算過程。其中,α是常數(shù)項(xiàng),Si是指示實(shí)驗(yàn)組的虛擬變量(當(dāng)某個(gè)樣本點(diǎn)來自實(shí)驗(yàn)組時(shí),Si=1,否則Si=0),ti是指示干預(yù)發(fā)生的虛擬時(shí)間變量(ti=1表示干預(yù)發(fā)生后,ti=0表示干預(yù)發(fā)生前),則Si·ti只有當(dāng)?shù)趇個(gè)觀測值屬于干預(yù)發(fā)生后的實(shí)驗(yàn)組時(shí)等于1。β代表實(shí)驗(yàn)組和對(duì)照組不隨時(shí)間變化的永久性差異,γ代表時(shí)間效應(yīng),δ代表干預(yù)效應(yīng),ε代表殘差項(xiàng)。與簡單的均值做差法相比,回歸方程的優(yōu)點(diǎn)包括可以加入控制變量、引入多期、多組模型等??梢宰C明,在沒有引入控制變量時(shí),方程回歸系數(shù)與上表中的均值比較結(jié)果一致。表2列出了在雙重差分法中,回歸系數(shù)與期望值之間的關(guān)系??梢钥吹?參數(shù)δ與期望值雙重差分的結(jié)果ΔΔY是相等的。雙重差分法的關(guān)鍵假設(shè)是實(shí)驗(yàn)組與對(duì)照組的時(shí)間效應(yīng)一樣。這個(gè)假設(shè)只有通過足夠長的時(shí)間序列數(shù)據(jù)才能檢驗(yàn)。需要指出的一點(diǎn)是,即使干預(yù)發(fā)生之前兩組時(shí)間序列一致,也不能保證干預(yù)發(fā)生后兩組時(shí)間序列是一致的。有可能在干預(yù)發(fā)生的同時(shí)在實(shí)驗(yàn)組或者對(duì)照組中又發(fā)生了其他影響產(chǎn)出的事件,則干預(yù)發(fā)生后兩組的時(shí)間趨勢是不一致的。簡單的雙重差分估計(jì)是有偏的。如圖3所示,如果對(duì)照組是紅色虛線所示,則雙重差分估計(jì)是無偏的。但如果對(duì)照組是上方的黑色實(shí)線,則雙重差分估計(jì)法是有偏的,偏差部分是在t2時(shí)刻,該黑色實(shí)線與紅色虛線之間的距離。解決這個(gè)問題有兩個(gè)思路:第一個(gè)是尋找更多的對(duì)照組,把多個(gè)對(duì)照組加權(quán)構(gòu)造成一個(gè)虛擬的對(duì)照組,使得雖然每個(gè)對(duì)照組都與實(shí)驗(yàn)組的時(shí)間趨勢不一樣,但加權(quán)后的虛擬對(duì)照組的時(shí)間趨勢與實(shí)驗(yàn)組的一樣。這個(gè)方法被稱作綜合控制法(Syntheticcontrolmethod)。Abadie&Gardeazabal(2003)(1)用這個(gè)方法研究了恐怖沖突對(duì)經(jīng)濟(jì)發(fā)展的影響。解決這個(gè)問題的第二個(gè)思路是估算出這個(gè)因?yàn)闀r(shí)間趨勢不同而帶來的偏差,然后從雙重差分結(jié)果中減去這個(gè)偏差即可。這被稱作三重差分法(Difference-in-differences-in-differences,DDD)。三重差分法的思路是,既然兩個(gè)地區(qū)(分別指實(shí)驗(yàn)組和對(duì)照組)的時(shí)間趨勢不一樣,那么我們可以分別在兩個(gè)地區(qū)尋找一個(gè)沒有受到干預(yù)影響的人群/行業(yè),通過對(duì)這兩組的雙重差分估算出時(shí)間趨勢的差異,然后再從原來實(shí)驗(yàn)組和對(duì)照組的雙重差分估算值中減去這個(gè)時(shí)間趨勢差異。Gruber(2)就使用了這種方法。由于篇幅所限,本文不再對(duì)上述方法以及其他雙重差分法的延伸模型進(jìn)行探討。3.斷點(diǎn)回歸virt斷點(diǎn)回歸是一種準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)。如果政策在一個(gè)關(guān)于個(gè)人背景的連續(xù)的變量(例如考試成績、家庭人均收入等)上設(shè)定一個(gè)臨界值(cutoff/threshold),使得在臨界值一側(cè)的個(gè)體接受政策干預(yù),而在臨界值另一側(cè)的個(gè)體不接受干預(yù),則在臨界值附近就構(gòu)成了一個(gè)準(zhǔn)實(shí)驗(yàn)。我們把這個(gè)決定了是否接受干預(yù)的連續(xù)變量叫做強(qiáng)制變量(forcingvariable),由于強(qiáng)制變量是連續(xù)的,所以在臨界值兩側(cè)的個(gè)體應(yīng)該是類似的、可比的,則這兩側(cè)的個(gè)體在產(chǎn)出上的差異就應(yīng)該是干預(yù)造成的差異。當(dāng)個(gè)體是否接受政策干預(yù)由強(qiáng)制變量值與臨界值之間的關(guān)系決定時(shí),我們可以用如下數(shù)學(xué)表達(dá)式:如果分配機(jī)制能嚴(yán)格按照這個(gè)強(qiáng)制政策來執(zhí)行,則我們稱之為清晰的斷點(diǎn)回歸(sharpRD)。為了使后續(xù)的解釋比較形象,我們通過Angrist&Pischke(2009)(3)中的一個(gè)例子來討論。美國的高中生會(huì)根據(jù)他們的PSAT成績決定是否能獲得一個(gè)全國優(yōu)秀獎(jiǎng)學(xué)金,我們的研究問題是獲得獎(jiǎng)學(xué)金是否能夠提高高中畢業(yè)生上大學(xué)的概率。首先,假設(shè)沒有設(shè)立這個(gè)獎(jiǎng)學(xué)金,那么給定考試成績xi,上大學(xué)的期望概率可以通過下公式(9)表達(dá):現(xiàn)在假設(shè)設(shè)立了獎(jiǎng)學(xué)金,且只有成績高于一個(gè)臨界點(diǎn)的學(xué)生才能獲得,則獲得這個(gè)獎(jiǎng)學(xué)金對(duì)上大學(xué)概率的影響可以用公式(10)來表達(dá):公式(9)和公式(10)和在一起即為:則ρ即為我們感興趣的干預(yù)效應(yīng)。斷點(diǎn)回歸方程(11)與普通的回歸方程不同的是Di不僅與xi相關(guān),而且是由xi確定的方程。我們通過區(qū)分非線性、不連續(xù)的函數(shù)Di=1(xi≥x0)與平滑的線性函數(shù)xi來識(shí)別干預(yù)效應(yīng)。應(yīng)用斷點(diǎn)回歸的一個(gè)經(jīng)典研究是Lemieux&Milligan(2008)(1)。他們研究社會(huì)救助會(huì)不會(huì)影響就業(yè)率。勞動(dòng)力經(jīng)濟(jì)學(xué)家根據(jù)理論推測,增加社會(huì)救濟(jì)會(huì)減少接受救濟(jì)的人群工作的必要性,從而減少勞動(dòng)力供給、降低就業(yè)率。Lemieux&Milligan(2008)研究的這個(gè)社會(huì)救助項(xiàng)目規(guī)定30歲以下的人只能獲得185美元,而一旦超過30歲,就可以獲得507美元,這是一個(gè)巨大的差額。因此年齡就是這個(gè)政策的強(qiáng)制變量,臨界點(diǎn)是30歲。圖4展示了1986年人口普查時(shí)30歲以下和30以上的人群獲得社會(huì)救助的額度??梢钥吹皆谂R界點(diǎn)兩側(cè),人們的救助收入有一個(gè)飛躍。因此,實(shí)際情況完全符合政策設(shè)計(jì)。圖5展示了人口普查當(dāng)天在臨界點(diǎn)30歲附近,就業(yè)率的情況??梢钥吹?在30歲附近的就業(yè)率確實(shí)有一個(gè)跳躍。這就是在30歲時(shí)大幅增加社會(huì)救助的干預(yù)效應(yīng)———降低就業(yè)率。斷點(diǎn)回歸的分析必須經(jīng)受多方面的假設(shè)檢驗(yàn),才能保證其內(nèi)部有效性。比如,我們應(yīng)該檢驗(yàn)臨界值兩側(cè)的兩群人是否在一些重要的背景變量上分布連續(xù),強(qiáng)制變量本身在臨界值附近是否連續(xù)。此外,由于斷點(diǎn)回歸是在臨界值附近構(gòu)建準(zhǔn)實(shí)驗(yàn),因此,我們要界定“附近”的區(qū)域到底有多寬。如果這個(gè)區(qū)域太窄,則樣本量很小,可能影響估計(jì)的精確度和統(tǒng)計(jì)推斷力。如果這個(gè)區(qū)域太寬,則我必須控制其他因素,以保證兩邊人群的可比性。順便指出,因?yàn)閿帱c(diǎn)回歸是在一個(gè)臨界值附近估算干預(yù)效應(yīng),而不是在整個(gè)定義域內(nèi)估計(jì)平均的干預(yù)效應(yīng)(AverageTreatmentEffect,ATE),因此這個(gè)估計(jì)值是局部平均干預(yù)效應(yīng)(LocalAverageTreatmentEffect,LATE)。斷點(diǎn)回歸包括參數(shù)回歸和非參數(shù)回歸。參數(shù)回歸主要強(qiáng)調(diào)對(duì)臨界點(diǎn)附近的函數(shù)類型做出正確的假設(shè)。如圖6(1)所示,第一張圖是線性模型,第二張圖是非線性模型,在臨界點(diǎn)附近都有一個(gè)跳躍,因此可以用斷點(diǎn)回歸來識(shí)別這個(gè)干預(yù)效應(yīng)。但第三張圖實(shí)際上是一個(gè)在臨界點(diǎn)附近沒有跳躍的非線性模型,如果把這個(gè)非線性方程錯(cuò)當(dāng)做線性方程對(duì)待,而且使用斷點(diǎn)回歸模型去估計(jì),也能估算出一個(gè)跳躍,但這個(gè)估計(jì)結(jié)果是一個(gè)嚴(yán)重的錯(cuò)誤。因此,在斷點(diǎn)回歸中,觀察散點(diǎn)圖的形狀非常重要,而且我們往往把方程(11)寫成一個(gè)更籠統(tǒng)的函數(shù)形式:Yi=f(xi)+ρDi+ηi(12)只要f(xi)在x0附近連續(xù),我們就可以進(jìn)行估計(jì)。一般來說,一個(gè)比較靈活的模型可以用xi的的p次多項(xiàng)式來表示:Yi=β0+β1xi+β2xi2+…+βpxip+ρDi+ηi(13)但P次多項(xiàng)式往往對(duì)奇異值比較敏感,而且假定xi對(duì)產(chǎn)出的影響在臨界點(diǎn)兩邊是相等的(事實(shí)上可以不相等)。非參數(shù)回歸則不對(duì)臨界點(diǎn)附近的函數(shù)形式做出假設(shè)。最簡單的非參數(shù)回歸就是選擇一個(gè)臨界點(diǎn)附近的區(qū)域,分別計(jì)算臨界點(diǎn)之上和之下的觀測點(diǎn)的平均產(chǎn)出,然后比較均值。這種方法不夠精確,且忽略了強(qiáng)制變量本身對(duì)產(chǎn)出的影響。其改進(jìn)方法是Kernel方法,即在選定的區(qū)域中對(duì)觀測點(diǎn)進(jìn)行加權(quán)平均,權(quán)重大小由不同的分布函數(shù)來表示。第三種非參數(shù)回歸則是局部線性回歸,即在臨界點(diǎn)左側(cè)的局部區(qū)域和臨界點(diǎn)右側(cè)的局部區(qū)域分別進(jìn)行線性回歸,根據(jù)回歸系數(shù)計(jì)算兩個(gè)方程在臨界點(diǎn)的估算值,估算值之差即為干預(yù)效應(yīng)。這種方法的基礎(chǔ)是隨著強(qiáng)制變量從兩邊逼近臨界值,臨界值兩邊的方程形式已經(jīng)不重要,而且可以用線性函數(shù)來近似。如果在政策執(zhí)行過程中,強(qiáng)制變量對(duì)Di的影響不是絕對(duì)的,即對(duì)于方程(8)而言,當(dāng)xi≥x0時(shí),出現(xiàn)Di=0的情況,或者當(dāng)xi<x0時(shí),出現(xiàn)Di=1的情況,這時(shí)的斷點(diǎn)回歸稱作模糊斷點(diǎn)回歸(fuzzyRD)。此時(shí),Di不是完全外生,而是一個(gè)內(nèi)生變量,可以通過類似隨機(jī)試驗(yàn)中的工具變量法來解決。其他應(yīng)用斷點(diǎn)回歸評(píng)估教育政策的有:Angrist(2)、Barrera-Osorio(3)、Black(4)、Hahn等(5)。4.干預(yù)效應(yīng)的估計(jì)傾向分?jǐn)?shù)配對(duì)法是利用觀測數(shù)據(jù)(而非實(shí)驗(yàn)數(shù)據(jù))通過構(gòu)造控制組來解決自選擇偏誤問題?;仡櫟仁?2),我們觀測到的接受干預(yù)的人群與沒有接受干預(yù)的人群在產(chǎn)出上的差異E[Y1i|Di=1]-E[Y0i|Di=0]之所以與真正的干預(yù)效應(yīng)E[Y1i|Di=1]-E[Y0i|Di=1]不相等,就是因?yàn)镋[Y0i|Di=1]-E[Y0i|Di=0]這一項(xiàng)不為零,即兩組人群在本質(zhì)上具有顯著差異,在都沒有接受干預(yù)的情況下,產(chǎn)出本來就會(huì)不同。這就是自選擇偏誤帶來的偏差。如果我們能從沒有接受干預(yù)的人群中找出一組人,使得這組人在主要特征上與接受干預(yù)的人群在統(tǒng)計(jì)上沒有差異,則我們就構(gòu)造了一個(gè)模擬的對(duì)照組。這個(gè)模擬的對(duì)照組和實(shí)驗(yàn)組在產(chǎn)出上的差異,就應(yīng)該是干預(yù)效應(yīng)。那么,如何定義和尋找模擬的對(duì)照組成員呢?一般來講我們都希望模擬對(duì)照組與實(shí)驗(yàn)組在一組變量上的統(tǒng)計(jì)值都無顯著差異。這是比較難做到的。因?yàn)?當(dāng)兩組人在第一個(gè)變量上無顯著差異時(shí),可能在第二個(gè)變量上顯著不同;當(dāng)調(diào)整模擬對(duì)照組成員使得兩組人在第二變量上無顯著差異時(shí),可能又在第三個(gè)變量上顯著不同。因此,我們主要通過分析樣本中的每個(gè)人選擇接受干預(yù)的概率來進(jìn)行配對(duì)。個(gè)體選擇接受還是不接受干預(yù),可以通過Probit模型或者Logit模型來估算,我們所關(guān)心的主要特征變量都應(yīng)該是影響接受干預(yù)概率的變量。其中,Di是指示是否接受了干預(yù)的虛擬變量,珝xi是配對(duì)時(shí)所認(rèn)為的重要的變量組。通過估算模型(14),我們可以為每一個(gè)個(gè)體估算出一個(gè)選擇接受干預(yù)的概率Pi,則稱這個(gè)估計(jì)概率為傾向分?jǐn)?shù),即傾向于選擇接受干預(yù)的程度。如果在沒有接受干預(yù)的人群中有一組人,其傾向分?jǐn)?shù)與接受干預(yù)的人群中的一部分人的傾向分?jǐn)?shù)非常接近,則這兩組人應(yīng)該是可比的。這兩組人在產(chǎn)出上的差異就是干預(yù)效應(yīng)。這個(gè)配對(duì)的理念雖然比較簡單,但具體的配對(duì)方法卻比較復(fù)雜。例如,用于計(jì)算傾向分?jǐn)?shù)的選擇模型(14)是否有效?在配對(duì)時(shí),如果一個(gè)沒有接受干預(yù)的個(gè)體已經(jīng)被配給某個(gè)接受干預(yù)的個(gè)體作為其對(duì)照,那么這個(gè)個(gè)體能否再配給另一個(gè)接受干預(yù)的個(gè)體?如果一個(gè)接受干預(yù)的個(gè)體在未接受干預(yù)的群體中找到若干個(gè)傾向分?jǐn)?shù)相近的個(gè)體,是否都要把他們作為對(duì)照、或者只是隨機(jī)選一個(gè)?如果都選為對(duì)照,給每個(gè)人賦予的權(quán)重是多少?Heckman(1)、Dehejia(2)等對(duì)傾向分?jǐn)?shù)配對(duì)法都做了詳細(xì)而深入的討論。Altonji等(3)應(yīng)用傾向分?jǐn)?shù)配對(duì)法評(píng)估了天主教學(xué)校是否比公立學(xué)校更能提高學(xué)生的學(xué)業(yè)表現(xiàn)。讀者可以參考。5.對(duì)數(shù)據(jù)的選擇和處理除了上述從實(shí)驗(yàn)的思路出發(fā)構(gòu)建的因果推斷模型,為了使得統(tǒng)計(jì)分析結(jié)果真實(shí)可靠,定量研究者還需在研究設(shè)計(jì)和數(shù)據(jù)分析中考慮以下幾個(gè)重要問題:(1)教育研究中的數(shù)據(jù)往往是聚類數(shù)據(jù)(cluster)或稱為多層級(jí)數(shù)據(jù)(hierarchicaldata,nesteddata)。這種數(shù)據(jù)結(jié)構(gòu)會(huì)增大估計(jì)值的標(biāo)準(zhǔn)差,減小統(tǒng)計(jì)推斷力。因此,我們必須在模型估算中考慮這種數(shù)據(jù)結(jié)構(gòu),采用多層級(jí)模型中的隨機(jī)效應(yīng)模型或者固定效應(yīng)模型(4)。(2)當(dāng)產(chǎn)出變量不是連續(xù)隨機(jī)變量,而是分類變量(categoricalvariable)時(shí),則應(yīng)考慮OLS之外的模型,如Tobit,Probit,Truncateddatamodel(5)。(3)如果干預(yù)效應(yīng)針對(duì)處于不同分布的人群并不相同,即具有異質(zhì)性(heterogeneity),則要使用分位點(diǎn)回歸(quantileregression)等方法來解決(6)。(4)如果數(shù)據(jù)中的缺失值較多,且很難證明是隨機(jī)缺失時(shí),應(yīng)在估算模型前采用多重填充法(MultipleImputation)來處理(1)。(5)如果樣本不是具有代表性的樣本,則需要通過抽樣權(quán)重來調(diào)整??傊?由于教育領(lǐng)域研究對(duì)象(學(xué)生、家長、學(xué)校、教師等)的行為的復(fù)雜性,尤其面對(duì)各種政策和教育干預(yù)的自選擇性,用定量研究的方法評(píng)估教育政策的效果必須非常謹(jǐn)慎。要根據(jù)政策的執(zhí)行方案、數(shù)據(jù)結(jié)構(gòu)等恰當(dāng)選擇模型,并對(duì)模型的假設(shè)做出嚴(yán)謹(jǐn)?shù)臋z驗(yàn)。否則數(shù)據(jù)分析的結(jié)果可能是有偏的,有時(shí)候這種偏誤是非常隱蔽的,不易被發(fā)現(xiàn)?;谶@樣的結(jié)果做出的政策建議也是不可靠的。四、混合方法面向全社會(huì)當(dāng)然,定量研究方法并不是萬能的,甚至存在很多陷阱和誤區(qū)。本文第三部分已經(jīng)點(diǎn)出了部分定量研究方法的假設(shè),一旦數(shù)據(jù)不滿足假設(shè),結(jié)果就是有偏的,甚至嚴(yán)重背離真實(shí)情況。此外,教育定量研究中的一個(gè)重要難題是測量問題。在經(jīng)濟(jì)學(xué)領(lǐng)域,很多變量是在生產(chǎn)和經(jīng)濟(jì)活動(dòng)中自然發(fā)生、并有確切數(shù)字記錄的,比如資金投入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論