因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述_第1頁
因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述_第2頁
因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述_第3頁
因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述_第4頁
因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

計(jì)算機(jī)研究與發(fā)展DOI:10.7544/issn1000-1239.202110780JournalofComputerResearchandDevelopment60(1):59?84,2023因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述1(中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院計(jì)算技術(shù)研究所)北京100190)2(中國科學(xué)院大學(xué)北京100049)3(清華大學(xué)智能產(chǎn)業(yè)研究院北京100086)4(中國科學(xué)院計(jì)算技術(shù)研究所數(shù)據(jù)智能系統(tǒng)研究中心北京100190) (lijianing@)OverviewoftheFrontierProgressofCausalMachineLearningLiJianing1,2,XiongRuibin1,2,LanYanyan3,PangLiang4,GuoJiafeng1,2,andChengXueqi1,21(CASKeyLaboratoryofNetworkDataScienceandTechnology(InstituteofComputingTechnology,ChineseAcademyofSciences),Beijing100190)2(UniversityofChineseAcademyofSciences,Beijing100049)3(InstituteforAIIndustryResearch,TsinghuaUniversity,Beijing100086)4(DataIntelligenceSystemResearchCenter,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190)AbstractMachinelearningisoneoftheimportanttechnicalmeanstorealizeartificialintelligence,andithasimportantapplicationsinthefieldsofcomputervision,naturallanguageprocessing,searchenginesandrecommendationsystems.Existingmachinelearningmethodsoftenfocusonthecorrelationsinthedataandignorethecausality.Withtheincreaseinapplicationrequirements,theirdrawbackshavegraduallybeguntoappear,facingaseriesofurgentproblemsintermsofinterpretability,transferability,robustness,andfairness.Inordertosolvetheseproblems,researchershavebeguntore-examinethenecessityofmodelingcausalrelationship,andrelatedmethodshavebecomeoneoftherecentresearchhotspots.Weorganizeandsummarizetheworkofapplyingcausaltechniquesandideastosolvepracticalproblemsinthefieldofmachinelearninginrecentyears,andsortoutthedevelopmentvenationofthisemergingresearchdirection.First,webrieflyintroducethecloselyrelatedcausaltheorytomachinelearning.Then,weclassifyandintroduceeachworkbasedontheneedsofdifferentproblemsinmachinelearning,explaintheirdifferencesandconnectionsfromtheperspectiveofsolutionideasandtechnicalmeans.Finally,wesummarizethecurrentsituationofcausalmachinelearning,andmakepredictionsandprospectsforfuturedevelopmenttrends.Keywordscausalrelationship;spuriouscorrelation;causalinference;machinelearning;deeplearning;artificialintelligence摘要機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的重要技術(shù)手段之一,在計(jì)算機(jī)視覺、自然語言處理、搜索引擎與推薦系統(tǒng)等領(lǐng)域有著重要應(yīng)用.現(xiàn)有的機(jī)器學(xué)習(xí)方法往往注重?cái)?shù)據(jù)中的相關(guān)關(guān)系而忽視其中的因果關(guān)系,而隨收稿日期:2021?07?23;修回日期:2021?11?15家項(xiàng)目;重慶市基礎(chǔ)科學(xué)與前沿技術(shù)研究專項(xiàng)項(xiàng)目(重點(diǎn))(cstc2017jcyjBX0059)ThisworkwassupportedbytheNationalNaturalScienceFoundationofChina(61722211,61773362,61906180),theYouthInnovationPromotionAssociationCAS(20144310),theLenovo-CASJointLabYouthScientistProject,andtheProjectofChongqingResearchProgramofBasicResearchandFrontierTechnology(cstc2017jcyjBX0059).通信作者:蘭艷艷(lanyanyan@)計(jì)算機(jī)研究與發(fā)展2023,60(1)著應(yīng)用需求的提高,其弊端也逐漸開始顯現(xiàn),在可解釋性、可遷移性、魯棒性和公平性等方面面臨一系列亟待解決的問題.為了解決這些問題,研究者們開始重新審視因果關(guān)系建模的必要性,相關(guān)方法也成為近期的研究熱點(diǎn)之一.在此對(duì)近年來在機(jī)器學(xué)習(xí)領(lǐng)域中應(yīng)用因果技術(shù)和思想解決實(shí)際問題的工作進(jìn)行整理和總結(jié),梳理出這一新興研究方向的發(fā)展脈絡(luò).首先對(duì)與機(jī)器學(xué)習(xí)緊密相關(guān)的因果理論做簡要介紹;然后以機(jī)器學(xué)習(xí)中的不同問題需求為劃分依據(jù)對(duì)各工作進(jìn)行分類介紹,從求解思路和技術(shù)手段的視角闡釋其區(qū)別與聯(lián)系;最后對(duì)因果機(jī)器學(xué)習(xí)的現(xiàn)狀進(jìn)行總結(jié),并對(duì)未來發(fā)展趨勢做出預(yù)測和展望.關(guān)鍵詞因果關(guān)系;偽相關(guān)關(guān)系;因果推斷;機(jī)器學(xué)習(xí);深度學(xué)習(xí);人工智能中圖法分類號(hào)TP181機(jī)器學(xué)習(xí)是一門研究如何設(shè)計(jì)算法、利用數(shù)據(jù)使機(jī)器在特定任務(wù)上取得更優(yōu)表現(xiàn)的學(xué)科,其中以深度學(xué)習(xí)[1]為代表的相關(guān)技術(shù)已成為人們研究實(shí)現(xiàn)人工智能方法的重要手段之一.至今機(jī)器學(xué)習(xí)研究已經(jīng)取得大量令人矚目的成就:在圖像分類任務(wù)上的識(shí)別準(zhǔn)確率超過人類水平[2];能夠生成人類無法輕易識(shí)別的逼真圖像[3]和文本[4];在圍棋項(xiàng)目中擊敗人類果[6]等.目前機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺、自然語言處理、搜索引擎與推薦系統(tǒng)等領(lǐng)域發(fā)揮著不可替代的作用,相關(guān)應(yīng)用涉及互聯(lián)網(wǎng)、安防、醫(yī)療、交通和金融等眾多行業(yè),對(duì)社會(huì)發(fā)展起到了有力的促進(jìn)作用.盡管機(jī)器學(xué)習(xí)研究獲得了一系列豐碩的成果,其自身的問題卻隨著應(yīng)用需求的提高而日益凸顯.機(jī)器學(xué)習(xí)模型往往在給出預(yù)測結(jié)果的同時(shí)不會(huì)解釋其中的理由,以至于其行為難以被人理解[7];同時(shí)機(jī)器學(xué)習(xí)模型還十分脆弱,在輸入數(shù)據(jù)受到擾動(dòng)時(shí)可能完全改變其預(yù)測結(jié)果,即使這些擾動(dòng)在人看來是難以察覺的[8];機(jī)器學(xué)習(xí)模型還容易產(chǎn)生歧視行為,對(duì)不同性別或種族的人群給予不同的預(yù)測傾向,即使這些敏感特征不應(yīng)當(dāng)成為決策的原因[9].這些問題嚴(yán)重限制了機(jī)器學(xué)習(xí)在實(shí)際應(yīng)用中發(fā)揮進(jìn)一步的作用.造成這一系列問題的一個(gè)關(guān)鍵原因是對(duì)因果關(guān)系的忽視.因果關(guān)系,指的是2個(gè)事物之間,改變一者將會(huì)影響另一者的關(guān)系.然而其與相關(guān)關(guān)系有所不同,即使2個(gè)事物之間存在相關(guān)關(guān)系,也未必意味著它們之間存在因果關(guān)系.例如圖像中草地與牛由于常在一起出現(xiàn)而存在正相關(guān)關(guān)系,然而兩者之間卻沒有必然的因果關(guān)系,單純將草地改為沙地并不會(huì)改變圖像中物體為牛的本質(zhì).機(jī)器學(xué)習(xí)的問題在于其模型的訓(xùn)練過程僅僅是在建模輸入與輸出變量之間的相關(guān)關(guān)系,例如一個(gè)識(shí)別圖像中物體類別的機(jī)器學(xué)習(xí)模型容易將沙地上的牛識(shí)別為駱駝,是因?yàn)橛?xùn)練數(shù)據(jù)中的牛一般出現(xiàn)在草地上而沙地上更常見的是駱駝.這種具備統(tǒng)計(jì)意義上的相關(guān)性卻不符合客觀的因果規(guī)律的情況也被稱為偽相關(guān)(spuriouscorrelation).偽相關(guān)問題的存在對(duì)只考慮相關(guān)性的機(jī)器學(xué)習(xí)模型帶來了災(zāi)難性的影響:利用偽相關(guān)特征進(jìn)行推斷的過程與人的理解不相符,引發(fā)可解釋性問題;在偽相關(guān)特征發(fā)生變化時(shí)模型預(yù)測結(jié)果會(huì)隨之改變從而導(dǎo)致預(yù)測錯(cuò)誤,引發(fā)可遷移性和魯棒性問題;如果偽相關(guān)特征恰好是性別和膚色等敏感特征,則模型決策還會(huì)受到敏感特征的影響,引發(fā)公平性問題.忽視因果關(guān)系導(dǎo)致的這些問題限制了機(jī)器學(xué)習(xí)在高風(fēng)險(xiǎn)領(lǐng)域及各類社會(huì)決策中的應(yīng)用.圖靈獎(jiǎng)得主Bengio指出,除非機(jī)器學(xué)習(xí)能夠超越模式識(shí)別并對(duì)因果有更多的認(rèn)識(shí),否則無法發(fā)揮全部的潛力,也不會(huì)帶來真正的人工智能革命.因此,因果關(guān)系的建模對(duì)機(jī)器學(xué)習(xí)是必要的,需求也是十分迫切的.因果理論即是描述、判別和度量因果關(guān)系的理論,由統(tǒng)計(jì)學(xué)發(fā)展而來.長期以來,由于缺乏描述因果關(guān)系的數(shù)學(xué)語言,因果理論在統(tǒng)計(jì)學(xué)中的發(fā)展十分緩慢.直到20世紀(jì)末因果模型被提出后,相關(guān)研究才開始蓬勃興起,為自然科學(xué)和社會(huì)科學(xué)領(lǐng)域提供了重要的數(shù)據(jù)分析手段,同時(shí)也使得在機(jī)器學(xué)習(xí)中應(yīng)Pearl將這一發(fā)展歷程稱為“因果革命”[10],并列舉了本文將在機(jī)器學(xué)習(xí)中引入因果技術(shù)和思想的研究方向稱為因果機(jī)器學(xué)習(xí)(causalmachinelearning).目前機(jī)器學(xué)習(xí)領(lǐng)域正處于因果革命的起步階段,研究者們逐漸認(rèn)識(shí)到了因果關(guān)系建模的必要性和緊迫性,而因果機(jī)器學(xué)習(xí)的跨領(lǐng)域交叉特點(diǎn)卻限制了其自身的前進(jìn)步伐.本文希望通過對(duì)因果理論和因果機(jī)器學(xué)習(xí)前沿進(jìn)展的介紹,為相關(guān)研究者掃清障礙,促進(jìn)因果機(jī)器學(xué)習(xí)方向的快速發(fā)展.目前針對(duì)因果本身的研究已有相關(guān)綜述文獻(xiàn)[12?14],內(nèi)容主要涵蓋因果發(fā)現(xiàn)和因果效應(yīng)估計(jì)的相關(guān)方法,但很少涉及在機(jī)器學(xué)李家寧等:因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述61習(xí)任務(wù)上的應(yīng)用.綜述文獻(xiàn)[15?16]詳細(xì)地介紹了因果理論對(duì)機(jī)器學(xué)習(xí)發(fā)展的指導(dǎo)作用,著重闡述現(xiàn)有機(jī)器學(xué)習(xí)方法的缺陷和因果理論將如何發(fā)揮作用,但缺少對(duì)這一方向最前沿工作進(jìn)展的整理和介紹,而這正是本文重點(diǎn)介紹的內(nèi)容.1因果理論簡介因果理論發(fā)展至今已成為統(tǒng)計(jì)學(xué)中的一個(gè)重要分支,具有獨(dú)有的概念、描述語言和方法體系.對(duì)于因果關(guān)系的理解也已經(jīng)不再僅停留在哲學(xué)概念的層面,而是有著明確的數(shù)學(xué)語言表述和清晰的判定準(zhǔn)則.當(dāng)前廣泛被認(rèn)可和使用的因果模型有2種:潛在結(jié)果框架(potentialoutcomeframework)和結(jié)構(gòu)因果模型(structuralcausalmodel,SCM).Splawa-Neyman等人[17]和Rubin[18]提出的潛在結(jié)果框架又被稱為魯賓CM變量的平均因果效應(yīng)問題;Pearl[19]提出的結(jié)構(gòu)因果模型使用圖結(jié)構(gòu)建模一組變量關(guān)系,除了效應(yīng)估計(jì)也會(huì)關(guān)注結(jié)構(gòu)發(fā)現(xiàn)問題.RCM與SCM對(duì)因果的理解一致,均描述為改變一個(gè)變量是否能夠影響另一個(gè)變量,這也是本文所考慮的因果范疇.兩者的主要區(qū)別在于表述方法不同,RCM更加簡潔直白,相關(guān)研究更為豐富;而SCM表達(dá)能力更強(qiáng),更擅長描述復(fù)雜的問題.雖然目前依然存在對(duì)因果的其他不同理解,這些理解通常不被視為真正的因果,例如格蘭杰因?qū)α硪粋€(gè)變量的預(yù)測有促進(jìn)作用,本質(zhì)上仍是一種相關(guān)關(guān)系.本節(jié)將對(duì)因果相關(guān)概念以及RCM與SCM的相關(guān)理論和技術(shù)進(jìn)行簡要介紹.由于本文關(guān)注的主要內(nèi)容是因果機(jī)器學(xué)習(xí)而不是因果本身,本節(jié)將側(cè)重于介紹機(jī)器學(xué)習(xí)中所使用的因果的概念和思想,而不會(huì)過多關(guān)注因果領(lǐng)域自身的前沿研究.1.1因果概念統(tǒng)計(jì)學(xué)中對(duì)于因果關(guān)系的定義符合人們直覺上的認(rèn)知.在一個(gè)數(shù)據(jù)系統(tǒng)中,用于分析的數(shù)據(jù)通常會(huì)表述為一組變量,每個(gè)變量都對(duì)應(yīng)一種已知或未知的產(chǎn)生機(jī)制.對(duì)于2個(gè)給定的變量,如果在保持其他機(jī)制不變的情況下,改變一個(gè)變量會(huì)使得另一個(gè)變量也發(fā)生改變,則稱前者為因,后者為果,同時(shí)稱兩者之間存在因果關(guān)系(causalrelationship),因變量對(duì)果變量的影響稱為因果效應(yīng)(causaleffect).求解1對(duì)或多對(duì)變量是否存在因果關(guān)系以及因果效應(yīng)強(qiáng)度的任務(wù)稱為因果推斷(causalinference).通常而言,如果對(duì)因果效應(yīng)強(qiáng)度的定量研究是顯著的,則認(rèn)為因果關(guān)系存在.判定因果關(guān)系的存在性將不可避免地涉及到對(duì)原始變量系統(tǒng)的改變,即需要改變目標(biāo)變量的產(chǎn)生機(jī)制,這也是其區(qū)別于相關(guān)關(guān)系(correlation)的關(guān)鍵點(diǎn).相對(duì)而言,判定2個(gè)變量X和Y是否存在相關(guān)關(guān)系則不需要改變系統(tǒng),只需檢驗(yàn)觀測變量的邊際分布與條件分布是否一致,即判定P(X|Y)=P(X)是否成立.Pearl等人[10]在闡述相關(guān)和因果之間的差異時(shí)提出了“因果之梯(ladderofcausation)”的概念,自下而上將問題劃分為關(guān)聯(lián)、干預(yù)和反事實(shí)3個(gè)層次,分別對(duì)應(yīng)于觀察、行動(dòng)和想象3類活動(dòng).通常而言,回答因果問題需要借助反事實(shí)或者干預(yù),若希望僅借助關(guān)聯(lián)來判定因果關(guān)系則必須處理好混雜因素,這些都是研究因果理論所需的重要概念.下面將從回答因果關(guān)系判定問題的角度出發(fā),對(duì)反事實(shí)、干預(yù)和混雜因素3個(gè)概念進(jìn)行介紹.反事實(shí)(counterfactual)指的是在已經(jīng)觀測到一組變量的情況下,假設(shè)其中部分變量具有另外的取值如果我當(dāng)時(shí)沒有做某事而是做了其他某事,那么結(jié)果將會(huì)怎樣”,這是典型的基于反事實(shí)的思考,是根據(jù)結(jié)果溯源尋找原因的有效手段.如果發(fā)現(xiàn)某個(gè)變量改變?nèi)≈岛髸?huì)導(dǎo)致結(jié)果改變,該變量即是結(jié)果的原因之一.反事實(shí)考慮的是一種實(shí)際并未發(fā)生過也難以再次觀測到的情景,因?yàn)樗俣?次觀測之間除了需要研究的變量有所改變外,其他外部變量取值和作用機(jī)制需完全保持一致.盡管反事實(shí)操作的結(jié)果直接反映了變量之間的因果關(guān)系,由于通常無法針對(duì)同一個(gè)體平行地實(shí)施2種不同操作,使得在實(shí)際應(yīng)用中幾乎無法用于因果判定,更多情況下只是作為一種指導(dǎo)性思想使用.想要判斷因果關(guān)系的存在性,人們只能訴諸群體層面上的平均觀測結(jié)果,即采用干預(yù)操作.制并維持其余機(jī)制不變的操作,是因果關(guān)系判定和度量的關(guān)鍵操作.如果對(duì)一個(gè)變量的干預(yù)改變了另一個(gè)變量的概率分布,則意味著前者是后者的因.例如,通常認(rèn)為海拔高度是氣溫的因,這是因?yàn)楹0胃叨韧ㄟ^特定的物理機(jī)制對(duì)氣溫產(chǎn)生了影響.如果對(duì)海拔高度進(jìn)行干預(yù),即調(diào)整地理位置來改變海拔,氣溫也會(huì)隨之產(chǎn)生變化,因?yàn)楸澈蟮奈锢頇C(jī)制仍然能夠生效;相反,如果對(duì)氣溫進(jìn)行干預(yù),例如提供額外的熱源對(duì)空氣進(jìn)行加熱,這改變了氣溫的產(chǎn)生機(jī)制卻保持計(jì)算機(jī)研究與發(fā)展2023,60(1)海拔的產(chǎn)生機(jī)制不變,最終海拔并不會(huì)因此而改變.可見通過干預(yù)操作可以對(duì)因果關(guān)系的存在性和方向性做出清晰的判斷,事實(shí)上這也是科學(xué)研究中最常用的手段,隨機(jī)對(duì)照實(shí)驗(yàn)即屬于這一思路.干預(yù)不同于反事實(shí),不要求外部變量的取值嚴(yán)格一致,只需要滿足概率分布不變的假設(shè)即可,這在一般的應(yīng)用場景中通??梢詽M足,因此更常用于因果關(guān)系的判定.然而這種通過干預(yù)觀測系統(tǒng)的改變來判斷因果關(guān)系的做法并不能解決實(shí)際中所有的因果問題,在許多情況下干預(yù)操作的成本過高或?qū)嵤╋L(fēng)險(xiǎn)過大,甚至可能因?yàn)檫`反倫理道德而無法實(shí)際實(shí)施,如研究吸煙對(duì)肺癌的影響時(shí)不能強(qiáng)制要求普通人群吸煙.這種情況下就需要避免對(duì)目標(biāo)變量進(jìn)行干預(yù),而僅僅通過觀測原有機(jī)制產(chǎn)生的數(shù)據(jù)來估計(jì)干預(yù)的效果,這類研究問題也成為了因果推斷領(lǐng)域重點(diǎn)關(guān)注的問題.混雜因素(confounder)指的是一類變量,如果不對(duì)它們的取值進(jìn)行控制,通過觀測數(shù)據(jù)得到的干預(yù)結(jié)果的估計(jì)就會(huì)產(chǎn)生偏差.通常來說,混雜因素指的是那些能夠?qū)λ芯康囊粚?duì)變量同時(shí)產(chǎn)生影響的因素.例如對(duì)于兒童穿鞋尺碼與閱讀能力呈正相關(guān)的現(xiàn)象,年齡即是一個(gè)混雜因素,如果不控制年齡則會(huì)得出“兒童穿更大尺碼的鞋子能提升其閱讀能力”的錯(cuò)誤結(jié)論,相反若控制年齡變量,即針對(duì)不同年齡的兒童分組考察他們鞋子尺碼與閱讀能力的關(guān)系,則會(huì)發(fā)現(xiàn)兩者之間不存在相關(guān)關(guān)系.理論上如果可以發(fā)現(xiàn)并控制所有的混雜因素,那么因果關(guān)系的判定就等價(jià)于該條件下相關(guān)性的判定.然而尋找一個(gè)充分的變量集合以囊括所有的混雜因素是十分困難的,也不可能在不做任何假設(shè)的情況下判斷已有變量集合是否充分.另外,簡單地將所有其他變量都視為混雜因素的做法也不可取,例如研究一個(gè)人才華和外貌的關(guān)系時(shí),對(duì)其是否是名人這一變量進(jìn)行控制就是錯(cuò)誤的.因?yàn)橐粋€(gè)人成名需要好的才華或者好的外貌,兩者都不好的人很難成為名人,所以如果一個(gè)名人的外貌不好那么他就更可能有好的才華.在這種受控條件下兩者呈現(xiàn)一種負(fù)相關(guān),即使原本兩者是不相關(guān)的.如何鑒別和處理混雜因素始終是因果推斷領(lǐng)域的核心問題之一.1.2因果模型記待研究的變量為X和Y,其他協(xié)變量(covariate)二值變量,即取值只能為0或1.現(xiàn)在觀測到1組數(shù)據(jù)D={X(i),Y(i),Z(i)}1,需要估計(jì)X取值由0變?yōu)?時(shí)對(duì)Y的因果效應(yīng).由于Z中可能存在混雜因素,直接使用條件期望差值E[Y|X=1]?E[Y|X=0]作為估計(jì)值可能導(dǎo)致偏差.在這種情況下想要準(zhǔn)確進(jìn)行因果效應(yīng)估計(jì),SCM這2種因果模型的概念理論內(nèi)容進(jìn)行簡要介紹.1.2.1潛在結(jié)果框架(RCM)潛在結(jié)果指的是一個(gè)個(gè)體如果接受了某種處理會(huì)怎樣,也就是指如果X(i)取某種值時(shí)對(duì)應(yīng)Y(i)取值會(huì)如何.對(duì)于個(gè)體i來說,采取X=x的處理的潛在結(jié)果記作Yx(i),X(i)對(duì)Y(i)帶來的因果效應(yīng)可由X(i)的不同取值對(duì)應(yīng)的潛在結(jié)果差值來計(jì)算,即個(gè)體處理效應(yīng)(indi-vidualtreatmenteffect,ITE),定義為ITE(i)=Y1(i)?Y0(i).由于同一個(gè)個(gè)體通常不可能既采取X=0的處理同時(shí)也采取X=1的處理,實(shí)際最多只能觀測到1個(gè)結(jié)果,另一個(gè)結(jié)果則是反事實(shí)的,這也是被稱為“潛在結(jié)果”的原因.X對(duì)Y的總體因果效應(yīng)記為個(gè)體處理效應(yīng)的(1)ATE=E[ITE]=E[Y1]?E[Y0](1)平均處理效應(yīng)等同于對(duì)X的不同干預(yù)所得結(jié)果之差.如果這種干預(yù)是實(shí)際可行的,那么可以直接通ATE.干預(yù)意味著X的取值不再由觀測決定,而是由實(shí)驗(yàn)者確定,這種方式通常稱為隨機(jī)對(duì)照實(shí)驗(yàn),X=1的群體稱為處理組,X=0的群體稱為控制組.然而如1.1節(jié)所述,干預(yù)在許多情況下是不可行的,只能使用觀測數(shù)據(jù)對(duì)ATE進(jìn)行估計(jì).基于潛在結(jié)Rubin[18]提出,因此該模型也稱作魯賓因果模型,即RCM.RCM對(duì)因果的描述較為簡潔,除了要研究因果效應(yīng)的一對(duì)變量以外,對(duì)其他變量的相互作用機(jī)制不做假設(shè),因此經(jīng)常在進(jìn)行因果效應(yīng)估計(jì)的場景中使用.這種情況下需要考慮混雜因素,真實(shí)的ATE可以由通過控制全部混雜因素獲得.對(duì)變量進(jìn)行控制指的是按照該變量的不同取值分組,組內(nèi)計(jì)算效應(yīng)期望之后再在組間計(jì)算期望.如果Z包含了全部混雜因(2)ATE=Ez[E[Y|X=1,Z=z(2)E[Y|X=0,Z=z]].在RCM中,如果滿足一定的假設(shè),上述計(jì)算得到的ATE即是X對(duì)Y的真實(shí)因果效應(yīng).這些假設(shè)1)個(gè)體處理值穩(wěn)定假設(shè)(stableunittreatmentval-ueassumption,SUTVA)[21],指的是一個(gè)個(gè)體的潛在結(jié)果不受其他個(gè)體處理的影響.例如一個(gè)人服用藥物獲李家寧等:因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述63ZXXY穿鞋尺碼閱讀能力NNNZXXY穿鞋尺碼閱讀能力NNN后,潛在結(jié)果不受處理方式的影響.例如對(duì)于一個(gè)人是否服藥導(dǎo)致的潛在治療效果具有確定性,不隨實(shí)際是否服藥的行為而發(fā)生改變.3)正值性(positivity)[22],指的是對(duì)于每個(gè)個(gè)體均有非零的可能性采取每種處理方式.采用控制所有混雜因素的方法計(jì)算ATE在實(shí)際問題中可能會(huì)遇到困難,通常是由于混雜因素的維度很高,控制相同取值的樣本可能數(shù)量很少,導(dǎo)致期望估計(jì)不準(zhǔn)確.針對(duì)這一問題,研究者們提出了多種解決方案.常見的方法有基于傾向性得分的估計(jì)方法、基于回歸的估計(jì)方法以及兩者相結(jié)合的方法.傾向性得分(propensityscore)指的是給定協(xié)變量Z的情況下獲得處理X=1的概率,即P(X=1|Z),可以使用機(jī)器學(xué)習(xí)模型進(jìn)行建模.文獻(xiàn)[22]指出,在ATE的表達(dá)式中使用傾向性得分代替協(xié)變量Z仍能夠保證估計(jì)的正確性,因此可以通過控制傾向性得分計(jì)算分組期望 選擇得分最接近的1個(gè)或1組對(duì)照組個(gè)體進(jìn)行匹配,計(jì)算它們結(jié)果的平均差值,然后在整個(gè)處理組上取理概率加權(quán)(inverseprobabilityoftreatmentweighting,果除以傾向性得分后再取平均,即可得到ATE的估計(jì)值IPTW:IPTW=?.(3)基于回歸的估計(jì)方法簡稱回歸估計(jì)[24],其思想是使用機(jī)器學(xué)習(xí)模型建模給定處理X和協(xié)變量Z時(shí)結(jié)果Y的期望,即E[Y|X,Z],然后用這一回歸模型來模擬干預(yù),即可得到ATE的估計(jì)值REG:REG=E[Y|X=1,Z(i)]?E[Y|X=0,Z(i)].(4)回歸估計(jì)方法可以和IPTW方法相結(jié)合得到雙穩(wěn)健估計(jì)(doublyrobustestimation,DRE)[25]:DRE=X(i)×(Y(i)?E[Y|X=1,Z(i)])P(X=1|Z(i))?(1?X(i))×(Y(i)?E[Y|X=0,Z(i)])1?P(X=1|Z(i))+REG. 只要2種估計(jì)中的1種是可靠的,那么DRE整體即是可靠的.除以上方法外,還有混雜平衡(confounderbalan- 混雜因素的問題,可參考文獻(xiàn)[28]中的介紹,在此不再詳細(xì)展開.這些方法都要求混雜因素的值是可觀測的,限制了RCM在一些場景中的應(yīng)用.這種情況下的部分問題可以使用SCM解決.1.2.2結(jié)構(gòu)因果模型(SCM)SCM由Pearl[19]提出,其思想是將所有需要考慮的變量組織成一個(gè)有向無環(huán)圖,圖的每個(gè)節(jié)點(diǎn)都代表1個(gè)變量,1條由節(jié)點(diǎn)A指向節(jié)點(diǎn)B的有向連邊代表A對(duì)B有直接的因果作用.這種圖又稱為因果圖(causal包含所有考慮的變量,邊集合E包含所有對(duì)變量直接因果關(guān)系的先驗(yàn)假設(shè).例如兒童穿鞋尺碼與閱讀能力關(guān)系的因果圖可如圖1(a)表示(假設(shè)穿鞋尺碼對(duì)閱讀能力的因果效應(yīng)是待研究的未知量): (structuralequations),其假設(shè)每個(gè)節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)未觀測到的外生變量(exogenousvariable),節(jié)點(diǎn)的值由該外生變量及所有直接父節(jié)點(diǎn)變量通過一個(gè)方程來唯一確定,例如X=fX(PAX,NX),其中PAX指的是節(jié)點(diǎn)X的所有父節(jié)點(diǎn)變量,NX是X對(duì)應(yīng)的外生變量.圖1所對(duì)應(yīng)的完整結(jié)構(gòu)方程為Z=NZ,X=fX(Z,NX),Y=fY(Z,X,NY).之所以稱為這些方程是“結(jié)構(gòu)方程”,是因?yàn)槠浯碜兞康纳蓹C(jī)制,只能由等式右邊對(duì)左邊賦值,而不能隨意變換方向.外生變量描述的是對(duì)應(yīng)節(jié)點(diǎn)變量的所有隨機(jī)因素,其自身具有確定性的概率分布,通常未被觀測也無法進(jìn)行控制,而且SCM中假設(shè)所有外生變量之間相互獨(dú)立,圖1(b)展示了一個(gè)外生變量的例子.通過結(jié)構(gòu)方程和外生變量,SCM能夠很清晰地定義干預(yù)和反事實(shí)操作,其中干預(yù)操作是將干預(yù)節(jié)點(diǎn)的結(jié)構(gòu)方程替換掉,對(duì)應(yīng)在因果圖中即是去掉年齡ZZYY(a)原始因果圖((a)原始因果圖Fig.1Exampleofcausalgraph圖1因果圖示例計(jì)算機(jī)研究與發(fā)展2023,60(1)ZZYXYTYZZYXYTY所有指向干預(yù)節(jié)點(diǎn)的箭頭.這在SCM中也稱為do操do(X=1),X的結(jié)構(gòu)方程也對(duì)應(yīng)修改為X=1,意味著X不再受其父節(jié)點(diǎn)和外生變量的影響.反事實(shí)操作同樣由do操作給出,但同時(shí)會(huì)限制所有外生變量取值在SCM中,混雜因素識(shí)別可以直接借助因果圖結(jié)構(gòu)完成,一個(gè)變量成為混雜因素當(dāng)且僅當(dāng)存在由該節(jié)點(diǎn)指向X和Y的各1條有向路徑(指向Y的路徑一樣在識(shí)別混雜因素后計(jì)算ATE得到,不過在SCMEYdoX?E[Y|do(X=0)].這種方法的關(guān)鍵是計(jì)算P(Y|do(X=x)),這可以通過將因果圖視為貝葉斯網(wǎng)絡(luò)(Bayesiannet-work)進(jìn)行概率分解得到.然而由do操作定義直接給出的求解方法面對(duì)稍復(fù)雜的因果圖時(shí)也會(huì)變得很復(fù)雜,因此一般不會(huì)直接使用.更常用的方法稱為后門調(diào)整(backdooradjustment):一條指向X并連接Y的路徑稱為X到Y(jié)的后門路徑,通過控制路徑上的某些節(jié)點(diǎn)使得所有后門路徑被關(guān)閉的方法稱為后門調(diào)整.路徑上的邊均指向自身的節(jié)點(diǎn)稱為對(duì)撞節(jié)點(diǎn)(collider).一條路徑是關(guān)閉的,當(dāng)且僅當(dāng)某個(gè)對(duì)撞節(jié)點(diǎn)沒有被控制或者某個(gè)非對(duì)撞節(jié)點(diǎn)被控制.RCM中控制所有混雜因素而不控制其他節(jié)點(diǎn)的做法恰恰是后門調(diào)整中的一個(gè)特例.例如圖2(a)中的因果圖,Z是一個(gè)混雜因素,X←W←Z→Y是一條后門路徑,W和Z均不是對(duì)撞節(jié)點(diǎn),所以單獨(dú)控制Z或W,或者同時(shí)控制兩者都是可以的.WWXX(b)后門調(diào)整((b)后門調(diào)整Fig.2Exampleoffrontdoor/backdooradjustment圖2前門/后門調(diào)整示例使用SCM相對(duì)于RCM的優(yōu)勢最主要體現(xiàn)在混雜因素?zé)o法觀測的場景.這種情形下RCM將無法使用,而SCM可以通過一種稱為do演算(do-calculus)的方法將因果效應(yīng)的計(jì)算轉(zhuǎn)化為僅在可觀測變量上的計(jì)算,從而解決部分問題.do演算包含3條規(guī)則,這些規(guī)則已被證明是完備的,即如果存在一種僅通過可觀測變量的觀測分布計(jì)算因果效應(yīng)的方法,那么這種方法一定能由do演算推導(dǎo)得到,由于篇幅所限不在此展開詳細(xì)介紹.do演算的一個(gè)常見實(shí)例是前門調(diào)整(frontdooradjustment)[29],如圖2(b)中的因果圖,變量T稱為前門變量,因?yàn)槠洳皇躗的直接影響,且X對(duì)Y的效應(yīng)僅僅通過T生效.通過前門變量T可以在不觀測Z的情況下計(jì)算因果效應(yīng):P(Y|do(X=x))=P(Y|T=t,X=x′).P(X=x′)P(T=t|X=x). 在因果推斷及因果機(jī)器學(xué)習(xí)任務(wù)中,因果圖通常是未知的.一種方式是根據(jù)具體問題結(jié)合領(lǐng)域知識(shí)給出先驗(yàn)的因果圖結(jié)構(gòu),另一種方式是從數(shù)據(jù)中學(xué)discovery)任務(wù),目的是從一系列變量的觀測結(jié)果中推斷因果圖結(jié)構(gòu).因果發(fā)現(xiàn)有3類主要方法:基于約束的方法、基于評(píng)分的方法和基于結(jié)構(gòu)方程的方法.基于約束的方法主要考慮數(shù)據(jù)中的條件獨(dú)立性,通過檢驗(yàn)各個(gè)變量之間是否條件獨(dú)立,給出可能的因果圖的等價(jià)類,即確定部分連邊及其方向.這類方法包括PC(PeterandClark)[30],IC(inductivecausation)[31],思路是利用評(píng)分函數(shù)來求解得分最高的因果圖,常信息準(zhǔn)則(Bayesianinformation 雜度,代表性方法是GES(greedyequivalencesearch)[34].基于結(jié)構(gòu)方程的方法是對(duì)結(jié)構(gòu)方程的形式做一定的假設(shè),從而可以求解完整的因果圖,但同時(shí)適用范圍 (linearnon-Gaussianacyclicmodel)[35]和后非線性模型 (post-nonlinearmodel)[36]等.因果發(fā)現(xiàn)在實(shí)際應(yīng)用中面臨的最大問題是可識(shí)別性(identifiability),即能否從觀測數(shù)據(jù)中識(shí)別唯一確定的因果圖.因果圖的出現(xiàn)還催生了中介分析[37-38]的研究方向,即在有中介變量(mediator)存在的情況下將X對(duì)Y所示,X對(duì)Y產(chǎn)生的因果效應(yīng)由2條路徑共同決定,一條是經(jīng)由中介變量M間接影響Y,一條是直接對(duì)Y產(chǎn)生影響.MMXXFig.3Exampleofmediationanalysis圖3中介分析示例李家寧等:因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述65 1)歸因分析①③2)反事實(shí)解釋①④1)反因果域適應(yīng)①2)其他可遷移性問題因果理論機(jī)器學(xué)習(xí)問題1)反事實(shí)數(shù)據(jù)增強(qiáng)④2)因果效應(yīng)校準(zhǔn)①②③3 1)歸因分析①③2)反事實(shí)解釋①④1)反因果域適應(yīng)①2)其他可遷移性問題因果理論機(jī)器學(xué)習(xí)問題1)反事實(shí)數(shù)據(jù)增強(qiáng)④2)因果效應(yīng)校準(zhǔn)①②③3)不變性學(xué)習(xí)①魯棒性問題1)反事實(shí)公平性①③④2)其他公平性問題反事實(shí)評(píng)估問題1)逆傾向性得分加權(quán)②④2)反事實(shí)風(fēng)險(xiǎn)最小化②④1)干預(yù)和反事實(shí)預(yù)測①④2)其他其他問題差距稱為全效應(yīng)(totaleffect,TE),即TE=Yxm?E[Yx].直接效應(yīng)和間接效應(yīng)需要依靠反事實(shí)來定義,例如直接效應(yīng)可以視為在觀測樣本上缺少X=x造成的差距或者在參考情況下添加X=x造成的差距,前者稱為全直接效應(yīng)(totaldirecteffect,TDE),后者稱為自然直接效應(yīng)(naturaldirecteffect,NDE),分別有TDE=Yxm?Yxm,NDE=E[Yx]?E[Yx].同樣地,間接效應(yīng)也分間接效應(yīng)(naturalindirecteffect,NIE),分別有TIE=Yxm?E[Yx],NIE=Yxm?E[Yx].以上效應(yīng)之間滿足關(guān)系TE=TDE+NIE=TIE+NDE.2因果機(jī)器學(xué)習(xí)相關(guān)工作介紹近年來隨著因果理論和技術(shù)的成熟,機(jī)器學(xué)習(xí)領(lǐng)域開始借助因果相關(guān)技術(shù)和思想解決自身的問題,這一研究方向逐漸受到研究者越來越多的關(guān)注.至今,因果問題被認(rèn)為是機(jī)器學(xué)習(xí)領(lǐng)域亟待解決的重要問題,已成為當(dāng)下研究的前沿?zé)狳c(diǎn)之一.機(jī)器學(xué)習(xí)可以從因果技術(shù)和思想中獲得多個(gè)方面的益處.首先,因果理論是一種針對(duì)數(shù)據(jù)中規(guī)律的普適分析工具,借助因果圖等語言可以對(duì)研究的問題做出細(xì)致的分析,有利于對(duì)機(jī)器學(xué)習(xí)模型的目標(biāo)進(jìn)行形式化以及對(duì)問題假設(shè)的表述.其次,因果推斷提供了消除混雜因素以及進(jìn)行中介分析的手段,對(duì)于機(jī)器學(xué)習(xí)任務(wù)中需要準(zhǔn)確評(píng)估因果效應(yīng)及區(qū)分直接與間接效應(yīng)的場景有十分重要的應(yīng)用價(jià)值.再者,反事實(shí)作為因果中的重要概念,也是人在思考求解問題時(shí)的常用手段,對(duì)于機(jī)器學(xué)習(xí)模型的構(gòu)建和問題的分析求解有一定的指導(dǎo)意義.本節(jié)將對(duì)近年來因果機(jī)器學(xué)習(xí)的相關(guān)工作進(jìn)行整理介紹,涉及應(yīng)用領(lǐng)域包括計(jì)算機(jī)視覺、自然語言處理、搜索引擎和推薦系統(tǒng)等.按照所解決問題的類型進(jìn)行劃分,因果機(jī)器學(xué)習(xí)主要包括以下內(nèi)容:可解釋性問題主要研究如何對(duì)已有機(jī)器學(xué)習(xí)模型的運(yùn)作機(jī)制進(jìn)行解釋;可遷移性問題主要研究如何將模型在特定訓(xùn)練數(shù)據(jù)上學(xué)到的規(guī)律遷移到新的特定環(huán)境;魯棒性問題主要研究尋找普適存在的規(guī)律使模型能夠應(yīng)對(duì)各種未知的環(huán)境;公平性問題主要研究公平性度量指標(biāo)并設(shè)計(jì)算法避免歧視;反事實(shí)評(píng)估問題主要研究如何在存在數(shù)據(jù)缺失的場景中進(jìn)行反事實(shí)學(xué)習(xí).這些問題與因果理論的關(guān)系如圖4所示,下面針對(duì)這些問題分別展開介紹.可解釋性問題①因果圖建模②消除混雜③中介分析④反事實(shí)思想Fig.4Overviewofmainresearchproblemsincausalmachinelearning圖4因果機(jī)器學(xué)習(xí)的主要研究問題總覽2.1可解釋性問題機(jī)器學(xué)習(xí)模型會(huì)根據(jù)給定輸入計(jì)算得到對(duì)應(yīng)的輸出,但一般不會(huì)給出關(guān)于“為什么會(huì)得到此輸出”的解釋.然而這種解釋有助于人們理解模型的運(yùn)作機(jī)制,合理的解釋能夠使結(jié)果更具有說服力.因此近年來涌現(xiàn)出許多致力于為現(xiàn)有模型提供解釋方法的工作,為模型的診斷分析提供了有效手段[39].解釋的核心在于“模型得到此輸出,是因?yàn)檩斎刖哂惺裁礃拥奶卣鳌?,這本質(zhì)上是在探討在此模型參與過程中輸入特征與輸出結(jié)果之間的因果關(guān)系,例如估計(jì)特征對(duì)輸出變量的因果效應(yīng)強(qiáng)度.由于機(jī)器學(xué)習(xí)模型對(duì)輸入數(shù)據(jù)的處理過程是一個(gè)獨(dú)立而完整的過程,輸入與輸出變量之間一般不會(huì)受到混雜因素的影響,因此即使不使用因果術(shù)語也可以對(duì)任務(wù)進(jìn)行描述.這體現(xiàn)為早期的模型解釋方法并不強(qiáng)調(diào)因果,少數(shù)強(qiáng)調(diào)因果的方法也并不一定計(jì)算機(jī)研究與發(fā)展2023,60(1)依賴因果術(shù)語.因果理論的引入為可解釋性問題領(lǐng)域帶來的貢獻(xiàn)主要有2個(gè)方面:一是在基于歸因分析的解釋方法中建模特征內(nèi)部的因果關(guān)系;二是引入一類新的解釋方法即基于反事實(shí)的解釋.基于歸因分析和基于反事實(shí)的解釋構(gòu)成了當(dāng)前最主要的2大類模型解釋方法如表1所示,以下分別展開介紹.2.1.1基于歸因分析的解釋方法基于歸因分析(attribution)的方法是機(jī)器學(xué)習(xí)模型解釋方法中最早出現(xiàn)也是最為成熟的方法.對(duì)于一映射為輸出Y=y,歸因分析指的是為每個(gè)特征分配 (本節(jié)所用符號(hào)與前文無關(guān)).基于歸因分析的常見解Gradient(IG)[42],ShapleyValues(SHAP)[43]等.以SHAP方法為例,SHAP方法認(rèn)為一個(gè)特征對(duì)于輸出變量的效應(yīng)強(qiáng)度應(yīng)該為:使用該特征的預(yù)測結(jié)果與不使用該特征的預(yù)測結(jié)果之差.將整個(gè)特征集合記作F={1,2,···,n},預(yù)測輸出結(jié)果需要選擇一個(gè)特征子集,計(jì)算特征i的效應(yīng)需要對(duì)比不含i的所有子集與對(duì)應(yīng)添加i的子集的差別,即fS∪{i}(XS∪{i})?fS(XS).在所有滿足條件的子集上取加權(quán)平均的結(jié)果即為特征i的Shapley值.SHAP方法將Shapley值作為特征的基于歸因分析的解釋方法雖然描述的是因果關(guān)系,但一般不依賴因果術(shù)語,一些文獻(xiàn)采用了因果的表述,本質(zhì)上仍屬于歸因解釋的框架.例如文獻(xiàn)[44]提出一種針對(duì)端到端文本生成模型的因果解釋框架,預(yù)測源文本中的單詞對(duì)目標(biāo)文本中單詞的影響強(qiáng)度,相當(dāng)于將源文本單詞視為特征集合,針對(duì)每個(gè)目標(biāo)提出一種在不確定因素下圖像分類模型的因果解釋方法,其主要貢獻(xiàn)在于對(duì)每個(gè)特征除了計(jì)算其歸因值以外還會(huì)計(jì)算其置信度.文獻(xiàn)[46]提出將機(jī)器學(xué)習(xí)模型整體視為一個(gè)SCM模型,然后計(jì)算每個(gè)特征對(duì)輸出結(jié)果的平均處理效應(yīng),相當(dāng)于將解釋問題重新使用因果語言進(jìn)行形式化,但在做法上與其他歸因解釋方法并無本質(zhì)不同.基于歸因分析的解釋方法一般將每個(gè)特征視為獨(dú)立的變量進(jìn)行考慮,而當(dāng)特征之間存在相互影響時(shí)就必須借助因果理論進(jìn)行刻畫和求解.文獻(xiàn)[47]基SHAP方法,其核心思想在于:原始Shapley值計(jì)算方SHAP會(huì)調(diào)整這些置換的權(quán)重,例如將不符合因果順序的置換的權(quán)重置為0,從而將子節(jié)點(diǎn)的因果效應(yīng)匯總歸于祖先節(jié)點(diǎn)的因果效應(yīng).文獻(xiàn)[48]同樣基于SHAPv(S),為保持樣本位于數(shù)據(jù)流形之上,一般選擇計(jì)算以XS=xS為條件下的期望.該文獻(xiàn)認(rèn)為,在給定因果圖結(jié)構(gòu)的情況下應(yīng)使用do操作而非取條件的操作,在不同因果結(jié)構(gòu)下對(duì)于相同觀測數(shù)據(jù)的解釋存在的2.1.2基于反事實(shí)的解釋方法基于反事實(shí)的解釋方法是近年來新興的一類模型解釋方法,其中“反事實(shí)”作為一種因果術(shù)語指的是如果樣本的部分特征發(fā)生了改變而其他特征不變將會(huì)怎樣.一般而言,反事實(shí)解釋方法會(huì)尋找一種樣本特征處理方法使樣本的預(yù)測結(jié)果發(fā)生顯著改變,例如對(duì)圖像的局部進(jìn)行替換或遮擋從而改變分類類別等.與歸因分析不同,反事實(shí)解釋并不會(huì)提供每個(gè)特征的重要度,而是直接給出改變預(yù)測結(jié)果的途徑,相當(dāng)于給出信息“模型對(duì)樣本X的輸出為A而不是B,是因?yàn)閄具有特征f,如果該特征變?yōu)間則其輸出會(huì)變?yōu)锽”(本節(jié)所用符號(hào)與前文無關(guān)).Table1ApplicationofCausalMethodsonInterpretabilityProblems表1因果方法在可解釋性問題上的應(yīng)用分類子類別典型思路和方法基于歸因分析忽略特征間結(jié)構(gòu)考慮特征間結(jié)構(gòu)直接計(jì)算每個(gè)輸入特征對(duì)模型輸出的因果效應(yīng)引入輸入特征間的先驗(yàn)因果圖結(jié)構(gòu),調(diào)整特征對(duì)模型輸出的因果效應(yīng)基于反事實(shí)輸入數(shù)據(jù)反事實(shí)輸出數(shù)據(jù)反事實(shí)反事實(shí)可行性在模型輸入空間構(gòu)造反事實(shí)樣本對(duì)生成模型的中間節(jié)點(diǎn)進(jìn)行反事實(shí),構(gòu)造反事實(shí)生成樣本對(duì)反事實(shí)操作的約束條件進(jìn)行額外建模李家寧等:因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述67文獻(xiàn)[49-50]提供了一類典型的反事實(shí)解釋方法.針對(duì)圖像分類任務(wù),需要從給定原始圖像中選擇一塊區(qū)域使其替換為其他內(nèi)容后變?yōu)槟繕?biāo)類別.所替換修改后的復(fù)合圖像構(gòu)成了原樣本的一個(gè)反事實(shí)解釋,如圖5所示:(a)原始圖像(b)干擾圖像(c)復(fù)合圖像Fig.5Exampleofcounterfactualexplanation[49]圖5反事實(shí)解釋示例[49]文獻(xiàn)[51]在為圖像分類模型構(gòu)造反事實(shí)解釋時(shí)避開了圖像的修改合成過程,直接生成可讀的文本解釋,例如“它不是猩紅麗唐納雀,因?yàn)樗鼪]有黑色的翅膀”.文獻(xiàn)[52]通過優(yōu)化的方式求解圖像的掩碼,使得遮擋該區(qū)域后模型不再將其分類為原始類別.文獻(xiàn)[53]在視頻分類上應(yīng)用反事實(shí)解釋,選取視頻中關(guān)鍵片段的關(guān)鍵矩形區(qū)域,并通過預(yù)測該區(qū)域的語言學(xué)屬性為其搭配簡單的文本解釋,如“是騎行而不是滑板運(yùn)動(dòng),因?yàn)樽藙菔亲?文獻(xiàn)[54]利用局部語解釋原始圖像需要增減哪些語義特征才能改變?yōu)槟縎CM,為智能體的行為做模板式的反事實(shí)解釋,例如“智能體選擇建造供應(yīng)站而不是兵營,因?yàn)榭梢該碛懈喙?yīng)站,有利于破壞對(duì)手更多的單位和建筑”.文獻(xiàn)[56]提出反事實(shí)解釋需滿足可行性和多樣性,并采用優(yōu)化的方式求解反事實(shí)解釋的集合.文獻(xiàn)[57]為貝葉斯網(wǎng)絡(luò)分類器構(gòu)造反事實(shí)解釋,求解值改變即引起結(jié)果改變的變量集合.文獻(xiàn)[58]在反事實(shí)解釋的基礎(chǔ)上提出半事實(shí)(semi-factual)解釋的概念,與反事實(shí)解釋的區(qū)別在于其對(duì)于樣本的修改接近改變輸出但實(shí)際并未真正改變.文獻(xiàn)[59]為針對(duì)圖(graph)數(shù)據(jù)的分類器設(shè)計(jì)反事實(shí)解釋方法,提出一種基于搜索的方法尋找反事實(shí)圖.文獻(xiàn)[60]針對(duì)以往基于算法的反事實(shí)樣本構(gòu)造方法過于耗時(shí)的問題,提出一種基 (treeensemble)模型設(shè)計(jì)了反事實(shí)解釋方法,建模為混合整數(shù)規(guī)劃問題并進(jìn)行求解.文獻(xiàn)[62]針對(duì)圖像生成模型研究了一種特殊的反事實(shí)解釋方法.由于圖像生成模型的輸入為無直觀意義的噪聲,一般的反事實(shí)研究不易產(chǎn)生有價(jià)值的解釋,因此該方法不再針對(duì)輸入特征進(jìn)行反事實(shí),而是將神經(jīng)網(wǎng)絡(luò)模型視為白盒SCM,在其內(nèi)部表達(dá)節(jié)點(diǎn)上進(jìn)行反事實(shí),其目的是尋找模型中的獨(dú)立生成機(jī)制,從而有助于對(duì)模型的理解.具體方法是尋找一些網(wǎng)絡(luò)內(nèi)部節(jié)點(diǎn)集合,使得在2幅圖像上做數(shù)值交換后輸出差異盡可能大,這些節(jié)點(diǎn)即反映了圖像的關(guān)鍵生成機(jī)制.圖6展示了該文獻(xiàn)方法可通過2幅圖像在關(guān)鍵內(nèi)部節(jié)點(diǎn)上的數(shù)值交換實(shí)現(xiàn)反事實(shí)的圖片混合效果.(a)圖像1(b)圖像2(c)混合結(jié)果Fig.6Exampleofcounterfactualimagehybridization[62]圖6反事實(shí)圖像混合示例[62]基于反事實(shí)的模型解釋方法相對(duì)于歸因解釋的優(yōu)勢在于其直接提供了改變當(dāng)前模型預(yù)測結(jié)果的操作手段.然而一些文獻(xiàn)指出,反事實(shí)解釋提出的建議并不會(huì)考慮實(shí)際實(shí)施的代價(jià),甚至可能是無法操作的.文獻(xiàn)[63]研究了反事實(shí)解釋偏離數(shù)據(jù)分布的問題,提出基于馬氏距離和局部異常因子的代價(jià)函數(shù)約束反事實(shí)解釋的可行度,將尋找可行反事實(shí)解釋的問題轉(zhuǎn)化為混合整數(shù)線性優(yōu)化的求解問題.文獻(xiàn)[64]在此基礎(chǔ)上基于因果圖分析了在多個(gè)特征上反事實(shí)操作的順序問題,因果圖可由因果發(fā)現(xiàn)技術(shù)獲得.文獻(xiàn)[65]研究了在特征為二值情景下的反事實(shí)解釋的可行性問題,證明尋找最優(yōu)反事實(shí)策略是NP難的,因此提出一種高效的隨機(jī)算法進(jìn)行近似求解.文獻(xiàn)[66]研究了特征之間存在因果關(guān)聯(lián)時(shí)如何提供可行反事實(shí)解釋的問題,在假設(shè)因果圖結(jié)構(gòu)已知的情況下,用高斯過程建模結(jié)構(gòu)方程的不確定性,提出個(gè)體和亞群體級(jí)別的2類可行性反事實(shí)解釋,使用梯度優(yōu)化的方式求解.2.2可遷移性問題機(jī)器學(xué)習(xí)研究通常會(huì)在一個(gè)給定的訓(xùn)練數(shù)據(jù)集上訓(xùn)練模型,然后在同數(shù)據(jù)分布的驗(yàn)證集或測試集上進(jìn)行測試,這種情況下模型的表現(xiàn)稱為分布內(nèi)泛化(in-distributiongeneralization).在一般的應(yīng)用場景中,機(jī)器學(xué)習(xí)模型會(huì)部署在特定數(shù)據(jù)環(huán)境中,并使用該環(huán)境中產(chǎn)生的數(shù)據(jù)進(jìn)行模型訓(xùn)練,其性能表現(xiàn)可以計(jì)算機(jī)研究與發(fā)展2023,60(1)XYYYXYYY用分布內(nèi)泛化能力來度量.然而在一些場景中,目標(biāo)環(huán)境中的標(biāo)注數(shù)據(jù)難以獲取,因此更多的訓(xùn)練數(shù)據(jù)只能由相似的替代環(huán)境提供.例如訓(xùn)練自動(dòng)駕駛的智能體時(shí)由于風(fēng)險(xiǎn)過高不能直接在真實(shí)道路上行駛收集數(shù)據(jù),而只能以模擬系統(tǒng)中所獲取的數(shù)據(jù)為主進(jìn)行訓(xùn)練.這種場景下的機(jī)器學(xué)習(xí)任務(wù)又稱為域適應(yīng) domainadaptation遷移學(xué)習(xí)(transferlearning)的范疇,即將源域(sourcedomain)中所學(xué)到知識(shí)遷移至目標(biāo)域(targetdomain).這里的域(domain)和環(huán)境 (environment)的含義相同,可以由產(chǎn)生數(shù)據(jù)的不同概率分布來描述,下文將沿用文獻(xiàn)中各自的習(xí)慣稱呼,不再對(duì)這2個(gè)概念進(jìn)行區(qū)分.在可遷移性問題中,因果理論的主要價(jià)值在于提供了清晰的描述語言和分析工具,使研究者能夠更準(zhǔn)確地判斷可遷移和不可遷移的成分,有助于設(shè)計(jì)針對(duì)不同場景的解決方案.因果推斷中關(guān)注的效應(yīng)估計(jì)問題本質(zhì)上是在研究改變特定環(huán)境作用機(jī)制而保持其他機(jī)制不變的影響,這與遷移學(xué)習(xí)中域的改變的假設(shè)相符,即目標(biāo)域和源域相比繼承了部分不變的機(jī)制可以直接遷移,而剩余部分改變的機(jī)制則需要進(jìn)行適應(yīng).因此在因果理論的指導(dǎo)下,遷移學(xué)習(xí)中的關(guān)鍵問題就是建模并識(shí)別變與不變的機(jī)制.目前因果遷移學(xué)習(xí)一般假設(shè)輸入X與輸出Y之間有直接因果關(guān)系,重點(diǎn)關(guān)注無混雜因素情況下變量的因果方向和不變機(jī)制,如表2所示,以下介紹相關(guān)工作.Table2ApplicationofCausalMethodsonTransferabilityProblems表2因果方法在可遷移性問題上的應(yīng)用分類典型思路和方法 僅考慮輸入輸出與域變量間的因果圖求解在協(xié)變量偏移、目標(biāo)偏移、條件偏移、廣義目標(biāo)偏移情況下的建模方法考慮含其他復(fù)雜變量的因果圖引入先驗(yàn)因果圖或從數(shù)據(jù)中進(jìn)行因果發(fā)現(xiàn)文獻(xiàn)[77]是早期研究因果理論對(duì)機(jī)器學(xué)習(xí)指導(dǎo)作用的經(jīng)典工作,主要使用結(jié)構(gòu)方程模型研究輸入變量X與輸出變量Y之間的因果方向?qū)蛇w移性的影響:1)如果有X→Y,那么輸入分布P(X)與條件分布P(Y|X)可視為獨(dú)立的機(jī)制,目標(biāo)域數(shù)據(jù)所提供的輸入P′(X)信息對(duì)P′(Y|X)的預(yù)測不會(huì)產(chǎn)生直接作用,而2)如果有Y→X,則輸入分布P(Y)與條件分布P(X|Y)可視為獨(dú)立的機(jī)制,結(jié)論將與1)情況完全相反,這種P(X)發(fā)生改變而P(Y|X)不變的情況常被稱為協(xié)變量偏移(covariateshift,CovS).文獻(xiàn)[70]針對(duì)實(shí)際情形中更常見的反因果遷移問題進(jìn)行了進(jìn)一步的建模,如shift,TarS);如果只有P(X|Y)發(fā)生了改變則稱為條件偏移(conditionalshift,ConS);如果兩者都發(fā)生了改變則稱為廣義目標(biāo)偏移(generalizedtargetshift,GeTarS).這些工作為因果理論指導(dǎo)遷移學(xué)習(xí)奠定了基礎(chǔ).后續(xù)許多工作沿用正反向因果框架展開,在不同的先驗(yàn)因果圖結(jié)構(gòu)下求解遷移學(xué)習(xí)問題.文獻(xiàn)[78]探討了在有多個(gè)源域提供數(shù)據(jù)的情況下如何求解各類反因果遷移問題.文獻(xiàn)[67]提出協(xié)變量偏移情況下對(duì)P(Y|X)不變的假設(shè)過強(qiáng),認(rèn)為只需假設(shè)存在特征集合S使得P(Y|S)跨環(huán)境不變即可,并設(shè)計(jì)搜索算法尋找S.文獻(xiàn)[68]針對(duì)目標(biāo)偏移問題已有方法無法處理高維數(shù)據(jù)、連續(xù)數(shù)據(jù)和大規(guī)模數(shù)據(jù)等問題,提出一種新的標(biāo)簽變換方法求解,將源域的標(biāo)簽Y變換之后再重新訓(xùn)練或微調(diào)獲得P(Y|X)模型.文獻(xiàn)[69]研究條件偏移情況,基于變分自編碼器結(jié)構(gòu)學(xué)習(xí)X的隱變量表達(dá),并引入對(duì)抗訓(xùn)練使語義表達(dá)與域表達(dá)解耦合,語義表達(dá)即可用于遷移.文獻(xiàn)[71]指出在廣義目標(biāo)偏移的情況下使用文獻(xiàn)[70]中的局部尺度變換方法可能無法滿足需求,進(jìn)而設(shè)計(jì)算法通過尋找條件可遷移成分(conditionaltransferablecomponents)進(jìn)行求解.一些遷移學(xué)習(xí)的工作也考慮從其他角度引入因果理論和技術(shù).文獻(xiàn)[72]在因果圖建模的基礎(chǔ)上額外建模了結(jié)構(gòu)方程,基于非線性獨(dú)立成分分析構(gòu)造目標(biāo)域的偽樣本對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充.文獻(xiàn)[73]利用因果圖在一個(gè)虛擬的“密室逃生”任務(wù)上建模不同層次的因果結(jié)構(gòu),以將所學(xué)知識(shí)遷移到未見過的相似場景.文獻(xiàn)[74]研究了一種特殊的模仿學(xué)習(xí)遷移任務(wù),即演示者與學(xué)習(xí)者接收不同的傳感器輸入,如自動(dòng)域域(a)目標(biāo)偏移域域XX(b)條件偏移域域XX(c)廣義目標(biāo)偏移Fig.7Causalgraphsofthreetypesofanti-causaltransferproblems[70]圖73類反因果遷移問題的因果圖[70]李家寧等:因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述69駕駛智能體上路時(shí)無法觀測到學(xué)習(xí)時(shí)的指示燈信號(hào),使用SCM分析可變與不變的部分以指導(dǎo)學(xué)習(xí).文獻(xiàn)域適應(yīng)任務(wù),認(rèn)為預(yù)訓(xùn)練知識(shí)是特征和標(biāo)簽的混雜因素,采用后門調(diào)整消除其影響.文獻(xiàn)[76]將域適應(yīng)問題轉(zhuǎn)化為增廣的因果圖上的推斷問題,在多個(gè)源域的數(shù)據(jù)上進(jìn)行結(jié)構(gòu)發(fā)現(xiàn),然后使用條件生成對(duì)抗網(wǎng)絡(luò)建模.遷移學(xué)習(xí)問題與因果密切相關(guān),對(duì)于跨環(huán)境不變機(jī)制的挖掘和利用始終是其核心問題之一.由于問題場景的不同會(huì)導(dǎo)致因果機(jī)制可變也可不變,無法統(tǒng)一下定論,需要具體問題具體分析,因果機(jī)器學(xué)習(xí)在這一問題上仍有寬闊的發(fā)展空間.2.3魯棒性問題遷移學(xué)習(xí)允許模型獲得目標(biāo)環(huán)境的少量數(shù)據(jù)以進(jìn)行適應(yīng)學(xué)習(xí),然而在一些高風(fēng)險(xiǎn)場景中,可能需要機(jī)器學(xué)習(xí)模型在完全陌生的環(huán)境中也能正常工作,如醫(yī)療、法律、金融及交通等.以自動(dòng)駕駛為例,即使有大量的真實(shí)道路行駛數(shù)據(jù),自動(dòng)駕駛智能體仍會(huì)面臨各種突發(fā)情況,這些情況可能無法被預(yù)見但仍需要被正確處理.這類任務(wù)無法提供目標(biāo)環(huán)境下的訓(xùn)外泛化能力,則稱其具有魯棒性(robustness).這類問題在未引入因果術(shù)語的情況下就已經(jīng)展開了廣泛的研究.如分布魯棒性研究[79-81]考慮當(dāng)數(shù)據(jù)分布改變?cè)谝欢ǚ戎畠?nèi)時(shí)如何學(xué)習(xí)得到魯棒的模型,常見思路是對(duì)訓(xùn)練樣本做加權(quán)處理;對(duì)抗魯棒性研究[8,82-83]考慮當(dāng)樣本受到小幅度擾動(dòng)時(shí)模型不應(yīng)當(dāng)改變輸出結(jié)果,常見思路是將對(duì)抗攻擊樣本加入訓(xùn)練.這類研究常常忽略變量間的因果結(jié)構(gòu),面臨的主要問題是很難決定數(shù)據(jù)分布或者樣本的擾動(dòng)幅度大小和度量準(zhǔn)則,這就使得研究中所做的假設(shè)很難符合真實(shí)場景,極大地限制了在實(shí)際中的應(yīng)用.因果理論的引入為建模變量間的結(jié)構(gòu)提供了可能,同時(shí)其蘊(yùn)含的“機(jī)制不變性”原理為魯棒性問題提供了更合理的假設(shè),因?yàn)檎鎸?shí)數(shù)據(jù)往往是從遵循物理規(guī)律不變的現(xiàn)實(shí)世界中采集獲得.例如針對(duì)輸入為X、輸出為Y的預(yù)測問題,不考慮結(jié)構(gòu)的分布魯棒性方法會(huì)假設(shè)未知環(huán)境P\(X,Y)應(yīng)當(dāng)與真實(shí)環(huán)境P(X,Y)的差異較小,如限制聯(lián)合分布的KL散度小于一定閾值;而考慮結(jié)構(gòu)的因果方法則通常會(huì)假設(shè)機(jī)制不變,例如當(dāng)Y是X的因時(shí)假設(shè)P\(X|Y)=P(X|Y),在因果關(guān)系成立的情況下后者通常是更合理的.一些從偽相關(guān)特征入手研究魯棒性問題的工作雖然未使用因果術(shù)語,實(shí)際上已經(jīng)引入了因果結(jié)構(gòu)的假設(shè).這些工作針對(duì)的往往是已知的偽相關(guān)特征,如圖像分類任務(wù)中的背景、文本同義句判斷

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論