機器自動評分系統(tǒng)的研究及對中國學(xué)生翻譯的啟示_第1頁
機器自動評分系統(tǒng)的研究及對中國學(xué)生翻譯的啟示_第2頁
機器自動評分系統(tǒng)的研究及對中國學(xué)生翻譯的啟示_第3頁
機器自動評分系統(tǒng)的研究及對中國學(xué)生翻譯的啟示_第4頁
機器自動評分系統(tǒng)的研究及對中國學(xué)生翻譯的啟示_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

機器自動評分系統(tǒng)的研究及對中國學(xué)生翻譯的啟示

1.英語作文自動評分現(xiàn)狀計算機在語言測試中得到了廣泛應(yīng)用。客觀題測試自不待言,隨著技術(shù)的不斷進步,主觀題測試也開始實行自動評分。Chapelle和Doughlas(2006:2)更是明確指出,如今語言測試技術(shù)已經(jīng)得到飛速發(fā)展,無論學(xué)習(xí)者置身何處,總免不了需要參加一些計算機輔助的語言測試。作文自動評分技術(shù)從1966年問世以來,日臻成熟,美國教育考試服務(wù)中心(EducationalTestingService,ETS)研制的E-rater目前已經(jīng)完全商業(yè)化,被正式用于GMAT等大規(guī)模語言測試(Marina2005:104)。國內(nèi),梁茂成(2005)對中國學(xué)生英語作文自動評分進行了有益的嘗試,并取得了初步成果。但是,翻譯自動評分仍處于探索階段,目前國內(nèi)外尚無成熟的人工譯文自動評分系統(tǒng)。本研究將回顧國內(nèi)外機器自動評分系統(tǒng)的現(xiàn)狀、內(nèi)容和特點,并探討現(xiàn)有自動評分技術(shù)對中國學(xué)生翻譯自動評分系統(tǒng)的啟示。2.自動評價系統(tǒng)概述由于人工譯文自動評分系統(tǒng)的缺失,本節(jié)分兩部分回顧機器自動評價系統(tǒng):第一部分對作文自動評分系統(tǒng)進行概述,第二部分對機器譯文自動評價系統(tǒng)進行概述。這兩部分的技術(shù)是構(gòu)建中國學(xué)生翻譯自動評分系統(tǒng)的基礎(chǔ),值得深入探討和挖掘。2.1數(shù)字視頻監(jiān)控系統(tǒng)的研究作文自動評分系統(tǒng)AES(AutomatedEssayScoring)是機器自動評分系統(tǒng)的先驅(qū)。AES的定義為能夠?qū)ψ魑倪M行評價、評分的計算機技術(shù)(Shermis&Barrera2002;Shermis&Burstein2003;Shermisetal2003)。第一個機器自動評分系統(tǒng)是EllisBattenPage研制的PEG(ProjectEssayGrader)作文評分系統(tǒng)。該系統(tǒng)誕生于20世紀(jì)60年代,后來由于種種實際困難在70年代至80年代初受到冷落。Page(2003:45)用“休眠狀態(tài)”(sleepmode)來描述這段時期的PEG。到了80年代末,PEG系統(tǒng)進入了“重新覺醒期”(reawakeningperiod)(Page2003:45),并獲得了新的機遇。90年代以后,出現(xiàn)了IEA(IntelligentEssayAssessor)、E-rater(ElectronicEssayRater)和IntelliMetric等主流作文自動評分軟件。IEA的研制在90年代末期(Hearst2000;Jerramsetal2001),使用了科羅拉多大學(xué)ThomasK.Landauer等創(chuàng)立的潛在語義分析(LatentSemanticAnalysis,LSA)方法。E-rater是Burstein等研制的作文自動評分系統(tǒng)(Bursteinetal1998;Bursteinetal2001),它把語料庫和自然語言處理技術(shù)(NaturalLanguageProcessing,NLP)應(yīng)用于系統(tǒng)中實現(xiàn)作文自動評分。E-rater已經(jīng)商業(yè)化,美國教育考試服務(wù)中心用其對GMAT(GraduateManagementAdmissionTest)、AWA(AnalyticalWritingAssessment)中的作文題進行評分,是一個比較成熟的作文自動評分系統(tǒng)(Harold&Ray2003:227)。IntelliMetric是由VantageLearning開發(fā)的基于人工智能(ArtificialIntelligence,AI)和自然語言處理技術(shù)的作文評分系統(tǒng)(Shermis&Barrera2002;Elliot2003b;Charlesetal2006)。在國內(nèi),梁茂成(2005)研制了適合中國英語學(xué)習(xí)者的作文自動評分系統(tǒng);該系統(tǒng)吸收了國外自動評分系統(tǒng)的長處,兼顧中國英語學(xué)習(xí)者的特點。上述系統(tǒng)都是比較成熟的作文評分系統(tǒng),其中一些做法在構(gòu)建翻譯評分系統(tǒng)時很值得借鑒。2.2id鞣的與資料匹配的單語對比rewelltranelation翻譯領(lǐng)域的自動評價系統(tǒng)基本上以機器譯文評價系統(tǒng)(MachineTranslationEvaluation)為主。這些系統(tǒng)的功能用來比對被測譯文(candidatetranslation)和參考譯文(referencetranslation,一般為人工譯文)之間的相似程度,匹配的詞語越多,被測譯文的得分就越高。還有一些研究者(Brew&Thompson1994;Rajman&Hartley2001)認為不能只看譯文詞語的匹配率,還需要考慮詞語順序,順序匹配的詞語得分應(yīng)該高于未按順序排列的詞語。例如,“alotof”的得分應(yīng)該高于“l(fā)otofa”。機器譯文評價系統(tǒng)的評價方法主要有以下幾種。1enhence反應(yīng)只有與參考譯文相同的部分才算正確,如SER(SentenceErrorRate)方法。SER將被測譯文與參考譯文中相異句子的比例作為衡量機器譯文質(zhì)量的標(biāo)準(zhǔn),在SER方法中參考譯文只有一篇。2對因公使用的質(zhì)量評價計算被測譯文與參考譯文之間最小編輯距離(minimumeditdistance),即考查字母增刪、替換、插入的次數(shù)來衡量譯文質(zhì)量的方法(Levenshtein1966;Tillmannetal1997;Vidal1997),如WER(WordErrorRate)、mWER(MultipleReferenceWER)等方法(NieSenetal2000;Leuschetal2003)。WER、mWER使用的評價方法是編輯距離越小,被測譯文質(zhì)量越高,也就是說WER、mWER值越小,譯文的質(zhì)量越高。WER和mWER之間的不同之處在于WER中只有一篇參考譯文,而mWER有數(shù)篇,編輯距離以被測譯文與數(shù)篇參考譯文之間最小的編輯距離計算(Niessenetal2000)。3初文的n-gramn元組在機器翻譯評價研究中,基于N元組的評測方法應(yīng)用最為廣泛,其中主要的有兩種:IBM提出的BLEU(BilingualEvaluationUnderstudy)評測方法(Papineni&Roukos2002)和NIST(NationalInstituteofStandardsandTechnology)評測方法(Doddington2002)。這兩個評測方法都是從文本的N-gram(N元組)出發(fā),比對被測譯文和參照譯文之間N元組的相似程度,計算出被測譯文和參考譯文之間的距離。BLEU的核心思想是“機器譯文與專業(yè)人工譯文越接近,其質(zhì)量越好”(Papineni&Roukos2002)。BLEU默認匹配4元組以下的相似度,超出4元組的連續(xù)詞語由于頻率低對自動評價的意義不大。BLEU公式可以計算出被測譯文和參考譯文之間的相似程度,確定被測譯文的質(zhì)量。但是,BLEU公式對所有詞匯采取了一視同仁的做法,即所有詞匯的權(quán)重相同。根據(jù)翻譯經(jīng)驗,譯文中信息的權(quán)重應(yīng)該是分等級的,有的信息屬于不可或缺類型,而有的信息則可有可無。NIST是在BLEU基礎(chǔ)上發(fā)展而成的評測方法,基本參數(shù)與BLEU類似,區(qū)別在于NIST考慮了不同信息的權(quán)重系數(shù),減少了評測方法對譯文質(zhì)量產(chǎn)生的影響。根據(jù)NIST標(biāo)準(zhǔn),如果一個N元組在文本中出現(xiàn)的次數(shù)越少,表明它所包含的信息量越大,該N元組就應(yīng)該被賦予更高的權(quán)重。BLEU和NIST是國際上機器自動翻譯評價系統(tǒng)的流行指標(biāo),得分越高,表明譯文質(zhì)量越好。根據(jù)國內(nèi)外研究,這兩種評測方法與人工評分的相關(guān)度較高,能夠在一定程度上反映翻譯質(zhì)量的優(yōu)劣(Brew&Thompson1994;Doddington2002;Papineni&Roukos2002;Zhangetal2004)。3.主流機器翻譯評價系統(tǒng)對比本節(jié)分為三個部分:第一部分對有代表性的作文機器評分系統(tǒng)進行評價;第二部分對主流機器翻譯評價系統(tǒng)進行評價;第三部分總結(jié)現(xiàn)有機器評分系統(tǒng)對中國學(xué)生翻譯自動評分系統(tǒng)的啟示。3.1peg與文本語義相似度本部分主要評價國外的PEG、IEA、E-rater三種比較有代表性的作文自動評分系統(tǒng)以及國內(nèi)梁茂成(2005)構(gòu)建的中國學(xué)生英語作文自動評分模型。PEG是歷史最悠久的作文自動評分系統(tǒng),從1966年誕生以來一直在不斷更新。PEG評分需要事先在訓(xùn)練集中建立評分模型,然后運用評分模型為其他同題作文評分。建立模型時,PEG首先從文本中提取表面特征(surfacefeature),如用文本長度(essaylength)表示流利度(fluency),介詞數(shù)、代詞數(shù)以及其他詞性標(biāo)記表示句子結(jié)構(gòu)(sentencestructure),單詞長度差異表示用詞(diction)等(Salvatoreetal2003:320-321)。獲得上述文本特征以后,系統(tǒng)以人工評分作為因變量、文本特征作為自變量進行多元回歸分析得到一個回歸方程,該回歸方程中的變量都與作文成績相關(guān),能夠預(yù)測作文得分。PEG系統(tǒng)把統(tǒng)計分析和文本表面特征結(jié)合起來對作文進行評分,因而在作文自動評分史上有著獨特的貢獻。不過,PEG系統(tǒng)使用的文本特征都是與語言的形式特征有關(guān),對語義內(nèi)容束手無策。IEA是ThomasK.Landauer等開發(fā)的作文自動評分系統(tǒng),其評分原理主要依靠潛在語義分析(LSA)計算被測文本與已評分文本之間的語義相似度。潛在語義分析始于信息檢索領(lǐng)域,是利用數(shù)據(jù)統(tǒng)計以及數(shù)學(xué)分析方法,通過觀察詞項在同一文本中出現(xiàn)的相對頻率來計算語義的相似度(王金銓等2007:406)。IEA把潛在語義分析方法引入作文自動評分領(lǐng)域,通過矩陣分析方法分析比較文本的語義相似度來確定文本得分。Laham(1997)、Landauer等(1998)、Turney(2005)等運用LSA方法做過不少與語義相關(guān)的研究。他們得出的結(jié)論顯示,通過LSA分析句子間的相似度,可以有效避免自然語言中多詞同義和一詞多義問題,提高語義分析的準(zhǔn)確度,進而提高評分質(zhì)量。潛在語義分析認為,“文檔中出現(xiàn)兩個或者更多詞條不是偶然事件”(Manningetal2005:344)。LSA計算方法被廣泛運用于信息檢索領(lǐng)域,它甚至可以用來計算不同語言之間的相似度(Dumaisetal1996;Dumaisetal1997;Rosario2000)。在國內(nèi)語言學(xué)界,桂詩春(2003)曾運用LSA方法對CLEC中學(xué)生作文的失誤進行了研究;梁茂成(2005,2006)曾經(jīng)采用LSA方法分析了文本的語義內(nèi)容和語篇連貫性;王金銓等(2007)運用LSA方法計算語句間的形式和語義相似度,證明了該方法的有效性和實用性。IEA運用潛在語義分析方法對作文進行評分,充分挖掘了文本中的語義相似度,但是對于文本的形式特征缺乏考慮。E-rater與PEG建模的過程相同,都需要事先對訓(xùn)練集進行評分,然后提取文本特征,運用統(tǒng)計分析獲得自動評分模型。E-rater綜合運用統(tǒng)計分析和自然語言處理技術(shù),既關(guān)注文本的形式特征,也提取文本的語義內(nèi)容。與PEG相比,E-rater的優(yōu)點在于分模塊設(shè)計。E-rater具有獨立的句法模塊、語篇模塊和主題分析模塊(Marina2005:104)。根據(jù)Burstein(2003:116-118)的觀點,句法模塊是通過詞性賦碼的方法實現(xiàn)文本句法分析;語篇模塊是通過識別語篇連接詞語和句法結(jié)構(gòu)的方法分析文本中的語篇關(guān)系;主題分析模塊是借助向量空間模型(VectorSpaceModel,VSM)分析文本的詞匯使用來判定內(nèi)容相似程度。不過,Dodigovic(2005:104)指出,與潛在語義分析相比,E-rater對于近義詞的識別能力較差,影響評分結(jié)果。與PEG和IEA相比,E-rater考查了作文的三個主要方面:句法、語篇和主題,因而它的結(jié)構(gòu)效度較好。梁茂成(2005)構(gòu)建的中國學(xué)生英語作文自動評分模型綜合了上述三個主流英語作文自動評分系統(tǒng)的優(yōu)點,從語言、內(nèi)容和結(jié)構(gòu)三個方面衡量作文質(zhì)量。語言模塊又分為三個分模塊:流利度、復(fù)雜度以及地道性;內(nèi)容模塊的考查借助潛在語義分析等變量;結(jié)構(gòu)模塊的考查則借助作文中的話語連接詞等變量。梁茂成(2005)的評分模型從多維度考查了英語作文的質(zhì)量,實踐證明該模型能夠有效地對中國英語學(xué)習(xí)者的作文進行評分。3.2人工譯文施工方法的利用本部分主要討論機器翻譯自動評價系統(tǒng)的兩個代表性評測方法:BLEU和NIST。BLEU和NIST這兩種評測方法實質(zhì)上是對機器被測譯文和參考譯文在N元組(1—4元組)層次上進行匹配,如出現(xiàn)同樣的N元組,則默認為一致詞項,賦值為1,否則賦值為0。Papineni和Roukos(2002)、Doddington(2002)證實了這種方法計算的相似度結(jié)果與人工判斷之間的相關(guān)系數(shù)較高,表明該方法確實能夠在某種程度上檢驗被測譯文與參考譯文之間的相似度,但是這種相似度檢驗方法存在著一個致命弱點。自然語言中存在大量的多詞同義(synonymy)和一詞多義(polysemy)現(xiàn)象,單純的詞形匹配無法計算譯文之間的相似度;自然語言之間的相似度不可能只是一個0和1的真假二值的判斷,人工譯文的復(fù)雜性和靈活性要遠遠超過機器譯文。更何況,BLEU和NIST未提及對譯文中的單詞進行詞形還原(lemmatisation)處理,使得同一個單詞的不同形式被歸于不同單詞之列,進一步影響了算法的信度和效度。因此,該方法不能單獨用來檢驗被測譯文的質(zhì)量。在自動評價系統(tǒng)中使用該方法必須具備兩個條件:(1)參考譯文要足夠多,能夠覆蓋可能出現(xiàn)的N元組;(2)同時使用其他相似度測量工具,互為補充。3.3結(jié)構(gòu)或語義測量現(xiàn)有機器評分系統(tǒng)分別從語言、內(nèi)容、結(jié)構(gòu)三方面對文本質(zhì)量進行測量。語言測量主要挖掘形式特征,如PEG系統(tǒng)中的文本長度、介詞數(shù)、代詞數(shù)以及句子結(jié)構(gòu)等;內(nèi)容測量主要研究語義相似度,如IEA中的潛在語義分析、E-rater中的向量空間模型(VSM);結(jié)構(gòu)測量則是通過作文中的話語連接詞等變量考查文本的語篇特征,如E-rater中的語篇模塊和梁茂成(2005)評分模型中的結(jié)構(gòu)模塊。機器翻譯自動評價系統(tǒng)中的一些評價方法也很值得借鑒,如N元組,該變量實際上更偏重于考查譯文的語義內(nèi)容,可以納入內(nèi)容模塊。表1對各個自動評分系統(tǒng)的測量維度進行了綜合比較。3.3.1多元回歸分析首先,從測量方法來看,PEG系統(tǒng)率先在評分系統(tǒng)中使用事先經(jīng)過評分的文本作為訓(xùn)練評分系統(tǒng)的材料,使得構(gòu)建系統(tǒng)成為一個有指導(dǎo)的訓(xùn)練,能夠提高評分系統(tǒng)的信度和穩(wěn)定性。其他作文評分系統(tǒng)也使用了訓(xùn)練集作為構(gòu)建模型的基礎(chǔ)。嚴格來說,在機器翻譯自動評價系統(tǒng)中使用的參考譯文不能等同于作文評分系統(tǒng)中的訓(xùn)練文本,因為參考譯文只是作為一個參照物與被測譯文進行比較,并未納入模型構(gòu)建過程。本研究構(gòu)建的翻譯自動評分模型將借鑒作文自動評分系統(tǒng)的做法,創(chuàng)建訓(xùn)練集作為模型構(gòu)建的基礎(chǔ)。PEG、E-rater和梁茂成(2005)的作文自動評分模型都使用了多元回歸分析的統(tǒng)計方法。多元回歸分析是研究因變量(Y)和多個自變量(IVs)之間依存關(guān)系的統(tǒng)計方法。在構(gòu)建評分系統(tǒng)時,多元回歸分析能夠考查自變量(預(yù)測因子)對因變量(人工評分)的影響作用,從而得到能夠預(yù)測分值的回歸方程。機器翻譯自動評價系統(tǒng)沒有使用多元回歸分析,也沒有使用其他統(tǒng)計手段。實際上,多元回歸分析在模型構(gòu)建過程中的作用是不可替代的,它可以進行多種分析,除了能夠分析因變量與自變量之間的相互影響(多元回歸),還可以分析因變量和自變量之間的關(guān)系(相關(guān)關(guān)系)、自變量之間的關(guān)系(偏相關(guān)關(guān)系),確定進入回歸方程的自變量,運用回歸方程進行預(yù)測等。本研究的譯文自動評分系統(tǒng)構(gòu)建將借鑒作文自動評分的做法,采用多元回歸分析方法構(gòu)建模型。E-rater和梁茂成(2005)采用了模塊化設(shè)計。E-rater中共有三個模塊:句法模塊、語篇模塊和主題分析模塊。梁茂成(2005)的評分模型中也有三個模塊:語言模塊、內(nèi)容模塊和結(jié)構(gòu)模塊;語言模塊對應(yīng)E-rater中的句法模塊,內(nèi)容模塊對應(yīng)主題分析模塊,結(jié)構(gòu)模塊對應(yīng)語篇模塊。這些模塊涵蓋了作文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論