版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、關(guān)于英語語篇構(gòu)造標(biāo)注研究綜述論文關(guān)鍵詞:修辭構(gòu)造理論篇章構(gòu)造標(biāo)注論文摘要:語篇構(gòu)造標(biāo)注起步較晚,但以修辭構(gòu)造理論rst為指導(dǎo)的篇章修辭構(gòu)造標(biāo)注最近獲得了令人矚目的成績。目前,已經(jīng)建成并公布的篇章構(gòu)造標(biāo)注語料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個課題小組完成的,由385篇文章組成,是一個大規(guī)模、高質(zhì)量、高一致性的帶多層語言學(xué)標(biāo)注信息的參照篇章語料庫。語料庫建立的主要成就為:確立了如何將語篇切分為根本語篇單位的理論,擴展了修辭關(guān)系集,為rst理論的運用提供了廣闊的前景。本文綜述該語料庫建立的研究成果。0.概述隨著計算機技術(shù)的普及和開展,語料為機器可讀成為語料庫建立的最根本的要求之一。要到達語料機讀
2、化這一目的,關(guān)鍵在于語料的標(biāo)注。所謂標(biāo)注,就是對語料庫中的原始語料進展加工,把各種表示語言特征的附碼標(biāo)注在相應(yīng)的語言成分上,以便計算機的識讀。語料標(biāo)注的類型主要包括語篇背景信息、詞性、詞形、句法分析、語義、語篇構(gòu)造等。從當(dāng)前的研究現(xiàn)狀來看,雖然語篇構(gòu)造標(biāo)注起步較晚,但以修辭構(gòu)造理論rst為指導(dǎo)的篇章修辭構(gòu)造標(biāo)注最近獲得了令人矚目的成績。目前,已經(jīng)建成并已公布的篇章構(gòu)造標(biāo)注語料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個課題小組完成的,由385篇文章組成,是一個大規(guī)模、高質(zhì)量、高一致性的帶多層語言學(xué)標(biāo)注信息的參照篇章語料庫。在這根底上研究小組還進展了自動篇章標(biāo)注算法、自動文摘、機器翻譯等詳細應(yīng)用工程方
3、面的研究。該參照篇章語料庫的建成不但為篇章構(gòu)造標(biāo)注建立了理論體系,而且為語篇構(gòu)造的應(yīng)用研究開拓了新的領(lǐng)域。本文將綜述該參照篇章語料庫建立的研究成果。1.理論支撐的建立根據(jù)arlsn2001的介紹,用于話語分析的理論有很多,如grz和sidner(1986)ann和thpsn(1987)等都提出了自己的篇章分析理論,但這些理論主要用于單個的文本分析,往往著眼于語篇的某一個方面,如指代關(guān)系、語篇的風(fēng)格、語篇的多維性以及某一理論在語篇中的表達等,很少被用于大規(guī)模的語料分析或語料標(biāo)注。在建立參照語料庫時,arlsn2001等研究者將ann和thpsn(1987)提出的修辭構(gòu)造理論rst用于大批量的語篇
4、標(biāo)注和語篇分析。他們認(rèn)為用修辭構(gòu)造理論rst對語篇進展標(biāo)注有三點優(yōu)勢:可以同時捕捉到特定文本的交際意圖、語義信息和文本本身的特征;先前的研究說明該理論可以使不同的標(biāo)注者在標(biāo)注不同的文本時到達一定的統(tǒng)一;用該理論標(biāo)注的語篇樹形圖對構(gòu)建自然語篇生成系統(tǒng)、自動文摘系統(tǒng)、文本測評系統(tǒng)起著關(guān)鍵的作用,也可以用來增強機器翻譯的自然性。參照篇章語料庫的建成確立了篇章構(gòu)造標(biāo)注的理論基矗2.根本語篇單位確實定語篇構(gòu)造標(biāo)注的另一成就是確定了英語根本語篇單位。在確定根本語篇單位時,不同的研究者往往運用不同的理論。givn1983認(rèn)為從句應(yīng)該成為語篇的根本單位,saks1974認(rèn)為談話的話輪應(yīng)該成為語篇的根本單位,p
5、lanyi1988堅持語篇應(yīng)該以自然句為切分單位,grsz和sindner1986認(rèn)為語篇的根本單位應(yīng)該從語篇的上下文中獲取,它是由一定的符號所反映的信息載體,能反映事物的單個狀態(tài)或部分狀態(tài),最有影響的修辭構(gòu)造理論認(rèn)為從句應(yīng)該是語篇的根本單位,不管從句有沒有語法標(biāo)記或詞匯標(biāo)記。然而,在詳細標(biāo)注時,aru等研究者對根本語篇單位有了新的規(guī)定:所有有詞匯或句法標(biāo)記的起狀語作用的從句都屬于根本語篇單位,包括起狀語作用的非謂語動詞詞組;充當(dāng)主語、賓語、補語的從句不屬于根本語篇單位;定語從句、后置的名詞修飾短語或?qū)⑵渌菊Z篇單位割裂開的從句或非謂語動詞短語為內(nèi)置語篇單位;除此而外,還有一定數(shù)量的有明顯語
6、篇標(biāo)記的短語作為根本語篇單位,如由inspitef盡管,ardingt根據(jù)等引導(dǎo)的短語。aru的切分方法綜合了grsz和sindner1986和ann(1987)和thpsn1987的理論,在確定根本語篇單位時考慮到詞匯、句法、語義和在句中的位置等因素。3.修辭關(guān)系的擴展當(dāng)初,ann和thpsn1987提出修辭構(gòu)造理論時只給出20多種修辭關(guān)系,但他們明確指出這是一個開放關(guān)系集,既然是開放性的,就意味著讀者在給定話語的內(nèi)部可以定義出其他的關(guān)系類型。aru2000根據(jù)標(biāo)注的語料庫總結(jié)出53種單層核心關(guān)系和25種多層核心關(guān)系,78種定義關(guān)系又分成16個組別,每組都具有一樣的修辭功能。就如同當(dāng)初的定義
7、關(guān)系集一樣,這些關(guān)系覆蓋了根本語篇單位、語段乃至整個語篇。通過這些關(guān)系,不同層級的語言片段被連接起來,構(gòu)成一定的抽象形式。4.標(biāo)注標(biāo)準(zhǔn)和方法的制定為了建立高質(zhì)量的前后一致的標(biāo)注標(biāo)準(zhǔn)和方法,arlsn2001等研究者采用人工標(biāo)注的方法。他們所選用的標(biāo)注者都是有過標(biāo)注經(jīng)歷的、從事語篇分析和新聞報道的專業(yè)人員。在正式標(biāo)注之前,他們都承受專門的語篇構(gòu)造標(biāo)注培訓(xùn),培訓(xùn)包括3個階段。在第一階段,向標(biāo)注者介紹修辭構(gòu)造理論和語篇分析工具。在培訓(xùn)的第二階段,標(biāo)注者開場探究語篇構(gòu)造的特征。在培訓(xùn)的最后一個階段,標(biāo)注小組謀求在構(gòu)建語篇總構(gòu)造圖時保持一致,盡量減少分歧。最終,標(biāo)注小組研制出兩個根本策略用于文獻分析并建
8、立相關(guān)的語篇構(gòu)造圖。策略之一是對文本的直接分析,可以在頁邊空白處標(biāo)出記號,也可以將文獻切分成一定的語段并標(biāo)出記號,根據(jù)這些標(biāo)注建立語篇構(gòu)造圖。以這種方式建立樹型構(gòu)造圖,標(biāo)注者必須預(yù)測到隨后的語篇構(gòu)造。然而,其后語段的修辭關(guān)系,尤其是較大的語段,可能不是太明顯,這就是為什么這一標(biāo)注策略更適用于短篇文獻的標(biāo)注。另一策略是將文本分析與建立語篇構(gòu)造兩項任務(wù)同時進展,很可能是成塊地標(biāo)注而不是循序漸進地一步一步地增加。以這種策略進展標(biāo)注,標(biāo)注者一次可以切分很多語篇單位,并為每個自然句建立構(gòu)造圖,然后將相鄰的自然句連接起來,構(gòu)成較大的語段構(gòu)造樹。最終的語篇構(gòu)造樹是通過連接語篇構(gòu)造中主要語塊而建成的。5.標(biāo)注
9、質(zhì)量的檢驗標(biāo)注質(zhì)量的控制是通過標(biāo)注者對標(biāo)注結(jié)果的反復(fù)修改和部分隨機的自動穿插核實來實現(xiàn)的。為了確保標(biāo)注語料庫的質(zhì)量,研究小組采取了很多措施,這些措施主要涉及到兩個方面,即檢驗語篇構(gòu)造樹的效度和保持標(biāo)注者內(nèi)部的一致性。5.1效度檢驗效度檢驗從兩個方面進展,即句法和語義。句法檢驗確保每棵樹只有一個根結(jié),并將樹與文獻進展比照以防句子或語段被遺漏。語義檢驗主要是關(guān)系到核心語段的指派、修辭關(guān)系的選擇以及語篇構(gòu)造樹的層次。為了保證檢驗質(zhì)量,研究小組研制出語篇分析器以及圖形掃描儀。所謂圖形掃描儀,就是指,在圖形環(huán)境下,自左而右漸進地為各個篇章單元給出一種最有可能的修辭關(guān)系和篇章構(gòu)造地位。分析器和圖形掃描儀經(jīng)
10、??梢源_認(rèn)出人工檢驗無法覺察的錯誤,都可以成功地作用于所有語篇構(gòu)造樹。5.2標(biāo)注一致性在整個語料庫的建立過程中,研究者一直設(shè)法保證標(biāo)注者之間內(nèi)部的一致性。首先,他們研制出一種算法,該算法可以計算出語篇層級構(gòu)造的kappa數(shù)據(jù)。kappa算法曾被廣泛地運用于語篇實證研究中,該算法可以測算出研究者在作出分類決策、預(yù)測可能性方面的一致性。6.標(biāo)注語料庫的挖掘借助于以rst理論為支撐的語篇標(biāo)注語料庫,研究者可以對語篇進展三個層次的分析,即語篇標(biāo)記詞功能的分析、不同類型的語篇構(gòu)造圖的描繪和比擬、語篇中從句間修辭關(guān)系的描繪和比擬。6.1篇章連詞的研究篇章連詞功能研究一直是理論語言學(xué)和計算機語言學(xué)研究的主題
11、,而且網(wǎng)絡(luò)語料庫方便了研究者對關(guān)聯(lián)詞語的研究,但利用豐富的標(biāo)注語料庫資源進展分析的研究不多。語篇構(gòu)造標(biāo)注語料庫可以使研究者在多種語境中對關(guān)聯(lián)詞進展元語言分析,使人們能理解到它們在語篇中出現(xiàn)的頻數(shù)、在句中的位置、所發(fā)揮的篇章修辭作用、核心性、輔助性等方面信息。例如,研究小組總結(jié)了sine和as在語篇中的功能。經(jīng)研究發(fā)現(xiàn),就這兩個詞在語篇中出現(xiàn)的頻率而言,在語篇中起連接兩個根本語篇單位修辭作用的情況只有1/3,因為它們往往在命題層面上發(fā)揮作用而不是在語篇層面上。就它們在語篇中發(fā)揮的修辭作用而言,as涉及到的關(guān)系類型遠遠地多于sine,但兩者所引導(dǎo)的語篇單位往往都處于輔助位置而非核心位置。6.2語篇
12、構(gòu)造圖的描繪和比擬除了lanaster大學(xué)的b語料庫garside等,1987;biber等,1998,轉(zhuǎn)自arlsn,2001提供的語體或語域研究,以及tdt語料庫ayne,2000,轉(zhuǎn)自arlsn,2001提供的話題確認(rèn)研究之外,能幫助研究者對語篇進展全面分析的語言資源不多。然而,以rst理論為支撐的語篇構(gòu)造標(biāo)注語料庫,勾畫出每一份文獻的多層次的語篇修辭構(gòu)造圖,據(jù)此可以對構(gòu)造樹的各個層次進展分析。例如,構(gòu)造樹的抽象層面,對修辭關(guān)系和文獻的內(nèi)容進展非詞匯化的概括,為研究交際意圖帶來很多方便。又如,語篇研究結(jié)果說明在文本的總體框架上新聞類語篇不同于故事類,因為新聞類語篇的構(gòu)造多呈倒三角形,但這
13、些研究很難解釋產(chǎn)生差異的根本性原因。語篇構(gòu)造樹可以彌補這一缺陷,這些樹使研究者清楚地看到在實現(xiàn)作者的交際意圖時、在表達篇章的互文性時,同樣的句式在不同的文本中發(fā)揮的作用是不同的,在有的文獻中起核心作用,而在有的文獻中起輔助作用。事實上,這些構(gòu)造樹很清楚地反映出,即使是同一類型的語篇,隨著語境的改變、主題的變化,文本的構(gòu)造也會發(fā)生相應(yīng)的變化。6.3語篇內(nèi)修辭關(guān)系的研究通過對標(biāo)注語料庫的分析和挖掘,研究者發(fā)現(xiàn)從句間的修辭關(guān)系在文本中發(fā)揮作用的頻率是很不一樣的。例如,研究者發(fā)現(xiàn)“詳述-補充修辭關(guān)系使用的頻率最高,因為作者在表達過程中往往要借助于前面的背景,通過對前面的背景補充說明來闡發(fā)新的觀點。與此
14、類似的還有列舉關(guān)系和解析關(guān)系。修辭關(guān)系的元語言分析使人們能理解到它們在語篇中出現(xiàn)的頻數(shù)、在句中的位置、核心性、輔助性等方面信息。除此之外,語篇構(gòu)造樹還勾畫了修辭關(guān)系如何發(fā)揮語篇銜接與連接的功能。例如,研究者通過對篇章標(biāo)注語料庫的分析發(fā)現(xiàn),“列舉關(guān)系不但起到舉例的作用,而且在連接平行語篇單位、平行語段和平行語篇時發(fā)揮宏大的作用。事實上,這一研究結(jié)果驗證了halliday和hasan1976的觀點,即平行構(gòu)造是一種語篇銜接手段。6.4應(yīng)用性研究語篇構(gòu)造標(biāo)注語料庫為文獻檢索、自動剖析、自動文摘、自動翻譯等提供相關(guān)數(shù)據(jù),例如,研究小組所設(shè)計的在線文件剪接系統(tǒng)。借助于篇章構(gòu)造標(biāo)注語料庫,研究者發(fā)現(xiàn)并非所有的句子都是根本語篇單位,也不是所有的語篇單位都具有一樣的作用,有的屬于核心的,有的屬于輔助的,有的在實現(xiàn)作者的交際意圖時、在表達篇章的互文性時發(fā)揮關(guān)鍵作用,有的并沒有。以此類推,篇章中的詞匯、短語也有核心與輔助之別。篇章構(gòu)造標(biāo)注語料庫可以幫助創(chuàng)立一個以篇章構(gòu)造為指導(dǎo)、以詞匯短語有界和無界合并為手段的文件剪接系統(tǒng)。同時,篇章構(gòu)造標(biāo)注語料庫幫助創(chuàng)立了一個以篇章構(gòu)造為指導(dǎo)、以機械文摘為根本手段、再配合消除冗余、可讀性加工的綜合
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 非金屬礦物在液晶顯示屏中的應(yīng)用考核試卷
- 星系演化中的恒星形成星團-洞察分析
- 物聯(lián)網(wǎng)在陳定信領(lǐng)域的應(yīng)用-洞察分析
- 藥物分子設(shè)計創(chuàng)新-洞察分析
- 微生物組與動脈粥樣硬化預(yù)后評估-洞察分析
- 2025屆山西省高三上學(xué)期學(xué)情調(diào)研測試(一模)物理試題(B)(解析版)
- 烏洛托品溶液環(huán)保性能-洞察分析
- 2024-2025學(xué)年浙江省衢州五校聯(lián)盟高一上學(xué)期期中聯(lián)考物理試題(解析版)
- 語義關(guān)系抽取-洞察分析
- 2024-2025學(xué)年天津市靜海區(qū)三校聯(lián)考高一上學(xué)期11月期中階段性質(zhì)量檢測物理試題(解析版)
- 《人員素質(zhì)測評理論與方法》電子版本
- 61850基礎(chǔ)技術(shù)介紹0001
- 陶瓷色料的技術(shù)PPT課件
- 幼兒園食品安全工作計劃四篇
- 課程設(shè)計YA32-350型四柱萬能液壓機液壓系統(tǒng)設(shè)計
- (精心整理)系動詞練習(xí)題
- 體彩排列五歷史數(shù)據(jù)
- 中國工業(yè)數(shù)據(jù)庫介紹
- 弱電智能化設(shè)計服務(wù)建議書(共35頁)
- 中國銀監(jiān)會關(guān)于規(guī)范中長期貸款還款方式的通知
- 通信工程外文文獻(共12頁)
評論
0/150
提交評論