語(yǔ)料庫(kù)與基礎(chǔ)英語(yǔ)教育_第1頁(yè)
語(yǔ)料庫(kù)與基礎(chǔ)英語(yǔ)教育_第2頁(yè)
語(yǔ)料庫(kù)與基礎(chǔ)英語(yǔ)教育_第3頁(yè)
語(yǔ)料庫(kù)與基礎(chǔ)英語(yǔ)教育_第4頁(yè)
語(yǔ)料庫(kù)與基礎(chǔ)英語(yǔ)教育_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)料庫(kù)與基礎(chǔ)英語(yǔ)教育摘要:本文簡(jiǎn)要介紹了語(yǔ)料庫(kù)的概念,強(qiáng)調(diào)了標(biāo)注語(yǔ)料庫(kù)在語(yǔ)言 教學(xué)中的用途,并用大量的語(yǔ)言證據(jù)從詞語(yǔ)搭配、詞類搭配等方面說(shuō) 明語(yǔ)料庫(kù)對(duì)基礎(chǔ)教育的意義。同時(shí),文章提出了應(yīng)加強(qiáng)基礎(chǔ)教育領(lǐng)域 的語(yǔ)料庫(kù)研究,使語(yǔ)料庫(kù)能在該領(lǐng)域內(nèi)發(fā)揮更大作用,促進(jìn)我國(guó)英語(yǔ) 基礎(chǔ)教育進(jìn)一步發(fā)展。關(guān)鍵詞:語(yǔ)料庫(kù);英語(yǔ)基礎(chǔ)教育;語(yǔ)料庫(kù)應(yīng)用一、語(yǔ)料庫(kù)的概念語(yǔ)料庫(kù)的使用早在幾百年前就開始了 (kennedy 2000: 13-15)。 但是,過(guò)去的“語(yǔ)料庫(kù)”是非計(jì)算機(jī)操作,人們把需要的句子抄在卡 片或紙條上,然后對(duì)其檢索。所以,這種現(xiàn)象我們只能稱之為語(yǔ)料庫(kù) 方法,而非現(xiàn)代意義上的語(yǔ)料庫(kù)。有人把語(yǔ)料庫(kù)定義為語(yǔ)言材料

2、的倉(cāng)庫(kù),該定義遠(yuǎn)遠(yuǎn)不能說(shuō)明語(yǔ)料 庫(kù)的特征。語(yǔ)料庫(kù)以計(jì)算機(jī)檢索為手段。計(jì)算機(jī)有一個(gè)強(qiáng)大的檢索功能,這是人所不及的。語(yǔ)料庫(kù)中聚集了大量文本,而計(jì)算機(jī)對(duì)任意大的語(yǔ)料 庫(kù)進(jìn)行檢索易如反掌。所以,有人認(rèn)為術(shù)語(yǔ)“語(yǔ)料庫(kù)語(yǔ)言學(xué)”應(yīng)為“計(jì)算機(jī)語(yǔ)料庫(kù)語(yǔ)言學(xué)” (leech 1997: 1)。語(yǔ)料庫(kù)文本的收集是按照某些原則進(jìn)行的。英國(guó)國(guó)家語(yǔ)料庫(kù) (british national corpus,以下簡(jiǎn)稱bnc)的書面語(yǔ)占總庫(kù)的 90%, 口語(yǔ)占10%,整個(gè)庫(kù)的結(jié)構(gòu)如表1所示。brown語(yǔ)料庫(kù)不包 括口語(yǔ),書面語(yǔ)的收集方法和bnc有很大不同,其結(jié)構(gòu)見何安平(2004: 141-143)o bnc的文本長(zhǎng)度參差不齊,

3、長(zhǎng)的達(dá)436 048定在2個(gè)單詞,短文本只有25個(gè)單詞;而brown把文本的長(zhǎng)度000詞左右,超出則刪除。lob (與sown結(jié)構(gòu)相同)語(yǔ)料庫(kù)的文 件長(zhǎng)度平均為2 013單詞左右。表1bnc文本結(jié)構(gòu)信息語(yǔ)域總碼數(shù)文檔總數(shù)形符數(shù)applied science7 104 6363707 424 216arts6 600 7412636 939 259belief and thought3 087 156commerce7 257 5292957 565 415imaginative16 386 48647717 548 572leisure12 139 853437natural sciences

4、3 784 2731463 934 819social science14 482 806spoken10 341 72991010 425 409world affairs17 116 37748317 870 882world news15 62716 367total97 626 0934054101 957 142語(yǔ)料庫(kù)分為生語(yǔ)料庫(kù)(raw corpus)和標(biāo)注語(yǔ)料庫(kù)語(yǔ)料庫(kù)語(yǔ)言學(xué) 中“標(biāo)注”、“賦碼”、“附碼”、“標(biāo)識(shí)”、“標(biāo)記”等均指對(duì)語(yǔ) 料庫(kù)內(nèi)容標(biāo)以識(shí)別信息,以便專用程序?qū)ζ溥M(jìn)行統(tǒng)計(jì)查詢等。相應(yīng)的 英語(yǔ)術(shù)語(yǔ)(動(dòng)詞)有 annotate, tag, parse, encode, ma

5、rkup, bracket等。本文統(tǒng)一使用“標(biāo)注”這一說(shuō)法。(annotated corpus),前者只是電子庫(kù)(electronic archive),而利用標(biāo)注語(yǔ)料 庫(kù),不僅可以研究詞語(yǔ)搭配,還可以研究詞類搭配。標(biāo)注就是文本標(biāo) 記詞性碼、語(yǔ)法碼、語(yǔ)義碼等,是語(yǔ)料庫(kù)建設(shè)的重要階段,是對(duì)文本 增加語(yǔ)言信息的過(guò)程(hunston 2002: 79-80 ) o例如bncdck.104即文檔dck中的104行。中的一個(gè)句子:<s n= "65” ><wav0>possibly<wavo>so&lt

6、;c pun>,<w itj>yeah<c pun>尖括號(hào)中的部分就是被標(biāo)注的內(nèi)容,這里有句子開始標(biāo)記和句子 序列信息、詞性碼、標(biāo)點(diǎn)符號(hào)碼。利用生語(yǔ)料庫(kù),可能的查詢?yōu)?possibly so這樣的搭配情況。但so前面還能使用其他什么副詞, 利用生庫(kù)無(wú)法知道。利用標(biāo)注語(yǔ)料庫(kù)可以很容易找到和so搭配的其 他副詞:right / just / quite / much / more / rightly / a bit / actually / alright等。這些語(yǔ)言信息就是在有詞性碼的情況下得到 的。所以,從語(yǔ)料庫(kù)中提取語(yǔ)言信

7、息時(shí),碼的作用不可比擬。語(yǔ)料庫(kù)使用的語(yǔ)言材料應(yīng)該是真實(shí)的。學(xué)習(xí)者語(yǔ)料庫(kù)就應(yīng)該體現(xiàn) 出學(xué)生使用英語(yǔ)的原始情況,包括錯(cuò)誤句子、拼寫等。李文中多次批 評(píng)“大學(xué)英語(yǔ)教材語(yǔ)料庫(kù)由薛學(xué)彥建立的教材語(yǔ)料庫(kù)。目前該庫(kù)收集 930個(gè)文本,近80萬(wàn)詞容的語(yǔ)料,該庫(kù)建設(shè)的第一階段于2004年 4月完成,包括結(jié)構(gòu)標(biāo)注和詞性標(biāo)注。”的真實(shí)性。他認(rèn)為教材中的 文本和原始文本相去很遠(yuǎn),是經(jīng)過(guò)編寫人員改編的,從真實(shí)性的角度 來(lái)講已不能代表其原始文本個(gè)人交流。總之,語(yǔ)料庫(kù)的概念不是一 個(gè)簡(jiǎn)單的語(yǔ)言材料的倉(cāng)庫(kù),不是簡(jiǎn)單的文本量的增加。它涉及到取樣、 文本量、標(biāo)注、甚至相關(guān)軟件開發(fā)等問(wèn)題。二、語(yǔ)料庫(kù)應(yīng)用與基礎(chǔ)英語(yǔ)教育20世紀(jì)90年

8、代以后,語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展很快,原因是 計(jì)算機(jī)硬件的普及和發(fā)展。世界上第一個(gè)計(jì)算機(jī)語(yǔ)料庫(kù)brown用了 10年的時(shí)間尚未完工,而現(xiàn)在建立一個(gè)同樣大小的語(yǔ)料庫(kù)就易如反 掌。目前,語(yǔ)料庫(kù)的應(yīng)用主要在辭書和其他工具書的編寫,而且,歐洲國(guó)家遠(yuǎn)遠(yuǎn)領(lǐng)先我國(guó)的研究。朗文等幾個(gè)大的岀版社已出版幾種有影 響的、基于語(yǔ)料庫(kù)的字典和工具書,我國(guó)的岀版社在這方面的工作還 很薄弱。從應(yīng)用層面來(lái)講,語(yǔ)料庫(kù)應(yīng)用更應(yīng)該在教學(xué)方面,尤其在基礎(chǔ)教育 領(lǐng)域。從語(yǔ)料庫(kù)語(yǔ)言學(xué)著作和其他研究成果中得知,常用詞匯應(yīng)該是語(yǔ)言 學(xué)習(xí)的重心,而這些常用詞語(yǔ)教學(xué)恰恰是在基礎(chǔ)教育階段。有研究表明,英語(yǔ)中出現(xiàn)頻率最高的1 000個(gè)單詞,覆蓋全部

9、語(yǔ) 料的 80%左右(見桂詩(shī)春 198& 19-20; kennedy 2000: 96)o 表 2是根據(jù)一個(gè)近5千萬(wàn)詞的語(yǔ)料庫(kù)統(tǒng)計(jì)出來(lái)的結(jié)果。大學(xué)英語(yǔ)教材語(yǔ) 料庫(kù)中出現(xiàn)頻率為1次到2次的單詞,占全部類符的50%; bnc的 數(shù)據(jù)表明,出現(xiàn)頻率為1次到2次的單詞,占全部類符的60.2%o表2單詞(類符)在語(yǔ)料中的使用比率頻率最高的類符占總形符的百分比*頻率最高的類符占總形符的百分比52.77420088.12100076.065500180081.19650091.23200082.11000093.84300085.49total: 1926561004000*說(shuō)明:出現(xiàn)頻率最高的前

10、100個(gè)類符占總形符(即全部語(yǔ)料)的 52.77%,等。sinclair 和 renouf (1988,見衛(wèi)乃興 2002: 26)認(rèn)為,詞語(yǔ) 應(yīng)當(dāng)在教學(xué)大綱中占據(jù)中心地位。alexander (1984, ibid.)也認(rèn) 為應(yīng)以一種系統(tǒng)的方法對(duì)待詞匯教學(xué),其中,詞組的學(xué)習(xí),包括成語(yǔ) 和種種固定表達(dá)方式,應(yīng)是教學(xué)的起點(diǎn)。他建議教學(xué)過(guò)程中應(yīng)重視 “搭配”這一語(yǔ)言現(xiàn)象。但是在我國(guó),中小學(xué)階段的教學(xué)很大程度上還停留在語(yǔ)法 教學(xué)階段,即使使用一套好的教材,有些教師還是不會(huì)放棄久已熟悉 的教學(xué)方法,這樣導(dǎo)致學(xué)生的語(yǔ)法知識(shí)比較扎實(shí),但是他們的語(yǔ)用能 力不是很好。圖1和圖2說(shuō)明5,中國(guó)學(xué)生在單詞a (an

11、), the, no,every的使用方面還有很大的問(wèn)題。圖1colsec中的冠詞使用情況圖2colsec中名詞使用情況通過(guò)語(yǔ)料庫(kù)進(jìn)一步查詢得知中國(guó)學(xué)生在復(fù)數(shù)名詞前面使用冠詞(主要是the)的現(xiàn)象非常普遍。使用(at| ati)+nnsat、atl nn1和nn2四個(gè)碼分別表示a/an, every; the, no;單數(shù)名詞和不可數(shù)名詞;復(fù)數(shù)名詞。表達(dá)式的意思為“at或ati與復(fù)數(shù)名詞”的搭 配。進(jìn)行統(tǒng)計(jì),在頻率為50以上的單詞中,bnc有7個(gè)單詞,而colseccolsec為“中國(guó)學(xué)習(xí)者英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)”。這里的引用bnc的數(shù)據(jù)是重新標(biāo)注了的,并和colsec的語(yǔ)料量相同。中有9個(gè),而且總頻

12、率遠(yuǎn)遠(yuǎn)超出bnc:bnc: people (168) / police (122) / things (101) / women(88) / children (76) / men (72) / flats (61)colsec: people (324) / students (275) / children (157) / pictures (114) / parents (101) / examinations (84) / advantages (71) / things (66) / benefits (63)at和nns的搭配有111組,這顯然是錯(cuò)誤的。屬于這一類的單 詞有:chi

13、ldren / students / people / coins / friends / kinds / lots / savings / sports / women / computers / girls/ parents / pictures/ scientists / advantages / applicants / bikes / bookworms / boys / cards / cars 等,其中和 a 的搭配占 74 次, 和an搭配占1次,和every的搭配占36次。例如:(*) he can t take care of every children in the f

14、amily.(*) i think every people should live a happy life.這種錯(cuò)誤在clecclec為“中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)”。中岀現(xiàn) 頻率較低,但是也有89次。這種錯(cuò)誤是第二語(yǔ)言習(xí)得過(guò)程中的問(wèn)題,說(shuō)明學(xué)生的表達(dá)能力有 待提高。這個(gè)提高就是要通過(guò)教材、教學(xué)活動(dòng)、教學(xué)課件等途徑,并編寫適當(dāng)?shù)木毩?xí)對(duì)學(xué)生經(jīng)常犯的錯(cuò)誤進(jìn)行糾正。clec語(yǔ)料庫(kù)中還有這樣的句子:the government no longer allocate jobs for students僅從詞語(yǔ)搭配方面,這個(gè)句子的正確性就值得懷疑。在基于enc 的當(dāng)代朗文英語(yǔ)詞典的電子版中沒(méi)有此搭配,整個(gè)e

15、nc語(yǔ)料庫(kù) 中也找不到這樣的搭配。以上種種例子表明,學(xué)生對(duì)基礎(chǔ)詞匯的掌握還不夠,需要進(jìn)一步 加強(qiáng),而這正是基礎(chǔ)教育階段的內(nèi)容。早在20世紀(jì)初,西方就有人提出“搭配”的概念,后來(lái)又有許 多人發(fā)展和完善這個(gè)概念的內(nèi)容。但是,在機(jī)讀語(yǔ)料庫(kù)時(shí)期之前,人 們對(duì)單詞搭配能力的觀察只能停留在“直覺”這個(gè)階段,通過(guò)個(gè)人的 行為觀察文本,然后得岀結(jié)論,對(duì)搭配詞的使用統(tǒng)計(jì)沒(méi)有一個(gè)科學(xué)依 據(jù),如頻率等。搭配在語(yǔ)言教學(xué)中的應(yīng)用很受限制。有了機(jī)讀語(yǔ)料庫(kù)以后,這些變得很容易。例如,單詞fairly、rather 和hot> good、poor、fluently的搭配情況如何呢?從bnc中提取 所有搭配并計(jì)算其頻率,

16、結(jié)果如下:1 fairlyfluently85 fairlygood7 fairlyhot9 fairlypoor101 rathergood5 ratherhot47 ratherpoor從結(jié)果中觀察,有意義的區(qū)別在fairly poor和rather poor兩個(gè)搭配上,其他的數(shù)據(jù)差別不大。而fluently前面經(jīng)常會(huì)有什么副詞修飾呢?對(duì)bnc的查詢結(jié)果為:1 aloud fluently6 as fluently1 fairly fluently5 more fluently2 most fluently2 quite fluently10 so fluently1 very fluen

17、tly利用語(yǔ)料庫(kù)統(tǒng)計(jì)ve+nn+to結(jié)構(gòu)中動(dòng)詞位置上的單詞頻率,較高 的有 give / take / get / draw / send / say 等,而在vb+nn+on結(jié)構(gòu)中,出現(xiàn)頻率較高動(dòng)詞則是:put / get / take / make / give等。相關(guān)的例句有:j9v.1049 and i think we did draw attention tothe fact that hyg.69 we do obviously make grants to youth clubs and organizations hm2 108 erm doorway there, alwa

18、ys a doorways always add interest to a picturehem.532 when you came in the winter, to gain access to the stack,.hdx.13 before you can make changes to the system, you have to understand it, and that takes an awful long time.g3u.1618 how does one put pressure on civil servants?fl7.61 erm you get comments on the street!gy4.791 .that you re the only one that s doing thatsomeone will take retribution on you.以上例句表明,利用語(yǔ)料庫(kù),我們不僅可以觀察單詞的搭配情況, 還可以研究詞類的搭配情況。語(yǔ)料庫(kù)語(yǔ)言學(xué)中搭配的概念不只是固定 詞組,涉及的搭配詞是一組開放的詞匯總和,而這些詞匯總和也不是 任意的,是受語(yǔ)義制約的,它們之間是“相互期待”的(衛(wèi)乃興2002: 2)o三、小結(jié)語(yǔ)言學(xué)至今尚未找到理想的研究方法。而20世紀(jì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論