語料庫與對外漢語教學研究_第1頁
語料庫與對外漢語教學研究_第2頁
語料庫與對外漢語教學研究_第3頁
語料庫與對外漢語教學研究_第4頁
語料庫與對外漢語教學研究_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語料庫與對外漢語教學研究2015221946李

嫻2015221947黃亞麗2015221948金淑珍2015221955彭佩佩提綱1.語料庫簡介2.語料庫在漢語研究中的作用3.基于語料庫的對外漢語研究4.盧偉《語料庫在對外漢語教學中的應用》

5.黃偉《字形特征對漢字文化圈中高級水平學習者書寫漢字的影響——基于“HSK動態(tài)作文語料庫”的觀察》6.HSK動態(tài)作文等語料庫的使用7.建議1.語料庫簡述1.1概念與特征1)語料庫(corpus,corpora):存儲語料的數(shù)據(jù)庫,以電子文本(或電子圖片)形式存貯在計算機中、借助軟件進行管理并可以通

過軟件進行查詢檢索的一定數(shù)量的語言材料的集合;是進行語言研究的一種普遍資源。1.語料庫簡述2)特征:(1)理論指導與研究目標。(2)語料收集方法科學:語言運用的自然語料(naturally-occurring

date)。

(3)語料是連續(xù)的文本或話語片斷,而不是孤立的句子和詞匯。(4)語料的代表性(representativeness)。1.語料庫簡述

(5)真實語料需要經(jīng)過加工處理(分析和標注),才能成為更有用的資源。(6)語料庫是承載語言知識的基礎(chǔ)資源。

(7)基于語料庫的研究以量化研究為基石,以概率統(tǒng)計為基本手段,以“數(shù)據(jù)驅(qū)動”為基本理念。1.語料庫簡述

(8)語料庫既是一種研究方法,又代表著一種新的研究思維,并以當代先進的計算機技術(shù)為研究手段。

(9)重要優(yōu)勢:資源優(yōu)勢;速度優(yōu)勢;精確度提高。(楊惠中,2002:36-40)

(10)語料庫可以表明語言事實,但不能解釋為什么,更不能直接說明應該怎樣改進教學。1.語料庫簡述1.2發(fā)展第一代計算機語料庫:20世紀60-70年代。

小規(guī)模(百萬詞級),以語言研究為導向,詞法級。Brown、LOB、London-Lund

Corpus(LLC)。1.語料庫簡述第二代計算機語料庫:20世紀80年代。

大規(guī)模(千萬詞級),詞典編纂-應用導向,句法級。

Bank

of

English、Longman、ICE(TheInternational

corpus

of

English)。http://www.collins.co.uk/index.html1.語料庫簡述?第三代計算機語料庫:20世紀90年代——超大規(guī)模(上億詞級),標準編碼體系深度標注/多語種NLP應用,語義和語用級。BNC、LDC(語言學資料共享計劃)、法蘭西語

料庫、俄羅斯國家語料庫、NERC(歐洲參考資料語料庫網(wǎng)/歐洲語料庫網(wǎng)。1.語料庫簡述第四代語料庫:互聯(lián)網(wǎng)作為語料庫?!梢园巡粩喟l(fā)展的因特網(wǎng)作為虛擬語料庫。1.語料庫簡述1.3我國的語料庫建設(shè)始于70年代末80年代初,發(fā)展迅速。例如:漢語現(xiàn)代文學作品語料庫(1979),527萬字;漢語詞頻統(tǒng)計語料庫(1983):200萬字次;國家語委現(xiàn)代漢語語料庫(1991):7000萬字次;中文五地區(qū)共時語料庫:每年收入的語料達6億至8億多字次;北京大學CCL語料庫:4.77億字

:8080/ccl_corpus/index.jsp?dir=gudai;北京語言大學BCC語料庫:150億字,報刊、文學、微博,。1.語料庫簡述1.4漢語中介語語料庫建設(shè)北語:漢語中介語語料庫系統(tǒng)(1995)HSK動態(tài)作文語料庫(2006)92:8060/hsk/login.asp漢語學習者口語語料庫(2007)首都外國留學生漢語文本語料庫(2008-10)1.語料庫簡述本世紀前10年建成的語料庫:留學生漢語中介語語料庫(暨南大學華文學院)

留學生書面語語料庫:

/corpus3/Search.a

spx

口語語料庫:

/corpus5/Default.

aspx漢字偏誤標注的漢語連續(xù)性中介語語料庫(中山大學):/外國學生漢語中介語偏誤信息語料庫(南京師范大學)1.語料庫簡述

2010年以來,關(guān)注語料庫、建設(shè)語料庫的人日益增多,漢語中介語語料庫建設(shè)迎來繁榮發(fā)展的重要時期。

上海交通大學、廈門大學、北京大學、中國人民大學、北京師范大學、魯東大學、蘇州大學、四川外國語學院,等等2.語料庫在語言研究中的作用2.1語言學研究為什么需要統(tǒng)計?

語言,無論從其本身的具體表現(xiàn)形式(言語)來看,還是從研究角度來看,都可以看作是個統(tǒng)計現(xiàn)象。(朱曉農(nóng),2008:31)

樣本是從一個總體中取樣而來的,而結(jié)果又會概化到總體中去。2.語料庫在語言研究中的作用由于對“語言事實的觀察是可以定量統(tǒng)計的”,研究中可以避免對某種語言現(xiàn)象使用“頻度和罕見度的主觀臆測”。(黃昌寧、李涓子,2002:153-156)2.語料庫在語言研究中的作用2.2語料庫的地位與價值

計算機語料庫以其語料的充分性、客觀性、可驗證性、使用的便捷性,正在使語言學的研究與應用產(chǎn)生量與質(zhì)的飛躍。

將計算機、軟件和大語料庫相結(jié)合,已經(jīng)使語言學家看到了過去從未看到或想到過的現(xiàn)象,發(fā)現(xiàn)了過去從未留意過的類型。

基于語料庫的研究方法,已經(jīng)成為當代語言學和應用語言學研究中的一種主流方法。(王建新,2005:3)2.語料庫在語言研究中的作用……語料庫的使用,為語言學的研究提供了一種新的思維角度,輔助人們的語言“直覺”和“內(nèi)省”判斷,從而克服研究者本人的主觀性和片面性,逐漸成為語言學研究的主流方法。……從某種意義上說,語料庫的使用,是語言學研究的一次革命性的進步。(馮志偉,2006:14)2.語料庫在語言研究中的作用2.3具體作用1)為語言研究及漢語習得研究提供客觀依據(jù)。

2)為定量分析奠定了堅實基礎(chǔ),使研究具有普遍意義。3)為研究者提供語料來源和理論依據(jù)。4)驗證以往的理論、觀點。5)發(fā)現(xiàn)新的語言事實6)提高效率2.語料庫在語言研究中的作用結(jié)論:(1)作用:看到新的語言現(xiàn)象;(2)理念:客觀性、普遍性、穩(wěn)定性;(3)影響:“拍腦袋”→科學。3.基于語料庫的對外漢語教學研究3.1中介語語料庫對語言教學的意義3.2詞匯學習考察3.3對外漢語教學與習得研究的新模式3.基于語料庫的對外漢語教學研究3.1中介語語料庫對語言教學的意義:學習者語料庫在語言教學中的價值是顯而易見的。它為語言教學提供了有關(guān)學習者語言運用和典型困難的可靠信息。(Rundell,1996:6,轉(zhuǎn)引自楊惠中2002:53)3.基于語料庫的對外漢語教學研究達到一定規(guī)模的中介語語料庫可以反映出學生在字、詞、句、篇等方面的習得情況,可以告訴我們學生已經(jīng)掌握了哪些語言現(xiàn)象,還沒有掌握哪些語言現(xiàn)象;哪些偏誤是具有普遍意義的典型現(xiàn)象,哪些是不具備普遍意義的偶然現(xiàn)象。從而使教學更有針對性,可以顯著提高教學效率,提高對外漢語教學研究的水平。3.基于語料庫的對外漢語教學研究例如:基于中介語語料庫的漢語句法研究(趙金銘)基于中介語語料庫的漢語詞匯專題研究(張博)

外國學生漢語句式學習難度及分級排序研究(肖奚強)基于語料庫的外國人漢語句式習得研究(張寶林)3.基于語料庫的對外漢語教學研究3.2詞匯學習考察

1)上世紀80年代以來,對外漢語詞匯大綱的研

制漸成高潮,出現(xiàn)了包括《漢語水平等級標準和

等級大綱》[試行]、《漢語水平詞匯與漢字等級

大綱》、《漢語水平等級標準與語法等級大綱》、《高等學校外國留學生漢語言專業(yè)教學大綱》等在內(nèi)的一大批研究成果。3.基于語料庫的對外漢語教學研究

“超綱詞”:引起人們廣泛關(guān)注。有研究認為,超綱詞達到69%-85%,“導致課堂上無效輸入量增大”。

《漢語水平詞匯與漢字等級大綱》收詞8822個。張凱、姜德悟都認為應達到10000至12000詞;

李清華調(diào)查發(fā)現(xiàn),大綱詞匯量偏低正是造成中高級漢語教材超綱詞過多的重要原因,提出漢語教學的詞匯量應為15000左右。3.基于語料庫的對外漢語教學研究

2)張、姜、李三位說的是《漢語水平詞匯與漢字等級大綱》,而《高等學校外國留學生漢語言專業(yè)教學大綱》、《高等學校外國留學生漢語教學大綱(長期進修)》、《高等學校外國留學生漢語教學大綱(短期強化)》的詞匯量也是不合理的。3.基于語料庫的對外漢語教學研究大綱名稱

學習時間

詞匯量專業(yè)教學大綱4年7554長期進修大綱半年-3年8042短期強化大綱半年以內(nèi)8000學習時間與要求掌握的詞匯量嚴重不合邏輯!3.基于語料庫的對外漢語教學研究

3)在“HSK動態(tài)作文語料庫”(1.1版)中,考生用到的詞匯總數(shù)為2,825,427個,不同的詞

27,065個。其中:單音節(jié)詞:2238;雙音節(jié)詞:18852;三音節(jié)詞語:2936;四音節(jié)詞語:2921;五音節(jié)以上的詞語:118。3.基于語料庫的對外漢語教學研究

用《漢語水平詞匯與漢字等級大綱》衡量,共計用到綱內(nèi)詞7371個。其中:甲級:945

(1033-945=88)乙級:1858

(2018-1858=160)丙級:1877

(2202-1877=325)丁級:2691

(3569-2691=878)3.基于語料庫的對外漢語教學研究超綱詞共有19752。其中:單音節(jié)超綱詞:701雙音節(jié)超綱詞:13406三音節(jié)超綱詞:2741四音節(jié)超綱詞:2786五音節(jié)以上超綱詞:1183.基于語料庫的對外漢語教學研究3)初步的分析與推測:

(1)現(xiàn)代漢語詞匯以雙音節(jié)詞為主,單音節(jié)、三音節(jié)、四音節(jié)的詞匯都相對較少,五音節(jié)以上的更少??忌褂迷~匯的上述情況是符合現(xiàn)代漢語詞匯以雙音節(jié)為主的實際的。

(2)考生使用的詞匯數(shù)量按級別由低到高逐步遞升:甲級詞最少,丁級詞最多,這種情況符合參加高等考試的學生的基本情況:都是高級階段或準高級階段的考生。3.基于語料庫的對外漢語教學研究(3)甲級詞使用率:98.44%乙級詞使用率:95.28%丙級詞使用率:88%丁級詞使用率:75.61%低等級的詞掌握得好,高等級的詞相對差一些。符合第二語言詞匯學習的自然規(guī)律的。

表明加強高等級詞匯教學的重要性、必要性和緊迫性。3.基于語料庫的對外漢語教學研究

(4)考生使用的詞匯總數(shù)為27065個,在《漢語水平詞匯與漢字等級大綱》中有的詞僅為7371個,占27.23%;而超綱詞有19752個,占72.98%。思考:

a.詞匯等級大綱中的8822個詞的數(shù)量太少,遠遠不能滿足教學的實際需要;

b.大綱詞匯數(shù)量少,學習者卻掌握了如此眾多的詞匯,原因何在?——超綱詞+實實在在的詞匯教學。

超綱詞帶來的未必是“無效輸入量”,而是學生詞匯量的極大擴充。353.基于語料庫的對外漢語教學研究4)詞匯偏誤概況在424萬字語料中,詞匯偏誤共86266處,3大類:

1)缺詞偏誤,共17563處,約占詞匯偏誤總數(shù)的

20.36%。

2)多詞偏誤,共19422處,約占詞匯偏誤總數(shù)的

22.51%。

3)錯詞偏誤,共49281處,約占詞匯偏誤總數(shù)的

57.13%。3.基于語料庫的對外漢語教學研究有關(guān)研究表明:一年的穩(wěn)態(tài)詞語有18663個五年的穩(wěn)態(tài)詞語為13066個十年的穩(wěn)態(tài)詞語為12477個十五年的穩(wěn)態(tài)詞語為12183個20年的穩(wěn)態(tài)詞語為11833個。

穩(wěn)態(tài)詞語的研究為詞匯等級大綱的研究提供了選詞及確定收詞數(shù)量的最為重要的依據(jù)?!凇皠討B(tài)流通語料庫”的研究3.基于語料庫的對外漢語教學研究3.3對外漢語教學與習得研究的新模式語料庫+定量分析+定性分析+實證研究↓基于大規(guī)模真實語料的、定量分析與定性分析相結(jié)合的實證性研究。4.語料庫在對外漢語教學中的應用——盧偉以語料為基礎(chǔ)的語言研究方法及其成果語料庫,在對外漢語教學與研究方面可以得到廣泛的應用?,F(xiàn)代漢語語料庫不僅可以為編制教學大綱提供定量依據(jù),為編寫教材提供真實的語言素材,為編纂教學專用辭書提供語料和語言信息,還有助于研究語言形式的語境意義和用法,有助于發(fā)現(xiàn)第二語言學習和習得的規(guī)律,有助于發(fā)現(xiàn)和修正語言規(guī)律,促進漢語研究和教學的發(fā)展。因此,有必要加強我國語料庫建設(shè)及其在對外漢語教學與研究中的應用。4.語料庫在對外漢語教學中的應用

4.1為研制漢語詞匯、語法和漢字教學大綱提供科學的參考依據(jù)如果我們建成一個學科覆蓋范圍廣泛的大規(guī)?,F(xiàn)代漢語語料庫為從事對外漢語教學和研究的人員提供大量反映各種語體和語域的真實語料,便于對現(xiàn)代漢語的字、詞和語法項目進行更加科學、客觀、準確的定量統(tǒng)計分析??梢?漢語作為外語或第二語言教學的各種等級大綱,如果能夠建立在語料庫提供的漢字、詞匯和語法項目使用頻率的定量統(tǒng)計基礎(chǔ)上,就更具有廣泛性、客觀性、科學性和權(quán)威性,因而對教學實踐和相關(guān)的學術(shù)研究也更有指導意義。2020-4.語料庫在對外漢語教學中的03-1應9

用4.3.有助于研究語言形式在語境中的意義和用法如果沒有語料庫為我們提供大量的語言材料,僅僅依靠有限的語料對語言形式進行意義和用法研究,可能會因為材料不足導致研究結(jié)論不夠準確全面。因此,利用語料庫進行各種語言形式在語境中的語義和語用研究,可以避免分析和判斷的失誤,有助于更加全面準確地認識漢語語言形式在交際語境中的意義和用法,據(jù)此所進行的描寫也更加可靠。4.語料庫在對外漢語教學中的應用4.4可提供第二語言學習者的“中介語”(interlanguage)形式與人工收集有限的學生病句卡片資料相比,“中介語”語料庫能夠更加真實詳盡地反映第二語言學習者的漢語中介語本來面貌,幫助我們更加全面系統(tǒng)地觀察他們學習和習得漢語的過程,了解影響學習和習得的各種因素,所發(fā)現(xiàn)的規(guī)律反過來可以為第二語言教學的總體設(shè)計、教材編寫、課堂教學、測試等各個環(huán)節(jié)的研究提供依據(jù)。此外,建立在中介語語料庫基礎(chǔ)上的偏誤分析,也有助于預測和糾正第二語言學習者的言語錯誤。4.語料庫在對外漢語教學中的應用4.5.為編寫第二語言教學專用的辭書提供真實的語料和相關(guān)的語言信息如果對外漢語教學專用的漢語詞典能夠以大型的漢語語料庫為基礎(chǔ),那么,這樣的詞典必將更加具有統(tǒng)計學的定量依據(jù),對詞語的意義和用法的描述也會更加客觀全面,其科學性和權(quán)威性也就更強,對教學與研究也就更有參考價值。4.語料庫在對外漢語教學中的應用4.6.有助于從漢語的實際使用情況中發(fā)現(xiàn)和修正語言規(guī)律以語料庫的大量語料為基礎(chǔ)所進行的語言研究,更有可能使語言研究者發(fā)現(xiàn)原有對某些語法現(xiàn)象的解釋與自然語言中的實際情況不相符合,這就使得他們有機會去修正或補充前人的結(jié)論,促進語言研究不斷發(fā)展。因此,語料庫不但有助于漢語語言的應用研究,而且為高效、全面、科學地進行現(xiàn)代漢語的理論研究提供了強大的現(xiàn)代化技術(shù)保證,特別是在發(fā)現(xiàn)和修正語言規(guī)律方面大有可為。我國語料庫建設(shè)發(fā)展較慢,這對于一貫重視利用真實語料進行語言研究的我國語言研究傳統(tǒng)來說,顯得很不適應,尤其是在對外漢語教學的應用方面。況且還有很多理論和技術(shù)問題沒有解決。諸如怎樣汲取和應用西方語料庫語言學的研究方法和建庫經(jīng)驗,現(xiàn)有的語料庫規(guī)模偏小,語料標注加工的廣度和深度不夠,語料檢索軟件還有待改進,等等。4.語料庫在對外漢語教學中的應用針對這些不足,我們認為至少必須重視以下幾個方面的工作。首先必須繼續(xù)學習西方語料庫語言學的理論和方法,并結(jié)合漢語特點加以汲取和應用。其次,繼續(xù)收集樣本語料擴充并標注現(xiàn)有的語料庫,使之語料更豐富,覆蓋面更廣,標注更科學。第三,有關(guān)部門統(tǒng)一組織力量研制不同用途的新語料庫。第四,在技術(shù)方面,提高現(xiàn)有語料庫的運行速度,引進國外的或者改進現(xiàn)有的標注和檢索程序,開發(fā)新的工具軟件,使語料檢索更加方便快捷。第五,盡最大可能地發(fā)揮現(xiàn)有語料庫的作用。已建成的語料庫不要只局限于小范圍內(nèi)的研究人員使用,而

應該推向社會,至少應該對全國從事對外漢語教學與研究的人員開放。5.字形特征對漢字文化圈中高級水平學習者書寫漢字的影響——基于“HSK動態(tài)作文語料庫的觀察”本文通過對“HSK動態(tài)作文語料庫”中漢字的使用情況進行分析統(tǒng)計發(fā)現(xiàn),在

漢字文化圈高級漢語水平學習者的書寫任務中,筆畫數(shù)效應顯著,部件數(shù)效應和結(jié)構(gòu)類型效應不顯著。這三個字形因素對學習者書寫漢字的影響程度不同。從錯誤率的平均值來看:獨體字錯誤率顯著低于多筆畫獨體字錯誤率,少筆畫、中筆畫和多筆畫合體字的書寫錯誤率顯著遞增。2部件、3部件、多部件合體字的錯誤率依次遞增。5.1研究材料和方法本研究的語料來自“HSK動態(tài)作文語料庫”,它是母語非漢語的學習者參加中國漢語水平考試HSK高等作文考試的作文語料庫。424萬字的語料共使用3880個漢字,累計使用3820326次。覆蓋了2500常用字中的2452字,1000次常用字中的832字,合計3284字,占3500常用字的93.83%。本研究將這3284個字建立了數(shù)據(jù)庫,主要字段包括漢字、筆畫數(shù)、部件數(shù)、結(jié)構(gòu)類型、使用頻次、錯誤頻次和錯誤率。本文主要參考了漢字字形因素對漢字書寫的影響,所說的字的錯誤是指該語料庫中標注為“錯字”的情況,即字形書寫有誤。5.1研究材料和方法確定漢字筆畫數(shù)的主要依據(jù)是“漢字屬性數(shù)據(jù)庫”(邢紅兵,2007:148),該數(shù)據(jù)庫在部件拆分上以《信息處理用GB13000.1字符

集漢字部件規(guī)范》(GF3001-1997)為準。確定部件數(shù)和結(jié)構(gòu)類型的依據(jù)是《現(xiàn)代常用獨體字規(guī)范》(GF0013-2009)和《現(xiàn)代常用字部

件及部件名稱規(guī)范》(GF0014-2009)。這兩個規(guī)范在部件和結(jié)構(gòu)類型的界定上更符合漢字教學的需求和漢字習得的規(guī)律。為了便于統(tǒng)計和與同類研究進行比較,我們根據(jù)這兩個規(guī)范將漢字的結(jié)構(gòu)類型歸納為獨體、左右、上下、包圍和框架結(jié)構(gòu)5大類。由于框架結(jié)構(gòu)的字太少(3284字中只有9個),統(tǒng)計分析中暫且忽略了這種結(jié)構(gòu)類型。5.2數(shù)據(jù)5.2.1獨體、合體因素對漢字書寫錯誤率的影響5.2數(shù)據(jù)5.2.2筆畫數(shù)對獨體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論