版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、語料庫語言學(xué)朱麟 自我介紹:朱麟: 北京師范大學(xué),博士后研究方向: 語言學(xué)及應(yīng)用語言學(xué)、語料庫語言學(xué) 、語音學(xué)、英、漢比照;研究工程: 1、 2007年結(jié)題大學(xué)英語課堂教學(xué)互動模式的性別差異研究、對策省級課題2、 2003年從心理語言學(xué)角度探求英語專業(yè)根底省級課題3、 2004年1月-2006年9月863地方普通話語音語料庫第2批,6地語音庫RASC863-G2國家863高技術(shù)工程,通過驗收標(biāo)注、統(tǒng)計4、2001-2005基于口語語料庫的語音研究及音段和韻律自動標(biāo)注;國家社科基金;通過驗收;標(biāo)注、校對Research projects: 5、2007年 十一五課題 普適教育資源體系及關(guān)鍵技術(shù)研
2、究 課題號:BCA070052主工程負責(zé)人前3、子工程負責(zé)人6、2007國家十一五課題,有效應(yīng)用信息技術(shù)促進新課程教與學(xué)的研究, 課題號:DHA070146子工程負責(zé)人,負責(zé)語言教育課程與信息技術(shù)的整合Papers:1、2001年 ?二語言習(xí)得對教學(xué)的影響?江西師范大學(xué)學(xué)報2、2003年 ?美國人的健康觀?英語輔導(dǎo)?核心3、2003年 ?口語提高秘笈?英語輔導(dǎo)?核心4、2005年?滿語語源二例?滿語研究?核心,第2作者5、2005年?英語、漢語語調(diào)模式比較?江西播送電視大學(xué)學(xué)報?6、2006年?從滿語、英語形態(tài)變化看語言共性?內(nèi)蒙古師范大學(xué)學(xué)報?核心7、2006年?英式英語與中式英語節(jié)奏模式的
3、比照?第11屆中國當(dāng)代語言學(xué)研討會,當(dāng)代語言學(xué)舉辦8、2006年?中國英語的節(jié)奏模式?第七屆中國語音學(xué)學(xué)術(shù)會議,北京大學(xué)舉辦9、2006年 ?論文二語習(xí)得在英語教育中的運用? ?江西播送電視大學(xué)學(xué)報?10、2007年 ?中國英語的節(jié)奏模式?瘋狂英語,教師版?核心Papers:11、2007年2月?從時尚介詞看文化語言?, 江西播送電視大學(xué)學(xué)報12、2007年 7月?對大學(xué)研究性教學(xué)的探討?中國素質(zhì)教育?13、2007年 8月?基于英語口語為核心的語音系統(tǒng)?,?中國科學(xué)論壇?核心14、2007年 9月?論當(dāng)代西方戲劇?,?電影藝術(shù)?核心15、2007年11月?信息化外語教育平臺?教育技術(shù)資訊?核
4、心16、2021年 第3期?中國式英語超音段音位的研究?時代文學(xué)雙月刊?核心17、2021年5月 ?網(wǎng)絡(luò)環(huán)境下中學(xué)英語智能教學(xué)語料庫的建立?中國教育信息化?CSSCI18、2021年 12月?新視點下的英語語音教學(xué)信息技術(shù)與英語課程相結(jié)合?江西播送電視大學(xué)學(xué)報?19、2021年4月 ?移動、普適計算機技術(shù)對教育領(lǐng)域的推動、創(chuàng)新和開展?教育技術(shù)資訊?Papers:20、2021年12月Research on Personalized Teaching Model for Individual User in ISI: a Wet Based Learning Platform, 2021 Int
5、ernational Conference on Information Technology in Education(被ISTP EI收入)21、2021年10月?ISI:一個師生共建的個性化學(xué)習(xí)效勞平臺?現(xiàn)代教育技術(shù)?cssci第二作者22、2021 年11月?ISI:基于WEB的以學(xué)習(xí)者為主體的外語學(xué)習(xí)個性化智能系統(tǒng)?,?中國現(xiàn)代教育裝備?已收到如用通知書,發(fā)表時間在2021年下半年國家一類刊物23、2021?武漢話實驗語音分析?的修改稿件的通知,發(fā)表時間未定24、2021年 ?基于語音的大型語料庫的建設(shè)?,?哈爾濱工業(yè)大學(xué)學(xué)報?核心 接到修改稿件,發(fā)表時間未定Papers:25、20
6、21年,Integrating Handheld Devices into Ubiquitous Education Service service delivery, 2021年IEEE未來信息技術(shù)與管理工程國際會議EI, ISTP檢索26、2021年10月?新一代學(xué)習(xí)環(huán)境:基于網(wǎng)絡(luò)的個性化普適學(xué)習(xí)?,?中國教育信息化?核心,CSSCI27、2021年1月?一種基于筆交互的教學(xué)軟件框架及其應(yīng)用?,?中國電化教育?核心、CSSCI28、2021年5月?普適技術(shù)、嵌入式系統(tǒng)的研發(fā)及在教育體系的應(yīng)用?,?未來與開展?CSSCI、核心課程目標(biāo) 課程目標(biāo)了解語料庫語言學(xué)的開展語料庫語言學(xué)的應(yīng)用用一個課
7、題實例說明語料庫研究的方法語料庫的分類 口語語料/書面語料共時語料/歷時語料平衡語料/專門語料監(jiān)控語料/樣本語料單語/雙語/多語語料庫語言學(xué):語言學(xué)的研究必須以語言事實作為根據(jù),必須詳盡地、大量地占有材料,才有可能在理論上得出比較可靠的結(jié)論。語料庫語言學(xué)主要研究機器可讀自然語言文本的采集、存儲、檢索、統(tǒng)計、語法標(biāo)注、句法語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風(fēng)格分析、自然語言理解和機器翻譯等領(lǐng)域中的應(yīng)用。語料庫的開展:20世紀(jì)50年代Chomsky的影響 第一代197080年代 第二代198090年代 第三代1990年代 ?第四代21世紀(jì)第一代語料庫:百萬詞級,以語言
8、研究為導(dǎo)向。Brown語料庫:1960年代初,美國Brown大學(xué),100萬詞次,記錄當(dāng)代美國英語,根據(jù)系統(tǒng)性原那么采樣。LOB語料庫:1970年代初,英國Lancaster大 學(xué),挪威Oslo大學(xué),挪威Bergen大學(xué),記錄當(dāng)代英國英語。LLC語料庫:1960年代初,由London大學(xué)Randolph Quirk主持,收集2000小時的談話和播送等口語素材并整理成書面材料,由瑞典Lund大學(xué)J.Svartvik主持全部錄入計算機,1975年建成第二代語料庫:千萬詞級;詞典編纂 應(yīng)用導(dǎo)向COBUILD語料庫:建于1980年代,由英國Birmingham大學(xué)與Collins出版社合作完成,規(guī)模達2
9、000萬詞次,基于該語料庫出版的Collins Cobuild詞典1987受到了廣泛的好評Longman語料庫:建于1980年代,包括三個語料庫:LLELC語料 Longman英語語料庫;LSC語料庫Longman口語語料庫;LCLELongman英語學(xué)習(xí)語料庫目標(biāo)是編撰英語學(xué)習(xí)詞典,為外國人學(xué)習(xí)英語效勞,詞典規(guī)模達5000萬詞次第三代語料庫:超大規(guī)模上億詞級;標(biāo)準(zhǔn)編碼體系深度標(biāo)注/多語種NLP應(yīng)用ACL/DCI語料庫:由賓州大學(xué)M.Liberman主持,保存語料原始文本形式以及SGML標(biāo)注信息。建議的數(shù)據(jù)采集方案(Data Collection Initiative, DCI),其宗旨是向非
10、贏利的學(xué)術(shù)團體提供語料,以免除費用和版權(quán)的困擾,用標(biāo)準(zhǔn)通用置標(biāo)語言SGML統(tǒng)一置標(biāo),以便于數(shù)據(jù)交換。LDC語言數(shù)據(jù)聯(lián)合會 (Linguistic data Consortium): 設(shè)在美國賓州大學(xué),實行會員制,有163 個語料庫 (包括Text的以及 speech的),共享語言資源。RWC日語語料庫:日本新情報處理開發(fā)機構(gòu)RWCP研制,包括?每日新聞?4年的全文語料,語素標(biāo)注量達1億條。未來語料庫的開展使用語料庫的人會越來越多,語言研究描述或教學(xué),語料庫成為不可替代的研究工具。語料庫收集的內(nèi)容會越來越多??蓴y帶式分析工具如解析軟件,光盤和光驅(qū)會使相關(guān)研究很方便。我國語料庫的開展概況從20世紀(jì)
11、20年代,建立文本的語料庫,采用統(tǒng)計的方法來研究漢字的頻率,其目的在于制定根底漢字的字表。缺點:不是機器可讀的;規(guī)模小。1979年以來,開始進行機器可讀語料庫的建設(shè):漢語現(xiàn)代文學(xué)作品語料庫1979年,527萬字,武漢大學(xué)?,F(xiàn)代漢語語料庫1983年,2000萬字,北京航天航空大學(xué)。 中學(xué)語文教材語料庫1983年,106萬8千字,北京師范大學(xué)。 現(xiàn)代漢語詞頻統(tǒng)計語料庫1983年,182萬字,北京語言學(xué)院。 我國語料庫的開展情況:1991年,國家語言文字工作委員會開始建立國家級的大型漢語語料庫,以推進漢語的詞法、句法、語義和語用的研究,同時也為中文信息處理的研究提供語言資源,方案其規(guī)模將達7000萬
12、漢字,當(dāng)時宣稱,這將成為世界上最大的漢語語料庫。這個語料庫是均衡語料庫。其語料要經(jīng)過精心的選材.我國語料庫開展情況大規(guī)模真實文本語料庫: 1992年以來,大量的語料庫在中國研究中文信息處理的單位建立起來,語料庫成為了研究中文信息處理的根本語言資源。 中國語料庫的開展情況:口語語料庫:中國社會科學(xué)院語言所,建立了現(xiàn)代自然口語語料庫,包括一個旅館預(yù)定口語語料庫,搜集了2小時 的對話,對話人數(shù)200人以上,進行韻律切分和句法標(biāo)注,是wav文件,用SAMPA-C標(biāo)音,C-ToBI 2.0標(biāo)注韻律,并轉(zhuǎn)寫成漢字文本;還包括一個無限制的自然對話語料庫:14.2小時的對話,對話人數(shù)22人,進行韻律切分和句法
13、標(biāo)注,是wav文件,用SAMPA-C標(biāo)音,C-ToBI 2.0標(biāo)注韻律,并轉(zhuǎn)寫成漢字文本?,F(xiàn)代漢語方言自然口語語料庫,設(shè)計了1500種引導(dǎo)話題和多種采集自然口語的交際環(huán)境,其中,采用話題引導(dǎo)的方式采集的話題語料占60%,在說話人不知道的情況下現(xiàn)場采集的口語語料占40%。語料庫在語言研究中的應(yīng)用口語研究:提供了不同風(fēng)格、不同場合下如:說話人的年齡、性別、社會層次;新聞主持、法庭庭審等口頭用語;提供真實的語言,保證了語言研究的客觀性;詞典和語法參考書的編寫:使用了語料庫,詞典和語法參考書的編寫更加重視單詞頻度的作用,更加強調(diào)單詞的搭配關(guān)系和詞語用法,更加注意語言變異,詞匯在語法中的作用,語料的真實
14、性。意識形態(tài)和文化研究;翻譯研究:文體論研究:語料庫的詞頻分析技術(shù)、詞語索引技術(shù)以及搭配分析技術(shù)有助于分析作家的文體風(fēng)格。使用統(tǒng)計方法來研究文學(xué)作品的文體風(fēng)格,從而發(fā)現(xiàn)文學(xué)作品的歷史過程中。語料庫在語言研究中的應(yīng)用法律語言:鑒定磁帶錄音的語音,確定犯罪嫌疑人在被捕時是否理解了向他們提出的問題,判斷兩個不同的文件是否為同一個人所寫,判斷一個文件是一個人寫的還是兩個不同的人寫的。語料庫技術(shù)可以用來比較不同的法律文件,或者用來比較文件中的不同局部以便證實文件是什么人寫的,或者文件的內(nèi)容是說什么的,或者用來分析文件中語言的性質(zhì)以便區(qū)分其中哪些是真實的,哪些是不真實的。研究和寫作:從語料庫中發(fā)現(xiàn)更加適宜
15、的表達方式,區(qū)分詞語的典型用法和非典型用法,從而提高寫作的質(zhì)量。語料庫在語言研究中的應(yīng)用語義學(xué)研究:客觀的探討語義的不確定性。語用學(xué)和語篇分析家:通過量化成一些語言行為,使得可以更準(zhǔn)確的理解 。社會語言學(xué)研究成果:語料庫在社會語言學(xué)中運用最多的是英語中的性別歧視現(xiàn)象。如:調(diào)查某些詞出現(xiàn)的瀕率比照。韓禮德關(guān)于“語言是社會符號,所以找到可以量化的方法,進行社會語言調(diào)查等。心理語言學(xué):心理語言學(xué)可以說是對假設(shè)進行測試的過程,語料庫可以提供大量真實語料數(shù)據(jù),統(tǒng)計出研究類錯誤發(fā)生的瀕率,幫助心理語言學(xué)家看出發(fā)生錯誤瀕率與說話人之間的關(guān)系,有益與研究語言處理。在語言病理分析方面,可以幫助研究人員確定問題發(fā)
16、生在語言開展的哪個階段。 語料庫與語言教學(xué)語言教師所教的內(nèi)容發(fā)生了根本性的變化,由于語料庫中包含了詞語用法的豐富的信息,語言教師所教的語言實際上就是詞語的用法,因此,所謂教語言就是教詞語的用法。其次,語料庫本身就可以作為語言教學(xué)的材料,語料庫成為了語言教學(xué)大綱研制和語言教學(xué)方法論研究的根底。語料庫在語言研究中的應(yīng)用語言和語言教學(xué): 能夠快速而準(zhǔn)確地給語言學(xué)習(xí)者提供大量真實的語言實例,語料庫的應(yīng)用更加有利于教師的教與學(xué)生的自助學(xué)習(xí),提高了教學(xué)質(zhì)量,提高了語言的教學(xué)模式和教學(xué)方式、方法,實現(xiàn)了語料庫的文本展現(xiàn)、語料庫的索引工具提供的語境、網(wǎng)絡(luò)互動的有機結(jié)合,為英語的自助性學(xué)習(xí)提供了良好的學(xué)習(xí)環(huán)境。
17、本文介紹了適合學(xué)習(xí)者的自主學(xué)習(xí)的多樣化的語料庫的開發(fā)和應(yīng)用,證明:利用語料庫在輔助教學(xué)中許多環(huán)節(jié)上都能減輕師生學(xué)習(xí)負擔(dān),提升教學(xué)效果,改善工作效率。語料庫究竟使應(yīng)用語言學(xué)發(fā)生了什么樣的變化?語料庫使許多過去不可能進行的語言調(diào)查變得可能了。語料庫改變了我們觀察語言的方式。語料庫使我們的生活變得更加簡單。通過語料庫,我們可以很容易發(fā)現(xiàn)語言事實,翻譯者可以從語料庫中很快地找到得體的翻譯等價物,語言教師可以從語料庫中找出更加充分的例證來幫助學(xué)生糾正他們在語言學(xué)習(xí)中所犯的各種錯誤。語料庫也使我們的生活變得更加復(fù)雜。語料庫更加細致地揭示了語言的本來面貌,使我們認識到,很多一般性的語言規(guī)那么都是要在一定的上
18、下文中才可以適用,很多我們原來認為天經(jīng)地義的語言規(guī)那么實際上都是有漏洞的?;谛畔⒓夹g(shù)的語料庫的建立與語言教學(xué)中的應(yīng)用模式: 案例 發(fā)表于2021年?教育信息化? CSSCI 建立多樣化的語料庫及與網(wǎng)絡(luò)互動技術(shù)與英語教學(xué)的結(jié)合,有利于實現(xiàn)語言的學(xué)習(xí)材料的真實性、個性化、解決學(xué)習(xí)的實際需要,使得我國的英語教與學(xué)朝著個性化、任何時間(any time)、任何地點(any where)可以進行學(xué)習(xí)的自主學(xué)習(xí)方向開展。語料庫通過搜索工具為英語學(xué)習(xí)者提供了大量真實的例子和語境,幫助他們更好的學(xué)習(xí)英語。 研究的主要關(guān)鍵內(nèi)容包括英漢口語雙語語料庫和知識庫的建設(shè)方法;英語學(xué)習(xí)中語句的常見錯誤分析;英語的根本語
19、法、詞法分析以及錯誤預(yù)測與糾正方法;基于上下文分析的英語語塊輸入法;漢語口語的英語口語的表示提示。整個平臺關(guān)鍵技術(shù)問題可以具體描述如下:關(guān)鍵技術(shù)1、建立一個可擴展的英漢雙向語料庫。 為用戶提供口語表達的正確判斷和說法的提示。為了實現(xiàn)口語資料的共享和重用,合理的口語語料庫標(biāo)準(zhǔn)和語料標(biāo)注是必經(jīng)之路,為快速的收集語料資源提供保證。其研究包括雙語對齊方法、場景分類、關(guān)鍵字提取、自動消重和權(quán)重設(shè)置等。2、英漢雙語的語言知識庫的建設(shè),在英漢雙向語料庫的根底上,提取語言學(xué)知識competence,為用戶提供依據(jù),同時語言知識為學(xué)習(xí)者的語言錄入的正確性判斷提供直接依據(jù),其采集過程通過語言專家手工和機器學(xué)習(xí)相接
20、合的方法來完成。采用何種機器學(xué)習(xí)方法對語料庫進行統(tǒng)計機器學(xué)習(xí)獲得在英文使用的各種知識是本工程的研究重點之一,這將使整個語言知識具有擴展性。如:單詞的中文譯文的使用概率;非英語短語的英語單詞之間搭配概率。3、以學(xué)習(xí)者為中心的輔助提示、交互技術(shù):人機交互界面自然、簡單、和諧,盡量防止復(fù)雜操作,把因為軟件操作而影響英語學(xué)習(xí)的副作用降到最低。關(guān)鍵技術(shù)4、基于語料庫統(tǒng)計與上下文分析的詞性判斷方法,現(xiàn)有語料庫統(tǒng)計中的詞性統(tǒng)計表達了單詞詞義和詞性在口語中使用的根本規(guī)律,再結(jié)合應(yīng)用上下文的搭配關(guān)系使算法能更準(zhǔn)確地判斷詞性。5、輸入中真詞錯誤的檢查方法:對詞典中單詞按詞形相似性進行聚類將為尋找這種錯誤提供根底,再結(jié)合上下文信息及相似詞之間的用法知識和使用習(xí)慣,將為真詞錯誤檢查提供比較好的方法。6、面向詞法、語法的用戶意圖預(yù)測技術(shù):事先對用戶使用的模式進行歸納,然后通過相似性計算來預(yù)測出的最可能情況進行錯誤糾正,從而到達良好的效果。7、當(dāng)前口語語句
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 探秘書海:字里行間的智慧
- 一年來的財務(wù)工作總結(jié)
- 2023年員工三級安全培訓(xùn)考試題及完整答案(全優(yōu))
- 2023年-2024年項目安全培訓(xùn)考試題含答案(精練)
- 2023-2024年項目部安全管理人員安全培訓(xùn)考試題原創(chuàng)題
- 2023-2024年企業(yè)主要負責(zé)人安全培訓(xùn)考試題答案可打印
- 新生軍訓(xùn)心得體會400字10篇
- 科學(xué)實驗教學(xué)
- 藥物代謝預(yù)測與智能模擬研究-洞察分析
- 鐵路運營成本控制-洞察分析
- 行政單位固定資產(chǎn)盤點報告
- 光學(xué)焦度計的原理與應(yīng)用
- 《兩小兒辯日》教學(xué)案例:培養(yǎng)學(xué)生的思辨能力
- 2024年廣東省普通高中學(xué)業(yè)水平考試化學(xué)試卷(修改+答案)版
- 2024年小學(xué)生中華經(jīng)典誦讀知識競賽參考題庫500題(含答案)
- 日拱一卒行穩(wěn)致遠
- 培訓(xùn)內(nèi)驅(qū)力的課件
- 管理后臺策劃方案
- 人防、物防、技防工作措施
- 市場部培訓(xùn)課程課件
- 八年級歷史上冊論述題匯總
評論
0/150
提交評論