下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于Web檢索的陜北民歌語(yǔ)料庫(kù)設(shè)計(jì)摘要:運(yùn)用語(yǔ)料庫(kù)語(yǔ)言學(xué)的根本觀點(diǎn),討論陜北民歌語(yǔ)料庫(kù)構(gòu)建原那么及eb管理系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)設(shè)計(jì)了陜北民歌aess語(yǔ)料數(shù)據(jù)庫(kù),其中包含全文語(yǔ)料數(shù)據(jù)表、句子語(yǔ)料數(shù)據(jù)表、陜北民歌詞表數(shù)據(jù)表共3個(gè)。介紹語(yǔ)料庫(kù)的在線(xiàn)檢索和管理功能,提出字詞頻統(tǒng)計(jì)功能和eb在線(xiàn)檢索功能實(shí)現(xiàn)的方法,開(kāi)發(fā)基于asp的陜北民歌開(kāi)放性語(yǔ)料庫(kù)eb管理系統(tǒng),用戶(hù)可以方便地通過(guò)ie閱讀器進(jìn)展語(yǔ)料檢索、詞頻統(tǒng)計(jì)、語(yǔ)料提取等操作。關(guān)鍵詞:語(yǔ)料庫(kù);陜北民歌;頻度統(tǒng)計(jì);eb檢索中圖分類(lèi)號(hào):tn911-34;tp311文獻(xiàn)標(biāo)識(shí)碼:a文章編號(hào):1004-373x(2021)22-0038-02designfflksn
2、grpusbasednebretrievalzhangtng-xuan(anageentffiefsuthapus,einanteaheruniversity,einan714000,hina)基金工程:渭南師范學(xué)院2021專(zhuān)項(xiàng)基金資助工程(10ykz055)語(yǔ)料庫(kù)作為根底研究是近年來(lái)應(yīng)用語(yǔ)言學(xué)研究的一個(gè)重要開(kāi)展。建立陜北民歌語(yǔ)料庫(kù)是一個(gè)浩大工程,也是陜北民歌研究獲得新打破的根底工程。陜北民歌是特定的時(shí)代、特定地理環(huán)境中的特定產(chǎn)物,是陜北勞動(dòng)人民抒發(fā)感情的最好手段。陜北民歌研究始于20世紀(jì)初,到20世紀(jì)80年代中后期,在各個(gè)方面的研究都獲得了不少成績(jī)1。不過(guò),傳統(tǒng)研究往往著眼于作品的人文及藝術(shù)
3、特征,研究者多半依靠自身良好的文化修養(yǎng)與“強(qiáng)聞博記,憑感悟直接把握作品的內(nèi)涵,對(duì)作品的語(yǔ)言全貌進(jìn)展橫向或縱向的細(xì)密分析時(shí),往往顯得力不從心2。20世紀(jì)80年代以來(lái),隨著計(jì)算機(jī)應(yīng)用技術(shù)的不斷開(kāi)展,以語(yǔ)料庫(kù)為根底的研究在語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)研究中都獲得了豐碩的成果。無(wú)論是在語(yǔ)言學(xué)研究,還是在自然語(yǔ)言處理領(lǐng)域,語(yǔ)料庫(kù)都已經(jīng)成為重要的根底資源,發(fā)揮了越來(lái)越重要的作用。1陜北民歌語(yǔ)料庫(kù)設(shè)計(jì)1.1陜北民歌語(yǔ)料庫(kù)建立原那么語(yǔ)料庫(kù)通常指為語(yǔ)言研究搜集的、用電子形式保存的語(yǔ)言材料,由自然出現(xiàn)的書(shū)面語(yǔ)或口語(yǔ)樣本聚集而成,用來(lái)代表特定語(yǔ)言或語(yǔ)言變體。通過(guò)語(yǔ)料庫(kù)可以觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言系統(tǒng)規(guī)律。語(yǔ)料庫(kù)已經(jīng)
4、成為語(yǔ)言學(xué)理論研究和語(yǔ)言工程不可缺少的根底資源,對(duì)它的研究已開(kāi)展成為一個(gè)跨世紀(jì)、跨學(xué)科的語(yǔ)言研究學(xué)科。陜北民歌語(yǔ)料庫(kù)是“專(zhuān)用性語(yǔ)料庫(kù)(speializedrpus),是為陜北民歌研究效勞的。在語(yǔ)料樣本的選擇上,力求反映陜北民歌語(yǔ)言的真實(shí)相貌,以采集到的民歌原始文本作為樣本。單個(gè)語(yǔ)料樣本的大小是由原始文本的篇幅決定的,篇幅較小的原始樣本單獨(dú)成篇,作為一個(gè)樣本,篇幅較大的(如陜北說(shuō)書(shū)、陜北道情等)那么切分成大小相當(dāng)?shù)钠瑪?每個(gè)片斷作為一個(gè)樣本。這樣的語(yǔ)料樣本提供的上下文語(yǔ)境更為廣泛,更加合適進(jìn)展語(yǔ)篇研究。在語(yǔ)料的代表性上,一是保持口語(yǔ)語(yǔ)料與書(shū)面語(yǔ)料的平衡,如實(shí)反映陜北民歌的根本相貌,語(yǔ)料庫(kù)以民間采
5、集的口語(yǔ)文本為主,同時(shí)兼顧各種已經(jīng)匯編出版的陜北民歌著作;二是保持方言語(yǔ)料與普通話(huà)語(yǔ)料的平衡,以采集當(dāng)?shù)卦鷳B(tài)民歌(特別是采集年齡大、沒(méi)有承受過(guò)文化教育的老年人唱的土歌)為主,適當(dāng)采集一些專(zhuān)業(yè)歌手的新陜北民歌。1.2陜北民歌語(yǔ)料數(shù)據(jù)庫(kù)設(shè)計(jì)陜北民歌語(yǔ)料庫(kù)中樣本沒(méi)有進(jìn)展語(yǔ)言屬性標(biāo)注,建立的語(yǔ)料庫(kù)是“生語(yǔ)料庫(kù)。根據(jù)研究者對(duì)語(yǔ)料庫(kù)的檢索要求,該語(yǔ)料庫(kù)設(shè)計(jì)研制了3個(gè)數(shù)據(jù)表,一是全文語(yǔ)料庫(kù)數(shù)據(jù)表,即每個(gè)語(yǔ)料庫(kù)樣本作為一條數(shù)據(jù)記錄存放在數(shù)據(jù)表中,以提供全文語(yǔ)境,方便于語(yǔ)篇的研究。檢索項(xiàng)包括篇章標(biāo)題、作者、演唱者、流傳地區(qū)、體裁形式、內(nèi)容分類(lèi)以及篇章全文;二是將全文樣本切分成句子,然后將每個(gè)句子當(dāng)1條數(shù)據(jù)記錄
6、存放在數(shù)據(jù)表中,目的是進(jìn)展句子單位的語(yǔ)言研究,可以實(shí)現(xiàn)詞語(yǔ)搭配、例句提娶句型檢索等;三是陜北民歌詞表數(shù)據(jù)表,此表是基于統(tǒng)計(jì)抽詞并結(jié)合劉育林編著的?陜北方言詞典?3、張崇編著的?陜西方言詞聚集?4等文獻(xiàn)典籍進(jìn)展補(bǔ)充建立的,詞庫(kù)有2個(gè)主要字段:1個(gè)是詞條,1個(gè)是詞條使用頻度(該字段初始值為0,用來(lái)存放詞頻統(tǒng)計(jì)結(jié)果)。2陜北民歌語(yǔ)料庫(kù)語(yǔ)料的加工語(yǔ)料庫(kù)的功能主要與3個(gè)因素有關(guān),一是語(yǔ)料庫(kù)的規(guī)模;二是語(yǔ)料的分布;三是語(yǔ)料的加工程度。語(yǔ)料的加工主要指文本格式處理和文本描繪,而語(yǔ)料加工的深度決定了這個(gè)語(yǔ)料庫(kù)能為使用者提供什么樣的語(yǔ)言學(xué)信息。沒(méi)有篇體描繪信息的語(yǔ)料叫做生語(yǔ)料,經(jīng)過(guò)詞語(yǔ)切分、詞性標(biāo)注處理的語(yǔ)料可
7、以獲得更多的語(yǔ)言學(xué)信息。陜北民歌語(yǔ)料數(shù)據(jù)庫(kù)共包括陜北民歌2000余首,通過(guò)以詞語(yǔ)為單位的切分和標(biāo)注詞性加工成熟語(yǔ)料。陜北民歌詞切分標(biāo)注的根本加工標(biāo)準(zhǔn)是從詞義的整體性、詞構(gòu)造的整體性和定型性、詳細(xì)的語(yǔ)言環(huán)境等標(biāo)準(zhǔn)和參考?陜北方言詞典?、?陜西方言詞聚集?等工具書(shū)來(lái)確定的,同時(shí)從合適計(jì)算機(jī)處理的角度出發(fā),把詞按詞性分類(lèi)修訂為13大類(lèi):名詞n,動(dòng)詞v,形容詞a,數(shù)詞,量詞q,代詞r,副詞d,介詞p,連詞,助詞u,嘆詞e,語(yǔ)氣詞y,擬聲詞。名詞類(lèi)可以分為時(shí)間詞t,方位詞f,人名nr和地名ns;按構(gòu)造分為12大類(lèi):名詞性并列構(gòu)造n、動(dòng)詞性并列構(gòu)造v、形容詞性并列構(gòu)造a、動(dòng)賓構(gòu)造v、動(dòng)補(bǔ)構(gòu)造v、主謂構(gòu)造s
8、p、名詞性偏正構(gòu)造xn、動(dòng)詞性偏正構(gòu)造xv、形容詞性偏正構(gòu)造xa、方位構(gòu)造nf、數(shù)量構(gòu)造q、介賓構(gòu)造p。為了得到高精度的加工結(jié)果,有效的方法是首先由機(jī)器進(jìn)展初步切分,然后由人工進(jìn)展校對(duì)。加工工程包括“詞切分和“詞性標(biāo)注。例如對(duì)生語(yǔ)料?半夜里來(lái)了你這勾命的鬼?的切分和標(biāo)注結(jié)果如下:騎上/v那個(gè)/r毛驢/n喲/y狗/n咬/v腿/n,/半夜里/t來(lái)/v了/u你/r這/r勾/v命/n的/u鬼/n。/摟住/v那個(gè)/r親人/n喲/e親上個(gè)嘴/v,/肚子/n里/f的/u疙瘩/n化/k成/v了/u水/n。/3陜北民歌語(yǔ)料庫(kù)的eb管理系統(tǒng)設(shè)計(jì)有語(yǔ)料庫(kù)查看和語(yǔ)料庫(kù)管理兩大功能。語(yǔ)料庫(kù)是開(kāi)放的,所以任何用戶(hù)都可以通
9、過(guò)eb在線(xiàn)進(jìn)展查看,可以實(shí)現(xiàn)語(yǔ)料閱讀、語(yǔ)料檢索、詞頻統(tǒng)計(jì)功能。語(yǔ)料庫(kù)管理是通過(guò)受權(quán)用戶(hù)進(jìn)展管理,可以進(jìn)展語(yǔ)料和詞表的添加、編輯、刪除等。3.1字詞頻統(tǒng)計(jì)功能的實(shí)現(xiàn)字詞頻度統(tǒng)計(jì)是對(duì)全文數(shù)據(jù)記錄樣本文檔內(nèi)容進(jìn)展字詞頻度統(tǒng)計(jì),并分析統(tǒng)計(jì)結(jié)果。字頻統(tǒng)計(jì)是對(duì)多個(gè)漢字使用頻度的統(tǒng)計(jì),實(shí)現(xiàn)方法是先獲得全文樣本數(shù)據(jù)表里面存放的全部漢字字符串,然后依次取出1個(gè)漢字,根據(jù)漢字的內(nèi)碼值和類(lèi)型,將其內(nèi)碼轉(zhuǎn)化為一維線(xiàn)性地址,該一維線(xiàn)性地址對(duì)應(yīng)一個(gè)數(shù)組的下標(biāo),把對(duì)應(yīng)數(shù)組項(xiàng)值加1,做累計(jì)操作,最后記錄這個(gè)漢字串的特征信息,并保存統(tǒng)計(jì)結(jié)果。詞頻統(tǒng)計(jì)是對(duì)2個(gè)或2個(gè)以上漢字組成的詞的使用頻度進(jìn)展統(tǒng)計(jì)。實(shí)現(xiàn)方法是先獲得全文數(shù)據(jù)表里
10、存放的漢字串,按最長(zhǎng)優(yōu)先匹配算法將漢字串進(jìn)展自動(dòng)切分成詞,詞的切分是基于詞表數(shù)據(jù)表這個(gè)根本詞庫(kù),做累計(jì)操作,最后記錄特征信息5。3.2eb在線(xiàn)檢索功能的實(shí)現(xiàn)該語(yǔ)料庫(kù)管理系統(tǒng)采用b/s構(gòu)造,數(shù)據(jù)庫(kù)采用aess,檢索程序采用asp語(yǔ)言編寫(xiě)。檢索功能利用sql語(yǔ)句支持的“l(fā)ike與“%結(jié)合使用的匹配方式,限定包含指定關(guān)鍵字的匹配條件。在數(shù)據(jù)庫(kù)查詢(xún)?cè)O(shè)計(jì)中采用了ad2.0中rerdset記錄集對(duì)象封裝的getstring方法,進(jìn)步數(shù)據(jù)庫(kù)查詢(xún)效率,即把輸出的全部結(jié)果放在一個(gè)很長(zhǎng)的字符串里,效勞器只需解釋一遍respnse.rite語(yǔ)句6。通過(guò)replaeith語(yǔ)句即可實(shí)現(xiàn)檢索字符串的高亮顯示。該系統(tǒng)實(shí)現(xiàn)了全文模糊檢索、檢索結(jié)果分頁(yè)顯示及語(yǔ)料提取和詞頻統(tǒng)計(jì)。檢索字符串可以是簡(jiǎn)體漢字的任意字符串,符合檢索條件的語(yǔ)料樣本均可分面顯示出來(lái)。顯示檢索結(jié)果時(shí),檢索關(guān)鍵字紅色高亮顯示,以便快速找到關(guān)鍵詞在語(yǔ)料中的位置。進(jìn)展句子語(yǔ)料數(shù)據(jù)庫(kù)檢索時(shí),顯示結(jié)果進(jìn)展“關(guān)鍵字居中。所有檢索結(jié)果允許復(fù)制或保存。4結(jié)語(yǔ)構(gòu)建基于文學(xué)研究的陜北民歌語(yǔ)料庫(kù)及eb管理系統(tǒng),為陜北民歌的搜集整理、理論研究、開(kāi)發(fā)利用提供了新的手段,翻開(kāi)新的領(lǐng)域,將為全國(guó)乃至全世界陜北民歌、語(yǔ)言文化研究者提供豐富、有價(jià)值的第一手資料,為保護(hù)和搶救陜北民歌這一人類(lèi)文化瑰寶,搶救性地開(kāi)掘這一逐漸消失的文化中的活化石,加強(qiáng)陜西的對(duì)外
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年新型消防設(shè)備研發(fā)與安裝合作合同3篇
- 2024年物業(yè)服務(wù)合同案例解析3篇
- 果蔬加工中的無(wú)損檢測(cè)技術(shù)考核試卷
- 早教班超市主題課程設(shè)計(jì)
- 2024年藝人經(jīng)紀(jì)合同:藝人與經(jīng)紀(jì)公司之間的經(jīng)紀(jì)合同3篇帶眉腳
- 管式換熱器課程設(shè)計(jì)
- 糖果扭結(jié)包裝機(jī)課程設(shè)計(jì)
- 溫度測(cè)控系統(tǒng)課程設(shè)計(jì)
- 《河南省農(nóng)村家庭負(fù)債行為及影響因素研究》
- 《初中生焦慮、自尊與學(xué)習(xí)投入的關(guān)系研究》
- 村民小組長(zhǎng)述職報(bào)告
- 2024年全國(guó)職業(yè)院校技能大賽高職組(智慧物流賽項(xiàng))考試題庫(kù)(含答案)
- 2024-2025學(xué)年部編版初中7語(yǔ)文-貴州期末真題卷(上)答案
- 黑龍江省綠綏化市綏棱縣2023-2024學(xué)年八年級(jí)(五四學(xué)制)上學(xué)期期末語(yǔ)文試題
- 國(guó)家開(kāi)放大學(xué)2024春《1472藥劑學(xué)(本)》期末考試真題及答案-開(kāi)放本科
- 四年級(jí)數(shù)學(xué)人教版(上冊(cè))第1課時(shí)口算除法(課件)
- 廣西南寧學(xué)院招聘專(zhuān)任教師筆試真題2023
- 網(wǎng)絡(luò)安全測(cè)評(píng)整改投標(biāo)方案(技術(shù)方案)
- 抗菌藥物臨床應(yīng)用指導(dǎo)原則版
- 2024中考語(yǔ)文《儒林外史》歷年真題專(zhuān)練(學(xué)生版+解析版)
- 學(xué)校自我內(nèi)部控制評(píng)價(jià)范文
評(píng)論
0/150
提交評(píng)論