一、概述 - 中國(guó)科學(xué)院_第1頁(yè)
一、概述 - 中國(guó)科學(xué)院_第2頁(yè)
一、概述 - 中國(guó)科學(xué)院_第3頁(yè)
一、概述 - 中國(guó)科學(xué)院_第4頁(yè)
一、概述 - 中國(guó)科學(xué)院_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中文信息基礎(chǔ)資源庫(kù)平臺(tái)-中文語(yǔ)言資源聯(lián)盟謝縈中國(guó)科學(xué)院計(jì)算技術(shù)研究所(100190)陶建華中國(guó)科學(xué)院自動(dòng)化研究所(100190)一、概述中文信息處理是自然語(yǔ)言信息處理的一個(gè)重要分支,它集成了計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、信息學(xué)等眾多領(lǐng)域,分為漢字信息處理與漢語(yǔ)信息處理兩部分。其研究領(lǐng)域包括:分詞、句法分析、語(yǔ)義分析、信息檢索、文本校對(duì)機(jī)器翻譯、語(yǔ)音識(shí)別與合成、對(duì)話系統(tǒng)等。在中文信息處理上,從小規(guī)模受限語(yǔ)言處理走向大規(guī)模真實(shí)文本處理,是一個(gè)意義深遠(yuǎn)的里程碑式的轉(zhuǎn)折,語(yǔ)料庫(kù)方法和統(tǒng)計(jì)語(yǔ)言模型已經(jīng)是當(dāng)前中文信息處理的主流技術(shù)?;A(chǔ)資源庫(kù)被認(rèn)為是目前開(kāi)展以中文為核心的多語(yǔ)言信息處理技術(shù)研究與產(chǎn)品開(kāi)發(fā)的最為重要的

2、基礎(chǔ)。中文信息資源庫(kù)是以中文信息處理為基礎(chǔ)的學(xué)科中非常重要的支撐平臺(tái),目前資源庫(kù)得建設(shè)受到國(guó)內(nèi)外學(xué)術(shù)機(jī)構(gòu)的普遍重視。為推動(dòng)中文信息處理技術(shù)的發(fā)展,加快基礎(chǔ)資源庫(kù)的建設(shè)和共享工作,中科院計(jì)算所和中科院自動(dòng)化所在863重點(diǎn)項(xiàng)目和973項(xiàng)目支持下,共同發(fā)起成立了學(xué)術(shù)性、公益性、非盈利性的資源共享平臺(tái)-中文語(yǔ)言資源聯(lián)盟(ChineseLDC,簡(jiǎn)稱(chēng)CLDC)。該平臺(tái)涵蓋中文信息處理多個(gè)層面上所需要的語(yǔ)言語(yǔ)音資源,包括詞典、各種語(yǔ)音語(yǔ)言語(yǔ)料庫(kù)、工具等。在建立和收集語(yǔ)言資源的基礎(chǔ)上,形成系列化的標(biāo)準(zhǔn)和規(guī)范,推薦給用戶(hù)。在建立和收集資源的同時(shí),分發(fā)資源,服務(wù)于教育、科研、政府研究部門(mén)和工業(yè)技術(shù)開(kāi)發(fā),為漢語(yǔ)語(yǔ)言

3、信息處理的基礎(chǔ)研究和應(yīng)用開(kāi)發(fā)提供支持。二、中文信息資源庫(kù)的特點(diǎn)中文信息資源庫(kù)是由多個(gè)中文語(yǔ)料庫(kù)組成的,每個(gè)中文語(yǔ)料庫(kù)都保持傳統(tǒng)意義上的數(shù)據(jù)庫(kù)的功能,但是每一個(gè)中文語(yǔ)料庫(kù)又根據(jù)其研究領(lǐng)域的不同、計(jì)算方法的不同有著自己特定的數(shù)據(jù)結(jié)構(gòu)。這些語(yǔ)料庫(kù)是面向中文信息處理技術(shù)研究和開(kāi)發(fā)的專(zhuān)業(yè)語(yǔ)料庫(kù),語(yǔ)料庫(kù)的設(shè)計(jì)與開(kāi)發(fā)注重專(zhuān)業(yè)人士的需求,標(biāo)準(zhǔn)化和個(gè)性化的共存,在科學(xué)研究中一些語(yǔ)料庫(kù)漸漸的演變成為標(biāo)準(zhǔn)的數(shù)據(jù)格式。在中文語(yǔ)言資源聯(lián)盟中,所有的語(yǔ)料庫(kù)都是動(dòng)態(tài)的,其動(dòng)態(tài)性表現(xiàn)在以下幾個(gè)方面:庫(kù)容量隨著時(shí)間的變化不斷擴(kuò)大;每個(gè)時(shí)間段選取的語(yǔ)料數(shù)量也是變化的;語(yǔ)料的抽取是分領(lǐng)域的,通用領(lǐng)域和各專(zhuān)業(yè)領(lǐng)域的語(yǔ)料是共存的;語(yǔ)料

4、是根據(jù)媒體的流通情況抽取的。聯(lián)盟中的語(yǔ)料庫(kù)還具有流通性,所謂流通性是指語(yǔ)言現(xiàn)象在社會(huì)上的流行通用程度。流通性是一個(gè)可以量化的指標(biāo),其量值取決于文本的發(fā)行量、發(fā)行地區(qū)、發(fā)行周期等,在網(wǎng)絡(luò)時(shí)代,這個(gè)指標(biāo)可以通過(guò)網(wǎng)絡(luò)的各種統(tǒng)計(jì)增加其定義的范圍。根據(jù)語(yǔ)料庫(kù)自身的特點(diǎn),中文語(yǔ)言資源聯(lián)盟在建設(shè)過(guò)程中,是以子庫(kù)的形式表現(xiàn)其動(dòng)態(tài)性,以年為子庫(kù)的標(biāo)記形式,在一年里面還劃分通用庫(kù)和專(zhuān)業(yè)庫(kù),從而對(duì)于語(yǔ)料的選擇有很明確的時(shí)間段,對(duì)于語(yǔ)言自身在此時(shí)間段特征也有充分的表達(dá)。在語(yǔ)料的加工過(guò)程中也完整的保存其語(yǔ)言特征和時(shí)間特征。三、中文信息資源庫(kù)的布局中文語(yǔ)言資源聯(lián)盟中的資源庫(kù)涵蓋了中文信息處理技術(shù)研究領(lǐng)域的大部分技術(shù)分支。

5、現(xiàn)有的語(yǔ)料庫(kù)中有包含:漢字處理、語(yǔ)音識(shí)別與合成、機(jī)年12月,共有資源庫(kù)85套。按照資源使用性質(zhì),大致為:評(píng)測(cè)語(yǔ)料19器翻譯、信息檢索、系統(tǒng)評(píng)測(cè)及公共詞典、工具幾個(gè)大部分。截止2009套;翻譯語(yǔ)料13套;詞典、人名、地名7套;分詞、句法標(biāo)注語(yǔ)料2套;語(yǔ)音識(shí)別20套;語(yǔ)音合成2套;自然口語(yǔ)語(yǔ)料庫(kù)12套;雙語(yǔ)語(yǔ)料庫(kù)5套;其他4套。在語(yǔ)料庫(kù)的管理過(guò)程中,根據(jù)每年資源共享的情況,根據(jù)中文信息技術(shù)研究發(fā)展的趨勢(shì),結(jié)合國(guó)際上自然語(yǔ)言處理的戰(zhàn)略發(fā)展趨勢(shì),中文信息資源聯(lián)盟每年對(duì)下一年的語(yǔ)料庫(kù)建設(shè)提出新的戰(zhàn)略設(shè)想,有組織有目的的收集和建設(shè)一些語(yǔ)料庫(kù)。這些語(yǔ)料庫(kù),有的是動(dòng)態(tài)擴(kuò)展的語(yǔ)料資源,有些則是根據(jù)技術(shù)發(fā)展的需要

6、新建的,也會(huì)有一些按照用戶(hù)的需求定制的語(yǔ)料。圖二:2005年-2009年資源建設(shè)分布四、共享應(yīng)用服務(wù)中文信息基礎(chǔ)資源庫(kù)在全球范圍內(nèi)提供服務(wù)。服務(wù)采用會(huì)員制管理模式。會(huì)員共享資源為分級(jí)共享,以重點(diǎn)項(xiàng)目承擔(dān)單位為核心級(jí)使用者,以下可以劃分為院內(nèi)研究機(jī)構(gòu)、國(guó)內(nèi)研究機(jī)構(gòu)、院內(nèi)企業(yè)、國(guó)內(nèi)企業(yè)、國(guó)外研究機(jī)構(gòu)、國(guó)外企業(yè)及研究愛(ài)好者。各個(gè)級(jí)別的用戶(hù)按照一定的使用規(guī)則取得數(shù)據(jù)庫(kù)的分級(jí)使用權(quán)。使用者也可以按照語(yǔ)料庫(kù)的規(guī)范和標(biāo)準(zhǔn)上載共享數(shù)據(jù),經(jīng)過(guò)質(zhì)量評(píng)測(cè),一旦納入本數(shù)據(jù)庫(kù),那么該使用者的共享級(jí)別也會(huì)按照規(guī)則上升。在中文語(yǔ)言資源聯(lián)盟中,具有一定量的資源庫(kù)可供用戶(hù)免費(fèi)使用,一部分的資源庫(kù)則根據(jù)資源的使用用途(商業(yè)性質(zhì)還

7、是非商業(yè)性質(zhì)),收取一定的費(fèi)用,其費(fèi)用主要用于資源庫(kù)的進(jìn)一步建設(shè)與發(fā)展。聯(lián)盟鼓勵(lì)相關(guān)單位將各自的數(shù)據(jù)庫(kù)進(jìn)行共享,通過(guò)聯(lián)盟的平臺(tái)進(jìn)行會(huì)員之間進(jìn)行的交換或付費(fèi)使用)。資源共享平臺(tái),能夠提供資源的實(shí)時(shí)管理,用戶(hù)分級(jí)和分類(lèi)處理,支持大規(guī)模的數(shù)量傳輸能力。同時(shí)提供資源共享過(guò)程中各種法律文書(shū)的管理功能。為了使中文信息基礎(chǔ)資源庫(kù)提供廣泛的服務(wù),資源共享平臺(tái)提出了一套完整的數(shù)據(jù)收集、存儲(chǔ)的規(guī)范和標(biāo)準(zhǔn)。每個(gè)語(yǔ)料庫(kù)包含的標(biāo)準(zhǔn)信息為:資源介紹、標(biāo)注規(guī)范、技術(shù)文檔和實(shí)例下載。資源介紹中包含的標(biāo)準(zhǔn)信息有:資源名稱(chēng)、資源簡(jiǎn)述、單位名稱(chēng)、開(kāi)發(fā)時(shí)間、資源規(guī)模;標(biāo)注規(guī)范中包含的標(biāo)準(zhǔn)信息有:資源簡(jiǎn)介、數(shù)據(jù)校對(duì)規(guī)則、標(biāo)注工具、標(biāo)注

8、信息、標(biāo)注規(guī)則、標(biāo)注注意事項(xiàng);技術(shù)文檔中包含的標(biāo)準(zhǔn)信息有:資源名稱(chēng)、資源持有者、資源創(chuàng)建時(shí)間、資源建立目的、語(yǔ)料庫(kù)結(jié)構(gòu)、技術(shù)參數(shù)、執(zhí)行標(biāo)準(zhǔn);實(shí)例下載提供語(yǔ)料庫(kù)規(guī)模5%左右的數(shù)據(jù)作為提供給用戶(hù)免費(fèi)下載。五、發(fā)展趨勢(shì)中文信息基礎(chǔ)資源庫(kù)的建設(shè)是一個(gè)長(zhǎng)期的任務(wù),目前的資源庫(kù)的規(guī)模和管理模式奠定了良好的基礎(chǔ)。在此基礎(chǔ)上,憑借基礎(chǔ)資源平臺(tái)的系統(tǒng)性、規(guī)范性和科學(xué)性吸引更多的資金和更多的資源加盟,實(shí)現(xiàn)其滾動(dòng)式發(fā)展,從而建成國(guó)際上最系統(tǒng)最完整的中文信息基礎(chǔ)資源庫(kù)。中文信息基礎(chǔ)資源庫(kù)本著開(kāi)放、共享、發(fā)展的原則,在世界范圍內(nèi)征集與中文信息處理技術(shù)發(fā)展相關(guān)的數(shù)據(jù)資源和語(yǔ)料庫(kù)。同時(shí),根據(jù)用戶(hù)的需求,自行開(kāi)發(fā)和建設(shè)新的語(yǔ)料庫(kù)。為了宣傳中文信息處理技術(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論