自然語(yǔ)言處理的知識(shí)組織.doc_第1頁(yè)
自然語(yǔ)言處理的知識(shí)組織.doc_第2頁(yè)
自然語(yǔ)言處理的知識(shí)組織.doc_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

客觀知識(shí)是知識(shí)組織的對(duì)象,客觀知識(shí)都是用一定形式的語(yǔ)言表達(dá)出來(lái)的,語(yǔ)言是知識(shí)的直接承擔(dān)者,可見(jiàn),語(yǔ)言與知識(shí)組織之間存在著密切聯(lián)系。自然語(yǔ)言是表達(dá)客觀知識(shí)最直觀、最普遍的方式,因此,如何對(duì)自然語(yǔ)言進(jìn)行處理,使其更好地為知識(shí)組織服務(wù),是知識(shí)組織領(lǐng)域需要著重研究的一個(gè)問(wèn)題。利用文字和語(yǔ)言表達(dá)思想的能力是人類與其他動(dòng)物的主要區(qū)別之一,而自然語(yǔ)言是現(xiàn)實(shí)的所有表達(dá)方式中最強(qiáng)有力的。在知識(shí)組織中,自然語(yǔ)言是指用原有作者或用戶使用的語(yǔ)言,包括關(guān)鍵詞、自由詞等,它們出現(xiàn)在文獻(xiàn)的提名、摘要、正文中。自然語(yǔ)言處理側(cè)重于計(jì)算機(jī)對(duì)句子、篇章的處理美國(guó)認(rèn)知心理學(xué)家曾提出四條準(zhǔn)則作為衡量計(jì)算機(jī)理解語(yǔ)言的標(biāo)志:1、能成功地回答輸入語(yǔ)料中的有關(guān)問(wèn)題;2、在接受一批語(yǔ)料之后,有作出該語(yǔ)料摘要的能力;3、能用不同的詞語(yǔ)復(fù)述輸入的語(yǔ)料;4、有將一種語(yǔ)言翻譯為另一種語(yǔ)言的能力。無(wú)論使用什么機(jī)器,或采用何種算法,只要具有這四種功能之一,就可以說(shuō)該機(jī)器實(shí)現(xiàn)了自然語(yǔ)言理解。計(jì)算機(jī)要理解和處理自然語(yǔ)言,必須像人一樣具有詞法、語(yǔ)義和語(yǔ)用等知識(shí)。就人自身而言,對(duì)語(yǔ)言文字信息的理解和處理大致有6個(gè)層次,與此相應(yīng)的,自然語(yǔ)言處理也有六個(gè)層次:1、語(yǔ)音學(xué)層次,對(duì)聲音的識(shí)別、理解與合成;2、形態(tài)學(xué)層次,對(duì)各種詞形和詞的可識(shí)別部分的處理,如前綴、后綴、復(fù)合詞等;3、詞匯學(xué)層次,重點(diǎn)是全詞操作和詞匯系統(tǒng)控制;4、語(yǔ)法學(xué)層次,與語(yǔ)言結(jié)構(gòu)單元的鑒別有關(guān),即對(duì)輸入的單詞序列進(jìn)行分析,看它們能否構(gòu)成合法句子,如果能則給出相應(yīng)的合法句子結(jié)構(gòu);5、語(yǔ)義學(xué)層次,對(duì)自然語(yǔ)言文本意義的識(shí)別、理解和表示,涉及各級(jí)語(yǔ)言單位(單詞、詞組、句子、句群等)所包含的意義及其在語(yǔ)言使用過(guò)程中所產(chǎn)生的意義;6、語(yǔ)用學(xué)層次,對(duì)上下文和語(yǔ)言交際環(huán)境以及背景意義和聯(lián)想意義的語(yǔ)義分析。由于自然語(yǔ)言處理側(cè)重句子、篇章,因而,語(yǔ)法分析、語(yǔ)義分析、語(yǔ)用分析構(gòu)成了自然語(yǔ)言處理的基本部分。自然語(yǔ)言處理與知識(shí)組織的關(guān)系自然語(yǔ)言處理和知識(shí)組織發(fā)生聯(lián)系與知識(shí)組織的計(jì)算機(jī)化和自然語(yǔ)言化有著直接的關(guān)系。知識(shí)組織是為了從某一知識(shí)集合中找出特定知識(shí),知識(shí)需求者構(gòu)造出合適的語(yǔ)言集合作為提問(wèn),向知識(shí)組織系統(tǒng)進(jìn)行查找。隨著這種查找過(guò)程的計(jì)算機(jī)化和自然語(yǔ)言化,這項(xiàng)工作 (構(gòu)造出合適的語(yǔ)言集合) 便從知識(shí)需求者轉(zhuǎn)移給計(jì)算機(jī)檢索系統(tǒng)內(nèi)部,從而給計(jì)算機(jī)檢索系統(tǒng)提出了更高的要求,而自然語(yǔ)言處理應(yīng)用于計(jì)算機(jī)檢索系統(tǒng)成為必要與關(guān)鍵。從知識(shí)組織的過(guò)程來(lái)看,知識(shí)組織的步驟主要包括知識(shí)源處理、提問(wèn)式處理、匹配過(guò)程、結(jié)果排序輸出。自然語(yǔ)言處理可以應(yīng)用于其中任何一個(gè)或全部步驟中,在知識(shí)源處理階段,自然語(yǔ)言處理的應(yīng)用能夠?qū)χR(shí)源進(jìn)行更精深的分析和提煉,這也是知識(shí)組織發(fā)展的必然結(jié)果。在提問(wèn)式處理階段和匹配過(guò)程階段,運(yùn)用自然語(yǔ)言處理有兩個(gè)明顯的好處:使用自然語(yǔ)言提問(wèn),一是用戶更容易表達(dá)出它們的知識(shí)需求,二是自然語(yǔ)言處理的全面應(yīng)用有利于消除一些問(wèn)題,例如,用戶的提問(wèn)未將潛在的有用信息包括在內(nèi),用詞正確卻導(dǎo)致輸出的結(jié)果與需求不匹配等(不懂這個(gè)例子)。在知識(shí)排序輸出階段,自然語(yǔ)言處理的應(yīng)用能提高知識(shí)排序的質(zhì)量,因?yàn)樗芨_切地理解用戶的需求傾向。從自然語(yǔ)言處理方面看,如前所述,知識(shí)組織是自然語(yǔ)言處理的四個(gè)應(yīng)用領(lǐng)域(哪四個(gè)?)之一,因而也構(gòu)成了其研究?jī)?nèi)容的一個(gè)方面,關(guān)系十分密切。從自然語(yǔ)言處理的六個(gè)層次的技術(shù)來(lái)看,應(yīng)用到知識(shí)領(lǐng)域多是形態(tài)學(xué)、詞匯學(xué)這兩個(gè)層級(jí)的技術(shù),屬于前者的如自動(dòng)標(biāo)引(利用計(jì)算機(jī)系統(tǒng)從擬存儲(chǔ)、檢索的事實(shí)情報(bào)或文獻(xiàn)(題目、文摘、正文)中抽取檢索標(biāo)志的過(guò)程)中的詞匯識(shí)別,屬于后者的如自動(dòng)標(biāo)引時(shí)的停用詞(停用詞主要包括英文字符、數(shù)字、數(shù)學(xué)字符、標(biāo)點(diǎn)符號(hào)及使用頻率特高的單漢字)排除、縮略語(yǔ)處理等。其他如在語(yǔ)音、語(yǔ)法、語(yǔ)義、語(yǔ)用等層次上的應(yīng)用則較少。比較特殊的是語(yǔ)用學(xué)層次,自然語(yǔ)言處理目前在這一層次上有很大困難,而知識(shí)組織領(lǐng)域采用的一些方法如知識(shí)表示、語(yǔ)義網(wǎng)等則似乎走在了前面。自然語(yǔ)言在知識(shí)組織中的應(yīng)用自然語(yǔ)言不同于分類系統(tǒng)、敘詞系統(tǒng)以及代碼系統(tǒng)等人工語(yǔ)言,它的組織用詞普遍取自文獻(xiàn)本身(提名、摘要、各級(jí)標(biāo)題、正文),只有個(gè)別的由標(biāo)引員自主賦予(即自由標(biāo)引)。知識(shí)組織的目的在于方便人們找到有用的知識(shí)和利用知識(shí),從而創(chuàng)造出更多的有用知識(shí),雖然自然語(yǔ)言很早就被納入檢索語(yǔ)言的范圍中,但在手工條件下其應(yīng)用很困難,因而讓規(guī)范語(yǔ)言占了上風(fēng)。隨著情報(bào)組織、信息組織向知識(shí)組織的過(guò)渡,以及計(jì)算機(jī)的廣泛應(yīng)用和知識(shí)數(shù)量的急劇增加,使得規(guī)范語(yǔ)言的缺陷日益暴露,而自然語(yǔ)言的應(yīng)用則成為可能和趨勢(shì)。在知識(shí)組織中使用自然語(yǔ)言具有許多優(yōu)點(diǎn):1、符合客觀需要,可以不受限制地隨時(shí)加入新詞,輸入成本低;2、適應(yīng)全庫(kù)內(nèi)容組織,相對(duì)于受控語(yǔ)言易用性強(qiáng),檢索簡(jiǎn)便;3、不存在人為標(biāo)引誤差(來(lái)自于文獻(xiàn)本身),完全是專指的;4、對(duì)新詞不存在延遲,可以跟蹤科學(xué)發(fā)展,加快知識(shí)組織的進(jìn)度;5、能夠有效地、精確地組織單個(gè)詞語(yǔ)、人名、組織等;6、可以為高級(jí)組織提供可能,比受控語(yǔ)言統(tǒng)一性好但與人工語(yǔ)言相比,在知識(shí)組織中使用自然語(yǔ)言也存在一些弊端,主要包括:1、自然語(yǔ)言中充滿詞語(yǔ)的多義性和句子的歧義性,人工處理時(shí)可以通過(guò)考察和聯(lián)系上下文予以解決,但在自然語(yǔ)言處理中則難于控制;2、自然語(yǔ)言的語(yǔ)法和語(yǔ)義表達(dá)千變?nèi)f化,不可能用一種簡(jiǎn)單而通用的模式加以描述,而人工語(yǔ)言的語(yǔ)義則可以由人來(lái)直接定義;3、自然語(yǔ)言的句子結(jié)構(gòu)復(fù)雜多樣,缺少一致性,而人工語(yǔ)言的結(jié)構(gòu)則相對(duì)簡(jiǎn)單;4、自然語(yǔ)言的結(jié)構(gòu)和語(yǔ)義之間有著千絲萬(wàn)縷的、錯(cuò)綜復(fù)雜的聯(lián)系,一般不存在一一對(duì)應(yīng)的同構(gòu)關(guān)系,而人工語(yǔ)言的結(jié)構(gòu)和語(yǔ)義之間 有著整齊的一一對(duì)應(yīng)的同構(gòu)關(guān)系,常常可以對(duì)結(jié)構(gòu)和語(yǔ)義分別進(jìn)行處理。由于自然語(yǔ)言具有上述獨(dú)特性質(zhì),使得自然語(yǔ)言成為知識(shí)組織的一個(gè)重要問(wèn)題,正是由于自然語(yǔ)言不受規(guī)范化的控制,不能反映概念語(yǔ)詞之間的一一對(duì)應(yīng)關(guān)系,也不能反映概念關(guān)系的隱含性,因此,在實(shí)際操作中通常對(duì)自然語(yǔ)言采取一些輔助措施(如使用后控詞表),以彌補(bǔ)其缺陷。將自然語(yǔ)言處理技術(shù)應(yīng)用于知識(shí)組織,將會(huì)使知識(shí)組織的語(yǔ)言更加靈活,從而更好地滿足用戶的知識(shí)需求,實(shí)現(xiàn)知識(shí)組織的目的。自然語(yǔ)言處理在知識(shí)組織中的應(yīng)用1、規(guī)范語(yǔ)言組織系統(tǒng)的自然語(yǔ)言化。兩種:一是向規(guī)范語(yǔ)言組織系統(tǒng)中增補(bǔ)大量的自然語(yǔ)言入口詞,二是在規(guī)范語(yǔ)言組織系統(tǒng)的前端增設(shè)一個(gè)自然語(yǔ)言接口。兩種方法都可在標(biāo)引和組織階段使用自然語(yǔ)言,而知識(shí)組織系統(tǒng)仍然為嚴(yán)密的規(guī)范語(yǔ)言所控制。自然語(yǔ)言接口在技術(shù)上并不復(fù)雜,目前的主要問(wèn)題是缺乏自然語(yǔ)言與知識(shí)組織的對(duì)應(yīng)轉(zhuǎn)換詞典,包括漢語(yǔ)的對(duì)應(yīng)轉(zhuǎn)換詞典和外語(yǔ)與漢語(yǔ)的對(duì)應(yīng)轉(zhuǎn)換詞典。這種對(duì)應(yīng)轉(zhuǎn)換詞典以專業(yè)性的比較適應(yīng),綜合性的不僅編制困難,而且使用效果也不理想。實(shí)際上是對(duì)傳統(tǒng)規(guī)范語(yǔ)言組織系統(tǒng)的改良,雖然加入了自然語(yǔ)言及其處理技術(shù),但卻并未改變其規(guī)范語(yǔ)言組織系統(tǒng)的性質(zhì)。2、知識(shí)組織與自然語(yǔ)言處理的有機(jī)融合。也分為兩種:一是在無(wú)標(biāo)引的知識(shí)組織系統(tǒng)中,以關(guān)鍵字、詞、詞組作為組織用語(yǔ),在文本中直接進(jìn)行匹配查找,這種方式實(shí)際上就是融入了自然語(yǔ)言處理技術(shù)的全文檢索;二是在知識(shí)組織系統(tǒng)中,標(biāo)引時(shí)采用自動(dòng)標(biāo)引、抽詞標(biāo)引或賦詞標(biāo)引,目的是賦予知識(shí)以自然語(yǔ)言標(biāo)引詞,以便在對(duì)知識(shí)進(jìn)行組織時(shí)直接用自然語(yǔ)言進(jìn)行匹配查找。將自然語(yǔ)言處理技術(shù)有機(jī)地融入知識(shí)組織中,從而產(chǎn)生了一種與規(guī)范語(yǔ)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論