信息組織中的自然語言_第1頁
信息組織中的自然語言_第2頁
信息組織中的自然語言_第3頁
信息組織中的自然語言_第4頁
信息組織中的自然語言_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

信息組織中的自然語言第一頁,共二十五頁,2022年,8月28日一、自然語言的演化與發(fā)展

檢索語言廣義而言,檢索語言包括受控語言和自然語言語言兩類語言系統(tǒng)。狹義而言,檢索語言包括規(guī)范的受控語言。第二頁,共二十五頁,2022年,8月28日檢索語言的演化與發(fā)展前信息檢索階段的自然語言原生態(tài)的自然語言是前信息檢索階段的原始的“檢索語言”。規(guī)范的受控語言

如分類表、標(biāo)題表、單元詞表、敘詞表、分類主題一體化詞表。受控語言向自然語言“回歸”

自然語言的應(yīng)用是以計(jì)算機(jī)為前提的;在對(duì)詞匯控制的科學(xué)性上、規(guī)范化程度上以及方法上等方面的進(jìn)步,使自然語言成為現(xiàn)代信息檢索,尤其是網(wǎng)絡(luò)信息檢索的主流保障語言。第三頁,共二十五頁,2022年,8月28日檢索系統(tǒng)中檢索語言的應(yīng)用變化基于印刷型文獻(xiàn)的手工檢索以受控語言(分類法、主題法)為主?;跀?shù)據(jù)庫的計(jì)算機(jī)檢索受控語言和自然語言結(jié)合?;诰W(wǎng)絡(luò)的信息檢索以自然語言為主。第四頁,共二十五頁,2022年,8月28日二、自然語言的優(yōu)缺點(diǎn)優(yōu)點(diǎn)(VS受控語言)缺點(diǎn)(VS受控語言)結(jié)論第五頁,共二十五頁,2022年,8月28日

優(yōu)點(diǎn)可以降低標(biāo)引難度及成本,從而提高標(biāo)引速度采用用戶熟悉的自然語言,符合用戶檢索習(xí)慣,減少了概念轉(zhuǎn)換中產(chǎn)生的失真現(xiàn)象,專指度強(qiáng)由于自然語言標(biāo)引檢索多采用自動(dòng)處理方式,省略了編制詞表和詞匯的智力負(fù)擔(dān)自然語言標(biāo)引檢索入口詞多,有利于提高檢全率操作簡單方便,靈活,比較適合沒有專業(yè)知識(shí)的廣大網(wǎng)絡(luò)用戶使用等第六頁,共二十五頁,2022年,8月28日缺點(diǎn)由于自然語言對(duì)標(biāo)引用詞不加嚴(yán)格控制,必然會(huì)形成非關(guān)鍵性詞語的大量出現(xiàn),影響檢準(zhǔn)率的提高由于不能反映概念詞間的一一對(duì)應(yīng)關(guān)系,也不能反映概念關(guān)系的隱含性,無法排除同義詞、近義詞、多義詞等詞間的模糊現(xiàn)象,勢必也會(huì)直接影響到檢全率的提高第七頁,共二十五頁,2022年,8月28日結(jié)論自然語言和受控語言都有各自獨(dú)特的優(yōu)點(diǎn)和缺點(diǎn),不能簡單彼此替代,而應(yīng)當(dāng)相互補(bǔ)充、交融針對(duì)上述自然語言及其檢索中存在的這些問題一方面要依靠計(jì)算機(jī)技術(shù)和自然語言處理技術(shù)的突破發(fā)展;另一方面受控語言的基本原理――對(duì)詞匯的控制,是永遠(yuǎn)不會(huì)被省略的,變化的只是詞匯控制的方式、方法和手段。第八頁,共二十五頁,2022年,8月28日三、自然語言與自然語言處理

(一)自然語言處理

(二)自然語言在信息組織和檢索中的應(yīng)用第九頁,共二十五頁,2022年,8月28日(一)自然語言處理自然語言處理是自然語言得以應(yīng)用所要解決的首要的核心問題自然語言處理是人工智能領(lǐng)域的一個(gè)重要分支,它主要研究計(jì)算機(jī)對(duì)輸入的自然語言文本的分析、理解和生成,旨在建立人與計(jì)算機(jī)之間友好的交流通道,實(shí)現(xiàn)更高層次的信息交互自然語言處理(NaturalLanguageProcessing,簡稱NLP)是實(shí)現(xiàn)自然語言理解的核心基礎(chǔ),是語言信息處理的一個(gè)重要分支自然語言處理追求的目標(biāo)是計(jì)算機(jī)是如何來理解一個(gè)句子和領(lǐng)會(huì)一個(gè)文檔所要表述的意思第十頁,共二十五頁,2022年,8月28日continued由于自然語言十分復(fù)雜,人是如何理解語言的,也還是個(gè)謎,因此給“理解”下一個(gè)定義極其困難從信息處理的角度看,語言既然是信息的載體,如果計(jì)算機(jī)實(shí)現(xiàn)了機(jī)器翻譯、自動(dòng)文摘以及人機(jī)會(huì)話等語言信息處理功能,則認(rèn)為計(jì)算機(jī)具備了理解自然語言的能力。自然語言處理的核心技術(shù)主要是解決自然語言的歧義問題關(guān)鍵問題:如何建立大規(guī)模知識(shí)庫。

第十一頁,共二十五頁,2022年,8月28日語言學(xué)上對(duì)語言的層次劃分

第一層次語音和文字,即基本語言信號(hào)的構(gòu)成。第二層次詞法和句法(合稱“語法”),即語言基本運(yùn)用單位的構(gòu)成和組合的形式規(guī)律。第三層次語義,即語言所要表達(dá)的概念結(jié)構(gòu)。第四層次語用,即語言與語言使用環(huán)境的相互作用。第十二頁,共二十五頁,2022年,8月28日自然語言處理研究內(nèi)容的基礎(chǔ)部分

語法分析(SyntacticUnderstanding)語義分析(SemanticUnderstanding)語用分析(PragmaticUnderstanding)例如:“湯姆給了瑪麗一本大書?!钡谑?,共二十五頁,2022年,8月28日語法層分析根據(jù)語言的語法,單詞可以組成不同的詞組,詞組可以包含不同的角色。單詞角色湯姆人名給動(dòng)詞瑪麗人名一冠詞大的形容詞書名詞第十四頁,共二十五頁,2022年,8月28日等級(jí)表示語法結(jié)構(gòu)第十五頁,共二十五頁,2022年,8月28日語義層分析語義結(jié)構(gòu)(句子各個(gè)部分之間的聯(lián)系)

第十六頁,共二十五頁,2022年,8月28日知識(shí)裝飾下的豐富的語法結(jié)構(gòu)

第十七頁,共二十五頁,2022年,8月28日擴(kuò)展的語義結(jié)構(gòu)第十八頁,共二十五頁,2022年,8月28日計(jì)算機(jī)產(chǎn)生的語義結(jié)構(gòu)

第十九頁,共二十五頁,2022年,8月28日語境層分析例1:“Couldyouturnthelighton?”“語境語義”--“Pressthelightswitch.”“句子的語義”--“Areyoucapableofachievingtoincreasetheamountoflight?”(句子脫離語言環(huán)境,本身的所表示的語義)第二十頁,共二十五頁,2022年,8月28日例2:“Itisdarkinhere.”語境語義--“Lightisweakhere.”句子語義--“Pressthelightswitch.”第二十一頁,共二十五頁,2022年,8月28日

語義和語境含義之間的匹配

第二十二頁,共二十五頁,2022年,8月28日(二)自然語言在信息組織和檢索中的應(yīng)用

自然語言檢索,從技術(shù)上講,就是將自然語言處理技術(shù)應(yīng)用于信息檢索系統(tǒng)的信息的組織、標(biāo)引和輸出具體地,漢語自動(dòng)分詞和自動(dòng)標(biāo)引、單漢字標(biāo)引、自動(dòng)文摘、全文檢索等都是自然語言在信息組織和檢索中的具體應(yīng)用漢語的機(jī)械分詞法、單漢字標(biāo)引(未介入自然語言理解的成分)?;诶斫獾淖詣?dòng)標(biāo)引技術(shù)、自動(dòng)文摘技術(shù)(應(yīng)用了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論