自然語言理解_第1頁
自然語言理解_第2頁
自然語言理解_第3頁
自然語言理解_第4頁
自然語言理解_第5頁
已閱讀5頁,還剩104頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

自然語言理解第一頁,共一百零九頁,編輯于2023年,星期二10.1語言及其理解的一般問題

(GeneralIssuesofLanguageandItsUnderstanding)

10.1.1

語言與語言理解

語言是用于傳遞信息的表示方法、約定和規(guī)則的集合,它由語句組成,每個語句又由單詞組成;組成語句和語言時,應(yīng)遵循一定的語法與語義規(guī)則。要研究自然語言理解,必須對自然語言的構(gòu)成有個基本認(rèn)識。語言的構(gòu)成框圖如圖10.1所示第二頁,共一百零九頁,編輯于2023年,星期二

語言

詞匯語法

詞熟語詞法句法詞素構(gòu)詞法詞組構(gòu)造法造句法構(gòu)形法圖10.1

語言的構(gòu)成圖第三頁,共一百零九頁,編輯于2023年,星期二從微觀上講,語言理解是指從自然語言到機(jī)器(計(jì)算機(jī)系統(tǒng))內(nèi)部之間的一種映射。從宏觀上看,語言理解是指機(jī)器能夠執(zhí)行人類所期望的某些語言功能。這些功能包括:回答有關(guān)提問;提取材料摘要;不同詞語敘述;不同語言翻譯。第四頁,共一百零九頁,編輯于2023年,星期二

怎樣才算理解了語言呢?歸納起來主要有以下幾個方面:能夠理解句子的正確詞序規(guī)則和概念,又能理解不含規(guī)則的句子知道詞的確切含義、形式、詞類及構(gòu)詞法了解詞的語義分類以及詞的多義性和歧義性指定和不定特性及所有(隸屬)特性問題領(lǐng)域的結(jié)構(gòu)知識和時間概念語言的語氣信息和韻律表現(xiàn)有關(guān)語言表達(dá)形式的文學(xué)知識論域的背景知識第五頁,共一百零九頁,編輯于2023年,星期二Googletranslate你得藏在一個你看得見他,可是他看不見你的地方Y(jié)ouhavehiddenintheoneyouseehim,buthecouldnotseewhereyouare車臣武裝分子和世界其他地區(qū)的武裝分子是一丘之貉,應(yīng)予以合力打擊Chechenfightersandmilitantselsewhereintheworldarebirdsofafeather,shouldbetocombat胡六點(diǎn)橫看成嶺側(cè)成峰,見仁見智HuWangassixdifferentangles,amatterofopinion第六頁,共一百零九頁,編輯于2023年,星期二

規(guī)則翻譯是傻子統(tǒng)計(jì)翻譯是瘋子第七頁,共一百零九頁,編輯于2023年,星期二10.1.2自然語言理解的一般問題(1)自然語言:是指人類種族集團(tuán)的本族語言,是我們?nèi)粘J褂玫恼Z言八大語系漢藏語系、印歐語系、亞非語系、阿爾泰語系、烏拉爾語系、尼日爾-剛果語系、馬來-玻里尼西語系和德拉維達(dá)語系。5600多種不同的語言和方言使用人口最多的語言有漢語、英語、俄語、日語、法語和德語等。自然語言是相對于人工語言(程序設(shè)計(jì)語言)而言的。語言是思維的載體,是人際交流的重要工具。第八頁,共一百零九頁,編輯于2023年,星期二我國八大方言1.北方方言2.吳方言3.湘方言4.贛方言5.客家方言6.閩北方言7.閩南方言8.粵方言

海南方言第九頁,共一百零九頁,編輯于2023年,星期二第十頁,共一百零九頁,編輯于2023年,星期二第十一頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(2)自然語言自然語言:人類交流的語言,口語、書面語、手語、旗語等人造語言:機(jī)器語言,包括C++,BASIC,世界語等

到目前為止的人類知識有80%以上使用自然語言文字記載下來的。但將來,可能用計(jì)算機(jī)語言形式記載的知識將會越來越多。因此說,語言信息處理技術(shù)和每年所處理的信息總量已成為衡量一個國家現(xiàn)代化水平的重要標(biāo)志之一。相比較人工智能其它領(lǐng)域,自然語言理解是難度大,進(jìn)展小的。至今為止未能達(dá)到很高的水平。

第十二頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(3)自然語言理解520.2020(計(jì)算語言學(xué)740.3550)是人工智能領(lǐng)域的重要分支,也是一個極其活躍的研究領(lǐng)域什么是“理解”?從微觀上來說,理解是指從自然語言到機(jī)器內(nèi)部表示之間的一種映射從宏觀上講,理解是指能夠完成我們所希望的一些功能與“智能”一樣,存在各種各樣的理解和解釋。利用計(jì)算機(jī)對自然語言進(jìn)行理解第十三頁,共一百零九頁,編輯于2023年,星期二自然語言理解分為兩個方面:書面語理解和口語理解書面語理解將文字輸入計(jì)算機(jī)計(jì)算機(jī)識別和理解文字、詞、短語、句子、段落和篇章按指定的目標(biāo)作出相應(yīng)的回答或反映口語理解用口語對計(jì)算機(jī)講話計(jì)算機(jī)識別和理解語音輸入,把語音流變換為文字流然后按書面語理解最后利用語音合成將回答轉(zhuǎn)換成聲音輸出第十四頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(4)自然語言“理解”的準(zhǔn)則:美國認(rèn)知心理學(xué)家G.M.Ulson提出判別計(jì)算機(jī)是否理解自然語言的四條標(biāo)準(zhǔn)給計(jì)算機(jī)輸入一段自然語言文本,如果計(jì)算機(jī)能問答(question-answering)-機(jī)器能正確地回答輸入文本中的有關(guān)問題;文摘生成(summarizing)-機(jī)器有能力產(chǎn)生輸入文本的摘要;釋義(paraphrase)-機(jī)器用不同的詞語和語句復(fù)述輸入文本;翻譯(translation)-機(jī)器把一種語言(源語言)翻譯為另一種語言(目標(biāo)語言)計(jì)算機(jī)只要達(dá)到了以上標(biāo)準(zhǔn)的一條,就可以說它能夠理解自然語言第十五頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(5)自然語言理解自然語言理解是語言信息處理技術(shù)的一個高層次的重要方向。是人工智能領(lǐng)域關(guān)注的核心問題之一。自然語言理解的困難原因:目標(biāo)表示的復(fù)雜性映射類型的多樣性源表示中各元素間交互程度的差異性第十六頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(6)語言學(xué)的研究自然語言理解是哲學(xué)(philosophy),語言學(xué)(linguistics),語言心理學(xué)(psycholinguistics),認(rèn)知科學(xué)(cognitivescience),計(jì)算機(jī)科學(xué)(computerscience),數(shù)學(xué)(mathematics),邏輯學(xué)(logic)及相關(guān)學(xué)科發(fā)展和結(jié)合而形成的一門交叉學(xué)科。第十七頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(7)語言學(xué)的研究語言學(xué)家:只關(guān)心詞組成短語,短語組成句子,句法如何。即語言理論哲學(xué)家:詞怎么能表示萬物萬事。如何用詞來描述。心理學(xué)家:語言產(chǎn)生的機(jī)制,人怎么能理解句子的意思。神經(jīng)網(wǎng)絡(luò)。計(jì)算語言學(xué)家:用數(shù)據(jù)結(jié)構(gòu)、數(shù)學(xué)模型把哲學(xué)、心理學(xué)、語言學(xué)等語言分科的知識進(jìn)行表示,用恰當(dāng)?shù)乃惴ㄗR別句子的結(jié)構(gòu),完成自然語言相關(guān)的各項(xiàng)任務(wù)。第十八頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(8)語言學(xué)的研究-理解的層次語音分析:找出最小可獨(dú)立的聲音單元----音素詞法分析:找出詞匯的各個詞素(詞根),從中獲得語言學(xué)信息例:我們研究所有東西;把手放在桌上我們--研究所--有--東西 (交叉歧義)我們--研究--所有--東西把--手--放在--桌上 (組合歧義)把手--放在--桌上第十九頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(9)語言學(xué)的研究-理解的層次句法分析:對句子和短語的結(jié)構(gòu)進(jìn)行分析,找出詞、短語等的相互關(guān)系以及各自在句子中的作用等。在語言自動處理的研究中,句法分析的研究是最為集中的,這與喬姆斯基(Chomsky)的貢獻(xiàn)是分不開的。主要方法有:短語結(jié)構(gòu)語法、格語法、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)、功能語法等。語法分析:將單詞之間的線性次序變換成一個顯示單詞如何與其它單詞相關(guān)聯(lián)的結(jié)構(gòu)。確定語句是否合乎語法第二十頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(10)語言學(xué)的研究-理解的層次語義分析:通過分析找出詞義,結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達(dá)的真正(實(shí)際)含義或概念。在語言自動理解中,語義越來越成為一個重要的研究內(nèi)容。(尤其是對話系統(tǒng))

你打我 我打你語用分析:研究語言所在的外界環(huán)境對語言使用所產(chǎn)生的影響。描述語言的環(huán)境知識、語言與語言使用者在某個給定語言環(huán)境中的關(guān)系。為確定真正含義,對表達(dá)的結(jié)構(gòu)重新加以解釋。(故宮、一塊)第二十一頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(11)研究目標(biāo)建立一個足夠精確的語言數(shù)學(xué)模型使計(jì)算機(jī)通過編程來完成自然語言的相關(guān)任務(wù)。如:聽、讀、寫、說,釋義,翻譯,回答問題等。通過語言索取信息,由此能力則說明該系統(tǒng)對語言已理解了。第二十二頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(12)自然語言的層次劃分及對應(yīng)技術(shù)理論層次結(jié)構(gòu)實(shí)現(xiàn)技術(shù)模板匹配、基于規(guī)則語音

模式匹配基于詞素、詞匯詞匯詞典結(jié)構(gòu)轉(zhuǎn)換生成、詞匯功能語法語法

擴(kuò)展轉(zhuǎn)移網(wǎng)絡(luò)(ATN),CF規(guī)則格語法、語義基元理論、模型理論語義

產(chǎn)生式規(guī)則、概念相依理論、腳本、框架、語義網(wǎng)絡(luò)、邏輯基于記憶的推理、語言行為理論、篇章語法語用第二十三頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(13)應(yīng)用機(jī)器翻譯或機(jī)器輔助翻譯。文本理解:將輸入文本轉(zhuǎn)換成某種數(shù)據(jù)庫格式。文本生成:根據(jù)用戶需要以某種自然語言的方式輸出儲存在計(jì)算機(jī)內(nèi)的各種信息。自然語言接口:人類直接用自然語言與數(shù)據(jù)庫、專家系統(tǒng)等進(jìn)行人機(jī)交互。……第二十四頁,共一百零九頁,編輯于2023年,星期二自然語言理解的一般問題(14)應(yīng)用網(wǎng)絡(luò)方面:信息檢索(informationretrieval),提出(extraction),過濾(filtering),分類(classification),匯總(summarization)等 如:網(wǎng)上信息檢索,電子圖書館(digitallibrary),電子商務(wù)(e-commerce)等 例:和服|務(wù)|于三日后裁制完畢。(kimonomust)這個酒店的設(shè)施|和|服務(wù)|是一流的。(andservice)未登錄詞(unknownwordprocessing): 如:高海燕(stormpetrel)

第二十五頁,共一百零九頁,編輯于2023年,星期二機(jī)器翻譯是自然語言理解最早的研究領(lǐng)域。自然語言理解的研究大體上經(jīng)歷了三個時期萌芽時期

發(fā)展時期早期:60年代以關(guān)鍵詞匹配為主流中期:70年代以句法-語義分析為主流,對語言理解對話系統(tǒng)的研究取得進(jìn)展。近期:80年代以來開始走向?qū)嵱没凸こ袒?自然語言理解的應(yīng)用研究廣泛開展,機(jī)器學(xué)習(xí)研究又十分活躍。大規(guī)模真實(shí)文本處理時期自然語言理解的研究為專家系統(tǒng)的知識獲取提供了新的途徑。自然語言理解的研究已促進(jìn)計(jì)算機(jī)輔助語言教學(xué)(CALI)和計(jì)算機(jī)語言設(shè)計(jì)(CLD)等的發(fā)展。比較成功的系統(tǒng)處理都是受限的自然語言子集句法受限:句子結(jié)構(gòu)的復(fù)雜性方面受到限制語義受限/領(lǐng)域受限:所表達(dá)的事物的數(shù)量方面受到限制10.1.3

自然語言理解研究的進(jìn)展

第二十六頁,共一百零九頁,編輯于2023年,星期二60年代以關(guān)鍵詞匹配為主流特點(diǎn):沒有真正意義上的語法分析,主要依靠關(guān)鍵詞匹配技術(shù)來識別輸入句子的意義在系統(tǒng)中事先存放了大量包含某些關(guān)鍵詞的模式,每個模式與一個或多個解釋(響應(yīng)式)相對應(yīng)。每當(dāng)輸入一個句子,系統(tǒng)便查找與之匹配的模式,一旦匹配成功,系統(tǒng)就輸出相應(yīng)的解釋,不考慮其他成分對句子意義的影響是一種近似匹配技術(shù),輸入句子可以不準(zhǔn)循語法,但是也容易導(dǎo)致錯誤第二十七頁,共一百零九頁,編輯于2023年,星期二系統(tǒng)中事先存放了大量包含關(guān)鍵字的模式,每個模式都和一個解釋相對應(yīng)。待理解句子輸入系統(tǒng),系統(tǒng)將句子與模式逐個匹配,一旦匹配成功便立刻得到對應(yīng)的解釋。如:人-機(jī)接口系統(tǒng)(列車數(shù)據(jù)庫查詢系統(tǒng))模式:<車次>經(jīng)過<處所>嗎?解釋:詢問<車次>是否經(jīng)過<處所>,執(zhí)行查詢指令,如SQL語句問題:571次經(jīng)過金華嗎?第二十八頁,共一百零九頁,編輯于2023年,星期二70年代句法語義分析為主流采用句法-語義分析技術(shù)句法分析識別構(gòu)成句子的各個成分以及它們之間的相互關(guān)系,例如確定每個動詞的主語和賓語,以及每個修飾性的詞或短語所修飾的成分。分析結(jié)果一般是句子的一棵分析樹。語義分析根據(jù)輸入句子的句法結(jié)構(gòu)和句中每個實(shí)詞的詞義推導(dǎo)出能反映這個句子意義的某種形式化表示。結(jié)果可以是邏輯表達(dá)式、語義網(wǎng)絡(luò)或其它一些復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。第二十九頁,共一百零九頁,編輯于2023年,星期二典型例子LUNAR允許用普通英語和數(shù)據(jù)庫對話的人機(jī)接口句法分析語義解釋數(shù)據(jù)檢索ATN語法詞典語義規(guī)則數(shù)據(jù)庫第三十頁,共一百零九頁,編輯于2023年,星期二80年代以來的實(shí)用化和工程化主要特點(diǎn)是開始走向?qū)嵱没凸こ袒?。其重要?biāo)志之一是有一批商品化的自然語言人機(jī)接口系統(tǒng)和機(jī)器翻譯系統(tǒng)推向了市場。1990年8月,13屆國際計(jì)算語言學(xué)大會,首次提出了處理大規(guī)模真實(shí)文本的戰(zhàn)略目標(biāo)。語料庫語言學(xué)興起,它順應(yīng)了大規(guī)模真實(shí)文本處理的需求,提出了以計(jì)算機(jī)語料庫為基礎(chǔ)的語言學(xué)研究及自然語言處理新思路。句法-語義分析為主的思想來自于規(guī)則的方法,而規(guī)則不可能把所有的知識表示出來自然語言在數(shù)量上浩瀚無際在性質(zhì)上具有不確定性和模糊性。第三十一頁,共一百零九頁,編輯于2023年,星期二語料庫語言學(xué)(corpuslinguistics)語言學(xué)知識的源泉是大規(guī)?;钌恼Z料,要想讓計(jì)算機(jī)理解自然語言,首先要讓計(jì)算機(jī)能從庫存的大規(guī)模語料中自動或半自動地獲取語言理解所需的各種知識,對語言現(xiàn)象作出客觀的、細(xì)致的描述。目前采用的主要手段是建立各種統(tǒng)計(jì)模型,可用于詞類的自動標(biāo)注,以及句法語義的更高層次的分析。該方法可以和規(guī)則方法相互補(bǔ)充。第三十二頁,共一百零九頁,編輯于2023年,星期二在當(dāng)今計(jì)算技術(shù)條件下,要想把處理自然語言所需要的知識都用現(xiàn)有的知識表示技術(shù)明確表達(dá)出來,是不可能的。這既是由于這種知識的“數(shù)量”巨大,有時由于它們在“質(zhì)”的方面高度的不確定性和模糊性。最近十幾年來新提出的語料庫語言學(xué),它順應(yīng)了大規(guī)模真實(shí)文本處理的需要,提出了以計(jì)算機(jī)語料庫為基礎(chǔ)的語言學(xué)研究及自然語言處理的新思想?!?/p>

第三十三頁,共一百零九頁,編輯于2023年,星期二基于語料庫的處理思想能夠在工程上、在寬廣的語言覆蓋面上解決大規(guī)模真實(shí)文本處理這一極其艱巨的課題,對傳統(tǒng)的處理方法的一個強(qiáng)有了的補(bǔ)充。新型的智能計(jì)算機(jī)和多媒體計(jì)算機(jī)均要求設(shè)計(jì)出更為友好的人機(jī)界面,使自然語言、文字、圖像和聲音等信號都能直接輸入計(jì)算機(jī)。要求計(jì)算機(jī)能以自然語言與人進(jìn)行對話交流,就需要計(jì)算機(jī)具有自然語言能力,尤其是口語理解和生成能力。第三十四頁,共一百零九頁,編輯于2023年,星期二漢語機(jī)器理解研究的發(fā)展1956年開始俄漢機(jī)譯系統(tǒng)的研究,1959年完成,采用的技術(shù)主要是詞對詞翻譯和模式匹配。1978年后開始了真正意義上的漢語理解研究,經(jīng)過二十幾年的發(fā)展,在漢語的句法和語義分析、各級語言單位的語義表示與獲取、歧義消解等方面都取得了進(jìn)展,并建立了一批實(shí)驗(yàn)系統(tǒng),其中一些系統(tǒng)已經(jīng)實(shí)用化、商品化。目前國內(nèi)開展此項(xiàng)研究的單位北京大學(xué)(俞士汶)清華大學(xué)(黃昌寧、周明)東北大學(xué)(姚天順)山西大學(xué)(劉開瑛、郭炳炎)哈工大(王開鑄)微軟中國研究院第三十五頁,共一百零九頁,編輯于2023年,星期二發(fā)展快的原因:計(jì)算機(jī)的發(fā)展:高速、統(tǒng)計(jì)處理。需求:機(jī)器人能聽懂人的話,與人交談,自動學(xué)習(xí)。 但是,因?yàn)樽匀徽Z言是開放集,每天都有新詞產(chǎn)生,用規(guī)則描述馬上可以找出反例。所以,很難。第三十六頁,共一百零九頁,編輯于2023年,星期二第三十七頁,共一百零九頁,編輯于2023年,星期二10.1.4

自然語言理解過程的層次

語言的分析和理解過程是一個層次化的過程,它主要包括如下四個層次:

語音分析詞法分析句法分析語義分析第三十八頁,共一百零九頁,編輯于2023年,星期二10.2詞法分析詞法分析是理解單詞的基礎(chǔ),其主要目的是從句子中切分出單詞,找出詞匯的各個詞素,從中獲得單詞的語言學(xué)信息并確定單詞的詞義例如unchangeable是由un-change-able構(gòu)成的,其詞義由這三個部分構(gòu)成。

第三十九頁,共一百零九頁,編輯于2023年,星期二

語言

詞匯語法

詞熟語詞法句法詞素構(gòu)詞法詞組構(gòu)造法造句法構(gòu)形法圖10.1

語言的構(gòu)成圖第四十頁,共一百零九頁,編輯于2023年,星期二在英語等語言中,因?yàn)閱卧~之間是以空格自然分開的,切分一個單詞很容易,所以找出句子的一個個詞匯就很方便。但是由于英語單詞有詞性、數(shù)、時態(tài)、派生、變形等變化,要找出各個詞素就復(fù)雜的多,需要對詞尾或詞頭進(jìn)行分析。如importable,它可以是im-port-able或import-able,這是因?yàn)閕m、port、able這三個都是詞素。漢語中的每個字就是一個詞素,所以要找出各個詞素是相當(dāng)容易的,但要切分出各個詞就非常困難,不僅需要構(gòu)詞的知識,還需要解決可能遇到的切分歧義。如“我們研究所有東西”??梢允恰拔覀儭芯克袞|西”,也可以是“我們—研究—所有—東西”。

第四十一頁,共一百零九頁,編輯于2023年,星期二自然語言處理的方向1歧義消除第四十二頁,共一百零九頁,編輯于2023年,星期二第四十三頁,共一百零九頁,編輯于2023年,星期二第四十四頁,共一百零九頁,編輯于2023年,星期二詞切分中的歧義固有歧義:根據(jù)不同語境所出現(xiàn)的分詞歧義例:(1)物理學(xué)是一門基礎(chǔ)科學(xué)。

物理學(xué)起來很難。 例:(2)將來的上海將有嚴(yán)重的污染。 他將來上海。組合歧義:本身并不組成一個詞,在不同語境下,產(chǎn)生不同的組合切分例:他的確切地址在這兒。 這塊肉的確切得不錯。第四十五頁,共一百零九頁,編輯于2023年,星期二詞的歧義詞性歧義:一個詞有多種詞性(兼類)例:漢語學(xué)習(xí)十分重要。(名詞) 他們努力學(xué)習(xí)漢語。(動詞)詞義歧義:一個詞有多種詞義例:紅花。(紅顏色的)

紅軍。(革命的)結(jié)構(gòu)歧義即詞組成詞組乃至句子時,由于其組成的詞或詞組間可能存在不同的語法或語義關(guān)系而出現(xiàn)的(潛在)歧義現(xiàn)象第四十六頁,共一百零九頁,編輯于2023年,星期二10.3句法分析句法分析的主要任務(wù):確定輸入句子的結(jié)構(gòu):識別句子的各個成分及其之間的關(guān)系句子結(jié)構(gòu)的規(guī)范化:目的是簡化后續(xù)處理分析自然語言的方法主要分為兩類:

基于規(guī)則的方法:如短語結(jié)構(gòu)語法和Chomsky語法體系基于統(tǒng)計(jì)的方法第四十七頁,共一百零九頁,編輯于2023年,星期二短語結(jié)構(gòu)語言定義句子:一個符號串語言:句子的集合語法:對一個句集一種有限的形式化描述描述一般語言的方法:識別器:由程序判斷讀入的符號串是不是一個句子短語結(jié)構(gòu)語法:一種基于產(chǎn)生式的形式化工具,也稱為產(chǎn)生式語法第四十八頁,共一百零九頁,編輯于2023年,星期二定義:短語結(jié)構(gòu)語法定義為:G=(T,N,S,P)T是終結(jié)符集合,即被定義的語言的所有詞匯(或符號)N是非終結(jié)符集合,這些符號用于描述語法成分,并不出現(xiàn)于句子中。則有:V=TN,TN=(空集),V是屬于該語法的全部符號。S是起始符號,它是N中的一個成員。P是一個產(chǎn)生式規(guī)則集。ab (ab,aV+,bV*)第四十九頁,共一百零九頁,編輯于2023年,星期二在短語結(jié)構(gòu)語法中,基本運(yùn)算是把一個符號串重寫為另一個符號串,每條語法規(guī)則也叫重寫規(guī)則一個句子的產(chǎn)生就是從S符號到詞匯串的推導(dǎo)過程如果一個程序能夠根據(jù)一個短語結(jié)構(gòu)語法來確定一個句子的推導(dǎo),則它可稱為一個句法分析器(parser)。語法G所定義的語言記為L(G):L(G)={W|WT*,S*GW}第五十頁,共一百零九頁,編輯于2023年,星期二刻畫語言的形式體系的強(qiáng)和弱遞歸可枚舉語言:如果有一個程序,它能以某種順序逐個地輸出(即枚舉)一種語言的句子,這種語言是遞歸可枚舉的遞歸語言:如果有一個程序,它在讀入一個符號串后能最終確定這個串是或不是某種語言的一個句子,這稱該語言是遞歸第五十一頁,共一百零九頁,編輯于2023年,星期二正則語法:正則語法有兩種形式:左線性語法:如A

a|Ba

右線性語法:如A

a|aB可以表示如下的句子:a*b*語法例子:S

a|S1

|aSS1

b|bS1與有限狀態(tài)機(jī)等價第五十二頁,共一百零九頁,編輯于2023年,星期二上下文無關(guān)語法:語法規(guī)則形式為:A

x即左邊為一非終結(jié)符,右邊沒有限制可以表示的句子如:anbn語法例子:S

a|SbS該文法應(yīng)用于程序設(shè)計(jì)語言中第五十三頁,共一百零九頁,編輯于2023年,星期二上下文有關(guān)語法:語法規(guī)則:規(guī)則右邊的符號數(shù)不能少于左邊符號數(shù)右邊的符號可以是終止符也可以是非終止符上下文有關(guān)語言是遞歸的可以表示的語言:anbncn語法例子:ABBA第五十四頁,共一百零九頁,編輯于2023年,星期二無約束短語結(jié)構(gòu)語法:語法規(guī)則是沒有限制的:左邊可以是任意多個終止符或非終止符右邊可以是任意多個終止符或非終止符該語言是遞歸可枚舉的該語言與圖靈機(jī)等價語法例子:ABC第五十五頁,共一百零九頁,編輯于2023年,星期二Chomsky體系無約束語法上下文有關(guān)語法上下文無關(guān)語法正則語法第五十六頁,共一百零九頁,編輯于2023年,星期二10.3.1句法模式匹配和轉(zhuǎn)移網(wǎng)絡(luò)

句法分析最為簡單直觀的方法------模式匹配。一個句子可以表示成:(pronoun∨(adj*noun))verb(pronoun∨(adj*noun))

這也可以用狀態(tài)轉(zhuǎn)移圖來表示,稱之為轉(zhuǎn)移網(wǎng)絡(luò)(TN,transitionnetwork),如圖10.2所示。圖中,q0,q1,…qT是狀態(tài),q0是初態(tài),qT是終態(tài)。弧上給出了狀態(tài)轉(zhuǎn)移的條件以及轉(zhuǎn)移的方向。第五十七頁,共一百零九頁,編輯于2023年,星期二圖10.2轉(zhuǎn)移網(wǎng)絡(luò)(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adj第五十八頁,共一百零九頁,編輯于2023年,星期二轉(zhuǎn)移網(wǎng)絡(luò)在自動機(jī)理論中用來表示語法。句法分析中的轉(zhuǎn)移網(wǎng)絡(luò)由結(jié)點(diǎn)和帶有標(biāo)記的弧組成,結(jié)點(diǎn)表示狀態(tài),弧對應(yīng)于符號,基于該符號,可以實(shí)現(xiàn)從一個給定的狀態(tài)轉(zhuǎn)移到另一個狀態(tài)。

第五十九頁,共一百零九頁,編輯于2023年,星期二擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)ATNATN是20世紀(jì)70年代由W.Woods提出來的ATN語法屬于一種增強(qiáng)型的上下文無關(guān)語法,即用上下文無關(guān)文法描述句子文法結(jié)構(gòu),并同時提供有效的方式將各種理解語句所需要的知識加到分析系統(tǒng)中,以增強(qiáng)分析功能,從而使得應(yīng)用ATN的句法分析程序具有分析上下文有關(guān)語言的能力。ATN主要是對轉(zhuǎn)移網(wǎng)絡(luò)中的弧附加了過程而得到的。當(dāng)通過一個弧的時候,附加在該弧上的過程就會被執(zhí)行。這些過程的主要功能是(I)對文法特征進(jìn)行賦值;(II)檢查數(shù)(number)或人稱(第一、二或三人稱)條件是否滿足,并據(jù)此允許或不允許轉(zhuǎn)移。第六十頁,共一百零九頁,編輯于2023年,星期二

擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)ATN是由一組網(wǎng)絡(luò)所構(gòu)成的,每個網(wǎng)絡(luò)都有一個網(wǎng)絡(luò)名,每條弧上的條件擴(kuò)展為條件加上操作。

ATN的每個寄存器由兩部分構(gòu)成:句法特征寄存器句法功能寄存器圖10.4所示是一個簡單的名詞短語(NP)的擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)。

第六十一頁,共一百零九頁,編輯于2023年,星期二圖10.4

名詞短語(NP)的擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.第六十二頁,共一百零九頁,編輯于2023年,星期二表示句子的框架第六十三頁,共一百零九頁,編輯于2023年,星期二轉(zhuǎn)移網(wǎng)絡(luò)(4)表示句子的框架第六十四頁,共一百零九頁,編輯于2023年,星期二表示句子的框架第六十五頁,共一百零九頁,編輯于2023年,星期二10.3.3

詞匯功能語法

LFG用一種結(jié)構(gòu)來表達(dá)特征、功能、詞匯和成分的順序。

LFG對句子的描述分為兩部分:直接成分結(jié)構(gòu)(ConstituentStructure,簡稱C-Structure);

功能結(jié)構(gòu)(FunctionalStructure,簡稱F-structure)。第六十六頁,共一百零九頁,編輯于2023年,星期二用LFG語法對句子進(jìn)行分析的過程如下:用上下文無關(guān)語法分析獲得C-structure,不考慮語法中的下標(biāo);該C-structure就是一棵直接成分樹;將各個非葉節(jié)點(diǎn)定義為變量,根據(jù)詞匯規(guī)則和語法規(guī)則中的下標(biāo),建立功能描述(一組方程式);對方程式作代數(shù)變換,求出各個變量,獲得功能結(jié)構(gòu)F-structure。第六十七頁,共一百零九頁,編輯于2023年,星期二用一個短語結(jié)構(gòu)語法對一個句子進(jìn)行語法分析,意味著尋找一個從起始符到該句子的推導(dǎo),這個推導(dǎo)一般可以表示為一棵句法樹一般一棵句法樹對應(yīng)的推導(dǎo)不是唯一的,但是如果在推導(dǎo)過程中每次總是重寫最左邊的非終止符,則稱該推導(dǎo)為最左推導(dǎo)。<SENTENCE><SUBJECT><VERBPHRASE>

Mary<VERBPHRASE>Mary<VERB><OBJECT>Maryeats<OBJECT>Maryeatscheese第六十八頁,共一百零九頁,編輯于2023年,星期二<SENTENCE>::=<SUBJECT><VERBPHRASE><SUBJECT>::=John|Marry<VERBPHRASE>::=<VERB><OBJECT><VERB>::=eats|drinks<OBJECT>::=wine|cheeseSENTENCESUBJECTVERBPHRASEVERBOBJECTeatscheeseMary第六十九頁,共一百零九頁,編輯于2023年,星期二句法分析器分為:從推導(dǎo)方向來分:自頂向下:從樹頂?shù)母Y(jié)點(diǎn)開始推導(dǎo)建立句法樹,方向是從起始符S到句子自底向上:從樹底部的葉結(jié)點(diǎn)(詞或詞類)規(guī)約,建立句法樹,方向是從句子到S從算法上分:回溯算法:每次只嘗試一種推導(dǎo),當(dāng)這種推導(dǎo)失敗時便返回以嘗試另一種推導(dǎo)并行算法:同時進(jìn)行所有的推導(dǎo)第七十頁,共一百零九頁,編輯于2023年,星期二自頂向下的回溯算法該方法逐個地枚舉推導(dǎo)直到找到一個能生成句子的推導(dǎo)一般,對具有左遞歸的語法,該方法需要增加某些測試以避免陷入死循環(huán)對于”Maryeatscheese”的句法和推導(dǎo)為:SNP+VP(1)SNP+VP(1)NPN(2)N+VP(2)VPV(3)N+V+NP(4)VPV+NP(4)N+V+N(2)第七十一頁,共一百零九頁,編輯于2023年,星期二10.4語義分析語義分析的任務(wù):輸入句子的句法結(jié)構(gòu)和句子中每個實(shí)詞的詞義推導(dǎo)出能反映該句子意義的某種形式化表示對語義現(xiàn)象作形式化處理要比句法現(xiàn)象困難得多,主要原因有語義和句法系統(tǒng)的界限很難劃清楚語義及其他認(rèn)知系統(tǒng)的界限也難以劃清楚。用于計(jì)算機(jī)語義處理的計(jì)算語義學(xué)還遠(yuǎn)未成熟第七十二頁,共一百零九頁,編輯于2023年,星期二

語義解析的步驟如下:第一步確定每個詞在句子中所表達(dá)的詞義;第二步根據(jù)已有的背景知識來確定語義。邏輯形式表達(dá)是一種框架式的結(jié)構(gòu),它表達(dá)一個特定形式的事例及其一系列附加的事實(shí),如“JackkissedJill”,可以用如下邏輯形式來表達(dá):

(PASTS1KISS-ACTION[AGENT(NAMEj1PERSON“Jack”)][THEMENAME(NAMEj2PERSON“Jill”)])第七十三頁,共一百零九頁,編輯于2023年,星期二格文法格文法是Filmore于1968年提出來的,曾經(jīng)對自然語言理解技術(shù)的發(fā)展產(chǎn)生過較大的影響,直到現(xiàn)在不少研究仍在使用格語法。因?yàn)槿藗冋J(rèn)識到格關(guān)系確實(shí)是描述語言語義(包括和語法的關(guān)系)的一種很好的形式,當(dāng)然在實(shí)際應(yīng)用過程中不可避免地要有些修改。第七十四頁,共一百零九頁,編輯于2023年,星期二格文法

格文法的特點(diǎn)是允許以動詞為中心構(gòu)造分析結(jié)果,盡管文法規(guī)則只描述句法,但分析結(jié)果產(chǎn)生的結(jié)構(gòu)卻相應(yīng)于語義關(guān)系,而非嚴(yán)格的句法關(guān)系如句子:MaryhitBill的格文法分析結(jié)果可以表示為(hit(AgentMary)(DativeBill))在格文法中,格表示的語義方面的關(guān)系,反映的是句子中包含的思想、觀念等,稱為深層格。和短語結(jié)構(gòu)語法相比,格文法對于句子的深層語義有著更好的描述。第七十五頁,共一百零九頁,編輯于2023年,星期二如果兩個句子的底層的語義關(guān)系一致,各名詞成分所代表的格關(guān)系不會發(fā)生相應(yīng)的變化。例如,被動句“BillwashitbyMary”與上述主動句具有不同的句法分析樹,但格表示完全相同。第七十六頁,共一百零九頁,編輯于2023年,星期二第七十七頁,共一百零九頁,編輯于2023年,星期二10.5真實(shí)文本的處理語料庫語言學(xué)及其特點(diǎn)

傳統(tǒng)的句法-語義分析技術(shù),所采取的主要研究方法是基于規(guī)則的方法

由于自然語言理解的復(fù)雜性,各種知識的“數(shù)量”浩瀚無際,而且具有高度的不確定性和模糊性,利用規(guī)則不可能完全準(zhǔn)確地表達(dá)理解自然語言所需的各種知識,而且,規(guī)則實(shí)際上面向語言的使用者人的,將它面向機(jī)器則分析結(jié)果始終不盡如人意。

研究語言知識所用的真實(shí)文本稱為語料,大量的真實(shí)文本即構(gòu)成語料庫

第七十八頁,共一百零九頁,編輯于2023年,星期二傳統(tǒng)的詞典通常是把各類不同的信息放入一個詞匯單元中加以解釋,包括拼音、讀音、詞形變化及派生詞、詞根、短語、時態(tài)變換的定義及說明、同義詞、反義詞、特殊用法注釋,偶爾還有圖示或插圖,包含著相當(dāng)可觀的信息存儲。但是,它還有一些不足,特別是用在自然語言理解時更顯得不夠

例如,對于名詞“樹”,傳統(tǒng)的詞典一般解釋為:一種大型的、木制的、多年生長的、具有明顯樹干的植物?;旧鲜巧衔辉~加上辨別特征。但是,這還不夠,還缺少一些信息

第一,它沒有談到樹有根,有植物纖維壁組成的細(xì)胞,甚至也沒有提及它們是生命的組織形式。但是在WordNet中,只要查一下它的上位詞“植物”,就可以找到這些信息。

第二,樹的定義沒有包括對等詞的信息,不能推測其他種類的植物存在的可能性。

第三,對于各種樹都感興趣的讀者,除了查遍詞典,沒有別的辦法。

第四,每個人對樹都有自己的認(rèn)識,而詞典的編撰者又沒有將其寫在樹的定義中。如樹包括樹皮、樹枝;樹由種子生長而成,等等。

可以看出,普通詞典中遺漏的信息中大部分是關(guān)于構(gòu)造性信息而不是事實(shí)性的信息第七十九頁,共一百零九頁,編輯于2023年,星期二WordNet是按一定結(jié)構(gòu)組織起來的義類詞典,主要特征表現(xiàn)在

第一,整個名詞組成一個繼承關(guān)系。

WordNet有著嚴(yán)格的層次關(guān)系,這樣一個單詞可以把它所有的前輩的一般性的上位詞的信息都繼承下來,可以提供全局性的語義關(guān)系,具有IS-A關(guān)系

第二、動詞是一個語義網(wǎng)

動詞大概是最難以研究的詞匯,在動詞詞典中,很少有真正的同義動詞。表達(dá)動詞的意義對任何詞匯語言學(xué)來說都是困難的。WordNet不做成分分析,而是進(jìn)行關(guān)系分析。這一點(diǎn)是計(jì)算語言學(xué)界所熱衷的課題,與以往的語義分析方法不同。這種關(guān)系討論的是動詞間的縱向關(guān)系,即詞匯蘊(yùn)涵關(guān)系

WordNet基于名詞和動詞以及其他詞性的關(guān)系進(jìn)行詞類間的縱向分析,在國際計(jì)算語言學(xué)界有很大的影響。但是,它也有不足之處,如對橫向關(guān)系還沒有考慮。

第八十頁,共一百零九頁,編輯于2023年,星期二大規(guī)模真實(shí)文本處理的數(shù)學(xué)方法主要是統(tǒng)計(jì)方法

基于語料庫的統(tǒng)計(jì)模型(如Markov模型、向量空間模型)不僅能勝任詞類的自動標(biāo)注任務(wù),而且也能夠應(yīng)用到句法和語義等更高層次的分析上來。第八十一頁,共一百零九頁,編輯于2023年,星期二漢語自動分詞由于漢語句子的最小構(gòu)成單位是字,有意義的最小單位卻是詞,而漢語詞與詞之間又沒有分割符號(英語詞和詞之間是空格)。因此,漢語理解首先要進(jìn)行漢語自動分詞??梢愿爬閮纱箢惙椒?,無詞典分詞,它完全依靠整段文章中漢字之間的搭配的頻率算出成詞可能有詞典分詞,是一種更有普遍意義的分詞方法。有詞典分詞主要有最大匹配法,逆向最大匹配法,逐詞遍歷匹配法,設(shè)立切分標(biāo)志法,以及正向最佳匹配和逆向最佳匹配法,而這些方法的一個基本思想都是要依次分出待切分串的可能最長成詞第八十二頁,共一百零九頁,編輯于2023年,星期二基于統(tǒng)計(jì)結(jié)果的分詞算法首先,根據(jù)漢語詞典(有56800條詞匯)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn):雖然詞典中的最長詞可以達(dá)到為20多個字節(jié)(十幾個漢字),但是大多數(shù)漢語詞都可以由前兩字唯一確定,這樣的詞占絕大多數(shù)(如在上述詞典中占總詞匯量的85%以上)。第八十三頁,共一百零九頁,編輯于2023年,星期二兩個首字相同的詞的個數(shù)的統(tǒng)計(jì)根據(jù)前兩字可確定的詞個數(shù) 詞總數(shù) 所占百分比(%)

1 48431 85.22

2 2801×2 9.86

3 514×3 2.71

4 118×4 0.83

5 46×5 0.40

6 30×6 0.32

7 16×7 0.20

8 6×8 0.08

9 8×9 0.13

10 5×10 0.09

14 2×14 0.05

15 3×15 0.08

18 1×18 0.03

第八十四頁,共一百零九頁,編輯于2023年,星期二機(jī)械分詞主要是在字典索引的支持下進(jìn)行的,索引結(jié)構(gòu)可以分為兩級。一級索引就用漢字內(nèi)碼,查找算法用散列方法。而二級索引采用整個詞長。第八十五頁,共一百零九頁,編輯于2023年,星期二最大匹配法。最大匹配法簡稱MM方法。其思想是:在計(jì)算機(jī)磁盤中存放一個分詞用詞典,從待切分的文本中按自左到右的順序截取一個定長的漢字串,通常為為詞典中的最大詞長,這個字符串的長度稱作最大詞長。將這個具有最大詞長的字符串與詞典中的詞進(jìn)行匹配,若匹配成功,則可確定這個字符串為詞,計(jì)算機(jī)程序的指針向后移動與給定最大詞長相應(yīng)個數(shù)的漢字,繼續(xù)進(jìn)行匹配;否則,把該字符串從右邊逐次減去一個漢字,再與詞典中的詞進(jìn)行匹配,直到成功為止。逆向最大匹配法。逆向最大匹配法簡稱RMM法。這種方法的基本原理與MM法相同,所不同的是分詞時對待切分文本的掃描方向。MM方法從待切分文本中截取字符串的方向是從左到右,而RMM方法則是從右向左。在與詞典匹配不成功時,將所截取的漢字串從左至右逐次減去一個漢字,再與詞典中的詞進(jìn)行匹配,直到匹配成功為上。實(shí)驗(yàn)表明,RMM法的切詞正確率要比MM法高

第八十六頁,共一百零九頁,編輯于2023年,星期二漢語分詞的其他難點(diǎn)主要有

分詞過程中的歧義問題。歧義字段在中文文本中是普遍存在的,歧義切分是自動分詞中不可避免的現(xiàn)象,是自動分詞中的一個比較棘手的問題。對歧義字段的處理水平,直接影響著自動分詞系統(tǒng)的分詞準(zhǔn)確率。未登錄詞的識別問題。未登錄詞是指沒有在詞典中出現(xiàn)、在漢語文本中又應(yīng)該當(dāng)作一個詞將其分開的那些字符串。包括中外人名、中外地名、機(jī)構(gòu)組織名、事件名、縮略語、派生詞、各種專業(yè)術(shù)語以及在不斷發(fā)展和約定俗成的一些新詞語。未登錄詞種類繁多、規(guī)模宏大,對它們識別正確與否直接影響著分詞系統(tǒng)的正確率。然而,目前對于這些詞語的自動辨識盡管作了不少的研究,但要想達(dá)到實(shí)際應(yīng)用的要求,仍還有不少的困難。

第八十七頁,共一百零九頁,編輯于2023年,星期二除了由于未登錄詞而引起的歧義,切分歧義主要有三種類型:交集型歧義,即漢字串ABC既可切成AB/C,又可切成A/BC。組合型歧義,即漢字串既可切分成AB,又可切分成A/B?;旌闲推缌x,是前兩種的自我嵌套或三者的交叉組合產(chǎn)生的。為了既能得到較高的準(zhǔn)確率,又有較小的開銷,可以著重解決相對數(shù)量較大又較容易解決的交集型歧義。第八十八頁,共一百零九頁,編輯于2023年,星期二詞類分析漢語的發(fā)展是先有字后有詞,所以關(guān)于詞的研究還存在一些問題,比較突出的是漢語詞類的兼類問題。例如,大量的雙字動詞兼作名詞。要進(jìn)行漢語理解,如果不把詞類先確定下來的話,那么下一步的分析也難以進(jìn)行。漢語詞類的兼類處理方法兩種方法根據(jù)規(guī)則消除兼類,根據(jù)預(yù)料庫統(tǒng)計(jì)消除兼類第八十九頁,共一百零九頁,編輯于2023年,星期二漢語詞匯計(jì)量研究隨著語料庫加工的逐步深入而發(fā)展第九十頁,共一百零九頁,編輯于2023年,星期二10.6Web信息抽取萬維網(wǎng)既為人工智能和自然語言理解軟件帶來了機(jī)遇,也帶來了許多挑戰(zhàn)。最大的挑戰(zhàn)是基于Web,抽取“有興趣的”信息,提供用戶個性化服務(wù)。最廣泛使用的Web信息抽取是搜索引擎。大型互聯(lián)網(wǎng)搜索引擎的數(shù)據(jù)中心一般運(yùn)行數(shù)千臺甚至數(shù)十萬臺計(jì)算機(jī)。搜集機(jī)器自動搜集網(wǎng)頁信息,平均速度每秒數(shù)十個網(wǎng)頁,檢索機(jī)器則提供容錯的可縮放的體系架構(gòu)以應(yīng)對每天數(shù)千萬甚至數(shù)億的用戶查詢請求企業(yè)搜索引擎可根據(jù)不同的應(yīng)用規(guī)模,從單臺計(jì)算機(jī)到計(jì)算機(jī)集群都可以進(jìn)行部署。搜索引擎一般的工作過程是:首先對互聯(lián)網(wǎng)上的網(wǎng)頁進(jìn)行搜集,然后對搜集來的網(wǎng)頁進(jìn)行預(yù)處理,建立網(wǎng)頁索引庫,實(shí)時響應(yīng)用戶的查詢請求,并對查找到的結(jié)果按某種規(guī)則進(jìn)行排序后返回給用戶。搜索引擎的重要功能是能夠?qū)ヂ?lián)網(wǎng)上的文本信息提供全文檢索。第九十一頁,共一百零九頁,編輯于2023年,星期二第九十二頁,共一百零九頁,編輯于2023年,星期二搜索引擎的一般系統(tǒng)架構(gòu)包括頁面搜集器、索引器、檢索器、索引文件等部分。各部分之間的關(guān)系:第九十三頁,共一百零九頁,編輯于2023年,星期二1.搜集器搜集器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)并搜集信息,它搜集的信息類型多種多樣,包括HTML頁面、XML文檔、Newsgroup文章、FTP文件、字處理文檔、多媒體信息等。搜索器是一個計(jì)算機(jī)程序,其實(shí)現(xiàn)常常采用分布式和并行處理技術(shù),以提高信息發(fā)現(xiàn)和更新的效率搜索器一般要不停地運(yùn)行,要盡可能多、盡可能快地搜集互聯(lián)網(wǎng)上的各種類型的新信息。因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死鏈接和無效鏈接。

第九十四頁,共一百零九頁,編輯于2023年,星期二2.分析器對搜集器搜集來的網(wǎng)頁信息或者下載的文檔一般要首先進(jìn)行分析,以用于建立索引文檔分析技術(shù)一般包括:分詞(有些僅從文檔某些部分抽詞,如Altavista)、過濾(使用停用詞表stoplist)、轉(zhuǎn)換(有些對詞條進(jìn)行單復(fù)數(shù)轉(zhuǎn)換、詞綴去除、同義詞轉(zhuǎn)換等工作),這些技術(shù)往往與具體的語言以及系統(tǒng)的索引模型密切相關(guān)第九十五頁,共一百零九頁,編輯于2023年,星期二3.索引器索引器的功能是對搜索器所搜索的信息進(jìn)行分析處理,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。索引項(xiàng)有元數(shù)據(jù)索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:元數(shù)據(jù)索引項(xiàng)與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時間、編碼、長度、鏈接流行度等等;內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語索引項(xiàng))兩種。單索引項(xiàng)對于英文來講是英語單詞,比較容易提取,在搜索引擎中,一般要給單索引項(xiàng)賦予一個權(quán)值,以表示該索引項(xiàng)對文檔的區(qū)分度,同時用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語言學(xué)法。第九十六頁,共一百零九頁,編輯于2023年,星期二為了快速查找到特定的信息,建立索引數(shù)據(jù)庫是一個常用的方法,即將文檔表示為一種便于檢索的方式并存儲在索引數(shù)據(jù)庫中。搜索引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型,包括倒排文檔、矢量空間模型、概率模型等。例索引器的輸出是索引表,它一般使用倒排形式(InversionList),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時,必須實(shí)現(xiàn)實(shí)時索引(InstantIndexing),否則就無法跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規(guī)模峰值查詢時的響應(yīng)速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。

第九十七頁,共一百零九頁,編輯于2023年,星期二4.檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型等多種,可以查詢到文本信息中的任意字詞,無論出現(xiàn)在標(biāo)題還是正文中。檢索器從索引中找出與用戶查詢請求相關(guān)的文檔,采用與分析索引文檔相識的方法來處理用戶查詢請求。第九十八頁,共一百零九頁,編輯于2023年,星期二5.用戶接口用戶接口的作用是為用戶提供可視化的查詢輸入和結(jié)果輸出界面,方便用戶輸入查

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論