




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
人工智能基礎(chǔ)及應(yīng)用第2章
知識表示與知識圖譜22.1知識的概述2.2
知識表示的方法2.3產(chǎn)生式表示法2.4狀態(tài)空間表示法2.5知識圖譜本章學(xué)習(xí)目標(biāo)了解知識的定義、特性、分類。了解知識表示方法的分類。了解知識的產(chǎn)生式表示法。掌握狀態(tài)空間表示法。了解知識圖譜的定義、表示、發(fā)展歷史。了解典型的知識圖譜和知識圖譜的應(yīng)用。32.1知識的概述知識是智能的基礎(chǔ)。為了使計算機具有智能,能模擬人類的智能行為,就必須使它具有知識。在人工智能領(lǐng)域中,“知識就是力量”依然有效。人類的知識需要用適當(dāng)?shù)男问奖硎境鰜?,才能存儲到計算機中,并被運用。知識表示是人工智能領(lǐng)域中一個十分重要的研究課題。42.1.1知識的定義至今,對于知識還沒有一個統(tǒng)一而明確的界定。比較有代表性的定義如下:(1)費根鮑姆(Feigenbaum)說:知識是經(jīng)過裁剪、塑造、解釋、選擇和轉(zhuǎn)換了的信息。(2)伯恩斯坦(Bernstein)說:知識由特定領(lǐng)域的描述、關(guān)系和過程組成。(3)海葉斯—羅斯(Heyes-Roth)說:知識=事實+信念+啟發(fā)式。總之,知識是人類在長期的生活、社會實踐及科學(xué)實驗中經(jīng)過總結(jié)、提升與凝練的對客觀世界(包括人類自身)的認(rèn)識和經(jīng)驗,也包括對事實和信息的描述或在教育和實踐中獲得的技能。52.1.2知識的特性(1)相對正確性。隨著條件和環(huán)境的改變,原本正確的知識在不同的條件和環(huán)境下可能就不正確了。例如,“水的沸點是100℃”,但前提是在一個標(biāo)準(zhǔn)大氣壓的環(huán)境下,若大氣壓強變了,則水的沸點就會發(fā)生變化,不再是100℃,大氣壓強越高,水的沸點越高,反之就越低。(2)不確定性。知識的不確定性是指知識有時不能被完全確定是“真”還是“假”,在“真”與“假”之間還存在許多中間可能性。例如,如果某人眼睛發(fā)黃,則他得肝炎了。只能說“如果某人眼睛發(fā)黃,則他有可能得肝炎了”。62.1.3知識的分類按知識的作用,可大致分為兩類:(1)陳述性知識(descriptiveknowledge,或描述性知識),是表示對象及概念的特征及其相互關(guān)系的知識,以及問題求解狀況的知識,它描述的是“做什么”的知識,即一般性事實,故也稱為事實性知識。如:“煤是黑色的”,“北京是中國的首都”。
事實性知識是顯式表示的,用符號代表概念、命題與原理,是相對靜態(tài)的。(2)過程性知識(proceduralknowledge,或程序性知識)表示的是問題求解控制策略,描述的是“如何做”的知識,即做某件事的過程。過程性知識一般利用算法進行描述,用一段計算機程序來實現(xiàn)。過程性知識是隱含在程序中的,是相對動態(tài)的。72.2知識表示的方法知識表示(knowledgerepresentation)就是將人類知識符號化,并輸入給計算機的過程和方法。知識表示研究的是:用計算機表示知識的方法和技術(shù),它是數(shù)據(jù)結(jié)構(gòu)與系統(tǒng)控制結(jié)構(gòu)的統(tǒng)一。知識表示的目的:要解決人類知識在計算機中的表示與存儲的問題。知識表示可以是一種符號描述、是某種約定,也可以是某種數(shù)據(jù)結(jié)構(gòu)。知識分為兩類:陳述性知識、過程性知識。從知識的運用角度,可將知識表示方法粗略地分為兩大類:陳述性知識表示過程性知識表示8陳述性知識表示陳述性知識表示用于描述陳述性知識,即描述“是什么”,而不用描述“怎么做”。該方法注重對事物有關(guān)知識的靜態(tài)描述,強調(diào)事物所涉及的對象是什么,關(guān)注于事物的屬性及其相互關(guān)系,涉及的知識細(xì)節(jié)少,抽象程度高。該方法是對知識的一種顯式表達形式,對于知識的使用和推理,則是通過控制策略或推理機制來決定的。在采用陳述性知識表示方法描述知識的系統(tǒng)中,知識的表示和知識的運用一般是分開的。優(yōu)點:可理解性好,表示形式簡潔、清晰、易懂;易于修改,一個小的改變不會影響全局,不會引起大的改變;可獨立使用,這種知識表示出來后,可用于不同目的;易于擴充,這種知識模塊性好,擴充后對原有模塊沒有影響。
缺點:將知識與控制分開,求解問題的執(zhí)行效率低。9過程性知識表示過程就是事實的一些客觀規(guī)律。過程性知識表示方法表達的是如何求解問題,知識的表示形式就是程序。在過程性知識表示方法中,既要描述表示事物客觀規(guī)律的知識,還要描述表示控制規(guī)則和控制結(jié)構(gòu)的知識,告訴計算機“怎么做”。該方法著重于描述知識的動態(tài)過程,將求解問題的主要步驟表示為若干個過程,每一個過程就是一段程序,是對知識的一種隱式表達形式。知識的表示和知識的運用一般是不分開的,表示就寓于運用之中,它適合于知識表示與求解結(jié)合非常緊密的這一類問題。10過程性知識表示優(yōu)點:執(zhí)行效率高。知識是用程序表示的,知識庫與推理機完全合為一體,即知識與控制融合在一起。缺點:可理解性較差,采用隱式表達形式,形式復(fù)雜、不直觀,不易理解;不易于擴充,這種知識模塊性差,難以添加新知識和擴充新的功能;不易于修改,想要修改現(xiàn)有知識而不影響其他知識的完整性,比較困難,容易出錯。112.3產(chǎn)生式規(guī)則表示法“產(chǎn)生式(production)”意思是能夠根據(jù)已知條件產(chǎn)生新知識的式子。這些式子往往以規(guī)則的形式描述知識,因此產(chǎn)生式也稱作“產(chǎn)生式規(guī)則”;產(chǎn)生式表示法也稱為產(chǎn)生式規(guī)則表示法。它屬于符號主義流派的知識表示方法。1960s-1970s,產(chǎn)生式表示法是使用最廣泛的一種主流知識表示方法,尤其是在許多成功的專家系統(tǒng)中。例如,DENDRAL系統(tǒng),MYCIN系統(tǒng),PROSPECTOR系統(tǒng)。隨后,產(chǎn)生式表示法被應(yīng)用于形式語言學(xué)、計算語言學(xué)中的句法分析器、機器翻譯等。122.3.1產(chǎn)生式產(chǎn)生式又稱為規(guī)則或產(chǎn)生式規(guī)則。產(chǎn)生式表示方法通常用于表示事實、規(guī)則以及它們的不確定性度量。既有利于表示陳述性知識,又有利于表示過程性知識。產(chǎn)生式表示包括事實的表示和規(guī)則的表示。有許多知識本身就是事實描述性的,事實可看成是一個對象的某屬性的值或是多個對象之間關(guān)系的陳述句。對象的某屬性值或?qū)ο笾g的關(guān)系可以是一個詞,不一定是數(shù)字。事實又分為確定性事實和不確定性事實。13事實的產(chǎn)生式表示14(1)確定性事實的產(chǎn)生式表示確定性事實一般采用三元組表示,有兩種形式:屬性型確定性事實:描述一個對象的某種屬性,形式為
(對象,屬性,值)
如,“李麗的年齡是30歲”表示為(李麗,年齡,30)關(guān)系型確定性事實:描述兩個對象之間的關(guān)系,形式為
(對象1,對象2,關(guān)系)如,“李麗和王軍是朋友”表示為(李麗,王軍,朋友),此處,關(guān)系就是一個詞,而不是數(shù)字。事實的產(chǎn)生式表示15(2)不確定性事實的產(chǎn)生式表示不確定性事實可以用一個不確定度量值(0,1)表示其不確定程度,即置信度或可信度,一般采用四元組表示,也有兩種形式:屬性型不確定性事實:描述一個對象的某種屬性,形式為
(對象,屬性,值,置信度)例如“李麗的年齡很可能是30歲”表示為(李麗,年齡,30,0.85),其中置信度0.85表示“很可能”。關(guān)系型不確定性事實:描述兩個對象之間的關(guān)系,形式為
(對象1,對象2,關(guān)系,置信度)例如“李麗和王軍不太可能是朋友”表示為(李麗,王軍,朋友,0.15),此處的置信度0.15表示“不太可能”。規(guī)則的產(chǎn)生式表示16除了描述事實,產(chǎn)生式還可以描述規(guī)則。規(guī)則用于表示有關(guān)問題領(lǐng)域中事物之間的因果關(guān)系,在產(chǎn)生式表示法中將規(guī)則作為知識的單位。在人類的認(rèn)知中,很多知識單元之間都存在著因果關(guān)系,這些因果關(guān)系可以轉(zhuǎn)化為前提和結(jié)論,非常便于用產(chǎn)生式表示。規(guī)則可分為確定性規(guī)則和不確定性規(guī)則。規(guī)則的產(chǎn)生式表示17(1)確定性規(guī)則的產(chǎn)生式表示確定性規(guī)則的產(chǎn)生式表示的基本形式是IFconditionTHENaction或者condition→action其中condition稱為條件或前件或前提,action稱為動作或后件或結(jié)論。語義含義是:如果condition所表示的條件被滿足,則可得到action所表示的結(jié)論或者執(zhí)行action所表示的動作,即action是由condition來觸發(fā)的。例如,有如下規(guī)則:IF(天下雨∧外出)THEN(帶傘∨帶雨衣)。小剛很聰明∧小剛學(xué)習(xí)很勤奮→小剛的學(xué)習(xí)成績很好;小剛的學(xué)習(xí)成績很好→小剛被重點大學(xué)錄取。規(guī)則的產(chǎn)生式表示18(2)不確定性規(guī)則的產(chǎn)生式表示若規(guī)則是不確定的,則需增加置信度的度量值。不確定性規(guī)則的產(chǎn)生式表示的基本形式是IFconditionTHENaction(置信度)或者condition→action(置信度)
例如,有一條產(chǎn)生式為:
發(fā)燒嘔吐
∧
出現(xiàn)黃疸
→
肝炎(0.7)2.3.2產(chǎn)生式系統(tǒng)19一個產(chǎn)生式系統(tǒng)的基本結(jié)構(gòu)由規(guī)則庫(productionrulesbase)、綜合數(shù)據(jù)庫(globaldatabase)和控制系統(tǒng)(controlsystem)三部分組成。綜合數(shù)據(jù)庫和規(guī)則庫共同組成了知識庫。控制系統(tǒng)又稱為推理機,包括控制程序和推理程序兩部分。2.3.2產(chǎn)生式系統(tǒng)201.綜合數(shù)據(jù)庫綜合數(shù)據(jù)庫又稱為事實庫,是產(chǎn)生式系統(tǒng)所使用的主要數(shù)據(jù)結(jié)構(gòu),其中存放問題的初始狀態(tài)、輸入的已知事實、推理過程中得到的中間結(jié)果及最終結(jié)論等信息。2.規(guī)則庫產(chǎn)生式規(guī)則用于描述與所求解問題相關(guān)的領(lǐng)域知識,規(guī)則庫就是所有這些產(chǎn)生式規(guī)則的集合,其中包含了將問題從初始狀態(tài)轉(zhuǎn)換成目標(biāo)狀態(tài)所需的所有規(guī)則。3.推理機推理機是一組規(guī)則解釋程序,包括控制策略和推理方式。推理機協(xié)同規(guī)則庫與綜合數(shù)據(jù)庫,控制問題求解過程的推理路線,負(fù)責(zé)整個產(chǎn)生式系統(tǒng)的運行,實現(xiàn)對問題的求解。推理機的主要工作內(nèi)容21(1)選擇推理規(guī)則:按照一定策略,將其前件與綜合數(shù)據(jù)庫中的已知事實進行匹配。
(2)消解沖突,若找到多個匹配規(guī)則,則按一定的策略選出一個來執(zhí)行。(3)進行推理。(4)判斷是否終止推理。例如,推理過程:小剛很聰明∧小剛學(xué)習(xí)很勤奮
→
小剛的學(xué)習(xí)成績很好;小剛的學(xué)習(xí)成績很好
∧
發(fā)揮正?!?/p>
小剛被重點大學(xué)錄取2.3.3產(chǎn)生式表示法的特點22產(chǎn)生式表示法的主要優(yōu)點格式單一,計算簡單。模塊化,便于知識的操作和管理。形式自然,便于理解、推理和解釋。表達較全面,應(yīng)用廣泛。產(chǎn)生式表示法的主要缺點求解效率不高。無法表示具有結(jié)構(gòu)關(guān)系的知識。2.4狀態(tài)空間表示法23狀態(tài)空間(statespace)表示法是人工智能中最基本的形式化方法,是其他形式化方法和問題求解技術(shù)的出發(fā)點。狀態(tài)(state)就是用來描述在問題求解過程中某一個時刻進展情況等陳述性知識的一組變量或數(shù)組,是某種結(jié)構(gòu)的符號或數(shù)據(jù)。狀態(tài)是一組變量q0,q1,q2,…,qn的有序集合,其形式如下:Q={q0,q1,q2,…,qn}
其中,每個元素qi稱為一個狀態(tài)變量。狀態(tài)的表示還可以根據(jù)具體應(yīng)用,采取合適的數(shù)據(jù)結(jié)構(gòu),如符號、字符串、多維數(shù)組、樹和圖等。2.4狀態(tài)空間表示法24操作也稱為運算,用來表示引起狀態(tài)變化的過程性知識的一組關(guān)系或函數(shù),它會引起狀態(tài)中的某些分量發(fā)生改變,從而使問題由一個具體狀態(tài)轉(zhuǎn)換到另一個具體狀態(tài)。操作可以是一個動作(如棋子的移動)、過程、規(guī)則、數(shù)學(xué)算子等,表示狀態(tài)之間存在的關(guān)系。用于表示操作的符號,稱為操作符(operator)或操作算子、運算符。狀態(tài)空間是采用狀態(tài)變量和操作符號表示系統(tǒng)或問題的有關(guān)知識的符號體系。2.4狀態(tài)空間表示法25問題的狀態(tài)空間是一個表示該問題全部可能狀態(tài)及其相互關(guān)系的集合,常用一個四元組(S,O,S0,G)來表示,其中:S
為問題的狀態(tài)集合;O
為操作符的集合;S0
是問題的初始狀態(tài),是S的一個非空真子集,即S0?S;G
為問題的目標(biāo)狀態(tài),它既可以是若干具體狀態(tài),也可以是滿足某些性質(zhì)的路徑信息描述,G?S。2.4狀態(tài)空間表示法26狀態(tài)空間通常用有向圖來表示,其中,節(jié)點表示問題的狀態(tài),節(jié)點之間的有向邊表示引起狀態(tài)變換的操作,有時邊上還賦有權(quán)值,表示變換所需的代價。在狀態(tài)空間中,求解一個問題就是從初始狀態(tài)出發(fā),不斷運用可使用的操作,在滿足約束的條件下達到目標(biāo)狀態(tài)。問題的解可能是圖中的一個狀態(tài),也可能是從初始狀態(tài)到某個目標(biāo)狀態(tài)的一條路徑,還可能是達到目標(biāo)所花費的代價。下圖中,問題的解便是一條從節(jié)點S0到節(jié)點G的路徑,它是一個從初始狀態(tài)到目標(biāo)狀態(tài)的有限的操作算子序列{O1,O2,…Ok},稱為求解路徑。問題的解往往并不唯一。例2.1八數(shù)碼問題27八數(shù)碼問題又稱為重排九宮問題。首先,需要定義八數(shù)碼問題的狀態(tài)集合。(a)初始狀態(tài)
(b)目標(biāo)狀態(tài)八個數(shù)碼的任何一種擺法就是一個狀態(tài)。八數(shù)碼的所有擺法構(gòu)成了狀態(tài)集合S,它們構(gòu)成了一個狀態(tài)空間.這個狀態(tài)空間中可以有9!個狀態(tài)。例2.1八數(shù)碼問題28然后,設(shè)計操作集合:將移動空格作為操作,即在方格盤上移動數(shù)碼等價于移動空格。up:
將空格向上移,if空格不在最上一行down:將空格向下移,if空格不在最下一行l(wèi)elt:將空格向左移,if空格不在最左一列right:將空格向右移,if空格不在最右一列八數(shù)碼問題的解就是一個使棋盤從初始狀態(tài)變化到目標(biāo)狀態(tài)的數(shù)碼牌移動序列。顯然,八數(shù)碼問題的解并不是唯一的;可以附加一些約束條件,例如要求找到一個移動數(shù)碼牌次數(shù)最少的解。表示八數(shù)碼問題狀態(tài)空間的有向圖29例2.2旅行商問題30也稱為旅行推銷員問題。一個推銷員要到N個城市去推銷產(chǎn)品,已知每對城市之間的距離,他從一個城市出發(fā),訪問所有城市后,回到出發(fā)地。除了出發(fā)地,要求每個城市僅經(jīng)過一次。所要求解的問題是:應(yīng)該如何設(shè)計一條行進路線,才能使得推銷員訪問每座城市所經(jīng)過的路徑最短或者費用最少?旅行商問題實質(zhì)是:在一個帶有權(quán)重的、含有N個節(jié)點的完全無向圖中,找一個權(quán)值最小的哈密爾頓(Hamilton)回路。2.4狀態(tài)空間表示法31對于大規(guī)模的問題,例如旅行商問題中有100個城市,要在有限時間內(nèi)畫出其全部狀態(tài)空間圖,是不可能的。對于簡單問題,可以采用有向圖直接畫出狀態(tài)空間。對于大多數(shù)復(fù)雜的問題,根本無法完全畫出其狀態(tài)空間,此時只需清晰地定義狀態(tài)變換的方式即可,如圖2.6。圖2.6旅行商問題的部分狀態(tài)空間322.5知識圖譜33符號主義知識表示方法經(jīng)過不斷完善,演變?yōu)橹R圖譜這一符合互聯(lián)網(wǎng)時代新需求的知識表示方法。知識圖譜是一種用圖結(jié)構(gòu)來描述知識及其之間關(guān)聯(lián)關(guān)系的技術(shù)方法,旨在利用知識工程理論建立大規(guī)模知識資源,是語義Web技術(shù)在互聯(lián)網(wǎng)大數(shù)據(jù)時代的成功應(yīng)用。知識圖譜(KnowledgeGraph)又稱為科學(xué)知識圖譜,知識圖譜這一名詞是谷歌公司于2012年5月17日首先提出的,其初衷是為了提高搜索引擎的能力,改善用戶的搜索質(zhì)量以及搜索體驗,目標(biāo)是構(gòu)建一個可提供智能搜索服務(wù)的大型知識庫。2.5.1知識圖譜的定義34至今,知識圖譜尚未有一個統(tǒng)一的定義。本質(zhì)上,知識圖譜是一種揭示客觀世界中存在的實體(Entity)、概念(concept)及其之間各種關(guān)系的大規(guī)模語義網(wǎng)絡(luò),它以圖結(jié)構(gòu)表示知識,可理解為是一種描述語義知識的形式化框架,知識圖譜就是這樣一類知識表示和應(yīng)用技術(shù)的總稱。知識圖譜是一種圖結(jié)構(gòu)的語義知識庫,組成單位是實體、屬性和關(guān)系。節(jié)點表示實體(entity)或概念(concept)或?qū)傩灾?attributevalue)節(jié)點之間的邊(edge)表示屬性(attribute)或關(guān)系(relationship)邊的方向表示關(guān)系的方向邊上的標(biāo)記表示屬性名稱或關(guān)系類型。2.5.1知識圖譜的定義35概念:也稱為類別、類,是某一領(lǐng)域內(nèi)具有相同性質(zhì)的對象構(gòu)成的集合。大學(xué)領(lǐng)域的知識圖譜中概念:教師、學(xué)生和課程等;體育比賽領(lǐng)域中的概念:運動員、裁判員、教練、獎項等。概念主要用于表示集合、類別、對象類型、事物的種類。(2)實體(entity):有時也稱為實例(instance)或?qū)ο螅∣bject),實體是知識圖譜中的最基本元素,是概念中的具體元素,它是獨立存在且可相互區(qū)別的客觀事物。例如,“C羅”是“足球運動員”這一概念的一個實例,“金球獎”是“獎項”這一概念的一個實例。2.5.1知識圖譜的定義36(3)屬性:描述實體或概念的特性或性質(zhì)。屬性值可能是一個實體、一個字符串或一個數(shù)值。例如:運動員的屬性“國籍”的值是一個具體的國家(實例);屬性“性別”的值是一個具體的字符串(male/female),屬性“身高”的值則是一個具體的數(shù)值。(4)關(guān)系:是指概念之間或?qū)嶓w之間或概念與實例之間的聯(lián)系,例如:“運動員”與“足球運動員”兩個概念之間存在的父類與子類(subclassOf)的層次關(guān)系;“車輪”和“汽車”兩個概念之間存在的部分與整體(partOf)關(guān)系;“中國”與“北京”兩個實體之間是“首都”關(guān)系;“國家”(概念)與“中國”(實體)間是實例化(instanceOf)關(guān)系。一個知識圖譜示例372.5.2知識圖譜的表示38每個實體或每個概念用一個全局唯一確定的ID來標(biāo)識,稱為標(biāo)識符(identifier)。概念和實體都是通過若干屬性來刻畫其內(nèi)在特性。概念之間常見的關(guān)系有父類與子類(subclassOf)關(guān)系、部分與整體(partOf)關(guān)系實體之間的關(guān)系多種多樣,不同實體之間存在不同的關(guān)系。例如,“山東省”和“濟南市”兩個實體分別有各自的屬性,兩者之間存在“省會是”的關(guān)系;“中國”和“北京”兩個實體之間存在“首都是”的關(guān)系。所有實體和概念相互關(guān)聯(lián),形成復(fù)雜的“圖”。北京中國首都是面積:約1.641萬平方公里人口:約2188.6萬陸地面積:約960萬平方公里人口:約14.1175億省會是2.5.2知識圖譜的表示39知識圖譜由多條知識組成,每條知識都表示為一個由主語(Subject)、謂詞
(Predicate)和賓語(Object)組成的三元組,即SPO三元組(Triples),它是知識圖譜的一種通用表示方式。與事實性知識的產(chǎn)生式表示方法類似,知識圖譜也有兩種形式:(1)屬性型聯(lián)系:用“屬性-值”對來描述一個實體具有某種內(nèi)在屬性,形式為
(實體,屬性,屬性值)
例如,“北京市的面積是1.641萬平方千米”表示為
(北京,面積,1.641萬km2)(2)關(guān)系型聯(lián)系:描述兩個實例之間的關(guān)系,形式為
(實體1,關(guān)系,實體2)例如,“中國的首都是北京”表示為(中國,首都是,北京)2.5.3知識圖譜的發(fā)展歷史40來源于@知乎balcksoil:/p/2014848391. 語義網(wǎng)絡(luò)知識表示(1960s)411968年,認(rèn)知科學(xué)家AllanCollins和RossQuillian等人提出了語義網(wǎng)絡(luò)(semanticnetwork,不是翻譯為語義網(wǎng))的心理學(xué)模型。隨后,Quillian又將它用作人工智能中的一種知識表示方法語義網(wǎng)絡(luò)采用有向圖來表示知識,其中節(jié)點表示概念(事件、事物),邊表示概念之間的語義關(guān)系。1960年代,劍橋大學(xué)的馬斯特曼與其同事們還將語義網(wǎng)絡(luò)用于了機器翻譯。1972年,西蒙在他的自然語言理解系統(tǒng)中采用了語義網(wǎng)絡(luò)表示法。語義網(wǎng)絡(luò)的特點42優(yōu)點:表達形式簡單、直觀、自然,因此容易理解和展示、相關(guān)概念容易聚類。缺點:(1)沒有定義節(jié)點與邊的值的標(biāo)準(zhǔn),完全由用戶自己定義;(2)無法區(qū)分概念節(jié)點和實體節(jié)點,如哺乳動物是個抽象概念,世界上并沒有一種動物名字就叫哺乳動物;(3)無法定義節(jié)點和邊的標(biāo)簽;(4)難以融合多源數(shù)據(jù),不便于知識的共享。上述缺點導(dǎo)致語義網(wǎng)絡(luò)難以應(yīng)用于實踐。語義網(wǎng)絡(luò)知識表示的示例432.本體知識表示(1980s)44本體(Ontology)一詞源于哲學(xué)領(lǐng)域,且一直以來存在著許多不同的用法。本體論是研究“存在”的科學(xué),即試圖解釋“存在”是什么,世間所有存在的共同特征是什么,本體論的基本元素是概念及概念間的關(guān)系。1980年,“本體”概念被引入AI領(lǐng)域中用于刻畫知識,便產(chǎn)生了基于本體的知識表示方法,這種知識表示是一種“形式化的、對于共享概念體系的明確且詳細(xì)的說明”。本體顯式地定義了領(lǐng)域中的概念、關(guān)系和公理(總是為真的陳述)及其之間的聯(lián)系。AI研究人員認(rèn)為:可以創(chuàng)建基于本體的表示模型,從而進行特定類型的自動推理。80年代出現(xiàn)了一批基于本體概念的知識庫,例如,CYC和WordNet項目。3.語義萬維網(wǎng)知識表示(1990--2006)45語義萬維網(wǎng)(SemanticWeb)也稱為語義Web或語義網(wǎng),與語義網(wǎng)絡(luò)
(semanticnetwork)的技術(shù)理念完全不同。兩者最主要的區(qū)別:語義網(wǎng)絡(luò)知識表示與互聯(lián)網(wǎng)無關(guān),但語義萬維網(wǎng)知識表示卻是構(gòu)建在萬維網(wǎng)(worldwideweb)上的。1963年,泰德·尼爾森(TedNelson)創(chuàng)造了“超文本(HyperText)”一詞,其含義是用超鏈接的方法將各種不同空間的文字信息組織在一起的網(wǎng)狀文本。1969年,因特網(wǎng)誕生于美國,它的前身“阿帕網(wǎng)”(ARPAnet)是一個軍用研究系統(tǒng),后來才發(fā)展成為覆蓋五大洲150多個國家的開放型全球計算機網(wǎng)絡(luò)系統(tǒng),也稱為互聯(lián)網(wǎng)。3.語義萬維網(wǎng)知識表示(1990--2006)461989年,英國計算機科學(xué)家蒂姆·伯納斯·李(Lee)創(chuàng)新性地提出了將超文本用于因特網(wǎng)上的構(gòu)想,并于1990年與同事RobertCailliau合作發(fā)明了萬維網(wǎng)(worldwideweb)技術(shù)。蒂姆·伯納斯·李被譽為萬維網(wǎng)之父,于2016年榮獲圖靈獎。萬維網(wǎng)誕生后,互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量迅速增加,網(wǎng)頁之間相互關(guān)聯(lián)形成網(wǎng)絡(luò),其中蘊含著大量知識。但這種知識的設(shè)計思想是面向人類閱讀和理解的,無法被計算機理解和計算。例如我們?nèi)祟惡苋菀字纼蓚€網(wǎng)頁內(nèi)容是有關(guān)聯(lián)的,但計算機很難理解網(wǎng)頁的內(nèi)容,更談不上推理,獲得新知識。因此,蒂姆·伯納斯·李又于1998年提出了“語義萬維網(wǎng)(語義Web)”的概念。3.語義萬維網(wǎng)知識表示(1990--2006)47語義Web旨在對互聯(lián)網(wǎng)內(nèi)容進行語義化表示,通過對網(wǎng)頁進行語義定義,得到網(wǎng)頁的語義信息,從而使計算機能夠理解、推理互聯(lián)網(wǎng)信息。語義Web采用圖結(jié)構(gòu)的組織方式,圖中的節(jié)點可以代表網(wǎng)頁或客觀存在的實體,超鏈接表示實體之間的關(guān)系。相對于傳統(tǒng)的網(wǎng)頁互聯(lián)網(wǎng)(即萬維網(wǎng)),語義Web的本質(zhì)是知識的互聯(lián)網(wǎng)或事物的互聯(lián)網(wǎng)(WebofThings)。語義web是個宏大的構(gòu)想,僅靠采用可擴展標(biāo)記語言(extensiblemarkuplanguage,XML)標(biāo)注web頁面的數(shù)據(jù)內(nèi)容是遠遠不夠的,而是需要新的知識表示手段和方法。在這樣的背景下,科研工作者相繼提出了“資源描述框架(ResourceDescriptionFramework,RDF)”和“網(wǎng)絡(luò)本體語言(Webontologylanguage,OWL)”等面向Web的知識表示框架。RDF48每個RDF陳述都包含主語、謂詞和賓語,簡稱SPO三元組,其中主語和賓語分別表示兩個資源,謂詞表示兩個資源間的關(guān)系。<Bob><isa><person>,<Bob><isafriendof><Alice>,<Bob><isbornon><the4thofJuly1990>RDF的局限性:無法描述類別和屬性的層級結(jié)構(gòu)、包含關(guān)系。萬維網(wǎng)聯(lián)盟(WorldWideWebConsortium,簡稱W3C)又推出了RDFschema(RDFs),在RDF詞匯的基礎(chǔ)上擴展了一套數(shù)據(jù)建模詞匯(如,class、subClassOf、type、Property、subPropertyOf等
)來描述數(shù)據(jù)的模式層,可定義類的層次體系和屬性體系,如類的繼承。OWL(WebOntologyLanguage)49RDFs的表達能力仍不夠強大,在2001年,W3C又開發(fā)了OWL。OWL主要在RDFs基礎(chǔ)上擴展了表示類和屬性約束的表示能力,以構(gòu)建更為復(fù)雜且完備的本體。如:復(fù)雜類表達(intersection,union和complement
等)屬性約束(existentialquantification,universalquantification,hasValue等)OWL比RDF具有更強的表達能力和推理能力。例如,OWL可以描述“中國所有湖泊”、“美國所有4000米以上的高山”這樣的類。語義網(wǎng)絡(luò)與語義Web的對比50相較于語義網(wǎng)絡(luò),語義Web更加注重于描述萬維網(wǎng)中資源、數(shù)據(jù)之間的語義關(guān)系。W3C針對語義Web制定的標(biāo)準(zhǔn)解決了語義網(wǎng)絡(luò)存在的不足:RDF為節(jié)點和邊的取值提供了統(tǒng)一標(biāo)準(zhǔn),為多源數(shù)據(jù)的融合提供了便利;
RDFs/OWL解決了概念和對象的區(qū)分問題,即定義了Class和Object(也稱作Instance,Entity)。這些標(biāo)準(zhǔn)從三個方面完善了語義Web:保證了語義Web的內(nèi)容有準(zhǔn)確的含義;保證了語義Web的內(nèi)容可以被計算機理解并處理;計算機可從Web上整合各種網(wǎng)頁中的內(nèi)容信息?!叭跽Z義”到“強語義”51從2001年到2006年,隨著RDF和OWL標(biāo)準(zhǔn)的提出,語義Web技術(shù)突飛猛進,各種標(biāo)準(zhǔn)不斷升級和復(fù)雜化,尤其是OWL的復(fù)雜程度很高,語義表達能力強大也導(dǎo)致了工程實現(xiàn)的難度大,構(gòu)建知識庫的成本越來越高。期間,語義Web仍然沿襲著符號主義的核心理念,嘗試建立完美的符號體系來涵蓋所有知識。該階段是從“弱語義”到“強語義”的探索。4.鏈接數(shù)據(jù)(2007年起)52隨著語義Web體系結(jié)構(gòu)的日益復(fù)雜,工程實現(xiàn)的難度變大,構(gòu)建知識庫的成本越來越高,語義Web的發(fā)展遇到了瓶頸。另外,各個機構(gòu)都獨立開發(fā)了各自的語義Web,但各機構(gòu)的知識庫規(guī)模有限,不利于知識的共享。2006年,Lee提出了鏈接數(shù)據(jù)(LinkedData)的設(shè)想,呼吁各個機構(gòu)公開發(fā)布自己的數(shù)據(jù)源,并遵循一定的原則將數(shù)據(jù)匯聚起來,形成開放的數(shù)據(jù)網(wǎng)絡(luò)。其目的:將互聯(lián)網(wǎng)上龐大的數(shù)據(jù)資源鏈接起來,構(gòu)建一個計算機能夠理解的語義數(shù)據(jù)網(wǎng)絡(luò),在此基礎(chǔ)之上構(gòu)建更加智能的應(yīng)用。目前,實現(xiàn)該設(shè)想的最大項目是2007年提出的LOD(LinkedOpenData)。至今,LOD中已經(jīng)包含了1000多個數(shù)據(jù)集。4.鏈接數(shù)據(jù)(2007年起)53自從實踐數(shù)據(jù)鏈接開始,在技術(shù)層面,語義web開始弱化“語義推理”的功能,而更強調(diào)“Web”的作用,即側(cè)重數(shù)據(jù)的互聯(lián)互通,因此LinkedData可以看作是語義Web的一個簡化集合。在實現(xiàn)層面,LinkedData提倡使用RDF三元組形式描述知識,很少使用理論更完備的OWL系列方法,降低了實現(xiàn)數(shù)據(jù)鏈接的技術(shù)難度。自此,語義Web開始進入“弱語義”的階段,語義Web的體系結(jié)構(gòu)開始向知識圖譜過渡發(fā)展?!叭跽Z義”是指:只強調(diào)詞與詞之間存在的語義關(guān)系,而不再強調(diào)知識庫整體的語義完整性。5.知識圖譜的正式提出(2012年)542012年5月17日,Google正式提出了知識圖譜的概念,發(fā)布了稱之為“知識圖譜”的項目,其初衷是為了優(yōu)化其搜索引擎返回的結(jié)果,增強其搜索引擎的信息檢索能力,提高用戶搜索質(zhì)量及體驗。知識圖譜項目旨在將互聯(lián)網(wǎng)中所有不同類型、不同語言的信息連接在一起,從這些海量數(shù)據(jù)資源中提取實體、屬性以及實體之間的關(guān)系,并利用這些信息構(gòu)建知識的語義網(wǎng)絡(luò),實現(xiàn)更加智能的存儲、管理和檢索知識功能。知識圖譜進一步弱化了語義,僅保留了RDF三元組的基本形式,將知識表示為圖結(jié)構(gòu)的數(shù)據(jù)。這種簡單的形式非常適合于知識的自動化生成,降低了工程實踐的難度,促進了應(yīng)用的推廣。2.5.4典型的知識圖譜55從早期人工構(gòu)建的知識庫發(fā)展到如今自動構(gòu)建的知識圖譜,其間大致可以劃分為“強語義”和“弱語義”階段?!皬娬Z義”階段的典型知識庫(從1960年代到2006年)重點研究如何建立語義表示體系,依賴于專家制定、人工添加、合作編輯的模式構(gòu)建知識庫。典型知識庫應(yīng)用有:Cyc、WordNet、HowNet和ConceptNet。“弱語義”階段的典型知識圖譜進入互聯(lián)網(wǎng)時代后,搜索引擎成為獲取信息的主要手段,人們更多關(guān)注的是“是否存在某種知識,且能否找到某種知識”,而不是“是否可以理解、推理某種知識”。顯然,使得知識庫越來越傾向于“弱語義、大規(guī)?!钡内厔荩辉購娬{(diào)邏輯復(fù)雜的語義及其推理,而是強調(diào)如何利用互聯(lián)網(wǎng)知識自動構(gòu)建大規(guī)模知識圖譜。CYC是1984年創(chuàng)建的,并延續(xù)至今,是目前持續(xù)時間最長的知識庫項目。CYC中的知識主要是通過手工添加的,類似定理庫。知識主要由“術(shù)語/概念”和“斷言”組成。知識既包括事實,又包括規(guī)則。典型的常識知識:“每棵樹都是植物”、“植物最終都會死亡”。這些知識是以一階謂詞邏輯的形式存儲的。CYC不僅包括知識,還包括許多推理引擎,支持演繹推理和歸納推理。CYC的主要特點是采用形式化的知識表示方法來刻畫知識,CYC的優(yōu)點:推理效率很高,可以支持復(fù)雜推理。CYC的缺點:手工構(gòu)建成本高,知識更新慢,形式化也導(dǎo)致知識庫的可擴展性差、推理不靈活、適應(yīng)性不強。近幾年,CYC開始通過機器學(xué)習(xí)來自動獲取知識。官網(wǎng)(/)還提供了免費的版本OpenCYC。1.“強語義”階段的典型知識庫
(1)1984年,CYC知識庫56WordNet是典型的語義網(wǎng)絡(luò),它是由普林斯頓大學(xué)認(rèn)知科學(xué)實驗室于1985年開始主持構(gòu)建的,最初的目的是用于多義詞的詞義消歧。WordNet是目前知名度最高的詞典知識庫,但不同于通常意義的字典,它主要依靠語言學(xué)家定義名詞、動詞、形容詞和副詞之間的語義關(guān)系。每個詞(word)可能有多個不同的語義(sense),WordNet將語義相近的詞集中在一組,稱為一個Synset(同義詞集合),具有多個語義的詞將出現(xiàn)在多個Synset中。WordNet為每一個Synset提供了簡短、概要的定義,并記錄了不同Synset之間的語義關(guān)系。WordNet的規(guī)模不斷增長,WordNet3.0中包括15萬個詞和20萬條語義關(guān)系,已成為目前語義分析的重要工具,被廣泛應(yīng)用于語義消歧等自然語言處理領(lǐng)域。(2)1985年,WordNet57WordNet的特點58優(yōu)點:早期的WordNet是利用相關(guān)領(lǐng)域?qū)<姨峁┑闹R、由人工構(gòu)建的,具有很高的準(zhǔn)確率和利用價值。缺點:其構(gòu)建過程耗時耗力,且存在覆蓋面較小的問題。它沒有考慮特定語境下相關(guān)概念之間的聯(lián)系。例如,WordNet中沒有將網(wǎng)球拍、網(wǎng)球、球網(wǎng)等詞語以聯(lián)系到一起。這就是著名的“tennisproblem”(網(wǎng)球問題)。網(wǎng)球問題涉及許多知識的描述和關(guān)聯(lián),也是目前通用人工智能亟待解決的問題之一。(3)1999年,ConceptNet59ConceptNet知識庫最早源于1999年,由明斯基創(chuàng)建的
OpenMindCommonSense項目。ConceptNet最初的目標(biāo):構(gòu)建一個描述人類常識的大型語義Web。ConceptNet采用RDF三元組形式表示知識,而非謂詞邏輯。ConceptNet不再完全由專家來制定結(jié)構(gòu)、層級、語義體系,而是引入了互聯(lián)網(wǎng)眾包和互聯(lián)網(wǎng)挖掘的方式,屬于半自動、半人工的構(gòu)建方式。ConceptNet中的所有概念都來自于真實文本,概念之間的關(guān)系可根據(jù)文本的統(tǒng)計數(shù)據(jù)確定。這種從文本中自動抽取的關(guān)系并不是由專家事先制定好的,它只強調(diào)詞與詞之間存在的關(guān)系,而不再強調(diào)知識庫整體的語義完整性。這表明ConceptNet已向“弱語義”知識庫過渡。(4)1988年,知網(wǎng)(HowNet)60前面三個知識庫均以英文為主。近幾年也開始擴展到中文,如wordnet、conceptnet都已經(jīng)加入了中文詞匯。知網(wǎng),意為知識網(wǎng)絡(luò),1988年由中科院的董振東先生提出。知網(wǎng)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。知網(wǎng)是一個網(wǎng)狀結(jié)構(gòu)的知識系統(tǒng),采用自下而上的、歸納的建設(shè)方法。在知網(wǎng)的知識體系中,最基本的、不易于再分割的最小語義單位稱為義原(Sememe)。義原是由人類專家通過大量閱讀文本、逐步精煉而人工得到的,進而再用義原標(biāo)注、解釋事件和概念,然后加入概念、屬性之間的關(guān)系,構(gòu)成網(wǎng)絡(luò)。HowNet還在持續(xù)發(fā)展中,目前也已經(jīng)有公開版本OpenHowNet問世。2.弱語義階段的典型知識圖譜61進入互聯(lián)網(wǎng)時代后,許多學(xué)者開始嘗試?yán)脵C器學(xué)習(xí)、信息抽取等技術(shù)自動從互聯(lián)網(wǎng)獲取詞匯知識。華盛頓大學(xué)的TextRunner(現(xiàn)改為OpenIE,開放信息抽取系統(tǒng))??▋?nèi)基梅隆大學(xué)的NELL(Never-EndingLanguageLearning)這些系統(tǒng)不需要手工標(biāo)注,而是完全利用算法,以互聯(lián)網(wǎng)網(wǎng)頁上的文本為知識源,自動分析、發(fā)現(xiàn)其中的概念以及概念之間的關(guān)系。優(yōu)點:很容易獲得大量知識。缺點:雖然互聯(lián)網(wǎng)上信息量龐大,但知識密度很低,且信息質(zhì)量良莠不齊,獲取知識的準(zhǔn)確率和效率均比較低。若想自動構(gòu)建高質(zhì)量的知識庫,必須具有知識密集、格式統(tǒng)一、大規(guī)模的知識源。2010年前后,隨著在線百科網(wǎng)站的興起,這種知識源逐漸成熟,其中最著名的就是眾所周知的維基百科,Wikipedia。另一條路:Wikipedia62維基百科是一個網(wǎng)絡(luò)百科全書式的多語言知識庫,其特點:可自由添加內(nèi)容、自由編輯詞條。它以互聯(lián)網(wǎng)和Wiki技術(shù)(即支持社群協(xié)同寫作的一種超文本技術(shù),還包括一組支持這種寫作方式的輔助工具)為媒介,由全球各地的志愿者們合作編撰而成。每個詞條包含用相應(yīng)語言描述的實體、概念及其屬性、屬性值信息。目前維基百科一共有285種語言版本,其中英語、德語、法語、荷蘭語、意大利語、波蘭語、西班牙語、俄語、日語版本已有超過100萬篇條目,中文和葡萄牙語版本有超過90萬篇條目。維基百科等在線百科網(wǎng)站為知識圖譜的自動構(gòu)建奠定了基礎(chǔ)。目前,大多數(shù)通用的知識圖譜均是通過對維基百科進行自動分析構(gòu)建的。在線百科全書
Wikipedia63從Freebase到WikidataDbpediaYAGOBabelNet基于在線百科的知識圖譜64Freebase是一個開放共享的、協(xié)同構(gòu)建的大規(guī)模鏈接知識庫,是由MetaWeb公司于2005年啟動的一個語義Web應(yīng)用項目。其主要數(shù)據(jù)來源包括維基百科、世界名人數(shù)據(jù)庫、開放音樂數(shù)據(jù)庫,以及社區(qū)用戶的貢獻等。早期的FreeBase由社區(qū)成員協(xié)作,人工提取知識源中的知識,將其構(gòu)建為Freebase格式的三元組形式。Freebase是典型的“弱語義”知識庫,它對知識庫中的實體和關(guān)系不做嚴(yán)格的控制,完全由用戶來創(chuàng)建、編輯。2010年,谷歌收購了MetaWeb公司,將Freebase作為其知識圖譜的重要數(shù)據(jù)來源,并于2012年發(fā)布谷歌知識圖譜。(1)從FreeBase到Wikidata652015年5月,谷歌將Freebase的數(shù)據(jù)和API服務(wù)整體遷移至Wikidata,并于2016年5月正式關(guān)閉了Freebase服務(wù)。Wikidata改進了Freebase的結(jié)構(gòu),以提高數(shù)據(jù)的質(zhì)量,并與Wikipedia深度結(jié)合。(1)從FreeBase到Wikidata66
Wikidata繼承了Wikipedia的眾包協(xié)作機制。Wikidata與Wikipedia不同的是:Wikidata支持以事實三元組為基礎(chǔ)的知識條目編輯。2007年,德國的大學(xué)建立了DBpedia,它是一個基于維基百科的語義Web應(yīng)用項目。DBpedia旨在將Wikipedia中的知識系統(tǒng)化、規(guī)范化、結(jié)構(gòu)化,以提升維基百科的搜索功能。DBpedia可看成是數(shù)據(jù)庫版本的Wikipedia,是從Wikipedia中抽取出來的鏈接數(shù)據(jù)集。此外,DBpedia還是LOD(LinkedOpenData)計劃的核心,與Freebase,OpenCYC、Bio2RDF等多個數(shù)據(jù)集建立了數(shù)據(jù)鏈接。DBpedia是目前已知的第一個大規(guī)模開放域鏈接數(shù)據(jù)。而且DBpedia還能自動與維基百科保持同步,覆蓋多種語言。與Freebase不同,DBpedia定義了一套較為嚴(yán)格的語義體系,采用RDF三元組語義數(shù)據(jù)模型。(2)DBpedia67YAGO是由德國馬普研究所研制于2007年開始構(gòu)建的多語言知識圖譜,主要集成了Wikipedia、WordNet和GeoNames三個來源的數(shù)據(jù)。YAGO的特點:將WordNet的詞匯定義與Wikipedia的分類體系進行了知識融合,構(gòu)建了一個復(fù)雜的、豐富的實體分類層次體系。YAGO還考慮了時間和空間知識,為很多知識條目增加了時間和空間維度的屬性描述。值得一提的是,YAGO是IBMWatson的后端知識庫之一。(3)YAGO68(4)BabelNet69BabelNet是于2013年開始創(chuàng)建的,其功能類似于WordNet,是一個多語言百科全書式的字典和大規(guī)模語義網(wǎng)絡(luò)。BabelNet特點:以自動映射的方式,將WordNet詞典與Wikipedia多語言百科全書進行鏈接整合;而且借助統(tǒng)計機器翻譯來補充,解決了WordNet中小語種資源缺乏的問題。BabelNet核心思想:Wikipedia中的許多詞條都具有多語言版本,因此,如果在Wikipedia中能找到與WordNet中的某詞條相匹配的條目,則相當(dāng)于為WordNet的該詞條提供了多語言的版本。BabelNet4.0版本是目前最大規(guī)模的多語言詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 提振消費評估機制與效果反饋實施方案
- 2025年保健休閑用品項目合作計劃書
- 個人電路租賃合同范本
- 南沙電梯維護合同范本
- 口腔噴霧采購合同范本
- 商業(yè)演出舉辦合同范例
- ppp履約合同范本
- 企業(yè)采購手機合同范本
- 商品采購配送合同范例
- 2025年制芯機項目發(fā)展計劃
- 鋼筋工安全操作規(guī)程
- 國家基本藥物培訓(xùn)課件
- 煤礦安全管理人員考試題庫與答案(G卷)
- SMP-07-008-00 印刷性包裝材料管理規(guī)程
- 2024年深圳市優(yōu)才人力資源有限公司招考聘用綜合網(wǎng)格員(派遣至吉華街道)高頻難、易錯點500題模擬試題附帶答案詳解
- 旅游景區(qū)物業(yè)管理服務(wù)方案
- 華能內(nèi)蒙古東部能源有限公司招聘筆試題庫2024
- 山東省濟南市2024年中考數(shù)學(xué)試卷【附真題答案】
- 橫紋肌溶解癥護理查房
- 風(fēng)機高空逃生裝置使用
- 孤殘兒童護理員技能鑒定考試題庫(含答案)
評論
0/150
提交評論