中文問句與RDF三元組映射方法研究_第1頁
中文問句與RDF三元組映射方法研究_第2頁
中文問句與RDF三元組映射方法研究_第3頁
中文問句與RDF三元組映射方法研究_第4頁
中文問句與RDF三元組映射方法研究_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

77-中文問句與RDF三元組映射方法研究**本文受“十一五”科技支撐計(jì)劃課題“網(wǎng)絡(luò)科技信息監(jiān)測與評價(jià)”(2006BAH03B05)資助。許德山1,2張智雄1趙妍3(1中國科學(xué)院國家科學(xué)圖書館,北京100190)(2中國科學(xué)院研究生院,北京100049)(3鄭州航空工業(yè)管理學(xué)院計(jì)算機(jī)科學(xué)與應(yīng)用系,鄭州450015)[摘要]主要探索中文問句與RDF三元組的轉(zhuǎn)換方法。文章首先對中文問句的特點(diǎn)進(jìn)行了分析,然后結(jié)合RDF(S)模型的優(yōu)勢,探索了RDF三元組與問句語義的對應(yīng)關(guān)系,進(jìn)而提出了直接映射和間接映射兩種映射方式。該方法只需做淺層的句法分析,將獲取的限定成分映射為三元組內(nèi)部的語義標(biāo)簽,從而降低了句法分析和三元組組配的難度。最后分析了映射方法中存在的問題并提出未來工作的重點(diǎn)。[關(guān)鍵詞]問題分類;RDF模型映射;三元組映射[分類號]TP391AResearchonChineseInterrogativeSentencesandRDFTriplesMappingMethodsDeshanXu1,2ZhixiongZhang1YanZhao3(1TheNationalScienceLibrary,ChineseAcademyofSciences,(2GraduateUniversityofChineseAcademyofSciences,Beijing100(3DepartmentofcomputerScienceandApplication,ZhenzhouCollegeofAeronauticalIndustryManagement,Zhengzhou450015)[Abstract]ThispaperintroducestwomappingmethodsbetweenChineseinterrogativesentencesandRDFtriples.WefirstlyanalyzethecharacteristicsoftheChinesequestionsanddiscusstherelationshipbetweentheRDFtriplesandthequestionsaccordingtotheadvantagesofRDF(S)model.Furthermore,weproposedtwomappingmethods-directandindirect.Onlyshallowparsingneedstobedoneduringprocessing,andthentherestrictivechunksaremappedintosemanticlabelsinsidetriple,sothemethodsmakethesyntacticparsingandthetriplesassemblingeaser.Finally,weanalyzetheopenissueinthemethodsandshowourexpectationinthefuture.[Keyword]QuestionClassification; RDFModelMapping; TripleMapping引言國際萬維網(wǎng)聯(lián)盟(W3C)也推出了面向語義檢索的標(biāo)準(zhǔn)查詢語言SPARQL,用來完成對RDF本體的各種檢索。但SPARQL的使用并不簡單,需要了解本體知識(shí)庫的組織方式,并學(xué)會(huì)用SPARQL的語法來表達(dá)自己的查詢意圖,這就為普通用戶帶來了不便。為此本文試圖探索一種映射方法:用戶只需用自然語言來表達(dá)自己的查詢意圖,系統(tǒng)自動(dòng)完成問題到SPARQL的轉(zhuǎn)換和概念推理,然后返回查詢結(jié)果。1中文問句的特征分析本文的研究主要針對由關(guān)鍵成分(主、謂、賓等)和修飾成分(定、狀、補(bǔ)等)構(gòu)成的標(biāo)準(zhǔn)問句進(jìn)行分析,這類問句結(jié)構(gòu)完整,意思表達(dá)明確,容易進(jìn)行形式化處理。具體來看主要存在下列特征。=1\*GB3①句子短小,主旨明確。通常根據(jù)問句的疑問特點(diǎn)將其分為是非問句,選擇問句,特指問句[1]。其中特指問句使用的比例最大,也最有實(shí)際意義。特指問句的特點(diǎn)是對特定的疑問對象進(jìn)行發(fā)問,以獲取與此對象相關(guān)的信息,涉及的答案往往是與人、地點(diǎn)、時(shí)間、數(shù)量、事情、機(jī)構(gòu)等命名實(shí)體有關(guān)的事實(shí)、列舉、定義等問題。=2\*GB3②具有特定的疑問詞。疑問詞對所問內(nèi)容的類型及其范圍具有很強(qiáng)的限定作用。如“哪兒”、“哪里”、“何處”等往往詢問地點(diǎn)或方位,“誰”、“何人”、“哪個(gè)人”等詢問特定的某個(gè)人。另外有一些特定的疑問詞,具有很強(qiáng)的構(gòu)詞能力,通過與其它的名詞結(jié)合能夠構(gòu)成疑問短語,可以對特定的內(nèi)容進(jìn)行提問,如“什么”、“哪”、“何”等。2問句成分提取策略問句的分析與映射是語義檢索系統(tǒng)工作流程中一個(gè)重要的環(huán)節(jié),通常需要完成以下幾部分工作:問句分詞和詞性標(biāo)注、確定問題的類型、確定問題的焦點(diǎn)、確定答案的類型、關(guān)鍵成分提取、關(guān)鍵詞擴(kuò)展、語義三元組構(gòu)建、SPARQL表達(dá)式生成。為了對問句的詞匯特征進(jìn)行分析和統(tǒng)計(jì),本文使用了哈工大信息檢索實(shí)驗(yàn)室提供的問題集合[2],使用ICTCLAS[3]對訓(xùn)練集合中的5000條問句進(jìn)行分詞和詞性標(biāo)注處理,并按各種詞性出現(xiàn)頻率的降序排列,其前十位的次序如下表所示。圖1特定詞性的詞頻統(tǒng)計(jì)分析從上面的統(tǒng)計(jì)中可以看出,中文問句中頻次最高的是名詞(n)、代詞(r)、動(dòng)詞(v)、形容詞(a),所以對問句關(guān)鍵詞的提取主要是以上述詞性的詞匯為主。句子中做主語和賓語的多為名詞或代詞,作謂語的多為動(dòng)詞或形容詞,作限定成分的多為形容詞、副詞。有些句子中不一定有這種對應(yīng)關(guān)系,但關(guān)鍵詞成分比較固定,其詞匯序列按一定的句法結(jié)構(gòu)進(jìn)行組合,可以表達(dá)出問句的意義。通過分析本文將問句的成分劃分為下列類型:表1問句成分的劃分問句成份說明問題類型<question>主要根據(jù)疑問詞和詞頻統(tǒng)計(jì)獲取問題的分類疑問對象<topic>問句提問的中心對象一般做句子的主語、賓語或定語,主要提取名詞、動(dòng)詞結(jié)構(gòu)疑問焦點(diǎn)<focus>疑問對象的某個(gè)分面屬性,也是答案所在,主要提取定義、特點(diǎn)、分類、內(nèi)容等特殊詞或它們的組合標(biāo)識(shí)疑問限制<limit>答案必須滿足的條件,多為形容詞、副詞等修飾詞問句中各種成分的提取是實(shí)現(xiàn)問句到RDF三元組映射的基礎(chǔ)工作,每種成分分析的越精確,映射效果越精確,檢索效果越好。2.2基于疑問詞的問題分類問題的類型與疑問詞有很大的關(guān)系,本文主要根據(jù)疑問詞-問句類型二者之間的關(guān)聯(lián)性,來建立面向語義的問句分類體系。這種分類方法與命名實(shí)體的分類有些類似,其主要目的是方便計(jì)算機(jī)處理,能夠根據(jù)疑問詞與其它詞匯搭配來確定疑問傾向和問題類型[4]。通過問句的類型的分析,能夠?qū)Υ鸢傅男再|(zhì)進(jìn)行限定,使檢索結(jié)果更加精確。整個(gè)分類過程采用兩步進(jìn)行,首先依據(jù)疑問詞將問句進(jìn)行大類的分類。有些疑問詞具有多種疑問傾向,無法直接判斷是哪個(gè)類型,還要根據(jù)疑問詞與其它詞匯搭配和語義關(guān)系來進(jìn)行判斷。為此我們在對哈工大信息檢索實(shí)驗(yàn)室的問題集進(jìn)行分詞、標(biāo)注的基礎(chǔ)上形成模版,保存其詞匯的搭配信息,并形成了面向領(lǐng)域的問題分類,以滿足領(lǐng)域本體知識(shí)庫的檢索需求。經(jīng)過兩層分類,問句就可以比較精確的歸入預(yù)定義的類型中。其分類體系如下表2所示:表2疑問詞與問題分類問句類型數(shù)量原因方法內(nèi)容性質(zhì)位置定義人事物時(shí)間疑問詞多少幾個(gè)為何為什么怎么怎么怎樣怎么樣有什么是什么有哪些怎么什么什么樣何處何地何方哪兒哪里是什么作何解如何解釋誰哪位什么哪些哪年哪月哪日哪天何年何月何日映射標(biāo)簽qm:數(shù)量qm:原因qm:方法qm:包含qm:具有qm:位于qm:定義qm:人物qm:事物qm:時(shí)間 3問句成分與RDF三元組的對應(yīng)關(guān)系3.1問句的語序分析標(biāo)準(zhǔn)的中文問句結(jié)構(gòu)完整,成分的排列具有特定的順序,而RDF三元組-<主語><謂詞>客體>的形式化表示正好符合問句的表達(dá)順序,這就為兩者進(jìn)行語義映射提供了基礎(chǔ)。由于特指問句主要針對主體的某個(gè)屬性進(jìn)行提問,盡管提問的方式多種多樣,但歸納起來主要有兩種排列句型,一種是疑問對象位于句子的前部,疑問焦點(diǎn)排列在疑問對象的后面,句子的尾部是疑問詞,問題的答案就是疑問詞所指代的信息。另一種提問方式與此相反,疑問詞位于句子的前部充當(dāng)疑問對象,疑問焦點(diǎn)位于疑問詞的后方,句子的尾部為疑問對象的相關(guān)信息。雖然兩種句型的排列順序不同,但其疑問的意向是相同的,疑問成分也一致,經(jīng)過問句解析后應(yīng)該形成相同的分析信息。3.2SPARQL檢索式中的三元組結(jié)構(gòu)SPARQL(SimpleProtocolandRDFQueryLanguage)是一種面向RDF數(shù)據(jù)模型的查詢語言和數(shù)據(jù)訪問協(xié)議,現(xiàn)在已成為W3C的推薦標(biāo)準(zhǔn)[5-6]。SPARQL的語法規(guī)則與SQL語言有些類似,SELECT后面是檢索變量,里面存儲(chǔ)查詢后的結(jié)果。FROM子句標(biāo)明進(jìn)行查詢的知識(shí)庫。WHERE子句后面是檢索的條件,所有的條件都以三元組的形式表示。SPARQL查詢語言通過圖形模式(GraphPattern)匹配實(shí)現(xiàn)查詢功能。最簡單的圖形模式是三元組模式,三元組模式允許查詢變量出現(xiàn)在主體、謂詞或者客體的位置上,在進(jìn)行三元組元素的映射時(shí),疑問對象放置在三元組主體的位置,中間的謂詞由疑問焦點(diǎn)充當(dāng),客體的位置是未知變量,也就是問題的所在之處。當(dāng)用戶從接口輸入檢索關(guān)鍵詞時(shí),可以直接將輸入的關(guān)鍵詞與本體中的詞匯進(jìn)行相似度計(jì)算。如果用戶輸入的是自然語言問句,則需要將問句進(jìn)行分詞處理,并分析整個(gè)句子的句法結(jié)構(gòu),抽取出檢索成分。通過問句結(jié)構(gòu)和RDF三元組結(jié)構(gòu)的對比分析,初步歸納出下列映射關(guān)系:SELECT?答案1,?答案2,?答案nFROM<Ontology>WHERE{疑問對象疑問焦點(diǎn)?答案1.疑問對象疑問焦點(diǎn)?答案2.疑問對象疑問焦點(diǎn)?答案n.}4語義映射的實(shí)現(xiàn)方法上述的映射規(guī)則使得問題求解轉(zhuǎn)化為三元組與知識(shí)庫中概念結(jié)構(gòu)的匹配過程,通過綁定查詢變量和RDF詞匯,將變量替換成相應(yīng)的RDF詞匯,就可以實(shí)現(xiàn)圖與三元組的匹配。為了更好的與RDF(S)的語義信息融合,筆者以上述分類為基礎(chǔ),建立了本體模型,并以qm作為其命名空間/info/semantictechnology/questionmaping#的前綴。三元組中涉及的疑問傾向、疑問類型等詞匯標(biāo)簽主要來自于該模型。同時(shí),為了處理自然問句中存在的含義相同但表達(dá)不同的詞匯,我們參考了哈工大信息檢索研究室同義詞詞林,利用該詞典將問句中含義相同的詞匯轉(zhuǎn)換為特定的詞匯標(biāo)識(shí),其命名空間為PREFIXsb:/info/semantictechnology/synonymbag#。此外,問句的轉(zhuǎn)換過程中還利用了RDF、RDFS、XMLSchema等元數(shù)據(jù)作為標(biāo)簽以表示句子中的限定性約束和數(shù)量單位等信息。其相應(yīng)的命名空間如下所示[7-9]:PREFIXrdf:/1999/02/22-rdf-syntax-ns#PREFIXrdfs:/2000/01/rdf-schema#PREFIXxsd:/2001/XMLSchema#領(lǐng)域知識(shí)在本體知識(shí)庫中以概念節(jié)點(diǎn)的形式連成一個(gè)復(fù)雜的網(wǎng)絡(luò),為了盡可能詳盡的描述領(lǐng)域知識(shí),概念的描述詞匯盡量做到形式和含義最小化,從而通過組合表示更復(fù)雜的概念。根據(jù)疑問對象和疑問焦點(diǎn)在本體知識(shí)庫中映射的距離,可以分為直接關(guān)系映射和間接關(guān)系映射。4.1基于概念詞匯的直接映射直接關(guān)系是指概念間通過單一屬性關(guān)系產(chǎn)生聯(lián)系,利用三元組可以直接表示其語義。直接映射的實(shí)現(xiàn)較為簡單,可以通過相似度計(jì)算將疑問對象和疑問焦點(diǎn)映射為三元組的元素,進(jìn)而生成檢索表達(dá)式。直接映射的過程可分為下列4個(gè)步驟:=1\*GB3①將問句進(jìn)行處理并獲取各種成分;=2\*GB3②對問句進(jìn)行分類,獲取問題的類型;=3\*GB3③將疑問對象和疑問焦點(diǎn)映射到三元組的主體和謂詞部分,組合成檢索三元組;=4\*GB3④將三元組填入SPARQL表達(dá)式的特定位置,組成檢索語句。例如下面的問句經(jīng)過上述處理后,直接映射為單獨(dú)的三元組,然后組配為檢索表達(dá)式。問題<question>:API的全稱是什么?分詞<segment>:API/nx的/u全稱/n是/v什么/r?/w疑問詞<inqueryword>:什么/r疑問類型<questiontype>:內(nèi)容(content)疑問對象<topic>:API/nx疑問焦點(diǎn):全稱/n疑問限制:無查找方式;

直接映射<dirict〉三元組:{ex:APIsb:全稱?answer.}檢索語句:PREFIXex:/example#select?answerFROM</example#>WHERE{ex:APIsb:全稱?answer.}4.2基于概念關(guān)系的間接映射間接關(guān)系是指概念間無法通過單一屬性關(guān)系產(chǎn)生聯(lián)系,但概念間存在關(guān)系鏈,能夠利用其它概念作為中介,通過多個(gè)屬性關(guān)系的組合建立聯(lián)系。間接映射的實(shí)現(xiàn)較為復(fù)雜,首先要獲取句子的疑問對象,然后將其他成分圍繞疑問對象進(jìn)行組配,通過多個(gè)三元組的組合來引導(dǎo)檢索表達(dá)式的動(dòng)態(tài)生成。為了能夠以更細(xì)的粒度表示相關(guān)知識(shí),在進(jìn)行轉(zhuǎn)換時(shí)盡量以最小的知識(shí)單元來組成三元組,復(fù)雜的概念通過三元組的組配來表示。間接映射的處理過程如下所示:=1\*GB3①將問句進(jìn)行處理并獲取各種成分;=2\*GB3②將疑問對象映射到第一個(gè)三元組的主語或賓語上;=3\*GB3③以疑問對象主語或賓語,將限定條件作為連接條件組配為擴(kuò)展三元組;=4\*GB3④按照句子結(jié)構(gòu)將其他限定條件連接為三元組,并將疑問焦點(diǎn)作為最后一個(gè)三元組的謂詞;=5\*GB3⑤將多個(gè)三元組填入SPARQL表達(dá)式的特定位置,組成檢索語句。下面的問句經(jīng)過處理后映射為多個(gè)三元組,三元組間通過共有的元素形成鏈路,進(jìn)而組配成檢索表達(dá)式。問題<question>:世界上最大的冰川在哪個(gè)洲?分詞<segment>:世界上最大的/a冰川/n在/p哪個(gè)/r洲/ng?/w疑問詞<inqueryword>:哪個(gè)/r疑問類型<questiontype>:位置(location)疑問對象<topic>:冰川/n疑問限制:世界上最大的/a疑問焦點(diǎn):洲/ng查找方式;間接映射<indirect〉三元組:{?srdf:typeex:冰川.?srdfs:commentex:世界上最大.?sqm:位于?o.?ordf:typeex:洲.}檢索語句:PREFIXex:/example#select?answerFROM</example#>WHERE{?srdf:typeex:冰川.?srdfs:commentex:世界上最大.?sqa:位于?o.?ordf:typeex:洲.}對中文句子做較為詳細(xì)的句法分析一直是自然語言處理領(lǐng)域的難題,而利用語義三元組來進(jìn)行表示只需做淺層的句法分析,獲取三元組內(nèi)部相應(yīng)的限定關(guān)系即可。對于句子中的一些形容詞、副詞等限定性成分,在轉(zhuǎn)換的過程中無需做細(xì)致的分析,統(tǒng)一作為修飾性描述加入rdfs:comment標(biāo)簽。從而避免了句法分析的難度,也使得三元組的組配和檢索更容易操作。5實(shí)驗(yàn)分析為了對上述方法的效果進(jìn)行測試,本文從哈工大信息檢索實(shí)驗(yàn)室提供的測試集合中按照直接映射和間接映射的句型結(jié)構(gòu)各選擇了100條問句進(jìn)行測試。實(shí)驗(yàn)結(jié)果如下表3所示:表3映射結(jié)果映射類型直接映射間接映射數(shù)量100100正確的數(shù)量7854正確率78%54%結(jié)果顯示,直接映射的成功率較高,而間接映射的實(shí)現(xiàn)較為困難。通過分析我們發(fā)現(xiàn)造成映射失誤的原因有以下幾條:1)詞語的切分精度分詞的粒度和準(zhǔn)確性對三元組元素的正確轉(zhuǎn)換有很大的影響。當(dāng)前采用的分詞工具切分粒度過細(xì),較長的專有名詞沒能做到完整的切分,例如,“阿拉伯聯(lián)合酋長國的簡稱是什么?”一句,經(jīng)過詞性標(biāo)注后成為“阿拉伯/n聯(lián)合/v酋長國/n的/u簡稱/n是/v什么/r”,轉(zhuǎn)換為檢索表達(dá)式后造成三元組主語混亂。如果在初步切分的基礎(chǔ)上利用專有名詞和復(fù)合名詞詞典進(jìn)行校正,可以提高分詞的準(zhǔn)確性。2)修飾語復(fù)雜程度直接映射與間接映射的計(jì)算復(fù)雜度不同,直接映射較為簡單,其處理過程主要是分析問句的主、謂、賓成分,而間接映射不僅要分析上述成分,還要處理主語與各種修飾成分的關(guān)系。有的問句修飾成分過長,僅從詞匯層面考慮映射還無法達(dá)到較高轉(zhuǎn)換精度,需要進(jìn)行句法分析,從句子成分所充當(dāng)?shù)恼Z義功能出發(fā),分析各功能成分間的信息傳遞方式,提高句型模式與三元組的映射精度。5總結(jié)問句的分析和理解是實(shí)現(xiàn)智能化知識(shí)服務(wù)的基礎(chǔ),而問句的形式化描述,問題的語義化表示是通往知識(shí)檢索的必由之路。本文通過對中文問句的分析,結(jié)合RDF(S)模型在知識(shí)表示中的優(yōu)勢,提出了RDF三元組與問句語義的映射思路,將映射方法分為直接映射和間接映射兩種方式,從而降低了句法分析和三元組組配的難度。此外,我們還注意到,映射成分與后臺(tái)知識(shí)庫的組織結(jié)構(gòu)密切相關(guān),語義三元組的組配也要考慮后臺(tái)知識(shí)結(jié)構(gòu)的影響和約束。對于上述的不足,我們將在后期的工作中進(jìn)行完善并做進(jìn)一步的驗(yàn)證。參考文獻(xiàn)[1]朱德熙.語法講義[M].北京:商務(wù)印書館,2007:202.[2]劉挺.哈工大信息檢索研究室對外共享語料庫資源[EB/OL].[2010-08-25]./demo/ltp/Sharing_Plan.htm.[3]張華平,劉群.計(jì)算所漢語詞法分析系統(tǒng)ICTCLAS[EB/OL].[2010-08-25]./project/project.php?proj_id=6[4]余正濤,樊孝忠,郭劍毅.基于支持向量機(jī)的漢語問句分類[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,33(9):25-29.[5]LEEFEIGENBAUM,ELIASTORRES,KENDALLGRANTCLARK.SPARQLProtocolforRDF[EB/OL].(2007-11-12)[2010-08-25]./TR/2007/P

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論