科技文獻(xiàn)多維語義索引的設(shè)計(jì)、實(shí)現(xiàn)及應(yīng)用,文獻(xiàn)檢索論文_第1頁
科技文獻(xiàn)多維語義索引的設(shè)計(jì)、實(shí)現(xiàn)及應(yīng)用,文獻(xiàn)檢索論文_第2頁
科技文獻(xiàn)多維語義索引的設(shè)計(jì)、實(shí)現(xiàn)及應(yīng)用,文獻(xiàn)檢索論文_第3頁
科技文獻(xiàn)多維語義索引的設(shè)計(jì)、實(shí)現(xiàn)及應(yīng)用,文獻(xiàn)檢索論文_第4頁
科技文獻(xiàn)多維語義索引的設(shè)計(jì)、實(shí)現(xiàn)及應(yīng)用,文獻(xiàn)檢索論文_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

科技文獻(xiàn)多維語義索引的設(shè)計(jì)、實(shí)現(xiàn)及應(yīng)用,文獻(xiàn)檢索論文摘要:[目的/意義]文章從科技文獻(xiàn)檢索應(yīng)用的背景出發(fā),提出了當(dāng)前檢索系統(tǒng)沒有能知足廣大科研工作者的語義檢索需求,為了解決這一問題,提出了多維語義索引的新思路。[方式方法/經(jīng)過]首先在總結(jié)歸納國內(nèi)外相關(guān)研究中主要的語義索引構(gòu)建方式方法的基礎(chǔ)上得出了要采用的構(gòu)建方式方法,然后具體介紹了多維語義索引的設(shè)計(jì)思路和整體框架,最后以面向物理領(lǐng)域科技文獻(xiàn)為例,介紹了其詳細(xì)實(shí)現(xiàn)流程。[結(jié)果/結(jié)論]從怎樣針對科技文獻(xiàn)內(nèi)部細(xì)粒度知識及其之間的關(guān)聯(lián)關(guān)系揭示的角度驗(yàn)證了多維語義索引在語義檢索實(shí)際應(yīng)用中的良好效果。本文關(guān)鍵詞語:科技文獻(xiàn)檢索;多維語義索引;細(xì)粒度;構(gòu)建方式方法;本體;自然語言處理技術(shù);Abstract:[Purpose/significance]Basedontheapplicationofscientificliteratureretrieval,wefoundthatcurrentscientificliteratureretrievalsystemcannotmeetthesemanticretrievalneedsofthemajorityofscientificresearchers.Inordertosolvethisproblem,weproposedanewideaformultidimensionalsemanticindexingofscientificliterature.[Method/process]Basedonpreviouslyprevalentmethodsofsemanticindexingconstruction,weproposedanewconstructionmethodandillustratedthedesignideaandtheoverallframeworkofthemultidimensionalsemanticindexingorientedtothescientificliterature.Finally,thespecificimplementationprocesswasintroducedwiththephysics-orientedscientificliteratureasanexample.[Result/conclusion]Thegoodeffectofmultidimensionalsemanticindexinginthepracticalapplicationofsemanticretrievalisverifiedfromtheperspectiveofhowtorevealfine-grainedknowledgewithinscientificliteratureandtheassociationrelationshipsbetweenthem.Keyword:scientificliteratureretrieval;multidimensionalsemanticindex;fine-grained;constructionmethod;ontology;naturallanguageprocessingtechnology;科技文獻(xiàn)檢索是廣大科研工作者研究經(jīng)過中不可或缺的一項(xiàng)工作,在電子文獻(xiàn)資源高速增長的時(shí)代,傳統(tǒng)的文獻(xiàn)檢索系統(tǒng)查詢效果往往難以知足用戶的語義檢索需求。究其原因,這些檢索系統(tǒng)一般以整篇文獻(xiàn)為單位揭示文獻(xiàn)的粗粒度知識,沒有能對文獻(xiàn)內(nèi)部細(xì)粒度知識進(jìn)行深切進(jìn)入語義理解與揭示,這樣導(dǎo)致其檢索結(jié)果不盡如人意。因而怎樣實(shí)現(xiàn)文獻(xiàn)內(nèi)部細(xì)粒度知識的語義檢索成為學(xué)者們研究的重點(diǎn)問題,這個(gè)問題的解決能夠使科研工作者快速把握其主要知識內(nèi)容,對于揭示華而不實(shí)的科學(xué)知識具有重大意義。為此,本文嘗試從揭示文獻(xiàn)內(nèi)部細(xì)粒度知識的角度出發(fā),研究面向科技文獻(xiàn)的多維語義索引的構(gòu)建思路及實(shí)現(xiàn)經(jīng)過,并將其應(yīng)用到語義檢索系統(tǒng)中。本文主要針對其設(shè)計(jì)思路、實(shí)現(xiàn)經(jīng)過以及實(shí)際應(yīng)用效果進(jìn)行闡述。1、語義索引構(gòu)建方式方法相關(guān)研究近年來,語義索引領(lǐng)域的相關(guān)研究得到國內(nèi)外學(xué)者的廣泛關(guān)注。語義索引的研究牽涉信息檢索、人工智能、數(shù)據(jù)挖掘等諸多領(lǐng)域,相關(guān)的應(yīng)用實(shí)踐較為豐富,綜合看來主要采用了3種實(shí)現(xiàn)方式方法:1〕基于詞表和知識管理技術(shù)。詞表和知識管理技術(shù)包括分類與詞表管理、本體管理、知識圖譜等。從資源組織的角度來看,基于詞表和知識管理技術(shù)構(gòu)建語義索引就是基于已有的詞表、本體和知識圖譜對文檔進(jìn)行語義描繪敘述,再對語義描繪敘述后的文檔構(gòu)建語義索引。GoPubMed[1]利用Gene本體和MeSH詞表對PubMed文獻(xiàn)進(jìn)行語義標(biāo)引,為標(biāo)引出來的生物醫(yī)學(xué)概念建立語義索引,在檢索經(jīng)過中,用戶可通過閱讀與檢索詞相關(guān)的生物醫(yī)學(xué)概念來規(guī)范檢索輸入。Buscaldi等[2]介紹了一種通過本體標(biāo)注文檔中概念的語義檢索系統(tǒng)YaSemIR,不同領(lǐng)域下的本體都適用這個(gè)系統(tǒng)。于曉巍結(jié)合本體和索引技術(shù),設(shè)計(jì)出基于本體的文本標(biāo)引系統(tǒng),并提出了基于本體的途徑索引和倒排索引結(jié)合的語義索引方式方法[3]。Google基于知識圖譜〔KnowledgeGraph〕里描繪敘述的人、地點(diǎn)、物體間的互相關(guān)系構(gòu)建語義索引[4]。SpringerNature基于科研圖譜〔SciGraph〕里描繪敘述的科研贊助機(jī)構(gòu)、科研項(xiàng)目、會議、科研單位和出版物的信息建立語義索引[5]。2〕基于隱語義索引。隱語義索引(LatentSemanticIndexing,LSI)又稱為潛在語義索引,它是利用統(tǒng)計(jì)方式方法計(jì)算得到文檔中詞匯之間的上下文語義關(guān)系,并為其構(gòu)建語義索引。Roger等考慮了詞語對的關(guān)聯(lián)性,并根據(jù)關(guān)聯(lián)性強(qiáng)度快速地構(gòu)建了一個(gè)潛在語義索引分析系統(tǒng)[6]。莫海波在支持向量機(jī)分類算法和改良的K-近鄰算法的基礎(chǔ)上,利用隱語義索引對文檔進(jìn)行分類[7]。3〕基于自然語言處理技術(shù)。自然語言處理技術(shù)〔NLP)包括命名實(shí)體辨別、關(guān)系抽取、文本分類等。從智能化處理角度來看,基于自然語言處理技術(shù)構(gòu)建語義索引通常指對文檔進(jìn)行語義標(biāo)注,然后再為語義標(biāo)注后的文檔構(gòu)建語義索引。Yan等提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)〔CNN〕學(xué)習(xí)語義表示來解決生物醫(yī)學(xué)抽象索引的新模型,并設(shè)計(jì)了生物醫(yī)學(xué)抽象文檔語義索引的比擬實(shí)驗(yàn),在MEDLINE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表示清楚,該模型比傳統(tǒng)模型具有更好的性能[8]。Quertle[9]是一個(gè)關(guān)系驅(qū)動的生物醫(yī)學(xué)文獻(xiàn)檢索工具,它首先使用自然語言處理技術(shù)從生物醫(yī)學(xué)文獻(xiàn)中抽取生物醫(yī)學(xué)實(shí)體(如疾病、基因、藥物)以及實(shí)體之間的一般或特殊關(guān)系,然后建立語義關(guān)系索引、本文關(guān)鍵詞語索引和輔助索引三種索引,用于查找用戶輸入的檢索詞和提問,并返回檢索結(jié)果。NCBI,NLM,NIH推出的LitVar是基于2700萬PMC內(nèi)容摘要和180萬PMC全文進(jìn)行語義標(biāo)注,利用BiocXML格式處理了全部PubMed內(nèi)容摘要和PMC全文,然后使用實(shí)體標(biāo)記提取所有變異及其相關(guān)實(shí)體〔即基因、疾病、化學(xué)和物種〕等信息,最后為提取的實(shí)體及歸一化關(guān)系構(gòu)建語義索引[10]。倫敦大學(xué)/南京大學(xué)推出的SemEHR是基于自然語言處理技術(shù)標(biāo)注電子健康檔案〔EHR〕數(shù)據(jù),然后針對這些數(shù)據(jù)開創(chuàng)建立SemEHR語義索引[11]。通過以上分析,國內(nèi)外對構(gòu)建語義索引方式方法的研究主要集中在基于本體和基于自然語言處理技術(shù)。這兩者都有其缺乏之處:基于本體的方式方法無法充分揭示蘊(yùn)含在特定領(lǐng)域科技文獻(xiàn)內(nèi)部的豐富語義信息;基于自然語言處理技術(shù)的方式方法成本比擬高,而且語義索引質(zhì)量好壞取決于選用的自然語言處理技術(shù)。因而,本文決定結(jié)合這兩者構(gòu)建語義索引,詳細(xì)思路是:通過自然語言處理技術(shù)對科技文獻(xiàn)進(jìn)行語義標(biāo)注,挖掘出本體中沒有描繪敘述的知識對象以及知識對象之間的知識關(guān)系,這對基于本體的方式方法是一個(gè)很好的補(bǔ)充。整個(gè)思路實(shí)際上是綜合考慮了兩者的優(yōu)勢互補(bǔ),基于自然語言處理技術(shù)構(gòu)建的語義索引能夠補(bǔ)充基于本體構(gòu)建的語義索引,補(bǔ)充后的基于本體構(gòu)建的語義索引又能夠更好地提升自然語言處理技術(shù)的性能,獲得愈加豐富的文獻(xiàn)內(nèi)部語義信息,進(jìn)而反過來更新基于自然語言處理技術(shù)構(gòu)建的語義索引。這樣,兩者都得到不斷的補(bǔ)充、更新,構(gòu)成互利互助,進(jìn)而構(gòu)建更細(xì)粒度、更豐富的語義索引。2、面向科技文獻(xiàn)的多維語義索引的設(shè)計(jì)科技文獻(xiàn)里蘊(yùn)含著豐富的語義知識,科技文獻(xiàn)的知識組織能夠根據(jù)下面四個(gè)維度進(jìn)行組織:文獻(xiàn)單維呈現(xiàn)無法揭示語義知識進(jìn)而無法實(shí)現(xiàn)語義檢索的缺乏,根據(jù)上述四個(gè)維度設(shè)計(jì)的多維語義索引,將科技文獻(xiàn)內(nèi)部豐富的語義知識以及知識之間豐富的關(guān)聯(lián)關(guān)系等深層信息,利用多維語義索引重新組織,在檢索結(jié)果中以多維分面的方式充分揭示出來。根據(jù)上述多維語義索引構(gòu)建的科技文獻(xiàn)檢索系統(tǒng)詳細(xì)的檢索查詢思路是:遵循用戶使用流程,從檢索本文關(guān)鍵詞語出發(fā),查詢知識對象索引對輸入本文關(guān)鍵詞語進(jìn)行語義辨別和語義消歧,確定文獻(xiàn)中的知識對象及其所屬的范疇和類型;然后查詢文獻(xiàn)索引得到包含元數(shù)據(jù)及相關(guān)知識內(nèi)容的文獻(xiàn)信息;接著查詢句子索引確定知識對象所屬的語步類型以及句子共現(xiàn)術(shù)語;最后查詢知識關(guān)系索引,發(fā)現(xiàn)檢索詞和文中知識對象的組合搭配關(guān)系;這些索引之間并不是獨(dú)立的關(guān)系,每查詢一個(gè)索引就會得到一個(gè)特定的檢索結(jié)果集,最終返回給用戶一個(gè)檢索結(jié)果交集。根據(jù)以上思路,本文設(shè)計(jì)的面向科技文獻(xiàn)的多維語義索引整體框架如此圖2所示。圖2面向科技文獻(xiàn)的多維語義索引架構(gòu)圖3、面向科技文獻(xiàn)的多維語義索引的實(shí)現(xiàn)3.1、工具的選型以及本體的選擇當(dāng)下用于構(gòu)建索引的工具主要有Solr和ElasticSearch兩種,Solr和ElasticSearch各有優(yōu)缺點(diǎn)。結(jié)合本文的實(shí)際應(yīng)用場景分析,科技文獻(xiàn)檢索相對來講時(shí)效性要求不是那么高,更偏向于傳統(tǒng)搜索應(yīng)用,另外Solr的分面搜索的優(yōu)點(diǎn)更能知足本文設(shè)計(jì)多維語義索引的需求,因而選擇利用Solr來構(gòu)建多維語義索引。通過利用Solr的分面機(jī)制設(shè)計(jì)多維語義索引,能夠充分開掘揭示科技文獻(xiàn)內(nèi)部的豐富語義知識,進(jìn)而知足用戶對語義檢索的需求。在本體選擇上,由于筆者需要構(gòu)建物理領(lǐng)域科技文獻(xiàn)語義檢索系統(tǒng),選取的是物理學(xué)本體ScienceWise。ScienceWise本體包含了物理學(xué)術(shù)語及其范疇〔分為4個(gè)一級范疇和47個(gè)二級范疇〕、16種語義關(guān)系〔分為通用語義關(guān)系和領(lǐng)域特定語義關(guān)系〕等。3.2、文獻(xiàn)索引的構(gòu)造文獻(xiàn)索引構(gòu)造的主要字段為paperId〔文章Id〕、title〔標(biāo)題〕、author(作者〕、publishTime(發(fā)布時(shí)間〕、abstract〔內(nèi)容摘要〕、objects〔包含的術(shù)語〕、methods〔方式方法〕、objectives〔目的〕、results〔結(jié)果〕、conclusions〔結(jié)論〕、background〔背景〕等。與傳統(tǒng)文獻(xiàn)索引的區(qū)別在于這里還包含了語步辨別內(nèi)容,因而在檢索結(jié)果展示界面能夠進(jìn)行傳統(tǒng)內(nèi)容摘要和構(gòu)造化內(nèi)容摘要的雙重呈現(xiàn),能夠讓用戶迅速了解某篇文獻(xiàn)的整體內(nèi)容。3.3、句子索引的構(gòu)造句子索引構(gòu)造的主要字段為paperId〔文章Id〕、content〔句子內(nèi)容〕、moveType〔句子所屬語步類型〕、objects〔包含的術(shù)語〕、sentenceOrder〔在內(nèi)容摘要中的順序〕等。與傳統(tǒng)的句子索引不同,這里的句子索引里包含了句子所屬語步類型,通過語步類型能夠在檢索結(jié)果界面揭示有哪些方式方法里包含了檢索本文關(guān)鍵詞語,哪些結(jié)論里包含了檢索本文關(guān)鍵詞語等,進(jìn)而讓用戶迅速了解研究主題的整體研究脈絡(luò)。3.4、知識對象索引的構(gòu)造知識對象索引的主要字段為paperId〔文章Id〕、objectName〔術(shù)語名稱〕、isScienceWise〔能否是ScienceWise本體規(guī)范術(shù)語〕、topCategory〔在ScienceWise中所屬的一級范疇〕、secondCategory〔在ScienceWise中所屬的二級范疇〕、weight(知識對象權(quán)重〕等。這里術(shù)語與一般的科技文獻(xiàn)檢索系統(tǒng)里的主題詞不同,它通過ScienceWise賦予了術(shù)語特定的語義信息,將這些術(shù)語劃分到其細(xì)粒度的物理領(lǐng)域。另外,知識對象權(quán)重是指知識對象在科技文獻(xiàn)中的所占比例,權(quán)重越高,這個(gè)知識對象就越能代表科技文獻(xiàn)。傳統(tǒng)的TF-IDF權(quán)重計(jì)算方式方法通過詞頻統(tǒng)計(jì)信息反映了知識對象對文檔的表示出,但它沒有考慮到知識對象的語義信息,而科技文獻(xiàn)中的知識對象之間存在著特定的知識關(guān)系,知識對象存在于哪種語步類型,這些都是知識對象語義信息要考慮的方面,因而計(jì)算知識對象權(quán)重應(yīng)該是在傳統(tǒng)的TF-IDF權(quán)重計(jì)算方式方法的基礎(chǔ)上綜合考慮知識關(guān)系權(quán)重以及語步類型權(quán)重。它是對傳統(tǒng)TF-IDF權(quán)重計(jì)算方式方法的改良,彌補(bǔ)了TF-IDF權(quán)重計(jì)算方式方法在語義方面的缺乏,而且在檢索詞與知識對象無關(guān)時(shí),能夠自動調(diào)整為傳統(tǒng)的本文關(guān)鍵詞語檢索。根據(jù)傳統(tǒng)的TF-IDF權(quán)重計(jì)算方式方法,知識對象在文檔中的權(quán)重為:式中,p表示知識對象在文檔中出現(xiàn)的次數(shù);q表示文檔的知識對象總數(shù);N表示文檔總數(shù);表示包含該知識對象的文檔數(shù),當(dāng)所有文檔都不包含該知識對象時(shí),分母為0,因而這里分母要加上1。在科技文獻(xiàn)中,知識對象間搭配關(guān)系的不同,比方連接、組合、修飾,它們對知識對象語義信息的奉獻(xiàn)大小也會不一樣。本文用知識對象間的知識關(guān)系權(quán)重來表示不同類型的知識關(guān)系對知識對象語義信息的奉獻(xiàn)比例,在[0,1]范圍內(nèi)賦值。本文選取10萬篇來自arXiv數(shù)據(jù)庫的物理領(lǐng)域科研論文作為初始數(shù)據(jù)集進(jìn)行語義標(biāo)注,通過對語義標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì)分析,華而不實(shí),修飾關(guān)系共有236051組,連接關(guān)系共有169962組,組合關(guān)系共有195928組,三者比例約為1:0.7:0.8,因而本文采用的知識關(guān)系類型及分配權(quán)重如表1所示。表1知識關(guān)系類型及分配權(quán)重在文檔中,知識對象有N個(gè)的知識關(guān)系,表示為,另外,的分配權(quán)重為,則知識對象的知識關(guān)系權(quán)重為。那么,知識對象在文檔中的知識關(guān)系權(quán)重能夠表示為:知識對象權(quán)重還要考慮語步類型權(quán)重,語步類型主要有目的、方式方法、結(jié)果、結(jié)論、背景這5種類型,每種語步類型對知識對象語義信息的奉獻(xiàn)大小也不一樣,同樣,在[0,1]范圍內(nèi)賦值。同理,通過對語義標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì)分析,目的共有158692句,方式方法共有190964句,結(jié)果共有175898句,結(jié)論共有191195句,背景共有133837句,五者比例約為0.8:1:0.9:1:0.7,因而其語步類型及分配權(quán)重如表2所示。表2語步類型及分配權(quán)重在文檔中,知識對象有N個(gè)的語步類型,表示為,另外,的分配權(quán)重為,則知識對象的語步類型權(quán)重為。那么,知識對象在文檔中的語步類型權(quán)重能夠表示為:知識對象的知識關(guān)系權(quán)重和語步類型權(quán)重兩者在對知識對象權(quán)重的奉獻(xiàn)上同等重要。因而本文采用的知識對象權(quán)重的計(jì)算公式能夠表示為:3.5、知識關(guān)系索引的構(gòu)造本文參考知識圖譜RDF三元組的表示出方式將知識關(guān)系用三元組S-P-O表示,華而不實(shí),S代表三元組主語,P代表三元組謂語、O代表三元組賓語。為了揭示知識關(guān)系,本文在知識關(guān)系索引中增加了SP字段〔主語和謂語的搭配〕以及PO字段〔謂語和賓語的搭配〕,當(dāng)輸入檢索詞為主語S時(shí)對PO字段分面揭示,當(dāng)輸入檢索詞為賓語O時(shí)對SP字段分面揭示。另外,還增加一個(gè)知識關(guān)系類型字段relationType,通過這個(gè)字段能夠從檢索詞搭配角度多方位呈現(xiàn)知識對象之間的知識關(guān)系。知識關(guān)系索引構(gòu)造如表3所示。表3知識關(guān)系索引構(gòu)造3.6、多維語義索引的查詢以上內(nèi)容分別講述了多維語義索引的構(gòu)造,多維不是多個(gè),這幾個(gè)索引之間并不是獨(dú)立的關(guān)系,它們都有一個(gè)共同的字段paperId。因而,要想實(shí)現(xiàn)多維語義索引的分面揭示,查詢的時(shí)候要對查詢結(jié)果根據(jù)共同字段paperId來進(jìn)行綜合,其詳細(xì)實(shí)現(xiàn)步驟能夠分為五步:1〕查詢知識對象索引,獲取匹配的知識對象,并能夠得到一個(gè)paperId集合;2〕查詢文獻(xiàn)索引,獲取文獻(xiàn)元數(shù)據(jù)相關(guān)信息,并能夠得到一個(gè)paperId集合;3〕查詢句子索引及文獻(xiàn)索引,獲取句子共現(xiàn)術(shù)語以及文章共現(xiàn)術(shù)語,并能夠得到一個(gè)paperId集合;4〕查詢句子索引,獲取檢索詞在文章中的知識關(guān)系〔連接關(guān)系、修飾關(guān)系、組合關(guān)系、語法關(guān)系〕,并能夠得到一個(gè)paperId集合;5〕最終將上述paperId集合并取其交集,即為返回給用戶的最終結(jié)果。其實(shí)現(xiàn)步驟核心代碼如此圖3所示。圖3多維語義索引的查詢4、實(shí)際應(yīng)用效果基于上述設(shè)計(jì)思路和實(shí)現(xiàn)經(jīng)過,本文設(shè)計(jì)和實(shí)現(xiàn)了物理領(lǐng)域科研論文自動語義標(biāo)注檢索系統(tǒng)。該系統(tǒng)選取10萬篇來自arXiv數(shù)據(jù)庫的物理領(lǐng)域科研論文作為初始數(shù)據(jù)集,華而不實(shí),對于檢索詞darkmatter,一共發(fā)現(xiàn)4643篇文章,其檢索結(jié)果界面如此圖4所示。圖4檢索darkmatter結(jié)果頁面如此圖4左側(cè)分面導(dǎo)航所示,系統(tǒng)通過檢索詞的搭配關(guān)系分面揭示了檢索詞darkmatter的知識關(guān)系,能夠幫助發(fā)現(xiàn)潛在知識。還能夠通過檢索詞出如今內(nèi)容摘要中的位置分面發(fā)現(xiàn)文章內(nèi)容摘要中背景中包含檢索詞的句子有2138個(gè),結(jié)論中包含檢索詞的句子有1427個(gè),結(jié)果中包含檢索詞的句子有1292個(gè),方式方法中包含檢索詞的句子有887個(gè),目的中包含檢索詞的句子有905個(gè)。通過這個(gè)分面揭示了檢索詞darkmatter的整體研究脈絡(luò),進(jìn)而輔助用戶在科研選題時(shí)在目的、方式方法、結(jié)論等方面的創(chuàng)新性提供快速的參照。本文結(jié)合了基于本體和自然語言處理技術(shù)構(gòu)建語義索引,圖4也具體表現(xiàn)出了這兩者的優(yōu)勢互補(bǔ),前面兩個(gè)分面已經(jīng)展示了基于自然語義處理技術(shù)構(gòu)建的語義索引,本體概念范疇分面則從基于本體構(gòu)建語義索引的角度揭示了檢索詞所屬的物理學(xué)科范疇,為用戶迅速了解其范疇提供了參考借鑒。另外通過內(nèi)容摘要中高亮顯示的知識對象能夠跳轉(zhuǎn)到該知識對象在ScienceWise本體中的相關(guān)關(guān)系界面,如此圖5所示。該圖展示了該知識對象在本體中與其他物理學(xué)概念的相關(guān)關(guān)系,主要由兩類關(guān)系組成:入關(guān)系和出關(guān)系,華而不實(shí)入關(guān)系指入該概念的相關(guān)關(guān)系,出關(guān)系是該概念指出的相關(guān)關(guān)系。例如,對于知識對象darkmatter,華而不實(shí)一條出關(guān)系為DarkmatterisapartofBSMphysics,表示darkmatter與概念BSMphysics存在isapartof關(guān)系,該關(guān)系的方向是從darkmatter指向BSMphysics。通過構(gòu)建這些相關(guān)關(guān)系語義索引能夠讓用戶通過本體里相關(guān)關(guān)系去發(fā)起下一步檢索,讓用戶發(fā)現(xiàn)更多相關(guān)的內(nèi)容,這個(gè)是單獨(dú)基于自然語言處理技術(shù)構(gòu)建語義索引無法知足的。圖5知識對象在本體中的相關(guān)關(guān)系下載原圖本文還從分面角度調(diào)研了幾種主流的科技文獻(xiàn)檢索系統(tǒng),它們大多從科技文獻(xiàn)的外部特征進(jìn)行分面揭示,也有少部分檢索系統(tǒng)針對文獻(xiàn)中的相關(guān)主題進(jìn)行分面揭示。而本文設(shè)計(jì)開發(fā)的物理領(lǐng)域科研論文自動語義標(biāo)注檢索系統(tǒng)主要是從科技文獻(xiàn)內(nèi)部的語義知識進(jìn)行分面揭示,通太多維度的分面揭示方式能夠充分開掘揭示既有語義關(guān)系和潛在語義關(guān)聯(lián),進(jìn)而知足科研工作者的語義檢索需求。5、結(jié)論在傳統(tǒng)的檢索系統(tǒng)不能知足科研工作者語義檢索需求的背景下,多維語義索引的構(gòu)建對知足其語義檢索的迫切需求具有重要的實(shí)用價(jià)值。本文圍繞這個(gè)問題展開研究,給出了多維語義索引的設(shè)計(jì)思路和實(shí)現(xiàn)經(jīng)過,驗(yàn)證了其在語義檢索實(shí)際應(yīng)用中的良好效果。在將來的工作中將進(jìn)一步優(yōu)化索引,并推廣到其他不同的領(lǐng)域中?!踝髡叻瞰I(xiàn)聲明:張敏,論文撰寫及修改。丁良萍,論文校對。劉歡,數(shù)據(jù)整理。以下為參考文獻(xiàn)[1]DOMSA,SCHROEDERM.GoPubMed:exploringPubMedwiththegeneontology[J].Nucleicacidsresearch,2005,33(WebServerissue):783-786.[2]BUSCALDID,ZARGAYOUNAH.YaSemIR:yetanothersemanticinformationretrievalsystem[C].ProceedingsoftheSixthInternationalWorkshoponExploitingSemanticAnnotationsinInformationRetrieval.SanFrancisco,2020:13-16.[3]于曉巍.基于本體的文本標(biāo)引的研究與實(shí)現(xiàn)[D].沈陽:沈陽工業(yè)大學(xué),2018.[4]DAVIDA.谷歌語義搜索[M].程龔,譯.北京:人民郵電出版社,2021:156.[5]SpringerNatureSciGraph[EB/OL].[2021-01-05]..forest.naihescn/researchers/scigraph.[6]ROGERBB.Anempiricalstudyofrequireddimensionalityforlarge-scalelatentsemanticin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論