科技文獻語義檢索系統(tǒng)的分類與功能特點,文獻檢索論文_第1頁
科技文獻語義檢索系統(tǒng)的分類與功能特點,文獻檢索論文_第2頁
科技文獻語義檢索系統(tǒng)的分類與功能特點,文獻檢索論文_第3頁
科技文獻語義檢索系統(tǒng)的分類與功能特點,文獻檢索論文_第4頁
科技文獻語義檢索系統(tǒng)的分類與功能特點,文獻檢索論文_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

科技文獻語義檢索系統(tǒng)的分類與功能特點,文獻檢索論文語義檢索是信息檢索的發(fā)展趨勢,早在20世紀80年代,語義檢索的思想就已經(jīng)出現(xiàn),并且信息檢索領(lǐng)域已經(jīng)開展了相關(guān)研究工作。企業(yè)級的語義搜索引擎最近幾年已經(jīng)開場應(yīng)用,例如Kosmix和等,十分等讓搜索變得更智慧。百度框計算搜狗知立方代表了國內(nèi)搜索引擎在該領(lǐng)域的成功實踐。在文獻信息檢索領(lǐng)域,作為語義檢索系統(tǒng)的典型代表,做出了創(chuàng)始性的工作,一些面向科技文獻的語義檢索系統(tǒng)不斷出現(xiàn)。傳統(tǒng)基于本文關(guān)鍵詞語的檢索系統(tǒng)具有一定的局限性,如無法解決詞匯的模糊性問題,分散在多個文檔中的相關(guān)信息不容易被發(fā)現(xiàn)等。語義檢索基于含義而不是通過本文關(guān)鍵詞語匹配尋找用戶查詢的答案:,用以實現(xiàn)實體檢索、概念檢索、分類檢索、關(guān)系查詢等知識檢索方式來知足用戶的多種信息需求,使得搜索智能化,根據(jù)用戶的意圖給出用戶想要的結(jié)果。當(dāng)前,語義檢索主要有兩個方向:語義網(wǎng)資源的檢索和對于傳統(tǒng)檢索系統(tǒng)的語義擴展。面向科技文獻的語義檢索研究主要偏向于后者,利用語義技術(shù)改良傳統(tǒng)文獻檢索系統(tǒng),利用敘詞表、主題詞表、本體等知識組織體系實現(xiàn)語義豐富化,采用語義標注、自動抽取、關(guān)系發(fā)現(xiàn)的文本挖掘技術(shù)從非構(gòu)造化的文本中發(fā)現(xiàn)細粒度的數(shù)據(jù),使得檢索系統(tǒng)更智能化。本文根據(jù)文本語義處理程度對科技文獻語義檢索系統(tǒng)進行分類,提出科技文獻語義檢索系統(tǒng)的基本框架,并討論科技文獻語義檢索系統(tǒng)的功能特性。2科技文獻語義檢索系統(tǒng)分類根據(jù)系統(tǒng)的智能化、語義化程度,將現(xiàn)有科技文獻語義檢索系統(tǒng)分為:語義查詢擴展的檢索系統(tǒng)、以概念或?qū)嶓w為中心的檢索系統(tǒng)、以關(guān)系為中心的檢索系統(tǒng)、面向知識發(fā)現(xiàn)的檢索系統(tǒng)4種類型。這4類檢索系統(tǒng)對科技文獻的文本語義化處理程度不同,檢索系統(tǒng)的智能化和語義化程度也不同,如此圖1所示:【1】2.1語義查詢擴展的檢索系統(tǒng)語義查詢擴展的檢索系統(tǒng)在傳統(tǒng)本文關(guān)鍵詞語檢索基礎(chǔ)上,對檢索詞進行處理,利用受控詞表和本體對檢索詞進行擴展。PubMed支持基于MeSH的查詢擴展,也有利用UMLS的同義詞對PubMed查詢進行擴展,QuExT執(zhí)行面向概念的查詢擴展,檢索結(jié)果根據(jù)用戶預(yù)先分配給概念類別的不同權(quán)重進行排序。GO2PUB利用基因本體中術(shù)語之間的語義繼承對PubMed查詢進行語義擴展,基因名稱、符號和同義詞都作為額外的本文關(guān)鍵詞語提交給查詢處理器。2.2以概念或?qū)嶓w為中心的檢索系統(tǒng)以概念或?qū)嶓w為中心的檢索系統(tǒng)利用本體、主題詞表、敘詞表等對科技文獻進行語義標注,辨別文獻中的知識,檢索經(jīng)過通過匹配用戶查詢和語義標注結(jié)果執(zhí)行,這使得檢索系統(tǒng)能夠利用標注信息查詢到更精到準確的結(jié)果。GoPubMed是這類系統(tǒng)中最典型的,它利用Gene本體和MeSH標引PubMed文獻,并用于檢索結(jié)果的構(gòu)造化展示,能夠讓用戶看到與查詢相關(guān)的主要的生物醫(yī)學(xué)概念。相比PubMed,GoPubMed能夠更快地找到相關(guān)的檢索結(jié)果。NextBio文獻檢索系統(tǒng)利用基于本體的語義工具和創(chuàng)新界面,對ScienceDirect內(nèi)容和PubMed、臨床實驗、生物醫(yī)學(xué)新聞等受權(quán)開放使用的研究數(shù)據(jù)進行文本挖掘,并通過自然語言處理技術(shù)實現(xiàn)命名實體辨別和消歧,進而提高檢索性能。Kleio系統(tǒng)對文本的語義概念〔如genes、protein和其他生物醫(yī)學(xué)術(shù)語〕進行標注,提供對于MEDLINE的文本和元數(shù)據(jù)相結(jié)合的檢索,利用標注的命名實體類型對檢索結(jié)果進行分面,進而實現(xiàn)檢索結(jié)果的過濾。2.3以關(guān)系為中心的檢索系統(tǒng)以關(guān)系為中心的檢索系統(tǒng)通過文本挖掘技術(shù)從科技文獻中發(fā)現(xiàn)概念或?qū)嶓w之間的關(guān)系,能夠提供基于關(guān)系的檢索服務(wù)。Quertle是一個關(guān)系驅(qū)動的生物醫(yī)學(xué)文獻檢索工具,使用基于語義的自然語言處理方式方法從生物醫(yī)學(xué)文獻集中抽取主謂賓關(guān)系,發(fā)現(xiàn)生物醫(yī)學(xué)實體〔如疾病、基因、藥物〕之間的一般或特殊關(guān)系。用咖啡因偏頭痛作為搜索詞,Quertle會發(fā)現(xiàn)兩個檢索詞之間的關(guān)系如咖啡因治療偏頭痛,而不是通常搜索PubMed所返回的同時包含咖啡因和偏頭痛兩個檢索詞的記錄。CoPub是以共現(xiàn)關(guān)系為中心的檢索工具,利用文本挖掘技術(shù)檢測PubMed內(nèi)容摘要現(xiàn)的生物醫(yī)學(xué)概念,如基因本體中的人類/鼠基因、生物經(jīng)過、分子功能、細胞組成以及病理、疾病、藥物和途徑等。在CoPub系統(tǒng)中檢索某個生物醫(yī)學(xué)概念,能夠獲得與其共現(xiàn)的其他生物醫(yī)學(xué)概念以及共同出現(xiàn)的文摘。PolySearch抽取人類疾病、基因、突變、藥物和代謝物之間的關(guān)系,利用各種文本挖掘和信息檢索技術(shù)對內(nèi)容內(nèi)容摘要、段落或句子進行辨別和排序,支持面向十幾個不同類型的文本、科學(xué)文摘或生物信息學(xué)數(shù)據(jù)庫的50多種查詢類型,例如檢索與乳腺癌有關(guān)的基因.2.4面向知識發(fā)現(xiàn)的檢索系統(tǒng)面向知識發(fā)現(xiàn)的檢索系統(tǒng)通過發(fā)現(xiàn)隱含的關(guān)系和知識,進而為用戶提供更深層次的語義檢索服務(wù)。CoPub5.0在CoPub共現(xiàn)關(guān)系挖掘的基礎(chǔ)上開發(fā)了稱為CoPubDiscovery的新技術(shù),從文獻中挖掘間接關(guān)系,用于研究疾病背后的機理、連接基因和途徑,發(fā)現(xiàn)現(xiàn)有藥物的新型應(yīng)用等。CoPub5.0提供了三種分析形式,termsearch形式為一個術(shù)語檢索文摘和術(shù)語關(guān)系,pairsearch形式分析術(shù)語對之間的已經(jīng)知道關(guān)系或新關(guān)系,setterms形式用以給出多個術(shù)語之間的關(guān)系。FACTA++從MEDLINE文摘中發(fā)現(xiàn)并可視化如基因、疾病、化合物等生物醫(yī)學(xué)概念之間的間接關(guān)聯(lián),利用機器學(xué)習(xí)模型發(fā)現(xiàn)文本中的生物分子事件,利用概念之間的共現(xiàn)關(guān)系統(tǒng)計出信息挖掘隱藏的關(guān)聯(lián)。EvidenceFinder實現(xiàn)對PMC全文數(shù)據(jù)從化合物基因、蛋白質(zhì)、疾病等生物醫(yī)學(xué)實體到如磷酸化、綁定、激活等生物相關(guān)性事實的多層次文本標注。Evidence-Finder將標注事實轉(zhuǎn)化為一系列的問題,作為文獻檢索的推薦,幫助用戶找到問題答案:對應(yīng)的文章。例如,輸入檢索詞粘蛋白,系統(tǒng)自動給出一系列相關(guān)問題,如降低腸道粘蛋白的是什么?、什么產(chǎn)生粘蛋白?等。3科技文獻語義檢索系統(tǒng)的基本框架根據(jù)對典型科技文獻語義檢索系統(tǒng)的分析,提出系統(tǒng)基本框架,分為語義知識獲取、數(shù)據(jù)集成與融匯、語義索引構(gòu)建、查詢處理、結(jié)果展示5個主要的系統(tǒng)功能,如此圖2所示。實現(xiàn)科技文獻的語義豐富化,基于領(lǐng)域敘詞表或本體,利用語義標注、實體抽取、關(guān)系抽取等技術(shù)從科技文獻文本信息中獲取語義知識。以這些語義知識為基礎(chǔ),借助實體或概念匹配、本體集成、LinkedData之間的關(guān)聯(lián)實現(xiàn)潛在語義知識、科技文獻以及外部資源的數(shù)據(jù)集成與融匯,支持細粒度的語義檢索以及相關(guān)知識的擴展檢索。在文獻元數(shù)據(jù)索引的基礎(chǔ)上,構(gòu)建實體、概念、關(guān)系、文本事實根據(jù)的索引,支撐基于語義的檢索功能。在查詢處理方面,采用術(shù)語匹配、自然語言處理、類似度計算、知識庫圖遍歷、本體推理等技術(shù)手段理解用戶的搜索意圖,通過基于語義知識的分類、聚類、排序等對檢索結(jié)果進行重新優(yōu)化計算。通過結(jié)果列表、可視化展示、分面閱讀、樹形導(dǎo)航、本體導(dǎo)航等方式將檢索結(jié)果展示給用戶,同時提供基于語義知識的相關(guān)推薦和統(tǒng)計預(yù)測等功能。4科技文獻語義檢索系統(tǒng)的功能特點語義信息的引入影響了科技文獻檢索系統(tǒng)從數(shù)據(jù)處理、索引構(gòu)建、查詢處理到結(jié)果管理的各個方面,使得檢索系統(tǒng)具有一些新的特性。4.1科技文獻語義豐富化在傳統(tǒng)文獻標引的基礎(chǔ)上,一些文獻檢索系統(tǒng)已經(jīng)進行了深層的語義豐富化處理,并且在這里基礎(chǔ)上提供更準確的檢索服務(wù)。例如,ProQuest在文本標引基礎(chǔ)上將蘊含在學(xué)術(shù)出版物中的表格、地圖、照片和其他圖形中的數(shù)據(jù)、變量以及其他內(nèi)容進行深度的標引,平均使用8個術(shù)語描繪敘述一個圖像。Wiley的SmartArticle技術(shù)[14]針對化學(xué)期刊新增了化合物索引,提供對于內(nèi)容的深層檢索,除此之外對文獻中的化學(xué)術(shù)語進行標注,使用不同顏色對不同類型的化學(xué)術(shù)語進行高亮顯示,以方便用戶閱讀。在醫(yī)學(xué)文獻檢索領(lǐng)域,PubMed使用MeSH主題詞表進行文獻標引,隨著文本挖掘技術(shù)的成熟,一些工具和系統(tǒng)在PubMed基礎(chǔ)上對科技文獻進行了更為深切進入的語義豐富化處理[15].例如,EBIMed[16]從文獻中抽取蛋白質(zhì)、基因本體標注、藥物和物種,基于共現(xiàn)分析辨別抽取概念之間的關(guān)系。PubTator工具[17]支持對PubMed檢索結(jié)果的標注,辨別的生物醫(yī)學(xué)實體包括基因、化學(xué)物質(zhì)、疾病、變異、物種等。4.2基于實體或概念的數(shù)據(jù)集成與融合科技文獻的數(shù)據(jù)集成已轉(zhuǎn)變?yōu)橐詫嶓w或概念為中心的數(shù)據(jù)集成和融合,實現(xiàn)不同應(yīng)用系統(tǒng)之間的語義互操作,促進更廣泛的分享與應(yīng)用。AGRIS國際農(nóng)業(yè)科學(xué)和技術(shù)信息系統(tǒng)利用OKKAM實體名稱系統(tǒng)框架[18]開創(chuàng)建立關(guān)聯(lián)數(shù)據(jù)模型,將書目數(shù)據(jù)庫轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)服務(wù).一方面,使用AGROVOC敘詞表與其他敘詞表映射,另一方面將書目記錄與外部資源建立連接,如DBPedia、WordBank、GoogleCustomSearchAPI、NatureOpenSearch等。在AGRIS檢索結(jié)果的具體頁面中,除書目信息外,還提供相關(guān)外部資源的結(jié)果揭示,借助文獻標引使用的AGROVOC詞匯、書目關(guān)聯(lián)數(shù)據(jù)等實現(xiàn)以實體或概念為中心的知識頁面之間的融匯。Elsevier提出SmartContent的概念,組織醫(yī)學(xué)專家在UMLS基礎(chǔ)上構(gòu)建EMMeT醫(yī)學(xué)詞匯分類體系,將Elsevier的臨床醫(yī)學(xué)期刊、論文、書目章節(jié)、表格、圖像等數(shù)據(jù)映射到適宜的醫(yī)學(xué)術(shù)語上,進而加強對Content的理解,使其提升到實體、概念和關(guān)系的知識層面上,以便各類應(yīng)用程序更好地理解和處理內(nèi)容上的內(nèi)涵信息。4.3面向文本分析結(jié)果的索引機制。為實現(xiàn)對文本分析結(jié)果的檢索,語義檢索系統(tǒng)構(gòu)建了文本中概念、實體、關(guān)系、事實與文獻之間的索引。例如,Kleio系統(tǒng)應(yīng)用Lucene對辨別出來的蛋白質(zhì)、基因、代謝物和醫(yī)學(xué)術(shù)語構(gòu)建索引,即對與文本相關(guān)的概念構(gòu)建索引,而不是個體或規(guī)范詞形式,這意味著系統(tǒng)能夠檢索與某個指定概念相關(guān)的文檔,無論概念的表現(xiàn)形式是它的拼寫變體還是縮寫形式.EvidenceFinder系統(tǒng)借助基因、蛋白質(zhì)、藥物、疾病和代謝物的詞表以及表示生物醫(yī)學(xué)經(jīng)過和關(guān)系的詞典,對EuropePMC倉儲全文數(shù)據(jù)進行語法分析和文本挖掘,將所有可能包含相關(guān)事實的句子構(gòu)建索引。NLMplus使用Solr對語義層進行索引,支撐檢索服務(wù)。而Quertle建立語義關(guān)系索引、本文關(guān)鍵詞語索引和輔助索引三種索引,用于查找用戶輸入的檢索詞和提問,并返回檢索結(jié)果。4.4查詢處理由于一個搜索請求可能代表多重含義,對用戶輸入的檢索詞進行語義分析是語義檢索系統(tǒng)的首要任務(wù)。通常,語義檢索系統(tǒng)從用戶輸入字符開場提供自動完成功能,對用戶輸入的檢索詞和語句進行辨別和分析,給出相關(guān)的查詢建議,通過理解用戶查詢意圖和搜索空間的含義改良檢索質(zhì)量?!?〕基于受控詞表和本體的自動完成功能當(dāng)前,搜索引擎大多數(shù)都具有自動完成功能,利用預(yù)存的術(shù)語自動將用戶的檢索詞對應(yīng)到可能匹配術(shù)語上并提示給用戶,簡化用戶輸入操作。文獻檢索系統(tǒng)通常利用受控詞表和本體實現(xiàn)自動完成功能,GoPubMed將輸入的術(shù)語匹配MeSH和Gene本體術(shù)語;Semedico將查詢建議放在分類樹中允許用戶選擇一個廣義術(shù)語作為檢索詞,在括號中列出其同義詞;NextBio能夠列出匹配的基因、化合物、SNPs、疾病、組織、生物學(xué)團體和作者等;Elsevier的ClinicalKey醫(yī)學(xué)信息平臺在用戶輸入檢索詞后提供檢索建議,如相關(guān)醫(yī)學(xué)主題、內(nèi)容來源和作者等。〔2〕查詢分析檢索系統(tǒng)在執(zhí)行查詢前,采用語言學(xué)方式方法將用戶輸入的檢索詞映射到受控詞表或本體的概念、實體上,將本文關(guān)鍵詞語檢索轉(zhuǎn)化為概念或?qū)嶓w的檢索。利用受控詞表的同義、廣義、窄義等術(shù)語以及基于本體上下位關(guān)系實現(xiàn)查詢的邏輯推理,用于解釋用戶的查詢,并給出查詢建議。Kleio系統(tǒng)將內(nèi)容摘要中命名實體進一步分類,結(jié)合語義分類信息執(zhí)行查詢,能夠降低搜索空間,提高檢索效率.一些文獻檢索系統(tǒng)允許用戶使用自然語言進行提問,如Quertle、EvidenceFinder等,在執(zhí)行查詢處理前,需要對查詢語句進行預(yù)處理,利用自然語言處理技術(shù)將查詢語句進行重構(gòu)。NLMplus使用敘詞表和本體對PubMedReview進行語義標引,利用構(gòu)建的知識庫對查詢進行分析和解析,以檢索到更精到準確的結(jié)果。iPubMed[23]提供一個交互式檢索界面,當(dāng)用戶在搜索框中輸入幾個字符時,系統(tǒng)將立即顯示任何包含這些字符的引用,便于縮小搜索目的,除此之外該系統(tǒng)還允許小的拼寫錯誤。ClinicalKey通過EMMeT建立關(guān)系的語義框架,促進內(nèi)容發(fā)現(xiàn),使得被傳統(tǒng)本文關(guān)鍵詞語檢索忽略的潛在關(guān)聯(lián)能夠被揭示出來,并且保證了ClinicalKey能夠為用戶的檢索請求提供詳細并且有針對性的答案:,比方查找myocardialinfarction,ClinicalKey智能檢索能夠辨別其縮略詞、同義詞、相關(guān)外科手術(shù)和治療藥物,并且知道這是一種與高膽固醇相關(guān)的心血管疾病[20].4.5查詢結(jié)果管理在傳統(tǒng)文獻檢索系統(tǒng)的基礎(chǔ)上,語義檢索系統(tǒng)對于查詢結(jié)果的呈現(xiàn)方式愈加多樣,表示出的信息也愈加豐富,基于本體的結(jié)果精煉、知識導(dǎo)航等為用戶帶來了新的檢索體驗?!?〕查詢結(jié)果呈現(xiàn)方式語義檢索系統(tǒng)為用戶提供了最直接的結(jié)果呈現(xiàn)方式,如檢索的目的概念〔實體〕、關(guān)系、事實、回答等信息。GoPubMed[5]在文獻結(jié)果列表中只顯示文摘中與檢索目的相關(guān)的句子,反映檢索詞的事實,而不是全部內(nèi)容摘要信息。Quertle[8]同樣顯示文摘中相關(guān)的事實信息,并對檢索目的進行高亮顯示。FACTA++[12]將與查詢目的相關(guān)的概念通過不同分類列表的方式顯示,并能夠根據(jù)相關(guān)的頻次排序。CoPub[9]返回查詢術(shù)語的具體信息、共現(xiàn)術(shù)語的分類和文摘數(shù)量。EvidenceFinder[13]在文獻檢索列表中直接給出查詢問題的答案:并高亮顯示?!?〕概念/實體層級構(gòu)造分類與導(dǎo)航GoPubMed[5]通過本體的層級構(gòu)造對查詢結(jié)果進行聚集,實現(xiàn)了大規(guī)模結(jié)果的快速導(dǎo)航,用戶能夠快速獲取相關(guān)的生物醫(yī)學(xué)概念,同時能夠在檢索中發(fā)現(xiàn)新的檢索目的或過濾檢索條件,使得檢索更有深度和廣度。NextBio[6]將從內(nèi)容摘要和正文中抽取的生物醫(yī)學(xué)術(shù)語,以Tag云的方式顯示,并提供這些術(shù)語的分類,能夠利用它們進一步過濾和優(yōu)化查詢結(jié)果。Kleio[7]將檢索結(jié)果根據(jù)文獻標注命名實體的語義分類進行組織,并列出最高關(guān)聯(lián)頻率的概念,方便用戶閱讀和過濾檢索結(jié)果。ClinicalKey允許用戶根據(jù)有臨床意義的子分類挑選檢索結(jié)果,比方內(nèi)容類型、???、疾病名稱、身體部位等[20].〔3〕文本挖掘結(jié)果顯示與相關(guān)知識導(dǎo)航在結(jié)果頁面或文獻具體頁面對語義標注結(jié)果進行呈現(xiàn),并提供相關(guān)知識的簡介、鏈接與導(dǎo)航,例如GoPubMed[5]在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論