基于數(shù)據(jù)挖掘技術(shù)的知識(shí)服務(wù)體系_第1頁
基于數(shù)據(jù)挖掘技術(shù)的知識(shí)服務(wù)體系_第2頁
基于數(shù)據(jù)挖掘技術(shù)的知識(shí)服務(wù)體系_第3頁
基于數(shù)據(jù)挖掘技術(shù)的知識(shí)服務(wù)體系_第4頁
基于數(shù)據(jù)挖掘技術(shù)的知識(shí)服務(wù)體系_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、.腿蚃蠆艿節(jié)蒆羇羋莄蟻袃芇薆蒄衿芆芆蝿螅袃莈薂蟻袂蒀螈羀袁膀薁袆袀節(jié)螆螂罿蒞蕿蚈罿蕆莂羇羈芇薇羃羇荿蒀衿羆蒁蚅螅羅膁蒈蟻羄芃蚄罿羃莆蒆裊肅蒈螞螁肂膈蒅蚇肁莀蝕蚃肀蒂薃羂聿膂蝿袈肈芄薁螄肈莆螇蝕肇葿薀羈膆膈莂襖膅芁薈螀膄蒃莁螆膃膃蚆螞膂芅葿羈膂莇蚅袇膁蒀蕆螃芀腿蚃蠆艿節(jié)蒆羇羋莄蟻袃芇薆蒄衿芆芆蝿螅袃莈薂蟻袂蒀螈羀袁膀薁袆袀節(jié)螆螂罿蒞蕿蚈罿蕆莂羇羈芇薇羃羇荿蒀衿羆蒁蚅螅羅膁蒈蟻羄芃蚄罿羃莆蒆裊肅蒈螞螁肂膈蒅蚇肁莀蝕蚃肀蒂薃羂聿膂蝿袈肈芄薁螄肈莆螇蝕肇葿薀羈膆膈莂襖膅芁薈螀膄蒃莁螆膃膃蚆螞膂芅葿羈膂莇蚅袇膁蒀蕆螃芀腿蚃蠆艿節(jié)蒆羇羋莄蟻袃芇薆蒄衿芆芆蝿螅袃莈薂蟻袂蒀螈羀袁膀薁袆袀節(jié)螆螂罿蒞蕿蚈罿蕆莂羇

2、羈芇薇羃羇荿蒀衿羆蒁蚅螅羅膁蒈蟻羄芃蚄罿羃莆蒆裊肅蒈螞螁肂膈蒅蚇肁莀蝕蚃肀蒂薃羂聿膂蝿袈肈芄薁螄肈莆螇蝕肇葿薀羈膆膈莂襖膅芁薈螀膄蒃莁螆膃膃蚆螞膂芅葿羈膂莇蚅袇膁蒀蕆螃芀腿蚃蠆艿節(jié)蒆羇羋莄蟻袃芇薆蒄衿芆芆蝿螅袃莈薂蟻袂蒀螈羀袁膀薁袆袀節(jié)螆螂 基于數(shù)據(jù)挖掘技術(shù)的知識(shí)服務(wù)體系以生命科學(xué)領(lǐng)域內(nèi)GOPubMed為例謝巖巖1,2 孫繼林11中國科學(xué)院國家科學(xué)圖書館,北京,1001902中國科學(xué)院上海生命科學(xué)信息中心,上海 200031摘要:隨著生物文獻(xiàn)的急劇增長,找到相關(guān)文獻(xiàn)進(jìn)行數(shù)據(jù)挖掘成為新的重點(diǎn)和難點(diǎn),GOPubMed基于GO和MeSH搜索PubMed,通過標(biāo)引和分類,可以有效地提高查找相關(guān)文獻(xiàn)的準(zhǔn)

3、確率。GOPubMed的實(shí)現(xiàn)為圖書館進(jìn)行知識(shí)服務(wù)提供了一種參考模式:通過各類數(shù)據(jù)庫的關(guān)聯(lián)整合,運(yùn)用本體和主題詞表等對其進(jìn)行數(shù)據(jù)挖掘,達(dá)到知識(shí)擴(kuò)展和知識(shí)發(fā)現(xiàn)。關(guān)鍵詞:GOPubMed;GO;術(shù)語提取;實(shí)體識(shí)別; 知識(shí)服務(wù)Knowledge Service system on Data Mining:GOPubMed in life sciencesXie Yanyan Sun JilinL ibrary of Chinese Academy of Sciences, Beijing 100190Shanghai Intelligence Center for life Sciences, CAS

4、, Shanghai 200031ABSTRACT:The biomedical literature grows at a tremendous rate. Finding relevant literature is an important and difficult problem. We introduce GOPubMed, a web server which allows users to explore PubMed search results with the Gene Ontology (GO), a hierarchically structured vocabula

5、ry for molecular biology. It gives an overview of the literature abstracts by categorizing abstracts according to the GO and thus allowing users to quickly navigate through the abstracts by category.Key words:GOPubMed;GO;Term Extract;Entity Recognition;Knowledge Service隨著生物文獻(xiàn)數(shù)量的急劇增長,文獻(xiàn)間的知識(shí)挖掘和管理成為用戶的

6、另一難點(diǎn)。利用現(xiàn)有數(shù)據(jù)庫已可以實(shí)現(xiàn)蛋白質(zhì)互作、生物循環(huán)路徑發(fā)現(xiàn)等研究目地,但是傳統(tǒng)的基于關(guān)鍵詞的文獻(xiàn)檢索存在兩種不足:用戶需要具備很強(qiáng)的專業(yè)知識(shí)搜索技能,才能選取合適的關(guān)鍵詞和邏輯表達(dá)式達(dá)到檢索目的;檢索結(jié)果呈線性排列,用戶很難發(fā)現(xiàn)結(jié)果之間的復(fù)雜關(guān)系,無法進(jìn)行深一步的知識(shí)挖掘;而且一般情況下,用戶只是點(diǎn)擊排名靠前的文獻(xiàn),因此排序靠后但有價(jià)值的文獻(xiàn)會(huì)被遺漏。本文將介紹一個(gè)基于本體構(gòu)建的網(wǎng)絡(luò)搜索引擎GOPubMed1,GOPubMed是基于PubMed的檢索工具。當(dāng)用戶將檢索詞提交給PubMed后,GOPubMed會(huì)接收PubMed的檢索結(jié)果,利用GO (gene ontology,GO基因本體)

7、和MeSH (醫(yī)學(xué)主題詞表)對檢索結(jié)果進(jìn)行提煉,從中提取GO術(shù)語和MeSH主題詞,對檢索結(jié)果進(jìn)行聚類和關(guān)聯(lián),并提供相關(guān)文獻(xiàn)、作者、研究機(jī)構(gòu)、國家或地區(qū)的可視化結(jié)果,有以下優(yōu)點(diǎn):提供基于基因本體的摘要分類概覽,幫助用戶實(shí)現(xiàn)分類摘要的快速導(dǎo)航;自動(dòng)提供與提問相關(guān)的GO術(shù)語;與文獻(xiàn)相關(guān)的GO概念在文獻(xiàn)摘要中有所標(biāo)識(shí),保證用戶及時(shí)查看驗(yàn)證文獻(xiàn)內(nèi)容分類;使用GOPubMed搜索PubMed時(shí),會(huì)出現(xiàn)相關(guān)的GO術(shù)語定義及解釋。1生命科學(xué)數(shù)據(jù)庫背景知識(shí)2隨著生命科學(xué)的不斷發(fā)展,各種專業(yè)數(shù)據(jù)庫(基因序列庫、蛋白質(zhì)序列庫等)和文獻(xiàn)數(shù)據(jù)庫(如PubMed)之間的關(guān)聯(lián)和挖掘成為新的需求。GOPubMed主要以基因、

8、蛋白序列數(shù)據(jù)庫和生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫為基礎(chǔ),經(jīng)過數(shù)據(jù)挖掘,提供知識(shí)服務(wù)。1.1 GenBank基本信息GenBank是一個(gè)核苷酸序列數(shù)據(jù)庫,每條核苷酸序列都有編碼區(qū)(CDS)的特征注釋,還包括其氨基酸的翻譯。利用這些核苷酸的記錄信息,生物學(xué)家可以進(jìn)行遺傳生物學(xué)、分子生物學(xué)、疾病等各項(xiàng)生物學(xué)的基礎(chǔ)研究,因此,GenBank是生物學(xué)家使用的重要的專業(yè)數(shù)據(jù)庫之一。1.2蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫是記錄已知蛋白質(zhì)的序列信息的數(shù)據(jù)庫。訪問該類數(shù)據(jù)庫,利用蛋白的Accession Number,作者姓名,物種,以及該基因或蛋白的名字等文本術(shù)語來搜索蛋白序列記錄,(在GenPept + Swiss-Pr

9、ot + PIR + RPF + PDB中)可以得到蛋白的結(jié)構(gòu)、分類、系統(tǒng)發(fā)育等完整的生物學(xué)信息,并可以進(jìn)行蛋白結(jié)構(gòu)的三維演示以及蛋白功能域的預(yù)測和驗(yàn)證,是生物學(xué)家使用的另一重要專業(yè)數(shù)據(jù)庫。1.3 PubMedPubMed 是關(guān)于生物醫(yī)藥科學(xué)的文獻(xiàn)數(shù)據(jù)庫,它包括直接由出版商提供給NCBI的文獻(xiàn)引用以及鏈接到在出版商網(wǎng)站上的全文的URLs。PubMed中的文獻(xiàn)采用生物醫(yī)學(xué)主題詞表(MeSH)標(biāo)引,可以進(jìn)行詞匯自動(dòng)轉(zhuǎn)換功能(Automatic Term Mapping)對檢索詞進(jìn)行轉(zhuǎn)換后再檢索。1.4 數(shù)據(jù)庫整合 美國國立生物技術(shù)信息中心(NCBI)已實(shí)現(xiàn)生物專業(yè)數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)的初步整合關(guān)聯(lián),即E

10、ntrez檢索系統(tǒng),該系統(tǒng)是一個(gè)用以整合NCBI數(shù)據(jù)庫中信息的搜尋和檢索工具,可為用戶提供整合的訪問序列,定位,分類和結(jié)構(gòu)數(shù)據(jù)的搜索。這些數(shù)據(jù)庫包括核酸序列,蛋白序列,大分子結(jié)構(gòu),全基因組,和通過PubMed檢索的MEDLINE。Entrez的一個(gè)強(qiáng)大和獨(dú)特的特點(diǎn)是具有檢索相關(guān)序列,結(jié)構(gòu),和參考文獻(xiàn)的能力,如圖1所示圖1:NCBI各數(shù)據(jù)庫間的整合各類分子、功能數(shù)據(jù)庫的初步整合,為數(shù)據(jù)挖掘的實(shí)現(xiàn)打好了基礎(chǔ),而主題詞表和基因本體(GO)的構(gòu)建,使數(shù)據(jù)挖掘更易實(shí)現(xiàn)。2工作原理用戶的檢索表達(dá)式往往由一個(gè)或幾個(gè)關(guān)鍵詞構(gòu)成,很難準(zhǔn)確表達(dá)檢索意圖,一種有效地?cái)U(kuò)大查全率的方法就是查詢擴(kuò)展。本體的作用可以說是組

11、織“世界上的概念”,并且將它們關(guān)聯(lián)到語言學(xué)上的表達(dá)。判斷查詢與文檔的相關(guān)性,可以從識(shí)別文檔相關(guān)的詞匯作為出發(fā)點(diǎn),來建立概念之間或其他代表這些概念或相關(guān)概念的詞匯單元之間的關(guān)聯(lián)。GOPubMed基于語義分類工具M(jìn)eSH和GO,能減少或消除概念及術(shù)語的混亂,達(dá)到數(shù)據(jù)共享、互操作以及數(shù)據(jù)挖掘和統(tǒng)計(jì)分析功能。2.1 語義工具2.1.1 MeSH醫(yī)學(xué)主題詞表(Medical Subject Headings,簡稱MeSH),由美國國立醫(yī)學(xué)圖書館(NLM)編輯出版,是用以分析生物醫(yī)學(xué)方面期刊文獻(xiàn)、圖書、視聽數(shù)據(jù)、電子資源等資源主題內(nèi)容的控制語匯表,也是NLM出版的MEDLINE/PubMED數(shù)據(jù)庫主題檢索

12、的索引詞典3。醫(yī)學(xué)主題詞表具有以下特點(diǎn)4:對醫(yī)學(xué)文獻(xiàn)中的自然語言進(jìn)行規(guī)范,使概念與主題詞單一對應(yīng)保證文獻(xiàn)的標(biāo)引者和檢索者之間在用詞上的一致可進(jìn)行主題詞、副主題詞組配,提高主題標(biāo)引或檢索的專指度可以對主題詞進(jìn)行擴(kuò)檢和縮檢可以對主題詞進(jìn)行加權(quán)標(biāo)引以便實(shí)施加權(quán)檢索具有動(dòng)態(tài)性2.1.2 GOGO56(Gene Ontology)即基因本體,是基因本體聯(lián)盟(GOCthe Gene Ontology Consortium)開發(fā)的一個(gè)合作項(xiàng)目,目標(biāo)是制定出一套結(jié)構(gòu)化的、定義精確的、通用受控詞表,可用來描述任何有機(jī)生物體中基因和基因產(chǎn)物的作用。到目前為止,GOC的數(shù)據(jù)庫中已經(jīng)建立起3大獨(dú)立的本體(ontolo

13、gy):生物過程(biological process)、分子功能(molecular function)及細(xì)胞組分(cellular component)。生物過程本體的任務(wù)是描述有序的生物化學(xué)反應(yīng)的全過程,如有絲分裂、嘌呤代謝等;分子功能本體的任務(wù)是描述每個(gè)基因產(chǎn)物發(fā)揮作用的全過程,闡述了基因產(chǎn)物個(gè)體所執(zhí)行的任務(wù),例如轉(zhuǎn)錄因子和DNA螺旋酶的功能;細(xì)胞組分包括亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物的結(jié)構(gòu)等。最近又開發(fā)了描述生物序列屬性的序列本體(Sequence Ontology)?,F(xiàn)在GO已經(jīng)成為生物信息學(xué)領(lǐng)域中一個(gè)極為重要的方法和工具,用于注釋基因功能,揭示和整合生物學(xué)數(shù)據(jù)和數(shù)據(jù)庫,以及建立數(shù)

14、據(jù)之間生物學(xué)意義上的關(guān)聯(lián)等,GO正在逐步改變著我們對生物學(xué)數(shù)據(jù)的組織和理解方式。2.2關(guān)鍵技術(shù)GOPubMed運(yùn)用MeSH和GO對PubMed進(jìn)行文獻(xiàn)檢索和瀏覽,并進(jìn)行檢索結(jié)果的知識(shí)挖掘7,用戶提交檢索詞或檢索式后,GOPubMed接受從PubMed返回的文獻(xiàn)檢索結(jié)果;利用GO和MeSH對檢索結(jié)果進(jìn)行術(shù)語提取和實(shí)體識(shí)別;通過數(shù)據(jù)挖掘,使檢索結(jié)果轉(zhuǎn)換成分類類目及對應(yīng)文獻(xiàn)之間的可視化數(shù)據(jù),進(jìn)而抽取特定的模型分類導(dǎo)航模型(也稱誘導(dǎo)本體,Induced Ontology),即臨時(shí)GO和臨時(shí)MeSH;根據(jù)此模型,檢索結(jié)果被統(tǒng)計(jì)并對應(yīng)到相應(yīng)的分類導(dǎo)航目錄,用戶利用該導(dǎo)航便可快速找到自己所需要的文獻(xiàn)。為實(shí)現(xiàn)

15、該目的,需要解決兩個(gè)問題:1.如何從PubMed文獻(xiàn)摘要中提取基因和蛋白質(zhì)的本體概念;2.如何將提取的GO的概念和術(shù)語結(jié)構(gòu)化。圖2:GOPubMed工作原理流程圖2.2.1術(shù)語提取術(shù)語提取是GOPubMed的關(guān)鍵技術(shù),它是形成臨時(shí)GO和臨時(shí)MeSH的基礎(chǔ)。文獻(xiàn)采用自然語言寫作,很難在其中找到可控制的標(biāo)準(zhǔn)語言,如GO術(shù)語。術(shù)語提取的目的就是自然語言和可控制標(biāo)準(zhǔn)語言的相互語義匹配。由于PubMed采用了MeSH詞標(biāo)引,因此GOPubMed在接收PubMed檢索結(jié)果時(shí)能夠按照MeSH樹形表對其進(jìn)行自動(dòng)分類,形成與檢索提問相關(guān)的臨時(shí)MeSH。然而,在PubMed中準(zhǔn)確找到GO術(shù)語幾乎是不可能的,此時(shí),

16、臨時(shí)GO形成的機(jī)制8,將摘要定義為一個(gè)包含自由文本的長字(word)序列,每個(gè)GO術(shù)語定義為一個(gè)短字(word)序列。由于每個(gè)GO術(shù)語都已經(jīng)進(jìn)行了注釋,而且形成了一個(gè)術(shù)語、同義詞以及相關(guān)概念相互關(guān)聯(lián)的語義網(wǎng),系統(tǒng)將GO術(shù)語中每個(gè)word的信息內(nèi)容都考慮在內(nèi),然后在GO術(shù)語和摘要內(nèi)容之間進(jìn)行局部字序列校準(zhǔn),如果兩者在語義上一致,則該術(shù)語即被自動(dòng)提取出來。術(shù)語提取按照GO分類體系同時(shí)從3個(gè)本體的最下層開始由下而上進(jìn)行,依次往上擴(kuò)展,一直到最根部。這樣應(yīng)用基因本體本身的語義關(guān)系及層次結(jié)構(gòu)就實(shí)現(xiàn)了本體與文本的映射,并形成分類。當(dāng)然也存在因某一已成功提取的術(shù)語的上位術(shù)語不能與摘要內(nèi)容相匹配而在形成臨時(shí)G

17、O時(shí)出現(xiàn)斷層的現(xiàn)象。2.2.3實(shí)體識(shí)別9雖然在文本中發(fā)現(xiàn)本體概念很重要,在醫(yī)學(xué)文獻(xiàn)中發(fā)現(xiàn)基因、蛋白質(zhì)分子、疾病間的聯(lián)系和相互作用也有重意義。要得到基因、蛋白質(zhì)以及疾病等之間的聯(lián)系,必須首先在文本中識(shí)別基因、蛋白質(zhì)等生物實(shí)體,即生物實(shí)體識(shí)別。生物實(shí)體識(shí)別的目的是在生物及醫(yī)學(xué)領(lǐng)域?qū)I(yè)詞匯加以確認(rèn)和分類,這類實(shí)體包括基因、蛋白質(zhì)、DNA 和RNA等。生物文獻(xiàn)中含有很多同義和歧義的實(shí)體命名,有些基因和蛋白質(zhì)的命名也極易混淆,如可能有多種拼寫形式,像“N-acetylcysteine”,“N-acetyl-cysteine”和“NAcetylCysteine”都是指同一生物實(shí)體;縮寫大量使用,也很不規(guī)

18、范,如“TCF”可以是“T Cell Factor”和“Tissue Culture Fluid”的縮寫。生物實(shí)體識(shí)別和實(shí)體間的相互關(guān)系識(shí)別的重要性已經(jīng)引起科學(xué)家的廣泛關(guān)注,他們努力建立規(guī)則和模型來實(shí)現(xiàn),例如:國際生物命名實(shí)體識(shí)別任務(wù)10,JNLPBA(bio-entity recognition task at JNLPBA)和BioCreAtIvECritical(Assessment of Information Extraction in Molecular Biology),在第二季BioCreAtIvECritical任務(wù)中,最好的系統(tǒng)模型可以使基因識(shí)別正確率達(dá)78.9%,召回率達(dá)

19、83.3%。2.3 知識(shí)服務(wù)體系傳統(tǒng)基于關(guān)鍵字的檢索是檢索結(jié)果的直線型排列,對于發(fā)現(xiàn)文獻(xiàn)之間的邏輯關(guān)系有很大限制,用戶需要人工確定結(jié)果的相關(guān)性。GOPubMed通過術(shù)語提取和實(shí)體識(shí)別,使文獻(xiàn)摘要和GO中的概念形成映射7,對文獻(xiàn)摘要進(jìn)行GO標(biāo)識(shí),從而達(dá)到利用GO控制檢索結(jié)果的目的。因此當(dāng)用戶進(jìn)行文獻(xiàn)關(guān)鍵詞檢索時(shí),即使提問關(guān)鍵詞并未直接出現(xiàn)在摘要中,GOPubMed也會(huì)自動(dòng)顯示與提問相關(guān)的GO 概念。GO的應(yīng)用深化了檢索對文獻(xiàn)內(nèi)容的理解,提高了文獻(xiàn)檢索的準(zhǔn)確率11。向用戶提供知識(shí)服務(wù)是許多因特網(wǎng)和圖書館網(wǎng)絡(luò)服務(wù)的追求目標(biāo), GOPubMed的實(shí)現(xiàn)為知識(shí)服務(wù)提供了啟發(fā)和一種實(shí)現(xiàn)途徑。不同專業(yè)領(lǐng)域都有

20、其特定的專業(yè)數(shù)據(jù)庫,如化學(xué)專業(yè)的化合物數(shù)據(jù)庫等,將這些專業(yè)數(shù)據(jù)庫與文獻(xiàn)數(shù)據(jù)庫通過標(biāo)注描述建立映射關(guān)系,在數(shù)據(jù)庫關(guān)聯(lián)整合的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,可以實(shí)現(xiàn)知識(shí)的發(fā)現(xiàn)。將知識(shí)發(fā)現(xiàn)進(jìn)行深一步的挖掘和專業(yè)分析,即為一種擺脫了文獻(xiàn)服務(wù)束縛的知識(shí)服務(wù),總結(jié)如下:圖3:知識(shí)服務(wù)系統(tǒng)的構(gòu)建3 智能檢索和分類導(dǎo)航3.1檢索結(jié)果的分類導(dǎo)航和檢索結(jié)果的過濾與擴(kuò)展問題:左旋咪唑(levamisole)可以抑制什么酶?結(jié)果:分別在PubMed和GOPubMed中搜索“l(fā)evamisole inhibitor”,均可得到158篇文獻(xiàn)(截止到2009-11-8)。在PubMed的檢索結(jié)果中,如果用戶想要尋找左旋咪唑的特殊功能對

21、酶的抑制作用,那么用戶需要對所有摘要進(jìn)行篩選。通過第一篇文獻(xiàn)可以知道左旋咪唑可以抑制堿性磷酸酶,但是仍有許多未知信息被湮沒,關(guān)于左旋咪唑抑制磷酸果糖激酶的信息(The effect of levamisole on energy metabolism in Ehrlich ascites tumour cells in vitro,PMID:2947578)排在檢索結(jié)果第120位(該結(jié)果基于2009-11-8檢索,由于PubMed更新較快,檢索排序可能出現(xiàn)變化)很可能被用戶遺漏。即使用戶嘗試使用布爾邏輯式,例如levamisole inhibitor NOT phosphatase來檢索Pub

22、Med,就有可能遺漏磷酸酶和磷酸果糖激酶存在于同一篇文獻(xiàn)中的結(jié)果。圖4:提交“l(fā)evamisole inhibitor”檢索GOPubMed結(jié)果檢索GOPubMed結(jié)果如圖4,檢索頁右側(cè)顯示文章的信息:題名、作者、期刊、摘要,摘要中有相應(yīng)顏色標(biāo)注GO語言或MeSH語言和檢索詞(GO或MeSH詞: 黃色;檢索詞:綠色)可以方便瀏覽摘要的主要內(nèi)容和相關(guān)重點(diǎn)。檢索頁左側(cè)為檢索詞按照GO、MeSH和Uniprot的相關(guān)分類,GO概念標(biāo)記G,MeSH標(biāo)記M,相關(guān)UniProt標(biāo)記P,標(biāo)記結(jié)果基于術(shù)語提取和實(shí)體識(shí)別算法匹配12,13。點(diǎn)擊相應(yīng)詞可以在檢索頁右側(cè)得到相應(yīng)的文獻(xiàn)摘要過濾結(jié)果,例如上述檢索,可直

23、接得到左咪唑抑制磷酸果糖激酶的文獻(xiàn)34篇,大大提高了結(jié)果的相關(guān)性和準(zhǔn)確性。點(diǎn)擊GO標(biāo)記詞,可以展示該詞在GO層層結(jié)構(gòu)中的描述、相關(guān)信息、別名、系統(tǒng)樹以及維基百科連接,每層結(jié)構(gòu)都有該詞的相關(guān)鏈接,可以做到更精確范圍的在搜索。MeSH標(biāo)記詞可以展示該詞在主題詞中的定義和樹狀結(jié)構(gòu)。UniProt標(biāo)記詞可以展示相關(guān)蛋白的信息和系統(tǒng)樹,通過該蛋白的描述,可以繼續(xù)相關(guān)蛋白的再搜索,如圖5.圖5:點(diǎn)擊相應(yīng)標(biāo)記詞。GOPubMed可以展示該詞相關(guān)信息和在GO或MeSH中的描述和結(jié)構(gòu)定位,有相應(yīng)鏈接以便于再搜索。以上述檢索為例,可以找到相關(guān)抑制酶3種(Phosphoric Monoester Hydrolase

24、s、Alkaline Phosphatase和Phosphates)相關(guān)生物過程、生物大分子、細(xì)胞定位和背景知識(shí)擴(kuò)展如圖6.圖6:左旋咪唑涉及背景知識(shí)分類圖3.2檢索結(jié)果的文獻(xiàn)計(jì)量分析與可視化展示文獻(xiàn)計(jì)量以統(tǒng)計(jì)學(xué)為基礎(chǔ),可以客觀定量的展示文獻(xiàn)信息交流中產(chǎn)生的各種數(shù)量關(guān)系和變化規(guī)律,隨著文獻(xiàn)計(jì)量學(xué)的發(fā)展,科學(xué)引文索引(SCI)成為科研工作者重要的參考和科研評價(jià)工具。GOPubMed加入了文獻(xiàn)計(jì)量分析功能,并對檢索結(jié)果進(jìn)行可視化輸出。3.2.1熱點(diǎn)問題追蹤 盡管生物文獻(xiàn)大量增長,研究問題卻有熱點(diǎn)和冷門之分。文獻(xiàn)計(jì)量分析可以在科研工作者選擇研究課題時(shí)提供一定指導(dǎo),而以前的文獻(xiàn)計(jì)量分析主要基于研究課題

25、、科技期刊或研究者11,GOPubMed可以展示基于相關(guān)GO背景知識(shí)的topics,即綜合考慮該術(shù)語及其子術(shù)語作為一個(gè)topic,進(jìn)行文獻(xiàn)計(jì)量分析,并配有topics趨勢圖。如上述檢索,與左咪唑抑制劑有關(guān)的技術(shù)和設(shè)備研究達(dá)1125篇,占文章總數(shù)的79%,其研究趨勢如圖7,可看出其研究現(xiàn)階段趨于平緩。圖7:左旋咪唑研究趨勢。3.2.2GOPubMed的統(tǒng)計(jì)分析功能GOPubMed統(tǒng)計(jì)分析功能具有對所有檢索結(jié)果的統(tǒng)計(jì)分析,亦有對單獨(dú)分類類目中的術(shù)語在PubMed中檢索得到的文獻(xiàn)進(jìn)行的統(tǒng)計(jì)分析,包括年代分布、核心著者、核心期刊、著者分布可視化地圖。圖8:左旋咪唑研究著者合著圖。GOPubMed自動(dòng)地

26、從成千上萬的生物醫(yī)學(xué)科學(xué)文獻(xiàn)里提取合作網(wǎng)絡(luò)14。對于每個(gè)在特定語義上的概念,GOPubMed 的“熱點(diǎn)追蹤”可以顯示出在這個(gè)研究領(lǐng)域的專家們之間的合作網(wǎng)絡(luò)。當(dāng)用戶要查找合適的專家時(shí),GOPubMed 可以搜索這些網(wǎng)絡(luò)去找出潛在的專家和他們的合作者,這樣子就能夠節(jié)省很多時(shí)間。4總結(jié)GOPubMed應(yīng)用GO和MeSH對PubMed檢索結(jié)果進(jìn)行數(shù)據(jù)挖掘,可以有效地的增加檢索的準(zhǔn)確率和和召回率,并對結(jié)果進(jìn)行分類導(dǎo)航和可視化展示,初步實(shí)現(xiàn)了語義網(wǎng)絡(luò)意義上的自動(dòng)問答目的,該系統(tǒng)的實(shí)現(xiàn)對于應(yīng)用本體搜索網(wǎng)絡(luò)數(shù)據(jù)有重要指導(dǎo)意義。GOPubMed追蹤“Hot Topics”功能,可以有效的幫助用戶整體把握研究趨勢

27、和研究熱點(diǎn),并對相關(guān)研究者、期刊、國家和地區(qū)進(jìn)行有目的的學(xué)習(xí)和借鑒,與SwissProt.和維基百科的相關(guān)鏈接大大節(jié)約了用戶整合科學(xué)數(shù)據(jù)的時(shí)間。GOPubMed已經(jīng)實(shí)現(xiàn)了基于GO和MeSH對檢索結(jié)果進(jìn)行標(biāo)引和分類,但是還沒有完全實(shí)現(xiàn)語義自動(dòng)問答,其下一步的目標(biāo)是實(shí)現(xiàn)概念間的語義關(guān)聯(lián)和相關(guān)度百分比匹配,建立基于本體的完全語義問答系統(tǒng),提高知識(shí)管理與服務(wù)的水平。參考文獻(xiàn)1GOPubMed: http:/www.GOPubM/web/GOPubMed/2/pages/ncbi-1.htm3嚴(yán)青利,張勇.醫(yī)學(xué)主題詞表(MeSH)評述J.情報(bào)檢索.2

28、001(8)64-664于雙成,逢大欣.醫(yī)學(xué)主題詞表(MeSH)專指度研究J.情報(bào)學(xué)報(bào).1995(12):449-452.5/6Marco Masseroli, Francesco Pinciroli. Using Gene Ontology and genomic controlled vocabularies to analyze high-throughput gene lists: Three tool comparisonJ. Computers in Biology and Medicine. 2006(36):731-747.7

29、Doms, A. and Schroeder, M. GOPubMed: exploring PubMed with the Gene OntologyJ. Nucleic Acids Res., 2005 (33): W7836.8 Heiko Dietze, Dimitra Alexopoulou, Michael R. Alvers, Liliana Barrio-Alvers, Bill Andreopoulos, Andreas Doms, Jorg Hakenberg, Jan Monnich, Conrad Plake, Andreas Reischuck, Loc Royer,

30、Thomas Wachter, Matthias Zschunke, and Michael Schroeder, GOPubMed: Exploring PubMed with Ontological Background KnowledgeJ. Procnd BioCreAtIvE Challenge Evaluation Workshop, 2007 (13):141144.9 Lee, L., Horn, F. and Cohen, F. Automatic Extraction of Protein Point Mutations Using a Graph Bigram AssociationJ. PLoS Comput. Biol., 2007 (3), e16.10 Delfs R, Doms A, Kozlenkov A, et al. GOPubMed: ontology-based literature search applied to Gene Ontology and Pub

評論

0/150

提交評論