版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、irab-論文塩表吉欣基于語(yǔ)義標(biāo)注的元數(shù)據(jù)自動(dòng)構(gòu)建及其相關(guān)技術(shù)研究【摘要】:為了解決網(wǎng)絡(luò)信息 爆炸”時(shí)代出現(xiàn)的諸多問(wèn)題,元數(shù)據(jù)作為 一種重要的應(yīng)對(duì)方法和措施,已廣泛應(yīng)用于信息檢索、信息集成及信 息共享等服務(wù)中。毫無(wú)疑問(wèn),元數(shù)據(jù)自身質(zhì)量的好壞決定了元數(shù)據(jù)應(yīng) 用服務(wù)的最終成敗。為了提高元數(shù)據(jù)的服務(wù)質(zhì)量,學(xué)術(shù)界和產(chǎn)業(yè)界主要從以下幾個(gè)方面進(jìn)行了大量的研究和探索。一是元數(shù)據(jù)質(zhì)量相關(guān)標(biāo) 準(zhǔn)的制定,建立統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)可以有效地保證元數(shù)據(jù)的一致性和 完整性,并實(shí)現(xiàn)規(guī)范性的交互操作,這一點(diǎn)已經(jīng)在研究工作者中達(dá)成廣 泛的共識(shí);二是元數(shù)據(jù)構(gòu)建及管理方法的改進(jìn)與完善,元數(shù)據(jù)構(gòu)建及管理方法的改進(jìn)和完善是提高元數(shù)據(jù)質(zhì)量
2、的另一種途徑,目前,在元數(shù)據(jù)的模式發(fā)現(xiàn)、模式轉(zhuǎn)換、控制策略、管理機(jī)制等諸多方面都已經(jīng)開(kāi) 展了大量的研究工作;三是元數(shù)據(jù)質(zhì)量評(píng)估的研究,學(xué)術(shù)界對(duì)此問(wèn)題的討論集中在評(píng)估指標(biāo)體系、評(píng)估方法及評(píng)估用例等幾方面。從目前 的文獻(xiàn)和資料中我們發(fā)現(xiàn),現(xiàn)有的研究工作更多的從元數(shù)據(jù)創(chuàng)建者手 動(dòng)方式的角度出發(fā),考慮了創(chuàng)建工具的有效性和便利性,然而,從元數(shù) 據(jù)的創(chuàng)建者和使用者兩方面考慮,這必將會(huì)引起諸如以下問(wèn)題:從創(chuàng) 建者來(lái)看,面對(duì)大量形式多樣的數(shù)據(jù)集,元數(shù)據(jù)創(chuàng)建者需要花費(fèi)一定的 精力去了解數(shù)據(jù)集內(nèi)容,直到對(duì)數(shù)據(jù)集的內(nèi)容具有深入透徹的理解,這 必將是一項(xiàng)繁瑣沉重的工作,此外,不同創(chuàng)建者理解上的差異 也會(huì)導(dǎo) 致元數(shù)據(jù)理
3、解上的歧義;從使用者來(lái)看,用戶也需要對(duì)預(yù)先定義好的 元數(shù)據(jù)具備正確的認(rèn)識(shí),否則在創(chuàng)建者和使用者之間就會(huì)產(chǎn)生認(rèn)知上的鴻溝”用戶自然就無(wú)法有效的查詢獲取需求信息。因此,為了解決以上問(wèn)題,構(gòu)建高質(zhì)量的元數(shù)據(jù)服務(wù),本文首先提出了一種基于語(yǔ)義標(biāo) 注構(gòu)建元數(shù)據(jù)的方法,利用數(shù)據(jù)集中已有的語(yǔ)義標(biāo)注信息自動(dòng)構(gòu)建生 成元數(shù)據(jù)。該方法在考慮元數(shù)據(jù)構(gòu)建效率的同時(shí),充分借鑒了知識(shí)共享的理念,探索了利用語(yǔ)義標(biāo)注信息傳遞出來(lái)的多視角信息消除主觀認(rèn)知上 鴻溝”的可行性,并對(duì)不同結(jié)構(gòu)視圖下的元數(shù)據(jù)識(shí)別策略進(jìn)行 了針對(duì)性研究。在此基礎(chǔ)上,本文進(jìn)一步研究了元數(shù)據(jù)模式語(yǔ)義異構(gòu) 的問(wèn)題,提出了一種支持元數(shù)據(jù)模式語(yǔ)義集成的模式匹配方法。
4、為了 驗(yàn)證方法的適用性、評(píng)估元數(shù)據(jù)的質(zhì)量,本文又提出了一種可以有效 提高查準(zhǔn)率,抑制查全率低引起目標(biāo)缺失的元數(shù)據(jù)查詢方法??紤]到 檔案信息資源自身特有的使用價(jià)值及其在基礎(chǔ)信息資源中重要的地位1,本文在實(shí)驗(yàn)設(shè)計(jì)的出發(fā)點(diǎn)以及測(cè)試數(shù)據(jù)集的選擇上,都將目標(biāo)定位在了這個(gè)領(lǐng)域之中。具體來(lái)講,本文各項(xiàng)研究成果主要包含以下 幾個(gè)方面:(1)在分析基于模板和基于機(jī)器學(xué)習(xí)兩類(lèi)主要元數(shù)據(jù)抽取 方法的基礎(chǔ)上,提出了一個(gè)自動(dòng)構(gòu)建元數(shù)據(jù)的方法(SAMC)。該方法能 克服上述兩類(lèi)方法的缺點(diǎn)與不足,不但能充分地利用現(xiàn)有語(yǔ)義標(biāo)注信 息對(duì)元數(shù)據(jù)進(jìn)行有效的識(shí)別和定位,而且還有機(jī)地將統(tǒng)計(jì)學(xué)理論、信 息的結(jié)構(gòu)化特征、視覺(jué)布局特征等融合
5、在一起,為SAMC的性能提供 了有力的保證,因而,該方法構(gòu)建出的元數(shù)據(jù)具有更高的精確度與更強(qiáng) 的信息表達(dá)能力,能夠很好地滿足對(duì)構(gòu)建高質(zhì)量元數(shù)據(jù)的要求。(2)提出了不同布局模式下識(shí)別元數(shù)據(jù)的算法。 為了提高本方法中生成元數(shù)據(jù)的可行性,本文考慮了語(yǔ)義標(biāo)注信息結(jié)構(gòu)視圖差異的情況,重點(diǎn)研究了在總分、遞進(jìn)、綜合分布等序列模式下,語(yǔ)義標(biāo)注信息所表現(xiàn)出來(lái)的差異特征,針對(duì)性的設(shè)計(jì)了相應(yīng)的元數(shù)據(jù)識(shí)別算法。算法中有效地 利用了樹(shù)型數(shù)據(jù)結(jié)構(gòu)的層次、線性數(shù)據(jù)結(jié)構(gòu)的次序以及信息分布的頻 繁程度等特征,從而使元數(shù)據(jù)識(shí)別的效果以及性能等方面都有了很好 的表現(xiàn)。(3)提出了能有效支持元數(shù)據(jù)屬性級(jí)語(yǔ)義集成的模式匹配方 法(PI
6、SMatching)。與相關(guān)研究相比,本研究面臨的是一個(gè)以豐富元數(shù) 據(jù)模式語(yǔ)義信息為目的、以多數(shù)據(jù)源元數(shù)據(jù)模式合并為任務(wù)的新問(wèn)題。本文嘗試了將本體、敘詞表和概念相似度計(jì)算結(jié)合使用,實(shí)現(xiàn)了整合各自優(yōu)點(diǎn)的目的,在實(shí)現(xiàn)難易、復(fù)雜度、語(yǔ)義強(qiáng)度等方面都擁有 更好的性能。本體的引入為匹配方法準(zhǔn)確性的提高提供了強(qiáng)有力的領(lǐng) 域上下文支持,基于關(guān)聯(lián)信息聯(lián)想和概率統(tǒng)計(jì)的概念相似度方法也為 模式匹配提供了一個(gè)新的度量標(biāo)準(zhǔn),該度量標(biāo)準(zhǔn)能夠發(fā)現(xiàn)積極相關(guān)的 屬性以得到潛在的屬性組,也能將同義關(guān)系的屬性組保留下來(lái)。在 PISMatching具體設(shè)計(jì)的表現(xiàn)力上,本文更注重匹配程度的高低排序而 不是差距值的計(jì)算,這樣對(duì)實(shí)際應(yīng)用
7、更具意義;更注重對(duì)匹配可利用 信息的捕獲,而減少對(duì)特定匹配模式的依賴,這樣使研究成果具有更大的靈活性、擴(kuò)展性和更廣泛的利用價(jià)值。(4)提出了利用域上下文信息度量相關(guān)性的元數(shù)據(jù)查詢方法(MFCQuery)。與傳統(tǒng)元數(shù)據(jù)查詢方 式相比,為了能在查準(zhǔn)率、查全率上有進(jìn)一步地提高,MFCQuery主要 從兩個(gè)方面進(jìn)行了擴(kuò)展:一是利用向量空間模型(VectorSpaceModel)在用戶查詢信息和元數(shù)據(jù)域上下文信息之間建立相關(guān)性計(jì)算矩陣,利用域上下文信息與用戶查詢信息相關(guān)性的高低來(lái)判斷用戶的真實(shí)查詢意圖,用以提高檢索結(jié)果的查全率;另一個(gè)方面考慮到部分查詢者可能由于缺少足夠的背景知識(shí),而無(wú)法提供必要的元數(shù)據(jù)
8、域查詢,我們 將為其匹配最相關(guān)的目標(biāo)域限制,以提高檢索結(jié)果的查準(zhǔn)率。該方法在保證傳統(tǒng)查詢方式下高精度特點(diǎn)的同時(shí),能夠使檢索結(jié)果的查全率 得到進(jìn)一步地提升。(5)細(xì)化了元數(shù)據(jù)的評(píng)估標(biāo)準(zhǔn)。從整個(gè)論文研究 的出發(fā)點(diǎn)講,論文全部研究工作的主要目的是為了有效地提高元數(shù)據(jù) 的質(zhì)量,使其能在具體應(yīng)用領(lǐng)域發(fā)揮更大的作用。為此,本文選擇了檔 案信息資源作為實(shí)驗(yàn)中的目標(biāo)應(yīng)用領(lǐng)域,而對(duì)于元數(shù)據(jù)最終質(zhì)量的評(píng) 估,作者考慮到并不能單純從信息技術(shù)經(jīng)典的評(píng)估指標(biāo)查全率和查準(zhǔn) 率來(lái)體現(xiàn),所以本文嘗試了細(xì)化各項(xiàng)評(píng)估指標(biāo),對(duì)特征不同的評(píng)估對(duì)象 采用了分化的評(píng)估比較的辦法,這樣可以在更細(xì)致的層面上反映出不同方法在元數(shù)據(jù)質(zhì)量上的影響
9、??傊?,本論文通過(guò)規(guī)則、統(tǒng)計(jì)、概率 等方法分別從上述各個(gè)方面對(duì)元數(shù)據(jù)相關(guān)技術(shù)進(jìn)行了深入研究。解決了元數(shù)據(jù)構(gòu)建過(guò)程中的關(guān)鍵問(wèn)題,提高了生成元數(shù)據(jù)的查準(zhǔn)度和查全 率;增強(qiáng)了對(duì)不同格式以及不斷變化的元數(shù)據(jù)模式進(jìn)行集成的適用能 力;提高了用戶主動(dòng)查詢的性能,在進(jìn)一步提高查全率的同時(shí),也提高 了查準(zhǔn)率,在這些工作中取得了一系列相關(guān)的研究成果?!娟P(guān)鍵詞】:元數(shù)據(jù)數(shù)據(jù)管理信息抽取模式匹配信息檢索【學(xué)位授予單位】:華東師范大學(xué)【學(xué)位級(jí)別】:博士【學(xué)位授予年份】:2010【分類(lèi)號(hào)】:TP391.1【目錄】:摘要6-9Abstract9-161 .緒論16-281.1.研究背景16-171.2問(wèn) 題提出17-20
10、1.2.1元數(shù)據(jù)構(gòu)建現(xiàn)狀17-191.2.2 .問(wèn)題分析19-201.3檔案 信息資源20-221.3.1概述20-211.3.2.網(wǎng)絡(luò)環(huán)境下檔案信息服務(wù)面臨的 問(wèn)題21-221.4本文主要研究?jī)?nèi)容及創(chuàng)新點(diǎn)22-261.4.1主要研究?jī)?nèi)容22-241.4.2創(chuàng)新點(diǎn)24-261.5.本文的組織結(jié)構(gòu)26-271.6.本章小結(jié)27-282. 理論研究28-442.1.元數(shù)據(jù)基礎(chǔ)理論28-362.1.1元數(shù)據(jù)定義28-292.1.2. 元數(shù)據(jù)的存在形態(tài)29-312.1.3元數(shù)據(jù)分類(lèi)31-332.1.4.元數(shù)據(jù)在檔案信 息資源領(lǐng)域的作用 33-352.1.5.元數(shù)據(jù)與本體35-362.2相關(guān)研究?jī)?nèi)容 概
11、述 36-432.2.1.本體36-382.2.2.信息抽取38-402.2.3.模式匹配 40-422.2.4信息檢索42-432.3.本章小結(jié)43-443基于語(yǔ)義標(biāo)注信息的 元數(shù)據(jù)構(gòu)建44-743.1引言44-453.2.元數(shù)據(jù)構(gòu)建方法45-533.2.1主要方 法研究現(xiàn)狀 45-483.2.2.HMM48-523.2.3.模板學(xué)習(xí)523.2.4.問(wèn)題分析 52-533.3.SAMC 元數(shù)據(jù)構(gòu)建 53-663.3.1 語(yǔ)義標(biāo)注 53-563.3.2.SAMC 方 法的提出56-663.4.實(shí)驗(yàn)測(cè)試結(jié)果評(píng)估及分析66-733.4.1.實(shí)驗(yàn)設(shè)計(jì)66-673.4.2評(píng)估指標(biāo) 67-693.4.3
12、.實(shí)驗(yàn)結(jié)果及評(píng)估69-733.5.本章小結(jié)73-744.支持異構(gòu)元數(shù)據(jù)模式屬性級(jí)語(yǔ)義集成的模式匹配74-934.1.引言744.2模式匹配概述74-774.2.1主要方法介紹74-764.2.2問(wèn)題分析 76-774.3.PISMatchi ng 的提出 77-884.3.1.概述 77-784.3.2.基于 Concept-Word生成應(yīng)用元數(shù)據(jù)模式 78-844.3.3關(guān)聯(lián)概念聯(lián)想的概念相似度計(jì)算84-8844實(shí)驗(yàn)測(cè)試結(jié)果評(píng)估及分析88-91441.實(shí)驗(yàn)設(shè)計(jì)88-894.42評(píng)估指標(biāo)894.4.3.實(shí)驗(yàn)結(jié)果及評(píng)估89-914.5.本章小結(jié)91-935基于域上下文信息相關(guān)性度量的元數(shù)據(jù)查詢93-1135.1引言93-945.2相關(guān)研究94-100521主要檢索模型介紹 94-975.2.2問(wèn)題分 析 97-1005.3.MFCQuery 的提出 100-1065.3.1.符 號(hào)定義 1005.3.2.MFCQuery方法100-1065.4.實(shí)驗(yàn)測(cè)試結(jié)果評(píng)估及分析 106-1115.4.1實(shí)驗(yàn)設(shè)計(jì)106-1075.4.2評(píng)估指標(biāo)1075.4.3.實(shí)驗(yàn)結(jié)果及評(píng) 估107-1115.5本章小結(jié) 111-1136總結(jié)與展望 113-1186.1本文總結(jié) 113-1156.2進(jìn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年水電安裝項(xiàng)目安全責(zé)任及風(fēng)險(xiǎn)評(píng)估合同3篇
- 2025年分期付款消費(fèi)合同
- 2025年合資合同簽署流程解密
- 2025年死因贈(zèng)與協(xié)議的免責(zé)條款與法律后果
- 2025年家庭駕駛服務(wù)合同
- 2025年不良資產(chǎn)質(zhì)押擔(dān)保服務(wù)協(xié)議
- 二零二五年度電子商務(wù)平臺(tái)承包經(jīng)營(yíng)合同3篇
- 2025年新型校園食品安全管理體系共建合同3篇
- 二零二五版電力設(shè)備出口合同2篇
- 2025年度鐵路客運(yùn)安全管理合同3篇
- 河南省鄭州外國(guó)語(yǔ)高中-【高二】【上期中】【把握現(xiàn)在 蓄力高三】家長(zhǎng)會(huì)【課件】
- 天津市武清區(qū)2024-2025學(xué)年八年級(jí)(上)期末物理試卷(含解析)
- 《徐霞客傳正版》課件
- 江西硅博化工有限公司年產(chǎn)5000噸硅樹(shù)脂項(xiàng)目環(huán)境影響評(píng)價(jià)
- 2025年中煤電力有限公司招聘筆試參考題庫(kù)含答案解析
- 企業(yè)內(nèi)部控制與財(cái)務(wù)風(fēng)險(xiǎn)防范
- 高端民用航空復(fù)材智能制造交付中心項(xiàng)目環(huán)評(píng)資料環(huán)境影響
- 建設(shè)項(xiàng)目施工現(xiàn)場(chǎng)春節(jié)放假期間的安全管理方案
- 胃潴留護(hù)理查房
- 污水處理廠運(yùn)營(yíng)方案計(jì)劃
- 眼科慢病管理新思路
評(píng)論
0/150
提交評(píng)論