版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、中圖分類號:中圖分類號:TP391 單位代號:單位代號:11903密密 級:級: 學(xué)學(xué) 號:號:07720850 碩碩 士士 學(xué)學(xué) 位位 論論 文文SHANGHAI UNIVERSITYMASTERS Dissertation題題目目基于基于 RSMRSM 的網(wǎng)頁間語義鏈網(wǎng)絡(luò)的網(wǎng)頁間語義鏈網(wǎng)絡(luò)構(gòu)建方法研究構(gòu)建方法研究作作 者者 學(xué)科專業(yè)學(xué)科專業(yè) 計(jì)算機(jī)應(yīng)用技術(shù)計(jì)算機(jī)應(yīng)用技術(shù)導(dǎo)導(dǎo) 師師 完成日期完成日期 2010 年年 2 月月上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University上海大學(xué)本論文經(jīng)答辯委員會全體委員審查,確認(rèn)符合上海大學(xué)碩
2、士學(xué)位論文質(zhì)量要求。答辯委員會簽名:主任:委員:導(dǎo) 師:答辯日期:上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University原原 創(chuàng)創(chuàng) 性性 聲聲 明明 本人聲明:所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作。除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已發(fā)表或撰寫過的研究成果。參與同一工作的其他同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。 簽 名:_日 期_本論文使用授權(quán)說明本論文使用授權(quán)說明本人完全了解上海大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留論文及送交論文復(fù)印件,允許論文被查閱和借閱;學(xué)???/p>
3、以公布論文的全部或部分內(nèi)容。(保密的論文在解密后應(yīng)遵守此規(guī)定保密的論文在解密后應(yīng)遵守此規(guī)定)簽 名:_ 導(dǎo)師簽名:_ _日期:_上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University上海大學(xué)工學(xué)碩士學(xué)位論文基于基于 RSMRSM 的網(wǎng)頁間語義鏈網(wǎng)絡(luò)的網(wǎng)頁間語義鏈網(wǎng)絡(luò)構(gòu)建方法研究構(gòu)建方法研究碩 士 生:導(dǎo) 師:學(xué)科專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院20102010 年年 2 2 月月上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai UniversityA
4、Dissertation Submitted to Shanghai University for the Degree of Master in EngineeringResearch on the Method of Building Semantic Link Network of Web Page Based RSMMDCandidate:Supervisor:Major:Computer Application TechnologySchool of Computer Engineering and Science, Shanghai UniversityFeb,Feb, 20102
5、010上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai UniversityI摘摘 要要隨著 Internet 及其相關(guān)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上出現(xiàn)了海量的、異構(gòu)的 web 信息資源,當(dāng)前的通用搜索引擎雖然在很大程度了解決了人們在互聯(lián)網(wǎng)上查找信息困難的問題,但是隨著 web 信息指數(shù)化地增長,不能滿足用戶個(gè)性化的需求,于是出現(xiàn)了很多基于某一特定領(lǐng)域的垂直搜索引擎,但是這種垂直搜索引擎還是沒有改變基于關(guān)鍵詞簡單匹配的性質(zhì)。在谷歌、百度等通用搜索引擎中檢索時(shí)返回的結(jié)果集的數(shù)量非常大,而且這些網(wǎng)頁間缺少語義聯(lián)系,有時(shí)難以獲取到有用的信息。目錄式門戶網(wǎng)站主要工作是
6、對網(wǎng)頁進(jìn)行分類,手工分類方式工作量大且更新慢,同樣分類好的網(wǎng)頁都是獨(dú)立的缺少與其他網(wǎng)頁之間的聯(lián)系。針對傳統(tǒng)網(wǎng)頁間缺少語義聯(lián)系這一問題,本文對網(wǎng)頁間的語義鏈網(wǎng)絡(luò)構(gòu)建方法進(jìn)行了研究,提出了一種用來組織管理海量異構(gòu) web 信息的方法,使網(wǎng)頁之間建立起一種語義關(guān)系,而非傳統(tǒng)網(wǎng)頁中僅有的一個(gè)鏈接關(guān)系。本文首先根據(jù)網(wǎng)頁的五維正交信息基于資源空間模型(RSM-Resource Space Model)表示網(wǎng)頁,達(dá)到多方面研究網(wǎng)頁信息的效果,根據(jù)網(wǎng)頁標(biāo)簽的權(quán)重信息提出了一個(gè)改進(jìn)的TFIDF(Term Frequency Inverse Document Frequency)公式來計(jì)算關(guān)鍵詞權(quán)重,并利用信息熵
7、驗(yàn)證了算法的可靠性,提出了動(dòng)態(tài) K 值選擇的 KNN(K-Nearest Neighbor)分類算法,解決了 KNN 算法 K 值選擇難的問題。其次,根據(jù)行業(yè)中普遍存在著的產(chǎn)業(yè)鏈這一經(jīng)濟(jì)特性建立網(wǎng)頁主題間的語義鏈網(wǎng)絡(luò),本文定義了網(wǎng)頁主題間三種語義鏈關(guān)系:上位關(guān)系、下位關(guān)系和同位關(guān)系,分析了這三種關(guān)系的自反性、對稱性和傳遞性特點(diǎn),以及推導(dǎo)出這三種關(guān)系間的九條規(guī)則,并引入了產(chǎn)業(yè)鏈中主題間距離的概念。最后,定義了網(wǎng)頁間的兩種語義關(guān)系:相似關(guān)系和關(guān)聯(lián)關(guān)系,其中相似關(guān)系是同一個(gè)類別下的網(wǎng)頁間存在的關(guān)系,而關(guān)聯(lián)關(guān)系則是通過網(wǎng)頁主題間的語義鏈網(wǎng)絡(luò)建立起來的網(wǎng)頁間語義關(guān)系,針對不同類別下網(wǎng)頁間含有的共同關(guān)鍵詞
8、比較少的情況,本文還提出了一種空間向量模型間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度算法,最終建立了網(wǎng)頁間的語義鏈網(wǎng)絡(luò)。通過建立網(wǎng)頁間的語義鏈網(wǎng)絡(luò),為海量異構(gòu)的 Web 網(wǎng)頁間建立了語義聯(lián)系。本文根據(jù)產(chǎn)業(yè)鏈特性建立起網(wǎng)頁間的語義鏈網(wǎng)絡(luò),用戶就可以根據(jù)產(chǎn)業(yè)鏈規(guī)則獲取 Web 知識服務(wù),達(dá)到智能瀏覽海量 Web 網(wǎng)頁信息的效果。關(guān)鍵詞:關(guān)鍵詞:資源空間模型;語義鏈;分類;網(wǎng)頁;語義互聯(lián)上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai UniversityIIAbstractAbstractWith the Internet and related technologies dev
9、eloping, there are massive and heterogeneous web information resources appear on the Internet. The current search engines reduce the difficulty to find information on the Internet, but as the web information grows exponentially, the search engines cannot meet the needs of individual users. Then it a
10、ppears many search engines based on a specific field, called vertical search engine, but it is still rely on keywords matching. When users query information through search engine, the general search engines such as Google and Baidu will return a large number of pages, each page is isolated, pages do
11、nt have connection with the others, and sometimes users are difficult to get the useful information. The main task of directory-style portal is to classify web pages, manual classification is a heavy work and update slowly, and pages have no semantic relation with each other too.As it lacks semantic
12、 relation between pages, this paper proposes a method to build semantic link network of web pages, organizing the massive and heterogeneous web pages, building semantic relation between pages, the semantic relation is meaningful not just a link. First of all, Five-dimensional orthogonal information
13、is extracted from the page, and the page is expressed by resource space model (RSM-Resource Space Model), so the web page can be studied from five aspects. According to the page tag, proposing an improved TFIDF method to calculate keyword weight in the page, and verifying the reliability of the algo
14、rithm through information entropy. Proposing a method based on KNN (K-Nearest Neighbor) that the K value in KNN is dynamic, which solve the problem of selecting the K in KNN algorithm. Besides, the semantic link network of web page topic is built according to the industrial chain in the economic; th
15、ree semantic relationships are defined as follows: upstream relationship, same stream relationship and downstream relationship. This paper analyses the reflexivity, symmetry and transitivity of the three relationships, deduces nine rules among the relationships, and introduces the concept of distanc
16、e between chain links. Finally, two semantic relationships are defined: similar relationship and associate relationship, similar relationship occurs between pages of the same classification, while the associate relationship occurs between pages of the different classifications and is built through t
17、he semantic link network of web page topic. For there are less common keywords between pages of different category, an associated 上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai UniversityIIIalgorithm is proposed to solve the problem. The semantic link network is built finally.Semantic link network of
18、 web pages make the pages have semantic relationship with each other, the massive heterogeneous web pages is organized well, and then the information can be easily got. Based on the characteristics of the industry chain, the semantic link network of web pages are established, users can access web kn
19、owledge services according to the industry chain, and then browse web page information intelligently.Keywords: resource space model; semantic link; classification; page; semantic interconnection.上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai UniversityIV目目 錄錄摘摘 要要.IABSTRACT.II目目 錄錄.IV第一章第一章 緒緒 論論.11.
20、1 研究背景和意義.11.2 國內(nèi)外研究現(xiàn)狀.21.2.1語義網(wǎng)絡(luò).31.2.2文本分類工作.41.3 主要研究內(nèi)容.51.4 論文的組織.6第二章第二章 相關(guān)理論和技術(shù)相關(guān)理論和技術(shù).72.1 知識表示方法.72.2 資源空間模型(RESOURCE SPACE MODEL-RSM).82.3 語義鏈網(wǎng)絡(luò)的介紹.102.4 文本分類算法分析.112.5 小結(jié).13第三章第三章 領(lǐng)域網(wǎng)頁分類方法研究領(lǐng)域網(wǎng)頁分類方法研究.143.1 基于 RSM 網(wǎng)頁多維表示方法.143.2 改進(jìn)的 TFIDF 算法.163.2.1領(lǐng)域網(wǎng)頁 TFIDF 改進(jìn)方法.173.2.2信息熵驗(yàn)證改進(jìn)的 TFIDF 性能.
21、193.3 動(dòng)態(tài) K 值選擇的 KNN 網(wǎng)頁分類算法.213.3.1距離函數(shù)選擇.213.3.2動(dòng)態(tài) K 值選擇的 KNN 算法.223.4 文本分類實(shí)驗(yàn) .253.5 小結(jié) .26第四章第四章 構(gòu)造網(wǎng)頁間的語義鏈網(wǎng)絡(luò)構(gòu)造網(wǎng)頁間的語義鏈網(wǎng)絡(luò).274.1 根據(jù)產(chǎn)業(yè)鏈建立網(wǎng)頁主題語義鏈網(wǎng)絡(luò).274.1.1 基于產(chǎn)業(yè)鏈的網(wǎng)頁主題間語義鏈關(guān)系.274.1.2 語義關(guān)系之推理規(guī)則 .294.1.3 網(wǎng)頁主題的語義鏈網(wǎng)絡(luò).304.2 網(wǎng)頁語義鏈網(wǎng)絡(luò)的形成.324.2.1 關(guān)聯(lián)度算法 .32上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai UniversityV4.
22、2.2 網(wǎng)頁間語義鏈網(wǎng)絡(luò) .334.3 小結(jié).35第五章第五章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).365.1 系統(tǒng)開發(fā)平臺 .365.2 系統(tǒng)設(shè)計(jì) .365.2.1 系統(tǒng)架構(gòu).365.2.2 系統(tǒng)存儲結(jié)構(gòu) .375.2.3 數(shù)據(jù)庫設(shè)計(jì) .385.3 系統(tǒng)實(shí)現(xiàn).405.3.1 網(wǎng)頁預(yù)處理 .405.3.2 網(wǎng)頁文本分類 .445.3.3 網(wǎng)頁主題間語義鏈網(wǎng)絡(luò)的建立.455.3.4 網(wǎng)頁間的語義鏈網(wǎng)絡(luò) .485.4 小結(jié).50第六章第六章 總結(jié)與展望總結(jié)與展望 .516.1 總結(jié).516.2 展望.52參考文獻(xiàn)參考文獻(xiàn).53作者在攻讀碩士學(xué)位期間公開發(fā)表的論文作者在攻讀碩士學(xué)位期間公開發(fā)表的論文.56
23、作者在攻讀碩士學(xué)位期間參與的項(xiàng)目作者在攻讀碩士學(xué)位期間參與的項(xiàng)目 .57致致 謝謝.58上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University1第一章第一章 緒緒 論論1.11.1 研究背景研究背景和意義和意義隨著搜索引擎技術(shù)的發(fā)展,現(xiàn)在人們可以利用自動(dòng)搜索引擎(Google、百度)和分類目錄搜索引擎(雅虎以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄)等進(jìn)行信息的查找工作。通用搜索引擎的出現(xiàn)很大程度上解決了人們在互聯(lián)網(wǎng)上查找信息困難的問題,但是通用搜索引擎也正面臨巨大的挑戰(zhàn)。挑戰(zhàn)之一是 Web 信息資源呈指數(shù)級增長,搜索引擎無法索引所有頁面;挑戰(zhàn)
24、之二是 Web 信息資源動(dòng)態(tài)變化,搜索引擎無法保證對信息的及時(shí)更新;挑戰(zhàn)之三是傳統(tǒng)的搜索引擎提供的信息檢索服務(wù),不能滿足人們?nèi)找嬖鲩L的對個(gè)性化服務(wù)的需求。面對通用搜索引擎發(fā)展所遇到的困難和人們對信息的新需求,各類適應(yīng)特定人群需要的“主題搜索邀請”應(yīng)運(yùn)而生并引起了研究者的重視。它負(fù)責(zé)為用戶從因特網(wǎng)上搜索和查詢某一特定領(lǐng)域的信息與知識。目前,著名的專業(yè)搜索引擎有中國化工網(wǎng)(http:/ 。以及大中華地區(qū)最大的房地產(chǎn)專業(yè)網(wǎng)站搜房網(wǎng)(http:/)等網(wǎng)站。 其次,由于萬維網(wǎng)的設(shè)計(jì)目的是面向用戶直接閱讀和處理的,而沒有提供計(jì)算機(jī)可讀的語義信息,因此限制了計(jì)算機(jī)在信息檢索中的自動(dòng)分析處理以及進(jìn)一步的智能化
25、的信息處理能力,這使得 Internet 在信息表達(dá)、檢索等方面的缺陷漸漸暴露了出來。針對 Internet 暴露出來的缺陷,1998 年,Web 的創(chuàng)始人 Tim Berners-Lee 首次提出了“語義 Web”(Semantic Web)的概念及其技術(shù)路線?;谡Z義技術(shù)的方法目前已在詞義消歧、語言學(xué)自動(dòng)處理、雙語及多國語機(jī)器翻譯、檢索系統(tǒng)等一系列語言工程已開始應(yīng)用?;谡Z義的專業(yè)搜索引擎的研究目前也成為搜索引擎的研究熱點(diǎn),是未來搜索引擎主要發(fā)展方向之一。 隨著 Internet 及其相關(guān)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上出現(xiàn)了海量的、異質(zhì)的 Web信息資源,Web 上的數(shù)據(jù)不僅量大而且增長速度快。
26、Web 己經(jīng)成為人們獲取信息的重要手段。如何在 Web 這樣的分布式環(huán)境中找到有價(jià)值的信息,并從中提取出知識已經(jīng)成為目前信息檢索、數(shù)據(jù)挖掘和知識管理等研究領(lǐng)域的重要課題。在這些龐大的信息資源中,隱含著具有巨大潛在價(jià)值的知識。人們迫切需要能夠從 web上快速、有效地發(fā)現(xiàn)資源和知識的工具。計(jì)算技術(shù)發(fā)展到今天,靠人來閱讀互聯(lián)上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University2網(wǎng)上信息和對網(wǎng)上信息做分門別類和總結(jié)己經(jīng)不可能。于是功能強(qiáng)大的搜索引擎(如谷歌,百度)的分類瀏覽模式由此應(yīng)運(yùn)而生。這些搜索引擎可以按照知識的種類分門別類建立索引,有效
27、地減輕了人們從海量的信息資源中尋找有價(jià)值信息的負(fù)擔(dān),它的目錄分類的質(zhì)量較高,檢索效果好。但是需要人工維護(hù),因此存在成本高、信息更新慢、維護(hù)工作量大的缺點(diǎn)。由于網(wǎng)絡(luò)信息的爆炸式增長,搜索引擎的覆蓋率有限,其查全率低。同時(shí),大多數(shù)搜索引擎都是基于全文的檢索,不能達(dá)到賦詞標(biāo)引的效果,也導(dǎo)致查準(zhǔn)率較低。再者,絕大多數(shù)搜索引擎智能化水平低,不能有效地提供個(gè)性化用戶服務(wù)。加之最重要的一點(diǎn)是,搜索引擎的目的在于定位 Web 上的資源,就 Web 上的知識發(fā)現(xiàn)而言,搜索引擎不能夠勝任。目前基于傳統(tǒng)信息檢索 (Information Retrieval,IR)方法的搜索引擎大部分使用的是基于文檔內(nèi)容的詞頻統(tǒng)計(jì),
28、即 TF-IDF 方法的索引方式。這種基于文檔關(guān)鍵字的檢索手段,隨著 Web 上數(shù)據(jù)量的迅速增加而越來越不適應(yīng)人們的要求,它的主要缺陷有:(1)信息過量,返回太多的無關(guān)內(nèi)容。(2)Web 的覆蓋面有限,根據(jù) SteveLawrence 的報(bào)告,目前任何搜索引擎索引的部分不超過整個(gè) web 的 30%。(3)面向關(guān)鍵字的搜索。目前搜索技術(shù)僅僅對關(guān)鍵字進(jìn)行簡單的匹配,而不能根據(jù)用戶查詢目的進(jìn)行查詢內(nèi)容的擴(kuò)展,此外有些信息查詢是很難用關(guān)鍵字組合來準(zhǔn)確的描述的。Web 中包含著大量信息,而這些信息經(jīng)過提煉加工可以上升為知識,單純的使用統(tǒng)計(jì)的方法無法把海量的信息轉(zhuǎn)化為知識的形態(tài)。建立網(wǎng)頁間的語義鏈網(wǎng)絡(luò)可
29、以解決兩個(gè)問題,第一個(gè)問題是海量 Web 信息在同類中和不同類別中網(wǎng)頁間都缺少聯(lián)系;第二個(gè)問題是搜索引擎只能基于關(guān)鍵詞匹配,搜索出來的結(jié)果缺少聯(lián)系,不能提供一種知識流的服務(wù)。通過建立網(wǎng)頁間的語義鏈網(wǎng)絡(luò)可以組織管理海量異構(gòu)的 web 信息成一種知識,從而為用戶提供知識服務(wù)。本課題需求來源于上海統(tǒng)誠科技有限公司搜索引擎系統(tǒng)的一個(gè)子系統(tǒng):基于資源空間模型建立服裝行業(yè)網(wǎng)頁間的語義鏈網(wǎng)絡(luò),該搜索引擎系統(tǒng)“服紡第一搜”是由上海大學(xué)-計(jì)算機(jī)學(xué)院與上海統(tǒng)誠科技有限公司共同開發(fā)的服裝行業(yè)的專業(yè)搜索引擎系統(tǒng)。1.21.2 國內(nèi)外研究現(xiàn)狀國內(nèi)外研究現(xiàn)狀目前搜索引擎也只是通過關(guān)鍵詞匹配的方式返回結(jié)果集,結(jié)果集間缺少更
30、多的聯(lián)系,針對當(dāng)前同一類別中的網(wǎng)頁或者是不同類別中的網(wǎng)頁都缺少聯(lián)系這一問題,本文對網(wǎng)頁間語義鏈網(wǎng)絡(luò)的構(gòu)建方法進(jìn)行了研究。為了建立網(wǎng)頁間的語義鏈上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University3網(wǎng)絡(luò),需要研究的兩個(gè)主要內(nèi)容是語義網(wǎng)絡(luò)和文本分類技術(shù)。.1 語義網(wǎng)絡(luò)語義網(wǎng)絡(luò)自 Tim Berners. Lee 于 1998 年提出語義 Web(the Semantic Web)1的概念之后,語義 Web 就一直成為人們討論與研究的熱點(diǎn)。當(dāng)前國際上關(guān)于語義 Web 的研究剛剛處于起步階段,而我國對語義 Web 的研究不論是
31、從標(biāo)準(zhǔn)規(guī)范、系統(tǒng)試驗(yàn)、研究深度,還是從規(guī)模層次、具體應(yīng)用方面都相對落后。另人欣慰的是,我國學(xué)者已經(jīng)認(rèn)識到了語義 Web 及其相關(guān)技術(shù)對未來互聯(lián)網(wǎng)發(fā)展的影響,并開始著手研究語義 Web 及其相關(guān)的關(guān)鍵技術(shù)與應(yīng)用。雖然與國外相比我國對語義 Web 的研究相對落后,但從 1999 年至 2004 年 4 月發(fā)表的論文來看,論文數(shù)量逐年遞增。2O02 年發(fā)表相關(guān)論文 22 篇,分別是 2000 年(6 篇)和 2001 年(4 篇)論文數(shù)量的 3.7 倍和 5.5倍。2003 年發(fā)表論文 38 篇,是 2002 年的 1.7 倍。這說明隨著時(shí)間的推移,對語義 Web 的研究已經(jīng)引起了我國學(xué)者的高度重視
32、。語義 Web 是“第三代 Web,其目標(biāo)是實(shí)現(xiàn)機(jī)器自動(dòng)處理信息,它提供諸如信息代理、搜索代理、信息過濾等智能服務(wù)” 。語義 Web 不同于現(xiàn)存的萬維網(wǎng),其數(shù)據(jù)主要供人類使用,新一代 WWW中將提供也能為計(jì)算機(jī)所處理的數(shù)據(jù),這將使得大量的智能服務(wù)成為可能。語義Web 研究活動(dòng)的目標(biāo)是“開發(fā)一系列計(jì)算機(jī)可理解和處理的表達(dá)語義信息的語言和技術(shù)以支持網(wǎng)絡(luò)環(huán)境下廣泛有效的自動(dòng)推理。語義 web 的創(chuàng)始人 Tim BemersLee 對語義 web 的定義是:“語義 Web 是一個(gè)網(wǎng),它包含了文檔或文檔的一部分,描述了事物間的明顯關(guān)系,且包含語義信息,以利于機(jī)器的自動(dòng)處理” 。但這種基于 Ontolog
33、y 的語義互聯(lián)較難在大規(guī)模的網(wǎng)絡(luò)輿情環(huán)境中實(shí)現(xiàn)自動(dòng)話題互聯(lián),W3C 提出 XML 語言來對網(wǎng)絡(luò)資源進(jìn)行描述,但是其幾乎沒有推理能力,所以 W3C 又提出 RDFS(Resource Description Framework Schema),OIL(Ontology Interchange Language),DAMA(DARPA Agent Markup Language),OWL(Web Ontology Language)(/)等本體來對網(wǎng)絡(luò)資源進(jìn)行表示與推理。上述 Ontology 通過描述一個(gè)實(shí)體如何與其他實(shí)體發(fā)生聯(lián)系來進(jìn)行話題的
34、語義互聯(lián)。但是以上 Ontology 較難進(jìn)行自動(dòng)構(gòu)造,因此基于 Ontology 的語義互聯(lián)較難在大規(guī)模的網(wǎng)絡(luò)輿情環(huán)境中實(shí)現(xiàn)話題自動(dòng)互聯(lián)。語義鏈網(wǎng)絡(luò)2-5(Semantic Link Network, SLN)是中科院諸葛海研究員在 2006年提出來的,這是一種支持推理和組織資源的語義計(jì)算模型,被設(shè)計(jì)來確定眾多資源(數(shù)據(jù)、圖像和各種文檔)之間的語義關(guān)系,目的是擴(kuò)展現(xiàn)有的超鏈接網(wǎng)絡(luò)www 成一個(gè)語義豐富的網(wǎng)絡(luò)并且建立一個(gè)活躍文檔框架。實(shí)體上的 SLN 反應(yīng)了個(gè)體之間的語義,模式(數(shù)據(jù)類型和相應(yīng)的限制條件結(jié)構(gòu)的定義)之間的 SLN 鏈接上海大學(xué)碩士學(xué)位論文The Postgraduate The
35、sis of Shanghai University4反應(yīng)了小組之間的語義。語義鏈網(wǎng)絡(luò)模型主要用于描述兩個(gè)資源之間的有序關(guān)系,可以表示為從一個(gè)資源到另一個(gè)資源的類型化指針。其是用語義鏈替代現(xiàn)有 Web超鏈結(jié)構(gòu)的語義互聯(lián)網(wǎng)模型,其中結(jié)點(diǎn)表示資源,有向邊表示類型化的語義鏈。語義鏈網(wǎng)絡(luò)雖然可以對不同層次的網(wǎng)絡(luò)資源進(jìn)行語義互聯(lián)(比如話題層次和單詞層次) ,但是語義鏈網(wǎng)絡(luò)中的各種關(guān)系類型比較難以發(fā)現(xiàn)。語義鏈網(wǎng)絡(luò)中的節(jié)點(diǎn)所代表的網(wǎng)絡(luò)資源沒有一個(gè)固定的表示方法?;谡Z義鏈網(wǎng)絡(luò)的語義互聯(lián)具有優(yōu)良的鏈接機(jī)制、但缺乏資源的表示。目前的語義 Web 主要是通過本體的形式建立實(shí)體間的語義互聯(lián),使得計(jì)算機(jī)可以理解 We
36、b 資源,但是當(dāng)前的 Web 資源主要是 html 格式,這種無結(jié)構(gòu)的信息難以處理分析,并且對于海量的 Web 信息就更加難以自動(dòng)構(gòu)造本體。語義鏈網(wǎng)絡(luò)從理論上驗(yàn)證了建立各種資源語義互聯(lián)的可行性,對于各種語義鏈網(wǎng)絡(luò),其語義鏈關(guān)系也可以是多種多樣的,但是缺少足夠豐富的語義鏈網(wǎng)絡(luò)實(shí)踐經(jīng)驗(yàn),尤其是對于海量網(wǎng)頁間的語義鏈網(wǎng)絡(luò)的建立。.2 文本分類工作文本分類工作為了發(fā)現(xiàn)網(wǎng)頁之間的關(guān)系并形成網(wǎng)頁間的語義鏈網(wǎng)絡(luò),網(wǎng)頁文本分類是研究重點(diǎn)。在 Web 出現(xiàn)之前,人們已經(jīng)對文本自動(dòng)分類問題進(jìn)行了大量研究,形成了文檔自動(dòng)分類技術(shù)。隨著 Web 上海量的文本信息的增加,文檔自動(dòng)分類技術(shù)的處理對象從普通
37、的文檔擴(kuò)展到了 Web 文本。文檔自動(dòng)分類技術(shù)也成為 Web 文本分類技術(shù)的基礎(chǔ)。國外對文本自動(dòng)分類的研究開展較早。50 年代末,H.P.Luhn 在這個(gè)領(lǐng)域進(jìn)行了開創(chuàng)性的研究,提出了基于詞頻統(tǒng)計(jì)思想的文本自動(dòng)分類方法。1960 年, Maron 發(fā)表了關(guān)于自動(dòng)分類算法的第一篇論文,隨后以 K.Spark,G.Salton 以及K.S.Jones 等人為代表的眾多學(xué)者也在這一領(lǐng)域進(jìn)行了很有成效的研究工作6。目前國外的文本分類研究己經(jīng)從實(shí)驗(yàn)性階段進(jìn)入到了實(shí)用化階段,并在郵件分類,電子會議等方法取得了廣泛的應(yīng)用,其中較為成功的有麻省理工學(xué)院為白宮開發(fā)的郵件分類系統(tǒng)和卡內(nèi)基集團(tuán)為路透社開發(fā)的 con
38、strue 系統(tǒng)7。國內(nèi)對于文本自動(dòng)分類的研究起步較晚。1981 年,侯漢清教授對計(jì)算機(jī)在文本分類工作中應(yīng)用作了探討和闡述8。此后,我國陸續(xù)研究產(chǎn)生了一些文本分類系統(tǒng),其中具有代表性的有上海交通大學(xué)研制的基于神經(jīng)網(wǎng)絡(luò)算法的中文自動(dòng)分類系統(tǒng),清華大學(xué)的自動(dòng)分類系統(tǒng)等等。同時(shí)在不同的分類算法方面也展開了廣泛的研究和實(shí)現(xiàn),中科院計(jì)算所的李曉黎、史忠植等人應(yīng)用概念推理網(wǎng)進(jìn)行文本分類9,召回率達(dá)到 94.2%,準(zhǔn)確率達(dá)到 99.4%。中國科技大學(xué)的范焱等人在 KNN、上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University5貝葉斯和文檔相似性研究的
39、基礎(chǔ)上提出了一個(gè)超文本協(xié)調(diào)分類器10,正確率接近80%,它的特點(diǎn)是適當(dāng)?shù)目紤]了 HTML 文本中結(jié)構(gòu)化信息。復(fù)旦大學(xué)和富士通研究中心的黃茸著、吳立德等人研究了獨(dú)立語種的文本分類11,并以詞匯和類別的互信息量為評分函數(shù),考慮了單分類和多分類,最好的召回率為 88.87%。上海交通大學(xué)的刁倩、王永成等人結(jié)合詞權(quán)值和分類算法進(jìn)行分類,基于 VSM 的封閉式測試實(shí)驗(yàn)中分類正確率達(dá)到 97%??梢?,當(dāng)前文本分類工作已經(jīng)相當(dāng)成熟,國內(nèi)外研究成果顯著,而對于海量異構(gòu)的網(wǎng)頁信息分類,主要是利用了 Web 網(wǎng)頁文本內(nèi)容、URL 字符串、錨文字12等文字內(nèi)容信息,需要找到一種適合于計(jì)算,并且分類得到的結(jié)果查準(zhǔn)率和
40、查全率都很高的一種算法。1.31.3 主要研究內(nèi)容主要研究內(nèi)容為了解決海量異構(gòu) web 資源的組織管理問題,本文提出了基于 RSM 建立網(wǎng)頁間的語義鏈網(wǎng)絡(luò)的方法,主要研究內(nèi)容包括基于 RSM 表示網(wǎng)頁,提出改進(jìn)的TFIDF 算法,提出了動(dòng)態(tài) K 值選擇的 KNN 網(wǎng)頁文本分類算法,根據(jù)產(chǎn)業(yè)鏈建立網(wǎng)頁主題間語義鏈網(wǎng)絡(luò),以及網(wǎng)頁間語義鏈網(wǎng)絡(luò)的建立。1) 探討了網(wǎng)頁的表示方法,用 RSM 多維表示網(wǎng)頁。可以獲取網(wǎng)頁發(fā)布時(shí)間、網(wǎng)頁域名、網(wǎng)頁大小、網(wǎng)頁 IP、網(wǎng)頁文本信息,利用相交五維信息去研究網(wǎng)頁。2) 提出改進(jìn)的 TFIDF 算法。首先按照網(wǎng)頁中標(biāo)簽的不同而對其中的關(guān)鍵詞設(shè)定不同的權(quán)重;其次因?yàn)榫W(wǎng)頁
41、樣本是已經(jīng)分類好的網(wǎng)頁集,所以把這一信息應(yīng)用到 TFIDF 中可以使得 VSM 表示的網(wǎng)頁文本具有更好的分類能力,從而計(jì)算得到關(guān)鍵詞在網(wǎng)頁文本中的權(quán)重;最后根據(jù) VSM 中關(guān)鍵詞權(quán)重信息計(jì)算了其信息熵變化情況,驗(yàn)證了改進(jìn)的 TFIDF 算法分類能力更強(qiáng)。3) 提出了動(dòng)態(tài) K 值選擇的 KNN 網(wǎng)頁文本分類算法。解決了 KNN 的 K 值選擇難的問題,并通過實(shí)驗(yàn)計(jì)算證明查全率和查準(zhǔn)率都有所提高,驗(yàn)證了分類算法的可靠性和有效性。4) 根據(jù)產(chǎn)業(yè)鏈建立網(wǎng)頁主題間語義鏈網(wǎng)絡(luò)。產(chǎn)業(yè)鏈?zhǔn)墙?jīng)濟(jì)學(xué)中的一個(gè)重要特性,通過這一性質(zhì)定義了產(chǎn)業(yè)鏈中主題間的關(guān)系:上位關(guān)系、下位關(guān)系和同位關(guān)系,并對這三種關(guān)系進(jìn)行了分析,最
42、后研究了產(chǎn)業(yè)鏈中主題間距離的概念和語義鏈之間的推理規(guī)則。上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University65) 網(wǎng)頁間語義鏈網(wǎng)絡(luò)的建立。網(wǎng)頁間的語義關(guān)系主要包括兩種:相似關(guān)系和關(guān)聯(lián)關(guān)系。由于不同類別間含有的共同關(guān)鍵詞比較少,本文還提出了兩個(gè)空間向量共同關(guān)鍵詞比較少的網(wǎng)頁間關(guān)聯(lián)關(guān)系關(guān)聯(lián)度的計(jì)算方法。1.41.4 論文的組織論文的組織本論文共分為六章,內(nèi)容組織如下:第一章:緒論。本章論述論文選題的背景和意義,以及當(dāng)前國內(nèi)外在該領(lǐng)域的研究現(xiàn)狀,并簡單介紹了作者的研究工作。第二章:相關(guān)理論和技術(shù)。介紹了當(dāng)前的知識表示方法、資源空間模型的概
43、念以及語義鏈網(wǎng)絡(luò),分析了這些方法的特點(diǎn)。第三章:領(lǐng)域網(wǎng)頁分類方法研究。這一部分主要包括根據(jù)網(wǎng)頁標(biāo)簽預(yù)處理網(wǎng)頁、服裝行業(yè)下利用 RSM 表示網(wǎng)頁和網(wǎng)頁文本分類算法,通過信息熵的概念驗(yàn)證了改進(jìn)的 TFIDF 的優(yōu)越性,并通過實(shí)驗(yàn)驗(yàn)證了文本分類算法的效果。第四章:構(gòu)造網(wǎng)頁間的語義鏈網(wǎng)絡(luò)。根據(jù)產(chǎn)業(yè)鏈這一經(jīng)濟(jì)特性提出了網(wǎng)頁主題間的語義鏈網(wǎng)絡(luò),定義了產(chǎn)業(yè)鏈的上位關(guān)系、下位關(guān)系和同位關(guān)系,進(jìn)一步建立了網(wǎng)頁間的語義鏈網(wǎng)絡(luò),定義了網(wǎng)頁間存在的兩種語義關(guān)系:相似關(guān)系和關(guān)聯(lián)關(guān)系。第五章:系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)。介紹了系統(tǒng)開發(fā)平臺、系統(tǒng)設(shè)計(jì)和系統(tǒng)實(shí)現(xiàn)三部分內(nèi)容。系統(tǒng)設(shè)計(jì)包括系統(tǒng)架構(gòu)、系統(tǒng)存儲結(jié)構(gòu)和數(shù)據(jù)庫設(shè)計(jì),而系統(tǒng)實(shí)現(xiàn)介紹了
44、實(shí)現(xiàn)方法和實(shí)現(xiàn)效果。 第六章:總結(jié)與展望??偨Y(jié)本文的研究工作,并指出進(jìn)一步研究的方向。上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University7第二章第二章 相關(guān)相關(guān)理論和技術(shù)理論和技術(shù)本章主要講述了本文中所涉及到的相關(guān)研究工作,主要包括知識表示方法、資源空間模型、語義鏈網(wǎng)絡(luò)和文本分類,分析了相關(guān)研究適合的環(huán)境,并論述了和本文研究工作的關(guān)系。2.12.1 知識表示方法知識表示方法知識是一種抽象的事物,難以被計(jì)算機(jī)理解,為了具體化知識需要利用某種表示方法來描述知識,當(dāng)前主要包括網(wǎng)絡(luò)信息搜索模型中對資源表示模型、基于本體的網(wǎng)絡(luò)資源語義表示模型
45、和相關(guān)文本知識的語義表示模型。為了組織和管理海量的 Web 網(wǎng)頁,那么必須對 Web 網(wǎng)頁進(jìn)行表示,所以需要找到一種適合表示海量 Web 網(wǎng)頁的方法。雖然語義 Web 中的基于本體的語義表示方法,比如 OIL(Ontology Interchange Language) ,SHOE(Simple HTML Ontology Extension)與 OWL(Web Ontology Language)13等,對 Web 網(wǎng)頁文本的語義描述有較好的效果。雖然上述網(wǎng)絡(luò)資源本體表示語言對網(wǎng)頁文本的語義描述有較好的效果。但是目前網(wǎng)頁幾乎都是基于 HTML 的。利用上述本體表示方法較難對已經(jīng)存在的 HTM
46、L 網(wǎng)頁進(jìn)行語義的自動(dòng)描述,而基于 Semantic Web, Semantic Grid 等下一代網(wǎng)絡(luò)的語義搜索模型距離實(shí)用還比較遠(yuǎn)。因此,基于語義 Web 中的本體語義表示方法來對網(wǎng)頁文本的表示不是最佳的方法。相關(guān)文本知識的語義表示模型可通過對觀察到單詞的分布來推理出文本的潛在語義,但是其推理過程復(fù)雜、參數(shù)眾多、運(yùn)算復(fù)雜14-18、不具有并行性,且需要大規(guī)模文本訓(xùn)練集的支持和長時(shí)間的訓(xùn)練過程?;诟怕手黝}模型的文本知識的表示與推理方法不具有可加性與可分解性,不能對主題之間的語義信息進(jìn)行關(guān)聯(lián)19-22。2006 年諸葛海與駱祥峰提出了基于模糊認(rèn)知圖23-24的科技文本知識的語義表示方法,利用
47、該語義信息的自動(dòng)聚集與融合來生成與表示文本的高層語義信息,但是該方法的自動(dòng)構(gòu)造需要較多的訓(xùn)練文本,并且計(jì)算復(fù)雜度比較高。因此也難于直接應(yīng)用于網(wǎng)絡(luò)資源與用戶先驗(yàn)知識具有語義的表示。目前主要的網(wǎng)絡(luò)信息搜索模型中資源表示的方法主要分為 5 種:布爾模型、向量空間模型、概率模型、概念模型和潛在語義分析模型。布爾模型在傳統(tǒng)的信息搜索中有著廣泛的應(yīng)用。它將文本表示為布爾表達(dá)式,上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University8然后通過與用戶的查詢表達(dá)式進(jìn)行邏輯比較來搜索相關(guān)的文本。向量空間模型(Vector Space Model, VSM)
48、克服了布爾模型中使用二元權(quán)值的缺點(diǎn)25,其采用權(quán)重來表示特征項(xiàng)在文本和用戶查詢中的重要程度,允許文本和用戶查詢表達(dá)的部分匹配,在文本分析中使用非常廣泛。該模型非常適合于對海量異構(gòu)數(shù)據(jù)的處理,但是經(jīng)過 VSM 表示的網(wǎng)頁文本信息丟失嚴(yán)重,不能組織和管理web 信息,存在一定的局限性。 概率模型26是為了解決信息搜索中存在的一些不確定性問題,以概率論為基礎(chǔ)而發(fā)展起來的一種模型。該模型中文本與用戶查詢的表示與布爾模型相同,但其搜索效率優(yōu)于布爾模型。其主要優(yōu)點(diǎn)是考慮了詞條文檔之間的統(tǒng)計(jì)關(guān)系,但是構(gòu)造復(fù)雜,難以對海量數(shù)據(jù)進(jìn)行處理分析。概念模型27是一個(gè)全新的信息搜索資源表示模型。其以概念為中心組織信息搜
49、索來代替以單詞或詞組為中心,且可根據(jù)某個(gè)詞語的概念與其它詞語概念的內(nèi)在關(guān)聯(lián)、以及用戶查詢詞條的內(nèi)在含義進(jìn)行相近語義短語的查找,這個(gè)特點(diǎn)是其它模型所沒有的,只是概念模型構(gòu)造復(fù)雜,也不適合于海量異構(gòu) Web 網(wǎng)頁的處理。潛在語義分析模型(Latent Semantic Analysis,LSA)28 考慮了詞與詞之間的相關(guān)性。LSA 將文本詞語的高維表示通過矩陣的奇異值分解,投影到低維的潛在語義空間,并考慮文本同義詞關(guān)系。但 LSA 忽略了文本的結(jié)構(gòu)信息、計(jì)算量較大,較難應(yīng)用到網(wǎng)絡(luò)信息的并行搜索上。從以上文本知識表示方法研究現(xiàn)狀來看,沒有一個(gè)相對成熟的網(wǎng)絡(luò)資源自動(dòng)表示方法。因此,如何找到一個(gè)合適的
50、網(wǎng)頁文本知識的自動(dòng)表示方法,用來組織管理海量異構(gòu)的 Web 資源是必須要解決的關(guān)鍵問題之一。2.22.2 資源空間模型資源空間模型(ResourceResource SpaceSpace Model-RSMModel-RSM)資源空間模型29,30是一種適合于海量異構(gòu)的 Web 信息表示的模型,在實(shí)際應(yīng)用中也取得了非常滿意的結(jié)果,其關(guān)鍵點(diǎn)就是需要找出資源的特征項(xiàng),從而可以很好的表示 Web 網(wǎng)頁,本文結(jié)合了資源空間模型的優(yōu)點(diǎn),并利用空間向量模型來表示資源空間模型中的一維特征,達(dá)到了管理組織海量 Web 信息的效果。為了互聯(lián)網(wǎng)資源空間是我們生活的現(xiàn)實(shí)資源空間的一部分。它是一種非常有潛力的有效管理
51、各類網(wǎng)絡(luò)資源的模型。它的目的不是代替數(shù)據(jù)庫和文件系統(tǒng),而是提供一種新的模型,在數(shù)據(jù)庫和文件系統(tǒng)不擅長的某些應(yīng)用中發(fā)揮獨(dú)特的作用。它與語義鏈網(wǎng)絡(luò)、數(shù)據(jù)庫模型和語義互聯(lián)網(wǎng)的研究成果(如互聯(lián)網(wǎng)本體語言 OWL)上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University9的結(jié)合可望為未來互聯(lián)環(huán)境提供一個(gè)強(qiáng)大的語義平臺。資源空間模型的雛形于 2002 年被中國科學(xué)院計(jì)算技術(shù)研究所諸葛海研究員領(lǐng)導(dǎo)的知識網(wǎng)格研究組提出用來管理網(wǎng)絡(luò)知識資源。2003 至 2004 年提出了其主要理論和模型。2007 年系統(tǒng)地發(fā)展了其理論、模型和方法。在建立語義資源空間模型
52、的理論和方法方面取得一些重要的進(jìn)展。具體有:提出了資源空間搜索的復(fù)雜性理論,資源空間模型查詢操作的代數(shù)和演算理論,以及資源空間模型查詢操作的完備性理論;提出了資源空間模型和語義鏈網(wǎng)絡(luò)的集成及其關(guān)系理論,以及資源空間模型、互聯(lián)網(wǎng)本體語言(OWL)和關(guān)系數(shù)據(jù)庫間的轉(zhuǎn)換和集成方法;有機(jī)結(jié)合對等網(wǎng)的可擴(kuò)展性和資源空間的規(guī)范性,提出了可擴(kuò)展的結(jié)構(gòu)化對等語義覆蓋網(wǎng)模型和構(gòu)建方法,以及基于結(jié)構(gòu)化和非結(jié)構(gòu)化兩種對等網(wǎng)模型的分布式資源空間模型和方法。中國科學(xué)院計(jì)算技術(shù)研究所知識網(wǎng)格研究組正在開發(fā)資源空間模型系統(tǒng),完善其理論,并在 e-culture 和 e-science 領(lǐng)域開展應(yīng)用。目前,RSM 己用于改進(jìn)
53、現(xiàn)有的生物信息檢索和管理系統(tǒng)。生物信息數(shù)據(jù)庫可被統(tǒng)一、規(guī)范地定義在一個(gè)二維的資源空間中。此外,基于 RSM 構(gòu)建用于信息檢索,圖像管理或地理信息資源管理的三維空間?;?RSM,建立了資源空間模型到語義鏈網(wǎng)絡(luò)的映射、語義鏈的代數(shù)模型、語義關(guān)系自動(dòng)發(fā)現(xiàn)的方法,以及結(jié)合類比、歸納和演繹的語義關(guān)系推理方法。目前,資源空間模型和語義鏈網(wǎng)絡(luò)模型己在敦煌文化展示領(lǐng)域得到了應(yīng)用,并獲得了多項(xiàng)知識產(chǎn)權(quán)。根據(jù)敦煌洞窟文化的分類語義,己設(shè)計(jì)成四維的內(nèi)容展示空間,可以用來自主地動(dòng)畫表現(xiàn)敦煌壁畫的內(nèi)容。用戶可以自主地獲得當(dāng)前場景的解釋、查詢本地資源空間、搜索網(wǎng)絡(luò)從而獲得更多的信息,搜索結(jié)果還將被分類,并存儲在本地資源
54、空間中以備后用。資源空間模型的概念首先在文獻(xiàn)提出,它的主要思想是通過一個(gè)或多個(gè) n 維的空間來統(tǒng)一地定義、共享、組織和管理各種 Web 資源。信息資源包括通過Internet 傳輸?shù)母鞣N類型的電子文檔;知識資源包括用機(jī)器可理解的方式表示的概念、公理、規(guī)則和方法;服務(wù)資源包括使用現(xiàn)有 Web 標(biāo)準(zhǔn)進(jìn)行交互的可重用的過程集合??臻g中的每個(gè)點(diǎn)唯一確定一個(gè)或者一類資源,表示為 RS (X1, X2, , Xn),其中,RS 表示資源空間的名字,Xi 是坐標(biāo)軸的名字,|RS| 表示資源空間的維數(shù)(即坐標(biāo)軸個(gè)數(shù)), Xi=Ci1, Ci2, , Cin表示坐標(biāo)軸和軸上的坐標(biāo),Cij (1i, jn) 是坐
55、標(biāo)名。資源空間中的資源可以通過坐標(biāo)定位,每個(gè)資源空間都具有如下屬性描述:名稱、創(chuàng)建者、描述、位置和訪問權(quán)限。資源空間模型主要體現(xiàn)了以下思想:統(tǒng)一的資源抽象、統(tǒng)一的資源劃分和規(guī)范、統(tǒng)一的資源操作、統(tǒng)一的資源視圖。包括用戶級、邏輯級和語義級三級模式。上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University10用戶級模式是一個(gè)反映在資源瀏覽器中的二維空間;邏輯級模式是一個(gè)反映資源空間統(tǒng)一視圖的 n 維空間;語義級模式定義基于語義的資源表示和組織機(jī)制。邏輯級資源空間的設(shè)計(jì)過程包括以下步驟:首先,資源分析,確定應(yīng)用的范圍,通過資源字典定義需要管理的
56、資源。其次,確定資源的層次結(jié)構(gòu),自頂向下進(jìn)行資源劃分。最后,設(shè)計(jì)二維資源空間,確定資源空間的個(gè)數(shù),各個(gè)資源空間的坐標(biāo)軸和坐標(biāo)層次,檢查坐標(biāo)間的依賴關(guān)系,如果坐標(biāo)間存在相互依賴,則應(yīng)該對資源進(jìn)行重新劃分并調(diào)整坐標(biāo)。檢查坐標(biāo)軸之間的正交關(guān)系,如果坐標(biāo)軸不滿足正交性,則應(yīng)重新劃分坐標(biāo)軸,調(diào)整坐標(biāo),直到滿足正交性為止。資源空間模型的輔助設(shè)計(jì)工具包括:資源字典和范式滿足性檢查工具。資源字典輔助設(shè)計(jì)者定義、存儲、修改局部資源空間的元資源和求精后的資源。應(yīng)用不精確檢索等技術(shù),可以增強(qiáng)資源字典的管理效果。范式滿足性檢查工具檢查坐標(biāo)獨(dú)立性和坐標(biāo)軸的正交性。2.32.3 語義鏈網(wǎng)絡(luò)語義鏈網(wǎng)絡(luò)的介紹的介紹語義鏈網(wǎng)絡(luò)
57、是形成海量 Web 信息網(wǎng)頁間語義互聯(lián)的關(guān)鍵技術(shù)之一,發(fā)現(xiàn)了網(wǎng)頁之間的語義關(guān)系從而建立起 Web 網(wǎng)頁之間的語義鏈網(wǎng)絡(luò),進(jìn)而使得海量 Web 信息提升為一種知識形態(tài)。知識網(wǎng)格理論的另一個(gè)主要內(nèi)容是語義互聯(lián)理論。它試圖在多語義層上連接各種資源以支持智能應(yīng)用。關(guān)鍵在于建立一個(gè)語義計(jì)算模型,該模型既適用于顯式語義,又適用于和感覺、感情相關(guān)的隱含語義。自組織資源的“感知和感性”在語義互聯(lián)中同樣具有重要的作用。語義互聯(lián)針對于 Web 環(huán)境,提出了語義鏈網(wǎng)絡(luò)(Semantic Link Network,SLN)31,32。SLN 的節(jié)點(diǎn)包括實(shí)體、屬性、概念、模式和社區(qū)等資源,語義鏈網(wǎng)絡(luò)定義了 7 種語義類
58、型。它們分別是因果鏈接、蘊(yùn)含鏈接、子類型鏈接、相似鏈接、實(shí)例鏈接、順序鏈接和引用鏈接。語義鏈提供了描述外部語義的源語。語義鏈網(wǎng)絡(luò)(SLN)是一個(gè)語義網(wǎng)模型。語義鏈?zhǔn)菍Ξ?dāng)前互聯(lián)網(wǎng)的超鏈的擴(kuò)展。語義鏈網(wǎng)絡(luò)由語義節(jié)點(diǎn)和語義鏈構(gòu)成。語義節(jié)點(diǎn)可以是原子節(jié)點(diǎn)(文本或者圖像)或者復(fù)雜節(jié)點(diǎn)(另一個(gè)語義鏈網(wǎng)絡(luò)) 。由于語義鏈?zhǔn)菍Τ溤谡Z義上自然的擴(kuò)展,語義鏈網(wǎng)絡(luò)能夠繼承所有超鏈的語義信息。而且,語義鏈網(wǎng)絡(luò)能充分利用語義鏈的特性來進(jìn)行推理和其它的操作。語義鏈網(wǎng)絡(luò)可以支持以下操作的實(shí)現(xiàn):1) 基于語義的資源組織和檢索(Semantic-based resource organization and retrieva
59、l) 。當(dāng)前的 Web 環(huán)境依賴于簡單的超鏈方式組織。由于網(wǎng)頁之間上海大學(xué)碩士學(xué)位論文The Postgraduate Thesis of Shanghai University11缺乏語義管理,對 Web 資源的檢索只能通過關(guān)鍵字匹配的方式進(jìn)行檢索和獲取。而通過對超鏈定義語義鏈關(guān)系,機(jī)器就可以更加智能地定位資源。2) 基于語義的推理和遍歷(Semantic-based reasoning and browsing) 。內(nèi)嵌于語義鏈網(wǎng)絡(luò)中的語義關(guān)系可以支持系統(tǒng)對資源進(jìn)行智能瀏覽。3) 語義覆蓋層(Semantic Overlay) ,一個(gè)語義鏈網(wǎng)絡(luò)就是 Web 的一個(gè)語義覆蓋層。語義鏈網(wǎng)絡(luò)的屬
60、性能夠支持智能應(yīng)用。主要有以下優(yōu)勢:1) 在實(shí)體層和抽象層支持語義瀏覽和推理。瀏覽實(shí)體層時(shí),用戶或者代理通過周圍的語義連接可以預(yù)見到下一級內(nèi)容,語義連接規(guī)則可以擴(kuò)展這種單級跳到多級跳;二瀏覽抽象層時(shí),用戶或者代理可以得到潛在的內(nèi)容知識。2) 不僅提供一個(gè)答案,也提供相關(guān)語義連接的內(nèi)容。3) 通過語義推理,推倒出一個(gè)節(jié)點(diǎn)的語義或者提出一個(gè)鏈接。比如,一個(gè)節(jié)點(diǎn)如果是另外一個(gè)已經(jīng)知道的語義節(jié)點(diǎn)的子類型,那么這個(gè)節(jié)點(diǎn)也就可以確定。2.42.4 文本分類算法分析文本分類算法分析網(wǎng)頁文本分類是建立網(wǎng)頁間語義鏈網(wǎng)絡(luò)的重要內(nèi)容,為了發(fā)現(xiàn)同一個(gè)類別和不同類別中網(wǎng)頁間的語義關(guān)系,需要對海量 Web 信息進(jìn)行分類,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024貨物賒欠買賣合同樣本范文
- 物業(yè)保潔承包合同
- 個(gè)人借款合同參考
- 2024不可撤銷居間合同
- 2024年商業(yè)用途日照房屋租賃合同
- 建筑安裝分包合同
- 2024的廠房轉(zhuǎn)讓合同范文
- 2024承包施工合同范文
- 2024車輛承包經(jīng)營合同書雇用車輛合同書
- 2024標(biāo)準(zhǔn)版商務(wù)咨詢服務(wù)合同模板
- (試卷)建甌市2024-2025學(xué)年第一學(xué)期七年級期中質(zhì)量監(jiān)測
- 《安徽省二年級上學(xué)期數(shù)學(xué)期末試卷全套》
- 2024年企業(yè)業(yè)績對賭協(xié)議模板指南
- “全民消防生命至上”主題班會教案(3篇)
- 2024年海南省高考?xì)v史試卷(含答案解析)
- 2024年湖北武漢大學(xué)化學(xué)與分子科學(xué)學(xué)院招聘1人(實(shí)驗(yàn)中心)歷年高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 2024新能源光伏電站運(yùn)行規(guī)程和檢修規(guī)程
- 三年級美術(shù)上冊全冊教案(湘教版)
- 2024版成人術(shù)中非計(jì)劃低體溫預(yù)防與護(hù)理培訓(xùn)課件
- 2024第五輪營商環(huán)境考試復(fù)習(xí)試題含答案
- 綜合素質(zhì)評價(jià)平臺建設(shè)方案-2024
評論
0/150
提交評論