基于本體結(jié)構(gòu)的新聞個(gè)性化推薦_第1頁(yè)
基于本體結(jié)構(gòu)的新聞個(gè)性化推薦_第2頁(yè)
基于本體結(jié)構(gòu)的新聞個(gè)性化推薦_第3頁(yè)
基于本體結(jié)構(gòu)的新聞個(gè)性化推薦_第4頁(yè)
基于本體結(jié)構(gòu)的新聞個(gè)性化推薦_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于本體結(jié)構(gòu)的新聞個(gè)性化推薦目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞?dòng)脩粝嗨贫葘?shí)驗(yàn)及評(píng)估總結(jié)利用本體結(jié)構(gòu)的特性引入語(yǔ)義相關(guān)性模型現(xiàn)有研究&本文創(chuàng)新基于內(nèi)容的過(guò)濾被廣泛應(yīng)用于新聞個(gè)性化推薦中利用本體結(jié)構(gòu)中的詞條對(duì)新聞和用戶進(jìn)行建模使用余弦相似度或者Jaccard相關(guān)系數(shù)來(lái)衡量新聞和用戶之間的相關(guān)度研究缺陷沒(méi)有考慮兩者之間的語(yǔ)義聯(lián)系本體結(jié)構(gòu)針對(duì)特定領(lǐng)域,覆蓋面有限研究現(xiàn)狀本文創(chuàng)新在本體結(jié)構(gòu)上對(duì)新聞和用戶建模,利用本體結(jié)構(gòu)衡量二者之間的語(yǔ)義相似度設(shè)計(jì)X-Ontology聚類(lèi)算法進(jìn)行去噪處理,在此基礎(chǔ)上提出基于X-Ontology的相似度模型,在保證模型更加準(zhǔn)確的同時(shí),降低模型計(jì)算的復(fù)雜度利用在線的百科知識(shí)庫(kù)自動(dòng)構(gòu)建大型的、覆蓋面廣的本體結(jié)構(gòu)余弦相似度最常見(jiàn)的應(yīng)用就是計(jì)算文本相似度。將兩個(gè)文本根據(jù)他們?cè)~,建立倆個(gè)向量,計(jì)算這兩個(gè)向量的余弦值,就可以知道兩個(gè)文本在統(tǒng)計(jì)學(xué)方法中他們的相似度情況

目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞?dòng)脩粝嗨贫葘?shí)驗(yàn)及評(píng)估總結(jié)本體是共享的概念模型的形式化的規(guī)范說(shuō)明1

基于在線百科的本體結(jié)構(gòu)本體結(jié)構(gòu)定義給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義概念模型的明確的規(guī)范說(shuō)明共享概念模型的明確的形式化規(guī)范說(shuō)明四個(gè)主要方面:

概念化:客觀世界的現(xiàn)象的抽象模型

明確:概念及它們之間聯(lián)系都被精確定義

形式化:精確的數(shù)學(xué)描述

共享:本體中反映的知識(shí)是其使用者共同認(rèn)可的

目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞?dòng)脩粝嗨贫葘?shí)驗(yàn)及評(píng)估總結(jié)將詞條投影到本體結(jié)構(gòu)上計(jì)算其相似度2

基于本體機(jī)構(gòu)的相似度模型Inside&OutsideSources將本體結(jié)構(gòu)中所有的詞條組成一個(gè)詞典,利用該詞典對(duì)新聞和用戶閱讀歷史進(jìn)行分詞,并分別表示成兩個(gè)詞條的集合;總體思路將本體結(jié)構(gòu)中所有的詞條組成一個(gè)詞典,利用該詞典對(duì)新聞和用戶閱讀歷史進(jìn)行分詞,并分別表示成兩個(gè)詞條的集合將兩個(gè)詞條集合分別投影到本體結(jié)構(gòu)上在本體結(jié)構(gòu)上比較兩個(gè)詞條集合的相似度建立詞條假設(shè)本體結(jié)構(gòu)包含n個(gè)詞條,將本體結(jié)構(gòu)表示成:對(duì)于每一篇新聞,只考慮該新聞中包含的詞條:對(duì)于每個(gè)用戶,將該用戶閱讀過(guò)的新聞集合作為其興趣內(nèi)容:將詞條投影到本體結(jié)構(gòu)上計(jì)算其相似度2

基于本體機(jī)構(gòu)的相似度模型兩個(gè)詞條的語(yǔ)義相似度:詞條相似度將詞條投影到本體結(jié)構(gòu)上計(jì)算其相似度2.1詞條相似度&2.2新聞-用戶相似度新聞?dòng)脩粝嗨贫龋盒侣?用戶相似度目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞?dòng)脩粝嗨贫葘?shí)驗(yàn)及評(píng)估總結(jié)用聚類(lèi)方法降低重復(fù)節(jié)點(diǎn)3基于X-Ontology的相似度模型重復(fù)節(jié)點(diǎn)用戶感興趣的內(nèi)容投影到本體結(jié)構(gòu),多個(gè)重復(fù)節(jié)點(diǎn)被標(biāo)記,由于重復(fù)節(jié)點(diǎn)所在的位置不同,每個(gè)重復(fù)節(jié)點(diǎn)都會(huì)被用于比較,降低算法效率孤立節(jié)點(diǎn)出現(xiàn)次數(shù)低的詞條在本體結(jié)構(gòu)上,詞條周?chē)徊揭詢?nèi)的詞條都沒(méi)有出現(xiàn)在用戶興趣內(nèi)容中算法改進(jìn)引入聚類(lèi)分析3.1X-meansK均值算法步驟隨機(jī)選取k個(gè)對(duì)象作為初始的聚類(lèi)中心計(jì)算每個(gè)對(duì)象與各個(gè)聚類(lèi)中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類(lèi)中心,聚類(lèi)中心以及分配給它們的對(duì)象就代表一個(gè)聚類(lèi)根據(jù)聚類(lèi)中現(xiàn)有的對(duì)象重新計(jì)算聚類(lèi)中心不斷重復(fù)步驟3、4直到聚類(lèi)中心不再變化K均值不足需要人工指定K值及初始聚類(lèi)中心,只得到局部最優(yōu)解改進(jìn)的X均值算法

引入聚類(lèi)分析3.2X-OntologyX-means不足X-means中的聚類(lèi)中心定義為所有數(shù)據(jù)點(diǎn)的幾何中心,但是在本體結(jié)構(gòu)上卻無(wú)法直接這樣定義所處理的數(shù)據(jù)點(diǎn)之間沒(méi)有任何聯(lián)系,而在本體結(jié)構(gòu)中,結(jié)點(diǎn)之間存在若干聯(lián)系提出X-Ontology在X-Ontology算法中,聚類(lèi)中心被定義為該類(lèi)中所有結(jié)點(diǎn)的最近公共祖先步驟:初始聚類(lèi),將根結(jié)點(diǎn)下的每一個(gè)分支作為一個(gè)類(lèi),并更新每個(gè)類(lèi)的聚類(lèi)中心聚類(lèi)分裂,計(jì)算每個(gè)類(lèi)的BIC(K=1),然后嘗試將其分裂成兩類(lèi),并計(jì)算BIC(K=2)模型評(píng)估,如果BIC(K=2)>BIC(K=1),則分裂成兩類(lèi);否則嘗試失敗,不對(duì)該類(lèi)進(jìn)行分裂X-Ontology具體步驟3.2X-Ontology用詞條聚類(lèi)更新2.2的相似度模型3.3新聞?dòng)脩粝嗨贫刃侣?用戶相似度目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞?dòng)脩粝嗨贫葘?shí)驗(yàn)及評(píng)估總結(jié)選取實(shí)驗(yàn)數(shù)據(jù)和對(duì)比模型4實(shí)驗(yàn)及評(píng)估實(shí)驗(yàn)數(shù)據(jù)英文數(shù)據(jù)集利用DBPedia構(gòu)建英文本體結(jié)構(gòu),該本體結(jié)構(gòu)中包含360萬(wàn)個(gè)詞條。實(shí)驗(yàn)所用新聞數(shù)據(jù)收集自NewYorkTimes(http://)2006—2007年的6000篇新聞,涵蓋國(guó)際、社會(huì)、體育、科技、教育、醫(yī)療、時(shí)尚等多個(gè)領(lǐng)域中文數(shù)據(jù)集基于互動(dòng)百科構(gòu)建中文本體結(jié)構(gòu),該本體結(jié)構(gòu)包含500萬(wàn)個(gè)詞條。中文新聞數(shù)據(jù)通過(guò)網(wǎng)絡(luò)爬蟲(chóng),每天從新浪網(wǎng)(http://)收集6000條新聞,并覆蓋了多個(gè)領(lǐng)域,截至目前為止,系統(tǒng)共擁有中文新聞10.8萬(wàn)條實(shí)驗(yàn)對(duì)比算法OntologyX-OntologyCF-IDFJaccardCF-IDF和Jaccard算法利用詞袋模型對(duì)用戶興趣內(nèi)容和新聞內(nèi)容建模,并用余弦相似度和Jaccard相關(guān)系數(shù)衡量新聞和用戶相似度4.1實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)步驟系統(tǒng)隨機(jī)選擇400篇新聞給用戶,用戶根據(jù)自己的興趣愛(ài)好標(biāo)記每一篇新聞為感興趣或不感興趣400篇標(biāo)記了感興趣和不感興趣的新聞被系統(tǒng)隨機(jī)分為兩部分,60%作為訓(xùn)練集,40%作為測(cè)試集對(duì)于每個(gè)用戶,系統(tǒng)將訓(xùn)練集中用戶標(biāo)記為感興趣的新聞作為該用戶的興趣內(nèi)容。使用不同模型計(jì)算測(cè)試集中的新聞與該用戶的相似度,并根據(jù)給定的閾值,將相似度超過(guò)閾值的新聞標(biāo)記為感興趣對(duì)于測(cè)試集中的每一篇新聞,對(duì)比人工標(biāo)記和機(jī)器標(biāo)記的數(shù)據(jù),計(jì)算準(zhǔn)確率、召回率和F值為了使實(shí)驗(yàn)結(jié)果更加準(zhǔn)確,系統(tǒng)重復(fù)上述步2000次,每一次隨機(jī)劃分的訓(xùn)練集和測(cè)試集都不一樣

OBSM和X-OBSM利用本體結(jié)構(gòu),提供了更加合理的相似度計(jì)算4.2準(zhǔn)確率、召回率、F值對(duì)比

4.2準(zhǔn)確率、召回率、F值對(duì)比

設(shè)置不同的推薦閾值,使用F值曲線展現(xiàn)各模型的效果。X-OBSM具有最好的效果中文本體結(jié)構(gòu)含有更多重復(fù)節(jié)點(diǎn)4.3準(zhǔn)確率-召回率曲線在英文試驗(yàn)中,X-OBSM比OBSM效果略好一些,但在中文試驗(yàn)中有明顯優(yōu)勢(shì);OBSM在中文實(shí)驗(yàn)中比英文效果略差一些。本體構(gòu)造的中文本體結(jié)構(gòu)比英文本體結(jié)構(gòu)質(zhì)量稍差,前者具有更多的重復(fù)節(jié)點(diǎn)目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論