版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
信息過濾哈工大信息檢索研究室2007這一部分講述……了解信息過濾的需求和概念信息過濾的基本結構信息過濾的方法信息過濾需求、發(fā)展現(xiàn)狀和趨勢背景隨著互聯(lián)網(wǎng)內(nèi)容的極大豐富,信息海量化正在導致信息垃圾化個性化服務改變獲取方式,提高人們獲取信息的效率...文檔……背景信息過濾的需求信息過濾是改善Internet信息查詢技術的需要信息過濾是信息個性化服務的基礎發(fā)展信息過濾技術是國家信息安全的迫切需求信息過濾也是信息中介(信息服務供應商)開展網(wǎng)絡增值服務的手段定義什么是信息過濾?是指計算機根據(jù)用戶提供的一個過濾需求(userProfile),從動態(tài)變化的信息流(比如Web)中自動檢索出滿足用戶個性化需求的信息Profile:一組對用戶過濾需求的描述,這種“profile”描述了用戶長期的、穩(wěn)定的興趣愛好近義術語信息的選擇分發(fā)(SelectiveDisseminationofInformation,SDI),來自圖書館領域路由(Routing),來自MessageUnderstanding最新資料公告(CurrentAwareness),來自數(shù)據(jù)挖掘信息過濾的主要特點無結構的或半結構化的數(shù)據(jù)電子郵件是典型的半結構化數(shù)據(jù)結構化的郵件頭無結構的郵件正文文本數(shù)據(jù)大數(shù)據(jù)量典型的信息過濾系統(tǒng)一般要處理十億字節(jié)的文本數(shù)據(jù)對用戶過濾需求的描述既可以用來屏蔽有害信息,也可以用來收集有益信息信息檢索和信息過濾信息檢索信息過濾“query”“userprofile”信息流靜態(tài)動態(tài)需求動態(tài)變化靜態(tài)需要了解用戶的情況否是涉及社會背景否是和其它概念的區(qū)別和文本分類(Categorization)的區(qū)別分類系統(tǒng)中的類不會經(jīng)常改變相對而言,UserProfile會動態(tài)變化和信息抽取(InformationExtraction)區(qū)別IF關心相關性IE只關心抽取的那些部分,不管相關性信息過濾的三個子任務(TREC)分流(routing)用戶需求固定、訓練文本充足、無需設定相關度閾值批過濾(batchfiltering)用戶需求固定、訓練文本充足、需要設定相關度閾值自適應過濾(adaptivefiltering)用戶需求變化、訓練文本很少、不斷調(diào)整相關度閾值例子:基于向量空間模型的文本過濾系統(tǒng)復旦大學2000年TREC-9自適應過濾平均準確率:26.5%;排名:3批過濾平均準確率:31.7%;排名:1主要技術特點向量空間模型訓練、過濾兩個主要過程形成初始用戶模板主題向量、正例特征向量、偽正例特征向量自適應的閾值調(diào)整自適應的模板修改主題向量、正例特征向量、反例特征向量引入NLP技術自然語言描述的“userprofile”詞義消歧指代消解轉述(paraphrasing)當前狀態(tài)信息過濾是不可缺少的,個性化服務但是過濾系統(tǒng)不可靠商業(yè)的過濾系統(tǒng)的相關性在50%左右TREC實驗的結果很差用戶可以忍受閱讀不相關的信息,但是擔心丟失相關的重要信息要開發(fā)出有效的過濾系統(tǒng),還有很多事情需要做評價過濾系統(tǒng)的方法準確率和召回率統(tǒng)計評價 相關性(用戶評價vs系統(tǒng)評價):等級向量基于集合的評價Utility=(A*R+)+(B*N+)+(C*R-)+(D*N-)
這里的R+/R-/N+/N-指的是每個主題四種文本的數(shù)量。參數(shù)A,B,C,D決定了每種情況的代價。顯然A,D>=0,B,C<=0。Utility值越大,系統(tǒng)的過濾性能就越好。
需要解決的問題以什么樣的形式描述用戶需求?如何判斷待過濾信息是否符合用戶的過濾需求?如何在過濾的過程中實現(xiàn)用戶需求文檔的學習和更新?用戶需求的描述用戶需求的描述實際上是建立一個反應用戶客觀需要的模型,簡稱用戶模型(Profile)從內(nèi)容上劃分:基于興趣的,加權矢量模型等基于行為的,用戶瀏覽和訪問模式從組織形式上:
用關鍵詞表達用戶過濾需求:歧義性,關系的表達用文檔集表達用戶過濾需求:覆蓋性不夠過濾資源的描述資源描述與用戶描述密切相關,采用同一機制基于內(nèi)容的方法基于分類的方法用戶模型的學習和更新用戶興趣的變化漸進式突發(fā)式常見的模型更新方法顯示:用戶提供相關反饋隱式:根據(jù)用戶的行為用戶文檔高級交互Google推出新聞過濾:/accounts/Login其他隱式反饋信息:歷史查詢GRE考試Clickthrough瀏覽記錄、瀏覽時間、…信息過濾的應用克服重復查詢網(wǎng)絡信息是動態(tài)變化的,用戶時常關心這種變化而在搜索引擎中,用戶只能不斷地在網(wǎng)絡上查詢同樣的內(nèi)容,以獲得變化的信息,這花費了用戶大量的時間提供個性化信息服務對不同的用戶采取不同的服務策略,提供不同的服務內(nèi)容。實現(xiàn)“主動服務”,“信息找人”實現(xiàn)有害信息的過濾反動言論,保護國家安全謠言,保護社會穩(wěn)定色情內(nèi)容,保護青少年身心健康信息過濾的應用(續(xù))垃圾信息過濾垃圾郵件垃圾短信信息中介開展網(wǎng)絡增值服務建立最初的客戶資料庫建立標準豐富檔案內(nèi)容利用客戶檔案獲取價值推薦(Recommendation)根據(jù)不同用戶之間需求的相關性推薦信息信息過濾分類體系信息過濾系統(tǒng)分類示意圖信息過濾系統(tǒng)分類系統(tǒng)的主動性主動過濾主動向用戶推送相關信息被動過濾比如垃圾郵件過濾過濾操作的位置在信息源在過濾服務器上在客戶端如:Outlook郵件過濾信息過濾系統(tǒng)分類(續(xù))過濾的策略基于內(nèi)容的信息過濾用戶需求文檔的形成及相關度的計算僅依靠信息的內(nèi)容協(xié)作信息過濾合作式信息過濾被定義為“通過掌握一個用戶群體的諸個體間的相互聯(lián)系及組織關系來實現(xiàn)的信息過濾方法。”許多人將合作式信息過濾的方法解釋為“‘相似’用戶之間相互合作的過程?!?/p>
信息過濾系統(tǒng)分類(續(xù))用戶知識獲取顯式獲取用戶信息用戶直接填表用關鍵詞表達用戶過濾需求用文檔集表達用戶過濾需求隱式獲取用戶信息無需用戶直接參與,通過觀察用戶的動作行為判斷用戶需求用戶閱讀文檔的時間可以作為衡量該文檔相關度的一個指標。其他的一些用戶行為——諸如用戶是否保存、刪除或是打印某篇文檔也可以作為度量文檔相關度的一個指標。顯式和隱式并用的方法文檔空間(基于案例的方法)推理(預先定義默認的profile,在掃描過程中再改變)
信息過濾系統(tǒng)的組成一般組成信息分析模塊接近信息提供者從信息提供者處獲得和整理數(shù)據(jù)分析和表示文檔例如:布爾模型,VSM等把表示結果傳遞給過濾單元
過濾模塊過濾模塊是信息過濾系統(tǒng)的核心部分,它采用的算法直接決定了過濾結果的好壞主要作用是匹配用戶模型(Profile)和信息的特征向量通常只作二值判斷,即判定的信息或者與用戶模型相關,或者不相關對于被判定相關的信息還將由用戶最終決定其相關性,用戶判定的結果將作為反饋信息被系統(tǒng)應用于對用戶模型Profile的更新過濾模型布爾模型向量空間模型概率推理模型隱性語義標引關聯(lián)論方法學習模塊目的改進過濾的性能發(fā)現(xiàn)用戶興趣的轉移更新用戶模型學習方法通過觀察來學習通過相關反饋學習用戶訓練學習學習的頻度臨時學習周期式的學習用戶建模收集關于用戶的信息(顯式的and/or隱式的)創(chuàng)建用戶profile,用戶模型用來保存每個用戶的Profile(規(guī)則,VSM,文檔中心)把用戶模型傳遞給過濾單元,當動態(tài)信息流輸入過濾模塊時,系統(tǒng)提取用戶的Profile并與文檔的特征向量進行匹配用戶模型必須與文檔的表示相適應當用戶興趣發(fā)生變化時,系統(tǒng)根據(jù)相關反饋使用學習模塊將初始Profile和反饋信息的特征向量進行融合,并將新生成的Profile覆蓋原來的Profile用戶建模為建模獲取數(shù)據(jù)隱式方法:觀察用戶的行為顯示方法:請用戶填表,與用戶交互模型中的數(shù)據(jù)淺層語義:關鍵詞增強的用戶模型,關于用戶的高層知識用語義網(wǎng)絡/傳統(tǒng)的推理/統(tǒng)計推理獲得文檔中詞匯之間的關系架構用Agent/神經(jīng)網(wǎng)絡進行自動推理用VSM/LSI進行顯式推理智能系統(tǒng)的概念模型統(tǒng)計過濾的關鍵詞系統(tǒng)信息過濾的方法方法基于內(nèi)容的過濾基于規(guī)則的過濾基于統(tǒng)計的過濾協(xié)作過濾基于內(nèi)容的信息過濾(規(guī)則)規(guī)則可以用戶制定,也可以通過關聯(lián)規(guī)則挖掘基于內(nèi)容的過濾系統(tǒng)(統(tǒng)計)用戶和資源之間關鍵是相似度計算如果用戶描述文件不好,得到的資源很可能不相關優(yōu)點:簡單缺點:只能找到與用戶已有興趣相似的資源協(xié)作過濾用戶和用戶之間關鍵問題是聚類優(yōu)點:提供用戶資源的新穎性兩個問題:稀疏性可擴展性基于內(nèi)容的過濾(統(tǒng)計)特征表示提取關鍵詞的形式文本分類的形式訓練模型與分類方法相似相關反饋協(xié)作過濾相關概念協(xié)作信息過濾中,當前獲得推薦結果的用戶通常稱為活動用戶(Activeuser)參與過濾的信息資源統(tǒng)稱為項目(Item)假設所有參與協(xié)作過濾的用戶集為
項目集為
用戶對項目的評價集為用戶ui對tk的評價為rik,如果rik>0,說明用戶感興趣,rik<0說明用戶不感興趣,rik=0沒有明確判斷可以互相推薦大于零的項目協(xié)作過濾樣例用戶(a)反饋集:反饋(a)(i)用戶(a)背景信息(a)用戶(b)反饋集:反饋(b)(j)反饋(b)(k)用戶(b)背景信息(b)協(xié)作過濾模型反饋(a)(i)反饋(b)(j)反饋(b)(k)主要實現(xiàn)方法基于用戶的協(xié)作過濾基于模型的協(xié)作過濾基于項目的協(xié)作過濾基于用戶的協(xié)作過濾通常基于用戶的協(xié)作過濾采用最近鄰方法。即對活動用戶ua
,獲取按照相關度大小排列的相似“近鄰”集U={u1,u2…un}用戶ua
對項目ti
的評價定義為近鄰集U中所有用戶對項目
ti評價指標的加權和用戶之間的近鄰關系具備兩種特征,即非對稱性和非傳遞性非對稱性和非傳遞性產(chǎn)生的原因在于用戶之間共同評價過的項目過少,從而造成對稱關系和傳遞關系的置信度很低近鄰集的規(guī)模近鄰選擇步驟中,過濾系統(tǒng)需要預先設置近鄰集
的規(guī)模。通常近鄰用戶數(shù)量的設置采用閾值設置或定值設置兩種方法閾值設置:系統(tǒng)選擇相關性大于閾值的用戶作為活動用戶的近鄰定值設置:預先確定近鄰集
的規(guī)模用戶之間的相似度基于用戶的協(xié)作過濾方法中最主要的問題是如何獲取最近鄰用戶常用的用戶間相似度評價方法余弦相似度計算法相關相似性計算法相似度計算相似性計算法主要從用戶興趣是否相似的角度選擇活動用戶的近鄰優(yōu)點提高了協(xié)作過濾系統(tǒng)推薦項目的準確性缺點過分相似的用戶共有的項目集規(guī)模相對很大,削弱了用戶間可以互相推薦的未知項目空間反流行度通常協(xié)作過濾系統(tǒng)可以采用項目的反流行度為候選用戶賦予權值,反流行度公式如下:一個項目的流行程度越大,則其反流行度
越小,從而包含該項目的候選用戶獲得的權值越低;反之,候選用戶的權值則得到加強活動用戶可以簡化地選擇經(jīng)過反流行度加權后權值相對較高的用戶作為鄰居優(yōu)點在于最近鄰居可以向活動用戶推薦更多新穎的項目參與評價的用戶總數(shù)基于用戶的協(xié)作過濾優(yōu)缺點基于用戶的協(xié)作過濾系統(tǒng)在實驗環(huán)境下可以獲得較高的性能,但在實際應用中的效果卻普遍偏低主要原因在于評分機制的稀疏性實際應用中的用戶很少主動提供項目的評價,從而造成“用戶”與“評分”對應的二元關系相對稀疏,導致協(xié)作過濾系統(tǒng)無法有效識別相似用戶基于模型的協(xié)作過濾基于模型的協(xié)作過濾方法,通過挖掘數(shù)據(jù)之間的相互關系建立需求模型,并利用該模型過濾后續(xù)的信息資源基于模型的方法需要預先分析大量數(shù)據(jù),使模型的建立需要花費大量的時間模型生成后,后續(xù)協(xié)作過濾的效率和準確率都可以得到顯著的提高隱含語義索引基于模型的協(xié)作過濾研究中最重要的方法是隱含語義索引Sarwar等學者將LSI引入?yún)f(xié)作過濾領域關系矩陣由活動用戶和項目組成;語義關系由用戶與用戶之間、項目與項目之間、用戶與項目之間的相關性組成LSI協(xié)作過濾的流程建立用戶-項目關系矩陣R;采用奇異值分解技術將矩陣R分解為U,S和V將V降維成維數(shù)為k的矩陣VKk<r),并采用相同方法簡化矩陣U和S為Uk
和Sk
;計算矩陣Vk
的平方根
,并相應計算
和預測用戶a對項目i的評分,公式如下:
優(yōu)缺點重要的用戶-項目關系結構被映射到低維空間中,消除了關系上的細微差別而保留了重要的潛在關聯(lián)性K值太大會導致結果趨近于原始矩陣而失去挖掘潛在關聯(lián)的能力K值太小則會使得關聯(lián)信息丟失太多,以至于對于用戶和項目的分辨能力不足基于項目的協(xié)作過濾基于用戶的協(xié)作過濾系統(tǒng)通過遍歷整個用戶群建立用戶之間的相似關系,并推薦項目,對用戶規(guī)模龐大的過濾系統(tǒng)而言,這種方法極大影響推薦效率基于項目的協(xié)作過濾系統(tǒng)只針對目標項目和活動用戶已有項目之間進行協(xié)作性檢測,從而在保證過濾效果的同時,大大提高了系統(tǒng)效率基于項目的協(xié)作過濾系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 定制公交車合作協(xié)議書模板
- 二零二五年度生物制藥研發(fā)信息保密協(xié)議2篇
- 二零二五年度新型燒結磚研發(fā)與應用合作協(xié)議書3篇
- 二零二四年二手養(yǎng)殖設備交易協(xié)議with養(yǎng)殖技術指導2篇帶眉腳
- 2025年度生態(tài)農(nóng)業(yè)園場地租賃及農(nóng)產(chǎn)品深加工合作協(xié)議4篇
- 專業(yè)技術智能監(jiān)控系統(tǒng)布設協(xié)議2024版B版
- 個性化2024版動力煤托盤協(xié)議示例版
- 專業(yè)教師2024年度聘用協(xié)議范例版B版
- 閱讀理解技巧講座
- 二零二四年云服務租賃協(xié)議
- 民航概論5套模擬試卷考試題帶答案
- 2024屆中國電建地產(chǎn)校園招聘網(wǎng)申平臺高頻500題難、易錯點模擬試題附帶答案詳解
- 名表買賣合同協(xié)議書
- COCA20000詞匯音標版表格
- 滬教版七年級數(shù)學上冊專題06圖形的運動(原卷版+解析)
- JTG-T-F20-2015公路路面基層施工技術細則
- 光伏發(fā)電站集中監(jiān)控系統(tǒng)通信及數(shù)據(jù)標準
- 建筑垃圾減排及資源化處置措施
- 2024年遼寧石化職業(yè)技術學院單招職業(yè)適應性測試題庫附答案
- 中西方校服文化差異研究
- 2024年一級建造師考試思維導圖-市政
評論
0/150
提交評論