版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
信息檢索信息過濾第一頁,共六十二頁,2022年,8月28日這一部分講述……了解信息過濾的需求和概念信息過濾的基本結(jié)構(gòu)信息過濾的方法第二頁,共六十二頁,2022年,8月28日信息過濾需求、發(fā)展現(xiàn)狀和趨勢第三頁,共六十二頁,2022年,8月28日背景隨著互聯(lián)網(wǎng)內(nèi)容的極大豐富,信息海量化正在導(dǎo)致信息垃圾化個(gè)性化服務(wù)改變獲取方式,提高人們獲取信息的效率第四頁,共六十二頁,2022年,8月28日...文檔……背景第五頁,共六十二頁,2022年,8月28日信息過濾的需求信息過濾是改善Internet信息查詢技術(shù)的需要信息過濾是信息個(gè)性化服務(wù)的基礎(chǔ)發(fā)展信息過濾技術(shù)是國家信息安全的迫切需求信息過濾也是信息中介(信息服務(wù)供應(yīng)商)開展網(wǎng)絡(luò)增值服務(wù)的手段第六頁,共六十二頁,2022年,8月28日定義什么是信息過濾?是指計(jì)算機(jī)根據(jù)用戶提供的一個(gè)過濾需求(userProfile),從動(dòng)態(tài)變化的信息流(比如Web)中自動(dòng)檢索出滿足用戶個(gè)性化需求的信息Profile:一組對用戶過濾需求的描述,這種“profile”描述了用戶長期的、穩(wěn)定的興趣愛好近義術(shù)語信息的選擇分發(fā)(SelectiveDisseminationofInformation,SDI),來自圖書館領(lǐng)域路由(Routing),來自MessageUnderstanding最新資料公告(CurrentAwareness),來自數(shù)據(jù)挖掘第七頁,共六十二頁,2022年,8月28日信息過濾的主要特點(diǎn)無結(jié)構(gòu)的或半結(jié)構(gòu)化的數(shù)據(jù)電子郵件是典型的半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化的郵件頭無結(jié)構(gòu)的郵件正文文本數(shù)據(jù)大數(shù)據(jù)量典型的信息過濾系統(tǒng)一般要處理十億字節(jié)的文本數(shù)據(jù)對用戶過濾需求的描述既可以用來屏蔽有害信息,也可以用來收集有益信息第八頁,共六十二頁,2022年,8月28日信息檢索和信息過濾信息檢索信息過濾“query”“userprofile”信息流靜態(tài)動(dòng)態(tài)需求動(dòng)態(tài)變化靜態(tài)需要了解用戶的情況否是涉及社會背景否是第九頁,共六十二頁,2022年,8月28日和其它概念的區(qū)別和文本分類(Categorization)的區(qū)別分類系統(tǒng)中的類不會經(jīng)常改變相對而言,UserProfile會動(dòng)態(tài)變化和信息抽取(InformationExtraction)區(qū)別IF關(guān)心相關(guān)性IE只關(guān)心抽取的那些部分,不管相關(guān)性第十頁,共六十二頁,2022年,8月28日信息過濾的三個(gè)子任務(wù)(TREC)分流(routing)用戶需求固定、訓(xùn)練文本充足、無需設(shè)定相關(guān)度閾值批過濾(batchfiltering)用戶需求固定、訓(xùn)練文本充足、需要設(shè)定相關(guān)度閾值自適應(yīng)過濾(adaptivefiltering)用戶需求變化、訓(xùn)練文本很少、不斷調(diào)整相關(guān)度閾值第十一頁,共六十二頁,2022年,8月28日例子:基于向量空間模型的文本過濾系統(tǒng)復(fù)旦大學(xué)2000年TREC-9自適應(yīng)過濾平均準(zhǔn)確率:26.5%;排名:3批過濾平均準(zhǔn)確率:31.7%;排名:1第十二頁,共六十二頁,2022年,8月28日主要技術(shù)特點(diǎn)向量空間模型訓(xùn)練、過濾兩個(gè)主要過程形成初始用戶模板主題向量、正例特征向量、偽正例特征向量自適應(yīng)的閾值調(diào)整自適應(yīng)的模板修改主題向量、正例特征向量、反例特征向量第十三頁,共六十二頁,2022年,8月28日引入NLP技術(shù)自然語言描述的“userprofile”詞義消歧指代消解轉(zhuǎn)述(paraphrasing)第十四頁,共六十二頁,2022年,8月28日當(dāng)前狀態(tài)信息過濾是不可缺少的,個(gè)性化服務(wù)但是過濾系統(tǒng)不可靠商業(yè)的過濾系統(tǒng)的相關(guān)性在50%左右TREC實(shí)驗(yàn)的結(jié)果很差用戶可以忍受閱讀不相關(guān)的信息,但是擔(dān)心丟失相關(guān)的重要信息要開發(fā)出有效的過濾系統(tǒng),還有很多事情需要做第十五頁,共六十二頁,2022年,8月28日評價(jià)過濾系統(tǒng)的方法準(zhǔn)確率和召回率統(tǒng)計(jì)評價(jià) 相關(guān)性(用戶評價(jià)vs系統(tǒng)評價(jià)):等級向量基于集合的評價(jià)Utility=(A*R+)+(B*N+)+(C*R-)+(D*N-)
這里的R+/R-/N+/N-指的是每個(gè)主題四種文本的數(shù)量。參數(shù)A,B,C,D決定了每種情況的代價(jià)。顯然A,D>=0,B,C<=0。Utility值越大,系統(tǒng)的過濾性能就越好。
第十六頁,共六十二頁,2022年,8月28日需要解決的問題以什么樣的形式描述用戶需求?如何判斷待過濾信息是否符合用戶的過濾需求?如何在過濾的過程中實(shí)現(xiàn)用戶需求文檔的學(xué)習(xí)和更新?第十七頁,共六十二頁,2022年,8月28日用戶需求的描述用戶需求的描述實(shí)際上是建立一個(gè)反應(yīng)用戶客觀需要的模型,簡稱用戶模型(Profile)從內(nèi)容上劃分:基于興趣的,加權(quán)矢量模型等基于行為的,用戶瀏覽和訪問模式從組織形式上:
用關(guān)鍵詞表達(dá)用戶過濾需求:歧義性,關(guān)系的表達(dá)用文檔集表達(dá)用戶過濾需求:覆蓋性不夠第十八頁,共六十二頁,2022年,8月28日過濾資源的描述資源描述與用戶描述密切相關(guān),采用同一機(jī)制基于內(nèi)容的方法基于分類的方法第十九頁,共六十二頁,2022年,8月28日用戶模型的學(xué)習(xí)和更新用戶興趣的變化漸進(jìn)式突發(fā)式常見的模型更新方法顯示:用戶提供相關(guān)反饋隱式:根據(jù)用戶的行為用戶文檔高級交互第二十頁,共六十二頁,2022年,8月28日Google推出新聞過濾:第二十一頁,共六十二頁,2022年,8月28日第二十二頁,共六十二頁,2022年,8月28日第二十三頁,共六十二頁,2022年,8月28日第二十四頁,共六十二頁,2022年,8月28日其他隱式反饋信息:歷史查詢GRE考試Clickthrough瀏覽記錄、瀏覽時(shí)間、…第二十五頁,共六十二頁,2022年,8月28日信息過濾的應(yīng)用克服重復(fù)查詢網(wǎng)絡(luò)信息是動(dòng)態(tài)變化的,用戶時(shí)常關(guān)心這種變化而在搜索引擎中,用戶只能不斷地在網(wǎng)絡(luò)上查詢同樣的內(nèi)容,以獲得變化的信息,這花費(fèi)了用戶大量的時(shí)間提供個(gè)性化信息服務(wù)對不同的用戶采取不同的服務(wù)策略,提供不同的服務(wù)內(nèi)容。實(shí)現(xiàn)“主動(dòng)服務(wù)”,“信息找人”實(shí)現(xiàn)有害信息的過濾反動(dòng)言論,保護(hù)國家安全謠言,保護(hù)社會穩(wěn)定色情內(nèi)容,保護(hù)青少年身心健康第二十六頁,共六十二頁,2022年,8月28日信息過濾的應(yīng)用(續(xù))垃圾信息過濾垃圾郵件垃圾短信信息中介開展網(wǎng)絡(luò)增值服務(wù)建立最初的客戶資料庫建立標(biāo)準(zhǔn)豐富檔案內(nèi)容利用客戶檔案獲取價(jià)值推薦(Recommendation)根據(jù)不同用戶之間需求的相關(guān)性推薦信息第二十七頁,共六十二頁,2022年,8月28日信息過濾分類體系第二十八頁,共六十二頁,2022年,8月28日信息過濾系統(tǒng)分類示意圖信息過濾系統(tǒng)操作的主動(dòng)性操作的位置過濾方法用戶知識獲取主動(dòng)過濾被動(dòng)過濾信息源服務(wù)器端用戶端認(rèn)知(內(nèi)容)社會(協(xié)同)顯式隱式顯式和隱式詢問用戶記錄用戶行為文檔空間推理第二十九頁,共六十二頁,2022年,8月28日信息過濾系統(tǒng)分類系統(tǒng)的主動(dòng)性主動(dòng)過濾主動(dòng)向用戶推送相關(guān)信息被動(dòng)過濾比如垃圾郵件過濾過濾操作的位置在信息源在過濾服務(wù)器上在客戶端如:Outlook郵件過濾第三十頁,共六十二頁,2022年,8月28日信息過濾系統(tǒng)分類(續(xù))過濾的策略基于內(nèi)容的信息過濾用戶需求文檔的形成及相關(guān)度的計(jì)算僅依靠信息的內(nèi)容協(xié)作信息過濾合作式信息過濾被定義為“通過掌握一個(gè)用戶群體的諸個(gè)體間的相互聯(lián)系及組織關(guān)系來實(shí)現(xiàn)的信息過濾方法。”許多人將合作式信息過濾的方法解釋為“‘相似’用戶之間相互合作的過程?!?/p>
第三十一頁,共六十二頁,2022年,8月28日信息過濾系統(tǒng)分類(續(xù))用戶知識獲取顯式獲取用戶信息用戶直接填表用關(guān)鍵詞表達(dá)用戶過濾需求用文檔集表達(dá)用戶過濾需求隱式獲取用戶信息無需用戶直接參與,通過觀察用戶的動(dòng)作行為判斷用戶需求用戶閱讀文檔的時(shí)間可以作為衡量該文檔相關(guān)度的一個(gè)指標(biāo)。其他的一些用戶行為——諸如用戶是否保存、刪除或是打印某篇文檔也可以作為度量文檔相關(guān)度的一個(gè)指標(biāo)。顯式和隱式并用的方法文檔空間(基于案例的方法)推理(預(yù)先定義默認(rèn)的profile,在掃描過程中再改變)第三十二頁,共六十二頁,2022年,8月28日
信息過濾系統(tǒng)的組成第三十三頁,共六十二頁,2022年,8月28日一般組成第三十四頁,共六十二頁,2022年,8月28日信息分析模塊接近信息提供者從信息提供者處獲得和整理數(shù)據(jù)分析和表示文檔例如:布爾模型,VSM等把表示結(jié)果傳遞給過濾單元第三十五頁,共六十二頁,2022年,8月28日過濾模塊過濾模塊是信息過濾系統(tǒng)的核心部分,它采用的算法直接決定了過濾結(jié)果的好壞主要作用是匹配用戶模型(Profile)和信息的特征向量通常只作二值判斷,即判定的信息或者與用戶模型相關(guān),或者不相關(guān)對于被判定相關(guān)的信息還將由用戶最終決定其相關(guān)性,用戶判定的結(jié)果將作為反饋信息被系統(tǒng)應(yīng)用于對用戶模型Profile的更新第三十六頁,共六十二頁,2022年,8月28日過濾模型布爾模型向量空間模型概率推理模型隱性語義標(biāo)引關(guān)聯(lián)論方法第三十七頁,共六十二頁,2022年,8月28日學(xué)習(xí)模塊目的改進(jìn)過濾的性能發(fā)現(xiàn)用戶興趣的轉(zhuǎn)移更新用戶模型學(xué)習(xí)方法通過觀察來學(xué)習(xí)通過相關(guān)反饋學(xué)習(xí)用戶訓(xùn)練學(xué)習(xí)學(xué)習(xí)的頻度臨時(shí)學(xué)習(xí)周期式的學(xué)習(xí)第三十八頁,共六十二頁,2022年,8月28日用戶建模收集關(guān)于用戶的信息(顯式的and/or隱式的)創(chuàng)建用戶profile,用戶模型用來保存每個(gè)用戶的Profile(規(guī)則,VSM,文檔中心)把用戶模型傳遞給過濾單元,當(dāng)動(dòng)態(tài)信息流輸入過濾模塊時(shí),系統(tǒng)提取用戶的Profile并與文檔的特征向量進(jìn)行匹配用戶模型必須與文檔的表示相適應(yīng)當(dāng)用戶興趣發(fā)生變化時(shí),系統(tǒng)根據(jù)相關(guān)反饋使用學(xué)習(xí)模塊將初始Profile和反饋信息的特征向量進(jìn)行融合,并將新生成的Profile覆蓋原來的Profile第三十九頁,共六十二頁,2022年,8月28日用戶建模為建模獲取數(shù)據(jù)隱式方法:觀察用戶的行為顯示方法:請用戶填表,與用戶交互模型中的數(shù)據(jù)淺層語義:關(guān)鍵詞增強(qiáng)的用戶模型,關(guān)于用戶的高層知識用語義網(wǎng)絡(luò)/傳統(tǒng)的推理/統(tǒng)計(jì)推理獲得文檔中詞匯之間的關(guān)系架構(gòu)用Agent/神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)推理用VSM/LSI進(jìn)行顯式推理智能系統(tǒng)的概念模型統(tǒng)計(jì)過濾的關(guān)鍵詞系統(tǒng)第四十頁,共六十二頁,2022年,8月28日信息過濾的方法第四十一頁,共六十二頁,2022年,8月28日方法基于內(nèi)容的過濾基于規(guī)則的過濾基于統(tǒng)計(jì)的過濾協(xié)作過濾第四十二頁,共六十二頁,2022年,8月28日基于內(nèi)容的信息過濾(規(guī)則)規(guī)則可以用戶制定,也可以通過關(guān)聯(lián)規(guī)則挖掘第四十三頁,共六十二頁,2022年,8月28日基于內(nèi)容的過濾系統(tǒng)(統(tǒng)計(jì))用戶和資源之間關(guān)鍵是相似度計(jì)算如果用戶描述文件不好,得到的資源很可能不相關(guān)優(yōu)點(diǎn):簡單缺點(diǎn):只能找到與用戶已有興趣相似的資源第四十四頁,共六十二頁,2022年,8月28日協(xié)作過濾用戶和用戶之間關(guān)鍵問題是聚類優(yōu)點(diǎn):提供用戶資源的新穎性兩個(gè)問題:稀疏性可擴(kuò)展性第四十五頁,共六十二頁,2022年,8月28日基于內(nèi)容的過濾(統(tǒng)計(jì))特征表示提取關(guān)鍵詞的形式文本分類的形式訓(xùn)練模型與分類方法相似相關(guān)反饋第四十六頁,共六十二頁,2022年,8月28日協(xié)作過濾第四十七頁,共六十二頁,2022年,8月28日相關(guān)概念協(xié)作信息過濾中,當(dāng)前獲得推薦結(jié)果的用戶通常稱為活動(dòng)用戶(Activeuser)參與過濾的信息資源統(tǒng)稱為項(xiàng)目(Item)假設(shè)所有參與協(xié)作過濾的用戶集為
項(xiàng)目集為
用戶對項(xiàng)目的評價(jià)集為用戶ui對tk的評價(jià)為rik,如果rik>0,說明用戶感興趣,rik<0說明用戶不感興趣,rik=0沒有明確判斷可以互相推薦大于零的項(xiàng)目第四十八頁,共六十二頁,2022年,8月28日協(xié)作過濾樣例用戶(a)反饋集:反饋(a)(i)用戶(a)背景信息(a)用戶(b)反饋集:反饋(b)(j)反饋(b)(k)用戶(b)背景信息(b)協(xié)作過濾模型反饋(a)(i)反饋(b)(j)反饋(b)(k)第四十九頁,共六十二頁,2022年,8月28日主要實(shí)現(xiàn)方法基于用戶的協(xié)作過濾基于模型的協(xié)作過濾基于項(xiàng)目的協(xié)作過濾第五十頁,共六十二頁,2022年,8月28日基于用戶的協(xié)作過濾通?;谟脩舻膮f(xié)作過濾采用最近鄰方法。即對活動(dòng)用戶ua
,獲取按照相關(guān)度大小排列的相似“近鄰”集U={u1,u2…un}用戶ua
對項(xiàng)目ti
的評價(jià)定義為近鄰集U中所有用戶對項(xiàng)目
ti評價(jià)指標(biāo)的加權(quán)和用戶之間的近鄰關(guān)系具備兩種特征,即非對稱性和非傳遞性非對稱性和非傳遞性產(chǎn)生的原因在于用戶之間共同評價(jià)過的項(xiàng)目過少,從而造成對稱關(guān)系和傳遞關(guān)系的置信度很低第五十一頁,共六十二頁,2022年,8月28日近鄰集的規(guī)模近鄰選擇步驟中,過濾系統(tǒng)需要預(yù)先設(shè)置近鄰集的規(guī)模。通常近鄰用戶數(shù)量的設(shè)置采用閾值設(shè)置或定值設(shè)置兩種方法閾值設(shè)置:系統(tǒng)選擇相關(guān)性大于閾值的用戶作為活動(dòng)用戶的近鄰定值設(shè)置:預(yù)先確定近鄰集的規(guī)模第五十二頁,共六十二頁,2022年,8月28日用戶之間的相似度基于用戶的協(xié)作過濾方法中最主要的問題是如何獲取最近鄰用戶常用的用戶間相似度評價(jià)方法余弦相似度計(jì)算法相關(guān)相似性計(jì)算法第五十三頁,共六十二頁,2022年,8月28日相似度計(jì)算相似性計(jì)算法主要從用戶興趣是否相似的角度選擇活動(dòng)用戶的近鄰優(yōu)點(diǎn)提高了協(xié)作過濾系統(tǒng)推薦項(xiàng)目的準(zhǔn)確性缺點(diǎn)過分相似的用戶共有的項(xiàng)目集規(guī)模相對很大,削弱了用戶間可以互相推薦的未知項(xiàng)目空間第五十四頁,共六十二頁,2022年,8月28日反流行度通常協(xié)作過濾系統(tǒng)可以采用項(xiàng)目的反流行度為候選用戶賦予權(quán)值,反流行度公式如下:一個(gè)項(xiàng)目的流行程度越大,則其反流行度
越小,從而包含該項(xiàng)目的候選用戶獲得的權(quán)值越低;反之,候選用戶的權(quán)值則得到加強(qiáng)活動(dòng)用戶可以簡化地選擇經(jīng)過反流行度加權(quán)后權(quán)值相對較高的用戶作為鄰居優(yōu)點(diǎn)在于最近鄰居可以向活動(dòng)用戶推薦更多新穎的項(xiàng)目參與評價(jià)的用戶總數(shù)第五十五頁,共六十二頁,2022年,8月28日基于用戶的協(xié)作過濾優(yōu)缺點(diǎn)基于用戶的協(xié)作過濾系統(tǒng)在實(shí)驗(yàn)環(huán)境下可以獲得較高的性能,但在實(shí)際應(yīng)用中的效果卻普遍偏低主要原因在于評分機(jī)制的稀疏性實(shí)際應(yīng)用中的用戶很少主動(dòng)提供項(xiàng)目的評價(jià),從而造成“用戶”與“評分”對應(yīng)的二元關(guān)系相對稀疏,導(dǎo)致協(xié)作過濾系統(tǒng)無法有效識別相似用戶第五十六頁,共六十二頁,2022年,8月28日基于模型的協(xié)作過濾基于模型的協(xié)作過濾方法,通過挖掘數(shù)據(jù)之間的相互關(guān)系建立需求模型,并利用該模型過濾后續(xù)的信息資源基于模型的方法需要預(yù)先分析大量數(shù)據(jù),使模型的建立需要花費(fèi)大量的時(shí)間模型生成后,后續(xù)協(xié)作過濾的效率和準(zhǔn)確率都可以得到顯著的提高第五十七頁,共六十二頁,2022年,8月28日隱含語義索引基于模型的協(xié)作過濾研究中最重要的方法是隱含語義索引Sarwar等學(xué)者將LSI引入?yún)f(xié)作過濾領(lǐng)域關(guān)系矩陣由活動(dòng)用戶和項(xiàng)目組成;語義關(guān)系由用戶與用戶之間、項(xiàng)目與項(xiàng)目之間、用戶與項(xiàng)目之間的相關(guān)性組成第五十八頁,共六十二頁,2022年,8月28日LSI協(xié)作過濾的流程建立用戶-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年派遣工種安全生產(chǎn)責(zé)任協(xié)議
- 10000噸巧克力生產(chǎn)線技術(shù)改造項(xiàng)目可行性研究報(bào)告寫作模板-備案審批
- 共同投資合同協(xié)議書
- 房地產(chǎn)交易2024買賣協(xié)議范例
- 南京信息工程大學(xué)《中級經(jīng)濟(jì)學(xué)中的數(shù)學(xué)方法》2021-2022學(xué)年第一學(xué)期期末試卷
- 2024年度醫(yī)療設(shè)備采購合作協(xié)議樣例
- 2024年定制家庭助理用工協(xié)議
- 供用電水汽合同案例
- 光學(xué)透射薄膜濾波器考核試卷
- 創(chuàng)業(yè)空間創(chuàng)新技術(shù)應(yīng)用分析考核試卷
- 《門店選址策略》課件
- 私立民辦初中學(xué)校項(xiàng)目運(yùn)營方案
- 試卷印制服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 1+X數(shù)字營銷技術(shù)應(yīng)用題庫
- 俄羅斯禮儀完
- 小學(xué)六年級語文(小升初)修改病句專項(xiàng)練習(xí)題(含答案)
- 人教版六年級音樂上冊全冊教案
- 辦稅服務(wù)外包投標(biāo)方案(技術(shù)標(biāo))
- 冷庫是有限空間應(yīng)急預(yù)案
- 基于PLC的機(jī)械手控制系統(tǒng)設(shè)計(jì)畢業(yè)設(shè)計(jì)
- 足軟組織感染的護(hù)理查房
評論
0/150
提交評論