




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于情境偏好挖掘的用戶構1從1991年TimBerners-Lee發(fā)明了網(WorldWideWeb)開始,到20年后的2011年,互聯(lián)網真正了一個新的里程碑,進入了“大數據2008ITME(IEEEInternationalSymposiumonITinMedicineandEducation)至今,用數據挖掘技術構建用戶為企業(yè)與用戶提供了更為精準的用戶信息全貌,更便于更清楚了解用戶本身。這一技術科度地揭示信息資源的屬性,同立更精確的用戶。2現階段國內外有兩種構建用戶的大致方法直接直接通過查詢端口讓用戶進行偏好選擇從而構建用戶利用現有列出的各種詳細分類供用戶進行選擇,大體分類形式有:類型、語種、藝術家、年代,各形式內包含數種小。間接捕捉用戶的隱藏偏好項并應用偏好挖掘的算法從而構建用戶。1)排序學習名,,居住城市等等。則代表這一個個實體,來進行排序排序學習問題在于發(fā)現將用戶個人信息和他們排列(對象現階段方法有:用于訓練一組二進制分類器的排序方2)對象排序學習法且對偏好對象的預測是與這個獨特的用戶所關的。3事務數據庫情境偏好規(guī)則事務數據庫情境偏好規(guī)則個人用戶偏好樣本集偏好數據庫用用 1.以豆瓣中的用戶為例。如圖1所示,從豆瓣用戶個人主頁上爬取該用戶看過的信息作為事務數據庫D,在事務數據庫中分析得出偏好數據庫P;從這套數據庫P中抽取一組作為情境偏好規(guī)則π,通過這一規(guī)則將所有的個人用戶偏好抽取出來作為樣本;通過情景偏好挖掘算法從這批樣本S中建立用戶Π。4用網絡爬蟲技術爬取用戶相關信從事務數據庫D中抓取出偏好數據庫偏好規(guī)則挖掘的算用戶構建算5網絡爬蟲技術工作流爬塊超則作為圖中的邊,通過某網頁的超得到其他網頁的地址,從而可以收集過程也是如此。綜上,Spider收集網頁的過程如下:從初始URL集合獲爬塊2.網頁數據抓網頁收集器通過一個URL來獲取該URL對應的網頁數據,其實現主要JavaURLConnectionURL對應頁面的網絡連接,然后通過I/O流其中的數據,BufferedReader提供數據的緩沖區(qū)提高數據的效率以及其下定義的readLine()行函數。網頁處后續(xù)處理的原始數據;另一種是被分析之后,抽取其中的URL連接,放入URL池等待對應網頁的收集。種數據格式,該格式從天網的格式簡化而來:一條記錄由數據頭、數據、空行組成,順序為:頭部+空行++URL的提取分為兩步,第一步是URL識別,第二步再進行URL的整理,分兩步走主要是因為有些的是采用相對路徑,如果不整理會產生錯誤。URL的識別主要是通過正則表達式來匹配,過程首先設定一個字符串作為匹配的字符串模式,然后在Pattern中編譯后即可使用Matcher類來進行相URL的整理,即對之前獲得的整個頁面中URL很容易的獲得當前網頁的URL,所以,相對只需要在當前網頁的URL上添加相對的字段即可組成完整的URL,從而完成整合。另一方面,在頁面中包含的全面URL中,有一些網頁比如網頁是不想爬取的,或者不重要的,這里主要針對于頁面中的進行一個簡單處理。一般的連接都 從而抓取出用戶看過的單中的關鍵字作為(這里只取5個。如“英語”、“·”“動作”、“范·迪塞爾、“”偏好數據庫的獲事務數據庫事務數據庫ACDABDABCECDAB偏好數據庫表1中的關系表D表示豆瓣上一個用戶主頁上發(fā)布的信息記錄。,,,,E分別代表了上節(jié)爬取出的英語、·“動作、范·迪塞爾、“。每一個??(??=12345代表了每次用戶發(fā)布一個新看過的中的集合I,這些被稱為事務。假設用戶主頁上發(fā)布的中,符合標簽集1的有十個,符合集3的有5個。由此暗中表明了,對于與集3相關的,該用戶對與集1有關的更感,正如關系表p中展示的第一對數據<t1,3。我們注意到,1和3集都包含著(英語)和(動作。而在同時包含A和C的1與3之間,用戶偏愛于包含(范·迪塞爾)的1,而不是包含(·)的3。由此,可以得到以下的情境自覺偏好規(guī)律:在兩部語種為英語的動作片中,該用戶更加喜歡由范·迪塞爾演出的,而不是·演出的。A和C則構成了這個規(guī)律的情境與設定。我們可以發(fā)現,一些事務對(比如12>)p偏好規(guī)則的挖設定IX是項目I的集合(X?。項目集的語言對應關系為L=2??。一個事務數據庫DL中的多重項目集。每一個項目集,經常被稱為事務,是一個數據庫的。上文中的表格一闡述了一個由t1,t2,t3,t4,t5A,B,C,D,E項目來描述事務的事務數據庫D一個偏好數據庫P?DD是一對事務的集合,其代表了來自數據庫D中一個用戶偏好樣本。直觀的來說,一個用戶偏好?t,???∈??中的t(根據用戶的反饋),u5p1p5的用戶偏好集。用戶偏好數據庫和事務數據庫的關系遵循下圖[3.偏3.其中p不具有傳遞性,因為偏好數據庫經常是由不確定的用戶反饋所建立的。本文主要目標是從一個用戶提供的偏好數據庫中抽取其用戶。一個用戶是由一些含有特殊性質的偏好規(guī)律所規(guī)定的。本質上來說,一個情境好規(guī)律??+>???ΙX表明在情境X的情況下,項目??+比項目???用戶構建算NN是否選擇了一個最佳情境偏好規(guī)則N是否移除了不必要的情境偏好規(guī)YYY用 圖4.用戶構如圖4所示,建立用戶時,會反迭代由情境偏好挖掘算法得到的情境偏好規(guī)則集合S中的主要原理,這個動作會一直持續(xù)直到數據庫中所有的用戶6對豆瓣網中的一個用戶數據的預處理,這直接影響后續(xù)分析效果偏好規(guī)則。用戶構建問題:用戶是從用戶之前已提供的偏好樣本中指7序各階段名起止日1確定,制定基本方案,寫出開2014.12.1--22015.3.1--32015.3.12--42015.5.1--52015.5.15--RamanathanK,GiraudiJ,GuptaA.CreatingHierarchicalUserProfilesUsingWikipedia[EB/OL].(2008-10-06).[2010-11-22]. AuYeungCM,GibbinsN,ShadboltN.AStudyofUserProfileGenerationfromFolksonomies[EB/OL].(2008-04-25).[2010-10-15].GodoyD,AmandiA.HybridContentandTag-basedProfilesformendationinCollaborativeTaggingSystems[EB/OL].[2010-10-13].ZhangY,FengB.Tag-basedUserModelingUsingFormalConceptysis[C].In:Proceedingsofthe8thIEEEInternationalC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 漳州科技職業(yè)學院《男裝設計》2023-2024學年第二學期期末試卷
- 攀枝花學院《工程圖學與計算機繪圖甲》2023-2024學年第二學期期末試卷
- 15《搭船的鳥》教學設計-2024-2025學年三年級上冊語文統(tǒng)編版
- 金山職業(yè)技術學院《外貿專業(yè)英語一》2023-2024學年第二學期期末試卷
- 信陽師范大學《工程實訓》2023-2024學年第二學期期末試卷
- 銅仁幼兒師范高等??茖W?!度肆Y源管理沙盤模擬》2023-2024學年第二學期期末試卷
- 船舶運力合同范本
- 第 19課《燈泡亮了》教學設計-2023-2024學年青島版科學四年級下冊
- 《7 比較測量紙帶和尺子》教學設計-2023-2024學年一年級上冊科學教科版
- Unit 6 Meet my family Part A Lets talk(教學設計)-2024-2025學年人教PEP版英語四年級上冊
- 產后抑郁癥講課課件
- 人工智能背景下高職五育并舉的人才培養(yǎng)研究
- 汽車行業(yè)維修記錄管理制度
- IQC檢驗作業(yè)指導書
- 城市自來水廠課程設計
- 重慶市2024年小升初語文模擬考試試卷(含答案)
- 2024智慧城市數據采集標準規(guī)范
- 【人教版】《勞動教育》七上 勞動項目一 疏通廚房下水管道 課件
- 2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術原理及未來展望分析報告
- 2024-2030年中國銀行人工智能行業(yè)市場深度調研及發(fā)展趨勢與投資前景研究報告
- 五屆全國智能制造應用技術技能大賽數字孿生應用技術員(智能制造控制技術方向)賽項實操樣題
評論
0/150
提交評論