設計模板開題報告_第1頁
設計模板開題報告_第2頁
設計模板開題報告_第3頁
設計模板開題報告_第4頁
設計模板開題報告_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于情境偏好挖掘的用戶構1從1991年TimBerners-Lee發(fā)明了網(wǎng)(WorldWideWeb)開始,到20年后的2011年,互聯(lián)網(wǎng)真正了一個新的里程碑,進入了“大數(shù)據(jù)2008ITME(IEEEInternationalSymposiumonITinMedicineandEducation)至今,用數(shù)據(jù)挖掘技術構建用戶為企業(yè)與用戶提供了更為精準的用戶信息全貌,更便于更清楚了解用戶本身。這一技術科度地揭示信息資源的屬性,同立更精確的用戶。2現(xiàn)階段國內(nèi)外有兩種構建用戶的大致方法直接直接通過查詢端口讓用戶進行偏好選擇從而構建用戶利用現(xiàn)有列出的各種詳細分類供用戶進行選擇,大體分類形式有:類型、語種、藝術家、年代,各形式內(nèi)包含數(shù)種小。間接捕捉用戶的隱藏偏好項并應用偏好挖掘的算法從而構建用戶。1)排序?qū)W習名,,居住城市等等。則代表這一個個實體,來進行排序排序?qū)W習問題在于發(fā)現(xiàn)將用戶個人信息和他們排列(對象現(xiàn)階段方法有:用于訓練一組二進制分類器的排序方2)對象排序?qū)W習法且對偏好對象的預測是與這個獨特的用戶所關的。3事務數(shù)據(jù)庫情境偏好規(guī)則事務數(shù)據(jù)庫情境偏好規(guī)則個人用戶偏好樣本集偏好數(shù)據(jù)庫用用 1.以豆瓣中的用戶為例。如圖1所示,從豆瓣用戶個人主頁上爬取該用戶看過的信息作為事務數(shù)據(jù)庫D,在事務數(shù)據(jù)庫中分析得出偏好數(shù)據(jù)庫P;從這套數(shù)據(jù)庫P中抽取一組作為情境偏好規(guī)則π,通過這一規(guī)則將所有的個人用戶偏好抽取出來作為樣本;通過情景偏好挖掘算法從這批樣本S中建立用戶Π。4用網(wǎng)絡爬蟲技術爬取用戶相關信從事務數(shù)據(jù)庫D中抓取出偏好數(shù)據(jù)庫偏好規(guī)則挖掘的算用戶構建算5網(wǎng)絡爬蟲技術工作流爬塊超則作為圖中的邊,通過某網(wǎng)頁的超得到其他網(wǎng)頁的地址,從而可以收集過程也是如此。綜上,Spider收集網(wǎng)頁的過程如下:從初始URL集合獲爬塊2.網(wǎng)頁數(shù)據(jù)抓網(wǎng)頁收集器通過一個URL來獲取該URL對應的網(wǎng)頁數(shù)據(jù),其實現(xiàn)主要JavaURLConnectionURL對應頁面的網(wǎng)絡連接,然后通過I/O流其中的數(shù)據(jù),BufferedReader提供數(shù)據(jù)的緩沖區(qū)提高數(shù)據(jù)的效率以及其下定義的readLine()行函數(shù)。網(wǎng)頁處后續(xù)處理的原始數(shù)據(jù);另一種是被分析之后,抽取其中的URL連接,放入URL池等待對應網(wǎng)頁的收集。種數(shù)據(jù)格式,該格式從天網(wǎng)的格式簡化而來:一條記錄由數(shù)據(jù)頭、數(shù)據(jù)、空行組成,順序為:頭部+空行++URL的提取分為兩步,第一步是URL識別,第二步再進行URL的整理,分兩步走主要是因為有些的是采用相對路徑,如果不整理會產(chǎn)生錯誤。URL的識別主要是通過正則表達式來匹配,過程首先設定一個字符串作為匹配的字符串模式,然后在Pattern中編譯后即可使用Matcher類來進行相URL的整理,即對之前獲得的整個頁面中URL很容易的獲得當前網(wǎng)頁的URL,所以,相對只需要在當前網(wǎng)頁的URL上添加相對的字段即可組成完整的URL,從而完成整合。另一方面,在頁面中包含的全面URL中,有一些網(wǎng)頁比如網(wǎng)頁是不想爬取的,或者不重要的,這里主要針對于頁面中的進行一個簡單處理。一般的連接都 從而抓取出用戶看過的單中的關鍵字作為(這里只取5個。如“英語”、“·”“動作”、“范·迪塞爾、“”偏好數(shù)據(jù)庫的獲事務數(shù)據(jù)庫事務數(shù)據(jù)庫ACDABDABCECDAB偏好數(shù)據(jù)庫表1中的關系表D表示豆瓣上一個用戶主頁上發(fā)布的信息記錄。,,,,E分別代表了上節(jié)爬取出的英語、·“動作、范·迪塞爾、“。每一個??(??=12345代表了每次用戶發(fā)布一個新看過的中的集合I,這些被稱為事務。假設用戶主頁上發(fā)布的中,符合標簽集1的有十個,符合集3的有5個。由此暗中表明了,對于與集3相關的,該用戶對與集1有關的更感,正如關系表p中展示的第一對數(shù)據(jù)<t1,3。我們注意到,1和3集都包含著(英語)和(動作。而在同時包含A和C的1與3之間,用戶偏愛于包含(范·迪塞爾)的1,而不是包含(·)的3。由此,可以得到以下的情境自覺偏好規(guī)律:在兩部語種為英語的動作片中,該用戶更加喜歡由范·迪塞爾演出的,而不是·演出的。A和C則構成了這個規(guī)律的情境與設定。我們可以發(fā)現(xiàn),一些事務對(比如12>)p偏好規(guī)則的挖設定IX是項目I的集合(X?。項目集的語言對應關系為L=2??。一個事務數(shù)據(jù)庫DL中的多重項目集。每一個項目集,經(jīng)常被稱為事務,是一個數(shù)據(jù)庫的。上文中的表格一闡述了一個由t1,t2,t3,t4,t5A,B,C,D,E項目來描述事務的事務數(shù)據(jù)庫D一個偏好數(shù)據(jù)庫P?DD是一對事務的集合,其代表了來自數(shù)據(jù)庫D中一個用戶偏好樣本。直觀的來說,一個用戶偏好?t,???∈??中的t(根據(jù)用戶的反饋),u5p1p5的用戶偏好集。用戶偏好數(shù)據(jù)庫和事務數(shù)據(jù)庫的關系遵循下圖[3.偏3.其中p不具有傳遞性,因為偏好數(shù)據(jù)庫經(jīng)常是由不確定的用戶反饋所建立的。本文主要目標是從一個用戶提供的偏好數(shù)據(jù)庫中抽取其用戶。一個用戶是由一些含有特殊性質(zhì)的偏好規(guī)律所規(guī)定的。本質(zhì)上來說,一個情境好規(guī)律??+>???ΙX表明在情境X的情況下,項目??+比項目???用戶構建算NN是否選擇了一個最佳情境偏好規(guī)則N是否移除了不必要的情境偏好規(guī)YYY用 圖4.用戶構如圖4所示,建立用戶時,會反迭代由情境偏好挖掘算法得到的情境偏好規(guī)則集合S中的主要原理,這個動作會一直持續(xù)直到數(shù)據(jù)庫中所有的用戶6對豆瓣網(wǎng)中的一個用戶數(shù)據(jù)的預處理,這直接影響后續(xù)分析效果偏好規(guī)則。用戶構建問題:用戶是從用戶之前已提供的偏好樣本中指7序各階段名起止日1確定,制定基本方案,寫出開2014.12.1--22015.3.1--32015.3.12--42015.5.1--52015.5.15--RamanathanK,GiraudiJ,GuptaA.CreatingHierarchicalUserProfilesUsingWikipedia[EB/OL].(2008-10-06).[2010-11-22]. AuYeungCM,GibbinsN,ShadboltN.AStudyofUserProfileGenerationfromFolksonomies[EB/OL].(2008-04-25).[2010-10-15].GodoyD,AmandiA.HybridContentandTag-basedProfilesformendationinCollaborativeTaggingSystems[EB/OL].[2010-10-13].ZhangY,FengB.Tag-basedUserModelingUsingFormalConceptysis[C].In:Proceedingsofthe8thIEEEInternationalC

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論