




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
搜索引擎如何標(biāo)注興趣信息
0搜索用戶分類隨著互聯(lián)網(wǎng)的發(fā)展,對個性化信息服務(wù)和用戶分類的研究日益增多。搜索引擎是連接網(wǎng)絡(luò)信息資源與用戶需求的紐帶,它在滿足用戶信息需求的同時也反映出用戶的搜索意圖,搜索意圖往往蘊(yùn)含用戶的興趣信息,基于這些興趣信息,可以實現(xiàn)對搜索用戶的分類,搜索引擎可以據(jù)此為用戶提供個性化的信息服務(wù)?,F(xiàn)有的搜索用戶分類體系多是基于社會化標(biāo)簽構(gòu)建的,社會化標(biāo)簽是指用戶自發(fā)為某類信息進(jìn)行的描述。然而,社會化標(biāo)簽的模糊性、多樣性、非結(jié)構(gòu)行等缺陷,降低了分類體系的準(zhǔn)確率。社會化標(biāo)簽應(yīng)用于搜索用戶的分類研究,還會產(chǎn)生數(shù)據(jù)稀疏問題。很多研究對基于社會化標(biāo)簽的用戶分類方法進(jìn)行了改進(jìn),效果并不好。為了解決這些問題,本文利用標(biāo)準(zhǔn)化的標(biāo)簽標(biāo)注用戶關(guān)鍵詞里蘊(yùn)含的興趣信息,將非結(jié)構(gòu)化的關(guān)鍵詞數(shù)據(jù)擴(kuò)展為結(jié)構(gòu)化的數(shù)據(jù)矩陣,進(jìn)而利用聚類分析方法對搜索用戶進(jìn)行分類,并且結(jié)合對應(yīng)分析方法對不同類別的搜索用戶的特征進(jìn)行解讀。1數(shù)據(jù)和方法1.1關(guān)鍵詞選取及分類國外研究使用的搜索數(shù)據(jù)多來自于Google搜索引擎,對于中文搜索而言,百度搜索引擎市場份額高達(dá)70%以上,因此百度的搜索數(shù)據(jù)更具有普遍意義,本文使用的數(shù)據(jù)來源于百度搜索引擎。本文獲得了2011年7月到2011年9月之間的987個cookie對應(yīng)的43722條關(guān)鍵詞數(shù)據(jù),也就是說,本文獲得了987名搜索用戶檢索的關(guān)鍵詞數(shù)據(jù)。由于本文研究的搜索用戶分類并不針對特殊的用戶群,所以,樣本總體為全體搜索用戶。從搜索引擎獲取的原始數(shù)據(jù)很“臟”,存在一些與本研究不相關(guān)的信息,對數(shù)據(jù)進(jìn)行預(yù)處理后,獲取的數(shù)據(jù)形式的部分示例如表1所示:表1中的編號代表搜索用戶,時間是該搜索用戶檢索相應(yīng)關(guān)鍵詞的日期,關(guān)鍵詞一列記錄的是用戶檢索的關(guān)鍵詞。1.2基于用戶的興趣標(biāo)注搜索引擎作為互聯(lián)網(wǎng)上獲取信息的最常用工具,是連接信息資源和用戶需求的紐帶。用戶搜索的關(guān)鍵詞從字意上可以被歸為不同的類別,根據(jù)這些關(guān)鍵詞的語義可以判斷出對應(yīng)的用戶所關(guān)注的興趣點。為了從關(guān)鍵詞數(shù)據(jù)中“抽取”興趣內(nèi)容,獲得更豐富的信息,實現(xiàn)基于興趣點標(biāo)注的用戶分類,本文將這些蘊(yùn)含在關(guān)鍵詞中的興趣信息標(biāo)注在關(guān)鍵詞之后,作為關(guān)鍵詞數(shù)據(jù)的拓展部分。拓展數(shù)據(jù)的部分示例如表2所示:表2中的興趣點一列記錄的是根據(jù)對應(yīng)關(guān)鍵詞的語義手工標(biāo)注的興趣信息,以編號為1的用戶(以下簡稱用戶1)為例說明本文標(biāo)注興趣信息的過程。用戶1檢索了“陜西人事考試網(wǎng)”和“山東大學(xué)排名”,從這兩個關(guān)鍵詞的語義分析用戶1可能是為了查詢考試報考的相關(guān)信息,說明用戶1比較關(guān)注“教育培訓(xùn)”這一興趣點,故在兩個關(guān)鍵詞后標(biāo)注“教育培訓(xùn)”。同理,在“榆林人事人才網(wǎng)”、“NBA頻道”、“QQ游戲”后分別標(biāo)注“求職招聘”、“運動”、“游戲”,這樣就完成了對于用戶1的興趣信息的標(biāo)注。本文并沒有選取量級巨大的數(shù)據(jù)進(jìn)行研究,但是在實際應(yīng)用時,必然會遇到海量數(shù)據(jù)的處理問題,人工標(biāo)注興趣點顯然不能處理海量數(shù)據(jù),所以,有必要對標(biāo)注興趣點的過程進(jìn)行改進(jìn)。本文提出一種方法以供參考,依據(jù)關(guān)鍵詞的檢索量,挑選可以歸為某一興趣點的核心關(guān)鍵詞,制作相應(yīng)的核心詞表,當(dāng)關(guān)鍵詞與這一核心詞表里的詞匹配或包含這一核心詞表里的詞時,該關(guān)鍵詞就被標(biāo)注上相應(yīng)的興趣點信息。為每一個興趣點整理出對應(yīng)的核心詞表,編寫腳本通過導(dǎo)入這些詞表給關(guān)鍵詞自動標(biāo)注興趣點。把搜索用戶的興趣按照個數(shù)匯總,得到搜索用戶在每個興趣點上的得分(個數(shù)),匯總結(jié)果的部分示例如表3所示:表3只簡要列舉了興趣點匯總表的小部分,完整的數(shù)據(jù)處理結(jié)果中每個用戶在各個興趣點上的得分差異很大,為了減小得分的過大差異對分析結(jié)果的影響,本文對搜索用戶在興趣點上的得分進(jìn)行了標(biāo)準(zhǔn)化處理。本文對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的原則是盡量保證標(biāo)準(zhǔn)化后不同的得分?jǐn)?shù)量接近,從而有利于聚類分析得到好的結(jié)果。具體的標(biāo)準(zhǔn)化過程為:把得分為0的分值重定義為0,把得分大于等于1小于等于10的分值重定義為1,把大于10的分值重定義為2。1.3學(xué)習(xí)方法1.3.1用戶細(xì)分和聚類分析方法用戶細(xì)分的關(guān)鍵是要找出能夠據(jù)以分類的用戶特征,通過擴(kuò)展關(guān)鍵詞數(shù)據(jù),本文已經(jīng)描述了搜索用戶的興趣特征,通過一些統(tǒng)計分析方法可以依據(jù)搜索用戶的興趣特征對其進(jìn)行分類。用戶細(xì)分的實質(zhì)就是對用戶分類,聚類分析方法是常用的分類方法。聚類分析中的K-Means算法簡便實用,是較為常用的聚類分析算法,在K-means算法中事先并不知道目標(biāo)數(shù)據(jù)應(yīng)該被分成多少個類別,在K-means算法中需要根據(jù)初始聚類中心來確定一個初始劃分,然后對初始劃分進(jìn)行優(yōu)化,初始聚類中心的選擇對聚類結(jié)果有較大的影響。本文在數(shù)據(jù)分析處理時,并不能事先確定分類個數(shù),所以使用該算法可以取得較好的效果。1.3.2文獻(xiàn)回顧和分析方法K-Means聚類分析結(jié)果的可讀性較差,僅僅觀察聚類結(jié)果表中的信息,并不能很好的描述每一類搜索用戶的特征,本文總結(jié)現(xiàn)有研究文獻(xiàn),嘗試使用對應(yīng)分析的方法解讀聚類分析的結(jié)果。對應(yīng)分析是近年新發(fā)展起來的一種統(tǒng)計分析技術(shù),通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系。它最大特點是能把眾多的樣本和眾多的變量同時作到同一張圖解上,將樣本的大類及其屬性在圖上直觀而又明了地表示出來。對應(yīng)分析適用于數(shù)據(jù)是頻次或頻率的資料。2結(jié)果和分析2.1聚類結(jié)果和聚類分析結(jié)合K-Means聚類的相關(guān)特征,本文根據(jù)所要處理數(shù)據(jù)的量級將K分別設(shè)置為5、6、7,通過對比分析每個K值對應(yīng)的聚類結(jié)果,得出的結(jié)論是,將樣本搜索用戶分成5類的效果最好,具體的聚類結(jié)果如表4所示:表4中第一行的數(shù)字代表不同類別的用戶,第一列是興趣點信息,表中的數(shù)值表示的是每類用戶在對應(yīng)的興趣點上的得分。每個類別的搜索用戶數(shù)如表5所示:從表5中可以看出,第5類用戶的數(shù)量稍多,第4類用戶的數(shù)量略少,每個類別的搜索用戶數(shù)比較接近,說明本文對搜索用戶的分類結(jié)果是有效的。2.2用戶興趣特征描述根據(jù)對應(yīng)分析算法的特點,本文依據(jù)現(xiàn)有數(shù)據(jù),構(gòu)造用以度量用戶類別和用戶興趣點之間聯(lián)系強(qiáng)弱程度的數(shù)據(jù)。根據(jù)完整的拓展數(shù)據(jù)結(jié)果,計算出每一類搜索用戶在每個興趣點上的平均得分,得到的每類用戶的平均得分?jǐn)?shù)據(jù)的部分示例如表6所示。表6只列舉了搜索用戶在興趣點上的平均得分?jǐn)?shù)據(jù)的一部分,實際運算結(jié)果中的得分?jǐn)?shù)據(jù)要大得多,平均得分的數(shù)值度量的是人群與興趣點之間的關(guān)聯(lián)程度的強(qiáng)弱。對興趣點變量進(jìn)行數(shù)值轉(zhuǎn)換并進(jìn)行對應(yīng)分析的運算。運算后的結(jié)果包含對應(yīng)分析結(jié)果摘要和對應(yīng)分析圖,其中對應(yīng)分析結(jié)果摘要是整個對應(yīng)分析結(jié)果的匯總表,是輸出結(jié)果中最重要的一個,主要用于確定使用多少個維度來對結(jié)果進(jìn)行解釋。對應(yīng)分析圖是對變量間相互關(guān)系進(jìn)行直觀描述的圖形,是對應(yīng)分析的主要結(jié)果,主要用于在一個低維度空間描述各個變量之間的相互關(guān)系,具體結(jié)果見表7和圖1:如表7所示,第一維(0.54)、第二維(0.222)的慣量比例積累為0.762,這表明第一維度和第二維度分別解釋了總信息量的54%和22.2%,共同解釋了信息量的76.2%,因此,采用二維圖形可以反映兩變量之間的絕大部分信息。根據(jù)圖1中所示的每類用戶的興趣特征,本文從興趣特征角度描述5類用戶的特點。第一類用戶與其他四類用戶的特征差異非常明顯。根據(jù)圖1并結(jié)合點在兩個維度上的得分可以看出,第一類用戶(1.016,-0.491)更加關(guān)注游戲(1.114,-0.660)、動漫(1.327,-0.633)、QQ消費品(0.785,-0.640)這三個興趣點,而且這三個興趣點和其他興趣點的得分差異很大,與其他興趣點的關(guān)聯(lián)程度不高。這類用戶在全體樣本網(wǎng)民中具有鮮明的獨特性,其興趣特征相較于其他樣本網(wǎng)民有很大的區(qū)別,從他們關(guān)注的興趣點可以推斷他們是比較年輕的一類網(wǎng)民。第三類用戶與其他四類用戶的特征差異也比較明顯。從圖1中可以看出,表示第三類用戶的點和表示其他四類用戶的點距離都很大。這類用戶關(guān)注的興趣點比較多,包括音樂、婚戀交友、視頻、社交、文學(xué)、娛樂八卦,從圖1中點的距離可以看出,這類用戶對這些興趣點的關(guān)注是一種“弱關(guān)注”,而且這些興趣點之間也沒有很強(qiáng)的關(guān)聯(lián)。第三類用戶所關(guān)注的興趣點多與娛樂有關(guān),這類用戶喜愛娛樂,但沒有特別喜愛的娛樂項目,這類用戶的興趣特征比較契合大部分網(wǎng)民的上網(wǎng)動機(jī)。第四類用戶與第二、五類用戶的特征比較接近,但也存在一些差異。根據(jù)圖1并結(jié)合點在兩個維度上的得分可以看出,第四類用戶(-0.376,-0.071)對網(wǎng)購(-0.383,-0.100)、教育培訓(xùn)(-0.345,-0.119)這兩個興趣點的關(guān)注程度非常強(qiáng),而且這兩個興趣點之間也有很強(qiáng)的關(guān)聯(lián)。這類網(wǎng)民熱衷于網(wǎng)購,是各大電子商務(wù)網(wǎng)站的活躍用戶,他們也很關(guān)注教育培訓(xùn)。第二類用戶關(guān)注的興趣點比較多,包括飲食、旅游、網(wǎng)購、醫(yī)療保健、教育培訓(xùn),從圖1中可以看出,這類用戶對這些興趣點的關(guān)注也是一種“弱關(guān)注”,而且他們關(guān)注的興趣點之間既沒有很強(qiáng)的關(guān)聯(lián)又沒有相似的特征。第五類用戶與第二、四類用戶的特征比較接近,但也存在一些差異。根據(jù)圖1并結(jié)合點在兩個維度上的得分可以看出,第五類用戶(-0.448,-0.246)對醫(yī)療保健(-0.465,-0.205)這一興趣點的關(guān)注程度很強(qiáng)。3用戶興趣特性解讀a.搜索關(guān)鍵詞蘊(yùn)含網(wǎng)絡(luò)用戶的興趣信息。搜索引擎作為互聯(lián)網(wǎng)上獲取信息的最常用工具,是連接信息資源和用戶需求的紐帶。搜索關(guān)鍵詞是網(wǎng)絡(luò)用戶真實需求的體現(xiàn),根據(jù)這些關(guān)鍵詞的語義可以推斷出用戶所關(guān)注的興趣點,通過標(biāo)注這些興趣點,描述出用戶的興趣特征。b.基于關(guān)鍵詞搜索可以實現(xiàn)用戶分類。本文依據(jù)標(biāo)準(zhǔn)化的興趣標(biāo)簽,通過標(biāo)注搜索關(guān)鍵詞所對應(yīng)的用戶興趣信息,擴(kuò)展關(guān)鍵詞數(shù)據(jù),得到用戶的興趣數(shù)據(jù),根
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中專升大專的試題及答案
- 2019-2025年軍隊文職人員招聘之軍隊文職教育學(xué)題庫綜合試卷A卷附答案
- 2019-2025年消防設(shè)施操作員之消防設(shè)備中級技能考前沖刺試卷A卷含答案
- 2022-2023學(xué)年廣東省廣州二中教育集團(tuán)七年級(下)期中數(shù)學(xué)試卷(含答案)
- 遺產(chǎn)繼承遺產(chǎn)分配爭議解決合同(2篇)
- 采購與分包責(zé)任劃分合同(2篇)
- 2023年云南公務(wù)員《行政職業(yè)能力測驗》試題真題及答案
- 奢侈品知識培訓(xùn)課件圖片
- 2025年法律知識競賽搶答題庫及答案(共70題)
- 急診科急救知識培訓(xùn)課件
- 2025年中考百日誓師大會校長發(fā)言稿:激揚(yáng)青春志 決勝中考時
- YY/T 1860.1-2024無源外科植入物植入物涂層第1部分:通用要求
- 中央2025年全國婦聯(lián)所屬在京事業(yè)單位招聘93人筆試歷年參考題庫附帶答案詳解
- 人教版高中物理選擇性必修第二冊電磁波的發(fā)射與接收課件
- 《建筑冷熱源》全冊配套最完整課件1
- 廣州2025年廣東廣州市番禺區(qū)小谷圍街道辦事處下屬事業(yè)單位招聘5人筆試歷年參考題庫附帶答案詳解
- 2025年春新人教版生物七年級下冊全冊教學(xué)課件
- 【物理】《跨學(xué)科實踐:制作微型密度計》(教學(xué)設(shè)計)-2024-2025學(xué)年人教版(2024)初中物理八年級下冊
- 封條模板A4直接打印版
- 義務(wù)教育《地理》課程標(biāo)準(zhǔn)(2022年版)
- 單細(xì)胞蛋白論文
評論
0/150
提交評論