論搜索引擎檢索結果的分類

上傳人：1*** IP屬地：廣東上傳時間：2023-10-04 格式：DOCX 頁數(shù)：5 大?。?1.79KB 積分：9.6 舉報 版權申訴

全文預覽已結束

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

論搜索引擎檢索結果的分類

1檢索結果的分類隨著互聯(lián)網(wǎng)的快速發(fā)展，互聯(lián)網(wǎng)信息的速度也顯著加快。當用戶們感到“信息爆炸”和“信息海洋”時，他們還感受到了在網(wǎng)上獲取有用信息的難度。根據(jù)CNNIC最新互聯(lián)網(wǎng)調(diào)查顯示,互聯(lián)網(wǎng)應用中搜索引擎的使用率排在第2位,是僅次于電子郵件的互聯(lián)網(wǎng)應用【1】。然而,使用搜索引擎尋找有用信息并不是輕而易舉的事情。雖然搜索引擎的技術已經(jīng)有了很大發(fā)展,但是要從成千上萬條返回記錄中尋找有用信息,也是件費時費力的事情。對用戶而言,搜索引擎檢索返回的結果中,只有少部分才是真正需要的,而且這些信息通常還夾雜在大量無用信息中,需要用戶瀏覽返回結果中的標題、簡要描述甚至是打開網(wǎng)頁才能找到。在這種情況下,部分學者提出對搜索引擎的檢索結果進行分類或者聚類,以幫助用戶找到真正需要的信息【2】。通過對檢索結果進行分類,可以在兩個方面幫助用戶。如果分類結果中某類正好是用戶所需要的,那么用戶不必瀏覽檢索結果而可以直接找到需要的信息;即使分類結果中沒有一類是符合用戶需求的,那么用戶也可以通過分類情況來了解檢索結果內(nèi)容、結構等方面的情況,幫助用戶改進檢索策略。對檢索結果的分類是指按照已有的類目體系對檢索結果進行劃分,對檢索結果的聚類是指在沒有類目體系的情況下對檢索結構進行無指導的劃分【3】【4】“中搜”是通過檢索詞匹配來確定相關網(wǎng)頁的,每個檢索結果中都含有與檢索詞相匹配的詞語。而點擊每個“智能導航”類目后所得的網(wǎng)頁中,也都有與檢索詞相匹配的詞語,可見這些結果包含在直接通過檢索詞檢索得到的結果中。“中搜”在搜索幫助中指出,點擊“智能導航”類目將得到檢索詞在該類別中的檢索結果。由此可以看出,“智能導航”類目中包含的結果是對原先搜索結果的進一步劃分。當然這種劃分是不全面的,并不能包含所有的檢索結果。而且“智能導航”中的類目是預先設定的,也就是說檢索結果是在原有的分類體系指導下進行分組,因此可以把它歸為分類的一種?！八压贰迸c此類似。從“搜狗”的界面中可以看到“搜狗”使用的分類體系是“搜狐”的主題分類目錄。點擊搜索提示中的類目,可以在打開的網(wǎng)頁上方看到“相關分類”提示,指示該類目在主題分類體系中的完整路徑。而它所顯示的結果正是檢索詞在這個目錄下的檢索結果。因而,“搜狗”的搜索提示也是對檢索結果的一種劃分,是在原有分類體系指導下的分組,因而也可以看作是分類的一種。本文將對“中搜”的“智能導航”與“搜狗”的“搜索提示”進行比較分析。筆者設計了模擬真實環(huán)境的檢索實驗,從定性和定量兩個角度分析實驗結果,并對這兩項功能進行評價。2文創(chuàng)檢索任務檢索實驗模擬真實的檢索環(huán)境,設計了20個檢索任務。因為沒有可供參考的搜索引擎日志,因此只能參考他人的實驗。筆者參照“863計劃信息檢索評測測試集”中的“SEWM2004中文Web信息檢索評測”的檢索主題設置【5】,從中選擇10個檢索主題,根據(jù)本實驗的要求稍作改動。該檢索評測的主題范圍根據(jù)sohu的網(wǎng)頁分類目錄,限定在“娛樂”、“文學”、“新聞”、“科技”、“社會”和“教育”上。另外,筆者參照TREC的問題回答式問題集(TREC2004QATestQuestions)編制了中文問題回答式的10項檢索任務【6】。上述兩組任務的區(qū)別在于,前一組是資源發(fā)現(xiàn)型的,需要試驗者根據(jù)要求尋找一定量的合適資源,比如尋找高等數(shù)學的學習網(wǎng)站。后一組是問題回答型的,只需針對問題找到答案即可,比如回答什么是溫室效應。檢索實驗共分三部分,分別使用網(wǎng)頁檢索功能進行檢索。第一部分考察類目特點,第二部分考察分類準確度,第三部分考察用戶使用情況。其分別設置如下:第一部分由筆者完成。隨機選取上述任務中的10個進行檢索,分別對兩個搜索引擎使用相同的檢索詞,然后考察“智能導航”和“搜索提示”給出的類目,比較它們在類目與檢索詞相關性、類目數(shù)量、類目專指度、類目結構、類目之間的關系(重復反映)、類名這幾個方面的特點【7】。其中,“搜索提示”的類目只考察第一次給出的六項,不考慮完整展開后的其他類目。第二部分由五位實驗人員完成。實驗人員在上述任務中隨機挑選五個任務,分別對兩個搜索引擎按他們的檢索習慣輸入檢索詞進行檢索,然后對“智能導航”和“搜索提示”給出的每個類目點擊進行察看,判斷類目下給出的結果與該類目和檢索需求的相關性。實驗設定相關性判斷為二元判斷,即只分相關和不相關,如果與類目和檢索需求都相關,則判定為相關,如若與兩者皆不相關或者與其中一個不相關,則判定為不相關。如果給出的網(wǎng)頁不能打開,也判定為不相關【8】。并把結果填入事先設計好的表格里。第三部分也由上述五位實驗人員完成。實驗人員分別使用“中搜”和“搜狗”進行檢索,完成上述20項任務,并對“智能導航”和“搜索提示”的使用情況和實際對用戶的幫助情況進行統(tǒng)計。根據(jù)實驗特點,特別要求實驗人員注意使用這兩項功能,但并不強制。3結果分析下文將根據(jù)上述這三部分實驗結果,分別對“智能導航”和“搜索提示”進行比較分析。3.1類目數(shù)量、類目結構、類目穩(wěn)定性類目特點從以下幾個角度進行分析,類目與檢索詞、檢索結果的相關性,類目數(shù)量,類目專指度,類目結構,類目之間的關系(重復反映),類名,類目穩(wěn)定性。(1)類目與檢索結果不相關從資源保障角度講,對于檢索結果進行分類,需要對檢索結果進行分析,然后給出相應的分類類目。否則,即使類目與檢索詞非常相關,沒有相關文獻,該類目就沒有實際使用價值。但是搜索引擎檢索結果過多,不可能一一判定,而且在實際使用過程中,用戶通常也只瀏覽返回結果的前幾十條,因此,筆者在實驗中設定如果某個類目下的前十條返回結果都與該類目不相關,并且檢索詞返回結果的前二十條中沒有與該類目相關的,則判定為該類目與檢索結果不相關。從檢索詞角度看,如果類目與檢索詞完全無關,那么該條類目是沒有實用價值的。這里的不相關,主要是指用戶不可能使用該詞檢索與該類目相關的資源。理論上講,類目與檢索詞、檢索結果都應該相關。筆者把每次檢索的相關類目除以類目總量作為相關性判斷依據(jù),取所有檢索的平均值作為度量相關性的指標。實驗結果表明如下,“中搜”的相關性為0.87,“搜狗”的相關性為0.75。從這個角度看,“智能導航”要好于“搜索提示”。(2)檢索詞的數(shù)量通?！八压贰苯o出的總的類目數(shù)量要多于“中搜”,但是從界面顯示角度看,“搜狗”只顯示前面六條(如果總數(shù)多于六條),要看全部類目得點擊“更多……”才能看到。筆者在實驗中只取其第一次顯示的那些類目。因為在第三部分的實驗中筆者發(fā)現(xiàn),實驗人員很少點擊“更多……”察看“搜狗”的所有搜索提示,通常只注意直接顯示出來的那幾項。不是所有的檢索詞搜索引擎都能給出相應的類目,在實驗中,針對第20個任務輸入“國際米蘭足球俱樂部”的時候,“中搜”和“搜狗”都沒有給出相應的類目。通常輸入的檢索詞越專指,檢索詞的歧義越少,檢索出的資源種類越少,則給出的類目越少?？傮w而言,“智能導航”的類目數(shù)量要少于“搜索提示”。根據(jù)實驗統(tǒng)計結果,“智能導航”的平均類目數(shù)為5,“搜索提示”的平均類目數(shù)為5.75。其中部分原因與類目專指度和類目結構相關。(3)類目標準指向度與“搜索提示”相比,“智能導航”的類目概念相對較為寬泛,專指度低?！八阉魈崾尽钡念惸恐杏泻芏嗍恰八押钡闹黝}分類目錄中的三四級類目,在類目顯示時通常會把上一級類目也作為類名的一部分,這些類目在上級類目的限制下,通常專指度都較高。從類名字數(shù)來看,“智能導航”類名的長度遠遠小于“搜索提示”,“智能導航”的類名長度通常為2到4個中文字符,而“搜索提示”則2到10個字符不等,以5、6個字符居多。從統(tǒng)計角度看,通常詞的長度越長,專指度也越高。從這個角度看,“智能導航”的類目總體專指度要小于“搜索提示”。實驗結果表明,類目專指度越高,則類目與資源相關度越低。專指度過高不利于資源劃分,特別是主題內(nèi)容、學科角度的分類類目。(4)類目劃分和類目范圍從分類角度看,資源可以用多個標準、從多種角度進行劃分,由此形成不同類型的類目,而類目之間也完全有可能交叉,網(wǎng)絡分類目錄通常是此種類型。在這種分類體系中,資源會在不同類目下重復反映。當然,資源也可以由同一個標準進行劃分,那么由此形成的類目之間則沒有交叉,傳統(tǒng)的圖書分類目錄通常是這種類型?！八压贰钡念惸矿w系來自“搜狐”自有的主題分類目錄,它同網(wǎng)絡上大部分的主題分類目錄一樣,采用多元化分,即類目展開時,往往同時采用多種劃分標準。因此,在“搜索提示”中可以看到按照不同分類標準產(chǎn)生的類目。而“中搜”的類目類型明顯少于“搜狗”,也就是說“中搜”的分類標準少于“搜狗”。在第一部分實驗中,筆者發(fā)現(xiàn)“智能導航”通常按照主題內(nèi)容和學科分類,但是沒有按照地區(qū)、來源、人物分類的類目。而“搜索提示”除了通常的主題內(nèi)容和學科類目外,經(jīng)常出現(xiàn)來源、地區(qū)這些通用類目,“報刊/雜志”、“報紙”、“BBS”為經(jīng)常出現(xiàn)的類目,地區(qū)(省、直轄市為單位)也常常出現(xiàn),偶爾還會有以人物為主題的類目。從類目縱深角度看,“搜狗”比“中搜”深度大?！八阉魈崾尽钡念惸繉Ｖ付炔灰?有專指度很高的類目,也有專指度較低的類目,從“相關分類”給出的類目路徑可以看到類目深度大小?！爸兴选彪m然沒有像“搜狗”那樣明確公布的類目體系,但是從類目專指度較“搜狗”低,概念寬泛,而且類目重復率高(不同的檢索詞出現(xiàn)相同的類名),可以推斷“中搜”總的類目數(shù)量較少,類目深度淺。(5)類目與“搜索提示”類目的區(qū)別總體而言,“智能導航”和“搜索提示”給出的類目之間都有重疊、交叉、包含的關系。但是,相對而言,“智能導航”給出的類目概念上的重疊交叉較少,類目之間的關系比較清楚。而“搜索提示”給出的類目概念交叉比較多,常常不能清除辨別類目之間差別。比如輸入“個人理財”,“智能導航”給出的類目中與軟件相關的就只出現(xiàn)類目“軟件”一項,但是“搜索提示”則出現(xiàn)“金融/投資>分析軟件”和“電腦網(wǎng)絡>軟件”,還有其他軟件相關類目。事實上如果把檢索結果限定在個人理財相關,那么上述兩個類目的實際含義是相同的,而且這兩個類下的資源內(nèi)容是一致的。因此,完全沒有必要分成幾個類別,這種含義相近的類別反而給用戶選擇帶來困難。(6)“搜索提示”的類名“智能導航”的類名比較簡短,通常是2到4個中文字符,而且含義明確?！八阉魈崾尽钡念惷麆t比較長,從2到10個中文字符不等,有些還更長,通常以5、6個字符居多,有些類名顯示了部分分類路徑?？傮w來看,“搜索提示”的類名步入“智能導航”明確,易于理解。(7)檢索詞的轉變“智能導航”很穩(wěn)定,在實驗過程中沒有出現(xiàn)同一個檢索詞在不同時間點上出現(xiàn)不同類目的情況。而“搜狗”的“搜索提示”則不然,筆者發(fā)現(xiàn)在不同時間輸入同一個檢索詞,有時會出現(xiàn)不同的類目。在檢索詞的含義沒有變化,檢索返回結果沒有太大變動的情況下,搜索引擎給出的相關類目應該是不變的。類目的不穩(wěn)定性不利于用戶理解“搜索提示”的功能,不利于用戶掌握使用該項功能的技巧。3.2網(wǎng)頁與檢索任務的相關性第二部分實驗是為了考察分類準確度,通過類目下的網(wǎng)頁與類目的相關性來判定。如果類目下的網(wǎng)頁與類目的相關性越高,則分類準確度越高。因為分類是在檢索結果的基礎上進行,如果網(wǎng)頁與檢索需求無關,那么這些網(wǎng)頁分類再準確也無濟于事,因而判定為不相關。在判定與檢索需求的相關性上,部分實驗人員把網(wǎng)頁與檢索需求的相關性看作網(wǎng)頁與檢索任務的相關性,如果網(wǎng)頁不能對檢索任務的完成有所幫助,則判定為不相關。另一部分實驗人員把網(wǎng)頁與檢索需求的相關性看作網(wǎng)頁與檢索詞的相關性。這兩部分人員得出的相關性判斷有很大的差別。實驗中只取類目下的前兩頁網(wǎng)頁進行判斷。實驗結果如表1所示。根據(jù)實驗結果,如果相關性判斷是按照網(wǎng)頁與類目和檢索任務相關進行判斷,那么往往相關網(wǎng)頁會集中到一兩個類目中。這是因為,搜索引擎根據(jù)檢索詞給出相關類目,而檢索詞通常會有多種含義,用戶根據(jù)檢索任務輸入檢索詞時,通常只取其中一個含義。分類類目的一個任務就是要把該檢索詞的多種含義揭示出來,形成多個類目。因而,理論上這些類目中應該只有一兩個與檢索任務相關。這與實驗結果恰好符合。但是上述這種相關性判斷方式用于判斷分類準確性則不然,分類準確性考察的是每個類下網(wǎng)頁與該類的相關性,因而根據(jù)網(wǎng)頁與類目和檢索詞的相關性更恰當,表中第二行數(shù)據(jù)更適合于評價分類準確度。從這個角度看,“智能導航”的分類準確度要高于“搜索提示”。3.3檢索過程主要功能在實驗過程中,筆者要求實驗人員對于“智能導航”和“搜索提示”的使用情況進行記錄。實驗結果表明,這兩項功能的使用情況并不理想。其中有三位實驗人員認為使用上述功能不如直接使用檢索詞方便快捷,因而在檢索過程

人人文庫> 全部分類> 專業(yè)文獻 > 學術論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

論搜索引擎檢索結果的分類

文檔簡介

溫馨提示

最新文檔

評論

論搜索引擎檢索結果的分類

文檔簡介

溫馨提示

最新文檔

評論

相關文檔