文獻(xiàn)檢索第二講-基于搜索引擎的信息檢索20_第1頁
文獻(xiàn)檢索第二講-基于搜索引擎的信息檢索20_第2頁
文獻(xiàn)檢索第二講-基于搜索引擎的信息檢索20_第3頁
文獻(xiàn)檢索第二講-基于搜索引擎的信息檢索20_第4頁
文獻(xiàn)檢索第二講-基于搜索引擎的信息檢索20_第5頁
已閱讀5頁,還剩118頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二講搜索引擎搜索引擎概述搜索器索引器檢索器網(wǎng)頁排序技術(shù)搜索引擎的專門應(yīng)用智能化搜索引擎開源搜索引擎網(wǎng)絡(luò)搜索市場的發(fā)展最初互聯(lián)網(wǎng)上的信息量較少,內(nèi)容較簡單,用戶通過訪問網(wǎng)頁即可獲取信息;隨著網(wǎng)站數(shù)量和類別的增多,用戶對信息的需求更加多樣化,門戶網(wǎng)站成為了用戶的上網(wǎng)入口,它通過分類目錄導(dǎo)航的形式對用戶進(jìn)行分流;隨著網(wǎng)絡(luò)信息爆炸式增長,用戶需求更加具體化和細(xì)分化,搜索引擎開始出現(xiàn),越來越多的用戶利用搜索引擎查找信息。搜索引擎用戶搜索頻率

搜索頻率的變化將在很大程度上顯示網(wǎng)民在網(wǎng)絡(luò)生活中對搜索的依賴程度。搜索引擎作為互聯(lián)網(wǎng)海量信息的主要檢索工具,成為人們獲取信息的重要途徑和入口,用戶粘性較高。中國各搜索品牌的滲透率

用戶使用搜索引擎搜索的內(nèi)容

影視、視頻、游戲搜索的使用需求增長較快,這一現(xiàn)象說明了人們消費(fèi)影視、視頻媒體的習(xí)慣正在快速發(fā)生改變,而音頻、視頻、圖像搜索等成為未來搜索技術(shù)發(fā)展的主流。生活信息、商業(yè)信息、專業(yè)工具、知識信息等相關(guān)價(jià)值型搜索服務(wù)的使用率下降。價(jià)值型搜索相關(guān)的信息內(nèi)容和搜索服務(wù)不到位,信息精準(zhǔn)度無法滿足用戶的使用需求。首選用戶使用的搜索功能

搜索得不到理想結(jié)果時(shí)的

行為選擇

一方面,一次搜索失敗后放棄搜索的用戶減少,用戶對搜索引擎依賴度進(jìn)一步增強(qiáng);另一方面,用戶對搜索引擎的使用嘗試更加多元化,這也為搜索引擎的技術(shù)發(fā)展提出更高的要求。

各首選搜索品牌主要功能的用戶滿意度分析

百度和谷歌相比,谷歌首先首選用戶對其使用的谷歌搜索功能的評價(jià)中,網(wǎng)頁搜索、視頻搜索、地圖搜索的滿意度最高,而音樂搜索和新聞搜索的用戶滿意度評價(jià)低;根據(jù)用戶的使用評價(jià),改進(jìn)技術(shù),提高各項(xiàng)功能的服務(wù)水平,為用戶提供更好的搜索服務(wù)體驗(yàn),是增強(qiáng)用戶粘性,獲得用戶支持的關(guān)鍵。發(fā)展視頻、影視搜索的需求和使用增長快速,人們消費(fèi)影視、視頻媒體的習(xí)慣正在快速發(fā)生改變,未來搜索技術(shù)發(fā)展的重點(diǎn)突破領(lǐng)域之一。生活搜索、專業(yè)工具搜索、知識搜索等領(lǐng)域的信息內(nèi)容和搜索服務(wù)不到位,信息內(nèi)容匱乏無法滿足用戶的使用需求,信息的權(quán)威性、準(zhǔn)確性導(dǎo)致用戶信任基礎(chǔ)的欠缺等,都成為搜索引擎價(jià)值型搜索的阻礙因素。因此,價(jià)值型搜索服務(wù)的數(shù)量和質(zhì)量都有待于進(jìn)一步提高。

搜索引擎的含義狹義:搜索引擎由信息收集軟件、索引數(shù)據(jù)庫和查詢接口三部分組成。即基于某種技術(shù)在整個(gè)網(wǎng)上自動(dòng)執(zhí)行網(wǎng)頁全文搜索的網(wǎng)上指南工具。廣義:搜索引擎是互聯(lián)網(wǎng)上的一類網(wǎng)站,這類網(wǎng)站與一般的網(wǎng)站不同的是它是提供查詢、搜索的網(wǎng)站,或稱查詢站點(diǎn)、導(dǎo)航站點(diǎn),即互聯(lián)網(wǎng)上具有檢索功能的網(wǎng)頁。搜索引擎:是以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。搜索引擎的種類搜索引擎分為兩種:分類目錄型:將信息資源形成目錄一樣的分類結(jié)構(gòu)目錄,用戶通過逐級瀏覽目錄來找尋信息基于關(guān)鍵詞:用戶可以用邏輯組合的方式輸入各種關(guān)鍵詞進(jìn)行檢索,搜索引擎反饋給用戶的是網(wǎng)址鏈接發(fā)展趨勢:基于關(guān)鍵字的檢索為主、分類目錄型檢索為輔。搜索引擎的原理從互聯(lián)網(wǎng)上抓取網(wǎng)頁建立索引數(shù)據(jù)庫在索引數(shù)據(jù)庫中搜索排序搜索引擎與全文檢索的區(qū)別數(shù)據(jù)量:搜索引擎的數(shù)據(jù)量為幾十億網(wǎng)頁內(nèi)容相關(guān)性:搜索引擎根據(jù)網(wǎng)頁被鏈接次數(shù)作為重要性評判標(biāo)準(zhǔn)安全性:搜索引擎的數(shù)據(jù)都是網(wǎng)上的公開信息個(gè)性化和智能化:搜索引擎數(shù)據(jù)量和客戶量巨大,且技術(shù)難點(diǎn)多,在智能化和個(gè)性化方面發(fā)展難度大搜索引擎的分類機(jī)器人搜索引擎目錄式搜索引擎元搜索引擎機(jī)器人搜索引擎也叫全文搜索引擎通過自動(dòng)搜索工具網(wǎng)絡(luò)蜘蛛-spider采集網(wǎng)頁,并提取網(wǎng)頁信息(以網(wǎng)頁文字為主),存儲在數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按照一定的排列順序?qū)⒔Y(jié)果返回給用戶分為兩種擁有自己的檢索程序租用其他引擎的數(shù)據(jù)庫功能

多樣的范圍限制功能“類似網(wǎng)頁”檢索功能“手氣不錯(cuò)”檢索功能檢索詞糾錯(cuò)功能

可以支持HTML及13種非HTML文件的搜索,如PDF、DOC、PPT、XLS、RTF、SWF、PS等。提供博客搜索;地圖搜索;生活搜索;圖片搜索;圖書搜索;網(wǎng)頁搜索;學(xué)術(shù)搜索;手機(jī)服務(wù);翻譯;資源共享、實(shí)驗(yàn)室等服務(wù)。特色

檢索途徑有網(wǎng)頁、mp3、地圖、視頻、圖片、百度知道、博客、教育網(wǎng)站、政府網(wǎng)站、統(tǒng)計(jì)數(shù)據(jù)、專利等,提供基本檢索和高級檢索兩種檢索方式,支持布爾關(guān)系“或”(用“|”表示)、“非”(用“—”表示),可將檢索范圍限制在指定的網(wǎng)站、標(biāo)題、URL和文檔類型。此外,高級檢索可以定義要搜索網(wǎng)頁的時(shí)間、地區(qū)、語言、關(guān)鍵詞出現(xiàn)的位置以及關(guān)鍵詞之間的邏輯關(guān)系等。另外,百度還提供手機(jī)搜索、硬盤搜索、hao123等服務(wù)。目錄式搜索引擎其數(shù)據(jù)庫依靠專職編輯或志愿人員建立起來。用戶界面基本上都是分級結(jié)構(gòu)。目錄式搜索引擎只在已保存的站點(diǎn)的描述中進(jìn)行搜索,因此站點(diǎn)本身的動(dòng)態(tài)變化不會反映到搜索結(jié)果中去。優(yōu)點(diǎn):結(jié)果更具有參考價(jià)值缺點(diǎn):成本較高、信息涵蓋量不大、更新能力有限元搜索引擎本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫,只是一種搜索引擎代理。優(yōu)點(diǎn):實(shí)現(xiàn)起來比較簡單局限性:只能訪問少數(shù)幾個(gè)搜索引擎通常不支持這些搜索引擎的高級檢索功能處理邏輯查詢時(shí)常常會出現(xiàn)錯(cuò)誤最早的多元搜索引擎之一,最初由華盛頓大學(xué)創(chuàng)建,現(xiàn)屬于Go2Net網(wǎng)絡(luò)公司。能自動(dòng)使用單個(gè)檢索工具檢索,然后將檢索結(jié)果匯集起來,去重后顯示給用戶不同類型搜索引擎比較目錄式搜索引擎雖有成本高、信息量少的缺點(diǎn),但它的信息準(zhǔn)確這一優(yōu)點(diǎn)是另兩者無法比擬的,故在一定的領(lǐng)域,一定的時(shí)間,它仍會被使用機(jī)器人搜索引擎是當(dāng)前各種搜索引擎的主流。隨著網(wǎng)絡(luò)信息量的不斷增加,結(jié)合目錄式搜索引擎、機(jī)器人搜索引擎的優(yōu)勢,以元搜索引擎核心的多層代理搜索引擎是搜索引擎的發(fā)展方向。搜索引擎的功能收集信息,建立索引數(shù)據(jù)庫,自動(dòng)跟蹤信息源變動(dòng),更新索引記錄,維護(hù)數(shù)據(jù)庫。提供網(wǎng)絡(luò)的導(dǎo)航與檢索服務(wù)。

提供多種信息服務(wù)。

搜索引擎搜索引擎系統(tǒng)結(jié)構(gòu)URL服務(wù)器爬行器存儲服務(wù)器URL解析器索引器錨庫資源庫桶桶桶桶標(biāo)引器分類器詞典庫鏈接庫頁級別評定器查詢器搜索引擎的組成1搜索器:在互聯(lián)網(wǎng)中發(fā)現(xiàn)和搜集信息索引器:理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表檢索器:根據(jù)用戶輸入的查詢關(guān)鍵字在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價(jià),對將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制搜索引擎的組成2用戶接口:接收用戶輸入的查詢字段、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制結(jié)果存放:只將所有結(jié)果中匹配度最高的頭100條結(jié)果的ID放到結(jié)果集緩存中并返回日志模塊:用于跟蹤用戶行為,以提高搜索引擎的服務(wù)質(zhì)量eg.查詢分布統(tǒng)計(jì)搜索引擎工作步驟Robot從起始URL列表中取出URL并從網(wǎng)上讀取其內(nèi)容從每一個(gè)文檔中提取某些信息并放入索引數(shù)據(jù)庫中從文檔中提取指向其他文檔的URL,并加入到URL列表中重復(fù)上述3個(gè)步驟,直到再沒有新的URL發(fā)現(xiàn)或超出了某些限制給索引數(shù)據(jù)庫加上查詢接口,向網(wǎng)上用戶發(fā)布搜索引擎檢索流程分析索引關(guān)鍵詞關(guān)鍵詞轉(zhuǎn)換成wordID查找標(biāo)引庫得到docID列表遍歷文檔列表計(jì)算文檔等級結(jié)果按相關(guān)度排序組織結(jié)果返回找到一遍文檔列表末尾?YYNN搜索引擎的數(shù)據(jù)存儲頁面數(shù)據(jù)數(shù)目非常多、大小變化很大、更新周期通常以天為單位索引數(shù)據(jù)數(shù)目相對小、大小變化非常大、更新周期與頁面數(shù)據(jù)類似URL數(shù)據(jù)數(shù)目非常大、大小變化不大、更新非??烊N數(shù)據(jù)都可以用數(shù)據(jù)庫或自建文件來存儲搜索引擎技術(shù)的發(fā)展趨勢十分注意提高信息查詢結(jié)果的精度,提高檢索的有效性基于智能代理的信息過濾和個(gè)性化服務(wù)重視交叉語言檢索的研究和開發(fā)多媒體搜索引擎專業(yè)化搜索引擎注重用戶個(gè)性化搜索器Robot執(zhí)行過程Robot站點(diǎn)爬行Robot尋找網(wǎng)頁的算法內(nèi)容提取搜索器Robot作為一個(gè)程序可以用多種語言編寫,可以運(yùn)行在多個(gè)環(huán)境下。Robot設(shè)計(jì)時(shí)應(yīng)注意的問題:Robot程序設(shè)計(jì)是否合理將直接影響它訪問Web的效率,影響搜索數(shù)據(jù)庫的質(zhì)量在設(shè)計(jì)Robot程序時(shí)還必須考慮它對網(wǎng)站和被訪問站點(diǎn)的影響Robot程序還應(yīng)遵守一些協(xié)議錨文本鏈接文本即錨文本。錨文本的作用可以作為錨文本所在的頁面的內(nèi)容的評估eg.服裝行業(yè)網(wǎng)站上會增加一些同行網(wǎng)站的鏈接或者一些做服裝的知名企業(yè)的鏈接能作為對所指向頁面的評估eg.能精確描述所指向頁面的內(nèi)容可以收集一些搜索引擎不能索引的文件eg.網(wǎng)站上增加一張XX的照片,格式為jpg,搜索引擎無法索引,若這張照片鏈接的錨文本為“XX的照片”,那么搜索引擎就能識別該照片了頁面版式版式:<title>新浪首頁</title><metaname="description"content="新浪網(wǎng)為全球用戶24小時(shí)提供全面及時(shí)的中文資訊,內(nèi)容覆蓋國內(nèi)外突發(fā)新聞事件、體壇賽事、娛樂時(shí)尚、產(chǎn)業(yè)資訊、實(shí)用信息等,設(shè)有新聞、體育、娛樂、財(cái)經(jīng)、科技、房產(chǎn)、汽車等30多個(gè)內(nèi)容頻道,同時(shí)開設(shè)博客、視頻、論壇等自由互動(dòng)交流空間。"/>合理的利用網(wǎng)頁的頁面版式會提升網(wǎng)頁在搜索結(jié)果頁的排序位置。搜索引擎盈利模式發(fā)展第一階段(1994-1997):將網(wǎng)站免費(fèi)提交到主要搜索引擎,企業(yè)通過META標(biāo)簽優(yōu)化設(shè)計(jì)獲得比較靠前的排名。第二階段(1998-2000):技術(shù)型搜索引擎的崛起引發(fā)的搜索引擎優(yōu)化策略,這種營銷方式仍以免費(fèi)為主。第三階段(2001-2003):搜索引擎營銷從免費(fèi)向付費(fèi)模式轉(zhuǎn)變,購買關(guān)鍵詞廣告出現(xiàn)在這個(gè)階段。第四階段(2003-至今):從關(guān)鍵詞定位到網(wǎng)頁內(nèi)容定位的搜索引擎營銷方式。搜索引擎盈利模式技術(shù)盈利搜索引擎通過技術(shù)授權(quán)的模式進(jìn)行盈利搜索引擎可通過為各種公司、企業(yè)、門戶網(wǎng)站以及政府機(jī)構(gòu)和部門提供功能強(qiáng)大的搜索引擎服務(wù),收取技術(shù)授權(quán)使用費(fèi)收費(fèi)排名搜索引擎的盈利模式,包括固定排名競價(jià)排名混合排名收費(fèi)排名已經(jīng)最直接影響到了排序的公正性競價(jià)排名按點(diǎn)擊付費(fèi),廣告出現(xiàn)在搜索結(jié)果中,如果沒有被用戶點(diǎn)擊,不收取廣告費(fèi)。在同一關(guān)鍵詞的廣告中,支付每次點(diǎn)擊價(jià)格最高的廣告排列在第一位,其他位置同樣按照廣告主自己設(shè)定的廣告點(diǎn)擊價(jià)格來決定廣告的排名位置。2001年10月百度在中國推出這種競價(jià)排名的競價(jià)模式。固定排名一次性投入費(fèi)用高靈活性差混合排名是競價(jià)排名和固定排名的混合型排名阿里巴巴的“網(wǎng)銷寶”屬競價(jià)排名,適用于想提升產(chǎn)品曝光量的中小企業(yè);“黃金展位”屬固定排名,按年付費(fèi),適合為打造企業(yè)品牌、產(chǎn)品品牌的中小企業(yè);“如影隨形”也屬于固定排名,按時(shí)長付費(fèi),適合于有營銷活動(dòng)推廣需求的中小企業(yè)加盟盈利搜索引擎為聯(lián)盟網(wǎng)站免費(fèi)提供搜索引擎和來自搜索的收入。例如GoogleAdsense可以提供與網(wǎng)站主網(wǎng)站內(nèi)容相匹配的廣告,而網(wǎng)站主可以在訪問者點(diǎn)擊這些廣告時(shí)獲得收益,即Google與網(wǎng)站主一起分享客戶的廣告?zhèn)蚪?,就是期望以會員的形式吸引更多的網(wǎng)站加盟Google廣告發(fā)布平臺。百度主題推廣和阿里媽媽都是這種盈利模式。個(gè)性化服務(wù)盈利如Google對電子圖書下載收費(fèi)2005年,百度曾推出過實(shí)現(xiàn)包月收費(fèi)方式的影視搜索服務(wù),以及在七夕節(jié)前推出的供網(wǎng)民傳遞祝福的收費(fèi)產(chǎn)品——百度傳情。今后可能會在精確搜索、虛擬社區(qū)、內(nèi)容發(fā)掘、信息推送等項(xiàng)目上實(shí)行收費(fèi)服務(wù)SEOSEO:針對搜索引擎排序技術(shù),通過修改網(wǎng)頁結(jié)構(gòu)和主動(dòng)增加網(wǎng)站鏈接等方法來讓搜索引擎認(rèn)為這些網(wǎng)頁是很重要的,從而提升網(wǎng)頁在搜索引擎結(jié)果中的排序。SEO是技術(shù)手段,更是網(wǎng)站推廣的一部分,是針對網(wǎng)絡(luò)的傳播方式,把目標(biāo)內(nèi)容傳遞給目標(biāo)受眾的一種途徑。中國搜索用戶的特征SEO中的8個(gè)要素排序技術(shù)的不足沒有真正解決相關(guān)性治本的方法是增加語意理解搜索結(jié)果的單一化對搜索結(jié)果做個(gè)性化分析搜索引擎的專門應(yīng)用

垂直搜索:針對某一個(gè)行業(yè)的專業(yè)搜索引擎,是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,它通過定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。垂直搜索的特點(diǎn)垂直搜索技術(shù)主題搜索的幾種形式個(gè)性化搜索垂直搜索的內(nèi)容1垂直搜索引擎提供的主要內(nèi)容不僅包括普通的網(wǎng)頁索引,還包括商業(yè)信息的加工、結(jié)構(gòu)化的信息。垂直搜索引擎與普通搜索引擎的區(qū)別在于:對網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化信息抽取,將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù)。垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。垂直搜索的內(nèi)容2垂直搜索的內(nèi)容:門戶網(wǎng)站自身的資源以開放接口方式讓行業(yè)用戶提供的資源普通用戶發(fā)布的資源抓取行業(yè)用戶的資源熱門的垂直搜索行業(yè)購物、旅游、汽車、工作、房產(chǎn)、交友等垂直搜索的特點(diǎn)結(jié)構(gòu)化的搜索和非結(jié)構(gòu)化搜索并用提供了一種廣告模式抓取的數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)搜索行為是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的結(jié)構(gòu)化搜索搜索結(jié)果及時(shí)、覆蓋整個(gè)行業(yè),相關(guān)性要高于通用搜索引擎設(shè)計(jì)時(shí)要提供收集用戶數(shù)據(jù)的接口,同時(shí)提供tag、積分等機(jī)制,使搜索結(jié)果更加“垂直”目標(biāo)是幫助用戶解決問題本質(zhì)上是對垂直門戶信息提供方式的一次簡化性的整合數(shù)據(jù)來源于;;等數(shù)據(jù)來源于;等股票站點(diǎn)網(wǎng)站上所有的垂直搜索引擎都是通過人工審核后發(fā)布的包括生活搜索、娛樂搜索、行業(yè)搜索、學(xué)術(shù)搜索、網(wǎng)絡(luò)資源搜索、本地搜索、其他特殊資源搜索垂直搜索引擎的特點(diǎn)垂直搜索引擎的特點(diǎn)是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎更加專注、具體、深入。垂直搜索引擎和通用搜索引擎的定位、內(nèi)容、用戶、市場策略等都不相同。垂直搜索引擎也是通過關(guān)鍵字進(jìn)行搜索,但是被放到了一個(gè)行業(yè)知識的上下文中,返回的結(jié)果更傾向于信息、消息、條目等。垂直搜索技術(shù)分為兩個(gè)層次:模板級和網(wǎng)頁庫級模板級:針對網(wǎng)頁進(jìn)行模板設(shè)定或者自動(dòng)生成模板的方式抽取數(shù)據(jù),對網(wǎng)頁的采集也是針對性的采集,適合規(guī)模比較小、信息源少且穩(wěn)定的需求。優(yōu)點(diǎn):快速、成本低、靈活性強(qiáng)缺點(diǎn):后期維護(hù)成本高,信息源和信息量小網(wǎng)頁庫級:在信息源數(shù)量上、數(shù)據(jù)容量上、檢索容量上、穩(wěn)定性可靠性上都是網(wǎng)頁庫搜索引擎級別的要求,和模板方式最大的區(qū)別是對具體網(wǎng)頁不依賴,可針對任意正常的網(wǎng)頁進(jìn)行信息采集、信息抽取,但靈活性差、成本高。兩種方式不是對立的,是相互補(bǔ)充的垂直搜索技術(shù)1信息采集技術(shù):進(jìn)行深度優(yōu)先采集基于視覺網(wǎng)頁塊分析技術(shù):根據(jù)人類視覺原理,把網(wǎng)頁解析處理的結(jié)果進(jìn)行分塊,再根據(jù)需要對這些塊進(jìn)行處理結(jié)構(gòu)化信息抽取技術(shù):該技術(shù)水平是決定垂直搜索引擎質(zhì)量的重要技術(shù)指標(biāo)。對結(jié)構(gòu)化信息的抽取包括網(wǎng)頁的元數(shù)據(jù)(標(biāo)題、作者、時(shí)間等)和內(nèi)容中的結(jié)構(gòu)化信息(人名、地名、組織機(jī)構(gòu)名、電話號碼等)垂直搜索技術(shù)2簡單的語法分析信息處理技術(shù):重復(fù)識別、聚類、比較等數(shù)據(jù)挖掘:找出信息的關(guān)聯(lián)性分詞技術(shù):建立和行業(yè)相關(guān)的詞庫索引技術(shù):分布式索引技術(shù)評估:應(yīng)從全面性、更新性、準(zhǔn)確性、功能性等幾方面來判斷國內(nèi)八大垂直搜索引擎優(yōu)秀的垂直搜索引擎電子商務(wù)搜索引擎/亨者搜索餐飲搜索引擎/咕嘟媽咪旅行搜索引擎/去哪兒求職搜索引擎/搜職網(wǎng)論壇搜索引擎/奇虎論壇搜索引擎/大旗

主題搜索的幾種形式

主題搜索:指利用某種技術(shù)或工具,在Web上發(fā)現(xiàn)并獲取與某個(gè)主題相關(guān)的資源的過程。手工搜索方式半自動(dòng)方式通用爬行器方式主題爬行器方式元搜索方式手工搜索方式資源采集者與用戶交流得到用戶需要的概念領(lǐng)域并選擇恰當(dāng)?shù)年P(guān)鍵詞通過用戶提供的概念領(lǐng)域,下載搜索引擎目錄下的相關(guān)主題資源,同時(shí),向搜索引擎提供關(guān)鍵詞匯總兩方面采集的資源,并將專家和用戶推薦的資源匯總資源采集者對結(jié)果進(jìn)行評價(jià)反饋給用戶根據(jù)滿足度確定是結(jié)束任務(wù)還是修正檢索策略,開始新的采集匯總半自動(dòng)方式用戶交互選擇恰當(dāng)?shù)年P(guān)鍵詞自動(dòng)采集相關(guān)資源形成主題資源數(shù)據(jù)庫資源建設(shè)者對結(jié)果評價(jià)選擇結(jié)果反饋給用戶結(jié)束任務(wù)或修正檢索式以開始新一輪的采集通用爬行器方式通用爬行器綜合頁面數(shù)據(jù)庫主題識別和分類各類主題數(shù)據(jù)庫通用爬行器技術(shù)難度大,對軟硬件要求高,建設(shè)和維護(hù)成本高,除了大型搜索引擎的目錄系統(tǒng)使用該方式外,一般主題資源建設(shè)不適合采取這種方式主題爬行器方式主題爬行器:只爬行與主題相關(guān)的網(wǎng)頁主題頁面數(shù)據(jù)庫主題識別和分類各類主題數(shù)據(jù)庫目前該方式多用于垂直信息門戶的主題資源建設(shè)元搜索方式利用分類表作為關(guān)鍵詞,向多個(gè)大型搜索引擎提交將每個(gè)搜索引擎的前若干個(gè)結(jié)果的并集作為搜索的原始結(jié)果對結(jié)果進(jìn)行評價(jià)和反饋元搜索引擎方式的結(jié)果好壞,取決于主題對該方法的適應(yīng)性,取決于單個(gè)搜索引擎的檢索結(jié)果個(gè)性化搜索實(shí)現(xiàn)搜索引擎的個(gè)性化必須通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為。用戶興趣信息的存放方案將用戶的興趣信息存放在搜索引擎服務(wù)器上將用戶的興趣信息存放在用戶的機(jī)器上存放在其他服務(wù)器上搜索引擎?zhèn)€性化研究各大搜索引擎紛紛采用各種新技術(shù)為用戶查詢提供更多的選擇信息:提供文檔類別分層或搜索結(jié)果聚類元搜索引擎和分布式信息檢索模型:通過選擇合適的數(shù)據(jù)來源以及合理組織搜索結(jié)果來提高搜索準(zhǔn)確度信息過濾技術(shù):構(gòu)建userprofile,并利用其向用戶推薦文檔個(gè)性化搜索技術(shù):利用userprofile優(yōu)化用戶查詢傳統(tǒng)搜索引擎技術(shù)的局限性文海撈針信息丟失“忠實(shí)表達(dá)”的問題:用戶表達(dá)困難“表達(dá)差異”的問題:統(tǒng)一概念的不同表達(dá)形式“詞匯孤島”的問題:無法獲得與概念相關(guān)的信息“機(jī)械式匹配”的問題:只關(guān)注字形而非字意傳統(tǒng)搜索引擎的問題缺乏對知識的處理能力和理解知識的能力不能對用戶查詢進(jìn)行詞意分析、擴(kuò)展定義的關(guān)鍵字與文檔的相關(guān)度存在很大的模糊性與不確定性:即使檢索出用戶所需文檔也未必能放在最前面智能化搜索引擎的原理智能化搜索引擎方式在形式上可以采用“以網(wǎng)對網(wǎng)”的二級映射模式,即關(guān)鍵字-知識庫-因特網(wǎng)映射模式。在實(shí)現(xiàn)上采用多級智能化搜索代理體系代替現(xiàn)在的單一搜索。二級映射模式能夠提供比全文檢索更為智能化、知識化的服務(wù)。智能化搜索引擎的根本原理在于擁有比全文檢索更為豐富的知識庫和能較好地進(jìn)行文檔相關(guān)度排序的多級搜索代理。智能化搜索引擎的特征網(wǎng)絡(luò)蜘蛛的智能化為特定用戶提供相關(guān)信息搜索引擎人機(jī)接口的智能化網(wǎng)絡(luò)蜘蛛的智能化網(wǎng)絡(luò)蜘蛛通過啟發(fā)式學(xué)習(xí)采取最有效的搜索策略,選擇最佳時(shí)機(jī)獲取從因特網(wǎng)上自動(dòng)收集、整理的信息。智能搜索引擎還應(yīng)具有跨平臺工作和處理多種混合文檔結(jié)構(gòu)的能力。智能搜索引擎還應(yīng)具有高召回率和準(zhǔn)確率。智能搜索引擎應(yīng)該可以支持多語言搜索。為特定用戶提供相關(guān)信息智能搜索引擎能通過觀察用戶的行為,了解用戶的興趣愛好,另外能通過不斷的訓(xùn)練學(xué)習(xí)增長智能。智能搜索引擎可以根據(jù)用戶的評價(jià)調(diào)整自己的行為。智能搜索引擎還能對搜索結(jié)果進(jìn)行合理的解釋。智能搜索引擎還應(yīng)具有主動(dòng)性,即信息推送能力。人機(jī)接口的智能化智能搜索引擎可以通過自然語言和用戶交互。智能搜索引擎通過漢語分詞、句法分析以及統(tǒng)計(jì)理論有效地理解用戶的請求。智能化搜索引擎的技術(shù)漢語分詞技術(shù):利用語料庫有效排除歧義短語識別:用短語描述查詢請求處理同義詞:人工構(gòu)造同義詞表或從語料庫中自動(dòng)取得同義詞關(guān)系文檔信息壓縮:用矩陣分解技術(shù)進(jìn)行文檔壓縮智能化搜索引擎的實(shí)現(xiàn)技術(shù)Innernet網(wǎng)的建立對漢語詞語進(jìn)行正確的切分自動(dòng)文摘的生成檢索結(jié)果的排序智能化多級智能檢索代理的實(shí)現(xiàn)Innernet網(wǎng)的建立Innernet網(wǎng):由一個(gè)或多個(gè)相關(guān)的詞典組成的反映人的知識網(wǎng)絡(luò)及相關(guān)工具的系統(tǒng)。詞典的建立詞典維護(hù)工具語意分析器的建立關(guān)鍵字分析器詞典的建立同義詞典、上位詞典、下位詞典、派生詞典都按統(tǒng)一方式建立,將詞羅列出來即可。在建立詞典的時(shí)候,為了提高查找詞的速度,一般對詞典按漢語拼音順序和首字索引結(jié)構(gòu)進(jìn)行組織。詞典維護(hù)工具詞典生成工具:根據(jù)所定義的源文件生成所需要的詞典詞典導(dǎo)出工具:將詞典里的內(nèi)容,按預(yù)定的格式導(dǎo)出到指定的源文件中,導(dǎo)出的源文件與生成詞典時(shí)所定義的源文件是一樣的。詞典連接工具:把生成的用戶詞典連接到相應(yīng)的系統(tǒng)詞典上去,從而使二者成為一個(gè)整體。語意分析器的建立語意分析器:由一個(gè)個(gè)詞及對這些詞按一定的規(guī)則所建立的索引兩部分組成。從形式上來說,它由系統(tǒng)部分和用戶部分組成。系統(tǒng)部分:用于定義穩(wěn)定的、適合于各個(gè)領(lǐng)域的語意分析。用戶部分:用于定義適合一段時(shí)間的或適合于某一個(gè)領(lǐng)域的語意分析。類名排序詞表排序關(guān)鍵字分析器找出輸入關(guān)鍵詞中的主關(guān)鍵詞分析修飾詞,確定修飾詞是否應(yīng)該拋棄對主關(guān)鍵詞作進(jìn)一步處理:找同義詞、派生詞、同名詞等對修飾詞作進(jìn)一步處理得到語意分析后的詞語意擴(kuò)展索引庫的建立漢語切分在建立檢索項(xiàng)時(shí)完成,切分出的檢索項(xiàng)以倒排文件的形式添加到索引庫中。分級檢索代理檢索代理系統(tǒng)負(fù)責(zé)檢索請求的獲取、分發(fā),對檢索結(jié)果進(jìn)行合并、排序處理。系統(tǒng)的檢索代理體系根據(jù)各個(gè)代理的繁忙情況來確定各自的負(fù)載,并自動(dòng)地進(jìn)行負(fù)載調(diào)節(jié)與檢索任務(wù)的分配,因此它是一種分布式的負(fù)載均衡的結(jié)構(gòu)。分級檢索代理不僅提高了檢索系統(tǒng)的覆蓋范圍,也提高了系統(tǒng)的檢索性能。搜索器的實(shí)現(xiàn)打開搜索結(jié)果集讀取搜索結(jié)果并排序釋放系統(tǒng)資源自動(dòng)文摘的生成1機(jī)械式文摘三個(gè)關(guān)鍵技術(shù):統(tǒng)計(jì)文獻(xiàn)中主題詞的詞頻計(jì)算句子權(quán)值,選擇值最高的若干句子為候選文摘句排序、潤色候選文摘句,形成文摘適用于非受限領(lǐng)域,符合當(dāng)前自然語言處理技術(shù)的趨勢局限于文本的表層結(jié)構(gòu),很難做到全面、簡潔、連貫自動(dòng)文摘的生成2基于理解的文摘該方法不僅利用語言學(xué)知識獲取語言結(jié)構(gòu),更利用領(lǐng)域知識對文本進(jìn)行全面的判斷、推理,得到文本的意義表示,最后生成文摘通過犧牲領(lǐng)域?qū)挾?,換取理解深度自動(dòng)文摘的生成3復(fù)合式文摘首先根據(jù)統(tǒng)計(jì)信息挑出候選文摘句,再利用自然語言理解技術(shù)對其進(jìn)行處理,生成文摘大大減輕了分析全文的負(fù)擔(dān)生成的文摘缺少信息,未擺脫領(lǐng)域受限自動(dòng)文摘的生成4自動(dòng)摘錄用對文本篇章結(jié)構(gòu)的分析代替文本的語義分析,從而對文章達(dá)到在一個(gè)較深層次上的理解自動(dòng)摘錄將文本視為句子的線性序列,將句子視為詞的線性序列計(jì)算詞的權(quán)值計(jì)算句子的權(quán)值對文中句子按權(quán)值高低降序排列,權(quán)值高的若干句子被定為文摘句將所有文摘句按照它們在原文中的出現(xiàn)順序輸出檢索結(jié)果的相關(guān)性問題1從系統(tǒng)角度看,相關(guān)性指檢索系統(tǒng)檢出的文檔的主題與用戶的信息需求相匹配。在文檔本身固有的特征信息與用戶提交的查詢表達(dá)式中固有的特征信息之間進(jìn)行比較在從文檔中抽取的“主題詞”與用戶查詢表達(dá)式中體現(xiàn)的“關(guān)鍵字”之間做比較該理解置用戶于被動(dòng)地位,研究重心為系統(tǒng)優(yōu)點(diǎn):比較簡單、易于操作、可以直接觀察問題文檔中抽出的“主題詞”與文檔之間的“相關(guān)度”是否準(zhǔn)確“相關(guān)度”大小的定義與用戶判斷是否一致檢索結(jié)果的相關(guān)性問題2從用戶角度看,相關(guān)性指文檔所含信息與用戶需求信息兩者的概念之間的匹配。更好地描述用戶對關(guān)鍵字和文檔之間的相關(guān)性,使之能比較準(zhǔn)確地反映大多數(shù)用戶的判斷用系統(tǒng)準(zhǔn)確地實(shí)現(xiàn)這種表示多級檢索代理現(xiàn)在的搜索引擎幾乎都采用多級檢索代理結(jié)構(gòu),在每一個(gè)檢索代理搜索出自己的結(jié)果后,首先根據(jù)其主題詞相關(guān)度大于預(yù)先設(shè)定的閾值,分成與摘要相關(guān)和與摘要無關(guān)兩個(gè)部分,然后再將搜索結(jié)果分成兩個(gè)批次提交到上一級,直至用戶界面級。用戶界面顯示搜索結(jié)果的原則剔除相同的搜索結(jié)果與摘要相關(guān)的搜索結(jié)果優(yōu)于與摘要無關(guān)的搜索結(jié)果當(dāng)搜索結(jié)果的相關(guān)度相同時(shí),將用分級代理優(yōu)先算法來確定其排列順序。分級代理優(yōu)先算法分級代理優(yōu)先算法是根據(jù)以往的搜索結(jié)果被用戶命中的概率來決定文檔的排列順序。搜索結(jié)果的排序是以文檔摘要為基準(zhǔn)、主題詞在文檔中出現(xiàn)的概率為輔,同時(shí)還參考了以往的被命中的統(tǒng)計(jì)結(jié)果,從而能夠比較準(zhǔn)確地將用戶最需要的結(jié)果排在最前面。Agent的起源20世紀(jì)70年代起源于人工智能的領(lǐng)域20世紀(jì)80年代開始研究Minsky在1986年出版的《思維的社會》一書中提出了Agent,認(rèn)為社會中的某些個(gè)體經(jīng)過協(xié)商之后可求得問題的解,這些個(gè)體就是Agent,Agent應(yīng)具有社會交互性和智能性。20世紀(jì)90年代中期才得到廣泛的認(rèn)同Agent的發(fā)展國際上有關(guān)Agent的研究可以分兩個(gè)時(shí)期1977-1990年,主要集中于智能Agent研究1990年以后,有關(guān)Agent的研究和應(yīng)用更廣泛,并出現(xiàn)了一系列達(dá)到實(shí)用的系統(tǒng)1993年首次召開Agent形式化模型的國際會議;AOP概念被提出(面向Agent編程)1994年Agent軟件被美國GeneralMagic公司公開Agent的概念弱定義:一般用以說明一個(gè)具有自主能力、社交能力、反應(yīng)能力、預(yù)動(dòng)能力的軟硬件系統(tǒng)。強(qiáng)定義:一種實(shí)體可以被看成由許多心智狀態(tài)(如知識、信念、意圖等)所組成,還具有流動(dòng)性、真實(shí)性、仁慈性、合理性等。一般意義:代理用戶去處理各種各樣的事物的軟件。Agent的特性交互性:與用戶交互和與其他Agent交互自主性:運(yùn)行時(shí)不直接受他人控制,對自己的行為與內(nèi)部狀態(tài)有一定的控制力適應(yīng)性:能適應(yīng)動(dòng)態(tài)網(wǎng)絡(luò)、調(diào)整自身規(guī)程目的性:為達(dá)到某種目的,根據(jù)自身的行為規(guī)則主動(dòng)采取一系列行動(dòng),直至達(dá)到目的連續(xù)性:能夠連續(xù)執(zhí)行機(jī)動(dòng)性:可以在網(wǎng)絡(luò)上靈活機(jī)動(dòng)地訪問各種資源和服務(wù),甚

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論