版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Web信息檢索,搜索引擎的應(yīng)用現(xiàn)狀,從用戶使用的角度,國(guó)外的調(diào)查發(fā)現(xiàn): 網(wǎng)上搜索信息的人很少考慮如何找到他們所需要的信息,因此搜索信息時(shí)象動(dòng)物獵食般盲目; 只有18%的用戶表示總能在網(wǎng)上搜索到需要的信息。68%的用戶說他們對(duì)搜索引擎很失望; 平均每個(gè)搜搜者在12分鐘的徒勞搜索后就感到惱火和受挫。 46%的人只會(huì)用同一個(gè)關(guān)鍵詞搜啊搜啊,而且是在同一個(gè)搜索引擎。,國(guó)外的應(yīng)用狀況,那些每周平均花5個(gè)小時(shí)以上時(shí)間上網(wǎng)的人,將其上網(wǎng)時(shí)間的71%都花在了搜索引擎上; 人機(jī)界面高手nielsen(google的設(shè)計(jì)者)研究表明: 略超過1/2的互聯(lián)網(wǎng)用戶屬于search-dominant, 約1/5用戶屬于
2、 link-dominant, 其它用戶的搜索傾向?qū)儆诨旌闲袨樾汀?search- dominant在到達(dá)一個(gè)網(wǎng)站后直接就奔向搜索按鈕,他們對(duì)瀏覽網(wǎng)站不感興趣,他們有明確的目的,傾向于以最快速度找到信息。 相反,link-dominant喜歡點(diǎn)擊瀏覽一個(gè)網(wǎng)站,即使他們想找特殊信息時(shí)也是這樣,只有在他們用點(diǎn)擊超鏈的方法已經(jīng)實(shí)在找不到了,才會(huì)想起搜索按鈕。,國(guó)內(nèi)的應(yīng)用狀況,國(guó)內(nèi)的調(diào)查發(fā)現(xiàn): cnnic2004年1月的調(diào)查: 61.6%的中國(guó)互聯(lián)網(wǎng)用戶經(jīng)常使用搜索引擎(僅次于E-mail)。 83.4%的中國(guó)互聯(lián)網(wǎng)用戶得知新網(wǎng)站的主要途徑是搜索引擎。 賽迪咨詢的搜索引擎調(diào)查:截止2000年8月,92
3、.9%的網(wǎng)民使用過搜索引擎,同時(shí)有六成左右的網(wǎng)民將搜索引擎列為經(jīng)常使用的網(wǎng)絡(luò)服務(wù)。 新浪搜索的統(tǒng)計(jì)表明:第1條搜索結(jié)果獲得的點(diǎn)擊量,是第2頁(yè)第1條的150倍。,信息檢索工具及其分類,1.目錄型檢索工具 由信息管理專業(yè)人員廣泛搜集網(wǎng)絡(luò)資源,并進(jìn)行加工整理的基礎(chǔ)上,按照某種主題分類體系編制的一種可供檢索的等級(jí)結(jié)構(gòu)式目錄。典型:yahoo!搜狐 2.搜索引擎 使用自動(dòng)檢索軟件來發(fā)現(xiàn)、收集并標(biāo)引網(wǎng)頁(yè),建立數(shù)據(jù)庫(kù),以web頁(yè)形式提供給用戶一個(gè)檢索界面,供用戶輸入關(guān)鍵詞、詞組或短語等檢索項(xiàng),代替用戶在數(shù)據(jù)庫(kù)中查找出與其提問匹配的記錄并返回結(jié)果,且按其相關(guān)度順訊輸出。典型:Google,Baidu,搜索引擎
4、的基本功能,1.一般檢索功能 Boolean(布爾邏輯檢索)+、- Phrase(詞組檢索)“” Truncation(截詞檢索)* ? Fields(字段檢索) 2.特殊檢索功能 自然語言檢索 多語種檢索 區(qū)分大小寫的檢索,值得推薦的幾個(gè)中文搜索引擎,全文搜索 衡量搜索引擎的指標(biāo): 查全率 查準(zhǔn)率 速度 Google: 新浪使用了它的全文搜索引擎服務(wù) 百度: 21CN使用了它的全文搜索引擎服務(wù) 中國(guó)搜索(原來的慧聰搜索) 網(wǎng)易、搜狐、263使用了它的搜索引擎。 北大天網(wǎng): 大量教育網(wǎng)內(nèi)的資源,提供FTP搜索 幾大門戶網(wǎng)站也有自己的搜索引擎,有時(shí)也能發(fā)揮作用。,推薦的搜索引擎,網(wǎng)站分類目錄搜索
5、 新浪:其網(wǎng)站搜索最好 搜狐:網(wǎng)站的分類目錄整理最好,最適合于瀏覽 網(wǎng)易:開放式目錄,有許多網(wǎng)上高手加盟 中文Yahoo 另類:網(wǎng)絡(luò)實(shí)名 新浪圖片搜索: 新視科技:www.VisionN,提供多媒體搜索 找地圖 城市通: 圖行天下: ,使用Google進(jìn)行搜索,Google簡(jiǎn)介 Google是一個(gè)搜索引擎,由兩個(gè)斯坦福大學(xué)博士生Larry Page與Sergey Brin于1998年9月發(fā)明,Google Inc. 于1999年創(chuàng)立。2000年7月份,Google替代Inktomi成為Yahoo公司的搜索引擎,同年9月份,Google成為中國(guó)網(wǎng)易公司的搜索引擎。1998年至今,Google已經(jīng)
6、獲得30多項(xiàng)業(yè)界大獎(jiǎng)。 Google支持多達(dá)132種語言,包括簡(jiǎn)體中文和繁體中文; Google網(wǎng)站只提供搜索引擎功能,沒有花里胡哨的累贅; Google速度極快,據(jù)說有15000多臺(tái)服務(wù)器,200多條T3級(jí)寬帶; Google的專利網(wǎng)頁(yè)級(jí)別技術(shù)PageRank能夠提供高命中率的搜索結(jié)果; Google智能化的“手氣不錯(cuò)”功能,提供可能最符合要求的網(wǎng)站; Google的“網(wǎng)頁(yè)快照”功能,能從GOOGLE服務(wù)器里直接取出緩存的網(wǎng)頁(yè)。,福布斯富豪榜所有排名 1 William Gates (比爾-蓋茨) 2 Warren Buffett(沃倫-巴菲特) 3 Sheldon Adelson(謝爾登-
7、阿德爾森) 4 Lawrence Ellison(勞倫斯-埃里森) 5 Sergey Brin(謝爾蓋-布林) 6 Larry Page(拉里-佩奇) 7 Kirk Kerkorian(柯克-科克萊恩) 8 Michael Dell(邁克爾-戴爾) 9 Charles Koch(查爾斯-科赫) 10 David Koch(戴維-科赫),文本搜索,文本搜索 目前Google已經(jīng)收集索引了40多億張網(wǎng)頁(yè) 使用單個(gè)關(guān)鍵詞進(jìn)行搜索 理解什么是“關(guān)鍵詞”,跟普通意義上的關(guān)鍵詞不同。 想象目標(biāo)網(wǎng)頁(yè)上應(yīng)該有的若干個(gè)詞。 網(wǎng)頁(yè)的排名問題 使用兩個(gè)及兩個(gè)以上關(guān)鍵詞進(jìn)行搜索 直接輸入多個(gè)關(guān)鍵詞,關(guān)鍵詞之間用空格,
8、這樣就表示“AND”關(guān)系; 用減號(hào)“-”表示“非”,用于表示要求搜索結(jié)果不包含某些特定信息; Google的幫助網(wǎng)頁(yè)上說,不支持OR關(guān)系,實(shí)際上是支持得不好; 使用一句話進(jìn)行搜索 加上雙引號(hào)。這在查找名言警句或?qū)S忻~時(shí)顯得格外有用。 Google對(duì)網(wǎng)絡(luò)上常見得英文單詞及一些標(biāo)點(diǎn)符號(hào)作忽略處理,圖象搜索,目前Google可搜索8.8億張圖片,自稱為“因特網(wǎng)上最好用的圖像搜索工具” I或點(diǎn)擊Google主頁(yè)上的“圖象搜索”鏈接。 目前的圖象搜索主要是基于文件名的搜索,不是基于圖象內(nèi)容的。 用法: 關(guān)鍵詞的輸入方法同文字搜索,不過搜索圖象一般不會(huì)用太長(zhǎng)、太復(fù)雜的關(guān)鍵詞。 圖象搜索中,使用英文作關(guān)鍵
9、詞可以搜到許多準(zhǔn)確的結(jié)果,使用中文,效果較差,但有時(shí)Google會(huì)自動(dòng)轉(zhuǎn)換為英文或中文的拼音去搜索(有時(shí)欠穩(wěn)定,其他內(nèi)容的搜索也有此現(xiàn)象)。 可以指定圖片文件的類型:JPG或GIF 如 panda filetype:jpg,搜索特殊格式的文件,目前可搜索的文件格式: DOC、PPT、XLS、RTF、PS、TXT、Lotus文件; PDF格式 最精彩的,可搜索Flash文件: SWF文件 方法: 關(guān)鍵詞 filetype:* 搜索包含關(guān)鍵詞的文檔(但又不盡然)。搜索到后,可點(diǎn)擊打開,也可右鍵快捷菜單用“另存為”。對(duì)于Office文檔,還可以用HTML方式打開,以避免病毒的襲擊。,其他特殊的搜索,
10、搜索的關(guān)鍵詞包含在URL鏈接中 Inurl:mp3 yesterday once more 可用于搜索MIDI、MP3等文件 搜索的關(guān)鍵詞包含在網(wǎng)頁(yè)標(biāo)題中 Intitle:Foshan University 搜索指定的網(wǎng)站范圍 在圖象搜索中,用:Panda site: 搜索有多少鏈接到某個(gè)地址的網(wǎng)頁(yè) Link:,Google的高級(jí)搜索,Google的高級(jí)搜索可實(shí)現(xiàn)前面所說的各種特殊的搜索,免除用戶記憶語法結(jié)構(gòu)。 在Google的網(wǎng)頁(yè)上,點(diǎn)擊“高級(jí)搜索”即可。 推薦大家使用英文版的Google,以及英文版的幫助文檔。,天網(wǎng)的FTP搜索,地址: 缺點(diǎn):死鏈接太多,許多是學(xué)生的服務(wù)器,運(yùn)行不穩(wěn)定 簡(jiǎn)
11、單搜索 輸入要查詢的文件名, 可以包含“*”號(hào)(通配所有字符)、“?”號(hào)(通配一個(gè)字符)、空格(表示幾個(gè)查詢的并)。 按類別搜索文件 點(diǎn)擊“分類搜索”下的各種類型,如“圖像”、“聲音”、“視頻”、“壓縮”、“文檔”、“程序”、“目錄”、“源代碼”,則搜索引擎在指定的類型里搜索文件。比如點(diǎn)擊“圖象”,則在所有的圖象文件里查找與匹配串相符的文件。 使用快捷方式(已經(jīng)做好的分類) 天網(wǎng)搜索引擎為用戶常用的搜索提供了快捷方式,使用起來極為簡(jiǎn)單,直接點(diǎn)擊快捷方式下所要的內(nèi)容即可。,天網(wǎng)FTP,FTP復(fù)雜搜索: 從FTP檢索頁(yè)面里點(diǎn)擊“FTP復(fù)雜選項(xiàng)”進(jìn)入“FTP復(fù)雜搜索”頁(yè)面。在復(fù)雜搜索頁(yè)面里,如果沒有
12、填寫或者沒有選擇,表示使用缺省值。 文件大小過濾: 文件日期過濾: 頁(yè)面顯示個(gè)數(shù): 文件類型: 限定搜索的站點(diǎn)范圍 結(jié)果顯示: 每個(gè)結(jié)果前的圖標(biāo)是該文件的文件類型圖片, 表示“圖像”、“聲音”、“視頻”、“壓縮”、“文檔”、“程序”、“目錄”、“源代碼”或者 表示搜索引擎系統(tǒng)未定義的文件類型; 圖標(biāo)后是文件名,點(diǎn)擊可以打開文件;文件名后是文件的創(chuàng)建時(shí)間和文件的大??; 文件名下方是該文件所在的目錄,點(diǎn)擊可以在新的窗口里打開該目錄。,關(guān)于軟件的搜索,軟件下載網(wǎng)站主要有三類: 大型軟件下載網(wǎng)站 主要提供普通的免費(fèi)和共享軟件。如: 軟件主頁(yè) 一些最新版本的共享軟件以及軟件的補(bǔ)丁,或者軟件公司推出的免費(fèi)
13、軟件。如:Microsfot、Adobe、Lotus等公司的站點(diǎn) 個(gè)人主頁(yè)下載 可以找到正式網(wǎng)站找不到的內(nèi)容。 在教育網(wǎng)內(nèi),許多情況下可以用天網(wǎng)的FTP搜索。 如果用搜索引擎,則選擇關(guān)鍵詞很重要。通??捎靡韵玛P(guān)鍵詞:軟件名 下載 版本 cdkey 軟件大小,使用網(wǎng)絡(luò)實(shí)名,登陸, 為自己的電腦開啟網(wǎng)絡(luò)實(shí)名功能。 “3721網(wǎng)絡(luò)實(shí)名”是新一代的網(wǎng)絡(luò)訪問技術(shù),它具有十大功能,其中智能推測(cè)、拼音使用等功能可以幫助我們搜索那些名稱不確切的網(wǎng)址。 訪問新浪,只要在地址欄打入“新浪”或“xinlang”即可 例如:在瀏覽器地址欄中輸入上市公司股票代碼,就可以獲取實(shí)時(shí)行情,為什么搜索引擎搜不到?,有些內(nèi)容,網(wǎng)
14、上明明存在,但是用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,就可以設(shè)計(jì)更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最關(guān)鍵的一步。 這樣的內(nèi)容,主要有3類: 1、網(wǎng)上有,但是搜索引擎庫(kù)里沒有 spider未能正確處理的網(wǎng)頁(yè)性質(zhì)及文件類型 (如某些動(dòng)態(tài)網(wǎng)頁(yè)及frame、數(shù)據(jù)庫(kù)) 沒有指向鏈接的孤島網(wǎng)頁(yè) spider訪問時(shí)因?yàn)槟承┰蛘檬撬梨溄?被認(rèn)為是劣質(zhì)網(wǎng)頁(yè)而不抓 因?yàn)?色情/反動(dòng)/spam/等問題而不抓的非法網(wǎng)頁(yè) 需要輸入用戶名、密碼方可打開的網(wǎng)頁(yè) 網(wǎng)站用robots協(xié)議拒絕搜索引擎抓取的網(wǎng)頁(yè) 搜索引擎還未來得及抓取的新網(wǎng)頁(yè),為什么搜不到?-之二,2、搜索引擎庫(kù)里有,但
15、是未能正確索引網(wǎng)頁(yè)中信息 分詞引起誤差 圖型中的文字信息你看得懂但搜索引擎看不懂 停用詞等搜索引擎故意不索引的信息 搜索引擎對(duì)某些網(wǎng)頁(yè)有選擇的索引,未索引全部網(wǎng)頁(yè)信息 3、搜索引擎正確索引了網(wǎng)頁(yè)中信息,但和你用的關(guān)鍵詞不同 你用的搜索關(guān)鍵詞中含有錯(cuò)別字 網(wǎng)頁(yè)作者用了錯(cuò)別字 沒有錯(cuò)別字,但網(wǎng)頁(yè)作者用的詞匯和你的關(guān)鍵詞不同,畢竟,文字的特性,允許有n種方式表達(dá)同一種信息 簡(jiǎn)體繁體不同編碼,用戶自己的錯(cuò)誤,初學(xué)者搜索時(shí)容易犯的6個(gè)低級(jí)錯(cuò)誤和解決方法 常見錯(cuò)誤1:錯(cuò)別字 經(jīng)常發(fā)生的一種錯(cuò)誤是,你輸入的關(guān)鍵詞含有錯(cuò)別字,改正了就好。 常見錯(cuò)誤2:關(guān)健詞太常見 搜索引擎對(duì)常見詞的搜索存在缺陷,因?yàn)檫@些詞曝
16、光率太高了,以至于出現(xiàn)在成百萬網(wǎng)頁(yè)中,使得它們事實(shí)上不能被用來幫你找到什么有用的內(nèi)容。比如說搜索“電話”。 常見錯(cuò)誤3:多義詞 要小心使用多義詞,比如搜索“java”,你要找的信息究竟是太平洋上的一個(gè)島、一種著名的咖啡、還是一種計(jì)算機(jī)語言。,用戶自己的錯(cuò)誤,常見錯(cuò)誤4:不會(huì)輸關(guān)鍵詞,想要什么輸什么 搜索失敗的另一個(gè)常見原因是類似這樣的搜索:“現(xiàn)代愛情故事歌詞” 常見錯(cuò)誤5:在錯(cuò)誤的地方搜索 有些信息不適合搜索,應(yīng)該直接到網(wǎng)站瀏覽,如論壇的內(nèi)容。 常見錯(cuò)誤6:停用詞 停用詞主要見于英文搜索引擎中,指的是使用過于頻繁的單詞,如“is”、“i”、“what”、“it”等。一些搜索引擎在它的網(wǎng)頁(yè)庫(kù)里碰
17、到這些詞時(shí)不會(huì)搜,優(yōu)秀的電子信息資源,查找論文等,就不需要使用普通的搜索引擎了。 中國(guó)期刊網(wǎng)(CNKI): 萬方數(shù)據(jù): 各個(gè)專業(yè)都有自己的專業(yè)信息資源 如中文的新聞?lì)悾?中新社 新華社 外交部各國(guó)資料:,如何才能有效地搜索?,理解搜索引擎的原理和基本的使用技術(shù) 對(duì)于中文,要理解“分詞”。 勤奮:大量實(shí)踐,仔細(xì)體會(huì)每個(gè)搜索引擎的特色和功能。搜索時(shí)的堅(jiān)持不懈。 積累:平時(shí)多注意積累優(yōu)秀的專業(yè)網(wǎng)站和數(shù)據(jù)庫(kù) 學(xué)問:要博學(xué)多聞 天資:主要是想象力、判斷力,搜索引擎的分類及原理,按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類: 1目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查
18、看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。,搜索引擎分類,2機(jī)器人搜索引擎:由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Northern Li
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年鑰匙托管服務(wù)協(xié)議-二手房買賣交易風(fēng)險(xiǎn)控制3篇
- 二零二五年度健身房場(chǎng)地租賃及健身教練培訓(xùn)合同3篇
- 2024年餐廳股份出售協(xié)議模板版B版
- 二零二五年度凈化車間工程智能化控制系統(tǒng)調(diào)試合同2篇
- 2024年貨車司機(jī)雇傭合同條款
- 2024年高標(biāo)準(zhǔn)樁基施工合作合同版B版
- 二零二五年度辦公空間租賃及增值服務(wù)合同
- 二零二五年度園林機(jī)械租賃協(xié)議2篇
- 2024年版會(huì)議室租賃合同(含投影儀)
- 工業(yè)固體廢物綜合利用市場(chǎng)發(fā)展現(xiàn)狀調(diào)研及投資趨勢(shì)前景分析報(bào)告
- 智慧農(nóng)業(yè)行業(yè)政策分析
- 氧化還原反應(yīng)方程式配平練習(xí)題及答案三篇
- 小飾品店計(jì)劃書
- 租賃期滿的清退與返還事宜
- GB/T 10739-2023紙、紙板和紙漿試樣處理和試驗(yàn)的標(biāo)準(zhǔn)大氣條件
- 《家居顏色搭配技巧》課件
- 鐵三角管理辦法(試行)
- 公司行政人事主管工作總結(jié)
- 高考小說閱讀分類導(dǎo)練:詩(shī)化小說(知識(shí)導(dǎo)讀+強(qiáng)化訓(xùn)練+答案解析)
- 《公司法培訓(xùn)》課件
- 全國(guó)教育科學(xué)規(guī)劃課題申報(bào)書:83.《供需適配性理論視域下我國(guó)老年教育資源供需匹配度研究》
評(píng)論
0/150
提交評(píng)論