Internet網(wǎng)絡信息檢索_第1頁
Internet網(wǎng)絡信息檢索_第2頁
Internet網(wǎng)絡信息檢索_第3頁
Internet網(wǎng)絡信息檢索_第4頁
Internet網(wǎng)絡信息檢索_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Internet網(wǎng)絡信息檢索第1頁/共110頁(二)Internet的特點:1.TCP/IP協(xié)議是Internet的核心TCP:TransmissionControlProtocol傳輸控制協(xié)議TCP是一種面向連接(連接導向)的、可靠的、基于字節(jié)流的運輸層(Transportlayer)通信協(xié)議。TCP協(xié)議提供的是可靠的、面向連接的傳輸控制協(xié)議;端到端的通信;全雙工方式傳輸;采用字節(jié)流方式;緊急數(shù)據(jù)傳送功能。第2頁/共110頁IP協(xié)議,全稱InternetProtocol(因特網(wǎng)協(xié)議)主要用于負責IP尋址、路由選擇和IP數(shù)據(jù)包的分割和組裝。目前,我們常用的IP協(xié)議是IP協(xié)議第四版本,即IPv4,是互聯(lián)網(wǎng)中最基礎的協(xié)議。網(wǎng)絡中的計算機都有一個惟一的因特網(wǎng)地址,又稱IP地址。IP地址如同居民身份證編碼具有惟一性。IP地址

:00域名

:第3頁/共110頁(三)Internet的發(fā)展史Internet來源于ARPAnet網(wǎng),現(xiàn)代計算機網(wǎng)絡的許多概念和方法都來源于它。2.Internet實現(xiàn)了與公用電話交換網(wǎng)的互聯(lián)3.Internet是一個用戶自己的網(wǎng)絡第4頁/共110頁2009年11月2日舉行的“2009中國互聯(lián)網(wǎng)大會”上獲悉,截至9月末,我國互聯(lián)網(wǎng)用戶到達3.6億,普及率達到27.1%,移動互聯(lián)網(wǎng)用戶已達1.92億,境內網(wǎng)站達到320萬個,寬帶用戶達9933萬。互聯(lián)網(wǎng)基礎資源規(guī)模不斷擴大,IP地址達到1.23億個,為全球第二;CN域名注冊量達500萬,為全球第一。IT、制造業(yè)、軟件與數(shù)字內容業(yè)產(chǎn)值超過2000億元。我國互聯(lián)網(wǎng)發(fā)展已處于關鍵時期。第5頁/共110頁(四)中國Internet的發(fā)展

1994年我國全面開通了Internet服務,建立了四大網(wǎng)絡體系。

中國科技網(wǎng)CSTnet

1994年該網(wǎng)實現(xiàn)了與Internet網(wǎng)的聯(lián)接。CSTnet主要是提供科學數(shù)據(jù)庫服務、網(wǎng)絡信息服務及超級計算服務等,其服務是非商業(yè)性的。中國科技網(wǎng)網(wǎng)的網(wǎng)址是:,其主頁如下圖:第6頁/共110頁第7頁/共110頁

中國教育科研網(wǎng)CERNET中國教育科研網(wǎng)的全稱是ChinaEducationandResearchNetwork,它是國家教委主持的國家重點工業(yè)性研究項目。于1994年啟動,1995年12月正式開通運行,并實現(xiàn)與Internet的全方位連接。CERNET網(wǎng)分為主干網(wǎng)、地區(qū)網(wǎng)、和校園網(wǎng)三個層次。中國教育科研網(wǎng)的網(wǎng)址是:,其主頁如下圖:第8頁/共110頁第9頁/共110頁CERNET當前的拓撲結構如下圖:第10頁/共110頁

中國公用計算機互聯(lián)網(wǎng)CHINANET

中國公用計算機互聯(lián)網(wǎng)是我國第一個全國性商業(yè)網(wǎng),它由中國信息產(chǎn)業(yè)部經(jīng)營管理,于1994年開始啟動。CHINANET為社會提供方便的網(wǎng)絡服務,開辦代理業(yè)務,發(fā)展網(wǎng)絡用戶,建立中文信息站點為網(wǎng)絡用戶提供多種信息服務,包括電子文件、商業(yè)信息、天氣預報、娛樂休閑、旅游指南等。中國公用計算機互聯(lián)網(wǎng)的網(wǎng)址是:/,其主頁如下圖:第11頁/共110頁第12頁/共110頁

中國金橋信息網(wǎng)

中國金橋信息網(wǎng)CHINAGBN是三金工程(金橋工程、金關工程、金卡工程)之一,也稱中國經(jīng)濟網(wǎng),于1996年開始建設,它是國家經(jīng)濟信息通信網(wǎng),提供Internet網(wǎng)絡商業(yè)服務。

中國金橋信息網(wǎng)的網(wǎng)址是:,其主頁如下圖:第13頁/共110頁第14頁/共110頁二、Internet網(wǎng)絡信息資源概述(一)網(wǎng)絡信息資源的概念網(wǎng)絡信息資源,由稱電子信息資源、因特網(wǎng)信息資源、WWW信息資源,是將文字、圖像、聲音、動畫等多種形式的信息,以數(shù)字化形式存儲,并借助計算機與網(wǎng)絡通信設備發(fā)布、收集、組織、存儲、傳遞、檢索和利用的信息資源。第15頁/共110頁(1)從內容方面看,網(wǎng)絡信息資源信息類型豐富,信息量大,開放性強、增長快、更新快。(2)從存放位置看,信息廣泛分布在不同的服務器上,而服務器上的操作系統(tǒng)、數(shù)據(jù)結構、字符集、處理方式并不相同。(3)從其利用方式看,網(wǎng)絡信息資源不受時空限制,跨時空、跨行業(yè)傳播。(二)網(wǎng)絡信息資源的特點第16頁/共110頁(4)從其組織方面看,網(wǎng)絡信息資源分布離散化。(5)從其質量方面看,信息發(fā)布有很大的自由度和隨意性,缺乏必要的過濾、質量控制和管理機制。(6)從時效性方面看,網(wǎng)絡信息資源時效性強,在互聯(lián)網(wǎng)上能得到最新的資料以及某個學科和某項科研的最新動態(tài),能檢索到最近的(甚至當日的)文獻。隨機變化大,更新消亡無法預測。網(wǎng)絡信息資源還具有開放性、交互性、通用性等特點。第17頁/共110頁三、Internet信息檢索(一)WWW與信息檢索1.WWW的概念環(huán)球信息網(wǎng)WWW(WorldWideWed)也稱Web或萬維網(wǎng),它是一個基于超文本(hypertext)方式的信息檢索查詢工具。歐洲粒子物理實驗室(CERN)的Tim.Berners-lee等人在1989年為了滿足世界各地進行粒子物理研究的科學家能利用計算機網(wǎng)絡交流研究成果,開發(fā)了WorldWideWeb,簡稱WWW。第18頁/共110頁2.什么是超文本與超媒體3.WWW的構架(1)HTML是HyperTextMarkupLanguage的縮寫。(2)主頁(homepage)(3)HTTP(4)URL(UniformResourceLocator,統(tǒng)一資源定位器)用來定義訪問文件的名稱、位置、訪問的方式。第19頁/共110頁4.WWW瀏覽器5.www采用的是客戶機/服務器結構第20頁/共110頁第二節(jié)搜索引擎(一)搜索引擎(Searchengines)的概念(二)搜索引擎的發(fā)展歷史(三)搜索引擎工作原理(四)搜索引擎的特點一、搜索引擎概述

第21頁/共110頁第二節(jié)搜索引擎一、搜索引擎(Searchengines)的概念二、搜索引擎的發(fā)展歷史三、搜索引擎工作原理四、搜索引擎的特點第22頁/共110頁五、搜索引擎的檢索結果1.標題:網(wǎng)頁的標題。2.URL:該網(wǎng)頁對應的“訪問地址”。3.摘要:網(wǎng)頁內容的摘要。第23頁/共110頁搜索引擎基本結構第24頁/共110頁六、搜索引擎的檢索技術1.布爾邏輯檢索(1)邏輯“與”(2)邏輯“或”(3)邏輯“非”邏輯與邏輯或邏輯非第25頁/共110頁在許多搜索引擎中用空格、逗號、括號、“&”、“∣”、“﹗”表示布爾邏輯符??崭?、“&”的作用與邏輯“與”(and)相同,比如google自動使用“and”進行查詢。逗號(,)、“∣”的作用類似于邏輯“或”(or)。2.位置算符(proximitysearch)位置算符檢索用諸如“w”、“n”的符號表示詞與詞之間的位置關系,如informationnsystem表示system出現(xiàn)在information之后,informationnsystem表示與前后關系無關。第26頁/共110頁3.截詞檢索(truncation/wildcats)截詞方式主要有右截斷、左截斷、左右截斷、中間截斷(中間屏蔽)四種。搜索引擎中的截詞符通常采用“*”和“?”。4.字段限制檢索(fieldlimiting)Title:、ubject:、Keyword:、Summary:、Image:、text:、Applet:、host:、anchor:、domain:、site:、url:、from:等。第27頁/共110頁5.精確檢索(exactsearch)精確檢索又稱之為字符串檢索、短語檢索。幾乎所有的搜索引擎讀支持精確檢索,并且都采用“”來表示。6.模糊檢索(fuzzysearch)7.自然語言檢索(naturallanguagesearch)8.區(qū)分大小寫的檢索(case-sensitive)又稱為大小寫敏感檢索,這主要針對檢索詞中含有人名、地名等專有名詞而言的。第28頁/共110頁9.加權檢索(termweighting)、連接符有加號(+)和減號(-)。即在檢索詞前置加/減(+/-)號,作用相當于AND/NOT運算。10.多語言檢索(multilingualsearch)11.相關性排序檢索結果通常是根據(jù)相關程度按從大到小的順序降序排列。幾乎所有的搜索引擎都提供了“對檢索結果按其相關性大小排序的功能?!钡?9頁/共110頁七、搜索引擎使用方法1.基本使用方法(1)分類法目錄式搜索引擎最簡單的搜索方法就是掌握它的目錄分類原則,確定要查找的內容或網(wǎng)站應該在哪個分類,然后逐級單擊尋找。(2)關鍵詞這是搜索引擎必備的功能。直接在輸入框輸入關鍵詞即可進行的檢索。第30頁/共110頁2.使用技巧(1)選擇合適的搜索工具每種搜索引擎都有不同的特點,只有選擇合適的搜索工具才能得到最佳的結果。

(2)使用正確的搜索詞就目前而言,多數(shù)搜索引擎不支持容錯查詢。所以,一定要注意不寫錯別字。

(3)正確使用布爾檢索正確使用布爾檢索方式可以減少搜索結果的返回數(shù)。第31頁/共110頁八、搜索引擎的分類1.按搜索機制分類(1)目錄型搜索引擎(2)關鍵詞型搜索引擎(3)混合型搜索引擎2.按搜索引擎提供的搜索內容來劃分(1)綜合型搜索引擎(2)專業(yè)型搜索引擎第32頁/共110頁第33頁/共110頁第34頁/共110頁(3)特殊型搜索引擎3.按搜索引擎在采集信息的方法及對外提供的服務方式劃分(1)機器人搜索引擎(2)目錄搜索引擎(3)元搜索引擎第35頁/共110頁第36頁/共110頁第37頁/共110頁第38頁/共110頁第39頁/共110頁第40頁/共110頁(一)Google1.概述二、主要中文搜索引擎介紹(1)網(wǎng)頁標題(2)網(wǎng)頁快照(3)手氣不錯(4)類似網(wǎng)頁(5)中英文字典第41頁/共110頁第42頁/共110頁(1)數(shù)量龐大Google目前發(fā)展為搜索80億網(wǎng)頁;10億圖片;10億Usenet信息。2.Google的特點(2)Google支持多達132種語言,包括簡體中文和繁體中文。(3)Google速度極快,它每秒鐘能夠回應幾千次查詢,而回應每項查詢,Google都要走過30多億個網(wǎng)頁。第43頁/共110頁Google原名Googol,意思是10的100次方,是個巨大的數(shù)字。第44頁/共110頁(4)Google的專利網(wǎng)頁級別技術PageRank能夠提供準確率極高的搜索結果。3.Google搜索引擎的功能(1)基本檢索(2)高級檢索第45頁/共110頁第46頁/共110頁4.GoogleScholar學術搜索引擎2004年11月24日Google推出了世界上第一個針對學術期刊、論文、著作、摘要的免費學術搜索引擎一一Google

Scholar;2006年1月11日,Google推出了面向中文用戶的中文版Google學術搜索。(1)GoogleScholar的特點學科覆蓋廣泛全面,學科專業(yè)性強第47頁/共110頁①生物學、生命科學、環(huán)境科學(Biology,LifeSciences,andEnvironmentalScience);②商業(yè)、管理、金融與經(jīng)濟(Business,Administration,F(xiàn)inance,andEconomies);③化學與材料科學(ChemistryandMaterialsScience);④工程、計算機科學和數(shù)學(Engineering,computerScience,andMathematics);⑤醫(yī)學、藥學和獸醫(yī)學(Medicine,Pharmacology,andVeterinaryScience);第48頁/共110頁

檢索功能強大,搜索服務實行一站式⑥物理學、天文學、天體科學(Physics,Astronomy,andPlanetaryScience);⑦社會科學、藝術和人文科學(SocialSciences,Arts,andHumanities)。(2)GoogleScholar檢索方法基本檢索高級檢索第49頁/共110頁第50頁/共110頁高級檢索界面第51頁/共110頁(3)檢索結果檢索結果中每條信息內容都包含:文獻的題名、著者、出版物、出版年月、摘要、被引用次數(shù)、網(wǎng)頁搜索等。

第52頁/共110頁第53頁/共110頁第54頁/共110頁第55頁/共110頁第56頁/共110頁第57頁/共110頁學術搜索使用偏好第58頁/共110頁(二)百度

“百度”二字源于中國宋朝詞人辛棄疾的《青玉案》詩句:“眾里尋他千百度”。

1.百度的基本功能(1)百度快照

(2)

MP3搜索

(3)“超鏈分析”技術

(4)高級搜索第59頁/共110頁第60頁/共110頁第61頁/共110頁白度空間第62頁/共110頁更多第63頁/共110頁2.百度的檢索技術

百度支持“與”、“或”、“非”。在關鍵詞之間插入“空格”、“|”、“-”,可指定查詢串中各關鍵詞間“與”、“或”、“非”的關系。百度不支持AND”、“+”等符號的使用。第64頁/共110頁(三)雅虎(http://)雅虎()是全球第一門戶搜索網(wǎng)站,業(yè)務遍及24個國家和地區(qū),為全球超過5億的獨立用戶提供多元化的網(wǎng)絡服務。1999年9月,中國雅虎網(wǎng)站開通。2005年8月,中國雅虎由阿里巴巴集團全資收購。中國雅虎()將全球領先的互聯(lián)網(wǎng)技術與中國本地運營相結合,成為中國互聯(lián)網(wǎng)界位居前列的搜索引擎社區(qū)與資訊服務提供商。為億萬中文用戶帶來最大價值的生活體驗,成為中國互聯(lián)網(wǎng)的“生活引擎”。第65頁/共110頁第66頁/共110頁第67頁/共110頁(1)分類目錄檢索(/)第68頁/共110頁雙引號帶來的精確結果在查詢詞適當?shù)奈恢眉觽€空格,可以幫助您找到更精確的結果??崭?減號,幫我們去掉無用信息。在搜索結果頁下方的搜索框中,重新輸入一個查詢詞,然后點擊“在結果中找”來縮小搜索范圍。不必擔心英文的大小寫第69頁/共110頁(四)搜狐(http://www.S)1.簡介搜狗是搜狐公司于2004年8月3日推出的全球首個第三代互動式中文搜索引擎,域名為。搜狗的產(chǎn)品線包括了網(wǎng)頁應用和桌面應用兩大部分。網(wǎng)頁應用以網(wǎng)頁搜索為核心,在音樂、圖片、新聞、地圖領域提供垂直搜索服務;桌面應用則旨在提升用戶的使用體驗:搜狗工具條、拼音輸入法、PXP加速引擎。第70頁/共110頁第71頁/共110頁第72頁/共110頁直通車第73頁/共110頁第74頁/共110頁高級檢索第75頁/共110頁基本搜索進一步的搜索搜索不區(qū)分大小寫檢索技術使用雙引號進行精確查找使用多個詞語搜索減除無關資料在指定網(wǎng)站內搜索:其格式:查詢詞+空格+site:網(wǎng)址文檔搜索:搜索語法:查詢詞+空格+Filetype:格式2.檢索方法第76頁/共110頁(五)網(wǎng)易(或/)(1)網(wǎng)易搜索引擎的特點①網(wǎng)易搜索引擎提供多語言檢索②擁有全國最大的開放式管理目錄③網(wǎng)易搜索結果包括相關目錄、相關網(wǎng)站、相關網(wǎng)頁和相關新聞④網(wǎng)易搜索引擎是模糊的搜索方式第77頁/共110頁網(wǎng)易公司于2007年12月日前正式對外發(fā)布:旗下自主研發(fā)搜索引擎“有道”()正式版問世。1.簡介“有道”搜索類型包括網(wǎng)頁、博客、圖片、新聞、海量詞典等。

有道閱讀:通過在線RSS訂閱,開啟快捷的資訊閱讀之道。包括資訊閱讀、收藏分享、閱讀助手和一站式服務。

桌面詞典:免費中英文翻譯軟件第78頁/共110頁第79頁/共110頁第80頁/共110頁分類檢索第81頁/共110頁第82頁/共110頁(六)新浪愛問(http://www.iA)新浪搜索引擎“愛問”(www.iA),于2005年6月30日正式推出。新浪愛問搜索類型包括網(wǎng)頁、新聞、博客、音樂、圖片、視頻、地圖、知識人、資料、百事通。第83頁/共110頁第84頁/共110頁第85頁/共110頁第86頁/共110頁第87頁/共110頁第88頁/共110頁(七)中國搜索()

第89頁/共110頁高級檢索第90頁/共110頁(八)MSN中文搜索

()第91頁/共110頁第92頁/共110頁(九)TOM搜索引擎

第93頁/共110頁中文搜索引擎分布第94頁/共110頁三、主要英文搜索引擎介紹(一)Altavista搜索引擎Altavista是由前DEC公司于1995年開發(fā)的,是Internet上最大的搜索引擎,在它的搜索數(shù)據(jù)中包含了2,200萬個主頁、3,000萬個URL和13,000個新聞組的全文信息。Altavista的搜索范圍非常大,就連一些鮮為人知的偏僻站點也能找到,因此它的搜索結果十分豐富。所以,使用Altavista時,用戶需要花更多的時間在搜索結果中尋找自己想要的信息。

網(wǎng)站地址:http://第95頁/共110頁1.分類目錄搜索用戶可以根據(jù)要查找內容在分類目錄中選擇相應的類目,點擊后出現(xiàn)該類目所包含的子類,這樣只要逐級點擊相應的類目便可檢索到所需的信息。例如,要檢索有關Intranet技術的站點,可依次選擇:Directory→Computer&Internet→Network&Communication→Intranet→Technology,最后一級目錄中的“Technology”鏈接項,就會列出一系列有關Intranet技術的站點鏈接。第96頁/共110頁返回目錄2.簡單搜索使用簡單檢索方式,只需直接在檢索文本框中鍵入檢索詞,檢索詞可以是單詞、詞組或短語,然后點擊“Find”按鈕或按回車鍵。簡單檢索可以滿足一般用戶的需求,除檢索網(wǎng)頁外,還可檢索圖片、MP3、視頻、新聞等。第97頁/共110頁輸入檢索詞第98頁/共110頁返回目錄2.簡單搜索使用簡單檢索方式,用戶可以對檢索的內容加以限制:限制檢索某種語言網(wǎng)站限制檢索詞中的大小寫字母限制檢索詞出現(xiàn)情況(“+”

、“―”)限制與檢索詞相同詞根單詞出現(xiàn)情況(“*”)對搜索結果進一步細化

(“Require”、“Exclude”

或“RefineAgain”

)第99頁/共110頁返回目錄3.特殊搜索Domain:域名:指定域中搜索主頁。Host:主機名:指定主機中搜索主頁。Image:文件名:搜索包含指定圖像文件名的主頁。Link:URL:搜索包含指定鏈接的主頁。Text:文章:搜索包含指定文本的主頁。Title:文本:搜索標題中包含指定文本的主頁。url:文本:搜索URL中包含指定文本的主頁。

第100頁/共110頁(二)Excite搜索引擎

Excite是Internet上的一個經(jīng)典的搜索引擎,也是最受歡迎的搜索引擎之一。它收集了5000萬個網(wǎng)頁信息,其網(wǎng)頁索引是一個全文數(shù)據(jù)庫。Excite最大的特點是提供概念檢索,即搜索引擎不僅查找包含關鍵詞的主頁,還查找包含與關鍵詞有關的概念的主頁。網(wǎng)站地址:

第101頁/共110頁返回目錄1.分類目錄搜索

Excite支持分類目錄檢索方式,在該主頁中部列出了分類目錄。用戶可以根據(jù)查找內容的類別在分類目錄中選擇相應的類目,系統(tǒng)會顯示該類目中包含的所有子類。經(jīng)過多次選擇后,就可以訪問到包含查找內容的站點。第102頁/共110頁返回目錄輸入檢索詞2.關鍵詞搜索

Excite關鍵詞搜索在檢索文本框中鍵入關鍵詞,然后點擊“Search”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論