版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
心智模型:產(chǎn)生于用戶頭腦中的關于一個產(chǎn)品應該具有的概念和行為的知識。這種知識可能源自于對產(chǎn)品的概念和行為的一種期望。實現(xiàn)模型:技術和算法實現(xiàn),他存在于設計人員的頭腦中。表現(xiàn)模型:是指產(chǎn)品的最終外觀以及產(chǎn)品呈現(xiàn)給用戶后,用戶通過觀看或使用后形成的關于產(chǎn)品如何工作和使用的知識。這五個組成部分對理解信息檢索研究是至關重要的:社會情境、信息搜尋者的認知空間、界面、信息對象、信息技術、權重(權值)的直觀含義:一個term對于一個文本的重要程度;即在多大程度上可以將這個文檔與其他文檔區(qū)別開計算權值的兩種簡單方式:1)項目一出現(xiàn)/不出現(xiàn):1或02)項目一出現(xiàn)的次數(shù):0,1,索引項加權:給那些經(jīng)常出現(xiàn)在一個文檔中,而不常出現(xiàn)在其它文檔中的項目以更高的權重,即讓特別的詞從一般的詞中凸現(xiàn)出來。布爾模型的優(yōu)點:1簡單而整齊,為現(xiàn)代許多商業(yè)系統(tǒng)所用2自我保護功能,降低用戶對搜索系統(tǒng)的期望,使自己不在責任方,檢索結(jié)果不好的原因在于用戶構造查詢不好3簡單、易理解、簡潔的形式化。缺點:1關鍵詞沒有權重區(qū)別2輸出結(jié)果沒有重要性排序3查全率很難控制4要求用戶具備很高的素質(zhì)和語義提取能力向量模型的優(yōu)點:索引項的加權改善了檢索的性能,其部分匹配的策略允許所檢索的文檔與查詢條件相近似,余弦排序公式按照文檔與查詢的相似程度對文檔進行排序。缺點:無法揭示索引項之間的關系。不加區(qū)別地將其應用到所有文檔中,會影響檢索系統(tǒng)的整體性能概率模型的優(yōu)點:1嚴格的數(shù)學理論基礎與推到過程作為依據(jù)來計算相似度2文檔可以按照其相關概率遞減的順序來排序3采用相關反饋原理,可進一步開發(fā)理論上更為堅實的方法。缺點:1開始時需要猜想把文檔分為相關和不相關的兩個集合,一般來說很難。2模型沿用了索引詞在文檔中的頻率,假設索引項獨立。二值權重。3索引項權重計算沒有考慮詞頻加權因素采集涉及到的網(wǎng)絡協(xié)議:URL規(guī)范、HTTP協(xié)議、User-Agent、Robots協(xié)議ROBOTS協(xié)議兩條基本規(guī)則:User-Agent:指明適用該robots.txt文件的爬蟲名稱;Disallow:禁止采集的網(wǎng)頁或目錄。Disallowdirectory/pic/user-agent:*Disallow:/pic/Disallow:/*.jpg$爬蟲的抓取方式抓取不是一次性行為,各種現(xiàn)實因素限制下的抓取方式選擇。一般分為累積式抓取與增量式抓取。累積式抓取是指從某一時間點開始,爬蟲遍歷所能允許存儲和處理的所有網(wǎng)頁。在理想的軟硬件環(huán)境下,經(jīng)過足夠的運行時間,累積式抓取可以保證抓取的網(wǎng)頁規(guī)模。由于Web數(shù)據(jù)的動態(tài)性,已抓取的網(wǎng)頁可能出現(xiàn)更新或存在死鏈,因此累積式抓取無法與真實環(huán)境中的網(wǎng)絡數(shù)據(jù)保持一致。增量式抓取是指在具有一定量規(guī)模的網(wǎng)頁集合基礎上,采用更新數(shù)據(jù)的方式選取已在集合中的過時網(wǎng)頁進行抓取,以保證所抓取的數(shù)據(jù)與真實網(wǎng)絡數(shù)據(jù)足夠接近。增量式抓取的前提是,系統(tǒng)己經(jīng)抓取了足夠數(shù)量的網(wǎng)頁,并具有這些頁面被抓取的時間信息。
兩種基本抓取策略:深度優(yōu)先,是指當爬蟲訪問某一網(wǎng)頁時,跟蹤淺層頁面的鏈接并沿著鏈接逐層抓取深層頁面,只到最深層頁面無導出鏈接為止時,返回淺層頁面的一種方式,深度優(yōu)先有利于內(nèi)頁的抓取。廣度優(yōu)先,是指爬蟲會先抓取某一網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。廣度優(yōu)先有利于提高搜索引擎的工作效率。正則表達式應用舉例電子郵件地址(\w+\.)*\w+@(\w+\.)+[A-Za-z]+URL地址http://[-\w.]+(:\d+)?超鏈接va.*?href=\"(.*?)\“?*?>身份證號碼中提取籍貫、出生日期、性別等,18位身份證號,前兩位是省份,從第7位開始的8位數(shù)字是出聲日期,第17位數(shù)字表示性別,偶數(shù)女,奇數(shù)男人代表字符串的開頭$代表字符串的結(jié)束[]匹配指定一堆字符中的一個次次次次?表示前一字符模式可以被重復0次或1次次次次+表示前一字符模式可以被重復1次或n*表示前一字符模式可以被重復0次或n{x,y)匹表示前一字符模式可以重復x-y()子表達式丨用來指定幾個規(guī)則只要匹配一個規(guī)則即成匹配,相當于OR字與詞:中文不像英文那樣在詞與詞之間有空格,字與字、詞與詞之間沒有顯性的界限標志。那么切分的粒度,基于單字與基于詞的兩種基本思路。從檢索的語義考慮,切分詞是我們著力解決的;盡可能準確地切分出詞是中文信息處理與索引構建的基礎保障。交集型切分歧義:一如果滿足AX,XB同時為詞(A,X,B分別為漢字串),漢字串AXB被稱作交集型切分歧義。組合型切分歧義:如果A,B,AB同時為詞,漢字串AB被稱作組合型切分歧義。詞干提取在信息檢索中的作用:提高檢索的查全率和減少索引文件的大小。詞表的作用:解決了詞的定義問題、減小專有名詞的識別難度、能夠解決無歧義的分詞問題。詞匯控制的工具:分類詞表、主題詞表、分類主題一體化詞表。倒排文檔:將主文檔中的可檢字段抽出,按某種順序重新排列起來所形成的一種索引文檔。由詞匯表+記錄表組成。(或關鍵字,目長,記錄號集合)。詞匯表是文檔或文檔集合中所包含的所有不同單詞的集合;記錄表是對詞匯表中每一個單詞,其在文檔中出現(xiàn)的位置構成的列表。倒排文檔的建立:1,、索引詞選擇2、對抽出的內(nèi)容進行排序,便于歸并相同內(nèi)容3、對形同內(nèi)容進行歸并,把合并后的內(nèi)容放入倒排文檔的主鍵字段,統(tǒng)計每一數(shù)據(jù)的頻次作為目長,把每一內(nèi)容后的記錄號順序放入記錄號集合字段。Lucene索引創(chuàng)建的基本步驟1、 創(chuàng)建Directory2、 創(chuàng)建IndexWriter3、 創(chuàng)建Document對象4、 為Document添加Field5、 通過IndexWriter添加文檔到索引6、 關閉writer.close()代碼publicclasshelloLucene{publicvoidindex(){IndexWriterwriter=null;try{〃1.創(chuàng)建Directory;//Directorydirectory=newRAMDirectory();Directorydirectory=FSDirectory.open(newFile("/users/fanw17/desktop/Lucene/index01"));//2.創(chuàng)建IndexWriter;//IndexWriterConfigiwc=newIndexWriterConfig(Version.LUCENE_35,newStandardAnalyzer(Version.LUCENE_35));writer=newIndexWriter(directory,iwc);//3.創(chuàng)建Document對象;Documentdoc=null;//4.為Document添加FieldFilef=newFile("/users/fanw17/desktop/Lucene/example");for(Filefile:f.listFiles()){doc=newDocument();doc.add(newField("content",newFileReader(file)));doc.add(newField("filename",file.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED));doc.add(newField("path",file.getAbsolutePath(),Field.Store.YES,Field.Index.NOT_ANALYZED));//5.通過IndexWriter添加文檔到索引中writer.addDocument(doc);}}搜索實現(xiàn)的基本步驟1、 創(chuàng)建Directory2、 創(chuàng)建IndexReader3、 根據(jù)IndexReader創(chuàng)建IndexSearcher4、 創(chuàng)建用戶的查詢輸入Query5、 根據(jù)Searcher搜索并且返回TopDocs6、 根據(jù)TopDocs獲取ScoreDoc對象7、 根據(jù)Searcher和ScoreDoc對象獲取具體的Document對象8、 根據(jù)Document對象獲取具體的值9、 關閉Reader代碼:publicvoidsearcher(){try{〃1、創(chuàng)建Directorydirectory=FSDirectory.open(newFile("d:/lucene/indexXX"));〃創(chuàng)建索引的位置指定〃2、創(chuàng)建IndexReaderIndexReaderreader=IndexReader.open(directory);〃3、根據(jù)IndexReader創(chuàng)建IndexSearcherIndexSearchersearcher=newIndexSearcher(reader);〃4、創(chuàng)建用戶的查詢輸入Query。〃4.1首先通過parser來確定要搜索的內(nèi)容,第二個參數(shù)表示搜索的字段,分詞器為標準分詞器;QueryParserparser=newQueryParser(Version.LUCENE_35,"content",newStandardAnalyzer(Version.LUCENE_35));〃4.2通過parser傳遞的參數(shù),創(chuàng)建查詢對象,這里為搜索包含以下關鍵詞的文檔Queryquery=parser.parse("Dobby");〃5、根據(jù)Searcher搜索并且返回TopDocsTopDocstds=searcher.search(query,10);〃6、根據(jù)TopDocs獲取ScoreDoc對象ScoreDoc[]sds=tds.scoreDocs;for(ScoreDocsd:sds){〃7、根據(jù)Searcher和ScoreDoc對象獲取具體的Document對象Documentd=searcher.doc(sd.doc);〃8、根據(jù)Document對象獲取具體的值System.out.println(d.get("filename")+"["+d.get("path")+"]");}〃9、關閉Readerreader.close();}catch(CorruptIndexExceptione){e.printStackTrace();}catch(IOExceptione){e.printStackTrace();}catch(ParseExceptione){e.printStackTrace();}搜索、瀏覽與導航的辯證關系廣義的搜索是人類的一項基本交互行為。在計算機領域中將搜索定義為:計算機通過匹配用戶的輸入,檢索出相關信息。通常我們所說的搜索一般是指知道要找什么,將需求表達為關鍵詞,提交到搜索引擎得到相關信息。瀏覽可以視為搜索的一個特定類型,包括無目的的掃視和目標導向的搜索。有目的的瀏覽依賴于信息架構,結(jié)構是瀏覽的一個重要基礎。用戶瀏覽也是一個學習和認識深化的過程.導航是搜索活動的一個輔助機制,幫助用戶在瀏覽過程中定位和指明方向。導航結(jié)構建立在信息架構之上,強調(diào)鏈接之間的路徑設計。一種觀點:將搜索與瀏覽作為兩種基本搜尋行為,將導航作為輔助機制融入二者之中。PageRank是基于「從許多優(yōu)質(zhì)的網(wǎng)頁鏈接過來的網(wǎng)頁,必定還是優(yōu)質(zhì)網(wǎng)頁丨的回歸關系,來判定所有網(wǎng)頁的重要性。影響因素:1反向鏈接數(shù)(單純的意義上的受歡迎度指標)2反向鏈接是否來自推薦度咼的頁面(有根據(jù)的受歡迎指標)3反向鏈接源頁面的鏈接數(shù)(被選中的幾率指標)為什么還要有HITS算法:PageRank算法中對于向外鏈接的權值貢獻是平均的,即不考慮不同鏈接的重要性。而WEB的鏈接具有以下特征:1.有些鏈接具有注釋性,也有些鏈接是起導航或廣告作用。有注釋性的鏈接才用于權威判斷。2?基于商業(yè)或競爭因素考慮,很少有WEB網(wǎng)頁指向其競爭領域的權威網(wǎng)頁。3?權威網(wǎng)頁很少具有顯式的描述,比如Google主頁不會明確給出WEB搜索引擎之類的描述信息??梢娖骄姆植紮嘀挡环湘溄拥膶嶋H情況 一HITS算法是HypertextInducedTopicSearch的簡寫.與PageRank采用的靜態(tài)分級算法不同,HITS是査詢相關的。當用戶提交一個查詢請求后,HITS首先展開一個由搜索引擎返回的相關網(wǎng)頁列表,然后給出兩個擴展網(wǎng)頁集合的評級,分別為權威等級和中心等級。HITS優(yōu)點:它根據(jù)查詢主題來為網(wǎng)頁評級,這樣能夠提供與查詢更加相關的權威頁和中心頁。缺點:1容易作弊:因為在自己的網(wǎng)頁上添加大量的指向權威頁的鏈接是很容易的,所以很容易影響HITS算法。2話題漂移:在擴充的根集中很多網(wǎng)頁可能和搜索話題無關。3査詢時低效:查詢時計算是很慢的。尋找根集,擴展根集然后計算特征向量都是非常費時的操作.PageRank與HITS:它們都利用了網(wǎng)頁和超鏈組成的有向圖,根據(jù)相互鏈接關系進行遞歸運算。兩者又有很大的區(qū)別,主要在于運算的時機:1、Pagerank是在網(wǎng)頁搜集告一段落時,離線的使用一定的算法計算每個網(wǎng)頁的權值,在檢索時只需要從數(shù)據(jù)庫中取出這些數(shù)據(jù)即可,而不用做額外的運算,這樣做的好處是檢索的速度快,但喪失了檢索時的靈活型。2、HITS使用即時分析運算策略,每得到一個檢索,它都要從數(shù)據(jù)庫中找到相應的網(wǎng)頁,同時提取出這些網(wǎng)頁和鏈接構成的有向子圖,再運算獲得各個網(wǎng)頁的相應鏈接權值。這種方法雖然靈活性強,并且更加精確,但在用戶檢索時進行如此大量的運算,檢索效率顯然不高。信息檢索系統(tǒng)的評價:1功能測試與分析:側(cè)重于測試系統(tǒng)的軟件功能是否存在錯誤與缺陷,是否符合預期的設計目標。往往不具備具體的評價標準,難以計量。2檢索效益評價:測定檢索系統(tǒng)提供的服務或系統(tǒng)本身投入使用所獲得效益。3性能評價:性能評價的常用辦法是衡量系統(tǒng)的時間和空間指標;對于檢索系統(tǒng)的性能來說,要求檢索結(jié)果按照相關度進行排序。系統(tǒng)角度的性能評價指標:相關性(查全率、查準率、漏檢率、誤減率);用戶角度的性能評價指標:涵蓋率、新穎率、相對查全率、查全效果信息檢索研究中的相關性假定:對于一個給定的文檔集合和一個用戶查詢,存在并且只存在一個與該查詢相目關的文檔集合。檢索系統(tǒng)的目標就在于檢出相關文檔而排除不相關文檔。相關性不是二值評價,而是一個連續(xù)的量,即使進行二值評價,很多時候也很難。從人的立場上看,相關性是:主觀的,依賴于特定用戶的判斷;情景相關的,依賴于用戶的需求;認知的,依賴于人的認知和行為能力;時變的,隨著時間而變化査全率:檢出的相關文檔占相關文檔總量的百分比査準率:檢出的相關文檔占被檢出文檔的百分比。信息檢索評測:文本檢索會議(TextRetrievalConference,TREC)是信息檢索界為進行檢索系統(tǒng)和用戶評價而舉行的活動,它由美國國家標準技術協(xié)會和美國高級研究計劃局共同資助,開始于1992年,每年一次,參加者免費獲得標準訓練和開發(fā)數(shù)據(jù)、參加者在參加比賽時收到最新的測試數(shù)據(jù),并在限定時間內(nèi)作出答案,返給組織者、組織者對各參賽者的結(jié)果進行評價、包括檢索、過濾、問答等多個主題大多數(shù)信息搜尋模型都是以陳述和圖表形式表示模型是采用數(shù)學工具,對現(xiàn)實世界某種事物或運動的抽象描述,面對相同輸入,模型的輸出應能無限逼近現(xiàn)實世界的輸出。信息檢索模型:表示文檔、用戶查詢以及查詢與文檔的關系的框架Wb信息釆集工作方式:1,收集一部分熱門的、權威性高的、擁有較多超鏈接的網(wǎng)頁為起點,這類站點被稱為“種子網(wǎng)頁集合”2,通過網(wǎng)絡爬蟲程序訪問
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 影響農(nóng)村信用社發(fā)展的政策性障礙分析
- 輪椅車 第31部分 電動輪椅車的鋰離子電池系統(tǒng)和充電器 要求和試驗方法 征求意見稿
- 直播招商課件教學課件
- 金融培訓課件教學課件
- 三年級數(shù)學計算題專項練習及答案集錦
- 維修水泵機組合同(2篇)
- 學習領會《新就業(yè)形態(tài)勞動者權益協(xié)商指引》心得體會
- 南京航空航天大學《編譯原理》2022-2023學年第一學期期末試卷
- 發(fā)現(xiàn)問題說課稿
- 陽春市河朗鎮(zhèn)飲用水供水工程施工組織設計
- 上海市市轄區(qū)(2024年-2025年小學四年級語文)部編版期末考試(下學期)試卷及答案
- 認識梯形(課件)四年級上冊人教版
- 【期中考后反思】《反躬自省,砥礪奮進》-2022-2023學年初中主題班會課件
- 2019新教材人教版生物必修1教材課后習題答案
- 2024年中國白酒行業(yè)數(shù)字化轉(zhuǎn)型研究報告-36氪-202409
- 《學校主人公:3 校園廣播站》教學設計-2024-2025學年五年級上冊綜合實踐活動滬科黔科版
- 外傷急救包扎技術說課課件
- 人教版(2024新版)七年級上冊英語全冊語法知識點講義
- 全國青島版信息技術七年級下冊專題一第8課三、《高級統(tǒng)計-數(shù)據(jù)透視表》教學設計
- 清淡的晚餐(課件)六年級上冊勞動北京版
- 婦科內(nèi)分泌疾病診斷與治療考核試卷
評論
0/150
提交評論