版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、PAGE PAGE 13實驗3搜索引擎及SEO實驗實驗學時: 2 每組人數(shù): 1 實驗類型: 2 (1:基礎性 2:綜合性 3:設計性 4:研究性)實驗要求: 1 (1:必修 2:選修 3:其它)實驗類別: 3 (1:基礎 2:專業(yè)基礎 3:專業(yè) 4:其它)一、實驗目的1研究并學習幾種常見的搜索引擎算法,包括網(wǎng)絡蜘蛛爬行策略、中文分詞算法、網(wǎng)頁正文提取算法、網(wǎng)頁去重算法、PageRank和MapReduce算法,了解它們的基本實現(xiàn)原理; 2運用所學SEO技術對網(wǎng)頁進行優(yōu)化。二、實驗內容1. 研究常用的網(wǎng)絡蜘蛛爬行策略,如深度優(yōu)先策略、廣度優(yōu)先策略、網(wǎng)頁選擇策略、重訪策略和并行策略等,了解其實現(xiàn)
2、原理;2. 研究至少兩種中文分詞算法,了解其實現(xiàn)原理;3. 研究至少兩種網(wǎng)頁正文提取算法,了解其實現(xiàn)原理;4. 研究至少兩種網(wǎng)頁去重算法,了解其實現(xiàn)原理;5. 研究Google的PageRank和MapReduce算法,了解它們的實現(xiàn)原理;6. 使用所學的SEO技術,對實驗二所設計的網(wǎng)站靜態(tài)首頁實施SEO,在實施過程中需采用如下技術:(1) 網(wǎng)頁標題(title)的優(yōu)化;(2) 選取合適的關鍵詞并對關鍵詞進行優(yōu)化;(3) 元標簽的優(yōu)化;(4) 網(wǎng)站結構和URL的優(yōu)化;(5) 創(chuàng)建robots.txt文件,禁止蜘蛛抓取網(wǎng)站后臺頁面;(6) 網(wǎng)頁內部鏈接的優(yōu)化;(7) Heading標簽的優(yōu)化;(
3、8) 圖片優(yōu)化;(9) 網(wǎng)頁減肥技術。7. 使用C+、C#和Java等任意一種編程語言,設計并實現(xiàn)一個簡單的網(wǎng)絡蜘蛛爬行程序,要求在輸入關鍵詞、設置爬行深度和初始網(wǎng)頁URL之后能夠實現(xiàn)網(wǎng)頁搜索,輸出包含關鍵詞的網(wǎng)頁的URL和網(wǎng)頁標題?!咀ⅲ簩嶒?為補充實驗,不要求每個同學都完成,感興趣者可自行實現(xiàn)該程序,不計入實驗報告評分?!咳?、實驗要求1. 研究幾種常用的網(wǎng)絡蜘蛛爬行策略,填寫相應的表格,表格必須填寫完整;2. 研究兩種中文分詞算法,填寫相應的表格,表格必須填寫完整;3. 研究兩種網(wǎng)頁正文提取算法,填寫相應的表格,表格必須填寫完整;4. 研究兩種網(wǎng)頁去重算法,填寫相應的表格,表格必須填寫完整
4、;5. 研究PageRank算法和MapReduce算法,填寫相應的表格,表格必須填寫完整;6. 提供實施SEO之后的網(wǎng)站靜態(tài)首頁界面和HTML代碼,盡量多地使用所學SEO技術;7. 嚴禁大面積拷貝互聯(lián)網(wǎng)上已有文字資料,盡量用自己的理解來闡述算法原理,必要時可以通過圖形來描述算法;8. 使用任意一種編程語言實現(xiàn)一個簡單的網(wǎng)絡蜘蛛程序,需提供網(wǎng)絡蜘蛛程序完整源代碼及實際運行結果。四、實驗步驟1. 通過使用搜索引擎并查閱相關資料,研究并整理幾種常用的網(wǎng)絡蜘蛛爬行策略相關資料,填寫相應的表格;2. 通過使用搜索引擎并查閱相關資料,研究并整理兩種中文分詞算法的基本原理,填寫相應的表格;3. 通過使用搜
5、索引擎并查閱相關資料,研究并整理兩種網(wǎng)頁正文提取算法的基本原理,填寫相應的表格;4. 通過使用搜索引擎并查閱相關資料,研究并整理兩種網(wǎng)頁去重算法的基本原理,填寫相應的表格;5. 通過使用搜索引擎并查閱相關資料,研究并整理PageRank算法和MapReduce算法的基本原理,填寫相應的表格;6. 對實驗二所設計的網(wǎng)站靜態(tài)首頁實施SEO;7. 使用任意一種編程語言,設計并實現(xiàn)一個簡單的網(wǎng)絡蜘蛛爬行程序。五、實驗報告1完成本項目實驗后,學生應提交實驗報告。2實驗報告格式與要求見附件。電子商務應用實驗報告項目名稱 專業(yè)班級 學 號 姓 名 實驗成績:良批閱教師:2014年 1 月 9 日實驗3搜索引
6、擎及SEO實驗實驗學時: 實驗地點: 實驗日期: 一、實驗目的研究并學習幾種常見的搜索引擎算法,包括網(wǎng)絡蜘蛛爬行策略、中文分詞算法、網(wǎng)頁正文提取算法、網(wǎng)頁去重算法、PageRank和MapReduce算法,了解它們的基本實現(xiàn)原理;運用所學SEO技術對網(wǎng)頁進行優(yōu)化。二、實驗內容和方法1. 研究常用的網(wǎng)絡蜘蛛爬行策略,如深度優(yōu)先策略、廣度優(yōu)先策略、網(wǎng)頁選擇策略、重訪策略和并行策略等,了解其實現(xiàn)原理;2. 研究至少兩種中文分詞算法,了解其實現(xiàn)原理;3. 研究至少兩種網(wǎng)頁正文提取算法,了解其實現(xiàn)原理;4. 研究至少兩種網(wǎng)頁去重算法,了解其實現(xiàn)原理;5. 研究Google的PageRank和MapRed
7、uce算法,了解它們的實現(xiàn)原理;6. 使用所學的SEO技術,對實驗二所設計的網(wǎng)站靜態(tài)首頁實施SEO,在實施過程中需采用如下技術:(1) 網(wǎng)頁標題(title)的優(yōu)化;(2) 選取合適的關鍵詞并對關鍵詞進行優(yōu)化;(3) 元標簽的優(yōu)化;(4) 網(wǎng)站結構和URL的優(yōu)化;(5) 創(chuàng)建robots.txt文件,禁止蜘蛛抓取網(wǎng)站后臺頁面;(6) 網(wǎng)頁內部鏈接的優(yōu)化;(7) Heading標簽的優(yōu)化;(8) 圖片優(yōu)化;(9) 網(wǎng)頁減肥技術。7. 使用C+、C#和Java等任意一種編程語言,設計并實現(xiàn)一個簡單的網(wǎng)絡蜘蛛爬行程序,要求在輸入關鍵詞、設置爬行深度和初始網(wǎng)頁URL之后能夠實現(xiàn)網(wǎng)頁搜索,輸出包含關鍵詞
8、的網(wǎng)頁的URL和網(wǎng)頁標題?!咀ⅲ簩嶒?為補充實驗,不要求每個同學都完成,感興趣者可自行實現(xiàn)該程序,不計入實驗報告評分?!咳?、實驗要求1. 研究幾種常用的網(wǎng)絡蜘蛛爬行策略,填寫相應的表格,表格必須填寫完整;2. 研究兩種中文分詞算法,填寫相應的表格,表格必須填寫完整;3. 研究兩種網(wǎng)頁正文提取算法,填寫相應的表格,表格必須填寫完整;4. 研究兩種網(wǎng)頁去重算法,填寫相應的表格,表格必須填寫完整;5. 研究PageRank算法和MapReduce算法,填寫相應的表格,表格必須填寫完整;6. 提供實施SEO之后的網(wǎng)站靜態(tài)首頁界面和HTML代碼,盡量多地使用所學SEO技術;7. 嚴禁大面積拷貝互聯(lián)網(wǎng)上已
9、有文字資料,盡量用自己的理解來闡述算法原理,必要時可以通過圖形來描述算法;8. 使用任意一種編程語言實現(xiàn)一個簡單的網(wǎng)絡蜘蛛程序,需提供網(wǎng)絡蜘蛛程序完整源代碼及實際運行結果。四、實驗步驟1. 通過使用搜索引擎并查閱相關資料,研究并整理幾種常用的網(wǎng)絡蜘蛛爬行策略相關資料,填寫相應的表格;2. 通過使用搜索引擎并查閱相關資料,研究并整理兩種中文分詞算法的基本原理,填寫相應的表格;3. 通過使用搜索引擎并查閱相關資料,研究并整理兩種網(wǎng)頁正文提取算法的基本原理,填寫相應的表格;4. 通過使用搜索引擎并查閱相關資料,研究并整理兩種網(wǎng)頁去重算法的基本原理,填寫相應的表格;5. 通過使用搜索引擎并查閱相關資料
10、,研究并整理PageRank算法和MapReduce算法的基本原理,填寫相應的表格;6. 對實驗二所設計的網(wǎng)站靜態(tài)首頁實施SEO;7. 使用任意一種編程語言,設計并實現(xiàn)一個簡單的網(wǎng)絡蜘蛛爬行程序。五、實驗結果1. 研究幾種常用的網(wǎng)絡蜘蛛爬行策略并填寫如下表格:策略名稱基本原理參考資料深度優(yōu)先策略深度優(yōu)先搜索是一種在開發(fā)爬蟲早期使用較多的方法。它的目的是要達到被搜索結構的葉結點(即那些不包含任何超鏈的 HYPERLINK /view/394827.htm t _blank HTML文件) 。在一個HTML文件中,當一個超鏈被選擇后,被鏈接的HTML文件將執(zhí)行深度優(yōu)先搜索,即在搜索其余的超鏈結果之
11、前必須先完整地搜索單獨的一條鏈。深度優(yōu)先搜索沿著HTML文件上的超鏈走到不能再深入為止,然后返回到某一個HTML文件,再繼續(xù)選擇該HTML文件中的其他超鏈。當不再有其他超鏈可選擇時,說明搜索已經(jīng)結束。百度百科 深度優(yōu)先搜索: HYPERLINK /view/288277.htm /view/288277.htm廣度優(yōu)先策略寬度優(yōu)先搜索算法(又稱廣度優(yōu)先搜索)是最簡便的圖的搜索算法之一,這一算法也是很多重要的圖的算法的原型。Dijkstra單源最短路徑算法和Prim最小生成樹算法都采用了和寬度優(yōu)先搜索類似的思想。其別名又叫BFS,屬于一種盲目搜尋法,目的是系統(tǒng)地展開并檢查圖中的所有節(jié)點,以找尋結
12、果。換句話說,它并不考慮結果的可能位址,徹底地搜索整張圖,直到找到結果為止。百度百科 廣度優(yōu)先搜索:/view/1242613.htm網(wǎng)頁選擇策略對搜索引擎而言,要搜索互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎不可能,即使全球知名的搜索引擎google也只能搜索整個Internet網(wǎng)頁的30左右。其中的原因主要有兩方面,一是抓取技術的瓶頸。網(wǎng)絡爬蟲無法遍歷所有的網(wǎng)頁;二是存儲技術和處理技術的問題。因此,網(wǎng)絡爬蟲在抓取網(wǎng)頁時。盡量先采集重要的網(wǎng)頁,即采用網(wǎng)頁優(yōu)先抓取策略。網(wǎng)頁選擇策略是給予重要程度、等級較高的Web頁以較高的抓取優(yōu)先級,即Web頁越重要,則越應優(yōu)先抓取。其實質上是一種使網(wǎng)絡爬蟲在一定條件下較快地鎖定
13、互聯(lián)網(wǎng)中被用戶普遍關注的重要信息資源的方法。而實現(xiàn)該策略的前提是正確評測Web頁的重要程度bJ,目前評測的主要指標有PageRank李志義網(wǎng)絡爬蟲的優(yōu)化策略探略,廣東廣州510631重訪策略(1)依據(jù)Web站點的更新頻率確定重訪頻率此法符合實際情況,能夠更有效地管理和利用網(wǎng)絡爬蟲。例如,門戶網(wǎng)站通常每天要不斷地更新信息和添加新的信息,重訪的頻率則以天或小時為周期進行網(wǎng)頁的重訪。(2)不關心Web站點的更新頻率問題,而是間隔一段時間重訪已被抓取的岡頁。其弊端是重復抓取的概率大,容易造成不必要的資源浪費。(3)根據(jù)搜索引擎開發(fā)商對網(wǎng)頁的主觀評價,提供個性化的服務網(wǎng)頁的重訪需要搜索引擎開發(fā)商對主要的
14、站點進行網(wǎng)頁更新頻率的主觀評價,可以根據(jù)需求提供個性化的服務。李志義網(wǎng)絡爬蟲的優(yōu)化策略探略,廣東廣州510631并行策略實施并行策略的核心是在增加協(xié)同工作的爬蟲數(shù)量的同時,科學合理地分配每個爬蟲的任務,盡量避免不同的爬蟲做相同的Web信息抓取。一般通過兩種方法來分配抓取任務,一是按照Web站點所對應的m地址劃分任務,一個爬蟲只需遍歷某一組地址所包含Web頁即可;另一種方法是依據(jù)Web站點的域名動態(tài)分配爬行任務,每個爬蟲完成某個或某些域名段內Web信息的搜集。李志義網(wǎng)絡爬蟲的優(yōu)化策略探略,廣東廣州510631注:參考資料格式如下:1 developerWorks中國:Java 設計模式. /de
15、veloperworks/cn/java/design/.2 閻宏. Java與模式. 北京: 電子工業(yè)出版社, 2004.3 于滿泉, 陳鐵睿, 許洪波. 基于分塊的網(wǎng)頁信息解析器的研究與設計. 計算機應用, 2005, 25(4).2. 研究兩種中文分詞算法并填寫如下表格:算法名稱基本原理參考資料算法一:最大匹配算法最大匹配算法是一種有著廣泛應用的機械分詞方法,該方法依據(jù)一個分詞詞表和一個基本的切分評估原則即“長詞優(yōu)先”原則,來進行分詞張玉茹 肇慶526070中文分詞算法之最大匹配算法的研究算法二:基于無詞典的分詞算法基于漢字之間的互信息和t-測試信息的分詞算法。漢語的詞可以理解為字與字之
16、間的穩(wěn)定結合,因此。如果在上下文中某幾個相鄰的字出現(xiàn)的次數(shù)越多,那么,這幾個字成詞的可能性就很大。根據(jù)這個道理引入互信息(Mutual information)和t-測試值(tscore)的概念,用來表示兩個漢字之間結合關系的緊密程度。該方法的分詞原理是:對于一個漢字字符串,計算漢字之間的互信息和t-測試差信息,選擇互信息和t-測試差信息大的組成詞。該方法的局限性是只能處理長度為2的詞,且對于一些共現(xiàn)頻率高的但并不是詞的字組,常被提取出來,并且常用詞的計算開銷大,但可以識別一些新詞,消除歧義。對于一個成熟的分詞系統(tǒng)來說,不可能單獨依靠某一個算法來實現(xiàn),都需要綜合不同的算法,在實際的應用中,要根
17、據(jù)具體的情況來選擇不同的分詞方案。劉紅芝 徐州醫(yī)學院圖書館 江蘇徐州221004中文分詞技術的研究3. 研究兩種網(wǎng)頁正文提取算法并填寫如下表格:算法名稱基本原理參考資料算法一基于相似度的中文網(wǎng)頁正文提取算法正文文本在HTML源文件中有兩種修飾方式:有標簽提示和無標簽提示。有標簽文本中標簽的作用一般包含分塊信息、表格信息、或者文本的字體顏色信息等。這種文本采用基于分塊的方法能有不錯的效果。而無標簽信息的正文文本處理之后不在分塊中,也不在表格內。采用先分塊后提取放入網(wǎng)頁正文提取方法,無法達到理想的精度。本文提出根據(jù)相似度來提取網(wǎng)頁正文的算法。算法分為兩個步驟:首先取出網(wǎng)頁中包含中文最多的行,然后利
18、用鑒于此余弦相似度匹配和標簽相似度來提取網(wǎng)頁正文。該算法最大的特點是避免了上述的分塊步驟。熊子奇張暉林茂松(西南科技大學計算機科學與技術學院四川綿陽621010)基于相似度的中文網(wǎng)頁正文提取算法算法二基于FFT的網(wǎng)頁正文提取算法研究與實現(xiàn)給定一個底層網(wǎng)頁的HTML源文件,求解最佳的正文區(qū)問。對于任何字符串區(qū)間(b,e),(O6ess為源文件的長度S為源文件),都有一個評價值,問題轉化為求評價函數(shù)的最大解。李蕾,王勁林,白鶴,胡晶晶基于FFT的網(wǎng)頁正文提取算法研究與實現(xiàn)4. 研究兩種網(wǎng)頁去重算法并填寫如下表格:算法名稱基本原理參考資料算法一:同源網(wǎng)頁去重URL哈希值計算構造一個適當?shù)墓:瘮?shù)H可
19、得到從網(wǎng)頁URL字符序列到哈希值的映射,相同的URL字符串會得到相同的哈希值,從而說明該URL已被下載過在對解析出來的URL進行預處理后,以其各字符對應的碼值按下式計算出其哈希值:式中為解析出的網(wǎng)頁URL集合;Ai為Ui的哈希地址;ni為對Ui進行預處理后的字串長度;Ck為對Ui進行預處理后左起第k個字符的碼值;S為哈希槽容量上式表示從URL字符串U到其哈希散列值H的映射關系輸入:URL;S輸出:URL哈希值算法描述:(1)針對URL初始化;(2)按照式(1)進行URI。哈希值計算;(3)釋放空間,返回哈希值高凱,王永成, 肖君上海200030網(wǎng)頁去重策略算法二:基于網(wǎng)頁內容的去重用網(wǎng)頁主體內
20、容間的相似程度來判斷它們是否為近似相同,而網(wǎng)頁主體采用主題概念進行表示當兩個網(wǎng)頁主體相似比例達到設定的經(jīng)驗閾值時就認為它們?yōu)榻葡嗤?,不需重復下載網(wǎng)頁Ui(i1,n)使用特征向量進行表示,其主題概念權值wij采用以tfidf為主其他策略為輔的方式來確定,上式對tfidf算子(用t表示)乘以一個因子C來表示不同類型的頁面tags對權值的影響,目的是對位于不同位置的詞條作不同的加權處理通過試驗分析可以確定針對不同tag標記相應的系數(shù)C的經(jīng)驗值同時綜合考慮概念長因子z、詞性因子P等諸多因素,加權體系可表示為上述諸多因素的一個函數(shù),最后輸出最能代表該文檔的優(yōu)個權值較大的主題概念而用來判斷兩個網(wǎng)頁A和B
21、之間相似的標準是通過統(tǒng)計主題概念詞串的共現(xiàn)個數(shù)如果共現(xiàn)個數(shù)大于預先設定的經(jīng)驗閾值,就認為網(wǎng)頁A和B為近似相似高凱,王永成, 肖君上海200030網(wǎng)頁去重策略5. 研究PageRank算法和MapReduce算法并填寫如下表格:算法名稱基本原理參考資料PageRankPageRank超鏈分析算法是Google搜索引擎采用的頁面排序算法。Google沿用了傳統(tǒng)搜索引擎的架構設計,其與傳統(tǒng)的搜索引擎最大的不同之處在于它對網(wǎng)頁進行了排序處理,使在最重要的網(wǎng)頁出現(xiàn)在檢索結果的最前面,其核心就是PageRank超鏈分析算法。通過計算出網(wǎng)頁的PageRank值,從而決定網(wǎng)頁在查淘返回結果集中的位置。Page
22、Rank值越高的網(wǎng)頁,在返回結果中越靠前。該算法基于下面2個前提:前提1:一個網(wǎng)頁被多次鏈接,則它可能是很重要的;一個網(wǎng)頁雖然沒有被多次引用,但是被重要的網(wǎng)頁鏈接,則它也可能是很重要的;一個網(wǎng)頁的重要性平均地傳遞到它所鏈接的網(wǎng)頁。前提2:假定用戶一開始隨機地訪問網(wǎng)頁集合中的一個網(wǎng)頁,以后跟隨網(wǎng)頁的鏈接向前瀏覽網(wǎng)頁,從不回退瀏覽,而瀏覽者選擇本頁中任意一個鏈接前進的概率是相等的。在每個一個頁面,瀏覽者都有可能對本頁面的鏈接不再感興趣,從而隨機選擇一個新的頁面開始新的瀏覽。這個離開的可能設為d。從而頁面的PageRank值就是瀏覽者訪問到該網(wǎng)頁的概率。設定一個網(wǎng)頁A,假設指向它的網(wǎng)頁有T1,T2,Tn。令C(A)為A出發(fā)指向其它頁面的鏈接數(shù)目,PR(A)為A的PageRank,d為衰減因子(通常設為085),則有:陳杰 浙江大學 主題搜索引擎中網(wǎng)絡蜘蛛搜索策略研究MapReduceMapReduc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024解除土地租賃合同的樣本
- Spermidine-hydrochloride-Standard-生命科學試劑-MCE
- Sodium-glycolate-98-Sodium-hydroxyacetate-98-生命科學試劑-MCE
- 2024民辦幼兒園承包合同
- 五年級數(shù)學(小數(shù)乘法)計算題專項練習及答案
- 四年級數(shù)學(上)計算題專項練習及答案
- 高效農(nóng)業(yè)技術可行性分析
- 教育實踐報告范文7篇
- 有關工程實習報告(30篇)
- 違規(guī)飲酒的危害心得體會范文(3篇)
- (162題)2024時事政治考試題庫及答案
- 人工智能推動農(nóng)業(yè)現(xiàn)代化發(fā)展
- 2024屆溫州高三一模數(shù)學試題含答案
- 食品檢驗檢測技術專業(yè)職業(yè)生涯發(fā)展
- 抖音矩陣員工培訓課件
- 慢性膽囊炎的護理問題及護理措施
- wifi模塊行業(yè)分析
- 小學語文中高年級單元整體教學設計的實踐研究(結題報告)
- 4s店防污染應急預案
- 2023北京初一數(shù)學各區(qū)第一學期期末考試題匯編(含標準答案)
- 高速廣告策劃方案
評論
0/150
提交評論