下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、目 錄1 題目.22 課題研究的目的和意義.23 課題總體設(shè)計(jì)方案.24 若干關(guān)鍵技術(shù)及實(shí)驗(yàn).4 4.1 關(guān)鍵技術(shù)44.2 應(yīng)用示例55 可行性論證.66 參考文獻(xiàn).61 題目 外網(wǎng)檢索 外網(wǎng)檢索,指的是對(duì)指定的外部網(wǎng)站內(nèi)容進(jìn)行檢索。站內(nèi)搜索引擎已經(jīng)日漸成為一個(gè)網(wǎng)站必不可缺的重要組成部分。而隨著人們對(duì)于信息獲取的需求日益擴(kuò)大以及互聯(lián)網(wǎng)絡(luò)的不斷發(fā)展,單純的站內(nèi)搜索已經(jīng)不能滿足訪問(wèn)者以及網(wǎng)站自身的要求,對(duì)于相關(guān)或相似網(wǎng)站的信息進(jìn)行檢索,即外網(wǎng)檢索,也日漸重要。另一方面,越來(lái)越多的企業(yè),除了關(guān)注自身的信息之外,還要從相似或相關(guān)行業(yè)的企業(yè)收集了解相關(guān)信息,對(duì)指定網(wǎng)站的內(nèi)容進(jìn)行收集,并提供檢索功能。2
2、課題研究的目的和意義 外網(wǎng)檢索無(wú)論從本身還是相對(duì)于站內(nèi)檢索來(lái)看,都存在著一定的限制:網(wǎng)站內(nèi)容會(huì)極其豐富的,即數(shù)據(jù)量可能是海量的;其他網(wǎng)站的內(nèi)容是不可控的,這樣就為建立高效快速的檢索機(jī)制帶來(lái)一定的難度;另外,檢索的要求也可能是多樣復(fù)雜的。 利用fujitsu公司的interstage shunsaku data manager,中文名稱“瞬索xml數(shù)據(jù)搜索引擎”(以下簡(jiǎn)稱瞬索),為外網(wǎng)檢索系統(tǒng)提供檢索功能,以上諸多限制就可以得到很好的解決。瞬索,是一款實(shí)現(xiàn)了對(duì)xml格式數(shù)據(jù)進(jìn)行快速檢索,具備高性能、高可用性以及高信賴性的中間件產(chǎn)品,它在數(shù)據(jù)檢索方面可以應(yīng)對(duì):海量數(shù)據(jù)需求,低成本超高速的檢索,高度
3、復(fù)雜的檢索條件以及超高速并發(fā)性的搜索請(qǐng)求等等。 因此,以瞬索提供的強(qiáng)大的檢索功能為核心,輔以必要的網(wǎng)頁(yè)收集和文檔轉(zhuǎn)換操作,完全可以打造一個(gè)功能強(qiáng)大、性能優(yōu)越的外網(wǎng)檢索系統(tǒng),為網(wǎng)站或企業(yè)的發(fā)展提供更強(qiáng)大的助力。3 課題總體設(shè)計(jì)方案【方案簡(jiǎn)介】 整個(gè)系統(tǒng)的數(shù)據(jù)處理流程大致如此:從指定的外部網(wǎng)站收集數(shù)據(jù),對(duì)采集的數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)換后入庫(kù),最后根據(jù)庫(kù)存數(shù)據(jù)提供外網(wǎng)檢索功能。下圖就是處理流程的簡(jiǎn)單示意圖: 處 理 數(shù) 據(jù)采 集 數(shù) 據(jù) 檢 索 數(shù) 據(jù)相應(yīng)地,整個(gè)系統(tǒng)由對(duì)應(yīng)于上述處理流程的三部分組成: 1.網(wǎng)絡(luò)采集爬蟲(chóng),負(fù)責(zé)數(shù)據(jù)收集2.xml數(shù)據(jù)轉(zhuǎn)換,進(jìn)行數(shù)據(jù)處理3.外網(wǎng)檢索服務(wù),提供數(shù)據(jù)檢索 【方案構(gòu)成
4、】 下圖為本方案的體系結(jié)構(gòu)簡(jiǎn)圖:網(wǎng)絡(luò)采集爬蟲(chóng) 主要就是完成數(shù)據(jù)采集的工作。利用網(wǎng)絡(luò)爬蟲(chóng),就指定網(wǎng)站的內(nèi)部進(jìn)行遍歷,收集用于檢索的源數(shù)據(jù)。收集到的數(shù)據(jù),將由xml數(shù)據(jù)轉(zhuǎn)換部分進(jìn)行處理。 xml數(shù)據(jù)轉(zhuǎn)換 對(duì)收集到的數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)化為xml數(shù)據(jù),并且導(dǎo)入到瞬索中。 瞬索使用的是xml型數(shù)據(jù),因此在設(shè)計(jì)時(shí),不要像rdb(指關(guān)系數(shù)據(jù)庫(kù),下同)那樣,進(jìn)行表格和字段的設(shè)計(jì)、正規(guī)化處理等,大大地減輕設(shè)計(jì)負(fù)擔(dān)。瞬索提供了功能強(qiáng)大的api(包括c和java)對(duì)數(shù)據(jù)進(jìn)行操作,使得我們能夠根據(jù)用戶的實(shí)際需要,很方便地實(shí)現(xiàn)中間數(shù)據(jù)到xml數(shù)據(jù)的轉(zhuǎn)換及導(dǎo)入。在性能方面,由于使用了不需要索引的全文查詢方式,使性能得到了保
5、證,因此不再需要像現(xiàn)存rdb那樣進(jìn)行所必不可少的優(yōu)化處理,節(jié)省設(shè)計(jì)成本以及維護(hù)成本。 外網(wǎng)檢索服務(wù) 通過(guò)類似google的外網(wǎng)檢索的web界面,提供具有強(qiáng)大功能的外網(wǎng)檢索服務(wù)。 瞬索具有非常強(qiáng)大的全文檢索能力,進(jìn)行檢索的時(shí)候,用戶可以輸入任何想要搜索的關(guān)鍵字,不限長(zhǎng)度和個(gè)數(shù),復(fù)雜條件任意組合,從而檢索出用戶所需要的目標(biāo)數(shù)據(jù)。即使面對(duì)外部網(wǎng)站的海量數(shù)據(jù)內(nèi)容,依然可以為用戶提供準(zhǔn)確的查找結(jié)果。 瞬索使用了sigma技術(shù)的查詢方法,不論是在只有一個(gè)查詢條件時(shí),還是在多查詢條件復(fù)雜組合時(shí),都能實(shí)現(xiàn)穩(wěn)定的查詢性能。無(wú)論查詢關(guān)鍵詞有多少個(gè),都能通過(guò)sigma 技術(shù)把這些關(guān)鍵詞合成起來(lái)生成一個(gè)automat
6、on,這個(gè)automaton對(duì)數(shù)據(jù)依次進(jìn)行匹配,并找到符合查詢條件的數(shù)據(jù)。所以,無(wú)論查詢條件有多復(fù)雜,也與只有一個(gè)查詢條件的時(shí)候一樣,只要對(duì)所有數(shù)據(jù)進(jìn)行一次查詢處理,就能實(shí)現(xiàn)無(wú)遺漏、穩(wěn)定且快速的查詢。 出色的性能體現(xiàn)的另一方面是高速多載運(yùn)行技術(shù),使用該技術(shù),即使在使用者大量增加,查詢要求量大的情況下,依然能夠保證穩(wěn)定的查詢性能。瞬索通過(guò)把大量的查詢要求進(jìn)行一體化處理,可以一次性地完成查詢處理,并把查詢結(jié)果進(jìn)行分散反饋。因此,即使是在使用人數(shù)多,使用者不確定的internet環(huán)境中,瞬索依舊能確保穩(wěn)定的查詢性能。這與以往使用rdb的查詢系統(tǒng)相比,格外顯得成果顯著。 此外在瞬索硬件上也具有一些優(yōu)越
7、性能。例如,瞬索的刀鋒服務(wù)器的有效利用技術(shù),該技術(shù)是指在查詢處理時(shí),數(shù)據(jù)自動(dòng)地分散到多個(gè)刀鋒服務(wù)器上同時(shí)進(jìn)行并列處理,所以,即使是在處理大量的數(shù)據(jù)時(shí)也能保證穩(wěn)定的查詢性能。在以往的系統(tǒng)中,把cpu的計(jì)算能力全部有效利用到數(shù)據(jù)的處理上本來(lái)就是不可能的事情,而且,即使把cpu數(shù)增加到兩倍,處理性能也未必為原來(lái)的兩倍。瞬索通過(guò)使用sigma 技術(shù)和高速多載運(yùn)行技術(shù),可以在各種情況下保證穩(wěn)定的查詢性能,只要將數(shù)據(jù)分散到各個(gè)cpu(刀鋒服務(wù)器)上,通過(guò)這些cpu的同時(shí)運(yùn)作,就可以實(shí)現(xiàn)全cpu 的同時(shí)查詢處理。也就是說(shuō),當(dāng)cpu數(shù)增加為兩倍時(shí),查詢性能也增長(zhǎng)為兩倍。這樣,利用刀鋒服務(wù)器技術(shù),只要根據(jù)查詢數(shù)
8、據(jù)量和查詢時(shí)間的要求,簡(jiǎn)單地增設(shè)cpu,就能使性能得到保證。 還有,瞬索具有應(yīng)對(duì)故障的自動(dòng)退縮運(yùn)行功能,當(dāng)cpu發(fā)生故障時(shí),會(huì)自動(dòng)地從整個(gè)系統(tǒng)中分離。并且,相應(yīng)數(shù)據(jù)內(nèi)容也會(huì)自動(dòng)地從故障cpu中退縮出來(lái),轉(zhuǎn)到正常的cpu上再進(jìn)行重新配置。這樣,即使發(fā)生故障,也可以在不影響整個(gè)系統(tǒng)運(yùn)行情況下進(jìn)行修復(fù),從而可以保證系統(tǒng)長(zhǎng)時(shí)間無(wú)間斷正常運(yùn)行。4 若干關(guān)鍵技術(shù)及實(shí)驗(yàn)4.1 關(guān)鍵技術(shù)1】url的遍歷和紀(jì)錄 這點(diǎn)larbin做得非常的好,其實(shí)對(duì)于url的遍歷是很簡(jiǎn)單的,例如: catwhatyougot|tr|gawkprint$2|pcregrephttp:/ 就可以得到一個(gè)所由的url列表 2】多進(jìn)程v
9、s多線程 各有優(yōu)點(diǎn)了,現(xiàn)在一臺(tái)普通的pc例如一天可以輕松爬下5個(gè)g的數(shù)據(jù)。大約20萬(wàn)網(wǎng)頁(yè)。 3】時(shí)間更新控制 最傻的做法是沒(méi)有時(shí)間更新權(quán)重,一通的爬,回頭再一通的爬。 通常在下一次爬的的數(shù)據(jù)要跟上一次進(jìn)行比較,如果連續(xù)5次都沒(méi)有變化,那么將爬這個(gè)網(wǎng)頁(yè)的時(shí)間間隔擴(kuò)大1倍。 若一個(gè)網(wǎng)頁(yè)在連續(xù)5次爬取的時(shí)候都有更新,那么將設(shè)置的爬取時(shí)間縮短為原來(lái)的12。 注意,效率是取勝的關(guān)鍵之一。 4】爬的深度是多少呢? 看情況了。如果你比較牛,有幾萬(wàn)臺(tái)服務(wù)器做網(wǎng)絡(luò)爬蟲(chóng),我勸您跳過(guò)這一點(diǎn)。 如果你同我一樣只有一臺(tái)服務(wù)器做網(wǎng)絡(luò)爬蟲(chóng),那么這樣一個(gè)統(tǒng)計(jì)您應(yīng)該知道: 網(wǎng)頁(yè)深度:網(wǎng)頁(yè)個(gè)數(shù):網(wǎng)頁(yè)重要程度 0:1:10 1:2
10、0:8 2:600:5 3:2000:2 4above:6000:一般無(wú)法計(jì)算 爬到三級(jí)就差不多了,再深入一是數(shù)據(jù)量擴(kuò)大了34倍,二是重要度確下降了許多.5】爬蟲(chóng)一般不之間爬對(duì)方的網(wǎng)頁(yè),一般是通過(guò)一個(gè)proxy出去,這個(gè)proxy有緩解壓力的功能,因?yàn)楫?dāng)對(duì)方的網(wǎng)頁(yè)沒(méi)有更新的時(shí)候,只要拿到header的tag就可以了,沒(méi)有必要全部傳輸一次了,可以大大節(jié)約網(wǎng)絡(luò)帶寬。 apachewebserver里面紀(jì)錄的304一般就是被cache的了。 4.2 應(yīng)用示例新聞?dòng)嗛喯到y(tǒng)網(wǎng)絡(luò)爬蟲(chóng):爬蟲(chóng)部分(以下稱爬蟲(chóng))的功能是定期從網(wǎng)絡(luò)上收集新出現(xiàn)的新聞網(wǎng)頁(yè);將其內(nèi)容以增量的形式存儲(chǔ)起來(lái);計(jì)算其與以往新聞的相關(guān)度,構(gòu)
11、成按時(shí)間組織的新聞事件序列。爬蟲(chóng)所有處理的網(wǎng)頁(yè)可以分為兩個(gè)類別:目錄型網(wǎng)頁(yè)和內(nèi)容型網(wǎng)頁(yè)。目錄型網(wǎng)頁(yè)是一些新聞門戶網(wǎng)頁(yè)(例如:爬蟲(chóng)工作的第一步是找到目錄型網(wǎng)頁(yè)中最新的新聞鏈接。對(duì)于目錄型網(wǎng)頁(yè),我們只關(guān)心其中的鏈接。這些鏈接頁(yè)可以分為兩個(gè)類別:目錄型鏈接,新聞型鏈接。其中目錄型鏈接指向另一些目錄型網(wǎng)頁(yè);而新聞型鏈接指向?qū)嶋H的新聞網(wǎng)頁(yè),后者是我們需要的。這兩類鏈接在網(wǎng)頁(yè)結(jié)構(gòu)上的最大區(qū)別是:目錄型鏈接在頁(yè)面中很穩(wěn)定,一般不會(huì)被頻繁更換;而新聞型鏈接則更新頻繁,且一旦被替換就不會(huì)再在網(wǎng)頁(yè)中出現(xiàn)。根據(jù)這個(gè)特點(diǎn)爬蟲(chóng)過(guò)濾目錄型鏈接的方法是:為每一個(gè)目錄型網(wǎng)頁(yè)建立一個(gè)“舊鏈接”文件,其中記錄上次訪問(wèn)該網(wǎng)頁(yè)時(shí)找到
12、的所有鏈接;根據(jù)這個(gè)列表就可以找到兩次訪問(wèn)間隔中該網(wǎng)頁(yè)中新添加的鏈接。該方法的可行性正是利用到目錄型鏈接與新聞型鏈接的特點(diǎn):目錄型鏈接在頁(yè)面中一般不會(huì)變化,所以除第一次以外爬蟲(chóng)都不會(huì)認(rèn)為一個(gè)目錄型鏈接是“新鏈接”;新聞型鏈接不會(huì)重復(fù)幾次出現(xiàn)在頁(yè)面上,保證了每個(gè)新聞鏈接只被抓取一次。從目錄型網(wǎng)頁(yè)中抓取最新的新聞鏈接之后,爬蟲(chóng)的第二步工作是讀取鏈接指向的新聞網(wǎng)頁(yè)中的內(nèi)容。新聞型網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu)是:其主要內(nèi)容是一段文字,其中可能有少量鏈接(說(shuō)明型鏈接)、也可能附有圖片;網(wǎng)頁(yè)主要內(nèi)容周圍有很多無(wú)用信息(例如目錄型鏈接,熱點(diǎn)新聞鏈接,廣告內(nèi)容等)。正文的特點(diǎn)是純文字占主要部分,無(wú)用信息則是鏈接占主要部分。
13、過(guò)濾新聞?lì)惥W(wǎng)頁(yè)中的無(wú)用信息,爬蟲(chóng)的處理方法是:記錄網(wǎng)頁(yè)中出現(xiàn)的p和/p標(biāo)記,根據(jù)該標(biāo)記將網(wǎng)頁(yè)中的文字分成若干塊;對(duì)每一塊文字分別計(jì)算其“文字鏈接比”(總文字?jǐn)?shù)/總鏈接數(shù))和“文本文字鏈接文字比”(純文本文字/鏈接中文字),根據(jù)這兩個(gè)指標(biāo)的值判斷該塊文字是否為正文。提取新聞圖片的方法是:提取新聞標(biāo)題后正文之前的最后一個(gè)jpg圖片。提取新聞網(wǎng)頁(yè)正文過(guò)程中,另一項(xiàng)附屬工作是利用新聞網(wǎng)頁(yè)的結(jié)構(gòu)提取新詞,優(yōu)化我們用來(lái)切詞的詞典。在新聞?lì)惥W(wǎng)頁(yè)中除了上面提到的兩類鏈接外,另有一種鏈接:說(shuō)明類鏈接。該類鏈接標(biāo)記在新聞?wù)闹谐霈F(xiàn)的“新穎詞匯”之上,其鏈接的網(wǎng)頁(yè)是對(duì)該詞匯的解釋?!靶路f詞匯”的幾個(gè)特點(diǎn)是:一般并不
14、出現(xiàn)在我們使用的詞典內(nèi);能很好的體現(xiàn)該條新聞的特點(diǎn);網(wǎng)頁(yè)中的鏈接直接起到了切詞的工作。利用這些特點(diǎn),在獲取正文的同時(shí),爬蟲(chóng)將正文中鏈接標(biāo)記的詞匯添加到切詞詞典中去。爬蟲(chóng)的最后一個(gè)工作是計(jì)算“最新新聞”的摘要、計(jì)算“最新新聞”與“以往新聞”的相關(guān)度、按照類別將“最新新聞”存儲(chǔ)到“新聞日志”文件中去。新聞的類別直接由獲取該新聞的目錄型網(wǎng)頁(yè)的類別決定(該類別記錄在baseurl.ini中)?!靶侣勅罩尽钡闹杏涗浀膬?nèi)容包括:新聞標(biāo)題、新聞獲取時(shí)間、新聞網(wǎng)頁(yè)鏈接、新聞中圖片鏈接、新聞?wù)?、新聞?wù)?、新聞?lái)源、相關(guān)新聞列表。使用summary類對(duì)新聞?wù)挠?jì)算計(jì)算新聞?wù)?。使用similarity類分別計(jì)算兩條新聞“新聞標(biāo)題”和“新聞?wù)摹钡南嚓P(guān)度,最后將兩個(gè)相關(guān)度加權(quán)合并成一個(gè)相關(guān)度,將相關(guān)度大于一個(gè)閾值的新聞放入“相關(guān)新聞列表”中。這樣做的原因是:新聞標(biāo)題中的詞匯更能夠體現(xiàn)新聞的內(nèi)容。5 可行性論證該方案具有以下優(yōu)勢(shì): 1.無(wú)需索引,降低設(shè)計(jì)和維護(hù)成本2.利用瞬索,提供強(qiáng)大而快速的檢索功能3.實(shí)現(xiàn)外網(wǎng)檢索,有效利用外網(wǎng)信息4.系統(tǒng)擴(kuò)展升級(jí)方便迅速 可以在需要提供外網(wǎng)檢索功能的大型網(wǎng)站或要求對(duì)特定網(wǎng)站進(jìn)行信息檢索的企業(yè)應(yīng)用.6 參考文獻(xiàn)1張宏林,蔡銳.visual c+數(shù)字圖像模式識(shí)別技術(shù)及工程實(shí)踐m.北京:人民郵電出版社,20
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022-2027年中國(guó)網(wǎng)紅餐廳行業(yè)市場(chǎng)深度評(píng)估及投資前景預(yù)測(cè)報(bào)告
- 2025年中國(guó)燃油濾紙行業(yè)市場(chǎng)前瞻與投資戰(zhàn)略規(guī)劃分析報(bào)告
- 二零二五年高端住宅區(qū)建筑工程清包施工合同6篇
- 2020-2025年中國(guó)汽車焊接軸市場(chǎng)供需格局及投資規(guī)劃研究報(bào)告
- 2025年塑鋁箔復(fù)合板行業(yè)深度研究分析報(bào)告
- 2024私人房屋買賣合同協(xié)議
- 二零二五年度證券經(jīng)紀(jì)代理合同范本4篇
- 基于2025年度市場(chǎng)需求的廣告投放代理合同3篇
- 二零二五年度網(wǎng)絡(luò)安全監(jiān)測(cè)與托管服務(wù)合同
- 2025版流產(chǎn)手術(shù)醫(yī)院與患者術(shù)后隨訪服務(wù)協(xié)議4篇
- 火災(zāi)安全教育觀后感
- 農(nóng)村自建房屋安全協(xié)議書(shū)
- 快速康復(fù)在骨科護(hù)理中的應(yīng)用
- 國(guó)民經(jīng)濟(jì)行業(yè)分類和代碼表(電子版)
- ICU患者外出檢查的護(hù)理
- 公司收購(gòu)設(shè)備合同范例
- 廣東省潮州市2023-2024學(xué)年高二上學(xué)期語(yǔ)文期末考試試卷(含答案)
- 2024年光伏發(fā)電項(xiàng)目EPC總包合同
- 子女放棄房產(chǎn)繼承協(xié)議書(shū)
- 氧化還原反應(yīng)配平專項(xiàng)訓(xùn)練
- 試卷(完整版)python考試復(fù)習(xí)題庫(kù)復(fù)習(xí)知識(shí)點(diǎn)試卷試題
評(píng)論
0/150
提交評(píng)論