版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于企業(yè)深度挖掘型的新型垂直搜索引擎設(shè)計(jì),搜索引擎論文目錄式搜索的用戶界面基本上都是分級(jí)構(gòu)造,提供幾個(gè)大類入口,用戶一級(jí)一級(jí)地向下查詢,經(jīng)過若干人工搜索后找到需要查詢的結(jié)果.它固然能夠找到需要的信息,但是其死鏈接較多,要依靠手工操作,根據(jù)分類逐層的搜索才能找到,檢索速度非常慢,有失搜索的功能.搜索引擎是一種信息檢索工具,要極大縮短人們查找信息的時(shí)間,來(lái)最大化地提升了人們的工作效率.(2)全文搜索引擎的缺陷是檢索功能有限全文搜索引擎它擁有詞命中率不高,范疇檢索功能有限,沒有截詞檢索功能.它的效率好不好得根據(jù)各站的技術(shù)斷定.(3)本文關(guān)鍵詞語(yǔ)搜索的缺陷是信息量大,良莠不齊本文關(guān)鍵詞語(yǔ)搜索返回的信息太多,需要用戶明確知道自個(gè)要找什么,然后理出一個(gè)清楚明晰的本文關(guān)鍵詞語(yǔ)進(jìn)行搜索,否則會(huì)搜索出很多無(wú)關(guān)信息,這些信息良莠不齊,魚龍混雜,需要用戶必須從結(jié)果中逐一進(jìn)行挑選識(shí)別后才能使用.假如輸入多個(gè)本文關(guān)鍵詞語(yǔ)進(jìn)行查找,那么搜出的信息才可能相對(duì)減少,這樣就使得人們感到浪費(fèi)時(shí)間很是不方便.同時(shí)本文關(guān)鍵詞語(yǔ)搜索不能把多方面的內(nèi)容融為一體自動(dòng)過濾提取最有價(jià)值的內(nèi)容.(4)模糊搜索的缺陷是準(zhǔn)確率低模糊搜索是建立在本文關(guān)鍵詞語(yǔ)搜索理論基礎(chǔ)上的同義詞搜索,只要輸入本文關(guān)鍵詞語(yǔ),該本文關(guān)鍵詞語(yǔ)的所有同義詞信息都被搜索出來(lái),留給用戶的就是成千上萬(wàn)的信息.由于輸入的搜索請(qǐng)求是模糊的,所以也無(wú)法在最短的時(shí)間內(nèi),幫助用戶最快地找到所需要的準(zhǔn)確信息.用戶假如要找到準(zhǔn)確的信息就得一次次地輸入多個(gè)本文關(guān)鍵詞語(yǔ)才可能找到,這樣就顯得比擬費(fèi)事了.2基于企業(yè)深度挖掘型的新型垂直搜索引擎2.1深度挖掘型搜索的優(yōu)點(diǎn)通過對(duì)元數(shù)據(jù)信息進(jìn)入深度加工,提供用戶專業(yè)性、功能性、關(guān)聯(lián)性、用戶信息管理以及信息發(fā)布互動(dòng)等功能的網(wǎng)頁(yè)搜索,能很好地知足用戶高要求的搜索信息的需求.專業(yè)的元數(shù)據(jù)屬性構(gòu)造背后需要一個(gè)強(qiáng)大專業(yè)人士組成的團(tuán)隊(duì).這些專業(yè)人士對(duì)該領(lǐng)域的元數(shù)據(jù)模型進(jìn)行專業(yè)的分析、關(guān)聯(lián)整合,再通過搜索技術(shù)按這些元數(shù)據(jù)模型把這些信息組織呈現(xiàn)給用戶.2.2垂直搜索引擎的體系構(gòu)造搜索引擎[1]系統(tǒng)一般由網(wǎng)頁(yè)抓取模塊、信息抽取和索引模塊、界面及檢索模塊3大模塊組成,華而不實(shí)網(wǎng)頁(yè)抓取模塊包括網(wǎng)頁(yè)信息采集和網(wǎng)頁(yè)預(yù)處理;信息抽取和索引模塊包括Web信息抽取和建立倒排索引;界面及檢索模塊包括查詢界面.搜索引擎的體系構(gòu)造如此圖1所示.網(wǎng)絡(luò)信息采集:主要是指通過Web頁(yè)面之間的鏈接關(guān)系,從Web上自動(dòng)地獲取頁(yè)面信息,并且隨著鏈接不斷向所需要的Web頁(yè)面擴(kuò)展的經(jīng)過.實(shí)現(xiàn)這一經(jīng)過主要是由Web信息采集器(WebCrawler)來(lái)完成的.網(wǎng)頁(yè)預(yù)處理:在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,對(duì)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)化和清理.從外圍系統(tǒng)或源系統(tǒng)中把數(shù)據(jù)導(dǎo)入,轉(zhuǎn)化一般指對(duì)數(shù)據(jù)的進(jìn)行統(tǒng)一(包括數(shù)據(jù)格式和數(shù)據(jù)編碼的統(tǒng)一),然后把一些垃圾數(shù)據(jù)清理掉,保存有用數(shù)據(jù).Web信息抽取:是設(shè)計(jì)Wrapper包裝器和抽取規(guī)則抽取主題相關(guān)信息.建立倒排索引:利用垂直搜索的相關(guān)技術(shù)如中文分詞技術(shù)、索引排序技術(shù)等技術(shù)建立索引規(guī)則.界面及檢索模塊:界面提供用戶接口接收用戶查詢請(qǐng)求、反應(yīng)查詢結(jié)果.搜索引擎為用戶提供通過輸入本文關(guān)鍵詞語(yǔ)來(lái)得到結(jié)果的輸入輸出的可視化界面.用戶在本文關(guān)鍵詞語(yǔ)輸入界面中,輸入檢索關(guān)鍵語(yǔ)句、本文關(guān)鍵詞語(yǔ)以及各種檢索的關(guān)鍵條件;在查詢結(jié)果輸出界面,搜索引擎將檢索到的結(jié)果按一定規(guī)則輸出顯示.2.3構(gòu)建良好深度挖掘型垂直搜索引擎的要求(1)高效的可擴(kuò)展的信息檢索器作為垂直搜索引擎的最基本環(huán)節(jié),信息檢索器(Crawler)為了知足垂直搜索的后續(xù)要求,信息檢索器必須能夠智能地獲取制定網(wǎng)絡(luò)數(shù)據(jù),并且返回具體報(bào)告,作為后續(xù)分析提供參數(shù),另外檢索器必須實(shí)現(xiàn)良好的擴(kuò)展性,提供各種規(guī)則過濾接口,以便于知足垂直搜索針對(duì)特定域的檢索要求.(2)模板智能生成匹配,元數(shù)據(jù)抽取做為垂直搜索引擎的一個(gè)重要環(huán)節(jié),利用現(xiàn)有的智能學(xué)習(xí)方式方法和算法,進(jìn)行改良,研究智能模板生成,以及人工訓(xùn)練方式方法,研究網(wǎng)頁(yè)元數(shù)據(jù)抽取,實(shí)現(xiàn)分散的元數(shù)據(jù)復(fù)原、聚集.(3)基于語(yǔ)義網(wǎng),超鏈接的文本分類,定向采集對(duì)于宏大信息量的網(wǎng)頁(yè)庫(kù),即使是指定域的網(wǎng)頁(yè),仍然存在大量的不關(guān)聯(lián)和極少關(guān)聯(lián)的網(wǎng)頁(yè),利用現(xiàn)有的超鏈接辨別,信息提取判定,結(jié)合對(duì)網(wǎng)頁(yè)文本特征提取,獲取文本的權(quán)重,主體相關(guān)性,實(shí)現(xiàn)快速定向采集,過濾掉不相關(guān)的超鏈和文檔,為檢索器實(shí)現(xiàn)快速定向采集提供支持.(4)數(shù)據(jù)的后期分析提取,提供查詢?cè)诖罅繕?gòu)造化數(shù)據(jù)提取后,面對(duì)這些原始的數(shù)據(jù)集,怎樣通過研究一些智能方式方法,進(jìn)行數(shù)據(jù)重組過濾提取,獲取原來(lái)不存在,但是卻對(duì)用戶很有意義用處的數(shù)據(jù)信息,并且智能化建立相關(guān)索引提供應(yīng)用戶查詢.3核心技術(shù)3.1信息采集天天互聯(lián)網(wǎng)上傳輸?shù)男畔?nèi)容相當(dāng)于3億頁(yè)的文本[3],要從中針對(duì)定制的目的數(shù)據(jù)源,通過人工設(shè)定網(wǎng)址和網(wǎng)頁(yè)分析url方式進(jìn)行數(shù)據(jù)采集.垂直搜索對(duì)信息源的穩(wěn)定、抓取的成本問題及對(duì)用戶體驗(yàn)改善程度有著很高的要求.3.2網(wǎng)頁(yè)信息抽取整個(gè)經(jīng)過中,數(shù)據(jù)由非構(gòu)造化數(shù)據(jù)抽取成構(gòu)造化數(shù)據(jù),好比網(wǎng)頁(yè)搜索是以網(wǎng)頁(yè)為最小單位,基于視覺的網(wǎng)頁(yè)塊分析是以網(wǎng)頁(yè)塊為最小單位,而垂直搜索是以構(gòu)造化數(shù)據(jù)為最小單位,然后將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù),經(jīng)過深度加工處理后以非構(gòu)造化的方式和構(gòu)造化的方式返回給用戶.3.3信息處理信息處理的范圍主要包括去重、聚類、分析,在這里扼要講講聚類技術(shù)和中文分詞技術(shù).聚類技術(shù)指根據(jù)物以類聚原理,對(duì)之前無(wú)任何類別標(biāo)注的樣本信息,不需要人工標(biāo)注和預(yù)先訓(xùn)練分類器,利用樣本間的類似性和差異性等各種相關(guān)性,類別在聚類經(jīng)過中自動(dòng)生成的一種無(wú)指導(dǎo)的計(jì)算機(jī)學(xué)習(xí)經(jīng)過叫做聚類[4](Clustering).簡(jiǎn)單來(lái)講,聚類是指事先沒有標(biāo)簽而通過某種成團(tuán)分析找出事物之間存在聚集性原因的經(jīng)過.聚類不同于分類,聚類劃分的類是未知的,且聚類中的分類在經(jīng)過中自動(dòng)生成.而分類是事先定義好類別,類別數(shù)不變的.搜索引擎中利用聚類思想對(duì)用戶輸入的本文關(guān)鍵詞語(yǔ)檢索結(jié)果進(jìn)行分類,可想而知聚類思想的應(yīng)用給搜索引擎的用戶帶來(lái)很好的鋪墊.對(duì)于中文信息處理中各種分詞方式方法當(dāng)前有很多,大致能夠分為:機(jī)械分詞法、基于理解的分詞以及基于統(tǒng)計(jì)的分詞3類,而華而不實(shí)文分詞[5](ChineseWordSegmentation)技術(shù)是一個(gè)重要的基礎(chǔ),中文分詞應(yīng)用廣泛,且是中文搜索引擎的核心技術(shù)之一.3.4元數(shù)據(jù)管理元數(shù)據(jù)管理是數(shù)據(jù)中心信息資源標(biāo)準(zhǔn)管理,通過該系統(tǒng)來(lái)規(guī)范管理數(shù)據(jù)資源的規(guī)范定義、命名、分類等,同時(shí)也將幫助從技術(shù)的角度梳理所有的信息系統(tǒng),理解每一個(gè)數(shù)據(jù)的來(lái)龍去脈.元數(shù)據(jù)管理功能包含元模型管理、元數(shù)據(jù)的維護(hù)及查詢、元數(shù)據(jù)批量加載、元數(shù)據(jù)自動(dòng)獲取、元數(shù)據(jù)的分析及應(yīng)用、元數(shù)據(jù)版本管理以及元數(shù)據(jù)的同步檢查等.3.5索引排序索引排序是根據(jù)索引的關(guān)鍵字的順序建立一個(gè)新的、與原索引文件同樣大小、構(gòu)造一樣的物理文件,改變了物理順序.當(dāng)前常用的排序算法有兩種,PageRank算法和HITS算法[6].4企業(yè)垂直搜索引擎系統(tǒng)設(shè)計(jì)4.1需求分析由于企業(yè)信息的不斷發(fā)展和累積,一直以來(lái)好多企業(yè)領(lǐng)導(dǎo)對(duì)企業(yè)的運(yùn)營(yíng)情況只能通過各個(gè)部門的人工報(bào)表進(jìn)行了解分析,這樣運(yùn)營(yíng)指標(biāo)缺乏統(tǒng)一、直觀、準(zhǔn)確、快速的展現(xiàn)方式,同時(shí)對(duì)經(jīng)營(yíng)存在的問題也缺乏深層次的了解[8].因而,需要搭建一個(gè)能夠?qū)ζ髽I(yè)數(shù)據(jù)進(jìn)行搜索挖掘,進(jìn)而能夠?qū)^濾出的數(shù)據(jù)進(jìn)行高效分析,從多個(gè)角度以多種方式把握和展現(xiàn)企業(yè)的經(jīng)營(yíng)情況,深層次地搜索開掘數(shù)據(jù)信息進(jìn)而進(jìn)行數(shù)據(jù)服務(wù)的系統(tǒng).4.2總體架構(gòu)基于企業(yè)深度挖掘型垂直搜索引擎的數(shù)據(jù)服務(wù)的系統(tǒng)架構(gòu)如此圖2所示,包括4個(gè)部分:數(shù)據(jù)采集、數(shù)據(jù)挖掘、元數(shù)據(jù)管理和數(shù)據(jù)服務(wù).(1)數(shù)據(jù)采集數(shù)據(jù)源是整個(gè)系統(tǒng)的運(yùn)行的根本,其包括企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)及一號(hào)工程數(shù)據(jù)等,該模塊是采集數(shù)據(jù)任何爬蟲都不可或缺的通用模塊,該模塊負(fù)責(zé)協(xié)調(diào)超鏈接分析模塊和頁(yè)面相關(guān)度分析模塊的工作.首先,爬蟲采集模塊從待爬行URL隊(duì)列中取出鏈接相關(guān)度較高的URL,將該URL相應(yīng)的網(wǎng)頁(yè)采集到本地,然后,將該頁(yè)面交由頁(yè)面相關(guān)度分析模塊處理.在整個(gè)爬行經(jīng)過中,爬行的次序和爬行策略都有鏈接分析模塊提供.(2)數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘建立在對(duì)大量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,采用相應(yīng)的數(shù)據(jù)挖掘算法,在詳細(xì)的應(yīng)用模型上進(jìn)行數(shù)據(jù)的提取、數(shù)據(jù)挑選、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和形式分析,通過存儲(chǔ)數(shù)據(jù)字典、根據(jù)一定的數(shù)據(jù)轉(zhuǎn)換規(guī)則、對(duì)數(shù)據(jù)進(jìn)行自動(dòng)加載頻率等組織相應(yīng)的元數(shù)據(jù),對(duì)那些需要重點(diǎn)分析的元數(shù)據(jù)進(jìn)行有效整理統(tǒng)計(jì)分析,進(jìn)而根據(jù)所獲得的相關(guān)數(shù)據(jù)進(jìn)行應(yīng)用.(3)元數(shù)據(jù)管理系統(tǒng)根據(jù)煙草數(shù)據(jù)中心元數(shù)據(jù)管理規(guī)范對(duì)元數(shù)據(jù)進(jìn)行定義,支持煙草元數(shù)據(jù)的分類管理.系統(tǒng)提供包括獲取層元數(shù)據(jù)維護(hù)、存儲(chǔ)層元數(shù)據(jù)維護(hù)、訪問層元數(shù)據(jù)維護(hù)、交換層元數(shù)據(jù)維護(hù)以及元數(shù)據(jù)的檢索、閱讀、打印等功能.(4)數(shù)據(jù)服務(wù)數(shù)據(jù)服務(wù)讓使用者無(wú)需去訪問或者更新多個(gè)數(shù)據(jù)源,更重要的是,當(dāng)使用者需要操作多個(gè)數(shù)據(jù)源時(shí),數(shù)據(jù)服務(wù)有助于維持?jǐn)?shù)據(jù)的完好性.除此之外,它們還能夠幫助構(gòu)建可被多個(gè)項(xiàng)目和創(chuàng)新利用的可重用數(shù)據(jù)服務(wù).數(shù)據(jù)服務(wù)還能夠執(zhí)行關(guān)鍵的治理職能它們有助于度量指標(biāo)的集中化、監(jiān)視、版本管理、數(shù)據(jù)類型的重用,以及執(zhí)行數(shù)據(jù)可視化和訪問規(guī)則.數(shù)據(jù)服務(wù)的范圍包括:數(shù)據(jù)實(shí)體上的各種操作,聚合多個(gè)不同數(shù)據(jù)源的數(shù)據(jù),使用多種協(xié)議簡(jiǎn)化使用多個(gè)平臺(tái)的數(shù)據(jù)接口,邏輯接口和物理提供者接口之間的映射.4.3系統(tǒng)架構(gòu)基于企業(yè)垂直搜索引擎的數(shù)據(jù)服務(wù)的系統(tǒng)是建立挖掘型垂直搜索引擎進(jìn)行元數(shù)據(jù)分析整理,改變一般搜索引擎只將網(wǎng)頁(yè)為最小單位存儲(chǔ)到數(shù)據(jù)庫(kù)中,此系統(tǒng)將網(wǎng)頁(yè)的非構(gòu)造化數(shù)據(jù)抽取成特定的構(gòu)造化信息數(shù)據(jù),對(duì)行業(yè)領(lǐng)域內(nèi)的信息模型和用戶模型構(gòu)造化的搜集或再組織,提供更多、更專業(yè)、個(gè)性化的行業(yè)相關(guān)服務(wù).數(shù)據(jù)源層主要包括:互聯(lián)網(wǎng)、企業(yè)內(nèi)部報(bào)送、一號(hào)工程等;數(shù)據(jù)采集層主要包括:行業(yè)專題爬蟲、企業(yè)應(yīng)用開發(fā)接口等;數(shù)據(jù)加工層主要包括網(wǎng)頁(yè)解析、索引建立、數(shù)據(jù)過濾等;數(shù)據(jù)存儲(chǔ)中心主要包括:關(guān)系數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)索引庫(kù)、本體庫(kù)等;信息檢索層、展現(xiàn)層實(shí)現(xiàn)不再累述.4.4人機(jī)交互界面(1)不同工作分工的人員有不同的權(quán)限訪問系統(tǒng)進(jìn)行相應(yīng)的操作.(2)能同時(shí)顯示不同種類的信息,用戶可在幾個(gè)工作環(huán)境中切換而不丟失幾個(gè)工作之間的聯(lián)絡(luò).(3)引用圖標(biāo)、下拉式菜單、按鈕等技術(shù)使那些不太精于打字的用戶和系統(tǒng)之間有很高的交互.(4)系統(tǒng)提供自動(dòng)通知,用戶能夠及時(shí)知道需要處理哪些工作.(5)系統(tǒng)為方便用戶了解分析數(shù)據(jù)提供了報(bào)表和圖形的方式.(6)系統(tǒng)提供良好的人機(jī)交互.(7)提供一定的幫助系統(tǒng).以下為參考文獻(xiàn)[1]趙杰.搜索引擎技術(shù)[M].哈爾濱:哈爾濱工程大學(xué)出版社,2007.[2]盧亮,張博文.搜索引擎原理實(shí)踐與應(yīng)用[M].北京:電子工業(yè)出版社,2018.[3]陳
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 變頻器維修技術(shù)培訓(xùn)課件
- 建筑企業(yè)員工行為培訓(xùn)
- 中考數(shù)學(xué)二輪復(fù)習(xí)專項(xiàng)18~20題對(duì)點(diǎn)提分訓(xùn)練(三)課件
- 2025蛇年年終總結(jié)新年計(jì)劃工作總結(jié)模板
- 15.3 串聯(lián)和并聯(lián)(8大題型)(含答案解析)
- 期中模擬檢測(cè)(1-4單元)(試題)(含答案)-2024-2025學(xué)年四年級(jí)上冊(cè)數(shù)學(xué)北師大版
- 吉林省白山市撫松縣 2024-2025學(xué)年七年級(jí)上學(xué)期期中道德與法治試卷(含答案)
- T-ZFDSA 22-2024 蘆根蜂蜜飲制作標(biāo)準(zhǔn)
- 【山東省安全員A證】考試題庫(kù)及答案
- 編舞基礎(chǔ)理論知識(shí)單選題100道及答案解析
- 勞務(wù)投標(biāo)技術(shù)標(biāo)
- 倉(cāng)庫(kù)貨品存放和五距標(biāo)準(zhǔn)和消防安全要求培訓(xùn)課件
- 班組長(zhǎng)培訓(xùn)之有效執(zhí)行力
- 《常用局域網(wǎng)設(shè)備》課件
- 卵巢惡性腫瘤教學(xué)查房
- 老年人小組活動(dòng)計(jì)劃書兩篇
- 《玄武巖纖維瀝青混合料技術(shù)規(guī)范》征求意見稿
- 2023年秋季國(guó)開《學(xué)前教育科研方法》期末大作業(yè)(參考答案)
- 2023年電焊工技能鑒定實(shí)操試題
- 幼兒學(xué)大班數(shù)學(xué)試題(6歲)1
- 【數(shù)學(xué)】山西省太原市2024屆高三上學(xué)期期中試題(解析版)
評(píng)論
0/150
提交評(píng)論