職業(yè)教育黃頁網(wǎng)站的設(shè)計與實現(xiàn)_第1頁
職業(yè)教育黃頁網(wǎng)站的設(shè)計與實現(xiàn)_第2頁
職業(yè)教育黃頁網(wǎng)站的設(shè)計與實現(xiàn)_第3頁
職業(yè)教育黃頁網(wǎng)站的設(shè)計與實現(xiàn)_第4頁
職業(yè)教育黃頁網(wǎng)站的設(shè)計與實現(xiàn)_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 職業(yè)教育黃頁網(wǎng)站的設(shè)計與實現(xiàn)摘要:介紹了一個以職業(yè)教育網(wǎng)站為檢索對象的黃頁網(wǎng)站系統(tǒng)。該系統(tǒng)能夠快速有效地為用戶提供準(zhǔn)確的職教信息。描述了系統(tǒng)的主要功能設(shè)計,并對系統(tǒng)的實現(xiàn)進(jìn)行了相關(guān)闡述。關(guān)鍵詞:職業(yè)教育;黃頁網(wǎng)站;搜索引擎0引言在信息爆炸時代,互聯(lián)網(wǎng)技術(shù)的發(fā)展使得web站點的數(shù)量飛速增長。據(jù)2005年中國互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報告統(tǒng)計:截至2005年底,全國網(wǎng)站總數(shù)約為69.4萬個。如何有效地為職教/成教(以下統(tǒng)稱“職教”)領(lǐng)域的教學(xué)科研人員、管理人員、學(xué)員等網(wǎng)絡(luò)用戶提供準(zhǔn)確、有效的職教信息,是各級職教機(jī)構(gòu)發(fā)展過程中遇到的問題。本文設(shè)計的職教黃頁網(wǎng)站系統(tǒng)能夠自動地提供國內(nèi)主要職業(yè)教育機(jī)構(gòu)(

2、包括各級各類職業(yè)教育行政管理部門、教研室、資源建設(shè)中心、學(xué)校、專門的研究和開發(fā)機(jī)構(gòu)等)的網(wǎng)站黃頁目錄,并按照指定的規(guī)則分門別類地展現(xiàn)這些網(wǎng)站,提供所列網(wǎng)站發(fā)布機(jī)構(gòu)的名稱、地區(qū)、聯(lián)系方式、網(wǎng)站鏈接、網(wǎng)站內(nèi)容摘要等信息,根據(jù)地區(qū)、網(wǎng)站性質(zhì)等提供目錄檢索和自由檢索。將搜索引擎技術(shù)應(yīng)用于職教黃頁網(wǎng)站系統(tǒng),能夠快速有效地為用戶提供準(zhǔn)確的職教信息,很好地加速我國職業(yè)教育的發(fā)展。1系統(tǒng)主要功能設(shè)計1.1本系統(tǒng)與通用搜索引擎的區(qū)別根據(jù)與通用網(wǎng)頁搜索引擎的比較分析,本系統(tǒng)具備如下特征:針對性更強(qiáng):本系統(tǒng)的檢索對象定位為職業(yè)教育網(wǎng)站,比通用搜索引擎檢索的網(wǎng)頁更具針對性;更適合用戶需求:本系統(tǒng)強(qiáng)調(diào)對職教領(lǐng)域資源質(zhì)量

3、的評價和篩選,更加符合用戶的需求;便捷性更高:本系統(tǒng)可自動抽取職教類網(wǎng)站所屬區(qū)域、學(xué)科及所在學(xué)段、單位、地址等用戶關(guān)注度較高的信息,為用戶的檢索和查詢提供了更多的便捷性;信息有效性可靠度更高:本系統(tǒng)在自動采集職教相關(guān)信息的同時,還提供了用戶人工比對校驗和報錯糾錯等功能,進(jìn)一步確保了采集信息的有效性和可靠度。1.2主題蜘蛛資源搜索網(wǎng)絡(luò)蜘蛛即web spider,是一個很形象的名字。如果把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下

4、一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。然而,從目前公布的數(shù)據(jù)來看,容量最大的搜索引擎也不過是抓取了整個網(wǎng)頁數(shù)量的百分之四十左右。因此,針對互聯(lián)網(wǎng)信息量巨大的特點,本系統(tǒng)設(shè)計了面向特定領(lǐng)域的職教主題蜘蛛搜索,有針對性的自動采集職教領(lǐng)域的資源。為了充分發(fā)揮抽取針對性強(qiáng)、精確度高、時效性好的特征,本系統(tǒng)設(shè)計了較多控制和提高主題蜘蛛抽取效率的參數(shù),包括:蜘蛛的控制參數(shù):包括線程數(shù)量、各線程等待時間、超時時間、數(shù)據(jù)庫連接參數(shù);針對下載網(wǎng)頁的控制參數(shù):包括相關(guān)度參數(shù)、抓取深度、下載文件類型

5、、下載子頁面?zhèn)€數(shù)等;針對主題蜘蛛程序控制的參數(shù):包括網(wǎng)絡(luò)出現(xiàn)狀況是的等待重試時間間隔、只從開始的域名下載、只從解釋的url下載、只下載靜態(tài)化的url、忽略的url關(guān)鍵字等。1.3職教黃頁、資源分類設(shè)計職教主題蜘蛛通過http協(xié)議自動將網(wǎng)絡(luò)上與職業(yè)教育相關(guān)的web資源下載到本地資源庫中,保證本系統(tǒng)能自動采集到所需的職教相關(guān)資源。在獲取所需網(wǎng)絡(luò)資源后,本系統(tǒng)設(shè)計了自動對職教黃頁、資源進(jìn)行分類的程序,通過對本地資源庫中職教相關(guān)網(wǎng)站資源的相關(guān)屬性進(jìn)行標(biāo)引,達(dá)到對相關(guān)資源進(jìn)行特征提取、自動分類、自動摘要的目的,從而使下載到本地資源庫中的職教相關(guān)資源能夠根據(jù)需要進(jìn)行分類,方便用戶提取和使用。圖1為本系統(tǒng)黃

6、頁分類流程設(shè)計圖,由職教主題蜘蛛下載到本地資源庫中的資源,通過html解析后,在規(guī)則和特征庫的支撐下,進(jìn)行資源分析和信息抽取,形成職教資源庫,并對其進(jìn)行相應(yīng)的文本索引和信息索引,為用戶提供檢索服務(wù)。圖1系統(tǒng)黃頁分類流程基于上述分類流程,形成了部分?jǐn)?shù)據(jù)庫設(shè)計,如圖2所示。圖2部分?jǐn)?shù)據(jù)庫設(shè)計經(jīng)調(diào)研分析,本系統(tǒng)針對黃頁分類的設(shè)計思路為:第一層次按地區(qū)分類,第二層次按職業(yè)教育學(xué)校、職業(yè)教育政府機(jī)構(gòu)、職業(yè)教育企業(yè)、職業(yè)教育培訓(xùn)機(jī)構(gòu)、職業(yè)教育研究機(jī)構(gòu)分類。通過關(guān)鍵元數(shù)據(jù)項來輔助分類,分別包括:網(wǎng)站名稱、網(wǎng)站url、所屬地區(qū)、類別屬性、聯(lián)系電話、email、摘要等。根據(jù)用戶對資源類別的需求,本系統(tǒng)設(shè)計從專業(yè)

7、課程、招生就業(yè)、科研論文等類對資源進(jìn)行分類。其中“專業(yè)課程”類按國家2006專業(yè)目錄提供專業(yè)及課程相關(guān)的資源,與專業(yè)相關(guān)的資源包括:課程標(biāo)準(zhǔn)、專業(yè)培養(yǎng)方案、專業(yè)教學(xué)計劃等;與專業(yè)課程相關(guān)的資源包括:專業(yè)課程簡介、課程大綱、課件教案等。輔以關(guān)鍵元數(shù)據(jù)項:資源名稱、簡介、url、來源網(wǎng)站、日期、評分等?!罢猩蜆I(yè)”類從職教黃頁網(wǎng)站上搜集與職教相關(guān)的招生信息,從黃頁網(wǎng)站、就業(yè)網(wǎng)站上搜集與職教專業(yè)就業(yè)相關(guān)的信息。一定要能提供專業(yè)招生的情況、專業(yè)就業(yè)的情況,對職業(yè)教育的進(jìn)口和出口兩大問題有前瞻性指導(dǎo)?!翱裳姓撐摹鳖悇t從黃頁網(wǎng)站上搜集與職教相關(guān)的科研論文。1.4后臺維護(hù)及管理設(shè)計本系統(tǒng)還針對后臺維護(hù)和管理

8、進(jìn)行了相應(yīng)的功能設(shè)計,主要包括主題蜘蛛管理控制、黃頁管理、新聞推送管理、資源管理等。(1)蜘蛛管理控制。為了保證系統(tǒng)自動采集職教相關(guān)資源和信息的效率,系統(tǒng)設(shè)計了種子網(wǎng)站管理功能、蜘蛛?yún)?shù)控制、網(wǎng)頁參數(shù)控制和蜘蛛程序控制功能。(2)黃頁管理。管理網(wǎng)站分類、信息抽取情況的校驗,網(wǎng)站的添加、刪除、修改;同時審核用戶推薦網(wǎng)站并加入資源庫,及時刪除探測無效的網(wǎng)站;將用戶推薦的網(wǎng)站加入種子網(wǎng)站。(3)新聞推送管理。包括種子網(wǎng)站和相應(yīng)規(guī)則的添加、刪除、修改;種子網(wǎng)站的更新周期、下載深度、目標(biāo)頁面的url模式設(shè)置;下載結(jié)果(標(biāo)題、作者、來源、時間、下載時間、內(nèi)容)的人工管理,包括對這些信息及時進(jìn)行刪除、修改等

9、。(4)資源管理。管理職教資源分類、信息抽取情況的校驗,并對該類信息及時進(jìn)行刪除、修改;管理探測無效資源的刪除;職教資源的添加等。2系統(tǒng)實現(xiàn)本系統(tǒng)基于microsoft visual 2008 開發(fā)環(huán)境,采用c#語言開發(fā),數(shù)據(jù)庫依托 sql server 2000支撐。系統(tǒng)主要分為前臺用戶服務(wù)程序和后臺自動化處理程序,其中前臺用戶服務(wù)部分采用b/s架構(gòu),后臺主要為控制臺應(yīng)用程序和windows應(yīng)用程序??紤]到多層架構(gòu)可進(jìn)一步提高系統(tǒng)的伸縮性和靈活性,同時可使系統(tǒng)更易于設(shè)計和維護(hù),在前臺用戶服務(wù)部分,系統(tǒng)采用了.net環(huán)境下的多層架構(gòu)技術(shù)。3結(jié)束語本文主要介紹了一個以職業(yè)教育網(wǎng)站為檢索對象的黃頁網(wǎng)站系統(tǒng)。詳細(xì)描述了系統(tǒng)的主要功能設(shè)計,介紹了系統(tǒng)的技術(shù)實現(xiàn)。實驗結(jié)果表明

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論