分布式互聯(lián)網(wǎng)新聞信息抽取系統(tǒng)nes建設(shè)總體方案-forthu

上傳人：我*** IP屬地：北京上傳時間：2022-11-18 格式：DOCX 頁數(shù)：55 大?。?.25MB 積分：12 舉報 版權(quán)申訴

分布式互聯(lián)網(wǎng)新聞信息抽取系統(tǒng)nes建設(shè)總體方案-forthu_第2頁

分布式互聯(lián)網(wǎng)新聞信息抽取系統(tǒng)nes建設(shè)總體方案-forthu_第3頁

分布式互聯(lián)網(wǎng)新聞信息抽取系統(tǒng)nes建設(shè)總體方案-forthu_第4頁

分布式互聯(lián)網(wǎng)新聞信息抽取系統(tǒng)nes建設(shè)總體方案-forthu_第5頁

免費(fèi)預(yù)覽已結(jié)束，剩余50頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

信息抽取系統(tǒng)NESV1.0NES（KEGTechnologyTeamofYanshanUniversity2014年05月地址：秦皇島燕山大學(xué)信息學(xué)院222A：第1章NESV1.0系統(tǒng)概系統(tǒng)目系統(tǒng)背系統(tǒng)意第2章系統(tǒng)需求分需求分析原系統(tǒng)業(yè)務(wù)需抓取目標(biāo)站點(diǎn)列功能需抓取數(shù)據(jù)需非功能性需任務(wù)指系統(tǒng)功能分系統(tǒng)E-R 實(shí)體列 E-R 第3章系統(tǒng)總體設(shè) 系統(tǒng)總體架系統(tǒng)架數(shù)據(jù)庫總體設(shè) 單機(jī)上Web數(shù)據(jù)庫表結(jié)構(gòu)設(shè) Hadoop平臺上分布式HBase表結(jié)構(gòu)設(shè) 第4章系統(tǒng)功能規(guī) 系統(tǒng)功能層次方框系統(tǒng)用戶管理模列表管理模抽取模板管理模抽取任務(wù)管理模平臺資源模數(shù)據(jù)管理模系統(tǒng)參數(shù)配置模第5章系統(tǒng)詳細(xì)設(shè) 系統(tǒng)菜單設(shè) 系統(tǒng)界面設(shè) 第6章技術(shù)實(shí)施方系統(tǒng)技術(shù)路 6.2開發(fā)平臺&工開發(fā)方法及架系統(tǒng)相關(guān)技 Hadoop分布式系統(tǒng)編程架 Gun/Linux版Ubuntu Hadoop平 Ajax技第7章硬件環(huán)境第8章服務(wù)質(zhì)量保證及平臺實(shí)施風(fēng)險管服務(wù)質(zhì)量保服務(wù)質(zhì)量案平臺實(shí)施風(fēng)險管 1NESV1.0系統(tǒng)概分布式互聯(lián)網(wǎng)信息抽取系統(tǒng)V1.0（DistributedInternetNewsInformationV1.0Scratching置的面向互聯(lián)網(wǎng)數(shù)據(jù)的抓取及管理平臺。實(shí)現(xiàn)計算機(jī)系知識工程組獲得海量的、實(shí)時準(zhǔn)確和高效可控的互聯(lián)網(wǎng)數(shù)據(jù)及信息。系統(tǒng)示意如圖1所圖1分布式互聯(lián)網(wǎng)信息抽取系統(tǒng)NESV1.0示意系統(tǒng)目研發(fā)分布式互聯(lián)網(wǎng)信息抽取系統(tǒng)V1.0（DistributedInternetNewsInformationExtractionSystem,NESV1.0）的目標(biāo)是：設(shè)計實(shí)現(xiàn)一套可根據(jù)給定站點(diǎn)列表周期性自動抓取互聯(lián)網(wǎng)及相關(guān)數(shù)據(jù)的系統(tǒng)。系統(tǒng)背信息成為日益緊迫及的任務(wù)，并成為一個熱門的研究領(lǐng)域和應(yīng)用方向?；ヂ?lián)網(wǎng)信息已經(jīng)成為各類或線下系統(tǒng)或應(yīng)用的運(yùn)行基礎(chǔ)如基于的各類APP[1]和基于數(shù)據(jù)的Arnetminer[2]學(xué)術(shù)挖掘及分析系統(tǒng)。計算機(jī)系知識工程研究室（KnowledgeEngineeringGroupofTsinghuaUniversityKEG）Java、XML和構(gòu)件為技術(shù)基礎(chǔ)對Web技術(shù)的基礎(chǔ)理論和進(jìn)行研究研究具體包括：1）WebWeb服務(wù)；2）XMLWEB信息處理；3）電子政務(wù)和電子商務(wù)的，并先后研發(fā)了學(xué)術(shù)挖掘與分析系統(tǒng)AMiner、專利挖掘及分析系統(tǒng)PMiner、國家自然基閱人智能系統(tǒng)NSFC-Miner和互聯(lián)網(wǎng)挖掘及分析NewsMiner（2所示）。NESV1.0系統(tǒng)為數(shù)據(jù)抓取的服務(wù)，為計算機(jī)系KEG實(shí)驗(yàn)的NewsMiner系統(tǒng)（）提供大規(guī)模基礎(chǔ)數(shù)據(jù)，同時為KEG提供研究用數(shù)據(jù)。圖2NewsMiner系統(tǒng)首系統(tǒng)意建設(shè)分布式互聯(lián)網(wǎng)信息抽取系統(tǒng)NESV1.0的意義如下系統(tǒng)建設(shè)是現(xiàn)代化高速發(fā)展社會對高效率的需求，對大數(shù)據(jù)及可能夠?yàn)镹ewsMiner系統(tǒng)提供真正的海量互聯(lián)網(wǎng)數(shù)據(jù)，從而目前為止，NESV1.0系統(tǒng)為第一個真正的分布式互聯(lián)網(wǎng)抽取系統(tǒng)中的技術(shù)能為其他互聯(lián)網(wǎng)信息抽取應(yīng)用奠定堅實(shí)的基礎(chǔ)NESV1.0系統(tǒng)可以有助于積累分布式大數(shù)據(jù)處理技術(shù)以及云計算NESV1.02統(tǒng)需求分NESV1.0《工程術(shù)語》GB/T11457-《計算機(jī)產(chǎn)品開件編制指南》GB8567-《計算機(jī)質(zhì)量保證計劃規(guī)范》GB/T12504-《計算機(jī)測試文件編制規(guī)范》GB9368-《指南》GB/T14079-可持續(xù)利用實(shí)用高效集、處理、查詢過程中操作的實(shí)際情況，充分注意設(shè)計風(fēng)格的性、界面的友、操作的簡便性等問題?？煽亢桶踩捎梅旨壒芾眢w制系統(tǒng)用戶分為多種權(quán)限級別各行其責(zé)相互銜接，可對各用戶的操作權(quán)限進(jìn)行分級設(shè)定和約束。同時提供有系統(tǒng)數(shù)據(jù)庫的備份和歷史歸檔等操作，可靠地保證數(shù)據(jù)庫的安全性。開放性和標(biāo)設(shè)計掌握技術(shù)發(fā)展和設(shè)計開發(fā)規(guī)范，管理指導(dǎo)工作流程，才能設(shè)計既實(shí)用、又高效的圖庫系統(tǒng)。充分考慮現(xiàn)代的飛速發(fā)展，采用開放式的網(wǎng)絡(luò)體系結(jié)構(gòu)、網(wǎng)絡(luò)協(xié)議以及國際廣泛使用的系統(tǒng)以適應(yīng)未來功能升級的要求使系統(tǒng)具有開放性兼容性、擴(kuò)展性。利用NESV1.0系統(tǒng)可以實(shí)現(xiàn)對互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行分布式抓取和有效管理，抓取目標(biāo)站點(diǎn)1.1）1.1.1）.cn（評論（）1.1.2）1.2）英文（評論（評論經(jīng)2）用戶產(chǎn)生內(nèi)容2.1）2.2）注1：后帶“（評論）”字樣的表示盡可能抓取用戶評論信息；注2：優(yōu)先級高于UGC，簡體優(yōu)先級高于繁體；功能需周期性抓?。阂砸欢ǖ臅r間周期掃描目標(biāo)站點(diǎn)，并抓取新的及相配置后無需重啟即可使配置在下次抓取周期中生效；改配置后無需重啟即可使配置在下次抓取周期中生效；運(yùn)行狀態(tài)：運(yùn)行過程中可通過Web頁面直接的各種計信息包括：抓取任務(wù)進(jìn)度、成功抓取條數(shù)和列表、失敗條數(shù)和列表、超時條數(shù)和列表；安全：必須通過用戶名和的認(rèn)證才可以通過Web軟件，并使用配置和等功能（見第4）條）；數(shù)據(jù)：抓取得到的數(shù)據(jù)可在任何一種持久化系統(tǒng)中，例如關(guān)SQLScript、JSONXML抓取數(shù)據(jù)需抓取數(shù)據(jù)的內(nèi)容盡可能包含以下數(shù)據(jù)和元數(shù)正文（分頁，需要抓全所有分頁內(nèi)容；純文本，不包含或其它分類（可以是按頻道分類專題標(biāo)識（參見專題元數(shù)據(jù)內(nèi)容（10）（（11）地址（專題/事件元評論元數(shù)（1）/專題/事件標(biāo)（2）（3）人類元數(shù)非功能性需1)運(yùn)行在服務(wù)器級硬件上2)需要能夠運(yùn)行在Unix/Linux64位環(huán)境下3)能7*24小時穩(wěn)定運(yùn)行4)要易于部署和，并提供簡明易懂的安裝和管理手冊任務(wù)指抓取速度：平均抓取速度不低于每秒100篇或其它數(shù)據(jù)100NESV1.0系統(tǒng)需要進(jìn)行信息化管理的數(shù)據(jù)對象主要有用戶的信息信息，供對這些信息的統(tǒng)計、分析和管理等操作。在業(yè)務(wù)的數(shù)據(jù)抽取及管理頁面中，要求以操作簡便和透明性，實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計分析和。從功能分析角度，NESV1.0（1）用戶管（2）列表管站點(diǎn)分級管理，是對要抽取的站點(diǎn)的信息的管理，通過可視化的方式配置抓取目標(biāo)站點(diǎn)列表；每次修改配置后無需重新啟動即可使配置在如新浪；管理內(nèi)容包括站點(diǎn)名稱、站點(diǎn)URL、描述等信息，可對站點(diǎn)級站點(diǎn)即為站點(diǎn)頻道，如新浪體育頻道；管理內(nèi)容包括頻道名稱、頻URL、所屬站點(diǎn)、描述等信息，可對站點(diǎn)頻道進(jìn)行添加、刪除、修改和務(wù)所需的模版，每次修改配置后無需重新啟動即可使配置在下次抓取抽取任務(wù)管包括任務(wù)名稱、描述、抽取站點(diǎn)(頻道)列表、任務(wù)執(zhí)行方式(自動或手動)期等信息；可對任務(wù)進(jìn)行添加、刪除、修改和查詢等功能。狀態(tài)主要包括和狀態(tài)兩部分其各部分的主要功能以及包含的內(nèi)容如條數(shù)和列表、失敗條數(shù)和列表、超時條數(shù)和列表。平臺資源，是對平臺節(jié)點(diǎn)、負(fù)載以及HBase的使用情況。運(yùn)行過程中可通過Web頁面直接的各種運(yùn)行參數(shù)和情況包括當(dāng)前數(shù)據(jù)管主要包括信息管理和數(shù)據(jù)去重兩部分其各部分的主要功能以及包含信息管理，可以通過查詢相關(guān)的信息，對信息進(jìn)行修改。具體模版管數(shù)據(jù)導(dǎo)入與導(dǎo)SQLScript、JSONXML等。擁擁系統(tǒng)E-R實(shí)體列NESV1.0【】實(shí)體屬性包括URL、源文件、以及“需求”提到的三類屬（即元數(shù)據(jù)）【狀態(tài)】實(shí)體抽取周期完成后匯總運(yùn)行狀態(tài)和統(tǒng)計信息，向管理員發(fā)【用戶】實(shí)體包括三類：管理員、業(yè)務(wù)用戶和。屬性包括姓【角色】實(shí)體共三類角色：管理員、業(yè)務(wù)用戶和。通過創(chuàng)建【權(quán)限】實(shí)體檢查用戶權(quán)限，相應(yīng)角色可做添加、刪除、修改、查詢的操作、屬性包括權(quán)限名稱、URL和描述。E-R角色名角郵用戶角角色名角郵用戶角色述擁用戶角 N1用角權(quán)權(quán)限名權(quán)限描權(quán)3E-R圖4實(shí)體1）1）專題/事件元數(shù)18/專題/事件19）3統(tǒng)總體設(shè)HadoopSlaveHRegionServer抓HadoopSlaveHRegionServer抓?、僭次蘑谠獢?shù)TsinghuaKEG③抽取HadoopSlaveHRegionServerHadoopHBase抓?、倩ヂ?lián) 數(shù)源文②元數(shù)③抽取.HadoopSlaveHRegionServer抓取 ②APP源文元數(shù)③抽取5NESV1.0NESV1.0系統(tǒng)架構(gòu)中的組件（部分）由數(shù)據(jù)的業(yè)務(wù)處理過程（程序，引擎或數(shù)據(jù)業(yè)務(wù)處理過程包括頁面URL（URLsofNewsPage簡稱URL-NP）爬蟲抓取程序、頁面源文件（SourceFilesofNewsPage，簡稱SF-NP）過程、元數(shù)據(jù)（MetaDataofNews，簡稱MDN）抽取引擎）；包括系統(tǒng)和應(yīng)用，前者為Linux操作系統(tǒng)、Windows操作系統(tǒng)、Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)開源、HBase分布式開源數(shù)據(jù)庫，以及MySQL開源關(guān)系數(shù)據(jù)庫等后者包括互聯(lián)網(wǎng)數(shù)據(jù)抓取服務(wù)及管理系統(tǒng)和Tomcat開源Web應(yīng)用程序服務(wù)器等。硬件包括服務(wù)器、網(wǎng)絡(luò)節(jié)點(diǎn)機(jī)器、用戶終端電腦和設(shè)備；網(wǎng)絡(luò)包括本地網(wǎng)絡(luò)（LocalNetworks）和互聯(lián)網(wǎng)（Internet）；用戶為知）識工程（KnowledgeEngineeringGroup，簡稱KEG的科研（TsinghuaKEGUser）。）在由一臺服務(wù)器和多臺網(wǎng)絡(luò)節(jié)點(diǎn)機(jī)器構(gòu)成的Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)網(wǎng)絡(luò)平臺中，HadoopMaster和HBaseMaster部署在服務(wù)器上，多個HadoopSlave和HRegionServerLinux操作系統(tǒng)（Scratch）頁面URL，并進(jìn)行去重和過濾；然后，各節(jié)點(diǎn)再依據(jù)已有的URL三類數(shù)據(jù)都被存入部署在各網(wǎng)絡(luò)節(jié)點(diǎn)上的分布式開源數(shù)據(jù)庫HBaseHadoopMaster的服務(wù)器進(jìn)行，APPServer中的操作系統(tǒng)為Windows7.0/8.0，安裝和部署了MySQL開源數(shù)據(jù)庫和Tomcat應(yīng)用程序服務(wù)器，并以此為基礎(chǔ)通過NESV1.0系統(tǒng)的Web頁面為TsinghuaKEGUser提供“互聯(lián)網(wǎng)系統(tǒng)架

架構(gòu)圖給出了NESV1.0系統(tǒng)的機(jī)制、邏輯、組件及其相互之間圍繞用戶對互聯(lián)網(wǎng)數(shù)據(jù)的迫切需求，針對大數(shù)據(jù)獲取及處理的關(guān)鍵技術(shù)，NESV1.0系統(tǒng)擬從四個技術(shù)層面開展研發(fā)：1）抓取層；2）抽取層；3）管理層；4）用戶層。研發(fā)內(nèi)容的架構(gòu)如圖6所示。其中，第一個層面的研頁面URL抓取，分布式頁面源文件數(shù)據(jù)以及基于HBase的分布式數(shù)據(jù)第二個層面的研發(fā)將通過通用抽取引擎技術(shù)對獲得的頁面元數(shù)據(jù)據(jù)（頁面URL、頁面源文件和元數(shù)據(jù)）進(jìn)行有效管理，它為更深刻地理解用戶需求進(jìn)而更好的為用戶提供大規(guī) 數(shù)據(jù)抓取及管理服務(wù)奠定分布式抽抽取性能評下源文載分布式抽抽取性能評下源文載頁面源文爬蟲抓取性能評頁面URL爬蟲服索問訪全安去分布式抓周期性能評周期索調(diào)用接系統(tǒng)配置信Log日志數(shù)抽取任務(wù)管過索News檢索服周期索模及管抽取規(guī)則制News頁面分通用抽取引定Windows70/8Unix/Linux數(shù)據(jù)管保數(shù)據(jù)導(dǎo)入/導(dǎo)用戶管用戶角色權(quán)限設(shè)運(yùn)行狀站點(diǎn)/頻道配管抽取管理用戶查分操抓取圖 NESV1.0系統(tǒng)架構(gòu)抓取四個層面的研發(fā)內(nèi)容既有圍繞大數(shù)據(jù)分布式處理的問題的數(shù)據(jù)基礎(chǔ)研（第一個層次和第二個層次也有圍繞數(shù)據(jù)檢索技術(shù)為主的研（第戶必須通過賬戶和的認(rèn)證才可以通過Web、使用配置和抓取層該層面具體劃分為兩個相關(guān)聯(lián)子層：爬蟲子層和子層爬蟲子層本地分布式系統(tǒng)網(wǎng)絡(luò)中各節(jié)點(diǎn)周期性（由用戶設(shè)定時間間隔，一般為3個月左右）并行從互聯(lián)網(wǎng)上抓取多個/頻道頻道的）URL抓取時間和抓取精度；子層通過頁面URL列表對應(yīng)源文件數(shù)據(jù)，并分布式在各節(jié)點(diǎn)中，對源文件數(shù)據(jù)建立索引，最后提供檢索服務(wù)。性能評估的指標(biāo)包括（不同頻道的）平均每個頁面的時間和下載率（R=已成功頁面?zhèn)€數(shù)/總的頁面?zhèn)€數(shù)）。抽取層首先創(chuàng)建通用抽取引擎以完成對基于規(guī)則（包括元數(shù)據(jù)絡(luò)中各節(jié)點(diǎn)調(diào)用引擎對本機(jī)上的源文件數(shù)據(jù)進(jìn)行并行抽取并對獲得的應(yīng)數(shù)據(jù)進(jìn)行抓取的工作。抽取任務(wù)具有以下性質(zhì)：不可恢復(fù)性用戶一旦啟動抽取任務(wù)，該任務(wù)就會占用一定的網(wǎng)絡(luò)帶寬，計算和資源，占用量依賴該任務(wù)的規(guī)模而定。但這些被性兩個不同的抽取任務(wù)中不能包含相同的/頻道即：兩個抽取任務(wù)所包含的/頻道列表所對應(yīng)的集合不能具有交集。否管理不完全性對抽取任務(wù)的可控的管理包括添加任務(wù)、啟動任務(wù)和狀態(tài)，但考慮到不可恢復(fù)性，無法刪除啟動后已執(zhí)行的抽取任務(wù)部分；考慮到性，啟動后的抽取任務(wù)也無法再進(jìn)行修改。管理層全稱為“數(shù)據(jù)管理層“，在該層中用戶可以通過PC機(jī)上Web應(yīng)用對數(shù)據(jù)進(jìn)行有效的管理和，可以通過索引對源文件數(shù)用戶層以上三個層面技術(shù)對用戶而言都是透明的，用戶層是Web應(yīng)用頁面及其調(diào)用關(guān)系的集合，可以幫助用戶完成所的抓取參數(shù)設(shè)置、站點(diǎn)/頻道配置、抽取任務(wù)管理、運(yùn)行狀態(tài)、用戶角數(shù)據(jù)庫總體設(shè)NESV1.0單機(jī)上Web數(shù)據(jù)庫表結(jié)構(gòu)設(shè)2用戶表否否—用戶號可———3角色表否—否—可— 擁 4用戶角色關(guān)聯(lián)表

自用戶角色 5權(quán)限表（tbl_否否—否—否—否—6角色權(quán)限關(guān)聯(lián)表否否—可—7字段類可否為 — — — — — —overti —Hadoop平臺上分布式HBase表8RowTime1t2345t6tRowTime1t2345t6t9RowTimet==RowTimet==表10 Timet t tMetdata:t t t t t t t t t t t t t t t 08-t t t 7t t t t t t t t t t t t 4統(tǒng)功能規(guī)系統(tǒng)功能層次方框互聯(lián) 數(shù)據(jù)分布式抓取系統(tǒng)（NES系用系互聯(lián) 數(shù)據(jù)分布式抓取系統(tǒng)（NES系用系網(wǎng)網(wǎng)抽平新數(shù)系用角權(quán) 站抽任新看析抓整抽新新新抓下抽查查取載取看看數(shù)數(shù)數(shù)配日據(jù)據(jù)據(jù)置志統(tǒng)統(tǒng)統(tǒng)信信計計計息息圖7NESV1.0系統(tǒng)功能層次方框功能目標(biāo)：對本系統(tǒng)的用戶及權(quán)限信息進(jìn)行管理，以實(shí)現(xiàn)系統(tǒng)的安全。功能描述：根據(jù)KEG的分工，定義詳細(xì)的系統(tǒng)用戶權(quán)限，由一個角色可以擁有多個權(quán)限，每個權(quán)限對應(yīng)一個可操作的菜單項(xiàng)。此功能歸系統(tǒng)管理員所有。輸出結(jié)果：系統(tǒng)用戶信息、權(quán)限信息以及角色-權(quán)限關(guān)聯(lián)信息功能目標(biāo)：對及頻道信息進(jìn)行管理，為數(shù)據(jù)抓取做準(zhǔn)備和支撐。功能描述：對系統(tǒng)中待抓取/抽取的所有數(shù)據(jù)所在的站點(diǎn)和頻道信息進(jìn)行有效管理。這里只有門戶（如網(wǎng)易）被統(tǒng)稱為站點(diǎn)，而站點(diǎn)下面的各頻道被稱為頻道，二者為分級關(guān)系。此模塊包含以下三輸出結(jié)果：/頻道信息以及-頻道關(guān)聯(lián)信息規(guī)則進(jìn)行有效的管理。輸出結(jié)果：抽取每個頻道頁面對應(yīng)的正則表達(dá)式和規(guī)則信功能目標(biāo)：以任務(wù)的形式對系統(tǒng)的URL抓取、源文件和元數(shù)據(jù)抽取進(jìn)行規(guī)范的有效管理，方便用戶靈活地制定數(shù)據(jù)抽取策略。功能描述：對系統(tǒng)中的所有數(shù)據(jù)抽取任務(wù)進(jìn)行有效管理，具體包括抽取任務(wù)管理抽取任務(wù)信息包括任務(wù)名稱、任務(wù)描述、抽取站點(diǎn)或頻道間和執(zhí)行周期信息。在實(shí)現(xiàn)過程中每項(xiàng)抽取任務(wù)包含三個子任務(wù)：頁面URL抓取任務(wù)、頁面源文件任務(wù)和元數(shù)據(jù)抽取任務(wù)。但這些對抽取任務(wù)控制列出有效的抽取任務(wù)列表，并對每項(xiàng)任務(wù)進(jìn)行控制和監(jiān)任務(wù)檢測自動檢測新建的抽取任務(wù)與已有的抽取任務(wù)是否存在相同的站點(diǎn)或頻道列表的交集。用戶還可以通過選項(xiàng)操作來取消此項(xiàng)輸出結(jié)果：抽取任務(wù)信息平臺資源模功能目標(biāo)：為用戶提供對數(shù)據(jù)的管理方式聞數(shù)據(jù)資源還可以細(xì)分為頁面URL數(shù)據(jù)資源、頁面源文件數(shù)據(jù)資源和新數(shù)據(jù)資源。對平臺資源包括以下幾個部分：抓取數(shù)據(jù)統(tǒng)計對平臺中所有已抓取的頁面URL數(shù)據(jù)進(jìn)行統(tǒng)計，列出URL數(shù)據(jù)統(tǒng)計對平臺中所有已的頁面源文件數(shù)據(jù)進(jìn)行統(tǒng)計，列抽取數(shù)據(jù)統(tǒng)計對平臺中所有已抽取的元數(shù)據(jù)進(jìn)行統(tǒng)計，列出的信息數(shù)、抽取精度、抽取覆蓋度以及綜合指標(biāo)F1-Measure；：、輸出結(jié)果URL抓取源文件和元數(shù)據(jù)抽取的統(tǒng)計和評估，：、功能目標(biāo)：方便用戶定位、查看和分析抓取和抽取數(shù)據(jù)的正確性頁面定位可以根據(jù)站點(diǎn)名稱、頻道名稱和年份這三個條件查詢所有頁面URL列表；元數(shù)據(jù)查看及對比分析在“頁面定位”的基礎(chǔ)上，可以在瀏覽器中瀏覽這些URL對應(yīng)的頁面，并同時顯示該頁面已被抽取出來的所有元數(shù)據(jù)信輸出結(jié)果：按URL或離線顯示頁面，以及對該頁面的抽取結(jié)果數(shù)據(jù)備份/導(dǎo)都需要附加指定的（或條件）。輸出結(jié)果：導(dǎo)入的或HBase數(shù)據(jù)庫數(shù)據(jù)，導(dǎo)出的XML、SQL和JSON式數(shù)據(jù)文件系統(tǒng)參數(shù)配置模功能目標(biāo)：配置不同/頻道的抓取或時間間隔以保證系統(tǒng)獲得最大的數(shù)據(jù)吞吐量、覆蓋率和工作效率。功能描述：該模塊具體包括以下三個部分頁面URL抓取參數(shù)配置由于不同站點(diǎn)所在服務(wù)器性能和服務(wù)狀態(tài)各不相同，因此需要對系統(tǒng)中每個頻道指定合適的頁面URL抓取頁面源文件參數(shù)配置由于不同站點(diǎn)所在服務(wù)器性能和服務(wù)狀態(tài)各不相同，因此需要對系統(tǒng)中每個頻道指定合適的頁面元數(shù)據(jù)時間間隔，單位為毫秒（ms）；輸出結(jié)果：被設(shè)置的各類系統(tǒng)參數(shù)5統(tǒng)詳細(xì)設(shè)系統(tǒng)菜單設(shè)NESV1.0：1）業(yè)務(wù)用戶登錄菜單設(shè)置；3）技術(shù)維護(hù)登錄菜單設(shè)置。1）業(yè)務(wù)用戶登錄菜單設(shè)普通業(yè)務(wù)用1）站點(diǎn)信息管2）頻道信息管平臺資源1）數(shù)據(jù)定2）查看及對比分技登錄菜單設(shè)技1）站點(diǎn)信息管2）頻道信息管1）數(shù)據(jù)定系統(tǒng)參數(shù)配置及NESV1.0系統(tǒng)原型操作部分界面設(shè)計如下，目前沒有考慮頁面風(fēng)格、配色以8910圖11站點(diǎn)信息管圖12頻道信息管136術(shù)實(shí)施方系統(tǒng)技術(shù)路KEG需求及KEG需求及開發(fā)依基于JavaMVC的技術(shù)架應(yīng)用程序服務(wù)器(APP基于Hadoop分布式抽性能評基于分布基于Hbase文件數(shù)源及索源文件數(shù)據(jù)Hbase操作接基于Hadoop的任務(wù)狀態(tài)接基于Hbase 頁面URL列任務(wù)狀Nutch狀態(tài)接Nutch去正則過抓取狀隨機(jī)抽樣評基于Nutch 頁面URL分布式爬蟲程..Node#1Node#2Node#3Node#m程序分布Meta數(shù)據(jù)Hbase操作接基于Hbase Meta數(shù) 及索基于XML抽取模板管基于Java的數(shù)據(jù)管易于管理擴(kuò)展內(nèi)聚Linux分布式編基于XML或TXT的系統(tǒng)配置信基于MySQLLog日基于HUE的Hadoop應(yīng)用交服務(wù)器本地單管護(hù)指保證及編制規(guī)論及方用戶請求發(fā)維質(zhì)計算工程隨機(jī)抽樣評抽取算法分布式改Java任務(wù)隊列管Java編機(jī)器學(xué)習(xí)方法評估指隨機(jī)抽My14NESV1.06.2開發(fā)平臺&工①語言工具：Java、SQL、SSH、JavaScript、HTML+CSS、JQuery等；工具：Sqoop、HUE、Dreamweaver、HareforHBase、NavicatForMySQL、Tomcat、MyEclipse數(shù)據(jù)庫：HBase、MySQLWinSockWebService：③開發(fā)環(huán)境WindowsXP/7.0/8.0LinuxHadoop分布式編程平臺：MyEclipse、JDK開發(fā)方NESV1.0快速原型法（RapidPrototy）是近年來一種以計算機(jī)為基礎(chǔ)的系統(tǒng)不斷擴(kuò)充完善得到最終的平臺。增量迭代，根據(jù)前后相鄰平臺構(gòu)造之間的差異，按照專門的計劃和評估標(biāo)準(zhǔn)產(chǎn)生一個新的版本過程。設(shè)計、系統(tǒng)實(shí)現(xiàn)3開發(fā)架NESV1.0開源的Hadoop作為數(shù)據(jù)抓取、和抽取的分布式網(wǎng)絡(luò)平臺的基礎(chǔ)開源的SSH作為服務(wù)及信息管理的應(yīng)用服務(wù)器端開發(fā)框架系統(tǒng)相關(guān)技實(shí)現(xiàn)NESV1.0系統(tǒng)涉及到以下相關(guān)技術(shù)（重要性不分先后1）工程理論及應(yīng)用技術(shù)7）JavaWeb數(shù)據(jù)庫技術(shù)；8）爬蟲技術(shù)；數(shù)據(jù)接術(shù)Java面象編程技術(shù)JavaXML其中關(guān)鍵技術(shù)為：爬蟲技術(shù)：抓取正則表達(dá)式技術(shù)：對頁面進(jìn)行抽取分布式并行處理技術(shù)：分布式抓取、和抽取互聯(lián)網(wǎng)數(shù)據(jù)，如15所示；分布分布式編分布分布式編分布式并行編程框全文檢索全文檢索全文檢爬Nutch文件系15Hadoop數(shù)據(jù)接術(shù)：建立大規(guī)模數(shù)據(jù)塊文件及其索引文件技術(shù)：Hadoop平臺與外部服務(wù)器進(jìn)行Hadoop分布式系Gun/Linux版Ubuntu系統(tǒng)介紹Linux是一套免費(fèi)使用和的類Unix操作系統(tǒng)，是一個基于POSIX和UNIX的多用戶、多任務(wù)、支持多線程和多CPU的操作系統(tǒng)。它能運(yùn)行主要的UNIX工具、應(yīng)用程序和網(wǎng)絡(luò)協(xié)議。它支持32位和64位硬件。Linux繼承了Unix以網(wǎng)絡(luò)為的設(shè)計思想，是一個性能穩(wěn)定的多用戶網(wǎng)絡(luò)基本思想Linux的基本思想有兩點(diǎn)：第一，一切都是文件；第二，每個視為擁有各自特性或類型的文件。至于說LinuxUnix的，很大程度上也是發(fā)展階段Linux1991105（這是第一次正式向外的時間）。Linux存在著許多不同的Linux版本，但它們都使用了Linux內(nèi)核。Linux可安裝在各種計算機(jī)硬件設(shè)備中，比如、平板電腦、路由器、視頻控制臺、臺式計算機(jī)、大型機(jī)和超級計算機(jī)。嚴(yán)格來講，Linux這個詞本身只表示Linux內(nèi)核但實(shí)際上人們已經(jīng)了用Linux來形容整個基于Linux內(nèi)核，GNULinux操作系統(tǒng)的誕生發(fā)展和成長過程始終依賴著五個重要支柱：UNIX操作系統(tǒng)、MINIX操作系統(tǒng)、GNU計劃、POSIX標(biāo)準(zhǔn)和Internet網(wǎng)絡(luò)。Linux發(fā)展階段如下：器已經(jīng)出現(xiàn)，GNU的操作系統(tǒng)HURD一直處于實(shí)驗(yàn)階段，沒有任何GNUGNU奠定了Linux用戶基礎(chǔ)和開發(fā)環(huán)境。1991年初·開始在一臺386sx兼容微機(jī)上學(xué)習(xí)minix操作系統(tǒng)。1991年4月，·開始醞釀并著手編制自己的操作系統(tǒng)。1991413comp.os.minixbash移植到了minix上，而且已經(jīng)愛不釋手、不能離開這個s了。199173Linuxcomp.os.minix上發(fā)布的（當(dāng)然此時還不存在Linux這個名稱，當(dāng)時·的腦子里想的可能是FREAX，F(xiàn)REAX的英文含義是怪誕的、怪物、異想天開等）。1991年的10月5日，·在comp.os.minix組上發(fā)布消息，正式向外宣布Linux（Freeminix-likekernelsourcesfor386-AT1993100余名程序員參與了Linux內(nèi)核代碼編寫/10萬左右。1994年3月，Linux1.0發(fā)布，代碼量17萬行，當(dāng)時是按照完全免費(fèi)GPL協(xié)議。19951月，BobYoungRedHat（小紅帽），GNU/Linux為核心，集成了400多個源代碼開放的程序模塊，搞出了一種冠以品牌的Linux，即RedHatLinux，稱為Linux“版”，在市場上出售。這在經(jīng)19966月，Linux2.040萬行代碼，并可以支Linux350萬人19982EricRaymond為首的一批年輕的“老牛羚骨干分子”終于認(rèn)識到GNU/Linux體系的道路的本質(zhì)，并非是什么哲學(xué)，而是市場競爭的驅(qū)動，創(chuàng)辦了“OpenSourceIntiative”（開放源代碼促進(jìn)20011月，Linux2.4發(fā)布，它進(jìn)一步地提升了SMP系統(tǒng)的擴(kuò)展性，同時它也集成了很多用于支持桌面系統(tǒng)的特性：USB，PC卡（PCMCIA）200312月，Linux2.6版內(nèi)核發(fā)布相對于2.4版內(nèi)核2.6在對系統(tǒng)的支20041月，SuSENovell，SCO繼續(xù)頂著罵名四處強(qiáng)行“化緣”，Asianux，MandrakeSoft也在五年中首次宣布季度贏利。3SGI宣布成功實(shí)現(xiàn)了Linux256個Itanium2處理器。主要特性Linux完全免費(fèi)Linux是一款免費(fèi)的操作系統(tǒng)，用戶可以通過網(wǎng)絡(luò)或其他途徑Linux的修改、編寫工作，程序員可以根據(jù)自己的和靈感對其進(jìn)行改變，這讓Linux吸收了完全兼容POSIX1.0標(biāo)準(zhǔn)Linux下通過相應(yīng)的模擬器運(yùn)行LinuxWindows下常見的支持多用戶、多任務(wù)Linux支持多用戶，各個用戶對于自己的文件設(shè)備主要的一個特點(diǎn)，Linux可以使多個程序同時并獨(dú)立地運(yùn)行。良好的界面Linux同時具有字符界面和圖形界面。在字符界面用戶可以Windows圖形界面的X-WindowX-Window環(huán)境中就和在Windows中相似，可以說是一個Linux版的Windows。支持多種平臺Linuxx86、680x0、可以運(yùn)行在掌上電腦機(jī)頂盒或機(jī)上2001年1月份發(fā)布的Linux2.4版內(nèi)核已經(jīng)能夠完全支持In64位架構(gòu)。同時Linux也支持多處理桌面環(huán)境編輯在圖形計算中，一個桌面環(huán)境（Desktopenvironment時稱為桌面管理器（I理器和桌面環(huán)境是有區(qū)別的。桌面環(huán)境是最近發(fā)展起來的桌面圖形環(huán)境，它的主要目標(biāo)是為inux/x操作系統(tǒng)提供一個更加完備的界面以及大量各類整合工具（I具欄，文件夾，壁紙以及像拖放這樣的能力。整體而言，桌面環(huán)境在設(shè)計和功能上的特性，賦予了它與眾不同的外觀和感覺。KDE，gnome，Xfce，LXDEAmbient，EDE，IRIXInteractiveDesktop，Mezzo，Sugar，CDEGnome即GNU網(wǎng)絡(luò)對象模型環(huán)境(TheGNUNetworkObjectModelEnvironment)，GNU計劃的一部分，開放源碼運(yùn)動的一個重要組成部分。Unix或者類Unix操作系統(tǒng)構(gòu)造一個功能操作簡單以及界面友好的桌面環(huán)境，他是GNU計劃的正式桌面。 XFormsCommonEnvironment，Xfce20077月，CDEOlivierFourdanXFceXForms三維圖形庫。Xfce 是一個基于GNU/Linux的輕量級圖形操作界面，它雖然沒有GNOME和KDE那樣精致但由于它的運(yùn)行對系統(tǒng)資源和配置要求極低， Enlightenment是一個功能強(qiáng)大的窗口管理器，它的目標(biāo)是運(yùn)用戶輕而易舉地配置所見即所得的桌面圖形界面?，F(xiàn)在Enlightenment的界面已經(jīng)相當(dāng)豪華,它擁有像AfterStep一樣的可視化時鐘以及其它浮華的界面效邊框菜單以及屏幕上其它各個部分而不須要接觸源代碼也不須要編Hadoop平項(xiàng)目Hadoop由ApacheSoftwareFoundation公司于2005年秋天作為Lucene的子項(xiàng)目Nutch的一部分正式引入。它受到最先由Lab開發(fā)的Map/Reduce和FileSystem(GFS)的啟發(fā)。2006年3月份，Map/Reduce和NutchDistributedFileSystem(NDFS)分別被納入稱為HadoopHadoopInternet也可以解決許多要求極大伸縮性的問題。例如，如果您要grep一個10TB的巨名字Hadoop的發(fā)音是[h?du:p]。Hadoop這個名字不是一個縮寫，Hadoop優(yōu)點(diǎn)Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop是一個Hadoop上開發(fā)高可靠性Hadoop按位和處理數(shù)據(jù)的能力值得人們信賴因?yàn)樗僭O(shè)高擴(kuò)展性Hadoop是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的，高效性Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù)各個節(jié)點(diǎn)的動態(tài)高容錯性Hadoop低成本與、數(shù)據(jù)倉庫以及QlikView、YonghongZ-Suite等數(shù)據(jù)集市相比，hadoop是開源的，項(xiàng)目的成本因此會大大降低。可伸縮性HadoopPB級數(shù)據(jù)。此外，HadoopJavaLinux生產(chǎn)平臺上是非常理想的。HadoopC++。MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（1TB）的并行運(yùn)算。實(shí)現(xiàn)是指定一個Map（）函數(shù)，用來把一組鍵值對成一組新的鍵值對，指定并發(fā)的Reduce（規(guī)約）函數(shù)，用來保證所有的鍵值對中的每一個共享相1和化簡簡單說來一個函數(shù)就對一些獨(dú)立元素組成的概念上的列表（例如，一個測試成績的列表）的每一個元素進(jìn)行指定的操作（比如前面的例子里，有人發(fā)現(xiàn)所有學(xué)生的成績都被高估了一分，他可以定義一個“減一”的函數(shù)，用來修正這個錯誤。）。事實(shí)上，每個元素都是被獨(dú)立操作的，而p操作是可以高度并行的，這對高性能要求的應(yīng)用以及并行計算領(lǐng)域的需求非常有用。而化簡操作指的是對一個列表的元素進(jìn)行適當(dāng)?shù)暮喜ⅲɡ^續(xù)看前面的例子，如果有人想知道班級的平均分該怎么做？他可以定義一個化簡函數(shù)，通過讓列表中的元素跟自己的相鄰的元素相加的方式把列表減半，如此遞歸運(yùn)算直到列表只剩下一個元素，然后用這個元素除以人數(shù)，就得到了平均分。）。雖然他不如映所以化簡函數(shù)在高度并行環(huán)境下也很有用。[1]分布可靠MapReduce通過把對數(shù)據(jù)集的大規(guī)模操作分發(fā)給網(wǎng)絡(luò)上的每果一個節(jié)點(diǎn)超過一個預(yù)設(shè)的時間間隔，主節(jié)點(diǎn)（類同F(xiàn)ileSystem化簡操作工作方式與之類似，但是由于化簡操作的可并行性相對較差，主節(jié)點(diǎn)會盡量把化簡操作只分配在一個節(jié)點(diǎn)上，或者離需要操作的數(shù)據(jù)盡可能近的節(jié)點(diǎn)上；這個特性可以滿足的需求，因?yàn)樗麄冇凶銐虻膸?，他們的網(wǎng)用途在，MapReduce用在非常廣泛的應(yīng)用程序中，包括“分MapReduce實(shí)現(xiàn)以后，它被用來重新生成的整個索引，并取代老的adhoc程序去更新MapReduce會生成大量的臨時文件，為了提高效率，它利用文件系統(tǒng)MapReduce來實(shí)現(xiàn),包括大規(guī)模的算HadoopDistributedFileSystemHDFS，是一個分布式文件系統(tǒng)。HDFS件上。而且它提供高吞吐量（highthroughput）來應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（largedataset）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以實(shí)現(xiàn)流的形式（streamingaccess）文件系統(tǒng)中的HDFS開始是為開源的apache項(xiàng)目nutchHDFS是hadoop項(xiàng)目的一部分，而hadoop又曾經(jīng)是是lucene的一部分。Hadoop分布式文件系統(tǒng)(HDFS被設(shè)計成適合運(yùn)行在通用硬件(commodity規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束，來實(shí)現(xiàn)流式文件系統(tǒng)數(shù)據(jù)的目的。HDFSApacheNutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開發(fā)的。HDFSApacheHadoopCore項(xiàng)目的一部分。HDFS硬件故障HDFS系統(tǒng)將由數(shù)百或數(shù)HDFS里的總是有一些部件是失效的，因此，故障的檢測和自動快速恢復(fù)是HDFS一個很的設(shè)計目標(biāo)。流式的數(shù)據(jù)運(yùn)行在HDFS之上的應(yīng)用程序必須流式地它們的數(shù)的，而不是用戶交互式的。重點(diǎn)是在數(shù)據(jù)吞吐量，而不是數(shù)據(jù)的反應(yīng)時間，POSIXHDFSPOSIX一小部分關(guān)鍵大數(shù)據(jù)集HDFSHDFS文GB到TB的級別。所以，HDFS被調(diào)整成支持大文件。它應(yīng)該提供很高簡單一致性模型HDFS程序?qū)ξ募僮餍枰氖且淮螌懚啻味ê唵位藬?shù)據(jù)一致的問題和并使高吞吐量的數(shù)據(jù)變得可能。一個Map-移動計算比移動數(shù)據(jù)更經(jīng)濟(jì)在靠近計算數(shù)據(jù)所的位置來進(jìn)行計算據(jù)更近的位置。異構(gòu)軟硬件平臺間的可移植性HDFS被設(shè)計成可以簡便地實(shí)現(xiàn)平臺間的HDFS作為平臺。名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)HDFSHDFS集群是由一機(jī)制是將一個文件分割成一個或多個塊，這些塊被在一組數(shù)據(jù)節(jié)點(diǎn)中。名字節(jié)點(diǎn)用來操作文件命名空間的文件或操作，如打開，關(guān)閉，重命名等等。它同時確定塊與數(shù)據(jù)節(jié)點(diǎn)的。數(shù)據(jù)節(jié)點(diǎn)來負(fù)責(zé)來自文件系統(tǒng)客戶的讀寫請求數(shù)據(jù)節(jié)點(diǎn)同時還要執(zhí)行塊的創(chuàng)建刪除和來自名字節(jié)點(diǎn)的塊指令名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)都是運(yùn)行在普通的機(jī)器之上的，機(jī)器典型的都是inux，F(xiàn)S是用java編寫的，任何支持java的機(jī)器都可以運(yùn)行名字節(jié)點(diǎn)javaFS典型的部署是由一個專門的機(jī)器來運(yùn)行名字節(jié)點(diǎn)，集群中的其他每臺機(jī)器運(yùn)行一個數(shù)據(jù)節(jié)點(diǎn)實(shí)例。體系結(jié)構(gòu)不排斥在一個機(jī)器上運(yùn)行多個數(shù)據(jù)節(jié)點(diǎn)的實(shí)例，但是實(shí)際的部署不會有這種情況。HDFS元數(shù)據(jù)的倉庫，用戶的實(shí)際數(shù)據(jù)不經(jīng)過名字節(jié)點(diǎn)。文件命名空間編輯HDFS支持傳統(tǒng)的繼承式的文件組織結(jié)構(gòu)。一個用戶或一個程序可以創(chuàng)建，文件到很多之中。文件系統(tǒng)的名字空間層次和其他的文件系統(tǒng)相似?？梢詣?chuàng)建、移動文件，將文件從一個移動到另外一個，或重命名。HDFS現(xiàn)在還沒有實(shí)現(xiàn)用戶的和控制。HDFS還不支持硬的系統(tǒng)名空間，任何文件命名空間的改變和或?qū)傩远急幻止?jié)點(diǎn)記錄。應(yīng)用數(shù)據(jù)HDFS設(shè)計成能可靠地在集群中大量機(jī)器之間大量的文HDFS中的文件是一次寫的，并且任何時候都只有一個寫操作。副本位置：第一小步HDFS的可靠性和性能。副本存放位置的優(yōu)化是HDFS區(qū)分于其他分布式文件系統(tǒng)的的特HDFS運(yùn)行在大量機(jī)架的集群之上。兩個不同機(jī)架上的節(jié)點(diǎn)是通id節(jié)點(diǎn)的時候告知它的機(jī)架id。FS提供接口以便很容易地掛載檢HDFSblock放置策略在最小化寫開銷和最大化數(shù)據(jù)可靠性、HDFS的副本放置策略是將第一個副本放在本地節(jié)點(diǎn)，將第二個副本放到減少了讀操作的網(wǎng)絡(luò)聚合帶寬，因?yàn)槲募K僅存在兩個不同的機(jī)架，而1/31/3均勻地分布在其他機(jī)架上。這種方式提副本的選擇為了盡量減小全局的帶寬消耗讀延遲，HDFS嘗試返回給一安全模式在啟動的時候，名字節(jié)點(diǎn)進(jìn)入一個叫做安全模式的特殊狀態(tài)。制數(shù)就被認(rèn)為是安全地了，當(dāng)達(dá)到配置的塊安全比例時（加上額外的30文件系統(tǒng)的元數(shù)據(jù)的持久化HDFS名空間是由名字節(jié)點(diǎn)來的。名字節(jié)點(diǎn)使用叫做EditLog的事務(wù)日志來持久記錄每一個對文件系統(tǒng)元數(shù)據(jù)的改變，如在HDFS中創(chuàng)建一個新的文件，名字節(jié)點(diǎn)將會在EditLog中一條記錄來記錄這個改變。類似地，改變文件的因子也會向EditLog中一條記錄。名字節(jié)點(diǎn)在本地文件系統(tǒng)中用一個文件來這個EditLog整個文件系統(tǒng)命名空間，包括文件塊的表和文件系統(tǒng)的配置都存在一個叫FsImage的文件中，F(xiàn)sImage文件數(shù)和名字節(jié)點(diǎn)啟動時它將從磁盤中FsImage和EditLog將EditLog中的所有事務(wù)應(yīng)用到FsImageFsImage刷新到本地磁盤中，因?yàn)槭聞?wù)已經(jīng)被處理并已經(jīng)持久化的FsImage中，然后就可以截去舊的數(shù)據(jù)節(jié)點(diǎn)將FS數(shù)據(jù)到本地的文件系統(tǒng)中。數(shù)據(jù)節(jié)點(diǎn)并不知道FS文件的存在它在本地文件系統(tǒng)中以單獨(dú)的文件每一個FS文件的數(shù)據(jù)塊數(shù)據(jù)節(jié)點(diǎn)不會將所有的數(shù)據(jù)塊文件存放到同一個中，而是啟發(fā)式的檢測每一個的最優(yōu)文件數(shù)，并在適當(dāng)?shù)臅r候創(chuàng)建子。在本地同一個下創(chuàng)建所有的數(shù)據(jù)塊文件不是最優(yōu)的，因?yàn)楸镜匚募到y(tǒng)可能不支持單個下文件的高效操作。當(dāng)數(shù)據(jù)節(jié)點(diǎn)啟動的時候，它將掃描它的本地文件系統(tǒng)，根據(jù)本地的文件產(chǎn)生一個所有FS數(shù)據(jù)塊的列表并報告給名字節(jié)點(diǎn)稱作塊報告通信協(xié)議TCP/IP協(xié)議之上構(gòu)建的。一個客戶端TCP配置端口的名字節(jié)點(diǎn)建立連接之后，它和名字節(jié)點(diǎn)之間通信的協(xié)議是ClientProtocalDatanodeProtocol通信。RP（RemoteCall協(xié)議。按照設(shè)計，名字節(jié)點(diǎn)不會主動發(fā)起一個RPC，它只是地對數(shù)據(jù)節(jié)點(diǎn)和客戶端發(fā)起的RPC作出反饋。Lucene是apache4jakarta項(xiàng)目組的一個子項(xiàng)目，是一個開放源代索引擎的架構(gòu)，提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語言）。Lucene的目的是為開發(fā)提供一個簡單易用的工具特點(diǎn)及優(yōu)勢作為一個開放源代碼項(xiàng)目，Lucene從問世之后，了開放之集成到各種系統(tǒng)中去，以及構(gòu)建Web應(yīng)用，甚至某些商業(yè)也采用了Lucene作為其全文檢索子系統(tǒng)的。的使用了Lucene作為全文檢索的引擎，IBM的開源eclipse[9]的2.1版本中也采用了Lucene作為幫助子系統(tǒng)的全文索引引擎，相應(yīng)的IBM的商業(yè)WebSphere[10]Lucene。Lucene以其開放源代碼的特性、優(yōu)異的索引結(jié)構(gòu)、良好的系Lucene(IR)索引和搜索能力。Lucene是用java實(shí)現(xiàn)的、成開源項(xiàng)目，是著名的ApacheJakarta大家庭的一員，并且基于Apache[ASF,License]。同樣，Lucene是當(dāng)前非常流行的、免費(fèi)的Java信息搜索(IR)庫。面對已經(jīng)存在的商業(yè)全文檢索引擎，une也具有相當(dāng)?shù)膬?yōu)勢。首先，它的開發(fā)源代碼方式（遵守heSoftwreicn[12]），在此基礎(chǔ)上程序員不僅僅可以充分的利用une所提供的強(qiáng)大功能，而且可以深入細(xì)致的學(xué)習(xí)到全文檢索引擎制作技術(shù)和面象編程的實(shí)踐，進(jìn)而在此基礎(chǔ)上根據(jù)應(yīng)用的實(shí)際情況編寫出更好的更適合當(dāng)前應(yīng)用的全文檢索引擎。在這一點(diǎn)上，商業(yè)的靈活性un。其次，une秉承了開放源代碼一貫的架構(gòu)優(yōu)良的優(yōu)勢，設(shè)計了一個合理而極具擴(kuò)充能力的面象架構(gòu)程序員可以在une的基礎(chǔ)上擴(kuò)充TLP[13]等等文本格式une恰當(dāng)合理的對系統(tǒng)設(shè)備做了程序上的抽象，擴(kuò)展的功能也能輕易的達(dá)到跨平臺的能力。最后，轉(zhuǎn)移到phe后借助于phe的網(wǎng)絡(luò)平臺程序員可以方便的和開發(fā)者、其它程序員交流，促成資源的共享，甚至直接獲得已經(jīng)編寫完備的une使用Jva（例如ntfrmeork在遵守une索引文件格式的基礎(chǔ)上，使得une能夠運(yùn)行在各種各樣的平臺上，系統(tǒng)管理員可以根據(jù)當(dāng)前的平臺適合的語言來合理的選擇。突出的優(yōu)點(diǎn)Luceneune8引文件格式，使得兼容系統(tǒng)或者不同平臺的應(yīng)用能夠共享建立的索引文件。優(yōu)秀的面象的系統(tǒng)架構(gòu)，使得對于Lucene擴(kuò)展的學(xué)習(xí)難度降低，方設(shè)計了獨(dú)立于語言和文件格式的文本分析接口，索引器通過接受Token流獲得強(qiáng)大的查詢能力，Lucene的查詢實(shí)現(xiàn)中默認(rèn)實(shí)現(xiàn)了操作、模糊查詢（FuzzySearch[11]）、分組查詢等等。Ajax技Ajax簡介AJAXAsynchronousJavaScriptandXML（異步JavaScriptXML)，AJAXJesseJamesGaiiett創(chuàng)造的名詞，Web交互應(yīng)用的研發(fā)企（如FlickrBackpack和）在這方面已經(jīng)有質(zhì)的飛躍。這個術(shù)語源自描述從基于Web的應(yīng)用到基于數(shù)據(jù)的應(yīng)用的轉(zhuǎn)換。在基于數(shù)據(jù)的應(yīng)用中，用戶需求入網(wǎng)頁中，給緩慢的Web應(yīng)用體驗(yàn)使之像桌面應(yīng)用一樣。Ajax的是JavaScript對象XmlHttpRequest。該對象在InternetExplorer5中首次引入，它是一種支持異步請求的技術(shù)。簡而言之，XmlHttpRequest使您可以使用JavaScript向服務(wù)器提出請求并處理響應(yīng)，而不阻塞用戶。Ajax優(yōu)勢隨著不斷發(fā)展，AJAX傳統(tǒng)的web應(yīng)用允許用戶填寫表單(form），當(dāng)提交表單時就向web服務(wù)器發(fā)浪費(fèi)了許多帶寬，因?yàn)楹髢蓚€頁面中的大部分HTML代碼往往是相同的。由以僅向服務(wù)器發(fā)送并取回必需的數(shù)據(jù)它使用SOAP或其它一些基于XML的web使用Ajax的最大優(yōu)點(diǎn)，就是能在不更新整個頁面的前提下數(shù)據(jù)。這使得Web應(yīng)用程序更為迅捷地回應(yīng)用戶動作，并避免了在網(wǎng)絡(luò)上發(fā)送那些沒有改變過AjaxJavaScriptDHTML應(yīng)用程序那樣，Ajax應(yīng)用程序必須在眾多不同的瀏覽器和平臺上經(jīng)過嚴(yán)格的測試。隨著Ajax的成熟，一些簡化Ajax使用方法的程序庫也相繼問世。同Ajax主要技術(shù)Ajax技術(shù)具體包括：（1）使用DOM（ObjectModel）進(jìn)行動態(tài)顯示及交互；（2）使用XML和XSLT進(jìn)行及相關(guān)操作；3)使用XMLHttpRequest進(jìn)行異

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

分布式互聯(lián)網(wǎng)新聞信息抽取系統(tǒng)nes建設(shè)總體方案-forthu

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔