版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于基于Hadoop平臺(tái)的教育資平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 答辯人:孔答辯人:孔 楠楠 導(dǎo)導(dǎo) 師:張建明師:張建明( (教授教授) )內(nèi)容概要內(nèi)容概要總結(jié)與下一步工作總結(jié)與下一步工作 系統(tǒng)的實(shí)現(xiàn)系統(tǒng)的實(shí)現(xiàn) 關(guān)鍵技術(shù)闡述關(guān)鍵技術(shù)闡述 基于基于HadoopHadoop平臺(tái)的平臺(tái)的MDVSPMDVSP模型模型 研究的背景、現(xiàn)狀和目標(biāo)研究的背景、現(xiàn)狀和目標(biāo)研究的背景、現(xiàn)狀和目標(biāo)v背景背景 互聯(lián)網(wǎng)的信息量呈爆炸趨勢(shì)增長,數(shù)量的增加帶來的是搜索服務(wù)品質(zhì)的下降,并且查詢的結(jié)果里存在大量的重復(fù)信息和垃圾信息,用戶的查詢效率非常低。 互聯(lián)網(wǎng)已經(jīng)成為基礎(chǔ)教育領(lǐng)域的廣大教育工作
2、者、學(xué)生和家長們獲取基礎(chǔ)教育資源和信息的重要工具,那么在網(wǎng)絡(luò)的發(fā)展客觀上就需要有能夠滿足這一特定領(lǐng)域、特定人群或者說是特定需求的網(wǎng)站。研究的背景、現(xiàn)狀和目標(biāo)v現(xiàn)狀現(xiàn)狀 信息過量。網(wǎng)上資源內(nèi)容廣泛,通用搜索引擎返回的大量信息過多過雜,專業(yè)性不強(qiáng).使用戶淹沒在海量信息里,篩選信息需要耗費(fèi)大量的精力。 信息準(zhǔn)確度低。由于通用搜索引擎強(qiáng)調(diào)通用性,檢索范圍廣,對(duì)資源沒有篩選分類,資源索引庫十分龐雜,很難滿足特定用戶群的特定需求。 信息服務(wù)缺乏針對(duì)性,缺少用戶交互。通用搜索引擎檢索結(jié)果完全依賴于用戶的關(guān)鍵詞,即對(duì)于不同的用戶,同一個(gè)關(guān)鍵詞返回的結(jié)果相同,沒有與用戶聯(lián)系起來,難以滿足用戶的個(gè)性化需求。研究的
3、背景、現(xiàn)狀和目標(biāo)v目標(biāo)目標(biāo) 提高教育領(lǐng)域搜索內(nèi)容的準(zhǔn)確率和搜索引擎的計(jì)算效率。 熟悉Hadoop分布式集群的整體框架,包括其存儲(chǔ)模式和計(jì)算模型。 基于Hadoop,定制Map/Reduce和強(qiáng)大的容錯(cuò)機(jī)制,定義和實(shí)現(xiàn)數(shù)據(jù)接口。 耦合原始數(shù)據(jù)預(yù)處理和Hadoop,解決名稱節(jié)點(diǎn)的單點(diǎn)故障等問題。 基于Hadoop分布式平臺(tái),結(jié)合教育資源垂直搜索領(lǐng)域,設(shè)計(jì)出搜索效率、準(zhǔn)確率較高的垂直搜索引擎。內(nèi)容概要內(nèi)容概要總結(jié)與下一步工作總結(jié)與下一步工作 系統(tǒng)的實(shí)現(xiàn)系統(tǒng)的實(shí)現(xiàn) 關(guān)鍵技術(shù)闡述關(guān)鍵技術(shù)闡述 基于基于Hadoop平臺(tái)的平臺(tái)的MDVSP模型模型 研究的背景、現(xiàn)狀和目標(biāo)研究的背景、現(xiàn)狀和目標(biāo)基于Hadoop
4、平臺(tái)的MDVSP模型vHDFSHDFS體系架構(gòu)體系架構(gòu) 基于Hadoop平臺(tái)的MDVSP模型vHDFSHDFS體系架構(gòu)體系架構(gòu) Hadoop的分布式文件系統(tǒng)被設(shè)計(jì)為將海量文件遍布存儲(chǔ)在一個(gè)大集群的多臺(tái)計(jì)算機(jī)上。HDFS的設(shè)計(jì)是受到了GFS的啟發(fā)。HDFS將每一個(gè)文件以分塊序列的形式進(jìn)行存儲(chǔ),一個(gè)文件的所有分塊除去最后一個(gè)分塊外都是等大小的。為了實(shí)現(xiàn)容錯(cuò)將文件分塊進(jìn)行自動(dòng)復(fù)制。文件分塊的塊大小和復(fù)制比例都是可以按照單個(gè)文件進(jìn)行配置的。HDFS中的所有文件都是“只寫一次”并且嚴(yán)格限定在任何時(shí)候只有一個(gè)寫文件操作者。基于Hadoop平臺(tái)的MDVSP模型vHDFSHDFS體系架構(gòu)體系架構(gòu) 和Hadoo
5、p MapReduce類似,HDFS也是主從架構(gòu)。一個(gè)安裝好的HDFS包括一個(gè)單獨(dú)的名稱節(jié)點(diǎn),一個(gè)主服務(wù)器用于文件系統(tǒng)命名空間管理和客戶端的文件訪問管理。除此之外,還有很多個(gè)數(shù)據(jù)節(jié)點(diǎn),在集群中的每個(gè)節(jié)點(diǎn)都有一個(gè)數(shù)據(jù)節(jié)點(diǎn)用于存儲(chǔ)該節(jié)點(diǎn)運(yùn)行時(shí)的數(shù)據(jù)。名稱節(jié)點(diǎn)通過RPC接口支持文件系統(tǒng)命名空間中文件和目錄的打開、關(guān)閉和重命名等操作。它也決定了數(shù)據(jù)塊和數(shù)據(jù)節(jié)點(diǎn)的映射關(guān)系。數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)提供文件系統(tǒng)客戶端的讀寫請(qǐng)求,除此之外也提供來自名稱節(jié)點(diǎn)的數(shù)據(jù)塊創(chuàng)建、刪除和復(fù)制指令?;贖adoop平臺(tái)的MDVSP模型vMap/ReduceMap/Reduce執(zhí)行流程執(zhí)行流程 基于Hadoop平臺(tái)的MDVSP模型vM
6、ap/ReduceMap/Reduce執(zhí)行流程執(zhí)行流程 分割文件(fork)。 首先,將眾多文件分成大小不等的若干小塊數(shù)據(jù),數(shù)據(jù)塊大小由用戶給定參數(shù)控制,然后啟動(dòng)機(jī)器集群中的眾多程序拷貝。 指派Map/Reduce任務(wù) 主程序指派空閑的工作站程序執(zhí)行Map任務(wù)或是Reduce任務(wù)。 讀取(read) 被指派執(zhí)行Map任務(wù)的工作站讀取相關(guān)的數(shù)據(jù)塊,從原始數(shù)據(jù)中解析出Key/Value對(duì),經(jīng)過Map函數(shù)處理,得到中間鍵值時(shí),存入內(nèi)存緩沖區(qū)。基于Hadoop平臺(tái)的MDVSP模型vMap/ReduceMap/Reduce執(zhí)行流程執(zhí)行流程 本地寫(1ocal write) 內(nèi)存中的數(shù)據(jù)組被劃分函數(shù)周期性
7、的劃分到R個(gè)區(qū)域?qū)懭氡镜卮疟P。這些在本地磁盤的數(shù)據(jù)數(shù)列的存放位置信息被送回管理機(jī),管理機(jī)負(fù)責(zé)將這些位置信息傳送到執(zhí)行Reduce任務(wù)的工作站。 遠(yuǎn)程讀取(remote read) 當(dāng)執(zhí)行Reduce任務(wù)的工作站被告知這些數(shù)據(jù)的位置,它通過遠(yuǎn)程方式讀取執(zhí)行Map任務(wù)的工作站中的本地緩沖數(shù)據(jù)。Reduce工作站讀取完所有中間數(shù)據(jù)后,通過中間關(guān)鍵字對(duì)數(shù)據(jù)進(jìn)行排列,把具有相同關(guān)鍵字的數(shù)據(jù)分為一類。排序操作是必須的,因?yàn)榫哂胁煌年P(guān)鍵字Map后會(huì)進(jìn)行相同的Reduce操作。如果中間數(shù)據(jù)的數(shù)量太大不適合存入內(nèi)存,就啟用外部存儲(chǔ)。基于Hadoop平臺(tái)的MDVSP模型vMap/ReduceMap/Reduce
8、執(zhí)行流程執(zhí)行流程 寫到輸出文件(write) Reduce工作站對(duì)每一個(gè)由唯一的中間關(guān)鍵字對(duì)應(yīng)的中間數(shù)據(jù)進(jìn)行排列,它發(fā)送關(guān)鍵字和相對(duì)應(yīng)的中間值給用戶的Reduce函數(shù)。Reduce函數(shù)的輸出結(jié)果將被寫到最后的輸出文件中。當(dāng)所有的Map任務(wù)和Reduce任務(wù)都已經(jīng)完成了的時(shí)候,Master激活用戶程序。在這時(shí)候Map/Reduce返回用戶程序的調(diào)用點(diǎn)?;贖adoop平臺(tái)的MDVSP模型v系統(tǒng)體系結(jié)構(gòu)系統(tǒng)體系結(jié)構(gòu) 基于Hadoop平臺(tái)的MDVSP模型v系統(tǒng)體系架構(gòu)系統(tǒng)體系架構(gòu) 表現(xiàn)層:表現(xiàn)層用于生成用戶訪問的Web頁面,該層是用來實(shí)現(xiàn)系統(tǒng)與用戶的一個(gè)人機(jī)接口。 邏輯層:這一層是非常重要也是非常關(guān)
9、鍵的一層,因?yàn)樗钦嬲饬x上實(shí)現(xiàn)用戶層與數(shù)據(jù)存儲(chǔ)計(jì)算的紐帶。在這一層里我們利用相應(yīng)的代碼實(shí)現(xiàn)前面設(shè)計(jì)好的一些關(guān)鍵算法。所以說該層的設(shè)計(jì)是實(shí)現(xiàn)系統(tǒng)健壯性、可重用性、可擴(kuò)展性和可維護(hù)性的關(guān)鍵因素。 數(shù)據(jù)存儲(chǔ)計(jì)算層:該層的實(shí)現(xiàn)是由Hadoop平臺(tái)實(shí)現(xiàn)。存儲(chǔ)數(shù)據(jù)庫選用Hadoop組件中的HBase,由圖中我們可以看出該層主要是負(fù)責(zé)存儲(chǔ)整個(gè)搜索引擎的底層結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲(chǔ)層主要包括兩個(gè)大規(guī)模的數(shù)據(jù)庫,一是面向爬蟲所得頁面與抽取信息的寫入,二是面向客戶查詢的信息的讀取。在Hadoop平臺(tái)中我們選擇多個(gè)數(shù)據(jù)節(jié)點(diǎn)即DataNode,用于提高存儲(chǔ)Capacity和計(jì)算效率。基于Hadoop平臺(tái)的MDVSP模型
10、v數(shù)據(jù)處理模型框架數(shù)據(jù)處理模型框架 內(nèi)容概要內(nèi)容概要總結(jié)與下一步工作總結(jié)與下一步工作 系統(tǒng)的實(shí)現(xiàn)系統(tǒng)的實(shí)現(xiàn) 關(guān)鍵技術(shù)闡述關(guān)鍵技術(shù)闡述 基于基于HadoopHadoop平臺(tái)的平臺(tái)的MDVSPMDVSP模型模型 研究的背景、現(xiàn)狀和目標(biāo)研究的背景、現(xiàn)狀和目標(biāo)關(guān)鍵技術(shù)闡述v聚焦爬蟲設(shè)計(jì)聚焦爬蟲設(shè)計(jì)關(guān)鍵技術(shù)闡述v聚焦爬蟲設(shè)計(jì)聚焦爬蟲設(shè)計(jì)n 聚焦爬蟲還需要解決三個(gè)主要問題: 對(duì)抓取目標(biāo)的描述或定義; 對(duì)網(wǎng)頁或數(shù)據(jù)的分析與過濾; 對(duì)URL的搜索策略; 抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與 URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選 URL 排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為
11、的關(guān)鍵所在。這兩個(gè)部分的算法又是緊密相關(guān)的。關(guān)鍵技術(shù)闡述vMap/ReduceMap/Reduce設(shè)計(jì)設(shè)計(jì)n Map/Reduce Map/Reduce 數(shù)據(jù)流設(shè)計(jì)數(shù)據(jù)流設(shè)計(jì) 把輸入的數(shù)據(jù)進(jìn)行分區(qū),把用戶輸入的文件分割成M個(gè)大小均為6M-64M的塊送入Cluster; 在集群節(jié)點(diǎn)上首先選擇一個(gè)核心節(jié)點(diǎn),它是主控制程序master,master控制任務(wù)的分配,總共有M個(gè)map任務(wù)和R個(gè)reduce任務(wù)需要分配。Master會(huì)選擇空閑的worker來分配map任務(wù)和reduce任務(wù); 用戶數(shù)據(jù)輸入后,會(huì)分配一個(gè)map任務(wù)給worker,worker讀取并處理相關(guān)的文件塊。MDVSP在這里做了個(gè)優(yōu)化
12、,眾所周知IO耗時(shí),但是網(wǎng)絡(luò)的IO的耗時(shí)遠(yuǎn)大于本地的IO耗時(shí),所以master會(huì)盡量在包含對(duì)應(yīng)輸入數(shù)據(jù)塊的副本機(jī)器上啟動(dòng)map操作,或者盡量靠近的機(jī)器上,從而降低遠(yuǎn)程IO所帶來的延時(shí);關(guān)鍵技術(shù)闡述 Worker讀取塊后會(huì)處理數(shù)據(jù),分析出key/value然后傳遞給用戶定義的map函數(shù)。Map函數(shù)將中間結(jié)果暫時(shí)存放在緩沖的內(nèi)存中。Map worker執(zhí)行結(jié)束后,它會(huì)通知數(shù)據(jù)處理的地址(而不是數(shù)據(jù),這樣效率非常高)主控制器master,master更新自身的數(shù)據(jù)結(jié)構(gòu),并且負(fù)責(zé)把這些信息告知Reduce worker。 Master的工作流程好比報(bào)刊的訂閱/發(fā)行業(yè)務(wù)流,每當(dāng)master的緩沖文件的位
13、置信息的結(jié)構(gòu)更新時(shí),他就告訴所有的正在運(yùn)行狀態(tài)的Reduce worker。Recude worker會(huì)迭代所有的排序后的中間數(shù)據(jù)集合,并且把key和相關(guān)的中間結(jié)果值集合傳遞給用戶定義的reduce函數(shù)。Reduce函數(shù)會(huì)將內(nèi)容輸出到一個(gè)最終的文件中。關(guān)鍵技術(shù)闡述v容錯(cuò)與可靠性設(shè)計(jì)容錯(cuò)與可靠性設(shè)計(jì)機(jī)制描述Backup就是有多個(gè)master實(shí)例,備份的master實(shí)例是inactive狀態(tài),但是保持?jǐn)?shù)據(jù)結(jié)構(gòu)和管事兒的master一致。一旦工作中的master宕機(jī),馬上替換掉。Checkpoint就是master一段時(shí)間會(huì)將整個(gè)數(shù)據(jù)結(jié)構(gòu)持久化到全局文件系統(tǒng)中(類似于寫日志),宕機(jī)后,就從上一個(gè)ch
14、eckpoint開始啟動(dòng)master進(jìn)程。關(guān)鍵技術(shù)闡述v容錯(cuò)與可靠性設(shè)計(jì)容錯(cuò)與可靠性設(shè)計(jì) 畢竟在一個(gè)大規(guī)模集群中,單點(diǎn)故障失效的問題也很常見。Master維護(hù)同一個(gè)任務(wù)下所有Map worker和Reduce work的狀態(tài)信息,它會(huì)周期性的ping下他們,如果有不回應(yīng)的,Master就猜測(cè)該worker所在節(jié)點(diǎn)可能出現(xiàn)故障,對(duì)于Map worker(即使它完成了),它會(huì)另外找一臺(tái)機(jī)器在上面啟一個(gè)新的worker重新執(zhí)行失效worker的任務(wù),而對(duì)于Reduce worker,如果完成了的話,就不需要重新執(zhí)行,負(fù)責(zé)需要和Map 一樣處理。這是因?yàn)镽educe worker的輸出已經(jīng)存放到全局文
15、件系統(tǒng)(留有副本),而Map worker的輸出存放到本地文件上。重新執(zhí)行Map時(shí),Master會(huì)將新的Map worker信息告知Reduce們。這個(gè)機(jī)制能很容易的應(yīng)付較大尺度的worker失效問題。但對(duì)于Master呢,一旦壞掉就宕機(jī),所以master一般有兩種機(jī)制,有backup和checkpoint。關(guān)鍵技術(shù)闡述v遠(yuǎn)程調(diào)用設(shè)計(jì)遠(yuǎn)程調(diào)用設(shè)計(jì) RPC是個(gè)遠(yuǎn)程過程調(diào)用協(xié)議,類似于XMLRPC,但是工作方式有很大的不同,結(jié)合基于Hadoop的MDVSP系統(tǒng),進(jìn)行了改進(jìn)、封裝,包括兩部分,一個(gè)是Java服務(wù)器端的JAVA-RPC,一個(gè)是JavaScript客戶端的JS-RPC,兩個(gè)封裝包統(tǒng)稱為M
16、DVSP-RPC。 MDVSP-RPC僅僅使用HTTP的GET和POST兩種方式的請(qǐng)求,不對(duì)HTTP協(xié)議的其他請(qǐng)求方式(如 HEAD、PUT、DELETE等)提供支持。MDVSP-RPC在設(shè)計(jì)的時(shí)候要求使用POST,僅在無法使用POST進(jìn)行請(qǐng)求的操作的時(shí)候,才考慮使用GET。因?yàn)镸DVSP-RPC請(qǐng)求不保證是冪等性操作,使用GET請(qǐng)求做非冪等性操作,會(huì)破壞GET的原始語義。遠(yuǎn)程調(diào)用過程中,參數(shù)和返回結(jié)果都是通過JAVA的序列化形式表示。傳輸編碼采用Base64和JavaScript等字符串方式編碼。密鑰交換采用Diffie-Hellman密鑰交換算法。數(shù)據(jù)加密采用XXTEA加密算法。關(guān)鍵技術(shù)闡
17、述v遠(yuǎn)程調(diào)用設(shè)計(jì)遠(yuǎn)程調(diào)用設(shè)計(jì) 請(qǐng)求的格式采用標(biāo)準(zhǔn)的 application/x-www-form-urlencoded 格式,因?yàn)檫@種格式對(duì)于任何 HTTP 客戶端和服務(wù)器來說都是容易構(gòu)造和解析的,且可以保持 GET 和 POST 請(qǐng)求的構(gòu)造和解析的一致性。響應(yīng)的格式采用純文本,所以服務(wù)器可以設(shè)置響應(yīng)的 Content-Type 為 text/plain,并設(shè)置明確的字符集。響應(yīng)格式類似于多行 JavaScript 賦值語句,例如:MDVSP_rpc_result=“B:1“;MDVSP_rpc_errno=”0”;MDSVP_rpc_output=“”;關(guān)鍵技術(shù)闡述vHadoopHadoop
18、的的HAHA設(shè)計(jì)設(shè)計(jì)內(nèi)容概要內(nèi)容概要總結(jié)與下一步工作總結(jié)與下一步工作 系統(tǒng)的實(shí)現(xiàn)系統(tǒng)的實(shí)現(xiàn)關(guān)鍵技術(shù)闡述關(guān)鍵技術(shù)闡述 基于基于HadoopHadoop平臺(tái)的平臺(tái)的MDVSPMDVSP模型模型 研究的背景、現(xiàn)狀和目標(biāo)研究的背景、現(xiàn)狀和目標(biāo)系統(tǒng)實(shí)現(xiàn)v開發(fā)平臺(tái)及其開發(fā)工具開發(fā)平臺(tái)及其開發(fā)工具n 操作系統(tǒng)操作系統(tǒng) 我們web服務(wù)器采用CentOS(Community ENTerprise Operating System)操作系統(tǒng),為什么呢?因?yàn)镃entOS是Linux發(fā)行版之一,它是來自于Red Hat Enterprise Linux 依照開放源代碼規(guī)定釋出的源代碼編譯而成。由于出自同樣的源代碼,因
19、此有些要求高度穩(wěn)定性的服務(wù)器以CentOS替代商業(yè)版的Red Hat Enterprise Linux使用。內(nèi)核版本為2.6.9-42.0.3.ELsmp。系統(tǒng)實(shí)現(xiàn)v開發(fā)平臺(tái)及其開發(fā)工具開發(fā)平臺(tái)及其開發(fā)工具n 硬件平臺(tái)硬件平臺(tái) 我們選用Cisco UCS C200 M1服務(wù)器實(shí)現(xiàn)計(jì)算性能與I/O靈活性完美平衡的高密度服務(wù)器,硬件平臺(tái)是HW4.0,主要有以下特性: Cisco UCSC200 M1服務(wù)器配有兩枚四核 Intel Xeon 5500系列處理器。這些多核處理器能夠根據(jù)應(yīng)用需求自動(dòng)地智能調(diào)節(jié)服務(wù)器性能。 最多可支持96 GB工業(yè)標(biāo)準(zhǔn)DDR3主內(nèi)存。 最大提供4TB存儲(chǔ)。 兩個(gè) 千兆以太
20、網(wǎng)端口和一個(gè)10/100Mbps的管理端口。 雙冗余電源能夠提高可靠性、可用性和串口的接口。v開發(fā)平臺(tái)及其開發(fā)工具開發(fā)平臺(tái)及其開發(fā)工具n 開發(fā)工具開發(fā)工具服務(wù)器后臺(tái)開發(fā)語言采用Java,有以下幾個(gè)原因: 由于Hadoop平臺(tái)是基于java開發(fā)的,考慮到兼容和可移植性,采用Java語言進(jìn)行程序設(shè)計(jì)。 Java程序容易部署,在操作系統(tǒng)上安裝Java虛擬機(jī)就可運(yùn)行。而且現(xiàn)在Java平臺(tái)已經(jīng)嵌入到幾乎所有的操作系統(tǒng)中。 考慮到程序中需要有大文本抽取分析,本系統(tǒng)也選用了Perl(Practical Extraction and Report Language)語言,版本是v5.10.0。Perl具有高級(jí)
21、語言(如C)的強(qiáng)大能力和靈活性。與腳本語言一樣,Perl不需要編譯器和鏈接器來運(yùn)行代碼,只要告訴Perl怎么做就可以了。Perl提供腳本語言(如sed和awk)的所有功能,在文本分析方面效率遠(yuǎn)遠(yuǎn)高于Java語言。系統(tǒng)實(shí)現(xiàn)v實(shí)現(xiàn)效果實(shí)現(xiàn)效果系統(tǒng)實(shí)現(xiàn)v實(shí)驗(yàn)結(jié)果對(duì)比實(shí)驗(yàn)結(jié)果對(duì)比數(shù)據(jù)量Oracle單機(jī)測(cè)試基于Hadoop平臺(tái)節(jié)約時(shí)間20萬1.1秒1.4秒-0.4秒500萬7.6秒3.1秒4.5秒1000萬29秒10.4秒18.6秒2000萬42秒13秒29秒5000萬78秒18.8秒50.2秒我們的實(shí)驗(yàn)都是單層擴(kuò)展,首先考察數(shù)據(jù)規(guī)模對(duì)Hadoop平臺(tái)性能的影響。數(shù)據(jù)源分別20萬、500萬、1000萬、
22、2000萬、5000萬。初始節(jié)點(diǎn)個(gè)數(shù)為2。為了減少單次實(shí)驗(yàn)的偶然性,表中的實(shí)驗(yàn)結(jié)果是3次實(shí)驗(yàn)的平均值系統(tǒng)實(shí)現(xiàn) 為了更直觀地看到對(duì)比結(jié)果,我們將表用折線圖表示出來,其中縱坐標(biāo)是時(shí)間,縱坐標(biāo)表示數(shù)據(jù)集的大小。v實(shí)驗(yàn)結(jié)果對(duì)比實(shí)驗(yàn)結(jié)果對(duì)比系統(tǒng)實(shí)現(xiàn)系統(tǒng)實(shí)現(xiàn)對(duì)比結(jié)果表明:對(duì)比結(jié)果表明:隨著數(shù)據(jù)量的不斷增大,Hadoop版本系統(tǒng)節(jié)約的時(shí)間越多,優(yōu)勢(shì)越明顯。數(shù)據(jù)增加的時(shí)候,Oracle單擊版系統(tǒng)用時(shí)增加幅度高于Hadoop版本系統(tǒng)。數(shù)據(jù)量很小的時(shí)候,Hadoop版本系統(tǒng)的擴(kuò)展效率反而不如Oracle。實(shí)驗(yàn)結(jié)果與我們最初的預(yù)想有一定差距,因?yàn)樵跀?shù)據(jù)量增大的基礎(chǔ)上實(shí)驗(yàn)結(jié)果與我們最初的預(yù)想有一定差距,因?yàn)樵跀?shù)據(jù)量增
23、大的基礎(chǔ)上HadoopHadoop平臺(tái)并沒有表現(xiàn)出特別大的優(yōu)勢(shì)。重新分析一下實(shí)驗(yàn),歸結(jié)了以下原因:平臺(tái)并沒有表現(xiàn)出特別大的優(yōu)勢(shì)。重新分析一下實(shí)驗(yàn),歸結(jié)了以下原因:第一, 對(duì)于我們的實(shí)驗(yàn)數(shù)據(jù)源按照一條記錄1k大小來計(jì)算,5000萬條記錄實(shí)際上才只有40G的數(shù)據(jù)量。Hadoop平臺(tái)只有在處理超大規(guī)模數(shù)據(jù)的時(shí)候才能顯示出其優(yōu)勢(shì)。如果處理的數(shù)據(jù)源是通信企業(yè)內(nèi)部的真實(shí)業(yè)務(wù)數(shù)據(jù),Hadoop平臺(tái)就會(huì)顯示出強(qiáng)大的數(shù)據(jù)處理能力。處理小規(guī)模的數(shù)據(jù)集合的時(shí)候,反倒還不如傳統(tǒng)的關(guān)系數(shù)據(jù)庫效率高。第二, 隨著數(shù)據(jù)源的不斷增加,新增節(jié)點(diǎn)不斷地增加。有第四章可以知道,擴(kuò)展出的新節(jié)點(diǎn)的數(shù)目會(huì)影響通信社會(huì)網(wǎng)絡(luò)分析與可視化系統(tǒng)的性能。當(dāng)然,這不是Hadoop自身的問題,而是因?yàn)槲覀儗⑷ブ夭僮鞣旁贑ombine函數(shù)中處理,影響了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年校車租賃與駕駛員健康管理合同3篇
- 2025年度個(gè)人教育培訓(xùn)貸款合同及課程安排4篇
- 鉆井工程課程設(shè)計(jì)英文
- 2024年學(xué)校人事檔案管理制度
- 2025年度鐵路職工住宅產(chǎn)權(quán)互換合同3篇
- 2025年度水電安裝與古村落保護(hù)與修復(fù)合同范本3篇
- 部編版南京某校七年級(jí)語文上冊(cè)第三單元第6課《課外古詩詞誦讀》教學(xué)設(shè)計(jì)(含2課時(shí))
- 2003年北京市中考滿分作文《喝彩》9
- 年度硅-鋁絲材競(jìng)爭策略分析報(bào)告
- 二零二五年車抵押貸款再融資合同模板3篇
- 割接方案的要點(diǎn)、難點(diǎn)及采取的相應(yīng)措施
- 2025年副護(hù)士長競(jìng)聘演講稿(3篇)
- 2025至2031年中國臺(tái)式燃?xì)庠钚袠I(yè)投資前景及策略咨詢研究報(bào)告
- 原發(fā)性腎病綜合征護(hù)理
- (一模)株洲市2025屆高三教學(xué)質(zhì)量統(tǒng)一檢測(cè) 英語試卷
- 第三章第一節(jié)《多變的天氣》說課稿2023-2024學(xué)年人教版地理七年級(jí)上冊(cè)
- 2025年中國電科集團(tuán)春季招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年度建筑施工現(xiàn)場(chǎng)安全管理合同2篇
- 建筑垃圾回收利用標(biāo)準(zhǔn)方案
- 2024年考研英語一閱讀理解80篇解析
- 樣板間合作協(xié)議
評(píng)論
0/150
提交評(píng)論