大數(shù)據(jù)技術原理與應用林子雨課后習題答案_第1頁
大數(shù)據(jù)技術原理與應用林子雨課后習題答案_第2頁
大數(shù)據(jù)技術原理與應用林子雨課后習題答案_第3頁
大數(shù)據(jù)技術原理與應用林子雨課后習題答案_第4頁
大數(shù)據(jù)技術原理與應用林子雨課后習題答案_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)技術原理與應用林子雨課后習題答案第一章1.試述信息技術發(fā)展史上的3次信息化浪潮及具體內容。2.試述數(shù)據(jù)產(chǎn)生方式經(jīng)歷的幾個階段答:運營式系統(tǒng)階段,用戶原創(chuàng)內容階段,感知式系統(tǒng)階段。3.試述大數(shù)據(jù)的4個基本特征答:數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快和價值密度低。4.試述大數(shù)據(jù)時代的“數(shù)據(jù)爆炸”的特性答:大數(shù)據(jù)時代的“數(shù)據(jù)爆炸”的特性是,人類社會產(chǎn)生的數(shù)據(jù)一致都以每年50%的速度增長,也就是說,每兩年增加一倍。5.數(shù)據(jù)研究經(jīng)歷了哪4個階段?答:人類自古以來在科學研究上先后歷經(jīng)了實驗、理論、計算、和數(shù)據(jù)四種范式。6.試述大數(shù)據(jù)對思維方式的重要影響答:大數(shù)據(jù)時代對思維方式的重要影響是三種思維的轉變:全樣而非抽樣,效率而非精確,相關而非因果。7.大數(shù)據(jù)決策與傳統(tǒng)的基于數(shù)據(jù)倉庫的決策有什么區(qū)別答:數(shù)據(jù)倉庫具備批量和周期性的數(shù)據(jù)加載以及數(shù)據(jù)變化的實時探測、傳播和加載能力,能結合歷史數(shù)據(jù)和實時數(shù)據(jù)實現(xiàn)查詢分析和自動規(guī)則觸發(fā),從而提供對戰(zhàn)略決策和戰(zhàn)術決策。大數(shù)據(jù)決策可以面向類型繁多的、非結構化的海量數(shù)據(jù)進行決策分析。8.舉例說明大數(shù)據(jù)的基本應用答:9.舉例說明大數(shù)據(jù)的關鍵技術答:批處理計算,流計算,圖計算,查詢分析計算10.大數(shù)據(jù)產(chǎn)業(yè)包含哪些關鍵技術。答:IT基礎設施層、數(shù)據(jù)源層、數(shù)據(jù)管理層、數(shù)據(jù)分析層、數(shù)據(jù)平臺層、數(shù)據(jù)應用層。11.定義并解釋以下術語:云計算、物聯(lián)網(wǎng)答:云計算:云計算就是實現(xiàn)了通過網(wǎng)絡提供可伸縮的、廉價的分布式計算機能力,用戶只需要在具備網(wǎng)絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它利用局部網(wǎng)絡或互聯(lián)網(wǎng)等通信技術把傳感器、控制器、機器、人類和物等通過新的方式連在一起,形成人與物、物與物相連,實現(xiàn)信息化和遠程管理控制。12.詳細闡述大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)三者之間的區(qū)別與聯(lián)系。第二章1.試述hadoop和谷歌的mapreduce、gfs等技術之間的關系答:Hadoop的核心是分布式文件系統(tǒng)HDFS和MapReduce,HDFS是谷歌文件系統(tǒng)GFS的開源實現(xiàn),MapReduces是針對谷歌MapReduce的開源實現(xiàn)。2.試述Hadoop具有哪些特性。答:高可靠性,高效性,高可擴展性,高容錯性,成本低,運行在Linux平臺,支持多種編程語言3.試述Hadoop在各個領域的應用情況。答:2007年,雅虎在Sunnyvale總部建立了M45——一個包含了4000個處理器和1.5PB容量的Hadooop集群系統(tǒng);Facebook主要將Hadoop平臺用于日志處理,推薦系統(tǒng)和數(shù)據(jù)倉庫等方面;百度主要使用Hadoop于日志的存儲和統(tǒng)計、網(wǎng)頁數(shù)據(jù)的分析和挖掘、商業(yè)分析、在線數(shù)據(jù)反饋、網(wǎng)頁聚類等。4.試述Hadoop的項目結構以及每個部分的具體功能。答:庫Avro是為Hadoop的子項目,用于數(shù)據(jù)序列化的系統(tǒng),提供了豐富的數(shù)據(jù)結構類型、快速可壓縮的二進制數(shù)據(jù)格式、存儲持續(xù)性數(shù)據(jù)的文件集、遠程調用的功能和簡單的動態(tài)語言集成功能。HDFS是Hadoop項目的兩個核心之一,它是針對谷歌文件系統(tǒng)的開源實現(xiàn)。HBase是一個提高可靠性、高性能、可伸縮、實時讀寫、分布式的列式數(shù)據(jù)庫,一般采用HDFS作為其底層數(shù)據(jù)存儲。MapReduce是針對谷歌MapReduce的開源實現(xiàn),用于大規(guī)模數(shù)據(jù)集的并行運算。Zoookepper是針對谷歌Chubby的一個開源實現(xiàn),是高效和可靠的協(xié)同工作系統(tǒng),提供分布式鎖之類的基本服務,用于構建分布式應用,減輕分布式應用程序所承擔的協(xié)調任務。Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具,可以用于對Hadoop文件中的數(shù)據(jù)集進行數(shù)據(jù)整理、特殊查詢和分布存儲。Pig是一種數(shù)據(jù)流語言和運行環(huán)境,適合于使用Hadoop和MapReducce平臺上查詢大型半結構化數(shù)據(jù)集。Sqoop可以改進數(shù)據(jù)的互操作性,主要用來在H大哦哦哦配合關系數(shù)據(jù)庫之間交換數(shù)據(jù)。Chukwa是一個開源的、用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),可以將各種類型的數(shù)據(jù)收集成適合Hadoop處理的文件,并保存在HDFS中供Hadoop進行各種MapReduce操作。第三章1.試述分布式文件系統(tǒng)設計的需求。分布式文件系統(tǒng)在物理結構上是由計算機集群中的多個節(jié)點構成的,這些節(jié)點分為兩類,一類叫“主節(jié)點”(MasterNode)或者也被稱為“名稱結點”(NameNode),另一類叫“從節(jié)點”(SlaveNode)或者也被稱為“數(shù)據(jù)節(jié)點”(DataNode)3.試述HDFS中的塊和普通文件系統(tǒng)中的塊的區(qū)別。答:在傳統(tǒng)的文件系統(tǒng)中,為了提高磁盤讀寫效率,一般以數(shù)據(jù)塊為單位,惡如不是以字節(jié)為單位。HDFS中的塊,默認一個塊大小為64MB,而HDFS中的文件會被拆分成多個塊,每個塊作為獨立的單元進行存儲。HDFS在塊的大小的設計上明顯要大于普通文件系統(tǒng)。4.試述HDFS中的名稱節(jié)點和數(shù)據(jù)節(jié)點的具體功能。答:名稱節(jié)點負責管理分布式文件系統(tǒng)系統(tǒng)的命名空間,記錄分布式文件系統(tǒng)中的每個文件中各個塊所在的數(shù)據(jù)節(jié)點的位置信息;數(shù)據(jù)節(jié)點是分布式文件系統(tǒng)HDFS的工作節(jié)點,負責數(shù)據(jù)的存儲和讀取,會根據(jù)客戶端或者是名稱節(jié)點的調度來進行數(shù)據(jù)的存儲和檢索,并向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表。hadoopfs-ls顯示指定的文件的詳細信息hadoopfs-cat將指定的文件的內容輸出到標準輸出hadoopfs-mkdir創(chuàng)建指定的文件夾hadoopfs-get[-ignorecrc][-crc]復制指定的文件到本地文件系統(tǒng)指定的文件或文件夾。-ignorecrc選項復制CRC校驗失敗的文件。使用-crc選項復制文件以及CRC信息。hadoopfs-put從本地文件系統(tǒng)中復制指定的單個或多個源文件到指定的目標文件系統(tǒng)中。也支持從標準輸入(stdin)中讀取輸入寫入目標文件系統(tǒng)。hadoopfs-rmr刪除指定的文件夾及其的所有文件第四章1.試述在Hadoop體系架構中HBase與其他組成部分的相互關系。答:HBase利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù),實現(xiàn)高性能計算;利用Zookeeper作為協(xié)同服務,實現(xiàn)穩(wěn)定服務和失敗恢復;使用HDFS作為高可靠的底層存儲,利用廉價集群提供海量數(shù)據(jù)存儲能力;Sqoop為HBase的底層數(shù)據(jù)導入功能,Pig和Hive為HBase提供了高層語言支持,HBase是BigTable的開源實現(xiàn)。2.請闡述HBase和BigTable的底層技術的對應關系答:3.請闡述HBase和傳統(tǒng)關系數(shù)據(jù)庫的區(qū)別答:4.HBase有哪些類型的訪問接口?答:HBase提供了NativeJavaAPI,HBaseShell,ThriftGateway,RESTGateWay,Pig,Hive等訪問接口。5.請以實例說明HBase數(shù)據(jù)模型。節(jié)數(shù)組。(2)列族需要在創(chuàng)建表的時候就定義好,數(shù)量也不宜過多。列族名必須由可打印字符組成,創(chuàng)建表的時候不需要定義好列。(3)時間戳,默認由系統(tǒng)指定,用戶也可以顯示設置。使用不同的時間戳來區(qū)分不同的版本。7.請舉個實例來闡述HBase的概念視圖和物理視圖的不同HBase數(shù)據(jù)概念視圖HBase數(shù)據(jù)物理視圖在HBase的概念視圖中,一個表可以視為一個稀疏、多維的映射關系。在物理視圖中,一個表會按照屬于同一列族的數(shù)據(jù)保存在一起8.試述HBase各功能組建及其作用(1)庫函數(shù):鏈接到每個客戶端;(2)一個Master主服務器:主服務器Master主要負責表和Region的管理工作;(3)許多個Region服務器:Region服務器是HBase中最核心的模塊,負責維護分配給自己的Region,并響應用戶的讀寫請求9.請闡述HBase的數(shù)據(jù)分區(qū)機制。答:HBase采用分區(qū)存儲,一個大的表會被分拆許多個Region,這些Region會被分發(fā)到不同的服務器上實現(xiàn)分布式存儲。10.HBase中的分區(qū)是如何定位的。通過構建的映射表的每個條目包含兩項內容,一個是Regionde標識符,另一個是Region服務器標識,這個條目就標識Region和Region服務器之間的對應關系,從而就可以知道某個Region被保存在哪個Region服務器中。11.試述HBase的三層結構中各層次的名稱和作用。12.請闡述HBase的三層結構下,客戶端是如何訪問到數(shù)據(jù)的。答:首先訪問Zookeeper,獲取-ROOT表的位置信息,然后訪問-Root-表,獲得.MATA.表的信息,接著訪問.MATA.表,找到所需的Region具體位于哪個Region服務器,最后才會到該Region服務器讀取數(shù)據(jù)。13.試述HBase系統(tǒng)基本架構以及每個組成部分的作用。(1)客戶端客戶端包含訪問HBase的接口,同時在緩存中維護著已經(jīng)訪問過的Region位置信息,用來加快后續(xù)數(shù)據(jù)訪問過程(2)Zookeeper服務器Zookeeper可以幫助選舉出一個Master作為集群的總管,并保證在任何時刻總有唯一一個Master在運行,這就避免了Master的“單點失效”問題(3)Master主服務器Master主要負責表和Region的管理工作:管理用戶對表的增加、刪除、修改、查詢等操作;實現(xiàn)不同Region服務器之間的負載均衡;在Region分裂或合并后,負責重新調整Region的分布;對發(fā)生故障失效的Region服務器上的Region進行遷移(4)Region服務器Region服務器是HBase中最核心的模塊,負責維護分配給自己的Region,并響應用戶的讀寫請求14.請闡述Region服務器向HDFS文件系統(tǒng)中讀寫數(shù)據(jù)的基本原理Region服務器內部管理一系列Region對象和一個HLog文件,其中,HLog是磁盤上面的記錄文件,它記錄著所有的更新操作。每個Region對象又是由多個Store組成的,每個Store對象了表中的一個列族的存儲。每個Store又包含了MemStore和若干個StoreFile,其中,MemStore是在內存中的緩存。15.試述HStore的工作原理每個Store對應了表中的一個列族的存儲。每個Store包括一個MenStore緩存和若干個StoreFile文件。MenStore是排序的內存緩沖區(qū),當用戶寫入數(shù)據(jù)時,系統(tǒng)首先把數(shù)據(jù)放入MenStore緩存,當MemStore緩存滿時,就會刷新到磁盤中的一個StoreFile文件中,當單個StoreFile文件大小超過一定閾值時,就會觸發(fā)文件分裂操作。16.試述HLog的工作原理答:HBase系統(tǒng)為每個Region服務器配置了一個HLog文件,它是一種預寫式日志(WriteAheadLog),用戶更新數(shù)據(jù)必須首先寫入日志后,才能寫入MemStore緩存,并且,直到MemStore緩存內容對應的日志已經(jīng)寫入磁盤,該緩存內容才能被刷寫到磁盤。17.在HBase中,每個Region服務器維護一個HLog,而不是為每個Region都單獨維護一個HLog。請說明這種做法的優(yōu)缺點。優(yōu)點:多個Region對象的更新操作所發(fā)生的日志修改,只需要不斷把日志記錄追加到單個日志文件中,不需要同時打開、寫入到多個日志文件中。缺點:如果一個Region服務器發(fā)生故障,為了恢復其上次的Region對象,需要將Region服務器上的對象,需要將Region服務器上的HLog按照其所屬的Region對象進行拆分,然后分發(fā)到其他Region服務器上執(zhí)行恢復操作。18.當一臺Region服務器意外終止時,Master如何發(fā)現(xiàn)這種意外終止情況?為了恢復這臺發(fā)生意外的Region服務器上的Region,Master應該做出哪些處理(包括如何使用HLog進行恢復)?Zookeeper會實時監(jiān)測每個Region服務器的狀態(tài),當某個Region服務器發(fā)生故障時,Zookeeper會通知Master。Master首先會處理該故障Region服務器上面遺留的HLog文件,這個遺留的HLog文件中包含了來自多個Region對象的日志記錄。系統(tǒng)會根據(jù)每條日志記錄所屬的Region對象對HLog數(shù)據(jù)進行拆分,分別放到相應Region對象的目錄下,然后,再將失效的Region重新分配到可用的Region服務器中,并把與該Region對象相關的HLog日志記錄也發(fā)送給相應的Region服務器。Region服務器領取到分配給自己的Region對象以及與之相關的HLog日志記錄以后,會重新做一遍日志記錄中的各種操作,把日志記錄中的數(shù)據(jù)寫入到MemStore緩存中,然后,刷新到磁盤的StoreFile文件中,完成數(shù)據(jù)恢復。第五章1.如何準確理解NoSQL的含義?NoSQL是一種不同于關系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)設計方式,是對非關系型數(shù)據(jù)庫的一類統(tǒng)稱,它采用的數(shù)據(jù)模型并非傳統(tǒng)關系數(shù)據(jù)庫的關系模型,而是類似鍵/值、列族、文檔等非關系模型。2.試述關系數(shù)據(jù)庫在哪些方面無法滿族Web2.0應用的需求。關系數(shù)據(jù)庫已經(jīng)無法滿足Web2.0的需求。主要表現(xiàn)在以下幾個方面:(1)無法滿足海量數(shù)據(jù)的管理需求(2)無法滿足數(shù)據(jù)高并發(fā)的需求(3)無法滿足高可擴展性和高可用性的需求3.請比較NoSQL數(shù)據(jù)庫和關系數(shù)據(jù)庫的優(yōu)缺點。5.試述NoSQL數(shù)據(jù)庫的四大類型答:鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫6.試述鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫的適用場合和優(yōu)缺點。7.試述CAP理論的具體含義。答:所謂的CAP指的是:C(Consistency):一致性,是指任何一個讀操作總是能夠讀到之前完成的寫操作的結果,也就是在分布式環(huán)境中,多點的數(shù)據(jù)是一致的,或者說,所有節(jié)點在同一時間具有相同的數(shù)據(jù)A:(Availability):可用性,是指快速獲取數(shù)據(jù),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論