《大數據技術原理與應用(第3版)》期末復習題庫(含答案)

上傳人：無*** IP屬地：河北上傳時間：2024-01-03 格式：PDF 頁數：39 大小：6.57MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩34頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第一章大數據概述

單選題

1、第一次信息化浪潮主要解決什么問題？B

(A)信息傳輸

(B)信息處理

(C)信息爆炸

(D)信息轉換

2、下面哪個選項屬于大數據技術的“數據存儲和管理"技術層面的功能？A

(A)利用分布式文件系統、數據倉庫、關系數據庫等實現對結構化、半結構化和非

結構化海量數據的存儲和管理

(B)利用分布式并行編程模型和計算框架，結合機器學習和數據挖掘算法，實現對

海量數據的處理和分析

(C)構建隱私數據保護體系和數據安全體系，有效保護個人隱私和數據安全

(D)把實時采集的數據作為流計算系統的輸入，進行實時處理分析

3、在大數據的計算模式中，流計算解決的是什么問題？D

(A)針對大規(guī)模數據的批量處理

(B)針對大規(guī)模圖結構數據的處理

(C)大規(guī)模數據的存儲管理和查詢分析

(D)針對流數據的實時計算

4、大數據產業(yè)指什么？A

(A)一切與支撐大數據組織管理和價值發(fā)現相關的企業(yè)經濟活動的集合

(B)提供智能交通、智慧醫(yī)療、智能物流、智能電網等行業(yè)應用的企業(yè)

(C)提供數據分享平臺、數據分析平臺、數據租售平臺等服務的企業(yè)

(D)提供分布式計算、數據挖掘、統計分析等服務的各類企業(yè)

5、下列哪一個不屬于大數據產業(yè)的產業(yè)鏈環(huán)節(jié)？A

(A)數據循環(huán)層

(B)數據源層

(C)數據分析層

(D)數據應用層

6、下列哪一個不屬于第三次信息化浪潮中新興的技術？A

(A)互聯網

(B)云計算

(C)大數據

(D)物聯網

7、云計算平臺層(PaaS)指的是什么？A

(A)操作系統和圍繞特定應用的必需的服務

(B)將基礎設施(計算資源和存儲)作為服務出租

(C)從一個集中的系統部署軟件，使之在一臺本地計算機上(或從云中遠程地)運行的

一個模型

(D)提供硬件、軟件、網絡等基礎設施以及提供咨詢、規(guī)劃和系統集成服務

8、下面關于云計算數據中心的描述正確的是：A

(A)數據中心是云計算的重要載體，為各種平臺和應用提供運行支撐環(huán)境

(B)數據中心就是放在企業(yè)內部的一臺中心服務器

(C)每個企業(yè)都需要建設一個云計算數據中心

(D)數據中心不需要網絡帶寬的支撐

9、下列哪個不屬于物聯網的應用？D

(A)智能物流

(B)智能安防

(C)環(huán)保監(jiān)測

(D)數據清洗

10、下列哪項不屬于大數據的發(fā)展歷程？D

(A)成熟期

(B)萌芽期

(C)大規(guī)模應用期

(D)迷茫期

多選題

1、第三次信息化浪潮的標志是哪些技術的興起？BCD

(A)個人計算機

(B)物聯網

(C)云計算

(D)大數據

2、信息科技為大數據時代提供哪些技術支撐？ABC

(A)存儲設備容量不斷增加

(B)網絡帶寬不斷增加

(C)CPU處理能力大幅提升

(D)數據量不斷增大

3、大數據具有哪些特點？ABCD

(A)數據的“大量化”

(B)數據的“快速化”

(C)數據的“多樣化”

(D)數據的“價值密度比較低”

4、下面哪個屬于大數據的應用領域？ABCD

(A)智能醫(yī)療研發(fā)

(B)監(jiān)控身體情況

(C)實時掌握交通狀況

(D)金融交易

5、大數據的兩個核心技術是什么？AC

(A)分布式存儲

(B)分布式應用

(C)分布式處理

(D)集中式存儲

6、云計算關鍵技術包括什么？ABCD

(A)分布式存儲

(B)虛擬化

(C)分布式計算

(D)多租戶

7、云計算的服務模式和類型主要包括哪三類？ABC

(A)軟件即服務(SaaS)

(B)平臺即服務(PaaS)

(C)基礎設施即服務(laaS)

(D)數據采集即服務(DaaS)

8、物聯網主要由下列哪些部分組成的？ABCD

(A)應用層

(B)處理層

(C)感知層

(D)網絡層

9、物聯網的關鍵技術包括哪些？ABC

(A)識別和感知技術

(B)網絡與通信技術

(C)數據挖掘與融合技術

(D)信息處理一體化技術

10、大數據對社會發(fā)展的影響有哪些？ABC

(A)大數據成為一種新的決策方式

(B)大數據應用促進信息技術與各行業(yè)的深度融合

(C)大數據開發(fā)推動新技術和新應用的不斷涌現

(D)大數據對社會發(fā)展沒有產生積極影響

第二章大數據處理架構Hadoop

單選題

1、下列哪個不屬于Hadoop的特性?A

(A)成本高

(B)高可靠性

(C)高容錯性

(D)運行在Linux平臺上

2、Hadoop框架中最核心的設計是什么？A

(A)為海量數據提供存儲的HDFS和對數據進行計算的MapReduce

(B)提供整個HDFS文件系統的NameSpace(命名空間)管理、塊管理等所有服務

(C)Hadoop不僅可以運行在企業(yè)內部的集群中，也可以運行在云計算環(huán)境中

(D)Hadoop被視為事實上的大數據處理標準

3、在一個基本的Hadoop集群中，DataNode主要負責什么？D

(A)負責執(zhí)行由JobTracker指派的任務

(B)協調數據計算任務

(C)負責協調集群中的數據存儲

(D)存儲被拆分的數據塊

4、Hadoop最初是由誰創(chuàng)建的？B

(A)Lucene

(B)DougCutting

(C)Apache

(D)MapReduce

5、下列哪一個不屬于Hadoop的大數據層的功能？C

(A)數據挖掘

(B)離線分析

(C)實時計算

(D)BI分析

6、在一個基本的Hadoop集群中，SecondaryNameNode主要負責什么？A

(A)幫助NameNode收集文件系統運行的狀態(tài)信息

(B)負責執(zhí)行由JobTracker指派的任務

(C)協調數據計算任務

(D)負責協調集群中的數據存儲

7、下面哪一項不是Hadoop的特性？B

(A)可擴展性高

(B)只支持少數幾種編程語言

(C)成本低

(D)能在linux上運行

8、在Hadoop項目結構中，HDFS指的是什么？A

(A)分布式文件系統

(B)分布式并行編程模型

(C)資源管理和調度器

(D)Hadoop上的數據倉庫

9、在Hadoop項目結構中，MapReduce指的是什么？A

(A)分布式并行編程模型

(B)流計算框架

(C)Hadoop上的工作流管理系統

(D)提供分布式協調一致性服務

10、下面哪個不是Hadoopl.O的組件：(C)

(A)HDFS

(B)MapReduce

(C)YARN

(D)NameNode和DataNode

多選題

1、Hadoop的特性包括哪些？ABCD

(A)高可擴展性

(B)支持多種編程語言

(C)成本低

(D)運行在Linux平臺上

2、下面哪個是Hadoop2.0的組件？AD

(A)ResourceManager

(B)JobTracker

(C)TaskTracker

(D)NodeManager

3、一個基本的Hadoop集群中的節(jié)點主要包括什么？ABCD

(A)DataNode:存儲被拆分的數據塊

(B)JobTracker:協調數據計算任務

(C)TaskTracker:負責執(zhí)行由JobTracker指派的任務

(D)SecondaryNameNode:幫助NameNode收集文件系統運行的狀態(tài)信息

4、下列關于Hadoop的描述，哪些是正確的？ABCD

(A)為用戶提供了系統底層細節(jié)透明的分布式基礎架構

(B)具有很好的跨平臺特性

(C)可以部署在廉價的計算機集群中

(D)曾經被公認為行業(yè)大數據標準開源軟件

5、Hadoop集群的整體性能主要受到什么因素影響？ABCD

(A)CPU性能

(B)內存

(C)網絡

(D)存儲容量

6、下列關于Hadoop的描述，哪些是錯誤的？AB

(A)只能支持一種編程語言

(B)具有較差的跨平臺特性

(C)可以部署在廉價的計算機集群中

(D)曾經被公認為行業(yè)大數據標準開源軟件

7、下列哪一項不屬于Hadoop的特性？AB

(A)較低可擴展性

(B)只支持java語言

(C)成本低

(D)運行在Linux平臺上

第三章分布式文件系統HDFS

單選題

1、分布式文件系統指的是什么？A

(A)把文件分布存儲到多個計算機節(jié)點上，成千上萬的計算機節(jié)點構成計算機集群

(B)用于在Hadoop與傳統數據庫之間進行數據傳遞

(C)一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸的系統

(D)一種高吞吐量的分布式發(fā)布訂閱消息系統，可以處理消費者規(guī)模的網站中的所

有動作流數據

2、下面哪一項不屬于計算機集群中的節(jié)點？B

(A)主節(jié)點(MasterNode)

(B)源節(jié)點(SourceNode)

(C)名稱結點(NameNode)

(D)從節(jié)點(SlaveNode)

3、在HDFS中，默認一個塊多大？A

(A)64MB

(B)32KB

(D)16KB

4、下列哪一項不屬于HDFS采用抽象的塊概念帶來的好處？C

(A)簡化系統設計

(B)支持大規(guī)模文件存儲

(C)強大的跨平臺兼容性

(D)適合數據備份

5、在HDFS中，NameNode的主要功能是什么？D

(A)維護了blockid到datanode本地文件的映射關系

(B)存儲文件內容

(C)文件內存保存在磁盤中

(D)存儲元數據

6、下面對Fslmage的描述，哪個是錯誤的？D

(A)Fslmage文件沒有記錄每個塊存儲在哪個數據節(jié)點

(B)Fslmage文件包含文件系統中所有目錄和文件inode的序列化形式

(C)Fslmage用于維護文件系統樹以及文件樹中所有的文件和文件夾的元數據

(D)Fslmage文件記錄了每個塊具體被存儲在哪個數據節(jié)點

7、下面對SecondaryNameNode第二名稱節(jié)點的描述，哪個是錯誤的？A

(A)SecondaryNameNode一般是并行運行在多臺機器上

(B)它是用來保存名稱節(jié)點中對HDFS元數據信息的備份,并減少名稱節(jié)點重啟的時

間

(C)SecondaryNameNode通過HTTPGET方式從NameNode上獲取到Fslmage和

EditLog文件，并下載到本地的相應目錄下

(D)SecondaryNameNode是HDFS架構中的一個組成部分

8、HDFS采用了什么模型？B

(A)分層模型

(B)主從結構模型

(C)管道-過濾器模型

(D)點對點模型

9、在Hadoop項目結構中，HDFS指的是什么？A

(A)分布式文件系統

(B)流數據讀寫

(C)資源管理和調度器

(D)Hadoop上的數據倉庫

10、下列關于HDFS的描述，哪個不正確？D

(A)HDFS還采用了相應的數據存放、數據讀取和數據復制策略，來提升系統整體讀

寫響應性能

(B)HDFS采用了主從(Master/Slave)結構模型

(C)HDFS采用了冗余數據存儲，增強了數據可靠性

(D)HDFS采用塊的概念，使得系統的設計變得更加復雜

多選題

1、HDFS要實現以下哪幾個目標？ABC

(A)兼容廉價的硬件設備

(B)流數據讀寫

(C)大數據集

(D)復雜的文件模型

2、HDFS特殊的設計，在實現優(yōu)良特性的同時，也使得自身具有一些應用局限性，主要包

括以下哪幾個方面？BCD

(A)較差的跨平臺兼容性

(B)無法高效存儲大量小文件

(C)不支持多用戶寫入及任意修改文件

(D)不適合低延遲數據訪問

3、HDFS采用抽象的塊概念可以帶來以下哪幾個明顯的好處？ACD

(A)支持大規(guī)模文件存儲

(B)支持小規(guī)模文件存儲

(C)適合數據備份

(D)簡化系統設計

4、在HDFS中，名稱節(jié)點(NameNode)主要保存了哪些核心的數據結構？AD

(A)Fslmage

(B)DN8

(C)Block

(D)EditLog

5、數據節(jié)點(DataNode)的主要功能包括哪些？ABC

(A)負責數據的存儲和讀取

(B)根據客戶端或者是名稱節(jié)點的調度來進行數據的存儲和檢索

(C)向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表

(D)用來保存名稱節(jié)點中對HDFS元數據信息的備份，并減少名稱節(jié)點重啟的時間

6、HDFS的命名空間包含什么？BCD

(A)磁盤

(B)文件

(C)塊

(D)目錄

7、下列對于客服端的描述，哪些是正確的？ABCD

(A)客戶端是用戶操作HDFS最常用的方式，HDFS在部署時都提供了客戶端

(B)HDFS客戶端是一個庫，暴露了HDFS文件系統接口

(C)嚴格來說，客戶端并不算是HDFS的一部分

(D)客戶端可以支持打開、讀取、寫入等常見的操作

8、HDFS只設置唯一一個名稱節(jié)點，這樣做雖然大大簡化了系統設計，但也帶來了哪些明

顯的局限性？ABCD

(A)命名空間的限制

(B)性能的瓶頸

(C)隔離I可題

(D)集群的可用性

9、HDFS數據塊多副本存儲具備以下哪些優(yōu)點？ABC

(A)加快數據傳輸速度

(B)容易檢查數據錯誤

(C)保證數據可靠性

(D)適合多平臺上運行

10、HDFS具有較高的容錯性，設計了哪些相應的機制檢測數據錯誤和進行自動恢復？

BCD

(A)數據源太大

(B)數據節(jié)點出錯

(C)數據出錯

(D)名稱節(jié)點出錯

第四章分布式數據庫HBase

單選題

1、下列關于BigTable的描述,哪個是錯誤的？A

(A)爬蟲持續(xù)不斷地抓取新頁面，這些頁面每隔一段時間地存儲到BigTable里

(B)BigTable是一個分布式存儲系統

(C)BigTable起初用于解決典型的互聯網搜索問題

(D)網絡搜索應用查詢建立好的索引，從BigTable得到網頁

2、下列選項中，關于HBase和BigTable的底層技術對應關系，哪個是錯誤的？B

(A)GFS與HDFS相對應

(B)GFS與Zookeeper相對應

(C)MapReduce與HadoopMapReduce相對應

(D)Chubby與Zookeeper相對應

3、在HBase中，關于數據操作的描述，下列哪一項是錯誤的？C

(A)HBase采用了更加簡單的數據模型，它把數據存儲為未經解釋的字符串

(B)HBase操作不存在復雜的表與表之間的關系

(C)HBase不支持修改操作

(D)HBase在設計上就避免了復雜的表和表之間的關系

4、在HBase訪問接口中，Pig主要用在哪個場合？D

(A)適合HadoopMapReduce作業(yè)并行批處理HBase表數據

(B)適合HBase管理使用

(C)適合其他異構系統在線訪問HBase表數據

(D)適合做數據統計

5、HBase中需要根據某些因素來確定一個單元格，這些因素可以視為一個“四維坐標”，

下面哪個不屬于“四維坐標”？B

(A)行鍵

(B)關鍵字

(C)列族

(D)時間戳

6、關于HBase的三層結構中各層次的名稱和作用的說法，哪個是錯誤的？A

(A)Zookeeper文件記錄了用戶數據表的Region位置信息

(B)-ROOT-表記錄了.META.表的Region位置信息

(C).META.表保存了HBase中所有用戶數據表的Region位置信息

(D)Zookeeper文件記錄了-ROOT-表的位置信息

7、下面關于主服務器Master主要負責表和Region的管理工作的描述，哪個是錯誤的？D

(A)在Region分裂或合并后，負責重新調整Region的分布

(B)對發(fā)生故障失效的Region服務器上的Region進行遷移

(C)管理用戶對表的增加、刪除、修改、查詢等操作

(D)不支持不同Region服務器之間的負載均衡

8、HBase只有一個針對行健的索引，如果要訪問HBase表中的行，下面哪種方式是不可行

的？B

(A)通過單個行健訪問

(B)通過時間戳訪問

(C)通過一個行健的區(qū)間來訪問

(D)全表掃描

9、下面關于Region的說法，哪個是錯誤的？C

(A)同一個Region不會被分拆到多個Region服務器

(B)為了加快訪問速度，.META.表的全部Region都會被保存在內存中

(C)一個-ROOT-表可以有多個Region

(D)為了加速尋址，客戶端會緩存位置信息，同時，需要解決緩存失效問題

多選題

1、關系數據庫已經流行很多年，并且Hadoop已經有了HDFS和MapReduce,為什么需要

HBase?ABCD

(A)Hadoop可以很好地解決大規(guī)模數據的離線批量處理問題,但是,受限于Hadoop

MapReduce編程框架的高延遲數據處理機制，使得Hadoop無法滿足大規(guī)模數

據實時處理應用的需求上

(B)HDFS面向批量訪問模式，不是隨機訪問模式

(C)傳統的通用關系型數據庫無法應對在數據規(guī)模劇增時導致的系統擴展性和性能

問題

(D)傳統關系數據庫在數據結構變化時一般需要停機維護；空列浪費存儲空間

2、HBase與傳統的關系數據庫的區(qū)別主要體現在以下哪幾個方面？ABCD

(A)數據類型

(B)數據操作

(C)存儲模式

(D)數據維護

3、HBase訪問接口類型包括哪些？ABCD

(A)NativeJavaAPI

(B)HBaseShell

(C)ThriftGateway

(D)RESTGateway

4、下列關于數據模型的描述，哪些是正確的？ABCD

(A)HBase采用表來組織數據，表由行和列組成，列劃分為若干個列族

(B)每個HBase表都由若干行組成，每個行由行鍵(rowkey)來標識

(C)列族里的數據通過列限定符(或列)來定位

(D)每個單元格都保存著同一份數據的多個版本，這些版本采用時間戳進行索引

5、HBase的實現包括哪三個主要的功能組件？ABC

(A)庫函數：鏈接到每個客戶端

(B)一個Master主服務器

(C)許多個Region服務器

(D)廉價的計算機集群

6、HBase的三層結構中，三層指的是哪三層？ABC

(A)Zookeeper文件

(B)-ROOT-表

(C),META.表

(D)數據類型

7、以下哪些軟件可以對HBase進行性能監(jiān)視？ABCD

(A)Master-status(自帶)

(B)Ganglia

(C)OpenTSDB

(D)Ambari

8、Zookeeper是一個很好的集群管理工具,被大量用于分布式計算,它主要提供什么服務？

ABC

(A)配置維護

(B)域名服務

(C)分布式同步

(D)負載均衡服務

9、下列關于Region服務器工作原理的描述，哪些是正確的？ABCD

(A)每個Region服務器都有一個自己的HLog文件

(B)每次刷寫都生成一個新的StoreFile,數量太多，影響查找速度

(C)合并操作比較耗費資源，只有數量達到一個閾值才啟動合并

(D)Store是Region服務器的核心

10、下列關于HLog工作原理的描述，哪些是正確的？ABCD

(A)分布式環(huán)境必須要考慮系統出錯。HBase采用HLog保證

(B)HBase系統為每個Region服務器配置了一個HLog文件

(C)Zookeeper會實時監(jiān)測每個Region服務器的狀態(tài)

(D)Master首先會處理該故障Region服務器上面遺留的HLog文件

第五章NoSQL數據庫

單選題

1、下列哪個不屬于NoSQL數據庫的特點？D

(A)靈活的可擴展性

(B)靈活的數據模型

(C)與云計算緊密融合

(D)數據存儲規(guī)模有限

2、下面關于NoSQL和關系數據庫的簡單比較，哪個是錯誤的？B

(A)RDBMS有關系代數理論作為基礎，No$QL沒有統一的理論基礎

(B)NoSQL很難實現橫向擴展，RDBMS可以很容易通過添加更多設備來支持更大規(guī)

模的數據

(C)RDBMS需要定義數據庫模式，嚴格遵守數據定義，NoSQL一般不存在數據庫模

式，可以自由靈活定義并存儲各種不同類型的數據

(D)RDBMS借助于索引機制可以實現快速查詢，很多NoSQL數據庫沒有面向復雜

查詢的索引

3、下列哪一項不屬于NoSQL的四大類型？D

(A)文檔數據庫

(B)圖數據庫

(C)列族數據庫

(D)時間戳數據庫

4、下列關于鍵值數據庫的描述，哪一項是錯誤的？D

(A)擴展性好，靈活性好

(B)大量寫操作時性能高

(C)無法存儲結構化信息

(D)條件查詢效率高

5、下列關于列族數據庫的描述，哪一項是錯誤的？A

(A)查找速度慢，可擴展性差

(B)功能較少，大都不支持強事務一致性

(C)容易進行分布式擴展

(D)復雜性低

6、下列哪一項不屬于數據庫事務具有ACID四性？A

(A)間斷性

(B)原子性

(C)一致性

(D)持久性

7、下面關于MongoDB說法，哪一項是正確的？D

(A)具有較差的水平可擴展性

(B)設置個別屬性的索引來實現更快的排序

(C)提供了一個面向文檔存儲，操作復雜

(D)可以實現替換完成的文檔(數據)或者一些指定的數據字段

8、下列關于NoSQL與關系數據庫的比較，哪個說法是錯誤的？D

(A)在一致性方面，RDBMS強于NoSQL

(B)在數據完整性方面，RDBMS容易實現

(C)在擴展性方面，NoSQL比較好

(D)在可用性方面，NoSQL優(yōu)于RDBMS

9、關于文檔數據庫的說法，下列哪一項是錯誤的？A

(A)數據是規(guī)則的

(B)性能好(高并發(fā))

(C)缺乏統一的查詢語法

(D)復雜性低

多選題

1、關系數據庫已經無法滿足Web2.0的需求，主要表現在以下幾個方面？ABC

(A)無法滿足海量數據的管理需求

(B)無法滿足數據高并發(fā)的需求

(C)無法滿足高可擴展性和高可用性的需求

(D)使用難度高

2、下列關于MySQL集群的描述，哪些是正確的？ABCD

(A)復雜性：部署、管理、配置很復雜

(B)數據庫復制：MySQL主備之間一般采用復制方式，很多時候是異步復制

(C)擴容問題：如果系統壓力過大需要增加新的機器，這個過程涉及數據重新劃分

(D)動態(tài)數據遷移問題：如果某個數據庫組壓力過大，需要將其中部分數據遷移出

去

3、關系數據庫引以為傲的兩個關鍵特性(完善的事務機制和高效的查詢機制)，到了

Web2.0時代卻成了雞肋，主要表現在以下哪幾個方面？ACD

(A)Web2.0網站系統通常不要求嚴格的數據庫事務

(B)Web2.0網站系統基本上不用關系數據庫來存儲數據

(C)Web2.0并不要求嚴格的讀寫實時性

(D)Web2.0通常不包含大量復雜的SQL查詢

4、下面關于NoSQL與關系數據庫的比較，哪些是正確的？ABCD

(A)關系數據庫以完善的關系代數理論作為基礎，有嚴格的標準

(B)關系數據庫可擴展性較差，無法較好支持海量數據存儲

(C)NoSQL可以支持超大規(guī)模數據存儲

(D)NoSQL數據庫缺乏數學理論基礎，復雜查詢性能不高

5、下列關于文檔數據庫的描述，哪些是正確的？AD

(A)性能好(高并發(fā))，靈活性高

(B)具備統一的查詢語法

(C)文檔數據庫支持文檔間的事務

(D)復雜性低，數據結構靈活

6、下列關于圖數據庫的描述，哪些是正確的？ABCD

(A)專門用于處理具有高度相互關聯關系的數據

(B)比較適合于社交網絡、模式識別、依賴分析、推薦系統以及路徑尋找等問題

(C)靈活性高，支持復雜的圖算法

(D)復雜性高，只能支持一定的數據規(guī)模

7、NoSQL的三大基石？ABC

(A)CAP

(B)最終一致性

(C)BASE

(D)DN8

8、關于NoSQL的三大基石之一的CAP,下列哪些說法是正確的？ACD

(A)一致性，是指任何一個讀操作總是能夠讀到之前完成的寫操作的結果量

(B)一個分布式系統可以同時滿足一致性、可用性和分區(qū)容忍性這三個需求

(C)可用性，是指快速獲取數據

(D)分區(qū)容忍性，是指當出現網絡分區(qū)的情況時(即系統中的一部分節(jié)點無法和其

他節(jié)點進行通信)，分離的系統也能夠正常運行

9、當處理CAP的問題時，可以有哪幾個明顯的選擇？ABC

(A)CA：也就是強調一致性(C)和可用性(A),放棄分區(qū)容忍性(P)

(B)CP：也就是強調一致性(C)和分區(qū)容忍性(P),放棄可用性(A)

(C)AP：也就是強調可用性(A)和分區(qū)容忍性(P),放棄一致性(C)

(D)CAP：也就是同時兼顧可用性(A)、分區(qū)容忍性(P)和一致性(C),當時系統

性能會下降很多

10、數據庫事務具有ACID四性，下面哪幾項屬于四性？ABD

(A)原子性

(B)持久性

(C)間斷性

(D)一致性

第六章云數據庫

單選題

1、下列哪個不屬于云計算的優(yōu)勢？D

(A)按需服務

(B)隨時服務

(C)通用性

(D)價格不菲

2、下列關于云數據庫的描述，哪個是錯誤的？C

(A)云數據庫是部署和虛擬化在云計算環(huán)境中的數據庫

(B)云數據庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎架構的方法

(C)云數據庫價格不菲，維護費用極其昂貴

(D)云數據庫具有高可擴展性、高可用性、采用多租形式和支持資源有效分發(fā)等特

點

3、下列哪一個不屬于云數據庫產品？A

(A)本地安裝MySQL

(B)阿里云RDS

(C)OracleCloud

(D)百度云數據庫

4、UMP系統是構建在一個大的集群之上的，下列哪一項不屬于系統向用戶提供的功能？D

(A)讀寫分離

(B)分庫分表

(C)數據安全

(D)資源合并

5、下列關于UMP系統功能的說法，哪個是錯誤的？D

(A)充分利用主從庫實現用戶讀寫操作的分離，實現負載均衡

(B)UMP系統實現了對于用戶透明的讀寫分離功能

(C)UMP采用的兩種資源隔離方式(用Cgroup限制MySQL進程資源和在Proxy服

務器端限制QPS)

(D)UMP系統只設計了一種機制來保證數據安全

6、下列關于阿里云RDS的說法，哪個是錯誤的？D

(A)RDS是阿里云提供的關系型數據庫服務

(B)RDS由專業(yè)數據庫管理團隊維護

(C)RDS具有安全穩(wěn)定、數據可靠、自動備份

(D)RDS實例，是用戶購買RDS服務的基本單位，在實例中，用戶只能創(chuàng)建一個數

據庫

7、下面哪一項不是云數據庫的特性？B

(A)動態(tài)可擴展

(B)高成本

(C)易用性

(D)大規(guī)模并行處理

8、下列哪個不是UMP系統中的角色？D

(A)Controller服務器

(B)Proxy服務器

(C)愚公系統

(D)阿斯隆服務器

9、關于UMP系統架構依賴的開源組件Mnesia,說法錯誤的是哪一項？B

(A)Mnesia是一個分布式數據庫管理系統

(B)Mnesia的數據庫模式(schema)只能在未運行前靜態(tài)重配置

(C)Mnesia的這些特性，使其在開發(fā)云數據庫時被用來提供分布式數據庫服務

(D)Mnesia支持事務，支持透明的數據分片

10、關于UMP系統架構的Controller服務器，說法錯誤的是哪一項？C

(A)Controller服務器向UMP集群提供各種管理服務

(B)Controller服務器上運行了一組Mnesia分布式數據庫服務

(C)當其它服務器組件需要獲取用戶數據時，不可以向Controller服務器發(fā)送請求獲

取數據

(D)為了避免單點故障，保證系統的高可用性，UMP系統中部署了多臺Controller

服務器

多選題

1、云數據庫具有以下哪些特性？ABCD

(A)動態(tài)可擴展

(B)高可用性

(C)免維護

(D)安全

2、下列關于云數據庫的描述，哪些是正確的？ABCD

(A)Amazon是云數據庫市場的先行者

(B)GoogleCloudSQL是谷歌公司推出的基于MySQL的云數據庫

(C)從數據模型的角度來說，云數據庫并非一種全新的數據庫技術

(D)云數據庫并沒有專屬于自己的數據模型

3、UMP系統架構設計遵循了以下哪些原則？ABCD

(A)保持單一的系統對外入口，并且為系統內部維護單一的資源池

(B)消除單點故障，保證服務的高可用性

(C)保證系統具有良好的可伸縮，能夠動態(tài)地增加、刪減計算與存儲節(jié)點

(D)保證分配給用戶的資源也是彈性可伸縮的

4、UMP系統架構依賴的哪些開源組件？ABCD

(A)Mnesia

(B)LVS

(C)RabbitMQ

(D)ZooKeeper

5、下列關于UMP系統架構的描述，哪些是正確的？ACD

(A)信息統計服務器定期將采集到的用戶的連接數

(B)Web控制臺無法向用戶提供系統管理界面

(C)LVS(LinuxVirtualServer)即Linux虛擬服務器

(D)UMP系統借助于LVS來實現集群內部的負載均衡

6、為什么說云數據庫是個性化數據存儲需求的理想選擇？ABCD

(A)云數據庫可以滿足大企業(yè)的海量數據存儲需求

(B)云數據庫可以滿足中小企業(yè)的低成本數據存儲需求

(C)云數據庫可以滿足企業(yè)動態(tài)變化的數據存儲需求

(D)前期零投入、后期免維護的數據庫服務，可以很好滿足它們的需求

7、下列關于云數據庫與其他數據庫的關系，哪些是正確的？ABD

(A)從數據模型的角度來說，云數據庫并非一種全新的數據庫技術

(B)云數據庫并沒有專屬于自己的數據模型，云數據庫所采用的數據模型可以是關

系數據庫所使用的關系模型

(C)同一個公司只能提供采用不同數據模型的單個云數據庫服務

(D)許多公司在開發(fā)云數據庫時，后端數據庫都是直接使用現有的各種關系數據庫

或NoSQL數據庫產品

8、以下哪些是Amazon的云數據庫產品？ABC

(A)AmazonRDS:云中的關系數據庫

(B)AmazonSimpleDB:云中的鍵值數據庫

(C)AmazonDynamoDB:云中的數據倉庫

(D)AmazonElastiCache:云中的分布式內存緩存

9、Microsoft的云數據庫產品SQLAzure具有以下哪些特性？ABCD

(A)屬于關系型數據庫：支持使用TSQL來管理、創(chuàng)建和操作云數據庫

(B)支持存儲過程：它的數據類型、存儲過程和傳統的SQLServer具有很大的相似

性

(C)支持大量數據類型

(D)支持云中的事務：支持局部事務，但是不支持分布式事務

第七章MapReduce

單選題

1、下列傳統并行計算框架，說法錯誤的是哪一項？B

(A)刀片服務器、高速網、SAN,價格貴，擴展性差上

(B)共享式(共享內存/共享存儲)，容錯性好

(C)編程難度高

(D)實時、細粒度計算、計算密集型

2、下列關于MapReduce模型的描述，錯誤的是哪一項？D

(A)MapReduce采用“分而治之"策略

(B)MapReduce設計的一個理念就是“計算向數據靠攏”

(C)MapReduce框架采用了Master/Slave架構

(D)MapReduce應用程序只能用Java來寫

3、MapReducel.O的體系結構中，JobTracker是主要任務是什么？A

(A)負責資源監(jiān)控和作業(yè)調度，監(jiān)控所有TaskTracker與Job的健康狀況

(B)使用"slot"等量劃分本節(jié)點上的資源量(CPU、內存等)

(C)會周期性地通過“心跳”將本節(jié)點上資源的使用情況和任務的運行進度匯報給

TaskTracker

(D)會跟蹤任務的執(zhí)行進度、資源使用量等信息，并將這些信息告訴任務(Task)

4、下列關于MapReduce工作流程，哪個描述是正確的？A

(A)所有的數據交換都是通過MapReduce框架自身去實現的

(B)不同的Map任務之間會進行通信

(C)不同的Reduce任務之間可以發(fā)生信息交換

(D)用戶可以顯式地從一臺機器向另一臺機器發(fā)送消息

5、下列關于MapReduce的說法，哪個描述是錯誤的？D

(A)MapReduce具有廣泛的應用，比如關系代數運算、分組與聚合運算等

(B)MapReduce將復雜的、運行于大規(guī)模集群上的并行計算過程高度地抽象到了兩

個函數

(C)編程人員在不會分布式并行編程的情況下，也可以很容易將自己的程序運行在

分布式系統上，完成海量數據集的計算

(D)不同的Map任務之間可以進行通信

6、下列關于Map和Reduce函數的描述，哪個是錯誤的？C

(A)Map將小數據集進一步解析成一批＜key,value〉對，輸入Map函數中進行處理

(B)Map每一個輸入的＜k1,v1＞會輸出一批＜k2,v2＞?＜k2,v2＞是計算的中間

結果

(C)Reduce輸入的中間結果＜k2,List(v2)＞中的List(v2)表示是一批屬于不同k2的

value

(D)Reduce輸入的中間結果＜k2,List(v2)＞中的List(v2)表示是一批屬于同一個k2

的value

7、下面哪一項不是MapReduce體系結構主要部分？A

(A)Client

(B)JobTracker

(C)TaskTracker以及Task

(D)Job

8、關于MapReducel.O的體系結構的描述，下列說法錯誤的是？A

(A)Task分為M叩Task和ReduceTask兩種，分別由JobTracker和TaskTracker

啟動

(B)slot分為Mapslot和Reduceslot兩種，分別供MapTask和ReduceTask使

用

(C)TaskTracker使用"slot"等量劃分本節(jié)點上的資源量(CPU、內存等)

(D)TaskTracker會周期性接收JobTracker發(fā)送過來的命令并執(zhí)行相應的操作(如啟

動新任務、殺死任務等)

9、下列說法錯誤的是？C

(A)HadoopMapReduce是MapReduce的開源實現，后者比前者使用門檻低很多

(B)MapReduce采用非共享式架構，容錯性好

(C)MapReduce主要用于批處理、實時、計算密集型應用

(D)MapReduce采用“分而治之”策略

多選題

1、MapReduce相較于傳統的并行計算框架有什么優(yōu)勢？ABCD

(A)非共享式，容錯性好

(B)普通PC機，便宜，擴展性好

(C)編程簡單，只要告訴MapReduce做什么即可

(D)批處理、非實時、數據密集型

2、MapReduce體系結構主要由以下那幾個部分構成？ABCD

(A)Client

(B)JobTracker

(C)TaskTracker

(D)Task

3、下列關于MapReduce的體系結構的描述，說法正確的有？ABD

(A)用戶編寫的MapReduce程序通過Client提交到JobTracker端

(B)JobTracker負責資源監(jiān)控和作業(yè)調度

(C)TaskTracker監(jiān)控所有TaskTracker與Job的健康狀況

(D)TaskTracker使用"slot"等量劃分本節(jié)點上的資源量(CPU、內存等)

4、MapReduce的作業(yè)主要包括什么?AB

(A)從磁盤或從網絡讀取數據，即I。密集工作

(B)計算數據，即CPU密集工作

(C)針對不同的工作節(jié)點選擇合適硬件類型

(D)負責協調集群中的數據存儲

5、對于MapReduce而言，其處理單位是split。split是一個邏輯概念，它包含哪些元數據

信息？AB

(A)數據起始位置

(B)數據長度

(C)數據所在節(jié)點

(D)數據大小

6、下列關于Map端的Shuffle的描述，哪些是正確的？BC

(A)MapReduce默認為每個M叩任務分配1000MB緩存

(B)多個溢寫文件歸并成一個或多個大文件，文件中的鍵值對是排序的

(C)當數據很少時，不需要溢寫到磁盤，直接在緩存中歸并，然后輸出給Reduce

(D)每個M叩任務分配多個緩存，使得任務運行更有效率

7、MapReduce的具體應用包括哪些?ABCD

(A)關系代數運算(選擇、投影、并、交、差、連接)

(B)分組與聚合運算

(C)矩陣-向量乘法

(D)矩陣乘法

8、MapReduce執(zhí)行的全過程包括以下哪幾個主要階段？ABCD

(A)從分布式文件系統讀入數據

(B)執(zhí)行Map任務輸出中間結果

(C)通過Shuffle階段把中間結果分區(qū)排序整理后發(fā)送給Reduce任務

(D)執(zhí)行Reduce任務得到最終結果并寫入分布式文件系統

9、下列說法正確的是？ABCD

(A)MapReduce體系結構主要由四個部分組成，分別是：Client、JobTracker、

TaskTracker以及Task

(B)Task分為M叩Task和ReduceTask兩種，均由TaskTracker啟動

(C)在MapReduce工作流程中，所有的數據交換都是通過MapReduce框架自身去

實現的

(D)在MapReduce工作流程中，用戶不能顯式地從一臺機器向另一臺機器發(fā)送消息

第八章Hadoop再探討

單選題

1、Hadoopl.O的核心組件(僅指MapReduce和HDFS,不包括Hadoop生態(tài)系統內的Pig、

Hive、HBase等其他組件)，下列哪項是它的不足？B

(A)抽象層次高

(B)表達能力有限，抽象層次低，需人工編碼

(C)價格昂貴

(D)可維護性低

2、下面哪個選項不屬于Hadoopl.O的問題？D

(A)單一名稱節(jié)點，存在單點失效問題

(B)單一命名空間，無法實現資源隔離

(C)資源管理效率低

(D)很難上手

3、下列哪項是Hadoop生態(tài)系統中Spark的功能？D

(A)處理大規(guī)模數據的腳本語言

(B)工作流和協作服務引擎，協調Hadoop上運行的不同任務

(C)不支持DAG作業(yè)的計算框架

(D)基于內存的分布式并行編程框架，具有較高的實時性，并且較好支持迭代計算

4、在Hadoop生態(tài)系統中，Kafka主要解決Hadoop中存在哪些的問題？A

(A)Hadoop生態(tài)系統中各個組件和其他產品之間缺乏統一的、高效的數據交換中介

(B)不同的MapReduce任務之間存在重復操作，降低了效率

(C)延遲高，而且不適合執(zhí)行迭代計算

(D)抽象層次低，需要手工編寫大量代碼

5、下列哪一個不屬于HDFS1.0中存在的問題？A

(A)無法水平擴展

(B)單點故障問題

(C)單一命名空間

(D)系統整體性能受限于單個名稱節(jié)點的吞吐量

6、關于HDFSFederation的設計的描述，哪個是錯誤的？A

(A)屬于不同命名空間的塊可以構成同一個“塊池”

(B)HDFSFederation中，所有名稱節(jié)點會共享底層的數據節(jié)點存儲資源，數據節(jié)點

向所有名稱節(jié)點匯報

(C)設計了多個相互獨立的名稱節(jié)點

(D)HDFS的命名服務能夠水平擴展

7、下列關于MapReducel.O的描述，錯誤的是？B

(A)JobTracker"大包大攬”導致任務過重

(B)不存在單點故障

(C)容易出現內存溢出(分配資源只考慮MapReduce任務數，不考慮CPU、內存)

(D)資源劃分不合理(強制劃分為slot,包括Mapslot和Reduceslot)

8、下列哪個不屬于YARN體系結構中ResourceManager的功能？D

(A)處理客戶端請求

(B)監(jiān)控NodeManager

(C)資源分配與調度

(D)處理來自ApplicationMaster的命令

9、下列哪個不屬于YARN體系結構中ApplicationMaster的功能？D

(A)任務調度、監(jiān)控與容錯

(B)為應用程序申請資源

(C)將申請的資源分配給內部任務

(D)處理來自ResourceManger的命令

多選題

1、下列選項中，哪些屬于Hadoopl.O的核心組件的不足之處？ABCD

(A)實時性差(適合批處理，不支持實時交互式)

(B)資源浪費(Map和Reduce分兩階段執(zhí)行)

(C)執(zhí)行迭代操作效率低

(D)難以看到程序整體邏輯

2、Hadoop的優(yōu)化與發(fā)展主要體現在哪幾個方面？ABC

(A)Hadoop自身核心組件M叩Reduce的架構設計改進

(B)Hadoop自身核心組件HDFS的架構設計改進

(C)Hadoop生態(tài)系統其它組件的不斷豐富

(D)Hadoop生態(tài)系統減少不必要的組件，整合系統

3、下列哪些屬于Hadoop2.0相對于Hadoopl.O的改進？ABCD

(A)設計了HDFSHA

(B)提供名稱節(jié)點熱備機制

(C)設計了HDFSFederation,管理多個命名空間

(D)設計了新的資源管理框架YARN

4、下面哪個屬于不斷完善的Hadoop生態(tài)系統中的組件？ABC

(A)Pig

(B)Tez

(C)Kafka

(D)DN8

5、HDFS1.0主要存在哪些問題？ACD

(A)單點故障問題

(B)不可以水平擴展

(C)單個名稱節(jié)點難以提供不同程序之間的隔離性

(D)系統整體性能受限于單個名稱節(jié)點的吞吐量

6、HDFSFederation相對于HDFS1.0的優(yōu)勢主要體現在哪里？BCD

(A)能夠解決單點故障問題

(B)HDFS集群擴展性

(C)性能更高效

(D)良好的隔離性

7、JobTracker主要包括哪三大功能？ABC

(A)資源管理

(B)任務調度

(C)任務監(jiān)控

(D)數據即服務

8、YARN體系結構主要包括哪三部分？ABD

(A)ResourceManager

(B)NodeManager

(C)DataManager

(D)ApplicationMaster

9、在YARN體系結構中，ApplicationMaster主要功能包括哪些？ABC

(A)當用戶作業(yè)提交時，ApplicationMaster與ResourceManager協商獲取資源，

ResourceManager會以容器的形式為ApplicationMaster分配資源

(B)把獲得的資源進一步分配給內部的各個任務(Map任務或Reduce任務)，實現

資源的“二次分配”

(C)定時向ResourceManager發(fā)送“心跳”消息，報告資源的使用情況和應用的進

度信息

(D)向ResourceManager匯報作業(yè)的資源使用情況和每個容器的運行狀態(tài)

第九章數據倉庫Hive

單選題

1,下列有關Hive和Impala的對比錯誤的是:(D)

AHive與Impala使用相同的元數據

BHive與Impala中對SQL的解釋處理比較相似，都是通過詞法分析生成執(zhí)行計劃

CHive適合于長時間的批處理查詢分析，而Impala適合于實時交互式SQL查詢

DHive在內存不足以存儲所有數據時，會使用外存，而Impala也是如此

2.下列關于Hive基本操作命令的解釋錯誤的是：(C)

Acreatedatabaseuserdb;〃倉犍數據庫userdb

Bcreatetableifnotexistsusr(idbigint,namestring,ageint);〃如果usr表不存在,

創(chuàng)建表usr,含三個屬性id,name,age

Cloaddatalocalinpath'/usr/local/data,overwriteintotableusr;〃把目

錄'/usr/local/data'下的數據文件中的數據以追加的方式裝載進usr表

Dinsertoverwritetablestudentselect*fromuserwhereage>10;〃向表usrl

中插入來自usr表的age大于10的數據并覆蓋student表中原有數據

3.下面哪個不可能是Hive的執(zhí)行弓I擎:（C）

A.M叩Reduce

B.Tez

C.Storm

D.Spark

4.下面描述錯誤的是：（C）

A.Hive的功能十分強大，可以支持采用SQL方式查詢Hadoop平臺上的數據

B.在實際應用中，Hive也暴露出不穩(wěn)定的問題，在極少數情況下，甚至會出現端口不響應

或者進程丟失的問題

C.在HiveHA中，在Hadoop集群上構建的數據倉庫是由單個Hive實例進行管理的

D.在HiveHA中，客戶端的查詢請求首先訪問HAProxy,由HAProxy對訪問請求進行轉發(fā)

5.以下哪個不是數據倉庫的特性：（C）

A.面向主題的

B.集成的

C.動態(tài)變化的

D,反映歷史變化的

6.下面關于Hive的描述錯誤的是：（D）

A.Hive是一個構建在Hadoop之上的數據倉庫工具

B.Hive是由Facebook公司開發(fā)的

C.Hive在某種程度上可以看作是用戶編程接口，其本身并不存儲和處理數據

D.Hive定義了簡單的類似SQL的查詢語言——HiveQL,它與大部分SQL語法無法兼容

7.下面關于Hive的描述錯誤的是：（D）

A.HBase與Hive的功能是互補的，它實現了Hive不能提供的功能

B.當采用MapReduce作為執(zhí)行引擎時，用HiveQL語句編寫的處理邏輯，最終都要轉化為

MapReduce任務來運行

C.Hive一般用于處理靜態(tài)數據，主要是BI報表數據

D.Hive主要是用于滿足實時數據流的處理需求

8.關于Hive和傳統關系數據庫的對比分析，下面描述錯誤的是：（B）

A.Hive一般依賴于分布式文件系統HDFS,而傳統數據庫則依

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《大數據技術原理與應用(第3版)》期末復習題庫(含答案)

文檔簡介

溫馨提示

最新文檔

評論

《大數據技術原理與應用(第3版)》期末復習題庫(含答案)

文檔簡介

溫馨提示

最新文檔

評論

相關文檔