大數(shù)據(jù)開發(fā)基礎練習題及答案15-2023-背題版

上傳人：新*** IP屬地：河北上傳時間：2024-01-10 格式：PDF 頁數(shù)：96 大小：12.02MB 積分：12 舉報 版權申訴

大數(shù)據(jù)開發(fā)基礎練習題及答案15-2023-背題版_第2頁

大數(shù)據(jù)開發(fā)基礎練習題及答案15-2023-背題版_第3頁

大數(shù)據(jù)開發(fā)基礎練習題及答案15-2023-背題版_第4頁

大數(shù)據(jù)開發(fā)基礎練習題及答案15-2023-背題版_第5頁

已閱讀5頁，還剩91頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

試題說明

本套試題共包括1套試卷

每題均顯示答案和解析

大數(shù)據(jù)開發(fā)基礎練習題及答案15（500題）

大數(shù)據(jù)開發(fā)基礎練習題及答案15

1.［單選題］語義網(wǎng)絡表達知識時，有向弧AKO鏈、ISA鏈是用來表達節(jié)點知識的（）o

A）無悖性

B）可擴充性

C）繼承性

答案:C

解析：

2.［單選題］（）算法假設聚類結構能通過樣本分布的緊密程度確定

A）原型聚類

B）密度聚類

C）層次聚類

答案:B

解析：

3.［單選題］根據(jù)《大數(shù)據(jù)風控平臺項目操作手冊》，從【集團客戶管理】節(jié)點路徑進入集團圖譜

,在正常模式下的集團圖譜頁面中新增子節(jié)點客戶，新增的子節(jié)點客戶狀態(tài)為（）O

A）核心企業(yè)

B）B.行內客戶已認定

C）C.行內客戶認定中

D）D.行內手動添加

答案:D

解析：

4.［單選題］對于一個分類任務，如果開始時神經(jīng)網(wǎng)絡的權重不是隨機賦值的，而是都設成0,則下

列敘述正確的是（）。

A）沒有問題，神經(jīng)網(wǎng)絡會正常開始訓練

B）神經(jīng)網(wǎng)絡可以訓練，但是所有的神經(jīng)元最后都會變成識別同樣的東西

C）神經(jīng)網(wǎng)絡不會開始訓練，因為沒有梯度改變

D）以上選項都不對

答案:B

解析：

5.［單選題］下列關于模型能力（modelcapacity,指神經(jīng)網(wǎng)絡模型能擬合復雜函數(shù)的能力）的描述正

確的是（）。

A）隱藏層層數(shù)增加，模型能力增加

B）Dropout的比例增加，模型能力增加

C）學習率增加，模型能力增加

D）以上都不正確

答案：A

解析:Dropout比例增加，可能會丟失過多參數(shù)影響模型能力；學習率過大，梯度下降可能會越過最

低點，無法收斂。

6.［單選題］下列哪個應用領域不屬于深度學習算法應用（）

A）人臉識別

B）機器翻譯

0腫瘤診斷

D）自動控制

答案:D

解析：

7.［單選題］下面哪個工具可以從RDBMS將數(shù)據(jù)導入到HDFS（）

A）Sqoop

B）Flume

C）HDFS

D）Hive

答案:A

解析：

8.［單選題］關于類和對象的關系，下列描述正確的是（）o

A）類是面向對象的核心

B）類是現(xiàn)實中事物的個體

C）對象是根據(jù)類創(chuàng)建的，并且一個類只能對應一個對象

D）對象描述的是現(xiàn)實的個體，它是類的實例

答案:D

解析：

9.［單選題］大數(shù)據(jù)解決方案中的哪一層可以幫助定義和分類各個必要的組件？

A）業(yè)務層

B）網(wǎng)絡層

C）服務層

D）邏輯層

答案:D

解析：

10.［單選題］根據(jù)《大數(shù)據(jù)應用推動考核辦法》，總行每月拿出（）元考核資金作為考核款。

A)5000

B)10000

C)15000

D)20000

答案:B

解析：

11.［單選題］關于Python語言的注釋，以下選項中描述錯誤的是:

A)python語言有兩種注釋方式：單行注釋和多行注釋

B)python語言的單行注釋以#開頭

Opython語言的單行注釋以單引號開頭

D)Python語言的多行注釋以'''(三個單引號)開頭和結尾

答案:C

解析：

12.［單選題］scipy.io模塊可以實現(xiàn)(_)0

A)計算kmeans

B)計算knn

C)粒子群計算

D)數(shù)據(jù)輸入輸出

答案:D

解析：

13.［單選題］使用()關鍵字創(chuàng)建自定義函數(shù)。

A)function

B)func

Odef

D)lambda

答案:C

解析：

14.［單選題］下面與HDFS類似的框架是()？

A)NTFS

B)FAT32

C)GFS

D)EXT3

答案:C

解析：

15.［單選題］字符串中，成員資格判斷使用的關鍵字是()

A)limit

B)to

C)in

D)len

答案:C

解析：

16.［單選題］以下關于數(shù)據(jù)科學描述正確的是

A)數(shù)據(jù)科學是統(tǒng)計學的一部分

B)數(shù)據(jù)科學就是機器學習

C)天文學與數(shù)據(jù)科學無關

D)數(shù)據(jù)科學家傾向于用探索數(shù)據(jù)的方式來看待周圍的世界

答案:D

解析：

17.［單選題］指出下面正確的說法①基于像素的圖像增強方法是一種非線性灰度變換。②基于像素的

圖像增強方法是基于空域的圖像增強方法的一種。③基于頻域的圖像增強方法由于常用到傅里葉變

換和傅里葉反變換，所以總比基于圖像域的方法計算復雜較高。④基于頻域的圖像增強方法可以獲

得和基于空域的圖像增強方法同樣的圖像增強效果。

A)①②

B)①③

C)③④

D)②④

答案:D

解析：

18.［單選題］在HBase中，刪除整個表結構的命令是()

A)truncate

B)drop

C)delete

D)以上都不正確

答案:B

解析：

19.［單選題］下列選項中，使用名稱為cursojstudent的游標，將查詢出的信息存入s_name和s_

gender,寫法正確的是()。一

A)FETCHcursor_studentTOs_name,s_gender；

B)SETcursor_studentINTOs_name,s_gender；

C)FETCHcursor_studentINTOs_name,s_gender；

D)SETcursor_studentTOs_name,sgender；

答案:C

解析：

20.［單選題］以下不能創(chuàng)建一個字典的語句是

A)dictl={}

B)dict2={3:5}

C)dict3={［1,2,3］："uestc”}

D)dict4={(1,2,3)："uestc”}

答案:C

解析：

21.［單選題］()不適合使用機器學習方法解決

A)判斷電子郵件是否是垃圾郵件

B)判斷給定的圖中是否有環(huán)

C)是否給指定用戶辦理信用卡

D)咱對滴滴拼車乘客分簇

答案：B

解析：

22.［單選題］以下python注釋代碼，不正確的是。()

A)#python注釋代碼

B)#python注釋代碼1#python注釋代碼2

C)""“python文檔注釋"””

D)//python注釋代碼

答案:D

解析：

23.［單選題］下列不屬于數(shù)據(jù)科學跨平臺基礎設施和分析工具的是()。

A)微軟Azure

B)Google云平臺

C)阿里云

D)Adobephotoshop

答案:D

解析：

24.［單選題］下面與Zookeeper類似的框架是？

A)Protobuf

B)Java

C)Kafka

D)Chubby

答案:D

解析:Zookeeper和Chubby的內存數(shù)據(jù)模型都類似于傳統(tǒng)文件系統(tǒng)，由樹形的層級目錄結構構成，其

中的節(jié)點稱為Znode,其可以是文件或是目錄。

25.［單選題］物聯(lián)網(wǎng)的核心和基礎是()

A)RFID

B）計算機技術

C）人工智能

D）互聯(lián)網(wǎng)

答案:D

解析：

26.［單選題］自然語言處理、語音識別、股票交易、氣象預測等應用適合采用（）處理。

A）循環(huán)神經(jīng)網(wǎng)絡

B）卷積神經(jīng)網(wǎng)絡

C）多層神經(jīng)網(wǎng)絡

D）單層神經(jīng)網(wǎng)絡

答案:A

解析:循環(huán)神經(jīng)網(wǎng)絡具有記憶性、參數(shù)共享并且圖靈完備，因此在對序列的非線性特征進行學習時具

有一定優(yōu)勢。循環(huán)神經(jīng)網(wǎng)絡在自然語言處理，例如語音識別、語言建模、機器翻譯等領域有應用

,也被用于各類時間序列預報，如股票交易和氣象預測。卷積神經(jīng)網(wǎng)絡主要用于圖像處理。多層神

經(jīng)網(wǎng)絡主要用于分類任務，單層神經(jīng)網(wǎng)絡只能實現(xiàn)簡單的邏輯，如與、或、非，若不加激活函數(shù)甚

至無法實現(xiàn)異或。

27.［單選題］下列描述說法錯誤的是？（）

A）SecureCRT是一款支持SSH的終端仿真程序，它能夠在Windows操作系統(tǒng)上遠程連接Linux服務器執(zhí)

行操作。

B）Hadoop是一個用于處理大數(shù)據(jù)的分布式集群架構，支持在GNU/Linux系統(tǒng)以及Windows系統(tǒng)上進行

安裝使用。

C）VMwareWorkstation是一款虛擬計算機的軟件，用戶可以在單一的桌面上同時操作不同的操作系

統(tǒng)。

D）SSH是一個軟件，專為遠程登錄會話和其他網(wǎng)絡服務提供安全性功能的軟件。

答案:D

解析：

28.［單選題］下列關于Spark的描述，錯誤的是哪一項？

A）使用DAG執(zhí)行引擎以支持循環(huán)數(shù)據(jù)流與內存計算析

B）可運行于獨立的集群模式中，可運行于Hadoop中，也可運行于AmazonEC2等云環(huán)境中

C）支持使用Scala、Java、Python和R語言進行編程，但是不可以通過SparkShell進行交互式編程

D）可運行于獨立的集群模式中，可運行于Hadoop中，也可運行于AmazonEC2等云環(huán)境中

答案:C

解析：

29.［單選題］0GG軟件是一種基于（一）的結構化數(shù)據(jù)復制軟件。

A）數(shù)據(jù)流

B）配置文件

C交互

D）日志

答案：D

解析：

30.［單選題］hadoop集群不可以在（）進行。

A）聯(lián)機模式

B）單機模式

C）虛擬分布模式

D）完全分布模式

答案:A

解析：

31.［單選題］若a=range（100）,以下哪個操作是非法的（）。

A）a［-0.3］

B）a［2：13］

C）a［：：3］

D）a［2-3］

答案:A

解析：

32.［單選題］在淘寶網(wǎng)購物時，當你購買了“汽車防盜鎖”之后，淘寶網(wǎng)會自動提示你與你購買相

同物品的其他客戶還購買了汽車坐墊。這個案例體現(xiàn)了大數(shù)據(jù)思維的（）

A）大數(shù)據(jù)強調因果性

B）大數(shù)據(jù)強調相關性

C）大數(shù)據(jù)強調精確性

D）大數(shù)據(jù)強調抽樣

答案:B

解析：

33.［單選題］在Hadoop的組件中可用于實現(xiàn)各種經(jīng)典的機器學習算法的組件是（一）。

A）HDFS

B）Hive

OPig

D）Mahout

答案:D

解析：

34.［單選題］離散程度的測度值愈大，則（）。

A）反映變量值愈分散,算術平均數(shù)代表性愈差

B）反映變量值愈集中,算術平均數(shù)代表性愈差

C）反映變量值愈分散,算術平均數(shù)代表性愈好

D）反映變量值愈集中,算術平均數(shù)代表性愈好

答案:A

解析：離散程度的測度值愈大，則反映變量值愈分散，算術平均數(shù)代表性愈差。

35.［單選題］離散程度的測度值愈大，則（）。

A）映變量值愈分散，算術平均數(shù)代表性愈差

B）映變量值愈集中，算術平均數(shù)代表性愈差

C）映變量值愈分散，算術平均數(shù)代表性愈好

D）映變量值愈集中，算術平均數(shù)代表性愈好

答案:A

解析:

36.［單選題］下列關于SparkStreaming和Streaming比較說法不正確的是？

A）SparkStreaming是一個微批處理框架，事件需要積累到一定量時才進行處理

B）Streaming的執(zhí)行邏輯是即時啟動，運行完后再回收

C）SparkStreaming的吞吐量大約是Streaming的2-5倍

D）SparkStreaming事件處理時延比Streaming更高

答案:B

解析：

37.［單選題］下列關于分類算法的準確率、召回率、F1值的描述錯誤的是（）。

A）準確率是檢索出相關文檔數(shù)與檢索出的文檔總數(shù)的比率，衡量的是檢索系統(tǒng)的查準率

B）召回率是指檢索出的相關文檔數(shù)和文檔庫中所有的相關文檔數(shù)的比率，衡量的是檢索系統(tǒng)的查全

率

C）正確率、召回率和F1值取值都在0和1之間，數(shù)值越接近0,查準率或查全率就越高

D）為了解決準確率和召回率沖突問題，引入了F1分數(shù)

答案:C

解析：正確率、召回率、F1值取值都在0和1之間，數(shù)值越接近1,查準率或查全率就越高。

38.［單選題］np.linalg.svd（）函數(shù)可以實現(xiàn)什么功能？

A）計算協(xié)方差矩陣

B）實現(xiàn)奇異值分解

C）計算方差

D）計算均值

答案:B

解析：

39.［單選題］下面哪一項不是云數(shù)據(jù)庫的特性？（）

A）動態(tài)可擴展

B）高成本

C）易用性

D）大規(guī)模并行處理

答案：B

解析：

40.［單選題］假設擁有一個已完成訓練的、用來解決車輛檢測問題的深度神經(jīng)網(wǎng)絡模型，訓練所用的

數(shù)據(jù)集由汽車和卡車的照片構成，而訓練目標是檢測出每種車輛的名稱（車輛共有10種類型）。

現(xiàn)在想要使用這個模型來解決另外一個問題，問題數(shù)據(jù)集中僅包含一種車（福特野馬）而目標變?yōu)?/p>

定位車輛在照片中的位置，則應采取的方法是（）。

A）除去神經(jīng)網(wǎng)絡中的最后一層，凍結所有層然后重新訓練

B）對神經(jīng)網(wǎng)絡中的最后幾層進行微調，同時將最后一層（分類層）更改為回歸層

C）使用新的數(shù)據(jù)集重新訓練模型

D）所有答案均不對

答案:B

解析：由于神經(jīng)網(wǎng)絡淺層網(wǎng)絡主要提取圖像的低維特征，對于相近領域進行遷移學習時，這些低維特

征相同，因此只需要對最后幾層進行微調，而檢測位置相當于回歸任務。

41.［單選題］與科學可視化相比，（_）更關注抽象且應用層次的可視化問題。

A）信息可視化

B）可視化理論

C）可視分析學

D）數(shù)據(jù)可視化

答案:A

解析：

42.［單選題］考察一個由三個卷積層組成的CNN：kernel=3X3,stride=2,padding=SAMEo最低

層輸出100個特征映射（featuremap）,中間層200個特征映射，最高層400個特征映射。輸入是

200X300的RGB圖片，總參數(shù)的數(shù)量是多少？

A）903400

B）2800

C）180200

D）720400

答案:A

解析：

43.［單選題］若依據(jù)一個視圖創(chuàng)建另一個視圖，那么添加（）選項，視圖的數(shù)據(jù)操作會進行級聯(lián)檢查。-

A）DEFINER

B）CASCADED

C）LOCAL

D）以上選項都不正確

答案:B

解析：

44.［單選題］（）的主要目標是提供可擴展的機器學習算法及其實現(xiàn)，旨在幫助開發(fā)人員更加方便快

捷地創(chuàng)建智能應用程序。

A)Mahout

B)Flume

C)Sqoop

D)HBase

答案:A

解析：

45.［單選題］下列關于大數(shù)據(jù)預測的說法中，錯誤的是()

A)人類的生活正在被大數(shù)據(jù)預測深刻改變

B)預測性分析是大數(shù)據(jù)最核心的功能

C)分析從“面向已經(jīng)發(fā)生的過去”轉向“面向即將發(fā)生的未來”是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的最大區(qū)別

D)大數(shù)據(jù)預測是基本大數(shù)據(jù)集和預測模型去預測過去某件事情的概率

答案:D

解析：

46.［單選題］下列方法中，可以將元組轉換為Multilndex對象的是()

A)from_tuples()

B)from_arrays()

C)from_product()

D)from_list()

答案:A

解析：

47.［單選題］創(chuàng)建視圖的命令是()

A)alterview

B)altertable

C)createtable

D)createview

答案:D

解析：

48.［單選題］下列關于分詞的說法正確的是？

A)中文句子字之間沒有空格，無法分詞

B)一個句子的分詞結果是唯一的

C)中文分詞是將一系列無空格間隔字符串分割成一系列單詞的過程

D)分詞沒有實際應用價值

答案:C

解析：

49.［單選題］SEQUENCEFILE是HadoopAPI提供的一種()進制文件支持，其具有使用方便、可分割

、可壓縮的特點

A)二

B)八

C)十

D)十六

答案:A

解析：

50.［單選題］print。是通過參數(shù)(一)來設定以什么結尾。

A)objects

B)sep

C)end

D)file

答案:C

解析：

51.［單選題］以下不屬于判別式模型的是：

A)決策樹

B)BP神經(jīng)網(wǎng)絡

C)高斯混合模型

D)支持向量機

答案:C

解析：

52.［單選題］以下說法不正確的是()

A)HadoopStreaming使用Unix中的流與程序交互

B)HadoopStreaming允許我們使用任何可執(zhí)行腳本語言處理數(shù)據(jù)流

C)采用腳本語言時必須遵從UNIX的標準輸入STDIN,并輸出到STDOUT

D)Reduce沒有設定，上述命令運行會出現(xiàn)問題

答案:D

解析：

53.［單選題］在Hadoop中，哪個用于機器學習。

A)Hive

B)Pig

OHBase

D)Mahout

答案:D

解析：

54.［單選題］()是指為最小化總體風險，只需在每個樣本上選擇能使特定條件風險最小的類別標記

A)支持向量機

B)間隔最大化

C)線性分類器

D)貝葉斯判定準則

答案:D

解析：

55.［單選題］以下關于NoSQL數(shù)據(jù)庫描述錯誤的是：()

A)NoSQL是一種不同于關系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)設計方式，是對非關系型數(shù)據(jù)庫的統(tǒng)稱

B)NoSQL所采用的數(shù)據(jù)模型并非傳統(tǒng)關系數(shù)據(jù)庫的關系模型，而是類似鍵/值、列族、文檔等非關系

模型

ONoSQL數(shù)據(jù)庫有固定的表結構，通常存在較多連接操作

D)與關系數(shù)據(jù)庫相比，NoSQL具有靈活的水平可擴展性，可以支持海量數(shù)據(jù)存儲

答案:C

解析：

56.［單選題］下面哪個進程負責MapReduce任務調度。()

A)NameNode

B)Jobtracker

C)TaskTracker

D)secondaryNameNode

答案：B

解析：

57.［單選題］下面哪個函數(shù)可以計算兩個日期之間的差()

A)DateFormat

B)DatePart

ODateDiff

D)SystemDatetime

答案:C

解析：

58.［單選題］ApacheHadoop是使用哪個協(xié)議發(fā)布的()

A)ApacheLicense2.0

B)Shareware

C)MozillaPublicLicense

D)Commercial

答案:A

解析：

59.［單選題］下列哪個選項可用于查詢ElasticSearch的索引？

A)curl-XGET"http：//ip：httpport/_cluster/health?pretty'

B)B.curl-XGET'http：//ip：httpport/name/type/indexlD?pretty'

C)C.curl-XPOSThttp：//ip：httpport/name/type/indexlD?pretty-H'Content-

Type：application/ison'_d'{}'

D)D.curl-XGEThttp：//ip：httpport/_cat/indices?'

答案:B

解析：

60.［單選題］假設已從標準庫functools導入reduce()函數(shù)，那么表達式reduce(lambda

x,y：x+y,［1,2,3］)的值為()。

A)None

B)6

D)9

答案:B

解析:reduce()是聚合函數(shù)，該操作完成數(shù)組求和功能。

61.［單選題］下列關于Hadoop中MapReduce的說法正確的是()。

A)可以沒有Reduce任務

B)Reducer輸入為隨機輸入

OShufe主要實現(xiàn)數(shù)據(jù)可視化功能

D)一個Reducer只能從一個Map復制所需要的partition

答案:A

解析:MapReduce中的Reduce并不是必須存在的。

62.［單選題］下列不屬于RDBMS常用的數(shù)據(jù)庫軟件有()

A)Oracle

B)SQLServer

C)MySQL

D)redis

答案:D

解析：

63.［單選題］Hadoop具有特性不包括()。

A)高可靠性

B)高效性

C)高可擴展性

D)低容錯性

答案:D

解析：

64.［單選題］關于“與/或”圖表示知識的敘述，錯誤的有()o

A)用“與/或”圖表示知識方便使用程序設計語言表達，也便于計算機存儲處理。

B)“與/或”圖表示知識時一定同時有“與節(jié)點”與“或節(jié)點”。

0“與/或”圖能方便地表示陳述性知識與過程性知識。

D)能用“與/或”圖表示的知識不適宜用其他方法表示。

答案：D

解析：

65.［單選題］以下變量名中正確的是(一)。

A)global

B)pass

C)except

D)letter

答案：D

解析：

66.［單選題］下列關于Spark的描述，錯誤的是哪一項？

A)Spark最初由美國加州伯克利大學(UCBerkeley)的AMP實驗室于2009年開發(fā)

B)Spark在2014年打破了Hadoop保持的基準排序紀錄

C)Spark用十分之一的計算資源，獲得了比Hadoop快3倍的速度

D)Spark運行模式單一

答案:D

解析：

67.［單選題］下列關于漏斗圖的說法中，錯誤的是()

A)漏斗圖往往適用于業(yè)務流程上的順序關系

B)漏斗圖可以通過漏斗中梯形的大小，清晰地展示出不同數(shù)值的大小

C)漏斗圖與餅圖同樣適用于表示占比的情況

D)漏斗圖不適用于表示無邏輯順序的分類對比情況

答案:C

解析：漏斗圖不適合表示無邏輯順序的分類對比，如果要表示無邏輯順序的分類對比情況，請使用柱狀

圖。漏斗圖也不適合表示占比情況，如果要表示占比情況,請使用餅圖。

68.［單選題］Hive是建立在()之上的一個數(shù)據(jù)倉庫

A)HDFS

B)MapReduce

C)Hadoop

D)HBase

答案:C

解析：

69.［單選題］下面哪個協(xié)議用于SecondaryNamenode和Namenode之間的通信()

A)DatanodeProtocol

B)NamenodeProcotol

C)ClientProtocol

D)ClientDatanodeProtocol

答案:B

解析:A、DatanodeProtocol【DataNode與NameNode通信的信息接口】

B、NamenodeProcotol［SecondaryNamenode與NameNode通信】

C、Clientprotocol【表示安裝在客戶端實例上的網(wǎng)絡協(xié)議】

D、ClientDatanodeProtocol【用戶進程（包括客戶端進程與Datanode進程）與Namenode進程之間進

行通信所使用的協(xié)議】

70.［單選題］按照班級進行分組（）

A）ORDERBYCLASSES

B）DORDERCLASSES

C）GROUPBYCLASSES

D）GROUPCLASSES

答案:C

解析：

71.［單選題］Maxcompute的命令行工具odpscmd可以使用（）參數(shù)調用某個文件中的命令集。

A）k

B）e

D）c

答案:C

解析：

72.［單選題］下列哪些選項不是HBase為null的列不占用存儲空間的原因？

A）Region分裂

B）列存儲

C）行存儲

D）Key-Value結構

答案:D

解析：

73.［單選題］在HDFS中，NameNode的主要功能是什么？

A）維護了blockid到datanode本地文件的映射關系

B）存儲文件內容

C）文件內存保存在磁盤中

D）存儲元數(shù)據(jù)

答案:D

解析：

74.［單選題］下列濾波器中對圖像中的椒鹽噪聲濾波效果最好的是（）。

A）中值濾波

B）均值濾波

C）最大值濾波

D）最小值濾波

答案:A

解析：

75.［單選題］關于Spark中SparkSQL描述不準確的是？

A）SparkSQL使用場景包括毫秒級實時查詢

B）SQL語句通過SparkSQL模塊解析為DAG,交給SparkCore執(zhí)行

C）通過Sparksession提交SQL語句，任務像Spark應用一樣，提交到集群中分布式運行。

D）SparksQL是Spark用來處理結構化數(shù)據(jù)的一個模塊，可以在spark應用中接使用SQL語句對數(shù)據(jù)進行

操作。

答案:A

解析：

76.［單選題］HDFS尋求幫助的命令格式是什么？

A)$hadoopfs-h命令名

B)$hadoopfs-help命令名

C)$hadoopfsh命令名

D)Shadoopfshelp命令名

答案：B

解析：

77.［單選題］下列哪個程序通常與NameNode在一個節(jié)點啟動？

A)SecondaryNameNode

B)DataNode

C)TaskTracker

D)Jobtracker

答案:D

解析：hadoop的集群是基于master/slave模式，namenode和jobtracker屬于master,datanode和

tasktracker屬于slave,master只有一個，而slave有多個。

JobTracker對應于NameNode；

TaskTracker對應于DataNode。

78.［單選題］requests庫的get（）函數(shù)執(zhí)行后會返回一個Response類型的對象，其text屬性以（）形式

存儲響應內容

A）網(wǎng)頁

B）字符串

C）整數(shù)

D）文本

答案:B

解析：

79.［單選題］執(zhí)行以下代碼段t=（l,2,4,3）print（t［l：3］）時,輸出為（）。

A)(1,2)

B)(1,2,4)

0(2,4)

D)(2,4,3)

答案:C

解析：

80.［單選題］在以下代碼片段中：i=lwhilei

A)10次

B)9次

C)0次

D)以上都不對

答案：B

解析：

81.［單選題］個性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖據(jù)基礎上的一種高級商務智能平臺，以幫助(

)為其顧客購物提供完全個性化的決策支持和信息服務。

A)公司

B)單位

C)電子商務網(wǎng)站

D)跨國企業(yè)

答案:C

解析：

82.［單選題］關于HDFS的文件寫入，正確的是。。

A)支持多用戶對同一文件的寫操作

B)用戶可以在文件任意位置進行修改

C)默認將文件復制成三份存放

D)復制的文件塊默認存在同一機架上

答案:C

解析：

83.［單選題］阿里云MaxCompute中，用于在關系表達式中匹配任意一個字符的是：()。

D)'\'

答案:D

解析：

84.［單選題］數(shù)據(jù)湖探索(DataLakeInsight,簡稱DLI)是支持以下()形式的大數(shù)據(jù)計算分析

服務。

A）流式處理

B）批處理

C）流批一體

D）都不支持

答案:C

解析：

85.［單選題］以下關于文件的描述，錯誤的是：

A）二進制文件和文本文件的操作步驟都是“打開-操作-關閉”

B）openO打開文件之后，文件的內容并沒有在內存中

C）open（）只能打開一個已經(jīng)存在的文件

D）文件讀寫之后，要調用close。才能確保文件被保存在磁盤中了

答案:C

解析：

86.［單選題］下面對"ORDERBYpno,level”描述正確的是（）?！?/p>

A）先按level全部升序后，再按pno升序

B）先按level升序后，相同的level再按pno升序

0先按pno全部升序后，再按level升序

D）先按pno升序后，相同的pno再按level升序

答案:D

解析：

87.［單選題］np.abs（）函數(shù)可以實現(xiàn)什么功能？

A）計算絕對值

B）計算相反數(shù)

C）計算方差

D）計算均值

答案:A

解析：

88.［單選題］以下關于降維的表述，錯誤的是（）。

A）降維過程中可以保留原始數(shù)據(jù)的所有信息

B）多維縮放的目標是要保證降維后樣本之間的距離不變

C）線性降維方法目標是要保證降維到的超平面能更好地表示原始數(shù)據(jù)

D）核線性降維方法目標是通過核函數(shù)和核方法來避免采樣空間投影到高維空間再降維之后的低維結

構丟失

答案：A

解析：降維過程中盡量保留原始數(shù)據(jù)的信息,但不能保留原始數(shù)據(jù)的全部信息。

89.［單選題］當我們需要在一張圖表中加上文字標注，達到提醒讀者的目的時，需要用至1］（_）函數(shù)。

A）pit.axvspan（）

B）pit.axhspan（）

C）pit.annotate（）

D）plt.text（）

答案:D

解析：

90.［單選題］行業(yè)應用解決的是行業(yè)（）問題，并為企業(yè)應用提供基礎平臺。

A）單一

B）共性

C）基礎

D）根本

答案:B

解析：

91.［單選題］下列關于數(shù)據(jù)重組的說法錯誤的是（）。

A）數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集

B）數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒

C）數(shù)據(jù)重組實現(xiàn)的關鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成

D）數(shù)據(jù)重組有利于實現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新

答案:A

解析:數(shù)據(jù)重組將數(shù)據(jù)庫內各數(shù)據(jù)的相關信息重新組織。

92.［單選題］當圖像通過信道傳輸時，噪聲一般與（）無關。

A）、信道傳輸?shù)馁|量

B）、出現(xiàn)的圖像信號

C）、是否有中轉信道的過程

D）、圖像在信道前后的處理

答案:B

解析：

93.［單選題］以下哪一項不是Spark框架可以滿足的大數(shù)據(jù)分析場景？

A）批處理

B）即席查詢

C）流處理

D）大批量shuffle的實時需求

答案:D

解析：

94.［單選題］K-Means算法無法聚類（）形狀的樣本。

A）圓形分布

B）螺旋分布

C）帶狀分布

D)凸多邊形分布

答案:B

解析：

95.[單選題]可以從foohs2019bar提取hs2019的正確語句是

A)selectregexpreplace('foohs2019bar','hs[0-9]{3}','')

B)selectregexp_replace('foohs2019bar','hs[0-9]{4}','')

C)selectregexp_extract('foohs2019bar',"(hs[0-9]{4})',0)

D)selectregexp_extract('foohs2019bar','(hs[0-9]{4})',1)

答案:D

解析：

96.[單選題]下列關于數(shù)據(jù)可視化的描述，哪個是錯誤的？()

A)數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示

B)利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程

C)數(shù)據(jù)可視化技術的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示

D)將數(shù)據(jù)的各個屬性值以一維數(shù)據(jù)的形式表示

答案:D

解析：

97.[單選題]當學習器將訓練樣本自身的特點作為所有潛在樣本都具有的一般性質，這樣會導致泛化

性能下降，這種現(xiàn)象稱為()

A)欠擬合

B)過擬合

C)擬合

D)以上答案都不正確

答案:B

解析：

98.[單選題]大數(shù)據(jù)計算服務中，日志表ods_order是一張非分區(qū)表，結構如下：createtable

ods_order(order_idstring,order_datestring,order_amtdecimal)；fact_order是一張按日

期分區(qū)的表，結構如下：createtablefact_order(order_idstring,order_amtdecimal)

partitionedby(order_dtstring)；現(xiàn)在需要將數(shù)據(jù)從ods_order加載到fact_order表中，并且按

照order_date進行分區(qū)，執(zhí)行了以下SQL：insertoverwritetablefact_order

partition(order_dt)selectorder_id,order_amt,order_dateasorder_dtfromods_order；

ods_order表中的order_date有部分記錄取值為NULL,對執(zhí)行結果描述正確的是：()。

A)語句可以正常執(zhí)行，其中order_date為NULL的記錄會被放入order_dt='BAD'的分區(qū)

B)語句可以正常執(zhí)行，在提交時會報語句錯誤

C)語句可以正常執(zhí)行，其中的order_date為NULL值的記錄會被丟棄

D)語句無法正常執(zhí)行，系統(tǒng)會拋異常

答案：B

解析：

99.［單選題］大數(shù)據(jù)的特點不包括下面哪一項o

A）巨大的數(shù)據(jù)量

B）多結構化數(shù)據(jù)

C）增長速度快

D）價值密度高

答案:D

解析：大數(shù)據(jù)的顯著特征不包括數(shù)據(jù)價值密度高；大數(shù)據(jù)的顯著特征數(shù)據(jù)規(guī)模大、數(shù)據(jù)類型多樣、數(shù)

據(jù)處理速度快

100.［單選題］MaxCompute的命令行工具odpscmd可以使用（）參數(shù)調用某個文件中的命令集。

A）e

B）k

D）c

答案:C

解析：

101.［單選題］數(shù)據(jù)安全不只是技術問題，還涉及（）。

A）人員問題

B）管理問題

C）行政問題

D）領導問題

答案:B

解析：

102.［單選題］（）是一個類似Facebook的scribe的分布式，高可靠，高可用，高校的數(shù)據(jù)收集器

A）Oozie

B）Flume

C）Sqoop

D）Hue

答案：B

解析：

103.［單選題］長短時記憶網(wǎng)絡屬于一種（）

A）全連接神經(jīng)網(wǎng)絡

B）門控RNN

C）BP神經(jīng)網(wǎng)絡

D）現(xiàn)向RNN

答案：B

解析：

104.［單選題］Spark是用以下()編程語言實現(xiàn)的。

A)C

B)C++

C)JAVA

D)Scala

答案:D

解析：

105.［單選題］FusioninsightHD使用HBase客戶端批量寫入10條數(shù)據(jù)，某個regionserver節(jié)點上包含

該表的2個region,分別A和B,10條數(shù)據(jù)中有兩條屬于A,4條屬于B,請問寫入這10條數(shù)據(jù)需要向該

regionserver發(fā)送幾次RPC請求？

A)A1

B)B2

C)C6

D)D10

答案:A

解析：

106.［單選題］HBase虛擬分布式模式需要()個節(jié)點？

A)1

B)2

D)最少3個

答案:A

解析：

107.［單選題］參數(shù)估計又可分為()和區(qū)間估計。

A)線型估計

B)點估計

C)回歸估計

D)二維分析

答案:B

解析：參數(shù)估計是根據(jù)從總體中抽取的隨機樣本來估計總體分布中未知參數(shù)的過程。從估計形式看

，區(qū)分為點估計與區(qū)間估計。

108.［單選題］下面關于數(shù)據(jù)科學與統(tǒng)計學的關系描述不正確的有(_)。

A)數(shù)據(jù)科學是統(tǒng)計學的主要基礎理論之一

B)數(shù)據(jù)科學的工具往往來自于統(tǒng)計學

C)統(tǒng)計學家在數(shù)據(jù)科學的發(fā)展中做出過突出貢獻

D)第一篇以“數(shù)據(jù)科學”為標題的論文是由統(tǒng)計學家完成的

答案:A

解析：

109.［單選題］選擇哪一個解作為輸出，將由學習算法的歸納偏好決定，常見的做法是引入(_)。

A)線性回歸

B)線性判別分析

C)正則化項

D)偏置項

答案:C

解析：

110.［單選題］在馬爾科夫隨機場中，(_)個變量之間的聯(lián)合概率分布能基于團分解為多個因子的

乘積。

A)2

B)3

D)多

答案:D

解析：

111.［單選題］下列哪一種命令格式是不正確的()

A)get

B)scan

C)alter

D)put

答案：B

解析：

112.［單選題］在HBase中，查看所有記錄的命令是()

A)selectfrom'表名稱'

B)select'表名稱'

C)scan'表名稱'

D)select*from'表名稱'

答案:C

解析：

113.［單選題］執(zhí)行以下代碼段importrandomprint(random,choice('sun'))時，輸出為()0

A)sun

B)s或u或n

C)除了s、u、n的任一字符

D)s

答案：B

解析：

114.［單選題］對于線性回歸模型，包括附加變量在內，以下可能正確的是()1)R-Squared和

AdjustedR呵uared都是遞增的2)R-Squared是常量的，AdjustedR叫uared是遞增的R-Squared是遞減

的，AdjustedR-squared也是遞減的R-Squared是遞減的，AdjustedR-Squared是遞增的

A)1和2

B)1和3

02和4

D)以上都不是

答案：D

解析：

115.［單選題］Python內置函數(shù)()可以返回列表、元組、字典、集合、字符串以及range對象中元素

個數(shù)

A)dim

B)len

C)set

D)compute

答案:B

解析：

116.［單選題］執(zhí)行以下代碼段classMyGraph()：def—init_(self,nodes,edges)：self,nodes

=nodes［：］self,edges=edges［：］def_eq_(self,g)：ifsorted(self,nodes)!=

sorted(g.nodes)：returnFalseifsorted(self,edges)!=sorted(g.edges)：returnFalse

returnTruegl=MyGraph(［'A','B',"C'］,edges=［('A','B'),("B','C')］)g2=

MyGraph(［'A','C','B'］,edges=L('B','C'),('A','B')］)print(gl==g2)時，輸出為

(一)o

A)True

B)False

ONone

D)Error

答案:A

解析：

117.［單選題］()可以為遠程客戶端提供執(zhí)行Hive查詢服務。

A)MetastoreServer

B)HiveServer2

C)BeelineCLI

D)MySQL

答案:B

解析：

118.［單選題］OTS單個分片下所有行的大小總和不能超過（）。

A)無限制

B)1G

C)1M

D)1T

答案:B

解析：

119.［單選題］MaxCompute底層存儲使用的文件格式為：()。

A)CHUNK

B)GFS

C)CFILE

D)MFC

答案:D

解析：

120.［單選題］以下可以用于比較運算的函數(shù)是()。-

A)RAND0

B)P0W()

OCEILO

D)IN()

答案:D

解析：

121.［單選題］1104報表系統(tǒng)是向那個部門報送的行業(yè)監(jiān)管平臺

A)中國人民銀行

B)國家外匯管理局

C)省聯(lián)社

D)銀監(jiān)會

答案:D

解析：

122.［單選題］print(type('abc'))打印結果為

A)str

B)int

C)float

D)list

答案:A

解析：

123.［單選題］下面關于數(shù)據(jù)科學與機器學習的關系描述不正確的有(_)。

A)機器學習為數(shù)據(jù)科學中充分發(fā)揮計算機的自動數(shù)據(jù)處理能力提供了重要的手段

B)機器學習是數(shù)據(jù)科學的主要理論基礎之一

C）機器學習為數(shù)據(jù)科學中擴展人的數(shù)據(jù)處理能力提供了重要的手段

D）機器學習的基礎理論包含數(shù)據(jù)科學

答案:D

解析：

124.［單選題］Shufile階段中哪一步是可選的？（）

A）排序

B）分區(qū)

C）分組

D）規(guī)約

答案:D

解析：

125.［單選題］在MaxComputeSQL中，常量定義100BD表示的含義是：（）。

A）數(shù)值為100的DECIMAL

B）數(shù)值為100的Bigint

C）數(shù)值為100的String

D）數(shù)值為100的Double

答案:A

解析：

126.［單選題］下面不屬于NewSQL的有（_）。

A）memsql

B）trafodion

C）mariaDB

D）objectivity

答案:D

解析：

127.［單選題］下列關于推薦系統(tǒng)的描述錯誤的是（）o

A）推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具

B）和搜索引擎相比，推薦系統(tǒng)通過研究用戶的興趣偏好，進行個性化計算

C）推薦系統(tǒng)可以發(fā)現(xiàn)用戶的興趣點，幫助用戶從海量信息中發(fā)掘自己潛在的需求

D）推薦系統(tǒng)是一種只能通過專家進行人工推薦的系統(tǒng)

答案:D

解析：

128.［單選題］在MapReduce中，。階段，Mapper執(zhí)行maptask,將輸出結果寫入中間文件。

A）Shuffle

B）Map

C）Reduce

D）Sort

答案：B

解析：

129.［單選題］大數(shù)據(jù)4V特征不包括

A)規(guī)模性(Volume)

B)有效地(Valid)

C)多樣性(Varity)

D)高速性(Velocity)

答案：B

解析：

130.［單選題］主節(jié)點程序()o

A)NameNode

B)DataNode

C)SecondaryNameNode

D)Jobtracker

答案:A

解析：

131.［單選題］根據(jù)《大數(shù)據(jù)風控平臺項目操作手冊》，擔保圈鏈模塊，用戶可在頁面右側的關聯(lián)篩

選選項卡中，基于()篩選條件，控制圖譜展示的擔保關聯(lián)最高層級數(shù)。

A)快速定位

B)B.層級選擇

c)c.客戶篩選

D)D.擔保篩選

答案:B

解析：

132.［單選題］下列關于構造函數(shù)說法錯誤的是(—)。

A)python中如果子類有自己的構造函數(shù)，不會自動調用父類的構造函數(shù)

B)如果需要用到父類的構造函數(shù)，則需要在子類的構造函數(shù)中顯式的調用

C)如果子類沒有自己的構造函數(shù)，則會直接從父類繼承構造函數(shù)

D)無論子類有沒有構造函數(shù)，子類都會自動調用父類的構造函數(shù)

答案:D

解析：

133.［單選題］對于ADS的連接方式，以下說話正確的是：()。

A)以上都是

B)安裝了php-mysql-5.1.x模塊的php環(huán)境

C)使用版本為5.4系列的mysql-jdbc驅動

D)mysql5.6的客戶端

答案:A

解析：

134.［單選題］()的基本想法是適當考慮一部分屬性間的相互依賴信息，從而既不需要進行完全聯(lián)合概

率計算，又不至于徹底忽略了比較強的屬性依賴關系。

A)貝葉斯判定準則

B)貝葉斯決策論

C)樸素貝葉斯分類器

D)半樸素貝葉斯分類器

答案：D

解析：

135.［單選題］屬于深度學習框架的是()。

A)Tensorow

B)Caffe

C)PyTorch

D)以上答案都正確

答案:D

解析：Tensorow、Caffe、PyTorch都是流行的深度學習框架。

136.［單選題］()模塊是Python標準庫中最常用的模塊之一。通過它可以獲取命令行參數(shù)，從

而實現(xiàn)從程序外部向程序內部傳遞參數(shù)的功能，也可以獲取程序路徑和當前系統(tǒng)平臺等信息。

A)sys

B)platform

Omath

D)time

答案:A

解析:sys模塊用來獲取命令行參數(shù)，從而實現(xiàn)從程序外部向程序內部傳遞參數(shù)的功能，也可以獲

取程序路徑和當前系統(tǒng)平臺等信息。

300

137.［單選題］Hadoop()中將海量數(shù)據(jù)分割于多個節(jié)點，由每個節(jié)點并行計算，將得到的結果歸并

到輸出。

A)應用場景

B)分布式計算

C)分階段計算

D)高效處理

答案:B

解析：

138.［單選題］IBMCloud為我們提供的是以下哪種服務?

A)SaaS

B)PaaS

C）laaS

D）DaaS

答案：B

解析：

139.［單選題］關于數(shù)據(jù)組織的維度描述正確的是

A）二維數(shù)據(jù)由對等關系的有序或無序數(shù)據(jù)構成

B）高維數(shù)據(jù)由關聯(lián)關系數(shù)據(jù)構成

OCSV是一維數(shù)據(jù)

D）一維數(shù)據(jù)采用線性方式存儲

答案:D

解析：

140.［單選題］某企業(yè)準備上線一個項目，去搜集國內主要門戶、論壇中和本公司相關的消息，一旦

有符合預定義類型的消息出現(xiàn)，將第一時間反饋給公司的公共關系部，該場景屬于典型的（）。

A）流計算

B）在線計算

O0LTP

D）離線計算

答案:A

解析：

141.［單選題］根據(jù)《促進大數(shù)據(jù)發(fā)展行動綱要》（國發(fā)（2015）51號）制定的主要任務，下列

（）不是“公共服務大數(shù)據(jù)工程”中的四大工程之一。

A）醫(yī)療健康服務大數(shù)據(jù)

B）社會保障服務大數(shù)據(jù)

C）新興產(chǎn)業(yè)大數(shù)據(jù)

D）交通旅游服務大數(shù)據(jù)

答案:C

解析：

142.［單選題］以下不是測試方法的是（）

A）留出法

B）交叉驗證法

0自助法

D）全量法

答案:D

解析：

143.［單選題］要想讓機器具有智能，必須讓機器具有知識。因此，在人工智能中有一個研究領域

,主要研究計算機如何自動獲取知識與技能，實現(xiàn)自我完善，這門研究分支學科叫（）O

A）專家系統(tǒng)

B）機器學習

C）神經(jīng)網(wǎng)絡

D）模式識別

答案:B

解析：

144.［單選題］事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率，稱為（_）。

A）先驗概率

B）后驗概率

C）條件概率

D）統(tǒng)計概率

答案:C

解析：

145.［單選題］下列不是距離度量需要滿足的基本性質的是。

A）非負性

B）同一性

C）對稱性

D）傳遞性

答案:D

解析：

146.［單選題］關于Flink的角色，下列哪-項說法是錯誤的？

A）TaskManager負責從用戶提交的Flink程序配置中獲取JobManager的地址。

B）Cient是Flink程序提交的客戶端，對用戶提交的Flink程序進行預處理，并提交到Flink集群中處

理。

C）JobManager扮演著集群中的管理者Master的角色，它是整個集群的協(xié)調者。

D）TaskManager是實際負責執(zhí)行計算的Worker.

答案:A

解析：

147.［單選題］如果需要在select語句中根據(jù)某列的結果進行判斷處理，Hive支持在select語句中使

用（）的判斷子句

A）casewhenthen

B）casewherethen

C）casewhilethen

D）casehowthen

答案：A

解析：

148.［單選題］下面哪個不屬于循環(huán)神經(jīng)網(wǎng)絡的輸出模式

A）單輸出

B）多輸出

C）同步多輸出

D）異步多輸出

答案:C

解析：

149.［單選題］（一）是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。

A）精度

B）錯誤率

C）正確率

D）誤差

答案:B

解析：

150.［單選題］MaxCompute中，（）命令可以查看角色role_test的權限。

A）descrolerole_test

B）listrolerole_test

C）showgrantsforrolerole_test

D）showaclforrolerole_test

答案:A

解析：

151.［單選題］下列對大數(shù)據(jù)4V特征的說法中，錯誤的是

A）數(shù)據(jù)規(guī)模大

B）數(shù)據(jù)價值密度高

C）數(shù)據(jù)類型多樣

D）數(shù)據(jù)處理速度快

答案:B

解析：

152.［單選題］如下：strl="Runoobexample....wow!!!"str2="exam"；Print（strl.find（str2,

5））打印的結果是

A）6

B）7

C）8

D）-l

答案:B

解析：

153.［單選題］決策樹中的葉結點對應于（_）。

A）屬性

B）樣本

C）決策結果

D）標簽值

答案:C

解析：

154.［單選題］下列關于特征編碼的敘述中，不正確的是0。

A）特征編碼是將非數(shù)值型特征轉換成數(shù)值型特征的方法

B）數(shù)字編碼與特征的排序無關

C）0ne-Hot編碼中，原始特征有n種取值，轉換后就會產(chǎn)生n列新特征

D）啞變量編碼解決了One-Hot編碼中存在線性關系的問題

答案:B

解析:數(shù)字編碼與特征的排序有關，先出現(xiàn)的優(yōu)先排序。

155.［單選題］下列數(shù)據(jù)類型中適合存儲PDF文檔的是（）。-

A）CHAR

B）VARCHAR

C）VARBINARY

D）BLOB

答案：D

解析：

156.［單選題］下列對于查全率的描述，解釋正確的是（__）。

A）統(tǒng)計分類器預測出來的結果與真實結果不相同的個數(shù)，然后除以總的樣例集D的個數(shù)。

B）先統(tǒng)計分類正確的樣本數(shù)，然后除以總的樣例集D的個數(shù)。

C）預測為正的樣例中有多少是真正的正樣例

D）樣本中的正例有多少被預測正確

答案:D

解析：

157.［單選題］在做CNN時，輸入圖片大小為37X37,經(jīng)過第一層卷積層（有25個卷積核，每個卷積核的

大小為5X5,不做填充，步長為1）,與池化層（Maxpooling大小為3X3,不做填充，步長為1）,輸

出圖片再通過一次卷積層（有100個卷積核，每個卷積核的大小為4X4,不做填充，步長為1）,與池

化層maxpooling（Maxpooling大小為2X2,不做填充，步長為D,最終輸出特征圖大小為（）。

A)2X2

B)3X3

04X4

D)5X5

答案:C

解析：

158.［單選題］屬于無監(jiān)督學習的是（）

A）、隨機森林

B)、樸素貝葉斯

C)、主成分分析

D)、支持向量機

答案:C

解析：

159.［單選題］Oracle實例是

A)Oracle內存結構

B)OracleI/O結構

C)Oracle后臺進程

D)以上都是

答案:D

解析：

160.［單選題］y=lOwhiley：y-=Iprint(y)請問輸出的y是多少()

A)-l

B)1

C)0

D)while構成無限循環(huán)

答案:C

解析：

161.［單選題］以下對Python程序設計風格描述錯誤的選項是：

A)Python中允許把多條語句寫在同一行

B)Python語句中，增加縮進表示語句塊的開始，減少縮進表示語句塊的退出

OPython可以將一條長語句分成多行顯示，使用續(xù)航符“\”

D)Python中不允許把多條語句寫在同一行

答案:D

解析：

162.［單選題］下列用于關閉文件的是()。

A)read()

B)tell()

C)seek()

D)close()

答案:D

解析:read()函數(shù)為讀取操作；tell()函數(shù)用于判斷文件指針當前所處的位置操作；

Seek()函數(shù)為用于將文件指針移動至指定位置操作；close()函數(shù)為關閉文件操作。

163.［單選題］在Hadoop配置文件中，以下屬于core-site.xml文件主要內容的是()

A)用于定義系統(tǒng)級別的參數(shù)，如HDFSURL、Hadoop的臨時目錄等。

B)名稱節(jié)點和數(shù)據(jù)節(jié)點的存放位置、文件副本的個數(shù)文件讀取權限等。

C)配置ResourceManager,NodeManager的通信端口，web監(jiān)控端口等。

D)包括JobHistoryServer和應用程序參數(shù)兩部分，如reduce任務的默認個數(shù)、任務所能夠使用

內存的默認上下限等。

答案:A

解析：

164.［單選題］將閔可夫斯基距離和(_)結合即可處理混合屬性。

A)ValueDifferenceMectric

B)k-means

C)k近鄰

D)SVM

答案:A

解析：

165.［單選題］如果一個split文件中有3行內容，貝^MapReduce框架將為其分配一個任務進程

MapTask,MapTask調用()次map函數(shù)。

A)1

B)2

D)4

答案:C

解析：

166.［單選題］在概率圖模型中，(_)模型是一種判別式無向圖模型。

A)馬爾可夫隨機場

B)隱馬爾可夫模型

C)條件隨機場

D)逆誤差傳播

答案:C

解析：

167.［單選題］Hive的數(shù)據(jù)最終存儲在()中。

A)HDFS

B)HBase

C)RDBMS

D)MetaStore

答案:A

解析:Hive是基于Hadoop分布式文件系統(tǒng)的，它的數(shù)據(jù)存儲在Hadoop分布式文件系統(tǒng)HDFS中

168.［單選題］當一個MapReduce應用程序被執(zhí)行時，如下()動作是map階段之前發(fā)生的。

A)split

B）combine

C）partition

D）sort

答案:A

解析：

169.［單選題］以下關于隱馬爾科夫模型中，敘述錯誤的是（—兀

A）是一種有向圖模型

B）是一種無向圖模型

C）是一種結構簡單的動態(tài)貝葉斯網(wǎng)絡

D）常被應用于時序數(shù)據(jù)建模

答案:B

解析：

170.［單選題］某公司計劃上線新系統(tǒng)，數(shù)據(jù)庫工程師使用Hive數(shù)據(jù)倉庫進行數(shù)據(jù)分析，現(xiàn)在界面提

示："。:jdbc：hive2：〃192.168.0.186:2181/〉"信息,現(xiàn)已完成數(shù)據(jù)庫的創(chuàng)建工作，那么他將如何繼

續(xù)開始數(shù)據(jù)庫的使用？

A）usedatabase

B）startdatabase

C）restartdatabase

D）continuedatabase

答案：A

解析：

171.［單選題］Spark的（）組件用于支持實時計算需求。

A）SparkSQL

B）SparkStreaming

C）SparkGraphX

D）SparkMLLib

答案:B

解析:SparkStreaming組件用于實時處理。

172.［單選題］假定你使用SVM學習數(shù)據(jù)X,數(shù)據(jù)X里面有些點存在錯誤?，F(xiàn)在如果你使用一個二次核函

數(shù)，多項式階數(shù)為2,使用松弛變量C作為超參之一。當你使用較大的C（C趨于無窮），則（）。

A）仍然能正確分類數(shù)據(jù)

B）不能正確分類

C）不確定

D）以上均不正確

答案:A

解析：采用更大的C,誤分類點的懲罰就更大，因此決策邊界將盡可能完美地分類數(shù)據(jù)。

173.［單選題］關于大數(shù)據(jù)在社會綜合治理中的作用，以下理解不正確的是（）o

A)大數(shù)據(jù)的應用能夠杜絕抗生素的濫用

B)大數(shù)據(jù)的應用能夠維護社會治安

C)大數(shù)據(jù)的應用有利于走群眾路線

D)大數(shù)據(jù)的應用能夠加強交通管理

答案:A

解析：

174.［單選題］下圖展示了StructuredStreaming的計算模型。通過觀察可以得出最終T3的計算

結果是？

style="width：auto；"class="fr-ficfr-filfr-dibcursor-hover">

A)Dog1,owl1

B)Cat2,dog4,owl2

C)Cat2,dog3,owl1

D)Cat1,cat1,dog2,dog2,owl2

答案:B

解析：

175.［單選題］返回當前日期的函數(shù)是()

A)curtime()

B)adddate()

C)curnow()

D)curdate()

答案：D

解析：

176.［單選題］以下哪項關于決策樹的說法是錯誤的()。

A)冗余屬性不會對決策樹的準確率造成不利的影響

B)子樹可能在決策樹中重復多次

C)決策樹算法對于噪聲的干擾非常敏感

D)尋找最佳決策樹是NP完全問題

答案:C

解析:決策樹算法對于噪聲的干擾具有相當好的魯棒性。

177.［單選題］HFile數(shù)據(jù)格式中的Metaindex字段用于()。

A)Meta塊的長度

B)Meta塊的結束點

C)Meta塊數(shù)據(jù)內容

D)Meta塊的起始點

答案:D

解析：index索引地址的意思就是起始點。

178.［單選題］(_)是指捕獲人們的生活、業(yè)務或社會活動，并將其轉換為數(shù)據(jù)的過程。

A)數(shù)據(jù)化

B)數(shù)據(jù)可視化

C)數(shù)據(jù)存儲

D)數(shù)據(jù)加工

答案:A

解析：

179.［單選題］下面與HDFS類似的框架是_____?

A)NTFS

B)FAT32

OGFS

D)EXT3

答案:C

解析：與hdfs類似的框架是GFS,GFS是一個可擴展的分布式文件系統(tǒng)，用于大型的、分布式的、對大

量數(shù)據(jù)進行訪問的應用。

180.［單選題］下列不是NoSQL數(shù)據(jù)庫的是()。

A)MongoDB

B)BigTable

OHBase

D)Access

答案:D

解析:NoSQL是指那些非關系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲系統(tǒng)。典型的

NoSQL產(chǎn)品有DangaInteractive的Memcached、lOgen的MongoDB、Facebook的Cassandra、

Google的BigTable及其開源系統(tǒng)HBase、Amazon的Dynamo、Apache的TokyoCabinet,

CouchDB和Redis等。

181.［單選題］以下關于過擬合與欠擬合說法正確的是(—)

A)欠擬合無法徹底避免

B)過擬合可采取的方法有：在決策樹學習中擴展分支等

C)過擬合模型表現(xiàn)為在訓練集上具有高方差和低偏差

D)泛化誤差是模型響應訓練數(shù)據(jù)而變化的程度

答案:C

解析：

182.［單選題］執(zhí)行數(shù)據(jù)塊復制的任務時，是什么和什么在進行通信()

A)clientandnamenode

B)clientanddatanode

C)namenodeanddatanode

D)datanodeanddatanode

答案:D

解析:數(shù)據(jù)塊復制：數(shù)據(jù)和數(shù)據(jù)之間的復制(我瞎說的)

183.［單選題］對a=(l,2,3,4,5),下面操作正確的是()

A)a0=(l,2,3,4)

B)a⑴=4

C)a［0：2］

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)開發(fā)基礎練習題及答案15-2023-背題版

文檔簡介

溫馨提示

最新文檔

評論