大數(shù)據(jù)開發(fā)基礎(chǔ)練習(xí)題及答案9-2023練習(xí)版_第1頁
大數(shù)據(jù)開發(fā)基礎(chǔ)練習(xí)題及答案9-2023練習(xí)版_第2頁
大數(shù)據(jù)開發(fā)基礎(chǔ)練習(xí)題及答案9-2023練習(xí)版_第3頁
大數(shù)據(jù)開發(fā)基礎(chǔ)練習(xí)題及答案9-2023練習(xí)版_第4頁
大數(shù)據(jù)開發(fā)基礎(chǔ)練習(xí)題及答案9-2023練習(xí)版_第5頁
已閱讀5頁,還剩102頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

試題說明

本套試題共包括1套試卷

答案和解析在每套試卷后

大數(shù)據(jù)開發(fā)基礎(chǔ)練習(xí)題及答案9(500題)

大數(shù)據(jù)開發(fā)基礎(chǔ)練習(xí)題及答案9

L[單選題]根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,企業(yè)名稱與企業(yè)統(tǒng)一社會信用代碼校驗?zāi)K

,若客戶類型屬于O,系統(tǒng)會自動校驗客戶名稱與統(tǒng)一社會信用代碼是否匹配。

A)工商注冊企業(yè)(企業(yè)客戶類型為:法人企業(yè))

B)B.非工商注冊企業(yè)(企業(yè)客戶類型為:非法人企業(yè)、事業(yè)單位、社會團(tuán)體、黨政機(jī)關(guān)、其他)

c)c.以上都不對

2.[單選題]Spark中JOb的劃分是依據(jù)()。

A)依賴

B)ACtion算子

C)Transformation算子

3.[單選題]HDFS以(—)訪問模式來存儲超大文件,運(yùn)行于商用硬件集群上。

A)數(shù)據(jù)

B)字節(jié)

C)流式數(shù)據(jù)

D)數(shù)組

4.[單選題]已知x=42,ch='a',y=1,則表達(dá)式(x>=yandch

A)0

B)2

O出錯

D)l

5.[單選題]HBase中一個RegiOn進(jìn)行SPlit操作時,將一個HFiIe文件真正分開到兩個Region的過程發(fā)

生在以下()階段。

A)SPlit過程中

B)FIUSh過程中

C)Compaction過程中

D)HFiIe分開過程中

6.[單選題]以下可以回收代理權(quán)限的是()?!?/p>

A)REVOKEALLFROM賬戶

B)REVOKEPROXYFROM賬戶

C)REVOKEPROXYON賬戶1FROM賬戶2

D)以上語法都不正確

7.[單選題]()表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)

問題本身的難度。

A)偏差

B)方差

C)噪聲

D)泛化誤差

8.[單選題]關(guān)于降維算法中的主成分分析,()是錯誤的

A)有監(jiān)督算法

B)可以指定降維的維度

C)基于方差來計算

D)根據(jù)特征值大小來篩選特征

9.[單選題]數(shù)據(jù)倉庫的最終目的是()。

A)收集業(yè)務(wù)需求

B)建立數(shù)據(jù)倉庫邏輯模型

C)開發(fā)數(shù)據(jù)倉庫的應(yīng)用分析

D)為用戶和業(yè)務(wù)部門提供決策支持

10.[單選題]關(guān)于PythOn的lambda函數(shù),以下選項中描述錯誤的是

A)可以使用Iambda函數(shù)定義列表的排序原則

B)f=lambdax,y=x+y執(zhí)行后,f的類型為數(shù)字類型

C)IanIbda函數(shù)是匿名函數(shù)

D)Iambda用于定義簡單的、能夠在一行內(nèi)表示的函數(shù)

11.[單選題]下列哪個模塊用于數(shù)據(jù)可視化()

A)matplotlib

B)numpy

C)scipy

D)keras

12.[單選題]大數(shù)據(jù)公司的多樣性表明了()

A)數(shù)據(jù)作用的體現(xiàn)

B)數(shù)據(jù)價值的轉(zhuǎn)移

C)數(shù)據(jù)思維的創(chuàng)新

D)數(shù)據(jù)技術(shù)的發(fā)展

13.[單選題](一)是對象的性質(zhì)或特性。

A)變量

B)維度

C)樣本

D)屬性

14.[單選題]在PythOn中,變量名類似—xxx一的含義是(_)。

A)表示該變量是該類私有的,不能在外部通過類對象訪問,只能在類的內(nèi)部被使用

B)表示該變量是該類被保護(hù)的,這樣的變量是可以在外部通過類的對象來訪問的

C)表示特殊變量,特殊變量是可以直接訪問的,不是私有變量

D)表示私有變量

15.[單選題]下列選項中用于查詢數(shù)據(jù)的是()。-

A)INSERT

B)SELECT

C)UPDATE

D)DELETE

16.[單選題]IB、M認(rèn)為,大數(shù)據(jù)是擁有以下4個共同特點(又稱“4V”)中任意一個的數(shù)據(jù)源:

極大的數(shù)據(jù)量級、以極快的速度移動、極廣泛的數(shù)據(jù)源類型,以及()。

A)、極高的準(zhǔn)確性

B)、極高的多樣性

C)、極高的長久性

D)、極高的真實性

17.[單選題]下列算法中屬于圖像銳化處理的是()。

A)低通濾波

B)加權(quán)平均法

C)高通濾波

D)中值濾波

18.[單選題]以下對ValUe相關(guān)描述不正確的是()0

A)VaIUe是指應(yīng)用價值高

B)VaIUe是指我們淹沒在知識海洋,卻忍受著知識的饑渴

C)如何從海量數(shù)據(jù)中洞見出有價值的數(shù)據(jù)是數(shù)據(jù)科學(xué)的重要課題之一

D)大數(shù)據(jù)中,數(shù)據(jù)價值與數(shù)據(jù)量之間不一定存在線性關(guān)系

19.[單選題]一個對象的離群點得分是該對象周圍密度的逆。這是基于(—)的離群點定義。

A)概率

B)鄰近度

C)密度

D)聚類

20.[單選題]大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù),但不影響大數(shù)據(jù)的可信數(shù)據(jù),是

大數(shù)據(jù)的()的表現(xiàn)形式。

A)價值涌現(xiàn)

B)隱私涌現(xiàn)

C)質(zhì)量涌現(xiàn)

D)安全涌現(xiàn)

21.[單選題]在MapReduce中,下列描述錯誤的是()。

A)經(jīng)過mapO函數(shù)的計算可以得出一個中間數(shù)據(jù)集

B)mapO函數(shù)是確定的,用戶不可自定義

C)對mapO函數(shù)的返回值,進(jìn)行一定的處理后才進(jìn)入下個階段

D)map()函數(shù)的輸入輸出都是同一數(shù)據(jù)結(jié)構(gòu)

22.[單選題]在分類問題中,經(jīng)常會遇到正負(fù)樣本數(shù)據(jù)量不等的情況,比如正樣本為IOO萬條數(shù)據(jù)

,負(fù)樣本只有1萬條數(shù)據(jù),以下最合適的處理方法是(一)o

A)從IOO萬正樣本中隨機(jī)抽取1萬參與分類

B)將負(fù)樣本每個權(quán)重設(shè)置為100,正樣本權(quán)重為1,參與訓(xùn)練過程

C)直接進(jìn)行分類,可以最大限度利用數(shù)據(jù)

D)將負(fù)樣本重復(fù)100次,生成100萬樣本量,打亂順序參與分類

23.[單選題]Hive創(chuàng)建內(nèi)部表之后,表的“Table_type”屬性的值為()

A)Managed_tabIe

B)Manag_table

C)Managed_data

D)以上都不對

24.[單選題]某工廠共有100名員工,他們的月工資方差是s,現(xiàn)在給每個員工的月工資增加3000元,那

么他們的新工資的方差()。

A)為s+3000

B)小了

C)大了

D)不變

25.[單選題WapReduce框架對中間結(jié)果按照鍵值進(jìn)行排序是在(一)階段。

A)Splitting

B)Mapping

OShuffling

D)Reducing

26.[單選題]關(guān)于概率圖模型下列敘述,正確的是:

A)貝葉斯網(wǎng)絡(luò)是有向圖模型,馬爾可夫網(wǎng)絡(luò)是無向圖模型

B)貝葉斯網(wǎng)絡(luò)是無向圖模型,馬爾可夫網(wǎng)絡(luò)是有向圖模型

C)貝葉斯網(wǎng)絡(luò)是有向圖模型,馬爾可夫網(wǎng)絡(luò)是有向圖模型

D)貝葉斯網(wǎng)絡(luò)是無向圖模型,馬爾可夫網(wǎng)絡(luò)是無向圖模型

27.[單選題]Hive在處理數(shù)據(jù)時,默認(rèn)的行分隔符是()

A)?t

B)?n

C)?b

D)?a

28.[單選題]一元線性回歸方程y=0?7+0.82x,判定系數(shù)等于0.64,則IX與y的相關(guān)系數(shù)為()

A)0.82

B)0.64

O0.8

D)1.7

29.[單選題]以下哪個不屬于SCikitTearn中用于標(biāo)準(zhǔn)化的函數(shù)()

A)StandardScaler

B)MinMaxScaler

OMeanScaler

D)以上方法都是

30.[單選題]對融合數(shù)倉解決方案描述正確的是?

A)數(shù)倉與大數(shù)據(jù)的并行架構(gòu)

B)低成本高擴(kuò)震性的傳統(tǒng)數(shù)倉架構(gòu)

C)以數(shù)倉為核心,大數(shù)據(jù)平臺為延伸的融合架構(gòu)

D)大數(shù)據(jù)平臺為核心的架構(gòu)

3L[單選題]HiveSQL中DDL指定是哪一種語言?

A)數(shù)據(jù)刪除語言

B)數(shù)據(jù)管理語言

C)數(shù)據(jù)查詢語言

D)數(shù)據(jù)定義語言

32.[單選題]下列關(guān)于DataFrame說法正確的是()

A)DataFrame結(jié)構(gòu)是由索引和數(shù)據(jù)組成

B)DataFrame的行索引位于最右側(cè)

C)創(chuàng)建一個DataFrame對象時需要指定索引

D)DataFrame每列的數(shù)據(jù)類型必須是相同的

33.[單選題]銀行進(jìn)行戶購買力分析,首先獲取戶歷史賬年,確定其中各項南品的計算權(quán)重,得出每

位客戶的購買力評分并存儲記錄,最后將結(jié)果以圖表顯示。請問該過程對應(yīng)于以下哪個項目數(shù)據(jù)流

程設(shè)計。

A)數(shù)據(jù)源->數(shù)據(jù)處理->數(shù)據(jù)落地->數(shù)據(jù)可視化

B)數(shù)據(jù)可視化->數(shù)據(jù)源-〉數(shù)據(jù)處理->數(shù)據(jù)落地

C)數(shù)據(jù)可視化->數(shù)據(jù)源-)數(shù)據(jù)落地->數(shù)據(jù)處理

D)數(shù)據(jù)源->數(shù)據(jù)落地->數(shù)據(jù)處理->數(shù)據(jù)可視化

34.[單選題]用于將事務(wù)處理寫到數(shù)據(jù)庫的命令是()

A)insert

B)rollback

C)commit

D)savepoint

35.[單選題]HIVE是由哪家公司發(fā)明并貢獻(xiàn)到開源社區(qū)的

A)Google

B)Facebook

C)twitter

D)Amazon

36.[單選題]以下屬于HiVe的架構(gòu)組件的是?

A)HLog

B)Driver

C)Master

D)NameNode

37.[單選題]當(dāng)數(shù)據(jù)經(jīng)過設(shè)計好的流程處理后,接下來需要進(jìn)行可視化展示。在DEEP中需要將處理后

的數(shù)據(jù)落地到(),就能在DEEP可視化模塊中進(jìn)行可視化展示。

A)云數(shù)據(jù)庫的表中

B)關(guān)系數(shù)據(jù)庫

C)數(shù)據(jù)源

D)EXCeI的工作表中

38.[單選題]執(zhí)行以下代碼段a=set('apple')b=set('orange')print(a-b)時,輸出為(__)。

A)(lΓ,fet,,ar,,pτ}

B)tr,a,g,e,n,o)

C)to,g,r,n)

D){'Γ,'p')

39.[單選題]數(shù)據(jù)中臺方面,以()為導(dǎo)向,基于統(tǒng)一數(shù)據(jù)模型,有針對性地按需開展數(shù)據(jù)接入與整

A)數(shù)據(jù)

B)信息

C)需求

D)技術(shù)

40.[單選題]哪個模塊是負(fù)責(zé)FUSionInSightManbager用戶數(shù)據(jù)存儲的?

A)CAS

B)A0S

C)Kerberos

D)LDAP

41.[單選題]以下哪個不屬于數(shù)據(jù)戰(zhàn)略的目標(biāo)

A)定義一個“數(shù)據(jù)驅(qū)動型組織”

B)增強(qiáng)組織機(jī)構(gòu)的敏捷性

C)提高組織機(jī)構(gòu)的核心競爭力

D)培育人才驅(qū)動型文化

42.[單選題]LSM的讀操作和寫操作是獨(dú)立的?

A)是。

B)否。

C)LSM并不區(qū)分讀和寫

D)LSM中讀寫是同一種操作

43.[單選題]執(zhí)行以下代碼段Print(3and2>1)時,輸出為(—)。

A)3

B)2

Ol

D)True

44.[單選題]考察一個由三個卷積層組成的αN:kernel=3川,如de=2,Padding=SAMEC最低層輸出

100個特征映射(featuremap),中間層200個特征映射,最高層400個特征映射輸入是200x300的RGB圖

片,則總參數(shù)的數(shù)量是()

A)903400

B)2800

C)180200

D)720400

45.[單選題]在MapReduce中,下列描述錯誤的是()。

A)Worker故障和Master故障的處理方法不相同

B)Map和Reduce的處理結(jié)果都存儲在本地文件系統(tǒng)

C)一個Worker發(fā)生故障時,該節(jié)點上執(zhí)行完的Map任務(wù)需要再次執(zhí)行

D)MapReduce具有很強(qiáng)的容錯機(jī)制

46.[單選題]Flink哪種機(jī)制可以保證task運(yùn)行失敗時,其狀態(tài)能夠恢復(fù)?

A)窗口

B)事件時間

C)檢查點

D)有狀態(tài)處理

47.[單選題]個人貸款風(fēng)險評價應(yīng)以分析借款人()為基礎(chǔ),采取定量和定性分析方法,利用大數(shù)據(jù)

技術(shù),全面、動態(tài)地進(jìn)行貸款審查和風(fēng)險評估。

A)學(xué)歷

B)現(xiàn)金收入

C)固定資產(chǎn)

D)抵(質(zhì))押物

48.[單選題]現(xiàn)有的很多數(shù)據(jù)挖掘算法只能處理定量的屬性,因此定量的屬性數(shù)據(jù)是應(yīng)用這些算法的

前提。請問下面哪種工作流節(jié)點可以將一些不具體、模糊的定性數(shù)據(jù)數(shù)值化?(

A)規(guī)則化

B)量化

C)標(biāo)準(zhǔn)化

D)關(guān)聯(lián)

49.[單選題]()是實現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。

A)數(shù)據(jù)管理

B)數(shù)據(jù)分析

C)數(shù)據(jù)治理

D)數(shù)據(jù)規(guī)劃

50.[單選題]HDFS的設(shè)計目標(biāo)不包括哪個?

A)硬件錯誤

B)大規(guī)模數(shù)據(jù)集

C)移動計算

D)移動數(shù)據(jù)

51.[單選題]當(dāng)Hive提供的內(nèi)置函數(shù)無法滿足業(yè)務(wù)處理需要時,此時就可以考慮使用用戶自定義函

數(shù)。()作用于單個數(shù)據(jù)行,產(chǎn)生一個數(shù)據(jù)行作為輸出,例如:數(shù)學(xué)函數(shù),字符串函數(shù)。

A)UAF

B)UDF

C)UDΛF

D)UDTF

52.[單選題]下列說法錯誤的是()。

A)在選擇SParkStreaming和Storm時,對實時性要求高(比如要求毫秒級響應(yīng))的企業(yè)更傾向于選

擇流計算框架StOrm

B)RDD采用惰性調(diào)用,遇到“轉(zhuǎn)換(TranSfOrmation)”類型的操作時,只會記錄RDD生成的軌跡,只

有遇到“動作(ACtiOn)”類型的操作時才會觸發(fā)真正的計算

C)SPark支持三種類型的部署方式:Standalone,SparkonMesos,SparkonYARN

D)RDD提供的轉(zhuǎn)換接口既適用filter等粗粒度的轉(zhuǎn)換,也適合某一數(shù)據(jù)項的細(xì)粒度轉(zhuǎn)換

53.[單選題]當(dāng)特征值大致相等時。會發(fā)生的情況是()。

A)PCA將表現(xiàn)出色

B)PCA將表現(xiàn)不佳

C)不知道

D)以上都沒有

54.[單選題]下列說法錯誤的是()

A)MapReduceΦmaperconbinerreducer缺一不可

B)在JobConf中InPUtFOrmat參數(shù)可以不設(shè)

C)在JObConf中MaPPerClaSS參數(shù)可以不設(shè)

D)在JObCOnf中OUtPUtKeyComParatOr參數(shù)可以不設(shè)

55.[單選題]關(guān)于Kerberos的TGT以下說法錯誤的是?

A)TGT全稱為票據(jù)授權(quán)票據(jù),主要由KDC服務(wù)器生成

B)TGT一次生成之后,可以無限期使用

OTGT在客戶端的存在方式可以是在內(nèi)存中存儲,也可以在本地以文件的形式

D)TGT中主要的信息有當(dāng)前該票據(jù)的有效時長和授予該TGT的服務(wù)端IP以及

56.[單選題]大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)的MaPRedUCe提供了分布式的編程框架,以下

()大數(shù)據(jù)計算服務(wù)可以作為MR的輸入和輸出。

A)表

B)視圖

C)資源

D)項目空間

57.[單選題]用戶輸入的數(shù)據(jù)直接拼接到SQL語句中會發(fā)生()問題。一

A)XSS攻擊

B)CSRF攻擊

C)SQL注入

D)以上答案全部正確

58.[單選題]對于MaPRedUCe的處理過程下列排序正確的是(—)。

A)Input,Splitting,Mapping,Shuffling,Reducing,Finalresult

B)Input,Splitting,Shuffling,Mapping,Reducing,Finalresult

C)Input,Mapping,Splitting,Shuffliing,Reducing,Finalresult

D)Input,Splitting,Reducing,Shuffling,Mapping,Finalresult

59.[單選題]醫(yī)療健康數(shù)據(jù)的基本情況不包括以下哪項?()

A)診療數(shù)據(jù)

B)個人健康管理數(shù)據(jù)

C)公共安全數(shù)據(jù)

D)健康檔案數(shù)據(jù)

60.[單選題]在線性回歸問題中,我們用R方來衡量擬合的好壞在線性回歸模型中增加特征值并再訓(xùn)

練同一模型下列說法正確的是()

A)如果R方上升,則該變量是顯著的

B)如果R方下降,則該變量不顯著

C)羊羊R方不能反映變量重要性,不能就此得出正確結(jié)論

D)以上答案都不正確

61.[單選題]LSTM調(diào)整參數(shù)時信息的傳播方向是()。

A)后向傳播

B)前向傳播

C)雙向傳播

D)跳躍傳播

62.[單選題]FusionInsightHD中Loader實例必須與哪個實例部署在一起?

A)DataNode

B)RegionServer

C)ResourceManager

D)NOdeManager

63.[單選題]雙邊濾波能夠較好的保留圖像的(_)。

A)邊緣信息

B)色彩信息

C)亮度信息

D)高頻信息

64.[單選題]下列哪個不是情感分析的途徑?

A)關(guān)鍵詞識別

B)數(shù)據(jù)增強(qiáng)

C)詞匯關(guān)聯(lián)

D)概念級技術(shù)

65.[單選題

]np.dot(L[l,2,3],[1,2,3],[1,2,3]],[[2,1,1],[2,1,1],[2,1,1∏)的輸出結(jié)

果是()。

A)[[l,2,6,6],[12,6,6],[12,6,6]]

B)[[2,2,3],[2,2,3],[2,2,3]]

C)[[l,2,3],[1,2,3],[1,2,3]]

D)[[2,1,1,],[2,1,1],[2,1,1]]

66.[單選題]下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:

A)粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級別

B)數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越高

C)數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高

D)粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量

67.[單選題]第三次技術(shù)大革命的標(biāo)志性技術(shù)是:

A)農(nóng)耕技術(shù)與農(nóng)業(yè)出現(xiàn)

B)蒸汽工業(yè)技術(shù)與工業(yè)出現(xiàn)

C)電子計算機(jī)網(wǎng)絡(luò)技術(shù)

D)量子技術(shù)與核能

68.[單選題]通常來說,()能夠用來預(yù)測連續(xù)因變量。

A)線性回歸

B)邏輯回歸

C)線性回歸和邏輯回歸

D)以上答案都不正確

69.[單選題IFusionInsightHD部署時,如果Solr索引默認(rèn)存放在HDFS上時,以下理解正確的有

?

A)不需要考慮各SOlrSerVer實例上創(chuàng)建了多少Shard

B)為保證數(shù)據(jù)可靠性,創(chuàng)建索引時必須創(chuàng)建多RePIiCa

C)通過HDFS讀取索引時占用磁盤10,因此不建議Solr實例與DataNode部署在同一節(jié)點上

D)當(dāng)SOIr服務(wù)參數(shù)INDEX_STORED_0N」IDFS值為HDFS時,創(chuàng)建COlleCtiOn的索引就默認(rèn)存儲在HDFS上

70.[單選題]對BaSe集群架構(gòu)組成部分描述錯誤的是()。

A)正常HBaSe表只有一個Regior1,隨著數(shù)據(jù)增多Region不斷分裂變成多個,Region的拆分非常慢。

B)CIient包含訪問HBaSe的接口,同時緩存維護(hù)已經(jīng)訪問過的Region的位置信息。

C)HMaSter主要負(fù)責(zé)表和Region的管理工作,Region的負(fù)戴均衡

D)HRegiOnSerVer是BaSe的數(shù)據(jù)服務(wù)進(jìn)程,負(fù)奏處理用戶的數(shù)據(jù)讀寫請求。

71.[單選題]DAGScheduler負(fù)責(zé)()級的調(diào)度,主要是將DAG切分成若干()0

A)Stage,Stages

B)Stage,Tasks

C)Task,Stages

D)Task,Tasks

72.[單選題]Python尋找標(biāo)識符命名空間的順序是(一)。

A)PythOn首先搜索全局命名空間,然后搜索本地命名空間,最后搜索內(nèi)置命名空間

B)PythOn首先搜索本地命名空間,然后是全局命名空間,最后是內(nèi)置命名空間

C)PythOn首先搜索內(nèi)置命名空間,然后搜索全局命名空間,最后是本地命名空間

D)Python首先搜索內(nèi)置命名空間,然后是本地命名空間,最后是全局命名空間

73.[單選題]診斷性分析主要采取的分析方法是()。

A)關(guān)聯(lián)分析法和國果分析法

B)關(guān)聯(lián)分析法和分類分析法

C)關(guān)聯(lián)分析法和運(yùn)籌學(xué)

D)因果分析法和分類分析法

74.[單選題]探索性分析與驗證性分析的不同點是()。

A)探索性分析需要事先假設(shè)

B)探索性分析比驗證性分析復(fù)雜

C)探索性分析在前

D)驗證性分析在前

75」單選題]()是利用樣本的實際資料計算統(tǒng)計量的取值,并引來以檢驗事先對總體某些數(shù)量特征

的假設(shè)是否可信作為決策取舍依據(jù)的一種統(tǒng)計分析方法

A)假設(shè)檢驗

B)邏輯分析

C)方差分析

D)回歸分析

76.[單選題]詞匯表的增長將會導(dǎo)致文檔向量不斷的增長,表現(xiàn)為文檔向量的()不斷增加。

A)個數(shù)

B)維度

C)集合

D)元素

77.[單選題]以下關(guān)于StreamEXeCUtiOn持續(xù)查詢過程的描述哪項是正確的?

A)獲取最新斂據(jù)OftSetSOftSetS與入OttSetLog一構(gòu)道LOgiCaIPlan—優(yōu)化LOgiCai.Plan一計算完

成commit—計算結(jié)果Sink

B)offsets寫入OffSetLog—獲取最新數(shù)據(jù)OffSetS-構(gòu)造LOgiCalPlan-優(yōu)化LogiCalPlan—計算結(jié)果

Sink一計算完成COmmit

C)獲取最新數(shù)據(jù)OffSetS-OffSetS寫入OffSetlog一構(gòu)造LOgiCalPIan—優(yōu)化LOgiCaIPlan—計算結(jié)果

Sink一計算完成Comit

D)獲取最新數(shù)據(jù)OfSetS—OffSetS寫入OfSetL.Og—優(yōu)化LOgiCalPian一構(gòu)造LOgiCaIPlan一計算結(jié)果

Sink一計算完成COmmit

78.[單選題]以下組合中與主鍵約束功能相同的是()。-

A)默認(rèn)約束與非空約束

B)默認(rèn)約束與唯一約束

C)唯一約束與非空約束

D)以上答案都不正確

79.[單選題]Python語句Print(type(()))的結(jié)果是。()

A)class'diet'

B)class'tuple'

C)class'set'

D)class'list'

80.[單選題]以下關(guān)于模塊說法錯誤的是

A)一個XX.Py就是一個模塊

B)任何一個普通的XX.Py文件可以作為模塊導(dǎo)入

C)模塊文件的擴(kuò)展名不一定是?py

D)運(yùn)行時會從制定的目錄搜索導(dǎo)入的模塊,如果沒有,會報錯異常

81.[單選題]基于BOoSting的集成學(xué)習(xí)代表算法不包含()

A)Adaboost

B)GBDT

OXGBOOST

D)隨機(jī)森林

82.[單選題]考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩

個又餓一般不會共享許多近鄰,所以應(yīng)該選擇()的相似度計算方法

A)平方歐幾里德距離

B)余弦距離

C)直接相似皮

D)共享最近鄰

83.[單選題]()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價值越高

A)規(guī)模

B)活性

C)關(guān)聯(lián)度

D)顆粒度

84.[單選題]以下關(guān)于不帶參數(shù)的函數(shù)的格式書寫正確的是()

A)defcheck

B)defIcheck()

C)defcheck():

D)defcheck()

85.[單選題]在MaP階段中對輸入文件的每一行解析成鍵值對時,每一個鍵值對調(diào)用(__)次map函數(shù)

O

A)—

B)二

OS

D)四

86.[單選題]假設(shè)要計算洞庭湖的銀魚數(shù)量,現(xiàn)均勻投入其中IOOOO條帶標(biāo)記的銀魚,一段時間后捕

撈IOooo條魚,通過其中帶標(biāo)記的魚的數(shù)量來預(yù)估洞庭湖中銀魚的數(shù)量。這個例子體現(xiàn)的思想是(

A)全樣的思想

B)抽樣的思想

C)精確的思想

D)因果的思想

87.[單選題]若對于數(shù)據(jù)分布D和概率密度函數(shù)p(),錯誤率與精度可分別描述為(_)。

A)若測試數(shù)據(jù)集的精度高或錯誤率小,則模型的泛化能力強(qiáng);反之,則泛化能力弱。

B)若測試數(shù)據(jù)集的精度低或錯誤率小,則模型的泛化能力強(qiáng);反之,則泛化能力弱。

C)若測試數(shù)據(jù)集的精度高或錯誤率高,則模型的泛化能力強(qiáng);反之,則泛化能力弱。

D)若測試數(shù)據(jù)集的精度小或錯誤率高,則模型的泛化能力強(qiáng);反之,則泛化能力弱。

88.[單選題]企業(yè)數(shù)據(jù)分析平臺在根據(jù)不同的業(yè)務(wù)場景需求,搭建不同的大數(shù)據(jù)分析平臺,如適應(yīng)離

線批處理的HadooP平臺;適應(yīng)實時處理的流計算平臺等,這種架構(gòu)屬于哪種類型的架構(gòu)?

A)分離架構(gòu)

B)單一架構(gòu)

C)融合架構(gòu)

D)多維架構(gòu)

89.[單選題]相對于HadoopMapReducel.0,Spark的特點不包括()。

A)速度快

B)并發(fā)多

C)通用性

D)易用性

90.[單選題]下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說法正確的是()。

A)Json內(nèi)的取值只能有統(tǒng)一格式

B)PDF文件在不同平臺上打開顯示不同

C)可以通過Python將CSV文件轉(zhuǎn)換成Excel格式

D)Excel存儲數(shù)據(jù)的量無限制

91.[單選題]MapReduce里面的query、SOry和limit等都是針對()的操作。

A)map()之前

B)reduce()之前

C)reduce()之后

D)finalize()之后

92.[單選題]大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)項目Prji中,用戶OWner創(chuàng)建表Tl,通過ACL方

式將讀權(quán)限給用戶Ul(此前用戶Ul無項目空間P門1的任何權(quán)限),現(xiàn)在使用ACL授權(quán)Ul可以通過

SeIeCt*fromprjl.Tl來訪問Tl中的數(shù)據(jù)。接下來OWner將表Tl刪除,重新創(chuàng)建一張新表,名字仍然

叫Tl,以下說法中正確的是:()。

A)如果新建后的Tl和原來的表Tl表結(jié)構(gòu)一致,則Ul仍可以訪問Tl

B)用戶Ul仍然可以訪問表Tl

C)用戶Ul無法訪問當(dāng)前表Tl

D)如果新建后的口和原來的表∏表結(jié)構(gòu)、數(shù)據(jù)內(nèi)容均一致,則Ul仍可以訪問Tl

93.[單選題]以下選項對GES概念描述正確的是。。

A)Edge:邊,用于表示關(guān)系度

B)EdgeLabeI:邊的標(biāo)簽,用于表示現(xiàn)實世界中的關(guān)系類型

OVertexLabe1:節(jié)點的標(biāo)簽,用于表示現(xiàn)實世界中的實體類型

D)Vertex:節(jié)點/頂點,用于表示現(xiàn)實世界中的實體對象

94.[單選題]下列關(guān)于PythOn的說法中,錯誤的是()

A)Python是從ABC發(fā)展起來的

B)Python是一門高級計算機(jī)語言

C)PythOn只能編寫面向?qū)ο蟮某绦?/p>

D)PythOn程序的效率比C程序的效率低

95.[單選題]下列關(guān)于支持向量回歸說法,錯誤的是()。

A)支持向量回歸是將支持向量的方法應(yīng)用到回歸問題中

B)支持向量回歸同樣可以應(yīng)用核函數(shù)求解線性不可分的問題

C)同分類算法不同的是,支持向量回歸要最小化一個凹函數(shù)

D)支持向量回歸的解是稀疏的

96.[單選題]聚類算法的性能度量可稱為(_)。

A)密度估計

B)異常檢測

C)有效性指標(biāo)

D)分布結(jié)構(gòu)

97.[單選題]以下關(guān)于HDPS適合做什么描述不正確的是?

A)低延遲讀取

B)大文件存儲與訪問

C)流式數(shù)據(jù)讀取

D)大數(shù)據(jù)量吞吐

98.[單選題]如果LASSo模型中的懲罰項變大,下列說法正確的是O

A)部分回歸系數(shù)會變?yōu)?

B)部分回歸系數(shù)會趨近于0,但不會取值為0

C)A和B的表述都正確

D)以上說法都不正確

99.[單選題]FusionlnsightManager對服務(wù)的配置功能說法不正確的是

A)服務(wù)級別的配置可對所有實例生效

B)實例級別的配置只針對本實例生效

C)實例級別的配置對其他實例也生效

D)配置保存后需要重啟服務(wù)才能生效

100.[單選題]()在劃分屬性時是在當(dāng)前結(jié)點的屬性集合中選擇一個最優(yōu)屬性

A)AdaBoost

B)RF

OBagging

D)傳統(tǒng)決策樹

IOL[單選題]選擇神經(jīng)網(wǎng)絡(luò)的深度時,對于下面參數(shù):①神經(jīng)網(wǎng)絡(luò)的類型(如MLP,CNN);②輸入數(shù)據(jù)

:③計算能力(硬件和軟件能力決定);④學(xué)習(xí)速率;⑤映射的輸出函數(shù),需要考慮的是()

A)①②③④

B)②③④⑤

C)都需要考慮

D)①③④⑤

102.[單選題]Hive最重視的性能是可測量性.延展性.()和對于輸入格式的寬松匹配性

A)較低恢復(fù)性

B)容錯性

C)快速查詢

D)可處理大量數(shù)據(jù)

103.[單選題]對于ADS的hash分區(qū),()說法是正確的。

A)ADS表的第一級分區(qū)必須為hash分區(qū),第二級沒有強(qiáng)制要求,目前可以為IiSt或者h(yuǎn)ash

B)hash分區(qū)時一種動態(tài)分區(qū)類型,需要指定具體的分區(qū)列,最多為2列

C)ADS表的一級hash分區(qū)數(shù)最大為IOOO

D)若一張表為batch更新類型,且僅有一級hash分區(qū),則每次導(dǎo)入數(shù)據(jù)時,會對已有數(shù)據(jù)進(jìn)行全量覆

104.[單選題]執(zhí)行以下代碼段defdescribe_pet(animal_type,pet_name):print("Ihavea"+

animaltype+".")print("My"+animal_type+"'snameis"+pet_name.title()+

".")describe_pet('harry1)describe_pet('Hamster')?,輸出為()。

A)Ihaveaharry.Myharry'snameisHarry.

B)Ihaveaharry.Myharry1snameisHamster.

C)Ihaveahamster.Myhamster'snameisHamster.

D)Error

105.[單選題]下列關(guān)于餅圖的說法中,錯誤的是()

A)餅圖的數(shù)據(jù)項中允許有負(fù)值

B)在設(shè)計餅圖時,往往需要維護(hù)不同半徑對應(yīng)的標(biāo)簽以使不同半徑數(shù)值直觀化

C)餅圖通常適用于統(tǒng)計不同指標(biāo)數(shù)據(jù)占比的情形

D)餅圖也被稱為扇形統(tǒng)計圖

106.[單選題]假如使用一個較復(fù)雜的回歸模型來擬合樣本數(shù)據(jù)、使用Ridge回歸,調(diào)試正則化參數(shù)

入,來降低模型復(fù)雜度。若入較大時,關(guān)于偏差(bias)和方差(VarianCe),下列說法正確的是()。

A)若人較大時,偏差減小,方差減小

B)若人較大時,偏差減小,方差增大

C)若人較大時,偏差增大,方差減小

D)若λ較大時,偏差增大,方差增大

107.[單選題]下列語句中,可以跳出循環(huán)結(jié)構(gòu)的是()。

A)continue

B)break

C)while

D)if

108.[單選題]大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)的圖計算引擎是分布式的,在加載數(shù)據(jù)時

,系統(tǒng)默認(rèn)()將數(shù)據(jù)分配到不同的Worker中。

A)根據(jù)邊的權(quán)值進(jìn)行hash并對WOrker數(shù)取模

B)完全隨即分配

C)根據(jù)頂點ID的hash值對WOrker數(shù)取模

D)按照點ID值排序,再平均分配給Worker

109.[單選題]從數(shù)據(jù)到智慧的轉(zhuǎn)換依次遞進(jìn)過程是()。

A)數(shù)據(jù)、知識、信息、理解、智慧

B)數(shù)據(jù)、信息、理解、知識、智慧

C)數(shù)據(jù)、信息、知識、理解、智慧

D)數(shù)據(jù)、理解、信息、知識、智慧

110.[單選題]以下哪個數(shù)據(jù)轉(zhuǎn)換器常用于空值替換,作用為“如果VI為null,則輸出v2,否則輸出

vl”O(jiān)()

A)Constant

B)Choice

ONvl

D)NumericCast

111.[單選題]HBase表設(shè)計為什么一般不超過兩個列簇?

A)過多的列簇不適合讀寫分離

B)過多的列IO開銷大

C)過多的列簇StoreFiIe過多,COmPaCtiOn壓力大

D)過多的列簇會導(dǎo)致memstoreflush時10壓力過大

112.[單選題]以下變量名合法的是?

A)_num

B)count$

C)l_message

D)int

113.[單選題]plt.Plot()函數(shù)的功能是()。

A)展現(xiàn)變量的趨勢變化

B)尋找變量之間的關(guān)系

C)設(shè)置X軸的數(shù)值顯示范圍

D)設(shè)置X軸的標(biāo)簽文本

114.[單選題]Spark生態(tài)系統(tǒng)組件MLlib的應(yīng)用場景是?

A)圖結(jié)構(gòu)數(shù)據(jù)的處理

B)基于歷史數(shù)據(jù)的交互式查詢

C)復(fù)雜的批量數(shù)據(jù)處理

D)基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘

115.[單選題]如果需要由數(shù)據(jù)生產(chǎn)者決定數(shù)據(jù)發(fā)送給目標(biāo)Blot的某一個確定的Task,應(yīng)該選擇以下

()消息發(fā)布策略。

A)局部字段分組

B)廣播分組

C)直接分組

D)全局分組

116.[單選題]使用WhiIe循環(huán)語句時,如果想要使程序無限循環(huán)運(yùn)行,則下列哪個選項可作為循環(huán)的

判斷語句()

A)3.1

B)3.1>2,3

OO

D)X=Y

117.[單選題]下列關(guān)于數(shù)據(jù)的存儲結(jié)構(gòu)的描述正確的是()。

A)數(shù)據(jù)所占的存儲空間量

B)存儲在外存中的數(shù)據(jù)

C)數(shù)據(jù)在計算機(jī)中的順序存儲方式

D)數(shù)據(jù)的邏輯結(jié)構(gòu)在計算機(jī)中的表示

118.[單選題]下列關(guān)于云數(shù)據(jù)庫的描述,哪個是錯誤的?()

A)云數(shù)據(jù)庫是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫

B)云數(shù)據(jù)庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法

C)云數(shù)據(jù)庫價格不菲,維護(hù)費(fèi)用極其昂貴

D)云數(shù)據(jù)庫具有高可擴(kuò)展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點

119.[單選題]下列哪個表達(dá)式在PythOn中是非法的O0

A)x=y=z=l

B)x=(y=z+1)

C)x,y=y,X

D)x+=y

120.[單選題]關(guān)于NameNOde和SeeondaryNameNode的說法錯誤的是()

Λ)NameNode上實現(xiàn)的NamenodePrOtoCOl用于二者命令通信

B)數(shù)據(jù)的通信使用的是ftp協(xié)議

C)數(shù)據(jù)通信使用的是http協(xié)議

D)協(xié)議的容器是jetty

121.[單選題]以下關(guān)于DWS數(shù)據(jù)庫透明加密的特點,錯誤的是:()。

A)支持行存表數(shù)據(jù)加密,不支持列存表加密

B)支持集群級別配置

C)使用KMS服務(wù)加密

D)加密密鑰層次結(jié)構(gòu)有三層

122.[單選題]Hadoop的作者是下面哪一位(__)。

A)MartinFowler

B)KentBeck

C)GraceHopper

D)Dougcutting

123.[單選題]假設(shè)一種基因同時導(dǎo)致兩件事情:一是使人喜歡抽煙,二是使這個人患肺癌。這句話

種基因與抽煙.肺癌之間是()關(guān)系,而吸煙和肺癌則是()關(guān)系。

A)因果;相關(guān)

B)相關(guān);因果

C)并列;相關(guān)

D)因果;并列

124.[單選題]在聚類分析任務(wù)中,簇內(nèi)相似度(一)且簇間相似度(—)時,聚類效果比較好。

A)低,低

B)低,高

C)高,低

D)ι?,ι?

125.[單選題】preprocessing.OneHOtEnCoder的作用是(一)。

A)將分類特征轉(zhuǎn)換為分類數(shù)值

B)獨(dú)熱編碼

C)分類轉(zhuǎn)換為分類數(shù)值

D)對缺失值進(jìn)行填補(bǔ)

126.[單選題]下面關(guān)于基礎(chǔ)理論相關(guān)描述正確的有(_)。

A)基礎(chǔ)理論等于理論基礎(chǔ)

B)基礎(chǔ)理論在數(shù)據(jù)科學(xué)研究邊界之外

C)理論基礎(chǔ)在數(shù)據(jù)科學(xué)研究邊界之內(nèi)

D)基礎(chǔ)理論包含理念、理論、方法、技術(shù)等

127.[單選題]在Zookeeper和Yarn的協(xié)同工作中,當(dāng)ActiveResourceManager產(chǎn)生故障時

,StandbyResourceManager會從以下哪些目錄中獲取Application相關(guān)信息?

A)metastore

B)Statestore

C)Storeage

D)Warehouse

128.[單選題]下列選項中,不能使用下標(biāo)運(yùn)算的是()

A)列表(list)

B)元組(tuple)

C)集合(set)

D)字符串(Str)

129.[單選題]下面哪幾項屬于RediS中Set類型的命令?

A)sunion

B)scard

C)zcount

D)Irange

130.[單選題]早期的云計算產(chǎn)品AWS是由哪家企業(yè)提出的:。

A)IBM

B)微軟

C)亞馬遜

D)谷歌

131.[單選題]以下程序的輸出結(jié)果是:ss=list(set("jzzszyj"))ss.sort()print(ss)

A)['z','j','s','y']

B)['j','s','y','z']

?J?f,tzr,IzI,rst,?zI,yr,fIj?IJτ

Dτms?)LΓ?j?I,Jt?f,IsI,tyt,Iz?,zf,ffzI^」1

132.[單選題]sciPy中模塊integrate的作用是什么?

A)程序輸入輸出

B)差值計算

C)計算積分

D)向量計算

133.[單選題]()管理YARN集群中的每個節(jié)點。

A)ResourceManger

B)NodeManger

C)ApplicationMaster

D)Container

134.[單選題]下列算法中不屬于基于深度學(xué)習(xí)的圖像分割算法的是()。

A)FCN

B)Deeplab

C)Mask-RCNN

D)KNN

135.[單選題]在專家系統(tǒng)的開發(fā)過程中使用的專家系統(tǒng)工具一般分為專家系統(tǒng)的()與通用專家系

統(tǒng)工具兩類。

A)模型工具

B)外殼

C)知識庫工具

D)專用工具

136.[單選題]Numpy中創(chuàng)建全為0的矩陣使用什么?

A)np.zeros()

B)np.onesO

C)np.empty()

D)np.arange()

137.[單選題]我國學(xué)者吳文俊院士在人工智能的O領(lǐng)域作出了貢獻(xiàn)。

A)機(jī)器證明

B)模式識別

C)人工神經(jīng)網(wǎng)絡(luò)

D)智能代理

138.[單選題]下列Python語句執(zhí)行后的結(jié)果是:i=2s=0whilei

A)8

B)12

018

D)24

139.[單選題]下列圖像邊緣檢測算子中抗噪性能最好的是Oo

A)梯度算子

B)PreWitt算子

C)RObertS算子

D)LaPIaeian算子

140.[單選題]DougCUtting所創(chuàng)立的項目的名稱都受到其家人的啟發(fā),以下項目不是由他創(chuàng)立的項

目是()

A)Hadoop

B)Nutch

C)Lucene

D)Solr

141.[單選題]美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與

洋流可能發(fā)生的地點。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。

A)在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)

B)在分析方法上更注重相關(guān)分析而不是因果分析

C)在分析效果上更追究效率而不是絕對精確

D)在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)

142.[單選題]數(shù)據(jù)可視化的方法論基礎(chǔ)是()。

A)統(tǒng)計圖表

B)視覺編碼

C)圖論

D)圖形符號學(xué)

143.[單選題]以下不屬于數(shù)據(jù)倉庫的特性是()

A)面向主題

B)集成的

C)跨平臺性

D)非易失

144.[單選題]以下關(guān)于數(shù)據(jù)產(chǎn)品特征的描述不正確的是

A)數(shù)據(jù)產(chǎn)品往往能達(dá)到極高的準(zhǔn)確度,并且保持穩(wěn)定

B)數(shù)據(jù)產(chǎn)品所使用的數(shù)據(jù)包含很多差數(shù)據(jù)

C)數(shù)據(jù)產(chǎn)品會隨著環(huán)境的改變發(fā)生變化

D)數(shù)據(jù)產(chǎn)品的決策會直接影響業(yè)務(wù)的表現(xiàn)

145.[單選題]多用于展示兩地點間數(shù)據(jù)流轉(zhuǎn)(如遷徙)的圖表是?()

A)地圖(面積)

B)地圖(氣泡)

C)地圖(遷徙)

D)地圖

146.[單選題]Spark的集群管理模式不包含()。

A)Standalone模式

B)MeSSage模式

C)YARN模式

D)MeSoS模式

147.[單選題]有如下程序:L=[lambdax:X**2,lambdax:X**3,lambdax:X**4]forf

inL:print(f(4),end='')程序的輸出結(jié)果是()o

A)l416

B)41664

C)832128

D)1664256

148.[單選題]有如下存儲過程,CREATEORREPLACEPROCEDUREprc_1(paranlININTEGER

DEFAULT3,param2INOUTINTEGER)ΛSBEGINParam2:=paraml+param2;RETURN;END:調(diào)用如上

存儲過程CaIlprc_l(2,1).結(jié)果是(?

A)l

B)2

04

D)3

149.[單選題]在SPark中一個RDD有()個分區(qū)

A)2

B)3

04

D)5

150.[單選題]CART決策樹通常采用()剪枝方法

A)阻.p(錯誤率降低)

B)CCP(代價復(fù)雜皮)

OPEP(悲觀,剪枝)

D)預(yù)剪枝

151.[單選題]尿布啤酒是大數(shù)據(jù)分析的O

A)A∕B測試

B)分類

C)關(guān)聯(lián)規(guī)則挖掘

D)數(shù)據(jù)聚類I

152.[單選題]()是從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論、方法。

A)信息

B)數(shù)據(jù)

C)知識

D)智慧

153.[單選題]下列關(guān)于HiVe自定義函數(shù)的描述中,正確的是哪一項?

A)HiVe中的min以及max屬于UDAF的數(shù)。

B)一般自行編寫的函數(shù)都屬于臨時函數(shù),每次使用都需要重新創(chuàng)建。

C)一般自行編寫的函數(shù)都屬于永久函數(shù),直接引用即可。

D)如果創(chuàng)建的函數(shù)名與內(nèi)置的函數(shù)名重復(fù),在使用過程中以內(nèi)置的函數(shù)名為主。

154.[單選題]機(jī)器學(xué)習(xí)中發(fā)生過擬合的主要原因不包括()

A)使用過于復(fù)雜的模型

B)數(shù)據(jù)噪聲較大

C)訓(xùn)練數(shù)據(jù)少

D)訓(xùn)練數(shù)據(jù)充足

155.[單選題]某項目小組接到一個大數(shù)據(jù)實時分析項目,且對實時性要求很高,以下哪種大數(shù)據(jù)計

算框架最合適?

A)Spark

B)Flink

C)HBase

D)MapReduce

156.[單選題]下列不屬于數(shù)據(jù)轉(zhuǎn)換器的一項是()

A)文本

B)算法

C)條件判斷

D)數(shù)據(jù)轉(zhuǎn)換

157.[單選題IFusionInsightHD系統(tǒng)中關(guān)于HDFS的DataNode說法正確的是?

A)不會檢查數(shù)據(jù)的有效性

B)周期性地將本節(jié)點的BlOCk發(fā)送給NameNOde

C)不同的DataNOde存儲的Block一定是不同的

D)一個DataNode上的Block可以是相同的

158.[單選題]有關(guān)機(jī)器學(xué)習(xí)的過程認(rèn)識正確的是?O

A)機(jī)器學(xué)習(xí)一般需要人的參與,只要把數(shù)據(jù)輸入合適的算法就可以得到有用的結(jié)果。

B)A零售企業(yè)的客戶行為數(shù)據(jù)分析得到的規(guī)律也可以直接用于B零售企業(yè)。

C)機(jī)器學(xué)習(xí)的問題一般都是用戶給定的,因此不需要與用戶交流和調(diào)研。

D)機(jī)器學(xué)習(xí)得到的結(jié)果需要通過檢驗樣本的測試,甚至需要在現(xiàn)實中實驗才能投入使用。

159.[單選題]()對應(yīng)于決策樹結(jié)果,其他節(jié)點對應(yīng)于()

A)葉節(jié)點,屬性測試

B)根結(jié)點,學(xué)習(xí)測試

C)內(nèi)部節(jié)點,學(xué)習(xí)測試

D)葉節(jié)點,分類測試

160.[單選題]下列數(shù)據(jù)類型中,python不支持的是。O

A)char

B)int

C)float

D)list

161.[單選題]對數(shù)幾率回歸(IOgiStiCSregression)和一般回歸分析有什么區(qū)別?

A)對數(shù)幾率回歸是設(shè)計用來預(yù)測事件可能性的

B)對數(shù)幾率回歸可以用來度量模型擬合程度

C)對數(shù)幾率回歸可以用來估計回歸系數(shù)

D)以上所有

162.[單選題]將閔可夫斯基距離和(一)結(jié)合即可處理混合屬性。

A)ValueDifferenceMectric

B)k-means

C)k近鄰

D)SVM

163.[單選題]社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實時和完整的數(shù)據(jù),同時社交網(wǎng)絡(luò)也記錄了用戶群體的

(),通過深入挖掘這些數(shù)據(jù)來了解用戶,然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是

微博營銷公司。

A)地址

B)行為

C)情緒

D)來源

164.[單選題]什么是大數(shù)據(jù)使用的最可靠方法?

A)大數(shù)據(jù)源

B)樣本數(shù)據(jù)源

C)規(guī)模大

D)大數(shù)據(jù)與樣本數(shù)據(jù)結(jié)合

165.[單選題]根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,集團(tuán)圖譜頁面右側(cè)展示【放大】、【縮小】

、【刷新】、【展開】4個按鈕,其中具有“將展示的集團(tuán)圖譜刷新,并將圖譜展開,展示該集團(tuán)的

所有成員”功能的是O按鈕。

A)放大

B)B.縮小

OC.刷新

D)D.展開

166.[單選題]()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價值越高。

A)規(guī)模

B)靈活性

C)關(guān)聯(lián)度

D)顆粒度

167.[單選題]Hadoop最初是由誰創(chuàng)建的?

A)Lucene

B)DougCutting

OApache

D)MapReduce

168.[單選題]業(yè)務(wù)中臺方面,以業(yè)務(wù)為導(dǎo)向,優(yōu)先建設(shè)(一)。

A)電網(wǎng)資源業(yè)務(wù)中臺和客戶服務(wù)業(yè)務(wù)中臺

B)電網(wǎng)資源業(yè)務(wù)中臺和賬務(wù)結(jié)算業(yè)務(wù)中臺

C)統(tǒng)一數(shù)據(jù)業(yè)務(wù)中臺和客戶服務(wù)業(yè)務(wù)中臺

D)統(tǒng)一數(shù)據(jù)業(yè)務(wù)中臺和賬務(wù)結(jié)算業(yè)務(wù)中臺

169.[單選題]在Python中,下列不是int整型數(shù)據(jù)的是()。

A)160

B)010

0-78

D)0x234

170.[單選題]支持向量機(jī)優(yōu)化問題的形式是(_)。

A)一個不含約束的二次規(guī)劃問題

B)一個含有等式約束的二次規(guī)劃問題

C)一個含有不等式約束的二次規(guī)劃問題

D)一個含有不等式約束的線性規(guī)劃問題

171.[單選題]O是HBaSe提供的工具類,通過簡單的設(shè)置幫我們將mapreduce程序提交到HBaSe任務(wù)

中。工具類中封裝了許多mapreduce寫入到HBaSe的操作,無需我們再去設(shè)置。我們可以通過

initTabIeMaPPerJobo和initTableRedUCerJOb()來方法來執(zhí)行MaPPer類和RedUCer類。

A)AdminMapReduceUti1

B)MapReduceUtil

C)HBaseMapReduceUti1

D)TableMapReduceUti1

172.[單選題]美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)

與洋流可能發(fā)生的地點。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。

A)在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)

B)在分析方法上更注重相關(guān)分析而不是因呆分析

C)在分析效果上是追究效率而不是絕對精確

D)在數(shù)據(jù)規(guī),模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)

173.[單選題]下面O是循環(huán)結(jié)構(gòu)的關(guān)鍵字

A)while

B)print

C)input

D)import

174.[單選題]在文本分析中,我們使用哪一種技術(shù)手段挖掘文本中隱含的語義信息O

A)TF-IDF

B)主題分析

C)情感分析

D)以上都不對

175.[單選題]以下說法中:①一個機(jī)器學(xué)習(xí)模型,如果有較高準(zhǔn)確率,總是說明這個分類器是好的

;②如果增加模型復(fù)雜度,那么模型的測試錯誤率總是會降低;③如果增加模型復(fù)雜度,那么模型的

訓(xùn)練錯誤率總是會降低,正確的是()

A)l

B)2

03

D)l,3

176.[單選題]MaxComputeSQL中建表時,如果指定了ifnotexists選項,則:()。

A)存在同名表,返回失敗

B)存在同名表,如果原表結(jié)構(gòu)與要創(chuàng)建的目標(biāo)表結(jié)構(gòu)不一致,貝腿回失敗

C)返回成功,已存在的同名表的元信息不會被改動

D)返回成功,已存在的同名表元信息會被更新

177.[單選題]當(dāng)數(shù)據(jù)出現(xiàn)較多缺失值時,下面哪些處理方法不不夠合理?

A)把NaN直接作為一個特征,把變量映射到高維空間

B)用均值、中值、分位數(shù)、眾數(shù)、隨機(jī)值填充

C)用插值法填充

D)把具有缺失值的樣本刪除掉

178.[單選題]Hadoop中PartitiOn()函數(shù)代表的是()o

A)分區(qū)函數(shù)

B)特征函數(shù)

C)算法函數(shù)

D)排序函數(shù)

179.[單選題]令N為數(shù)據(jù)集的大?。圩?設(shè)訓(xùn)練樣本(xi,yi),N即訓(xùn)練樣本個數(shù)],d是輸入空間的維數(shù)

(注:d即向量Xi的維數(shù))。硬間隔SVM問題的原始形式[即在不等式約束(yi(wTxi+b)21)下最小化

(1/2)WTw]在沒有轉(zhuǎn)化為拉格朗日對偶問題之前,是()。

A)一個含N個變量的二次規(guī)劃問題

B)一個含N+1個變量的二次規(guī)劃問題

C)一個含d個變量的二次規(guī)劃問題

D)一個含d+1個變量的二次規(guī)劃問題

180.[單選題]下面不屬于后臺自動化的有(_)。

A)hyperscience

B)datafox

C)aptricity

D)appzen

181.[單選題]要打印一個三維數(shù)組時,第一個數(shù)字表示第(_)維度的個數(shù)。

A)l

B)2

03

D)4

182.[單選題]以下代碼段當(dāng)你鍵入21時的輸出為()。age=int(input("Howoldareyou?

"))print(age>=18)

A)True

B)False

C)None

D)Error

183.[單選題]當(dāng)讀取HBaSe表時,只要求返回Cl的列值,使用下列哪個選項可以實現(xiàn)該功能?

A)ValueFilte

B)ColumnFilter

ORowFilter

D)QualifierFilter

184.[單選題]一般地,“人”與“馬”分別與“人馬”相似,但“人”與“馬”很不相似;要達(dá)到

這個目的,可以令“人”、“馬”與“人馬”之間的距離都比較小,但“人”與“馬”之間的距離

很大,此時該距離不滿足(一)O

A)非負(fù)性

B)同一性

C)對稱性

D)直遞性

185.[單選題]以下語句錯誤的是()

A)altertableempdeletecolumnaddcolumn;

B)altertableempmodifycolumnaddcolumnchar(10);

C)altertableempchangeaddcolumnaddcolumnint;

D)altertableempaddcolumnaddcolumnint;

186.[單選題]查看Kafka某ToPiC的PartitiOn詳細(xì)信息時,使用如下哪個命令

A)bin/kafka-topics,sh-create

B)bin∕kafka-topics.sh-list

C)bin/kafka-topics.sh-describe

D)bin/kafka-topics.sh-delete

187.[單選題]O是HadooP系統(tǒng)核心組件之一,主要解決海量數(shù)據(jù)的計算。

A)HDFS

B)MapReduce

C)Spark

D)HBase

188.[單選題]以下四個HadoOP預(yù)定義的MaPPer實現(xiàn)類的描述錯誤的是()

A)IdentityMaPPer實現(xiàn)MaPPer,將輸入直接映射到輸出

B)InVerSeMaPPer實現(xiàn)MaPPer,反轉(zhuǎn)鍵/值對

C)RegeXMaPPer實現(xiàn)MaPPer,為每個常規(guī)表達(dá)式的匹配項生成一個(match,1)對

D)TokenCOUntMaPPer實現(xiàn)MaPPer,當(dāng)輸入的值為分詞時,生成(taken,1)對

189.[單選題]MapReduce應(yīng)用于()的數(shù)據(jù)處理。

A)小規(guī)模

B)中小規(guī)模

C)大規(guī)模

D)超大規(guī)模

190.[單選題]關(guān)于DataNOde的描述錯誤的是()。

A)DtaNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請求

B)DataNode進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作

C)集群中的DataNode一般是一個節(jié)點一個

D)文件的副本系數(shù)由DataNode儲存

191.[單選題]第一個提出大數(shù)據(jù)概念的公司是()。

A)微軟公司

B)谷歌公司

C)臉譜公司

D)麥肯錫公司

192.[單選題]分布式應(yīng)用程序可以基于分布式應(yīng)用程序協(xié)調(diào)服務(wù)實現(xiàn)同步服務(wù),配置維護(hù)和命名服

務(wù)等的工具是()。

A)Flume

B)Zookeeper

C)Storm

D)SparkStreaming

193.[單選題]下列關(guān)于大數(shù)據(jù)的分析理念的說法中,錯的是O0

A)在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)

B)在分析方法上更注重相關(guān)分析而不是因果分析

C)在分析效果上更追究效率而不是絕對精確

D)在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)

194.[單選題]K-means++算法選擇初始seeds的基本思想就是初始的聚類中心之間的相互距離要盡

可能的遠(yuǎn)。那么算法流程為()

①從輸入的數(shù)據(jù)點集合中隨機(jī)選擇一個點作為第一個聚類中心;

②對于數(shù)據(jù)集中的每一個點X,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x);③選擇一個

新的數(shù)據(jù)點作為新的聚類中心,選擇的原則是D(X)較大的點,被選取作為聚類中心的概率較大;

④重復(fù)②和③直到k個聚類中心被選出來;

⑤利用這k個初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的K-means算法。

A)②⑤④③①

B)①⑤④②③

C)①②③④⑤

D)④③②①⑤

195.[單選題]下面關(guān)于視圖的描述正確的是()。-

A)視圖沒有表結(jié)構(gòu)文件

B)視圖中不保存數(shù)據(jù)

C)視圖僅能查詢數(shù)據(jù)

D)以上說法都不正確

196.[單選題]scipy.stats.Cdf函數(shù)的作用是什么?

A)計算隨機(jī)變量的期望和方差

B)隨機(jī)變量的生存函數(shù)

C)隨機(jī)變量的累積分布函數(shù)

D)隨機(jī)變量的概率密度函數(shù)

197.[單選題]HBase分布式模式最好需要。個節(jié)點?

A)l

B)2

C)3

D)最少

198.[單選題]數(shù)據(jù)科學(xué)是一門將“現(xiàn)實世界”映射到“數(shù)據(jù)世界”,在“數(shù)據(jù)層次”上研究“現(xiàn)實

世界”的問題,并根據(jù)“數(shù)據(jù)世界”的分析結(jié)果,對“現(xiàn)實世界”進(jìn)行預(yù)測、解釋或決策的

(一)o

A)新興科學(xué)

B)交叉性學(xué)科

C)獨(dú)立學(xué)科

D)一整套知識體系

199.[單選題]Zookeeper在分布式應(yīng)用中的主要作用不包括一下哪些選項?

A)選舉Master節(jié)點

B)保證各節(jié)點上數(shù)據(jù)的一致性

C)分配集群資源

D)存儲及群中服務(wù)器信息

200.[單選題]下列選項錯誤的是()。~

A)ALTERUSER'root'?'localhost'IDENTIFIED,BY'000'

B)SETPASSWORD?FOR'rootlocalhost'='000'

C)mysqladmin-uroot-pPaSSWorD、000

D)以上答案都不正確

201.[單選題]唯一值約束和主鍵約束的區(qū)別是

A)唯一值約束建立唯一索引、主鍵約束建立非唯一索引

B)主鍵列可以為空、唯一值約束的列不可以為空

C)主鍵約束可以使用已有的索引、唯一值約束總是創(chuàng)建索引

D)唯一值約束的列可以為空、主鍵列不可以為空

202.[單選題]下面不屬于臟數(shù)據(jù)的是(_)。

A)有缺失值

B)冗余數(shù)據(jù)

C)噪聲數(shù)據(jù)

D)無序數(shù)據(jù)

203.[單選題]ClusterManager是()

A)主節(jié)點

B)從節(jié)點

C)執(zhí)行器

D)上下文

204.[單選題]度量特征的分散程度,可以使用哪個量O

A)分位數(shù)

B)中位數(shù)

C)平均數(shù)

D)相似性

205.[單選題]根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,在【貸后管理】菜單下新增O菜單,審批

人員可在此菜單下的【當(dāng)前工作】節(jié)點對貸后預(yù)警處置申請人提交的貸后預(yù)警處置措施進(jìn)行審批

,以及在【已完成工作】節(jié)點查看歷史審批記錄。

A)大數(shù)據(jù)貸后預(yù)警處置

B)B.大數(shù)據(jù)貸后預(yù)警審批

C)C.大數(shù)據(jù)貸后預(yù)警信號管理

D)D.大數(shù)據(jù)預(yù)警客戶清單

206.[單選題]Hadoop中節(jié)點之間的進(jìn)程通信是通過什么協(xié)議來實現(xiàn)的O

A)HTTP

B)SMTP

OSSH

D)RPC

207.[單選題]HBase是分布式列式存儲系統(tǒng),記錄按什么集中存放。

A)列族

B)列

C)行

D)不確定

208.[單選題]智能健康手環(huán)的應(yīng)用開發(fā),體現(xiàn)了()的數(shù)據(jù)采集技術(shù)的應(yīng)用。

A)統(tǒng)計報表

B)網(wǎng)絡(luò)爬蟲

CAPl接口

D)傳感器

209.[單選題]根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,財務(wù)智能分析中的國資委行業(yè)標(biāo)準(zhǔn)值比對模

塊,僅支持企業(yè)O與國資委績效標(biāo)準(zhǔn)值的比對。

A)年報

B)B.半年報

C)C.季報

D)D.月報

210.[單選題]循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理什么數(shù)據(jù)。O

A)節(jié)點數(shù)據(jù)

B)序列數(shù)據(jù)

C)結(jié)構(gòu)化數(shù)據(jù)

D)圖像數(shù)據(jù)

211.[單選題]在HDFS的數(shù)據(jù)寫入過程中,客戶端寫完所有數(shù)據(jù)塊后,調(diào)用()的CloSe()方法結(jié)束這

次文件寫入操作。

A)DistributedFiIeSystem

B)FSDataInputStream

C)FSDataOutputStream

D)InputSystem

212.[單選題]以下哪項屬于DDL操作()

A)update

B)create

C)insert

D)delete

213.[單選題]Python使用()關(guān)鍵字定義一個匿名函數(shù)

?)function

B)func

C)def

D)lambda

214.[單選題]如果想獲取一個序列有多少元素可以使用

A)最大值

B)最小值

C)求和

D)Ien

215.[單選題]以下哪個操作不會導(dǎo)致SparkShuffle的發(fā)生?

A)reduceByKey()

B)filter()

C)distinct()

D)intersection()

216.[單選題]下面()負(fù)責(zé)HDFS數(shù)據(jù)存儲.

A)NameNode

B)Jobtracker

C)Datanode

D)SecondaryNameNode

217.[單選題]以下關(guān)于HiveSQl基本操作描述正確的是?

A)加載數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論