版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
試題說明
本套試題共包括1套試卷
答案和解析在每套試卷后
大數(shù)據(jù)開發(fā)基礎(chǔ)練習(xí)題及答案9(500題)
大數(shù)據(jù)開發(fā)基礎(chǔ)練習(xí)題及答案9
L[單選題]根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,企業(yè)名稱與企業(yè)統(tǒng)一社會信用代碼校驗?zāi)K
,若客戶類型屬于O,系統(tǒng)會自動校驗客戶名稱與統(tǒng)一社會信用代碼是否匹配。
A)工商注冊企業(yè)(企業(yè)客戶類型為:法人企業(yè))
B)B.非工商注冊企業(yè)(企業(yè)客戶類型為:非法人企業(yè)、事業(yè)單位、社會團(tuán)體、黨政機(jī)關(guān)、其他)
c)c.以上都不對
2.[單選題]Spark中JOb的劃分是依據(jù)()。
A)依賴
B)ACtion算子
C)Transformation算子
3.[單選題]HDFS以(—)訪問模式來存儲超大文件,運(yùn)行于商用硬件集群上。
A)數(shù)據(jù)
B)字節(jié)
C)流式數(shù)據(jù)
D)數(shù)組
4.[單選題]已知x=42,ch='a',y=1,則表達(dá)式(x>=yandch
A)0
B)2
O出錯
D)l
5.[單選題]HBase中一個RegiOn進(jìn)行SPlit操作時,將一個HFiIe文件真正分開到兩個Region的過程發(fā)
生在以下()階段。
A)SPlit過程中
B)FIUSh過程中
C)Compaction過程中
D)HFiIe分開過程中
6.[單選題]以下可以回收代理權(quán)限的是()?!?/p>
A)REVOKEALLFROM賬戶
B)REVOKEPROXYFROM賬戶
C)REVOKEPROXYON賬戶1FROM賬戶2
D)以上語法都不正確
7.[單選題]()表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)
問題本身的難度。
A)偏差
B)方差
C)噪聲
D)泛化誤差
8.[單選題]關(guān)于降維算法中的主成分分析,()是錯誤的
A)有監(jiān)督算法
B)可以指定降維的維度
C)基于方差來計算
D)根據(jù)特征值大小來篩選特征
9.[單選題]數(shù)據(jù)倉庫的最終目的是()。
A)收集業(yè)務(wù)需求
B)建立數(shù)據(jù)倉庫邏輯模型
C)開發(fā)數(shù)據(jù)倉庫的應(yīng)用分析
D)為用戶和業(yè)務(wù)部門提供決策支持
10.[單選題]關(guān)于PythOn的lambda函數(shù),以下選項中描述錯誤的是
A)可以使用Iambda函數(shù)定義列表的排序原則
B)f=lambdax,y=x+y執(zhí)行后,f的類型為數(shù)字類型
C)IanIbda函數(shù)是匿名函數(shù)
D)Iambda用于定義簡單的、能夠在一行內(nèi)表示的函數(shù)
11.[單選題]下列哪個模塊用于數(shù)據(jù)可視化()
A)matplotlib
B)numpy
C)scipy
D)keras
12.[單選題]大數(shù)據(jù)公司的多樣性表明了()
A)數(shù)據(jù)作用的體現(xiàn)
B)數(shù)據(jù)價值的轉(zhuǎn)移
C)數(shù)據(jù)思維的創(chuàng)新
D)數(shù)據(jù)技術(shù)的發(fā)展
13.[單選題](一)是對象的性質(zhì)或特性。
A)變量
B)維度
C)樣本
D)屬性
14.[單選題]在PythOn中,變量名類似—xxx一的含義是(_)。
A)表示該變量是該類私有的,不能在外部通過類對象訪問,只能在類的內(nèi)部被使用
B)表示該變量是該類被保護(hù)的,這樣的變量是可以在外部通過類的對象來訪問的
C)表示特殊變量,特殊變量是可以直接訪問的,不是私有變量
D)表示私有變量
15.[單選題]下列選項中用于查詢數(shù)據(jù)的是()。-
A)INSERT
B)SELECT
C)UPDATE
D)DELETE
16.[單選題]IB、M認(rèn)為,大數(shù)據(jù)是擁有以下4個共同特點(又稱“4V”)中任意一個的數(shù)據(jù)源:
極大的數(shù)據(jù)量級、以極快的速度移動、極廣泛的數(shù)據(jù)源類型,以及()。
A)、極高的準(zhǔn)確性
B)、極高的多樣性
C)、極高的長久性
D)、極高的真實性
17.[單選題]下列算法中屬于圖像銳化處理的是()。
A)低通濾波
B)加權(quán)平均法
C)高通濾波
D)中值濾波
18.[單選題]以下對ValUe相關(guān)描述不正確的是()0
A)VaIUe是指應(yīng)用價值高
B)VaIUe是指我們淹沒在知識海洋,卻忍受著知識的饑渴
C)如何從海量數(shù)據(jù)中洞見出有價值的數(shù)據(jù)是數(shù)據(jù)科學(xué)的重要課題之一
D)大數(shù)據(jù)中,數(shù)據(jù)價值與數(shù)據(jù)量之間不一定存在線性關(guān)系
19.[單選題]一個對象的離群點得分是該對象周圍密度的逆。這是基于(—)的離群點定義。
A)概率
B)鄰近度
C)密度
D)聚類
20.[單選題]大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù),但不影響大數(shù)據(jù)的可信數(shù)據(jù),是
大數(shù)據(jù)的()的表現(xiàn)形式。
A)價值涌現(xiàn)
B)隱私涌現(xiàn)
C)質(zhì)量涌現(xiàn)
D)安全涌現(xiàn)
21.[單選題]在MapReduce中,下列描述錯誤的是()。
A)經(jīng)過mapO函數(shù)的計算可以得出一個中間數(shù)據(jù)集
B)mapO函數(shù)是確定的,用戶不可自定義
C)對mapO函數(shù)的返回值,進(jìn)行一定的處理后才進(jìn)入下個階段
D)map()函數(shù)的輸入輸出都是同一數(shù)據(jù)結(jié)構(gòu)
22.[單選題]在分類問題中,經(jīng)常會遇到正負(fù)樣本數(shù)據(jù)量不等的情況,比如正樣本為IOO萬條數(shù)據(jù)
,負(fù)樣本只有1萬條數(shù)據(jù),以下最合適的處理方法是(一)o
A)從IOO萬正樣本中隨機(jī)抽取1萬參與分類
B)將負(fù)樣本每個權(quán)重設(shè)置為100,正樣本權(quán)重為1,參與訓(xùn)練過程
C)直接進(jìn)行分類,可以最大限度利用數(shù)據(jù)
D)將負(fù)樣本重復(fù)100次,生成100萬樣本量,打亂順序參與分類
23.[單選題]Hive創(chuàng)建內(nèi)部表之后,表的“Table_type”屬性的值為()
A)Managed_tabIe
B)Manag_table
C)Managed_data
D)以上都不對
24.[單選題]某工廠共有100名員工,他們的月工資方差是s,現(xiàn)在給每個員工的月工資增加3000元,那
么他們的新工資的方差()。
A)為s+3000
B)小了
C)大了
D)不變
25.[單選題WapReduce框架對中間結(jié)果按照鍵值進(jìn)行排序是在(一)階段。
A)Splitting
B)Mapping
OShuffling
D)Reducing
26.[單選題]關(guān)于概率圖模型下列敘述,正確的是:
A)貝葉斯網(wǎng)絡(luò)是有向圖模型,馬爾可夫網(wǎng)絡(luò)是無向圖模型
B)貝葉斯網(wǎng)絡(luò)是無向圖模型,馬爾可夫網(wǎng)絡(luò)是有向圖模型
C)貝葉斯網(wǎng)絡(luò)是有向圖模型,馬爾可夫網(wǎng)絡(luò)是有向圖模型
D)貝葉斯網(wǎng)絡(luò)是無向圖模型,馬爾可夫網(wǎng)絡(luò)是無向圖模型
27.[單選題]Hive在處理數(shù)據(jù)時,默認(rèn)的行分隔符是()
A)?t
B)?n
C)?b
D)?a
28.[單選題]一元線性回歸方程y=0?7+0.82x,判定系數(shù)等于0.64,則IX與y的相關(guān)系數(shù)為()
A)0.82
B)0.64
O0.8
D)1.7
29.[單選題]以下哪個不屬于SCikitTearn中用于標(biāo)準(zhǔn)化的函數(shù)()
A)StandardScaler
B)MinMaxScaler
OMeanScaler
D)以上方法都是
30.[單選題]對融合數(shù)倉解決方案描述正確的是?
A)數(shù)倉與大數(shù)據(jù)的并行架構(gòu)
B)低成本高擴(kuò)震性的傳統(tǒng)數(shù)倉架構(gòu)
C)以數(shù)倉為核心,大數(shù)據(jù)平臺為延伸的融合架構(gòu)
D)大數(shù)據(jù)平臺為核心的架構(gòu)
3L[單選題]HiveSQL中DDL指定是哪一種語言?
A)數(shù)據(jù)刪除語言
B)數(shù)據(jù)管理語言
C)數(shù)據(jù)查詢語言
D)數(shù)據(jù)定義語言
32.[單選題]下列關(guān)于DataFrame說法正確的是()
A)DataFrame結(jié)構(gòu)是由索引和數(shù)據(jù)組成
B)DataFrame的行索引位于最右側(cè)
C)創(chuàng)建一個DataFrame對象時需要指定索引
D)DataFrame每列的數(shù)據(jù)類型必須是相同的
33.[單選題]銀行進(jìn)行戶購買力分析,首先獲取戶歷史賬年,確定其中各項南品的計算權(quán)重,得出每
位客戶的購買力評分并存儲記錄,最后將結(jié)果以圖表顯示。請問該過程對應(yīng)于以下哪個項目數(shù)據(jù)流
程設(shè)計。
A)數(shù)據(jù)源->數(shù)據(jù)處理->數(shù)據(jù)落地->數(shù)據(jù)可視化
B)數(shù)據(jù)可視化->數(shù)據(jù)源-〉數(shù)據(jù)處理->數(shù)據(jù)落地
C)數(shù)據(jù)可視化->數(shù)據(jù)源-)數(shù)據(jù)落地->數(shù)據(jù)處理
D)數(shù)據(jù)源->數(shù)據(jù)落地->數(shù)據(jù)處理->數(shù)據(jù)可視化
34.[單選題]用于將事務(wù)處理寫到數(shù)據(jù)庫的命令是()
A)insert
B)rollback
C)commit
D)savepoint
35.[單選題]HIVE是由哪家公司發(fā)明并貢獻(xiàn)到開源社區(qū)的
A)Google
B)Facebook
C)twitter
D)Amazon
36.[單選題]以下屬于HiVe的架構(gòu)組件的是?
A)HLog
B)Driver
C)Master
D)NameNode
37.[單選題]當(dāng)數(shù)據(jù)經(jīng)過設(shè)計好的流程處理后,接下來需要進(jìn)行可視化展示。在DEEP中需要將處理后
的數(shù)據(jù)落地到(),就能在DEEP可視化模塊中進(jìn)行可視化展示。
A)云數(shù)據(jù)庫的表中
B)關(guān)系數(shù)據(jù)庫
C)數(shù)據(jù)源
D)EXCeI的工作表中
38.[單選題]執(zhí)行以下代碼段a=set('apple')b=set('orange')print(a-b)時,輸出為(__)。
A)(lΓ,fet,,ar,,pτ}
B)tr,a,g,e,n,o)
C)to,g,r,n)
D){'Γ,'p')
39.[單選題]數(shù)據(jù)中臺方面,以()為導(dǎo)向,基于統(tǒng)一數(shù)據(jù)模型,有針對性地按需開展數(shù)據(jù)接入與整
合
A)數(shù)據(jù)
B)信息
C)需求
D)技術(shù)
40.[單選題]哪個模塊是負(fù)責(zé)FUSionInSightManbager用戶數(shù)據(jù)存儲的?
A)CAS
B)A0S
C)Kerberos
D)LDAP
41.[單選題]以下哪個不屬于數(shù)據(jù)戰(zhàn)略的目標(biāo)
A)定義一個“數(shù)據(jù)驅(qū)動型組織”
B)增強(qiáng)組織機(jī)構(gòu)的敏捷性
C)提高組織機(jī)構(gòu)的核心競爭力
D)培育人才驅(qū)動型文化
42.[單選題]LSM的讀操作和寫操作是獨(dú)立的?
A)是。
B)否。
C)LSM并不區(qū)分讀和寫
D)LSM中讀寫是同一種操作
43.[單選題]執(zhí)行以下代碼段Print(3and2>1)時,輸出為(—)。
A)3
B)2
Ol
D)True
44.[單選題]考察一個由三個卷積層組成的αN:kernel=3川,如de=2,Padding=SAMEC最低層輸出
100個特征映射(featuremap),中間層200個特征映射,最高層400個特征映射輸入是200x300的RGB圖
片,則總參數(shù)的數(shù)量是()
A)903400
B)2800
C)180200
D)720400
45.[單選題]在MapReduce中,下列描述錯誤的是()。
A)Worker故障和Master故障的處理方法不相同
B)Map和Reduce的處理結(jié)果都存儲在本地文件系統(tǒng)
C)一個Worker發(fā)生故障時,該節(jié)點上執(zhí)行完的Map任務(wù)需要再次執(zhí)行
D)MapReduce具有很強(qiáng)的容錯機(jī)制
46.[單選題]Flink哪種機(jī)制可以保證task運(yùn)行失敗時,其狀態(tài)能夠恢復(fù)?
A)窗口
B)事件時間
C)檢查點
D)有狀態(tài)處理
47.[單選題]個人貸款風(fēng)險評價應(yīng)以分析借款人()為基礎(chǔ),采取定量和定性分析方法,利用大數(shù)據(jù)
技術(shù),全面、動態(tài)地進(jìn)行貸款審查和風(fēng)險評估。
A)學(xué)歷
B)現(xiàn)金收入
C)固定資產(chǎn)
D)抵(質(zhì))押物
48.[單選題]現(xiàn)有的很多數(shù)據(jù)挖掘算法只能處理定量的屬性,因此定量的屬性數(shù)據(jù)是應(yīng)用這些算法的
前提。請問下面哪種工作流節(jié)點可以將一些不具體、模糊的定性數(shù)據(jù)數(shù)值化?(
A)規(guī)則化
B)量化
C)標(biāo)準(zhǔn)化
D)關(guān)聯(lián)
49.[單選題]()是實現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。
A)數(shù)據(jù)管理
B)數(shù)據(jù)分析
C)數(shù)據(jù)治理
D)數(shù)據(jù)規(guī)劃
50.[單選題]HDFS的設(shè)計目標(biāo)不包括哪個?
A)硬件錯誤
B)大規(guī)模數(shù)據(jù)集
C)移動計算
D)移動數(shù)據(jù)
51.[單選題]當(dāng)Hive提供的內(nèi)置函數(shù)無法滿足業(yè)務(wù)處理需要時,此時就可以考慮使用用戶自定義函
數(shù)。()作用于單個數(shù)據(jù)行,產(chǎn)生一個數(shù)據(jù)行作為輸出,例如:數(shù)學(xué)函數(shù),字符串函數(shù)。
A)UAF
B)UDF
C)UDΛF
D)UDTF
52.[單選題]下列說法錯誤的是()。
A)在選擇SParkStreaming和Storm時,對實時性要求高(比如要求毫秒級響應(yīng))的企業(yè)更傾向于選
擇流計算框架StOrm
B)RDD采用惰性調(diào)用,遇到“轉(zhuǎn)換(TranSfOrmation)”類型的操作時,只會記錄RDD生成的軌跡,只
有遇到“動作(ACtiOn)”類型的操作時才會觸發(fā)真正的計算
C)SPark支持三種類型的部署方式:Standalone,SparkonMesos,SparkonYARN
D)RDD提供的轉(zhuǎn)換接口既適用filter等粗粒度的轉(zhuǎn)換,也適合某一數(shù)據(jù)項的細(xì)粒度轉(zhuǎn)換
53.[單選題]當(dāng)特征值大致相等時。會發(fā)生的情況是()。
A)PCA將表現(xiàn)出色
B)PCA將表現(xiàn)不佳
C)不知道
D)以上都沒有
54.[單選題]下列說法錯誤的是()
A)MapReduceΦmaperconbinerreducer缺一不可
B)在JobConf中InPUtFOrmat參數(shù)可以不設(shè)
C)在JObConf中MaPPerClaSS參數(shù)可以不設(shè)
D)在JObCOnf中OUtPUtKeyComParatOr參數(shù)可以不設(shè)
55.[單選題]關(guān)于Kerberos的TGT以下說法錯誤的是?
A)TGT全稱為票據(jù)授權(quán)票據(jù),主要由KDC服務(wù)器生成
B)TGT一次生成之后,可以無限期使用
OTGT在客戶端的存在方式可以是在內(nèi)存中存儲,也可以在本地以文件的形式
D)TGT中主要的信息有當(dāng)前該票據(jù)的有效時長和授予該TGT的服務(wù)端IP以及
56.[單選題]大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)的MaPRedUCe提供了分布式的編程框架,以下
()大數(shù)據(jù)計算服務(wù)可以作為MR的輸入和輸出。
A)表
B)視圖
C)資源
D)項目空間
57.[單選題]用戶輸入的數(shù)據(jù)直接拼接到SQL語句中會發(fā)生()問題。一
A)XSS攻擊
B)CSRF攻擊
C)SQL注入
D)以上答案全部正確
58.[單選題]對于MaPRedUCe的處理過程下列排序正確的是(—)。
A)Input,Splitting,Mapping,Shuffling,Reducing,Finalresult
B)Input,Splitting,Shuffling,Mapping,Reducing,Finalresult
C)Input,Mapping,Splitting,Shuffliing,Reducing,Finalresult
D)Input,Splitting,Reducing,Shuffling,Mapping,Finalresult
59.[單選題]醫(yī)療健康數(shù)據(jù)的基本情況不包括以下哪項?()
A)診療數(shù)據(jù)
B)個人健康管理數(shù)據(jù)
C)公共安全數(shù)據(jù)
D)健康檔案數(shù)據(jù)
60.[單選題]在線性回歸問題中,我們用R方來衡量擬合的好壞在線性回歸模型中增加特征值并再訓(xùn)
練同一模型下列說法正確的是()
A)如果R方上升,則該變量是顯著的
B)如果R方下降,則該變量不顯著
C)羊羊R方不能反映變量重要性,不能就此得出正確結(jié)論
D)以上答案都不正確
61.[單選題]LSTM調(diào)整參數(shù)時信息的傳播方向是()。
A)后向傳播
B)前向傳播
C)雙向傳播
D)跳躍傳播
62.[單選題]FusionInsightHD中Loader實例必須與哪個實例部署在一起?
A)DataNode
B)RegionServer
C)ResourceManager
D)NOdeManager
63.[單選題]雙邊濾波能夠較好的保留圖像的(_)。
A)邊緣信息
B)色彩信息
C)亮度信息
D)高頻信息
64.[單選題]下列哪個不是情感分析的途徑?
A)關(guān)鍵詞識別
B)數(shù)據(jù)增強(qiáng)
C)詞匯關(guān)聯(lián)
D)概念級技術(shù)
65.[單選題
]np.dot(L[l,2,3],[1,2,3],[1,2,3]],[[2,1,1],[2,1,1],[2,1,1∏)的輸出結(jié)
果是()。
A)[[l,2,6,6],[12,6,6],[12,6,6]]
B)[[2,2,3],[2,2,3],[2,2,3]]
C)[[l,2,3],[1,2,3],[1,2,3]]
D)[[2,1,1,],[2,1,1],[2,1,1]]
66.[單選題]下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:
A)粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級別
B)數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越高
C)數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高
D)粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量
67.[單選題]第三次技術(shù)大革命的標(biāo)志性技術(shù)是:
A)農(nóng)耕技術(shù)與農(nóng)業(yè)出現(xiàn)
B)蒸汽工業(yè)技術(shù)與工業(yè)出現(xiàn)
C)電子計算機(jī)網(wǎng)絡(luò)技術(shù)
D)量子技術(shù)與核能
68.[單選題]通常來說,()能夠用來預(yù)測連續(xù)因變量。
A)線性回歸
B)邏輯回歸
C)線性回歸和邏輯回歸
D)以上答案都不正確
69.[單選題IFusionInsightHD部署時,如果Solr索引默認(rèn)存放在HDFS上時,以下理解正確的有
?
A)不需要考慮各SOlrSerVer實例上創(chuàng)建了多少Shard
B)為保證數(shù)據(jù)可靠性,創(chuàng)建索引時必須創(chuàng)建多RePIiCa
C)通過HDFS讀取索引時占用磁盤10,因此不建議Solr實例與DataNode部署在同一節(jié)點上
D)當(dāng)SOIr服務(wù)參數(shù)INDEX_STORED_0N」IDFS值為HDFS時,創(chuàng)建COlleCtiOn的索引就默認(rèn)存儲在HDFS上
70.[單選題]對BaSe集群架構(gòu)組成部分描述錯誤的是()。
A)正常HBaSe表只有一個Regior1,隨著數(shù)據(jù)增多Region不斷分裂變成多個,Region的拆分非常慢。
B)CIient包含訪問HBaSe的接口,同時緩存維護(hù)已經(jīng)訪問過的Region的位置信息。
C)HMaSter主要負(fù)責(zé)表和Region的管理工作,Region的負(fù)戴均衡
D)HRegiOnSerVer是BaSe的數(shù)據(jù)服務(wù)進(jìn)程,負(fù)奏處理用戶的數(shù)據(jù)讀寫請求。
71.[單選題]DAGScheduler負(fù)責(zé)()級的調(diào)度,主要是將DAG切分成若干()0
A)Stage,Stages
B)Stage,Tasks
C)Task,Stages
D)Task,Tasks
72.[單選題]Python尋找標(biāo)識符命名空間的順序是(一)。
A)PythOn首先搜索全局命名空間,然后搜索本地命名空間,最后搜索內(nèi)置命名空間
B)PythOn首先搜索本地命名空間,然后是全局命名空間,最后是內(nèi)置命名空間
C)PythOn首先搜索內(nèi)置命名空間,然后搜索全局命名空間,最后是本地命名空間
D)Python首先搜索內(nèi)置命名空間,然后是本地命名空間,最后是全局命名空間
73.[單選題]診斷性分析主要采取的分析方法是()。
A)關(guān)聯(lián)分析法和國果分析法
B)關(guān)聯(lián)分析法和分類分析法
C)關(guān)聯(lián)分析法和運(yùn)籌學(xué)
D)因果分析法和分類分析法
74.[單選題]探索性分析與驗證性分析的不同點是()。
A)探索性分析需要事先假設(shè)
B)探索性分析比驗證性分析復(fù)雜
C)探索性分析在前
D)驗證性分析在前
75」單選題]()是利用樣本的實際資料計算統(tǒng)計量的取值,并引來以檢驗事先對總體某些數(shù)量特征
的假設(shè)是否可信作為決策取舍依據(jù)的一種統(tǒng)計分析方法
A)假設(shè)檢驗
B)邏輯分析
C)方差分析
D)回歸分析
76.[單選題]詞匯表的增長將會導(dǎo)致文檔向量不斷的增長,表現(xiàn)為文檔向量的()不斷增加。
A)個數(shù)
B)維度
C)集合
D)元素
77.[單選題]以下關(guān)于StreamEXeCUtiOn持續(xù)查詢過程的描述哪項是正確的?
A)獲取最新斂據(jù)OftSetSOftSetS與入OttSetLog一構(gòu)道LOgiCaIPlan—優(yōu)化LOgiCai.Plan一計算完
成commit—計算結(jié)果Sink
B)offsets寫入OffSetLog—獲取最新數(shù)據(jù)OffSetS-構(gòu)造LOgiCalPlan-優(yōu)化LogiCalPlan—計算結(jié)果
Sink一計算完成COmmit
C)獲取最新數(shù)據(jù)OffSetS-OffSetS寫入OffSetlog一構(gòu)造LOgiCalPIan—優(yōu)化LOgiCaIPlan—計算結(jié)果
Sink一計算完成Comit
D)獲取最新數(shù)據(jù)OfSetS—OffSetS寫入OfSetL.Og—優(yōu)化LOgiCalPian一構(gòu)造LOgiCaIPlan一計算結(jié)果
Sink一計算完成COmmit
78.[單選題]以下組合中與主鍵約束功能相同的是()。-
A)默認(rèn)約束與非空約束
B)默認(rèn)約束與唯一約束
C)唯一約束與非空約束
D)以上答案都不正確
79.[單選題]Python語句Print(type(()))的結(jié)果是。()
A)class'diet'
B)class'tuple'
C)class'set'
D)class'list'
80.[單選題]以下關(guān)于模塊說法錯誤的是
A)一個XX.Py就是一個模塊
B)任何一個普通的XX.Py文件可以作為模塊導(dǎo)入
C)模塊文件的擴(kuò)展名不一定是?py
D)運(yùn)行時會從制定的目錄搜索導(dǎo)入的模塊,如果沒有,會報錯異常
81.[單選題]基于BOoSting的集成學(xué)習(xí)代表算法不包含()
A)Adaboost
B)GBDT
OXGBOOST
D)隨機(jī)森林
82.[單選題]考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩
個又餓一般不會共享許多近鄰,所以應(yīng)該選擇()的相似度計算方法
A)平方歐幾里德距離
B)余弦距離
C)直接相似皮
D)共享最近鄰
83.[單選題]()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價值越高
A)規(guī)模
B)活性
C)關(guān)聯(lián)度
D)顆粒度
84.[單選題]以下關(guān)于不帶參數(shù)的函數(shù)的格式書寫正確的是()
A)defcheck
B)defIcheck()
C)defcheck():
D)defcheck()
85.[單選題]在MaP階段中對輸入文件的每一行解析成鍵值對時,每一個鍵值對調(diào)用(__)次map函數(shù)
O
A)—
B)二
OS
D)四
86.[單選題]假設(shè)要計算洞庭湖的銀魚數(shù)量,現(xiàn)均勻投入其中IOOOO條帶標(biāo)記的銀魚,一段時間后捕
撈IOooo條魚,通過其中帶標(biāo)記的魚的數(shù)量來預(yù)估洞庭湖中銀魚的數(shù)量。這個例子體現(xiàn)的思想是(
)
A)全樣的思想
B)抽樣的思想
C)精確的思想
D)因果的思想
87.[單選題]若對于數(shù)據(jù)分布D和概率密度函數(shù)p(),錯誤率與精度可分別描述為(_)。
A)若測試數(shù)據(jù)集的精度高或錯誤率小,則模型的泛化能力強(qiáng);反之,則泛化能力弱。
B)若測試數(shù)據(jù)集的精度低或錯誤率小,則模型的泛化能力強(qiáng);反之,則泛化能力弱。
C)若測試數(shù)據(jù)集的精度高或錯誤率高,則模型的泛化能力強(qiáng);反之,則泛化能力弱。
D)若測試數(shù)據(jù)集的精度小或錯誤率高,則模型的泛化能力強(qiáng);反之,則泛化能力弱。
88.[單選題]企業(yè)數(shù)據(jù)分析平臺在根據(jù)不同的業(yè)務(wù)場景需求,搭建不同的大數(shù)據(jù)分析平臺,如適應(yīng)離
線批處理的HadooP平臺;適應(yīng)實時處理的流計算平臺等,這種架構(gòu)屬于哪種類型的架構(gòu)?
A)分離架構(gòu)
B)單一架構(gòu)
C)融合架構(gòu)
D)多維架構(gòu)
89.[單選題]相對于HadoopMapReducel.0,Spark的特點不包括()。
A)速度快
B)并發(fā)多
C)通用性
D)易用性
90.[單選題]下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說法正確的是()。
A)Json內(nèi)的取值只能有統(tǒng)一格式
B)PDF文件在不同平臺上打開顯示不同
C)可以通過Python將CSV文件轉(zhuǎn)換成Excel格式
D)Excel存儲數(shù)據(jù)的量無限制
91.[單選題]MapReduce里面的query、SOry和limit等都是針對()的操作。
A)map()之前
B)reduce()之前
C)reduce()之后
D)finalize()之后
92.[單選題]大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)項目Prji中,用戶OWner創(chuàng)建表Tl,通過ACL方
式將讀權(quán)限給用戶Ul(此前用戶Ul無項目空間P門1的任何權(quán)限),現(xiàn)在使用ACL授權(quán)Ul可以通過
SeIeCt*fromprjl.Tl來訪問Tl中的數(shù)據(jù)。接下來OWner將表Tl刪除,重新創(chuàng)建一張新表,名字仍然
叫Tl,以下說法中正確的是:()。
A)如果新建后的Tl和原來的表Tl表結(jié)構(gòu)一致,則Ul仍可以訪問Tl
B)用戶Ul仍然可以訪問表Tl
C)用戶Ul無法訪問當(dāng)前表Tl
D)如果新建后的口和原來的表∏表結(jié)構(gòu)、數(shù)據(jù)內(nèi)容均一致,則Ul仍可以訪問Tl
93.[單選題]以下選項對GES概念描述正確的是。。
A)Edge:邊,用于表示關(guān)系度
B)EdgeLabeI:邊的標(biāo)簽,用于表示現(xiàn)實世界中的關(guān)系類型
OVertexLabe1:節(jié)點的標(biāo)簽,用于表示現(xiàn)實世界中的實體類型
D)Vertex:節(jié)點/頂點,用于表示現(xiàn)實世界中的實體對象
94.[單選題]下列關(guān)于PythOn的說法中,錯誤的是()
A)Python是從ABC發(fā)展起來的
B)Python是一門高級計算機(jī)語言
C)PythOn只能編寫面向?qū)ο蟮某绦?/p>
D)PythOn程序的效率比C程序的效率低
95.[單選題]下列關(guān)于支持向量回歸說法,錯誤的是()。
A)支持向量回歸是將支持向量的方法應(yīng)用到回歸問題中
B)支持向量回歸同樣可以應(yīng)用核函數(shù)求解線性不可分的問題
C)同分類算法不同的是,支持向量回歸要最小化一個凹函數(shù)
D)支持向量回歸的解是稀疏的
96.[單選題]聚類算法的性能度量可稱為(_)。
A)密度估計
B)異常檢測
C)有效性指標(biāo)
D)分布結(jié)構(gòu)
97.[單選題]以下關(guān)于HDPS適合做什么描述不正確的是?
A)低延遲讀取
B)大文件存儲與訪問
C)流式數(shù)據(jù)讀取
D)大數(shù)據(jù)量吞吐
98.[單選題]如果LASSo模型中的懲罰項變大,下列說法正確的是O
A)部分回歸系數(shù)會變?yōu)?
B)部分回歸系數(shù)會趨近于0,但不會取值為0
C)A和B的表述都正確
D)以上說法都不正確
99.[單選題]FusionlnsightManager對服務(wù)的配置功能說法不正確的是
A)服務(wù)級別的配置可對所有實例生效
B)實例級別的配置只針對本實例生效
C)實例級別的配置對其他實例也生效
D)配置保存后需要重啟服務(wù)才能生效
100.[單選題]()在劃分屬性時是在當(dāng)前結(jié)點的屬性集合中選擇一個最優(yōu)屬性
A)AdaBoost
B)RF
OBagging
D)傳統(tǒng)決策樹
IOL[單選題]選擇神經(jīng)網(wǎng)絡(luò)的深度時,對于下面參數(shù):①神經(jīng)網(wǎng)絡(luò)的類型(如MLP,CNN);②輸入數(shù)據(jù)
:③計算能力(硬件和軟件能力決定);④學(xué)習(xí)速率;⑤映射的輸出函數(shù),需要考慮的是()
A)①②③④
B)②③④⑤
C)都需要考慮
D)①③④⑤
102.[單選題]Hive最重視的性能是可測量性.延展性.()和對于輸入格式的寬松匹配性
A)較低恢復(fù)性
B)容錯性
C)快速查詢
D)可處理大量數(shù)據(jù)
103.[單選題]對于ADS的hash分區(qū),()說法是正確的。
A)ADS表的第一級分區(qū)必須為hash分區(qū),第二級沒有強(qiáng)制要求,目前可以為IiSt或者h(yuǎn)ash
B)hash分區(qū)時一種動態(tài)分區(qū)類型,需要指定具體的分區(qū)列,最多為2列
C)ADS表的一級hash分區(qū)數(shù)最大為IOOO
D)若一張表為batch更新類型,且僅有一級hash分區(qū),則每次導(dǎo)入數(shù)據(jù)時,會對已有數(shù)據(jù)進(jìn)行全量覆
蓋
104.[單選題]執(zhí)行以下代碼段defdescribe_pet(animal_type,pet_name):print("Ihavea"+
animaltype+".")print("My"+animal_type+"'snameis"+pet_name.title()+
".")describe_pet('harry1)describe_pet('Hamster')?,輸出為()。
A)Ihaveaharry.Myharry'snameisHarry.
B)Ihaveaharry.Myharry1snameisHamster.
C)Ihaveahamster.Myhamster'snameisHamster.
D)Error
105.[單選題]下列關(guān)于餅圖的說法中,錯誤的是()
A)餅圖的數(shù)據(jù)項中允許有負(fù)值
B)在設(shè)計餅圖時,往往需要維護(hù)不同半徑對應(yīng)的標(biāo)簽以使不同半徑數(shù)值直觀化
C)餅圖通常適用于統(tǒng)計不同指標(biāo)數(shù)據(jù)占比的情形
D)餅圖也被稱為扇形統(tǒng)計圖
106.[單選題]假如使用一個較復(fù)雜的回歸模型來擬合樣本數(shù)據(jù)、使用Ridge回歸,調(diào)試正則化參數(shù)
入,來降低模型復(fù)雜度。若入較大時,關(guān)于偏差(bias)和方差(VarianCe),下列說法正確的是()。
A)若人較大時,偏差減小,方差減小
B)若人較大時,偏差減小,方差增大
C)若人較大時,偏差增大,方差減小
D)若λ較大時,偏差增大,方差增大
107.[單選題]下列語句中,可以跳出循環(huán)結(jié)構(gòu)的是()。
A)continue
B)break
C)while
D)if
108.[單選題]大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)的圖計算引擎是分布式的,在加載數(shù)據(jù)時
,系統(tǒng)默認(rèn)()將數(shù)據(jù)分配到不同的Worker中。
A)根據(jù)邊的權(quán)值進(jìn)行hash并對WOrker數(shù)取模
B)完全隨即分配
C)根據(jù)頂點ID的hash值對WOrker數(shù)取模
D)按照點ID值排序,再平均分配給Worker
109.[單選題]從數(shù)據(jù)到智慧的轉(zhuǎn)換依次遞進(jìn)過程是()。
A)數(shù)據(jù)、知識、信息、理解、智慧
B)數(shù)據(jù)、信息、理解、知識、智慧
C)數(shù)據(jù)、信息、知識、理解、智慧
D)數(shù)據(jù)、理解、信息、知識、智慧
110.[單選題]以下哪個數(shù)據(jù)轉(zhuǎn)換器常用于空值替換,作用為“如果VI為null,則輸出v2,否則輸出
vl”O(jiān)()
A)Constant
B)Choice
ONvl
D)NumericCast
111.[單選題]HBase表設(shè)計為什么一般不超過兩個列簇?
A)過多的列簇不適合讀寫分離
B)過多的列IO開銷大
C)過多的列簇StoreFiIe過多,COmPaCtiOn壓力大
D)過多的列簇會導(dǎo)致memstoreflush時10壓力過大
112.[單選題]以下變量名合法的是?
A)_num
B)count$
C)l_message
D)int
113.[單選題]plt.Plot()函數(shù)的功能是()。
A)展現(xiàn)變量的趨勢變化
B)尋找變量之間的關(guān)系
C)設(shè)置X軸的數(shù)值顯示范圍
D)設(shè)置X軸的標(biāo)簽文本
114.[單選題]Spark生態(tài)系統(tǒng)組件MLlib的應(yīng)用場景是?
A)圖結(jié)構(gòu)數(shù)據(jù)的處理
B)基于歷史數(shù)據(jù)的交互式查詢
C)復(fù)雜的批量數(shù)據(jù)處理
D)基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘
115.[單選題]如果需要由數(shù)據(jù)生產(chǎn)者決定數(shù)據(jù)發(fā)送給目標(biāo)Blot的某一個確定的Task,應(yīng)該選擇以下
()消息發(fā)布策略。
A)局部字段分組
B)廣播分組
C)直接分組
D)全局分組
116.[單選題]使用WhiIe循環(huán)語句時,如果想要使程序無限循環(huán)運(yùn)行,則下列哪個選項可作為循環(huán)的
判斷語句()
A)3.1
B)3.1>2,3
OO
D)X=Y
117.[單選題]下列關(guān)于數(shù)據(jù)的存儲結(jié)構(gòu)的描述正確的是()。
A)數(shù)據(jù)所占的存儲空間量
B)存儲在外存中的數(shù)據(jù)
C)數(shù)據(jù)在計算機(jī)中的順序存儲方式
D)數(shù)據(jù)的邏輯結(jié)構(gòu)在計算機(jī)中的表示
118.[單選題]下列關(guān)于云數(shù)據(jù)庫的描述,哪個是錯誤的?()
A)云數(shù)據(jù)庫是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫
B)云數(shù)據(jù)庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法
C)云數(shù)據(jù)庫價格不菲,維護(hù)費(fèi)用極其昂貴
D)云數(shù)據(jù)庫具有高可擴(kuò)展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點
119.[單選題]下列哪個表達(dá)式在PythOn中是非法的O0
A)x=y=z=l
B)x=(y=z+1)
C)x,y=y,X
D)x+=y
120.[單選題]關(guān)于NameNOde和SeeondaryNameNode的說法錯誤的是()
Λ)NameNode上實現(xiàn)的NamenodePrOtoCOl用于二者命令通信
B)數(shù)據(jù)的通信使用的是ftp協(xié)議
C)數(shù)據(jù)通信使用的是http協(xié)議
D)協(xié)議的容器是jetty
121.[單選題]以下關(guān)于DWS數(shù)據(jù)庫透明加密的特點,錯誤的是:()。
A)支持行存表數(shù)據(jù)加密,不支持列存表加密
B)支持集群級別配置
C)使用KMS服務(wù)加密
D)加密密鑰層次結(jié)構(gòu)有三層
122.[單選題]Hadoop的作者是下面哪一位(__)。
A)MartinFowler
B)KentBeck
C)GraceHopper
D)Dougcutting
123.[單選題]假設(shè)一種基因同時導(dǎo)致兩件事情:一是使人喜歡抽煙,二是使這個人患肺癌。這句話
種基因與抽煙.肺癌之間是()關(guān)系,而吸煙和肺癌則是()關(guān)系。
A)因果;相關(guān)
B)相關(guān);因果
C)并列;相關(guān)
D)因果;并列
124.[單選題]在聚類分析任務(wù)中,簇內(nèi)相似度(一)且簇間相似度(—)時,聚類效果比較好。
A)低,低
B)低,高
C)高,低
D)ι?,ι?
125.[單選題】preprocessing.OneHOtEnCoder的作用是(一)。
A)將分類特征轉(zhuǎn)換為分類數(shù)值
B)獨(dú)熱編碼
C)分類轉(zhuǎn)換為分類數(shù)值
D)對缺失值進(jìn)行填補(bǔ)
126.[單選題]下面關(guān)于基礎(chǔ)理論相關(guān)描述正確的有(_)。
A)基礎(chǔ)理論等于理論基礎(chǔ)
B)基礎(chǔ)理論在數(shù)據(jù)科學(xué)研究邊界之外
C)理論基礎(chǔ)在數(shù)據(jù)科學(xué)研究邊界之內(nèi)
D)基礎(chǔ)理論包含理念、理論、方法、技術(shù)等
127.[單選題]在Zookeeper和Yarn的協(xié)同工作中,當(dāng)ActiveResourceManager產(chǎn)生故障時
,StandbyResourceManager會從以下哪些目錄中獲取Application相關(guān)信息?
A)metastore
B)Statestore
C)Storeage
D)Warehouse
128.[單選題]下列選項中,不能使用下標(biāo)運(yùn)算的是()
A)列表(list)
B)元組(tuple)
C)集合(set)
D)字符串(Str)
129.[單選題]下面哪幾項屬于RediS中Set類型的命令?
A)sunion
B)scard
C)zcount
D)Irange
130.[單選題]早期的云計算產(chǎn)品AWS是由哪家企業(yè)提出的:。
A)IBM
B)微軟
C)亞馬遜
D)谷歌
131.[單選題]以下程序的輸出結(jié)果是:ss=list(set("jzzszyj"))ss.sort()print(ss)
A)['z','j','s','y']
B)['j','s','y','z']
?J?f,tzr,IzI,rst,?zI,yr,fIj?IJτ
Dτms?)LΓ?j?I,Jt?f,IsI,tyt,Iz?,zf,ffzI^」1
132.[單選題]sciPy中模塊integrate的作用是什么?
A)程序輸入輸出
B)差值計算
C)計算積分
D)向量計算
133.[單選題]()管理YARN集群中的每個節(jié)點。
A)ResourceManger
B)NodeManger
C)ApplicationMaster
D)Container
134.[單選題]下列算法中不屬于基于深度學(xué)習(xí)的圖像分割算法的是()。
A)FCN
B)Deeplab
C)Mask-RCNN
D)KNN
135.[單選題]在專家系統(tǒng)的開發(fā)過程中使用的專家系統(tǒng)工具一般分為專家系統(tǒng)的()與通用專家系
統(tǒng)工具兩類。
A)模型工具
B)外殼
C)知識庫工具
D)專用工具
136.[單選題]Numpy中創(chuàng)建全為0的矩陣使用什么?
A)np.zeros()
B)np.onesO
C)np.empty()
D)np.arange()
137.[單選題]我國學(xué)者吳文俊院士在人工智能的O領(lǐng)域作出了貢獻(xiàn)。
A)機(jī)器證明
B)模式識別
C)人工神經(jīng)網(wǎng)絡(luò)
D)智能代理
138.[單選題]下列Python語句執(zhí)行后的結(jié)果是:i=2s=0whilei
A)8
B)12
018
D)24
139.[單選題]下列圖像邊緣檢測算子中抗噪性能最好的是Oo
A)梯度算子
B)PreWitt算子
C)RObertS算子
D)LaPIaeian算子
140.[單選題]DougCUtting所創(chuàng)立的項目的名稱都受到其家人的啟發(fā),以下項目不是由他創(chuàng)立的項
目是()
A)Hadoop
B)Nutch
C)Lucene
D)Solr
141.[單選題]美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與
洋流可能發(fā)生的地點。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。
A)在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)
B)在分析方法上更注重相關(guān)分析而不是因果分析
C)在分析效果上更追究效率而不是絕對精確
D)在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)
142.[單選題]數(shù)據(jù)可視化的方法論基礎(chǔ)是()。
A)統(tǒng)計圖表
B)視覺編碼
C)圖論
D)圖形符號學(xué)
143.[單選題]以下不屬于數(shù)據(jù)倉庫的特性是()
A)面向主題
B)集成的
C)跨平臺性
D)非易失
144.[單選題]以下關(guān)于數(shù)據(jù)產(chǎn)品特征的描述不正確的是
A)數(shù)據(jù)產(chǎn)品往往能達(dá)到極高的準(zhǔn)確度,并且保持穩(wěn)定
B)數(shù)據(jù)產(chǎn)品所使用的數(shù)據(jù)包含很多差數(shù)據(jù)
C)數(shù)據(jù)產(chǎn)品會隨著環(huán)境的改變發(fā)生變化
D)數(shù)據(jù)產(chǎn)品的決策會直接影響業(yè)務(wù)的表現(xiàn)
145.[單選題]多用于展示兩地點間數(shù)據(jù)流轉(zhuǎn)(如遷徙)的圖表是?()
A)地圖(面積)
B)地圖(氣泡)
C)地圖(遷徙)
D)地圖
146.[單選題]Spark的集群管理模式不包含()。
A)Standalone模式
B)MeSSage模式
C)YARN模式
D)MeSoS模式
147.[單選題]有如下程序:L=[lambdax:X**2,lambdax:X**3,lambdax:X**4]forf
inL:print(f(4),end='')程序的輸出結(jié)果是()o
A)l416
B)41664
C)832128
D)1664256
148.[單選題]有如下存儲過程,CREATEORREPLACEPROCEDUREprc_1(paranlININTEGER
DEFAULT3,param2INOUTINTEGER)ΛSBEGINParam2:=paraml+param2;RETURN;END:調(diào)用如上
存儲過程CaIlprc_l(2,1).結(jié)果是(?
A)l
B)2
04
D)3
149.[單選題]在SPark中一個RDD有()個分區(qū)
A)2
B)3
04
D)5
150.[單選題]CART決策樹通常采用()剪枝方法
A)阻.p(錯誤率降低)
B)CCP(代價復(fù)雜皮)
OPEP(悲觀,剪枝)
D)預(yù)剪枝
151.[單選題]尿布啤酒是大數(shù)據(jù)分析的O
A)A∕B測試
B)分類
C)關(guān)聯(lián)規(guī)則挖掘
D)數(shù)據(jù)聚類I
152.[單選題]()是從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論、方法。
A)信息
B)數(shù)據(jù)
C)知識
D)智慧
153.[單選題]下列關(guān)于HiVe自定義函數(shù)的描述中,正確的是哪一項?
A)HiVe中的min以及max屬于UDAF的數(shù)。
B)一般自行編寫的函數(shù)都屬于臨時函數(shù),每次使用都需要重新創(chuàng)建。
C)一般自行編寫的函數(shù)都屬于永久函數(shù),直接引用即可。
D)如果創(chuàng)建的函數(shù)名與內(nèi)置的函數(shù)名重復(fù),在使用過程中以內(nèi)置的函數(shù)名為主。
154.[單選題]機(jī)器學(xué)習(xí)中發(fā)生過擬合的主要原因不包括()
A)使用過于復(fù)雜的模型
B)數(shù)據(jù)噪聲較大
C)訓(xùn)練數(shù)據(jù)少
D)訓(xùn)練數(shù)據(jù)充足
155.[單選題]某項目小組接到一個大數(shù)據(jù)實時分析項目,且對實時性要求很高,以下哪種大數(shù)據(jù)計
算框架最合適?
A)Spark
B)Flink
C)HBase
D)MapReduce
156.[單選題]下列不屬于數(shù)據(jù)轉(zhuǎn)換器的一項是()
A)文本
B)算法
C)條件判斷
D)數(shù)據(jù)轉(zhuǎn)換
157.[單選題IFusionInsightHD系統(tǒng)中關(guān)于HDFS的DataNode說法正確的是?
A)不會檢查數(shù)據(jù)的有效性
B)周期性地將本節(jié)點的BlOCk發(fā)送給NameNOde
C)不同的DataNOde存儲的Block一定是不同的
D)一個DataNode上的Block可以是相同的
158.[單選題]有關(guān)機(jī)器學(xué)習(xí)的過程認(rèn)識正確的是?O
A)機(jī)器學(xué)習(xí)一般需要人的參與,只要把數(shù)據(jù)輸入合適的算法就可以得到有用的結(jié)果。
B)A零售企業(yè)的客戶行為數(shù)據(jù)分析得到的規(guī)律也可以直接用于B零售企業(yè)。
C)機(jī)器學(xué)習(xí)的問題一般都是用戶給定的,因此不需要與用戶交流和調(diào)研。
D)機(jī)器學(xué)習(xí)得到的結(jié)果需要通過檢驗樣本的測試,甚至需要在現(xiàn)實中實驗才能投入使用。
159.[單選題]()對應(yīng)于決策樹結(jié)果,其他節(jié)點對應(yīng)于()
A)葉節(jié)點,屬性測試
B)根結(jié)點,學(xué)習(xí)測試
C)內(nèi)部節(jié)點,學(xué)習(xí)測試
D)葉節(jié)點,分類測試
160.[單選題]下列數(shù)據(jù)類型中,python不支持的是。O
A)char
B)int
C)float
D)list
161.[單選題]對數(shù)幾率回歸(IOgiStiCSregression)和一般回歸分析有什么區(qū)別?
A)對數(shù)幾率回歸是設(shè)計用來預(yù)測事件可能性的
B)對數(shù)幾率回歸可以用來度量模型擬合程度
C)對數(shù)幾率回歸可以用來估計回歸系數(shù)
D)以上所有
162.[單選題]將閔可夫斯基距離和(一)結(jié)合即可處理混合屬性。
A)ValueDifferenceMectric
B)k-means
C)k近鄰
D)SVM
163.[單選題]社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實時和完整的數(shù)據(jù),同時社交網(wǎng)絡(luò)也記錄了用戶群體的
(),通過深入挖掘這些數(shù)據(jù)來了解用戶,然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是
微博營銷公司。
A)地址
B)行為
C)情緒
D)來源
164.[單選題]什么是大數(shù)據(jù)使用的最可靠方法?
A)大數(shù)據(jù)源
B)樣本數(shù)據(jù)源
C)規(guī)模大
D)大數(shù)據(jù)與樣本數(shù)據(jù)結(jié)合
165.[單選題]根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,集團(tuán)圖譜頁面右側(cè)展示【放大】、【縮小】
、【刷新】、【展開】4個按鈕,其中具有“將展示的集團(tuán)圖譜刷新,并將圖譜展開,展示該集團(tuán)的
所有成員”功能的是O按鈕。
A)放大
B)B.縮小
OC.刷新
D)D.展開
166.[單選題]()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價值越高。
A)規(guī)模
B)靈活性
C)關(guān)聯(lián)度
D)顆粒度
167.[單選題]Hadoop最初是由誰創(chuàng)建的?
A)Lucene
B)DougCutting
OApache
D)MapReduce
168.[單選題]業(yè)務(wù)中臺方面,以業(yè)務(wù)為導(dǎo)向,優(yōu)先建設(shè)(一)。
A)電網(wǎng)資源業(yè)務(wù)中臺和客戶服務(wù)業(yè)務(wù)中臺
B)電網(wǎng)資源業(yè)務(wù)中臺和賬務(wù)結(jié)算業(yè)務(wù)中臺
C)統(tǒng)一數(shù)據(jù)業(yè)務(wù)中臺和客戶服務(wù)業(yè)務(wù)中臺
D)統(tǒng)一數(shù)據(jù)業(yè)務(wù)中臺和賬務(wù)結(jié)算業(yè)務(wù)中臺
169.[單選題]在Python中,下列不是int整型數(shù)據(jù)的是()。
A)160
B)010
0-78
D)0x234
170.[單選題]支持向量機(jī)優(yōu)化問題的形式是(_)。
A)一個不含約束的二次規(guī)劃問題
B)一個含有等式約束的二次規(guī)劃問題
C)一個含有不等式約束的二次規(guī)劃問題
D)一個含有不等式約束的線性規(guī)劃問題
171.[單選題]O是HBaSe提供的工具類,通過簡單的設(shè)置幫我們將mapreduce程序提交到HBaSe任務(wù)
中。工具類中封裝了許多mapreduce寫入到HBaSe的操作,無需我們再去設(shè)置。我們可以通過
initTabIeMaPPerJobo和initTableRedUCerJOb()來方法來執(zhí)行MaPPer類和RedUCer類。
A)AdminMapReduceUti1
B)MapReduceUtil
C)HBaseMapReduceUti1
D)TableMapReduceUti1
172.[單選題]美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)
與洋流可能發(fā)生的地點。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。
A)在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)
B)在分析方法上更注重相關(guān)分析而不是因呆分析
C)在分析效果上是追究效率而不是絕對精確
D)在數(shù)據(jù)規(guī),模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)
173.[單選題]下面O是循環(huán)結(jié)構(gòu)的關(guān)鍵字
A)while
B)print
C)input
D)import
174.[單選題]在文本分析中,我們使用哪一種技術(shù)手段挖掘文本中隱含的語義信息O
A)TF-IDF
B)主題分析
C)情感分析
D)以上都不對
175.[單選題]以下說法中:①一個機(jī)器學(xué)習(xí)模型,如果有較高準(zhǔn)確率,總是說明這個分類器是好的
;②如果增加模型復(fù)雜度,那么模型的測試錯誤率總是會降低;③如果增加模型復(fù)雜度,那么模型的
訓(xùn)練錯誤率總是會降低,正確的是()
A)l
B)2
03
D)l,3
176.[單選題]MaxComputeSQL中建表時,如果指定了ifnotexists選項,則:()。
A)存在同名表,返回失敗
B)存在同名表,如果原表結(jié)構(gòu)與要創(chuàng)建的目標(biāo)表結(jié)構(gòu)不一致,貝腿回失敗
C)返回成功,已存在的同名表的元信息不會被改動
D)返回成功,已存在的同名表元信息會被更新
177.[單選題]當(dāng)數(shù)據(jù)出現(xiàn)較多缺失值時,下面哪些處理方法不不夠合理?
A)把NaN直接作為一個特征,把變量映射到高維空間
B)用均值、中值、分位數(shù)、眾數(shù)、隨機(jī)值填充
C)用插值法填充
D)把具有缺失值的樣本刪除掉
178.[單選題]Hadoop中PartitiOn()函數(shù)代表的是()o
A)分區(qū)函數(shù)
B)特征函數(shù)
C)算法函數(shù)
D)排序函數(shù)
179.[單選題]令N為數(shù)據(jù)集的大?。圩?設(shè)訓(xùn)練樣本(xi,yi),N即訓(xùn)練樣本個數(shù)],d是輸入空間的維數(shù)
(注:d即向量Xi的維數(shù))。硬間隔SVM問題的原始形式[即在不等式約束(yi(wTxi+b)21)下最小化
(1/2)WTw]在沒有轉(zhuǎn)化為拉格朗日對偶問題之前,是()。
A)一個含N個變量的二次規(guī)劃問題
B)一個含N+1個變量的二次規(guī)劃問題
C)一個含d個變量的二次規(guī)劃問題
D)一個含d+1個變量的二次規(guī)劃問題
180.[單選題]下面不屬于后臺自動化的有(_)。
A)hyperscience
B)datafox
C)aptricity
D)appzen
181.[單選題]要打印一個三維數(shù)組時,第一個數(shù)字表示第(_)維度的個數(shù)。
A)l
B)2
03
D)4
182.[單選題]以下代碼段當(dāng)你鍵入21時的輸出為()。age=int(input("Howoldareyou?
"))print(age>=18)
A)True
B)False
C)None
D)Error
183.[單選題]當(dāng)讀取HBaSe表時,只要求返回Cl的列值,使用下列哪個選項可以實現(xiàn)該功能?
A)ValueFilte
B)ColumnFilter
ORowFilter
D)QualifierFilter
184.[單選題]一般地,“人”與“馬”分別與“人馬”相似,但“人”與“馬”很不相似;要達(dá)到
這個目的,可以令“人”、“馬”與“人馬”之間的距離都比較小,但“人”與“馬”之間的距離
很大,此時該距離不滿足(一)O
A)非負(fù)性
B)同一性
C)對稱性
D)直遞性
185.[單選題]以下語句錯誤的是()
A)altertableempdeletecolumnaddcolumn;
B)altertableempmodifycolumnaddcolumnchar(10);
C)altertableempchangeaddcolumnaddcolumnint;
D)altertableempaddcolumnaddcolumnint;
186.[單選題]查看Kafka某ToPiC的PartitiOn詳細(xì)信息時,使用如下哪個命令
A)bin/kafka-topics,sh-create
B)bin∕kafka-topics.sh-list
C)bin/kafka-topics.sh-describe
D)bin/kafka-topics.sh-delete
187.[單選題]O是HadooP系統(tǒng)核心組件之一,主要解決海量數(shù)據(jù)的計算。
A)HDFS
B)MapReduce
C)Spark
D)HBase
188.[單選題]以下四個HadoOP預(yù)定義的MaPPer實現(xiàn)類的描述錯誤的是()
A)IdentityMaPPer實現(xiàn)MaPPer,將輸入直接映射到輸出
B)InVerSeMaPPer實現(xiàn)MaPPer,反轉(zhuǎn)鍵/值對
C)RegeXMaPPer實現(xiàn)MaPPer,為每個常規(guī)表達(dá)式的匹配項生成一個(match,1)對
D)TokenCOUntMaPPer實現(xiàn)MaPPer,當(dāng)輸入的值為分詞時,生成(taken,1)對
189.[單選題]MapReduce應(yīng)用于()的數(shù)據(jù)處理。
A)小規(guī)模
B)中小規(guī)模
C)大規(guī)模
D)超大規(guī)模
190.[單選題]關(guān)于DataNOde的描述錯誤的是()。
A)DtaNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請求
B)DataNode進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作
C)集群中的DataNode一般是一個節(jié)點一個
D)文件的副本系數(shù)由DataNode儲存
191.[單選題]第一個提出大數(shù)據(jù)概念的公司是()。
A)微軟公司
B)谷歌公司
C)臉譜公司
D)麥肯錫公司
192.[單選題]分布式應(yīng)用程序可以基于分布式應(yīng)用程序協(xié)調(diào)服務(wù)實現(xiàn)同步服務(wù),配置維護(hù)和命名服
務(wù)等的工具是()。
A)Flume
B)Zookeeper
C)Storm
D)SparkStreaming
193.[單選題]下列關(guān)于大數(shù)據(jù)的分析理念的說法中,錯的是O0
A)在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)
B)在分析方法上更注重相關(guān)分析而不是因果分析
C)在分析效果上更追究效率而不是絕對精確
D)在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)
194.[單選題]K-means++算法選擇初始seeds的基本思想就是初始的聚類中心之間的相互距離要盡
可能的遠(yuǎn)。那么算法流程為()
①從輸入的數(shù)據(jù)點集合中隨機(jī)選擇一個點作為第一個聚類中心;
②對于數(shù)據(jù)集中的每一個點X,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x);③選擇一個
新的數(shù)據(jù)點作為新的聚類中心,選擇的原則是D(X)較大的點,被選取作為聚類中心的概率較大;
④重復(fù)②和③直到k個聚類中心被選出來;
⑤利用這k個初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的K-means算法。
A)②⑤④③①
B)①⑤④②③
C)①②③④⑤
D)④③②①⑤
195.[單選題]下面關(guān)于視圖的描述正確的是()。-
A)視圖沒有表結(jié)構(gòu)文件
B)視圖中不保存數(shù)據(jù)
C)視圖僅能查詢數(shù)據(jù)
D)以上說法都不正確
196.[單選題]scipy.stats.Cdf函數(shù)的作用是什么?
A)計算隨機(jī)變量的期望和方差
B)隨機(jī)變量的生存函數(shù)
C)隨機(jī)變量的累積分布函數(shù)
D)隨機(jī)變量的概率密度函數(shù)
197.[單選題]HBase分布式模式最好需要。個節(jié)點?
A)l
B)2
C)3
D)最少
198.[單選題]數(shù)據(jù)科學(xué)是一門將“現(xiàn)實世界”映射到“數(shù)據(jù)世界”,在“數(shù)據(jù)層次”上研究“現(xiàn)實
世界”的問題,并根據(jù)“數(shù)據(jù)世界”的分析結(jié)果,對“現(xiàn)實世界”進(jìn)行預(yù)測、解釋或決策的
(一)o
A)新興科學(xué)
B)交叉性學(xué)科
C)獨(dú)立學(xué)科
D)一整套知識體系
199.[單選題]Zookeeper在分布式應(yīng)用中的主要作用不包括一下哪些選項?
A)選舉Master節(jié)點
B)保證各節(jié)點上數(shù)據(jù)的一致性
C)分配集群資源
D)存儲及群中服務(wù)器信息
200.[單選題]下列選項錯誤的是()。~
A)ALTERUSER'root'?'localhost'IDENTIFIED,BY'000'
B)SETPASSWORD?FOR'rootlocalhost'='000'
C)mysqladmin-uroot-pPaSSWorD、000
D)以上答案都不正確
201.[單選題]唯一值約束和主鍵約束的區(qū)別是
A)唯一值約束建立唯一索引、主鍵約束建立非唯一索引
B)主鍵列可以為空、唯一值約束的列不可以為空
C)主鍵約束可以使用已有的索引、唯一值約束總是創(chuàng)建索引
D)唯一值約束的列可以為空、主鍵列不可以為空
202.[單選題]下面不屬于臟數(shù)據(jù)的是(_)。
A)有缺失值
B)冗余數(shù)據(jù)
C)噪聲數(shù)據(jù)
D)無序數(shù)據(jù)
203.[單選題]ClusterManager是()
A)主節(jié)點
B)從節(jié)點
C)執(zhí)行器
D)上下文
204.[單選題]度量特征的分散程度,可以使用哪個量O
A)分位數(shù)
B)中位數(shù)
C)平均數(shù)
D)相似性
205.[單選題]根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,在【貸后管理】菜單下新增O菜單,審批
人員可在此菜單下的【當(dāng)前工作】節(jié)點對貸后預(yù)警處置申請人提交的貸后預(yù)警處置措施進(jìn)行審批
,以及在【已完成工作】節(jié)點查看歷史審批記錄。
A)大數(shù)據(jù)貸后預(yù)警處置
B)B.大數(shù)據(jù)貸后預(yù)警審批
C)C.大數(shù)據(jù)貸后預(yù)警信號管理
D)D.大數(shù)據(jù)預(yù)警客戶清單
206.[單選題]Hadoop中節(jié)點之間的進(jìn)程通信是通過什么協(xié)議來實現(xiàn)的O
A)HTTP
B)SMTP
OSSH
D)RPC
207.[單選題]HBase是分布式列式存儲系統(tǒng),記錄按什么集中存放。
A)列族
B)列
C)行
D)不確定
208.[單選題]智能健康手環(huán)的應(yīng)用開發(fā),體現(xiàn)了()的數(shù)據(jù)采集技術(shù)的應(yīng)用。
A)統(tǒng)計報表
B)網(wǎng)絡(luò)爬蟲
CAPl接口
D)傳感器
209.[單選題]根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,財務(wù)智能分析中的國資委行業(yè)標(biāo)準(zhǔn)值比對模
塊,僅支持企業(yè)O與國資委績效標(biāo)準(zhǔn)值的比對。
A)年報
B)B.半年報
C)C.季報
D)D.月報
210.[單選題]循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理什么數(shù)據(jù)。O
A)節(jié)點數(shù)據(jù)
B)序列數(shù)據(jù)
C)結(jié)構(gòu)化數(shù)據(jù)
D)圖像數(shù)據(jù)
211.[單選題]在HDFS的數(shù)據(jù)寫入過程中,客戶端寫完所有數(shù)據(jù)塊后,調(diào)用()的CloSe()方法結(jié)束這
次文件寫入操作。
A)DistributedFiIeSystem
B)FSDataInputStream
C)FSDataOutputStream
D)InputSystem
212.[單選題]以下哪項屬于DDL操作()
A)update
B)create
C)insert
D)delete
213.[單選題]Python使用()關(guān)鍵字定義一個匿名函數(shù)
?)function
B)func
C)def
D)lambda
214.[單選題]如果想獲取一個序列有多少元素可以使用
A)最大值
B)最小值
C)求和
D)Ien
215.[單選題]以下哪個操作不會導(dǎo)致SparkShuffle的發(fā)生?
A)reduceByKey()
B)filter()
C)distinct()
D)intersection()
216.[單選題]下面()負(fù)責(zé)HDFS數(shù)據(jù)存儲.
A)NameNode
B)Jobtracker
C)Datanode
D)SecondaryNameNode
217.[單選題]以下關(guān)于HiveSQl基本操作描述正確的是?
A)加載數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆維吾爾自治區(qū)七年級上學(xué)期語文第一次月考試卷
- 一年級數(shù)學(xué)計算題專項練習(xí)匯編
- 二年級數(shù)學(xué)計算題專項練習(xí)
- 花圃合作協(xié)議書(2篇)
- 南京航空航天大學(xué)《傳感器與測試技術(shù)》2022-2023學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《土木工程與環(huán)境》2022-2023學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《商務(wù)技能》2022-2023學(xué)年第一學(xué)期期末試卷
- 分草莓說課稿
- 南京工業(yè)大學(xué)浦江學(xué)院《汽車電氣設(shè)備》2022-2023學(xué)年第一學(xué)期期末試卷
- 《有理數(shù)的乘法》說課稿
- 三菱重工中央空調(diào)產(chǎn)品篇(課堂PPT)
- 小學(xué)六年級六班家長會課件
- 新風(fēng)系統(tǒng)施工方案
- 財務(wù)KPI指標(biāo)監(jiān)控
- 英文電影賞析new(課堂PPT)
- 關(guān)于3000萬元以下建設(shè)項目前期工作咨詢收費(fèi)標(biāo)準(zhǔn)的通知
- 真空電鍍常見不良現(xiàn)象及原因分析
- 清水池清洗消毒方案
- 外國人換發(fā)或補(bǔ)發(fā)永久居留證件申請表樣本
- 上海市初級中學(xué)英語學(xué)科教學(xué)基本要求
- 開展修舊利廢活動方案
評論
0/150
提交評論