版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
試卷科目:大數(shù)據(jù)CDA考試大數(shù)據(jù)CDA考試(習(xí)題卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)CDA考試第1部分:單項選擇題,共118題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.在Spark生態(tài)組件中,哪個產(chǎn)品可用于基于歷史數(shù)據(jù)的交互式查詢。()A)SparkCoreB)SparkSqlC)SparkStreamingD)MLlib答案:B解析:[單選題]2.偏自相關(guān)函數(shù)ACF在n階之后迅速趨近于零,我們稱ACF具有n階()A)長尾性B)短尾性C)截尾性D)拖尾性答案:C解析:如果偏自相關(guān)函數(shù)ACF在n階之后迅速趨近于零,我們稱ACF具有n階截尾性。[單選題]3.Hbase中的Compaction過程發(fā)生在什么時候?()A)MemStore發(fā)生flush的時候B)HLog大小達(dá)到一定閾值的時候C)StoreFlle文件個數(shù)達(dá)到一定國值的時候D)HFile寫入HDFS的時候答案:C解析:[單選題]4.聲明成員變量時,如果不使用任何訪問控制符(public,protected,private),則以下哪種類型的類不能對該成員進(jìn)行直接訪問()A)同一類B)同一包中的子類C)同一包中的非子類D)不同包中的子類答案:D解析:[單選題]5.以下表述錯誤的是()。A)冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響B(tài))子樹可能在決策樹中重復(fù)多次C)決策樹算法對于噪聲的干擾非常敏感D)尋找最佳決策樹是NP完全問題答案:C解析:[單選題]6.Spark自帶的資源管理框架是?()A)StandaloneB)MesoSC)YARND)Docker答案:A解析:[單選題]7.以下關(guān)于Zookeeper關(guān)鍵特性中的原子說法正確的是?A)客戶端發(fā)送的更新會按照他們被發(fā)送的順序進(jìn)行應(yīng)用B)更新只能全部完成或失敗,不會部分完成C)一條消息被一個server接收,將被所有server接收D)集群中無論哪臺服務(wù)器,對外示均是同答案:B解析:[單選題]8.為了保證流應(yīng)用的快照存儲的可靠性,快照主要存儲在()?A)本地文件系統(tǒng)中B)Jobmanager的內(nèi)存中C)HDFS中D)可靠性高的單機(jī)數(shù)據(jù)庫中答案:C解析:[單選題]9.MapReduce的Shuffle過程以下中哪個操作是最后做的?A)排序B)合并C)分區(qū)D)溢寫答案:B解析:[單選題]10.如果對HBase表的添加數(shù)據(jù)記錄,可以使用()命令進(jìn)行操作。A)createB)getC)putD)scan答案:C解析:[單選題]11.ROC曲線是驗證模型的常用方法,曲線凸向哪個角,代表模型效果越理想?()A)左上角B)右上角C)左下角D)右下角答案:A解析:[單選題]12.用于展示文本信息出現(xiàn)頻率比較高的關(guān)鍵詞的圖形是(A)詞云圖B)氣泡圖C)熱力圖D)散點(diǎn)圖答案:A解析:[單選題]13.基于規(guī)則的分類器有Aprior、隨機(jī)森林,還有()。A)C4.5B)KNNC)NaiveBayesD)ANN答案:A解析:[單選題]14.數(shù)據(jù)分析挖掘是非常有價值的,它與現(xiàn)實生活是密切相關(guān)的,以下哪些是在銀行中的應(yīng)用場景?A)信用卡的審批額度B)掌銀對消費(fèi)者的產(chǎn)品推薦C)貴賓客戶的流失預(yù)測D)以上全是答案:D解析:[單選題]15.當(dāng)一元線性回歸模型的殘差出現(xiàn)異方差時,我們可以嘗試哪項工作()A)對自變量做線性變換B)對因變量做線性變換C)對自變量做非線性變換D)自變量做歸一化處理答案:C解析:其余三個都是線性處理,不改變異方差[單選題]16.人工神經(jīng)網(wǎng)絡(luò)(ANN)是基于模大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng)。下列選項中,有關(guān)人工神經(jīng)網(wǎng)絡(luò)的描述不正確的是()A)神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B)可以處理冗余特征C)訓(xùn)練ANN是一個很耗時的過程D)至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)答案:A解析:[單選題]17.指數(shù)平滑法中,下面哪個指標(biāo)可以反映對時間序列資料的修正程度?()A)平滑常數(shù)B)季節(jié)指數(shù)C)跨越期D)指數(shù)平滑數(shù)初始值答案:A解析:[單選題]18.對于不平穩(wěn)的序列,如果仍想進(jìn)行時間序列分析,我們可以()A)差分B)微分C)積分D)不能使用答案:A解析:如果序列本身是非平穩(wěn)的,通常我們有兩種處理方式,一是進(jìn)行差分,二是進(jìn)行對數(shù)變換。[單選題]19.使用JAVAAPI進(jìn)行HBase表數(shù)據(jù)添加操作,以下命令輸寫正確的是()。A)HTable.add(newPut(Bytes.toBytes(row));B)HTable.insert(newPut(Bytes.toBytes(row));C)HTable.put(newPut(Bytes.toBytes(row));D)HTable.update(newPut(Bytes.toBytes(row));答案:C解析:[單選題]20.在某回歸模型中,數(shù)據(jù)分析員希望探索分類變量各類別之間增長率的差異,采用以下哪種方法比較合適?()A)加入固定效應(yīng)變量B)加入工具變量C)加入高次項D)加入交互項答案:D解析:交互項可以分別度量斜率[單選題]21.已知表student,字段如下:取出course1,course2,course3三門成績均超過60分的記錄,可以使用如下查詢語句()A)selectB)selectC)selectD)select答案:D解析:where后不可以跟如max,min,sum之類的聚合函數(shù)。[單選題]22.對于HDFS的組成描述正確的是()。A)HDFS的文件系統(tǒng)主分為管理節(jié)點(diǎn)和工作節(jié)點(diǎn)。B)NameNode管理元數(shù)據(jù)信息C)DataNode保存真正的數(shù)據(jù)。D)DataNode保存真正的數(shù)據(jù)。答案:D解析:[單選題]23.17、19、22、24、25、28、34這組數(shù)的四分位差是()。A)24B)12C)9D)D17答案:C解析:[單選題]24.以下選項中主節(jié)點(diǎn)和從節(jié)點(diǎn)配置的端口都是()。A)9000B)1000C)7000D)8000答案:A解析:[單選題]25.矩估計的基本原理是()。A)用樣本矩估計總體矩B)使得似然函數(shù)達(dá)到最小C)小概率事件在一次試驗中是不可能發(fā)生的D)使得似然函數(shù)達(dá)到最大答案:A解析:[單選題]26.SOL語言中,刪除一個表中所有數(shù)據(jù),但保留表結(jié)構(gòu)的命令是()。A)DELETEB)DROPC)CLEARD)REMORE答案:A解析:truncate與drop是DDL語句,執(zhí)行后無法回滾;delete是DML語句,可回滾。[單選題]27.使用JAVAAPI進(jìn)行HBase整表掃描操作,以下命令輸寫正確的是()。A)table.getScanner(scan);B)table.scan(table)C)table.get(table).scan();D)table.Scanner(get);答案:A解析:[單選題]28.關(guān)于層次聚類,下列說法正確的是()A)層次聚類之前需要先給出聚類的數(shù)量B)層次聚類之前需要先給出各個類別的初始類中心C)層次聚類之后,模型能給出唯一的分類類別數(shù)量D)層次聚類之后,類別數(shù)量需要參考聚類過程給出答案:D解析:層次聚類的特征就是可以給出樹狀的聚類過程,并根據(jù)樹狀結(jié)構(gòu)給出聚類數(shù)量。[單選題]29.下面聲明數(shù)組的寫法錯誤()。A)inta[];B)int[]a;C)int[3][]a;D)int[][3]a;答案:D解析:[單選題]30.數(shù)據(jù)倉庫的最終目的是()A)收集業(yè)務(wù)需求B)開發(fā)數(shù)據(jù)倉庫的應(yīng)用分析C)建立數(shù)據(jù)倉庫邏輯模型D)為用戶和業(yè)務(wù)部門提供決策支持答案:A解析:[單選題]31.下面的數(shù)據(jù)是一家企業(yè)科研投入與專利產(chǎn)出的相關(guān)性描述,根據(jù)表格信息,下列選項中正確的是()。A)專利產(chǎn)出與科研投入高度線性相關(guān)B)專利產(chǎn)出與科研投入相關(guān)性不顯著C)專利產(chǎn)出與科研投入存在線性相關(guān)性,但是相關(guān)性較弱D)加大科研投入就能夠提高專利的產(chǎn)出答案:B解析:相關(guān)性是只有0、03,且其P值很大,所以是不顯著的。[單選題]32.數(shù)據(jù)分析8個層次中的最高層次是()A)預(yù)報B)優(yōu)化C)報警D)統(tǒng)計分析答案:B解析:參考中8個層次的介紹。[單選題]33.以下對于zookeeper描述正確的是()A)Zookeeper的核心是原子廣播B)Zookeeper包含口個簡單的原語集C)Zookeeper是口個開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)D)Zookeeper是Hadoop的口個子項目答案:D解析:[單選題]34.HBase表中每個cell的多版本是通過()表示的。A)timestampB)rowkeyC)blockidD)cellid答案:A解析:[單選題]35.假設(shè)每個用戶最低資源保障設(shè)置為yarn,scheduler,capacity,root,QueueAminimum-user-limit-percent=24,則以下說法錯誤的是?()A)第3個用戶提交任務(wù)時,每個用戶最多獲得33.33%的資源B)第2個用戶提交住務(wù)時,每個用戶最多獲得50%的資源C)第4個用戶提交任務(wù)時,每個用戶最多獲得25%的資源D)第5個用戶提交任務(wù)時,每個用戶最多獲得20%的資源答案:D解析:[單選題]36.對一元線性回歸y=b0+b1x1+ε進(jìn)行F檢驗,其結(jié)果與對回歸系數(shù)b1做t檢驗得到的結(jié)果()A)相同B)相反C)無關(guān)D)相同的概率與R2呈正比答案:A解析:一元的情況下F檢驗與t檢驗等同[單選題]37.一個多分類的變量?借款用途?,其水平有?娛樂?、?培訓(xùn)?、?生活基礎(chǔ)?、?旅游?、?其他?。將其轉(zhuǎn)為啞變量后,有()個對應(yīng)的分類變量A)1B)3C)4D)5答案:C解析:5分類的變量,轉(zhuǎn)化為啞變量后,少一個,只需要4個就可以了。[單選題]38.若需要定義一個類域或類方法,應(yīng)使用哪種修飾符?A)staticB)packageC)privateD)public答案:C解析:[單選題]39.下面這些類型的應(yīng)用,那個不使用Java語言來編寫?A)JavaScriptB)AppletC)ServletD)JavaSwing答案:A解析:[單選題]40.Hadoop系統(tǒng)中關(guān)于客戶端向HDFS文件系統(tǒng)上傳文件說法正確的是?A)客戶端的文件數(shù)據(jù)經(jīng)過NameNode傳遞給DataNodeB)客戶端將文件分為多個Bock,根據(jù)DataNode的地址信息,按順序?qū)懭朊恳粋€DataNode中C)客戶端根據(jù)DataNode的地址信息,按順序?qū)⒄麄€文件寫入每一個DataNode中,然后由DataNode將文件劃分為多個BlockD)客戶端只上傳數(shù)據(jù)到一個DataNode,然后由Namenode負(fù)責(zé)Bock復(fù)制答案:B解析:[單選題]41.在使用Flask-WTF自定義表單類時,自定義的類需要繼承自()。A)FlaskFormB)FlaskFormsC)FlaskWTFD)Forms答案:A解析:[單選題]42.HBase依賴()技術(shù)框架提供消息通信機(jī)制。A)ZookeeperB)ChubbyC)RPCD)Socket答案:A解析:[單選題]43.以下哪個語句不能查詢出結(jié)果A)selectB)selectC)selectD)select答案:B解析:本題考查SQL語句中and的用法。and是求交集,同時需要滿足前后兩個條件才能返回結(jié)果,所以不可能存在銷售數(shù)量大于五同時又小于四的記錄,所以正確答案為B[單選題]44.下列關(guān)于邏輯回歸模型中計算得到的發(fā)生概率p,闡述錯誤的是()A)任何情況下,臨界值都是0.5。當(dāng)p≥0.5,其分類取1;p<0.5,其分類取0B)p是相對概率C)p的取值在0至1之間D)被稱為odds答案:A解析:p的閾值不是唯一確定的,需要根據(jù)測試集調(diào)整。[單選題]45.YARN的基于標(biāo)準(zhǔn)調(diào)度,是對下列選項中的哪個進(jìn)行標(biāo)簽化?A)AppmasterB)ResourcemanagerC)NodemanagerD)Container答案:C解析:[單選題]46.采用Flume傳輸數(shù)據(jù)過程中,為了防止因Flume進(jìn)程重啟而丟失數(shù)據(jù),推薦使用以下哪種channel類型?A)MemoryChannelsB)FileChannelC)JDBCChannelD)HDFSChannel答案:B解析:[單選題]47.盒須圖()中,Q1到Q3的距離被稱為()。A)IQRB)極差C)內(nèi)差D)SSA答案:A解析:內(nèi)分位距(IQR),其他都不對。[單選題]48.以下關(guān)于DBSCAN算法說法錯誤的是()。A)如果樣本集的密度不均勻、聚類間距差相差很大時,聚類質(zhì)量較差;B)如果樣本集較大時,聚類收斂時間較長;C)調(diào)參相對復(fù)雜,不同的參數(shù)組合對最后的聚類效果有較大影響。D)聚類結(jié)果可能有偏倚。答案:D解析:[單選題]49.以下哪類數(shù)據(jù)不屬于半結(jié)構(gòu)化數(shù)據(jù)?A)HTMLB)XMLC)二維表D)JSON答案:C解析:[單選題]50.下列關(guān)于網(wǎng)絡(luò)用戶行為的說法中,錯誤的是()。A)網(wǎng)絡(luò)公司能夠捕捉到用戶在其網(wǎng)站上的所有行為B)用戶離散的交互痕跡能夠為企業(yè)提升服務(wù)質(zhì)量提供參考C)數(shù)字軌跡用完即自動刪除D)用戶的隱私安全很難得以規(guī)范保護(hù)答案:C解析:[單選題]51.在Jinjia2模板引擎中創(chuàng)建block后要使用()表示結(jié)束。A){%endblock%)B){%end%}C){{endblock))D){{end}}答案:A解析:[單選題]52.在Flask框架中設(shè)置路由的請求方法,可以使用參數(shù)()。A)requestB)requestsC)methodD)methods答案:D解析:[單選題]53.以下哪個不是HDFS的守護(hù)進(jìn)程A)SecondaryNameNodeB)NameNodeC)MrappMaster/YarnChildD)DataNode答案:C解析:[單選題]54.下列選項中無法通過大數(shù)據(jù)技術(shù)實現(xiàn)的是?()A)商業(yè)模式發(fā)現(xiàn)B)信用評估C)商品推薦D)運(yùn)營分析答案:A解析:[單選題]55.下列關(guān)于構(gòu)造方法的敘述中,錯誤的是()A)Java語言規(guī)定構(gòu)造方法名與類名必須相同B)Java語言規(guī)定構(gòu)造方法沒有返回值,但不用void聲明C)Java語言規(guī)定構(gòu)造方法不可以重載D)Java語言規(guī)定構(gòu)造方法只能通過new自動調(diào)用答案:C解析:[單選題]56.HBase依賴()提供強(qiáng)大的計算能力A)ZookeeperB)ChubbyC)RPCD)MapReduce答案:D解析:[單選題]57.有序集的中間值或者中間兩個值平均是()。A)平均值B)中位數(shù)C)眾數(shù)D)以上都不是答案:B解析:[單選題]58.設(shè)計分布式數(shù)倉庫hive的數(shù)據(jù)表時,為取樣更高效,一般可以對表中的連續(xù)字段進(jìn)行什么操作。A)分桶B)分區(qū)C)索引D)分表答案:A解析:[單選題]59.YARN中設(shè)置隊列Queue的最大使用資源量,需要配置哪個參數(shù)?A)yarnschedulercapacity.root.Queueaminimum-user-limitmpercentB)yarn.schedulercapacity.root.Queueamaximum-capacityC)yam.schedulercapacity.root.Queuea,minimum.user-limit-factorD)yarnschedulercapacity.root.Queuea/stat答案:B解析:[單選題]60.以下哪個聚類方法又叫快速聚類法()A)K-means聚類法B)層次聚類法C)系統(tǒng)聚類法D)兩步聚類法答案:A解析:K-means聚類法計算量非常小,因此又得名快速聚類法。[單選題]61.Javaapplication中的主類需包含main方法,main方法的返回類型是什么?A)intB)floatC)doubleD)void答案:D解析:[單選題]62.以下四項指標(biāo)中,不能用于線性回歸中的模型比較的是()。A)R方B)調(diào)整R方C)AICD)BIC答案:A解析:[單選題]63.對于Hive中關(guān)于普通表和外部表描述不正確的是?A)默認(rèn)創(chuàng)建普通表B)刪除外部表時,只除外部表數(shù)據(jù)而不刪除元數(shù)據(jù)C)外部實質(zhì)是將已存在于HDFS上的文件路徑跟表關(guān)聯(lián)起來D)刪除普通表時,元數(shù)據(jù)和數(shù)據(jù)同時被刪除答案:C解析:[單選題]64.在Hadoop生態(tài)組件中,個產(chǎn)品可用于復(fù)雜的批量數(shù)據(jù)處理。()A)MapReduce、HiveB)ImpalaC)StormD)Mahout答案:A解析:[單選題]65.在使用對應(yīng)分析方法時,()會幫助提升結(jié)果的有效性A)采用卡方檢驗作為預(yù)分析B)精簡變量C)異常值處理D)以上都是答案:D解析:對應(yīng)分析作為一種描述性的方法,觀察到的變量間聯(lián)系并沒有經(jīng)過驗證,因此得出結(jié)論時要萬分小心。比如可以采用卡方檢驗等方法作為預(yù)分析,或者精簡變量。即使在圖形中觀察到結(jié)論,也需要和原始數(shù)據(jù)反復(fù)觀察確認(rèn),避免錯誤判斷。另外,對應(yīng)分析的結(jié)果也會受到異常值的影響。因此前期的數(shù)據(jù)清洗也非常重要。[單選題]66.主成分分析算法認(rèn)為數(shù)據(jù)的信息是包含在()中。A)方差B)均值C)誤差D)極值答案:A解析:主成分分析算法認(rèn)為,數(shù)據(jù)的信息是包含在其方差當(dāng)中的。如果一個變量方差很大,獲得它的抽樣值可以幫助我們消除很大一部分不確定性,因此它包含的信息較多。[單選題]67.Hadoop集群中存在的最主要瓶頸是(A)CPUB)網(wǎng)絡(luò)C)磁盤I0D)內(nèi)存答案:C解析:[單選題]68.字段cost的最大最小值分別是1200元和9800元。利用最大-最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。則cost值為7360元將被轉(zhuǎn)化為()。A)0.751B)0.163C)0.457D)0.716答案:D解析:[單選題]69.下列有關(guān)C4.5算法的說法中不正確的是()A)每個節(jié)點(diǎn)的分支度只能為2B)使用gainratio作為節(jié)點(diǎn)分割的依據(jù)C)可以處理數(shù)值型態(tài)的字段D)可以處理空值的字段答案:A解析:[單選題]70.下面對Streaming中基礎(chǔ)概念說法不正確的是()?A)Topology是streaming中運(yùn)行的一個實時應(yīng)用程序B)Nimbus負(fù)責(zé)資源分配和任務(wù)調(diào)度C)Spout是在一個topology中接受數(shù)據(jù)然后執(zhí)行處理的組件D)Worker運(yùn)行具體處理組件邏輯的進(jìn)程答案:C解析:[單選題]71.關(guān)于數(shù)據(jù)挖掘的方法論CRISP-DM說法正確的是()。A)這是SPSS公司,DaimlerChrysler提出的數(shù)據(jù)挖掘流程B)主要分為六步,業(yè)務(wù)理解,數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備,模型搭建,模型評估與模型發(fā)布C)該方法論已經(jīng)成功的在SASEM中進(jìn)行了實施D)這六個過程有嚴(yán)格的前后順序,析過程中不能逆轉(zhuǎn)或者跳轉(zhuǎn)答案:B解析:[單選題]72.Fusioninsight產(chǎn)品中,關(guān)乎Kafka說法不正確的是?A)Kafka強(qiáng)依賴ZookeeperB)Kafka的服務(wù)端可以產(chǎn)生消息C)Kafka的部署的實例個數(shù)不得小于2D)Consumer作為Kafka的客戶端角色專門進(jìn)行消息的消費(fèi)答案:B解析:[單選題]73.以下哪個部分不是一篇數(shù)據(jù)分析報告必須有的。()A)標(biāo)題B)正文C)結(jié)論與建議D)附錄答案:D解析:[單選題]74.一元回歸分析與多元回歸分析的主要區(qū)別是(A)因變量個數(shù)不同B)建立回歸模型的計算量不同C)回歸分析原理不同D)回歸分析步驟不同答案:B解析:[單選題]75.在以下語句中,哪個是降序查詢t1表中不同城市pm10的平均值():A)selectB)selectC)selectD)select答案:A解析:本題考查SQL語句中分組和排序的方法。SQL語句中求平均的函數(shù)是avg而不是mean,故B錯;C中asc表示升序排列,而D中默認(rèn)也是升序排列,故正確答案為A。[單選題]76.為什么DBSCAN算法難以有效處理高維數(shù)據(jù)。()A)數(shù)據(jù)的形狀太復(fù)雜B)簇的大小未知C)噪聲點(diǎn)過多D)開銷過大答案:D解析:[單選題]77.一組數(shù)據(jù)為1、3、5、7、9,它們的樣本方差為()A)8B)10C)12D)14答案:B解析:公式>[單選題]78.下列關(guān)于Flinkbarrier描述錯誤的是?A)一個barrier將本周期快照的數(shù)據(jù)與下一個周期快照的數(shù)據(jù)分隔開B)barrier是F1ink快照的核心C)在插入barrier的時候,會暫時阻斷數(shù)據(jù)流D)barrier周期性插入到數(shù)據(jù)流中,并作為數(shù)湉流的一部分隨之流動答案:C解析:[單選題]79.分析師小A在建立了多元線性回歸模型后,發(fā)現(xiàn)殘差出現(xiàn)了異方差,那么小A可以考慮()A)對因變量取自然對數(shù)B)對自變量取自然對數(shù)C)將模型的常數(shù)項強(qiáng)制為0D)對因變量乘以某一個系數(shù)A進(jìn)行放大或者縮小答案:A解析:處理異方差可以對因變量進(jìn)行非線性處理,這是通常應(yīng)對異方差的方法之一。[單選題]80.Hadoop平臺中HBase的Region是由哪個服務(wù)進(jìn)程來管理?A)HMasterB)DataNodeC)RegionServerD)Zookeeper答案:C解析:[單選題]81.檢驗單總體方差的過程中,檢驗統(tǒng)計量服從()。A)標(biāo)準(zhǔn)正態(tài)分布B)正態(tài)分布C)卡方分布D)t分布答案:C解析:見單總體方差檢驗概念[單選題]82.關(guān)于Hadoop單機(jī)模式和偽分布式模式的說法正確的是()。A)兩者都起守護(hù)進(jìn)程,且守護(hù)進(jìn)程運(yùn)行在一臺機(jī)器上B)單機(jī)模式不使用HDFS,但加載守護(hù)進(jìn)程C)兩者都不與守護(hù)進(jìn)程交互,避免復(fù)雜性D)后者比前者增加了HDFS輸入輸出以及可檢查內(nèi)存使用情況答案:D解析:[單選題]83.HFile數(shù)據(jù)格式中的Metalndex字段用于()。A)Meta塊的長度B)Meta塊的結(jié)束點(diǎn)C)Meta塊數(shù)據(jù)內(nèi)容D)Meta塊的起始點(diǎn)答案:D解析:[單選題]84.下面哪個程序負(fù)責(zé)HDFS數(shù)據(jù)存儲。A)NameNodeB)JobtrackerC)DatanodeD)secondaryNameNode答案:C解析:[單選題]85.FusioninsightHD系統(tǒng)審計日志不可以記錄下面哪些操作?A)手動清除告警B)啟停服務(wù)實例C)查詢歷史監(jiān)控D)除服務(wù)實例答案:C解析:[單選題]86.關(guān)于MapReduce框架中一個作業(yè)的reduce任務(wù)數(shù),下列說法正確的是()。A)由自定義的Partitioner來確定B)是分塊總數(shù)目的一半C)可以由用戶來自定義,通過JobConf.setNumReducetTask(int)來設(shè)定一個作業(yè)中reduce的任務(wù)數(shù)目D)由MapReduce隨機(jī)確定其數(shù)目答案:C解析:[單選題]87.以下關(guān)于HiveSQL基本操作描述正確的是?()A)創(chuàng)建外部表必須要指定Location信息B)創(chuàng)建外部表使用external關(guān)鍵字,創(chuàng)建普通表需要指定internal關(guān)鍵字C)加教數(shù)據(jù)到Hive時源數(shù)據(jù)必列是HDFS的一個路徑D)創(chuàng)建表時可以指定列分割符答案:D解析:[單選題]88.下列哪個類的聲明是正確的?()A)abstractfinalclassHI}B)abstractprivatemove(0C)protectedprivatenumber;D)publicabstractclassCar{}答案:D解析:[單選題]89.某班級同學(xué)在一個月后的期末考試成績前50%將參加某項學(xué)科競賽,現(xiàn)組織同學(xué)進(jìn)行測驗,小鄭考了84分,他希望評估自己是否有希望參加學(xué)科競賽,因此將他的成績與班級成績()進(jìn)行比較是最合理的。A)平均數(shù)B)中位數(shù)C)眾數(shù)D)四分位差答案:B解析:中位數(shù)是指中間位置的數(shù),即50%。[單選題]90.以下哪個channel類型的數(shù)據(jù)不會持久化()?A)FileChanneB)MemoryChannelC)JDBCChannelD)HDFSChannel答案:B解析:[單選題]91.以下關(guān)于Zookeeper的Leader節(jié)點(diǎn)在收到數(shù)據(jù)變更請求后的讀寫流程說法正確的是?A)僅寫入內(nèi)存B)同時寫入磁盤和內(nèi)存C)先寫入內(nèi)存再寫入磁盤D)先寫磁盤再寫內(nèi)存答案:D解析:[單選題]92.希望將不同數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行關(guān)聯(lián)的時候,我們可以采用表連接。以下不是sql表連接方式的一個是()A)rightB)leftC)unionD)all答案:D解析:連接后保留兩張表全部信息應(yīng)使用fulljoin。[單選題]93.對各變量值的連乘積開項數(shù)次方根的平均數(shù)是【)。A)平方平均數(shù)B)幾何平均數(shù)C)算術(shù)平均數(shù)D)D調(diào)和平均數(shù)答案:B解析:[單選題]94.假設(shè)一組數(shù)據(jù)的取值從?923到899。數(shù)據(jù)中最大絕對值為923。因此,我們用1000除每個值。因此,?923被規(guī)范化為?0、923,而899被規(guī)范化為0、899,這種數(shù)據(jù)規(guī)范化被稱為()。A)小數(shù)定標(biāo)規(guī)范化B)z-score規(guī)范化C)對數(shù)規(guī)范化D)歸一化規(guī)范化答案:A解析:根據(jù)定義。[單選題]95.以下哪個SQL函數(shù)可以完成對數(shù)字的四舍五入()。A)floorB)ceilingC)roundD)truncate答案:C解析:floor(x)表示返回小于x的最大整數(shù)值(去掉小數(shù)取整),ceiling(x)表示返回大于x的最小整數(shù)值(進(jìn)一取整),round(x,y)表示返回參數(shù)x的四舍五入的有y位小數(shù)的值(四舍五入),truncate(x,y)表示返回數(shù)字x截短為y位小數(shù)的結(jié)果。[單選題]96.在Fusioninsight產(chǎn)品中,關(guān)于創(chuàng)建Kafka的Topic,以下哪些描述是正確的?A)在創(chuàng)建Kafka的Topic時,必須設(shè)置Partition個數(shù)B)在創(chuàng)建Kafka的topic時,必須設(shè)置Partition副本個數(shù)C)設(shè)置多副本可以增強(qiáng)Kafka服務(wù)的容災(zāi)能力D)以上全都正確答案:C解析:[單選題]97.下表為一交易數(shù)據(jù),請問a→c的支持度(Support)為()。TIDItemsBought1a.b.c2a,c3a,e4b.e.gA)0.75B)0.5C)1D)0.666答案:B解析:[單選題]98.下列關(guān)于for循環(huán)和while循環(huán)的說法中哪個是正確的?()A)while循環(huán)能實現(xiàn)的操作,for循環(huán)也都能實現(xiàn)B)while循環(huán)判斷條件一般是程序結(jié)果,for循環(huán)判斷條件一般是非程序結(jié)果C)兩種循環(huán)任何時候都可替換D)兩種循環(huán)結(jié)構(gòu)中都必須有循環(huán)體,循環(huán)體不能為空答案:B解析:[單選題]99.以下不屬于消費(fèi)者購買行為分析的產(chǎn)品因素的是()A)便利信息B)偏好信息C)價格信息D)評價信息答案:B解析:[單選題]100.若要對比各個國家之間的人均收入與人均支出的離散程度,應(yīng)使用以下哪種統(tǒng)計量()。A)方差B)離差C)離散系數(shù)D)相關(guān)系數(shù)答案:C解析:見離散系數(shù)定義[單選題]101.傳統(tǒng)數(shù)據(jù)處理的數(shù)據(jù)單位?A)TBB)EBC)PBD)GB答案:D解析:[單選題]102.大數(shù)據(jù)時代,數(shù)據(jù)使用的關(guān)鍵是()A)數(shù)據(jù)收集B)數(shù)據(jù)存儲C)數(shù)據(jù)分析D)數(shù)據(jù)再利用答案:A解析:[單選題]103.以下哪個關(guān)鍵字可以用來為對象加互斥鎖?A)transientB)staticC)serializeD)synchronized答案:D解析:[單選題]104.關(guān)于MapReduceShuffle過程合并(combine)操作,兩個健值對<"a",1>和<"a",1>經(jīng)過合并操作結(jié)果為()。A)<"a",2>B)<?a?,<1,1>C)<"a,a",2>D)<"a,a",<1,1>>答案:A解析:[單選題]105.以下關(guān)于fusioninsightCTbase的描述不正確的是?A)CThase的讀寫數(shù)據(jù)接口,統(tǒng)一封裝了行定義的接口,自動進(jìn)行冷字段的合并和解析,不需要在應(yīng)用程序中進(jìn)行合并和解釋B)CTHBase是基于Hbase的聚簇表開發(fā)框架C)CTHbase提供了一套Webui進(jìn)行元數(shù)據(jù)定義,提供了只管醫(yī)用的表設(shè)計工具,降低表設(shè)D)CTHbase的javaAPI提供一套Hbase連接池管理的接口,內(nèi)部進(jìn)行連接共享,減少客戶端應(yīng)用開發(fā)難度。答案:B解析:[單選題]106.下列關(guān)于邏輯回歸介紹錯誤的是()A)邏輯回歸是無監(jiān)督學(xué)習(xí)B)邏輯回歸是有監(jiān)督學(xué)習(xí)C)邏輯回歸是非線性回歸D)邏輯回歸的輸出是介于0到1之間的值答案:A解析:邏輯回歸是有監(jiān)督學(xué)習(xí)的算法。[單選題]107.貝葉斯決策是根據(jù)()進(jìn)行決策的一種方法。A)極大似然概率B)先驗概率C)邊際概率D)后驗概率答案:D解析:[單選題]108.下面屬于有監(jiān)督學(xué)習(xí)的是?A)數(shù)據(jù)統(tǒng)計B)分類C)聚類D)關(guān)聯(lián)分析答案:B解析:[單選題]109.一個電瓶車制造商聲稱,其生產(chǎn)的電瓶車正常行駛條件下大于40公里,對一個由20輛電瓶車組成的隨機(jī)樣本作了試驗,測得平均值為50公里,標(biāo)準(zhǔn)差為10公里。已知電瓶車的行駛距離服從正態(tài)分布,我們希望檢驗該制造商的產(chǎn)品同他所說的標(biāo)準(zhǔn)相符?我們應(yīng)該選擇()A)單側(cè)t檢驗B)雙側(cè)t檢驗C)單側(cè)F檢驗D)雙側(cè)F檢驗答案:A解析:小樣本均值檢驗用t檢驗。[單選題]110.在處理后臺數(shù)據(jù)時,有一列客戶輸入變量名為?您的愛好?,共有5個不同的選項,但是有70%左右的客戶這一項的數(shù)據(jù)沒有填寫,那么那一項的處理方式更合理()?A)建模前先將這個變量刪除B)將這一項沒有填寫的客戶歸為第6類C)用前5項的眾數(shù)替換缺失值D)提出這部分未填寫愛好的客戶信息答案:B解析:建模前盡可能保留原始信息。[單選題]111.Java中關(guān)于父子類描述正確的是A)一個子類可以有多個父類,一個父類也可以有多個子類B)一個子類可以有多個父類,但一個父類只可以有一個子類C)一個子類可以有一個父類,但一個父類可以有多個子類D)上述說法都不對答案:C解析:[單選題]112.下列選項中,關(guān)于Zookeeper可靠性含義說法正確的是?A)可靠性通過主備部署模式實現(xiàn)B)可靠性是指更新更新只能成功或失敗沒有中間狀態(tài)C)可靠性是指無論個server,對外展示的均是同一個視圖D)可靠性是指一個消息被一個Server它將被所有的Server接受答案:D解析:[單選題]113.下列哪種方法不能用于檢驗一元線性回歸殘差是否服從正態(tài)分布()A)PP圖B)SW檢驗C)KS檢驗D)ADF檢驗答案:D解析:ADF檢驗一般用于時序模型[單選題]114.關(guān)系型數(shù)據(jù)庫的完整性約束條件有()。A)主鍵約束B)非空約束C)唯一約束D)以上都是答案:D解析:完整性約束條件可以對字段進(jìn)行限制,規(guī)定字段內(nèi)容。[單選題]115.HFile數(shù)據(jù)格式中的KeyValue數(shù)據(jù)格式中Value部分是()。A)擁有復(fù)雜結(jié)構(gòu)的字符串B)字符串C)二進(jìn)制數(shù)據(jù)D)壓縮數(shù)據(jù)答案:C解析:[單選題]116.下列不屬于非平穩(wěn)時間序列的確定性因素是(A)規(guī)則變動B)長期趨勢C)季節(jié)變動D)循環(huán)變動答案:A解析:[單選題]117.編譯Java源程序文件將產(chǎn)生相應(yīng)的字節(jié)碼文件,這些字節(jié)碼文件的擴(kuò)展名為A)byteB)classC)htmlD)exe答案:B解析:[單選題]118.在數(shù)據(jù)安全及處理效率方面,不適宜大數(shù)據(jù)分析的軟件是()。A)SASB)StataC)MatLabD)SPSS答案:D解析:第2部分:多項選擇題,共74題,每題至少兩個正確答案,多選或少選均不得分。[多選題]119.箱線圖包含的五個統(tǒng)計量是()。A)中位數(shù)B)眾數(shù)C)四分位數(shù)D)最值答案:ACD解析:[多選題]120.下列關(guān)于BloomFilter的描述正確的是?A)是一個很長的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)B)沒有誤算率C)有一定的誤算率D)可以在BloomFilter中刪除元素答案:AC解析:[多選題]121.下列關(guān)于Worker(工作進(jìn)程exector(線程)、Task(任務(wù))說法正確的是?A)每個Executor(線程可以運(yùn)行多個task任務(wù)B)每個Worket運(yùn)行多個exector(線程)C)每個Workst只能為個拓?fù)溥\(yùn)行Executor(線程)D)每個Executor運(yùn)行不同組件(Spout或Bolt)的Task(任務(wù))答案:ABD解析:[多選題]122.下列哪些國家已經(jīng)將大數(shù)據(jù)上升為國家戰(zhàn)略?A)英國B)日本C)美國D)法國答案:ABCD解析:[多選題]123.下面對Streaming說法正確的是()?A)事件驅(qū)動B)連續(xù)查詢C)數(shù)據(jù)不存儲,先計算D)實時響應(yīng),低延遲答案:ABCD解析:[多選題]124.大數(shù)據(jù)處理流程可以概括為以下哪幾步?A)挖掘B)采集C)統(tǒng)計和分析D)導(dǎo)入和預(yù)處理答案:ABCD解析:[多選題]125.Spark可以接收哪些來源的數(shù)據(jù)?A)YARNB)HDFSC)HIVED)HBase答案:BCD解析:[多選題]126.關(guān)于HadoopHDFS名稱節(jié)點(diǎn)中的元數(shù)據(jù)信息,下面說法正確的是()。A)文件是什么:包括目錄自身的屬性信息,例如文件名,目錄名,修改信息等B)文件被分成了多少塊C)每個塊和文件之間的映射信息D)每個文件具體被存儲到哪個服務(wù)器上答案:ABCD解析:[多選題]127.在數(shù)據(jù)庫系統(tǒng)中,產(chǎn)生不一致的根本原因是:()A)數(shù)據(jù)存儲量太大B)并發(fā)控制不當(dāng)C)未對數(shù)據(jù)進(jìn)行完整性控制D)數(shù)據(jù)冗余答案:ABC解析:[多選題]128.數(shù)據(jù)分析報告的金字塔原理所遵循的原則是()。A)歸類分組B)邏輯遞進(jìn)C)以下統(tǒng)上D)結(jié)論先行答案:ABD解析:[多選題]129.變量?產(chǎn)品?的類型有?家電?,?五金?,?廚衛(wèi)?,?其他?,如果將?行業(yè)?轉(zhuǎn)為啞變量,某產(chǎn)品屬于五金,那么下面對于這個產(chǎn)品分類類型記錄正確的是()A)B)C)D)答案:BD解析:啞變量對應(yīng)變量數(shù)=分類數(shù)-1;本題目中分類數(shù)是4,對應(yīng)變量數(shù)應(yīng)該是3、就從BCD里面選。接下來,這三類中只有?五金?能記錄為1,其他應(yīng)該記錄成0,BD正確。[多選題]130.下列()可以作為集群的管理工具。A)PuppetB)Rsync+ssh+scpC)PdshD)ClouderaManager答案:ABCD解析:[多選題]131.下列關(guān)于基于大數(shù)據(jù)的營銷模式和傳統(tǒng)營銷模式的說法中錯誤的是()。A)傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式投入更小B)傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式針對性更強(qiáng)C)傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式轉(zhuǎn)化率低D)基于大數(shù)據(jù)的營銷模式比傳統(tǒng)營銷模式實時性更強(qiáng)答案:AB解析:[多選題]132.審核回收的調(diào)研數(shù)據(jù)需要做以下哪些數(shù)據(jù)清洗。()A)補(bǔ)充缺失值B)剔除異常值C)剔除數(shù)據(jù)重復(fù)D)調(diào)整不一致的數(shù)據(jù)答案:ABCD解析:[多選題]133.以下關(guān)于Zookeeper的Leader選舉說法正確的是?A)當(dāng)實例n為奇數(shù)時,假定n=2x+1,則成為leader節(jié)點(diǎn)需要x+1票B)Zookeeper選舉1eader時,需要半數(shù)以上票數(shù)C)當(dāng)實例數(shù)為8時則成為leader容災(zāi)能力為4D)當(dāng)實例數(shù)n為奇數(shù)時,假定n=2x+1,則成為leader節(jié)點(diǎn)需要X票答案:AB解析:[多選題]134.邏輯回歸是數(shù)據(jù)挖掘算法中常用的模型算法,以下關(guān)于邏輯回歸的說法正確的是()。A)異常值不會對模型造成很大的干擾。B)邏輯回歸的自變量必須是分類變量,因此要對連續(xù)型變量進(jìn)行離散化處理。C)邏輯回歸屬于分類算法。D)邏輯回歸對模型中自變量的多重共線性較為敏感。答案:CD解析:[多選題]135.FusioninsightManager可以對哪些項目進(jìn)行健康檢查?()A)角色B)主機(jī)C)服務(wù)D)實例答案:ABCD解析:[多選題]136.以下屬于線性回歸基本假設(shè)的有()A)誤差項ε的期望等于1B)誤差項ε的方差等于1C)誤差項ε相互獨(dú)立D)誤差項ε服從正態(tài)分布答案:CD解析:基本假設(shè)是ε的方差都是相同的,期望為0。[多選題]137.20世紀(jì)中后期至今的媒介革命,以()的出現(xiàn)為標(biāo)志A)互聯(lián)網(wǎng)B)自動化C)計算機(jī)D)數(shù)字化答案:ACD解析:[多選題]138.基于Hadoop開源大數(shù)據(jù)平臺主要提供了針對數(shù)據(jù)分布式計算和存儲能力,如下屬于分布式存儲組件的有?A)MRB)SparkC)HDFSD)HBase答案:CD解析:[多選題]139.執(zhí)行HBase讀數(shù)據(jù)業(yè)務(wù),需要讀取哪幾部分?jǐn)?shù)據(jù)?A)HFileB)HLogC)MemStoreD)HDFS答案:AC解析:[多選題]140.以下有關(guān)直線回歸方程的說法正確的是()。A)建立前提條件是現(xiàn)象之間具有較密切的線性相關(guān)關(guān)系B)關(guān)鍵在于確定方程中的參數(shù)a和bC)表明兩個相關(guān)變量間的數(shù)量變動關(guān)系D)可用來根據(jù)自變量值推算因變量值,并可進(jìn)行回歸預(yù)測答案:ABCD解析:[多選題]141.某銷售團(tuán)隊進(jìn)行客戶估值的時候,進(jìn)行了一次多元線性回歸,模型結(jié)果無效,可能的原因有()A)殘差標(biāo)準(zhǔn)誤太小了B)存在異方差C)自變量之間不存在相關(guān)性D)存在序列相關(guān)答案:BD解析:殘差標(biāo)準(zhǔn)誤小只能說明擬合度好,相關(guān)性低能夠保證變量之間相互獨(dú)立的假設(shè)。[多選題]142.數(shù)據(jù)離散化的方法有哪些()。A)隨機(jī)取值B)等距離敬法C)數(shù)值規(guī)約D)等頻離散法答案:BD解析:[多選題]143.HBase系統(tǒng)用于記錄Region相關(guān)信息的表,具體的表包含()。A)ROOT-B)-ADMIN-C)··META.D)···SYSTEM.答案:AC解析:[多選題]144.若在消息處理過程中允并部分信息丟失,關(guān)閉消息可靠性處理機(jī)制的方式有以下哪些?A)將參數(shù)Config.Topology_ACKKRS設(shè)置為0B)將參數(shù)Config.Topology_ACKKRS設(shè)置為FalseC)Spout發(fā)送消息時,使用不指定消息messageid的接口進(jìn)行發(fā)D)Bolt發(fā)送消息時使用Unanchor方式發(fā)送答案:ACD解析:[多選題]145.Hadoop及其生態(tài)系統(tǒng),可以部署在()A)LinuxB)OS/2C)DOSD)UNIX答案:AD解析:[多選題]146.Hbase中包含的一些典型的Filter有哪些?()A)SingleColumValueFilterB)FilterListC)RowFilterD)KeyOnlyFilter答案:ABCD解析:[多選題]147.大數(shù)據(jù)作為一種數(shù)據(jù)集合,當(dāng)我們使用這個概念的時候,實際包含有哪幾層含義?A)數(shù)據(jù)很大B),構(gòu)成復(fù)雜C)變化很快D)蘊(yùn)含大價值答案:ABCD解析:[多選題]148.隨機(jī)森林指的是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器,以下針對隨機(jī)森林算法的表述,錯誤的是()。A)隨機(jī)森林算法的分類精度會隨著決策樹數(shù)量的增加而提高。B)隨機(jī)森林算法對異常值和缺失值不敏感。C)隨機(jī)森林算法不需要考慮過擬合問題。D)決策樹之間相關(guān)系數(shù)越低、每棵決策樹分類精度越高的隨機(jī)森林模型的分類效果越好。答案:AC解析:[多選題]149.大數(shù)據(jù)在經(jīng)濟(jì)治理方面的作用有()。A)推導(dǎo)宏觀趨勢B)降低銀行壞賬率C)打擊假冒偽劣D)提高生產(chǎn)效率答案:ABCD解析:[多選題]150.下列選項中,哪些是Mapreduce一定會有的過程?A)CombineB)MapC)ReduceD)Partition答案:BCD解析:[多選題]151.Sparkdriver的功能是什么()A)是作業(yè)的主進(jìn)程B)負(fù)責(zé)了作業(yè)的調(diào)度C)負(fù)責(zé)向HDFS申請資源D)負(fù)責(zé)作業(yè)的解析答案:ABD解析:[多選題]152.Yarn中,?從?節(jié)點(diǎn)負(fù)責(zé)以下哪些工作?A)集群中所有資源的一管理和分配B)監(jiān)督container的生命周期管理C)監(jiān)控每個Container的資源使用(內(nèi)存、CPU等)情況D)管理日志和不同應(yīng)用程序用到的附屬服務(wù)答案:BC解析:[多選題]153.當(dāng)前,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的特點(diǎn)是()。A)規(guī)模較大B)規(guī)模較小C)增速很快D)增速緩慢答案:AC解析:[多選題]154.以下關(guān)于Hadoop的HDFS描述正確的有?A)HDFS由NameNode,DataNode,client組成B)HDFS備NameNode上的元數(shù)據(jù)是主NameNode同步過去的C)HDFS采用就近的機(jī)架節(jié)點(diǎn)進(jìn)行數(shù)據(jù)的第一副本存儲D)HDFS適適合寫一次,多次讀取的讀寫答案:ACD解析:[多選題]155.Hadoop通過ResourceManager對集群資源進(jìn)行管理,它的主要功能有?A)集群資源調(diào)度B)應(yīng)用程序管理C)集群資源管理D)日志管理答案:ABC解析:[多選題]156.信息一體化平臺可以采集以下哪些數(shù)據(jù)()?A)SCADA數(shù)據(jù)B)視頻圖像C)故障錄波數(shù)據(jù)D)管理信息數(shù)據(jù)答案:AC解析:[多選題]157.常見的確定性時間序列模型有()A)加法模型B)減法模型C)乘法模型D)除法模型答案:AC解析:[多選題]158.以下關(guān)于靈敏度和特異度的說法,正確的是()A)靈敏度越高,邏輯回歸模型越有效B)靈敏度越低,邏輯回歸模型越有效C)特異度越高,邏輯回歸模型越有效D)特異度越低,邏輯回歸模型越有效答案:AC解析:不管是靈敏度還是特異度,都是越高,說明邏輯回歸模型越有效。[多選題]159.以下關(guān)于異方差情況的說明,正確的有()A)條件異方差指的是殘差的方差隨自變量變化而變化B)條件異方差指的是殘差的方差不隨自變量變化而變化C)非條件異方差指的是殘差的方差隨自變量變化而變化D)非條件異方差指的是殘差的方差不隨自變量變化而變化答案:AD解析:條件異方差指的是殘差的方差隨自變量變化而變化,非條件異方差指的是殘差的方差不隨自變量變化而變化。[多選題]160.Hadoop作為分布式計算技術(shù)的杰出代表,其主要特征包括()。A)可靠性B)健壯性C)簡單性D)高效性答案:ABCD解析:[多選題]161.在以下語句中,哪些是查詢t1表中北京和上海的相關(guān)記錄():A)selectB)selectC)selectD)select答案:AC解析:本題考查SQL語句中or、and和in的用法。其中D為語法錯誤,B中and表示城市名即等于?北京?且又等于?上海?的記錄,不符合題意,故正確答案為AC。[多選題]162.常用的識別異常數(shù)據(jù)的方法有(。A)物理判別法B)統(tǒng)計判別法C)經(jīng)驗法D)檢驗法答案:AB解析:[多選題]163.下列關(guān)于數(shù)生命周期管理的核心認(rèn)識中,正確的是()A)數(shù)據(jù)從產(chǎn)生到被刪除銷毀的過程中,具有多個不同的數(shù)據(jù)存在階段B)在不同的數(shù)據(jù)存在階段,數(shù)據(jù)的價值是不同的C)根據(jù)數(shù)據(jù)價值的不同應(yīng)該對數(shù)據(jù)采取不同的管理策略D)數(shù)據(jù)生命周期管理旨在產(chǎn)生效益的同時,降低生產(chǎn)成本答案:ABC解析:[多選題]164.關(guān)于spark中數(shù)據(jù)傾斜引發(fā)原因正確的選項有()A)key本身分布不均衡B)計算方式有誤C)過多的數(shù)據(jù)在一個task里面D)shuffle并行度不夠答案:ABCD解析:[多選題]165.下列哪些方法屬于非概率抽樣()。A)判斷抽樣B)整群抽樣C)配額抽樣D)滾雪球抽樣答案:ACD解析:B屬于概率抽樣。[多選題]166.可通過GOOSE報文傳遞的應(yīng)用數(shù)據(jù)包括()A)交流采樣值B)直流/溫度值C)檔位信息D)開關(guān)量答案:BCD解析:[多選題]167.關(guān)于眾數(shù)說法正確的是(1。A)不受分布數(shù)列的極大或極小值的影響B(tài))若將無眾數(shù)的分布數(shù)列重新分組或各組頻數(shù)依序合并,又會使分配數(shù)列再現(xiàn)出明顯的集中趨勢C)如果與眾數(shù)組相比鄰的上下兩組的次數(shù)相等,則眾數(shù)組的組中值就是眾數(shù)值,以此類推D)缺乏敏感性答案:ABCD解析:[多選題]168.下列哪個場景可以使用決策樹構(gòu)建模型?()A)預(yù)測申辦信用卡的新客戶是否將來會變成卡奴B)保險公司針對特定族群做人壽保險的推銷C)找出購物籃里商品購買間的關(guān)聯(lián)D)根據(jù)生活作息推斷該病人得癌癥的機(jī)率答案:ABD解析:[多選題]169.如果因變量和自變量之間的關(guān)系是非線性的,可以考慮使用()變換后,再進(jìn)行線性回歸A)因變量取對數(shù)B)自變量乘以2C)自變量平方D)因變量乘以2答案:AC解析:BD項都是線性變換,變換后的因變量和自變量仍然不存在線性關(guān)系。[多選題]170.fusininsightHD平臺中,那些組件支持對列表加密?A)HDFSB)FlinkC)hbaseD)hive答案:CD解析:[多選題]171.若檢驗統(tǒng)計量F近似等于1則表示()。A)組間方差中不包含系統(tǒng)因素的影響B(tài))組內(nèi)方差中不包含系統(tǒng)因素的影響C)組間方差中包含系統(tǒng)因素的影響D)方差分析中不應(yīng)拒絕原假設(shè)答案:AD解析:[多選題]172.采用Flume傳輸數(shù)據(jù)過程中,為了防止因F1me進(jìn)程重啟而丟失數(shù)據(jù),可以使用以下哪種Channel類型?A)MemoryChannelB)JDBCChannelC)FileChannelD)HDFSChannel答案:BC解析:[多選題]173.數(shù)據(jù)再利用的意義在于()。A)挖掘數(shù)據(jù)的潛在價值B)實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值C)利用數(shù)據(jù)可擴(kuò)展性拓寬業(yè)務(wù)領(lǐng)域D)優(yōu)化存儲設(shè)備,降低設(shè)備成本答案:ABC解析:[多選題]174.關(guān)于右偏分布,下列說法正確的是()。A)偏度系數(shù)小于0B)均值小于中位數(shù),中位數(shù)小于眾數(shù)C)偏度系數(shù)大于0D)均值大于中位數(shù),中位數(shù)大于眾數(shù)答案:CD解析:對描述性統(tǒng)計特征的綜合考核[多選題]175.ZKFC進(jìn)程部署在hdfs中的以下那個節(jié)點(diǎn)上?()A)activenamenodeB)standbynamenodeC)datanodeD)以上全部不對答案:AB解析:[多選題]176.student表中記錄了同學(xué)每一次考試的成績。那么以下哪組sql代碼取數(shù)的結(jié)果中,id字段取值不會出現(xiàn)重復(fù)()A)selectB)selectC)selectD)select答案:AB解析:項A代碼以id的值作為分組依據(jù),統(tǒng)計每組score的最大值,因此最終取數(shù)結(jié)果中id的取值不會重復(fù)。distinct是去重函數(shù)。[多選題]177.數(shù)據(jù)預(yù)處理的常見方法有()。A)數(shù)據(jù)清理B)數(shù)據(jù)集成C)數(shù)據(jù)變換D)數(shù)據(jù)規(guī)約答案:ABCD解析:[多選題]178.下面哪些概念是HBase框架中使用的?A)HDFSB)GridFSC)ZookeeperD)EXT3答案:AC解析:[多選題]179.關(guān)于大數(shù)據(jù)的主要特征理解和描述正確的有?A)來源多,格式多B)增長速度快處理速度快C)存儲量大,計算里大D)數(shù)據(jù)的價值密度較低答案:ABCD解析:[多選題]180.Hadoop是當(dāng)大數(shù)據(jù)平臺的事實標(biāo)準(zhǔn),下列對Hadoop的描述中正確的是()。A)Hadoop是一個由Apache基金會開發(fā)的分布式系統(tǒng)開源架構(gòu)B)Hadoop的初始設(shè)計思路來源于Google發(fā)布的學(xué)術(shù)論文C)Hadoop在當(dāng)前衍生出一系列優(yōu)秀的開源項目,包括Hbase、Hive、Pig等D)Hadoop的兩個核心部分是HDFS(HbaseDistributedFileSystem)和MapReduce計算框架答案:ABCD解析:[多選題]181.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為基礎(chǔ)的是()。A)深度優(yōu)先遍歷策略B)廣度優(yōu)先遍歷策略C)高度優(yōu)先遍歷策略D)反向鏈接策略答案:AB解析:[多選題]182.對于HBase分布式存儲系統(tǒng),下面說法正確的是()A)高可靠性B)高性能C)面向列D)可伸縮答案:ABCD解析:[多選題]183.以下選項哪些對聚類分析影響很大?()A)聚類分析B)回歸分析C)神經(jīng)網(wǎng)絡(luò)D)決策樹算法答案:ABCD解析:[多選題]184.在分類問題中,我們經(jīng)常會遇到正負(fù)樣本數(shù)據(jù)量不等的情況,比如正樣本為10w條數(shù)據(jù),負(fù)樣本只有1w條數(shù)據(jù),以下最合適的處理方法是()A)將負(fù)樣本重復(fù)10次,生成10w樣本量,打亂順序參與分類B)直接進(jìn)行分類,可以最大限度利用數(shù)據(jù)C)從10w正樣本中隨機(jī)抽取1w參與分類D)將負(fù)樣本每個權(quán)重設(shè)置為10,正樣本權(quán)重為1,參與訓(xùn)練過程答案:AB解析:[多選題]185.下面屬于遺傳算法的特點(diǎn)有()。A)求得全局最優(yōu)解B)算法并行化C)自適應(yīng)和自學(xué)習(xí)性D)對未來的預(yù)測答案:ABC解析:[多選題]186.PEST分析法是指【】。A)政治環(huán)境B)經(jīng)濟(jì)環(huán)境C)社會環(huán)境D)技術(shù)環(huán)境答案:ABCD解析:[多選題]187.SPSS中,數(shù)據(jù)整理的功能主要集中在【)等菜單中A)數(shù)據(jù)B)直銷C)分析D)轉(zhuǎn)換答案:AD解析:[多選題]188.用戶對HBaseRegion服務(wù)的讀寫過程,下面說法確的是()。A)用戶寫入數(shù)據(jù)時,被分配到相應(yīng)Region服務(wù)器去執(zhí)行B)用戶數(shù)據(jù)首先被寫入到MemStore和Hlog中C)只有當(dāng)操作寫入Hlog之后,commit(調(diào)用才會將其返回給客戶端D)當(dāng)用戶讀取數(shù)據(jù)時,Region服務(wù)器會直接去磁盤上面的StoreFile中尋找答案:ABC解析:[多選題]189.下列哪些方法可以用來對高維數(shù)據(jù)進(jìn)行降維()A)LSSOB)主成分分析法C)聚類分析D)小波分析法答案:AD解析:[多選題]190.傳統(tǒng)數(shù)據(jù)密集型行業(yè)積極探索和布局大數(shù)據(jù)應(yīng)用的表現(xiàn)是()。A)投資入股互聯(lián)網(wǎng)電商行業(yè)B)打通多源跨域數(shù)據(jù)C)提高分析挖掘能力D)自行開發(fā)數(shù)據(jù)產(chǎn)品答案:BC解析:[多選題]191.下面哪個組件可以在Hadoop集群中代替MR一些計算?A)SparkB)SqoopC)HiveD)Avro答案:AC解析:[多選題]192.為了分析客戶的類型,分析師小A進(jìn)行了一次聚類分析。在評估聚類結(jié)果時,()A)組間平方和BSS越大,聚類效果越好B)組間平方和BSS越小,聚類效果越好C)組內(nèi)平方和WSS越大,聚類效果越好D)組內(nèi)平方和WSS越小,聚類效果越好答案:AD解析:我們一般可以近似地用組間平方和BSS(BetweenSumofSquares)和組內(nèi)平方和WSS(WithinSumofSquares)來作為評價指標(biāo)判斷聚類的類別數(shù)是否合適。BSS越大,WSS越小,聚類的效果就越好。第3部分:判斷題,共68題,請判斷題目是否正確。[判斷題]193.Hive是一種數(shù)據(jù)倉庫處理工具,使用類sql的HivesqlL語言實現(xiàn)數(shù)據(jù)查詢功能所有Hive的數(shù)據(jù)都存儲在HDFS中。A)正確B)錯誤答案:對解析:[判斷題]194.邏輯回歸算法通常用于關(guān)聯(lián)規(guī)則挖掘。A)正確B)錯誤答案:錯解析:[判斷題]195.時間序列的主要目的是用來預(yù)測,根據(jù)已有的時間序列數(shù)據(jù)來預(yù)測未來的變化。A)正確B)錯誤答案:對解析:[判斷題]196.barrier是一個特殊的元組,這些元組被周期性注入到流圖中并隨數(shù)據(jù)流在流圖中流動,每個barrier是當(dāng)前快照下一個快照的分界線()。A)正確B)錯誤答案:對解析:[判斷題]197.HDFS存儲數(shù)據(jù)時,關(guān)鍵數(shù)據(jù)根據(jù)實際業(yè)務(wù)需要保存在具有高度可靠性的節(jié)點(diǎn)中,通過修改Danodo的存儲策路,系統(tǒng)可以將數(shù)據(jù)強(qiáng)制保存在指定的節(jié)點(diǎn)組中。()A)正確B)錯誤答案:對解析:[判斷題]198.Java系統(tǒng)本身對程序的邏輯錯誤沒有識別能力A)正確B)錯誤答案:對解析:[判斷題]199.不能使用連續(xù)?=?給多個變量賦值A(chǔ))正確B)錯誤答案:錯解析:[判斷題]200.Flume架構(gòu)中,一個Source可以連接多個Channel。A)正確B)錯誤答案:對解析:[判斷題]201.HBase是一套高性能的分布式數(shù)據(jù)集群,必須在大型機(jī)或者高性能的服務(wù)器上進(jìn)行搭建。()。A)正確B)錯誤答案:對解析:[判斷題]202.colocation(同分布)文件級的同分布實現(xiàn)文件的快速訪問,避免了因數(shù)據(jù)遷移帶來的大量網(wǎng)絡(luò)開銷()A)正確B)錯誤答案:對解析:[判斷題]203.數(shù)據(jù)分析報告的目錄要盡可能的詳細(xì),這樣才能完全體現(xiàn)報告的內(nèi)容。A)正確B)錯誤答案:錯解析:[判斷題]204.HDFS的NameNode保存了一個文件包括哪些數(shù)據(jù)塊,分布在哪些數(shù)據(jù)節(jié)點(diǎn)上,這些信息是存儲在內(nèi)存中的。A)正確B)錯誤答案:對解析:[判斷題]205.Jinjia2模板引擎中提供的safe過濾器是用來啟動策略()。A)正確B)錯誤答案:錯解析:[判斷題]206.標(biāo)識符中的字母區(qū)分大小寫A)正確B)錯誤答案:錯解析:[判斷題]207.相異度矩陣存儲n個對象兩兩之間的相似性,表現(xiàn)形式是一個的n維的矩陣。A)正確B)錯誤答案:對解析:[判斷題]208.邏輯回歸算法只能用于二分類問題,即輸出只有兩種,分別代表兩個類別。A)正確B)錯誤答案:錯解析:[判斷題]209.Spark和Hadoop都不適用于選代計算的場景。A)正確B)錯誤答案:錯解析:[判斷題]210.Java標(biāo)識符的長度沒有限制A)正確B)錯誤答案:對解析:[判斷題]211.Flink采用checkpoint用程序運(yùn)行中的容錯性。A)正確B)錯誤答案:對解析:[判斷題]212.ORM模型中實現(xiàn)了3層映射關(guān)系,其中關(guān)系數(shù)據(jù)庫中的列映射為類屬性()。A)正確B)錯誤答案:對解析:[判斷題]213.浮點(diǎn)類型數(shù)據(jù)不能進(jìn)行求余運(yùn)算A)正確B)錯誤答案:對解析:[判斷題]214.數(shù)據(jù)分析是將數(shù)據(jù)轉(zhuǎn)化成信息,再將信息轉(zhuǎn)化成知識的過程。A)正確B)錯誤答案:對解析:[判斷題]215.Hbase的數(shù)據(jù)文件File中一個Keyvalue格式包含Key,yale,Timestamp,Keytype等內(nèi)容A)正確B)錯誤答案:對解析:[判斷題]216.邏輯樹分析法主要是幫助理清思路。A)正確B)錯誤答案:對解析:[判斷題]217.數(shù)據(jù)規(guī)范化指將數(shù)據(jù)按比例縮放,使之落入一個特定的區(qū)域。規(guī)范化的常用方法有:最大-最小規(guī)范化、z-score規(guī)范化、小數(shù)定標(biāo)規(guī)范化。A)正確B)錯誤答案:對解析:[判斷題]218.四分位數(shù)是衡量離散趨勢的指標(biāo)。A)正確B)錯誤答案:錯解析:[判斷題]219.Hadoop支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。A)正確B)錯誤答案:錯解析:[判斷題]220.變量賦初值不能使用連續(xù)?=?A)正確B)錯誤答案:對解析:[判斷題]221.為減少寫入磁盤的數(shù)據(jù)量,mapreduce支持對MOF(mapoutfile)進(jìn)行壓縮后再寫入。A)正確B)錯誤答案:對解析:[判斷題]222.求余(%)的運(yùn)算結(jié)果符號與除數(shù)相同A)正確B)錯誤答案:錯解析:[判斷題]22
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國風(fēng)電主軸行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 2025-2030年中國在線出境游行業(yè)全國市場開拓戰(zhàn)略制定與實施研究報告
- 2025-2030年中國連鎖酒店行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 2025-2030年中國美甲行業(yè)全國市場開拓戰(zhàn)略制定與實施研究報告
- 2025-2030年中國黃金行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 肇慶地區(qū)地質(zhì)地貌實習(xí)報告-總結(jié)報告模板
- 2025年中國采礦采石設(shè)備制造行業(yè)市場需求預(yù)測與投資戰(zhàn)略規(guī)劃分析報告
- 廣西河池市羅城縣2021-2022學(xué)年五年級上學(xué)期英語期末試卷
- 春節(jié)新媒營銷之道
- 春節(jié)購房共筑新希望
- 人教版六年級數(shù)學(xué)上冊練習(xí)題及參考答案
- 獾子油壓瘡護(hù)理
- 某27層高層住宅樓施工組織設(shè)計方案
- 2025年中考語文備考之名著導(dǎo)讀:《水滸傳》主要人物梳理
- 中華人民共和國殘疾評定表
- 2024年國考行測真題-言語理解與表達(dá)真題及完整答案1套
- 2024屆高考數(shù)學(xué)復(fù)習(xí) 立體幾何考情分析及備考策略
- 基于課程標(biāo)準(zhǔn)的學(xué)生創(chuàng)新素養(yǎng)培育的學(xué)科教學(xué)改進(jìn)研究課題申報評審書
- 醫(yī)療人員廉潔從業(yè)九項準(zhǔn)則
- 培訓(xùn)費(fèi)收款收據(jù)模板
- 2023-2024學(xué)年湖南長沙市中學(xué)雅培粹學(xué)校數(shù)學(xué)七年級第一學(xué)期期末預(yù)測試題含解析
評論
0/150
提交評論