大數(shù)據(jù)CDA考試(習題卷3)

上傳人：w*** IP屬地：重慶上傳時間：2023-11-15 格式：DOCX 頁數(shù)：66 大小：148.33KB 積分：3.6 舉報 版權(quán)申訴

已閱讀5頁，還剩61頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

試卷科目：大數(shù)據(jù)CDA考試大數(shù)據(jù)CDA考試(習題卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)CDA考試第1部分：單項選擇題，共118題，每題只有一個正確答案,多選或少選均不得分。[單選題]1.解壓.tar.gz結(jié)尾的HBase壓縮包使用的Linux命令是?A)tar-zxvfB)tar-zXC)tar-sD)tar-nf[單選題]2.在方差分析中，我們?nèi)缦螺敵錾媳碛校刻柕目崭駭?shù)值是多少()A)32B)33C)64D)66[單選題]3.在ORM模型中,數(shù)據(jù)表的字段由()類實例表示。A)dbB)columnC)db.ColumnD)property[單選題]4.以下哪些是制作條形圖時的錯誤做法()。A)不要讓直條太窄,否則會讓讀者的視線集中在兩直條間大片的空白處,直條的寬度應(yīng)當約為條間距的兩倍B)不要用太粗的網(wǎng)格線和三維透視圖,這樣會遮掩數(shù)據(jù)并轉(zhuǎn)移讀者對數(shù)據(jù)的注意力C)進行比較時,不要用刻度線和網(wǎng)格線,這樣會使水平直條的相對長度更加難以辨別D)直條應(yīng)當由最大值排到最小值,特定的直條可用不同的透明度予以強調(diào)。[單選題]5.執(zhí)行語句inti=1,j=++i;后i與j的值分別為A)1與1B)2與1C)1與2D)252[單選題]6.以下一項不屬手創(chuàng)建Loader作業(yè)時必選項?A)優(yōu)先級B)名稱C)連接D)類型[單選題]7.萬維網(wǎng)之父是()。A)彼得·德魯克B)舍恩伯格C)蒂姆·伯納斯-李D)斯科特·布朗[單選題]8.Hbase中的Region是由哪個服務(wù)進程來管理的?A)HregionserverB)ZookeeperC)MasterD)Datanode[單選題]9.以下哪項不是描述數(shù)據(jù)離散趨勢的常見指標。)A)極差B)都是C)四分位數(shù)間距D)變異系數(shù)[單選題]10.下面的數(shù)據(jù)是一家電商企業(yè)的網(wǎng)頁瀏覽量與銷售量之間的相關(guān)性描述，根據(jù)表格信息，下列選項中正確的是()A)提高瀏覽量是提高銷售量的直接原因B)瀏覽量與銷售量存在顯著相關(guān)性C)瀏覽量每增加1個單位，銷售量增加0.008個單位D)提高銷售量是提高瀏覽量的直接原因[單選題]11.使用多個分類器的預(yù)測來提高分類準確率的技術(shù)稱為()。A)集成(ensemble)B)聚集(aggregate)C)合并(combination)D)投票(voting)[單選題]12.設(shè)x為float型變量,y為double型變量,a為int型變量,b為long型變量,c為char型變量,則表達式x+y*a/x+b/y+c的值為()類型。A)intB)longC)doubleD)char[單選題]13.小王養(yǎng)了一頭豬和一只雞,一天,豬問雞:?主人去哪里了?,豬含淚答道:"去買粉條了?。雞很同情的說;?老弟,來世再見。?以上對話體現(xiàn)了數(shù)據(jù)分析方法中的()。A)關(guān)聯(lián)B)自然語言處理C)聚類D)文本挖掘[單選題]14.銀行根據(jù)客戶以往貸款記錄情況,將客戶分為低風險客戶和高風險客戶。對一個新來的申請者,銀行計算風險,決定接受或拒絕該申請。這屬于()算法的應(yīng)用。A)分類B)聚類C)關(guān)聯(lián)D)回歸[單選題]15.如下哪項不是ZooKeeper的關(guān)鍵特性()?A)最終一致性B)延時性C)可靠性D)等待無關(guān)性[單選題]16.分析師小A想要對多元線性回歸y=b0+b1x1+b2x2+…+bnxn+ε進行線性關(guān)系檢驗時，他設(shè)定的原假設(shè)可以是()A)b0=b1=……=bn=0B)b1=……=bn=0C)b0,b1,……,bn中存在任意一個不為0D)b1,……,bn中存在任意一個不為0[單選題]17.FusioninsightHD中Loader從SFTP服務(wù)器導(dǎo)入文件時,不需要做編碼轉(zhuǎn)換和數(shù)據(jù)轉(zhuǎn)換且速度最快的文件類型是以下哪項?A)graph-fileB)blnary-fileC)text-fileD)sequence-file[單選題]18.為了保障流應(yīng)用的快照存儲的可靠性,快照主要存儲在哪里?A)jobmanager的內(nèi)存中B)可靠性高的單機數(shù)據(jù)庫中C)本地文件系統(tǒng)中D)hdfs中[單選題]19.某專業(yè)畢業(yè)的研究生年薪的標準差大約為2000美元，現(xiàn)在想要估計這個專業(yè)畢業(yè)研究生年薪95%的置信區(qū)間，并要求誤差為100美元，應(yīng)抽取多大的樣本量？()z/2=1.96A)182B)98C)1537D)634[單選題]20.關(guān)于Kafka磁盤容量不足的告警,對于可能的原因以下分析不正確的是?A)業(yè)務(wù)規(guī)劃不合理導(dǎo)致數(shù)據(jù)分配不均,使部分磁盤達到使用率上限B)數(shù)據(jù)保存時間配置過長,數(shù)據(jù)累計達到磁盤使用率上限C)Broker節(jié)點故障導(dǎo)致D)用于存儲Kafka數(shù)據(jù)的磁盤配置(如磁盤數(shù)目磁盤大小等),無法滿足當前業(yè)務(wù)數(shù)據(jù)流量,導(dǎo)致磁盤使用率達到上限[單選題]21.Hive中的數(shù)據(jù)類型,下面說正確的是()。A)TINYINT,1個字節(jié)(8位)有符號整數(shù)B)SMALLINT,2個字節(jié)(16位)有符號整數(shù)C)INT,4個字節(jié)(32位)有符號整數(shù)D)以上都正確[單選題]22.以下不屬于對應(yīng)分析的優(yōu)點的選項有()A)結(jié)果直觀B)圖形化C)沒有復(fù)雜的中間過程D)信息保留完整[單選題]23.分類通常會把模型數(shù)據(jù)集拆分成兩個部分,其中一個部分用來評估模型好與不好,這個部分叫做()。A)訓(xùn)練集B)測試集C)已知數(shù)據(jù)D)未知數(shù)據(jù)[單選題]24.對于一個列聯(lián)表來說，多維尺度分析關(guān)注的是()A)行變量和列變量兩者的相關(guān)性B)變量之間的相關(guān)關(guān)系C)行變量之間的相似性D)維度的含義[單選題]25.在Jinjia2模板引擎中實現(xiàn)模板的繼承,使用的關(guān)鍵詞是()。A)extendB)extendsC)fromD)import[單選題]26.為AB類的一個無形式參數(shù)無返回值的方法methiod書寫方法頭,使得使用類名AB作為前級就可以調(diào)用它,該方法頭的形式為()。A)staticvoidmethod()B)publicvoidmethod()C)finalvoidmethod()D)abstractvoidmethod()[單選題]27.是要找到不同事物之間的關(guān)聯(lián)程度，確定哪些事物會一起出現(xiàn)。A)預(yù)測建模B)聚類分析C)關(guān)聯(lián)分析D)異常檢測[單選題]28.大數(shù)據(jù)至少為以下哪種存儲量級?A)EBB)PBC)TBD)ZB[單選題]29.以下選項中,不屬于信息時代的定律的是()A)吉爾德定律B)摩爾定律C)麥特卡爾夫定律D)達律多定律[單選題]30.Java編程所必須的默認引用包為()A)java.sys包B)java.lang包C)java.util包D)以上都不是[單選題]31.ZooKeeper特點包括(】。A)最終一致性B)可靠性C)實時性D)實時性[單選題]32.已知某一元線性回歸模型的判定系數(shù)R2=0.64，則自變量與因變量之間的相關(guān)系數(shù)為()A)0.4B)0.6C)0.8D)1.0[單選題]33.HDFS中的block默認保存幾個備份。A)3份B)2份C)1份D)不確定[單選題]34.回歸分析首要解決的問題是(】。A)確定解釋量和被解釋變量B)確定回歸模型C)建立回歸方程D)進行檢驗[單選題]35.下列哪些語句關(guān)于Java內(nèi)存回收的說明是正確的?A)程序員必須創(chuàng)建一個線程來釋放內(nèi)存B)內(nèi)存回收程序負責釋放無用內(nèi)存C)內(nèi)存回收程序允許程序員直接釋放內(nèi)存D)內(nèi)存回收程序可以在指定的時間釋放內(nèi)存對象[單選題]36.教育水平作為定序型變量，若要描述其離散程度，可選用以下哪種方法()A)平均差B)四分位差C)方差D)標準差[單選題]37.LSM含義是?A)日志結(jié)構(gòu)合并樹B)二叉樹C)平衡二叉樹D)長平衡二叉樹[單選題]38.下面關(guān)于MapReduce的描述中正確的是()。A)MapReduce程序必須包含Mapper和Reduce。B)MapReduce程序的MapTask可以任意指定。C)MapReduce程序的ReduceTask可以任意指定D)MapReduce程序的ReduceTask可以任意指定[單選題]39.在評價多元線性回歸模型擬合程度的時候，我們主要查看()的數(shù)值A(chǔ))修正R2B)R2C)SSED)SSR[單選題]40.在以下語句中，哪個語句可以用來查詢<績效成績>表中?員工id?字段以?b?開頭的記錄A)selectB)selectC)selectD)select[單選題]41.以下哪個不是Spark的分布式部署方式?(A)standaloneB)sparkonmesosC)sparkonYARND)Sparkonlocal[單選題]42.關(guān)于Hive中的桶說法不正確的是()?A)每個桶是一個目錄B)建表時指定桶個數(shù),桶內(nèi)可排序C)數(shù)據(jù)按照某個字段的值Hash后放入某個桶中D)對于數(shù)據(jù)抽樣、特定join的優(yōu)化很有意義[單選題]43.偏自相關(guān)函數(shù)ACF呈現(xiàn)緩慢的趨近于零，我們稱ACF具有()A)長尾性B)短尾性C)收斂性D)拖尾性[單選題]44.如果數(shù)據(jù)量較大,哪種聚類算法比較適合?()A)系統(tǒng)聚類B)快速聚類(k-means)C)A和B都可以D)A和B都不可以[單選題]45.Spark組件中哪個選項不屬于transformation操作?A)JoinB)distinctC)reduceByKeyD)reduce[單選題]46.在因子分析中，為了幫助解釋因子，我們可以使用()A)因子得分B)因子負載C)因子旋轉(zhuǎn)D)主成分分析[單選題]47.以下關(guān)于Flink關(guān)鍵特性描述不正確的是?A)Sparkstreaming與Flink相比,時延更低B)F1ink流式處理引擎能夠同時提供支持流處理和批處理應(yīng)用的功能C)與FusioninghtHD中的Streaming相比,Flink具有更高的吞吐量D)checkpoint實現(xiàn)了Flink的容錯[單選題]48.邏輯回歸屬于()A)無監(jiān)督學習B)有監(jiān)督學習C)半監(jiān)督學習D)非監(jiān)督學習[單選題]49.一個6面骰子連擲4次，得到至少一次六點的概率約為()。A)≈51.77%B)≈66.67%C)≈48.22%D)≈16.67%[單選題]50.無監(jiān)督學習中應(yīng)用最廣的是()。A)分類算法B)聚類算法C)關(guān)聯(lián)算法D)時序[單選題]51.在測試Flask項目時,使用()模塊可以根據(jù)需求產(chǎn)生不同類型和數(shù)量的虛擬數(shù)據(jù)0A)demoB)fakerC)testD)faker_data[單選題]52.使用余弦相似度時，結(jié)果等于1表示兩個向量()A)完全相同B)完全相反C)完全相關(guān)D)不確定[單選題]53.一個gzip文件大小75MB,客戶端設(shè)置Block大小為64MB,請問其占用幾個Block?A)3B)2C)4D)1[單選題]54.spark的核心模塊是A)sparkstreamingB)sparkcoreC)mapreduceD)sparksql[單選題]55.main方法是Java應(yīng)用程序執(zhí)行的入口點,關(guān)于main方法的方法頭以下哪項是合法的?A)publicstaticvoidmain()B)publicstaticvoidmain(String[]args)C)publicstaticintmain(StringargD)publicvoidmain(Stringarg)[單選題]56.字段?貸款人姓名?，下列方法最適宜的是()A)需要編碼為數(shù)值變量B)需要編碼為字符變量C)需要編碼為二分變量D)需要編碼為分類變量[單選題]57.下面哪一個操作符的優(yōu)先級最高?A)&&B)11C)!D)()[單選題]58.HBase中的批量加載底層使用()實現(xiàn)。A)MapReduceB)HiveC)CoprocessorD)BloomFilter[單選題]59.HDFS中的數(shù)據(jù)塊【block]默認保存幾份?()A)3份B)2份C)1份D)不確定[單選題]60.在估計總體比例時，若其他條件不變，如果為了節(jié)約成本，減少50%的樣本，那么誤差將大約是原來的()A)1、4倍B)1、5倍C)2倍D)4倍[單選題]61.整型數(shù)據(jù)類型中,需要內(nèi)存空間最少的是A)shortB)longC)intD)byte[單選題]62.不屬于HDFS優(yōu)勢是()。A)時間快B)超大文件C)大量小文件D)商用硬件[單選題]63.在使用Flask-WTF自定義表單類時,自定義的類需要繼承自()。A)FlaskFormB)FlaskFormsC)FlaskWTFD)Forms[單選題]64.下列涉及通配符的操作，范圍最大的是()A)nameB)nameC)nameD)name[單選題]65.以下方法可以改變數(shù)據(jù)量綱的是A)對數(shù)據(jù)做歸一化處理B)對數(shù)據(jù)做z-score標準化C)對數(shù)據(jù)取對數(shù)D)以上都是[單選題]66.編譯Java程序的命令是:A)appletviewerB)javacC)javaD)javadoc[單選題]67.倒傳遞神經(jīng)網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò))的訓(xùn)練顧序是什么(1:調(diào)整權(quán)重;2:計算誤差值;3:利用隨機的權(quán)重產(chǎn)生輸出的結(jié)果)()。A)231B)312C)213D)321[單選題]68.HDFS的副本放置策路中,同一機架不同的服務(wù)器之間的距離是()A)3B)2C)1D)4[單選題]69.假設(shè)檢驗中顯著性水平是()。A)推斷時犯取偽錯誤的概率B)推斷時取偽棄真的概率C)正確推斷的概率D)是推斷的可信度[單選題]70.分析師小A發(fā)現(xiàn)某產(chǎn)品銷量數(shù)據(jù)有明顯的長期趨勢變動，則小A可以考慮采用()A)移動平均值法B)向量自回歸法C)差分法D)固定效應(yīng)法[單選題]71.將巧克力藏在不透明的容器里,將無花果、開心果等健康零食放在透明玻璃罐里。7周內(nèi)職員少攝入310萬卡路里。這屬于()的案例。A)關(guān)聯(lián)規(guī)則B)聚類規(guī)則C)分類規(guī)則D)不能確定[單選題]72.安裝fusioninsightHD的Streaming組件是,Nimbus角色要求安裝幾個節(jié)點?A)4B)3C)2D)1[單選題]73.如果要給隊列QueueA設(shè)置容量為30%,應(yīng)該設(shè)置哪個參數(shù)()?A)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentB)yarn.scheduler.capacity.root.QueueD.user-llmit-actorC)yarn.scheduler.capacity.root.QueueA.capacityD)yarn.scheduler.capacity.root.QueueA.state[單選題]74.如果一組數(shù)據(jù)不是對稱分布，按照切比雪夫不等式，至少約有75%的觀測值落在距均值()個標準差的區(qū)間范圍內(nèi)。A)1B)2C)3D)4[單選題]75.fusioninsight對于管理操作,下列錯誤的是?A)可對服務(wù)進行啟停重啟B)可以添加和卸載服務(wù)C)常用服務(wù)隱藏或顯示D)可查看服務(wù)的當前狀態(tài)[單選題]76.下列論據(jù)中,能夠支撐?大數(shù)據(jù)無所不能?的觀點的是()。A)互聯(lián)網(wǎng)金融打破了傳統(tǒng)的觀念和行為B)大數(shù)據(jù)存在泡沫C)大數(shù)據(jù)具有非常高的成本D)個人隱私泄露與信息安全擔憂[單選題]77.顯著性檢驗中的P值小于多少時,可以認定為絕對顯著相關(guān)。()A)1B)0.05C)0.01D)0.001[單選題]78.hbase的底層數(shù)據(jù)以()的形式存在的?A)kevvalueB)列存儲C)行存儲D)實時存儲[單選題]79.一家電商抽取了36個消費者年齡作為隨機樣本，得到樣本均值為40，樣本標準差為6。該電商客戶年齡90%的置信區(qū)間為()z0、05=1、65A)（34，46）B)（38、35，41、65）C)（39、1，40、9）D)（39、15，40、95）[單選題]80.Spark是用以下哪種編程語言實現(xiàn)的()?A)CB)C++C)JAVAD)Scala[單選題]81.識別垃圾郵件屬于。A)預(yù)測建模B)聚類分析C)關(guān)聯(lián)分析D)異常檢測[單選題]82.HBase中如果發(fā)生一個Region的Split,一個HFile文件真正分開到兩個Region的過程發(fā)生在以下什么階段?A)Split過程中B)Flush過程中C)Compaction過程中D)HFile分開過程中[單選題]83.以下哪個方法用于定義線程的執(zhí)行體?A)start()B)init()C)run()D)synchronized()[單選題]84.Hadoop組件在企業(yè)應(yīng)用中,能用于數(shù)據(jù)挖掘的產(chǎn)品有()。A)HiveB)PigC)MahoutD)Hbase[單選題]85.下列關(guān)于HadoopAPI的說法錯誤的是()。A)Hadoop的API只適用于HDFS文件系統(tǒng)B)Configuration類的默認實例化方法是以HDFS系統(tǒng)的資源配置為基礎(chǔ)的C)FileStatus對象存儲文件和目錄的元數(shù)據(jù)D)FSDatalnputStream是java.io.DatalnputStream的子類[單選題]86.Spark原生開發(fā)語言是()。A)ScalaB)JavaC)PyPhtthonD)R語[單選題]87.下列有關(guān)數(shù)據(jù)分析說法正確的是()。A)一類業(yè)務(wù)問題只能用同一種數(shù)據(jù)分析模型來解決。B)CRISP-DM是多個面向不同任務(wù)的分析模型的統(tǒng)稱。C)數(shù)據(jù)分析的前期基礎(chǔ)類數(shù)學知識只有概率論和微積分。D)數(shù)據(jù)分析是包含不同步驟的一整套流程。[單選題]88.以下哪個不屬于數(shù)據(jù)分析報告的開篇部分。()A)索引B)前言C)目錄D)標題[單選題]89.Hadoop中MapReduce組件擅長處理哪種場景的計算任務(wù)?A)迭代計算B)離線計算C)實時交互計算D)流式計算[單選題]90.欲構(gòu)造ArrayList類的一個實例,此類繼承了List接口,下列個方法是正確的?()A)ArrayListmyList=newObject0;B)ListmyList=newArrayList():C)ArrayListmyList=newList():D)ListmyList=newList():[單選題]91.一個一元線性回歸模型的判定系數(shù)R2=0.8，那么下列解釋中錯誤的是()A)因變量的變差中，有80%可以由自變量與因變量之間的線性關(guān)系來解釋B)在因變量的變動中，有80%是由自變量所決定的C)自變量與因變量之間有著較強的線性關(guān)系D)在訓(xùn)練集中，因變量的估計精度上限為80%[單選題]92.以下哪個不屬于波特五力競爭分析模型的內(nèi)容。()A)潛在競爭者威脅B)替代品威脅C)企業(yè)外部的機會D)供應(yīng)商議價能力[單選題]93.以下哪些選項屬于Hive的數(shù)據(jù)存儲模型?A)桶B)數(shù)據(jù)庫C)分區(qū)D)表[單選題]94.某公司的總會計師決定用決策模型應(yīng)對不確定性問題。目前,公司有兩種方案可供選擇,與另一跨國公司聯(lián)合投資或不聯(lián)合投資。總會計師提供了以下信息:方案1:聯(lián)合投資的結(jié)果和概率:成功概率為60%,投資成本為1200萬元,投資成功的現(xiàn)金流為2000萬元,投資不成功的現(xiàn)金流為200萬元,其他成本為0元,至此時已發(fā)生的成本為120萬元。方案2:不聯(lián)合投資的結(jié)果和概率;至此時已發(fā)生的成本為120萬元,其他成本為500000元。下列哪項分別正確地反映了聯(lián)合投資與不聯(lián)合投資的期望值?0A)800000元和-1700000元B)-700000元和-500000元C)800000元和-500000元D)-700000元和-1700000元[單選題]95.在下表中查詢員工人數(shù)大于1人的部門以及該部門的平均績效成績表名:績效成績A)selectB)selectC)selectD)select[單選題]96.下列選項中,哪個是對分類器效果驗證指標中準確率的正確表述。)A)預(yù)測為正的數(shù)據(jù)在總數(shù)據(jù)中的比例B)預(yù)測正確的數(shù)據(jù)在總數(shù)據(jù)中的比例C)預(yù)測為正的數(shù)據(jù)中實際為正的數(shù)據(jù)所占比例D)實際為正的數(shù)據(jù)中被預(yù)測為正的數(shù)據(jù)所占比例[單選題]97.下列關(guān)于數(shù)據(jù)挖掘說法正確的是()。A)數(shù)據(jù)挖掘更加注重預(yù)測B)數(shù)據(jù)挖掘在方法論上與統(tǒng)計模型沒有區(qū)別C)數(shù)據(jù)挖掘更加注重對于前期各種假設(shè)的檢驗D)數(shù)據(jù)挖掘不屬于數(shù)據(jù)分析范疇[單選題]98.在對某個多元線性回歸模型的分析中，如果某自變量的VIF=1，這說明()A)此自變量與因變量不存在線性相關(guān)性B)此自變量與其他自變量不存在線性相關(guān)性C)此模型存在非常嚴重的共線性D)此多元回歸模型的R2=0[單選題]99.在Flink的運行流程中,負責申請資源的角色是?A)ResourcemanagerB)JobmanagerC)ClientD)Taskmanager[單選題]100.Spark是用以下那種編程語言實現(xiàn)的?A)CB)C++C)javaD)Scala[單選題]101.以下關(guān)于Hive操作描述不正確的是()。A)Hive是一個建立在hadoop文件系統(tǒng)上的數(shù)據(jù)倉庫架構(gòu),可以用其對HDFS上B)Hive依賴于MapReduce處理數(shù)據(jù)C)Hive的加載數(shù)據(jù)時候,可以用local進行修飾,表示從某個本地目錄下加載數(shù)據(jù)D)Hive一般可以用于實時的查詢分析[單選題]102.關(guān)于中位數(shù)描述錯誤的是()。A)在有極端數(shù)值出現(xiàn)時,中位數(shù)作為分析現(xiàn)象中集中趨勢的數(shù)值,比平均數(shù)更有代表性B)主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)C)各變量值與中位數(shù)的離差絕對值之和最小D)中位數(shù)一般與算數(shù)平均值接近[單選題]103.Kafka集群中,Kafka服務(wù)端部署的角色是A)ProducerB)ConsumerC)ZooKeeperD)Broke[單選題]104.下面關(guān)于Zookeeper特性的描述錯誤的是?A)消息更新只能成功或者失敗,沒有中間狀態(tài)B)Zookeeper節(jié)點數(shù)必須為奇數(shù)個C)一條消息要被超過半數(shù)的Server接收,它將可以成功寫入磁盤D)客戶端所發(fā)送的更新會按照它們被發(fā)送的順序進行應(yīng)用[單選題]105.kafka-clustermirroring工具可以實現(xiàn)以下那些功能?()A)kafka集群數(shù)據(jù)同步方案B)kafka單集群內(nèi)數(shù)據(jù)備份C)kafka單集群內(nèi)數(shù)據(jù)恢復(fù)D)以全部不對[單選題]106.下面對Streaming的特性說法正確的是()?A)如果并不要求每個消息必須被處理(允許在處理過程中丟失一些信息),那么可以關(guān)閉消息的可靠處理機制,從而可以獲取較好的性能。B)關(guān)閉消息的可靠處理機制意味著系統(tǒng)中的消息數(shù)不會減少。C)將參數(shù)Config.TOPOLOGY_ACKERS設(shè)置為1可以關(guān)閉消息的可靠性處理機制D)Spout發(fā)送個消息時,使用指定消息messageID的接口進行發(fā)送可以關(guān)閉消息的可靠性處理機制。[單選題]107.以下算法中,不屬于基于原型的聚類算法的是()。A)EM算法B)模糊C均值C)SOMD)CLIQUE[單選題]108.什么是KDD?()A)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)B)動態(tài)知識發(fā)現(xiàn)C)文檔知識發(fā)現(xiàn)D)領(lǐng)域知識發(fā)現(xiàn)[單選題]109.下面哪個函數(shù)是publicvoidaMethod({.}的重載函數(shù)?A)voidaMethod(){...}B)publicintaMethod(f...)C)publicvoidaMethod(){...}D)publicintaMethod(intm){...}[單選題]110.將總體分成均衡的幾個部分,然后按照預(yù)先定出的規(guī)則,從每一部分抽取一個個體,得到所需要的樣本,這種抽樣方法叫做()。A)隨機抽樣B)分層抽樣C)整群抽樣D)系統(tǒng)抽樣[單選題]111.層次聚類中，聚類的變量類型是()A)連續(xù)變量B)分類變量C)兩者都可以D)不確定[單選題]112.關(guān)于Hive與Hadoop其他組件的關(guān)系,以下描述錯誤的是?A)Hive最終將數(shù)據(jù)存儲在HDFs中B)HiveSQL其本質(zhì)是執(zhí)行MapReduce任務(wù)C)Hive是Hadoop平臺的數(shù)據(jù)倉庫工具D)hive對HBase有強依賴[單選題]113.使用JAVAAPI進行HBase操作,以下命令輸寫正確的是()。A)HBaseTestCase.get(tablename);B)HBaseTestCase.get(tablename,'row1?;C)HBaseTestCase.delete(tablename,'row1','row2');D)HBaseTestCase.scan(tablename,'row1''row2');[單選題]114.數(shù)據(jù)挖掘中NaiveBayes于什么方法?()A)聚類B)分類C)時間序列D)關(guān)聯(lián)規(guī)則[單選題]115.下列有關(guān)回歸分析的說法,錯誤的是()。A)回歸分析的變量之間要有實際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象隨意進行回歸分析,要結(jié)合專業(yè)知識對兩事物之間是否存在因果關(guān)系作出合理解釋和結(jié)論。B)在進行線性回歸分析進行的數(shù)據(jù)準備的時候,要求因變量y和自變量x都是符合總體正態(tài)的隨機變量。C)回歸直線不要隨意外延D)所有非線性回歸都可以轉(zhuǎn)化為線性回歸[單選題]116.LSM結(jié)構(gòu)的數(shù)據(jù)首先存儲在()。A)硬盤上B)內(nèi)存中C)磁盤陣列中D)閃存中[單選題]117.以下關(guān)于層次聚類的描述中，錯誤的是()A)層次聚類也叫作系統(tǒng)聚類B)層次聚類法通常分為自底向上和自頂向下C)層次聚類的過程非常清楚，會形成類似樹狀的聚類圖譜，便于理解和檢查D)層次聚類適用于數(shù)據(jù)量非常大或者變量非常多的項目[單選題]118.分類算法就是按照某種標準給對象貼標簽,再根據(jù)標簽來歸類,以下屬于分類算法的是【)。A)DBSCANB)C4.5C)K-MeanD)EM第2部分：多項選擇題，共74題，每題至少兩個正確答案,多選或少選均不得分。[多選題]119.下列哪項可以作為集群的管理?A)PuppetB)PdshC)ClouderaManagerD)Zookeeper[多選題]120.以下敘述正確的有()。A)兩變量獨立,兩者的皮爾森相關(guān)系數(shù)必然等于0B)兩變量皮爾森相關(guān)系數(shù)不等于0.兩者必然不獨立C)皮爾森相關(guān)系數(shù)是否等于零,不能指明兩變量是否獨立D)兩變量不獨立,兩者的皮爾森相關(guān)系數(shù)必然不等于0[多選題]121.若想分析分類變量之間的相關(guān)性，可以采用以下哪種方法()A)卡方檢驗B)t檢驗C)計算皮爾遜相關(guān)系數(shù)D)計算列聯(lián)相關(guān)系數(shù)(coefficient[多選題]122.以下哪些是集中趨勢分析的指標。()A)均值B)中位數(shù)C)眾數(shù)D)四分位數(shù)[多選題]123.可以用于表示某公司一年中每個月銷量變化的數(shù)據(jù)圖形類型是()。A)矩形豎圖B)柱狀圖C)堆積面積圖D)雷達圖[多選題]124.Hive中的這條命令""SELECTa.salary,b.addressFROMemployeeaJOIN(SELECTaddressFROIemployeeinfowhereprovince=zhejiang)bONa:?"是個什么類型的操作?A)導(dǎo)入數(shù)據(jù)B)join查詢C)創(chuàng)建表D)子查詢[多選題]125.邏輯回歸中常用的篩選變量的方法有()A)Wald檢驗B)似然比檢驗C)F檢驗D)主觀判斷[多選題]126.Zookeeper可以為FusionInsight哪些提供分布式管理支持?A)HiveB)loaderC)hbaseD)Spark[多選題]127.Flink的兼容性體現(xiàn)在以下哪些方面?A)YARN能夠作為F1ink集群的資諒調(diào)度管理器B)能夠與Hadoop原有的Mappers和Reducers混合使C)能夠使用Hadoop的格式化輸入和輸出口D)能夠從本地獲取數(shù)據(jù)[多選題]128.下列模型中,可用于平穩(wěn)時間序列的擬合的是()。A)線性隨機模型B)ARMA模型C)混合自回歸模型D)趨勢模型[多選題]129.現(xiàn)有一家企業(yè)，希望估計其客戶的年齡均值，可以采用的抽樣方法有()A)簡單隨機抽樣B)分層抽樣C)配額抽樣D)滾雪球抽樣[多選題]130.某大樣本數(shù)據(jù)集的缺失值占比約10%。數(shù)據(jù)分析師小A首先刪除了所有有缺失值的樣本，建立了回歸模型。然后用某種方法進行了缺失值處理后，重新建立了回歸模型，發(fā)現(xiàn)模型的VIF值較之前有了很大的增幅。請問小A有可能采用的哪種方法進行的缺失值處理？()A)均值填補B)K-means聚類填補C)回歸填補D)忽略缺失值的極大似然估計[多選題]131.以下哪些是典型的關(guān)聯(lián)規(guī)則應(yīng)用場景。()A)穿衣搭配推薦B)依據(jù)用戶軌跡的商戶精準營銷C)實時新聞推薦D)金融客戶交叉銷售[多選題]132.下面哪些是Hadoop2.x的組件?A)SparkB)HiveC)HBaseD)GFS[多選題]133.在假設(shè)檢驗中，關(guān)于P值說法正確的是()A)P值是一個概率值B)P值小于顯著性水平，則拒絕原假設(shè)C)P值大于顯著性水平，則無法拒絕原假設(shè)D)P值的數(shù)值等于檢驗統(tǒng)計量[多選題]134.以下算法中對缺失值不敏感的是()。A)Logistic回歸B)CART決策樹C)SVM算法D)樸素貝葉斯[多選題]135.以下哪些選項于fusioninsight數(shù)據(jù)安全性?A)操作系統(tǒng)安全加固B)組件數(shù)據(jù)加密C)數(shù)據(jù)完整性校驗D)用戶權(quán)限認證管理[多選題]136.HBase的數(shù)據(jù)文件HFile中一個Keyvalue格式包含哪些信息?A)KevB)valueC)TimeStampD)Keytype[多選題]137.SQL中的HAVING用法,正確的有()。A)HAVING子句必須與GROUPBY子句同時使用,不能單獨使用B)使用HAVING子句的同時不能使用WHERE子句C)使用HAVING子句的同時可以使用WHERE子句D)使用HAVING子句的作用是限定分組的條件[多選題]138.方差分析的基本假設(shè)前提是()。A)各處理條件下的樣本均來自正態(tài)總體B)各處理條件下的樣本相互獨立C)各處理條件下樣本的方差都相等D)各處理條件下樣本均值相等方差可以不等[多選題]139.下列關(guān)于worker(工作進程)、executor(線程)、Task(任務(wù))說法正確的是?A)每個Execute(線程)可以運行多個task(任務(wù))B)每個worker可以運行多個Executor(線程)C)每個Executor(線程)可以運行不同組件(Spout或Bolt)的rask(任務(wù))D)每個worker只能為個拓撲運行executor(線程)[多選題]140.Spark有哪些特點?A)快B)靈C)輕D)1巧[多選題]141.大數(shù)據(jù)的主要特征表現(xiàn)為()。A)數(shù)據(jù)容量大B)商業(yè)價值高C)處理速度快D)數(shù)據(jù)類型多[多選題]142.小張為了進行客戶價值評估，建立了多元線性回歸模型，為了對殘差的正態(tài)分布進行檢驗，他可以對殘差進行()A)繪制頻數(shù)分布圖B)繪制P-P圖C)進行KS檢驗D)繪制Q-Q圖[多選題]143.Loader作業(yè)的配置包括以下哪些步驟()?A)基本信息B)輸入配置C)轉(zhuǎn)換D)輸出配置[多選題]144.HBase提供多種數(shù)據(jù)訪問接口的方式,包含接口有()。A)JavaAPIB)HBaseShellC)ThrifGatewayD)RESTGateway[多選題]145.問題結(jié)構(gòu)是由()構(gòu)成的。A)現(xiàn)狀B)直接原因C)間接原因D)最終原因[多選題]146.AGNES算法可分為【)。A)單鏈算法B)多鏈算法C)全鏈算法D)均鏈算法[多選題]147.收集整理信息時的競爭分析包含哪些內(nèi)容。()A)確定行業(yè)中主要競爭者B)收集競爭對手的相關(guān)信息C)收集行業(yè)關(guān)鍵技術(shù)信息D)搜集產(chǎn)業(yè)鏈上下游主要環(huán)節(jié)[多選題]148.下面哪些不是spark的機器學習庫？A)MapReduceB)HDFSC)HBaseD)MLlib[多選題]149.FusioninsightManager的主要功能有以下哪些?()A)數(shù)據(jù)集成B)系統(tǒng)管理C)安全管理D)服務(wù)治理[多選題]150.云計算的特點包括以下哪些方面?A)服務(wù)可計算B)高性價比C)服務(wù)可租用D)低使用度[多選題]151.對于SCADA系統(tǒng)來說,需要監(jiān)視下列哪些數(shù)據(jù)A)遙測B)退信C)遙調(diào)D)遙控[多選題]152.以下關(guān)于主成分分析的描述正確的有()A)主成分分析的本質(zhì)就是找到解釋變量的公共因子和特殊因子B)在主成分分析中，對應(yīng)最大特征值的特征向量，其方向正是協(xié)方差矩陣變異最大的方向C)我們一般只保留的前k個主成分，其對應(yīng)主成分特征根之和大于1就可以了D)我們一般使得保留的前k個主成分累計能夠解釋數(shù)據(jù)80%以上的變異[多選題]153.Hadoop分布式文件系統(tǒng)(HDFS)具有(】的特性。A)適合數(shù)據(jù)批量處理B)數(shù)據(jù)處理能力極強C)最大化吞吐率D)允許計算向數(shù)據(jù)遷移[多選題]154.HBase集群定時執(zhí)行Compaction的目的是什么?A)減少同一個Regin同個ColumnFamily下的文件數(shù)目B)提升數(shù)據(jù)讀取性能C)減少同一個ColumnFamily的文件數(shù)據(jù)D)減少同一個Region的文件數(shù)目[多選題]155.關(guān)于HadoopHDFS的冗余數(shù)據(jù)存儲設(shè)計的優(yōu)點,下面說話正確的是()。A)加快數(shù)據(jù)的傳輸速度,冗余備份可以并行訪問數(shù)據(jù),加快了操作訪問效率B)容易的檢查數(shù)據(jù)錯誤,冗余備份機制可以用來互相參照,容易檢查數(shù)據(jù)錯誤C)容易保持數(shù)容易保持數(shù)據(jù)的一致性,冗余備份機制使得即使有一個副本壞掉了,只要副本量低于預(yù)設(shè)值,系統(tǒng)會自動復(fù)制副本達到預(yù)設(shè)值據(jù)的一致性/冗余備份機制使得即使有一個副本壞掉只D)提升磁盤空間的利用率,冗余備份機制使得磁盤空間有效利用[多選題]156.描述統(tǒng)計包括哪些部分。()A)集中趨勢分析B)離散趨勢分析C)相關(guān)分析D)D推斷統(tǒng)計[多選題]157.建立大數(shù)據(jù)需要設(shè)計一個什么樣的大型系統(tǒng)?A)能夠把應(yīng)用放到合適的平臺上B)能夠開發(fā)出相應(yīng)應(yīng)用C)能夠處理數(shù)據(jù)D)能夠存儲數(shù)據(jù)[多選題]158.下列關(guān)于大數(shù)據(jù)的說法中,錯誤的是()。A)大數(shù)據(jù)具有體量大、結(jié)構(gòu)單一、時效性強的特征B)處理大數(shù)據(jù)需采用新型計算架構(gòu)和智能算法等新技術(shù)C)大數(shù)據(jù)的應(yīng)用注重相關(guān)分析而不是因果分析D)大數(shù)據(jù)的應(yīng)用注重因果分析而不是相關(guān)分析[多選題]159.大數(shù)據(jù)采集中面臨的主要問題有以下哪些?A)如何避免重復(fù)數(shù)據(jù)B)數(shù)據(jù)源多種多樣,數(shù)據(jù)量大、變化快C)如何保證數(shù)據(jù)的質(zhì)量D)如何保證數(shù)據(jù)采集的可靠性[多選題]160.以下關(guān)于閔可夫斯基距離和杰卡德相似系數(shù)的說法，正確的是()A)歐氏距離可以看成是特殊形式的閔可夫斯基距離B)閔可夫斯基距離用于連續(xù)型數(shù)據(jù)C)杰卡德相似系數(shù)用于分類數(shù)據(jù)D)杰卡德相似系數(shù)用于連續(xù)型數(shù)據(jù)[多選題]161.C4.5算法是由RossQuinlan開發(fā)的用于產(chǎn)生決策樹的算法,以下描述正確的有(1-A)每個節(jié)點的分支度只能為2B)使用gainratio作為節(jié)點分割的依據(jù)C)可以處理數(shù)值型態(tài)的字段D)可以處理空值的字段[多選題]162.以下屬于分類器模型評價指標的有(A)預(yù)測準確度B)recallC)模型描述的簡潔度D)F1-Score[多選題]163.下列哪些措施是為了保障數(shù)據(jù)的完整性()A)元數(shù)據(jù)可靠性保證B)重建失效數(shù)據(jù)盤的副本數(shù)據(jù)C)安全模式D)集群數(shù)據(jù)均衡[多選題]164.以下哪幾種數(shù)據(jù)結(jié)構(gòu)被AutoreleasePoolPage使用()A)數(shù)組B)字典C)鏈表D)棧[多選題]165.在層次聚類中，可以用來定義兩個類之間距離的方法有()A)最短距離法B)最長距離法C)中間距離法D)重心法[多選題]166.從方向上，逐步回歸可以分為以下幾類()A)向前選擇法B)向后刪除法C)雙向法D)完全法[多選題]167.數(shù)據(jù)分析結(jié)果呈現(xiàn)需要做哪些準備工作。()A)確定表達的主題B)確定對比關(guān)系C)選擇圖形D)講解與說明[多選題]168.關(guān)于單因素方差分析，下列說法正確的是()A)組內(nèi)平方和只包含隨機誤差B)組間平方和只包含系統(tǒng)誤差C)如果組間均方遠大于組內(nèi)均方，那么就說明不同水平之間均值存在著顯著差異。D)如果組間均方遠大于組內(nèi)均方，那么就說明分類變量對于數(shù)值變量有顯著影響。[多選題]169.相關(guān)分析可以做到()。A)判定現(xiàn)象之間有無關(guān)系B)判定現(xiàn)象之間關(guān)系的方向C)判定相關(guān)關(guān)系的緊密程度D)說明現(xiàn)象之間聯(lián)系的具體形式[多選題]170.大數(shù)據(jù)加電子商務(wù)的應(yīng)用方向有()。A)用戶畫像B)精準營銷C)個性化推薦D)動態(tài)定價[多選題]171.分析報告的模式包括以下哪些。()A)專題式B)綜合式C)工作匯報式D)金字塔式[多選題]172.以下選項中屬聚類算法的是()。A)K-MeansB)DBSCANC)AprioriD)KNN[多選題]173.下面關(guān)于Hbase的特性描述正確的是(1。A)高可靠性B)高性能C)面向列D)可伸縮[多選題]174.關(guān)于Flume,下列說法錯誤的是?A)Flume級聯(lián)節(jié)點之間的數(shù)據(jù)傳輸支持加密B)Rlume支持多級聯(lián)和多路復(fù)用C)Source到Channel到Sink等進程內(nèi)部有加密的必要D)Flume級聯(lián)節(jié)點之間的數(shù)據(jù)傳輸不支持壓縮[多選題]175.Streaming的處理節(jié)點Bolt中,可以完成以下哪些操作?()A)連接運算B)過濾(Filter)C)連接數(shù)據(jù)庫D)業(yè)務(wù)處理[多選題]176.FusioninsightHD系統(tǒng)中使用Streaming客戶端Shell命令提交了拓撲之后,使用StormUl查看發(fā)現(xiàn)該拓長時間沒有處理數(shù)據(jù),可能原因有?()A)查看客戶端異常堆棧,判斷是否客戶端使用問題B)查看主Nimbus的運行日志,判斷是否Nimbus服務(wù)端異常C)查看Supervisor運行日志,判斷是否Supervisor異常D)查看Worker運行日志[多選題]177.Spark適用于以下哪些場景?A)交互式查詢B)實時流處理C)批處理D)圖計算[多選題]178.分類測試集的選取方法可以有以下哪些。()A)均分法B)保持法C)隨機二次抽樣法D)交叉驗證[多選題]179.在大數(shù)據(jù)時代,企業(yè)所面臨的挑戰(zhàn)有以下哪些?A)企業(yè)各部門間數(shù)據(jù)分散,相同數(shù)據(jù)在各內(nèi)部存儲格式不一致B)數(shù)據(jù)結(jié)構(gòu)多樣化C)競爭對手的技術(shù)進步D)數(shù)據(jù)存在噪音、缺失、存儲類型不規(guī)范等問題,需要進行大量的數(shù)據(jù)預(yù)處理工作[多選題]180.云計算使得使用信息的存儲是一個【】的方式,它會大大地節(jié)約網(wǎng)絡(luò)的成本,使得網(wǎng)絡(luò)將來越來越泛在、越來越普及,成本越來越低。A)分布式B)密閉式C)密集式D)共享式[多選題]181.收集整理信息時的行業(yè)環(huán)境有()。A)行業(yè)規(guī)模及發(fā)展速度B)行業(yè)競爭狀況C)行業(yè)挑戰(zhàn)及機遇D)行業(yè)發(fā)展趨勢及方向[多選題]182.Hadoop集群具有以下哪個優(yōu)點?A)高容錯性B)高成本性C)高可靠性D)高擴展性[多選題]183.Flink流式處理的數(shù)據(jù)源類型包括?()A)CollectionsB)JDBCC)SocketstreamsD)Flles[多選題]184.光纜是數(shù)據(jù)傳輸中最有效的一種傳輸介質(zhì),它有()A)頻帶較寬B)電磁絕緣性能好C)衰減較小D)無中繼段長[多選題]185.MLlib可以實現(xiàn)哪些數(shù)據(jù)分析操作？A)分類B)回歸C)聚類D)降維[多選題]186.ROC曲線是基于()來判斷邏輯回歸模型的效果A)靈敏度B)特異度C)效度D)速度[多選題]187.以下哪種方法可以用于分析時間序列數(shù)據(jù)()A)差分法B)移動平均值法(MA)C)自回歸法(AR)D)隨機效應(yīng)法(RM)[多選題]188.統(tǒng)計局進行CPI統(tǒng)計中的價格采集,采用的三定原則是(8A)定時B)定量C)定點D)定人[多選題]189.以下統(tǒng)計指標,不受極值影響的是()。A)平均數(shù)B)四分位差C)極差D)D眾數(shù)[多選題]190.以下是Spark中executor的作用是()A)保存計算的RDD分區(qū)數(shù)據(jù)B)向Driver反向注冊C)接受Driver端發(fā)送來的任務(wù)Task,作用在RDD上進行執(zhí)行D)做資源調(diào)度任務(wù)[多選題]191.關(guān)于Hbase存儲型的描述正確的是?A)即使是key值相同,qualifier也相同的多個keyvalue.也可能有多個,此時使用時間戳B)同一個key值可以關(guān)聯(lián)多個valueC)keyvalue期有時間戳,類型等關(guān)鍵信息D)每一個keyvalue都有一個qualifier標識[多選題]192.大數(shù)據(jù)作為種數(shù)據(jù)集合,它的含義包括()。A)數(shù)據(jù)很大B)很有價值C)構(gòu)成復(fù)雜D)變化很快第3部分：判斷題，共68題，請判斷題目是否正確。[判斷題]193.?大數(shù)據(jù)?是指存儲量超過100TB的數(shù)據(jù)集。A)正確B)錯誤[判斷題]194.Python中代碼縮進使用的是空格或Tab,這2種縮進可以混用。A)正確B)錯誤[判斷題]195.對高價值高度聚合的信息和知識的批次處理是大數(shù)據(jù)行業(yè)主要商業(yè)訴求。A)正確B)錯誤[判斷題]196.機器學習是人工智能的一個分支。A)正確B)錯誤[判斷題]197.Spark任務(wù)的Executor可以執(zhí)行多個taskA)正確B)錯誤[判斷題]198.相關(guān)變量中,多個自變量響一個或多個因變量的統(tǒng)計分析方法稱為多元回歸分析。A)正確B)錯誤[判斷題]199.平均數(shù)消除了個體之間的差異,容易導(dǎo)致誤判。A)正確B)錯誤[判斷題]200.DBSCAN算法會刪掉它認為是噪聲點的數(shù)據(jù)點。A)正確B)錯誤[判斷題]201.Kafka是一個高吞吐,分布式,基于發(fā)布訂閱的消息系統(tǒng),利用Kafka技術(shù)可在廉價PCServer上搭建起大規(guī)模消息系統(tǒng)。A)正確B)錯誤[判斷題]202.Yam可以作為Spark的資源調(diào)度框架A)正確B)錯誤[判斷題]203.Spark應(yīng)用運行時,如果某個task運行失敗則導(dǎo)致整個app運行失敗A)正確B)錯誤[判斷題]204.鏈式MapReduce計算中,對任意一個MapReduce作業(yè),Map和Reduce階段可以有無限個Mapper,但Reducer只能有一個。A)正確B)錯誤[判斷題]205.聚類分析可以看作是一種非監(jiān)督的分類,沒有訓(xùn)練集。A)正確B)錯誤[判斷題]206.一般而言,分布式數(shù)據(jù)庫是指物理上分散在不同地點,但在邏輯上是統(tǒng)一的數(shù)據(jù)庫。因此分布式數(shù)據(jù)庫具有物理上的獨立性、邏輯上的一體性、性能上的可擴展性等特點。A)正確B)錯誤[判斷題]207.在硬件條件充裕的情況下,可在數(shù)據(jù)庫中盡量多的建立索引,因為使用索引可以快速訪問。A)正確B)錯誤[判斷題]208.大數(shù)據(jù)分析可以從海量數(shù)據(jù)中發(fā)現(xiàn)趨勢或者規(guī)律,具有很高的應(yīng)用價值。A)正確B)錯誤[判斷題]209.大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)有著本質(zhì)上的差別,因為大數(shù)據(jù)有專門的處理軟件。A)正確B)錯誤[判斷題]210.數(shù)據(jù)分析挖掘的目的是把隱藏在一大批看似雜亂無章的數(shù)據(jù)中的有價值的信息進行整合并提煉出來，找出所研究對象的內(nèi)在規(guī)律。A)正確B)錯誤[判斷題]211.大數(shù)據(jù)最重要的特點是數(shù)據(jù)量大,噪聲數(shù)據(jù)少,所以收集數(shù)據(jù)過程中要力求精確A)正確B)錯誤[判斷題]212.Hive中?Groupby?指的是通過一定的規(guī)將每一個數(shù)據(jù)集劃分成若干個小的數(shù)據(jù)集然后針對若干個小的數(shù)據(jù)集進行數(shù)據(jù)分組處理。A)正確B)錯誤[判斷題]213.用戶權(quán)限管理基于角色的訪問控制(RBAC),提供可視化的多組統(tǒng)一的集群中用戶權(quán)限管理。A)正確B)錯誤[判斷題]214.Ganglia不僅可以進行監(jiān)控,也可以進行告警。A)正確B)錯誤[判斷題]215.Flume傳輸?shù)目煽啃允侵窮lume在傳輸數(shù)據(jù)過程中,當下一跳的Flume節(jié)點故障或者數(shù)據(jù)接收異常時,可以自動切換到另外一路上繼續(xù)傳輸?()A)正確B)錯誤[判斷題]216.在折線圖中,類別數(shù)據(jù)沿水平軸均勻分布,所有值數(shù)據(jù)沿垂直軸均勻分布。A)正確B)錯誤[判斷題]217.遺傳算法是從單個初始值選代求最優(yōu)解的容易誤入局部最優(yōu)解。A)正確B)錯誤[判斷題]218.S在寫入數(shù)據(jù)是只存2份,那么在寫入過程中,HDFSClient先將數(shù)據(jù)寫入Datanode1,再將數(shù)據(jù)寫入Datanode2。()A)正確B)錯誤[判斷題]219.文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程,又稱信息檢索。A)正確B)錯誤[判斷題]220.Hbase中penscanner的過程,會創(chuàng)建兩種不同的Scanner來讀取H-File和Memstore的數(shù)據(jù),HFile對應(yīng)的ScanStorefilescanner,Memstore對應(yīng)的Scanner為Memstorescanner。A)正確B)錯誤[判斷題]221.時間序列是按時間順序的一組數(shù)字。A)正確B)錯誤[判斷題]222.若一個神經(jīng)網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò))模型無隱藏層,輸出層個數(shù)也只有一個,則可以看做是邏輯回歸模型。A)正確B)錯誤[判斷題]223.神經(jīng)網(wǎng)絡(luò)算法可以使權(quán)值收效到某個值,但并不保證具為誤差平面的全局最小值A(chǔ))正確B)錯誤[判斷題]224.Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。A)正確B)錯誤[判斷題]225.定性變量(或?qū)傩宰兞?分類變量)不能點出直方圖、散點圖或莖葉圖,但可以描繪出它們各類的比例。A)正確B)錯誤[判斷題]226.Hive中的?groupby?指的是通過一定規(guī)則將一個數(shù)據(jù)集劃分成若干個小的數(shù)據(jù)集,然后針對若干個小的數(shù)據(jù)集進行數(shù)據(jù)分組處理。A)正確B)錯誤[判斷題]227.HBase可以有列,可以沒有列族(columnfamily)。A)正確B)錯誤[判斷題]228.以下SQL,收入BETWEEN2000AND5000,表示收入在2000至5000之間,包括2000但不包括5000。A)正確B)錯誤[判斷題]229.Java的字符串必須在一行內(nèi)寫完A)正確B)錯誤[判斷題]230.折線圖可以顯示隨時間(根據(jù)常用比例設(shè)置)而變化的連續(xù)數(shù)據(jù),因此非常適用于顯示在相等時間間隔下數(shù)據(jù)的趨勢。A)正確B)錯誤[判斷題]231.Sink取走數(shù)據(jù)并寫入目的地后,會將event從channel中刪除(】。A)正確B)錯誤[判斷題]232.落在置信區(qū)間外的點通常被認為是離群點。A)正確B)錯誤[判斷題]233.Hadoop框架是用Java實現(xiàn)的,所以MapReduce應(yīng)用程序則一定要用Java來寫A)正確B)錯誤[判斷題]234.SparkonYARN模式下,沒有NodeManager的節(jié)點不能啟動executor執(zhí)行taskA)正確B)錯誤[判斷題]235.在Streaming中,消息可靠性級別中精一次是通過ACK機制來實現(xiàn)的。()A)正確B)錯誤[判斷題]236.Python中用來創(chuàng)建1個空集合的方式是使用一對花括號0。()A)正確B)錯誤[判斷題]237.Nagios不可以監(jiān)控Hadoop集群,因為它不提供Hadoop支持。A)正確B)錯誤[判斷題]238.HDFS分布式文件系統(tǒng)不可以調(diào)整冗余數(shù)據(jù)存儲的位置。A)正確B)錯誤[判斷題]239.使用Shell命令create在HBase系統(tǒng)中添加新表操作。()A)正確B)錯誤[判斷題]240.可以使用get_flashed_messages()全局函數(shù)獲取flash函數(shù)閃現(xiàn)的消息列表()A)正確B)錯誤[判斷題]241.NameNode負責管理元數(shù)據(jù)信息metadata,client端每次讀寫請求,它都會從磁盤中讀取或會寫入metadata信息并反饋給cliént端。A)正確B)錯誤[判斷題]242.多行注釋和文檔注釋不可以嵌套使用A)正確B)錯誤[判斷題]243.數(shù)據(jù)分析時,將影響業(yè)務(wù)發(fā)展的因素羅列出來,對不同因素進行主次辨析,井展開遞進分析,要比直接從?想當然?的某個因素匆忙入手要準確和有效得多A)正確B)錯誤[判斷題]244.Colocation同分布文件級的同分下買現(xiàn)文件的快速訪問,避免了因數(shù)據(jù)遷移帶來的大量網(wǎng)絡(luò)開銷.A)正確B)錯誤[判斷題]245.Zookeeper所有節(jié)點都可以處理讀請求。()A)正確B)錯誤[判斷題]246.HDFS中每個數(shù)據(jù)節(jié)點會定期向名稱節(jié)點發(fā)送信息,向名稱節(jié)點報告自己的狀態(tài)A)正確B)錯誤[判斷題]247.Flume傳輸數(shù)據(jù)過程中,sink取走數(shù)據(jù)并寫入目的地后,會將event從channe中國除A)正確B)錯誤[判斷題]248.如果需要完成的任務(wù)是預(yù)測一個連續(xù)值,則這個任務(wù)是回歸,如果是離散值,則是分類。A)正確B)錯誤[判斷題]249.Java標識符中可以使用漢字A)正確B)錯誤[判斷題]250.列表和元組的切片方式不同,列表使用的位置索引,元組使用的是鍵索引。A)正確B)錯誤[判斷題]251.在Flink中,checkpoint機制能夠保證應(yīng)用在運行過程中出現(xiàn)失效時,從某一個檢查點恢復(fù),在此過程中,流快照是根據(jù)數(shù)據(jù)流入建立的()A)正確B)錯誤[判斷題]252.邏輯運算的操作數(shù)必須是布爾型A)正確B)錯誤[判斷題]253.命令行解釋執(zhí)行java應(yīng)用程序必須包含擴展名(.class)A)正確B)錯誤[判斷題]254.Flume的數(shù)據(jù)流可以根據(jù)headers的信息發(fā)送到不同的channel中。()A)正確B)錯誤[判斷題]255.只有整型數(shù)據(jù)可以進行求余(%)運算A)正確B)錯誤[判斷題]256.Python代碼?1>2or3<4?執(zhí)行的結(jié)果為True。A)正確B)錯誤[判斷題]257.自然界中某種事物發(fā)生時其他事物也會發(fā)生,則這種聯(lián)系稱之為關(guān)聯(lián)。A)正確B)錯誤[判斷題]258.channels支持事提供較弱的順序保證,可以連接任何數(shù)量的Source和Sink。A)正確B)錯誤[判斷題]259.神經(jīng)網(wǎng)絡(luò)由于學習速率是固定的,因此網(wǎng)絡(luò)的收斂速度慢需要較長的訓(xùn)練時間A)正確B)錯誤[判斷題]260.KafkaLogssegment文件命名規(guī)附局的第一個segment從0開始,后續(xù)每個segment文件名為上一個全局partionfset(偏移message數(shù))。A)正確B)錯誤1.答案:A解析:2.答案:C解析:組內(nèi)自由度等于觀察數(shù)66-組數(shù)2=64。3.答案:C解析:4.答案:D解析:5.答案:D解析:6.答案:A解析:7.答案:A解析:8.答案:A解析:9.答案:B解析:10.答案:B解析:P值很小，所以很顯著。關(guān)系不等于因果。11.答案:A解析:12.答案:C解析:13.答案:A解析:14.答案:A解析:15.答案:B解析:16.答案:B解析:與一元線性回歸不同在于，多元線性回歸的原假設(shè)為所有自變量前的參數(shù)同時為0。17.答案:B解析:18.答案:D解析:19.答案:C解析:20.答案:C解析:21.答案:D解析:22.答案:D解析:在進行對應(yīng)分析時，由于進行了降維展示，因此原來的信息會受到一定程度的損失。23.答案:B解析:24.答案:C解析:主成分分析關(guān)注變量之間的相關(guān)關(guān)系。因子分析關(guān)注維度的含義。對應(yīng)分析關(guān)注行變量和列變量兩者的相關(guān)性。25.答案:B解析:26.答案:A解析:27.答案:C解析:28.答案:B解析:29.答案:A解析:30.答案:B解析:31.答案:D解析:32.答案:C解析:cor^2=R2。33.答案:A解析:34.答案:A解析:35.答案:B解析:36.答案:B解析:另外三種都只能用于描述數(shù)值型數(shù)據(jù)。37.答案:A解析:38.答案:D解析:39.答案:A解析:修正R2用于評價擬合情況。40.答案:B解析:本題考查SQL語句中正則表達式的使用方法。A與C沒有使用regexp關(guān)鍵字，D使用的模式字符?.?代表字符串中的任意一個字符而非匹配字符串開始的部分，所以只有B能夠正確查詢以?b?開頭的記錄，所以答案為B。41.答案:D解析:42.答案:A解析:43.答案:D解析:如果偏自相關(guān)函數(shù)ACF在n階之后迅速趨近于零，我們稱ACF具有n階截尾性；呈現(xiàn)緩慢的趨近于零，稱為拖尾性。44.答案:B解析:45.答案:D解析:46.答案:C解析:在進行因子分析時，我們可以通過因子旋轉(zhuǎn)來使得最終得到的因子更具有解釋性。47.答案:A解析:48.答案:B解析:邏輯回歸是有監(jiān)督學習的算法。49.答案:A解析:1-(5/6)^4≈0.517750.答案:B解析:51.答案:B解析:52.答案:A解析:余弦相似度表示a、b兩個向量之間夾角的余弦值。等于1時，表明兩個向量方向完全相同，越接近1，表明兩個向量越相似。53.答案:B解析:54.答案:B解析:55.答案:B解析:56.答案:B解析:字符型變量適合姓名。57.答案:D解析:58.答案:A解析:59.答案:A解析:60.答案:A解析:>61.答案:D解析:62.答案:A解析:63.答案:A解析:64.答案:C解析:%匹配多個字符，_匹配一個字符。65.答案:D解析:三種方法都能改變量綱。66.答案:B解析:67.答案:D解析:68.答案:B解析:69.答案:B解析:70.答案:A解析:移動平均法是測定長期趨勢變動的一種常用方法。71.答案:A解析:72.答案:C解析:73.答案:C解析:74.答案:B解析:切比雪夫不等式公式為1-1/k^2，計算得出。75.答案:C解析:76.答案:D解析:77.答案:C解析:78.答案:A解析:79.答案:B解析:>80.答案:D解析:81.答案:A解析:82.答案:C解析:83.答案:C解析:84.答案:C解析:85.答案:A解析:86.答案:A解析:87.答案:D解析:A項，一類業(yè)務(wù)可以由多種不同模型來處理；B項CRISP-DM是數(shù)據(jù)挖掘流程；C項，還包括線性代數(shù)等。88.答案:A解析:89.答案:B解析:90.答案:B解析:91.答案:D解析:根據(jù)判定系數(shù)的定義。92.答案:C解析:93.答案:D解析:94.答案:C解析:95.答案:C解析:本題考查groupby與having的用法，having作為查詢的限定條件后邊要使用聚合函數(shù)，與groupby一起使用。A沒有按照部門分組，B的having后邊沒有跟聚合函數(shù)，D用where限定條件，后邊不能跟聚合函數(shù)。所以正確答案

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)CDA考試(習題卷3)

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)CDA考試(習題卷3)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔