




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
試卷科目:大數(shù)據(jù)開發(fā)基礎(chǔ)大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷12)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎(chǔ)第1部分:單項選擇題,共145題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.從已知事實出發(fā),通過規(guī)則庫求得結(jié)論的產(chǎn)生式系統(tǒng)的推理方式是()A)正向推理B)反向推理C)雙向推理[單選題]2.Kafka日志數(shù)據(jù)文件默認保留的最長時間是多少小時?A)96B)48C)24D)168[單選題]3.在hadoop01上想要連接hadoop02的ZooKeeper服務(wù)器,使用()命令。A)zkCli.sh-serverhadoop02:2181B)zkCli.sh-serverhadoop02:2888C)zkCli.shserverhadoop02:2181D)zkCli.shserverhadoop02:2888[單選題]4.線性判別分析(LDA)從貝葉斯決策理論闡釋,當兩類數(shù)據(jù)同先驗且滿足()時,LDA達到最優(yōu)分類。A)高斯分布B)協(xié)方差相等C)高斯分布且協(xié)方差相等D)協(xié)方差不等[單選題]5.下面哪個工具可以從RDBMS將數(shù)據(jù)導(dǎo)入到HDFS()A)SqoopB)FlumeC)HDFSD)Hive[單選題]6.下列關(guān)于F1值的計算正確的是(__)。A)F1值=正確率*召回率*/(正確率+召回率)B)F1值=正確率*召回率*2/(正確率+召回率)C)F1值=正確率*2/(正確率+召回率)D)F1值=召回率*2/(正確率+召回率)[單選題]7.情感分析技術(shù)可以應(yīng)用于()A)股票市場分析B)互聯(lián)網(wǎng)輿情分析與監(jiān)控C)商品服務(wù)質(zhì)量評估D)以上都是[單選題]8.Python內(nèi)置函數(shù)()可以返回列表、元組、字典、集合、字符串以及range對象中元素個數(shù)A)dimB)lenC)setD)compute[單選題]9.Spark的()組件用于支持實時計算需求。A)SparkSQLB)SparkStreamingC)SparkGraphXD)SparkMLLib[單選題]10.在配置Linux網(wǎng)絡(luò)參數(shù)時,固定IP地址是將路由協(xié)議配置為()。A)staticB)dynamicC)immutableD)variable[單選題]11.Spark的核心概念不包括?A)RDDB)HoqC)寬套依賴D)Shuffle[單選題]12.YARN的http端口默認是()A)80B)8080C)8090D)8088[單選題]13.在方差分析中,()反映的是樣本數(shù)據(jù)與其組平均值的差異A)總離差B)紐間誤差C)抽樣誤差D)組內(nèi)誤差[單選題]14.()情況下,LDA會失敗。A)如果有辨識性的信息不是平均值,而是數(shù)據(jù)的方差B)如果有辨識性的信息是平均值,而不是數(shù)據(jù)方差C)如果有辨識性的信息是數(shù)據(jù)的均值和方差D)以上答案都不正確[單選題]15.某公司在進行大數(shù)據(jù)離線批處理平臺的前期技術(shù)選型,以下哪個大數(shù)據(jù)組件不屬于離線批處理業(yè)務(wù)所涉及到的組件?A)HDFSB)SparkC)StormD)Hive[單選題]16.關(guān)于?三型兩網(wǎng)?,以下()說法不正確:A)建設(shè)樞紐型企業(yè)是立足公司的產(chǎn)業(yè)屬性。B)建設(shè)平臺型企業(yè)是立足公司的社會屬性。C)建設(shè)共享型企業(yè)是立足公司的社會屬性。D)堅強智能電網(wǎng)是以特高壓、超高壓為骨干網(wǎng)架。[單選題]17.下面關(guān)于數(shù)據(jù)查詢的描述正確的是()。--A)查詢數(shù)據(jù)的條件僅能實現(xiàn)相等的判斷B)查詢的數(shù)據(jù)必須包括表中的所有字段C)星號?*?通配符代替數(shù)據(jù)表中的所有字段名D)以上答案都正確[單選題]18.己知一組數(shù)據(jù)的協(xié)方差矩陣P,下面關(guān)于主分量說法錯誤的是()A)主分量分析的最佳準則是對一組數(shù)據(jù)進行接一紐正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計算截尾誤差最小B)在經(jīng)主分量分解后,協(xié)方差矩陣成為對角矩陣C)主分量分析就是K-L變換D)主分量是通過求協(xié)方差矩陣的特征值得到[單選題]19.客戶端首次查詢HBase數(shù)據(jù)庫時,首先需要從哪個表開始查找()A)METAB)ROOTC)用戶表D)信息表[單選題]20.Python中的所有關(guān)鍵字都是()。A)小寫B(tài))大寫C)首字母大寫D)以上都不對[單選題]21.在Map階段中對輸入文件的每一行解析成鍵值對時,每一個鍵值對調(diào)用()次map函數(shù)。A)一B)二C)三D)四[單選題]22.()是表現(xiàn)數(shù)據(jù)分布對稱性的指標A)斜率B)偏斜度C)偏度D)偏離度[單選題]23.將平臺作為服務(wù)的云計算服務(wù)類型是A)IaaSB)SaaSC)PaaSD)以上三項都是[單選題]24.下列哪個不是Explain的關(guān)鍵字()?A)TablescanB)HashJoinC)FilterD)Seqscan[單選題]25.()不是神經(jīng)網(wǎng)絡(luò)的代表A)卷積神經(jīng)網(wǎng)絡(luò)B)遞歸神經(jīng)網(wǎng)絡(luò)C)殘差網(wǎng)絡(luò)D)xgboost算法[單選題]26.下列關(guān)于集成學(xué)習(xí)模型中弱學(xué)習(xí)者的描述錯誤的是()。A)經(jīng)常不會過擬合B)通常帶有高偏差,所以其并不能解決復(fù)雜學(xué)習(xí)問題C)通常會過擬合D)通常擁有低方差[單選題]27.下面哪一項不屬于計算機集群中的節(jié)點?A)主節(jié)點(MasterNode)B)源節(jié)點(SourceNode)C)名稱結(jié)點(NameNode)D)從節(jié)點(SlaveNode)[單選題]28.HDFS中的塊比磁盤中的塊大,其目的是為了()。A)增加存儲空間B)便于存儲較大的文件C)提高存儲空間的利用率D)最小化尋址開銷[單選題]29.下面()是循環(huán)結(jié)構(gòu)的關(guān)鍵字A)whileB)printC)inputD)import[單選題]30.HDFS默認的當前工作目錄是/user/$USER,的值需要在哪個配置文件內(nèi)說明A)mapred-site.xmlB)core-site.xmlC)hdfs-site.xmlD)以上均不是[單選題]31.(__)代表的是生成數(shù)據(jù)的機構(gòu)。A)數(shù)據(jù)資源B)數(shù)據(jù)源C)數(shù)據(jù)端D)數(shù)據(jù)站[單選題]32.以下哪項不是?大數(shù)據(jù)?和傳統(tǒng)的?小數(shù)據(jù)?的區(qū)別?A)數(shù)據(jù)規(guī)模的采樣聚合與全量B)數(shù)據(jù)結(jié)構(gòu)的結(jié)構(gòu)化與非結(jié)構(gòu)化C)數(shù)據(jù)來源的集中于分散D)數(shù)據(jù)質(zhì)量的高低參差不齊[單選題]33.SQL語言中,刪除一個視圖的命令是()A)REMOVEB)CLEARC)DELETED)DROP[單選題]34.以下四種描述中,正確的是()A)、大數(shù)據(jù)和海量數(shù)據(jù)是同一個事物的不同描述B)、數(shù)據(jù)和數(shù)值是同一個事物的不同描述C)、數(shù)據(jù)和數(shù)字是同一個事物的不同描述D)、以上說法均不正確[單選題]35.()推出了人工智能開放平臺,圍繞智能汽車和智能家居,打造了Apll和DueS兩大行業(yè)開放生態(tài)。A)阿里巴巴B)騰訊C)滴滴出行D)百度[單選題]36.關(guān)于文檔數(shù)據(jù)庫的說法,下列哪一項是錯誤的:()A)性能好(高并發(fā))B)缺乏統(tǒng)一的查詢語法C)復(fù)雜性低D)數(shù)據(jù)是規(guī)則的[單選題]37.學(xué)習(xí)率對機器學(xué)習(xí)模型結(jié)果會產(chǎn)生影響,通常希望學(xué)習(xí)率()。A)越小越好B)越大越好C)較小而迭代次數(shù)較多D)較大而迭代次數(shù)較小[單選題]38.IB、M認為,大數(shù)據(jù)是擁有以下4個共同特點(又稱?4V?)中任意一個的數(shù)據(jù)源:極大的數(shù)據(jù)量級、以極快的速度移動、極廣泛的數(shù)據(jù)源類型,以及()。A)、極高的準確性B)、極高的多樣性C)、極高的長久性D)、極高的真實性[單選題]39.tensorflow中的tf.nn.max_pool()的函數(shù),其作用是()。A)圖像輸入B)進行卷積C)進行池化D)圖像輸出[單選題]40.關(guān)于Spark中SparkSQL描述不準確的是?A)SQL語句通過SparkSQL模塊解析為DAG,交給SparkCore執(zhí)行。B)SparksSQL使用場景包括毫秒級實時查詢。C)通過SparkSession提交SQL語句。任務(wù)像普通Spark應(yīng)用一樣提交到集群中分布式運行D)SparksQL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個模塊,可以在Spark應(yīng)用中直接使用SQL語句對數(shù)據(jù)進行操作。[單選題]41.關(guān)于FusionInsightHDStreaming客戶端的Supervisor描述正確的是?A)Supervisor負責(zé)資源分配和資源調(diào)度B)Supervisor負責(zé)接管Nimbus分配的任務(wù),啟動和停止屬于自己管理的worker進程C)Supervisor是運行具體處理邏輯的進程D)Supervisor是一個Topology中接收數(shù)據(jù)然后執(zhí)行處理的組件[單選題]42.下面代碼s=["seashell","gold","pink","brown","purple","tomato"]print(s[4:])的輸出結(jié)果是A)['purple']B)['seashell','gold','pink','brown']C)['gold','pink','brown','purple','tomato']D)['purple','tomato'][單選題]43.推動多元化新興產(chǎn)業(yè)發(fā)展,重點發(fā)揮公司()企業(yè)優(yōu)勢,聚集產(chǎn)業(yè)各方,構(gòu)建多方參與、共商共建共贏的多元產(chǎn)業(yè)生態(tài),A)聚集型B)共享型C)樞紐型D)計劃型[單選題]44.存儲過程是一組預(yù)先定義并()的Transact-SQL語句A)保存B)編寫C)編譯D)解釋[單選題]45.在數(shù)據(jù)庫的發(fā)展歷史上,先后出現(xiàn)過多種數(shù)據(jù)庫類型,但是,不包括:()A)網(wǎng)狀數(shù)據(jù)庫B)球形數(shù)據(jù)庫C)層次數(shù)據(jù)庫D)關(guān)系數(shù)據(jù)庫[單選題]46.以下說法結(jié)果錯誤的是()A)10==11結(jié)果:FalseB)10!=10結(jié)果:FalseC)10>=10結(jié)果:FalseD)5<10結(jié)果:True[單選題]47.Hive中的解釋器(complier),優(yōu)化器(optimizer),執(zhí)行器(executor)組件用于HQL語句從詞法分析,語法分析,編譯,優(yōu)化以及查詢計劃的生成,生成的查詢計劃存儲在()中,并在隨后由()調(diào)用執(zhí)行。A)HDFS,MapReduceB)HBase,YarmC)內(nèi)存,MapReduceD)HDFS,Yarn[單選題]48.假設(shè)每個用戶最低資源保障設(shè)置為yarn,scheduler,capacity,root,QueueA.minimum-user-limit-percent=24。則以下說法錯誤的是:()。A)第3個用戶提交任務(wù)時,每個用戶最多獲得33.33%的資源B)第2個用戶提交任務(wù)時每個用戶最多獲得50%的資源C)第4個用戶提交任務(wù)時,每個用戶最多獲得25%的資源D)第5個用戶提交任務(wù)時,每個用戶最多獲得20%的資源[單選題]49.掌握智慧物聯(lián)的發(fā)展重點,應(yīng)用人工智能和()等新技術(shù),實現(xiàn)區(qū)域自治、云邊協(xié)同和能力開放。A)云計算B)能源生態(tài)C)邊緣計算D)數(shù)據(jù)共享[單選題]50.有關(guān)Hive支持的基本數(shù)據(jù)類型,以下那個是8byte有符合整數(shù)()A)TinyintB)SmalintC)IntD)Bigint[單選題]51.下面對FsImage的描述,哪個是錯誤的?A)FsImage文件沒有記錄每個塊存儲在哪個數(shù)據(jù)節(jié)點B)FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式C)FsImage用于維護文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)D)FsImage文件記錄了每個塊具體被存儲在哪個數(shù)據(jù)節(jié)點[單選題]52.在神經(jīng)網(wǎng)絡(luò)中引人了非線性的是()A)隨機耕度下降B)修正線性單元(ReLU)C)卷積函數(shù)D)以上答案都不正確[單選題]53.以下哪個不屬于大數(shù)據(jù)對外服務(wù)模式:()A)SaaS服務(wù)B)API接口C)專項服務(wù)D)數(shù)據(jù)直供[單選題]54.數(shù)據(jù)科學(xué)基本原則中,"基于數(shù)據(jù)的智能"的主要特點是()。A)數(shù)據(jù)簡單、但算法簡單B)數(shù)據(jù)復(fù)雜、但算法簡單C)數(shù)據(jù)簡單、但算法復(fù)雜D)數(shù)據(jù)復(fù)奈、但算法復(fù)雜[單選題]55.()是一個分布式的基于發(fā)布/訂閱模式的消息隊列。A)FlumeB)KafkaC)ZookeeperD)Hive[單選題]56.對于GaussDB200的數(shù)據(jù)存儲流程,下列說法正確的是()?A)通過GaussDB200的數(shù)據(jù)分布規(guī)則數(shù)據(jù)會自動分布,那么對表的設(shè)計可以比較隨意B)導(dǎo)入的數(shù)據(jù)直接從客戶端進入磁盤中C)數(shù)據(jù)的分布一般默認按照分布鍵的HASH值分布D)數(shù)據(jù)的分布一般默認按照數(shù)據(jù)大小均勻分布[單選題]57.假設(shè)有命令importnumpyasnpArray1=np.linspace(1,5,3,dtype=int)print(Array1)則,執(zhí)行結(jié)果是A)[135]B)[125]C)[1.3.5.]D)[1.2.5.][單選題]58.Flink快照機制的核心是barriers不包含以下哪個特點?A)將前后周期快照數(shù)據(jù)分隔B)攜帶所屬快照周期的IDC)嚴格的按照線性流動D)會阻斷數(shù)據(jù)流,重量級元組[單選題]59.以下關(guān)于數(shù)據(jù)收集工具的描述,不準確的是?A)Loader提供了本集群內(nèi)部HDFS和HBase之間的數(shù)據(jù)導(dǎo)入或?qū)С觥)Loader是實現(xiàn)PusionInsightHD與關(guān)系型數(shù)據(jù)庫、文件系統(tǒng)之間交換數(shù)據(jù)和文件的數(shù)據(jù)加載工具C)Sqoop是一款開源的工具,主要用于在Hive與傳統(tǒng)的數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞,可以將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS中,也出可將HDFS的數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫中D)Kettle是一款國外開源的ETL工具,純java編寫,目前僅可以在Linux上運行。數(shù)據(jù)抽取高效穩(wěn)定[單選題]60.哪個不是Hbase的操作語法?A)create'my_tb',infoB)listC)createtabletb1(idint,namestring)D)scanmy[單選題]61.一個簡單的Series是由()的數(shù)據(jù)組成的A)兩個數(shù)組B)三個數(shù)組C)一個數(shù)組D)四個數(shù)組[單選題]62.大數(shù)據(jù)計算服務(wù)中的日志表log是一張分區(qū)表,分區(qū)鍵是dt,每天產(chǎn)生一個分區(qū)用于存儲當天新增的數(shù)據(jù),現(xiàn)在共有dt=?20160101?至dt=?20160131?共31個分區(qū)的數(shù)據(jù),為了刪除20160101當天新增的數(shù)據(jù),可以通過()方式實現(xiàn)。A)deletefromlogwheredt=?20160101?B)altertablelogdroppartition(dt=?20160101?)C)truncatetablewheredt=?20160101?D)droppartitionlog(dt=?20160101?)[單選題]63.()算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項日集的算法A)FP-grow也B)EClatC)聚類D)Apdori[單選題]64.列對于PCA說法:①我們須在使用PCA前標準化數(shù)據(jù);②我們應(yīng)該選擇使得模型有最大vanance的主成分③我們應(yīng)該選擇使得模型有最小vanance的主成分;④我們可以使用PCA在低維度上做數(shù)據(jù)可視化正確的是()A)①、②、④B)②、④C)③、④D)①、③[單選題]65.公司數(shù)據(jù)資產(chǎn)管理是對數(shù)據(jù)資產(chǎn)從產(chǎn)生到應(yīng)用的全生命周期進行管理,主要包括數(shù)據(jù)資產(chǎn)的規(guī)劃與計劃管理、標準管理、需求管理、生成管理、共享與開放管理、應(yīng)用管理、維護管理、質(zhì)量管理和()等內(nèi)容。A)安全管理B)評價考核C)存儲管理D)維護更新[單選題]66.用于將事務(wù)處理寫到數(shù)據(jù)庫的命令是()A)insertB)rollbackC)commitD)savepoint[單選題]67.關(guān)于SVM泛化誤差描述正確的是()A)超平面與支持向量之間距離B)SVM對未知數(shù)據(jù)的預(yù)測能力C)SVM的誤差閾值D)SVM波動范圍[單選題]68.()可以為遠程客戶端提供執(zhí)行Hive查詢服務(wù)。A)MetastoreServerB)HiveServer2C)BeelineCLID)MySQL[單選題]69.在支持向量機中,軟間隔支持向量機的目標函數(shù)比硬間隔支持向量機多了一個()。A)偏置項bB)系數(shù)C)松弛變量D)兩種情況的目標函數(shù)相同[單選題]70.Task運行在下來哪里個選項中Executor上的工作單元().A)DriverprogramB)sparkmasterC)workernodeD)Clustermanager[單選題]71.以下不屬于數(shù)據(jù)審計的是()A)預(yù)定義審計B)自定義審計C)可視化審計D)特征審計[單選題]72.以下不是python中的關(guān)鍵字A)raiseB)withC)importD)final[單選題]73.在頁面中看不見的表單元素是()。A)<inputtype="password"></input>B)<inputtype="radio"></input>C)<inputtype="hidden"></input>D)<inputtype="reset"></input>[單選題]74.我們可以使用以下()命令在Hive中創(chuàng)建臨時函數(shù)與開發(fā)好的class關(guān)聯(lián)起來。A)createtemporaryfunction臨時函數(shù)的名字as'jar包的名字';B)createtemporaryfunctionjar包的名字as'臨時函數(shù)的名字';C)createtemporaryfunction臨時函數(shù)的名字as'包名.類名';D)createtemporaryfunction包名.類名as'臨時函數(shù)的名字';[單選題]75.消息系統(tǒng)Kafka如何保證高吞吐能力?A)多訂閱者機制B)Partition機制C)持久性機制D)冗余備份機制[單選題]76.()采用概率模型來表達聚類原型。A)K均值算法B)學(xué)習(xí)向量量化C)高斯混合聚類D)密度聚類[單選題]77.Spark自帶的資源管理框架是:()。A)StandaloneB)MesosC)YARND)Docker[單選題]78.以下選項中,不是pip工具進行第三方庫安裝的作用的是:A)安裝一個庫B)卸載一個已經(jīng)安裝的第三方庫C)列出當前系統(tǒng)已經(jīng)安裝的第三方庫D)腳本程序轉(zhuǎn)變?yōu)榭蓤?zhí)行程序[單選題]79.機器學(xué)習(xí)研究的主要內(nèi)容是在計算機上從數(shù)據(jù)中產(chǎn)生()的算法,即學(xué)習(xí)算法。A)模型B)樣本C)規(guī)律D)示例[單選題]80.數(shù)據(jù)湖探索(DataLakeInsight,簡稱DLI)是支持以下()形式的大數(shù)據(jù)計算分析服務(wù)。A)流式處理B)批處理C)流批一體D)都不支持[單選題]81.當Spark發(fā)生shuffle時,MapTask的運算結(jié)果會通過()的形式把運算結(jié)果分發(fā)但對應(yīng)的任務(wù)上去。A)序列化B)二進制C)鍵值對D)RDD[單選題]82.下列關(guān)于存儲過程中的變量說法正確的是()?A)聲明變量時需要指定變量的初始值。B)變量的作用域是全局。C)變量必須先聲明后使用.D)聲明變量時需要指定變量的數(shù)據(jù)類型。[單選題]83.下面哪項是Hadoop的作者?()A)MartinFowlerB)DougcuttingC)MarkElliotZuckerbergD)KentBeck[單選題]84.2003年,Tableau在斯坦福大學(xué)誕生,它起源于一種改變數(shù)據(jù)使用方式的新技術(shù),即()A)VtzQL語言B)SQL語言C)XSQL語言D)NewSQL語言[單選題]85.有如下程序:L=[lambdax:x**2,lambdax:x**3,lambdax:x**4]forfinL:print(f(4),end='')程序的輸出結(jié)果是()。A)1416B)41664C)832128D)1664256[單選題]86.(__)度量了學(xué)習(xí)算法的期望預(yù)測與真實結(jié)果的偏離程度。A)偏差B)方差C)均方差D)泛化誤差[單選題]87.不予共享:是指()使用的數(shù)據(jù),原則上不對其他人員提供。A)僅限本部門特定人員B)僅限公司特定人員C)所有人均不能D)公司內(nèi)部人員[單選題]88.以下掃描算子中用于對列存表進行掃描的算子是:()。A)SeqScanB)CstoreScanC)SubqueryScanD)ValuesScan[單選題]89.(__)試圖學(xué)得一個線性模型以盡可能準確地預(yù)測實值輸出標記。A)決策樹B)線性回歸C)貝葉斯分類器D)神經(jīng)網(wǎng)絡(luò)[單選題]90.按照共享等級、共享范圍和要求,制定數(shù)據(jù)資產(chǎn)共享目錄,原則上()修訂一次。A)每一年B)每兩年C)每三年D)每四年[單選題]91.下列關(guān)于智能物流的描述錯誤的是()。A)是利用智能化技術(shù),使物流技術(shù)能模仿人的智能,具有思維、感知、學(xué)習(xí)、推理判斷和自行解決物流中某些問題的能力B)實現(xiàn)物流資源優(yōu)化配置和有效調(diào)度,并且提示物流系統(tǒng)效率C)智能物流概念源于2010年IBM發(fā)布的研究報告《智慧的未來供應(yīng)鏈》D)提高了物流活動的一體化,增加了物流的復(fù)雜性[單選題]92.數(shù)據(jù)科學(xué)家可能會同時使用多個算法(模型)進行預(yù)測,并且最后把這些算法的結(jié)果集成起來進行最后的預(yù)測(集成學(xué)習(xí)),以下對集成學(xué)習(xí)說法正確的是()。A)單個模型之間具有高相關(guān)性B)單個模型之間具有低相關(guān)性C)在集成學(xué)習(xí)中使用"平均權(quán)重"而不是"投票"會比較好D)單個模型都用同一個算法[單選題]93.不良信用記錄會在征信系統(tǒng)里保存()年A)1B)3C)5D)10[單選題]94.()表達了在當前任務(wù)上任何學(xué)習(xí)算法所能達到的期望泛化誤差的下界,即刻圃了學(xué)習(xí)問題本身的難度A)偏差B)方差C)噪聲D)泛化誤差[單選題]95.閱讀下面程序w=float(input('水果的重量:'))if(w<10):total=(w*8)else:total=(w*7)print("重量:",w,"金額:",total)假如我輸入水果重量是8,金額顯示是A)64B)56C)8D)以上都不對[單選題]96.下面關(guān)于反爬機制描述錯誤的是:()A)簡單低級的網(wǎng)絡(luò)爬蟲,數(shù)據(jù)采集速度快,偽裝度低,如果沒有反爬機制,它們可以很快地抓取大量數(shù)據(jù),甚至因為請求過多,造成網(wǎng)站服務(wù)器不能正常工作,影響了企業(yè)的業(yè)務(wù)開展B)反爬機制也是一把雙刃劍,一方面可以保護企業(yè)網(wǎng)站和網(wǎng)站數(shù)據(jù),但是,另一方面,如果反爬機制過于嚴格,可能會誤傷到真正的用戶請求C)如果既要和?網(wǎng)絡(luò)爬蟲?死磕,又要保證很低的誤傷率,那么又會增加網(wǎng)站研發(fā)的成本D)反爬機制不利于信息的自由流通,不利于網(wǎng)站發(fā)展,應(yīng)該堅決取消[單選題]97.HDFS的設(shè)計目標不包括哪個?A)硬件錯誤B)大規(guī)模數(shù)據(jù)集C)移動計算D)移動數(shù)據(jù)[單選題]98.診斷性分析主要采取的分析方法是()。A)關(guān)聯(lián)分析法和因果分析法B)關(guān)聯(lián)分析法和分類分析法C)關(guān)聯(lián)分析法和運籌學(xué)D)因果分析法和分類分析法[單選題]99.將從源數(shù)據(jù)源獲取的數(shù)據(jù)按照業(yè)務(wù)需求,轉(zhuǎn)換成目的數(shù)據(jù)源要求的形式,并對錯誤、不一致的數(shù)據(jù)進行清洗和加工這一過程稱為()。A)數(shù)據(jù)抽取B)數(shù)據(jù)轉(zhuǎn)換C)數(shù)據(jù)加載D)數(shù)據(jù)存儲[單選題]100.下列賦值語句中,用法不正確的是()A)y=x+2B)y=x-2C)y=2xD)y=x/2[單選題]101.Spark的技術(shù)架構(gòu)中,Spark核心層的作用是什么?A)資源管理B)提供內(nèi)存計算框架C)提供面向特定類型的計算服務(wù)D)分布式數(shù)據(jù)存取[單選題]102.以下可用于隱變量估計的方法是(___)。A)梯度下降法B)EM法C)牛頓法D)貝葉斯分析[單選題]103.Kafa集群在運行期間,直接依賴于下面哪些組件?A)sparkB)zookeeperC)hdfsD)hbase[單選題]104.下列敘述正確的是()。A)continue語句的作用是結(jié)束整個循環(huán)的執(zhí)行B)只能在循環(huán)體內(nèi)使用break語句C)在循環(huán)體內(nèi)使用break語句或continue語句的作用相同D)從多層循環(huán)嵌套中退出時,只能使用goto語句252[單選題]105.K折交叉驗證器是()函數(shù)。A)model_selection.GroupKFold()B)model_selection.GroupShuf?eSplit()C)model_selection.KFold()D)model_selection.RepeatedKFold()[單選題]106.HadoopMapReduce2.0中,()負責(zé)資源的管理和調(diào)度。A)JobTrackerB)YARNC)TaskTrackerD)ApplicationMaster[單選題]107.下列選項中,用于上傳文件的Shell命令是()A)-lsB)-mvC)-cpD)-put[單選題]108.一張數(shù)據(jù)表中出現(xiàn)多個重復(fù)的字段屬于不滿足()。--A)1NFB)2NFC)3NFD)以上答案都不正確[單選題]109.通過DMS()管理其他阿里云帳號下的RDS實例。A)只要有數(shù)據(jù)庫帳號即可管理B)通過DMS?實例授權(quán)?功能授權(quán)后即可管理C)完全不可以D)通過RAM授權(quán)后才能管理[單選題]110.在HDFS的checkpoint過程中,SecondaryNameNode通知()生成新的日志文件,以后的日志都寫到新的日志文件中。A)NameNodeB)DataNodeC)EditLogD)Fsimage[單選題]111.利用到每個聚類中心和的遠近判斷離群值的方法,可以基于的算法為()。A)K-meansB)KNNC)SVMD)LinearRegression[單選題]112.下列選項中,正確定義了一個字典是()A)a=[?a?,1,?b?,2,?c?,3]B)b=[?a?,1,?b?,2,?c?,3]C)c=[?a?,1,?b?,2,?c?,3]D)d=[?a?:1,?b?:2,?c?:3][單選題]113.如果使用Redis統(tǒng)計topN元素,可以使用哪些數(shù)據(jù)類型?A)SetB)ListC)StoredsetD)Hash[單選題]114.若對于數(shù)據(jù)分布D和概率密度函數(shù)p(?),錯誤率與精度可分別描述為(__)。A)若測試數(shù)據(jù)集的精度高或錯誤率小,則模型的泛化能力強;反之,則泛化能力弱。B)若測試數(shù)據(jù)集的精度低或錯誤率小,則模型的泛化能力強;反之,則泛化能力弱。C)若測試數(shù)據(jù)集的精度高或錯誤率高,則模型的泛化能力強;反之,則泛化能力弱。D)若測試數(shù)據(jù)集的精度小或錯誤率高,則模型的泛化能力強;反之,則泛化能力弱。[單選題]115.有如下程序:defvolum(length,width=2,high=3):value=length*width*highreturnvaluedefmain():x=5y=6z=7value1=volum(x)value2=volum(x,high=z)print(value1,";",value2)main()程序的輸出結(jié)果是()。A)30;70B)30;105C)30;30D)70;30[單選題]116.p尾法確定圖像分割的閾值,適用于(__)的情況。A)已知閾值范圍B)已知圖像灰度范圍C)已知目標所占全圖象百分比D)圖像類間方差最大化[單選題]117.()存儲Hadoop集群中所有存儲節(jié)點上的文件,為海量提供存儲。A)JobTrackerB)TaskTrackerC)HDFSD)HBase[單選題]118.針對每行數(shù)據(jù)內(nèi)容為?TimestampUrl?的數(shù)據(jù)文件,在用JobConf對象conf設(shè)置conf.setInputFormat(WhichInputFormat.class)來讀取這個文件時,WhichInputFormat應(yīng)該為以下的A)TextInputFormatB)KeyValueTextInputFormatC)SequenceFileInputFormatD)NLineInputFormat[單選題]119.下列關(guān)于MPI敘述不正確的一項是()。A)MPI是一個信息傳遞應(yīng)用程序的接口B)MPI程序經(jīng)常在共享內(nèi)存的機器上使用C)MPI并行計算增加高層并行編程模型D)MPI缺少統(tǒng)一的計算框架支持[單選題]120.MapJoin適用于()的連接情況。A)有一份數(shù)據(jù)比較小B)兩份數(shù)據(jù)都比較小C)兩份數(shù)據(jù)都比較大D)沒有嚴格的規(guī)定[單選題]121.以下關(guān)于字符串類型的操作的描述,錯誤的是:A)str.replace(x,y)方法把字符串str中所有的x子串都替換成yB)想把一個字符串str所有的字符都大寫,用str.upper()C)想獲取字符串str的長度,用字符串處理函數(shù)str.len()D)設(shè)x=?aa?,則執(zhí)行x*3的結(jié)果是?aaaaaa?[單選題]122.()是指為最小化總體風(fēng)險,只需在每個樣本上選擇能使特定條件風(fēng)險最小的類別標記A)支持向量機B)間隔最大化C)線性分類器D)貝葉斯判定準則[單選題]123.matpltlib中繪制圖形,通過更改繪圖框的尺寸來設(shè)置相等的縮放比例的參數(shù)是()。A)scaledB)equalC)autoD)normal[單選題]124.與大數(shù)據(jù)密切相關(guān)的技術(shù)是()A)藍牙B)云計算C)博弈論D)WiFi[單選題]125.關(guān)聯(lián)規(guī)則的評價指標是()A)均方誤差、均方根誤差B)kappa統(tǒng)計、顯著性檢驗C)支持皮、置信度D)平均絕對誤差、相對誤差[單選題]126.關(guān)于批量數(shù)據(jù)處理組件的描述不正確的是?A)Hive:傳統(tǒng)SQL批處理引擎,用于處理SQL類批處理作業(yè),使用廣泛海量數(shù)據(jù)下表現(xiàn)穩(wěn)定,但是處理速度較慢。B)SparkSQL:新型SsQL批處理引擎,用于處理SQL類批處理作業(yè),適合海量數(shù)據(jù),處理速度高效。C)Spark:新型批處理引擎,可以用于處理非SQL類,尤其是數(shù)據(jù)挖掘和機器學(xué)習(xí)類批處理作業(yè),適合海量數(shù)據(jù),處理速度高效。D)MapReducer傳統(tǒng)批處理引整用于處理非SoL類,尤其是數(shù)據(jù)挖掘和機器學(xué)習(xí)類批處理作業(yè),使用廣泛,海量數(shù)據(jù)下表現(xiàn)不穩(wěn)定,但是處理速度較快。[單選題]127.(__)是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。A)精度B)錯誤率C)正確率D)誤差[單選題]128.以下()不是由Maxcompute接入層提供的服務(wù)。A)用戶空間管理操作B)HTTP服務(wù)C)LoadBalanceD)用戶認證[單選題]129.當子查詢返回的是多行數(shù)據(jù)時,可以使用()方法來解決。A)聚合函數(shù)B)where語句C)in運算符D)groupby語句[單選題]130.執(zhí)行下列python語句x=2;y=2.0if(x==y):print(?Equal?)else:print(?NotEqual?)將產(chǎn)生的結(jié)果是。()A)EqualB)NotEqualC)編譯錯誤D)運行時錯誤[單選題]131.如果使用線性回歸模型,下列說法正確的是()。A)檢查異常值是很重要的,因為線性回歸對離群效應(yīng)很敏感B)線性回歸分析要求所有變量特征都必須具有正態(tài)分布C)線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D)以上說法都不對[單選題]132.Oracle數(shù)據(jù)中,創(chuàng)建一個數(shù)據(jù)庫需要多少個控制文件A)0B)1C)2D)3[單選題]133.高頻增強濾波器由于相對消弱了低頻成分,因而濾波所得的圖像往往偏暗,對比度差,所以常需要在濾波后進行(__)。A)中值濾波B)低頻加強C)直方圖均衡化D)圖像均勻加強[單選題]134.專家系統(tǒng)的推理機的最基本的方式是()。A)直接推理與間接推理B)正向推理與反向推理C)邏輯推理與非邏輯推理D)準確推理與模糊推理[單選題]135.在過去,以下那種情況不是我們通常采用統(tǒng)計抽樣的原因()A)數(shù)據(jù)采集難B)數(shù)據(jù)存儲難C)數(shù)據(jù)處理能力弱D)大數(shù)據(jù)技術(shù)[單選題]136.()用于將非線性引入神經(jīng)網(wǎng)絡(luò),它會將值縮小到較小的范圍內(nèi)。A)損失函數(shù)B)優(yōu)化函數(shù)C)激活函數(shù)D)目標函數(shù)[單選題]137.數(shù)據(jù)源不會來自于()A)課程文件B)文件夾C)自定義D)FTP[單選題]138.()在劃分屬性時是在當前結(jié)點的屬性集合中選擇一個最優(yōu)屬性。A)AdaBoostB)RFC)BaggingD)傳統(tǒng)決策樹[單選題]139.執(zhí)行以下代碼段motorcycles=['honda','yamaha','suzuki']motorcycles.append('ducati')motorcycles.pop(1)print(motorcycles)時,輸出為()。A)['honda','yamaha','suzuki']B)['yamaha','suzuki','ducati']C)['honda','yamaha','suzuki','ducati']D)['honda','suzuki','ducati'][單選題]140.大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效,體現(xiàn)了哪種大數(shù)據(jù)思維方式:()A)以數(shù)據(jù)為中心B)全樣而非抽樣C)效率而非精確D)相關(guān)而非因果[單選題]141.下列描述中不屬于規(guī)整數(shù)據(jù)(TidyData)三個基本原則的是()。A)每一類觀察單元構(gòu)成一個關(guān)系(表)B)每個觀察占且僅占一行C)每個變量占且僅占一列D)每個觀察占且僅占一個關(guān)系(表)[單選題]142.YARN中設(shè)置隊列QueueA的最大使用資源量,需要配置哪個參數(shù)?A)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentB)yarn.scheduler.capacity.root.QueueA.maximum-capacityC)yarn.scheduler.capacity.root.QueueA.minimum.user-limit-factorD)yarn.scheduler.capacity.root.QueueA.state[單選題]143.下列說法哪項有誤?A)相對于Spark來說,使用Hadoop進行迭代計算非常耗資源B)Spark將數(shù)據(jù)載入內(nèi)存后,之后的迭代計算都可以直接使用內(nèi)存中的中間結(jié)果作運算,避免了從磁盤中頻繁讀取數(shù)據(jù)C)Hadoop的設(shè)計遵循?一個軟件棧滿足不同應(yīng)用場景?的理念D)Spark可以部署在資源管理器YARN之上,提供一站式的大數(shù)據(jù)解決方案[單選題]144.Spark的劣勢是()。A)運算速度快B)業(yè)務(wù)實現(xiàn)需要較少代碼C)提供很多現(xiàn)成函數(shù)D)需要更多機器內(nèi)存第2部分:多項選擇題,共62題,每題至少兩個正確答案,多選或少選均不得分。[多選題]145.目前LSTM已經(jīng)應(yīng)用到()領(lǐng)域。A)自然語言處理B)語音識別C)圖像標注D)發(fā)動機[多選題]146.大數(shù)據(jù)參考架構(gòu)的三個層次包含()。A)角色B)活動C)邏輯構(gòu)件D)功能組件[多選題]147.常見的數(shù)據(jù)轉(zhuǎn)換策略包括:()A)平滑處理B)聚集處理C)數(shù)據(jù)泛化處理D)規(guī)范化處理[多選題]148.()是Scipy中的模塊。A)clusterB)constantsC)integrateD)io[多選題]149.大數(shù)據(jù)場景化解決方案包含以下哪些選項?A)離線檢索B)實時檢索C)離線批處理D)實時流處理[多選題]150.公司數(shù)據(jù)資產(chǎn)管理遵循()的原則。A)封閉管理與開放管理相結(jié)合B)統(tǒng)一管理與分級負責(zé)相結(jié)合C)共享應(yīng)用與集約可控相結(jié)合D)全面開展與循序漸進相結(jié)合[多選題]151.以下哪些是大數(shù)據(jù)技術(shù)在5G運營中的應(yīng)用場景()A)5G切片管理B)5G網(wǎng)絡(luò)精定位C)5G基站節(jié)能D)5G天線波束管理[多選題]152.Spark應(yīng)用的計算邏輯會被解析成DAG,這個解析操作由以下哪個功能模塊完成()A)ClientB)ApplicationMasterC)ExecutorD)Driver[多選題]153.感知機能容易實現(xiàn)邏輯(__)、(__)、(__)運算A)加減B)與C)或D)非[多選題]154.Apriori算法的計算復(fù)雜度受()影響A)支持度閩值B)項數(shù)(維度)C)事務(wù)教D)事務(wù)平均寬度[多選題]155.下列關(guān)于Zookeeper的描述正確的有()。A)Zookeeper維護著一個樹形的層次結(jié)構(gòu)B)Zookeeper的數(shù)據(jù)訪問具有原子性C)Zookeeper被設(shè)計用來實現(xiàn)協(xié)調(diào)服務(wù)D)Zookeeper被設(shè)計用來實現(xiàn)大容量數(shù)據(jù)存儲[多選題]156.下列關(guān)于數(shù)據(jù)可視化的描述,正確的有?()A)數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B)數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示C)利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程D)將數(shù)據(jù)的各個屬性值以一維數(shù)據(jù)的形式表示[多選題]157.在大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)的客戶端工具odpscmd中開發(fā)SQL時,用戶對project1和project2都有足夠的操作權(quán)限,當前所在的項目空間是project1,想要查看project2中有哪些表,可以通過以下()操作。A)showtablesinproject2;B)showproject2.tables;C)useproject2;showtables;D)showtablesproject2;[多選題]158.下面正確的說法是()A)關(guān)鍵字只能由單個的屬性組成B)在一個關(guān)系中,關(guān)鍵字的值不能為空C)一個關(guān)系中的所有候選關(guān)鍵字均可以被指定為主關(guān)鍵字D)關(guān)鍵字是關(guān)系中能夠用來惟一標識元組的屬性[多選題]159.用數(shù)學(xué)的方法研究科學(xué)的有()A)信息生物學(xué)B)統(tǒng)計學(xué)C)天體信息學(xué)D)機器學(xué)習(xí)[多選題]160.()是卷積神經(jīng)網(wǎng)絡(luò)的池化層。A)convolutionB)maxpoolingC)averagepoolingD)fullconnection[多選題]161.HBase性能優(yōu)化包含下面的哪些選項()。A)讀優(yōu)化B)寫優(yōu)化C)配置優(yōu)化D)JVM優(yōu)化[多選題]162.下列關(guān)于數(shù)據(jù)生命周期管理的核心認識中,對的是()A)數(shù)據(jù)從產(chǎn)生到被刪除銷毀的過程中,具有多個不同的數(shù)據(jù)存在階段B)在不同的數(shù)據(jù)存在階段,數(shù)據(jù)的價值是不同的C)根據(jù)數(shù)據(jù)價值的不同應(yīng)該對數(shù)據(jù)采取不同的管理策略D)數(shù)據(jù)生命周期管理旨在產(chǎn)生效益的同時,降低生產(chǎn)成本、數(shù)據(jù)生命周期管理最終關(guān)注的是社會效益[多選題]163.下列關(guān)于數(shù)據(jù)的說法,錯誤的是()。A)數(shù)據(jù)的類別是多種多樣的B)數(shù)據(jù)庫中的一列代表一個特征C)一組數(shù)據(jù)的方差不會受異常值影響D)數(shù)據(jù)出現(xiàn)缺失值的現(xiàn)象無法用插值法補充[多選題]164.屬于數(shù)值函數(shù)的函數(shù)為()A)ArrayputB)ConstantC)PiD)Random[多選題]165.當前,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的特點是()。A)規(guī)模大B)增速很快C)多產(chǎn)業(yè)交叉融合D)增速放緩[多選題]166.數(shù)據(jù)的故事化的特點包括()A)易于記憶B)易于認知C)易于體驗D)易于感知[多選題]167.關(guān)于神經(jīng)網(wǎng)絡(luò),下列說法正確的是()A)增加網(wǎng)絡(luò)層數(shù),可能會增加測試集分類錯誤率B)增加網(wǎng)絡(luò)層數(shù),一定會增加訓(xùn)練集分類錯誤率C)減少網(wǎng)絡(luò)層數(shù),可能會減少測試集分類錯誤率D)減少網(wǎng)絡(luò)層數(shù),一定會減少訓(xùn)練集分類錯誤率.[多選題]168.下列選項對ElasticSearchreplicas的描述正確的是?A)提高檢索效率B)壓縮引大小C)代表索引副本D)提高系統(tǒng)容錯性[多選題]169.Kafka的特點包括()。A)分布式B)消息持久化C)高吞吐D)支持消息隨機讀取[多選題]170.下面關(guān)于隨機變量及其概率分布的說法,正確的是()。A)隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量B)隨機變量的概率分布指的是一個隨機變量所有取值的可能性C)扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次D)扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的[多選題]171.使用Hive的CLI,用戶可以進行如下那些操作()【選三項】A)創(chuàng)建表B)檢查模式C)查詢表D)重啟hadoop[多選題]172.如將A、B、C三個分類器的PR曲線畫在一個圖中,其中A、B的PR曲線可以完全包含住C的PR曲線,A與B的PR曲線有交點,A、B、C的平衡點分別為0.79、0.66、0.58,以下說法中正確的是()。A)學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器CB)學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器BC)學(xué)習(xí)器B的性能優(yōu)于學(xué)習(xí)器CD)學(xué)習(xí)器C的性能優(yōu)于學(xué)習(xí)器B[多選題]173.HDFS的局限性包括:()A)不適合低延遲數(shù)據(jù)訪問B)無法用于大規(guī)模數(shù)據(jù)存儲C)無法高效存儲大量小文件D)不支持多用戶寫入及任意修改文件[多選題]174.在FusionInsight產(chǎn)品中,關(guān)于Kafka組件說法正確的是?A)在創(chuàng)建Topic時,副本數(shù)不得大于當前存活的Broker實例個數(shù),否則創(chuàng)建Topic將會失敗B)Kafka的Producer發(fā)送消息時,可以指定該消息被哪個Consumer消費C)Kafka會將元數(shù)據(jù)信息存放到Zookeeper上D)Kafka安裝完成后就不能再配置數(shù)據(jù)存放目錄[多選題]175.在監(jiān)督式學(xué)習(xí)中使用聚類算法的方法有()。A)首先,可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B)在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個額外的特征C)在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D)在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個額外的特征[多選題]176.下面屬于序列的是A)列表B)字符串C)元組D)整數(shù)[多選題]177.關(guān)于groupby以下語句正確的是()A)SELECTstore_nameFROMStore_InformationGROUPBYstore_nameB)SELECTSUM(sales)FROMStore_InformationGROUPBYsalesC)SELECTstore_name,priceSUM(sales)FROMStore_InformationGROUPBYstore_name,priceD)SELECTstore_name,SUM(sales)FROMStore_InformationGROUPBYstore_name[多選題]178.利用大數(shù)據(jù)技術(shù),貸后檢查的方法包括()A)跟蹤檢查B)定期檢查C)不定期檢查D)上門檢查[多選題]179.FusoninsightHD系統(tǒng)中使用Streaming客戶端Shell命令查看拓撲或者提交拓撲失敗,以下哪些定位手段是正確的?A)查看客戶端異常堆棧,判斷是否客戶端使用問題B)查看主Nimbus的運行日志,判斷是否Nimbus服務(wù)端異常C)查看Supervisor運行日志,判斷是否Supervisor異常D)查看Worker運行日志[多選題]180.可以用于判斷數(shù)組中的元素是否有限的函數(shù)有(__)。A)np.floor()B)np.isnan()C)np.isinf()D)np.isfinite()[多選題]181.業(yè)務(wù)中臺方面,2019年,重點開展客戶服務(wù)業(yè)務(wù)中臺和電網(wǎng)資源業(yè)務(wù)中臺試點建設(shè),實現(xiàn)對公司()構(gòu)建。A)各業(yè)務(wù)條線客戶B)電網(wǎng)資源整合C)共享業(yè)務(wù)服務(wù)D)數(shù)據(jù)挖掘產(chǎn)品[多選題]182.下面對LDA判別分析的思想描述,正確的是()。A)同類樣例的投影點盡可能近B)異類樣例的投影點盡可能遠C)同類樣例的投影點盡可能遠D)異類樣例的投影點盡可能近[多選題]183.參數(shù)估計可以分為()。A)點估計B)一致估計C)區(qū)間估計D)無偏估計[多選題]184.下列可以用于特征降維的方法有()。A)主成分分析PCAB)線性判別分析LDAC)深度學(xué)習(xí)SparseAutoEncoderD)矩陣奇異值分解SVD[多選題]185.下列是MYSQL比較運算符的是()A)!=B)<>C)==D)>=[多選題]186.以下描述中正確的是()。A)統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B)Python語言是統(tǒng)計學(xué)家發(fā)明的語言C)機器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D)數(shù)據(jù)科學(xué)是統(tǒng)計學(xué)的一個分支領(lǐng)域(子學(xué)科)[多選題]187.FusionInsightHD系統(tǒng)中Hive支持的存儲格式包括?A)TextFileB)SequenceFileC)RCFileD)HFile[多選題]188.對于MapReduce而言,其處理單位是split。split是一個邏輯概念,它包含哪些元數(shù)據(jù)信息?A)數(shù)據(jù)起始位置B)數(shù)據(jù)長度C)數(shù)據(jù)所在節(jié)點D)數(shù)據(jù)大小[多選題]189.以下(__)是二元通用函數(shù)。A)np.mod()B)np.cos()C)np.modf()D)np.multiply()[多選題]190.下列哪項可以作為集群的管理工具A)PuppetB)PdshC)ClouderaManagerD)Rsync+ssh+scp[多選題]191.關(guān)于讀寫excel文件的說法中,下列描述正確的是()A)to_excel()方法表示將結(jié)構(gòu)化數(shù)據(jù)寫入到Excel文件中B)to_excel()方法表示將結(jié)構(gòu)化數(shù)據(jù)讀取到DataFrame中C)read_excel()函數(shù)表示將結(jié)構(gòu)化數(shù)據(jù)讀取到DataFrame中D)read_excel()函數(shù)表示將結(jié)構(gòu)化數(shù)據(jù)寫入到DataFrame中[多選題]192.在統(tǒng)計模式分類問題中,當先驗概率未知時,可以使用()A)最小損失準則B)最小最大損失準則C)最小誤判概率準則D)N-P判決[多選題]193.下列關(guān)于地圖缺點的說法中,正確的有()A)數(shù)據(jù)信息必須帶有地理信息,否則無法使用地圖B)地理面積大小與數(shù)據(jù)信息大小不匹配,可能會出現(xiàn)地理面積很小的地區(qū)但實際數(shù)據(jù)卻很大的情況C)無法通過地圖顏色使結(jié)果更具辨識度D)氣泡地圖中,無法通過設(shè)置氣泡大小體現(xiàn)數(shù)據(jù)的大小[多選題]194.關(guān)于大數(shù)據(jù)計算服務(wù)中的Policy授權(quán),說法正確的有:()。A)授權(quán)或撤銷授權(quán)時,對Subject(如User)沒有要求,即授權(quán)的User存在或者不存在都可以B)刪除一個對象時,與該對象關(guān)聯(lián)的Policy授權(quán)不會被刪除C)支持帶限制條件的授權(quán)D)授權(quán)或撤銷授權(quán)時,要求Object(如Table)必須已經(jīng)存在[多選題]195.下列關(guān)于重復(fù)值處理的說法中,正確的是()A)duplicated()方法可以標記重復(fù)數(shù)據(jù)B)drop_duplicates()方法用于刪除重復(fù)數(shù)據(jù)C)重復(fù)數(shù)據(jù)的判斷標準是兩個數(shù)據(jù)中所有條目的值都相等D)duplicated()方法支持從前向后和從后向前兩種查找模式[多選題]196.從理論上講數(shù)據(jù)能力評價方法有(__)。A)評價理論B)評價結(jié)果C)評價過程D)評價質(zhì)量[多選題]197.特征向量的缺失值處理:缺失值較多,直接將該特征舍棄掉,否則可能反倒會帶入較大的noise,對結(jié)果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內(nèi),我們可以采取的處理方式有()。A)把NaN直接作為一個特征,假設(shè)用0表示B)用均值填充C)用隨機森林等算法預(yù)測填充D)以上答案都不正確[多選題]198.Maxcomputetunnel命令目前支持的操作包括:()。A)mergeB)purgeC)uploadD)list[多選題]199.以下屬于HiveSQL中DDL答案:數(shù)據(jù)定義語言的是?A)修改表B)刪除表C)數(shù)據(jù)導(dǎo)入D)建表[多選題]200.大數(shù)據(jù)計算服務(wù)中,表ods_sale_detail存放的是銷售明細記錄,建表語句如下:createtableods_sale_detail(sale_datedatetime,regionstring,amtdecimal);其中sale_date字段表示銷售的日期,amt表示銷售金額,想要找出所有匯總銷售額大于10000的日期以及當日的銷售額,以下()SQL可以達到這個目的。A)selectsale_date,sum(amt)fromods_sale_detailgroupbysale_datewhereamt>10000;B)selectsale_date,sum(amt)fromods_sale_detailgroupbysale_datewheresum(amt)>10000;C)selectsale_date,sum(amt)fromods_sale_detailgroupbysale_datehavingsum(amt)>10000;D)select*from(selectsale_date,sum(amt)s_amtfromsale_dategroupbysale_date)subwheres_amt>10000;[多選題]201.Spark2.0提供的應(yīng)用庫包括()。A)SparkSQLB)SparkStreamingC)MLibD)GraphX[多選題]202.實時計算類應(yīng)用主要通過()來實現(xiàn)。A)流計算組件B)內(nèi)存計算組件C)MPP數(shù)據(jù)庫D)Hadoop的后臺定時分析計算任務(wù)[多選題]203.下列對Spark的主要特點描述正確的是()。A)Spark使用DAG調(diào)度器、查詢優(yōu)化器和物理執(zhí)行引擎,能夠在批處理和流數(shù)據(jù)獲得很高的性能B)Spark具有易用性C)Spark通用性強,集成度高D)Spark的兼容性較差,與其他開源產(chǎn)品不容易融合[多選題]204.下面數(shù)據(jù)庫名稱合法的是()A)db1/studentB)db1.studentC)db1_studentD)db1&student[多選題]205.python中常見的邏輯運算符包含A)andB)orC)+D)-[多選題]206.以下各項均是針對數(shù)據(jù)倉庫的不同說法,你認為正確的有()A)數(shù)據(jù)倉庫就是數(shù)據(jù)庫B)數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的基礎(chǔ)C)數(shù)據(jù)倉庫是面向業(yè)務(wù)的,支持聯(lián)機事務(wù)處理(OLTP)D)數(shù)據(jù)倉庫支持決策而非事務(wù)處理E)數(shù)據(jù)倉庫的主要目標就是幫助分析,做長期性的戰(zhàn)略制定第3部分:判斷題,共42題,請判斷題目是否正確。[判斷題]207.drop_duplicated()方法可以刪除重復(fù)值。()A)正確B)錯誤[判斷題]208.字典中的元素可通過索引方式訪問。()A)正確B)錯誤[判斷題]209.BINARY關(guān)鍵字修飾的字符串比較時嚴格區(qū)分大小寫和空格。--A)正確B)錯誤[判斷題]210.對于PCA處理后的特征,其樸素貝葉斯特征相互獨立的假設(shè)一定成立,因為所有主成分都是正交的,所以不相關(guān)A)正確B)錯誤[判斷題]211.階躍畫數(shù)與sigmoid函數(shù)均為典型激活函數(shù)。()A)正確B)錯誤[判斷題]212.邏輯或的操作數(shù)中只要有一個為真,則結(jié)果就為真。--A)正確B)錯誤[判斷題]213.插入數(shù)據(jù)時指定的字段列表必須與表結(jié)構(gòu)相同。--A)正確B)錯誤[判斷題]214.符合范式的數(shù)據(jù)表設(shè)計比反范式的數(shù)據(jù)表查詢性能更高。--A)正確B)錯誤[判斷題]215.Pandas為DataFrame追加行,使用函數(shù)join。A)正確B)錯誤[判斷題]216.銀行業(yè)金融機構(gòu)在實施信息科技外包時,可以將信息科技管理責(zé)任外包。A)正確B)錯誤[判斷題]217.?大數(shù)據(jù)?是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)A)正確B)錯誤[判斷題]218.修改數(shù)據(jù)時若未帶WHERE條件,則表中對應(yīng)字段都會被改為統(tǒng)一的值。--A)正確B)錯誤[判斷題]219.數(shù)據(jù)化就是數(shù)字化,是相互等同的關(guān)系。A)正確B)錯誤[判斷題]220.大數(shù)據(jù)和AI的方法最終目的是使得整個社會的運轉(zhuǎn)效率顯著提高。A)正確B)錯誤[判斷題]221.表達式3in{1,2,3}的值為True。A)正確B)錯誤[判斷題]222.數(shù)據(jù)類型的多樣性往往導(dǎo)致數(shù)據(jù)的同質(zhì)性,進而加大數(shù)據(jù)處理的復(fù)雜性。()A)正確B)錯誤[判斷題]223.Hadoop是Java開發(fā)的,所以MapReduce只支持Java語言編寫。()A)正確B)錯誤[判斷題]224.Flink是個批處理和流處理結(jié)合的統(tǒng)─計算框架。A)正確B)錯誤[判斷題]225.用線性代數(shù)的方式描述函數(shù)或者方程的好處之一是書寫方便A)正確B)錯誤[判斷題]226.對于已刪除用戶創(chuàng)建的數(shù)據(jù)庫,也會隨著用戶的不存在而失效。--A)正確B)錯誤[判斷題]227.大數(shù)據(jù)時代,我們更加能容忍不精確的數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)分析很難容忍錯誤數(shù)據(jù)的存在。A)正確B)錯誤[判斷題]228.任何時候使用一組特定的輸入值調(diào)用聚合所得到的結(jié)果是相同的。()A)正確B)錯誤[判斷題]229.包裹式特征選擇針對給定學(xué)習(xí)器進行優(yōu)化,從最終學(xué)習(xí)器性能來看,該方法比過濾式選擇更好,但由于需多次訓(xùn)練學(xué)習(xí)器,它的特征選擇的計算開銷通常比前者要大得多。()A)正確B)錯誤[判斷題]230.INSERT語句在數(shù)據(jù)導(dǎo)入時效率比較低,因此不要使用INSERT的方式來對數(shù)據(jù)表的寫入。A)正確B)錯誤[判斷題]231.本實驗的網(wǎng)站日志數(shù)據(jù)需要存放到HDFS。A)正確B)錯誤[判斷題]232.表達式range(10,20)[4]的值運行結(jié)果為14。A)正確B)錯誤[判斷題]233.雷達圖適合展現(xiàn)多個關(guān)鍵特征和標準值的比對;()A)正確B)錯誤[判斷題]234.表達式list(filter(None,[0,1,2,3,0,0]))的值為[1,2,3]。A)正確B)錯誤[判斷題]235.Python3.x版本完全兼容Python2.x。()A)正確B)錯誤[判斷題]236.盡管可以使用import語句一次導(dǎo)入任意多個標準庫或擴展庫,但是仍建議每次只導(dǎo)入使用的標準庫或擴展庫。A)正確B)錯誤[判斷題]237.具備很強的報告撰寫能力,可以把分析結(jié)果通過文字、圖表、可視化等多種方式清晰地展現(xiàn)出來,能夠清楚地論述分析結(jié)果及可能產(chǎn)生的影響,從而說服決策者信服并采納其建議,是數(shù)據(jù)分析能力對大數(shù)據(jù)人才的基本要求。A)正確B)錯誤[判斷題]238.表達式'ab'in'acbed'的值為True。A)正確B)錯誤[判斷題]239.()如果在排序和分組的對象上建立了索引,可以極大地提高速度。A)正確B)錯誤[判斷題]240.數(shù)據(jù)核驗可以通過自動和手動執(zhí)行核驗過程,可以選擇sql或存儲過程。A)正確B)錯誤[判斷題]241.在IDLE交互模式下,一個下劃線?_?表示解釋器中最后一次顯示的內(nèi)容或最后一次語句正確執(zhí)行的輸出結(jié)果。A)正確B)錯誤[判斷題]242.在決策樹中,隨著樹中結(jié)點數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬舍不足的問題。()A)正確B)錯誤[判斷題]243.大數(shù)據(jù)技術(shù)和云計算技術(shù)是兩門完全不相關(guān)的技術(shù)。A)正確B)錯誤[判斷題]244.形參可以看做是函數(shù)內(nèi)部的局部變量,函數(shù)運行結(jié)束之后形參就不可訪問了。A)正確B)錯誤[判斷題]245.Loader不能提供圖形化操作。A)正確B)錯誤[判斷題]246.Kafak所有消息都會被持久化到硬盤中,同時Kafka通過對TopicPartition設(shè)置Replication來保障數(shù)據(jù)的可靠性。A)正確B)錯誤[判斷題]247.表的合并操作可以將兩個表的行合并到一個表中,即合并后的表包含兩個表的所有行。()A)正確B)錯誤[判斷題]248.進行PCA降維時需要計算協(xié)方差矩陣。()A)正確B)錯誤第4部分:問答題,共11題,請在空白處填寫正確答案。[問答題]249.Flume傳輸?shù)目煽啃允侵窮lume在傳輸數(shù)據(jù)過程中,當下一跳的Flume節(jié)點故障或者數(shù)據(jù)接收異常時,可以自動切換到另外一路上繼續(xù)傳輸?A)TrueB)False[問答題]250.HadoopHA是兩臺NameNode同時執(zhí)行NameNode角色的工作。錯誤[問答題]251.create?cx_table_stu03?,?cf3',SPLITS=>[?10000?,?20000?,?30000?]在HBase中執(zhí)行上述命令,所創(chuàng)建的'cx_table_stu03表格具有()(請?zhí)顚懓⒗當?shù)字)個分區(qū)。[問答題]252.全分布式環(huán)境下為什么需求password-lessSSH?[問答題]253.那當下又該如何配置?[問答題]254.MapReduce編程模型的實現(xiàn)過程是通過()和()函數(shù)來完成的。[問答題]255.請簡述什么是字符串。[問答題]256.HDFS聯(lián)邦機制下,各NameNode間元數(shù)據(jù)是不共享的A)TRUEB)FALSE[問答題]257.Pandas排序可以分為按【】排序和按索引排序。[問答題]258.簡述Python的特點。[問答題]259.向HBase插入,只可使用put一種方法。A)TRUEB)FALSE[單選題]260.下面哪個程序負責(zé)HDFS數(shù)據(jù)存儲。A)NameNodeB)JobtrackerC)DatanodeD)secondaryNameNodeE)Tasktracker1.答案:A解析:2.答案:D解析:3.答案:A解析:4.答案:C解析:5.答案:A解析:6.答案:B解析:7.答案:D解析:8.答案:B解析:9.答案:B解析:SparkStreaming用于實時處理。10.答案:A解析:11.答案:B解析:12.答案:D解析:13.答案:D解析:14.答案:A解析:LDA的思想是投影后類內(nèi)方差最小、類間方差最大。15.答案:C解析:16.答案:B解析:17.答案:C解析:18.答案:C解析:19.答案:B解析:20.答案:D解析:21.答案:A解析:22.答案:B解析:23.答案:C解析:24.答案:C解析:25.答案:D解析:26.答案:C解析:弱學(xué)習(xí)者是問題的特定部分。所以他們通常不會過擬合,這也就意味著弱學(xué)習(xí)者通常擁有低方差和高偏差。27.答案:B解析:28.答案:D解析:29.答案:A解析:30.答案:B解析:hadoop配置B項core-site核心站點。31.答案:A解析:32.答案:C解析:33.答案:D解析:34.答案:D解析:35.答案:D解析:36.答案:D解析:37.答案:C解析:38.答案:D解析:39.答案:C解析:40.答案:B解析:41.答案:B解析:42.答案:D解析:43.答案:C解析:44.答案:C解析:45.答案:B解析:46.答案:C解析:47.答案:A解析:48.答案:D解析:49.答案:C解析:50.答案:D解析:51.答案:D解析:52.答案:B解析:53.答案:D解析:54.答案:B解析:55.答案:B解析:56.答案:C解析:57.答案:A解析:58.答案:D解析:59.答案:D解析:60.答案:C解析:61.答案:C解析:62.答案:B解析:63.答案:D解析:64.答案:A解析:65.答案:B解析:66.答案:C解析:67.答案:B解析:68.答案:B解析:69.答案:C解析:70.答案:C解析:71.答案:D解析:72.答案:D解析:73.答案:C解析:注意關(guān)鍵詞hidden。74.答案:C解析:75.答案:B解析:76.答案:C解析:77.答案:B解析:78.答案:D解析:79.答案:A解析:80.答案:C解析:81.答案:B解析:82.答案:C解析:83.答案:B解析:84.答案:A解析:85.答案:D解析:86.答案:A解析:87.答案:A解析:88.答案:B解析:89.答案:B解析:90.答案:A解析:91.答案:D解析:92.答案:B解析:集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型以期得到一個更好、更全面的強監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個弱模型得到了錯誤的預(yù)測,其他的弱模型也可以將錯誤糾正回來。某一個弱模型要有一定的"準確性",即學(xué)習(xí)器不能太壞,并且要有多樣性,即個體學(xué)習(xí)器間具有差異。集成中即可包含同種類型的弱模型,也可包含不同類型的弱模型。93.答案:C解析:94.答案:C解析:95.答案:A解析:96.答案:D解析:97.答案:D解析:98.答案:A解析:診斷性分析主要關(guān)注過去,回答為什么發(fā)生,主要采用關(guān)聯(lián)分析法和因果分析法。99.答案:B解析:100.答案:C解析:101.答案:B解析:102.答案:B解析:103.答案:B解析:104.答案:B解析:continue語句可以跳過循環(huán)的當前一步,故AC錯;Python沒有g(shù)oto語句。105.答案:C解析:model_selection.KFold()實現(xiàn)了K折交叉驗證功能。106.答案:B解析:107.答案:D解析:108.答案:A解析:109.答案:B解析:110.答案:A解析:111.答案:A解析:K-means算法又名K均值算法。其算法思想大致為先從樣本集中隨機選取k個樣本作為簇中心,并計算所有樣本與這k個"簇中心"的距離,對于每一個樣本,將其劃分到與其距離最近的"簇中心"所在的簇中,對于新的簇計算各個簇的新的"簇中心"。112.答案:D解析:113.答案:C解析:114.答案:A解析:115.答案:A解析:116.答案:C解析:117.答案:C解析:118.答案:B解析:四項主要的InputFormat類。KeyValueTextInputFormat以每行第一個分隔符為界,分隔符前為key,之后為value,默認制表符為\t119.答案:C解析:120.答案:A解析:121.答案:C解析:122.答案:D解析:123.答案:A解析:124.答案:B解析:125.答案:C解析:126.答案:D解析:127.答案:B解析:128.答案:A解析:129.答案:C解析:130.答案:A解析:131.答案:A解析:異常值是數(shù)據(jù)中的一個非常有影響的點,它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中是很重要的。了解變量特征的分布是有用的,類似于正態(tài)分布的變量特征對提升模型性能很有幫助,數(shù)據(jù)預(yù)處理的時候經(jīng)常做的一件事就是將數(shù)據(jù)特征歸一化到(0,1)分布,但不是必需的。當模型包含相互關(guān)聯(lián)的多個特征時,會發(fā)生多重共線性。因此,線性回歸中變量特征應(yīng)該盡量減少冗余性。132.答案:B解析:133.答案:C解析:134.答案:B解析:1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年瀘州道路運輸從業(yè)資格證考試題和答案
- 企業(yè)運營標準化操作手冊
- 房東轉(zhuǎn)租合同協(xié)議書
- 2025年健康保健服務(wù)項目發(fā)展計劃
- 化妝品制造中的水分調(diào)節(jié)
- 2025年大興安嶺道路貨運輸從業(yè)資格證模擬考試題庫
- 眼科用藥知識培訓(xùn)課件
- 酒店行業(yè)收入與利潤表格(年度)
- 水電站自動化控制系統(tǒng)操作規(guī)程匯編
- 2025年天津貨運資格考試題
- 工作室成員成長檔案模板(內(nèi)部版)課件
- 項目滯后趕工措施
- 預(yù)防接種人員崗位培訓(xùn)習(xí)題(Ⅰ類培訓(xùn)練習(xí)題庫共385題)
- 現(xiàn)場經(jīng)濟簽證單范本
- 固定義齒工藝流程圖
- 《網(wǎng)店運營與管理》課件(完整版)
- (高職)員工培訓(xùn)與開發(fā)(第四版)完整版教學(xué)課件全套電子教案
- 相親相愛 簡譜
- 第四章工具鋼
- 2022年春新冀人版科學(xué)五年級下冊全冊課件
- 服裝購銷合同最新版
評論
0/150
提交評論