大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷25)

上傳人：w*** IP屬地：重慶上傳時(shí)間：2023-11-15 格式：DOCX 頁數(shù)：66 大?。?4.67KB 積分：3.6 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷25)_第2頁

大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷25)_第3頁

大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷25)_第4頁

大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷25)_第5頁

已閱讀5頁，還剩61頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

試卷科目：大數(shù)據(jù)開發(fā)基礎(chǔ)大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷25)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎(chǔ)第1部分：?jiǎn)雾?xiàng)選擇題，共144題，每題只有一個(gè)正確答案,多選或少選均不得分。[單選題]1.HDFS有一個(gè)LZO（withindex）文件大小75MB，客戶端設(shè)置Block大小為64MB。當(dāng)運(yùn)行mapreduce任務(wù)讀取該文件時(shí)inputsplit大小為？A)64MBB)75MBC)一個(gè)map讀取64MB，另外一個(gè)map讀取11MB[單選題]2.卷積神經(jīng)網(wǎng)絡(luò)調(diào)整參數(shù)時(shí)信息的傳播方向是（）。A)后向傳播B)前向傳播C)雙向傳播D)跳躍傳播[單選題]3.在比較模型的擬合效果時(shí),甲、乙、丙三個(gè)模型的相關(guān)指數(shù)R2的值分別約為0.71、0.85、0.90,則擬合效果較好的模型是()。A)甲B)乙C)丙D)效果一樣[單選題]4.下面不屬于數(shù)據(jù)加工的有(__)。A)數(shù)據(jù)脫敏B)數(shù)據(jù)脫質(zhì)C)數(shù)據(jù)規(guī)約D)數(shù)據(jù)標(biāo)注[單選題]5.HDFS結(jié)構(gòu)不包括（）。A)Master體系結(jié)構(gòu)B)主從服務(wù)器C)元數(shù)據(jù)服務(wù)器D)存儲(chǔ)服務(wù)器[單選題]6.對(duì)于線性回歸模型，包括附加變量在內(nèi)，以下可能正確的是()1)R-Squared和AdjustedR呵uared都是遞增的2)R-Squared是常量的，AdjustedR叫uared是遞增的R-Squared是遞減的，AdjustedR-squared也是遞減的R-Squared是遞減的，AdjustedR-Squared是遞增的A)l和2B)l和3C)2和4D)以上都不是[單選題]7.以下對(duì)大數(shù)據(jù)4V特性描述不正確的是()。A)在大數(shù)據(jù)中，價(jià)值與數(shù)據(jù)總量的大小不存在線性關(guān)系B)數(shù)據(jù)量大是相對(duì)計(jì)算與存儲(chǔ)能力而定的C)Volume是指數(shù)據(jù)大D)大數(shù)據(jù)中所說的?速度?包括兩種：增長速度和處理速度[單選題]8.關(guān)系數(shù)據(jù)庫所謂的關(guān)系是指()A)各記錄中的數(shù)據(jù)彼此有一定關(guān)聯(lián)B)數(shù)據(jù)模型符合滿足一定條件的二維表格式C)某兩個(gè)數(shù)據(jù)庫之間有一定的關(guān)系D)表中兩個(gè)字段有一定的關(guān)系[單選題]9.數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)"三同步"原則不包括以下哪項(xiàng)()。A)同步規(guī)劃B)同步建設(shè)C)同步使用D)同步運(yùn)維[單選題]10.語句np.random.randn（5，4）的運(yùn)算結(jié)果是（）。A)生成一個(gè)5行4列的隨機(jī)矩陣B)將矩陣的第5行第4列改成一個(gè)隨機(jī)值C)將矩陣的第4行第3列改成一個(gè)隨機(jī)值D)將矩陣的第5列和第4列都用隨機(jī)值代替[單選題]11.以下不符合大數(shù)據(jù)問題處理范疇的是:A)1TB、數(shù)據(jù),秒級(jí)提交結(jié)果B)1TB、數(shù)據(jù),分鐘級(jí)提交結(jié)果C)1TB、數(shù)據(jù),半小時(shí)內(nèi)提交結(jié)果D)1TB、數(shù)據(jù),一天內(nèi)提交結(jié)果[單選題]12.如果需要由數(shù)據(jù)生產(chǎn)者決定數(shù)據(jù)發(fā)送給目標(biāo)Blot的某一個(gè)確定的Task，應(yīng)該選擇以下（）消息發(fā)布策略。A)局部字段分組B)廣播分組C)直接分組D)全局分組[單選題]13.在Hadoop框架中()為大數(shù)據(jù)提供了計(jì)算。A)HDFSB)MapReduceC)YARND)Container[單選題]14.Flume中基于WAL(預(yù)寫式日志W(wǎng)rite-AheadLog)實(shí)現(xiàn)Channel持久化的是?A)JDBCChannelB)KafkaChannelC)MemoryChannelD)FileChannel[單選題]15.Sklearn庫中對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和規(guī)范化主要依靠（）模塊。A)neighbors模塊B)preprocessing模塊C)pipeline模塊D)datasets模塊315[單選題]16.通過HDFS的Shel1命令來操作HDFS，表示刪除文件的命令是?A)hdfsdfs-rmB)hdfsdfs-putC)hdfsdfs-mkdirD)hdfsdfs-catCpath>[單選題]17.在SQL語言中，子查詢是（）。A)選取單表中字段子集的查詢語句B)選取多表中字段子集的查詢語句C)返回單表中數(shù)據(jù)子集的查詢語言D)嵌入到另一個(gè)查詢語句之中的查詢語句[單選題]18.HBase依靠（）存儲(chǔ)底層數(shù)據(jù)。A)HDFSB)HadoopC)MemoryD)MapReduce[單選題]19.創(chuàng)建視圖的命令是()A)alterviewB)altertableC)createtableD)createview[單選題]20.當(dāng)zookeeper集群節(jié)點(diǎn)數(shù)為5時(shí)，請(qǐng)問集群的容災(zāi)能力和（）節(jié)點(diǎn)時(shí)等價(jià)的。A)3B)4C)5D)以上全不正確[單選題]21.ADS可以使用explain命令查看執(zhí)行計(jì)劃。下面說法中正確的是:（）。A)當(dāng)用戶發(fā)起一個(gè)explain查詢到ADS系統(tǒng)后，ADS會(huì)根據(jù)所有活躍節(jié)點(diǎn)上的數(shù)據(jù)來分析執(zhí)行計(jì)劃B)當(dāng)用戶通過查詢的方式，想要獲取文本格式的explain語句后，將會(huì)得到一個(gè)XML格式的串C)邏輯計(jì)劃匯總，TableExecutor節(jié)點(diǎn)表示參與計(jì)算后的信息，JoinExecutor表示join的節(jié)點(diǎn)信息D)explain正確執(zhí)行后返回信息中，第一行為邏輯計(jì)劃，第二行為物理計(jì)劃[單選題]22.執(zhí)行以下代碼段defdescribe_pet(animal_type,pet_name):print("Ihavea"+animal_type+".")print("My"+animal_type+"'snameis"+pet_name.title()+".")describe_pet('harry')describe_pet('Hamster')時(shí)，輸出為()。A)Ihaveaharry.Myharry'snameisHarry.B)Ihaveaharry.Myharry'snameisHamster.C)Ihaveahamster.Myhamster'snameisHamster.D)Error[單選題]23.對(duì)于隨機(jī)森林和GBDT，下面說法正確的是()A)在隨機(jī)森林的單個(gè)樹中，樹和樹之間是有依賴的，而GBDT中的單個(gè)樹之間是沒有依賴的B)這兩個(gè)模型都使用隨機(jī)特征子集，來生成許多單個(gè)的樹C)我們可以并行地生成GBDT單個(gè)樹，因?yàn)樗鼈冎g是沒有依賴的D)GBDT訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林好[單選題]24.以下哪個(gè)不是Flume的核心組件：()A)數(shù)據(jù)塊（Block）B)數(shù)據(jù)源（Source）C)數(shù)據(jù)通道（Channel）D)數(shù)據(jù)槽（Sink）[單選題]25.SELECTINSERT('welcome',3,4,'HA')的執(zhí)行結(jié)果為()。--A)weHAeB)welHAmeC)weHAomeD)welHAcome[單選題]26.下面在python3中合法的語句為()。A)printHello,World!B)print'Hello,World!'C)print('Hello,World!')D)print"Hello,World!"[單選題]27.HBase架構(gòu)的四大組件中，（）HBase集群的主控服務(wù)器。A)ZookeeperB)MasterC)RegionServerD)Client[單選題]28.根據(jù)數(shù)據(jù)管理計(jì)劃，設(shè)計(jì)或選擇具體方法實(shí)行計(jì)劃中的工作內(nèi)容，屬于數(shù)據(jù)治理的哪一步()。A)計(jì)劃B)執(zhí)行C)檢查D)改進(jìn)[單選題]29.（）算法可以較好地避免樣本的不平衡問題。A)KNNB)SVMC)BayesD)神經(jīng)網(wǎng)絡(luò)[單選題]30.下列關(guān)于Boosting算法的描述錯(cuò)誤的是（）。A)可將強(qiáng)學(xué)習(xí)器降為弱學(xué)習(xí)器B)從初始訓(xùn)練集訓(xùn)練基學(xué)習(xí)器C)對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整D)做錯(cuò)的訓(xùn)練樣本多次訓(xùn)練[單選題]31.以P（w）表示詞條w的概率，假設(shè)已知P（南京）=0.8，P（市長）=0.6，P（江大橋）=0.4；P（南京市）=0.3，P（長江大橋）=0.5。如果假設(shè)前后兩個(gè)詞的出現(xiàn)是獨(dú)立的，那么分詞結(jié)果就是（）。A)南京市*長江*大橋B)南京*市長*江大橋C)南京市長*江大橋D)南京市*長江大橋[單選題]32.決策樹中,同一路徑上的所有屬性之間是()關(guān)系。A)因果B)相關(guān)C)邏輯或D)邏輯與[單選題]33.關(guān)于集群的特點(diǎn)下列敘述正確的一項(xiàng)是（）。A)系統(tǒng)吞吐量小B)可靠性高C)擴(kuò)展性弱D)性價(jià)比低[單選題]34.加載數(shù)據(jù)到Hive表，哪種方式不正確？A)直接將本地路徑的文件load到Hive表中B)將HDFS的文件load到Hive表匯總C)Hive支持insertinto單條記錄的方法，所以可以直接在命令行插入單條記錄D)將其他表的結(jié)果集insertinto到Hive表[單選題]35.以下說法對(duì)的是：（）A)當(dāng)前云公司提供的公有云存儲(chǔ)只能通過互聯(lián)網(wǎng)訪問B)對(duì)象存儲(chǔ)不可以在客戶機(jī)房建設(shè)C)對(duì)象存儲(chǔ)可以存儲(chǔ)數(shù)據(jù)庫數(shù)據(jù)D)客戶數(shù)據(jù)傳輸慢與客戶開通的資源池帶寬大小有關(guān)系[單選題]36.Hadoop中,Reducer的三個(gè)階段是()。A)Shuffle-Sort-ReduceB)Shuffle-Reduce-SortC)Reduce-Shuffle-SortD)Sort-Shuffile-Reduce[單選題]37.info='abc'Info[2]='d'的輸出結(jié)果是（）。A)TypeError：'str'objectdoesnotsupportitemassignmentB)bC)cD)d[單選題]38.用戶輸入整數(shù)的時(shí)候不合規(guī)導(dǎo)致程序出錯(cuò)，為了不讓程序異常中斷，需要用到的語句是：A)if語句B)eval語句C)try-except語句D)循環(huán)語句[單選題]39.數(shù)據(jù)變換的策略包括()。A)平滑處理、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、離散化B)平滑處理、特征構(gòu)造、聚集、審計(jì)、離散化C)平滑處理、、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化D)特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化[單選題]40.一件商品僅有一個(gè)分類,而一個(gè)分類可有多件商品,則商品與分類的關(guān)系是()。--A)1:1B)1:nC)n:1D)n:m[單選題]41.TaskTracker會(huì)接受()發(fā)送過來的命令并執(zhí)行相應(yīng)的操作如啟動(dòng)新任務(wù)、殺死任務(wù)等。A)TaskTrackB)TaskC)ClientD)JobTracker[單選題]42.下列論據(jù)中，體現(xiàn)?冷眼?看大數(shù)據(jù)的觀點(diǎn)是（）A)互聯(lián)網(wǎng)金融打破了傳統(tǒng)的觀念和行為B)大數(shù)據(jù)醫(yī)療正在走進(jìn)平民百姓C)數(shù)據(jù)資產(chǎn)型企業(yè)前景光明D)個(gè)人隱私泄露與信息安全擔(dān)憂[單選題]43.()是一個(gè)在HDFS上開發(fā)的面向列的分布式數(shù)據(jù)庫。A)HiveB)PigC)MahoutD)Hbase[單選題]44.HDFS是Hadoop平臺(tái)上的分布式文件系統(tǒng),那么它是由()構(gòu)成的。A)由一個(gè)NameNode和多個(gè)DataNode組成B)由一個(gè)DataNode和多個(gè)NameNode組成C)由多個(gè)NameNode和多個(gè)DataNode組成D)由一個(gè)NameNode和一個(gè)DataNode組成[單選題]45.執(zhí)行"a"+"bc"語句時(shí)輸出是()。A)aB)bcC)bcaD)abc[單選題]46.在MapReduce中，下列組件中用戶不指定也不會(huì)有默認(rèn)的是（）。A)CombinerB)OutputFormatC)PartitionerD)InputFormat[單選題]47.HBase元數(shù)據(jù)MetaRegion路由信息保存在哪里?A)ZookeeperB)Meta表C)HMasterD)Root表[單選題]48.x=123.4567，語句print("{:5.3e}".format(x))的輸出結(jié)果是()。A)123.457B)1.235e+02C)1.24e+02D)1.23e+02[單選題]49.關(guān)于KNN最近鄰分類算法的過程:①計(jì)算訓(xùn)練樣本和測(cè)試樣本中每個(gè)樣本點(diǎn)的距離(常見的距離度量有歐式距離、馬氏距離等);②對(duì)上面所有的距離值進(jìn)行排序;③選前k個(gè)最小距離的樣本;④根據(jù)這k個(gè)樣本的標(biāo)簽進(jìn)行投票,得到最后的分類類別。正確的排序?yàn)锳)①③②④B)②④③①C)①②③④D)①②④③[單選題]50.聚類算法已經(jīng)默認(rèn)所有的記錄都是()的實(shí)體A)相關(guān)聯(lián)B)有備份C)不獨(dú)立D)獨(dú)立[單選題]51.Sqoop是Hadoop和關(guān)系數(shù)據(jù)庫服務(wù)器之間傳送數(shù)據(jù)的工具，下列哪種數(shù)據(jù)庫是不支持使用Sqoop直接進(jìn)行數(shù)據(jù)傳送()A)PostgresB)OracleC)MySQLD)Redis[單選題]52.int('0xa',16)的結(jié)果為()。A)10B)12C)16D)a[單選題]53.資源（Resource）是大數(shù)據(jù)計(jì)算服務(wù)（MaxCompute，原ODPS）的特有概念。用戶如果想使用MaxCompute的MapReduce或自定義函數(shù)（UDF）功能，需要依賴資源來完成。Dataworks中，可以通過數(shù)據(jù)開發(fā)面板的資源管理上傳資源，目前支持的資源類型有：（）。A)jar、file、archiveB)jar、file、pythonC)jar、archive、pythonD)file、archive、python[單選題]54.在HBase系統(tǒng)架構(gòu)中,HRegionServer主要負(fù)責(zé)相應(yīng)用戶I/O請(qǐng)求，向()文件系統(tǒng)中讀寫數(shù)據(jù)A)HAFSB)HBFSC)HCFSD)HDFS[單選題]55.對(duì)于ADS，（）說法不正確。A)ADS表存在主鍵，即可根據(jù)主鍵使用delete刪除紀(jì)錄B)普通表分區(qū)列如果是字符串型，則不支持普通表之間的joinC)自查詢之間不支持joinD)ADS通過UNION（ALL）各個(gè)分區(qū)內(nèi)的查詢結(jié)果實(shí)現(xiàn)自查詢[單選題]56.大數(shù)據(jù)公司的多樣性表明了（）A)數(shù)據(jù)作用的體現(xiàn)B)數(shù)據(jù)價(jià)值的轉(zhuǎn)移C)數(shù)據(jù)思維的創(chuàng)新D)數(shù)據(jù)技術(shù)的發(fā)展[單選題]57.以下語句錯(cuò)誤的是()A)selectsal+1fromemp;B)selectsal*10,sal*deptnofromemp;C)不能使用運(yùn)算符號(hào)D)selectsal*10,deptno*10fromemp;[單選題]58.下列關(guān)于DNN的說法不正確的是（）。A)層數(shù)多B)抽象能力強(qiáng)C)模擬更復(fù)雜模型D)廣義上包含CNN、DBN、SVM等[單選題]59.數(shù)據(jù)清洗工作不包括()。A)刪除多余重復(fù)的數(shù)據(jù)B)采用適當(dāng)?shù)姆椒ㄑa(bǔ)充缺失的數(shù)據(jù)C)糾正或者刪除錯(cuò)誤的數(shù)據(jù)D)更改過大和過小的異常數(shù)據(jù)[單選題]60.表A為ADS中的普通表，列a為其中一個(gè)普通列，類型為int，以下SQL（）是正確的。A)SELECTa+COUNT(*)FROMAB)SELECTUDF_SYS_COUNT_COLUMN(a)FROMAC)SELECTSUM(COUNT(*))FROMAD)以上都正確[單選題]61.FusionInsightManager用戶權(quán)限管理不支持哪個(gè)配置?A)給用戶配置角色B)給用戶組配置角色C)給角色配置權(quán)限D(zhuǎn))給用戶組配置權(quán)限[單選題]62.根據(jù)泛在電力物聯(lián)網(wǎng)建設(shè)戰(zhàn)略安排，第一個(gè)階段是到（）年，初步建成泛在電力物聯(lián)網(wǎng)。A)2020B)2021C)2024D)2025[單選題]63.下列選項(xiàng)哪一個(gè)不屬于HIVE的工作內(nèi)容？A)表結(jié)構(gòu)元數(shù)據(jù)管理B)HQL語句命令解析C)分布式文件底層數(shù)據(jù)管理D)數(shù)據(jù)結(jié)構(gòu)以及函數(shù)的定義[單選題]64.關(guān)于?from-import?形式，以下錯(cuò)誤的選項(xiàng)是()。A)從模塊名導(dǎo)入標(biāo)識(shí)符B)這種導(dǎo)入形式可以防止名稱沖突C)被導(dǎo)入模塊的命名空間是模塊導(dǎo)入的一部分D)模塊中的標(biāo)識(shí)符可直接訪問為標(biāo)識(shí)符[單選題]65.在Flume中，()指的是位于源與接收器之間的組件。A)數(shù)據(jù)流B)Flume通道C)Flume攔截器D)Flume代理[單選題]66.(__)不屬于基本分析方法。A)回歸分析B)分類分析C)聚類分析D)元分析[單選題]67.python中while的中止的關(guān)鍵字是（）。A)continueB)brokenC)breakD)plug[單選題]68.Insert事務(wù)使用的鎖模式是：（）。A)AccessShareLockB)RowExclusiveLockC)ShareUpdateExclusiveLockD)ExclusiveLock[單選題]69.下列表達(dá)式的值為True的是（）A)5+4j>2-3jB)3>2==2C)e>5and4==fD)(x-6)>5[單選題]70.假設(shè)你需要調(diào)整參數(shù)來最小化代價(jià)函數(shù)(costfunction),會(huì)使用()技術(shù)。A)窮舉搜索B)隨機(jī)搜索C)Bayesian優(yōu)化D)以上全是[單選題]71.RNN不同于其他神經(jīng)網(wǎng)絡(luò)的地方在于()A)實(shí)現(xiàn)了記憶功能B)速度快C)精度高D)易于搭建[單選題]72.若a=np.array([[1,2,3],[4,5,6]])，則print(np.cumsum(a,1))的輸出結(jié)果是（__)。A)[[136][4915]]B)[136101521]C)[[123][579]]D)[615][單選題]73.一般情況下,若要提高Elasticsearch檢索效率，可以采取什么操作?A)增加EsMaster節(jié)點(diǎn)B)使用Hive做底層存儲(chǔ)C)調(diào)整索引分片數(shù)D)壓縮索引[單選題]74.閱讀以下代碼，回答問題，當(dāng)n是11的時(shí)候，s為多少1deftotal(n):2s=03i=14while(iA)55B)66C)44D)50[單選題]75.我行《大數(shù)據(jù)應(yīng)用推動(dòng)考核辦法》從（）開始實(shí)施。A)20170101B)20170801C)20180101D)20180801[單選題]76.hadoop中下面哪項(xiàng)操作是不需要記錄進(jìn)日志的（）A)打開文件B)重命名C)編譯文件D)刪除操作[單選題]77.下列表述正確的是（）。A)if語句總是與else成對(duì)出現(xiàn)B)if語句總是與elif成對(duì)出現(xiàn)C)if語句分支嵌套實(shí)現(xiàn)多分支D)if語句只能實(shí)現(xiàn)二分支[單選題]78.下列關(guān)于不精確推理過程的敘述錯(cuò)誤的是（）。A)不精確推理過程是從不確定的事實(shí)出發(fā)B)不精確推理過程最終能夠推出確定的結(jié)論C)不精確推理過程是運(yùn)用不確定的知識(shí)D)不精確推理過程最終推出不確定性的結(jié)論[單選題]79.__new__和__init__的區(qū)別，說法不正確的是（）。A)__new__是一個(gè)實(shí)例方法，而__init__是一個(gè)靜態(tài)方法B)__new__方法會(huì)返回一個(gè)創(chuàng)建的實(shí)例，而__init__什么都不返回C)只有在__new__返回一個(gè)cls的實(shí)例時(shí)，后面的__init__才能被調(diào)用D)當(dāng)創(chuàng)建一個(gè)新實(shí)例時(shí)調(diào)用__new__，初始化一個(gè)實(shí)例時(shí)用__init__[單選題]80.ordinalencoder將屬性轉(zhuǎn)化為（）A)獨(dú)熱編碼B)附帶特性的數(shù)字C)二進(jìn)制編碼D)ASCII碼[單選題]81.下列關(guān)于Map/Reduce并行計(jì)算模型敘述正確的一項(xiàng)為（）。A)Map/Reduce把待處理的數(shù)據(jù)集分割成許多大的數(shù)據(jù)塊B)大數(shù)據(jù)塊經(jīng)Map()函數(shù)并行處理后輸出新的中間結(jié)果C)reduce()函數(shù)把多任務(wù)處理后的中間結(jié)果進(jìn)行匯總D)reduce階段的作用接受來自輸出列表的迭代器[單選題]82.下列關(guān)于圖像平滑的敘述錯(cuò)誤的是（）。A)可以減少噪聲B)可以使圖像變得均勻C)圖像的細(xì)節(jié)部分可以不保持原有特征D)可以采用基于卷積的濾波方法[單選題]83.()能反映出X和Y之間的強(qiáng)相關(guān)性。A)相關(guān)系數(shù)為0.9B)對(duì)于無效假設(shè),β=0的p值為0.0001C)對(duì)于無效假設(shè),β=0的t值為30D)以上說法都不對(duì)[單選題]84.以下（）不是MaxcomputeMR的必須組成階段。A)MapB)ShuffleC)ReduceD)Combiner[單選題]85.可用信息增益來進(jìn)行決策樹的()。A)樹高B)葉子結(jié)點(diǎn)數(shù)C)總結(jié)點(diǎn)數(shù)D)劃分屬性選擇[單選題]86.與HMM和MEMM模型相比，CRF模型的優(yōu)勢(shì)不包含（）。A)特征靈活B)速度快C)可容納較多上下文信息D)全局最優(yōu)[單選題]87.以下可以在項(xiàng)目開發(fā)中實(shí)現(xiàn)分頁功能的是()。--A)WHEREB)GROUPBYC)LIMITD)以上答案都不正確[單選題]88.hadoop集群可以用（）種模式進(jìn)行。A)四B)三C)五D)二[單選題]89.下列說法中：①R-Squared和AdjustedR-squared都是遞增的；②R-Squared是常量的，AdjustedR-squared是遞增的；③R-Squared是遞減的，AdjustedR-squared也是遞減的；④R-Squared是遞減的，AdjustedR-squared是遞增的。對(duì)于線性回歸模型，包括附加變量在內(nèi)，可能正確的是（）。A)①②B)①③C)②④D)以上都不是[單選題]90.有一個(gè)關(guān)系,課程目錄(課程號(hào),授課教師,所述專業(yè)),規(guī)定授課教師不能取空值,這一規(guī)則屬于()A)實(shí)體完整性約束B)參照完整性約束C)用戶自定義完整性約束D)關(guān)鍵字完整性約束[單選題]91.cell.zero_state(self.batch_size,dtype=tf.float32)這句代碼的作用是（）。A)對(duì)inputs進(jìn)行DropoutB)構(gòu)造MultiCellC)輸入圖片D)對(duì)MultiCell初始化[單選題]92.在數(shù)據(jù)科學(xué)項(xiàng)目的活動(dòng)流程中.()主要回答的是"我們用什么方式記錄和展現(xiàn)數(shù)據(jù)結(jié)果"。A)數(shù)據(jù)的獲得與管理B)模式/模型的驗(yàn)證和優(yōu)化C)結(jié)果的可視化與文檔化D)模式/模型的應(yīng)用及維護(hù)[單選題]93.在抽樣估計(jì)中,隨著樣本容量的增大,樣本統(tǒng)計(jì)量接近總體參數(shù)的概率就越大,這一性質(zhì)稱為()。A)無偏性B)有效性C)及時(shí)性D)一致性[單選題]94.支持向量回歸與傳統(tǒng)回歸模型的差別是()。A)模型輸出與真實(shí)值相同B)模型輸出與真實(shí)值存在ε偏差C)模型輸出大于真實(shí)值D)模型輸出小于真實(shí)值[單選題]95.以下不能創(chuàng)建一個(gè)字典的語句是A)dict1={}B)dict2={3:5}C)dict3={[1,2,3]:?uestc?}D)dict4={(1,2,3):?uestc?}[單選題]96.考慮某個(gè)具體問題時(shí)，你可能只有少量數(shù)據(jù)來解決這個(gè)問題不過幸運(yùn)的是你有一個(gè)類似問題已經(jīng)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)可以利用這個(gè)預(yù)先訓(xùn)練好的網(wǎng)絡(luò)的方法是（）A)把除了最后一層外所有的層都凍住，重新訓(xùn)練最后一層B)對(duì)新數(shù)據(jù)重新制l鯨整個(gè)模型C)只對(duì)最后幾層進(jìn)行訓(xùn)練調(diào)參(直netune)D)對(duì)每一層模型進(jìn)行評(píng)估，選擇其中的少數(shù)來用[單選題]97.y=10whiley:y-=1print(y)請(qǐng)問輸出的y是多少（）A)-1B)1C)0D)while構(gòu)成無限循環(huán)[單選題]98.np.set_printoptions(threshold='nan')的作用是（__)。A)打印?nan?B)使其可以打印過大的數(shù)組C)打印出相關(guān)的設(shè)置內(nèi)容D)刪除需要打印的內(nèi)容[單選題]99.數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)獨(dú)立性是指A)不會(huì)因?yàn)閿?shù)據(jù)的變化而影響應(yīng)用程序B)不會(huì)因?yàn)橄到y(tǒng)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)與數(shù)據(jù)邏輯結(jié)構(gòu)的變化而影響應(yīng)用程序C)不會(huì)因?yàn)榇鎯?chǔ)策略的變化而影響存儲(chǔ)結(jié)構(gòu)D)不會(huì)因?yàn)槟承┐鎯?chǔ)結(jié)構(gòu)的變化而影響其他的存儲(chǔ)結(jié)構(gòu)[單選題]100.在我們神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，每次dropout想去掉20%的參數(shù)，下面有關(guān)激活函數(shù)說法錯(cuò)誤的是：()A)Sigmoid容易飽和，出現(xiàn)梯度消失。B)LeakyRelu是Relu的一個(gè)變種，他在xC)Tanh存在梯度消失問題，但是是0均值，而且收斂速度比sigmoid慢。D)Relu收斂速度比sigmoid和tanh快很多，可以緩解梯度消失現(xiàn)象。[單選題]101.執(zhí)行a=np.array([[1,1,3],[4,3,6]]);print(np.append(a,[[1,1,1]],axis=0))結(jié)果為？A)[113436111]B)[[141][251][361]]C)[[113][436][111]]D)[[1,1,3,4,3,6,1,1,1]][單選題]102.OTS的列對(duì)長度有限制。對(duì)于string類型，如果出現(xiàn)在主鍵里，長度限制為：（）。A)64kB)1kC)256kD)128k[單選題]103.下列不屬于Hive記錄中默認(rèn)分隔符（）A)\nB)^AC)^BD)\r\n[單選題]104.下列描述中不屬于情感分析的具體任務(wù)是（）。A)情感分類B)觀點(diǎn)抽取C)觀點(diǎn)問答D)段落匹配[單選題]105.在fusionlnsight產(chǎn)品中,關(guān)于kafka的topic.以下描述不正確的是?A)topic的partition數(shù)量可以創(chuàng)建時(shí)配置B)每個(gè)topic只能被分成一個(gè)partition區(qū)C)每條發(fā)布到kafka的消息都有一個(gè)類別,這個(gè)類別被稱為topic.也可以理解為一個(gè)存儲(chǔ)消息的隊(duì)列D)每個(gè)partition在存儲(chǔ)層面對(duì)應(yīng)一個(gè)log文件,log文件中記錄了所有的消息數(shù)據(jù)[單選題]106.在MySQL中，建立數(shù)據(jù)庫用()A)CREATETABLE命令B)CREATETRIGGER命令C)CREATEINDEX命令D)CREATEDATABASE命令[單選題]107.下面關(guān)于云計(jì)算數(shù)據(jù)中心的描述正確的是：A)數(shù)據(jù)中心是云計(jì)算的重要載體，為各種平臺(tái)和應(yīng)用提供運(yùn)行支撐環(huán)境B)數(shù)據(jù)中心就是放在企業(yè)內(nèi)部的一臺(tái)中心服務(wù)器C)每個(gè)企業(yè)都需要建設(shè)一個(gè)云計(jì)算數(shù)據(jù)中心D)數(shù)據(jù)中心不需要網(wǎng)絡(luò)帶寬的支撐[單選題]108.例如數(shù)據(jù)庫中有A表，包括學(xué)生，學(xué)科，成績?nèi)齻€(gè)字段,數(shù)據(jù)庫結(jié)構(gòu)為學(xué)生學(xué)科成績張三語文60張三數(shù)學(xué)100李四語文70李四數(shù)學(xué)80李四英語80如何統(tǒng)計(jì)最高分>80的學(xué)科()A)SELECTMAX(成績)FROMAGROUPBY學(xué)科HAVINGMAX(成績)>80;B)SELECT學(xué)科FROMAGROUPBY學(xué)科HAVING成績>80;C)SELECT學(xué)科FROMAGROUPBY學(xué)科HAVINGMAX(成績)>80;D)SELECT學(xué)科FROMAGROUPBY學(xué)科WHEREMAX(成績)>80;[單選題]109.()模式的變化意味著數(shù)據(jù)科學(xué)中所關(guān)注的數(shù)據(jù)計(jì)算的常見瓶頸、關(guān)注焦點(diǎn)、主要矛盾和思維模式發(fā)生了根本性變化。A)數(shù)據(jù)計(jì)算B)、數(shù)據(jù)管理C)、數(shù)據(jù)分析D)、數(shù)據(jù)獲取[單選題]110.考慮以下場(chǎng)景，Hbase中有列簇CF1，列C1，C2。當(dāng)讀取Hbase表時(shí)，只要求返回C1的列值，使用下列那個(gè)選項(xiàng)可以實(shí)現(xiàn)該功能？A)ColumeFilterB)QualifierFliterC)ValueFilterD)RowFilter[單選題]111.如何禁用reduce階段（）A)設(shè)置conf.setNumreduceTasks(0)B)設(shè)置job.setNumreduceTasks(0)C)設(shè)置job.setNumreduceTasks()=0D)修改配置文件中NumreduceTasks=0[單選題]112.執(zhí)行以下代碼段age=12ifage<4print("Youradmissioncostis$0.")elifage<18print("Youradmissioncostis$5.")elseprint("Youradmissioncostis$10.")時(shí)，輸出為()。A)Youradmissioncostis$0.B)Youradmissioncostis$5.C)Youradmissioncostis$10.D)以上都不對(duì)[單選題]113.想要獲取序列的長度，應(yīng)使用（）A)lenB)inC)mapD)dict[單選題]114.下面關(guān)于Flink的描述錯(cuò)誤的是：()A)Flink是一個(gè)針對(duì)流數(shù)據(jù)和批數(shù)據(jù)的分布式計(jì)算框架B)Flink的設(shè)計(jì)思想主要來源于Hadoop、MPP數(shù)據(jù)庫、流計(jì)算系統(tǒng)等C)Flink主要是由Python代碼實(shí)現(xiàn)的D)Flink所要處理的主要場(chǎng)景是流數(shù)據(jù)，批數(shù)據(jù)只是流數(shù)據(jù)的一個(gè)特例而已[單選題]115.下列不屬于業(yè)務(wù)操作員安全責(zé)任的是()A)嚴(yán)格執(zhí)行系統(tǒng)操作規(guī)程和運(yùn)行安全管理制度。B)不得向他人提供自己的操作密碼、柜員號(hào)、柜員卡、授權(quán)卡等機(jī)密信息。C)及時(shí)向科技部門報(bào)告系統(tǒng)各種異常事件。D)對(duì)進(jìn)行系統(tǒng)操作的其他人員予以安全監(jiān)督。[單選題]116.下面程序中最后X_train_minmax值為多少（）>>>X_train=np.array([[1.,-1.,2.],...[2.,0.,0.],...[0.,1.,-1.]])...>>>min_max_scaler=preprocessing.MinMaxScaler()>>>X_train_minmax=min_max_scaler.fit_transform(X_train)A)array([[0.,0.,1.],[1.,0.5,0.33333333],[0.5,1.,0.]])B)array([[0.5,0.,0.],[1.,0.5,0.33333333],[0.,1.,1.]])C)array([[0.5,0.,1.],[1.,0.5,0.33333333],[0.,1.,0.]])D)array([[0.5,0.,1.],[1.,0.5,0.],[0.,1.,0.]])[單選題]117.對(duì)參數(shù)進(jìn)行L2正則，是機(jī)器學(xué)習(xí)常用的防止過擬合的方法。請(qǐng)問對(duì)參數(shù)做L2正則，是對(duì)參數(shù)本身做了哪些先驗(yàn)分布假設(shè)?A)高斯分布B)拉普拉斯分布C)泊松分布D)均勻分布[單選題]118.跨平臺(tái)基礎(chǔ)設(shè)施和分析工具不包括A)亞馬遜Web服務(wù)B)微軟CortanaC)Google云平臺(tái)D)微軟Azure[單選題]119.對(duì)數(shù)組中的某個(gè)元素進(jìn)行修改時(shí)，計(jì)算機(jī)對(duì)其的操作是（__)。A)復(fù)制該數(shù)組后再修改B)直接在原數(shù)組中修改C)修改該數(shù)組后再復(fù)制D)刪除該數(shù)組后，重新創(chuàng)建[單選題]120.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指：A)基本元數(shù)據(jù)與數(shù)據(jù)源，數(shù)據(jù)倉庫，數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B)基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C)基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息D)基本元數(shù)據(jù)包括關(guān)于裝載和更新處理，分析處理以及管理方面的信息[單選題]121.決策樹的父節(jié)點(diǎn)和子節(jié)點(diǎn)的熵的大小關(guān)系是()。A)父節(jié)點(diǎn)的熵更小B)子節(jié)點(diǎn)的熵更小C)兩者相等D)根據(jù)具體情況而定[單選題]122.剪枝是決策樹學(xué)習(xí)算法對(duì)付（__）的主要手段。A)欠擬合B)過擬合C)樣本數(shù)過多D)特征數(shù)過多[單選題]123.在一個(gè)MR程序的運(yùn)行過程中，哪個(gè)步驟會(huì)涉及到多個(gè)節(jié)點(diǎn)之間的數(shù)據(jù)交換？A)MapB)CombineC)ShuffleD)Reduce[單選題]124.關(guān)于Hadoop下列說法錯(cuò)誤的是（）A)HDFS采用了Master/Slave的架構(gòu)模型B)Namenode負(fù)責(zé)維護(hù)文件系統(tǒng)的命名空間C)Datanode執(zhí)行比如打開、關(guān)閉、重命名文件操作D)HDFS暴露了文件系統(tǒng)的命名空間，允許用戶以文件的形式在上面存儲(chǔ)數(shù)據(jù)[單選題]125.()負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。A)NameNodeB)IobtrackerC)DataNodeD)SecondaryNameNode[單選題]126.Partition的任務(wù)是分割Map每個(gè)節(jié)點(diǎn)的結(jié)果，然后按照()分別映射到不同的Reduce。A)索引B)鍵C)值D)大小[單選題]127.HDFS創(chuàng)建目錄過程中，通過調(diào)用FileSystem實(shí)例的（）方法查看該目錄是否存在。A)createB)MkdirsC)existsD)find[單選題]128.()操作屬于預(yù)剪枝。A)信息增益B)計(jì)算最好的特征切分點(diǎn)C)限制樹模型的深度D)可視化樹模型[單選題]129.下列對(duì)數(shù)據(jù)定義語言（DDL）描述正確的是()。A)DDL關(guān)心的是數(shù)據(jù)庫中的數(shù)據(jù)B)完成數(shù)據(jù)的增刪改查操作C)控制對(duì)數(shù)據(jù)庫的訪問D)定義數(shù)據(jù)庫的結(jié)構(gòu)[單選題]130.下列關(guān)于IPython的說法，錯(cuò)誤的是()A)IPython集成了交互式Python的很多優(yōu)點(diǎn)B)IPython的性能遠(yuǎn)遠(yuǎn)優(yōu)于標(biāo)準(zhǔn)的Python的shellC)IPython支持變量自動(dòng)補(bǔ)全，自動(dòng)收縮D)與標(biāo)準(zhǔn)的Python相比，IPython缺少內(nèi)置的功能和函數(shù)[單選題]131.以下()只有完全符合給定的判斷條件才返回1。--A)帶ANY關(guān)鍵字的子查詢B)帶ALL關(guān)鍵字的子查詢C)帶IN關(guān)鍵字的子查詢D)以上答案都不正確[單選題]132.在Maxcompute表T中添加一個(gè)新的列col，類型為bigint，最簡(jiǎn)單易行的辦法是:（）。A)將表T刪掉重建B)altertabletaddcolumns（cbigint）C)新建一張表，將原有數(shù)據(jù)插入D)altertableaddcbigint[單選題]133.留出法直接將數(shù)據(jù)集劃分為()個(gè)互斥的集合。A)一B)二C)三D)四[單選題]134.GaussDB200在創(chuàng)建表時(shí)，需要注意以下哪些事項(xiàng)（?A)創(chuàng)建列存表之后,后續(xù)可以修改為行存表。B)創(chuàng)建列存表時(shí)壓縮級(jí)別默認(rèn)為HIGH。C)如果指定表空間為普通表空間,創(chuàng)建表時(shí)默認(rèn)是行式存儲(chǔ)D)創(chuàng)建一個(gè)行存表之后,后續(xù)可以修改為列存表。[單選題]135.用決策樹法訓(xùn)練大量數(shù)據(jù)集時(shí),()最節(jié)約時(shí)間。A)增加樹的深度B)增加學(xué)習(xí)率C)減少數(shù)的深度D)減少樹的個(gè)數(shù)[單選題]136.關(guān)于Pandas層次化索引，下列說法錯(cuò)誤的是（）。A)層次化索引是指Pandas對(duì)象在一個(gè)軸方向上具有多層索引B)層次化索引至多只能有兩層索引C)可以使用swaplevel()方法對(duì)層次化索引的位置交換順序D)使用sort_index()可以對(duì)索引進(jìn)行排序[單選題]137.以下哪項(xiàng)是SparkQ2x程序統(tǒng)一入口?0A)StreamingContextB)Sa|ContextC)HiveContextD)SparkSession[單選題]138.（__）是一種著名的密度聚類算法，它基于一組?鄰域?參數(shù)來刻畫樣本的緊密程度。A)DBSCANB)原型聚類C)密度聚類D)層次聚類[單選題]139.在其它條件不變的前提下，以下哪種做法容易引起機(jī)器學(xué)習(xí)中的過擬合問題A)增加訓(xùn)練集數(shù)量B)減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)C)刪除稀疏的特征D)SVM算法中使用高斯核/RBF核代替[單選題]140.大數(shù)據(jù)在電信中的應(yīng)用不包括下列哪項(xiàng)？（）A)基于用戶、業(yè)務(wù)及流量的分級(jí)的多維管控機(jī)制B)精準(zhǔn)的客戶分析及營銷C)利用位置和軌跡信息服務(wù)社會(huì)D)基礎(chǔ)設(shè)施建設(shè)優(yōu)化和網(wǎng)絡(luò)運(yùn)營管理和優(yōu)化[單選題]141.HBase中數(shù)據(jù)存儲(chǔ)的文件格式是什么?A)HLogB)TextFileC)HFileD)SequenceFile[單選題]142.preprocessing.Normalizer表示(__)。A)一個(gè)函數(shù)B)一個(gè)參數(shù)C)一個(gè)類D)一個(gè)變量[單選題]143.屬于無監(jiān)督學(xué)習(xí)的是()A)、隨機(jī)森林B)、樸素貝葉斯C)、主成分分析D)、支持向量機(jī)[單選題]144.以下Python在數(shù)據(jù)科學(xué)中應(yīng)用的缺點(diǎn)的是()A)、Python中可用于數(shù)據(jù)科學(xué)的第三方擴(kuò)展包的數(shù)量多、功能強(qiáng)B)、Python是一種解釋型語言,因此能較好地支持?jǐn)?shù)據(jù)科學(xué)中的交互式分析任務(wù)C)、Python編寫的源代碼跨平臺(tái)性高,可擴(kuò)展性和可移植性強(qiáng)D)、Python代碼不能加密,因此安全性較低第2部分：多項(xiàng)選擇題，共63題，每題至少兩個(gè)正確答案,多選或少選均不得分。[多選題]145.數(shù)據(jù)的類型主要包括：（）A)文本B)圖片C)音頻D)視頻[多選題]146.自助審貸中下列哪些客戶會(huì)被嚴(yán)禁準(zhǔn)入（）A)九種人范疇B)我行黑名單C)我行存款大戶D)年齡16歲[多選題]147.在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中，sigmoid函數(shù)可用作（__）。A)損失函數(shù)B)優(yōu)化函數(shù)C)激活函數(shù)D)響應(yīng)函數(shù)[多選題]148.(__)是preprocessing.OneHotEncoder的重要接口。A)fitB)transformC)get_frature_namesD)next[多選題]149.影響聚類算法效果的主要原因有()。A)特征選取B)模式相似性測(cè)度C)分類準(zhǔn)則D)已知類別的樣本質(zhì)量[多選題]150.下面哪些方方法不屬于映射數(shù)據(jù)到新的空間？()A)傅立葉變換B)特征加權(quán)C)漸進(jìn)抽樣D)漸進(jìn)抽樣[多選題]151.從學(xué)科定位看,數(shù)據(jù)科學(xué)處于()的重疊之處,具有顯著的跨學(xué)科性A)數(shù)學(xué)與統(tǒng)計(jì)知識(shí)B)計(jì)算機(jī)科學(xué)C)黑客精神與技能D)領(lǐng)域?qū)崉?wù)知識(shí)[多選題]152.關(guān)于ADS的ECU說法（）是正確的。A)ECU的型號(hào)在DB創(chuàng)建后不可更改B)資源計(jì)量的最小單位C)ECU數(shù)量可以在使用中擴(kuò)容或者縮容D)ECU數(shù)量變化是瞬時(shí)的同步操作。[多選題]153.泛在電力物聯(lián)網(wǎng)的核心目標(biāo)包括（）A)對(duì)內(nèi)業(yè)務(wù)和數(shù)據(jù)分析B)對(duì)外業(yè)務(wù)C)基礎(chǔ)支撐D)技術(shù)攻關(guān)和安全防護(hù)[多選題]154.變量標(biāo)準(zhǔn)化的方法有（）A)Z-score標(biāo)準(zhǔn)化B)0-1標(biāo)準(zhǔn)化C)小數(shù)定標(biāo)標(biāo)準(zhǔn)化D)Logistic標(biāo)準(zhǔn)化[多選題]155.使用下面哪種圖表類型能更好地表示隨時(shí)間(年、月和日)或類別變化的趨勢(shì)?()A)餅圖B)折線圖C)面積圖D)柱形圖[多選題]156.數(shù)據(jù)流轉(zhuǎn)和應(yīng)用過程中應(yīng)確保（），前序環(huán)節(jié)應(yīng)保證數(shù)據(jù)的真實(shí)、完整并及時(shí)傳遞到后序環(huán)節(jié)，前后環(huán)節(jié)數(shù)據(jù)應(yīng)保持銜接一致。A)可追溯B)可復(fù)查C)安全性D)一致性[多選題]157.Cloudera提供哪幾種安裝CDH的方法A)ClouderamanagerB)TarballC)YumD)Rpm[多選題]158.實(shí)時(shí)檢索解決方案的項(xiàng)目流程包括以下哪些選項(xiàng)?A)應(yīng)用部署B(yǎng))代碼工程C)應(yīng)用開發(fā)D)項(xiàng)目環(huán)境準(zhǔn)備[多選題]159.HDFS具有較高的容錯(cuò)性，設(shè)計(jì)了哪些相應(yīng)的機(jī)制檢測(cè)數(shù)據(jù)錯(cuò)誤和進(jìn)行自動(dòng)恢復(fù)？A)數(shù)據(jù)源太大B)數(shù)據(jù)節(jié)點(diǎn)出錯(cuò)C)數(shù)據(jù)出錯(cuò)D)名稱節(jié)點(diǎn)出錯(cuò)[多選題]160.CNN相比于全連接的DNN有哪些優(yōu)勢(shì)？（）A)參數(shù)更少B)泛化更好C)訓(xùn)練更快D)更容易搭建[多選題]161.ADS的普通表分區(qū)，支持（）分區(qū)方式。A)ListB)IntervalC)HashD)Range[多選題]162.以下是Python元組的有()。A)[1,2,3]B)(1,2,3)C){1,2,3}D)()[多選題]163.下列哪些措施是為了保障數(shù)據(jù)的完整性A)元數(shù)據(jù)可靠性保證B)重建失效數(shù)據(jù)盤的副本數(shù)據(jù)C)安全模式D)集群數(shù)據(jù)均衡[多選題]164.（___）是數(shù)據(jù)集的一般特性。A)特征B)維度C)稀疏性D)分辨率[多選題]165.Zookeeper在Kafka中有以下哪些功能?A)協(xié)調(diào)Kafka與ResourceManager的通信B)觸發(fā)負(fù)載均衡，保障一個(gè)consumergroup內(nèi)的多個(gè)consumer的訂閱負(fù)戴平衡C)管理broker與consumer的動(dòng)態(tài)加入與離開D)負(fù)責(zé)partition中index數(shù)據(jù)的生成[多選題]166.以數(shù)據(jù)為中心"是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征，表現(xiàn)在()A)數(shù)據(jù)驅(qū)動(dòng)B)數(shù)據(jù)密集型C)數(shù)據(jù)范式D)數(shù)據(jù)可視化中方面。[多選題]167.下面關(guān)于外鍵約束描述正確的是()。--A)可防止非法數(shù)據(jù)的插入B)會(huì)帶來額外的開銷C)刪除主表的數(shù)據(jù)時(shí),需要先刪除從表的數(shù)據(jù)D)以上說法都不正確[多選題]168.我們可以通過（）來查詢HBase表的記錄。A)get'table_name','rowkey'B)get'table_name','rowkey','column_family:column'C)scan'table_name'D)scan'table_name',{COLUMNS=>'column_family:column'}[多選題]169.大數(shù)據(jù)的來源途徑有許多，如下哪些屬于大數(shù)據(jù)來源（）。A)傳感器設(shè)備采集的數(shù)據(jù)B)計(jì)算機(jī)網(wǎng)絡(luò)運(yùn)行產(chǎn)生的日志C)人在微博上發(fā)表的記錄D)網(wǎng)絡(luò)爬蟲得到的數(shù)據(jù)[多選題]170.Flink流式處理的數(shù)據(jù)源類型包括?A)CollectionsB)JDBCC)SocketstreamsD)Files[多選題]171.關(guān)于python中函數(shù)調(diào)用的目的，下列說法正確的是()。A)提高程序的執(zhí)行效率B)減少程序文件所占用的內(nèi)存C)提高程序的可讀性D)提高程序的開發(fā)效率[多選題]172.下列屬于樸素貝葉斯分類器的特點(diǎn)的是（__）。A)樸素貝葉斯模型假設(shè)屬性之間相互關(guān)聯(lián)B)算法邏輯簡(jiǎn)單，易于實(shí)現(xiàn)C)實(shí)際問題中，運(yùn)用拉普拉斯修正避免了因訓(xùn)練樣本不充分導(dǎo)致概率估計(jì)值為0的問題。D)分類過程中時(shí)空開銷小[多選題]173.數(shù)據(jù)戰(zhàn)略等于(__)之?和?。A)數(shù)據(jù)管理目標(biāo)B)行動(dòng)方案C)目標(biāo)管理D)動(dòng)態(tài)機(jī)制[多選題]174.下面說法選項(xiàng)錯(cuò)誤的是（）()A)在一個(gè)Agent中，同一個(gè)source可以有多個(gè)channelB)在一個(gè)Agent中，同一個(gè)sink可以有多個(gè)channelC)在一個(gè)Agent中，同一個(gè)source只能多1個(gè)channelD)在一個(gè)Agent中，同一個(gè)sink只能有1個(gè)channel[多選題]175.MaxCompute的資源類型包括:（）。A)File類型B)Table類型C)Jar類型D)Archive類型[多選題]176.HBase中包含的一些典型的Filter有哪些?A)SingleColumnValueFilterB)FilterListC)RowFilterD)KeyOnlyFilter[多選題]177.FusionlnsightManager與外部管理平臺(tái)對(duì)接時(shí)，支持哪些接口A)SNMPB)VPNC)BGPD)Syslog[多選題]178.下列關(guān)于python的說法中正確的為()。A)Python提供了一個(gè)?內(nèi)置函數(shù)?：type（）用來觀察數(shù)據(jù)的類型B)Python支持常用的算術(shù)運(yùn)算：加、減、乘、除和括號(hào)（）C)Python中，在使用前不需要明確數(shù)據(jù)的使用類型D)Python中，可以使用加號(hào)（+）來合并字符串[多選題]179.NodeManager的內(nèi)存和CPU的數(shù)量,是通過下列哪些選項(xiàng)進(jìn)行配置?A)Yarn.scheduler.capacity.root.QueueA.maximum-capacityB)Yarn.nodemanager.resource.cpu-vcoreC)Yarn.nodemanager.vmem-pmom-ratioD)Yarn.modemanager.resource.memory-mb[多選題]180.關(guān)于華為云MRS中Loader的描述，以下哪些選項(xiàng)是正確的?A)Loader提供可視化向?qū)降淖鳂I(yè)配置管理界面B)Loader頁面是基于開源SqoopWebUI的圖形化數(shù)據(jù)遷移管理工具，該頁面托管在Hue的WebUI中C)Loader提供定時(shí)調(diào)度任務(wù)，周期性執(zhí)行ETL作業(yè)D)Loader在界面中可指定多種不同的數(shù)據(jù)源、配置數(shù)據(jù)的清洗和轉(zhuǎn)換步驟、配置集群存儲(chǔ)系統(tǒng)等[多選題]181.Hadoop啟動(dòng)方法有(ABC)A)Start-all.shB)start-dfs.shC)start-yarn.shD)start-hadoop.sh[多選題]182.Hadoop的HDFS是一種分布式文件系統(tǒng)，適合以下哪種場(chǎng)景的數(shù)據(jù)存儲(chǔ)和管理()。A)大量小文件存儲(chǔ)B)高容錯(cuò)、高吞吐量C)低延遲讀取D)流式數(shù)據(jù)訪問[多選題]183.下面關(guān)于Spark的運(yùn)行架構(gòu)的描述，正確的是：()A)Spark運(yùn)行架構(gòu)包括ClusterB)Spark集群資源管理器可以是Spark自帶的資源管理器，也可以是YARN或Mesos等資源管理框架C)Spark采用?P2P架構(gòu)?D)Spark利用多線程來執(zhí)行具體的任務(wù)[多選題]184.與HadoopMapReduce計(jì)算框架相比，Spark所采用的Executor具有哪些優(yōu)點(diǎn)？A)利用多線程來執(zhí)行具體的任務(wù)，減少任務(wù)的啟動(dòng)開銷B)Executor中有一個(gè)BlockManager存儲(chǔ)模塊，有效減少IO開銷C)提供了一種高度受限的共享內(nèi)存模型D)不同場(chǎng)景之間輸入輸出數(shù)據(jù)能做到無縫共享[多選題]185.數(shù)據(jù)庫管理系統(tǒng)的工作包括A)定義數(shù)據(jù)庫B)對(duì)已定義的數(shù)據(jù)庫進(jìn)行管理C)為定義的數(shù)據(jù)庫提供操作系統(tǒng)D)數(shù)據(jù)通信[多選題]186.（）和（）暫不參與《大數(shù)據(jù)應(yīng)用推動(dòng)考核辦法》中的日常工作月度考核。A)風(fēng)險(xiǎn)管理部B)內(nèi)審監(jiān)督部C)科技信息部D)數(shù)據(jù)運(yùn)管部[多選題]187.下面對(duì)Hbase組件描述正確的是()。A)HBase屬于關(guān)系型數(shù)據(jù)庫B)HBase不屬于關(guān)系型數(shù)據(jù)庫C)HBase支持SQL語言D)HBase不支持SQL語言[多選題]188.以下（）是MaxcomputeSQL的優(yōu)點(diǎn)。A)相對(duì)于使用API或者SDK編程，MaxcomputeSQL的學(xué)習(xí)成本較低B)可將其他數(shù)據(jù)庫中的SQL語句遷移到Maxcompute上來，無需修改或者重新開發(fā)C)提供了豐富的內(nèi)置函數(shù)D)用戶不需要了解分布式概念[多選題]189.數(shù)據(jù)使用環(huán)節(jié)主要內(nèi)容包括（）。A)落實(shí)公司業(yè)務(wù)授權(quán)及賬號(hào)權(quán)限管理要求，合理分配數(shù)據(jù)訪問權(quán)限，強(qiáng)化數(shù)據(jù)訪問控制B)排查整改業(yè)務(wù)邏輯缺陷和漏洞，防止失泄密事件C)加快數(shù)據(jù)脫敏等用戶敏感數(shù)據(jù)保護(hù)措施建設(shè)D)健全數(shù)據(jù)安全日志審計(jì)、監(jiān)測(cè)預(yù)警、態(tài)勢(shì)感知機(jī)制[多選題]190.創(chuàng)建視圖時(shí)可用以下()選項(xiàng)完成視圖的安全控制。--A)DEFINERB)UNDEFINEDC)WITHCHECKOPTIOND)SQLSECURITY[多選題]191.哪些機(jī)器學(xué)習(xí)算法需要做歸一化處理？A)logistic回歸B)神經(jīng)網(wǎng)絡(luò)C)SVMD)隨機(jī)森林[多選題]192.Kafka中刪除消息的閾值有哪幾種?A)分區(qū)總?cè)罩敬笮)數(shù)據(jù)使用的頻率C)數(shù)據(jù)產(chǎn)生的時(shí)間D)硬盤總空間大小[多選題]193.根據(jù)《國網(wǎng)數(shù)據(jù)管理辦法》（2019征求意見稿），總部各業(yè)務(wù)部門是本專業(yè)數(shù)據(jù)的產(chǎn)生者、維護(hù)者和使用者，對(duì)本專業(yè)數(shù)據(jù)負(fù)責(zé)，以下（）對(duì)其主要職責(zé)的描述是錯(cuò)誤的：A)負(fù)責(zé)本公司整體及本專業(yè)數(shù)據(jù)庫表目錄管理B)負(fù)責(zé)本專業(yè)數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)和執(zhí)行C)不負(fù)責(zé)本專業(yè)數(shù)據(jù)質(zhì)量核查治理D)負(fù)責(zé)本專業(yè)大數(shù)據(jù)應(yīng)用和數(shù)據(jù)安全管理[多選題]194.關(guān)于SparkSQL&Hive區(qū)別與聯(lián)系，下列說法正確的是？A)SparkSQL依賴Hive的元數(shù)據(jù)B)SparkSQL的執(zhí)行引擎為Sparkcore，Hive默認(rèn)執(zhí)行引擎為MapReduceC)SparkSQL不可以使用Hive的自定義函數(shù)D)SparkSQL兼容絕大部分Hive的語法和函數(shù)[多選題]195.大數(shù)據(jù)計(jì)算框架Spark中除了RDD還有哪些數(shù)據(jù)類型?A)DataTypeB)DataFrameC)DataSetD)DataSchema[多選題]196.下列有關(guān)k-mean算法說法正確的是A)不能自動(dòng)識(shí)別類的個(gè)數(shù)，隨機(jī)挑選初始點(diǎn)為中心點(diǎn)計(jì)算B)數(shù)據(jù)數(shù)量不多時(shí)，輸入的數(shù)據(jù)的順序不同會(huì)導(dǎo)致結(jié)果不同C)不能自動(dòng)識(shí)別類的個(gè)數(shù)，不是隨機(jī)挑選初始點(diǎn)為中心點(diǎn)計(jì)算D)初始聚類中心的選擇對(duì)聚類結(jié)果的影響很大[多選題]197.下列不是Python關(guān)鍵字的有（）。A)noB)NoneC)nullD)none[多選題]198.下面關(guān)于搜索引擎?點(diǎn)擊模型?的描述正確的是：（）A)隨若數(shù)據(jù)量的積累，點(diǎn)擊模型對(duì)捜索結(jié)果排名的預(yù)測(cè)越來越準(zhǔn)確，它的重要性也越來越大B)點(diǎn)擊模型的準(zhǔn)確性取決于數(shù)據(jù)量的大小C)一個(gè)捜索引擎使用的時(shí)間越長，數(shù)據(jù)的積累就越，對(duì)于長尾搜索就做越準(zhǔn)確D)當(dāng)整個(gè)捜索行業(yè)都意識(shí)到點(diǎn)擊數(shù)據(jù)的重要性后，這個(gè)市場(chǎng)上的競(jìng)爭(zhēng)就從技術(shù)競(jìng)爭(zhēng)變成了數(shù)據(jù)競(jìng)爭(zhēng)[多選題]199.下面與數(shù)據(jù)科學(xué)相關(guān)的正確描述有(__)。A)數(shù)據(jù)科學(xué)中的?數(shù)據(jù)?并不僅僅是?數(shù)值?也不等同?數(shù)值?B)數(shù)據(jù)科學(xué)中?計(jì)算?包括查詢、洞見、可視化等C)數(shù)據(jù)科學(xué)關(guān)注的是?單一學(xué)科?D)數(shù)據(jù)科學(xué)并不僅僅是?理論研究?也不是?領(lǐng)域務(wù)實(shí)知識(shí)?[多選題]200.Grealin包括哪三個(gè)基本的對(duì)數(shù)據(jù)流的操作?A)sideBffect-stepB)filter-stepC)get-stepD)map-step[多選題]201.KafkaConsumer在跟蹤消費(fèi)記錄時(shí)，需要以下哪幾個(gè)選項(xiàng)的信息?A)partitionB)offsetC)producerD)topic[多選題]202.建設(shè)泛在電力物聯(lián)網(wǎng)的原因包括（）：A)公司深入貫徹落實(shí)習(xí)近平新時(shí)代中國特色社會(huì)主義思想的政治擔(dān)當(dāng)B)公司深入貫徹落實(shí)中央領(lǐng)導(dǎo)同志最新要求的實(shí)際行動(dòng)C)公司加快新舊動(dòng)能轉(zhuǎn)換、突破發(fā)展瓶頸的主動(dòng)抉擇D)公司新一屆領(lǐng)導(dǎo)班子堅(jiān)持守正創(chuàng)新、堅(jiān)定不移做強(qiáng)做優(yōu)做大公司的戰(zhàn)略選擇[多選題]203.下列說法中正確的是()。A)云計(jì)算的主要特點(diǎn)是非常昂貴B)大數(shù)據(jù)是多源、異構(gòu)、動(dòng)態(tài)的復(fù)雜數(shù)據(jù),即具有4V特征的數(shù)據(jù)C)大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對(duì)象之一D)MapReduce是采用云計(jì)算這種新的計(jì)算模式研發(fā)出的具體工具軟件(或算法)[多選題]204.以下語句錯(cuò)誤的是（）;SELECTrank,AVG(salary)FROMpeopleHAVINGAVG(salary)>1000GROUPBYrank;A)SELECTrank,AVG(salary)FROMpeopleGROUPBYrankHAVINGAVG(salary)>1000B)SELECTrank,AVG(salary)FROMpeopleHAVINGAVG(salary)>1000GROUPBYrank;C)SELECTAVG(salary)FROMpeopleGROUPBYrankHAVINGAVG(salary)>1000;D)SELECTrank,AVG(salary)FROMpeopleGROUPBYrankWHEREAVG(salary)>1000;[多選題]205.ETL的組成部分包括()。A)數(shù)據(jù)抽取B)數(shù)據(jù)轉(zhuǎn)換和加工C)數(shù)據(jù)加載D)數(shù)據(jù)的存儲(chǔ)[多選題]206.針對(duì)維數(shù)災(zāi)難,我們主要采用的降維方法有()。A)多維縮放B)主成分分析C)核化線性降維D)流形學(xué)習(xí)E)度量學(xué)習(xí)第3部分：判斷題，共42題，請(qǐng)判斷題目是否正確。[判斷題]207.自連接查詢指相互連接的表在物理上為同一個(gè)表,但邏輯上分為兩個(gè)表。--A)正確B)錯(cuò)誤[判斷題]208.ClouderaCDH是需要付費(fèi)使用的。()A)正確B)錯(cuò)誤[判斷題]209.在hdfs-site.xml配置文件中可以配置HDFS數(shù)據(jù)塊的副本數(shù)量。A)正確B)錯(cuò)誤[判斷題]210.()INSERT語句所插入的數(shù)據(jù)行數(shù)據(jù)可以來自另外一個(gè)SELECT語句的結(jié)果集。A)正確B)錯(cuò)誤[判斷題]211.編寫函數(shù)時(shí)，一般建議先對(duì)參數(shù)進(jìn)行合法性檢查，然后再編寫正常的功能代碼。A)正確B)錯(cuò)誤[判斷題]212.在Map階段的分組部分，相同key的若干value會(huì)被放入一個(gè)組里。()A)正確B)錯(cuò)誤[判斷題]213.分區(qū)數(shù)量是ReduceTask的數(shù)量。()A)正確B)錯(cuò)誤[判斷題]214.已知x={1:1,2:2}，那么語句x[3]=3無法正常執(zhí)行。A)正確B)錯(cuò)誤[判斷題]215.from_arrays()方法是將元組列表轉(zhuǎn)換為MultiIndex對(duì)象。（）A)正確B)錯(cuò)誤[判斷題]216.假設(shè)有非空列表x，那么xA)正確B)錯(cuò)誤[判斷題]217.Python不允許使用關(guān)鍵字作為變量名，允許使用內(nèi)置函數(shù)名作為變量名，但這會(huì)改變函數(shù)名的含義A)正確B)錯(cuò)誤[判斷題]218.數(shù)組之間的任何算術(shù)運(yùn)算都會(huì)將運(yùn)算應(yīng)用到元素級(jí)。（）A)正確B)錯(cuò)誤[判斷題]219.儀表板圖可以自定義組合是否正確()A)正確B)錯(cuò)誤[判斷題]220.MySQL中支持在多個(gè)字段上建立復(fù)合主鍵。--A)正確B)錯(cuò)誤[判斷題]221.不同作用域中的同名變量之間互相不影響，也就是說，在不同的作用域內(nèi)可以定義同名的變量。A)正確B)錯(cuò)誤[判斷題]222.每個(gè)DataWorks任務(wù)使用0或0個(gè)以上的數(shù)據(jù)表（數(shù)據(jù)集）作為輸入，生成一個(gè)或多個(gè)數(shù)據(jù)表（數(shù)據(jù)集）作為輸出。A)正確B)錯(cuò)誤[判斷題]223.Spark本身并沒有提供分布式文件系統(tǒng)，因此Spark的分析大多依賴于Hadoop的分布式文件系統(tǒng)HDFS。A)正確B)錯(cuò)誤[判斷題]224.一旦MaxCompute項(xiàng)目空間保護(hù)打開（setsecurity.ProjectProtection=true),無法將項(xiàng)目空間內(nèi)的數(shù)據(jù)轉(zhuǎn)移到項(xiàng)目空間之外，所有的數(shù)據(jù)都只能在項(xiàng)目空間內(nèi)流動(dòng)。A)正確B)錯(cuò)誤[判斷題]225.分布式執(zhí)行框架采用Producer-Consumer模型。A)正確B)錯(cuò)誤[判斷題]226.Series對(duì)象可以具有多層索引結(jié)構(gòu)。()A)正確B)錯(cuò)誤[判斷題]227.任何時(shí)候使用一組特定的輸入值調(diào)用聚合所得到的不一定是相同的。A)正確B)錯(cuò)誤[判斷題]228.已知列表x中包含超過5個(gè)以上的元素，那么語句x=x[:5]+x[5:]的作用是將列表x中的元素循環(huán)左移5位。A)正確B)錯(cuò)誤[判斷題]229.npA)正確B)錯(cuò)誤[判斷題]230.表達(dá)式'Helloworld!'[-4:]的值為'rld!'。A)正確B)錯(cuò)誤[判斷題]231.本實(shí)驗(yàn)對(duì)數(shù)據(jù)處理過程中，進(jìn)行了數(shù)據(jù)分層處理。A)正確B)錯(cuò)誤[判斷題]232.集合中in的測(cè)試速度比列表快很多。A)正確B)錯(cuò)誤[判斷題]233.Spark是基于內(nèi)存的，處理數(shù)據(jù)時(shí)產(chǎn)生的中間產(chǎn)物（計(jì)算結(jié)果）是存放在內(nèi)存中，減少了對(duì)磁盤的I/O操作，大大提升了數(shù)據(jù)的處理速度。A)正確B)錯(cuò)誤[判斷題]234.Python3A)正確B)錯(cuò)誤[判斷題]235.表達(dá)式?a?+1的值為?b?。A)正確B)錯(cuò)誤[判斷題]236.Hive中g(shù)roupby指的是通過一定規(guī)則將一個(gè)數(shù)據(jù)集劃分成若干個(gè)小的數(shù)據(jù)集，然后針對(duì)若干個(gè)小的數(shù)據(jù)集進(jìn)行分組處理。A)正確B)錯(cuò)誤[判斷題]237.對(duì)于帶有else子句的循環(huán)語句，如果是因?yàn)檠h(huán)條件表達(dá)式不成立而自然結(jié)束循環(huán)，則執(zhí)行else子句中的代碼。A)正確B)錯(cuò)誤[判斷題]238.在HadoopHA中，Zookeeper集群為每個(gè)NameNode都分配了一個(gè)故障恢復(fù)控制器，該控制器用于監(jiān)控NameNode的健康狀態(tài)。()A)正確B)錯(cuò)誤[判斷題]239.對(duì)高價(jià)值高度聚合的信息和知識(shí)的批次處理是大數(shù)據(jù)行業(yè)主要商業(yè)訴求。A)正確B)錯(cuò)誤[判斷題]240.元組的訪問速度比列表要快一些，如果定義了一系列常量值，并且主要用途僅僅是對(duì)其進(jìn)行遍歷二不需要進(jìn)行任何修改，建議使用元組而不使用列表A)正確B)錯(cuò)誤[判斷題]241.empty、any()、all()、bool()可以把數(shù)據(jù)匯總簡(jiǎn)化至單個(gè)布爾值。A)正確B)錯(cuò)誤[判斷題]242.如果字符串中包含三引號(hào)，可以使用單引號(hào)包裹這個(gè)字符串。（）A)正確B)錯(cuò)誤[判斷題]243.BloomFilter可以被用來快速的判斷-條數(shù)據(jù)在一個(gè)大的數(shù)據(jù)集合中是否存在。A)正確B)錯(cuò)誤[判斷題]244.假設(shè)有非空列表x，那么x.append(3)、x=x+[3]與x.insert(0,3)在執(zhí)行時(shí)間上基本沒有太大區(qū)別A)正確B)錯(cuò)誤[判斷題]245.運(yùn)營商數(shù)據(jù)整合困難，數(shù)據(jù)都是短期的，不穩(wěn)定的。A)正確B)錯(cuò)誤[判斷題]246.在整個(gè)數(shù)據(jù)傳輸?shù)倪^程中，F(xiàn)lume將流動(dòng)的數(shù)據(jù)封裝到一個(gè)event（事件）中，它是Flume內(nèi)部數(shù)據(jù)傳輸?shù)幕締卧?)A)正確B)錯(cuò)誤[判斷題]247.離散屬性總是具有有限個(gè)值。()A)正確B)錯(cuò)誤[判斷題]248.集合中的元素?zé)o序。（）A)正確B)錯(cuò)誤第4部分：?jiǎn)柎痤}，共11題，請(qǐng)?jiān)诳瞻滋幪顚懻_答案。[問答題]249.Hadoop是否遵循UNIX模式？[問答題]250.()主要是為了掌握利用并行化思想來對(duì)數(shù)據(jù)進(jìn)行有意義的篩選。[問答題]251.請(qǐng)簡(jiǎn)述讀取文件3種方法read()、readline()、readlines()的區(qū)別。[問答題]252.表達(dá)式{40,50,60}&{40,60,70}的值為____。[問答題]253.Hadoop創(chuàng)建多級(jí)目錄（如：/a/b/c）的命令為（）[問答題]254.列表的sort()方法沒有返回值，或者說返回值為____。[問答題]255.通過fillna()方法填充缺失數(shù)據(jù)時(shí)，可以采用前向填充或【】兩種方式。[問答題]256.Reduce是MapReduce數(shù)據(jù)流模型的最后處理過程，其結(jié)果()進(jìn)行第二次匯總。[問答題]257.merge()函數(shù)連接數(shù)據(jù)的方式包括內(nèi)連接、外連接、【】和【】。[問答題]258.我們可以執(zhí)行()指令查看當(dāng)前機(jī)器是否安裝SSH服務(wù)。[問答題]259.客戶端從HDFS中查找數(shù)據(jù)，即為()數(shù)據(jù)；Client從HDFS中存儲(chǔ)數(shù)據(jù)，即為Write寫數(shù)據(jù)。[多選題]260.Client端上傳文件的時(shí)候下列哪項(xiàng)正確？A)數(shù)據(jù)經(jīng)過NameNode傳遞DataNodeB)Client端將文件切分為Block，依次上傳C)Client只上傳數(shù)據(jù)到一臺(tái)DataNode，然后由NameNode負(fù)責(zé)Block復(fù)制工作1.答案:C解析:問inputsplit輸入拆分的話：gzip算法不支持split，lzo壓縮/解壓支持split(需要建索引，文件修改后需要重新建索引)2.答案:B解析:3.答案:C解析:R2的取值為0~1,越靠近1,擬合效果越好。4.答案:B解析:5.答案:A解析:6.答案:D解析:7.答案:C解析:8.答案:B解析:9.答案:D解析:數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)包含同步規(guī)劃、同步建設(shè)、同步使用三項(xiàng)原則。10.答案:A解析:rand（）和randn（）是簡(jiǎn)化的隨機(jī)函數(shù)，傳遞形狀參數(shù)不需要元組，傳入的所有參數(shù)構(gòu)成數(shù)組的形狀元組，此題中就用（5，4）作為數(shù)組的形狀參數(shù)。11.答案:D解析:12.答案:C解析:13.答案:B解析:14.答案:D解析:15.答案:B解析:sklearn.preprocessing模塊包括縮放、居中、歸一化、二值化和插補(bǔ)方法，主要是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和規(guī)范化。16.答案:A解析:17.答案:D解析:18.答案:A解析:HBase位于結(jié)構(gòu)化存儲(chǔ)層，HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持。19.答案:D解析:20.答案:B解析:21.答案:D解析:22.答案:D解析:23.答案:B解析:24.答案:A解析:25.答案:A解析:26.答案:C解析:27.答案:B解析:28.答案:B解析:29.答案:A解析:KNN只是取了最近的幾個(gè)樣本點(diǎn)做平均，離預(yù)測(cè)數(shù)據(jù)較遠(yuǎn)的訓(xùn)練數(shù)據(jù)對(duì)預(yù)測(cè)結(jié)果不會(huì)造成影響，但是SVM、Bayes和KNN的每一個(gè)訓(xùn)練樣本結(jié)果都會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響。30.答案:A解析:Boosting是一種集成學(xué)習(xí)算法，由一系列基本分類器按照不同的權(quán)重組合成為一個(gè)強(qiáng)分類器。31.答案:B解析:最大概率分詞基本思想：一句話有多種切割方法，我們選擇聯(lián)合概率最大的結(jié)果。P（A）=0；P（B）=0.8×0.6×0.4=0.192；P（C）=0；P（D）=0.3×0.5=0.15。所以這道題選擇B。32.答案:D解析:33.答案:B解析:34.答案:C解析:35.答案:A解析:36.答案:A解析:Reducer主要分為Shuffle洗牌、Sort排序和Reduce三個(gè)步驟。37.答案:A解析:字符串不能被修改。38.答案:C解析:39.答案:A解析:數(shù)據(jù)變換的策略不包括審計(jì)。40.答案:C解析:41.答案:D解析:42.答案:D解析:43.答案:D解析:44.答案:A解析:HDFS由一個(gè)NameNode、一個(gè)SecondaryNameNode和多個(gè)DataNode組成。45.答案:D解析:46.答案:A解析:在MapReduce編程模型中，Combiner是可有可無的組件，它的作用是給MapTask的結(jié)果數(shù)據(jù)做局部合并以減少ReduceTask接收的數(shù)據(jù)量，以減少網(wǎng)絡(luò)數(shù)據(jù)傳輸；OutputFormat的默認(rèn)組件是TextOutputFormat；InputFormat的默認(rèn)組件是TextInputFormat；Partitioner的默認(rèn)實(shí)現(xiàn)是HashPartitioner。47.答案:B解析:48.答案:B解析:49.答案:C解析:50.答案:C解析:51.答案:D解析:52.答案:A解析:53.答案:A解析:54.答案:D解析:55.答案:A解析:56.答案:B解析:57.答案:C解析:58.答案:D解析:DNN不包括SVM和DBM。59.答案:D解析:60.答案:B解析:61.答案:D解析:62.答案:B解析:63.答案:C解析:64.答案:B解析:65.答案:B解析:66.答案:D解析:67.答案:C解析:break是while的中止的關(guān)鍵字。68.答案:B解析:69.答案:B解析:70.答案:D解析:71.答案:A解析:72.答案:A解析:73.答案:C解析:74.答案:B解析:75.答案:D解析:76.答案:C解析:記住即可77.答案:C解析:if語句可以成單出現(xiàn)也可以與elif、else實(shí)現(xiàn)分支嵌套功能。78.答案:B解析:79.答案:A解析:80.答案:B解析:81.答案:C解析:82.答案:C解析:圖像平滑的過程中，圖像的細(xì)節(jié)部分保持原有特征。83.答案:A解析:相關(guān)系數(shù)反映了不同變量之間線性相關(guān)程度,取值范圍為[-1,1],值越大表示相關(guān)程度越高。因此,A選項(xiàng)中r=0.9,表示X和Y之間有較強(qiáng)的相關(guān)性。p和t的數(shù)值大小沒有統(tǒng)計(jì)意義,只是將其與某一個(gè)閾值進(jìn)行比對(duì),以得到二選一的結(jié)論。84.答案:D解析:85.答案:D解析:86.答案:B解析:CRF模型的優(yōu)點(diǎn)：①與HMM相比，CRF沒有HMM那樣嚴(yán)格的獨(dú)立性假設(shè)條件，因而可以容納任意的上下文信息，特征設(shè)計(jì)靈活；②與MEMM相比，由于CRF計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率，還克服了MEMM模型標(biāo)記偏置的缺點(diǎn)。CRF模型的缺點(diǎn)：訓(xùn)練代價(jià)大，復(fù)雜度高。87.答案:C解析:88.答案:B解析:89.答案:D解析:R-squared不能決定系數(shù)估計(jì)和預(yù)測(cè)偏差。每次在模型中加入預(yù)測(cè)器，R-squared遞增或不變。90.答案:C解析:91.答案:D解析:92.答案:C解析:93.答案:D解析

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷25)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷25)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔