版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
試卷科目:大數(shù)據(jù)開發(fā)基礎大數(shù)據(jù)開發(fā)基礎(習題卷8)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎第1部分:單項選擇題,共145題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.大數(shù)據(jù)環(huán)境下,為了從大量電子數(shù)據(jù)中挖掘有用的信息,一些數(shù)據(jù)分析工具被開發(fā)出來,主要有三類工具:批處理工具、流處理工具、交互式分析工具A)交互式分析工具B)嵌入式分析工具C)模擬仿真工具答案:A解析:[單選題]2.以下選項中,運算優(yōu)先級別最低的是()。--A)算術運算符B)邏輯運算符C)賦值運算符D)位運算符答案:C解析:[單選題]3.np.swapaxes()函數(shù)返回的是數(shù)組的(__)。A)副本B)視圖C)子集D)切片答案:B解析:[單選題]4.ADS的表進行實時插入、更新時,遵循()設計。A)強一致性B)最終一致性C)會話一致性D)因果一致性答案:B解析:[單選題]5.下列哪個不屬于k-means算法的終止條件()A)沒有(或最小數(shù)目)對象被重新分配給不同的聚類B)沒有聚類中心再發(fā)生變化C)誤差平方和局部最小D)聚類中心聚集在一點答案:D解析:[單選題]6.Hadoop框架中最核心的設計是什么?A)為海量數(shù)據(jù)提供存儲的HDFS和對數(shù)據(jù)進行計算的MapReduceB)提供整個HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務C)Hadoop不僅可以運行在企業(yè)內部的集群中,也可以運行在云計算環(huán)境中D)Hadoop被視為事實上的大數(shù)據(jù)處理標準答案:A解析:[單選題]7.使用類間最大距離法進行圖像分割時,下列步驟正確的是①計算相對距離度量值。②給定一個初始閾值,將圖像分成目標和背景兩類。③分別計算出兩類的灰度均值。④選擇最佳的閾值,使得圖像按照該閾值分成兩類后,相對距離度量值達到最大。A)①②③④B)②①③④C)②③①④D)①③②④答案:C解析:[單選題]8.()是交叉驗證法的一種特例。A)自助法B)留一法C)交叉驗證法D)錯誤率分析答案:B解析:[單選題]9.HBase在新建表的時候必須指定表名和(),不需要指定列,所有的列在后續(xù)添加數(shù)據(jù)的時候動態(tài)添加。A)行B)單元格C)時間戳D)列族答案:D解析:[單選題]10.如果使用數(shù)據(jù)集的全部特征并且準確率能夠達到100%,但在測試集上準確率僅能達到70%左右,這說明()。A)欠擬合B)模型很棒C)過擬合D)以上答案都不正確答案:C解析:當學習器把訓練樣本學得太好了的時候,很可能已經把訓練樣本自身的一些特點當作了所有潛在樣本都會具有的一般性質,這樣就會導致泛化性能下降這種現(xiàn)象在機器學習中稱為過擬合。[單選題]11.在制作圖表時,為了實現(xiàn)在單個圖表中的穿透,可以通過增加()實現(xiàn)A)圖層B)篩選器C)維度D)度量答案:A解析:[單選題]12.載入和保存matlab文件的方法在scipy的(__)模塊中。A)scipy.clusterB)scipy.ioC)scipy.constantsD)scipy.linalg答案:B解析:[單選題]13.下面哪個不是Python合法的變量名A)int_1B)40XLC)self123D)Name答案:B解析:[單選題]14.大數(shù)據(jù)平臺Hadoop的組件中,提供分布式協(xié)作服務的組件是()A)HBaseB)ZooKeeperC)SqoopD)Hive答案:B解析:[單選題]15.在hadoop配置中yarn-site.xml作用是()A)用于定義系統(tǒng)級別的參數(shù)B)用于名稱節(jié)點和數(shù)據(jù)節(jié)點的存放位置C)用于配置JobHistoryServer和應用程序參數(shù)D)配置ResourceManager,NodeManager的通信端口答案:D解析:[單選題]16.運用機器學習的相關技術對詞語的情感進行分類。機器學習的方法通常需要先讓分類模型學習訓練數(shù)據(jù)中的規(guī)律,然后用訓練好的模型對測試數(shù)據(jù)進行預測。以上描述屬于哪種類型的詞語級情感分析A)基于詞典的分析方法B)基于網(wǎng)絡的分析方法C)基于語料庫的分析方法D)其他答案:C解析:[單選題]17.下列關于Numpy的簡單介紹不正確的是()。A)Numpy(NumericalPython)是Python語言的一個擴展程序庫B)支持大量的維度數(shù)組與矩陣運算C)針對數(shù)組運算提供大量的數(shù)學函數(shù)庫D)Numpy不開放源代碼答案:D解析:Numpy是開源代碼庫。278[單選題]18.在Pandas中,使用其本身可以達成數(shù)據(jù)透視功能的函數(shù)是()。A)groupby()B)transform()C)crosstab()D)pivot_table()答案:D解析:pivot_table()用于創(chuàng)建數(shù)據(jù)透視表。[單選題]19.云計算包括3種類型。只為特定用戶提供服務,比如大型企業(yè)出于安全考慮自建的云環(huán)境,只為企業(yè)內部提供服務,這種云計算屬于:()A)有云B)私有云C)混合云D)獨立云答案:B解析:[單選題]20.NaveBayes(樸素貝葉斯)是一種特殊的Bayes分類器,特征變量是X,類別標簽是C,它的一個假定是()A)各類別的先驗概率P(C)是相等的B)以0為均值,sqr(2)/2為標準差的正態(tài)分布C)特征變量X的各個維度是類別條件獨立隨機變量D)P(X|C)是高斯分布答案:C解析:[單選題]21.下面不屬于數(shù)據(jù)科學主要研究內容的有(__)。A)基礎理論B)數(shù)據(jù)管理C)數(shù)據(jù)分析D)數(shù)據(jù)商務答案:D解析:[單選題]22.最小最大正規(guī)化也稱為()A)非標準化B)標準化C)離差標準化D)以上說法都不對答案:C解析:[單選題]23.如果使用的學習率太大,會導致()A)網(wǎng)絡無法收斂B)不確定C)網(wǎng)絡收斂的快D)網(wǎng)絡收斂的慢答案:A解析:[單選題]24.HDFS集群中的NameNode職責不包括()。A)維護HDFS集群的目錄樹結構B)維護HDFS集群的所有數(shù)據(jù)塊的分布、副本數(shù)和負載均衡C)負責保存客戶端上傳的數(shù)據(jù)D)響應客戶端的所有讀寫數(shù)據(jù)請求答案:C解析:NameNode是HDFS的管理節(jié)點,DataNode是HDFS集群的工作節(jié)點。所以用戶上傳的數(shù)據(jù)是由DataNode進行保存的;NameNode負責保存用戶上傳的數(shù)據(jù)的元數(shù)據(jù)和維護HDFS的抽象目錄樹結構,也會響應客戶端的所有讀寫請求。[單選題]25.下列不屬于數(shù)據(jù)轉換器的一項是()A)文本B)算法C)條件判斷D)數(shù)據(jù)轉換答案:D解析:[單選題]26.下列哪─個選項不是StructuredStreaming支持的source數(shù)據(jù)源?A)SocketB)KafkaC)HDFSD)Hive答案:D解析:[單選題]27.線性判別分析(LDA)從貝葉斯決策理論闡釋,當兩類數(shù)據(jù)同先驗且滿足()時,LDA達到最優(yōu)分類。A)高斯分布B)協(xié)方差相等C)高斯分布且協(xié)方差相等D)協(xié)方差不等答案:C解析:[單選題]28.為了解決如何模擬人類的感性思維,例如視覺理解、直覺思維、悟性等,研究者找到一個重要的信息處理的機制是()。A)A專家系統(tǒng)B)人工神經網(wǎng)絡C)模式識別D)智能代理答案:B解析:[單選題]29.下列關于sklearn說法錯誤的是()。A)sklearn全稱為scikit-learnB)sklearn在官網(wǎng)被分為7個大塊C)sklearn的聚類算法幾乎都已經放在cluster模塊中了D)sklearn需要NumPy和SciPy庫的支持答案:B解析:[單選題]30.請閱讀下面一段程序:importpandasaspdser_obj=pd.Series(range(1,6),index=[5,3,0,4,2])ser_obj.sort_index()執(zhí)行上述程序后,最終輸出的結果為()。A)5132034425B)0325324451C)5144322503D)2544033251答案:B解析:[單選題]31.關于Hive建表基本操作,描述正確的是:()。A)一旦表建好,不可再修改表名B)一旦表建好,不可再增加新列C)創(chuàng)建外表時需要指定external關鍵字D)一旦表建好,不可再修改列名答案:C解析:[單選題]32.按照國家法律法規(guī)和公司保密管理規(guī)定,制定數(shù)據(jù)資產脫敏策略,對涉及個人隱私及單位商密的數(shù)據(jù)進行()后方可共享和開放。A)分類處理B)清洗處理C)脫敏處理D)切片處理答案:C解析:[單選題]33.修改數(shù)據(jù)庫表結構用以下哪一項()A)UPDATEB)CREATEC)UPDATEDD)ALTER答案:D解析:[單選題]34.下列()程序通常與NameNode在一個節(jié)點啟動.A)SecondNameNodeB)DataNodeC)TaskTrackerD)JobTracker答案:D解析:[單選題]35.下列關于模塊的說法不正確的是()。A)Python模塊(Module)是一個Python文件,以.py結尾,包含了Python對象定義和Python語句B)使用模塊能夠有邏輯地組織Python代碼段C)把相關的代碼分配到一個模塊里能讓代碼更好用、更易懂D)模塊不能定義類答案:D解析:模塊中可以定義類。[單選題]36.BP神經網(wǎng)絡經常遭遇(),其訓練誤差持續(xù)降低,但測試誤差卻可能上升A)欠擬合B)誤差過大C)誤差過小D)過擬合答案:D解析:[單選題]37.卷積神經網(wǎng)絡(CNN)中Dropout層的作用是A)加快收斂速度B)防止過擬合C)豐富訓練樣本D)增強正樣本答案:B解析:[單選題]38.給定詞匯表如下:{"Bob","ok","like","football","car"}。則下面句子?Botlikesfootball"的詞袋模型表示為:A)[11100]B)[10110]C)[10010]D)[01101]答案:B解析:[單選題]39.下列關于RBM的說法,錯誤的是()A)學習過程很快B)RBM訓練可以看作對一個深層BP網(wǎng)絡的網(wǎng)絡權佳參數(shù)的初始化C)RBM不用人工選擇特征D)RBM有標簽樣本集答案:A解析:[單選題]40.@app.route的作用是()。A)程序代碼的規(guī)范,沒什么作用B)?ask裝飾器,返回本地網(wǎng)絡測試地址C)返回127005000D)以上答案都不正確答案:B解析:@app.route是?ask裝飾器,調用后返回本地網(wǎng)絡測試地址。[單選題]41.構建一個最簡單的線性回歸模型需要()系數(shù)(只有一個特征)。A)1個B)2個C)3個D)4個答案:B解析:[單選題]42.Flume中的JDBCChannel內置數(shù)據(jù)庫是哪個?A)OracleB)MySqlC)DerbyD)SqlServer答案:C解析:[單選題]43.通過數(shù)據(jù)、()和對數(shù)據(jù)的約束三者組成的數(shù)據(jù)模型來存放和管理數(shù)據(jù)A)關系B)數(shù)據(jù)行C)數(shù)據(jù)列D)數(shù)據(jù)表答案:A解析:[單選題]44.請選出程序的正確結果()print("我叫%s今年%d歲!"%('小明',10))A)我叫%s小明今年%d10歲!B)我叫小明今年10歲!C)我叫10今年小明歲D)小明我叫10歲今年答案:B解析:[單選題]45.Hive將表中的數(shù)據(jù)保存到文本,并使用命令插入到employee表中的命令正確是()A)loadlocalinpath'/opt/data/test.txt'overwriteintotableemployee;B)loaddatainpath'/opt/data/test.txt'overwriteintotableemployee;C)loaddatalocalinpath'/opt/data/test.txt'intotableemployee;D)loaddatalocalinpath'/opt/data/test.txt'overwriteintotableemployee;答案:D解析:[單選題]46.在回歸分析中,說法正確的是()。A)解釋變量和被解釋變量都是隨機變量B)解釋變量為非隨機變量,被解釋變量為隨機變量C)解釋變量和被解釋變量都為非隨機變量D)解釋變量為隨機變量,被解釋變量為非隨機變量答案:B解析:在回歸分析中,解釋變量可以理解為自變量,具有確定性,因此為非隨機變量;被解釋變量可以理解為因變量,具有隨機性,因此為隨機變量。[單選題]47.ndarry對象的dtype屬性表示(__)。A)數(shù)組中包含數(shù)據(jù)的類型B)該數(shù)組的類型C)數(shù)組的大小D)數(shù)組的元素個數(shù)答案:A解析:[單選題]48.下面關于數(shù)據(jù)科學中機器學習思路相關描述不正確的有(__)。A)測試集為輸入B)機器學習算法來學習C)用函數(shù)比較算法估計目標函數(shù)D)現(xiàn)有或部分數(shù)據(jù)為訓練集答案:A解析:[單選題]49.下列語句中不能創(chuàng)建一個字典的是()。A)dict1={}B)dict2={3∶5}C)dict3={[1,2,3]∶"uestc"}D)dict4={(1,2,3)∶"uestc"}答案:C解析:字典key不可以是可變類型,C選項中列表為可變類型。246[單選題]50.下面不屬于數(shù)據(jù)科學家的主要職責有(__)。A)制定?數(shù)據(jù)戰(zhàn)略?B)研發(fā)?數(shù)據(jù)產品?C)模擬?數(shù)據(jù)學習?D)構建?數(shù)據(jù)生態(tài)系統(tǒng)?答案:C解析:[單選題]51.以下表示返回字符串長度的函數(shù)是()A)LongB)LeftC)LenD)Length答案:D解析:[單選題]52.np.swapaxes()函數(shù)的作用是(__)。A)數(shù)組轉置B)刪除數(shù)組C)修改數(shù)組存儲位置D)對軸進行調整答案:D解析:[單選題]53.數(shù)據(jù)治理任務通常有三個部分不包含(__)。A)主動定義或序化規(guī)則B)接觸數(shù)據(jù)的業(yè)務流程C)為數(shù)據(jù)利益相關者提供持續(xù)D)跨界的保護、服務和應對并解決因不遵守規(guī)則而產生的問題答案:B解析:[單選題]54.在Graphbash上,創(chuàng)建一個新的圖,必須使用的參數(shù)是?A)graphNameB)lableC)edgeD)vertex答案:A解析:[單選題]55.()是Spark的核心數(shù)據(jù)結構。A)彈性分布式數(shù)據(jù)集B)列表C)元組D)字典答案:A解析:彈性分布式數(shù)據(jù)集(RDD)是Spark的核心數(shù)據(jù)結構。[單選題]56.一個正常的spark任務會產生哪些調度任務?A)DAGB)RDDC)TaskD)Job答案:C解析:[單選題]57.HBase內部的.META.表包含所有用戶()的列表。A)地址B)時間C)類別D)空間區(qū)域答案:D解析:[單選題]58.關于GaussDB200的發(fā)展史,下列說法錯誤的是(?A)GaussDB200已經在華為云發(fā)布了云化產品。B)GaussDB200專注國內業(yè)務,不涉及海外。C)GaussDB200從一開始就支持ARM架構的部署。D)GaussDB200前身叫GaussDB,是GaussDB的子項目。答案:B解析:[單選題]59.python中,()可以求出字符串的長度A)maxB)minC)lenD)in答案:C解析:[單選題]60.C4.5決策樹算法中采用()對連續(xù)屬性進行離散化處理。A)二分法B)最小二乘法C)均值法D)投票法答案:A解析:[單選題]61.()是實現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。A)數(shù)據(jù)管理B)數(shù)據(jù)分析C)數(shù)據(jù)治理D)數(shù)據(jù)規(guī)劃答案:C解析:從DMM模型可以看出,數(shù)據(jù)治理是實現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。數(shù)據(jù)管理指通過管理數(shù)據(jù)實現(xiàn)組織機構的某種業(yè)務目的。然而,數(shù)據(jù)治理則指如何確保數(shù)據(jù)管理順利、有效、科學地完成。[單選題]62.()算法可以用于特征選擇A)樸素貝葉斯B)感知器C)支持向量機D)決策樹答案:D解析:[單選題]63.下列關于Numpy敘述錯誤的是?A)是一個開源的Python科學計算庫B)底層基于C++封裝,運行速度快C)常用來處理數(shù)組D)支持矩陣,處理數(shù)學問題更加形象答案:B解析:[單選題]64.下列選項中,描述不正確的是()。A)Pandas中只有Series和DataFrame這兩種數(shù)據(jù)結構B)Series是一維的數(shù)據(jù)結構C)DataFrame是二維的數(shù)據(jù)結構D)Series和DataFrame都可以重置索引答案:A解析:[單選題]65.在回歸模型中,()在權衡欠擬合(und町-直伽g)和過擬合(over-fi.tting)中影響最大A)多項式階數(shù)B)咱更新權重w時,使用的是矩陣求逆C)使用常數(shù)項D)使用梯度下降法答案:A解析:[單選題]66.用Pyinstall工具把Python源文件打包成一個獨立的可執(zhí)行文件,使用的參數(shù)是:A)-DB)-LC)-iD)-F答案:D解析:[單選題]67.對分類任務來說,學習器從類別標記集合中預測出一個標記,最常見的結合策略是()A)投票法B)乎均法C)學習法D)排序法答案:A解析:[單選題]68.下列關于支持向量機優(yōu)化性問題的形式,說法正確的是()。A)它是一個凸二次規(guī)劃問題B)它是一個凸一次規(guī)劃問題C)它是一個凹二次規(guī)劃問題D)它是一個凹一次規(guī)劃問題答案:A解析:支持向量機優(yōu)化性問題的一個凸二次規(guī)劃問題。[單選題]69.在MapReduce計算架構中,()組件運行在DataNode上,具體管理本節(jié)點計算任務的執(zhí)行。A)ClientB)IobTrackerC)TaskTrackerD)Task答案:C解析:[單選題]70.關于Pandas中數(shù)據(jù)排序,下列說法正確的是()A)即可以按照行索引排序,也可以按照列索引排序B)sort_index()方法表示按照值進行排序C)sort_values()方法表示按照索引進行排序D)默認情況下,sort_index()方法按照降序排列答案:A解析:[單選題]71.在文本分析中,我們使用哪一種技術手段挖掘文本中隱含的語義信息()A)TF-IDFB)主題分析C)情感分析D)以上都不對答案:B解析:[單選題]72.print方法默認以()結束A)\dB)\sC)\tD)\n答案:D解析:[單選題]73.由于大數(shù)據(jù)要處理大量、非結構化的數(shù)據(jù),所以在各處理環(huán)節(jié)中都可以采用()處理A)串行B)并行C)邏輯D)科學答案:B解析:[單選題]74.以下哪一種方法最適合在n(n>1)維空間中做異常點檢測。A)正態(tài)分布圖B)盒圖C)馬氏距離D)散點圖答案:C解析:[單選題]75.概率模型的訓練過程就是()過程。A)分類B)聚類C)參數(shù)估計D)參數(shù)選擇答案:C解析:[單選題]76.數(shù)據(jù)應用按照?誰經手,誰使用,誰負責?的原則,規(guī)范使用過程,切實防范()風險。A)數(shù)據(jù)錄入不及時B)業(yè)務數(shù)據(jù)失泄C)數(shù)據(jù)變更記錄缺失D)業(yè)務數(shù)據(jù)不一致答案:B解析:[單選題]77.type(1e6)的結果為()。A)class'int'B)class'float'C)class'complex'D)class'bool'答案:B解析:[單選題]78.()函數(shù)的功能是使用訓練完成的模型給出輸入數(shù)據(jù)的預測值。A)CsvAssembleB)TokenizationC)NumAssembleD)Predict答案:D解析:[單選題]79.在很多小文件場景下,Spark會起很多Task,當SQL邏輯中存在Shuffle操作時,會大大增加hash分桶數(shù),嚴重影響性能。FusionInsight中,針對小文件的場景通常采用答案:算子,來對Table中的小文件生成的partition進行合并,減少partition數(shù),從而避免在shuffle的時候,生成過多的hash分桶,提升性能?A)groupbyB)coalosceC)connectD)join答案:D解析:[單選題]80.在設計詞頻統(tǒng)計的MapReduce程序時,對于文本行?hellobigdatahellohadoop?,經過map函數(shù)處理后直接輸出的結果應該是(沒有發(fā)生combine和merge操作):()。A)<"hello",1,1>、<"bigdata",1>和<"hadoop",1>B)<"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>C)<"hello",2>、<"bigdata",1>和<"hadoop",1>D)<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>答案:D解析:[單選題]81.fusioninsightmanager對于管理操作,下列錯誤的是?A)可對服務進行啟停重啟B)可以添加和卸載服務C)可設置不常用服務隱藏或顯示D)可查看服務的當前狀態(tài)答案:C解析:[單選題]82.()用于將關系型數(shù)據(jù)庫或者其他結構化的數(shù)據(jù)導入到Hadoop的生態(tài)系統(tǒng)中。A)OozieB)FlumeC)SqoopD)Hue答案:C解析:[單選題]83.以下情況除哪項發(fā)生時balancer便會自動退出()A)集群平衡或者沒有數(shù)據(jù)塊可以移動B)在連續(xù)三次迭代中沒有塊移動C)與namenode傳輸時發(fā)生異常D)另一個balancer在運行答案:A解析:應該是HDFS集群達到了平衡或者沒有數(shù)據(jù)可以移動[單選題]84.數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是()。A)數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內容B)捕捉到的新數(shù)據(jù)會覆蓋原來的快照C)數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內容D)數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合答案:C解析:一旦某個數(shù)據(jù)進入數(shù)據(jù)合庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。[單選題]85.Relief是為()問題設計的。A)二分類B)多分類C)回歸D)降維答案:A解析:[單選題]86.以數(shù)據(jù)為中心的思考解決問題的方式優(yōu)勢逐漸得到體現(xiàn)的原因不包括()A)各個領域的數(shù)據(jù)不斷擴展B)各個領域的數(shù)據(jù)交叉編制成網(wǎng)C)數(shù)據(jù)之間的關聯(lián)性大大增強D)人是數(shù)據(jù)的中心答案:D解析:[單選題]87.下列關于數(shù)據(jù)存儲系統(tǒng)敘述不正確的一項為()。A)數(shù)據(jù)采集層B)數(shù)據(jù)清洗、抽取與建模C)數(shù)據(jù)倉庫與數(shù)據(jù)服務D)無統(tǒng)一數(shù)據(jù)接口答案:D解析:[單選題]88.關于訓練樣本的描述中,正確的說法是哪些?()A)樣本越多,模型訓練越快,性能越好B)增加數(shù)據(jù)可以減少模型過擬合C)樣本越少,模型的方差越大D)如果模型性能不佳,可增加樣本多樣性進行優(yōu)化答案:B解析:[單選題]89.SQL語句中聚合函數(shù)求數(shù)據(jù)總和的是A)MAXB)SUMC)COUNTD)AVG答案:B解析:[單選題]90.HBase虛擬分布式模式需要()個節(jié)點?A)1B)2C)3D)最少3個答案:A解析:偽分布模式:只需要一個節(jié)點(HMaster和HRegionServer在同一個節(jié)點上),需要集成ZooKeeper,數(shù)據(jù)存儲在HDFS上[單選題]91.關于EDA與統(tǒng)計學中驗證性分析的相關描述不正確的有(__)。A)EDA無需事先假設,驗證性分析需要事先假設B)探索分析在后,驗證性分析在前C)EDA中采取的方法往往比驗證分析簡單D)基于EDA是數(shù)據(jù)計算工作可以分為2個部分:探索性分析和驗證性分析答案:B解析:[單選題]92.以下不屬于數(shù)據(jù)科學的研究目的的是()。A)大數(shù)據(jù)及其運動規(guī)律的揭示B)從數(shù)據(jù)到智慧的轉化C)數(shù)據(jù)解釋D)數(shù)據(jù)驅動型決策支持答案:C解析:[單選題]93.Python如何定義一個函數(shù):()A)classB)functionC)defD)template答案:C解析:[單選題]94.HBase內部保留名為-ROOT-和.META.的特殊目錄表,它們維護著當前集群上所有區(qū)域的列表、狀態(tài)和()。A)大小B)類型C)位置D)時間答案:C解析:[單選題]95.下列關于數(shù)據(jù)的說法,正確的是()A)數(shù)據(jù)科學中樣本和特征是同一個概念B)布爾型特征有兩個取值C)名義型特征可以比大小D)離散型特征可以在空間中任意取值答案:B解析:[單選題]96.使用梯度下降算法的步驟是什么?()_x000b_1.計算實際值與預測值之間的誤差_x000b_2.重申,直到你找到最好的網(wǎng)絡權重_x000b_3.通過網(wǎng)絡傳遞輸入并從輸出層獲取值_x000b_4.初始化隨機權重和偏差_x000b_5.通過梯度下降loss函數(shù)計算方法更新權重和偏差A)4,2,3,1,5B)4,5,3,2,1C)4,2,1,5,3D)4,3,1,5,2答案:D解析:[單選題]97.下列不是NoSQL數(shù)據(jù)庫的是()。A)MongoDBB)BigTableC)HBaseD)Access答案:D解析:NoSQL是指那些非關系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲系統(tǒng)。典型的NoSQL產品有DangaInteractive的Memcached、10gen的MongoDB、Facebook的Cassandra、Google的BigTable及其開源系統(tǒng)HBase、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。[單選題]98.S市A,B共有兩個區(qū),人口比例為3:5,據(jù)歷史統(tǒng)計A的犯罪率為0.01%,B區(qū)為0.015%,現(xiàn)有一起新案件發(fā)生在S市,那么案件發(fā)生在A區(qū)的可能性有多大?(___)A)0.375B)0.268C)0.286D)0.261答案:C解析:[單選題]99.Hive的基本數(shù)據(jù)類型是可以進行隱式轉換,類似于Java的類型轉換。例如:某表達式使用INT類型,TINYINT會自動轉換為INT類型,若是某表達式使用TINYINT類型,INT不會自動轉換為TINYINT類型,它會返回錯誤,除非使用()操作進行顯示類型的轉換。A)CASTB)CTASC)CATSD)CSAT答案:A解析:[單選題]100.HBase交互模式中,查看當前版本的命令是()A)versionB)versionsC)showsD)show答案:A解析:[單選題]101.在有N個節(jié)點FusionInsightHD集群中部署HBase時,推薦部署答案:個HMaster進程,()個RegionServer進程?A)3,NB)N,NC)2,ND)2,2答案:C解析:[單選題]102.()是指幾組不同的數(shù)據(jù)中均存在一種趨勢,但當這些數(shù)據(jù)組組合在一起后,這種趨勢將消失或反轉。A)辛普森悖論B)大數(shù)據(jù)悖論C)大數(shù)據(jù)偏見D)幸存者偏差答案:A解析:辛普森悖論是概率和統(tǒng)計學中的一種現(xiàn)象,即幾組不同的數(shù)據(jù)中均存在一種趨勢,41但當這些數(shù)據(jù)組組合在一起后,這種趨勢將消失或反轉。例如,在腎結石治療數(shù)據(jù)分析中,比較兩種腎結石治療的成功率。[單選題]103.下列關于多層前饋神經網(wǎng)絡的描述錯誤的是()。A)輸出層與輸入層之間包含隱含層,且隱含層和輸出層都擁有激活函數(shù)的神經元B)神經元之間存在同層連接以及跨層連接C)輸入層僅僅是接收輸入,不進行函數(shù)處理D)每層神經元上一層與下一層全互連答案:B解析:多層前饋神經網(wǎng)絡的特點:①每層神經元與下一層神經元之間完全互連;②神經元之間不存在同層連接;③神經元之間不存在跨層連接。[單選題]104.下列關于點圖的說法中,正確的是()A)點圖的圖形屬性中包含顏色屬性B)點圖的圖形屬性中包含半徑屬性C)點圖的圖形屬性中不包含大小屬性D)點圖的圖形屬性中不包含形狀屬性答案:A解析:class="fr-ficfr-dib"[單選題]105.當訓練數(shù)據(jù)很多時,一種更為強大的結合策略是使用(__),通過另一個學習器來進行結合。A)投票法B)平均法C)學習法D)排序法答案:C解析:[單選題]106.我們在使用只能手機進行導航來避開城市擁堵路段時,體現(xiàn)了哪種大數(shù)據(jù)思維方式()A)我為人人,人人為我B)全樣而非抽樣C)效率而非精確D)相關而非因果答案:A解析:[單選題]107.使用大數(shù)據(jù)計算服務tunnel命令上傳數(shù)據(jù)文件data.csv到表t_data成功后,不小心又之行了一次該上傳命令,以下說法中正確的是:()。A)最后一次上傳的數(shù)據(jù)會追加插入到表t_data中去B)最后一次上傳的數(shù)據(jù)會覆蓋插入到表t_data中去C)記錄重復會報錯退出D)最后一次上傳的數(shù)據(jù)會把t_data中已存在的相關記錄更新答案:A解析:[單選題]108.(__)不屬于基于實例學習方法。A)KNNB)局部加權回歸算法C)基于案例的推理D)決策樹算法答案:D解析:[單選題]109.客戶IT系統(tǒng)中FusionlnsightHD集群有150個節(jié)點,每個節(jié)點12塊磁盤(不做Raid,不包括OS盤)每個磁盤大小1T只安裝HDF,按照默認配置最大可存儲多少數(shù)據(jù)A)1764TBB)1800TBC)600TBD)588TB答案:D解析:[單選題]110.例如數(shù)據(jù)庫中有A表,包括學生,學科,成績,序號四個字段,數(shù)據(jù)庫結構為學生學科成績序號張三語文601張三數(shù)學1002李四語文703李四數(shù)學804李四英語805上述哪一列可作為主鍵列()A)序號B)成績C)學科D)學生答案:A解析:[單選題]111.執(zhí)行以下代碼段a=set('apple')b=set('orange')print(a^b)時,輸出為()。A){'l','e','a','p'}B){'r','a','g','e','n','o'}C){'l','p','g','o','e','n','a','r'}D){'r','g','n','o','l','p'}答案:D解析:[單選題]112.下列關于大數(shù)據(jù)特點的說法中,錯誤的是()A)數(shù)據(jù)規(guī)模大B)數(shù)據(jù)類型多樣C)數(shù)據(jù)處理速度快D)數(shù)據(jù)價值密度高答案:D解析:[單選題]113.()在劃分屬性時是在當前結點的屬性集合中選擇一個最優(yōu)屬性A)AdaBoostB)RFC)BaggingD)傳統(tǒng)決策樹答案:D解析:[單選題]114.下列關于HDFS的描述正確的是()。A)如果NameNode宕機,SecondaryNameNode會接替它使集群繼續(xù)工作B)HDFS集群支持數(shù)據(jù)的隨機讀寫C)NameNode磁盤元數(shù)據(jù)不保存Block的位置信息D)DataNode通過長連接與NameNode保持通信答案:C解析:[單選題]115.大數(shù)據(jù)要求企業(yè)設置的崗位是()。A)首席信息官和首席數(shù)據(jù)官B)首席信息官和首席工程師C)首席分析師和首席工程師D)首席分析師和首席數(shù)據(jù)官答案:A解析:[單選題]116.批處理常用的組件不包括哪個?A)StormB)HiveC)FlumeD)Spark答案:A解析:[單選題]117.在一個基本的Hadoop集群中,DataNode主要負責什么?A)負責執(zhí)行由JobTracker指派的任務B)協(xié)調數(shù)據(jù)計算任務C)負責協(xié)調集群中的數(shù)據(jù)存儲D)存儲被拆分的數(shù)據(jù)塊答案:D解析:[單選題]118.依托(),結合應用推進數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。A)全業(yè)務數(shù)據(jù)中心和數(shù)據(jù)平臺B)營銷基礎數(shù)據(jù)平臺和大數(shù)據(jù)平臺C)全業(yè)務中心和營銷基礎數(shù)據(jù)平臺D)全業(yè)務數(shù)據(jù)中心和大數(shù)據(jù)平臺答案:A解析:詳見互聯(lián)數(shù)據(jù)[2019]14號《國網(wǎng)互聯(lián)網(wǎng)部關于加強數(shù)據(jù)管理的通知》。[單選題]119.假設有n組數(shù)據(jù)集,每組數(shù)據(jù)集中x的平均值都是9,x的方差都是11,y的平均值都是7.50,x與y的相關系數(shù)都是0.816,擬合的線性回歸方程都是y=3.00+0.500x。那么這n組數(shù)據(jù)集()。A)一樣B)不一樣C)無法確定是否一樣D)以上都不對答案:C解析:只比較平均值、方差、相關系數(shù)和回歸方程,無法確定數(shù)據(jù)集是否相同,還需比較Anscombe'squartet。[單選題]120.對于HBaseKeyValue存儲模型描述不正確的是?A)同一個Key值只能關聯(lián)個valueB)擁有時間戳類型等關鍵信息C)Keyvalue具有特定的格式D)時間戳來區(qū)分多個記錄版本答案:A解析:[單選題]121.HBase依靠()存儲底層數(shù)據(jù)。A)HDFSB)HadoopC)MemoryD)MapReduce答案:A解析:HBase位于結構化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持。[單選題]122.數(shù)據(jù)科學是一門以實現(xiàn)?從數(shù)據(jù)到信息??從數(shù)據(jù)到知識??從數(shù)據(jù)到智慧?的轉化為主要研究目的,以?數(shù)據(jù)驅動??數(shù)據(jù)業(yè)務化??數(shù)據(jù)洞見??數(shù)據(jù)產品研發(fā)?為主要研究任務的()。A)新興科學B)交叉性學科C)獨立學科D)一整套知識體系答案:C解析:[單選題]123.業(yè)務中臺方面,以業(yè)務為導向,優(yōu)先建設()和客戶服務業(yè)務中臺,后期逐步視情況拓展賬務結算等業(yè)務共享服務A)電網(wǎng)服務業(yè)務中臺B)電網(wǎng)資源業(yè)務中臺C)電網(wǎng)優(yōu)化業(yè)務中臺D)電網(wǎng)環(huán)境業(yè)務中臺答案:B解析:[單選題]124.下面關于MySQL安裝目錄描述錯誤的是()。--A)lib目錄用于存儲一系列的庫文件B)include目錄用于存放一些頭文件C)bin目錄用于存放一些課執(zhí)行文件D)以上答案都不正確答案:D解析:[單選題]125.數(shù)據(jù)資產質量管理遵循?誰產生、誰負責?的原則,明確數(shù)據(jù)資產質量的責任歸屬,同一責任人產生的同一數(shù)據(jù)項一年內出現(xiàn)()以上質量問題對責任單位予以通報批評A)四次B)三次C)兩次D)一次答案:C解析:[單選題]126.在線性回歸問題中,我們用R方來衡量擬合的好壞在線性回歸模型中增加特征值并再訓練同一模型下列說法正確的是()A)如果R方上升,則該變量是顯著的B)如果R方下降,則該變量不顯著C)羊羊R方不能反映變量重要性,不能就此得出正確結論D)以上答案都不正確答案:C解析:[單選題]127.Reduce階段是對中間結果中相同?鍵?的所有?值?進行(),已得到最終結果。A)排序B)篩選C)規(guī)約D)檢查答案:C解析:[單選題]128.請閱讀下面一段程序:arr_2d=np.array([[11,20,13],[14,25,16],[27,18,9]])print(arr_2d[1,:1])執(zhí)行上述程序后,最終輸出的結果為()A)[14]B)[25]C)[14,25]D)[20,25]答案:A解析:[單選題]129.實現(xiàn)One-Hot編碼可以用Pandas中()函數(shù)。A)groupby()B)merge()C)get_dummies()D)?llna()答案:C解析:get_dummies()生成啞變量,與One-Hot編碼一致。[單選題]130.關于循環(huán)神經網(wǎng)絡設計的敘述中,錯誤的是()A)能處理可變長皮的序列B)基于圍展開思想C)基于參數(shù)共享思想D)循環(huán)神經網(wǎng)絡不可應用于圖像數(shù)據(jù)答案:D解析:[單選題]131.大數(shù)據(jù)可能帶來(),但未必能夠帶來()A)精確度;準確度B)準確度;精確度C)精確度;多樣性D)多樣性;準確度答案:A解析:[單選題]132.SparkSQL目前暫時不支持()語言.A)PythonB)JavaC)ScalaD)Lisp答案:D解析:[單選題]133.下面關于手機軟件采集個人信息的描述錯誤的是:()A)在我們的日常生活中,手機APP往往會?私自竊密?B)有的APP在提供服務時,釆取特殊方式來獲用戶授權,這本質上仍屬?未經同意?C)在微信朋友圏廣泛傳播的各種測試小程序是安全的.不會竊取用戶個人信息D)手機APP過度采集個人信息呈現(xiàn)普遍趨勢,最突岀的是在非必要的情況下獲取位置信息和訪問聯(lián)系人權限答案:C解析:[單選題]134.安裝FusionInsightHD的Streaming組件是,Nimbus角色要求安裝幾個節(jié)點?A)4B)3C)2D)1答案:C解析:[單選題]135.一般地,?人?與?馬?分別與?人馬?相似,但?人?與?馬?很不相似;要達到這個目的,可以令?人??馬?與?人馬?之間的距離都比較小,但?人?與?馬?之間的距離很大,此時該距離不滿足(__)。A)非負性B)同一性C)對稱性D)直遞性答案:D解析:[單選題]136.使用MaxcomputeSQL:createtablet1liket2;建表時,表t1不會具有表t2的()屬性。A)分區(qū)B)生命周期C)二級分區(qū)D)字段的注釋答案:B解析:[單選題]137.執(zhí)行以下代碼段total={}definsert(items):ifitemsintotal:total[items]+=1else:total[items]=1insert('Apple')insert('Ball')insert('Apple')print(len(total))時,輸出為()。A)1B)2C)3D)4答案:B解析:[單選題]138.線性回歸的基本假設不包括()。A)隨機誤差項是一個期望值為0的隨機變量B)對于解釋變量的所有觀測值,隨機誤差項有相同的方差C)隨機誤差項彼此相關D)解釋變量是確定性變量不是隨機變量,與隨機誤差項之間相互獨立答案:C解析:線性回歸的基本假設:(1)線性關系假設。(2)正態(tài)性假設,指回歸分析中的Y服從正態(tài)分布。(3)獨立性假設,包含兩個意思:①與某一個X對應的一組Y和與另一個X對應的一組Y之間沒有關系,彼此獨立;②誤差項獨立,不同的X所產生的誤差之間應相互獨立,無自相關。(4)誤差等分散性假設:特定X水平的誤差,除了應呈隨機化的常態(tài)分配,其變異量也應相等,稱為誤差等分散性。[單選題]139.屬于有監(jiān)督學習的是()A)、k-meA、nB)、主成分分析C)、關聯(lián)規(guī)則分析D)、線性回歸答案:D解析:[單選題]140.下列不屬于工作流節(jié)點的有()A)線性回歸B)抽樣C)標準化D)參數(shù)答案:D解析:[單選題]141.下列不屬于數(shù)據(jù)預處理的操作是(__)。A)抽樣B)特征子集選擇C)特征變換D)訓練答案:D解析:[單選題]142.()和假設檢驗又可歸結為統(tǒng)計推斷的范疇,即對總體的數(shù)量特征做出具有一定可靠程度的估計和判斷。A)參數(shù)估計B)邏輯分析C)方差分析D)回歸分析答案:A解析:推斷統(tǒng)計包括參數(shù)估計和假設檢驗兩方面的內容。[單選題]143.關于MaxCompute分區(qū)的說法,正確的是:()。A)Maxcompute將分區(qū)列的每個值作為一個分區(qū)B)用戶最多能指定2級分區(qū)C)分區(qū)列只支持string和bigint兩種,且統(tǒng)一表的分區(qū)列要么全部是string,要么全部是bigint,不能混用D)在使用數(shù)據(jù)時必須指定分區(qū)列,否則會出錯答案:A解析:[單選題]144.在決策樹創(chuàng)建時,由于數(shù)據(jù)中的噪聲和離群點,許多分枝反映的是訓練數(shù)據(jù)中的異常,()方法處理這種過分擬合數(shù)據(jù)問題。A)小波B)調和C)剪枝D)回歸答案:C解析:第2部分:多項選擇題,共62題,每題至少兩個正確答案,多選或少選均不得分。[多選題]145.下列屬于統(tǒng)計分析的算法是()A)標準差B)百分位C)相關系數(shù)D)聚類答案:ABC解析:[多選題]146.根據(jù)泛在電力物聯(lián)網(wǎng)2019年建設方案,企業(yè)中臺包括()A)業(yè)務中臺B)能源中臺C)技術中臺D)數(shù)據(jù)中臺答案:AD解析:[多選題]147.查詢分析系統(tǒng)Dremel的特點主要包括:()第8章數(shù)據(jù)可視化A)Dremel是一個面向小規(guī)模數(shù)據(jù)的、穩(wěn)定的系統(tǒng)B)Dremel的數(shù)據(jù)模型是嵌套的C)Dremel中的數(shù)據(jù)是用行式存儲的D)Dremel結合了Web搜索和并行DBMS的技術答案:BD解析:一、[多選題]148.np數(shù)組算術運算包含(__)。A)+B)-C)*D)/答案:ABCD解析:[多選題]149.以下那些方法不常用于灰度內插值。()A)最近鄰內插法B)三次內插法C)雙線性內插值法D)三次樣條插值法答案:ABD解析:[多選題]150.下面關于隱私泄露問題的描述,正確的是:()A)大數(shù)據(jù)時代下的隱私與傳統(tǒng)隱私的最大區(qū)別在于隱私的數(shù)據(jù)化,即隱私主要以?個人數(shù)據(jù)?的形式出現(xiàn)B)用戶在使用搜索引擎時,搜索引擎可以精確地刻畫出該用戶的?數(shù)字肖像"C)通過數(shù)據(jù)預測,可以預測個體?未來的隱私?D)?數(shù)據(jù)痕跡?往往永遠無法徹底消除,會被永久保留記錄答案:ABCD解析:[多選題]151.某池塘有1400條鯉魚,300只蝦,300只鱉。現(xiàn)在以捕鯉魚為目的。撒一大網(wǎng),逮著了700條鯉魚,200只蝦,100只鱉。那么,下列指標正確的是(___)。A)F值40%B)查全率50%C)查準率70%D)F值65%答案:BC解析:[多選題]152.下列哪些是RDBMS中事務遵循的原則()。A)原子性(Atomicity)B)一致性(Connsistency)C)隔離性(Isolation)D)持久性(Durability)答案:ABCD解析:關系數(shù)據(jù)庫中的事務需要具備一定的規(guī)則--ACID特征。ACID是指數(shù)據(jù)庫事務正確執(zhí)行的4個基本要素的縮寫;原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。[多選題]153.某集團公司營銷總監(jiān)在公司年度匯報時,需向總經理匯報不同省份本年銷售額貢獻值(需體現(xiàn)地理標識)、本年度營銷部重點工作事項、本年度營銷部管培生學歷、年齡、畢業(yè)院校、性別等詳細信息,他可以選擇的圖表類型是()A)地圖B)詞云圖C)交叉表D)明細表答案:ABD解析:[多選題]154.下列選項中,關于數(shù)據(jù)塊說法正確的是()。A)磁盤進行數(shù)據(jù)讀/寫的最大單位B)磁盤進行數(shù)據(jù)讀/寫的最小單位C)數(shù)據(jù)塊是抽象的塊D)DataNode是按block對數(shù)據(jù)進行存儲。答案:BCD解析:[多選題]155.圖像分割中常用的鄰域有()。A)0鄰域B)4鄰域C)8鄰域D)24鄰域答案:BC解析:[多選題]156.Spark支持的計算模型有()。A)批處理B)實時計算C)機器學習模型D)交互式查詢答案:ABCD解析:[多選題]157.大數(shù)據(jù)交易平臺的運營模式主要包括哪兩種:()A)具有交易實時顯示功能的交易平臺B)兼具中介和數(shù)據(jù)處理加工功能的交易平臺C)只具備中介功能的交易平臺D)只具備數(shù)據(jù)處理加工功能的交易平臺答案:BC解析:[多選題]158.關于?三型兩網(wǎng)?,除了泛在電力物聯(lián)網(wǎng),還包括():A)建設樞紐型企業(yè)B)建設平臺型企業(yè)C)建設共享型企業(yè)D)堅強智能電網(wǎng)答案:ABCD解析:[多選題]159.一個監(jiān)督觀測值集合會被劃分為()。A)訓練集B)驗證集C)測試集D)預處理集答案:ABC解析:一個監(jiān)督觀測值集合會被劃分為訓練集、測試集、預測集。其中測試集來測試學習器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。[多選題]160.風險分值評估產品包含以下哪幾類子模型;()A)身份特征B)行為偏好C)消費能力D)人脈關系、高危行為答案:ABCD解析:[多選題]161.大數(shù)據(jù)計算服務(MaxCompute,原ODPS)提供的是海量數(shù)據(jù)的存儲和計算能力,和我們熟悉的關系型數(shù)據(jù)庫存在較大的差別。以下說法中正確的是:()。A)不支持事務B)不支持deleteC)不支持索引D)不支持壓縮答案:ABC解析:[多選題]162.RNN的主要應用領域有()。A)自然語言處理B)機器翻譯C)音樂推薦D)洗衣服答案:ABC解析:[多選題]163.對從公司獲取的各類數(shù)據(jù)資產,各單位、部門和人員只享有有限的、不排它的使用權,對外開放的數(shù)據(jù)資產在使用協(xié)議中對數(shù)據(jù)再行轉讓應進行()。A)禁止B)允許C)限制D)審核答案:AC解析:[多選題]164.在Spark技術中,關于Shuffle表述正確的是(__)。A)在整個shuffle過程中,往往伴隨著大量的磁盤和網(wǎng)絡I/O。B)在DAG調度的過程中,Stage階段的劃分是根據(jù)是否有shuffle過程C)在HashShuffle沒有優(yōu)化之前,每一個ShufflleMapTask會為每一個ReduceTask創(chuàng)建一個bucket緩存,并且會為每一個bucket創(chuàng)建一個文件。D)HashShuffle寫數(shù)據(jù)的時候,內存沒有緩沖區(qū)答案:ABC解析:[多選題]165.調用函數(shù)時可使用的正式參數(shù)類型()。A)必備參數(shù)B)關鍵字參數(shù)C)默認參數(shù)D)不定長參數(shù)答案:ABCD解析:[多選題]166.基于信息數(shù)據(jù)的管理和服務創(chuàng)新主要表現(xiàn)在()A)認知方式的變化B)高強度的計算C)個性化的管理服務D):數(shù)據(jù)驅動的創(chuàng)新答案:ABCD解析:[多選題]167.F1ume中攔截器包含以下哪些?A)HostInterceptorB)TimestampInterceptorC)SearchandReplaceInterceptorD)RegexFilteringInterceptor答案:ABCD解析:[多選題]168.數(shù)據(jù)安全管理是通過制定和實施相關安全策略和措施,按照?(___)?的總體原則,明確職責分工,落實數(shù)據(jù)安全責任。A)誰使用誰負責B)誰運維誰負責C)誰主管誰負責D)誰保障誰負責答案:AC解析:[多選題]169.大數(shù)據(jù)計算框架Spark中除了RDD,還有哪些數(shù)據(jù)類型?A)DataTypeB)DataSchemaC)DataSetD)DataFrame答案:CD解析:[多選題]170.區(qū)塊鏈是()等計算機技術的新型應用模式。A)分布式數(shù)據(jù)存儲B)點對點傳輸C)共識機制D)加密算法答案:ABCD解析:[多選題]171.RDD具有()和()特征。A)可容錯性B)簡潔性C)并行數(shù)據(jù)結構D)結構化答案:AC解析:[多選題]172.在ApacheHadoop中,關于HDFS的回收站機制,描述正確的是?A)回收站里的文件可以快速恢復。B)刪除文件時,不會真正的刪除,其實是放入回收站。C)可以設置一個時間閾值,當回收站里文件的存放時間超過這個閾值或是回收站被清空時,文件才會被徹底刪除,并且釋放占用的數(shù)據(jù)塊。D)回收站默認是關閉的。答案:ABCD解析:[多選題]173.下列關于BP網(wǎng)絡說法正確的是(__)。A)標準BP算法每次僅針對一個訓練樣例更新連接權和閾值B)BP神經網(wǎng)絡經常遭遇過擬合C)早停策略可用來緩解BP網(wǎng)絡的過擬合問題D)晚停策略可用來緩解BP網(wǎng)絡的欠擬合問題答案:ABC解析:[多選題]174.直方圖修正法包括()。A)直方圖統(tǒng)計B)直方圖均衡C)直方圖過濾D)直方圖規(guī)定化答案:BD解析:[多選題]175.我們想要減少數(shù)據(jù)集中的特征數(shù)即降維,以下方案合適的是()。A)使用前向特征選擇方法B)使用后向特征排除方法C)我們先,把所有特征都使用,去訓練一個模型,得到測試集上的表現(xiàn)。然后我們去掉一個特征,再去訓練,用交叉驗證看看測試集上的表現(xiàn)。如果表現(xiàn)比原來還要好,我們可以去除這個特征D)查看相關性表,去除相關性最高的一些特征答案:ABCD解析:前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向特征選擇方法和后向特征排除方法在大數(shù)據(jù)上不活用,可以用這里C中方法。用相關性的度量去刪除多余特征也是一個可行的方法。[多選題]176.Spark的技術架構可以分為哪幾層()。A)資源管理層B)Spark核心層C)應用層D)服務層答案:ABD解析:Spark的技術架構可以分為資源管理層、Spark核心層和服務層三層。[多選題]177.缺失數(shù)據(jù)的處理主要涉及的關鍵活動包括().A)缺失數(shù)據(jù)的識別B)缺失數(shù)據(jù)的分析C)刪除或插補缺失數(shù)據(jù)D)缺失數(shù)據(jù)的溯源答案:ABC解析:[多選題]178.下列關于reduce函數(shù)功能的描述正確的有()。A)合并value值,形成較小集合B)采用迭代器將中間值提供給reduce()函數(shù)C)map()函數(shù)處理后結果才會傳輸給reduce()函數(shù)D)內存中不會存儲大量的value值答案:ABCD解析:略。[多選題]179.變量名可以包含()。A)字母B)數(shù)字C)下劃線D)空格答案:ABC解析:[多選題]180.在數(shù)據(jù)庫系統(tǒng)中,有哪幾種數(shù)據(jù)模型?()A)實體聯(lián)系模型B)關系模型C)網(wǎng)狀模型D)層次模型答案:BCD解析:[多選題]181.Client端上傳文件的時候下列哪項正確()A)數(shù)據(jù)經過NameNode傳遞給DataNodeB)Client端將文件切分為Block,依次上傳C)Client只上傳數(shù)據(jù)到一臺DataNode,然后由NameNode負責Block復制工作D)Client首先與NameNode通信選取待寫數(shù)據(jù)的DataNode答案:BD解析:[多選題]182.以下關于模塊的描述正確的是()。A)模塊是文件B)模塊可以定義函數(shù),類和變量C)模塊可以包含可運行的代碼D)模塊使得代碼更復雜,可讀性變差答案:ABC解析:[多選題]183.?showdatabaseslike?student%??命令可以顯示出以下數(shù)據(jù)庫()A)student_myB)studentyC)mystudentD)student答案:ABD解析:[多選題]184.對某個數(shù)據(jù)庫使用記錄單,可以進行的記錄操作有()A)刪除B)新建C)還原D)插入答案:ABC解析:[多選題]185.Flume進程級聯(lián)時,以下哪些Sink類型用于接收上一跳Flume發(fā)送過來的數(shù)據(jù)?A)NullSinkB)thriftsinkC)HivesinkD)avrosink答案:BD解析:[多選題]186.線性判別分析是一種(___)算法。A)有監(jiān)督B)無監(jiān)督C)分類D)降維答案:AD解析:[多選題]187.云計算的服務方式有()A)IaaSB)RaaSC)PaaSD)SaaS答案:ACD解析:[多選題]188.下列關于自助法描述錯誤的是(__)。A)自助法在數(shù)據(jù)集較大、難以有效劃分訓練集或測試集是很有用B)自助法能從初始數(shù)據(jù)集中產生多個不同的訓練集C)自助法產生的數(shù)據(jù)集沒有改變初始數(shù)據(jù)集的分布D)在初始數(shù)據(jù)量足夠時,留出法和交叉驗證法較自助法更為常用答案:AC解析:[多選題]189.在正則化公式中,λ為正則化參數(shù),關于λ的描述正確的是()A)若正則化參數(shù)A過大,可能會導致出現(xiàn)欠擬合現(xiàn)象B)若λ的值太大,則梯度下降可能不收斂C)取一個合理的λ值,可以更好地應用正則化D)如果令λ的值很大的話,為了使CostFunction盡可能的小,所有0的值(不包括()o)都會在一定程度上減小答案:ABCD解析:[多選題]190.SparkMLlib主要提供了哪幾個方面的工具:()A)算法工具B)特征化工具C)流水線D)實用工具答案:ABCD解析:[多選題]191.關于卷積神經網(wǎng)絡的敘述中,正確的是()A)可用于處理時間序列數(shù)據(jù)B)可用于處理圖像數(shù)據(jù)C)卷積網(wǎng)絡中使用的卷積運算就是數(shù)學中的卷積計算D)至少在網(wǎng)絡的一層中使用卷積答案:ABD解析:[多選題]192.在云生態(tài)環(huán)境中,用戶需求相當于(),云數(shù)據(jù)中心相當于(),云服務相當于()。A)降水B)水滴C)水庫D)陽光答案:BCD解析:[多選題]193.信息圖表是信息、數(shù)據(jù)、知識等的視覺化表達,下列哪個說法正確?()A)谷歌公司的制圖服務接口GoogleB)D3是最流行的可視化庫之一,是一個用于網(wǎng)頁作圖、生成互動圖形的JavaScript函數(shù)庫C)ECharts是由百度公司前端數(shù)據(jù)可視化團隊研發(fā)的圖表庫,可以流暢地運行在PC和移動設備上D)大數(shù)據(jù)魔鏡是一款優(yōu)秀的國產數(shù)據(jù)分析軟件,它豐富的數(shù)據(jù)公式和算法可以讓用戶真正理解探索分析數(shù)據(jù)答案:ABCD解析:[多選題]194.Python的字符串內建函數(shù)有哪些?A)capitalize()B)isnumeric()C)isalnum()D)isalpha()答案:ABCD解析:[多選題]195.數(shù)據(jù)加工是一種數(shù)據(jù)轉換的過程,可分為(__)。A)單維度轉換B)高維度轉換C)低維度轉換D)多維度轉換答案:AD解析:[多選題]196.ElasticSearch支持的gateway類型有?A)HDFSB)本地文件系統(tǒng)C)Amazon83D)Amazon85答案:ABC解析:[多選題]197.關于主鍵下列說法正確的是()A)可以是表中的一個字段,B)是確定數(shù)據(jù)庫中的表的記錄的唯一標識字段,C)該字段不可為空也不可以重復D)可以是表中的多個字段組成的。答案:ABCD解析:[多選題]198.Goolge于2003-2008年發(fā)表的3篇論文在云計算和大數(shù)據(jù)技術領域產生了深遠影響,通常被稱為Google三大技術包括()A)SparkB)BigTableC)GFSD)MapReduce答案:BCD解析:[多選題]199.數(shù)據(jù)脫敏的主要原則包括:()A)保持原有數(shù)據(jù)特征B)保持數(shù)據(jù)之間的一致性C)保持業(yè)務規(guī)則的關聯(lián)性D)多次脫敏之間的數(shù)據(jù)一致性答案:ABCD解析:[多選題]200.缺失值從缺失的分布來講可以分為()A)完全隨機缺失B)完全非隨機缺失C)任意缺失D)隨機缺失答案:ABD解析:[多選題]201.出于效率和成本的考慮,在使用MaxcomputeMR的時候,輸入表最好應該只包含需要處理的字段,其余多余字段應該忽略。輸入表wc_in包含10個字段,MR只對其中三個字段(c1,c2,c3)進行了處理,以下說法正確的是:()。A)使用包com.aliyun.odps.data中的TableInfo類中的setCols()方法指定處理的列c1,c2,c3fromwc_in;同時調用MR的時候輸入新表wc_in_newB)MR的輸入為一個SQL查詢:selectc1,c2,c3fromwc_in;C)重建一張表wc_in_new,只包含三個字段(c1,c2,c3),加載數(shù)據(jù):insertintotablewc_in_newselectc1,c2,c3fromwc_in;同時調用MR的時候D)建一個視圖v_wc_in,視圖僅包括相應的三個字段:createviewv_wc_inselectc1,c2,c3fromwc_in;然后把視圖v_wc_in作為MR的輸入答案:CD解析:[多選題]202.零售數(shù)據(jù)的線上來源包括()。A)產品條目B)合作電商的數(shù)據(jù)C)利用大數(shù)據(jù)對非合作電商的推算D)全渠道覆蓋答案:BC解析:[多選題]203.《促進大數(shù)據(jù)發(fā)展行動綱要》在制訂時面臨的問題包括()。A)政府數(shù)據(jù)開放共享不足B)產業(yè)基礎扎實C)缺乏頂層設計和統(tǒng)籌規(guī)劃D)創(chuàng)新應用領域廣闊答案:AC解析:[多選題]204.Hive數(shù)據(jù)存儲模型包括哪些成分?A)數(shù)據(jù)庫B)表C)桶D)分區(qū)答案:BCD解析:[多選題]205.以下關于L1和L2范數(shù)的描述,正確的是()。A)L1范數(shù)為x向量各個元素絕對值之和。B)L2范數(shù)為x向量各個元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C)L1范數(shù)可以使權值稀疏,方便特征提取D)L2范數(shù)可以防止過擬合,提升模型的泛化能力。答案:ABCD解析:L0是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。L1范數(shù)可以使權值稀疏,方便特征提取。L2范數(shù)可以防止過擬合,提升模型的泛化能力。[多選題]206.研發(fā)大數(shù)據(jù)分析軟件,主要具備的功能有A)用戶登錄及權限劃分B)數(shù)據(jù)檢索及挖掘C)數(shù)據(jù)分析D)持續(xù)監(jiān)控E)實時共享答案:ABCDE解析:第3部分:判斷題,共42題,請判斷題目是否正確。[判斷題]207.Hadoop默認調度器策略為FIFO,并支持多個Pool提交Job。()A)正確B)錯誤答案:錯解析:hadoop1.x使用的默認調度器就是FIFO。FIFO采用隊列方式將一個一個job任務按照時間先后順序進行服務。[判斷題]208.Flume的一個Source可以和多個Channe1關聯(lián)。A)正確B)錯誤答案:對解析:[判斷題]209.越復雜的模型,在trainingdataset表現(xiàn)出越好的誤差性能,但在testingdataset中并不總是表現(xiàn)出好的誤差性能,這種現(xiàn)象叫欠擬合A)正確B)錯誤答案:錯解析:[判斷題]210.?不要把所有的雞蛋放在一個籃子里?,這句話的依據(jù)是大數(shù)據(jù)背景下,多元化對于組合風險的作用的原理。A)正確B)錯誤答案:對解析:[判斷題]211.Hadoop提供的Mapper類是實現(xiàn)Map任務的一個抽象基類。A)正確B)錯誤答案:對解析:Hadoop提供的Mapper類是實現(xiàn)Map任務的一個抽象基類,該基類提供了一個map()方法,默認情況下,Mapper類中的map()方法是沒有做任何處理的。[判斷題]212.TheInternetofThings是在目前互聯(lián)網(wǎng)的基礎上,將客觀物體也接入進來而形成的網(wǎng)絡。A)正確B)錯誤答案:對解析:[判斷題]213.運算符/在Python2.x和Python3.x中具有相同的功能A)正確B)錯誤答案:錯解析:[判斷題]214.建立數(shù)據(jù)質量現(xiàn)場檢查制度,定期組織實施,每年不低于一次,對重大問題及時上報董事長,并按流程實施整改。A)正確B)錯誤答案:錯解析:[判斷題]215.Spark任務的每個stage可劃分為job,劃分的標記是shuffleA)正確B)錯誤答案:錯解析:[判斷題]216.Hive是一種數(shù)據(jù)倉庫處理工具,使用類似SQL的HiveSQL語言實現(xiàn)數(shù)據(jù)查詢功能,所有Hice的數(shù)據(jù)存儲都存儲在HDFS中。A)正確B)錯誤答案:對解析:[判斷題]217.中國電信大數(shù)據(jù)平臺數(shù)據(jù)沙箱為一站式大數(shù)據(jù)和數(shù)據(jù)科學實訓競賽平臺。A)正確B)錯誤答案:對解析:[判斷題]218.Hadoop的NameNode用于存儲文件系統(tǒng)的元數(shù)據(jù)A)正確B)錯誤答案:對解析:[判斷題]219.()一句delete語句能刪除多行。A)正確B)錯誤答案:對解析:[判斷題]220.如果FusionlnsightHD集群節(jié)點數(shù)不足以使數(shù)據(jù)節(jié)點單獨部署的情況下,可以采用管理節(jié)點&控制節(jié)點&數(shù)據(jù)節(jié)點合一部署方案,但新能會受限制A)正確B)錯誤答案:對解析:[判斷題]221.通過執(zhí)行指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國風電主軸行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 2025-2030年中國在線出境游行業(yè)全國市場開拓戰(zhàn)略制定與實施研究報告
- 2025-2030年中國連鎖酒店行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 2025-2030年中國美甲行業(yè)全國市場開拓戰(zhàn)略制定與實施研究報告
- 2025-2030年中國黃金行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 肇慶地區(qū)地質地貌實習報告-總結報告模板
- 2025年中國采礦采石設備制造行業(yè)市場需求預測與投資戰(zhàn)略規(guī)劃分析報告
- 廣西河池市羅城縣2021-2022學年五年級上學期英語期末試卷
- 春節(jié)新媒營銷之道
- 春節(jié)購房共筑新希望
- 《家庭、私有制和國家的起源》
- 熱工過程自動控制課件
- 《武漢市幼兒園2 6歲兒童素質發(fā)展水平評價標準》解讀課件
- 2023年版義務教育音樂課程標準(標準版)
- 新改版教科版四年級下冊科學教學計劃
- 肺炎試題及答案
- 化糞池計算表格Excel(自動版)
- 倪海廈《天紀》講義
- DB44∕T 1379-2014 化妝刷-行業(yè)標準
- 平安禮儀規(guī)范
- 幼兒專注力訓練-運筆練習-連線練習-可打印(共26頁)
評論
0/150
提交評論