大數(shù)據(jù)開發(fā)基礎(習題卷31)

上傳人：w*** IP屬地：重慶上傳時間：2023-11-15 格式：DOCX 頁數(shù)：66 大?。?6.62KB 積分：3.6 舉報 版權申訴

已閱讀5頁，還剩61頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

試卷科目：大數(shù)據(jù)開發(fā)基礎大數(shù)據(jù)開發(fā)基礎(習題卷31)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎第1部分：單項選擇題，共144題，每題只有一個正確答案,多選或少選均不得分。[單選題]1.反演歸結（消解）證明定理時，若當前歸結式是（）時，則定理得證。A)永真式B)包孕式（subsumed）C)空子句[單選題]2.若變量x的值為987，則表達式x//10%10的值為？A)0B)9C)8D)7[單選題]3.關于FusionInsightHDStreaming的Supervisor描述正確的是?A)Supervisor是在Topology中接受數(shù)據(jù)然后執(zhí)行處理的組件B)Supervisor負責接受Nimbus分配的任務,啟動和停止屬于自己管理的Worker進程C)Supervisor負責資源分配和任務調(diào)度D)Supervisor是運行具體處理邏輯的過程[單選題]4.若arr=np.array([1,2,3])，且arr1=np.array([2,4,6])print(arrA)TRUEB)FALSEC)[Ture,Ture,Ture]D)([Ture,Ture,Ture])[單選題]5.下面哪個不屬于matplotlib基本圖表包含的元素A)坐標軸B)刻度C)刻度標簽D)參考區(qū)域[單選題]6.python語句?f=lambdax,y:x*y;f(12,34)?的程序運行結果是。（）A)12B)22C)56D)408[單選題]7.Kafka集群必須依賴于下列哪一個組件?A),HDFSB)YarnC)FlumeD)Zookeeper[單選題]8.如果想把一個字符串全部轉為小寫使用字符串方法A)countB)replaceC)lowerD)upper[單選題]9.假設您已在數(shù)據(jù)集上擬合了一個復雜的回歸模型。現(xiàn)在,您正在使用Ridge回歸,并調(diào)整參數(shù)λ以減少其復雜性。下面的描述哪個表達了偏差和方差與λ的關系()。A)在λ非常小的情況下,偏差低,方差低B)在λ非常小的情況下,偏差低,方差高C)在λ非常小的情況下,偏差高,方差低D)在λ非常小的情況下,偏差低,方差低[單選題]10.如果在大型數(shù)據(jù)集上訓練決策樹。為了花費更少的時間來訓練這個模型,下列哪種做法是正確的()A)增加樹的深度B)增加學習率C)減小樹的深度D)減少樹的數(shù)量[單選題]11.()不屬于C盯模型對于HMM和MEMM模型的優(yōu)勢A)特征靈活B)速度快C)可容納較多上下文信息D)全局最優(yōu)[單選題]12.以下現(xiàn)象不能直接通過低通濾波器解決的是()。A)低分辨率文本圖像中出現(xiàn)的字符斷裂問題B)指紋圖像中的去污染問題C)人臉圖像中需要?美容?的去皺紋問題D)遙感圖像中的掃描線濾除問題[單選題]13.在加強數(shù)據(jù)安全技術保護方面，要注意落實數(shù)據(jù)安全技術保護與信息系統(tǒng)的?三同步?原則，其中不包括()。A)同步規(guī)劃B)同步建設C)同步使用D)同步檢查[單選題]14.Oracle數(shù)據(jù)庫中，數(shù)據(jù)字典表和視圖存儲在（）A)USERS表B)SYSTEM表空間C)TEMPORARY表空間D)ORACLE表空間[單選題]15.邏輯域構建了協(xié)議、（）、數(shù)據(jù)等組成的信息活動域。A)附件B)網(wǎng)絡C)軟件D)硬件[單選題]16.開發(fā)人員在使用大數(shù)據(jù)計算服務的圖計算時，主要的輸入數(shù)據(jù)在表中，另外還有一些非結構化的配置信息存在一個本地文件中，則可以采用（）方式使得這些配置信息在圖計算過程中可用。A)將這個配置信息做為resource上傳到大數(shù)據(jù)計算服務中，在圖計算過程中可以讀取resource中的數(shù)據(jù)B)輸入輸出只能是Table，必須要把這部分數(shù)據(jù)放到表中C)在group程序中直接讀取本地的文件信息D)輸入只能是一張表，因此無法滿足這個場景[單選題]17.下列關于HDFS的副本機制的說法哪一個是不正確的？A)第一個副本放置在上傳文件的NameNode上；B)第二個副本放置在與第一個副本不同的機架的節(jié)點上；C)第三個副本放置在第二副本相同機架的不同節(jié)點上；D)默認配置保存三個副本[單選題]18.SparkJob默認的調(diào)度模式（___）A)隨機B)FAIRC)FIFOD)運行時指定[單選題]19.接受者操作特征曲線簡稱（__）。A)雙曲線B)ROC曲線C)科克曲線D)共軛曲線[單選題]20.我們建立一個5000個特征,100萬數(shù)據(jù)的機器學習模型。我們怎么有效地應對這樣的大數(shù)據(jù)訓練()。A)我們隨機抽取一些樣本,在這些少量樣本之上訓練B)我們可以試用在線機器學習算法C)我們應用PCA算法降維,減少特征數(shù)D)以上答案都正確[單選題]21.隨機森林中的隨機是指(A)隨便構建樹模B)隨機選擇一個樹模型C)隨機選擇多個樹模型D)在構建每個樹模型時隨機選擇樣本和特征[單選題]22.OTS的單個表可以包括:（）個屬性列。A)0-128個B)0-1024個C)無限制D)0-256個[單選題]23.下列選項中，關于duplicated()方法描述正確的是（）。A)duplicate()方法用于刪除重復值B)duplicate()方法用于標記重復值C)duplicate()方法會改變原始數(shù)據(jù)D)duplicate()方法會將重復的數(shù)據(jù)標記為False[單選題]24.某項目小組接到一個大數(shù)據(jù)實時分析項目，且對實時性要求很高。請問以下哪種大數(shù)據(jù)計算框架最合適?A)FlinkB)MapReduceC)HBaseD)Spark[單選題]25.計數(shù)器是用來記錄()的執(zhí)行進度和狀態(tài)的A)mapperB)reducerC)partitionerD)job[單選題]26.F1參數(shù)()，說明模型越穩(wěn)定。A)越小B)越大C)越趨近于某一特定值D)F1參數(shù)和模型穩(wěn)定性沒有關系[單選題]27.執(zhí)行以下代碼段alien_1={'color':'green','points':5}alien_2={'color':'blue','points':1}print(alien_1<alien_2)時，輸出為()。A)TrueB)FalseC)ErrorD)None[單選題]28.當Mapper輸出的相同partition的kv數(shù)據(jù)到達一個Reducer后，會有一個聚合的過程，即將?相同?key的kv聚合到一起，其實質(zhì)是利用來對key進行比較。A)GroupingComparatorB)ComparatorC)PartitionerD)GroupingPartitioner[單選題]29.下列關于數(shù)據(jù)倉庫隨時間變化的描述不正確的是（）。A)數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B)捕捉到的新數(shù)據(jù)會覆蓋原來的快照C)數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容D)數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù)，這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合[單選題]30.getPartition()的參數(shù)中numReduceTasks指的是設置的Reducer的任務數(shù)量，默認值是()。A)0B)1C)2D)3[單選題]31.假設precision=TP/(TP+FP),recall=TP/(TP+FN),則在二分類問題中,當測試集的正例和負例數(shù)量不均衡時,以下評價方案中()是相對不合理的。A)Accuracy:(TP+TN)/allB)F-value:2recallprecision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:曲線下面積[單選題]32.在某神經(jīng)網(wǎng)絡的隱層輸出中，包含-1.5，那么該神經(jīng)網(wǎng)絡采用的激活函數(shù)不可能是A)sigmoidB)tanhC)reluD)A，B，C[單選題]33.下列哪項關于模型能力（modelcapacity）的描述是正確的？（指模型能近似復雜函數(shù)的能力）A)隱層層數(shù)增加，模型能力增加B)Dropout的比例增加，模型能力增加C)學習率增加，模型能力增加D)都不正確[單選題]34.以下說法中:①一個機器學習模型，如果有較高準確率，總是說明這個分類器是好的;②如果增加模型復雜度，那么模型的測試錯誤率總是會降低;③如果增加模型復雜度，那么模型的訓練錯誤率總是會降低，正確的是()A)1B)2C)3D)1,3[單選題]35.閱讀下面的程序：li_one=[2,1,5,6]print(sorted(li_one[:2]))運行程序，輸出結果是（）。A)[1,2]B)[2,1]C)[1,2,5,6]D)[6,5,2,1][單選題]36.代碼print（0.1+0.2==0.3）的輸出結果是（）。A)TrueB)FalseC)trueD)false[單選題]37.Spark核心層主要關注()問題。A)存儲B)計算C)傳輸D)連接[單選題]38.以下代碼的結果是foriinrange(5,10,2):print(i)A)輸出5678910(換行)B)輸出57910(換行)C)輸出579(換行)D)輸出6810(換行)[單選題]39.IBMCloud為我們提供的是以下哪種服務？A)SaaSB)PaaSC)IaaSD)DaaS[單選題]40.什么是大數(shù)據(jù)使用的最可靠方法？A)大數(shù)據(jù)源B)樣本數(shù)據(jù)源C)規(guī)模大D)大數(shù)據(jù)與樣本數(shù)據(jù)結合[單選題]41.下面關于數(shù)據(jù)粒度的描述不正確的是:A)粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別B)數(shù)據(jù)越詳細,粒度就越小,級別也就越高C)數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D)粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量[單選題]42.將閔可夫斯基距離和（__）結合即可處理混合屬性。A)ValueDifferenceMectricB)k-meansC)k近鄰D)SVM[單選題]43.下面描述錯誤的是：()A)數(shù)據(jù)挖掘的目標明確，先做假設，然后通過數(shù)據(jù)分析來驗證假設是否正確，從而得到相應的結論B)數(shù)據(jù)挖掘的重點在尋找未知的模式與規(guī)律C)數(shù)據(jù)分析一般都是得到一個指標統(tǒng)計量結果，如總和、平均值等D)數(shù)據(jù)挖掘則是輸出模型或規(guī)則，并且可相應得到模型得分或標簽[單選題]44.()是指針對用戶非常明確的數(shù)據(jù)查詢和處理任務，以高性能和高吞吐量的方式實現(xiàn)大眾化的服務，是數(shù)據(jù)價值最重要也是最直接的發(fā)現(xiàn)方式。A)數(shù)據(jù)服務B)數(shù)據(jù)分析C)數(shù)據(jù)治理D)數(shù)據(jù)應用[單選題]45.圖像中虛假輪廓的出現(xiàn)就其本質(zhì)而言是（）。A)圖像的灰度級數(shù)不夠多而造成的B)圖像的空間分辨率不夠高而造成的C)圖像的灰度級數(shù)過多而造成的D)圖像的空間分辨率過高而造成的[單選題]46.以下可以創(chuàng)建外鍵約束的表是()。--A)MyISAM表B)InnoDB表C)MEMORY表D)以上答案全部正確[單選題]47.下面if語句統(tǒng)計?成績(score)優(yōu)秀的男生以及不及格的男生?的人數(shù),正確的語句為。（）A)If(gender==?男?andscore=90):n+=1B)If(gender==?男?andscore=90):n+=1C)If(gender==?男?and(score=90)):n+=1D)If(gender==?男?orscore=90):n+=1[單選題]48.選項()可以令下面的代碼輸出結果為Truea=foo(2)b=foo(3)print(a<b)A)classfoo:def__init__(self,x):self.x=xdef__lt__(self,other):ifself.x<other.x:returnFalseelse:returnTrueB)classfoo:def__init__(self,x):self.x=xdef__less__(self,other):ifself.x>other.x:returnFalseelse:returnTrueC)classfoo:def__init__(self,x):self.x=xdef__lt__(self,other):ifself.x<other.x:returnTrueelse:returnFalseD)classfoo:def__init__(self,x):self.x=xdef__less__(self,other):ifself.x<other.x:returnFalseelse:returnTrue[單選題]49.OGG是一種基于日志的結構化數(shù)據(jù)()軟件。A)存儲B)查詢C)復制D)更新[單選題]50.下列關于eval（）函數(shù)的描述錯誤的是（）。A)eval（）函數(shù)的作用是將輸入的字符串轉為Python語句，并執(zhí)行該語句B)如果用戶希望輸入一個數(shù)字，并用程序?qū)@個數(shù)字進行計算，可以采用eval（input（<輸入提示字符串>））組合C)執(zhí)行eval（"Hello"）和執(zhí)行eval（"'Hello'"）得到相同的結果D)eval（）函數(shù)的定義為：eval（source，globals=None，locals=None，/）249[單選題]51.當使用的Hive是2.x之后的版本時，那么就必須手動初始化元數(shù)據(jù)庫。若是我們使用Hive默認的dB、類型?derby?，那么我們應該使用（）命令進行初始化。A)schematool‐dbTypederby‐initSchemaB)schematool‐Typederby‐initSchemaC)schema‐dbTypederby‐initSchemaD)schema‐Typederby‐initSchema[單選題]52.下面關于ID3算法中說法錯誤的是A)ID3算法要求特征必須離散化B)信息增益可以用熵，而不是GINI系數(shù)來計算C)選取信息增益最大的特征，作為樹的根節(jié)點D)ID3算法是一個二叉樹模型[單選題]53.不屬于數(shù)據(jù)脫敏的要求的是()。A)雙向性B)單向性C)無殘留D)易于實現(xiàn)[單選題]54.Numpy中使用不同類型的數(shù)組進行操作時，結果數(shù)組的類型會進行（）。A)向下轉換B)向上轉換C)不進行轉換D)無法計算[單選題]55.執(zhí)行如下代碼：importtimeprint(time.time())以下選項中描述錯誤的是A)time庫是Python的標準庫B)可使用time.ctime()，顯示為更可讀的形式C)time.sleep(5)推遲調(diào)用線程的運行，單位為毫秒D)輸出自1970年1月1日00:00:00AM以來的秒數(shù)[單選題]56.下列選項中適合MapReduce的場景有?A)實時交互計算B)迭代計算C)流式計算D)離線計算[單選題]57.A為ADS中的普通表，a為A的分區(qū)列，類型為bigint，b為A中的普通列，類型為bigint，請判斷以下相關SQL中（）語法是錯誤的。A)SELECTaFROMAORDERBYaLIMIT100B)SELECTa+b,count(a)FROMAgroupbya+bORDERBYaC)SELECTa,bFROMAORDERBYa+bLIMIT100D)SELECTa,count(a)FROMAgroupbyaORDERBYa[單選題]58.np.full_like()的作用是（__)。A)創(chuàng)建形狀一樣但指定數(shù)值的矩陣B)創(chuàng)建全1矩陣C)創(chuàng)建對角矩陣D)復制矩陣[單選題]59.在其他條件不變的前提下,()容易引起機器學習中的過擬合問題。A)增加訓練集量B)減少神經(jīng)網(wǎng)絡隱藏層節(jié)點數(shù)C)刪除稀疏的特征D)SVM算法中使用高斯核/RBF核代替線性核[單選題]60.（__）中基學習器的多樣性不僅來自樣本擾動，還來自屬性擾動。A)AdaBoostB)RFC)BaggingD)傳統(tǒng)決策樹[單選題]61.下列說法中正確的是（）A)對于大數(shù)據(jù)而言，最基本、最重要的要求是減少錯誤、保障質(zhì)量。因此大數(shù)據(jù)的搜集要盡量精確。B)谷歌流感趨勢充分體現(xiàn)了數(shù)據(jù)重組和擴展對數(shù)據(jù)價值的重要意義。C)大數(shù)據(jù)時代，數(shù)據(jù)就是一座金礦，而大數(shù)據(jù)思維是打開這座礦山的鑰匙。D)大數(shù)據(jù)時代還是看重因果關系。[單選題]62.當（__）過高，會出現(xiàn)過擬合現(xiàn)象A)偏差B)方差C)噪聲D)泛化誤差[單選題]63.推薦系統(tǒng)為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基于網(wǎng)站最熱賣商品、客戶所處城市、（），推測客戶將來可能的購買行為。A)客戶的朋友B)客戶的個人信息C)客戶的興趣愛好D)客戶過去的購買行為和購買記錄[單選題]64.后剪枝是先從訓練集生成一顆完整的決策樹,然后()對非葉結點進行考察。A)自上而下B)在劃分前C)禁止分支展開D)自底向上[單選題]65.SQL語法中內(nèi)部關聯(lián)的關鍵字是()A)INNERJOINB)LEFTJOINC)FULLJOIND)CROSSJOIN[單選題]66.首先根據(jù)需要設計一個調(diào)色板，進而將灰度值作為調(diào)色板的索引值完成從灰度到彩色的映射。這種偽方法稱為A)基于灰級窗的偽彩色方法B)基于灰度調(diào)色板的偽彩色方法C)基于灰度變換的偽彩色方法D)基于區(qū)域分割的偽彩色方法[單選題]67.執(zhí)行以下代碼段requested_toppings=['mushrooms','greenpeppers','extracheese']forrequested_toppinginrequested_toppings:print("Adding"+requested_topping+".")時，輸出為()。A)Addingmushrooms.Addinggreenpeppers.Addingextracheese.B)Addingmushrooms.C)Addinggreenpeppers.D)Addingextracheese.[單選題]68.使用Pig語句查詢一張名為tmp_table的表的前50行，下列語句正確的是()。A)SELECT*FROMtmp_tableLIMIT50;B)tmp_table_limit=LIMITtmp_table50;DUMPtmp_table_limit;C)DUMPtmp_tableLIMIT50D)DUMPtmp_tableLIMIT=50;[單選題]69.關于泛在電力物聯(lián)網(wǎng)特征的描述，不正確的選項是()。A)狀態(tài)全面感知B)信息高效處理C)應用便捷靈活D)客戶多種多樣[單選題]70.基本元數(shù)據(jù)是指()。A)基本元數(shù)據(jù)是與數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應用程序等結構相關的信息B)基本元數(shù)據(jù)包括與企業(yè)相關的管理方面的數(shù)據(jù)和信息C)基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D)基本元數(shù)據(jù)包括關于裴載和更新處理、分析處理以及管理方面的信息[單選題]71.加強無線終端和移動應用數(shù)據(jù)安全保護，保證無線終端的用戶信息安全，實現(xiàn)個人和公司業(yè)務（），重要業(yè)務數(shù)據(jù)存儲加密、傳輸加密等安全防護。A)數(shù)據(jù)共享B)數(shù)據(jù)隔離C)數(shù)據(jù)合并D)數(shù)據(jù)交換[單選題]72.()不僅可用于多層前饋神經(jīng)網(wǎng)絡，還可用于其他類型的神經(jīng)網(wǎng)絡A)感知機B)神經(jīng)元C)神經(jīng)系統(tǒng)D)誤差逆?zhèn)鞑單選題]73.下面哪個屬于映射數(shù)據(jù)到新的空間的方法？A)傅立葉變換B)特征加權C)漸進抽樣D)維歸約[單選題]74.關于HBase建表語句，以下描述中錯誤的是哪一項?A)在華為云MRS提供的HBaseshel‖客戶端中建表時，需指定至少一個列族名稱B)利用HBasef的）avaAPIE時，需要用put語句完成建表C)在HBaseshell客戶端中可以通過create命令建表D)在建表時可以預先創(chuàng)建多個Region[單選題]75.SparkJob默認的調(diào)度模式()A)FIFOB)FAIRC)無D)運行時指定[單選題]76.可視化中的組件樣式不包括()A)標題B)自適應顯示C)標簽D)軸線[單選題]77.HBase的主HMaster是：（）選舉的。A)由RegionServer進行裁決B)HMaster為雙主模式，不需要進行裁決C)通過ZooKeeper進行裁決D)隨機選舉[單選題]78.在模型評估與度量的方法中，（__）以自助采樣法為基礎。A)自助法B)留出法C)交叉驗證法D)錯誤率分析[單選題]79.()提供RESTHTTPAPI來讀寫hdfs。A)AvroB)HttPFSBC)MahoutD)Snappy[單選題]80.在Hadoop中,()是默認的InputFormat類型,它將每行內(nèi)容作為新值,而將字節(jié)偏移量作為key。A)FileInputFormatB)TextInputFormatC)KeyValueTextInputFormatD)CombineTextInputFormat[單選題]81.Maxcompute表T中某列C的數(shù)據(jù)類型為bigint，需要修改為double，以下（）方式可以實現(xiàn)。A)將表T刪掉重建B)ALTERTABLETCOLUMNCRENAMETOCDOUBLE;C)ALTERTABLETDROPCOLUMNC;ALTERTABLETADDCDOUBLE;D)ALTERTABLETCHANGECOLUMNSCBIGINT[單選題]82.RDD操作包括轉換（Transformation）和動作(Action)兩種類型，下列RDD操作屬于動作（Action）類型的是（）。A)joinB)mapC)collectD)groupBy[單選題]83.Hadoop平臺中,要查看YARN服務中一個application的信息,通常需要使用什么命令?A)containerB)jarC)application-attemptD)Application[單選題]84.HBase使用get方法讀取數(shù)據(jù)時，下列哪個選項是需要的?A)Deletedelete=newDelete（rowkey）B)scan.setCaching（1000）C)bytellrowkey=Bytes.toBytes（"012005000201"）D)List<Put>]putS=newArraylist<Put>0[單選題]85.HBase中數(shù)據(jù)存儲的文件格式是下面哪-項?A)SequenceFileB)HfileC)TextFileD)HLog[單選題]86.下列關于數(shù)據(jù)轉換，正確的是()。A)Json內(nèi)的取值只能有統(tǒng)一格式B)PDF文件在不同平臺上打開顯示不同C)可以通過Python將CSV文件轉換成Excel格式D)Excel存儲數(shù)據(jù)的量無限制[單選題]87.下列算法中屬于局部處理的是A)灰度線性變換B)二值化C)傅立葉變換D)中值濾波[單選題]88.以下聚合函數(shù)求平均數(shù)的是()A)COUNTB)MAXC)AVGD)SUM[單選題]89.通過（）命令可以顯示當前正在使用的數(shù)據(jù)庫名稱A)setmysql.cli.print.current.db=true;B)setmysql.cli.print.current.db=false;C)sethive.cli.print.current.db=true;D)sethive.cli.print.current.db=false;[單選題]90.用戶Region和RegionServer之間的路由信息，保存在哪個模塊中?A)MasterB)HDFSC)Meta表D)Zookeeper[單選題]91.按照維度將多個矩陣連接起來應該用哪個函數(shù)？A)np.mulB)np.sumC)np.concatenatD)np.mat[單選題]92.數(shù)據(jù)庫設計中用關系模型表示實體和實體之間的聯(lián)系。關系模型的結構是()。A)層次結構B)網(wǎng)狀結構C)封裝結構D)二維表結構[單選題]93.有如下程序：defC2F(c):returnc*9//5+13print(C2F(22))print(C2F(0))程序的輸出結果是()。A)5313B)5213C)3513D)5713[單選題]94.下列選項中適合MapReduce的場景有：（）。A)實時交互計算B)迭代計算C)流式計算D)離線計算[單選題]95.現(xiàn)有的很多數(shù)據(jù)挖掘算法只能處理定量的屬性,因此定量的屬性數(shù)據(jù)是應用這些算法的前提。請問下面哪種工作流節(jié)點可以將一些不具體、模糊的定性數(shù)據(jù)數(shù)值化?(A)規(guī)則化B)量化C)標準化D)關聯(lián)[單選題]96.在抽樣估計中，隨著樣本容量的增大，樣本統(tǒng)計量接近總體參數(shù)的概率就越大,這一性質(zhì)稱為()A)無偏性B)有效性C)及時性D)一致性[單選題]97.以下（）不是加載數(shù)據(jù)到Maxcompute的合理方法。A)dshipB)tunnelC)DTtaskD)mapreduce[單選題]98.HIVE是由哪家公司發(fā)明并貢獻到開源社區(qū)的A)GoogleB)FacebookC)twitterD)Amazon[單選題]99.二維圖像可用二維函數(shù)表示，下列說法正確地是（）。A)表示點的灰度值B)對于模擬圖像來講，是離散函數(shù)C)x，y不是平面的二維坐標D)以上說法都不正確[單選題]100.下列對MapReduceVersion1的描述不正確的是()。A)JobTracker負載過重，存在單點故障B)資源管理和計算調(diào)度強耦合，其他計算框架難以復用其資源管理C)不同框架對濟源不能全局管理D)MapReduce1.0與MapReduce2.0在客戶端的應用有很大的差別[單選題]101.大數(shù)據(jù)計算服務存儲到文件系統(tǒng)上時，使用了（）的文件格式，降低了無效的磁盤讀取操作。A)列存儲B)文檔存儲C)行存儲D)鍵值對存儲[單選題]102.讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能，就是（__）。A)有監(jiān)督學習B)全監(jiān)督學習C)無監(jiān)督學習D)半監(jiān)督學習[單選題]103.業(yè)務系統(tǒng)功能設計需嚴格執(zhí)行公司信息化和數(shù)據(jù)資產(chǎn)標準，數(shù)據(jù)應按（）準確錄入和采集，關鍵數(shù)據(jù)應進行初審和復核，保證數(shù)據(jù)真實，避免數(shù)據(jù)缺失A)規(guī)定的時間、頻度B)數(shù)據(jù)類型C)數(shù)據(jù)大小D)數(shù)據(jù)重要性[單選題]104.()用于將非線性引人神經(jīng)網(wǎng)絡，它會將值縮小到較小的范圍內(nèi)A)損失函數(shù)B)優(yōu)化函數(shù)C)激活函數(shù)D)目標函數(shù)[單選題]105.HBase是哪兩個單詞縮寫A)HadoopDataBaseB)HadoopBasementC)HanaBasementD)HadoopDatastore[單選題]106.我們想在大數(shù)據(jù)集上訓練決策樹,為了使用較少時間,我們可以A)增加樹的深度B)增加學習率(learningrate)C)減少樹的深度D)減少樹的數(shù)量[單選題]107.全鏈路大數(shù)據(jù)分析流程包括六個步驟,這六個步驟的排列順序是()A)數(shù)據(jù)匯集à數(shù)據(jù)源à數(shù)據(jù)湖à分析挖掘à數(shù)據(jù)加工à數(shù)據(jù)可視化B)數(shù)據(jù)匯集à數(shù)據(jù)源à分析挖掘à數(shù)據(jù)湖à數(shù)據(jù)加工à數(shù)據(jù)可視化C)數(shù)據(jù)源à數(shù)據(jù)匯集à分析挖掘à數(shù)據(jù)湖à數(shù)據(jù)加工à數(shù)據(jù)可視化D)數(shù)據(jù)源à數(shù)據(jù)匯集à數(shù)據(jù)湖à數(shù)據(jù)加工à分析挖掘à數(shù)據(jù)可視化[單選題]108.執(zhí)行后可以查看Python的版本的是A)importsysprint(sys.Version)B)importsystemprint(system.version)C)importsystemprint(system.Version)D)importsysprint(sys.version)[單選題]109.在規(guī)劃FusionInsightHD集群時，如果客戶用于功能測試，對性能沒有要求，節(jié)約成本的情況下可以采用管理節(jié)點、控制節(jié)點、數(shù)據(jù)節(jié)點合一部署，最少需要多少節(jié)點？A)2B)3C)6D)8[單選題]110.()肯定是寬依賴操作。A)mapB)flatMapC)reduceByKeyD)sample[單選題]111.下面不屬于詞袋模型的缺點的是？A)詞匯表的詞匯需要經(jīng)過精心設計B)表示具有稀疏性C)丟失詞序忽略了上下文D)模型復雜，不利于實施[單選題]112.TF-IDF模型中TF是指(__)。A)詞頻數(shù)B)逆文檔頻率C)詞頻率D)逆文檔頻數(shù)[單選題]113.type（1e6）的結果為（）。A)<class'int'>B)<class'?oat'>C)<class'complex'>D)<class'bool'>[單選題]114.設置x軸的數(shù)值顯示范圍可以用(__)函數(shù)。A)plt.plot()B)plt.xlim()C)plt.xlabel()D)plt.show()[單選題]115.Yarn中設置隊里queueA的最大使用資源量，需要配置哪個參數(shù)A)yarn.scheduler.capacity.root.Queueuser-limit-factorB)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentC)yarn.scheduler.capacity.root.QueueA.stateD)yarn.scheduler.capacity.root.QueueA.maxmum-capacity[單選題]116.第三次信息化浪潮的發(fā)生標志是以（）技術的普及為標志。A)互聯(lián)網(wǎng)B)CPUC)物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)D)個人計算機[單選題]117.在分布式環(huán)境系統(tǒng)中，引入()可以防止內(nèi)存數(shù)據(jù)就會丟失A)HLogB)HRegionC)ZooKeeperD)Server[單選題]118.卷積神經(jīng)網(wǎng)絡能通過卷積以及池化等操作將不同種類的鳥歸為一類，下列關于卷積神經(jīng)網(wǎng)絡能達到該效果的原因的描述不正確的是（）。A)同樣模式的內(nèi)容（如鳥嘴）在圖像不同位置可能出現(xiàn)B)池化之后的圖像主體內(nèi)容基本不變C)不同種類鳥的相同部位（如鳥嘴）形狀相似D)池化作用能使不同種類鳥變得相似[單選題]119.（__)是指為最小化總體風險，只需在每個樣本上選擇能使特定條件風險最小的類別標記。A)支持向量機B)間隔最大化C)線性分類器D)貝葉斯判定準則[單選題]120.（）的主要議題是如何實現(xiàn)和優(yōu)化機器的自我學習。A)機器學習B)人工智能C)深度學習D)人機共生[單選題]121.下列選項中，存放Hadoop配置文件的目錄是（）A)includeB)binC)libexecD)etc[單選題]122.貝葉斯決策的最優(yōu)分類面是（__)。A)線性的B)非線性的C)不可構造的D)不存在的[單選題]123.給出如下代碼：fname=input("請輸入要打開的文件:")fo=open(fname,"r")forlineinfo.readlines():print(line)fo.close()關于上述代碼的描述，以下選項中錯誤的是A)通過fo.readlines()方法將文件的全部內(nèi)容讀入一個字典foB)通過fo.readlines()方法將文件的全部內(nèi)容讀入一個列表foC)上述代碼可以優(yōu)化為：fname=input("請輸入要打開的文件:")withopen(fname,'r')asf:forlineinf.readlines():print(line)D)用戶輸入文件路徑，以文本文件方式讀入文件內(nèi)容并逐行打印[單選題]124.()負責MapReduce任務調(diào)度。A)NameNodeB)JobtrackerC)TaskTrackerD)SecondaryNameNode[單選題]125.下面關于分析學習描述正確的是(__)。A)分析學習的缺陷在于不完美的領域理論B)分析學習的目標是擬合數(shù)據(jù)假設C)分析學習通過演繹推理D)分析學習無需先驗知識[單選題]126.在ZooKeeper中有三種角色，下列選項中不屬于ZooKeeper中的角色()A)ObserverB)LeaderC)ObeyerD)Follower[單選題]127.以下關于同步賦值語句描述錯誤的選項是：A)同步賦值能夠使得賦值過程變得更簡潔B)判斷多個單一賦值語句是否相關的方法是看其功能上是否相關或相同C)設x，y表示一個點的坐標，則x=a;y=b兩條語句可以用x，y=a，b一條語句來賦值D)多個無關的單一賦值語句組合成同步賦值語句，會提高程序可讀性[單選題]128.在MaxComputeSQL中，常量定義100BD表示的含義是:（）。A)數(shù)值為100的DECIMALB)數(shù)值為100的BigintC)數(shù)值為100的StringD)數(shù)值為100的Double[單選題]129.當訓練樣本近似線性可分時,通過(),學習一個()。A)硬間隔,最大化非線性支持向量機B)軟間隔,最大化線性支持向量機C)硬間隔,最大化線性支持向量機D)軟間隔,最大化非線性支持向量機[單選題]130.DLI支持以下（）字符碼的數(shù)據(jù)。A)UTF-8B)ASCIIC)GB2312D)Base64[單選題]131.以下關于公共安全行業(yè)專題分析與查詢業(yè)務場景描述錯誤的選項是（）。A)臨時交互式查詢?nèi)蝿諏?shù)據(jù)進行精確或者模湖查詢。B)適用標準SQL語句進行查詢，根據(jù)查詢結果篩選目標人群，偵動案件。C)數(shù)據(jù)湖內(nèi)多個數(shù)據(jù)源只能單獨訪問再呈現(xiàn)結果。D)原始數(shù)據(jù)經(jīng)過批處理后結果寫入到指定的文件目錄，供交互時查詢。[單選題]132.假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(X1,X2,…,X100)?，F(xiàn)在,我們把其中一個特征值擴大10倍(如特征X1),然后用相同的正則化參數(shù)對Lasso回歸進行修正。那么,下列說法正確的是()。A)特征X1很可能被排除在模型之外B)特征X1很可能還包含在模型之中C)無法確定特征X1是否被舍D)以上答案都不正確[單選題]133.下列方法中屬于映射數(shù)據(jù)到新的空間的是（）。A)傅里葉變換B)特征加權C)漸進抽樣D)維歸約[單選題]134.交叉表的橫縱軸區(qū)域中,除了行維度、列維度外,另外一個是()A)形狀B)風格C)背景D)指標[單選題]135.子集搜索中，逐漸增加相關特征的策略稱為()A)前向搜索B)后向搜索C)雙向搜索D)不定向搜索[單選題]136.以下關于EasticSearch緩存機制的理解不正確的是（）。A)QueryCache:Shard級別的緩存，是對一個查詢中包含的過濾器執(zhí)行結果進行緩存。B)RequestCache:Shard級別的緩存，是為了緩存?分片級?的本地結果集。C)FielddataCache專門針對分詞的字段在查詢期間的數(shù)據(jù)結構的緩存。D)緩存主要分三種：QueryCache,FielddataCache,RequestCache。[單選題]137.Hadoop平臺中;要查看YARN服務中一個application的信息;通常需要使用什么命令A)containerB)applicationattermptC)jarD)application[單選題]138.Kafka集群中,Kafka服務端的角色是?A)BrokerB)ConsumerC)ZooKeeperD)Producer[單選題]139.下面組件哪個是數(shù)據(jù)挖掘庫：（）A)ZookeeperB)MahoutC)MySQLD)HBase[單選題]140.關于MapReduce的描述錯誤的是（）A)MapReduce框架會先排序map任務的輸出B)通常，作業(yè)的輸入輸出都會被存儲在文件系統(tǒng)中C)通常計算節(jié)點和存儲節(jié)點是同一節(jié)點D)一個Task通常會把輸入集切分成若干獨立的數(shù)據(jù)塊[單選題]141.有關MapReduce，下面哪個說法是正確的（）A)它提供了資源管理能力B)它是開源數(shù)據(jù)倉庫系統(tǒng)，用于查詢和分析存儲在Hadoop中的大型數(shù)據(jù)集C)它是Hadoop數(shù)據(jù)處理層D)它是一個理想的數(shù)據(jù)處理框架，難以實現(xiàn)[單選題]142.關于hive錯誤的是A)數(shù)據(jù)存儲在HDFS中B)通過類SQL語句快速實現(xiàn)MapReduce統(tǒng)計C)Hive的設計目標為適用于OLTP業(yè)務場景D)不提供行級數(shù)據(jù)更新操作[單選題]143.（__）是一類用圖來表達變量相關關系的概率模型。A)神經(jīng)元模型B)感知機模型C)概率圖模型D)SVM[單選題]144.(__)是指抽取情感文本中有價值的情感信息，其要判斷一個單詞或詞組在情感表達中扮演的角色，包括情感表達者識別，評價對象識別，情感觀點詞識別等任務。A)情感分類B)情感檢索C)情感抽取D)情感分析第2部分：多項選擇題，共63題，每題至少兩個正確答案,多選或少選均不得分。[多選題]145.DRDS則將整個擴容的過程分為多個階段，包括:（）步驟。A)切換數(shù)據(jù)庫B)增量同步C)全量遷移D)重啟實例[多選題]146.泛在電力物聯(lián)網(wǎng)從結構上看，包括了（）：A)感知層B)網(wǎng)絡層C)平臺層D)應用層[多選題]147.(__)是數(shù)據(jù)科學的主要理論基礎之一。A)機器學習B)統(tǒng)計學C)數(shù)據(jù)D)黑客精神與技能[多選題]148.傳統(tǒng)數(shù)據(jù)密集型行業(yè)積極探索和布局大數(shù)據(jù)應用的表現(xiàn)是()A)投資入股互聯(lián)網(wǎng)電商行業(yè)B)打通多源跨域數(shù)據(jù)C)提高分析挖掘能力D)實現(xiàn)科學決策與運營[多選題]149.關于SparkSQL&Hive區(qū)別與聯(lián)系,下列說法正確的是?A)SparkSQL依賴Hive的元數(shù)據(jù)B)SparkSQL的執(zhí)行引擎為Sparkcore,Hive默認執(zhí)行引擎為MapReduceC)SparkSQL不可以使用Hive的自定義函數(shù)D)SparkSQL兼容絕大部分Hive的語法和函數(shù)[多選題]150.Hive的自定義函數(shù)包括?A)UDAFB)UDCEC)UDTFD)UDE[多選題]151.ETL包含的過程有（）。A)數(shù)據(jù)抽取B)數(shù)據(jù)轉換C)數(shù)據(jù)加載D)數(shù)據(jù)展現(xiàn)[多選題]152.大數(shù)據(jù)技術在我們身邊應用的越來越廣，以下場景中有哪些場景可以應用大數(shù)據(jù)技術?A)游戲畫面實時刷新B)廣告精準營銷C)道路智能規(guī)劃D)人物國像[多選題]153.以下哪幾項屬于漢語未登錄詞的類型？（）A)存在于詞典但出現(xiàn)頻率較少的詞B)新出現(xiàn)的普通詞匯C)專有名詞D)專業(yè)名詞和研究領域名稱[多選題]154.以下哪些選項屬子實時檢索的特點？A)處理時間要求不高B)查詢響應要求較高C)高并發(fā)D)全文檢索功能[多選題]155.下列關于PCA說法正確的是（）？A)在使用PCA之前，我們必須標準化數(shù)據(jù)B)應該選擇具有最大方差的主成分C)應該選擇具有最小方差的主成分D)可以使用PCA在低維空間中可視化數(shù)據(jù)[多選題]156.Hadoop集群規(guī)模很大時,數(shù)據(jù)的分布情況會非常關鍵,用戶需要根據(jù)數(shù)據(jù)分布情況,決定集群是否擴容,數(shù)據(jù)是否需要做負載均衡等,fusionInsight資源分布監(jiān)控說法正確的是?A)可以幫助用戶快速聚焦在最關鍵的資源消耗上。B)通過每個服務主業(yè)的資源分布查看界面,看到關鍵的資源分布情況。C)通過Dashboard界面,可以查看到主機資源分不清哪個礦,例如內(nèi)存占用率在50-75%的主機列表,并提供鏈接跳轉。D)幫助用戶迅速找到資源消耗最高的點,采取適當?shù)拇胧多選題]157.數(shù)據(jù)庫信息的運行安全采取的主措施有()。A)備份與恢復B)應急C)風險分析D)審計跟蹤[多選題]158.一家搜索引整公司需要7*24不間斷提供海量用戶的實時查詢請求，這最有可能使用到以下哪些大數(shù)據(jù)開發(fā)組件的組合?A)MapReduceB)ElasticSearchC)HiveD)HBase[多選題]159.以下描述中屬于Analytics2.0的主要特點的是()。A)側重嵌入式分析B)重視非結構化數(shù)據(jù)的分析C)以決策支持為主要目的D)注重解釋性分析和預測性分析[多選題]160.FusionInasightHD集群中包含了多種服務，沒種服務又由若干個角色組成，下面哪些是服務的角色？*A)HDFSB)NameNodeC)DataNodeD)HBase[多選題]161.GraphBase數(shù)據(jù)底層可以存儲在哪里?A)HBaseB)MySQLC)HDFSD)ElasticSearch[多選題]162.可以創(chuàng)建一個全零矩陣的是（__)。A)np.zero(10)B)np.empty(10)C)np.zeros(10)D)np.array(10)[多選題]163.以下（）場景可以使用MaxcomputeMR實現(xiàn)。A)Web訪問日志分析：分析用戶訪問行為，個性化推薦等B)搜索，比如pagerank、網(wǎng)頁爬取等C)機器學習：監(jiān)督學習、無監(jiān)督學習、分類算法等D)廣告推薦：用戶點擊購買行為預測[多選題]164.FusionlnsightHD產(chǎn)品中，關于Kafka組件說法正確的有？A)刪除Topic時，必須確保Kafka的服務配置delete.topic.enable配置為trueB)Kafka安裝及運行日志保存路徑為/srv/Bigdata/kafkaC)ZooKeeper服務不可用會導致Kafka服務不可用D)必須使用admin用戶或者kafkaadmin組用戶進行創(chuàng)建Topic[多選題]165.scipy.optimize模塊可以實現(xiàn)（__)。A)bfgs優(yōu)化B)最小二乘優(yōu)化C)knnD)求根算法[多選題]166.下面關于Storm框架設計描述正確的是：()A)Storm運行在分布式集群中，其運行任務的方式與Hadoop類似B)在Hadoop上運行的是MapReduce作業(yè)，而在Storm上運行的是?Topology?C)Storm集群采用P2P架構D)Storm采用了Zookeeper來作為分布式協(xié)調(diào)組件[多選題]167.下列關于RNN、LSTM、GRU的說法正確的有（）。A)RNN引入了循環(huán)的概念B)LSTM可以防止梯度消失或者爆炸C)GRU是LSTM的變體D)RNN、LSTM、GRU是同一神經(jīng)網(wǎng)絡的不同說法，沒有區(qū)別[多選題]168.實時檢索的解決方案中有哪些組件?A)HBaseB)HadoopC)ElasticSearchD)Hive[多選題]169.國網(wǎng)信通公司及各級網(wǎng)絡安全運行單位負責做好承載重要數(shù)據(jù)業(yè)務系統(tǒng)的安全運營，（）。A)規(guī)范新媒體開設（關停）的審批流程B)制定電力監(jiān)控系統(tǒng)數(shù)據(jù)安全保護方案C)加強技術監(jiān)控手段，強化對重要數(shù)據(jù)信息的監(jiān)測、預警、攔截、審計等技術措施D)編制數(shù)據(jù)安全相關應急預案并定期演練[多選題]170.基于機器學習的情感分類方法有(__)。A)貝葉斯分類器B)支持向量機C)條件隨機場D)最大熵分類器[多選題]171.在數(shù)據(jù)科學中，計算模式發(fā)生了根本性的變化--從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算，有一定的代表性的是Google云計算三大技術，這三大技術包括()。A)HadoopYARN資源管理器B)GFS分布式存儲系統(tǒng)C)MapReduce分布式處理技術D)BigTable分布式數(shù)據(jù)庫[多選題]172.在詞袋模型中使用單個的單詞來構建詞向量這樣的序列被稱為（）。A)1元組（1-gram）B)單元組（unigram）模型C)列表D)字典[多選題]173.國家電網(wǎng)有限公司數(shù)據(jù)管理辦法要求將數(shù)據(jù)管理作為一項長期的持續(xù)性工作，加強（）等基礎工作，打造可靠的數(shù)據(jù)基礎。A)數(shù)據(jù)目錄B)數(shù)據(jù)盤點C)數(shù)據(jù)標準D)數(shù)據(jù)質(zhì)量[多選題]174.請問以下哪些是導致數(shù)據(jù)重復的原因()A)數(shù)據(jù)重復寫入B)數(shù)據(jù)集成C)數(shù)據(jù)加工過程中的關聯(lián)D)數(shù)據(jù)壓縮[多選題]175.數(shù)據(jù)科學基本原則中，蘭世界原則指的是()A)精神世界B)數(shù)據(jù)世界C)物理世界D)數(shù)字世界[多選題]176.Spark適用于以下哪些場景?A)交互式查詢B)實時流處理C)批處理D)圖計算[多選題]177.關于GBDT算法，下列說法正確的是（）？A)增加用于分割的最小樣本數(shù)量，有助于避免過擬合B)增加用于分割的最小樣本數(shù)量，容易造成過擬合C)減小每個基本樹的樣本比例，有助于減小方差D)減小每個基本樹的樣本比例，有助于減小偏差[多選題]178.Linux上Python的安裝包是()。A)Python-3.6.9.tar.xzB)Python-3.6.9.tgzC)python-3.7.4-amd64.exeD)python-3.7.4-macosx10.9.pkg[多選題]179.關于HadoopMapReduce，以下描述中正確的是()。A)reduce()函數(shù)的輸入是value集B)reduce()函數(shù)將最終結果寫到HDFS系統(tǒng)中C)用戶可以自己定義reduce()函數(shù)D)reduce()函數(shù)的輸入數(shù)據(jù)是經(jīng)過map()函數(shù)處理之后的數(shù)據(jù)[多選題]180.Region分裂時，下列哪些選項會參與?0A)MAsterB)RegionServerC)ZookeeperD)以上全不正確[多選題]181.如果請你在DEEP平臺中,根據(jù)既有數(shù)據(jù)進行未來天氣的預測,將會采用線性回歸模型,將會用到哪幾個數(shù)據(jù)轉換器?A)NumericCastB)NumAssembleC)ChoiceD)Predict[多選題]182.正則表達式可以用非常靈活的方式來處理字符串，在大數(shù)據(jù)計算服務SQL中的正則函數(shù)支持POSIX格式，以下對正則表達式描述正確的有:（）。A)[[:blank::]]匹配空格和TAB制表符B)$匹配行尾C)[[：alnum:]]匹配字母字符和數(shù)字字符D)[[:digint:]]匹配數(shù)字字符[多選題]183.重復數(shù)據(jù)產(chǎn)生的原因有()A)人為多次提交B)數(shù)據(jù)集成時造成重復C)系統(tǒng)自身問題導致重復寫入D)數(shù)據(jù)加工過程中產(chǎn)生數(shù)據(jù)重復[多選題]184.觀察樣本次數(shù)如何影響過擬合（）？注意：所有情況的參數(shù)都保持一致。A)觀察次數(shù)少，容易發(fā)生過擬合B)觀察次數(shù)少，不容易發(fā)生過擬合C)觀察次數(shù)多，容易發(fā)生過擬合D)觀察次數(shù)多，不容易發(fā)生過擬合[多選題]185.下面屬于數(shù)據(jù)加工的有(__)。A)數(shù)據(jù)審計B)數(shù)據(jù)清洗C)數(shù)據(jù)變換D)數(shù)據(jù)集成[多選題]186.以下關于數(shù)據(jù)中心、業(yè)務系統(tǒng)訪問權限的說法不正確的有（）。A)數(shù)據(jù)中心、業(yè)務系統(tǒng)訪問權限實行匿名制管理B)對數(shù)據(jù)中心、業(yè)務系統(tǒng)權限賬號的登錄時間、時長等實行痕跡管理C)數(shù)據(jù)中心、業(yè)務系統(tǒng)權限賬號供責任人登錄使用，也可借與他人D)數(shù)據(jù)中心、業(yè)務系統(tǒng)權限賬號密碼不超過3天要更換一次[多選題]187.HFile是HBase存儲數(shù)據(jù)的文件組織形式，由六部分組成，除了數(shù)據(jù)塊、元數(shù)據(jù)塊、文件信息塊還包括()【選三項】A)文件尾塊B)數(shù)據(jù)索引塊C)元數(shù)據(jù)索引塊D)HFile文件尾[多選題]188.大數(shù)據(jù)離線批處理場景中常見的數(shù)據(jù)源包括？A)網(wǎng)頁日志流B)流式數(shù)據(jù)Socket流C)數(shù)據(jù)庫D)批量文件數(shù)據(jù)[多選題]189.主要面向或關注過去的數(shù)據(jù)分析過程有（）。A)描述性分析B)診斷性分析C)預測性分析D)規(guī)范性分析[多選題]190.數(shù)據(jù)集成中需要注意的三個基本問題是（）A)數(shù)據(jù)清洗B)模式集成C)數(shù)據(jù)冗余D)沖突檢測與消除[多選題]191.商業(yè)銀行在選擇數(shù)據(jù)中心的地理位置時，應充分考慮的環(huán)境威脅包括是否接近（）A)自然災害多發(fā)B)危險或有害設C)繁忙或主要公路D)風景區(qū)[多選題]192.下列關于神經(jīng)網(wǎng)絡描述正確的是（__）。A)我們在機器學習中談論神經(jīng)網(wǎng)絡是指的是生物學意義上的神經(jīng)網(wǎng)絡B)神經(jīng)網(wǎng)絡中最基本的成分是神經(jīng)元模型C)在MP神經(jīng)元模型中，神經(jīng)元接受來自n個其他神經(jīng)元傳遞過來的信號D)神經(jīng)元接收到的總輸入值將與神經(jīng)元的閾值進行比較，然后通過激活函數(shù)處理以產(chǎn)生神經(jīng)元的輸出。[多選題]193.對于大數(shù)據(jù)計算服務（MaxCompute，原ODPS）內(nèi)置絕對值函數(shù)abs描述正確的有:（）。A)當輸入?yún)?shù)是bigint時，返回值是bigint類型B)當輸入?yún)?shù)是string類型時，一定會導致異常C)輸入類型是boolean則返回值是TrueD)當輸入?yún)?shù)是double時，返回值是double類型[多選題]194.在可視化的圖表類型中,柱狀圖包括()A)分區(qū)柱狀圖B)堆積柱狀圖C)多系列柱狀圖D)對比柱狀圖[多選題]195.下列關于負荷Python的模塊的說法正確的有（）。A)模塊能夠用來有邏輯地組織Python代碼段B)Python擁有豐富的模塊，不支持自定義模塊C)把相關的代碼分配到一個模塊里能讓代碼更好用、更易懂D)模塊能定義函數(shù)、類和變量，模塊里也能包含可執(zhí)行的代碼[多選題]196.（）是關鍵詞提取的算法。A)TF-IDFB)TextRankC)LDAD)PCA[多選題]197.以下()屬于數(shù)據(jù)統(tǒng)計分析工具。A)WekaB)SASC)SPSSD)Matlab[多選題]198.常見的關聯(lián)規(guī)則挖掘算法包括：()A)MP-Growth算法B)FP-Growth算法C)Apriori算法D)Bpriori算法[多選題]199.Spark組件包含哪兩個算子()。A)MapB)ActionC)TransformationD)Reduce[多選題]200.以下關于Fink的窗口描述正確的是（）。A)會話窗口是將數(shù)據(jù)聚合到會話窗口中，由非活躍的間隙分隔開。B)我們可以每30秒計算一次最近一分鐘用戶購買的商品總數(shù)，這個就是時間滑動窗口的應用方式C)窗口可以是時間驅(qū)動的也可以是數(shù)據(jù)驅(qū)動的。D)Flink窗口按窗口行為劃分：TumblingWindow.SlidingWindow.SessionWindow。[多選題]201.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性,還包括()。A)完整性B)可用性C)不可否認性D)可審計性[多選題]202.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)討學的驗證性分析方法的區(qū)別有()。A)EDA需要事先提出假設，而驗證性分析不需要B)EDA中采用的方法往往比驗證性分析簡單C)在一般數(shù)據(jù)科學項目中，探索性分析在先，驗證性分析在后中D)EDA更為簡單、易學和易用[多選題]203.相對于HadoopMapReduce,Spark的特點有()。A)通用性B)易用性C)速度快D)容錯性[多選題]204.物聯(lián)網(wǎng)在物流領域的應用，催生出了許多智能物流方面的應用，以下哪幾項屬于其在智能物流方面的應用A)智能海關B)智能郵政C)智能配送D)智能交通[多選題]205.下面隸屬CNN架構的是：()A)Convolutionallayer+MaxPooling循環(huán)數(shù)次B)Convolutionallayer重復數(shù)次+MaxPooling重復數(shù)次C)FlattenD)FullyConnectedFeedforwardnetwork[多選題]206.數(shù)據(jù)再利用的意義在于()A)挖掘數(shù)據(jù)的潛在價值B)提高社會效益,優(yōu)化社會管理C)實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值D)優(yōu)化存儲設備,降低設備成本E)利用數(shù)據(jù)可拓展性拓寬.業(yè)務領域第3部分：判斷題，共42題，請判斷題目是否正確。[判斷題]207.MySQL支持多個字段分組并為每個分組排序。--A)正確B)錯誤[判斷題]208.數(shù)據(jù)挖掘的主要任務是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則，從而能更好的完成描述數(shù)據(jù)、預測數(shù)據(jù)等任務A)正確B)錯誤[判斷題]209.定義類時實現(xiàn)了__pow__()方法，該類對象即可支持運算符**A)正確B)錯誤[判斷題]210.GES的Edge都是單向邊，如果需要雙向邊，則通過兩條相反方向的單向邊組成。A)正確B)錯誤[判斷題]211.本實驗的數(shù)據(jù)源包含網(wǎng)站日志數(shù)據(jù)和數(shù)據(jù)庫業(yè)務數(shù)據(jù)。A)正確B)錯誤[判斷題]212.HBase可以有列，可以沒有列簇。A)正確B)錯誤[判斷題]213.已知函數(shù)定義defdemo(x,y,op):returneval(str(x)+op+str(y))，那么表達式demo(3,5,'+')的值為8。A)正確B)錯誤[判斷題]214.表達式5if5>6else(6if3>2else5)的值為6。A)正確B)錯誤[判斷題]215.大數(shù)據(jù)的價值重在挖掘,而挖掘就是分析。()A)正確B)錯誤[判斷題]216.在HMM中，如果已知觀察序列和產(chǎn)生觀察序列的狀態(tài)序列，那么可以采用極大似然估計直接進行參數(shù)估計。()A)正確B)錯誤[判斷題]217.Series與DataFrame還支持eq、ne、lt、gt、le、ge等二進制比較操作的方法，其中大于等于是gt。A)正確B)錯誤[判斷題]218.Series和DataFrame是pandas包中的數(shù)據(jù)結構,Series像二維數(shù)組,DataFrame像表格A)正確B)錯誤[判斷題]219.有監(jiān)督學習不需要進行數(shù)據(jù)標注。A)正確B)錯誤[判斷題]220.分布式數(shù)據(jù)庫是指物理上分散在不同的地點，但在邏輯上是統(tǒng)一的數(shù)據(jù)庫。因此，分布式數(shù)據(jù)庫具有物理上的獨立性、邏輯上的一體性、性能上的可擴展性等特點。()A)正確B)錯誤[判斷題]221.Dataworks中，調(diào)度任務每次運行前都先將任務實例化，即生成實例，調(diào)度運行時實際上在執(zhí)行相應的實例。按天調(diào)度的周期性任務每天生成一個自動調(diào)度實例；按00:00至23:59之間每隔一小時執(zhí)行一次的周期性任務，每天生成24個自動調(diào)度實例。A)正確B)錯誤[判斷題]222.Python不允許使用關鍵字作為變量名，允許使用內(nèi)置函數(shù)名作為變量名，但這會改變函數(shù)名的含義。A)正確B)錯誤[判斷題]223.一般而言，分布式數(shù)據(jù)庫是指物理上分散在不同地點，但在邏輯上是統(tǒng)一的數(shù)據(jù)庫。因此分布式數(shù)據(jù)庫具有物理上的獨立性、邏輯上的一體性、性能上的可擴展性等特點。A)正確B)錯誤[判斷題]224.數(shù)據(jù)有多種表現(xiàn)形式，主要是數(shù)字化后存入計算機數(shù)字和文字,不包括圖形、圖像、聲音和語言等。A)正確B)錯誤[判斷題]225.Graph擅長完成學術論文、專利文獻的引用分析和統(tǒng)計。A)正確B)錯誤[判斷題]226.由于Spark是基于內(nèi)存的計算引擎，因此，一個Spars應用可以處理的數(shù)據(jù)量不能超過分給這個Spark應用的內(nèi)存總和。A)正確B)錯誤[判斷題]227.Combiner組件可以讓Map對Key進行分區(qū)，從而可以根據(jù)不同的key分發(fā)到不同的Reduce中去處理。A)正確B)錯誤[判斷題]228.假設math標準庫已導入，那么表達式eval('mathA)正確B)錯誤[判斷題]229.帶有else子句的異常處理結構，如果不發(fā)生異常則執(zhí)行else子句中的代碼。A)正確B)錯誤[判斷題]230.HBase依賴于Zookeeper完成主備選舉，以及管理root表。A)正確B)錯誤[判斷題]231.UPDATE語句屬于SQL的數(shù)據(jù)庫定義語言。--A)正確B)錯誤[判斷題]232.分類和回歸都可用于預測，分類的輸出是離散的類別值，而回歸的輸出是連續(xù)數(shù)值A)正確B)錯誤[判斷題]233.客戶通過網(wǎng)上大數(shù)據(jù)審貸未通過的，線下也一律不得辦理A)正確B)錯誤[判斷題]234.HBase支持完整的事務機制。A)正確B)錯誤[判斷題]235.實體是指客觀存在并可相互區(qū)分的事物。--A)正確B)錯誤[判斷題]236.如果自變量X和因變量Y之間存在高度的非線性和復雜關系，那么樹模型很可能優(yōu)于經(jīng)典回歸方法A)正確B)錯誤[判斷題]237.Redis默認支持14個數(shù)據(jù)庫。A)正確B)錯誤[判斷題]238.在函數(shù)內(nèi)部沒有辦法定義全局變量。A)正確B)錯誤[判斷題]239.BI工具數(shù)據(jù)集支持添加、刪除字段操作()A)正確B)錯誤[判斷題]240.擴展庫os中的方法remove()可以刪除帶有只讀屬性的文件。A)正確B)錯誤[判斷題]241.JSON數(shù)據(jù)類型可以保存一個SPU對應的所有SKU信息。--A)正確B)錯誤[判斷題]242.無法使用lambda表達式定義有名字的函數(shù)。A)正確B)錯誤[判斷題]243.同時新增多個字段時不能指定字段的位置。--A)正確B)錯誤[判斷題]244.Python中可以使用關鍵字作為變量名。（）A)正確B)錯誤[判斷題]245.在一個MapReduce應用程序中，map函數(shù)的輸出經(jīng)由MapReduce框架處理后，發(fā)送到reduce函數(shù)。這個處理過程是基于鍵值對進行排序和分組的。A)正確B)錯誤[判斷題]246.只可以動態(tài)為對象增加數(shù)據(jù)成員，而不能為對象動態(tài)增加成員方法A)正確B)錯誤[判斷題]247.時序預測回歸預測一樣，也是用已知的數(shù)據(jù)預測未來的值，但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同A)正確B)錯誤[判斷題]248.對文件進行讀寫操作之后必須顯式關閉文件以確保所有內(nèi)容都得到保存。A)正確B)錯誤第4部分：問答題，共11題，請在空白處填寫正確答案。[問答題]249.創(chuàng)建一個HDFS客戶端對象主要涉及Configuration類和()類。[問答題]250.GES中用（）表示邊的類型，用于表示現(xiàn)實世界中的關系類型。[問答題]251.()的日的縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算法的需要，并且能夠得到和原始數(shù)據(jù)相同的分析結果。[問答題]252.Solr可以對結構化、半結構化、非結構化數(shù)據(jù)建立索引，并提供全文檢索的能力。A)正確B)B錯誤[問答題]253.()用于維護文件系統(tǒng)名稱并管理客戶端對文件的訪問，()存儲真實的數(shù)據(jù)塊。[問答題]254.Secondarynamenode就是namenode出現(xiàn)問題時的備用節(jié)點A)正確B)錯誤[問答題]255.Channel的作用類似隊列，用于臨時緩存進來的數(shù)據(jù)，當Sink成功地將數(shù)據(jù)發(fā)送到下一跳的Channel或最終目的，數(shù)據(jù)會從Channel移除A)TRUEB)FALSE[問答題]256.iloc方法主要使用整數(shù)來索引數(shù)據(jù)，而不能使用【】來索引數(shù)據(jù)。[問答題]257.Flume架構中,一個sink可以連接多個channel。A)TrueB)False[問答題]258.Hadoop2、x版本中的HDFS是由（）（）（）組成。[問答題]259.是否可以自行搭建Hadoop集群？[多選題]260.以下關于集成學習的說法，正確的是()A)隨機森林是減少模型的方差，而GBDT是減少模型的偏差B)組成隨機森林的樹可以并行生成，而GBDT是串行生成C)隨機森林的結果是多數(shù)表決表決的，而GBDT則是多棵樹累加之和1.答案:C解析:2.答案:C解析:3.答案:B解析:4.答案:C解析:5.答案:D解析:6.答案:D解析:7.答案:D解析:8.答案:C解析:9.答案:B解析:λ很小,則意味著模型比較復雜,在這種情況下,會產(chǎn)生偏差低且方差高的結果,模型會對數(shù)據(jù)過擬合。10.答案:C解析:決策樹深度越深,在訓練集上誤差會越小,準確率越高。但是容易造成過擬合,而且增加模型的訓練時問間。對決策樹進行修剪,減小樹的深度,能夠提高模型的訓練速度,有效避免過擬合。11.答案:B解析:12.答案:B解析:13.答案:D解析:14.答案:B解析:15.答案:C解析:16.答案:A解析:17.答案:A解析:18.答案:C解析:19.答案:B解析:20.答案:D解析:樣本數(shù)過多或者特征數(shù)過多,而不能單機完成訓練,可以用小批量樣本訓練,或者在線累計式訓練,或者主成分PCA降維方式減少特征數(shù)量再進行訓練。21.答案:D解析:22.答案:C解析:23.答案:B解析:24.答案:A解析:25.答案:D解析:26.答案:B解析:27.答案:C解析:28.答案:A解析:29.答案:C解析:一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后，一般情況下將被長期保留，也就是數(shù)據(jù)倉庫中一般有大量的查詢操作，但修改和刪除操作很少，通常只需要定期的加載、刷新。30.答案:B解析:31.答案:A解析:測試集正例和負例數(shù)量不均衡,那么假設正例數(shù)量很少占10%,負例數(shù)量占大部分90%。而且算法能正確識別所有負例,但正例只有一半能正確判別。那么TP=0.05×all,TN=0.9×all,Accuracy=95%。雖然Accuracy很高,precision是100%,但正例recall只有50%。32.答案:D解析:33.答案:A解析:34.答案:C解析:35.答案:A解析:36.答案:B解析:由于存在精度的關系，所以0.1+0.2得到的是一個無限接近0.3的數(shù)而不是0.3，故輸出False。37.答案:B解析:38.答案:C解析:39.答案:B解析:40.答案:D解析:41.答案:C解析:42.答案:A解析:43.答案:A解析:44.答案:A解析:45.答案:B解析:46.答案:B解析:47.答案:C解析:48.答案:C解析:49.答案:C解析:50.答案:C解析:eval（）函數(shù)將去掉字符串的兩個引號，將其解釋為一個變量，因此C應該分別報錯和輸出'Hello'。51.答案:A解析:52.答案:D解析:53.答案:A解析:54.答案:B解析:在Numpy中，當使用不同類型的數(shù)組進行操作時，結果數(shù)組的類型對應于更一般或更精確的數(shù)組，稱為向上轉換的行為。55.答案:C解析:56.答案:D解析:57.答案:B解析:58.答案:A解析:59.答案:D解析:神經(jīng)網(wǎng)絡減少隱藏層節(jié)點,就是在減少參數(shù),只會將訓練誤差變高,不會導致過擬合。D選項中SVM高斯核函數(shù)比線性核函數(shù)模型更復雜,容易過擬合。60.答案:B解析:61.答案:C解析:62.答案:B解析:63.答案:D解析:64.答案:D解析:65.答案:A解析:66.答案:B解析:67.答案:A解析:68.答案:B解析:69.答案:D解析:70.答案:D解析:71.答案:B解析:72.答案:D解析:73.答案:A解析:74.答案:B解析:75.答案:A解析:76.答案:C解析:可視化的組件樣式:標題、圖例、軸線、橫向網(wǎng)格線、縱向網(wǎng)格線、背景、自適應提示、交互屬性77.答案:C解析:78.答案:A解析:79.答案:B解析:80.答案:B解析:81.答案:A解析:82.答案:C解析:83.答案:D解析:84.答案:C解析:85.答案:B解析:86.答案:C解析:87.答案:D解析:88.答案:C解析:89.答案:C解析:90.答案:C解析:91.答案:C解析:92.答案:D解析:93.答案:B解析:94.答案:D解析:95.答案:B解析:96.答案:D解析:97.答案:C解析:98.答案:B解析:99.答案:A解析:100.答案:D解析:101.答案:A解析:102.答案:D解析:103.答案:A解析:104.答案:C解析:105.答案:A解析:106.答案:C解析:107.答案:D解析:108.答案:D解析:109.答案:B解析:110.答案:C解析:spark中常見的窄依賴操作包括map、filer、union、sample等,寬依賴操作包括reduceByKey、groupByKey、join等。111.答案:D解析:112.答案:C解析:113.答案:B解析:1e6為?oat類型。114.答案:B解析:115.答案:D解析:116.答案:C解析:117.答案:A解析:118.答案:D解析:特征維數(shù)的減少并不會讓之前的特征丟失。119.答案:D解析:120.答案:A解析:121.答案:D解析:122.答案:A解析:123.答案:A解析:124.答案:B解析:125.答案:A解析:126.答案:C解析:127.答案:D解析:128.答案:A解析:129.答案:B解析:130.答案:A解析:131.答案:C解析:132.答案:B解析:將特征X1數(shù)值擴大10倍,它對應的回歸系數(shù)將相應會減小,但不為0,仍然滿足β的正則化約束,因此可能還包含在模型之中。133.答案:A解析:傅里葉變換是將時間域映射到頻率域。134.答案:D解析:135.答案:A解析:136.答案:A解析:137.答

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)開發(fā)基礎(習題卷31)

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)開發(fā)基礎(習題卷31)

文檔簡介

溫馨提示

最新文檔

評論

相關文檔