大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第1頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第2頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第3頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第4頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

試卷科目:大數(shù)據(jù)開發(fā)基礎(chǔ)大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎(chǔ)第1部分:單項選擇題,共145題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.SVM在()情況下表現(xiàn)糟糕。A)線性可分數(shù)據(jù)B)清洗過的數(shù)據(jù)C)含噪聲數(shù)據(jù)與重疊數(shù)據(jù)點答案:C解析:[單選題]2.關(guān)于MaxcomputeSQL,說法不正確的是:()。A)在很多方面并不具備數(shù)據(jù)庫的特征B)適用于海量數(shù)據(jù),實時性要求不高的場合C)每個作業(yè)的準備,提交等階段要花費較長時間D)大部分標準SQL的功能都支持,但是不支持窗口函數(shù)、rownum等答案:D解析:[單選題]3.下面代碼的輸出結(jié)果是:x=12.34print(type(x))A)<class'int'>B)<class'float'>C)<class'bool'>D)<class'complex'>答案:B解析:[單選題]4.下列演示方式中,不屬于傳統(tǒng)統(tǒng)計圖方式的是()。A)柱形圖B)餅狀圖C)曲線圖D)網(wǎng)絡(luò)圖答案:D解析:[單選題]5.以下關(guān)于貝葉斯描述正確的是:()A)基于先驗概率輸出最大的后驗概率B)已發(fā)生的條件下,?原因?屬于事件Ai的條件概率C)貝葉斯公式是嚴緊的數(shù)學(xué)推理D)樸素貝葉斯是因為一次方算法所以叫做樸素;答案:A解析:[單選題]6.關(guān)于剛N最近鄰分類算法的過程:①計算訓(xùn)練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離、馬氏距離等);②對上面所有的距離值進行排序;③選前k個最小距離的樣本;④根據(jù)這k個樣本的標簽進行投票,得到最后的分類類別正確的排序為()A)①③②④B)②④①③C)①②③④D)①②④③答案:C解析:[單選題]7.Spark應(yīng)用在運行時,Stage劃分的依據(jù)是哪個?A)taskB)taskSetC)actionD)shuffle答案:D解析:[單選題]8.有反饋連接的架構(gòu)是()A)循環(huán)神經(jīng)網(wǎng)絡(luò)B)卷積神經(jīng)網(wǎng)絡(luò)C)受限攻爾茲曼機D)都不是答案:A解析:[單選題]9.以下可以在字符串中表示單引號的是()。--A)\"B)\\'C)\'D)'答案:C解析:[單選題]10.()算法要求基學(xué)習(xí)器能對特定的數(shù)據(jù)分布進行學(xué)習(xí),在訓(xùn)練過程的每一輪中,根據(jù)樣本分布為每個訓(xùn)練樣本重新賦予一個權(quán)重A)BoostingB)支持向量機C)貝葉斯分類器D)神經(jīng)網(wǎng)絡(luò)答案:A解析:[單選題]11.若用如下的SQL語句創(chuàng)建一個student表:CREATETABLEstudent(NOC(4)NOTNULL,NAMEC(8)NOTNULL,SEXC(2),AGEN(2))可以插入到student表中的是A)('1031','曾華',男,23)B)('1031','曾華',NULL,NULL)C)(NULL,'曾華','男','23')D)('1031',NULL,'男',23)答案:B解析:[單選題]12.IDC的定義除了揭示大數(shù)據(jù)傳統(tǒng)3V基本特征,即Volume、Variety和Velocity,還增添了一個新特征是A)量大B)速度快C)應(yīng)用廣D)價值答案:D解析:[單選題]13.下面關(guān)于Timetoast的描述,哪個是錯誤的?()A)Timetoast是在線創(chuàng)作基于時間軸事件記載服務(wù)的網(wǎng)站B)提供個性化的時間線服務(wù)C)Timetoast基于flash平臺,并基于flash時間軸上任意加入事件D)Timetoast是一個提供復(fù)雜統(tǒng)計圖表的工具答案:D解析:[單選題]14.評估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbi踴),應(yīng)采取的解決方法是()A)減少模型的特征數(shù)量B)增加模型的特征數(shù)量C)增加樣本數(shù)量D)以上答案都正確答案:B解析:[單選題]15.以下刪除數(shù)據(jù)庫emp正確的()A)Delete*fromempB)DropdatabaseempC)Drop*fromempD)deletedatabaseemp答案:B解析:[單選題]16.在Hive中使用那個子句可以將數(shù)據(jù)劃分到不同的組中,實現(xiàn)對記錄的分組查詢()A)groupbyB)orderbyC)sortbyD)whereby答案:A解析:[單選題]17.關(guān)于?回歸(Regression)?和?相關(guān)(Correlation)?,下列說法正確的是()。A)回歸和相關(guān)在自變量x和因變量y之間都是互為對稱的B)回歸和相關(guān)在自變量x和因變量y之間都是非對稱的C)回歸在自變量x和因變量y之間是非對稱的,相關(guān)在自變量x和因變量y之間是互為對稱的D)回歸在自變量x和因變量y之間是對稱的,相關(guān)在自變量x和因變量y之間是非對稱的答案:C解析:[單選題]18.閱讀下列程序defe_check(n):t=0if(n>500):t=n0.9elif(n>200):t=n0.7else:t=n0.6returntprint("電費:",e_check(100))運行結(jié)果是A)電費:90B)電費:80C)電費:60D)以上都不對答案:C解析:[單選題]19.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說法正確的是()。A)Json內(nèi)的取值只能有統(tǒng)一格式B)PDF文件在不同平臺上打開顯示不同C)可以通過Python將CSV文件轉(zhuǎn)換成Excel格式D)Excel存儲數(shù)據(jù)的量無限制答案:C解析:Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺上打開顯示相同,Excel存儲數(shù)據(jù)的量在Excel2007及以后版本,一個工作表最多可有1048576行、16384列。[單選題]20.ResultScanner無參的next()方法返回下一個可用的行組成的Result實例,含參的next(rows)方法返回()A)一個Result實例B)一個Result實例數(shù)組C)一個整型D)以上都不正確答案:B解析:[單選題]21.下列選項中用于查詢數(shù)據(jù)的是()。--A)INSERTB)SELECTC)UPDATED)DELETE答案:B解析:[單選題]22.有如下程序:fun=lambdaarg1,arg2:arg1+arg2print(fun(10,15))程序的輸出結(jié)果是()。A)10B)15C)20D)25答案:D解析:[單選題]23.個棧的初始狀態(tài)為空?,F(xiàn)將元素1、2、3、4、5、A、B、C、D、E依次入棧,然后再依次出棧,則元素出棧的順序是A)12345ABCDEB)EDCBA54321C)54321EDCBAD)ABCDE12345答案:B解析:[單選題]24.(__)是指捕獲人們的生活、業(yè)務(wù)或社會活動,并將其轉(zhuǎn)換為數(shù)據(jù)的過程。A)數(shù)據(jù)化B)數(shù)據(jù)可視化C)數(shù)據(jù)存儲D)數(shù)據(jù)加工答案:A解析:[單選題]25.在回歸分析中,說法正確的是()。A)解釋變量和被解釋變量都是隨機變量B)解釋變量為非隨機變量,被解釋變量為隨機變量C)解釋變量和被解釋變量都為非隨機變量D)解釋變量為隨機變量,被解釋變量為非隨機變量答案:B解析:[單選題]26.下列關(guān)于數(shù)據(jù)處理流程,說法有誤的是?()A)在傳統(tǒng)的數(shù)據(jù)處理流程中,存儲的數(shù)據(jù)是舊的B)在傳統(tǒng)的數(shù)據(jù)處理流程中,需要用戶主動發(fā)出查詢來獲取結(jié)果C)傳統(tǒng)的數(shù)據(jù)處理流程,需要先采集數(shù)據(jù)并存儲在關(guān)系數(shù)據(jù)庫等數(shù)據(jù)管理系統(tǒng)中D)流計算的處理流程一般包含三個階段:數(shù)據(jù)實時采集、數(shù)據(jù)批量計算、實時查詢服務(wù)答案:D解析:[單選題]27.下面哪個是一種編程模型,它將大規(guī)模的數(shù)據(jù)處理工作拆分成互相獨立的任務(wù)然后并行處理()A)MapReduceB)HDFSC)PigD)Hive答案:A解析:[單選題]28.Hive中distributeby和sortby的功能結(jié)合的是()A)orderbyB)sortbyC)distributebyD)clusterby答案:D解析:[單選題]29.下列哪一個分類其skicit-learn沒有提供()A)DecisionTreeClassifierB)AdaBoostClassifierC)SVCD)以上分類器均有提供答案:D解析:[單選題]30.代碼片段:x=10if(xA)28B)12C)16D)14答案:B解析:[單選題]31.Dave于2012年發(fā)布(__)首次全面地刻畫了當(dāng)時快速發(fā)展的大數(shù)據(jù)技術(shù)體系。A)大數(shù)據(jù)產(chǎn)業(yè)網(wǎng)絡(luò)B)大數(shù)據(jù)產(chǎn)業(yè)全景圖C)大數(shù)據(jù)產(chǎn)業(yè)D)大數(shù)據(jù)網(wǎng)絡(luò)答案:B解析:[單選題]32.常用的圖像分割方法是把圖像(__)分成不同等級。A)顏色B)灰度C)大小D)亮度信息答案:B解析:[單選題]33.以下哪個不是離線批處理的核心訴求?A)處理數(shù)據(jù)格式多樣B)處理教據(jù)量巨大C)支持SQL美作業(yè)和自走義作業(yè)D)處理時間要求高答案:D解析:[單選題]34.Redis中List列表是什么數(shù)據(jù)結(jié)構(gòu)實現(xiàn)的?A)雙向鏈表B)平衡二叉樹C)紅黑樹D)循環(huán)鏈表答案:A解析:[單選題]35.HDFS分布式文件系統(tǒng)的特點為()。A)半透明性B)低可用性C)可擴展性D)支持一個應(yīng)用程序并發(fā)訪問答案:C解析:[單選題]36.以下哪個操作不會導(dǎo)致SparkShuffle的發(fā)生?A)reduceByKey()B)filter()C)distinct()D)intersection()答案:B解析:[單選題]37.下列選項中,不屬于Python數(shù)據(jù)類型的是()A)boolB)dictC)stringD)set答案:C解析:[單選題]38.出現(xiàn)在datanode的VERSION文件格式中但不出現(xiàn)在namenode的VERSION文件格式中的是A)namespaceIDB)storageIDC)storageTypeD)layoutVersion答案:B解析:其他三項是公有的。layoutVersion是一個負整數(shù),保存了HDFS的持續(xù)化在硬盤上的數(shù)據(jù)結(jié)構(gòu)的格式版本號;namespaceID是文件系統(tǒng)的唯一標識符,是在文件系統(tǒng)初次格式化時生成的;storageType表示此文件夾中保存的是數(shù)據(jù)節(jié)點的類型[單選題]39.HDFS中當(dāng)前block大小為64M,如果當(dāng)前要上傳到HDFS中的文件大小為150M,那么在存儲時會分配()個block進行存儲。A)1B)2C)3D)4答案:D解析:[單選題]40.(__)是norm.rvs(5)的結(jié)果。A)7.1316243700758B)array([-0.35687759,1.34347647,-0.11710531,-1.00725181,-0.51275702])C)array([1,2,3,4,5])D)array([5,4,3,2,1])答案:A解析:[單選題]41.在msyql.user表中權(quán)限字段的數(shù)據(jù)類型是()。--A)INTB)VARCHARC)ENUMD)FLOAT答案:C解析:[單選題]42.假設(shè)你有5個大小為7x7、邊界值為0的卷積核,同時卷積神經(jīng)網(wǎng)絡(luò)第一層的深度為1此時如果你向這一層傳人一個維度為224x224x3的數(shù)據(jù),那么神經(jīng)網(wǎng)絡(luò)下一層所接收到的數(shù)據(jù)維度是()A)218x218x5B)217x217x8C)217x217x3D)220x220x5答案:A解析:[單選題]43.在matplotlib子圖繪制中,若執(zhí)行plt.subplot(3,2,4),則當(dāng)前的繪圖子區(qū)域索引號是()A)2B)3C)4D)6答案:C解析:[單選題]44.Spark自帶的資源管理框架是?A)StandaloneB)MesosC)YARND)Docker答案:A解析:[單選題]45.Numpy數(shù)組分割使用的函數(shù)是()。A)vstack()B)hstack()C)split()D)view()288答案:C解析:np.split()的作用是把一個數(shù)組從左到右按順序切分。[單選題]46.一個對象的離群點得分是該對象周圍密度的逆。這是基于()的離群點定義。A)概率B)鄰近度C)密度D)聚類答案:C解析:[單選題]47.下列關(guān)于舍恩伯格對大數(shù)據(jù)特點的說法中,錯誤的是()。A)數(shù)據(jù)規(guī)模大B)數(shù)據(jù)類型多樣C)數(shù)據(jù)處理速度快D)數(shù)據(jù)價值密度高答案:D解析:[單選題]48.要在HDFS的根目錄中建立一個叫hadoo的目錄,下面哪一條命令是正確的()A)mkdirhadooB)mkdir/hadooC)hadoopmkdirhadooD)hadoopfs-mkdir/hadoo答案:D解析:記住即可[單選題]49.數(shù)據(jù)庫服務(wù)器、數(shù)據(jù)庫和表的關(guān)系,正確的說法是()A)一個數(shù)據(jù)庫服務(wù)器只能管理一個數(shù)據(jù)庫,一個數(shù)據(jù)庫只能包含一個表B)一個數(shù)據(jù)庫服務(wù)器可以管理多個數(shù)據(jù)庫,一個數(shù)據(jù)庫可以包含多個表C)一個數(shù)據(jù)庫服務(wù)器只能管理一個數(shù)據(jù)庫,一個數(shù)據(jù)庫可以包含多個表D)一個數(shù)據(jù)庫服務(wù)器可以管理多個數(shù)據(jù)庫,一個數(shù)據(jù)庫只能包含一個表答案:B解析:[單選題]50.以下關(guān)于降維的表述,錯誤的是()。A)降維過程中可以保留原始數(shù)據(jù)的所有信息B)多維縮放的目標是要保證降維后樣本之間的距離不變C)線性降維方法目標是要保證降維到的超平面能更好地表示原始數(shù)據(jù)D)核線性降維方法目標是通過核函數(shù)和核方法來避免采樣空間投影到高維空間再降維之后的低維結(jié)構(gòu)丟失答案:A解析:降維過程中盡量保留原始數(shù)據(jù)的信息,但不能保留原始數(shù)據(jù)的全部信息。[單選題]51.在分類問題中,經(jīng)常會遇到正負樣本數(shù)據(jù)量不等的情況,比如正樣本為100萬條數(shù)據(jù),負樣本只有1萬條數(shù)據(jù),以下最合適的處理方法是()。A)從100萬正樣本中隨機抽取1萬參與分類B)將負樣本每個權(quán)重設(shè)置為100,正樣本權(quán)重為1,參與訓(xùn)練過程C)直接進行分類,可以最大限度利用數(shù)據(jù)D)將負樣本重復(fù)100次,生成100萬樣本量,打亂順序參與分類答案:B解析:[單選題]52.HDFS的副本放置策略中,同一機架不同的服務(wù)器之間的距離是A)3B)2C)1D)4答案:B解析:[單選題]53.機器學(xué)習(xí)中做特征選擇時,可能用到的方法有?A)卡方B)信息增益C)期望交叉熵D)以上都有答案:D解析:[單選題]54.交叉驗證的目的是(__)。A)提高分類準確率B)得到更穩(wěn)定的模型C)驗證結(jié)果的準確性D)增大分類的誤差答案:B解析:[單選題]55.下列哪個不屬于可視化工具?()A)GoogleB)D3C)Visual.lyD)Spark答案:D解析:[單選題]56.Spark自帶的資源管理框架是?A)StandaloneB)MesosC)YARND)Docker答案:A解析:[單選題]57.preprocessing.normalize()函數(shù)中的norm參數(shù)代表(__)。A)需要正則化的對象B)正則化的方式C)對象的大小D)返回值的維度答案:B解析:[單選題]58.為了降低MapReduce兩個階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對map階段的輸出進行處理。A)sort()B)combiner()C)join()D)gather()答案:B解析:[單選題]59.下列關(guān)于儀表盤圖的說法中,錯誤的是()A)儀表盤圖可以直觀地表現(xiàn)出某個指標的進度或?qū)嶋H情況B)一個可視化組建中只能創(chuàng)建一個儀表盤,無法同時展示多個儀表盤C)儀表盤中的儀表板最大值為目標值D)儀表盤中指針指向的位置為指針值,即當(dāng)前值答案:B解析:[單選題]60.以下表示可變長度字符串的數(shù)據(jù)類型是()A)TEXTB)CHARC)VARCHARD)EMUM答案:C解析:[單選題]61.()算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項目集的算法。A)FP-growthB)EClatC)聚類D)Apdori答案:D解析:Apdori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項目集的算法。[單選題]62.下列關(guān)于?數(shù)據(jù)可視化?的說法中,正確的是()A)數(shù)據(jù)可視化沒有標準答案,不同的商業(yè)案例、原始數(shù)據(jù)均可能影響可視化圖表的選擇,最為重要的影響因素是:你想以怎樣的形式向匯報對象展示結(jié)果B)數(shù)據(jù)可視化有標準答案,不同的商業(yè)案例、原始數(shù)據(jù)只能選擇對應(yīng)的一種可視化圖表C)數(shù)據(jù)可視化是使數(shù)據(jù)以圖表等方式展示的一種方法,EXCEL無法完成數(shù)據(jù)可視化操作D)數(shù)據(jù)可視化結(jié)果應(yīng)當(dāng)包含所有原始數(shù)據(jù)信息,需要向匯報對象展示出全部的數(shù)據(jù)結(jié)果答案:A解析:[單選題]63.在FusionInsight產(chǎn)品中,關(guān)于創(chuàng)建Kafka的Topic,以下哪些描述是正確的?A)在創(chuàng)建Kafka的Topic時,必須設(shè)置Partition個數(shù)B)在創(chuàng)建Kafka的Topic時,必須設(shè)置Partition副本個數(shù)C)設(shè)置多副本可以增強Kafka服務(wù)的容災(zāi)能力D)以上全都正確答案:C解析:[單選題]64.以下關(guān)于知識圖譜,描述錯誤的是:()A)又稱為科學(xué)知識圖譜B)在圖書情報界稱為知識域可視化或知識領(lǐng)域映射地圖C)知識圖譜屬于密碼學(xué)研究范疇D)知識圖譜可用于反欺詐、不一致性驗證、組團欺詐等公共安全保障領(lǐng)域答案:C解析:[單選題]65.關(guān)于數(shù)據(jù)整合和分組的說法,不正確的是()。A)數(shù)據(jù)連接可以用concat或merge函數(shù)B)axis=1表示軸向連接C)數(shù)據(jù)分組可以使用mean函數(shù)D)使用agg可以自定義多個聚合函數(shù)答案:C解析:數(shù)據(jù)分組不可以使用mean函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。[單選題]66.可以在創(chuàng)建表時用()來創(chuàng)建唯一索引,也可以用()來創(chuàng)建唯一索引A)Createtable,CreateindexB)設(shè)置主鍵約束,設(shè)置唯一約束C)設(shè)置主鍵約束,CreateindexD)以上都可以答案:C解析:[單選題]67.輸入圖像為32×32,經(jīng)過步長為1、不進行padding、卷積核為5×5的卷積層后,得到的特征圖尺寸是()。A)28×28B)27×27C)29×29D)32×32答案:A解析:(32+0-5)/1+1=28。[單選題]68.輸出門的作用是()。A)保留重要信息B)去除不重要信息C)信息增加D)決定要輸出的部分答案:D解析:[單選題]69.LSTM與RNN相比可以解決()。A)梯度消失B)訓(xùn)練結(jié)果發(fā)散C)需要激活函數(shù)D)無法處理長距離的依賴的問題答案:D解析:[單選題]70.Spark誕生于哪所學(xué)院A)加州大學(xué)芝加哥分校B)哈佛大學(xué)加州分校C)加州大學(xué)伯克利分校D)斯坦福大學(xué)圣地亞哥分校答案:C解析:[單選題]71.在MapTask的Combine階段,當(dāng)處理完所有數(shù)據(jù)時,MapTask會對所有的臨時文件進行一次()A)分片操作B)合并操作C)格式化操作D)溢寫操作答案:B解析:在MapTask的Combine階段,當(dāng)處理完所有數(shù)據(jù)時,MapTask會對所有的臨時文件進行一次合并操作,以確保最終只會生成一個數(shù)據(jù)文件[單選題]72.Hadoop的作者是下面哪一位______。A)MartinFowlerB)DougcuttingC)KentBeckD)GraceHopper答案:B解析:A.MartinFowler【敏捷開發(fā)方法論-軟件開發(fā)教父】B.Dougcutting【Hadoop作者,道格·卡廷】C.KentBeck【極限編程,測試驅(qū)動開發(fā),實現(xiàn)模式】D.GraceHopper【Cobol語言之母,發(fā)明世界上第一個編譯器】[單選題]73.二項分布的數(shù)學(xué)期望為()。A)n(1-n)pB)np(1-p)C)npD)n(1-p)答案:C解析:二項分布即重復(fù)n次的伯努利試驗。如果事件發(fā)生的概率是p,則不發(fā)生的概率q=1-p.則期望為np,方差為npq。[單選題]74.下列對于精度的描述,解釋正確的是(__)。A)統(tǒng)計分類器預(yù)測出來的結(jié)果與真實結(jié)果不相同的個數(shù),然后除以總的樣例集D的個數(shù)。B)先統(tǒng)計分類正確的樣本數(shù),然后除以總的樣例集D的個數(shù)。C)預(yù)測為正的樣例中有多少是真正的正樣例D)樣本中的正例有多少被預(yù)測正確答案:B解析:[單選題]75.運行下列代碼,輸出結(jié)果是()。L=[iifi%2==0elsei*10foriinrange(5)]print(l)A)[0,10,2,30,4]B)[10,2,30,4]C)[0,10,2,30,4,50]D)[0,1,20,3,40]答案:A解析:該列表推導(dǎo)式意為在0~4中偶數(shù)不變,奇數(shù)乘10,因此A正確。[單選題]76.下列對于Sigmoid函數(shù)的說法,錯誤的是()A)存在梯度爆炸的問題B)不是關(guān)于原點對稱C)計算exp比較耗時D)存在梯度消失的問題答案:A解析:[單選題]77.SELECTINSERT('welcome',-4,3,'HA')的執(zhí)行結(jié)果為()。--A)HAcomeB)welHAeC)welHAcomeD)welcome答案:D解析:[單選題]78.點擊率問題是這樣一個預(yù)測問題,99%的人是不會點擊的,而1%的人是會點擊進去的,所以這是一個非常不平衡的數(shù)據(jù)集。假設(shè),現(xiàn)在我們已經(jīng)建了一個模型來分類,而且有了99%的預(yù)測準確率,我們可以下的結(jié)論是()。A)模型預(yù)測準確率已經(jīng)很高了,我們不需要做什么了B)模型預(yù)測準確率不高,我們需要做點什么改進模型C)無法下結(jié)論D)以上答案都不正確答案:C解析:類別不均衡的情況下,不能用準確率做分類評估指標,因為全判斷為不會點,準確率也是99%,此時分類器一點用都沒有。[單選題]79.Mapper排序后的輸出將作為下面哪個的輸入()A)ReducerB)MapperC)ShuffleD)Sort答案:A解析:[單選題]80.mkdir()的作用是()。A)刪除指定路徑的目錄B)改變當(dāng)前工作目錄到指定的路徑C)以數(shù)字權(quán)限模式創(chuàng)建目錄D)返回當(dāng)前工作目錄答案:C解析:[單選題]81.()是存儲在計算機內(nèi)的有結(jié)構(gòu)的數(shù)據(jù)集合A)網(wǎng)絡(luò)系統(tǒng)B)數(shù)據(jù)庫系統(tǒng)C)操作系統(tǒng)D)數(shù)據(jù)庫答案:D解析:[單選題]82.為了調(diào)查與軟件相關(guān)的影響響應(yīng)時間的原因,審計師應(yīng)該()A)進行跟蹤并以圖形描述B)開發(fā)一個集成測試環(huán)境C)使用嵌入的審計數(shù)據(jù)D)進行平行模擬答案:A解析:[單選題]83.數(shù)據(jù)庫管理系統(tǒng)是()A)操作系統(tǒng)的一部分B)在操作系統(tǒng)支持下的系統(tǒng)軟件C)一種編譯程序D)一種操作系統(tǒng)答案:B解析:[單選題]84.(__)是一種著名的過濾式特征選擇方法。A)k-meansB)k近鄰C)支持向量機D)Relief答案:D解析:[單選題]85.使用Pig語句查詢表中的某一列數(shù)據(jù),下列語句正確的是()。A)SELECTuserFROMtmp_table;B)DUMPtmp_table.user;C)FOREACHtmp_tableGENERATEuser;D)tmp_table_user=FOREACHtmp_tableGENERATEuser;DUMPtmp_table_user;答案:D解析:[單選題]86.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換器說法正確的是()A)ArraySplit是文本型轉(zhuǎn)換器B)Left是集合型轉(zhuǎn)換器C)Datelnc是集合型轉(zhuǎn)換器D)Formatdate轉(zhuǎn)換器使用時可以不區(qū)分日期形式答案:A解析:left是文本轉(zhuǎn)換器,從字符串的左邊截取特定長度的字串;datelnc是時期型轉(zhuǎn)換器,對系統(tǒng)時間增加/減少特定單位。[單選題]87.Hive適合()環(huán)境A)Hive適合用于聯(lián)機(online)事務(wù)處理B)提供實時查詢功能C)適合應(yīng)用在大量不可變數(shù)據(jù)的批處理作業(yè)D)Hive適合關(guān)系型數(shù)據(jù)環(huán)境答案:C解析:[單選題]88.()不是HDFS的設(shè)計目標。A)流式數(shù)據(jù)訪問B)大規(guī)模數(shù)據(jù)集C)移動計算D)"多次寫入,多次讀取"的文件訪問模型答案:D解析:[單選題]89.對于GaussDB200的數(shù)據(jù)并行導(dǎo)入策略Normal,下列說法錯誤的是()?A)通過GDS服務(wù)的方式實現(xiàn)數(shù)據(jù)并行導(dǎo)入。B)導(dǎo)入的效率和GDS服務(wù)器有關(guān),GDS服務(wù)器越多,導(dǎo)入效率越快。C)數(shù)據(jù)導(dǎo)入時,支持單行數(shù)據(jù)大小小于1GB.D)能夠?qū)?shù)據(jù)庫的數(shù)據(jù).表結(jié)構(gòu)都導(dǎo)入。答案:C解析:[單選題]90.ADS創(chuàng)建表組時,可以指定表組的副本數(shù),關(guān)于副本數(shù)的說法,以下()是正確的。A)表組的副本數(shù)越多,可以一定程度的增加ADS的最大承受的QPSB)表組的副本數(shù)為1時,寫入數(shù)據(jù)會最快,相比副本較多的情況,在數(shù)據(jù)導(dǎo)入時不可用時間會更短C)表組的副本數(shù)最小值為2D)表組的副本數(shù)越少,表組的可用性會越高答案:A解析:[單選題]91.HBase架構(gòu)的四大組件中,()包含訪問HBase的接口。A)ZookeeperB)MasterC)RegionServerD)Client答案:D解析:[單選題]92.Hive包括()中連接模式。A)二B)四C)三D)五答案:C解析:[單選題]93.行業(yè)應(yīng)用解決的是行業(yè)()問題,并為企業(yè)應(yīng)用提供基礎(chǔ)平臺。A)單一B)共性C)基礎(chǔ)D)根本答案:B解析:[單選題]94.大數(shù)據(jù)應(yīng)用需要依托的新技術(shù)有()A)大規(guī)模存儲與計算B)數(shù)據(jù)分析處理C)智能化D)以上都是答案:D解析:[單選題]95.RNN不同于其它神經(jīng)網(wǎng)絡(luò)的地方在于()。A)實現(xiàn)了記憶功能B)速度快C)精度高D)易于搭建答案:A解析:[單選題]96.下列選項中,關(guān)于Zookeeper可靠性含義說法正確的是:()。A)可靠性通過主備部署模式實現(xiàn)B)可靠性是指更新只能成功或者失敗,沒有中間狀態(tài)C)可靠性是指無論哪一個server,對外展示的均是同一個視圖D)可靠性是指一個消息被一個server接受,它將被所有的server接受答案:D解析:[單選題]97.關(guān)于Python語言的特點,以下選項中描述錯誤的是()。A)Python語言是非開源語言B)Python語言是跨平臺語言C)$;$Python語言是多模型語言D)Python語言是腳本語言答案:A解析:[單選題]98.以下不屬于馬爾可夫隨機場模型與條件隨機場模型的差別的是()。A)馬爾可夫隨機場與條件隨機場都是無向圖模型B)馬爾可夫隨機場是生成式模型,條件隨機場是判別式模型C)馬爾可夫隨機場處理條件概率,條件隨機場處理聯(lián)合概率D)馬爾可夫隨機場處理聯(lián)合概率,條件隨機場處理條件概率答案:C解析:[單選題]99.HDFS的設(shè)計是以()為主要應(yīng)用場景。A)一次寫入、一次讀取B)多次寫入、多次讀取C)一次寫入、多次讀取D)多次寫入、一次讀取答案:C解析:[單選題]100.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()特點。A)可關(guān)聯(lián)性B)可溯源性C)可理解性D)可復(fù)制性答案:A解析:數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)系組成的一整套數(shù)據(jù)保護措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,降低數(shù)據(jù)的失用、失信和失控的風(fēng)險。刻畫數(shù)據(jù)連續(xù)性的特點描述如下:①可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是不同數(shù)據(jù)對象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進而避免數(shù)據(jù)資源的碎片化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的"失用"風(fēng)險。②可溯源性是在時間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個數(shù)據(jù)對象的歷史版本之間的連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理、可信度評估以及預(yù)測分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)的"失信"風(fēng)險。③可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)與其產(chǎn)生、管理和維護的主體(包括人與計算機)之間的連續(xù)性。它是降低數(shù)據(jù)的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)據(jù)可理解性的意義在于降低數(shù)據(jù)的"失控"風(fēng)險。[單選題]101.K-Means算法無法聚()樣本。A)圓形分布B)螺旋分布C)帶狀分布D)凸多邊形分布答案:B解析:K-Means算法是基于距離測量的,無法聚非凸形狀的樣本。[單選題]102.能將文本文件?data_txt.txt?讀取到數(shù)組data1中的語句是:A)np.save('data_txt.txt',data1,fmt='%d')B)data1=np.load('data_txt.txt')C)np.savetxt('data_txt.txt',data1,fmt='%d')D)data1=np.loadtxt('data_txt.txt')答案:D解析:[單選題]103.以下關(guān)于方差、偏差、泛化誤差說法正確的是(__)A)偏差表達了當(dāng)前任務(wù)上任何模型所能達到的期望泛化誤差的下界,刻畫了學(xué)習(xí)問題本身的難度。B)方差度量了模型的期望預(yù)測和真實結(jié)果的偏離程度,刻畫了模型本身的擬合能力。C)噪聲度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動所造成的影響。D)當(dāng)方差過高,會出現(xiàn)過擬合現(xiàn)象。答案:D解析:[單選題]104.python中,()是字符串格式化的方法A)countB)formatC)inD)replace答案:B解析:[單選題]105.執(zhí)行下列語句后的顯示結(jié)果是什么?>>>world=?world?>>>print?hello?+worldA)helloworldB)?hello?worldC)helloworldD)語法錯誤答案:A解析:[單選題]106.MaxCompute提供了多種針對日期的計算函數(shù),以下函數(shù)中,能實現(xiàn)計算兩個時間的差的是:()。A)datediffB)timestampdiffC)intervalD)直接相減答案:A解析:[單選題]107.下面()負責(zé)HDFS數(shù)據(jù)存儲.A)NameNodeB)JobtrackerC)DatanodeD)SecondaryNameNode答案:C解析:[單選題]108.建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖26掘的哪一類任務(wù)?A)、根據(jù)內(nèi)容檢索B)、建模描述C)、預(yù)測建模D)、尋找模式和規(guī)則答案:C解析:[單選題]109.以下不是測試方法的是()A)留出法B)交叉驗證法C)自助法D)全量法答案:D解析:[單選題]110.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革的是()。A)不是隨機樣本,而是全體數(shù)據(jù)B)不是精確性,而是混雜性C)不是描述性分析,而是預(yù)測性分析D)不是因果關(guān)系,而是相關(guān)關(guān)系答案:C解析:Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革:①不是隨機樣本,而是全體數(shù)據(jù);大數(shù)據(jù)時代應(yīng)遵循"樣本=總體"的理念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。②不是精確性,而是混雜性;大數(shù)據(jù)時代應(yīng)承認數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。③不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時代的思想方式應(yīng)轉(zhuǎn)變--不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。[單選題]111.以下會出現(xiàn)錯誤的是A)?北京?.encode()B)?北京?.decode()C)?北京?.enode().deode()D)以上都不會錯誤答案:B解析:[單選題]112.下列哪個不屬于常用的文本分類的特征選擇算法?A)卡方檢驗值B)互信息C)信息增益D)主成分分析答案:D解析:[單選題]113.不屬于神經(jīng)網(wǎng)絡(luò)常用學(xué)習(xí)算法的是:A)有監(jiān)督學(xué)習(xí)B)增強學(xué)習(xí)C)觀察與發(fā)現(xiàn)學(xué)習(xí)D)無監(jiān)督學(xué)習(xí)答案:C解析:[單選題]114.np.hsplit函數(shù)是按照什么軸進行分割數(shù)組?A)水平軸B)豎直軸C)深度分割D)45度軸答案:A解析:[單選題]115.np.multiply([[1,2,3],[1,2,3],[1,2,3]],[[2,1,1],[2,1,1],[2,1,1]])的結(jié)果是多少?A)[[1266][1266][1266]]B)[[211][211][211]]C)[[223][223][223]]D)[[123][123][123]]答案:C解析:[單選題]116.某企業(yè)使用ADS做數(shù)據(jù)分析,其中部分數(shù)據(jù)來源于Maxcompute。技術(shù)人員在使用LOADDATA命令從Maxcompute加載數(shù)據(jù)到ADS的過程中,碰到如下錯誤信息:ERROR1105(HY000):Youarenottheownerofthesourcetable,最有可能出錯的原因是:()。A)源表不存在B)ADS的用戶garuda_build@沒有對源表的操作權(quán)限C)Maxcompute的用戶garuda_build@沒有對源表的操作權(quán)限D(zhuǎn))源表中沒有數(shù)據(jù),為空表答案:C解析:[單選題]117.Hadoop環(huán)境下HDFS系統(tǒng)中的NameNode實現(xiàn)的功能是()。A)管理文件系統(tǒng)的命名空間B)管理存儲空間C)分配算力D)調(diào)控算法答案:A解析:[單選題]118.下列不屬于scikit-learn中用于標準化的函數(shù)是()。A)StandardScalerB)MinMaxScalerC)MeanScalerD)以上都對答案:C解析:StandardScaler和MinMaxScaler是標準化的函數(shù)。[單選題]119.考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個又餓一般不會共享許多近鄰,所以應(yīng)該選擇()的相似度計算方法A)平方歐幾里德距離B)余弦距離C)直接相似皮D)共享最近鄰答案:D解析:[單選題]120.下面的循環(huán)會打印多少次?ILovePython??foriinrange(0,10,2):print('ILovePython')A)2B)5C)6D)10答案:B解析:[單選題]121.常用的數(shù)據(jù)收集工具不包括以下哪個選項?A)LoaderB)SqoopC)KettleD)Spark答案:D解析:[單選題]122.hadoop()中第一階段的輸出可以作為下一階段的輸入。A)應(yīng)用場景B)分布式計算C)分階段計算D)高效處理答案:C解析:[單選題]123.拼接字段的函數(shù)是()A)SUBSTRING()B)TRIM()C)SUM()D)CONCAT()答案:D解析:[單選題]124.多分類圖像識別任務(wù)常采用()作為輸出的編碼方式。A)二進制編碼B)one-hot編碼C)霍夫曼編碼D)曼切斯特編碼答案:B解析:[單選題]125.關(guān)于下列for循環(huán),sum=0foriinrange(1,10,2):sum+=i最后輸出的sum=()。A)23B)24C)25D)26答案:C解析:[單選題]126.下列算法中:①KNN算法;②線性回歸;③邏輯回歸。可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建的算法是()。A)①②B)②③C)①②③D)以上都不是答案:B解析:KNN算法是關(guān)于距離的學(xué)習(xí)算法,沒有任何參數(shù),所以無法用神經(jīng)網(wǎng)絡(luò)構(gòu)建。[單選題]127.下列方法中,可以對列表元素排序的是()。A)sort()B)reverse()C)max()D)list()答案:A解析:[單選題]128.在MaxComputeSQL中,對兩個double類型的時間進行比較,正確的做法是:()。A)使用關(guān)系運算符B)使用關(guān)系運算符"!=?C)使用關(guān)系運算符?<>?D)使用兩個double類型相減,然后取絕對值的方式進行答案:D解析:[單選題]129.通過DMS管理后臺或者數(shù)據(jù)庫客戶端,連接RDS數(shù)據(jù)庫時,提示錯誤信息?max_user_connections?,代表()含義。A)IOPS超出極限B)RDS空間滿了C)網(wǎng)絡(luò)中斷D)RDS數(shù)據(jù)庫的連接數(shù)滿了答案:D解析:[單選題]130.下列選項中,用于創(chuàng)建一個帶有條件判斷的循環(huán)過程的語句是()。--A)LOOP語句B)ITERATE語句C)REPEAT語句D)QUIT語句答案:C解析:[單選題]131.KafkaClusterMirroring工具可以實現(xiàn)以下哪項功能?A)Kafka跨集群數(shù)據(jù)同步方式B)Kafka單集群內(nèi)數(shù)據(jù)備份C)Kafka單集群內(nèi)數(shù)據(jù)恢復(fù)D)以上全不正確答案:A解析:[單選題]132.部署HBase時需要依賴于哪個資源協(xié)調(diào)組件A)YarnB)ZooKeeperC)SqoopD)HDFS答案:B解析:[單選題]133.python3中round(15.5)與round(16.5)的結(jié)果分別為()。A)16,16B)16,17C)17,16D)17,17答案:A解析:[單選題]134.forIinrange(2):print('hi')的結(jié)果()A)打印兩次hiB)打印兩次2C)打印一次2D)打印一次hi答案:A解析:[單選題]135.根據(jù)《泛在電力物聯(lián)網(wǎng)2019年建設(shè)方案》,多維精益管理體系變革工作不包含以下哪一項()A)重點推進業(yè)務(wù)流程在線貫通、企業(yè)級數(shù)據(jù)標準建設(shè)和信息頻道化輸出,實現(xiàn)電網(wǎng)運營數(shù)據(jù)全面連接、經(jīng)營狀態(tài)多維展示B)按人資、設(shè)備、營銷、物資等業(yè)務(wù)條線細化管理顆粒度,實現(xiàn)投入產(chǎn)出精準分析評價C)搭建市場化業(yè)務(wù)精益管理體系,支撐新興業(yè)務(wù)開拓D)提高業(yè)務(wù)數(shù)字化和線上化水平,增強精益化管理能力,支撐市場開拓和價值創(chuàng)造,提升企業(yè)經(jīng)營績效答案:D解析:[單選題]136.下列關(guān)于線形圖的說法中,錯誤的是()A)線形圖是一種以直線的方式展示可視化結(jié)果的圖表B)線形圖中連線的線形包括折線、曲線以及垂直線C)我們可以為線形圖中每一個連接的點打上標簽,使其可以清晰地展示出對應(yīng)的數(shù)值D)線形圖可以清晰地反應(yīng)事物隨類別而變化的趨勢,如增減趨勢、增減速度等答案:A解析:線形圖不一定是直線,可能是曲線。[單選題]137.下列關(guān)于網(wǎng)絡(luò)用戶行為的說法中,錯的是()。A)網(wǎng)絡(luò)公司能夠捕捉到用戶在其網(wǎng)站上的所有行為B)用戶離散的交互痕跡能夠為企業(yè)提升服務(wù)質(zhì)量提供參考C)數(shù)字軌跡用完即自動刪除D)用戶的隱私安全很難得以規(guī)范保護答案:C解析:[單選題]138.()是以樣本統(tǒng)計量作為未知總體參數(shù)的估計量,并通過對樣本單位的實際觀察取得樣本數(shù)據(jù),計算樣本統(tǒng)計量的取值作為被估計參數(shù)的估計值A(chǔ))參數(shù)估計B)邏輯分析C)方差分析D)回歸分析答案:A解析:[單選題]139.使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?A)探索性數(shù)據(jù)分析B)建模描述C)預(yù)測建模D)尋找模式和規(guī)則答案:A解析:[單選題]140.以下關(guān)于大數(shù)據(jù)的敘述中,()是不恰當(dāng)?shù)?。A)大數(shù)據(jù)是僅靠現(xiàn)有數(shù)據(jù)庫管理工具或傳統(tǒng)數(shù)據(jù)處理系統(tǒng)很難處理的大型而復(fù)雜的數(shù)據(jù)集B)大數(shù)據(jù)具有數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、處理速度快等特性C)大數(shù)據(jù)的戰(zhàn)略意義是實現(xiàn)數(shù)據(jù)的增值D)大數(shù)據(jù)研究中,數(shù)據(jù)之間的因果關(guān)系比關(guān)聯(lián)關(guān)系更重要答案:D解析:[單選題]141.下列選項中,哪個配置文件可以配置HDFS地址、端口號以及臨時文件目錄()A)core-site.xmlB)hdfs-site.xmlC)mapred-site.xmlD)yarn-site.xml答案:A解析:通過core-site.xml配置文件配置HDFS地址、端口號以及臨時文件目錄[單選題]142.下列基本活動中不屬于數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要特別注意的是()。A)創(chuàng)造性設(shè)計B)數(shù)據(jù)洞見C)虛擬化D)個性化描述答案:D解析:數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要注意有創(chuàng)造性設(shè)計、數(shù)據(jù)洞見、虛擬化等基本活動。[單選題]143.下列關(guān)于數(shù)據(jù)產(chǎn)品的說法錯誤的是()。A)數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B)與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費者不僅限于人類用戶,還可以是計算機以及其他軟硬件系統(tǒng)C)數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品D)數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項目流程的全部活動答案:A解析:數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集,還包括文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策或它們的組合。[單選題]144.信息安全事件的處理不遵循的原則是()A)統(tǒng)一領(lǐng)導(dǎo)B)綜合協(xié)調(diào)C)快速處理D)集體責(zé)任答案:D解析:第2部分:多項選擇題,共62題,每題至少兩個正確答案,多選或少選均不得分。[多選題]145.以下提法中正確的是()。A)數(shù)據(jù)學(xué)科中的?數(shù)據(jù)?并不僅僅是?數(shù)值?,也不等同于?數(shù)值?;B)數(shù)據(jù)科學(xué)中的?計算?并不僅僅是加、減、乘、除等?數(shù)學(xué)計算?,還包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型;C)數(shù)據(jù)科學(xué)關(guān)注的是?單一學(xué)科?的問題;D)數(shù)據(jù)科學(xué)強調(diào)的是?理論研究?,一般不涉及?領(lǐng)域?qū)崉?wù)知識?;答案:AB解析:[多選題]146.下列哪種算法屬于機器學(xué)習(xí)算法?A)BP神經(jīng)網(wǎng)絡(luò)B)圖論推理算法C)PID控制調(diào)節(jié)D)k-means算法答案:ABD解析:[多選題]147.下列哪些是專門用于可視化時間空間數(shù)據(jù)的技術(shù):()A)等高線圖B)餅圖C)曲面圖D)矢量場圖答案:ACD解析:[多選題]148.大數(shù)據(jù)對社會發(fā)展的影響有哪些?()A)大數(shù)據(jù)成為一種新的決策方式B)大數(shù)據(jù)應(yīng)用促進信息技術(shù)與各行業(yè)的深度融合C)大數(shù)據(jù)開發(fā)推動新技術(shù)和新應(yīng)用的不斷涌現(xiàn)D)大數(shù)據(jù)使得數(shù)據(jù)科學(xué)家成為熱門職業(yè)答案:ABC解析:[多選題]149.下列關(guān)于超鏈接的說法正確的有()。A)語句<ahref="formhtml">FillOurForm</a>指向的是同一服務(wù)器同一目錄下的FormhtmlB)語句<ahref="stuff/cathtml">Catalog</a>指向的是同一服務(wù)器子目錄stuff下的CathtmlC)語句<ahref="/parenthtml">Parent</a>指向的是同一服務(wù)器父目錄下的parenthtmlD)語句<ahref="wwwdevbgorg"target="_blank">BASD</a>指向的是內(nèi)部的網(wǎng)站答案:ABC解析:D指向的是外部網(wǎng)站333[多選題]150.根據(jù)泛在電力物聯(lián)網(wǎng)2019年建設(shè)方案,大力發(fā)展新興業(yè)務(wù),堅持()和()相結(jié)合A)理論指導(dǎo)B)頂層設(shè)計C)基層首創(chuàng)D)實際應(yīng)用答案:BC解析:[多選題]151.在正則化公式中,λ為正則化參數(shù),關(guān)于λ的描述正確的是()。A)若正則化參數(shù)λ過大,可能會導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B)若λ的值太大,則梯度下降可能不收斂C)取一個合理的λ值,可以更好地應(yīng)用正則化D)如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小答案:ABCD解析:正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。[多選題]152.下面檢索結(jié)果一定不是一行的命令是()A)selectdistinct*fromorders;B)select*fromorderslimit1,2;C)selecttop1*fromorders;D)select*fromorderslimit1;答案:ABC解析:[多選題]153.特征選擇在子集生成與搜索方面引入了人工智能搜索技術(shù)和子集評價方法。其中人工智能搜索技術(shù)有()。A)分支界限法B)浮動搜索法C)信息熵D)AIC答案:ABCD解析:特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術(shù),如分支界限法、浮動搜索法等;在子集評價方法則采用了很多源于信息論的準則,如信息熵、AIC等。[多選題]154.以下不屬于浮點型的是()A)smallintB)mediumintC)floatD)int答案:ABD解析:[多選題]155.數(shù)據(jù)冗余可能會引起的問題有()。--A)讀取異常B)更新異常C)插入異常D)刪除異常答案:BCD解析:[多選題]156.大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)中關(guān)于tunnel命令行工具的說法,正確的是:()。A)tunnel上傳到分區(qū)表時,會把數(shù)據(jù)直接上傳到指定的分區(qū)中去,不保證業(yè)務(wù)邏輯B)tunnel命令上傳文件時,不能進行壓縮(注:通過-cp參數(shù)進行壓縮)C)tunnel上傳的數(shù)據(jù)是先寫到臨時目錄,最后確定成功后才寫到結(jié)果目錄D)tunnel上傳過程中不加密,數(shù)據(jù)以明文方式在網(wǎng)絡(luò)中傳輸(注:通過https連接就是加密方式)答案:AC解析:[多選題]157.尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價值地總結(jié)出數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟?()A)選擇一個算法過程使評分函數(shù)最優(yōu)B)決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C)決定要使用的表示的特征和結(jié)構(gòu)D)決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法答案:ABCD解析:[多選題]158.HIS表色系的三屬性包含:()。A)色調(diào)B)色飽和度C)亮度D)色度答案:ABC解析:[多選題]159.Hadoop組件的核心功能包括()A)分布式數(shù)據(jù)存儲B)分析C)挖掘D)分布式計算答案:AD解析:[多選題]160.()可以幫助解決訓(xùn)練集在特征空間中線性不可分的問題A)硬間隔B)軟間隔C)核函數(shù)D)拉格朗日乘子法答案:BC解析:[多選題]161.小王開發(fā)了一個MaxcomputeUDF,打成jar包之后,作為資源上傳到項目空間里,創(chuàng)建了對應(yīng)的函數(shù),但是在執(zhí)行的時候發(fā)現(xiàn)該jar包依賴的另一個jar包不存在,他應(yīng)該()才能正常使用。A)在使用jar命令調(diào)用的時候,在classpath參數(shù)中增加依賴jar包的路徑即可B)將依賴的jar包作為資源上傳到項目空間,在UDF的初始化函數(shù)setup中,使用readJarResource讀取jar包資源C)將依賴的jar包作為資源上傳到項目空間,同時在創(chuàng)建函數(shù)的時候(CREATEFUNCTION),using子句中增加依賴的包,如果多個包的話,用逗號分隔D)在對UDF打jar包的時候,把依賴的jar包包含進去,統(tǒng)一打成一個包即可答案:CD解析:[多選題]162.根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,企業(yè)信用智能分析報告頁面分【企業(yè)信用智能分析報告(含征信)】、【企業(yè)信用智能分析報告】2個標簽頁,分別對應(yīng)查詢的報告種類。每個標簽頁的左上角都有()2個按鈕,分別支持查看實時報告和歷史報告。A)查詢實時報告B)查看盡調(diào)報告C)查看歷史報告D)盡職調(diào)查報告數(shù)據(jù)答案:AC解析:[多選題]163.重點開展?物理分布,邏輯統(tǒng)一?的新一代調(diào)度自動化系統(tǒng)試點建設(shè),完成()等軟件開發(fā)、功能測試A)支撐平臺B)人機云終端C)核心應(yīng)用功能D)核心場景答案:ABCD解析:[多選題]164.Hadoop通過ResourceManager對集群資源進行管理,它的主要功能有?A)集群資源調(diào)度B)應(yīng)用程序管理C)集群資源管理D)日志管理答案:ABC解析:[多選題]165.(__)不屬于集中趨勢分析。A)數(shù)值平均數(shù)B)位置平均數(shù)C)離散系數(shù)D)正相關(guān)答案:CD解析:[多選題]166.以下()屬于線性分類器最佳準則?A)感知準則函數(shù)B)貝葉斯分類C)支持向量機D)Fisher準則答案:ACD解析:[多選題]167.下面關(guān)于k近鄰的表述中,正確的是(__)。A)當(dāng)k取不同值時,分類結(jié)果會有顯著不同B)若采用不同的距離計算方式,則找出的?近鄰?可能有顯著差別C)k近鄰可用來對數(shù)據(jù)進行分類D)k近鄰可用來對數(shù)據(jù)進行回歸答案:ABCD解析:[多選題]168.泛在電力物聯(lián)網(wǎng),就是運用新一代信息技術(shù),將()連接起來,通過信息廣泛交互和充分共享,以數(shù)字化管理大幅提高能源生產(chǎn)、能源消費和相關(guān)裝備制造的安全水平、質(zhì)量水平、先進水平、效益效率水平A)電力用戶及其設(shè)備B)電網(wǎng)企業(yè)及其設(shè)備C)發(fā)電企業(yè)及其設(shè)備D)電工裝備企業(yè)及其設(shè)備答案:ABCD解析:[多選題]169.Spark組件包含哪兩個算子()。A)MapB)ActionC)TransformationD)Reduce答案:BC解析:[多選題]170.YARN容量調(diào)度器的主要特點有哪些?A)容量保證B)動態(tài)更新配置文件C)靈活性D)多重租賃答案:ABCD解析:[多選題]171.區(qū)塊鏈的三要素是:()A)交易B)區(qū)塊C)鏈D)比特幣答案:ABC解析:[多選題]172.GraphBase能夠處理海量數(shù)據(jù)的原因是什么?A)圖機制特性B)基于HBase的分布式存儲機制C)基于Elasticsearch的索引機制D)基于Spark的分布式內(nèi)存計算技術(shù)答案:BCD解析:[多選題]173.關(guān)于大數(shù)據(jù)的內(nèi)涵,以下理解正確的是()A)大數(shù)據(jù)還是一種思維方式和新的管理、治理路徑B)大數(shù)據(jù)里面蘊藏著大知識、大智慧、大價值和大發(fā)展C)大數(shù)據(jù)在不同領(lǐng)域,又有不同的狀況D)大數(shù)據(jù)就是很大的數(shù)據(jù)答案:ABCD解析:[多選題]174.大數(shù)據(jù)處理分析技術(shù)主要包括哪幾種類型:()A)批處理計算B)流計算C)圖計算D)查詢分析計算答案:ABCD解析:[多選題]175.下列名稱中,哪些屬于同一種方法(__)。A)可重復(fù)采樣B)自助采樣C)有放回采樣D)順序采樣答案:ABC解析:[多選題]176.OTSAPI中提供了()Action可以進行多行數(shù)據(jù)操作。A)BachtGetRowB)GetRangeC)GetMultiRowD)BatchWriteRow答案:ABD解析:[多選題]177.以下關(guān)于數(shù)據(jù)科學(xué)描述錯誤的包括()。A)數(shù)據(jù)科學(xué)研究數(shù)據(jù)的差異性B)降低計算量是數(shù)據(jù)科學(xué)關(guān)心的問題C)數(shù)據(jù)科學(xué)不可以研究非結(jié)構(gòu)化數(shù)據(jù)D)數(shù)據(jù)科學(xué)不需要與其他學(xué)科結(jié)合在一起答案:ACD解析:[多選題]178.下列關(guān)于降維方法的敘述正確的有()。A)主成分分析是一種常用的非線性降維方法B)核化線性降維是一種常用的線性降維方法C)流形學(xué)習(xí)是一種借鑒拓撲流形概念的降維方法D)度量學(xué)習(xí)繞過降維的過程,將學(xué)習(xí)目標轉(zhuǎn)化為對距離度量計算的權(quán)重矩陣的學(xué)習(xí)答案:CD解析:本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不太理想。核化線性降維是一種非線性降維方法。[多選題]179.在ADS中,兩個事實表進行join的充要條件包括:()。A)張表的hash分區(qū)數(shù)必須一致B)兩個表在一個表組C)張表的joinkey至少有一列建立了hashmap索引D)兩個表的joinkey是hash分區(qū)列答案:ABCD解析:[多選題]180.下列場景適合使用Python的有()。A)可作為腳本語言,快速編寫小型程序、腳本等B)可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計算及可視化領(lǐng)域C)可作為膠水語言,整合如C++等語言代碼D)Python適用于低延時、高利用率的應(yīng)用場景答案:ABC解析:Python作為腳本語言,以解釋方式逐條執(zhí)行語句,相比C++等語言運行速度較慢,不適用于低延時場景。[多選題]181.以下關(guān)于機器學(xué)習(xí)發(fā)展歷程說法正確的是()A)二十世紀五十年代到七十年代初,人工智能研究處于?推理期?B)二十世紀八十年代開始,人工智能研究進入了?知識期?C)在六七十年代,基于邏輯表示的?符號主義?學(xué)習(xí)技術(shù)蓬勃發(fā)展D)1986年,第一本機器學(xué)習(xí)專業(yè)期刊創(chuàng)刊答案:ACD解析:[多選題]182.下列選項中可以設(shè)置數(shù)據(jù)精度的是()。--A)INTB)FLOATC)DOUBLED)DECIMAL答案:BCD解析:[多選題]183.大數(shù)據(jù)人才整體上需要具備()等核心知識。A)數(shù)學(xué)與統(tǒng)計知識B)計算機相關(guān)知識C)馬克思主義哲學(xué)知識D)市場運營管理知識答案:AB解析:[多選題]184.按照應(yīng)用類型,F(xiàn)link窗口可以劃分為以下哪幾種?A)事件窗口B)容量窗口C)滾動窗口D)時間窗口答案:ACD解析:[多選題]185.以下關(guān)于Kafkalogs中segmentfile的說法正確的是?A)通過索引信息可以快速定位messageB)稀疏存儲,即將原來的完整數(shù)據(jù),只間隔的選擇多條進行存儲C)是index元數(shù)據(jù)全部映射到memory,可以避免segmentfile的index數(shù)據(jù)IO磁盤操作D)索引文件稀疏存儲,可以大幅度降低index文件元數(shù)據(jù)占用空間大小答案:ABCD解析:[多選題]186.下列屬于CNN關(guān)鍵層的是()A)輸入層B)卷積層C)激活層D)池化層答案:ABCD解析:[多選題]187.下列關(guān)于支持向量機的說法正確的是(__)。A)支持向量機的學(xué)習(xí)策略是間隔最大化B)支持向量機的基本模型是特征空間上間隔最大的線性分類器C)支持向量機只能對線性可分的樣本進行分類D)傳統(tǒng)支持向量機只能求解二分類問題答案:ABD解析:[多選題]188.以下()屬于數(shù)據(jù)模型。--A)層次模型B)網(wǎng)狀模型C)關(guān)系模型D)以上答案都不正確答案:ABC解析:[多選題]189.從Hadoop實現(xiàn)角度看,HadoopMapReduce1.0主要由()組成。A)編程模型B)數(shù)據(jù)處理引擎C)運行時環(huán)境D)算法庫答案:ABC解析:[多選題]190.JupyterNotebook支持以下哪些語言A)CB)RC)PythonD)Java答案:BC解析:[多選題]191.下列關(guān)于臟數(shù)據(jù)的說法中,正確的是()A)格式不規(guī)范B)編碼不統(tǒng)一C)意義不明確D)與實際業(yè)務(wù)關(guān)系不大答案:ABCD解析:[多選題]192.華為FusionInsightHD行業(yè)成功案例都有哪些?A)數(shù)字政府B)智慧園區(qū)C)智慧交通D)金融答案:ABCD解析:[多選題]193.HBase讀寫用戶表數(shù)據(jù)時需要下列哪些角色參與?A)RegionServerB)HMasterC)ZooKeeperD)Region答案:ABD解析:[多選題]194.下列關(guān)于嵌入式選擇描述錯誤的是(__)。A)嵌入式選擇是將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,兩者在同一個優(yōu)化過程中完成B)從最終學(xué)習(xí)器性能來看,嵌入式特征選擇比過濾式特征選擇更好C)嵌入式特征選擇的計算開銷通常比過濾式特征選擇大得多D)嵌入式特征選擇方法直接針對給定學(xué)習(xí)器進行優(yōu)化答案:BCD解析:[多選題]195.()都屬于分裂的層次聚類算法A)二分K均值B)MSTC)ChameleonD)組平均答案:AB解析:[多選題]196.Hive執(zhí)行查詢的時候會調(diào)用哪些模塊?A)executorB)complierC)optimizerD)MetaStore答案:ABCD解析:[多選題]197.HBase的數(shù)據(jù)文件HFile中一個KeyValue格式包括哪些信息A)KeyB)ValueC)TimeStampD)KeyType答案:ABCD解析:[多選題]198.主要面向或關(guān)注"過去"的數(shù)據(jù)分析過程為()。A)描述性分析B)診斷性分析C)預(yù)測性分析D)規(guī)范性分析答案:AB解析:Gartner分析學(xué)價值扶梯模型認為,從復(fù)雜度及價值高低兩個維度,可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析四種,其中描述性分析和診斷性分析關(guān)注和面向的是"過去"的時間點。[多選題]199.數(shù)據(jù)故事化應(yīng)遵循的基本原則有()A)體驗式講述原則B)個性化定制原則C)3C精神原則D)有效性利用原則答案:ABCD解析:[多選題]200.HBase的可視化Web界面可以查詢到()。A)表的信息B)Region信息C)Region起始RowKeyD)以上全不正確答案:ABC解析:[多選題]201.下面屬于探索性分析主要關(guān)注的四大主題的有(__)。A)耐抗性B)方差C)重新表達D)啟示答案:ACD解析:[多選題]202.下列關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系的說法正確的有()。A)基礎(chǔ)設(shè)施提供數(shù)據(jù)計算、數(shù)據(jù)存儲、數(shù)據(jù)加工(DataWrangling或DataMunging)等服務(wù)B)數(shù)據(jù)流處理、統(tǒng)計工具、日志分析都屬于常用的開源工具C)數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機構(gòu)D)數(shù)據(jù)源與App為數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內(nèi)容答案:ABCD解析:Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當(dāng)時快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到了廣泛應(yīng)用和不斷更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017大數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開源工具、跨平臺基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。[多選題]203.關(guān)于OLAP和OLTP的區(qū)別描述,正確的是:()A)OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同B)與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)C)OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D)OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的答案:ABD解析:[多選題]204.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運用()等技術(shù)等多個學(xué)科領(lǐng)域的知識,以實現(xiàn)人機協(xié)同完成可視化任務(wù)為主要目的的分析推理學(xué)科。A)物理學(xué)B)圖形學(xué)C)數(shù)據(jù)挖掘D)人機交互答案:BCD解析:[多選題]205.下面哪些是Spark的組件()。A)SparkStreamingB)MLibC)GraphXD)SparkR答案:ABC解析:Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphX。[多選題]206.聯(lián)機分析處理包括以下哪些基本分析功能?()A)聚類B)切片C)轉(zhuǎn)軸D)切塊E)分類答案:BCD解析:第3部分:判斷題,共42題,請判斷題目是否正確。[判斷題]207.已知x為非空字符串,那么表達式','A)正確B)錯誤答案:對解析:[判斷題]208.語句x=(3,)執(zhí)行后x的值為3。A)正確B)錯誤答案:錯解析:[判斷題]209.以讀寫方式打開一個文件,若文件已存在,文件內(nèi)容會被清空。()A)正確B)錯誤答案:錯解析:[判斷題]210.Hive默認不支持動態(tài)分區(qū)功能,需要手動設(shè)置動態(tài)分區(qū)參數(shù)開啟功能。()A)正確B)錯誤答案:錯解析:[判斷題]211.詞云圖無法區(qū)分數(shù)值高低()A)正確B)錯誤答案:錯解析:[判斷題]212.使用random模塊的函數(shù)randint(1,100)獲取隨機數(shù)時,有可能會得到100。A)正確B)錯誤答案:錯解析:[判斷題]213.刪除當(dāng)前正在打開的用戶時,該用戶的會話會自動關(guān)閉。--A)正確B)錯誤答案:錯解析:[判斷題]214.兩個變量相關(guān),它們的相關(guān)系數(shù)r可能為0A)正確B)錯誤答案:對解析:[判斷題]215.NameNode本地磁盤保存了Block的位置信息。()A)正確B)錯誤答案:錯解析:block的位置信息是保存在NameNode的內(nèi)存當(dāng)中,磁盤中保存的是NameNode的鏡像[判斷題]216.分類是有監(jiān)督的學(xué)習(xí)問題。A)正確B)錯誤答案:對解析:[判斷題]217.離線批處理,通常是指對海量數(shù)據(jù)進分析和處理,形成結(jié)果數(shù)據(jù),供下一步數(shù)據(jù)應(yīng)用使用,離線處速對處理時間要求不高。A)正確B)錯誤答案:對解析:[判斷題]218.主機報表系統(tǒng)是為了減輕綜合業(yè)務(wù)系統(tǒng)壓力,提升核心系統(tǒng)運行效率,主要報表系統(tǒng)從核心系統(tǒng)剝離80多張統(tǒng)計報表,通過主機報表系統(tǒng)進行展現(xiàn),系統(tǒng)分固定報表和實時查詢報表,支持靈活多樣的實時打印和導(dǎo)出EXCEL功能A)正確B)錯誤答案:對解析:[判斷題]219

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論