大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第1頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第2頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第3頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第4頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

試卷科目:大數(shù)據(jù)開發(fā)基礎(chǔ)大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷9)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎(chǔ)第1部分:?jiǎn)雾?xiàng)選擇題,共145題,每題只有一個(gè)正確答案,多選或少選均不得分。[單選題]1.SVM在()情況下表現(xiàn)糟糕。A)線性可分?jǐn)?shù)據(jù)B)清洗過的數(shù)據(jù)C)含噪聲數(shù)據(jù)與重疊數(shù)據(jù)點(diǎn)[單選題]2.關(guān)于MaxcomputeSQL,說法不正確的是:()。A)在很多方面并不具備數(shù)據(jù)庫的特征B)適用于海量數(shù)據(jù),實(shí)時(shí)性要求不高的場(chǎng)合C)每個(gè)作業(yè)的準(zhǔn)備,提交等階段要花費(fèi)較長(zhǎng)時(shí)間D)大部分標(biāo)準(zhǔn)SQL的功能都支持,但是不支持窗口函數(shù)、rownum等[單選題]3.下面代碼的輸出結(jié)果是:x=12.34print(type(x))A)<class'int'>B)<class'float'>C)<class'bool'>D)<class'complex'>[單選題]4.下列演示方式中,不屬于傳統(tǒng)統(tǒng)計(jì)圖方式的是()。A)柱形圖B)餅狀圖C)曲線圖D)網(wǎng)絡(luò)圖[單選題]5.以下關(guān)于貝葉斯描述正確的是:()A)基于先驗(yàn)概率輸出最大的后驗(yàn)概率B)已發(fā)生的條件下,?原因?屬于事件Ai的條件概率C)貝葉斯公式是嚴(yán)緊的數(shù)學(xué)推理D)樸素貝葉斯是因?yàn)橐淮畏剿惴ㄋ越凶鰳闼?;[單選題]6.關(guān)于剛N最近鄰分類算法的過程:①計(jì)算訓(xùn)練樣本和測(cè)試樣本中每個(gè)樣本點(diǎn)的距離(常見的距離度量有歐式距離、馬氏距離等);②對(duì)上面所有的距離值進(jìn)行排序;③選前k個(gè)最小距離的樣本;④根據(jù)這k個(gè)樣本的標(biāo)簽進(jìn)行投票,得到最后的分類類別正確的排序?yàn)?)A)①③②④B)②④①③C)①②③④D)①②④③[單選題]7.Spark應(yīng)用在運(yùn)行時(shí),Stage劃分的依據(jù)是哪個(gè)?A)taskB)taskSetC)actionD)shuffle[單選題]8.有反饋連接的架構(gòu)是()A)循環(huán)神經(jīng)網(wǎng)絡(luò)B)卷積神經(jīng)網(wǎng)絡(luò)C)受限攻爾茲曼機(jī)D)都不是[單選題]9.以下可以在字符串中表示單引號(hào)的是()。--A)\"B)\\'C)\'D)'[單選題]10.()算法要求基學(xué)習(xí)器能對(duì)特定的數(shù)據(jù)分布進(jìn)行學(xué)習(xí),在訓(xùn)練過程的每一輪中,根據(jù)樣本分布為每個(gè)訓(xùn)練樣本重新賦予一個(gè)權(quán)重A)BoostingB)支持向量機(jī)C)貝葉斯分類器D)神經(jīng)網(wǎng)絡(luò)[單選題]11.若用如下的SQL語句創(chuàng)建一個(gè)student表:CREATETABLEstudent(NOC(4)NOTNULL,NAMEC(8)NOTNULL,SEXC(2),AGEN(2))可以插入到student表中的是A)('1031','曾華',男,23)B)('1031','曾華',NULL,NULL)C)(NULL,'曾華','男','23')D)('1031',NULL,'男',23)[單選題]12.IDC的定義除了揭示大數(shù)據(jù)傳統(tǒng)3V基本特征,即Volume、Variety和Velocity,還增添了一個(gè)新特征是A)量大B)速度快C)應(yīng)用廣D)價(jià)值[單選題]13.下面關(guān)于Timetoast的描述,哪個(gè)是錯(cuò)誤的?()A)Timetoast是在線創(chuàng)作基于時(shí)間軸事件記載服務(wù)的網(wǎng)站B)提供個(gè)性化的時(shí)間線服務(wù)C)Timetoast基于flash平臺(tái),并基于flash時(shí)間軸上任意加入事件D)Timetoast是一個(gè)提供復(fù)雜統(tǒng)計(jì)圖表的工具[單選題]14.評(píng)估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbi踴),應(yīng)采取的解決方法是()A)減少模型的特征數(shù)量B)增加模型的特征數(shù)量C)增加樣本數(shù)量D)以上答案都正確[單選題]15.以下刪除數(shù)據(jù)庫emp正確的()A)Delete*fromempB)DropdatabaseempC)Drop*fromempD)deletedatabaseemp[單選題]16.在Hive中使用那個(gè)子句可以將數(shù)據(jù)劃分到不同的組中,實(shí)現(xiàn)對(duì)記錄的分組查詢()A)groupbyB)orderbyC)sortbyD)whereby[單選題]17.關(guān)于?回歸(Regression)?和?相關(guān)(Correlation)?,下列說法正確的是()。A)回歸和相關(guān)在自變量x和因變量y之間都是互為對(duì)稱的B)回歸和相關(guān)在自變量x和因變量y之間都是非對(duì)稱的C)回歸在自變量x和因變量y之間是非對(duì)稱的,相關(guān)在自變量x和因變量y之間是互為對(duì)稱的D)回歸在自變量x和因變量y之間是對(duì)稱的,相關(guān)在自變量x和因變量y之間是非對(duì)稱的[單選題]18.閱讀下列程序defe_check(n):t=0if(n>500):t=n0.9elif(n>200):t=n0.7else:t=n0.6returntprint("電費(fèi):",e_check(100))運(yùn)行結(jié)果是A)電費(fèi):90B)電費(fèi):80C)電費(fèi):60D)以上都不對(duì)[單選題]19.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說法正確的是()。A)Json內(nèi)的取值只能有統(tǒng)一格式B)PDF文件在不同平臺(tái)上打開顯示不同C)可以通過Python將CSV文件轉(zhuǎn)換成Excel格式D)Excel存儲(chǔ)數(shù)據(jù)的量無限制[單選題]20.ResultScanner無參的next()方法返回下一個(gè)可用的行組成的Result實(shí)例,含參的next(rows)方法返回()A)一個(gè)Result實(shí)例B)一個(gè)Result實(shí)例數(shù)組C)一個(gè)整型D)以上都不正確[單選題]21.下列選項(xiàng)中用于查詢數(shù)據(jù)的是()。--A)INSERTB)SELECTC)UPDATED)DELETE[單選題]22.有如下程序:fun=lambdaarg1,arg2:arg1+arg2print(fun(10,15))程序的輸出結(jié)果是()。A)10B)15C)20D)25[單選題]23.個(gè)棧的初始狀態(tài)為空?,F(xiàn)將元素1、2、3、4、5、A、B、C、D、E依次入棧,然后再依次出棧,則元素出棧的順序是A)12345ABCDEB)EDCBA54321C)54321EDCBAD)ABCDE12345[單選題]24.(__)是指捕獲人們的生活、業(yè)務(wù)或社會(huì)活動(dòng),并將其轉(zhuǎn)換為數(shù)據(jù)的過程。A)數(shù)據(jù)化B)數(shù)據(jù)可視化C)數(shù)據(jù)存儲(chǔ)D)數(shù)據(jù)加工[單選題]25.在回歸分析中,說法正確的是()。A)解釋變量和被解釋變量都是隨機(jī)變量B)解釋變量為非隨機(jī)變量,被解釋變量為隨機(jī)變量C)解釋變量和被解釋變量都為非隨機(jī)變量D)解釋變量為隨機(jī)變量,被解釋變量為非隨機(jī)變量[單選題]26.下列關(guān)于數(shù)據(jù)處理流程,說法有誤的是?()A)在傳統(tǒng)的數(shù)據(jù)處理流程中,存儲(chǔ)的數(shù)據(jù)是舊的B)在傳統(tǒng)的數(shù)據(jù)處理流程中,需要用戶主動(dòng)發(fā)出查詢來獲取結(jié)果C)傳統(tǒng)的數(shù)據(jù)處理流程,需要先采集數(shù)據(jù)并存儲(chǔ)在關(guān)系數(shù)據(jù)庫等數(shù)據(jù)管理系統(tǒng)中D)流計(jì)算的處理流程一般包含三個(gè)階段:數(shù)據(jù)實(shí)時(shí)采集、數(shù)據(jù)批量計(jì)算、實(shí)時(shí)查詢服務(wù)[單選題]27.下面哪個(gè)是一種編程模型,它將大規(guī)模的數(shù)據(jù)處理工作拆分成互相獨(dú)立的任務(wù)然后并行處理()A)MapReduceB)HDFSC)PigD)Hive[單選題]28.Hive中distributeby和sortby的功能結(jié)合的是()A)orderbyB)sortbyC)distributebyD)clusterby[單選題]29.下列哪一個(gè)分類其skicit-learn沒有提供()A)DecisionTreeClassifierB)AdaBoostClassifierC)SVCD)以上分類器均有提供[單選題]30.代碼片段:x=10if(xA)28B)12C)16D)14[單選題]31.Dave于2012年發(fā)布(__)首次全面地刻畫了當(dāng)時(shí)快速發(fā)展的大數(shù)據(jù)技術(shù)體系。A)大數(shù)據(jù)產(chǎn)業(yè)網(wǎng)絡(luò)B)大數(shù)據(jù)產(chǎn)業(yè)全景圖C)大數(shù)據(jù)產(chǎn)業(yè)D)大數(shù)據(jù)網(wǎng)絡(luò)[單選題]32.常用的圖像分割方法是把圖像(__)分成不同等級(jí)。A)顏色B)灰度C)大小D)亮度信息[單選題]33.以下哪個(gè)不是離線批處理的核心訴求?A)處理數(shù)據(jù)格式多樣B)處理教據(jù)量巨大C)支持SQL美作業(yè)和自走義作業(yè)D)處理時(shí)間要求高[單選題]34.Redis中List列表是什么數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)的?A)雙向鏈表B)平衡二叉樹C)紅黑樹D)循環(huán)鏈表[單選題]35.HDFS分布式文件系統(tǒng)的特點(diǎn)為()。A)半透明性B)低可用性C)可擴(kuò)展性D)支持一個(gè)應(yīng)用程序并發(fā)訪問[單選題]36.以下哪個(gè)操作不會(huì)導(dǎo)致SparkShuffle的發(fā)生?A)reduceByKey()B)filter()C)distinct()D)intersection()[單選題]37.下列選項(xiàng)中,不屬于Python數(shù)據(jù)類型的是()A)boolB)dictC)stringD)set[單選題]38.出現(xiàn)在datanode的VERSION文件格式中但不出現(xiàn)在namenode的VERSION文件格式中的是A)namespaceIDB)storageIDC)storageTypeD)layoutVersion[單選題]39.HDFS中當(dāng)前block大小為64M,如果當(dāng)前要上傳到HDFS中的文件大小為150M,那么在存儲(chǔ)時(shí)會(huì)分配()個(gè)block進(jìn)行存儲(chǔ)。A)1B)2C)3D)4[單選題]40.(__)是norm.rvs(5)的結(jié)果。A)7.1316243700758B)array([-0.35687759,1.34347647,-0.11710531,-1.00725181,-0.51275702])C)array([1,2,3,4,5])D)array([5,4,3,2,1])[單選題]41.在msyql.user表中權(quán)限字段的數(shù)據(jù)類型是()。--A)INTB)VARCHARC)ENUMD)FLOAT[單選題]42.假設(shè)你有5個(gè)大小為7x7、邊界值為0的卷積核,同時(shí)卷積神經(jīng)網(wǎng)絡(luò)第一層的深度為1此時(shí)如果你向這一層傳人一個(gè)維度為224x224x3的數(shù)據(jù),那么神經(jīng)網(wǎng)絡(luò)下一層所接收到的數(shù)據(jù)維度是()A)218x218x5B)217x217x8C)217x217x3D)220x220x5[單選題]43.在matplotlib子圖繪制中,若執(zhí)行plt.subplot(3,2,4),則當(dāng)前的繪圖子區(qū)域索引號(hào)是()A)2B)3C)4D)6[單選題]44.Spark自帶的資源管理框架是?A)StandaloneB)MesosC)YARND)Docker[單選題]45.Numpy數(shù)組分割使用的函數(shù)是()。A)vstack()B)hstack()C)split()D)view()288[單選題]46.一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周圍密度的逆。這是基于()的離群點(diǎn)定義。A)概率B)鄰近度C)密度D)聚類[單選題]47.下列關(guān)于舍恩伯格對(duì)大數(shù)據(jù)特點(diǎn)的說法中,錯(cuò)誤的是()。A)數(shù)據(jù)規(guī)模大B)數(shù)據(jù)類型多樣C)數(shù)據(jù)處理速度快D)數(shù)據(jù)價(jià)值密度高[單選題]48.要在HDFS的根目錄中建立一個(gè)叫hadoo的目錄,下面哪一條命令是正確的()A)mkdirhadooB)mkdir/hadooC)hadoopmkdirhadooD)hadoopfs-mkdir/hadoo[單選題]49.數(shù)據(jù)庫服務(wù)器、數(shù)據(jù)庫和表的關(guān)系,正確的說法是()A)一個(gè)數(shù)據(jù)庫服務(wù)器只能管理一個(gè)數(shù)據(jù)庫,一個(gè)數(shù)據(jù)庫只能包含一個(gè)表B)一個(gè)數(shù)據(jù)庫服務(wù)器可以管理多個(gè)數(shù)據(jù)庫,一個(gè)數(shù)據(jù)庫可以包含多個(gè)表C)一個(gè)數(shù)據(jù)庫服務(wù)器只能管理一個(gè)數(shù)據(jù)庫,一個(gè)數(shù)據(jù)庫可以包含多個(gè)表D)一個(gè)數(shù)據(jù)庫服務(wù)器可以管理多個(gè)數(shù)據(jù)庫,一個(gè)數(shù)據(jù)庫只能包含一個(gè)表[單選題]50.以下關(guān)于降維的表述,錯(cuò)誤的是()。A)降維過程中可以保留原始數(shù)據(jù)的所有信息B)多維縮放的目標(biāo)是要保證降維后樣本之間的距離不變C)線性降維方法目標(biāo)是要保證降維到的超平面能更好地表示原始數(shù)據(jù)D)核線性降維方法目標(biāo)是通過核函數(shù)和核方法來避免采樣空間投影到高維空間再降維之后的低維結(jié)構(gòu)丟失[單選題]51.在分類問題中,經(jīng)常會(huì)遇到正負(fù)樣本數(shù)據(jù)量不等的情況,比如正樣本為100萬條數(shù)據(jù),負(fù)樣本只有1萬條數(shù)據(jù),以下最合適的處理方法是()。A)從100萬正樣本中隨機(jī)抽取1萬參與分類B)將負(fù)樣本每個(gè)權(quán)重設(shè)置為100,正樣本權(quán)重為1,參與訓(xùn)練過程C)直接進(jìn)行分類,可以最大限度利用數(shù)據(jù)D)將負(fù)樣本重復(fù)100次,生成100萬樣本量,打亂順序參與分類[單選題]52.HDFS的副本放置策略中,同一機(jī)架不同的服務(wù)器之間的距離是A)3B)2C)1D)4[單選題]53.機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的方法有?A)卡方B)信息增益C)期望交叉熵D)以上都有[單選題]54.交叉驗(yàn)證的目的是(__)。A)提高分類準(zhǔn)確率B)得到更穩(wěn)定的模型C)驗(yàn)證結(jié)果的準(zhǔn)確性D)增大分類的誤差[單選題]55.下列哪個(gè)不屬于可視化工具?()A)GoogleB)D3C)Visual.lyD)Spark[單選題]56.Spark自帶的資源管理框架是?A)StandaloneB)MesosC)YARND)Docker[單選題]57.preprocessing.normalize()函數(shù)中的norm參數(shù)代表(__)。A)需要正則化的對(duì)象B)正則化的方式C)對(duì)象的大小D)返回值的維度[單選題]58.為了降低MapReduce兩個(gè)階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對(duì)map階段的輸出進(jìn)行處理。A)sort()B)combiner()C)join()D)gather()[單選題]59.下列關(guān)于儀表盤圖的說法中,錯(cuò)誤的是()A)儀表盤圖可以直觀地表現(xiàn)出某個(gè)指標(biāo)的進(jìn)度或?qū)嶋H情況B)一個(gè)可視化組建中只能創(chuàng)建一個(gè)儀表盤,無法同時(shí)展示多個(gè)儀表盤C)儀表盤中的儀表板最大值為目標(biāo)值D)儀表盤中指針指向的位置為指針值,即當(dāng)前值[單選題]60.以下表示可變長(zhǎng)度字符串的數(shù)據(jù)類型是()A)TEXTB)CHARC)VARCHARD)EMUM[單選題]61.()算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的算法。A)FP-growthB)EClatC)聚類D)Apdori[單選題]62.下列關(guān)于?數(shù)據(jù)可視化?的說法中,正確的是()A)數(shù)據(jù)可視化沒有標(biāo)準(zhǔn)答案,不同的商業(yè)案例、原始數(shù)據(jù)均可能影響可視化圖表的選擇,最為重要的影響因素是:你想以怎樣的形式向匯報(bào)對(duì)象展示結(jié)果B)數(shù)據(jù)可視化有標(biāo)準(zhǔn)答案,不同的商業(yè)案例、原始數(shù)據(jù)只能選擇對(duì)應(yīng)的一種可視化圖表C)數(shù)據(jù)可視化是使數(shù)據(jù)以圖表等方式展示的一種方法,EXCEL無法完成數(shù)據(jù)可視化操作D)數(shù)據(jù)可視化結(jié)果應(yīng)當(dāng)包含所有原始數(shù)據(jù)信息,需要向匯報(bào)對(duì)象展示出全部的數(shù)據(jù)結(jié)果[單選題]63.在FusionInsight產(chǎn)品中,關(guān)于創(chuàng)建Kafka的Topic,以下哪些描述是正確的?A)在創(chuàng)建Kafka的Topic時(shí),必須設(shè)置Partition個(gè)數(shù)B)在創(chuàng)建Kafka的Topic時(shí),必須設(shè)置Partition副本個(gè)數(shù)C)設(shè)置多副本可以增強(qiáng)Kafka服務(wù)的容災(zāi)能力D)以上全都正確[單選題]64.以下關(guān)于知識(shí)圖譜,描述錯(cuò)誤的是:()A)又稱為科學(xué)知識(shí)圖譜B)在圖書情報(bào)界稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖C)知識(shí)圖譜屬于密碼學(xué)研究范疇D)知識(shí)圖譜可用于反欺詐、不一致性驗(yàn)證、組團(tuán)欺詐等公共安全保障領(lǐng)域[單選題]65.關(guān)于數(shù)據(jù)整合和分組的說法,不正確的是()。A)數(shù)據(jù)連接可以用concat或merge函數(shù)B)axis=1表示軸向連接C)數(shù)據(jù)分組可以使用mean函數(shù)D)使用agg可以自定義多個(gè)聚合函數(shù)[單選題]66.可以在創(chuàng)建表時(shí)用()來創(chuàng)建唯一索引,也可以用()來創(chuàng)建唯一索引A)Createtable,CreateindexB)設(shè)置主鍵約束,設(shè)置唯一約束C)設(shè)置主鍵約束,CreateindexD)以上都可以[單選題]67.輸入圖像為32×32,經(jīng)過步長(zhǎng)為1、不進(jìn)行padding、卷積核為5×5的卷積層后,得到的特征圖尺寸是()。A)28×28B)27×27C)29×29D)32×32[單選題]68.輸出門的作用是()。A)保留重要信息B)去除不重要信息C)信息增加D)決定要輸出的部分[單選題]69.LSTM與RNN相比可以解決()。A)梯度消失B)訓(xùn)練結(jié)果發(fā)散C)需要激活函數(shù)D)無法處理長(zhǎng)距離的依賴的問題[單選題]70.Spark誕生于哪所學(xué)院A)加州大學(xué)芝加哥分校B)哈佛大學(xué)加州分校C)加州大學(xué)伯克利分校D)斯坦福大學(xué)圣地亞哥分校[單選題]71.在MapTask的Combine階段,當(dāng)處理完所有數(shù)據(jù)時(shí),MapTask會(huì)對(duì)所有的臨時(shí)文件進(jìn)行一次()A)分片操作B)合并操作C)格式化操作D)溢寫操作[單選題]72.Hadoop的作者是下面哪一位______。A)MartinFowlerB)DougcuttingC)KentBeckD)GraceHopper[單選題]73.二項(xiàng)分布的數(shù)學(xué)期望為()。A)n(1-n)pB)np(1-p)C)npD)n(1-p)[單選題]74.下列對(duì)于精度的描述,解釋正確的是(__)。A)統(tǒng)計(jì)分類器預(yù)測(cè)出來的結(jié)果與真實(shí)結(jié)果不相同的個(gè)數(shù),然后除以總的樣例集D的個(gè)數(shù)。B)先統(tǒng)計(jì)分類正確的樣本數(shù),然后除以總的樣例集D的個(gè)數(shù)。C)預(yù)測(cè)為正的樣例中有多少是真正的正樣例D)樣本中的正例有多少被預(yù)測(cè)正確[單選題]75.運(yùn)行下列代碼,輸出結(jié)果是()。L=[iifi%2==0elsei*10foriinrange(5)]print(l)A)[0,10,2,30,4]B)[10,2,30,4]C)[0,10,2,30,4,50]D)[0,1,20,3,40][單選題]76.下列對(duì)于Sigmoid函數(shù)的說法,錯(cuò)誤的是()A)存在梯度爆炸的問題B)不是關(guān)于原點(diǎn)對(duì)稱C)計(jì)算exp比較耗時(shí)D)存在梯度消失的問題[單選題]77.SELECTINSERT('welcome',-4,3,'HA')的執(zhí)行結(jié)果為()。--A)HAcomeB)welHAeC)welHAcomeD)welcome[單選題]78.點(diǎn)擊率問題是這樣一個(gè)預(yù)測(cè)問題,99%的人是不會(huì)點(diǎn)擊的,而1%的人是會(huì)點(diǎn)擊進(jìn)去的,所以這是一個(gè)非常不平衡的數(shù)據(jù)集。假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來分類,而且有了99%的預(yù)測(cè)準(zhǔn)確率,我們可以下的結(jié)論是()。A)模型預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了B)模型預(yù)測(cè)準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模型C)無法下結(jié)論D)以上答案都不正確[單選題]79.Mapper排序后的輸出將作為下面哪個(gè)的輸入()A)ReducerB)MapperC)ShuffleD)Sort[單選題]80.mkdir()的作用是()。A)刪除指定路徑的目錄B)改變當(dāng)前工作目錄到指定的路徑C)以數(shù)字權(quán)限模式創(chuàng)建目錄D)返回當(dāng)前工作目錄[單選題]81.()是存儲(chǔ)在計(jì)算機(jī)內(nèi)的有結(jié)構(gòu)的數(shù)據(jù)集合A)網(wǎng)絡(luò)系統(tǒng)B)數(shù)據(jù)庫系統(tǒng)C)操作系統(tǒng)D)數(shù)據(jù)庫[單選題]82.為了調(diào)查與軟件相關(guān)的影響響應(yīng)時(shí)間的原因,審計(jì)師應(yīng)該()A)進(jìn)行跟蹤并以圖形描述B)開發(fā)一個(gè)集成測(cè)試環(huán)境C)使用嵌入的審計(jì)數(shù)據(jù)D)進(jìn)行平行模擬[單選題]83.數(shù)據(jù)庫管理系統(tǒng)是()A)操作系統(tǒng)的一部分B)在操作系統(tǒng)支持下的系統(tǒng)軟件C)一種編譯程序D)一種操作系統(tǒng)[單選題]84.(__)是一種著名的過濾式特征選擇方法。A)k-meansB)k近鄰C)支持向量機(jī)D)Relief[單選題]85.使用Pig語句查詢表中的某一列數(shù)據(jù),下列語句正確的是()。A)SELECTuserFROMtmp_table;B)DUMPtmp_table.user;C)FOREACHtmp_tableGENERATEuser;D)tmp_table_user=FOREACHtmp_tableGENERATEuser;DUMPtmp_table_user;[單選題]86.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換器說法正確的是()A)ArraySplit是文本型轉(zhuǎn)換器B)Left是集合型轉(zhuǎn)換器C)Datelnc是集合型轉(zhuǎn)換器D)Formatdate轉(zhuǎn)換器使用時(shí)可以不區(qū)分日期形式[單選題]87.Hive適合()環(huán)境A)Hive適合用于聯(lián)機(jī)(online)事務(wù)處理B)提供實(shí)時(shí)查詢功能C)適合應(yīng)用在大量不可變數(shù)據(jù)的批處理作業(yè)D)Hive適合關(guān)系型數(shù)據(jù)環(huán)境[單選題]88.()不是HDFS的設(shè)計(jì)目標(biāo)。A)流式數(shù)據(jù)訪問B)大規(guī)模數(shù)據(jù)集C)移動(dòng)計(jì)算D)"多次寫入,多次讀取"的文件訪問模型[單選題]89.對(duì)于GaussDB200的數(shù)據(jù)并行導(dǎo)入策略Normal,下列說法錯(cuò)誤的是()?A)通過GDS服務(wù)的方式實(shí)現(xiàn)數(shù)據(jù)并行導(dǎo)入。B)導(dǎo)入的效率和GDS服務(wù)器有關(guān),GDS服務(wù)器越多,導(dǎo)入效率越快。C)數(shù)據(jù)導(dǎo)入時(shí),支持單行數(shù)據(jù)大小小于1GB.D)能夠?qū)?shù)據(jù)庫的數(shù)據(jù).表結(jié)構(gòu)都導(dǎo)入。[單選題]90.ADS創(chuàng)建表組時(shí),可以指定表組的副本數(shù),關(guān)于副本數(shù)的說法,以下()是正確的。A)表組的副本數(shù)越多,可以一定程度的增加ADS的最大承受的QPSB)表組的副本數(shù)為1時(shí),寫入數(shù)據(jù)會(huì)最快,相比副本較多的情況,在數(shù)據(jù)導(dǎo)入時(shí)不可用時(shí)間會(huì)更短C)表組的副本數(shù)最小值為2D)表組的副本數(shù)越少,表組的可用性會(huì)越高[單選題]91.HBase架構(gòu)的四大組件中,()包含訪問HBase的接口。A)ZookeeperB)MasterC)RegionServerD)Client[單選題]92.Hive包括()中連接模式。A)二B)四C)三D)五[單選題]93.行業(yè)應(yīng)用解決的是行業(yè)()問題,并為企業(yè)應(yīng)用提供基礎(chǔ)平臺(tái)。A)單一B)共性C)基礎(chǔ)D)根本[單選題]94.大數(shù)據(jù)應(yīng)用需要依托的新技術(shù)有()A)大規(guī)模存儲(chǔ)與計(jì)算B)數(shù)據(jù)分析處理C)智能化D)以上都是[單選題]95.RNN不同于其它神經(jīng)網(wǎng)絡(luò)的地方在于()。A)實(shí)現(xiàn)了記憶功能B)速度快C)精度高D)易于搭建[單選題]96.下列選項(xiàng)中,關(guān)于Zookeeper可靠性含義說法正確的是:()。A)可靠性通過主備部署模式實(shí)現(xiàn)B)可靠性是指更新只能成功或者失敗,沒有中間狀態(tài)C)可靠性是指無論哪一個(gè)server,對(duì)外展示的均是同一個(gè)視圖D)可靠性是指一個(gè)消息被一個(gè)server接受,它將被所有的server接受[單選題]97.關(guān)于Python語言的特點(diǎn),以下選項(xiàng)中描述錯(cuò)誤的是()。A)Python語言是非開源語言B)Python語言是跨平臺(tái)語言C)$;$Python語言是多模型語言D)Python語言是腳本語言[單選題]98.以下不屬于馬爾可夫隨機(jī)場(chǎng)模型與條件隨機(jī)場(chǎng)模型的差別的是()。A)馬爾可夫隨機(jī)場(chǎng)與條件隨機(jī)場(chǎng)都是無向圖模型B)馬爾可夫隨機(jī)場(chǎng)是生成式模型,條件隨機(jī)場(chǎng)是判別式模型C)馬爾可夫隨機(jī)場(chǎng)處理?xiàng)l件概率,條件隨機(jī)場(chǎng)處理聯(lián)合概率D)馬爾可夫隨機(jī)場(chǎng)處理聯(lián)合概率,條件隨機(jī)場(chǎng)處理?xiàng)l件概率[單選題]99.HDFS的設(shè)計(jì)是以()為主要應(yīng)用場(chǎng)景。A)一次寫入、一次讀取B)多次寫入、多次讀取C)一次寫入、多次讀取D)多次寫入、一次讀取[單選題]100.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()特點(diǎn)。A)可關(guān)聯(lián)性B)可溯源性C)可理解性D)可復(fù)制性[單選題]101.K-Means算法無法聚()樣本。A)圓形分布B)螺旋分布C)帶狀分布D)凸多邊形分布[單選題]102.能將文本文件?data_txt.txt?讀取到數(shù)組data1中的語句是:A)np.save('data_txt.txt',data1,fmt='%d')B)data1=np.load('data_txt.txt')C)np.savetxt('data_txt.txt',data1,fmt='%d')D)data1=np.loadtxt('data_txt.txt')[單選題]103.以下關(guān)于方差、偏差、泛化誤差說法正確的是(__)A)偏差表達(dá)了當(dāng)前任務(wù)上任何模型所能達(dá)到的期望泛化誤差的下界,刻畫了學(xué)習(xí)問題本身的難度。B)方差度量了模型的期望預(yù)測(cè)和真實(shí)結(jié)果的偏離程度,刻畫了模型本身的擬合能力。C)噪聲度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響。D)當(dāng)方差過高,會(huì)出現(xiàn)過擬合現(xiàn)象。[單選題]104.python中,()是字符串格式化的方法A)countB)formatC)inD)replace[單選題]105.執(zhí)行下列語句后的顯示結(jié)果是什么?>>>world=?world?>>>print?hello?+worldA)helloworldB)?hello?worldC)helloworldD)語法錯(cuò)誤[單選題]106.MaxCompute提供了多種針對(duì)日期的計(jì)算函數(shù),以下函數(shù)中,能實(shí)現(xiàn)計(jì)算兩個(gè)時(shí)間的差的是:()。A)datediffB)timestampdiffC)intervalD)直接相減[單選題]107.下面()負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ).A)NameNodeB)JobtrackerC)DatanodeD)SecondaryNameNode[單選題]108.建立一個(gè)模型,通過這個(gè)模型根據(jù)已知的變量值來預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖26掘的哪一類任務(wù)?A)、根據(jù)內(nèi)容檢索B)、建模描述C)、預(yù)測(cè)建模D)、尋找模式和規(guī)則[單選題]109.以下不是測(cè)試方法的是()A)留出法B)交叉驗(yàn)證法C)自助法D)全量法[單選題]110.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的思維變革的是()。A)不是隨機(jī)樣本,而是全體數(shù)據(jù)B)不是精確性,而是混雜性C)不是描述性分析,而是預(yù)測(cè)性分析D)不是因果關(guān)系,而是相關(guān)關(guān)系[單選題]111.以下會(huì)出現(xiàn)錯(cuò)誤的是A)?北京?.encode()B)?北京?.decode()C)?北京?.enode().deode()D)以上都不會(huì)錯(cuò)誤[單選題]112.下列哪個(gè)不屬于常用的文本分類的特征選擇算法?A)卡方檢驗(yàn)值B)互信息C)信息增益D)主成分分析[單選題]113.不屬于神經(jīng)網(wǎng)絡(luò)常用學(xué)習(xí)算法的是:A)有監(jiān)督學(xué)習(xí)B)增強(qiáng)學(xué)習(xí)C)觀察與發(fā)現(xiàn)學(xué)習(xí)D)無監(jiān)督學(xué)習(xí)[單選題]114.np.hsplit函數(shù)是按照什么軸進(jìn)行分割數(shù)組?A)水平軸B)豎直軸C)深度分割D)45度軸[單選題]115.np.multiply([[1,2,3],[1,2,3],[1,2,3]],[[2,1,1],[2,1,1],[2,1,1]])的結(jié)果是多少?A)[[1266][1266][1266]]B)[[211][211][211]]C)[[223][223][223]]D)[[123][123][123]][單選題]116.某企業(yè)使用ADS做數(shù)據(jù)分析,其中部分?jǐn)?shù)據(jù)來源于Maxcompute。技術(shù)人員在使用LOADDATA命令從Maxcompute加載數(shù)據(jù)到ADS的過程中,碰到如下錯(cuò)誤信息:ERROR1105(HY000):Youarenottheownerofthesourcetable,最有可能出錯(cuò)的原因是:()。A)源表不存在B)ADS的用戶garuda_build@沒有對(duì)源表的操作權(quán)限C)Maxcompute的用戶garuda_build@沒有對(duì)源表的操作權(quán)限D(zhuǎn))源表中沒有數(shù)據(jù),為空表[單選題]117.Hadoop環(huán)境下HDFS系統(tǒng)中的NameNode實(shí)現(xiàn)的功能是()。A)管理文件系統(tǒng)的命名空間B)管理存儲(chǔ)空間C)分配算力D)調(diào)控算法[單選題]118.下列不屬于scikit-learn中用于標(biāo)準(zhǔn)化的函數(shù)是()。A)StandardScalerB)MinMaxScalerC)MeanScalerD)以上都對(duì)[單選題]119.考慮這么一種情況:一個(gè)對(duì)象碰巧與另一個(gè)對(duì)象相對(duì)接近,但屬于不同的類,因?yàn)檫@兩個(gè)又餓一般不會(huì)共享許多近鄰,所以應(yīng)該選擇()的相似度計(jì)算方法A)平方歐幾里德距離B)余弦距離C)直接相似皮D)共享最近鄰[單選題]120.下面的循環(huán)會(huì)打印多少次?ILovePython??foriinrange(0,10,2):print('ILovePython')A)2B)5C)6D)10[單選題]121.常用的數(shù)據(jù)收集工具不包括以下哪個(gè)選項(xiàng)?A)LoaderB)SqoopC)KettleD)Spark[單選題]122.hadoop()中第一階段的輸出可以作為下一階段的輸入。A)應(yīng)用場(chǎng)景B)分布式計(jì)算C)分階段計(jì)算D)高效處理[單選題]123.拼接字段的函數(shù)是()A)SUBSTRING()B)TRIM()C)SUM()D)CONCAT()[單選題]124.多分類圖像識(shí)別任務(wù)常采用()作為輸出的編碼方式。A)二進(jìn)制編碼B)one-hot編碼C)霍夫曼編碼D)曼切斯特編碼[單選題]125.關(guān)于下列for循環(huán),sum=0foriinrange(1,10,2):sum+=i最后輸出的sum=()。A)23B)24C)25D)26[單選題]126.下列算法中:①KNN算法;②線性回歸;③邏輯回歸??梢杂蒙窠?jīng)網(wǎng)絡(luò)構(gòu)建的算法是()。A)①②B)②③C)①②③D)以上都不是[單選題]127.下列方法中,可以對(duì)列表元素排序的是()。A)sort()B)reverse()C)max()D)list()[單選題]128.在MaxComputeSQL中,對(duì)兩個(gè)double類型的時(shí)間進(jìn)行比較,正確的做法是:()。A)使用關(guān)系運(yùn)算符B)使用關(guān)系運(yùn)算符"!=?C)使用關(guān)系運(yùn)算符?<>?D)使用兩個(gè)double類型相減,然后取絕對(duì)值的方式進(jìn)行[單選題]129.通過DMS管理后臺(tái)或者數(shù)據(jù)庫客戶端,連接RDS數(shù)據(jù)庫時(shí),提示錯(cuò)誤信息?max_user_connections?,代表()含義。A)IOPS超出極限B)RDS空間滿了C)網(wǎng)絡(luò)中斷D)RDS數(shù)據(jù)庫的連接數(shù)滿了[單選題]130.下列選項(xiàng)中,用于創(chuàng)建一個(gè)帶有條件判斷的循環(huán)過程的語句是()。--A)LOOP語句B)ITERATE語句C)REPEAT語句D)QUIT語句[單選題]131.KafkaClusterMirroring工具可以實(shí)現(xiàn)以下哪項(xiàng)功能?A)Kafka跨集群數(shù)據(jù)同步方式B)Kafka單集群內(nèi)數(shù)據(jù)備份C)Kafka單集群內(nèi)數(shù)據(jù)恢復(fù)D)以上全不正確[單選題]132.部署HBase時(shí)需要依賴于哪個(gè)資源協(xié)調(diào)組件A)YarnB)ZooKeeperC)SqoopD)HDFS[單選題]133.python3中round(15.5)與round(16.5)的結(jié)果分別為()。A)16,16B)16,17C)17,16D)17,17[單選題]134.forIinrange(2):print('hi')的結(jié)果()A)打印兩次hiB)打印兩次2C)打印一次2D)打印一次hi[單選題]135.根據(jù)《泛在電力物聯(lián)網(wǎng)2019年建設(shè)方案》,多維精益管理體系變革工作不包含以下哪一項(xiàng)()A)重點(diǎn)推進(jìn)業(yè)務(wù)流程在線貫通、企業(yè)級(jí)數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)和信息頻道化輸出,實(shí)現(xiàn)電網(wǎng)運(yùn)營(yíng)數(shù)據(jù)全面連接、經(jīng)營(yíng)狀態(tài)多維展示B)按人資、設(shè)備、營(yíng)銷、物資等業(yè)務(wù)條線細(xì)化管理顆粒度,實(shí)現(xiàn)投入產(chǎn)出精準(zhǔn)分析評(píng)價(jià)C)搭建市場(chǎng)化業(yè)務(wù)精益管理體系,支撐新興業(yè)務(wù)開拓D)提高業(yè)務(wù)數(shù)字化和線上化水平,增強(qiáng)精益化管理能力,支撐市場(chǎng)開拓和價(jià)值創(chuàng)造,提升企業(yè)經(jīng)營(yíng)績(jī)效[單選題]136.下列關(guān)于線形圖的說法中,錯(cuò)誤的是()A)線形圖是一種以直線的方式展示可視化結(jié)果的圖表B)線形圖中連線的線形包括折線、曲線以及垂直線C)我們可以為線形圖中每一個(gè)連接的點(diǎn)打上標(biāo)簽,使其可以清晰地展示出對(duì)應(yīng)的數(shù)值D)線形圖可以清晰地反應(yīng)事物隨類別而變化的趨勢(shì),如增減趨勢(shì)、增減速度等[單選題]137.下列關(guān)于網(wǎng)絡(luò)用戶行為的說法中,錯(cuò)的是()。A)網(wǎng)絡(luò)公司能夠捕捉到用戶在其網(wǎng)站上的所有行為B)用戶離散的交互痕跡能夠?yàn)槠髽I(yè)提升服務(wù)質(zhì)量提供參考C)數(shù)字軌跡用完即自動(dòng)刪除D)用戶的隱私安全很難得以規(guī)范保護(hù)[單選題]138.()是以樣本統(tǒng)計(jì)量作為未知總體參數(shù)的估計(jì)量,并通過對(duì)樣本單位的實(shí)際觀察取得樣本數(shù)據(jù),計(jì)算樣本統(tǒng)計(jì)量的取值作為被估計(jì)參數(shù)的估計(jì)值A(chǔ))參數(shù)估計(jì)B)邏輯分析C)方差分析D)回歸分析[單選題]139.使用交互式的和可視化的技術(shù),對(duì)數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?A)探索性數(shù)據(jù)分析B)建模描述C)預(yù)測(cè)建模D)尋找模式和規(guī)則[單選題]140.以下關(guān)于大數(shù)據(jù)的敘述中,()是不恰當(dāng)?shù)?。A)大數(shù)據(jù)是僅靠現(xiàn)有數(shù)據(jù)庫管理工具或傳統(tǒng)數(shù)據(jù)處理系統(tǒng)很難處理的大型而復(fù)雜的數(shù)據(jù)集B)大數(shù)據(jù)具有數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、處理速度快等特性C)大數(shù)據(jù)的戰(zhàn)略意義是實(shí)現(xiàn)數(shù)據(jù)的增值D)大數(shù)據(jù)研究中,數(shù)據(jù)之間的因果關(guān)系比關(guān)聯(lián)關(guān)系更重要[單選題]141.下列選項(xiàng)中,哪個(gè)配置文件可以配置HDFS地址、端口號(hào)以及臨時(shí)文件目錄()A)core-site.xmlB)hdfs-site.xmlC)mapred-site.xmlD)yarn-site.xml[單選題]142.下列基本活動(dòng)中不屬于數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要特別注意的是()。A)創(chuàng)造性設(shè)計(jì)B)數(shù)據(jù)洞見C)虛擬化D)個(gè)性化描述[單選題]143.下列關(guān)于數(shù)據(jù)產(chǎn)品的說法錯(cuò)誤的是()。A)數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B)與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費(fèi)者不僅限于人類用戶,還可以是計(jì)算機(jī)以及其他軟硬件系統(tǒng)C)數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項(xiàng)目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品D)數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項(xiàng)目流程的全部活動(dòng)[單選題]144.信息安全事件的處理不遵循的原則是()A)統(tǒng)一領(lǐng)導(dǎo)B)綜合協(xié)調(diào)C)快速處理D)集體責(zé)任第2部分:多項(xiàng)選擇題,共62題,每題至少兩個(gè)正確答案,多選或少選均不得分。[多選題]145.以下提法中正確的是()。A)數(shù)據(jù)學(xué)科中的?數(shù)據(jù)?并不僅僅是?數(shù)值?,也不等同于?數(shù)值?;B)數(shù)據(jù)科學(xué)中的?計(jì)算?并不僅僅是加、減、乘、除等?數(shù)學(xué)計(jì)算?,還包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型;C)數(shù)據(jù)科學(xué)關(guān)注的是?單一學(xué)科?的問題;D)數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是?理論研究?,一般不涉及?領(lǐng)域?qū)崉?wù)知識(shí)?;[多選題]146.下列哪種算法屬于機(jī)器學(xué)習(xí)算法?A)BP神經(jīng)網(wǎng)絡(luò)B)圖論推理算法C)PID控制調(diào)節(jié)D)k-means算法[多選題]147.下列哪些是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù):()A)等高線圖B)餅圖C)曲面圖D)矢量場(chǎng)圖[多選題]148.大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響有哪些?()A)大數(shù)據(jù)成為一種新的決策方式B)大數(shù)據(jù)應(yīng)用促進(jìn)信息技術(shù)與各行業(yè)的深度融合C)大數(shù)據(jù)開發(fā)推動(dòng)新技術(shù)和新應(yīng)用的不斷涌現(xiàn)D)大數(shù)據(jù)使得數(shù)據(jù)科學(xué)家成為熱門職業(yè)[多選題]149.下列關(guān)于超鏈接的說法正確的有()。A)語句<ahref="formhtml">FillOurForm</a>指向的是同一服務(wù)器同一目錄下的FormhtmlB)語句<ahref="stuff/cathtml">Catalog</a>指向的是同一服務(wù)器子目錄stuff下的CathtmlC)語句<ahref="/parenthtml">Parent</a>指向的是同一服務(wù)器父目錄下的parenthtmlD)語句<ahref="wwwdevbgorg"target="_blank">BASD</a>指向的是內(nèi)部的網(wǎng)站[多選題]150.根據(jù)泛在電力物聯(lián)網(wǎng)2019年建設(shè)方案,大力發(fā)展新興業(yè)務(wù),堅(jiān)持()和()相結(jié)合A)理論指導(dǎo)B)頂層設(shè)計(jì)C)基層首創(chuàng)D)實(shí)際應(yīng)用[多選題]151.在正則化公式中,λ為正則化參數(shù),關(guān)于λ的描述正確的是()。A)若正則化參數(shù)λ過大,可能會(huì)導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B)若λ的值太大,則梯度下降可能不收斂C)取一個(gè)合理的λ值,可以更好地應(yīng)用正則化D)如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會(huì)在一定程度上減小[多選題]152.下面檢索結(jié)果一定不是一行的命令是()A)selectdistinct*fromorders;B)select*fromorderslimit1,2;C)selecttop1*fromorders;D)select*fromorderslimit1;[多選題]153.特征選擇在子集生成與搜索方面引入了人工智能搜索技術(shù)和子集評(píng)價(jià)方法。其中人工智能搜索技術(shù)有()。A)分支界限法B)浮動(dòng)搜索法C)信息熵D)AIC[多選題]154.以下不屬于浮點(diǎn)型的是()A)smallintB)mediumintC)floatD)int[多選題]155.數(shù)據(jù)冗余可能會(huì)引起的問題有()。--A)讀取異常B)更新異常C)插入異常D)刪除異常[多選題]156.大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原ODPS)中關(guān)于tunnel命令行工具的說法,正確的是:()。A)tunnel上傳到分區(qū)表時(shí),會(huì)把數(shù)據(jù)直接上傳到指定的分區(qū)中去,不保證業(yè)務(wù)邏輯B)tunnel命令上傳文件時(shí),不能進(jìn)行壓縮(注:通過-cp參數(shù)進(jìn)行壓縮)C)tunnel上傳的數(shù)據(jù)是先寫到臨時(shí)目錄,最后確定成功后才寫到結(jié)果目錄D)tunnel上傳過程中不加密,數(shù)據(jù)以明文方式在網(wǎng)絡(luò)中傳輸(注:通過https連接就是加密方式)[多選題]157.尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價(jià)值地總結(jié)出數(shù)據(jù)的某一特征的表示,這個(gè)過程包括了以下哪些步驟?()A)選擇一個(gè)算法過程使評(píng)分函數(shù)最優(yōu)B)決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C)決定要使用的表示的特征和結(jié)構(gòu)D)決定用什么樣的數(shù)據(jù)管理原則以高效地實(shí)現(xiàn)算法[多選題]158.HIS表色系的三屬性包含:()。A)色調(diào)B)色飽和度C)亮度D)色度[多選題]159.Hadoop組件的核心功能包括()A)分布式數(shù)據(jù)存儲(chǔ)B)分析C)挖掘D)分布式計(jì)算[多選題]160.()可以幫助解決訓(xùn)練集在特征空間中線性不可分的問題A)硬間隔B)軟間隔C)核函數(shù)D)拉格朗日乘子法[多選題]161.小王開發(fā)了一個(gè)MaxcomputeUDF,打成jar包之后,作為資源上傳到項(xiàng)目空間里,創(chuàng)建了對(duì)應(yīng)的函數(shù),但是在執(zhí)行的時(shí)候發(fā)現(xiàn)該jar包依賴的另一個(gè)jar包不存在,他應(yīng)該()才能正常使用。A)在使用jar命令調(diào)用的時(shí)候,在classpath參數(shù)中增加依賴jar包的路徑即可B)將依賴的jar包作為資源上傳到項(xiàng)目空間,在UDF的初始化函數(shù)setup中,使用readJarResource讀取jar包資源C)將依賴的jar包作為資源上傳到項(xiàng)目空間,同時(shí)在創(chuàng)建函數(shù)的時(shí)候(CREATEFUNCTION),using子句中增加依賴的包,如果多個(gè)包的話,用逗號(hào)分隔D)在對(duì)UDF打jar包的時(shí)候,把依賴的jar包包含進(jìn)去,統(tǒng)一打成一個(gè)包即可[多選題]162.根據(jù)《大數(shù)據(jù)風(fēng)控平臺(tái)項(xiàng)目操作手冊(cè)》,企業(yè)信用智能分析報(bào)告頁面分【企業(yè)信用智能分析報(bào)告(含征信)】、【企業(yè)信用智能分析報(bào)告】2個(gè)標(biāo)簽頁,分別對(duì)應(yīng)查詢的報(bào)告種類。每個(gè)標(biāo)簽頁的左上角都有()2個(gè)按鈕,分別支持查看實(shí)時(shí)報(bào)告和歷史報(bào)告。A)查詢實(shí)時(shí)報(bào)告B)查看盡調(diào)報(bào)告C)查看歷史報(bào)告D)盡職調(diào)查報(bào)告數(shù)據(jù)[多選題]163.重點(diǎn)開展?物理分布,邏輯統(tǒng)一?的新一代調(diào)度自動(dòng)化系統(tǒng)試點(diǎn)建設(shè),完成()等軟件開發(fā)、功能測(cè)試A)支撐平臺(tái)B)人機(jī)云終端C)核心應(yīng)用功能D)核心場(chǎng)景[多選題]164.Hadoop通過ResourceManager對(duì)集群資源進(jìn)行管理,它的主要功能有?A)集群資源調(diào)度B)應(yīng)用程序管理C)集群資源管理D)日志管理[多選題]165.(__)不屬于集中趨勢(shì)分析。A)數(shù)值平均數(shù)B)位置平均數(shù)C)離散系數(shù)D)正相關(guān)[多選題]166.以下()屬于線性分類器最佳準(zhǔn)則?A)感知準(zhǔn)則函數(shù)B)貝葉斯分類C)支持向量機(jī)D)Fisher準(zhǔn)則[多選題]167.下面關(guān)于k近鄰的表述中,正確的是(__)。A)當(dāng)k取不同值時(shí),分類結(jié)果會(huì)有顯著不同B)若采用不同的距離計(jì)算方式,則找出的?近鄰?可能有顯著差別C)k近鄰可用來對(duì)數(shù)據(jù)進(jìn)行分類D)k近鄰可用來對(duì)數(shù)據(jù)進(jìn)行回歸[多選題]168.泛在電力物聯(lián)網(wǎng),就是運(yùn)用新一代信息技術(shù),將()連接起來,通過信息廣泛交互和充分共享,以數(shù)字化管理大幅提高能源生產(chǎn)、能源消費(fèi)和相關(guān)裝備制造的安全水平、質(zhì)量水平、先進(jìn)水平、效益效率水平A)電力用戶及其設(shè)備B)電網(wǎng)企業(yè)及其設(shè)備C)發(fā)電企業(yè)及其設(shè)備D)電工裝備企業(yè)及其設(shè)備[多選題]169.Spark組件包含哪兩個(gè)算子()。A)MapB)ActionC)TransformationD)Reduce[多選題]170.YARN容量調(diào)度器的主要特點(diǎn)有哪些?A)容量保證B)動(dòng)態(tài)更新配置文件C)靈活性D)多重租賃[多選題]171.區(qū)塊鏈的三要素是:()A)交易B)區(qū)塊C)鏈D)比特幣[多選題]172.GraphBase能夠處理海量數(shù)據(jù)的原因是什么?A)圖機(jī)制特性B)基于HBase的分布式存儲(chǔ)機(jī)制C)基于Elasticsearch的索引機(jī)制D)基于Spark的分布式內(nèi)存計(jì)算技術(shù)[多選題]173.關(guān)于大數(shù)據(jù)的內(nèi)涵,以下理解正確的是()A)大數(shù)據(jù)還是一種思維方式和新的管理、治理路徑B)大數(shù)據(jù)里面蘊(yùn)藏著大知識(shí)、大智慧、大價(jià)值和大發(fā)展C)大數(shù)據(jù)在不同領(lǐng)域,又有不同的狀況D)大數(shù)據(jù)就是很大的數(shù)據(jù)[多選題]174.大數(shù)據(jù)處理分析技術(shù)主要包括哪幾種類型:()A)批處理計(jì)算B)流計(jì)算C)圖計(jì)算D)查詢分析計(jì)算[多選題]175.下列名稱中,哪些屬于同一種方法(__)。A)可重復(fù)采樣B)自助采樣C)有放回采樣D)順序采樣[多選題]176.OTSAPI中提供了()Action可以進(jìn)行多行數(shù)據(jù)操作。A)BachtGetRowB)GetRangeC)GetMultiRowD)BatchWriteRow[多選題]177.以下關(guān)于數(shù)據(jù)科學(xué)描述錯(cuò)誤的包括()。A)數(shù)據(jù)科學(xué)研究數(shù)據(jù)的差異性B)降低計(jì)算量是數(shù)據(jù)科學(xué)關(guān)心的問題C)數(shù)據(jù)科學(xué)不可以研究非結(jié)構(gòu)化數(shù)據(jù)D)數(shù)據(jù)科學(xué)不需要與其他學(xué)科結(jié)合在一起[多選題]178.下列關(guān)于降維方法的敘述正確的有()。A)主成分分析是一種常用的非線性降維方法B)核化線性降維是一種常用的線性降維方法C)流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D)度量學(xué)習(xí)繞過降維的過程,將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對(duì)距離度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)[多選題]179.在ADS中,兩個(gè)事實(shí)表進(jìn)行join的充要條件包括:()。A)張表的hash分區(qū)數(shù)必須一致B)兩個(gè)表在一個(gè)表組C)張表的joinkey至少有一列建立了hashmap索引D)兩個(gè)表的joinkey是hash分區(qū)列[多選題]180.下列場(chǎng)景適合使用Python的有()。A)可作為腳本語言,快速編寫小型程序、腳本等B)可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計(jì)算及可視化領(lǐng)域C)可作為膠水語言,整合如C++等語言代碼D)Python適用于低延時(shí)、高利用率的應(yīng)用場(chǎng)景[多選題]181.以下關(guān)于機(jī)器學(xué)習(xí)發(fā)展歷程說法正確的是()A)二十世紀(jì)五十年代到七十年代初,人工智能研究處于?推理期?B)二十世紀(jì)八十年代開始,人工智能研究進(jìn)入了?知識(shí)期?C)在六七十年代,基于邏輯表示的?符號(hào)主義?學(xué)習(xí)技術(shù)蓬勃發(fā)展D)1986年,第一本機(jī)器學(xué)習(xí)專業(yè)期刊創(chuàng)刊[多選題]182.下列選項(xiàng)中可以設(shè)置數(shù)據(jù)精度的是()。--A)INTB)FLOATC)DOUBLED)DECIMAL[多選題]183.大數(shù)據(jù)人才整體上需要具備()等核心知識(shí)。A)數(shù)學(xué)與統(tǒng)計(jì)知識(shí)B)計(jì)算機(jī)相關(guān)知識(shí)C)馬克思主義哲學(xué)知識(shí)D)市場(chǎng)運(yùn)營(yíng)管理知識(shí)[多選題]184.按照應(yīng)用類型,F(xiàn)link窗口可以劃分為以下哪幾種?A)事件窗口B)容量窗口C)滾動(dòng)窗口D)時(shí)間窗口[多選題]185.以下關(guān)于Kafkalogs中segmentfile的說法正確的是?A)通過索引信息可以快速定位messageB)稀疏存儲(chǔ),即將原來的完整數(shù)據(jù),只間隔的選擇多條進(jìn)行存儲(chǔ)C)是index元數(shù)據(jù)全部映射到memory,可以避免segmentfile的index數(shù)據(jù)IO磁盤操作D)索引文件稀疏存儲(chǔ),可以大幅度降低index文件元數(shù)據(jù)占用空間大小[多選題]186.下列屬于CNN關(guān)鍵層的是()A)輸入層B)卷積層C)激活層D)池化層[多選題]187.下列關(guān)于支持向量機(jī)的說法正確的是(__)。A)支持向量機(jī)的學(xué)習(xí)策略是間隔最大化B)支持向量機(jī)的基本模型是特征空間上間隔最大的線性分類器C)支持向量機(jī)只能對(duì)線性可分的樣本進(jìn)行分類D)傳統(tǒng)支持向量機(jī)只能求解二分類問題[多選題]188.以下()屬于數(shù)據(jù)模型。--A)層次模型B)網(wǎng)狀模型C)關(guān)系模型D)以上答案都不正確[多選題]189.從Hadoop實(shí)現(xiàn)角度看,HadoopMapReduce1.0主要由()組成。A)編程模型B)數(shù)據(jù)處理引擎C)運(yùn)行時(shí)環(huán)境D)算法庫[多選題]190.JupyterNotebook支持以下哪些語言A)CB)RC)PythonD)Java[多選題]191.下列關(guān)于臟數(shù)據(jù)的說法中,正確的是()A)格式不規(guī)范B)編碼不統(tǒng)一C)意義不明確D)與實(shí)際業(yè)務(wù)關(guān)系不大[多選題]192.華為FusionInsightHD行業(yè)成功案例都有哪些?A)數(shù)字政府B)智慧園區(qū)C)智慧交通D)金融[多選題]193.HBase讀寫用戶表數(shù)據(jù)時(shí)需要下列哪些角色參與?A)RegionServerB)HMasterC)ZooKeeperD)Region[多選題]194.下列關(guān)于嵌入式選擇描述錯(cuò)誤的是(__)。A)嵌入式選擇是將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,兩者在同一個(gè)優(yōu)化過程中完成B)從最終學(xué)習(xí)器性能來看,嵌入式特征選擇比過濾式特征選擇更好C)嵌入式特征選擇的計(jì)算開銷通常比過濾式特征選擇大得多D)嵌入式特征選擇方法直接針對(duì)給定學(xué)習(xí)器進(jìn)行優(yōu)化[多選題]195.()都屬于分裂的層次聚類算法A)二分K均值B)MSTC)ChameleonD)組平均[多選題]196.Hive執(zhí)行查詢的時(shí)候會(huì)調(diào)用哪些模塊?A)executorB)complierC)optimizerD)MetaStore[多選題]197.HBase的數(shù)據(jù)文件HFile中一個(gè)KeyValue格式包括哪些信息A)KeyB)ValueC)TimeStampD)KeyType[多選題]198.主要面向或關(guān)注"過去"的數(shù)據(jù)分析過程為()。A)描述性分析B)診斷性分析C)預(yù)測(cè)性分析D)規(guī)范性分析[多選題]199.數(shù)據(jù)故事化應(yīng)遵循的基本原則有()A)體驗(yàn)式講述原則B)個(gè)性化定制原則C)3C精神原則D)有效性利用原則[多選題]200.HBase的可視化Web界面可以查詢到()。A)表的信息B)Region信息C)Region起始RowKeyD)以上全不正確[多選題]201.下面屬于探索性分析主要關(guān)注的四大主題的有(__)。A)耐抗性B)方差C)重新表達(dá)D)啟示[多選題]202.下列關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系的說法正確的有()。A)基礎(chǔ)設(shè)施提供數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加工(DataWrangling或DataMunging)等服務(wù)B)數(shù)據(jù)流處理、統(tǒng)計(jì)工具、日志分析都屬于常用的開源工具C)數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機(jī)構(gòu)D)數(shù)據(jù)源與App為數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內(nèi)容[多選題]203.關(guān)于OLAP和OLTP的區(qū)別描述,正確的是:()A)OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同B)與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù)C)OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高D)OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對(duì)的用戶是相同的[多選題]204.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運(yùn)用()等技術(shù)等多個(gè)學(xué)科領(lǐng)域的知識(shí),以實(shí)現(xiàn)人機(jī)協(xié)同完成可視化任務(wù)為主要目的的分析推理學(xué)科。A)物理學(xué)B)圖形學(xué)C)數(shù)據(jù)挖掘D)人機(jī)交互[多選題]205.下面哪些是Spark的組件()。A)SparkStreamingB)MLibC)GraphXD)SparkR[多選題]206.聯(lián)機(jī)分析處理包括以下哪些基本分析功能?()A)聚類B)切片C)轉(zhuǎn)軸D)切塊E)分類第3部分:判斷題,共42題,請(qǐng)判斷題目是否正確。[判斷題]207.已知x為非空字符串,那么表達(dá)式','A)正確B)錯(cuò)誤[判斷題]208.語句x=(3,)執(zhí)行后x的值為3。A)正確B)錯(cuò)誤[判斷題]209.以讀寫方式打開一個(gè)文件,若文件已存在,文件內(nèi)容會(huì)被清空。()A)正確B)錯(cuò)誤[判斷題]210.Hive默認(rèn)不支持動(dòng)態(tài)分區(qū)功能,需要手動(dòng)設(shè)置動(dòng)態(tài)分區(qū)參數(shù)開啟功能。()A)正確B)錯(cuò)誤[判斷題]211.詞云圖無法區(qū)分?jǐn)?shù)值高低()A)正確B)錯(cuò)誤[判斷題]212.使用random模塊的函數(shù)randint(1,100)獲取隨機(jī)數(shù)時(shí),有可能會(huì)得到100。A)正確B)錯(cuò)誤[判斷題]213.刪除當(dāng)前正在打開的用戶時(shí),該用戶的會(huì)話會(huì)自動(dòng)關(guān)閉。--A)正確B)錯(cuò)誤[判斷題]214.兩個(gè)變量相關(guān),它們的相關(guān)系數(shù)r可能為0A)正確B)錯(cuò)誤[判斷題]215.NameNode本地磁盤保存了Block的位置信息。()A)正確B)錯(cuò)誤[判斷題]216.分類是有監(jiān)督的學(xué)習(xí)問題。A)正確B)錯(cuò)誤[判斷題]217.離線批處理,通常是指對(duì)海量數(shù)據(jù)進(jìn)分析和處理,形成結(jié)果數(shù)據(jù),供下一步數(shù)據(jù)應(yīng)用使用,離線處速對(duì)處理時(shí)間要求不高。A)正確B)錯(cuò)誤[判斷題]218.主機(jī)報(bào)表系統(tǒng)是為了減輕綜合業(yè)務(wù)系統(tǒng)壓力,提升核心系統(tǒng)運(yùn)行效率,主要報(bào)表系統(tǒng)從核心系統(tǒng)剝離80多張統(tǒng)計(jì)報(bào)表,通過主機(jī)報(bào)表系統(tǒng)進(jìn)行展現(xiàn),系統(tǒng)分固定報(bào)表和實(shí)時(shí)查詢報(bào)表,支持靈活多樣的實(shí)時(shí)打印和導(dǎo)出EXCEL功能A)正確B)錯(cuò)誤[判斷題]219.?云文件落地?工作流節(jié)點(diǎn)在落地文件時(shí)允許用戶設(shè)置落地文件的文件格式、壓縮類型、保存模式等參數(shù)。()A)正確B)錯(cuò)誤[判斷題]220.幵放數(shù)據(jù)處理服務(wù)(MaxCompute),適用于離線數(shù)據(jù)的處理、分析或挖堀,它同時(shí)提供存儲(chǔ)和計(jì)算兩種能力,支持SQL和編程(MapReduce框架)等多種使用方式。A)正確B)錯(cuò)誤[判斷題]221.元組可以作為字典的?鍵?。A)正確B)錯(cuò)誤[判斷題]222.在Spark中,累加器可以實(shí)現(xiàn)高速并行的計(jì)數(shù)器和變量求和;在Spark的應(yīng)用程序開發(fā)過程中,只有在Driver上獲取此計(jì)數(shù)器的值。A)正確B)錯(cuò)誤[判斷題]223.變量在程序的任意位置都可以被訪問。()A)正確B)錯(cuò)誤[判斷題]224.s=pdA)正確B)錯(cuò)誤[判斷題]225.正則表達(dá)式'^\d{18}|\d{15}$'只能檢查給定字符串是否為18位或15位數(shù)字字符,并不能保證一定是合法的身份證號(hào)。A)正確B)錯(cuò)誤[判斷題]226.數(shù)據(jù)中臺(tái)匯聚數(shù)據(jù)類型包括結(jié)構(gòu)化、非結(jié)構(gòu)化、采集量測(cè)。A)正確B)錯(cuò)誤[判斷題]227.在異常處理結(jié)構(gòu)中,不論是否發(fā)生異常,finally子句中的代碼總是會(huì)執(zhí)行的。A)正確B)錯(cuò)誤[判斷題]228.假如現(xiàn)在有個(gè)神經(jīng)網(wǎng)絡(luò),激活函數(shù)是ReLU,若使用線性激活函數(shù)代替ReLU,該神經(jīng)網(wǎng)絡(luò)能表征XNOR函數(shù)A)正確B)錯(cuò)誤[判斷題]229.Kafka中的Broker在收到新消息后會(huì)立即存入磁盤。A)正確B)錯(cuò)誤[判斷題]230.物聯(lián)網(wǎng)的處理技術(shù)應(yīng)用于農(nóng)業(yè)上,可以對(duì)動(dòng)物疾病、植物病蟲害,通過傳感器進(jìn)行遠(yuǎn)程診斷。A)正確B)錯(cuò)誤[判斷題]231.城市的智能交通管理可以結(jié)合交通實(shí)時(shí)數(shù)據(jù),預(yù)測(cè)未來一段時(shí)間內(nèi)道路可能出現(xiàn)的交通狀況,這體現(xiàn)了效率而非精準(zhǔn)的大數(shù)據(jù)思維A)正確B)錯(cuò)誤[判斷題]232.在IDLE交互模式下,一個(gè)下劃線?_?表示解釋器中最后一次顯示的內(nèi)容或最后一次語句正確執(zhí)行的輸出結(jié)果A)正確B)錯(cuò)誤[判斷題]233.互聯(lián)網(wǎng)金融是傳統(tǒng)行業(yè)與互聯(lián)網(wǎng)相結(jié)合的新興領(lǐng)域,其區(qū)別僅在于金融業(yè)務(wù)所采用的媒介不同。A)正確B)錯(cuò)誤[判斷題]234.與傳統(tǒng)產(chǎn)業(yè)相比,互聯(lián)網(wǎng)產(chǎn)業(yè)創(chuàng)業(yè)成本較低A)正確B)錯(cuò)誤[判斷題]235.HBase中如果只需要保存最新版本的數(shù)據(jù),可以設(shè)置最大版本數(shù)為1。A)正確B)錯(cuò)誤[判斷題]236.本福特定律放在所有數(shù)據(jù)集上都有效A)正確B)錯(cuò)誤[判斷題]237.Python列表、元組、字符串都屬于有序序列。A)正確B)錯(cuò)誤[判斷題]238.數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項(xiàng)目的最終產(chǎn)品,而且也包括其中間產(chǎn)品以及副產(chǎn)品。()A)正確B)錯(cuò)誤[判斷題]239.為解決通過DB數(shù)據(jù)記錄采集適配器采集元數(shù)據(jù),通過DB數(shù)據(jù)采集配置將DB記錄中記錄與元模型進(jìn)行映射。A)正確B)錯(cuò)誤[判斷題]240.代碼print(reA)正確B)錯(cuò)誤[判斷題]241.Python集合可以包含相同的元素。A)正確B)錯(cuò)誤[判斷題]242.表達(dá)式3or5的值為3。A)正確B)錯(cuò)誤[判斷題]243.Oracle是非關(guān)系型數(shù)據(jù)庫的一種。()A)正確B)錯(cuò)誤[判斷題]244.已知A和B是兩個(gè)集合,并且表達(dá)式A<B的值為False,那么表達(dá)式A>B的值一定為True。A)正確B)錯(cuò)誤[判斷題]245.數(shù)據(jù)分析針對(duì)海量數(shù)據(jù)可以采取隨機(jī)算法、分布式計(jì)算來解決。A)正確B)錯(cuò)誤[判斷題]246.運(yùn)營(yíng)商在智慧交通涉及到的數(shù)據(jù)源主要有信令數(shù)據(jù)、基站工參等。A)正確B)錯(cuò)誤[判斷題]247.使用print()函數(shù)無法將信息寫入文件。A)正確B)錯(cuò)誤[判斷題]248.在循環(huán)語句中,continue語句的作用是提前進(jìn)入下一次循環(huán)。A)正確B)錯(cuò)誤第4部分:?jiǎn)柎痤},共11題,請(qǐng)?jiān)诳瞻滋幪顚懻_答案。[問答題]249.利用python語言編寫程序,實(shí)現(xiàn)整數(shù)求和。輸入整數(shù)n,計(jì)算1~n之和[問答題]250.HBase中Scan查詢結(jié)果的多行數(shù)據(jù)保存在()對(duì)象中,每行數(shù)據(jù)以Result對(duì)象形式存儲(chǔ)。[問答題]251.文件系統(tǒng)對(duì)象FileSystem提供的方法()用于從HDFS復(fù)制文件到本地磁盤。[問答題]252.HBase建表時(shí)預(yù)先設(shè)置多個(gè)Region,數(shù)據(jù)會(huì)按照()對(duì)應(yīng)Region分區(qū)情況,在集群內(nèi)做數(shù)據(jù)的負(fù)載均衡。[問答題]253.表達(dá)式{40,50,60}|{40,60,70}的值為____。[問答題]254.?jps?命令的用處?[問答題]255.Kafka所有消息都會(huì)被持久化到硬盤中,同時(shí)Kafka通過對(duì)TopicPartition設(shè)置Replication來保障數(shù)據(jù)可靠A)TRUEB)FALSE[問答題]256.下圖展示了文件A,B,C的存放位置。其中文件A和D具有關(guān)聯(lián)性,它們的存儲(chǔ)位置符合Colocation同分布策略A)TRUEB)FALSE[問答題]257.Pandas常用的數(shù)據(jù)結(jié)構(gòu)有【】和【】。[問答題]258.已知列表data=[1,2,3,4],那么data[2:100]的值為____。[問答題]259.Topology的處理邏輯都在Bolt中A)TRUEB)FALSE[單選題]260.線性判別分析在二分類問題上也稱為()。A)線性回歸B)對(duì)數(shù)幾率回歸C)Fisher判別分析D)主成分分析1.答案:C解析:2.答案:D解析:3.答案:B解析:4.答案:D解析:5.答案:A解析:6.答案:C解析:7.答案:D解析:8.答案:A解析:9.答案:C解析:10.答案:A解析:11.答案:B解析:12.答案:D解析:13.答案:D解析:14.答案:B解析:15.答案:B解析:16.答案:A解析:17.答案:C解析:18.答案:C解析:19.答案:C解析:Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺(tái)上打開顯示相同,Excel存儲(chǔ)數(shù)據(jù)的量在Excel2007及以后版本,一個(gè)工作表最多可有1048576行、16384列。20.答案:B解析:21.答案:B解析:22.答案:D解析:23.答案:B解析:24.答案:A解析:25.答案:B解析:26.答案:D解析:27.答案:A解析:28.答案:D解析:29.答案:D解析:30.答案:B解析:31.答案:B解析:32.答案:B解析:33.答案:D解析:34.答案:A解析:35.答案:C解析:36.答案:B解析:37.答案:C解析:38.答案:B解析:其他三項(xiàng)是公有的。layoutVersion是一個(gè)負(fù)整數(shù),保存了HDFS的持續(xù)化在硬盤上的數(shù)據(jù)結(jié)構(gòu)的格式版本號(hào);namespaceID是文件系統(tǒng)的唯一標(biāo)識(shí)符,是在文件系統(tǒng)初次格式化時(shí)生成的;storageType表示此文件夾中保存的是數(shù)據(jù)節(jié)點(diǎn)的類型39.答案:D解析:40.答案:A解析:41.答案:C解析:42.答案:A解析:43.答案:C解析:44.答案:A解析:45.答案:C解析:np.split()的作用是把一個(gè)數(shù)組從左到右按順序切分。46.答案:C解析:47.答案:D解析:48.答案:D解析:記住即可49.答案:B解析:50.答案:A解析:降維過程中盡量保留原始數(shù)據(jù)的信息,但不能保留原始數(shù)據(jù)的全部信息。51.答案:B解析:52.答案:B解析:53.答案:D解析:54.答案:B解析:55.答案:D解析:56.答案:A解析:57.答案:B解析:58.答案:B解析:59.答案:B解析:60.答案:C解析:61.答案:D解析:Apdori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的算法。62.答案:A解析:63.答案:C解析:64.答案:C解析:65.答案:C解析:數(shù)據(jù)分組不可以使用mean函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。66.答案:C解析:67.答案:A解析:(32+0-5)/1+1=28。68.答案:D解析:69.答案:D解析:70.答案:C解析:71.答案:B解析:在MapTask的Combine階段,當(dāng)處理完所有數(shù)據(jù)時(shí),MapTask會(huì)對(duì)所有的臨時(shí)文件進(jìn)行一次合并操作,以確保最終只會(huì)生成一個(gè)數(shù)據(jù)文件72.答案:B解析:A.MartinFowler【敏捷開發(fā)方法論-軟件開發(fā)教父】B.Dougcutting【Hadoop作者,道格·卡廷】C.KentBeck【極限編程,測(cè)試驅(qū)動(dòng)開發(fā),實(shí)現(xiàn)模式】D.GraceHopper【Cobol語言之母,發(fā)明世界上第一個(gè)編譯器】73.答案:C解析:二項(xiàng)分布即重復(fù)n次的伯努利試驗(yàn)。如果事件發(fā)生的概率是p,則不發(fā)生的概率q=1-p.則期望為np,方差為npq。74.答案:B解析:75.答案:A解析:該列表推導(dǎo)式意為在0~4中偶數(shù)不變,奇數(shù)乘10,因此A正確。76.答案:A解析:77.答案:D解析:78.答案:C解析:類別不均衡的情況下,不能用準(zhǔn)確率做分類評(píng)估指標(biāo),因?yàn)槿袛酁椴粫?huì)點(diǎn),準(zhǔn)確率也是99%,此時(shí)分類器一點(diǎn)用都沒有。79.答案:A解析:80.答案:C解析:81.答案:D解析:82.答案:A解析:83.答案:B解析:84.答案:D解析:85.答案:D解析:86.答案:A解析:left是文本轉(zhuǎn)換器,從字符串的左邊截取特定長(zhǎng)度的字串;datelnc是時(shí)期型轉(zhuǎn)換器,對(duì)系統(tǒng)時(shí)間增加/減少特定單位。87.答案:C解析:88.答案:D解析:89.答案:C解析:90.答案:A解析:91.答案:D解析:92.答案:C解析:93.答案:B解析:94.答案:D解析:95.答案:A解析:96.答案:D解析:97.答案:A解析:98.答案:C解析:99.答案:C解析:100.答案:A解析:數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,降低數(shù)據(jù)的失用、失信和失控的風(fēng)險(xiǎn)。刻畫數(shù)據(jù)連續(xù)性的特點(diǎn)描述如下:①可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是不同數(shù)據(jù)對(duì)象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的"失用"風(fēng)險(xiǎn)。②可溯源性是在時(shí)間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個(gè)數(shù)據(jù)對(duì)象的歷史版本之間的連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理、可信度評(píng)估以及預(yù)測(cè)分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)的"失信"風(fēng)險(xiǎn)。③可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)與其產(chǎn)生、管理和維護(hù)的主體(包括人與計(jì)算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)據(jù)可理解性的意義在于降低數(shù)據(jù)的"失控"風(fēng)險(xiǎn)。101.答案:B解析:K-Means算法是基于距離測(cè)量的,無法聚非凸形狀的樣本。102.答案:D解析:103.答案:D解析:104.答案:B解析:105.答案:A解析:106.答案:A解析:107.答案:C解析:108.答案:C解析:109.答案:D解析:110.答案:C解析:Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的思維變革:①不是隨機(jī)樣本,而是全體數(shù)據(jù);大數(shù)據(jù)時(shí)代應(yīng)遵循"樣本=總體"的理念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。②不是精確性,而是混雜性;大數(shù)據(jù)時(shí)代應(yīng)承認(rèn)數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。③不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時(shí)代的思想方式應(yīng)轉(zhuǎn)變--不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。111.答案:B解析:112.答案:D解析:113.答案:C解析:114.答案:A解析:115.答案:C解析:116.答案:C解析:117.答案:A解析:118

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論