大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷17)_第1頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷17)_第2頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷17)_第3頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷17)_第4頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷17)_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

試卷科目:大數(shù)據(jù)開發(fā)基礎(chǔ)大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷17)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎(chǔ)第1部分:單項選擇題,共145題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.Spark中Job的劃分是依據(jù)()。A)依賴B)Action算子C)Transformation算子[單選題]2.()一般采用圖表或數(shù)學(xué)方法描述數(shù)據(jù)的統(tǒng)計特征,如分布狀態(tài)、數(shù)值特征等。A)推斷統(tǒng)計B)預(yù)測分析C)描述統(tǒng)計D)診斷分析[單選題]3.以下方法中,更適用于處理序列數(shù)據(jù)的有()。A)卷積神經(jīng)網(wǎng)絡(luò)B)全連接神經(jīng)網(wǎng)絡(luò)C)BP神經(jīng)網(wǎng)絡(luò)D)循環(huán)神經(jīng)網(wǎng)絡(luò)[單選題]4.關(guān)于GaussDB200的數(shù)據(jù)導(dǎo)入導(dǎo)出下列說法正確的是()?A)GDs在數(shù)據(jù)導(dǎo)入時可以做預(yù)處理,比如非法字符詟換密錯處理教據(jù)聚合等。B)COPY方式使用簡單,一般用在大量數(shù)據(jù)的導(dǎo)入導(dǎo)出中。C)INSERT數(shù)據(jù)寫入適合數(shù)據(jù)量不大,并發(fā)度不高的場景D)使用gsq元命令和cOPY命令在使用和用法上是樣的。[單選題]5.最簡單的Series是由()的數(shù)據(jù)構(gòu)成A)一個數(shù)組B)兩個數(shù)組C)三個數(shù)組D)以上都不是[單選題]6.相對于HadoopMapReduce1.0,Spark的特點(diǎn)不包括()。A)速度快B)并發(fā)多C)通用性D)易用性[單選題]7.如果字符串中有*需要匹配,需要輸入的正則表達(dá)式為()。A)\*B)\\*C)*D)(*)[單選題]8.()是指理解挖掘項目的目標(biāo)業(yè)務(wù)需求。A)業(yè)務(wù)理解B)數(shù)據(jù)理解C)數(shù)據(jù)準(zhǔn)備D)數(shù)據(jù)建模[單選題]9.Spark中引入RDD概念的目的是()。A)數(shù)據(jù)存儲B)數(shù)據(jù)查重C)提升容錯能力D)增強(qiáng)數(shù)據(jù)一致性[單選題]10.關(guān)于面向過程和面向?qū)ο?,下列說法錯誤的是()。A)面向過程和面向?qū)ο蠖际墙鉀Q問題的一種思路B)面向過程是基于面向?qū)ο蟮腃)面向過程強(qiáng)調(diào)的是解決問題的步驟D)面向?qū)ο髲?qiáng)調(diào)的是解決問題的對象[單選題]11.下面屬于流計算技術(shù)的是:()A)SparkB)GraphXC)S4D)Hive[單選題]12.各業(yè)務(wù)部門、各單位要按照《國家電網(wǎng)公司保護(hù)商業(yè)秘密規(guī)定》要求,結(jié)合本專業(yè)大數(shù)據(jù)應(yīng)用以及專業(yè)領(lǐng)域需要重點(diǎn)保護(hù)的數(shù)據(jù),認(rèn)真分析梳理重要數(shù)據(jù),其工作內(nèi)容不包括()。A)明確保護(hù)對象B)建立數(shù)據(jù)資源目錄C)考慮和識別海量大數(shù)據(jù)在挖掘、計算、分析后的重要性和保護(hù)要求D)確保足夠的存儲空間[單選題]13.大數(shù)據(jù)時代()A)不允許不精確的數(shù)據(jù)B)允許不精確的數(shù)據(jù)C)為精確可以犧牲效率D)只要因果數(shù)據(jù)[單選題]14.HDfS中的block默認(rèn)保存幾份?A)3份B)2份C)1份D)不確定[單選題]15.以下哪個是國網(wǎng)營銷部的職責(zé)()A)負(fù)責(zé)泛在電力物聯(lián)網(wǎng)組織優(yōu)化診斷B)負(fù)責(zé)開展商業(yè)模式的創(chuàng)新研究C)統(tǒng)一組織項目管控和架構(gòu)管控D)組織審核各單位泛在電力物聯(lián)網(wǎng)建設(shè)方案[單選題]16.SDK是消費(fèi)者在調(diào)用API時,需要在請求Header頭中添加身份認(rèn)證信息,而這個操作比較繁瑣,故我們?yōu)槭褂谜咛峁┝薙DK,簡化用戶操作。目前華為SDK支持:()種語言的支持。A)7B)8C)9D)10[單選題]17.為了返回組中所有值的和,應(yīng)使用的聚合函數(shù)為()A)AVGB)SUMC)COUNTD)DISTINCT[單選題]18.下列關(guān)于批量數(shù)據(jù)遷移系統(tǒng)級限制和約束的說法錯誤的是:()。A)批量數(shù)據(jù)遷移系統(tǒng)不會自動備份用戶的作業(yè)配置,需要用戶通過作業(yè)的導(dǎo)出功能進(jìn)行備份。B)集群創(chuàng)建好以后支持修改規(guī)格。C)文件遷移時,單個任務(wù)支持千萬數(shù)量的文件,如果待遷移目錄下文件過多,建議拆分到不同目錄并創(chuàng)建多個任務(wù)。D)不支持集群自動升級到新版本,需要用戶通過作業(yè)的導(dǎo)出和導(dǎo)入功能,實現(xiàn)升級到新版本。[單選題]19.在著名管理學(xué)家Thomas.H.Davernport在《哈佛商業(yè)論壇》上發(fā)表的題為《第蘭代分析學(xué)(Analytics3.0)}的經(jīng)典論文中,Analytics3.0時代是指()。A)商務(wù)智能時代B)唱大數(shù)據(jù)時代C)數(shù)據(jù)富足供給時代D)數(shù)據(jù)智能時代[單選題]20.檢測一元正態(tài)分布中的離群點(diǎn),屬于異常檢測中的基于()的離群點(diǎn)檢測。A)統(tǒng)計方法B)鄰近度C)密度D)機(jī)器學(xué)習(xí)技術(shù)[單選題]21.和RDBMS相比,ApacheHadoop:()A)具有更高的數(shù)據(jù)完整性B)支持ACID事物C)適合多次讀寫D)對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)支持更好[單選題]22.大數(shù)據(jù)作為一種數(shù)據(jù)集合,它的含義不包括A)數(shù)據(jù)很大B)很有價值C)構(gòu)成復(fù)雜D)變化很快[單選題]23.列哪一個命令可以清空Redis實例下所有數(shù)據(jù)庫的資料?A)FlushdbB)DropdbC)FlushallD)Dropall[單選題]24.下列是正確的變量名的是()A)ifB)elseC)inputD)IF[單選題]25.numpy對數(shù)組進(jìn)行排序用什么函數(shù)?A)np.sqrt()B)np.eye()C)np.identity()D)np.sort()[單選題]26.回歸分析的任務(wù),就是根據(jù)()和因變量的觀察值,估計這個函數(shù),并討論與之有關(guān)的種種統(tǒng)計推斷的問題。A)相關(guān)變量B)樣本C)已知數(shù)據(jù)D)自變量[單選題]27.下列不屬于專家系統(tǒng)的解釋功能的主要作用是()。A)對用戶說明為什么得到這個結(jié)論B)對用戶說明如何得到這個結(jié)論C)提高專家系統(tǒng)的信賴程度D)對用戶說明專家系統(tǒng)的知識結(jié)構(gòu)[單選題]28.以下描述中不正確的是(___)。A)整個數(shù)據(jù)集可以稱作一個樣本B)樣本不可以是單個示例C)一個樣本可以稱為一個?特征向量?D)樣本中反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項,可以稱為?特征?[單選題]29.下面對LSM結(jié)構(gòu)描述正確的是?()A)順序存儲B)直接寫硬盤C)需要將數(shù)據(jù)Flush到磁盤D)是一種搜索平衡樹[單選題]30.為了應(yīng)對大數(shù)據(jù)時代的信息安全問題,下列措施中不恰當(dāng)?shù)淖龇ㄊ牵ǎ?。A)遵循歷史經(jīng)驗B)事前主動預(yù)防C)事中即時應(yīng)對D)事后總結(jié)改進(jìn)[單選題]31.HDFS讀取文件時用的是哪一個read方法?A)DataInputStreamB)FSDataInputStreamC)DataOutputStreamD)FSDataOutputStream[單選題]32.下列關(guān)于圖像中的噪聲特性的說法錯誤的是()。A)具有隨機(jī)性B)具有規(guī)律性C)具有疊加性D)具有不可預(yù)測性[單選題]33.創(chuàng)建一個HDFS客戶端對象時,Configuration實例會自動加載HDFS的配置文件(),從中獲取Hadoop集群的配置信息。A)hadoop-default.xmlB)hadoop-env.shC)hadoop-site.xmlD)core-site.xml[單選題]34.執(zhí)行"abcdef"[-1:]語句時輸出是()。A)aB)abcdeC)bcdefD)f[單選題]35.?最為成功的商業(yè)運(yùn)作模式是價格最低的資源將會被盡可能的消耗,以此來保存最昂貴的資源?,這是下列哪個定律的內(nèi)涵?()A)牛頓定律B)麥特卡爾夫定律C)摩爾定律D)吉爾德定律[單選題]36.假設(shè)我們使用原始的非線性可分版本的Soft-SVM優(yōu)化目標(biāo)函數(shù)。我們可通過()來保證得到的模型是線性可分離的。A)C=0B)C=1C)C正無窮大D)C負(fù)無窮大[單選題]37.在數(shù)據(jù)管理技術(shù)的發(fā)展過程中,經(jīng)歷了人工管理階段、文件系統(tǒng)階段和數(shù)據(jù)庫系統(tǒng)階段。在這幾個階段,數(shù)據(jù)獨(dú)立性最高的是()階段A)數(shù)據(jù)庫系統(tǒng)B)文件系統(tǒng)C)人工管理D)數(shù)據(jù)項管理[單選題]38.大數(shù)據(jù)服務(wù)(MaxCompute,原ODPS)中客戶表customer是一張非分區(qū)表,現(xiàn)在想要清空表的內(nèi)容然后重新上傳數(shù)據(jù),可以通過:()。A)insertoverwritetablecustomerselect*fromcustomer;B)deletefromcustomer;C)truncatetablecustomer;D)droptablecustomer;[單選題]39.當(dāng)原始數(shù)據(jù)的存在形式不符合目標(biāo)算法的要求時,需要對原始數(shù)據(jù)進(jìn)行(__)。A)數(shù)據(jù)變換B)數(shù)據(jù)加工C)數(shù)據(jù)清洗D)數(shù)據(jù)集成[單選題]40.RDD的()算子會會觸發(fā)執(zhí)行,向Spark引擎提交,生成一個job,并返回相應(yīng)的結(jié)果。A)創(chuàng)建B)轉(zhuǎn)換C)控制D)執(zhí)行[單選題]41.本行數(shù)據(jù)治理歸口管理部門為()A)風(fēng)險管理部B)內(nèi)審監(jiān)督部C)科技部D)數(shù)據(jù)運(yùn)管部[單選題]42.調(diào)用以下函數(shù)返回的值()defmyfun():passA)0B)出錯不能運(yùn)行C)空字符串D)None[單選題]43.下列代碼的作用是?StringgraphName="graphbase;Api.createGraph(graphName);A)刪除圖B)獲得圖C)修改圖D)創(chuàng)建圖[單選題]44.()不是HDFS的守護(hù)進(jìn)程。A)SecondaryNameNodeB)DataNodeC)MRAppMaster/YarnChildD)NameNode[單選題]45.下面哪種部署方式不是Spark集群部署方式()A)standaloneB)sparkonmesosC)sparkonYARND)Sparkonlocal[單選題]46.關(guān)系云的一個重要功能是提供()。A)數(shù)據(jù)庫即服務(wù)B)虛擬服務(wù)C)彈性計算D)按需服務(wù)[單選題]47.python語句print(type((1,2,3,4)))的輸出結(jié)果是。()A)class?tuple?B)class?dict?C)class?set?D)class?list?[單選題]48.下列操作不屬于Numpy對數(shù)組得操作范疇的是?A)索引和切片B)拼接和分割C)數(shù)組的添加、刪除和去重D)數(shù)組中數(shù)據(jù)的壓縮[單選題]49.在Hadoop中,下面哪個是默認(rèn)的InputFormat類型,它將每行內(nèi)容作為新值,而將字節(jié)偏移量作為key()A)FileInputFormatB)TextInputFormatC)KeyValueTextInputFormatD)CombineTextInputFormat[單選題]50.下列哪種函式參數(shù)定義不合法()。A)defmyfunc(args):B)defmyfunc(arg1=1):C)defmyfunc(args,a=1):D)defmyfunc(a=1,args):[單選題]51.下列選項中,關(guān)于HBase特性描述不正確的一項是()。A)高可靠性B)高性能C)面向行D)可伸縮[單選題]52.傳統(tǒng)RNN有什么特別大的弊端?A)無法進(jìn)行長久記憶B)精度太低C)速度太慢D)效果太差[單選題]53.以下關(guān)于數(shù)據(jù)倉庫的敘述中,正確的是()A)數(shù)據(jù)倉庫主要用于支持決策管理B)數(shù)據(jù)倉庫的數(shù)據(jù)源相對比較單一C)存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般是實時更新的D)數(shù)據(jù)倉庫為企業(yè)的特定應(yīng)用服務(wù)、強(qiáng)調(diào)處理的響應(yīng)時間,數(shù)據(jù)的安全性和完整性等[單選題]54.關(guān)于缺失值填補(bǔ),不正確的說法是()。A)填補(bǔ)數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B)Pandas.dropna可以用來填補(bǔ)缺失值C)用平均值填補(bǔ)會引入相關(guān)性D)啞變量填補(bǔ)是將缺失值當(dāng)做一類新特征處理[單選題]55.啟動HBase需先在hbase/conf/目錄下修改的配置文件是()A)hbase-env.shB)hbase-conf.shC)hbase-cmd.shD)hbase-file.sh[單選題]56.定義域為{1,2,3}的離散屬性也可稱為稱為(__)。A)無序?qū)傩訠)有序?qū)傩訡)連續(xù)屬性D)離散屬性[單選題]57.Spark的Stage的Task的數(shù)量由()決定。A)PartitionB)JobC)StageD)TaskScheduler[單選題]58.以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)()(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。(b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A)Precision,RecallB)Recall,PrecisionC)Precision,ROCD)Recall,ROC[單選題]59.TaskScheduler是以()為單元來調(diào)度任務(wù)。A)TaskSetB)TaskSetManagerC)ExecutorD)Stage[單選題]60.假設(shè)要計算洞庭湖的銀魚數(shù)量,現(xiàn)均勻投入其中10000條帶標(biāo)記的銀魚,一段時間后捕撈10000條魚,通過其中帶標(biāo)記的魚的數(shù)量來預(yù)估洞庭湖中銀魚的數(shù)量。這個例子體現(xiàn)的思想是()A)全樣的思想B)抽樣的思想C)精確的思想D)因果的思想[單選題]61.圖像平滑從信號處理的角度看就是去除其中的(__)。A)高頻信息B)低頻信息C)噪聲D)亮度信息[單選題]62.以下不屬于數(shù)據(jù)倉庫的特性是()A)面向主題B)集成的C)跨平臺性D)非易失[單選題]63.在網(wǎng)絡(luò)日志數(shù)據(jù)分析場景中,日志服務(wù)器通過1og4將數(shù)據(jù)傳給(),()會對數(shù)據(jù)進(jìn)行簡單的處理過濾,然后將數(shù)據(jù)按照日期存儲到()上。A)Flume.Flume.HDFSB)HDFS、Flume、FlumeC)Spark.Sgoop.FlumeD)Hive、Flume、Loader[單選題]64.在HBase的專用過濾器中,首次行鍵過濾器是()A)FirstKeyComparatorFilterB)FirstKeyHBaseFilterC)FirstKeyFilterD)FirstKeyOnlyFilter[單選題]65.已知x與y的關(guān)系如下表所示:表1x與y的關(guān)系xyx<0x1x=0xx>0x+1以下選項中,可以正確地表達(dá)x與y之間關(guān)系的是()A)y=x+1ifx>=0:ifx==0:y=xelse:y=x-1B)y=x-1ifx!=0:ifx>0:y=x+1else:y=xC)ifx<=0:ifx<0:y=x-1else:y=xelse:y=x+1D)y=xifx<=0:ifx<0:y=x-1else:y=x+1[單選題]66.在面積圖中,面積是指()A)坐標(biāo)系中不同的點(diǎn)圍成的最大圖形面積B)坐標(biāo)系中不同的點(diǎn)所連成的折現(xiàn)投影于縱軸的面積C)坐標(biāo)系中不同的點(diǎn)所連成的折現(xiàn)投影于橫軸的面積D)坐標(biāo)系中不同的點(diǎn)圍成的最小圖形面積[單選題]67.以下哪項是非結(jié)構(gòu)化數(shù)據(jù)()A)用戶投訴語音數(shù)據(jù)B)用戶評論文本C)用戶話單數(shù)據(jù)D)發(fā)票掃描件[單選題]68.下面不屬于數(shù)據(jù)科學(xué)平臺的有(__)。A)dataikuB)endorC)knimeD)alpine[單選題]69.Python用于異常處理結(jié)構(gòu)中捕獲特定類型的異常的保留字是()。A)exceptB)doC)passD)while[單選題]70.scipy中模塊integrate的作用是什么?A)程序輸入輸出B)差值計算C)計算積分D)向量計算[單選題]71.現(xiàn)實中往往會遇到?不完整?的訓(xùn)練樣本,在這種存在屬性變量值未知的情形下,可用(__)。A)邊際似然B)EM算法C)貝葉斯決策D)貝葉斯分類器[單選題]72.下列哪一項關(guān)于極大似然估計(MLE)的說法是正確的?1.MLE并不總是存在2.MLE一直存在3.如果MLE存在,它可能不特異4.如果MLE存在,它一定是特異的A)1和4B)2和3C)1和3D)2和4[單選題]73.對于一組數(shù)據(jù)(1,2,2,NAN,4),若采用眾數(shù)法補(bǔ)全缺省值,則NAN該補(bǔ)為()。A)1B)1.8C)4D)2[單選題]74.根據(jù)電信客戶的特征對客戶進(jìn)行打標(biāo)分類主要用到()算法A)分類B)聚類C)降維D)回歸[單選題]75.關(guān)于KNN說法錯誤的是()A)、為尋找k個最近的鄰居B)、當(dāng)一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)都屬于某一個類別時,該29樣本也屬于這個類別,并具有這個類別上樣本的特性。C)、該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分類樣本所屬的類別。D)、KNN算法主要靠判別類域的方法來確定所屬類別。[單選題]76.SLIC算法的主要目的是()。A)目標(biāo)識別B)前景和背景分離C)超像素提取D)語義分割[單選題]77.plt.legend()函數(shù)可以在途中添加(__)。A)曲線B)坐標(biāo)軸C)標(biāo)題D)圖例[單選題]78.將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為()。A)編輯器B)編譯器C)虛擬機(jī)D)解釋器[單選題]79.下列對于等距離散化和等頻離散化的敘述中,不正確的是()。A)等距離散化是將連續(xù)型特征的取值區(qū)間均勻地劃分成多個區(qū)間段B)等距離散化對數(shù)據(jù)離群值不敏感C)等頻離散化考慮了區(qū)間段中的樣本個數(shù),使每個區(qū)間段的樣本數(shù)相同D)等頻離散化會將相似的樣本劃分到不同的區(qū)間[單選題]80.已知一個數(shù)據(jù)集,n為特征數(shù),m為訓(xùn)練樣本數(shù),如果n較小,而且m大小中等(例如n為1-1000,而m為10-10000),則一般選擇()A)邏輯回歸模型B)不帶桔的支持向量機(jī)C)高斯拉的支持向量機(jī)D)多項式桔的支持向量機(jī)[單選題]81.數(shù)據(jù)轉(zhuǎn)換器中數(shù)值類型的使用用途正確的是()A)Calculation對應(yīng)用途為四則運(yùn)算B)Abs對應(yīng)用途為定義一個常量,可以是不同類型C)Constant對應(yīng)用途為返回大于或等于指定數(shù)值表達(dá)式的最小整數(shù)D)Ceiling對應(yīng)用途為絕對值[單選題]82.進(jìn)行主成分分析的前提條件是各變量間()。A)高度相關(guān)B)低度相關(guān)C)相互獨(dú)立D)完全相關(guān)[單選題]83.銳化(高通)濾波器的作用()。A)能消減或削弱傅里葉空間的低頻分量,但不影響高頻分量B)能消減或削弱傅里葉空間的高頻分量,但不影響低頻分量C)對傅里葉空間的低、高頻分量均有削弱或消除作用D)對傅里葉空間的低、高頻分量均有增強(qiáng)作用[單選題]84.LSTM中門的輸出是()之間的實數(shù)向量。A)0到1B)1到-1C)0到-1D)1到2[單選題]85.下面對范數(shù)規(guī)則化描述錯誤的是(__)。A)L0是指向量中0的元素的個數(shù)B)L1范數(shù)是指向量中各個元素絕對值之和C)L2范數(shù)向量元素絕對值的平方和再開平方D)L0是指向量中非0的元素的個數(shù)[單選題]86.?冬天麥蓋三層被,來年枕著饅頭睡。?--新人教版小學(xué)語文《第一場雪》?關(guān)于這段民俗民諺中體現(xiàn)的是:A)相關(guān)性背后有一定的因果性B)能被直接觀測到的才是因果性C)相關(guān)性就是因果性D)相關(guān)性與因果性完全無關(guān)[單選題]87.在一個n維的空間中,最好的檢測outlier(離群點(diǎn))的方法是:A)作正態(tài)分布概率圖B)作盒形圖C)馬氏距離D)作散點(diǎn)圖[單選題]88.離散程度的測度值愈大,則()。A)映變量值愈分散,算術(shù)平均數(shù)代表性愈差B)映變量值愈集中,算術(shù)平均數(shù)代表性愈差C)映變量值愈分散,算術(shù)平均數(shù)代表性愈好D)映變量值愈集中,算術(shù)平均數(shù)代表性愈好[單選題]89.Sparkjob默認(rèn)的調(diào)度模式是()A)FIFOB)FAIRC)無D)運(yùn)行時指定[單選題]90.下列關(guān)于HDFS的負(fù)載均衡服務(wù)(Balancer)的參數(shù)說法哪一個是不正確的?A)-threshold默認(rèn)值10,參數(shù)范圍0-100B)-threshold取值越大越平衡C)dfs.balance.bandwitdhPerSec運(yùn)行時允許占用的帶寬D)dfs.balance.bandwitdhPerSec默認(rèn)值為1M/s[單選題]91.下列說法正確的是()A)數(shù)據(jù)轉(zhuǎn)化器均不能生成新的列B)數(shù)據(jù)轉(zhuǎn)化器均能生成新的列C)部分?jǐn)?shù)據(jù)轉(zhuǎn)化器能生成新的列D)以上說法均不對[單選題]92.Flink的窗口,按窗口行為劃分不包含以下哪種?A)容量窗B)會話窗口C)滾動窗口D)滑動窗口[單選題]93.在Flink的運(yùn)行過程中,負(fù)責(zé)申請資源的角色是:()。A)ResourceManagerB)JobManagerC)ClientD)TaskManager[單選題]94.()是表示數(shù)據(jù)分布是否為對稱性的統(tǒng)計量。A)方差B)中位數(shù)C)偏態(tài)D)峰態(tài)[單選題]95.下列表達(dá)式中,返回True的是()。A)a=2b=2a=bB)3>2>1C)TrueandFalseD)2!=2[單選題]96.()的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息,從而既不需要進(jìn)行完全聯(lián)合概率討算,又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系A(chǔ))貝葉斯判定準(zhǔn)則B)貝葉斯決策論C)樸素貝葉斯分類器D)半樸素貝葉斯分類器[單選題]97.在Windows系統(tǒng)中,關(guān)閉Python終端會話常用的快捷鍵是()。A)Ctrl+CB)Ctrl+DC)Ctrl+ED)Ctrl+Z[單選題]98.嵌入式選擇是一種(__)算法。A)聚類B)特征選擇C)分類D)回歸[單選題]99.正則化是將樣本在向量空間模型上的一個轉(zhuǎn)換,經(jīng)常被使用在分類與聚類中,正則化在preprocessing模塊的實現(xiàn)函數(shù)是()。A)preprocessing.MaxAbsScale()B)preprocessing.RobustScaler()C)preprocessing.normalize()D)preprocessing.Binarizer()[單選題]100.王先生近期收到了一封電子郵件,發(fā)件人顯示是某同事,但該郵件十分可疑,沒有任何與工作相關(guān)內(nèi)容,郵件中帶有一個陌生的網(wǎng)站鏈接,要求他訪問并使用真實姓名注冊,這可能屬于哪種攻擊手段?()A)DDOS攻擊B)釣魚攻擊C)水坑攻擊D)緩沖區(qū)溢出攻擊[單選題]101.第三次信息化浪潮標(biāo)志不包含以下哪項?A)互聯(lián)網(wǎng)B)云計算C)物聯(lián)網(wǎng)D)大數(shù)據(jù)[單選題]102.sklearn.naive_bayes模塊實現(xiàn)了樸素貝葉斯算法,基于貝葉斯定理和特征獨(dú)立性假設(shè)的監(jiān)督學(xué)習(xí)方法,下列模型不是樸素貝葉斯分類器的是()。A)BernoulliNB()B)GaussianNB()C)NeighborsNB()D)MultinomialNB()[單選題]103.以下屬于Python腳本程序轉(zhuǎn)變?yōu)榭蓤?zhí)行程序的第三方庫的是:A)requestsB)pyinstallerC)numpyD)scrapy[單選題]104.()是從總體N個單位中隨機(jī)地抽取n個單位作為樣本的抽樣方法。每個單位被抽中的概率是相等的,屬于?等概率抽樣?。A)方便抽樣B)分層抽樣C)整群抽樣D)簡單隨機(jī)抽樣[單選題]105.關(guān)于數(shù)據(jù)產(chǎn)品,以下說法錯誤的是()。A)數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B)與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費(fèi)者不僅限于人類用戶.還可以是計算機(jī)以及其他軟硬件系統(tǒng)C)數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品D)數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項目流程的全部活動[單選題]106.下列關(guān)于數(shù)據(jù)創(chuàng)新的說法正確的是()。A)多個數(shù)據(jù)集的總和價值等于單個數(shù)據(jù)集價值相加B)由于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去C)相同數(shù)據(jù)多次用于相同或類似用途,其有效性會降低D)數(shù)據(jù)只有開放價值才可以得到真正釋放[單選題]107.以某一圖表中的項為單位對關(guān)聯(lián)圖表進(jìn)行數(shù)據(jù)篩選,建立圖表間聯(lián)動關(guān)系的功能是?()A)全局篩選B)計量單位C)圖表聯(lián)動D)數(shù)據(jù)凸顯[單選題]108.或圖通常稱為()A)框架網(wǎng)絡(luò)B)語義圖C)博亦圖D)狀態(tài)圖[單選題]109.下面這條GaussDB200語句?calldbms_erval(1,'sysdate+1.0/24');"的意思是A)修改Job1的Interva為每隔24小時執(zhí)行一次。B)修改Job1的Interval為每隔1小時執(zhí)行一次。C)修改Job1的Interval為每隔1/24小時執(zhí)行一次。D)修改Job1的Interval為每隔24分鐘執(zhí)行一次。[單選題]110.因支撐人員造成數(shù)據(jù)泄露或泄密事件的,由()承擔(dān)全部責(zé)任,并按照公司保密工作獎懲辦法、員工獎懲規(guī)定,追究相關(guān)人員責(zé)任。A)支撐人員B)支撐人員所在部門C)支撐單位D)以上都不是[單選題]111.數(shù)據(jù)安全管理是通過制定和實施相關(guān)安全策略和措施,確保數(shù)據(jù)在收集、傳輸、存儲、處理、使用和()各環(huán)節(jié)的安全。A)歸檔B)發(fā)布C)推廣D)銷毀[單選題]112.假設(shè)某日是否有雨只和前一日是否有雨相關(guān);今日有雨,則明日有雨的概率是0.7;今日無雨,則明日有雨的概率是0.5。如果周一有雨,求周三也有雨的概率。A)0.5B)0.64C)0.72D)0.81[單選題]113.HBase客戶端API中,任何操作都需要首先創(chuàng)建()類的實例A)HbaseManagerB)HBaseConfigurationC)HBaseD)Manager[單選題]114.scipy中模塊cluster的作用是什么?A)向量計算B)程序輸入輸出C)計算差值D)信號處理[單選題]115.深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)屬于機(jī)器學(xué)習(xí)中的那哪種模型A)深度監(jiān)督學(xué)習(xí)B)深度無監(jiān)督學(xué)習(xí)C)深度半監(jiān)督學(xué)習(xí)D)深度強(qiáng)化學(xué)習(xí)[單選題]116.計算numpy中元素個數(shù)的方法()A)np.sqrt()B)np.size()C)np.identity()D)np.mat()[單選題]117.Yam中()角色是管理單個節(jié)點(diǎn)資源(CPU/Memory)的。A)NodeManagerB)ResourceManagerC)DataNodeD)NameNode[單選題]118.下列關(guān)于Spark與Hadoop的說法錯誤的是()。A)Spark中沒有提供文件管理系統(tǒng)B)Hadoop中提供了文件關(guān)系系統(tǒng)C)Spark和Hadoop都是用MR模型進(jìn)行計算,Spark的速度和效率比MR要快得多D)Hadoop適合處理動態(tài)數(shù)據(jù)[單選題]119.查詢集合操作中,表示交集的是:()。A)INTERSECTB)MINUSC)EXECPTD)UNION[單選題]120.HBase來源于哪一項?A)TheGoogleFileSystemB)MapReduceC)BigTableD)Chubby[單選題]121.以下SQL語句編寫正確的是()。--A)SELECT*FROMsh_goodsWHERE0;B)SELECT*FROMsh_goodsGROUPBYcategory_iD、WHEREprice>5;C)SELECT*FROMsh_goodsLIMIT3ORDERBYprice;D)以上選項都不正確[單選題]122.Spark框架standalone運(yùn)行模式是?A)簡單模式B)單機(jī)模式C)本地模式D)集群模式[單選題]123.以下說法錯誤的一項是()A)負(fù)梯度方向是使函數(shù)值下降最快的方向B)當(dāng)目標(biāo)函數(shù)是凸函數(shù)時,梯度下降法的解是全局最優(yōu)解C)梯度下降法比牛頓法收斂速度快D)擬牛頓法不需要計算Hesse矩陣[單選題]124.以下哪項不屬于圖像分割的目的。()A)把不同類標(biāo)分開。B)提取不同區(qū)域的特征。C)識別圖像內(nèi)容,或?qū)D像進(jìn)行分類。D)對未處理噪聲的圖像進(jìn)行平滑。[單選題]125.下列哪一項不是經(jīng)典的社區(qū)研究案例()A)空手道俱樂部B)科學(xué)家合作網(wǎng)絡(luò)C)斑馬群體的社交行為研究D)芽殖酵母基因調(diào)控網(wǎng)絡(luò)[單選題]126.以下選項哪個是MapReduce正確的運(yùn)行模型()A)Reduce-Map-ShuffleB)Shuffle-Map-ReduceC)Map-Shuffle-ReduceD)Map-Reduce-Shuffle[單選題]127.HBase交互模式中,顯示所有命名空間A)show_namespaceB)shows_namespaceC)lists_namespaceD)list_namespace[單選題]128.關(guān)于MaxcomputeMR()說法是正確的。A)mapworker在輸出數(shù)據(jù)時,需要為每一條輸出數(shù)據(jù)指定一個keyB)進(jìn)入reduce前,數(shù)據(jù)需要進(jìn)行合并操作,然后按照key排序C)map和reduce前都需要對數(shù)據(jù)進(jìn)行分片D)reducer的個數(shù)和mapper的個數(shù)一致[單選題]129.在模型評估與度量的方法中,(__)直接將數(shù)據(jù)集劃分為兩個互斥的集合,一個作為訓(xùn)練集,另一個作為測試集。A)自助法B)留出法C)交叉驗證法D)錯誤率分析[單選題]130.下列算法中,不屬于外推法的是()。A)移動平均法B)回歸分析法C)指數(shù)平滑法D)季節(jié)指數(shù)法[單選題]131.在二分類問題中,當(dāng)測試集的正例和負(fù)例數(shù)量不均衡時,以下評價方案哪個是相對不合理的()(假設(shè)precision=TP/(TP+FP),recall=TP/(TP+FN)。)A)Accuracy:(TP+TN)/allB)F-value:2*recall*precision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:ROC曲線下面積[單選題]132.當(dāng)閔可夫斯基距離公式中的系數(shù)p值為2時,可得到(__)的公式。A)歐氏距離B)曼哈頓距離C)街區(qū)距離D)切比雪夫距離[單選題]133.下列選項中,不屬于python特點(diǎn)的是。()A)面向?qū)ο驜)運(yùn)行效率高C)可移植性D)免費(fèi)和開源[單選題]134.bootstrap是指()A)有放回地從總共M個特征中抽樣m個特征B)無放田地從總共M個特征中抽樣m個特征C)有放田地從總共N個樣本中抽樣n個樣本D)元放田地從總共N個樣本中抽樣n個樣本[單選題]135.求以下程序結(jié)果正確的是()L=('Google','Python','Taobao')print(L[-2])print(L[1:])A)Python',('Python','Taobao')B)Google',('Python','Taobao')C)Google''Python?D)?Taobao''Python?[單選題]136.()是Spark中用來進(jìn)行機(jī)器學(xué)習(xí)和數(shù)學(xué)建模的軟件包。A)SPARKCOREB)SparkSQLC)SparkStreamingD)Mllib[單選題]137.a與b定義如下,下列哪個是正確的()。a='123'b='123'A)a!=bB)aisbC)a==123D)a+b=246[單選題]138.大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)的MapReduce提供了分布式的編程框架,以下()大數(shù)據(jù)計算服務(wù)可以作為MR的輸入和輸出。A)表B)視圖C)資源D)項目空間[單選題]139.以下不屬于數(shù)據(jù)庫的是A)MongoDBB)SparkC)MySQLD)HBase[單選題]140.完成智慧物聯(lián)體系試點(diǎn)建設(shè),試點(diǎn)建成企業(yè)級物聯(lián)管理中心,實現(xiàn)輸變電、配用電、客戶側(cè)增量設(shè)備()標(biāo)準(zhǔn)化接入和統(tǒng)一物聯(lián)管理,初步具備能力開放功能A)90%B)100%C)85%D)70%[單選題]141.Choice函數(shù)屬于()函數(shù)A)文本函數(shù)B)數(shù)值函數(shù)C)邏輯函數(shù)D)集合函數(shù)[單選題]142.公共云計算上分析型數(shù)據(jù)庫的用戶創(chuàng)建數(shù)據(jù)庫的方式為:()。A)直接通過CREATEDATABASE的DDL語句創(chuàng)建數(shù)據(jù)庫B)直接通過CREATEDATABASE的DML語句創(chuàng)建數(shù)據(jù)庫C)直接通過CREATETABLE的DDL語句創(chuàng)建數(shù)據(jù)庫D)只能通過DMS控制臺界面來創(chuàng)建需要的業(yè)務(wù)數(shù)據(jù)庫[單選題]143.下列關(guān)于描述性分析與探索性分析描述正確的是()。A)描述性分析是相對于驗證性分析的一種提法B)探索性分析是驗證性分析的基礎(chǔ)C)探索性分析是相對于驗證性分析的一種提法D)探索性分析是數(shù)據(jù)分析的第一步[單選題]144.工業(yè)4.0計劃是哪個國家提出的數(shù)據(jù)戰(zhàn)略A)日本B)德國C)中國D)敘利亞第2部分:多項選擇題,共62題,每題至少兩個正確答案,多選或少選均不得分。[多選題]145.以下哪些選項是ElasticSearch主節(jié)點(diǎn)EsMaster功能?A)參與文檔數(shù)據(jù)變更B)參與文檔數(shù)據(jù)搜索C)參與新建索引D)參與刪除素引[多選題]146.SparkSQL使用場景豐富,可以處理的數(shù)據(jù)源包括?A)JsonB)HiveC)文本文件D)RDD[多選題]147.以下哪些場景適合使用實時檢索技術(shù)輔助完成?A)通過手機(jī)號查詢某日某運(yùn)營商的通話記錄B)根據(jù)過去一年的訂單記錄預(yù)測明年某商品的銷售量C)通過身份證號查詢某天某酒店入住人信息D)通過車牌號查詢某天某高速收費(fèi)站過路車輛信息[多選題]148.數(shù)據(jù)倉庫數(shù)據(jù)分層的優(yōu)點(diǎn)包括?A)減少重復(fù)開發(fā)B)把復(fù)雜問題簡單化C)隔離原始數(shù)據(jù)D)減少數(shù)據(jù)倉庫存儲空間[多選題]149.RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是Sigmod的原因有()A)使用Sigmod函數(shù)容易出現(xiàn)梯度消失B)Sigmod的導(dǎo)教形式較為復(fù)雜C)雙曲正切更簡單D)Sigmoid函數(shù)實現(xiàn)較為復(fù)雜[多選題]150.Python中,字符串可以使用哪些格式A)單引號B)雙引號C)三雙引號D)三單引號[多選題]151.(__)是preprocessing模塊中的函數(shù)。A)Nomalization()B)MinMaxScaler()C)Scaler()D)StandardScaler()[多選題]152.下列屬于Hive所支持的基本數(shù)據(jù)類型的有()【選三項】A)TimestampB)BinaryC)TinyintD)Char[多選題]153.關(guān)于StructuredStreaming、SparkSQL、SparkStreaming,下面描述正確的是:()A)StructuredB)SparkC)StructuredD)Spark[多選題]154.試點(diǎn)建設(shè)()的智慧運(yùn)營中心A)智能采購B)智慧業(yè)務(wù)C)數(shù)字物流D)全景質(zhì)控[多選題]155.關(guān)于表掃描算子的說法正確的是(?A)對于點(diǎn)查或者范圍掃描等過濾本量數(shù)據(jù)的查詢,如果使用SeqScan全表掃描會比較快。B)表的數(shù)目比較少的時候,使用Seqscan效率更高。C)SOL的執(zhí)行計劃第一步就是從表掃描算子開始的。D)SeqScan是指順序掃描表的所有信息。[多選題]156.正則表達(dá)式中,重復(fù)元字符?*?表示()A)無匹配B)只匹配1個C)0個匹配D)多個匹配[多選題]157.某集團(tuán)公司總部內(nèi)部審計部在執(zhí)行差旅費(fèi)審計時,意外發(fā)現(xiàn)一項員工虛報差旅費(fèi)的舞弊事項,因此發(fā)文要求各分公司對最近一年差旅費(fèi)進(jìn)行全面地自查整改,并提交最終差旅費(fèi)自查報告,報告內(nèi)容至少需包括以下事項:差旅費(fèi)行程沖突記錄在全部差旅記錄中的占比、差旅費(fèi)行程沖突明細(xì)、各公司各部門差旅費(fèi)報銷總額,并要求各成員公司在一個月內(nèi)完成差旅費(fèi)內(nèi)部整改,總部將不定期進(jìn)行飛行檢查。若你是某一分公司出納,你在該報告中擬利用的表是:()A)餅圖B)明細(xì)表C)矩陣塊圖D)柱形圖[多選題]158.缺失值是指粗糙數(shù)據(jù)中由于缺少信息而造成的數(shù)據(jù)的聚類、分組、刪失或截斷。對于缺失值的處理方法包括()A)復(fù)制元B)刪除元組C)缺值補(bǔ)齊D)不處理[多選題]159.Rowkey設(shè)計的原則,下列哪些選項的描述是正確的?A)盡量保證越短越好B)可以使用漢字C)可以使用字符串D)本身是無序的[多選題]160.大數(shù)據(jù)計算框架Flink的支持以下哪些資源調(diào)度方式?A)MesosB)DockerC)YARND)Standalone[多選題]161.以下哪些是RDD的特點(diǎn)()A)可分區(qū)B)可序列化C)可持久化D)可修改[多選題]162.Hadoop系統(tǒng)中YARN支持哪些資源類型的管理?A)內(nèi)存B)CPUC)網(wǎng)絡(luò)D)磁盤空間[多選題]163.以下關(guān)于Loader特點(diǎn)描述正確的是?A)圖形化:提供Ul圖形化配置、監(jiān)控界面,操作便捷。B)安全認(rèn)證:Kerberos認(rèn)證作業(yè)權(quán)限管理C)高性能:利用MapReduce并行處理數(shù)據(jù)。D)高可靠:LoaderServer采用主備雙機(jī)作業(yè)通過MaReduce執(zhí)行,支持失敗重試。作業(yè)失敗后,不會殘留數(shù)據(jù)。[多選題]164.下面關(guān)于機(jī)器學(xué)習(xí)的理解,正確的是()A)非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的B)監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標(biāo)簽C)強(qiáng)化學(xué)習(xí)以輸入數(shù)據(jù)作為對模型的反饋D)卷和、神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)[多選題]165.下列關(guān)于Pandas的索引說法正確的是()。A)索引對象是可修改的B)索引對象是不可修改的C)索引對象是不可修改的D)Index對象是可以共享的[多選題]166.下列關(guān)于AUC面積的描述正確的有()。A)AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B)AUC面積的值大于1C)AUC面積的值等于0.5時,真實性最低,無應(yīng)用價值D)AUC面積的值越接近1.0,檢測方法真實性越高[多選題]167.以下關(guān)于模塊的描述正確的是()。A)提供重用程序代碼的方法B)提供了一種劃分任務(wù)的方法C)提供減小程序大小的方法D)提供測試程序各個部分的方法[多選題]168.一個典型的數(shù)據(jù)倉庫系統(tǒng)通常包含哪幾個組成:()A)數(shù)據(jù)源B)數(shù)據(jù)存儲和管理C)OLAP服務(wù)器D)前端工具和應(yīng)用[多選題]169.以下選項中屬于數(shù)據(jù)的作用的是()。A)溝通B)驗證假設(shè)C)建立信心D)欣賞[多選題]170.以下()大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)的SQL語句可以用戶表user中找出用戶名稱username中包含?hu?的記錄。A)select*fromuserwhereusernamerlike?.*hu.*?B)select*fromuserwhereusernamelike?%hu%?C)select*fromuserwhereusernamecontains(?hu?)D)select*fromuserwhereusernamelike?*hu*?[多選題]171.下面的選項是關(guān)系數(shù)據(jù)庫基本特征的是()。A)與列的次序無關(guān)B)不同的列應(yīng)有不同的數(shù)據(jù)類型C)不同的列應(yīng)有不同的列名D)與行的次序無關(guān)[多選題]172.F1參數(shù)由(__)和(__)綜合獲得A)查全率B)查準(zhǔn)率C)誤差D)精度[多選題]173.HFile數(shù)據(jù)格式中的KeyValue數(shù)據(jù)格式,下列選項描述正確的是()。A)是byte[]數(shù)組B)沒有固定的結(jié)構(gòu)C)數(shù)據(jù)的大小是定長的D)有固定的結(jié)構(gòu)[多選題]174.在DEEP平臺應(yīng)用線性回歸模型,進(jìn)行步長值設(shè)置需要哪幾步?A)數(shù)據(jù)轉(zhuǎn)換-長度B)選中線性回歸模型-屬性C)參數(shù)設(shè)置D)步長值設(shè)置[多選題]175.以下屬于圖像平滑算法的是()。A)中值濾波B)均值濾波C)鄰域平均法D)拉普拉斯濾波器[多選題]176.HBase的Filter過濾器有什么作用?A)過濾列名B)過濾regionC)過濾rowkeyD)過濾列值[多選題]177.下列有關(guān)Zookeeper描述正確的是()。A)Zookeeper維護(hù)著一個樹形的層次結(jié)構(gòu)B)Zookeeper的數(shù)據(jù)訪問具有原子性C)Zookeeper被設(shè)計是用來實現(xiàn)協(xié)調(diào)服務(wù)的D)Zookeeper被設(shè)計是用來實現(xiàn)大容量數(shù)據(jù)存儲的[多選題]178.以下關(guān)于FusionInsight中CarbonData說法正確的有?A)使用Carbon的目的是對大數(shù)據(jù)即席查詢提供超快速響應(yīng)。B)Carbon使用輕量級壓縮和重量級壓縮的組合壓縮算法壓縮數(shù)據(jù),可以減少60%-80%數(shù)據(jù)存儲空間,大大節(jié)省硬件存儲成本。C)Carbon是一種新型的ApacheHadoop本地文件格式,使用先進(jìn)的列式存儲.索引.壓縮和編碼技術(shù),以提高計算效率,有助于加速超過PB數(shù)量級的數(shù)據(jù)查詢,可用于更換的交互查詢D)Carbon也是一種將數(shù)據(jù)源與Spark集成的高性能分析引擎。[多選題]179.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A)具有勞動增值B)涉及法律權(quán)屬C)具有財務(wù)價值D)涉及道德與倫理[多選題]180.HDFS采用抽象的塊概念可以帶來以下哪幾個明顯的好處?A)支持大規(guī)模文件存儲B)支持小規(guī)模文件存儲C)適合數(shù)據(jù)備份D)簡化系統(tǒng)設(shè)計[多選題]181.以下提法中正確的是(___)。A)數(shù)據(jù)學(xué)科中的?數(shù)據(jù)?并不僅僅是?數(shù)值?,也不等同于?數(shù)值?B)數(shù)據(jù)科學(xué)中的?計算?并不僅僅是加、減、乘、除等?數(shù)學(xué)計算?,還包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型C)數(shù)據(jù)科學(xué)不僅需要理論知識和實踐經(jīng)驗,而且還涉及黑客精神D)數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是?理論研究?,一般不涉及?領(lǐng)域?qū)崉?wù)知識?[多選題]182.為大數(shù)據(jù)提供基礎(chǔ)設(shè)施服務(wù),有(__)和數(shù)據(jù)計算、數(shù)據(jù)管理與監(jiān)控、集群服務(wù)、眾包等。A)數(shù)據(jù)存儲B)數(shù)據(jù)加工C)數(shù)據(jù)治理D)app開發(fā)[多選題]183.云計算關(guān)鍵技術(shù)之一的軟件定義架構(gòu),包括()A)軟件定義計算B)軟件定義存儲C)軟件定義網(wǎng)絡(luò)D)軟件定義數(shù)據(jù)中心[多選題]184.稅易通授信自動審批。客戶申請?zhí)峤缓?,系統(tǒng)通過自動查詢()等判斷客戶是否符合準(zhǔn)入條件,對符合貸款條件的,系統(tǒng)自動進(jìn)行評級授信并給出授信額度,客戶可在線查詢授信審批結(jié)果A)地稅數(shù)據(jù)B)征信數(shù)據(jù)C)匯法網(wǎng)數(shù)據(jù)D)公積金繳納數(shù)據(jù)[多選題]185.根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,企業(yè)信用智能分析報告分()2個版本。A)征信報告B)盡職調(diào)查報告C)企業(yè)信用智能分析報告D)企業(yè)信用智能分析報告(含征信)[多選題]186.HBASE中Hmaster主要負(fù)責(zé)什么?A)表的增刪改查B)用戶數(shù)據(jù)讀寫C)Region分布調(diào)整D)Regionserver負(fù)戴均衡[多選題]187.在st.rvs()函數(shù)中可以指定(__)。A)大小B)分布的形狀C)是否是整數(shù)D)縮放比例[多選題]188.下列說法錯誤的是()。A)數(shù)值和數(shù)據(jù)是不同的概念,數(shù)值在信道上傳輸之后,轉(zhuǎn)換為信號形式的數(shù)據(jù)B)信息是與材料、能源一個層次的概念,不屬于客觀存在C)特征編碼是將非數(shù)值型特征轉(zhuǎn)換成數(shù)值型特征的方法D)聚類算法要求數(shù)據(jù)集無量綱化[多選題]189.物聯(lián)網(wǎng)的關(guān)鍵技術(shù)包括哪些?A)識別和感知技術(shù)B)網(wǎng)絡(luò)與通信技術(shù)C)數(shù)據(jù)挖掘與融合技術(shù)D)信息處理一體化技術(shù)[多選題]190.Python函數(shù)包括()。A)函數(shù)名稱B)參數(shù)C)執(zhí)行語句D)返回值[多選題]191.python字符串格式化符號有()。A)%sB)%dC)%uD)%x[多選題]192.用大數(shù)據(jù)計算服務(wù)構(gòu)建海量的數(shù)據(jù)倉庫時,分區(qū)表是一種很常見的做法,對于分區(qū)表的描述正確的有:()。A)支持hash分區(qū)、范圍分區(qū)、列表分區(qū)及組合分區(qū)B)在通過SQL讀取分區(qū)表中的數(shù)據(jù)時,可以通過指定分區(qū)的方法只讀取一部分分組,減少IO開銷C)可以單獨(dú)處理指定分區(qū)中的數(shù)據(jù),不會對其他分區(qū)數(shù)據(jù)產(chǎn)生影響D)對于過期的數(shù)據(jù)可以將對應(yīng)的分區(qū)drop掉,不會影響其他分區(qū)中的數(shù)據(jù)[多選題]193.數(shù)據(jù)倉庫分層的優(yōu)點(diǎn)包括以下哪些選項?A)減少重復(fù)開發(fā)量B)提高資源協(xié)調(diào)能力C)隔離原始數(shù)據(jù)D)簡化復(fù)雜問題[多選題]194.以下哪些是數(shù)據(jù)倉庫的基本特征?A)數(shù)據(jù)倉庫的數(shù)據(jù)是集成的B)數(shù)據(jù)倉庫是面向事務(wù)的C)數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的D)數(shù)據(jù)倉庫的數(shù)據(jù)是反映歷史變化的[多選題]195.數(shù)據(jù)缺失產(chǎn)生的原因包括()A)有些對象的某個或某些屬性不可用B)有些信息暫時無法獲取C)有些信息(被認(rèn)為)是不重要的D)有些信息是被遺漏的[多選題]196.大數(shù)據(jù)安全表現(xiàn)出與傳統(tǒng)數(shù)據(jù)安全不同的特征,具體來說包括哪幾個方面:A)大數(shù)據(jù)成為冋絡(luò)攻擊的顯著目標(biāo)B)大數(shù)據(jù)加大隱私泄露風(fēng)險C)大數(shù)據(jù)技術(shù)被應(yīng)用到攻擊手段中D)大數(shù)據(jù)成為高級可持續(xù)攻擊(APT)的載體[多選題]197.下列導(dǎo)入模塊正確的有()。A)importnumpyB)importnumpyasnpC)frommatplotlibimportpyplotD)frommatplotlibimportpyplotasplt[多選題]198.數(shù)據(jù)增值存在于哪些過程中()。A)數(shù)據(jù)對象的封裝B)數(shù)據(jù)系統(tǒng)的研發(fā)C)數(shù)據(jù)的集成應(yīng)用D)基于數(shù)據(jù)的創(chuàng)新[多選題]199.下面哪項是面向?qū)ο缶幊痰奶匦?)。A)繼承B)同構(gòu)C)封裝D)多態(tài)性[多選題]200.若name=np.array(['Bob','Joe','Will','Bob','Joe','Will','Joe']),則以下可以的到['Bob','Joe','Will']的代碼是(__)。A)np.unique(name)B)sorted(set(name))C)np.sort(name)D)name[多選題]201.噪聲數(shù)據(jù)的產(chǎn)生原因主要有()。A)數(shù)據(jù)采集設(shè)備有問題B)在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機(jī)錯誤C)數(shù)據(jù)傳輸過程中發(fā)生錯誤D)由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致[多選題]202.下列數(shù)據(jù)庫管理系統(tǒng)中屬于RDBMS的是()。A)OracleB)MySQLC)HbaseD)MongodDB[多選題]203.圖像噪聲一般可分為()。A)加性噪聲B)乘性噪聲C)量化噪聲D)非量化噪聲[多選題]204.下列選項中,在Reducer類的run()方法中定義的三個方法有()。A)setup()B)reduce()C)cleanup()D)map()[多選題]205.為保障業(yè)務(wù)系統(tǒng)數(shù)據(jù)處理效率,應(yīng)根據(jù)業(yè)務(wù)需要(),滿足業(yè)務(wù)運(yùn)行和數(shù)據(jù)資產(chǎn)應(yīng)用需要。A)確定數(shù)據(jù)資產(chǎn)歸檔范圍B)制定數(shù)據(jù)資產(chǎn)歸檔策略C)定期將業(yè)務(wù)辦理完畢的數(shù)據(jù)轉(zhuǎn)入歷史歸檔區(qū)D)提供歸檔區(qū)數(shù)據(jù)的查詢服務(wù)[多選題]206.當(dāng)前,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的特點(diǎn)是A)規(guī)模較大B)規(guī)模較小C)增速很快D)增速緩慢E)多產(chǎn)業(yè)交叉融合第3部分:判斷題,共42題,請判斷題目是否正確。[判斷題]207.同一個列表對象中所有元素必須為相同類型。A)正確B)錯誤[判斷題]208.傳統(tǒng)文件系統(tǒng)存儲數(shù)據(jù)時,若文件太大,會導(dǎo)致上傳和下載非常耗時。A)正確B)錯誤[判斷題]209.數(shù)據(jù)按每分鐘提供,就是滿足數(shù)據(jù)的及時性要求。A)正確B)錯誤[判斷題]210.在Kafka中,Producer可以通過配置同步參數(shù)(producer.type),保證數(shù)據(jù)按順序發(fā)送。A)正確B)錯誤[判斷題]211.只有建立復(fù)合唯一約束的多個字段值全部相同時才視為重復(fù)記錄。--A)正確B)錯誤[判斷題]212.在DWS服務(wù)中,通過GDB并行導(dǎo)入數(shù)據(jù)時,需要明確DWS的集群IP地址。A)正確B)錯誤[判斷題]213.成立中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組,體現(xiàn)了我們黨對網(wǎng)絡(luò)安全強(qiáng)有力的領(lǐng)導(dǎo)和更加高度的關(guān)注。A)正確B)錯誤[判斷題]214.一個函數(shù)如果帶有默認(rèn)值參數(shù),那么必須所有參數(shù)都設(shè)置默認(rèn)值。A)正確B)錯誤[判斷題]215.部署在客戶的數(shù)據(jù)中心內(nèi),基于客戶個性化而設(shè)計的云是混合云A)正確B)錯誤[判斷題]216.對于Python類中的私有成員,可以通過?對象名A)正確B)錯誤[判斷題]217.注釋將影響數(shù)據(jù)節(jié)點(diǎn)()A)正確B)錯誤[判斷題]218.深度學(xué)習(xí)是端到端學(xué)習(xí),系統(tǒng)自動提取不同層次的特征。A)正確B)錯誤[判斷題]219.已知x='hellowworldA)正確B)錯誤[判斷題]220.Filter主要在Scan和Get過程中進(jìn)行數(shù)據(jù)過濾,通過設(shè)置一些過濾條件來實現(xiàn)A)正確B)錯誤[判斷題]221.左連接?表1LEFTJOIN表2?可與?表2RIGHTJOIN表1?互換使用。--A)正確B)錯誤[判斷題]222.無法刪除集合中指定位置的元素,只能刪除特定值的元素。A)正確B)錯誤[判斷題]223.Colocation同分布文件級的同分布實現(xiàn)文件的快速訪問,避免了因數(shù)據(jù)遷移盜來的大量網(wǎng)絡(luò)開銷。A)正確B)錯誤[判斷題]224.Hadoop是Java開發(fā)的,所以MapReduce只支持Java語言編寫。A)正確B)錯誤[判斷題]225.對于SparkStreaming的應(yīng)用,在一個JVM中,同一時間只能有一個StreamingContext處于活躍狀態(tài)。A)正確B)錯誤[判斷題]226.關(guān)系型數(shù)據(jù)庫管理系統(tǒng)簡稱RDBMS。()A)正確B)錯誤[判斷題]227.在Python中定義類時,運(yùn)算符重載是通過重寫特殊方法實現(xiàn)的。例如,在類中實現(xiàn)了__mul__()方法即可支持該類對象的**運(yùn)算符A)正確B)錯誤[判斷題]228.針對不同的數(shù)據(jù)來源,需要先分析其數(shù)據(jù)特征,例如一般網(wǎng)站產(chǎn)生的日志特點(diǎn)是數(shù)據(jù)星大,價值密度高,數(shù)據(jù)的業(yè)務(wù)種類多且涵蓋之前的數(shù)據(jù)。A)正確B)錯誤[判斷題]229.HDFS適用于低延遲數(shù)據(jù)訪問的場景,例如毫秒級實時查詢。A)正確B)錯誤[判斷題]230.CIoudera是Hadoop商業(yè)版的發(fā)布公司。A)正確B)錯誤[判斷題]231.數(shù)據(jù)實時標(biāo)簽依賴的技術(shù)是Hadoop、Storm、Spark、Impala等計算框架和HDFS、HBase、MongoDB等數(shù)據(jù)存儲服務(wù)。A)正確B)錯誤[判斷題]232.如果規(guī)則不滿足置信度閾值,則形如的規(guī)則一定也不滿足置信度閾值,其中是X的子集A)正確B)錯誤[判斷題]233.門戶網(wǎng)站是收集大數(shù)據(jù)的唯一途徑A)正確B)錯誤[判斷題]234.任何數(shù)據(jù)流節(jié)點(diǎn)均可以設(shè)置查看器()A)正確B)錯誤[判斷題]235.Python采用的是基于值得自動內(nèi)存管理方式。A)正確B)錯誤[判斷題]236.已知x是個列表對象,那么執(zhí)行語句y=x之后,對y所做的任何操作都會同樣作用到x上。A)正確B)錯誤[判斷題]237.信息化、大數(shù)據(jù)、智能化是相輔相成的。A)正確B)錯誤[判斷題]238.窗口函數(shù)可以進(jìn)行排序,生成序列號等一般的聚合函數(shù)無法實現(xiàn)的高級操作。A)正確B)錯誤[判斷題]239.HDFS機(jī)制中NameNode負(fù)責(zé)管理元數(shù)據(jù),Client端每次讀請求都需要從NameNode的元數(shù)據(jù)磁盤中讀取元數(shù)據(jù)信息以此獲取所讀文件在DataNode的位置。A)正確B)錯誤[判斷題]240.表達(dá)式'testA)正確B)錯誤[判斷題]241.在Python中支持SwitchCase的多分支的條件選擇。A)正確B)錯誤[判斷題]242.已知formatter='good{0}'A)正確B)錯誤[判斷題]243.Linux云主機(jī)僅支持通過用戶名、密碼方式登錄A)正確B)錯誤[判斷題]244.數(shù)據(jù)交易市場通過生產(chǎn)數(shù)據(jù)、研發(fā)和分析數(shù)據(jù),為數(shù)據(jù)交易提供幫助。A)正確B)錯誤[判斷題]245.Reduce階段分組后的數(shù)據(jù)可表示為key-{value_list},即一個鍵和若干個值的組合。()A)正確B)錯誤[判斷題]246.使用列表推導(dǎo)式生成包含10個數(shù)字5的列表,語句可以寫為[5foriinrange(10)]。A)正確B)錯誤[判斷題]247.一般來說,企業(yè)想要做數(shù)字化轉(zhuǎn)型,都需要自己搭建云計算平臺。A)正確B)錯誤[判斷題]248.對數(shù)損失度量函數(shù)可以取負(fù)值A(chǔ))正確B)錯誤第4部分:問答題,共11題,請在空白處填寫正確答案。[問答題]249.Channels支持事務(wù),提供較弱的順序保證,可以連接任何數(shù)量的Source和Sink。A)TrueB)False[問答題]250.已知列表li_one=[1,2,1,2,3,5,4,3,5,7,4,7,8],編寫程序?qū)崿F(xiàn)刪除列表li_one中重復(fù)數(shù)據(jù)的功能。[問答題]251.HDFS與現(xiàn)有的分布式文件系統(tǒng)的主要區(qū)別是HDFS具有()能力。[問答題]252.HiveJDBC程序的編寫步驟HiveJDBC程序的編寫與MySQL數(shù)據(jù)庫類似,主要分為5個步驟:()加載JDBC驅(qū)動()獲取連接()執(zhí)行查詢()處理結(jié)果()關(guān)閉連接[問答題]253.Topology在任務(wù)完成后會自動結(jié)束運(yùn)行。A)TRUEB)FALSE[問答題]254.實現(xiàn)數(shù)組廣播機(jī)制需要滿足哪些條件?[問答題]255.Spark和Hadoop都不適用于迭代計算的場景。A)正確B)B錯誤[問答題]256.如何在瀏覽器中查找Namenode?[問答題]257.HDFS客戶端以N副本向HDFS寫文件時,若其中一個副本寫入失敗,則所有副本都會返回寫入失敗。A)TRUEB)FALSE[問答題]258.在HDFS寫數(shù)據(jù)的流程中,數(shù)據(jù)是以()的形式進(jìn)行發(fā)送。[問答題]259.為了使得Kafka的吞吐率可以線性提高,物理上把Topic分成一個或多個()。[單選題]260.根據(jù)《大數(shù)據(jù)風(fēng)控平臺項目操作手冊》,日常工作提示(預(yù)警)中的近30天存在外部風(fēng)險信息提示,涵蓋了工商變更信息、輿情風(fēng)險信息等()大類風(fēng)險信息。A)1B)2C)3D)9E)181.答案:B解析:Action的觸發(fā)會生成一個Job,Job會提交給DAGScheduler分解成Stage。因此Job是由Action算子劃分的,B正確。2.答案:C解析:3.答案:D解析:4.答案:A解析:5.答案:A解析:6.答案:B解析:相較于HadoopMapReduce,Spark的特點(diǎn)為速度快、通用性和易用性。7.答案:A解析:*用在匹配前面的子表達(dá)式零次或多次;要匹配*字符,請使用\*進(jìn)行轉(zhuǎn)義。8.答案:A解析:根據(jù)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(cross-industrystandardprocessfordatamining,CRISP-DM)模型,業(yè)務(wù)理解是指從業(yè)務(wù)的角度了解項目的要求和最終目的,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來。9.答案:C解析:在Spark中引入RDD概念的目的是實現(xiàn)Spark的并行操作和靈活的容錯能力。10.答案:B解析:11.答案:C解析:12.答案:D解析:13.答案:B解析:14.答案:A解析:HDFS默認(rèn)BlockSize64MB,block默認(rèn)保存3份。記住即可15.答案:B解析:16.答案:C解析:17.答案:B解析:18.答案:B解析:19.答案:C解析:20.答案:A解析:略。21.答案:D解析:22.答案:B解析:23.答案:C解析:24.答案:D解析:25.答案:D解析:26.答案:D解析:回歸分析指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重間歸分析:按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。27.答案:D解析:28.答案:B解析:29.答案:C解析:30.答案:A解析:31.答案:B解析:32.答案:B解析:噪聲是干擾和妨礙人類認(rèn)知和理解信息的重要因素,而圖像噪聲則是圖像中干擾和妨礙人類認(rèn)識和理解圖像信息的重要因素。由于噪聲本身具有不可預(yù)測性,可以將它當(dāng)作一種隨機(jī)誤差(這種誤差只有通過概率統(tǒng)計的方法來識別)。因此,圖像噪聲可以視為一種多維隨機(jī)過程,可以選擇隨機(jī)過程的概率分布函數(shù)和概率密度函數(shù)來作為對圖像噪聲進(jìn)行描述的方法。33.答案:D解析:34.答案:D解析:35.答案:D解析:36.答案:C解析:C為分類錯誤項的參數(shù),即正則化中的懲罰因子,C越大,邊界越窄,盡可能把更多點(diǎn)正確分類,分類錯誤越少。C越小,邊界越寬,分類錯誤點(diǎn)的個數(shù)增加。因此,C正無窮大時,可以實現(xiàn)沒有分類錯誤的點(diǎn),模型線性可分。37.答案:A解析:38.答案:A解析:39.答案:A解析:40.答案:D解析:41.答案:D解析:42.答案:D解析:43.答案:D解析:44.答案:C解析:45.答案:D解析:46.答案:A解析:47.答案:A解析:48.答案:D解析:49.答案:B解析:50.答案:D解析:51.答案:C解析:52.答案:A解析:53.答案:A解析:54.答案:B解析:Pandas.dropna可以用來刪除缺失值。55.答案:A解析:56.答案:B解析:57.答案:A解析:Task是Stage下的一個任務(wù)執(zhí)行單元,一般來說,一個RDD中有多少個Partition就有多少個Task。58.答案:A解析:59.答案:B解析:60.答案:B解析:61.答案:A解析:62.答案:C解析:63.答案:A解析:64.答案:D解析:65.答案:C解析:66.答案:C解析:67.答案:C解析:68.答案:B解析:69.答案:A解析:except是Python用于異常處理結(jié)構(gòu)中捕獲特定類型的異常的保留字。70.答案:C解析:71.答案:B解析:72.答案:C解析:73.答案:D解析:74.答案:B解析:75.答案:D解析:76.答案:C解析:SLIC是基于K-means算法的生成超像素新方法,SLIC是在超像素中心周圍的區(qū)域2S×2S中進(jìn)行類似像素的搜索。77.答案:D解析:78.答案:B解析:將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為編譯器。79.答案:B解析:等距離散化對數(shù)據(jù)離群值敏感。80.答案:C解析:81.答案:A解析:82.答案:B解析:83.答案:A解析:高通濾波與低通濾波正好相反,是頻域圖像的高頻部分通過而抑制低頻部分。在圖像中圖像的邊緣對應(yīng)高頻分量,因此高通濾波的效果是圖像銳化。84.答案:A解析:85.答案:A解析:86.答案:A解析:87.答案:C解析:88.答案:A解析:離散程度的測度值愈大,則映變量值愈分散,算術(shù)平均數(shù)代表性愈差。89.答案:A解析:90.答案:B解析:91.答案:B解析:92.答案:A解析:93.答案:B解析:94.答案:C解析:95.答案:B解析:96.答案:D解析:97.答案:D解析:在Windows系統(tǒng)中,關(guān)閉Python終端會話常用快捷鍵是Ctrl+Z。98.答案:B解析:99.答案:C解析:preprocessing模塊中函數(shù)normalize()提供了一個快速又簡單的在一個單向量上來實現(xiàn)正則化功能的方式。100.答案:B解析:101.答案:A解析:102.答案:C解析:根據(jù)輸入特征的不同類型,Sklearn的樸素貝葉斯算法分為BernoulliNB、GaussianNB、MultinomialNB三種。103.答案:B解析:104.答案:D解析:105.答案:A解析:數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集,還包括文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策或它們的組合。106.答案:D解析:略。107.答案:C解析:108.答案:D解析:109.答案:B解析:110.答案:C解析:111.答案:D解析:112.答案:B解析:113.答案:B解析:114.答案:A解析:115.答案:A解析:116.答案:B解析:117.答案:A解析:118.答案:D解析:119.答案:A解析:120.答案:C解析:HBASE起源于GoogleBigTable,幾乎遵從了BigTable論文的大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論