大數(shù)據理論考試(習題卷3)_第1頁
大數(shù)據理論考試(習題卷3)_第2頁
大數(shù)據理論考試(習題卷3)_第3頁
大數(shù)據理論考試(習題卷3)_第4頁
大數(shù)據理論考試(習題卷3)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數(shù)據理論考試大數(shù)據理論考試(習題卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據理論考試第1部分:單項選擇題,共64題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.ZooKeeper的特點描述錯誤的是()。A)復雜性B)自我復制C)順序訪問D)高速讀取答案:A解析:ZooKeeper的設計目標和特點包括簡單性、自我復制、順序訪問和高速讀取。[單選題]2.二維圖像可用二維函數(shù)表示,下列說法正確地是()。A)表示點的灰度值B)對于模擬圖像來講,是離散函數(shù)C)x,y不是平面的二維坐標D)以上答案都不正答案:A解析:二維函數(shù)值表示像素點的灰度值。模擬圖像的二維函數(shù)是連續(xù)的,數(shù)字圖像的是離散的。x,y是平面二維坐標,表示的是圖像的橫縱方向。[單選題]3.下列哪個組件不屬于Hive架構()A)MySQLB)TaskManagerC)HDFSD)Clien答案:B解析:[單選題]4.概率模型的訓練過程就是()過程。A)分類B)聚類C)參數(shù)估計D)參數(shù)選答案:C解析:概率模型的訓練過程就是參數(shù)估計的過程。[單選題]5.執(zhí)行一個job,如果這個job的輸出路徑已經存在,那么程序會()A)覆蓋這個輸出路徑B)拋出警告,但是能夠繼續(xù)執(zhí)行C)拋出一個異常,然后退出D)創(chuàng)建一個新的輸出路徑答案:C解析:MapReduce編程模型中的輸出目錄必須是不存在的目錄。否則程序拋出異常,并且退出運行。[單選題]6.下面()屬于SVM應用。A)文本和超文本分類B)圖像分類C)新文章聚類D)以上均是答案:D解析:SVM可用于分類與回歸,文本和超文本分類、圖像分類、新文章聚類均屬于SVM的應用。[單選題]7.下面哪個操作肯定是寬依賴A)mapB)flatMapC)reduceByKeyD)sampl答案:C解析:[單選題]8.scipy.stats模塊中隨機變量的概率密度函數(shù)是()。A)statsB)fitC)pdfD)ppf答案:C解析:pdf是概率密度函數(shù)(probabilitydensityfunction)。[單選題]9.數(shù)據預處理方法不包括()。A)數(shù)據清洗:去噪聲和無關數(shù)據B)數(shù)據集成:將多個數(shù)據源中的數(shù)據結合起來存在一個一致的數(shù)據存儲中C)數(shù)據變換:把原始數(shù)據轉換成為適合數(shù)據挖掘的形式D)數(shù)據轉化:把連續(xù)數(shù)據轉換為離散數(shù)據答案:D解析:數(shù)據轉化多為將字符型數(shù)據轉換為數(shù)值型數(shù)據。例如將性別【男,女】分別轉換為【0,1】。[單選題]10.在HDFS中()是文件系統(tǒng)的工作節(jié)點。A)DataNodeB)ClientC)NameNodeD)Flume答案:A解析:數(shù)據節(jié)點(DataNode)是分布式文件系統(tǒng)HDFS的工作節(jié)點,負責數(shù)據的存儲和讀取,會根據客戶端或者是名稱節(jié)點的調度來進行數(shù)據的存儲和檢索,并且向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表。每個數(shù)據節(jié)點中的數(shù)據會被保存在各自節(jié)點本地Linux文件系統(tǒng)中。[單選題]11.數(shù)據科學基本原則中,?基于數(shù)據的智能?的主要特點是()。A)數(shù)據簡單、但算法簡單B)數(shù)據復雜、但算法簡單C)數(shù)據簡單、但算法復雜D)數(shù)據復雜、但算法復雜答案:B解析:數(shù)據科學對?智能的實現(xiàn)方式?有了新的認識--從?基于算法的智能?到?基于數(shù)據的智能?的過渡。?基于數(shù)據的智能?的重要特點是?數(shù)據復雜,但算法簡單?。[單選題]12.一幅數(shù)字圖像是:()A)一個觀測系統(tǒng)B)一個有許多像素排列而成的實體C)一個2-D數(shù)組中的元素D)一個3-D空間的場景答案:B解析:[單選題]13.將原始數(shù)據進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?()A)頻繁模式挖掘B)分類和預測C)數(shù)據預處理D)數(shù)據流挖掘答案:C解析:[單選題]14.Spark比mapreduce快的原因不包括()A)park基于內存迭代,而MapReduce基于磁盤迭代B)AG計算模型相比MapReduce更有效率C)park是粗粒度的資源調度,而MR是細粒度的資源調度。D)park支持交互式處理,MapReduce善于處理流計算。答案:D解析:A、B、C是Spark比mapreduce快的原因。MapReduce不善于處理除批處理計算模式之外的其他計算模式,如流計算、交互式計算和圖計算等。[單選題]15.在Hadoop生態(tài)系統(tǒng)中,()可以將結構化的數(shù)據文件映射成一張數(shù)據庫表,并提供簡單的查詢語言。A)PigB)HbaseC)HiveD)MapReduce答案:C解析:Hive是構建在hadoop上的數(shù)據倉庫工具,可以將結構化的數(shù)據文件映射為一張數(shù)據庫表,可以用來進行數(shù)據提取轉化加載(ETL),并提供簡單的SQL查詢功能。[單選題]16.留出法直接將數(shù)據集劃分為()個互斥的集合。A)一B)二C)三D)四答案:B解析:留出法(hold-out)直接將數(shù)據集D劃分為兩個互斥的集合,其中一個集合作為訓練集,另一個作為測試集T。[單選題]17.在MaxComputeSQL中,concat('a',null,'b')的執(zhí)行結果是:()。A)aB)anullbC)abD)null答案:D解析:[單選題]18.下列哪個不是stats模塊中的功能()。A)連續(xù)性分布B)線性方程求解C)離散型分布D)核密度估計答案:B解析:stats模塊包含了隨機變量樣本抽取、84個連續(xù)性分布、12個離散型分布、分布的密度分布函數(shù)、核密度估計、分布構造、分布檢驗等功能,但不包括線性方程求解。[單選題]19.關于Apriori算法的原理中敘述錯誤的是()。A)riori算法通常使用先驗知識或者假設B)如果某個項集是頻繁的,那么它的所有子集也是頻繁的C)如果一個項集是非頻繁集,那么它的所有超集也是非頻繁的Apriori算法不可以用來發(fā)現(xiàn)頻繁D)Apriori算法不可以用來發(fā)現(xiàn)頻繁集答案:D解析:Apriori算法可以用來發(fā)現(xiàn)頻繁集。[單選題]20.Spark的劣勢()A)運算速度快B)業(yè)務實現(xiàn)需要較少代碼C)提供很多現(xiàn)成函數(shù)D)需要更多機器內答案:D解析:Spark采用的是內存計算模式,需要的內存較多[單選題]21.()是指理解挖掘項目的目標業(yè)務需求。A)業(yè)務理解B)數(shù)據理解C)數(shù)據準備D)數(shù)據建模答案:A解析:根據CRISP-DM(cross-industrystandardprocessfordatamining,跨行業(yè)數(shù)據挖掘標準流程)模型,業(yè)務理解是指從業(yè)務的角度了解項目的要求和最終目的是什么,并將這些目的與數(shù)據挖掘的定義以及結果結合起來。[單選題]22.()是指對于數(shù)據局部不良行為的非敏感性,它是探索性分析追求的主要目標之一。A)魯棒性B)穩(wěn)定性C)可靠性D)耐抗性答案:D解析:耐抗性(Resistance)為探索性數(shù)據分析的四個指標之一,是指對于數(shù)據的局部不良行為的非敏感性,它是探索性分析追求的主要目標之一。對于具有耐抗性的分析結果,當數(shù)據的一小部分被新的數(shù)據代替時,即使它們與原來的數(shù)值差別很大,分析結果也只會有輕微的改變。[單選題]23.(假設precision=TP/(TP+FP),recall=TP/(TP+FN))在二分類問題中,當測試集的正例和負例數(shù)量不均衡時,以下評價方案哪個是相對不合理的()。A)curacy:(TP+TN)/allB)F-value:2recallprecision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:曲線下面答案:A解析:測試集正例和負例數(shù)量不均衡,那么假設正例數(shù)量很少占10%,負例數(shù)量占大部分90%。而且算法能正確識別所有負例,但正例只有一半能正確判別。那么TP=0.05×all,TN=0.9×all,Accuracy=95%。雖然Accuracy很高,precision是100%,但正例recall只有50%。[單選題]24.()將觀測值分為相同數(shù)目的兩部分,當統(tǒng)計結果為非對稱分布時,經常使用它。A)眾數(shù)B)標準差C)中位數(shù)D)均值答案:C解析:中位數(shù)是指一組數(shù)據排序后處于中間位置的變量值。[單選題]25.a=[1,2,3.4,5],切片時如果要取[2,3.4],正確的選項是()。A)a[1:4]B)a[-2:]C)a[1:-1]D)a[::2]答案:C解析:此題應注意是'3.4'而不是'3,4',有以下取法:a[1:3]、a[1:-1][單選題]26.下列縮進格式描述不正確的是()。A)縮進指在代碼行前面添加空格或Tab;B)在Python程序中,縮進不是任意的;C)縮進可以使程序更有層次感、更有結構感,從而是程序更易讀。D)平級的語句行(代碼塊)的縮進可以不相同。答案:D解析:Python強制縮進,平級的語句行與代碼塊的縮進必須相同。[單選題]27.數(shù)據科學家可能會同時使用多個算法(模型)進行預測,并且最后把這些算法的結果集成起來進行最后的預測(集成學習),以下對集成學習說法正確的是()。A)單個模型之間具有高相關性B)單個模型之間具有低相關性C)在集成學習中使用?平均權重?而不是?投票?會比較好D)單個模型都是用的一個算法答案:B解析:集成學習就是組合這里的多個弱監(jiān)督模型以期得到一個更好更全面的強監(jiān)督模型,集成學習潛在的思想是即便某一個弱模型得到了錯誤的預測,其他的弱模型也可以將錯誤糾正回來。某一個弱模型要有一定的?準確性?,即學習器不能太壞,并且要有多樣性,即個體學習器間具有差異。集成中即可包含同種類型的弱模型,也可包含不同類型的弱模型。[單選題]28.對于線性回歸模型,包括附加變量在內,以下的可能正確的是()。1)R-Squared和AdjustedR-squared都是遞增的2)R-Squared是常量的,AdjustedR-squared是遞增的3)R-Squared是遞減的,AdjustedR-squared也是遞減的4)R-Squared是遞減的,AdjustedR-squared是遞增的A)1和2B)1和3C)2和4D)以上都不是答案:D解析:R-squared不能決定系數(shù)估計和預測偏差。每次在模型中加入預測器,R-squared遞增或不變。[單選題]29.圖像平滑會造成()。A)圖像邊緣模糊化B)圖像邊緣清晰化C)無影響D)以上答案都不正答案:A解析:為了抑制噪聲,使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑實際上是低通濾波,平滑過程會導致圖像邊緣模糊化。[單選題]30.下列不能作為數(shù)據科學數(shù)據源的是()。A)醫(yī)院里的病歷、檢查、診斷等與健康相關的數(shù)據B)物聯(lián)網中涉及到設備運行情況的日志數(shù)據C)金融領域客戶的借款記錄以及信用情況D)個人電腦中用于備忘的日記答案:D解析:數(shù)據科學數(shù)據源的前提條件是數(shù)據需要具備:規(guī)律性、周期性等特征,個人電腦中用于備忘的日記一般不具備規(guī)律性。[單選題]31.隨機森林等樹狀算法通過哪個模塊進行調用()。A)dummyB)ensembleC)treeD)experimental答案:B解析:sklearn.ensemble模塊包含了很多集成學習的算法,包括隨機森林、Adaboost、GBDT等。[單選題]32.假設我們擁有一個已完成訓練的、用來解決車輛檢測問題的深度神經網絡模型,訓練所用的數(shù)據集由汽車和卡車的照片構成,而訓練目標是檢測出每種車輛的名稱(車輛共有10種類型)?,F(xiàn)在想要使用這個模型來解決另外一個問題,問題數(shù)據集中僅包含一種車(福特野馬)而目標變?yōu)槎ㄎ卉囕v在照片中的位置()。A)除去神經網絡中的最后一層,凍結所有層然后重新訓練B)對神經網絡中的最后幾層進行微調,同時將最后一層(分類層)更改為回歸層C)使用新的數(shù)據集重新訓練模型D)所有答案均不答案:B解析:由于神經網絡淺層網絡主要提取圖像的低維特征,對于相近領域進行遷移學習時,這些低維特征相同,因此只需要對最后幾層進行微調,而檢測位置相當于回歸任務。[單選題]33.關于數(shù)據相關性,以下說法錯誤的是()。A)關性體現(xiàn)了大數(shù)據的靈魂B)關性思維實現(xiàn)了從?為什么?到?是什么?的思維轉變C)關性關注事物的因果關系D)關性關注事物的相關關系答案:C解析:相關性,是指兩個變量的關聯(lián)程度,可以有正相關、負相關、不相關。[單選題]34.下列說法錯誤的是()A)生產者和消費者面向的都是一個topicB)生產者發(fā)送數(shù)據的對象是leaderC)當集群中的某個節(jié)點發(fā)生故障時,Replica上的partition數(shù)據不會丟失D)partition是一個沒有順序的隊答案:D解析:[單選題]35.直方圖均衡化適用于增強直方圖呈()分布的圖像。A)尖峰B)波形C)隨機D)高答案:A解析:直方圖均衡化適用于增強直方圖呈尖峰分布的圖像。[單選題]36.Hadoop-2.6.5集群中的HDFS的默認的數(shù)據塊的大小是()A)32MB)64MC)128MD)256M答案:C解析:[單選題]37.下面關于HiveSQL創(chuàng)建表時描述正確的是()A)LIKE允許復制表結構和表數(shù)據B)COMMENT可以為表與字段增加描述,必須有,不加會報錯C)ROWFORMAT設置行數(shù)據壓縮格式D)如果相同名字的表已經存在,則建表拋出異答案:D解析:[單選題]38.在k近鄰學習算法中,隨著k的增加,上界將逐漸降低,當k區(qū)域無窮大時,上界和下界碰到一起,k近鄰法就達到了()。A)貝葉斯錯誤率B)漸進錯誤率C)最優(yōu)值D)上答案:A解析:在k近鄰學習算法中,隨著k的增加,上界將逐漸降低,當k區(qū)域無窮大時,上界和下界碰到一起,k近鄰法就達到了貝葉斯錯誤率。[單選題]39.關于數(shù)據服務中,app說法正確的是:()。A)一個用戶只能創(chuàng)建一個APPB)一個APP只能申請一個API的權限C)一個用戶可以創(chuàng)建多個APP,一個APP可以申請多個API的權限D)一個API只能被一個APP使答案:C解析:[單選題]40.下列對于sigmoid函數(shù)的說法,錯誤的是()A)存在梯度爆炸的問題B)不是關于原點對稱C)計算exp比較耗時D)存在梯度消失的問答案:A解析:對于sigmoid函數(shù),S型函數(shù)圖像向兩邊的斜率逼近0,因此隨著網絡層增加,梯度消失比梯度爆炸更容易發(fā)生的多。[單選題]41.Hadoop中,Reducer的三個階段是__。A)Shuffle-Sort-ReduceB)Shuffle-Reduce-SortC)Reduce-Shuffle-SortD)Sort-Shuffle-Reduce答案:A解析:Reducer主要分為三個步驟Shuffle洗牌、Sort排序和Reduce[單選題]42.你正在訓練一個RNN網絡,你發(fā)現(xiàn)你的權重與激活值都是NaN,下列選項中,哪一個是導致這個問題的最有可能的原因()A)梯度消失B)梯度爆炸C)ReLU函數(shù)作為激活函數(shù)g(.),在計算g(z)時,z的數(shù)值過大了D)Sigmoid函數(shù)作為激活函數(shù)g(.),在計算g(z)時,z的數(shù)值過大答案:B解析:訓練過程中出現(xiàn)梯度爆炸會伴隨一些細微的信號,如:1、模型無法從訓練數(shù)據中獲得更新(如低損失)。2、模型不穩(wěn)定,導致更新過程中的損失出現(xiàn)顯著變化。3、訓練過程中,模型損失變成NaN。[單選題]43.銳化(高通)濾波器的作用()。A)能消減或削弱傅立葉空間的低頻分量,但不影響高頻分量B)能消減或削弱傅立葉空間的高頻分量,但不影響低頻分量C)對傅立葉空間的低、高頻分量均有削弱或削除作用D)對傅立葉空間的低、高頻分量均有增強作答案:A解析:高通濾波與低通濾波正好相反,是頻域圖像的高頻部分通過而抑制低頻部分。在圖像中圖像的邊緣對應高頻分量,因此高通濾波的效果是圖像銳化。[單選題]44.考慮某個具體問題時,你可能只有少量數(shù)據來解決這個問題。不過幸運的是你有一個類似問題已經預先訓練好的神經網絡??梢杂孟旅婺姆N方法來利用這個預先訓練好的網絡()A)把除了最后一層外所有的層都凍住,重新訓練最后一層B)對新數(shù)據重新訓練整個模型C)只對最后幾層進行調參(finetune)D)對每一層模型進行評估,選擇其中的少數(shù)來答案:C解析:如果有個預先訓練好的神經網絡,就相當于網絡各參數(shù)有個很靠譜的先驗代替隨機初始化。若新的少量數(shù)據來自于先前訓練數(shù)據(或者先前訓練數(shù)據量很好地描述了數(shù)據分布,而新數(shù)據采樣自完全相同的分布),則凍結前面所有層而重新訓練最后一層即可;但一般情況下,新數(shù)據分布跟先前訓練集分布有所偏差,所以先驗網絡不足以完全擬合新數(shù)據時,可以凍結大部分前層網絡,只對最后幾層進行訓練調參(這也稱之為finetune)。[單選題]45.視覺通道表現(xiàn)力評價指標不包括()。A)精確性B)可辨認性C)可分離性D)可轉換性答案:D解析:在數(shù)據來源和目標用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標包括精確性、可辨認性、可分離性和視覺突出性。[單選題]46.假設你在卷積神經網絡的第一層中有5個卷積核,每個卷積核尺寸為7×7,具有零填充且步幅為1。該層的輸入圖片的維度是224×224×3。那么該層輸出的維度是多少()A)217x217x3B)217x217x8C)218x218x5D)220x220x答案:C解析:如果原始圖片尺寸為nxn,filter尺寸為fxf,則卷積后的圖片尺寸為(n-f+1)x(n-f+1),注意f一般為奇數(shù)。若考慮存在填充和步幅,用s表示stride長度,p表示padding長度,如果原始圖片尺寸為nxn,filter尺寸為fxf,則卷積后的圖片尺寸為:[(n+2p-f)/s+1]x[(n+2p-f)/s+1](中括號內向下取整).此例中,n=224,p=0,f=7,s=1,因此,該層輸出的尺寸為218x218.輸出的第三個維度由濾波器的個數(shù)決定,即為5。[單選題]47.下面那種情況不會觸發(fā)ConsumerRebalance操作()A)某個消費者崩潰B)某個生產者崩潰C)消費者消費的多個topic中某個topic被刪除D)新增消費答案:B解析:[單選題]48.采用模板[-1,1]主要檢測()方向的邊緣A)水平B)45°C)垂直D)135°答案:C解析:[單選題]49.假設我們已經在ImageNet數(shù)據集(物體識別)上訓練好了一個卷積神經網絡。然后給這張卷積神經網絡輸入一張全白的圖片。對于這個輸入的輸出結果為任何種類的物體的可能性都是一樣的,對嗎()。A)對的B)不知道C)看情況D)不答案:D解析:不對,神經網絡對于未知的數(shù)據不是均勻預測的,會對莫一種或多種類別存在偏向。[單選題]50.對于一個圖像識別問題(在一張照片里找出一只貓),下面哪種神經網絡可以更好地解決這個問題()A)循環(huán)神經網絡B)感知機C)多層感知機D)卷積神經網答案:D解析:卷積神經網絡可以提取圖像特征,且具有平移不變性.循環(huán)神經網絡適合語言類數(shù)據。[單選題]51.字符串的strip方法的作用是()A)刪除字符串頭尾指定的字符B)刪除字符串末尾的指定字符C)刪除字符串頭部的指定字符D)通過指定分隔符對字符串切片答案:A解析:[單選題]52.sklearn庫中對數(shù)據進行預處理和規(guī)范化主要依靠()模塊。A)neighbors模塊B)preprocessing模塊C)pipeline模塊D)datasets模塊答案:B解析:sklearn.preprocessing模塊包括縮放,居中,歸一化,二值化和插補方法,主要是對數(shù)據進行預處理和規(guī)范化。[單選題]53.通過聚集多個分類器的預測來提高分類準確率的技術稱為()。A)組合(ensemble)B)聚集(aggregate)C)合并(combination)D)投票(voting)答案:A解析:通過聚集多個分類器的預測來提高分類準確率的技術稱為組合。[單選題]54.建立在相關關系分析法基礎上的預測是大數(shù)據的()。A)基礎B)前提C)核心D)條件答案:C解析:建立在相關關系分析法基礎上的預測是大數(shù)據的核心。[單選題]55.請把下劃處的代碼補充完整:______intostudent(s_name)______(?王大軍?);A)update,valuesB)insert,valueC)insert,valuesD)delete,lik答案:C解析:[單選題]56.為提高計算性能,Spark中Transformation操作采用的是()計算模式。A)活性B)惰性C)實時D)非實時答案:B解析:Spark的所有Trandformation操作采取的是?惰性計算模式?[單選題]57.以下關于Hadoop中MapReduce說法正確的是()。A)可以沒有reduce任務B)Reducer輸入為隨機輸入C)shuffle主要實現(xiàn)數(shù)據可視化功能D)一個reducer只能從一個map復制所需要的partition答案:A解析:MapReduce中的reduce并不是必須存在的。[單選題]58.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于()的離群點檢測。A)統(tǒng)計方法B)鄰近度C)密度D)機器學習技術答案:A解析:檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于統(tǒng)計的離群點檢測。[單選題]59.在MaxComputeSQL中,對兩個double類型的時間進行比較,正確的做法是:()。A)使用關系運算符B)使用關系運算符"!=?C)使用關系運算符?<>?D)使用兩個double類型相減,然后取絕對值的方式進行答案:D解析:[單選題]60.K-means++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互距離要盡可能的遠。那么算法流程為()。1.從輸入的數(shù)據點集合中隨機選擇一個點作為第一個聚類中心2.對于數(shù)據集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)3.選擇一個新的數(shù)據點作為新的聚類中心,選擇的原則是:D(x)較大的點,被選取作為聚類中心的概率較大4.重復2和3直到k個聚類中心被選出來5.利用這k個初始的聚類中心來運行標準的k-means算法A)2.5.4.3.1B)1.5.4.2.3C)1.2.3.4.5D)4.3.2.1.答案:C解析:k-means++算法基本流程為:1.從輸入的數(shù)據點集合中隨機選擇一個點作為第一個聚類中心2.對于數(shù)據集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)3.選擇一個新的數(shù)據點作為新的聚類中心,選擇的原則是:D(x)較大的點,被選取作為聚類中心的概率較大4.重復2和3直到k個聚類中心被選出來5.利用這k個初始的聚類中心來運行標準的k-means算法[單選題]61.下列哪種機器學習算法不需要歸一化處理()A)DecisionTreeB.SVMC.KmeansD.LogisticRegressioB)C)KmeansD)LogisticRegressio答案:A解析:DecisionTree屬于概率模型,不需要歸一化處理;SVM、Kmeans和LogisticRegression之類的最優(yōu)化問題需要歸一化處理。[單選題]62.()是表現(xiàn)數(shù)據分布對稱性的指標。A)斜率B)偏斜度C)偏度D)偏離答案:B解析:偏斜度是對統(tǒng)計數(shù)據分布偏斜方向及程度的度量。在偏態(tài)分布中,當偏斜度為正值時,分布正偏,即眾數(shù)位于算術平均數(shù)的左側;當偏斜度為負值時,分布負偏,即眾數(shù)位于算術平均數(shù)的右側。[單選題]63.圖像的形態(tài)學處理方法包括()。A)圖像增強B)圖像銳化C)圖像分割D)腐蝕答案:D解析:圖像的形態(tài)學處理方法最常用的幾種操作:腐蝕、膨脹、開操作、閉操作、形態(tài)學濾波、形態(tài)學梯度、頂帽、黑帽以及測地腐蝕、測地膨脹。[單選題]64.HBase使用一個()節(jié)點協(xié)調管理一個或多個regionserver從屬機。A)namenode;B)datanode;C)jobtracker;D)master;答案:D解析:Hbase中由一個Master節(jié)點負責協(xié)調管理一個或多個RegionServer從屬機第2部分:多項選擇題,共22題,每題至少兩個正確答案,多選或少選均不得分。[多選題]65.下列的函數(shù)轉換哪一個是正確的(語法正確):A)int("abcdef")ValueErrorB)float(''')SyntaxErrorC)bool((3,',"))SyntaxErrorD)str(')SyntaxError答案:BD解析:[多選題]66.DWS支持的事務隔離級別有:A)READUNCOMMITTED(讀未提交)B)READCOMMITTED(讀提交)C)REPEATABLEREAD(可重復讀)D)SERIALIZABLE(序列化答案:BC解析:[多選題]67.大數(shù)據計算服務(MaxCompute,原ODPS)提供的是海量數(shù)據的存儲和計算能力,和我們熟悉的關系型數(shù)據庫存在較大的差別。以下說法中正確的是:()。A)不支持事務B)不支持deleteC)不支持索引D)不支持壓縮答案:ABC解析:[多選題]68.下列關于RNN、LSTM、GRU說法正確的是(__)。A)RNN引入了循環(huán)的概念B)LSTM可以防止梯度消失或者爆炸C)GRU是LSTM的變體D)RNN、LSTM、GRU是同一神經網絡的不同說法,沒有區(qū)答案:ABCD解析:RNN:循環(huán)神經網絡,是非線性動態(tài)系統(tǒng),將序列映射到序列;LSTM:LSTM通過刻意的設計來避免長期依賴問題。記住長期的信息在實踐中是LSTM的默認行為,而非需要付出很大代價才能獲得的能力;GRU:LSTM有很多變體,其中較大改動的是GatedRecurrentUnit(GRU),它將忘記門和輸入門合成了一個單一的更新門。同樣還混合了細胞狀態(tài)和隱藏狀態(tài),和其他一些改動。最終的模型比標準的LSTM模型要簡單。效果和LSTM差不多,但是參數(shù)少了1/3,不容易過擬合。[多選題]69.下面是Python的特點和優(yōu)點是()。A)解釋性B)動態(tài)特性C)面向對象D)語法簡潔答案:ABCD解析:Python的特點和優(yōu)點是基于面向對象設計,代碼解釋性強,使用動態(tài)特性、語法簡潔。[多選題]70.關于Hive的說法正確的是()。A)Hive是基于Hadoop的數(shù)據倉庫工具B)Hive可以將結構化的數(shù)據文件映射為一張數(shù)據庫表C)最初,Hive由Google開源,用于解決海量結構化日志數(shù)據統(tǒng)計問題D)Hive的主要應用場景是離線分析答案:ABD解析:Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術是GFS,BigTable,MapReduce。[多選題]71.下列哪些是傳統(tǒng)RDBMS的缺點()A)表結構schema擴展不方便B)全文搜索功能較弱C)大數(shù)據場景下I/O較高D)存儲和處理復雜關系型數(shù)據功能較弱答案:ABCD解析:傳統(tǒng)RDBMS的缺點包括表結構schema擴展不方便、全文搜索功能較弱、大數(shù)據場景下I/O較高、存儲和處理復雜關系型數(shù)據功能較弱。[多選題]72.以下關于HTML標簽嵌套規(guī)則的說法,正確的是()。A)塊元素可以包含內聯(lián)元素或某些塊元素,但內聯(lián)元素也可以包含塊元素B)HTML標簽包括塊級元素和內嵌元素C)內嵌元素一般用在網站內容之中的某些細節(jié)或部位,用以?強調區(qū)分樣式上標下標錨點?等,通常包括:aabbrbbrfontiimginputkbdlabelqsselectsmallspansubttuvar等D)其中塊級元素一般用來搭建網絡架構布局承載內容,通常包括的標簽有:addressdirdivdldtddformh1~h6hrisindexmenunoframesnoscriptolppretableul等答案:BCD解析:塊元素可以包含內聯(lián)元素或某些塊元素,但內聯(lián)元素卻不能包含塊元素,它只能包含其他的內聯(lián)元素。[多選題]73.DWS提供的用于數(shù)倉遷移的工具包括以下哪些:A)DBSB)GDSC)MigrationToolD)TransferToo答案:BC解析:[多選題]74.HIS表色系的三屬性包含:()。A)色調B)色飽和度C)亮度D)色答案:ABC解析:HIS表色系包含色調,色飽和度和亮度。[多選題]75.神經網絡的拓撲結構可以分為()和隨機型網絡等。A)前向型B)后向型C)反饋型D)自組織競爭答案:ACD解析:神經網絡的拓撲結構有前向型、反饋型、自組織競爭型和隨機型網絡等。[多選題]76.Spark容錯性的方式有哪些()。A)數(shù)據檢查點;B)存儲原始數(shù)據;C)記錄數(shù)據的更新;D)自建數(shù)據版本;答案:AC解析:Spark容錯性有兩種方式數(shù)據檢查點和記錄數(shù)據的更新。[多選題]77.關于數(shù)據流轉和應用,以下說法正確的是()。A)數(shù)據流轉和應用過程中應確??勺匪?、可復查B)前序環(huán)節(jié)應保證數(shù)據的真實、完整C)前序環(huán)節(jié)應及時傳遞到后序環(huán)節(jié)D)前后環(huán)節(jié)數(shù)據應保持銜接一致答案:ABCD解析:數(shù)據流轉和應用主要包括可追溯、復查,數(shù)據真實、完整,環(huán)節(jié)銜接完整,環(huán)節(jié)銜接數(shù)據一致。[多選題]78.DGI定義的數(shù)據治理任務包括()。A)數(shù)據質量的評估B)主動定義或序化規(guī)則C)為數(shù)據利益相關者提供持續(xù)跨職能的保護與服務D)應對并解決因不遵守規(guī)則而產生的問題答案:BCD解析:DGI(TheDataGover略ceInstitute)認為數(shù)據治理是對數(shù)據相關的決策及數(shù)據使用權限控制的活動。它是一個信息處理過程中根據模型來執(zhí)行的決策權和承擔責任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。[多選題]79.下面哪些是循環(huán)神經網絡的輸出模式(__)。A)多輸出B)單輸出C)同步多輸出D)異步多輸答案:ABD解析:循環(huán)神經網絡是遞歸的,不可能同步多輸出。[多選題]80.在假設檢驗中,當原假設為?偽?,但數(shù)據分析人員沒有拒絕它時犯的錯誤叫()。A)α錯誤B)β錯誤C)取偽錯誤D)棄真錯誤答案:BC解析:α錯誤(棄真錯誤):當原假設為真時,但我們錯誤地認為?原假設是不成立的?,進而導致拒絕這個正確假設;β錯誤(取偽錯誤):當原假設為假時,但我們錯誤地認為?原假設是成立的?,進而導致接受此錯誤假設[多選題]81.在大數(shù)據計算服務(MaxCompute,原ODPS)SQL中可以用邏輯運算連接多個條件,以下邏輯運算結果正確的有:()。A)TrueorNULL=TrueB)FalseORFalse=FalseC)TrueANDFalse=FalseD)TrueANDTrue=True答案:ABCD解析:[多選題]82.關于Python組合數(shù)據類型,以下選項中描述正確的是()。A)Python的str,tuple和list類型都屬于序列類型B)Python組合數(shù)據類型能夠將多個同類型或不同類型的數(shù)據組織起來,通過單一的表示使數(shù)據操作更有序更容易C)組合數(shù)據類型可以分為3類:序列類型,集合類型和映射類型D)序列類型是二維元素向量,元素之間存在先后關系,通過序號訪問答案:ABC解析:序列類型是一維元素向量。[多選題]83.關于Python語言的特點,以下選項描述不正確的是()。A)Python語言不支持面向對象B)Python語言是解釋型語言C)Python語言是編譯型語言D)Python語言是非跨平臺語言答案:ACD解析:Python語言是面向對象的解釋型語言,可跨平臺使用。[多選題]84.下面有關HTML敘述正確的是()。A)一個HTML文件可以用記事本來編輯B)HTML的意思是超文本標記語言C)一個HTML文件必須是一個以htm或html為擴展名的文件D)HTML區(qū)分大小寫,如寫成<B>是錯誤的答案:ABC解析:在HTML文件是不區(qū)分大小寫的。[多選題]85.關于分析學習和歸納學習的比較,說法正確的是()。A)歸納學習擬合數(shù)據假設,分析學習擬合領域理論的假設B)歸納學習論證方式為統(tǒng)計推理,分析學習為演繹推理C)歸納學習不需要隱式的先驗知識D)訓練數(shù)據不足時歸納學習可能會失敗答案:ABCD解析:分析學習是相對于歸納學習的一種提法,其特點是使用先驗知識來分析或解釋每個訓練樣本,以推理出樣本的哪些特征與目標函數(shù)相關或不相關。因此,這些解釋能使機器學習系統(tǒng)比單獨依靠數(shù)據進行泛化有更高的精度。分析學習使用先驗知識來減小待搜索假設空間的復雜度,減小了樣本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論