大數(shù)據(jù)理論考試(習(xí)題卷10)_第1頁
大數(shù)據(jù)理論考試(習(xí)題卷10)_第2頁
大數(shù)據(jù)理論考試(習(xí)題卷10)_第3頁
大數(shù)據(jù)理論考試(習(xí)題卷10)_第4頁
大數(shù)據(jù)理論考試(習(xí)題卷10)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

試卷科目:大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷10)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分:單項選擇題,共64題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.下列關(guān)于L1正則化與L2正則化描述錯誤的是()。A)L1范數(shù)正則化有助于降低過擬合風(fēng)險B)L2范數(shù)正則化有助于降低過擬合風(fēng)險C)L1范數(shù)正則化比L2范數(shù)正則化更有易于獲得稀疏解D)L2范數(shù)正則化比L1范數(shù)正則化更有易于獲得稀疏答案:D解析:周志華機器學(xué)習(xí)[單選題]2.CNN神經(jīng)網(wǎng)絡(luò)對圖像特征提取帶來了變革性的變化,使之前的人工特征提取升級到數(shù)據(jù)驅(qū)動的自動特征提取,在CNN中,起到特征提取作用的網(wǎng)絡(luò)層是:(__)。A)convolution層B)fullconnect層C)maxpooling層D)norm答案:A解析:卷積層負(fù)責(zé)提取特征,采樣層負(fù)責(zé)特征選擇,全連接層負(fù)責(zé)分類。[單選題]3.邏輯回歸將輸出概率限定在[0,1]之間。下列哪個函數(shù)起到這樣的作用()。A)Sigmoid函數(shù)B)tanh函數(shù)C)ReLU函數(shù)D)LeakyReLU函數(shù)答案:A解析:Sigmoid函數(shù)輸出值限定在[0,1]之間。[單選題]4.以下哪些方法不可以直接來對文本分類()A)KmeansB)決策樹C)支持向量機D)KN答案:A解析:Kmeans是聚類方法,屬于無監(jiān)督學(xué)習(xí)。BCD都是常見的分類方法。[單選題]5.關(guān)于Hive中窗口函數(shù)下列描述正確的是()A)LAG用于統(tǒng)計窗口內(nèi)往上第n行值,空不計入窗口中B)LEAD用于統(tǒng)計窗口內(nèi)往下第n行值,空不計入窗口中C)FIRST_VALUE取分組排序后,截止到當(dāng)前行的第一個值D)LAST_VALUE取分組不需要指定ORDERBY后,截止到當(dāng)前行的最后一個答案:C解析:[單選題]6.在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,感知機輸出層中的M-P神經(jīng)元通常被稱為()。A)閾值邏輯單元B)激活函數(shù)C)擠壓函數(shù)D)連接函答案:A解析:深度學(xué)習(xí)基礎(chǔ)知識。[單選題]7.在一個線性回歸問題中,我們使用R平方(R-Squared)來判斷擬合度。此時,如果增加一個特征,模型不變,則下面說法正確的是()。A)如果R-Squared增加,則這個特征有意義B)如果R-Squared減小,則這個特征沒有意義C)僅看R-Squared單一變量,無法確定這個特征是否有意義。D)以上說法都不對答案:C解析:單獨看R-Squared,并不能推斷出增加的特征是否有意義。通常來說,增加一個特征,R-Squared可能變大也可能保持不變,兩者不一定呈正相關(guān)。[單選題]8.在留出法、交叉驗證法和自助法三種評估方法中,()更適用于數(shù)據(jù)集較小、難以劃分訓(xùn)練集和測試集的情況。A)留出法B)交叉驗證法C)自助法D)留一答案:C解析:自助法更適用于數(shù)據(jù)集較小、難以劃分訓(xùn)練集和測試集的情況。[單選題]9.np.exp(x).round(5)的結(jié)果是2.71828,x的值是()。A)0B)1C)2D)2.71828答案:B解析:e的1次方。[單選題]10.()是交叉驗證法的一種特例。A)自助法B)留一法C)交叉驗證法D)錯誤率分答案:B解析:留一法是交叉驗證法的一種特例。[單選題]11.設(shè)有關(guān)系模式EMP(職工號,姓名,年齡,技能)。假設(shè)職工號唯一,每個職工有多項技能,則EMP表的主鍵是A)職工號B)姓名,技能C)技能D)職工號,技答案:A解析:[單選題]12.以下關(guān)于圖像識別任務(wù)的敘述,錯誤的是()。A)目標(biāo)在于檢測出圖像中的對象是什么B)在識別前往往需要對圖像進(jìn)行預(yù)處理C)N是一種常用的圖像識別網(wǎng)絡(luò)D)圖像的采集和傳輸方式對于圖像識別結(jié)果沒有影答案:D解析:圖像處理基礎(chǔ)知識。[單選題]13.核矩陣是()的。A)沒有規(guī)律B)半正定C)正定D)樣本矩陣答案:B解析:只要一個對稱函數(shù)所對應(yīng)的核矩陣半正定,它就能作為核函數(shù)使用。[單選題]14.LSTM中,(__)的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中,并更新細(xì)胞狀態(tài)。A)輸入門B)遺忘門C)輸出門D)更新門答案:A解析:LSTM中,輸入門的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中,并更新細(xì)胞狀態(tài);遺忘門決定我們會從細(xì)胞狀態(tài)中丟棄什么信息;輸出門確定輸出。[單選題]15.關(guān)于eval函數(shù),以下選項中描述錯誤的是().A)eval函數(shù)的作用是將輸入的字符串轉(zhuǎn)為Python語句,并執(zhí)行該語句B)如果用戶希望輸入一個數(shù)字,并用程序?qū)@個數(shù)字進(jìn)行計算,可以采用eval(input(<輸入提示字符串>))組合C)執(zhí)行eval("Hello")和執(zhí)行eval("'Hello'")得到相同的結(jié)果D)eval函數(shù)的定義為:eval(source,globals=None,locals=None,/)答案:C解析:eval()函數(shù)將去掉字符串的兩個引號,將其解釋為一個變量,因此C應(yīng)該分別報錯和輸出'Hello'[單選題]16.下列關(guān)于特征編碼的敘述中,不正確的是()。A)特征編碼是將非數(shù)值型特征轉(zhuǎn)換成數(shù)值型特征的方法;B)數(shù)字編碼與特征的排序無關(guān);C)One-Hot編碼中,原始特征有n種取值,轉(zhuǎn)換后就會產(chǎn)生n列新特征;D)啞變量編碼解決了One-Hot編碼中存在線性關(guān)系的問題;答案:B解析:數(shù)字編碼與特征的排序有關(guān),先出現(xiàn)的優(yōu)先排序。[單選題]17.Numpy中對數(shù)組進(jìn)行轉(zhuǎn)置的函數(shù)是哪個()。A)transpose()B)rollaxis()C)swapaxes()D)tan()答案:A解析:transpose()對矩陣進(jìn)行矩陣轉(zhuǎn)置,rollaxis()向后滾動指定的軸,swapaxes()對換數(shù)組的兩個軸,tan()求三角函數(shù),[單選題]18.已知一組數(shù)據(jù)的協(xié)方差矩陣P,下面關(guān)于主分量說法錯誤的是()。A)主分量分析的最佳準(zhǔn)則是對一組數(shù)據(jù)進(jìn)行按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計算截尾誤差最小B)在經(jīng)主分量分解后,協(xié)方差矩陣成為對角矩陣C)主分量分析就是K-L變換D)主分量是通過求協(xié)方差矩陣的特征值得到答案:C解析:主分量分析的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種(二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等等)。當(dāng)K-L變換矩陣為協(xié)方差矩陣時,等同于PCA。[單選題]19.Python內(nèi)置函數(shù)()可以返回列表、元組、字典、集合、字符串以及range對象中元素個數(shù)。A)len()B)lengthC)sizeof()D)max()答案:A解析:len()返回元素個數(shù),max()返回最大值,python中無length()和sizeof()。[單選題]20.select*fromstudent該代碼中的*號,表示的正確含義是A)普通的字符*號B)錯誤信息C)所有的字段名D)模糊查答案:C解析:[單選題]21.下列算法中屬于圖像平滑處理的是()。A)梯度銳化B)直方圖均衡化C)中值濾波D)Laplacian增答案:C解析:中值濾波是一種非線性平滑技術(shù),是常用的圖像平滑處理方法。[單選題]22.()技術(shù)可以將所有數(shù)據(jù)的特性通過圖的方式展現(xiàn)出來。A)支持向量機B)神經(jīng)網(wǎng)絡(luò)C)數(shù)據(jù)可視化D)數(shù)據(jù)挖掘答案:C解析:數(shù)據(jù)可視化技術(shù)可以將所有數(shù)據(jù)的特性通過圖的方式展現(xiàn)出來,而支持向量機、神經(jīng)網(wǎng)絡(luò)為具體數(shù)據(jù)分析方法,數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。[單選題]23.數(shù)據(jù)庫服務(wù)器、數(shù)據(jù)庫和表的關(guān)系,正確的說法是A)一個數(shù)據(jù)庫服務(wù)器只能管理一個數(shù)據(jù)庫,一個數(shù)據(jù)庫只能包含一個表B)一個數(shù)據(jù)庫服務(wù)器可以管理多個數(shù)據(jù)庫,一個數(shù)據(jù)庫可以包含多個表C)一個數(shù)據(jù)庫服務(wù)器只能管理一個數(shù)據(jù)庫,一個數(shù)據(jù)庫可以包含多個表D)一個數(shù)據(jù)庫服務(wù)器可以管理多個數(shù)據(jù)庫,一個數(shù)據(jù)庫只能包含一個答案:B解析:[單選題]24.如下哪些不是最近鄰分類器的特點()。A)它使用具體的訓(xùn)練實例進(jìn)行預(yù)測,不必維護(hù)源自數(shù)據(jù)的模型B)分類一個測試樣例開銷很大C)最近鄰分類器基于全局信息進(jìn)行預(yù)測D)可以生產(chǎn)任意形狀的決策邊答案:C解析:k-近鄰中的近鄰指的是距離待預(yù)測數(shù)據(jù)的數(shù)據(jù)點,而k-近鄰就指的是取前k近的數(shù)據(jù)點,并非基于全局信息進(jìn)行預(yù)測。[單選題]25.下列關(guān)于數(shù)據(jù)科學(xué)流程與方法的描述中,錯誤的是()。A)數(shù)據(jù)科學(xué)的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)、數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見、結(jié)果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供B)對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過清洗成為規(guī)整數(shù)據(jù)C)數(shù)據(jù)分析包括描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析D)數(shù)據(jù)可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺假象答案:B解析:對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過規(guī)整化處理(DataTyding)成為規(guī)整數(shù)據(jù)[單選題]26.卷積神經(jīng)網(wǎng)絡(luò)能通過卷積以及池化等操作將不同種類的鳥歸為一類。關(guān)于卷積神經(jīng)網(wǎng)絡(luò)能達(dá)到該效果的原因,下列說法不正確的是()。A)同樣模式的內(nèi)容(如鳥嘴)在圖像不同位置可能出現(xiàn)B)池化之后的圖像主體內(nèi)容基本不變C)不同種類鳥的相同部位(如鳥嘴)形狀相似D)池化作用能使不同種類鳥變得相答案:D解析:D:特征維數(shù)的減少并不會讓之前的特征丟失[單選題]27.數(shù)據(jù)倉庫僅僅是提供存儲的,提供一種()的服務(wù),不面向最終分析用戶,而數(shù)據(jù)集市是()的,面向最終用戶。A)面向分析應(yīng)用.面向數(shù)據(jù)管理B)面向事務(wù)交互.面向數(shù)據(jù)管理C)面向數(shù)據(jù)管理.面向分析應(yīng)用D)面向分析應(yīng)用.面向事務(wù)交答案:A解析:[單選題]28.pyplot.title()的作用是()。A)繪制垂直線B)為圖設(shè)置標(biāo)題C)為圖添加文本D)繪制互相關(guān)答案:B解析:pyplot.title()可以設(shè)置繪圖標(biāo)題。[單選題]29.平滑圖像()處理可以采用RGB彩色模型。A)直方圖均衡化B)直方圖均衡化C)加權(quán)均值濾波D)中值濾波答案:C解析:平滑圖像處理可以采用RGB彩色加權(quán)均值濾波模型。[單選題]30.線性回歸的基本假設(shè)不包括哪個()。A)隨機誤差項是一個期望值為0的隨機變量B)對于解釋變量的所有觀測值,隨機誤差項有相同的方差C)隨機誤差項彼此相關(guān)D)解釋變量是確定性變量不是隨機變量,與隨機誤差項之間相互獨立答案:C解析:線性回歸的基本假設(shè):(1)線性關(guān)系假設(shè)(2)正態(tài)性假設(shè),指回歸分析中的Y服從正態(tài)分布。(3)獨立性假設(shè),包含兩個意思:①與某一個X值對應(yīng)的一組Y值和與另一個X值對應(yīng)的一組Y值之間沒有關(guān)系,彼此獨立。②誤差項獨立,不同的X所產(chǎn)生的誤差之間應(yīng)相互獨立,無自相關(guān)。(4)誤差等分散性假設(shè):特定X水平的誤差,除了應(yīng)呈隨機化的常態(tài)分配,其變異量也應(yīng)相等,稱為誤差等分散性。[單選題]31.以下選項中,不屬于函數(shù)的作用的是()。A)提高代碼執(zhí)行速度B)降低編程復(fù)雜度C)增強代碼可讀性D)復(fù)用代碼答案:A解析:函數(shù)可以降低編程復(fù)雜度$;$增強代碼可讀性$;$復(fù)用代碼[單選題]32.在運行時,由MaxCompute依據(jù)上下文使用環(huán)境及類型轉(zhuǎn)換規(guī)則自動進(jìn)行的類型轉(zhuǎn)換是:()。A)顯示轉(zhuǎn)換B)影式專換C)cast轉(zhuǎn)換D)SQL轉(zhuǎn)換答案:B解析:[單選題]33.數(shù)據(jù)資產(chǎn)應(yīng)用以安全可控為前提,按照()的原則,落實安全與保密責(zé)任。A)誰經(jīng)手,誰使用,誰負(fù)責(zé)B)誰主管,誰負(fù)責(zé)C)誰使用,誰主管,誰負(fù)責(zé)D)誰錄入,誰使用,誰負(fù)責(zé)答案:A解析:數(shù)據(jù)資產(chǎn)應(yīng)用以安全可控為前提,按照誰經(jīng)手,誰使用,誰負(fù)責(zé)的原則,落實安全與保密責(zé)任。[單選題]34.下列關(guān)于配置機架感知的相關(guān)描述哪項不正確()A)如果一個機架出問題,不會影響數(shù)據(jù)讀寫和正確性B)寫入數(shù)據(jù)的時候多個副本會寫到不同機架的DataNode中C)MapReduce會根據(jù)機架的拓?fù)浍@取離自己比較近的數(shù)據(jù)塊D)數(shù)據(jù)塊的第一個副本會優(yōu)先考慮存儲在客戶端所在節(jié)點答案:D解析:在HDFS的副本存放策略中,數(shù)據(jù)塊的第一個副本和第二個副本會存放在不同的機架中,但是第三個副本會優(yōu)先考慮存放在跟第二個副本相同機架的不同節(jié)點中,也有可能存放在跟第一個副本相同機架的不同節(jié)點中,因此D錯。[單選題]35.生成多項式和交互特征使用preprocessing模塊中的()函數(shù)。A)preprocessing.binarize()B)preprocessing.Normalizer()C)preprocessing.LabelEncoder()D)preprocessing.PolynomialFeatures()答案:D解析:preprocessing.PolynomialFeatures用于生成多項式和交互特征,可以將線性回歸模型應(yīng)用于多項式回歸中。[單選題]36.對矩陣[[0,0,3],[1,1,0],[0,2,1],[1,0,2]]進(jìn)行獨熱編碼訓(xùn)練后,對矩陣[[0,1,3]]進(jìn)行獨熱編碼輸出結(jié)果為()。A)[0,1,0,1,0,0,0,1,0]B)[1,0,0,1,0,0,0,0,1]C)[0,1,0,0,1,0,0,0,1]D)[1,0,0,0,1,0,0,1,0]答案:B解析:對于訓(xùn)練矩陣第一列為第一個特征維度,有兩種取值01,所以對應(yīng)編碼方式為10、01;同理,第二列為第二個特征維度,有三種取值012,所以對應(yīng)編碼方式為100、010、001;同理,第三列為第三個特征維度,有四中取值0123,所以對應(yīng)編碼方式為1000、0100、0010、0001,再來看要進(jìn)行編碼的參數(shù)[0,1,3],0作為第一個特征編碼為10,1作為第二個特征編碼為010,3作為第三個特征編碼為0001,故此編碼結(jié)果為[1,0,0,1,0,0,0,0,1]。[單選題]37.以下選項正確的是()。ImportnumpyasnpNm=('raju','anil','ravi','amar')Dv=('f.y.','s.y.','s.y.','f.y.')Ind=np.lexsort((nm,dv))Print(ind)A)[3012]B)[1359]C)[3198]D)['amar,f.y.''anil,s.y.''raju,f.y.''ravi,s.y.']答案:A解析:np.lexsort()按照多列排序,返回排序后的行索引。[單選題]38.選擇Logistic回歸中的One-Vs-All方法中的哪個選項是真實的()。A)我們需要在n類分類問題中適合n個模型B)我們需要適合n-1個模型來分類為n個類C)我們需要只適合1個模型來分類為n個類D)以上答案都不正確答案:A解析:如果存在n個類,那么n個單獨的邏輯回歸必須與之相適應(yīng),其中每個類的概率由剩余類的概率之和確定。[單選題]39.可用信息增益來進(jìn)行決策樹的()。A)樹高B)葉子結(jié)點數(shù)C)總結(jié)點數(shù)D)劃分屬性選答案:D解析:可用信息增益來進(jìn)行決策樹的劃分屬性選擇。[單選題]40.AGNES是一種采用()策略的層次聚類算法。A)自頂向下B)自底向上C)自左至右D)自右至答案:B解析:AGNES是一種采用自底向上策略的層次聚類算法。[單選題]41.表達(dá)式select(9+6*5+3%2)/5-3的運算結(jié)果是多少?A)1B)3C)5D)7答案:C解析:[單選題]42.有N個樣本,一般用于訓(xùn)練,一般用于測試。若增大N值,則訓(xùn)練誤差和測試誤差之間的差距會如何變化()。A)增大B)減小C)無法確定D)無明顯變化答案:B解析:增加數(shù)據(jù),能夠有效減小過擬合,減小訓(xùn)練樣本誤差和測試樣本誤差之間的差距。[單選題]43.構(gòu)造了一個詞表:{1.小明2.喜歡3.踢4.看5.足球6.籃球7.電影},利用上述詞表的索引號,文檔{小明喜歡踢足球}可以用一個7維向量表示為()。A)[1101001]B)[1111111]C)[1111100]D)[1110100答案:D解析:統(tǒng)計文檔中每個詞的數(shù)量,根據(jù)詞表的位置,將各個詞的數(shù)量拼接成一個向量即可。[單選題]44.結(jié)構(gòu)化數(shù)組不能使用以下哪種數(shù)據(jù)類型創(chuàng)建()。A)元組列表B)字符串C)字典D)整數(shù)答案:D解析:結(jié)構(gòu)化數(shù)組類型創(chuàng)建有四種不同的規(guī)范形式:元組列表、逗號分割的數(shù)據(jù)類型規(guī)范字符串、字段參數(shù)組字典、字段名稱字典,不包含整數(shù)。[單選題]45.關(guān)于Python的全局變量和局部變量,以下選項中描述錯誤的是()。A)局部變量指在函數(shù)內(nèi)部使用的變量,當(dāng)函數(shù)退出時,變量依然存在,下次函數(shù)調(diào)用可以繼續(xù)使用B)使用global保留字聲明簡單數(shù)據(jù)類型變量后,該變量作為全局變量使用C)簡單數(shù)據(jù)類型變量無論是否與全局變量重名,僅在函數(shù)內(nèi)部創(chuàng)建和使用,函數(shù)退出后變量被釋放D)全局變量指在函數(shù)之外定義的變量,一般沒有縮進(jìn),在程序執(zhí)行全過程有效答案:A解析:局部變量指在函數(shù)內(nèi)部使用的變量,當(dāng)函數(shù)退出時,變量即不存在。[單選題]46.關(guān)于臟數(shù)據(jù)和亂數(shù)據(jù)的區(qū)分,以下哪種不屬于臟數(shù)據(jù)()。A)含有缺失數(shù)據(jù)B)冗余數(shù)據(jù)C)噪聲數(shù)據(jù)D)不規(guī)則形態(tài)數(shù)據(jù)答案:D解析:在數(shù)據(jù)庫技術(shù)中,臟數(shù)據(jù)在臨時更新(臟讀)中產(chǎn)生。事務(wù)A更新了某個數(shù)據(jù)項X,但是由于某種原因,事務(wù)A出現(xiàn)了問題,于是要把A回滾。但是在回滾之前,另一個事務(wù)B讀取了數(shù)據(jù)項X的值(A更新后),A回滾了事務(wù),數(shù)據(jù)項恢復(fù)了原值。事務(wù)B讀取的就是數(shù)據(jù)項X的就是一個?臨時?的值,就是臟數(shù)據(jù)。[單選題]47.當(dāng)ElasticSearch集群有節(jié)點加入或退出時集群數(shù)據(jù)會發(fā)生什么動作?A)數(shù)據(jù)重載B)數(shù)據(jù)重建C)數(shù)據(jù)重分布D)數(shù)據(jù)更答案:C解析:[單選題]48.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉(zhuǎn)移函數(shù)加上一常數(shù)量以便于引入一些低頻分量。這樣濾波器叫()。A)巴特沃斯高通濾波器B)高頻提升濾波器C)高頻加強濾波器D)理想高通濾波答案:B解析:高頻增強濾波器由于相對削弱了低頻成分,因而濾波所得的圖像往往偏暗。[單選題]49.阿里云MaxCompute中,Table的名字描述中錯誤的是:()。A)使用Createtable建表時,可以使用中文作為表的名字B)表中不能有特殊字符C)表名只能用英文的a-z,A-Z及數(shù)字和下劃線」,且以字母開頭D)名稱的長度不超過128答案:A解析:[單選題]50.對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,下列說法正確的是()。A)需要將這些樣本全部強制轉(zhuǎn)換為支持向量B)需要將這些樣本中可以轉(zhuǎn)化的樣本轉(zhuǎn)換為支持向量,不能轉(zhuǎn)換的直接刪除C)移去或者減少這些樣本對分類結(jié)果沒有影響D)以上都不對答案:C解析:支持向量機的一個重要性質(zhì):訓(xùn)練完成后,大部分的訓(xùn)練樣本都不需保留,最終模型僅與支持向量有關(guān)。[單選題]51.子集搜索中,逐漸增加相關(guān)特征的策略稱為()。A)前向搜索B)后向搜索C)雙向搜索D)不定向搜答案:A解析:子集搜索中,逐漸增加相關(guān)特征的策略稱為前向搜索。[單選題]52.下面哪個不屬于數(shù)據(jù)的屬性類型:()A)標(biāo)稱B)序數(shù)C)區(qū)間D)相異答案:D解析:[單選題]53.基于Bagging的集成學(xué)習(xí)代表算法有()。A)AdaboostB)GBDTC)XGBOOSTD)隨機森林答案:D解析:隨機森林是基于Bagging的集成學(xué)習(xí)算法。[單選題]54.下面python循環(huán)體執(zhí)行的次數(shù)與其他不同的是()。A)i=0while(i<=10):print(i)i=i+1B)i=10while(i>0):print(i)i=i-1C)forIinrange(10):Print(i)D)forIinrange(10,0,-1):print(i)答案:A解析:A循環(huán)次數(shù)為11次;B循環(huán)次數(shù)為10次;C循環(huán)次數(shù)為10次;D循環(huán)次數(shù)為10次。[單選題]55.下列關(guān)于描述性分析與探索性分析描述正確的是()。A)描述性分析是相對于驗證性分析的一種提法B)探索性分析是探索性性分析的基礎(chǔ)C)探索性分析是相對于驗證性分析的一種提法D)探索性分析是數(shù)據(jù)分析的第一步答案:C解析:二者的區(qū)別:1)描述性分析(DescriptiveAnalytics)是相對于診斷性分析、預(yù)測性分析和規(guī)范性分析的一種提法,主要指的是對一組數(shù)據(jù)的各種統(tǒng)計特征(如平均數(shù)、標(biāo)準(zhǔn)差、中位數(shù)、頻數(shù)分布、正態(tài)或偏態(tài)程度等)進(jìn)行分析,以便于描述測量樣本的各種特征及其所對應(yīng)總體的特征。2)探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)是相對于驗證性分析的一種提法,主要指的是指在盡量少的先驗假定下,對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))進(jìn)行探索,并通過作圖、制表、方程擬合、計算特征量等較為簡單方法,探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。[單選題]56.給定一個長度為n的不完整單詞序列,我們希望預(yù)測下一個字母是什么。比如輸入是predictio(9個字母組成),希望預(yù)測第十個字母是什么。下面哪種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)適用于解決這個工作()A)循環(huán)神經(jīng)網(wǎng)絡(luò)B)全連接神經(jīng)網(wǎng)絡(luò)C)受限波爾茲曼機D)卷積神經(jīng)網(wǎng)答案:A解析:循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備,因此在對序列的非線性特征進(jìn)行學(xué)習(xí)時具有一定優(yōu)勢。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語言處理(NaturalLanguageProcessing,NLP),例如語音識別、語言建模、機器翻譯等領(lǐng)域有應(yīng)用,也被用于各類時間序列預(yù)報。[單選題]57.關(guān)于Maxcompute中的運算符的說法,正確的是:()。A)String類型可以和其他任意類型進(jìn)行隱式轉(zhuǎn)換:Boolean不行B)除boolean外,其他類型不允許參與邏輯運算,也不允許其他類型的隱式類型轉(zhuǎn)換C)只有bigint、double才能參與算數(shù)運算:只有string、bigint、double和Decimal才能參與算術(shù)運算D)特殊的關(guān)系運算符rlike表示右側(cè)開始匹配答案:B解析:[單選題]58.DWS實例中,下列哪項不是主備配置的:A)CMSB)GTMC)OMSD)coordinato答案:D解析:[單選題]59.Hadoop常用命令中,查看指定目錄下的所有文件及子目錄的命令是()A)hdfsdfs-ls[文件目錄]B)hdfsdfs-du[文件目錄]C)hdfsdfs-ls-R[文件目錄]D)hdfsdfs-du-R[文件目錄]答案:C解析:[單選題]60.pynlpir是一種常用的自然語言理解工具包,其中進(jìn)行分詞處理的函數(shù)是()。A)open()B)segment()C)AddUserWord()D)generate(答案:B解析:pynlpir是python中分詞工具包,用于分詞處理的函數(shù)是segment()[單選題]61.關(guān)于python類說法錯誤的是()。A)類的實例方法必須創(chuàng)建對象后才可以調(diào)用B)類的實例方法必須創(chuàng)建對象前才可以調(diào)用C)類的類方法可以用對象和類名來調(diào)用D)類的靜態(tài)屬性可以用類名和對象來調(diào)用答案:B解析:類的實例方法必須創(chuàng)建對象后才可以調(diào)用。[單選題]62.()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價值越高。A)規(guī)模B)靈活性C)關(guān)聯(lián)度D)顆粒度答案:D解析:顆粒度反映的是數(shù)據(jù)的精細(xì)化程度。[單選題]63.數(shù)據(jù)科學(xué)中,人們開始注意到傳統(tǒng)數(shù)據(jù)處理方式中普遍存在的?信息丟失?現(xiàn)象,進(jìn)而數(shù)據(jù)處理范式從()轉(zhuǎn)向()。A)產(chǎn)品在先,數(shù)據(jù)在后范式;數(shù)據(jù)在先,產(chǎn)品在后范式或無模式B)模式在先,產(chǎn)品在后范式;產(chǎn)品在先,模式在后范式或無模式C)數(shù)據(jù)在先,模式在后范式或無模式;模式在先,數(shù)據(jù)在后范式D)模式在先,數(shù)據(jù)在后范式;數(shù)據(jù)在先,模式在后范式或無模式答案:D解析:傳統(tǒng)關(guān)系數(shù)據(jù)庫中,先定義模式,然后嚴(yán)格按照模式要求存儲數(shù)據(jù);當(dāng)需要調(diào)整模式時,不僅需要數(shù)據(jù)結(jié)構(gòu),而且還需要修改上層應(yīng)用程序。然而,NoSQL技術(shù)則采用了非常簡單的Key-Value等模式在后(SchemaLater)和無模式(Schemaless)的方式提升了數(shù)據(jù)管理系統(tǒng)的自適應(yīng)能力。當(dāng)然,模式在后(SchemaLater)和無模式(Schemaless)也會帶來新問題,如降低了數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)處理能力。[單選題]64.選擇哪一個解作為輸出,將由學(xué)習(xí)算法的歸納偏好決定,常見的做法是引入()。A)線性回歸B)線性判別分析C)正則化項D)偏置項答案:C解析:選擇哪一個解作為輸出,將由學(xué)習(xí)算法的歸納偏好決定,常見的做法是引入正則化(regularization)項。第2部分:多項選擇題,共22題,每題至少兩個正確答案,多選或少選均不得分。[多選題]65.以下關(guān)于神經(jīng)網(wǎng)絡(luò)模型描述正確的是(__)。A)神經(jīng)網(wǎng)絡(luò)模型是許多邏輯單元按照不同層級組織起來的網(wǎng)絡(luò),每一層的輸出變量都是下一層的輸入變量B)神經(jīng)網(wǎng)絡(luò)模型建立在多神經(jīng)元之上C)神經(jīng)網(wǎng)絡(luò)模型中,無中間層的神經(jīng)元模型的計算可用來表示邏輯運算D)神經(jīng)網(wǎng)絡(luò)模型一定可以解決所有分類問題答案:ABC解析:現(xiàn)在很多分類問題的準(zhǔn)確率都很低尤其是醫(yī)學(xué)圖像方面,而且容易受環(huán)境,如光照影響。[多選題]66.以下選項對GraphBase概念描述正確的是?A)Edge:邊,用于表示關(guān)系度B)VertexLabel:節(jié)點的標(biāo)簽,用于表示現(xiàn)實世界中的實體類型C)Vertex:節(jié)點/頂點,用于表示現(xiàn)實世界中的實體對象D)EdgeLabel:邊的標(biāo)簽,用于表示現(xiàn)實世界中的關(guān)系類答案:BCD解析:[多選題]67.實時計算類應(yīng)用主要通過()來實現(xiàn)。A)流計算組件B)內(nèi)存計算組件C)MPP數(shù)據(jù)庫D)Hadoop的后臺定時分析計算任務(wù)答案:AB解析:實時計算類應(yīng)用主要通過流計算組件、內(nèi)存計算組件來實現(xiàn)。[多選題]68.屬于特征選擇的優(yōu)點有()。A)解決模型自身的缺陷B)減少過擬合C)提升模型的性能D)增強模型的泛化能力答案:BCD解析:特征選擇無法克服模型自身的缺陷,二者是獨立的。[多選題]69.對于主成分分析方法,降維后低維空間的維數(shù)d可以通過()方法確定。A)由用戶事先指定B)通過在d值不同的低維空間中對開銷較小的學(xué)習(xí)器進(jìn)行交叉驗證來選取C)可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值D)隨機設(shè)置答案:ABC解析:降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d值不同的低維空間中對k近鄰分類器(或其他開銷較小的學(xué)習(xí)器)進(jìn)行交叉驗證來選取較好的d值。從重構(gòu)的角度還可以設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值。[多選題]70.關(guān)于梯度消失和梯度消失,以下說法正確的是:(__)。A)根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都小于1的話,那么即使這個結(jié)果是0.99,在經(jīng)過足夠多層傳播之后,誤差對輸入層的偏導(dǎo)會趨于0B)可以采用ReLU激活函數(shù)有效的解決梯度消失的情況C)根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都大于1的話,在經(jīng)過足夠多層傳播之后,誤差對輸入層的偏導(dǎo)會趨于無窮大D)可以通過減小初始權(quán)重矩陣的值來緩解梯度爆答案:ABCD解析:使用標(biāo)準(zhǔn)化初始w,那么各個層次的相乘都是0-1之間的小數(shù),而激活函數(shù)f的導(dǎo)數(shù)也是0-1之間的數(shù),其連乘后,結(jié)果會變的很小,導(dǎo)致梯度消失。若我們初始化的w是很大的數(shù),w大到乘以激活函數(shù)的導(dǎo)數(shù)都大于1,那么連乘后,可能會導(dǎo)致求導(dǎo)的結(jié)果很大,形成梯度爆炸。[多選題]71.下面對范數(shù)規(guī)則化描述正確的是()。A)L0是指向量中0的元素的個數(shù)B)L1范數(shù)是指向量中各個元素絕對值之和C)L2范數(shù)向量元素絕對值的平方和再開平方D)L0是指向量中非0的元素的個答案:BCD解析:L0是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。[多選題]72.下列既可以用于分類,又可以用于回歸的機器學(xué)習(xí)算法有:A)k近鄰B)邏輯回歸C)決策樹D)線性回歸答案:AC解析:邏輯回歸只用于分類,線性回歸只用于回歸。[多選題]73.深度學(xué)習(xí)的實質(zhì)及其與淺層學(xué)習(xí)的說法正確的是(__)。A)DL強調(diào)模型深度B)DL突出特征學(xué)習(xí)的重要性.特征變換+非人工C)沒有區(qū)別D)以上答案都不正答案:AB解析:深度模型是手段,特征學(xué)習(xí)是目的。[多選題]74.Python邏輯表達(dá)式()會導(dǎo)致邏輯短路,即不會繼續(xù)向下推算而直接返回結(jié)果。A)False開頭的and語句B)False開頭的or語句C)True開頭的and語句D)True開頭的or語句答案:AD解析:兩種情況:False開頭的and語句,True開頭的or語句。[多選題]75.在DAYU數(shù)據(jù)集成中,在表/文件遷移的任務(wù)中,CDM支持定時執(zhí)行作業(yè),重復(fù)周期單位有()A)秒B)小時C)月D)天答案:BCD解析:[多選題]76.許多功能更為強大的非線性模型可在線性模型基礎(chǔ)上通過引入()和()而得。A)層級結(jié)構(gòu)B)高維映射C)降維D)分答案:AB解析:許多功能更為強大的非線性模型可在線性模型基礎(chǔ)上通過引入層級結(jié)構(gòu)和高維映射而得。[多選題]77.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。A)采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B)JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C)二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D)字典不可以表示二維以上的高維數(shù)據(jù)答案:ABC解析:字典可以表示二維以上的高維數(shù)據(jù)。[多選題]78.以下說法正確的是()。A)條件獨立性假設(shè)不成立時,樸素貝葉斯分類器仍有可能產(chǎn)生最優(yōu)貝葉斯分類器B)在估計概率值時使用的拉普拉斯修正避免了因訓(xùn)練集樣本不充分而導(dǎo)致概率估值為零的問題C)由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度很快D)二分類任務(wù)中兩類數(shù)據(jù)滿足高斯分布且方差相同時,線性判別分析產(chǎn)生貝葉斯最優(yōu)分類器答案:ABD解析:由于馬爾可夫鏈通常需要很長時間才能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度較慢。[多選題]79.K均值聚類和層次聚類在一些方面有重大差異。以下哪些說法是正確的()A)在K均值聚類中,必須在運行算法前選定想要的簇的個數(shù)B)在k均值聚類中,可以在運行算法后選定想要的簇的個數(shù)C)在層次聚類中,可以在運行算法后選定想要的簇的個數(shù)D)k均值聚類算法所需的計算量比層次聚類算法小得多答案:ACD解析:在k均值聚類中,需要在運行算法前確定想要的簇的個數(shù)k。[多選題]80.已定義級(DefinedLevel)的主要特點包括()。A)組織機構(gòu)已明確給出了關(guān)鍵過程的?標(biāo)準(zhǔn)定義?,并定期對其進(jìn)行改進(jìn)。B)已提供了關(guān)鍵過程的測量與預(yù)測方法。C)關(guān)鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機構(gòu)給出的?標(biāo)準(zhǔn)定義?,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的?裁剪?工作。D)數(shù)據(jù)的重要性已成為組織機構(gòu)層次的共識,將數(shù)據(jù)當(dāng)作成功實現(xiàn)組織機構(gòu)使命的關(guān)鍵因素之一答案:ABCD解析:DMM的已定義級(DefinedLevel):組織機構(gòu)已經(jīng)定義了自己的?標(biāo)準(zhǔn)關(guān)鍵過程?。其主要特點如下:1)組織機構(gòu)已明確給出了關(guān)鍵過程的?標(biāo)準(zhǔn)定義?,并定期對其進(jìn)行改進(jìn);2)已提供了關(guān)鍵過程的測量與預(yù)測方法;3)關(guān)鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機構(gòu)給出的?標(biāo)準(zhǔn)定義?,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定?裁剪?工作;4)數(shù)據(jù)的重要性已成為組織機構(gòu)層次的共識,將數(shù)據(jù)當(dāng)做成功實現(xiàn)組織機構(gòu)使命的關(guān)鍵因素之一。[多選題]81.Python函數(shù)包括下述哪些內(nèi)容()。A)函數(shù)名稱B)參數(shù)C)執(zhí)行語句D)返回值答案:ABCD解析:Python函數(shù)包括下述哪些內(nèi)容函數(shù)名稱、參數(shù)、執(zhí)行語句、返回值。[多選題]82.下列哪些是常用分詞方法()。A)基于Binarytree的分詞方法B)基于HMM的分詞方法C)基于F的分詞方法D)基于Kmeans的分詞方答案:BC解析:k均值一般用于聚類,二叉樹也不用于分詞[多選題]83.下列屬于數(shù)值優(yōu)化算法的是()。A)梯度下降法B)牛頓法C)極大似然法D)邏輯回答案:AB解析:在機器學(xué)習(xí)的優(yōu)化問題中,梯度下降法和牛頓法是常用的兩種凸函數(shù)求極值的方法,他們都是為了求得目標(biāo)函數(shù)的近似解。極大似然法是一種應(yīng)用非常廣泛的參數(shù)估計方法。邏輯回歸是一種廣義的線性回歸分析模型,常用于分類問題。[多選題]84.下列關(guān)于數(shù)據(jù)科學(xué)中常用的統(tǒng)計學(xué)知識說法錯誤的是()。A)從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法可以分為基本分析方法和元分析方法B)從方法論角度看,基于統(tǒng)計的數(shù)據(jù)分析方法又可分為描述統(tǒng)計和推斷統(tǒng)計C)描述統(tǒng)計可分為集中趨勢分析、離中趨勢分析、參數(shù)估計和假設(shè)檢驗D)推斷統(tǒng)計包括采樣分布和相關(guān)分析答案:ABCD解析:從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法包括描述統(tǒng)計、假設(shè)檢驗、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計可分為集中趨勢分析和離散趨勢分析;推斷統(tǒng)計包括兩方面的內(nèi)容:總體參數(shù)估計和假設(shè)檢驗。[多選題]85.下列關(guān)于情感分析的說法正確的是()。A)簡單而言,是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程B)情感分析的發(fā)展得益于社交媒體的興起C)按照處

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論