數(shù)據(jù)挖掘競賽練習試題附答案_第1頁
數(shù)據(jù)挖掘競賽練習試題附答案_第2頁
數(shù)據(jù)挖掘競賽練習試題附答案_第3頁
數(shù)據(jù)挖掘競賽練習試題附答案_第4頁
數(shù)據(jù)挖掘競賽練習試題附答案_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第頁數(shù)據(jù)挖掘競賽練習試題附答案1.已知一組數(shù)據(jù)的協(xié)方差矩陣,下面關(guān)于主分量說法錯誤的是()。A、主分量分析的最佳準則是對一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對角矩陣C、主分量分析就是K-L變換D、主分量是通過求協(xié)方差矩陣的特征值得到【正確答案】:C解析:

K-L變換與PCA變換是不同的概念,PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當K-L變換矩陣為協(xié)方差矩陣時,等同于PCA。2.在Numpy中,下列哪個()模塊可以計算逆矩陣、求特征值、解線性方程組以及求解行列式()。A、randomB、linalgC、NdarrayD、unicode【正確答案】:B解析:

random函數(shù)為隨機模塊,linalg模塊為線性計算庫,Ndarray為array數(shù)組簡稱,無unicode模塊。3.某籃運動員在三分線投球的命中率是2(1),他投球10次,恰好投進3個球的概率為()。A、128(15)B、16(3)C、8(5)D、16(7)【正確答案】:A解析:

投籃只有兩種結(jié)果:進或者不進,符合二項分布,二項分布概率的概率可以用公式求得,其中n=10代表試驗次數(shù),k=3代表事件連續(xù)發(fā)生的次數(shù),p=1/2代表事件發(fā)生的概率。4.對模型進行超參數(shù)優(yōu)化,詳盡搜索指定參數(shù)的估計值使用以下哪種()方法()。A、ParameterGrid)B、ParameterSampler)C、GridSearchCV)D、RandomizedSearchCV)【正確答案】:C解析:

ParameterGrid網(wǎng)格搜索,ParameterSampler參數(shù)生成器,GridSearchCV詳盡搜索指定參數(shù)的估計值,RandomizedSearchCV隨機搜索超參數(shù)。5.()不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò),還可用于其他類型的神經(jīng)網(wǎng)絡(luò)。A、感知機B、神經(jīng)元C、神經(jīng)系統(tǒng)D、誤差逆?zhèn)鞑ァ菊_答案】:D解析:

誤差逆?zhèn)鞑ィ╡rrorBackPropagation,BP)算法不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò),還可用于其他類型的神經(jīng)網(wǎng)絡(luò),如訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)[Pineda,1987]。6.Numpy.linspace(0,3,3)的結(jié)果為()。A、[0,1,2]B、[1,2,3]C、[0,1.5,3]D、[0,3,6]【正確答案】:C解析:

np.linspace)指定開始值、結(jié)束值和值的個數(shù),默認包含結(jié)束值,注意與arange的區(qū)別。7.在Apriori算法中,候選項集劃分為不同的桶,存放在()中。A、字典B、集合C、Hash樹D、列表【正確答案】:C解析:

--8.a=1,b=2,c=3,以下表達式值為True的是()。A、a>=bor(c+5)%3==1B、not(a==1andb!=c)C、notaandb==cD、aanda+b>=c【正確答案】:D解析:

注意優(yōu)先級。9.視覺通道表現(xiàn)力評價指標不包括()。A、精確性B、可辨認性C、可分離性D、可轉(zhuǎn)換性【正確答案】:D解析:

--10.()是指為最小化總體風險,只需在每個樣本上選擇能使特定條件風險最小的類別標記。A、支持向量機B、間隔最大化C、線性分類器D、貝葉斯判定準則【正確答案】:D解析:

--11.下列說法錯誤的是()。A、當目標函數(shù)是凸函數(shù)時,梯度下降算法的解一般就是全局最優(yōu)解B、進行PCA降維時,需要計算協(xié)方差矩C、沿負梯度的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題【正確答案】:C解析:

沿負梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。12.下列選項中,用于觸發(fā)異常的是()。A、tryB、catchC、raiseD、except【正確答案】:C解析:

--13.以下選項中,不是Python對文件的打開模式的是()。A、'w'B、'+'C、'c'D、'r'【正確答案】:C解析:

'r'讀模式、'w'寫模式、'a'追加模式、'b'二進制模式、'+'讀/寫模式。14.()是以樣本統(tǒng)計量作為未知總體參數(shù)的估計量,并通過對樣本單位的實際觀察取得樣本數(shù)據(jù),計算樣本統(tǒng)計量的取值作為被估計參數(shù)的估計值。A、參數(shù)估計B、邏輯分析C、方差分析D、回歸分析【正確答案】:A解析:

參數(shù)估計是統(tǒng)計推斷的一種。根據(jù)從總體中抽取的隨機樣本來估計總體分布中未知參數(shù)的過程。15.以下算法中,sklearn中未提及的是()。A、K-Meansmeans聚類算法B、LogisticRegressionC、KNN最近鄰分類算法D、Apriori關(guān)聯(lián)規(guī)則算法【正確答案】:D解析:

關(guān)聯(lián)規(guī)則在sklearn庫中未涉及。16.以下可以作為文本分類準則的是()。A、預(yù)測準確率B、魯棒性C、可擴展性D、以上答案都正確【正確答案】:D解析:

文本分類準則包含預(yù)測準確性,魯棒性和可擴展性。17.設(shè)置圖的標題的命令是()。A、plt.text('標題')B、plt.legend('標題')C、plt.xticks('標題')D、plt.title('標題')【正確答案】:D解析:

A選項是添加文字說明命令,B選項是添加標識命令,C選項是添加X軸坐標軸標識命令。18.以下關(guān)于代碼規(guī)范描述,哪些是錯誤的是()。A、類總是使用駝峰格式命名,即所有單詞首字母大寫其余字母小寫。B、除特殊模塊__init__之外,模塊名稱都使用不帶下劃線的小寫字母。C、不要濫用*args和**kwargsD、建議把所有方法都放在一個類中【正確答案】:D解析:

以上關(guān)于代碼規(guī)范描述,把所有方法都放在一個類中是錯誤的。19.大數(shù)據(jù)環(huán)境下的隱私擔憂,主要表現(xiàn)為()A、人信息的被識別與暴露B、用戶畫像的生成C、廣告的推送D、病毒入侵【正確答案】:A解析:

大數(shù)據(jù)環(huán)境下的隱私擔憂,主要表現(xiàn)為人信息的被識別與暴露。20.以下關(guān)于模塊的描述不正確的是()。A、模塊是包含函數(shù)和變量的Python文件B、模塊可以被導(dǎo)入C、可以使用“.”操作符訪問模塊中的函數(shù)和變量D、模塊使得代碼更復(fù)雜,可讀性變差【正確答案】:D解析:

模塊化編程使得Python程序可讀性變高。21.當我們需要在一張圖表中加上文字標注,達到提醒讀者的目的時,需要用到()函數(shù)。A、plt.axvspan)B、plt.axhspan)C、plt.annotate)D、plt.text)【正確答案】:D解析:

文字標注是text函數(shù)。22.新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和()。A、數(shù)據(jù)倉庫B、關(guān)系云C、數(shù)據(jù)庫系統(tǒng)D、文件系統(tǒng)【正確答案】:B解析:

關(guān)系云是在云計算環(huán)境中部署和虛擬化的關(guān)系數(shù)據(jù)庫,進而使傳統(tǒng)關(guān)系數(shù)據(jù)庫具備云計算的彈性計算、虛擬化、按需服務(wù)和高經(jīng)濟性等特征。關(guān)系云代表了數(shù)據(jù)管理的一個重要發(fā)展方向。23.關(guān)于L1、L2正則化,下列說法正確的是()。A、L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B、L2正則化技術(shù)又稱為LassoRegularizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏【正確答案】:C解析:

L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個稀疏模型,可以用于特征選擇;L2正則化可以防止模型過擬合,一定程度上L1也可以防止過擬合,L1正則化又稱LassoRegression。24.GatedRecurrentunits的出現(xiàn)可以幫助防止在RNN中的梯度消失問題。()A、可以這么理解B、不可以這么理解C、-D、-【正確答案】:A解析:

--25.下列數(shù)據(jù)類型中,Numpy不支持以下哪種數(shù)據(jù)類型的是()。A、float32B、uint64C、boolD、byte【正確答案】:D解析:

Numpy支持的數(shù)據(jù)類型包括bool、int(8,16,32,64)、unit(16,32,64)、float(16,32,64)、complex(64,128)等類型,不支持byte、short等類型。26.假設(shè)已從標準庫functools導(dǎo)入reduce)函數(shù),那么表達式reduce(lambdax,y:x+y,[1,2,3])的值為()。A、NoneB、6C、3D、9【正確答案】:B解析:

reduce是聚合函數(shù),該操作完成數(shù)組求和功能。27.()不屬于聚類性能度量外部指標。A、Jaccard系數(shù)B、FM系數(shù)C、Rand指數(shù)DB指數(shù)【正確答案】:D解析:

聚類常用的外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標包括DB指數(shù)、Dunn指數(shù)。28.scipy中,線性模塊是以下哪個()模塊()。A、fftpackB、signalC、linalgD、ndimage【正確答案】:C解析:

fftpack米快是傅里葉變換模塊,signal是信號處理模塊,linalg是線性代數(shù)模塊,ndimage是多維圖像處理模塊,29.下面哪個功能不是大數(shù)據(jù)平臺安全管理組件提供的功能()。A、接口代理B、接口認證C、接口授權(quán)D、路由代理【正確答案】:D解析:

接口可以對用戶的身份和請求的參數(shù)進行驗證,以保證接口的安全。通過添加身份驗證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。30.以下選項中,執(zhí)行后可以查看Python的版本的是()。A、importsystemB、C、Print(sys.version)D、importsystem【正確答案】:B解析:

查看Python版本可以通過調(diào)用操作系統(tǒng)模塊sys,語句print(sys.version)實現(xiàn)。31.下列對于Sigmoid函數(shù)的說法,錯誤的是()。A、存在梯度爆炸的問題B、不是關(guān)于原點對稱C、計算exp比較耗時D、存在梯度消失的問題【正確答案】:A解析:

對于Sigmoid函數(shù),S型函數(shù)圖像向兩邊的斜率逼近0,因此隨著網(wǎng)絡(luò)層增加,梯度消失比梯度爆炸更容易發(fā)生的多。32.深度學習是當前很熱門的機器學習算法,深度學習涉及大量的矩陣相乘,現(xiàn)在需要計算三個稠密矩陣A、B、C的乘積ABC,假設(shè)三個矩陣的尺寸分別為m×n,n×p,p×q,且m<nA、(AB)CB、AC(B)C、A(BC)D、所有效率都相同【正確答案】:A解析:

B選項中A的列數(shù)與C的行數(shù)不相等,無法相乘,B選項排除。A選項需要的乘法次數(shù)為m×n×p+m×p×q,C選項需要的乘法次數(shù)為n×p×q+m×n×q,由于m<n33.隨機森林等樹狀算法通過哪個()模塊進行調(diào)用()。A、dummyB、ensembleC、treeD、experimental【正確答案】:B解析:

sklearn.ensemble模塊包含了很多集成學習的算法,包括隨機森林、Adaboost、GBDT等。34.一切皆可連,任何數(shù)據(jù)之間邏輯上都有可能存在聯(lián)系,這體現(xiàn)了大數(shù)據(jù)思維維度中的()。A、定量思維B、相關(guān)思維C、因果思維D、檢驗思維【正確答案】:B解析:

《我們的大數(shù)據(jù)時代》一切皆可連,任何數(shù)據(jù)之間邏輯上都有可能存在聯(lián)系,這體現(xiàn)了大數(shù)據(jù)思維維度中的相關(guān)思維。35.關(guān)于缺失值填補,不正確的說法是()。A、填補數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B、Pandas.dropna可以用來填補缺失值C、用平均值填補會引入相關(guān)性D、啞變量填補是將缺失值當做一類新特征處理【正確答案】:B解析:

Pandas.dropna可以用來刪除缺失值。36.Python中用()快捷鍵表示運行當前程序。A、Ctrl+F10B、Ctrl+Alt+F10C、Shift+F10D、Ctrl+Shift+F10【正確答案】:D解析:

Python中用()快捷鍵表示運行當前程序的快捷鍵是Ctrl+Shift+F10。37.統(tǒng)計描述的種類主要包括均值、百分位數(shù)、中位數(shù)、眾數(shù)、全距和方差等,()是指如果將一組數(shù)據(jù)從小到大排序,并計算相應(yīng)的累計百分位,則某一百分位所對應(yīng)數(shù)據(jù)的值。A、均值B、百分位數(shù)C、中位數(shù)D、眾數(shù)【正確答案】:B解析:

百分位數(shù)是指如果將一組數(shù)據(jù)從小到大排序,并計算相應(yīng)的累計百分位,則某一百分位所對應(yīng)數(shù)據(jù)的值。38.以下哪個模塊()不是Scipy庫中的()模塊。A、clusterB、randomC、signalD、misc【正確答案】:B解析:

cluster、signal、misc都是Scipy庫中的模塊,random是Numpy中的模塊,Python本身也帶有random庫。39.如果需要訓(xùn)練的特征維度成千上萬,在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離計算困難。我們通過()可以緩解這個問題。A、K均值算法B、支持向量機C、降維D、以上答案都不正確【正確答案】:C解析:

--40.matplotlib中的barh函數(shù)可以繪制()圖。A、直方圖B、餅圖C、條形圖D、氣泡圖【正確答案】:C解析:

barh用于繪制條形圖,相當于橫向的柱狀圖。41.如果要清空文件,需要使用的命令是()。A、close)B、seek(0)C、truncate(0)Dwrite('stuff')【正確答案】:C解析:

truncate(size)方法將截斷文件,大小為size,size為0即清空42.以下代碼的輸出結(jié)果為()。A、[[0123][4567][891011]]B、[0123467891011]C、[[023][467][81011]]D、[246810]【正確答案】:B解析:

delete)默認展平后刪除。43.下列描述中不屬于情感分析的具體任務(wù)是()。A、情感分類B、觀點抽取C、觀點問答D、段落匹配【正確答案】:D解析:

情感分析又稱意見挖掘、傾向性分析等,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,包括情感分類、觀點抽取、觀點問答等,沒有段落匹配。44.下列判斷錯誤的是()。A、XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)B、JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)C、PPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)D、音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:B解析:

JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。45.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換,正確的是()。A、Json內(nèi)的取值只能有統(tǒng)一格式B、PDF文件在不同平臺上打開顯示不同C、可以通過Python將CSV文件轉(zhuǎn)換成Excel格式D、Excel存儲數(shù)據(jù)的量無限制【正確答案】:C解析:

Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺上打開顯示相同,Excel存儲數(shù)據(jù)的量在Excel2007及以后版本,一個工作表最多可有1048576行、16384列。46.HBase依靠()提供消息通信機制。A、ZooKeeperB、ChubbyC、RPCD、Socket【正確答案】:A解析:

ZooKeeper是一個高可用、高性能的分布式協(xié)調(diào)服務(wù),為HBase提供消息通信機制。47.以下代碼的輸出結(jié)果為()。A、[022345]B、[543220]C、[[230][542]]D、[[235][024]]【正確答案】:A解析:

默認按最后一個軸進行排序,軸參數(shù)設(shè)置為None時先展平再進行排序。48.對模型進行交叉驗證可以使用以下哪種()方法()。A、learning_curve)B、cross_val_score)C、permutation_test_scoreD、validation)【正確答案】:B解析:

通過model_sleection.cross_val_score)可以進行交叉驗證以簡便地評估模型。49.以下for語句結(jié)構(gòu)中,total初始值為0,不能完成1~~10的累加功能的是()。A、foriinrange(10,0):total+=iB、foriinrange(1,11):total+=iC、forIinrange(10,0,-1):total+=iD、forIin(10,9,8,7,6,5,4,3,2,1):total+=i【正確答案】:A解析:

A中range初始值大于結(jié)束值,且未設(shè)置步進(默認+1),故無可迭代數(shù),進不了循環(huán)。50.關(guān)于Python程序中與“縮進”有關(guān)的說法中,以下選項中正確的是()。A、縮進統(tǒng)一為4個空格B、縮進是非強制性的,僅為了提高代碼可讀性C、縮進在程序中長度統(tǒng)一且強制使用D、縮進可以用在任何語句之后,表示語句間的包含關(guān)系【正確答案】:C解析:

本題考查縮進。51.數(shù)據(jù)可視化是利用計算機圖形學和(),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。A、視覺處理技術(shù)B、視頻處理技術(shù)C、圖像處理技術(shù)D、圖片處理技術(shù)【正確答案】:C解析:

數(shù)據(jù)可視化是利用計算機圖形學和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。它涉及涉及到計算機圖形學、圖像處理、計算機視覺、計算機輔助設(shè)計等多個領(lǐng)域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。52.在Python文件操作中,使用關(guān)鍵字()可以在文件訪問后自動將其關(guān)閉。A、assertB、breakC、nonlocalD、with【正確答案】:D解析:

在Python文件操作中,使用關(guān)鍵字with可以在文件訪問后自動將其關(guān)閉。53.以下代碼的輸出結(jié)果為()。A、[[1074][321]]B、3.5C、[6.54.52.5]D、[7.2.]【正確答案】:B解析:

percentile是百分位數(shù),此處是50%,即中位數(shù),因為數(shù)組個數(shù)為偶數(shù)個,因此中位數(shù)為3和4的均值。54.關(guān)于Python注釋,以下選項中描述錯誤的是()。A、Python注釋語句不被解釋器過濾掉,也不被執(zhí)行B、注釋可以輔助程序調(diào)試C、注釋可用于標明作者和版權(quán)信息D、注釋用于解釋代碼原理或者用途【正確答案】:A解析:

Python注釋語句會被解釋器過濾掉,不被執(zhí)行。55.文檔是待處理的數(shù)據(jù)對象,它由一組詞組成,這些詞在文檔中不計順序,如一篇論文、一個網(wǎng)頁都可以看作一個文檔。這樣的表示方式稱為()。A、語句B、詞袋C、詞海D、詞塘【正確答案】:B解析:

詞袋模型下,像是句子或是文件這樣的文字可以用一個袋子裝著這些詞的方式表現(xiàn),這種表現(xiàn)方式不考慮文法以及詞的順序。56.“數(shù)據(jù)的故事化描述”是指為了提升數(shù)據(jù)的(),將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。A、可理解性、可記憶性、可體驗性B、可接受性、可記憶性、可體驗性C、可接受性、可記憶性、可呈現(xiàn)性D、可理解性、可記憶性、可呈線性【正確答案】:A解析:

“數(shù)據(jù)的故事化描述(Storytelling)”是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗性,將“數(shù)據(jù)”還原成關(guān)聯(lián)至特定的“情景”的過程。57.大數(shù)據(jù)平臺技術(shù)架構(gòu)不包含的是()A、數(shù)據(jù)整合B、數(shù)據(jù)存儲C、數(shù)據(jù)計算D、數(shù)據(jù)溯源【正確答案】:D解析:

利用大數(shù)據(jù)平臺可以實現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)存儲、數(shù)據(jù)計算等技術(shù),無法實現(xiàn)數(shù)據(jù)溯源。58.()的基本想法是適當考慮一部分屬性間的相互依賴信息,從而既不需要進行完全聯(lián)合概率計算,又不至于徹底忽略了比較強的屬性依賴關(guān)系。A、貝葉斯判定準則B、貝葉斯決策論C、樸素貝葉斯分類器D、半樸素貝葉斯分類器【正確答案】:D解析:

--59.基于詞的N元文法模型,其最后的粗分結(jié)果集合大?。ǎ㎞。A、大于B、大于等于C、小于D、小于等于【正確答案】:B解析:

基于N-最短路徑分詞算法,其基本思想是根據(jù)詞典,找出字串中所有可能的詞,構(gòu)造詞語切分有向無環(huán)圖。每個詞對應(yīng)圖中的一條有向邊,并賦給相應(yīng)的邊長(權(quán)值)。然后針對該切分圖,在起點到終點的所有路徑中,求出長度并按嚴格升序排列(任何兩個不同位置上的值一定不等,下同)依次為第1,第2,…,第i,…,第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長度相等,那么他們的長度并列第i,都要列入粗分結(jié)果集,而且不影響其他路徑的排列序號,最后的粗分結(jié)果集合大小大于等于N。60.有數(shù)組n=np.arange(24).reshape(2,-1,2,2),np.shape的返回結(jié)果是()。A、(2,3,2,2)B、(2,2,2,2)C、(2,4,2,2)D、(2,6,2,2)【正確答案】:A解析:

reshape里-1的作用是可以先不計算,由數(shù)組size和其他的reshape參數(shù)確定這個數(shù)值,此處用24除以其他不是-1的值得到3。61.將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是以下哪個步驟的任務(wù)()。A、頻繁模式挖掘B、分類和預(yù)測C、數(shù)據(jù)預(yù)處理D、數(shù)據(jù)流挖掘【正確答案】:C解析:

數(shù)據(jù)預(yù)處理是對原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約的過程。頻繁模式挖掘、分類和預(yù)測和數(shù)據(jù)流挖掘均屬于數(shù)據(jù)挖掘范疇。62.關(guān)于boosting下列說法錯誤的是()。A、boosting方法的主要思想是迭代式學習B、訓(xùn)練基分類器時采用并行的方式C、測試時,根據(jù)各層分類器的結(jié)果的加權(quán)得到最終結(jié)果D、基分類器層層疊加,每一層在訓(xùn)練時,對前一層基分類器分錯的樣本給予更高的權(quán)值【正確答案】:B解析:

Boosing訓(xùn)練基分類器時只能采用順序的方式,Bagging訓(xùn)練基分類器時采用并行的方式。63.Numpy中對數(shù)組進行轉(zhuǎn)置的函數(shù)是哪個()。A、transpose)B、rollaxis)C、swapaxes)D、tan)【正確答案】:A解析:

transpose)對矩陣進行矩陣轉(zhuǎn)置,rollaxis)向后滾動指定的軸,swapaxes)對換數(shù)組的兩個軸,tan)求三角函數(shù),64.TF-IDF中的TF是指()。A、某個詞在文檔中出現(xiàn)的次數(shù)B、文章的總次數(shù)C、某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D、以上答案都不正確【正確答案】:C解析:

TF是詞頻(TermFrequency),表示某個詞出現(xiàn)的頻率,也就是某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)。65.在matplotlib中,imread方法的讀取到圖像后是以()類型進行存儲。A、列表B、數(shù)組C、字符串D、圖片【正確答案】:B解析:

imread函數(shù)的作用的是從文件中讀取圖像到數(shù)組。66.HBase依靠()提供強大的計算能力。A、ZooKeeperB、ChubbyC、RPCD、MapReduce【正確答案】:D解析:

Chubby是分布式協(xié)調(diào)系統(tǒng),類似于ZooKeeper。RPC(RemoteProcedureCall)是遠程過程調(diào)用,它是一種通過網(wǎng)絡(luò)從遠程計算機程序上請求服務(wù),而不需要了解底層網(wǎng)絡(luò)技術(shù)的協(xié)議。HBase依靠MapReduce提供強大的計算能力。67.機器學習中做特征選擇時,可能用到的方法有()。A、卡方B、信息增益C、平均互信息D、期望交叉熵E、以上都有【正確答案】:E解析:

--68.sklearn中對模型進行選擇主要是依靠()模塊。A、decompositionB、model_selectionC、linear_modelD、mixture【正確答案】:B解析:

sklearn.model_selection主要提供一些功能幫助進行模型選擇和調(diào)優(yōu),包括訓(xùn)練測試集劃分、交叉驗證、學習曲線、網(wǎng)格搜索等。69.以下分割方法中不屬于區(qū)域算法的是()。A、分裂合并B、閾值分割C、區(qū)域生長D、邊緣檢測【正確答案】:D解析:

邊緣檢測算法是標識數(shù)字圖像中亮度變化明顯的點,不屬于區(qū)域算法發(fā)范疇。70.()是數(shù)據(jù)庫管理系統(tǒng)運行的基本工作單位。A、事務(wù)B、數(shù)據(jù)倉庫C、數(shù)據(jù)單元D、數(shù)據(jù)分析【正確答案】:A解析:

在關(guān)系數(shù)據(jù)庫中,事務(wù)(Transaction)是保證數(shù)據(jù)一致性的重要手段,可以幫助用戶維護數(shù)據(jù)的一致性。事務(wù)是用戶定義的一個數(shù)據(jù)庫操作序列,這些操作要么全做,要么全不做,是一個不可分割的工作單位。71.關(guān)于Python內(nèi)存管理,下列說法錯誤的是哪項()。A、變量不必事先聲明B、變量無須先創(chuàng)建和賦值而直接使用C、變量無須指定類型D、可以使用del釋放資源【正確答案】:B解析:

Python變量需要事先聲明并賦值才能使用。72.在Spark中,()是指RDD的每個分區(qū)都只被子RDD的一個分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】:D解析:

窄依賴定義。73.scipy中,線性模塊是以下哪個()模塊()。A、fftpackB、signalC、linalgD、ndimage【正確答案】:C解析:

fftpack米快是傅里葉變換模塊,signal是信號處理模塊,linalg是線性代數(shù)模塊,ndimage是多維圖像處理模塊,74.假設(shè)precision=TP/(TP+FP),recall=TP/(TP+FN),則在二分類問題中,當測試集的正例和負例數(shù)量不均衡時,以下評價方案中()是相對不合理的。Accuracy:(TP+TN)/allB、F-value:2recallprecision/(recall+precision)C、G-mean:sqrt(precision*recall)D、AUC:曲線下面積【正確答案】:A解析:

測試集正例和負例數(shù)量不均衡,那么假設(shè)正例數(shù)量很少占10%,負例數(shù)量占大部分90%。而且算法能正確識別所有負例,但正例只有一半能正確判別。那么TP=0.05×all,TN=0.9×all,Accuracy=95%。雖然Accuracy很高,precision是100%,但正例recall只有50%。75.對于一個二維數(shù)組n=np.array([[1,2,3],[4,5,6],[7,8,9]]),n[[0,1],[0,1]],輸出的結(jié)果是()。A、[[1,2],[4,5]]B、[1,2,4,5]C、[1,5]D、[2,4]【正確答案】:C解析:

注意這種情況只選擇A[0,0]和A[1,1]兩個值,與帶冒號的索引不同。76.對矩陣[[0,0,3],[1,1,0],[0,2,1],[1,0,2]]進行獨熱編碼訓(xùn)練后,對矩陣[[0,1,3]]進行獨熱編碼輸出結(jié)果為()。A、[0,1,0,1,0,0,0,1,0]B、[1,0,0,1,0,0,0,0,1]C、[0,1,0,0,1,0,0,0,1]D、[1,0,0,0,1,0,0,1,0]【正確答案】:B解析:

對于訓(xùn)練矩陣第一列為第一個特征維度,有兩種取值01,所以對應(yīng)編碼方式為10、01;同理,第二列為第二個特征維度,有三種取值012,所以對應(yīng)編碼方式為100、010、001;同理,第三列為第三個特征維度,有四中種取值0123,所以對應(yīng)編碼方式為1000、0100、0010、0001,再來看要進行編碼的參數(shù)[0,1,3],0作為第一個特征編碼為10,1作為第二個特征編碼為010,3作為第三個特征編碼為0001,故此編碼結(jié)果為[1,0,0,1,0,0,0,0,1]。77.()不屬于CRF模型對于HMM和MEMM模型的優(yōu)勢。A、特征靈活B、速度快C、可容納較多上下文信息D、全局最優(yōu)【正確答案】:B解析:

CRF模型的優(yōu)點:1)與HMM:CRF沒有HMM那樣嚴格的獨立性假設(shè)條件,因而可以容納任意的上下文信息,特征設(shè)計靈活。2)與MEMM:由于CRF計算全局最優(yōu)輸出節(jié)點的條件概率,他還克服了MEMM模型標記偏置的缺點。78.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種,不屬于大數(shù)據(jù)涌現(xiàn)形式的是()。A、價值涌現(xiàn)B、隱私涌現(xiàn)C、物質(zhì)涌現(xiàn)D、質(zhì)量涌現(xiàn)【正確答案】:C解析:

大數(shù)據(jù)并不等同于“小數(shù)據(jù)的集合”。從“小數(shù)據(jù)”到“大數(shù)據(jù)”的過程中出現(xiàn)了“涌現(xiàn)”現(xiàn)象,“涌現(xiàn)”才是大數(shù)據(jù)的本質(zhì)特征。涌現(xiàn)(Emergence)就是系統(tǒng)大于元素之和,或者系統(tǒng)在跨越層次時,出現(xiàn)了新的質(zhì)。大數(shù)據(jù)涌現(xiàn)現(xiàn)象的具體表現(xiàn)形式有多種,如價值涌現(xiàn)、隱私涌現(xiàn)、質(zhì)量涌現(xiàn)和安全涌現(xiàn)等。79.以下有關(guān)計算機編程語言說法錯誤的是()。A、編程語言是用于書寫計算機程序的語言;B、計算機語言可分為機器語言、匯編語言、高級語言;C、計算機能識別和執(zhí)行所有編程語言寫的程序;D、C/C++、pascal、java、pythonPython都屬于高級編程語言;【正確答案】:C解析:

只有機器語言才能被計算機直接識別,Python等高級語言源程序,不能直接運行,必須翻譯成機器語言才能執(zhí)行。80.PageRank是一個函數(shù),它對Web中的每個網(wǎng)頁賦予一個實數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】:D解析:

PageRank認為,如果A頁面有一個鏈接指向B頁面,那就可以看作是A頁面對B頁面的一種信任或推薦。所以,如果一個頁面的反向鏈接越多,根據(jù)這些鏈接的價值加權(quán)越高,那搜索引擎就會判斷這樣的頁面更為重要。81.執(zhí)行下面操作后,list2的值是()。A、[4,5,6]B、[4,3,6]C、[4,5,3]D、以上答案都不正確【正確答案】:C解析:

賦值語句是淺復(fù)制操作,沒有復(fù)制子對象,所以原始數(shù)據(jù)改變,子對象會改變。82.令N為數(shù)據(jù)集的大小[注:設(shè)訓(xùn)練樣本(xi,yi),N即訓(xùn)練樣本個數(shù)],d是輸入空間的維數(shù)(注:d即向量xi的維數(shù))。硬間隔SVM問題的原始形式[即在不等式約束(yi(wTxi+b)≥1)下最小化(1/2)wTw]在沒有轉(zhuǎn)化為拉格朗日對偶問題之前,是()。A、一個含N個變量的二次規(guī)劃問題B、一個含N+1個變量的二次規(guī)劃問題C、一個含d個變量的二次規(guī)劃問題D、一個含d+1個變量的二次規(guī)劃問題【正確答案】:D解析:

欲找到具有最大間隔的劃分超平面,也就是要找到能滿足題中不等式約束的參數(shù)w和b,是一個含d+1個變量的二次規(guī)劃問題。83.MapReduce默認的分區(qū)函數(shù)是()。A、hashB、diskC、reduceD、map【正確答案】:A解析:

MapReduce默認的分區(qū)函數(shù)是hash。84.數(shù)據(jù)產(chǎn)品的定義是()。A、數(shù)據(jù)產(chǎn)品是指能夠供給市場,被人們使用和消費,并能滿足人們某種需求的任何東西B、數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)地做決策(甚至行動)的一種產(chǎn)品形式C、數(shù)據(jù)產(chǎn)品是指為了滿足自身的需要,通過科技發(fā)明或經(jīng)驗總結(jié)而形成的技術(shù)D、數(shù)據(jù)產(chǎn)品是數(shù)據(jù)科學的結(jié)果,創(chuàng)造了新的實物形態(tài)和使用價值的產(chǎn)品?!菊_答案】:B解析:

數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)的做決策(甚至行動)的一種產(chǎn)品形式。85.Numpy庫的主要功能是()。A、科學計算B、繪圖C、爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)D、機器學習庫【正確答案】:A解析:

Numpy是一個開源Python庫,主要用于科學計算。用于繪圖的Python庫有Matplotlib,、Seaborn等,爬取數(shù)據(jù)的庫有Requests等,機器學習庫有Sklearn等。86.二項分布的數(shù)學期望為()。A、n(1-n)pB、np(1-p)C、npD、n(1-p)【正確答案】:C解析:

二項分布即重復(fù)n次的伯努利試驗。如果事件發(fā)生的概率是p,則不發(fā)生的概率q=1-p.則期望為np,方差為npq。87.圖像與灰度直方圖的對應(yīng)關(guān)系為()。A、一一對應(yīng)B、一對多C、多對一D、以上答案都正確【正確答案】:C解析:

灰度直方圖是灰度級的函數(shù),它表示圖像中具有每種灰度級的像素的個數(shù),反映圖像中每種灰度出現(xiàn)的頻率?;叶戎狈綀D的橫坐標是灰度級,縱坐標是該灰度級出現(xiàn)的頻率,是圖像的最基本的統(tǒng)計特征。與圖像之間的關(guān)系是多對一的映射關(guān)系。一幅圖像唯一確定出與之對應(yīng)的直方圖,但不同圖像可能有相同的直方圖,選C。88.()不是HDFS的守護進程。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YarnChildD、NameNode【正確答案】:C解析:

NameNode是HDFS集群的主節(jié)點,DataNode是HDFS集群的從節(jié)點,SecondaryNameNode是HDFS集群啟動的用來給NameNode節(jié)點分擔壓力的角色,這個三個服務(wù)進程會一直啟動著。MRAppMaster/YarnChild進程是只有在YARN集群運行了MapReduce程序之后才會啟動的程序。89.RNN不同于其他神經(jīng)網(wǎng)絡(luò)的地方在于()。A、實現(xiàn)了記憶功能B、速度快C、精度高D、易于搭建【正確答案】:A解析:

--90.下列數(shù)據(jù)中,不屬于字符串的是()。A、'ab'B、"perfect"'C、"52wo"D、abc【正確答案】:D解析:

D無引號,故只是變量。91.()是交叉驗證法的一種特例。A、自助法B、留一法C、交叉驗證法D、錯誤率分析【正確答案】:B解析:

--92.數(shù)據(jù)科學基本原則中,“基于數(shù)據(jù)的智能”的主要特點是()。A、數(shù)據(jù)簡單、但算法簡單B、數(shù)據(jù)復(fù)雜、但算法簡單C、數(shù)據(jù)簡單、但算法復(fù)雜D、數(shù)據(jù)復(fù)雜、但算法復(fù)雜【正確答案】:B解析:

數(shù)據(jù)科學對“智能的實現(xiàn)方式”有了新的認識——從“基于算法的智能”到“基于數(shù)據(jù)的智能”過渡?!盎跀?shù)據(jù)的智能”的重要特點是“數(shù)據(jù)復(fù)雜,但算法簡單”。93.CNN神經(jīng)網(wǎng)絡(luò)對圖像特征提取帶來了變革性的變化,使之前的人工特征提取升級到數(shù)據(jù)驅(qū)動的自動特征提取,在CNN中,起到特征提取作用的網(wǎng)絡(luò)層是()。A、convolution層B、fullconnect層C、maxpooling層D、norm層【正確答案】:A解析:

卷積層負責提取特征,采樣層負責特征選擇,全連接層負責分類。94.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征,適合的讀寫任務(wù)是()。A、一次寫入,少次讀取B、多次寫入,少次讀取C、多次寫入,多次讀取D、一次寫入,多次讀取【正確答案】:D解析:

HDFS的設(shè)計以“一次寫入、多次讀取”為主要應(yīng)用場景。95.給定一個長度為n的不完整單詞序列,我們希望預(yù)測下一個字母是什么。比如輸入是predictio(9個字母組成),希望預(yù)測第十個字母是什么。()適用于解決這個工作。A、循環(huán)神經(jīng)網(wǎng)絡(luò)B、全連接神經(jīng)網(wǎng)絡(luò)C、受限波爾茲曼機D、卷積神經(jīng)網(wǎng)絡(luò)【正確答案】:A解析:

循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備,因此在對序列的非線性特征進行學習時具有一定優(yōu)勢。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語言處理(NaturalLanguageProcessing,NLP),例如語音識別、語言建模、機器翻譯等領(lǐng)域有應(yīng)用,也被用于各類時間序列預(yù)報。96.pyplot.pie)所畫的圖像是()。A、箱線圖B、折線圖C、直方圖D、餅圖【正確答案】:D解析:

pyplot.pie)的作用是繪制餅圖。97.Python語句print(0xA+0xB)的輸出結(jié)果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】:D解析:

0x是16進制運算,0xA+0xB換為十進制為10+11=21。98.scipy.stats模塊中對隨機變量進行隨機取值的函數(shù)是()。A、rvsB、pdfC、cdfD、sf【正確答案】:A解析:

stats模塊中每個分布都rvs函數(shù),對隨機變量取值。99.數(shù)據(jù)安全不只是技術(shù)問題,還涉及()。A、人員問題B、管理問題C、行政問題D、領(lǐng)導(dǎo)問題【正確答案】:B解析:

數(shù)據(jù)安全不只是技術(shù)問題,還涉及管理問題。100.以下濾波器中,對圖像中的椒鹽噪聲濾波效果最好的是()。A、中值濾波B、均值濾波C、最大值濾波D、最小值濾波【正確答案】:A解析:

--1.在數(shù)據(jù)科學中,計算模式發(fā)生了根本性的變化——從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算,有一定的代表性的是Google云計算三大技術(shù),這三大技術(shù)包括()。A、HadoopYRN資源管理器B、GFS分布式存儲系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫【正確答案】:BCD解析:

Goolge于2003~2008年間發(fā)表的3篇論文在云計算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠影響,被稱為Google三大技術(shù)或三大論文:①GFS論文——GhemawatS,Gobioff2.下面屬于可視化高維數(shù)據(jù)技術(shù)的是()。A、矩陣B、.平行坐標系C、星形坐標系D、散布圖【正確答案】:ABC解析:

矩陣、平行坐標系和星形坐標系都屬于可視化高維數(shù)據(jù)的常用技術(shù),而散布圖又叫相關(guān)圖,只能處理二維數(shù)據(jù)。3.特征選擇的目的是()。A、減少特征數(shù)量、降維B、使模型泛化能力更強C、增強模型擬合能力D、減少過擬合?!菊_答案】:ABD解析:

特征選擇的主要目的是減少特征的數(shù)量、降低特征維度、使模型泛化能力更強、減少過擬合。4.做一個二分類預(yù)測問題,先設(shè)定閾值為0.5,概率不小于0.5的樣本歸入正例類(即1),小于0.5的樣本歸入反例類(即0)。然后,用閾值n(n>0.5)重新劃分樣本到正例類和反例類,下面說法正確的是()。A、增加閾值不會提高召回率B、增加閾值會提高召回率C、增加閾值不會降低查準率D、增加閾值會降低查準率【正確答案】:AC解析:

召回率=TP/TP+FN,查準率=TP/TP+FP。當概率閾值增加時,TP、FP減少或者持平,TP+FN不變,所以召回率不會增加。5.隨機森林在做數(shù)據(jù)處理方面的優(yōu)勢是()。A、不需要做缺失值處理B、不需要處理噪音C、不需要做特征選擇D、不需要平衡數(shù)據(jù)集【正確答案】:ACD解析:

理論上隨機森林不會產(chǎn)生過擬合現(xiàn)象,但噪聲是不能忽略的,增加樹雖然能夠減小過擬合,但樹的數(shù)目不可能無限增加,沒有辦法完全消除過擬合。6.線性模型的基本形式有()。A、線性回歸B、對數(shù)幾率回歸(二分類問題)C、線性判別分析(Fisher判別分析)D、多分類學習【正確答案】:ABCD解析:

--7.下列說法中正確的是()。A、云計算的主要特點是非常昂貴B、大數(shù)據(jù)是多源、異構(gòu)、動態(tài)的復(fù)雜數(shù)據(jù),即具有4V特征的數(shù)據(jù)C、大數(shù)據(jù)是數(shù)據(jù)科學的研究對象之一D、MapReduce是采用云計算這種新的計算模式研發(fā)出的具體工具軟件(或算法)【正確答案】:BCD解析:

云計算的一個重要優(yōu)勢在于其經(jīng)濟性。與其他計算模式不同的是,云計算的出發(fā)點是如何使用成本低的商用機(而不是成本很高的高性能服務(wù)器)實現(xiàn)強大的計算能力8.關(guān)于總體和樣本的說法,正確的是()。A、總體也就是研究對象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10s抽取的產(chǎn)品C、樣本是從總體的隨機抽樣D、如果總體是某一小學的1000名學生,那么樣本可以是一年級的100名學生【正確答案】:ABC解析:

小學包括多個年級,樣本沒有代表性。9.在假設(shè)檢驗中,當原假設(shè)為“偽”,但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫()。A、α錯誤B、β錯誤C、取偽錯誤D、棄真錯誤【正確答案】:BC解析:

α錯誤(棄真錯誤):當原假設(shè)為真時,但我們錯誤地認為“原假設(shè)是不成立的”,進而導(dǎo)致拒絕這個正確假設(shè);β錯誤(取偽錯誤):當原假設(shè)為假時,但我們錯誤地認為“原假設(shè)是成立的”,進而導(dǎo)致接受此錯誤假設(shè)10.下列關(guān)于特征的稀疏性說法,正確的是()。A、稀疏性指的是矩陣中有許多列與當前學習任務(wù)無關(guān)B、稀疏樣本可減少學習任務(wù)的計算開銷C、學習任務(wù)難度可能有所降低D、稀疏矩陣沒有高效的存儲方法【正確答案】:ABC解析:

在一個矩陣中,若非零元素的個數(shù)遠遠小于零元素的個數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進行壓縮存儲。11.機器學習的三個關(guān)鍵組成要素是()。A、任務(wù)TB、性能指標PC、目標函數(shù)VD、經(jīng)驗來源E【正確答案】:ABD解析:

--12.以下關(guān)于降維方法的敘述,正確的是()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學習是一種借鑒拓撲流形概念的降維方法D、度量學習繞過降維的過程,將學習目標轉(zhuǎn)化為對距離度量計算的權(quán)重矩陣的學習【正確答案】:CD解析:

本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不太理想。核化線性降維是一種非線性降維方法。13.以下關(guān)于L1和L2范數(shù)的描述,正確的是()。A、L1范數(shù)為x向量各個元素絕對值之和。B、L2范數(shù)為x向量各個元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權(quán)值稀疏,方便特征提取D、L2范數(shù)可以防止過擬合,提升模型的泛化能力。【正確答案】:ABCD解析:

L0是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。L1范數(shù)可以使權(quán)值稀疏,方便特征提取。L2范數(shù)可以防止過擬合,提升模型的泛化能力。14.Pig說法正確的是()。A、彌補MapReduce編程復(fù)雜性B、封裝MapReduce處理過程C、PigLatin是一種數(shù)據(jù)分析語言D、適用于并行處理【正確答案】:ABCD解析:

Pig建立在MapReduce之上,主要目的是彌補MapReduce編程的復(fù)雜性;Pig較好地封裝了MapReduce的處理過程;PigLatin是數(shù)據(jù)分析的描述語言;Pig程序的結(jié)構(gòu)適合于并行處理。15.預(yù)剪枝使得決策樹的很多分子都沒有展開,會導(dǎo)致()。A、顯著減少訓(xùn)練時間開銷B、顯著減少測試時間開銷C、降低過擬合風險D、提高欠擬合風險【正確答案】:ABCD解析:

預(yù)剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風險,還顯著減少了決策樹的訓(xùn)練時間開銷和測試時間開銷。但另一方面,有些分支的當前劃分雖不能提升泛化性能,甚至可能導(dǎo)致泛化性能暫時下降,但在其基礎(chǔ)上進行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于貪心原則,禁止這些分支展開,提高了欠擬合的風險。16.下列關(guān)于數(shù)據(jù)科學中常用的統(tǒng)計學知識說法錯誤的是()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計的數(shù)據(jù)分析方法又可分為描述統(tǒng)計和推斷統(tǒng)計C、描述統(tǒng)計可分為集中趨勢分析、離中趨勢分析、參數(shù)估計和假設(shè)檢驗D、推斷統(tǒng)計包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:

從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法包括描述統(tǒng)計、假設(shè)檢驗、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計可分為集中趨勢分析和離散趨勢分析;推斷統(tǒng)計包括總體參數(shù)估計和假設(shè)檢驗兩方面內(nèi)容。17.Pandas中刪除列的方式是()。A、df.drop(["列名"],axis=1)B、df.drop(columns=["列名"])C、df.drop([0,1])D、df.drop([0])【正確答案】:AB解析:

--18.針對維數(shù)災(zāi)難,我們主要采用的降維方法有()。A、多維縮放B、主成分分析C、核化線性降維D、流形學習E、度量學習【正確答案】:ABCDE解析:

--19.以下跟圖像處理相關(guān)的是()。A、圖像識別B、人臉識別C、視頻分析D、自然語言處理【正確答案】:ABC解析:

--20.以下屬于圖像分割的算法的是()。A、閾值分割方法(thresholdsegmentationmethod)B、區(qū)域增長細分(regionalgrowthsegmentation)C、邊緣檢測分割方法(edgedetectionsegmentationmethod)D、基于聚類的分割(segmentationbasedonclustering)E、基于能量的分割【正確答案】:ABCDE解析:

--21.Spark組件包含哪兩個算子()。A、MapB、ActionC、TransformationD、Reduce【正確答案】:BC解析:

Spark針對RDD提供了多種基礎(chǔ)操作,可以大致分為Action和Transformation兩種。22.RDD具有()特征。A、可容錯性B、簡潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:

RDD是一個容錯的、并行的數(shù)據(jù)結(jié)構(gòu)。23.在Spark中,彈性分布式數(shù)據(jù)集的特點包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:

RDD不可修改。24.以下算法中可以應(yīng)用于圖像分割的是()。A、邊緣檢測技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長方法【正確答案】:ABCD解析:

邊緣檢測技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長方法均是圖像分割技術(shù)。25.下列跟人工智能場景相關(guān)的是()。A、圖像識別B、人臉識別C、語音識別D、語義分析【正確答案】:ABCD解析:

人工智能的概念很廣義,圖像識別、人臉識別、語音識別、語義分析都屬于人工智能的應(yīng)用場景。26.Spark的技術(shù)架構(gòu)可以分為哪幾層()。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】:ABD解析:

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。27.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】:ABCD解析:

Spark支持上述四種運行模式,在實驗中為了充分利用資源,一般配置Standalone模式運行。28.特征選擇方法有()。AIC赤池信息準則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過濾式特征選擇方法【正確答案】:BCD解析:

AIC赤池信息準則是常用的模型選擇方法。29.以下屬于頻率域圖像濾波的方法有()。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】:CD解析:

頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。30.一個回歸模型存在多重共線問題,在不損失過多信息的情況下,可采取的措施有()。A、剔除所有的共線性變量B、剔除共線性變量中的一個C、通過計算方差膨脹因子(VarianceInflationFactor,VIF)來檢查共線性程度,并采取相應(yīng)措施D、刪除相關(guān)變量可能會有信息損失,我們可以不刪除相關(guān)變量,而使用一些正則化方法來解決多重共線性問題,例如Ridge或Lasso回歸【正確答案】:BCD解析:

為了檢查多重共線性,我們可以創(chuàng)建相關(guān)系數(shù)矩陣來辨別和移除相關(guān)系數(shù)大于75%的變量(閾值根據(jù)情況設(shè)定)。除此之外,可以使用VIF方法來檢查當前存在的共線變量。VIF≤4表明沒有多種共線,VIF≥10表明有著嚴重的多重共線性,也可以使用公差(tolerance)作為評估指標。但是,移除相關(guān)變量可能導(dǎo)致信息的丟失,為了保留這些變量,可以使用帶懲罰的回歸方法。可以在相關(guān)變量之間隨機加入噪聲,使得變量之間存在差異。但增加噪聲可能影響準確度,因此這種方法應(yīng)該小心使用。31.若b=np.array([True,False,False]),以下能輸出[FalseTrueTrue]的是()。A、print(b-1)B、print(~b)C、print(np.logical_not(b)D、print(>>b)【正確答案】:BC解析:

數(shù)組分別邏輯取反的兩種方式,:可以使用np.logical_not)函數(shù)或者直接用取反符號~。32.Python中,復(fù)合賦值運算符包括()。A、簡單的賦值運算符B、乘法賦值運算符C、取模賦值運算符D、取整除賦值運算符【正確答案】:ABCD解析:

Python中,復(fù)合賦值運算符包括簡單的賦值運算符、乘法賦值運算符、取模賦值運算符、取整除賦值運算符。33.實時計算類應(yīng)用主要通過()來實現(xiàn)。A、流計算組件B、內(nèi)存計算組件C、MPP數(shù)據(jù)庫D、Hadoop的后臺定時分析計算任務(wù)【正確答案】:AB解析:

實時計算類應(yīng)用主要通過流計算組件、內(nèi)存計算組件來實現(xiàn)。34.下列關(guān)于自然語言處理中的關(guān)鍵詞提取的說法,正確的是()。A、關(guān)鍵詞提取是指用人工方法提取文章關(guān)鍵詞的方法B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題D、這個問題涉及數(shù)據(jù)挖掘、文本處理、信息檢索等領(lǐng)域【正確答案】:BD解析:

關(guān)鍵詞提取旨在自動化;出現(xiàn)次數(shù)最多可能為無用詞。35.下面選項是python標準庫的是()。A、osB、sysC、numpyD、re【正確答案】:ABD解析:

numpy屬于第三方庫。36.以下可用于處理由于光照不均帶來的影響的圖像處理方法有()。A、同態(tài)濾波B、頂帽變換C、基于移動平均的局部閾值處理D、拉普拉斯算子【正確答案】:ABC解析:

拉普拉斯算子屬于銳化濾波器,并不能處理光照不均勻帶來的影響。37.下列場景適合使用Python的是()。A、可作為腳本語言,快速編寫小型程序、腳本等B、可應(yīng)用在數(shù)據(jù)科學、交互式計算及可視化領(lǐng)域C、可作為膠水語言,整合如C++等語言代碼D、Python適用于低延時、高利用率的應(yīng)用場景【正確答案】:ABC解析:

Python作為腳本語言,以解釋方式逐條執(zhí)行語句,相比C++等語言運行速度較慢,不適用于低延時場景。38.以下關(guān)于HBase說法正確的是()。A、面向列的數(shù)據(jù)庫B、非結(jié)構(gòu)化的數(shù)據(jù)庫C、支持大規(guī)模的隨機、實時讀寫D、采用松散數(shù)據(jù)模型【正確答案】:ABCD解析:

HBase是非結(jié)構(gòu)化的、多版本的、面向列和開源的數(shù)據(jù)庫;HBase提供了對大規(guī)模數(shù)據(jù)的隨機、實時讀寫訪問;從存儲模型看,HBase采用的是松散數(shù)據(jù)模型。39.下面關(guān)于機器學習的理解,正確的是()。A、非監(jiān)督學習的樣本數(shù)據(jù)是要求帶標簽的B、監(jiān)督學習和非監(jiān)督學習的區(qū)別在于是否要求樣本數(shù)據(jù)帶標簽C、強化學習以輸入數(shù)據(jù)作為對模型的反饋D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)【正確答案】:BCD解析:

非監(jiān)督學習的樣本數(shù)據(jù)是不要求帶標簽的,監(jiān)督學習的樣本數(shù)據(jù)是要求帶標簽的。40.下列不屬于聚類性能度量內(nèi)部指標的是()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:

聚類常用的外部指標包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標包括DB指數(shù)、Dunn指數(shù)。41.假設(shè)目標遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準確度,那么下面說法正確的是()。A、準確度并不適合衡量不平衡類別問題B、準確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:

精確度和召回率適合于衡量不平衡類別問題,準確度并不適合衡量不平衡類別問題。42.區(qū)塊鏈是()等計算機技術(shù)的新型應(yīng)用模式。A、分布式數(shù)據(jù)存儲B、點對點傳輸C、共識機制D、加密算法【正確答案】:ABCD解析:

區(qū)塊鏈是分布式數(shù)據(jù)存儲、點對點傳輸、共識機制、加密算法等計算機技術(shù)的新型應(yīng)用模式。43.常見的聚類性能度量外部指標有()。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】:AC解析:

聚類常用的外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標包括DB指數(shù)、Dunn指數(shù)。44.關(guān)于降維說法正確的是()。A、PA是根據(jù)方差這一屬性降維的B、降維可以防止模型過擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PLA等【正確答案】:ACD解析:

降維不能用于防止模型過擬合。45.ETL技術(shù)主要涉及()操作。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】:ABC解析:

ETL技術(shù)主要涉及抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)。46.Analytics1.0的主要特點有()。A、分析活動滯后于數(shù)據(jù)的生成B、重視結(jié)構(gòu)化數(shù)據(jù)的分析C、以對歷史數(shù)據(jù)的理解為主要目的D、注重描述性分析【正確答案】:ABCD解析:

著名管理學家Thomas·H·Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具——分析學(Analytics)分為三個不同時代——商務(wù)智能時代、大數(shù)據(jù)時代和數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics1.0是商務(wù)智能時代(1950~2000年),Analytics1.0中常用的工具軟件為數(shù)據(jù)倉庫及商務(wù)智能類軟件,一般由數(shù)據(jù)分析師或商務(wù)智能分析師負責完成。Analytics1.0的主要特點有分析活動滯后于數(shù)據(jù)的生成、重視結(jié)構(gòu)化數(shù)據(jù)的分析、以對歷史數(shù)據(jù)的理解為主要目的、注重描述性分析。47.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A、具有勞動增值B、涉及法律權(quán)屬C、具有財務(wù)價值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動增值、涉及法律權(quán)屬、具有財務(wù)價值、涉及道德與倫理。48.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中,正確的是()。A、可用于處理時間序列數(shù)據(jù)B、可用于處理圖像數(shù)據(jù)C、卷積網(wǎng)絡(luò)中使用的卷積運算就是數(shù)學中的卷積計算D、至少在網(wǎng)絡(luò)的一層中使用卷積【正確答案】:ABD解析:

--49.對以下代碼說法正確的是()。A、該圖表是一個藍綠色的散點圖B、圖表中有紅色實線的網(wǎng)格線C、圖表中有圖例D、該圖畫的是sin曲線【正確答案】:CD解析:

該圖畫的是點虛線形式的折線圖,紅色點線網(wǎng)格,帶有圖例。50.非頻繁模式()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關(guān)模式D、對異常數(shù)據(jù)項敏感【正確答案】:AD解析:

非頻繁模式是一個項集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數(shù)據(jù)中的負相關(guān)時。它對異常數(shù)據(jù)項敏感。51.下列關(guān)于Spark中的RDD描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計算Dataset:就是一個集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:

A、B、C、D全部正確。52.大數(shù)據(jù)的參考架構(gòu)分為哪三個層次()A、角色B、活動C、邏輯構(gòu)件D、功能組件【正確答案】:ABD解析:

GB/T35589—2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動的功能組件以及它們之間的關(guān)系。53.下列可以用來評估線性回歸模型的指標有()。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】:ABCD解析:

R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指標均可以評估線性回歸模型。54.以下屬于規(guī)則的分詞方法的是()。A、正向最大匹配法B、逆向最大匹配法C、雙向最大匹配法D、條件隨機場【正確答案】:ABC解析:

條件隨機場是一種鑒別式機率模型,常用于標注或分析序列資料。55.集成學習中增強多樣性的常見做法有()。A、數(shù)據(jù)樣本擾動B、輸入屬性擾動C、輸出表示擾動D、算法參數(shù)擾動【正確答案】:ABCD解析:

集成學習中增強多樣性的常見做法主要是是對數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進行擾動。56.以下屬于漢語未登錄詞的類型的有()。A、存在于詞典但出現(xiàn)頻率較少的詞B、新出現(xiàn)的普通詞匯C、專有名詞D、專業(yè)名詞和研究領(lǐng)域名稱【正確答案】:BCD解析:

未登錄詞就是未知的新詞。判斷一個新字符串是否應(yīng)作為一個詞,是基于世界知識的,需要人參與才能確認。57.以下選項中是正確的字符串有()。A、‘a(chǎn)bc”ab”B、‘a(chǎn)bc”ab’C、“abc”ab”D、“abc\”ab”【正確答案】:BD解析:

需要兩端引號符號相同。58.下列模型屬于機器學習生成式模型的是()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】:ABD解析:

機器學習生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。59.數(shù)據(jù)增值存在于哪些過程中()。A、數(shù)據(jù)對象的封裝B、數(shù)據(jù)系統(tǒng)的研發(fā)C、數(shù)據(jù)的集成應(yīng)用D、基于數(shù)據(jù)的創(chuàng)新【正確答案】:ABCD解析:

數(shù)據(jù)對象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進行數(shù)據(jù)增值。60.對于不同場景內(nèi)容,一般數(shù)字圖像可以分為()。A、二值圖像B、灰度圖像C、彩色圖像D、深度圖像【正確答案】:ABC解析:

深度圖像中深度通道為描述距離,一般對其進行采樣或數(shù)值離散化。61.在監(jiān)督式學習中使用聚類算法的方法有()。A、首先,可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學習算法B、在應(yīng)用監(jiān)督式學習算法之前,可以將其類別ID作為特征空間中的一個額外的特征C、在應(yīng)用監(jiān)督式學習之前,不能創(chuàng)建聚類D、在應(yīng)用監(jiān)督式學習算法之前,不能將其類別ID作為特征空間中的一個額外的特征【正確答案】:AB解析:

我們可以為不同的集群構(gòu)建獨立的機器學習模型,并且可以提高預(yù)測精度。將每個類別的ID作為特征空間中的一個額外的特征可能會提高的精度結(jié)果。62.下列有關(guān)Flume的描述正確的是()。A、Flume具有一定的容錯性B、Flume使用Java編寫C、Flume不支持failoverD、Flume是一個分布式的輕量級工具,適應(yīng)各種方式的數(shù)據(jù)收集【正確答案】:ABD解析:

Flume本身提供了failover機制,可以自動切換和恢復(fù)。63.聚類性能度量的指標主要分為外部指標和內(nèi)部指標,其中屬于內(nèi)部指標的是()。A、Jaccard指數(shù)B、FM指數(shù)C、DB指數(shù)Dunn指數(shù)【正確答案】:CD解析:

AB為外部指標。64.Hadoop中map輸出結(jié)果說法正確的是()。A、<key,value>鍵值對B、輸出中間臨時結(jié)果C、輸出最終計算結(jié)果D、輸出結(jié)果永久保留【正確答案】:AB解析:

map輸出結(jié)果并非是最終結(jié)果且只暫時保留。65.下面是Python的特點和優(yōu)點是()。A、解釋性強B、使用動態(tài)特性C、面向?qū)ο驞、語法簡潔【正確答案】:ABCD解析:

Python的特點和優(yōu)點是基于面向?qū)ο笤O(shè)計,、代碼解釋性強,、使用動態(tài)特性、語法簡潔。66.下列關(guān)于詞袋模型說法正確的是()。A、詞袋模型可以忽略每個詞出現(xiàn)的順序B、詞袋模型不可以忽略每個詞出現(xiàn)的順序C、TensorFlow支持詞袋模型D、詞袋模型可以表出單詞之間的前后關(guān)系【正確答案】:AC解析:

詞袋模型的缺點之一就是不考慮詞語的順序關(guān)系,因此BD錯誤。67.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲數(shù)據(jù),表結(jié)構(gòu)包括()等元素。A、關(guān)鍵字B、時間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:

BigTable和HBase的索引由行關(guān)鍵字、列簇和時間戳組成。68.任何函數(shù)都可以修改,所以盡量少用全局變量,主要原因包括()。A、不夠安全B、一直占用內(nèi)存C、容易失效D、一直占用字符【正確答案】:AB解析:

全局變量安全性差、相關(guān)內(nèi)存一直無法釋放。69.假設(shè)檢驗中,首先需要提出零假設(shè)和備擇假設(shè),零假設(shè)是(),備擇假設(shè)是()。A、只有出現(xiàn)的概率大于閾值才會被拒絕的,只有零假設(shè)出現(xiàn)的概率大于閾值才會被承認的B、希望推翻的結(jié)論,希望證明的結(jié)論C、只有出現(xiàn)的概率小于閾值才會被拒絕的,只有零假設(shè)出現(xiàn)的概率小于閾值才會被承認的D、希望證明的結(jié)論,希望推翻的結(jié)論【正確答案】:BC70.Python變量命名規(guī)則包含()。A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開頭,但不能以數(shù)字開頭,。例如,可將變量命名為message_1,但不能將其命名為1_message。B、變量名不能包含空格,但可使用下劃線來分隔其中的單詞。例如,變量名greeting_message可行,但變量名greetingmessage會引發(fā)錯誤。C、不要將Python關(guān)鍵字和函數(shù)名用作變量名,即不要使用Python保留用于特殊用途的單詞,如print。D、變量名應(yīng)既簡短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好?!菊_答案】:ABCD解析:

Python變量名只能包含字母、數(shù)字和下劃線,但不能以數(shù)字開頭,避免使用關(guān)鍵字,變量名應(yīng)既簡短又具有描述性。71.下面對范數(shù)規(guī)則化描述,正確的是()。A、L0是指向量中0的元素的個數(shù)B、L1范數(shù)是指向量中各個元素絕對值之和C、L2范數(shù)向量元素絕對值的平方和再開平方D、L0是指向量中非0的元素的個數(shù)【正確答案】:BCD解析:

L0是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。72.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:

聚類算法是無監(jiān)督的學習算法,訓(xùn)練樣本的標記信息是未知的。73.屬于特征選擇的優(yōu)點有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強模型的泛化能力【正確答案】:BCD解析:

特征選擇無法克服模型自身的缺陷,二者是獨立的。74.()是Spark比MapReduce計算快的原因。A、基于內(nèi)存的計算B、基于DAG的調(diào)度框架C、基于Lineage的容錯機制D、基于分布式計算的框架【正確答案】:ABC解析:

Spark比MapReduce計算快的原因包括基于內(nèi)存計算、使用基于Lineage的容錯機制和基于DAG的調(diào)度框架。75.以下方法中可用于圖像分割的有()。A、霍夫曼編碼B、分水嶺算法C、K-meansD、區(qū)域增長法【正確答案】:BCD解析:

分水嶺、K-means算法、區(qū)域生長都是常見的分割算法,而霍夫曼編碼不屬于分割算法。76.下面哪些是Spark的組件()。A、SparkStreamingB、MLibC、GraphXD、SparkR【正確答案】:ABC解析:

Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphX。77.下面關(guān)于中心極限定理的說法,正確的是()。A、中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計學和誤差分析的基礎(chǔ)【正確答案】:ACD解析:

中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態(tài)分布為極限。78.RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是Sigmod的原因有()。A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜C、雙曲正切更簡單D、Sigmoid函數(shù)實現(xiàn)較為復(fù)雜【正確答案】:AB解析:

第一,采用Sigmoid等函數(shù),反向傳播求誤差梯度時,求導(dǎo)計算量很大,而ReLU求導(dǎo)非常容易。第二,對于深層網(wǎng)絡(luò),Sigmoid函數(shù)反向傳播時,很容易就會出現(xiàn)梯度消失的情況(在Sigmoid接近飽和區(qū)時,變換太緩慢,導(dǎo)數(shù)趨于0),從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練。79.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是()。A、深度優(yōu)先遍歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略【正確答案】:AB解析:

在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。80.Hadoop中map輸出結(jié)果說法正確的是()。A、<key,value>鍵值對B、輸出中間臨時結(jié)果C、輸出最終計算結(jié)果D、輸出結(jié)果永久保留【正確答案】:AB解析:

map輸出結(jié)果并非是最終結(jié)果且只暫時保留。81.下面是Python注釋語句的是()。A、'hello'B、'''hello'''C、"hello"D、#【正確答案】:BD解析:

python語句單行注釋使用單個#號,多行注釋使用三個單引號。82.下列既可以用于分類,又可以用于回歸的機器學習算法有()。A、k近鄰B、邏輯回歸C、決策樹D、線性回歸【正確答案】:AC解析:

邏輯回歸只用于分類,線性回歸只用于回歸。83.圖像處理中的去噪算法有()。A、中值濾波B、均值濾波C、峰值濾波D、高值濾波【正確答案】:AB解析:

圖像處理中噪聲可用中值濾波或均值濾波將其與周圍圖像像素融合,達到降噪目的。84.Spark的關(guān)鍵技術(shù)包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】:ABCD解析:

Spark的關(guān)鍵技術(shù)包括RDD、Scheduler、Storage、Shuffle。85.MapReduce與HBase的關(guān)系,哪些描述是正確的()。A、兩者不可或缺,MapReduce是HBase可以正常運行的保證B、兩者不是強關(guān)聯(lián)關(guān)系,沒有MapReduce,HBase可以正常運行C、MapReduce可以直接訪問HBaseD、它們之間沒有任何關(guān)系【正確答案】:BC解析:

HBase是Hadoop數(shù)據(jù)庫。它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫,與MapReduce并無強關(guān)聯(lián)關(guān)系,HadoopMapReduce為HBase提供了高性能的計算能力,可直接訪問HBase。86.特征工程一般需要做哪些工作()。A、正則化B、標

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論