大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版

上傳人：唯*** IP屬地：河北上傳時(shí)間：2024-01-09 格式：PDF 頁(yè)數(shù)：108 大?。?6.85MB 積分：12 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版_第2頁(yè)

大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版_第3頁(yè)

大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版_第4頁(yè)

大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版_第5頁(yè)

已閱讀5頁(yè)，還剩103頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

試題說(shuō)明

本套試題共包括1套試卷

每題均顯示答案和解析

大數(shù)據(jù)理論考試練習(xí)題及答案2（500題）

大數(shù)據(jù)理論考試練習(xí)題及答案2

1.［單選題］假設(shè)有n組數(shù)據(jù)集，每組數(shù)據(jù)集中，x的平均值都是9,x的方差都是11,y的平均值都是

7.50,x與y的相關(guān)系數(shù)都是0.816,擬合的線性回歸方程都是y=3.00+0.500*x。那么這n組數(shù)據(jù)集是

否一樣（）

A）一樣

B）不一樣

C）無(wú)法確

答案:C

解析：只比較平均值、方差、相關(guān)系數(shù)和回歸方程，無(wú)法確定數(shù)據(jù)集是否相同，還需比較Anscombe's

quarteto

2.［單選題］如果一個(gè)SVM模型出現(xiàn)欠擬合，那么下列哪種方法能解決這一問(wèn)題（）

A）增大懲罰參數(shù)C的值

B）減小懲罰參數(shù)C的值

C）減小核系數(shù)（gamma參數(shù)

答案:A

解析:SVM模型出現(xiàn)欠擬合，表明模型過(guò)于簡(jiǎn)單，需要提高模型復(fù)雜度。C值越大，相應(yīng)的模型越復(fù)雜

3.［單選題］如果我們說(shuō)線性回歸模型完美地?cái)M合了訓(xùn)練樣本（訓(xùn)練樣本誤差為零），則下面哪個(gè)說(shuō)

法是正確的（）

A）測(cè)試樣本誤差始終為零

B）測(cè)試樣本誤差不可能為零

C）以上答案都不

答案:C

解析：根據(jù)訓(xùn)練樣本誤差為零，無(wú)法推斷測(cè)試樣本誤差是否為零。如果測(cè)試樣本集很大，則很可能發(fā)

生過(guò)擬合，導(dǎo)致模型不具備很好的泛化能力。

4.［單選題］（）算法假設(shè)聚類(lèi)結(jié)構(gòu)能通過(guò)樣本分布的緊密程度確定

A）原型聚類(lèi)

B）密度聚類(lèi)

C）層次聚

答案：B

解析：密度聚類(lèi)算法假設(shè)聚類(lèi)結(jié)構(gòu)能通過(guò)樣本分布的緊密程度確定。

5.［單選題］下面哪個(gè)不是hdfs副本放置策略（）o

A）本機(jī)

B）當(dāng)?shù)貦C(jī)架

C）不同機(jī)架的同一個(gè)節(jié)點(diǎn)D.不同機(jī)架的不同節(jié)點(diǎn)

答案：A

解析：每個(gè)hdfs文件應(yīng)至少有三個(gè)副本，一份在當(dāng)?shù)貦C(jī)架，一份在不同機(jī)架的同一個(gè)節(jié)點(diǎn)，一份在不

同機(jī)架的不同節(jié)點(diǎn)。

6.［單選題］如果我們說(shuō)線性回歸模型完美地?cái)M合了訓(xùn)練樣本（訓(xùn)練樣本誤差為零），則下面哪個(gè)說(shuō)

法是正確的（）

A）測(cè)試樣本誤差始終為零

B）測(cè)試樣本誤差不可能為零

C）以上答案都不對(duì)

答案:C

解析：根據(jù)訓(xùn)練樣本誤差為零，無(wú)法推斷測(cè)試樣本誤差是否為零。如果測(cè)試樣本集很大，則很可能發(fā)

生過(guò)擬合，導(dǎo)致模型不具備很好的泛化能力。

7.［單選題］@app.route的作用為（）。

A）程序代碼的規(guī)范，沒(méi)什么作用

B）類(lèi)似裝飾器，返回本地網(wǎng)絡(luò)測(cè)試地址

C）返回127005000

D）以上答案都不正確

答案:B

解析:@app.route是flask裝飾器，調(diào)用后返回返回本地網(wǎng)絡(luò)測(cè)試地址。

8.［單選題］現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類(lèi)型不包括（）。

A）數(shù)據(jù)源與P

B）基礎(chǔ)設(shè)施

OHadoop

D）數(shù)據(jù)資源

答案:C

解析:Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖（BigData

Landscape）,首次較為全面地刻畫(huà)了當(dāng)時(shí)快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來(lái)，該圖及其畫(huà)法成為

大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具，得到廣泛的應(yīng)用和不斷的更新。MattTurek等組織繪制的

2017大數(shù)據(jù)產(chǎn)業(yè)全景圖（BigDataLandscape2017）o從2017大數(shù)據(jù)產(chǎn)業(yè)全景圖看，現(xiàn)階段的大數(shù)

據(jù)技術(shù)體系主要類(lèi)型包括：數(shù)據(jù)資源、數(shù)據(jù)源與APP、開(kāi)源工具、跨平臺(tái)基礎(chǔ)設(shè)施和分析工具、行業(yè)

應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。

9.［單選題］任何一個(gè)核函數(shù)都隱式地定義了一個(gè)（）空間。

A）希爾伯特空間

B）再生希爾伯特空間

C）再生核希爾伯特空間

D）歐式空

答案:C

解析:任何一個(gè)核函數(shù)都隱式地定義了一個(gè)再生核希爾伯特空間空間。

10.［單選題］從可視化視角看，可以將數(shù)據(jù)分為4種類(lèi)型，其中不包括（）

A）定類(lèi)數(shù)據(jù)

B）定序數(shù)據(jù)

C）定距數(shù)據(jù)

D）定量數(shù)據(jù)

答案:D

解析：一般可以將數(shù)據(jù)類(lèi)型的度量分為四種：定類(lèi)，定序，定距，和定比，這四種類(lèi)型是從低到高的

遞進(jìn)關(guān)系，高級(jí)的類(lèi)型可以用低級(jí)類(lèi)型的分析方法來(lái)分析，而反過(guò)來(lái)卻不行。

11.［單選題］語(yǔ)音識(shí)別的應(yīng)用場(chǎng)景包括。。

A）語(yǔ)音轉(zhuǎn)文本

B）語(yǔ)音合成

C）人機(jī)交互

D）以上答案都正

答案:D

解析:語(yǔ)音識(shí)別應(yīng)用包含語(yǔ)音轉(zhuǎn)文本，語(yǔ)音合成和人機(jī)交互等。

12.［單選題］在一個(gè)簡(jiǎn)單的線性回歸模型中（只有一個(gè)變量），如果將輸入變量改變一個(gè)單位（增加

或減少），那么輸出將改變多少（）

A）一個(gè)單位

B）不變

C）截距

D）回歸模型的尺度因

答案:D

解析：假設(shè)線性回歸模型是：y=a+bx,若x改變一個(gè)單位，例如x+1,則y改變b個(gè)單位，b是

回歸模型的尺度因子。

13.［單選題］對(duì)于一個(gè)分類(lèi)任務(wù)，如果開(kāi)始時(shí)神經(jīng)網(wǎng)絡(luò)的權(quán)重不是隨機(jī)賦值的，而是都設(shè)成0,下面

哪個(gè)敘述是正確的（）

A）其他選項(xiàng)都不對(duì)

B）沒(méi)啥問(wèn)題，神經(jīng)網(wǎng)絡(luò)會(huì)正常開(kāi)始訓(xùn)練

C）神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練，但是所有的神經(jīng)元最后都會(huì)變成識(shí)別同樣的東西

D）神經(jīng)網(wǎng)絡(luò)不會(huì)開(kāi)始訓(xùn)練，因?yàn)闆](méi)有梯度改

答案:C

解析：神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練，但是所有的神經(jīng)元最后都會(huì)變成識(shí)別同樣的東西。

14.［單選題］（）是一種基于日志的結(jié)構(gòu)化數(shù)據(jù)復(fù)制軟件，能夠?qū)崿F(xiàn)大量數(shù)據(jù)的實(shí)時(shí)捕捉、變換和投

遞。

A）Nosql

B）ETL

OOGG

D）Hive

答案:C

解析:Nosql非關(guān)系型數(shù)據(jù)庫(kù)；ETL數(shù)據(jù)導(dǎo)入（抽取、轉(zhuǎn)換、加載）；HiveHadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具

15.［單選題］在Hadoop中，下面哪個(gè)是默認(rèn)的InputFormat類(lèi)型，它將每行內(nèi)容作為新值，而將字節(jié)

偏移量作為key（）。

A）FilelnputFormat

B）TextlnputFormat

C）KeyValueTextInputFormat

D）CombineTextlnputForma

答案:B

解析:TextlnputFormat是默認(rèn)的InputFormat。每條記錄是一行輸入。鍵Key是LongWritable類(lèi)型

,存儲(chǔ)該行在整個(gè)文件中的字節(jié)偏移量。

16.［單選題］以下（）能力不屬于數(shù)據(jù)中臺(tái)能力架構(gòu)能力。

A）數(shù)據(jù)接入

B）存儲(chǔ)計(jì)算

C）數(shù)據(jù)服務(wù)

D）應(yīng)用研

答案：D

解析：

17.［單選題］下列關(guān)于文本分類(lèi)的說(shuō)法不正確的是（）。

A）文本分類(lèi)是指按照預(yù)先定義的主題類(lèi)別，由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類(lèi)別

B）文本分類(lèi)大致可分為基于知識(shí)工程的分類(lèi)系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類(lèi)系統(tǒng)

C）文本的向量形式一般基于詞袋模型構(gòu)建，該模型考慮了文本詞語(yǔ)的行文順序

D）構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟

答案:C

解析：詞袋模型沒(méi)有考慮文本詞語(yǔ)的原本行文順序。

18.［單選題］有訂單表orders,包含用戶信息userid、產(chǎn)品信息productid兩列，以下語(yǔ)句能夠返回

至少被訂購(gòu)過(guò)兩回的productid的語(yǔ)句是

A)SELECTproductidFROMordersWHEREcount(productid)>1

B)SELECTproductidFROMordersWHEREmax(productid)>1

C)SELECTproductidFROMordersWHEREhavingcount(productid)>1GROUPBYproductid

D)SELECTproductidFROMordersGROUPBYproductidHAVINGcount(productid)>

答案:D

解析:

19.［單選題］在大規(guī)模的語(yǔ)料中，挖掘詞的相關(guān)性是一個(gè)重要的問(wèn)題。以下哪一個(gè)信息不能用于確定

兩個(gè)詞的相關(guān)性（）0

A）互信息

B）最大病

C）卡方檢驗(yàn)

D）最大似然

答案：B

解析：最大病為尋找最優(yōu)模型的方法，并不能度量相似性。

20.［單選題］Apriori算法的核心思想是（）0

A）通過(guò)頻繁項(xiàng)集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘候選集

B）通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集

C）數(shù)據(jù)集中包含該項(xiàng)集的數(shù)據(jù)所占數(shù)據(jù)集的比例，度量一個(gè)集合在原始數(shù)據(jù)中出現(xiàn)的頻率

D）若某條規(guī)則不滿足最小置信度要求，則該規(guī)則的所有子集也不滿足最小置信度要求

答案:B

解析:Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，其核心思想是通過(guò)候選集生成和情節(jié)的向

下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。

21.［單選題］在Python中，下列不是int整型數(shù)據(jù)的是（）。

A）160

B）010

0-78

D）0x234

答案:B

解析:B不符合python語(yǔ)法

22.［單選題］HadoopMapReduce2.0中，。負(fù)責(zé)資源的管理和調(diào)度。

A）JobTracker

B）YARN

C）TaskTracker

D）ApplicationMaster

答案:B

解析:Hadoop2.0比起Hadoop1.0來(lái)說(shuō)，最大的改進(jìn)是加入了資源調(diào)度框架Yarn,引入了

ApplicationManager和NodeManager的概念。

23.［單選題］設(shè)有關(guān)系模式EMP（職工號(hào)，姓名，年齡，技能）。假設(shè)職工號(hào)唯一，每個(gè)職工有多項(xiàng)技

能，則EMP表的主鍵是

A）職工號(hào)

B）姓名，技能

C）技能

D）職工號(hào)，技

答案:A

解析：

24.［單選題］美國(guó)海軍軍官莫里通過(guò)對(duì)前人航海日志的分析，繪制了新的航海路線圖，標(biāo)明了大風(fēng)與

洋流可能發(fā)生的地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中的（）0

A）在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)

B）在分析方法上更注重相關(guān)分析而不是因果分析

C）在分析效果上更追究效率而不是絕對(duì)精確

D）在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)

答案:B

解析：本次分析主要分析了大風(fēng)和洋流可能發(fā)生的地與安全航路的相關(guān)性。

25.［單選題］過(guò)濾式特征選擇與學(xué)習(xí)器（），包裹式特征選擇與學(xué)習(xí)器（）o

A）相關(guān)相關(guān)

B）相關(guān)不相關(guān)

C）不相關(guān)相關(guān)

D）不相關(guān)不相關(guān)

答案:C

解析：過(guò)濾式方法先對(duì)數(shù)據(jù)集進(jìn)行特征選擇，然后再訓(xùn)練學(xué)習(xí)器，特征選擇過(guò)程與后續(xù)學(xué)習(xí)器無(wú)關(guān)。

包裹式特征選擇把最終將要使用的學(xué)習(xí)器的性能作為特征于集的評(píng)價(jià)準(zhǔn)則。

26.［單選題］以下哪個(gè)分類(lèi)方法可以較好地避免樣本的不平衡問(wèn)題。。

A）KNN

B）SVM

C）Bayes

D）神經(jīng)網(wǎng)絡(luò)

答案:A

解析:KNN只是取了最近的幾個(gè)樣本點(diǎn)做平均，離預(yù)測(cè)數(shù)據(jù)較遠(yuǎn)的訓(xùn)練數(shù)據(jù)對(duì)預(yù)測(cè)結(jié)果不會(huì)造成影響

,但是svm、Bayes和NN每一個(gè)訓(xùn)練樣本果都會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響。

27.［單選題］下面哪個(gè)操作肯定是寬依賴（）

A）map

B）flatMap

C）reduceByKey

D）sample

答案:C

解析：spark中常見(jiàn)的窄依賴操作包括map,filer,union,sample等，寬依賴的操作包括

reducebykey,groupbykey,join等。

28.［單選題］基于Bagging的集成學(xué)習(xí)代表算法有（）。

A）aboost

B）GT

OXGBOOST

D）隨機(jī)森

答案:D

解析：隨機(jī)森林是基于Bagging的集成學(xué)習(xí)算法。

29.［單選題］（）是一個(gè)觀測(cè)值，它與其它觀測(cè)值的差別如此之大，以至于懷疑它是由不同的機(jī)制產(chǎn)

生的。

A）邊界點(diǎn)

B）質(zhì)心

C）離群點(diǎn)

D）核心點(diǎn)

答案:C

解析：離群點(diǎn)（outlier）是指數(shù)值中，遠(yuǎn)離數(shù)值的一般水平的極端大值和極端小值。

30.［單選題］SLIC算法的主要目的是（）。

A）目標(biāo)識(shí)別

B）前景和背景分離

C）超像素提取

D）語(yǔ)義分

答案:C

解析:SLIC是基于K-means算法的生成超像素新方法，SLIC是超像素中心周?chē)膮^(qū)域2sx2s中進(jìn)行類(lèi)

似像素的搜索

31.［單選題］決策樹(shù)的父節(jié)點(diǎn)和子節(jié)點(diǎn)的病的大小關(guān)系是什么。。

A）父節(jié)點(diǎn)的炳更小

B）子節(jié)點(diǎn)的嫡更小

C）兩者相等

D）根據(jù)具體情況而定

答案:B

解析:決策樹(shù)分解策略是保證子結(jié)點(diǎn)的病小于父結(jié)點(diǎn)的炳。但子結(jié)點(diǎn)的酒是該父結(jié)點(diǎn)所有孩子結(jié)點(diǎn)的

病的總和，因此，并保證任意一個(gè)子節(jié)點(diǎn)的燧都小于父結(jié)點(diǎn)燧。

32.［單選題］關(guān)于數(shù)據(jù)產(chǎn)品，以下說(shuō)法錯(cuò)誤的是（）o

A）數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集

B）與傳統(tǒng)物質(zhì)產(chǎn)品不同的是，數(shù)據(jù)產(chǎn)品的消費(fèi)者不僅限于人類(lèi)用戶.還可以是計(jì)算機(jī)以及其他軟硬件

系統(tǒng)

C）數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項(xiàng)目的最終產(chǎn)品，也包括其中間產(chǎn)品以及副產(chǎn)品

D）數(shù)據(jù)產(chǎn)品開(kāi)發(fā)涉及數(shù)據(jù)科學(xué)項(xiàng)目流程的全部活動(dòng)

答案:A

解析:數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集，還包括文檔、知識(shí)庫(kù)、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞

見(jiàn)、決策或它們的組合。

33.［單選題］數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù)，下列哪項(xiàng)不是其搜索過(guò)

程的特點(diǎn)（）O

A）有選擇

B）有策略

C）有目標(biāo)

D）反復(fù)進(jìn)行的

答案:C

解析:數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù)，其搜索過(guò)程是有選擇、有策略

和反復(fù)進(jìn)行的。

34.［單選題］當(dāng)ElasticSearch集群有節(jié)點(diǎn)加入或退出時(shí)集群數(shù)據(jù)會(huì)發(fā)生什么動(dòng)作？

A）數(shù)據(jù)重載

B）數(shù)據(jù)重建

C）數(shù)據(jù)重分布

D）數(shù)據(jù)更

答案:C

解析：

35.［單選題］關(guān)于層次聚類(lèi)算法：（1）不斷重復(fù)直達(dá)達(dá)到預(yù)設(shè)的聚類(lèi)簇?cái)?shù)（2）不斷合并距離最近的

聚類(lèi)簇（3）對(duì)初始聚類(lèi)簇和相應(yīng)的距離矩陣初始化（4）對(duì)合并得到的聚類(lèi)簇進(jìn)行更新。正確的執(zhí)

行順序?yàn)椋ǎ?

A)1234

B)1324

03241

D)341

答案:C

解析：層次聚類(lèi)算法的過(guò)程是：對(duì)初始聚類(lèi)簇和相應(yīng)的距離矩陣初始化；不斷合并距離最近的聚類(lèi)簇

;對(duì)合并得到的聚類(lèi)簇進(jìn)行更新；不斷重復(fù)直達(dá)達(dá)到預(yù)設(shè)的聚類(lèi)簇?cái)?shù)。

36.［單選題］大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為。。

A）信息（活動(dòng)）價(jià)值鏈和信息技術(shù)價(jià)值鏈

B）信息技術(shù)價(jià)值鏈和信息（活動(dòng)）價(jià)值鏈

0信息交互價(jià)值鏈和信息技術(shù)價(jià)值鏈

D）信息（活動(dòng)）價(jià)值鏈和信息交互價(jià)值鏈

答案:A

解析：大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價(jià)值鏈的信息價(jià)值鏈（水平軸）和IT價(jià)值鏈（垂直軸）兩個(gè)維

度組織展開(kāi)

37.［單選題］對(duì)數(shù)值型輸出，最常見(jiàn)的結(jié)合策略是（）。

A）投票法

B）平均法

C）學(xué)習(xí)法

D）排序

答案：B

解析：對(duì)數(shù)值型輸出，最常見(jiàn)的結(jié)合策略是平均法。

38.［單選題］pyplot.plot（）函數(shù)輸入?yún)?shù)'b'修改的是圖形的（）。

A）位置

B）大小

C）形狀

D）顏色

答案:D

解析：'b'代表畫(huà)線顏色參數(shù)中的‘blue'屬性值，作用是設(shè)置顏色為藍(lán)色。

39.［單選題］以下哪些算法，可以用神經(jīng)網(wǎng)絡(luò)去構(gòu)造（_）。1）KNN2）線性回歸3）對(duì)數(shù)幾率回歸

A）1和2

B）2和3

01,2和3

D）以上答案都不正

答案：B

解析：1、KNN算法不需要訓(xùn)練參數(shù)，而所有神經(jīng)網(wǎng)絡(luò)都需要訓(xùn)練參數(shù)，因此神經(jīng)網(wǎng)絡(luò)幫不上忙。2、

最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)，感知器，其實(shí)就是線性回歸的訓(xùn)練。3、我們可以用一層的神經(jīng)網(wǎng)絡(luò)構(gòu)造對(duì)數(shù)幾

率回歸。

40.［單選題］Hadoop生態(tài)系統(tǒng)中，（）主要解決的是日志類(lèi)數(shù)據(jù)的收集和處理問(wèn)題。

A）Mahout

B）Flume

C）Sqoop

D）HBase

答案：B

解析：Flume主要用于日志采集，其中的agent里面包含3個(gè)核心的組件source（采集/輸入）-

>channel（緩存/管道）->sink（輸出），類(lèi)似生產(chǎn)者、倉(cāng)庫(kù)、消費(fèi)者的架構(gòu)。

41.［單選題］下列關(guān)于分詞的說(shuō)法正確的是（）

A）中文句子字之間沒(méi)有空格，無(wú)法分詞

B）一個(gè)句子的分詞結(jié)果是唯一的

C）中文分詞是將一系列無(wú)空格間隔字符串分割成一系列單詞的過(guò)程

D）分詞沒(méi)有實(shí)際應(yīng)用價(jià)

答案:C

解析：中文中字、句和段能通過(guò)明顯的分界符來(lái)簡(jiǎn)單劃界，所以A錯(cuò)。對(duì)一個(gè)句子，不同語(yǔ)料的分詞

標(biāo)準(zhǔn)是不一樣的，它們往往做不到一致性的分割，所以B錯(cuò)。中文分詞的應(yīng)用十分廣泛，如搜索引擎

、機(jī)器翻譯（MT）、語(yǔ)音合成、自動(dòng)分類(lèi)、自動(dòng)摘要、自動(dòng)校對(duì)等等，所以D錯(cuò)。分詞就是將連續(xù)的字

序列按照一定的規(guī)范重新組合成詞序列的過(guò)程，中文分詞是將一系列無(wú)空格間隔字符串分割成一系

列單詞的過(guò)程，所以C對(duì)，選C。

42.[單選題]以下代碼的輸出結(jié)果為。。

Importnumpyasnp

A=np.array([[1,2],[3,4],[5,6]])

Print(np.insert(a,3,[11,12]))

A)[[l2][34][56]]

B)[1231112456]

0[[12][1111][34][56]]

D)[El112][3114][5116]]

答案:B

解析：與append。相同，insert。在沒(méi)有指定axis時(shí)默認(rèn)展平數(shù)組。

.執(zhí)行np.concatenated[[123][234]],[[345]]],axis=0)

43.[單選題]以下統(tǒng)計(jì)量中表示數(shù)據(jù)分布是否為對(duì)稱性的是。。

A)方差

B)中位數(shù)

C)偏態(tài)

D)峰

答案:C

解析：偏態(tài)(Skewness)描述數(shù)據(jù)分布的對(duì)稱性。當(dāng)“偏態(tài)系數(shù)”等于0時(shí)，對(duì)應(yīng)數(shù)據(jù)的分布為對(duì)稱

,否則分布為非對(duì)稱；峰態(tài)(Kurtosis)描述數(shù)據(jù)分布的平峰或尖峰程度。當(dāng)“峰態(tài)系數(shù)”等于0時(shí)

,數(shù)據(jù)分布為標(biāo)準(zhǔn)正態(tài)分布，否則比正態(tài)分布更平或更尖。

44.[單選題]以下關(guān)于數(shù)據(jù)服務(wù)API開(kāi)放方使用流程，描述正確的是：()。

A)創(chuàng)建api并發(fā)布api

B)獲取API

C)調(diào)用API

D)創(chuàng)建應(yīng)用并獲取授

答案:A

解析：

45.[單選題]在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中，感知機(jī)輸出層中的M-P神經(jīng)元通常被稱為()o

A)閾值邏輯單元

B)激活函數(shù)

C)擠壓函數(shù)

D)連接函

答案：A

解析：深度學(xué)習(xí)基礎(chǔ)知識(shí)。

46.[單選題]構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)，將前一層的輸出和它自身作為輸入。下列哪一種架構(gòu)有反饋連接

()

A）循環(huán)神經(jīng)網(wǎng)絡(luò)

B）卷積神經(jīng)網(wǎng)絡(luò)

C）限制玻爾茲曼機(jī)

D）都不

答案:A

解析：循環(huán)神經(jīng)網(wǎng)絡(luò)有反饋連接。

47.［單選題］下列說(shuō)法錯(cuò)誤的是（）

A）當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí)，梯度下降算法的解一般就是全局最優(yōu)解

B）進(jìn)行PCA降維時(shí)，需要計(jì)算協(xié)方差矩

C）沿負(fù)梯度的方向一定是最優(yōu)的方向

D）利用拉格朗日函數(shù)能解帶約束的優(yōu)化問(wèn)題

答案:C

解析：沿負(fù)梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。

48.［單選題］PHOTO_PATH=/photo/{}.jpg"指令可以實(shí)現(xiàn)（）0

A）復(fù)制jpg文件到photo目錄下

B）定義一個(gè)名為photo的存儲(chǔ)路徑

C）打開(kāi)photo里所有的jpg文件

D）重命名目錄

答案:B

解析:PHOTO_PATH="./photo/}jpg"指令可以實(shí)現(xiàn)定義一個(gè)名為photo的相對(duì)存儲(chǔ)路徑。

49.［單選題］假設(shè)已從標(biāo)準(zhǔn)庫(kù)functools導(dǎo)入reduce。函數(shù)，那么表達(dá)式reduce（lambdax,y：

x+y,［1,2,3］）的值為（）。

A）None

B）6

D）9

答案:B

解析:reduce是聚合函數(shù)，該操作完成數(shù)組求和功能。

50.［單選題］點(diǎn)擊率問(wèn)題是這樣一個(gè)預(yù)測(cè)問(wèn)題,99%的人是不會(huì)點(diǎn)擊的，而現(xiàn)的人是會(huì)點(diǎn)擊進(jìn)去的，所以

這是一個(gè)非常不平衡的數(shù)據(jù)集.假設(shè)，現(xiàn)在我們已經(jīng)建了一個(gè)模型來(lái)分類(lèi)，而且有了99%的預(yù)測(cè)準(zhǔn)確率

，我們可以下的結(jié)論是：（）O

A）模型預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了，我們不需要做什么了

B）模型預(yù)測(cè)準(zhǔn)確率不高，我們需要做點(diǎn)什么改進(jìn)模型

C）無(wú)法下結(jié)論

D）以上答案都不正

答案:C

解析:類(lèi)別不均衡的情況下，不能用準(zhǔn)確率做分類(lèi)評(píng)估指標(biāo)，因?yàn)槿袛酁椴粫?huì)點(diǎn)，準(zhǔn)確率也是

99%,此時(shí)分類(lèi)器一點(diǎn)用都沒(méi)有。

51.［單選題］LSTM中，（_）的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中，并更新細(xì)胞狀態(tài)。

A）輸入門(mén)

B）遺忘門(mén)

C）輸出門(mén)

D）更新門(mén)

答案:A

解析:LSTM中，輸入門(mén)的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中，并更新細(xì)胞狀態(tài)；遺忘門(mén)決定我

們會(huì)從細(xì)胞狀態(tài)中丟棄什么信息；輸出門(mén)確定輸出。

52.［單選題］新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和（）。

A）數(shù)據(jù)倉(cāng)庫(kù)

B）關(guān)系云

C）數(shù)據(jù)庫(kù)系統(tǒng)

D）文件系統(tǒng)

答案:B

解析：關(guān)系云是在云計(jì)算環(huán)境中部署和虛擬化的關(guān)系數(shù)據(jù)庫(kù)，進(jìn)而使傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)具備云計(jì)算的彈

性計(jì)算、虛擬化、按需服務(wù)和高經(jīng)濟(jì)性等特征。關(guān)系云代表了數(shù)據(jù)管理的一個(gè)重要發(fā)展方向。

53.［單選題］（）是數(shù)據(jù)庫(kù)管理系統(tǒng)運(yùn)行的基本工作單位。

A）事務(wù)

B）數(shù)據(jù)倉(cāng)庫(kù)

C）數(shù)據(jù)單元

D）數(shù)據(jù)分析

答案:A

解析：在關(guān)系數(shù)據(jù)庫(kù)中，事務(wù)（Transaction）是保證數(shù)據(jù)一致性的重要手段，可以幫助用戶維護(hù)數(shù)據(jù)

的一致性。事務(wù)是用戶定義的一個(gè)數(shù)據(jù)庫(kù)操作序列，這些操作要么全做，要么全不做，是一個(gè)不可

分割的工作單位。

54.［單選題］對(duì)參數(shù)進(jìn)行L2正則，是機(jī)器學(xué)習(xí)常用的防止過(guò)擬合的方法。請(qǐng)問(wèn)對(duì)參數(shù)做L2正則，下列

O是對(duì)參數(shù)本身做先驗(yàn)分布假設(shè)。

A）高斯分布

B）拉普拉斯分布

C）泊松分布

D）均勻分

答案:A

解析:L2正則假設(shè)參數(shù)的先驗(yàn)分布是Gaussian分布，可以保證模型的穩(wěn)定性，也就是參數(shù)的值不會(huì)太

大或太小。

55.［單選題］關(guān)于表述數(shù)據(jù)可視化在數(shù)據(jù)科學(xué)中重要地位說(shuō)法中，下列不正確的是（）。

A）視覺(jué)是人類(lèi)獲得信息的最主要途徑

B）數(shù)據(jù)可視化處理可以洞察統(tǒng)計(jì)分析無(wú)法發(fā)現(xiàn)的結(jié)構(gòu)和細(xì)節(jié)

C）數(shù)據(jù)可視化處理結(jié)果的解讀對(duì)用戶知識(shí)水平的要求較高

D）可視化能夠幫助人們提高理解與處理數(shù)據(jù)的效率

答案:C

解析:視覺(jué)是人類(lèi)獲得信息的最主要途徑，超過(guò)50%的人腦功能用于視覺(jué)信息的處理。數(shù)據(jù)可視化處

理可以洞察統(tǒng)計(jì)分析無(wú)法發(fā)現(xiàn)的結(jié)構(gòu)和細(xì)節(jié)。數(shù)據(jù)可視化處理結(jié)果的解讀對(duì)用戶知識(shí)水平的要求較

低?？梢暬軌驇椭藗兲岣呃斫馀c處理數(shù)據(jù)的效率。

56.［單選題］。算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的算法。

A）FP-growth

B）EClat

C）聚類(lèi)

D）Apdor

答案:D

解析:Apdori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的算法。

57.［單選題］解析：最大概率分詞基本思想：一句話有多種切割方法，我們選擇聯(lián)合概率最大的結(jié)果

A）南京市*長(zhǎng)江*大橋

B）南京*市長(zhǎng)*江大橋

C）南京市長(zhǎng)*江大橋

D）南京市*長(zhǎng)江大

答案:B

解析:A=0；B=0.8*0.6*0.4=0.192C=0D=0.3*0.5=0.15所以這道題選擇B。

58.［單選題］scipy庫(kù)中用于物理和數(shù)學(xué)常量計(jì)算的模塊是（）o

A）scipy.cluster

B）scipy.io

C）scipy.constants

D）scipy.linalg

答案:C

解析：scipy中，constants是常量計(jì)算模塊。

59.［單選題］任一隨機(jī)事件出現(xiàn)的概率為（）

A）在-1與1之間

B）小于0

C）不小于1

D）在0與1之

答案:D

解析：如果沒(méi)有其他的附加條件的話，一般概率P的取值范圍是：0WPW1。0代表不可能發(fā)生，1代表一

定會(huì)發(fā)生。

60.［單選題］一監(jiān)獄人臉識(shí)別準(zhǔn)入系統(tǒng)用來(lái)識(shí)別待進(jìn)入人員的身份，此系統(tǒng)一共包括識(shí)別4種不同的

人員：獄警，小偷，送餐員，其他人員。下面哪種學(xué)習(xí)方法最適合此種應(yīng)用需求（）

A）二分類(lèi)問(wèn)題

B）層次聚類(lèi)問(wèn)題

C）多分類(lèi)問(wèn)題

D）回歸問(wèn)

答案:C

解析:涉及4種人員類(lèi)別，屬于多分類(lèi)問(wèn)題。

61.［單選題］（）屬于Spark框架中的可擴(kuò)展機(jī)器學(xué)習(xí)庫(kù)。

A）MLib

B）GraphX

C）Streaming

D）SparkSQL

答案:A

解析:MLib是可擴(kuò)展機(jī)器學(xué)習(xí)庫(kù)。

62.［單選題］有關(guān)Hadoop的陳述哪個(gè)是錯(cuò)誤的（）o

A）它運(yùn)行在通用硬件上；

B）它是Apache軟件基金會(huì)（ASF）下的項(xiàng)目；

0它是最好的實(shí)時(shí)流式數(shù)據(jù)處理框架；

D）Hadoop對(duì)數(shù)據(jù)的處理是有延遲的；

答案:C

解析:Hadoop不善于處理除批處理計(jì)算模式之外的其他計(jì)算模式，如流計(jì)算等，故C錯(cuò)。

63.［單選題］下列哪種架構(gòu)的數(shù)據(jù)庫(kù)數(shù)據(jù)是分布式存儲(chǔ)的：

A)share-everything

B)share-disk

C)share-nothing

D)share-anythin

答案:C

解析：

64.［單選題］數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用多個(gè)算法（模型）進(jìn)行預(yù)測(cè)，并且最后把這些算法的結(jié)果集

成起來(lái)進(jìn)行最后的預(yù)測(cè)（集成學(xué)習(xí)），以下對(duì)集成學(xué)習(xí)說(shuō)法正確的是OO

A）單個(gè)模型之間具有高相關(guān)性

B）單個(gè)模型之間具有低相關(guān)性

C）在集成學(xué)習(xí)中使用“平均權(quán)重”而不是“投票”會(huì)比較好

D）單個(gè)模型都是用的一個(gè)算法

答案:B

解析：集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)督模型，集成學(xué)習(xí)潛

在的思想是即便某一個(gè)弱模型得到了錯(cuò)誤的預(yù)測(cè)，其他的弱模型也可以將錯(cuò)誤糾正回來(lái)。某一個(gè)弱

模型要有一定的“準(zhǔn)確性”，即學(xué)習(xí)器不能太壞，并且要有多樣性，即個(gè)體學(xué)習(xí)器間具有差異。集

成中即可包含同種類(lèi)型的弱模型，也可包含不同類(lèi)型的弱模型。

65.［單選題］CNN神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取帶來(lái)了變革性的變化，使之前的人工特征提取升級(jí)到數(shù)據(jù)

驅(qū)動(dòng)的自動(dòng)特征提取，在CNN中，起到特征提取作用的網(wǎng)絡(luò)層是：（_）。

A）convolution層

B）fullconnect層

C）maxpooling層

D）norm

答案:A

解析：卷積層負(fù)責(zé)提取特征，采樣層負(fù)責(zé)特征選擇，全連接層負(fù)責(zé)分類(lèi)。

66.［單選題］檢測(cè)一元正態(tài)分布中的離群點(diǎn)，屬于異常檢測(cè)中的基于（）的離群點(diǎn)檢測(cè)。

A）統(tǒng)計(jì)方法

B）鄰近度

C）密度

D）聚類(lèi)技

答案:A

解析：檢測(cè)一元正態(tài)分布中的離群點(diǎn)，屬于異常檢測(cè)中的基于統(tǒng)計(jì)方法的離群點(diǎn)檢測(cè)。

67.［單選題］下列說(shuō)法錯(cuò)誤的是（）

A）生產(chǎn)者和消費(fèi)者面向的都是一個(gè)topic

B）生產(chǎn)者發(fā)送數(shù)據(jù)的對(duì)象是leader

0當(dāng)集群中的某個(gè)節(jié)點(diǎn)發(fā)生故障時(shí)，Replica上的partition數(shù)據(jù)不會(huì)丟失

D）partition是一個(gè)沒(méi)有順序的隊(duì)

答案：D

解析：

68.［單選題］ElasticSearch存放所有關(guān)鍵詞的地方是

A）字典

B）關(guān)鍵詞

C）詞典

D）索

答案:C

解析：

69.［單選題］下列（）算法更適合做時(shí)間序列建模。

A）CNN

B）決策樹(shù)

C）LSTM

D）貝葉斯算法

答案:C

解析:LSTM算法更適合做時(shí)間序列建模。

70.［單選題］（）是一種著名的密度聚類(lèi)算法，它基于一組鄰域參數(shù)來(lái)刻畫(huà)樣本的緊密程度。

A）DBSC

B）原型聚類(lèi)

C）密度聚類(lèi)

D）層次聚

答案:A

解析:DBSCAN是一種著名的密度聚類(lèi)算法，它基于一組鄰域參數(shù)來(lái)刻畫(huà)樣本的緊密程度。

71.［單選題］bootstrap數(shù)據(jù)是什么意思（）。

A）有放回地從總共M個(gè)特征中抽樣m個(gè)特征

B）無(wú)放回地從總共M個(gè)特征中抽樣m個(gè)特征

C）有放回地從總共N個(gè)樣本中抽樣n個(gè)樣本

D）無(wú)放回地從總共N個(gè)樣本中抽樣n個(gè)樣

答案:C

解析：自助來(lái)樣法（bootstrapsampling）,給定包含N個(gè)樣本的數(shù)據(jù)集，我們先隨機(jī)取出一個(gè)樣本放

入采樣集中，再把該樣本放回初始數(shù)據(jù)集，使得下次采樣時(shí)該樣本仍有可能被選中，這樣經(jīng)過(guò)n次隨

機(jī)采樣操作，我們得到含n個(gè)樣本的采樣集。

72.［單選題］當(dāng)Kafka中日志片段大小達(dá)到（）時(shí)，當(dāng)前日志片段會(huì)被關(guān)閉。

A）1M

B）100M

O1GB

D）10G

答案:C

解析：

73.［單選題］select*fromcitylimit5offset10；描述正確的是

A）獲取第6條到第15條記錄

B）獲取第5條到第10條記錄

C）獲取第6條到第15條記錄

D）獲取第11條到第15條記

答案:D

解析：

74.［單選題］（）是人們從（多條）信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論和方法等。

A）信息

B）知識(shí)

C）理解

D）智慧

答案：B

解析：知識(shí)上人們從數(shù)據(jù)、信息中發(fā)現(xiàn)的，在數(shù)據(jù)/信息中存在的共性規(guī)律、認(rèn)識(shí)、經(jīng)驗(yàn)與常識(shí)。通

常根據(jù)能否清晰地表述和有效的轉(zhuǎn)移，將知識(shí)分為兩種：顯性知識(shí)(ExplicitKnowledge)和隱性知

識(shí)(TacitKnowledge)<>

75.［單選題］有N個(gè)樣本，一般用于訓(xùn)練，一般用于測(cè)試。若增大N值，則訓(xùn)練誤差和測(cè)試誤差之間的

差距會(huì)如何變化()O

A)增大

B)減小

C)無(wú)法確定

D)無(wú)明顯變

答案:B

解析：增加數(shù)據(jù)，能夠有效減小過(guò)擬合，減小訓(xùn)練樣本誤差和測(cè)試樣本誤差之間的差距。

76.［單選題］長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)通過(guò)什么來(lái)緩解梯度消失問(wèn)題。

A)增加網(wǎng)絡(luò)深度

B)減少網(wǎng)絡(luò)神經(jīng)元

C)使用雙向的網(wǎng)絡(luò)結(jié)構(gòu)

D)增加一個(gè)用來(lái)保存長(zhǎng)期狀態(tài)的單

答案:D

解析:長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)增加一個(gè)用來(lái)保存長(zhǎng)期狀態(tài)的單元來(lái)解決梯度消失問(wèn)題。

77.［單選題］Numpy.linspace(0,3,3)的結(jié)果為()。

A)［0,1,2］

B)［1,2,3］

C)［0,1.5,3］

D)［0,3,6］

答案:C

解析:np.linspace()指定開(kāi)始值、結(jié)束值和值的個(gè)數(shù)，默認(rèn)包含結(jié)束值，注意與arange區(qū)別。

78.［單選題］下列判斷錯(cuò)誤的是。。

A)XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)

B)JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)

OPPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)

D)音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)

答案:B

解析:JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。

79.［單選題］關(guān)于數(shù)據(jù)清洗，不正確的說(shuō)法是。。

A)單數(shù)據(jù)源，主鍵取值不能重復(fù)

B)多數(shù)據(jù)源會(huì)存在數(shù)據(jù)重復(fù)，單位不一致的問(wèn)題

C)連續(xù)型數(shù)據(jù)不存在冗余問(wèn)題

D)缺失值可以采用刪除和填補(bǔ)等方法處理

答案:C

解析:連續(xù)型數(shù)據(jù)可能存在冗余問(wèn)題。

80.［單選題］某籃運(yùn)動(dòng)員在三分線投球的命中率是2(1),他投球10次，恰好投進(jìn)3個(gè)球的概率()o

A)128(15)

B)16(3)

08(5)

D)16(7

答案:A

解析：投籃只有兩種結(jié)果，進(jìn)或者不進(jìn)，符合二項(xiàng)分布，二項(xiàng)分布概率的概率可以用以下公式求得

,其中n=10代表試驗(yàn)次數(shù),k=3代表事件連續(xù)發(fā)生的次數(shù),p=l/2代表事件發(fā)生的概率。

81.［單選題］將兩篇文本通過(guò)詞袋模型變?yōu)橄蛄磕Ｐ?，通過(guò)計(jì)算向量的()來(lái)計(jì)算兩個(gè)文本間的相似

度。

A)正弦距離

B)余弦距離

C)長(zhǎng)度

D)方

答案:B

解析：將兩篇文本通過(guò)詞袋模型變?yōu)橄蛄磕Ｐ?，通過(guò)計(jì)算向量的余弦距離來(lái)計(jì)算兩個(gè)文本間的相似度

82.［單選題］當(dāng)創(chuàng)建了新分區(qū)，分區(qū)上線時(shí)，要執(zhí)行Leader選舉，選舉策略為()

A)Off1inePartitionLeader選舉

B)ReassignPartitionLeader選舉

C)PreferredRep1icaPartitionLeader選舉

D)ControlledShutdownPartitionLeader選

答案:A

解析：

83.［單選題］進(jìn)行主成分分析的前提條件是，各變量間()o

A)高度相關(guān)

B)低度相關(guān)

C)相互獨(dú)立

D)完全相

答案：B

解析：進(jìn)行主成分分析的前提條件是，各變量間低度相關(guān)。

84.［單選題］關(guān)于拋出異常的說(shuō)法中，描述錯(cuò)誤的是()。

A)當(dāng)raise指定異常的類(lèi)名時(shí)，會(huì)隱式地創(chuàng)建異常類(lèi)的實(shí)例

B)顯式地創(chuàng)建異常類(lèi)實(shí)例，可以使用raise直接引發(fā)

C)不帶參數(shù)的raise語(yǔ)句，只能引發(fā)剛剛發(fā)生過(guò)的異常

D)使用raise拋出異常時(shí)，無(wú)法指定描述信息

答案:D

解析:raise語(yǔ)句的第一個(gè)參數(shù)指定要產(chǎn)生的例外的名字；可選的第二參數(shù)指定例外的參數(shù)。

85.［單選題］以下關(guān)于HDFS適合做什么描述正確的是

A）低延遲讀取

B）大文件存儲(chǔ)

C）大量小文件存儲(chǔ)

D）隨機(jī)寫(xiě)入

答案：B

解析：

86.［單選題］我們建立一個(gè)5000個(gè)特征，100萬(wàn)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型.我們?cè)趺从行У貞?yīng)對(duì)這樣的大數(shù)

據(jù)訓(xùn)練（）。

A）我們隨機(jī)抽取一些樣本，在這些少量樣本之上訓(xùn)練

B）我們可以試用在線機(jī)器學(xué)習(xí)算法

C）我們應(yīng)用P算法降維，減少特征數(shù)

D）以上答案都正

答案:D

解析:樣本數(shù)過(guò)多，或者特征數(shù)過(guò)多，而不能單機(jī)完成訓(xùn)練，可以用小批量樣本訓(xùn)練，或者在線累計(jì)

式訓(xùn)練，或者主成分PCA降維方式減少特征數(shù)量再進(jìn)行訓(xùn)練。

87.［單選題］數(shù)據(jù)科學(xué)是一門(mén)以（）為主要研究任務(wù)的獨(dú)立學(xué)科。

A）“數(shù)據(jù)驅(qū)動(dòng)”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見(jiàn)”“數(shù)據(jù)產(chǎn)品研發(fā)”和（或）“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”

B）數(shù)據(jù)研發(fā)

C）數(shù)據(jù)處理

D）數(shù)據(jù)洞見(jiàn)

答案:A

解析:數(shù)據(jù)科學(xué)是一門(mén)以實(shí)現(xiàn)“從數(shù)據(jù)到信息”、“從數(shù)據(jù)到知識(shí)”和（或）“從數(shù)據(jù)到智慧”的轉(zhuǎn)

化為主要研究目的的，以"數(shù)據(jù)驅(qū)動(dòng)”、“數(shù)據(jù)業(yè)務(wù)化”、“數(shù)據(jù)洞見(jiàn)”、“數(shù)據(jù)產(chǎn)品研發(fā)“和

（或）“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”為主要研究任務(wù)的獨(dú)立學(xué)科。

88.［單選題］關(guān)聯(lián)規(guī)則的評(píng)價(jià)指標(biāo)是（）。

A）均方誤差、均方根誤差

B）Kappa統(tǒng)計(jì)、顯著性檢驗(yàn)

C）支持度、置信度

D）平均絕對(duì)誤差、相對(duì)誤

答案:C

解析：支持度、置信度是關(guān)聯(lián)規(guī)則的評(píng)價(jià)指標(biāo)。

89.［單選題］下面哪個(gè)程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)（）

A）NameNode

B）Jobtracker

C)Datanode

D)secondaryNameNode

答案:C

解析：Hadoop中namenode節(jié)點(diǎn)作為master節(jié)點(diǎn)，對(duì)集群進(jìn)行管理；secondaryNameNode節(jié)點(diǎn)在于分擔(dān)

namenode的壓力而設(shè)置；Jobtracker是為了跟蹤作業(yè)運(yùn)行的情況而設(shè)置的節(jié)點(diǎn)。

90.［單選題］一幅灰度級(jí)均勻分布的圖象，其灰度范圍在［0,255］,則該圖象的信息量為：。

A)0

B)255

D)8

答案:D

解析：

91.［單選題］關(guān)于_name_的說(shuō)法，下列描述錯(cuò)誤的是。。

A)它是Python提供的一個(gè)方法；

B)每個(gè)模塊內(nèi)部都有一個(gè)—name—屬性；

C)當(dāng)它的值為時(shí)，表示模塊自身在運(yùn)行；

D)當(dāng)它的值不為'—main—'時(shí)，表示模塊被引用；

答案:A

解析：—name一是Python提供的一個(gè)屬性。

92.［單選題］tablel是根據(jù)dt分區(qū)的數(shù)據(jù)表，dt例如:20220101,下列加載數(shù)據(jù)的SQL正確的是

(),要求可重跑、寫(xiě)入分區(qū)要求當(dāng)前天執(zhí)行時(shí)寫(xiě)入至前一天的分區(qū)

A)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtablelPARTITION(dt='{{yyyymmdd}}')

B)LOADDATAINPATH'filepath'INTOTABLEtablelPARTITION(dt='{{yyyymmdd}}')

C)LOADDATAINPATH'filepath'INTOTABLEtablelPARTITION(dt='{{yyyyMMdd}}')

D)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtablelPARTITION(dt='{{yyyyMMdd-

Id}},

答案:D

解析：

93.［單選題］假負(fù)率是指()o

A)正樣本預(yù)測(cè)結(jié)果數(shù)/正樣本實(shí)際數(shù)

B)被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)

C)被預(yù)測(cè)為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)

D)負(fù)樣本預(yù)測(cè)結(jié)果數(shù)/負(fù)樣本實(shí)際

答案:B

解析:假負(fù)率是指被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)。

94.［單選題］下列哪個(gè)不是RDD的緩存方法()

A)persist()

B)略

C)che()Memory()

D)以上答案都正

答案:C

解析:RDD的緩存方法包括persist和cache,其中cache方法默認(rèn)存儲(chǔ)到內(nèi)存中。

95.［單選題］假設(shè)你在卷積神經(jīng)網(wǎng)絡(luò)的第一層中有5個(gè)卷積核，每個(gè)卷積核尺寸為7X7,具有零填充

且步幅為1。該層的輸入圖片的維度是224X224X3。那么該層輸出的維度是多少()

A)217x217x3

B)217x217x8

C)218x218x5

D)220x220x

答案:C

解析：如果原始圖片尺寸為nxn,filter尺寸為fxf,則卷積后的圖片尺寸為(n-f+l)x(n-

f+1),注意f一般為奇數(shù)。若考慮存在填充和步幅，用s表示stride長(zhǎng)度，p表示padding長(zhǎng)

度，如果原始圖片尺寸為nxn,filter尺寸為fxf,則卷積后的圖片尺寸為：［(n+2p-

f)/s+l］x［(n+2p-f)/s+l］(中括號(hào)內(nèi)向下取整).此例中，n=224,p=0,f=7,s=l,因此，該層輸出

的尺寸為218x218.輸出的第三個(gè)維度由濾波器的個(gè)數(shù)決定，即為5。

96.［單選題］數(shù)據(jù)預(yù)處理方法不包括()。

A)數(shù)據(jù)清洗：去噪聲和無(wú)關(guān)數(shù)據(jù)

B)數(shù)據(jù)集成：將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中

C)數(shù)據(jù)變換：把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式

D)數(shù)據(jù)轉(zhuǎn)化：把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)

答案：D

解析:數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別【男，女】分別轉(zhuǎn)換為【0,1】。

97.［單選題］Python代碼中mpl.reParams［'font,sans-serif'］=［'SimHei'］的作用是()。

A)設(shè)置圖表中文顯示的字體

B)設(shè)置圖表圖例的位置

C)設(shè)置圖表標(biāo)題的顏色

D)設(shè)置圖表標(biāo)題的位置

答案:A

解析：設(shè)置圖表字體以正確顯示中文。

98.［單選題］下面關(guān)于Hive內(nèi)外表描述正確的是。

A)內(nèi)部表數(shù)據(jù)由HDFS自身管理，外部表數(shù)據(jù)由Hive管理；

B)內(nèi)部表數(shù)據(jù)存儲(chǔ)的位置是hive,metastore,warehouse.dir設(shè)置配置(默認(rèn)

：/user/hive/warehouse)

0外表存儲(chǔ)必須指定LOCATION

D)內(nèi)外表刪除時(shí)，都會(huì)刪除元數(shù)據(jù)和存

答案:B

解析:

99.［單選題］隨機(jī)森林與Bagging中基學(xué)習(xí)器多樣性的區(qū)別是()。

A)都來(lái)自樣本擾動(dòng)

B)都來(lái)自屬性擾動(dòng)

C)來(lái)自樣本擾動(dòng)和自屬性擾動(dòng)

D)多樣本集結(jié)

答案:C

解析:Bagging中基學(xué)習(xí)器的多樣性僅來(lái)自于樣本擾動(dòng)(自助采樣)，隨機(jī)森林中基學(xué)習(xí)器的多樣性不僅

來(lái)自樣本擾動(dòng)，還來(lái)自屬性擾動(dòng)。

100.［單選題］在大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原0DPS)的數(shù)據(jù)倉(cāng)庫(kù)中的訂單表fact_order,建表

語(yǔ)句如下：createtablefact_order(order_iD、string,order_amtdouble,order_dt

string)paititioneD,by(dtstring)；此表中的數(shù)據(jù)是從ods_order加工而來(lái)，ods_order建表語(yǔ)

句如下：createtableods_order(order_iD,string.order_amtbigint,order_dt

string)；ods_order中有一條記錄數(shù)據(jù)值是order_iD、order_amtorder_dt000110020160301運(yùn)

行SQL語(yǔ)句將數(shù)據(jù)從ods_order加載到fact_order中：insertoverwritetablefact_order

partition(dt=,20160301))select*fromodsorder；對(duì)此語(yǔ)句的執(zhí)行結(jié)果描述正確的是

:()O

A)語(yǔ)句可以執(zhí)行，但是這條數(shù)據(jù)會(huì)被當(dāng)作臟數(shù)據(jù)丟棄

B)目標(biāo)表與源表中的數(shù)據(jù)類(lèi)型不一致，執(zhí)行出錯(cuò)

C)提交SQL時(shí)會(huì)報(bào)語(yǔ)法錯(cuò)誤

D)語(yǔ)句可以執(zhí)行，order_amt的值會(huì)被自動(dòng)的轉(zhuǎn)為double類(lèi)型

答案：D

解析：

101.［單選題］一般將原始業(yè)務(wù)數(shù)據(jù)分為多個(gè)部分，()用于模型的構(gòu)建。

A)訓(xùn)練集

B)測(cè)試集

C)驗(yàn)證集

D)全部數(shù)據(jù)

答案:A

解析:訓(xùn)練集、測(cè)試集和驗(yàn)證集的功能分別為訓(xùn)練模型、測(cè)試模型以及模型選擇與超級(jí)參數(shù)的調(diào)優(yōu)。

102.［單選題］pynlpir是一種常用的自然語(yǔ)言理解工具包，其中進(jìn)行分詞處理的函數(shù)是。。

A)open()

B)segment()

C)AddUserWord()

D)generate(

答案:B

解析:pynlpir是python中分詞工具包，用于分詞處理的函數(shù)是segment()

103.［單選題］可用信息增益來(lái)進(jìn)行決策樹(shù)的()o

A)樹(shù)高

B)葉子結(jié)點(diǎn)數(shù)

C)總結(jié)點(diǎn)數(shù)

D)劃分屬性選

答案:D

解析：可用信息增益來(lái)進(jìn)行決策樹(shù)的劃分屬性選擇。

104.［單選題］已知數(shù)組trans_cnt［l,2,3,4］,trans_cnt［2］獲取的結(jié)果為。

A)1

B)2

D)4

答案:C

解析：

■5.［單選題］表達(dá)式intClor.2)的值為()o

A)5

B)6

C)"10"

D)3

答案：A

解析：二進(jìn)制101等于5

106.［單選題］()是一種著名的密度聚類(lèi)算法，它基于一組鄰域參數(shù)來(lái)刻畫(huà)樣本的緊密程度。

A)DBSCAN

B)原型聚類(lèi)

C)密度聚類(lèi)

D)層次聚類(lèi)

答案:A

解析:DBSCAN是一種著名的密度聚類(lèi)算法，它基于一組鄰域參數(shù)來(lái)刻畫(huà)樣本的緊密程度。

107.［單選題］關(guān)于數(shù)據(jù)分析，下列說(shuō)法正確的是()o

A)描述性分析和預(yù)測(cè)性分析是對(duì)診斷性分析的基礎(chǔ)

B)斷性分析分析是對(duì)規(guī)范性分析的進(jìn)一步理解

C)預(yù)測(cè)性分析是規(guī)范性分析的基礎(chǔ)

D)規(guī)范性分析是數(shù)據(jù)分析的最高階段，可以直接產(chǎn)生產(chǎn)業(yè)價(jià)值

答案:C

解析:在數(shù)據(jù)分析中，流程分為以下方式：描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析。

108.［單選題］特征工程的目的是()o

A)找到最合適的算法

B）得到最好的輸入數(shù)據(jù)

C）減低模型復(fù)雜度

D）加快計(jì)算速

答案:B

解析:特征工程的目的是篩選出更好的特征，獲取更好的訓(xùn)練數(shù)據(jù)。

109.［單選題］假設(shè)您已在數(shù)據(jù)集上擬合了一個(gè)復(fù)雜的回歸模型。現(xiàn)在，您正在使用Ridge回歸，并調(diào)

整參數(shù)人以減少其復(fù)雜性。選擇下面的描述，哪個(gè)表達(dá)了偏差和方差與人的關(guān)系（）O

A）在人非常小的情況下，偏差低，方差低

B）在人非常小的情況下，偏差低，方差高

C）在人非常小的情況下，偏差高，方差低

D）在人非常小的情況下，偏差低，方差低

答案：B

解析：入很小，則意味著模型比較復(fù)雜，在這種情況下，會(huì)產(chǎn)生偏差低且方差高的結(jié)果，模型會(huì)對(duì)數(shù)

據(jù)過(guò)擬合。

110.［單選題］關(guān)于bagging下列說(shuō)法錯(cuò)誤的是：（）。

A）各基分類(lèi)器之間有較強(qiáng)依賴，不可以進(jìn)行并行訓(xùn)練

B）最著名的算法之一是基于決策樹(shù)基分類(lèi)器的隨機(jī)森林

C）當(dāng)訓(xùn)練樣本數(shù)量較少時(shí)，子集之間可能有重疊

D）為了讓基分類(lèi)器之間互相獨(dú)立，需要將訓(xùn)練集分為若干子集

答案：A

解析:Bagging方法在訓(xùn)練過(guò)程中，各基分類(lèi)器之間無(wú)強(qiáng)依賴，可以進(jìn)行并行訓(xùn)練，隨機(jī)森林就是一

種典型的例子。

111.［單選題］構(gòu)造了一個(gè)詞表：｛1.小明2.喜歡3.踢4.看5.足球6.籃球7.電影｝,利用上述詞表的索

引號(hào)，文檔｛小明喜歡踢足球｝可以用一個(gè)7維向量表示為（）。

A）［1101001］

B）［l111111］

C）［1111100］

D）［1110100

答案:D

解析:統(tǒng)計(jì)文檔中每個(gè)詞的數(shù)量，根據(jù)詞表的位置，將各個(gè)詞的數(shù)量拼接成一個(gè)向量即可。

112.［單選題］pyplot.title。的作用是（）。

A）繪制垂直線

B）為圖設(shè)置標(biāo)題

C）為圖添加文本

D）繪制互相關(guān)

答案:B

解析:pyplot.title。可以設(shè)置繪圖標(biāo)題。

113.［單選題］已知一組數(shù)據(jù)的協(xié)方差矩陣P,下面關(guān)于主分量說(shuō)法錯(cuò)誤的是（）o

A）主分量分析的最佳準(zhǔn)則是對(duì)一組數(shù)據(jù)進(jìn)行按一組正交基分解，在只取相同數(shù)量分量的條件下，以均

方誤差計(jì)算截尾誤差最小

B）在經(jīng)主分量分解后，協(xié)方差矩陣成為對(duì)角矩陣

C）主分量分析就是K-L變換

D）主分量是通過(guò)求協(xié)方差矩陣的特征值得

答案:C

解析：主分量分析的變換矩陣是協(xié)方差矩陣，K-L變換的變換矩陣可以有很多種（二階矩陣、協(xié)方差

矩陣、總類(lèi)內(nèi)離散度矩陣等等）。當(dāng)K-L變換矩陣為協(xié)方差矩陣時(shí)，等同于PCA。

114.［單選題］以下哪項(xiàng)是Spark2.x程序統(tǒng)一入口？

A）StreamingContext

B）SqlContext

C）HiveContext

D）SparkSessio

答案:D

解析：

115.［單選題］MaxComputeSQL中，使用關(guān)系運(yùn)算符對(duì)兩個(gè)操作數(shù)進(jìn)行比較，如果進(jìn)行比較的兩個(gè)類(lèi)

型間不能進(jìn)行隱式類(lèi)型轉(zhuǎn)換，則：（）0

A）則該關(guān)系運(yùn)算不能完成，但并不會(huì)報(bào)錯(cuò)

B）則該關(guān)系運(yùn)算可以完成，健艮錯(cuò)退出

C）則該關(guān)系運(yùn)算不能完成，報(bào)錯(cuò)退出

D）提示用戶需要使用cast進(jìn)行顯示的類(lèi)型轉(zhuǎn)換

答案:C

解析：

116.［單選題］數(shù)據(jù)倉(cāng)庫(kù)僅僅是提供存儲(chǔ)的，提供一種（）的服務(wù)，不面向最終分析用戶，而數(shù)據(jù)集市

是（）的，面向最終用戶。

A）面向分析應(yīng)用.面向數(shù)據(jù)管理

B）面向事務(wù)交互.面向數(shù)據(jù)管理

C）面向數(shù)據(jù)管理.面向分析應(yīng)用

D）面向分析應(yīng)用.面向事務(wù)交

答案:A

解析：

117.［單選題］gateway在ElasticSearch中的含義是?

A）網(wǎng)關(guān)

B）索引的存儲(chǔ)方式

C）rpc請(qǐng)求接口

D）索引快照的存儲(chǔ)方

答案:D

解析：

118.[單選題]以下說(shuō)法錯(cuò)誤的是：(_)。

A)當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí)，梯度下降的解時(shí)全局最優(yōu)解

B)進(jìn)行PCA降維時(shí)需要計(jì)算協(xié)方差矩陣

C)沿負(fù)梯度下降的方向一定是最優(yōu)的方向

D)利用拉格朗日函數(shù)能解帶約束的優(yōu)化問(wèn)

答案:C

解析:梯度下降法并不是下降最快的方向，它只是目標(biāo)函數(shù)在當(dāng)前的點(diǎn)的切平面上下降最快的方向

,可以說(shuō)負(fù)梯度下降的方向一定是局部最優(yōu)的方向。

119.[單選題]以下不屬于有監(jiān)督的詞義消歧方法的是()o

A)Flip-Flop算法

B)貝葉斯分類(lèi)器

C)最大病消歧

D)基于詞典的消

答案:D

解析：基于詞典的消歧屬于無(wú)監(jiān)督的詞義消歧方法。

120.[單選題]下列哪項(xiàng)不屬于數(shù)據(jù)庫(kù)架構(gòu)的是：

A)share-everything

B)share-disk

C)share-nothing

D)share-anythin

答案：D

解析：

121.[單選題]叩.“001'([-1.7,1.5,-0.2,0.6,10])的輸出結(jié)果是()0

A)[-1,1,0,0,10]

B)[-2.,1.,-l.,0.,10.]

C)[-1.,1.,-l.,0.,10.]

D)[-2.,1.,0.,0.,10.]

答案:B

解析:floor函數(shù)定義取的是不超過(guò)這個(gè)數(shù)的最大整數(shù)。

122.[單選題]下面的語(yǔ)句哪個(gè)會(huì)無(wú)限循環(huán)下去()o

A)forainrange(10)：timesleep(10)

B)whilel<10：timesleep(10)

C)whileTrue：break

D)a=[3,-1,']foriina[：]：ifnota：break

答案：B

解析:B中條件1C10恒成立。

123.［單選題］Spark的特點(diǎn)不包括（）

A）速度快

B）通用性

C）易用性

D）單一操作

答案:D

解析:Spark是一個(gè)快速、通用和易于使用的計(jì)算平臺(tái)。

124.［單選題］客戶端從HDFS上讀取數(shù)據(jù)時(shí)會(huì)（）

A）從namenode上獲取數(shù)據(jù)

B）從datanode上獲取block位置

C）從namenode上獲取block位置

D）從namenode上獲取數(shù)據(jù)和block位

答案:C

解析：namenode保存數(shù)據(jù)block的位置，datanode保存數(shù)據(jù)。

125.［單選題］HTML的表格中，如果需要定義表格的單元格內(nèi)文字和邊緣的空間，需要通過(guò)哪個(gè)屬性

來(lái)實(shí)現(xiàn)Oo

A）cellspacing屬性

B）colspan屬性

C）cellpadding屬性

D）rowspan屬性

答案:C

解析:cellspacing屬性用來(lái)指定表格各單元格之間的空隙；colspan屬性規(guī)定單元格可橫跨的列數(shù)

;cellpadding屬性用來(lái)指定單元格內(nèi)容與單元格邊界之間的空白距離的大??；rowspan屬性規(guī)定單

元格可橫跨的行數(shù)。

126.［單選題］檢測(cè)一元正態(tài)分布中的離群點(diǎn)，屬于異常檢測(cè)中的基于（）的離群點(diǎn)檢測(cè)。

A）統(tǒng)計(jì)方法

B）鄰近度

C）密度

D）機(jī)器學(xué)習(xí)技術(shù)

答案:A

解析：檢測(cè)一元正態(tài)分布中的離群點(diǎn)，屬于異常檢測(cè)中的基于統(tǒng)計(jì)的離群點(diǎn)檢測(cè)。

127.［單選題］在Python中，函數(shù)（）。

A）不可以嵌套定義

B）不可以嵌套調(diào)用

C）不可以遞歸調(diào)用

D）以上答案都不正確

答案:D

解析:python可以嵌套定義、嵌套調(diào)用和遞歸調(diào)用

128.［單選題］bootstrap數(shù)據(jù)是什么意思。。

A)有放回地從總共M個(gè)特征中抽樣m個(gè)特征

B)無(wú)放回地從總共M個(gè)特征中抽樣m個(gè)特征

C)有放回地從總共N個(gè)樣本中抽樣n個(gè)樣本

D)無(wú)放回地從總共N個(gè)樣本中抽樣n個(gè)樣本

答案:C

解析：自助來(lái)樣法(bootstrapsampling),給定包含N個(gè)樣本的數(shù)據(jù)集，我們先隨機(jī)取出一個(gè)樣本放

入采樣集中，再把該樣本放回初始數(shù)據(jù)集，使得下次采樣時(shí)該樣本仍有可能被選中，這樣經(jīng)過(guò)n次隨

機(jī)采樣操作，我們得到含n個(gè)樣本的采樣集。

129.［單選題］大數(shù)據(jù)平臺(tái)核心分布式存儲(chǔ)與計(jì)算組件采用Hadoop技術(shù)體系中分布式存儲(chǔ)、分布式計(jì)

算框架，及Spark等開(kāi)源產(chǎn)品和技術(shù)，實(shí)現(xiàn)對(duì)數(shù)據(jù)的安全控制和管理功能，其中分布式存儲(chǔ)不包括

()O

A)HDFS

B)Postgresql

OHive

D)HBase

答案:B

解析:Postgresql并非分布式存儲(chǔ)。

130.［單選題］關(guān)于欠擬合(under-fitting),()是正確的。

A)訓(xùn)練誤差較大，測(cè)試誤差較小

B)訓(xùn)練誤差較小，測(cè)試誤差較大

C)訓(xùn)練誤差較大，測(cè)試誤差較大

D)訓(xùn)練誤差較小，測(cè)試誤差較

答案:C

解析：欠擬合是指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好，因此訓(xùn)練誤差和測(cè)試誤差均較大

131.［單選題］子集搜索中，逐漸增加相關(guān)特征的策略稱為()o

A)前向搜索

B)后向搜索

C)雙向搜索

D)不定向搜

答案:A

解析：子集搜索中，逐漸增加相關(guān)特征的策略稱為前向搜索。

132.［單選題］例如Hive建表語(yǔ)句中storedas的作用是指定表的格式，下列不屬于Hive表的常見(jiàn)格

式的是()createtableifnotexiststextfile_table(ueseridSTRING,movieidSTRING,

ratingSTRING,tsSTRING)rowformateddelimatedfieldsterminatedby'\t'storedas

textfile；

A)PigTable

B)ORC

C)PARQUET

D)TEXTFIL

答案:A

解析：

133.［單選題］泛化誤差可分解為偏差、方差與噪聲之和，當(dāng)學(xué)習(xí)器擬合程度不夠強(qiáng)時(shí)，是()主導(dǎo)

了泛化錯(cuò)誤率。

A)偏差

B)方差

C)噪聲

D)差與方差共同

答案:A

解析:學(xué)習(xí)器擬合程度不夠強(qiáng)時(shí)，及欠擬合，此時(shí)是偏差主導(dǎo)了泛化錯(cuò)誤率。

134.［單選題］數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的關(guān)鍵環(huán)節(jié)是()

A)數(shù)據(jù)收集

B)數(shù)據(jù)預(yù)處理

C)數(shù)據(jù)學(xué)習(xí)

D)數(shù)據(jù)加工(DataWrangling或DataMunging)

答案:D

解析：數(shù)據(jù)加工(DataWrangling或DataMunging)是數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的關(guān)鍵環(huán)節(jié)。

135.［單選題］下列哪個(gè)不是RDD的緩存方法

A)persist()

B)Cache()

C)Memory(

D)列哪個(gè)不是RDD的緩存方法A、persist()B、Cache()C、Memory(

答案:C

解析：

136.［單選題］高通濾波后的圖像通常較暗，為改善這種情況，將高通濾波器的轉(zhuǎn)移函數(shù)加上一常數(shù)

量以便于引入一些低頻分量。這樣濾波器叫()O

A)巴特沃斯高通濾波器

B)高頻提升濾波器

C)高頻加強(qiáng)濾波器

D)理想高通濾波

答案:B

解析：高頻增強(qiáng)濾波器由于相對(duì)削弱了低頻成分，因而濾波所得的圖像往往偏暗。

137.［單選題］()的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息，從而既不需要進(jìn)行完全聯(lián)

合概率計(jì)算，又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。

A)貝葉斯判定準(zhǔn)則

B)貝葉斯決策論

C)樸素貝葉斯分類(lèi)器

D)半樸素貝葉斯分類(lèi)器

答案:D

解析：半樸素貝葉斯的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息，從而既不需要進(jìn)行完全聯(lián)

合概率計(jì)算，又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。

138.［單選題］sklearn庫(kù)中對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和規(guī)范化主要依靠()模塊。

A)neighbors模塊

B)preprocessing模塊

Opipeline模塊

D)datasets模塊

答案:B

解析：sklearn.preprocessing模塊包括縮放，居中，歸一化，二值化和插補(bǔ)方法，主要是對(duì)數(shù)據(jù)進(jìn)

行預(yù)處理和規(guī)范化。

139.［單選題］模型構(gòu)建完畢需要對(duì)模型進(jìn)行評(píng)估量化，需要用到哪個(gè)模塊()o

A)utils

B)mixture

Ometrics

D)manifold

答案:C

解析:sklearn.metrics包含了用于模型評(píng)估的多種量化評(píng)價(jià)方法，包括均方誤差，準(zhǔn)確率等。

140.［單選題］代碼selectceil(2.34)的結(jié)果是哪一個(gè):

A)2.3

B)2

D)2.

答案:C

解析：

141.［單選題］對(duì)組織機(jī)構(gòu)的數(shù)據(jù)管理成熟度等級(jí)劃分中的已執(zhí)行級(jí)的描述錯(cuò)誤的是()o

A)在具體項(xiàng)目中，DMM關(guān)鍵過(guò)程域(KP中給出的關(guān)鍵過(guò)程已被執(zhí)行，但隨意性和臨時(shí)性較大

B)DMM關(guān)鍵過(guò)程的執(zhí)行不僅僅局限于特定業(yè)務(wù)范疇，存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過(guò)程

C)缺少針對(duì)DMM關(guān)鍵過(guò)程的反饋與優(yōu)化

D)雖然有可能在特定業(yè)務(wù)過(guò)程中進(jìn)行了基礎(chǔ)性改進(jìn)，但沒(méi)有進(jìn)行持續(xù)跟進(jìn)，也未拓展到整個(gè)組織機(jī)

構(gòu)

答案：B

解析:DMM的執(zhí)行級(jí)(PerformedLevel)：組織機(jī)構(gòu)只有個(gè)別項(xiàng)目的范圍之內(nèi)“執(zhí)行”了DMM給出的

關(guān)鍵過(guò)程，但缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理。主要特點(diǎn)如下：1)在具體項(xiàng)目中，DMM關(guān)鍵過(guò)程域

(KPA)中給出的關(guān)鍵過(guò)程(KeyProcess)已被執(zhí)行，但隨意性和臨時(shí)性較大；2)DMM關(guān)鍵過(guò)程

(KeyProcess)的執(zhí)行往往僅限于特定業(yè)務(wù)范疇，很少存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過(guò)程；3)缺少

針對(duì)DMM關(guān)鍵過(guò)程(KeyProcess)的反饋與優(yōu)化。以DMM關(guān)鍵過(guò)程(KeyProcess)中的"數(shù)據(jù)質(zhì)量

”為例，其數(shù)據(jù)管理工作可能過(guò)于集中在一個(gè)特定業(yè)務(wù)，如“數(shù)據(jù)修復(fù)活動(dòng)”，并沒(méi)有擴(kuò)散到整個(gè)

的業(yè)務(wù)范圍或并沒(méi)有開(kāi)展對(duì)數(shù)據(jù)修復(fù)活動(dòng)本身的反饋與優(yōu)化工作；4)雖然有可能在特定業(yè)務(wù)過(guò)程中

已進(jìn)行了基礎(chǔ)性改進(jìn)，但沒(méi)有進(jìn)行持續(xù)跟進(jìn)，也未拓展到整個(gè)組織機(jī)構(gòu)；5)組織機(jī)構(gòu)沒(méi)有統(tǒng)籌其數(shù)

據(jù)管理工作，而數(shù)據(jù)管理活動(dòng)局限在具體項(xiàng)目中，主要按照其具體項(xiàng)目的實(shí)施需求進(jìn)行，如果一個(gè)

具體項(xiàng)目中需要進(jìn)行數(shù)據(jù)管理，可能執(zhí)行DMM中給出的相關(guān)過(guò)程，反之亦然。

142.［單選題］關(guān)于MaxcomputeSQL,說(shuō)法不正確的是：()。

A)在很多方面并不具備數(shù)據(jù)庫(kù)的特征

B)適用于海量數(shù)據(jù)，實(shí)時(shí)性要求不高的場(chǎng)合

C)每個(gè)作業(yè)的準(zhǔn)備，提交等階段要花費(fèi)較長(zhǎng)時(shí)間

D)大部分標(biāo)準(zhǔn)SQL的功能都支持，但是不支持窗口函數(shù)、rownum等

答案:D

解析：

143.［單選題］下列策略()可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。

A)正則化系數(shù)無(wú)窮大

B)正則化系數(shù)幾乎為0

C)選擇合適的正則化參數(shù)

D)以上答案都不正

答案:C

解析：選擇合適的正則化參數(shù)可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。

144.［單選題］Scipy中計(jì)算偏度的函數(shù)是哪個(gè)。。

A)scipy.stats,skewtest()

B)scipy.stats,norm,rvs()

C)scipy.stats,kurtosis()

D)scipy.stats,poi

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔