大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版_第1頁(yè)
大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版_第2頁(yè)
大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版_第3頁(yè)
大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版_第4頁(yè)
大數(shù)據(jù)理論考試練習(xí)題及答案2-2023-背題版_第5頁(yè)
已閱讀5頁(yè),還剩103頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

試題說(shuō)明

本套試題共包括1套試卷

每題均顯示答案和解析

大數(shù)據(jù)理論考試練習(xí)題及答案2(500題)

大數(shù)據(jù)理論考試練習(xí)題及答案2

1.[單選題]假設(shè)有n組數(shù)據(jù)集,每組數(shù)據(jù)集中,x的平均值都是9,x的方差都是11,y的平均值都是

7.50,x與y的相關(guān)系數(shù)都是0.816,擬合的線性回歸方程都是y=3.00+0.500*x。那么這n組數(shù)據(jù)集是

否一樣()

A)一樣

B)不一樣

C)無(wú)法確

答案:C

解析:只比較平均值、方差、相關(guān)系數(shù)和回歸方程,無(wú)法確定數(shù)據(jù)集是否相同,還需比較Anscombe's

quarteto

2.[單選題]如果一個(gè)SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問(wèn)題()

A)增大懲罰參數(shù)C的值

B)減小懲罰參數(shù)C的值

C)減小核系數(shù)(gamma參數(shù)

答案:A

解析:SVM模型出現(xiàn)欠擬合,表明模型過(guò)于簡(jiǎn)單,需要提高模型復(fù)雜度。C值越大,相應(yīng)的模型越復(fù)雜

3.[單選題]如果我們說(shuō)線性回歸模型完美地?cái)M合了訓(xùn)練樣本(訓(xùn)練樣本誤差為零),則下面哪個(gè)說(shuō)

法是正確的()

A)測(cè)試樣本誤差始終為零

B)測(cè)試樣本誤差不可能為零

C)以上答案都不

答案:C

解析:根據(jù)訓(xùn)練樣本誤差為零,無(wú)法推斷測(cè)試樣本誤差是否為零。如果測(cè)試樣本集很大,則很可能發(fā)

生過(guò)擬合,導(dǎo)致模型不具備很好的泛化能力。

4.[單選題]()算法假設(shè)聚類(lèi)結(jié)構(gòu)能通過(guò)樣本分布的緊密程度確定

A)原型聚類(lèi)

B)密度聚類(lèi)

C)層次聚

答案:B

解析:密度聚類(lèi)算法假設(shè)聚類(lèi)結(jié)構(gòu)能通過(guò)樣本分布的緊密程度確定。

5.[單選題]下面哪個(gè)不是hdfs副本放置策略()o

A)本機(jī)

B)當(dāng)?shù)貦C(jī)架

C)不同機(jī)架的同一個(gè)節(jié)點(diǎn)D.不同機(jī)架的不同節(jié)點(diǎn)

答案:A

解析:每個(gè)hdfs文件應(yīng)至少有三個(gè)副本,一份在當(dāng)?shù)貦C(jī)架,一份在不同機(jī)架的同一個(gè)節(jié)點(diǎn),一份在不

同機(jī)架的不同節(jié)點(diǎn)。

6.[單選題]如果我們說(shuō)線性回歸模型完美地?cái)M合了訓(xùn)練樣本(訓(xùn)練樣本誤差為零),則下面哪個(gè)說(shuō)

法是正確的()

A)測(cè)試樣本誤差始終為零

B)測(cè)試樣本誤差不可能為零

C)以上答案都不對(duì)

答案:C

解析:根據(jù)訓(xùn)練樣本誤差為零,無(wú)法推斷測(cè)試樣本誤差是否為零。如果測(cè)試樣本集很大,則很可能發(fā)

生過(guò)擬合,導(dǎo)致模型不具備很好的泛化能力。

7.[單選題]@app.route的作用為()。

A)程序代碼的規(guī)范,沒(méi)什么作用

B)類(lèi)似裝飾器,返回本地網(wǎng)絡(luò)測(cè)試地址

C)返回127005000

D)以上答案都不正確

答案:B

解析:@app.route是flask裝飾器,調(diào)用后返回返回本地網(wǎng)絡(luò)測(cè)試地址。

8.[單選題]現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類(lèi)型不包括()。

A)數(shù)據(jù)源與P

B)基礎(chǔ)設(shè)施

OHadoop

D)數(shù)據(jù)資源

答案:C

解析:Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigData

Landscape),首次較為全面地刻畫(huà)了當(dāng)時(shí)快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來(lái),該圖及其畫(huà)法成為

大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到廣泛的應(yīng)用和不斷的更新。MattTurek等組織繪制的

2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)o從2017大數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)

據(jù)技術(shù)體系主要類(lèi)型包括:數(shù)據(jù)資源、數(shù)據(jù)源與APP、開(kāi)源工具、跨平臺(tái)基礎(chǔ)設(shè)施和分析工具、行業(yè)

應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。

9.[單選題]任何一個(gè)核函數(shù)都隱式地定義了一個(gè)()空間。

A)希爾伯特空間

B)再生希爾伯特空間

C)再生核希爾伯特空間

D)歐式空

答案:C

解析:任何一個(gè)核函數(shù)都隱式地定義了一個(gè)再生核希爾伯特空間空間。

10.[單選題]從可視化視角看,可以將數(shù)據(jù)分為4種類(lèi)型,其中不包括()

A)定類(lèi)數(shù)據(jù)

B)定序數(shù)據(jù)

C)定距數(shù)據(jù)

D)定量數(shù)據(jù)

答案:D

解析:一般可以將數(shù)據(jù)類(lèi)型的度量分為四種:定類(lèi),定序,定距,和定比,這四種類(lèi)型是從低到高的

遞進(jìn)關(guān)系,高級(jí)的類(lèi)型可以用低級(jí)類(lèi)型的分析方法來(lái)分析,而反過(guò)來(lái)卻不行。

11.[單選題]語(yǔ)音識(shí)別的應(yīng)用場(chǎng)景包括。。

A)語(yǔ)音轉(zhuǎn)文本

B)語(yǔ)音合成

C)人機(jī)交互

D)以上答案都正

答案:D

解析:語(yǔ)音識(shí)別應(yīng)用包含語(yǔ)音轉(zhuǎn)文本,語(yǔ)音合成和人機(jī)交互等。

12.[單選題]在一個(gè)簡(jiǎn)單的線性回歸模型中(只有一個(gè)變量),如果將輸入變量改變一個(gè)單位(增加

或減少),那么輸出將改變多少()

A)一個(gè)單位

B)不變

C)截距

D)回歸模型的尺度因

答案:D

解析:假設(shè)線性回歸模型是:y=a+bx,若x改變一個(gè)單位,例如x+1,則y改變b個(gè)單位,b是

回歸模型的尺度因子。

13.[單選題]對(duì)于一個(gè)分類(lèi)任務(wù),如果開(kāi)始時(shí)神經(jīng)網(wǎng)絡(luò)的權(quán)重不是隨機(jī)賦值的,而是都設(shè)成0,下面

哪個(gè)敘述是正確的()

A)其他選項(xiàng)都不對(duì)

B)沒(méi)啥問(wèn)題,神經(jīng)網(wǎng)絡(luò)會(huì)正常開(kāi)始訓(xùn)練

C)神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練,但是所有的神經(jīng)元最后都會(huì)變成識(shí)別同樣的東西

D)神經(jīng)網(wǎng)絡(luò)不會(huì)開(kāi)始訓(xùn)練,因?yàn)闆](méi)有梯度改

答案:C

解析:神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練,但是所有的神經(jīng)元最后都會(huì)變成識(shí)別同樣的東西。

14.[單選題]()是一種基于日志的結(jié)構(gòu)化數(shù)據(jù)復(fù)制軟件,能夠?qū)崿F(xiàn)大量數(shù)據(jù)的實(shí)時(shí)捕捉、變換和投

遞。

A)Nosql

B)ETL

OOGG

D)Hive

答案:C

解析:Nosql非關(guān)系型數(shù)據(jù)庫(kù);ETL數(shù)據(jù)導(dǎo)入(抽取、轉(zhuǎn)換、加載);HiveHadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具

15.[單選題]在Hadoop中,下面哪個(gè)是默認(rèn)的InputFormat類(lèi)型,它將每行內(nèi)容作為新值,而將字節(jié)

偏移量作為key()。

A)FilelnputFormat

B)TextlnputFormat

C)KeyValueTextInputFormat

D)CombineTextlnputForma

答案:B

解析:TextlnputFormat是默認(rèn)的InputFormat。每條記錄是一行輸入。鍵Key是LongWritable類(lèi)型

,存儲(chǔ)該行在整個(gè)文件中的字節(jié)偏移量。

16.[單選題]以下()能力不屬于數(shù)據(jù)中臺(tái)能力架構(gòu)能力。

A)數(shù)據(jù)接入

B)存儲(chǔ)計(jì)算

C)數(shù)據(jù)服務(wù)

D)應(yīng)用研

答案:D

解析:

17.[單選題]下列關(guān)于文本分類(lèi)的說(shuō)法不正確的是()。

A)文本分類(lèi)是指按照預(yù)先定義的主題類(lèi)別,由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類(lèi)別

B)文本分類(lèi)大致可分為基于知識(shí)工程的分類(lèi)系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類(lèi)系統(tǒng)

C)文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語(yǔ)的行文順序

D)構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟

答案:C

解析:詞袋模型沒(méi)有考慮文本詞語(yǔ)的原本行文順序。

18.[單選題]有訂單表orders,包含用戶信息userid、產(chǎn)品信息productid兩列,以下語(yǔ)句能夠返回

至少被訂購(gòu)過(guò)兩回的productid的語(yǔ)句是

A)SELECTproductidFROMordersWHEREcount(productid)>1

B)SELECTproductidFROMordersWHEREmax(productid)>1

C)SELECTproductidFROMordersWHEREhavingcount(productid)>1GROUPBYproductid

D)SELECTproductidFROMordersGROUPBYproductidHAVINGcount(productid)>

答案:D

解析:

19.[單選題]在大規(guī)模的語(yǔ)料中,挖掘詞的相關(guān)性是一個(gè)重要的問(wèn)題。以下哪一個(gè)信息不能用于確定

兩個(gè)詞的相關(guān)性()0

A)互信息

B)最大病

C)卡方檢驗(yàn)

D)最大似然

答案:B

解析:最大病為尋找最優(yōu)模型的方法,并不能度量相似性。

20.[單選題]Apriori算法的核心思想是()0

A)通過(guò)頻繁項(xiàng)集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘候選集

B)通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集

C)數(shù)據(jù)集中包含該項(xiàng)集的數(shù)據(jù)所占數(shù)據(jù)集的比例,度量一個(gè)集合在原始數(shù)據(jù)中出現(xiàn)的頻率

D)若某條規(guī)則不滿足最小置信度要求,則該規(guī)則的所有子集也不滿足最小置信度要求

答案:B

解析:Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過(guò)候選集生成和情節(jié)的向

下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。

21.[單選題]在Python中,下列不是int整型數(shù)據(jù)的是()。

A)160

B)010

0-78

D)0x234

答案:B

解析:B不符合python語(yǔ)法

22.[單選題]HadoopMapReduce2.0中,。負(fù)責(zé)資源的管理和調(diào)度。

A)JobTracker

B)YARN

C)TaskTracker

D)ApplicationMaster

答案:B

解析:Hadoop2.0比起Hadoop1.0來(lái)說(shuō),最大的改進(jìn)是加入了資源調(diào)度框架Yarn,引入了

ApplicationManager和NodeManager的概念。

23.[單選題]設(shè)有關(guān)系模式EMP(職工號(hào),姓名,年齡,技能)。假設(shè)職工號(hào)唯一,每個(gè)職工有多項(xiàng)技

能,則EMP表的主鍵是

A)職工號(hào)

B)姓名,技能

C)技能

D)職工號(hào),技

答案:A

解析:

24.[單選題]美國(guó)海軍軍官莫里通過(guò)對(duì)前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與

洋流可能發(fā)生的地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中的()0

A)在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)

B)在分析方法上更注重相關(guān)分析而不是因果分析

C)在分析效果上更追究效率而不是絕對(duì)精確

D)在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)

答案:B

解析:本次分析主要分析了大風(fēng)和洋流可能發(fā)生的地與安全航路的相關(guān)性。

25.[單選題]過(guò)濾式特征選擇與學(xué)習(xí)器(),包裹式特征選擇與學(xué)習(xí)器()o

A)相關(guān)相關(guān)

B)相關(guān)不相關(guān)

C)不相關(guān)相關(guān)

D)不相關(guān)不相關(guān)

答案:C

解析:過(guò)濾式方法先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過(guò)程與后續(xù)學(xué)習(xí)器無(wú)關(guān)。

包裹式特征選擇把最終將要使用的學(xué)習(xí)器的性能作為特征于集的評(píng)價(jià)準(zhǔn)則。

26.[單選題]以下哪個(gè)分類(lèi)方法可以較好地避免樣本的不平衡問(wèn)題。。

A)KNN

B)SVM

C)Bayes

D)神經(jīng)網(wǎng)絡(luò)

答案:A

解析:KNN只是取了最近的幾個(gè)樣本點(diǎn)做平均,離預(yù)測(cè)數(shù)據(jù)較遠(yuǎn)的訓(xùn)練數(shù)據(jù)對(duì)預(yù)測(cè)結(jié)果不會(huì)造成影響

,但是svm、Bayes和NN每一個(gè)訓(xùn)練樣本果都會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響。

27.[單選題]下面哪個(gè)操作肯定是寬依賴()

A)map

B)flatMap

C)reduceByKey

D)sample

答案:C

解析:spark中常見(jiàn)的窄依賴操作包括map,filer,union,sample等,寬依賴的操作包括

reducebykey,groupbykey,join等。

28.[單選題]基于Bagging的集成學(xué)習(xí)代表算法有()。

A)aboost

B)GT

OXGBOOST

D)隨機(jī)森

答案:D

解析:隨機(jī)森林是基于Bagging的集成學(xué)習(xí)算法。

29.[單選題]()是一個(gè)觀測(cè)值,它與其它觀測(cè)值的差別如此之大,以至于懷疑它是由不同的機(jī)制產(chǎn)

生的。

A)邊界點(diǎn)

B)質(zhì)心

C)離群點(diǎn)

D)核心點(diǎn)

答案:C

解析:離群點(diǎn)(outlier)是指數(shù)值中,遠(yuǎn)離數(shù)值的一般水平的極端大值和極端小值。

30.[單選題]SLIC算法的主要目的是()。

A)目標(biāo)識(shí)別

B)前景和背景分離

C)超像素提取

D)語(yǔ)義分

答案:C

解析:SLIC是基于K-means算法的生成超像素新方法,SLIC是超像素中心周?chē)膮^(qū)域2sx2s中進(jìn)行類(lèi)

似像素的搜索

31.[單選題]決策樹(shù)的父節(jié)點(diǎn)和子節(jié)點(diǎn)的病的大小關(guān)系是什么。。

A)父節(jié)點(diǎn)的炳更小

B)子節(jié)點(diǎn)的嫡更小

C)兩者相等

D)根據(jù)具體情況而定

答案:B

解析:決策樹(shù)分解策略是保證子結(jié)點(diǎn)的病小于父結(jié)點(diǎn)的炳。但子結(jié)點(diǎn)的酒是該父結(jié)點(diǎn)所有孩子結(jié)點(diǎn)的

病的總和,因此,并保證任意一個(gè)子節(jié)點(diǎn)的燧都小于父結(jié)點(diǎn)燧。

32.[單選題]關(guān)于數(shù)據(jù)產(chǎn)品,以下說(shuō)法錯(cuò)誤的是()o

A)數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集

B)與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費(fèi)者不僅限于人類(lèi)用戶.還可以是計(jì)算機(jī)以及其他軟硬件

系統(tǒng)

C)數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項(xiàng)目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品

D)數(shù)據(jù)產(chǎn)品開(kāi)發(fā)涉及數(shù)據(jù)科學(xué)項(xiàng)目流程的全部活動(dòng)

答案:A

解析:數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集,還包括文檔、知識(shí)庫(kù)、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞

見(jiàn)、決策或它們的組合。

33.[單選題]數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),下列哪項(xiàng)不是其搜索過(guò)

程的特點(diǎn)()O

A)有選擇

B)有策略

C)有目標(biāo)

D)反復(fù)進(jìn)行的

答案:C

解析:數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過(guò)程是有選擇、有策略

和反復(fù)進(jìn)行的。

34.[單選題]當(dāng)ElasticSearch集群有節(jié)點(diǎn)加入或退出時(shí)集群數(shù)據(jù)會(huì)發(fā)生什么動(dòng)作?

A)數(shù)據(jù)重載

B)數(shù)據(jù)重建

C)數(shù)據(jù)重分布

D)數(shù)據(jù)更

答案:C

解析:

35.[單選題]關(guān)于層次聚類(lèi)算法:(1)不斷重復(fù)直達(dá)達(dá)到預(yù)設(shè)的聚類(lèi)簇?cái)?shù)(2)不斷合并距離最近的

聚類(lèi)簇(3)對(duì)初始聚類(lèi)簇和相應(yīng)的距離矩陣初始化(4)對(duì)合并得到的聚類(lèi)簇進(jìn)行更新。正確的執(zhí)

行順序?yàn)椋ǎ?

A)1234

B)1324

03241

D)341

答案:C

解析:層次聚類(lèi)算法的過(guò)程是:對(duì)初始聚類(lèi)簇和相應(yīng)的距離矩陣初始化;不斷合并距離最近的聚類(lèi)簇

;對(duì)合并得到的聚類(lèi)簇進(jìn)行更新;不斷重復(fù)直達(dá)達(dá)到預(yù)設(shè)的聚類(lèi)簇?cái)?shù)。

36.[單選題]大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為。。

A)信息(活動(dòng))價(jià)值鏈和信息技術(shù)價(jià)值鏈

B)信息技術(shù)價(jià)值鏈和信息(活動(dòng))價(jià)值鏈

0信息交互價(jià)值鏈和信息技術(shù)價(jià)值鏈

D)信息(活動(dòng))價(jià)值鏈和信息交互價(jià)值鏈

答案:A

解析:大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價(jià)值鏈的信息價(jià)值鏈(水平軸)和IT價(jià)值鏈(垂直軸)兩個(gè)維

度組織展開(kāi)

37.[單選題]對(duì)數(shù)值型輸出,最常見(jiàn)的結(jié)合策略是()。

A)投票法

B)平均法

C)學(xué)習(xí)法

D)排序

答案:B

解析:對(duì)數(shù)值型輸出,最常見(jiàn)的結(jié)合策略是平均法。

38.[單選題]pyplot.plot()函數(shù)輸入?yún)?shù)'b'修改的是圖形的()。

A)位置

B)大小

C)形狀

D)顏色

答案:D

解析:'b'代表畫(huà)線顏色參數(shù)中的‘blue'屬性值,作用是設(shè)置顏色為藍(lán)色。

39.[單選題]以下哪些算法,可以用神經(jīng)網(wǎng)絡(luò)去構(gòu)造(_)。1)KNN2)線性回歸3)對(duì)數(shù)幾率回歸

A)1和2

B)2和3

01,2和3

D)以上答案都不正

答案:B

解析:1、KNN算法不需要訓(xùn)練參數(shù),而所有神經(jīng)網(wǎng)絡(luò)都需要訓(xùn)練參數(shù),因此神經(jīng)網(wǎng)絡(luò)幫不上忙。2、

最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),感知器,其實(shí)就是線性回歸的訓(xùn)練。3、我們可以用一層的神經(jīng)網(wǎng)絡(luò)構(gòu)造對(duì)數(shù)幾

率回歸。

40.[單選題]Hadoop生態(tài)系統(tǒng)中,()主要解決的是日志類(lèi)數(shù)據(jù)的收集和處理問(wèn)題。

A)Mahout

B)Flume

C)Sqoop

D)HBase

答案:B

解析:Flume主要用于日志采集,其中的agent里面包含3個(gè)核心的組件source(采集/輸入)-

>channel(緩存/管道)->sink(輸出),類(lèi)似生產(chǎn)者、倉(cāng)庫(kù)、消費(fèi)者的架構(gòu)。

41.[單選題]下列關(guān)于分詞的說(shuō)法正確的是()

A)中文句子字之間沒(méi)有空格,無(wú)法分詞

B)一個(gè)句子的分詞結(jié)果是唯一的

C)中文分詞是將一系列無(wú)空格間隔字符串分割成一系列單詞的過(guò)程

D)分詞沒(méi)有實(shí)際應(yīng)用價(jià)

答案:C

解析:中文中字、句和段能通過(guò)明顯的分界符來(lái)簡(jiǎn)單劃界,所以A錯(cuò)。對(duì)一個(gè)句子,不同語(yǔ)料的分詞

標(biāo)準(zhǔn)是不一樣的,它們往往做不到一致性的分割,所以B錯(cuò)。中文分詞的應(yīng)用十分廣泛,如搜索引擎

、機(jī)器翻譯(MT)、語(yǔ)音合成、自動(dòng)分類(lèi)、自動(dòng)摘要、自動(dòng)校對(duì)等等,所以D錯(cuò)。分詞就是將連續(xù)的字

序列按照一定的規(guī)范重新組合成詞序列的過(guò)程,中文分詞是將一系列無(wú)空格間隔字符串分割成一系

列單詞的過(guò)程,所以C對(duì),選C。

42.[單選題]以下代碼的輸出結(jié)果為。。

Importnumpyasnp

A=np.array([[1,2],[3,4],[5,6]])

Print(np.insert(a,3,[11,12]))

A)[[l2][34][56]]

B)[1231112456]

0[[12][1111][34][56]]

D)[El112][3114][5116]]

答案:B

解析:與append。相同,insert。在沒(méi)有指定axis時(shí)默認(rèn)展平數(shù)組。

.執(zhí)行np.concatenated[[123][234]],[[345]]],axis=0)

43.[單選題]以下統(tǒng)計(jì)量中表示數(shù)據(jù)分布是否為對(duì)稱性的是。。

A)方差

B)中位數(shù)

C)偏態(tài)

D)峰

答案:C

解析:偏態(tài)(Skewness)描述數(shù)據(jù)分布的對(duì)稱性。當(dāng)“偏態(tài)系數(shù)”等于0時(shí),對(duì)應(yīng)數(shù)據(jù)的分布為對(duì)稱

,否則分布為非對(duì)稱;峰態(tài)(Kurtosis)描述數(shù)據(jù)分布的平峰或尖峰程度。當(dāng)“峰態(tài)系數(shù)”等于0時(shí)

,數(shù)據(jù)分布為標(biāo)準(zhǔn)正態(tài)分布,否則比正態(tài)分布更平或更尖。

44.[單選題]以下關(guān)于數(shù)據(jù)服務(wù)API開(kāi)放方使用流程,描述正確的是:()。

A)創(chuàng)建api并發(fā)布api

B)獲取API

C)調(diào)用API

D)創(chuàng)建應(yīng)用并獲取授

答案:A

解析:

45.[單選題]在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,感知機(jī)輸出層中的M-P神經(jīng)元通常被稱為()o

A)閾值邏輯單元

B)激活函數(shù)

C)擠壓函數(shù)

D)連接函

答案:A

解析:深度學(xué)習(xí)基礎(chǔ)知識(shí)。

46.[單選題]構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò),將前一層的輸出和它自身作為輸入。下列哪一種架構(gòu)有反饋連接

()

A)循環(huán)神經(jīng)網(wǎng)絡(luò)

B)卷積神經(jīng)網(wǎng)絡(luò)

C)限制玻爾茲曼機(jī)

D)都不

答案:A

解析:循環(huán)神經(jīng)網(wǎng)絡(luò)有反饋連接。

47.[單選題]下列說(shuō)法錯(cuò)誤的是()

A)當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降算法的解一般就是全局最優(yōu)解

B)進(jìn)行PCA降維時(shí),需要計(jì)算協(xié)方差矩

C)沿負(fù)梯度的方向一定是最優(yōu)的方向

D)利用拉格朗日函數(shù)能解帶約束的優(yōu)化問(wèn)題

答案:C

解析:沿負(fù)梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。

48.[單選題]PHOTO_PATH=/photo/{}.jpg"指令可以實(shí)現(xiàn)()0

A)復(fù)制jpg文件到photo目錄下

B)定義一個(gè)名為photo的存儲(chǔ)路徑

C)打開(kāi)photo里所有的jpg文件

D)重命名目錄

答案:B

解析:PHOTO_PATH="./photo/}jpg"指令可以實(shí)現(xiàn)定義一個(gè)名為photo的相對(duì)存儲(chǔ)路徑。

49.[單選題]假設(shè)已從標(biāo)準(zhǔn)庫(kù)functools導(dǎo)入reduce。函數(shù),那么表達(dá)式reduce(lambdax,y:

x+y,[1,2,3])的值為()。

A)None

B)6

03

D)9

答案:B

解析:reduce是聚合函數(shù),該操作完成數(shù)組求和功能。

50.[單選題]點(diǎn)擊率問(wèn)題是這樣一個(gè)預(yù)測(cè)問(wèn)題,99%的人是不會(huì)點(diǎn)擊的,而現(xiàn)的人是會(huì)點(diǎn)擊進(jìn)去的,所以

這是一個(gè)非常不平衡的數(shù)據(jù)集.假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來(lái)分類(lèi),而且有了99%的預(yù)測(cè)準(zhǔn)確率

,我們可以下的結(jié)論是:()O

A)模型預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了

B)模型預(yù)測(cè)準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模型

C)無(wú)法下結(jié)論

D)以上答案都不正

答案:C

解析:類(lèi)別不均衡的情況下,不能用準(zhǔn)確率做分類(lèi)評(píng)估指標(biāo),因?yàn)槿袛酁椴粫?huì)點(diǎn),準(zhǔn)確率也是

99%,此時(shí)分類(lèi)器一點(diǎn)用都沒(méi)有。

51.[單選題]LSTM中,(_)的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中,并更新細(xì)胞狀態(tài)。

A)輸入門(mén)

B)遺忘門(mén)

C)輸出門(mén)

D)更新門(mén)

答案:A

解析:LSTM中,輸入門(mén)的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中,并更新細(xì)胞狀態(tài);遺忘門(mén)決定我

們會(huì)從細(xì)胞狀態(tài)中丟棄什么信息;輸出門(mén)確定輸出。

52.[單選題]新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和()。

A)數(shù)據(jù)倉(cāng)庫(kù)

B)關(guān)系云

C)數(shù)據(jù)庫(kù)系統(tǒng)

D)文件系統(tǒng)

答案:B

解析:關(guān)系云是在云計(jì)算環(huán)境中部署和虛擬化的關(guān)系數(shù)據(jù)庫(kù),進(jìn)而使傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)具備云計(jì)算的彈

性計(jì)算、虛擬化、按需服務(wù)和高經(jīng)濟(jì)性等特征。關(guān)系云代表了數(shù)據(jù)管理的一個(gè)重要發(fā)展方向。

53.[單選題]()是數(shù)據(jù)庫(kù)管理系統(tǒng)運(yùn)行的基本工作單位。

A)事務(wù)

B)數(shù)據(jù)倉(cāng)庫(kù)

C)數(shù)據(jù)單元

D)數(shù)據(jù)分析

答案:A

解析:在關(guān)系數(shù)據(jù)庫(kù)中,事務(wù)(Transaction)是保證數(shù)據(jù)一致性的重要手段,可以幫助用戶維護(hù)數(shù)據(jù)

的一致性。事務(wù)是用戶定義的一個(gè)數(shù)據(jù)庫(kù)操作序列,這些操作要么全做,要么全不做,是一個(gè)不可

分割的工作單位。

54.[單選題]對(duì)參數(shù)進(jìn)行L2正則,是機(jī)器學(xué)習(xí)常用的防止過(guò)擬合的方法。請(qǐng)問(wèn)對(duì)參數(shù)做L2正則,下列

O是對(duì)參數(shù)本身做先驗(yàn)分布假設(shè)。

A)高斯分布

B)拉普拉斯分布

C)泊松分布

D)均勻分

答案:A

解析:L2正則假設(shè)參數(shù)的先驗(yàn)分布是Gaussian分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會(huì)太

大或太小。

55.[單選題]關(guān)于表述數(shù)據(jù)可視化在數(shù)據(jù)科學(xué)中重要地位說(shuō)法中,下列不正確的是()。

A)視覺(jué)是人類(lèi)獲得信息的最主要途徑

B)數(shù)據(jù)可視化處理可以洞察統(tǒng)計(jì)分析無(wú)法發(fā)現(xiàn)的結(jié)構(gòu)和細(xì)節(jié)

C)數(shù)據(jù)可視化處理結(jié)果的解讀對(duì)用戶知識(shí)水平的要求較高

D)可視化能夠幫助人們提高理解與處理數(shù)據(jù)的效率

答案:C

解析:視覺(jué)是人類(lèi)獲得信息的最主要途徑,超過(guò)50%的人腦功能用于視覺(jué)信息的處理。數(shù)據(jù)可視化處

理可以洞察統(tǒng)計(jì)分析無(wú)法發(fā)現(xiàn)的結(jié)構(gòu)和細(xì)節(jié)。數(shù)據(jù)可視化處理結(jié)果的解讀對(duì)用戶知識(shí)水平的要求較

低??梢暬軌驇椭藗兲岣呃斫馀c處理數(shù)據(jù)的效率。

56.[單選題]。算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的算法。

A)FP-growth

B)EClat

C)聚類(lèi)

D)Apdor

答案:D

解析:Apdori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的算法。

57.[單選題]解析:最大概率分詞基本思想:一句話有多種切割方法,我們選擇聯(lián)合概率最大的結(jié)果

O

A)南京市*長(zhǎng)江*大橋

B)南京*市長(zhǎng)*江大橋

C)南京市長(zhǎng)*江大橋

D)南京市*長(zhǎng)江大

答案:B

解析:A=0;B=0.8*0.6*0.4=0.192C=0D=0.3*0.5=0.15所以這道題選擇B。

58.[單選題]scipy庫(kù)中用于物理和數(shù)學(xué)常量計(jì)算的模塊是()o

A)scipy.cluster

B)scipy.io

C)scipy.constants

D)scipy.linalg

答案:C

解析:scipy中,constants是常量計(jì)算模塊。

59.[單選題]任一隨機(jī)事件出現(xiàn)的概率為()

A)在-1與1之間

B)小于0

C)不小于1

D)在0與1之

答案:D

解析:如果沒(méi)有其他的附加條件的話,一般概率P的取值范圍是:0WPW1。0代表不可能發(fā)生,1代表一

定會(huì)發(fā)生。

60.[單選題]一監(jiān)獄人臉識(shí)別準(zhǔn)入系統(tǒng)用來(lái)識(shí)別待進(jìn)入人員的身份,此系統(tǒng)一共包括識(shí)別4種不同的

人員:獄警,小偷,送餐員,其他人員。下面哪種學(xué)習(xí)方法最適合此種應(yīng)用需求()

A)二分類(lèi)問(wèn)題

B)層次聚類(lèi)問(wèn)題

C)多分類(lèi)問(wèn)題

D)回歸問(wèn)

答案:C

解析:涉及4種人員類(lèi)別,屬于多分類(lèi)問(wèn)題。

61.[單選題]()屬于Spark框架中的可擴(kuò)展機(jī)器學(xué)習(xí)庫(kù)。

A)MLib

B)GraphX

C)Streaming

D)SparkSQL

答案:A

解析:MLib是可擴(kuò)展機(jī)器學(xué)習(xí)庫(kù)。

62.[單選題]有關(guān)Hadoop的陳述哪個(gè)是錯(cuò)誤的()o

A)它運(yùn)行在通用硬件上;

B)它是Apache軟件基金會(huì)(ASF)下的項(xiàng)目;

0它是最好的實(shí)時(shí)流式數(shù)據(jù)處理框架;

D)Hadoop對(duì)數(shù)據(jù)的處理是有延遲的;

答案:C

解析:Hadoop不善于處理除批處理計(jì)算模式之外的其他計(jì)算模式,如流計(jì)算等,故C錯(cuò)。

63.[單選題]下列哪種架構(gòu)的數(shù)據(jù)庫(kù)數(shù)據(jù)是分布式存儲(chǔ)的:

A)share-everything

B)share-disk

C)share-nothing

D)share-anythin

答案:C

解析:

64.[單選題]數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用多個(gè)算法(模型)進(jìn)行預(yù)測(cè),并且最后把這些算法的結(jié)果集

成起來(lái)進(jìn)行最后的預(yù)測(cè)(集成學(xué)習(xí)),以下對(duì)集成學(xué)習(xí)說(shuō)法正確的是OO

A)單個(gè)模型之間具有高相關(guān)性

B)單個(gè)模型之間具有低相關(guān)性

C)在集成學(xué)習(xí)中使用“平均權(quán)重”而不是“投票”會(huì)比較好

D)單個(gè)模型都是用的一個(gè)算法

答案:B

解析:集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛

在的思想是即便某一個(gè)弱模型得到了錯(cuò)誤的預(yù)測(cè),其他的弱模型也可以將錯(cuò)誤糾正回來(lái)。某一個(gè)弱

模型要有一定的“準(zhǔn)確性”,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個(gè)體學(xué)習(xí)器間具有差異。集

成中即可包含同種類(lèi)型的弱模型,也可包含不同類(lèi)型的弱模型。

65.[單選題]CNN神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取帶來(lái)了變革性的變化,使之前的人工特征提取升級(jí)到數(shù)據(jù)

驅(qū)動(dòng)的自動(dòng)特征提取,在CNN中,起到特征提取作用的網(wǎng)絡(luò)層是:(_)。

A)convolution層

B)fullconnect層

C)maxpooling層

D)norm

答案:A

解析:卷積層負(fù)責(zé)提取特征,采樣層負(fù)責(zé)特征選擇,全連接層負(fù)責(zé)分類(lèi)。

66.[單選題]檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基于()的離群點(diǎn)檢測(cè)。

A)統(tǒng)計(jì)方法

B)鄰近度

C)密度

D)聚類(lèi)技

答案:A

解析:檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基于統(tǒng)計(jì)方法的離群點(diǎn)檢測(cè)。

67.[單選題]下列說(shuō)法錯(cuò)誤的是()

A)生產(chǎn)者和消費(fèi)者面向的都是一個(gè)topic

B)生產(chǎn)者發(fā)送數(shù)據(jù)的對(duì)象是leader

0當(dāng)集群中的某個(gè)節(jié)點(diǎn)發(fā)生故障時(shí),Replica上的partition數(shù)據(jù)不會(huì)丟失

D)partition是一個(gè)沒(méi)有順序的隊(duì)

答案:D

解析:

68.[單選題]ElasticSearch存放所有關(guān)鍵詞的地方是

A)字典

B)關(guān)鍵詞

C)詞典

D)索

答案:C

解析:

69.[單選題]下列()算法更適合做時(shí)間序列建模。

A)CNN

B)決策樹(shù)

C)LSTM

D)貝葉斯算法

答案:C

解析:LSTM算法更適合做時(shí)間序列建模。

70.[單選題]()是一種著名的密度聚類(lèi)算法,它基于一組鄰域參數(shù)來(lái)刻畫(huà)樣本的緊密程度。

A)DBSC

B)原型聚類(lèi)

C)密度聚類(lèi)

D)層次聚

答案:A

解析:DBSCAN是一種著名的密度聚類(lèi)算法,它基于一組鄰域參數(shù)來(lái)刻畫(huà)樣本的緊密程度。

71.[單選題]bootstrap數(shù)據(jù)是什么意思()。

A)有放回地從總共M個(gè)特征中抽樣m個(gè)特征

B)無(wú)放回地從總共M個(gè)特征中抽樣m個(gè)特征

C)有放回地從總共N個(gè)樣本中抽樣n個(gè)樣本

D)無(wú)放回地從總共N個(gè)樣本中抽樣n個(gè)樣

答案:C

解析:自助來(lái)樣法(bootstrapsampling),給定包含N個(gè)樣本的數(shù)據(jù)集,我們先隨機(jī)取出一個(gè)樣本放

入采樣集中,再把該樣本放回初始數(shù)據(jù)集,使得下次采樣時(shí)該樣本仍有可能被選中,這樣經(jīng)過(guò)n次隨

機(jī)采樣操作,我們得到含n個(gè)樣本的采樣集。

72.[單選題]當(dāng)Kafka中日志片段大小達(dá)到()時(shí),當(dāng)前日志片段會(huì)被關(guān)閉。

A)1M

B)100M

O1GB

D)10G

答案:C

解析:

73.[單選題]select*fromcitylimit5offset10;描述正確的是

A)獲取第6條到第15條記錄

B)獲取第5條到第10條記錄

C)獲取第6條到第15條記錄

D)獲取第11條到第15條記

答案:D

解析:

74.[單選題]()是人們從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論和方法等。

A)信息

B)知識(shí)

C)理解

D)智慧

答案:B

解析:知識(shí)上人們從數(shù)據(jù)、信息中發(fā)現(xiàn)的,在數(shù)據(jù)/信息中存在的共性規(guī)律、認(rèn)識(shí)、經(jīng)驗(yàn)與常識(shí)。通

常根據(jù)能否清晰地表述和有效的轉(zhuǎn)移,將知識(shí)分為兩種:顯性知識(shí)(ExplicitKnowledge)和隱性知

識(shí)(TacitKnowledge)<>

75.[單選題]有N個(gè)樣本,一般用于訓(xùn)練,一般用于測(cè)試。若增大N值,則訓(xùn)練誤差和測(cè)試誤差之間的

差距會(huì)如何變化()O

A)增大

B)減小

C)無(wú)法確定

D)無(wú)明顯變

答案:B

解析:增加數(shù)據(jù),能夠有效減小過(guò)擬合,減小訓(xùn)練樣本誤差和測(cè)試樣本誤差之間的差距。

76.[單選題]長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)通過(guò)什么來(lái)緩解梯度消失問(wèn)題。

A)增加網(wǎng)絡(luò)深度

B)減少網(wǎng)絡(luò)神經(jīng)元

C)使用雙向的網(wǎng)絡(luò)結(jié)構(gòu)

D)增加一個(gè)用來(lái)保存長(zhǎng)期狀態(tài)的單

答案:D

解析:長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)增加一個(gè)用來(lái)保存長(zhǎng)期狀態(tài)的單元來(lái)解決梯度消失問(wèn)題。

77.[單選題]Numpy.linspace(0,3,3)的結(jié)果為()。

A)[0,1,2]

B)[1,2,3]

C)[0,1.5,3]

D)[0,3,6]

答案:C

解析:np.linspace()指定開(kāi)始值、結(jié)束值和值的個(gè)數(shù),默認(rèn)包含結(jié)束值,注意與arange區(qū)別。

78.[單選題]下列判斷錯(cuò)誤的是。。

A)XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)

B)JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)

OPPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)

D)音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)

答案:B

解析:JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。

79.[單選題]關(guān)于數(shù)據(jù)清洗,不正確的說(shuō)法是。。

A)單數(shù)據(jù)源,主鍵取值不能重復(fù)

B)多數(shù)據(jù)源會(huì)存在數(shù)據(jù)重復(fù),單位不一致的問(wèn)題

C)連續(xù)型數(shù)據(jù)不存在冗余問(wèn)題

D)缺失值可以采用刪除和填補(bǔ)等方法處理

答案:C

解析:連續(xù)型數(shù)據(jù)可能存在冗余問(wèn)題。

80.[單選題]某籃運(yùn)動(dòng)員在三分線投球的命中率是2(1),他投球10次,恰好投進(jìn)3個(gè)球的概率()o

A)128(15)

B)16(3)

08(5)

D)16(7

答案:A

解析:投籃只有兩種結(jié)果,進(jìn)或者不進(jìn),符合二項(xiàng)分布,二項(xiàng)分布概率的概率可以用以下公式求得

,其中n=10代表試驗(yàn)次數(shù),k=3代表事件連續(xù)發(fā)生的次數(shù),p=l/2代表事件發(fā)生的概率。

81.[單選題]將兩篇文本通過(guò)詞袋模型變?yōu)橄蛄磕P?,通過(guò)計(jì)算向量的()來(lái)計(jì)算兩個(gè)文本間的相似

度。

A)正弦距離

B)余弦距離

C)長(zhǎng)度

D)方

答案:B

解析:將兩篇文本通過(guò)詞袋模型變?yōu)橄蛄磕P?,通過(guò)計(jì)算向量的余弦距離來(lái)計(jì)算兩個(gè)文本間的相似度

O

82.[單選題]當(dāng)創(chuàng)建了新分區(qū),分區(qū)上線時(shí),要執(zhí)行Leader選舉,選舉策略為()

A)Off1inePartitionLeader選舉

B)ReassignPartitionLeader選舉

C)PreferredRep1icaPartitionLeader選舉

D)ControlledShutdownPartitionLeader選

答案:A

解析:

83.[單選題]進(jìn)行主成分分析的前提條件是,各變量間()o

A)高度相關(guān)

B)低度相關(guān)

C)相互獨(dú)立

D)完全相

答案:B

解析:進(jìn)行主成分分析的前提條件是,各變量間低度相關(guān)。

84.[單選題]關(guān)于拋出異常的說(shuō)法中,描述錯(cuò)誤的是()。

A)當(dāng)raise指定異常的類(lèi)名時(shí),會(huì)隱式地創(chuàng)建異常類(lèi)的實(shí)例

B)顯式地創(chuàng)建異常類(lèi)實(shí)例,可以使用raise直接引發(fā)

C)不帶參數(shù)的raise語(yǔ)句,只能引發(fā)剛剛發(fā)生過(guò)的異常

D)使用raise拋出異常時(shí),無(wú)法指定描述信息

答案:D

解析:raise語(yǔ)句的第一個(gè)參數(shù)指定要產(chǎn)生的例外的名字;可選的第二參數(shù)指定例外的參數(shù)。

85.[單選題]以下關(guān)于HDFS適合做什么描述正確的是

A)低延遲讀取

B)大文件存儲(chǔ)

C)大量小文件存儲(chǔ)

D)隨機(jī)寫(xiě)入

答案:B

解析:

86.[單選題]我們建立一個(gè)5000個(gè)特征,100萬(wàn)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型.我們?cè)趺从行У貞?yīng)對(duì)這樣的大數(shù)

據(jù)訓(xùn)練()。

A)我們隨機(jī)抽取一些樣本,在這些少量樣本之上訓(xùn)練

B)我們可以試用在線機(jī)器學(xué)習(xí)算法

C)我們應(yīng)用P算法降維,減少特征數(shù)

D)以上答案都正

答案:D

解析:樣本數(shù)過(guò)多,或者特征數(shù)過(guò)多,而不能單機(jī)完成訓(xùn)練,可以用小批量樣本訓(xùn)練,或者在線累計(jì)

式訓(xùn)練,或者主成分PCA降維方式減少特征數(shù)量再進(jìn)行訓(xùn)練。

87.[單選題]數(shù)據(jù)科學(xué)是一門(mén)以()為主要研究任務(wù)的獨(dú)立學(xué)科。

A)“數(shù)據(jù)驅(qū)動(dòng)”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見(jiàn)”“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”

B)數(shù)據(jù)研發(fā)

C)數(shù)據(jù)處理

D)數(shù)據(jù)洞見(jiàn)

答案:A

解析:數(shù)據(jù)科學(xué)是一門(mén)以實(shí)現(xiàn)“從數(shù)據(jù)到信息”、“從數(shù)據(jù)到知識(shí)”和(或)“從數(shù)據(jù)到智慧”的轉(zhuǎn)

化為主要研究目的的,以"數(shù)據(jù)驅(qū)動(dòng)”、“數(shù)據(jù)業(yè)務(wù)化”、“數(shù)據(jù)洞見(jiàn)”、“數(shù)據(jù)產(chǎn)品研發(fā)“和

(或)“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”為主要研究任務(wù)的獨(dú)立學(xué)科。

88.[單選題]關(guān)聯(lián)規(guī)則的評(píng)價(jià)指標(biāo)是()。

A)均方誤差、均方根誤差

B)Kappa統(tǒng)計(jì)、顯著性檢驗(yàn)

C)支持度、置信度

D)平均絕對(duì)誤差、相對(duì)誤

答案:C

解析:支持度、置信度是關(guān)聯(lián)規(guī)則的評(píng)價(jià)指標(biāo)。

89.[單選題]下面哪個(gè)程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)()

A)NameNode

B)Jobtracker

C)Datanode

D)secondaryNameNode

答案:C

解析:Hadoop中namenode節(jié)點(diǎn)作為master節(jié)點(diǎn),對(duì)集群進(jìn)行管理;secondaryNameNode節(jié)點(diǎn)在于分擔(dān)

namenode的壓力而設(shè)置;Jobtracker是為了跟蹤作業(yè)運(yùn)行的情況而設(shè)置的節(jié)點(diǎn)。

90.[單選題]一幅灰度級(jí)均勻分布的圖象,其灰度范圍在[0,255],則該圖象的信息量為:。

A)0

B)255

06

D)8

答案:D

解析:

91.[單選題]關(guān)于_name_的說(shuō)法,下列描述錯(cuò)誤的是。。

A)它是Python提供的一個(gè)方法;

B)每個(gè)模塊內(nèi)部都有一個(gè)—name—屬性;

C)當(dāng)它的值為時(shí),表示模塊自身在運(yùn)行;

D)當(dāng)它的值不為'—main—'時(shí),表示模塊被引用;

答案:A

解析:—name一是Python提供的一個(gè)屬性。

92.[單選題]tablel是根據(jù)dt分區(qū)的數(shù)據(jù)表,dt例如:20220101,下列加載數(shù)據(jù)的SQL正確的是

(),要求可重跑、寫(xiě)入分區(qū)要求當(dāng)前天執(zhí)行時(shí)寫(xiě)入至前一天的分區(qū)

A)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtablelPARTITION(dt='{{yyyymmdd}}')

B)LOADDATAINPATH'filepath'INTOTABLEtablelPARTITION(dt='{{yyyymmdd}}')

C)LOADDATAINPATH'filepath'INTOTABLEtablelPARTITION(dt='{{yyyyMMdd}}')

D)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtablelPARTITION(dt='{{yyyyMMdd-

Id}},

答案:D

解析:

93.[單選題]假負(fù)率是指()o

A)正樣本預(yù)測(cè)結(jié)果數(shù)/正樣本實(shí)際數(shù)

B)被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)

C)被預(yù)測(cè)為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)

D)負(fù)樣本預(yù)測(cè)結(jié)果數(shù)/負(fù)樣本實(shí)際

答案:B

解析:假負(fù)率是指被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)。

94.[單選題]下列哪個(gè)不是RDD的緩存方法()

A)persist()

B)略

C)che()Memory()

D)以上答案都正

答案:C

解析:RDD的緩存方法包括persist和cache,其中cache方法默認(rèn)存儲(chǔ)到內(nèi)存中。

95.[單選題]假設(shè)你在卷積神經(jīng)網(wǎng)絡(luò)的第一層中有5個(gè)卷積核,每個(gè)卷積核尺寸為7X7,具有零填充

且步幅為1。該層的輸入圖片的維度是224X224X3。那么該層輸出的維度是多少()

A)217x217x3

B)217x217x8

C)218x218x5

D)220x220x

答案:C

解析:如果原始圖片尺寸為nxn,filter尺寸為fxf,則卷積后的圖片尺寸為(n-f+l)x(n-

f+1),注意f一般為奇數(shù)。若考慮存在填充和步幅,用s表示stride長(zhǎng)度,p表示padding長(zhǎng)

度,如果原始圖片尺寸為nxn,filter尺寸為fxf,則卷積后的圖片尺寸為:[(n+2p-

f)/s+l]x[(n+2p-f)/s+l](中括號(hào)內(nèi)向下取整).此例中,n=224,p=0,f=7,s=l,因此,該層輸出

的尺寸為218x218.輸出的第三個(gè)維度由濾波器的個(gè)數(shù)決定,即為5。

96.[單選題]數(shù)據(jù)預(yù)處理方法不包括()。

A)數(shù)據(jù)清洗:去噪聲和無(wú)關(guān)數(shù)據(jù)

B)數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中

C)數(shù)據(jù)變換:把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式

D)數(shù)據(jù)轉(zhuǎn)化:把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)

答案:D

解析:數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別【男,女】分別轉(zhuǎn)換為【0,1】。

97.[單選題]Python代碼中mpl.reParams['font,sans-serif']=['SimHei']的作用是()。

A)設(shè)置圖表中文顯示的字體

B)設(shè)置圖表圖例的位置

C)設(shè)置圖表標(biāo)題的顏色

D)設(shè)置圖表標(biāo)題的位置

答案:A

解析:設(shè)置圖表字體以正確顯示中文。

98.[單選題]下面關(guān)于Hive內(nèi)外表描述正確的是。

A)內(nèi)部表數(shù)據(jù)由HDFS自身管理,外部表數(shù)據(jù)由Hive管理;

B)內(nèi)部表數(shù)據(jù)存儲(chǔ)的位置是hive,metastore,warehouse.dir設(shè)置配置(默認(rèn)

:/user/hive/warehouse)

0外表存儲(chǔ)必須指定LOCATION

D)內(nèi)外表刪除時(shí),都會(huì)刪除元數(shù)據(jù)和存

答案:B

解析:

99.[單選題]隨機(jī)森林與Bagging中基學(xué)習(xí)器多樣性的區(qū)別是()。

A)都來(lái)自樣本擾動(dòng)

B)都來(lái)自屬性擾動(dòng)

C)來(lái)自樣本擾動(dòng)和自屬性擾動(dòng)

D)多樣本集結(jié)

答案:C

解析:Bagging中基學(xué)習(xí)器的多樣性僅來(lái)自于樣本擾動(dòng)(自助采樣),隨機(jī)森林中基學(xué)習(xí)器的多樣性不僅

來(lái)自樣本擾動(dòng),還來(lái)自屬性擾動(dòng)。

100.[單選題]在大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原0DPS)的數(shù)據(jù)倉(cāng)庫(kù)中的訂單表fact_order,建表

語(yǔ)句如下:createtablefact_order(order_iD、string,order_amtdouble,order_dt

string)paititioneD,by(dtstring);此表中的數(shù)據(jù)是從ods_order加工而來(lái),ods_order建表語(yǔ)

句如下:createtableods_order(order_iD,string.order_amtbigint,order_dt

string);ods_order中有一條記錄數(shù)據(jù)值是order_iD、order_amtorder_dt000110020160301運(yùn)

行SQL語(yǔ)句將數(shù)據(jù)從ods_order加載到fact_order中:insertoverwritetablefact_order

partition(dt=,20160301))select*fromodsorder;對(duì)此語(yǔ)句的執(zhí)行結(jié)果描述正確的是

:()O

A)語(yǔ)句可以執(zhí)行,但是這條數(shù)據(jù)會(huì)被當(dāng)作臟數(shù)據(jù)丟棄

B)目標(biāo)表與源表中的數(shù)據(jù)類(lèi)型不一致,執(zhí)行出錯(cuò)

C)提交SQL時(shí)會(huì)報(bào)語(yǔ)法錯(cuò)誤

D)語(yǔ)句可以執(zhí)行,order_amt的值會(huì)被自動(dòng)的轉(zhuǎn)為double類(lèi)型

答案:D

解析:

101.[單選題]一般將原始業(yè)務(wù)數(shù)據(jù)分為多個(gè)部分,()用于模型的構(gòu)建。

A)訓(xùn)練集

B)測(cè)試集

C)驗(yàn)證集

D)全部數(shù)據(jù)

答案:A

解析:訓(xùn)練集、測(cè)試集和驗(yàn)證集的功能分別為訓(xùn)練模型、測(cè)試模型以及模型選擇與超級(jí)參數(shù)的調(diào)優(yōu)。

102.[單選題]pynlpir是一種常用的自然語(yǔ)言理解工具包,其中進(jìn)行分詞處理的函數(shù)是。。

A)open()

B)segment()

C)AddUserWord()

D)generate(

答案:B

解析:pynlpir是python中分詞工具包,用于分詞處理的函數(shù)是segment()

103.[單選題]可用信息增益來(lái)進(jìn)行決策樹(shù)的()o

A)樹(shù)高

B)葉子結(jié)點(diǎn)數(shù)

C)總結(jié)點(diǎn)數(shù)

D)劃分屬性選

答案:D

解析:可用信息增益來(lái)進(jìn)行決策樹(shù)的劃分屬性選擇。

104.[單選題]已知數(shù)組trans_cnt[l,2,3,4],trans_cnt[2]獲取的結(jié)果為。

A)1

B)2

03

D)4

答案:C

解析:

■5.[單選題]表達(dá)式intClor.2)的值為()o

A)5

B)6

C)"10"

D)3

答案:A

解析:二進(jìn)制101等于5

106.[單選題]()是一種著名的密度聚類(lèi)算法,它基于一組鄰域參數(shù)來(lái)刻畫(huà)樣本的緊密程度。

A)DBSCAN

B)原型聚類(lèi)

C)密度聚類(lèi)

D)層次聚類(lèi)

答案:A

解析:DBSCAN是一種著名的密度聚類(lèi)算法,它基于一組鄰域參數(shù)來(lái)刻畫(huà)樣本的緊密程度。

107.[單選題]關(guān)于數(shù)據(jù)分析,下列說(shuō)法正確的是()o

A)描述性分析和預(yù)測(cè)性分析是對(duì)診斷性分析的基礎(chǔ)

B)斷性分析分析是對(duì)規(guī)范性分析的進(jìn)一步理解

C)預(yù)測(cè)性分析是規(guī)范性分析的基礎(chǔ)

D)規(guī)范性分析是數(shù)據(jù)分析的最高階段,可以直接產(chǎn)生產(chǎn)業(yè)價(jià)值

答案:C

解析:在數(shù)據(jù)分析中,流程分為以下方式:描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析。

108.[單選題]特征工程的目的是()o

A)找到最合適的算法

B)得到最好的輸入數(shù)據(jù)

C)減低模型復(fù)雜度

D)加快計(jì)算速

答案:B

解析:特征工程的目的是篩選出更好的特征,獲取更好的訓(xùn)練數(shù)據(jù)。

109.[單選題]假設(shè)您已在數(shù)據(jù)集上擬合了一個(gè)復(fù)雜的回歸模型。現(xiàn)在,您正在使用Ridge回歸,并調(diào)

整參數(shù)人以減少其復(fù)雜性。選擇下面的描述,哪個(gè)表達(dá)了偏差和方差與人的關(guān)系()O

A)在人非常小的情況下,偏差低,方差低

B)在人非常小的情況下,偏差低,方差高

C)在人非常小的情況下,偏差高,方差低

D)在人非常小的情況下,偏差低,方差低

答案:B

解析:入很小,則意味著模型比較復(fù)雜,在這種情況下,會(huì)產(chǎn)生偏差低且方差高的結(jié)果,模型會(huì)對(duì)數(shù)

據(jù)過(guò)擬合。

110.[單選題]關(guān)于bagging下列說(shuō)法錯(cuò)誤的是:()。

A)各基分類(lèi)器之間有較強(qiáng)依賴,不可以進(jìn)行并行訓(xùn)練

B)最著名的算法之一是基于決策樹(shù)基分類(lèi)器的隨機(jī)森林

C)當(dāng)訓(xùn)練樣本數(shù)量較少時(shí),子集之間可能有重疊

D)為了讓基分類(lèi)器之間互相獨(dú)立,需要將訓(xùn)練集分為若干子集

答案:A

解析:Bagging方法在訓(xùn)練過(guò)程中,各基分類(lèi)器之間無(wú)強(qiáng)依賴,可以進(jìn)行并行訓(xùn)練,隨機(jī)森林就是一

種典型的例子。

111.[單選題]構(gòu)造了一個(gè)詞表:{1.小明2.喜歡3.踢4.看5.足球6.籃球7.電影},利用上述詞表的索

引號(hào),文檔{小明喜歡踢足球}可以用一個(gè)7維向量表示為()。

A)[1101001]

B)[l111111]

C)[1111100]

D)[1110100

答案:D

解析:統(tǒng)計(jì)文檔中每個(gè)詞的數(shù)量,根據(jù)詞表的位置,將各個(gè)詞的數(shù)量拼接成一個(gè)向量即可。

112.[單選題]pyplot.title。的作用是()。

A)繪制垂直線

B)為圖設(shè)置標(biāo)題

C)為圖添加文本

D)繪制互相關(guān)

答案:B

解析:pyplot.title。可以設(shè)置繪圖標(biāo)題。

113.[單選題]已知一組數(shù)據(jù)的協(xié)方差矩陣P,下面關(guān)于主分量說(shuō)法錯(cuò)誤的是()o

A)主分量分析的最佳準(zhǔn)則是對(duì)一組數(shù)據(jù)進(jìn)行按一組正交基分解,在只取相同數(shù)量分量的條件下,以均

方誤差計(jì)算截尾誤差最小

B)在經(jīng)主分量分解后,協(xié)方差矩陣成為對(duì)角矩陣

C)主分量分析就是K-L變換

D)主分量是通過(guò)求協(xié)方差矩陣的特征值得

答案:C

解析:主分量分析的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種(二階矩陣、協(xié)方差

矩陣、總類(lèi)內(nèi)離散度矩陣等等)。當(dāng)K-L變換矩陣為協(xié)方差矩陣時(shí),等同于PCA。

114.[單選題]以下哪項(xiàng)是Spark2.x程序統(tǒng)一入口?

A)StreamingContext

B)SqlContext

C)HiveContext

D)SparkSessio

答案:D

解析:

115.[單選題]MaxComputeSQL中,使用關(guān)系運(yùn)算符對(duì)兩個(gè)操作數(shù)進(jìn)行比較,如果進(jìn)行比較的兩個(gè)類(lèi)

型間不能進(jìn)行隱式類(lèi)型轉(zhuǎn)換,則:()0

A)則該關(guān)系運(yùn)算不能完成,但并不會(huì)報(bào)錯(cuò)

B)則該關(guān)系運(yùn)算可以完成,健艮錯(cuò)退出

C)則該關(guān)系運(yùn)算不能完成,報(bào)錯(cuò)退出

D)提示用戶需要使用cast進(jìn)行顯示的類(lèi)型轉(zhuǎn)換

答案:C

解析:

116.[單選題]數(shù)據(jù)倉(cāng)庫(kù)僅僅是提供存儲(chǔ)的,提供一種()的服務(wù),不面向最終分析用戶,而數(shù)據(jù)集市

是()的,面向最終用戶。

A)面向分析應(yīng)用.面向數(shù)據(jù)管理

B)面向事務(wù)交互.面向數(shù)據(jù)管理

C)面向數(shù)據(jù)管理.面向分析應(yīng)用

D)面向分析應(yīng)用.面向事務(wù)交

答案:A

解析:

117.[單選題]gateway在ElasticSearch中的含義是?

A)網(wǎng)關(guān)

B)索引的存儲(chǔ)方式

C)rpc請(qǐng)求接口

D)索引快照的存儲(chǔ)方

答案:D

解析:

118.[單選題]以下說(shuō)法錯(cuò)誤的是:(_)。

A)當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降的解時(shí)全局最優(yōu)解

B)進(jìn)行PCA降維時(shí)需要計(jì)算協(xié)方差矩陣

C)沿負(fù)梯度下降的方向一定是最優(yōu)的方向

D)利用拉格朗日函數(shù)能解帶約束的優(yōu)化問(wèn)

答案:C

解析:梯度下降法并不是下降最快的方向,它只是目標(biāo)函數(shù)在當(dāng)前的點(diǎn)的切平面上下降最快的方向

,可以說(shuō)負(fù)梯度下降的方向一定是局部最優(yōu)的方向。

119.[單選題]以下不屬于有監(jiān)督的詞義消歧方法的是()o

A)Flip-Flop算法

B)貝葉斯分類(lèi)器

C)最大病消歧

D)基于詞典的消

答案:D

解析:基于詞典的消歧屬于無(wú)監(jiān)督的詞義消歧方法。

120.[單選題]下列哪項(xiàng)不屬于數(shù)據(jù)庫(kù)架構(gòu)的是:

A)share-everything

B)share-disk

C)share-nothing

D)share-anythin

答案:D

解析:

121.[單選題]叩.“001'([-1.7,1.5,-0.2,0.6,10])的輸出結(jié)果是()0

A)[-1,1,0,0,10]

B)[-2.,1.,-l.,0.,10.]

C)[-1.,1.,-l.,0.,10.]

D)[-2.,1.,0.,0.,10.]

答案:B

解析:floor函數(shù)定義取的是不超過(guò)這個(gè)數(shù)的最大整數(shù)。

122.[單選題]下面的語(yǔ)句哪個(gè)會(huì)無(wú)限循環(huán)下去()o

A)forainrange(10):timesleep(10)

B)whilel<10:timesleep(10)

C)whileTrue:break

D)a=[3,-1,']foriina[:]:ifnota:break

答案:B

解析:B中條件1C10恒成立。

123.[單選題]Spark的特點(diǎn)不包括()

A)速度快

B)通用性

C)易用性

D)單一操作

答案:D

解析:Spark是一個(gè)快速、通用和易于使用的計(jì)算平臺(tái)。

124.[單選題]客戶端從HDFS上讀取數(shù)據(jù)時(shí)會(huì)()

A)從namenode上獲取數(shù)據(jù)

B)從datanode上獲取block位置

C)從namenode上獲取block位置

D)從namenode上獲取數(shù)據(jù)和block位

答案:C

解析:namenode保存數(shù)據(jù)block的位置,datanode保存數(shù)據(jù)。

125.[單選題]HTML的表格中,如果需要定義表格的單元格內(nèi)文字和邊緣的空間,需要通過(guò)哪個(gè)屬性

來(lái)實(shí)現(xiàn)Oo

A)cellspacing屬性

B)colspan屬性

C)cellpadding屬性

D)rowspan屬性

答案:C

解析:cellspacing屬性用來(lái)指定表格各單元格之間的空隙;colspan屬性規(guī)定單元格可橫跨的列數(shù)

;cellpadding屬性用來(lái)指定單元格內(nèi)容與單元格邊界之間的空白距離的大??;rowspan屬性規(guī)定單

元格可橫跨的行數(shù)。

126.[單選題]檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基于()的離群點(diǎn)檢測(cè)。

A)統(tǒng)計(jì)方法

B)鄰近度

C)密度

D)機(jī)器學(xué)習(xí)技術(shù)

答案:A

解析:檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基于統(tǒng)計(jì)的離群點(diǎn)檢測(cè)。

127.[單選題]在Python中,函數(shù)()。

A)不可以嵌套定義

B)不可以嵌套調(diào)用

C)不可以遞歸調(diào)用

D)以上答案都不正確

答案:D

解析:python可以嵌套定義、嵌套調(diào)用和遞歸調(diào)用

128.[單選題]bootstrap數(shù)據(jù)是什么意思。。

A)有放回地從總共M個(gè)特征中抽樣m個(gè)特征

B)無(wú)放回地從總共M個(gè)特征中抽樣m個(gè)特征

C)有放回地從總共N個(gè)樣本中抽樣n個(gè)樣本

D)無(wú)放回地從總共N個(gè)樣本中抽樣n個(gè)樣本

答案:C

解析:自助來(lái)樣法(bootstrapsampling),給定包含N個(gè)樣本的數(shù)據(jù)集,我們先隨機(jī)取出一個(gè)樣本放

入采樣集中,再把該樣本放回初始數(shù)據(jù)集,使得下次采樣時(shí)該樣本仍有可能被選中,這樣經(jīng)過(guò)n次隨

機(jī)采樣操作,我們得到含n個(gè)樣本的采樣集。

129.[單選題]大數(shù)據(jù)平臺(tái)核心分布式存儲(chǔ)與計(jì)算組件采用Hadoop技術(shù)體系中分布式存儲(chǔ)、分布式計(jì)

算框架,及Spark等開(kāi)源產(chǎn)品和技術(shù),實(shí)現(xiàn)對(duì)數(shù)據(jù)的安全控制和管理功能,其中分布式存儲(chǔ)不包括

()O

A)HDFS

B)Postgresql

OHive

D)HBase

答案:B

解析:Postgresql并非分布式存儲(chǔ)。

130.[單選題]關(guān)于欠擬合(under-fitting),()是正確的。

A)訓(xùn)練誤差較大,測(cè)試誤差較小

B)訓(xùn)練誤差較小,測(cè)試誤差較大

C)訓(xùn)練誤差較大,測(cè)試誤差較大

D)訓(xùn)練誤差較小,測(cè)試誤差較

答案:C

解析:欠擬合是指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好,因此訓(xùn)練誤差和測(cè)試誤差均較大

131.[單選題]子集搜索中,逐漸增加相關(guān)特征的策略稱為()o

A)前向搜索

B)后向搜索

C)雙向搜索

D)不定向搜

答案:A

解析:子集搜索中,逐漸增加相關(guān)特征的策略稱為前向搜索。

132.[單選題]例如Hive建表語(yǔ)句中storedas的作用是指定表的格式,下列不屬于Hive表的常見(jiàn)格

式的是()createtableifnotexiststextfile_table(ueseridSTRING,movieidSTRING,

ratingSTRING,tsSTRING)rowformateddelimatedfieldsterminatedby'\t'storedas

textfile;

A)PigTable

B)ORC

C)PARQUET

D)TEXTFIL

答案:A

解析:

133.[單選題]泛化誤差可分解為偏差、方差與噪聲之和,當(dāng)學(xué)習(xí)器擬合程度不夠強(qiáng)時(shí),是()主導(dǎo)

了泛化錯(cuò)誤率。

A)偏差

B)方差

C)噪聲

D)差與方差共同

答案:A

解析:學(xué)習(xí)器擬合程度不夠強(qiáng)時(shí),及欠擬合,此時(shí)是偏差主導(dǎo)了泛化錯(cuò)誤率。

134.[單選題]數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的關(guān)鍵環(huán)節(jié)是()

A)數(shù)據(jù)收集

B)數(shù)據(jù)預(yù)處理

C)數(shù)據(jù)學(xué)習(xí)

D)數(shù)據(jù)加工(DataWrangling或DataMunging)

答案:D

解析:數(shù)據(jù)加工(DataWrangling或DataMunging)是數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的關(guān)鍵環(huán)節(jié)。

135.[單選題]下列哪個(gè)不是RDD的緩存方法

A)persist()

B)Cache()

C)Memory(

D)列哪個(gè)不是RDD的緩存方法A、persist()B、Cache()C、Memory(

答案:C

解析:

136.[單選題]高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉(zhuǎn)移函數(shù)加上一常數(shù)

量以便于引入一些低頻分量。這樣濾波器叫()O

A)巴特沃斯高通濾波器

B)高頻提升濾波器

C)高頻加強(qiáng)濾波器

D)理想高通濾波

答案:B

解析:高頻增強(qiáng)濾波器由于相對(duì)削弱了低頻成分,因而濾波所得的圖像往往偏暗。

137.[單選題]()的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息,從而既不需要進(jìn)行完全聯(lián)

合概率計(jì)算,又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。

A)貝葉斯判定準(zhǔn)則

B)貝葉斯決策論

C)樸素貝葉斯分類(lèi)器

D)半樸素貝葉斯分類(lèi)器

答案:D

解析:半樸素貝葉斯的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息,從而既不需要進(jìn)行完全聯(lián)

合概率計(jì)算,又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。

138.[單選題]sklearn庫(kù)中對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和規(guī)范化主要依靠()模塊。

A)neighbors模塊

B)preprocessing模塊

Opipeline模塊

D)datasets模塊

答案:B

解析:sklearn.preprocessing模塊包括縮放,居中,歸一化,二值化和插補(bǔ)方法,主要是對(duì)數(shù)據(jù)進(jìn)

行預(yù)處理和規(guī)范化。

139.[單選題]模型構(gòu)建完畢需要對(duì)模型進(jìn)行評(píng)估量化,需要用到哪個(gè)模塊()o

A)utils

B)mixture

Ometrics

D)manifold

答案:C

解析:sklearn.metrics包含了用于模型評(píng)估的多種量化評(píng)價(jià)方法,包括均方誤差,準(zhǔn)確率等。

140.[單選題]代碼selectceil(2.34)的結(jié)果是哪一個(gè):

A)2.3

B)2

03

D)2.

答案:C

解析:

141.[單選題]對(duì)組織機(jī)構(gòu)的數(shù)據(jù)管理成熟度等級(jí)劃分中的已執(zhí)行級(jí)的描述錯(cuò)誤的是()o

A)在具體項(xiàng)目中,DMM關(guān)鍵過(guò)程域(KP中給出的關(guān)鍵過(guò)程已被執(zhí)行,但隨意性和臨時(shí)性較大

B)DMM關(guān)鍵過(guò)程的執(zhí)行不僅僅局限于特定業(yè)務(wù)范疇,存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過(guò)程

C)缺少針對(duì)DMM關(guān)鍵過(guò)程的反饋與優(yōu)化

D)雖然有可能在特定業(yè)務(wù)過(guò)程中進(jìn)行了基礎(chǔ)性改進(jìn),但沒(méi)有進(jìn)行持續(xù)跟進(jìn),也未拓展到整個(gè)組織機(jī)

構(gòu)

答案:B

解析:DMM的執(zhí)行級(jí)(PerformedLevel):組織機(jī)構(gòu)只有個(gè)別項(xiàng)目的范圍之內(nèi)“執(zhí)行”了DMM給出的

關(guān)鍵過(guò)程,但缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理。主要特點(diǎn)如下:1)在具體項(xiàng)目中,DMM關(guān)鍵過(guò)程域

(KPA)中給出的關(guān)鍵過(guò)程(KeyProcess)已被執(zhí)行,但隨意性和臨時(shí)性較大;2)DMM關(guān)鍵過(guò)程

(KeyProcess)的執(zhí)行往往僅限于特定業(yè)務(wù)范疇,很少存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過(guò)程;3)缺少

針對(duì)DMM關(guān)鍵過(guò)程(KeyProcess)的反饋與優(yōu)化。以DMM關(guān)鍵過(guò)程(KeyProcess)中的"數(shù)據(jù)質(zhì)量

”為例,其數(shù)據(jù)管理工作可能過(guò)于集中在一個(gè)特定業(yè)務(wù),如“數(shù)據(jù)修復(fù)活動(dòng)”,并沒(méi)有擴(kuò)散到整個(gè)

的業(yè)務(wù)范圍或并沒(méi)有開(kāi)展對(duì)數(shù)據(jù)修復(fù)活動(dòng)本身的反饋與優(yōu)化工作;4)雖然有可能在特定業(yè)務(wù)過(guò)程中

已進(jìn)行了基礎(chǔ)性改進(jìn),但沒(méi)有進(jìn)行持續(xù)跟進(jìn),也未拓展到整個(gè)組織機(jī)構(gòu);5)組織機(jī)構(gòu)沒(méi)有統(tǒng)籌其數(shù)

據(jù)管理工作,而數(shù)據(jù)管理活動(dòng)局限在具體項(xiàng)目中,主要按照其具體項(xiàng)目的實(shí)施需求進(jìn)行,如果一個(gè)

具體項(xiàng)目中需要進(jìn)行數(shù)據(jù)管理,可能執(zhí)行DMM中給出的相關(guān)過(guò)程,反之亦然。

142.[單選題]關(guān)于MaxcomputeSQL,說(shuō)法不正確的是:()。

A)在很多方面并不具備數(shù)據(jù)庫(kù)的特征

B)適用于海量數(shù)據(jù),實(shí)時(shí)性要求不高的場(chǎng)合

C)每個(gè)作業(yè)的準(zhǔn)備,提交等階段要花費(fèi)較長(zhǎng)時(shí)間

D)大部分標(biāo)準(zhǔn)SQL的功能都支持,但是不支持窗口函數(shù)、rownum等

答案:D

解析:

143.[單選題]下列策略()可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。

A)正則化系數(shù)無(wú)窮大

B)正則化系數(shù)幾乎為0

C)選擇合適的正則化參數(shù)

D)以上答案都不正

答案:C

解析:選擇合適的正則化參數(shù)可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。

144.[單選題]Scipy中計(jì)算偏度的函數(shù)是哪個(gè)。。

A)scipy.stats,skewtest()

B)scipy.stats,norm,rvs()

C)scipy.stats,kurtosis()

D)scipy.stats,poi

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論