數(shù)據(jù)挖掘競賽復(fù)習(xí)測試卷含答案_第1頁
數(shù)據(jù)挖掘競賽復(fù)習(xí)測試卷含答案_第2頁
數(shù)據(jù)挖掘競賽復(fù)習(xí)測試卷含答案_第3頁
數(shù)據(jù)挖掘競賽復(fù)習(xí)測試卷含答案_第4頁
數(shù)據(jù)挖掘競賽復(fù)習(xí)測試卷含答案_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第頁數(shù)據(jù)挖掘競賽復(fù)習(xí)測試卷含答案1.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是()。A、圖像分類B、目標(biāo)檢測C、圖像語義分割D、以上答案都正確【正確答案】:D解析:

卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類、目標(biāo)檢測及圖像語義分割。2.給定詞匯表如下:{Bob,ok,like,football,car}。則下面句子Botlikesfootball的詞袋模型表示為()。A、[11100]B、[10110]C、[10010]D、[01101]【正確答案】:B解析:

統(tǒng)計(jì)文檔中每個(gè)詞的數(shù)量,根據(jù)詞表的位置,將各個(gè)詞的數(shù)量拼接成一個(gè)向量即可。3.下列屬于無監(jiān)督學(xué)習(xí)的是()。A、K-meansB、SVMC、最大熵D、CRF【正確答案】:A解析:

K-means是一個(gè)將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過程,這是一個(gè)典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法被稱為無監(jiān)督學(xué)習(xí)。4.關(guān)于Python程序格式框架的描述,以下選項(xiàng)中錯(cuò)誤的是()。A、Python語言不采用嚴(yán)格的“縮進(jìn)”來表明程序的格式框架B、Python單層縮進(jìn)代碼屬于之前最鄰近的一行非縮進(jìn)代碼,多層縮進(jìn)代碼根據(jù)縮進(jìn)關(guān)系決定所屬范圍C、Python語言的縮進(jìn)可以采用Tab鍵實(shí)現(xiàn)D、判斷、循環(huán)、函數(shù)等語法形式能夠通過縮進(jìn)包含一批Python代碼,進(jìn)而表達(dá)對應(yīng)的語義【正確答案】:A解析:

Python語言采用嚴(yán)格的“縮進(jìn)”來表明程序的格式框架,縮進(jìn)可以用Tab鍵或者空格實(shí)現(xiàn)。5.Spark的劣勢是()。A、運(yùn)算速度快B、業(yè)務(wù)實(shí)現(xiàn)需要較少代碼C、提供很多現(xiàn)成函數(shù)D、需要更多機(jī)器內(nèi)存【正確答案】:D解析:

Spark采用的是內(nèi)存計(jì)算模式,需要的內(nèi)存較多。6.一元線性回歸方程y=0.7+0.82x,判定系數(shù)等于0.64,則x與y的相關(guān)系數(shù)為()。A、0.82B、0.64C、0.8D、0.7【正確答案】:C解析:

一元回歸分析中,自變量和因變量的相關(guān)系數(shù)的平方等于回歸模型的判定系數(shù)。所以,相關(guān)系數(shù)=sqrt(0.64)=0.8。7.MapReduce默認(rèn)的分區(qū)函數(shù)是()。A、hashB、diskC、reduceD、map【正確答案】:A解析:

MapReduce默認(rèn)的分區(qū)函數(shù)是hash。8.以下關(guān)于連接數(shù)組的描述,不正確的是()。A、concatenate連接沿現(xiàn)有軸的數(shù)組序列B、stack沿著新的軸加入一系列數(shù)組。C、vstack水平堆疊序列中的數(shù)組(列方向)D、hstack3D堆疊序列中的數(shù)組(行方向)【正確答案】:D解析:

hstack)為數(shù)組水平拼接。9.通?!奥湮檎摺笔怯绊慚apReduce總執(zhí)行時(shí)間的主要影響因素之一,為此MapReduce采用()機(jī)制來解決。A、分布式計(jì)算B、惰性計(jì)算C、推測性執(zhí)行的任務(wù)備份D、先進(jìn)先出【正確答案】:C解析:

MapReduce采用“推測性執(zhí)行的任務(wù)備份”機(jī)制,當(dāng)作業(yè)中大多數(shù)的任務(wù)都已經(jīng)完成時(shí),系統(tǒng)在幾個(gè)空閑的節(jié)點(diǎn)上調(diào)度執(zhí)行剩余任務(wù)的備份,并在多個(gè)Worker上同時(shí)進(jìn)行相同的剩余任務(wù)。10.PHOTO_PATH="./photo/{}.jpg"指令可以實(shí)現(xiàn)()。A、復(fù)制jpg文件到photo目錄下B、定義一個(gè)名為photo的存儲(chǔ)路徑C、打開photo里所有的jpg文件D、重命名目錄【正確答案】:B解析:

PHOTO_PATH="./photo/{}.jpg"指令可以實(shí)現(xiàn)定義一個(gè)名為photo的相對存儲(chǔ)路徑。11.以下關(guān)于Python模塊理解錯(cuò)誤的有()。A、模塊是包含函數(shù)和變量的Python文件B、不可以使用.操作符訪問模塊中的函數(shù)和變量C、可以導(dǎo)入模塊中的所有類D、可以在一個(gè)模塊中導(dǎo)入另一個(gè)模塊【正確答案】:B解析:

導(dǎo)入模塊后,可直接使用“模塊.函數(shù)名/變量名”訪問函數(shù)或變量。12.在Python文件操作中,使用關(guān)鍵字()可以在文件訪問后自動(dòng)將其關(guān)閉。A、assertB、breakC、nonlocalD、with【正確答案】:D解析:

在Python文件操作中,使用關(guān)鍵字with可以在文件訪問后自動(dòng)將其關(guān)閉。13.下列圖像邊緣檢測算子中抗噪性能最好的是()。A、梯度算子B、Prewitt算子C、Roberts算子D、Laplacian算子【正確答案】:B解析:

Prewitt算子是一種一階微分算子的邊緣檢測,利用像素點(diǎn)上下、左右鄰點(diǎn)的灰度差,在邊緣處達(dá)到極值檢測邊緣,去掉部分偽邊緣,對噪聲具有平滑作用。14.以下不屬于大數(shù)據(jù)在社會(huì)活動(dòng)中的典型應(yīng)用的是()。A、美團(tuán)實(shí)現(xiàn)了快速精準(zhǔn)的送餐服務(wù)B、共享單車、滴滴打車方便了人們的日常出行C、快遞實(shí)現(xiàn)了訂單的實(shí)時(shí)跟蹤D、供電公司提供電費(fèi)賬單查詢【正確答案】:D解析:

電費(fèi)賬單查詢屬于簡單報(bào)表查詢,用電情況分析、竊電行為分析、基于交易大數(shù)據(jù)分析用戶的購買習(xí)慣、基于傳感器感知的海量數(shù)據(jù)分析自然災(zāi)害的危害程度、基于搜索引擎的搜索關(guān)鍵詞分析社會(huì)熱點(diǎn)等屬于大數(shù)據(jù)應(yīng)用。15.下列哪種業(yè)務(wù)場景中,不能直接使用Reducer充當(dāng)Combiner使用()A、sum求和B、max求最大值C、count求計(jì)數(shù)D、avg求平均【正確答案】:D解析:

求平均需要對全部數(shù)據(jù)進(jìn)行計(jì)算而非部分?jǐn)?shù)據(jù),在不更改業(yè)務(wù)邏輯的情況,使用Reducer充當(dāng)Combiner,最終會(huì)造成業(yè)務(wù)結(jié)果不正確。16.()不是Spark服務(wù)層的功能。A、SQL查詢B、實(shí)時(shí)處理C、機(jī)器學(xué)習(xí)D、內(nèi)存計(jì)算【正確答案】:D解析:

Spark服務(wù)層主要提供面向特定類型的計(jì)算服務(wù),如SQL查詢、實(shí)時(shí)處理、機(jī)器學(xué)習(xí)以及圖計(jì)算。17.在回歸分析中,說法正確的是()。A、解釋變量和被解釋變量都是隨機(jī)變量B、解釋變量為非隨機(jī)變量,被解釋變量為隨機(jī)變量C、解釋變量和被解釋變量都為非隨機(jī)變量D、解釋變量為隨機(jī)變量,被解釋變量為非隨機(jī)變量【正確答案】:B解析:

在回歸分析中,解釋變量可以理解為自變量,具有確定性,因此為非隨機(jī)變量;被解釋變量可以理解為因變量,具有隨機(jī)性,因此為隨機(jī)變量。18.下列算法中:①K-NN最近鄰算法;②線性回歸;③邏輯回歸,可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建的算法是()。A、①②B、②③C、①②③D、以上都不是【正確答案】:B解析:

KNN是關(guān)于距離的學(xué)習(xí)算法,沒有任何參數(shù),所以無法用神經(jīng)網(wǎng)絡(luò)構(gòu)建。19.下列關(guān)于數(shù)據(jù)科學(xué)流程與方法的描述中,錯(cuò)誤的是()。A、數(shù)據(jù)科學(xué)的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)、數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見、結(jié)果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供B、對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過清洗成為規(guī)整數(shù)據(jù)C、數(shù)據(jù)分析包括描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析D、數(shù)據(jù)可視化會(huì)遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺假象【正確答案】:B解析:

對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過規(guī)整化處理(DataTyding)成為規(guī)整數(shù)據(jù)20.HBase依靠()存儲(chǔ)底層數(shù)據(jù)。A、HDFSB、HadoopC、MemoryD、MapReduce【正確答案】:A解析:

HBase位于結(jié)構(gòu)化存儲(chǔ)層,HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持。21.關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn),下面說法正確的是()。A、當(dāng)簇只包含少量數(shù)據(jù)點(diǎn)或者數(shù)據(jù)點(diǎn)近似協(xié)線性時(shí),混合模型也能很好地處理B、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇C、混合模型比K均值或模糊C均值更一般,因?yàn)樗梢允褂酶鞣N類型的分布D、混合模型在有噪聲和離群點(diǎn)時(shí)不會(huì)存在問題【正確答案】:C解析:

K均值與模糊C均值都是迭代求取最終值的聚類劃分,即聚類中心與隸屬度值。兩者都不能保證找到問題的最優(yōu)解,都有可能收斂到局部極值。模糊C均值是K均值方法的改進(jìn),算法的目標(biāo)函數(shù)與K均值一致,區(qū)別在于目標(biāo)函數(shù)中增加了模糊權(quán)重指數(shù);GMM高斯混合模型聚類采用了新的判斷依據(jù)——概率,即通過屬于某一類的概率大小來判斷最終的歸屬類別。22.Python安裝擴(kuò)展庫常用的是()工具。A、pyinstallB、pipC、popD、post【正確答案】:B解析:

略。23.下列表達(dá)式中[print(x,y,100-x-y)forxinrange(21)foryinrange(34)if(100-x-y)%3==0and5*x+3*y+(100-x-y)//3==100],第三次輸出的結(jié)果是()。A、41878B、42175C、81478D、81181【正確答案】:D解析:

執(zhí)行結(jié)果應(yīng)為:24.以下說法錯(cuò)誤的是()。A、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降的解時(shí)全局最優(yōu)解B、進(jìn)行PCA降維時(shí)需要計(jì)算協(xié)方差矩陣C、沿負(fù)梯度下降的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題【正確答案】:C解析:

梯度下降法并不是下降最快的方向,它只是目標(biāo)函數(shù)在當(dāng)前的點(diǎn)的切平面上下降最快的方向,可以說負(fù)梯度下降的方向一定是局部最優(yōu)的方向。25.關(guān)于PythonNumpy,、Scipy,、Pandas這些庫的區(qū)別,描述不對的是()。A、Numpy是以矩陣為基礎(chǔ)的數(shù)學(xué)計(jì)算模塊,純數(shù)學(xué)B、Scipy基于Numpy,科學(xué)計(jì)算庫,有一些高階抽象和物理模型C、Pandas提供了一套名為DataFrame的數(shù)據(jù)結(jié)構(gòu)D、三個(gè)模塊分別獨(dú)立【正確答案】:D解析:

模塊之間不是相互獨(dú)立的,例如Pandas和Scipy都基于Numpy。26.依托(),結(jié)合應(yīng)用推進(jìn)數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。A、全業(yè)務(wù)數(shù)據(jù)中心和數(shù)據(jù)平臺(tái)B、營銷基礎(chǔ)數(shù)據(jù)平臺(tái)和大數(shù)據(jù)平臺(tái)C、全業(yè)務(wù)中心和營銷基礎(chǔ)數(shù)據(jù)平臺(tái)D、全業(yè)務(wù)數(shù)據(jù)中心和大數(shù)據(jù)平臺(tái)【正確答案】:A解析:

詳見互聯(lián)數(shù)據(jù)〔2019〕14號《國網(wǎng)互聯(lián)網(wǎng)部關(guān)于加強(qiáng)數(shù)據(jù)管理的通知》。27.執(zhí)行下面操作后,list2的值是()。A、[4,5,6]B、[4,3,6]C、[4,5,3]D、以上答案都不正確【正確答案】:C解析:

賦值語句是淺復(fù)制操作,沒有復(fù)制子對象,所以原始數(shù)據(jù)改變,子對象會(huì)改變。28.關(guān)于Python布爾值,下列選項(xiàng)描述正確的是()。A、整型的0不可以表示FalseB、浮點(diǎn)型的0不可以表示FalseC、0+0j可以表示FalseD、布爾值不可以進(jìn)行算術(shù)運(yùn)算【正確答案】:C解析:

整型、浮點(diǎn)型0均可表示False,布爾值可參加運(yùn)算。29.關(guān)于Hive說法正確的是()。A、一種數(shù)據(jù)倉庫B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。30.彩色圖像增強(qiáng)時(shí),()處理可以采用RGB。A、直方圖均衡化B、同態(tài)濾波C、加權(quán)均值濾波D、中值濾波【正確答案】:C解析:

RGB是彩色圖像的三通道像素值,均值濾波進(jìn)行的是線性操作,不影響原本圖像的相對亮度。31.BP神經(jīng)網(wǎng)絡(luò)具有很的表示能力,它經(jīng)常遭遇(),其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。A、欠擬合B、誤差過大C、誤差過小D、過擬合【正確答案】:D解析:

由于其強(qiáng)大的表示能力,BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過擬合,其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。32.以下代碼的輸出結(jié)果為()。A、[[123][345][456]]B、3.6666666666667C、[2.666666673.666666674.66666667]D、[2.4.5.]【正確答案】:C解析:

對每列求均值。33.后剪枝是先從訓(xùn)練集生成一顆完整的決策樹,然后()對非葉結(jié)點(diǎn)進(jìn)行考察。A、自上而下B、在劃分前C、禁止分支展開D、自底向上【正確答案】:D解析:

--34.當(dāng)我們需要在一張圖表中特意指出某個(gè)特殊點(diǎn),并加上標(biāo)注達(dá)到醒目的目的時(shí),需要用到()函數(shù)。A、plt.axvspan)B、plt.axhspan)C、plt.annotate)D、plt.text)【正確答案】:C解析:

annotate為圖的某個(gè)位置添加注解。35.sklearn.cluster模塊實(shí)現(xiàn)的了哪個(gè)功能是()。A、集群B、降維C、回歸D、聚類【正確答案】:D解析:

sklearn.cluster模塊收集了流行的無監(jiān)督聚類算法,包括K-means,、密度聚據(jù)類,、層次聚類等。36.在python中可以通過調(diào)用random庫來產(chǎn)生隨機(jī)數(shù)。a=random.randint(1,99),并賦值給變量a。以下描述正確的是()。A、隨機(jī)產(chǎn)生一個(gè)1~~99的小數(shù);B、隨機(jī)產(chǎn)生一個(gè)1~~99的整數(shù);C、產(chǎn)生一個(gè)值為99的整數(shù);D、隨機(jī)產(chǎn)生一個(gè)1~~99的無理數(shù);【正確答案】:B解析:

randint)函數(shù)用來生成閉區(qū)間的整數(shù)。37.以下關(guān)于隨機(jī)森林的說法正確的是()。A、隨機(jī)森林對于高維數(shù)據(jù)集的處理能力比較好B、在對缺失數(shù)據(jù)進(jìn)行估計(jì)時(shí),隨機(jī)森林是一個(gè)十分有效的方法C、當(dāng)存在分類不平衡的情況時(shí),隨機(jī)森林能夠提供平衡數(shù)據(jù)集誤差的有效方法D、以上答案都正確【正確答案】:D解析:

隨機(jī)森林對于高維數(shù)據(jù)集的處理能力比較好,在對缺失數(shù)據(jù)進(jìn)行估計(jì)時(shí),隨機(jī)森林是一個(gè)十分有效的方法,當(dāng)存在分類不平衡的情況時(shí),隨機(jī)森林能夠提供平衡數(shù)據(jù)集誤差的有效方法。38.()負(fù)責(zé)MapReduce任務(wù)調(diào)度。A、NameNodeB、JobtrackerC、TaskTrackerD、SecondaryNameNode【正確答案】:B解析:

Jobtracker負(fù)責(zé)MapReduce任務(wù)調(diào)度,TaskTracker負(fù)責(zé)任務(wù)執(zhí)行。39.下列屬于卷積網(wǎng)絡(luò)類型分類的是()。A、普通卷積B、擴(kuò)張卷積C、轉(zhuǎn)置卷積D、以上答案都正確【正確答案】:D解析:

卷積神經(jīng)網(wǎng)絡(luò)四種卷積類型為普通卷積、擴(kuò)張卷積、轉(zhuǎn)置卷積、可分離卷積。40.連續(xù)不斷地爬取網(wǎng)頁信息,較容易被網(wǎng)站識(shí)別,想要實(shí)現(xiàn)間隔15s來爬取網(wǎng)頁需要使用以下哪一項(xiàng)的指令是()。A、timestop(5)B、timesleep(15)C、timestrptime(15)D、timesleep(5)【正確答案】:B解析:

連續(xù)不斷地爬取網(wǎng)頁信息,較容易被網(wǎng)站識(shí)別,想要實(shí)現(xiàn)間隔15s來爬取網(wǎng)頁需要使用timesleep(15)。41.將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為()。A、編輯器B、編譯器C、虛擬機(jī)D、解釋器【正確答案】:B解析:

將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為編譯器。42.()算法是決策樹學(xué)習(xí)的基本算法,其他多數(shù)決策樹學(xué)習(xí)方法都是它的變體。A、Find-SB、KNNC、概念D、ID3【正確答案】:D解析:

--43.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉(zhuǎn)移函數(shù)加上一常數(shù)量以便引入一些低頻分量。這樣濾波器叫()。A、巴特沃斯高通濾波器B、高頻提升濾波器C、高頻加強(qiáng)濾波器D、理想高通濾波器【正確答案】:B解析:

高頻增強(qiáng)濾波器由于相對削弱了低頻成分,因而濾波所得的圖像往往偏暗。44.下列選項(xiàng)中,用于關(guān)閉文件的方法是()。A、read)B、tell)C、seek)D、close)【正確答案】:D解析:

read)為讀取操作;tell)函數(shù)用于判斷文件指針當(dāng)前所處的位置操作;seek)為用于將文件指針移動(dòng)至指定位置操作;close)為關(guān)閉文件操作。45.以下分割方法中不屬于區(qū)域算法的是()。A、分裂合并B、閾值分割C、區(qū)域生長D、邊緣檢測【正確答案】:D解析:

邊緣檢測算法是標(biāo)識(shí)數(shù)字圖像中亮度變化明顯的點(diǎn),不屬于區(qū)域算法發(fā)范疇。46.關(guān)于__new__和__init__的區(qū)別,下列說法不正確的是()。A、__new__是一個(gè)實(shí)例方法,而__init__是一個(gè)靜態(tài)方法B、__new__方法會(huì)返回一個(gè)創(chuàng)建的實(shí)例,而__init__什么都不返回C、只有在__new__返回一個(gè)cls的實(shí)例時(shí),后面的__init__才能被調(diào)用D、當(dāng)創(chuàng)建一個(gè)新實(shí)例時(shí)調(diào)用__new__,初始化一個(gè)實(shí)例時(shí)用__init__【正確答案】:A解析:

__init__是一個(gè)實(shí)例方法,而__new__是一個(gè)靜態(tài)方法。47.關(guān)于文件的打開方式,以下選項(xiàng)中描述正確的是()。A、文件只能選擇二進(jìn)制或文本方式打開B、文本文件只能以文本方式打開C、所有文件都可能以文本方式打開D、所有文件都可能以二進(jìn)制方式打開【正確答案】:D解析:

計(jì)算機(jī)內(nèi)保存數(shù)據(jù)是以二進(jìn)制保存的,因此都能用二進(jìn)制方式打開讀取。48.()負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。A、NameNodeB、JobTrackerC、DataNodeD、SecondaryNameNode【正確答案】:C解析:

DataNode負(fù)責(zé)HDFS的數(shù)據(jù)塊存儲(chǔ)。49.為了提高系統(tǒng)性能,Spark采取“惰性計(jì)算模式”,具體為()。A、執(zhí)行Transformation操作時(shí)不會(huì)提交,只有執(zhí)行Action操作時(shí)才會(huì)被提交到集群中開始被執(zhí)行B、執(zhí)行Action操作時(shí)不會(huì)提交,只有執(zhí)行Transformation操作時(shí)才會(huì)被提交到集群中開始被執(zhí)行C、只有執(zhí)行完Action操作和Transformation操作時(shí),所有操作才會(huì)被提交到集群中開始被執(zhí)行D、執(zhí)行完Action操作或Transformation操作時(shí)都不會(huì)提交到集群【正確答案】:A解析:

Spark“惰性計(jì)算模式”定義。50.當(dāng)在卷積神經(jīng)網(wǎng)絡(luò)中加入池化層(poolinglayer)時(shí),變換的不變性會(huì)被保留。該說法()正確。A、不知道B、看情況C、是D、否【正確答案】:C解析:

使用池化時(shí)會(huì)導(dǎo)致出現(xiàn)不變性。51.PageRank是一個(gè)函數(shù),它對Web中的每個(gè)網(wǎng)頁賦予一個(gè)實(shí)數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】:D解析:

PageRank認(rèn)為,如果A頁面有一個(gè)鏈接指向B頁面,那就可以看作是A頁面對B頁面的一種信任或推薦。所以,如果一個(gè)頁面的反向鏈接越多,根據(jù)這些鏈接的價(jià)值加權(quán)越高,那搜索引擎就會(huì)判斷這樣的頁面更為重要。52.關(guān)于數(shù)據(jù)創(chuàng)新,下列說法正確的是()。A、個(gè)數(shù)據(jù)集的總和價(jià)值等于單個(gè)數(shù)據(jù)集價(jià)值相加B、于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去C、同數(shù)據(jù)多次用于相同或類似用途,其有效性會(huì)降低D、數(shù)據(jù)開放價(jià)值可以得到真正釋放【正確答案】:D解析:

略。53.如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則【正確答案】:C解析:

--54.()操作屬于預(yù)剪枝。A、信息增益B、計(jì)算最好的特征切分點(diǎn)C、限制樹模型的深度D、可視化樹模型【正確答案】:C解析:

預(yù)剪枝是指在決策樹生成過程中,對每個(gè)結(jié)點(diǎn)在劃分前先進(jìn)行估計(jì),若當(dāng)前結(jié)點(diǎn)的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)。限制樹模型的深度屬于預(yù)剪枝。55.數(shù)據(jù)安全不只是技術(shù)問題,還涉及()。A、人員問題B、管理問題C、行政問題D、領(lǐng)導(dǎo)問題【正確答案】:B解析:

數(shù)據(jù)安全不只是技術(shù)問題,還涉及管理問題。56.以下可以作為文本分類準(zhǔn)則的是()。A、預(yù)測準(zhǔn)確率B、魯棒性C、可擴(kuò)展性D、以上答案都正確【正確答案】:D解析:

文本分類準(zhǔn)則包含預(yù)測準(zhǔn)確性,魯棒性和可擴(kuò)展性。57.在linux下預(yù)裝了Python2,、Python3且默認(rèn)Python版本為Python3,下列描述可以正確啟動(dòng)Python有的是()。A、在linux應(yīng)用程序Terminal,打開一個(gè)終端窗口。輸入whichPythonB、在linux應(yīng)用程序Terminal,打開一個(gè)終端窗口。輸入Python2或Python3C、在linux應(yīng)用程序Terminal,打開一個(gè)終端窗口。輸入whichPython3D、在linux應(yīng)用程序Terminal,打開一個(gè)終端窗口。輸入輸入whichPython2【正確答案】:B解析:

Windows系統(tǒng)下通過在命令行直接輸入python2或者python3啟動(dòng)Python,;Linux系統(tǒng)下通過在Terminal輸入python2或者python3啟動(dòng)Python。58.以下代碼的輸出結(jié)果為()。A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]【正確答案】:A解析:

vstack)為數(shù)組垂直拼接。59.訓(xùn)練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分類。該說法()。A、正確B、錯(cuò)誤C、-D、-【正確答案】:A解析:

--60.文本信息往往包含客觀事實(shí)和主觀情感,對于文本的情感分析主要是識(shí)別文章中的主觀類詞語,其中()不適用于情感分析。A、表達(dá)觀點(diǎn)的關(guān)鍵詞B、表達(dá)程度的關(guān)鍵詞C、表達(dá)情緒的關(guān)鍵詞D、表達(dá)客觀事實(shí)的關(guān)鍵詞【正確答案】:D解析:

D中表達(dá)客觀事實(shí)的關(guān)鍵詞是對事物的客觀性描述,不帶有感情色彩和情感傾向,即為客觀性文本,不適用于情感分析。而主觀性文本則是作者對各種事物的看法或想法,帶有作者的喜好厭惡等情感傾向,如ABC中表觀點(diǎn)、程度和情緒的關(guān)鍵詞都是帶有情感傾向的主觀性文本,適用于情感分析。61.()先對數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器。A、過濾式選擇B、包裹式選擇C、稀疏表示D、嵌入式選擇【正確答案】:A解析:

--62.sklearn庫中對數(shù)據(jù)進(jìn)行預(yù)處理和規(guī)范化主要依靠()模塊。A、neighbors模塊B、preprocessing模塊C、pipeline模塊D、datasets模塊【正確答案】:B解析:

sklearn.preprocessing模塊包括縮放,、居中,、歸一化,、二值化和插補(bǔ)方法,主要是對數(shù)據(jù)進(jìn)行預(yù)處理和規(guī)范化。63.在pandas中,哪一個(gè)函數(shù)()可以統(tǒng)計(jì)Series每個(gè)唯一值出現(xiàn)的次數(shù)()。A、nunique)B、unique)C、sort_values)D、value_counts)【正確答案】:D解析:

value_counts)可以統(tǒng)計(jì)每個(gè)唯一值出現(xiàn)的次數(shù),unique)可以查看有哪些唯一值,nunique)可以統(tǒng)計(jì)唯一值的數(shù)量,sort_values)是按值進(jìn)行排序。64.()不可以直接來對文本分類。A、K-meansB、決策樹C、支持向量機(jī)D、KNN【正確答案】:A解析:

K-means是聚類方法,屬于無監(jiān)督學(xué)習(xí)。BCD都是常見的分類方法。65.下列關(guān)于聚類挖掘技術(shù)的說法中,錯(cuò)誤的是()。A、不預(yù)先設(shè)定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別B、要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小C、要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小D、與分類挖掘技術(shù)相似的是,都是要對數(shù)據(jù)進(jìn)行分類處理【正確答案】:B解析:

聚類挖掘技術(shù)中要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小。66.在線性回歸問題中,我們用R方來衡量擬合的好壞。在線性回歸模型中增加特征值并再訓(xùn)練同一模型。下列說法正確的是()。A、如果R方上升,則該變量是顯著的B、如果R方下降,則該變量不顯著C、單單R方不能反映變量重要性,不能就此得出正確結(jié)論D、以上答案都不正確【正確答案】:C解析:

單單R方不能表示變量顯著性,因?yàn)槊看渭尤胍粋€(gè)特征值,R方都會(huì)上升或維持不變。但在調(diào)整R方的情況下這也有誤(如果特征值顯著的話,調(diào)整R方會(huì)上升)。67.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動(dòng))價(jià)值鏈和信息技術(shù)價(jià)值鏈B、信息技術(shù)價(jià)值鏈和信息(活動(dòng))價(jià)值鏈C、信息交互價(jià)值鏈和信息技術(shù)價(jià)值鏈D、信息(活動(dòng))價(jià)值鏈和信息交互價(jià)值鏈【正確答案】:A解析:

大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價(jià)值鏈的信息價(jià)值鏈(水平軸)和信息技術(shù)價(jià)值鏈(垂直軸)兩個(gè)維度組織展開68.egrate模塊的主要作用是()。A、里面有各種特殊的數(shù)學(xué)函數(shù),可以直接調(diào)用,如貝塞爾函數(shù)B、可以求多重積分,高斯積分,解常微分方程C、包括樣條插值,卷積,差分等濾波函數(shù)D、提供各種線性代數(shù)中的常規(guī)操作【正確答案】:B解析:

egrate模塊是積分模塊,可以求多重積分,、高斯積分,解常微分方程等。69.下列()不屬于Statsmodels模塊的主要特點(diǎn)的是()。A、線性模型B、方差分析C、時(shí)間序列D、插值運(yùn)算【正確答案】:D解析:

插值運(yùn)算不是統(tǒng)計(jì)分析的主要內(nèi)容。70.數(shù)據(jù)可視化的基本類型是()。A、科學(xué)可視化、信息可視化、可視分析學(xué)B、物理可視化、數(shù)字可視化、化學(xué)可視化C、科學(xué)可視化、數(shù)字可視化、可視分析學(xué)D、科學(xué)可視化、信息可視化、文本可視化【正確答案】:A解析:

大數(shù)據(jù)可視化可以說是傳統(tǒng)數(shù)據(jù)可視化的一個(gè)繼承和延伸,它是指將大規(guī)模海量數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。大數(shù)據(jù)可視化是大數(shù)據(jù)整個(gè)過程的最后環(huán)節(jié),也是非常重要的一個(gè)環(huán)節(jié)。71.關(guān)于bagging下列說法錯(cuò)誤的是()。A、各基分類器之間有較強(qiáng)依賴,不可以進(jìn)行并行訓(xùn)練B、最著名的算法之一是基于決策樹基分類器的隨機(jī)森林C、當(dāng)訓(xùn)練樣本數(shù)量較少時(shí),子集之間可能有重疊D、為了讓基分類器之間互相獨(dú)立,需要將訓(xùn)練集分為若干子集【正確答案】:A解析:

Bagging方法在訓(xùn)練過程中,各基分類器之間無強(qiáng)依賴,可以進(jìn)行并行訓(xùn)練,隨機(jī)森林就是一種典型的例子。72.線性模型中的權(quán)重w值可以看做各個(gè)屬性x的()。A、正則化系數(shù)B、對最終決策結(jié)果的貢獻(xiàn)度C、高維映射D、取值【正確答案】:B解析:

--73.a=[[1.,2.,1.],[1.,2.,1.]],a+3的值為()。A、[[1,2,1],[4,5,4]]B、[[4,5,4],[4,5,4]]C、[[4,5,4],[1,2,1]]D、以上答案都不正確【正確答案】:D解析:

列表不能和數(shù)字相加,因此會(huì)報(bào)錯(cuò)。74.Matplotlib的核心是面向()。A、過程B、對象C、結(jié)果D、服務(wù)【正確答案】:B解析:

Matplotlib的核心是面向?qū)ο蟮摹H绻枰嗫刂坪妥远x圖,我們建議直接使用對象。75.IDLE環(huán)境的退出命令是()。A、exit)B、回車鍵C、close)D、esc)【正確答案】:A解析:

IDLE使用exit)退出環(huán)境。76.卷積神經(jīng)網(wǎng)絡(luò)能通過卷積以及池化等操作將不同種類的鳥歸為一類。關(guān)于卷積神經(jīng)網(wǎng)絡(luò)能達(dá)到該效果的原因,下列說法不正確的是()。A、同樣模式的內(nèi)容(如鳥嘴)在圖像不同位置可能出現(xiàn)B、池化之后的圖像主體內(nèi)容基本不變C、不同種類鳥的相同部位(如鳥嘴)形狀相似D、池化作用能使不同種類鳥變得相似【正確答案】:D解析:

特征維數(shù)的減少并不會(huì)讓之前的特征丟失。77.考慮值集{12243324556826},其四分位數(shù)極差是:()。A、21B、24C、55D、3【正確答案】:A解析:

四分位差,也稱為內(nèi)距或四分間距,它是上四分位數(shù)(QU,即位于75%)與下四分位數(shù)(QL,即位于25%)的差。計(jì)算公式為:QD=QU-QL。將數(shù)據(jù)從小到大排序,可得到QU=33,QL=12,因此QD=QU-QL=2178.K折交叉驗(yàn)證器是以下哪個(gè)()方法()。A、model_selection.GroupKFold)B、model_selection.GroupShuffleSplit)C、model_selection.KFold)D、model_selection.RepeatedKFold)【正確答案】:C解析:

model_selection.KFold)實(shí)現(xiàn)了K折交叉驗(yàn)證功能。79.RNN不同于其他神經(jīng)網(wǎng)絡(luò)的地方在于()。A、實(shí)現(xiàn)了記憶功能B、速度快C、精度高D、易于搭建【正確答案】:A解析:

--80.Python中statsmodels庫適用于()場景。A、統(tǒng)計(jì)分析B、機(jī)器學(xué)習(xí)C、圖像處理D、數(shù)據(jù)建模【正確答案】:A解析:

Statsmodelsstatsmodels用于統(tǒng)計(jì)分析。81.在比較模型的擬合效果時(shí),甲、乙、丙三個(gè)模型的相關(guān)指數(shù)R2的值分別約為0.71、0.85、0.90,則擬合效果較好的模型是()。A、甲B、乙C、丙D、效果一樣【正確答案】:C解析:

R2的取值為0~1,越靠近1,擬合效果越好。82.所有預(yù)測模型在廣義上都可稱為一個(gè)或一組()。A、公式B、邏輯C、命題D、規(guī)則【正確答案】:D解析:

--83.給定一個(gè)長度為n的不完整單詞序列,我們希望預(yù)測下一個(gè)字母是什么。比如輸入是predictio(9個(gè)字母組成),希望預(yù)測第十個(gè)字母是什么。()適用于解決這個(gè)工作。A、循環(huán)神經(jīng)網(wǎng)絡(luò)B、全連接神經(jīng)網(wǎng)絡(luò)C、受限波爾茲曼機(jī)D、卷積神經(jīng)網(wǎng)絡(luò)【正確答案】:A解析:

循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備,因此在對序列的非線性特征進(jìn)行學(xué)習(xí)時(shí)具有一定優(yōu)勢。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語言處理(NaturalLanguageProcessing,NLP),例如語音識(shí)別、語言建模、機(jī)器翻譯等領(lǐng)域有應(yīng)用,也被用于各類時(shí)間序列預(yù)報(bào)。84.機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好稱為()。A、訓(xùn)練偏好B、歸納偏好C、分析偏好D、假設(shè)偏好【正確答案】:B解析:

--85.數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要特別注意的基本活動(dòng)不包括()。A、創(chuàng)造性設(shè)計(jì)B、數(shù)據(jù)洞見C、虛擬化D、個(gè)性化描述【正確答案】:D解析:

數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要注意有創(chuàng)造性設(shè)計(jì)、數(shù)據(jù)洞見、虛擬化等基本活動(dòng)。86.多分類LDA將樣本投影到N-1維空間,N-1通常遠(yuǎn)小于數(shù)據(jù)原有的屬性數(shù),可通過這個(gè)投影來減小樣本點(diǎn)的維數(shù),且投影過程中使用了類別信息,因此LDA也常被視為一種經(jīng)典的()技術(shù)。A、無監(jiān)督特征選擇B、無監(jiān)督降維C、監(jiān)督特征選擇D、監(jiān)督降維【正確答案】:D解析:

--87.以下可以作為文本分類準(zhǔn)則的是()。A、預(yù)測準(zhǔn)確率B、魯棒性C、可擴(kuò)展性D、以上答案都正確【正確答案】:D解析:

文本分類準(zhǔn)則包含預(yù)測準(zhǔn)確性,魯棒性和可擴(kuò)展性。88.檢測一元正態(tài)分布中的離群點(diǎn),屬于異常檢測中的基于()的離群點(diǎn)檢測。A、統(tǒng)計(jì)方法B、鄰近度C、密度D、機(jī)器學(xué)習(xí)技術(shù)【正確答案】:A解析:

略。89.在深度學(xué)習(xí)中,我們經(jīng)常會(huì)遇到收斂到localminimum,下面不屬于解決localminimum問題的方法是()。A、隨機(jī)梯度下降B、設(shè)置MomentumC、設(shè)置不同初始值D、增大batchsize【正確答案】:D解析:

增大batchsize無法解決localminimum問題。90.os.path模塊的下列方法,()可以用來判斷指定路徑是否存在。A、exists)B、exist)C、getsize)D、isfile)【正確答案】:A解析:

判斷指定路徑是否存在使用exists)函數(shù)。91.下列有關(guān)函數(shù)的說法中,正確的是()。A、函數(shù)的定義必須在程序的開頭B、函數(shù)定義后,其中的程序就可以自動(dòng)執(zhí)行C、函數(shù)定義后需要調(diào)用才會(huì)執(zhí)行D、函數(shù)體與關(guān)鍵字關(guān)鍵字關(guān)鍵字def必須左對齊【正確答案】:C解析:

函數(shù)的定義只要出現(xiàn)在調(diào)用之前即可;函數(shù)定義后需調(diào)用才可以執(zhí)行;函數(shù)定義時(shí)主體語句應(yīng)縮進(jìn)4個(gè)空格。92.下列關(guān)于文本分類的說法不正確的是()。A、文本分類是指按照預(yù)先定義的主題類別,由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類別B、文本分類系統(tǒng)大致可分為基于知識(shí)工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟【正確答案】:C解析:

詞袋模型沒有考慮文本詞語的原本行文順序。93.在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,感知機(jī)輸出層中的M-P神經(jīng)元通常被稱為()。A、閾值邏輯單元B、激活函數(shù)C、擠壓函數(shù)D、連接函數(shù)【正確答案】:A解析:

--94.Python語句print(0xA+0xB)的輸出結(jié)果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】:D解析:

0x是16進(jìn)制運(yùn)算,0xA+0xB換為十進(jìn)制為10+11=21。95.任一隨機(jī)事件出現(xiàn)的概率為()。A、在–1與1之間B、小于0C、不小于1D、在0與1之間【正確答案】:D解析:

如果沒有其他的附加條件的話,一般概率P的取值范圍是0≤P≤1。0代表不可能發(fā)生,1代表一定會(huì)發(fā)生。96.np.linalg.svd)函數(shù)可以實(shí)現(xiàn)()功能。A、計(jì)算協(xié)方差矩陣B、實(shí)現(xiàn)奇異值分解C、計(jì)算方差D、計(jì)算均值;【正確答案】:B解析:

svd實(shí)現(xiàn)奇異值分解。97.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程為y=7.19x+73.93,據(jù)此可以預(yù)測這個(gè)孩子10歲時(shí)的身高,則正確的敘述是()。A、身高一定是145.83cmB、身高一定超過146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正確答案】:D解析:

回歸直線方程預(yù)測時(shí),出現(xiàn)的誤差方向不能確定。98.線性回歸的基本假設(shè)不包括()。A、隨機(jī)誤差項(xiàng)是一個(gè)期望值為0的隨機(jī)變量B、對于解釋變量的所有觀測值,隨機(jī)誤差項(xiàng)有相同的方差C、隨機(jī)誤差項(xiàng)彼此相關(guān)D、解釋變量是確定性變量不是隨機(jī)變量,與隨機(jī)誤差項(xiàng)之間相互獨(dú)立【正確答案】:C解析:

線性回歸的基本假設(shè):(1)線性關(guān)系假設(shè)。(2)正態(tài)性假設(shè),指回歸分析中的Y服從正態(tài)分布。(3)獨(dú)立性假設(shè),包含兩個(gè)意思:①與某一個(gè)X對應(yīng)的一組Y和與另一個(gè)X對應(yīng)的一組Y之間沒有關(guān)系,彼此獨(dú)立;②誤差項(xiàng)獨(dú)立,不同的X所產(chǎn)生的誤差之間應(yīng)相互獨(dú)立,無自相關(guān)。(4)誤差等分散性假設(shè):特定X水平的誤差,除了應(yīng)呈隨機(jī)化的常態(tài)分配,其變異量也應(yīng)相等,稱為誤差等分散性。99.scipy庫中用于物理和數(shù)學(xué)常量計(jì)算的模塊是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg【正確答案】:C解析:

scipy中,constants是常量計(jì)算模塊。100.Python中定義私有屬性的方法是()。A、使用private關(guān)鍵字B、使用public關(guān)鍵字C、使用__XX__定義屬性名D、使用__XX定義屬性名【正確答案】:D解析:

使用__XX定義屬性名是定義私有屬性的方法。1.對于不同場景內(nèi)容,一般數(shù)字圖像可以分為()。A、二值圖像B、灰度圖像C、彩色圖像D、深度圖像【正確答案】:ABC解析:

深度圖像中深度通道為描述距離,一般對其進(jìn)行采樣或數(shù)值離散化。2.CNN相比于全連接的DNN,具有的優(yōu)勢是()。A、參數(shù)更少B、泛化更好C、訓(xùn)練更快D、更容易搭建【正確答案】:ABC解析:

DNN直接對數(shù)據(jù)做加權(quán)線性連接,而CNN則是移動(dòng)卷積核,并對圖像中的各區(qū)域做卷積操作。因此,DNN更容易搭建,D錯(cuò)誤。3.直方圖修正法包括()。A、直方圖統(tǒng)計(jì)B、直方圖均衡C、直方圖過濾D、直方圖規(guī)定化【正確答案】:BD解析:

直方圖統(tǒng)計(jì)是對圖像特征值的統(tǒng)計(jì);直方圖過濾屬于圖像處理技術(shù)。4.訓(xùn)練CNN時(shí),GPU顯存溢出,此時(shí)可以采取的辦法有()。A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函數(shù)【正確答案】:ABC解析:

增加激活函數(shù)反而會(huì)加重負(fù)擔(dān),D選項(xiàng)錯(cuò)誤。5.任何函數(shù)都可以修改,所以盡量少用全局變量,主要原因包括()。A、不夠安全B、一直占用內(nèi)存C、容易失效D、一直占用字符【正確答案】:AB解析:

全局變量安全性差、相關(guān)內(nèi)存一直無法釋放。6.Numpy數(shù)組中將一個(gè)數(shù)組分割成多個(gè)小數(shù)組數(shù)組的分割函數(shù)包括()。A、hsplitBB、vsplitCC、splitDD、dsplit【正確答案】:ABCD解析:

以上都是分割函數(shù),分別為水平分割,、數(shù)值分割,、通用分割,、深度分割。7.下列對字符串函數(shù)或方法說法正確的有()。A、istitle)如果字符串是標(biāo)題化的(見title)則返回True,否則返回FalseB、max(str)返回字符串str中最大的字母。C、replace(old,new,max)把將字符串中的str1替換成str2,如果max指定,則替換不超過max次D、upper)轉(zhuǎn)換字符串中所有大寫字符為小寫【正確答案】:ABC解析:

upper)轉(zhuǎn)換字符串中所有小寫字符為大寫。8.ApacheFlume主要解決的是日志數(shù)據(jù)的收集和處理問題,F(xiàn)lume的主要設(shè)計(jì)目的和特征是()。A、高可靠性B、可擴(kuò)展性C、管理復(fù)雜D、不支持用戶自定義【正確答案】:AB解析:

Flume的主要設(shè)計(jì)目的和特征包括高可靠性、可擴(kuò)展性、支持方便管理、支持用戶自定義。9.下面關(guān)于隨機(jī)變量及其概率分布的說法,正確的是()。A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:

扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。10.常用分詞方法包含()。A、基于Binarytree的分詞方法B、基于HMM的分詞方法C、基于CRF的分詞方法D、基于K-means的分詞方法【正確答案】:BC解析:

K-means一般用于聚類,Binarytree(二叉樹)也不用于分詞。11.下列關(guān)于數(shù)據(jù)科學(xué)中常用的統(tǒng)計(jì)學(xué)知識(shí)說法錯(cuò)誤的是()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計(jì)的數(shù)據(jù)分析方法又可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)C、描述統(tǒng)計(jì)可分為集中趨勢分析、離中趨勢分析、參數(shù)估計(jì)和假設(shè)檢驗(yàn)D、推斷統(tǒng)計(jì)包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:

從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法包括描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計(jì)可分為集中趨勢分析和離散趨勢分析;推斷統(tǒng)計(jì)包括總體參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩方面內(nèi)容。12.可能導(dǎo)致交叉檢驗(yàn)?zāi)P驮u估較差可能是由于()的原因?qū)е碌挠校ǎ、模型過擬合B、模型欠擬合C、模型過度復(fù)雜D、模型過度簡單【正確答案】:ABCD解析:

以上問題都可能導(dǎo)致模型評估效果較差。13.關(guān)于Hive的說法正確的是()。A、Hive是基于Hadoop的數(shù)據(jù)倉庫工具B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表C、最初,Hive由Google開源,用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計(jì)問題D、Hive的主要應(yīng)用場景是離線分析【正確答案】:ABD解析:

Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術(shù)是GFS、BigTable、MapReduce。14.Spark容錯(cuò)性的方式有哪些()。A、數(shù)據(jù)檢查點(diǎn)B、存儲(chǔ)原始數(shù)據(jù)C、記錄數(shù)據(jù)的更新D、自建數(shù)據(jù)版本【正確答案】:AC解析:

Spark容錯(cuò)性有數(shù)據(jù)檢查點(diǎn)和記錄數(shù)據(jù)的更新兩種方式。15.卷積神經(jīng)網(wǎng)絡(luò)為了保證圖像對位移、縮放、扭曲的魯棒性,可采取的措施有()。A、局部感受野B、共享權(quán)值C、池采樣D、正則化【正確答案】:ABC解析:

正則化是為了減少泛化誤差。16.對以下代碼說法正確的是()。A、該圖表是一個(gè)藍(lán)綠色的散點(diǎn)圖B、圖表中有紅色實(shí)線的網(wǎng)格線C、圖表中有圖例D、該圖畫的是sin曲線【正確答案】:CD解析:

該圖畫的是點(diǎn)虛線形式的折線圖,紅色點(diǎn)線網(wǎng)格,帶有圖例。17.下面關(guān)于單樣本Z檢驗(yàn)的說法,正確的是()。A、在Python中,單樣本Z檢驗(yàn)可以使用scipy.stats.ttest_1samp()實(shí)現(xiàn)B、單樣本Z檢驗(yàn)適用于樣本量較大的情況C、單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量(近似)滿足正態(tài)分布D、單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個(gè)常量【正確答案】:BCD解析:

在Python中,單樣本Z檢驗(yàn)可以使用statsmodels.stats.weightstats.ztest實(shí)現(xiàn)。18.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較,說法正確的是()。A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B、歸納學(xué)習(xí)論證方式為統(tǒng)計(jì)推理,分析學(xué)習(xí)為演繹推理C、歸納學(xué)習(xí)不需要先驗(yàn)知識(shí)D、訓(xùn)練數(shù)據(jù)不足時(shí)歸納學(xué)習(xí)可能會(huì)失敗【正確答案】:ABCD解析:

分析學(xué)習(xí)是相對于歸納學(xué)習(xí)的一種提法,其特點(diǎn)是使用先驗(yàn)知識(shí)來分析或解釋每個(gè)訓(xùn)練樣本,以推理出樣本的哪些特征與目標(biāo)函數(shù)相關(guān)或不相關(guān)。因此,這些解釋能使機(jī)器學(xué)習(xí)系統(tǒng)比單獨(dú)依靠數(shù)據(jù)進(jìn)行泛化有更高的精度。分析學(xué)習(xí)使用先驗(yàn)知識(shí)來減小待搜索假設(shè)空間的復(fù)雜度,減小了樣本復(fù)雜度并提高了機(jī)器學(xué)習(xí)系統(tǒng)的泛化精度。可見,分析學(xué)習(xí)與歸納學(xué)習(xí)的優(yōu)缺點(diǎn)在一定程度上具有互補(bǔ)性,分析學(xué)習(xí)方法的優(yōu)點(diǎn)在于可用先驗(yàn)知識(shí)從較少的數(shù)據(jù)中更精確地泛化以引導(dǎo)學(xué)習(xí)。但是,當(dāng)先驗(yàn)知識(shí)不正確或不足時(shí),分析學(xué)習(xí)的缺點(diǎn)也會(huì)被突顯;歸納學(xué)習(xí)具有的優(yōu)點(diǎn)是不需要顯式的先驗(yàn)知識(shí),并且主要基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)到規(guī)律。然而,若訓(xùn)練數(shù)據(jù)不足時(shí)它能會(huì)失敗,并且會(huì)被其中隱式的歸納偏置所誤導(dǎo),而歸納偏置是從觀察數(shù)據(jù)中泛化所必需的過程。因此,我們可以考慮如何將二者結(jié)合成一個(gè)單獨(dú)的算法,以獲得它們各自的優(yōu)點(diǎn)。19.RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是Sigmod的原因有()。A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜C、雙曲正切更簡單D、Sigmoid函數(shù)實(shí)現(xiàn)較為復(fù)雜【正確答案】:AB解析:

第一,采用Sigmoid等函數(shù),反向傳播求誤差梯度時(shí),求導(dǎo)計(jì)算量很大,而ReLU求導(dǎo)非常容易。第二,對于深層網(wǎng)絡(luò),Sigmoid函數(shù)反向傳播時(shí),很容易就會(huì)出現(xiàn)梯度消失的情況(在Sigmoid接近飽和區(qū)時(shí),變換太緩慢,導(dǎo)數(shù)趨于0),從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練。20.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評估B、主動(dòng)定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)D、應(yīng)對并解決因不遵守規(guī)則而產(chǎn)生的問題【正確答案】:BCD解析:

DGI(TheDataGovermanceInstitute)認(rèn)為數(shù)據(jù)治理是對數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動(dòng)。它是一個(gè)信息處理過程中根據(jù)模型來執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。21.決策樹遞歸停止的條件為()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標(biāo)簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:

決策樹的生成是一個(gè)遞歸過程。在決策樹基本算法中,有三種情形會(huì)導(dǎo)致遞歸返回:①結(jié)點(diǎn)包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前結(jié)點(diǎn)包含的樣本集合為空,不能劃分。22.在MapReduce1.0版本中,JobTracker功能是()。A、資源管理B、作業(yè)控制C、作業(yè)存儲(chǔ)D、作業(yè)審核【正確答案】:AB解析:

在MapReduce1.0中,JobTracker同時(shí)兼?zhèn)淞速Y源管理和作業(yè)控制兩個(gè)功能。23.下列哪些是傳統(tǒng)RDBMS的缺點(diǎn)()。A、表結(jié)構(gòu)schema擴(kuò)展不方便B、全文搜索功能較弱C、大數(shù)據(jù)場景下I/O較高D、存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱【正確答案】:ABCD解析:

傳統(tǒng)RDBMS的缺點(diǎn)包括表結(jié)構(gòu)schema擴(kuò)展不方便、全文搜索功能較弱、大數(shù)據(jù)場景下I/O較高、存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱。24.下列屬于字符串匹配的分詞方法的是()。A、正向最大匹配法(由左到右的方向)B、逆向最大匹配法(由右到左的方向)C、最少切分(使每一句中切出的詞數(shù)最?。〥、雙向最大匹配法(進(jìn)行由左到右、由右到左兩次掃描)【正確答案】:ABCD解析:

正向最大匹配、逆向最大匹配、最少切分、雙向最大匹配都屬于字符串匹配的常用方法。25.SparkRDD的依賴機(jī)制包括()。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】:AD解析:

RDD之間的依賴關(guān)系可以分為窄依賴和寬依賴兩種。26.以下()函數(shù)是累積函數(shù)。A、cumsumB、argminC、cumprodD、argmax【正確答案】:AC解析:

cumsum、cumprod分別為累加和累乘函數(shù)。27.常用的數(shù)據(jù)審計(jì)方法可以分為()。A、預(yù)定義審計(jì)B、自定義審計(jì)C、可視化審計(jì)D、結(jié)構(gòu)化審計(jì)【正確答案】:ABC解析:

常用的數(shù)據(jù)審計(jì)方法有預(yù)定義審計(jì)、自定義審計(jì)和可視化審計(jì)三種。28.特征選擇在子集生成與搜索方面引入了人工智能搜索技術(shù)和子集評價(jià)方法。其中人工智能搜索技術(shù)有()。A、分支界限法B、浮動(dòng)搜索法C、信息熵D、AIC【正確答案】:ABCD解析:

特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術(shù),如分支界限法、浮動(dòng)搜索法等;在子集評價(jià)方法則采用了很多源于信息論的準(zhǔn)則,如信息熵、AIC等。29.關(guān)于相關(guān)與線性關(guān)系,下列說法正確的是()A、相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系B、相關(guān)一定是線性關(guān)系,不可能是非線性關(guān)系C、相關(guān)時(shí)若有相關(guān)系數(shù)r為0,說明兩個(gè)變量之間不存在線性關(guān)系,仍可能存在非線性關(guān)系D、相關(guān)系數(shù)為0是兩個(gè)變量獨(dú)立的必要不充分條件【正確答案】:ACD解析:

相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系。30.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A、具有勞動(dòng)增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價(jià)值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。31.在正則化公式中,λ為正則化參數(shù),關(guān)于λ的描述正確的是()。A、若正則化參數(shù)λ過大,可能會(huì)導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B、若λ的值太大,則梯度下降可能不收斂C、取一個(gè)合理的λ值,可以更好地應(yīng)用正則化D、如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會(huì)在一定程度上減小【正確答案】:ABCD解析:

正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。32.如將A、B、C三個(gè)分類器的PR曲線畫在一個(gè)圖中,其中A、B的PR曲線可以完全包含住C的PR曲線,A與B的PR曲線有交點(diǎn),A、B、C的平衡點(diǎn)分別為0.79、0.66、0.58,以下說法中正確的是()。A、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器CB、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器BC、學(xué)習(xí)器B的性能優(yōu)于學(xué)習(xí)器CD、學(xué)習(xí)器C的性能優(yōu)于學(xué)習(xí)器B【正確答案】:ABC解析:

若一個(gè)學(xué)習(xí)器的PR曲線被另一個(gè)學(xué)習(xí)器的曲線完全包住,則可斷言后者的性能優(yōu)于前者,如果兩個(gè)學(xué)習(xí)器的PR曲線發(fā)生了交叉,則可用平衡點(diǎn)度量。33.下面屬于可視化高維數(shù)據(jù)技術(shù)的是()。A、矩陣B、.平行坐標(biāo)系C、星形坐標(biāo)系D、散布圖【正確答案】:ABC解析:

矩陣、平行坐標(biāo)系和星形坐標(biāo)系都屬于可視化高維數(shù)據(jù)的常用技術(shù),而散布圖又叫相關(guān)圖,只能處理二維數(shù)據(jù)。34.當(dāng)我們構(gòu)造線性模型時(shí),我們注意變量間的相關(guān)性。在相關(guān)矩陣中搜索相關(guān)系數(shù)時(shí),如果我們發(fā)現(xiàn)3對變量的相關(guān)系數(shù)是(Var1和Var2,Var2和Var3,Var3和Var1),相關(guān)系數(shù)分別是-0.98、0.45、1.23。我們可以得出的結(jié)論是()。A、Var1和Var2是非常相關(guān)的B、因?yàn)閂a1r和Var2是非常相關(guān)的,可以去除其中一個(gè)C、Var3和Var1的1.23相關(guān)系數(shù)是不可能的D、-【正確答案】:ABC解析:

Var1和Var2之間的相關(guān)性非常高,并且是負(fù)的,可視為多重共線性的情況,可以去掉一個(gè)。一般來說,如果相關(guān)大于0.7或小于-0.7,則認(rèn)為特征之間有很高的相關(guān)性。相關(guān)系數(shù)范圍為[-1,1],C選項(xiàng)中1.23明顯有誤。35.算法“歧視”現(xiàn)象可能出現(xiàn)在()。A、算法設(shè)計(jì)B、算法實(shí)現(xiàn)C、算法投入使用D、算法驗(yàn)證【正確答案】:ABC解析:

算法歧視是指算法設(shè)計(jì)、實(shí)現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。36.以下屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:

常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。37.Spark的技術(shù)架構(gòu)可以分為哪幾層()。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】:ABD解析:

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。38.下列關(guān)于詞袋模型說法正確的是()。A、詞袋模型可以忽略每個(gè)詞出現(xiàn)的順序B、詞袋模型不可以忽略每個(gè)詞出現(xiàn)的順序C、TensorFlow支持詞袋模型D、詞袋模型可以表出單詞之間的前后關(guān)系【正確答案】:AC解析:

詞袋模型的缺點(diǎn)之一就是不考慮詞語的順序關(guān)系,因此BD錯(cuò)誤。39.()是Hadoop運(yùn)行的模式。A、單機(jī)版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:

Hadoop運(yùn)行模式包括單機(jī)版、偽分布式和分布式。40.一個(gè)監(jiān)督觀測值集合會(huì)被劃分為()。A、訓(xùn)練集B、驗(yàn)證集C、測試集D、預(yù)處理集【正確答案】:ABC解析:

一個(gè)監(jiān)督觀測值集合會(huì)被劃分為訓(xùn)練集、測試集、預(yù)測集。其中測試集來測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。41.()是Hadoop運(yùn)行的模式。A、單機(jī)版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:

Hadoop運(yùn)行模式包括單機(jī)版、偽分布式和分布式。42.決策樹遞歸停止的條件為()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標(biāo)簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:

決策樹的生成是一個(gè)遞歸過程。在決策樹基本算法中,有三種情形會(huì)導(dǎo)致遞歸返回:①結(jié)點(diǎn)包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前結(jié)點(diǎn)包含的樣本集合為空,不能劃分。43.下面是Python的特點(diǎn)和優(yōu)點(diǎn)是()。A、解釋性強(qiáng)B、使用動(dòng)態(tài)特性C、面向?qū)ο驞、語法簡潔【正確答案】:ABCD解析:

Python的特點(diǎn)和優(yōu)點(diǎn)是基于面向?qū)ο笤O(shè)計(jì),、代碼解釋性強(qiáng),、使用動(dòng)態(tài)特性、語法簡潔。44.下列關(guān)于集合操作結(jié)果正確的有()。A、name={‘d’,‘s’}nameadd(‘sd’),name值為:{‘sd’,‘d’,‘s’}B、name={‘sd’,d’,‘s’}nameremove(‘s’),name值為:{‘sd’,‘d’}C、name={‘sd’,d’,‘s’}nameclear),name值為:{}D、name={‘sd’,d’,‘s’}nameupdate(‘df’),name值為:{‘sd’,’d’,‘f’,’s’,’j’}【正確答案】:ABC解析:

D結(jié)果應(yīng)為{'d','f','s','sd'}。45.下列不屬于聚類性能度量內(nèi)部指標(biāo)的是()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。46.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:

字典可以表示二維以上的高維數(shù)據(jù)。47.RNN在NLP領(lǐng)域的應(yīng)用包括()。A、語言模型與文本生成B、機(jī)器翻譯C、語音識(shí)別D、圖像描述生成【正確答案】:ABCD解析:

RNN在NLP領(lǐng)域的應(yīng)用包括語言模型與文本生成、機(jī)器翻譯、語音識(shí)別、圖像描述生成、情感分析、對話系統(tǒng)等。48.Apriori算法的計(jì)算復(fù)雜度受()影響。A、支持度閾值B、項(xiàng)數(shù)(維度)C、事務(wù)數(shù)D、事務(wù)平均寬度【正確答案】:ABCD解析:

--49.下列可以用來構(gòu)造神經(jīng)網(wǎng)絡(luò)的算法有()。A、kNNB、線性回歸C、邏輯回歸D、-【正確答案】:BC解析:

kNN是一種基于實(shí)例的學(xué)習(xí)算法,不具有任何訓(xùn)練參數(shù)。因此不能用來構(gòu)造神經(jīng)網(wǎng)絡(luò),線性回歸和邏輯回歸都可以用來構(gòu)造神經(jīng)網(wǎng)絡(luò)模型,其實(shí)二者就是單神經(jīng)元的神經(jīng)網(wǎng)絡(luò)。50.使用極大似然估計(jì)的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分?jǐn)?shù)據(jù)集C、提前已知某先驗(yàn)概率D、數(shù)據(jù)集各個(gè)屬性相對獨(dú)立【正確答案】:AB解析:

極大似然估計(jì)要求樣本獨(dú)立同分布,否則無法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實(shí)的分布要一致,否則會(huì)南轅北轍。如果對總體分布一無所知是無法使用MLE的。51.特征向量的缺失值處理:缺失值較多,直接將該特征舍棄掉,否則可能反倒會(huì)帶入較大的noise,對結(jié)果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內(nèi),我們可以采取的處理方式有()。A、把NaN直接作為一個(gè)特征,假設(shè)用0表示B、用均值填充C、用隨機(jī)森林等算法預(yù)測填充D、以上答案都不正確【正確答案】:ABC解析:

缺失值較少的處理方法:①把NAN直接作為一個(gè)特征,假設(shè)用0表示;②用均值填充;③用隨機(jī)森林等算法預(yù)測填充;④用插值法填充。52.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度,那么下面說法正確的是()。A、準(zhǔn)確度并不適合衡量不平衡類別問題B、準(zhǔn)確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:

精確度和召回率適合于衡量不平衡類別問題,準(zhǔn)確度并不適合衡量不平衡類別問題。53.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是()。A、深度優(yōu)先遍歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略【正確答案】:AB解析:

在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。54.神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以分為()和隨機(jī)型網(wǎng)絡(luò)等。A、前向型B、后向型C、反饋型D、自組織競爭型【正確答案】:ACD解析:

--55.許多功能更為強(qiáng)大的非線性模型可在線性模型基礎(chǔ)上通過引入()而得。A、層級結(jié)構(gòu)B、高維映射C、降維D、分類【正確答案】:AB解析:

--56.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面()。A、能夠直觀反映成對數(shù)據(jù)之間的空間關(guān)系B、能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、能夠靜態(tài)演化事物的變化及變化的規(guī)律D、能夠動(dòng)態(tài)演化事物的變化及變化的規(guī)律【正確答案】:BD解析:

可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系,以及能夠動(dòng)態(tài)演化事物的變化及變化的規(guī)律。57.關(guān)于Python組合數(shù)據(jù)類型,以下選項(xiàng)中描述正確的是()。A、Python的str、tuple和list類型都屬于序列類型B、Python組合數(shù)據(jù)類型能夠?qū)⒍鄠€(gè)同類型或不同類型的數(shù)據(jù)組織起來,通過單一的表示使數(shù)據(jù)操作更有序更容易C、組合數(shù)據(jù)類型可以分為3類:序列類型、集合類型和映射類型3類D、序列類型是二維元素向量,元素之間存在先后關(guān)系,通過序號訪問【正確答案】:ABC解析:

序列類型是一維元素向量。58.以下屬于關(guān)鍵詞提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潛在語義分析)D、LDA【正確答案】:ABCD解析:

關(guān)鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)orLSI(潛在語義索引)、LDA等。59.非頻繁模式()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負(fù)模式和負(fù)相關(guān)模式D、對異常數(shù)據(jù)項(xiàng)敏感【正確答案】:AD解析:

非頻繁模式是一個(gè)項(xiàng)集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數(shù)據(jù)中的負(fù)相關(guān)時(shí)。它對異常數(shù)據(jù)項(xiàng)敏感。60.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點(diǎn)分析及()等方面。A、關(guān)聯(lián)分析B、分類和預(yù)測C、聚類分析D、偏差分析【正確答案】:ABCD解析:

--61.可視分析學(xué)的幾個(gè)特點(diǎn)包含()。A、強(qiáng)調(diào)數(shù)據(jù)到知識(shí)的轉(zhuǎn)換過程B、強(qiáng)調(diào)可視化分析與自動(dòng)化建模之間的相互作用C、強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性D、強(qiáng)調(diào)數(shù)據(jù)加工(DataWrangling或DataMunging)工作的必要性E、⑤強(qiáng)調(diào)人機(jī)交互的重要性?!菊_答案】:ABCDE解析:

從可視分析學(xué)模型可以看出,可視分析學(xué)的流程具有如下特點(diǎn):①強(qiáng)調(diào)數(shù)據(jù)到知識(shí)的轉(zhuǎn)換過程。可視化分析學(xué)中對數(shù)據(jù)可視化工作的理解發(fā)生了根本性變化——數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識(shí),而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上。從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑有可視化分析和自動(dòng)化建模兩種。②強(qiáng)調(diào)可視化分析與自動(dòng)化建模之間的相互作用。二者的相互作用主要體現(xiàn)在:一方面,可視化技術(shù)可用于數(shù)據(jù)建模中的參數(shù)改進(jìn)的依據(jù);另一方面,數(shù)據(jù)建模也可以支持?jǐn)?shù)據(jù)可視化活動(dòng),為更好地實(shí)現(xiàn)用戶交互提供參考。③強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。從數(shù)據(jù)到知識(shí)轉(zhuǎn)換的兩種途徑——可視化分析與自動(dòng)化建模分別通過數(shù)據(jù)映射和數(shù)據(jù)挖掘兩種不同方法實(shí)現(xiàn)。因此,數(shù)據(jù)映射和數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)可視化的兩個(gè)重要支撐技術(shù)。用戶可以通過兩種方法的配合使用實(shí)現(xiàn)模型參數(shù)調(diào)整和可視化映射方式的改變,盡早發(fā)現(xiàn)中間步驟中的錯(cuò)誤,進(jìn)而提升可視化操作的信度與效度。④強(qiáng)調(diào)數(shù)據(jù)加工工作的必要性。數(shù)據(jù)可視化處理之前一般需要對數(shù)據(jù)進(jìn)行預(yù)處理(轉(zhuǎn)換)工作,且預(yù)處理活動(dòng)的質(zhì)量將影響數(shù)據(jù)可視化效果。⑤強(qiáng)調(diào)人機(jī)交互的重要性??梢暬^程往往涉及人機(jī)交互操作,需要重視人與計(jì)算機(jī)在數(shù)據(jù)可視化工作中的互補(bǔ)性優(yōu)勢。因此,人機(jī)交互以及人機(jī)協(xié)同工作也將成為未來數(shù)據(jù)可視化研究與實(shí)踐的重要手段。62.在建立模型時(shí),需要用到()。A、訓(xùn)練數(shù)據(jù)B、測試數(shù)據(jù)C、原始數(shù)據(jù)D、驗(yàn)證數(shù)據(jù)【正確答案】:ABD解析:

在機(jī)器學(xué)習(xí)中,通常將數(shù)據(jù)分為訓(xùn)練集、測試集和驗(yàn)證集。63.數(shù)據(jù)科學(xué)基本原則中,三世界原則指的是()A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】:ABC解析:

大數(shù)據(jù)時(shí)代的到來,在我們的“精神世界”和“物理世界”之間出現(xiàn)了一種新的世界——“數(shù)據(jù)世界”。因此,在數(shù)據(jù)科學(xué)中,通常需要研究如何運(yùn)用“數(shù)據(jù)世界”中已存在的“痕跡數(shù)據(jù)”的方式解決“物理世界”中的具體問題,而不是直接到“物理世界”,采用問卷和訪談等方法親自收集“采訪數(shù)據(jù)”。相對于“采訪數(shù)據(jù)”,“痕跡數(shù)據(jù)”更具有客觀性。圖靈獎(jiǎng)獲得者JimGray提出的科學(xué)研究第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)是“三世界原則”的代表性理論之一。64.下列哪些是RDBMS中事務(wù)遵循的原則()。A、原子性(Atomicity)B、一致性(Connsistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:

關(guān)系數(shù)據(jù)庫中的事務(wù)需要具備一定的規(guī)則——ACID特征。ACID是指數(shù)據(jù)庫事務(wù)正確執(zhí)行的4個(gè)基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。65.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:

聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。66.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲(chǔ)數(shù)據(jù),表結(jié)構(gòu)包括()等元素。A、關(guān)鍵字B、時(shí)間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:

BigTable和HBase的索引由行關(guān)鍵字、列簇和時(shí)間戳組成。67.Hadoop中map輸出結(jié)果說法正確的是()。A、<key,value>鍵值對B、輸出中間臨時(shí)結(jié)果C、輸出最終計(jì)算結(jié)果D、輸出結(jié)果永久保留【正確答案】:AB解析:

map輸出結(jié)果并非是最終結(jié)果且只暫時(shí)保留。68.以下()屬于數(shù)據(jù)統(tǒng)計(jì)分析工具。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:

常用統(tǒng)計(jì)軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。69.關(guān)于Python分隔代碼塊,描述錯(cuò)誤的是()。A、內(nèi)嵌代碼的每一行,都比外面的if語句的縮進(jìn)更多B、代碼以“begin”開頭,“end”結(jié)尾C、每行代碼的縮進(jìn)都一致D、代碼塊被封裝在花括號中【正確答案】:BCD解析:

python代碼沒有開頭與結(jié)尾標(biāo)識(shí);不同級別的語句縮進(jìn)不同;python代碼用縮進(jìn)區(qū)分代碼塊,不用{}。70.關(guān)于Dropout說法,正確的是()。A、Dropout背后的思想其實(shí)就是把DNN當(dāng)作一個(gè)集成模型來訓(xùn)練,之后取所有值的平均值,而不只是訓(xùn)練單個(gè)DNNB、DNN網(wǎng)絡(luò)將Dropout率設(shè)置為p,也就是說,一個(gè)神經(jīng)元被保留的概率是1-p。當(dāng)一個(gè)神經(jīng)元被丟棄時(shí),無論輸入或者相關(guān)的參數(shù)是什么,它的輸出值就會(huì)被設(shè)置為0C、丟棄的神經(jīng)元在訓(xùn)練階段,對BP算法的前向和后向階段都沒有貢獻(xiàn)。由于這個(gè)原因,每一次訓(xùn)練它都像是在訓(xùn)練一個(gè)新的網(wǎng)絡(luò)Dropout方法通常和L2正則化或者其他參數(shù)約束技術(shù)(比如MaxNorm)一起使用,來防止神經(jīng)網(wǎng)絡(luò)的過擬合【正確答案】:ABCD解析:

dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中,對于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄。注意是暫時(shí),對于隨機(jī)梯度下降來說,由于是隨機(jī)丟棄,故而每一個(gè)mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)。防止過擬合的方法:提前終止(當(dāng)驗(yàn)證集上的效果變差的時(shí)候);L1和L2正則化加權(quán);softweightsharingdropout。dropout率的選擇:經(jīng)過交叉驗(yàn)證,隱含節(jié)點(diǎn)dropout率等于0.5的時(shí)候效果最好,原因是0.5的時(shí)候dropout隨機(jī)生成的網(wǎng)絡(luò)結(jié)構(gòu)最多。dropout也可以被用作一種添加噪聲的方法,直接對input進(jìn)行操作。輸入層設(shè)為更接近1的數(shù)。使得輸入變化不會(huì)太大(0.8)。71.字符串的格式化可以使用()。A、%B、formatC、inputD、+【正確答案】:AB解析:

input是輸入,+是加法運(yùn)算符。72.Spark中的Scheduler模塊可以分為()。A、DAGSchedulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正確答案】:AC解析:

Scheduler模塊分為DAGScheduler和TaskScheduler兩個(gè)部分。73.Python變量命名規(guī)則包含()。A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開頭,但不能以數(shù)字開頭,。例如,可將變量命名為message_1,但不能將其命名為1_message。B、變量名不能包含空格,但可使用下劃線來分隔其中的單詞。例如,變量名greeting_message可行,但變量名greetingmessage會(huì)引發(fā)錯(cuò)誤。C、不要將Python關(guān)鍵字和函數(shù)名用作變量名,即不要使用Python保留用于特殊用途的單詞,如print。D、變量名應(yīng)既簡短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好?!菊_答案】:ABCD解析:

Python變量名只能包含字母、數(shù)字和下劃線,但不能以數(shù)字開頭,避免使用關(guān)鍵字,變量名應(yīng)既簡短又具有描述性。74.在正則化公式中,λ為正則化參數(shù),關(guān)于λ的描述正確的是()。A、若正則化參數(shù)λ過大,可能會(huì)導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B、若λ的值太大,則梯度下降可能不收斂C、取一個(gè)合理的λ值,可以更好地應(yīng)用正則化D、如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會(huì)在一定程度上減小【正確答案】:ABCD解析:

正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。75.在Spark中,彈性分布式數(shù)據(jù)集的特點(diǎn)包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:

RDD不可修改。76.TF-IDF的缺點(diǎn)包含()。A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比B、將一些生僻字誤當(dāng)作文檔關(guān)鍵詞C、只考慮特征詞和文本之間的關(guān)系,忽略了一個(gè)特征項(xiàng)在不同類別間的分布情況D、沒有考慮特征詞的位置因素對文本的區(qū)分度【正確答案】:BCD解析:

低頻詞匯的重要性和出現(xiàn)次數(shù)成正比。77.處理圖像平滑處理的濾波有()。A、盒式濾波B、均值濾波C、高斯濾波D、中值濾波【正確答案】:ABCD解析:

--78.基于Hadoop開源大數(shù)據(jù)平臺(tái)主要提供了針對數(shù)據(jù)分布式計(jì)算和存儲(chǔ)能力,如下屬于分布式存儲(chǔ)組件的有()。A、MapReduceB、SparkC、HDFSD、HBase【正確答案】:CD解析:

MapReduce和Spark的核心功能是分布式計(jì)算。79.下列可以用來評估線性回歸模型的指標(biāo)有()。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】:ABCD解析:

R-Squa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論