大數(shù)據(jù)題庫-綜合復(fù)習(xí)試題附答案_第1頁
大數(shù)據(jù)題庫-綜合復(fù)習(xí)試題附答案_第2頁
大數(shù)據(jù)題庫-綜合復(fù)習(xí)試題附答案_第3頁
大數(shù)據(jù)題庫-綜合復(fù)習(xí)試題附答案_第4頁
大數(shù)據(jù)題庫-綜合復(fù)習(xí)試題附答案_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第頁大數(shù)據(jù)題庫-綜合復(fù)習(xí)試題附答案1.在一個神經(jīng)網(wǎng)絡(luò)中,可以用來處理過擬合的方法是()A、DropoutB、分批歸一化(BatchNormalization)C、正則化(regularization)D、都可以【正確答案】:D2.Hadoop中,Reducer的三個步驟是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort--Shuffle-Reduce【正確答案】:A解析:

Reducer主要分為Shuffle洗牌、Sort排序和Reduce三個步驟。3.對數(shù)值型輸出,最常見的結(jié)合策略是()。A、投票法B、平均法C、學(xué)習(xí)法D、排序法【正確答案】:B4.103.在情感分析任務(wù)中,其目的是將無結(jié)構(gòu)化的情感文本轉(zhuǎn)化成計算機容易識別和處理的結(jié)構(gòu)化文本,進而供情感分析上層的研究和應(yīng)用服務(wù)的是()。A、情感信息檢索B、情感信息抽取C、情感信息分類D、情感信息歸納【正確答案】:B解析:

情感分析上層的研究和應(yīng)用主要是為情感信息抽取。5.數(shù)據(jù)探索是指針對目標可變、持續(xù)、多角度的搜索或分析任務(wù),下列不是其搜索過程特點的是()。A、有選擇B、有策略C、有目標D、反復(fù)進行的【正確答案】:C解析:

數(shù)據(jù)探索是指針對目標可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過程是有選擇、有策略和反復(fù)進行的。6.通過聚集多個分類器的預(yù)測來提高分類準確率的技術(shù)稱為()。A、組合B、聚集C、合并D、投票【正確答案】:A7.下列哪個方法,不屬于情感分析的評測的方法是()A、COAE評測B、cifar10數(shù)據(jù)集評測CCFTCCI評測D、TAC評測【正確答案】:B解析:

cifar10數(shù)據(jù)集Cifar-10由60000張32*32的RGB彩色圖片構(gòu)成,這個數(shù)據(jù)集最大的特點在于將識別遷移到了普適物體,而且應(yīng)用于多分類,不屬于情感分析的測評。8.下列基本活動中不屬于數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要特別注意的是()。A、創(chuàng)造性設(shè)計B、數(shù)據(jù)洞見C、虛擬化D、個性化描述【正確答案】:D解析:

數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要注意有創(chuàng)造性設(shè)計、數(shù)據(jù)洞見、虛擬化等基本活動。9.在數(shù)據(jù)科學(xué)中,通常下載R的包的服務(wù)器是()。A、PIPB、CRANC、RstudioD、PyP1【正確答案】:B解析:

CRAN的全稱為TheComprehensiveRArchivcNetwork,在R編程中通常從該服務(wù)器下載所需包。10.在HDFS中,()是文件系統(tǒng)的工作節(jié)點。A、DataNodeB、ClientC、NameNodeD、Flume【正確答案】:A解析:

數(shù)據(jù)節(jié)點(DataNode)是分布式文件系統(tǒng)HDFS的工作節(jié)點,負責數(shù)據(jù)的存儲讀取,會根據(jù)客戶端或者是名稱節(jié)點的調(diào)度來進行數(shù)據(jù)的存儲和檢索,并且向名稱節(jié)點定發(fā)送自己所存儲的塊的列表,每個數(shù)據(jù)節(jié)點中的數(shù)據(jù)會被保存在各自節(jié)點本地Linux文件統(tǒng)中。11.探索性分析與驗證性分析的不同點是()。A、探索性分析需要事先假設(shè)B、探索性分析比驗證性分析復(fù)雜C、探索性分析在前D、驗證性分析在前【正確答案】:C解析:

驗證性分析需要事先假設(shè),因數(shù)據(jù)不同復(fù)雜程度也不同,探索性分析一般在前,為驗證性分析提供參考。12.在Hadoop生態(tài)系統(tǒng)中,()的主要設(shè)計目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進行數(shù)據(jù)的ETL操作。A、HDFSB、FlumeC、HiveD、Sqoop【正確答案】:D解析:

Sqoop主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫問進行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進到關(guān)系型數(shù)據(jù)庫中。13.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革的是()。A、不是隨機樣本,而是全體數(shù)據(jù)B、不是精確性,而是混雜性C、不是描述性分析,而是預(yù)測性分析D、不是因果關(guān)系,而是相關(guān)關(guān)系【正確答案】:C解析:

Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革:①不是隨機樣本,而是全體數(shù)據(jù):大數(shù)據(jù)時代應(yīng)遵循“樣本=總體”的理念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。②不是精確性,而是混雜性;大數(shù)據(jù)時代應(yīng)承認數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。③不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時代的思想方式應(yīng)轉(zhuǎn)變--不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。14.點擊率的預(yù)測是一個數(shù)據(jù)比例不平衡問題(如訓(xùn)練集中樣本呈陰性的比例為99%,陽性的比例是1%),如果用這種數(shù)據(jù)建立模型并使得訓(xùn)練集的準確率高達99%。則可以得出結(jié)論是()。A、模型的準確率非常高,我們不需要進一步探索B、模型不好,我們應(yīng)建一個更好的模型C、無法評價模型D、以上答案都不正確【正確答案】:C解析:

對于失衡數(shù)據(jù),模型的準確率不能作為衡量模型效果的標準。因為我們需要探索的是少數(shù)1%的數(shù)據(jù),為更好地評估模型效果,可以用靈敏度、特異度、Fmeasure來判斷。15.下列關(guān)于組織機構(gòu)的數(shù)據(jù)管理成熟度等級劃分中的已執(zhí)行級的描述錯誤的是()。A、在具體項目中,DMM關(guān)鍵過程域(KPA)中給出的關(guān)鍵過程已被執(zhí)行,但隨意性和臨時性較大B、DMM關(guān)鍵過程的執(zhí)行不僅僅局限于特定業(yè)務(wù)范疇,存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過程C、缺少針對DMM關(guān)鍵過程的反饋與優(yōu)化D、雖然有可能在特定業(yè)務(wù)過程中進行了基礎(chǔ)性改進,但沒有進行持續(xù)跟進,也未拓展到整個組織機構(gòu)【正確答案】:B解析:

DMM的執(zhí)行級(PerformedLevel):組織機構(gòu)只在個別項目的范圍之內(nèi)執(zhí)行了DMM給出的關(guān)鍵過程,但缺乏機構(gòu)層次的統(tǒng)籌與管理。主要特點如下:①在具體項目中,DMM關(guān)鍵過程域(KPA)中給出的關(guān)鍵過程(KcyProcess)已被執(zhí)行,但隨意性和臨時性較大。②DMM關(guān)鍵過程(KeyProcess)的執(zhí)行往往僅限于特定業(yè)務(wù)范疇,很少存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過程。③缺少針對DMM關(guān)鍵過程(KeyProcess)的反饋與優(yōu)化。以DMM關(guān)鍵過程(KeyProcess)中的數(shù)據(jù)質(zhì)量為例,其數(shù)據(jù)管理工作可能過于集中在一個特定業(yè)務(wù),如數(shù)據(jù)修復(fù)活動,并沒有擴散到整個的業(yè)務(wù)范圍或并沒有開展對數(shù)據(jù)修復(fù)活動本身的反饋與優(yōu)化工作;④雖然有可能在特定業(yè)務(wù)過程中已進行了基礎(chǔ)性改進,但沒有進行持續(xù)跟進,也未拓展到整個組織機構(gòu);⑤組織機構(gòu)沒有統(tǒng)籌其數(shù)據(jù)管理工作,而數(shù)據(jù)管理活動局限在具體項目中,主要按照其具體項目的實施需求進行,如果一個具體項目中需要進行數(shù)據(jù)管理,可能會執(zhí)行DMM中給出的相關(guān)過程,反之亦然。16.假定訓(xùn)練了一個線性SVM并推斷出這個模型出現(xiàn)了欠擬合現(xiàn)象,在下--次訓(xùn)練時,應(yīng)該采取的措施是()。A、增加數(shù)據(jù)點B、減少數(shù)據(jù)點C、增加特征D、減少特征【正確答案】:C解析:

欠擬合是指模型擬合程度不高,數(shù)據(jù)距離擬合曲線較遠,或指模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地擬合數(shù)據(jù)??赏ㄟ^增加特征解決。17.下列描述中能反映出X和Y之間的強相關(guān)性的是()。A、相關(guān)系數(shù)為0.9B、對于無效假設(shè),β=0的為0.0001C、對于無效假設(shè),β=0的t為30D、以上說法都不對【正確答案】:A解析:

相關(guān)系數(shù)反映了不同變量之間線性相關(guān)程度,取值范圍為[-1,1],值越大表示相關(guān)程度越高。因此,A選項中r=0.9,表示X和Y之間有較強的相關(guān)性。p和t的數(shù)值大小沒有統(tǒng)計意義,只是將其與某一個閾值進行比對,以得到二選一的結(jié)論。18.最早被提出的循環(huán)神經(jīng)網(wǎng)絡(luò)門控算法是()A、長短期記憶網(wǎng)絡(luò)B、門控循環(huán)單元網(wǎng)絡(luò)C、堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)D、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)【正確答案】:A解析:

解析:長短期記憶網(wǎng)絡(luò)是最早被提出的循環(huán)神經(jīng)網(wǎng)絡(luò)門控算法。長短期記憶網(wǎng)絡(luò)(long-shorttermmemory,LSTM)論文首次發(fā)表于1997年11月15日。門控循環(huán)單元網(wǎng)絡(luò)(GRU)論文發(fā)表于2014年。堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)(SRNN)論文發(fā)表于2017年。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectionalrecurrentneuralnetworks,BRNN)發(fā)表于1997年11月。19.大數(shù)據(jù)平臺核心分布式存儲與計算組件采用Hadoop技術(shù)體系中的分布式存儲、分布式計算框架及Spark等開源產(chǎn)品和技術(shù),實現(xiàn)對數(shù)據(jù)的安全控制和管理功能,其中分布式存儲不包括()。A、HDFSB、PostgresqC、HiveD、HBase【正確答案】:B解析:

Postgresql并非分布式存儲。20.二項分布的數(shù)學(xué)期望為()。A、n(1-n)pB、np(1-p)C、npD、n(1-p)【正確答案】:C解析:

q=1-p二項分布即重復(fù)n次的伯努利試驗。如果事件發(fā)生的概率是p,則不發(fā)生的概率p,期望為np,方差為npq。21.()表達了在當前任務(wù)上任何學(xué)習(xí)算法所能達到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)問題本身的難度。A、偏差B、方差C、噪聲D、泛化誤差【正確答案】:C解析:

泛化誤差可分解為偏差、方差與噪聲之和。偏差度量了學(xué)習(xí)算法的期望預(yù)測與真實結(jié)果的偏離程度,即刻畫了學(xué)習(xí)算法本身的擬合能力;方差度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動所造成的影響;噪聲則表達了在當前任務(wù)上任何學(xué)習(xí)算法所能達到的期望泛化誤差的F界,即刻畫了學(xué)習(xí)問題本身的難度。22.下列關(guān)于選擇Logistic回歸中的One-Vs-All方法的描述正確的是()。A、我們需要在n類分類問題中適合n個模型B、我們需要適合n-1個模型來分類為n個類C、我們需要只適合1個模型來分類為n個類D、以上答案都不正確【正確答案】:A解析:

如果存在n個類,那么n個單獨的邏輯回歸必須與之相適應(yīng),其中每個類的概率由剩余類的概率之和確定。23.異常檢測過程查找基于()組標準值偏差的異常個案。A、單體B、分類C、聚類D、回歸【正確答案】:C解析:

異常檢測過程查找基于聚類組標準值偏差的異常個案。該過程設(shè)計為在探索性數(shù)據(jù)分析步驟中,快速檢測到用于數(shù)據(jù)審核的異常個案,并優(yōu)先于任何推論性數(shù)據(jù)分析。24.以下內(nèi)容符合物體識別任務(wù)的是()A、不能對圖像進行壓縮或剪裁B、遵守誤差最小準則和最佳近似準則C、可以不指定分類的類別數(shù)量D、事先給定樣本的分布特征【正確答案】:B解析:

遵守誤差最小準則和最佳近似準則為實現(xiàn)物體識別任務(wù)的最優(yōu)化準則。25.下列關(guān)于數(shù)據(jù)倉庫最終目的的描述正確的是()。A、收集業(yè)務(wù)需求B、建立數(shù)據(jù)倉庫邏輯模型C、開發(fā)數(shù)據(jù)倉庫的應(yīng)用分析D、為用戶和業(yè)務(wù)部門提供決策支持【正確答案】:D解析:

數(shù)據(jù)倉庫的最終目的是為用戶和業(yè)務(wù)部門提供決策支持。26.下列關(guān)于RBM的說法錯誤的是()A、學(xué)習(xí)過程很快B、RBM訓(xùn)練可以看作對一個深層BP網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值參數(shù)的初始化C、RBM不用人工選擇特征D、RBM有標簽樣本集【正確答案】:A解析:

解析:RBM學(xué)習(xí)率更新相比DBN速度較慢。27.解決Master故障的方法是設(shè)置檢查點,當Master失效時,從()檢查點開)動另一個Master進程。A、第一個B、中間一個C、最后一個D、隨機選擇一個【正確答案】:C解析:

從最后一個檢查點開始啟動另-Master進程使得因故障產(chǎn)生的影響更小。28.大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而采用()。A、所有數(shù)據(jù)B、部分數(shù)據(jù)C、少量數(shù)據(jù)D、抽樣數(shù)據(jù)【正確答案】:A解析:

大數(shù)據(jù)的一種表現(xiàn)形式為接近其總體的所有數(shù)據(jù)。29.下列關(guān)于分類算法的準確率、召回率、F1值的描述錯誤的是()。A、準確率是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準率B、召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率C、正確率、召回率和F1值取值都在0和l之間,數(shù)值越接近0,查準率或查全率就越高D、為了解決準確率和召回率沖突問題,引入了F1分數(shù)【正確答案】:C解析:

正確率、召回率、F,值取值都在0和1之間,數(shù)值越接近1,查準率或查全率就越高。30.常見的圖像預(yù)處理方法不包括()A、圖像降噪B、圖像增強C、圖像尺寸歸一化D、圖像標注【正確答案】:D解析:

圖像預(yù)處理的主要目的是消除圖像中無關(guān)的信息,恢復(fù)有用的真實信息,主要包括去噪、對比度增強。圖像尺寸歸一化也是為了增強對比度。圖像標注是圖像處理方法。31.()不屬于聚類性能度量外部指標。A、Jaccard系數(shù)B、FM系數(shù)C、Rand指數(shù)DB指數(shù)【正確答案】:D解析:

聚類常用的外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標包括DB指數(shù)、Dunn指數(shù)。32.以下屬于圖像處理的常用方法有()A、圖像變換B、圖像編碼壓縮C、圖像增強和復(fù)原D、以上答案都正確【正確答案】:D解析:

圖像處理的常用方法包括圖像變換、圖像解碼和壓縮和圖像增強和復(fù)原。33.假設(shè)我們擁有一個已完成訓(xùn)練的、用來解決車輛檢測問題的深度神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練所用的數(shù)據(jù)集由汽車和卡車的照片構(gòu)成,而訓(xùn)練目標是檢測出每種車輛的名稱(車輛共有10種類型)?,F(xiàn)在想要使用這個模型來解決另外一個問題,問題數(shù)據(jù)集中僅包含一種車(福特野馬)而目標變?yōu)槎ㄎ卉囕v在照片中的位置,則應(yīng)采取的方法是()A、除去神經(jīng)網(wǎng)絡(luò)中的最后一層,凍結(jié)所有層然后重新訓(xùn)練B、對神經(jīng)網(wǎng)絡(luò)中的最后幾層進行微調(diào),同時將最后一層(分類層)更改為回歸層C、使用新的數(shù)據(jù)集重新訓(xùn)練模型D、所有答案均不對【正確答案】:B解析:

由于神經(jīng)網(wǎng)絡(luò)淺層網(wǎng)絡(luò)主要提取圖像的低維特征,對于相近領(lǐng)域進行遷移學(xué)習(xí)時,這些低維特征相同,因此只需要對最后幾層進行微調(diào),而檢測位置相當于回歸任務(wù)。34.下列關(guān)于數(shù)據(jù)產(chǎn)品的說法錯誤的是()。A、數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B、與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費者不僅限于人類用戶,還可以是計算機以及其他軟硬件系統(tǒng)C、數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品D、數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項目流程的全部活動【正確答案】:A解析:

數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集,還包括文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策或它們的組合。

35.在方差分析中,()反映的是樣本數(shù)據(jù)與其組平均值的差異。A、總離差B、組間誤差C、抽樣誤差D、組內(nèi)誤差【正確答案】:D解析:

組內(nèi)誤差是來自樣本內(nèi)部數(shù)據(jù)之間的隨機誤差,它反映了樣本數(shù)據(jù)自身的差異程度;組間誤差由因子的不同處理造成的處理誤差和抽樣的隨機誤差組成,反映了不同樣本之間數(shù)據(jù)的差異程度。P(AB)=P(A)·P(B)36.新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和()。A、數(shù)據(jù)倉庫B、關(guān)系云C、數(shù)據(jù)庫系統(tǒng)D、文件系統(tǒng)【正確答案】:B解析:

關(guān)系云是在云計算環(huán)境中部署和虛擬化的關(guān)系數(shù)據(jù)庫,進而使傳統(tǒng)關(guān)系數(shù)據(jù)庫具備云計算的彈性計算、虛擬化、按需服務(wù)和高經(jīng)濟性等特征。關(guān)系云代表了數(shù)據(jù)管理的一個重要發(fā)展方向。37.數(shù)據(jù)集成的基本類型是()。A、內(nèi)容集成、結(jié)構(gòu)集成B、內(nèi)容集成、規(guī)約集成C、規(guī)約集成、結(jié)構(gòu)集成D、模式集成、結(jié)構(gòu)集成【正確答案】:A解析:

數(shù)據(jù)集成是指通過應(yīng)用間的數(shù)據(jù)交換從而達到集成,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題,其前提是被集成應(yīng)用必須公開數(shù)據(jù)結(jié)構(gòu),即必須公開表間結(jié)構(gòu)、表間關(guān)系、編碼的含義等。38.MapReduce任務(wù)Map輸出結(jié)果將被寫入()。A、HDFS文件系統(tǒng)B、新的記錄文件C、磁盤(Linux文件系統(tǒng))D、主數(shù)據(jù)庫【正確答案】:C解析:

MapReduce中的Map輸出結(jié)果會被寫入對應(yīng)的磁盤中。39.詞袋模型、TF-IDF、word2vec等模型都有著同樣的作用,該作用是()A、文本情感分析B、文本特征向量化C、文本特征離散化D、文本特征分布式【正確答案】:B解析:

詞袋模型是把每篇文章表示成一個向量。向量中每一維代表一個單詞,其值代表重要程度,重要程度就是用TF-IDF計算的。Word2vec就是詞嵌入模型之一,詞嵌入時將詞向量化的模型的通稱,其核心思想是將每個詞映射成低維——K維空間(通常K=50~300)的一個稠密向量。所以三者都將文本特征向量化。40.下列進程中不是HDFS的守護進程的是()。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YamChildD、NameNode【正確答案】:C解析:

NameNode是HDFS集群的主節(jié)點,DataNode是HDFS集群的從節(jié)點,SecondaryNameNode是HDFS集群啟動的用來給NameNode節(jié)點分擔壓力的角色,這個三個服務(wù)進程會一直啟動著。MRAppMaster/YarnChild進程是只有在YARN集群運行了MapReduce程序之后才會啟動的程序。41.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說法正確的是()。A、Json內(nèi)的取值只能有統(tǒng)一格式B、PDF文件在不同平臺上打開顯示不同C、可以通過Python將CSV文件轉(zhuǎn)換成Excel格式D、Excel存儲數(shù)據(jù)的量無限制【正確答案】:C解析:

Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺上打開顯示相同,Excel存儲數(shù)據(jù)的量在Excel2007及以后版本,一個工作表最多可有1048576行、16384列。42.()會發(fā)生權(quán)重共享。A、卷積神經(jīng)網(wǎng)絡(luò)B、循環(huán)神經(jīng)網(wǎng)絡(luò)C、全連接神經(jīng)網(wǎng)絡(luò)D、A、B【正確答案】:D43.在一個簡單的線性回歸模型中(只有一個變量),如果將輸入變量改變一個單位(增加或減少),那么輸出將改變()。A、一個單位B、不變C、截距D、回歸模型的尺度因子【正確答案】:D解析:

假設(shè)線性回歸模型是,若x改變一個單位,如x+1,則y改變b個單位,b是回歸模型的尺度因子。44.()與HDFS類似,均為分布式文件系統(tǒng)。A、NTFSB、FAT32C、GFSD、EXT3【正確答案】:C解析:

GFS也是分布式文件系統(tǒng)。45.數(shù)據(jù)科學(xué)項目應(yīng)遵循一般項目管理的原則和方法,涉及()。A、整體、范圍、時間、成本、質(zhì)量、溝通、風(fēng)險、宣傳、消費B、整體、范圍、時間、成本、質(zhì)量、人力資源、溝通、風(fēng)險、采購C、整體、范圍、時間、成本、質(zhì)量、人力資源、運維、采購、宣傳D、整體、范圍、時間、成本、質(zhì)量、人力資源、采購、宣傳、運維【正確答案】:B解析:

數(shù)據(jù)科學(xué)項目應(yīng)遵循一般項目管理的原則和方法,涉及整體、范圍、時間、成本、質(zhì)量、人力資源、溝通、風(fēng)險、采購。46.()不是神經(jīng)網(wǎng)絡(luò)的代表A、卷積神經(jīng)網(wǎng)絡(luò)B、遞歸神經(jīng)網(wǎng)絡(luò)C、殘差網(wǎng)絡(luò)D、xgboost算法【正確答案】:D解析:

解析:xgboost是boosting算法的代表。47.LSTM中,()的作用是確定哪些新的信息留在細胞狀態(tài)中,并更新細胞狀態(tài)。A、輸入門B、遺忘門C、輸出門D、更新門【正確答案】:A解析:

解析:LSTM中,輸入門的作用是確定哪些新的信息留在細胞狀態(tài)中,并更新細胞狀態(tài);遺忘門決定我們會從細胞狀態(tài)中丟棄什么信息;輸出門確定輸出。48.在Hadoop生態(tài)系統(tǒng)中,()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡單的查詢語言。A、PigB、HBascC、HiveD、MapReduce【正確答案】:C解析:

在Hadoop生態(tài)系統(tǒng)中,Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡單的查詢語言。49.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是()A、圖像分類B、目標檢測C、圖像語義分割D、以上答案都正確【正確答案】:D解析:

解析:卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類、目標檢測及圖像語義分割。50.下列問題與RNN相關(guān)的是()A、梯度消失B、時間步C、梯度爆炸D、以上都正確【正確答案】:D51.核矩陣是()的。A、沒有規(guī)律B、半正定C、正定D、樣本矩陣【正確答案】:B解析:

只要一個對稱函數(shù)所對應(yīng)的核矩陣半正定,它就能作為核函數(shù)使用。52.機器學(xué)習(xí)中發(fā)生過擬合的主要原因不包括()。A、使用過于復(fù)雜的模型B、數(shù)據(jù)噪聲較大C、訓(xùn)練數(shù)據(jù)少D、訓(xùn)練數(shù)據(jù)充足【正確答案】:D解析:

訓(xùn)練數(shù)據(jù)充足可以降低過擬合。53.下列描述中屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域數(shù)據(jù)戰(zhàn)略的是()。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語表C、數(shù)據(jù)質(zhì)量評估D、過程質(zhì)量保障【正確答案】:A解析:

數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。54.對連續(xù)圖像的離散化采樣決定了圖像的()A、空間分辨率B、時間分辨率C、地面分辨率D、灰度值【正確答案】:A解析:

連續(xù)圖像變?yōu)殡x散圖像需要每隔一定距離取一次樣,這里的一定距離就是采樣距離,采樣距離越大,而像素點越少,圖像越模糊,反之亦然。55.在支持向量機中,軟間隔支持向量機的目標函數(shù)比硬間隔支持向量機多了一個()。A、偏置項B、系數(shù)C、松弛變量D、兩種情況的目標函數(shù)相同【正確答案】:C56.下列關(guān)于L1、L2正則化的說法正確的是()。A、L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B、L2正則化技術(shù)又稱為LassoRegularizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏【正確答案】:C解析:

L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個稀疏模型,可以用于特征選擇;L2正則化可以防止模型過擬合,一定程度上L1也可以防止過擬合,L1正則化又稱LassoRegression。57.文檔是待處理的數(shù)據(jù)對象,它由一組詞組成,這些詞在文檔中不計順序,如一篇論文、一個網(wǎng)頁都可以看做一個文檔。這樣的表示方式稱為()A、語句B、詞袋C、詞海D、詞塘【正確答案】:B解析:

詞袋模型下,像是句子或是文件這樣的文字可以用一個袋子裝著這些詞的方式表現(xiàn),這種表現(xiàn)方式不考慮文法以及詞的順序。58.基于詞的N元文法模型,其最后的粗分結(jié)果集合大?。ǎ㎞A、大于B、大于等于C、小于D、小于等于【正確答案】:B解析:

基于N-最短路徑分詞算法,其基本思想是根據(jù)詞典,找出字串中所有可能的詞,構(gòu)造詞語切分有向無環(huán)圖。每個詞對應(yīng)圖中的一條有向邊,并賦給相應(yīng)的邊長(權(quán)值)。然后針對該切分圖,在起點到終點的所有路徑中,求出長度并按嚴格升序排列(任何兩個不同位置上的值一定不等,下同)依次為第1,第2,…,第i,…,第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長度相等,那么他們的長度并列第i,都要列入粗分結(jié)果集,而且不影響其他路徑的排列序號,最后的粗分結(jié)果集合大小大于等于N。59.輸人圖像已被轉(zhuǎn)換為大小為28x28的矩陣和大小為7x7的步幅為1的核心/濾波器,則卷積矩陣的大小是()A、22x22B、21x21C、28x28D、7x7【正確答案】:A解析:

解析:28-7+1=22。60.下列屬于無監(jiān)督學(xué)習(xí)的是()。A、K-meansB、SVMC、最大熵D、CRF【正確答案】:A解析:

K-means是一個將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進行分類組織的過程,這是一個典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法被稱為無監(jiān)督學(xué)習(xí)。61.當()時,可以不考慮RDD序列化處理。A、完成成本比較高的操作后B、執(zhí)行容易失敗的操作之前C、RDD被重復(fù)使用D、實時性要求高【正確答案】:D解析:

RDD的序列化處理主要在完成成本比較高的操作之后、執(zhí)行容易失敗的操作之前、當RDD被重復(fù)使用或者計算其代價很高時進行。62.平滑圖像處理可以采用RGB彩色()。A、直方圖均衡化模型B、直方圖均衡化模型C、加權(quán)均值濾波模型D、中值濾波模型【正確答案】:C解析:

平滑圖像處理可以采用RGB彩色加權(quán)均值濾波模型。63.()是一種著名的密度聚類算法,它基于一組鄰域參數(shù)來刻畫樣本的緊密程度。A、DBSCANB、原型聚類C、密度聚類D、層次聚類【正確答案】:A64.泛化誤差可分解為偏差、方差與噪聲之和,當學(xué)習(xí)器擬合程度不夠強時,()主導(dǎo)了泛化錯誤率。A、偏差B、方差C、噪聲D、差與方差共同【正確答案】:A解析:

學(xué)習(xí)器擬合程度不夠強時即欠擬合時,偏差主導(dǎo)了泛化錯誤率。65.MapReduce使用()來記錄不同事件的發(fā)生次數(shù)。A、日志B、事件觸發(fā)器C、狀態(tài)列表D、計數(shù)器【正確答案】:D解析:

MapReduce使用計數(shù)器來記錄不同事件的發(fā)生次數(shù)。66.下列關(guān)于HDFS特征的說法錯誤的是()。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】:D解析:

HDFS設(shè)計中重視數(shù)據(jù)的高吞吐量,因此其數(shù)據(jù)吞吐量高,但也造成了其數(shù)據(jù)延遲訪問的特征。67.下列關(guān)于集成學(xué)習(xí)模型中弱學(xué)習(xí)者的描述錯誤的是()。A、經(jīng)常不會過擬合B、通常帶有高偏差,所以其并不能解決復(fù)雜學(xué)習(xí)問題C、通常會過擬合D、通常擁有低方差【正確答案】:C解析:

弱學(xué)習(xí)者是問題的特定部分。所以他們通常不會過擬合,這也就意味著弱學(xué)習(xí)者通常擁有低方差和高偏差。68.下列不屬于數(shù)據(jù)科學(xué)跨平臺基礎(chǔ)設(shè)施和分析工具的是()。A、微軟AzureB、Google云平臺C、阿里云D、Adobephotoshop【正確答案】:D解析:

Adobephotoshop軟件一般不作為數(shù)據(jù)分析工具。69.RDD的特點不包括()。A、RDD之間有依賴關(guān)系,可溯源B、RDD由很多partition構(gòu)成C、對RDD的每個split或partition做計算D、RDD可以增量更新【正確答案】:D解析:

RDD具有以下五大特點:①RDD由很多partition構(gòu)成;②對RDD做計算,相當于對RDD的每個split或partition做計算;③RDD之間有依賴關(guān)系,可溯源;④如果RDD里面存的數(shù)據(jù)是key-value形式,則可以傳遞一個自定義的partitioner進行重新分區(qū)比如可以按key的hash值分區(qū);⑤最優(yōu)的位置去計算,即數(shù)據(jù)的本地性。70.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術(shù)價值鏈B、信息技術(shù)價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術(shù)價值鏈D、信息(活動)價值鏈和信息交互價值鏈【正確答案】:A解析:

大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價值鏈的信息價值鏈(水平軸)和信息技術(shù)價值鏈(垂直軸)兩個維度組織展開。71.在多元線性回歸模型中,若某個解釋變量對其余解釋變量的判定系數(shù)接近于1,則表明模型中存在()。A、異方差B、序列相關(guān)C、多重共線性D、高擬合優(yōu)度【正確答案】:C72.直方圖均衡化適用于增強直方圖呈()分布的圖像A、尖峰B、波形C、隨機D、高斯【正確答案】:A73.下列關(guān)于支持向量的說法正確的是()。A、到分類超平面的距離最近的且滿足一定條件的幾個訓(xùn)練樣本點是支持向量B、訓(xùn)練集中的所有樣本點都是支持向量C、每一類樣本集中都分別只有一個支持向量D、支持向量的個數(shù)越多越好【正確答案】:A解析:

在支持向量機中,距離超平面最近的且滿足一定條件的幾個訓(xùn)練樣本點被稱為支持向量。一般情況下,支持向量的個數(shù)等于訓(xùn)練樣本數(shù)目,并不是越多越好。74.圖像噪聲一般可分為以下哪幾類()A、加性噪聲B、乘性噪聲C、量化噪聲D、以上答案都正確【正確答案】:D解析:

噪聲是圖像干擾的重要原因。一幅圖像在實際應(yīng)用中可能存在各種各樣的噪聲,這些噪聲可能在傳輸中產(chǎn)生,也可能在量化等處理中產(chǎn)生。

噪聲是圖像干擾的重要原因。一幅圖像在實際應(yīng)用中可能存在各種各樣的噪聲,這些噪聲可能在傳輸中產(chǎn)生,也可能在量化等處理中產(chǎn)生。

根據(jù)噪聲和信號的關(guān)系(f(x,y)表示給定原始圖像,g(x,y)表示圖像信號,n(x,y)表示噪聲)可將其分為三種形式:①加性噪聲,此類噪聲與輸入圖像信號無關(guān),含噪圖像可表示為f(x,y)=g(x,y)+n(x,y),信道噪聲及光導(dǎo)攝像管的攝像機掃描圖像時產(chǎn)生的噪聲就屬這類噪聲。②乘性噪聲,此類噪聲與圖像信號有關(guān),含噪圖像可表示為f(x,y)=g(x,y)+n(x,y)g(x,y),飛點掃描器掃描圖像時的噪聲、電視圖像中的相干噪聲、膠片中的顆粒噪聲就屬于此類噪聲。③量化噪聲,此類噪聲與輸入圖像信號無關(guān),是量化過程存在量化誤差,再反映到接收端而產(chǎn)生。75.一監(jiān)獄人臉識別準入系統(tǒng)用來識別待進入人員的身份,此系統(tǒng)能識別獄警、小偷、送餐員、其他人員4種不同人員。下列學(xué)習(xí)方法最適合此種應(yīng)用需求的是()。A、二分類問題B、層次聚類問題C、多分類問題D、回歸問題【正確答案】:C解析:

涉及4種人員類別屬于多分類問題。76.下列關(guān)于Hive說法正確的是()。A、一種數(shù)據(jù)倉庫工具B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:

Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,用來進行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。77.數(shù)據(jù)變換的策略包括()。A、平滑處理、特征構(gòu)造、聚集、標準化、離散化B、平滑處理、特征構(gòu)造、聚集、審計、離散化C、平滑處理、聚集、標準化、審計、離散化D、特征構(gòu)造、聚集、標準化、審計、離散化【正確答案】:A解析:

數(shù)據(jù)變換的策略不包括審計。78.數(shù)據(jù)安全不只是技術(shù)問題,還涉及()。A、人員問題B、管理問題C、行政問題D、領(lǐng)導(dǎo)問題【正確答案】:B解析:

數(shù)據(jù)安全不只是技術(shù)問題,還涉及管理問題。79.傅里葉變換得到的頻譜中,低頻系數(shù)對應(yīng)于()A、物體邊緣B、噪聲C、變化平緩部分D、變化劇烈部分【正確答案】:C解析:

圖像的主要成分是低頻信息,它形成了圖像的基本灰度等級,對圖像結(jié)構(gòu)的決定作用較小;中頻信息決定了圖像的基本結(jié)構(gòu),形成了圖像的主要邊緣結(jié)構(gòu);高頻信息形成了圖像的邊緣和細節(jié),是在中頻信息上對圖像內(nèi)容的進一步強化。80.Spark核心層主要關(guān)注的問題是().A、存儲B、計算C、傳輸D、連接【正確答案】:B解析:

Spark核心層定義,Spark核心層主要關(guān)注計算問題。81.建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的()。A、基礎(chǔ)B、前提C、核心D、條件【正確答案】:C解析:

略。82.下列關(guān)于線性模型的描述錯誤的是()。A、支持向量機的判別函數(shù)一定屬于線性函數(shù)B、在樣本為某些分布情況時,線性判別函數(shù)可以成為最小錯誤率或最小風(fēng)險意義下的最優(yōu)分類器C、在一般情況下,線性分類器只能是次優(yōu)分類器D、線性分類器簡單而且在很多情況下效果接近最優(yōu),所以應(yīng)用比較廣泛【正確答案】:A解析:

支持向量機的判別函數(shù)不一定是線性函數(shù)。83.在集成學(xué)習(xí)中,對于數(shù)據(jù)型輸出,最常見的結(jié)合策略是()。A、平均法B、投票法C、學(xué)習(xí)法D、以上答案都正確【正確答案】:A84.下列不屬于數(shù)據(jù)科學(xué)開源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark【正確答案】:B解析:

ERP系統(tǒng)是企業(yè)資源計劃(EnterpriseResourcePlanning)的簡稱,是指建立在信息技術(shù)基礎(chǔ)上,集信息技術(shù)與先進管理思想于一身,以系統(tǒng)化的管理思想,為企業(yè)員工及決策層提供決策手段的管理平臺。85.BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭退(),其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。A、欠擬合B、誤差過大C、誤差過小D、過擬合【正確答案】:D解析:

解析:正是由于其強大的表示能力,BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過擬合,其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。86.以P(w)表示詞條w的概率,假設(shè)已知P(南京)=0.8,P(市長)=0.6,P(江大橋)=0.4;P(南京市)=0.3,P(長江大橋)=0.5。如果假設(shè)前后兩個詞的出現(xiàn)是獨立的,那么分詞結(jié)果就是()A、南京市*長江*大橋B、南京*市長*江大橋C、南京市長*江大橋D、南京市*長江大橋【正確答案】:B解析:

最大概率分詞基本思想:一句話有多種切割方法,我們選擇聯(lián)合概率最大的結(jié)果。P(A)=0;P(B)=0.8*0.6*0.4=0.192;P(C)=0;P(D)=0.3*0.5=0.15。所以這道題選擇B。87.著名的C4.5決策樹算法使用()來選擇最優(yōu)劃分屬性。A、信息增益B、增益率C、基尼指數(shù)D、均值【正確答案】:B88.為了提高系統(tǒng)性能,Spark采取惰性計算模式。下列關(guān)于惰性計算模式的描述正確的是()。A、執(zhí)行Transformation操作時不會提交,只有執(zhí)行Action操作時才會被提交到集群中開始被執(zhí)行B、執(zhí)行Action操作時不會提交,只有執(zhí)行Transformation操作時才會被提交到集群中開始被執(zhí)行C、只有執(zhí)行完Action操作和Transformation操作時,所有操作才會被提交到集群中開始被執(zhí)行D、執(zhí)行完Action操作或Transformation操作時都不會提交到集群【正確答案】:A解析:

Spark惰性計算模式定義。89.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程J=7.19x+73.93,據(jù)此可以預(yù)測這個孩子10歲時的身高,則下列敘述正確的是(A、身高一定是145.83cmB、身高一定超過146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正確答案】:D解析:

回歸直線方程預(yù)測時,出現(xiàn)的誤差方向不能確定。90.當合適的樣本容量很難確定時,可以使用的抽樣方法是()。A、有放回的簡單隨機抽樣B、無放回的簡單隨機抽樣C、分層抽樣D、漸進抽樣【正確答案】:D91.下列描述中不屬于數(shù)據(jù)治理內(nèi)容的是()。A、理解自己的數(shù)據(jù)B、行為規(guī)范的制定C、崗位職責的定義D、獲得更多的數(shù)據(jù)【正確答案】:D解析:

獲得更多的數(shù)據(jù)不屬于數(shù)據(jù)治理。92.評估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應(yīng)采取的解決方法是()。A、減少模型的特征數(shù)量B、增加模型的特征數(shù)量C、增加樣本數(shù)量D、以上答案都正確【正確答案】:B解析:

如果模型存在高偏差,意味著模型過于簡單,為了使模型更加健壯,可以在特征空間中添加更多的特征。而增加樣本數(shù)量將減少方差。93.AGNES是一種采用()策略的層次聚類算法。A、自頂向下B、自底向上C、自左至右D、自右至左【正確答案】:B94.2003年,Tableau在斯坦福大學(xué)誕生,它起源于一種改變數(shù)據(jù)使用方式的新技術(shù),即()A、VizQL語言B、SQL語言C、XSQL語言D、NewSQL語言【正確答案】:A解析:

VizQL是一種可視化查詢語言,可將拖放動作轉(zhuǎn)化為數(shù)據(jù)查詢,然后以可視化的形式表達數(shù)據(jù),是Tableau的起源。95.()負責MapReduce任務(wù)調(diào)度。A、NameNodeB、JobtrackerC、TaskTrackerD、SecondaryNameNode【正確答案】:B解析:

Jobtracker負責MapRcduce任務(wù)調(diào)度,TaskTracker負責任務(wù)執(zhí)行。96.下列不屬于視覺通道表現(xiàn)力評價指標的是()。A、精確性B、可辨認性C、可分離性D、可轉(zhuǎn)換性【正確答案】:D解析:

在數(shù)據(jù)來源和目標用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道表現(xiàn)力的評價指標包括精確性、可辨認性、可分離性和視覺突出性。97.數(shù)據(jù)科學(xué)家可能會同時使用多個算法(模型)進行預(yù)測,并且把這些算法的結(jié)果集成起來進行最后的預(yù)測(集成學(xué)習(xí)),下列關(guān)于集成學(xué)習(xí)的說法正確的是()。A、單個模型之間具有高相關(guān)性B、單個模型之間具有低相關(guān)性C、在集成學(xué)習(xí)中使用平均權(quán)重而不是投票會比較好D、單個模型都用同一個算法【正確答案】:B解析:

集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型以期得到一個更好、更全面的強監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個弱模型得到了錯誤的預(yù)測,其他的弱模型也可以將錯誤

糾正回來。某一個弱模型要有一定的準確性,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個體學(xué)習(xí)器間具有差異。集成中既可包含同種類型的弱模型,也可包含不同類型的弱模型。98.()是指為最小化總體風(fēng)險,只需在每個樣本上選擇能使特定條件風(fēng)險最小的類別標記。A、支持向量機B、間隔最大化C、線性分類器D、貝葉斯判定準則【正確答案】:D99.()是窄依賴操作。A、joinB、filterC、groupD、sort【正確答案】:B解析:

spark中常見的窄依賴操作包括map、filer、union、sample等,寬依賴的操作包括reduceByKey、groupByKey、join等。100.在抽樣估計中,隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大。這一性質(zhì)稱為()。A、無偏性B、有效性C、及時性D、一致性【正確答案】:D解析:

一致性是指隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大。1.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的有()。A、深度優(yōu)先遇歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略E、大站優(yōu)先策略【正確答案】:AB解析:

在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。2.完整性約束通常包括()。.A、實體完整性B、域完整性C、參照完整性D、用戶定義完整性【正確答案】:ABCD解析:

在關(guān)系數(shù)據(jù)庫中,完整性約束通常包括:①實體完整性:規(guī)定表的每一行在關(guān)系表中是唯一的實體。②域完整性:指關(guān)系表中的列必須滿足某種特定的數(shù)據(jù)類型約束,其中約束又包括取值范圍、精度等規(guī)定。③參照完整性:指兩個關(guān)系表的主關(guān)鍵字和外關(guān)鍵字的數(shù)據(jù)應(yīng)一致,保證了表之間的數(shù)據(jù)的一致性,防止了數(shù)據(jù)丟失或無意義的數(shù)據(jù)在數(shù)據(jù)庫中擴散。④用戶定義的完整性:不同的關(guān)系數(shù)據(jù)庫系統(tǒng)根據(jù)其應(yīng)用環(huán)境的不同,往往還需要一些特殊的約束條件。用戶定義的完整性即針對某個特定關(guān)系數(shù)據(jù)庫的約束條件,它反映某一具體應(yīng)用必須滿足的語義要求。3.傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點包括()。A、數(shù)據(jù)一致性高B、數(shù)據(jù)冗余度低C、簡單處理的效率高D、產(chǎn)品成熟度高【正確答案】:ABD解析:

略。4.下列屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:

常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。三、(共33題)5.下列關(guān)于情感分析的說法正確的是()A、簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程B、情感分析的發(fā)展得益于社交媒體的興起C、按照處理文本的粒度不同,情感分析大致可分為詞語級,句子級,篇章級三個D、情感分析可以應(yīng)用于文本挖掘【正確答案】:ABCD解析:

情感分析的定義即對帶有感情色彩的主觀性文本進行分析、處理、歸納和推理的過程,它得益于社交媒體的興起,從而能收集大量信息進行分析。其分析力度包括詞語級、句子級和篇章級。情感分析可用于文本挖掘。6.以下屬于圖像平滑算法的是()A、中值濾波B、均值濾波C、鄰域平均法D、高斯濾波【正確答案】:ABCD7.最常見的分詞算法可以分為哪三大類()A、基于字符串匹配的分詞方法B、基于理解的分詞方法C、基于統(tǒng)計的分詞方法D、基于閱讀的分詞方法【正確答案】:ABC解析:

無基于閱讀的分詞方法。8.Spark提交工作的方式有()。A、ClientB、ClusterC、StandaloneD、YARN【正確答案】:AB解析:

Spark提交作業(yè)的方式是Client和Clustero9.特征向量的歸一化方法有()。A、線性函數(shù)轉(zhuǎn)換B、對數(shù)函數(shù)轉(zhuǎn)換C、反余切函數(shù)轉(zhuǎn)換D、減去均值,除以方差【正確答案】:ABCD10.在數(shù)據(jù)缺失嚴重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進行填補。常用的填補方法有()。A、平均值填充B、K最近鄰距離法C、回歸法D、極大似然估計E、多重插補法【正確答案】:ABCDE解析:

在數(shù)據(jù)缺失嚴重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進行填補。常用的填補方法有平均值填充、K最近鄰距離法、回歸法、極大似然估計、多重插補法。11.下列關(guān)于中心極限定理的說法正確的有()。A、中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:

中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態(tài)分布為極限。12.常用來緩解BP網(wǎng)絡(luò)的過擬合的兩種策略是()。A、晚停B、早停C、正則化D、加入損失函數(shù)【正確答案】:BC解析:

解析:通常有兩種策略來緩解BP網(wǎng)絡(luò)的過擬合。第一種策略是早停(earlystopping)、即將數(shù)據(jù)分成訓(xùn)練集合驗證集,訓(xùn)練集用來計算梯度、更新連接權(quán)和閾值,驗證集用來估計誤差,若訓(xùn)練集誤差降低但驗證集誤差升高,則停止訓(xùn)練,同時返回具有最小驗證集誤差的連接權(quán)和閾值。第二種策略是正則化(regularization),其基本思想是在誤差目標函數(shù)中增加一個用于描述網(wǎng)絡(luò)復(fù)雜度的部分,例如連接權(quán)和閾值的平方和。13.主要用來實現(xiàn)實時計算類應(yīng)用的組件有()。A、流計算組件B、內(nèi)存計算組件C、MPP數(shù)據(jù)庫D、Hadoop的后臺定時分析計算任務(wù)【正確答案】:AB解析:

實時計算類應(yīng)用主要通過流計算組件、內(nèi)存計算組件來實現(xiàn)。14.相對于HadoopMapReduce,Spark的特點有()。A、通用性B、易用性C、速度快D、容錯性【正確答案】:ABC解析:

相對于HadoopMapReduce,Spark的特點包括速度快、通用性和易用性。15.下列關(guān)于Hive的說法正確的有()。A、Hive是基于Hadoop的數(shù)據(jù)倉庫工具B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表C、最初,Hive由Google開源,用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計問題D、Hive的主要應(yīng)用場景是離線分析【正確答案】:ABD解析:

Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術(shù)是GFS、BigTable、MapReduce。16.情感分析的應(yīng)用場景有()A、數(shù)據(jù)挖掘B、信息檢索C、文本分詞D、市場營銷【正確答案】:ABD解析:

情感分析常用于數(shù)據(jù)挖掘、信息檢索、市場營銷等,而文本分詞屬于文本處理的應(yīng)用場景。17.如果將A、B、C三個分類器的P-R曲線畫在一個圖中,其中A、B的P-R曲線可以完全包含住C的P-R曲線,A、B的P-R曲線有交點,A、B、C的平衡點分別為0.79、0.66、0.58,則下列說法中正確的有()。A、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器CB、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器BC、學(xué)習(xí)器B的性能優(yōu)于學(xué)習(xí)器CD、學(xué)習(xí)器C的性能優(yōu)于學(xué)習(xí)器B【正確答案】:ABC解析:

若一個學(xué)習(xí)器的P-R曲線被另一個學(xué)習(xí)器的曲線完全包住,則可斷官后者的性能優(yōu)于前者,如果兩個學(xué)習(xí)器的P-R曲線發(fā)生了交叉,則可用平衡點度量。18.數(shù)據(jù)挖掘算法的組件包括()。A、模型或模型結(jié)構(gòu)B、評分函數(shù)C、優(yōu)化和搜索方法D、數(shù)據(jù)管理策略【正確答案】:ABCD解析:

數(shù)據(jù)挖掘算法的組件包括模型或模型結(jié)構(gòu)、評分函數(shù)、優(yōu)化和搜索方法、數(shù)據(jù)管理策略。19.下列關(guān)于Pig的說法正確的有()。A、Pig的主要目的是彌補MapReduce編程的復(fù)雜性B、Pig的核心是一種數(shù)據(jù)分析語言C、Pig程序的結(jié)構(gòu)適合串行處理D、Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分【正確答案】:ABD解析:

Pig程序的結(jié)構(gòu)適合并行處理。20.下列關(guān)于學(xué)習(xí)器結(jié)合的描述正確的有()。A、避免單學(xué)習(xí)器可能因誤選而導(dǎo)致泛化性能不佳B、降低陷入局部極小點的風(fēng)險C、假設(shè)空間擴大有可能學(xué)得更好的近似D、多學(xué)習(xí)器結(jié)合有可能沖突【正確答案】:ABC解析:

學(xué)習(xí)器結(jié)合可能會從三個方面帶來好處。從統(tǒng)計方面來看,由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大,可能有多個假設(shè)在訓(xùn)練集上達到同等性能,此時若使用單學(xué)習(xí)器可能因誤選而導(dǎo)致泛化性能不佳,結(jié)合多個學(xué)習(xí)器則會減小這一風(fēng)險;從計算方面來看,學(xué)習(xí)算法往往會陷入局部極小,有的局部極小點所對應(yīng)的泛化性能可能很糟糕。而通過多次運行之后進行結(jié)合,可降低陷入糟糕局部極小點的風(fēng)險;從表示方面來看,某些學(xué)習(xí)任務(wù)的真實假設(shè)可能不在當前學(xué)習(xí)算法所考慮的假設(shè)空間中,此時若使用單學(xué)習(xí)器則肯定無效,而通過結(jié)合多個學(xué)習(xí)器,由于相應(yīng)的假設(shè)空間有所擴大,有可能學(xué)得更好的近似。21.下面屬于可視化高維數(shù)據(jù)技術(shù)的是哪些()A、矩陣B、平行坐標系C、星形坐標系D、散布圖【正確答案】:ABC解析:

矩陣、平行坐標系和星形坐標系都屬于可視化高維數(shù)據(jù)的常用技術(shù),而散布圖又叫相關(guān)圖,只能處理二維數(shù)據(jù)。22.數(shù)據(jù)來源和目標用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標包括()。A、精確性B、可辨認性C、可分離性D、視覺突出性【正確答案】:ABCD解析:

在數(shù)據(jù)來源和目標用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標包括精確性、可辨認性、可分離性和視覺突出性。評價指標描述如下:①精確性代表的是人類感知系統(tǒng)對于可視化編碼結(jié)果和原始數(shù)據(jù)之間的吻合程度。斯坦福大學(xué)Mackinlay曾于1986年提出了不同視覺通道所表示信息的精確性。②可辨認性是指視覺通道的可辨認度。③可分離性是指同一個視覺圖形元素的不同視覺通道的表現(xiàn)力之間應(yīng)具備一定的獨立性。④視覺突出性是指視覺編碼結(jié)果能否在很短的時間內(nèi)(如毫秒級)能夠迅速準確表達出可視化編碼的主要意圖。23.鑒別多元共線特征后,下一步可能的操作有()。A、移除兩個共線變量B、不移除兩個變量,而是移除一個C、移除相關(guān)變量可能會導(dǎo)致信息損失,可以使用懲罰線性回歸模型(如ridge或lassoregression)【正確答案】:BC解析:

移除兩個變量會損失一切信息,所以只能移除一個特征,或者也可以使用正則化算法。24.下列關(guān)于神經(jīng)網(wǎng)絡(luò)模型描述正確的有()A、神經(jīng)網(wǎng)絡(luò)模型是許多邏輯單元按照不同層級組織起來的網(wǎng)絡(luò),每一層的輸出變量都是下一層的輸入變量B、神經(jīng)網(wǎng)絡(luò)模型建立在多神經(jīng)元之上C、神經(jīng)網(wǎng)絡(luò)模型中,無中間層的神經(jīng)元模型的計算可用來表示邏輯運算D、神經(jīng)網(wǎng)絡(luò)模型一定可以解決所有分類問題【正確答案】:ABC解析:

解析:現(xiàn)在很多分類問題的準確率都很低尤其是醫(yī)學(xué)圖像方面,而且容易受環(huán)境,如光照影響。25.HIS表色系的三屬性包含()A、色調(diào)B、飽和度C、亮度D、色度【正確答案】:ABC26.Hadoop運行的模式包括()。A、單機版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:

Hadoop運行模式包括單機版、偽分布式和分布式。27.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD28.下列關(guān)于數(shù)據(jù)科學(xué)中常用統(tǒng)計學(xué)知識的說法錯誤的有()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計的數(shù)據(jù)分析方法又可分為描述統(tǒng)計和推斷統(tǒng)計C、描述統(tǒng)計可分為集中趨勢分析、離散趨勢分析、參數(shù)估計和假設(shè)檢驗D、推斷統(tǒng)計包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:

從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法包括描述統(tǒng)計、假設(shè)檢驗、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計可分為集中趨勢分析和離散趨勢分析;推斷統(tǒng)計包括總體參數(shù)估計和假設(shè)檢驗兩方面內(nèi)容。29.常用的數(shù)據(jù)審計方法可以分為()。A、預(yù)定義審計B、自定義審計C、可視化審計D、結(jié)構(gòu)化審計【正確答案】:ABC解析:

常用的數(shù)據(jù)審計方法有預(yù)定義審計、自定義審計和可視化審計三種。30.下列關(guān)于隨機變量及其概率分布的說法正確的有()。A、隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:

扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。31.下列關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系的說法正確的有()。A、基礎(chǔ)設(shè)施提供數(shù)據(jù)計算、數(shù)據(jù)存儲、數(shù)據(jù)加工(DataWrangling或DataMunging)等服務(wù)B、數(shù)據(jù)流處理、統(tǒng)計工具、日志分析都屬于常用的開源工具C、數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機構(gòu)D、數(shù)據(jù)源與App為數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內(nèi)容【正確答案】:ABCD解析:

Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當時快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到了廣泛應(yīng)用和不斷更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017大數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開源工具、跨平臺基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。32.下列屬于數(shù)據(jù)挖掘方法的有()。A、聚類B、回歸分析C、神經(jīng)網(wǎng)絡(luò)D、決策樹算法【正確答案】:ABCD解析:

利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)則、特征、變化和偏差分析、Web頁挖掘等。分類方法有決策樹算法、KNN算法(k-nearestneighbor)、SVM算法、VSM算*Bayes算法、神經(jīng)網(wǎng)絡(luò)等。聚類算法有基于密度、基于層次、基于模型、基于網(wǎng)格等。關(guān)聯(lián)規(guī)則算法有Apriori算法、FP-Growth算法。33.下列關(guān)于連續(xù)型隨機變量以及連續(xù)型概率密度函數(shù)的說法正確的有()。A、一個客服一天可能接聽到多少個電話是一個連續(xù)型隨機變量B、正態(tài)分布是一種連續(xù)型隨機變量的概率分布C、可以使用概率密度函數(shù)來描述連續(xù)型隨機變量的概率分布D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1【正確答案】:BCD解析:

一個客服一天可能接聽到多少個電話是一個離散型隨機變量。34.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲數(shù)據(jù),表結(jié)構(gòu)包含的元素有()。A、關(guān)鍵字B、時間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:

BigTable和HBase的索引由行關(guān)鍵字、列簇和時間戳組成。35.HBase中KeyValue數(shù)據(jù)的存儲格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】:A解析:

HBase中KeyValue數(shù)據(jù)的存儲格式是HFile。36.MapReduce對map()函數(shù)的返回值處理后才傳給reduce()函數(shù),其中涉及的操作有()。A、合并B、排序C、分區(qū)D、抽樣【正確答案】:ABC解析:

分別涉及Shuffle(排序)、Combiner(合并)和Partition(分區(qū))操作。37.圖像處理中的去噪算法有()A、中值濾波B、均值濾波C、峰值濾波D、高值濾波【正確答案】:AB解析:

圖像處理中噪聲可用中值濾波或均值濾波將其與周圍圖像像素融合,達到降噪目的。38.機器學(xué)習(xí)的三個關(guān)鍵組成要素包含()。A、任務(wù)TB、性能指標PC、目標函數(shù)VD、經(jīng)驗來源E【正確答案】:ABD39.下列關(guān)于詞袋模型說法正確的是()A、詞袋模型可以忽略每個詞出現(xiàn)的順序B、詞袋模型不可以忽略每個詞出現(xiàn)的順序C、TensorFlow支持詞袋模型D、詞袋模型可以表出單詞之間的前后關(guān)系【正確答案】:AC解析:

詞袋模型的缺點之一就是不考慮詞語的順序關(guān)系,因此BD錯誤。40.按照涉及自變量的多少,可以將回歸分析分為()。A、線性回歸分析B、非線性回歸分析C、一元回歸分析D、多元回歸分析【正確答案】:CD解析:

按照涉及自變量的多少,可以將回歸分析分為一元回歸分析和多元回歸分析。41.以下跟圖像處理相關(guān)的是()A、圖像識別B、人臉識別C、視頻分析D、自然語言處理【正確答案】:ABC42.圖像識別的一般步驟包括()A、預(yù)處理B、特征提取C、超像素生成D、識別分類【正確答案】:ABD解析:

圖像識別中的一般步驟包括預(yù)處理、特征提取和識別分類。超像素生成并非必要步驟。43.下列可以用來構(gòu)造神經(jīng)網(wǎng)絡(luò)的算法有()。A、KNNB、線性回歸C、邏輯回歸【正確答案】:BC解析:

解析:KNN是一種基于實例的學(xué)習(xí)算法,不具有任何訓(xùn)練參數(shù)。因此不能用來構(gòu)造神經(jīng)網(wǎng)絡(luò),線性回歸和邏輯回歸都可以用來構(gòu)造神經(jīng)網(wǎng)絡(luò)模型,其實二者就是單神經(jīng)元的神經(jīng)網(wǎng)絡(luò)。44.在監(jiān)督式學(xué)習(xí)中使用聚類算法的方法有()。A、首先可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個額外的特征C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個額外的特征【正確答案】:AB解析:

我們可以為不同的集群構(gòu)建獨立的機器學(xué)習(xí)模型,并且可以提高預(yù)測精度。將每個類別的ID作為特征空間中的一個額外的特征可能會提高的精度結(jié)果。45.特征工程一般需要做的工作包含()。A、正則化B、標準化C、特征處理D、特征選擇【正確答案】:CD解析:

特征工程包括特征選擇、特征處理、特征變換、特征衍生等。46.Spark容錯性的方式有()。A、數(shù)據(jù)檢查點B、存儲原始數(shù)據(jù)C、記錄數(shù)據(jù)的更新D、自建數(shù)據(jù)版本【正確答案】:AC解析:

Spark容錯性有數(shù)據(jù)檢查點和記錄數(shù)據(jù)的更新兩種方式。47.處理圖像平滑處理的濾波有()A、盒式濾波B、均值濾波C、高斯濾波D、中值濾波【正確答案】:ABCD48.以下屬于圖像分割的算法的是:()A、閾值分割方法(thresholdsegmentationmethod)B、區(qū)域增長細分(regionalgrowthsegmentation)C、邊緣檢測分割方法(edgedetectionsegmentationmethod)D、基于聚類的分割(segmentationbasedonclustering)E、基于CNN中弱監(jiān)督學(xué)習(xí)的分割【正確答案】:ABCDE49.下列既可以用于分類,又可以用于回歸的機器學(xué)習(xí)算法有()。A、k近鄰B、邏輯回歸C、決策樹D、線性回歸【正確答案】:AC解析:

邏輯回歸只用于分類,線性回歸只用于回歸。50.算法“歧視”現(xiàn)象可能出現(xiàn)的過程有()。A、算法設(shè)計B、算法實現(xiàn)C、算法投入使用D、算法驗證【正確答案】:ABC解析:

算法歧視是指算法設(shè)計、實現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。51.文本分類過程包括()A、選擇訓(xùn)練文本B、選擇文本特征C、建立文本表示模型D、選擇分類方法【正確答案】:ABCD解析:

文本分類過程包括:(1)選擇訓(xùn)練文本;(2)選擇文本特征;(3)建立文本表示模型;(4)選擇分類方法;(5)分類結(jié)果的評估。52.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析、()等方面。A、關(guān)聯(lián)分析B、分類和預(yù)測分析C、聚類分析D、偏差分析【正確答案】:ABCD53.使用極大似然估計的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分數(shù)據(jù)集C、提前已知某先驗概率D、數(shù)據(jù)集各個屬性相對獨立【正確答案】:AB解析:

極大似然估計(MLE)要求樣本獨立同分布,否則無法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。54.下列屬于HBasc性能優(yōu)化的有()。A、讀優(yōu)化B、寫優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化【正確答案】:ABCD解析:

HHBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。55.下列說法中正確的有()。A、云計算的主要特點是非常昂貴B、大數(shù)據(jù)是多源、異構(gòu)、動態(tài)的復(fù)雜數(shù)據(jù),即具有4V特征的數(shù)據(jù)C、大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對象之一D、MapReduce是采用云計算這種新的計算模式研發(fā)出的具體工具軟件(或算法)【正確答案】:BCD解析:

云計算的一個重要優(yōu)勢在于其經(jīng)濟性。與其他計算模式不同的是,云計算的出發(fā)點是如何使用成本低的商用機(而不是成本很高的高性能服務(wù)器)實現(xiàn)強大的計算能力。56.以下網(wǎng)絡(luò)結(jié)構(gòu)中可以應(yīng)用于圖像識別任務(wù)的是()A、LeNet-5B、AlexNetCNND、VGG-net【正確答案】:ABCD解析:

四者均為經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)。57.()是通過對無標記訓(xùn)練樣本的學(xué)習(xí)來進行分類的。A、密度估計B、異常檢測C、線性回歸D、聚類分析【正確答案】:ABD58.下列關(guān)于機器學(xué)習(xí)的理解正確的有()。A、非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標簽的B、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標簽C、強化學(xué)習(xí)以輸入數(shù)據(jù)作為對模型的反饋D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)【正確答案】:BCD解析:

非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是不要求帶標簽的,監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標簽的。59.常用的代價函數(shù)有()。A、均方誤差B、均方根誤差C、平均絕對誤差D、交叉熵【正確答案】:ABCD60.Hadoop組件Zookeeper的設(shè)計目標和主要特點包括()。A、簡單性B、自我復(fù)制C、順序訪問D、高速讀取【正確答案】:ABCD解析:

ZooKeeper的設(shè)計目標和特點包括簡單性、自我復(fù)制、順序訪問和高速讀取。61.深度學(xué)習(xí)方法不適用的數(shù)據(jù)集有()。A、數(shù)據(jù)樣本充足B、數(shù)據(jù)樣本不足C、數(shù)據(jù)集具有局部相關(guān)特性D、數(shù)據(jù)集沒有局部相關(guān)特性【正確答案】:BD解析:

以下數(shù)據(jù)集不適用于深度學(xué)習(xí):①數(shù)據(jù)集太小,數(shù)據(jù)樣本不足時,深度學(xué)習(xí)相對其他機器學(xué)習(xí)算法沒有明顯優(yōu)勢;②數(shù)據(jù)集沒有局部相關(guān)特性,目前深度學(xué)習(xí)表現(xiàn)比較好的領(lǐng)域主要是圖像、語音、自然語言處理等領(lǐng)域,這些領(lǐng)域的一個共性是局部相關(guān)性。圖像中像素組成物體,語音信號中音位組合成單詞,文本數(shù)據(jù)中單詞組合成句子,這些特征元素的組合一旦被打亂,表示的含義同時也被改變。對于沒有這樣的局部相關(guān)性的數(shù)據(jù)集,不適用于使用深度學(xué)習(xí)算法進行處理。62.常見的回歸分析的種類有()。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回歸【正確答案】:ACD63.下列關(guān)于MapReduce1.0版本的說法正確的有()。A、擴展性差B、可靠性差C、資源利用率低D、無法支持多種計算框架【正確答案】:ABCD解析:

MapReducel.0存在的局限性包括擴展性差、可靠性差、資源利用率低、無法支持多種計算框架。64.對于不同場景內(nèi)容,一般數(shù)字圖像可以分為()A、二值圖像B、灰度圖像C、彩色圖像D、深度圖像【正確答案】:ABC解析:

深度圖像中深度通道為描述距離,一般對其進行采樣或數(shù)值離散化。65.預(yù)剪枝使得決策樹的很多分子都沒有展開,則會導(dǎo)致的結(jié)果有()。A、顯著減少訓(xùn)練時間開銷B、顯著減少測試時間開銷C、降低過擬合風(fēng)險D、提高欠擬合風(fēng)險【正確答案】:ABCD解析:

預(yù)剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風(fēng)險,還顯著減少了決策樹的訓(xùn)練時間開銷和測試時間開銷。但另一方面,有些分支的當前劃分雖不能提升泛化性能,甚至可能導(dǎo)致泛化性能暫時下降,但在其基礎(chǔ)上進行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于貪心原則,禁止這些分支展開,提高了欠擬合的風(fēng)險。66.下列關(guān)于Spark中RDD的描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計算Dataset:就是一個集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:

A、B、C、D全部正確。67.集成學(xué)習(xí)中增強多樣性的常見做法有()。A、數(shù)據(jù)樣本擾動B、輸入屬性擾動C、輸出表示擾動D、算法參數(shù)擾動【正確答案】:ABCD解析:

集成學(xué)習(xí)中增強多樣性的常見做法主要有對數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進行擾動。68.RDD的特征有()。A、可容錯性B、簡潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:

RDD是一個容錯的、并行的數(shù)據(jù)結(jié)構(gòu)。69.下列描述中屬于Analytics2.0主要特點的有()。A、側(cè)重嵌入式分析B、重視非結(jié)構(gòu)化數(shù)據(jù)的分析C、以決策支持為主要目的D、注重解釋性分析和預(yù)測性分析【正確答案】:BCD解析:

著名管理學(xué)家Thomas·H·Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具-分析學(xué)(Analytics)分為三個不同時代-商務(wù)智能時代、大數(shù)據(jù)時代和數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics2.0的主要特點有分析活動與數(shù)據(jù)的生成幾乎同步,強調(diào)數(shù)據(jù)分析的實時性;重視非結(jié)構(gòu)化數(shù)據(jù)的分析;以決策支持為主要目的;注重解釋性分析和預(yù)測性分析。70.Spark中的Scheduler模塊可以分為()。A、DAGSchcdulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正確答案】:AC解析:

Scheduler模塊分為DAGScheduler和TaskScheduler兩個部分。71.大數(shù)據(jù)處理流程可以概括為()。A、數(shù)據(jù)分析與挖掘B、數(shù)據(jù)采集C、數(shù)據(jù)儲存D、結(jié)果展示【正確答案】:ABCD解析:

算法歧視是指算法設(shè)計、實現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。

6.數(shù)據(jù)增值存在的過程有()。

A.數(shù)據(jù)對象的封裝

B.數(shù)據(jù)系統(tǒng)的研發(fā)

C.數(shù)據(jù)的集成應(yīng)用

D.基于數(shù)據(jù)的創(chuàng)新

參考【正確答案】:ABCD

解析:數(shù)據(jù)對象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進行數(shù)據(jù)增值。

7.大數(shù)據(jù)參考架構(gòu)的三個層次包含()。

A.角色

B.活動

C.邏輯構(gòu)件

D.功能組件

參考【正確答案】:ABD

解析:GB/T35589-2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動的功能組件以及它們之間的關(guān)系。

8.分布式列式存儲的功能有()。

A.支持在線快速讀寫

B.支持線性擴展

C.具備節(jié)點監(jiān)控管理

D.數(shù)據(jù)同源不壓縮

參考【正確答案】:ABC

解析:分布式列式存儲的功能包括數(shù)據(jù)壓縮。

9.下列關(guān)于現(xiàn)階段大數(shù)據(jù)72.Spark的關(guān)鍵技術(shù)包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】:ABCD解析:

Spark的關(guān)鍵技術(shù)包括RDD、Schedulcr、Storagc、Shuffc。73.以下可用于處理由于光照不均帶來的影響的圖像處理方法有()A、同態(tài)濾波B、頂帽變換C、基于移動平均的局部閾值處理D、拉普拉斯算子【正確答案】:ABC解析:

拉普拉斯算子屬于銳化濾波器,并不能處理光照不均勻帶來的影響。74.下列關(guān)于深度學(xué)習(xí)的實質(zhì)及其與淺層學(xué)習(xí)區(qū)別的說法正確的有()A、深度學(xué)習(xí)強調(diào)模型深度B、深度學(xué)習(xí)突出特征學(xué)習(xí)的重要性:特征變換+非人工C、沒有區(qū)別D、以上答案都不正確【正確答案】:AB解析:

解析:深度模型是手段,特征學(xué)習(xí)是目的。75.Spark比MapReduce計算快的原因有()。A、基于內(nèi)存的計算B、基于DAG的調(diào)度框架C、基于Lineage的容錯機制D、基于分布式計算的框架【正確答案】:ABC解析:

Spark比MapReduce計算快的原因包括基于內(nèi)存計算、使用基于Lineage的容錯機制和基于DAG的調(diào)度框架。76.基于Hadoop開源大數(shù)據(jù)平臺主要提供了針對數(shù)據(jù)分布式計算和存儲能力,如下感于分布式存儲組件的有()。A、MapReduceB、SparkC、HDFSD、HBasc【正確答案】:CD解析:

MapRcduce和Spark的核心功能是分布式計算。77.聚類性能度量外部指標包括()。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)【正確答案】:ABD解析:

常用的聚類性能度量外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。78.下列關(guān)于密度聚類的說法錯誤的有()。A、DBSCAN是一種著名的密度聚類算法B、密度聚類從樣本數(shù)量的角度來考察樣本之間的可連接性C、密度聚類基于不可連接樣本不斷擴展聚類簇,以獲得最終的聚類結(jié)果D、密度直達關(guān)系通常滿足對稱性【正確答案】:BCD解析:

密度聚類從樣本密度的角度來考察樣本之間的可連接性;密度聚類基于可連接樣本不斷擴展聚類簇,以獲得最終的聚類結(jié)果;密度直達關(guān)系通常不滿足對稱性;密度可達關(guān)系滿足直遞性,但不滿足對稱性;密度相連關(guān)系滿足對稱性。7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論