版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第頁大數(shù)據(jù)題庫-綜合練習(xí)測試題附答案1.下列屬于NoSQL數(shù)據(jù)庫中Key-Value缺點的是()。A、不記錄結(jié)構(gòu)信息B、查詢性能不高,缺乏統(tǒng)一查詢語法C、功能相對有限D(zhuǎn)、功能相對有限,不易于做分布式集群【正確答案】:A解析:
Key-Value型數(shù)據(jù)通常Key與Value之間采用某種方法(如哈希表)建立KValue映射,其缺點是不記錄結(jié)構(gòu)信息,無法建立索引。2.下列關(guān)于文本分類的說法不正確的是()。A、文本分類是指按照預(yù)先定義的主題類別,由計算機自動地為文檔集合中的每個文檔確定一個類別B、文本分類系統(tǒng)大致可分為基于知識工程的分類系統(tǒng)和基于機器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計算兩個步驟【正確答案】:C解析:
詞袋模型沒有考慮文本詞語的原本行文順序。3.下列描述中不屬于數(shù)據(jù)治理內(nèi)容的是()。A、理解自己的數(shù)據(jù)B、行為規(guī)范的制定C、崗位職責(zé)的定義D、獲得更多的數(shù)據(jù)【正確答案】:D解析:
獲得更多的數(shù)據(jù)不屬于數(shù)據(jù)治理。4.在Hadoop生態(tài)系統(tǒng)中,()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡單的查詢語言。A、PigB、HBascC、HiveD、MapReduce【正確答案】:C解析:
在Hadoop生態(tài)系統(tǒng)中,Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡單的查詢語言。5.在Hadoop的分區(qū)階段,默認的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用戶自定義的Partitioner【正確答案】:C解析:
Hadoop中默認的Partitioner是HashPartitioner。6.對參數(shù)進行L2正則,是機器學(xué)習(xí)常用的防止過擬合的方法。對參數(shù)做L2正則時,()是對參數(shù)本身做先驗分布假設(shè)。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】:A解析:
L2正則假設(shè)參數(shù)的先驗分布是高斯分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會太大或太小。7.依托(),結(jié)合應(yīng)用推進數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。A、全業(yè)務(wù)數(shù)據(jù)中心和數(shù)據(jù)平臺B、營銷基礎(chǔ)數(shù)據(jù)平臺和大數(shù)據(jù)平臺C、全業(yè)務(wù)中心和營銷基礎(chǔ)數(shù)據(jù)平臺D、全業(yè)務(wù)數(shù)據(jù)中心和大數(shù)據(jù)平臺【正確答案】:A解析:
詳見《國網(wǎng)互聯(lián)網(wǎng)部關(guān)于加強數(shù)據(jù)管理的通知》(互聯(lián)數(shù)據(jù)[2019]14號)。8.下列關(guān)于文本分類的說法不正確的是()A、文本分類是指按照預(yù)先定義的主題類別,由計算機自動地為文檔集合中的每個文檔確定一個類別B、文本分類大致可分為基于知識工程的分類系統(tǒng)和基于機器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計算兩個步驟【正確答案】:C解析:
詞袋模型是指將所有詞語裝進一個袋子里,不考慮其詞法和語序的問題,即每個詞語都是獨立的,所以該模型沒有考慮文本詞語的行文順序,C錯誤,選C9.下列不屬于數(shù)據(jù)科學(xué)項目主要角色的是()。A、項目發(fā)起人B、項目經(jīng)理C、操作員D、驗收人員【正確答案】:D解析:
數(shù)據(jù)科學(xué)項目涉及的主要角色有項目發(fā)起人(ProjectSponsor)、項目經(jīng)理(ProjecManager)、客戶(Client)、數(shù)據(jù)科學(xué)家(DataScientist)、數(shù)據(jù)工程師(DataEngineer)、操作員(Operations)等。10.SVM在()情況下表現(xiàn)糟糕。A、線性可分數(shù)據(jù)B、清洗過的數(shù)據(jù)C、含噪聲數(shù)據(jù)與重疊數(shù)據(jù)點【正確答案】:C解析:
[y1(wx,+b)≥1]下11.屬于深度學(xué)習(xí)框架的是()A、TensorflowB、CaffeC、PyTorchD、以上答案都正確【正確答案】:D解析:
解析:Tensorflow、Caffe、PyTorch都是流行的深度學(xué)習(xí)框架。12.通過K-means算法進行聚類分析后得出的聚類結(jié)果的特征是()。A、同一聚類中的對象間相似度高,不同聚類中的對象間相似度高B、同一聚類中的對象間相似度高,不同聚類中的對象間相似度低C、同一聚類中的對象間相似度低,不同聚類中的對象間相似度低D、同一聚類中的對象間相似度低,不同聚類中的對象間相似度高【正確答案】:B13.下列業(yè)務(wù)場景中,不能直接使用Reducer充當(dāng)Combiner的是()。A、sum求和B、max求最大值C、count求計數(shù)D、avg求平均【正確答案】:D解析:
求平均需要對全部數(shù)據(jù)進行計算而非部分數(shù)據(jù),在不更改業(yè)務(wù)邏輯的情況,使用Reducer充當(dāng)Combiner,最終會造成業(yè)務(wù)結(jié)果不正確。14.假設(shè)你需要調(diào)整參數(shù)來最小化代價函數(shù)(costfunction),會使用()技術(shù)。A、窮舉搜索B、隨機搜索C、Bayesian優(yōu)化D、以上全是【正確答案】:D15.Spark比MapReduce快的原因不包括()。A、Spark基于內(nèi)存迭代,而MapReduce基于磁盤迭代B、DAG計算模型比MapReduce更有效率C、Spark是粗粒度的資源調(diào)度,而MapReduce是細粒度的資源調(diào)度D、Spark支持交互式處理,MapReduce善于處理流計算【正確答案】:D解析:
A、B、C是Spark比MapReduce快的原因。MapReduce不善于處理除批處理算模式之外的其他計算模式,如流計算、交互式計算和圖計算等。16.下列關(guān)于DMM(數(shù)據(jù)管理成熟度模型)中已管理級基本特點的描述正確的是()。A、組織機構(gòu)的數(shù)據(jù)管理關(guān)鍵活動能夠根據(jù)結(jié)構(gòu)自身的反饋以及外部環(huán)境的變革進行不斷優(yōu)化B、組織機構(gòu)已用定量化的方式管理其關(guān)鍵過程的執(zhí)行過程C、組織機構(gòu)只在項目管理過程中執(zhí)行了D、M給出的關(guān)鍵過程,而缺乏機構(gòu)層次的統(tǒng)籌與管理E、組織機構(gòu)的數(shù)據(jù)管理工作超出了項目管理的范疇,由組織機構(gòu)統(tǒng)一管理其數(shù)據(jù)管理關(guān)鍵過程【正確答案】:D解析:
DMM(數(shù)據(jù)管理成熟度模型)中“已管理級”的基本特點是組織機構(gòu)的數(shù)據(jù)管埋工作超出了項目管理的范疇,由組織機構(gòu)統(tǒng)一管理其數(shù)據(jù)管理關(guān)鍵過程。17.下列關(guān)于Apriori算法原理的敘述錯誤的是()。Apriori算法通常使用先驗知識或者假設(shè)B、如果某個項集是頻繁的,那么它的所有子集也是頻繁的C、如果一個項集是非頻繁集,那么它的所有超集也是非頻繁的D、Apriori算法不可以用來發(fā)現(xiàn)頻繁集【正確答案】:D解析:
Apriori算法可以用來發(fā)現(xiàn)頻繁集。18.對連續(xù)圖像的離散化采樣決定了圖像的()A、空間分辨率B、時間分辨率C、地面分辨率D、灰度值【正確答案】:A解析:
連續(xù)圖像變?yōu)殡x散圖像需要每隔一定距離取一次樣,這里的一定距離就是采樣距離,采樣距離越大,而像素點越少,圖像越模糊,反之亦然。19.下列關(guān)于隨機森林的說法正確的是()。A、隨機森林對于高維數(shù)據(jù)集的處理能力比較好B、在對缺失數(shù)據(jù)進行估計時,隨機森林是一個十分有效的方法C、當(dāng)存在分類不平衡的情況時,隨機森林能夠提供平衡數(shù)據(jù)集誤差的有效方法D、以上答案都正確【正確答案】:D解析:
隨機森林對于高維數(shù)據(jù)集的處理能力比較好,在對缺失數(shù)據(jù)進行估計時,隨機森林是一個十分有效的方法,當(dāng)存在分類不平衡的情況時,隨機森林能夠提供平衡數(shù)據(jù)集誤差的有效方法。20.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征,適合的讀寫任務(wù)是()。A、一次寫入、少次讀取B、多次寫入、少次讀取C、多次寫入、多次讀取D、一次寫入、多次讀取【正確答案】:D解析:
HDFS的設(shè)計以一次寫入、多次讀取為主要應(yīng)用場景。21.決策樹的基本流程遵循()的策略。A、貪心B、最優(yōu)化C、分而治之D、順序【正確答案】:C22.視覺編碼的前提是分析并了解目標(biāo)用戶的(),盡量降低目標(biāo)用戶的()A、視覺感知特征;感知障礙B、視覺感知特征;感知時間C、視覺感知習(xí)慣;感知障礙D、視覺感知習(xí)慣;感知時間【正確答案】:A23.()屬于SVM應(yīng)用。A、文本和超文本分類B、圖像分類C、新文章聚類D、以上均是【正確答案】:D解析:
SVM可用于分類與回歸,文本和超文本分類、圖像分類、新文章聚類。24.下列關(guān)于關(guān)鍵詞提取的說法錯誤的是()A、關(guān)鍵詞提取是指借用自然語言處理方法提取文章關(guān)鍵詞B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題D、這個問題設(shè)計數(shù)據(jù)挖掘,文本處理,信息檢索等領(lǐng)域【正確答案】:C解析:
只依靠文本中出現(xiàn)次數(shù)即詞頻所得到的關(guān)鍵詞有很大的不確定性,對于長度比較長的文本,這個方法會有很大的噪音,雖然它在文本中出現(xiàn)的次數(shù)最多,但它很可能在語料庫中出現(xiàn)的次數(shù)也很高,所以單憑文本中出現(xiàn)次數(shù)最多這一個特性并不能準確的代表文本的主題,所以C錯誤,選C。25.圖像與灰度直方圖的對應(yīng)關(guān)系為()A、一一對應(yīng)B、一對多C、多對一D、以上答案都正確【正確答案】:C解析:
灰度直方圖是灰度級的函數(shù),它表示圖像中具有每種灰度級的像素的個數(shù),反映圖像中每種灰度出現(xiàn)的頻率?;叶戎狈綀D的橫坐標(biāo)是灰度級,縱坐標(biāo)是該灰度級出現(xiàn)的頻率,是圖像的最基本的統(tǒng)計特征。與圖像之間的關(guān)系是多對一的映射關(guān)系。一幅圖像唯一確定出與之對應(yīng)的直方圖,但不同圖像可能有相同的直方圖,選C。26.常見的圖像預(yù)處理方法不包括()A、圖像降噪B、圖像增強C、圖像尺寸歸一化D、圖像標(biāo)注【正確答案】:D解析:
圖像預(yù)處理的主要目的是消除圖像中無關(guān)的信息,恢復(fù)有用的真實信息,主要包括去噪、對比度增強。圖像尺寸歸一化也是為了增強對比度。圖像標(biāo)注是圖像處理方法。27.()的主要目標(biāo)是提供可擴展的機器學(xué)習(xí)算法及其實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:A解析:
Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實現(xiàn),如聚類、分類、推薦過濾、頻繁子項挖掘等。28.()不是k最近鄰分類器的特點。A、它使用具體的訓(xùn)練實例進行預(yù)測,不必維護源自數(shù)據(jù)的模型B、分類一個測試樣例開銷很大C、最近鄰分類器基于全局信息進行預(yù)測D、可以生產(chǎn)任意形狀的決策邊界【正確答案】:C解析:
k最近鄰中(k-nearestneighbors,KNN)的近鄰指的是距離待預(yù)測數(shù)據(jù)的數(shù)據(jù)點,而k近鄰指的是取距k最近的幾個數(shù)據(jù)點,并非基于全局信息進行預(yù)測。29.()是指針對用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價值最重要也是最直接的發(fā)現(xiàn)方式。A、數(shù)據(jù)服務(wù)B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)應(yīng)用【正確答案】:A解析:
數(shù)據(jù)服務(wù)指針對用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價值最重要也是最直接的發(fā)現(xiàn)方式。30.考察一個由三個卷積層組成的CNN:keernel=3x3,stride=2,padding=SAME。最低層輸出100個特征映射(featuremap),中間層200個特征映射,最高層400個特征映射。輸入是200x300的RGB圖片,則總參數(shù)的數(shù)量是()。A、903400B、2800C、180200D、720400【正確答案】:A解析:
解析:第一層中由于第一個卷積keternel=3x3,輸入有3個通道(channel),因此每個特征映射有3x3x3=27個weight,加上1個偏置項bias,每個特征映射對應(yīng)28個參數(shù)。由于第一層有100個特征映射,因此有2800個參數(shù);第二層中kernel=3x3,,輸入是前一層的100個特征映射,因此每個特征映射有3x3x3x100=900weight,加上1個偏置項bias,每個特征映射對應(yīng)901個參數(shù)。由于共有200個特征映射,因此需要901200=180200個參01x200=18數(shù);第三層中kernel=3x3,輸入是前一層的200個特征映射,因此(第三層的)每個特征映射有3x3x200=1800個weight,加上1個偏置項bias,每個特征映射對應(yīng)1801個參數(shù)。由于第三層有400個特征映射。因此這一層共有1801x400=720400個參數(shù)。以上求和共有2800+180200+720400=903400個參數(shù)。31.對文本數(shù)據(jù)處理,通常采用()核函數(shù)A、多項式B、SigmoidC、線性D、拉普拉斯【正確答案】:C32.情感信息歸納常見的存在形式是()A、語料庫B、情感文摘C、情感評論D、情感傾向【正確答案】:B33.K-Means算法無法聚()樣本。A、圓形分布B、螺旋分布C、帶狀分布D、凸多邊形分布【正確答案】:B解析:
K-Means算法是基于距離測量的,無法聚非凸形狀的樣本。34.因子分析把每個原始變量分解為()兩部分因素。A、公共因子和特殊因子B、特殊因子和相關(guān)因子C、相關(guān)因子和獨立因子D、獨立因子和公共因子【正確答案】:A解析:
因子分析把每個原始變量分解為公共因子和特殊因子兩部分因素。35.MapReduce默認的分區(qū)函數(shù)是()。A、hashB、diskC、reduceD、map【正確答案】:A解析:
MapReduce默認的分區(qū)函數(shù)是hash。36.長短時記憶神經(jīng)網(wǎng)絡(luò)被設(shè)計用來解決的問題是()。A、傳統(tǒng)RNN存在的梯度消失/爆炸問題B、傳統(tǒng)RNN計算量大的問題C、傳統(tǒng)RNN速度較慢的問題D、傳統(tǒng)RNN容易過過擬合的問題【正確答案】:A37.()是一種著名的密度聚類算法,它基于一組鄰域參數(shù)來刻畫樣本的緊密程度。A、DBSCANB、原型聚類C、密度聚類D、層次聚類【正確答案】:A38.Spark中引人RDD概念的目的是()。A、數(shù)據(jù)存儲B、數(shù)據(jù)查重C、提升容錯能力D、增強數(shù)據(jù)一致性【正確答案】:C解析:
在Spark中引入RDD概念的目的是實現(xiàn)Spark的并行操作和靈活的容錯能力。39.下列描述中屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域數(shù)據(jù)戰(zhàn)略的是()。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語表C、數(shù)據(jù)質(zhì)量評估D、過程質(zhì)量保障【正確答案】:A解析:
數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。40.()用于對RDD中的數(shù)據(jù)進行計算。A、分區(qū)B、算子C、日志D、數(shù)據(jù)塊【正確答案】:B解析:
算子是Spark中定義的函數(shù),用于對RDD中的數(shù)據(jù)進行操作、轉(zhuǎn)換和計算。41.()不是長短時記憶神經(jīng)網(wǎng)絡(luò)三個門中的一個門A、輸入門B、輸出門C、遺忘門D、進化門【正確答案】:D解析:
解析:長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)增加了三個門用來控制信息傳遞和最后的結(jié)果計算,三個門分別為遺忘門、輸入門、輸出門。42.對分類任務(wù)來說,學(xué)習(xí)器從類別標(biāo)記集合中預(yù)測出一個標(biāo)記,最常見的結(jié)合策略是()。A、投票法B、平均法C、學(xué)習(xí)法D、排序法【正確答案】:A43.當(dāng)訓(xùn)練樣本近似線性可分時,()。A、通過硬間隔最大化,學(xué)習(xí)一個非線性支持向量機B、通過軟間隔最大化,學(xué)習(xí)一個線性支持向量機C、通過硬間隔最大化,學(xué)習(xí)一個線性支持向量機D、通過軟間隔最大化,學(xué)習(xí)一個非線性支持向量機【正確答案】:B44.大數(shù)據(jù)平臺核心分布式存儲與計算組件采用Hadoop技術(shù)體系中的分布式存儲、分布式計算框架及Spark等開源產(chǎn)品和技術(shù),實現(xiàn)對數(shù)據(jù)的安全控制和管理功能,其中分布式存儲不包括()。A、HDFSB、PostgresqC、HiveD、HBase【正確答案】:B解析:
Postgresql并非分布式存儲。45.數(shù)據(jù)科學(xué)處于()三大領(lǐng)域的重疊之處。A、數(shù)學(xué)與統(tǒng)計知識、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識B、數(shù)據(jù)挖掘、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識C、數(shù)學(xué)與統(tǒng)計知識、數(shù)據(jù)挖掘、領(lǐng)域?qū)崉?wù)知識D、數(shù)學(xué)與統(tǒng)計知識、黑客精神與技能、數(shù)據(jù)挖掘【正確答案】:A解析:
根據(jù)DrewConway的數(shù)據(jù)科學(xué)韋恩圖(DataScienceVennDiagram),數(shù)據(jù)科學(xué)處于數(shù)學(xué)與統(tǒng)計知識、黑客精神與技能和領(lǐng)域?qū)崉?wù)知識等三大領(lǐng)域的交叉之處。46.下列關(guān)于Bagging的說法錯誤的是()。A、各基分類器之間有較強依賴,不可以進行并行訓(xùn)練B、最著名的算法之一是基于決策樹基分類器的隨機森林C、當(dāng)訓(xùn)練樣本數(shù)量較少時,子集之間可能有重疊D、為了讓基分類器之間互相獨立,需要將訓(xùn)練集分為若干子集【正確答案】:A解析:
Bagging方法在訓(xùn)練過程中,各基分類器之間無強依賴,可以進行并行訓(xùn)練,隨機森林就是一種典型的例子。47.對于一個分類任務(wù),如果開始時神經(jīng)網(wǎng)絡(luò)的權(quán)重不是隨機賦值的,而是都設(shè)成0,則下列敘述正確的是()A、沒有問題,神經(jīng)網(wǎng)絡(luò)會正常開始訓(xùn)練B、神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練,但是所有的神經(jīng)元最后都會變成識別同樣的東西C、神經(jīng)網(wǎng)絡(luò)不會開始訓(xùn)練,因為沒有梯度改變D、以上選項都不對【正確答案】:B48.SparkJob默認的調(diào)度模式是()。A、FIFOB、FAIRC、無D、運行時指定【正確答案】:A解析:
默認情況下Spark的調(diào)度模式是FIFO(先進先出)。49.下列不屬于數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)區(qū)別的是(A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學(xué)關(guān)注的不僅僅是“單一學(xué)科”問題,超出了數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)等單一學(xué)科的范疇C、數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)域?qū)崉?wù)知識,它關(guān)注和強調(diào)的是二者的結(jié)合D、數(shù)據(jù)科學(xué)和統(tǒng)計學(xué)中的計算一樣,僅僅是加減乘除【正確答案】:D解析:
數(shù)據(jù)科學(xué)中的計算并不僅僅是加/減/乘/除等數(shù)學(xué)計算,而是包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型的計算。50.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術(shù)價值鏈B、信息技術(shù)價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術(shù)價值鏈D、信息(活動)價值鏈和信息交互價值鏈【正確答案】:A解析:
大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價值鏈的信息價值鏈(水平軸)和信息技術(shù)價值鏈(垂直軸)兩個維度組織展開。51.輸入圖像為37x37,經(jīng)過第一層卷積(thenumberoffilteters=25,kemelsizesize=5x5,,paddingvalid,strid)與池化層maxpooling(kemelsimelsize=3x3,,padding=valid),輸出特征圖rde=l大小為()A、10x10B、11x11C、12x12D、13x13【正確答案】:B解析:
解析:(37-5+1)/3=11。52.()算法是決策樹學(xué)習(xí)的基本算法,其他多數(shù)決策樹學(xué)習(xí)方法都是它的變體。A、Find-SB、KNNC、概念D、ID3【正確答案】:D53.AUC是衡量()模型優(yōu)劣的一種評價指標(biāo)。A、回歸B、分類C、二分類D、聚類【正確答案】:C54.假定使用SVM學(xué)習(xí)數(shù)據(jù)X,數(shù)據(jù)X里面有些點存在錯誤?,F(xiàn)在如果使用一個二次核函數(shù),多項式階數(shù)為2,使用松弛變量C作為超參之一。當(dāng)使用較大的C(C趨于無窮),則()。A、仍然能正確分類數(shù)據(jù)B、不能正確分類C、不確定D、以上均不正確【正確答案】:A解析:
采用更大的C,誤分類點的懲罰就更大,因此決策邊界將盡可能完美地分類數(shù)據(jù)。55.基于Bagging的集成學(xué)習(xí)代表算法有()。AdaboostB、GBDTC、XGBOOSTD、隨機森林【正確答案】:D解析:
基于Boosting的集成學(xué)習(xí)算法的集成學(xué)習(xí)代表算法包含Adaboost、GBDT、XGBOOST,隨機森林是基于Bagging。56.假設(shè)在龐大的數(shù)據(jù)集上使用Logistic回歸模型,可能遇到一個問題,Logistic回歸需要很長時間才能訓(xùn)練,如果對相同的數(shù)據(jù)進行邏輯回歸,則花費更少的時間,并給出比較相似的精度的方法是()。A、降低學(xué)習(xí)率,減少迭代次數(shù)B、降低學(xué)習(xí)率,增加迭代次數(shù)C、提高學(xué)習(xí)率,增加迭代次數(shù)D、增加學(xué)習(xí)率,減少迭代次數(shù)【正確答案】:D解析:
如果在訓(xùn)練時減少迭代次數(shù),就能花費更少的時間獲得相同的精度,但需要增加學(xué)習(xí)率。57.下列關(guān)于OLAP和OLTP的區(qū)別描述不正確的是()。A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)C、OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D、OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的【正確答案】:C解析:
OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,記錄即時的增、刪、改、查,比如在銀行存取一筆款,就是一個事務(wù)交易。OLAP即聯(lián)機分析處理,是數(shù)據(jù)倉庫的核心,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動態(tài)報表系統(tǒng)。58.下列關(guān)于計算機存儲容量單位的說法錯誤的是()。A、1kBB、基本單位是字節(jié)(Byte)C、一個漢字需要一個字節(jié)的存儲空間D、一個字節(jié)能夠容納一個英文字符【正確答案】:C解析:
通常,一個漢字需要兩個字節(jié)的存儲空間。59.決策樹模型的規(guī)模應(yīng)當(dāng)是()。A、越復(fù)雜越好B、越簡單越好C、適當(dāng)限制其復(fù)雜程度D、盡可能利用所有特征【正確答案】:C解析:
決策樹模型的規(guī)模復(fù)雜可能產(chǎn)生過擬合,因此并非越復(fù)雜做好,應(yīng)適當(dāng)限制其復(fù)雜程度。60.下面算法中屬于圖像銳化處理的是()A、低通濾波B、加權(quán)平均法C、高通濾波D、中值濾波【正確答案】:C解析:
高通濾波(high-passfilter)是一種過濾方式,規(guī)則為高頻信號能正常通過,而低于設(shè)定臨界值的低頻信號則被阻隔、減弱。通濾波屬于頻率域濾波,它保留高頻,抑制低頻,是圖像銳化的一種方式。61.下列進程中不是HDFS的守護進程的是()。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YamChildD、NameNode【正確答案】:C解析:
NameNode是HDFS集群的主節(jié)點,DataNode是HDFS集群的從節(jié)點,SecondaryNameNode是HDFS集群啟動的用來給NameNode節(jié)點分擔(dān)壓力的角色,這個三個服務(wù)進程會一直啟動著。MRAppMaster/YarnChild進程是只有在YARN集群運行了MapReduce程序之后才會啟動的程序。62.如果自變量X和因變量Y之間存在高度的非線性和復(fù)雜關(guān)系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。則以上說法()。A、正確B、錯誤C、無法確定D、模型效果差別不大【正確答案】:A解析:
當(dāng)數(shù)據(jù)非線性時,經(jīng)典回歸模型泛化能力不強,而基于樹的模型通常表現(xiàn)更好。63.常用的數(shù)據(jù)歸約方法可以分為()。A、維歸約、數(shù)據(jù)壓縮B、維歸約、參數(shù)歸約C、維歸約、值歸約D、數(shù)據(jù)壓縮、值歸約【正確答案】:C解析:
常用的數(shù)據(jù)歸約方法有維歸約和值歸約兩種。64.假如使用一個較復(fù)雜的回歸模型來擬合樣本數(shù)據(jù),使用Ridge回歸,調(diào)試正則化參數(shù)入,來降低模型復(fù)雜度。在入較大時,下列關(guān)于偏差(bias)和方差(variance)關(guān)系的說法正確的是()。A、偏差減小,方差減小B、偏差減小,方差增大C、偏差增大,方差減小D、偏差增大,方差增大【正確答案】:C解析:
入較小,偏差減小,方差增大,容易發(fā)生過擬合;入較大,偏差增大,方差減小,容易發(fā)生欠擬合。65.在方差分析中,()反映的是樣本數(shù)據(jù)與其組平均值的差異。A、總離差B、組間誤差C、抽樣誤差D、組內(nèi)誤差【正確答案】:D解析:
組內(nèi)誤差是來自樣本內(nèi)部數(shù)據(jù)之間的隨機誤差,它反映了樣本數(shù)據(jù)自身的差異程度;組間誤差由因子的不同處理造成的處理誤差和抽樣的隨機誤差組成,反映了不同樣本之間數(shù)據(jù)的差異程度。P(AB)=P(A)·P(B)66.()情況下,LDA會失敗。A、如果有辨識性的信息不是平均值,而是數(shù)據(jù)的方差B、如果有辨識性的信息是平均值,而不是數(shù)據(jù)方差C、如果有辨識性的信息是數(shù)據(jù)的均值和方差D、以上答案都不正確【正確答案】:A解析:
LDA的思想是投影后類內(nèi)方差最小、類間方差最大。67.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的(不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機、硬盤粉碎機等。A、暫時隔離B、暫時刪除C、永久刪除D、不做處理【正確答案】:C解析:
數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的永刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機、硬盤粉碎機等。68.輸入圖像為32x32,經(jīng)過步長為1、不進行padding、卷積核為5x5的卷積層后,得到的特征圖尺寸是()A、28x28B、27x27C、29x29D、32x32【正確答案】:A解析:
解析:((32+0-5)/1+1=28。69.HDFS是Hadoop平臺上的分布式文件系統(tǒng),它是由()組成的。A、一個NameNode、一個SecondaryNamcNode和多個DataNodeB、一個DataNode、--個SecondaryNameNode和多個NameNodeC、多個NameNode、一個SecondaryNameNode和多個DataNodeD、一個NameNode、一個SecondaryNameNode和一個DataNode【正確答案】:A解析:
HDFS由一個NameNodc、一個SecondaryNamcNode和多個DataNode組成。70.下列關(guān)于線性模型的描述錯誤的是()。A、支持向量機的判別函數(shù)一定屬于線性函數(shù)B、在樣本為某些分布情況時,線性判別函數(shù)可以成為最小錯誤率或最小風(fēng)險意義下的最優(yōu)分類器C、在一般情況下,線性分類器只能是次優(yōu)分類器D、線性分類器簡單而且在很多情況下效果接近最優(yōu),所以應(yīng)用比較廣泛【正確答案】:A解析:
支持向量機的判別函數(shù)不一定是線性函數(shù)。71.機器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是()。A、使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值B、使用Ll可以得到平滑的權(quán)值,使用L2可以得到平滑的權(quán)值C、使用Ll可以得到平滑的權(quán)值,使用L2可以得到稀疏的權(quán)值D、使用L1可以得到稀疏的權(quán)值,使用L2可以得到稀疏的權(quán)值【正確答案】:A解析:
使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值。72.下列關(guān)于Spark的說法錯誤的是()。A、采用內(nèi)存計算模式B、可利用多種語言編程C、主要用于批處理D、可進行map()操作【正確答案】:C解析:
HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用--些,可以很好地支持流計算、交互式處理、圖計算等多種計算模式。73.基于詞的N元文法模型,其最后的粗分結(jié)果集合大小()NA、大于B、大于等于C、小于D、小于等于【正確答案】:B解析:
基于N-最短路徑分詞算法,其基本思想是根據(jù)詞典,找出字串中所有可能的詞,構(gòu)造詞語切分有向無環(huán)圖。每個詞對應(yīng)圖中的一條有向邊,并賦給相應(yīng)的邊長(權(quán)值)。然后針對該切分圖,在起點到終點的所有路徑中,求出長度并按嚴格升序排列(任何兩個不同位置上的值一定不等,下同)依次為第1,第2,…,第i,…,第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長度相等,那么他們的長度并列第i,都要列入粗分結(jié)果集,而且不影響其他路徑的排列序號,最后的粗分結(jié)果集合大小大于等于N。74.下列算法中:①KNN;②線性回歸;③對數(shù)幾率回歸??梢杂蒙窠?jīng)網(wǎng)絡(luò)去構(gòu)造的()。A、①②B、②③C、①②③D、以上答案都不正確【正確答案】:B解析:
解析:KNN算法不需要訓(xùn)練參數(shù),而所有神經(jīng)網(wǎng)絡(luò)都需要訓(xùn)練參數(shù),因此神經(jīng)網(wǎng)絡(luò)幫不上忙。最簡單的神經(jīng)網(wǎng)絡(luò)-感知器,其實就是線性回歸的訓(xùn)練。我們可以用一層的神經(jīng)網(wǎng)絡(luò)構(gòu)造對數(shù)幾率回歸。75.下列不能作為數(shù)據(jù)科學(xué)數(shù)據(jù)源的是()。A、醫(yī)院里的病歷、檢查、診斷等與健康相關(guān)的數(shù)據(jù)B、物聯(lián)網(wǎng)中涉及設(shè)備運行情況的日志數(shù)據(jù)C、金融領(lǐng)域客戶的借款記錄以及信用情況D、個人電腦中用于備忘的日記【正確答案】:D解析:
數(shù)據(jù)科學(xué)數(shù)據(jù)源的前提條件是數(shù)據(jù)需要具備規(guī)律性、周期性等特征,個人電腦中用于備忘的日記一般不具備規(guī)律性。76.以下算法中不屬于基于深度學(xué)習(xí)的圖像分割算法是()A、FCNB、deeplabC、Mask-RCNND、kNN【正確答案】:D解析:
kNN為傳統(tǒng)機器學(xué)習(xí)方法并非深度學(xué)習(xí)方法。77.在神經(jīng)網(wǎng)絡(luò)中引入了非線性的是()A、隨機梯度下降B、修正線性單元(ReLU)C、卷積函數(shù)D、以上答案都不正確【正確答案】:B解析:
解析:ReLU是目前最常用的激勵函數(shù),增加了神經(jīng)網(wǎng)絡(luò)模型的非線性。78.某單位運用隨機森林算法思想建立搶修熱點模型,該模型主要預(yù)測下期臺區(qū)工單數(shù)量,構(gòu)建搶修熱點。模型構(gòu)建步驟如下:①將歷史數(shù)據(jù)進行隨機自助法重抽樣,生成N個訓(xùn)練樣本集;②將N個訓(xùn)練樣本集分別做決策樹,生成N棵決策樹;③將N棵決策樹隨機構(gòu)成隨機森林;④未來根據(jù)預(yù)測樣本氣候環(huán)境、設(shè)備屬性、設(shè)備工況進行隨機森林決策投票,得出針對該預(yù)測樣本最優(yōu)的決策樹進行運算,并計算出最終結(jié)果。則上列模型算法構(gòu)建步驟合理的順序是()。A、①②③④B、①③②④C、④①②③D、④②①③【正確答案】:A79.下列關(guān)于Logistic回歸和SVM的描述不正確的是()。A、Logistic回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進行極大似然估計的方法,用先驗概率的乘積代替后驗概率B、Logistic回歸的輸出就是樣本屬于正類別的概率C、SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,屬于結(jié)構(gòu)風(fēng)險最小化D、SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合【正確答案】:A解析:
Logistic回歸目標(biāo)函數(shù)是最小化后驗概率,Logistic回歸可以用于預(yù)測事件發(fā)生概率的大小,SVM目標(biāo)是結(jié)構(gòu)風(fēng)險最小化,SVM可以有效避免模型過擬合。80.下列可分解為偏差、方差與噪聲之和的是()。A、訓(xùn)練誤差(trainingerror)B、經(jīng)驗誤差(empiricalerror)C、均方誤差(meansquarederror)D、泛化誤差(generalizationerror)【正確答案】:D解析:
泛化誤差可分解為偏差、方差與噪聲之和。81.()會發(fā)生權(quán)重共享。A、卷積神經(jīng)網(wǎng)絡(luò)B、循環(huán)神經(jīng)網(wǎng)絡(luò)C、全連接神經(jīng)網(wǎng)絡(luò)D、A、B【正確答案】:D82.下列關(guān)于缺失值的說法錯誤的是()。A、可以利用統(tǒng)計量對缺失值進行填補B、可以利用K近鄰值對缺失值進行填補C、只要有缺失值就必須把對應(yīng)記錄刪除D、對于缺失值較多的屬性可以考慮刪除【正確答案】:C解析:
缺失值可以通過刪除、填補等方法進行處理。83.劃分聚類算法是一種簡單的較為基本的重要聚類方法。它的主要思想是通過將數(shù)據(jù)點集分為()個劃分,并使用重復(fù)的控制策略使某個準則最優(yōu)化,以達到最終的結(jié)果。A、DB、KC、ED、F【正確答案】:B解析:
劃分聚類算法K-Means將數(shù)據(jù)點集分為K個子集。84.某籃運動員在三分線投球的命中率是1/2,他投球10次,恰好投進3個球的概率為()。A、15/128B、1212122022年3月16日C、1212122022年5月8日D、1212122022年7月16日【正確答案】:A解析:
P(X=K)=(/)(1-P)P=1/2投籃只有兩種結(jié)果:進或者不進,符合二項分布。二項分布概率的概率可以用公式求得,其中n=10代表試驗次數(shù),k=3代表事件連續(xù)發(fā)生的次數(shù),代表事件發(fā)生的概率。85.下列關(guān)于深度學(xué)習(xí)框架的描述正確的是()A、Tensorfow是一款使用C++語言開發(fā)的開源數(shù)學(xué)計算軟件B、Caffe對于卷積網(wǎng)絡(luò)的支持特別好,同時提供C++接口、matlab接口和python接口C、PyTorch的前身便是Torch,其底層和Torch框架一樣,但是使用Python重新寫了很多內(nèi)容D、以上答案都正確【正確答案】:D86.數(shù)據(jù)管理成熟度模型中成熟度等級最高的是()。A、已優(yōu)化級B、已測量級C、已定義級D、已管理級【正確答案】:A解析:
已優(yōu)化是數(shù)據(jù)管理成熟度模型中成熟度的最高等級。87.以下關(guān)于圖像識別任務(wù)的敘述,錯誤的是()A、目標(biāo)在于檢測出圖像中的對象是什么B、在識別前往往需要對圖像進行預(yù)處理CNN是一種常用的圖像識別網(wǎng)絡(luò)D、圖像的采集和傳輸方式對于圖像識別結(jié)果沒有影響【正確答案】:D88.在MapReduce中,為了發(fā)現(xiàn)Worker故障,Master周期性進行的操作是()。A、JoinB、PingCheckD、Connect【正確答案】:B解析:
為了發(fā)現(xiàn)Worker故障,Master周期性進行Ping操作。89.數(shù)據(jù)資產(chǎn)應(yīng)用以安全可控為前提,按照()的原則,落實安全與保密責(zé)任。A、誰經(jīng)手,誰使用,誰負責(zé)B、誰主管,誰負責(zé)C、誰使用,誰主管,誰負責(zé)D、誰錄入,誰使用,誰負責(zé)【正確答案】:A解析:
數(shù)據(jù)資產(chǎn)應(yīng)用以安全可控為前提,按照誰經(jīng)手,誰使用,誰負責(zé)的原則,落實安全與保密責(zé)任。90.一幅512*512的圖像,若灰度級數(shù)為16,則該圖像大小為()A、32KBB、128KBC、1MBD、2MB【正確答案】:B解析:
512*512表示像素個數(shù),16級灰度用二進制表示需要4位,故存儲圖像所需的二進制位數(shù)為:512*512*4,即1024Kbit,所需字節(jié)數(shù)除以8為128KB,注意單位的不同。91.下列關(guān)于MapReduce說法不正確的是()。A、MapReduce是一種計算框架B、MapRcduce來源于Google的學(xué)術(shù)論文C、MapReduce程序只能用java語言編寫D、MapReduce隱藏了并行計算的細節(jié),方便使用【正確答案】:C解析:
MapReduce程序可用多種語言編寫,如Ruby、Python、Java等。92.下列關(guān)于ZooKecper特點的描述錯誤的是()。A、復(fù)雜性B、自我復(fù)制C、順序訪問D、高速讀取【正確答案】:A解析:
ZooKeeper的設(shè)計回標(biāo)和特點包括簡單性、自我復(fù)制、順序訪問和高速讀取。93.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉(zhuǎn)移函數(shù)加上一常數(shù)量以便引入一些低頻分量。這樣濾波器叫()。A、巴特沃斯高通濾波器B、高頻提升濾波器C、高頻加強濾波器D、理想高通濾波器【正確答案】:B解析:
高頻增強濾波器由于相對削弱了低頻成分,因而濾波所得的圖像往往偏暗。94.假設(shè)有n組數(shù)據(jù)集,每組數(shù)據(jù)集中x的平均值都是9,x的方差都是11,y的平均值都是7.50,x與y的相關(guān)系數(shù)都是0.816,擬合的線性回歸方程都是
Y=3.00+0.500x。那么這n組數(shù)據(jù)集()。A、一樣B、不一樣C、無法確定是否一樣D、以上都不對【正確答案】:C解析:
只比較平均值、方差、相關(guān)系數(shù)和回歸方程,無法確定數(shù)據(jù)集是否相同,還需比較Anscombe'squartet。95.若A與B是任意的兩個事件,且,則可稱事件A與B()。A、等價B、互不相容C、相互獨立D、相互對立【正確答案】:C解析:
P(A+B)=P(A)+P(B)P(A+B)=P(A)+P(B)-P(AB若A與B為互斥事件,則有概率加法公式);若A與B不為互斥事件,則有公式);若A與B為相互獨立事件,則有概率乘法公式FP(AB)=P(A)P(96.下列關(guān)于大數(shù)據(jù)的分析理念的說法錯誤的是()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追求效率而不是絕對精確D、在數(shù)據(jù)規(guī)模上強調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)【正確答案】:D解析:
在大數(shù)據(jù)的分析理念中,數(shù)據(jù)規(guī)模上強調(diào)絕對數(shù)據(jù)而不是相對數(shù)據(jù)。97.一篇文章中某些名詞的TF-IDF值比較大,則說明()A、這些名詞對這篇文章的區(qū)分度比較高B、這些名詞對這篇文章的區(qū)分度比較低C、不能說明什么D、以上答案都不正確【正確答案】:A解析:
TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。名詞的TF-IDF值越大說明這些名詞對這篇文章的區(qū)分度越高。98.()不屬于聚類性能度量外部指標(biāo)。A、Jaccard系數(shù)B、FM系數(shù)C、Rand指數(shù)DB指數(shù)【正確答案】:D解析:
聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。99.將一副圖像進行分割后,分割出的區(qū)域彼此之間()重疊A、可以B、不可以C、根據(jù)任務(wù)需要確定是否可以D、根據(jù)分割方法確定是否可以【正確答案】:B解析:
解析:圖像分割技術(shù)指將圖像分成互不重疊,具有各自特征的區(qū)域的技術(shù)。100.選擇神經(jīng)網(wǎng)絡(luò)的深度時,對于下面參數(shù):①神經(jīng)網(wǎng)絡(luò)的類型(如MLP,CNN);②輸入數(shù)據(jù);③計算能力(硬件和軟件能力決定);④學(xué)習(xí)速率;⑤映射的輸出函數(shù)。需要考慮的是()。A、①②③④B、②③④⑤C、都需要考慮D、①③④⑤【正確答案】:C解析:
解析:上述所有因素對于選擇神經(jīng)網(wǎng)絡(luò)模型的深度都是重要的。特征抽取所需分層越多,輸入數(shù)據(jù)維度越高,映射的輸出函數(shù)非線性越復(fù)雜,所需深度就越深。另外,為了達到最佳效果,增加深度所帶來的參數(shù)量,也需要考慮硬件計算能力和學(xué)習(xí)速率以設(shè)計合理的訓(xùn)練時間。1.下列跟人工智能場景相關(guān)的是()A、圖像識別B、人臉識別C、語音識別D、語義分析【正確答案】:ABCD解析:
人工智能的概念很廣義,圖像識別、人臉識別、語音識別、語義分析都屬于人工智能的應(yīng)用場景。2.在數(shù)據(jù)科學(xué)中,計算模式發(fā)生了根本性的變化-從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算,有一定的代表性的是Google云計算三大技術(shù),這三大技術(shù)包括()。A、HadoopYARN資源管理器B、GFS分布式存儲系統(tǒng)C、MapReduce分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫【正確答案】:BCD解析:
Google云計算的三大核心技術(shù)為GFS、MapReduce和BigTable。HadoopYARN資源管理器屬于Hadoopo3.下列屬于文本處理流程的是()A、NormalizationB、TokenizationStopwordsC、Part-of-speechTaggingD、NamedEntityRecognition【正確答案】:ABCD解析:
文本處理的流程為正則化(Normalization)、引入停止詞(TokenizationStopwords)、詞性標(biāo)注(Part-of-speechTagging)、命名實體識別(NamedEntityRecognition)。4.下列關(guān)于連續(xù)型隨機變量以及連續(xù)型概率密度函數(shù)的說法正確的有()。A、一個客服一天可能接聽到多少個電話是一個連續(xù)型隨機變量B、正態(tài)分布是一種連續(xù)型隨機變量的概率分布C、可以使用概率密度函數(shù)來描述連續(xù)型隨機變量的概率分布D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1【正確答案】:BCD解析:
一個客服一天可能接聽到多少個電話是一個離散型隨機變量。5.在數(shù)據(jù)缺失嚴重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進行填補。常用的填補方法有()。A、平均值填充B、K最近鄰距離法C、回歸法D、極大似然估計E、多重插補法【正確答案】:ABCDE解析:
在數(shù)據(jù)缺失嚴重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進行填補。常用的填補方法有平均值填充、K最近鄰距離法、回歸法、極大似然估計、多重插補法。6.下列關(guān)于中心極限定理的說法正確的有()。A、中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:
中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態(tài)分布為極限。7.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運用()等技術(shù)等多個學(xué)科領(lǐng)域的知識,以實現(xiàn)人機協(xié)同完成可視化任務(wù)為主要目的的分析推理學(xué)科。A、物理學(xué)B、圖形學(xué)C、數(shù)據(jù)挖掘D、人機交互【正確答案】:BCD解析:
可視分析學(xué)(VisualAnalytics);科學(xué)可視化和信息可視化理論的進一步演變以及與其他學(xué)科相互交融發(fā)展之后的結(jié)果。在數(shù)據(jù)科學(xué)中,通常采用數(shù)據(jù)可視化的廣義定義方法,并以可視分析學(xué)為主要理論基礎(chǔ)。8.下列屬于HBasc性能優(yōu)化的有()。A、讀優(yōu)化B、寫優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化【正確答案】:ABCD解析:
HHBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。9.下列說法正確的有()。A、條件獨立性假設(shè)不成立時,樸素貝葉斯分類器仍有可能產(chǎn)生最優(yōu)貝葉斯分類器B、在估計概率值時使用的拉普拉斯修正避免了因訓(xùn)練集樣本不充分而導(dǎo)致概率估值為零的問題C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度很快D、二分類任務(wù)中兩類數(shù)據(jù)滿足高斯分布且方差相同時,線性判別分析產(chǎn)生貝葉斯最優(yōu)分類器【正確答案】:ABD解析:
由于馬爾可夫鏈通常需要很長時間才能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度較慢。10.下列屬于TF-IDF的應(yīng)用有哪些()A、搜索引擎B、關(guān)鍵詞提取C、文本相似性D、數(shù)據(jù)降維【正確答案】:ABC解析:
TF-IDF只用來提取關(guān)鍵詞,不做降維。11.決策樹在()情況下會導(dǎo)致遞歸返回。A、當(dāng)前節(jié)點包含的樣本全屬于同一類B、當(dāng)前屬性集為空C、當(dāng)前節(jié)點包含的樣本集合為空D、所有樣本在所有屬性上取值相同【正確答案】:ABCD解析:
決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導(dǎo)致遞歸返回:①當(dāng)前節(jié)點包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前節(jié)點包含的樣本集合為空,不能劃分。12.下列關(guān)于Ridge回歸的說法正確的有()。A、若λ=0,則等價于一般的線性回歸B、若λ=0,則不等價于一般的線性回歸C、o+=YD、若,則得到的權(quán)重系數(shù)很小,接近于零E、8+ルF、若,則得到的權(quán)重系數(shù)很大,接近與無窮大【正確答案】:AC解析:
λ=+0Ridge回歸中,若λ=0,則等價于一般的線性回歸;若,則得到的權(quán)重系數(shù)很小,接近于零。13.下列關(guān)于單樣本:檢驗的說法錯誤的有()。A、當(dāng)單樣本t檢驗的自由度越來越大時,正態(tài)分布越來越趨向于t分布B、單樣本t檢驗適用于樣本量比較多(n>30)的情況C、t分布的不確定性比正態(tài)分布小,其原因是樣本數(shù)量比較小D、單樣本t檢驗通常也被叫作學(xué)生t檢驗【正確答案】:ABC解析:
t檢驗,也稱studentt檢驗(Student'sttest),主要用于樣本含量較?。ɡ鏽<30),總體標(biāo)準差σ未知的正態(tài)分布。t檢驗是用1分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著。14.下列關(guān)于HDFS文件寫人的描述正確的有()。A、不支持多用戶對同一文件的寫操作B、用戶不可以在文件任意位置進行修改C、默認將文件復(fù)制成三份存放D、復(fù)制的文件塊默認不存在同一機架上【正確答案】:ABCD解析:
根據(jù)HDFS定義。15.數(shù)據(jù)從產(chǎn)生到終結(jié)共包含的環(huán)節(jié)有()。A、數(shù)據(jù)產(chǎn)生B、數(shù)據(jù)傳輸C、數(shù)據(jù)使用D、數(shù)據(jù)共享E、數(shù)據(jù)銷毀【正確答案】:ABCDE解析:
數(shù)據(jù)的全壽命周期有獲?。óa(chǎn)生)、存儲、共享、維護、應(yīng)用(使用)、消亡(銷毀),在以上這些過程都會有數(shù)據(jù)傳輸過程。16.()是通過對無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來進行分類的。A、密度估計B、異常檢測C、線性回歸D、聚類分析【正確答案】:ABD17.下列關(guān)于CAP理論說法正確的有()。A、一個分布式系統(tǒng)不能同時滿足一致性、可用性和分區(qū)容錯性等需求B、一致性主要指強一致性C、一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一特征的損失(放棄)D、可用性指每個操作總是在給定時間之內(nèi)得到返回所需要的結(jié)果【正確答案】:ABCD解析:
CAP理論認為,一個分布式系統(tǒng)不能同時滿足一致性(Consistency)、可用(Availability)和分區(qū)容錯性(PartitionTolerance)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的-一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一個特征的損失(放棄)。18.大數(shù)據(jù)平臺的計算組件主要有()。A、StormB、SparkC、MapReduceD、Sqoop【正確答案】:ABC解析:
Storm是Twitter開源的分布式實時大數(shù)據(jù)處理框架;Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎;MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算;Sqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞;因此A、B、C正確。19.下列關(guān)于范數(shù)規(guī)則化的描述正確的有()。A、LO是指向量中0的元素的個數(shù)B、L1范數(shù)是指向量中各個元素絕對值之和C、L2范數(shù)向量元素絕對值的平方和再開平方D、LO是指向量中非0的元素的個數(shù)【正確答案】:BCD解析:
LO是指向量中非0的元素的個數(shù),Ll范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。20.下列關(guān)于Zookecper的描述正確的有()。A、Zookccper維護著一個樹形的層次結(jié)構(gòu)B、Zookeeper的數(shù)據(jù)訪問具有原子性C、Zookecper被設(shè)計用來實現(xiàn)協(xié)調(diào)服務(wù)D、Zookceper被設(shè)計用來實現(xiàn)大容量數(shù)據(jù)存儲【正確答案】:ABC解析:
Zookeeper無法用來存儲數(shù)據(jù)。21.以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)方面有()。A、數(shù)據(jù)驅(qū)動B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】:ABC解析:
以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的以數(shù)據(jù)中心的特征不僅體現(xiàn)在以數(shù)據(jù)為核心生產(chǎn)要素,而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動、數(shù)據(jù)密集和數(shù)據(jù)范式。22.神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)可以分為()和隨機型網(wǎng)絡(luò)等A、前向型B、后向型C、反饋型D、自組織競爭型【正確答案】:ACD23.RDD的特征有()。A、可容錯性B、簡潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:
RDD是一個容錯的、并行的數(shù)據(jù)結(jié)構(gòu)。24.下列為RDBMS中事務(wù)遵循原則的有()。A、原子性(Atomicity)B、一致性(Consistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:
關(guān)系數(shù)據(jù)庫中的事務(wù)需要具備一定的規(guī)則-ACID特征。ACID是指數(shù)據(jù)庫事務(wù)正確執(zhí)行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。25.可以幫助解決訓(xùn)練集在特征空間中線性不可分的問題的方法有()。A、硬間隔B、軟間隔C、核函數(shù)D、拉格朗日乘子法【正確答案】:BC解析:
核函數(shù)解決線性不可分的本質(zhì)思想就是把原始的樣本通過核函數(shù)映射到高維空間中,讓樣本在高維特征空間中是線性可分的。軟間隔允許某些樣本不滿足約束,使得樣本在特征空間中不是線性可分。26.下列屬于卷積神經(jīng)網(wǎng)絡(luò)組成部分的有()。A、卷積層B、中間層C、池化層D、全連接層【正確答案】:ACD解析:
卷積神經(jīng)網(wǎng)絡(luò)的組成部分不包括中間層。27.下面屬于可視化高維數(shù)據(jù)技術(shù)的是哪些()A、矩陣B、平行坐標(biāo)系C、星形坐標(biāo)系D、散布圖【正確答案】:ABC解析:
矩陣、平行坐標(biāo)系和星形坐標(biāo)系都屬于可視化高維數(shù)據(jù)的常用技術(shù),而散布圖又叫相關(guān)圖,只能處理二維數(shù)據(jù)。28.下列關(guān)于降維說法正確的有()。A、PA是根據(jù)方差這一屬性降維的B、降維可以防止模型過擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PLA等【正確答案】:ACD解析:
降維不能用于防止模型過擬合。29.以下屬于漢語未登錄詞的類型的有哪幾項()A、存在于詞典但出現(xiàn)頻率較少的詞B、新出現(xiàn)的普通詞匯C、專有名詞D、專業(yè)名詞和研究領(lǐng)域名稱【正確答案】:BCD解析:
未登錄詞就是未知的新詞。判斷一個新字符串是否應(yīng)作為一個詞,是基于世界知識的,需要人參與才能確認。30.RNN網(wǎng)絡(luò)的激活函數(shù)選用雙曲正切而不是Sigmod的原因有()A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜C、雙曲正切更簡單D、Sigmoid函數(shù)實現(xiàn)較為復(fù)雜【正確答案】:AB解析:
解析:第一,采用Sigmoid等函數(shù),反向傳播求誤差梯度時,求導(dǎo)計算量很大,而ReLU求導(dǎo)非常容易;第二,對于深層網(wǎng)絡(luò),Sigmoid函數(shù)反向傳播時,很容易就會出現(xiàn)梯度消失的情況(在Sigmoid接近飽和區(qū)時,變換太緩慢,導(dǎo)數(shù)趨于0),從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練。31.下列關(guān)于相關(guān)與線性關(guān)系的說法正確的有()。A、相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系B、相關(guān)一定是線性關(guān)系,不可能是非線性關(guān)系C、相關(guān)時若有相關(guān)系數(shù)為0,說明兩個變量之間不存在線性關(guān)系,仍可能存在非線性關(guān)系D、相關(guān)系數(shù)為0是兩個變量獨立的必要不充分條件【正確答案】:ACD解析:
相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系。32.下列關(guān)于Spark中RDD的描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計算Dataset:就是一個集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:
A、B、C、D全部正確。33.下列關(guān)于神經(jīng)網(wǎng)絡(luò)的說法正確的有()。A、增加網(wǎng)絡(luò)層數(shù),可能會增加測試集分類錯誤率B、增加網(wǎng)絡(luò)層數(shù),一定會增加訓(xùn)練集分類錯誤率C、減少網(wǎng)絡(luò)層數(shù),可能會減少測試集分類錯誤率D、減少網(wǎng)絡(luò)層數(shù),一定會減少訓(xùn)練集分類錯誤率【正確答案】:AC解析:
增加網(wǎng)絡(luò)層數(shù)可能造成訓(xùn)練誤差和測試誤差減小,但神經(jīng)網(wǎng)絡(luò)層數(shù)過多容易造成過擬合、訓(xùn)練誤差小,但是測試誤差很大。34.機器學(xué)習(xí)的三個關(guān)鍵組成要素包含()。A、任務(wù)TB、性能指標(biāo)PC、目標(biāo)函數(shù)VD、經(jīng)驗來源E【正確答案】:ABD35.下列關(guān)于EM算法的描述正確的有()。A、EM算法是常用的估計參數(shù)隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來學(xué)習(xí)高斯混合模型的參數(shù)D、EM算法是一種迭代式的方法【正確答案】:ABCD36.以下方法中可用于圖像分割的有()A、霍夫曼編碼B、分水嶺算法C、K-meansD、區(qū)域增長法【正確答案】:BCD解析:
分水嶺、K-means算法、區(qū)域生長都是常見的分割算法,而霍夫曼編碼不屬于分割算法。37.下列關(guān)于特征的稀疏性的說法正確的有()。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計算開銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒有高效的存儲方法【正確答案】:ABC解析:
在一個矩陣中,若非零元素的個數(shù)遠遠小于零元素的個數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進行壓縮存儲。38.一個監(jiān)督觀測值集合會被劃分為()。A、訓(xùn)練集B、驗證集C、測試集D、預(yù)處理集【正確答案】:ABC解析:
一個監(jiān)督觀測值集合會被劃分為訓(xùn)練集、測試集、預(yù)測集。其中測試集來測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。39.以下屬于頻率域圖像濾波的方法有()A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】:CD解析:
頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。40.在詞袋模型中使用單個的單詞來構(gòu)建詞向量這樣的序列被稱為()A、1元組(1-gram)B、單元組(unigram)模型C、列表D、字典【正確答案】:AB解析:
列表和字典一般包含多個單詞41.數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標(biāo)包括()。A、精確性B、可辨認性C、可分離性D、視覺突出性【正確答案】:ABCD解析:
在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標(biāo)包括精確性、可辨認性、可分離性和視覺突出性。評價指標(biāo)描述如下:①精確性代表的是人類感知系統(tǒng)對于可視化編碼結(jié)果和原始數(shù)據(jù)之間的吻合程度。斯坦福大學(xué)Mackinlay曾于1986年提出了不同視覺通道所表示信息的精確性。②可辨認性是指視覺通道的可辨認度。③可分離性是指同一個視覺圖形元素的不同視覺通道的表現(xiàn)力之間應(yīng)具備一定的獨立性。④視覺突出性是指視覺編碼結(jié)果能否在很短的時間內(nèi)(如毫秒級)能夠迅速準確表達出可視化編碼的主要意圖。42.最常見的分詞算法可以分為哪三大類()A、基于字符串匹配的分詞方法B、基于理解的分詞方法C、基于統(tǒng)計的分詞方法D、基于閱讀的分詞方法【正確答案】:ABC解析:
無基于閱讀的分詞方法。43.以下方法是tf-idf的變種的有哪些()A、TFCB、EWCC、ITCD、IG【正確答案】:AC解析:
TFC:對文本長度進行歸一化處理后的TF-IDF。ITC:在TFC基礎(chǔ)上,用tf的對數(shù)值取代tf。44.常用的沖突消解策略包括()。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】:ABC45.下列屬于數(shù)據(jù)統(tǒng)計分析工具的有()。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:
常用統(tǒng)計軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。46.當(dāng)構(gòu)造線性模型時,應(yīng)注意變量間的相關(guān)性。在相關(guān)矩陣中搜索相關(guān)系數(shù)時,如果發(fā)現(xiàn)3對變址的相關(guān)系數(shù)是(Varl和Var2、Var2和Var3、Var3和Varl),相關(guān)系數(shù)分別是-0.98、0.45、1.23,則可以得出的結(jié)論有()。A、Varl和Var2是非常相關(guān)的B、因為Varl和Var2是非常相關(guān)的,可以去除其中一個C、Var3和Varl的相關(guān)系數(shù)1.23是不可能的【正確答案】:ABC解析:
Varl和Var2之間的相關(guān)性非常高,并且是負的,可視為多重共線性的情況,可以去掉一個。一般來說,如果相關(guān)大于0.7或小于-0.7,則認為特征之間有很高的相關(guān)性。相關(guān)系數(shù)范圍為[-1,1],C選項中1.23明顯有誤。47.HighBias(高偏差)的解決方式有()。A、BoostingB、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)C、更多特征D、以上選項都不正確【正確答案】:ABC解析:
偏差刻畫了學(xué)習(xí)算法本身的擬合能力,高偏差意味著欠擬合,可通過Boosting、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)、更多特征等方式解決。48.以下可用于處理由于光照不均帶來的影響的圖像處理方法有()A、同態(tài)濾波B、頂帽變換C、基于移動平均的局部閾值處理D、拉普拉斯算子【正確答案】:ABC解析:
拉普拉斯算子屬于銳化濾波器,并不能處理光照不均勻帶來的影響。49.如果想要訓(xùn)練一個ML模型,樣本數(shù)量為100萬個,特征維度為5000個,面對如此大數(shù)據(jù),那么有效地訓(xùn)練模型可以采取的措施有()。A、對訓(xùn)練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機器學(xué)習(xí)算法C、使用PCA算法減少特征維度【正確答案】:ABC解析:
大數(shù)據(jù)可以采用對訓(xùn)練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型,嘗試使用在線機器學(xué)習(xí)算法,使用PCA算法減少特征維度。50.Spark支持的計算模型有()。A、批處理B、實時計算C、機器學(xué)習(xí)模型D、交互式查詢【正確答案】:ABCD解析:
Spark支持的計算模型有批處理、實時計算、機器學(xué)習(xí)模型、交互式查詢。51.數(shù)據(jù)管理包含的管理活動有()。A、識別B、度量C、監(jiān)拉D、預(yù)警【正確答案】:ABCD解析:
數(shù)據(jù)管理指對數(shù)據(jù)生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進行識別、度量、監(jiān)控以及預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平是的數(shù)據(jù)質(zhì)量獲得進一步提高。52.下列關(guān)于L1和L2范數(shù)的描述正確的有()。)A、L1范數(shù)為x向量各個元素絕對值之和B、L2范數(shù)為x向量各個元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權(quán)值稀疏,方便特征提取D、L2范數(shù)可以防止過擬合,提升模型的泛化能力【正確答案】:ABCD解析:
LO是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。L1范數(shù)可以使權(quán)值稀疏,方便特征提取。L2范數(shù)可以防止過擬合,提升模型的泛化能力。53.對于主成分分析方法,確定降維后低維空間的維數(shù)d的方法有()。A、由用戶事先指定B、通過在d不同的低維空間中對開銷較小的學(xué)習(xí)器進行交叉驗證來選取C、可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值D、隨機設(shè)置【正確答案】:ABC解析:
降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d不同的低維空間中對k近鄰分類器(或其他開銷較小的學(xué)習(xí)器)進行交叉驗證來選取較好的d。還可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值。54.下列屬于數(shù)據(jù)挖掘方法的有()。A、聚類B、回歸分析C、神經(jīng)網(wǎng)絡(luò)D、決策樹算法【正確答案】:ABCD解析:
利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)則、特征、變化和偏差分析、Web頁挖掘等。分類方法有決策樹算法、KNN算法(k-nearestneighbor)、SVM算法、VSM算*Bayes算法、神經(jīng)網(wǎng)絡(luò)等。聚類算法有基于密度、基于層次、基于模型、基于網(wǎng)格等。關(guān)聯(lián)規(guī)則算法有Apriori算法、FP-Growth算法。55.預(yù)剪枝使得決策樹的很多分子都沒有展開,則會導(dǎo)致的結(jié)果有()。A、顯著減少訓(xùn)練時間開銷B、顯著減少測試時間開銷C、降低過擬合風(fēng)險D、提高欠擬合風(fēng)險【正確答案】:ABCD解析:
預(yù)剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風(fēng)險,還顯著減少了決策樹的訓(xùn)練時間開銷和測試時間開銷。但另一方面,有些分支的當(dāng)前劃分雖不能提升泛化性能,甚至可能導(dǎo)致泛化性能暫時下降,但在其基礎(chǔ)上進行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于貪心原則,禁止這些分支展開,提高了欠擬合的風(fēng)險。56.可視分析學(xué)的特點包含()。A、強調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程B、強調(diào)可視化分析與自動化建模之間的相互作用C、強調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性D、強調(diào)數(shù)據(jù)加工(DataWrangling或DataMunging)工作的必要性E、強調(diào)人機交互的重要性【正確答案】:ABCDE解析:
從可視分析學(xué)模型可以看出,可視分析學(xué)的流程具有如下特點:①強調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程??梢暬治鰧W(xué)中對數(shù)據(jù)可視化工作的理解發(fā)生了根本性變化-數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識,而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上。從數(shù)據(jù)到知識的轉(zhuǎn)換途徑有可視化分析和自動化建模兩種。②強調(diào)可視化分析與自動化建模之間的相互作用。二者的相互作用主要體現(xiàn)在:一方面,可視化技術(shù)可用于數(shù)據(jù)建模中的參數(shù)改進的依據(jù);另一方面,數(shù)據(jù)建模也可以支持數(shù)據(jù)可視化活動,為更好地實現(xiàn)用戶交互提供參考。③強調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。從數(shù)據(jù)到知識轉(zhuǎn)換的兩種途徑-可視化分析與自動化建模分別通過數(shù)據(jù)映射和數(shù)據(jù)挖掘兩種不同方法實現(xiàn)。因此,數(shù)據(jù)映射和數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)可視化的兩個重要支撐技術(shù)。用戶可以通過兩種方法的配合使用實現(xiàn)模型參數(shù)調(diào)整和可視化映射方式的改變,盡早發(fā)現(xiàn)中間步驟中的錯誤,進而提升可視化操作的信度與效度。④強調(diào)數(shù)據(jù)加工工作的必要性。數(shù)據(jù)可視化處理之前一般需要對數(shù)據(jù)進行預(yù)處理(轉(zhuǎn)換)工作,且預(yù)處理活動的質(zhì)量將影響數(shù)據(jù)可視化效果。⑤強調(diào)人機交互的重要性??梢暬^程往往涉及人機交互操作,需要重視人與計算機在數(shù)據(jù)可視化工作中的互補性優(yōu)勢。因此,人機交互以及人機協(xié)同工作也將成為未來數(shù)據(jù)可視化研究與實踐的重要手段。57.下列關(guān)于AUC面積的描述正確的有()。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AUC面積的值等于0.5時,真實性最低,無應(yīng)用價值D、AUC面積的值越接近1.0,檢測方法真實性越高【正確答案】:ACD解析:
AUC面積的值不大于1。58.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:
聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。59.下列描述中屬于特征選擇的優(yōu)點有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強模型的泛化能力【正確答案】:BCD解析:
特征選擇無法克服模型自身的缺陷,二者是獨立的。60.主要面向或關(guān)注過去的數(shù)據(jù)分析過程有()。A、描述性分析B、診斷性分析C、預(yù)測性分析D、規(guī)范性分析【正確答案】:AB解析:
Gartner分析學(xué)價值扶梯模型認為,從復(fù)雜度及價值高低兩個維度,可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析四種,其中描述性分析和診斷性分析關(guān)注和面向的是過去的時間點。61.以下算法中可以應(yīng)用于圖像分割的是()A、邊緣檢測技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長方法【正確答案】:ABCD解析:
邊緣檢測技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長方法均是圖像分割技術(shù)。62.下列屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:
常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。三、(共33題)63.空間域濾波是直接以圖像中的像素操作為基礎(chǔ)的濾波,空間濾波器有時也可稱為()A、空間掩模B、核C、模板D、窗口【正確答案】:ABCD64.在Hive架構(gòu)中,支持的數(shù)據(jù)操作有()。A、插入B、查詢C、刪除D、分析【正確答案】:BD解析:
Hive提供簡單的HiveQL查詢、分析功能,可以較好地滿足基于數(shù)據(jù)倉庫的統(tǒng)計分析需要。65.在監(jiān)督式學(xué)習(xí)中使用聚類算法的方法有()。A、首先可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個額外的特征C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個額外的特征【正確答案】:AB解析:
我們可以為不同的集群構(gòu)建獨立的機器學(xué)習(xí)模型,并且可以提高預(yù)測精度。將每個類別的ID作為特征空間中的一個額外的特征可能會提高的精度結(jié)果。66.關(guān)于TF-IDF模型描述正確的有()A、TF是詞頻B、IDF是逆文本頻率C、該模型基于統(tǒng)計方法D、在信息檢索中應(yīng)用較少【正確答案】:ABC解析:
TF-IDF算法應(yīng)用較為廣泛,在信息檢索中也常用。67.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則有()。A、忠于原始數(shù)據(jù)原則B、設(shè)定共同場景原則C、有效性利用原則D、3C精神原則【正確答案】:ABCD解析:
數(shù)據(jù)的故事化描述應(yīng)遵循的基本原則包括忠于原始數(shù)據(jù)原則、設(shè)定共同情景原則、體驗式講述原則、個性化定制原則、有效性利用原則、3C精神原則。68.Spark2.0提供的應(yīng)用庫包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正確答案】:ABCD解析:
Spark2.0提供的應(yīng)用庫包括SparkSQL、SparkStreaming、MLib、GraphX。69.下列關(guān)于梯度消失和梯度爆炸的說法正確的有()。A、根據(jù)鏈式法則,如果每一層神經(jīng)元對上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都小于1的話,那么即使這個結(jié)果是0.99,在經(jīng)過足夠多層傳播之后,誤差對輸入層的偏導(dǎo)會趨于0B、可以采用ReLU激活函數(shù)有效地解決梯度消失的情況C、根據(jù)鏈式法則,如果每一層神經(jīng)元對上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都大于1的話,在經(jīng)過足夠多層傳播之后,誤差對輸入層的偏導(dǎo)會趨于無窮大D、可以通過減小初始權(quán)重矩陣的值來緩解梯度爆炸【正確答案】:ABCD解析:
解析:使用標(biāo)準化初始w,那么各個層次的相乘都是0~1的小數(shù),而激活函數(shù)f的導(dǎo)數(shù)也是0~1的數(shù),其連乘后,結(jié)果會變得很小,導(dǎo)致梯度消失。若我們初始化的w是很大
的數(shù),w大到乘以激活函數(shù)的導(dǎo)數(shù)都大于1,那么連乘后,可能會導(dǎo)致求導(dǎo)的結(jié)果很大,老成梯度爆炸。70.相對于HadoopMapReduce,Spark的特點有()。A、通用性B、易用性C、速度快D、容錯性【正確答案】:ABC解析:
相對于HadoopMapReduce,Spark的特點包括速度快、通用性和易用性。71.下列關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系的說法正確的有()。A、基礎(chǔ)設(shè)施提供數(shù)據(jù)計算、數(shù)據(jù)存儲、數(shù)據(jù)加工(D
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《板帶材生產(chǎn)概述》課件
- 《電子交易》課件
- DBJT 13-302-2018 現(xiàn)澆混凝土空心樓蓋應(yīng)用技術(shù)規(guī)程
- 第18課 從九一八事變到西安事變(解析版)
- 名著之魅 解析與啟示
- 體育場館衛(wèi)生消毒流程
- 腫瘤科護士年終總結(jié)
- 2023-2024年項目部安全管理人員安全培訓(xùn)考試題答案典型題匯編
- 2023年-2024年生產(chǎn)經(jīng)營單位安全教育培訓(xùn)試題答案往年題考
- 外貿(mào)公司實習(xí)報告合集九篇
- GB∕T 25684.5-2021 土方機械 安全 第5部分:液壓挖掘機的要求
- 特種涂料類型——耐核輻射涂料的研究
- 二氧化碳可降解塑料生產(chǎn)項目建議書
- 化工裝置常用英語詞匯對照
- 幼兒園幼兒教育數(shù)學(xué)領(lǐng)域核心經(jīng)驗
- 病例討論麻醉科PPT課件
- EBZ220A掘進機幻燈片
- 集體跳繩賽規(guī)則
- 煤礦調(diào)度工作培訓(xùn)內(nèi)容
- 機械原理課程設(shè)計-旋轉(zhuǎn)型灌裝機運動方案設(shè)計
- 標(biāo)準《大跨徑混凝土橋梁的試驗方法》
評論
0/150
提交評論