大數據理論考試(習題卷3)_第1頁
大數據理論考試(習題卷3)_第2頁
大數據理論考試(習題卷3)_第3頁
大數據理論考試(習題卷3)_第4頁
大數據理論考試(習題卷3)_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數據理論考試大數據理論考試(習題卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據理論考試第1部分:單項選擇題,共195題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.在回歸模型中,下列哪一項在權衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大()A)多項式階數B)更新權重w時,使用的是矩陣求逆C)使用常數項D.使用梯度下降答案:A解析:選擇合適的多項式階數非常重要。如果階數過大,模型就會更加復雜,容易發(fā)生過擬合;如果階數較小,模型就會過于簡單,容易發(fā)生欠擬合。[單選題]2.()算法假設聚類結構能通過樣本分布的緊密程度確定A)原型聚類B)密度聚類C)層次聚答案:B解析:密度聚類算法假設聚類結構能通過樣本分布的緊密程度確定。[單選題]3.數據整合和分組的說法,不正確的是()。A)數據連接可以用concat或merge函數B)axis=1表示軸向連接C)數據分組可以使用mean函數D)使用agg可以自定義多個聚合函數答案:C解析:數據分組不可以使用mean函數,mean函數為求平均數函數。[單選題]4.一幅灰度級均勻分布的圖象,其灰度范圍在[0,255],則該圖象的信息量為:()A)0B)255C)6D)8答案:D解析:[單選題]5.機器學習和深度學習的關系是(__)。A)深度學習包含機器學習B)機器學習包含深度學習C)二者是獨立的D)二者相互促答案:B解析:機器學習包含深度學習。[單選題]6.關于Spark的說法中,()是錯誤的。A)采用內存計算模式B)可利用多種語言編程C)主要用于批處理D)可進行map()操作答案:C解析:HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用一些,可以很好地支持流計算、交互式處理、圖計算等多種計算模式。[單選題]7.pyplot.pie()所畫的圖像是()。A)箱線圖B)折線圖C)直方圖D)餅圖答案:D解析:pyplot.pie()的作用是繪制餅圖。[單選題]8.下列關于文本分類的說法不正確的是()。A)文本分類是指按照預先定義的主題類別,由計算機自動地為文檔集合中的每個文檔確定一個類別B)文本分類大致可分為基于知識工程的分類系統(tǒng)和基于機器學習的分類系統(tǒng)C)文本的向量形式一般基于詞袋模型構建,該模型考慮了文本詞語的行文順序D)構建文本的向量形式可以歸結為文本的特征選擇與特征權重計算兩個步驟答案:C解析:詞袋模型沒有考慮文本詞語的原本行文順序。[單選題]9.Python中定義私有屬性的方法是()。A)使用private關鍵字B)使用public關鍵字C)使用__XX__定義屬性名D)使用__XX定義屬性名答案:D解析:使用__XX定義屬性名定義私有屬性的方法。[單選題]10.中心極限定理是噪聲抑制的中的統(tǒng)計原理,其內容是:均值分布總會收斂于一個()。A)正態(tài)分布B)泊松分布C)多項式分布D)均值分答案:A解析:中心極限定理是噪聲抑制的中的統(tǒng)計原理,其內容是:均值分布總會收斂于一個正態(tài)分布。[單選題]11.下面關于Hive的SequenceFile格式描述正確的是()A)SequenceFile是二進制文件格式,以list的形式序列化到文件中B)SequenceFile存儲方式:列存儲C)SequenceFile不可分割、壓縮D)SequenceFile優(yōu)勢是文件和Hadoopapi中的MapFile是相互兼容答案:D解析:[單選題]12.matplotlib中的step函數繪制的是什么圖()。A)階梯圖B)直方圖C)間斷條形圖D)堆積折線圖答案:A解析:step用于繪制階梯圖。[單選題]13.以下屬于圖像處理的常用方法有()。A)圖像變換B)圖像編碼壓縮C)圖像增強和復原D)以上答案都正答案:D解析:圖像處理的常用方法包括圖像變換,圖像解碼和壓縮和圖像增強和復原。[單選題]14.MaxcomputeSQL提供了CASE…WHEN…,可以進行條件判斷。表tbl中包含了字段(iD、bigint,agebigint),目前有三條紀錄,分別為(1,20),(2,30),(3,60),執(zhí)行以下SQL:selectid,casewhenage>60then?A?whenage>40then?B?whenage>20then?C?else?D?enD、fromtblwhereid=3;()是正確的執(zhí)行結果。A)AB)BC)CD)D答案:B解析:[單選題]15.Spark支持的分布式部署方式中哪個是錯誤的A)standaloneB)sparkonmesosC)sparkonYARND)Sparkonloca答案:D解析:[單選題]16.選擇哪一個解作為輸出,將由學習算法的歸納偏好決定,常見的做法是引入()。A)線性回歸B)線性判別分析C)正則化項D)偏置項答案:C解析:選擇哪一個解作為輸出,將由學習算法的歸納偏好決定,常見的做法是引入正則化(regularization)項。[單選題]17.從可視化視角看,可以將數據分為4種類型,其中不包括()A)定類數據B)定序數據C)定距數據D)定量數據答案:D解析:一般可以將數據類型的度量分為四種:定類,定序,定距,和定比,這四種類型是從低到高的遞進關系,高級的類型可以用低級類型的分析方法來分析,而反過來卻不行。[單選題]18.線性回歸的基本假設不包括哪個()。A)隨機誤差項是一個期望值為0的隨機變量B)對于解釋變量的所有觀測值,隨機誤差項有相同的方差C)隨機誤差項彼此相關D)解釋變量是確定性變量不是隨機變量,與隨機誤差項之間相互獨立答案:C解析:線性回歸的基本假設:(1)線性關系假設(2)正態(tài)性假設,指回歸分析中的Y服從正態(tài)分布。(3)獨立性假設,包含兩個意思:①與某一個X值對應的一組Y值和與另一個X值對應的一組Y值之間沒有關系,彼此獨立。②誤差項獨立,不同的X所產生的誤差之間應相互獨立,無自相關。(4)誤差等分散性假設:特定X水平的誤差,除了應呈隨機化的常態(tài)分配,其變異量也應相等,稱為誤差等分散性。[單選題]19.下列關于ResourceManager描述錯誤的是()A)ResourceManager也叫JobTrackerB)ResourceManager負責調度DataNode上的工作C)ResourceManager只負責調度DataNode,具體的工作由ResourceManager上的TaskTracker執(zhí)行實際工作D)ResourceManager不只負責調度DataNode,還執(zhí)行實際的讀寫任答案:D解析:[單選題]20.plt.scatter()函數中的參數c表示的含義是()。A)x軸上的數值B)y軸上的數值C)散點圖中的標記顏色D)標記圖形內容的標簽文件答案:C解析:c是color關鍵字,指顏色。[單選題]21.()是指幾組不同的數據中均存在一種趨勢,但當這些數據組組合在一起后,這種趨勢消失或反轉。A)辛普森悖論B)大數據悖論C)大數據偏見D)幸存者偏答案:A解析:辛普森悖論是概率和統(tǒng)計學中的一種現(xiàn)象,即幾組不同的數據中均存在一種趨勢,但當這些數據組組合在一起后,這種趨勢消失或反轉。例如,在腎結石治療數據分析中,比較了兩種腎結石治療的成功率。[單選題]22.TF-IDF中的TF是指()。A)某個詞在文檔中出現(xiàn)的次數B)文章的總次數C)某個詞在文檔中出現(xiàn)的次數/文章的總次數D)以上答案都不正答案:C解析:TF意思是詞頻(TermFrequency),表示某個詞出現(xiàn)頻率,也就是某個詞在文檔中出現(xiàn)的次數/文章的總次數[單選題]23.有關MapReduce的輸入輸出,說法錯誤的是()A)鏈接多個MapReduce作業(yè)時,序列文件是首選格式B)FileInputFormat中實現(xiàn)的getSplits()可以把輸入數據劃分為分片,分片數目和大小任意定義C)想完全禁止輸出,可以使用NullOutputFormatD)每個reduce需將它的輸出寫入自己的文件中,輸出無需分片答案:B解析:FileInputFormat的分片大小是可以任意設置,可以調整的,輸入分片數目不可以隨意設置,是根據分片大小和文件計算出來的。[單選題]24.在情感分析任務中,其目的是將無結構化的情感文本轉化成計算機容易識別和處理的結構化文本,進而供情感分析上層的研究和應用服務的是()。A)情感信息檢索B)情感信息抽取C)情感信息分類D)情感信息歸答案:B解析:情感分析上層的研究和應用主要是為情感信息抽取。[單選題]25.關于bagging下列說法錯誤的是:()。A)各基分類器之間有較強依賴,不可以進行并行訓練B)最著名的算法之一是基于決策樹基分類器的隨機森林C)當訓練樣本數量較少時,子集之間可能有重疊D)為了讓基分類器之間互相獨立,需要將訓練集分為若干子集答案:A解析:Bagging方法在訓練過程中,各基分類器之間無強依賴,可以進行并行訓練,隨機森林就是一種典型的例子。[單選題]26.下列哪項通常是集群的最主要瓶頸()。A)CPUB)網絡C)磁盤IOD)內存答案:C解析:磁盤I/O是不可擴充的,其他的可以擴充。[單選題]27.長短時記憶神經網絡通過什么來緩解梯度消失問題()A)增加網絡深度B)減少網絡神經元C)使用雙向的網絡結構D)增加一個用來保存長期狀態(tài)的單答案:D解析:長短時記憶神經網絡增加一個用來保存長期狀態(tài)的單元來解決梯度消失問題。[單選題]28.下列模型與文本分類相關的模型是()。A)決策樹B)神經網絡C)KNN算法D)以上答案都正確答案:D解析:決策樹、神經網絡、CKNN算法都屬于統(tǒng)計學習方法,是文本分類領域的主流。[單選題]29.關于長短時神經網絡的敘述中錯誤的是()。A)引用自循環(huán)思想B)產生梯度長時間持續(xù)流動的路徑C)積累的時間尺度不可以因輸入序列而改變D)可應用于語音識別和機器翻答案:C解析:LSTM累積的時間尺度也可以因輸入序列而改變,因為時間常數是模型本身的輸出。[單選題]30.大數據服務(MaxCompute,原ODPS)中客戶表customer是一張非分區(qū)表,現(xiàn)在想要清空表的內容然后重新上傳數據,可以通過:()。A)insertB)deleteC)truncateD)drop答案:A解析:[單選題]31.有關數據倉庫的開發(fā)特點,不正確的描述是()。A)數據倉庫開發(fā)要從數據出發(fā);B)數據倉庫使用的需求在開發(fā)出去就要明確;C)數據倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā);D)在數據倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式答案:A解析:數據倉庫開發(fā)要從需求出發(fā)。[單選題]32.數據科學處于哪三大領域的重疊之處()。A)數學與統(tǒng)計知識、黑客精神與技能、領域實務知識B)數據挖掘、黑客精神與技能、領域實務知識C)數學與統(tǒng)計知識、數據挖掘、領域實務知識D)數學與統(tǒng)計知識、黑客精神與技能、數據挖掘答案:A解析:根據DrewConway的數據科學韋恩圖(DataScienceVennDiagram),數據科學處于數學與統(tǒng)計知識、黑客精神與技能和領域實務知識等三大領域的交叉之處。[單選題]33.以下不是開源工具特點的是()。A)免費B)可以直接獲取源代碼C)用戶可以修改源代碼并不加說明用于自己的軟件中D)開源工具一樣具有版權答案:C解析:在延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來代碼中的協(xié)議,商標,專利聲明和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產品中包含一個Notice文件,則在Notice文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可,但不可以表現(xiàn)為對開源工具Licence構成更改。[單選題]34.()在劃分屬性時是在當前結點的屬性集合中選擇一個最優(yōu)屬性。A)AdaBoostB)RFC)BaggingD)傳統(tǒng)決策樹答案:D解析:傳統(tǒng)決策樹在選擇劃分屬性時,是在當前節(jié)點的屬性集合中選擇一個最優(yōu)屬性進行劃分。[單選題]35.Spark比mapreduce快的原因不包括()A)park基于內存迭代,而MapReduce基于磁盤迭代B)AG計算模型相比MapReduce更有效率C)park是粗粒度的資源調度,而MR是細粒度的資源調度。D)park支持交互式處理,MapReduce善于處理流計算。答案:D解析:A、B、C是Spark比mapreduce快的原因。MapReduce不善于處理除批處理計算模式之外的其他計算模式,如流計算、交互式計算和圖計算等。[單選題]36.決策樹中,同一路徑上的所有屬性之間是()關系。A)因果B)相關C)邏輯或D)邏輯答案:D解析:決策樹中,同一路徑上的所有屬性之間是邏輯與的關系[單選題]37.SDK是消費者在調用API時,需要在請求Header頭中添加身份認證信息,而這個操作比較繁瑣,故我們?yōu)槭褂谜咛峁┝薙DK,簡化用戶操作。目前華為SDK支持:()種語言的支持。A)7B)8C)9D)1答案:C解析:[單選題]38.對于PCA說法正確的是:()。1.我們須在使用PCA前標準化化數據2.我們應該選擇使得模型有最大variance的主成分3.我們應該選擇使得模型有最小variance的主成分4.我們可以使用PCA在低維度上做數據可視化A)1,2and4B)2and4C)3and4D)1and答案:A解析:須在使用PCA前標準化化數據,應選擇使得模型有最大variance的主成分,PCA在低維度上做數據可視化。[單選題]39.可用作數據挖掘分析中的關聯(lián)規(guī)則算法有()。A)機器學習、對數回歸、關聯(lián)模式B)K均值法、SOM機器學習C)Apriori算法、FP-Tree算法D)RBF機器學習、K均值法、機器學答案:C解析:關聯(lián)規(guī)則包括Apriori、FP-Tree等算法。[單選題]40.三維以上數組是以()的形式輸出的。A)按行輸出B)按矩陣輸出C)按矩陣列表輸出D)按字符串輸出答案:C解析:一維數組輸出為行,二維數組輸出為矩陣,三維數組輸出位矩陣列表。[單選題]41.聚類算法己經默認所有的記錄都是()的實體。A)相關聯(lián)B)有備份C)不獨立D)獨立答案:D解析:聚類算法己經默認所有的記錄都是獨立的實體。[單選題]42.Numpy中確定隨機數生成種子使用以下哪個函數()。A)np.random()B)np.random.seed()C)np.uniform()D)np.eig()答案:B解析:np.random.seed()用于確定隨機數生成種子,可以保證在每一次運行程序時隨機數的產生都是固定不變的。[單選題]43.在支持向量機中,核函數的主要作用是()。A)將低維空間中線性不可分的數據映射到高維空間,使其線性可分B)將高維空間中線性不可分的數據映射到低維空間,使其線性可分C)將高維空間中線性可分的數據映射到低維空間,使其線性不可分D)將低維空間中線性可分的數據映射到高維空間,使其線性不可答案:A解析:核函數的作用是將低維空間中線性不可分的數據映射到高維空間,使其線性可分。[單選題]44.銳化(高通)濾波器的作用()。A)能消減或削弱傅立葉空間的低頻分量,但不影響高頻分量B)能消減或削弱傅立葉空間的高頻分量,但不影響低頻分量C)對傅立葉空間的低、高頻分量均有削弱或削除作用D)對傅立葉空間的低、高頻分量均有增強作答案:A解析:高通濾波與低通濾波正好相反,是頻域圖像的高頻部分通過而抑制低頻部分。在圖像中圖像的邊緣對應高頻分量,因此高通濾波的效果是圖像銳化。[單選題]45.對于一個分類任務,如果開始時神經網絡的權重不是隨機賦值的,而是都設成0,下面哪個敘述是正確的()A)其他選項都不對B)沒啥問題,神經網絡會正常開始訓練C)神經網絡可以訓練,但是所有的神經元最后都會變成識別同樣的東西D)神經網絡不會開始訓練,因為沒有梯度改答案:C解析:神經網絡可以訓練,但是所有的神經元最后都會變成識別同樣的東西。[單選題]46.已知數組trans_cnt[1,2,3,4],trans_cnt[2]獲取的結果為()A)1B)2C)3D)4答案:C解析:[單選題]47.對于數據3,3,2,3,6,3,10,3,6,3,2.①這組數據的眾數是3;②這組數據的眾數與中位數的數值不相等;③這組數據的中位數與平均數的數值不相等;④這組數據的平均數與眾數的數值相等.其中正確結論的個數為()。A)1B)2C)3D)4答案:B解析:眾數是指一組中出現(xiàn)次數最多的數,中位數是按順序排列的一組數據中居于中間位置的數,平均值是各數值加總求和再除以總的個數。此題中眾數為3,中位數為3,平均值為4,故①和③正確。[單選題]48.如下哪些不是最近鄰分類器的特點()。A)它使用具體的訓練實例進行預測,不必維護源自數據的模型B)分類一個測試樣例開銷很大C)最近鄰分類器基于全局信息進行預測D)可以生產任意形狀的決策邊答案:C解析:k-近鄰中的近鄰指的是距離待預測數據的數據點,而k-近鄰就指的是取前k近的數據點,并非基于全局信息進行預測。[單選題]49.關于Sqoop的說法,不正確的是()A)主要設計目的是在Hadoop與傳統(tǒng)數據庫之間進行數據的ETL操作B)數據導入導出通過MapReduce完成C)Sqoop具備MapReduce的并行化和容錯性D)Sqoop的Reduce操作速度更答案:D解析:sqoop是一個強大的工具,主要用來處理大量的數據傳輸,并不會影響Reduce的操作速度。[單選題]50.一幅灰度均勻分布的圖像,其灰度范圍在[0,255],則該圖像的信息量為()。A)0B)6C)8D)25答案:C解析:把255拆成二進制以后是11111111所以是8。[單選題]51.如果你的數據有許多異常值,那么使用數據的均值與方差去做標準化就不行了,在preprocessing模塊中定義了哪個方法可以解決這個問題()。A)normalizer()B)robust_scale()C)maxabs_scale()D)scale()答案:B解析:robust_scale()和RobustScaler()這兩個方法,解決了上述問題,它會根據中位數或者四分位數去中心化數據。[單選題]52.數據資產應用以安全可控為前提,按照()的原則,落實安全與保密責任。A)誰經手,誰使用,誰負責B)誰主管,誰負責C)誰使用,誰主管,誰負責D)誰錄入,誰使用,誰負責答案:A解析:數據資產應用以安全可控為前提,按照誰經手,誰使用,誰負責的原則,落實安全與保密責任。[單選題]53.下面哪個不屬于數據的屬性類型:()A)標稱B)序數C)區(qū)間D)相異答案:D解析:[單選題]54.修改操作的語句updatestudentsets_name=?王軍?;該代碼執(zhí)行后的結果是A)只把姓名叫王軍的記錄進行更新B)只把字段名s_name改成?王軍?C)表中的所有人姓名都更新為王軍D)更新語句不完整,不能執(zhí)答案:C解析:[單選題]55.下列有關HDFS的容錯機制描述錯誤的是()。A)HDFS可以使用機架位感知的方法實現(xiàn)容錯機制;B)HDFS可以使用基于erasurecode的方法實現(xiàn)容錯機制;C)HDFS使用機架位感知的方法先把一份拷貝放入同機架上的機器,然后再拷貝一份到其他服務器;D)HS使用機架位感知的方法先把一份拷貝放入同機架上的機器,然后再拷貝一份到同機架機器的不同位置上答案:D解析:HDFS使用機架位感知的方法先把一份拷貝放入同機架上的機器,然后再拷貝一份到其他服務器[單選題]56.在一些算法中,為了進行屬性之間的比較或運算,需要把不同屬性的不同變量取值范圍變換成同一范圍,以免使得結果發(fā)生扭曲,偏向取值范圍大的變量。這一過程稱為()。A)合并B)數據聚合C)歸一化D)數據處理答案:C解析:歸一化是一種無量綱處理手段,使物理系統(tǒng)數值的絕對值變成某種相對值關系。簡化計算,縮小量值的有效辦法。[單選題]57.對數值型輸出,最常見的結合策略是()。A)投票法B)平均法C)學習法D)排序法答案:B解析:對數值型輸出,最常見的結合策略是平均法。[單選題]58.()是數據庫管理系統(tǒng)運行的基本工作單位。A)事務B)數據倉庫C)數據單元D)數據分析答案:A解析:在關系數據庫中,事務(Transaction)是保證數據一致性的重要手段,可以幫助用戶維護數據的一致性。事務是用戶定義的一個數據庫操作序列,這些操作要么全做,要么全不做,是一個不可分割的工作單位。[單選題]59.如果使用線性回歸模型,下列說法正確的是()A)檢查異常值是很重要的,因為線性回歸對離群效應很敏感B)線性回歸分析要求所有變量特征都必須具有正態(tài)分布C)線性回歸假設數據中基本沒有多重共線性D)以上說法都不對答案:A解析:異常值是數據中的一個非常有影響的點,它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中是很重要的。了解變量特征的分布是有用的,類似于正態(tài)分布的變量特征對提升模型性能很有幫助,數據預處理的時候經常做的一件事就是將數據特征歸一化到(0,1)分布,但不是必須的。當模型包含相互關聯(lián)的多個特征時,會發(fā)生多重共線性。因此,線性回歸中變量特征應該盡量減少冗余性。[單選題]60.pyplot.plot()函數輸入參數'b'修改的是圖形的()。A)位置B)大小C)形狀D)顏色答案:D解析:'b'代表畫線顏色參數中的'blue'屬性值,作用是設置顏色為藍色。[單選題]61.IDLE環(huán)境的退出命令是()。A)exit()B)回車鍵C)close()D)esc()答案:A解析:IDLE使用exit()退出環(huán)境。[單選題]62.關于L1、L2正則化下列說法正確的是()A)L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B)L2正則化技術又稱為LassoRegularizationC)L1正則化得到的解更加稀疏D)L2正則化得到的解更加稀疏答案:C解析:L1正則化可以產生稀疏權值矩陣,即產生一個稀疏模型,可以用于特征選擇,L2正則化可以防止模型過擬合,一定程度上;L1也可以防止過擬合;L1正則化,又稱LassoRegression。[單選題]63.關于MaxcomputeSQL,說法不正確的是:()。A)在很多方面并不具備數據庫的特征B)適用于海量數據,實時性要求不高的場合C)每個作業(yè)的準備,提交等階段要花費較長時間D)大部分標準SQL的功能都支持,但是不支持窗口函數、rownum等答案:D解析:[單選題]64.關于Hive中窗口函數下列描述正確的是()A)LAG用于統(tǒng)計窗口內往上第n行值,空不計入窗口中B)LEAD用于統(tǒng)計窗口內往下第n行值,空不計入窗口中C)FIRST_VALUE取分組排序后,截止到當前行的第一個值D)LAST_VALUE取分組不需要指定ORDERBY后,截止到當前行的最后一個答案:C解析:[單選題]65.Relief是為()問題設計的。A)二分類B)多分類C)回歸D)降答案:A解析:Relief是為二分類問題設計的。[單選題]66.下面()負責MapReduce任務調度。A)NameNodeB)JobtrackerC)TaskTrackerD)secondaryNameNode答案:B解析:Jobtracker負責MapReduce任務調度,TaskTracker負責任務執(zhí)行。[單選題]67.以下關于HBase的表述中錯誤的是()。A)HBase是一個構建在HDFS上的分布式列存儲系統(tǒng)B)HBase面向列(族)的存儲和權限控制,列(族)獨立檢索C)Hbase中提供了字符串、整型、浮點型等多種數據類型D)Hbase的每個表可由多個列族--ColumnFamily組成答案:C解析:hbase中的數據都是字符串,沒有類型,所以C錯。[單選題]68.GatedRecurrentunits的出現(xiàn)可以幫助防止在RNN中的梯度消失問題。(__)A)可以這么理解B)不可以這么理解C)不適用于RNN模型D)以上答案都不正答案:D解析:深度學習基礎知識。[單選題]69.以下選項中,不屬于函數的作用的是()。A)提高代碼執(zhí)行速度B)降低編程復雜度C)增強代碼可讀性D)復用代碼答案:A解析:函數可以降低編程復雜度$;$增強代碼可讀性$;$復用代碼[單選題]70.以下算法中不屬于基于深度學習的圖像分割算法是()。A)FCNB)deeplabC)Mask-RND)kN答案:D解析:KNN為傳統(tǒng)機器學習方法并非深度學習方法。[單選題]71.以下說法不正確的是()。A)卷積神經網絡主要用于目標識別、圖像分割等方面B)循環(huán)神經網絡主要用于處理序列數據C)長短時記憶神經網絡主要用于處理序列數據D)長短時記憶神經網絡是和循環(huán)神經網絡完全不同的一種新型神經網答案:D解析:長短時記憶神經網絡是一種改進的循環(huán)神經網絡。[單選題]72.參數估計又可分為()和區(qū)間估計。A)線型估計B)點估計C)回歸估計D)二維分答案:B解析:參數估計是根據從總體中抽取的隨機樣本來估計總體分布中未知參數的過程。從估計形式看,區(qū)分為點估計與區(qū)間估計。[單選題]73.假設我們擁有一個已完成訓練的、用來解決車輛檢測問題的深度神經網絡模型,訓練所用的數據集由汽車和卡車的照片構成,而訓練目標是檢測出每種車輛的名稱(車輛共有10種類型)。現(xiàn)在想要使用這個模型來解決另外一個問題,問題數據集中僅包含一種車(福特野馬)而目標變?yōu)槎ㄎ卉囕v在照片中的位置()。A)除去神經網絡中的最后一層,凍結所有層然后重新訓練B)對神經網絡中的最后幾層進行微調,同時將最后一層(分類層)更改為回歸層C)使用新的數據集重新訓練模型D)所有答案均不答案:B解析:由于神經網絡淺層網絡主要提取圖像的低維特征,對于相近領域進行遷移學習時,這些低維特征相同,因此只需要對最后幾層進行微調,而檢測位置相當于回歸任務。[單選題]74.假如使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率?,F(xiàn)在,在數據中增加一個新的特征,其它特征保持不變。然后重新訓練測試。則下列說法正確的是()。A)訓練樣本準確率一定會降低B)訓練樣本準確率一定增加或保持不變C)測試樣本準確率一定會降低D)測試樣本準確率一定增加或保持不答案:B解析:在模型中增加更多特征一般會增加訓練樣本的準確率,減小偏差。但測試樣本準確率不一定增加,除非增加的特征是有效特征。[單選題]75.下列關于大數據的分析理念的說法中,錯誤的是()。A)在數據基礎上傾向于全體數據而不是抽樣數據B)在分析方法上更注重相關分析而不是因果分析C)在分析效果上更追求效率而不是絕對精確D)在數據規(guī)模上強調相對數據而不是絕對數據答案:D解析:在大數據的分析理念中,數據規(guī)模上強調絕對數據而不是相對數據。[單選題]76.a=np.arange(1,13,1).reshape(3,4),np.mean(a,axis=0)的輸出結果是()。A)[[1,2,3,4],[5,6,7,8],[9,10,11,12]]B)6.5C)[5,6,7,8]D)[2.5,6.5,10.5]答案:C解析:mean()函數求均值,axis=0求每列的均值。[單選題]77.下列選項中,正確定義了一個字典的是()A)a=[?a?,1,?b?,2,?c?,3]B)b=(?a?,1,?b?,2,?c?,3)C)c={?a?,1,?b?,2,?c?,3}D)d={?a?:1,?b?:2,?c?:3}答案:D解析:[單選題]78.Python中用于生成隨機數的模塊是random,以下描述錯誤的是()。A)random.random():生成一個0-1之間的隨機浮點數B)random.uniform(a,b):生成[a,b]之間的浮點數C)random.randint(a,b):生成[a,b]之間的整數D)random.choice(sequence):隨機生成任意一個整數答案:D解析:random.choice(sequence)函數用來從給定的序列中隨機采樣。[單選題]79.Apriori算法的核心思想是()。A)通過頻繁項集生成和情節(jié)的向下封閉檢測兩個階段來挖掘候選集B)通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集C)數據集中包含該項集的數據所占數據集的比例,度量一個集合在原始數據中出現(xiàn)的頻率D)若某條規(guī)則不滿足最小置信度要求,則該規(guī)則的所有子集也不滿足最小置信度要求答案:B解析:Apriori算法是一種挖掘關聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。[單選題]80.例如Hive建表語句中storedas的作用是指定表的格式,下列不屬于Hive表的常見格式的是()createtableifnotexiststextfile_table(ueseridSTRING,movieidSTRING,ratingSTRING,tsSTRING)rowformateddelimatedfieldsterminatedby'\t'storedastextfile;A)PigTableB)ORCC)PARQUETD)TEXTFIL答案:A解析:[單選題]81.關于Apriori算法的原理中敘述錯誤的是()。A)riori算法通常使用先驗知識或者假設B)如果某個項集是頻繁的,那么它的所有子集也是頻繁的C)如果一個項集是非頻繁集,那么它的所有超集也是非頻繁的Apriori算法不可以用來發(fā)現(xiàn)頻繁D)Apriori算法不可以用來發(fā)現(xiàn)頻繁集答案:D解析:Apriori算法可以用來發(fā)現(xiàn)頻繁集。[單選題]82.執(zhí)行以下代碼段Motorcycles=['honda','yamaha','suzuki']Motorcycles.append('ducati')Motorcycles.pop(1)Print(motorcycles)時,輸出為()。A)['honda','yamaha','suzuki']B)['yamaha','suzuki','ducati']C)['honda','yamaha','suzuki','ducati']D)['honda','suzuki','ducati']答案:D解析:pop出第一位置的元素[單選題]83.下面關于詞袋模型說法錯誤的是()。A)詞袋模型使用一個多重集對文本中出現(xiàn)的單詞進行編碼B)詞袋模型不考慮詞語原本在句子中的順序C)詞袋模型可以應用于文檔分類和檢索,同時受到編碼信息的限制D)詞袋模型產生的靈感來源于包含類似單詞的文檔經常有相似的含答案:C解析:文本處理基礎知識。[單選題]84.Matplotlib的主要功能是()。A)科學計算B)繪圖庫C)爬取網站數據、提取結構性數據D)機器學習庫答案:B解析:Matplotlib是一個Python2D繪圖庫,它以多種硬拷貝格式和跨平臺的交互式環(huán)境生成出版物質量的圖形。[單選題]85.下列說法錯誤的是()A)當目標函數是凸函數時,梯度下降算法的解一般就是全局最優(yōu)解B)進行PCA降維時,需要計算協(xié)方差矩C)沿負梯度的方向一定是最優(yōu)的方向D)利用拉格朗日函數能解帶約束的優(yōu)化問題答案:C解析:沿負梯度的方向是函數值減少最快的方向但不一定就是最優(yōu)方向。[單選題]86.圖像分割方法主要可以分為哪幾類()。A)基于閾值的分割方法;B)基于區(qū)域的分割方法;C)基于邊緣的分割方法;D)以上答案都正答案:D解析:現(xiàn)有的圖像分割方法主要分以下幾類:基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。[單選題]87.DWS支持實例故障發(fā)生時,業(yè)務不中斷。因此()。A)不用擔心實例故障帶來的影響,無需處理故障問題。B)在實例恢復或主備切換成功之后,能夠繼續(xù)提供服務。C)不用擔心CN故障導致SQL執(zhí)行失敗,保證SQL100%執(zhí)行成功。D)實例故障之后GaussDB200會自動重啟,無需人為關注答案:B解析:[單選題]88.關于數據產品,以下說法錯誤的是()。A)數據產品的存在形式是數據集B)與傳統(tǒng)物質產品不同的是,數據產品的消費者不僅限于人類用戶.還可以是計算機以及其他軟硬件系統(tǒng)C)數據產品不僅包括數據科學項目的最終產品,也包括其中間產品以及副產品D)數據產品開發(fā)涉及數據科學項目流程的全部活動答案:A解析:數據產品的存在形式不僅限于數據集,還包括文檔、知識庫、應用系統(tǒng)、硬件系統(tǒng)、服務、洞見、決策或它們的組合。[單選題]89.Hadoop中,()執(zhí)行文件系統(tǒng)命名空間操作。A)DatanodeB)NamenodeC)JobTrackerD)TaskTracker答案:B解析:NameNode在hdfs這種文件系統(tǒng)中充當著master的角色,負責的功能有很多,比如文件系統(tǒng)目錄管理(命名空間管理)、數據塊管理、數據節(jié)點管理、租約管理、緩存管理等等。[單選題]90.下列哪一種架構有反饋連接(__)。A)循環(huán)神經網絡B)卷積神經網絡C)受限玻爾茲曼機D)都不答案:A解析:循環(huán)神經網絡RNN的本質特征是在處理單元之間既有內部的反饋連接又有前饋連接。從系統(tǒng)觀點看,它是一個反饋動力系統(tǒng),在計算過程中體現(xiàn)過程動態(tài)特性,比前饋神經網絡具有更強的動態(tài)行為和計算能力。[單選題]91.卷積神經網絡(convolutionalneuralnetwork,CNN),是一種專門用來處理具有類似(__)的數據的神經網絡。A)網格結構B)數組結構C)序列結構D)表格結答案:A解析:卷積神經網絡是一種專門用來處理具有類似網格結構的數據的神經網絡。[單選題]92.Spark中引入RDD概念的目的是()。A)數據存儲B)數據查重C)提升容錯能力D)增強數據一致答案:C解析:在Spark中引入RDD概念的目的是實現(xiàn)Spark的并行操作和靈活的容錯能力。[單選題]93.特征工程的目的是()。A)找到最合適的算法B)得到最好的輸入數據C)減低模型復雜度D)加快計算速度答案:B解析:特征工程的目的是篩選出更好的特征,獲取更好的訓練數據。[單選題]94.在GraphBase上,創(chuàng)建一個新的圖,必須使用的參數是?A)edgeB)graphNameC)labelD)verte答案:B解析:[單選題]95.()算法要求基學習器能對特定的數據分布進行學習,在訓練過程的每一輪中,根據樣本分布為每個訓練樣本重新賦予一個權重。A)BoostingB)支持向量機C)貝葉斯分類器D)神經網答案:A解析:Boosting算法要求基學習器能對特定的數據分布進行學習,在訓練過程的每一輪中,根據樣本分布為每個訓練樣本重新賦予一個權重。[單選題]96.情感信息歸納常見的存在形式是()。A)語料庫B)情感文摘C)情感評論D)情感傾答案:B解析:文本處理基礎知識[單選題]97.使用似然函數的目的是()。A)求解目標函數B)得到最優(yōu)數據樣本C)找到最適合數據的參數D)改變目標函數分答案:C解析:似然估計是一種確定模型參數值的方法。確定參數值的過程,是找到能最大化模型產生真實觀察數據可能性的那一組參數。[單選題]98.字符串的strip方法的作用是()A)刪除字符串頭尾指定的字符B)刪除字符串末尾的指定字符C)刪除字符串頭部的指定字符D)通過指定分隔符對字符串切片答案:A解析:[單選題]99.在MapReduce中,為了發(fā)現(xiàn)Worker故障,Master周期性進行(__)操作。A)JoinB)PingC)CheckD)Connect答案:B解析:為了發(fā)現(xiàn)Worker故障,Master周期性進行Ping操作。[單選題]100.假設在龐大的數據集上使用Logistic回歸模型,可能遇到一個問題,Logistic回歸需要很長時間才能訓練,如果對相同的數據進行邏輯回歸,如何花費更少的時間,并給出比較相似的精度()。A)降低學習率,減少迭代次數B)降低學習率,增加迭代次數C)提高學習率,增加迭代次數D)增加學習率,減少迭代次答案:D解析:如果在訓練時減少迭代次數,就能花費更少的時間獲得相同的精度,但需要增加學習率。[單選題]101.下面代碼運行后,a、b、c、d四個變量的值,描述錯誤的是()。ImportcopyA=[1,2,3,4,['a','b']]B=aC=copy.copy(a)D=copy.deepcopy(a)A\append(5)A[4]\append('c')A)a==[1,2,3,4,['a','b','c'],5]B)b==[1,2,3,4,['a','b','c'],5]C)c==[1,2,3,4,['a','b','c']]D)d==[1,2,3,4,['a','b',?c?]]答案:D解析:直接賦值,默認淺拷貝傳遞對象的引用而已,原始列表改變,被賦值的b也會做相同的改變;copy淺拷貝,沒有拷貝子對象,所以原始數據改變,子對象會改變;深拷貝,包含對象里面的自對象的拷貝,所以原始對象的改變不會造成深拷貝里任何子元素的改變。[單選題]102.數據產品的定義是()。A)數據產品是指能夠供給市場,被人們使用和消費,并能滿足人們某種需求的任何東西B)數據產品是可以發(fā)揮數據價值去輔助用戶更優(yōu)的做決策(甚至行動)的一種產品形式C)數據產品是指為了滿足自身的需要,通過科技發(fā)明或經驗總結而形成的技術D)數據產品是是數據科學的結果,創(chuàng)造了新的實物形態(tài)和使用價值的產品。答案:B解析:數據產品是可以發(fā)揮數據價值去輔助用戶更優(yōu)的做決策(甚至行動)的一種產品形式。[單選題]103.Spark的劣勢()A)運算速度快B)業(yè)務實現(xiàn)需要較少代碼C)提供很多現(xiàn)成函數D)需要更多機器內答案:D解析:Spark采用的是內存計算模式,需要的內存較多[單選題]104.關于列表的說法,描述有錯誤的是()。A)list是一個有序集合,沒有固定大小B)list可以存放任意類型的元素C)使用list時,其下標可以是負數D)list是不可變的數據類型答案:D解析:[單選題]105.()屬于Spark框架中的可擴展機器學習庫。A)MLibB)GraphXC)StreamingD)SparkSQL答案:A解析:MLib是可擴展機器學習庫。[單選題]106.下列關于GaussDB200的數據類型轉換說法正確的是()?A)如果需要保留空字符串時,需要新建兼容性為Postgres的數據庫。B)不同數據類型比較或轉換時,使用強制類型轉換,以防隱式類型轉換結果與預期不符。C)在ORACLE兼容模式下,在導入數據時,空字符串會自動過濾。D)在查詢中,對常量不需要顯式指定數據類型答案:B解析:[單選題]107.pyplot.title()的作用是()。A)繪制垂直線B)為圖設置標題C)為圖添加文本D)繪制互相關答案:B解析:pyplot.title()可以設置繪圖標題。[單選題]108.關于數據清洗,不正確的說法是()。A)單數據源,主鍵取值不能重復B)多數據源會存在數據重復,單位不一致的問題C)連續(xù)型數據不存在冗余問題D)缺失值可以采用刪除和填補等方法處理答案:C解析:連續(xù)型數據可能存在冗余問題。[單選題]109.下列關于TF-IDF說法正確的是()A)該值與特征項在文檔中出現(xiàn)的頻率成反比B)該值與特征項在文檔中出現(xiàn)的頻率成正比C)該值與在整個語料庫中出現(xiàn)該特征項的文檔庫成正比D)該值與特征項在文檔中出現(xiàn)的頻率無答案:B解析:TF-IDF是一種用于信息檢索與數據挖掘的常用加權技術。TF意思是詞頻(TermFrequency),IDF意思是逆文本頻率指數(InverseDocumentFrequency)。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。A中應是成正比,C中應是成反比,B正確。[單選題]110.哪種聚類方法采用概率模型來表達聚類()。A)K-meansB)LVQC)DBSCAND)高斯混合聚類答案:D解析:高斯混合聚類(MixtureofGaussian)采用概率模型來表達聚類。[單選題]111.Hadoop中combiner()函數的功能是()。A)數據排序B)數據標記C)數據分析D)數據合并答案:D解析:在MapReduce中,當map生成的數據過大時,帶寬就成了瓶頸,怎樣精簡壓縮傳給Reduce的數據,有不影響最終的結果呢。有一種方法就是使用Combiner,Combiner號稱本地的Reduce,Reduce最終的輸入,是Combiner的輸出。[單選題]112.Numpy.array數組的簡稱是()。A)arrayB)nparrayC)NdarrayD)pyarray答案:C解析:Numpy的array數組類被調用的是N維數組對象Ndarray。[單選題]113.一幅數字圖像是()。A)一個觀測系統(tǒng)B)一個由許多像素排列而成的實體C)一個2-D數組中的元素D)一個3-間中的場答案:C解析:數字圖像,又稱數碼圖像或數位圖像,是二維圖像用有限數字數值像素的表示。[單選題]114.對于線性回歸模型,包括附加變量在內,以下的可能正確的是()。1)R-Squared和AdjustedR-squared都是遞增的2)R-Squared是常量的,AdjustedR-squared是遞增的3)R-Squared是遞減的,AdjustedR-squared也是遞減的4)R-Squared是遞減的,AdjustedR-squared是遞增的A)1和2B)1和3C)2和4D)以上都不是答案:D解析:R-squared不能決定系數估計和預測偏差。每次在模型中加入預測器,R-squared遞增或不變。[單選題]115.()表達了在當前任務上任何學習算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度。A)偏差B)方差C)噪聲D)泛化誤差答案:C解析:泛化誤差可分解為偏差、方差與噪聲之和。偏差度量了學習算法的期望預測與真實結果的偏離程度,即刻畫了學習算法本身的擬合能力;方差度量了同樣大小的訓練集的變動所導致的學習性能的變化,即刻畫了數據擾動所造成的影響;噪聲則表達了在當前任務上任何學習算法所能達到的期望泛化誤差的F界,即刻畫了學習問題本身的難度。[單選題]116.給定一個長度為n的不完整單詞序列,我們希望預測下一個字母是什么。比如輸入是predictio(9個字母組成),希望預測第十個字母是什么。下面哪種神經網絡結構適用于解決這個工作()A)循環(huán)神經網絡B)全連接神經網絡C)受限波爾茲曼機D)卷積神經網答案:A解析:循環(huán)神經網絡具有記憶性、參數共享并且圖靈完備,因此在對序列的非線性特征進行學習時具有一定優(yōu)勢。循環(huán)神經網絡在自然語言處理(NaturalLanguageProcessing,NLP),例如語音識別、語言建模、機器翻譯等領域有應用,也被用于各類時間序列預報。[單選題]117.大數據計算服務(MaxCompute,原ODPS)中的用戶表dim_user是一張非分區(qū)表,另外有一部分新增用戶的數據存在user_delta表中,兩張表的結構相同,為了在dim_user表中得到全量的用戶數據,可以采用()方式A)select*fromuser_delta、intodim_userB)insertintodim_userselect*fromuser_deltaunionallselect*fromdim_userC)insertoverwritetabledim_userselect*fromuser_deltaD)insertintotabledim_userselect*fromuser_delta答案:D解析:[單選題]118.數據庫服務器、數據庫和表的關系,正確的說法是A)一個數據庫服務器只能管理一個數據庫,一個數據庫只能包含一個表B)一個數據庫服務器可以管理多個數據庫,一個數據庫可以包含多個表C)一個數據庫服務器只能管理一個數據庫,一個數據庫可以包含多個表D)一個數據庫服務器可以管理多個數據庫,一個數據庫只能包含一個答案:B解析:[單選題]119.正則化是將樣本在向量空間模型上的一個轉換,經常被使用在分類與聚類中,正則化在preprocessing模塊中如何實現(xiàn)()。A)preprocessing.maxabs_scale()方法B)preprocessing.RobustScaler()方法C)preprocessing.normalize()方法D)preprocessing.Binarizer()方法答案:C解析:preprocessing模塊中函數normalize提供了一個快速有簡單的方式在一個單向量上來實現(xiàn)正則化的功能。[單選題]120.Flink的Checkpoint機制繪制的流應用快照不能被保存在以下哪個位置?A)LocalB)HDFSC)TaskManager的內存D)Jobmanager的內答案:C解析:[單選題]121.數據可視化的本質是()。A)將數據轉換為知識B)將知識轉換為數據C)將數據轉換為信息D)將信息轉換為智慧答案:A解析:可視化分析學模型認為,數據可視化的本質是將數據轉換為知識,而不能僅僅停留在數據的可視化呈現(xiàn)層次之上,并提出從數據到知識的轉換途徑有兩個:一是可視化分析,另一個是自動化建模。[單選題]122.()是一種著名的密度聚類算法,它基于一組鄰域參數來刻畫樣本的緊密程度。A)DBSCANB)原型聚類C)密度聚類D)層次聚類答案:A解析:DBSCAN是一種著名的密度聚類算法,它基于一組鄰域參數來刻畫樣本的緊密程度。[單選題]123.在IBMPASS中,聚類算法分為分層聚類、Kohonennetwork、K平均值聚類和()四種。A)系統(tǒng)聚類B)兩步聚類C)模型聚類D)其它聚類答案:B解析:在IBMPASS中,聚類算法分為分層聚類、Kohonennetwork、K平均值聚類和兩步聚類四種。[單選題]124.有三個表,它們的記錄行數分別是10行、2行和6行,三個表進行交叉連接后,結果集中共有多少行數據A)18B)26C)不確定D)12答案:D解析:[單選題]125.查找條件為:姓名為NULL的記錄A)WHERENAMENULLB)WHERENAMEISNULLC)WHERENAME=NULLD)WHERENAME==NUL答案:B解析:[單選題]126.下列核函數特性描述錯誤的是()。A)只要一個對稱函數所對應的核矩陣半正定,就能稱為核函數;B)核函數選擇作為支持向量機的最大變數;C)核函數將影響支持向量機的性能;D)核函數是一種降維模型答案:D解析:以RBF的核函數為例,它是通過徑向基核函數可以把原始數據投影到更高維的空間里去,從而增加數據可分的概率,是從低維到高維,并不是降維。[單選題]127.已知一個數據集,n為特征數,m為訓練樣本數,如果n較小,而且m大小中等(例如n在1-1000之間,而m在10-10000之間),則一般選擇什么核函數的支持向量機()。A)邏輯回歸模型B)不帶核的支持向量機C)高斯核的支持向量機D)多項式核的支持向量機答案:C解析:高斯核函數需要選擇合適的sigma^2參數,適用于少量特征,大量樣本的情況,可以擬合出非常復雜的非線性決策邊界。[單選題]128.以下選項不屬于Flume的特點的是?A)支持定制各類方數據發(fā)送B)支持結構化、非結構化數據源C)支持多級聯(lián)操作D)支持數據實時檢索答案:D解析:[單選題]129.Python使用()符號標示注釋。A)&B)*C)#D)//答案:C解析:單行注釋使用#號。[單選題]130.向量空間模型的缺陷不包括()。A)維度災難B)模型稀疏性C)語義信息缺失D)無法計算文本相似度答案:D解析:無法計算文本相似度的原因有出現(xiàn)新詞在向量模型中沒有該詞匯或分詞工具對于詞匯切分與上次不同等其他原因。[單選題]131.圖像降噪一般可分為以下哪幾類()。A)加性噪聲B)乘性噪聲C)量化噪聲D)以上答案都正答案:D解析:噪聲是圖像干擾的重要原因。一幅圖像在實際應用中可能存在各種各樣的噪聲,這些噪聲可能在傳輸中產生,也可能在量化等處理中產生。根據噪聲和信號的關系可將其分為三種形式:(f(x,y)表示給定原始圖像,g(x,y)表示圖像信號,n(x,y)表示噪聲。)1、加性噪聲,此類噪聲與輸入圖像信號無關,含噪圖像可表示為f(x,y)=g(x,y)+n(x,y),信道噪聲及光導攝像管的攝像機掃描圖像時產生的噪聲就屬這類噪聲;2、乘性噪聲,此類噪聲與圖像信號有關,含噪圖像可表示為f(x,y)=g(x,y)+n(x,y)g(x,y),飛點掃描器掃描圖像時的噪聲,電視圖像中的相干噪聲,膠片中的顆粒噪聲就屬于此類噪聲。3、量化噪聲,此類噪聲與輸入圖像信號無關,是量化過程存在量化誤差,再反映到接收端而產生。[單選題]132.深度學習是當前很熱門的機器學習算法,在深度學習中,涉及到大量的矩陣相乘,現(xiàn)在需要計算三個稠密矩陣A,B,C的乘積ABC,假設三個矩陣的尺寸分別為m?n,n?p,p?q,且mA)()CB)AC(C)A(BD)所有效率都相答案:A解析:B選項中A的列數與C的行數不相等,無法相乘,B選項排除。A選項需要的乘法次數為m*n*p+m*p*q,C選項需要的乘法次數為n*p*q+m*n*q,由于m[單選題]133.當訓練樣本近似線性可分時,通過(),學習一個()。A)硬間隔最大化線性可分支持向量機B)軟間隔最大化線性支持向量機C)硬間隔最大化線性支持向量機D)軟間隔最大化非線性支持向量機答案:B解析:當訓練樣本近似線性可分時,通過軟間隔,學習一個最大化線性支持向量機。[單選題]134.()是M-P神經元,也稱為閾值邏輯單元。A)輸入層B)輸出層C)第一層D)第二答案:B解析:感知機(Perceptron)由兩層神經元組成,輸入層接收外界輸入信號后傳遞給輸出層,輸出層是M-P神經元,亦稱閾值邏輯單元(thresholdlogicunit)。[單選題]135.Kafka通過()避免任務重復執(zhí)行。A)實現(xiàn)記錄唯一鍵約束B)對每個Producer分配唯一IDC)通過事務檢查是否重復執(zhí)行D)利用Redis的原子性去實答案:B解析:[單選題]136.()是實現(xiàn)數據戰(zhàn)略的重要保障。A)數據管理B)數據分析C)數據治理D)數據規(guī)劃答案:C解析:從DMM模型可以看出,數據治理是實現(xiàn)數據戰(zhàn)略的重要保障。數據管理的是指通過管理?數據?實現(xiàn)組織機構的某種業(yè)務目的。然而,數據治理則指如何確保?數據管理?的順利、有效、科學地完成。[單選題]137.大數據平臺構建分布式文件系統(tǒng)、分布式數據倉庫、非關系型數據庫、關系型數據庫,實現(xiàn)各類數據的集中存儲與統(tǒng)一管理,滿足()存儲需求。A)歷史數據B)離線數據C)實時數據D)多樣化數據答案:D解析:大數據平臺構建分布式文件系統(tǒng)、分布式數據倉庫、非關系型數據庫、關系型數據庫,實現(xiàn)各類數據的集中存儲與統(tǒng)一管理,滿足多樣化數據存儲需求。[單選題]138.以下哪項方法不屬于漢語分詞方法()。A)雙向掃描法B)正向最大匹配法C)逐詞遍歷法D)詞向量匹配答案:D解析:詞向量匹配法為相似性度量并不能實現(xiàn)分詞。[單選題]139.下列不屬于MaxCompute項目空間的對象類型為:()。A)表B)Jar包C)實例D)資源答案:B解析:[單選題]140.通過HDFS的Shell命令來操作HDFS,表示刪除文件的命令是A)hdfsdfs-catB)hdtsdrs-rmC)hdfsdfs-mkdirD)hdfsdfs-put答案:B解析:[單選題]141.()認為,大數據時代的數據管理目標不一定為理想和完美,一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭取)可能導致另一個特征的損失(放棄)。A)CAP理論B)Base原則C)數據一致性理論D)大數據法則答案:A解析:CAP理論認為,一個分布式系統(tǒng)不能同時滿足一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(PartitionTolerance)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數據管理不一定是理想的--一致性[[1]]、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐е铝硪粋€特征的損失(放棄)。[單選題]142.標準BP算法的目標是使訓練集上的()為最小。A)累積方差B)累積誤差C)累積協(xié)方差D)累積偏答案:B解析:標準BP算法的目標是使訓練集上的累積誤差最小。[單選題]143.通常,()主要指的是關系數據庫中存儲、計算和管理的數據。A)結構化數據B)海量數據C)半結構化數據D)非結構化數據答案:A解析:通常,結構化數據是指直接可以用傳統(tǒng)關系數據庫存儲和管理的數據。[單選題]144.關于欠擬合(under-fitting),()是正確的。A)訓練誤差較大,測試誤差較小B)訓練誤差較小,測試誤差較大C)訓練誤差較大,測試誤差較大D)訓練誤差較小,測試誤差較答案:C解析:欠擬合是指對訓練樣本的一般性質尚未學好,因此訓練誤差和測試誤差均較大[單選題]145.循環(huán)神經網絡適合處理什么數據()A)節(jié)點數據B)序列數據C)結構化數據D)圖像數答案:B解析:循環(huán)神經網絡是一種用于處理序列數據的神經網絡,相比一般的神經網絡來說,他能夠處理序列變化的數據。比如某個單詞的意思會因為上文提到的內容不同而有不同的含義,RNN就能夠很好地解決這類問題。[單選題]146.下列關于數據重組的說法中,錯誤的是()。A)數據重組是數據的重新生產和重新采集B)數據重組能夠使數據煥發(fā)新的光芒C)數據重組實現(xiàn)的關鍵在于多源數據融合和數據集成D)數據重組有利于實現(xiàn)新穎的數據模式創(chuàng)新答案:A解析:數據重組將數據庫內各數據的相關信息重新組織。[單選題]147.下列哪項選擇是直接把最終將要使用的學習器的性能作為特征子集的評價準則()。A)嵌入式B)過濾式C)包裹式D)一體式答案:C解析:包裹式特征選擇直接把最終將要使用的學習器的性能作為特征于集的評價準則。[單選題]148.AUC是衡量()模型優(yōu)劣的一種評價指標。A)回歸B)分類C)二分類D)聚類答案:C解析:AUC是衡量二分類模型優(yōu)劣的一種評價指標。[單選題]149.SparkJob默認的調度模式是()。A)FIFOB)FAIRC)無D)運行時指定答案:A解析:Spark中的調度模式主要有兩種FIFO和FAIR。默認情況下Spark的調度模式是FIFO(先進先出)。[單選題]150.中文同義詞替換時,常用到Word2Vec,以下說法錯誤的是()。A)Word2Vec基于概率統(tǒng)計B)Word2Vec結果符合當前預料環(huán)境C)Word2Vec得到的都是語義上的同義詞D)Word2Vec受限于訓練語料的數量和質答案:C解析:Word2Vec只會輸出詞向量,并不關心是否為同義詞。[單選題]151.結構化數組不能使用以下哪種數據類型創(chuàng)建()。A)元組列表B)字符串C)字典D)整數答案:D解析:結構化數組類型創(chuàng)建有四種不同的規(guī)范形式:元組列表、逗號分割的數據類型規(guī)范字符串、字段參數組字典、字段名稱字典,不包含整數。[單選題]152.Spark核心層主要關注()問題。A)存儲B)計算C)傳輸D)連接答案:B解析:Spark核心層定義,Spark核心層主要關注計算問題。[單選題]153.數據安全技術保護與信息系統(tǒng)?三同步?原則不包括以下哪項()。A)同步規(guī)劃B)同步建設C)同步使用D)同步運維答案:D解析:數據安全技術保護與信息系統(tǒng)包含同步規(guī)則、同步建設、同步適用三項原則。[單選題]154.關于K均值和DBSCAN的比較,以下說法不正確的是()。A)K均值丟棄被它識別為噪聲的對象,而DBSC一般聚類所有對象B)K均值使用簇的基于原型的概念,而DCAN使用基于密度的概念C)K均值很難處理非球形的簇和不同大小的簇,DBSN可以處理不同大小和不同形狀的簇D)K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是SCAN會合并有重疊的答案:A解析:DBSCAN和K均值都是將侮個對象指派到單個簇的劃分聚類算法,但K均值一般聚類所有對象,而DBSCAN丟棄被它識別為噪聲的對象。[單選題]155.文檔是待處理的數據對象,它由一組詞組成,這些詞在文檔中不計順序的額,例如一篇論文、一個網頁都可以看做一個文檔;這樣的表示方式稱為()。A)語句B)詞袋C)詞海D)詞答案:B解析:詞袋模型下,像是句子或是文件這樣的文字可以用一個袋子裝著這些詞的方式表現(xiàn),這種表現(xiàn)方式不考慮文法以及詞的順序。[單選題]156.關于Datanode的描述錯誤的是()。A)Datanode負責處理文件系統(tǒng)客戶端的文件讀寫請求B)Datanode進行數據塊的創(chuàng)建、刪除和復制工作C)集群中的Datanode一般是一個節(jié)點一個D)文件的副本系數由tanode儲存答案:D解析:文件副本的數目稱為文件的副本系數,這個信息是由Namenode保存的。[單選題]157.scipy.stats模塊中累積分布的反函數是()。A)pdfB)ppfC)rvsD)sf答案:B解析:ppf分位點函數是累積分布函數cdf的反函數[單選題]158.如果x=5.5,則表達式x>0andx==int(x)的運算結果為;表達式x>0orx==int(x)的運算結果為()。A)TrueFalseB)FalseTrueC)TrueTrueD)FalseFalse答案:B解析:5.5恒大于0,且5.5不等于int(5)[單選題]159.當訓練集特征非常多,而實例非常少的時候,可以采用()。A)sigmoid核的支持向量機B)不帶核的支持向量機C)高斯核的支持向量機D)多項式核的支持向量機答案:B解析:當不采用非常復雜的函數,或者當我們的訓練集特征非常多但是實例非常少的時候,可以采用不帶核函數的支持向量機。[單選題]160.自然語言理解是人工智能的重要應用領域,下面列舉中的()不是它要實現(xiàn)的目標。A)理解別人講的話B)對自然語言表示的信息進行分析概括或編輯C)欣賞音樂D)機器翻答案:C解析:自然語言理解應用主要包含理解自然語言,包括機器翻譯以及對文本信息概括歸納等。[單選題]161.例如數據庫中有A表,包括學生,學科,成績三個字段,如何查詢最高分>80的學科?A)SELECTMAX(成績)FROMAGROUPBY學科HAVINGMAX(成績)>80;B)SELECT學科FROMAGROUPBY學科HAVING成績>80;C)SELECT學科FROMAGROUPBY學科HAVINGMAX(成績)>80;D)SELECT學科FROMAGROUPBY學科WHEREMAX(成績)>80答案:C解析:[單選題]162.下列關于MapReduce說法不正確的是()。A)MapReduce是一種計算框架B)MapReduce來源于google的學術論文C)MapReduce程序只能用java語言編寫D)MapReduce隱藏了并行計算的細節(jié),方便使用答案:C解析:MapReduce程序可用多種語言編寫,如Ruby、Python、Java等。[單選題]163.MaxCompute中負責對等待提交的task進行排序的模塊是:()。A)WorkerB)ExecutorC)SchedulerD)controller答案:C解析:[單選題]164.數據故事話的?情景?不包括()。A)還原情景B)統(tǒng)計情景C)移植情景D)虛構情答案:B解析:?數據的故事化描述(Storytelling)?是指為了提升數據的可理解性、可記憶性及可體驗性,將?數據?還原成關聯(lián)至特定的?情景?的過程??梢?,數據故事化也是數據轉換的表現(xiàn)形式之一,其本質是以?故事講述?的方式展現(xiàn)?數據的內容?。數據故事化中的?情景?,可以是:1)還原情景:還原數據所計量和記錄信息時的?原始情景?;2)移植情景:并非對應信息的原始情景,而是將數據移植到另一個真實發(fā)生的情景(如目標用戶比較熟悉的情景)之中。3)虛構情景:數據的故事化描述中所選擇的情景并非為真實存在的情景,而是根據講述人的想象力設計出來的?虛構情景?。[單選題]165.以下關于Hive內置函數描述正確的是A)to.date(),獲取當前日期B)descfunctionsupper:查看系統(tǒng)自帶的函數C)substr(),求字符串長度D)trim():去除空字符串答案:C解析:[單選題]166.以下不屬于大數據重要意義的是()。A)大數據成為推動經濟轉型發(fā)展的新動力B)大數據成為重塑國家競爭優(yōu)勢的新機遇C)大數據成為提升政府治理能力的新途徑D)大數據會增加經濟發(fā)展的成本答案:D解析:大數據可以促進經濟的發(fā)展,催生新的業(yè)態(tài),在輔助商業(yè)的決策、降低運營成本、精準市場的營銷方面都能發(fā)揮作用,進一步提升企業(yè)競爭力。[單選題]167.Python代碼中mpl.rcParams['font.sans-serif']=['SimHei']的作用是()。A)設置圖表中文顯示的字體B)設置圖表圖例的位置C)設置圖表標題的顏色D)設置圖表標題的位置答案:A解析:設置圖表字體以正確顯示中文。[單選題]168.下列哪個不是RDD的緩存方法()A)persist()B)略C)che()Memory()D)以上答案都正答案:C解析:RDD的緩存方法包括persist和cache,其中cache方法默認存儲到內存中。[單選題]169.下面()屬于SVM應用。A)文本和超文本分類B)圖像分類C)新文章聚類D)以上均是答案:D解析:SVM可用于分類與回歸,文本和超文本分類、圖像分類、新文章聚類均屬于SVM的應用。[單選題]170.Flink的哪種機制可以保證task運行失敗時,其狀態(tài)能夠恢復?A)窗口B)有狀態(tài)處理C)事件時間D)檢查答案:D解析:[單選題]171.在支持向量機中,()允許支持向量機在一些樣本上出錯。A)硬間隔B)軟間隔C)核函數D)拉格朗日乘子答案:B解析:在支持向量機中,軟間隔允許支持向量機在一些樣本上出錯。[單選題]172.()是指個體對視覺感知信息的進一步加工處理過程,包括視覺信息的抽取、轉換、存儲、簡化、合并、理解和決策加工活動。A)視覺感知B)視覺認知C)視覺編碼D)視覺轉換答案:B解析:視覺感知(VisualPerception)是指客觀事物通過視覺感覺器官(眼睛等)在人腦中產生直接反映的過程。視覺感知是產生視覺認知的前提條件。視覺認知(VisualCognition)是指個體對視覺感知信息的進一步加工處理過程,包括視覺信息的抽取、轉換、存儲、簡化、合并、理解和決策等加工活動。[單選題]173.平滑圖像()處理可以采用RGB彩色模型。A)直方圖均衡化B)直方圖均衡化C)加權均值濾波D)中值濾波答案:C解析:平滑圖像處理可以采用RGB彩色加權均值濾波模型。[單選題]174.以下關于繪圖標準流程說法錯誤的是()。A)繪制最簡單的圖形可以不用創(chuàng)建畫布B)添加圖例可以在繪制圖形之前C)添加x軸、y軸的標簽可以在繪制圖形之前D)修改x軸標簽、y軸標簽和繪制圖形沒有先后答案:B解析:繪制圖例需要在繪制圖形之后。[單選題]175.下列關于可視化方法體系說法不正確的是()。A)通常采用視覺圖形元素和視覺通道兩個維度進行視覺編碼B)常用的共性方法有統(tǒng)計圖表、圖論方法、視覺隱喻和圖形符號學等C)領域方法在所屬領域內其可視化的信度和效果往往低于基礎方法的直接應用D)視覺編碼為其他數據可視化方法提供了方法學基礎答案:C解析:領域方法在所屬領域內其可視化的信度和效果高于基礎方法的直接應用。[單選題]176.ZooKeeper的特點描述錯誤的是()。A)復雜性B)自我復制C)順序訪問D)高速讀取答案:A解析:ZooKeeper的設計目標和特點包括簡單性、自我復制、順序訪問和高速讀取。[單選題]177.MaxCompute中,A和B都是bigint類型,進行A/B運算,返回結果為:()。A)doubleB)intC)bigintD)float答案:A解析:[單選題]178.以下不屬于數據科學與統(tǒng)計學區(qū)別的是()。A)數據科學中的數據不僅僅是數值B)數據科學關注的不僅僅是?單一學科?問題,超出了數學、統(tǒng)計學、計算機科學等單一學科的范疇C)數據科學不僅僅是理論研究,也不是純領域實務知識,它關注和強調的是二者的結合D)數據科學和統(tǒng)計學中的計算一樣,僅僅是加減乘除答案:D解析:數據科學中的?計算?并不僅僅是加/減/乘/除等?數學計算?,而包括數據的查詢、挖掘、洞見、分析、可視化等更多類型。[單選題]1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論