大數(shù)據(jù)理論考試(習(xí)題卷6)_第1頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷6)_第2頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷6)_第3頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷6)_第4頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷6)_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

試卷科目:大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷6)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分:?jiǎn)雾?xiàng)選擇題,共64題,每題只有一個(gè)正確答案,多選或少選均不得分。[單選題]1.數(shù)據(jù)整合和分組的說(shuō)法,不正確的是()。A)數(shù)據(jù)連接可以用concat或merge函數(shù)B)axis=1表示軸向連接C)數(shù)據(jù)分組可以使用mean函數(shù)D)使用agg可以自定義多個(gè)聚合函數(shù)答案:C解析:數(shù)據(jù)分組不可以使用mean函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。[單選題]2.能夠直觀顯示出學(xué)習(xí)器在樣本總體上的查全率、查準(zhǔn)率的圖是()。A)ROC曲線B)誤差曲線C)方差曲線D)P-R曲線答案:D解析:能夠直觀顯示出學(xué)習(xí)器在樣本總體上的查全率、查準(zhǔn)率的圖是P-R曲線。[單選題]3.()算法是分類算法。A)DBSCANB)C4.5C)K-MeanD)EM答案:B解析:C4.5是分類算法;DBSCAN、K-Mean、EM是聚類算法。[單選題]4.以下()不屬于廣義上的數(shù)據(jù)可視化技術(shù)。A)類別可視化B)科學(xué)可視化C)信息可視化D)可視分析學(xué)答案:A解析:數(shù)據(jù)可視化DataVisualization和信息可視化Infographics是兩個(gè)相近的專業(yè)領(lǐng)域名詞。狹義上的數(shù)字可視化指的是講數(shù)據(jù)用統(tǒng)計(jì)圖表方式呈現(xiàn),而信息圖形(信息可視化)則是將非數(shù)字的信息進(jìn)行可視化。前者用于傳遞信息,后者用于表現(xiàn)抽象或復(fù)雜的概念、技術(shù)和信息。而廣義上的數(shù)據(jù)可視化則是數(shù)據(jù)可視化、信息可視化以及科學(xué)可視化等等多個(gè)領(lǐng)域的統(tǒng)稱。[單選題]5.假如使用邏輯回歸對(duì)樣本進(jìn)行分類,得到訓(xùn)練樣本的準(zhǔn)確率和測(cè)試樣本的準(zhǔn)確率。現(xiàn)在,在數(shù)據(jù)中增加一個(gè)新的特征,其它特征保持不變。然后重新訓(xùn)練測(cè)試。則下列說(shuō)法正確的是()。A)訓(xùn)練樣本準(zhǔn)確率一定會(huì)降低B)訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變C)測(cè)試樣本準(zhǔn)確率一定會(huì)降低D)測(cè)試樣本準(zhǔn)確率一定增加或保持不答案:B解析:在模型中增加更多特征一般會(huì)增加訓(xùn)練樣本的準(zhǔn)確率,減小偏差。但測(cè)試樣本準(zhǔn)確率不一定增加,除非增加的特征是有效特征。[單選題]6.以下選項(xiàng)不屬于Flume的特點(diǎn)的是?A)支持定制各類方數(shù)據(jù)發(fā)送B)支持結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)源C)支持多級(jí)聯(lián)操作D)支持?jǐn)?shù)據(jù)實(shí)時(shí)檢索答案:D解析:[單選題]7.數(shù)據(jù)可視化技術(shù)可以將所有數(shù)據(jù)的特性通過(guò)()的方式展現(xiàn)出來(lái)A)文字B)圖C)表格D)樹答案:B解析:數(shù)據(jù)可視化技術(shù)主要是通過(guò)圖的方式將數(shù)據(jù)特性展現(xiàn)出來(lái),而其他方式對(duì)于大規(guī)模數(shù)據(jù)很難適用。[單選題]8.對(duì)一幅100*100像素的圖像,若像元用8bit表示灰度值,霍夫曼編碼壓縮后的圖像數(shù)據(jù)量為40000bit,則圖像壓縮比例為()。A)2:1B)3:1C)4:1D)1:2答案:A解析:像素個(gè)數(shù)100*100=10000,再乘以每個(gè)像素位數(shù)得總位數(shù)80000,壓縮后40000,所以壓縮比為2:1。[單選題]9.()是M-P神經(jīng)元,也稱為閾值邏輯單元。A)輸入層B)輸出層C)第一層D)第二答案:B解析:感知機(jī)(Perceptron)由兩層神經(jīng)元組成,輸入層接收外界輸入信號(hào)后傳遞給輸出層,輸出層是M-P神經(jīng)元,亦稱閾值邏輯單元(thresholdlogicunit)。[單選題]10.以下哪種可以正確計(jì)算數(shù)組a的長(zhǎng)度?A)count()B)take(1)C)tail()D)length(答案:D解析:[單選題]11.在MapReduce中,為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行(__)操作。A)JoinB)PingC)CheckD)Connect答案:B解析:為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行Ping操作。[單選題]12.數(shù)據(jù)科學(xué)處于哪三大領(lǐng)域的重疊之處()。A)數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識(shí)B)數(shù)據(jù)挖掘、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識(shí)C)數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、數(shù)據(jù)挖掘、領(lǐng)域?qū)崉?wù)知識(shí)D)數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能、數(shù)據(jù)挖掘答案:A解析:根據(jù)DrewConway的數(shù)據(jù)科學(xué)韋恩圖(DataScienceVennDiagram),數(shù)據(jù)科學(xué)處于數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能和領(lǐng)域?qū)崉?wù)知識(shí)等三大領(lǐng)域的交叉之處。[單選題]13.()認(rèn)為,大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理目標(biāo)不一定為理想和完美,一致性、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證(爭(zhēng)取)可能導(dǎo)致另一個(gè)特征的損失(放棄)。A)CAP理論B)Base原則C)數(shù)據(jù)一致性理論D)大數(shù)據(jù)法則答案:A解析:CAP理論認(rèn)為,一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性(Consistency)、可用性(Availability)和分區(qū)容錯(cuò)性(PartitionTolerance)等需求,而最多只能同時(shí)滿足其中的兩個(gè)特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的--一致性[[1]]、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證(爭(zhēng)取)可能導(dǎo)致另一個(gè)特征的損失(放棄)。[單選題]14.二項(xiàng)分布的數(shù)學(xué)期望為()。A)n(1-n)pB)np(1-p)C)npD)n(1-p答案:C解析:二項(xiàng)分布,即重復(fù)n次的。如果事件發(fā)生的是p,則不發(fā)生的概率q=1-p.則期望為np,方差為npq。[單選題]15.下列關(guān)于RNN說(shuō)法正確的是(__)。A)RNN可以應(yīng)用在NLP領(lǐng)域B)LSTM是RNN的一個(gè)變種C)在RNN中一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)D)以上答案都正答案:D解析:RNN是一種人造神經(jīng)網(wǎng)絡(luò),它通過(guò)賦予網(wǎng)絡(luò)圖附加權(quán)重來(lái)創(chuàng)建循環(huán)機(jī)制,以維持內(nèi)部的狀態(tài)。在擁有狀態(tài)以后,便能在序列預(yù)測(cè)中明確地學(xué)習(xí)并利用上下文信息,如順序或時(shí)間成分,因此RNN適用于自然語(yǔ)言處理。RNN中一個(gè)序列當(dāng)前的輸出與前面的輸出有關(guān)。LSTM在RNN基礎(chǔ)上進(jìn)行了改進(jìn),能夠?qū)W習(xí)到長(zhǎng)期依賴關(guān)系,因此是RNN的一個(gè)變種。[單選題]16.ggplot2的核心理念是()。A)繪圖與數(shù)據(jù)分離B)結(jié)構(gòu)與數(shù)據(jù)分離C)繪圖與結(jié)構(gòu)分離D)繪圖與數(shù)據(jù)和結(jié)構(gòu)分離答案:A解析:ggplot2的核心理念是將繪圖與數(shù)據(jù)分離,數(shù)據(jù)相關(guān)的繪圖與數(shù)據(jù)無(wú)關(guān)的繪圖分離。[單選題]17.有關(guān)MapReduce的輸入輸出,說(shuō)法錯(cuò)誤的是()A)鏈接多個(gè)MapReduce作業(yè)時(shí),序列文件是首選格式B)FileInputFormat中實(shí)現(xiàn)的getSplits()可以把輸入數(shù)據(jù)劃分為分片,分片數(shù)目和大小任意定義C)想完全禁止輸出,可以使用NullOutputFormatD)每個(gè)reduce需將它的輸出寫入自己的文件中,輸出無(wú)需分片答案:B解析:FileInputFormat的分片大小是可以任意設(shè)置,可以調(diào)整的,輸入分片數(shù)目不可以隨意設(shè)置,是根據(jù)分片大小和文件計(jì)算出來(lái)的。[單選題]18.下列有關(guān)HDFS的容錯(cuò)機(jī)制描述錯(cuò)誤的是()。A)HDFS可以使用機(jī)架位感知的方法實(shí)現(xiàn)容錯(cuò)機(jī)制;B)HDFS可以使用基于erasurecode的方法實(shí)現(xiàn)容錯(cuò)機(jī)制;C)HDFS使用機(jī)架位感知的方法先把一份拷貝放入同機(jī)架上的機(jī)器,然后再拷貝一份到其他服務(wù)器;D)HS使用機(jī)架位感知的方法先把一份拷貝放入同機(jī)架上的機(jī)器,然后再拷貝一份到同機(jī)架機(jī)器的不同位置上答案:D解析:HDFS使用機(jī)架位感知的方法先把一份拷貝放入同機(jī)架上的機(jī)器,然后再拷貝一份到其他服務(wù)器[單選題]19.在GraphBase上,創(chuàng)建一個(gè)新的圖,必須使用的參數(shù)是?A)edgeB)graphNameC)labelD)verte答案:B解析:[單選題]20.以下()屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過(guò)程域?數(shù)據(jù)戰(zhàn)略?。A)數(shù)據(jù)戰(zhàn)略制定B)業(yè)務(wù)術(shù)語(yǔ)表C)數(shù)據(jù)質(zhì)量評(píng)估D)過(guò)程質(zhì)量保障答案:A解析:數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過(guò)程域?數(shù)據(jù)戰(zhàn)略?。[單選題]21.關(guān)于boosting下列說(shuō)法錯(cuò)誤的是()。A)boosting方法的主要思想是迭代式學(xué)習(xí)B)訓(xùn)練基分類器時(shí)采用并行的方式C)測(cè)試時(shí),根據(jù)各層分類器的結(jié)果的加權(quán)得到最終結(jié)果D)基分類器層層疊加,每一層在訓(xùn)練時(shí),對(duì)前一層基分類器分錯(cuò)的樣本給予更高的權(quán)答案:B解析:Boosing訓(xùn)練基分類器時(shí)只能采用順序的方式,Bagging訓(xùn)練基分類器時(shí)采用并行的方式。[單選題]22.?數(shù)據(jù)的故事化描述?是指為了提升數(shù)據(jù)的()和(),將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過(guò)程。A)可理解性可記憶性可體驗(yàn)性B)可接受性可記憶性可體驗(yàn)性C)可接受性可記憶性可呈現(xiàn)性D)可理解性可記憶性可呈線性答案:A解析:?數(shù)據(jù)的故事化描述(Storytelling)?是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性,將?數(shù)據(jù)?還原成關(guān)聯(lián)至特定的?情景?的過(guò)程。[單選題]23.模型構(gòu)建完畢需要對(duì)模型進(jìn)行評(píng)估量化,需要用到哪個(gè)模塊()。A)utilsB)mixtureC)metricsD)manifold答案:C解析:sklearn.metrics包含了用于模型評(píng)估的多種量化評(píng)價(jià)方法,包括均方誤差,準(zhǔn)確率等。[單選題]24.后剪枝是先從訓(xùn)練集生成一顆完整的決策樹,然后()對(duì)非葉結(jié)點(diǎn)進(jìn)行考察。A)自上而下B)在劃分前C)禁止分支展開D)自底向上答案:D解析:后剪枝是先從訓(xùn)練集生成一顆完整的決策樹,然后自底向上對(duì)非葉結(jié)點(diǎn)進(jìn)行考察。[單選題]25.常用的灰度內(nèi)插值法有()。A)最近鄰內(nèi)插法B)三次內(nèi)插法C)雙線性內(nèi)插值法D)三次樣條插值答案:D解析:常用的灰度內(nèi)插值法有最近鄰內(nèi)插法,三次內(nèi)插法,雙線性內(nèi)插值法,所以本題答案有ABC三個(gè),建議題目修改為常用的灰度內(nèi)插值法不包括,參考答案為D。[單選題]26.HBase作為數(shù)據(jù)存儲(chǔ)組件封裝于大數(shù)據(jù)平臺(tái),用于()存儲(chǔ)A)關(guān)系型數(shù)據(jù)庫(kù)B)分布式文件C)非關(guān)系型數(shù)據(jù)庫(kù)D)列式存儲(chǔ)答案:C解析:HBase是列式存儲(chǔ),以流的方式在列中存儲(chǔ)所有的數(shù)據(jù)。對(duì)于任何記錄,索引都可以快速地獲取列上的數(shù)據(jù)。列式存儲(chǔ)主要用于非關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)。[單選題]27.卷積的過(guò)程是讓過(guò)濾器在圖像上()。A)縮放B)剪切C)窗口滑動(dòng)D)鏡像對(duì)答案:C解析:卷積的過(guò)程是讓過(guò)濾器在圖像上進(jìn)行窗口滑動(dòng)。[單選題]28.Zookeeper主要解決的是()問(wèn)題。A)數(shù)據(jù)存儲(chǔ)B)模型訓(xùn)練C)分布式環(huán)境協(xié)作服務(wù)D)數(shù)據(jù)管理答案:C解析:ZooKeeper是一個(gè)分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個(gè)開源的實(shí)現(xiàn),是Hadoop和Hbase的重要組件。[單選題]29.在一個(gè)神經(jīng)網(wǎng)絡(luò)中,下面哪種方法可以用來(lái)處理過(guò)擬合()A)DropoutB)分批歸一化(tchNormalization)C)正則化(regularization)D)都可答案:D解析:Dropout,BatchNormalization和正則化都可以用來(lái)處理過(guò)擬合。[單選題]30.關(guān)于OLAP的特性,下面正確的是:(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性()A)(1)(2)(3)B)(2)(3)(4)C)(1)(2)(3)(4)D)(1)(2)(3)(4)(5)答案:D解析:OLAP具有快速性、可分析性、多維性、信息性、共享性等特征。[單選題]31.()算法要求基學(xué)習(xí)器能對(duì)特定的數(shù)據(jù)分布進(jìn)行學(xué)習(xí),在訓(xùn)練過(guò)程的每一輪中,根據(jù)樣本分布為每個(gè)訓(xùn)練樣本重新賦予一個(gè)權(quán)重。A)BoostingB)支持向量機(jī)C)貝葉斯分類器D)神經(jīng)網(wǎng)答案:A解析:Boosting算法要求基學(xué)習(xí)器能對(duì)特定的數(shù)據(jù)分布進(jìn)行學(xué)習(xí),在訓(xùn)練過(guò)程的每一輪中,根據(jù)樣本分布為每個(gè)訓(xùn)練樣本重新賦予一個(gè)權(quán)重。[單選題]32.關(guān)于降維算法中的主成分分析,()是錯(cuò)誤的。A)有監(jiān)督算法B)可以指定降維的維度C)基于方差來(lái)計(jì)算D)根據(jù)特征值大小來(lái)篩選特答案:A解析:主成分分析法屬于無(wú)監(jiān)督算法。[單選題]33.()的主要目標(biāo)是提供可擴(kuò)展的機(jī)器學(xué)習(xí)算法及其實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。A)MahoutB)FlumeC)SqoopD)HBase答案:A解析:Mahout是ApacheSoftwareFoundation(ASF)旗下的一個(gè)開源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),如聚類、分類、推薦過(guò)濾、頻繁子項(xiàng)挖掘。[單選題]34.(__)網(wǎng)絡(luò)是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),它能將高維輸入數(shù)據(jù)映射到低維空間,同時(shí)保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的臨近神經(jīng)元。A)SOM網(wǎng)絡(luò)B)R網(wǎng)絡(luò)C)ART網(wǎng)絡(luò)D)ELman網(wǎng)答案:A解析:SOM(Self-OrganizingMap,自組織映射)網(wǎng)絡(luò)[Kohonen,1982]是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),它能將高維輸入數(shù)據(jù)映射到低維空間(通常為二維),同時(shí)保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的鄰近神經(jīng)元。[單選題]35.a=np.arange(1,13,1).reshape(3,4),np.mean(a,axis=0)的輸出結(jié)果是()。A)[[1,2,3,4],[5,6,7,8],[9,10,11,12]]B)6.5C)[5,6,7,8]D)[2.5,6.5,10.5]答案:C解析:mean()函數(shù)求均值,axis=0求每列的均值。[單選題]36.Hadoop生態(tài)系統(tǒng)中,HBase是一種()。A)分布式文件系統(tǒng)B)數(shù)據(jù)倉(cāng)庫(kù)C)實(shí)時(shí)分布式數(shù)據(jù)庫(kù)D)分布式計(jì)算系統(tǒng)答案:C解析:HBase是一個(gè)面向列的實(shí)時(shí)分布式數(shù)據(jù)庫(kù)。[單選題]37.scipy中模塊stats的作用是()。A)統(tǒng)計(jì)B)差值計(jì)算C)程序輸入輸出D)稀疏矩陣答案:A解析:scipy中,stats是進(jìn)行統(tǒng)計(jì)分析的模塊。[單選題]38.采用冪次變換進(jìn)行灰度變換時(shí),當(dāng)冪次取小于1時(shí),該變換可以改善如下哪一類圖像?()A)圖像整體偏亮B)圖像整體偏暗C)圖像同時(shí)存在過(guò)亮和過(guò)暗背景D)圖像細(xì)節(jié)淹沒在暗背景中答案:B解析:[單選題]39.下面哪個(gè)問(wèn)題不適合使用機(jī)器學(xué)習(xí)方法解決()。A)判斷電子郵件是否是垃圾郵件B)判斷給定的圖中是否有環(huán)C)判斷是否給指定用戶辦理信用卡D)對(duì)滴滴拼車乘客分簇答案:B解析:判斷給定的圖中是否有環(huán)采用深度學(xué)習(xí)。[單選題]40.以下哪種不是Hive支持的數(shù)據(jù)類型()A)StructB)IntC)MapD)Long答案:D解析:Hive支持原生數(shù)據(jù)類型(TinyInt,SmallInt,Int,BigInt,Boolean,Float,Double,String),也支持復(fù)雜數(shù)據(jù)類型(Map,Array,Struct,Union),所以不支持Long,支持的是BigInt。[單選題]41.大數(shù)據(jù)應(yīng)用需依托的新技術(shù)有()。A)大規(guī)模存儲(chǔ)與計(jì)算B)數(shù)據(jù)分析處理C)智能化D)三個(gè)選項(xiàng)都是答案:D解析:適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)、智能化相關(guān)技術(shù)等。[單選題]42.代碼selectceil(2.34)的結(jié)果是哪一個(gè):A)2.3B)2C)3D)2.答案:C解析:[單選題]43.以下關(guān)鍵點(diǎn)檢測(cè)描述正確的是()。A)關(guān)鍵點(diǎn)檢測(cè)就是檢測(cè)目標(biāo)的關(guān)鍵點(diǎn)B)在人體或者人臉關(guān)鍵點(diǎn)檢測(cè)中應(yīng)用較多C)在電網(wǎng)的應(yīng)用中,我們主要用來(lái)進(jìn)行人員違章動(dòng)作的判斷D)以上答案都正答案:D解析:關(guān)鍵點(diǎn)檢測(cè)就是檢測(cè)目標(biāo)的關(guān)鍵點(diǎn),在人體或者人臉關(guān)鍵點(diǎn)檢測(cè)中應(yīng)用較多,在電網(wǎng)的應(yīng)用中主要用來(lái)進(jìn)行人員違章動(dòng)作的判斷。[單選題]44.下列關(guān)于線性回歸分析中的殘差說(shuō)法正確的是()。A)殘差均值總是為零B)殘差均值總是約等于零C)殘差均值總是大于零D)以上答案都不正確答案:A解析:線性回歸分析中,目標(biāo)是殘差最小化。殘差平方和是關(guān)于參數(shù)的函數(shù),為了求殘差極小值,令殘差關(guān)于參數(shù)的偏導(dǎo)數(shù)為零,會(huì)得到殘差和為零,即殘差均值為零。[單選題]45.Spark核心層主要關(guān)注()問(wèn)題。A)存儲(chǔ)B)計(jì)算C)傳輸D)連接答案:B解析:Spark核心層定義,Spark核心層主要關(guān)注計(jì)算問(wèn)題。[單選題]46.下列哪項(xiàng)不屬于數(shù)據(jù)庫(kù)架構(gòu)的是:A)share-everythingB)share-diskC)share-nothingD)share-anythin答案:D解析:[單選題]47.將兩篇文本通過(guò)詞袋模型變?yōu)橄蛄磕P停ㄟ^(guò)計(jì)算向量的()來(lái)計(jì)算兩個(gè)文本間的相似度。A)正弦距離B)余弦距離C)長(zhǎng)度D)方答案:B解析:將兩篇文本通過(guò)詞袋模型變?yōu)橄蛄磕P?,通過(guò)計(jì)算向量的余弦距離來(lái)計(jì)算兩個(gè)文本間的相似度。[單選題]48.下列哪個(gè)用于說(shuō)明在RDD上執(zhí)行何種計(jì)算()。A)分區(qū)B)算子C)日志D)數(shù)據(jù)塊;答案:B解析:算子是Spark中定義的函數(shù),用于對(duì)RDD中的數(shù)據(jù)進(jìn)行操作、轉(zhuǎn)換和計(jì)算。[單選題]49.在機(jī)器學(xué)習(xí)中,不屬于常用的沖突消解策略是()。A)投票法B)排序法C)元規(guī)則法D)加權(quán)法答案:D解析:常用的沖突消解策略有投票法、排序法、元規(guī)則法等。[單選題]50.下列關(guān)于文本分類的說(shuō)法不正確的是()。A)文本分類是指按照預(yù)先定義的主題類別,由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類別B)文本分類大致可分為基于知識(shí)工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C)文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語(yǔ)的行文順序D)構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟答案:C解析:詞袋模型沒有考慮文本詞語(yǔ)的原本行文順序。[單選題]51.()是指?jìng)€(gè)體對(duì)視覺感知信息的進(jìn)一步加工處理過(guò)程,包括視覺信息的抽取、轉(zhuǎn)換、存儲(chǔ)、簡(jiǎn)化、合并、理解和決策加工活動(dòng)。A)視覺感知B)視覺認(rèn)知C)視覺編碼D)視覺轉(zhuǎn)換答案:B解析:視覺感知(VisualPerception)是指客觀事物通過(guò)視覺感覺器官(眼睛等)在人腦中產(chǎn)生直接反映的過(guò)程。視覺感知是產(chǎn)生視覺認(rèn)知的前提條件。視覺認(rèn)知(VisualCognition)是指?jìng)€(gè)體對(duì)視覺感知信息的進(jìn)一步加工處理過(guò)程,包括視覺信息的抽取、轉(zhuǎn)換、存儲(chǔ)、簡(jiǎn)化、合并、理解和決策等加工活動(dòng)。[單選題]52.Redis中String數(shù)據(jù)類型不含以下哪種操作?A)mgetB)sizeC)strlenD)append答案:D解析:[單選題]53.向量空間模型的缺陷不包括()。A)維度災(zāi)難B)模型稀疏性C)語(yǔ)義信息缺失D)無(wú)法計(jì)算文本相似度答案:D解析:無(wú)法計(jì)算文本相似度的原因有出現(xiàn)新詞在向量模型中沒有該詞匯或分詞工具對(duì)于詞匯切分與上次不同等其他原因。[單選題]54.聚類是一種典型的無(wú)監(jiān)督學(xué)習(xí)任務(wù),然而在現(xiàn)實(shí)聚類任務(wù)中我們往往能獲得一些額外的監(jiān)督信息,于是可通過(guò)()來(lái)利用監(jiān)督信息以獲得更好的聚類效果。A)監(jiān)督聚類B)半監(jiān)督聚類C)聚類D)直推聚類答案:B解析:聚類是一種典型的無(wú)監(jiān)督學(xué)習(xí)任務(wù),然而在現(xiàn)實(shí)聚類任務(wù)中我們往往能獲得一些額外的監(jiān)督信息,于是可通過(guò)半監(jiān)督聚類來(lái)利用監(jiān)督信息以獲得更好的聚類效果。[單選題]55.下面關(guān)于HiveSQL編譯順序正確的是()(1)遍歷QueryBlock,翻譯為執(zhí)行操作樹OperatorTree(2)遍歷OperatorTree,翻譯為MapReduce任務(wù)(3)遍歷ASTTree,抽象出查詢的基本組成單元QueryBlock(4)邏輯層優(yōu)化器進(jìn)行OperatorTree變換,合并不必要的ReduceSinkOperator,減少shuffle數(shù)據(jù)量(5)物理層優(yōu)化器進(jìn)行MapReduce任務(wù)的變換,生成執(zhí)行計(jì)劃(6)將SQL轉(zhuǎn)化為抽象語(yǔ)法樹ASTTreeA)(3)(1)(2)(4)(5)(6)B)(5)(3)(1)(2)(4)(5)C)(6)(3)(1)(2)(4)(5)D)(5)(3)(1)(2)(4)(6答案:C解析:[單選題]56.標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的()為最小。A)累積方差B)累積誤差C)累積協(xié)方差D)累積偏答案:B解析:標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的累積誤差最小。[單選題]57.在集成學(xué)習(xí)中,對(duì)于數(shù)據(jù)型輸出,最常見的結(jié)合策略是()。A)平均法B)投票法C)學(xué)習(xí)法D)以上答案都正確答案:A解析:在集成學(xué)習(xí)中,對(duì)于數(shù)據(jù)型輸出,最常見的結(jié)合策略平均法。對(duì)于分類任務(wù)來(lái)說(shuō),最常見的結(jié)合策略投票法。當(dāng)訓(xùn)練數(shù)據(jù)很多時(shí)?一種更為強(qiáng)大的結(jié)合策略是使用學(xué)習(xí)法。[單選題]58.()是從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論、方法。A)信息B)數(shù)據(jù)C)知識(shí)D)智慧答案:C解析:知識(shí)是人們從數(shù)據(jù)、信息中發(fā)現(xiàn)的,在數(shù)據(jù)/信息中存在的共性規(guī)律、認(rèn)識(shí)、經(jīng)驗(yàn)與常識(shí)。通常根據(jù)能否清晰地表述和有效的轉(zhuǎn)移,將知識(shí)分為兩種:顯性知識(shí)(ExplicitKnowledge)和隱性知識(shí)(TacitKnowledge)。[單選題]59.下列哪種去噪方法能較好的保持圖像邊緣()。A)中值濾波B)雙邊濾波C)均值濾波D)高斯濾答案:A解析:中值濾波法是一種非線性平滑技術(shù),它將每一像素點(diǎn)的灰度值設(shè)置為該點(diǎn)某鄰域窗口內(nèi)的所有像素點(diǎn)灰度值的中值。中值濾波對(duì)脈沖噪聲有良好的濾除作用,特別是在濾除噪聲的同時(shí),能夠保護(hù)信號(hào)的邊緣,使之不被模糊。[單選題]60.在Hadoop中,下面哪個(gè)是默認(rèn)的InputFormat類型,它將每行內(nèi)容作為新值,而將字節(jié)偏移量作為key()。A)FileInputFormatB)TextInputFormatC)KeyValueTextInputFormatD)CombineTextInputForma答案:B解析:TextInputFormat是默認(rèn)的InputFormat。每條記錄是一行輸入。鍵Key是LongWritable類型,存儲(chǔ)該行在整個(gè)文件中的字節(jié)偏移量。[單選題]61.在支持向量機(jī)中,核函數(shù)的主要作用是()。A)將低維空間中線性不可分的數(shù)據(jù)映射到高維空間,使其線性可分B)將高維空間中線性不可分的數(shù)據(jù)映射到低維空間,使其線性可分C)將高維空間中線性可分的數(shù)據(jù)映射到低維空間,使其線性不可分D)將低維空間中線性可分的數(shù)據(jù)映射到高維空間,使其線性不可答案:A解析:核函數(shù)的作用是將低維空間中線性不可分的數(shù)據(jù)映射到高維空間,使其線性可分。[單選題]62.關(guān)于bagging下列說(shuō)法錯(cuò)誤的是:()。A)各基分類器之間有較強(qiáng)依賴,不可以進(jìn)行并行訓(xùn)練B)最著名的算法之一是基于決策樹基分類器的隨機(jī)森林C)當(dāng)訓(xùn)練樣本數(shù)量較少時(shí),子集之間可能有重疊D)為了讓基分類器之間互相獨(dú)立,需要將訓(xùn)練集分為若干子集答案:A解析:Bagging方法在訓(xùn)練過(guò)程中,各基分類器之間無(wú)強(qiáng)依賴,可以進(jìn)行并行訓(xùn)練,隨機(jī)森林就是一種典型的例子。[單選題]63.Stage的Task的數(shù)量由什么決定A)PartitionB)JobC)StageD)TaskSchedule答案:A解析:[單選題]64.傳統(tǒng)的MapReduce模型要求每一輪MapReduce操作之后,數(shù)據(jù)必須落地到分布式文件系統(tǒng)上。而一般的MapReduce應(yīng)用通常由多個(gè)MapReduce作業(yè)組成,每個(gè)作業(yè)結(jié)束之后需要寫入磁盤,接下去的Map任務(wù)很多情況下只是讀一遍數(shù)據(jù),為后續(xù)的Shuffle階段做準(zhǔn)備,這樣其實(shí)造成了冗余的IO操作。為了解決這一問(wèn)題,提供更優(yōu)的性能,大數(shù)據(jù)計(jì)算服務(wù)提供了擴(kuò)展的MapReduce模型,該模型區(qū)別于普通MapReduce模型的主要特點(diǎn)是:()。A)支持Map后連接任意多個(gè)Reduce操作,如Map-Reduce-ReduceB)支持Map后不連接Reduce,而是連接另一個(gè)map,如Map-Map-ReduceC)支持ChainD)支持沒有Map,直接進(jìn)入Reduce答案:A解析:第2部分:多項(xiàng)選擇題,共22題,每題至少兩個(gè)正確答案,多選或少選均不得分。[多選題]65.主要面向或關(guān)注?過(guò)去?的數(shù)據(jù)分析過(guò)程為:A)描述性分析B)診斷性分析C)預(yù)測(cè)性分析D)規(guī)范性分析答案:AB解析:Gartner分析學(xué)價(jià)值扶梯模型認(rèn)為,從復(fù)雜度及價(jià)值高低兩個(gè)維度,可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測(cè)性分析和規(guī)范性分析四種,其中描述性分析和診斷性分析關(guān)注和面向的是?過(guò)去?的時(shí)間點(diǎn)。[多選題]66.Spark的關(guān)鍵技術(shù)包括以下哪幾個(gè)()。A)RDD;B)Scheduler;C)Storage;D)Shuffle;答案:ABCD解析:Spark的關(guān)鍵技術(shù)包括RDD、Scheduler、Storage、Shuffle。[多選題]67.以下哪些方法是tf-idf的變種()。A)TFCB)EWCC)ITCD)I答案:AC解析:TFC:對(duì)文本長(zhǎng)度進(jìn)行歸一化處理后的TF-IDF。ITC:在TFC基礎(chǔ)上,對(duì)tf的對(duì)數(shù)值取代tf。[多選題]68.在MapReduce1.0版本中,JobTracker功能是()。A)負(fù)責(zé)資源管理B)作業(yè)控制C)作業(yè)存儲(chǔ)D)作業(yè)審核答案:AB解析:在MRv1中,JobTracker同時(shí)兼?zhèn)淞速Y源管理和作業(yè)控制兩個(gè)功能。[多選題]69.下面關(guān)于Hive中join優(yōu)化的描述正確的是()A)大表JOIN小表時(shí),誰(shuí)先誰(shuí)后無(wú)所謂,執(zhí)行計(jì)劃、效率都是一樣的B)大表JOIN小表時(shí),使用mapjoin會(huì)極大地提升性能,因?yàn)樗鼤?huì)將小表存儲(chǔ)在磁盤里面供大表讀取C)大表JOIN大表時(shí),不妨可以先嘗試將一個(gè)表進(jìn)行表剪裁、列剪裁,將大表JOIN大表的問(wèn)題轉(zhuǎn)換為大表JOIN小表D)WITHAS語(yǔ)法可以將查詢寫入內(nèi)存中,供其他SQL使用,WITHAS本身支持嵌套子查詢答案:BC解析:[多選題]70.下列哪些現(xiàn)象屬于乘性噪聲()。A)電視光柵的退化B)二值圖像上的胡椒鹽噪聲C)信道傳輸受擾D)膠片材料的退答案:AD解析:乘性噪聲是信道特征隨機(jī)變化引起的噪聲,因此電視光柵和膠片材料的退化屬于乘性噪聲,而椒鹽噪聲、傳輸受干擾屬于加性噪聲。[多選題]71.下列屬于DWS列存表支持的窗口函數(shù)的是:A)RANK()B)ROW_NUMBER()C)DENSE_RANK()D)PERCENT_RANK(答案:AB解析:[多選題]72.線性模型的基本形式有()。A)線性回歸B)對(duì)數(shù)幾率回歸(二分類問(wèn)題)C)線性判別分析(Fisher判別分析)D)多分類學(xué)答案:ABCD解析:線性模型的經(jīng)典模型有:線性回歸,對(duì)數(shù)幾率回歸(二分類問(wèn)題),線性判別分析(Fisher判別分析),多分類學(xué)習(xí)。[多選題]73.下列關(guān)于特征的稀疏性說(shuō)法正確的是()。A)稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無(wú)關(guān)B)稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開銷C)學(xué)習(xí)任務(wù)難度可能有所降低D)稀疏矩陣沒有高效的存儲(chǔ)方答案:ABC解析:在一個(gè)矩陣中,若非零元素的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于零元素的個(gè)數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲(chǔ)空間并且加快并行程序處理速度,可對(duì)稀疏矩陣進(jìn)行壓縮存儲(chǔ)。[多選題]74.HBase性能優(yōu)化包含下面的哪些選項(xiàng)()。A)讀優(yōu)化B)寫優(yōu)化C)配置優(yōu)化D)JVM優(yōu)化答案:ABCD解析:HBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。[多選題]75.下面關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函數(shù)的說(shuō)法,正確的是。A)?一個(gè)客服一天可能接聽到多少個(gè)電話?是一個(gè)連續(xù)型隨機(jī)變量B)正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布C)可以使用概率密度函數(shù)來(lái)描述連續(xù)型隨機(jī)變量的概率分布D)連續(xù)型概率密度函數(shù)曲線下方的面積之和為1答案:BCD解析:?一個(gè)客服一天可能接聽到多少個(gè)電話?是一個(gè)離散型隨機(jī)變量。[多選題]76.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計(jì)學(xué)的驗(yàn)證性分析方法的區(qū)別有()。A)EDA需要事先提出假設(shè),而驗(yàn)證性分析不需要B)EDA中采用的方法往往比驗(yàn)證性分析簡(jiǎn)單C)在一般數(shù)據(jù)科學(xué)項(xiàng)目中,探索性分析在先,驗(yàn)證性分析在后D)EDA更為簡(jiǎn)單、易學(xué)和易用答案:BCD解析:在一般數(shù)據(jù)科學(xué)項(xiàng)目中,探索性分析在先,驗(yàn)證性分析在后,EDA中采用的方法往往比驗(yàn)證性分析簡(jiǎn)單。[多選題]77.常用的代價(jià)函數(shù)有()。A)均方誤差B)均方根誤差C)平均絕對(duì)誤差D)交叉熵答案:ABCD解析:上述均是事常用的代價(jià)函數(shù)。[多選題]78.在數(shù)據(jù)集成中,整庫(kù)遷移支持的遠(yuǎn)端數(shù)據(jù)類型有()A)hiveB)dwsC)oracleD)mysq答案:ABCD解析:[多選題]79.集成學(xué)習(xí)中多樣性的增強(qiáng)有哪些()A)數(shù)據(jù)樣本擾動(dòng)B)輸入屬性擾動(dòng)C)輸出表示擾動(dòng)D)算法參數(shù)擾答案:ABCD解析:集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法主要是:是對(duì)數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動(dòng)。[多選題]80.在支持向量機(jī)中,參數(shù)的選取會(huì)影響擬合的結(jié)果,如果出現(xiàn)過(guò)擬合的現(xiàn)象,則導(dǎo)致該結(jié)果的原因有可能是(__)。A)其他參數(shù)保持不變,C值過(guò)大B)其他參數(shù)保持不變,λ值較少C)其他參數(shù)保持不變,σ較大D)其他參數(shù)保持不變,σ較小答案:ABD解析:SVM模型都是核函數(shù)+軟間隔的支持向量機(jī),導(dǎo)致SVM過(guò)擬合原因有要求的間隔過(guò)大,即在軟間隔支持向量機(jī)中C的參數(shù)過(guò)大時(shí),表示比較重視間隔,堅(jiān)持要數(shù)據(jù)完全分離,當(dāng)C趨于無(wú)窮大時(shí),相當(dāng)于硬間隔SVM。[多選題]81.算法?歧視?現(xiàn)象可能出現(xiàn)在()。A)算法設(shè)計(jì)B)算法實(shí)現(xiàn)C)算法投入使用D)算法驗(yàn)證答案:ABC解析:算法歧視是指算法設(shè)計(jì)、實(shí)現(xiàn)和投入使用過(guò)程中出現(xiàn)的各種?歧視?現(xiàn)象。[多選題]82.以下屬于HCS8.0.2版本DAYU數(shù)據(jù)開發(fā)功能的是:A)開發(fā)并定期運(yùn)行SQL腳本B)依據(jù)業(yè)務(wù)邏輯,編輯作業(yè),監(jiān)控作業(yè)運(yùn)行情況C)整合數(shù)據(jù)源數(shù)據(jù),開發(fā)API并對(duì)外發(fā)布D)進(jìn)行數(shù)據(jù)批量及實(shí)時(shí)遷答案:AB解析:[多選題]83.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是()。A)樸素貝葉斯B)隱馬爾科夫模型C)線性回歸模型D)深度信念網(wǎng)絡(luò)答案:ABD解析:機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等;線性回歸屬于判別式模型。[多選題]84.關(guān)于Pig的說(shuō)法正確的是()。A)Pig的主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性B)Pig的核心是一種數(shù)據(jù)分析語(yǔ)言C)Pig程序的結(jié)構(gòu)適合于串行處理D)Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分答案:ABD解析:Pig程序的結(jié)構(gòu)適合于并行處理。[多選題]85.下列哪些是TF-IDF的缺點(diǎn)()。A)字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比B)將一些生僻字誤當(dāng)作文檔關(guān)鍵詞C)只考慮特征詞和文本之間的關(guān)系,忽略了一個(gè)特征項(xiàng)在不同類別間的分布情況D)沒有考慮特征詞的位置因素對(duì)文本的區(qū)分答案:BCD解析:低頻詞匯的重要

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論