大數(shù)據(jù)理論考試(習(xí)題卷2)_第1頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷2)_第2頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷2)_第3頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷2)_第4頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷2)_第5頁(yè)
已閱讀5頁(yè),還剩73頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

試卷科目:大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分:?jiǎn)雾?xiàng)選擇題,共195題,每題只有一個(gè)正確答案,多選或少選均不得分。[單選題]1.當(dāng)構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行圖片的語(yǔ)義分割時(shí),通常采用下面哪種順序()。A)先用卷積神經(jīng)網(wǎng)絡(luò)處理輸入,再用反卷積神經(jīng)網(wǎng)絡(luò)得到輸出B)先用反卷積神經(jīng)網(wǎng)絡(luò)處理輸入,再用卷積神經(jīng)網(wǎng)絡(luò)得到輸出C)不能確[單選題]2.下面對(duì)集成學(xué)習(xí)模型中的弱學(xué)習(xí)者描述錯(cuò)誤的是()。A)他們經(jīng)常不會(huì)過擬合B)他們通常帶有高偏差,所以其并不能解決復(fù)雜學(xué)習(xí)問題C)他們通常會(huì)過擬[單選題]3.如果字符串中有*需要匹配,需要輸入的正則表達(dá)式為()。A)\*B)\\*C)*D)(*)[單選題]4.在Python中,函數(shù)()。A)不可以嵌套定義B)不可以嵌套調(diào)用C)不可以遞歸調(diào)用D)以上答案都不正確[單選題]5.在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是()。A)有放回的簡(jiǎn)單隨機(jī)抽樣B)無(wú)放回的簡(jiǎn)單隨機(jī)抽樣C)分層抽樣D)漸進(jìn)抽樣[單選題]6.一般將原始業(yè)務(wù)數(shù)據(jù)分為多個(gè)部分,()用于模型的構(gòu)建。A)訓(xùn)練集B)測(cè)試集C)驗(yàn)證集D)全部數(shù)據(jù)[單選題]7.數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用多個(gè)算法(模型)進(jìn)行預(yù)測(cè),并且最后把這些算法的結(jié)果集成起來(lái)進(jìn)行最后的預(yù)測(cè)(集成學(xué)習(xí)),以下對(duì)集成學(xué)習(xí)說(shuō)法正確的是()。A)單個(gè)模型之間具有高相關(guān)性B)單個(gè)模型之間具有低相關(guān)性C)在集成學(xué)習(xí)中使用?平均權(quán)重?而不是?投票?會(huì)比較好D)單個(gè)模型都是用的一個(gè)算法[單選題]8.以下字符串表示plot線條顏色、點(diǎn)的形狀和類型為紅色五角星點(diǎn)短虛線的是()。A)'bs-'B)'go-.'C)'r+-.'D)'r*-.'[單選題]9.不參與Hadoop系統(tǒng)讀過程的組件是()A)flinkB)NameNodeC)DataNodeD)讀流程中生成的臨時(shí)文[單選題]10.Stage的Task的數(shù)量由什么決定A)PartitionB)JobC)StageD)TaskSchedule[單選題]11.下面購(gòu)物籃能夠提取的3-項(xiàng)集的最大數(shù)量是多少()ID:購(gòu)買項(xiàng)1牛奶,啤酒,尿布2面包,黃油,牛奶3牛奶,尿布,餅干4面包,黃油,餅干5啤酒,餅干,尿布6牛奶,尿布,面包,黃油7面包,黃油,尿布8啤酒,尿布9牛奶,尿布,面包,黃油10啤酒,餅干A)1B)2C)3D)4[單選題]12.為了觀察測(cè)試Y與X之間的線性關(guān)系,X是連續(xù)變量,使用下列()比較適合。A)散點(diǎn)圖B)柱形圖C)直方圖D)以上答案都不正[單選題]13.下列對(duì)于sigmoid函數(shù)的說(shuō)法,錯(cuò)誤的是()A)存在梯度爆炸的問題B)不是關(guān)于原點(diǎn)對(duì)稱C)計(jì)算exp比較耗時(shí)D)存在梯度消失的問[單選題]14.select*fromstudent該代碼中的*號(hào),表示的正確含義是A)普通的字符*號(hào)B)錯(cuò)誤信息C)所有的字段名D)模糊查[單選題]15.關(guān)于可視分析學(xué),下列說(shuō)法錯(cuò)誤的是()。A)可視分析學(xué)比較典型的模型是D.Keim等(2008年)提出的數(shù)據(jù)分析模型。B)數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識(shí),而不僅僅停留在數(shù)據(jù)可視化化呈現(xiàn)層次之上。C)可視分析學(xué)流程強(qiáng)調(diào)可視化分析與自動(dòng)化建模之間的相互作用。D)數(shù)據(jù)映射和數(shù)據(jù)挖掘是數(shù)據(jù)可視化的兩個(gè)重要支撐技術(shù)。[單選題]16.HBase是一種可伸縮、高可靠、高性能、分布式和面向()的動(dòng)態(tài)模式數(shù)據(jù)庫(kù)。A)列B)行C)行和列D)元組[單選題]17.下面代碼的輸出結(jié)果是()。Print(0.1+0.2==0.3)A)TrueB)FalseC)trueD)false[單選題]18.由于不同類別的關(guān)鍵詞對(duì)排序的貢獻(xiàn)不同,檢索算法一般把查詢關(guān)鍵詞分為幾類,以下哪一類不屬于此關(guān)鍵詞類型的是()。A)引用詞B)普通關(guān)鍵詞C)高頻詞匯D)擴(kuò)展關(guān)鍵[單選題]19.()算法是分類算法。A)DBSCANB)C4.5C)K-MeanD)EM[單選題]20.機(jī)器學(xué)習(xí)中,基于樣本分布的距離是以下哪一個(gè)()A)馬氏距離B)歐式距離C)曼哈頓距離D)閔可夫斯基距離[單選題]21.Spark的特點(diǎn)不包括()A)速度快B)通用性C)易用性D)單一操作性[單選題]22.生產(chǎn)者通過()將對(duì)象轉(zhuǎn)換成字節(jié)數(shù)組發(fā)送給Kafka。A)攔截器B)序列化器C)分區(qū)器D)反序列化[單選題]23.留出法直接將數(shù)據(jù)集劃分為()個(gè)互斥的集合。A)一B)二C)三D)四[單選題]24.大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原ODPS)的MapReduce由多個(gè)步驟組成,以下()步驟不是必須的。A)combineB)shuffleC)mapD)reduce[單選題]25.下列哪個(gè)組件不屬于Hive架構(gòu)()A)MySQLB)TaskManagerC)HDFSD)Clien[單選題]26.一個(gè)MapReduce程序中的MapTask的個(gè)數(shù)由什么決定()A)輸入的總文件數(shù)B)客戶端程序設(shè)置的mapTask的個(gè)數(shù)C)FileInputFormat.getSplits(Jobntextjob)計(jì)算出的邏輯切片的數(shù)量D)輸入的總文件大小/數(shù)據(jù)塊大小[單選題]27.下列關(guān)于IPython的說(shuō)法,錯(cuò)誤的是()。A)IPython集成了交互式Python的很多優(yōu)點(diǎn);B)IPython的性能遠(yuǎn)遠(yuǎn)優(yōu)于標(biāo)準(zhǔn)的Python的shell;C)IPython支持變量自動(dòng)補(bǔ)全,自動(dòng)收縮;D)與標(biāo)準(zhǔn)的Python相比,IPython缺少內(nèi)置的功能和函數(shù);[單選題]28.執(zhí)行下面操作后,list2的值是()。List1=[4,5,6]List2=list1List1[2]=3A)[4,5,6]B)[4,3,6]C)[4,5,3]D)以上答案都不正確[單選題]29.聚類是一種典型的無(wú)監(jiān)督學(xué)習(xí)任務(wù),然而在現(xiàn)實(shí)聚類任務(wù)中我們往往能獲得一些額外的監(jiān)督信息,于是可通過()來(lái)利用監(jiān)督信息以獲得更好的聚類效果。A)監(jiān)督聚類B)半監(jiān)督聚類C)聚類D)直推聚類[單選題]30.pynlpir是一種常用的自然語(yǔ)言理解工具包,其中進(jìn)行分詞處理的函數(shù)是()。A)open()B)segment()C)AddUserWord()D)generate([單選題]31.以下關(guān)于DNN說(shuō)法不正確的是(__)。A)層數(shù)多B)抽象能力強(qiáng)C)模擬更復(fù)雜模型D)廣義上包含CNN,N,SVM等[單選題]32.以下不屬于基于圖像灰度分布的閾值分割方法的是()。A)類間最大距離法B)最大類間方差法C)Otsu方法D)區(qū)域生長(zhǎng)[單選題]33.列表中可以放多少個(gè)字符串()。A)1B)255C)無(wú)限個(gè)D)由用戶自己定義[單選題]34.緩解過擬合的一個(gè)辦法是允許支持向量機(jī)在一些樣本上出錯(cuò),以下哪種形式適合這種方法()。A)硬間隔支持向量機(jī)B)軟間隔支持向量機(jī)C)線性核函數(shù)支持向量機(jī)D)多項(xiàng)式核函數(shù)支持向量機(jī)[單選題]35.為了提高系統(tǒng)性能,Spark采取?惰性計(jì)算模式?,具體為()。A)執(zhí)行Transformation操作時(shí)不會(huì)提交,只有執(zhí)行Action操作時(shí)才會(huì)被提交到集群中開始被執(zhí)行B)執(zhí)行Action操作時(shí)不會(huì)提交,只有執(zhí)行Transformation操作時(shí)才會(huì)被提交到集群中開始被執(zhí)行C)只有執(zhí)行完Action操作和Transformation操作時(shí),所有操作才會(huì)被提交到集群中開始被執(zhí)行D)執(zhí)行完Action操作或Transformation操作時(shí)都不會(huì)提交到集群[單選題]36.()的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。A)數(shù)據(jù)處理B)數(shù)據(jù)計(jì)算C)數(shù)據(jù)加工(DataWrangling或DataMunging)D)整齊數(shù)據(jù)[單選題]37.通常來(lái)說(shuō),下面哪種方法能夠用來(lái)預(yù)測(cè)連續(xù)因變量()A)線性回歸B)邏輯回歸C)線性回歸和邏輯回歸D)以上答案都不正確[單選題]38.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的()、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A)暫時(shí)隔離B)暫時(shí)刪除C)永久刪除D)不作處理[單選題]39.考慮這么一種情況:一個(gè)對(duì)象碰巧與另一個(gè)對(duì)象相對(duì)接近,但屬于不同的類,因?yàn)檫@兩個(gè)對(duì)象一般不會(huì)共享許多近鄰,所以應(yīng)該選擇()的相似度計(jì)算方法。A)平方歐幾里德距離B)余弦距離C)直接相似度D)共享最近鄰[單選題]40.大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為()A)人信息的被識(shí)別與暴露B)戶畫像的生成C)意廣告的推送D)毒入侵[單選題]41.數(shù)據(jù)變換的策略包括()。A)平滑處理、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、離散化B)平滑處理、特征構(gòu)造、聚集、審計(jì)、離散化C)平滑處理、特征構(gòu)造、聚集、審計(jì)、離散化D)特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化[單選題]42.按照姓名降序排列()A)ORDERBYDESCNAMEB)ORDERBYNAMEDESCC)ORDERBYNAMEASCD)ORDERBYASCNAM[單選題]43.有關(guān)Hadoop的陳述哪個(gè)是錯(cuò)誤的()。A)它運(yùn)行在通用硬件上;B)它是Apache軟件基金會(huì)(ASF)下的項(xiàng)目;C)它是最好的實(shí)時(shí)流式數(shù)據(jù)處理框架;D)Hadoop對(duì)數(shù)據(jù)的處理是有延遲的;[單選題]44.數(shù)據(jù)管理成熟度模型--DMM模型將一個(gè)機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個(gè)關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、()、數(shù)據(jù)質(zhì)量、平臺(tái)與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。A)數(shù)據(jù)管理B)數(shù)據(jù)治理C)數(shù)據(jù)策略D)數(shù)據(jù)安全[單選題]45.scipy中模塊stats的作用是()。A)統(tǒng)計(jì)B)差值計(jì)算C)程序輸入輸出D)稀疏矩陣[單選題]46.以下描述中錯(cuò)誤的是()。A)數(shù)據(jù)化與數(shù)字化是兩個(gè)不同概念B)數(shù)據(jù)與數(shù)值是一個(gè)概念C)大數(shù)據(jù)與海量數(shù)據(jù)是兩個(gè)不同的概念D)數(shù)據(jù)和信息是兩個(gè)不同的概[單選題]47.如果需要訓(xùn)練的特征維度成千上萬(wàn),在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離計(jì)算困難。我們通過什么方法可以緩解這個(gè)問題()。A)K均值算法B)支持向量機(jī)C)降維D)以上答案都不正確[單選題]48.下面哪一項(xiàng)用決策樹法訓(xùn)練大量數(shù)據(jù)集最節(jié)約時(shí)間()。A)增加樹的深度B)增加學(xué)習(xí)率C)減少數(shù)的深度D)減少樹的個(gè)[單選題]49.Scipy中計(jì)算偏度的函數(shù)是哪個(gè)()。A)scipy.stats.skewtest()B)scipy.stats.norm.rvs()C)scipy.stats.kurtosis()D)scipy.stats.poisson.rvs()[單選題]50.以下聚合函數(shù)求最大值的是()A)AVGB)SUMC)MAXD)COUN[單選題]51.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?()A)變量代換B)離散化C)聚集D)估計(jì)遺漏值[單選題]52.彩色圖像增強(qiáng)時(shí),()處理可以采用RGB。A)直方圖均衡化B)同態(tài)濾波C)加權(quán)均值濾波D)中值濾[單選題]53.PageRank是一個(gè)函數(shù),它對(duì)Web中的每個(gè)網(wǎng)頁(yè)賦予一個(gè)實(shí)數(shù)值。它的意圖在于網(wǎng)頁(yè)的PageRank越高,那么它就()。A)相關(guān)性越高B)越不重要C)相關(guān)性越低D)越重要[單選題]54.關(guān)于SecondaryNameNode哪項(xiàng)是正確的()A)它是NameNode的熱備B)它對(duì)內(nèi)存沒有要求C)它的目的是幫助NameNode合并編輯日志,減少NameNode的負(fù)擔(dān)和冷啟動(dòng)時(shí)的加載時(shí)間D)SecondaryNameNode應(yīng)與NameNode部署到一個(gè)節(jié)點(diǎn)[單選題]55.下列常用模塊功能描述錯(cuò)誤的是()。A)datetime:datetime對(duì)象不可將日期對(duì)象格式化為可讀字符串的方法B)json:JSON(JavaScriptObjectNotation,JS對(duì)象標(biāo)記)是一種輕量級(jí)的數(shù)據(jù)交換格式C)sys:這個(gè)模塊可供訪問由解釋器使用或維護(hù)的變量和與解釋器進(jìn)行交互的函數(shù)D)scipy:應(yīng)用廣泛的科學(xué)計(jì)算包[單選題]56.給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上,使得同類樣例的投影點(diǎn)盡可能接近、異類樣例的投影點(diǎn)盡可能遠(yuǎn)離,這說(shuō)的是()算法。A)PCB)SVMC)K-meansD)LD[單選題]57.以下關(guān)于Hadoop中MapReduce說(shuō)法正確的是()。A)可以沒有reduce任務(wù)B)Reducer輸入為隨機(jī)輸入C)shuffle主要實(shí)現(xiàn)數(shù)據(jù)可視化功能D)一個(gè)reducer只能從一個(gè)map復(fù)制所需要的partition[單選題]58.Spark那個(gè)組件用于支持實(shí)時(shí)計(jì)算需求()。A)SparkSQLB)SparkStreamingC)SparkGraphXD)SparkMLLib[單選題]59.下列方法中,用于獲取當(dāng)前目錄的是()。A)openB)writeC)GetpwdD)read[單選題]60.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行()等處理的過程。A)更正B)刪除C)補(bǔ)充錄入D)以上答案都正確[單選題]61.卷積的過程是讓過濾器在圖像上()。A)縮放B)剪切C)窗口滑動(dòng)D)鏡像對(duì)[單選題]62.后剪枝是先從訓(xùn)練集生成一顆完整的決策樹,然后()對(duì)非葉結(jié)點(diǎn)進(jìn)行考察。A)自上而下B)在劃分前C)禁止分支展開D)自底向上[單選題]63.Adaboost的核心思想是()。A)給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集,將該學(xué)習(xí)算法使用多次,得出預(yù)測(cè)函數(shù)序列,進(jìn)行投票B)針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器集合起來(lái),構(gòu)成一個(gè)強(qiáng)分類器C)利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器D)基于前向策略的加法模型,每階段使用一個(gè)基模型去擬合上一階段基模型的殘差[單選題]64.傳統(tǒng)目標(biāo)檢測(cè)流程包括()。A)區(qū)域選擇B)特征提取C)分類器分類D)以上答案都正[單選題]65.在深度學(xué)習(xí)中,我們經(jīng)常會(huì)遇到收斂到localminimum,下面不屬于解決localminimum問題的方法是()A)隨機(jī)梯度下降B)設(shè)置MomentumC)設(shè)置不同初始值D)增大batchsiz[單選題]66.數(shù)據(jù)科學(xué)基本原則中,?基于數(shù)據(jù)的智能?的主要特點(diǎn)是()。A)數(shù)據(jù)簡(jiǎn)單、但算法簡(jiǎn)單B)數(shù)據(jù)復(fù)雜、但算法簡(jiǎn)單C)數(shù)據(jù)簡(jiǎn)單、但算法復(fù)雜D)數(shù)據(jù)復(fù)雜、但算法復(fù)雜[單選題]67.a=[1,2,3.4,5],切片時(shí)如果要取[2,3.4],正確的選項(xiàng)是()。A)a[1:4]B)a[-2:]C)a[1:-1]D)a[::2][單選題]68.()是以樣本統(tǒng)計(jì)量作為未知總體參數(shù)的估計(jì)量,并通過對(duì)樣本單位的實(shí)際觀察取得樣本數(shù)據(jù),計(jì)算樣本統(tǒng)計(jì)量的取值作為被估計(jì)參數(shù)的估計(jì)值A(chǔ))參數(shù)估計(jì)B)邏輯分析C)方差分析D)回歸分析[單選題]69.在TF-IDF算法中,在計(jì)算完詞頻與逆文檔頻率后,將二者()后得到最終的結(jié)果。A)相加B)相減C)相乘D)相[單選題]70.BP神經(jīng)網(wǎng)絡(luò)具有很的表示能力,它經(jīng)常遭遇(),其訓(xùn)練誤差持續(xù)降低,但測(cè)試誤差卻可能上升。A)欠擬合B)誤差過大C)誤差過小D)過擬[單選題]71.創(chuàng)建表時(shí),不允許某列為空可以使用()命令。A)notnullB)nonullC)notblankD)noblan[單選題]72.從數(shù)據(jù)到智慧的轉(zhuǎn)換依次遞進(jìn)過程是()。A)數(shù)據(jù)、知識(shí)、信息、理解、智慧B)數(shù)據(jù)、信息、理解、知識(shí)、智慧C)數(shù)據(jù)、信息、知識(shí)、理解、智慧D)數(shù)據(jù)、理解、信息、知識(shí)、智慧[單選題]73.gateway在ElasticSearch中的含義是?A)網(wǎng)關(guān)B)索引的存儲(chǔ)方式C)rpc請(qǐng)求接口D)索引快照的存儲(chǔ)方[單選題]74.Redis中String數(shù)據(jù)類型不含以下哪種操作?A)mgetB)sizeC)strlenD)append[單選題]75.回歸分析的任務(wù),就是根據(jù)()和因變量的觀察值,估計(jì)這個(gè)函數(shù),并討論與之有關(guān)的種種統(tǒng)計(jì)推斷的問題A)相關(guān)變量B)樣本C)已知數(shù)據(jù)D)自變[單選題]76.從網(wǎng)絡(luò)的原理上來(lái)看,結(jié)構(gòu)最復(fù)雜的神經(jīng)網(wǎng)絡(luò)是()。A)卷積神經(jīng)網(wǎng)絡(luò)B)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)C)GRUD)BP神經(jīng)網(wǎng)[單選題]77.對(duì)于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,下列說(shuō)法正確的是()。A)需要將這些樣本全部強(qiáng)制轉(zhuǎn)換為支持向量B)需要將這些樣本中可以轉(zhuǎn)化的樣本轉(zhuǎn)換為支持向量,不能轉(zhuǎn)換的直接刪除C)移去或者減少這些樣本對(duì)分類結(jié)果沒有影響D)以上都不對(duì)[單選題]78.隨機(jī)森林等樹狀算法通過哪個(gè)模塊進(jìn)行調(diào)用()。A)dummyB)ensembleC)treeD)experimental[單選題]79.()試圖學(xué)得一個(gè)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù)。A)決策樹B)貝葉斯分類器C)神經(jīng)網(wǎng)絡(luò)D)線性模[單選題]80.假設(shè)已從標(biāo)準(zhǔn)庫(kù)functools導(dǎo)入reduce()函數(shù),那么表達(dá)式reduce(lambdax,y:x+y,[1,2,3])的值為()。A)NoneB)6C)3D)9[單選題]81.DIKW金字塔模型中,頂層與底層的名稱分別為()。A)智慧與數(shù)據(jù)B)知識(shí)與數(shù)據(jù)C)智慧與數(shù)值D)知識(shí)與數(shù)值[單選題]82.解析:最大概率分詞基本思想:一句話有多種切割方法,我們選擇聯(lián)合概率最大的結(jié)果。A)南京市*長(zhǎng)江*大橋B)南京*市長(zhǎng)*江大橋C)南京市長(zhǎng)*江大橋D)南京市*長(zhǎng)江大[單選題]83.關(guān)于boosting下列說(shuō)法錯(cuò)誤的是()。A)boosting方法的主要思想是迭代式學(xué)習(xí)B)訓(xùn)練基分類器時(shí)采用并行的方式C)測(cè)試時(shí),根據(jù)各層分類器的結(jié)果的加權(quán)得到最終結(jié)果D)基分類器層層疊加,每一層在訓(xùn)練時(shí),對(duì)前一層基分類器分錯(cuò)的樣本給予更高的權(quán)[單選題]84.關(guān)于Python文件處理,以下選項(xiàng)中描述錯(cuò)誤的是()。A)Python能處理JPG圖像文件B)Python不可以處理PDF文件CPython能處理C)SV文件D)Python能處理Excel文件[單選題]85.以下哪項(xiàng)是Spark2.x程序統(tǒng)一入口?A)StreamingContextB)SqlContextC)HiveContextD)SparkSessio[單選題]86.下列縮進(jìn)格式描述不正確的是()。A)縮進(jìn)指在代碼行前面添加空格或Tab;B)在Python程序中,縮進(jìn)不是任意的;C)縮進(jìn)可以使程序更有層次感、更有結(jié)構(gòu)感,從而是程序更易讀。D)平級(jí)的語(yǔ)句行(代碼塊)的縮進(jìn)可以不相同。[單選題]87.以下跟RNN相關(guān)的是(__)。A)梯度消失B)時(shí)間步C)梯度爆炸D)以上答案都正[單選題]88.輸入圖片大小為37×37,經(jīng)過第一層卷積(thenumberoffilters=25,kernelsize=5×5,padding=valid,stride=1),與池化層maxpooling(kernelsize=3×3,padding=valid),輸出特征圖大小為?(__)A)10×10B)11×11C)12×12D)13×1[單選題]89.大數(shù)據(jù)計(jì)算服務(wù)中,臨時(shí)數(shù)據(jù)表tmp_item是一張非分區(qū)表,開發(fā)人員在建表時(shí)指定了lifecycle屬性為30,且使用一次后未再進(jìn)行任何操作和訪問。30天后這張表會(huì)()。A)tmp_item會(huì)被自動(dòng)重命名為tmp_item.deletedB)tmp_item表會(huì)被自動(dòng)刪除掉C)不會(huì)任何變更D)tmp_item中的數(shù)據(jù)會(huì)被清空,表結(jié)構(gòu)仍存在[單選題]90.下列說(shuō)法錯(cuò)誤的是()A)生產(chǎn)者和消費(fèi)者面向的都是一個(gè)topicB)生產(chǎn)者發(fā)送數(shù)據(jù)的對(duì)象是leaderC)當(dāng)集群中的某個(gè)節(jié)點(diǎn)發(fā)生故障時(shí),Replica上的partition數(shù)據(jù)不會(huì)丟失D)partition是一個(gè)沒有順序的隊(duì)[單選題]91.以下不屬于基于區(qū)域的圖像分割方法的是()。A)區(qū)域生長(zhǎng)法B)分水嶺算法C)大津算法D)基于圖論的分割算[單選題]92.對(duì)組織機(jī)構(gòu)的數(shù)據(jù)管理成熟度等級(jí)劃分中的已執(zhí)行級(jí)的描述錯(cuò)誤的是()。A)在具體項(xiàng)目中,DMM關(guān)鍵過程域(KP中給出的關(guān)鍵過程已被執(zhí)行,但隨意性和臨時(shí)性較大B)DMM關(guān)鍵過程的執(zhí)行不僅僅局限于特定業(yè)務(wù)范疇,存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過程C)缺少針對(duì)DMM關(guān)鍵過程的反饋與優(yōu)化D)雖然有可能在特定業(yè)務(wù)過程中進(jìn)行了基礎(chǔ)性改進(jìn),但沒有進(jìn)行持續(xù)跟進(jìn),也未拓展到整個(gè)組織機(jī)構(gòu)[單選題]93.()是Spark中的抽象數(shù)據(jù)模型。A)RDDB)SchedulerC)StorageD)Shuffl[單選題]94.以下哪些方法不可以直接來(lái)對(duì)文本分類()A)KmeansB)決策樹C)支持向量機(jī)D)KN[單選題]95.下列不屬于Statsmodels模塊的主要特點(diǎn)的是()。A)線性模型B)方差分析C)時(shí)間序列D)插值運(yùn)算[單選題]96.我們建立一個(gè)5000個(gè)特征,100萬(wàn)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型.我們?cè)趺从行У貞?yīng)對(duì)這樣的大數(shù)據(jù)訓(xùn)練()。A)我們隨機(jī)抽取一些樣本,在這些少量樣本之上訓(xùn)練B)我們可以試用在線機(jī)器學(xué)習(xí)算法C)我們應(yīng)用PCA算法降維,減少特征數(shù)D)以上答案都正確[單選題]97.以下屬于淺層學(xué)習(xí)模型的是()。A)DBNB)CNNC)SVMD)RN[單選題]98.以下哪一種分布是二維隨機(jī)變量的分布()。A)正態(tài)分布B)二項(xiàng)分布C)邊緣分布D)指數(shù)分布[單選題]99.過濾式特征選擇與學(xué)習(xí)器(),包裹式特征選擇與學(xué)習(xí)器()。A)相關(guān)相關(guān)B)相關(guān)不相關(guān)C)不相關(guān)相關(guān)D)不相關(guān)不相關(guān)[單選題]100.以下哪種參數(shù)須以正確的順序傳入函數(shù),調(diào)用時(shí)的數(shù)量必須和聲明時(shí)的一樣()。A)位置參數(shù)B)默認(rèn)值參數(shù)C)可變參數(shù)D)關(guān)鍵字參數(shù)[單選題]101.下面的語(yǔ)句哪個(gè)會(huì)無(wú)限循環(huán)下去()。A)forainrange(10):timesleep(10)B)while1<10:timesleep(10)C)whileTrue:breakD)a=[3,-1,',']foriina[:]:ifnota:break[單選題]102.現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型不包括()。A)數(shù)據(jù)源與APPB)基礎(chǔ)設(shè)施C)HadoopD)數(shù)據(jù)資源[單選題]103.以下選項(xiàng)中說(shuō)法不正確的是()。A)解釋是將源代碼逐條轉(zhuǎn)換成目標(biāo)代碼同時(shí)逐條運(yùn)行目標(biāo)代碼的過程B)編譯是將源代碼轉(zhuǎn)換成目標(biāo)代碼的過程C)C語(yǔ)言是靜態(tài)語(yǔ)言,Python語(yǔ)言是腳本語(yǔ)言D)靜態(tài)語(yǔ)言采用解釋方式執(zhí)行,腳本語(yǔ)言采用編譯方式執(zhí)行[單選題]104.以下聚合函數(shù),用于求數(shù)據(jù)平均值的是A)MAXB)SUMC)COUNTD)AV[單選題]105.因子分析把每個(gè)原始變量分解為兩部分因素:一部分為(),另一部分為()。A)公共因子和特殊因子B)特殊因子和相關(guān)因子C)相關(guān)因子和獨(dú)立因子D)獨(dú)立因子和公共因子[單選題]106.大數(shù)據(jù)計(jì)算服務(wù)提供了大數(shù)據(jù)的存儲(chǔ)和計(jì)算服務(wù),非常適合應(yīng)用于大數(shù)據(jù)分析的領(lǐng)域。以下說(shuō)法中錯(cuò)誤的是:()。A)可以實(shí)現(xiàn)大型互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)和BI分析B)提供了便捷的分析處理海量數(shù)據(jù)的手段,用戶可以不必關(guān)心分布式計(jì)算細(xì)節(jié),從而達(dá)到分析大數(shù)據(jù)的目的C)可以支持實(shí)時(shí)OLAP分析D)可以基于歷史數(shù)據(jù),進(jìn)行用戶特征和興趣挖掘[單選題]107.@app.route的作用為()。A)程序代碼的規(guī)范,沒什么作用B)類似裝飾器,返回本地網(wǎng)絡(luò)測(cè)試地址C)返回127005000D)以上答案都不正確[單選題]108.LSTM中,(__)的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中,并更新細(xì)胞狀態(tài)。A)輸入門B)遺忘門C)輸出門D)更新門[單選題]109.若A與B是任意的兩個(gè)事件,且P(AB)=P(A)·P(B),則可稱事件A與B()。A)等價(jià)B)互不相容C)相互獨(dú)立D)相互對(duì)[單選題]110.新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和()。A)數(shù)據(jù)倉(cāng)庫(kù)B)關(guān)系云C)數(shù)據(jù)庫(kù)系統(tǒng)D)文件系統(tǒng)[單選題]111.假設(shè)你正在訓(xùn)練一個(gè)LSTM網(wǎng)絡(luò),你有一個(gè)10,000詞的詞匯表,并且使用一個(gè)激活值維度為100的LSTM塊,在每一個(gè)時(shí)間步中,Γu的維度是多少()A)1B)100C)300D)1000[單選題]112.可視化視覺下的數(shù)據(jù)類型不包括()。A)定類數(shù)據(jù)B)定序數(shù)據(jù)C)定寬數(shù)據(jù)D)定比數(shù)據(jù)[單選題]113.以下可以應(yīng)用關(guān)鍵詞提取的是()。A)文獻(xiàn)檢索B)自動(dòng)文摘C)文本聚類/分類D)以上答案都正[單選題]114.以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法:()。A)嵌入B)過濾C)包裝D)抽樣[單選題]115.下面關(guān)于Hive導(dǎo)表寫入指定格式表時(shí)的描述正確的是()A)導(dǎo)表時(shí),如果建表語(yǔ)句指定為ORC格式的表,那么數(shù)據(jù)會(huì)先存儲(chǔ)為ORC格式B)導(dǎo)表時(shí),如果建表語(yǔ)句指定為SequenceFile格式的表,那么數(shù)據(jù)會(huì)先存儲(chǔ)為SequenceFile格式C)導(dǎo)表時(shí),如果建表語(yǔ)句指定為PARQUET格式的表,那么數(shù)據(jù)會(huì)先存儲(chǔ)為PARQUET格式D)導(dǎo)表時(shí),如果建表語(yǔ)句指定為ORC格式的表,那么數(shù)據(jù)會(huì)先存儲(chǔ)為TEXTFILE格[單選題]116.考慮某個(gè)具體問題時(shí),你可能只有少量數(shù)據(jù)來(lái)解決這個(gè)問題。不過幸運(yùn)的是你有一個(gè)類似問題已經(jīng)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)。可以用下面哪種方法來(lái)利用這個(gè)預(yù)先訓(xùn)練好的網(wǎng)絡(luò)()A)把除了最后一層外所有的層都凍住,重新訓(xùn)練最后一層B)對(duì)新數(shù)據(jù)重新訓(xùn)練整個(gè)模型C)只對(duì)最后幾層進(jìn)行調(diào)參(finetune)D)對(duì)每一層模型進(jìn)行評(píng)估,選擇其中的少數(shù)來(lái)[單選題]117.下列屬于無(wú)監(jiān)督學(xué)習(xí)的是()。A)K-meansB)SVMC)最大熵D)CRF[單選題]118.以下哪些節(jié)點(diǎn)在DWS中不存在:A)管理節(jié)點(diǎn)B)數(shù)據(jù)節(jié)點(diǎn)C)計(jì)算節(jié)點(diǎn)D)控制節(jié)[單選題]119.下列()算法更適合做時(shí)間序列建模。A)CNNB)決策樹C)LSTMD)貝葉斯算法[單選題]120.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()特點(diǎn)。A)可關(guān)聯(lián)性B)可溯源性C)可理解性D)可復(fù)制性[單選題]121.RDD的特點(diǎn)不包括()A)DD之間有依賴關(guān)系,可溯源B)DD由很多partition構(gòu)成C)對(duì)RDD的每個(gè)split或partition做計(jì)算D)RDD可以增量更新[單選題]122.下列哪個(gè)程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)()A)SecondaryNameNodeB)DataNodeC)TaskTrackerD)Jobtracker[單選題]123.matplotlib中的axvspan函數(shù)作用是什么()。A)在x軸標(biāo)示不同圖形的文本標(biāo)簽圖例B)繪制垂直于x的區(qū)域C)添加x軸內(nèi)容細(xì)節(jié)的指向性注釋文本D)添加x軸標(biāo)題;[單選題]124.()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價(jià)值越高。A)規(guī)模B)靈活性C)關(guān)聯(lián)度D)顆粒度[單選題]125.關(guān)于臟數(shù)據(jù)和亂數(shù)據(jù)的區(qū)分,以下哪種不屬于臟數(shù)據(jù)()。A)含有缺失數(shù)據(jù)B)冗余數(shù)據(jù)C)噪聲數(shù)據(jù)D)不規(guī)則形態(tài)數(shù)據(jù)[單選題]126.大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)不包含的是()A)數(shù)據(jù)整合B)數(shù)據(jù)存儲(chǔ)C)數(shù)據(jù)計(jì)算D)數(shù)據(jù)溯[單選題]127.kNN最近鄰算法在什么情況下效果較好()。A)樣本較多但典型性不好B)樣本較少但典型性好C)樣本呈團(tuán)狀分布D)樣本呈鏈狀分[單選題]128.Hbase依靠()提供強(qiáng)大的計(jì)算能力A)ZoopkeeperB)ChubbyC)RPCD)MapReduce[單選題]129.若建立一個(gè)5000個(gè)特征,100萬(wàn)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型,則應(yīng)該怎么有效地應(yīng)對(duì)這樣的大數(shù)據(jù)訓(xùn)練()。A)隨機(jī)抽取一些樣本,在這些少量樣本之上訓(xùn)練B)可以試用在線機(jī)器學(xué)習(xí)算法C)應(yīng)用P算法降維,減少特征數(shù)D)以上答案都正[單選題]130.離散程度的測(cè)度值愈大,則()。A)映變量值愈分散,算術(shù)平均數(shù)代表性愈差B)映變量值愈集中,算術(shù)平均數(shù)代表性愈差C)映變量值愈分散,算術(shù)平均數(shù)代表性愈好D)映變量值愈集中,算術(shù)平均數(shù)代表性愈好[單選題]131.K折交叉驗(yàn)證器是以下哪個(gè)方法()。A)model_selection.GroupKFold()B)model_selection.GroupShuffleSplit()C)model_selection.KFold()D)model_selection.RepeatedKFold()[單選題]132.數(shù)據(jù)使用環(huán)節(jié)的安全技術(shù)措施除防火墻、()、防病毒、防DDOS、漏洞檢測(cè)等網(wǎng)絡(luò)安全防護(hù)技術(shù)措施外,還需實(shí)現(xiàn)以下安全技術(shù)能力:賬號(hào)權(quán)限管理、數(shù)據(jù)安全域、數(shù)據(jù)脫敏、日志管理和審計(jì)、異常行為實(shí)時(shí)監(jiān)控和終端數(shù)據(jù)防泄漏。A)入侵檢測(cè)B)病毒檢測(cè)C)程序檢測(cè)D)進(jìn)程檢測(cè)[單選題]133.Hadoop生態(tài)系統(tǒng)中,HBase是一種()。A)分布式文件系統(tǒng)B)數(shù)據(jù)倉(cāng)庫(kù)C)實(shí)時(shí)分布式數(shù)據(jù)庫(kù)D)分布式計(jì)算系統(tǒng)[單選題]134.采用冪次變換進(jìn)行灰度變換時(shí),當(dāng)冪次取小于1時(shí),該變換可以改善如下哪一類圖像?()A)圖像整體偏亮B)圖像整體偏暗C)圖像同時(shí)存在過亮和過暗背景D)圖像細(xì)節(jié)淹沒在暗背景中[單選題]135.下列哪個(gè)不是stats模塊中的功能()。A)連續(xù)性分布B)線性方程求解C)離散型分布D)核密度估計(jì)[單選題]136.DataFrame和RDD最大的區(qū)別是()。A)科學(xué)統(tǒng)計(jì)支持B)多了schemaC)存儲(chǔ)方式不一樣D)外部數(shù)據(jù)源支持[單選題]137.關(guān)于裝飾器,下列說(shuō)法錯(cuò)誤的是()。A)裝飾器是一個(gè)包裹函數(shù)B)裝飾器只能有一個(gè)參數(shù)C)通過在函數(shù)定義的面前加上@符號(hào)和裝飾器名,使得裝飾器函數(shù)生效D)如果裝飾器帶有參數(shù),則必須在裝飾函數(shù)的外層再嵌套一層函數(shù)[單選題]138.以下代碼的輸出結(jié)果為()。Arr=np.array([1,5,3])Arr1=np.array([2,4,6])Print(arr<arr1)A)TRUEB)FALSEC)[Ture,F(xiàn)alse,Ture]D)([Ture,Ture,Ture])[單選題]139.下列哪種架構(gòu)的數(shù)據(jù)庫(kù)數(shù)據(jù)是分布式存儲(chǔ)的:A)share-everythingB)share-diskC)share-nothingD)share-anythin[單選題]140.從連續(xù)圖像到數(shù)字圖像需要()。A)圖像灰度級(jí)設(shè)定B)圖像分辨率設(shè)定C)確定圖像的存儲(chǔ)空間D)采樣和量[單選題]141.Python中Statsmodel庫(kù)和()庫(kù)關(guān)系密切。A)NumpyB)ScipyC)jiebaD)Pandas[單選題]142.在方差分析中,()反映的是樣本數(shù)據(jù)與其組平均值的差異。A)總離差B)組間誤差C)抽樣誤差D)組內(nèi)誤差[單選題]143.下面檢索結(jié)果最多只有一行的命令是A)SELECTDISTINCT*FROMorders;B)SELECT*FROMordersLIMIT1,2;C)SELECT*FROMordersGROUPBY1;D)SELECT*FROMordersLIMIT1[單選題]144.Hive的數(shù)據(jù)最終存儲(chǔ)在()A)HDFSB)HseC)RDBMSD)Metastor[單選題]145.開發(fā)Maxcompute的用戶自定義標(biāo)量函數(shù),主要是實(shí)現(xiàn)其中的()方法。A)evaluateB)mainC)iterateD)process[單選題]146.以下不屬于有監(jiān)督的詞義消歧方法的是()。A)Flip-Flop算法B)貝葉斯分類器C)最大熵消歧D)基于詞典的消[單選題]147.當(dāng)Spark發(fā)生Shuffle時(shí),MapTask的運(yùn)算結(jié)果會(huì)通過()的形式把運(yùn)算結(jié)果分發(fā)到對(duì)應(yīng)的任務(wù)上去。A)序列化B)鍵值對(duì)C)二進(jìn)制D)RD[單選題]148.以下那個(gè)選項(xiàng)是在局部生效的,出了這個(gè)變量的作用域,這個(gè)變量就失效了()。A)局部變量B)全局變量C)字典D)集合[單選題]149.有研究發(fā)現(xiàn)?頁(yè)面的顯示速度每延遲1s,網(wǎng)站訪問量就會(huì)降低11%,從而導(dǎo)致營(yíng)業(yè)額或者注冊(cè)量減少7%,顧客滿意度下降16%?。該項(xiàng)研究表明了(__)在數(shù)據(jù)產(chǎn)品開發(fā)中的重要性。A)查全率B)用戶體驗(yàn)C)數(shù)據(jù)可視化D)查準(zhǔn)率[單選題]150.RDD中的數(shù)據(jù)被()在集群中,使得任務(wù)可以并行執(zhí)行。A)順序存儲(chǔ);B)連續(xù)存儲(chǔ);C)分塊存儲(chǔ);D)分區(qū)存儲(chǔ);[單選題]151.以下算法中,sklearn中未提及的是()。A)K-Means聚類算法B)LogisticRegressionC)KNN最近鄰分類算法D)Apriori關(guān)聯(lián)規(guī)則算法[單選題]152.使用MaxcomputeSQL:createtablet1liket2;建表時(shí),表t1不會(huì)具有表t2的()屬性。A)分區(qū)B)生命周期C)二級(jí)分區(qū)D)字段的注釋[單選題]153.下列不是數(shù)據(jù)科學(xué)項(xiàng)目的主要角色()。A)項(xiàng)目發(fā)起人B)項(xiàng)目經(jīng)理C)操作人員D)驗(yàn)收人員[單選題]154.假設(shè)你有5個(gè)大小為7x7、邊界值為0的卷積核,同時(shí)卷積神經(jīng)網(wǎng)絡(luò)第一層的深度為1。此時(shí)如果你向這一層傳入一個(gè)維度為224x224x3的數(shù)據(jù),那么神經(jīng)網(wǎng)絡(luò)下一層所接收到的數(shù)據(jù)維度是多少()A)218x218x5B)217x217x8C)217x217x3D)220x220x[單選題]155.下列()不是神經(jīng)網(wǎng)絡(luò)的代表。A)卷積神經(jīng)網(wǎng)絡(luò)B)遞歸神經(jīng)網(wǎng)絡(luò)C)殘差網(wǎng)絡(luò)D)xgboost算[單選題]156.以下可以作為文本分類準(zhǔn)則的是()。A)預(yù)測(cè)準(zhǔn)確率B)魯棒性C)可擴(kuò)展性D)以上答案都正[單選題]157.下面哪個(gè)色彩空間最接近人的視覺系統(tǒng)的特點(diǎn)()。A)RGB空間B)CMY空間C)YK空間D)HSI空[單選題]158.在數(shù)據(jù)科學(xué)中,R的包通常從()下載。A)PIPB)CRANC)RstudioD)Pypi[單選題]159.機(jī)器學(xué)習(xí)中發(fā)生過擬合的主要原因不包括()。A)使用過于復(fù)雜的模型B)數(shù)據(jù)噪聲較大C)訓(xùn)練數(shù)據(jù)少D)訓(xùn)練數(shù)據(jù)充[單選題]160.如果要清空文件,需要使用的命令是()。A)close()B)seek(0)C)truncate(0)D)Dwrite('stuff')[單選題]161.()是一個(gè)觀測(cè)值,它與其它觀測(cè)值的差別如此之大,以至于懷疑它是由不同的機(jī)制產(chǎn)生的。A)邊界點(diǎn)B)質(zhì)心C)離群點(diǎn)D)核心點(diǎn)[單選題]162.下面哪個(gè)功能不是大數(shù)據(jù)平臺(tái)安全管理組件提供的功能()。A)接口代理B)接口認(rèn)證C)接口授權(quán)D)路由代理[單選題]163.在灰度線性變換s=ar+b中,要使輸出圖像對(duì)比度增大,則:()A)a>1B)a<1C)a=1D)b>1[單選題]164.bootstrap數(shù)據(jù)是什么意思()。A)有放回地從總共M個(gè)特征中抽樣m個(gè)特征B)無(wú)放回地從總共M個(gè)特征中抽樣m個(gè)特征C)有放回地從總共N個(gè)樣本中抽樣n個(gè)樣本D)無(wú)放回地從總共N個(gè)樣本中抽樣n個(gè)樣本[單選題]165.()在訓(xùn)練的每一輪都要檢查當(dāng)前生成的基學(xué)習(xí)器是否滿足基本條件。A)支持向量機(jī)B)osting算法C)貝葉斯分類器D)Bagging算[單選題]166.()是指為最小化總體風(fēng)險(xiǎn),只需在每個(gè)樣本上選擇能使特定條件風(fēng)險(xiǎn)最小的類別標(biāo)記。A)支持向量機(jī)B)間隔最大化C)線性分類器D)貝葉斯判定準(zhǔn)則[單選題]167.下列關(guān)于線性模型的描述錯(cuò)誤的是()。A)支持向量機(jī)的判別函數(shù)一定屬于線性函數(shù)B)在樣本為某些分布情況時(shí),線性判別函數(shù)可以成為最小錯(cuò)誤率或最小風(fēng)險(xiǎn)意義下的最優(yōu)分類器C)在一般情況下,線性分類器只能是次優(yōu)分類器D)線性分類器簡(jiǎn)單而且在很多期情況下效果接近最優(yōu),所以應(yīng)用比較廣[單選題]168.Sigmoid函數(shù)作為神經(jīng)元激活函數(shù)的特點(diǎn)是()。A)連續(xù)但不光滑B)不連續(xù)但光滑C)連續(xù)且光滑D)不連續(xù)且不光[單選題]169.關(guān)于以下深度學(xué)習(xí)框架描述正確的是(__)。A)Tensorflow是一款使用C++語(yǔ)言開發(fā)的開源數(shù)學(xué)計(jì)算軟件B)Caffe對(duì)于卷積網(wǎng)絡(luò)的支持特別好,同時(shí)提供的C++接口,也提供了matlab接口和python接口C)PyTorch的前身便是Torch,其底層和Torch框架一樣,但是使用Python重新寫了很多內(nèi)容D)以上答案都正[單選題]170.以下描述中不屬于?規(guī)整數(shù)據(jù)(TidyData)?三個(gè)基本原則的是()。A)每一類觀察單元構(gòu)成一個(gè)關(guān)系(表)B)每個(gè)觀察占且僅占一行C)每個(gè)變量占且僅占一列D)每個(gè)觀察占且僅占一個(gè)關(guān)系(表)[單選題]171.最早被提出的循環(huán)神經(jīng)網(wǎng)絡(luò)門控算法是什么()A)長(zhǎng)短期記憶網(wǎng)絡(luò)B)門控循環(huán)單元網(wǎng)絡(luò)C)堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)D)雙向循環(huán)神經(jīng)網(wǎng)[單選題]172.以下代碼的輸出結(jié)果為()。ImportnumpyasnpA=np.array([[1,2],[3,4],[5,6]])Print(np.insert(a,3,[11,12]))A)[[12][34][56]]B)[1231112456]C)[[12][1111][34][56]]D)[[1112][3114][5116]][單選題]173.語(yǔ)音識(shí)別的應(yīng)用場(chǎng)景包括()。A)語(yǔ)音轉(zhuǎn)文本B)語(yǔ)音合成C)人機(jī)交互D)以上答案都正[單選題]174.()是指針對(duì)用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實(shí)現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價(jià)值最重要也是最直接的發(fā)現(xiàn)方式。A)數(shù)據(jù)服務(wù)B)數(shù)據(jù)分析C)數(shù)據(jù)治理D)數(shù)據(jù)應(yīng)用[單選題]175.()的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息,從而既不需要進(jìn)行完全聯(lián)合概率計(jì)算,又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。A)貝葉斯判定準(zhǔn)則B)貝葉斯決策論C)樸素貝葉斯分類器D)半樸素貝葉斯分類器[單選題]176.()是一種基于日志的結(jié)構(gòu)化數(shù)據(jù)復(fù)制軟件,能夠?qū)崿F(xiàn)大量數(shù)據(jù)的實(shí)時(shí)捕捉、變換和投遞。A)NosqlB)ETLC)OGGD)Hive[單選題]177.下面關(guān)于HiveSQL編譯順序正確的是()(1)遍歷QueryBlock,翻譯為執(zhí)行操作樹OperatorTree(2)遍歷OperatorTree,翻譯為MapReduce任務(wù)(3)遍歷ASTTree,抽象出查詢的基本組成單元QueryBlock(4)邏輯層優(yōu)化器進(jìn)行OperatorTree變換,合并不必要的ReduceSinkOperator,減少shuffle數(shù)據(jù)量(5)物理層優(yōu)化器進(jìn)行MapReduce任務(wù)的變換,生成執(zhí)行計(jì)劃(6)將SQL轉(zhuǎn)化為抽象語(yǔ)法樹ASTTreeA)(3)(1)(2)(4)(5)(6)B)(5)(3)(1)(2)(4)(5)C)(6)(3)(1)(2)(4)(5)D)(5)(3)(1)(2)(4)(6[單選題]178.以下不能創(chuàng)建一個(gè)字典的語(yǔ)句是A)dic1={}B)dic2={123:345}C)dic3={[1,2,3]:'ustc'}D)dic3={(1,2,3):'ustc'}[單選題]179.下列哪項(xiàng)不是HDFS的設(shè)計(jì)目標(biāo)()。A)流式數(shù)據(jù)訪問B)大規(guī)模數(shù)據(jù)集C)移動(dòng)計(jì)算D)"多次寫入多次讀取"的文件訪問模型[單選題]180.下列哪些不是目前機(jī)器學(xué)習(xí)所面臨的問題是()。A)測(cè)試集的規(guī)模B)維度災(zāi)難C)特征工程D)過擬[單選題]181.不屬于判別式模型的是()。A)決策樹B)神經(jīng)網(wǎng)絡(luò)C)支持向量機(jī)D)貝葉[單選題]182.下列關(guān)于Kafka描述正確的是()?A)數(shù)據(jù)實(shí)時(shí)傳輸,沒有延遲B)不支持物聯(lián)網(wǎng)傳感數(shù)據(jù)直接接入C)可以實(shí)現(xiàn)全局消息有序D)監(jiān)控完善,可以獨(dú)立監(jiān)[單選題]183.考慮值集{12243324556826},其四分位數(shù)極差是:()A)21B)24C)55D)3[單選題]184.Zookeeper主要解決的是()問題。A)數(shù)據(jù)存儲(chǔ)B)模型訓(xùn)練C)分布式環(huán)境協(xié)作服務(wù)D)數(shù)據(jù)管理[單選題]185.下列關(guān)于聚類挖掘技術(shù)的說(shuō)法中,錯(cuò)誤的是()。A)不預(yù)先設(shè)定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別B)要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小C)要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小D)與分類挖掘技術(shù)相似的是,都是要對(duì)數(shù)據(jù)進(jìn)行分類處[單選題]186.下列方法中,能夠返回某個(gè)子串在字符串中出現(xiàn)次數(shù)的是()。A)lengthB)indexC)countD)find[單選題]187.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種,不屬于大數(shù)據(jù)涌現(xiàn)的形式()。A)價(jià)值涌現(xiàn)B)隱私涌現(xiàn)C)物質(zhì)涌現(xiàn)D)隱私涌現(xiàn)[單選題]188.以下描述中錯(cuò)誤的是()。A)數(shù)據(jù)科學(xué)中的?數(shù)據(jù)?不僅僅是?數(shù)值?,也不等同于?數(shù)值?B)數(shù)據(jù)科學(xué)中的?計(jì)算?包括數(shù)據(jù)的查詢、挖掘、洞見等C)數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是跨學(xué)科視角D)數(shù)據(jù)科學(xué)不包括?理論知識(shí)?,只包括?領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)?[單選題]189.Hadoop常用命令中,查看指定目錄下的所有文件及子目錄的命令是()A)hdfsdfs-ls[文件目錄]B)hdfsdfs-du[文件目錄]C)hdfsdfs-ls-R[文件目錄]D)hdfsdfs-du-R[文件目錄][單選題]190.下列不屬于action操作的是()A)collectB)filterC)reduceD)count[單選題]191.生成多項(xiàng)式和交互特征使用preprocessing模塊中的()函數(shù)。A)preprocessing.binarize()B)preprocessing.Normalizer()C)preprocessing.LabelEncoder()D)preprocessing.PolynomialFeatures()[單選題]192.通常?落伍者?是影響MapReduce總執(zhí)行時(shí)間的主要影響因素之一,為此MapReduce采用()機(jī)制來(lái)解決。A)分布式計(jì)算B)惰性計(jì)算C)推測(cè)性執(zhí)行的任務(wù)備份D)先進(jìn)先出[單選題]193.以下選項(xiàng)中哪個(gè)不屬于數(shù)據(jù)預(yù)處理的方法()。A)數(shù)據(jù)清洗B)數(shù)據(jù)集成C)數(shù)據(jù)變換D)數(shù)據(jù)統(tǒng)計(jì)[單選題]194.以下選項(xiàng)中不參與hdfs寫流程的組件是A)ClientB)DistributedFileSystemC)NameNodeD)YAR[單選題]195.下列對(duì)于等距離散化和等頻離散化的敘述中,不正確的是()。A)等距離散化是將連續(xù)型特征的取值區(qū)間均勻的劃分成多個(gè)區(qū)間段B)等距離散化對(duì)數(shù)據(jù)離群值不敏感C)等頻離散化考慮了區(qū)間段中的樣本個(gè)數(shù),使每個(gè)區(qū)間段的樣本數(shù)相同D)等頻離散化會(huì)將相似的樣本劃分到不同的區(qū)間第2部分:多項(xiàng)選擇題,共65題,每題至少兩個(gè)正確答案,多選或少選均不得分。[多選題]196.當(dāng)我們構(gòu)造線性模型時(shí),我們注意變量間的相關(guān)性。在相關(guān)矩陣中搜索相關(guān)系數(shù)時(shí),如果我們發(fā)現(xiàn)3對(duì)變量的相關(guān)系數(shù)是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98,0.45,1.23.我們可以得出什么結(jié)論()。A)Var1和Var2是非常相關(guān)的B)因?yàn)閂a1r和Var2是非常相關(guān)的,我們可以去除其中一個(gè)C)Var3和Var1的1.23相關(guān)系數(shù)是不可能的[多選題]197.為什么RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是sigmod呢()A)使用sigmod函數(shù)容易出現(xiàn)梯度消失B)sigmod的導(dǎo)數(shù)形式較為復(fù)雜C)雙曲正切更簡(jiǎn)單D)sigmoid函數(shù)實(shí)現(xiàn)較為復(fù)[多選題]198.下列關(guān)于AUC面積描述正確的是()。A)C被定義為ROC曲線下與坐標(biāo)軸圍成的面積B)AUC面積的值大于1C)AU于0.5時(shí),則真實(shí)性最低,無(wú)應(yīng)用價(jià)值D)AUC越接近1.0,檢測(cè)方法真實(shí)性越[多選題]199.以下有關(guān)特征數(shù)據(jù)歸一化的說(shuō)法正確的是()。A)特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B)特征數(shù)據(jù)歸一化有可能提高模型的精度C)線性歸一化適用于特征數(shù)值分化比較大的情況D)概率模型不需要做歸一化處[多選題]200.Hadoop生態(tài)系統(tǒng)中,核心是()。A)FlumeB)MapReduceC)PigD)HS[多選題]201.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運(yùn)用()等技術(shù)等多個(gè)學(xué)科領(lǐng)域的知識(shí),以實(shí)現(xiàn)人機(jī)協(xié)同完成可視化任務(wù)為主要目的分析推理學(xué)科。A)物理學(xué)B)圖形學(xué)C)數(shù)據(jù)挖掘D)人機(jī)交互[多選題]202.基于Boosting的集成學(xué)習(xí)代表算法有()。A)AdaboostB)GBDTC)XGBOOSTD)隨機(jī)森林[多選題]203.Hadoop組件Zookeeper的設(shè)計(jì)目標(biāo)和主要特點(diǎn)包括()。A)簡(jiǎn)單性B)自我復(fù)制C)順序訪問D)高速讀取[多選題]204.plt.axhline(y=0.0,c="r",ls="--",lw=2),對(duì)這句代碼說(shuō)法正確的是()。A)在0.0處添加豎直線B)添加水平線C)線是虛線形式D)網(wǎng)格線是紅色的[多選題]205.建立線性模型時(shí),我們看變量之間的相關(guān)性。在尋找相關(guān)矩陣中的相關(guān)系數(shù)時(shí),如果發(fā)現(xiàn)3對(duì)變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關(guān)性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢()A)Var1和Var2具有很高的相關(guān)性B)Var1和Var2存在多重共線性,模型可以去掉其中一個(gè)特征C)Var3和Var1相關(guān)系數(shù)為1.23是不可能的D)以上答案都不正確[多選題]206.通過數(shù)據(jù)挖掘過程所推倒出的關(guān)系和摘要經(jīng)常被稱為:()A)模型B)模式C)模范D)模具[多選題]207.以下圖像技術(shù)中屬于圖像處理技術(shù)的是()。A)圖像編碼B)圖像合成C)圖像增強(qiáng)D)圖像分[多選題]208.某單位運(yùn)用隨機(jī)森林算法思想建立搶修熱點(diǎn)模型。該模型主要預(yù)測(cè)下期臺(tái)區(qū)工單數(shù)量,構(gòu)建搶修熱點(diǎn)。以下模型算法構(gòu)建步驟中合理的順序是:()。A)將歷史數(shù)據(jù)進(jìn)行隨機(jī)自助法重抽樣,生成N個(gè)訓(xùn)練樣本集B)將N個(gè)訓(xùn)練樣本集分別做決策樹,生成N棵決策樹C)將N棵決策樹隨機(jī)構(gòu)成隨機(jī)森林D)未來(lái)根據(jù)預(yù)測(cè)樣本氣候環(huán)境、設(shè)備屬性、設(shè)備工況進(jìn)行隨機(jī)森林決策投票,得出針對(duì)該預(yù)測(cè)樣本最優(yōu)的決策樹進(jìn)行運(yùn)算,并計(jì)算出最終結(jié)果[多選題]209.下面關(guān)于單樣本Z檢驗(yàn)的說(shuō)法,正確的是()。A)在Python中,單樣本Z檢驗(yàn)可以使用scipy.stats.ttest_1samp()實(shí)現(xiàn)B)單樣本Z檢驗(yàn)適用于樣本量較大的情況C)單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量(近似)滿足正態(tài)分布D)單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個(gè)常量[多選題]210.Analytics1.0的主要特點(diǎn)有()。A)分析活動(dòng)滯后于數(shù)據(jù)的生成B)重視結(jié)構(gòu)化數(shù)據(jù)的分析C)以對(duì)歷史數(shù)據(jù)的理解為主要目的D)注重描述性分析[多選題]211.下列哪些是常用分詞方法()。A)基于Binarytree的分詞方法B)基于HMM的分詞方法C)基于F的分詞方法D)基于Kmeans的分詞方[多選題]212.數(shù)據(jù)增值存在于哪些過程中()。A)數(shù)據(jù)對(duì)象的封裝B)數(shù)據(jù)系統(tǒng)的研發(fā)C)數(shù)據(jù)的集成應(yīng)用D)基于數(shù)據(jù)的創(chuàng)新[多選題]213.關(guān)于數(shù)據(jù)流轉(zhuǎn)和應(yīng)用,以下說(shuō)法正確的是()。A)數(shù)據(jù)流轉(zhuǎn)和應(yīng)用過程中應(yīng)確??勺匪?、可復(fù)查B)前序環(huán)節(jié)應(yīng)保證數(shù)據(jù)的真實(shí)、完整C)前序環(huán)節(jié)應(yīng)及時(shí)傳遞到后序環(huán)節(jié)D)前后環(huán)節(jié)數(shù)據(jù)應(yīng)保持銜接一致[多選題]214.以下選項(xiàng)中,不是Python語(yǔ)言保留字的是()。A)doB)passC)exceptD)until[多選題]215.數(shù)據(jù)科學(xué)基本原則中,三世界原則指的是()A)我們的世界B)數(shù)據(jù)世界C)物理世界D)數(shù)字世界[多選題]216.下列屬于字符串匹配的分詞方法的是()。A)正向最大匹配法(由左到右的方向)B)逆向最大匹配法(由右到左的方向)C)最少切分(使每一句中切出的詞數(shù)最?。〥)雙向最大匹配法(進(jìn)行由左到右、由右到左兩次掃描[多選題]217.以下屬于關(guān)鍵詞提取算法的有()。A)TF-IDF算法B)TextRank算法C)LSA(潛在語(yǔ)義分析)D)LD[多選題]218.下列哪些項(xiàng)屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)()A)上一時(shí)刻的網(wǎng)絡(luò)狀態(tài)信息將會(huì)作用于下一時(shí)刻的網(wǎng)絡(luò)狀態(tài)B)并行處理序列中所有信息C)容易梯度爆炸/消失D)易于搭[多選題]219.下列屬于DWS列存表支持的窗口函數(shù)的是:A)RANK()B)ROW_NUMBER()C)DENSE_RANK()D)PERCENT_RANK([多選題]220.下列關(guān)于特征的稀疏性說(shuō)法正確的是()。A)稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無(wú)關(guān)B)稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開銷C)學(xué)習(xí)任務(wù)難度可能有所降低D)稀疏矩陣沒有高效的存儲(chǔ)方[多選題]221.下列哪些是面向?qū)ο蠹夹g(shù)的特征()。A)封裝B)繼承C)多態(tài)D)分布性[多選題]222.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個(gè)獨(dú)立的實(shí)體,包括()。A)ClientB)JobTrackerC)TaskTrackerD)HDFS[多選題]223.聚類性能度量的指標(biāo)主要分為外部指標(biāo)和內(nèi)部指標(biāo),其中屬于內(nèi)部指標(biāo)的是()。A)Jaccard指數(shù)B)FM指數(shù)C)DB指數(shù)D)Dunn指數(shù)[多選題]224.關(guān)于降維說(shuō)法正確的是()。A)P根據(jù)方差這一屬性降維的B)降維可以防止模型過擬合C)降維降低了數(shù)據(jù)集特征的維度D)降維方法有PLA等[多選題]225."噪聲"是指測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差,噪聲數(shù)據(jù)的主要表現(xiàn)有那幾種形式()A)錯(cuò)誤數(shù)據(jù)B)假數(shù)據(jù)C)異常數(shù)據(jù)D)僵尸數(shù)據(jù)[多選題]226.下列關(guān)于詞袋模型說(shuō)法正確的是()。A)詞袋模型可以忽略每個(gè)詞出現(xiàn)的順序B)詞袋模型不可以忽略每個(gè)詞出現(xiàn)的順序C)TensorFlow支持詞袋模型D)詞袋模型可以表出單詞之間的前后關(guān)[多選題]227.關(guān)于神經(jīng)網(wǎng)絡(luò),下列說(shuō)法正確的是()A)增加網(wǎng)絡(luò)層數(shù),可能會(huì)增加測(cè)試集分類錯(cuò)誤率B)增加網(wǎng)絡(luò)層數(shù),一定會(huì)增加訓(xùn)練集分類錯(cuò)誤率C)減少網(wǎng)絡(luò)層數(shù),可能會(huì)減少測(cè)試集分類錯(cuò)誤率D)減少網(wǎng)絡(luò)層數(shù),一定會(huì)減少訓(xùn)練集分類錯(cuò)誤率[多選題]228.關(guān)于Hive的說(shuō)法正確的是()。A)Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具B)Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表C)最初,Hive由Google開源,用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計(jì)問題D)Hive的主要應(yīng)用場(chǎng)景是離線分析[多選題]229.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化--從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三大技術(shù),這三大技術(shù)包括()。A)HadoopYRN資源管理器B)GFS分布式存儲(chǔ)系統(tǒng)C)MaoRedue分布式處理技術(shù)D)BigTable分布式數(shù)據(jù)庫(kù)[多選題]230.Python的模塊符合以下哪些說(shuō)法()。A)模塊讓你能夠有邏輯地組織你的Python代碼段B)Python擁有豐富的模塊,不支持自定義模塊C)把相關(guān)的代碼分配到一個(gè)模塊里能讓你的代碼更好用,更易懂D)模塊能定義函數(shù),類和變量,模塊里也能包含可執(zhí)行的代碼。[多選題]231.Spark支持的計(jì)算模型有()。A)批處理;B)實(shí)時(shí)計(jì)算;C)機(jī)器學(xué)習(xí)模型;D)交互式查詢;[多選題]232.機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵組成要素是()。A)任務(wù)TB)性能指標(biāo)PC)目標(biāo)函數(shù)VD)經(jīng)驗(yàn)來(lái)源[多選題]233.Scikit-Learn中可以實(shí)現(xiàn)()算法。A)分類B)聚類C)回歸D)降維[多選題]234.下面關(guān)于隨機(jī)變量及其概率分布的說(shuō)法,正確的是()。A)隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B)隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性C)扔5次硬幣,正面朝上次數(shù)的可能取值是0,1,2,3,4,5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D)扔5次硬幣,正面朝上次數(shù)的可能取值是0,1,2,3,4,5,其中正面朝上次數(shù)為5的概率是最大的[多選題]235.對(duì)于大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原ODPS)內(nèi)置絕對(duì)值函數(shù)abs描述正確的有:()。A)當(dāng)輸入?yún)?shù)是bigint時(shí),返回值是bigint類型B)當(dāng)輸入?yún)?shù)是string類型時(shí),一定會(huì)導(dǎo)致異常C)輸入類型是boolean則返回值是TrueD)當(dāng)輸入?yún)?shù)是double時(shí),返回值是double類型[多選題]236.常用的數(shù)據(jù)審計(jì)方法可以分為()。A)預(yù)定義審計(jì)B)自定義審計(jì)C)可視化審計(jì)D)結(jié)構(gòu)化審計(jì)[多選題]237.數(shù)據(jù)集成功能包括:()。A)表/文件/整庫(kù)遷移B)增量數(shù)據(jù)遷移C)事務(wù)模式遷移D)字段轉(zhuǎn)[多選題]238.關(guān)于HDFS集群中的DataNode的描述不正確的是()。A)DataNode之間都是獨(dú)立的,相互之間不會(huì)有通信B)存儲(chǔ)客戶端上傳的數(shù)據(jù)的數(shù)據(jù)塊C)一個(gè)D.taNode上存儲(chǔ)的所有數(shù)據(jù)塊可以有相同的D)響應(yīng)客戶端的所有讀寫數(shù)據(jù)請(qǐng)求,為客戶端的存儲(chǔ)和讀取數(shù)據(jù)提供支撐[多選題]239.下列屬于數(shù)值優(yōu)化算法的是()。A)梯度下降法B)牛頓法C)極大似然法D)邏輯回[多選題]240.數(shù)據(jù)可視化涉及到()等多個(gè)領(lǐng)域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。A)計(jì)算機(jī)圖形學(xué)B)圖像處理C)計(jì)算機(jī)視覺D)計(jì)算機(jī)輔助設(shè)計(jì)[多選題]241.統(tǒng)計(jì)模式分類問題中,當(dāng)先驗(yàn)概率未知時(shí),可以使用()。A)最小最大損失準(zhǔn)則B)最小誤判概率準(zhǔn)則C)最小損失準(zhǔn)則D)N-P判決[多選題]242.(__)可以幫助解決訓(xùn)練集在特征空間中線性不可分的問題。A)硬間隔B)軟間隔C)核函數(shù)D)拉格朗日乘子[多選題]243.下面關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函數(shù)的說(shuō)法,正確的是。A)?一個(gè)客服一天可能接聽到多少個(gè)電話?是一個(gè)連續(xù)型隨機(jī)變量B)正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布C)可以使用概率密度函數(shù)來(lái)描述連續(xù)型隨機(jī)變量的概率分布D)連續(xù)型概率密度函數(shù)曲線下方的面積之和為1[多選題]244.在DRS的標(biāo)簽管理服務(wù)中,下列存在的功能有:()。A)添加標(biāo)簽B)編輯標(biāo)簽C)備份標(biāo)簽D)刪除標(biāo)[多選題]245.哪些項(xiàng)不屬于使用池化層相比于相同步長(zhǎng)的卷積層的優(yōu)勢(shì)()A)參數(shù)更少B)可以獲得更大下采樣C)速度更快D)有助于提升精[多選題]246.區(qū)塊鏈?zhǔn)牵ǎ┑扔?jì)算機(jī)技術(shù)的新型應(yīng)用模式。A)分布式數(shù)據(jù)存儲(chǔ)B)點(diǎn)對(duì)點(diǎn)傳輸C)共識(shí)機(jī)制D)加密算法[多選題]247.HBase性能優(yōu)化包含下面的哪些選項(xiàng)()。A)讀優(yōu)化B)寫優(yōu)化C)配置優(yōu)化D)JVM優(yōu)化[多選題]248.在MapReduce1.0版本中,JobTracker功能是()。A)負(fù)責(zé)資源管理B)作業(yè)控制C)作業(yè)存儲(chǔ)D)作業(yè)審核[多選題]249.下列哪些是情感分析的應(yīng)用場(chǎng)景()。A)數(shù)據(jù)挖掘B)信息檢索C)文本分詞D)市場(chǎng)營(yíng)[多選題]250.算法?歧視?現(xiàn)象可能出現(xiàn)在()。A)算法設(shè)計(jì)B)算法實(shí)現(xiàn)C)算法投入使用D)算法驗(yàn)證[多選題]251.卷積神經(jīng)網(wǎng)絡(luò)通過哪些措施來(lái)保證圖像對(duì)位移、縮放、扭曲的魯棒性(__)。A)局部感受野B)共享權(quán)值C)池采樣D)正則[多選題]252.在數(shù)據(jù)安全領(lǐng)域常用的P2DR模型中,P、D和R代表的是()。A)策略B)防護(hù)C)檢測(cè)D)響[多選題]253.下列跟人工智能場(chǎng)景相關(guān)的是()。A)圖像識(shí)別B)人臉識(shí)別C)語(yǔ)音識(shí)別D)語(yǔ)義分[多選題]254.假設(shè)一個(gè)隨機(jī)變量服從正態(tài)分布,則隨機(jī)變量的概率分布跟其()和()有關(guān)。A)眾數(shù)B)頻數(shù)C)平均值D)方差[多選題]255.我們想要減少數(shù)據(jù)集中的特征數(shù),即降維.選擇以下適合的方案:()。A)使用前向特征選擇方法B)使用后向特征排除方法C)我們先把所有特征都使用,去訓(xùn)練一個(gè)模型,得到測(cè)試集上的表現(xiàn).然后我們?nèi)サ粢粋€(gè)特征,再去訓(xùn)練,用交叉驗(yàn)證看看測(cè)試集上的表現(xiàn).如果表現(xiàn)比原來(lái)還要好,我們可以去除這個(gè)特征D)查看相關(guān)性表,去除相關(guān)性最高的一些特征[多選題]256.處理圖像平滑處理的濾波有()。A)盒式濾波B)均值濾波C)高斯濾波D)中值濾[多選題]257.在數(shù)據(jù)集成中,CDM支持對(duì)已經(jīng)創(chuàng)建的鏈接進(jìn)行()操作A)刪除連接B)測(cè)試連通性C)備份連接D)編[多選題]258.K均值聚類和層次聚類在一些方面有重大差異。以下哪些說(shuō)法是正確的()A)在K均值聚類中,必須在運(yùn)行算法前選定想要的簇的個(gè)數(shù)B)在k均值聚類中,可以在運(yùn)行算法后選定想要的簇的個(gè)數(shù)C)在層次聚類中,可以在運(yùn)行算法后選定想要的簇的個(gè)數(shù)D)k均值聚類算法所需的計(jì)算量比層次聚類算法小得多[多選題]259.Hadoop組件Flume三層架構(gòu)包括()。A)entB)GossipC)llectorD)Storage[多選題]260.從Hadoop實(shí)現(xiàn)角度看,HadoopMapReduce1.0主要由()組成。A)編程模型B)數(shù)據(jù)處理引擎C)運(yùn)行時(shí)環(huán)境D)算法1.答案:A解析:處理圖片需要先使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像局部特征進(jìn)行提取和分割,然后反卷積還原圖像信息,卷積類似于編碼,反卷積類似于解碼。2.答案:C解析:弱學(xué)習(xí)者是問題的特定部分。所以他們通常不會(huì)過擬合,這也就意味著弱學(xué)習(xí)者通常擁有低方差和高偏差。3.答案:A解析:*號(hào)用在匹配前面的子表達(dá)式零次或多次;要匹配*字符,請(qǐng)使用\*進(jìn)行轉(zhuǎn)義。4.答案:D解析:python可以嵌套定義、嵌套調(diào)用和遞歸調(diào)用5.答案:D解析:Value(價(jià)值密度低或價(jià)值發(fā)現(xiàn)難度大)、Velocity(速度快)。6.答案:A解析:訓(xùn)練集、測(cè)試集和驗(yàn)證集的功能分別為訓(xùn)練模型、測(cè)試模型以及模型選擇與超級(jí)參數(shù)的調(diào)優(yōu)。7.答案:B解析:集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱模型得到了錯(cuò)誤的預(yù)測(cè),其他的弱模型也可以將錯(cuò)誤糾正回來(lái)。某一個(gè)弱模型要有一定的?準(zhǔn)確性?,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個(gè)體學(xué)習(xí)器間具有差異。集成中即可包含同種類型的弱模型,也可包含不同類型的弱模型。8.答案:D解析:'r'代表紅色,'*'代表五角星。'-.'代表點(diǎn)短虛線。9.答案:A解析:10.答案:A解析:11.答案:C解析:12.答案:A解析:散點(diǎn)圖反映了兩個(gè)變量之間的相互關(guān)系,在測(cè)試Y與X之間的線性關(guān)系時(shí),使用散點(diǎn)圖最為直觀。13.答案:A解析:對(duì)于sigmoid函數(shù),S型函數(shù)圖像向兩邊的斜率逼近0,因此隨著網(wǎng)絡(luò)層增加,梯度消失比梯度爆炸更容易發(fā)生的多。14.答案:C解析:15.答案:A解析:歐洲學(xué)者DanielKeim等人提出了可視化分析學(xué)的標(biāo)準(zhǔn)流程,數(shù)據(jù)可視化分析流程中的核心要素包括四個(gè)方面:數(shù)據(jù)表示與轉(zhuǎn)換、數(shù)據(jù)的可視化呈現(xiàn)、用戶交互、分析推理。16.答案:A解析:HBase支持的是列式存儲(chǔ)。17.答案:B解析:由于存在精度的關(guān)系,所以0.1+0.2得到的是一個(gè)無(wú)限接近0.3的數(shù)而不是0.3,故輸出False。18.答案:C解析:高頻詞匯信息量較少不能充當(dāng)關(guān)鍵詞,多數(shù)為無(wú)用詞。19.答案:B解析:C4.5是分類算法;DBSCAN、K-Mean、EM是聚類算法。20.答案:A解析:馬氏距離是基于樣本分布的一種距離。21.答案:D解析:Spark是一個(gè)快速、通用和易于使用的計(jì)算平臺(tái)。22.答案:B解析:23.答案:B解析:留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集,另一個(gè)作為測(cè)試集T。24.答案:C解析:25.答案:B解析:26.答案:C解析:MapReduce編程模型中的mapTask的并行度決定機(jī)制是由FileInputFormat.getSplits(JobContextjob)決定的。該方法的返回值是Listsplits,這個(gè)結(jié)果集合中的每個(gè)InputSplit就是一個(gè)邏輯輸入切片,每個(gè)邏輯輸入切片在默認(rèn)情況下是會(huì)要啟動(dòng)一個(gè)MapTask任務(wù)進(jìn)行計(jì)算的,因此C對(duì)。27.答案:D解析:與標(biāo)準(zhǔn)的Python相比,IPython同樣具有內(nèi)置的功能和函數(shù)。28.答案:C解析:賦值語(yǔ)句是淺復(fù)制操作,沒有復(fù)制子對(duì)象,所以原始數(shù)據(jù)改變,子對(duì)象會(huì)改變29.答案:B解析:聚類是一種典型的無(wú)監(jiān)督學(xué)習(xí)任務(wù),然而在現(xiàn)實(shí)聚類任務(wù)中我們往往能獲得一些額外的監(jiān)督信息,于是可通過半監(jiān)督聚類來(lái)利用監(jiān)督信息以獲得更好的聚類效果。30.答案:B解析:pynlpir是python中分詞工具包,用于分詞處理的函數(shù)是segment()31.答案:D解析:DNN不包括SVM和DBM。32.答案:D解析:區(qū)域生長(zhǎng)法是基于圖像區(qū)域的閾值分割方法33.答案:C解析:列表中的元素個(gè)數(shù)不限制。34.答案:B解析:軟間隔允許某些樣本不滿足約束,可緩解過擬合。35.答案:A解析:Spark?惰性計(jì)算模式?定義。36.答案:C解析:數(shù)據(jù)加工(DataWrangling或DataMunging)的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。從加工程度看,數(shù)據(jù)可以分為零次、一次、二次、三次數(shù)據(jù)。37.答案:A解析:邏輯回歸被用來(lái)處理分類問題。38.答案:C解析:數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的永久刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。39.答案:D解析:SNN相似度通過共享最近鄰的個(gè)數(shù)考慮了對(duì)象的環(huán)境,因此可以處理兩個(gè)對(duì)象相對(duì)接近卻不屬于同一類的情況。40.答案:A解析:大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為人信息的被識(shí)別與暴露。41.答案:A解析:數(shù)據(jù)變換的策略不包括審計(jì)。42.答案:B解析:43.答案:C解析:Hadoop不善于處理除批處理計(jì)算模式之外的其他計(jì)算模式,如流計(jì)算等,故C錯(cuò)。44.答案:B解析:DMM模型將一個(gè)機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個(gè)關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量、平臺(tái)與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。45.答案:A解析:scipy中,stats是進(jìn)行統(tǒng)計(jì)分析的模塊。46.答案:B解析:除了?數(shù)值?,數(shù)據(jù)科學(xué)中所說(shuō)的?數(shù)據(jù)?還包括文字、圖形、圖像、動(dòng)畫、文本、語(yǔ)音、視頻、多媒體和富媒體等多種類型47.答案:C解析:如果需要訓(xùn)練的特征維度成千上萬(wàn),在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離計(jì)算困難,可懂過降維降低特征維度。48.答案:C解析:減少樹的深度,相當(dāng)于加入了一個(gè)正則化項(xiàng),可以降低模型復(fù)雜度。49.答案:A解析:利用stats.skewtest()計(jì)算偏度,有兩個(gè)返回值,第二個(gè)為p-value,即數(shù)據(jù)集服從正態(tài)分布的概率(0~1)。50.答案:C解析:51.答案:D解析:52.答案:C解析:RGB是彩色圖像的三通道像素值,均值濾波進(jìn)行的是線性操作,不影響原本圖像的相對(duì)亮度。53.答案:D解析:PageRank認(rèn)為,如果A頁(yè)面有一個(gè)鏈接指向B頁(yè)面,那就可以看作是A頁(yè)面對(duì)B頁(yè)面的一種信任或推薦。所以,如果一個(gè)頁(yè)面的反向鏈接越多,再根據(jù)這些鏈接的價(jià)值加權(quán)越高,那搜索引擎就會(huì)判斷這樣的頁(yè)面更為重要。54.答案:C解析:SecondaryNameNode是為了給namenode減輕壓力的角色,工作職責(zé)就是定期合并磁盤元數(shù)據(jù)文件為序列化的鏡像文件,以減少namenode冷啟動(dòng)時(shí)需要加載元數(shù)據(jù)的時(shí)間。在合并的時(shí)候也需要把之前的元數(shù)據(jù)都加載到內(nèi)存,所以對(duì)內(nèi)存也有一定的依賴,即不能和namenode啟動(dòng)在同一個(gè)節(jié)點(diǎn),否則就起不到任何減輕壓力的作用。55.答案:A解析:strftime()是datetime庫(kù)將日期對(duì)象格式化為可讀字符串的方法。56.答案:D解析:LDA算法對(duì)給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上,使得同類樣例的投影點(diǎn)盡可能接近、異類樣例的投影點(diǎn)盡可能遠(yuǎn)離。57.答案:A解析:MapReduce中的reduce并不是必須存在的。58.答案:B解析:SparkStreaming用于實(shí)時(shí)處理。59.答案:C解析:用于獲取當(dāng)前目錄的方法是Getcwd。60.答案:D解析:數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行更正、刪除、補(bǔ)充錄入等處理的過程。61.答案:C解析:卷積的過程是讓過濾器在圖像上進(jìn)行窗口滑動(dòng)。62.答案:D解析:后剪枝是先從訓(xùn)練集生成一顆完整的決策樹,然后自底向上對(duì)非葉結(jié)點(diǎn)進(jìn)行考察。63.答案:B解析:Adaboost的核心思想是給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集,將該學(xué)習(xí)算法使用多次,得出預(yù)測(cè)函數(shù)序列,進(jìn)行投票。64.答案:D解析:傳統(tǒng)目標(biāo)檢測(cè)需要選擇檢測(cè)區(qū)域,然后提取特征,分類器再根據(jù)特征進(jìn)行分類。65.答案:D解析:增大batchsize無(wú)法無(wú)法解決ocalminimum問題。66.答案:B解析:數(shù)據(jù)科學(xué)對(duì)?智能的實(shí)現(xiàn)方式?有了新的認(rèn)識(shí)--從?基于算法的智能?到?基于數(shù)據(jù)的智能?的過渡。?基于數(shù)據(jù)的智能?的重要特點(diǎn)是?數(shù)據(jù)復(fù)雜,但算法簡(jiǎn)單?。67.答案:C解析:此題應(yīng)注意是'3.4'而不是'3,4',有以下取法:a[1:3]、a[1:-1]68.答案:A解析:參數(shù)估計(jì),是統(tǒng)計(jì)推斷的一種。根據(jù)從總體中抽取的隨機(jī)樣本來(lái)估計(jì)總體分布中未知參數(shù)的過程。69.答案:C解析:TF-IDF算法基本知識(shí)。70.答案:D解析:由于其強(qiáng)大的表示能力,BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過擬合,其訓(xùn)練誤差持續(xù)降低,但測(cè)試誤差卻可能上升。71.答案:A解析:72.答案:C解析:DIKW金字塔(DIKWPyramid)模型揭示了數(shù)據(jù)(Data)與信息(Information)、知識(shí)(Knowledge)、智慧(Wisdom)之間的區(qū)別與聯(lián)系,自底向上分別為數(shù)據(jù)、信息、知識(shí)、智慧。73.答案:D解析:74.答案:D解析:75.答案:D解析:回歸分析指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡(jiǎn)單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。76.答案:B解析:從網(wǎng)絡(luò)的原理上來(lái)看,結(jié)構(gòu)最復(fù)雜的神經(jīng)網(wǎng)絡(luò)是LSTM。77.答案:C解析:支持向量機(jī)的一個(gè)重要性質(zhì):訓(xùn)練完成后,大部分的訓(xùn)練樣本都不需保留,最終模型僅與支持向量有關(guān)。78.答案:B解析:sklearn.ensemble模塊包含了很多集成學(xué)習(xí)的算法,包括隨

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論