【MOOC】大數(shù)據(jù)導論-廈門大學 中國大學慕課MOOC答案_第1頁
【MOOC】大數(shù)據(jù)導論-廈門大學 中國大學慕課MOOC答案_第2頁
【MOOC】大數(shù)據(jù)導論-廈門大學 中國大學慕課MOOC答案_第3頁
【MOOC】大數(shù)據(jù)導論-廈門大學 中國大學慕課MOOC答案_第4頁
【MOOC】大數(shù)據(jù)導論-廈門大學 中國大學慕課MOOC答案_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

【MOOC】大數(shù)據(jù)導論-廈門大學中國大學慕課MOOC答案第1章單元測驗1、【單選題】下面關于數(shù)據(jù)的說法,錯誤的是:本題答案:【數(shù)據(jù)的價值會因為不斷使用而削減】2、【單選題】第3次信息化浪潮的標志是:本題答案:【云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)技術的普及】3、【單選題】物聯(lián)網(wǎng)的發(fā)展最終導致了人類社會數(shù)據(jù)量的第三次躍升,使得數(shù)據(jù)產(chǎn)生方式進入了:本題答案:【感知式系統(tǒng)階段】4、【單選題】英國的大數(shù)據(jù)發(fā)展戰(zhàn)略是:本題答案:【緊抓大數(shù)據(jù)產(chǎn)業(yè)機遇,應對脫歐后的經(jīng)濟挑戰(zhàn)】5、【單選題】以下哪個不是大數(shù)據(jù)的“4V”特性:本題答案:【價值密度高】6、【多選題】數(shù)據(jù)的類型主要包括:本題答案:【文本#圖片#音頻#視頻】7、【多選題】計算機系統(tǒng)中的數(shù)據(jù)組織形式主要有兩種,分別是:本題答案:【文件#數(shù)據(jù)庫】8、【多選題】為了讓數(shù)據(jù)變得可用,需要對數(shù)據(jù)進行三個步驟的處理,分別是:本題答案:【數(shù)據(jù)清洗#數(shù)據(jù)管理#數(shù)據(jù)分析】9、【多選題】信息科技為大數(shù)據(jù)時代提供技術支撐,主要體現(xiàn)在哪三個方面:本題答案:【存儲設備容量不斷增加#CPU處理能力大幅提升#網(wǎng)絡帶寬不斷增加】10、【多選題】人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了哪三個階段:本題答案:【運營式系統(tǒng)階段#用戶原創(chuàng)內容階段#感知式系統(tǒng)階段】11、【多選題】關于“大數(shù)據(jù)摩爾定律”,以下說法正確的是:本題答案:【人類社會產(chǎn)生的數(shù)據(jù)一直都在以每年50%的速度增長#人類社會的數(shù)據(jù)量大約每兩年就增加一倍#人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量之和】12、【多選題】人類自古以來在科學研究上先后歷經(jīng)了哪幾種范式:本題答案:【實驗科學#理論科學#計算科學#數(shù)據(jù)密集型科學】13、【多選題】大數(shù)據(jù)將會對社會發(fā)展產(chǎn)生深遠的影響,具體表現(xiàn)在以下哪幾個方面:本題答案:【大數(shù)據(jù)決策成為一種新的決策方式#大數(shù)據(jù)成為提升國家治理能力的新途徑#大數(shù)據(jù)應用促進信息技術與各行業(yè)的深度融合#大數(shù)據(jù)開發(fā)推動新技術和新應用的不斷涌現(xiàn)】14、【多選題】大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關的企業(yè)經(jīng)濟活動的集合。以下哪些屬于大數(shù)據(jù)產(chǎn)業(yè)的某個環(huán)節(jié):本題答案:【IT基礎設施層#數(shù)據(jù)源層#數(shù)據(jù)管理層#數(shù)據(jù)分析層】第2章單元測驗1、【單選題】早期的云計算產(chǎn)品AWS是由哪家企業(yè)提出的:本題答案:【亞馬遜】2、【單選題】云計算包括3種類型。面向所有用戶提供服務,只要是注冊付費的用戶都可以使用,這種云計算屬于:本題答案:【公有云】3、【單選題】云計算包括3種類型。只為特定用戶提供服務,比如大型企業(yè)出于安全考慮自建的云環(huán)境,只為企業(yè)內部提供服務,這種云計算屬于:本題答案:【私有云】4、【單選題】以下關于大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的區(qū)別,描述錯誤的是:本題答案:【云計算旨在從海量數(shù)據(jù)中發(fā)現(xiàn)價值,服務于生產(chǎn)和生活】5、【單選題】以下關于機器學習,描述錯誤的是:本題答案:【機器學習強調三個關鍵詞:算法、模型、訓練】6、【單選題】以下關于知識圖譜,描述錯誤的是:本題答案:【知識圖譜屬于密碼學研究范疇】7、【單選題】以下關于人機交互,描述錯誤的是:本題答案:【人機交互界面通常是指用戶不可見的部分】8、【單選題】以下關于計算機視覺,描述錯誤的是:本題答案:【語音識別屬于計算機視覺的典型應用】9、【單選題】關于大數(shù)據(jù)與區(qū)塊鏈的聯(lián)系,下面描述錯誤的是:本題答案:【區(qū)塊鏈會提升大數(shù)據(jù)的信用成本】10、【多選題】傳統(tǒng)的IT資源獲取方式的主要缺點是:本題答案:【初期成本高,建設周期長#后期需要自己維護,使用成本高#IT資源供應量有限】11、【多選題】云計算的主要優(yōu)點是:本題答案:【初期零成本,瞬時可獲得#后期免維護,使用成本低#在供應IT資源量方面“予取予求”】12、【多選題】云計算包括哪3種典型的服務模式:本題答案:【IaaS(基礎設施即服務)#PaaS(平臺即服務)#SaaS(軟件即服務)】13、【多選題】云計算包括哪3種類型:本題答案:【公有云#私有云#混合云】14、【多選題】從技術架構上看,物聯(lián)網(wǎng)主要包括哪幾層:本題答案:【感知層#網(wǎng)絡層#處理層#應用層】15、【多選題】以下關于大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的聯(lián)系,描述正確的是:本題答案:【從整體上看,大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)這三者是相輔相成的#大數(shù)據(jù)根植于云計算,大數(shù)據(jù)分析的很多技術都來自于云計算#大數(shù)據(jù)為云計算提供了“用武之地”#物聯(lián)網(wǎng)需要借助于云計算和大數(shù)據(jù)技術,實現(xiàn)物聯(lián)網(wǎng)大數(shù)據(jù)的存儲、分析和處理】16、【多選題】以下關于大數(shù)據(jù)與人工智能的聯(lián)系,描述正確的是:本題答案:【人工智能需要數(shù)據(jù)來建立其智能,特別是機器學習#人工智能應用的數(shù)據(jù)越多,其獲得的結果就越準確#大數(shù)據(jù)為人工智能提供了海量的數(shù)據(jù),使得人工智能技術有了長足的發(fā)展#大數(shù)據(jù)技術為人工智能提供了強大的存儲能力和計算能力】17、【多選題】下面關于比特幣和區(qū)塊鏈之間關系的描述,正確的是:本題答案:【區(qū)塊鏈是比特幣的底層技術#比特幣是區(qū)塊鏈的一種應用】18、【多選題】比特幣要解決的兩個核心問題是:本題答案:【防篡改#去中心化記賬】19、【多選題】在比特幣區(qū)塊鏈中關于如何爭奪記賬權的問題,下面描述正確的是:本題答案:【采用的是POW機制,也就是“工作量證明機制”#記賬節(jié)點通過計算數(shù)學題,來爭奪記賬權#對于數(shù)學公式的計算,除了從零開始遍歷隨機數(shù)碰運氣以外,沒有其他辦法#解題的過程,又叫“挖礦”,記賬節(jié)點被稱為礦工。誰先解對,誰就獲得記賬權】20、【多選題】區(qū)塊鏈的三要素是:本題答案:【交易#區(qū)塊#鏈】第3章單元測驗1、【單選題】下面關于大數(shù)據(jù)安全問題,描述錯誤的是:本題答案:【大數(shù)據(jù)對于國家安全沒有產(chǎn)生影響】2、【單選題】下面關于棱鏡門事件描述錯誤的是:本題答案:【該計劃的目的是為了促進世界和平與發(fā)展】3、【單選題】下面關于手機軟件采集個人信息的描述錯誤的是:本題答案:【在微信朋友圈廣泛傳播的各種測試小程序是安全的,不會竊取用戶個人信息】4、【單選題】下面描述錯誤的是:本題答案:【免費WIFI都是安全的,可以放心使用】5、【單選題】下面關于機械思維的核心思想,描述錯誤的是:本題答案:【世界變化的規(guī)律是無法確定的】6、【單選題】我們在使用智能手機進行導航來避開城市擁堵路段時,體現(xiàn)了哪種大數(shù)據(jù)思維方式:本題答案:【我為人人,人人為我】7、【單選題】谷歌采用搜索引擎大數(shù)據(jù)進行流感趨勢預測,體現(xiàn)了哪種大數(shù)據(jù)思維方式:本題答案:【全樣而非抽樣】8、【單選題】“啤酒與尿布”的故事,體現(xiàn)了哪種大數(shù)據(jù)思維方式:本題答案:【相關而非因果】9、【單選題】大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復雜算法更有效,體現(xiàn)了哪種大數(shù)據(jù)思維方式:本題答案:【以數(shù)據(jù)為中心】10、【單選題】迪士尼MagicBand手環(huán),體現(xiàn)了哪種大數(shù)據(jù)思維方式:本題答案:【我為人人,人人為我】11、【單選題】下面關于大數(shù)據(jù)倫理的描述,錯誤的是:本題答案:【大數(shù)據(jù)技術本身就存在“善”和“惡”的區(qū)分】12、【單選題】現(xiàn)在的互聯(lián)網(wǎng),基于大數(shù)據(jù)和人工智能的推薦應用越來越多,越來越深入,我們一直被“喂食著”經(jīng)過智能化篩選推薦的信息,久而久之,會導致什么問題:本題答案:【信息繭房問題】13、【單選題】下面哪一個不屬于大數(shù)據(jù)倫理問題:本題答案:【數(shù)據(jù)冗余問題】14、【單選題】下面關于政府數(shù)據(jù)孤島描述錯誤的是:本題答案:【即使涉及到工作機密、商業(yè)機密,政府也應該毫不保留地共享數(shù)據(jù)】15、【單選題】關于推進數(shù)據(jù)共享開放的描述,錯誤的是:本題答案:【不同企業(yè)之間,為了保護各自商業(yè)利益,不宜實現(xiàn)數(shù)據(jù)共享】16、【單選題】下面關于數(shù)據(jù)權的描述,錯誤的是:本題答案:【數(shù)據(jù)主權的主體是公民,是相對應于公民數(shù)據(jù)采集義務而形成的對數(shù)據(jù)利用的權利】17、【單選題】下面關于政府信息公開與政府數(shù)據(jù)開放的描述,錯誤的是:本題答案:【信息是沒有經(jīng)過任何加工與解讀的原始記錄,沒有明確的含義,而數(shù)據(jù)則是經(jīng)過加工處理并被賦予一定含義的】18、【單選題】關于公民的隱私權,下面描述錯誤的是:本題答案:【修改權是隱私權利人具有的依法了解自身信息資料是否被行政主體利用的權利】19、【單選題】關于大數(shù)據(jù)交易在發(fā)展過程中遇到的問題,下面描述錯誤的是:本題答案:【數(shù)據(jù)質量評價與估值定價已經(jīng)很完善】20、【單選題】目前大數(shù)據(jù)交易市場上存在很多種定價機制,但是不包括以下哪項:本題答案:【隨機性定價】21、【單選題】我國首家大數(shù)據(jù)交易所是:本題答案:【貴陽大數(shù)據(jù)交易所】22、【多選題】傳統(tǒng)的數(shù)據(jù)安全的威脅主要包括:本題答案:【計算機病毒#黑客攻擊#數(shù)據(jù)信息存儲介質的損壞】23、【多選題】大數(shù)據(jù)安全表現(xiàn)出與傳統(tǒng)數(shù)據(jù)安全不同的特征,具體來說包括哪幾個方面:本題答案:【大數(shù)據(jù)成為網(wǎng)絡攻擊的顯著目標#大數(shù)據(jù)加大隱私泄露風險#大數(shù)據(jù)技術被應用到攻擊手段中#大數(shù)據(jù)成為高級可持續(xù)攻擊(APT)的載體】24、【多選題】舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中明確指出,大數(shù)據(jù)時代最大的轉變就是思維方式的3種轉變,具體包括:本題答案:【全樣而非抽樣#效率而非精確#相關而非因果】25、【多選題】下面關于搜索引擎“點擊模型”的描述正確的是:本題答案:【隨著數(shù)據(jù)量的積累,點擊模型對搜索結果排名的預測越來越準確,它的重要性也越來越大#點擊模型的準確性取決于數(shù)據(jù)量的大小#一個搜索引擎使用的時間越長,數(shù)據(jù)的積累就越充分,對于長尾搜索就做得越準確#當整個搜索行業(yè)都意識到點擊數(shù)據(jù)的重要性后,這個市場上的競爭就從技術競爭變成了數(shù)據(jù)競爭】26、【多選題】下面關于隱私泄露問題的描述,正確的是:本題答案:【大數(shù)據(jù)時代下的隱私與傳統(tǒng)隱私的最大區(qū)別在于隱私的數(shù)據(jù)化,即隱私主要以“個人數(shù)據(jù)”的形式出現(xiàn)#用戶在使用搜索引擎時,搜索引擎可以精確地刻畫出該用戶的“數(shù)字肖像”#通過數(shù)據(jù)預測,可以預測個體“未來的隱私”#“數(shù)據(jù)痕跡”往往永遠無法徹底消除,會被永久保留記錄】27、【多選題】下面關于數(shù)字鴻溝問題的描述,正確的是:本題答案:【數(shù)字鴻溝被認為是信息時代的“馬太效應”,即先進技術的成果不能為人公正分享,于是造成“富者越富、窮者越窮”的情況#數(shù)字鴻溝是一個涉及公平公正的問題#在我國,東中西部地區(qū)、城鄉(xiāng)之間等都可以明顯感受到數(shù)字鴻溝的存在】28、【多選題】下面關于數(shù)據(jù)獨裁的描述,正確的是:本題答案:【所謂的“數(shù)據(jù)獨裁”是指在大數(shù)據(jù)時代,由于數(shù)據(jù)量的爆炸式增長,導致做出判斷和選擇的難度徒增,迫使人們必須完全依賴數(shù)據(jù)的預測和結論才能做出最終的決策#從某個角度來講,數(shù)據(jù)獨裁就是讓數(shù)據(jù)統(tǒng)治人類,使人類徹底走向唯數(shù)據(jù)主義#數(shù)據(jù)獨裁最終將導致人類思維被“空心化”,進而是創(chuàng)新意識的喪失#數(shù)據(jù)獨裁還可能使人們喪失了人的自主意識、反思和批判的能力,最終淪為數(shù)據(jù)的奴隸】29、【多選題】因數(shù)據(jù)而產(chǎn)生的壟斷問題,主要包括哪幾種類型:本題答案:【數(shù)據(jù)可能造成進入壁壘或擴張壁壘#擁有大數(shù)據(jù)形成市場支配地位并濫用#因數(shù)據(jù)產(chǎn)品而形成市場支配地位并濫用#涉及數(shù)據(jù)方面的壟斷協(xié)議】30、【多選題】企業(yè)數(shù)據(jù)孤島產(chǎn)生的原因主要包括哪兩個方面:本題答案:【以功能為標準的部門劃分導致數(shù)據(jù)孤島#不同類型、不同版本的信息化管理系統(tǒng)導致數(shù)據(jù)孤島】31、【多選題】消除數(shù)據(jù)孤島對于政府具有哪些重要的意義:本題答案:【有助于提升資源利用率#有助于推動政府轉型#有助于提高行政效率#有助于促進跨部門合作】32、【多選題】消除數(shù)據(jù)孤島對于企業(yè)具有哪些重要的意義:本題答案:【有助于企業(yè)做出有利于生產(chǎn)要素組合優(yōu)化的決策,使企業(yè)能夠合理配置資源,實現(xiàn)企業(yè)利益最大化#有利于企業(yè)獲得更好的經(jīng)營發(fā)展能力#企業(yè)信息的增多可以增加做出正確選擇的能力,從而提高經(jīng)濟效率】33、【多選題】實現(xiàn)數(shù)據(jù)共享,在政府層面面臨的挑戰(zhàn)包括:本題答案:【不愿共享開放#不敢共享開放#不會共享開放#數(shù)據(jù)中心共享開放作用不強】34、【多選題】實現(xiàn)數(shù)據(jù)共享,在企業(yè)層面面臨的挑戰(zhàn)包括:本題答案:【系統(tǒng)孤島挑戰(zhàn)#組織架構挑戰(zhàn)#數(shù)據(jù)合作挑戰(zhàn)】35、【多選題】關于政府數(shù)據(jù)開放的意義,下面描述正確的是:本題答案:【政府開放數(shù)據(jù)有利于促進開放透明政府的形成#政府開放數(shù)據(jù)有利于創(chuàng)新創(chuàng)業(yè)和經(jīng)濟增長#政府開放數(shù)據(jù)有利于社會治理創(chuàng)新】36、【多選題】目前進行數(shù)據(jù)交易的形式主要包括哪幾種:本題答案:【大數(shù)據(jù)交易公司#數(shù)據(jù)交易所#API模式】37、【多選題】大數(shù)據(jù)交易平臺的類型主要包括哪兩種:本題答案:【綜合數(shù)據(jù)服務平臺#第三方數(shù)據(jù)交易平臺】38、【多選題】交易數(shù)據(jù)的來源主要包括哪些:本題答案:【政府公開數(shù)據(jù)#企業(yè)內部數(shù)據(jù)#數(shù)據(jù)供應方數(shù)據(jù)#網(wǎng)頁爬蟲數(shù)據(jù)】39、【多選題】大數(shù)據(jù)交易產(chǎn)品的類型主要包括哪幾種:本題答案:【API#數(shù)據(jù)包#云服務#解決方案】40、【多選題】大數(shù)據(jù)交易平臺的運營模式主要包括哪兩種:本題答案:【兼具中介和數(shù)據(jù)處理加工功能的交易平臺#只具備中介功能的交易平臺】41、【多選題】可以從哪些維度評價數(shù)據(jù)價值:本題答案:【數(shù)據(jù)樣本量#數(shù)據(jù)品種#數(shù)據(jù)完整性#數(shù)據(jù)實時性】第4章單元測驗1、【單選題】下面關于推薦系統(tǒng)的描述錯誤的是:本題答案:【推薦系統(tǒng)是一種只能通過專家進行人工推薦的系統(tǒng)】2、【單選題】以下推薦方法中,哪一個是基于內容的推薦:本題答案:【通過機器學習的方法去描述內容的特征,并基于內容的特征來發(fā)現(xiàn)與之相似的內容】3、【單選題】以下哪項不屬于大數(shù)據(jù)在城市管理中的應用:本題答案:【比賽預測】4、【單選題】以下哪項不屬于大數(shù)據(jù)在零售領域的應用:本題答案:【大數(shù)據(jù)征信】5、【多選題】一個完整的推薦系統(tǒng)通常包括哪3個組成模塊:本題答案:【用戶建模模塊#推薦對象建模模塊#推薦算法模塊】6、【多選題】智慧醫(yī)療具有哪些優(yōu)點:本題答案:【促進優(yōu)質醫(yī)療資源的共享#避免患者重復檢查#促進醫(yī)療智能化#有助于實現(xiàn)全民免費醫(yī)療】7、【多選題】下面關于智能物流的描述,正確的是:本題答案:【又稱智慧物流,是利用智能化技術,使物流系統(tǒng)能模仿人的智能,具有思維、感知、學習、推理判斷和自行解決物流中某些問題的能力#可以幫助實現(xiàn)物流資源優(yōu)化調度和有效配置,并且提升物流系統(tǒng)效率#智能物流概念源自2010年IBM發(fā)布的研究報告《智慧的未來供應鏈》#智能物流概念經(jīng)歷了自動化、信息化、網(wǎng)絡化3個發(fā)展階段】8、【多選題】智能物流具有哪幾個方面的重要作用:本題答案:【提高物流的信息化和智能化水平#降低物流成本和提高物流效率#提高物流活動的一體化】9、【多選題】大數(shù)據(jù)在金融領域的應用主要包括:本題答案:【高頻交易#市場情緒分析#信貸風險分析#大數(shù)據(jù)征信】10、【多選題】大數(shù)據(jù)在餐飲行業(yè)的應用主要包括:本題答案:【大數(shù)據(jù)驅動的團購模式#利用大數(shù)據(jù)為用戶推薦消費內容#利用大數(shù)據(jù)調整線下門店布局#利用大數(shù)據(jù)控制店內人流量】第5章單元測驗1、【單選題】以下哪個步驟不屬于數(shù)據(jù)的采集與預處理:本題答案:【對分析結果進行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)】2、【單選題】以下哪項不屬于數(shù)據(jù)清洗的內容:本題答案:【精確度校驗】3、【單選題】以下哪個不是Flume的核心組件:本題答案:【數(shù)據(jù)塊(Block)】4、【單選題】下面關于網(wǎng)絡爬蟲的描述錯誤的是:本題答案:【網(wǎng)絡爬蟲的行為和人們訪問網(wǎng)站的行為是完全不同的】5、【單選題】下面關于網(wǎng)絡爬蟲的描述錯誤的是:本題答案:【屬于同一個控制節(jié)點下的各爬蟲節(jié)點間不可以互相通信】6、【單選題】以下哪個不是Scrapy體系架構的組成部分:本題答案:【支持者(Support)】7、【單選題】下面關于反爬機制描述錯誤的是:本題答案:【反爬機制不利于信息的自由流通,不利于網(wǎng)站發(fā)展,應該堅決取消】8、【單選題】假設有一個數(shù)據(jù)集X={4,8,15,21,21,24,25,28,34},這里采用基于平均值的等高分箱方法對其進行平滑處理,則分箱處理結果是:本題答案:【{9,9,9,22,22,22,29,29,29}】9、【單選題】假設屬性的最大值和最小值分別是87000元和11000元,現(xiàn)在需要利用Min-Max規(guī)范化方法,將“顧客收入”屬性的值映射到0~1的范圍內,則“顧客收入”屬性的值為72400元時,對應的轉換結果是:本題答案:【0.808】10、【單選題】假設A班級的平均分是80,標準差是10,A考了90分;B班的平均分是400,標準差是100,B考了600分。采用Z-Score規(guī)范化以后,二者誰的成績更加優(yōu)秀:本題答案:【B的成績更為優(yōu)秀】11、【單選題】假設屬性的取值范圍是-957~924,當屬性的值為426時,采用小數(shù)定標規(guī)范化方法對應的轉換結果是:本題答案:【0.426】12、【多選題】數(shù)據(jù)采集的三大要點是:本題答案:【全面性#多維性#高效性】13、【多選題】數(shù)據(jù)采集的主要數(shù)據(jù)源包括:本題答案:【傳感器數(shù)據(jù)#互聯(lián)網(wǎng)數(shù)據(jù)#日志文件#企業(yè)業(yè)務系統(tǒng)數(shù)據(jù)】14、【多選題】需要清洗的數(shù)據(jù)的主要類型包括:本題答案:【殘缺數(shù)據(jù)#錯誤數(shù)據(jù)#重復數(shù)據(jù)】15、【多選題】典型的數(shù)據(jù)采集方法包括:本題答案:【系統(tǒng)日志采集#分布式消息訂閱分發(fā)#ETL#網(wǎng)絡數(shù)據(jù)采集】16、【多選題】Kafka的架構包括哪些組件:本題答案:【話題(Topic)#生產(chǎn)者(Producer)#服務代理(Broker)#消費者(Consumer)】17、【多選題】網(wǎng)絡爬蟲的類型主要包括:本題答案:【通用網(wǎng)絡爬蟲#聚焦網(wǎng)絡爬蟲#增量式網(wǎng)絡爬蟲#深層網(wǎng)絡爬蟲】18、【多選題】常見的數(shù)據(jù)轉換策略包括:本題答案:【平滑處理#聚集處理#數(shù)據(jù)泛化處理#規(guī)范化處理】19、【多選題】常用的規(guī)范化處理方法包括:本題答案:【Min-Max規(guī)范化#Z-Score規(guī)范化#小數(shù)定標規(guī)范化】20、【多選題】數(shù)據(jù)脫敏的主要原則包括:本題答案:【保持原有數(shù)據(jù)特征#保持數(shù)據(jù)之間的一致性#保持業(yè)務規(guī)則的關聯(lián)性#多次脫敏之間的數(shù)據(jù)一致性】21、【多選題】數(shù)據(jù)脫敏的方法主要包括:本題答案:【數(shù)據(jù)替換#無效化#隨機化#偏移和取整】第6章單元測驗1、【單選題】以下哪項不屬于傳統(tǒng)的數(shù)據(jù)存儲和管理技術:本題答案:【NoSQL數(shù)據(jù)庫】2、【單選題】以下關于分布式文件系統(tǒng),描述錯誤的是:本題答案:【所有的分布式文件系統(tǒng)的設計都是采用“客戶機/服務器”(Client/Server)模式】3、【單選題】以下描述錯誤的是:本題答案:【傳統(tǒng)關系數(shù)據(jù)庫引以為豪的一些關鍵特性,如事務機制和支持復雜查詢,在Web2.0時代成為不可或缺的核心特性】4、【單選題】以下關于NoSQL數(shù)據(jù)庫描述錯誤的是:本題答案:【NoSQL數(shù)據(jù)庫有固定的表結構,通常存在較多連接操作】5、【單選題】在數(shù)據(jù)庫的發(fā)展歷史上,先后出現(xiàn)過多種數(shù)據(jù)庫類型,但是,不包括:本題答案:【球形數(shù)據(jù)庫】6、【單選題】下面關于關系數(shù)據(jù)庫特點的描述,錯誤的是:本題答案:【關系數(shù)據(jù)庫采用非結構化查詢語言來對數(shù)據(jù)庫進行查詢】7、【單選題】下面關于NewSQL數(shù)據(jù)庫的描述,錯誤的是:本題答案:【不同的NewSQL數(shù)據(jù)庫的內部結構基本相同】8、【單選題】下面關于Hadoop的描述錯誤的是:本題答案:【Hadoop只支持Java編程語言】9、【單選題】下面哪個不是Hadoop生態(tài)系統(tǒng)的組件:本題答案:【SQLServer】10、【單選題】下面組件哪個是負責在Hadoop和關系數(shù)據(jù)庫之間實現(xiàn)數(shù)據(jù)導入導出的:本題答案:【Sqoop】11、【單選題】下面組件哪個是負責分布式資源調度與管理的:本題答案:【YARN】12、【單選題】下面組件哪個是數(shù)據(jù)挖掘庫:本題答案:【Mahout】13、【單選題】下面組件哪個是負責日志收集的:本題答案:【Flume】14、【單選題】下面組件哪個是負責Hadoop集群的安裝、部署、配置和管理的:本題答案:【Ambari】15、【單選題】下列哪一項不屬于NoSQL的四大類型:本題答案:【時間戳數(shù)據(jù)庫】16、【單選題】下列關于鍵值數(shù)據(jù)庫的描述,哪一項是錯誤的:本題答案:【條件查詢效率高】17、【單選題】下列關于列族數(shù)據(jù)庫的描述,哪一項是錯誤的:本題答案:【查找速度慢,可擴展性差】18、【單選題】關于文檔數(shù)據(jù)庫的說法,下列哪一項是錯誤的:本題答案:【數(shù)據(jù)是規(guī)則的】19、【單選題】下列關于云數(shù)據(jù)庫的描述,哪個是錯誤的?本題答案:【云數(shù)據(jù)庫價格不菲,維護費用極其昂貴】20、【單選題】下列哪一個不屬于云數(shù)據(jù)庫產(chǎn)品?本題答案:【本地安裝MySQL】21、【單選題】下面哪一項不是云數(shù)據(jù)庫的特性?本題答案:【高成本】22、【單選題】下列關于BigTable的描述,哪個是錯誤的?本題答案:【爬蟲持續(xù)不斷地抓取新頁面,這些頁面每隔一段時間地存儲到BigTable里】23、【多選題】數(shù)據(jù)倉庫的特性包括:本題答案:【面向主題的#集成的#相對穩(wěn)定的#反映歷史變化的】24、【多選題】NoSQL數(shù)據(jù)庫具有以下幾個特點:本題答案:【靈活的可擴展性#靈活的數(shù)據(jù)模型#與云計算緊密融合】25、【多選題】一個典型的數(shù)據(jù)倉庫系統(tǒng)通常包含哪幾個組成部分:本題答案:【數(shù)據(jù)源#數(shù)據(jù)存儲和管理#OLAP服務器#前端工具和應用】26、【多選題】下面關于并行數(shù)據(jù)庫的描述正確的是:本題答案:【并行數(shù)據(jù)庫是指那些在無共享的體系結構中進行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)#大部分采用了關系數(shù)據(jù)模型并且支持SQL語句查詢#并行數(shù)據(jù)庫的另一個問題就是系統(tǒng)的容錯性較差】27、【多選題】Hadoop的特性主要包括:本題答案:【高可靠性#高可擴展性#高容錯性】28、【多選題】HDFS要實現(xiàn)哪些設計目標:本題答案:【兼容廉價的硬件設備#流數(shù)據(jù)讀寫#強大的跨平臺兼容性】29、【多選題】HDFS的局限性包括:本題答案:【不適合低延遲數(shù)據(jù)訪問#無法高效存儲大量小文件#不支持多用戶寫入及任意修改文件】30、【多選題】下面關于HDFS的體系結構描述正確的是:本題答案:【HDFS采用了主從(Master/Slave)結構模型,一個HDFS集群包括一個名稱節(jié)點和若干個數(shù)據(jù)節(jié)點#名稱節(jié)點作為中心服務器,負責管理文件系統(tǒng)的命名空間及客戶端對文件的訪問#集群中的數(shù)據(jù)節(jié)點一般是一個節(jié)點運行一個數(shù)據(jù)節(jié)點進程,負責處理文件系統(tǒng)客戶端的讀/寫請求】31、【多選題】下列關于文檔數(shù)據(jù)庫的描述,哪些是正確的?本題答案:【性能好(高并發(fā)),靈活性高#復雜性低,數(shù)據(jù)結構靈活】32、【多選題】下列關于圖數(shù)據(jù)庫的描述,哪些是正確的?本題答案:【專門用于處理具有高度相互關聯(lián)關系的數(shù)據(jù)#比較適合于社交網(wǎng)絡、模式識別、依賴分析、推薦系統(tǒng)以及路徑尋找等問題#靈活性高,支持復雜的圖算法#復雜性高,只能支持一定的數(shù)據(jù)規(guī)?!?3、【多選題】下列關于數(shù)據(jù)模型的描述,哪些是正確的?本題答案:【HBase采用表來組織數(shù)據(jù),表由行和列組成,列劃分為若干個列族#每個HBase表都由若干行組成,每個行由行鍵(rowkey)來標識#列族里的數(shù)據(jù)通過列限定符(或列)來定位#每個單元格都保存著同一份數(shù)據(jù)的多個版本,這些版本采用時間戳進行索引】34、【多選題】HBase的系統(tǒng)架構包括哪幾個組成部分:本題答案:【客戶端#Zookeeper服務器#Master主服務器#Region服務器】35、【多選題】下面關于GoogleSpanner的描述正確的是:本題答案:【Spanner是一個可擴展的、全球分布式的數(shù)據(jù)庫#在最高抽象層面,Spanner就是一個數(shù)據(jù)庫,把數(shù)據(jù)分片存儲在許多Paxos狀態(tài)機上,這些機器位于遍布全球的數(shù)據(jù)中心內#隨著數(shù)據(jù)的變化和服務器的變化,Spanner會自動把數(shù)據(jù)進行重新分片,從而有效應對負載變化和處理失敗#Spanner被設計成可以擴展到幾百萬個機器節(jié)點,跨越成百上千個數(shù)據(jù)中心,具備幾萬億數(shù)據(jù)庫行的規(guī)?!康?章單元測驗1、【單選題】下面描述錯誤的是:本題答案:【數(shù)據(jù)挖掘就是指狹義的數(shù)據(jù)分析】2、【單選題】下面描述錯誤的是:本題答案:【數(shù)據(jù)挖掘的目標明確,先做假設,然后通過數(shù)據(jù)分析來驗證假設是否正確,從而得到相應的結論】3、【單選題】下面關于機器學習和數(shù)據(jù)挖掘的描述錯誤的是:本題答案:【數(shù)據(jù)挖掘是機器學習的底層技術】4、【單選題】以下哪個不是典型的分類方法:本題答案:【K-Means】5、【單選題】以下哪個不是聚類方法:本題答案:【TPLINK】6、【單選題】聚類分析的常見應用場景不包括:本題答案:【發(fā)現(xiàn)關聯(lián)購買行為】7、【單選題】下面關于回歸分析的描述錯誤的是:本題答案:【按照因變量的多少,可分為線性回歸分析和非線性回歸分析】8、【單選題】下面關于協(xié)同過濾算法的描述錯誤的是:本題答案:【UserCF算法是給目標用戶推薦那些和他們之前喜歡的物品相似的物品】9、【單選題】下面屬于批處理技術的是:本題答案:【MapReduce】10、【單選題】下面屬于流計算技術的是:本題答案:【S4】11、【單選題】下面屬于圖計算技術的是:本題答案:【Pregel】12、【單選題】下面屬于查詢分析計算技術的是:本題答案:【Hive】13、【單選題】下列關于流計算的說法,哪項是錯誤的?本題答案:【流計算只需要保證較低的延遲時間,即只達到秒級別即可處理一切問題】14、【單選題】下列關于數(shù)據(jù)處理流程,說法有誤的是?本題答案:【流計算的處理流程一般包含三個階段:數(shù)據(jù)實時采集、數(shù)據(jù)批量計算、實時查詢服務】15、【單選題】下面哪個屬于圖數(shù)據(jù)庫:本題答案:【Neo4j】16、【單選題】下列關于MapReduce模型的描述,錯誤的是哪一項?本題答案:【MapReduce應用程序只能用Java來寫】17、【單選題】關于數(shù)據(jù)倉庫Impala的描述錯誤的是:本題答案:【Impala最初是參照MySQL系統(tǒng)進行設計的】18、【單選題】下面關于Spark和Hadoop的關系,描述錯誤的是:本題答案:【Spark和Hadoop一樣,既包含了存儲的組件,也包含了計算的組件】19、【單選題】以下哪個不是Spark的生態(tài)系統(tǒng)的組件:本題答案:【Zookeeper】20、【單選題】以下哪個組件是Spark中的機器學習算法庫:本題答案:【MLlib】21、【單選題】以下哪個組件是Spark中用于結構化數(shù)據(jù)處理的組件:本題答案:【SparkSQL】22、【單選題】Shark與SparkSQL的關系是:本題答案:【Shark是SparkSQL的前身】23、【單選題】下面關于TensorFlow和TensorFlowOnSpark的描述錯誤的是:本題答案:【TensorFlow是一個開源的、基于Java的機器學習框架】24、【單選題】以下哪個不是Storm的特點:本題答案:【復雜的API】25、【單選題】下面關于SparkStreaming和Storm的描述錯誤的是:本題答案:【SparkStreaming可以實現(xiàn)毫秒級的流計算】26、【單選題】下面關于Flink的描述錯誤的是:本題答案:【Flink主要是由Python代碼實現(xiàn)的】27、【多選題】數(shù)據(jù)分析主要實現(xiàn)哪三大作用:本題答案:【現(xiàn)狀分析#原因分析#預測分析】28、【多選題】數(shù)據(jù)挖掘主要側重解決哪幾類問題:本題答案:【分類#聚類#關聯(lián)#預測】29、【多選題】下面關于數(shù)據(jù)分析與數(shù)據(jù)處理的描述,正確的是:本題答案:【數(shù)據(jù)分析過程通常會伴隨著發(fā)生數(shù)據(jù)處理(或者說伴隨著大量數(shù)據(jù)計算)#二者是融合在一起的,很難割裂開來#當用戶在進行數(shù)據(jù)分析的時候,底層的計算機系統(tǒng)會根據(jù)數(shù)據(jù)分析任務的要求,使用程序進行大量的數(shù)據(jù)處理】30、【多選題】下面關于大數(shù)據(jù)處理與分析的描述,正確的是:本題答案:【在理論層面,數(shù)據(jù)分析需要統(tǒng)計學、機器學習和數(shù)據(jù)挖掘等知識#在技術層面,包括單機分析工具(比如SPSS、SAS等)或單機編程語言(比如Python、R),以及大數(shù)據(jù)處理與分析技術(比如MapReduce、Spark、Hive等)#在大數(shù)據(jù)時代到來之前,數(shù)據(jù)分析主要以小規(guī)模的抽樣數(shù)據(jù)為主,一般使用單機分析工具(比如SPSS和SAS)或者單機編程(比如Python、R)的方式來實現(xiàn)分析程序#到了大數(shù)據(jù)時代,數(shù)據(jù)量爆炸式地增長,數(shù)據(jù)分析就需要采用分布式實現(xiàn)技術,比如使用MapReduce、Spark或Flink編寫分布式分析程序,借助于集群的多臺機器進行并行數(shù)據(jù)處理分析】31、【多選題】常見的關聯(lián)規(guī)則挖掘算法包括:本題答案:【FP-Growth算法#Apriori算法】32、【多選題】協(xié)同過濾主要包括:本題答案:【基于用戶的協(xié)同過濾#基于物品的協(xié)同過濾#基于模型的協(xié)同過濾】33、【多選題】大數(shù)據(jù)處理分析技術主要包括哪幾種類型:本題答案:【批處理計算#流計算#圖計算#查詢分析計算】34、【多選題】一次BSP計算過程包括一系列全局超步(超步就是指計算中的一次迭代),每個超步主要包括哪幾個組件:本題答案:【局部計算#通信#柵欄同步】35、【多選題】下面關于MapReduce工作流程的描述,正確的是:本題答案:【一個大的MapReduce作業(yè),會被拆分成許多個Map任務在多臺機器上并行執(zhí)行#每個Map任務通常運行在數(shù)據(jù)存儲的節(jié)點上#Reduce任務會對中間結果進行匯總計算得到最后結果】36、【多選題】Hadoop的MapReduce的缺點包括:本題答案:【表達能力有限#磁盤IO開銷大#延遲高】37、【多選題】Hive底層所依賴的計算引擎可以是:本題答案:【MapReduce#Tez#Spark】38、【多選題】下面關于Hive的描述正確的是:本題答案:【Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具,可以用于對存儲在Hadoop文件中的數(shù)據(jù)集進行數(shù)據(jù)整理、特殊查詢和分析處理#Hive的學習門檻比較低,因為它提供了類似于關系數(shù)據(jù)庫SQL語言的查詢語言——HiveQL#當采用MapReduce作為執(zhí)行引擎時,Hive可以通過HiveQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,Hive自身可以將HiveQL語句快速轉換成MapReduce任務進行運行#Hive在某種程度上可以看作是用戶編程接口,其本身并不存儲和處理數(shù)據(jù)】39、【多選題】關于Hive與Hadoop生態(tài)系統(tǒng)中其他組件的關系,下面描述正確的是:本題答案:【HDFS作為高可靠的底層存儲,用來存儲海量數(shù)據(jù)#MapReduce對這些海量數(shù)據(jù)進行批處理,實現(xiàn)高性能計算#用HiveQL語句編寫的處理邏輯,最終都要轉化為MapReduce任務來運行】40、【多選題】Hive的系統(tǒng)架構主要包括哪幾個模塊:本題答案:【驅動模塊#元數(shù)據(jù)存儲模塊#用戶接口模塊】41、【多選題】關于數(shù)據(jù)倉庫Impala的描述正確的是:本題答案:【與Hive類似,Impala也可以直接與HDFS和HBase進行交互#Impala采用了與商用MPP并行關系數(shù)據(jù)庫類似的分布式查詢引擎,可以直接從HDFS或者HBase中用SQL語句查詢數(shù)據(jù),而不需要把SQL語句轉化成MapReduce任務來執(zhí)行】42、【多選題】Spark的特點主要包括:本題答案:【運行速度快#容易使用#通用性】43、【多選題】Spark相對于MapReduce的優(yōu)點包括:本題答案:【Spark的計算模式也屬于MapReduce,但不局限于Map和Reduce操作,還提供了多種數(shù)據(jù)集操作類型,編程模型比MapReduce更靈活#Spark提供了內存計算,中間結果直接放到內存中,帶來了更高的迭代運算效率#Spark基于DAG的任務調度執(zhí)行機制,要優(yōu)于MapReduce的迭代執(zhí)行機制】44、【多選題】不同的計算框架統(tǒng)一運行在YARN中,可以帶來哪些好處:本題答案:【計算資源按需伸縮#不用負載應用混搭,集群利用率高#共享底層存儲,避免數(shù)據(jù)跨集群遷移】45、【多選題】在實際應用中,大數(shù)據(jù)處理主要包括哪幾種類型:本題答案:【復雜的批量數(shù)據(jù)處理:時間跨度通常在數(shù)十分鐘到數(shù)小時之間#基于歷史數(shù)據(jù)的交互式查詢:時間跨度通常在數(shù)十秒到數(shù)分鐘之間#基于實時數(shù)據(jù)流的數(shù)據(jù)處理:時間跨度通常在數(shù)百毫秒到數(shù)秒之間】46、【多選題】下面關于Spark的運行架構的描述,正確的是:本題答案:【Spark運行架構包括ClusterManager、WorkerNode、DriverProgram和Executor#Spark集群資源管理器可以是Spark自帶的資源管理器,也可以是YARN或Mesos等資源管理框架#Spark利用多線程來執(zhí)行具體的任務】47、【多選題】下面關于RDD的描述正確的是:本題答案:【一個RDD就是一個分布式對象集合#一個RDD本質上是一個只讀的分區(qū)記錄集合#RDD提供了一組豐富的操作以支持常見的數(shù)據(jù)運算,分為“行動”(Action)和“轉換”(Transformation)兩種類型】48、【多選題】Spark的集群部署方式包括:本題答案:【SparkonMesos模式#SparkonYARN模式#SparkonKubernetes模式】49、【多選題】下面關于SparkSQL的描述正確的是:本題答案:【SparkSQL在Hive兼容層面僅依賴HiveQL解析和Hive元數(shù)據(jù)#SparkSQL目前支持Scala、Java編程語言,暫時不支持Python語言#SparkSQL增加了DataFrame(即帶有Schema信息的RDD),使用戶可以在SparkSQL中執(zhí)行SQL語句】50、【多選題】下面關于SparkStreaming的描述正確的是:本題答案:【SparkStreaming是構建在SparkCore上的實時計算框架,它擴展了Spark處理大規(guī)模流式數(shù)據(jù)的能力#SparkStreaming可結合批處理和交互查詢,適合一些需要對歷史數(shù)據(jù)和實時數(shù)據(jù)進行結合分析的應用場景#SparkStreaming可整合多種輸入數(shù)據(jù)源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字#SparkStreaming實際上是以一系列微小批處理來模擬流計算】51、【多選題】StructuredStreaming包括哪兩種處理模型:本題答案:【微批處理#持續(xù)處理】52、【多選題】關于StructuredStreaming、SparkSQL、SparkStreaming,下面描述正確的是:本題答案:【StructuredStreaming處理的數(shù)據(jù)跟SparkStreaming一樣,也是源源不斷的數(shù)據(jù)流#StructuredStreaming可以使用SparkSQL的DataFrame/Dataset來處理數(shù)據(jù)流#SparkSQL只能處理靜態(tài)的數(shù)據(jù),而StructuredStreaming可以處理結構化的數(shù)據(jù)流】53、【多選題】SparkMLlib主要提供了哪幾個方面的工具:本題答案:【算法工具#特征化工具#流水線#實用工具】54、【多選題】下面關于Storm框架設計描述正確的是:本題答案:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論