大數據技術概論期末復習題2023-11(附參考答案)_第1頁
大數據技術概論期末復習題2023-11(附參考答案)_第2頁
大數據技術概論期末復習題2023-11(附參考答案)_第3頁
大數據技術概論期末復習題2023-11(附參考答案)_第4頁
大數據技術概論期末復習題2023-11(附參考答案)_第5頁
免費預覽已結束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

單項選擇題1.下列各項不屬于數據的是()。A.文本B.圖像C.視頻D.印象2.下列各項不屬于大數據特征的是()。A.體量大B.種類多C.真實性D.數據生成慢3.數據異常值的處理方法不包括()。A.極小值替換B.刪除C.忽略D.視為缺失值進行填補4.下列各項不能用于描述數據集中趨勢的是()。A.方差B.平均數C.中位數D.峰值5.下列各項不屬于Hadoop的特點是()。A.存儲迅速B.成本高C.計算能力強D.靈活性強6.在工業(yè)網絡實時監(jiān)控系統中,需要連續(xù)不斷地采集和處理數據。以下()不屬于這種計算模式。A.在線處理 B.實時處理 C.流式計算 D.批量計算7.下面不是研究數據方法的是()。A.統計學B.機器學習C.心理分析D.數據挖掘8.下面不屬于大數據的處理過程的是()。A.數據獲取B.數據清洗C.數據分析D.數據安全9.下面不屬于大數據計算模式的類型的是()。A.批量計算B.手動計算C.流式計算D.交互式計算10.下列各項屬于合規(guī)數據的是()。A.非法收集隱私信息數據B.取得使用者同意的個人資料數據C.泄露的隱私信息數據D.壟斷數據11.在Hadoop生態(tài)系統中,主要負責節(jié)點集群的任務調度和資源分配,將存儲和計算資源分配給不同應用程序的組件是()。A.HDFSB.MapReduceC.YARND.Storm12.下列屬于圖數據的主要特性的是()。A.數據驅動計算B.不規(guī)則問題C.高數據訪問率D.以上均是13.可以用來查看數值型變量的分布的可視化方法是()。A.箱線圖B.直方圖C.小提琴圖D.以上方法均可以14.如果只是研究兩個數值變量之間的關系,最常見的可視化方法是()。A.直方圖B.散點圖C.餅圖D.折線圖15.下列各項不屬于批處理系統的特點的是()。A.可以實現實時的分析報告或自動響應B.可以實現無縫擴展以處理峰值數據量或數據請求C.支持數據在不同系統之間進行交換D.支持作業(yè)執(zhí)行狀態(tài)的監(jiān)控16.下列各項屬于非結構化數據的是()。A.圖像 B.二維數據表 C.HTML文檔D.以上均是17.在大數據的處理流程中,()步驟是將數據轉化為圖形,以更直觀的方式展示和表達。A.存儲與管理B.可視化C.采集與預處理D.分析與挖掘18.下列關于異常值的描述中,錯誤的是()。A. 可以使用箱線圖檢測異常值B. 當異常值的數量不是很多時,可以直接將含有異常值的觀測記錄刪除C. 可以將異常值視為缺失值,按處理缺失值的方法處理異常值D. 異常值的存在不屬于數據質量問題,不會影響模型的預測能力19.下列各項關于分類的描述中,錯誤的是()。A.可以借助分類方法根據電子郵件的標題判斷其是否為垃圾郵件B.在進行建模之前就要有明確的分組預測目標C.k近鄰算法是一種簡單但強大的分類算法D.用來建立分類模型的輸入數據稱為測試集20.假設散點圖中的觀測點分布較為分散,沒有任何規(guī)律,說明兩個變量之間的關系為()。A.完全線性相關B.線性相關C.非線性相關D.不相關21.在Hadoop生態(tài)系統中,主要負責跨節(jié)點存儲結構化或非結構化數據,并以日志文件的形式管理數據的組件是()。A.HDFSB.MapReduceC.YARND.Storm22.下列各項不屬于批處理系統的特點的是()。A.為開發(fā)者提供了一個簡單、快捷的開發(fā)框架B.支持各種數據格式的處理C.支持數據在不同系統之間進行交換D.可以實現實時的分析報告或自動響應23.為表示一組數據的分布特征,反映數據分布是否對稱時,常用的可視化方法是()。A.箱線圖B.氣泡圖C.折線圖D.散點圖24.如果要反映某學生在6個學期中每學期平均成績的變化情況,采用()可視化方法較為合適。A.餅圖 B.折線圖 C.散點圖 D.直方圖25.下列各項屬于結構化數據的是()。A.圖像 B.二維數據表 C.聲音 D.文本26.在大數據的處理流程中,下列各項中最先進行的是()。A.存儲與管理B.可視化C.采集與預處理D.分析與挖掘27.下列關于缺失值的描述中,錯誤的是()。A. 缺失值是指數據集中有些變量的一個或多個取值無法獲得B. 數據缺失的現象大量存在C. 回歸插補的方法不會改變數據分布D. 當缺失數據的記錄所占比例在數據集中少于10%時,可以將缺失值直接刪除28.下列各項關于聚類的描述中,錯誤的是()。A.可以借助聚類方法進行異常檢測B.在進行建模之前就要有明確的分組預測目標C.可以利用聚類分析發(fā)現具有相似功能的基因組D.根據數據本身的自然結構對數據進行分組29.假設散點圖中的觀測點恰好落在一條直線上,說明兩個變量之間的關系為()。A.完全線性相關B.線性相關C.非線性相關D.不相關30.下列各項屬于數據倉庫的特點的是()。A.數據以主題為導向,提供決策支持B.數據源單一C.數據質量低D.不支持歷史數據分析31.根據原始數據是否為數據的直接來源,可以將數據分為()。A.結構化、非結構化和半結構化數據B.一手數據和二手數據C.觀測數據和實驗數據D.截面數據和時間序列數據32.大數據5V特征中的Variety表示()。A.體量大B.種類多C.價值大D.數據快33.大數據處理流程中的()步驟是將數據轉化為圖形,以更直觀的方式展示和表達。A.數據的采集與預處理B.數據的存儲與管理C.數據的可視化D.數據的分析與挖掘34.下列各項不屬于大數據在銀行業(yè)的應用的是()。A.客戶分析B.風險管理C.運營優(yōu)化D.疾病預防與治療35.數據的整理是根據分析目的對數據格式、形態(tài)和結構進行處理,其中()能夠在不損失或損失較少數據本身價值的情況下壓縮數據。A.數據的聚合B.數據的提取C.數據的連接D.數據的變換36.關于數據的離散化,下列描述中錯誤的是()。A.數據的離散化是指將數據由分類型變量變成數值型變量。 B.離散化可以提高大數據處理的效率 C.組距分組是常見的離散化方法之一D.離散化可以實現樣本量的縮減37.異常值的處理方法包括()。A.刪除B.視為缺失值進行填補C.忽略D.以上均是38.下列關于數據倉庫三層架構的描述中,正確的是()。A.頂層由聯機分析處理服務器組成B.底層由數據倉庫服務器組成C.中間層由前端用戶界面表示D.數據在中間層完成加載和存儲39.HDFS的高可用性是指()。A.隨著需求的增加,集群可以輕松擴展到更多節(jié)點B.實現節(jié)點集群上的并行數據處理C.即使集群中的某個節(jié)點發(fā)生故障,數據仍然可用D.出現故障時,可以從集群中的其他節(jié)點獲取數據備份40.下列各項不屬于NoSQL數據庫的是()。A.關系數據庫B.文檔數據庫C.鍵值存儲數據庫D.圖形數據庫41.以下可視化圖形中,()是由數據集合中的最大值、最小值、中位數和兩個四分位數繪制而成。A.柱形圖B.餅圖C.箱線圖D.直方圖42.以下常用于時間序列數據可視化的方法是()。A.折線圖B.直方圖C.餅圖D.箱線圖43.下列關于推斷統計學的描述中,錯誤的是()。A.參數估計是根據樣本的統計量來估計總體中的參數B.假設檢驗可以度量變量之間的相關程度C.判別分析是將某個對象歸到已知類別中D.時間序列分析是研究時間序列數據變化規(guī)律的方法44.根據概率的原則進行分類的機器學習算法是()。A.k近鄰算法B.決策樹C.樸素貝葉斯分類器D.隨機森林45.以下關于關聯規(guī)則的描述中,錯誤的是()。A.可以用于預測商品的價格B.可以用于找到商品之間的關聯C.可以用于購物籃數據分析D.可以用于電商的推薦系統46.在以二維表形式表示的數據集中,行表示()。A.特征B.樣本C.屬性D.字段47.當一個變量可以在一個范圍內連續(xù)取值時,該變量就是()。A.定量變量B.定性變量C.屬性變量D.分類變量48.傳統的主要基于統計學的分析方法在大數據時代所面臨的挑戰(zhàn)包括()。A.全體數據,不是隨機樣本B.放棄數據的精確性,盡可能收集更多數據C.重視相關關系,而不是因果關系D.以上均是49.以下關于基于關聯規(guī)則的推薦算法的描述中,正確的是()。A.根據用戶對商品或內容的收藏或分享等情況判斷用戶對該商品的興趣和偏好程度B.根據用戶的基本信息發(fā)現用戶之間的相似情況,將相似用戶喜愛的的其他商品推薦給當前用戶C.挖掘不同商品在銷售過程中的相關性D.根據商品本身的屬性數據,計算商品之間的相似度,再基于用戶的歷史瀏覽等信息推薦給用戶相似的商品50.使用Python進行網絡爬蟲獲取網頁數據時,正確的步驟是()。A.發(fā)送請求-獲取內容-解析內容-保存數據B.保存數據-發(fā)送請求-獲取內容-解析內容C. 獲取內容-解析內容-發(fā)送請求-保存數據D. 解析內容-保存數據-獲取內容-發(fā)送請求51.在缺失值的處理方法中,()是利用樣本觀測之間的相關性來插補缺失值。A.均值插補B.回歸插補C.多重插補D.k近鄰算法插補52.下列關于離散化處理的描述中,錯誤的是()。A.離散化處理可以提高大數據處理的效率B.在調查問卷中,離散化處理可以得到更高的響應率C.數據經過離散化后,可以獲得更好的模型解釋性D.離散化處理不會影響預測精度53.氣泡圖中可以用來展示數據信息的屬性包括()。A.僅橫坐標B.僅橫坐標和縱坐標C.僅橫坐標、縱坐標和氣泡大小D.橫坐標、縱坐標、氣泡大小和氣泡顏色54.下列關于數據倉庫的特點,描述錯誤的是()。A.數據以主題為導向,提供決策支持B.關注數據隨時間的變化,支持歷史數據分析C.數據質量高,提供數據一致性和準確性D.數據源和數據類型單一55.HDFS的可擴展性主要體現在()。A.隨著需求的增加,集群可以輕松擴展到更多節(jié)點B.即使集群中的某個節(jié)點發(fā)生故障,數據依然可用C.以分布式方式存儲數據,減少處理時間D.確保數據始終可用,防止數據丟失56.下列數據庫中,屬于文檔數據庫的是()。A.RedisB.Neo4jC.HBaseD.MongoDB判斷題1.根據數據在收集過程中是否控制有關因素,可以將數據分為觀測數據和實驗數據。()2.時間序列分析中采用對數變換來消除異方差。()3.關系型數據庫不是用來存儲和訪問具有彼此相關性數據的數據庫。()4.氣泡圖中氣泡的面積大小沒有實際意義。()5.數據科學是通過科學方法探索數據,以獲得有價值的發(fā)現。()6.數據科學的發(fā)展不僅可以推動學科的發(fā)展,而且能夠助推相關產業(yè)的發(fā)展與進步。()7.網頁數據是一種半結構化數據。()8.在分類方法中,決策樹法的結果復雜難懂、可解釋性較差。()9.MapReduce編程模型的首要步驟是對存儲系統中的文件按列處理,并產生鍵值對。()10.MapReduce基于分而治之的算法范式,利用多臺計算機完成數據處理()11.銀行業(yè)通過大數據技術可以有效分析經營過程中可能存在的風險因素。()12.數據脫敏技術可以有效降低敏感數據泄露的風險。()13.時間序列數據是按時間順序排列的觀測值序列,用于所描述現象隨時間變化的情況。()14.數據預處理的主要目的是為了提高數據質量,將原始數據變成更加方便計算或處理的格式,使數據形態(tài)更加符合建模要求,進而提升數據挖掘的質量和效率。()15.數據可視化對于提升數據的理解、分析與推斷沒有幫助。()16.HDFS架構遵循主從結構,主節(jié)點稱為數據節(jié)點,負責接收來自客戶端的作業(yè)請求。()17.通常使用直方圖展示兩個數值型變量之間的相關關系。()18.決策樹是一種簡單高效的分類模型。()19.Excel只能存儲數據,無法用于數據分析。()20.為防止隱私被竊取,企業(yè)和個人可以運用隱私保護技術來保護數據的安全。()21.為了避免數據的雜亂無序,通常將數據整理成數據集。()22.辦公文檔、圖像、聲音和文本都是結構化數據。()23.疾病預防和治療屬于大數據在生物醫(yī)學領域的應用。()24.數據缺失的現象大量存在而又無法避免。()25.特征選擇是指由原始變量的函數構造一些新的變量,新的變量能保留原始變量的絕大部分信息。()簡答題1.變量的定義是什么?用于刻畫觀測數據集的特征的量叫做變量。2.請列舉三種常用的電子商務推薦算法。協同過濾推薦算法;基于內容的推薦算法;基于關聯規(guī)則的推薦算法;基于人口統計的推薦算法。3.請列舉五種常見的數據缺失值插補方法。均值插補;回歸插補;隨機回歸插補;多重插補;K近鄰算法插補4.數據可視化的基本原則包括哪些方面?數據可視化的效果要能準確的表達數據中的信息而不產生偏差或歧義;能夠清晰地表達數據中的信息;其設計的可視化圖表能夠令人賞心悅目。5.數據的定義是什么?數據是對現象或事物進行測量和記錄的結果,可用來制表、計算和分析等,也可以統指一切保存在電腦中的信息,能夠進行電子化的記錄,包括文本、圖像、音頻、視頻等。6.大數據的成因是什么?數據的存儲和管理能力的增強;數據采集能力增強;大數據的挖掘和分析等技術的同步發(fā)展。7.數據整理的內容主要包括哪四個方面?數據的提取;數據的連接;數據的聚合;去除冗余和重復。8.通過相關系數矩陣處理共線性問題的算法步驟是什么?計算相關系數矩陣;確定最大的成對相關系數對應的預測變量A和預測變量B;計算變量A與其他所有變量之間的平均絕對值相關系數,對變量B也做同樣的計算;比較A與B,誰的平均絕對值相關系數最大,刪除誰;重復

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論