大數據導論(南開大學2021)

上傳人：1*** IP屬地：北京上傳時間：2024-01-19 格式：DOCX 頁數：30 大?。?2.92KB 積分：1.2 舉報 版權申訴

已閱讀5頁，還剩25頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

《大數據導論》課程期末復習資料《大數據導論》（一）、單項選擇1.以下不是NoSQL數據庫的是（D）A.MongoDBB.HBaseC.CassandraD.DB22以下不是目前主流開源分布式計算系統(tǒng)的是（A）A.AzureB.HadoopC.SparkD.Storm3.Apriori算法是一種（A）算法A.關聯(lián)規(guī)則B.聚類C.分類D.預測（二）、多項選擇1.大數據的特征包括（ABCD）A.體量大（Volume）B.多樣性（Variety）C.速度快（Velocity）D.價值高（Value）2.按照數據結構分類，數據可分為（ABC）A.結構化數據B.半結構化數據C.非結構化數據D.無結構數據3.根據產生主體的不同，大數據可以分為（ABC）A.產量企業(yè)應用產生的數據B.大量個人用戶產生的數據C.由巨量機器產生的數據D.科研數據4.根據作用方式不同，大數據可以分為（AC）A.交互數據B.社交數據C.交易數據D.個人數據5.Google分布式計算模型包括（ABC）A.GFSB.BigTableC.MapReduceD.RDD6.根據數據分析深度，可將數據分析分為（BCD）A.關聯(lián)性分析B.預測性分析C.規(guī)則性分析D.描述性分析7.根據數據分析的實時性，可將數據分析分為（AD）A.實時數據分析B.預測性分析C.規(guī)則性分析D.離線數據分析（一）、名詞解釋1.流處理和批處理批處理：“靜止數據”轉變?yōu)椤罢褂脭祿?，先存儲后處理（Store-then-Process），先把信息存下來，稍后一次性地處理掉；對于批量數據，多采用批處理，批處理擅長全時智能，但速度慢，需要批處理加速。流處理：“動態(tài)數據”轉變?yōu)椤罢褂脭祿?，直接處理（Straight-throughProcess），任務來一件做一件，信息來一點處理一點，有的直接過濾掉，有的存起來。對于流數據，多采用流處理，獲得實時智能，速度快。2.磁盤陣列磁盤陣列（RedundantArraysofIndependentDisks，RAID），全稱為“冗余的獨立磁盤陣列”。冗余是為了補救措施、保證可靠性而采取的一種方法，獨立是指磁盤陣列不在主機內而是自成一個系統(tǒng)。磁盤陣列是由很多價格較便宜的磁盤，組合成一個容量巨大的磁盤組，利用個別磁盤提供數據所產生加成效果提升整個磁盤系統(tǒng)效能。RAID可以讓很多磁盤驅動器同時傳輸數據，在邏輯上又是一個磁盤驅動器，故使用此技術可以達到單個磁盤幾倍、幾十倍甚至上百倍的速率。在很多RAID模式中都有較為完備的相互校驗/恢復功能，大大提高了系統(tǒng)容錯度和穩(wěn)定性。3.云存儲云存儲是在云計算（cloudcomputing）概念上延伸和發(fā)展出來的一個新的概念，是一種新興的網絡存儲技術。它是云計算的重要組成部分，也是云計算的重要應用之一。云存儲是指通過集群應用、網絡技術或分布式文件系統(tǒng)等功能，將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作，共同對外提供數據存儲和業(yè)務訪問功能的一個系統(tǒng)。4.NoSQLNoSQL(NotOnlySQL)泛指非關系型、分布式和不提供ACID的數據庫設計模式，它不是單純地反對關系型數據庫，而是強調鍵值（Key-Value）存儲數據庫和文檔數據庫的優(yōu)點。5.數據倉庫WilliamH.Inmon在1992年出版BuildingtheDataWarehouse一書，第一次給出了數據倉庫的清晰定義和操作性極強的指導意見，真正拉開了數據倉庫得到大規(guī)模應用的序幕。在該書中，將數據倉庫定義為：“一個面向主題的（subjectoriented）、集成的（integrate），相對穩(wěn)定的（non-volatile）、反映歷史變化（timevariant）的數據集合，用于支持管理決策。6.云計算云計算（CloudComputing）是一種分布在大規(guī)模數據中心、能動態(tài)的提供各種服務器資源以滿足科研、電子商務等領域需求的計算平臺。同時，云計算是分布式計算、并行計算和網絡計算的發(fā)展，是虛擬化、效用計算、IaaS（基礎設施即服務）、PaaS（平臺即服務）、SaaS（軟件即服務）等概念混合演進并躍升的結果。簡單的說，云計算是基于互聯(lián)網相關服務的增加、使用和交付模式，通過互聯(lián)網來提供一般為虛擬化的動態(tài)易擴展資源。狹義云計算指IT基礎設施的交付和使用模式；廣義云計算指服務的交付和使用模式。兩種云計算均通過網絡以按需、易擴展的方式獲得所需服務。這種服務可以是IT和軟件、互聯(lián)網相關，也可是其他服務。云計算的核心思想，是將大量用網絡連接的計算資源統(tǒng)一管理和調度，構成一個計算資源池，向用戶按需服務。提供資源的網絡被稱為“云”?！霸啤敝械馁Y源在使用者看來是可以無限擴展的，并且可以隨時獲取、按需使用、隨時擴展、按使用付費。7.RDDRDD彈性分布式數據集，簡單來說，是一種自定義的可并行數據容器，可以存放任意類型的數據。彈性是指有容錯的機制，若一個RDD分片去失，Spark可以根據粗粒度的日志數據更新記錄的信息（Spark中稱為“血統(tǒng)”）重構它：分布式指的是能對其進行并行的操作。除了這兩點，它還能通過persist或者cache函數被緩存在內存里或磁盤中，共享給其他計算機，可以避免Hadoop那樣存取帶來的開銷。8.大數據分析大數據分析是大數據理念與方法的核心，是指對海量增長快速、內容真實、類型多樣的數據進行分析，從中找出可以幫助決策的隱藏模式、未知的相關關系以及其他有用信息的過程。9.數據挖掘數據挖掘（DataMining，DM）簡單來說就是在大量的數據中提取或挖掘信息，通過仔細分析來揭示數據之間有意義的聯(lián)系、趨勢和模式。10.關聯(lián)分析關聯(lián)分析（Associationanalysis）是從有噪聲的、模糊的、隨機的海量數據中，挖掘出隱藏的、事先不知道、但是有潛在關聯(lián)的信息或知識的過程，或稱關聯(lián)規(guī)則學習（Associationrulelearning）。11.分類分析分類（Classification）任務是在給定數據基礎上構建分類模型，根據分類模型確定目標對象屬于哪個預定義的目標類別。構建分類模型：通過分析已知訓練樣本類別的數據集屬性，通過訓練建立相應分類模型，是監(jiān)督學習(supervisedlearning）過程，數據集被稱為訓練數據集。使用模型分類：評估模型的分類預測準確率，使用測試數據集進行評估；當準確率可以接受時，用分類模型對未知數據進行分類。12.聚類分析聚類分析（Clusteranalysis）簡稱聚類（Clustering），是把數據對象劃分成子集（類）的過程，每個子集稱為一個簇（Cluster），同一個簇中的數據之間存在最大相似性，不同簇之間的數據間存在最大的差異性。（二）、簡答1.人類社會的數據產生方式經歷了哪些階段？簡述各階段的特點。人類歷史上從未有哪個時代和今天一樣產生如此海量的數據，人類社會的數據產生方式大致經歷了3個階段：運營式系統(tǒng)、用戶原創(chuàng)內容階段、感知式系統(tǒng)階段。（1）運營式系統(tǒng)：數據庫的出現(xiàn)使得數據管理的復雜度大大降低，實際中數據庫大都為運營系統(tǒng)所采用，作為運營系統(tǒng)的數據管理子系統(tǒng)，如超市的銷售記錄系統(tǒng)、銀行的交易記錄系統(tǒng)、醫(yī)院病人的醫(yī)療記錄等。人類社會數據量第一次大的飛躍正是建立在運營式系統(tǒng)廣泛使用數據庫開始，這些數據規(guī)范、有秩序、強調數據的一致性，且這些數據的產生方式是被動的。（2）用戶原創(chuàng)內容階段：互聯(lián)網的誕生促使人類社會數據量出現(xiàn)第二次大的飛躍，但真正的數據爆發(fā)產生于Web2.0時代，其重要標志就是用戶原創(chuàng)內容。以博客、微博為代表的新型社交網絡的出現(xiàn)和快速發(fā)展，使得用戶產生數據的意愿更加強烈；新型移動設備出現(xiàn)，易攜帶、全天候接入網絡的移動設備使得人員在網上發(fā)現(xiàn)自己意見的途徑更為便捷數據結構復雜，無秩序，不強調數據的一致性或只強調弱一致性，這些數據的產生方式是主動的。（3）感知式系統(tǒng)：人類社會數據量第三次大的飛躍最終導致了大數據的產生，這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。微小帶著處理功能的傳感器設備廣泛布置于社會的各個角落，通過這些設備對整個社會的運轉進行監(jiān)控，這些設備會源源不斷地產生新數據，這些數據的產生方式是自動的，數據呈現(xiàn)多源異構、分布廣泛、動態(tài)演化等。簡單來說，數據產生經歷了被動、主動和自動三個階段，這些被動、主動和自動的數據共同構成了大數據的數據來源。2.大數據處理的關鍵技術都有哪些？并做簡要描述。大數據處理的關鍵技術主要包括：數據采集和預處理、數據存儲、數據計算處理、數據分析和挖掘、數據可視化展示等。1).數據采集，又稱數據獲取，是大數據生命周期的第一個環(huán)節(jié)，通過RFID射頻識別技術、傳感器、交互型社交網絡以及移動互聯(lián)網等方式獲得的各種類型的結構化、半結構化及非結構化的海量數據。2).數據預處理是數據分析和挖掘的基礎，是將接收數據進行抽取、清洗、轉換、歸約等并最終加載到數據存儲的過程。3).數據存儲，需要將采集到的數據進行存儲管理，建立相應的數據庫。4).數據計算處理。單臺計算機必然無法完成海量的數據處理工作，需要分布式架構的計算平臺。5).數據分析與挖掘，是基于商業(yè)目的，有目的的進行收集、整理、加工和分析數據，提煉有價值信息的一個過程。6).大數據可視化技術，可以提供更為清晰直觀的數據表現(xiàn)形式，將錯綜復雜的數據和數據之間的關系，通過圖片、映射關系或表格，以簡單、友好、易用的圖形化、智能化的形式呈現(xiàn)給用戶，供其分析使用。3.簡述網絡大數據的一般采集過程。大數據采集主要包括：系統(tǒng)日志采集、網絡數據采集、數據庫采集和其他數據采集四種。網絡數據采集常用的是通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來，將其存儲為統(tǒng)一的本地數據文件，并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集，附件與正文可以自動關聯(lián)。網絡大數據的一般采集過程：先在URL隊列中寫入一個或多個目標鏈接作為爬蟲爬取信息的起點；爬蟲從URL隊列中讀取鏈接，并訪問該網站；從該網站爬取內容；從網頁內容中抽取出目標數據和所有URL鏈接；從數據庫中讀取已經抓取過內容的網頁地址；過濾URL，將當前隊列中的URL和已經抓取過的URL進行比較；如果該網頁地址沒有被抓取過，則將該地址（SpiderURL）寫入數據庫，并訪問該網站；如果該地址已經被抓取過，則放棄對這個地址的抓取操作；獲取該地址的網頁內容，并抽取出所需屬性的內容值；將抽取的網頁內容寫入數據庫，并將抓取到的新鏈接加入URL隊列。4.解釋為什么要進行數據預處理。高質量的數據是能夠滿足應用需求的數據。數據質量涉及很多因素，包括準確性、完整性、一致性、時效性、可信性和可解釋性。1)不完整數據的出現(xiàn)可能有多種原因：重要的信息并非總是可以得到、用戶輸入時的遺漏、用戶理解錯誤導致相關數據沒有記錄、設備故障導致的輸入缺失、記錄中不一致數據的刪除、記錄歷史或被修改的數據被忽略、缺失的數據，特別是某些屬性缺失值的元組。2)不正確數據的出現(xiàn)原因有：收集數據的設備出現(xiàn)故障、人為或計算機內部錯誤在數據輸入時出現(xiàn)、數據傳輸中的錯誤也可能出現(xiàn)、出于個人隱私考慮，用戶故意向強制輸入字段輸入不正確的信息。3)不一致數據，如命名約定或所用的數據代碼不一致、輸入字段（如日期）的格式不一致等。4)時效性：數據更新不及時對數據質量產生負面影響。5)可信性反映了有多少數據是用戶信賴的。6)可解釋性反映了數據是否容易被理解。以上因素影響數據質量，低質量的數據將導致低質量的挖掘效果，因此需要對數據進行預處理。5.試給出幾種對數據缺失值的處理方法。對缺失值的處理一般是想方設法的把他補充上或者干脆棄之不用，一般的處理方法有以下幾種：（1）忽略元組。通常當在缺少類標號時，通過這樣的方法來填補缺失值。除非元組有多個屬性缺少值，否則該方法的有效性不高，而且大量有價值的數據有可能被忽略。（2）人工填寫缺失值。由于用戶自己最了解關于自己的數據，因此，這個方法產生數據偏離的問題最小，但該方法十分費時，尤其是當數據集很大、存在很多缺失值時，靠人工填寫的方法不具備實際的可操作性。（3）使用一個全局常量填充缺失值。該方法是將缺失的屬性值用同一個常數進行替換，如"Unkown”。這種方法雖然簡單，但可用性較差。由于此方法大量采用同一屬性值，又可能會誤導挖掘程序得出有偏差甚至錯誤的結論，因此，也要謹慎使用。（4）使用屬性的中心度量（如均值或中位數）填充缺失值：均值和中位數從不同角度反映了數據的某些統(tǒng)計特征，例如，對于對稱分布的數據而言，缺失的數據與均值的偏差期望是最小的，因此用均值補充缺失值可以在最大限度上控制人工添加的值對數據整體特征的影響。（5）使用與給定元組屬同一類的所有樣本的屬性均值或中位數：例如，如果將顧客按信用風險分類，并假設顧客收入的數據分布是對稱的，則將具有相同信用風險顧客的平均收入替代數據庫列表中收入income列的缺失值；如果顧客收入的數據分布是傾斜的，則中位數是更好的選擇。（6）使用最可能的值填充缺失值?？梢杂没貧w、使用貝葉斯形式化的基于推理的工具或決策樹歸納確定。例如，利用數據集中其他客戶顧客的屬性，可以構造一棵決策樹來預測家庭月總收入的缺失值。6.大數據預處理技術都有哪些？并做簡要描述。主流數據預處理技術：數據清洗、數據集成、數據變換、數據規(guī)約1.數據清洗。數據清洗過程主要包括數據的缺省值處理、噪聲數據處理、數據不一致處理。2.數據集成。數據集成過程是將多個數據源中的數據合并存放到一個一致的數據存儲（如數據倉庫）中。其中數據源可以包含多個數據庫、數據立方體或一般文件。數據集成需要考慮諸多問題，如數據集成中對象匹配問題、冗余問題和數據值的沖突檢測與處理問題。3.數據變換。數據變換是把原始數據轉化為適合于數據挖掘的數據形式。數據轉換主要包括光滑、聚集、數據泛化、數據規(guī)范化和新屬性構造。4.數據規(guī)約。數據歸約得到數據集的簡化表示，它小得多，但能夠產生同樣的（或幾乎同樣的）分析結果。數據歸約是指在盡可能保持數據原貌的前提下，最大限度地精簡數據量保持數據的原始狀態(tài)。有許多數據歸約策略，包括數據聚集（例如建立數據立方體）、屬性子集選擇（例如通過相關分析去掉不相關的屬性）、維度歸約（例如使用諸如最小長度編碼或小波等編碼方案）和數據數值歸約（例如使用聚類或參數模型等較小的表示“替換"數據）、數據離散化。7.簡述數據集成過程應考慮哪些問題及如何解決。數據集成需要考慮諸多問題，如數據集成中對象匹配問題、冗余問題和數據值的沖突檢測與處理問題。（1）對象匹配：模式集成和對象匹配涉及到實體識別問題。例如，如何才能確定一個數據庫中的customer_id和另一個數據庫中的cust_number指的是相同屬性？在集成期間，當一個數據庫的屬性與另一個數據庫的屬性匹配時，必須特別注意數據的結構。這旨在確保源系統(tǒng)中的函數依賴和參照約束與目標系統(tǒng)中的匹配。（2）冗余：一個屬性如果能由另一個或一組屬性導出，則這個屬性可能是冗余的。有些冗余可以被相關分析檢測到。對于數值屬性，可以使用相關系數（CorrelationCoefficient）和協(xié)方差（Covariance）來評估一個屬性的值如何隨另一個屬性變化。（3）數據值的沖突檢測與處理：對于來自同一個世界的某一實體，在不同的數據庫中可能有不同的屬性值。例如：某一表示長度的屬性在不同數據庫中分別用“厘米”和“分米”表示。檢測到這類數據值沖突后，可以根據需要修改某一數據庫的屬性值以使來自不同的數據庫中但為同一實體的屬性值統(tǒng)一起來。8.簡述大數據面臨存儲的問題與挑戰(zhàn)。隨著結構化數據和非結構化數據數量的不斷增長，以及分析數據來源的多樣化，之前的存儲系統(tǒng)設計已經無法滿足大數據應用的需求。對于大數據的存儲，存在以下問題和挑戰(zhàn)：1.容量問題：大數據通?？蛇_到pb級的數據規(guī)模，因此大數據存儲系統(tǒng)需要達到相應等級的擴展能力。2.延遲問題：大數據應用還存在實時性的問題，很多大數據應用環(huán)境，如涉及網上交易或者金融類相關的應用，都需要較高的每秒進行讀寫操作的次數3.安全問題：某些特殊行業(yè)的應用，例如金融數據、醫(yī)療信息以及政府情報等又都自己的安全標準和保密性需求4.成本問題對于使用大數據環(huán)境的企業(yè)，成本控制是關鍵問題5.數據的積累，需要基于大數據的應用要求較長的數據保存時間，為了實現(xiàn)長期的數據保存，需要存儲廠商開發(fā)出能持續(xù)進行數據一致性檢測、備份和容災等保證長期高可用性的技術6.靈活性大數據存儲系統(tǒng)的基礎設置規(guī)模龐大，保證存儲系統(tǒng)的靈活性和擴展性是一大挑戰(zhàn)。為了應對大數據對存儲系統(tǒng)的挑戰(zhàn)，數據存儲領域的工作者通過不懈努力提升數據存儲系統(tǒng)的能力，主要提升有3個方面：提升系統(tǒng)的存儲容量、提升系統(tǒng)的吞吐量、系統(tǒng)的容錯性等。9.簡述傳統(tǒng)存儲系統(tǒng)架構分類經過多年發(fā)展，存儲系統(tǒng)架構由早期的DAS（Direct-AttachedStorage，直連式存儲）發(fā)展到NAS（Network-AttachedStorage，網絡附加存儲）和SAN（StorageAreaNetwork，存儲區(qū)域網絡），現(xiàn)在已經進入到云存儲階段。1.直連式存儲（DirectAttachedStorage，DAS）是最早出現(xiàn)的最直接的擴展數據存儲模式，即與普通的PC架構一樣，存儲設備與主機系統(tǒng)直接相連，掛接在服務器內部總線上。2.網絡附加存儲（NetworkAttachedStorage，NAS）是一種采用直接與網絡介質相連的特殊設備實現(xiàn)數據存儲的模式。3.存儲區(qū)域網絡（StorageAreaNetwork，SAN）指存儲設備相互連接并與服務器群相連而成網絡，創(chuàng)造了存儲的網絡化。通過專用高速網將一個或多個網絡存儲設備和服務器連接起來的專用存儲系統(tǒng)，數據處理服務器上的操作系統(tǒng)可以像訪問本地盤數據一樣對這些存儲設備進行高速訪問。10.云存儲技術具有哪些特點？并加以解釋云存儲技術具有以下特點（1)可靠性。云存儲通過增加冗余度提高存儲的可靠性。但是增加可靠性受到可靠性原理、成本及性能等方面的制約，因此在在保證可靠性的同時，提高系統(tǒng)的整體運行效率是當前一個亟待解決問題。（2）可用性。企業(yè)需要全天候地為世界不同地區(qū)的用戶提供服務支持，因此可用性至關重要。對于云存儲平臺，冗余的架構部分可以減少停機風險。同時，多路徑、控制器、不同的光纖網、RAID技術、端到端的架構控制/監(jiān)控和成熟的變更管理過程等方案均可提高云存儲可用性。（3）安全性。云存儲服務間傳輸以及保存的數據都有被截取或篡改的隱患，因此當服務通過云交付時，數據分片混淆存儲和數據加密傳輸成為了實現(xiàn)用戶數據私密性和保證安全性的重要手段。（4）動態(tài)伸縮性。指的是讀/寫性能和存儲容易的擴展與縮減。一個設計優(yōu)良的云存儲系統(tǒng)可以在系統(tǒng)運行過程中簡單地通過添加或移除節(jié)點來自由擴展和縮減，這些操作對用戶來說是透明的。（5）低成本。云存儲可以降低企業(yè)級存儲成本，包括購置存儲的成本、驅動存儲的成本、修復存儲的成本及管理存儲的成本。11.云存儲架構分哪些層次，各層實現(xiàn)了什么功能？云存儲是一個由網絡設備、存儲設備、服務器、應用軟件、公用訪問接口、接入網和客戶端程序等組成的復雜系統(tǒng)。以存儲設備為核心，通過應用軟件來對外提供數據存儲和業(yè)務訪問服務。云存儲的架構由上而下可以分為訪問層、應用接口層、基礎管理層和存儲層。1）存儲層：云存儲的最基礎部分。云存儲中的存儲設備通常分布在不同地域且數量非常龐大，通過互聯(lián)網、廣域網或FC光纖通道網絡把各個存儲設備連接在一起。統(tǒng)一存儲設備管理系統(tǒng)在存儲設備的上一層，它能夠完成多鏈路冗余管理，存儲設備的邏輯虛擬化管理以及硬件設備的狀態(tài)監(jiān)控與故障維護。2）基礎管理層：云存儲最核心最難以實現(xiàn)的部分，基礎管理層的主要功能是使云存儲中多個存儲設備之間可以協(xié)同工作，以便對外提供同一種服務，能夠提供更大、更好、更強的數據訪問性能，它所采用的技術主要有集群系統(tǒng)、分布式文件系統(tǒng)和網格計算等。為了保證云存儲中的數據不會被未授權的用戶所訪問，它還提供了CDN內容分發(fā)系統(tǒng)以及數據加密技術。同時，為了確保云存儲中的數據不丟失以及云存儲自身的安全和穩(wěn)定，它還采取了各種數據備份、數據容災技術和措施。3）應用接口層：云存儲中靈活性最好的部分，根據實際業(yè)務類型的不同，不同的云存儲運營單位開發(fā)的應用服務接口及提供的應用服務也不一樣。例如在線音樂播放應用平臺、網絡硬盤應用平臺、IPTV和視頻點播應用平臺、遠程教學應用平臺等。4）訪問層：用戶獲得云存儲系統(tǒng)的授權后，就可以通過標準的公用應用接口進行登錄并享受云存儲服務。云存儲提供的訪問類型和訪問手段會根據云存儲運營單位的不同而有所不同。12.存儲虛擬化技術有哪幾個實施層次，分別敘述這幾個層次的特點。根據不同的虛擬化實現(xiàn)位置，虛擬化還可以分為基于主機虛擬化、基于存儲設備虛擬化和基于存儲網絡虛擬化。1）基于主機虛擬化。基于主機的虛擬化存儲的核心技術是，通過增加一個運行在操作系統(tǒng)下的邏輯卷管理軟件將磁盤上的物理塊號映射成邏輯卷號，從而把多個物理磁盤陣列映射成一個統(tǒng)一的虛擬邏輯塊，來進行存儲虛擬化的控制和管理。2）基于存儲設備虛擬化?；诖鎯υO備虛擬化技術依賴于提供相關功能的存儲設備的陣列控制器模塊，常見于高端存儲設備，其主要應用針對異構的SAN存儲構架。3）基于存儲網絡虛擬化。基于存儲網絡虛擬化技術的核心是在存儲區(qū)域網中增加虛擬化引擎實現(xiàn)存儲資源的集中管理，其具體實施一般是通過具有虛擬化支持能力的路由器或交換機實現(xiàn)的。13.云存儲關鍵技術云存儲技術是多種技術的集合體，這些技術涉及硬件、軟件和網絡等計算機技術的各個方面，具有高可用性、高可靠性、高安全性和低成本等特征。1.存儲虛擬化。存儲虛擬化可以將系統(tǒng)中不同廠商、不同型號、不同通信技術、不同類型的存儲設備映射為一個統(tǒng)一的存儲資源池，屏蔽了存儲實體之間的物理位置及異構特征，從而對這些存儲資源進行統(tǒng)一分配管理。在虛擬化存儲環(huán)境中，服務器及應用系統(tǒng)面對的都是物理設備的邏輯映像，且不會隨物理設備的改變而變化，實現(xiàn)了資源對系統(tǒng)管理員的透明性，在降低構建存儲系統(tǒng)成本的同時使管理和維護資源變得容易。云存儲的虛擬化將存儲資源虛擬化為全局命名空間，并通過多租戶技術給使用者提供存儲資源，在此過程中，數據可以在存儲資源池中跨節(jié)點、跨數據中心流動。根據不同的虛擬化實現(xiàn)位置，虛擬化還可以分為基于主機虛擬化、基于存儲設備虛擬化和基于存儲網絡虛擬化。2.分布式存儲。（1）分布式塊存儲。塊存儲就是服務器直接通過讀寫存儲空間中的一個或一段地址來存取數據。（2）分布式對象存儲。對象存儲是為海量數據提供Key-Value這種通過鍵值查找數據文件的存儲模式；對象存儲引入對象元數據來描述對象特征，對象元數據具有豐富的語義；引入容器概念作為存儲對象的集合。對象存儲系統(tǒng)底層基于分布式存儲系統(tǒng)來實現(xiàn)數據的存取，其存儲方式對外部應用透明。這樣的存儲系統(tǒng)架構具有高可擴展性，支持數據的并發(fā)讀寫，一般不支持數據的隨機寫操作。（3）分布式文件系統(tǒng)。文件存儲系統(tǒng)可提供通用的文件訪問接口，如POSIX、NFS、CIFS、FTP等，實現(xiàn)文件與目錄操作、文件訪問、文件訪問控制等功能。目前的分布式文件系統(tǒng)存儲的實現(xiàn)有軟硬件一體和軟硬件分離兩種方式。主要通過NAS虛擬化，或者基于x86硬件集群和分布式文件系統(tǒng)集成在一起，以實現(xiàn)海量非結構化數據處理能力。3.數據縮減云存儲中的數據縮減技術，滿足了海量信息爆炸式增長趨勢，一定程度上節(jié)約企業(yè)存儲成本，提高效率。（1）自動精簡配置。自動精簡配置技術是利用虛擬化方法減少物理存儲空間的分配，最大限度提升存儲空間利用率。（2）自動存儲分層。自動存儲分層(AutomatedStorageTier'AST)技術主要用來幫助數據中心最大限度地降低成本和復雜性。（3）重復數據刪除?！爸貜蛣h除”技術（De-duplication）作為一種數據縮減技術可對存儲容量進行優(yōu)化。它通過刪除數據集中重復的數據，只保留其中一份，從而消除冗余數據。4.負載均衡。龐大的數據量必然會用來支持海量的請求，云存儲一個典型特點就是實現(xiàn)這些請求在系統(tǒng)內部的負載均衡。在傳統(tǒng)的負載均衡中，處于網絡邊緣的設備將來自不同地址的請求均勻地、最優(yōu)化地發(fā)送到各個承載設備上。而在云存儲中，除了在網絡邊緣實現(xiàn)DNS動態(tài)均勻解析的負載均衡設備，還有在系統(tǒng)內部的負載均衡機制，即在節(jié)點資源之間的負載均衡。14.NoSQL普遍采用的技術NoSQL系統(tǒng)普遍采用的一些技術有以下幾種。（1）簡單數據模型。不同于分布式數據庫，大多數NoSQL系統(tǒng)采用更加簡單的數據模型.（2）元數據和應用數據的分離。NoSQL數據管理系統(tǒng)需要維護兩種數據：元數據和應用數據。元數據是用于系統(tǒng)管理的，如數據分區(qū)到集群中節(jié)點和副本的映射數據。應用數據就是用戶存儲在系統(tǒng)中的商業(yè)數據。（3）弱一致性。NoSQL系統(tǒng)通過復制應用數據來達到一致性。這種設計使得更新數據時副本同步的開銷很大，為了減少這種同步開銷，弱一致性模型如最終一致性和時間軸一致性得到廣泛應用。15.請分析相比于關系型數據庫，NoSQL數據存儲管理系統(tǒng)的主要優(yōu)勢與劣勢。相對于關系型數據庫，NoSQL數據存儲管理系統(tǒng)的主要優(yōu)勢有以下幾方面。（1）避免不必要的復雜性。關系型數據庫提供各種各樣的特性和強一致性，但是許多特性只能在某些特定的應用中使用，大部分功能很少被使用。NoSQL系統(tǒng)則提供較少的功能來提高性能。（2）高吞吐量。一些NoSQL數據系統(tǒng)的吞吐量比傳統(tǒng)關系數據管理系統(tǒng)要高很多，如Google使用MapReduce每天可處理20PB存儲在Bigtable中的數據。（3）高水平擴展能力和低端硬件集群。NoSQL數據系統(tǒng)能夠很好地進行水平擴展，與關系型數據庫集群方法不同，這種擴展不需要很大的代價。而基于低端硬件的設計理念為采用NoSQL數據系統(tǒng)的用戶節(jié)省了很多硬件上的開銷。（4）避免了昂貴的對象-關系映射。許多NoSQL系統(tǒng)能夠存儲數據對象，這就避免了數據庫中關系模型和程序中對象模型相互轉化的代價。雖然NoSQL數據庫提供了高擴展性和靈活性，但是它也有自己的缺點，主要有以下幾方面．（1)數據模型和查詢語言未經數學驗證。SQL這種基于關系代數和關系演算的查詢結構有著堅實的數學保證，即使一個結構化的查詢本身很復雜，但是它能夠獲取滿足條件的所有數據．由于NoSQL系統(tǒng)都沒有使用SQL,而使用SQL的一些模型還未有完善的數學基礎。這也是NoSQL系統(tǒng)較為混亂的主要原因之一（2）不支持ACID特性。這為NoSQL帶來優(yōu)勢的同時也是其缺點，畢竟事務在很多場合下還是需要的，ACID特性使系統(tǒng)在中斷的情況下也能夠保證在線事務能夠準確執(zhí)行。（3）功能簡單。大多數NoSQL系統(tǒng)提供的功能都比較簡單，這就增加了應用層的負擔，例如，如果在應用層實現(xiàn)ACID特性，那么編與代碼的程序員一定非常痛苦。（4）沒有統(tǒng)一的查詢模型。NOSQL系統(tǒng)一般提供不同查詢模型，這一定限度上增加了開發(fā)者的負擔。16.數據倉庫有哪些特點？并做簡要描述。（1）數據倉庫中的數據是面向主題組織的。數據倉庫是按照面向主題的方式進行數據組織的，也就是在較高層次上對分析對象的數據作個完整、一致的描述，能有效地刻畫出分析對象所涉及的各項數據及數據間的聯(lián)系。這種數據組織方式更能適合較高層次的數據分析，便于發(fā)現(xiàn)數據中蘊含的模式和規(guī)律。主題通常是在一個較高層次上將數據歸類的標準，每個主題對應一個宏觀分析領域。（2）數據倉庫的數據是集成的。數據倉庫中每一主題對應的源數據在原有的各分散數據庫中可能是重復出現(xiàn)的、不一致的，數據倉庫中的數據不能從原有的數據庫系統(tǒng)中直接得到。事務處理系統(tǒng)中的操作型數據在進入數據倉庫之前，必須經過統(tǒng)一和綜合，演變?yōu)榉治鲂蛿祿?。?）數據倉庫的數據是穩(wěn)定的。數據倉庫中存放的是供分析決策用的歷史數據，而不是聯(lián)機事務處理的當前數據，涉及的數據操作主要是數據查詢，一般不進行數據的增、刪、改操作，業(yè)務系統(tǒng)中的數據經集成進入數據倉庫之后極少或根本不再更新。如果對數據倉庫中的數據進行了修改，就失去了統(tǒng)計分析正確性的基礎一一數據的真實性。（4）數據倉庫的數據是隨時間不斷變化的。數據倉庫中的數據不是永遠不變的。數據倉庫數據是隨時間變化的，數據倉庫系統(tǒng)需要不斷獲取聯(lián)機事務處理系統(tǒng)不同時刻的數據，經集成后追加到數據倉庫中，因此數據倉庫中數據的碼（鍵）都包含時間項，以表明數據的歷史時期，并可在時間維度上對數據進行分析。此外，數據倉庫中的數據也有時間期限，在新數據不斷進入的同時，過時的數據也要從數據倉庫中排除出去。17.簡述數據倉庫與數據庫的區(qū)別。數據倉庫是在數據庫的基礎上發(fā)展起來的，數據倉庫把數據從各個信息源中提取出來后，依照數據倉庫使用的公共數據模型，進行相應變換后與倉庫中現(xiàn)有數據集成在一起。在數據倉庫中，數據可以被直接訪問，查詢和分析處理速度很快。數據倉庫的特點決定了它與傳統(tǒng)的數據庫系統(tǒng)之間必然存在很大的差異。二者之間的區(qū)別主要體現(xiàn)在以下幾個方面。（1）數據庫中存儲的都是當前使用的值，而數據倉庫中的數據都是一些歷史的、存檔的、歸納的、計算的數據。（2）數據庫的數據主要是面向業(yè)務操作程序的，可以重復處理，主要是用來進行事務處理的。而數據倉庫卻是面向主題，主要是用來分析應用的。（3）數據庫的數據結構是高度結構化的，比較復雜，適用于操作計算。而數據倉庫的數據卻比較簡單，適用于分析處理。（4）數據庫中的數據使用頻率是很高的。數據倉庫中的數據則不是很高。（5）通常對數據庫中事務的訪問，只需要訪問少量的記錄數據。而對數據倉庫中事務的訪問就可能需要訪問大量的記錄。（6）對數據的響應時間一般要求比較高，通常是以秒為單位。而對數據倉庫的響應時間要求則較低，通常比較長。18.云計算有哪些特點？并做簡要描述。云計算的特點如下：（1）超大規(guī)模。“云”具有相當大的規(guī)模，Google云計算己經擁有上百萬臺服務器；Amazon、IBM、Microsoft、Yahoo等公司的“云”均擁有幾十萬臺服務器；一般企業(yè)私有云則可擁有數百上千臺服務器?！霸啤蹦苜x予用戶前所未有的計算能力。（2）高可靠性。分布式數據中心可將云端的用戶信息備份到地理上相互隔離的數據庫主機中，甚至連用戶自己也無法判斷信息的確切備份地點。該特點不僅提供了數據恢復的依據，也使得網絡病毒和網絡黑客的攻擊因為失去目的性而變成徒勞，大大提高系統(tǒng)的安全性和容災能力。（3）虛擬化。云計算支持用戶在任意位置、使用各種終端獲取應用服務。所請求的資源來自“云”，而非固定的有形的實體。應用在“云”中某處運行，但用戶無需了解，也不用擔心應用運行的具體位置。（4）高擴展性。目前主流的云計算平臺均根據SPI架構，構建在各層集成功能各異的軟硬件設備和中間件軟件。大量中間件軟件和設備提供針對該平臺的通用接口，允許用戶添加本層的擴展設備。部分云與云之間提供對應接口，允許用戶在不同云之間進行數據遷移。類似功能更大程度上滿足了用戶需求，集成了計算資源，是未來云計算的發(fā)展方向之一（5）按需服務?！霸啤笔且粋€龐大的資源池，可以像自來水、電、煤氣那樣計費，并按需購買。（6）極其廉價。“云”的特殊容錯措施可以采用極其廉價的節(jié)點來構成云。“云”的自動化集中式管理，使大量企業(yè)無需負擔日益高昂的數據中心管理成本，“云”的通用性使資源的利用率較之傳統(tǒng)系統(tǒng)大幅提升，因此用戶可以充分享受“云”的低成本優(yōu)勢。19.簡述云計算的體系架構分層及每層的含義。云計算可以按需提供彈性資源，它的表現(xiàn)形式是一系列服務的集合。結合當前云計算的應用與研究，其體系架構可分為核心服務、服務管理、用戶訪問接口三層。1）核心服務層將硬件基礎設施、軟件運行環(huán)境、應用程序抽象成服務，這些服務具有可靠性強、可用性高、規(guī)?？缮炜s等特點，滿足多樣化的應用需求。2）服務管理層為核心服務提供支持，進一步確保核心服務的可靠性、可用性與安全性。3）用戶訪問接口層實現(xiàn)端到云的訪問。20.簡述云計算的核心服務模型。IaaS、PaaS、SaaS是云計算的三種服務模型?；A設施即服務（IaaS）：消費者通過Internet可以從完善的計算機基礎設施獲得服務。平臺即服務（PaaS）：PaaS實際上是指將軟件研發(fā)的平臺作為一種服務，以SaaS的模式提交給用戶。軟件即服務（SaaS）：軟件即服務。它是一種通過Internet提供軟件的模式，用戶無需購買軟件，而是向提供商租用基于Web的軟件，來管理企業(yè)經營活動。21.試對MapReduce編程模型原理進行描述。MapReduce編程模型結合用戶實現(xiàn)的Map和Reduce函數，可完成大規(guī)模地并行化計算。MapReduce編程模型的原理是：用戶自定義的Map函數處理一個輸入的基于key-valuepair的集合，輸出中間基于key-valuepair的集合，MapReduce庫把中間所有具有相同key值的value值集合在一起后傳遞給Reduce函數，用戶自定義的Reduce函數合并所有具有相同key值的value值，形成一個較小value值的集合。22.請寫出MapReduce程序的執(zhí)行過程。MapReduce執(zhí)行過程主要包括以下幾方面。（1）將輸入的海量數據切片分給不同的機器處理。（2）執(zhí)行Map任務的Worker將輸入數據解析成key-valuepair，用戶定義的Map函數把輸入的key-valuepair轉成中間形式的key-valuepair。（3）按照key值對中間形式的key-value進行排序、聚合。（4）把不同的key值和相應的value集分配給不同的機器，完成Reduce運算。（5）輸出Reduce結果。23.簡述HDFS集群的構成及各部分的功能。一個HDFS集群由一個名字節(jié)點(NameNode)和若干個數據節(jié)點(DataNode)構成。此外，還有與這兩個角色之間作為溝通橋梁的客戶端(Client)。名字節(jié)點是一個中心服務器，負責管理文件系統(tǒng)的命名空間(Namespace)以及客戶端對文件的訪問。集群中的數據節(jié)點，一般是一個節(jié)點上有一個，負責管理它所在節(jié)點上的存儲。HDFS對外公開文件系統(tǒng)的名字空間，用戶能夠以文件的形式在上面存儲數據。從內部看，一個文件其實被分成一個或多個數據塊（Block），這些塊存儲在一組數據節(jié)點上。名字節(jié)點執(zhí)行文件系統(tǒng)的名字空間操作，例如，打開、關閉、重命名文件或目錄，它也負責確定數據塊到具體數據節(jié)點的映射。數據節(jié)點負責處理文件系統(tǒng)客戶端的讀寫請求，在名字節(jié)點的統(tǒng)一調度下進行數據塊的創(chuàng)建、刪除和復制。Client代表用戶通過與NameNode和DataNode來交互訪問整個文件系統(tǒng)。因為Client提供了一些文件系統(tǒng)接口，所以在編寫程序的時候，不用知道DataNode和NameNode的內部詳細情況，就可以編寫程序進行操作，實現(xiàn)所需的功能。24.簡述Spark對比Hadoop的優(yōu)勢Spark作為現(xiàn)今最流行的分布式云平臺技術，對比Hadoop云平臺技術來說，可以總結出以下優(yōu)勢。（1）內存管理中間結果。MapReduce作為Hadoop的核心編程模型，將處理后的中間結果輸出并存儲到磁盤上，依賴HDFS文件系統(tǒng)存儲每一個輸出的結果。spark運用內存緩存輸出的中間結果，便于提高中間結果再度使用的讀取效率。（2）優(yōu)化數據格式。Spark使用彈性分布式數據集(RDD)，這是一種分布式內存存儲結構，支持讀寫任意內存位置，運行時可以根據數據存放位置進行任務的調度，提高任務調度焦慮，支持數據批量轉換和創(chuàng)建相應的RDD。（3）優(yōu)化執(zhí)行策略。Spark支持基于哈希函數的分布式聚合，不需要針對Shuffle進行全量任務的排序，調度時使用DAG（有向無環(huán)圖），能夠在一定程度上減少MapReduce在任務排序上花費的大量時間，成為一個優(yōu)化的創(chuàng)新點。（4）提高任務調度速率。Spark啟動任務采用事件驅動模式，盡量復用線程，減少線程啟動和切換的時間開銷。Hadoop是以處理龐大數據為目的設計的，在處理略為小規(guī)模的數據會出現(xiàn)任務調度上時間開銷的增加。(5）通用性強。spark支持多語言（Scala，Java，Python）編程，支持多種數據形式（流式計算、機器學習、圖計算）的計算處理，通用性強且一定程度上方便研究人員對平臺代碼的復用和重寫。25.簡述大數據分析流程。1）發(fā)現(xiàn)和問題定義。學習業(yè)務領域知識,將業(yè)務問題轉化為分析挑戰(zhàn)。2）識別和設計數據需求。管理者根據決策和過程控制需求，提出對數據需求。3）收集和預處理數據。有目的收集數據，數據預處理。4）分析數據及建立模型。將收集的數據通過加工、整理和分析將其轉化為信息。5）溝通結果及過程改進。26.簡述Apriori算法的核心思想。Apriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法，算法有兩個關鍵步驟：一是發(fā)現(xiàn)所有的頻繁項集；二是生成強關聯(lián)規(guī)則。Apriori算法的核心思想如下：對于給定的一個數據庫和最小支持度閾值，首先對其進行掃描，找出所有的頻繁1-項集，該集合記作L1；然后得用L1找頻繁2-項集的集合L2，L2找L3，如此下去，直到不能再找到任何頻繁k-項集。最后在所有的頻繁集中提取出強規(guī)則，即產生用戶感興趣的關聯(lián)規(guī)則。27.簡述數據可視化的流程和步驟。數據可視化是對數據的綜合運用，其操作包括數據獲取、數據處理、可視化模式和可視化應用4個步驟。1）數據獲取數據獲取的形式多種多樣，大致可以分為主動式和被動式兩種。主動式獲取是以明確的數據需求為目的，利用相關技術手段主動采集相關數據，如衛(wèi)星影像、測繪工程等；被動式獲取是以數據平臺為基礎，由數據平臺的活動者提供數據來源，如電子商務網站、網絡論壇等。2）數據處理數據處理是指對原始的數據進行分析、預處理和計算等步驟。數據處理的目標是保證數據的準確性、可用性等。3）可視化模式可視化模式是數據的一種特殊展現(xiàn)形式，常見的可視化模式有標簽云、序列分析、網絡結構、電子地圖等。可視化模式的選取決定了可視化方案的雛形。4）可視化應用可視化應用主要根據用戶的主觀需求展開，最主要的應用方式是用來觀察和展示，通過觀察和人腦分析進行推理和認知，輔助人們發(fā)現(xiàn)新知識或者得到新結論?？梢暬缑嬉部梢詭椭藗冞M行人與數據的交互，輔助人們完成對數據的迭代計算，通過若干步，數據的計算實驗，生產系列化的可視化成果。28.請分析大數據未來的發(fā)展趨勢。1.大數據從概念化走向價值化2.大數據安全與隱私越來越重要3.大數據分析與可視化成為熱點4.數據的商品化和數據共享的聯(lián)盟化5.深度學習與大數據性能成為支撐性的技術6.數據科學的興起7.大數據產業(yè)成為一種戰(zhàn)略性產業(yè)8.大數據生態(tài)環(huán)境逐步完善9.大數據處理架構的多樣化模式并存19秋學期（1709、1803、1809、1903、1909）《大數據導論》在線作業(yè)-0002試卷總分:100得分:100一、單選題(共15道試題,共30分)1.用于描述相等時間間隔下連續(xù)數據隨時間變化趨勢的是()A.餅圖B.條形圖C.散點圖D.折線圖答案:D2.下列不屬于Google云計算平臺技術架構的是()A.結構化數據表BigTableB.彈性云計算EC2C.并行數據處理MapReduceD.分布式鎖Chubby答案:B3.用于描述數據分散情況的是()A.餅圖B.箱式圖C.折線圖D.分布圖答案:B4.SAN是一種()A.存儲設備B.光纖交換機C.專為數據存儲而設計構建的網絡D.HBA答案:C5.IaaS是()的簡稱A.軟件即服務B.硬件即服務C.平臺即服務D.基礎設施即服務答案:D6.醫(yī)療健康數據的基本情況不包括以下哪項?A.診療數據B.公共安全數據C.健康檔案數據D.個人健康管理數據答案:B7.數據清洗的方法不包括A.重復數據記錄處理B.缺失值處理C.噪聲數據清除D.一致性檢查答案:A8.下列哪個R語言擴展包可以制作一系列的圖像并將它們串聯(lián)起來做成動畫()A.networkB.ggplot2C.ggmapsD.animation答案:D9.基礎設施即服務的英文簡稱是A.SaaSB.PaaSC.IaaS答案:C10.下面哪一項不是中國發(fā)展大數據產業(yè)的基礎()。A.大數據技術創(chuàng)新取得明顯突破B.大數據應用推動勢頭良好C.大數據產業(yè)支撐薄弱D.信息化積累了豐富的數據資源答案:C11.()是MicrosoftOffice的核心組件A.WORDB.SQLC.PPTD.EXCEL答案:D12.數據產生方式變革中數據產生方式是自動的主要是來自哪個階段()。A.運營式系統(tǒng)階段B.用戶原創(chuàng)內容階段C.感知式系統(tǒng)階段答案:C13.PaaS是()的簡稱A.軟件即服務B.硬件即服務C.平臺即服務D.基礎設施即服務答案:C14.下列不屬于商業(yè)大數據類型的是A.社交數據B.電子商務數據C.機器和傳感器數據D.傳統(tǒng)企業(yè)數據答案:C15.以下不是數據倉庫基本特征的是()A.數據倉庫的數據是相對穩(wěn)定的B.數據倉庫的數據是反映歷史變化的C.數據倉庫是

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數據導論(南開大學2021)

文檔簡介

溫馨提示

最新文檔

評論

大數據導論(南開大學2021)

文檔簡介

溫馨提示

最新文檔

評論

相關文檔