大數(shù)據(jù)課堂測(cè)驗(yàn)

上傳人：b*** IP屬地：江西上傳時(shí)間：2022-09-05 格式：DOC 頁數(shù)：9 大?。?83.23KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、PAGE PAGE 8 第頁（共9頁）中國醫(yī)科大學(xué)2012 -2013學(xué)年第2學(xué)期期末考試PAGE 1第頁（共頁）中國醫(yī)科大學(xué)試卷紙簡(jiǎn)述大數(shù)據(jù)的來源與數(shù)據(jù)類型大數(shù)據(jù)的來源非常多，如信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)等，其數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。2、大數(shù)據(jù)產(chǎn)生的三個(gè)階段（1）被動(dòng)式生成數(shù)據(jù)（2）主動(dòng)式生成數(shù)據(jù)感知式生成數(shù)據(jù)3、大數(shù)據(jù)處理的基本流程1數(shù)據(jù)抽取與集成2數(shù)據(jù)分析3數(shù)據(jù)解釋4、大數(shù)據(jù)的特征 4V1O Volume，Variety，Value，Velocity，On-Line5、適合大數(shù)據(jù)的四層堆棧式技術(shù)架構(gòu)6、大數(shù)據(jù)的整體技術(shù)和關(guān)鍵技術(shù)

2、大數(shù)據(jù)的整體技術(shù)一般包括：數(shù)據(jù)采集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模型預(yù)測(cè)和結(jié)果呈現(xiàn)等。大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括：大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用（大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等）。7、新一代數(shù)據(jù)體系的分類新一代數(shù)據(jù)體系中，將傳統(tǒng)數(shù)據(jù)體系中沒有考慮過的新數(shù)據(jù)源進(jìn)行歸納與分類，可將其歸納到線上行為數(shù)據(jù)與內(nèi)容數(shù)據(jù)兩大類別。8、EDC系統(tǒng)的定義臨床試驗(yàn)電子數(shù)據(jù)采集（Electric Data Capture，EDC）系統(tǒng)，在臨床試驗(yàn)中的應(yīng)用可以有效解決紙質(zhì)CRF存在的問題。EDC是通過互聯(lián)網(wǎng)從試驗(yàn)中心（Sites

3、）直接遠(yuǎn)程收集臨床試驗(yàn)數(shù)據(jù)的一種數(shù)據(jù)采集系統(tǒng)。9、EDC系統(tǒng)的基本功能數(shù)據(jù)錄入、數(shù)據(jù)導(dǎo)出、試驗(yàn)設(shè)計(jì)、編輯檢查、操作痕跡、系統(tǒng)安全、在線交流、醫(yī)學(xué)編碼和支持多語言。10、EDC系統(tǒng)的優(yōu)點(diǎn)（1）提高了臨床研究的效率，縮短了臨床研究周期（2）通過邏輯檢查提高了數(shù)據(jù)質(zhì)量（3）對(duì)研究質(zhì)量的監(jiān)測(cè)更加方便11、大數(shù)據(jù)采集的數(shù)據(jù)來源大數(shù)據(jù)的三大主要來源為商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)與傳感器數(shù)據(jù)。12、網(wǎng)絡(luò)數(shù)據(jù)采集和處理的四個(gè)主要模塊網(wǎng)絡(luò)爬蟲（Spider）、數(shù)據(jù)處理（Data Process）、URL隊(duì)列（URL Queue）和數(shù)據(jù)（Data）。13、大數(shù)據(jù)集成在大數(shù)據(jù)領(lǐng)域中，數(shù)據(jù)集成技術(shù)也是實(shí)現(xiàn)大數(shù)據(jù)方案的關(guān)鍵組件

4、。大數(shù)據(jù)中的集成是將大量不同類型的數(shù)據(jù)原封不動(dòng)的保存在原地，而將處理過程適當(dāng)?shù)姆峙浣o這些數(shù)據(jù)。這是一個(gè)并行處理的過程，當(dāng)在這些分布式數(shù)據(jù)上執(zhí)行請(qǐng)求后，需要整合并返回結(jié)果。14、數(shù)據(jù)集成時(shí)應(yīng)解決的問題數(shù)據(jù)集成時(shí)應(yīng)解決的問題包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)的遷移、組織內(nèi)部的數(shù)據(jù)移動(dòng)、從非結(jié)構(gòu)化數(shù)據(jù)中抽取信息和將數(shù)據(jù)處理移動(dòng)到數(shù)據(jù)端。15、網(wǎng)絡(luò)數(shù)據(jù)處理的四個(gè)模塊及主要功能分詞（Words Analyze）、排重（Content Deduplicate）、整合（Integrate）和數(shù)據(jù)，如圖2-17所示。這四個(gè)模塊的主要功能如下。1）分詞：對(duì)抓取到的網(wǎng)頁內(nèi)容進(jìn)行切詞處理。2）排重：對(duì)眾多的網(wǎng)頁內(nèi)容進(jìn)行排重。3）整

5、合：對(duì)不同來源的數(shù)據(jù)內(nèi)容進(jìn)行格式上的整合。4）數(shù)據(jù)：包含兩方面的數(shù)據(jù)，Spider Data和Dp Data。16、大數(shù)據(jù)建模概念大數(shù)據(jù)建模是為了理解事物而對(duì)事物做出的一種抽象，是對(duì)事物的一種無歧義的書面描述。17、大數(shù)據(jù)分析模式分類根據(jù)實(shí)時(shí)性，可分為在線分析和離線分析根據(jù)數(shù)據(jù)規(guī)模，可分為內(nèi)存級(jí)、BI級(jí)和海量級(jí)根據(jù)算法復(fù)雜度的分類18、大數(shù)據(jù)建模流程定義問題、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型建立、模型評(píng)估、模型更新與結(jié)果部署等。19、大數(shù)據(jù)建模應(yīng)遵循的規(guī)律以業(yè)務(wù)目標(biāo)作為實(shí)現(xiàn)目標(biāo)業(yè)務(wù)知識(shí)是每一步的核心做好數(shù)據(jù)預(yù)處理試驗(yàn)對(duì)尋找解決方案是必要的數(shù)據(jù)中總含有模式數(shù)據(jù)挖掘增大對(duì)業(yè)務(wù)的認(rèn)知預(yù)測(cè)提高了信息作用能力大

6、數(shù)據(jù)建模的價(jià)值不在于預(yù)測(cè)的準(zhǔn)確率模式因業(yè)務(wù)變化而變化20、數(shù)據(jù)可視化的概念數(shù)據(jù)可視化技術(shù)是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)，將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像，然后在屏幕上顯示出來，利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的交互處理的理論、方法和技術(shù)。21、數(shù)據(jù)可視化流程22、數(shù)據(jù)可視化工具的特性1）實(shí)時(shí)性2）簡(jiǎn)單操作3）更豐富的展現(xiàn)4）多種數(shù)據(jù)集成支持方式23、數(shù)據(jù)可視化在生物領(lǐng)域中的應(yīng)用測(cè)序數(shù)據(jù)可視化分子結(jié)構(gòu)數(shù)據(jù)可視化關(guān)系網(wǎng)絡(luò)可視化臨床數(shù)據(jù)可視化24、Hadoop優(yōu)點(diǎn)1）可擴(kuò)展（Scalable）2）低成本（Economical）3）高效率（Efficient）4）可靠（Reliable）25、Hado

7、op的核心模塊HDFS、MapReduce、Common及YARN，其中HDFS提供了海量數(shù)據(jù)的存儲(chǔ)，MapReduce提供了對(duì)數(shù)據(jù)的計(jì)算，Common為在通用硬件上搭建云計(jì)算環(huán)境提供基本的服務(wù)及接口，YARN可以控制整個(gè)集群并管理應(yīng)用程序向基礎(chǔ)計(jì)算資源的分配。26、YARN的基本設(shè)計(jì)思想將MapReduce中的JobTracker拆分成了兩個(gè)獨(dú)立的服務(wù)：一個(gè)全局的資源管理器ResourceManager和每個(gè)應(yīng)用程序特有的ApplicationMaster。其中ResourceManager負(fù)責(zé)整個(gè)系統(tǒng)的資源管理和分配，而ApplicationMaster則負(fù)責(zé)單個(gè)應(yīng)用程序的管理。27、Hi

8、veHive最早是由Facebook設(shè)計(jì)，基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供類SQL查詢功能。28、HBaseHBase即Hadoop Database，是一個(gè)分布式、面向列的開源數(shù)據(jù)庫。HBase主要用于需要隨機(jī)訪問、實(shí)時(shí)讀寫的大數(shù)據(jù)。29、AvroAvro是一個(gè)數(shù)據(jù)序列化系統(tǒng)。類似于其他序列化機(jī)制，Avro可以將數(shù)據(jù)結(jié)構(gòu)或者對(duì)象轉(zhuǎn)換成便于存儲(chǔ)和傳輸?shù)母袷?，其設(shè)計(jì)目標(biāo)是用于支持?jǐn)?shù)據(jù)密集型應(yīng)用，適合大規(guī)模數(shù)據(jù)的存儲(chǔ)與交換。30、ChukwaChukwa是開源的數(shù)據(jù)收集系統(tǒng)，用于監(jiān)控和分析大型分布式系統(tǒng)的數(shù)據(jù)。31、PigPig是一個(gè)對(duì)大型數(shù)據(jù)集

9、進(jìn)行分析和評(píng)估的平臺(tái)。32、Spark原理Spark是一個(gè)開源的通用并行分布式計(jì)算框架，由加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室開發(fā)，支持內(nèi)存計(jì)算、多迭代批量處理、流處理和圖計(jì)算等多種范式。Spark基于MapReduce算法實(shí)現(xiàn)的分布式計(jì)算，擁有MapReduce所具有的優(yōu)點(diǎn)；但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。33、Spark的優(yōu)點(diǎn)輕量級(jí)快速處理支持多語言支持復(fù)雜查詢實(shí)時(shí)的流處理可以與Hadoop數(shù)據(jù)整合34、HDFS的設(shè)計(jì)目標(biāo)高效的硬件響應(yīng)流式數(shù)據(jù)訪問大

10、規(guī)模數(shù)據(jù)集簡(jiǎn)單的一致性模型異構(gòu)軟硬件平臺(tái)間的可移植性35、HDFS架構(gòu)解釋下圖答案在P107-P10836、以一個(gè)文件File A（大小100MB）為例，說明HDFS的工作原理。讀操作流程寫操作流程答案在P109-P11137、HDFS的4類源代碼基礎(chǔ)包實(shí)體實(shí)現(xiàn)包應(yīng)用包WebHDFS相關(guān)包38、MapReduceMapReduce是一個(gè)針對(duì)大規(guī)模群組中海量數(shù)據(jù)處理的分布式編程模型。39、HDFS接口遠(yuǎn)程過程調(diào)用接口與客戶端相關(guān)接口HDFS各服務(wù)器間的接口40、HDFS和MapReduce的關(guān)系HDFS在集群上實(shí)現(xiàn)了分布式文件系統(tǒng)，MapReduce在集群上實(shí)現(xiàn)了分布式計(jì)算和任務(wù)處理。HDFS在

11、MapReduce任務(wù)處理過程中提供了對(duì)文件操作和存儲(chǔ)的支持。MapReduce在HDFS的基礎(chǔ)上實(shí)現(xiàn)任務(wù)的分發(fā)、跟蹤、執(zhí)行等工作，并收集結(jié)果。41、MapReduce技術(shù)特征易于使用良好的伸縮性大規(guī)模數(shù)據(jù)處理42、MapReduce工作機(jī)制答案在P116-P11743、MapReduce執(zhí)行流程Map（映射）和Reduce（化簡(jiǎn)）是它的主要思想，Map負(fù)責(zé)將數(shù)據(jù)打散，Reduce負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行聚集，用戶只需要實(shí)現(xiàn)Map和Reduce兩個(gè)接口，即可完成TB級(jí)數(shù)據(jù)的計(jì)算。向MapReduce框架提交一個(gè)計(jì)算作業(yè)時(shí)，它會(huì)首先進(jìn)行Split（分片），將File（文件）分配為多個(gè)數(shù)據(jù)片段，保證作業(yè)的并

12、行效率。然后Map把計(jì)算作業(yè)拆分成若干個(gè)Map任務(wù)，然后分配到不同的結(jié)點(diǎn)上去執(zhí)行，每一個(gè)Map任務(wù)處理輸入數(shù)據(jù)中的一部分。當(dāng)Map任務(wù)完成后，它會(huì)生成一些中間文件，把這些文件重新組織作為Reduce階段的輸入，該過程稱為Shuffle（洗牌），洗牌的操作一般包含本地化混合、分區(qū)、排序、復(fù)制及合并。Reduce任務(wù)的主要目標(biāo)就是把前面經(jīng)過洗牌的文件匯總到一起并輸出。44、CommonCommon為Hadoop的其他模塊提供了一些常用工具程序包，主要包括系統(tǒng)配置工具Configuration、遠(yuǎn)程過程調(diào)用RPC、序列化機(jī)制和Hadoop抽象文件系統(tǒng)FileSystem等。在通用硬件上搭建云計(jì)算環(huán)境

13、提供基本的服務(wù)，同時(shí)為軟件開發(fā)提供了API。45、大數(shù)據(jù)的一致性策略CAP，即一致性（Consistency）、可用性（Availability）和分區(qū)容錯(cuò)性（Partition Tolerance）46、大數(shù)據(jù)分區(qū)技術(shù)通過一定的規(guī)則將超大型表分割成若干小塊來分別處理。表進(jìn)行分區(qū)時(shí)需要使用分區(qū)鍵來標(biāo)志每一行屬于哪一個(gè)分區(qū)，分區(qū)鍵以列的形式保存在表中。47、幾種常見的數(shù)據(jù)分區(qū)算法范圍分區(qū)列表分區(qū)哈希分區(qū)48、分布式環(huán)境下的數(shù)據(jù)緩存技術(shù)特點(diǎn)高性能動(dòng)態(tài)擴(kuò)展性高可用性易用性49、NoSQL數(shù)據(jù)庫種類鍵值（Key-Value）存儲(chǔ)列存儲(chǔ)（Column-Oriented）文檔（Document-Orien

14、ted）存儲(chǔ)圖形存儲(chǔ)（Graph-Oriented）。50、四種類型NoSQL的特點(diǎn)及典型產(chǎn)品存儲(chǔ)類型特性典型工具鍵值存儲(chǔ)可以通過鍵快速查詢到值，值無需符合特定格式Redis列存儲(chǔ)可存儲(chǔ)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)，對(duì)某些列的高頻率查詢具有很好的I/O優(yōu)勢(shì)Bigtable、Hbase、Cassandra文檔存儲(chǔ)數(shù)據(jù)以文檔形式存儲(chǔ)，沒有固定格式CouchDB、MongoDB圖形存儲(chǔ)以圖形的形式存儲(chǔ)數(shù)據(jù)及數(shù)據(jù)之間的關(guān)系Neo4J51、BigtableBigtable是Google開發(fā)的一個(gè)分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)，運(yùn)用按列存儲(chǔ)數(shù)據(jù)的方法，是一個(gè)未開源的系統(tǒng)。52、Bigtable數(shù)據(jù)庫的架構(gòu)答案在

15、P135.53、Bigtable數(shù)據(jù)庫特點(diǎn)適合大規(guī)模海量數(shù)據(jù)，PB級(jí)數(shù)據(jù)。分布式、并發(fā)數(shù)據(jù)處理，效率極高。易于擴(kuò)展，支持動(dòng)態(tài)伸縮。適用于廉價(jià)設(shè)備。適合于讀操作，不適合寫操作。不適用于傳統(tǒng)關(guān)系型數(shù)據(jù)庫。62、醫(yī)學(xué)大數(shù)據(jù)的種類醫(yī)院醫(yī)療大數(shù)據(jù)區(qū)域衛(wèi)生信息平臺(tái)大數(shù)據(jù)基于大量人群的醫(yī)學(xué)研究或疾病監(jiān)測(cè)大數(shù)據(jù)自我量化大數(shù)據(jù)網(wǎng)絡(luò)大數(shù)據(jù)生物信息大數(shù)據(jù)63、大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘方法的區(qū)別傳統(tǒng)數(shù)據(jù)挖掘大數(shù)據(jù)挖掘樣本數(shù)量少量數(shù)據(jù)樣本分析與事物相關(guān)的所有數(shù)據(jù)，研究的樣本數(shù)量趨近于總體數(shù)量事物之間的關(guān)系遵循事物之間的因果關(guān)系尋找事物之間的相關(guān)關(guān)系追求的目標(biāo)追求絕對(duì)的準(zhǔn)確性追求效率和趨勢(shì)挖掘方式采集方法，內(nèi)容分類，采信標(biāo)準(zhǔn)等都已存在即有規(guī)則，方法論完整挖掘新鮮事物，還沒有形成清晰的方法、路徑及評(píng)判標(biāo)準(zhǔn)64、醫(yī)學(xué)大數(shù)據(jù)挖掘的特點(diǎn)隱私性多樣性不完整性冗余性動(dòng)態(tài)性65、醫(yī)學(xué)大數(shù)據(jù)挖掘的主要方法自動(dòng)疾病預(yù)測(cè)趨勢(shì)和行為關(guān)聯(lián)分析聚類分析模糊系統(tǒng)與進(jìn)化算法66、醫(yī)學(xué)大數(shù)據(jù)挖掘的應(yīng)用方向臨床決策支持系統(tǒng)醫(yī)療數(shù)據(jù)透明度醫(yī)學(xué)圖像挖掘生物信息學(xué)DNA分析公眾健康67、基于互聯(lián)網(wǎng)大數(shù)據(jù)生物監(jiān)測(cè)組成部分互聯(lián)網(wǎng)大數(shù)據(jù)的獲取、從海量數(shù)據(jù)中

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)課堂測(cè)驗(yàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)課堂測(cè)驗(yàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔