大數(shù)據(jù)課堂測驗(yàn)_第1頁
大數(shù)據(jù)課堂測驗(yàn)_第2頁
大數(shù)據(jù)課堂測驗(yàn)_第3頁
大數(shù)據(jù)課堂測驗(yàn)_第4頁
大數(shù)據(jù)課堂測驗(yàn)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、PAGE PAGE 8 第 頁(共9頁) 中國醫(yī)科大學(xué)2012 -2013學(xué)年第2學(xué)期期末考試PAGE 1第 頁(共頁)中國醫(yī)科大學(xué)試卷紙簡述大數(shù)據(jù)的來源與數(shù)據(jù)類型大數(shù)據(jù)的來源非常多,如信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)等,其數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。2、大數(shù)據(jù)產(chǎn)生的三個階段(1)被動式生成數(shù)據(jù)(2)主動式生成數(shù)據(jù)感知式生成數(shù)據(jù)3、大數(shù)據(jù)處理的基本流程1數(shù)據(jù)抽取與集成2數(shù)據(jù)分析3數(shù)據(jù)解釋4、大數(shù)據(jù)的特征 4V1O Volume,Variety,Value,Velocity,On-Line5、適合大數(shù)據(jù)的四層堆棧式技術(shù)架構(gòu)6、大數(shù)據(jù)的整體技術(shù)和關(guān)鍵技術(shù)

2、大數(shù)據(jù)的整體技術(shù)一般包括:數(shù)據(jù)采集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模型預(yù)測和結(jié)果呈現(xiàn)等。大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。7、新一代數(shù)據(jù)體系的分類新一代數(shù)據(jù)體系中,將傳統(tǒng)數(shù)據(jù)體系中沒有考慮過的新數(shù)據(jù)源進(jìn)行歸納與分類,可將其歸納到線上行為數(shù)據(jù)與內(nèi)容數(shù)據(jù)兩大類別。8、EDC系統(tǒng)的定義臨床試驗(yàn)電子數(shù)據(jù)采集(Electric Data Capture,EDC)系統(tǒng),在臨床試驗(yàn)中的應(yīng)用可以有效解決紙質(zhì)CRF存在的問題。EDC是通過互聯(lián)網(wǎng)從試驗(yàn)中心(Sites

3、)直接遠(yuǎn)程收集臨床試驗(yàn)數(shù)據(jù)的一種數(shù)據(jù)采集系統(tǒng)。9、EDC系統(tǒng)的基本功能數(shù)據(jù)錄入、數(shù)據(jù)導(dǎo)出、試驗(yàn)設(shè)計(jì)、編輯檢查、操作痕跡、系統(tǒng)安全、在線交流、醫(yī)學(xué)編碼和支持多語言。10、EDC系統(tǒng)的優(yōu)點(diǎn)(1)提高了臨床研究的效率,縮短了臨床研究周期(2)通過邏輯檢查提高了數(shù)據(jù)質(zhì)量(3)對研究質(zhì)量的監(jiān)測更加方便11、大數(shù)據(jù)采集的數(shù)據(jù)來源大數(shù)據(jù)的三大主要來源為商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)與傳感器數(shù)據(jù)。12、網(wǎng)絡(luò)數(shù)據(jù)采集和處理的四個主要模塊網(wǎng)絡(luò)爬蟲(Spider)、數(shù)據(jù)處理(Data Process)、URL隊(duì)列(URL Queue)和數(shù)據(jù)(Data)。13、大數(shù)據(jù)集成在大數(shù)據(jù)領(lǐng)域中,數(shù)據(jù)集成技術(shù)也是實(shí)現(xiàn)大數(shù)據(jù)方案的關(guān)鍵組件

4、。大數(shù)據(jù)中的集成是將大量不同類型的數(shù)據(jù)原封不動的保存在原地,而將處理過程適當(dāng)?shù)姆峙浣o這些數(shù)據(jù)。這是一個并行處理的過程,當(dāng)在這些分布式數(shù)據(jù)上執(zhí)行請求后,需要整合并返回結(jié)果。14、數(shù)據(jù)集成時應(yīng)解決的問題數(shù)據(jù)集成時應(yīng)解決的問題包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)的遷移、組織內(nèi)部的數(shù)據(jù)移動、從非結(jié)構(gòu)化數(shù)據(jù)中抽取信息和將數(shù)據(jù)處理移動到數(shù)據(jù)端。15、網(wǎng)絡(luò)數(shù)據(jù)處理的四個模塊及主要功能分詞(Words Analyze)、排重(Content Deduplicate)、整合(Integrate)和數(shù)據(jù),如圖2-17所示。這四個模塊的主要功能如下。1)分詞:對抓取到的網(wǎng)頁內(nèi)容進(jìn)行切詞處理。2)排重:對眾多的網(wǎng)頁內(nèi)容進(jìn)行排重。3)整

5、合:對不同來源的數(shù)據(jù)內(nèi)容進(jìn)行格式上的整合。4)數(shù)據(jù):包含兩方面的數(shù)據(jù),Spider Data和Dp Data。16、大數(shù)據(jù)建模概念大數(shù)據(jù)建模是為了理解事物而對事物做出的一種抽象,是對事物的一種無歧義的書面描述。17、大數(shù)據(jù)分析模式分類根據(jù)實(shí)時性,可分為在線分析和離線分析根據(jù)數(shù)據(jù)規(guī)模,可分為內(nèi)存級、BI級和海量級根據(jù)算法復(fù)雜度的分類18、大數(shù)據(jù)建模流程定義問題、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型建立、模型評估、模型更新與結(jié)果部署等。19、大數(shù)據(jù)建模應(yīng)遵循的規(guī)律以業(yè)務(wù)目標(biāo)作為實(shí)現(xiàn)目標(biāo)業(yè)務(wù)知識是每一步的核心做好數(shù)據(jù)預(yù)處理試驗(yàn)對尋找解決方案是必要的數(shù)據(jù)中總含有模式數(shù)據(jù)挖掘增大對業(yè)務(wù)的認(rèn)知預(yù)測提高了信息作用能力大

6、數(shù)據(jù)建模的價(jià)值不在于預(yù)測的準(zhǔn)確率模式因業(yè)務(wù)變化而變化20、數(shù)據(jù)可視化的概念數(shù)據(jù)可視化技術(shù)是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像,然后在屏幕上顯示出來,利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的交互處理的理論、方法和技術(shù)。21、數(shù)據(jù)可視化流程22、數(shù)據(jù)可視化工具的特性1)實(shí)時性2)簡單操作3)更豐富的展現(xiàn)4)多種數(shù)據(jù)集成支持方式23、數(shù)據(jù)可視化在生物領(lǐng)域中的應(yīng)用測序數(shù)據(jù)可視化分子結(jié)構(gòu)數(shù)據(jù)可視化關(guān)系網(wǎng)絡(luò)可視化臨床數(shù)據(jù)可視化24、Hadoop優(yōu)點(diǎn)1)可擴(kuò)展(Scalable)2)低成本(Economical)3)高效率(Efficient)4)可靠(Reliable)25、Hado

7、op的核心模塊HDFS、MapReduce、Common及YARN,其中HDFS提供了海量數(shù)據(jù)的存儲,MapReduce提供了對數(shù)據(jù)的計(jì)算,Common為在通用硬件上搭建云計(jì)算環(huán)境提供基本的服務(wù)及接口,YARN可以控制整個集群并管理應(yīng)用程序向基礎(chǔ)計(jì)算資源的分配。26、YARN的基本設(shè)計(jì)思想將MapReduce中的JobTracker拆分成了兩個獨(dú)立的服務(wù):一個全局的資源管理器ResourceManager和每個應(yīng)用程序特有的ApplicationMaster。其中ResourceManager負(fù)責(zé)整個系統(tǒng)的資源管理和分配,而ApplicationMaster則負(fù)責(zé)單個應(yīng)用程序的管理。27、Hi

8、veHive最早是由Facebook設(shè)計(jì),基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類SQL查詢功能。28、HBaseHBase即Hadoop Database,是一個分布式、面向列的開源數(shù)據(jù)庫。HBase主要用于需要隨機(jī)訪問、實(shí)時讀寫的大數(shù)據(jù)。29、AvroAvro是一個數(shù)據(jù)序列化系統(tǒng)。類似于其他序列化機(jī)制,Avro可以將數(shù)據(jù)結(jié)構(gòu)或者對象轉(zhuǎn)換成便于存儲和傳輸?shù)母袷?,其設(shè)計(jì)目標(biāo)是用于支持?jǐn)?shù)據(jù)密集型應(yīng)用,適合大規(guī)模數(shù)據(jù)的存儲與交換。30、ChukwaChukwa是開源的數(shù)據(jù)收集系統(tǒng),用于監(jiān)控和分析大型分布式系統(tǒng)的數(shù)據(jù)。31、PigPig是一個對大型數(shù)據(jù)集

9、進(jìn)行分析和評估的平臺。32、Spark原理Spark是一個開源的通用并行分布式計(jì)算框架,由加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室開發(fā),支持內(nèi)存計(jì)算、多迭代批量處理、流處理和圖計(jì)算等多種范式。Spark基于MapReduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。33、Spark的優(yōu)點(diǎn)輕量級快速處理支持多語言支持復(fù)雜查詢實(shí)時的流處理可以與Hadoop數(shù)據(jù)整合34、HDFS的設(shè)計(jì)目標(biāo)高效的硬件響應(yīng)流式數(shù)據(jù)訪問大

10、規(guī)模數(shù)據(jù)集簡單的一致性模型異構(gòu)軟硬件平臺間的可移植性35、HDFS架構(gòu)解釋下圖答案在P107-P10836、以一個文件File A(大小100MB)為例,說明HDFS的工作原理。讀操作流程寫操作流程答案在P109-P11137、HDFS的4類源代碼基礎(chǔ)包實(shí)體實(shí)現(xiàn)包應(yīng)用包WebHDFS相關(guān)包38、MapReduceMapReduce是一個針對大規(guī)模群組中海量數(shù)據(jù)處理的分布式編程模型。39、HDFS接口遠(yuǎn)程過程調(diào)用接口與客戶端相關(guān)接口HDFS各服務(wù)器間的接口40、HDFS和MapReduce的關(guān)系HDFS在集群上實(shí)現(xiàn)了分布式文件系統(tǒng),MapReduce在集群上實(shí)現(xiàn)了分布式計(jì)算和任務(wù)處理。HDFS在

11、MapReduce任務(wù)處理過程中提供了對文件操作和存儲的支持。MapReduce在HDFS的基礎(chǔ)上實(shí)現(xiàn)任務(wù)的分發(fā)、跟蹤、執(zhí)行等工作,并收集結(jié)果。41、MapReduce技術(shù)特征易于使用良好的伸縮性大規(guī)模數(shù)據(jù)處理42、MapReduce工作機(jī)制答案在P116-P11743、MapReduce執(zhí)行流程Map(映射)和Reduce(化簡)是它的主要思想,Map負(fù)責(zé)將數(shù)據(jù)打散,Reduce負(fù)責(zé)對數(shù)據(jù)進(jìn)行聚集,用戶只需要實(shí)現(xiàn)Map和Reduce兩個接口,即可完成TB級數(shù)據(jù)的計(jì)算。向MapReduce框架提交一個計(jì)算作業(yè)時,它會首先進(jìn)行Split(分片),將File(文件)分配為多個數(shù)據(jù)片段,保證作業(yè)的并

12、行效率。然后Map把計(jì)算作業(yè)拆分成若干個Map任務(wù),然后分配到不同的結(jié)點(diǎn)上去執(zhí)行,每一個Map任務(wù)處理輸入數(shù)據(jù)中的一部分。當(dāng)Map任務(wù)完成后,它會生成一些中間文件,把這些文件重新組織作為Reduce階段的輸入,該過程稱為Shuffle(洗牌),洗牌的操作一般包含本地化混合、分區(qū)、排序、復(fù)制及合并。Reduce任務(wù)的主要目標(biāo)就是把前面經(jīng)過洗牌的文件匯總到一起并輸出。44、CommonCommon為Hadoop的其他模塊提供了一些常用工具程序包,主要包括系統(tǒng)配置工具Configuration、遠(yuǎn)程過程調(diào)用RPC、序列化機(jī)制和Hadoop抽象文件系統(tǒng)FileSystem等。在通用硬件上搭建云計(jì)算環(huán)境

13、提供基本的服務(wù),同時為軟件開發(fā)提供了API。45、大數(shù)據(jù)的一致性策略CAP,即一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(Partition Tolerance)46、大數(shù)據(jù)分區(qū)技術(shù)通過一定的規(guī)則將超大型表分割成若干小塊來分別處理。表進(jìn)行分區(qū)時需要使用分區(qū)鍵來標(biāo)志每一行屬于哪一個分區(qū),分區(qū)鍵以列的形式保存在表中。47、幾種常見的數(shù)據(jù)分區(qū)算法范圍分區(qū)列表分區(qū)哈希分區(qū)48、分布式環(huán)境下的數(shù)據(jù)緩存技術(shù)特點(diǎn)高性能動態(tài)擴(kuò)展性高可用性易用性49、NoSQL數(shù)據(jù)庫種類鍵值(Key-Value)存儲列存儲(Column-Oriented)文檔(Document-Orien

14、ted)存儲圖形存儲(Graph-Oriented)。50、四種類型NoSQL的特點(diǎn)及典型產(chǎn)品存儲類型特 性典 型 工 具鍵值存儲可以通過鍵快速查詢到值,值無需符合特定格式Redis列存儲可存儲結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),對某些列的高頻率查詢具有很好的I/O優(yōu)勢Bigtable、Hbase、Cassandra文檔存儲數(shù)據(jù)以文檔形式存儲,沒有固定格式CouchDB、MongoDB圖形存儲以圖形的形式存儲數(shù)據(jù)及數(shù)據(jù)之間的關(guān)系Neo4J51、BigtableBigtable是Google開發(fā)的一個分布式結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng),運(yùn)用按列存儲數(shù)據(jù)的方法,是一個未開源的系統(tǒng)。52、Bigtable數(shù)據(jù)庫的架構(gòu)答案在

15、P135.53、Bigtable數(shù)據(jù)庫特點(diǎn)適合大規(guī)模海量數(shù)據(jù),PB級數(shù)據(jù)。分布式、并發(fā)數(shù)據(jù)處理,效率極高。易于擴(kuò)展,支持動態(tài)伸縮。適用于廉價(jià)設(shè)備。適合于讀操作,不適合寫操作。不適用于傳統(tǒng)關(guān)系型數(shù)據(jù)庫。62、醫(yī)學(xué)大數(shù)據(jù)的種類醫(yī)院醫(yī)療大數(shù)據(jù)區(qū)域衛(wèi)生信息平臺大數(shù)據(jù)基于大量人群的醫(yī)學(xué)研究或疾病監(jiān)測大數(shù)據(jù)自我量化大數(shù)據(jù)網(wǎng)絡(luò)大數(shù)據(jù)生物信息大數(shù)據(jù)63、大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘方法的區(qū)別傳統(tǒng)數(shù)據(jù)挖掘大數(shù)據(jù)挖掘樣本數(shù)量少量數(shù)據(jù)樣本分析與事物相關(guān)的所有數(shù)據(jù),研究的樣本數(shù)量趨近于總體數(shù)量事物之間的關(guān)系遵循事物之間的因果關(guān)系尋找事物之間的相關(guān)關(guān)系追求的目標(biāo)追求絕對的準(zhǔn)確性追求效率和趨勢挖掘方式采集方法,內(nèi)容分類,采信標(biāo)準(zhǔn)等都已存在即有規(guī)則,方法論完整挖掘新鮮事物,還沒有形成清晰的方法、路徑及評判標(biāo)準(zhǔn)64、醫(yī)學(xué)大數(shù)據(jù)挖掘的特點(diǎn)隱私性多樣性不完整性冗余性動態(tài)性65、醫(yī)學(xué)大數(shù)據(jù)挖掘的主要方法自動疾病預(yù)測趨勢和行為關(guān)聯(lián)分析聚類分析模糊系統(tǒng)與進(jìn)化算法66、醫(yī)學(xué)大數(shù)據(jù)挖掘的應(yīng)用方向臨床決策支持系統(tǒng)醫(yī)療數(shù)據(jù)透明度醫(yī)學(xué)圖像挖掘生物信息學(xué)DNA分析公眾健康67、基于互聯(lián)網(wǎng)大數(shù)據(jù)生物監(jiān)測組成部分 互聯(lián)網(wǎng)大數(shù)據(jù)的獲取、從海量數(shù)據(jù)中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論