4.2大數(shù)據(jù)處理 第2課時(shí)(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計(jì)算_第1頁(yè)
4.2大數(shù)據(jù)處理 第2課時(shí)(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計(jì)算_第2頁(yè)
4.2大數(shù)據(jù)處理 第2課時(shí)(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計(jì)算_第3頁(yè)
4.2大數(shù)據(jù)處理 第2課時(shí)(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計(jì)算_第4頁(yè)
4.2大數(shù)據(jù)處理 第2課時(shí)(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計(jì)算_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

4.2大數(shù)據(jù)處理第2課時(shí)(分層作業(yè))【夯實(shí)基礎(chǔ)】大數(shù)據(jù)的特征可以用被總結(jié)為4V特征,以下哪個(gè)不屬于大數(shù)據(jù)的4V特征()A.種類多(Variety) B.體量大(Volume)C.風(fēng)險(xiǎn)大(Venture) D.速度快(Velocity)下列數(shù)據(jù)處理中,不屬于文本數(shù)據(jù)處理的是()A.將中文翻譯成其他國(guó)家的文字B.輸入姓名、單位等信息,制作通訊錄C.檢測(cè)的論文內(nèi)容與對(duì)比庫(kù)中的資料進(jìn)行對(duì)比,檢測(cè)論文可信度D.解析大量合同文檔,有效監(jiān)控風(fēng)險(xiǎn)條款,節(jié)省人力和時(shí)間成本大數(shù)據(jù)領(lǐng)域中,為了提高數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)計(jì)算的復(fù)雜度、提升數(shù)據(jù)處理的準(zhǔn)確性。常用的技術(shù)是()A.預(yù)處理技術(shù) B.存儲(chǔ)技術(shù) C.管理技術(shù) D.挖掘技術(shù)數(shù)據(jù)處理的一般過(guò)程是()。A.采集—分析—整理—可視化表達(dá) B.采集—整理—可視化表達(dá)-分析C.采集—整理—分析-可視化表達(dá) D.采集—可視化表達(dá)—整理-分析

下列關(guān)于大數(shù)據(jù)的描述中,不正確的是()A.大數(shù)據(jù)專指Excel軟件收集、加工的數(shù)據(jù)B.物聯(lián)網(wǎng)、云計(jì)算、手機(jī)、電腦都是數(shù)據(jù)的來(lái)源C.互聯(lián)網(wǎng)生成的數(shù)據(jù)量正以爆發(fā)性的速度不斷增長(zhǎng)D.在科學(xué)實(shí)驗(yàn)中,各種傳感器每時(shí)每刻的速度不斷增長(zhǎng)下列關(guān)于大數(shù)據(jù)的說(shuō)法,正確的是()A.大數(shù)據(jù)要分析的是全體數(shù)據(jù),而不是抽樣數(shù)據(jù),且要求數(shù)據(jù)必須是精確無(wú)誤的B.處理大數(shù)據(jù)時(shí),一般采用分治思想C.處理大數(shù)據(jù)時(shí),更注重事物的因果關(guān)系而不是相關(guān)性D.實(shí)現(xiàn)對(duì)實(shí)時(shí)數(shù)據(jù)的獲取、傳輸和存儲(chǔ)可以采用分布式系統(tǒng)完成下列關(guān)于大數(shù)據(jù)處理的描述中,不正確的是()A.處理大數(shù)據(jù)時(shí),一般采用分治思想B.Hadoop是一個(gè)可運(yùn)行于大規(guī)模計(jì)算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于處理實(shí)時(shí)數(shù)據(jù)C.HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上,云盤、網(wǎng)盤的底層一般采用HDFS實(shí)現(xiàn)D.MapReduce是一種分布式并行編程模型,主要由Map(映射)和Reduce(歸納)2個(gè)函數(shù)構(gòu)成下列對(duì)大數(shù)據(jù)的理解錯(cuò)誤的是()。A.從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來(lái)看,大數(shù)據(jù)具有“4V”特征,分別是大量(Volume),多樣(Variety),低價(jià)值密度(Value),高速(Velocity)。B.從互聯(lián)網(wǎng)思維的角度來(lái)看,大數(shù)據(jù)具有三個(gè)特征:樣本漸趨于總體,精確讓位于模糊,相關(guān)性重于因果。C.從大數(shù)據(jù)存儲(chǔ)與計(jì)算的角度來(lái)看,大數(shù)據(jù)具有兩個(gè)特征:分布式存儲(chǔ)和分布式并行計(jì)算。D.以上都不對(duì)【鞏固提升】下列描述的場(chǎng)景與處理方法使用不恰當(dāng)?shù)氖?)A.分析前一年的高鐵客流數(shù)據(jù)優(yōu)化高鐵運(yùn)行采用批處理計(jì)算B.京東網(wǎng)雙12通過(guò)實(shí)時(shí)分析用戶行為實(shí)現(xiàn)商品的推薦采用流計(jì)算C.圖計(jì)算為騰訊超大規(guī)模社交網(wǎng)絡(luò)圖數(shù)據(jù)的各類計(jì)算提供支撐D.分析近五年的信息技術(shù)選考試卷梳理高頻考點(diǎn)采用流計(jì)算某超市曾經(jīng)研究銷售數(shù)據(jù),發(fā)現(xiàn)買商品A的人購(gòu)買商品B的概率很大,這種屬于數(shù)據(jù)的()A.聚類分析 B.關(guān)聯(lián)分析 C.分類分析 D.回歸分析下列數(shù)據(jù)處理中,不屬于文本數(shù)據(jù)處理的是()A.根據(jù)白名單和黑名單機(jī)制,進(jìn)行垃圾郵件的識(shí)別B.在線客服通過(guò)自動(dòng)應(yīng)答技術(shù)回答問(wèn)題C.實(shí)時(shí)監(jiān)測(cè)景區(qū)的人流數(shù)據(jù),控制過(guò)多的游客進(jìn)入景區(qū)D.分析消費(fèi)者的意見數(shù)據(jù),挖掘用戶觀點(diǎn),輔助運(yùn)營(yíng)決策居民身份證號(hào)碼可以反映出常住戶口所在地的行政區(qū)劃、出生日期和性別等信息,這主要體現(xiàn)了數(shù)據(jù)是()。計(jì)算工具識(shí)別、存儲(chǔ)和加工的對(duì)象 B.信息的載體 C.可處理的 D.可加工的【拓展應(yīng)用】(簡(jiǎn)答題)請(qǐng)寫出大數(shù)據(jù)處理流程四步驟。

近年來(lái),很多網(wǎng)絡(luò)平臺(tái)會(huì)在年底為用戶生成專屬的個(gè)人報(bào)表,顯示一年內(nèi)該用戶在該平臺(tái)上的各種使用行為數(shù)據(jù)。(1)這類個(gè)人報(bào)表是利用大數(shù)據(jù)技術(shù)收集用戶的個(gè)人行為數(shù)據(jù),并通過(guò)分類和計(jì)算獲得。由此可見()A.大數(shù)據(jù)采集的數(shù)據(jù)必須準(zhǔn)確無(wú)誤B.大數(shù)據(jù)的數(shù)據(jù)采集主要還是人工方式C.大數(shù)據(jù)分析的是抽樣數(shù)據(jù)D.大數(shù)據(jù)分析能發(fā)現(xiàn)數(shù)據(jù)間的相關(guān)性(2)某數(shù)據(jù)公司統(tǒng)計(jì)了2016-2020年全球每年產(chǎn)生的數(shù)據(jù)量及其增速,結(jié)果如圖。此統(tǒng)計(jì)主要采用的數(shù)據(jù)分析方法是(),使用了()和()兩種圖表來(lái)組合進(jìn)行可視化呈現(xiàn)。()A.聚類分析、餅圖、條形圖B.對(duì)比分析、折線圖、柱形圖C.結(jié)構(gòu)分析、餅圖、條形圖D.平均分析、折線圖、柱形圖(3)該網(wǎng)站可實(shí)現(xiàn)對(duì)數(shù)據(jù)的加密解密,界面如圖。該應(yīng)用服務(wù)架構(gòu)體系屬于()A.B/SB.P2PC.C/SD.B/C(4)此網(wǎng)站的加密功能是對(duì)輸入的明文(由字母、數(shù)字或其他字符組成的字符串)中的每個(gè)字符進(jìn)行處理。算法規(guī)則如下:①將明文中所有的小寫字母轉(zhuǎn)換為大寫字母,例如:a→A;②將明文中所有的數(shù)字加上1變成另一個(gè)數(shù)字,例如0→1,9→0;③明文中除了小寫字母和數(shù)字字符外均不進(jìn)行轉(zhuǎn)換;④將加密后的數(shù)據(jù)倒序輸出,例如“abc”→“cba”,即為該明文的密文。那么,明文為“An95”得到的密文為()A.59nAB.69nAC.60NAD.60nA(5)以上加密算法,如果用Python語(yǔ)言實(shí)現(xiàn),為方便處理,明文和密文一般都被抽象為()數(shù)據(jù)類型的數(shù)據(jù)。A.數(shù)值B.字符串C.列表D.元組參考答案:【夯實(shí)基礎(chǔ)】1.C【詳解】[詳解]:本題主要考查大數(shù)據(jù)特征。大數(shù)據(jù)的4V特征分別是Volume(大量性)、Velocity(高速性)、Variety(多樣性)、Value(價(jià)值性),故本題選C選項(xiàng)。2.B【詳解】本題考查的是文本數(shù)據(jù)處理。制作通訊錄的材料是結(jié)構(gòu)化數(shù)據(jù),選項(xiàng)B符合題意。3.A【詳解】本題考查大數(shù)據(jù)技術(shù)相關(guān)內(nèi)容。大數(shù)據(jù)預(yù)處理技術(shù)是指在進(jìn)行大數(shù)據(jù)分析之前,對(duì)原始的大量數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、集成和規(guī)范化等一系列操作,以提高數(shù)據(jù)的質(zhì)量、可用性和可操作性。故本題答案是A選項(xiàng)。4.C【詳解】本題主要考查數(shù)據(jù)處理。數(shù)據(jù)處理的一般過(guò)程是采集一分析一整理可視化表達(dá),故本題選C選項(xiàng)。5.A【詳解】本題主要考查大數(shù)據(jù)的描述。大數(shù)據(jù)是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行高效捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更佳的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn);物聯(lián)網(wǎng)、云計(jì)算、手機(jī)、電腦都是數(shù)據(jù)的來(lái)源;互聯(lián)網(wǎng)生成的數(shù)據(jù)量正以爆發(fā)性的速度不斷增長(zhǎng);在科學(xué)實(shí)驗(yàn)中,各種傳感器每時(shí)每刻的速度不斷增長(zhǎng),故本題選A選項(xiàng)。6.B【詳解】本題考查大數(shù)據(jù)相關(guān)內(nèi)容。A選項(xiàng),大數(shù)據(jù)要分析的是全體數(shù)據(jù),不是抽樣數(shù)據(jù),大數(shù)據(jù)具有低價(jià)值密度性,所以大數(shù)據(jù)無(wú)需每個(gè)數(shù)據(jù)都準(zhǔn)確無(wú)誤,選項(xiàng)錯(cuò)誤。B選項(xiàng),處理大數(shù)據(jù)時(shí),一般采用分治思想(把最初的問(wèn)題分解成若干子問(wèn)題,然后,在逐個(gè)解決各個(gè)子問(wèn)題的基礎(chǔ)上得到原始問(wèn)題的解),選項(xiàng)正確。C選項(xiàng),處理大數(shù)據(jù)時(shí),更注重事物的相關(guān)性而不是因果關(guān)系,選項(xiàng)錯(cuò)誤。D選項(xiàng),實(shí)現(xiàn)對(duì)實(shí)時(shí)數(shù)據(jù)的獲取、傳輸和存儲(chǔ)可以采用Flink完成。Flink是一個(gè)開源的流處理框架,支持窗口操作、聚合操作、連接操作等復(fù)雜計(jì)算。Flink還提供了容錯(cuò)機(jī)制,可以在數(shù)據(jù)處理過(guò)程中實(shí)時(shí)修復(fù)錯(cuò)誤,并可以通過(guò)Checkpoint機(jī)制實(shí)現(xiàn)數(shù)據(jù)的容錯(cuò)。Flink的優(yōu)點(diǎn)是支持流式計(jì)算,可以處理大規(guī)模的數(shù)據(jù)流,適用于處理實(shí)時(shí)數(shù)據(jù)。選項(xiàng)錯(cuò)誤。故本題答案是B選項(xiàng)。7.B【詳解】本題主要考查大數(shù)據(jù)處理。hadoop指一個(gè)用于大數(shù)據(jù)分布式存儲(chǔ)(HDFS),分布式計(jì)算(MapReduce)和資源調(diào)度(YARN)的平臺(tái),Hadoop適用于靜態(tài)數(shù)據(jù)的批處理計(jì)算,不適用于夂處理實(shí)時(shí)數(shù)據(jù),故本題選B選項(xiàng)。項(xiàng)。8.D【詳解】本題主要考查大數(shù)據(jù)的相關(guān)知識(shí)。大數(shù)據(jù)具有“4V”特征,分別是大量(Volume),多樣(Variety),高速(Velocity)、低價(jià)值密度(Value),因此A選項(xiàng)正確;從互聯(lián)網(wǎng)思維白的角度來(lái)看,大數(shù)據(jù)具有三個(gè)特征:樣本漸趨于總體,精確讓位于模糊,相關(guān)性重于因果。因此B選項(xiàng)正確;人從大數(shù)據(jù)存儲(chǔ)與計(jì)算的角度來(lái)看,大數(shù)據(jù)具有兩個(gè)特征:分布式存儲(chǔ)和分布式并行計(jì)算。因此C選項(xiàng)正確;由上可知D選項(xiàng)不符合題意?!眷柟烫嵘緿【詳解】本題考查的是對(duì)不同數(shù)據(jù)的不同處理方法。一般靜態(tài)數(shù)據(jù)用批處理計(jì)算,流數(shù)據(jù)用流計(jì)算,圖數(shù)據(jù)用圖計(jì)算等。近五年的信息技術(shù)選考試卷梳理高頻考點(diǎn)應(yīng)該屬于靜態(tài)數(shù)據(jù),應(yīng)采用批處理計(jì)算。故選項(xiàng)D正確。B【詳解】本題考查的是數(shù)據(jù)分析。聚類分析是一種探索性的分析,在分類的過(guò)程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā)、自動(dòng)進(jìn)行分類。關(guān)聯(lián)分析就是分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描述一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。數(shù)據(jù)分類是數(shù)據(jù)分析處理中最基本的方法。數(shù)據(jù)分類通常的做法是,基于樣本數(shù)據(jù)先訓(xùn)練構(gòu)建分類函數(shù)或者分類模型(也稱為分類器),該分類器具有將分類數(shù)據(jù)項(xiàng)映射到某一特點(diǎn)類別的功能?;貧w分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。某超市曾經(jīng)研究銷售數(shù)據(jù),發(fā)現(xiàn)買商品A的人購(gòu)買商品B的概率很大,這種屬于數(shù)據(jù)的關(guān)聯(lián)分析。故選項(xiàng)B正確。C【詳解】本題考查的是數(shù)據(jù)處理。C選項(xiàng)只是掌握游客數(shù)量,沒(méi)有進(jìn)行分詞等文本操作。C【詳解】本題主要考查數(shù)據(jù)處理。數(shù)據(jù)處理的基本目的是從大量的、雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取出相對(duì)有價(jià)值、有意義的數(shù)據(jù),故居民身份證號(hào)碼可以反映出常住戶口所在地的行政區(qū)劃、出生日期和性別等信息,這主要體現(xiàn)了數(shù)據(jù)是可處理的,故本題選C選項(xiàng)?!就卣箲?yīng)用】【答案】大數(shù)據(jù)處理流程主要包括四個(gè)關(guān)鍵步驟:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)與分析以及數(shù)據(jù)可視化。(1)數(shù)據(jù)采集是大數(shù)據(jù)處理流程的第一步,也是至關(guān)重要的一步。數(shù)據(jù)采集的主要目的是從各種數(shù)據(jù)源中收集、識(shí)別和記錄數(shù)據(jù)。在數(shù)據(jù)采集階段,需要使用各種不同的技術(shù)和工具,例如ETL(提取、轉(zhuǎn)換、加載)工具、數(shù)據(jù)清洗工具、數(shù)據(jù)庫(kù)管理系統(tǒng)等等。(2)數(shù)據(jù)預(yù)處理是大數(shù)據(jù)處理流程的第二步,其主要目的是對(duì)數(shù)據(jù)進(jìn)行清洗、整合和變換,以提高數(shù)據(jù)的質(zhì)量和可用性。在這個(gè)階段,需要使用各種數(shù)據(jù)處理技術(shù)和工具,例如數(shù)據(jù)去重、數(shù)據(jù)填補(bǔ)、數(shù)據(jù)規(guī)范化等等。(3)數(shù)據(jù)存儲(chǔ)與分析是大數(shù)據(jù)處理流程的第三步,其主要目的是對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和管理,并通過(guò)對(duì)數(shù)據(jù)的分析來(lái)獲得有用的信息。在這個(gè)階段,需要使用各種數(shù)據(jù)存儲(chǔ)技術(shù)和工具,例如分布式文件系統(tǒng)、數(shù)據(jù)庫(kù)管理系統(tǒng)等等。(4)數(shù)據(jù)可視化是大數(shù)據(jù)處理流程的最后一步,其主要目的是將數(shù)據(jù)處理的結(jié)果以可視化的方式呈現(xiàn)出來(lái),以便更加直觀地展示數(shù)據(jù)的特征和規(guī)律。在這個(gè)階段,需要使用各種數(shù)據(jù)可視化技術(shù)和工具,例如表格、圖表、地理信息系統(tǒng)等等。大數(shù)據(jù)處理流程的四大步驟是相互聯(lián)系、相互影響的。通過(guò)這四個(gè)步驟的執(zhí)行,可以有效地優(yōu)化數(shù)據(jù),充分挖掘數(shù)據(jù)的潛在價(jià)值,為決策和業(yè)務(wù)運(yùn)營(yíng)提供有力支持。同時(shí),隨著技術(shù)的不斷發(fā)展和進(jìn)步,大數(shù)據(jù)處理的流程和方式也將不斷改變和優(yōu)化,以更好地適應(yīng)時(shí)代的需求和發(fā)展。【詳解】本題考查大數(shù)據(jù)處理流程相關(guān)內(nèi)容。大數(shù)據(jù)處理流程主要包括四個(gè)關(guān)鍵步驟:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)與分析以及數(shù)據(jù)可視化。回答出要點(diǎn)即可。【答案】DBACB【詳解】本題考查數(shù)據(jù)與大數(shù)據(jù)相關(guān)內(nèi)容。結(jié)合題目?jī)?nèi)容可知:(1)這類個(gè)人報(bào)表是利用大數(shù)據(jù)技術(shù)收集用戶的個(gè)人行為數(shù)據(jù),并通過(guò)分類和計(jì)算獲得,說(shuō)明大數(shù)據(jù)分析能發(fā)現(xiàn)數(shù)據(jù)間的相關(guān)性。故本題答案是:D。(2)①聚類分析就是將研究對(duì)象根據(jù)一些特征指標(biāo),把比較相似的研究對(duì)象,按一定的方式歸為同類。②對(duì)比分析法是指將兩個(gè)或兩個(gè)以上的數(shù)據(jù)進(jìn)行比較,分析它們的差異,從而揭示這些數(shù)據(jù)所代表的事物發(fā)展變化情況和規(guī)律性,對(duì)比分析可分為靜態(tài)比較和動(dòng)態(tài)比較兩大類:靜態(tài)比較也叫橫向?qū)Ρ龋峭粫r(shí)間下對(duì)不同指標(biāo)的對(duì)比;動(dòng)態(tài)比較也叫縱向?qū)Ρ?,是同一總體條件對(duì)不同時(shí)期指標(biāo)數(shù)值的比較。③結(jié)構(gòu)分析法指分析總體內(nèi)的各部分與總體之間進(jìn)行對(duì)比的分析方法及總體內(nèi)各部分占總體的比例,屬于相對(duì)指標(biāo),一般某部分的比例越大,說(shuō)明其重要程度越高,對(duì)總體的影響越大。④平均分析法是運(yùn)用計(jì)算平均數(shù)的方法來(lái)反映總體在一定時(shí)間/地點(diǎn)條件下某一數(shù)量特征的一般水平,平均

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論