




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第頁大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)練習(xí)卷附答案1.數(shù)據(jù)科學(xué)是一門以()為主要研究任務(wù)的獨(dú)立學(xué)科。A、數(shù)據(jù)驅(qū)動、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞見、數(shù)據(jù)產(chǎn)品研發(fā)和(或)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)B、數(shù)據(jù)研發(fā)C、數(shù)據(jù)處理D、數(shù)據(jù)洞見【正確答案】:A解析:
數(shù)據(jù)科學(xué)是一門以實(shí)現(xiàn)從數(shù)據(jù)到信息、從數(shù)據(jù)到知識和(或)從數(shù)據(jù)到智慧的轉(zhuǎn)化為主要研究目的,以數(shù)據(jù)驅(qū)動、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞見、數(shù)據(jù)產(chǎn)品研發(fā)和(或)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)為主要研究任務(wù)的獨(dú)立學(xué)科。2.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計(jì)的思維變革的是()。A、不是隨機(jī)樣本,而是全體數(shù)據(jù)B、不是精確性,而是混雜性C、不是描述性分析,而是預(yù)測性分析D、不是因果關(guān)系,而是相關(guān)關(guān)系【正確答案】:C解析:
Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計(jì)的思維變革:①不是隨機(jī)樣本,而是全體數(shù)據(jù):大數(shù)據(jù)時代應(yīng)遵循“樣本=總體”的理念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。②不是精確性,而是混雜性;大數(shù)據(jù)時代應(yīng)承認(rèn)數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。③不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時代的思想方式應(yīng)轉(zhuǎn)變--不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。3.BASE原則的含義不包括()。A、基本可用B、柔性狀態(tài)C、最終一致D、基礎(chǔ)條件【正確答案】:D解析:
BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventallyConsistent(最終--致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致狀態(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時一致,系統(tǒng)在某一個時刻后達(dá)到一致性要求即可。4.下列屬于NoSQL數(shù)據(jù)庫中Key-Value缺點(diǎn)的是()。A、不記錄結(jié)構(gòu)信息B、查詢性能不高,缺乏統(tǒng)一查詢語法C、功能相對有限D(zhuǎn)、功能相對有限,不易于做分布式集群【正確答案】:A解析:
Key-Value型數(shù)據(jù)通常Key與Value之間采用某種方法(如哈希表)建立KValue映射,其缺點(diǎn)是不記錄結(jié)構(gòu)信息,無法建立索引。5.下列關(guān)于文本分類的說法不正確的是()。A、文本分類是指按照預(yù)先定義的主題類別,由計(jì)算機(jī)自動地為文檔集合中的每個文檔確定一個類別B、文本分類系統(tǒng)大致可分為基于知識工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個步驟【正確答案】:C解析:
詞袋模型沒有考慮文本詞語的原本行文順序。6.下列描述中屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域數(shù)據(jù)戰(zhàn)略的是()。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語表C、數(shù)據(jù)質(zhì)量評估D、過程質(zhì)量保障【正確答案】:A解析:
數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。7.美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追究效率而不是絕對精確D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)【正確答案】:B解析:
本次分析主要分析了大風(fēng)和洋流可能發(fā)生的地與安全航路的相關(guān)性。8.下列關(guān)于缺失值填補(bǔ)的說法不正確的是()。A、填補(bǔ)數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B、Pandas.dropna可以用來填補(bǔ)缺失值C、用平均值填補(bǔ)會引入相關(guān)D、啞變量填補(bǔ)是將缺失值當(dāng)做一類新特征處理【正確答案】:B解析:
Pandas.dropna可以用來刪除缺失值。9.數(shù)據(jù)的故事化描述是指為了提升數(shù)據(jù)的(),將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。A、可理解性、可記憶性、可體驗(yàn)性B、可接受性、可記憶性、可體驗(yàn)性C、可接受性、可記憶性、可呈現(xiàn)性D、可理解性、可記憶性、可呈線性【正確答案】:A解析:
數(shù)據(jù)的故事化描述(Storytelling)是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性,將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。10.對于數(shù)據(jù)3,3,2,3,6,3,10,3,6,3,2,得出以下結(jié)論:①這組數(shù)據(jù)的眾數(shù)是3;②這組數(shù)據(jù)的眾數(shù)與中位數(shù)的數(shù)值不相等;③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等;④這組數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等。其中結(jié)論正確的個數(shù)為()。A、1B、2C、3D、4【正確答案】:B解析:
眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)最多的變量值;中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值;均值是各數(shù)值加總求和再除以總的個數(shù)。此題中眾數(shù)為3,中位數(shù)為3,平均值為4,故①和③正確。11.下列描述中不屬于規(guī)整數(shù)據(jù)(TidyData)三個基本原則的是()。A、每一類觀察單元構(gòu)成一個關(guān)系(表)B、每個觀察占且僅占一行C、每個變量占且僅占一列D、每個觀察占且僅占一個關(guān)系(表)【正確答案】:D解析:
tidyData原則為每列代表一個單獨(dú)變量、每行代表單個觀察值、每種觀察形成一個表格。12.決定事務(wù)對數(shù)據(jù)對象加鎖后擁有何種控制權(quán)的是鎖的()。A、狀態(tài)B、類型C、數(shù)量D、屬性【正確答案】:B解析:
在2PL中,鎖的類型分為排他鎖和共享鎖等。13.()是指個體對視覺感知信息的進(jìn)一步加工處理過程,包括視覺信息的抽取、轉(zhuǎn)換、存儲、簡化、合并、理解和決策加工活動。A、視覺感知B、視覺認(rèn)知C、視覺編碼D、視覺轉(zhuǎn)換【正確答案】:B解析:
視覺感知(VisualPerception)是指客觀事物通過視覺感覺器官(眼睛等)在人腦中產(chǎn)生直接反應(yīng)的過程。視覺感知是產(chǎn)生視覺認(rèn)知的前提條件。視覺認(rèn)知(VisualCognition)是指個體對視覺感知信息的進(jìn)一步加工處理過程,包括視覺信息的抽取、轉(zhuǎn)換、存儲、簡化、合并、理解和決策等加工活動。14.下列描述中不屬于向量空間模型缺陷的是()。A、維度災(zāi)難B、模型稀疏性C、語義信息缺失D、無法計(jì)算文本相似度【正確答案】:D解析:
無法計(jì)算文本相似度的原因有出現(xiàn)新詞在向量模型中沒有該詞匯或分詞工具對于詞匯切分與上次不同等其他原因。15.下列關(guān)于OLAP和OLTP的區(qū)別描述不正確的是()。A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)C、OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D、OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的【正確答案】:C解析:
OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,記錄即時的增、刪、改、查,比如在銀行存取一筆款,就是一個事務(wù)交易。OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉庫的核心,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動態(tài)報(bào)表系統(tǒng)。16.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()。A、可關(guān)聯(lián)性B、可溯源性C、可理解性D、可復(fù)制性【正確答案】:A解析:
數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,降低數(shù)據(jù)的失用、失信和失控的風(fēng)險??坍嫈?shù)據(jù)連續(xù)性的特點(diǎn)描述如下:①可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是不同數(shù)據(jù)對象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的“失用”風(fēng)險。②可溯源性是在時間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個數(shù)據(jù)對象的歷史版本之間的連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理、可信度評估以及預(yù)測分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)的“失信”風(fēng)險。③可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)與其產(chǎn)生、管理和維護(hù)的主體(包括人與計(jì)算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)據(jù)可理解性的意義在于降低數(shù)據(jù)的“失控”風(fēng)險。17.在著名管理學(xué)家Thomas·H.Davernport在《哈佛商業(yè)論壇》上發(fā)表的題為《第三代分析學(xué)(Analytics3.0)》的經(jīng)典論文中,Analytics3.0時代是指()。A、商務(wù)智能時代B、大數(shù)據(jù)時代C、數(shù)據(jù)富足供給時代D、數(shù)據(jù)智能時代【正確答案】:C解析:
Analytics3.0的名稱為數(shù)據(jù)富足供給時代(Data-enrichedOfferings)。與Analytics2.0不同的是,Analytics3.0中數(shù)據(jù)分析更為專業(yè)化,從技術(shù)實(shí)現(xiàn)和常用工具角度看,Analytics3.0將采用更為專業(yè)的分析工具,而不再直接采用Hadoop、Spark、NoSQL等大數(shù)據(jù)分析技術(shù)。同時,數(shù)據(jù)分析工作也由專業(yè)從事數(shù)據(jù)分析的數(shù)據(jù)科學(xué)家-首席分析師完成,數(shù)據(jù)科學(xué)家的類型將得到進(jìn)一步細(xì)化。18.常用的數(shù)據(jù)歸約方法可以分為()。A、維歸約、數(shù)據(jù)壓縮B、維歸約、參數(shù)歸約C、維歸約、值歸約D、數(shù)據(jù)壓縮、值歸約【正確答案】:C解析:
常用的數(shù)據(jù)歸約方法有維歸約和值歸約兩種。19.數(shù)據(jù)分析的第一步是()。A、探索性分析B、描述性分析C、診斷性分析D、規(guī)范性分析【正確答案】:B解析:
數(shù)據(jù)分析的步驟:描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析。20.數(shù)據(jù)管理成熟度模型中成熟度等級最高的是()。A、已優(yōu)化級B、已測量級C、已定義級D、已管理級【正確答案】:A解析:
已優(yōu)化是數(shù)據(jù)管理成熟度模型中成熟度的最高等級。21.數(shù)據(jù)科學(xué)家可能會同時使用多個算法(模型)進(jìn)行預(yù)測,并且把這些算法的結(jié)果集成起來進(jìn)行最后的預(yù)測(集成學(xué)習(xí)),下列關(guān)于集成學(xué)習(xí)的說法正確的是()。A、單個模型之間具有高相關(guān)性B、單個模型之間具有低相關(guān)性C、在集成學(xué)習(xí)中使用平均權(quán)重而不是投票會比較好D、單個模型都用同一個算法【正確答案】:B解析:
集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型以期得到一個更好、更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個弱模型得到了錯誤的預(yù)測,其他的弱模型也可以將錯誤
糾正回來。某一個弱模型要有一定的準(zhǔn)確性,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個體學(xué)習(xí)器間具有差異。集成中既可包含同種類型的弱模型,也可包含不同類型的弱模型。22.下列關(guān)于描述性分析與探索性分析的描述正確的是()。A、描述性分析是相對于驗(yàn)證性分析的一種提法B、探索性分析是驗(yàn)證性分析的基礎(chǔ)C、探索性分析是相對于驗(yàn)證性分析的一種提法D、探索性分析是數(shù)據(jù)分析的第一步【正確答案】:C解析:
描述性分析與探索性分析兩者的區(qū)別:
(1)描述性分析(DescriptiveAnalytics)是相對于診斷性分析、預(yù)測性分析和規(guī)范性分析的一種提法,主要指的是對一組數(shù)據(jù)的各種統(tǒng)計(jì)特征(如平均數(shù)、標(biāo)準(zhǔn)差、中位數(shù)、頻數(shù)分布、正態(tài)或偏態(tài)程度等)進(jìn)行分析,以便描述測量樣本的各種特征及其所對應(yīng)總體的特征。
(2)探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)是相對于驗(yàn)證性分析的一種提法,主要指的是指在盡量少的先驗(yàn)假定下,對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))進(jìn)行探索,并通過作圖、制表、方程擬合、計(jì)算特征量等較為簡單的方法,探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。23.數(shù)據(jù)可視化的方法論基礎(chǔ)是()。A、統(tǒng)計(jì)圖表B、視覺編碼C、圖論D、圖形符號學(xué)【正確答案】:B解析:
數(shù)據(jù)可視化方法體系的方法論基礎(chǔ)主要是指視覺編碼。視覺編碼為其他數(shù)據(jù)可視化方法提供了方法論基礎(chǔ),奠定了數(shù)據(jù)可視化方法體系的根基。24.下列關(guān)于基本元數(shù)據(jù)描述正確的是()。A、基本元數(shù)據(jù)是與數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理、分析處理以及管理方面的信息【正確答案】:D解析:
基本元數(shù)據(jù)(Metadata)又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)。25.下列屬于無監(jiān)督學(xué)習(xí)的是()。A、K-meansB、SVMC、最大熵D、CRF【正確答案】:A解析:
K-means是一個將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過程,這是一個典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法被稱為無監(jiān)督學(xué)習(xí)。26.從復(fù)雜度及價值高低兩個維度,可以將數(shù)據(jù)分析分為()。A、描述性分析、診斷性分析、預(yù)測性分析、探索性分析B、探索性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析C、探索性分析、描述性分析、預(yù)測性分析、規(guī)范性分析D、描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析【正確答案】:D解析:
大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過去的經(jīng)驗(yàn)或者直覺。根據(jù)分析結(jié)果的不同,我們大致可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析四類,不同的分析類型將需要不同的技術(shù)和分析算法。27.下列不屬于數(shù)據(jù)科學(xué)項(xiàng)目主要角色的是()。A、項(xiàng)目發(fā)起人B、項(xiàng)目經(jīng)理C、操作員D、驗(yàn)收人員【正確答案】:D解析:
數(shù)據(jù)科學(xué)項(xiàng)目涉及的主要角色有項(xiàng)目發(fā)起人(ProjectSponsor)、項(xiàng)目經(jīng)理(ProjecManager)、客戶(Client)、數(shù)據(jù)科學(xué)家(DataScientist)、數(shù)據(jù)工程師(DataEngineer)、操作員(Operations)等。28.下列不屬于數(shù)據(jù)科學(xué)跨平臺基礎(chǔ)設(shè)施和分析工具的是()。A、微軟AzureB、Google云平臺C、阿里云D、Adobephotoshop【正確答案】:D解析:
Adobephotoshop軟件一般不作為數(shù)據(jù)分析工具。29.下列關(guān)于數(shù)據(jù)倉庫開發(fā)特點(diǎn)的描述不正確的是()。A、數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)B、數(shù)據(jù)倉庫使用的需求在開發(fā)初期就要明確C、數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D、在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式【正確答案】:A解析:
數(shù)據(jù)倉庫開發(fā)要從需求出發(fā)。30.探索性分析與驗(yàn)證性分析的不同點(diǎn)是()。A、探索性分析需要事先假設(shè)B、探索性分析比驗(yàn)證性分析復(fù)雜C、探索性分析在前D、驗(yàn)證性分析在前【正確答案】:C解析:
驗(yàn)證性分析需要事先假設(shè),因數(shù)據(jù)不同復(fù)雜程度也不同,探索性分析一般在前,為驗(yàn)證性分析提供參考。31.下列關(guān)于數(shù)據(jù)重組的說法錯誤的是()。A、數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B、數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C、數(shù)據(jù)重組實(shí)現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D、數(shù)據(jù)重組有利于實(shí)現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新【正確答案】:A解析:
數(shù)據(jù)重組將數(shù)據(jù)庫內(nèi)各數(shù)據(jù)的相關(guān)信息重新組織。32.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術(shù)價值鏈B、信息技術(shù)價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術(shù)價值鏈D、信息(活動)價值鏈和信息交互價值鏈【正確答案】:A解析:
大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價值鏈的信息價值鏈(水平軸)和信息技術(shù)價值鏈(垂直軸)兩個維度組織展開。33.下列情景中不屬于數(shù)據(jù)故事化的是()。A、還原情景B、統(tǒng)計(jì)情景C、移植情景D、虛構(gòu)情景【正確答案】:B解析:
數(shù)據(jù)的故事化描述(Storytelling)是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性,將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。由此可見,數(shù)據(jù)故事化也是數(shù)據(jù)轉(zhuǎn)換的表現(xiàn)形式之一,其本質(zhì)是以故事講述的方式展現(xiàn)數(shù)據(jù)的內(nèi)容。數(shù)據(jù)故事化中的情景,可以是:①還原情景:還原數(shù)據(jù)所計(jì)量和記錄信息時的原始情景;②移植情景:并非對應(yīng)信息的原始情景,而是將數(shù)據(jù)移植到另一個真實(shí)發(fā)生的情景(如目標(biāo)用戶比較熟悉的情景)之中;③虛構(gòu)情景:數(shù)據(jù)的故事化描述中所選擇的情景并非為真實(shí)存在的情景,而是根據(jù)講述人的想象力設(shè)計(jì)出來的虛構(gòu)情景。34.下列不屬于數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)區(qū)別的是(A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學(xué)關(guān)注的不僅僅是“單一學(xué)科”問題,超出了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等單一學(xué)科的范疇C、數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)域?qū)崉?wù)知識,它關(guān)注和強(qiáng)調(diào)的是二者的結(jié)合D、數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)中的計(jì)算一樣,僅僅是加減乘除【正確答案】:D解析:
數(shù)據(jù)科學(xué)中的計(jì)算并不僅僅是加/減/乘/除等數(shù)學(xué)計(jì)算,而是包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型的計(jì)算。35.數(shù)據(jù)的可用性取決于()。A、數(shù)據(jù)分析B、數(shù)據(jù)集采C、數(shù)據(jù)質(zhì)量D、數(shù)據(jù)需求【正確答案】:C解析:
略。36.下列關(guān)于等距離散化和等頻離散化的敘述不正確的是()。A、等距離散化是將連續(xù)型特征的取值區(qū)間均勻地劃分成多個區(qū)間段B、等距離散化對數(shù)據(jù)離群值不敏感C、等頻離散化考慮了區(qū)間段中的樣本個數(shù),使每個區(qū)間段的樣本數(shù)相同D、等頻離散化會將相似的樣本劃分到不同的區(qū)間【正確答案】:B解析:
等距離散化對數(shù)據(jù)離群值敏感。37.下列關(guān)于特征編碼的敘述不正確的是()。A、特征編碼是將非數(shù)值型特征轉(zhuǎn)換成數(shù)值型特征的方法B、數(shù)字編碼與特征的排序無關(guān)C、One-Hot編碼中,原始特征有n種取值,轉(zhuǎn)換后就會產(chǎn)生n列新特征D、啞變量編碼解決了One-Hot編碼中存在線性關(guān)系的問題【正確答案】:B解析:
數(shù)字編碼與特征的排序有關(guān),先出現(xiàn)的優(yōu)先排序。38.在數(shù)據(jù)科學(xué)項(xiàng)目的活動流程中,主要用于回答“我們用什么方式記錄和展現(xiàn)數(shù)據(jù)結(jié)果”問題的是()。A、數(shù)據(jù)的獲得與管理B、模式/模型的驗(yàn)證和優(yōu)化C、結(jié)果的可視化與文檔化D、模式/模型的應(yīng)用及維護(hù)【正確答案】:C解析:
結(jié)果的可視化與文檔化階段主要回答的問題是“我們用什么方式記錄和展現(xiàn)數(shù)據(jù)結(jié)果”。結(jié)果的可視化和文檔化分別代表的是數(shù)據(jù)項(xiàng)目結(jié)果的可視化表達(dá)和文檔化記錄(包括故事化描述)??梢暬臀臋n化方式的選擇對于數(shù)據(jù)科學(xué)項(xiàng)目的成敗,尤其是項(xiàng)目干系人(Stakeholders)的正確理解具有重要意義。39.將觀測值分為相同數(shù)目的兩部分,當(dāng)統(tǒng)計(jì)結(jié)果為非對稱分布時經(jīng)常使用的是()。A、眾數(shù)B、標(biāo)準(zhǔn)差C、中位數(shù)D、均值【正確答案】:C解析:
中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值。40.在比較模型的擬合效果時,甲、乙、丙三個模型的相關(guān)指數(shù)R2的值分別約為0.71、0.85、0.90,則擬合效果較好的模型是()。A、甲B、乙C、丙D、效果一樣【正確答案】:C解析:
R2的取值為0~1,越靠近1,擬合效果越好。41.()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價值越高。A、規(guī)模B、靈活性C、關(guān)聯(lián)度D、顆粒度【正確答案】:D解析:
顆粒度反映的是數(shù)據(jù)的精細(xì)化程度。42.一般將原始業(yè)務(wù)數(shù)據(jù)分為多個部分,用于構(gòu)建模型的是()。A、訓(xùn)練集B、測試集C、驗(yàn)證集D、全部數(shù)據(jù)【正確答案】:A解析:
訓(xùn)練集、測試集和驗(yàn)證集的功能分別為訓(xùn)練(構(gòu)建)模型、測試模型以及模型選擇與超級參數(shù)的調(diào)優(yōu)。43.下列關(guān)于大數(shù)據(jù)的分析理念的說法錯誤的是()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追求效率而不是絕對精確D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)【正確答案】:D解析:
在大數(shù)據(jù)的分析理念中,數(shù)據(jù)規(guī)模上強(qiáng)調(diào)絕對數(shù)據(jù)而不是相對數(shù)據(jù)。44.在抽樣方法中,當(dāng)合適的樣本容量很難確定時,可以使用的抽樣方法是()。A、有放回的簡單隨機(jī)抽樣B、無放回的簡單隨機(jī)抽樣C、分層抽樣D、漸進(jìn)抽樣【正確答案】:D解析:
略。45.下列關(guān)于數(shù)據(jù)倉庫隨時間變化的描述不正確的是()。A、數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B、捕捉到的新數(shù)據(jù)會覆蓋原來的快照C、數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容D、數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進(jìn)行重新綜合【正確答案】:C解析:
一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。46.相關(guān)關(guān)系是一種與函數(shù)關(guān)系區(qū)別的非確定性關(guān)系,而相關(guān)分析就是研究事物或象之間是否存在這種非確定性關(guān)系的統(tǒng)計(jì)方法,下列不屬于相關(guān)性分析方法的()。A、Pearson相關(guān)系數(shù)B、Spearman秩相關(guān)系數(shù)C、Kendall相關(guān)系數(shù)D、傅里葉系數(shù)【正確答案】:D解析:
傅里葉系數(shù)由Fouriercoefficient翻譯而來,有多個中文譯名。它是數(shù)學(xué)分析中的個概念,常常被應(yīng)用在信號處理領(lǐng)域中。對于任意的周期信號,如果滿足一定條件,都可以展開三角函數(shù)的線性組合,每個展開項(xiàng)的系數(shù)稱為傅里葉系數(shù),不能用于解釋相關(guān)性。47.數(shù)據(jù)產(chǎn)品的定義是()。A、數(shù)據(jù)產(chǎn)品是指能夠供給市場,被人們使用和消費(fèi),并能滿足人們某種需求的任何東西B、數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)地做決策(甚至行動)的一種產(chǎn)品形式C、數(shù)據(jù)產(chǎn)品是指為了滿足自身的需要,通過科技發(fā)明或經(jīng)驗(yàn)總結(jié)而形成的技術(shù)D、數(shù)據(jù)產(chǎn)品是數(shù)據(jù)科學(xué)的結(jié)果,創(chuàng)造了新的實(shí)物形態(tài)和使用價值的產(chǎn)品【正確答案】:B解析:
數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)地做決策(甚至行動)的一種產(chǎn)品形式。48.已知一組數(shù)據(jù)的協(xié)方差矩陣,下列關(guān)于主分量說法的錯誤的是()。A、主分量分析的最佳準(zhǔn)則是對一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計(jì)算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對角矩陣C、主分量分析就是K-L變換D、主分量是通過求協(xié)方差矩陣的特征值得到【正確答案】:C解析:
K-L變換與PCA變換是不同的概念,PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當(dāng)K-L變換矩陣為協(xié)方差矩陣時,等同于PCA。49.下列關(guān)于數(shù)據(jù)交易市場的說法錯誤的是()。A、數(shù)據(jù)交易市場是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展到一定程度的產(chǎn)物B、商業(yè)化的數(shù)據(jù)交易活動催生了多方參與的第三方數(shù)據(jù)交易市場C、數(shù)據(jù)交易市場通過生產(chǎn)、研發(fā)和分析數(shù)據(jù),為數(shù)據(jù)交易提供幫助D、數(shù)據(jù)交易市場是大數(shù)據(jù)資源化的必然產(chǎn)物【正確答案】:C解析:
數(shù)據(jù)交易市場不生產(chǎn)數(shù)據(jù)。50.下列不屬于數(shù)據(jù)脫敏要求的是()。A、雙向性B、單向性C、無殘留D、易于實(shí)現(xiàn)【正確答案】:A解析:
數(shù)據(jù)脫敏操作不能停留在簡單地將敏感信息屏蔽掉或匿名處理。數(shù)據(jù)脫敏操作必須滿足以下3個要求:單向性、無殘留、易于實(shí)現(xiàn)。51.下列關(guān)于混合模型聚類算法的優(yōu)、缺點(diǎn)的說法正確的是()。A、當(dāng)簇只包含少量數(shù)據(jù)點(diǎn)或者數(shù)據(jù)點(diǎn)近似協(xié)線性時,混合模型也能很好地處理B、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇C、混合模型比K均值或模糊C均值更一般,因?yàn)樗梢允褂酶鞣N類型的分布D、混合模型在有噪聲和離群點(diǎn)時不會存在問題【正確答案】:C解析:
K均值與模糊C均值都是迭代求取最終值的聚類劃分,即聚類中心與隸屬度值。兩者都不能保證找到問題的最優(yōu)解,都有可能收斂到局部極值。模糊C均值是K均值方法的改進(jìn),算法的目標(biāo)函數(shù)與K均值一致,區(qū)別在于目標(biāo)函數(shù)中增加了模糊權(quán)重指數(shù);GMM高斯混合模型聚類采用了新的判斷依據(jù)-概率,即通過屬于某一類的概率大小來判斷最終的歸屬類別。52.下列不是目前機(jī)器學(xué)習(xí)所面臨的問題是()。A、測試集的規(guī)模B、維度災(zāi)難C、特征工程D、過擬合【正確答案】:A解析:
目前,機(jī)器學(xué)習(xí)領(lǐng)域所面臨的主要挑戰(zhàn)包括過擬合(Overfiting)、維度災(zāi)難(CurseofDimensionality)、特征工程(FeatureEngineering)、算法的可擴(kuò)展性(Scalability)和模型集成。53.下列關(guān)于在回歸分析中解釋變量與非解釋變量的說法正確的是()。A、解釋變量和被解釋變量都是隨機(jī)變量B、解釋變量為非隨機(jī)變量,被解釋變量為隨機(jī)變量C、解釋變量和被解釋變量都為非隨機(jī)變量D、解釋變量為隨機(jī)變量,被解釋變量為非隨機(jī)變量【正確答案】:B解析:
在回歸分析中,解釋變量可以理解為自變量,具有確定性,因此為非隨機(jī)變量被解釋變量可以理解為因變量,具有隨機(jī)性,因此為隨機(jī)變量。54.數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù)是數(shù)據(jù)產(chǎn)品研發(fā)的()。A、零次數(shù)據(jù)B、一次數(shù)據(jù)C、二次數(shù)據(jù)D、采集數(shù)據(jù)【正確答案】:A解析:
零次數(shù)據(jù)是數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù),如各種感知儀器設(shè)備中直接生成的數(shù)據(jù)。零次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題。55.數(shù)據(jù)變換的策略包括()。A、平滑處理、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、離散化B、平滑處理、特征構(gòu)造、聚集、審計(jì)、離散化C、平滑處理、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化D、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化【正確答案】:A解析:
數(shù)據(jù)變換的策略不包括審計(jì)。56.下列描述中不屬于數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)“三同步”原則的是()。A、同步規(guī)劃B、同步建設(shè)C、同步使用D、同步運(yùn)維【正確答案】:D解析:
數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)包含同步規(guī)劃、同步建設(shè)、同步使用三項(xiàng)原則。57.從數(shù)據(jù)到智慧的轉(zhuǎn)換依次遞進(jìn)過程是()。A、數(shù)據(jù)、知識、信息、理解、智慧B、數(shù)據(jù)、信息、理解、知識、智慧C、數(shù)據(jù)、信息、知識、理解、智慧D、數(shù)據(jù)、理解、信息、知識、智慧【正確答案】:C解析:
DIKW金字塔(DIKWPyramid)模型揭示了數(shù)據(jù)(Data)與信息(Information)、知識(Knowledge)、智慧(Wisdom)之間的區(qū)別與聯(lián)系,自底向上分別為數(shù)據(jù)、信息、知識、智慧。58.與其他觀測值的差別較大,以至于懷疑它是由不同的機(jī)制產(chǎn)生的觀測值是()。A、邊界點(diǎn)B、質(zhì)心C、離群點(diǎn)D、核心點(diǎn)【正確答案】:C解析:
離群點(diǎn)(outlier)是指數(shù)值中遠(yuǎn)離數(shù)值的一般水平的極端大值和極端小值。59.數(shù)據(jù)使用環(huán)節(jié)的安全技術(shù)措施除防火墻、()、防病毒、防DDOS、漏洞檢測等網(wǎng)絡(luò)安全防護(hù)技術(shù)措施外,還需實(shí)現(xiàn)以下安全技術(shù)能力:賬號權(quán)限管理、數(shù)據(jù)安全域、數(shù)據(jù)脫敏、日志管理和審計(jì)、異常行為實(shí)時監(jiān)控和終端數(shù)據(jù)防泄漏。A、入侵檢測B、病毒檢測C、程序檢測D、進(jìn)程檢測【正確答案】:A解析:
數(shù)據(jù)使用環(huán)節(jié)的安全技術(shù)措施除防火墻、入侵檢測、防病毒、防DDOS、漏洞檢測等網(wǎng)絡(luò)安全防護(hù)技術(shù)措施外,還需實(shí)現(xiàn)以下安全技術(shù)能力:賬號權(quán)限管理、數(shù)據(jù)安全域、數(shù)據(jù)脫敏、日志管理和審計(jì)、異常行為實(shí)時監(jiān)控和終端數(shù)據(jù)防泄漏。60.()是從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論、方法。A、信息B、數(shù)據(jù)C、知識D、智慧【正確答案】:C解析:
知識是人們從數(shù)據(jù)、信息中發(fā)現(xiàn)的,在數(shù)據(jù)/信息中存在的共性規(guī)律、認(rèn)識、經(jīng)驗(yàn)與常識。通常根據(jù)能否清晰地表述和有效地轉(zhuǎn)移,將知識分為顯性知識(ExplicitKnowledge)和隱性知識(TacitKnowledge)兩種。61.表示數(shù)據(jù)分布是否為對稱性的統(tǒng)計(jì)量是()。A、方差B、中位數(shù)C、偏態(tài)D、峰態(tài)【正確答案】:C解析:
偏態(tài)(Skewness)描述數(shù)據(jù)分布的對稱性,當(dāng)偏態(tài)系數(shù)等于0時,對應(yīng)數(shù)據(jù)的分布為對稱;否則分布為非對稱。峰態(tài)(Kurtosis)描述數(shù)據(jù)分布的平峰或尖峰程度,當(dāng)峰態(tài)系數(shù)等于0時,數(shù)據(jù)分布為標(biāo)準(zhǔn)正態(tài)分布;否則比正態(tài)分布更平或更尖。62.某工廠共有100名員工,他們的月工資方差是s,現(xiàn)在給每個員工的月工資增加3000元,那么他們的新工資的方差()。A、為s+3000B、小了C、大了D、不變【正確答案】:D解析:
方差用來計(jì)算每一個變量(觀察值)與總體均數(shù)之間的差異。63.數(shù)據(jù)集成的基本類型是()。A、內(nèi)容集成、結(jié)構(gòu)集成B、內(nèi)容集成、規(guī)約集成C、規(guī)約集成、結(jié)構(gòu)集成D、模式集成、結(jié)構(gòu)集成【正確答案】:A解析:
數(shù)據(jù)集成是指通過應(yīng)用間的數(shù)據(jù)交換從而達(dá)到集成,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題,其前提是被集成應(yīng)用必須公開數(shù)據(jù)結(jié)構(gòu),即必須公開表間結(jié)構(gòu)、表間關(guān)系、編碼的含義等。64.()是一個組織機(jī)構(gòu)的數(shù)據(jù)管理的愿景、目標(biāo)以及功能藍(lán)圖的統(tǒng)一管理。A、數(shù)據(jù)治理B、數(shù)據(jù)戰(zhàn)略C、數(shù)據(jù)加工D、數(shù)據(jù)能力【正確答案】:B解析:
數(shù)據(jù)戰(zhàn)略(DataStrategy)是一個機(jī)構(gòu)的數(shù)據(jù)管理的愿景、目標(biāo)以及功能藍(lán)圖的統(tǒng)一管理。從DMM模型可看出,數(shù)據(jù)戰(zhàn)略是組織機(jī)構(gòu)的數(shù)據(jù)管理工作的重要前提。65.下列關(guān)于線性回歸分析中的殘差的說法正確的是()。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確【正確答案】:A解析:
線性回歸分析中,目標(biāo)是殘差最小化。殘差平方和是關(guān)于參數(shù)的函數(shù),為了求殘差極小值,令殘差關(guān)于參數(shù)的偏導(dǎo)數(shù)為零,會得到殘差和為零,即殘差均值為零。66.()的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。A、數(shù)據(jù)處理B、數(shù)據(jù)計(jì)算C、數(shù)據(jù)加工D、整齊數(shù)據(jù)【正確答案】:C解析:
數(shù)據(jù)加工(DataWrangling或DataMunging)的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。從加工程度看,數(shù)據(jù)可以分為零次、一次、二次、三次數(shù)據(jù)。67.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種,不屬于大數(shù)據(jù)涌現(xiàn)形式的是()。A、價值涌現(xiàn)B、隱私涌現(xiàn)C、物質(zhì)涌現(xiàn)D、質(zhì)量涌現(xiàn)【正確答案】:C解析:
大數(shù)據(jù)并不等同于小數(shù)據(jù)的集合。從小數(shù)據(jù)到大數(shù)據(jù)的過程中出現(xiàn)了涌現(xiàn)現(xiàn)象,涌現(xiàn)才是大數(shù)據(jù)的本質(zhì)特征。涌現(xiàn)(Emergence)就是系統(tǒng)大于元素之和,或者系統(tǒng)在跨越層次時,出現(xiàn)了新的質(zhì)。大數(shù)據(jù)涌現(xiàn)現(xiàn)象的具體表現(xiàn)形式有多種,如價值涌現(xiàn)、隱私涌現(xiàn)、質(zhì)量涌現(xiàn)和安全涌現(xiàn)等。68.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的(不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A、暫時隔離B、暫時刪除C、永久刪除D、不做處理【正確答案】:C解析:
數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的永刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。69.()認(rèn)為,大數(shù)據(jù)時代的數(shù)據(jù)管理目標(biāo)不一定理想和完美,一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一個特征的損失(放棄)。A、CAP理論BASE原則C、數(shù)據(jù)一致性理論D、大數(shù)據(jù)法則【正確答案】:A解析:
CAP理論認(rèn)為,一個分布式系統(tǒng)不能同時滿足一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(PartitionTolcrancc)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的-一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一個特征的損失(放棄)。70.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說法正確的是()。A、Json內(nèi)的取值只能有統(tǒng)一格式B、PDF文件在不同平臺上打開顯示不同C、可以通過Python將CSV文件轉(zhuǎn)換成Excel格式D、Excel存儲數(shù)據(jù)的量無限制【正確答案】:C解析:
Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺上打開顯示相同,Excel存儲數(shù)據(jù)的量在Excel2007及以后版本,一個工作表最多可有1048576行、16384列。71.集群的最主要“瓶頸”通常是()。A、CPUB、網(wǎng)絡(luò)C、磁盤I/OD、內(nèi)存【正確答案】:C解析:
磁盤I/O是不可擴(kuò)充的,其他的可以擴(kuò)充。72.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行()等處理的過程。A、更正B、刪除C、補(bǔ)充錄入D、以上答案都正確【正確答案】:D解析:
數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行更正、刪除、補(bǔ)充錄入等處理的過程。73.大數(shù)據(jù)的“4V”特性不包括()。A、VolumeB、VelocityC、VisualD、Variety【正確答案】:C解析:
通常,用“4V”來表示大數(shù)據(jù)的基本特征:Volume(數(shù)據(jù)量大)、Variety(類型多)、Value(價值高)、Velocity(速度快)。74.下列關(guān)于數(shù)據(jù)的描述錯誤的是()。A、數(shù)據(jù)化與數(shù)字化是兩個不同概念B、數(shù)據(jù)與數(shù)值是一個概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個不同的概念D、數(shù)據(jù)和信息是兩個不同的概念【正確答案】:B解析:
除了數(shù)值,數(shù)據(jù)科學(xué)中的數(shù)據(jù)還包括文字、圖形、圖像、動畫、文本、語音、視頻、多媒體和富媒體等多種類型。75.關(guān)系云的一個重要功能是提供()。A、數(shù)據(jù)庫即服務(wù)B、虛擬服務(wù)C、彈性計(jì)算D、按需服務(wù)【正確答案】:A解析:
關(guān)系云的一個重要功能是提供數(shù)據(jù)庫即服務(wù)(DatabaseasaService),用戶無須在本機(jī)安裝數(shù)據(jù)庫管理軟件,也不需要搭建自己的數(shù)據(jù)管理集群,而只需要使用服務(wù)提供商提供的數(shù)據(jù)庫服務(wù)。76.離散程度的測度值愈大,則()。A、反映變量值愈分散,算術(shù)平均數(shù)代表性愈差B、反映變量值愈集中,算術(shù)平均數(shù)代表性愈差C、反映變量值愈分散,算術(shù)平均數(shù)代表性愈好D、反映變量值愈集中,算術(shù)平均數(shù)代表性愈好【正確答案】:A解析:
離散程度的測度值愈大,則反映變量值愈分散,算術(shù)平均數(shù)代表性愈差。77.有研究發(fā)現(xiàn)“頁面的顯示速度每延遲1s,網(wǎng)站訪問量就會降低11%,從而導(dǎo)致營業(yè)額或者注冊量減少7%,顧客滿意度下降16%”。該項(xiàng)研究表明了在數(shù)據(jù)產(chǎn)品開發(fā)中更加重要的是()。A、查全率B、用戶體驗(yàn)C、數(shù)據(jù)可視化D、查準(zhǔn)率【正確答案】:B解析:
在大數(shù)據(jù)時代,用戶體驗(yàn)更加重要。78.()是指理解挖掘項(xiàng)目的目標(biāo)業(yè)務(wù)需求。A、業(yè)務(wù)理解B、數(shù)據(jù)理解C、數(shù)據(jù)準(zhǔn)備D、數(shù)據(jù)建?!菊_答案】:A解析:
根據(jù)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(cross-industrystandardprocessfordatamining,CRISP-DM)模型,業(yè)務(wù)理解是指從業(yè)務(wù)的角度了解項(xiàng)目的要求和最終目的,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來。79.下列不屬于大數(shù)據(jù)重要意義的是()。A、大數(shù)據(jù)成為推動經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動力B、大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機(jī)遇C、大數(shù)據(jù)成為提升政府治理能力的新途徑D、大數(shù)據(jù)會增加經(jīng)濟(jì)發(fā)展的成本【正確答案】:D解析:
大數(shù)據(jù)可以促進(jìn)經(jīng)濟(jì)的發(fā)展,催生新的業(yè)態(tài),在輔助商業(yè)決策、降低運(yùn)營成本、精準(zhǔn)市場的營銷方面都能發(fā)揮作用,進(jìn)一步提升企業(yè)競爭力。80.下列關(guān)于數(shù)據(jù)創(chuàng)新的說法正確的是()。A、多個數(shù)據(jù)集的總和價值等于單個數(shù)據(jù)集價值相加B、由于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去C、相同數(shù)據(jù)多次用于相同或類似用途,其有效性會降低D、數(shù)據(jù)只有開放價值才可以得到真正釋放【正確答案】:D解析:
略。81.下列判斷錯誤的是()。A、XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)B、JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)C、PPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)D、音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:B解析:
JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。82.下列關(guān)于缺失值的說法錯誤的是()。A、可以利用統(tǒng)計(jì)量對缺失值進(jìn)行填補(bǔ)B、可以利用K近鄰值對缺失值進(jìn)行填補(bǔ)C、只要有缺失值就必須把對應(yīng)記錄刪除D、對于缺失值較多的屬性可以考慮刪除【正確答案】:C解析:
缺失值可以通過刪除、填補(bǔ)等方法進(jìn)行處理。83.具有體量大、來源多樣、生成極快和多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系機(jī)構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)是()。A、海量數(shù)據(jù)B、大數(shù)據(jù)C、厚數(shù)據(jù)D、異構(gòu)數(shù)據(jù)【正確答案】:B解析:
GB/T35295-2017《信息技術(shù)/大數(shù)據(jù)/術(shù)語》認(rèn)為,大數(shù)據(jù)是具有體量大、來源多樣、生成極快、多變等特征,并且難以用傳統(tǒng)數(shù)據(jù)體系機(jī)構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)。84.異常檢測中,檢測一元正態(tài)分布中的離群點(diǎn)基于的技術(shù)是()。A、統(tǒng)計(jì)方法B、鄰近度C、密度D、機(jī)器學(xué)習(xí)技術(shù)【正確答案】:A解析:
略。85.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是下列步驟中()的任務(wù)。A、頻繁模式挖掘B、分類和預(yù)測C、數(shù)據(jù)預(yù)處理D、數(shù)據(jù)流挖掘【正確答案】:C解析:
數(shù)據(jù)預(yù)處理是對原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約的過程。頻繁模式挖掘、分類和預(yù)測和數(shù)據(jù)流挖掘均屬于數(shù)據(jù)挖掘范疇。86.下列不屬于大數(shù)據(jù)平臺安全管理組件提供的功能的是()。A、接口代理B、接口認(rèn)證C、接口授權(quán)D、路由代理【正確答案】:D解析:
接口可以對用戶的身份和請求的參數(shù)進(jìn)行驗(yàn)證,以保證接口的安全。通過添加身份驗(yàn)證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。87.下列關(guān)于數(shù)據(jù)科學(xué)的描述錯誤的是()。A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值,也不等同于數(shù)值B、數(shù)據(jù)科學(xué)中的計(jì)算包括數(shù)據(jù)的查詢、挖掘、洞見等C、數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是跨學(xué)科視角D、數(shù)據(jù)科學(xué)不包括理論知識,只包括領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)【正確答案】:D解析:
數(shù)據(jù)科學(xué)既包括理論知識,又包括領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)。88.數(shù)據(jù)管理成熟度模型-DMM將一個機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、()、數(shù)據(jù)質(zhì)量、平臺與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。A、數(shù)據(jù)管理B、數(shù)據(jù)治理C、數(shù)據(jù)策略D、數(shù)據(jù)安全【正確答案】:B解析:
DMM模型將一個機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量、平臺與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。89.下列關(guān)于誤差的說法正確的是()。A、訓(xùn)練樣本容量增加,泛化誤差也會增加B、過擬合指數(shù)據(jù)在訓(xùn)練集上的誤差過大C、過擬合可以通過減少模型參數(shù)數(shù)量解決D、交叉驗(yàn)證不重復(fù)使用數(shù)據(jù)【正確答案】:C解析:
解決過擬合的兩條主線:一是增大數(shù)據(jù)集;二是降低模型的復(fù)雜度(根據(jù)VC維理論可知),如減少模型參數(shù)數(shù)量。90.下列關(guān)于可視化方法體系的說法不正確的是()。A、通常采用視覺圖形元素和視覺通道兩個維度進(jìn)行視覺編碼B、常用的共性方法有統(tǒng)計(jì)圖表、圖論方法、視覺隱喻和圖形符號學(xué)等C、領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用D、視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)【正確答案】:C解析:
領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果高于基礎(chǔ)方法的直接應(yīng)用。91.下列關(guān)于OLAP的特性的描述:①快速性;②可分析性;③多維性;④信息性;⑤共享性。正確的是()。A、①②③B、②③④C、①②③④D、①②③④⑤【正確答案】:D解析:
OLAP具有快速性、可分析性、多維性、信息性、共享性等特性。92.目前,多數(shù)NoSQL數(shù)據(jù)庫是針對特定應(yīng)用場景研發(fā)出來的,其設(shè)計(jì)遵循()原則,更強(qiáng)調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)可擴(kuò)展性。A、EASYB、READC、BASED、BASIC【正確答案】:C解析:
BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventuallyConsistent(最終一致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致狀態(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時一致,系統(tǒng)在某一個時刻后達(dá)到一致性要求即可。93.下列關(guān)于數(shù)據(jù)清洗的說法不正確的是()。A、對單數(shù)據(jù)源,主鍵取值不能重復(fù)B、多數(shù)據(jù)源會存在數(shù)據(jù)重復(fù)、單位不一致的問題C、連續(xù)型數(shù)據(jù)不存在冗余問題D、缺失值可以采用刪除和填補(bǔ)等方法處理【正確答案】:C解析:
連續(xù)型數(shù)據(jù)可能存在冗余問題。94.下列不屬于現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型的是()。A、數(shù)據(jù)源與AppB、基礎(chǔ)設(shè)施C、HadoopD、數(shù)據(jù)資源【正確答案】:C解析:
Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當(dāng)時快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到廣泛地應(yīng)用和不斷地更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017人數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開源工具、跨平臺基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。95.大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用()。A、所有數(shù)據(jù)B、部分?jǐn)?shù)據(jù)C、少量數(shù)據(jù)D、抽樣數(shù)據(jù)【正確答案】:A解析:
大數(shù)據(jù)的一種表現(xiàn)形式為接近其總體的所有數(shù)據(jù)。96.第一數(shù)字定律中使用概率最大的數(shù)字是()。A、0B、1C、2D、3【正確答案】:B解析:
第一數(shù)字定律表示,數(shù)字1使用最多,使用概率接近1/3;數(shù)字2為17.6%;數(shù)字3為12.5%;依次遞減,數(shù)字9的使用概率是4.6%。97.下列不是開源工具特點(diǎn)的是()。A、免費(fèi)B、可以直接獲取源代碼C、用戶可以修改源代碼并不加說明用于自己的軟件中D、開源工具一樣具有版權(quán)【正確答案】:C解析:
延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來代碼中的協(xié)議、商標(biāo)、專利聲明和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產(chǎn)品中包含一個Notice文件,則在Notice文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可,但不可以表現(xiàn)為對開源工具Licence構(gòu)成更改。98.下列不屬于數(shù)據(jù)預(yù)處理方法的是()。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)統(tǒng)計(jì)【正確答案】:D解析:
數(shù)據(jù)統(tǒng)計(jì)并非為數(shù)據(jù)預(yù)處理的常見內(nèi)容。99.()是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。A、數(shù)據(jù)管理B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)規(guī)劃【正確答案】:C解析:
從DMM模型可以看出,數(shù)據(jù)治理是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。數(shù)據(jù)管理指通過管理數(shù)據(jù)實(shí)現(xiàn)組織機(jī)構(gòu)的某種業(yè)務(wù)目的。然而,數(shù)據(jù)治理則指如何確保數(shù)據(jù)管理順利、有效、科學(xué)地完成。100.下列不屬于視覺通道表現(xiàn)力評價指標(biāo)的是()。A、精確性B、可辨認(rèn)性C、可分離性D、可轉(zhuǎn)換性【正確答案】:D解析:
在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道表現(xiàn)力的評價指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺突出性。1.在建立模型時,需要用到的數(shù)據(jù)有()。A、訓(xùn)練數(shù)據(jù)B、測試數(shù)據(jù)C、原始數(shù)據(jù)D、驗(yàn)證數(shù)據(jù)【正確答案】:ABD解析:
在機(jī)器學(xué)習(xí)中,通常將數(shù)據(jù)分為訓(xùn)練集、測試集和驗(yàn)證集。2.在數(shù)據(jù)科學(xué)中,通??梢圆捎茫ǎ┯行П苊鈹?shù)據(jù)加工和數(shù)據(jù)備份的偏見。A/B測試B、訓(xùn)練集和測試集的劃分C、測試集和驗(yàn)證集的劃分D、圖靈測試【正確答案】:A解析:
A/B測試是一種對比試驗(yàn),準(zhǔn)確說是一種分離式組間試驗(yàn),在試驗(yàn)過程中,我們從總體中隨機(jī)抽取一些樣本進(jìn)行數(shù)據(jù)統(tǒng)計(jì),進(jìn)而得出對總體參數(shù)的多個評估。A/B測試能有效避免數(shù)據(jù)加工和數(shù)據(jù)備份的偏見,對算法/模型選擇偏見具有重要借鑒意義。3.噪聲是指測量變量中的隨機(jī)錯誤或偏差,噪聲數(shù)據(jù)的主要表現(xiàn)形式有()。A、錯誤數(shù)據(jù)B、假數(shù)據(jù)C、異常數(shù)據(jù)D、僵尸數(shù)據(jù)【正確答案】:ABC解析:
錯誤數(shù)據(jù)、假數(shù)據(jù)、異常數(shù)據(jù)在測量變量中多被定義為噪聲。4.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的有()。A、深度優(yōu)先遇歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略E、大站優(yōu)先策略【正確答案】:AB解析:
在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。5.數(shù)據(jù)從產(chǎn)生到終結(jié)共包含的環(huán)節(jié)有()。A、數(shù)據(jù)產(chǎn)生B、數(shù)據(jù)傳輸C、數(shù)據(jù)使用D、數(shù)據(jù)共享E、數(shù)據(jù)銷毀【正確答案】:ABCDE解析:
數(shù)據(jù)的全壽命周期有獲?。óa(chǎn)生)、存儲、共享、維護(hù)、應(yīng)用(使用)、消亡(銷毀),在以上這些過程都會有數(shù)據(jù)傳輸過程。6.下列描述中正確的有()。A、統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B、Python語言是統(tǒng)計(jì)學(xué)家發(fā)明的語言C、機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D、數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個分支領(lǐng)域(子學(xué)科)【正確答案】:AC解析:
Python發(fā)明者是GuidoVanRossum,并非為統(tǒng)計(jì)學(xué)家;數(shù)據(jù)科學(xué)是一門獨(dú)立學(xué)科,已經(jīng)超出了統(tǒng)計(jì)學(xué)一個學(xué)科的研究范疇,并非為統(tǒng)計(jì)學(xué)的一個分支。7.下列關(guān)于數(shù)據(jù)科學(xué)中常用統(tǒng)計(jì)學(xué)知識的說法錯誤的有()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計(jì)的數(shù)據(jù)分析方法又可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)C、描述統(tǒng)計(jì)可分為集中趨勢分析、離散趨勢分析、參數(shù)估計(jì)和假設(shè)檢驗(yàn)D、推斷統(tǒng)計(jì)包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:
從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法包括描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計(jì)可分為集中趨勢分析和離散趨勢分析;推斷統(tǒng)計(jì)包括總體參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩方面內(nèi)容。8.下列關(guān)于數(shù)據(jù)流轉(zhuǎn)和應(yīng)用的說法正確的有()。A、數(shù)據(jù)流轉(zhuǎn)和應(yīng)用過程中應(yīng)確保可追溯、可復(fù)查B、前序環(huán)節(jié)應(yīng)保證數(shù)據(jù)的真實(shí)、完整C、前序環(huán)節(jié)應(yīng)及時傳遞到后序環(huán)節(jié)D、前后環(huán)節(jié)數(shù)據(jù)應(yīng)保持銜接一致【正確答案】:ABCD解析:
數(shù)據(jù)流轉(zhuǎn)和應(yīng)用主要包括可追溯、可復(fù)查,數(shù)據(jù)真實(shí)、完整,環(huán)節(jié)銜接完整,環(huán)節(jié)銜接數(shù)據(jù)一致。9.下列關(guān)于探索型數(shù)據(jù)分析常用圖表的說法正確的有()。A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數(shù)據(jù)之間的特征和對比B、探索型數(shù)據(jù)分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點(diǎn)圖、箱型圖等C、在探索型數(shù)據(jù)分析時應(yīng)該盡量避免使用餅圖,然而在數(shù)據(jù)報(bào)告中可以使用餅圖達(dá)到更加美觀的效果D、直方圖和箱型圖都可以用來展示數(shù)據(jù)的分布情況【正確答案】:BCD解析:
數(shù)據(jù)之間的特征和對比使用條形圖可更加直觀地展示數(shù)據(jù)。10.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化-從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三大技術(shù),這三大技術(shù)包括()。A、HadoopYRN資源管理器B、GFS分布式存儲系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫【正確答案】:BCD解析:
Goolge于2003~2008年間發(fā)表的3篇論文在云計(jì)算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響,被稱為Google云計(jì)算三大技術(shù)或三大論文:①GFS論文--GhemawatS,GobiofH.LeungST.TheGooglefilesystem[C].ACMSIGOPSoperatingsystemsreview.ACM,2003,37(5);29-43.;②MapReduce論文DeanJ,GhemawatS.MapReduce:simplifieddataprocessingonlargeclusters[J].CommunicationsoftheACM,2008,51(1):107-113.;③Bigtable論文--ChangF.DeanJ,GhemawatS,etal.Bigtable:Adistributedstoragesystemforstructureddata[].ACMTransactionsonComputerSystems(TOCS),2008,26(2):4.。11.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性,還包括()。A、完整性B、可用性C、不可否認(rèn)性D、可審計(jì)性【正確答案】:ABCD解析:
數(shù)據(jù)安全不等同于數(shù)據(jù)保密。通常,除了數(shù)據(jù)保密--數(shù)據(jù)的機(jī)密也(Confidentiality)之外,數(shù)據(jù)安全還包括完整性(Integrity)、可用性(Availability)、不可否認(rèn)性(Non-repudiation)、鑒別(Authentication)、可審計(jì)性(Accountability)和可靠姓(Reliability)等多個維度。12.已定義級(DefinedLevel)的主要特點(diǎn)包括()。A、組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的標(biāo)準(zhǔn)定義,并定期對其進(jìn)行改進(jìn)B、已提供了關(guān)鍵過程的測量與預(yù)測方法C、關(guān)鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作D、數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識,將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一【正確答案】:ABCD解析:
DMM的已定義級(DefinedLevel):組織機(jī)構(gòu)已經(jīng)定義了自己的標(biāo)準(zhǔn)關(guān)鍵過程。其主要特點(diǎn)如下:①組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的標(biāo)準(zhǔn)定義,并定期對其進(jìn)行改進(jìn);②已提供了關(guān)鍵過程的測量與預(yù)測方法;③關(guān)鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作;④數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識,將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一。13.假設(shè)檢驗(yàn)中,首先需要提出零假設(shè)和備擇假設(shè),下列關(guān)于零假設(shè)和備擇假設(shè)的描述正確的有()。A、零假設(shè)是只有出現(xiàn)的概率大于閾值才會被拒絕的;備擇假設(shè)是只有零假設(shè)出現(xiàn)的概率大于閾值才會被承認(rèn)的B、零假設(shè)是希望推翻的結(jié)論;備擇假設(shè)是希望證明的結(jié)論C、零假設(shè)是只有出現(xiàn)的概率小于閾值才會被拒絕的;備擇假設(shè)是只有零假設(shè)出現(xiàn)的概率小于閾值才會被承認(rèn)的D、零假設(shè)是希望證明的結(jié)論;備擇假設(shè)是希望推翻的結(jié)論【正確答案】:BC解析:
略14.下列屬于大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)的方面有()。A、具有勞動增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價值D、涉及道德與倫理【正確答案】:ABCD解析:
大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動增值、涉及法律權(quán)屬、具有財(cái)務(wù)價值、涉及道德與倫理。15.下列關(guān)于降維說法正確的有()。A、PA是根據(jù)方差這一屬性降維的B、降維可以防止模型過擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PLA等【正確答案】:ACD解析:
降維不能用于防止模型過擬合。16.下列關(guān)于數(shù)據(jù)維度的描述正確的有()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:
字典可以表示二維以上的高維數(shù)據(jù)。17.特征工程一般需要做的工作包含()。A、正則化B、標(biāo)準(zhǔn)化C、特征處理D、特征選擇【正確答案】:CD解析:
特征工程包括特征選擇、特征處理、特征變換、特征衍生等。18.NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、圖存儲【正確答案】:ABCD解析:
NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括Key-Value、Key-Document、Key-Column、存儲。19.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲數(shù)據(jù),表結(jié)構(gòu)包含的元素有()。A、關(guān)鍵字B、時間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:
BigTable和HBase的索引由行關(guān)鍵字、列簇和時間戳組成。20.主要用來實(shí)現(xiàn)實(shí)時計(jì)算類應(yīng)用的組件有()。A、流計(jì)算組件B、內(nèi)存計(jì)算組件C、MPP數(shù)據(jù)庫D、Hadoop的后臺定時分析計(jì)算任務(wù)【正確答案】:AB解析:
實(shí)時計(jì)算類應(yīng)用主要通過流計(jì)算組件、內(nèi)存計(jì)算組件來實(shí)現(xiàn)。21.數(shù)據(jù)科學(xué)以數(shù)據(jù)尤其是大數(shù)據(jù)為研究對象,主要研究內(nèi)容包括()。A、數(shù)據(jù)加工B、數(shù)據(jù)管理C、數(shù)據(jù)計(jì)算D、數(shù)據(jù)產(chǎn)品開發(fā)【正確答案】:ABCD解析:
數(shù)據(jù)科學(xué)是一門以數(shù)據(jù),尤其是大數(shù)據(jù)為研究對象,并以數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等為理論基礎(chǔ),主要研究數(shù)據(jù)加工、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算、數(shù)據(jù)產(chǎn)品開發(fā)等活動的交叉性學(xué)科。22.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評估B、主動定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)D、應(yīng)對并解決因不遵守規(guī)則而產(chǎn)生的問題【正確答案】:BCD解析:
DGI(TheDataGovemanceInstitute)認(rèn)為數(shù)據(jù)治理是對數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動。它是一個信息處理過程中根據(jù)模型來執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。23.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為偽,但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫()。A、a錯誤B、β錯誤C、取偽錯誤D、棄真錯誤【正確答案】:BC解析:
a錯誤(棄真錯誤):當(dāng)原假設(shè)為真時,但我們錯誤地認(rèn)為“原偶的”,進(jìn)而導(dǎo)致拒絕這個正確假設(shè);β錯誤(取偽錯誤):當(dāng)原假設(shè)為假時,但我們錯誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯誤假設(shè)。24.下列關(guān)于單樣本Z檢驗(yàn)的說法正確的有()。A、在Python中,單樣本Z檢驗(yàn)可以使用scipy.stats.ttest_1samp()實(shí)現(xiàn)B、單樣本Z檢驗(yàn)適用于樣本量較大的情況C、單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量(近似)滿足正態(tài)分布D、單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個常量【正確答案】:BCD解析:
在Python中,單樣本Z檢驗(yàn)可以使用statsmodels.stats.weightstats.ztest實(shí)現(xiàn)。25.數(shù)據(jù)管理包含的管理活動有()。A、識別B、度量C、監(jiān)拉D、預(yù)警【正確答案】:ABCD解析:
數(shù)據(jù)管理指對數(shù)據(jù)生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控以及預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平是的數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。26.下列屬于數(shù)據(jù)統(tǒng)計(jì)分析工具的有()。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:
常用統(tǒng)計(jì)軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。27.噪聲數(shù)據(jù)的產(chǎn)生原因主要有()。A、數(shù)據(jù)采集設(shè)備有問題B、在數(shù)據(jù)錄入過程中發(fā)生了人為或計(jì)算機(jī)錯誤C、數(shù)據(jù)傳輸過程中發(fā)生錯誤D、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致【正確答案】:ABCD解析:
噪聲數(shù)據(jù)的產(chǎn)生原因主要有數(shù)據(jù)采集設(shè)備有問題、在數(shù)據(jù)錄入過程中發(fā)生了人為或計(jì)算機(jī)錯誤、數(shù)據(jù)傳輸過程中發(fā)生錯誤、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致。28.大數(shù)據(jù)偏見包括()。A、數(shù)據(jù)源的選擇偏見B、算法與模型偏見C、結(jié)果解讀方法的偏見D、數(shù)據(jù)呈現(xiàn)方式的偏見【正確答案】:ABCD解析:
大數(shù)據(jù)偏見是數(shù)據(jù)科學(xué)項(xiàng)目中必須關(guān)注和加以避免的問題,上述四個活動中均可能出現(xiàn)偏見。29.下列既可以用于分類,又可以用于回歸的機(jī)器學(xué)習(xí)算法有()。A、k近鄰B、邏輯回歸C、決策樹D、線性回歸【正確答案】:AC解析:
邏輯回歸只用于分類,線性回歸只用于回歸。30.下列為RDBMS中事務(wù)遵循原則的有()。A、原子性(Atomicity)B、一致性(Consistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:
關(guān)系數(shù)據(jù)庫中的事務(wù)需要具備一定的規(guī)則-ACID特征。ACID是指數(shù)據(jù)庫事務(wù)正確執(zhí)行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。31.下列關(guān)于中心極限定理的說法正確的有()。A、中心極限定理說明,對于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說明,對于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗(yàn)提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:
中心極限定理說明,對于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限。32.在數(shù)據(jù)安全領(lǐng)域常用的P2DR模型中,P、D和R代表的是()。A、策略B、防護(hù)C、檢測D、響應(yīng)【正確答案】:ABCD解析:
P2DR模型是美國ISS公司提出的一種動態(tài)網(wǎng)絡(luò)安全體系,認(rèn)為網(wǎng)絡(luò)安全是一種動態(tài)的、有條件的相對安全。P2DR模型包括四個主要部分:Policy(策略)、Protection(防護(hù))、Detection(檢測)和Response(響應(yīng))。其中,安全策略處于核心地位,為其他三個組成部分提供支持和指導(dǎo),而保護(hù)、檢測和響應(yīng)為網(wǎng)絡(luò)安全的三個基本活動。33.數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標(biāo)包括()。A、精確性B、可辨認(rèn)性C、可分離性D、視覺突出性【正確答案】:ABCD解析:
在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺突出性。評價指標(biāo)描述如下:①精確性代表的是人類感知系統(tǒng)對于可視化編碼結(jié)果和原始數(shù)據(jù)之間的吻合程度。斯坦福大學(xué)Mackinlay曾于1986年提出了不同視覺通道所表示信息的精確性。②可辨認(rèn)性是指視覺通道的可辨認(rèn)度。③可分離性是指同一個視覺圖形元素的不同視覺通道的表現(xiàn)力之間應(yīng)具備一定的獨(dú)立性。④視覺突出性是指視覺編碼結(jié)果能否在很短的時間內(nèi)(如毫秒級)能夠迅速準(zhǔn)確表達(dá)出可視化編碼的主要意圖。34.下列描述中屬于Analytics2.0主要特點(diǎn)的有()。A、側(cè)重嵌入式分析B、重視非結(jié)構(gòu)化數(shù)據(jù)的分析C、以決策支持為主要目的D、注重解釋性分析和預(yù)測性分析【正確答案】:BCD解析:
著名管理學(xué)家Thomas·H·Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具-分析學(xué)(Analytics)分為三個不同時代-商務(wù)智能時代、大數(shù)據(jù)時代和數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics2.0的主要特點(diǎn)有分析活動與數(shù)據(jù)的生成幾乎同步,強(qiáng)調(diào)數(shù)據(jù)分析的實(shí)時性;重視非結(jié)構(gòu)化數(shù)據(jù)的分析;以決策支持為主要目的;注重解釋性分析和預(yù)測性分析。35.區(qū)塊鏈?zhǔn)牵ǎ┑扔?jì)算機(jī)技術(shù)的新型應(yīng)用模式。A、分布式數(shù)據(jù)存儲B、點(diǎn)對點(diǎn)傳輸C、共識機(jī)制D、加密算法【正確答案】:ABCD解析:
區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲、點(diǎn)對點(diǎn)傳輸、共識機(jī)制、加密算法等計(jì)算機(jī)技術(shù)的新型應(yīng)用模式。36.下列關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函數(shù)的說法正確的有()。A、一個客服一天可能接聽到多少個電話是一個連續(xù)型隨機(jī)變量B、正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布C、可以使用概率密度函數(shù)來描述連續(xù)型隨機(jī)變量的概率分布D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1【正確答案】:BCD解析:
一個客服一天可能接聽到多少個電話是一個離散型隨機(jī)變量。37.下列描述中屬于特征選擇的優(yōu)點(diǎn)有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】:BCD解析:
特征選擇無法克服模型自身的缺陷,二者是獨(dú)立的。38.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運(yùn)用()等技術(shù)等多個學(xué)科領(lǐng)域的知識,以實(shí)現(xiàn)人機(jī)協(xié)同完成可視化任務(wù)為主要目的的分析推理學(xué)科。A、物理學(xué)B、圖形學(xué)C、數(shù)據(jù)挖掘D、人機(jī)交互【正確答案】:BCD解析:
可視分析學(xué)(VisualAnalytics);科學(xué)可視化和信息可視化理論的進(jìn)一步演變以及與其他學(xué)科相互交融發(fā)展之后的結(jié)果。在數(shù)據(jù)科學(xué)中,通常采用數(shù)據(jù)可視化的廣義定義方法,并以可視分析學(xué)為主要理論基礎(chǔ)。39.使用極大似然估計(jì)的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分?jǐn)?shù)據(jù)集C、提前已知某先驗(yàn)概率D、數(shù)據(jù)集各個屬性相對獨(dú)立【正確答案】:AB解析:
極大似然估計(jì)(MLE)要求樣本獨(dú)立同分布,否則無法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實(shí)的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。40.下列關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較的說法正確的有()。A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B、歸納學(xué)習(xí)論證方式為統(tǒng)計(jì)推理,分析學(xué)習(xí)為演繹推理C、歸納學(xué)習(xí)不需要先驗(yàn)知識D、訓(xùn)練數(shù)據(jù)不足時歸納學(xué)習(xí)可能會失敗【正確答案】:ABCD解析:
分析學(xué)習(xí)是相對于歸納學(xué)習(xí)的一種提法,其特點(diǎn)是使用先驗(yàn)知識來分析或解釋每個訓(xùn)練樣本,以推理出樣本的哪些特征與目標(biāo)函數(shù)相關(guān)或不相關(guān)。因此,這些解釋能使機(jī)器學(xué)習(xí)系統(tǒng)比單獨(dú)依靠數(shù)據(jù)進(jìn)行泛化有更高的精度。分析學(xué)習(xí)使用先驗(yàn)知識來減小待搜索假設(shè)空間的復(fù)雜度,減小了樣本復(fù)雜度并提高了機(jī)器學(xué)習(xí)系統(tǒng)的泛化精度??梢?,分析學(xué)習(xí)與歸納學(xué)習(xí)的優(yōu)缺點(diǎn)在一定程度上具有互補(bǔ)性,分析學(xué)習(xí)方法的優(yōu)點(diǎn)在于可用先驗(yàn)知識從較少的數(shù)據(jù)中更精確地泛化以引導(dǎo)學(xué)習(xí)。但是,當(dāng)先驗(yàn)知識不正確或不足時,分析學(xué)習(xí)的缺點(diǎn)也會被突顯;歸納學(xué)習(xí)具有的優(yōu)點(diǎn)是不需要顯式的先驗(yàn)知識,并且主要基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)到規(guī)律。然而,若訓(xùn)練數(shù)據(jù)不足時它能會失敗,并且會被其中隱式的歸納偏置所誤導(dǎo),而歸納偏置是從觀察數(shù)據(jù)中泛化所必需的過程。因此,我們可以考慮如何將二者結(jié)合成一個單獨(dú)的算法,以獲得它們各自的優(yōu)點(diǎn)。41.分布式列式存儲的功能有()。A、支持在線快速讀寫B(tài)、支持線性擴(kuò)展C、具備節(jié)點(diǎn)監(jiān)控管理D、數(shù)據(jù)同源不壓縮【正確答案】:ABC解析:
分布式列式存儲的功能包括數(shù)據(jù)壓縮。42.下列說法中正確的有()。A、云計(jì)算的主要特點(diǎn)是非常昂貴B、大數(shù)據(jù)是多源、異構(gòu)、動態(tài)的復(fù)雜數(shù)據(jù),即具有4V特征的數(shù)據(jù)C、大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對象之一D、MapReduce是采用云計(jì)算這種新的計(jì)算模式研發(fā)出的具體工具軟件(或算法)【正確答案】:BCD解析:
云計(jì)算的一個重要優(yōu)勢在于其經(jīng)濟(jì)性。與其他計(jì)算模式不同的是,云計(jì)算的出發(fā)點(diǎn)是如何使用成本低的商用機(jī)(而不是成本很高的高性能服務(wù)器)實(shí)現(xiàn)強(qiáng)大的計(jì)算能力。43.數(shù)據(jù)科學(xué)基本原則中,“三世界”原則指的是()。A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】:ABC解析:
大數(shù)據(jù)時代的到來,在我們的精神世界和物理世界之間出現(xiàn)了一種新的世界-數(shù)據(jù)世界。因此,在數(shù)據(jù)科學(xué)中,通常需要研究如何運(yùn)用數(shù)據(jù)世界中已存在的痕跡數(shù)據(jù)的方式解決物理世界中的具體問題,而不是直接到物理世界,采用問卷和訪談等方法親自收集采訪數(shù)據(jù)。相對于采訪數(shù)據(jù),痕跡數(shù)據(jù)更具有客觀性。圖靈獎獲得者JimGray提出的科學(xué)研究第四范式-數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)是“三世界”原則的代表性理論之一。44.下列關(guān)于隨機(jī)變量及其概率分布的說法正確的有()。A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B、隨機(jī)變量的概率分布指的是一個隨機(jī)變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:
扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。45.下列為離散型變量的有()。A、示波器B、心電圖及腦動電圖掃描器對腦電波的測量C、過去數(shù)月的總銷售額D、公司每年的紅利【正確答案】:CD解析:
在統(tǒng)計(jì)學(xué)中,變量按其數(shù)值表現(xiàn)是否連續(xù),分為連續(xù)變量和離散變量。離散變量指變量值可以按一定順序一一列舉,通常以整數(shù)位取值的變量,如職工人數(shù)、工廠數(shù)、機(jī)器臺數(shù)等。有些性質(zhì)上屬于連續(xù)變量的現(xiàn)象也按整數(shù)取值,即可以把它們當(dāng)做離散變量來看待。例如年齡、評定成績等雖屬連續(xù)變量,但一般按整數(shù)計(jì)算,按離散變量來處理。離散變量的數(shù)值用計(jì)數(shù)的方法取得。46.以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)方面有()。A、數(shù)據(jù)驅(qū)動B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】:ABC解析:
以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的以數(shù)據(jù)中心的特征不僅體現(xiàn)在以數(shù)據(jù)為核心生產(chǎn)要素,而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動、數(shù)據(jù)密集和數(shù)據(jù)范式。47.下列關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系的說法正確的有()。A、基礎(chǔ)設(shè)施提供數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲、數(shù)據(jù)加工(DataWrangling或DataMunging)等服務(wù)B、數(shù)據(jù)流處理、統(tǒng)計(jì)工具、日志分析都屬于常用的開源工具C、數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機(jī)構(gòu)D、數(shù)據(jù)源與App為數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內(nèi)容【正確答案】:ABCD解析:
Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當(dāng)時快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到了廣泛應(yīng)用和不斷更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017大數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開源工具、跨平臺基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。48.下列關(guān)于數(shù)據(jù)產(chǎn)品研發(fā)的說法錯誤的有()。A、從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B、一次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題C、二次數(shù)據(jù)是對一次數(shù)據(jù)進(jìn)行深度處理或分析后得到的增值數(shù)據(jù)D、三次數(shù)據(jù)是對二次數(shù)據(jù)進(jìn)行洞察與分析后得到的、可以直接用于決策支持的洞見數(shù)據(jù)【正確答案】:ABD解析:
二次數(shù)據(jù)是一種按照信息的生產(chǎn)過程和加工深度進(jìn)行對信息
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度廣東省新型城鎮(zhèn)化背景下住宅租賃合同
- 2025年度幼兒園裝修工程保修服務(wù)協(xié)議
- 2025年度按揭房屋轉(zhuǎn)讓與貸款利率調(diào)整協(xié)議
- 2025年度養(yǎng)豬場養(yǎng)殖廢棄物處理設(shè)施運(yùn)營管理合同
- 2025年度戶口分家及遺產(chǎn)繼承協(xié)議書模板
- 2025年度海洋資源資產(chǎn)托管與可持續(xù)發(fā)展服務(wù)協(xié)議
- 2025年度山林流轉(zhuǎn)與生態(tài)農(nóng)業(yè)開發(fā)合同
- 2025年度商業(yè)地產(chǎn)合租運(yùn)營管理服務(wù)協(xié)議
- 辦公家具運(yùn)輸簡易合同
- 2025年度房地產(chǎn)合伙人股權(quán)分配與項(xiàng)目開發(fā)協(xié)議
- GB 1002-2024家用和類似用途單相插頭插座型式、基本參數(shù)和尺寸
- 中醫(yī)備案診所污水、污物、糞便處理方案及周邊環(huán)境情況說明
- 《房地產(chǎn)開發(fā)與經(jīng)營》全套教學(xué)課件
- DL∕T 838-2017 燃煤火力發(fā)電企業(yè)設(shè)備檢修導(dǎo)則
- 銀行外拓營銷方法
- 湖北省武漢市江漢區(qū)2023-2024學(xué)年七年級下學(xué)期期末數(shù)學(xué)試題
- 四肢創(chuàng)傷影像(X線)診斷
- 2023年湖北省襄陽市中考地理真題(含解析)
- 2023-2024學(xué)年統(tǒng)編版高中語文選擇性必修下冊古詩詞誦讀《客至》課件
- 城市道路施工作業(yè)區(qū)規(guī)范資料匯編
- DL-T5153-2014火力發(fā)電廠廠用電設(shè)計(jì)技術(shù)規(guī)程
評論
0/150
提交評論