版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第頁大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試附答案1.下列描述中不屬于數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)“三同步”原則的是()。A、同步規(guī)劃B、同步建設(shè)C、同步使用D、同步運維【正確答案】:D解析:
數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)包含同步規(guī)劃、同步建設(shè)、同步使用三項原則。2.數(shù)據(jù)變換的策略包括()。A、平滑處理、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、離散化B、平滑處理、特征構(gòu)造、聚集、審計、離散化C、平滑處理、聚集、標(biāo)準(zhǔn)化、審計、離散化D、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、審計、離散化【正確答案】:A解析:
數(shù)據(jù)變換的策略不包括審計。3.下列關(guān)于數(shù)據(jù)相關(guān)性的說法錯誤的是()。A、相關(guān)性體現(xiàn)了大數(shù)據(jù)的靈魂B、相關(guān)性思維實現(xiàn)了從“為什么”到“是什么”的思維轉(zhuǎn)變C、相關(guān)性關(guān)注事物的因果關(guān)系D、相關(guān)性關(guān)注事物的相關(guān)關(guān)系【正確答案】:C解析:
相關(guān)性是指兩個變量的關(guān)聯(lián)程度,可以有正相關(guān)、負(fù)相關(guān)、不相關(guān)。4.下列不屬于大數(shù)據(jù)在社會活動中的典型應(yīng)用的是()。A、美團(tuán)實現(xiàn)了快速精準(zhǔn)的送餐服務(wù)B、共享單車、滴滴打車方便了人們的日常出行C、快遞實現(xiàn)了訂單的實時跟蹤D、供電公司提供電費賬單查詢【正確答案】:D解析:
電費賬單查詢屬于簡單報表查詢,用電情況分析、竊電行為分析、基于交易大數(shù)據(jù)分析用戶的購買習(xí)慣、基于傳感器感知的海量數(shù)據(jù)分析自然災(zāi)害的危害程度、基于搜索引擎的搜索關(guān)鍵詞分析社會熱點等屬于大數(shù)據(jù)應(yīng)用。5.BASE原則的含義不包括()。A、基本可用B、柔性狀態(tài)C、最終一致D、基礎(chǔ)條件【正確答案】:D解析:
BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventallyConsistent(最終--致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致狀態(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實時一致,系統(tǒng)在某一個時刻后達(dá)到一致性要求即可。6.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()。A、可關(guān)聯(lián)性B、可溯源性C、可理解性D、可復(fù)制性【正確答案】:A解析:
數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,降低數(shù)據(jù)的失用、失信和失控的風(fēng)險??坍嫈?shù)據(jù)連續(xù)性的特點描述如下:①可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是不同數(shù)據(jù)對象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的“失用”風(fēng)險。②可溯源性是在時間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個數(shù)據(jù)對象的歷史版本之間的連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理、可信度評估以及預(yù)測分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)的“失信”風(fēng)險。③可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)與其產(chǎn)生、管理和維護(hù)的主體(包括人與計算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)據(jù)可理解性的意義在于降低數(shù)據(jù)的“失控”風(fēng)險。7.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革的是()。A、不是隨機(jī)樣本,而是全體數(shù)據(jù)B、不是精確性,而是混雜性C、不是描述性分析,而是預(yù)測性分析D、不是因果關(guān)系,而是相關(guān)關(guān)系【正確答案】:C解析:
Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革:①不是隨機(jī)樣本,而是全體數(shù)據(jù):大數(shù)據(jù)時代應(yīng)遵循“樣本=總體”的理念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。②不是精確性,而是混雜性;大數(shù)據(jù)時代應(yīng)承認(rèn)數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。③不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時代的思想方式應(yīng)轉(zhuǎn)變--不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。8.在抽樣方法中,當(dāng)合適的樣本容量很難確定時,可以使用的抽樣方法是()。A、有放回的簡單隨機(jī)抽樣B、無放回的簡單隨機(jī)抽樣C、分層抽樣D、漸進(jìn)抽樣【正確答案】:D解析:
略。9.下列不屬于視覺通道表現(xiàn)力評價指標(biāo)的是()。A、精確性B、可辨認(rèn)性C、可分離性D、可轉(zhuǎn)換性【正確答案】:D解析:
在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道表現(xiàn)力的評價指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺突出性。10.數(shù)據(jù)科學(xué)是一門以()為主要研究任務(wù)的獨立學(xué)科。A、數(shù)據(jù)驅(qū)動、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞見、數(shù)據(jù)產(chǎn)品研發(fā)和(或)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)B、數(shù)據(jù)研發(fā)C、數(shù)據(jù)處理D、數(shù)據(jù)洞見【正確答案】:A解析:
數(shù)據(jù)科學(xué)是一門以實現(xiàn)從數(shù)據(jù)到信息、從數(shù)據(jù)到知識和(或)從數(shù)據(jù)到智慧的轉(zhuǎn)化為主要研究目的,以數(shù)據(jù)驅(qū)動、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞見、數(shù)據(jù)產(chǎn)品研發(fā)和(或)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)為主要研究任務(wù)的獨立學(xué)科。11.下列判斷錯誤的是()。A、XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)B、JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)C、PPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)D、音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:B解析:
JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。12.下列不屬于數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)區(qū)別的是(A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學(xué)關(guān)注的不僅僅是“單一學(xué)科”問題,超出了數(shù)學(xué)、統(tǒng)計學(xué)、計算機(jī)科學(xué)等單一學(xué)科的范疇C、數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)域?qū)崉?wù)知識,它關(guān)注和強(qiáng)調(diào)的是二者的結(jié)合D、數(shù)據(jù)科學(xué)和統(tǒng)計學(xué)中的計算一樣,僅僅是加減乘除【正確答案】:D解析:
數(shù)據(jù)科學(xué)中的計算并不僅僅是加/減/乘/除等數(shù)學(xué)計算,而是包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型的計算。13.因子分析把每個原始變量分解為()兩部分因素。A、公共因子和特殊因子B、特殊因子和相關(guān)因子C、相關(guān)因子和獨立因子D、獨立因子和公共因子【正確答案】:A解析:
因子分析把每個原始變量分解為公共因子和特殊因子兩部分因素。14.新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和()。A、數(shù)據(jù)倉庫B、關(guān)系云C、數(shù)據(jù)庫系統(tǒng)D、文件系統(tǒng)【正確答案】:B解析:
關(guān)系云是在云計算環(huán)境中部署和虛擬化的關(guān)系數(shù)據(jù)庫,進(jìn)而使傳統(tǒng)關(guān)系數(shù)據(jù)庫具備云計算的彈性計算、虛擬化、按需服務(wù)和高經(jīng)濟(jì)性等特征。關(guān)系云代表了數(shù)據(jù)管理的一個重要發(fā)展方向。15.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行()等處理的過程。A、更正B、刪除C、補(bǔ)充錄入D、以上答案都正確【正確答案】:D解析:
數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行更正、刪除、補(bǔ)充錄入等處理的過程。16.診斷性分析主要采取的分析方法是()。A、關(guān)聯(lián)分析法和因果分析法B、關(guān)聯(lián)分析法和分類分析法C、關(guān)聯(lián)分析法和運籌學(xué)D、因果分析法和分類分析法【正確答案】:A解析:
診斷性分析主要關(guān)注過去,回答為什么發(fā)生,主要采用關(guān)聯(lián)分析法和因果分析17.下列關(guān)于基本元數(shù)據(jù)描述正確的是()。A、基本元數(shù)據(jù)是與數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理、分析處理以及管理方面的信息【正確答案】:D解析:
基本元數(shù)據(jù)(Metadata)又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)。18.關(guān)系數(shù)據(jù)庫中存儲、計算和管理的數(shù)據(jù)是()。A、結(jié)構(gòu)化數(shù)據(jù)B、海量數(shù)據(jù)C、半結(jié)構(gòu)化數(shù)據(jù)D、非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:A解析:
通常,結(jié)構(gòu)化數(shù)據(jù)是指直接可以用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲、計算和管理的數(shù)據(jù)。19.()是指給目標(biāo)用戶產(chǎn)生的錯誤或不準(zhǔn)確的視覺感知,而這種感知與數(shù)據(jù)可化者的意圖或數(shù)據(jù)本身的真實情況不一致。A、視覺假象B、視覺認(rèn)知C、視覺感知D、數(shù)據(jù)可視【正確答案】:A解析:
視覺假象(VisualIllusion)是數(shù)據(jù)可視化工作中不可忽略的特殊問題。視覺假象是指給目標(biāo)用戶產(chǎn)生的錯誤或不準(zhǔn)確的視覺感知,而這種感知與數(shù)據(jù)可視化者的意圖或數(shù)據(jù)本身的真實情況不一致。20.在數(shù)據(jù)科學(xué)中,通常下載R的包的服務(wù)器是()。A、PIPB、CRANC、RstudioD、PyP1【正確答案】:B解析:
CRAN的全稱為TheComprehensiveRArchivcNetwork,在R編程中通常從該服務(wù)器下載所需包。21.下列關(guān)于數(shù)據(jù)科學(xué)流程與方法的描述錯誤的是()。A、數(shù)據(jù)科學(xué)的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)、數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見、結(jié)果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供B、對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過清洗成為規(guī)整數(shù)據(jù)C、數(shù)據(jù)分析包括描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析D、數(shù)據(jù)可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺假象【正確答案】:B解析:
對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過規(guī)整化處理(DataTyding)成為規(guī)整數(shù)據(jù)。22.下列關(guān)于數(shù)據(jù)分析的說法正確的是()。A、描述性分析和預(yù)測性分析是診斷性分析的基礎(chǔ)B、診斷性分析是對規(guī)范性分析的進(jìn)一步理解C、預(yù)測性分析是規(guī)范性分析的基礎(chǔ)D、規(guī)范性分析是數(shù)據(jù)分析的最高階段,可以直接產(chǎn)生產(chǎn)業(yè)價值【正確答案】:C解析:
在數(shù)據(jù)分析中,流程分為以下方式:描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析。23.下列不屬于數(shù)據(jù)脫敏要求的是()。A、雙向性B、單向性C、無殘留D、易于實現(xiàn)【正確答案】:A解析:
數(shù)據(jù)脫敏操作不能停留在簡單地將敏感信息屏蔽掉或匿名處理。數(shù)據(jù)脫敏操作必須滿足以下3個要求:單向性、無殘留、易于實現(xiàn)。24.在著名管理學(xué)家Thomas·H.Davernport在《哈佛商業(yè)論壇》上發(fā)表的題為《第三代分析學(xué)(Analytics3.0)》的經(jīng)典論文中,Analytics3.0時代是指()。A、商務(wù)智能時代B、大數(shù)據(jù)時代C、數(shù)據(jù)富足供給時代D、數(shù)據(jù)智能時代【正確答案】:C解析:
Analytics3.0的名稱為數(shù)據(jù)富足供給時代(Data-enrichedOfferings)。與Analytics2.0不同的是,Analytics3.0中數(shù)據(jù)分析更為專業(yè)化,從技術(shù)實現(xiàn)和常用工具角度看,Analytics3.0將采用更為專業(yè)的分析工具,而不再直接采用Hadoop、Spark、NoSQL等大數(shù)據(jù)分析技術(shù)。同時,數(shù)據(jù)分析工作也由專業(yè)從事數(shù)據(jù)分析的數(shù)據(jù)科學(xué)家-首席分析師完成,數(shù)據(jù)科學(xué)家的類型將得到進(jìn)一步細(xì)化。25.下列關(guān)于等距離散化和等頻離散化的敘述不正確的是()。A、等距離散化是將連續(xù)型特征的取值區(qū)間均勻地劃分成多個區(qū)間段B、等距離散化對數(shù)據(jù)離群值不敏感C、等頻離散化考慮了區(qū)間段中的樣本個數(shù),使每個區(qū)間段的樣本數(shù)相同D、等頻離散化會將相似的樣本劃分到不同的區(qū)間【正確答案】:B解析:
等距離散化對數(shù)據(jù)離群值敏感。26.()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價值越高。A、規(guī)模B、靈活性C、關(guān)聯(lián)度D、顆粒度【正確答案】:D解析:
顆粒度反映的是數(shù)據(jù)的精細(xì)化程度。27.相關(guān)關(guān)系是一種與函數(shù)關(guān)系區(qū)別的非確定性關(guān)系,而相關(guān)分析就是研究事物或象之間是否存在這種非確定性關(guān)系的統(tǒng)計方法,下列不屬于相關(guān)性分析方法的()。A、Pearson相關(guān)系數(shù)B、Spearman秩相關(guān)系數(shù)C、Kendall相關(guān)系數(shù)D、傅里葉系數(shù)【正確答案】:D解析:
傅里葉系數(shù)由Fouriercoefficient翻譯而來,有多個中文譯名。它是數(shù)學(xué)分析中的個概念,常常被應(yīng)用在信號處理領(lǐng)域中。對于任意的周期信號,如果滿足一定條件,都可以展開三角函數(shù)的線性組合,每個展開項的系數(shù)稱為傅里葉系數(shù),不能用于解釋相關(guān)性。28.下列關(guān)于組織機(jī)構(gòu)的數(shù)據(jù)管理成熟度等級劃分中的已執(zhí)行級的描述錯誤的是()。A、在具體項目中,DMM關(guān)鍵過程域(KPA)中給出的關(guān)鍵過程已被執(zhí)行,但隨意性和臨時性較大B、DMM關(guān)鍵過程的執(zhí)行不僅僅局限于特定業(yè)務(wù)范疇,存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過程C、缺少針對DMM關(guān)鍵過程的反饋與優(yōu)化D、雖然有可能在特定業(yè)務(wù)過程中進(jìn)行了基礎(chǔ)性改進(jìn),但沒有進(jìn)行持續(xù)跟進(jìn),也未拓展到整個組織機(jī)構(gòu)【正確答案】:B解析:
DMM的執(zhí)行級(PerformedLevel):組織機(jī)構(gòu)只在個別項目的范圍之內(nèi)執(zhí)行了DMM給出的關(guān)鍵過程,但缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理。主要特點如下:①在具體項目中,DMM關(guān)鍵過程域(KPA)中給出的關(guān)鍵過程(KcyProcess)已被執(zhí)行,但隨意性和臨時性較大。②DMM關(guān)鍵過程(KeyProcess)的執(zhí)行往往僅限于特定業(yè)務(wù)范疇,很少存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過程。③缺少針對DMM關(guān)鍵過程(KeyProcess)的反饋與優(yōu)化。以DMM關(guān)鍵過程(KeyProcess)中的數(shù)據(jù)質(zhì)量為例,其數(shù)據(jù)管理工作可能過于集中在一個特定業(yè)務(wù),如數(shù)據(jù)修復(fù)活動,并沒有擴(kuò)散到整個的業(yè)務(wù)范圍或并沒有開展對數(shù)據(jù)修復(fù)活動本身的反饋與優(yōu)化工作;④雖然有可能在特定業(yè)務(wù)過程中已進(jìn)行了基礎(chǔ)性改進(jìn),但沒有進(jìn)行持續(xù)跟進(jìn),也未拓展到整個組織機(jī)構(gòu);⑤組織機(jī)構(gòu)沒有統(tǒng)籌其數(shù)據(jù)管理工作,而數(shù)據(jù)管理活動局限在具體項目中,主要按照其具體項目的實施需求進(jìn)行,如果一個具體項目中需要進(jìn)行數(shù)據(jù)管理,可能會執(zhí)行DMM中給出的相關(guān)過程,反之亦然。29.下列關(guān)于數(shù)據(jù)倉庫開發(fā)特點的描述不正確的是()。A、數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)B、數(shù)據(jù)倉庫使用的需求在開發(fā)初期就要明確C、數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D、在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式【正確答案】:A解析:
數(shù)據(jù)倉庫開發(fā)要從需求出發(fā)。30.已知一組數(shù)據(jù)的協(xié)方差矩陣,下列關(guān)于主分量說法的錯誤的是()。A、主分量分析的最佳準(zhǔn)則是對一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對角矩陣C、主分量分析就是K-L變換D、主分量是通過求協(xié)方差矩陣的特征值得到【正確答案】:C解析:
K-L變換與PCA變換是不同的概念,PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當(dāng)K-L變換矩陣為協(xié)方差矩陣時,等同于PCA。31.下列關(guān)于計算機(jī)存儲容量單位的說法錯誤的是()。A、1kBB、基本單位是字節(jié)(Byte)C、一個漢字需要一個字節(jié)的存儲空間D、一個字節(jié)能夠容納一個英文字符【正確答案】:C解析:
通常,一個漢字需要兩個字節(jié)的存儲空間。32.下列不能作為數(shù)據(jù)科學(xué)數(shù)據(jù)源的是()。A、醫(yī)院里的病歷、檢查、診斷等與健康相關(guān)的數(shù)據(jù)B、物聯(lián)網(wǎng)中涉及設(shè)備運行情況的日志數(shù)據(jù)C、金融領(lǐng)域客戶的借款記錄以及信用情況D、個人電腦中用于備忘的日記【正確答案】:D解析:
數(shù)據(jù)科學(xué)數(shù)據(jù)源的前提條件是數(shù)據(jù)需要具備規(guī)律性、周期性等特征,個人電腦中用于備忘的日記一般不具備規(guī)律性。33.下列描述中不屬于向量空間模型缺陷的是()。A、維度災(zāi)難B、模型稀疏性C、語義信息缺失D、無法計算文本相似度【正確答案】:D解析:
無法計算文本相似度的原因有出現(xiàn)新詞在向量模型中沒有該詞匯或分詞工具對于詞匯切分與上次不同等其他原因。34.在一些算法中,為了進(jìn)行屬性之間的比較或運算,需要把不同屬性的不同變量取值范圍變換成同一范圍,以免使得結(jié)果發(fā)生扭曲,偏向取值范圍大的變量。這一過程稱為()。A、合并B、數(shù)據(jù)聚合C、歸一化D、數(shù)據(jù)處理【正確答案】:C解析:
歸一化是一種無量綱處理手段,使物理系統(tǒng)數(shù)值的絕對值變成某種相對值關(guān)系,是簡化計算、縮小量值的有效辦法。35.下列關(guān)于數(shù)據(jù)產(chǎn)品開發(fā)關(guān)鍵環(huán)節(jié)的描述正確的是()。A、數(shù)據(jù)收集B、數(shù)據(jù)預(yù)處理C、數(shù)據(jù)學(xué)習(xí)D、數(shù)據(jù)加工【正確答案】:D解析:
數(shù)據(jù)加工(DataWrangling或DataMunging)是數(shù)據(jù)產(chǎn)品開發(fā)的關(guān)鍵環(huán)節(jié)。36.數(shù)據(jù)科學(xué)處于()三大領(lǐng)域的重疊之處。A、數(shù)學(xué)與統(tǒng)計知識、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識B、數(shù)據(jù)挖掘、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識C、數(shù)學(xué)與統(tǒng)計知識、數(shù)據(jù)挖掘、領(lǐng)域?qū)崉?wù)知識D、數(shù)學(xué)與統(tǒng)計知識、黑客精神與技能、數(shù)據(jù)挖掘【正確答案】:A解析:
根據(jù)DrewConway的數(shù)據(jù)科學(xué)韋恩圖(DataScienceVennDiagram),數(shù)據(jù)科學(xué)處于數(shù)學(xué)與統(tǒng)計知識、黑客精神與技能和領(lǐng)域?qū)崉?wù)知識等三大領(lǐng)域的交叉之處。37.2003年,Tableau在斯坦福大學(xué)誕生,它起源于一種改變數(shù)據(jù)使用方式的新技術(shù),即()A、VizQL語言B、SQL語言C、XSQL語言D、NewSQL語言【正確答案】:A解析:
VizQL是一種可視化查詢語言,可將拖放動作轉(zhuǎn)化為數(shù)據(jù)查詢,然后以可視化的形式表達(dá)數(shù)據(jù),是Tableau的起源。38.下列關(guān)于數(shù)據(jù)清洗的說法不正確的是()。A、對單數(shù)據(jù)源,主鍵取值不能重復(fù)B、多數(shù)據(jù)源會存在數(shù)據(jù)重復(fù)、單位不一致的問題C、連續(xù)型數(shù)據(jù)不存在冗余問題D、缺失值可以采用刪除和填補(bǔ)等方法處理【正確答案】:C解析:
連續(xù)型數(shù)據(jù)可能存在冗余問題。39.下列關(guān)于缺失值填補(bǔ)的說法不正確的是()。A、填補(bǔ)數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B、Pandas.dropna可以用來填補(bǔ)缺失值C、用平均值填補(bǔ)會引入相關(guān)D、啞變量填補(bǔ)是將缺失值當(dāng)做一類新特征處理【正確答案】:B解析:
Pandas.dropna可以用來刪除缺失值。40.下列不屬于數(shù)據(jù)預(yù)處理方法的是()。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)統(tǒng)計【正確答案】:D解析:
數(shù)據(jù)統(tǒng)計并非為數(shù)據(jù)預(yù)處理的常見內(nèi)容。41.下列描述中不屬于數(shù)據(jù)治理內(nèi)容的是()。A、理解自己的數(shù)據(jù)B、行為規(guī)范的制定C、崗位職責(zé)的定義D、獲得更多的數(shù)據(jù)【正確答案】:D解析:
獲得更多的數(shù)據(jù)不屬于數(shù)據(jù)治理。42.從復(fù)雜度及價值高低兩個維度,可以將數(shù)據(jù)分析分為()。A、描述性分析、診斷性分析、預(yù)測性分析、探索性分析B、探索性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析C、探索性分析、描述性分析、預(yù)測性分析、規(guī)范性分析D、描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析【正確答案】:D解析:
大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實際的數(shù)據(jù)而不僅僅依賴于過去的經(jīng)驗或者直覺。根據(jù)分析結(jié)果的不同,我們大致可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析四類,不同的分析類型將需要不同的技術(shù)和分析算法。43.下列關(guān)于在回歸分析中解釋變量與非解釋變量的說法正確的是()。A、解釋變量和被解釋變量都是隨機(jī)變量B、解釋變量為非隨機(jī)變量,被解釋變量為隨機(jī)變量C、解釋變量和被解釋變量都為非隨機(jī)變量D、解釋變量為隨機(jī)變量,被解釋變量為非隨機(jī)變量【正確答案】:B解析:
在回歸分析中,解釋變量可以理解為自變量,具有確定性,因此為非隨機(jī)變量被解釋變量可以理解為因變量,具有隨機(jī)性,因此為隨機(jī)變量。44.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種,不屬于大數(shù)據(jù)涌現(xiàn)形式的是()。A、價值涌現(xiàn)B、隱私涌現(xiàn)C、物質(zhì)涌現(xiàn)D、質(zhì)量涌現(xiàn)【正確答案】:C解析:
大數(shù)據(jù)并不等同于小數(shù)據(jù)的集合。從小數(shù)據(jù)到大數(shù)據(jù)的過程中出現(xiàn)了涌現(xiàn)現(xiàn)象,涌現(xiàn)才是大數(shù)據(jù)的本質(zhì)特征。涌現(xiàn)(Emergence)就是系統(tǒng)大于元素之和,或者系統(tǒng)在跨越層次時,出現(xiàn)了新的質(zhì)。大數(shù)據(jù)涌現(xiàn)現(xiàn)象的具體表現(xiàn)形式有多種,如價值涌現(xiàn)、隱私涌現(xiàn)、質(zhì)量涌現(xiàn)和安全涌現(xiàn)等。45.數(shù)據(jù)管理成熟度模型-DMM將一個機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、()、數(shù)據(jù)質(zhì)量、平臺與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。A、數(shù)據(jù)管理B、數(shù)據(jù)治理C、數(shù)據(jù)策略D、數(shù)據(jù)安全【正確答案】:B解析:
DMM模型將一個機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量、平臺與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。46.關(guān)系云的一個重要功能是提供()。A、數(shù)據(jù)庫即服務(wù)B、虛擬服務(wù)C、彈性計算D、按需服務(wù)【正確答案】:A解析:
關(guān)系云的一個重要功能是提供數(shù)據(jù)庫即服務(wù)(DatabaseasaService),用戶無須在本機(jī)安裝數(shù)據(jù)庫管理軟件,也不需要搭建自己的數(shù)據(jù)管理集群,而只需要使用服務(wù)提供商提供的數(shù)據(jù)庫服務(wù)。47.數(shù)據(jù)的可用性取決于()。A、數(shù)據(jù)分析B、數(shù)據(jù)集采C、數(shù)據(jù)質(zhì)量D、數(shù)據(jù)需求【正確答案】:C解析:
略。48.集群的最主要“瓶頸”通常是()。A、CPUB、網(wǎng)絡(luò)C、磁盤I/OD、內(nèi)存【正確答案】:C解析:
磁盤I/O是不可擴(kuò)充的,其他的可以擴(kuò)充。49.數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù)是數(shù)據(jù)產(chǎn)品研發(fā)的()。A、零次數(shù)據(jù)B、一次數(shù)據(jù)C、二次數(shù)據(jù)D、采集數(shù)據(jù)【正確答案】:A解析:
零次數(shù)據(jù)是數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù),如各種感知儀器設(shè)備中直接生成的數(shù)據(jù)。零次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題。50.數(shù)據(jù)科學(xué)家可能會同時使用多個算法(模型)進(jìn)行預(yù)測,并且把這些算法的結(jié)果集成起來進(jìn)行最后的預(yù)測(集成學(xué)習(xí)),下列關(guān)于集成學(xué)習(xí)的說法正確的是()。A、單個模型之間具有高相關(guān)性B、單個模型之間具有低相關(guān)性C、在集成學(xué)習(xí)中使用平均權(quán)重而不是投票會比較好D、單個模型都用同一個算法【正確答案】:B解析:
集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型以期得到一個更好、更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個弱模型得到了錯誤的預(yù)測,其他的弱模型也可以將錯誤
糾正回來。某一個弱模型要有一定的準(zhǔn)確性,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個體學(xué)習(xí)器間具有差異。集成中既可包含同種類型的弱模型,也可包含不同類型的弱模型。51.下列關(guān)于數(shù)據(jù)科學(xué)的描述錯誤的是()。A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值,也不等同于數(shù)值B、數(shù)據(jù)科學(xué)中的計算包括數(shù)據(jù)的查詢、挖掘、洞見等C、數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是跨學(xué)科視角D、數(shù)據(jù)科學(xué)不包括理論知識,只包括領(lǐng)域?qū)崉?wù)經(jīng)驗【正確答案】:D解析:
數(shù)據(jù)科學(xué)既包括理論知識,又包括領(lǐng)域?qū)崉?wù)經(jīng)驗。52.下列不屬于數(shù)據(jù)科學(xué)開源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark【正確答案】:B解析:
ERP系統(tǒng)是企業(yè)資源計劃(EnterpriseResourcePlanning)的簡稱,是指建立在信息技術(shù)基礎(chǔ)上,集信息技術(shù)與先進(jìn)管理思想于一身,以系統(tǒng)化的管理思想,為企業(yè)員工及決策層提供決策手段的管理平臺。53.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說法正確的是()。A、Json內(nèi)的取值只能有統(tǒng)一格式B、PDF文件在不同平臺上打開顯示不同C、可以通過Python將CSV文件轉(zhuǎn)換成Excel格式D、Excel存儲數(shù)據(jù)的量無限制【正確答案】:C解析:
Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺上打開顯示相同,Excel存儲數(shù)據(jù)的量在Excel2007及以后版本,一個工作表最多可有1048576行、16384列。54.()是指個體對視覺感知信息的進(jìn)一步加工處理過程,包括視覺信息的抽取、轉(zhuǎn)換、存儲、簡化、合并、理解和決策加工活動。A、視覺感知B、視覺認(rèn)知C、視覺編碼D、視覺轉(zhuǎn)換【正確答案】:B解析:
視覺感知(VisualPerception)是指客觀事物通過視覺感覺器官(眼睛等)在人腦中產(chǎn)生直接反應(yīng)的過程。視覺感知是產(chǎn)生視覺認(rèn)知的前提條件。視覺認(rèn)知(VisualCognition)是指個體對視覺感知信息的進(jìn)一步加工處理過程,包括視覺信息的抽取、轉(zhuǎn)換、存儲、簡化、合并、理解和決策等加工活動。55.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術(shù)價值鏈B、信息技術(shù)價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術(shù)價值鏈D、信息(活動)價值鏈和信息交互價值鏈【正確答案】:A解析:
大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價值鏈的信息價值鏈(水平軸)和信息技術(shù)價值鏈(垂直軸)兩個維度組織展開。56.下列關(guān)于可視化方法體系的說法不正確的是()。A、通常采用視覺圖形元素和視覺通道兩個維度進(jìn)行視覺編碼B、常用的共性方法有統(tǒng)計圖表、圖論方法、視覺隱喻和圖形符號學(xué)等C、領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用D、視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)【正確答案】:C解析:
領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果高于基礎(chǔ)方法的直接應(yīng)用。57.下列關(guān)于數(shù)據(jù)倉庫最終目的的描述正確的是()。A、收集業(yè)務(wù)需求B、建立數(shù)據(jù)倉庫邏輯模型C、開發(fā)數(shù)據(jù)倉庫的應(yīng)用分析D、為用戶和業(yè)務(wù)部門提供決策支持【正確答案】:D解析:
數(shù)據(jù)倉庫的最終目的是為用戶和業(yè)務(wù)部門提供決策支持。58.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的(不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A、暫時隔離B、暫時刪除C、永久刪除D、不做處理【正確答案】:C解析:
數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的永刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。59.()是指針對用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價值最重要也是最直接的發(fā)現(xiàn)方式。A、數(shù)據(jù)服務(wù)B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)應(yīng)用【正確答案】:A解析:
數(shù)據(jù)服務(wù)指針對用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價值最重要也是最直接的發(fā)現(xiàn)方式。60.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是下列步驟中()的任務(wù)。A、頻繁模式挖掘B、分類和預(yù)測C、數(shù)據(jù)預(yù)處理D、數(shù)據(jù)流挖掘【正確答案】:C解析:
數(shù)據(jù)預(yù)處理是對原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約的過程。頻繁模式挖掘、分類和預(yù)測和數(shù)據(jù)流挖掘均屬于數(shù)據(jù)挖掘范疇。61.根據(jù)數(shù)據(jù)管理計劃,設(shè)計或選擇具體方法實行計劃中的工作內(nèi)容,屬于數(shù)據(jù)治理的()過程。A、計劃B、執(zhí)行C、檢查D、改進(jìn)【正確答案】:B解析:
數(shù)據(jù)治理并不是一次性工作,而是一種循序漸進(jìn)的過程,主要包含計劃、執(zhí)行、檢查和改進(jìn)等基本活動,即數(shù)據(jù)治理的PDCA模型,其中:①計劃(Plan):數(shù)據(jù)管理方針和目標(biāo)的確定,明確組織機(jī)構(gòu)的數(shù)據(jù)管理的目的、邊界和工作內(nèi)容;②執(zhí)行(Do):根據(jù)數(shù)據(jù)管理計劃,設(shè)計或選擇具體的方法、技術(shù)、工具等解決方案,實現(xiàn)計劃中的工作內(nèi)容;③檢查(Check):定期檢查執(zhí)行效果,進(jìn)行績效評估,并發(fā)現(xiàn)存在問題與潛在風(fēng)險;④改進(jìn)(Action):根據(jù)檢查結(jié)果中發(fā)現(xiàn)的問題與風(fēng)險,進(jìn)一步改進(jìn)自己的數(shù)據(jù)管理工作。62.()是一個組織機(jī)構(gòu)的數(shù)據(jù)管理的愿景、目標(biāo)以及功能藍(lán)圖的統(tǒng)一管理。A、數(shù)據(jù)治理B、數(shù)據(jù)戰(zhàn)略C、數(shù)據(jù)加工D、數(shù)據(jù)能力【正確答案】:B解析:
數(shù)據(jù)戰(zhàn)略(DataStrategy)是一個機(jī)構(gòu)的數(shù)據(jù)管理的愿景、目標(biāo)以及功能藍(lán)圖的統(tǒng)一管理。從DMM模型可看出,數(shù)據(jù)戰(zhàn)略是組織機(jī)構(gòu)的數(shù)據(jù)管理工作的重要前提。63.異常檢測中,檢測一元正態(tài)分布中的離群點基于的技術(shù)是()。A、統(tǒng)計方法B、鄰近度C、密度D、機(jī)器學(xué)習(xí)技術(shù)【正確答案】:A解析:
略。64.()是從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論、方法。A、信息B、數(shù)據(jù)C、知識D、智慧【正確答案】:C解析:
知識是人們從數(shù)據(jù)、信息中發(fā)現(xiàn)的,在數(shù)據(jù)/信息中存在的共性規(guī)律、認(rèn)識、經(jīng)驗與常識。通常根據(jù)能否清晰地表述和有效地轉(zhuǎn)移,將知識分為顯性知識(ExplicitKnowledge)和隱性知識(TacitKnowledge)兩種。65.有研究發(fā)現(xiàn)“頁面的顯示速度每延遲1s,網(wǎng)站訪問量就會降低11%,從而導(dǎo)致營業(yè)額或者注冊量減少7%,顧客滿意度下降16%”。該項研究表明了在數(shù)據(jù)產(chǎn)品開發(fā)中更加重要的是()。A、查全率B、用戶體驗C、數(shù)據(jù)可視化D、查準(zhǔn)率【正確答案】:B解析:
在大數(shù)據(jù)時代,用戶體驗更加重要。66.下列關(guān)于數(shù)據(jù)整合和分組的說法不正確的是()。A、數(shù)據(jù)連接可以用concat或merge函數(shù)B、axiis=11表示軸向連接C、數(shù)據(jù)分組可以使用mean函數(shù)D、使用agg可以自定義多個聚合函數(shù)【正確答案】:C解析:
數(shù)據(jù)分組不可以使用mcan函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。67.下列關(guān)于描述性分析與探索性分析的描述正確的是()。A、描述性分析是相對于驗證性分析的一種提法B、探索性分析是驗證性分析的基礎(chǔ)C、探索性分析是相對于驗證性分析的一種提法D、探索性分析是數(shù)據(jù)分析的第一步【正確答案】:C解析:
描述性分析與探索性分析兩者的區(qū)別:
(1)描述性分析(DescriptiveAnalytics)是相對于診斷性分析、預(yù)測性分析和規(guī)范性分析的一種提法,主要指的是對一組數(shù)據(jù)的各種統(tǒng)計特征(如平均數(shù)、標(biāo)準(zhǔn)差、中位數(shù)、頻數(shù)分布、正態(tài)或偏態(tài)程度等)進(jìn)行分析,以便描述測量樣本的各種特征及其所對應(yīng)總體的特征。
(2)探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)是相對于驗證性分析的一種提法,主要指的是指在盡量少的先驗假定下,對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))進(jìn)行探索,并通過作圖、制表、方程擬合、計算特征量等較為簡單的方法,探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。68.下列關(guān)于數(shù)據(jù)的描述錯誤的是()。A、數(shù)據(jù)化與數(shù)字化是兩個不同概念B、數(shù)據(jù)與數(shù)值是一個概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個不同的概念D、數(shù)據(jù)和信息是兩個不同的概念【正確答案】:B解析:
除了數(shù)值,數(shù)據(jù)科學(xué)中的數(shù)據(jù)還包括文字、圖形、圖像、動畫、文本、語音、視頻、多媒體和富媒體等多種類型。69.下列關(guān)于數(shù)據(jù)倉庫隨時間變化的描述不正確的是()。A、數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B、捕捉到的新數(shù)據(jù)會覆蓋原來的快照C、數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容D、數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進(jìn)行重新綜合【正確答案】:C解析:
一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。70.大數(shù)據(jù)的“4V”特性不包括()。A、VolumeB、VelocityC、VisualD、Variety【正確答案】:C解析:
通常,用“4V”來表示大數(shù)據(jù)的基本特征:Volume(數(shù)據(jù)量大)、Variety(類型多)、Value(價值高)、Velocity(速度快)。71.具有體量大、來源多樣、生成極快和多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系機(jī)構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)是()。A、海量數(shù)據(jù)B、大數(shù)據(jù)C、厚數(shù)據(jù)D、異構(gòu)數(shù)據(jù)【正確答案】:B解析:
GB/T35295-2017《信息技術(shù)/大數(shù)據(jù)/術(shù)語》認(rèn)為,大數(shù)據(jù)是具有體量大、來源多樣、生成極快、多變等特征,并且難以用傳統(tǒng)數(shù)據(jù)體系機(jī)構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)。72.()的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。A、數(shù)據(jù)處理B、數(shù)據(jù)計算C、數(shù)據(jù)加工D、整齊數(shù)據(jù)【正確答案】:C解析:
數(shù)據(jù)加工(DataWrangling或DataMunging)的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。從加工程度看,數(shù)據(jù)可以分為零次、一次、二次、三次數(shù)據(jù)。73.數(shù)據(jù)探索是指針對目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),下列不是其搜索過程特點的是()。A、有選擇B、有策略C、有目標(biāo)D、反復(fù)進(jìn)行的【正確答案】:C解析:
數(shù)據(jù)探索是指針對目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過程是有選擇、有策略和反復(fù)進(jìn)行的。74.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程J=7.19x+73.93,據(jù)此可以預(yù)測這個孩子10歲時的身高,則下列敘述正確的是(A、身高一定是145.83cmB、身高一定超過146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正確答案】:D解析:
回歸直線方程預(yù)測時,出現(xiàn)的誤差方向不能確定。75.下列關(guān)于數(shù)據(jù)重組的說法錯誤的是()。A、數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B、數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C、數(shù)據(jù)重組實現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D、數(shù)據(jù)重組有利于實現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新【正確答案】:A解析:
數(shù)據(jù)重組將數(shù)據(jù)庫內(nèi)各數(shù)據(jù)的相關(guān)信息重新組織。76.()是指理解挖掘項目的目標(biāo)業(yè)務(wù)需求。A、業(yè)務(wù)理解B、數(shù)據(jù)理解C、數(shù)據(jù)準(zhǔn)備D、數(shù)據(jù)建?!菊_答案】:A解析:
根據(jù)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(cross-industrystandardprocessfordatamining,CRISP-DM)模型,業(yè)務(wù)理解是指從業(yè)務(wù)的角度了解項目的要求和最終目的,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來。77.數(shù)據(jù)科學(xué)基本原則中,基于數(shù)據(jù)的智能的主要特點是()。A、數(shù)據(jù)簡單,但算法簡單B、數(shù)據(jù)復(fù)雜,但算法簡單C、數(shù)據(jù)簡單,但算法復(fù)雜D、數(shù)據(jù)復(fù)雜,但算法復(fù)雜【正確答案】:B解析:
數(shù)據(jù)科學(xué)對智能的實現(xiàn)方式有了新的認(rèn)識-從基于算法的智能到基于數(shù)據(jù)的智能過渡?;跀?shù)據(jù)的智能的重要特點是數(shù)據(jù)復(fù)雜,但算法簡單。78.大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用()。A、所有數(shù)據(jù)B、部分?jǐn)?shù)據(jù)C、少量數(shù)據(jù)D、抽樣數(shù)據(jù)【正確答案】:A解析:
大數(shù)據(jù)的一種表現(xiàn)形式為接近其總體的所有數(shù)據(jù)。79.DIKW金字塔模型中,頂層與底層的名稱分別為()。A、智慧與數(shù)據(jù)B、知識與數(shù)據(jù)C、智慧與數(shù)值D、知識與數(shù)值【正確答案】:A解析:
DIKW金字塔(DIKWPyramid)模型揭示了數(shù)據(jù)(Data)與信息(Information)、知識(Knowledge)、智慧(Wisdom)之間的區(qū)別與聯(lián)系,自底向上分別為數(shù)據(jù)、信息、知識、智慧。80.下列不是開源工具特點的是()。A、免費B、可以直接獲取源代碼C、用戶可以修改源代碼并不加說明用于自己的軟件中D、開源工具一樣具有版權(quán)【正確答案】:C解析:
延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來代碼中的協(xié)議、商標(biāo)、專利聲明和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產(chǎn)品中包含一個Notice文件,則在Notice文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可,但不可以表現(xiàn)為對開源工具Licence構(gòu)成更改。81.()是指對于數(shù)據(jù)局部不良行為的非敏感性,是探索性分析追求的主要目標(biāo)之一。A、魯棒性B、穩(wěn)定性C、可靠性D、耐抗性【正確答案】:D解析:
耐抗性(Resistance)為探索性數(shù)據(jù)分析的四個指標(biāo)之一,是指對于數(shù)據(jù)的局部不良行為的非敏感性,是探索性分析追求的主要目標(biāo)之一。對于具有耐抗性的分析結(jié)果,當(dāng)數(shù)據(jù)的一小部分被新的數(shù)據(jù)代替時,即使它們與原來的數(shù)值差別很大,分析結(jié)果也只會有輕微的改變。82.下列描述中屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域數(shù)據(jù)戰(zhàn)略的是()。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語表C、數(shù)據(jù)質(zhì)量評估D、過程質(zhì)量保障【正確答案】:A解析:
數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。83.大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為()。A、人信息的被識別與暴露B、用戶畫像的生成C、廣告的推送D、病毒入侵【正確答案】:A解析:
大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為人信息的被識別與暴露。84.離散程度的測度值愈大,則()。A、反映變量值愈分散,算術(shù)平均數(shù)代表性愈差B、反映變量值愈集中,算術(shù)平均數(shù)代表性愈差C、反映變量值愈分散,算術(shù)平均數(shù)代表性愈好D、反映變量值愈集中,算術(shù)平均數(shù)代表性愈好【正確答案】:A解析:
離散程度的測度值愈大,則反映變量值愈分散,算術(shù)平均數(shù)代表性愈差。85.數(shù)據(jù)科學(xué)中,人們開始注意到傳統(tǒng)數(shù)據(jù)處理方式中普遍存在的信息丟失現(xiàn)象,進(jìn)而數(shù)據(jù)處理范式變?yōu)椋ǎ、從產(chǎn)品在先,數(shù)據(jù)在后范式轉(zhuǎn)向數(shù)據(jù)在先,產(chǎn)品在后范式或無模式B、從模式在先,產(chǎn)品在后范式轉(zhuǎn)向產(chǎn)品在先,模式在后范式或無模式C、從數(shù)據(jù)在先,模式在后范式或無模式轉(zhuǎn)向模式在先,數(shù)據(jù)在后范式D、從模式在先,數(shù)據(jù)在后范式轉(zhuǎn)向數(shù)據(jù)在先,模式在后范式或無模式【正確答案】:D解析:
傳統(tǒng)關(guān)系數(shù)據(jù)庫中,先定義模式,然后嚴(yán)格按照模式要求存儲數(shù)據(jù);當(dāng)需要調(diào)整模式時,不僅需要數(shù)據(jù)結(jié)構(gòu),而且還需要修改上層應(yīng)用程序。然而,NoSQL技術(shù)則采用了非常簡單的Key-Value等模式在后(SchemaLater)和無模式(Schemaless)的方式提升了數(shù)據(jù)管理系統(tǒng)的自適應(yīng)能力。當(dāng)然,模式在后(SchemaLater)和無模式(Schemaless)也會帶來新問題,如降低了數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)處理能力。86.下列屬于無監(jiān)督學(xué)習(xí)的是()。A、K-meansB、SVMC、最大熵D、CRF【正確答案】:A解析:
K-means是一個將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過程,這是一個典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法被稱為無監(jiān)督學(xué)習(xí)。87.數(shù)據(jù)科學(xué)項目應(yīng)遵循一般項目管理的原則和方法,涉及()。A、整體、范圍、時間、成本、質(zhì)量、溝通、風(fēng)險、宣傳、消費B、整體、范圍、時間、成本、質(zhì)量、人力資源、溝通、風(fēng)險、采購C、整體、范圍、時間、成本、質(zhì)量、人力資源、運維、采購、宣傳D、整體、范圍、時間、成本、質(zhì)量、人力資源、采購、宣傳、運維【正確答案】:B解析:
數(shù)據(jù)科學(xué)項目應(yīng)遵循一般項目管理的原則和方法,涉及整體、范圍、時間、成本、質(zhì)量、人力資源、溝通、風(fēng)險、采購。88.下列關(guān)于線性回歸分析中的殘差的說法正確的是()。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確【正確答案】:A解析:
線性回歸分析中,目標(biāo)是殘差最小化。殘差平方和是關(guān)于參數(shù)的函數(shù),為了求殘差極小值,令殘差關(guān)于參數(shù)的偏導(dǎo)數(shù)為零,會得到殘差和為零,即殘差均值為零。89.下列不屬于大數(shù)據(jù)平臺安全管理組件提供的功能的是()。A、接口代理B、接口認(rèn)證C、接口授權(quán)D、路由代理【正確答案】:D解析:
接口可以對用戶的身份和請求的參數(shù)進(jìn)行驗證,以保證接口的安全。通過添加身份驗證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。90.建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的()。A、基礎(chǔ)B、前提C、核心D、條件【正確答案】:C解析:
略。91.下列關(guān)于特征編碼的敘述不正確的是()。A、特征編碼是將非數(shù)值型特征轉(zhuǎn)換成數(shù)值型特征的方法B、數(shù)字編碼與特征的排序無關(guān)C、One-Hot編碼中,原始特征有n種取值,轉(zhuǎn)換后就會產(chǎn)生n列新特征D、啞變量編碼解決了One-Hot編碼中存在線性關(guān)系的問題【正確答案】:B解析:
數(shù)字編碼與特征的排序有關(guān),先出現(xiàn)的優(yōu)先排序。92.下列基本活動中不屬于數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要特別注意的是()。A、創(chuàng)造性設(shè)計B、數(shù)據(jù)洞見C、虛擬化D、個性化描述【正確答案】:D解析:
數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要注意有創(chuàng)造性設(shè)計、數(shù)據(jù)洞見、虛擬化等基本活動。93.圖靈獎獲得者JimGray提出的科學(xué)研究第四范式的全稱為()。A、數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)B、以數(shù)據(jù)為中心的科學(xué)發(fā)現(xiàn)C、數(shù)據(jù)驅(qū)動型的科學(xué)發(fā)現(xiàn)D、大數(shù)據(jù)科學(xué)研究【正確答案】:A解析:
2007年,圖靈獎獲得者JimGray提出了科學(xué)研究的第四范式-數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)。在他看來,人類科學(xué)研究活動已經(jīng)歷過三種不同范式的演變過程(原始社會的實驗科學(xué)范式、以模型和歸納為特征的理論科學(xué)范式和以模擬仿真為特征的計算科學(xué)范式),目前正在從計算科學(xué)范式轉(zhuǎn)向數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式。94.第一數(shù)字定律中使用概率最大的數(shù)字是()。A、0B、1C、2D、3【正確答案】:B解析:
第一數(shù)字定律表示,數(shù)字1使用最多,使用概率接近1/3;數(shù)字2為17.6%;數(shù)字3為12.5%;依次遞減,數(shù)字9的使用概率是4.6%。95.下列描述中不屬于數(shù)據(jù)預(yù)處理方法的是()。A、數(shù)據(jù)清洗:去噪聲和無關(guān)數(shù)據(jù)B、數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存在一個一致的數(shù)據(jù)存儲中C、數(shù)據(jù)變換:把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式D、數(shù)據(jù)轉(zhuǎn)化:把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)【正確答案】:D解析:
數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別[男,女]分別轉(zhuǎn)換為[0,1]。96.下列情景中不屬于數(shù)據(jù)故事化的是()。A、還原情景B、統(tǒng)計情景C、移植情景D、虛構(gòu)情景【正確答案】:B解析:
數(shù)據(jù)的故事化描述(Storytelling)是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗性,將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。由此可見,數(shù)據(jù)故事化也是數(shù)據(jù)轉(zhuǎn)換的表現(xiàn)形式之一,其本質(zhì)是以故事講述的方式展現(xiàn)數(shù)據(jù)的內(nèi)容。數(shù)據(jù)故事化中的情景,可以是:①還原情景:還原數(shù)據(jù)所計量和記錄信息時的原始情景;②移植情景:并非對應(yīng)信息的原始情景,而是將數(shù)據(jù)移植到另一個真實發(fā)生的情景(如目標(biāo)用戶比較熟悉的情景)之中;③虛構(gòu)情景:數(shù)據(jù)的故事化描述中所選擇的情景并非為真實存在的情景,而是根據(jù)講述人的想象力設(shè)計出來的虛構(gòu)情景。97.數(shù)據(jù)集成的基本類型是()。A、內(nèi)容集成、結(jié)構(gòu)集成B、內(nèi)容集成、規(guī)約集成C、規(guī)約集成、結(jié)構(gòu)集成D、模式集成、結(jié)構(gòu)集成【正確答案】:A解析:
數(shù)據(jù)集成是指通過應(yīng)用間的數(shù)據(jù)交換從而達(dá)到集成,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題,其前提是被集成應(yīng)用必須公開數(shù)據(jù)結(jié)構(gòu),即必須公開表間結(jié)構(gòu)、表間關(guān)系、編碼的含義等。98.在數(shù)據(jù)科學(xué)項目的活動流程中,主要用于回答“我們用什么方式記錄和展現(xiàn)數(shù)據(jù)結(jié)果”問題的是()。A、數(shù)據(jù)的獲得與管理B、模式/模型的驗證和優(yōu)化C、結(jié)果的可視化與文檔化D、模式/模型的應(yīng)用及維護(hù)【正確答案】:C解析:
結(jié)果的可視化與文檔化階段主要回答的問題是“我們用什么方式記錄和展現(xiàn)數(shù)據(jù)結(jié)果”。結(jié)果的可視化和文檔化分別代表的是數(shù)據(jù)項目結(jié)果的可視化表達(dá)和文檔化記錄(包括故事化描述)??梢暬臀臋n化方式的選擇對于數(shù)據(jù)科學(xué)項目的成敗,尤其是項目干系人(Stakeholders)的正確理解具有重要意義。99.下列關(guān)于OLAP和OLTP的區(qū)別描述不正確的是()。A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)C、OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D、OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的【正確答案】:C解析:
OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,記錄即時的增、刪、改、查,比如在銀行存取一筆款,就是一個事務(wù)交易。OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉庫的核心,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動態(tài)報表系統(tǒng)。100.下列不屬于現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型的是()。A、數(shù)據(jù)源與AppB、基礎(chǔ)設(shè)施C、HadoopD、數(shù)據(jù)資源【正確答案】:C解析:
Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當(dāng)時快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到廣泛地應(yīng)用和不斷地更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017人數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開源工具、跨平臺基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。1.傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點包括()。A、數(shù)據(jù)一致性高B、數(shù)據(jù)冗余度低C、簡單處理的效率高D、產(chǎn)品成熟度高【正確答案】:ABD解析:
略。2.下列關(guān)于中心極限定理的說法正確的有()。A、中心極限定理說明,對于大量相互獨立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說明,對于大量相互獨立的隨機(jī)變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:
中心極限定理說明,對于大量相互獨立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限。3.ETL包含的過程有()。A、數(shù)據(jù)抽取B、數(shù)據(jù)轉(zhuǎn)換C、數(shù)據(jù)加載D、數(shù)據(jù)展現(xiàn)【正確答案】:ABC解析:
ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取tract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。4.下列既可以用于分類,又可以用于回歸的機(jī)器學(xué)習(xí)算法有()。A、k近鄰B、邏輯回歸C、決策樹D、線性回歸【正確答案】:AC解析:
邏輯回歸只用于分類,線性回歸只用于回歸。5.下列屬于大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)的方面有()。A、具有勞動增值B、涉及法律權(quán)屬C、具有財務(wù)價值D、涉及道德與倫理【正確答案】:ABCD解析:
大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動增值、涉及法律權(quán)屬、具有財務(wù)價值、涉及道德與倫理。6.區(qū)塊鏈?zhǔn)牵ǎ┑扔嬎銠C(jī)技術(shù)的新型應(yīng)用模式。A、分布式數(shù)據(jù)存儲B、點對點傳輸C、共識機(jī)制D、加密算法【正確答案】:ABCD解析:
區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲、點對點傳輸、共識機(jī)制、加密算法等計算機(jī)技術(shù)的新型應(yīng)用模式。7.下列關(guān)于CAP理論說法正確的有()。A、一個分布式系統(tǒng)不能同時滿足一致性、可用性和分區(qū)容錯性等需求B、一致性主要指強(qiáng)一致性C、一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一特征的損失(放棄)D、可用性指每個操作總是在給定時間之內(nèi)得到返回所需要的結(jié)果【正確答案】:ABCD解析:
CAP理論認(rèn)為,一個分布式系統(tǒng)不能同時滿足一致性(Consistency)、可用(Availability)和分區(qū)容錯性(PartitionTolerance)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的-一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一個特征的損失(放棄)。8.下列屬于數(shù)據(jù)統(tǒng)計分析工具的有()。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:
常用統(tǒng)計軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。9.下列關(guān)于數(shù)據(jù)產(chǎn)品研發(fā)的說法錯誤的有()。A、從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B、一次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題C、二次數(shù)據(jù)是對一次數(shù)據(jù)進(jìn)行深度處理或分析后得到的增值數(shù)據(jù)D、三次數(shù)據(jù)是對二次數(shù)據(jù)進(jìn)行洞察與分析后得到的、可以直接用于決策支持的洞見數(shù)據(jù)【正確答案】:ABD解析:
二次數(shù)據(jù)是一種按照信息的生產(chǎn)過程和加工深度進(jìn)行對信息進(jìn)行分類的,是指根據(jù)特定的需求,對一次信息進(jìn)行加工、分析、改編、重組、綜合概括生成的信息。10.大數(shù)據(jù)偏見包括()。A、數(shù)據(jù)源的選擇偏見B、算法與模型偏見C、結(jié)果解讀方法的偏見D、數(shù)據(jù)呈現(xiàn)方式的偏見【正確答案】:ABCD解析:
大數(shù)據(jù)偏見是數(shù)據(jù)科學(xué)項目中必須關(guān)注和加以避免的問題,上述四個活動中均可能出現(xiàn)偏見。11.參數(shù)估計可以分為()。A、點估計B、一致估計C、區(qū)間估計D、無偏估計【正確答案】:AC解析:
參數(shù)估計可以分為點估計、區(qū)間估計。12.下列為離散型變量的有()。A、示波器B、心電圖及腦動電圖掃描器對腦電波的測量C、過去數(shù)月的總銷售額D、公司每年的紅利【正確答案】:CD解析:
在統(tǒng)計學(xué)中,變量按其數(shù)值表現(xiàn)是否連續(xù),分為連續(xù)變量和離散變量。離散變量指變量值可以按一定順序一一列舉,通常以整數(shù)位取值的變量,如職工人數(shù)、工廠數(shù)、機(jī)器臺數(shù)等。有些性質(zhì)上屬于連續(xù)變量的現(xiàn)象也按整數(shù)取值,即可以把它們當(dāng)做離散變量來看待。例如年齡、評定成績等雖屬連續(xù)變量,但一般按整數(shù)計算,按離散變量來處理。離散變量的數(shù)值用計數(shù)的方法取得。13.下列關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函數(shù)的說法正確的有()。A、一個客服一天可能接聽到多少個電話是一個連續(xù)型隨機(jī)變量B、正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布C、可以使用概率密度函數(shù)來描述連續(xù)型隨機(jī)變量的概率分布D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1【正確答案】:BCD解析:
一個客服一天可能接聽到多少個電話是一個離散型隨機(jī)變量。14.在建立模型時,需要用到的數(shù)據(jù)有()。A、訓(xùn)練數(shù)據(jù)B、測試數(shù)據(jù)C、原始數(shù)據(jù)D、驗證數(shù)據(jù)【正確答案】:ABD解析:
在機(jī)器學(xué)習(xí)中,通常將數(shù)據(jù)分為訓(xùn)練集、測試集和驗證集。15.下列關(guān)于數(shù)據(jù)維度的描述正確的有()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:
字典可以表示二維以上的高維數(shù)據(jù)。16.已測量級(MeasuredLevel)的主要特點包括()。A、已構(gòu)建了關(guān)鍵過程矩陣B、已定義了變革管理的正式流程C、已實現(xiàn)用定量化方式計算關(guān)鍵過程的質(zhì)量和效率D、關(guān)鍵過程的質(zhì)量和效率的管理涉及整個生命周期【正確答案】:ABCD解析:
DMM的已測量級(McasuredLevel);組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過程的共行過程。主要特點如下:①已構(gòu)建了關(guān)鍵過程矩陣;②已定義了變革管理的正式流程;③已實現(xiàn)用定量化方式計算關(guān)健過程的質(zhì)量和效率;④關(guān)鍵過程的質(zhì)量和效率的管理涉及其全生命周期。17.在數(shù)據(jù)安全領(lǐng)域常用的P2DR模型中,P、D和R代表的是()。A、策略B、防護(hù)C、檢測D、響應(yīng)【正確答案】:ABCD解析:
P2DR模型是美國ISS公司提出的一種動態(tài)網(wǎng)絡(luò)安全體系,認(rèn)為網(wǎng)絡(luò)安全是一種動態(tài)的、有條件的相對安全。P2DR模型包括四個主要部分:Policy(策略)、Protection(防護(hù))、Detection(檢測)和Response(響應(yīng))。其中,安全策略處于核心地位,為其他三個組成部分提供支持和指導(dǎo),而保護(hù)、檢測和響應(yīng)為網(wǎng)絡(luò)安全的三個基本活動。18.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評估B、主動定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)D、應(yīng)對并解決因不遵守規(guī)則而產(chǎn)生的問題【正確答案】:BCD解析:
DGI(TheDataGovemanceInstitute)認(rèn)為數(shù)據(jù)治理是對數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動。它是一個信息處理過程中根據(jù)模型來執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。19.大數(shù)據(jù)處理流程可以概括為()。A、數(shù)據(jù)分析與挖掘B、數(shù)據(jù)采集C、數(shù)據(jù)儲存D、結(jié)果展示【正確答案】:ABCD解析:
算法歧視是指算法設(shè)計、實現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。
6.?dāng)?shù)據(jù)增值存在的過程有()。
A.數(shù)據(jù)對象的封裝
B.數(shù)據(jù)系統(tǒng)的研發(fā)
C.數(shù)據(jù)的集成應(yīng)用
D.基于數(shù)據(jù)的創(chuàng)新
參考【正確答案】:ABCD
解析:數(shù)據(jù)對象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進(jìn)行數(shù)據(jù)增值。
7.大數(shù)據(jù)參考架構(gòu)的三個層次包含()。
A.角色
B.活動
C.邏輯構(gòu)件
D.功能組件
參考【正確答案】:ABD
解析:GB/T35589-2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動的功能組件以及它們之間的關(guān)系。
8.分布式列式存儲的功能有()。
A.支持在線快速讀寫
B.支持線性擴(kuò)展
C.具備節(jié)點監(jiān)控管理
D.數(shù)據(jù)同源不壓縮
參考【正確答案】:ABC
解析:分布式列式存儲的功能包括數(shù)據(jù)壓縮。
9.下列關(guān)于現(xiàn)階段大數(shù)據(jù)20.使用極大似然估計的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分?jǐn)?shù)據(jù)集C、提前已知某先驗概率D、數(shù)據(jù)集各個屬性相對獨立【正確答案】:AB解析:
極大似然估計(MLE)要求樣本獨立同分布,否則無法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。21.Analytics1.0的主要特點有()。A、分析活動滯后于數(shù)據(jù)的生成B、重視結(jié)構(gòu)化數(shù)據(jù)的分析C、以對歷史數(shù)據(jù)的理解為主要目的D、注重描述性分析【正確答案】:ABCD解析:
著名管理學(xué)家Thomas·H·Davemport于2013年在《哈佛商業(yè)論壇(HarvaBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的法、技術(shù)和工具-分析學(xué)(Analytics)分為三個不同時代-商務(wù)智能時代、大數(shù)據(jù)時代數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics1.0是商智能時代(1950~2000年),Analytics1.0中常用的工具軟件為數(shù)據(jù)倉庫及商務(wù)智能類軟件,般由數(shù)據(jù)分析師或商務(wù)智能分析師負(fù)責(zé)完成。Analytics1.0的主要特點有分析活動滯后于數(shù)據(jù)的生成、重視結(jié)構(gòu)化數(shù)據(jù)的分析、以對歷史數(shù)據(jù)的理解為主要目的、注重描述性分析。22.下列描述中屬于Analytics2.0主要特點的有()。A、側(cè)重嵌入式分析B、重視非結(jié)構(gòu)化數(shù)據(jù)的分析C、以決策支持為主要目的D、注重解釋性分析和預(yù)測性分析【正確答案】:BCD解析:
著名管理學(xué)家Thomas·H·Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具-分析學(xué)(Analytics)分為三個不同時代-商務(wù)智能時代、大數(shù)據(jù)時代和數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics2.0的主要特點有分析活動與數(shù)據(jù)的生成幾乎同步,強(qiáng)調(diào)數(shù)據(jù)分析的實時性;重視非結(jié)構(gòu)化數(shù)據(jù)的分析;以決策支持為主要目的;注重解釋性分析和預(yù)測性分析。23.大數(shù)據(jù)參考架構(gòu)的三個層次包含()。A、角色B、活動C、邏輯構(gòu)件D、功能組件【正確答案】:ABD解析:
GB/T35589-2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動的功能組件以及它們之間的關(guān)系。24.在數(shù)據(jù)科學(xué)中,通??梢圆捎茫ǎ┯行П苊鈹?shù)據(jù)加工和數(shù)據(jù)備份的偏見。A/B測試B、訓(xùn)練集和測試集的劃分C、測試集和驗證集的劃分D、圖靈測試【正確答案】:A解析:
A/B測試是一種對比試驗,準(zhǔn)確說是一種分離式組間試驗,在試驗過程中,我們從總體中隨機(jī)抽取一些樣本進(jìn)行數(shù)據(jù)統(tǒng)計,進(jìn)而得出對總體參數(shù)的多個評估。A/B測試能有效避免數(shù)據(jù)加工和數(shù)據(jù)備份的偏見,對算法/模型選擇偏見具有重要借鑒意義。25.下列關(guān)于降維說法正確的有()。A、PA是根據(jù)方差這一屬性降維的B、降維可以防止模型過擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PLA等【正確答案】:ACD解析:
降維不能用于防止模型過擬合。26.下列關(guān)于總體和樣本的說法正確的有()。A、總體也就是研究對象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10s抽取的產(chǎn)品C、樣本是從總體的隨機(jī)抽樣D、如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級的100名學(xué)生【正確答案】:ABC解析:
小學(xué)包括多個年級,樣本沒有代表性。27.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠()。A、直觀反映成對數(shù)據(jù)之間的空間關(guān)系B、直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、靜態(tài)演化事物的變化及變化的規(guī)律D、動態(tài)演化事物的變化及變化的規(guī)律E、提供高性能并行計算技術(shù)的強(qiáng)力支撐【正確答案】:BD解析:
可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系,以及能夠動態(tài)演化事物的變化及變化的規(guī)律。28.下列關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較的說法正確的有()。A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B、歸納學(xué)習(xí)論證方式為統(tǒng)計推理,分析學(xué)習(xí)為演繹推理C、歸納學(xué)習(xí)不需要先驗知識D、訓(xùn)練數(shù)據(jù)不足時歸納學(xué)習(xí)可能會失敗【正確答案】:ABCD解析:
分析學(xué)習(xí)是相對于歸納學(xué)習(xí)的一種提法,其特點是使用先驗知識來分析或解釋每個訓(xùn)練樣本,以推理出樣本的哪些特征與目標(biāo)函數(shù)相關(guān)或不相關(guān)。因此,這些解釋能使機(jī)器學(xué)習(xí)系統(tǒng)比單獨依靠數(shù)據(jù)進(jìn)行泛化有更高的精度。分析學(xué)習(xí)使用先驗知識來減小待搜索假設(shè)空間的復(fù)雜度,減小了樣本復(fù)雜度并提高了機(jī)器學(xué)習(xí)系統(tǒng)的泛化精度??梢?,分析學(xué)習(xí)與歸納學(xué)習(xí)的優(yōu)缺點在一定程度上具有互補(bǔ)性,分析學(xué)習(xí)方法的優(yōu)點在于可用先驗知識從較少的數(shù)據(jù)中更精確地泛化以引導(dǎo)學(xué)習(xí)。但是,當(dāng)先驗知識不正確或不足時,分析學(xué)習(xí)的缺點也會被突顯;歸納學(xué)習(xí)具有的優(yōu)點是不需要顯式的先驗知識,并且主要基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)到規(guī)律。然而,若訓(xùn)練數(shù)據(jù)不足時它能會失敗,并且會被其中隱式的歸納偏置所誤導(dǎo),而歸納偏置是從觀察數(shù)據(jù)中泛化所必需的過程。因此,我們可以考慮如何將二者結(jié)合成一個單獨的算法,以獲得它們各自的優(yōu)點。29.數(shù)據(jù)從產(chǎn)生到終結(jié)共包含的環(huán)節(jié)有()。A、數(shù)據(jù)產(chǎn)生B、數(shù)據(jù)傳輸C、數(shù)據(jù)使用D、數(shù)據(jù)共享E、數(shù)據(jù)銷毀【正確答案】:ABCDE解析:
數(shù)據(jù)的全壽命周期有獲?。óa(chǎn)生)、存儲、共享、維護(hù)、應(yīng)用(使用)、消亡(銷毀),在以上這些過程都會有數(shù)據(jù)傳輸過程。30.在數(shù)據(jù)科學(xué)中,計算模式發(fā)生了根本性的變化-從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算,有一定的代表性的是Google云計算三大技術(shù),這三大技術(shù)包括()。A、HadoopYRN資源管理器B、GFS分布式存儲系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫【正確答案】:BCD解析:
Goolge于2003~2008年間發(fā)表的3篇論文在云計算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響,被稱為Google云計算三大技術(shù)或三大論文:①GFS論文--GhemawatS,GobiofH.LeungST.TheGooglefilesystem[C].ACMSIGOPSoperatingsystemsreview.ACM,2003,37(5);29-43.;②MapReduce論文DeanJ,GhemawatS.MapReduce:simplifieddataprocessingonlargeclusters[J].CommunicationsoftheACM,2008,51(1):107-113.;③Bigtable論文--ChangF.DeanJ,GhemawatS,etal.Bigtable:Adistributedstoragesystemforstructureddata[].ACMTransactionsonComputerSystems(TOCS),2008,26(2):4.。31.在數(shù)據(jù)缺失嚴(yán)重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進(jìn)行填補(bǔ)。常用的填補(bǔ)方法有()。A、平均值填充B、K最近鄰距離法C、回歸法D、極大似然估計E、多重插補(bǔ)法【正確答案】:ABCDE解析:
在數(shù)據(jù)缺失嚴(yán)重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進(jìn)行填補(bǔ)。常用的填補(bǔ)方法有平均值填充、K最近鄰距離法、回歸法、極大似然估計、多重插補(bǔ)法。32.下列描述中屬于特征選擇的優(yōu)點有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】:BCD解析:
特征選擇無法克服模型自身的缺陷,二者是獨立的。33.下列屬于卷積神經(jīng)網(wǎng)絡(luò)組成部分的有()。A、卷積層B、中間層C、池化層D、全連接層【正確答案】:ACD解析:
卷積神經(jīng)網(wǎng)絡(luò)的組成部分不包括中間層。34.下列關(guān)于單樣本Z檢驗的說法正確的有()。A、在Python中,單樣本Z檢驗可以使用scipy.stats.ttest_1samp()實現(xiàn)B、單樣本Z檢驗適用于樣本量較大的情況C、單樣本Z檢驗假設(shè)要檢驗的統(tǒng)計量(近似)滿足正態(tài)分布D、單樣本Z檢驗常用于檢驗總體平均值是否等于某個常量【正確答案】:BCD解析:
在Python中,單樣本Z檢驗可以使用statsmodels.stats.weightstats.ztest實現(xiàn)。35.數(shù)據(jù)挖掘算法的組件包括()。A、模型或模型結(jié)構(gòu)B、評分函數(shù)C、優(yōu)化和搜索方法D、數(shù)據(jù)管理策略【正確答案】:ABCD解析:
數(shù)據(jù)挖掘算法的組件包括模型或模型結(jié)構(gòu)、評分函數(shù)、優(yōu)化和搜索方法、數(shù)據(jù)管理策略。36.在假設(shè)檢驗中,當(dāng)原假設(shè)為偽,但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫()。A、a錯誤B、β錯誤C、取偽錯誤D、棄真錯誤【正確答案】:BC解析:
a錯誤(棄真錯誤):當(dāng)原假設(shè)為真時,但我們錯誤地認(rèn)為“原偶的”,進(jìn)而導(dǎo)致拒絕這個正確假設(shè);β錯誤(取偽錯誤):當(dāng)原假設(shè)為假時,但我們錯誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯誤假設(shè)。37.()是指幾組不同的數(shù)據(jù)中均存在一種趨勢,但當(dāng)這些數(shù)據(jù)組組合在一起后,這種趨勢將消失或反轉(zhuǎn)。A、辛普森悖論B、大數(shù)據(jù)悖論C、大數(shù)據(jù)偏見D、幸存者偏差【正確答案】:A解析:
辛普森悖論是概率和統(tǒng)計學(xué)中的一種現(xiàn)象,即兒組不同的數(shù)據(jù)中均存在一種趨勢,
但當(dāng)這些數(shù)據(jù)組組合在一起后,這種趨勢將消失或反轉(zhuǎn)。例如,在腎結(jié)石治療數(shù)據(jù)分析中,比較兩種腎結(jié)石治療的成功率。38.假設(shè)檢驗中,首先需要提出零假設(shè)和備擇假設(shè),下列關(guān)于零假設(shè)和備擇假設(shè)的描述正確的有()。A、零假設(shè)是只有出現(xiàn)的概率大于閾值才會被拒絕的;備擇假設(shè)是只有零假設(shè)出現(xiàn)的概率大于閾值才會被承認(rèn)的B、零假設(shè)是希望推翻的結(jié)論;備擇假設(shè)是希望證明的結(jié)論C、零假設(shè)是只有出現(xiàn)的概率小于閾值才會被拒絕的;備擇假設(shè)是只有零假設(shè)出現(xiàn)的概率小于閾值才會被承認(rèn)的D、零假設(shè)是希望證明的結(jié)論;備擇假設(shè)是希望推翻的結(jié)論【正確答案】:BC解析:
略39.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則有()。A、忠于原始數(shù)據(jù)原則B、設(shè)定共同場景原則C、有效性利用原則D、3C精神原則【正確答案】:ABCD解析:
數(shù)據(jù)的故事化描述應(yīng)遵循的基本原則包括忠于原始數(shù)據(jù)原則、設(shè)定共同情景原則、體驗式講述原則、個性化定制原則、有效性利用原則、3C精神原則。40.下列為傳統(tǒng)RDBMS缺點的有()。A、表結(jié)構(gòu)schema擴(kuò)展不方便B、全文搜索功能較弱C、大數(shù)據(jù)場景下I/O較高D、存儲和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱【正確答案】:ABCD解析:
傳統(tǒng)RDBMS的缺點包括表結(jié)構(gòu)schema擴(kuò)展不方便、全文搜索功能較弱、大數(shù)據(jù)場景下I/O較高、存儲和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱。41.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的有()。A、深度優(yōu)先遇歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略E、大站優(yōu)先策略【正確答案】:AB解析:
在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。42.已定義級(DefinedLevel)的主要特點包括()。A、組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的標(biāo)準(zhǔn)定義,并定期對其進(jìn)行改進(jìn)B、已提供了關(guān)鍵過程的測量與預(yù)測方法C、關(guān)鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作D、數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識,將數(shù)據(jù)當(dāng)作成功實現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一【正確答案】:ABCD解析:
DMM的已定義級(DefinedLevel):組織機(jī)構(gòu)已經(jīng)定義了自己的標(biāo)準(zhǔn)關(guān)鍵過程。其主要特點如下:①組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的標(biāo)準(zhǔn)定義,并定期對其進(jìn)行改進(jìn);②已提供了關(guān)鍵過程的測量與預(yù)測方法;③關(guān)鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作;④數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識,將數(shù)據(jù)當(dāng)作成功實現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一。43.下列關(guān)于數(shù)據(jù)科學(xué)中常用統(tǒng)計學(xué)知識的說法錯誤的有()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計的數(shù)據(jù)分析方法又可分為描述統(tǒng)計和推斷統(tǒng)計C、描述統(tǒng)計可分為集中趨勢分析、離散趨勢分析、參數(shù)估計和假設(shè)檢驗D、推斷統(tǒng)計包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:
從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法包括描述統(tǒng)計、假設(shè)檢驗、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計可分為集中趨勢分析和離散趨勢分析;推斷統(tǒng)計包括總體參數(shù)估計和假設(shè)檢驗兩方面內(nèi)容。44.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計學(xué)的驗證性分析方法的區(qū)別有()。A、EDA需要事先提出假設(shè),而驗證性分析不需要B、EDA中采用的方法往往比驗證性分析簡單C、在一般數(shù)據(jù)科學(xué)項目中,探索性分析在先,驗證性分析在后D、EDA更為簡單、易學(xué)和易用【正確答案】:BCD解析:
在一般數(shù)據(jù)科學(xué)項目中,探索性分析在先,驗證性分析在后,EDA中采用的方往往比驗證性分析簡單。45.數(shù)據(jù)科學(xué)基本原則中,“三世界
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版股份質(zhì)押回購交易合同3篇
- 二零二四二手鋼鐵材料購買與運輸合同3篇
- 二零二五版打印機(jī)銷售渠道資源整合與共享合同3篇
- 年度聚碳酸酯(PC)及合金市場分析及競爭策略分析報告
- 二零二四年工業(yè)自動化設(shè)備安裝與生產(chǎn)流程優(yōu)化合同3篇
- 2024-2025學(xué)年新教材高中數(shù)學(xué)第十章復(fù)數(shù)10.2.2第1課時復(fù)數(shù)的乘法教師用書教案新人教B版必修第四冊
- 二零二五年文秘與檔案管理勞動合同2篇
- 二零二五年度網(wǎng)絡(luò)安全風(fēng)險評估與防護(hù)合同3篇
- 2025年星酒店投資技術(shù)服務(wù)與酒店客房智能化改造合同3篇
- 二零二五年度特色餐飲店承包經(jīng)營權(quán)轉(zhuǎn)讓合同3篇
- 五年級口算每頁100題(打印版)
- 開展防震演練方案及流程
- GB/T 3953-2024電工圓銅線
- 糧油儲藏技術(shù)規(guī)范課件
- 人教版小學(xué)數(shù)學(xué)一年級上冊20以內(nèi)口算天天練試題全套
- 技術(shù)服務(wù)補(bǔ)充協(xié)議范本
- 促進(jìn)自然分娩資料課件
- 人際風(fēng)格的類型
- 醫(yī)院科室宣傳方案
- 藥物外滲和滲出的預(yù)防和處理
- 高壓變頻器培訓(xùn)教材
評論
0/150
提交評論