大數(shù)據(jù)分析基礎(chǔ)試卷_第1頁(yè)
大數(shù)據(jù)分析基礎(chǔ)試卷_第2頁(yè)
大數(shù)據(jù)分析基礎(chǔ)試卷_第3頁(yè)
大數(shù)據(jù)分析基礎(chǔ)試卷_第4頁(yè)
大數(shù)據(jù)分析基礎(chǔ)試卷_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)分析基礎(chǔ)一、基礎(chǔ)知識(shí)部分習(xí)題(共29題,67分)1、 大數(shù)據(jù)的最顯著特征是( )。 (單選題,本題2分) a:數(shù)據(jù)規(guī)模大 b:數(shù)據(jù)類型多樣 c:數(shù)據(jù)處理速度快 d:數(shù)據(jù)價(jià)值密度高2、 美國(guó)海軍軍官莫里通過(guò)對(duì)前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中的( )。 (單選題,本題2分) a:在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù) b:在分析方法上更注重相關(guān)分析而不是因果分析 c:在分析效果上更追究效率而不是絕對(duì)精確 d:在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)3、 下列對(duì)大數(shù)據(jù)特點(diǎn)的說(shuō)法中,錯(cuò)誤的是( )。 (單選題,本題2分) a:數(shù)據(jù)

2、規(guī)模大 b:數(shù)據(jù)類型多樣 c:數(shù)據(jù)處理速度快 d:數(shù)據(jù)價(jià)值密度高4、 當(dāng)前社會(huì)中,最為突出的大數(shù)據(jù)環(huán)境是( )。 (單選題,本題2分) a:互聯(lián)網(wǎng) b:物聯(lián)網(wǎng) c:綜合國(guó)力 d:自然資源5、 下列關(guān)于計(jì)算機(jī)存儲(chǔ)容量單位的說(shuō)法中,錯(cuò)誤的是( )。 (單選題,本題2分) a:1kb1mb1gb b:基本單位是字節(jié)(byte) c:一個(gè)漢字需要一個(gè)字節(jié)的存儲(chǔ)空間 d:一個(gè)字節(jié)能夠容納一個(gè)英文字符,6、 下列關(guān)于聚類挖掘技術(shù)的說(shuō)法中,錯(cuò)誤的是( )。 (單選題,本題2分) a:不預(yù)先設(shè)定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別 b:要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小 c:要求不同類數(shù)據(jù)的內(nèi)

3、容相似度盡可能小 d:與分類挖掘技術(shù)相似的是,都是要對(duì)數(shù)據(jù)進(jìn)行分類處理7、 下列關(guān)于大數(shù)據(jù)的分析理念的說(shuō)法中,錯(cuò)誤的是( )。 (單選題,本題2分) a:在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù) b:在分析方法上更注重相關(guān)分析而不是因果分析 c:在分析效果上更追究效率而不是絕對(duì)精確 d:在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)8、 大數(shù)據(jù)時(shí)代,數(shù)據(jù)使用的關(guān)鍵是( )。 (單選題,本題2分) a:數(shù)據(jù)收集 b:數(shù)據(jù)存儲(chǔ) c:數(shù)據(jù)分析 d:數(shù)據(jù)再利用9、 數(shù)據(jù)倉(cāng)庫(kù)的最終目的是( )。 (單選題,本題2分) a:收集業(yè)務(wù)需求 b:建立數(shù)據(jù)倉(cāng)庫(kù)邏輯模型 c:開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用分析 d:為用戶和業(yè)務(wù)部門提

4、供決策支持10、 支撐大數(shù)據(jù)業(yè)務(wù)的基礎(chǔ)是( )。 (單選題,本題2分) a:數(shù)據(jù)科學(xué) b:數(shù)據(jù)應(yīng)用 c:數(shù)據(jù)硬件 d:數(shù)據(jù)人才11、 在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為基礎(chǔ)的是( )。 (多選題,本題3分) a:深度優(yōu)先遍歷策略 b:廣度優(yōu)先遍歷策略 c:高度優(yōu)先遍歷策略 d:反向鏈接策略 e:大站優(yōu)先策略12、 當(dāng)前,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的特點(diǎn)是( )。 (多選題,本題3分) a:規(guī)模較大 b:規(guī)模較小 c:增速很快 d:增速緩慢 e:多產(chǎn)業(yè)交叉融合13、 下列關(guān)于數(shù)據(jù)生命周期管理的核心認(rèn)識(shí)中,正確的是( )。 (多選題,本題3分) a:數(shù)據(jù)從產(chǎn)生到被刪除銷毀的過(guò)程中,具有多個(gè)不同的數(shù)據(jù)存在階段 b

5、:在不同的數(shù)據(jù)存在階段,數(shù)據(jù)的價(jià)值是不同的 c:根據(jù)數(shù)據(jù)價(jià)值的不同應(yīng)該對(duì)數(shù)據(jù)采取不同的管理策略 d:數(shù)據(jù)生命周期管理旨在產(chǎn)生效益的同時(shí),降低生產(chǎn)成本 e:數(shù)據(jù)生命周期管理最終關(guān)注的是社會(huì)效益14、 下列關(guān)于基于大數(shù)據(jù)的營(yíng)銷模式和傳統(tǒng)營(yíng)銷模式的說(shuō)法中,錯(cuò)誤的是( )。(多選題,本題3分) a:傳統(tǒng)營(yíng)銷模式比基于大數(shù)據(jù)的營(yíng)銷模式投入更小 b:傳統(tǒng)營(yíng)銷模式比基于大數(shù)據(jù)的營(yíng)銷模式針對(duì)性更強(qiáng) c:傳統(tǒng)營(yíng)銷模式比基于大數(shù)據(jù)的營(yíng)銷模式轉(zhuǎn)化率低 d:基于大數(shù)據(jù)的營(yíng)銷模式比傳統(tǒng)營(yíng)銷模式實(shí)時(shí)性更強(qiáng) e:基于大數(shù)據(jù)的營(yíng)銷模式比傳統(tǒng)營(yíng)銷模式精準(zhǔn)性更強(qiáng)15、 下列關(guān)于臟數(shù)據(jù)的說(shuō)法中,正確的是( )。 (多選題,本題3分

6、) a:格式不規(guī)范 b:編碼不統(tǒng)一 c:意義不明確 d:與實(shí)際業(yè)務(wù)關(guān)系不大 e:數(shù)據(jù)不完整16、 數(shù)據(jù)再利用的意義在于( )。 (多選題,本題3分) a:挖掘數(shù)據(jù)的潛在價(jià)值 b:實(shí)現(xiàn)數(shù)據(jù)重組的創(chuàng)新價(jià)值 c:利用數(shù)據(jù)可擴(kuò)展性拓寬業(yè)務(wù)領(lǐng)域 d:優(yōu)化存儲(chǔ)設(shè)備,降低設(shè)備成本 e:提高社會(huì)效益,優(yōu)化社會(huì)管理17、 按照涉及自變量的多少,可以將回歸分析分為( )。 (多選題,本題3分) a:線性回歸分析 b:非線性回歸分析 c:一元回歸分析 d:多元回歸分析 e:綜合回歸分析18、 大數(shù)據(jù)人才整體上需要具備( )等核心知識(shí)。 (多選題,本題3分) a:數(shù)學(xué)與統(tǒng)計(jì)知識(shí) b:計(jì)算機(jī)相關(guān)知識(shí) c:馬克思主義哲學(xué)

7、知識(shí) d:市場(chǎng)運(yùn)營(yíng)管理知識(shí) e:在特定業(yè)務(wù)領(lǐng)域的知識(shí)19、 下列關(guān)于大數(shù)據(jù)的說(shuō)法中,錯(cuò)誤的是( )。 (多選題,本題3分) a:大數(shù)據(jù)具有體量大、結(jié)構(gòu)單一、時(shí)效性強(qiáng)的特征 b:處理大數(shù)據(jù)需采用新型計(jì)算架構(gòu)和智能算法等新技術(shù) c:大數(shù)據(jù)的應(yīng)用注重相關(guān)分析而不是因果分析 d:大數(shù)據(jù)的應(yīng)用注重因果分析而不是相關(guān)分析 e:大數(shù)據(jù)的目的在于發(fā)現(xiàn)新的知識(shí)與洞察并進(jìn)行科學(xué)決策20、 在噪聲數(shù)據(jù)中,波動(dòng)數(shù)據(jù)比離群點(diǎn)數(shù)據(jù)偏離整體水平更大。(判斷題,本題2分) 是 否21、 對(duì)于大數(shù)據(jù)而言,最基本、最重要的要求就是減少錯(cuò)誤、保證質(zhì)量。因此,大數(shù)據(jù)收集的信息量要盡量精確。(判斷題,本題2分) 是 否22、 一般而言

8、,分布式數(shù)據(jù)庫(kù)是指物理上分散在不同地點(diǎn),但在邏輯上是統(tǒng)一的數(shù)據(jù)庫(kù)。因此分布式數(shù)據(jù)庫(kù)具有物理上的獨(dú)立性、邏輯上的一體性、性能上的可擴(kuò)展性等特點(diǎn)。(判斷題,本題2分) 是 否23、 具備很強(qiáng)的報(bào)告撰寫能力,可以把分析結(jié)果通過(guò)文字、圖表、可視化等多種方式清晰地展現(xiàn)出來(lái),能夠清楚地論述分析結(jié)果及可能產(chǎn)生的影響,從而說(shuō)服決策者信服并采納其建議,是數(shù)據(jù)分析能力對(duì)大數(shù)據(jù)人才的基本要求。(判斷題,本題2分) 是 否24、 谷歌流感趨勢(shì)充分體現(xiàn)了數(shù)據(jù)重組和擴(kuò)展對(duì)數(shù)據(jù)價(jià)值的重要意義。(判斷題,本題2分) 是 否25、 決策樹是一種基于樹形結(jié)構(gòu)的預(yù)測(cè)模型,每一個(gè)樹形分叉代表一個(gè)分類條件,葉子節(jié)點(diǎn)代表最終的分類結(jié)果,

9、其優(yōu)點(diǎn)在于易于實(shí)現(xiàn),決策時(shí)間短,并且適合處理非數(shù)值型數(shù)據(jù)。(判斷題,本題2分) 是 否26、 信息生命周期管理是據(jù)生命周期管理的來(lái)源,最早由英國(guó)企業(yè)提出。(判斷題,本題2分) 是 否27、 簡(jiǎn)單隨機(jī)抽樣,是從總體n個(gè)對(duì)象中任意抽取n個(gè)對(duì)象作為樣本,最終以這些樣本作為調(diào)查對(duì)象。在抽取樣本時(shí),總體中每個(gè)對(duì)象被抽中為調(diào)查樣本的概率可能會(huì)有差異。(判斷題,本題2分) 是 否28、 啤酒與尿布的經(jīng)典案例,充分體現(xiàn)了實(shí)驗(yàn)思維在大數(shù)據(jù)分析理念中的重要性。(判斷題,本題2分) 是 否29、 對(duì)于企業(yè)來(lái)說(shuō),給用戶進(jìn)行各種促銷或者實(shí)施運(yùn)營(yíng)策略的時(shí)機(jī)也比較重要,而且對(duì)不同興趣偏好的用戶最好集中處理。(判斷題,本題2

10、分) 是 否二、數(shù)據(jù)挖掘部分單選題(共20題,20分)1) ( )的目的縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。a.數(shù)據(jù)清洗 b.數(shù)據(jù)集成c.數(shù)據(jù)變換 d.數(shù)據(jù)歸約2) 某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題?( ) a. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) b. 聚類 c. 分類 d. 自然語(yǔ)言處理3) 以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類算法的評(píng)價(jià)標(biāo)準(zhǔn)? ( ) (a)警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。 (b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。 a. precision,recall b. rec

11、all,precision a. precision,roc d. recall,roc4) 將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?( ) a. 頻繁模式挖掘 b. 分類和預(yù)測(cè) c. 數(shù)據(jù)預(yù)處理 d. 數(shù)據(jù)流挖掘5) 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?( ) a. 分類 b. 聚類 c. 關(guān)聯(lián)分析 d. 隱馬爾可夫鏈6) 建立一個(gè)模型,通過(guò)這個(gè)模型根據(jù)已知的變量值來(lái)預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?( ) a. 根據(jù)內(nèi)容檢索 b. 建模描述 c. 預(yù)測(cè)建模 d. 尋找模式和規(guī)則7) 下面哪種不屬于數(shù)據(jù)預(yù)

12、處理的方法? ( ) a.變量代換 b.離散化 c.聚集 d.估計(jì)遺漏值 8) 假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第幾個(gè)箱子內(nèi)? ( ) a.第一個(gè) b.第二個(gè) c.第三個(gè) d.第四個(gè) 9) 以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法: ( ) a.嵌入 b.過(guò)濾 c.包裝 d.抽樣 10) 下面不屬于創(chuàng)建新屬性的相關(guān)方法的是: ( ) a.特征提取 b.特征修改 c.映射數(shù)據(jù)到新的空間 d.特征構(gòu)造 11) 假設(shè)屬性income的最大最小

13、值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn)化為:( ) a.0.821 b.1.224 c.1.458 d.0.716 12) 一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是: ( ) a.一年級(jí) b.二年級(jí) c.三年級(jí) d.四年級(jí) 13) 下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù): ( ) a.等高線圖 b.餅圖 c.曲面圖 d.矢量場(chǎng)圖 14) 在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是: ( ) a.有放回的簡(jiǎn)單

14、隨機(jī)抽樣 b.無(wú)放回的簡(jiǎn)單隨機(jī)抽樣 c.分層抽樣 d 漸進(jìn)抽樣15) 以下哪些算法是分類算法 ( )a.dbscan b.c4.5 c.k-mean d.em16) 決策樹中不包含一下哪種結(jié)點(diǎn) ( )a. 根結(jié)點(diǎn)(root node)b. 內(nèi)部結(jié)點(diǎn)(internal node) c. 外部結(jié)點(diǎn)(external node) d. 葉結(jié)點(diǎn)(leaf node)17) 以下哪項(xiàng)關(guān)于決策樹的說(shuō)法是錯(cuò)誤的 ( )a. 冗余屬性不會(huì)對(duì)決策樹的準(zhǔn)確率造成不利的影響 b. 子樹可能在決策樹中重復(fù)多次 c. 決策樹算法對(duì)于噪聲的干擾非常敏感 d. 尋找最佳決策樹是np完全問(wèn)題18)通過(guò)聚集多個(gè)分類器的預(yù)測(cè)來(lái)提

15、高分類準(zhǔn)確率的技術(shù)稱為 ( ) a.組合(ensemble) b.聚集(aggregate) c.合并(combination) d.投票(voting)19)在基本k均值算法里,當(dāng)鄰近度函數(shù)采用( )的時(shí)候,合適的質(zhì)心是簇中各點(diǎn)的中位數(shù)。 a.曼哈頓距離 b.平方歐幾里德距離 c.余弦距離 d.bregman散度 20) 個(gè)性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級(jí)商務(wù)智能平臺(tái),以幫助( )為其顧客購(gòu)物提供完全個(gè)性化的決策支持和信息服務(wù)。 a.公司 b.各單位 c.跨國(guó)企業(yè) d. 電子商務(wù)網(wǎng)站三、計(jì)算題(共13分)1、根據(jù)下表中信用卡訓(xùn)練樣本,判斷(女性,年齡介于3145之間,不具學(xué)生

16、身份,收入中等)者會(huì)不會(huì)辦理信用卡。請(qǐng)自選兩種方法進(jìn)行計(jì)算。 表 信用卡訓(xùn)練樣本項(xiàng)目性別年齡學(xué)生身分收入辦卡1男>45否高會(huì)2女3145否高會(huì)3女2030是低會(huì)4男<20是低不會(huì)5女2030是中不會(huì)6女2030否中會(huì)7女3145否高會(huì)8男3145是中不會(huì)9男3145否中會(huì)10女<20是低會(huì)本題可以使用多種方法,沒(méi)有固定答案。解題方式合理,計(jì)算步驟無(wú)誤即可。首先根據(jù)訓(xùn)練樣本計(jì)算各屬性相對(duì)于不同分類結(jié)果的條件機(jī)率:p(性別=女|辦卡=會(huì))=5/7  p(性別=女|辦卡=不會(huì))=1/3  p(年齡=3145|辦卡=會(huì))=3/7 p(年齡=3145|辦卡=不會(huì))=1/3   p(學(xué)生=否|辦卡=會(huì))=5/7 p(學(xué)生=否|辦卡=不會(huì))=0/3 p(收入=中|辦卡=會(huì))=2/7 p(收入=中|辦卡=不會(huì))=2/3 再應(yīng)用樸素貝葉斯分類法進(jìn)行類別預(yù)測(cè):p(辦卡=會(huì))=7/10  p(女|會(huì))p(31-45|會(huì))

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論