


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)分析基礎(chǔ)一、基礎(chǔ)知識部分習(xí)題(共29題,67分)1、 大數(shù)據(jù)的最顯著特征()。 (單選本2分)A:數(shù)據(jù)規(guī)模大B:數(shù)據(jù)類型多樣數(shù)據(jù)處理速度快 D:數(shù)據(jù)價值密度高2、 美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標明了大風(fēng)與洋流可能發(fā)的地點。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。(單選題,本2分)A:在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B:在分析方法上更注重相關(guān)分析而不是因果分析C:在分析效果上更追究效率而不是絕對精確D:在數(shù)據(jù)規(guī)模上強調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)3、 下列對大數(shù)據(jù)特點的說法中,錯誤的()。 (單選題,本分)A:數(shù)據(jù)規(guī)模大數(shù)據(jù)類型多樣C:數(shù)據(jù)處理速度快D:數(shù)據(jù)價
2、值密度4、 當前社會中,最為突出的大數(shù)據(jù)環(huán)境是()。 (單選本2分)A:互聯(lián)網(wǎng)物聯(lián)網(wǎng)綜合國力自然資源5、 下列關(guān)于計算機存儲容量單位的說法中,錯誤的()。 (單選本題分) A:1KB1MB1GB基本單位是字(Byte) C:一個漢字需要一個字節(jié)的存儲空間一個字節(jié)能夠容納一個英文字6、 下列關(guān)于聚類挖掘技術(shù)的說法中,錯誤的是( )。 (2分) AB:要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小 C:要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小 D:與分類挖掘技術(shù)相似的是,都是要對數(shù)據(jù)進行分類處理7、 下列關(guān)于大數(shù)據(jù)的分析理念的說法中,錯誤的是(). (單選題,本2分A:在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù) B:在
3、分析方法上更注重相關(guān)分析而不是因果分析 C:在分析效果上更追究效率而不是絕對精確 D:在數(shù)據(jù)規(guī)模上強調(diào)相對數(shù)據(jù)而不是絕對據(jù)8、 大數(shù)據(jù)時,數(shù)據(jù)使用的關(guān)鍵是(。 (單選題,本分)數(shù)據(jù)收集數(shù)據(jù)存儲數(shù)據(jù)分析D:數(shù)據(jù)再利用9、 數(shù)據(jù)倉庫的最終目的是(。 (單選題,本分)收集業(yè)務(wù)需求建立數(shù)據(jù)倉庫邏輯模型 開發(fā)數(shù)據(jù)倉庫的應(yīng)用分析D:為用戶和業(yè)務(wù)部門提供決策支10、 支撐大數(shù)據(jù)業(yè)務(wù)的基礎(chǔ)是()。 (單選,本2分)A:數(shù)據(jù)科學(xué)B:數(shù)據(jù)應(yīng)用數(shù)據(jù)硬件數(shù)據(jù)人11、 在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為基礎(chǔ)的()。 (多選題,本3分)A:深度優(yōu)先遍歷策略廣度優(yōu)先遍歷策略高度優(yōu)先遍歷策略反向鏈接策略大站優(yōu)先策12、 當前,
4、大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的特點是(). 多選題,本3分)A:規(guī)模較大B:規(guī)模較小C:增速很快D:增速緩慢E:多產(chǎn)業(yè)交叉融13、 下列關(guān)于數(shù)據(jù)生命周期管理的核心認識中,正確的(). (多選題,本3分)A:數(shù)據(jù)從產(chǎn)生到被刪除銷毀的過程中,具有多個不同的數(shù)據(jù)存在階段B:在不同的數(shù)據(jù)存在階段,數(shù)據(jù)的價值是不同的C:根據(jù)數(shù)據(jù)價值的不同應(yīng)該對數(shù)據(jù)采取不同的管理策略D:數(shù)據(jù)生命周期管理旨在產(chǎn)生效益的同時,降低生產(chǎn)成本E:數(shù)據(jù)生命周期管理最終關(guān)注的是社會效益14、 下列關(guān)于基于大數(shù)據(jù)的營銷模式和傳統(tǒng)營銷模式的說法中,錯誤的()。(多選題,本分)A:傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式投入更小 BC:傳統(tǒng)營銷模式比基于大數(shù)
5、據(jù)的營銷模式轉(zhuǎn)化率低 DE15、 下列關(guān)于臟數(shù)據(jù)的說法中,正確的是()。 (多選,本分) A:格式不規(guī)范編碼不統(tǒng)一C:意義不明確與實際業(yè)務(wù)關(guān)系不E:數(shù)據(jù)不完整16、 數(shù)據(jù)再利用的意義在() 。 ( 多 選 本 題 分 ) A:挖掘數(shù)據(jù)的潛在價值B:實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值 C:利用數(shù)據(jù)可擴展性拓寬業(yè)務(wù)領(lǐng)域優(yōu)化存儲設(shè)備,降低設(shè)備成E:提高社會效益,優(yōu)化社會管理17、 按照涉及自變量的多少,可以將回歸分析分為(). (多選題,本3分A:線性回歸分析非線性回歸分析C:一元回歸分析 D:多元回歸分析綜合回歸分析18、 大數(shù)據(jù)人才整體上需要具備()等核心知識。 多選本題分A:數(shù)學(xué)與統(tǒng)計知識B:計算機相關(guān)知
6、識 C:馬克思主義哲學(xué)知識市場運營管理知識 E:在特定業(yè)務(wù)領(lǐng)域的知識19、 下列關(guān)于大數(shù)據(jù)的說法中,錯誤的是()。 (多選題,本3分A:大數(shù)據(jù)具有體量大、結(jié)構(gòu)單一、時效性強的特征20、 在噪聲數(shù)據(jù)中,波動數(shù)據(jù)比離群點數(shù)據(jù)偏離整體水平更大。(判斷題,本分是否21、 對于大數(shù)據(jù)而言,最基本、最重要的要求就是減少錯誤、保證質(zhì)量.因此,大數(shù)據(jù)收集的信息量要盡量精確。(判斷題,本題2分)是否22、 一般而言,分布式數(shù)據(jù)庫是指物理上分散在不同地點,但在邏輯上是統(tǒng)一的數(shù)據(jù)庫。因此分布式數(shù)據(jù)庫具有物理上的獨立性、邏輯上的一體性、性能上的可擴展性等特點。(判斷題,本題2分)是否23、 具備很強的報告撰寫能力,可
7、以把分析結(jié)果通過文字、圖表、可視化等多種方式清晰地展現(xiàn)出來,能夠清楚地論述分析結(jié)果及可能產(chǎn)生的影響,從而說服決策者信服并采納其建議,是數(shù)據(jù)分析能力對大數(shù)據(jù) 人才的基本要求。(判斷題,本題2分)是否24、 谷歌流感趨勢充分體現(xiàn)了數(shù)據(jù)重組和擴展對數(shù)據(jù)價值的重要意義。(判斷本題分是否25、 決策樹是一種基于樹形結(jié)構(gòu)的預(yù)測模型,每一個樹形分叉代表一個分類條件,葉子節(jié)點代表最終的分類結(jié)果,其優(yōu)點在于易于實現(xiàn),決策時間短,并且適合處理非數(shù)值型數(shù)據(jù)。(判斷題,本題2分)是否26、 信息生命周期管理是據(jù)生命周期管理的來源,最早由英國企業(yè)提出判斷題,本2分是否27、 簡單隨機抽樣,是從總體N個對象中任意抽取n個
8、對象作為樣本,最終以這些樣本作為調(diào)查對象。在抽取樣本時,總體中每個對象被抽中為調(diào)查樣本的概率可能會有差異.(判斷題,本題2分)是否28、 啤酒與尿布的經(jīng)典案例,充分體現(xiàn)了實驗思維在大數(shù)據(jù)分析理念中的重要性。(判斷題,本分是否29、 對于企業(yè)來說,給用戶進行各種促銷或者實施運營策略的時機也比較重要,而且對不同興趣偏好的用戶最好集中處理.(判斷題,本題2分)是否二、數(shù)據(jù)挖掘部分單選題(共 20 題,20 分)()的分析結(jié)果。數(shù)據(jù)清洗。數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿這種屬于數(shù)據(jù)挖掘的哪類問題()A。 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)。聚類C。 分類。 自然語言
9、處理以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標準? ()(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b)描述有多少比例的小偷給警察抓了的標準.A. Precision,RecallB. Recall,PrecisionA. Precision,ROCD. Recall,ROC將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)A。 頻繁模式挖掘B.分類和預(yù)測C. 數(shù)據(jù)預(yù)處理。 數(shù)據(jù)流挖掘當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離()分類B。 聚類C. 關(guān)聯(lián)分析D.隱馬爾可夫鏈建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測
10、其他某個變量值屬于數(shù)據(jù)挖掘的哪一類務(wù)?()A。 根據(jù)內(nèi)容檢索B.建模描述C. 預(yù)測建模D.尋找模式和規(guī)則下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? (A.變量代換離散化C。聚集。估計遺漏值8) 假設(shè)12個銷售價格記錄組已經(jīng)排序如下10,13,15,35,50,55,72,92,204,215 使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分,15在第幾個箱子內(nèi)? ()A。第一個。第二個C.第三個第四個以下哪種方法不屬于特征選擇的標準方法:(A。嵌入。過濾C.包裝。抽樣下面不屬于創(chuàng)建新屬性的相關(guān)方法的: (A。特征提取B.特征修改C.映射數(shù)據(jù)到新的空間 D。特征構(gòu)造假設(shè)屬性income的最大最小值分別
11、是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化:()A.0821。224C.1.458。0.716一所大學(xué)內(nèi)的各年紀人數(shù)分別:一年級200人,二年級160人,三年級130人,四年級110人則年屬性的眾數(shù)是: ()一年級二年級C。三年級。四年級下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù): (A.等高線圖B.餅圖C.曲面圖。矢量場圖在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是: ()A。有放回的簡單隨機抽樣B。無放回的簡單隨機抽樣C。分層抽樣D 漸進抽樣以下哪些算法是分類算法 ()A.DBSCAN。C
12、4。5C.KMeanD.EM決策樹中不包含一下哪種結(jié)點 ()根結(jié)點(root node)內(nèi)部結(jié)點(internal (external (leaf node)以下哪項關(guān)于決策樹的說法是錯誤的 ()B。 子樹可能在決策樹中重復(fù)多次C. 決策樹算法對于噪聲的干擾非常敏感D. 尋找最佳決策樹是NP 完全問題18)通過聚集多個分類器的預(yù)測來提高分類準確率的技術(shù)稱為 (A。組合(ensemble)。聚集C.合(combination) 投票(voting)19)在基本K均值算法里,當鄰近度函數(shù)采(的時候,合適的質(zhì)心是簇中各點的中位.。曼哈頓距離平方歐幾里德距離C。余弦距離D.Bregman散度20) 個
13、性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級商務(wù)智能平臺,以幫助()為其顧客物提供完全個性化的決策支持和信息服.A。公司C??鐕髽I(yè)三、計算題(共13分)各單位D。 電子商務(wù)網(wǎng)站1、根據(jù)下表中信用卡訓(xùn)練樣本,判斷(女性,年齡介于3145之間,不具學(xué)生身份,收入中等)者會不會辦理信用卡。請自選兩種方法進行計算信用卡。請自選兩種方法進行計算.項目 性別 年齡學(xué)生身分 收入 辦卡項目 性別 年齡學(xué)生身分 收入 辦卡1男45否高會2女3145否高會3女2030是低會4男20是低不會5女20306女20307女31458男31459男3145否中會10女20是低會是中不會否中會否高會是中不會本題可以使用多種方法,沒有固定答案.解題方式合理,計算步驟無誤即可。首先根據(jù)訓(xùn)練樣本計算各屬性相對于不同分類結(jié)果的條件機率:P(性別女辦卡會)=5/7P(性別女辦卡不會)=1/3 P(年齡=3145|辦會)=3/7P(年齡=3145辦卡不會)=1/3P(學(xué)生否辦卡會)=5/7P(學(xué)生否辦卡不會)=0/3P(收入=中辦卡會)=2/7P(收入中辦卡不會)=2/3再應(yīng)用樸素貝葉斯分類法進行類別預(yù)測:P(辦卡會)=7/10P(女會)P(31-45|
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 名牌轎車買賣合同
- 居間合同咨詢服務(wù)合同
- 關(guān)于推進數(shù)字化轉(zhuǎn)型的討論
- 個人雙包裝修合同7篇
- 2025年白城貨運資格證考試口訣
- 兼職合同合作協(xié)議
- 2025年長春貨運從業(yè)資格證考試模擬考試題目答案
- 合伙共同經(jīng)營賓館合同8篇
- 個人房屋抵押借款服務(wù)合同5篇
- 新編信托借款合同5篇
- 人文素養(yǎng)知識考試復(fù)習(xí)題庫(含答案)
- 申根簽證在職證明模板中英雙語備課講稿
- 外科學(xué)教學(xué)課件:腰椎間盤突出癥
- 兒童吸入性肺炎的診斷與治療
- 產(chǎn)房分娩安全核查表及使用說明
- oppor11t刷全網(wǎng)通改全教程
- 內(nèi)部控制-倉儲與存貨循環(huán)調(diào)查問卷
- 高二英語期末考試試卷質(zhì)量分析報告
- 第一講酒吧的類型及特征
- JJF 1071-2010國家計量校準規(guī)范編寫規(guī)則
- GB/T 28906-2012冷鐓鋼熱軋盤條
評論
0/150
提交評論