2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識考試題庫與答案_第1頁
2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識考試題庫與答案_第2頁
2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識考試題庫與答案_第3頁
2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識考試題庫與答案_第4頁
2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識考試題庫與答案_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識考試題庫與答案一、單選題1.圖像平滑會造成什么效果?A、圖像邊緣模糊化B、圖像邊緣清晰化C、無影響D、以上答案都不正確參考答案:A2.在處理非結(jié)構(gòu)化數(shù)據(jù)時,哪種技術(shù)常用于提取有用信息?A.數(shù)據(jù)清洗B.文本挖掘C.數(shù)據(jù)聚合D.統(tǒng)計分析參考答案:B3.在數(shù)據(jù)科學(xué)項目中,數(shù)據(jù)科學(xué)家如何驗證模型的泛化能力?A.在訓(xùn)練數(shù)據(jù)集上進行測試B.在驗證數(shù)據(jù)集上進行測試C.在未見過的測試數(shù)據(jù)集上進行測試D.通過交叉驗證參考答案:C4.在數(shù)據(jù)科學(xué)中,哪種方法常用于降維以減少數(shù)據(jù)的復(fù)雜度?A.標準化B.正規(guī)化C.主成分分析(PCA)D.交叉驗證參考答案:C5.以下哪個不是數(shù)據(jù)預(yù)處理階段的常見步驟?A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)可視化D.數(shù)據(jù)轉(zhuǎn)換參考答案:C6.在使用決策樹算法時,哪個參數(shù)可能導(dǎo)致模型過擬合?A.樹的深度B.最小樣本分割數(shù)C.兩者都可能D.兩者都不可能參考答案:C7.在數(shù)據(jù)倉庫中,數(shù)據(jù)集市(DataMart)與數(shù)據(jù)倉庫的主要區(qū)別是什么?A.數(shù)據(jù)集市包含的數(shù)據(jù)量更小B.數(shù)據(jù)集市不需要ETL過程C.數(shù)據(jù)集市是面向特定業(yè)務(wù)部門的D.數(shù)據(jù)集市不支持復(fù)雜查詢參考答案:C8.以下哪個不是機器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)算法?A.K-最近鄰B.決策樹C.K-means聚類D.邏輯回歸參考答案:C9.在處理時間序列數(shù)據(jù)時,哪種方法常用于平滑數(shù)據(jù)以減少噪聲?A.移動平均B.傅里葉變換C.標準化D.決策樹參考答案:A10.在數(shù)據(jù)科學(xué)項目中,哪個步驟通常用于發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式或關(guān)系?A.數(shù)據(jù)清洗B.數(shù)據(jù)可視化C.特征工程D.建模與預(yù)測參考答案:B11.在數(shù)據(jù)科學(xué)項目中,特征選擇(FeatureSelection)的主要目的是什么?A.減少計算時間B.提高模型的可解釋性C.兩者都是D.兩者都不是參考答案:C12.以下哪個不是數(shù)據(jù)清洗(DataCleaning)過程中可能遇到的挑戰(zhàn)?A.缺失值處理B.異常值檢測C.數(shù)據(jù)加密D.數(shù)據(jù)類型不一致參考答案:C13.以下哪個不是A/B測試中的關(guān)鍵要素?A.實驗組和對照組B.假設(shè)檢驗C.數(shù)據(jù)可視化D.樣本大小計算參考答案:C14.在進行數(shù)據(jù)清洗時,處理異常值(outliers)的一種常用方法是什么?A.填充為中位數(shù)或眾數(shù)B.刪除異常值所在的行或列C.使用插值法進行填充D.標準化或歸一化數(shù)據(jù)參考答案:B15.以下哪個不是數(shù)據(jù)挖掘的常用技術(shù)?A.關(guān)聯(lián)規(guī)則挖掘B.聚類分析C.回歸分析D.神經(jīng)網(wǎng)絡(luò)參考答案:D16.以下哪個不是K-means聚類算法可能面臨的挑戰(zhàn)?A.需要預(yù)先指定聚類數(shù)量(K值)B.對初始聚類中心的選擇敏感C.只能處理球形簇D.無法處理大規(guī)模數(shù)據(jù)集參考答案:D17.以下哪個不是自然語言處理(NLP)中的任務(wù)?A.情感分析B.命名實體識別C.回歸分析D.機器翻譯參考答案:C18.在數(shù)據(jù)科學(xué)項目中,A/B測試的結(jié)果如何統(tǒng)計上顯著?A.當(dāng)且僅當(dāng)實驗組和對照組的差異在統(tǒng)計上顯著時B.當(dāng)實驗組的性能始終優(yōu)于對照組時C.當(dāng)實驗組的性能標準差小于對照組時D.當(dāng)實驗組的樣本數(shù)量大于對照組時參考答案:A19.在使用隨機森林進行特征重要性評估時,哪個指標通常用于衡量特征的重要性?A.特征在樹中出現(xiàn)的次數(shù)B.特征在樹中作為分裂節(jié)點的平均增益C.特征值的范圍D.特征在數(shù)據(jù)集中的缺失率參考答案:B20.以下哪個不是數(shù)據(jù)清洗過程中可能遇到的挑戰(zhàn)?A.缺失值處理B.異常值檢測與處理C.數(shù)據(jù)整合與合并D.數(shù)據(jù)加密與安全性(數(shù)據(jù)加密和安全性更多是關(guān)于數(shù)據(jù)保護,而不是數(shù)據(jù)清洗的直接挑戰(zhàn))參考答案:D21.關(guān)于Spark的說法中,哪個是錯誤的?A、采用內(nèi)存計算模式B、可利用多種語言編程C、主要用于批處理D、可進行map()操作參考答案:C22.對數(shù)值型輸出,最常見的結(jié)合策略是?A、投票法B、平均法C、學(xué)習(xí)法D、排序法參考答案:B23.以下屬于考慮詞語位置關(guān)系的模型有?A、詞向量模型B、詞袋模型C、詞的分布式表示D、TF-IDF參考答案:A24.對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,下列說法正確的是?A、需要將這些樣本全部強制轉(zhuǎn)換為支持向量B、需要將這些樣本中可以轉(zhuǎn)化的樣本轉(zhuǎn)換為支持向量,不能轉(zhuǎn)換的直接刪除C、移去或者減少這些樣本對分類結(jié)果沒有影響D、以上都不對參考答案:C25.在數(shù)據(jù)倉庫中,哪種類型的事實表通常包含詳細的業(yè)務(wù)活動數(shù)據(jù)?A.累積快照事實表B.事務(wù)事實表C.周期快照事實表D.無事實表(此選項不符合實際,僅為排除項)參考答案:B26.哪種類型的機器學(xué)習(xí)算法不依賴于數(shù)據(jù)實例的標簽進行訓(xùn)練?A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.半監(jiān)督學(xué)習(xí)D.強化學(xué)習(xí)(強化學(xué)習(xí)雖然不完全依賴標簽,但它通常涉及獎勵信號,不完全等同于無監(jiān)督學(xué)習(xí))參考答案:B27.在數(shù)據(jù)科學(xué)中,A/B測試主要用于什么目的?A.評估不同機器學(xué)習(xí)算法的性能B.評估不同數(shù)據(jù)預(yù)處理方法的效果C.評估網(wǎng)站或應(yīng)用的不同版本對用戶行為的影響D.評估不同數(shù)據(jù)可視化工具的優(yōu)劣參考答案:C28.在使用深度學(xué)習(xí)進行圖像分類時,哪個層通常用于輸出最終的分類結(jié)果?A.卷積層B.池化層C.全連接層(或稱為密集層)D.激活層(但這里特指用于輸出的激活層,如softmax)參考答案:D29.在數(shù)據(jù)科學(xué)項目中,哪個步驟通常涉及將原始數(shù)據(jù)轉(zhuǎn)換為可用于模型訓(xùn)練的形式?A.數(shù)據(jù)收集B.數(shù)據(jù)清洗C.特征工程D.模型訓(xùn)練參考答案:C30.當(dāng)圖像通過信道傳輸時,噪聲一般與什么無關(guān)?A.信道傳輸?shù)馁|(zhì)量B.出現(xiàn)的圖像信號C.是否有中轉(zhuǎn)信道的過程D.圖像在信道前后的處理參考答案:B31.在留出法、交叉驗證法和自助法三種評估方法中,哪種更適用于數(shù)據(jù)集較小、難以劃分訓(xùn)練集和測試集的情況?A.留出法B.交叉驗證法C.自助法D.留一法參考答案:C32.在數(shù)據(jù)科學(xué)中,通常可以采用哪種方法有效避免數(shù)據(jù)加工和數(shù)據(jù)備份的偏見?A.A/B測試B.訓(xùn)練集和測試集的劃分C.測試集和驗證集的劃分參考答案:B33.下列不屬于深度學(xué)習(xí)內(nèi)容的是?A.深度置信網(wǎng)絡(luò)B.受限玻爾茲曼機C.卷積神經(jīng)網(wǎng)絡(luò)D.貝葉斯學(xué)習(xí)參考答案:D34.在大數(shù)據(jù)項目中,哪個階段可能涉及使用數(shù)據(jù)工程師來優(yōu)化數(shù)據(jù)查詢性能?A.數(shù)據(jù)采集B.數(shù)據(jù)清洗C.數(shù)據(jù)存儲與管理D.數(shù)據(jù)分析與可視化參考答案:C35.以下哪個不是NoSQL數(shù)據(jù)庫的特點?A.不保證事務(wù)的ACID特性B.易于擴展C.支持復(fù)雜的SQL查詢D.靈活的數(shù)據(jù)模型參考答案:C36.在數(shù)據(jù)倉庫設(shè)計中,星型模式與雪花模式的主要區(qū)別在于?A.存儲的數(shù)據(jù)量B.表的連接方式C.數(shù)據(jù)更新的頻率D.數(shù)據(jù)的來源參考答案:B37.以下哪種算法常用于推薦系統(tǒng)中,基于用戶的歷史行為預(yù)測其興趣?A.決策樹B.協(xié)同過濾C.樸素貝葉斯D.邏輯回歸參考答案:B38.在數(shù)據(jù)預(yù)處理階段,缺失值處理的一種常用方法是?A.刪除包含缺失值的行或列B.用均值、中位數(shù)或眾數(shù)填充C.忽略缺失值,直接進行后續(xù)分析D.將缺失值視為一個新的類別參考答案:B39.下列哪個不是大數(shù)據(jù)處理面臨的挑戰(zhàn)?A.數(shù)據(jù)安全性B.數(shù)據(jù)實時性C.數(shù)據(jù)一致性D.數(shù)據(jù)存儲與計算成本參考答案:C40.在使用K-means聚類算法時,通常需要預(yù)先確定的參數(shù)是?A.聚類中心的數(shù)量B.數(shù)據(jù)點的維度C.數(shù)據(jù)點的數(shù)量D.聚類半徑參考答案:A41.哪種類型的機器學(xué)習(xí)算法適合處理非線性關(guān)系的數(shù)據(jù)?A.線性回歸B.決策樹C.邏輯回歸D.樸素貝葉斯參考答案:B42.哪個不是大數(shù)據(jù)安全面臨的挑戰(zhàn)?A.數(shù)據(jù)泄露B.數(shù)據(jù)篡改C.數(shù)據(jù)存儲成本D.隱私保護參考答案:C43.在機器學(xué)習(xí)中,哪種學(xué)習(xí)類型涉及在沒有明確標記的數(shù)據(jù)集上進行訓(xùn)練?A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.半監(jiān)督學(xué)習(xí)D.強化學(xué)習(xí)參考答案:B44.以下哪個不是數(shù)據(jù)科學(xué)家在數(shù)據(jù)探索階段可能執(zhí)行的任務(wù)?A.數(shù)據(jù)清洗B.缺失值處理C.特征工程D.模型部署(模型部署通常發(fā)生在數(shù)據(jù)探索和分析之后)參考答案:D45.在數(shù)據(jù)可視化中,哪種圖表類型最適合展示時間序列數(shù)據(jù)?A.條形圖B.折線圖C.餅圖D.熱力圖參考答案:B46.以下哪個不是大數(shù)據(jù)處理中的關(guān)鍵挑戰(zhàn)?A.數(shù)據(jù)多樣性B.數(shù)據(jù)實時性C.數(shù)據(jù)安全性D.數(shù)據(jù)一致性(在分布式系統(tǒng)中,數(shù)據(jù)一致性是一個重要問題,但在大數(shù)據(jù)處理的上下文中,它通常不是首要挑戰(zhàn),特別是與數(shù)據(jù)多樣性、實時性和安全性相比)參考答案:D47.哪種類型的數(shù)據(jù)庫最適合處理圖結(jié)構(gòu)數(shù)據(jù)?A.關(guān)系型數(shù)據(jù)庫B.文檔型數(shù)據(jù)庫C.列式數(shù)據(jù)庫D.圖數(shù)據(jù)庫參考答案:D48.在數(shù)據(jù)科學(xué)中,交叉驗證(Cross-Validation)的主要目的是什么?A.減少過擬合B.加速模型訓(xùn)練C.增加模型的復(fù)雜度D.無需訓(xùn)練集和測試集的分割參考答案:A49.在機器學(xué)習(xí)中,梯度下降(GradientDescent)算法屬于哪一類優(yōu)化算法?A.局部搜索算法B.貪心算法C.動態(tài)規(guī)劃D.啟發(fā)式算法參考答案:A50.以下哪個不是自然語言處理(NLP)中的常見任務(wù)?A.情感分析B.命名實體識別C.語音識別D.機器翻譯參考答案:C51.以下哪個不是數(shù)據(jù)科學(xué)家在處理大數(shù)據(jù)時可能面臨的挑戰(zhàn)?A.數(shù)據(jù)存儲和訪問B.數(shù)據(jù)安全和隱私C.數(shù)據(jù)可視化D.實時數(shù)據(jù)處理參考答案:C52.在數(shù)據(jù)科學(xué)項目中,數(shù)據(jù)泄露(DataLeakage)指的是什么?A.數(shù)據(jù)在傳輸過程中被未經(jīng)授權(quán)的第三方獲取B.在模型訓(xùn)練過程中,測試數(shù)據(jù)的信息被間接地用于訓(xùn)練模型C.數(shù)據(jù)在存儲過程中因硬件故障而丟失D.數(shù)據(jù)在可視化時未進行脫敏處理參考答案:B53.在機器學(xué)習(xí)中,正則化(Regularization)的主要目的是什么?A.增加模型的復(fù)雜度B.減少模型的訓(xùn)練時間C.防止過擬合D.提高模型的解釋性參考答案:C54.以下哪個不是數(shù)據(jù)預(yù)處理中處理缺失值的常用方法?A.刪除含有缺失值的行或列B.用均值、中位數(shù)或眾數(shù)填充C.使用插值法(如線性插值)D.忽略缺失值,直接進行模型訓(xùn)練參考答案:D55.在使用隨機森林(RandomForest)算法時,哪個參數(shù)的增加通常會導(dǎo)致模型變得更加復(fù)雜?A.樹的數(shù)量B.樹的深度C.葉子節(jié)點所需的最小樣本數(shù)D.分割節(jié)點所需的最小樣本數(shù)參考答案:B56.在使用機器學(xué)習(xí)模型時,特征縮放(FeatureScaling)的主要目的是什么?A.提高模型的準確率B.加快模型的訓(xùn)練速度C.減少數(shù)據(jù)的存儲空間D.使得不同量綱的特征能夠公平地比較參考答案:D二、多選題1.在建立模型時,需要用到()。A.訓(xùn)練數(shù)據(jù)B.測試數(shù)據(jù)C.原始數(shù)據(jù)D.驗證數(shù)據(jù)參考答案:ABD2.決策樹的劃分選擇有()。A.增益系數(shù)B.信息增益C.增益率D.基尼系數(shù)E、信息增益量參考答案:BCD3.關(guān)于數(shù)據(jù)流轉(zhuǎn)和應(yīng)用,以下說法正確的是()。A.數(shù)據(jù)流轉(zhuǎn)和應(yīng)用過程中應(yīng)確保可追溯、可復(fù)查B.前序環(huán)節(jié)應(yīng)保證數(shù)據(jù)的真實、完整C.前序環(huán)節(jié)應(yīng)及時傳遞到后序環(huán)節(jié)D.前后環(huán)節(jié)數(shù)據(jù)應(yīng)保持銜接一致參考答案:ABCD4.CNN相比于全連接的DNN有哪些優(yōu)勢()A.參數(shù)更少B.泛化更好C.訓(xùn)練更快D.更容易搭建;參考答案:ABC5.語音識別的方法包括()。A.聲道模型方法B.模板匹配的方法C.利用仍神經(jīng)網(wǎng)絡(luò)的方法D.語音知識方法參考答案:ABCD6.以下描述中屬于Analytics0的主要特點的是()。A.側(cè)重嵌入式分析B.重視非結(jié)構(gòu)化數(shù)據(jù)的分析C.以決策支持為主要目的D.注重解釋性分析和預(yù)測性分析參考答案:BCD7.下面哪些是基于核的機器學(xué)習(xí)算法(__)。A.最大期望算法B.徑向基核函數(shù)C.線性判別分析法D.支持向量機參考答案:BCD8.Python的優(yōu)點有()。A.變量不用預(yù)定義類型B.數(shù)據(jù)結(jié)構(gòu)功能強大C.語言可解釋性強D.變量類型固定參考答案:ABC9.K均值聚類和層次聚類在一些方面有重大差異。以下哪些說法是正確的()A.在K均值聚類中,必須在運行算法前選定想要的簇的個數(shù)B.在k均值聚類中,可以在運行算法后選定想要的簇的個數(shù)C.在層次聚類中,可以在運行算法后選定想要的簇的個數(shù)D.k均值聚類算法所需的計算量比層次聚類算法小得多參考答案:ACD10.影響聚類算法效果的主要原因有:()A.特征選取B.模式相似性測度C.分類準則D.已知類別的樣本質(zhì)量參考答案:ABC11.直方圖修正法包括()。A.直方圖統(tǒng)計B.直方圖均衡C.直方圖過濾D.直方圖規(guī)定化;參考答案:BD12.特征選擇的目的:()。A.減少特征數(shù)量、降維B.使模型泛化能力更強C.增強模型擬合能力D.減少過擬合。參考答案:ABD13.LSTM應(yīng)用場景應(yīng)用場景有哪些()A.翻譯語言B.語音識別C.圖像識別D.股票預(yù)測參考答案:ABD14.?dāng)?shù)據(jù)科學(xué)項目主要涉及的活動包括()。A.模式/模型的應(yīng)用及維護B.模式/模型的洞見C.結(jié)果的可視化與文檔化D.模式/模型的驗證和優(yōu)化參考答案:ABCD15.以下屬于規(guī)則的分詞方法的是()。A.正向最大匹配法B.逆向最大匹配法C.雙向最大匹配法D.條件隨機場參考答案:ABC16.集成學(xué)習(xí)中多樣性的增強有哪些()A.數(shù)據(jù)樣本擾動B.輸入屬性擾動C.輸出表示擾動D.算法參數(shù)擾動參考答案:ABCD17.下列哪些現(xiàn)象屬于乘性噪聲()。A.電視光柵的退化B.二值圖像上的胡椒鹽噪聲C.信道傳輸受擾D.膠片材料的退化參考答案:AD18.在支持向量機中,參數(shù)的選取會影響擬合的結(jié)果,如果出現(xiàn)過擬合的現(xiàn)象,則導(dǎo)致該結(jié)果的原因有可能是(__)。A.其他參數(shù)保持不變,C值過大B.其他參數(shù)保持不變,λ值較少C.其他參數(shù)保持不變,σ較大D.其他參數(shù)保持不變,σ較小參考答案:ABD19.常用的爬蟲技巧有以下哪些()。A.更改header,偽裝成瀏覽器進行爬取B.設(shè)置爬取的時間間隔C.應(yīng)用神經(jīng)網(wǎng)絡(luò)算法識別網(wǎng)站驗證碼D.通過代理服務(wù)器進行爬取參考答案:ABCD20.下列哪些是詞語情感分析的方法()。A.基于網(wǎng)絡(luò)的分析方法B.基于word-embedding的分析方法C.基于詞典的分析方法D.基于詞頻的分析方法參考答案:AC21.大數(shù)據(jù)的參考架構(gòu)分為哪三個層次()A.角色B.活動C.邏輯構(gòu)件D.功能組件參考答案:ABD22.Spark有哪些缺陷()。A.于內(nèi)存的計算B.持Schema信息C.支持增量迭代計算D.支持細粒度更新操作參考答案:CD23.在BP網(wǎng)絡(luò)中,常用于緩解其過擬合的策略有()。A.早停策略B.正則化策略C.全局最小策略D.局部最小策略參考答案:AB24.?dāng)?shù)據(jù)可視化是利用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成()或()在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。A.文字B.圖形C.圖像D.視頻參考答案:BC25.下列哪些是情感分析的應(yīng)用場景()。A.數(shù)據(jù)挖掘B.信息檢索C.文本分詞D.市場營銷參考答案:ABD26.常用的沖突消解策略有包括()。A.投票法B.排序法C.元規(guī)則法D.調(diào)研法參考答案:ABC27.線性模型的基本形式有()。A.線性回歸B.對數(shù)幾率回歸(二分類問題)C.線性判別分析(Fisher判別分析)D.多分類學(xué)習(xí)參考答案:ABCD28.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是()。A.深度優(yōu)先遍歷策略B.廣度優(yōu)先遍歷策略C.高度優(yōu)先遍歷策略D.反向鏈接策略E、大站優(yōu)先策略參考答案:AB29.請問下面哪些是離散型變量()。A.示波器B.心電圖及腦動電圖掃描器對腦電波的測量C.過去數(shù)月的總銷售額D.公司每年的紅利參考答案:CD30.分布式列式存儲的功能有()。A.支持在線快速讀寫B(tài).支持線性擴展C.具備節(jié)點監(jiān)控管理D.數(shù)據(jù)同源不壓縮參考答案:ABC31.?dāng)?shù)據(jù)從產(chǎn)生到終結(jié)共有()環(huán)節(jié)。A.數(shù)據(jù)產(chǎn)生環(huán)節(jié)B.數(shù)據(jù)傳輸環(huán)節(jié)C.數(shù)據(jù)使用環(huán)節(jié)D.數(shù)據(jù)共享環(huán)節(jié)E、數(shù)據(jù)銷毀環(huán)節(jié)參考答案:ABCDE32.關(guān)于HDFS的文件寫入,正確的是()。A.不支持多用戶對同一文件的寫操作;B.用戶不可以在文件任意位置進行修改;C.默認將文件復(fù)制成三份存放;D.復(fù)制的文件塊默認不存在同一機架上;參考答案:ABCD733.下面對LDA判別分析的思想描述正確的是()。A.同類樣例的投影點盡可能近B.異類樣例的投影點盡可能遠C.同類樣例的投影點盡可能遠D.異類樣例的投影點盡可能近參考答案:AB34.下面屬于范數(shù)規(guī)則化的作用的是()和()。A.保證模型盡可能的簡單,避免過擬合B.約束模型特征C.最小化問題D.最大化問題參考答案:AB35.我們想要減少數(shù)據(jù)集中的特征數(shù),即降維.選擇以下適合的方案:()。A.使用前向特征選擇方法B.使用后向特征排除方法C.我們先把所有特征都使用,去訓(xùn)練一個模型,得到測試集上的表現(xiàn).然后我們?nèi)サ粢粋€特征,再去訓(xùn)練,用交叉驗證看看測試集上的表現(xiàn).如果表現(xiàn)比原來還要好,我們可以去除這個特征D.查看相關(guān)性表,去除相關(guān)性最高的一些特征參考答案:ABCD36.以下說法正確的是()。A.負梯度方向是使函數(shù)值下降最快的方向B.當(dāng)目標函數(shù)是凸函數(shù)時,梯度下降法的解是全局最優(yōu)解C.梯度下降法比牛頓法收斂速度快D.擬牛頓法不需要計算Hesse矩陣參考答案:ABD37.對于主成分分析方法,降維后低維空間的維數(shù)d可以通過()方法確定。A.由用戶事先指定B.通過在d值不同的低維空間中對開銷較小的學(xué)習(xí)器進行交叉驗證來選取C.可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值D.隨機設(shè)置參考答案:ABC38.變量名可以包含()。A.字母B.數(shù)字C.下劃線D.空格參考答案:ABC39.從可視化處理視角看,可以將數(shù)據(jù)分為四個類型()并采用不同的視覺映射方法。A.定類數(shù)據(jù)B.定序數(shù)據(jù)C.定距離數(shù)據(jù)D.定比暑假參考答案:ABCD40.下列關(guān)于特征的稀疏性說法正確的是()。A.稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)B.稀疏樣本可減少學(xué)習(xí)任務(wù)的計算開銷C.學(xué)習(xí)任務(wù)難度可能有所降低D.稀疏矩陣沒有高效的存儲方法參考答案:ABC41.?dāng)?shù)據(jù)可視化中,從數(shù)據(jù)到知識的轉(zhuǎn)換途徑()。A.可視化分析B.自動化建模C.用戶交互D.參數(shù)優(yōu)化參考答案:AB42.在數(shù)據(jù)缺失嚴重時,會對分析結(jié)果造成較大的影響,因此剔除的異常值和缺失值,要采用合理的方法進行填補,常用的方法有()。A.平均值填充B.K最近鄰距離法C.回歸法D.極大似然估計E、多重插補法參考答案:ABCDE43.假設(shè)目標遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準確度,那么下面說法正確的是:()。A.準確度并不適合衡量不平衡類別問題B.準確度適合衡量不平衡類別問題C.精確度和召回率適合于衡量不平衡類別問題D.精確度和召回率不適合衡量不平衡類別問題參考答案:AC44.圖像壓縮是建立在圖像存在()幾種冗余之上。A.編程冗余B.像素間冗余C.心理視覺冗余D.計算資源冗余參考答案:ABC45.圖像識別的一般步驟包括()。A.預(yù)處理B.特征提取C.超像素生成D.識別分類參考答案:ABD46.RDD具有()和()特征。A.可容錯性;B.簡潔性;C.并行數(shù)據(jù)結(jié)構(gòu);D.結(jié)構(gòu)化;參考答案:AC47.以下哪層是卷積神經(jīng)網(wǎng)絡(luò)的組成部分。A.卷積層B.中間層C.池化層D.全連接層參考答案:ACD48.神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)可以分為()和隨機型網(wǎng)絡(luò)等。A.前向型B.后向型C.反饋型D.自組織競爭型參考答案:ACD49.空間域濾波是直接以圖像中的像素操作為基礎(chǔ)的濾波,空間濾波器有時也可稱為()。A.空間掩模B.核C.模板D.窗口參考答案:ABCD50.下面關(guān)于單樣本t檢驗的說法,錯誤的是()。A.當(dāng)單樣本t檢驗的自由度越來越大時,正態(tài)分布越來越趨向于t分布B.單樣本t檢驗適用于樣本量比較多(n>30)的情況C.t分布的不確定性比正態(tài)分布小,其原因是樣本數(shù)量比較小D.單樣本t檢驗通常也被叫做學(xué)生t檢驗參考答案:ABC51.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。A.采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B.JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C.二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D.字典不可以表示二維以上的高維數(shù)據(jù)參考答案:ABC52.下列哪些項屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)()A.上一時刻的網(wǎng)絡(luò)狀態(tài)信息將會作用于下一時刻的網(wǎng)絡(luò)狀態(tài)B.并行處理序列中所有信息C.容易梯度爆炸/消失D.易于搭建參考答案:AC53.關(guān)于總體和樣本的說法,正確的是:A.總體也就是研究對象的全體B.如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10秒抽取的產(chǎn)品C.樣本是從總體的隨機抽樣D.如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級的100名學(xué)生參考答案:ABC54.?dāng)?shù)據(jù)可視化涉及到()等多個領(lǐng)域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。A.計算機圖形學(xué)B.圖像處理C.計算機視覺D.計算機輔助設(shè)計參考答案:ABCD55.下列場景適合使用Python的是()。A.可作為腳本語言,快速編寫小型程序、腳本等B.可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計算及可視化領(lǐng)域C.可作為膠水語言,整合如C++等語言代碼D.Python適用于低延時、高利用率的應(yīng)用場景參考答案:ABC56.下列關(guān)于PCA說法正確的是()。A.在使用PCA之前,我們必須標準化數(shù)據(jù)B.應(yīng)該選擇具有最大方差的主成分C.應(yīng)該選擇具有最小方差的主成分D.可以使用PCA在低維空間中可視化數(shù)據(jù)參考答案:ABD57.以下哪幾項屬于漢語未登錄詞的類型()。A.存在于詞典但出現(xiàn)頻率較少的詞B.新出現(xiàn)的普通詞匯C.專有名詞D.專業(yè)名詞和研究領(lǐng)域名稱參考答案:BCD58.以下關(guān)于降維方法,敘述正確的是()。A.主成分分析是一種常用的非線性降維方法B.核化線性降維是一種常用的線性降維方法C.流形學(xué)習(xí)是一種借鑒拓撲流形概念的降維方法D.度量學(xué)習(xí)繞過降維的過程,將學(xué)習(xí)目標轉(zhuǎn)化為對距離度量計算的權(quán)重矩陣的學(xué)習(xí)參考答案:CD59.關(guān)于降維說法正確的是()。A.PA是根據(jù)方差這一屬性降維的B.降維可以防止模型過擬合C.降維降低了數(shù)據(jù)集特征的維度D.降維方法有PLA等參考答案:ACD60.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A.具有勞動增值B.涉及法律權(quán)屬C.具有財務(wù)價值D.涉及道德與倫理參考答案:ABCD61.以下算法中可以應(yīng)用于圖像分割的是()。A.邊緣檢測技術(shù)B.閾值分割技術(shù)C.基于區(qū)域的分割技術(shù)D.區(qū)域生長方法參考答案:ABCD62.下列關(guān)于密度聚類說法錯誤的是(__)。A.DBSCAN是一種著名的密度聚類算法B.密度聚類從樣本數(shù)量的角度來考察樣本之間的可連接性C.密度聚類基于不可連接樣本不斷擴展聚類簇易獲得最終的聚類結(jié)果D.密度直達關(guān)系通常滿足對稱性參考答案:BCD63.隨機森林在做數(shù)據(jù)處理方面有什么優(yōu)勢()。A.不需要做缺失值處理B.不需要處理噪音C.不需要做特征選擇D.不需要平衡數(shù)據(jù)集參考答案:ACD64.特征向量的歸一化方法有哪些()A.線性函數(shù)轉(zhuǎn)換B.對數(shù)函數(shù)轉(zhuǎn)換C.反余切函數(shù)轉(zhuǎn)換D.減去均值,除以方差參考答案:ABCD65.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)在()方面。A.數(shù)據(jù)驅(qū)動B.數(shù)據(jù)密集型C.數(shù)據(jù)范式D.數(shù)據(jù)可視化參考答案:ABC66.以下關(guān)于集成學(xué)習(xí)的說法正確的是:()。A.隨機森林是減少模型的方差,而GBDT是減少模型的偏差B.組成隨機森林的樹可以并行生成,而GBDT是串行生成C.隨機森林的結(jié)果是多數(shù)表決表決的,而GBDT則是多棵樹累加之和參考答案:ABC67.常用的數(shù)據(jù)審計方法可以分為()。A.預(yù)定義審計B.自定義審計C.可視化審計D.結(jié)構(gòu)化審計參考答案:ABC68.隨機森林的隨機性主要體現(xiàn)在()。A.決策樹選擇的隨機性B.數(shù)據(jù)集的隨機性C.待選特征的隨機性D.參數(shù)選擇的隨機性參考答案:BC69.有兩種策略常用來緩解BP網(wǎng)絡(luò)的過擬合,分別是()和()。A.晚停B.早停C.正則化D.加入損失函數(shù)參考答案:BC70.預(yù)剪枝使得決策樹的很多分子都沒有展開,會導(dǎo)致()。A.顯著減少訓(xùn)練時間開銷B.顯著減少測試時間開銷C.降低過擬合風(fēng)險D.提高欠擬合風(fēng)險參考答案:ABCD71.一個監(jiān)督觀測值集合會被劃分為()。A.訓(xùn)練集B.驗證集C.測試集D.預(yù)處理集參考答案:ABC72.關(guān)于梯度消失和梯度消失,以下說法正確的是:(__)。73.A.根據(jù)鏈式法則,如果每一層神經(jīng)元對上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都小于1的話,那么即使這個結(jié)果是99,在經(jīng)過足夠多層傳播之后,誤差對輸入層的偏導(dǎo)會趨于0B.可以采用ReLU激活函數(shù)有效的解決梯度消失的情況C.根據(jù)鏈式法則,如果每一層神經(jīng)元對上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都大于1的話,在經(jīng)過足夠多層傳播之后,誤差對輸入層的偏導(dǎo)會趨于無窮大D.可以通過減小初始權(quán)重矩陣的值來緩解梯度爆炸參考答案:ABCD74.循環(huán)神經(jīng)網(wǎng)絡(luò)主要被應(yīng)用于哪些場景(__)。A.語音識別B.語音建模C.機器翻譯D.圖像識別參考答案:ABC75.以下屬于頻率域圖像濾波的方法有()。A.中值濾波B.均值濾波C.布特沃斯濾波D.高斯濾波參考答案:CD76.卷積神經(jīng)網(wǎng)絡(luò)中常用的池化函數(shù)包括()。A.最大池化函數(shù)B.L2范數(shù)C.相鄰矩形區(qū)域內(nèi)的平均值D.基于據(jù)中心像素距離的加權(quán)平均函數(shù)參考答案:ABCD77.ETL技術(shù)主要涉及()操作。A.抽取B.轉(zhuǎn)換C.加載D.分析參考答案:ABC78.以下可用于處理由于光照不均帶來的影響的圖像處理方法有()。A.同態(tài)濾波B.頂帽變換C.基于移動平均的局部閾值處理D.拉普拉斯算子參考答案:ABC79.下面關(guān)于Python中的列表和字典說法正確的是()。A.字典和列表都可以通過“[]”操作符訪問元素的值B.列表的索引必須是整型數(shù)或者切片C.字典不過是列表的另一個名字。二者沒有區(qū)別D.字典的長度是動態(tài)的,而列表的長度是固定的參考答案:AB80.ETL包含下列哪些過程()A.數(shù)據(jù)抽取B.數(shù)據(jù)轉(zhuǎn)換C.數(shù)據(jù)加載D.數(shù)據(jù)展現(xiàn)參考答案:ABC81.處理圖像平滑處理的濾波有()。A.盒式濾波B.均值濾波C.高斯濾波D.中值濾波參考答案:ABCD82.參數(shù)估計可以分為()。A.點估計B.一致估計C.區(qū)間估計D.無偏估計參考答案:AC83.下列哪些是傳統(tǒng)RDBMS的缺點()A.表結(jié)構(gòu)schema擴展不方便B.全文搜索功能較弱C.大數(shù)據(jù)場景下I/O較高D.存儲和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱參考答案:ABCD84.以下哪些濾波器能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點的系數(shù)降至0附近()。A.同態(tài)濾波B.高斯濾波C.巴特沃斯濾波D.中值濾波參考答案:BC85.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中正確的是()。A.可用于處理時間序列數(shù)據(jù)B.可用于處理圖像數(shù)據(jù)C.卷積網(wǎng)絡(luò)中使用的卷積運算就是數(shù)學(xué)中的卷積計算D.至少在網(wǎng)絡(luò)的一層中使用卷積參考答案:ABD86.對于不同場景內(nèi)容,一般數(shù)字圖像可以分為()。A.二值圖像B.灰度圖像C.彩色圖像D.深度圖像參考答案:ABC87.下面關(guān)于中心極限定理的說法,正確的是:A.中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態(tài)分布為極限B.中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以t分布為極限C.中心極限定理為Z檢驗提供了理論支持D.中心極限定理是數(shù)理統(tǒng)計學(xué)和誤差分析的基礎(chǔ)參考答案:ACD88.下列關(guān)于情感分析的說法正確的是()。A.簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程B.情感分析的發(fā)展得益于社交媒體的興起C.按照處理文本的粒度不同,情感分析大致可分為詞語級,句子級、篇章級三個D.情感分析可以應(yīng)用于文本挖掘參考答案:ABCD89.下列既可以用于分類,又可以用于回歸的機器學(xué)習(xí)算法有:A.k近鄰B.邏輯回歸C.決策樹D.線性回歸參考答案:AC90.?dāng)?shù)據(jù)安全不僅包括數(shù)據(jù)保密性,還包括()。A.完整性B.可用性C.不可否認性D.可審計性參考答案:ABCD91.異常值的檢測方法有()A.直接通過數(shù)據(jù)可視化進行觀察B.通過統(tǒng)計分布進行判斷C.通過相對距離進行度量D.通過相對密度進行度量參考答案:ABCD92.深度學(xué)習(xí)方法不適用于以下哪些場景()。A.數(shù)據(jù)樣本充足B.數(shù)據(jù)樣本不足C.數(shù)據(jù)集具有局部相關(guān)特性D.數(shù)據(jù)集沒有局部相關(guān)特性參考答案:BD93.以下對模型性能提高有幫助的是()。A.數(shù)據(jù)預(yù)處理B.特征工程C.機器學(xué)習(xí)算法D.模型集成參考答案:ABCD94.在Hive架構(gòu)中支持對數(shù)據(jù)的操作有()。A.插入B.查詢C.刪除D.分析;參考答案:BD95.以下圖像技術(shù)中屬于圖像處理技術(shù)的是()。A.圖像編碼B.圖像合成C.圖像增強D.圖像分類參考答案:AC96.回歸分析有很多種類,常見的有()。A.線性回歸B.系數(shù)回歸C.邏輯回歸D.曲線回歸參考答案:ACD97.算法“歧視”現(xiàn)象可能出現(xiàn)在()。A.算法設(shè)計B.算法實現(xiàn)C.算法投入使用D.算法驗證參考答案:ABC98.下面關(guān)于機器學(xué)習(xí)的理解正確的是()。A.非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標簽的B.監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標簽C.強化學(xué)習(xí)以輸入數(shù)據(jù)作為對模型的反饋D.卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)參考答案:BCD99.決策樹()情況下會導(dǎo)致遞歸返回。A.當(dāng)前節(jié)點包含的樣本全屬于同一類B.當(dāng)前屬性集為空C.當(dāng)前節(jié)點包含的樣本集合為空D.所有樣本在所有屬性上取值相同參考答案:ABCD100.下列關(guān)于數(shù)據(jù)科學(xué)中常用的統(tǒng)計學(xué)知識說法錯誤的是()。A.從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法可以分為基本分析方法和元分析方法B.從方法論角度看,基于統(tǒng)計的數(shù)據(jù)分析方法又可分為描述統(tǒng)計和推斷統(tǒng)計C.描述統(tǒng)計可分為集中趨勢分析、離中趨勢分析、參數(shù)估計和假設(shè)檢驗D.推斷統(tǒng)計包括采樣分布和相關(guān)分析參考答案:ABCD101.()是通過對無標記訓(xùn)練樣本的學(xué)習(xí)來進行分類的。A.密度估計B.異常檢測C.線性回歸D.聚類分析參考答案:ABD102.?dāng)?shù)據(jù)再利用的意義在于()A.挖掘數(shù)據(jù)的潛在價值B.提高社會效益,優(yōu)化社會管理C.實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值D.優(yōu)化存儲設(shè)備,降低設(shè)備成本E、利用數(shù)據(jù)可拓展性拓寬業(yè)務(wù)領(lǐng)域參考答案:ACE103.非頻繁模式()。A.其支持度小于閾值B.都是不讓人感興趣的C.包含負模式和負相關(guān)模式D.對異常數(shù)據(jù)項敏感參考答案:AD104.機器學(xué)習(xí)的三個關(guān)鍵組成要素是()。A.任務(wù)TB.性能指標PC.目標函數(shù)VD.經(jīng)驗來源E參考答案:ABD105.圖像數(shù)字化應(yīng)該包括哪些過程()。A.采樣B.模糊C.量化D.統(tǒng)計參考答案:AC106.以下關(guān)于CSV文件的描述,正確的選項是()。A.CSV文件可用于不同工具間進行數(shù)據(jù)交換B.CSV文件格式是一種通用的,相對簡單的文件格式,應(yīng)用于程序之間轉(zhuǎn)移表格數(shù)據(jù)。C.SV文件通過多種編碼表示字符D.CSV文件的每一行是一維數(shù)據(jù),可以使用Python中的列表類型表示參考答案:ABD107.Analytics0的主要特點有()。A.分析活動滯后于數(shù)據(jù)的生成B.重視結(jié)構(gòu)化數(shù)據(jù)的分析C.以對歷史數(shù)據(jù)的理解為主要目的D.注重描述性分析參考答案:ABCD108.Spark的技術(shù)架構(gòu)可以分為哪幾層()。A.資源管理層;B.Spark核心層;C.應(yīng)用層;D.服務(wù)層;參考答案:ABD109.完整性約束通常包括()A.實體完整性B.域完整性C.參照完整性D.用戶定義完整性參考答案:ABCD110.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計學(xué)的驗證性分析方法的區(qū)別有()。A.EDA需要事先提出假設(shè),而驗證性分析不需要B.EDA中采用的方法往往比驗證性分析簡單C.在一般數(shù)據(jù)科學(xué)項目中,探索性分析在先,驗證性分析在后D.EDA更為簡單、易學(xué)和易用參考答案:BCD111.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較,說法正確的是()。A.歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B.歸納學(xué)習(xí)論證方式為統(tǒng)計推理,分析學(xué)習(xí)為演繹推理C.歸納學(xué)習(xí)不需要隱式的先驗知識D.訓(xùn)練數(shù)據(jù)不足時歸納學(xué)習(xí)可能會失敗參考答案:ABCD112.統(tǒng)計模式分類問題中,當(dāng)先驗概率未知時,可以使用()。A.最小最大損失準則B.最小誤判概率準則C.最小損失準則D.N-P判決參考答案:AD113.HBase性能優(yōu)化包含下面的哪些選項()。A.讀優(yōu)化B.寫優(yōu)化C.配置優(yōu)化D.JVM優(yōu)化參考答案:ABCD114.下列哪個是Hadoop運行的模式()。A.單機版B.偽分布式C.分布式D.全分布式參考答案:ABC115.下列屬于CNN關(guān)鍵層的是(__)。A.輸入層B.卷積層C.激活層D.池化層參考答案:ABCD116.關(guān)于神經(jīng)元的敘述,哪些是正確的()A.每個神經(jīng)元可以有一個輸入和一個輸出B.每個神經(jīng)元可以有多個輸入和一個輸出C.每個神經(jīng)元可以有多個輸入和多個輸出D.每個神經(jīng)元可以有多個輸出和一個輸入?yún)⒖即鸢福篈BCD117.哪些項不屬于使用池化層相比于相同步長的卷積層的優(yōu)勢()A.參數(shù)更少B.可以獲得更大下采樣C.速度更快D.有助于提升精度參考答案:BCD118.使用極大似然估計的前提條件有()。A.數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B.已經(jīng)得到了一部分數(shù)據(jù)集C.提前已知某先驗概率D.數(shù)據(jù)集各個屬性相對獨立參考答案:AB119.以下描述中正確的是()。A.統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B.Python語言是統(tǒng)計學(xué)家發(fā)明的語言C.機器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D.數(shù)據(jù)科學(xué)是統(tǒng)計學(xué)的一個分支領(lǐng)域(子學(xué)科)參考答案:AC120.傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點包括()。A.數(shù)據(jù)一致性高B.數(shù)據(jù)冗余度低C.簡單處理的效率高D.產(chǎn)品成熟度高參考答案:ABD121.Python的模塊符合以下哪些說法()。A.模塊讓你能夠有邏輯地組織你的Python代碼段B.Python擁有豐富的模塊,不支持自定義模塊C.把相關(guān)的代碼分配到一個模塊里能讓你的代碼更好用,更易懂D.模塊能定義函數(shù),類和變量,模塊里也能包含可執(zhí)行的代碼。參考答案:ACD122.關(guān)于神經(jīng)網(wǎng)絡(luò),下列說法正確的是()A.增加網(wǎng)絡(luò)層數(shù),可能會增加測試集分類錯誤率B.增加網(wǎng)絡(luò)層數(shù),一定會增加訓(xùn)練集分類錯誤率C.減少網(wǎng)絡(luò)層數(shù),可能會減少測試集分類錯誤率D.減少網(wǎng)絡(luò)層數(shù),一定會減少訓(xùn)練集分類錯誤率參考答案:AC123.Flume特點包括()。A.分布式B.高可靠C.高容錯D.易于定制和擴展參考答案:ABCD124.深度學(xué)習(xí)的實質(zhì)及其與淺層學(xué)習(xí)的說法正確的是(__)。A.DL強調(diào)模型深度B.DL突出特征學(xué)習(xí)的重要性.特征變換+非人工C.沒有區(qū)別D.以上答案都不正確參考答案:AB125.如何在監(jiān)督式學(xué)習(xí)中使用聚類算法()A.首先,可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個額外的特征C.在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個額外的特征參考答案:AB126.(__)可以幫助解決訓(xùn)練集在特征空間中線性不可分的問題。A.硬間隔B.軟間隔C.核函數(shù)D.拉格朗日乘子法參考答案:BC127.下面關(guān)于連續(xù)型隨機變量以及連續(xù)型概率密度函數(shù)的說法,正確的是。A.“一個客服一天可能接聽到多少個電話”是一個連續(xù)型隨機變量B.正態(tài)分布是一種連續(xù)型隨機變量的概率分布C.可以使用概率密度函數(shù)來描述連續(xù)型隨機變量的概率分布D.連續(xù)型概率密度函數(shù)曲線下方的面積之和為1參考答案:BCD128.假設(shè)檢驗中,首先需要提出零假設(shè)和備擇假設(shè),零假設(shè)是(),備擇假設(shè)是()。A.只有出現(xiàn)的概率大于閾值才會被拒絕的,只有零假設(shè)出現(xiàn)的概率大于閾值才會被承認的B.希望推翻的結(jié)論,希望證明的結(jié)論C.只有出現(xiàn)的概率小于閾值才會被拒絕的,只有零假設(shè)出現(xiàn)的概率小于閾值才會被承認的D.希望證明的結(jié)論,希望推翻的結(jié)論參考答案:BC129.?dāng)?shù)據(jù)科學(xué)基本原則中,三世界原則指的是()A.我們的世界B.數(shù)據(jù)世界C.物理世界D.數(shù)字世界參考答案:ABC130.某單位運用隨機森林算法思想建立搶修熱點模型。該模型主要預(yù)測下期臺區(qū)工單數(shù)量,構(gòu)建搶修熱點。以下模型算法構(gòu)建步驟中合理的順序是:()。A.將歷史數(shù)據(jù)進行隨機自助法重抽樣,生成N個訓(xùn)練樣本集B.將N個訓(xùn)練樣本集分別做決策樹,生成N棵決策樹C.將N棵決策樹隨機構(gòu)成隨機森林D.未來根據(jù)預(yù)測樣本氣候環(huán)境、設(shè)備屬性、設(shè)備工況進行隨機森林決策投票,得出針對該預(yù)測樣本最優(yōu)的決策樹進行運算,并計算出最終結(jié)果。參考答案:ABCD131.針對維數(shù)災(zāi)難,我們主要采用的降維方法有哪些()。A.多維縮放B.主成分分析C.核化線性降維D.流形學(xué)習(xí)E、度量學(xué)習(xí)參考答案:ABCDE132.特征工程一般需要做哪些工作()。A.正則化B.標準化C.特征處理D.特征選擇參考答案:CD133.圖像識別的精度會受到以下那些因素的影響()。A.數(shù)據(jù)類別數(shù)量不平衡B.輸入圖像尺寸不同C.圖像中存在類標之外的環(huán)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論