




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)競(jìng)賽理論題每日一側(cè)-9月26日[復(fù)制]您的姓名:[填空題]*_________________________________1.當(dāng)相關(guān)系數(shù)r=0時(shí),說明()。[單選題]*A.現(xiàn)象之間相關(guān)程度較小B.現(xiàn)象之間完全相關(guān)C.現(xiàn)象之間無直線相關(guān)(正確答案)D.現(xiàn)象之間完全無關(guān)答案解析:相關(guān)系數(shù)〃刻畫了兩個(gè)變量之間的相關(guān)程度,|「|W1,|,|越接近1表示兩個(gè)變量相關(guān)度越高,反之相關(guān)度越低。相關(guān)系數(shù),=0只能說明線性無關(guān),不能說明完全無關(guān)。2.在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為()。[單選題]*A.頻繁子集挖掘B.頻繁子圖挖掘(正確答案)C.頻繁數(shù)據(jù)項(xiàng)挖掘D,頻繁模式挖掘答案解析:解析:頻繁子圖挖掘是指在圖集合中挖掘公共子結(jié)構(gòu)。3.下列說法正確的是()。[單選題]*A.關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則B.尋找模式和規(guī)則主要是對(duì)數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式C.數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律,從而能更好地完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)(正確答案)D.在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差答案解析:解析:關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表,再利用代表生成需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍,最后得到強(qiáng)關(guān)聯(lián)規(guī)則。數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律,從而能更好地完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越好。4.通過K-means算法進(jìn)行聚類分析后得出的聚類結(jié)果的特征是()。[單選題]*A.同一聚類中的對(duì)象間相似度高,不同聚類中的對(duì)象間相似度高B.同一聚類中的對(duì)象間相似度高,不同聚類中的對(duì)象間相似度低(正確答案)C.同一聚類中的對(duì)象間相似度低,不同聚類中的對(duì)象間相似度低D.同一聚類中的對(duì)象間相似度低,不同聚類中的對(duì)象間相似度高5.對(duì)分類任務(wù)來說,學(xué)習(xí)器從類別標(biāo)記集合中預(yù)測(cè)出一個(gè)標(biāo)記,最常見的結(jié)合策略是()。[單選題]*A.投票法(正確答案)B.平均法C.學(xué)習(xí)法D.排序法6.在k近鄰學(xué)習(xí)算法中,隨著左的增加,上界將逐漸降低,當(dāng)左區(qū)域無窮大時(shí),上界和下界碰到一起,k近鄰法就達(dá)到了()o[單選題]*A.貝葉斯錯(cuò)誤率(正確答案)B.漸進(jìn)錯(cuò)誤率C.最優(yōu)值D.上界7.下列不屬于判別式模型的是()。[單選題]*A.決策樹B.BP神經(jīng)網(wǎng)絡(luò)C.支持向量機(jī)D.貝葉斯(正確答案)8.標(biāo)準(zhǔn)正態(tài)分布的均數(shù)與標(biāo)準(zhǔn)差分別是()。[單選題]*A.0,1(正確答案)B.1,0C.0,0D.1,1答案解析:標(biāo)準(zhǔn)正態(tài)分布是均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布9.與生成方法、半監(jiān)督SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)機(jī)器利用未標(biāo)記數(shù)據(jù)不同,基于分歧的方法(disagreement?basedmethods)使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的分歧(disagreement)對(duì)未標(biāo)記數(shù)據(jù)的利用至關(guān)重要。()是此類方法的重要代表。[單選題]*A.協(xié)同訓(xùn)練(正確答案)B.組合訓(xùn)練C.配合訓(xùn)練D.陪同訓(xùn)練答案解析:解析:協(xié)同訓(xùn)練是此類方法的重要代表,它很好地利用了多視圖的相容互補(bǔ)性。10.下列關(guān)于線性模型的描述錯(cuò)誤的是()。[單選題]*A.支持向量機(jī)的判別函數(shù)一定屬于線性函數(shù)(正確答案)B.在樣本為某些分布情況時(shí),線性判別函數(shù)可以成為最小錯(cuò)誤率或最小風(fēng)險(xiǎn)意義下的最優(yōu)分類器C.在一般情況下,線性分類器只能是次優(yōu)分類器D.線性分類器簡(jiǎn)單而且在很多情況下效果接近最優(yōu),所以應(yīng)用比較廣泛答案解析:解析:支持向量機(jī)的判別函數(shù)不一定是線性函數(shù)。11.下列關(guān)于降維的表述錯(cuò)誤的是()。[單選題]*A.降維過程中可以保留原始數(shù)據(jù)的所有信息(正確答案)B.多維縮放的目標(biāo)是要保證降維后樣本之間的距離不變C.線性降維方法目標(biāo)是要保證降維到的超平面能更好地表示原始數(shù)據(jù)D.核線性降維方法目標(biāo)是通過核函數(shù)和核方法來避免采樣空間投影到高維空間再降維之后的低維結(jié)構(gòu)丟失答案解析:解析:降維過程中盡量保留原始數(shù)據(jù)的信息,但不能保留原始數(shù)據(jù)的全部信息。12.一組數(shù)據(jù)相加后除以數(shù)據(jù)個(gè)數(shù)得到的值叫作()。[單選題]*A.最大值B.平均值(正確答案)C.中位數(shù)D.眾數(shù)答案解析:平均值有算術(shù)平均值、幾何平均值、平方平均值(均方根平均值)、調(diào)和平均值、加權(quán)平均值等。算術(shù)平均值是指一組數(shù)據(jù)相加后除以數(shù)據(jù)個(gè)數(shù)的平均值13.在其他條件不變的前提下,()容易引起機(jī)器學(xué)習(xí)中的過擬合問題。[單選題]*A.增加訓(xùn)練集量B.減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)C.刪除稀疏的特征D.SVM算法中使用高斯核/RBF核代替線性核(正確答案)答案解析:解析:神經(jīng)網(wǎng)絡(luò)減少隱藏層節(jié)點(diǎn),就是在減少參數(shù),只會(huì)將訓(xùn)練誤差變高,不會(huì)導(dǎo)致過擬合。D選項(xiàng)中SVM高斯核函數(shù)比線性核函數(shù)模型更復(fù)雜,容易過擬合。14.下列回歸模型中最能影響過擬合與欠擬合之間平衡的步驟是()。[單選題]*A.多項(xiàng)式的階數(shù)(正確答案)B.是否通過矩陣求逆或梯度下降學(xué)習(xí)權(quán)重C.使用常數(shù)項(xiàng)D.使用正則化答案解析:解析:選取合適的多項(xiàng)式階數(shù)對(duì)于回歸的擬合程度會(huì)產(chǎn)生重要的影響。多項(xiàng)式階數(shù)越高,越容易產(chǎn)生過擬合現(xiàn)象。15.討論變量之間的關(guān)系,主要有()、方差分析和回歸分析三個(gè)方法。[單選題]*A.參數(shù)分析B.邏輯分析C.假設(shè)分析D.相關(guān)分析(正確答案)答案解析:相關(guān)分析是研究?jī)蓚€(gè)或兩個(gè)以上處于同等地位的隨機(jī)變量間的相關(guān)關(guān)系的統(tǒng)計(jì)分析方法。例如,人的身高和體重之間、空氣中的相對(duì)濕度與降雨量之間的相關(guān)關(guān)系都是相關(guān)分析研究的問題。方差分析用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。16.下列關(guān)于支持向量的說法正確的是()。[單選題]*A.到分類超平面的距離最近的且滿足一定條件的幾個(gè)訓(xùn)練樣本點(diǎn)是支持向量(正確答案)B.訓(xùn)練集中的所有樣本點(diǎn)都是支持向量C.每一類樣本集中都分別只有一個(gè)支持向量D.支持向量的個(gè)數(shù)越多越好答案解析:解析:在支持向量機(jī)中,距離超平面最近的且滿足一定條件的幾個(gè)訓(xùn)練樣本點(diǎn)被稱為支持向量。一般情況下,支持向量的個(gè)數(shù)等于訓(xùn)練樣本數(shù)目,并不是越多越好。17.參加奧運(yùn)會(huì)前,需要對(duì)運(yùn)動(dòng)員模擬比賽的成績(jī)進(jìn)行統(tǒng)計(jì)分析,判斷運(yùn)動(dòng)員成績(jī)是否穩(wěn)定,因此需要知道運(yùn)動(dòng)員模擬比賽的()。[單選題]*A.平均數(shù)或中位數(shù)B.方差或頻率C.頻數(shù)或眾數(shù)D.差或極差(正確答案)18.子集搜索中,逐漸增加相關(guān)特征的策略稱為()。[單選題]*A.前向搜索(正確答案)B.后向搜索C.雙向搜索D.不定向搜索19.下列關(guān)于Apriori算法原理的敘述錯(cuò)誤的是()。[單選題]*A.Apriori算法通常使用先驗(yàn)知識(shí)或者假設(shè)B.如果某個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的C.如果一個(gè)項(xiàng)集是非頻繁集,那么它的所有超集也是非頻繁的D.Apriori算法不可以用來發(fā)現(xiàn)頻繁集(正確答案)答案解析:解析:Apriori算法可以用來發(fā)現(xiàn)頻繁集。20.()不是k最近鄰分類器的特點(diǎn)。[單選題]*A.它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),不必維護(hù)源自數(shù)據(jù)的模型B.分類一個(gè)測(cè)試樣例開銷很大C.最近鄰分類器基于全局信息進(jìn)行預(yù)測(cè)(正確答案)D.可以生產(chǎn)任意形狀的決策邊界答案解析:解析:k最近鄰中(k-nearestneighbors,KNN)的近鄰指的是距離待預(yù)測(cè)數(shù)據(jù)的數(shù)據(jù)點(diǎn),而k近鄰指的是取距*最近的幾個(gè)數(shù)據(jù)點(diǎn),并非基于全局信息進(jìn)行預(yù)測(cè)。21.統(tǒng)計(jì)描述的種類主要包括均值、百分位數(shù)、中位數(shù)、眾數(shù)、全距和方差等,()是指如果將一組數(shù)據(jù)從小到大排序,并計(jì)算相應(yīng)的累計(jì)百分位,則某一百分位所對(duì)應(yīng)數(shù)據(jù)的值。[單選題]*A.均值B.百分位數(shù)(正確答案)C.中位數(shù)D.眾數(shù)22.()不是長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)三個(gè)門中的一個(gè)門。[單選題]*A.輸入門B.輸出門C.遺忘門D.進(jìn)化門(正確答案)答案解析:長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)增加了三個(gè)門用來控制信息傳遞和最后的結(jié)果計(jì)算,三個(gè)門分別為遺忘門、輸入門、輸出門。23.在集成學(xué)習(xí)中,對(duì)于數(shù)據(jù)型輸出,最常見的結(jié)合策略是()。[單選題]*A.平均法(正確答案)B.投票法C.學(xué)習(xí)法D.以上答案都正確答案解析:解析:在集成學(xué)習(xí)中,對(duì)于數(shù)據(jù)型輸出,最常見的結(jié)合策略是平均法。對(duì)于分類任務(wù)來說,最常見的結(jié)合策略是投票法。當(dāng)訓(xùn)練數(shù)據(jù)很多時(shí)一種更為強(qiáng)大的結(jié)合策略是學(xué)習(xí)法。24.當(dāng)訓(xùn)練樣本近似線性可分時(shí),()。[單選題]*A.通過硬間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)B.通過軟間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)(正確答案)C.通過硬間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)D.通過軟間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)25.在多元線性回歸模型中,若某個(gè)解釋變量對(duì)其余解釋變量的判定系數(shù)接近于1,則表明模型中存在()。[單選題]*A.異方差B.序列相關(guān)C.多重共線性(正確答案)D.高擬合優(yōu)度26.在支持向量機(jī)中,()允許支持向量機(jī)在一些樣本上出錯(cuò)。[單選題]*A.硬間隔B.軟間隔(正確答案)C.核函數(shù)D.拉格朗日乘子法答案解析:在支持向量機(jī)中,軟間隔允許支持向量機(jī)在一些樣本上出錯(cuò)。27.所有預(yù)測(cè)模型在廣義上都可稱為一個(gè)或一組()。[單選題]*A.公式B.邏輯C.命題D.規(guī)則(正確答案)28一組數(shù)據(jù)中出現(xiàn)最多的變量值叫作()。[單選題]*A.最大值B.平均值C.中位數(shù)D.眾數(shù)(正確答案)答案解析:眾數(shù)是樣本觀測(cè)值在頻數(shù)分布表中頻數(shù)最多的哪一組的組中值29.通常來說,()能夠用來預(yù)測(cè)連續(xù)因變量。[單選題]*A.線性回歸(正確答案)B.邏輯回歸C.線性回歸和邏輯回歸D,以上答案都不正確答案解析:解析:邏輯回歸被用來處理分類問題。30.考慮值集{12243324556826}的四分位數(shù)極差是()。[單選題]*A.21(正確答案)B.24C.55D.3答案解析:四分位差也稱為內(nèi)距或四分間距,它是上四分位數(shù)(QU,即位于75%)與下四分位數(shù)(以,即位于25%)的差。計(jì)算公式為QD=QU-QLO將數(shù)據(jù)從小到大排序,可得到QU=33,QL=12,因此QD=QU-QL=2131在一個(gè)簡(jiǎn)單的線性回歸模型中(只有一個(gè)變量),如果將輸入變量改變一個(gè)單位(增加或減少),那么輸出將改變()。[單選題]*A.—個(gè)單位B.不變C.截距D.回歸模型的尺度因子(正確答案)32.令N為數(shù)據(jù)集的大?。圩ⅲ涸O(shè)訓(xùn)練樣本(耳,凹),N即訓(xùn)練樣本個(gè)數(shù)],d是輸入空間的維數(shù)(注:d即向量玉的維數(shù))。貝I]硬間隔SVM問題的原始形式[即在不等式約束[乂(A+6)N1]下最小化(1/2)糾在沒有轉(zhuǎn)化為拉格朗日對(duì)偶問題之前是()。[單選題]*A.一個(gè)含N個(gè)變量的二次規(guī)劃問題B.—個(gè)含NH個(gè)變量的二次規(guī)劃問題C.一個(gè)含d個(gè)變量的二次規(guī)劃問題D.—個(gè)含d+1個(gè)變量的二次規(guī)劃問題(正確答案)答案解析:解析:欲找到具有最大間隔的劃分超平面,也就是要找到能滿足題中不等式約束的參數(shù)w和如是一個(gè)含d+1個(gè)變量的二次規(guī)劃問題。33.下列關(guān)于決策樹的說法錯(cuò)誤的是()。[單選題]*A.冗余屬性不會(huì)對(duì)決策樹的準(zhǔn)確率造成不利的影響B(tài).子樹可能在決策樹中重復(fù)多次C.決策樹算法對(duì)于噪聲的干擾非常敏感(正確答案)D.尋找最佳決策樹是NP完全問題答案解析:解析:決策樹算法對(duì)于噪聲的干擾具有相當(dāng)好的魯棒性。34.下列關(guān)于Boosting算法的描述錯(cuò)誤的是()。[單選題]*A.可將強(qiáng)學(xué)習(xí)器降為弱學(xué)習(xí)器(正確答案)B.從初始訓(xùn)練集訓(xùn)練基學(xué)習(xí)器C.對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整D.做錯(cuò)的訓(xùn)練樣本多次訓(xùn)練答案解析:解析:Boosting是一種集成學(xué)習(xí)算法,由一系列基本分類器按照不同的權(quán)重組合成為一個(gè)強(qiáng)分類器。35.下列關(guān)于隨機(jī)森林的說法正確的是()。[單選題]*A.隨機(jī)森林對(duì)于高維數(shù)據(jù)集的處理能力比較好B.在對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì)時(shí),隨機(jī)森林是一個(gè)十分有效的方法C.當(dāng)存在分類不平衡的情況時(shí),隨機(jī)森林能夠提供平衡數(shù)據(jù)集誤差的有效方法D.以上答案都正確(正確答案)答案解析:解析:隨機(jī)森林對(duì)于高維數(shù)據(jù)集的處理能力比較好,在對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì)時(shí),隨機(jī)森林是一個(gè)十分有效的方法,當(dāng)存在分類不平衡的情況時(shí),隨機(jī)森林能夠提供平衡數(shù)據(jù)集誤差的有效方法。36.下列機(jī)器學(xué)習(xí)算法中,不需要?dú)w一化處理的是()。[單選題]*A.DecisionTree(正確答案)B.SVMC.K-meansD.LogisticRegression答案解析:解析:DecisionTree屬于概率模型,不需要?dú)w一化處理;SVM、K-means和LogisticRegression之類的最優(yōu)化問題需要?dú)w一化處理。37.()算法可以較好地避免樣本的不平衡問題。[單選題]*A.KNN(正確答案)B.SVMC.BayesD.神經(jīng)網(wǎng)絡(luò)答案解析:解析:KNN只是取了最近的幾個(gè)樣本點(diǎn)做平均,離預(yù)測(cè)數(shù)據(jù)較遠(yuǎn)的訓(xùn)練數(shù)據(jù)對(duì)預(yù)測(cè)結(jié)果不會(huì)造成影響,但是SVM、Bayes和KNN的每一個(gè)訓(xùn)練樣本結(jié)果都會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響。38.絕對(duì)多數(shù)投票法的基本思想是()。[單選題]*A.對(duì)于若干和弱學(xué)習(xí)器的輸出進(jìn)行平均得到最終的預(yù)測(cè)輸出B.少數(shù)服從多數(shù),數(shù)量最多的類別為最終的分類類別C.不光要求獲得最高票,還要求票過半數(shù)(正確答案)D.將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入,將訓(xùn)練集的輸出作為輸出,重新訓(xùn)練一個(gè)學(xué)習(xí)器來得到最終結(jié)果答案解析:解析:絕對(duì)多數(shù)投票法:若某標(biāo)記得票過半數(shù),則預(yù)測(cè)為該標(biāo)記;否則拒絕預(yù)測(cè)。39.下列關(guān)于K均值與DBSCAN比較的說法不正確的是()。[單選題]*A.K均值丟棄被它識(shí)別為噪聲的對(duì)象,而DBSCAN一般聚類所有對(duì)象(正確答案)B.K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C.K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇D.K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇答案解析:解析:DBSCAN與K均值都是將每個(gè)對(duì)象指派到單個(gè)簇的劃分聚類算法,但K均值一般聚類所有對(duì)象,而DBSCAN丟棄被它識(shí)別為噪聲的對(duì)象。40.如果線性回歸模型中的隨機(jī)誤差存在異方差性,那么參數(shù)的OLS估計(jì)量是()。[單選題]*A.無偏的、有效的B.無偏的、非有效的(正確答案)C.有偏的、有效的D.有偏的、非有效的41.Spark的組件包括()。*A.SparkStreaming(正確答案)B.MLib(正確答案)C.GraphX(正確答案)D.SparkR答案解析:解析:Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphXo42.下列關(guān)于Pig的說法正確的有()*A.彌補(bǔ)MapReduce編程復(fù)雜性(正確答案)B.封裝MapReduce處理過程(正確答案)C.PigLatin是一種數(shù)據(jù)分析語言(正確答案)D.適用于并行處理(正確答案)答案解析:解析:Pig建立在MapReduce之上,好地封裝了MapReduce的處理過程;PigLatin是數(shù)據(jù)分析的描述語言;Pig的結(jié)構(gòu)適用于并行處理。43.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,假設(shè)現(xiàn)在模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度,那么下列說法正確的有()。*A.準(zhǔn)確度并不適合衡量不平衡類別問題(正確答案)B.準(zhǔn)確度適合衡量不平衡類別問題C.精確度和召回率適合于衡量不平衡類別問題(正確答案)D.精確度和召回率不適合衡量不平衡類別問題答案解析:精確度和召回率適合于衡量不平衡類別問題,準(zhǔn)確度并不適合衡量不平衡類別問題。44,下列關(guān)于Pig的說法正確的有()。*A.Pig的主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性(正確答案)B.Pig的核心是一種數(shù)據(jù)分析語言(正確答案)C.Pig程序的結(jié)構(gòu)適合串行處理D.Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分(正確答案)答案解析:解析:Pig程序的結(jié)構(gòu)適合并行處理。45.一個(gè)回歸模型存在多重共線問題,在不損失過多信息的情況下,可釆取的措施有()。*A.剔除所有的共線性變量B.剔除共線性變量中的一個(gè)(正確答案)C.通過計(jì)算方差膨脹因子(varianceinflationfactor,VIF)來檢查共線性程度,并采取相應(yīng)措施(正確答案)D.刪除相關(guān)變量可能會(huì)有信息損失,我們可以不刪除相關(guān)變量,而使用一些正則化方法來解決多重共線性問題,例如Ridge或Lasso回歸(正確答案)答案解析:為了檢查多重共線性,我們可以創(chuàng)建相關(guān)系數(shù)矩陣來辨別和移除相關(guān)系數(shù)大于75%的變量(閾值根據(jù)情況設(shè)定)。除此之外,可以使用VIF方法來檢查當(dāng)前存在的共線變量。刃FW4表明沒有多種共線,刃FN]0表明有著嚴(yán)重的多重共線性,也可以使用公差(tolerance)作為評(píng)估指標(biāo)。但是,移除相關(guān)變量可能導(dǎo)致信息的丟失,為了保留這些變量,可以使用帶懲罰的回歸方法。可以在相關(guān)變量之間隨機(jī)加入噪聲,使得變量之間存在差異。但增加噪聲可能影響準(zhǔn)確度,因此這種方法應(yīng)該小心使用46.Hadoop框架的缺點(diǎn)有()。*A.MapReduce編程框架的限制(正確答案)B.過多的磁盤操作,缺乏對(duì)分布式內(nèi)存的支持(正確答案)C.無法高效支持迭代式計(jì)算(正確答案)D.不支持多用戶寫入和任意修改文件(正確答案)答案解析:解析:以上四項(xiàng)都為Hadoop的缺點(diǎn)。47線性模型的基本形式有()*A.線性回歸(正確答案)B.對(duì)數(shù)幾率回歸(二分類問題)(正確答案)C.線性判別分析(Fisher判別分析)(正確答案)D.多分類學(xué)習(xí)(正確答案)48.Spark提交工作的方式有(*A.Client(正確答案)B.Cluster(正確答案)C.Standalone)oD.YARN答案解析:解析:Spark提交作業(yè)的方式是Client和Cluster。49特征選擇方法有()*A.AIC赤池信息準(zhǔn)則B.LARS嵌入式特征選擇方法(正確答案)C.LVW包裹式特征選擇方法(正確答案)D.Relief過濾式特征選擇方法(正確答案)答案解析:AIC赤池信息準(zhǔn)則是常用的模型選擇方法50.Hadoop運(yùn)行的模式包括()。*A.單機(jī)版(正確答案)B.偽分布式(正確答案)C.分布式(正確答案)D.全分布式答案解析:解析:Hadoop運(yùn)行模式包括單機(jī)版、偽分布式和分布式。51.下列關(guān)于相關(guān)與線性關(guān)系的說法正確的有()*A.相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系(正確答案)B.相關(guān)一定是線性關(guān)系,不可能是非線性關(guān)系C.相關(guān)時(shí)若有相關(guān)系數(shù)為0,說明兩個(gè)變量之間不存在線性關(guān)系,仍可能存在非線性關(guān)系(正確答案)D.相關(guān)系數(shù)為0是兩個(gè)變量獨(dú)立的必要不充分條件(正確答案)答案解析:相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系52.SparkRDD的依賴機(jī)制包括()*A.寬依賴(正確答案)B.深度依賴C.廣度依賴)oD.窄依賴(正確答案)答案解析:解析:RDD之間的依賴關(guān)系可以分為窄依賴和寬依賴兩種。53.()是通過對(duì)無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來進(jìn)行分類的。*A.密度估計(jì)(正確答案)B.異常檢測(cè)(正確答案)C.線性回歸D.聚類分析(正確答案)54.下列屬于數(shù)據(jù)挖掘方法的有()*A.聚類(正確答案)B.回歸分析(正確答案)C.神經(jīng)網(wǎng)絡(luò)(正確答案)D.決策樹算法(正確答案)答案解析:利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等。分類方法有決策樹算法、KNN算法(k-nearestneighbor),SVM算法、VSM算法、Bay
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 墻體加固施工方案
- 砌體結(jié)構(gòu)施工方案
- 橋墩基礎(chǔ)施工方案
- 土工布施工方案
- 校園綜合布線施工方案
- 新疆?dāng)r水壩施工方案
- 水下填筑沉箱施工方案
- TSHJX 076-2024 上海市域鐵路客流預(yù)測(cè)規(guī)范
- 二零二五年度離婚協(xié)議書:房產(chǎn)各半分割及婚姻解除后共同財(cái)產(chǎn)處理合同
- 二零二五年度酒店客房經(jīng)營(yíng)權(quán)及服務(wù)質(zhì)量標(biāo)準(zhǔn)合同
- 中國(guó)醫(yī)院質(zhì)量安全管理 第3-5部分:醫(yī)療保障 消毒供應(yīng) T∕CHAS 10-3-5-2019
- 安全評(píng)價(jià)理論與方法第五章-事故樹分析評(píng)價(jià)法
- CoDeSys編程手冊(cè)
- 幼兒園一日活動(dòng)流程表
- 中國(guó)民俗知識(shí)競(jìng)賽題(附答案和詳細(xì)解析)
- 1981年高考數(shù)學(xué)全國(guó)卷(理科)及其參考答案-1981年高考數(shù)學(xué)
- 散裝水泥罐體標(biāo)準(zhǔn)資料
- 原發(fā)性肝癌臨床路徑最新版
- 第3章一氧化碳變換
- 義務(wù)教育《歷史》課程標(biāo)準(zhǔn)(2022年版)
- 開工申請(qǐng)開工令模板
評(píng)論
0/150
提交評(píng)論