數(shù)據(jù)挖掘原理與應(yīng)用試題及答案匯總試卷1~12_第1頁(yè)
數(shù)據(jù)挖掘原理與應(yīng)用試題及答案匯總試卷1~12_第2頁(yè)
數(shù)據(jù)挖掘原理與應(yīng)用試題及答案匯總試卷1~12_第3頁(yè)
數(shù)據(jù)挖掘原理與應(yīng)用試題及答案匯總試卷1~12_第4頁(yè)
數(shù)據(jù)挖掘原理與應(yīng)用試題及答案匯總試卷1~12_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘原理與應(yīng)用試題及答案試卷一答案:解:BADDA二、解:二、解:,I, _count?=a,)xcount(B=b)UJ-■ ?en300x450 ~ en300x450 ~ =901500e!2I?。。*45。=3601500300x1050 二2101500e221200x1250 … =8401500所以(25°-9。產(chǎn)(25°-9。產(chǎn)+(5。一21所90210(200-360)2+ 360+(1000-8W840=284.44+121.90+71.11+30.48=507.93三、解:分類(lèi)和回歸的區(qū)別在于輸出變量的類(lèi)型。定量輸出稱(chēng)為回歸,或者說(shuō)是連續(xù)變量預(yù)測(cè);定性輸出稱(chēng)為分類(lèi),或者說(shuō)是離散變量預(yù)測(cè)。四、解:Root(FP-Tree(不唯一))RootFP-TreeK:5Y:10:1

K:5Y:10:1itemconditionalpatternbaseconditionaltreefrequentpatterny{{k,e,m,o:l},{k,e,o:l},{k,m:l}}k:3{k,y:3}o{{k,e,m:l},{k,e:2}k:3,e:3{k,o:3},{e,o:3},{k,e,o:3}m{{k,e:2},{k:l}}k:3{k,m:3}e{#:4}}k:4{k,e:4}五、解:(1)在數(shù)據(jù)集中有20個(gè)正樣本和500個(gè)負(fù)樣本,因此在根結(jié)點(diǎn)處錯(cuò)誤率為T(mén)OC\o"1-5"\h\z_, /20 500、 20t—1-max\ , )—520 520 520如果按照屬性X劃分,則:x=oX=1X=2+01010-2000300TOC\o"1-5"\h\zEx=o=O/31O=O Ex=i=0/10=0 Ex=2=10/310200 10 310 10_10A- 520 520 520 310 520如果按照屬性丫劃分,貝ij:Y=0Y=1Y=2+02()0-20()10020()Ey=o=O/2OO=O120aEy=o=O/2OO=O120ax=E-~\ 52020=0120因此X被選為第一個(gè)分裂屬性,因?yàn)閄=0和X=1都是純節(jié)點(diǎn),所以使用丫屬性去分割不純節(jié)點(diǎn)X=2。丫=0節(jié)點(diǎn)包含100個(gè)負(fù)樣本,丫=1節(jié)點(diǎn)包含10個(gè)正樣本和100個(gè)負(fù)樣本,丫=2節(jié)點(diǎn)100個(gè)負(fù)樣本,所以子節(jié)點(diǎn)被標(biāo)記為“.”。整個(gè)結(jié)果為:'+,X=1類(lèi)標(biāo)記=<、-淇他

預(yù)測(cè)類(lèi)+-實(shí)際類(lèi)+1010-0500510 10accuracy: =0.9808, aprecision:—=1.0520 1010 2*0.5*1.0recall:—=0.5, F-measure: =0.666620 1.0+0.5(3)由題可得代價(jià)矩陣為預(yù)測(cè)類(lèi)+-實(shí)際類(lèi)+0500/20=2.5-10決策樹(shù)在(1)之后還有3個(gè)葉節(jié)點(diǎn),X=2AY=0,X=2AY=1,X=2AY=2o其中X=2八丫=1是不純節(jié)點(diǎn),誤分類(lèi)該節(jié)點(diǎn)為“+”類(lèi)的代價(jià)為:10*0+100*1=100,誤分該節(jié)點(diǎn)為"-”類(lèi)的代價(jià)為:10*25+100*0=250。所以這些節(jié)點(diǎn)被標(biāo)記為“+”類(lèi)。分類(lèi)結(jié)果為:'+ X=1v(X=2/\Y=l)類(lèi)標(biāo)記="、-其他六、解:比如第一次聚類(lèi),兩個(gè)聚簇的中心坐標(biāo)如下:聚類(lèi)中心坐標(biāo)% 工(A、B)(C、D)第二步:計(jì)算某個(gè)樣品到各類(lèi)中心的歐氏平方距離,然后將該樣品分配給最近的一類(lèi)。對(duì)于樣品有變動(dòng)的類(lèi),重新計(jì)算它們的中心坐標(biāo),為下一步聚類(lèi)做準(zhǔn)備。先計(jì)算A到兩個(gè)類(lèi)的平方距離:J2(A,(AB))=(5-2)2+(3-2)2=10片(4(8))=(5+1尸+(3+2尸=61由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計(jì)算B到兩類(lèi)的平方距離:</2(B,(AB))=(-l-2)2+(l-2)2=10/(氏(CD))=(-1+1尸+(1+2產(chǎn)=9由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類(lèi),得到新的聚類(lèi)是(A)和(B、C、D)?更新中心坐標(biāo)如下表所示。聚類(lèi)中心坐標(biāo)(A)53(B、C、D)-1-1第三步:再次檢查每個(gè)樣品,以決定是否需要重新分類(lèi)。計(jì)算各樣品到各中心的距離平方,結(jié)果見(jiàn)下表。聚類(lèi)樣品到中心的距離平方A BC D(A)0404189(B、C、D)52455到現(xiàn)在為止,每個(gè)樣品都已經(jīng)分配給距離中心最近的類(lèi),因此聚類(lèi)過(guò)程到此結(jié)束。最終得到K=2的聚類(lèi)結(jié)果是A獨(dú)自成一類(lèi),B、C、D聚成一類(lèi)。七、解:假警告率=(99%*1%)/(99%*1%+1%*99%)=50%檢測(cè)率=(1%99%)/(1%)=99%八、解:(1)圖1中,對(duì)象p,q,pl是核心對(duì)象:圖2中,對(duì)象p,q,o是核心對(duì)象。因?yàn)樗麄兊?領(lǐng)域內(nèi)斗至少包含3(MinPts)個(gè)對(duì)象。(2)圖1中,對(duì)象p是從對(duì)象pl直接密度可達(dá)的,反之亦然;對(duì)象q是從對(duì)象pl直接密度可達(dá)的,反之亦然。圖2中,對(duì)象p,q,。中不存在直接密度可達(dá)的對(duì)象。(3)圖1中,對(duì)象p,q,pl相互間是密度可達(dá)的;圖2中,對(duì)象p,q,。相互間是密度可達(dá)的。(4)圖1中,對(duì)象p,q,pl相互間是密度相連的;圖2中,對(duì)象p,q,。相互間是密度相連的。九、解:(1)均值2.29,方差1.51(2)離群點(diǎn)24.0試題二答案一、解:d=7(20-22)2+(0-I)2+(36-42)2+(8-10)2=375 Hi?o(*▽*)7* d=V(20-22)3+(0-I)3+(36-42)3+(8-10)3=V233 J(i,j)=max| |,所以d=max{2,l,6,2}=6 二、解:Hadoop基于分布式文件系統(tǒng)HDFS的分布式批處理計(jì)算框架。適用于數(shù)據(jù)量大,SPMD(單程序多數(shù)據(jù))的應(yīng)用。Spark基于內(nèi)存計(jì)算的并行計(jì)算框架。適用于需要迭代多輪計(jì)算的應(yīng)用。MPI基于消息傳遞的并行計(jì)算框架。適用各種復(fù)雜應(yīng)用的并行計(jì)算。支持MPMD(多程序多數(shù)據(jù)),開(kāi)發(fā)復(fù)雜度高三、解:最小支持度計(jì)數(shù)為560%=3Apriori:

四、解:< {1} {2} {3}{4} ><{1}{25}{3}>< {1} {5} {34}>< {2} {3} {4}{5} ><{25}{34}>五、解:9a5R(1)Info(D)= log.? log2—=0.94014 214 14 2144 24 2InfOincm'D)=—X(--log22 2 , 2、 6 /4 , log2—)+—x(——log24 4 24 14 6 22. 2、——log2一)6 26+Ax(-2io+Ax(-2iog2214 4 24-log,-)=0.91114 24Gainkincome)=Infc^D}-Infoincom(.D}=0.940-0.9111=0.029 (2) 4 44 4SplitInfoinco^D}=--Xlog2—6 6 4 4—xlog? xlog?—=1.55714 214 14 214GainRatio^income)—Gain^income)/SplitInfoincom^D}—0.029/1.557=0.019(3) 10 4⑵=-Gini(D)+-Gini(D>=0.443六、解:每個(gè)類(lèi)的先驗(yàn)概率P(G)為: P(buys-computer=yes)=9/14P(buys-computer=no)=5/14條件概率為: P(age=youth|buys-computer=yes)=2/9P(age=youth|buys-computer=no)=3/5P(income=medium|buys-computer=yes)=4/9P(income=medium|buys-computer=no)=2/5P(student=yes|buys-computer=yes)=6/9P(student=yes|buys-computer=no)=1/5P(credit=fair|buys-computer=yes)=6/9P(credit=fair|buys-computer=no)=2/5使用上面的概率,得到:P(X|buys-computer=yes)=P(age=youth|buys-computer=yes)XP(income=medium|buys-computer=yes)XP(student=yes|buys-computer=yes)XP(credit=fair|buys-computer=yes)=32/729 類(lèi)似的,P(X|buys-computer=no)=l2/625 為了找出最大化P(X|Ci)P(Ci),計(jì)算P(X|buys-computer=yes)P(buys-computer=yes)=16/567=0.028 P(X|buys-computer=no)P(buys-computer=no)=6/875=0.007

因此,對(duì)于元組X,樸素貝葉斯分類(lèi)預(yù)測(cè)元組X的類(lèi)為buys-computer=yes 七、解:TPFPTNFNTPRFPRp10540.20N1I440.20.2P2i430.40.2P3i420.60.2N32320.60.4P42310.80.4N43210.80.6N44110.80.8N45010.81P550011八、解:k-均值和k.中心點(diǎn)算法都可以進(jìn)行有效的聚類(lèi)。(1)k-均值優(yōu)點(diǎn):高效,k.均值算法復(fù)雜度為O(tkn),n是對(duì)象數(shù)目,k是聚類(lèi)數(shù)目,t是迭代次數(shù),一般的k,t?n;缺點(diǎn):1)局部最優(yōu)解;2)只適用于連續(xù)的固定的n維數(shù)據(jù)3)需要先確定聚類(lèi)數(shù)目k;4)對(duì)噪音和離群點(diǎn)比較敏感:5)只適用于凸型數(shù)據(jù)聚類(lèi)。k-中心點(diǎn)優(yōu)點(diǎn):1)可適用于范圍可變的數(shù)據(jù);2)能夠處理對(duì)噪聲或離群點(diǎn)。缺點(diǎn):1)局部最優(yōu)解2)只適用于數(shù)據(jù)集較小的數(shù)據(jù)集,對(duì)較大的數(shù)據(jù)集不適用(計(jì)算的復(fù)雜性)算法復(fù)雜度為O(k(n-k)2).3)需要先確定聚類(lèi)數(shù)目k;4)只適用于凸型數(shù)據(jù)聚類(lèi)(2)層次化聚類(lèi)方法優(yōu)點(diǎn):沒(méi)有局部極小問(wèn)題或是很難選擇初始點(diǎn)的問(wèn)題缺點(diǎn):計(jì)算存儲(chǔ)的代價(jià)昂貴。試題三答案:一、解:BCACCBCAAABABBD二、解:ABCACDABCDADABCD三、解:g(D,A)=H(4/10,6/10)-7/10*H(4/7,3/7)-3/10*H(l,0)g(D,B)=H(4/10,6/10)-4/10*H(3/4,1/4)-6/10*H(5/6,1/6)信息增益表示特征X使得類(lèi)y的不確定性減少的程度四、解:這屬于聚類(lèi)分析。因?yàn)檫@是無(wú)監(jiān)督的學(xué)習(xí),事先不知道各個(gè)類(lèi)別的標(biāo)準(zhǔn)。而分類(lèi)分析屬于有監(jiān)督的學(xué)習(xí),事先知道分類(lèi)的標(biāo)準(zhǔn)。兩者的區(qū)別主要是數(shù)據(jù)中是否有類(lèi)標(biāo)號(hào)。從數(shù)據(jù)方面來(lái)說(shuō),分類(lèi)挖掘的數(shù)據(jù)必須有類(lèi)標(biāo)號(hào),也就是有專(zhuān)家參與。五、解:(1):平均值是25.08,20%的截?cái)嗑?兩端各去掉兩個(gè)數(shù)以后的平均值)是18.8,中位數(shù)是19o(2)規(guī)范化后,轉(zhuǎn)換后的值為(0,1,0.31)(3)深度為4進(jìn)行劃分,得到三個(gè)箱(6,7,9,11),(12,18,20,21),(25.35,37,100)邊界值平滑后的結(jié)果為(6,6,11,11),(12,12,21,21),(25,25,25,100)六、解:欠擬合的原因:模型復(fù)雜度過(guò)低,不能很好的擬合所有的數(shù)據(jù),訓(xùn)練誤差大;避免欠擬合:增加模型復(fù)雜度,如采用高階模型(預(yù)測(cè))或者引入更多特征(分類(lèi))等。過(guò)擬合的原因:模型復(fù)雜度過(guò)高,訓(xùn)練數(shù)據(jù)過(guò)少,訓(xùn)練誤差小,測(cè)試誤差大;避免過(guò)擬合:降低模型復(fù)雜度,如加上正則懲罰項(xiàng),如LI,L2,增加訓(xùn)練數(shù)據(jù)等。七、解:劍橋分析有三大法寶:心理學(xué)模型、大數(shù)據(jù)分析、定向廣告。首先,他們從各種地方獲取個(gè)人數(shù)據(jù),比如土地登記信息、汽車(chē)數(shù)據(jù)、購(gòu)物數(shù)據(jù)、優(yōu)惠券、俱樂(lè)部會(huì)員,以及FB賬戶信息等。再把這些信息與選民名冊(cè)等大數(shù)據(jù)整合到一起,一起放進(jìn)已研發(fā)出的心理學(xué)模型中,原先的數(shù)字足跡變成了完整又具體的大活人,他們有擔(dān)憂、有需求、有興趣、有癖好,還附帶手機(jī)號(hào)碼、信用卡類(lèi)型、電子郵箱和家庭住址。接下來(lái),你就可以根據(jù)自己的需求,向這些早已被你研究透的人們灌輸思想了。在川普和希拉里展開(kāi)第三場(chǎng)電視辯論的時(shí)候,劍橋分析用川普的觀點(diǎn)在FB上精心測(cè)試了17.5萬(wàn)個(gè)版本的廣告,然后跟蹤人們?cè)诰W(wǎng)絡(luò)上的舉動(dòng)和興趣,恰如其分地投放4到5萬(wàn)條,不同版本的差別都僅僅是細(xì)節(jié):比如標(biāo)題、顏色、照片、視頻……然后就是等待獵物的反饋:比如某人是賓夕法尼亞州一個(gè)搖擺不定的選民,他有沒(méi)有點(diǎn)擊關(guān)于希拉里郵件門(mén)的帖子呢?點(diǎn)了,就顯示更多的內(nèi)容,看看希拉里是如何失職的。沒(méi)點(diǎn)?自動(dòng)腳本就換個(gè)標(biāo)題,或者換個(gè)切入點(diǎn)~ ■比如這個(gè)人容易聽(tīng)信權(quán)威,標(biāo)題就自動(dòng)更正為:《情報(bào)部門(mén)高官一致認(rèn)為:希拉里郵件門(mén)事件危及國(guó)家安全》??傊褪欠磸?fù)向你投放他們想讓你看到的內(nèi)容,直到你最終被他們洗腦。試題四答案一、解:CCDCCADACDCDCDA二、解:BDABCDBCEADABCDABDCACDABCBCBDCC三、解:(1)被評(píng)為垃圾郵件的發(fā)信郵件地址,信的內(nèi)容,信的格式(長(zhǎng)度,段落等)(2)準(zhǔn)確率為1%,召回率為1.01%(3)對(duì)正樣本進(jìn)行上采樣,或者對(duì)正樣本加大的權(quán)重四、解:d(p,q)=1+1+(20-18)=4d ( p , Cl ) = ( 1-25/30) + (1-20/30 ) + (20-18 )=2.5d ( p , C2 ) = ( 1-3/15) + (1-0/15) + ( 24-18) =7.8d ( q , Cl ) = ( 1-5/30) + (1-4/30) + ( 20-20) =1.7d ( q , C2 ) = ( 1-12/15) + (1-2/15) + (24-20)=5.07d(Cl,Cl)=(1-(25*3+5*12)/30*15)+(1-(6*1+4*2)/15*30)+(24-20)=5.67五、解:K-means算法通過(guò)最小化平方距離,通過(guò)迭代發(fā)現(xiàn)K個(gè)聚簇,在每次迭代中,需要計(jì)算均值點(diǎn),通過(guò)每個(gè)點(diǎn)與均值點(diǎn)的距離來(lái)重新調(diào)整聚類(lèi)。選擇聚類(lèi)中心通過(guò)計(jì)算每個(gè)聚簇中所有點(diǎn)在每個(gè)維度的平均值來(lái)獲得。試題五答案一、解:TOC\o"1-5"\h\z.離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或者值。 (T).離散屬性總是具有有限個(gè)值。 (F).關(guān)聯(lián)規(guī)則挖掘過(guò)程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。 (F).K均值是一種產(chǎn)生劃分聚類(lèi)的基于密度的聚類(lèi)算法,簇的個(gè)數(shù)由算法自動(dòng)地確定。(F).如果一個(gè)對(duì)象不屬于任何簇,那么該對(duì)象是基于聚類(lèi)的離群點(diǎn)。(T)二、解:P(青年I購(gòu)買(mǎi))=2/9=0.222P(收入中等|購(gòu)買(mǎi))=4/9=0.444P(學(xué)生|購(gòu)買(mǎi))=6/9=0.667P(信用中|購(gòu)買(mǎi))=6/9=0.667P(X|購(gòu)買(mǎi))=0.222X0.444X0.667X0.667=0.044P倩年I不買(mǎi))=3/5=0.6P(收入中等|不買(mǎi))=2/5=0.4P(學(xué)生|不買(mǎi))=1/5=0.2P(信用中|不買(mǎi))=2/5=0.4P(X|不買(mǎi))=0.6X0.4X0.2X0.4=0.019p(c)=9/14=0.643P(Ct「P(Ct「不買(mǎi))=5/14=0.357P(購(gòu)買(mǎi)|XP(購(gòu)買(mǎi)|X)=0.044X0.643=0.028(1分)P(不買(mǎi)IX)=0.019X0.357=0.007(1分)試題六答案第一題.單選題AACBACDBADCCDCBACBCC第二題,多選題ABADABCDEABCDEBD第三題.判斷題TTTFTFTFTFFFTFTFFTFF試題七答案第一題.單選題ABADBCABAAABDCDCADDDCDACBDACCC第二題.多選題CDBCABCDADABACACDBCDEABCDBCD試題八答案第一題.單選題ABACBBDCBBAAAABACBCB第二題.多選題ABCABCDABCABABDBCBCABCDABCBCDABCABABCBCD試題九答案一、單選題BACDCBCADAABCDCABBBCBBACCCCDAC二、不定項(xiàng)選擇題CDABCACBCDABCACDABDDACACDSupport(看乒乓球f試題八答案第一題.單選題ABACBBDCBBAAAABACBCB第二題.多選題ABCABCDABCABABDBCBCABCDABCBCDABCABABCBCD試題九答案一、單選題BACDCBCADAABCDCABBBCBBACCCCDAC二、不定項(xiàng)選擇題CDABCACBCDABCACDABDDACACDSupport(看乒乓球f看籃球)=2000/5000=40%Confidence(看乒乓球一看籃球)=2000/3000=66.7%/沈;P(看乒乓球^看籃球)

lJ-P(看乒乓球)P(看籃球)2000/50003000/5000*3750/5000=0.89P(h+|D)=P(九+)P(D|h+)P(。)nn(03*0.2*0.2)=o-2*-7(^0.0096/P(D)P(。)=0.8*(0.01*0.01*0.2)P(D)(2分)=0.000016/P(D)P(/i+⑼>P(h-|D)答:該郵件是垃圾郵件五、c(ABCfD)2c(AB->CD)>c(AtBCD)c(ABC-D)=support({A}u{B}u{C}u{D})/support({A}u{B}u{C})c(AB->CD)=support({A}u{B}u{C)u{D})/support({A)u{B})c(A->BCD)=support({A}o{B}u{C}o{D})/support({AJ)很顯然:support({A}u{B)u{C})<support({A}u{B})<support({A})因此:c(ABC D)>c(ABCD)>c(ABCD)六、神經(jīng)網(wǎng)絡(luò)使用激活函數(shù)能夠增加模型的非線性映射,提高網(wǎng)絡(luò)的擬合和表達(dá)能力;;/3)={(1+6-工尸}'-2(_「)e~x(1+e-/產(chǎn)e~~x1+eT11+e-x=/W(i-/W)/(0)=/(0)(l-/(0))=七:?jiǎn)栴}i解答:小梅采用OneHotEncoder獨(dú)熱編碼,而小雷采用的是LabelEncoder標(biāo)簽編碼(即用某一個(gè)數(shù)字代表一種類(lèi)型,如1代表一線城市,2代表二線城市,3代表三線城市)。如果模型損失函數(shù)對(duì)變量的數(shù)值大小是敏感的,如SVM、LR、GLM等,為模型A:如果模型損失函數(shù)對(duì)變量數(shù)據(jù)大小不敏感,數(shù)值的存在意義是為了排序,如各種樹(shù)模型,則為模型屏顯然該題用的LR模型對(duì)變量數(shù)值大小是敏感的,所以小梅的編碼方式更合適。問(wèn)題2解答:beta為機(jī)器學(xué)習(xí)模型中的截距,如果設(shè)置為I,與事實(shí)相比過(guò)大,可能需要模型訓(xùn)練更長(zhǎng)時(shí)間。所以小梅更好,能在短時(shí)間找到最優(yōu)的模型參數(shù)。問(wèn)題3解答:在訓(xùn)練樣本中擬合的很好,但是在測(cè)試樣本中效果比較差,屬于過(guò)擬合問(wèn)題。該損失函數(shù)使用的是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,不是結(jié)構(gòu)風(fēng)險(xiǎn)最小化,泛化能力差,容易過(guò)擬合。(結(jié)構(gòu)風(fēng)險(xiǎn)=經(jīng)驗(yàn)風(fēng)險(xiǎn)+置信風(fēng)險(xiǎn),置信風(fēng)險(xiǎn)是一個(gè)減函數(shù),整個(gè)公示反映了經(jīng)驗(yàn)風(fēng)險(xiǎn)和真實(shí)誤差的差距上界,表征了根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則得到的模型的泛化能力。稱(chēng)為泛化誤差上界。)問(wèn)題4解答:AUC最大的應(yīng)用應(yīng)該就是點(diǎn)擊率預(yù)估(CTR)的離線評(píng)估。其計(jì)算過(guò)程如下:得到結(jié)果數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)為:(輸出概率,標(biāo)簽真值);對(duì)結(jié)果數(shù)據(jù)按輸出概率進(jìn)行分組,得到(輸出概率,該輸出概率下真實(shí)正樣本數(shù),該輸出概率下真實(shí)負(fù)樣本數(shù))。這樣做的好處是方便后面的分組統(tǒng)計(jì)、閾值劃分統(tǒng)計(jì)等;對(duì)結(jié)果數(shù)據(jù)按輸出概率進(jìn)行從大到小排序;從大到小,把每一個(gè)輸出概率作為分類(lèi)閾值,統(tǒng)計(jì)該分類(lèi)閾值下的TPR和FPR;微元法計(jì)算ROC曲線面積、繪制ROC曲線。試題十答案一、單選題ADDBDCABDCCBBCBCCAACDDCCCCCAAB二、判斷題FFTTFFTFTF三、不定項(xiàng)選擇題BCDABCABDABCABC四、答:聚類(lèi)算法主要有:層次的方法(hierarchicalmethod)>劃分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于網(wǎng)格的方法(grid-basedmelhod)、基于模型的方法(model-basedmethod)等。其中,前兩種算法是利用統(tǒng)計(jì)學(xué)定義的距離進(jìn)行度量。K-Means算法的計(jì)算原理如下:首先從〃個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類(lèi)中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類(lèi)中心的相似度(距離),分別將它們分配給與其最相似的(聚類(lèi)中心所代表的)聚類(lèi);然后再計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心(該聚類(lèi)中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。在算法中,一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù),算法收斂后各聚類(lèi)本身盡可能的緊湊,而各聚類(lèi)之間盡可能的分開(kāi)。五、答:在模型建立的時(shí)候,如果一味的追求提高對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)能力,所選模型的復(fù)雜度往往會(huì)比真實(shí)的模型高,這種現(xiàn)象稱(chēng)之為過(guò)擬合。從原理上來(lái)說(shuō),過(guò)擬合是對(duì)訓(xùn)練數(shù)據(jù)的過(guò)度學(xué)習(xí),得到的模型參數(shù)太多太復(fù)雜,所建立模型太過(guò)于依賴訓(xùn)練數(shù)據(jù),從而導(dǎo)致模型放在預(yù)測(cè)數(shù)據(jù)上時(shí)反而得不到很好的效果。因此在模型建立和選擇時(shí),不僅僅要考慮在訓(xùn)練集上準(zhǔn)確率高,更重要的是在測(cè)試集上的準(zhǔn)確性。防止過(guò)擬合最常用的方法就是模型的正則化,即在模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)后面加上一個(gè)正則項(xiàng)(懲罰項(xiàng)),正則項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則項(xiàng)也越大。通過(guò)添加正則項(xiàng)強(qiáng)迫機(jī)器去學(xué)習(xí)盡可能簡(jiǎn)單的模型。正則化的作用就是選擇經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度都比較小的模型。正則化符合奧卡姆剃刀原則:在所有可以選擇的模型中,能夠很好地解釋已知數(shù)據(jù)同時(shí)十分簡(jiǎn)單的模型才是最好的模型。六、1)年齡均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44年齡中位數(shù)=(50+52)/2=51標(biāo)準(zhǔn)差=方差的平方根=開(kāi)根號(hào)(l/n-l[E(Xi)2-l/n-l(EXi)。)注意這里是抽樣(即估算樣本方差),根號(hào)內(nèi)除以(n-1)=開(kāi)根號(hào)1/17[2970.44]=13.22脂肪百分比均值=28.78,中位數(shù)=30.7,標(biāo)準(zhǔn)差=9.252)繪制年齡和脂肪百分比的盒圖

3)根據(jù)這兩個(gè)屬性,繪制散布圖4)根據(jù)z-score規(guī)范化來(lái)規(guī)范化這兩個(gè)屬性age232327273941474950z-age-1.83-1.83-1.51-1.51-0.58-0.420.040.200.28%fat9.526.57.817.831.425.927.427.231.2z-%fat-2.14-0.25-2.33-1.220.29-0.32-0.15-0.180.27age525454565758586061z-age0.430.590.590.740.820.900.901.061.13%fat34.642.528.833.430.234.132.941.235.7z-%fat0.651.53().0().510.1G0.59().461.380.775)計(jì)算得到相關(guān)系數(shù)為0.82公式如下,兩個(gè)屬性變量呈正相關(guān),、cov(X,Y)七:

1)節(jié)點(diǎn)4、5、6的凈輸入7,和輸出Oj為:單前凈輸入(輸出g40.2+0-0.5-0.4=-0.7l+(l+e07)=03325-03+0+0.2+0.2=0.11+(1+e?!?=0.5256(-O.3)(O.332M-O.2)(O.525)+0.1=-0.1051+(1-t-eoio5)=0.4742)節(jié)點(diǎn)4、5、6的誤差Es為:單元jErr}6(0.474)(1-0.474)(1-0.474)=0.13115(O.525)(1-0.525)(0.1311)(-0.2)=-0.00654(0332)(1-0.332X0.1311)(-03)=-0.00873)更新后的權(quán)值和偏置為:權(quán)或偏置新值%"J“一化仇-0.3+(0.9)(0.1311)(0.332)=-0.2610.2+(0.9)(0.1311)(0.525)=-0.1380.2+(0.9)(-0,0087)(1)=0.1920.3+(0.9)(0.0065)(1)=-0.3060.4+(0.9)(-0.0087)(0)=0.40.1+(0.9)(-0.0065X0)=0.10.5+(0.9)(-0.0087)(1)=-0.5080.1+(0.9)(-0.0065)(1)=0.1940.1+(0.9)(0.1311)=0.2180.2+(0.9)(-0.0065)=0.1940.44-(0.9)(-0.0087)=-0.4084)根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對(duì)上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都小于1的話,那么即使這個(gè)結(jié)果是0.99,在經(jīng)過(guò)足夠多層傳播之后,誤差對(duì)輸入層的偏導(dǎo)會(huì)趨于0,簡(jiǎn)言之,隨著網(wǎng)絡(luò)層數(shù)的增加,誤差反向傳播的梯度更新信息會(huì)朝著指數(shù)衰減的方式減少,這就是梯度消失。數(shù)據(jù)挖掘原理與應(yīng)用試題及答案一、(30分,總共30題,每題答對(duì)得1分,答錯(cuò)得0分)單選題1、當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類(lèi)標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離(A)A、聚類(lèi);B、關(guān)聯(lián)分析;C,分類(lèi);D、隱馬爾科夫2、樸素貝葉斯是一種特殊的貝葉斯分類(lèi)器,特征變量是X,類(lèi)別標(biāo)簽是C,它的一個(gè)假定是:(C)A、各類(lèi)別的先驗(yàn)概率P(C)是相等的B、以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布C、特征變量X的各個(gè)維度是類(lèi)別條件獨(dú)立隨機(jī)變量D、P(X|C)是局斯分布3,下列說(shuō)法錯(cuò)誤的是(A)Krieans算法能夠解決有離群點(diǎn)的聚類(lèi)問(wèn)題K-modes能夠解決離散數(shù)據(jù)的聚類(lèi)問(wèn)題K-means^能夠解決初始點(diǎn)影響聚類(lèi)效果的問(wèn)題K中心點(diǎn)能夠解決有離群點(diǎn)的聚類(lèi)問(wèn)題4、只有非零值才重要的二元屬性被稱(chēng)作:(C)A、計(jì)數(shù)屬性 B、離散屬性C,非對(duì)稱(chēng)的二元屬性 D、對(duì)稱(chēng)屬性5,以下哪些方法不可以直接來(lái)對(duì)文本分類(lèi)(A)A、KmeansB,決策樹(shù)C,支持向量機(jī) D、KNN6、在logistic分類(lèi)中,LI正則化和L2正則化的引入為了解決什么問(wèn)題?(C)A、數(shù)據(jù)量不充分 B、訓(xùn)練數(shù)據(jù)不匹配C,訓(xùn)練過(guò)擬合 D、訓(xùn)練速度太慢7、標(biāo)稱(chēng)類(lèi)型數(shù)據(jù)的可以實(shí)現(xiàn)數(shù)學(xué)計(jì)算(A)A、眾數(shù)B、中位數(shù)C,均值D、方差8、對(duì)于數(shù)據(jù)組:200,300,500,700,1000,使用最小-最大規(guī)范化,將數(shù)據(jù)規(guī)約到區(qū)間[5,10],其中數(shù)據(jù)500將變換為(C)A、7.375B、5.52C、6.875D、79、主成分分析(PCA)中各因子的關(guān)系是(A、互相獨(dú)立 B、線性相關(guān)A)C、非線性相關(guān)D、都有可能10、數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用多個(gè)算法(模型)進(jìn)行預(yù)測(cè),并且最后把這些算法的結(jié)果集成起來(lái)進(jìn)行最后的預(yù)測(cè)(集成學(xué)習(xí)),以下對(duì)集成學(xué)習(xí)說(shuō)法正確的是(B)A、單個(gè)模型之間有高相關(guān)性B、單個(gè)模型之間有低相關(guān)性C、在集成學(xué)習(xí)中使用“平均權(quán)重”而不是“投票”會(huì)比較好D、單個(gè)模型都是用的一個(gè)算法11,訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),以下哪種激活函數(shù)最容易造成梯度消失:(B)

A、tanhA、tanhB、sigmoidC、ReLUD、leakyReLU12、在訓(xùn)練Lass。回歸模型時(shí),訓(xùn)練數(shù)據(jù)集有N個(gè)特征(XI,X2,…,XN)?在模型調(diào)優(yōu)階段的數(shù)據(jù)預(yù)處理時(shí),無(wú)意將某個(gè)特征XX擴(kuò)大了20倍,然后用相同的正則化參數(shù)對(duì)Lasso回歸進(jìn)行修正。那么,下列說(shuō)法正確的是?(B)A、特征XX很可能被排除在模型之外B、特征XX很可能還包含在模型之中C、無(wú)法確定特征XX是否被舍棄D、其磔項(xiàng)說(shuō)法髀對(duì)13、以下模型中,在數(shù)據(jù)預(yù)處理時(shí),不需要考慮歸一化處理的是:(C)A,logistic回歸B、SVMC、樹(shù)形模型 D、神經(jīng)網(wǎng)絡(luò)14、關(guān)于數(shù)據(jù)預(yù)處理,以下說(shuō)法錯(cuò)誤的是(B)A、可以通過(guò)聚類(lèi)分析方法找出離群點(diǎn)。B、數(shù)據(jù)質(zhì)量的三個(gè)基本屬性(指標(biāo))是:正確性、精確性和完整性。C、聚類(lèi)和回歸算法可在數(shù)據(jù)預(yù)處理中做數(shù)據(jù)規(guī)約操作。D、數(shù)據(jù)集成包括內(nèi)容集成和結(jié)構(gòu)集成。15、如果對(duì)相同的數(shù)據(jù)進(jìn)行邏輯回歸,將花費(fèi)更少的時(shí)間,并給出比較相似的精度(也可能不一樣),怎么辦?(假設(shè)在龐大的數(shù)據(jù)集上使用Logistic回歸模型。可能遇到一個(gè)問(wèn)題,Logistic回歸需要很長(zhǎng)時(shí)間才能訓(xùn)練。)(D)A、陽(yáng)氐學(xué)習(xí)率,減少迭代次數(shù) B、降低學(xué)習(xí)率,增加迭代次數(shù)C、提高學(xué)習(xí)率,增加迭代次數(shù) D、增加學(xué)習(xí)率,減少迭代次數(shù)16、小明想使用邏輯回歸預(yù)測(cè)用戶點(diǎn)擊某廣告可能性,使用了變量xl,x2作為輸入特征,兩個(gè)變量量綱差異巨大,且xl本身呈雙峰分布,兩個(gè)分布中心數(shù)值差異巨大,請(qǐng)問(wèn)小明應(yīng)該怎么做特征工程(D)A,對(duì)xl,x2做min-max歸一化B、對(duì)xl做z-score歸一化,對(duì)x2做min-max歸一化C、對(duì)xl,x2做z-score歸一化D、以上皆不對(duì)17、關(guān)于邏輯回歸和SVM算法,說(shuō)法不正確的是(A)A、邏輯回歸的目標(biāo)是最小化后驗(yàn)概率B、邏輯回歸可以用于預(yù)測(cè)事件發(fā)生概率的大小C、SVM的目標(biāo)是最小化結(jié)構(gòu)風(fēng)險(xiǎn)D、SVM可以有效避免模型過(guò)擬合18、以下關(guān)于邏輯回歸的說(shuō)法不正確的是?(C)A、邏輯回歸必須對(duì)缺失值做預(yù)處理;B、邏輯回歸要求自變量和目標(biāo)變量是線性關(guān)系;C、邏輯回歸比決策樹(shù),更容易過(guò)度擬合;D、邏輯回歸只能做2值分類(lèi),不能直接做多值分類(lèi);19、有如下6條記錄的數(shù)據(jù)集:tl=[0,P,B],t2=[P,B,M],t3=[M,A],t4=[0,P,M],t5=[0,P,B,A],t6-[0,P, 則支持度大于50%的頻繁3項(xiàng)集為(A)

A、OPBBA、OPBB、OPMC、PBMD、OBM20、通??梢酝ㄟ^(guò)關(guān)聯(lián)規(guī)則挖掘來(lái)發(fā)現(xiàn)啤酒和尿布的關(guān)系,那么如果對(duì)于一條規(guī)則A-B,如果同時(shí)購(gòu)買(mǎi)A和B的顧客比例是4/7,而購(gòu)買(mǎi)A的顧客當(dāng)中也購(gòu)買(mǎi)了B的顧客比例是1/2,而購(gòu)買(mǎi)B的顧客當(dāng)中也購(gòu)買(mǎi)了A的顧客比例是1/3,則以下對(duì)于規(guī)則AfB的支持度(support)和置信度(confidence)分別是多少?(C)A、4/7,1/3 B、3/7,1/2C、4/7,1/2 D、4/7,2/321、下面關(guān)于關(guān)聯(lián)規(guī)則的描述錯(cuò)誤的是(D)A、關(guān)聯(lián)規(guī)則經(jīng)典的算法主要有Apriori算法和FP-growth算法B、FP-growth算法主要采取分而治之的策略C、FP-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性D、Apriori算法不需要重復(fù)的掃描數(shù)據(jù)庫(kù)22、DBSCAN算法適用于哪種樣本集(C)A、凸樣本集B、非凸樣本集C、凸樣本集與非凸樣本集 D、無(wú)法判斷23、在k-均值算法中,以下哪個(gè)選項(xiàng)可用于獲得全局最小?(D)A、嘗試為不同的質(zhì)心(centroid)初始化運(yùn)行算法B、調(diào)整迭代的次數(shù)C、找到集群的最佳數(shù)量D、以上所有24、兩個(gè)種子點(diǎn)A(T,0),B(-l,6),其余點(diǎn)為(0,0),(2,0),(0,6),(2,6),利用Kmeans算法,點(diǎn)群中心按坐標(biāo)平均計(jì)算。最終同類(lèi)點(diǎn)到種子點(diǎn)A和同類(lèi)點(diǎn)到種子點(diǎn)B的距離和分別為(B)A、1,1B、2,2C、4,4D、6,625、一般情況下,KNN最近鄰方法在(D)情況下效果最好A、樣本呈現(xiàn)團(tuán)狀分布 B、樣本呈現(xiàn)鏈狀分布C、樣本較多但典型性不好 D、樣本較少但典型性好26、在使用樸素貝葉斯進(jìn)行文本分類(lèi)時(shí),待分類(lèi)語(yǔ)料中,有部分語(yǔ)句中的某些詞匯在訓(xùn)練語(yǔ)料中的A類(lèi)中從未出現(xiàn)過(guò),下面哪些解決方式是正確的(C)A、按照貝葉斯公式計(jì)算,這些詞匯并未在A類(lèi)出現(xiàn)過(guò),那么語(yǔ)句屬于A類(lèi)的概率為零。B、這種稀疏特征屬于噪音,它們的加入會(huì)嚴(yán)重影響到分類(lèi)效果,把這類(lèi)特征從所有類(lèi)別中刪掉。C、這種特征可能會(huì)起到作用,不易簡(jiǎn)單刪掉,使用一些參數(shù)平滑方式,使它起到作用。D、這種稀疏特征出現(xiàn)在的類(lèi)別,該句更有可能屬于該類(lèi),應(yīng)該把特征從它未出現(xiàn)的類(lèi)別中刪掉。27、下面關(guān)于貝葉斯分類(lèi)器描述錯(cuò)誤的是(B)A、以貝葉斯定理為基礎(chǔ)B、是基于后驗(yàn)概率,推導(dǎo)出先驗(yàn)概率C、可以解決有監(jiān)督學(xué)習(xí)的問(wèn)題D、可以用極大似然估計(jì)法解貝葉斯分類(lèi)器28、我們想在大數(shù)據(jù)集上訓(xùn)練決策樹(shù),為了使用較少時(shí)間,我們可以(C)

A、增加樹(shù)的深度C、減少樹(shù)的深度A、增加樹(shù)的深度C、減少樹(shù)的深度D、減少樹(shù)的數(shù)量29、在使用數(shù)據(jù)挖掘解決現(xiàn)實(shí)問(wèn)題時(shí),有時(shí)出現(xiàn)分類(lèi)問(wèn)題的正負(fù)樣本集不均衡的現(xiàn)象,在這種情況下,以下哪種指標(biāo)不合理?(B)A,FmeasureB、AccuracyC、AUC D、Gmean30、神經(jīng)網(wǎng)絡(luò)模型是受人腦的結(jié)構(gòu)啟發(fā)發(fā)明的。神經(jīng)網(wǎng)絡(luò)模型由很多的神經(jīng)元組成,每個(gè)神經(jīng)元都接受輸入,進(jìn)行計(jì)算并輸出結(jié)果,那么以下選項(xiàng)描述正確的是(D)A、每個(gè)神經(jīng)元只有一個(gè)單一的輸入和單一的輸出B、每個(gè)神經(jīng)元有多個(gè)輸入而只有一個(gè)單一的輸出C、每個(gè)神經(jīng)元只有一個(gè)單一的輸入而有多個(gè)輸出D、每個(gè)神經(jīng)元有多個(gè)輸入和多個(gè)輸出二、(20分,總共10題,每題全對(duì)得2分,漏選得1分,錯(cuò)選得。分)不定項(xiàng)選擇題1、采用決策樹(shù)分類(lèi)算法,連續(xù)數(shù)據(jù)如何處理?(AB)A、連續(xù)數(shù)據(jù)離散化 B、選擇最佳劃分點(diǎn)分裂C、連續(xù)數(shù)據(jù)每2個(gè)值之間形成分裂 D、以上均不正確2、主成分分析(PCA)是一種重要的降維技術(shù),以下對(duì)于PCA的描述正確的是:(ABC)A、主成分分析是一種無(wú)監(jiān)督方法B、主成分?jǐn)?shù)量一定小于等于特征的數(shù)量C、各個(gè)主成分之間相互正交D、原始數(shù)據(jù)在第一主成分上的投影方差最小3、影響基本K-均值算法的主要因素有(ABD)oA,樣本輸入頁(yè)序 B、模式相似性測(cè)度C,聚類(lèi)準(zhǔn)則 D、初始類(lèi)中心的選取4、關(guān)于K均值和DBSCAN的比較,以下說(shuō)法正確的是(ABC)A、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念B、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。C、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇D、K均值丟棄被它識(shí)別為噪聲的時(shí)象,而DBSCAN一般聚類(lèi)所有對(duì)象5、貝葉斯分類(lèi)器的訓(xùn)練中,最大似然法估計(jì)參數(shù)的過(guò)程包括以下哪些步驟(ABCD)A、寫(xiě)出似然函數(shù)B、求導(dǎo)數(shù),令偏導(dǎo)數(shù)為0,得到似然方程組C、對(duì)似然函數(shù)取對(duì)數(shù),并整理D、解似然方褶且,得到所有參數(shù)即為所求6、決策樹(shù)中屬性選擇的方法有?(BCD)A、信息值 B、信息增益C、信息增益率 D、GINI系數(shù)7、在數(shù)據(jù)挖掘中需要?jiǎng)澐謹(jǐn)?shù)據(jù)集,常用的劃分測(cè)試集和訓(xùn)練集的劃分方法有哪些(ABC)A、留出法B、交叉驗(yàn)證法 C、自助法D、評(píng)分法8、下列有關(guān)機(jī)器學(xué)習(xí)中L1正則化和L2正則化說(shuō)法正確的是?(AD)A、使用L1可以得到稀疏的權(quán)值B、使用L2可以得到稀疏的權(quán)值C、使用L1可以得到平滑的權(quán)值D、使用L2可以得到平滑的權(quán)值9、下列哪些因素會(huì)對(duì)BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果產(chǎn)生影響(ABCD)A、權(quán)值初始值 B,閾值初始值C,學(xué)習(xí)率 D,隱層神經(jīng)元個(gè)數(shù)10、下列關(guān)于隨機(jī)森林和Adaboost說(shuō)法正確的是(ACD)A、和Adaboost相比,隨機(jī)森林對(duì)錯(cuò)誤和離群點(diǎn)更魯棒B、隨機(jī)森林準(zhǔn)確率不依賴于個(gè)體分類(lèi)器的實(shí)例和他們之間的依賴性C、隨機(jī)森林對(duì)每次劃分所考慮的屬性數(shù)很偏感D、Adaboost初始時(shí)每個(gè)訓(xùn)練元組被賦予相等的權(quán)重三、(10分,總共10題,每題答對(duì)得1分,答錯(cuò)得0分)判斷題,正確的用“T”,錯(cuò)誤的用“F”1、具有較高的支持度的項(xiàng)集具有較高的置信度。(錯(cuò))2、利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)。(對(duì))3、可以利用概率統(tǒng)計(jì)方法估計(jì)數(shù)據(jù)的分布參數(shù),再進(jìn)一步估計(jì)待測(cè)試數(shù)據(jù)的概率,以此來(lái)實(shí)現(xiàn)貝葉斯分類(lèi)。(對(duì))4、數(shù)據(jù)庫(kù)中某屬性缺失值比較多時(shí),數(shù)據(jù)清理可以采用忽略元組的方法。(錯(cuò))5、K-means++自睇解決初始點(diǎn)影響聚類(lèi)效果的問(wèn)題。(對(duì))6、邏輯回歸等同于一個(gè)使用交叉墉loss,且沒(méi)有隱藏層的神經(jīng)網(wǎng)絡(luò)。(對(duì))7、樸素貝葉斯分類(lèi)器不存在數(shù)據(jù)平滑問(wèn)題。(錯(cuò))8、邏輯回歸分析需要對(duì)離散值做預(yù)處理,決策樹(shù)則不需要。(對(duì))9、在AdaBoost算法中,所有被分錯(cuò)的樣本的權(quán)重更新比例相同。(對(duì))10、分類(lèi)和回歸都可用于預(yù)測(cè),分類(lèi)的輸出是連續(xù)數(shù)值,而回歸的輸出是離散的類(lèi)別值。(錯(cuò))四、(10分)假設(shè)正常對(duì)象被分類(lèi)為離群點(diǎn)的概率是0.01,而離群點(diǎn)被分類(lèi)為離群點(diǎn)概率為0.99,如果99%的對(duì)象都是正常的,那么檢測(cè)率和假警告率各為多少?(使用下面的定義)

檢測(cè)率=假警告率=檢測(cè)出的離群點(diǎn)個(gè)數(shù)

離群點(diǎn)的總數(shù)檢測(cè)率=假警告率=假離群點(diǎn)的個(gè)數(shù)被分類(lèi)為離群點(diǎn)的個(gè)數(shù)觀察發(fā)現(xiàn),每天有10%觀察發(fā)現(xiàn),每天有10%概率需求40份,30%概率需求50份,40%概率需求40份,20%概率需求70份,做出下方部分決策樹(shù):五、(10分)小明開(kāi)家餐廳賣(mài)炒飯,每份炒飯售價(jià)10元,成本8元,每天需要以10份為單位提前準(zhǔn)備炒飯,按每天可能需求40,50,60,70彳分炒飯做出下方支付矩陣:?興建S裝炒坂的供應(yīng)量40份50份60份70份40份80元。元-80元-160元50份80元100元20元-60元60份80元100元120元40元70份80元100元120元140元請(qǐng)計(jì)算準(zhǔn)備50份炒飯的利潤(rùn)的期望值?六、(10分)從某超市顧客中隨機(jī)抽取5名,他們的購(gòu)物籃數(shù)據(jù)的二元0/1表示如下:面包牛奶尿布啤酒雞蛋可樂(lè)

11100002101110301110141111005111001某學(xué)生依據(jù)此數(shù)據(jù)做關(guān)聯(lián)分析,考慮規(guī)則{牛奶,尿布}->{啤酒},請(qǐng)計(jì)算該規(guī)則的支持度(support).置信度(confidence)。七、(10分)下表的數(shù)據(jù)集包含兩個(gè)屬性X與丫,兩個(gè)類(lèi)標(biāo)號(hào)“+”和。每個(gè)屬性取三個(gè)不同值策略:0,1或2?!?”類(lèi)的概念是丫=1, 類(lèi)的概念是爛0andX=2。XY實(shí)例擻+-00010010002001001110021101000201001200220100⑴建立該數(shù)據(jù)集的決策樹(shù)。該決策樹(shù)能捕捉至甘+”和”的概念嗎?(注意:純性度量采用ClassificationError,Error?=1-max|t))(2)決策樹(shù)的準(zhǔn)確率、精度、召回率和Fl各是多少?(注意:精度,召回率和F1量均是對(duì)“+”類(lèi)的定義)四、解:TOC\o"1-5"\h\z假警告率=(99%*1%)/(99W:l%+l%*99%)=50% 5檢測(cè)率=(1%99%)/(1%)=99% 5五、解:需求40的利潤(rùn):0.1*0=0 2

需求50的利潤(rùn):0.3*100=30 2需求60的利潤(rùn):0.4*100=40 2需求70的利潤(rùn):0.2*100=20 2利潤(rùn)期望值:30+40+20=90 2六、解:支持度:{牛奶,尿布,啤酒}都出現(xiàn)的個(gè)數(shù)/事務(wù)數(shù)=2/5 5置信度:{牛奶,尿布,啤酒}都出現(xiàn)的個(gè)數(shù)/{牛奶,尿布}出現(xiàn)的個(gè)數(shù)=2/3 5七、解:(1)4在數(shù)據(jù)集中有20個(gè)正樣本和500個(gè)負(fù)樣本,因此在根結(jié)點(diǎn)處錯(cuò)誤率為E=l-max(1分)x=oX=1X=2+01010-2000300如果按照屬性X劃分,5JIJE=l-max(1分)x=oX=1X=2+01010-2000300如果按照屬性X劃分,5JIJ:Ex=0=0/310=0Ex=l=0/10=0Ex=2=10/310△x=£-200 *052010 31010 10 *0 * = (1分)520 520310520YRY=1Y=2+0200-200100200如果按照屬性丫劃分,則:EY=0=0/200=0EY=l=20/120EY=2R/200=012052020 ■=0120(1分)因此X被選為第一個(gè)分裂屬性,因?yàn)閄=0和X=1都是純節(jié)點(diǎn),所以使用Y屬性去分割不純節(jié)點(diǎn)X=2。YR節(jié)點(diǎn)包含100個(gè)負(fù)樣本,Y=1節(jié)點(diǎn)包含10個(gè)正樣本和100個(gè)負(fù)樣本,丫二2節(jié)點(diǎn)100個(gè)負(fù)樣本,所以子節(jié)點(diǎn)被標(biāo)記為“Jo整個(gè)結(jié)果為:(2分)+,X=1其他(2)(每個(gè)1分,總計(jì)5分)預(yù)測(cè)類(lèi)+-實(shí)際類(lèi)+1010-0500?,1°

precision:—?,1°

precision:—=1.0

1052010recal10recal1:—=0.5,20F-measure: =0.66661.0+0.5數(shù)據(jù)挖掘原理與應(yīng)用試題及答案試卷一、(30分,總共30題,每題答對(duì)得1分,答錯(cuò)得0分)單選題1、在ID3算法中信息增益是指(D)A、信息的溢出程度 B、信息的增加效益C、端增加的程度最大 D、烯減少的程度最大2、下面哪種情況不會(huì)影響kmeans聚類(lèi)的效果?(B)A、數(shù)據(jù)點(diǎn)密度分布不均B、數(shù)據(jù)點(diǎn)呈圓形狀分布C、數(shù)據(jù)中有異常點(diǎn)存在D、數(shù)據(jù)點(diǎn)呈非凸形狀分布3、下列哪個(gè)不是數(shù)據(jù)對(duì)象的別名(C)A、樣品B、實(shí)例C、維度D、元組4、人從出生到長(zhǎng)大的過(guò)程中,是如何認(rèn)識(shí)事物的?(D)A、聚類(lèi)過(guò)程B、分類(lèi)過(guò)程C、先分類(lèi),后聚類(lèi)D、先聚類(lèi),后分類(lèi)5、決策樹(shù)模型中應(yīng)如何妥善處理連續(xù)型屬性:(C)A、直接忽略 B、利用固定閾值進(jìn)行離散化C、根據(jù)信息增益選擇閾值進(jìn)行離散化D、隨機(jī)選擇數(shù)據(jù)標(biāo)簽發(fā)生變化的位置進(jìn)行離散化6、假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70.問(wèn)題:使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個(gè)箱子值為:(A)A、18.3B,22.6C、26.8D、27.97、建立一個(gè)模型,通過(guò)這個(gè)模型根據(jù)已知的變量值來(lái)預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類(lèi)任務(wù)?(C)A,根據(jù)內(nèi)容檢索 B、建模描述C、預(yù)測(cè)建模 D、尋找模式和規(guī)則8、如果現(xiàn)在需要對(duì)一組數(shù)據(jù)進(jìn)行樣本個(gè)體或指標(biāo)變量按其具有的特性進(jìn)行分類(lèi),尋找合理的度量事物相似性的統(tǒng)計(jì)量,應(yīng)該采取(A)A,聚類(lèi)分析 B、回歸分析C、相關(guān)分析D、判別分析9、時(shí)間序列數(shù)據(jù)更適合用(A)做數(shù)據(jù)規(guī)約。A、小波變換 B、主成分分析 C、決策樹(shù) D、直方圖10、下面哪些場(chǎng)景合適使用PCA?(A)A、陽(yáng)氐數(shù)據(jù)的維度,節(jié)約內(nèi)存和存儲(chǔ)空間B、降低數(shù)據(jù)維度,并作為其它有監(jiān)督學(xué)習(xí)的輸入C、獲得更多的特征D、替代線性回歸11、數(shù)字圖像處理中常使用主成分分析(PCA)來(lái)對(duì)數(shù)據(jù)進(jìn)行降維,下列關(guān)于PCA算法錯(cuò)誤的是:(C)A、PCA算法是用較少數(shù)量的特征對(duì)樣本進(jìn)行描述以達(dá)到降低特征空間維數(shù)的方法;B、PCA本質(zhì)是KL-變換;C、PCA是最小絕對(duì)值誤差意義下的最優(yōu)正交變換:D、PCA算法通過(guò)對(duì)協(xié)方差矩陣做特征分解獲得最優(yōu)投影子空間,來(lái)消除模式特征之間的相關(guān)性、突出差異性;12、將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?(C)A,頻繁模式挖掘 B,分類(lèi)和預(yù)測(cè)C、數(shù)據(jù)預(yù)處理 D、數(shù)據(jù)流挖掘13、假設(shè)使用維數(shù)降低作為預(yù)處理技術(shù),使用PCA將數(shù)據(jù)減少到k維度。然后使用這些PCA預(yù)測(cè)作為特征,以下哪個(gè)聲明是正確的?(B)A、更高的“k”意味著更正則化 B、更高的“k”意味著較少的正則化C,都不對(duì) D、都正確14、為節(jié)省神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間,神經(jīng)網(wǎng)絡(luò)模型的權(quán)重和偏移參數(shù)一般初始化為(D)A、0B、0.5C、1D,隨機(jī)值15、在邏輯回歸輸出與目標(biāo)對(duì)比的情況下,以下評(píng)估指標(biāo)中哪一項(xiàng)不適用?(D)A、AUC-ROCB、準(zhǔn)確度C、LoglossD、均方誤差16、假設(shè)對(duì)數(shù)據(jù)提供一個(gè)邏輯回歸模型,得到訓(xùn)練精度X和測(cè)試精度Yo在數(shù)據(jù)中加入新的特征值,則下列哪一項(xiàng)是正確的?提示:其余參數(shù)是一樣的。(B)A,訓(xùn)練精度總是下降 B、訓(xùn)練精度總是上升或不變C,測(cè)試精度總是下降 D、測(cè)試精度總是上升或不變17、SVM(支持向量機(jī))與LR(邏輯回歸)的數(shù)學(xué)本質(zhì)上的區(qū)別是什么?(A)A、損失函數(shù) B、是否有核技巧 C、是否支持多分類(lèi) D、其余選項(xiàng)皆錯(cuò)18、邏輯回歸為什么是一個(gè)分類(lèi)算法而不是回歸算法?(A)A、是由于激活函數(shù)sigmod把回歸問(wèn)題轉(zhuǎn)化成了二分類(lèi)問(wèn)題B、是由于激活函數(shù)maxsoft把回歸問(wèn)題轉(zhuǎn)化成了二分類(lèi)問(wèn)題C、是由于激活函數(shù)tanh把回歸問(wèn)題轉(zhuǎn)化成了二分類(lèi)問(wèn)題D、是由于激活函數(shù)Relu把回歸問(wèn)題轉(zhuǎn)化成了二分類(lèi)問(wèn)題19、以下關(guān)于邏輯回歸說(shuō)法錯(cuò)誤的是:(C)A、特征歸一化有助于模型效果B、邏輯回歸是一種廣義線性模型C、邏輯回歸相比最小二乘法分類(lèi)器對(duì)異常值更敏感D、邏輯回歸可以看成是只有輸入層和輸出層且輸出層為單一神經(jīng)元的神經(jīng)網(wǎng)絡(luò)20、Apriori算法的計(jì)算復(fù)雜度受(D)影響A,項(xiàng)數(shù)(維度) B、事務(wù)平均寬度 C、事務(wù)數(shù)D、支持度閥值21、考慮下面的頻繁3-項(xiàng)集的集合:{1.2.3},{1.2.4},{1.2.5},{1.3.4},{1.3.5},{2.3.4},{2.3.5},{3.4.5}?假定數(shù)據(jù)集中只有5個(gè)項(xiàng),采用合并策略,由候選產(chǎn)生過(guò)程得到4-項(xiàng)集不包含(C)A、1.2.3.4B、1.2.3.5C、1.2.4.5D、1.3.4.522、在關(guān)聯(lián)規(guī)則中,有三個(gè)重要的指標(biāo),支持度(support),置信度(confident),作用度(lift),則對(duì)于規(guī)則X->Y的三個(gè)指標(biāo)說(shuō)法錯(cuò)誤的是(N表示所有的樣本item數(shù)目):(C)A、support=freq(X,Y)/NB、confident=freq(X,Y)/freq(x)C,lift=freq(X,Y)/freq(Y)D、lift=freq(X,Y)*N/(freq(X)*freq(Y))23、在基本K均值算法里,當(dāng)鄰近度函數(shù)采用(A)的時(shí)候,合適的質(zhì)心是簇中各點(diǎn)的中位數(shù)。A、曼哈頓距離 B、平方歐幾里德距離C、余弦距離D、Bregman散度24、一共5個(gè)點(diǎn)A(0,0),B(l,0.3),C(3,0.5),D(2,1),E(1.8,1.5),采用Kmeans方法如果選取A,D為種子點(diǎn),B,C,E分別屬于(A)種子點(diǎn)A、A,D,DB、A,A,DC、D,D,AD、D,A,D25、圖像中應(yīng)用的kmeans算法,以下說(shuō)法錯(cuò)誤的是:(D)A、kmeans算法有效的前提假設(shè)是數(shù)據(jù)滿足高斯分布B、kmeans需要手工指定類(lèi)別的數(shù)目KC、對(duì)于多維實(shí)數(shù)數(shù)據(jù),kmeans算法最終一定是收斂的D、kmeans算法可以直接得到類(lèi)別分布的層級(jí)關(guān)系26、以下關(guān)于KNN的描述,不正確的是(A)A、KNN算法只適用于數(shù)值型的數(shù)據(jù)分類(lèi)B、KNN算法對(duì)異常值不敏感C、KNN算法無(wú)數(shù)據(jù)輸入假定D、其他說(shuō)法都正確27、假定某同學(xué)使用貝葉斯分類(lèi)模型時(shí),由于失誤操作,致使訓(xùn)練數(shù)據(jù)中兩個(gè)維度重復(fù)表示。下列描述中正確的是:(B)A、被重復(fù)的在模型中作用被加強(qiáng)B、模型效果精度降低C、如果所有特征都被重復(fù)一遍,則預(yù)測(cè)結(jié)果不發(fā)生變化D,以上均正確28、在其他條件不變的前提下,以下哪種做法容易引起模型中的過(guò)擬合問(wèn)題?(D)A、增加訓(xùn)練集量B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)C、刪除稀疏的特征I)、SVM算法中使用高斯核/RBF核代替線性核29、下列哪一項(xiàng)在神經(jīng)網(wǎng)絡(luò)中引入了非線性(B)A、SGD B、激活函數(shù) C、卷積函數(shù) D、都不正確30、下列哪個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)會(huì)發(fā)生權(quán)重共享(D)A、卷積神經(jīng)網(wǎng)絡(luò) B、循環(huán)神經(jīng)網(wǎng)絡(luò)C,全連接神經(jīng)網(wǎng)絡(luò) D、選項(xiàng)A和B二、(20分,總共10題,每題全對(duì)得2分,漏選得1分,錯(cuò)選得0分)不定項(xiàng)選擇題1、下列哪些是非監(jiān)督數(shù)據(jù)離散化方法(ABC)A,等寬法B,等頻法C、聚類(lèi)法D、決策樹(shù)法(ABC2、在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法有:(ABCA、忽略元組 B、使用屬性的平均值填充空缺值C、使用一個(gè)全局常量填充空缺值 D、使用最可能的值填充空缺值3、序數(shù)類(lèi)型數(shù)據(jù)的可以實(shí)現(xiàn)數(shù)學(xué)計(jì)算 (AB)A、眾數(shù)B、中位數(shù)C,均值D、方差4、應(yīng)用PCA后,以下哪項(xiàng)可以是前兩個(gè)主成分?(CD)(0.5,0.5,0.5,0.5)和(0.71,0.71,0,0)(0.5,0.5,0.5,0.5)和(0,0,-0.71,0.71)C、(0.5,0.5,0.5,0.5)和(0.5,0.5,-0.5,-0.5)D、(0.5,0.5,0.5,0.5)和(-0

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論