《數(shù)據(jù)挖掘》復(fù)習(xí)_第1頁
《數(shù)據(jù)挖掘》復(fù)習(xí)_第2頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘復(fù)習(xí)一、題型1、判斷題15分2、單選題15分3、簡單題15分4、綜合題20分5、計算題35分(C5.0算法、感知機(jī)算法、Apriori算法,見練習(xí)題)二、考試大綱三、實(shí)驗(yàn)/作業(yè)評講在教學(xué)過程的各個環(huán)節(jié),從學(xué)生的出勤、日常表現(xiàn)、作業(yè)、測試、項(xiàng)目完成情況及完成質(zhì)量、TOPCARES能力目標(biāo)的實(shí)現(xiàn)情況等方面,對學(xué)生進(jìn)行全方位的考核。類別考核項(xiàng)目考核主要內(nèi)容考核方式考核時間所占權(quán)重形成性考核出勤出勤、請假、遲到、曠課等過程考核上課期間5%日常表現(xiàn)是否認(rèn)真聽課,回答問題等過程考核上課期間5%作業(yè)課堂作業(yè)的完成情況過程考核上課期間10%實(shí)習(xí)項(xiàng)目實(shí)踐任務(wù)的完成情況機(jī)考上課期間10%終結(jié)性考核完成情況

2、及完成質(zhì)量教學(xué)內(nèi)容閉卷第17周70%說明:四、知識點(diǎn)梳理,重點(diǎn)教學(xué)內(nèi)容串講名詞解釋數(shù)據(jù)挖掘(P6)、算法(P10)、MODELER中的節(jié)點(diǎn)(P13)、MODELER中的數(shù)據(jù)流(P14)、MODELER中的超節(jié)點(diǎn)(P18)決策樹分析(P104)人工神經(jīng)網(wǎng)絡(luò)分析(P157)關(guān)聯(lián)分析(P207)知識發(fā)現(xiàn)KDD(P6)主要概念DW產(chǎn)生的基礎(chǔ)(P3)DW的基本過程包括(P6)DW能做什么(P7)DW得到的知識形式(P8)DW的算法分類(P10)MODELER的主窗口由哪幾部分組成(P13)MODELER中數(shù)據(jù)流中的節(jié)點(diǎn)主要可實(shí)現(xiàn)哪些功能(P15)MODELER中數(shù)據(jù)流的操作主要包括哪幾步(P15)MOD

3、ELER中節(jié)點(diǎn)工具箱含由八大選項(xiàng)卡組織(P15)MODELER中通常數(shù)據(jù)挖掘的基本思路包括哪些過程(P19)MODELER中從數(shù)據(jù)挖掘角度看變量有哪7大類型(P26),通過TYPE節(jié)點(diǎn)可以說明變量什么內(nèi)容(P42)什么是“有指導(dǎo)學(xué)習(xí)”(P12、P104)?舉例說明;決策樹算法的核心問題有哪些(P106)?什么是信息熵(P57、P109)?(信息熵是連續(xù)型變量分箱MDLP算法和決策樹C5.0算法的核心)人工神經(jīng)網(wǎng)絡(luò)中主要有哪些網(wǎng)絡(luò)種類(P156)神經(jīng)網(wǎng)絡(luò)中處理單元的內(nèi)部結(jié)構(gòu)圖(P158)什么是感知機(jī)模型(P162)什么是BP反向傳播網(wǎng)絡(luò)模型,由什么特點(diǎn)(P164)Apriority關(guān)聯(lián)分析算法主

4、要包括哪兩大部分技術(shù)(P213)(產(chǎn)生頻繁集、依據(jù)頻繁集產(chǎn)生關(guān)聯(lián)規(guī)則)決策樹分析(P104)、人工神經(jīng)網(wǎng)絡(luò)分析(P157)、關(guān)聯(lián)分析(P207)等數(shù)據(jù)挖掘方法主要用來解決什么問題(分類、預(yù)測、關(guān)聯(lián)等)3、算法決策樹C5.0算法、人工神經(jīng)網(wǎng)絡(luò)B-P感知機(jī)算法、關(guān)聯(lián)分析Apriori算法五、典型例題分析(一)判斷題,在每題后面正確打勾,錯誤打叉有高質(zhì)的原始數(shù)據(jù),才可能有高質(zhì)量的數(shù)據(jù)挖掘結(jié)果。(V)高質(zhì)量數(shù)據(jù)是數(shù)據(jù)分析的前提和分析結(jié)論可靠性的保障。(V)MODELER中數(shù)據(jù)質(zhì)量的探索主要包括數(shù)據(jù)缺失、數(shù)據(jù)離群點(diǎn)和極端值等幾方面。V)數(shù)據(jù)挖掘的結(jié)果都是正確的。()MODELER中數(shù)據(jù)挖掘的數(shù)據(jù)通常以變

5、量為列、樣本為行的二維表形式組織。(V)變量說明是對讀入數(shù)據(jù)流中變量取值的有效性進(jìn)行限定、檢查和修正,同時指出各個變量在未來建模中的角色。(V)變量說明應(yīng)通過FieldOps選項(xiàng)卡中的類型(Type)節(jié)點(diǎn)實(shí)現(xiàn)。(V)樣本濃縮是通過RecordOps卡中的濃縮(Distinct)節(jié)點(diǎn)實(shí)現(xiàn)。(V)樣本濃縮是通過RecordOps卡中的匯總(Aggregate)節(jié)點(diǎn)實(shí)現(xiàn)。(*)數(shù)據(jù)的重新組織是通過FieldOps選項(xiàng)卡中的類型(Type)節(jié)點(diǎn)實(shí)現(xiàn)。(大)數(shù)據(jù)的重新組織是通過FieldOps選項(xiàng)卡中的重構(gòu)(Restructure)節(jié)點(diǎn)實(shí)現(xiàn)。(V)數(shù)據(jù)質(zhì)量的探索是通過Output卡中的表(Table)節(jié)

6、點(diǎn)實(shí)現(xiàn)。(大)數(shù)據(jù)質(zhì)量的探索是通過Output卡中的審核(DataAudit)節(jié)點(diǎn)實(shí)現(xiàn)。(V)網(wǎng)狀圖是一種更為生動和直觀地展示兩個或多個分類變量相關(guān)特征的圖形。(V)決策樹中,分類樹實(shí)現(xiàn)對分類型輸出變量的分類,回歸樹則完成對數(shù)值型輸出變量取值的預(yù)測。(V)決策樹中,稱樹的每個節(jié)點(diǎn)都只能生長出兩個分枝的樹為多叉樹。()決策樹算法中,C5.0用于生成多分支的決策樹。(V)人工神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)的最低層稱為輸入層,最頂層稱為輸出層,中間層稱為中間層。()在關(guān)聯(lián)分析中,與時間有關(guān)的關(guān)聯(lián)分析稱為簡單關(guān)聯(lián)分析。()關(guān)聯(lián)規(guī)則中的規(guī)則的支持度測度了關(guān)聯(lián)規(guī)則的普遍性,表示項(xiàng)目X和項(xiàng)目Y同時出現(xiàn)的概率。(V)(

7、二)多選題選擇題,請在每題正確備選答案前面打勾(單選及多選)。(每題滿分3分,全選對得3分,部分選對得2分,有選錯者該題不得分)1. Modeler中(類型Type)節(jié)點(diǎn)的主要作用有:1)定義變量的取值范圍和缺失值;2)變量取值的有效性檢查和修正;3)角色說明;4)變量取值的實(shí)例化。答案:1-42. Modeler中(數(shù)據(jù)審核DataAudit)節(jié)點(diǎn)的主要作用有:1)對變量取值分布進(jìn)行基本描述;2)檢驗(yàn)數(shù)據(jù)質(zhì)量好壞;3)修正壞數(shù)據(jù);4)保留高質(zhì)量的變量和數(shù)據(jù)。答案:1-43. Modeler中(變換Transform)節(jié)點(diǎn)的主要作用有:1)描述變量取值分布進(jìn)行描述;2)實(shí)現(xiàn)變量的變換處理;3)

8、輸出變換后的變量;4)對變量進(jìn)行分類匯總。答案:1-34.Modeler中(分區(qū)Partition)節(jié)點(diǎn)的主要作用有:1)生成訓(xùn)練集、檢驗(yàn)集;2)生成訓(xùn)練集、檢驗(yàn)集、驗(yàn)證集;3)對數(shù)據(jù)進(jìn)行轉(zhuǎn)置;4)對樣本進(jìn)行排序。答案:1-25.神經(jīng)網(wǎng)絡(luò)按其拓?fù)浣Y(jié)構(gòu)可劃分為兩層、三層和多層結(jié)構(gòu)。如圖所示的神經(jīng)網(wǎng)絡(luò)各層的名稱是:1)其中A層是輸入層;2)其中B層是隱層;3)其中C層是輸出層4)其中A層是接收層答案:1-36.完整的神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)內(nèi)部主要由兩部分組織(如下圖),其中:1)A是加法器;2)B是激活函數(shù)3)A是激活函數(shù)4)B是加法器。答案:1-27.擬合就是把平面上一系列的點(diǎn),用一條光滑的曲線連接起來。

9、在采用機(jī)器學(xué)習(xí)或者訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的時候經(jīng)常會出現(xiàn)理想情況、欠擬合和過擬合等三種情況。請寫出如下圖A、B、C三種擬合狀況是屬于什么擬合。1)A欠擬合;2)B理想擬合3)C過擬合;4)A過擬合。答案:1-38.如下圖神經(jīng)網(wǎng)絡(luò)中,“流失”為目標(biāo)變量,則其輸入層、隱層、輸出層各有多少個節(jié)點(diǎn)?糕泰氏用殲通月數(shù)沖絡(luò)川夕無線茨用住他龜強(qiáng)翎分食餐烝巫敦育水平察血人敎1)輸入層11個節(jié)點(diǎn);2)隱層有6個節(jié)點(diǎn);3)輸出層有1個節(jié)點(diǎn)4)輸入層有1個節(jié)點(diǎn)答案:1-39.建立決策樹的核心問題是1)決策樹得生長;2)決策樹的修剪;3)決策樹得幾何理解;4)信息熵和信息增益。答案:1-210.B-P反向傳播神經(jīng)網(wǎng)絡(luò)的特點(diǎn)

10、是:1)包含隱層;2)激活函數(shù)采用Sigmoid函數(shù)3)反向傳播;4)不包含隱層。答案:1-3三)解答題1.MODELER的“數(shù)據(jù)審核DataAudit”節(jié)點(diǎn)操作中,如下操作界面中含義是:3.0T盤輸扎巴下四打也旬時囚位數(shù)克圍窮11:訶:雖;3.0-注竄鏗囚分廿距可敘:箱型竝集旳生能答:指定離群值和極值得監(jiān)測方法。具體可按平均值的標(biāo)準(zhǔn)差大小或四分位數(shù)的四位數(shù)范圍來確定離群值和極值,從而監(jiān)測出離群值和極值。2.在MODELER的“數(shù)據(jù)變換Transform”節(jié)點(diǎn)操作中,如下操作界面中的含義是:答:指定采用哪種變量轉(zhuǎn)換公式,從第2列圖開始,各圖依次為原始變量的直方圖、計算倒數(shù)后的直方圖、求自然對數(shù)

11、的直方圖、求常用對數(shù)的直方圖、計算e的原始變量幕次后的直方圖、原始變量求平方根后的直方圖。3在MODELER的“網(wǎng)狀圖”節(jié)點(diǎn)中,如下套餐類型的輸出結(jié)果含義是:為Plusservice,其次是Basicservice等等。4.寫出如下數(shù)據(jù)流各節(jié)點(diǎn)的主要功能。lid呂lioniSbudlEnls.xlstuceritsKlsieeeeAppendjwiiReclassrh!答:Students.xls讀取EXCEL數(shù)據(jù)文件,Append實(shí)現(xiàn)樣本追加,Type實(shí)現(xiàn)變量實(shí)例化,Filler進(jìn)行變量值的填充,Reclassify實(shí)現(xiàn)變量重新分類,Partition實(shí)現(xiàn)樣本分區(qū)。5.寫出如下數(shù)據(jù)流各節(jié)點(diǎn)的

12、主要功能。CustomerDistinctRestructureTyp總Adrian;.cilcftPath答:Customer1、Customer2、ClickPath節(jié)點(diǎn)讀取數(shù)據(jù)庫文件,Merge實(shí)現(xiàn)樣本合并,Distinct數(shù)據(jù)濃縮,Restructure變量重構(gòu),Type變量實(shí)例化,Apriori進(jìn)行關(guān)聯(lián)分析。四)綜合題1.通過C5.0算法建立了如下決策樹,請對照決策樹寫出對應(yīng)的推理規(guī)則。軸oiEncourfid瘵望怡rNo63.7B944他城2衛(wèi)站兌計100.00069橋合觸蹴一星醉與t.52娼nEiwsuraged1Nc*1.0261&I険5OM曲總計5G.5K392訃317B32

13、440052iNo16.66?4Ym93.33330節(jié)慮1磐&?曲93.1332ftSvf41加0理$_D廠v蠟対INoS0.00012YB竝0帥J總訃2173915符*和應(yīng)n勺推理規(guī)則為;*家長是否鼓勵=NotEncouragedHI式Na】UNo家長是習(xí)鼓勵=Encouragedfl(式:酣h在校綜臺評輸指48.052式皿!ONOL在校綜合評價指48052模式Y(jié)辟OYes2.通過C5.0算法建立了如下決策樹,請對照決策樹寫出對應(yīng)的推理規(guī)則。答:IF屬性3=立方體THEN類別=BIF屬性3=圓AND屬性2=紅或黃THEN類別=AIF屬性3=圓AND屬性2=黑THEN類別=B3.在關(guān)聯(lián)分析中,

14、通過Apriori算法,Modeler如下輸出結(jié)果,請寫出對應(yīng)的三條關(guān)聯(lián)規(guī)則,并注明每條關(guān)聯(lián)規(guī)則的支持度S、置信度C分別為多少。后項(xiàng)前項(xiàng)支持度百分比墨信度百分比卜集負(fù)品啤酒167B7425罐頭藩菜啤酒冷瘵負(fù)品17.085882啤酉冷:東倉品幄頭腰1Z364393答案:三條規(guī)則:啤酒和罐頭蔬菜一冷凍食品(S=16.7%,C=87.4%);啤酒和冷凍食品一罐頭蔬菜(S=17.0%,C=85.9%);冷凍食品和罐頭蔬菜一啤酒(S=17.3%,C=84.4%)。同時,三條關(guān)聯(lián)規(guī)則的提升值都可以接受。因此,啤酒、罐頭蔬菜、冷凍食品是最可能連帶銷售的商品。4.在關(guān)聯(lián)分析中,請根據(jù)如下輸出結(jié)果寫出相應(yīng)的關(guān)聯(lián)

15、規(guī)則。施収下內(nèi)客講行排M:直信廃%-T1麗曲3匡二3前項(xiàng)支持度量信度rrozenmeaibercannedveg16.737.425cannedvegbeerfrozennnssl17.Q85.B82beerfrozenmeslcannedveg17.3答:(beer)Q(cannedveg)一(frozenmeal)(支持度=16.7,置信度=87.425%)(beer)H(frozenmeal)一(cannedveg)(支持度=17.0,置信度=85.882%)(frozenmeal)Q(cannedveg)一(beer)(支持度=17.3,置信度=84.393%)五)計算題1.在人工神經(jīng)

16、網(wǎng)絡(luò)中,設(shè)神經(jīng)元結(jié)構(gòu)如下:其中x1、x2、x3為輸入變量,y為數(shù)值型輸出變量。在該神經(jīng)元的調(diào)整權(quán)值因子的過程中其學(xué)習(xí)率n=0.2,神經(jīng)元的偏差b=0,并且激活函數(shù)是線性的,即y=f(凈輸入net)=net。各權(quán)重初始值分別為:W1)=0.1、W2(1)=-0.3、W3(1)=0.8。設(shè)其權(quán)重的調(diào)整公式為:W=n*e*XiiW=W+Wi+1ii設(shè)有如下訓(xùn)練樣本,請按照感知機(jī)算法寫出第一次迭代后各權(quán)重W1(2)、W2(2)、w3的調(diào)整值。).、/!樣本XIX2X3Y11-110.9解答:U=0.1*1+(-0.3)*(-1)+0.8*1=1.2,e=0.9-1.2=-0.3WJ2)=0.03、AW

17、2(2)=0.03、AW3(2)=0.03。W1(2)=0.1+(-0.03)=0.07、W2(2)=(-0.3)+0.03=-0.27、W3(2)=0.8+(-0.03)=0.772.在人工神經(jīng)網(wǎng)絡(luò)中,設(shè)神經(jīng)元結(jié)構(gòu)如下:net)=net。各權(quán)重初始值分別為:WJ1)=O.1、W2(1)=-0.3、W3(1)=0.8。設(shè)其權(quán)重的調(diào)整公式為:w=n*e*XiiW=W+Wi+1ii設(shè)有如下訓(xùn)練樣本,按照Apriori算法請寫出第一次迭代后各權(quán)重W1(2)、W2(2)、W3(2)的調(diào)整值。,樣本XIX2X3Y1-1110.8解答:U=O.1*(-1)+(-O.3)*1+O.8*1=O.4,e=O.8

18、-0.4=O.4WJ2)=0.04、AW2(2)=0.04、AW3(2)=0.04。W1(2)=、W2(2)=、W3(2)=。3設(shè)有如下交易(表1),請按照Apriori算法尋找頻繁項(xiàng)集。設(shè)定最小支持度為3。表1交易號項(xiàng)集合T001A,B,C,ET002A,BT003A,B,CT004A,B,DT005A,C,DT006B,CT007A,CT008A,B,C,ET009A,B,C解答:產(chǎn)生2-候選集第2次掃描支持度計數(shù)生成頻繁項(xiàng)集4.設(shè)有如下交易(表1),請按照Apriori算法尋找頻繁項(xiàng)集。設(shè)定最小支持度為3。表1交易號項(xiàng)集合T001A,B,C,ET002A,DT003A,B,CT004A,

19、B,DT005A,C,DT006B,CT007A,CT008A,B,C,ET009A,B,C解答:候選集第1次掃描支持度計數(shù)生成頻繁項(xiàng)集ABCDE產(chǎn)生候選集第2次掃描支持度計數(shù)生成頻繁項(xiàng)集產(chǎn)生候選集第3次掃描支持度計數(shù)生成頻繁項(xiàng)集5在決策樹分析中,已知輸出變量U的先驗(yàn)信息熵計算公式為:也心二為PW1%命二工叫叫PEii參考分組變量T1下U的后驗(yàn)條件熵計算公式為:Ent(U|T)=LP(t)-LP(u|t)logP(u|t)11ji1j2i1jji計算信息增益的計算公式為:Rains(U,T1)=Ent(U)-Ent(U|T1)設(shè)有如下訓(xùn)練數(shù)據(jù),其中收入、性別、學(xué)歷是輸入變量,是否購房是輸出變量

20、。試計算出第一次分枝時輸入變量“收入”的信息增益。表2決策樹訓(xùn)練數(shù)據(jù)收入性別學(xué)歷是否購房=5000女大學(xué)是=5000男高中是5000女高中否=5000女高中是=5000男初中否5000女大學(xué)否5000男大學(xué)是其中:已知log2(6/10)=-0.74,log2(4/10)=-1.32,log2(3/6)=-l,log2(3/4)=-0.42,log2(1/4)=-2解答:1) 輸出變量的信息熵1(10,6)=-(6/10)*log(6/10)+(4/10)*log(4/10)=0.9722) 條件熵E(收入)=(6/10)*I(6,3)+(4/10)*I(4,3)=0.6*-(3/6)log(3/6)-(3/6)log(3/6)+0.4-(3/4)log(3/4)-(1/4)log(1/4)=0.6*(0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論