版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、2011年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題1 (10分)討論::下列每項活動是否是數(shù)據(jù)挖掘任務(wù)?簡單陳述你的理由。(a) 根據(jù)性別劃分公司的顧客。不是。數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)服務(wù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。還可以預(yù)測未來觀測結(jié)果,例如,預(yù)測一位新的顧客是否會在一家百貨公司消費100美元以上。但并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘,數(shù)據(jù)挖掘與信息檢索不同,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索領(lǐng)域的任務(wù),它們主要依賴傳統(tǒng)的計算機科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信
2、息。數(shù)據(jù)挖掘的任務(wù)可分為兩大類:預(yù)測任務(wù)和描述任務(wù)。主要任務(wù)有四種:聚類分析,關(guān)聯(lián)分析,異常檢測,和預(yù)測建模。其目的是根據(jù)其它屬性的值,預(yù)測特定屬性的值,或?qū)С龈爬〝?shù)據(jù)中潛在聯(lián)系的模式,主要是預(yù)測某些信息。而根據(jù)性別劃分公司的顧客,只是一種簡單的數(shù)據(jù)庫查詢操作,并沒有涉及預(yù)測分析。(b) 根據(jù)可贏利性劃分公司的顧客。不是。根據(jù)可贏利性劃分公司的顧客是使用閾值進(jìn)行的一種統(tǒng)計計算。它僅僅是根據(jù)消費結(jié)果統(tǒng)計將原有顧客進(jìn)行劃分,只是一種統(tǒng)計的結(jié)果,而沒有根據(jù)這些結(jié)果的特點預(yù)測一個新的顧客的贏利性,這種預(yù)測才是數(shù)據(jù)挖掘。(c) 預(yù)測投一對骰子的結(jié)果。不是。因為骰子的六個數(shù)值出現(xiàn)的可能性是相同的,這是一種
3、概率計算,如果結(jié)果出現(xiàn)的可能性是不確定的,不相同的,則更像是數(shù)據(jù)挖掘的任務(wù),但在很早以前利用數(shù)學(xué)已經(jīng)能夠很好的解決這個問題了。所以預(yù)測投一對骰子的結(jié)果不屬于數(shù)據(jù)挖掘的任務(wù),不帶有發(fā)現(xiàn)新信息的預(yù)測特點。(d) 使用歷史記錄預(yù)測某公司未來的股票價格。這是數(shù)據(jù)挖掘的任務(wù)??梢酝ㄟ^對歷史記錄特點的分析來創(chuàng)建一種模型預(yù)測未來的公司的股票價格,這是數(shù)據(jù)挖掘任務(wù)中預(yù)測建模的一個例子,預(yù)測建模涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型,有兩類預(yù)測建模任務(wù):分類,用于預(yù)測離散的目標(biāo)變量;回歸,用于預(yù)測連續(xù)的目標(biāo)變量dmj預(yù)測某公司未來的股票價格則是回歸任務(wù),因為價格具有連續(xù)值屬性。2 (10分)列舉3種數(shù)據(jù)挖掘
4、功能,對每種舉2個實際應(yīng)用的例子。 (1)支持商務(wù)智能應(yīng)用。借助POS(銷售點)數(shù)據(jù)收集技術(shù),零售商可以在其商店的收銀臺收集顧客購物的最新數(shù)據(jù)。零售商可以利用這些信息,加上電子商務(wù)網(wǎng)站的日志、電購中心的顧客服務(wù)記錄等其他的重要商務(wù)數(shù)據(jù),更好地理解顧客的需求,做出明智的商務(wù)決策。數(shù)據(jù)挖掘技術(shù)可以用來支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營銷、工作流管理、商店分布和欺詐檢測等。商店可以根據(jù)顧客的購物習(xí)慣來安排端口的擺放位置,這是日常生活中數(shù)據(jù)挖掘最常見的一種應(yīng)用。數(shù)據(jù)挖掘還能幫助零售商回答一些重要的商務(wù)問題,如“誰是最有價值的顧客?”“什么產(chǎn)品可以交叉銷售或提升銷售?”“公司明年的收入前景如何?
5、”這些是數(shù)據(jù)挖掘任務(wù)中的關(guān)聯(lián)分析。通過商品銷售情況,來分析購買商品的顧客特點,根據(jù)這些特點重要發(fā)掘最可能的消費者,這是關(guān)聯(lián)分析在日常生活中的一種應(yīng)用。 (2)在醫(yī)學(xué)、科學(xué)與工程中的應(yīng)用。醫(yī)學(xué)、科學(xué)與工程技術(shù)界的研究者正在快速積累大量數(shù)據(jù),這些數(shù)據(jù)對獲得有價值的新發(fā)現(xiàn)至關(guān)重要。例如,為了更深入地理解地球的氣候系統(tǒng),NASA已經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地收集地表、海洋和大氣的全球觀測數(shù)據(jù)。然而,由于這些數(shù)據(jù)的規(guī)模和時空特性,傳統(tǒng)的方法常常不適合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘開發(fā)的技術(shù)可以幫助地球科學(xué)家回答如下問題:“干旱和颶風(fēng)等生態(tài)系統(tǒng)擾動的頻度和強度與全球變暖之間有何聯(lián)系?”“海洋表面溫度對地
6、表降水量和溫度有何影響?”“如何準(zhǔn)確地預(yù)測一個地區(qū)的生長季節(jié)的開始和結(jié)束?”。我國神舟七號載人航天飛船的發(fā)射也是數(shù)據(jù)挖掘的一個應(yīng)用,傳統(tǒng)的技術(shù)通常不能處理太大量數(shù)據(jù),而利用數(shù)據(jù)挖掘技術(shù)可以將衛(wèi)星收集到的太空中的大量數(shù)據(jù)信息進(jìn)行分析,這樣才能保證飛船在太空中的順利航行。3 (10分)比較急切分類(如,判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對于懶散分類(如,k -最臨近、基于案例的推理)的優(yōu)缺點。 決策樹歸納的特點:(1)決策樹歸納是一種構(gòu)建分類模型的非參數(shù)方法,它不要求任何先驗假設(shè),不假定類和其他屬性服從一定的概念分布。(2)找到最佳的決策樹是NP完全問題,可以采用一種貪心的、自頂向下的遞歸劃分策略建立決
7、策樹。(3)已構(gòu)臺構(gòu)建決策樹技術(shù)不需要昂貴的計算代價,決策邊界是直線(平面)。(4)決策樹算法對于噪聲的干擾具有相當(dāng)好的魯棒性,采用避免過分?jǐn)M合的方法之后尤其如此。(5)冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響。(6)決策樹方法會存在數(shù)據(jù)碎片問題。(7)子樹可能在決策樹中重復(fù)多次。(8)當(dāng)決策樹很小時,訓(xùn)練和檢驗誤差都很大,稱為模型擬合不足;當(dāng)規(guī)模變得太大時,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤差開始增大,稱為模型過分?jǐn)M合。貝葉斯網(wǎng)絡(luò)(BBN)的特點:(1)BNN提供了一種用圖形模型來捕獲特定領(lǐng)域的先驗知識的方法,網(wǎng)絡(luò)還可以用來對變量間的因果依賴關(guān)系進(jìn)行編碼。(2)構(gòu)造網(wǎng)格可能既費時又費力,
8、但一旦網(wǎng)格結(jié)構(gòu)確定下來,添加新變量就十分容易。(3)貝葉斯網(wǎng)絡(luò)很適合處理不完整的數(shù)據(jù)。(4)因為數(shù)據(jù)和先驗知識以概率方式結(jié)合起來了,所以該方法對模型的過分?jǐn)M合問題是非常魯棒的。人工神經(jīng)網(wǎng)絡(luò)(ANN)的特點:(1)至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)是一種普適近似。(2)ANN可以處理冗余特征,對訓(xùn)練數(shù)據(jù)中的噪聲非常敏感。(3)ANN權(quán)值學(xué)習(xí)使用的梯度下降方法經(jīng)常會收斂到局部極小值。訓(xùn)練ANN是一個很耗時的過程,而測試樣例分類時非???。基于密度的聚類(DBSCAN)優(yōu)缺點:(1)它是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。當(dāng)近鄰計算需要計算所有的點對鄰近度時,DBSCAN的開銷可能很大。K均值
9、的優(yōu)缺點:K均值并不適合所有的數(shù)據(jù)類型。它不能處理非球形簇、不同尺寸和不同密度的簇,盡管指定足夠大的簇個數(shù)時它通??梢园l(fā)現(xiàn)純子簇。通過以上急切分類和懶散分類各種方法的特點對比可知,急切分類僅僅對于某些類型的數(shù)據(jù)進(jìn)入分類,而懶散分類則對于不同大小和不同類型的數(shù)據(jù)都可以進(jìn)行處理。急切分類對噪聲較敏感而懶散分類而不是,急切分類方法較為簡單,花費的時間和空間代價都較懶散分類少。4 (10分)假定你作為一個數(shù)據(jù)分析人員,受雇于一家移動通訊公司。通過一個例子說明打算如何使用數(shù)據(jù)挖掘技術(shù)為公司提供幫助。你的例子應(yīng)包含問題描述,使用何種數(shù)據(jù)挖掘方法解決該問題,理由和預(yù)期效果(不需要定量分析)。例子如下:首先,
10、移動通信公司數(shù)據(jù)分析人員的主要工作是收集移動通信用戶使用通信的方式,業(yè)務(wù)流量,并且收集用戶的類型來分析各種用戶使用信息的主要方式及銷售情況,以此可以出臺更加適合不同用戶需求的業(yè)務(wù)套餐類型。使用數(shù)據(jù)挖掘中的聚類分析方法可以以一種較相似的主題來對結(jié)果進(jìn)行分類,并且以一種更為簡潔的方式呈現(xiàn)給用戶,例如:報告聚類中最頻繁出現(xiàn)的10個詞語,來收集最多使用各種類型業(yè)務(wù)的用戶特點。可以按照預(yù)先定義的分類,例如漫游類,本地外地類等等用戶使用通信的方法來進(jìn)行分類。利用數(shù)據(jù)挖掘中順序關(guān)聯(lián)分析可以檢測出某些按照一定的高概率來查詢到其他分類,并且允許更為高效的緩存,通過這種方法,可以得出具有相互關(guān)聯(lián)的用戶使用通信方式
11、和業(yè)務(wù)套餐的關(guān)系,進(jìn)而通過查詢一種類型推導(dǎo)出其他相關(guān)類型的分類用戶特點。通過異常檢測技術(shù)可以發(fā)現(xiàn)不尋常的用戶通信方式,例如一個新方式的更加流行??偟膩碚f,通過數(shù)據(jù)挖掘的聚類分析可以將通信用戶進(jìn)行分類,然后發(fā)掘出各種類型用戶使用通信的需求和最普通具用的特點,通過對以往歷史信息業(yè)務(wù)的分析,聚類,可能會發(fā)現(xiàn)新的需求,最后所用的廣告策略就可以根據(jù)這些發(fā)掘出來的新特性采取相應(yīng)的調(diào)整策略以滿足大多數(shù)用戶的需求,吸引更多的潛在客戶,出臺符合這些用戶需求的業(yè)務(wù)產(chǎn)品類型,進(jìn)而使公司擁有更多的客戶,有更大的發(fā)展前景。5 (10分)假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的八個點(用(x,y)代表位置)聚類為三個類。A1(2,1
12、0),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距離函數(shù)是Euclidean(歐幾里得)函數(shù)。假設(shè)初始我們選擇A1,B1,和C1為每個簇的中心,用k-means算法來給出(a) 在第一次循環(huán)執(zhí)行后的三個簇中心(b) 最后的三個簇K均值算法的過程為:1: 選擇K個點作為初始質(zhì)點。2: repeat3: 每個點指派到最近的質(zhì)心,形成K個簇。4. 重新計算每個簇的質(zhì)心、5. until質(zhì)心不發(fā)生變化。 A1,B1,C作為初始質(zhì)點,距離函數(shù)是Euclidean函數(shù),指派點到最近的質(zhì)心,方法為計算其他點到質(zhì)點的歐幾里得距離。計算距離如下
13、:A1-A2 :dist=(2-2)2 +(5-10)2=25;A1-A3:dist=(8-2)2+(4-10)2=72; A1-B2:dist=(7-2)2+(5-10)2 =50; A1-B3:dist=(6-2)2+(4-10) 2=52;A1-C2:dist=(4-2)2+(9-10)2=5; B1-A2:dist=(2-5)2+(5-8)2=18; B1-A3:dist=(8-5)2+(4-8)2=25;B1-B2:dist=(7-5)2+(5-8)2=13 B1-B3:dist=(6-5)2+(4-8)2=17B1-C2:dist=(4-5)2+(9-8)2=2 C1-A2:dis
14、t=(2-1)2+(5-2)2=10 C1-A3:dist=(8-1)2+(4-2)2=53 C1-B2:dist=(7-1)2+(5-2)2=45 C1-B3:dist=(6-1)2+(4-2)2=29 C1-C2:dist=(4-1)2+(9-2)2=58其他五個結(jié)點選擇與其最近的質(zhì)心,三個簇分別為:B1,C2,B3,B2,A3C1,A2A1計算這三個簇的質(zhì)心:B1,C2,B3,B2,A3的質(zhì)心為:((8+5+7+6+4)/5,(4+8+5+4+9)/5)即(6,6);C1,A2的質(zhì)心為:(2+1)/2,(5+2)/2)即為(1.5,3.5);A1的質(zhì)心為(2,10)。(a) 在第一次循環(huán)
15、執(zhí)行后的三個簇中心分別為(6,6),(1.5,3.5),(2,10)重新指派各個對象到離其最近的質(zhì)心,與上面方面相同,形成的三個簇為A3,B1,B2,B3,C1,A2,A1,C2三個簇的質(zhì)心分別為(6.5,5.25),(1.5,3.5),(3,9.5);重新指派各個對象到離其最近的質(zhì)心, 形成的三個簇為:A3,B2,B3C1,A2 A1,B1,C2三個簇的質(zhì)心分別為:(7,4.3),(1.5,3.5),(3.67,9);重新指派各個對象到離其最近的質(zhì)心, 形成的三個簇為: A3,B2,B3C1,A2 A1,B1,C2三個簇的質(zhì)心分別為:(7,4.3),(1.5,3.5),(3.67,9);至此
16、質(zhì)心不發(fā)生變化;(b) 最后三個簇即為A3,B2,B3C1,A2 A1,B1,C2;6 (10分)考慮下面的由Big-University的學(xué)生數(shù)據(jù)庫挖掘的關(guān)聯(lián)規(guī)則major(X,”science”) Þ status(X,”undergrad”) (1) 假定學(xué)校的學(xué)生人數(shù)(即,任務(wù)相關(guān)的元組數(shù))為5000,其中56%的在校本科生的專業(yè)是科學(xué),64%的學(xué)生注冊本科學(xué)位課程,70%的學(xué)生主修科學(xué)(science)。(a) 計算規(guī)則(1)的支持度和置信度。(b) 考慮下面的規(guī)則major(X,”biology”) Þ status(X,”undergrad”) 17%,80%
17、 (2)假定主攻科學(xué)的學(xué)生30%專業(yè)為biology。與規(guī)則(1)對比,你認(rèn)為規(guī)則(2)新穎嗎?解釋你的結(jié)論。(1)對于形如“A B”的關(guān)聯(lián)規(guī)則,支持度定義為support(A B) = 包含A和B的元組數(shù)/元組總數(shù);規(guī)則(1)的支持度計算如下:主修科學(xué)(science) 且未注冊本科學(xué)位課程的學(xué)生人數(shù)為:5000*70%-5000*64%*56%=1708;元組總數(shù)為5000;支持度為:1708/5000=34.16%對于形如“A B”的關(guān)聯(lián)規(guī)則,置信度定義為:confidence(A B)= 包含A和B的元組數(shù)/包含的A元組數(shù) 規(guī)則(1)的置信度計算如下: 主修科學(xué)(science) 且未
18、注冊本科學(xué)位課程的學(xué)生人數(shù)為:5000*70%-5000*64%*56%=1708;主修科學(xué)的人數(shù)為:5000*70%=3500 置信度為:1708/3500=48.8%(2)假定主攻科學(xué)的學(xué)生30%專業(yè)為biology:我們可以猜測下面的規(guī)則major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度應(yīng)為34.16%*30%=10.238%,48.8%,而題目中給出的major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度應(yīng)為17%,80%,與我們由規(guī)則(1)推測出來的相差較大,所以規(guī)則(
19、2)并不是冗余的,是新穎的。7 (15分)考慮為產(chǎn)品銷售問題建立數(shù)據(jù)倉庫。關(guān)注的主題是銷售,用銷售量、銷售價和成本度量(由此可以計算銷售金額和利潤)。銷售涉及銷售的產(chǎn)品、時間、客戶和銷售代理。其中,產(chǎn)品用產(chǎn)品名稱、產(chǎn)品類別、產(chǎn)品品牌等描述,時間用日、月、季、年描述,客戶信息包括客戶ID、客戶名、送貨地址(省、市、街道、門牌號)、帳號等信息,銷售代理包括銷售代理姓名、地區(qū)、省、市等信息(a) 給出每個維的概念分層。(b) 畫出該數(shù)據(jù)倉庫的星型模式圖。(c) 由基本方體開始,為列出河南省客戶購買的、由國美家電2004年銷售的、小天鵝洗衣機,應(yīng)當(dāng)執(zhí)行哪些OLAP操作?下鉆,上卷,切片8 (15分)下表由雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已泛化。例如,年齡“3135”表示31到35的之間。對于給定的行,count表示department, status, age和salary在該行上具有給定值的元組數(shù)。departmentstatusagesalarycountsalessalessalessystem
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年安徽省中考英語試題含解析
- 心理健康教育習(xí)題
- 協(xié)方差相關(guān)系數(shù)
- 高中語文專題三雜記第3課越州趙公救災(zāi)記課件蘇教版選修唐宋八大家散文蚜
- 2014-2020年鋼軌行業(yè)咨詢報告
- 2013-2015年中國公路治安卡口系統(tǒng)行業(yè)市場調(diào)查分析及生產(chǎn)技術(shù)工藝研究報告
- 2024至2030年中國微型直流風(fēng)扇行業(yè)投資前景及策略咨詢研究報告
- 緩和醫(yī)療科普
- 2024至2030年中國尼龍縫紉線數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國多股漆包絞線數(shù)據(jù)監(jiān)測研究報告
- 廣州地區(qū)穗建中驗收表格完整
- 機房搬遷方案計劃
- 會務(wù)服務(wù)的合同范本(通用3篇)
- 鄉(xiāng)鎮(zhèn)開展三車專項整治工作總結(jié)鄉(xiāng)鎮(zhèn)兩違整治工作總結(jié).doc
- 回旋鉆鉆孔灌注樁施工方案
- NB_T 10339-2019《水電工程壩址工程地質(zhì)勘察規(guī)程》_(高清最新)
- 張瓊-《中國少數(shù)民族音樂——絢爛多姿的苗族飛歌》案例分析
- SAP項目用戶操作手冊CO月結(jié)
- 繁體校對《太上老君說常清靜經(jīng)》
- 關(guān)于統(tǒng)一規(guī)范人民防空標(biāo)識使用管理的通知(1)
- 電纜振蕩波局部放電試驗報告
評論
0/150
提交評論