數(shù)據(jù)挖掘考試題目關(guān)聯(lián)分析作業(yè)試題_第1頁
數(shù)據(jù)挖掘考試題目關(guān)聯(lián)分析作業(yè)試題_第2頁
數(shù)據(jù)挖掘考試題目關(guān)聯(lián)分析作業(yè)試題_第3頁
數(shù)據(jù)挖掘考試題目關(guān)聯(lián)分析作業(yè)試題_第4頁
數(shù)據(jù)挖掘考試題目關(guān)聯(lián)分析作業(yè)試題_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘考試題目關(guān)聯(lián)分析一、10個選擇1.以下屬于關(guān)聯(lián)分析的是( )acpu性能預(yù)測b購物籃分析c自動判斷鳶尾花類別d股票趨勢建模2.維克托邁爾-舍恩伯格在大數(shù)據(jù)時代:生活、工作與思維的大變革一書中,持續(xù)強(qiáng)調(diào)了一個觀點(diǎn):大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應(yīng)該注重數(shù)據(jù)中的相關(guān)關(guān)系,而不是因果關(guān)系。其中,數(shù)據(jù)之間的相關(guān)關(guān)系可以通過以下哪個算法直接挖掘( )ak-meansbbayes networkcc4.5dapriori3.置信度(confidence)是衡量興趣度度量( )的指標(biāo)。a簡潔性b確定性c實用性d新穎性4.apriori算法的加速過程依賴于以下哪

2、個策略( )a抽樣b剪枝c緩沖d并行5.以下哪個會降低apriori算法的挖掘效率( )a支持度閾值增大b項數(shù)減少c事務(wù)數(shù)減少d減小硬盤讀寫速率6.apriori算法使用到以下哪些東東( )a格結(jié)構(gòu)、有向無環(huán)圖b二叉樹、哈希樹c格結(jié)構(gòu)、哈希樹d多叉樹、有向無環(huán)圖7.非頻繁模式( )a其置信度小于閾值b令人不感興趣c包含負(fù)模式和負(fù)相關(guān)模式d對異常數(shù)據(jù)項敏感8.對頻繁項集、頻繁閉項集、極大頻繁項集的關(guān)系描述正確的是( )注:分別以1、2、3代表之a(chǎn)3可以還原出無損的1b2可以還原出無損的1c3與2是完全等價的d2與1是完全等價的9.hash tree在apriori算法中所起的作用是( )a存儲數(shù)

3、據(jù)b查找c加速查找d剪枝10.以下不屬于數(shù)據(jù)挖掘軟件的是( )aspss modelerbwekacapache sparkdknime二、10個填空1.關(guān)聯(lián)分析中表示關(guān)聯(lián)關(guān)系的方法主要有: 和 。2.關(guān)聯(lián)規(guī)則的評價度量主要有: 和 。3.關(guān)聯(lián)規(guī)則挖掘的算法主要有: 和 。4.購物籃分析中,數(shù)據(jù)是以 的形式呈現(xiàn)。5.一個項集滿足最小支持度,我們稱之為 。6.一個關(guān)聯(lián)規(guī)則同時滿足最小支持度和最小置信度,我們稱之為 。7.在回歸與相關(guān)分析中,因變量值隨自變量值的增大(減小)而減?。ㄔ龃螅┑默F(xiàn)象叫做 。8.極大頻繁項集不能無損還原出頻繁項集,是因為它不包含頻繁項集的 信息。9.經(jīng)典的apriori算

4、法是逐層掃描的,也就是說它是 (選:深度/寬度)優(yōu)先的。10.數(shù)據(jù)挖掘大概步驟包括:輸入數(shù)據(jù)預(yù)處理挖掘后處理輸出知識。其中,輸出的知識可以有很多種表示形式,兩種極端的形式是:內(nèi)部結(jié)構(gòu)難以被理解的黑匣子,比如說人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練得出的網(wǎng)絡(luò);模式結(jié)構(gòu)清晰的匣子,這種結(jié)構(gòu)容易被人理解,比如說決策樹產(chǎn)生的樹。那么,關(guān)聯(lián)分析中輸出的知識的表示形式主要是 (選:黑匣子/清晰結(jié)構(gòu))。三、10個判斷( )1.啤酒與尿布的故事是聚類分析的典型實例。( )2.apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。( )3.支持度是衡量關(guān)聯(lián)規(guī)則重要性的一個指標(biāo)。( )4.可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。( )5.給定關(guān)聯(lián)

5、規(guī)則ab,意味著:若a發(fā)生,b也會發(fā)生。( )6.頻繁閉項集可用來無損壓縮頻繁項集。( )7.關(guān)聯(lián)規(guī)則可以用枚舉的方法產(chǎn)生。( )8.apriori算法產(chǎn)生的關(guān)聯(lián)規(guī)則總是確定的。( )9.不滿足給定評價度量的關(guān)聯(lián)規(guī)則是無趣的。( )10.對于項集來說,置信度沒有意義。四、5個簡答1.簡述關(guān)聯(lián)規(guī)則產(chǎn)生的兩個基本步驟。2.apriori算法是從事務(wù)數(shù)據(jù)庫中挖掘布爾關(guān)聯(lián)規(guī)則的常用算法,該算法利用頻繁項集性質(zhì)的先驗知識,從候選項集中找到頻繁項集。請簡述apriori算法的基本原理。3.簡述apriori算法的優(yōu)點(diǎn)和缺點(diǎn)。4.針對apriori算法的缺點(diǎn),可以做哪些方面的改進(jìn)?5.強(qiáng)關(guān)聯(lián)規(guī)則一定是有趣的

6、嗎?為什么?數(shù)據(jù)挖掘考試題目+參考答案一、10個選擇1.以下屬于關(guān)聯(lián)分析的是( b )acpu性能預(yù)測b購物籃分析c自動判斷鳶尾花類別d股票趨勢建模2.維克托邁爾-舍恩伯格在大數(shù)據(jù)時代:生活、工作與思維的大變革一書中,持續(xù)強(qiáng)調(diào)了一個觀點(diǎn):大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應(yīng)該注重數(shù)據(jù)中的相關(guān)關(guān)系,而不是因果關(guān)系。其中,數(shù)據(jù)之間的相關(guān)關(guān)系可以通過以下哪個算法直接挖掘( d )ak-meansbbayes networkcc4.5dapriori3.置信度(confidence)是衡量興趣度度量( b )的指標(biāo)。a簡潔性b確定性c實用性d新穎性4.apriori

7、算法的加速過程依賴于以下哪個策略( b )a抽樣b剪枝c緩沖d并行5.以下哪個會降低apriori算法的挖掘效率( d )a支持度閾值增大b項數(shù)減少c事務(wù)數(shù)減少d減小硬盤讀寫速率6.apriori算法使用到以下哪些東東( c )a格結(jié)構(gòu)、有向無環(huán)圖b二叉樹、哈希樹c格結(jié)構(gòu)、哈希樹d多叉樹、有向無環(huán)圖7.非頻繁模式( d )a其置信度小于閾值b令人不感興趣c包含負(fù)模式和負(fù)相關(guān)模式d對異常數(shù)據(jù)項敏感8.對頻繁項集、頻繁閉項集、極大頻繁項集的關(guān)系描述正確的是( b )注:分別以1、2、3代表之a(chǎn)3可以還原出無損的1b2可以還原出無損的1c3與2是完全等價的d2與1是完全等價的9.hash tree在

8、apriori算法中所起的作用是( c )a存儲數(shù)據(jù)b查找c加速查找d剪枝10.以下不屬于數(shù)據(jù)挖掘軟件的是( c )aspss modelerbwekacapache sparkdknime二、10個填空1.關(guān)聯(lián)分析中表示關(guān)聯(lián)關(guān)系的方法主要有: 項集 和 關(guān)聯(lián)規(guī)則 。2.關(guān)聯(lián)規(guī)則的評價度量主要有: 支持度 和 置信度 。3.關(guān)聯(lián)規(guī)則挖掘的算法主要有: apriori 和 fp-growth 。4.購物籃分析中,數(shù)據(jù)是以 不對稱二元變量 的形式呈現(xiàn)。5.一個項集滿足最小支持度,我們稱之為 頻繁項集 。6.一個關(guān)聯(lián)規(guī)則同時滿足最小支持度和最小置信度,我們稱之為 強(qiáng)規(guī)則 。7.在回歸與相關(guān)分析中,因

9、變量值隨自變量值的增大(減?。┒鴾p?。ㄔ龃螅┑默F(xiàn)象叫做 負(fù)相關(guān) 。8.極大頻繁項集不能無損還原出頻繁項集,是因為它不包含頻繁項集的 支持度 信息。9.經(jīng)典的apriori算法是逐層掃描的,也就是說它是 寬度 (選:深度/寬度)優(yōu)先的。10.數(shù)據(jù)挖掘大概步驟包括:輸入數(shù)據(jù)預(yù)處理挖掘后處理輸出知識。其中,輸出的知識可以有很多種表示形式,兩種極端的形式是:內(nèi)部結(jié)構(gòu)難以被理解的黑匣子,比如說人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練得出的網(wǎng)絡(luò);模式結(jié)構(gòu)清晰的匣子,這種結(jié)構(gòu)容易被人理解,比如說決策樹產(chǎn)生的樹。那么,關(guān)聯(lián)分析中輸出的知識的表示形式主要是 清晰結(jié)構(gòu) (選:黑匣子/清晰結(jié)構(gòu))。三、10個判斷( )1.啤酒與尿布的故事是

10、聚類分析的典型實例。( )2.apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。( )3.支持度是衡量關(guān)聯(lián)規(guī)則重要性的一個指標(biāo)。( )4.可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。( )5.給定關(guān)聯(lián)規(guī)則ab,意味著:若a發(fā)生,b也會發(fā)生。( )6.頻繁閉項集可用來無損壓縮頻繁項集。( )7.關(guān)聯(lián)規(guī)則可以用枚舉的方法產(chǎn)生。( )8.apriori算法產(chǎn)生的關(guān)聯(lián)規(guī)則總是確定的。( )9.不滿足給定評價度量的關(guān)聯(lián)規(guī)則是無趣的。( )10.對于項集來說,置信度沒有意義。四、5個簡答1.簡述關(guān)聯(lián)規(guī)則產(chǎn)生的兩個基本步驟。答:關(guān)聯(lián)規(guī)則產(chǎn)生的兩個基本步驟為:根據(jù)給定的支持度從項集中產(chǎn)生頻繁項集;根據(jù)給定的置信度從頻繁項

11、集中產(chǎn)生關(guān)聯(lián)規(guī)則。2.apriori算法是從事務(wù)數(shù)據(jù)庫中挖掘布爾關(guān)聯(lián)規(guī)則的常用算法,該算法利用頻繁項集性質(zhì)的先驗知識,從候選項集中找到頻繁項集。請簡述apriori算法的基本原理。答:關(guān)聯(lián)規(guī)則的產(chǎn)生并不依賴于apriori算法,apriori算法用來加速規(guī)則的產(chǎn)生過程。apriori算法的加速過程依賴于這樣一個先驗原理:“頻繁項集的子集是頻繁的”。3.簡述apriori算法的優(yōu)點(diǎn)和缺點(diǎn)。答:apriori算法的優(yōu)點(diǎn):結(jié)構(gòu)簡單、易于理解。apriori算法的缺點(diǎn):產(chǎn)生大量的候選項集,i/o開銷較大。4.針對apriori算法的缺點(diǎn),可以做哪些方面的改進(jìn)?答:apriori算法的缺點(diǎn)主要是產(chǎn)生的候選項集較多,從而導(dǎo)致i/o開銷較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論