數(shù)據(jù)分析和數(shù)據(jù)挖掘作業(yè)_第1頁
數(shù)據(jù)分析和數(shù)據(jù)挖掘作業(yè)_第2頁
數(shù)據(jù)分析和數(shù)據(jù)挖掘作業(yè)_第3頁
數(shù)據(jù)分析和數(shù)據(jù)挖掘作業(yè)_第4頁
數(shù)據(jù)分析和數(shù)據(jù)挖掘作業(yè)_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1.下列屬于數(shù)據(jù)挖掘任務(wù)的是()

0

根據(jù)性別劃分公司的顧客

計(jì)算公司的總銷售額

0

預(yù)測一對(duì)骰子的結(jié)果

利用歷史記錄預(yù)測公司的未來股價(jià)

2.可以在不同維度合并數(shù)據(jù),從而形成數(shù)據(jù)立方體的是()

0

數(shù)據(jù)庫

數(shù)據(jù)源

數(shù)據(jù)倉庫

0

數(shù)據(jù)庫系統(tǒng)

3.目的是縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且

能夠得到和原始數(shù)據(jù)相同的分析結(jié)果的是()

0

數(shù)據(jù)清洗

數(shù)據(jù)集成

數(shù)據(jù)變換

數(shù)據(jù)歸約

4.下述四種方法哪一種不是常見的分類方法()

0

決策樹

支持向量

S

K-Means

0

樸素貝葉斯分類

5.下列任務(wù)中,屬于數(shù)據(jù)挖掘技術(shù)在商務(wù)智能方面應(yīng)用的是()

0

欺詐檢測

垃圾郵件識(shí)別

?

根據(jù)因特網(wǎng)的搜索引擎查找特定的Web頁面

13

定向營銷

6.異常檢測的應(yīng)用包括()

網(wǎng)絡(luò)攻擊

預(yù)測某股票的未來價(jià)格

計(jì)算公司的總銷售額

根據(jù)性別劃分公司顧客

7.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是哪個(gè)步驟的任務(wù)

頻繁模式挖掘

分類和預(yù)測

數(shù)據(jù)預(yù)處理

數(shù)據(jù)流挖掘

8.KDD是()

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)

領(lǐng)域知識(shí)發(fā)現(xiàn)

文檔知識(shí)發(fā)現(xiàn)

0

動(dòng)態(tài)知識(shí)發(fā)現(xiàn)

9.下列有關(guān)離群點(diǎn)的分析錯(cuò)誤的是()

0

一般情況下離群點(diǎn)會(huì)被當(dāng)作噪聲而丟棄

離群點(diǎn)即是噪聲數(shù)據(jù)

S

在某些特殊應(yīng)用中離群點(diǎn)有特殊的意義

0

信用卡在不常消費(fèi)地區(qū)突然消費(fèi)大量金額的現(xiàn)象屬于離群點(diǎn)分析范疇

10.下列關(guān)于模式識(shí)別的相關(guān)說法中錯(cuò)誤的是()

0

模式識(shí)別的本質(zhì)是抽象出不同事物中的模式并由此對(duì)事物進(jìn)行分類

醫(yī)療診斷屬于模式識(shí)別的研究內(nèi)容之一

手機(jī)的指紋解鎖技術(shù)不屬于模式識(shí)別的應(yīng)用

0

自然語言理解也包含模式識(shí)別問題

11.()不屬于數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域。

0

商務(wù)智能

信息識(shí)別

搜索引擎

醫(yī)療診斷

12.目前數(shù)據(jù)分析和數(shù)據(jù)挖掘面臨的挑戰(zhàn)性問題不包括()

0

數(shù)據(jù)類型的多樣化

高維度數(shù)據(jù)

S

離群點(diǎn)數(shù)據(jù)

0

分析與挖掘結(jié)果可視化

1.常見的機(jī)器學(xué)習(xí)方法有、、。

作答區(qū)

監(jiān)督學(xué)習(xí)

正確答案:["監(jiān)督學(xué)習(xí)”]

無監(jiān)督學(xué)習(xí)

正確答案:[”無監(jiān)督學(xué)習(xí)"]________________________________________________________________________

半監(jiān)督學(xué)習(xí)

正確答案:[”半監(jiān)督學(xué)習(xí)"]

2.是從大規(guī)模的數(shù)據(jù)中抽取或挖掘出感興趣的知識(shí)或模式的過程或方

法。

作答區(qū)

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘

正確答案:["數(shù)據(jù)挖掘」

3.是指在數(shù)據(jù)集中頻繁出現(xiàn)的模式。

作答區(qū)

頻繁模式

頻繁模式

正確答案:["頻繁模式"]

4.是指全局或局部范圍內(nèi)偏離一般水平的觀測對(duì)象。

作答區(qū)

離群點(diǎn)

正確答案:["離群點(diǎn)"]

5.是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用。

作答區(qū)

聯(lián)機(jī)分析處理

聯(lián)機(jī)分析處理

正確答案:[”聯(lián)機(jī)分析處理”]

6.是通過建立模型預(yù)測離散的標(biāo)簽,而則是通過建立連續(xù)值模型

推斷新的數(shù)據(jù)的某個(gè)數(shù)值型屬性。

作答區(qū)

分類

正確答案:["分類"]

回歸

正確答案:["回歸”]

7.數(shù)據(jù)庫是面向的設(shè)計(jì),數(shù)據(jù)倉庫是面向設(shè)計(jì)的。

作答區(qū)

事務(wù)

事務(wù)

111

正確答案:[”事務(wù)"]

主題

主題

了2

正確答案:["主題”]

8.數(shù)據(jù)挖掘主要側(cè)重解決四類問題:和預(yù)測(定量、定

性)。

作答區(qū)

分類

分類

正確答案:「'分類"]

聚類

聚類

了2

正確答案:["聚類"]

關(guān)聯(lián)

關(guān)聯(lián)

下3

正確答案:「關(guān)聯(lián)」

9.數(shù)據(jù)分析是指采用適當(dāng)?shù)姆椒▽?duì)收集到的數(shù)據(jù)進(jìn)行分析、概括和總

結(jié)。

作答區(qū)

統(tǒng)計(jì)分析

統(tǒng)計(jì)分析

《II

正確答案:["統(tǒng)計(jì)分析"]

10.是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。

作答區(qū)

數(shù)據(jù)特征化

數(shù)據(jù)特征化

〃?IF

正確答案:["特征化","數(shù)據(jù)特征化」

1.無監(jiān)督學(xué)習(xí)可以在沒有標(biāo)記的數(shù)據(jù)集上進(jìn)行學(xué)習(xí)。(T)

2.聚類就是把一些對(duì)象劃分為多個(gè)組或者聚簇,從而使同組內(nèi)對(duì)象間比較相

似而不同組對(duì)象間差異較大。(T)

3.事務(wù)數(shù)據(jù)庫的每個(gè)記錄代表一個(gè)事務(wù)。(T)

4.數(shù)據(jù)倉庫和數(shù)據(jù)庫其實(shí)是相同的,都是數(shù)據(jù)或信息的存儲(chǔ)系統(tǒng)。()F

5.區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性

進(jìn)行比較。()T

6.離群點(diǎn)因偏離一般水平而不需要考慮和研究。()F

7.聚類過程的輸入對(duì)象有與之關(guān)聯(lián)的目標(biāo)信息。()F

8.數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述

數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。()T

9.數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)于已經(jīng)存在的數(shù)據(jù)進(jìn)行模

式的發(fā)掘。()T

10.數(shù)據(jù)倉庫一般存儲(chǔ)在線交易數(shù)據(jù),數(shù)據(jù)庫存儲(chǔ)的一般是歷史數(shù)據(jù)。

()F

11.數(shù)據(jù)分析是指采用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集到的數(shù)據(jù)進(jìn)行分析、概括

和總結(jié),對(duì)數(shù)據(jù)進(jìn)行恰當(dāng)?shù)拿枋觯⑻崛〕鲇杏玫男畔⒌倪^程。()T

12.數(shù)據(jù)分析的定義:數(shù)據(jù)分析就是對(duì)數(shù)據(jù)進(jìn)行分析。專業(yè)的說法,數(shù)據(jù)分

析是指根據(jù)分析目的,用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法及工具,對(duì)收集來的數(shù)據(jù)進(jìn)行

處理與分析,提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用。()T

13.數(shù)據(jù)庫是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)

集合,用于支持管理決策。()F

1.下面哪個(gè)不屬于數(shù)據(jù)的屬性類型()。

0

標(biāo)稱

序數(shù)

0

區(qū)間

相異

2.屬于定量的屬性類型是()。

@

標(biāo)稱

序數(shù)

區(qū)間

0

相異

3.一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年

級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是()。

一年級(jí)

二年級(jí)

三年級(jí)

0

四年級(jí)

4.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大

最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的7360

0元將被轉(zhuǎn)化為()。

0

0.821

1.224

?1.458

0.716

5.考慮數(shù)據(jù)集{12243324556826},其四分位數(shù)極差是()。

31

24

0

55

6.光年所屬的屬性類型為()。

0

標(biāo)稱屬性

序數(shù)屬性

?

區(qū)間標(biāo)度屬性

比率標(biāo)度屬性

8.某班數(shù)學(xué)期末考成績分組數(shù)據(jù)如下,則數(shù)據(jù)的中位數(shù)區(qū)間是()。

分?jǐn)?shù)人數(shù)

0至59分3

60至69分10

70至79分18

80至89分11

90至100分8

0

60至69分

70至79分

80至89分

0

90至100分

9.軍銜所屬的屬性類型為()。

0

標(biāo)稱屬性

序數(shù)屬性

?

二元屬性

0

數(shù)值屬性

11.計(jì)算p1(2,1,4,10)和p2(3,0,3,8)兩個(gè)對(duì)象之間的曼哈頓距離

()0

0

4

2

5

0

3

12.用AM和PM表示的時(shí)間的屬性類型是()。

0

標(biāo)稱

1

序數(shù)

區(qū)間

二元

1.屬性可以分為、、和四類。

作答區(qū)

標(biāo)稱屬性

標(biāo)稱屬性1

dIJ

正確答案標(biāo)稱屬性”,"標(biāo)稱"]

二元屬性

二元屬性72

d_l

正確答案:["二元屬性“,"二元"]

序數(shù)屬性

序數(shù)屬性

di

正確答案:["序數(shù)屬性","序數(shù)"]

數(shù)值屬性

數(shù)值屬性

ill

正確答案:["數(shù)值屬性","數(shù)值"]

2.中心趨勢度量包括和

作答區(qū)

均值

均值

dI了?

正確答案:["均值"]

中列數(shù)

中列數(shù)

ill了2

正確答案:["眾數(shù)"]

中位數(shù)

中位數(shù)了3

正確答案:[”中位數(shù)]

眾數(shù)

眾數(shù)4

ill

正確答案:["中列數(shù)"]

11.只有非零值才重要的二元屬性被稱作

作答區(qū)

非對(duì)稱二元屬性

非對(duì)稱二元屬性1

dI/

正確答案:[”非對(duì)稱二元屬性","非對(duì)稱二元"]

人的血型屬于標(biāo)稱屬性。T

2.酒店的星級(jí)屬于數(shù)值屬性。F

離散屬性總是具有有限個(gè)值。F

5.標(biāo)稱屬性的值提供了足夠的信息用于區(qū)分對(duì)象。T

6.數(shù)值屬性的值提供足夠的信息確定對(duì)象的順序。F

7.歐幾里得距離、曼哈頓距離、閔可夫斯基距離和切比雪夫距離均滿足非

負(fù)性、同一性和三角不等式。T

8.余弦相似性利用向量空間中兩個(gè)向量夾角的余弦值來衡量兩個(gè)個(gè)體間的

差異。余弦值越接近0,夾角越大,向量之間匹配越大。余弦值越接近1,

夾角越小,向量之間匹配越小。F

9.二元屬性的相異性有兩種,一種是對(duì)稱的二元相異性,另一種是非對(duì)稱

的二元相異性。T

4.計(jì)算由不對(duì)稱的二元變量描述的對(duì)象間的相異度可以使用

Jaccard系數(shù);計(jì)算用分類變量描述的對(duì)象間的相異度可以采用屬性

值匹配的方法(屬性值匹配,相似度為1,否則為0);T

1.下面屬于維歸約常用的線性代數(shù)技術(shù)的有()

主成分分析

特征提??;

0

特征加權(quán)

0

離散化

2.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的

任務(wù)()

0

頻繁模式挖掘

分類和預(yù)測

S

數(shù)據(jù)預(yù)處理

數(shù)據(jù)流挖掘

4.數(shù)據(jù)清理不包括以下哪些處理()

0

缺失值的處理

噪聲的處理

S

重復(fù)數(shù)據(jù)的處理

0

不一致數(shù)據(jù)的處理

5.數(shù)據(jù)規(guī)范化方法包括()

0

數(shù)據(jù)歸約

數(shù)據(jù)泛化

0

數(shù)據(jù)集成

最小最大規(guī)范化

1.下列數(shù)據(jù)變換類型及方法正確的是()

數(shù)據(jù)平滑:去噪,將連續(xù)數(shù)據(jù)離散化,增加粒度

數(shù)據(jù)聚集:對(duì)數(shù)值屬性進(jìn)行監(jiān)督或無監(jiān)督離散化

特征構(gòu)造:構(gòu)造出新的屬性

數(shù)據(jù)規(guī)范化:使數(shù)據(jù)按照比例縮放,落入特定區(qū)域

2.數(shù)據(jù)變換的類型包括()

0

數(shù)據(jù)預(yù)處理

數(shù)據(jù)泛化

s

數(shù)據(jù)離散化

Q

特征構(gòu)造

3.數(shù)據(jù)歸約技術(shù)包括()

維歸約

數(shù)量歸約

S

數(shù)據(jù)壓縮

0

數(shù)據(jù)清理

4.下面哪些屬于數(shù)據(jù)預(yù)處理的方法()

變量代換

離散化

S

聚集

0

估計(jì)遺漏值

5.在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該

問題的各方法正確的有()

忽略元組

n

從數(shù)據(jù)中挑選一個(gè)數(shù)據(jù)填寫

使用屬性的平均值填充空缺值

EI

使用與給定元組屬同一類的所有樣本的平均值

6.數(shù)據(jù)清理的原則包括()

0

相異性原則

連續(xù)性原則

3

唯一性原則

空值原則

2.高質(zhì)量數(shù)據(jù)的要求有、、。

作答區(qū)

準(zhǔn)確性

dI才

正確答案:["準(zhǔn)確性"]

完整性

完整性

<1I

正確答案:["完整性"]

一致性

一致性

了3

正確答案:["一致性"]

3.數(shù)據(jù)預(yù)處理的技術(shù)手段包括

作答區(qū)

數(shù)據(jù)清理

數(shù)據(jù)清理

VII

正確答案:[”數(shù)據(jù)清理」

數(shù)據(jù)集成

數(shù)據(jù)集成)2

?|I

正確答案:["數(shù)據(jù)集成"]

數(shù)據(jù)歸約

數(shù)據(jù)歸約

2Ujd

正確答案:["數(shù)據(jù)變換"]

數(shù)據(jù)變換

數(shù)據(jù)變換

dI74

正確答案:["數(shù)據(jù)歸約"]

6.在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上的缺失值是常有的。處理該問

題的常用方法有、、。

作答區(qū)

刪除數(shù)據(jù)對(duì)象或?qū)傩?/p>

刪除數(shù)據(jù)對(duì)象或?qū)傩?/p>

ill

正確答案:[”刪除數(shù)據(jù)對(duì)象或?qū)傩?]

估計(jì)遺漏值

估計(jì)遺漏值了2

111

正確答案:[”估計(jì)遺漏值”]

忽略遺漏值

忽略遺漏值&對(duì)數(shù)據(jù)進(jìn)行偏差檢測的二j3

正確答案:["忽略遺漏值"]

8.對(duì)數(shù)據(jù)進(jìn)行偏差檢測的3個(gè)原則分別是

作答區(qū)

唯一性原則

唯?性原則

正確答案:「唯一性原則"]

連續(xù)性原則

連續(xù)性原則32

d1

正確答案連續(xù)性原則”]

空值原則

空值原則

d1

正確答案:["空值原則”]

數(shù)據(jù)歸約技術(shù)包括

作答區(qū)

維歸約

維歸約

正確答案:["維歸約"]

數(shù)量歸約

數(shù)量歸約

“I了2

正確答案:["數(shù)量歸約"]

數(shù)據(jù)壓縮

數(shù)據(jù)壓縮

正確答案:["數(shù)據(jù)壓縮"]

在使用分箱法實(shí)現(xiàn)特征離散化時(shí),可以用每個(gè)箱中的或

替換箱中所有的值。

作答區(qū)

平均值

平均值

<1I

正確答案:["中位數(shù)","中值」

中位數(shù)

中位數(shù)

,1I

正確答案:[”平均值","平均數(shù)”]

12.數(shù)據(jù)清理一般需要對(duì)和進(jìn)行處理。

作答區(qū)

缺失值

缺失值

dI

正確答案:["缺失值"]

噪聲數(shù)據(jù)

噪聲數(shù)據(jù)

ill

正確答案:[“噪聲",”噪聲數(shù)據(jù)"]

我們要進(jìn)行數(shù)據(jù)預(yù)處理,是因?yàn)樵紨?shù)據(jù)大多都是“

作答區(qū)

臟數(shù)據(jù)

臟數(shù)據(jù)

<1I

正確答案:[”臟數(shù)據(jù)"]

14.四種處理缺失數(shù)據(jù)的方法是

作答區(qū)

直接刪除缺失屬性的記錄

直接刪除缺失屬性的記錄1

I

正確答案:['猥接刪除畛屬性的空"]

人工填寫

人工填寫

ill

正確答案:["人工填寫"]

使用全局常量填充缺失值

使用全局常量填充缺失值3

?|I『

正確答案:[“使用全局常精填充缺失值」

使用屬性的中心趨勢度量值填充缺失值

正確答案:["使用屬性的中心趨勢度量值填充缺失值”]

15.數(shù)據(jù)平滑的方法包括、和

作答區(qū)

分箱

正確答案“分箱」

回歸

正確答案:歸"]

聚類

聚類

<1I_d

正確答案:["聚類”]

噪聲是指被測量的變量產(chǎn)生的錯(cuò)誤或誤差。F

數(shù)據(jù)規(guī)約技術(shù)可以得到數(shù)據(jù)集的規(guī)約表示,雖然小,但仍大致保持原數(shù)據(jù)

的完整性T

數(shù)據(jù)變換是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于

數(shù)據(jù)挖掘的形式。T

數(shù)據(jù)預(yù)處理的任務(wù)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)泛化。F

唯一性原則是指一個(gè)屬性的每個(gè)值都是唯一的,不能和這個(gè)屬性的其他值

相同。T

數(shù)據(jù)變換策略主要包括光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造和離散

化。T

每個(gè)屬性的最大值和最小值之間沒有缺失值既滿足連續(xù)性原則。F

數(shù)據(jù)挖掘所處理的數(shù)據(jù)必須具有準(zhǔn)確性、完整性、一致性、時(shí)效性、可信

性和可解釋性。F

數(shù)據(jù)規(guī)約就是指對(duì)數(shù)據(jù)集進(jìn)行簡化表示。T

數(shù)據(jù)集成有助于減少結(jié)果數(shù)據(jù)集的冗余和不一致,可以提高集成之后的挖

掘過程的準(zhǔn)確性和速度。T

在確定數(shù)據(jù)中的離群點(diǎn)時(shí),一般不必檢查整個(gè)數(shù)據(jù)集T

數(shù)據(jù)倉庫是隨著時(shí)間變化的,下面的描述不正確的是()

0

捕捉到的新數(shù)據(jù)會(huì)覆蓋原來的快照

數(shù)據(jù)倉庫隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容

數(shù)據(jù)倉庫隨著事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容

0

數(shù)據(jù)倉庫中的綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合

關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指()

0

基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息

基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時(shí)序調(diào)度信息

?

基本元數(shù)據(jù)包括數(shù)據(jù)源,數(shù)據(jù)倉庫和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息

基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息

下面關(guān)于數(shù)據(jù)粒度的描述不正確的是()

0數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越高

n粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別

Q數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)別也就越高

回粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量

有關(guān)數(shù)據(jù)倉庫的開發(fā)特點(diǎn),不正確的描述是()

Q數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)

同數(shù)據(jù)倉庫使用的需求在開發(fā)時(shí)就要明確

?數(shù)據(jù)倉庫的開發(fā)是一個(gè)不斷循環(huán)的過程,是啟發(fā)式的開發(fā)

回在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理

流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式

在有關(guān)數(shù)據(jù)倉庫測試,下列說法不正確的是()

0在完成數(shù)據(jù)倉庫的實(shí)施過程中,需要對(duì)數(shù)據(jù)倉庫進(jìn)行各種測試

目在數(shù)據(jù)倉庫進(jìn)行測試之前一般不必要制定非常詳細(xì)的測試計(jì)劃

口系統(tǒng)測試需要對(duì)數(shù)據(jù)倉庫的組件進(jìn)行大量的功能測試和回歸測試

回當(dāng)數(shù)據(jù)倉庫的每個(gè)單獨(dú)組件完成后,就需要對(duì)他們進(jìn)行單元測試

OLAP技術(shù)的核心是()

0

在線性

快速響應(yīng)

0

互操作性

多維分析

關(guān)于OLAP和OLTP的說法,下列不正確的是()

?OLAP管理大量歷史數(shù)據(jù),OLTP僅管理當(dāng)前數(shù)據(jù)

目OLAP主要用于事務(wù)和查詢處理,而OLTP用于數(shù)據(jù)分析

?OLAP中綜合提煉的數(shù)據(jù)主要來自O(shè)LTP所依賴的底層數(shù)據(jù)庫

叵|OLAP數(shù)據(jù)較之OLTP數(shù)據(jù)要進(jìn)行更多的數(shù)據(jù)維護(hù)或預(yù)處理的操作

數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型不包含()

0概念模型

同邏輯模型

國關(guān)系模型

回物理模型

改變數(shù)據(jù)立方體維次序的操作是()

0

切片

切塊

上卷

旋轉(zhuǎn)

在給定的數(shù)據(jù)立方體的一個(gè)維度上進(jìn)行的選擇操作為()

0

切片

下列選項(xiàng)中關(guān)于粒度描述錯(cuò)誤的是:

0

粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別;

粒度影不響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小

粒度影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)程度;

0

粒度組織數(shù)據(jù)的方式有:①簡單堆積結(jié)構(gòu);②輪轉(zhuǎn)綜合結(jié)構(gòu);③簡單直接結(jié)

構(gòu);④連續(xù)結(jié)構(gòu)。

簡述數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)模型及其基本內(nèi)容,不正確的是。

0

概念模型設(shè)計(jì):對(duì)問題域內(nèi)事務(wù)進(jìn)行描述,是在較高的抽象層次上的設(shè)計(jì),

其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域;

邏輯模型設(shè)計(jì):對(duì)概念模型細(xì)化,定義實(shí)體屬性及其關(guān)系,主要內(nèi)容包括:

分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記

錄系統(tǒng);

S

物理數(shù)據(jù)模型設(shè)計(jì):在數(shù)據(jù)庫中建立表及索引,主要內(nèi)容包括確定數(shù)據(jù)存

儲(chǔ)結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲(chǔ)分配以及確定索引策略等。

D|

三種模型設(shè)計(jì)時(shí)主要考慮的因素有I/O存取時(shí)間、空間利用率和維護(hù)代價(jià)

等。

關(guān)于OLAP的特性,下面正確的是()

0

集成性

快速性

3

多維性

可分析性

數(shù)據(jù)模型是數(shù)據(jù)倉庫建設(shè)的基礎(chǔ),一個(gè)完整、靈活、穩(wěn)定的數(shù)據(jù)模型對(duì)數(shù)據(jù)倉

庫項(xiàng)目的成功起到的重要作用有()

Q利于數(shù)據(jù)的整合

目消除數(shù)據(jù)倉庫的冗余數(shù)據(jù)

@排除數(shù)據(jù)描述的不一致性

目為整個(gè)系統(tǒng)建設(shè)提供導(dǎo)航圖

根據(jù)使用情況的不同,元數(shù)據(jù)可以分為()

0

靜態(tài)元數(shù)據(jù)

技術(shù)元數(shù)據(jù)

S

業(yè)務(wù)元數(shù)據(jù)

0

動(dòng)態(tài)元數(shù)據(jù)

關(guān)于數(shù)據(jù)倉庫的邏輯模型,正確的說法有()

是數(shù)據(jù)倉庫設(shè)計(jì)中的核心基礎(chǔ)

對(duì)概念數(shù)據(jù)模型的分解和細(xì)化

對(duì)物理模型設(shè)計(jì)和實(shí)現(xiàn)具有指導(dǎo)作用

為全局服務(wù),集成全方位數(shù)據(jù)形成統(tǒng)一藍(lán)圖

關(guān)于OLAP和OLTP的區(qū)別描述,正確的是()

QOLAP是信息處理,OLTP是操作處理

同.OLAP面向底層管理人員,OLTP面向高層決策人員

因OLAP管理大量歷史數(shù)據(jù),OLTP主要關(guān)注當(dāng)前數(shù)據(jù)

回OLAP數(shù)據(jù)是細(xì)節(jié)性數(shù)據(jù),OLTP數(shù)據(jù)則是綜合性數(shù)據(jù)

OLAP按照數(shù)據(jù)存儲(chǔ)格式劃分,實(shí)現(xiàn)方式有、和HOLAP三種

作答區(qū)

ROLAP

ROLAP7

正確答案:["ROLAP"]

MOLAP

MOI.AP

正確答案:["MOLAP”]

根據(jù)使用情況的不同,元數(shù)據(jù)可以分為和業(yè)務(wù)元數(shù)據(jù);根據(jù)數(shù)據(jù)狀態(tài)

的區(qū)別又可分為和動(dòng)態(tài)元數(shù)據(jù)。

作答區(qū)

技術(shù)元數(shù)據(jù)

技術(shù)元數(shù)據(jù)

正確答案:[”技術(shù)元數(shù)據(jù)”]

靜態(tài)元數(shù)據(jù)

靜態(tài)元數(shù)據(jù)

了2

正確答案:[”靜態(tài)元數(shù)據(jù)”]

數(shù)據(jù)倉庫按照設(shè)計(jì)順序,依次分為、和三個(gè)設(shè)計(jì)步驟

作答區(qū)

概念模型設(shè)計(jì)

概念模型設(shè)計(jì)

4I

正確答案:["概念模型設(shè)計(jì)"]

邏輯模型設(shè)計(jì)

邏輯模型設(shè)計(jì)2

?|I『

正確答案:[”邏輯模型設(shè)計(jì)”]

物理模型設(shè)計(jì)

物理模型設(shè)計(jì)

ill

正確答案"物理模型設(shè)計(jì)"]

OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是

繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)T

數(shù)據(jù)倉庫中間層OLAP服務(wù)器只能采用關(guān)系型OLAP。F

數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫,倉庫管理,數(shù)據(jù)抽取,分析工具

等四個(gè)部分。F

數(shù)據(jù)倉庫測試工作中主要包括單元測試和系統(tǒng)測試。T

改變數(shù)據(jù)立方體維度的操作稱為下鉆。F

數(shù)據(jù)倉庫實(shí)際的三級(jí)模型中的概念模型不是對(duì)軟件實(shí)際的描述。T

數(shù)據(jù)倉庫就是一個(gè)面向什么的數(shù)據(jù)集合?

主題的

集成的

非易失的

時(shí)變

數(shù)據(jù)倉庫體系結(jié)構(gòu)通常采用一種三層體系結(jié)構(gòu),底層、中間層、頂層分別通

常為什么?

OLAP服務(wù)器

數(shù)據(jù)倉庫服務(wù)器

s

前端工具

0

OLAP操作

回歸分析中使用的距離是點(diǎn)到直線的垂直坐標(biāo)距離,最小二乘準(zhǔn)則是指

()O

0

使犬(Yt-R)達(dá)到最小值

使墨國-年達(dá)到最小值

0

使maxYt-R達(dá)到最小值

使?jié)?丫國)2達(dá)到最小值

回歸分析的步驟為()。

①進(jìn)行相關(guān)分析②建立預(yù)測模型③確定變量④確定預(yù)測值⑤計(jì)

算預(yù)測誤差

①③④⑤②

③①⑤②④

③②①⑤④

③⑤①②④

下列變量之間的關(guān)系是函數(shù)關(guān)系的是()。

Q

已知二次函數(shù)y=ax2+bx+c,其中a,c是已知常數(shù),取b為自變量,因變

量是這個(gè)函數(shù)的判別式A=b2—4ac。

I

光照時(shí)間和果樹畝產(chǎn)量

降雪量和交通事故發(fā)生率

0

每畝施用肥料量和糧食產(chǎn)量

對(duì)于回歸分析,下列說法錯(cuò)誤的是()。

0

在回歸分析中,變量間的關(guān)系若是非確定性關(guān)系,那么因變量不能由自變量

唯一確定

線性相關(guān)系數(shù)可以是正的,也可以是負(fù)的

.回歸分析中,如果旌=1,說明x與y之間完全相關(guān)

樣本相關(guān)系數(shù)re(-1,1)

某地區(qū)調(diào)查了2~9歲兒童的身高,由此建立的身高y(cm)與年齡x(歲)

的回歸模型為9=8.25x+60.13,下列敘述正確的是()。

0

該地區(qū)一個(gè)兒童的身高為142.63cm

該地區(qū)2~9歲的兒童每年的身高約增加8.25cm

該地區(qū)9歲兒童的平均身高是134.38cm

利用這個(gè)模型可以準(zhǔn)確地預(yù)測該地區(qū)每個(gè)2~9歲兒童的身高

已知對(duì)一組觀察值做出散點(diǎn)圖后確定具有線性相關(guān)關(guān)系,若對(duì)于y=bx+a,

求得b=0.5Lx=61.75",y=38.14,則線性回歸方程為()。

y=0.51x+6.65

y=6.65x+0.51

?

y=0.51x+42.30

0

y=42.30x+0.51

反映由模型中解釋變量所解釋的那部分離差大小的是()。

0

總離差平方和

回歸平方和

?

殘差平方和

0

可決系數(shù)

總離差平方和TSS、殘差平方和RSS與回歸平方和ESS三者的關(guān)系是

()0

0

TSS>RSS+ESS

TSS=RSS+ESS

TSSvRSS+ESS

0

TSS2=RSS2+ESS2

決定系數(shù)取的取值范圍是()。

?

0</?2<1

回歸分析中定義的()。

0

解釋變量和被解釋變量都是隨機(jī)變量

解釋變量為非隨機(jī)變量,被解釋變量為隨機(jī)變量

解釋變量和被解釋變量都為非隨機(jī)變量

解釋變量為隨機(jī)變量,被解釋變量為非隨機(jī)變量

最大或然準(zhǔn)則是按從模型中得到既得的n組樣本觀測值的什么最大的準(zhǔn)則確

定樣本回歸方程()。

a

離差平方和

均值

S

概率

0

方差

已知某農(nóng)場通過試驗(yàn)取得早稻收獲量與春季降雨量和春季溫度的數(shù)據(jù)如下,

則早稻收獲量對(duì)春季降雨量和春季溫度的二元線性回歸方程為()。

收獲量y(kg/hm3)降雨量xl(mm)溫度x2(℃)

2250256

3450338

45004510

675010513

720011014

750011516

825012017

0

y=327.672+22.386X1-0.591x2

沖0.591+22.386x1+327.672x2

y=22.386-0.591X1+327.672x2

El

y=-0.591+22.386X1+327.672x2

為研究某市家庭收入與月平均生活支出的關(guān)系,該市統(tǒng)計(jì)部門隨機(jī)調(diào)查了1

。個(gè)家庭,得數(shù)據(jù)如下,則回歸直線方程為()。

家庭編號(hào)12345678910

%(收入)千元0.81.11.31.51.51.82.02.22.42.8

匕.(支出)千元0.71.01.21.01.31.51.31.72.02.5

0

y=-0.0043x+0.0043

y=0.8136x-0.0043

s

y=0.8136x+0.0043

0

S-=-0.8136x+0.0043

在回歸分析中,檢驗(yàn)線性相關(guān)顯著性常用的三種檢驗(yàn)方法,包含()。

Q

相關(guān)系數(shù)顯著性檢驗(yàn)法

t檢驗(yàn)法

S

F檢驗(yàn)法(即方差檢驗(yàn)法)

0

X2檢驗(yàn)法

回歸方程9=L5x-15,則下列說法不正確的有()。

S

y=1.5x-15

15是回歸系數(shù)a

1.5是回歸系數(shù)a

D|

x=10時(shí),y=0

下列關(guān)系中具有相關(guān)關(guān)系的是()。

0

人的年齡與他擁有的財(cái)富之間的關(guān)系

曲線上的點(diǎn)與該點(diǎn)的坐標(biāo)之間的關(guān)系

蘋果的產(chǎn)量與氣候之間的關(guān)系

森林中的同一種樹木,其斷面直徑與高度之間的關(guān)系

下列變量中,屬于正相關(guān)的是()。

Q

收入增加,儲(chǔ)蓄額增加

產(chǎn)量增加,生產(chǎn)費(fèi)用增加

收入增加,支出增加

0

價(jià)格下降,消費(fèi)增加

回歸分析按照涉及變量的多少,分為:

作答區(qū)

一元回歸分析

一元回歸分析

<1I

正確答案?元回歸分析"]

多元回歸分析

多元回歸分析

了2

正確答案:[”多元回歸分析”]

若線性回歸方程中的回歸系數(shù)b=0,則相關(guān)系數(shù)r為;

作答區(qū)

0

正確答案:["0"]

某化工廠為預(yù)測產(chǎn)品的回收率y,需要研究它和原料有效成分含量x之間的相關(guān)關(guān)系,現(xiàn)

取8對(duì)觀測值,計(jì)算得Ryj228.QxH78,工行y,=1849,則其線性回歸方程為

(系數(shù)保留兩位小數(shù))

作答區(qū)

y=11.47+2.62x

y=l1.47+2.62x-

_d_|

正確答案:["y=2.62x+11.47","y=11.47+2.62X"]

下一題

使用F檢驗(yàn)對(duì)多元線性回歸方程進(jìn)行線性關(guān)系的顯著性檢驗(yàn),所求F值越

大,說明線性關(guān)系越:

作答區(qū)

顯著

正確答案:["顯著”]

在使用決定系數(shù)R2對(duì)回歸方程進(jìn)行擬合優(yōu)度檢驗(yàn)時(shí),R2越大表示回歸方

程的擬合程度越,R2越小表示回歸方程的擬合程度越0

作答區(qū)

正確答案:[“好」

了2

正確答案:["差”]

.是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方

作答區(qū)

回歸分析

回歸分析

正確答案:["回歸分析"]

F檢驗(yàn)運(yùn)用服從F分布的統(tǒng)計(jì)量或方差比作為統(tǒng)計(jì)檢驗(yàn),通過度量回歸方程的線性

關(guān)系是否顯著

作答區(qū)

顯著性水平

顯著性水平

正確答案:["顯著性水平","顯著性水平檢驗(yàn)"]

下一題

是指分類器/回歸器正確地預(yù)測新的或先前未見過的數(shù)據(jù)的屬性值/類

標(biāo)號(hào)的能力

作答區(qū)

分類準(zhǔn)確率

分類準(zhǔn)確率1

<|IJj

正確答案:["準(zhǔn)確率","分類準(zhǔn)確率"]

當(dāng)一些變量的值確定以后,另一些變量的值也隨之完全確定的關(guān)系,這些

變量間的關(guān)系完全是已知的,變量間的關(guān)系可以用函數(shù)關(guān)系表示,我們稱之為—

作答區(qū)

確定性關(guān)系

確定性關(guān)系

ill

正確答案:["確定性關(guān)系"]

變量之間有一定的依賴關(guān)系,變量之間雖然互相影響和制約,但由于受到無法估計(jì)和控制

的因素的影響,使變量間的關(guān)系呈現(xiàn)不確定性,當(dāng)一些變量的值確定以后,另一些變量值

雖然隨之變化,卻不能完全確定,這時(shí),變量間的關(guān)系就可以精確地用函數(shù)表示,即不能

由一個(gè)或若干變量的值精確地確定另一個(gè)變量的值,我們稱這樣的關(guān)系為

作答區(qū)

非確定性關(guān)系

非確定性關(guān)系

正確答案:「‘非確定性關(guān)系"]

下一題

在回歸分析中:被解釋變量y是、解釋變量x是

作答區(qū)

隨機(jī)變量

隨機(jī)變量

正確答案:["隨機(jī)變量”,"因變量"]

非隨機(jī)變量

非隨機(jī)變量

正確答案:[“非隨機(jī)變量","自變量"]

下一題

回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則F

某塊農(nóng)田糧食的產(chǎn)量與施肥量之間的關(guān)系為不確定性關(guān)系T

多元線性回歸是研究處理兩個(gè)變量之間關(guān)系的最簡單模型F

回歸分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分

析方法T

時(shí)序預(yù)測與回歸預(yù)測一樣,也是用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)

的區(qū)別是變量所處的時(shí)間不同F(xiàn)

回歸分析按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非

線性回歸分析T

一元線性回歸模型包含一個(gè)解釋變量和兩個(gè)被解釋變量F

用總平方和表示因變量的n個(gè)觀察值與其均值的誤差的總和T

應(yīng)用回歸預(yù)測法時(shí),即使變量之間不存在相關(guān)關(guān)系,也可以對(duì)這些變量應(yīng)

用回歸預(yù)測法F

多元線性回歸模型表示的是多個(gè)自變量與一個(gè)因變量之間的關(guān)系T

SVM通過什么實(shí)現(xiàn)線性不可分割問題

0

特征降維

特征篩選

基尼系數(shù)

核函數(shù)

1.下列幾種數(shù)據(jù)挖掘功能中被廣泛的用于購物籃分析的是()

A.關(guān)聯(lián)分析;

B.分類和預(yù)測;

C.聚類分析;

D.演變分析

2.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購買尿布,

這種屬于數(shù)據(jù)挖掘的哪類問題()

A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn);

B.聚類;

0

C.分類;

0

D.自然語言處理;

4.置信度(confidence)是衡量哪種興趣度度量的指標(biāo)()

0

A.簡潔性;

B.確定性;

C.實(shí)用性;

D.新穎性;

5.關(guān)聯(lián)規(guī)則的支持度公式為()

0

A.support(A=>B)=P(AAB);

B.support(A=>B)=P(B|A);

C.support(A=>B)=P(AUB);

0

D.support(A=>B)=P(A|B);

6.下列指標(biāo)中,能夠度量一個(gè)規(guī)則的強(qiáng)度,同時(shí)衡量兩個(gè)集合之間的獨(dú)立

性的是()

0

A.提升度;

B.杠桿度;

C.IS度量;

D.確信度;

7.規(guī)則0TA和A-0的置信度是()

0

A.50%;

B.75%;

0

C.90%;

D.100%;

8.令C1,C2和C3分別是規(guī)則{p}一{q},{p}一{q,r},{p,r}一{q}的置信度。如果

假定C1,C2和C3有不同的值,置信度最低的規(guī)則是()

0

A.C1;

B.C2;

C.C3;

0

D.C2和C3;

11.如果XWY,且Y中至少有一項(xiàng)不在X中,那么丫是X的()

0

A.頻繁項(xiàng)集;

B.真超項(xiàng)集;

C.閉頻繁項(xiàng)集;

0

D.極大頻繁項(xiàng)集;

12.下列關(guān)于Aphori算法的分析中,錯(cuò)誤的是()

0

A.Apriori算法基于支持度的剪枝技術(shù),用來控制候選項(xiàng)集的指數(shù)增長;

B.Apriori算法包括候選集生成和向下封閉檢測兩個(gè)階段;

S

C.Apriori算法會(huì)掃描數(shù)據(jù)庫2次;

D.Apriori算法使用逐層搜索的迭代方法;

13.下表所示的購物籃事務(wù)數(shù)據(jù)集中能夠提取的3-項(xiàng)集的最大數(shù)量是()

事務(wù)ID購買項(xiàng)

1{牛奶,啤酒,尿布}

2{面包,黃油,牛奶}

3{牛奶,尿布,餅「}

4{面包,黃油,餅干}

5{啤酒,餅干,尿布}

6{牛奶,尿布,面包,黃油}

7{面包,黃油,尿布}

8{啤酒,尿布}

9{牛奶,尿布,面包,黃油}

10{啤酒,餅干}

0

D.20;

15.下列不屬于Aphori算法的缺點(diǎn)的是()

A.Apriori算法分為兩個(gè)階段挖掘頻繁項(xiàng)集;

§

B.Apriori算法產(chǎn)生候選項(xiàng)目集時(shí)沒有排除無用的候選項(xiàng)集;

?

C.Apriori算法在每一步產(chǎn)生候選項(xiàng)目集時(shí)循環(huán)產(chǎn)生的組合過多;

0

D.在掃描大型數(shù)據(jù)庫時(shí),Apriori算法會(huì)大大增加計(jì)算機(jī)系統(tǒng)I/O開銷;

2.下表是一個(gè)購物籃,假定支持度閾值為40%,其中哪幾個(gè)是頻繁閉項(xiàng)集()

TID項(xiàng)

1abc

2abed

3bee

4acde

5de

A.abc;

B.ad;

C.cd;

D.de;

正確答案

AD

4.以下關(guān)于非頻繁模式說法,正確的是()

A.其支持度小于閾值;

B,都是不讓人感興趣的;

C.其支持度大于閾值;

D.對(duì)異常數(shù)據(jù)項(xiàng)敏感;

6.下列關(guān)于FP-growth算法優(yōu)缺點(diǎn)的表述中,正確的有()

A.相比于Apriori算法,F(xiàn)P-growth算法運(yùn)行速度要快一個(gè)數(shù)量級(jí);

B.FP-growth算法在建立FP-tree時(shí)占用空間較小;

C.FP-growth算法無須多次掃描數(shù)據(jù)庫,節(jié)省了運(yùn)行時(shí)間;

D.FP-growth算法處理產(chǎn)生的條件樹時(shí)會(huì)占用很多資源;

Aprior算法包括和兩個(gè)基本步驟。

作答區(qū)

正確答案:["連接]

正確答案:[”剪枝"]

2.關(guān)聯(lián)規(guī)則的經(jīng)典算法包括和,其中的效率更高。

作答區(qū)

Apriori

Apriori

ill

正確答案:["Apriori"]

FP-growth

FP-growth

dI

正確答案:["FP-growth"]

FP-growth

FP-growth

正確答案:["FP-growth"]

關(guān)聯(lián)規(guī)則的置信度公式為confidence(A=>B)=

作答區(qū)

P(B\A)

d_J

正確答案:["P(B|A)"]

同時(shí)滿足和的規(guī)則稱之為強(qiáng)關(guān)聯(lián)規(guī)則。

作答區(qū)

最小支持度

最小支持度

正確答案:[”最小支持度閾值"]

最小置信度

最小置信度

了2

正確答案:[”最小置信度閾值"]

如果一個(gè)項(xiàng)集的直接超集都不具有和它相同的支持度計(jì)數(shù),則稱其為:.

作答區(qū)

閉頻繁項(xiàng)集

閉頻繁項(xiàng)集>J

正確答案:[“閉項(xiàng)集」

下一題

在挖掘閉模式算法中,直接搜索閉頻繁項(xiàng)集,并對(duì)結(jié)果進(jìn)行剪枝是最常用

的方法,其中剪枝的策略包括和

作答區(qū)

項(xiàng)合并

項(xiàng)合并

2J

正確答案:[”項(xiàng)合并"]

子項(xiàng)集剪枝

“了?項(xiàng)I集剪枝2

正確答案:["子項(xiàng)集剪枝"]

不包含任何考察項(xiàng)集的事務(wù)稱為:

作答區(qū)

零事務(wù)

正確答案:「零事務(wù)"]

頻繁出現(xiàn)在數(shù)據(jù)集中的模式稱為;

作答區(qū)

頻繁模式

頻繁模式

正確答案:["頻繁模式"]

關(guān)聯(lián)規(guī)則挖掘任務(wù)主要分為和兩個(gè)子任務(wù)。

作答區(qū)

頻繁項(xiàng)集產(chǎn)生

頻繁項(xiàng)集產(chǎn)生

正確答案:["頻繁項(xiàng)集的產(chǎn)生,,]

關(guān)聯(lián)規(guī)則產(chǎn)生

關(guān)聯(lián)規(guī)則產(chǎn)生

正確答案:[”關(guān)聯(lián)規(guī)則的產(chǎn)生"]

大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘包含找出所有和由產(chǎn)生兩個(gè)

過程。

作答區(qū)

頻繁項(xiàng)集

頻繁項(xiàng)集1

正確答案:["頻繁項(xiàng)集”]

頻繁項(xiàng)集

頻繁項(xiàng)集2

<1I_LJ

正確答案:["頻繁項(xiàng)集”]

強(qiáng)關(guān)聯(lián)規(guī)則

強(qiáng)關(guān)聯(lián)規(guī)則3

正確答案:[”強(qiáng)關(guān)聯(lián)規(guī)則"]

FP-growth算法的基本思想是用FP-growth形成頻繁集。

作答區(qū)

正確答案:["遞歸增長"]

計(jì)算關(guān)聯(lián)規(guī)則{牛奶}=>{咖啡}的支持度和置信度:(答案保留小數(shù)

點(diǎn)后兩位)

購買咖啡不購買咖啡行和

購買牛奶20005002500

不購買牛奶100015002500

列和300020005000

作答區(qū)

0.40

0.40

正確答案:["0.40"]

0.80

0.802

正確答案:「0.66”]

從上題的數(shù)據(jù)中計(jì)算牛奶與咖啡之間的提升度和杠桿度:.(答案

保留小數(shù)點(diǎn)后一位)

作答區(qū)

0.8

0.8

ill

正確答案

-0.1

2

正確答案:["0.1"]

關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。F

利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)。T

先驗(yàn)原理可以表述為:如果一個(gè)項(xiàng)集是頻繁的,那包含它的所有項(xiàng)集也是頻繁

的。F

先驗(yàn)原理可以表述為:如果一個(gè)項(xiàng)集是頻繁的,那包含它的所有非空子集也是

頻繁的。T

具有較高的支持度的項(xiàng)集具有較高的置信度。F

如果兩個(gè)項(xiàng)集的提升度的值小于1,則說明兩個(gè)項(xiàng)集正相關(guān)。F

兩個(gè)項(xiàng)集的全置信度越大,說明兩個(gè)項(xiàng)集的關(guān)系越緊密,反之則關(guān)系越疏遠(yuǎn)。

T

極大頻繁項(xiàng)集的直接超集都不是頻繁的。T

可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。T

Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。T

關(guān)聯(lián)規(guī)則是形如X=>丫的蘊(yùn)含式,X和丫滿足:X和丫是I的真子集,并且X

和丫的交集為空集。T

設(shè)最小支持度閾值為30%,最小置信度閾值為70%,如果一個(gè)項(xiàng)集的支持度為

50%,則該項(xiàng)集是頻繁項(xiàng)集。T

下表給出了一個(gè)關(guān)于動(dòng)物類別的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)集包含5個(gè)屬性:warm_bl

ooded、feathers、fur、swims、lays_eggso若樣本按warm_blooded戈U分,

對(duì)應(yīng)的焙為()

序號(hào)warmbloodedfeathersfurswimslayseggs

111001

200011

31100I

411001

510010

610100

A.0.809;

下面的例子被分為3類:{Short,Tall,Medium},Height屬性被劃分為

(0,1.6),(1.6,1.7),(1.7,1.8),(1.8,1.9),(1.9,2.0),

(2.0,8),根據(jù)下表,對(duì)于t=<Adam,M,1.95m>用貝葉斯分類方法進(jìn)行分

類,則最終結(jié)果為()

No.NameGenderHeightOutput

1KristinaF1.6mShort

2JimM2mTall

3MaggieF1.9mMedium

4MarthaF1.88mShort

5StephanieF1.7mMedium

6BobM1.85mShort

7KathyF1.6mShort

8DaveM1.7mShort

9WorthM2.2mTall

10StevenM2.1mTall

11DebbieF1.8mMedium

12ToddM1.95mMedium

13KimF1.9mMedium

14AmyF1.8mMedium

15WynetteF1.75mMedium

a

A.Short;

B.Tall;

下列是有關(guān)于是否購買電腦的數(shù)據(jù)集,其中學(xué)歷,是否結(jié)婚,收入為特征,

表中最后一列類別代表是否購買電腦,則數(shù)據(jù)集的信息端為()

ID學(xué)歷是否結(jié)婚收入類別

1??品裰惺?/p>

2專科是低否

3??剖侵惺?/p>

4本科否高是

5本科否中否

6本科否低否

7本科是中是

8研究生是高是

9研究生是中否

10研究生否高是

0

A.0.254;

B.0.376;

S

C.0.971;

下面的數(shù)據(jù)集包含兩個(gè)屬性X和丫,兩個(gè)類標(biāo)號(hào)"+"和"一"。每個(gè)屬性取三個(gè)

不同的值:0,1或2。"+"類的概念是丫=1,"-"類的概念是X=0或X=2。則

由表構(gòu)建的決策樹的F1值(對(duì)"+”類定義)是()。

實(shí)份數(shù)

XY

+

000100

1000

200100

0110100

11100

2110100

020100

1200

220100

0

A.0.33;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論