鹽城數(shù)據(jù)挖掘考試-內(nèi)部選拔考題及答案_第1頁(yè)
鹽城數(shù)據(jù)挖掘考試-內(nèi)部選拔考題及答案_第2頁(yè)
鹽城數(shù)據(jù)挖掘考試-內(nèi)部選拔考題及答案_第3頁(yè)
鹽城數(shù)據(jù)挖掘考試-內(nèi)部選拔考題及答案_第4頁(yè)
鹽城數(shù)據(jù)挖掘考試-內(nèi)部選拔考題及答案_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘考試-內(nèi)部選拔考題一、單選題(每題0.5分,共30題)1. 某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A) A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) B. 聚類 C. 分類 D. 自然語(yǔ)言處理2. 將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?(C) A. 頻繁模式挖掘 B. 分類和預(yù)測(cè) C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流挖掘3. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B) A. 分類 B. 聚類 C. 關(guān)聯(lián)分析 D. 隱馬爾可夫鏈4. 使用交互式的和可視化的技術(shù),對(duì)數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘

2、的哪一類任務(wù)?(A) A. 探索性數(shù)據(jù)分析 B. 建模描述 C. 預(yù)測(cè)建模 D. 尋找模式和規(guī)則 5.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? (D)A變量代換 B離散化 C 聚集 D 估計(jì)遺漏值 6. 假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第幾個(gè)箱子內(nèi)? (B)A 第一個(gè) B 第二個(gè) C 第三個(gè) D 第四個(gè) 7. 只有非零值才重要的二元屬性被稱作:( C )A 計(jì)數(shù)屬性 B 離散屬性 C非對(duì)稱的二元屬性 D 對(duì)稱屬性 8. 以下哪種方法不屬于特

3、征選擇的標(biāo)準(zhǔn)方法: (D)A嵌入 B 過濾 C 包裝 D 抽樣 9.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是: (B)A特征提取 B特征修改 C映射數(shù)據(jù)到新的空間 D特征構(gòu)造 10. 假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn)化為:(D)A 0.821 B 1.224 C 1.458 D 0.716 11.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,

4、36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個(gè)箱子值為:(A)A 18.3 B 22.6 C 26.8 D 27.9 12. 數(shù)據(jù)倉(cāng)庫(kù)是隨著時(shí)間變化的,下面的描述不正確的是 (C)A. 數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容;B. 捕捉到的新數(shù)據(jù)會(huì)覆蓋原來(lái)的快照;C. 數(shù)據(jù)倉(cāng)庫(kù)隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;D. 數(shù)據(jù)倉(cāng)庫(kù)中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合.13. 關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指: (D)A. 基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;B. 基本元數(shù)據(jù)包括與企業(yè)相關(guān)

5、的管理方面的數(shù)據(jù)和信息;C. 基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息;D. 基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.14. 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是: (C)A. 粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別;B. 數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越高;C. 數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)別也就越高;D. 粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量以及查詢質(zhì)量.15. 設(shè)X=1,2,3是頻繁項(xiàng)集,則可由X產(chǎn)生_(C)_個(gè)關(guān)聯(lián)規(guī)則。A、4 B、5 C、6 D、7 16. 概念分層圖是_(B)_圖。A、無(wú)向無(wú)環(huán) B、有向無(wú)環(huán) C、有向有環(huán) D、無(wú)向有環(huán)17

6、. 頻繁項(xiàng)集、頻繁閉項(xiàng)集、最大頻繁項(xiàng)集之間的關(guān)系是: (C)A、頻繁項(xiàng)集 頻繁閉項(xiàng)集 =最大頻繁項(xiàng)集B、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集C、頻繁項(xiàng)集 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集D、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 = 最大頻繁項(xiàng)集18. 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為 ( B )A、頻繁子集挖掘 B、頻繁子圖挖掘 C、頻繁數(shù)據(jù)項(xiàng)挖掘 D、頻繁模式挖掘19. 決策樹中不包含一下哪種結(jié)點(diǎn),A,根結(jié)點(diǎn)(root node) B,內(nèi)部結(jié)點(diǎn)(internal node) C,外部結(jié)點(diǎn)(external node) D,葉結(jié)點(diǎn)(leaf node) (C)20. 以下哪項(xiàng)關(guān)于決策樹的說法是錯(cuò)誤的

7、 (C)A. 冗余屬性不會(huì)對(duì)決策樹的準(zhǔn)確率造成不利的影響 B. 子樹可能在決策樹中重復(fù)多次 C. 決策樹算法對(duì)于噪聲的干擾非常敏感 D. 尋找最佳決策樹是NP完全問題21. 在基于規(guī)則分類器的中,依據(jù)規(guī)則質(zhì)量的某種度量對(duì)規(guī)則排序,保證每一個(gè)測(cè)試記錄都是由覆蓋它的“最好的”規(guī)格來(lái)分類,這種方案稱為 (B)A. 基于類的排序方案 B. 基于規(guī)則的排序方案 C. 基于度量的排序方案 D. 基于規(guī)格的排序方案。 22. 在SQL Server數(shù)據(jù)庫(kù)中,有一個(gè)產(chǎn)品表products,你想按照價(jià)格從小到大的順序顯示所有產(chǎn)品的名稱(productname)和價(jià)格(price),可以實(shí)現(xiàn)該功能的T-SQL語(yǔ)句

8、是( A )。(選擇一項(xiàng))(A)SELECT productname,price from products order by price ASC(B)SELECT productname,price from products order by price DESC(C)SELECT productname and price from products order by price(D)SELECT productname and price from products order by price DESC23. 你是公司的SQL server數(shù)據(jù)庫(kù)管理員。你管理一個(gè)數(shù)據(jù)庫(kù),其中有一個(gè)產(chǎn)

9、品表Products,記錄公司的產(chǎn)品信息,你想刪除過期的產(chǎn)品信息,應(yīng)該用( D )語(yǔ)句。(選擇一項(xiàng))(A)select (B)insert (C)update (D)delete24. 下列哪條語(yǔ)句可以完成刪除數(shù)據(jù)庫(kù)中某個(gè)視圖的操作:( D )ADelete * from view_Name BDelete from view _NameCDelete view Table_Name DDrop view Table_Name25. 下列哪條語(yǔ)句可以完成將表xjb中的數(shù)據(jù)按Class(班級(jí))分組統(tǒng)計(jì)出各個(gè)班的總?cè)藬?shù)顯示出來(lái):( B )ASelect * from xjb group by cl

10、ass BSelect Class ,總?cè)藬?shù)=count(Class)from xjb group by class CSelect Class,總?cè)藬?shù)=count(Class)from xjb order by class DSelect * from xjb Order by class26. 在SQL中,建立表用的命令是 ( B )。A.CREATE SCHEMA B.CREATE TABLEC.CREATE VIEW D.CREATE INDEX27. 下列四項(xiàng)中,不正確的提法是( C )。A.SQL語(yǔ)言是關(guān)系數(shù)據(jù)庫(kù)的國(guó)際標(biāo)準(zhǔn)語(yǔ)言B.SQL語(yǔ)言具有數(shù)據(jù)定義、查詢、操縱和控制功能C.SQ

11、L語(yǔ)言可以自動(dòng)實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)的規(guī)范化D.SQL語(yǔ)言稱為結(jié)構(gòu)查詢語(yǔ)言28. 在SQL語(yǔ)言中,建立存儲(chǔ)過程的命令是( A )A、CREATE PROCEDURE B、CREATE RULEC、CREATE DURE D、CREATE FILE29. 數(shù)據(jù)庫(kù)管理系統(tǒng)的英文縮寫是( A )。ADBMS BDBS CDBA DDB30. 向用戶授予操作權(quán)限的SQL語(yǔ)句是( D )。ACTEATE BREVOKE CSELECT DGRANT二、 多選題(每題1分,共20題)1. 通過數(shù)據(jù)挖掘過程所推倒出的關(guān)系和摘要經(jīng)常被稱為:(A B) A. 模型 B. 模式 C. 模范 D. 模具2 尋找數(shù)據(jù)集中的關(guān)

12、系是為了尋找精確、方便并且有價(jià)值地總結(jié)了數(shù)據(jù)的某一特征的表示,這個(gè)過程包括了以下哪些步驟? (A B C D)A. 決定要使用的表示的特征和結(jié)構(gòu)B. 決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C. 選擇一個(gè)算法過程使評(píng)分函數(shù)最優(yōu)D. 決定用什么樣的數(shù)據(jù)管理原則以高效地實(shí)現(xiàn)算法。3. 數(shù)據(jù)挖掘算法的組件包括:(A B C D) A. 模型或模型結(jié)構(gòu) B. 評(píng)分函數(shù) C. 優(yōu)化和搜索方法 D. 數(shù)據(jù)管理策略4. 以下哪些學(xué)科和數(shù)據(jù)挖掘有密切聯(lián)系?(A D) A. 統(tǒng)計(jì) B. 計(jì)算機(jī)組成原理 C. 礦產(chǎn)挖掘 D. 人工智能5. 在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方

13、法有: ()A忽略元組 C使用一個(gè)全局常量填充空缺值B使用屬性的平均值填充空缺值 D使用與給定元組屬同一類的所有樣本的平均值 E使用最可能的值填充空缺值6. 對(duì)于數(shù)據(jù)挖掘中的原始數(shù)據(jù),存在的問題有: ()A 不一致 B重復(fù) C不完整 D 含噪聲 E 維度高 7. 下面列出的條目中,哪些是數(shù)據(jù)倉(cāng)庫(kù)的基本特征: (ACD)A. 數(shù)據(jù)倉(cāng)庫(kù)是面向主題的 B. 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是集成的 C. 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是相對(duì)穩(wěn)定的 D. 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是反映歷史變化的 E. 數(shù)據(jù)倉(cāng)庫(kù)是面向事務(wù)的8. 以下各項(xiàng)均是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的不同說法,你認(rèn)為正確的有(BCDE )。A數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)庫(kù)B數(shù)據(jù)倉(cāng)庫(kù)是一切商業(yè)智能系統(tǒng)的基

14、礎(chǔ)C數(shù)據(jù)倉(cāng)庫(kù)是面向業(yè)務(wù)的,支持聯(lián)機(jī)事務(wù)處理(OLTP)D數(shù)據(jù)倉(cāng)庫(kù)支持決策而非事務(wù)處理E數(shù)據(jù)倉(cāng)庫(kù)的主要目標(biāo)就是幫助分析,做長(zhǎng)期性的戰(zhàn)略制定9. 數(shù)據(jù)倉(cāng)庫(kù)在技術(shù)上的工作過程是: (ABCD)A. 數(shù)據(jù)的抽取 B. 存儲(chǔ)和管理 C. 數(shù)據(jù)的表現(xiàn)D. 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) E. 數(shù)據(jù)的表現(xiàn)10. 聯(lián)機(jī)分析處理包括以下哪些基本分析功能? (BCD)A. 聚類 B. 切片 C. 轉(zhuǎn)軸 D. 切塊 E. 分類11. 利用Apriori算法計(jì)算頻繁項(xiàng)集可以有效降低計(jì)算頻繁集的時(shí)間復(fù)雜度。在以下的購(gòu)物籃中產(chǎn)生支持度不小于3的候選3-項(xiàng)集,在候選2-項(xiàng)集中需要剪枝的是(BD)ID 項(xiàng)集1 面包、牛奶2 面包、尿布、啤酒、

15、雞蛋3 牛奶、尿布、啤酒、可樂4 面包、牛奶、尿布、啤酒5 面包、牛奶、尿布、可樂A、啤酒、尿布 B、啤酒、面包 C、面包、尿布 D、啤酒、牛奶12. Apriori算法的計(jì)算復(fù)雜度受_(ABCD)?_影響。A、支持度閥值 B、項(xiàng)數(shù)(維度)C、事務(wù)數(shù) D、事務(wù)平均寬度13. 非頻繁模式_(AD)_A、其支持度小于閾值 B、都是不讓人感興趣的C、包含負(fù)模式和負(fù)相關(guān)模式 D、對(duì)異常數(shù)據(jù)項(xiàng)敏感14. 貝葉斯信念網(wǎng)絡(luò)(BBN)有如下哪些特點(diǎn),A,構(gòu)造網(wǎng)絡(luò)費(fèi)時(shí)費(fèi)力 B,對(duì)模型的過分問題非常魯棒 C,貝葉斯網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù) D,網(wǎng)絡(luò)結(jié)構(gòu)確定后,添加變量相當(dāng)麻煩 (AB)15.在SQL Serve

16、r數(shù)據(jù)庫(kù)(排序規(guī)則為默認(rèn)值)中,有一個(gè)產(chǎn)品表products,你想按照價(jià)格從小到大的順序顯示所以產(chǎn)品的名稱(productname)和價(jià)格(price),可以實(shí)現(xiàn)該功能的T-SQL語(yǔ)句是( AC )。(選擇二項(xiàng))(A) SELECT productname,price from products order by price ASC(B) SELECT productname,price from products order by price DESC(C) SELECT productname,price from products order by price(D) SELECT pro

17、ductname and price from products order by price DESC16.數(shù)據(jù)定義類語(yǔ)言包括( AB )ACREATE B.DROP C.INSERT D.GRANT17.數(shù)據(jù)操作類語(yǔ)言包括( ABC )A.INSERT B.UPDATE C.DELETE D.REVOKE18.PEST分析法包括(ABCD)A.政治 B.經(jīng)濟(jì) C.社會(huì) D.技術(shù)19.5W2H分析法包括( ABCD )A.Why B. What C.Who D.How20.4P營(yíng)銷理論包括(ABCD)A.產(chǎn)品 B.價(jià)格 C.渠道 D.促銷三、 判斷題(每題0.5分,共15分)1. 數(shù)據(jù)挖掘的

18、主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。 (對(duì))2. 數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。(對(duì))3. 圖挖掘技術(shù)在社會(huì)網(wǎng)絡(luò)分析中扮演了重要的角色。(對(duì))4. 模式為對(duì)數(shù)據(jù)集的全局性總結(jié),它對(duì)整個(gè)測(cè)量空間的每一點(diǎn)做出描述;模型則對(duì)變量變化空間的一個(gè)有限區(qū)域做出描述。(錯(cuò))5. 尋找模式和規(guī)則主要是對(duì)數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。(錯(cuò))6. 離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或者值。(對(duì))7. 離散屬性總是具有有限個(gè)值。(錯(cuò))8. 噪聲和偽像是數(shù)據(jù)錯(cuò)誤這一相同表述的兩種叫法。(錯(cuò))9. 用于分類的離散化方法之間的根本區(qū)別在

19、于是否使用類信息。(對(duì))10. 特征提取技術(shù)并不依賴于特定的領(lǐng)域。(錯(cuò))11. 定量屬性可以是整數(shù)值或者是連續(xù)值。(對(duì))12數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成部分包括數(shù)據(jù)倉(cāng)庫(kù),倉(cāng)庫(kù)管理,數(shù)據(jù)抽取,分析工具等四個(gè)部分. (錯(cuò))13. 關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。(錯(cuò))14. 如果規(guī)則 不滿足置信度閾值,則形如 的規(guī)則一定也不滿足置信度閾值,其中 是X的子集。(對(duì))15. 具有較高的支持度的項(xiàng)集具有較高的置信度。(錯(cuò))16. 聚類(clustering)是這樣的過程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。 (錯(cuò))17. 分類和回歸都可用

20、于預(yù)測(cè),分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(對(duì))18. Bayes法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。 (錯(cuò))19.'在那遙遠(yuǎn)的地方' 是SQL中的字符串常量嗎?Y20. SQL Server不允許字段名為漢字?N21. 職稱 in ('教授', '副教授'')與 職稱 = '教授' or 職稱 = '副教授' 等價(jià)嗎?Y22. 在表中創(chuàng)建一個(gè)標(biāo)識(shí)列(IDENTITY),當(dāng)用戶向表中插入新的數(shù)據(jù)行時(shí),系統(tǒng)自動(dòng)為該行標(biāo)識(shí)列賦值嗎

21、?Y23. 在事務(wù)中包含create database語(yǔ)句嗎?N24連接、選擇和投影三種關(guān)系運(yùn)算具有相同的結(jié)果。N25數(shù)據(jù)的安全性主要防范的對(duì)象是合法用戶。N26. 恢復(fù)是利用冗余數(shù)據(jù)來(lái)重建數(shù)據(jù)庫(kù)。Y27創(chuàng)建唯一性索引的列可以有一些重復(fù)的值?N28存儲(chǔ)過程的輸出結(jié)果可以傳遞給一個(gè)變量。Y29視圖具有與表相同的功能,在視圖上也可以創(chuàng)建觸發(fā)器。N30SQL Server 2000不具有數(shù)據(jù)的導(dǎo)入與導(dǎo)出功能。N四、填空題(每空0.5分,共20題)1. 噪聲數(shù)據(jù)處理的方法主要有分箱 、 聚類 和 回歸 。2. 數(shù)值歸約的常用方法有 回歸和對(duì)數(shù)線性模型 、 直方圖 、 聚類、選樣 和對(duì)數(shù)模型等。3. 評(píng)

22、價(jià)關(guān)聯(lián)規(guī)則的2個(gè)主要指標(biāo)是支持度 和置信度 。4. 決策樹是用 屬性 作為結(jié)點(diǎn),用屬性的取值 作為分支的樹結(jié)構(gòu)。5. 關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、 和 。6. 數(shù)據(jù)挖掘的主要功能包括 概念描述 、 挖掘頻繁模式 、 分類和預(yù)測(cè) 、聚類分析 、趨勢(shì)分析、孤立點(diǎn)分析和偏差分析7個(gè)方面。7. 聚類分析的數(shù)據(jù)通??煞譃閰^(qū)間標(biāo)度變量、 、 、 、序數(shù)型以及混合類型等。8. 聚類分析中最常用的距離計(jì)算公式有 、 、 等。9. 基于劃分的聚類算法有K均值 和K中心點(diǎn) 。10. 數(shù)據(jù)定義語(yǔ)言(DDL)包括:_create_、_drop_、_alter_、_truncate_、_。11. 數(shù)據(jù)操作語(yǔ)言(DML)包括:_

23、insert_、_update_、_delete_。12. 數(shù)據(jù)控制語(yǔ)言(DCL)包括:_grant_、_revoke_、_create synonym_。13. EXCEL中處理重復(fù)項(xiàng)共有四種方法:_countif函數(shù)_、_高級(jí)篩選_、_條件格式_、_去除重復(fù)項(xiàng)_。五、簡(jiǎn)答題(每題4分,共16分)1.名詞解釋:孤立點(diǎn)、頻繁項(xiàng)集、支持度、可信度、關(guān)聯(lián)規(guī)則1. 孤立點(diǎn):指數(shù)據(jù)庫(kù)中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。2. 頻繁項(xiàng)集:指滿足最小支持度的項(xiàng)集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。3. 支持度:規(guī)則AB的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P(AB),是AB同時(shí)發(fā)生的

24、次數(shù)與事件總次數(shù)之比。支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量。4. 可信度:規(guī)則AB的可信度指的是包含A項(xiàng)集的同時(shí)也包含B項(xiàng)集的條件概率P(B|A),是AB同時(shí)發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比。可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。2. 在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個(gè)數(shù)據(jù)庫(kù)中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù),減少算法的計(jì)算量,提高挖掘效率

25、和準(zhǔn)確程度。3.簡(jiǎn)述處理空缺值的方法。 忽略該記錄; 去掉屬性; 手工填寫空缺值; 使用默認(rèn)值; 使用屬性平均值; 使用同類樣本平均值; 預(yù)測(cè)最可能的值。4.請(qǐng)說出常用的四種數(shù)據(jù)分析方法論P(yáng)EST分析法、5W2H分析法、邏輯樹分析法、4P營(yíng)銷理論、用戶行為理論六、計(jì)算題(每題5分,共20分)1、設(shè)某事務(wù)項(xiàng)集構(gòu)成如下表,填空完成其中支持度和置信度的計(jì)算。事務(wù)ID項(xiàng)集L2支持度%規(guī)則置信度%T1A, DA, B33.3AB50T2D, EA, C33.3CA60T3A, C, EA, D44.4AD66.7T4A, B, D, EB, D33.3BD75T5A, B, CC, D33.3CD60T

26、6A, B, DD, E33.3DE43T7A, C, DT8C, D, ET9B, C, D2. 簡(jiǎn)述K-中心點(diǎn)算法的輸入、輸出及聚類過程(流程)。輸入:結(jié)果簇的數(shù)目k,包含n個(gè)對(duì)象的數(shù)據(jù)集輸出:k個(gè)簇,使得所有對(duì)象與其最近中心點(diǎn)的相異度總和最小。流程: 隨機(jī)選擇k個(gè)對(duì)象作為初始中心點(diǎn); 計(jì)算其它對(duì)象與這k個(gè)中心的距離,然后把每個(gè)對(duì)象歸入離它“最近”的簇; 隨機(jī)地選擇一個(gè)非中心點(diǎn)對(duì)象Orandom,并計(jì)算用Orandom代替Oj的總代價(jià)S; 如果S<0,則用Orandom代替Oj,形成新的k個(gè)中心點(diǎn)集合;重復(fù)迭代第3、4步,直到中心點(diǎn)不變?yōu)橹埂?. 為管理崗位業(yè)務(wù)培訓(xùn)信息,建立3個(gè)表:

27、 S (S#,SN,SD,SA) S#,SN,SD,SA 分別代表學(xué)號(hào)、學(xué)員姓名、所屬單位、學(xué)員年齡 C (C#,CN ) C#,CN 分別代表課程編號(hào)、課程名稱 SC ( S#,C#,G ) S#,C#,G 分別代表學(xué)號(hào)、所選修的課程編號(hào)、學(xué)習(xí)成績(jī)1. 使用標(biāo)準(zhǔn)SQL嵌套語(yǔ)句查詢選修課程名稱為稅收基礎(chǔ)的學(xué)員學(xué)號(hào)和姓名 -實(shí)現(xiàn)代碼: Select SN,SD FROM S Where S# IN( Select S# FROM C,SC Where C.C#=SC.C# AND CN=N'稅收基礎(chǔ)') 2. 使用標(biāo)準(zhǔn)SQL嵌套語(yǔ)句查詢選修課程編號(hào)為C2的學(xué)員姓名和所屬單位 -實(shí)

28、現(xiàn)代碼: Select S.SN,S.SD FROM S,SC Where S.S#=SC.S# AND SC.C#='C2' 3. 使用標(biāo)準(zhǔn)SQL嵌套語(yǔ)句查詢不選修課程編號(hào)為C5的學(xué)員姓名和所屬單位 -實(shí)現(xiàn)代碼: Select SN,SD FROM S Where S# NOT IN( Select S# FROM SC Where C#='C5') 4. 使用標(biāo)準(zhǔn)SQL嵌套語(yǔ)句查詢選修全部課程的學(xué)員姓名和所屬單位 -實(shí)現(xiàn)代碼: Select SN,SD FROM S Where S# IN( Select S# FROM SC RIGHT JOIN C ON

29、 SC.C#=C.C# GROUP BY S# HAVING COUNT(*)=COUNT(S#) 5. 查詢選修課程超過5門的學(xué)員學(xué)號(hào)和所屬單位 -實(shí)現(xiàn)代碼: Select SN,SD FROM S Where S# IN( Select S# FROM SC GROUP BY S# HAVING COUNT(DISTINCT C#)>5)4. 問題描述: 已知關(guān)系模式: S (SNO,SNAME) 學(xué)生關(guān)系。SNO 為學(xué)號(hào),SNAME 為姓名 C (CNO,CNAME,CTEACHER) 課程關(guān)系。CNO 為課程號(hào),CNAME 為課程名,CTEACHER 為任課教師 SC(SNO,CNO,SCGRADE) 選課關(guān)系。SCGRADE 為成績(jī) 1. 找出沒有選修過“李明”老師講授課程的所有學(xué)生姓名 -實(shí)現(xiàn)代碼: Select SNAME FROM S Where NOT EXISTS( Select * FROM SC,C Where SC.CNO=C.CNO AND CNAME='李明' AND SC.SNO=S.SNO) 2. 列出有二門以上(含兩門)不及格課程的學(xué)生姓名及其平均成績(jī) -實(shí)現(xiàn)代碼: Select S.SN

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論