




已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫就是一個(gè)面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合。2、元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),它為訪問數(shù)據(jù)倉庫提供了一個(gè)信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉庫的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。3、數(shù)據(jù)處理通常分成兩大類:聯(lián)機(jī)事務(wù)處理和聯(lián)機(jī)分析處理。4、多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋轉(zhuǎn)等各種分析動(dòng)作,以求剖析數(shù)據(jù),使擁護(hù)能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入理解多維數(shù)據(jù)集中的信息。5、ROLAP是基于關(guān)系數(shù)據(jù)庫的OLAP實(shí)現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組織的OLAP實(shí)現(xiàn)。6、數(shù)據(jù)倉庫按照其開發(fā)過程,其關(guān)鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲(chǔ)于管理和數(shù)據(jù)表現(xiàn)等。7、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同,可以分為以下4種類型:兩層架構(gòu)、獨(dú)立型數(shù)據(jù)集合、以來型數(shù)據(jù)結(jié)合和操作型數(shù)據(jù)存儲(chǔ)和邏輯型數(shù)據(jù)集中和實(shí)時(shí)數(shù)據(jù)倉庫。8、操作型數(shù)據(jù)存儲(chǔ)實(shí)際上是一個(gè)集成的、面向主題的、可更新的、當(dāng)前值的(但是可“揮發(fā)”的)、企業(yè)級的、詳細(xì)的數(shù)據(jù)庫,也叫運(yùn)營數(shù)據(jù)存儲(chǔ)。9、“實(shí)時(shí)數(shù)據(jù)倉庫”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務(wù)和倉庫倉庫之間以一個(gè)接近實(shí)時(shí)的速度交換數(shù)據(jù)和業(yè)務(wù)規(guī)則。10、從應(yīng)用的角度看,數(shù)據(jù)倉庫的發(fā)展演變可以歸納為5個(gè)階段:以報(bào)表為主、以分析為主、以預(yù)測模型為主、以運(yùn)營導(dǎo)向?yàn)橹骱鸵詫?shí)時(shí)數(shù)據(jù)倉庫和自動(dòng)決策為主。1、調(diào)和數(shù)據(jù)是存儲(chǔ)在企業(yè)級數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)。2、抽取、轉(zhuǎn)換、加載過程的目的是為決策支持應(yīng)用提供一個(gè)單一的、權(quán)威數(shù)據(jù)源。因此,我們要求ETL過程產(chǎn)生的數(shù)據(jù)(即調(diào)和數(shù)據(jù)層)是詳細(xì)的、歷史的、規(guī)范的、可理解的、即時(shí)的和質(zhì)量可控制的。3、數(shù)據(jù)抽取的兩個(gè)常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數(shù)據(jù)倉庫,增量抽取用于進(jìn)行數(shù)據(jù)倉庫的維護(hù)。4、粒度是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個(gè)衡量。粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多。5、使用星型模式可以從一定程度上提高查詢效率。因?yàn)樾切湍J街袛?shù)據(jù)的組織已經(jīng)經(jīng)過預(yù)處理,主要數(shù)據(jù)都在龐大的事實(shí)表中。6、維度表一般又主鍵、分類層次和描述屬性組成。對于主鍵可以選擇兩種方式:一種是采用自然鍵,另一種是采用代理鍵。7、雪花型模式是對星型模式維表的進(jìn)一步層次化和規(guī)范化來消除冗余的數(shù)據(jù)。8、數(shù)據(jù)倉庫中存在不同綜合級別的數(shù)據(jù)。一般把數(shù)據(jù)分成4個(gè)級別:早期細(xì)節(jié)級、當(dāng)前細(xì)節(jié)級、輕度綜合級和高度綜合級。1、SQL Server SSAS提供了所有業(yè)務(wù)數(shù)據(jù)的同意整合試圖,可以作為傳統(tǒng)報(bào)表、在線分析處理、關(guān)鍵性能指示器記分卡和數(shù)據(jù)挖掘的基礎(chǔ)。2、數(shù)據(jù)倉庫的概念模型通常采用信息包圖法來進(jìn)行設(shè)計(jì),要求將其5個(gè)組成部分(包括名稱、維度、類別、層次和度量)全面地描述出來。3、數(shù)據(jù)倉庫的邏輯模型通常采用星型圖法來進(jìn)行設(shè)計(jì),要求將星型的各類邏輯實(shí)體完整地描述出來。4、按照事實(shí)表中度量的可加性情況,可以把事實(shí)表對應(yīng)的事實(shí)分為4種類型:事務(wù)事實(shí)、快照事實(shí)、線性項(xiàng)目事實(shí)和事件事實(shí)。5、確定了數(shù)據(jù)倉庫的粒度模型以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)擁護(hù)需求設(shè)計(jì)聚合模型。6、在項(xiàng)目實(shí)施時(shí),根據(jù)事實(shí)表的特點(diǎn)和擁護(hù)的查詢需求,可以選用時(shí)間、業(yè)務(wù)類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型。7、當(dāng)維表中的主鍵在事實(shí)表中沒有與外鍵關(guān)聯(lián)時(shí),這樣的維稱為退化維。它于事實(shí)表并無關(guān)系,但有時(shí)在查詢限制條件(如訂單號碼、出貨單編號等)中需要用到。8、維度可以根據(jù)其變化快慢分為元變化維度、緩慢變化維度和劇烈變化維度三類。9、數(shù)據(jù)倉庫的數(shù)據(jù)量通常較大,且數(shù)據(jù)一般很少更新,可以通過設(shè)計(jì)和優(yōu)化索引結(jié)構(gòu)來提高數(shù)據(jù)存取性能。10、數(shù)據(jù)倉庫數(shù)據(jù)庫常見的存儲(chǔ)優(yōu)化方法包括表的歸并與簇文件、反向規(guī)范化引入冗余、表的物理分割(分區(qū))。第四章1、關(guān)聯(lián)規(guī)則的經(jīng)典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。2、如果L2=a,b,a,c,a,d,b,c,b,d,則連接產(chǎn)生的C3=a,b,c,a,b,d,a,c,d,b,c,d再經(jīng)過修剪,C3=a,b,c,a,b,d3、設(shè)定supmin=50%,交易集如則L1=A,B,C L2=A,CT1 A B CT2 A CT3 A D T4 B E F1、分類的過程包括獲取數(shù)據(jù)、預(yù)處理、分類器設(shè)計(jì)和分類決策。2、分類器設(shè)計(jì)階段包含三個(gè)過程:劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造和分類器測試。3、分類問題中常用的評價(jià)準(zhǔn)則有精確度、查全率和查準(zhǔn)率和集合均值。4、支持向量機(jī)中常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)和S型核函數(shù)。1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度計(jì)算方法。2、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、劃分聚類方法對數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn):選種某種距離作為數(shù)據(jù)樣本減的相似性度量、選擇評價(jià)聚類性能的準(zhǔn)則函數(shù)和選擇某個(gè)初始分類,之后用迭代的方法得到聚類結(jié)果,使得評價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值。4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。1、數(shù)據(jù)倉庫的組成?P2數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布系統(tǒng)2、數(shù)據(jù)挖掘技術(shù)對聚類分析的要求有哪幾個(gè)方面?P131可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對先驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性3、數(shù)據(jù)倉庫在存儲(chǔ)和管理方面的特點(diǎn)與關(guān)鍵技術(shù)?P7數(shù)據(jù)倉庫面對的是大量數(shù)據(jù)的存儲(chǔ)與管理并行處理針對決策支持查詢的優(yōu)化支持多維分析的查詢模式4、常見的聚類算法可以分為幾類?P132基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法,基于模型的聚類算法 等。5、一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)的組成?P12數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、OLAP服務(wù)器、前端工具與應(yīng)用6、 數(shù)據(jù)倉庫常見的存儲(chǔ)優(yōu)化方法?P71表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、 數(shù)據(jù)倉庫發(fā)展演變的5個(gè)階段?P20以報(bào)表為主以分析為主以預(yù)測模型為主以運(yùn)行向?qū)橹饕詫?shí)時(shí)數(shù)據(jù)倉庫、自動(dòng)決策應(yīng)用為主8、 ID3算法主要存在的缺點(diǎn)?P116(1)ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí),使用信息增益作為評價(jià)標(biāo)準(zhǔn)。信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會(huì)提供太多有價(jià)值的信息。(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。9、 簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30ETL軟件的主要功能:數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加載對產(chǎn)生數(shù)據(jù)的目標(biāo)要求:詳細(xì)的、歷史的、規(guī)范化的、可理解的、即時(shí)的、質(zhì)量可控制的10、 簡述分類器設(shè)計(jì)階段包含的3個(gè)過程。劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,分類器測試11、 什么是數(shù)據(jù)清洗?P33數(shù)據(jù)清洗是一種使用模式識(shí)別和其他技術(shù),在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉庫之前來升級原始數(shù)據(jù)質(zhì)量的技術(shù)。12、 支持度和置信度的計(jì)算公式及數(shù)據(jù)計(jì)算(P90)找出所有的規(guī)則X Y , 使支持度和置信度分別大于門限支持度: 事務(wù)中X和Y同時(shí)發(fā)生的比例,P(X Y)置信度:項(xiàng)集X發(fā)生時(shí),Y同時(shí)發(fā)生的條件概率P(Y|X)Example:13、利用信息包圖設(shè)計(jì)數(shù)據(jù)倉庫概念模型需要確定的三方面內(nèi)容。P57確定指標(biāo),確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P12815、什么是技術(shù)元數(shù)據(jù),主要包含的內(nèi)容?P29技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),應(yīng)用于開發(fā)、管理和維護(hù)DW,包含:l DW結(jié)構(gòu)的描述,如DW的模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,數(shù)據(jù)集市的位置和內(nèi)容等l 業(yè)務(wù)系統(tǒng)、DW和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式l 匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚合、匯總和預(yù)定義的查詢和報(bào)告。l 由操作型業(yè)務(wù)環(huán)境到數(shù)據(jù)倉庫業(yè)務(wù)環(huán)境的映射。包括源數(shù)據(jù)和他們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清洗、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全(用戶授權(quán)和存取控制)16、業(yè)務(wù)元數(shù)據(jù)主要包含的內(nèi)容?P29業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了DW中的數(shù)據(jù),提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,主要包括:l 使用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)模型、對象名和屬性名l 訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源l 系統(tǒng)提供的分析方法及公式和報(bào)表的信息。17、K-means算法的基本操作步驟(包括算法的輸入和輸出)。P13818、數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法?P36l SQL命令(如Insert或Update)l 由DW供應(yīng)商或第三方提供專門的加載工具l 由DW管理員編寫自定義程序19、多維數(shù)據(jù)模型中的基本概念:維,維類別,維屬性,粒度P37l 維:人們觀察數(shù)據(jù)的特定角度,是考慮問題的一類屬性,如時(shí)間維或產(chǎn)品維l 維類別:也稱維分層。即同一維度還可以存在細(xì)節(jié)程度不同的各個(gè)類別屬性(如時(shí)間維包括年、季度、月等)l 維屬性:是維的一個(gè)取值,是數(shù)據(jù)線在某維中位置的描述。l 粒度:DW中數(shù)據(jù)綜合程度高低的一個(gè)衡量。粒度低,細(xì)節(jié)程度高,回答查詢的種類多 單選題1. 某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A) A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) B. 聚類 C. 分類 D. 自然語言處理2. 以下兩種描述分別對應(yīng)哪兩種對分類算法的評價(jià)標(biāo)準(zhǔn)? (A) (a)警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。 (b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC3. 將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?(C) A. 頻繁模式挖掘 B. 分類和預(yù)測 C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流挖掘4. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B) A. 分類 B. 聚類 C. 關(guān)聯(lián)分析 D. 隱馬爾可夫鏈5. 什么是KDD? (A) A. 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn) B. 領(lǐng)域知識(shí)發(fā)現(xiàn) C. 文檔知識(shí)發(fā)現(xiàn) D. 動(dòng)態(tài)知識(shí)發(fā)現(xiàn)6. 使用交互式的和可視化的技術(shù),對數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A) A. 探索性數(shù)據(jù)分析 B. 建模描述 C. 預(yù)測建模 D. 尋找模式和規(guī)則7. 為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B) A. 探索性數(shù)據(jù)分析 B. 建模描述 C. 預(yù)測建模 D. 尋找模式和規(guī)則8. 建立一個(gè)模型,通過這個(gè)模型根據(jù)已知的變量值來預(yù)測其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C) A. 根據(jù)內(nèi)容檢索 B. 建模描述 C. 預(yù)測建模 D. 尋找模式和規(guī)則9. 用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?(A) A. 根據(jù)內(nèi)容檢索 B. 建模描述 C. 預(yù)測建模 D. 尋找模式和規(guī)則 11.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? (D)A變量代換 B離散化 C 聚集 D 估計(jì)遺漏值 12. 假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第幾個(gè)箱子內(nèi)? (B)A 第一個(gè) B 第二個(gè) C 第三個(gè) D 第四個(gè) 13.上題中,等寬劃分時(shí)(寬度為50),15又在哪個(gè)箱子里? (A)A 第一個(gè) B 第二個(gè) C 第三個(gè) D 第四個(gè) 14.下面哪個(gè)不屬于數(shù)據(jù)的屬性類型:(D)A 標(biāo)稱 B 序數(shù) C 區(qū)間 D相異 15. 在上題中,屬于定量的屬性類型是:(C)A 標(biāo)稱 B 序數(shù) C區(qū)間 D 相異 16. 只有非零值才重要的二元屬性被稱作:( C )A 計(jì)數(shù)屬性 B 離散屬性 C非對稱的二元屬性 D 對稱屬性 17. 以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法: (D)A嵌入 B 過濾 C 包裝 D 抽樣 18.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是: (B)A特征提取 B特征修改 C映射數(shù)據(jù)到新的空間 D特征構(gòu)造 19. 考慮值集1、2、3、4、5、90,其截?cái)嗑担╬=20%)是 (C)A 2 B 3 C 3.5 D 5 20. 下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法? (A)A 傅立葉變換 B特征加權(quán) C 漸進(jìn)抽樣 D維歸約 21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)A 1比特 B 2.6比特 C 3.2比特 D 3.8比特 22. 假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:(D)A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個(gè)箱子值為:(A)A 18.3 B 22.6 C 26.8 D 27.9 24. 考慮值集12 24 33 2 4 55 68 26,其四分位數(shù)極差是:(A)A 31 B 24 C 55 D 3 25. 一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數(shù)是: (A)A 一年級 B二年級 C 三年級 D 四年級 26. 下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù): (B)A 等高線圖 B餅圖 C 曲面圖 D 矢量場圖 27. 在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是: (D)A 有放回的簡單隨機(jī)抽樣 B無放回的簡單隨機(jī)抽樣 C分層抽樣 D 漸進(jìn)抽樣28. 數(shù)據(jù)倉庫是隨著時(shí)間變化的,下面的描述不正確的是 (C)A. 數(shù)據(jù)倉庫隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容;B. 捕捉到的新數(shù)據(jù)會(huì)覆蓋原來的快照;C. 數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;D. 數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合.29. 關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指: (D)A. 基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;B. 基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;C. 基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時(shí)序調(diào)度信息;D. 基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.30. 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是: (C)A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級別;B. 數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越高;C. 數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;D. 粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.31. 有關(guān)數(shù)據(jù)倉庫的開發(fā)特點(diǎn),不正確的描述是: (A)A. 數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);B. 數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;C. 數(shù)據(jù)倉庫的開發(fā)是一個(gè)不斷循環(huán)的過程,是啟發(fā)式的開發(fā);D. 在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式32. 在有關(guān)數(shù)據(jù)倉庫測試,下列說法不正確的是: (D)A. 在完成數(shù)據(jù)倉庫的實(shí)施過程中,需要對數(shù)據(jù)倉庫進(jìn)行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.B. 當(dāng)數(shù)據(jù)倉庫的每個(gè)單獨(dú)組件完成后,就需要對他們進(jìn)行單元測試.C. 系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試和回歸測試.D. 在測試之前沒必要制定詳細(xì)的測試計(jì)劃.33. OLAP技術(shù)的核心是: (D)A. 在線性;B. 對用戶的快速響應(yīng);C. 互操作性.D. 多維分析;34. 關(guān)于OLAP的特性,下面正確的是: (D)(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是: (C)A. OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.B. 與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).C. OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.D. OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的.36. OLAM技術(shù)一般簡稱為”數(shù)據(jù)聯(lián)機(jī)分析挖掘”,下面說法正確的是: (D)A. OLAP和OLAM都基于客戶機(jī)/服務(wù)器模式,只有后者有與用戶的交互性;B. 由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.C. 基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.D. OLAM服務(wù)器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體作一定的操作.37. 關(guān)于OLAP和OLTP的說法,下列不正確的是: (A)A. OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.B. OLAP的最終數(shù)據(jù)來源與OLTP不一樣.C. OLTP面對的是決策人員和高層管理人員.D. OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動(dòng)的.38. 設(shè)X=1,2,3是頻繁項(xiàng)集,則可由X產(chǎn)生_(C)_個(gè)關(guān)聯(lián)規(guī)則。A、4 B、5 C、6 D、7 40. 概念分層圖是_(B)_圖。A、無向無環(huán) B、有向無環(huán) C、有向有環(huán) D、無向有環(huán)41. 頻繁項(xiàng)集、頻繁閉項(xiàng)集、最大頻繁項(xiàng)集之間的關(guān)系是: (C)A、頻繁項(xiàng)集 頻繁閉項(xiàng)集 =最大頻繁項(xiàng)集B、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集C、頻繁項(xiàng)集 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集D、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 = 最大頻繁項(xiàng)集42. 考慮下面的頻繁3-項(xiàng)集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定數(shù)據(jù)集中只有5個(gè)項(xiàng),采用 合并策略,由候選產(chǎn)生過程得到4-項(xiàng)集不包含(C)A、1,2,3,4 B、1,2,3,5 C、1,2,4,5 D、1,3,4,543.下面選項(xiàng)中t不是s的子序列的是 ( C )A、s= t=B、s= t=C、s= t=D、s= t=44. 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為 ( B )A、頻繁子集挖掘 B、頻繁子圖挖掘 C、頻繁數(shù)據(jù)項(xiàng)挖掘 D、頻繁模式挖掘45. 下列度量不具有反演性的是 (D)A、 系數(shù) B、幾率 C、Cohen度量 D、興趣因子46. 下列_(A)_不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。A、與同一時(shí)期其他數(shù)據(jù)對比B、可視化C、基于模板的方法D、主觀興趣度量47. 下面購物籃能夠提取的3-項(xiàng)集的最大數(shù)量是多少(C)ID 購買項(xiàng)1 牛奶,啤酒,尿布2 面包,黃油,牛奶3 牛奶,尿布,餅干4 面包,黃油,餅干5 啤酒,餅干,尿布6 牛奶,尿布,面包,黃油7 面包,黃油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黃油10 啤酒,餅干A、1 B、2 C、3 D、448. 以下哪些算法是分類算法,A,DBSCAN B,C4.5 C,K-Mean D,EM (B)49. 以下哪些分類方法可以較好地避免樣本的不平衡問題, A,KNN B,SVM C,Bayes D,神經(jīng)網(wǎng)絡(luò) (A) 50. 決策樹中不包含一下哪種結(jié)點(diǎn),A,根結(jié)點(diǎn)(root node) B,內(nèi)部結(jié)點(diǎn)(internal node) C,外部結(jié)點(diǎn)(external node) D,葉結(jié)點(diǎn)(leaf node) (C)51. 不純性度量中Gini計(jì)算公式為(其中c是類的個(gè)數(shù)) (A)A, B, C, D, (A)53. 以下哪項(xiàng)關(guān)于決策樹的說法是錯(cuò)誤的 (C)A. 冗余屬性不會(huì)對決策樹的準(zhǔn)確率造成不利的影響 B. 子樹可能在決策樹中重復(fù)多次 C. 決策樹算法對于噪聲的干擾非常敏感 D. 尋找最佳決策樹是NP完全問題54. 在基于規(guī)則分類器的中,依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序,保證每一個(gè)測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為 (B)A. 基于類的排序方案 B. 基于規(guī)則的排序方案 C. 基于度量的排序方案 D. 基于規(guī)格的排序方案。 55. 以下哪些算法是基于規(guī)則的分類器 (A) A. C4.5 B. KNN C. Na?ve Bayes D. ANN56. 如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為(C);A, 無序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則57. 如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)A, 無序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則58. 如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是 (D)A, 無序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則59. 如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應(yīng)類的一次投票,然后計(jì)票確定測試記錄的類標(biāo)號,稱為(A) A, 無序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則60. 考慮兩隊(duì)之間的足球比賽:隊(duì)0和隊(duì)1。假設(shè)65%的比賽隊(duì)0勝出,剩余的比賽隊(duì)1獲勝。隊(duì)0獲勝的比賽中只有30%是在隊(duì)1的主場,而隊(duì)1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊(duì)1的主場進(jìn)行隊(duì)1獲勝的概率為 (C)A,0.75 B,0.35 C,0.4678 D, 0.573861. 以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯(cuò)誤的有 (A)A,神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒 B,可以處理冗余特征 C,訓(xùn)練ANN是一個(gè)很耗時(shí)的過程 D,至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)62. 通過聚集多個(gè)分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為 (A) A,組合(ensemble) B,聚集(aggregate) C,合并(combination) D,投票(voting)63. 簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對象恰在一個(gè)子集中,這種聚類類型稱作( B ) A、層次聚類 B、劃分聚類 C、非互斥聚類 D、模糊聚類64. 在基本K均值算法里,當(dāng)鄰近度函數(shù)采用( A )的時(shí)候,合適的質(zhì)心是簇中各點(diǎn)的中位數(shù)。 A、曼哈頓距離 B、平方歐幾里德距離 C、余弦距離 D、Bregman散度 65.( C )是一個(gè)觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機(jī)制產(chǎn)生的。 A、邊界點(diǎn) B、質(zhì)心 C、離群點(diǎn) D、核心點(diǎn)66. BIRCH是一種( B )。 A、分類器 B、聚類算法 C、關(guān)聯(lián)分析算法 D、特征選擇算法67. 檢測一元正態(tài)分布中的離群點(diǎn),屬于異常檢測中的基于( A )的離群點(diǎn)檢測。 A、統(tǒng)計(jì)方法 B、鄰近度 C、密度 D、聚類技術(shù)68.( C )將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對的平均逐對鄰近度,它是一種凝聚層次聚類技術(shù)。 A、MIN(單鏈) B、MAX(全鏈) C、組平均 D、Ward方法69.( D )將兩個(gè)簇的鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)。 A、MIN(單鏈) B、MAX(全鏈) C、組平均 D、Ward方法70. DBSCAN在最壞情況下的時(shí)間復(fù)雜度是( B )。 A、O(m) B、O(m2) C、O(log m) D、O(m*log m)71. 在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci , C),簇權(quán)值為mi ,那么它的類型是( C )。 A、基于圖的凝聚度 B、基于原型的凝聚度 C、基于原型的分離度 D、基于圖的凝聚度和分離度72. 關(guān)于K均值和DBSCAN的比較,以下說法不正確的是( A )。 A、K均值丟棄被它識(shí)別為噪聲的對象,而DBSCAN一般聚類所有對象。 B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。 C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。 D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇。73. 以下是哪一個(gè)聚類算法的算法流程:構(gòu)造k最近鄰圖。使用多層圖劃分算法劃分圖。repeat:合并關(guān)于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。until:不再有可以合并的簇。( C )。 A、MST B、OPOSSUM C、Chameleon D、JarvisPatrick(JP)74. 考慮這么一種情況:一個(gè)對象碰巧與另一個(gè)對象相對接近,但屬于不同的類,因?yàn)檫@兩個(gè)對象一般不會(huì)共享許多近鄰,所以應(yīng)該選擇( D )的相似度計(jì)算方法。 A、平方歐幾里德距離 B、余弦距離 C、直接相似度 D、共享最近鄰75. 以下屬于可伸縮聚類算法的是( A )。A、CURE B、DENCLUE C、CLIQUE D、OPOSSUM76. 以下哪個(gè)聚類算法不是屬于基于原型的聚類( D )。 A、模糊c均值 B、EM算法 C、SOM D、CLIQUE77. 關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn),下面說法正確的是( B )。 A、當(dāng)簇只包含少量數(shù)據(jù)點(diǎn),或者數(shù)據(jù)點(diǎn)近似協(xié)線性時(shí),混合模型也能很好地處理。 B、混合模型比K均值或模糊c均值更一般,因?yàn)樗梢允褂酶鞣N類型的分布。 C、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。 D、混合模型在有噪聲和離群點(diǎn)時(shí)不會(huì)存在問題。78. 以下哪個(gè)聚類算法不屬于基于網(wǎng)格的聚類算法( D )。 A、STING B、WaveCluster C、MAFIA D、BIRCH79. 一個(gè)對象的離群點(diǎn)得分是該對象周圍密度的逆。這是基于( C )的離群點(diǎn)定義。 A概率 B、鄰近度 C、密度 D、聚類80. 下面關(guān)于JarvisPatrick(JP)聚類算法的說法不正確的是( D )。 A、JP聚類擅長處理噪聲和離群點(diǎn),并且能夠處理不同大小、形狀和密度的簇。 B、JP算法對高維數(shù)據(jù)效果良好,尤其擅長發(fā)現(xiàn)強(qiáng)相關(guān)對象的緊致簇。 C、JP聚類是基于SNN相似度的概念。 D、JP聚類的基本時(shí)間復(fù)雜度為O(m)。三、 判斷題1. 數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。 (對)2. 數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。(對)3. 圖挖掘技術(shù)在社會(huì)網(wǎng)絡(luò)分析中扮演了重要的角色。(對)4. 模式為對數(shù)據(jù)集的全局性總結(jié),它對整個(gè)測量空間的每一點(diǎn)做出描述;模型則對變量變化空間的一個(gè)有限區(qū)域做出描述。(錯(cuò))5. 尋找模式和規(guī)則主要是對數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。(錯(cuò))6. 離群點(diǎn)可以是合法的數(shù)據(jù)對象或者值。(對)7. 離散屬性總是具有有限個(gè)值。(錯(cuò))8. 噪聲和偽像是數(shù)據(jù)錯(cuò)誤這一相同表述的兩種叫法。(錯(cuò))9. 用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。(對)10. 特征提取技術(shù)并不依賴于特定的領(lǐng)域。(錯(cuò))11. 序列數(shù)據(jù)沒有時(shí)間戳。(對)12. 定量屬性可以是整數(shù)值或者是連續(xù)值。(對)13. 可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。(錯(cuò))14. DSS主要是基于數(shù)據(jù)倉庫.聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。(對)15. OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。 (對)16. 商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計(jì)上的主要區(qū)別在于:后者把結(jié)構(gòu)強(qiáng)加于商務(wù)之上,一旦系統(tǒng)設(shè)計(jì)完畢,其程序和規(guī)則不會(huì)輕易改變;而前者則是一個(gè)學(xué)習(xí)型系統(tǒng),能自動(dòng)適應(yīng)商務(wù)不斷變化的要求。 (對)17. 數(shù)據(jù)倉庫中間層OLAP服務(wù)器只能采用關(guān)系型OLAP (錯(cuò))18數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫,倉庫管理,數(shù)據(jù)抽取,分析工具等四個(gè)部分. (錯(cuò))19. Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個(gè)屬性,它在驗(yàn)證用戶提出的假設(shè)過程中提取信息. (錯(cuò))21. 關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。(錯(cuò))22. 利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)(對)。23. 先驗(yàn)原理可以表述為:如果一個(gè)項(xiàng)集是頻繁的,那包含它的所有項(xiàng)集也是頻繁的。(錯(cuò)24. 如果規(guī)則 不滿足置信度閾值,則形如 的規(guī)則一定也不滿足置信度閾值,其中 是X的子集。(對)25. 具有較高的支持度的項(xiàng)集具有較高的置信度。(錯(cuò))26. 聚類(clustering)是這樣的過程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。 (錯(cuò))27. 分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(對)28. 對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對分類結(jié)果沒有影響。 (對)29. Bayes法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。 (錯(cuò))30.分類模型的誤差大致分為兩種:訓(xùn)練誤差(training error)和泛化誤差(generalization error). (對)31. 在決策樹中,隨著樹中結(jié)點(diǎn)數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗(yàn)誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。 (錯(cuò))32. SVM是這樣一個(gè)分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器(minimal margin classifier) (錯(cuò))33. 在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。(錯(cuò))34. 聚類分析可以看作是一種非監(jiān)督的分類。(對)35. K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個(gè)數(shù)由算法自動(dòng)地確定。(錯(cuò)36. 給定由兩次運(yùn)行K均值產(chǎn)生的兩個(gè)不同的簇集,誤差的平方和最大的那個(gè)應(yīng)該被視為較優(yōu)。(錯(cuò))37. 基于鄰近度的離群點(diǎn)檢測方法不能處理具有不同密度區(qū)域的數(shù)據(jù)集。(對)38. 如果一個(gè)對象不強(qiáng)屬于任何簇,那么該對象是基于聚類的離群點(diǎn)。(對)39. 從點(diǎn)作為個(gè)體簇開始,每一步合并兩個(gè)最接近的簇,這是一種分裂的層次聚類方法。(錯(cuò))40. DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。(對)二. 簡答題1. 預(yù)測與分類的區(qū)別是什么?分類是預(yù)測數(shù)據(jù)對象的離散類別,預(yù)測是用于數(shù)據(jù)對象的連續(xù)取值2. 數(shù)據(jù)分類由哪幾步過程組成?第一步,建立一個(gè)模型,描述指定的數(shù)據(jù)類集或概念集;第二步,使用模型進(jìn)行分類。3. ID3算法的核心是什么?在決策樹各級節(jié)點(diǎn)上選擇屬性時(shí),用信息增益作為屬性的選擇標(biāo)準(zhǔn),以使得在每一個(gè)葉節(jié)點(diǎn)進(jìn)行測試時(shí)能獲得關(guān)于被測試記錄最大的類別信息。4. 為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類的主要思想。 樸素貝葉斯分類假定一個(gè)屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?。該假定稱作類條件獨(dú)立。做此假定是為了簡化所需計(jì)算,并在此意義下稱為“樸素的”。 設(shè)為一個(gè)類別未知的數(shù)據(jù)樣本,H為某個(gè)假設(shè),若數(shù)據(jù)樣本X屬于一個(gè)特定的類別C,分類問題就是決定P(H|X),即在獲得數(shù)據(jù)樣本X時(shí)假設(shè)成立的概率。5. 神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)和缺點(diǎn)分別是什么?優(yōu)點(diǎn):其對噪音數(shù)據(jù)的高承受能力,以及它對未經(jīng)過訓(xùn)練的數(shù)據(jù)的分類能力。缺點(diǎn):需要很長的訓(xùn)練時(shí)間,因而對于有足夠長訓(xùn)練時(shí)間的應(yīng)用更合適。6. 典型的數(shù)據(jù)挖掘系統(tǒng)主要由哪幾部分組成?數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫;數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器;知識(shí)庫;數(shù)據(jù)挖掘引擎;圖形用戶界面7. OLAP與OLTP的全稱分別是什么?它們兩者之間的區(qū)別是什么?聯(lián)機(jī)事務(wù)處理OLTP (on-line transaction processing);聯(lián)機(jī)分析處理OLAP (on-line analytical processing);OLTP和OLAP的區(qū)別:用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場;數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù);數(shù)據(jù)庫設(shè)計(jì):OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì),而OLAP系統(tǒng)通常采用星形和雪花模型;視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP 系統(tǒng)主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù);訪問模式:OLTP訪問主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多可能是復(fù)雜的查詢。8. 數(shù)據(jù)倉庫與數(shù)據(jù)集市的區(qū)別是什么?數(shù)據(jù)倉庫收集了關(guān)于整個(gè)組織的主題信息,因此是企業(yè)范圍的。對于數(shù)據(jù)倉庫,通常使用星座模式,因?yàn)樗軐Χ鄠€(gè)相關(guān)的主題建模;數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個(gè)部門子集,它針對選定的主題,因此是部門范圍的。對于數(shù)據(jù)集市,流行星型或雪花模式,因?yàn)樗鼈兌歼m合對單個(gè)主題建模。9. 不完整數(shù)據(jù)的產(chǎn)生原因有哪些?(1) 有些屬性的內(nèi)容有時(shí)沒有(2)有些數(shù)據(jù)當(dāng)時(shí)被認(rèn)為是不必要的(3)由于誤解或檢測設(shè)備失靈導(dǎo)致相關(guān)數(shù)據(jù)沒有記錄下來(4)與其他記錄內(nèi)容不一致而被刪除(5)歷史記錄或?qū)?shù)據(jù)的修改被忽略了。10. 噪聲數(shù)據(jù)的產(chǎn)生原因有哪些?(1)數(shù)據(jù)采集設(shè)備有問題(2)在數(shù)據(jù)錄入過程中發(fā)生了人為或計(jì)算機(jī)錯(cuò)誤(3)數(shù)據(jù)傳輸過程中發(fā)生錯(cuò)誤(4)由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致。11. 對遺漏數(shù)據(jù)有哪些處理方法?忽略該條記錄;手工填補(bǔ)遺漏值;利用默認(rèn)值填補(bǔ)遺漏值;利用均值填補(bǔ)遺漏值;利用同類別均值填補(bǔ)遺漏值;利用最可能的值填充遺漏值。12. 數(shù)據(jù)消減的主要策略有哪些?數(shù)據(jù)立方合計(jì);維數(shù)消減;數(shù)據(jù)壓縮;數(shù)據(jù)塊消減;離散化與概念層次生成。13. 數(shù)據(jù)源對象可以創(chuàng)建幾種不同的安全認(rèn)證選項(xiàng)?4種:使用特定用戶名和密碼;使用服務(wù)賬戶;使用當(dāng)前用戶的憑據(jù);默認(rèn)值。14. 數(shù)據(jù)挖掘?qū)垲惖牡湫鸵笥心男??可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀的聚類;用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)最小化;處理“噪聲”數(shù)據(jù)的能力;對于輸入記錄的順序不敏感;高維度;基于約束的聚類。15. 簡述下列聚類算法劃分方法:給定一個(gè)n個(gè)對象或元組的數(shù)據(jù)庫,一個(gè)劃分方法構(gòu)造數(shù)據(jù)的k個(gè)劃分,每個(gè)劃分表示一個(gè)聚類,并且k n。層次方法:對給定數(shù)據(jù)對象集合進(jìn)行層次的分解?;诿芏鹊姆椒ǎ褐灰桥R近區(qū)域的密度超過某個(gè)閥值,就繼續(xù)聚類?;诰W(wǎng)格的方法:把對象空間量化為有限數(shù)目的單元?;谀P偷姆椒ǎ涸噲D優(yōu)化給定的數(shù)據(jù)和某些數(shù)學(xué)模型之間的適應(yīng)性。三. 計(jì)算題1. 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70(a)使用按箱平均值平滑對以上數(shù)據(jù)進(jìn)行平滑,箱的深度為3。(b)使用按箱邊界值平滑對以上數(shù)據(jù)進(jìn)行平滑,箱的深度為3。例題如下操作:* price 的排序后數(shù)據(jù)(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28,29, 34* 劃分為(等深的)箱:- 箱 1: 4, 8, 9, 15- 箱2: 21, 21, 24, 25- 箱3: 26, 28, 29, 34* 用箱平均值平滑:- 箱 1: 9, 9, 9, 9- 箱 2: 23, 23, 23, 23- 箱 3: 29, 29, 29, 29* 用箱邊界值平滑:- Bin 1: 4, 4, 4, 15- Bin 2: 21, 21, 25, 25- Bin 3: 26, 26, 26, 342. 使用以下age數(shù)據(jù):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70 ,回答以下問題:(a)使用min-max規(guī)范化,將age值35轉(zhuǎn)換到0.0,1.0區(qū)間。(b)使用z-score規(guī)范化轉(zhuǎn)換age值35,其中,age的標(biāo)準(zhǔn)偏差為12.94年。(c)使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age值35。(d)畫一個(gè)寬度為10的等寬的直方圖。例題如下操作:1. 大最小規(guī)格化:規(guī)格化對原始數(shù)據(jù)進(jìn)行線性變換。假定min A和max A分別為屬性A的最小和最大值,最大最小規(guī)格化方法通過計(jì)算將A的值v映射到區(qū)間new _minA,new _max A中的v。例3.1假定屬性income的最小與最大值分別為$12,000和$98,000。我們想映射income(income值為$73,600)到區(qū)間0,1。2. 零均值規(guī)格化:屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)范化。A的值v被規(guī)范化為v,由下式計(jì)算:其中,A和 A分別為屬性A的平均值和標(biāo)準(zhǔn)差。當(dāng)屬性A的最大和最小值未知,或局外者左右了最小最大規(guī)格化時(shí),該方法是有用的。例3.2 假定屬性income的平均值和標(biāo)準(zhǔn)差分別為$54,000和$16,000。使用零均值規(guī)格化方法,值$73,600被轉(zhuǎn)換為什么?3. 數(shù)點(diǎn)規(guī)格化:屬性A的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化。小數(shù)點(diǎn)的移動(dòng)位數(shù)依賴于A的最大絕對值。A的值v被規(guī)范化為v,由下式計(jì)算:其中,j是使得Max(|v|)1的最小整數(shù)。例3.3假定A的值由-986到917。A的最大絕對值為986。為使用十基數(shù)變換規(guī)格化方法,-986被規(guī)范化為多少?29. 用1,000(即,j=3)除每個(gè)值。這樣,-986被規(guī)范化為-0.986。填空:數(shù)據(jù)倉庫的四個(gè)基本特征是指數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的、集成的、不可更新的和隨時(shí)間不斷變化的。OLAP的實(shí)現(xiàn)方式有以下兩種:基于關(guān)系數(shù)據(jù)庫系統(tǒng)的實(shí)現(xiàn)和基于 基于多維數(shù)據(jù)庫系統(tǒng) 的實(shí)現(xiàn)。數(shù)據(jù)從操作型環(huán)境到數(shù)據(jù)倉庫過程中,通常需要進(jìn)行的處理操作有 抽取 、 轉(zhuǎn)化 、 分析 和 模式化處理 。數(shù)據(jù)倉庫中數(shù)據(jù)的分割是指 把數(shù)據(jù)分散到各自的物理單元中,他們能獨(dú)立的處理。 。數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片,數(shù)據(jù)分片的類型有 水平分片、垂直分片 、混合分片和導(dǎo)出分片等。數(shù)據(jù)倉庫系統(tǒng)是多種技術(shù)的綜合體,它是由 數(shù)據(jù)倉庫,管理部分和分析工具 三部分組成。聚集函數(shù)分為三種類型,分別是 分布的 、 代數(shù)的 、 和 整體的 。粒度是數(shù)據(jù)倉庫的重要概念,粒度越小,數(shù)據(jù)的細(xì)節(jié)程度越 高 ,可以回答查詢的種類就越 少 ,但是查詢效率將會(huì)很低;提高粒度將會(huì)提高查詢效率,在數(shù)據(jù)倉庫中通常采用多重粒度。問答題:操作型數(shù)據(jù)和分析型數(shù)據(jù)的主要區(qū)別是什么?面向分析,分析驅(qū)動(dòng)面向應(yīng)用,事務(wù)驅(qū)動(dòng)面向決策人員,支持管理需要面向操作人員,支持日常操作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 法律服務(wù)行業(yè)法律顧問服務(wù)協(xié)議
- 產(chǎn)業(yè)園物業(yè)服務(wù)合同
- 古詩文登高解讀與教學(xué)方案設(shè)計(jì)
- 個(gè)人權(quán)益保護(hù)網(wǎng)絡(luò)平臺(tái)使用協(xié)議
- 企業(yè)級網(wǎng)絡(luò)安全預(yù)防預(yù)案
- 裝修工程擔(dān)保合同
- 《宋代書法欣賞:大學(xué)書法藝術(shù)課程教案》
- 在線教育行業(yè)分析模擬試題集
- 股權(quán)擔(dān)保協(xié)議書規(guī)范
- 企業(yè)社會(huì)責(zé)任年度演講致辭草稿
- 廣東省廣州市白云區(qū)2023-2024學(xué)年八年級上學(xué)期期末英語試題(答案)
- 2024-2025年第一學(xué)期小學(xué)德育工作總結(jié):點(diǎn)亮德育燈塔引領(lǐng)小學(xué)生全面成長的逐夢之旅
- 2024解析:第二章聲現(xiàn)象-基礎(chǔ)練(解析版)
- 整體法蘭強(qiáng)度校核計(jì)算表(設(shè)計(jì):zxg)
- 《供配電技術(shù)》課件第1章
- 建筑垃圾清理及運(yùn)輸方案
- 2024年甘肅省公務(wù)員錄用考試《行測》真題卷及答案解析
- 2024版Visio入門到精通完整教程
- 2024年團(tuán)??荚嚾雸F(tuán)考試題庫及答案
- 西鐵城手表H149機(jī)芯中文使用說明書
- 2024年執(zhí)業(yè)藥師繼續(xù)教育專業(yè)答案
評論
0/150
提交評論