2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試歷年真摘選題含答案_第1頁
2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試歷年真摘選題含答案_第2頁
2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試歷年真摘選題含答案_第3頁
2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試歷年真摘選題含答案_第4頁
2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試歷年真摘選題含答案_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試歷年真摘選題含答案(圖片大小可自由調(diào)整)第1卷一.參考題庫(共100題)1.建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、根據(jù)內(nèi)容檢索B、建模描述C、預(yù)測建模D、尋找模式和規(guī)則2.數(shù)據(jù)挖掘處理的對象有哪些?請從實際生活中舉出至少三種。3.對于下圖所示的正傾斜數(shù)據(jù),中位數(shù)、平均值、眾數(shù)三者之間的關(guān)系是()A、中位數(shù)=平均值=眾數(shù);B、中位數(shù)>平均值>眾數(shù);C、平均值>中位數(shù)>眾數(shù);D、眾數(shù)>中位數(shù)>平均值4.先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。5.簡述雪花模型。6.為什么要關(guān)注離群點?7.SVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器(minimalmarginclassifier)。8.聚類分析包括連續(xù)型、二值離散型、()和混合類型4種類型描述屬性的相似度計算方法。9.根據(jù)關(guān)聯(lián)分析中所涉及的抽象層,可以將關(guān)聯(lián)規(guī)則分類為()。A、布爾關(guān)聯(lián)規(guī)則B、單層關(guān)聯(lián)規(guī)則C、多維關(guān)聯(lián)規(guī)則D、多層關(guān)聯(lián)規(guī)則10.關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是()A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)C、OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D、OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的11.在聚類分析當中,()等技術(shù)可以處理任意形狀的簇。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Chameleon12.什么是決策節(jié)點?13.OLAP14.考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是()。A、2B、3C、3.5D、515.以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標準?() (1)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。 (2)描述有多少比例的小偷給警察抓了的標準。A、Precision,RecallB、Recall,PrecisionC、Precision,ROCD、Recall,ROC16.在多維關(guān)聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁項集,而是()17.簡述數(shù)據(jù)倉庫設(shè)計的三級模型的基本內(nèi)容。18.ROLAP是基于()的OLAP實現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組織的OLAP實現(xiàn)。19.設(shè)X={1,2,3}是頻繁項集,則可由X產(chǎn)生()個關(guān)聯(lián)規(guī)則。A、4B、5C、6D、720.規(guī)則:age(X,”19-25”)∧buys(X,“popcorn”)=>buys(X,“coke”)是一個()。A、單維關(guān)聯(lián)規(guī)則B、多維關(guān)聯(lián)規(guī)則C、混合維關(guān)聯(lián)規(guī)則D、不是一個關(guān)聯(lián)規(guī)則21.以下是哪一個聚類算法的算法流程()。 ①構(gòu)造k-最近鄰圖。 ②使用多層圖劃分算法劃分圖。 ③repeat:合并關(guān)于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。 ④until:不再有可以合并的簇。A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)22.從信息處理角度看,神經(jīng)元具有哪些基本特征?寫出描述神經(jīng)元狀態(tài)的M-P方程并說明其含義。23.聚類分析常作為一個獨立的工具來獲得()24.數(shù)據(jù)立方體度量可以根據(jù)其所使用的聚集函數(shù)分為三類,分別是:()、()和()25.下面關(guān)于數(shù)據(jù)粒度的描述不正確的是()A、粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別B、數(shù)據(jù)越詳細,粒度就越小,級別也就越高C、數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D、粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量26.從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。27.從應(yīng)用的角度看,數(shù)據(jù)倉庫的發(fā)展演變可以歸納為5個階段:以報表為主、()、以預(yù)測模型為主、以運營導(dǎo)向為主和以實時數(shù)據(jù)倉庫和自動決策為主。28.數(shù)據(jù)聚合需要考慮的問題有哪些?29.下面關(guān)于Jarvis-Patrick(JP)聚類算法的說法不正確的是()。A、JP聚類擅長處理噪聲和離群點,并且能夠處理不同大小、形狀和密度的簇B、JP算法對高維數(shù)據(jù)效果良好,尤其擅長發(fā)現(xiàn)強相關(guān)對象的緊致簇C、JP聚類是基于SNN相似度的概念D、JP聚類的基本時間復(fù)雜度為O(m)30.Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性,它在驗證用戶提出的假設(shè)過程中提取信息。31.孤立點32.數(shù)據(jù)挖掘33.簡述數(shù)據(jù)挖掘的過程。34.如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則35.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:()。A、特征提取B、特征修改C、映射數(shù)據(jù)到新的空間D、特征構(gòu)造36.分類的過程包括獲取數(shù)據(jù)、預(yù)處理、分類器設(shè)計和()37.通過聚集多個分類器的預(yù)測來提高分類準確率的技術(shù)稱為()。A、組合(ensemble)B、聚集(aggregate)C、合并(combination)D、投票(voting)38.簡述數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系?39.當前的數(shù)據(jù)挖掘研究中,最主要的三個研究方向是:()、()和()40.Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。41.某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?()A、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B、聚類C、分類D、自然語言處理42.孤立點是指:()43.模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述;模型則對變量變化空間的一個有限區(qū)域做出描述。44.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。45.數(shù)據(jù)集分為三類:()。46.數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法是什么?47.序列數(shù)據(jù)沒有時間戳。48.什么是ETL?49.在項目實施時,根據(jù)事實表的特點和擁護的查詢需求,可以選用()、業(yè)務(wù)類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型。50.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。51.為什么說數(shù)據(jù)倉庫具有隨時間而變化的特征?52.評估分類模型的性能的方法有哪些?53.比較統(tǒng)計學(xué)與數(shù)據(jù)挖掘的異同?54.請談一下你對元數(shù)據(jù)管理在數(shù)據(jù)倉庫中的運用的理解。55.考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應(yīng)該選擇()的相似度計算方法。A、平方歐幾里德距離B、余弦距離C、直接相似度D、共享最近鄰56.使用星型模式可以從一定程度上()查詢效率。因為星型模式中數(shù)據(jù)的組織已經(jīng)經(jīng)過預(yù)處理,主要數(shù)據(jù)都在龐大的事實表中。57.簡述K-平均算法的輸入、輸出及聚類過程(流程)。58.下面屬于定量的屬性類型是:()。A、標稱B、序數(shù)C、區(qū)間D、相異59.SQLServerSSAS提供了所有業(yè)務(wù)數(shù)據(jù)的同意整合試圖,可以作為傳統(tǒng)報表、()、關(guān)鍵性能指示器記分卡和數(shù)據(jù)挖掘的基礎(chǔ)。60.項集的頻率是指()61.如何提高Apriori算法的有效性?有哪些常見方法?62.定量屬性可以是整數(shù)值或者是連續(xù)值。63.數(shù)據(jù)挖掘要解決的問題是什么?64.試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法(update-driven),而不愿使用查詢驅(qū)動(query-driven)的方法?65.頻繁項集66.什么是數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程?67.以下哪些是數(shù)據(jù)倉庫的主要應(yīng)用?()A、信息處理B、互聯(lián)網(wǎng)搜索C、分析處理D、數(shù)據(jù)挖掘68.Aprior算法包括()和()兩個基本步驟69.假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元組中age的值如下(按遞增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a)使用按箱平均值平滑對以上數(shù)據(jù)進行平滑,箱的深度為3。解釋你的步驟。評論對于給定的數(shù)據(jù),該技術(shù)的效果。 (b)對于數(shù)據(jù)平滑,還有哪些其它方法?70.為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、探索性數(shù)據(jù)分析B、建模描述C、預(yù)測建模D、尋找模式和規(guī)則71.數(shù)據(jù)挖掘?qū)垲惖牡湫鸵笥心男?2.根據(jù)規(guī)則中所處理的值類型,關(guān)聯(lián)規(guī)則可分為:()和()73.簡述基于劃分的聚類方法。劃分的準則是什么?74.()都屬于分裂的層次聚類算法。A、二分K均值B、MSTC、ChameleonD、組平均75.常用的數(shù)值屬性概念分層的方法有哪些?76.關(guān)于數(shù)據(jù)倉庫的設(shè)計,四種不同的視圖必須考慮,分別是:()、()、()、()77.已知數(shù)據(jù)元組中age的值如下(按遞增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a)使用min-max規(guī)范化,將age值35轉(zhuǎn)換到[0.0,1.0]區(qū)間。 (b)使用z-score規(guī)范化轉(zhuǎn)換age值35,其中,age的標準偏差為12.94年。 (c)使用小數(shù)定標規(guī)范化轉(zhuǎn)換age值35。78.使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、探索性數(shù)據(jù)分析B、建模描述C、預(yù)測建模D、尋找模式和規(guī)則79.下面選項中t不是s的子序列的是()。A、s=,t=B、s=,t=C、s=,t=D、s=,t=80.何謂粒度?它對數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?81.按照事實表中度量的可加性情況,可以把事實表對應(yīng)的事實分為4種類型:()、快照事實、線性項目事實和事件事實。82.調(diào)和數(shù)據(jù)是存儲在()數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲中的數(shù)據(jù)。83.比較OLAP的數(shù)據(jù)模型MOLAP與ROLAP?84.進行數(shù)據(jù)預(yù)處理時所使用的主要方法包括:()、()、()和()85.數(shù)據(jù)分類模型的常用表示形式包括()、()等。86.什么是用戶信息需求表(信息包圖法)?它為什么適用于數(shù)據(jù)倉庫的概念模型的設(shè)計?87.簡述數(shù)據(jù)倉庫4種體系結(jié)構(gòu)的異同點以其適用性。88.根據(jù)顧客的收入和職業(yè)情況,預(yù)測他們在計算機設(shè)備上的花費,所使用的相應(yīng)數(shù)據(jù)挖掘功能是()。A、關(guān)聯(lián)分析B、分類和預(yù)測C、演變分析D、概念描述89.簡述Apriori算法的思想,談?wù)勗撍惴ǖ膽?yīng)用領(lǐng)域。90.求和函數(shù)sum()是一個()的函數(shù)。91.下面的數(shù)據(jù)挖掘的任務(wù)中,()將決定所使用的數(shù)據(jù)挖掘功能。A、選擇任務(wù)相關(guān)的數(shù)據(jù)B、選擇要挖掘的知識類型C、模式的興趣度度量D、模式的可視化表示92.K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。93.簡述數(shù)據(jù)倉庫的組成。94.下列度量不具有反演性的是()。A、系數(shù)B、幾率C、Cohen度量D、興趣因子95.為什么在進行聯(lián)機分析處理(OLAP)時,我們需要一個獨立的數(shù)據(jù)倉庫,而不是直接在日常操作的數(shù)據(jù)庫上進行。96.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指()A、基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息97.數(shù)據(jù)處理通常分成兩大類:聯(lián)機事務(wù)處理和()98.考慮兩隊之間的足球比賽:隊0和隊1。假設(shè)65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為()。A、0.75B、0.35C、0.4678D、0.573899.數(shù)據(jù)倉庫中間層OLAP服務(wù)器只能采用關(guān)系型OLAP。100.數(shù)據(jù)庫中的知識挖掘(KDD)包括以下七個步驟:()、()、()、()、()、()和()第1卷參考答案一.參考題庫1.正確答案:C2.正確答案:數(shù)據(jù)挖掘處理的對象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù),對象既可以來自社會科學(xué),又可以來自自然科學(xué)產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測得到的數(shù)據(jù)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫,可以是面向?qū)ο蟮母呒墧?shù)據(jù)庫系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫,如空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等,還可以是Web數(shù)據(jù)信息。 實際生活的例子: ①電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進行客戶行為分析,包含客戶通話記錄、通話時間、所開通的服務(wù)等,據(jù)此進行客戶群體劃分以及客戶流失性分析。 ②天文領(lǐng)域中利用決策樹等數(shù)據(jù)挖掘方法對上百萬天體數(shù)據(jù)進行分類與分析,幫助天文學(xué)家發(fā)現(xiàn)其他未知星體。 ③制造業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。 ④市場業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進行市場定位、消費者分析、輔助制定市場營銷策略等。3.正確答案:C4.正確答案:錯誤5.正確答案:雪花模式中某些維表是規(guī)范化的,因而把數(shù)據(jù)進一步分解到附加的表中,模式圖形成了類似雪花的形狀。通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復(fù)雜性,但同時提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設(shè)要求。6.正確答案:在一些應(yīng)用領(lǐng)域中,識別離群點是許多工作的基礎(chǔ)和前提。一般地,離群點可能對應(yīng)于稀有事件或異常行為,所以,離群點的挖掘會給我們帶來新的視角和發(fā)現(xiàn),離群點往往具有特殊的意義和很高的實用價值,需要對其進行認真審視和研究,因為它們表示一種偏差或新的模式的開始,這可能會對用戶帶來危害,或造成巨大損失。7.正確答案:錯誤8.正確答案:多值離散型9.正確答案:B,D10.正確答案:C11.正確答案:A,D12.正確答案:代表某個測試,通常對應(yīng)帶分類對象的某個屬性。該屬性上的不同測試結(jié)果對應(yīng)一個分支。13.正確答案:OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的,以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理,是共享多維信息的快速分析,是被專門設(shè)計用于支持復(fù)雜的分析操作,側(cè)重對分析人員和高層管理人員的決策支持。14.正確答案:C15.正確答案:A16.正確答案:頻繁謂詞集17.正確答案: (1)概念模型設(shè)計是在較高的抽象層次上的設(shè)計,其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。 (2)邏輯模型設(shè)計的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。 (3)物理數(shù)據(jù)模型設(shè)計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。18.正確答案:關(guān)系數(shù)據(jù)庫19.正確答案:C20.正確答案:B21.正確答案:C22.正確答案: 基本特征: ①多輸入、單輸出; ②突觸兼有興奮和抑制兩種性能; ③可時間加權(quán)和空間加權(quán); ④可產(chǎn)生脈沖; ⑤脈沖可進行傳遞; ⑥非線性,有閾值。 M-P方程:,Wij是神經(jīng)元之間的連接強度,是閾值,f(x)是階梯函數(shù)。23.正確答案:數(shù)據(jù)分布的情況24.正確答案:分布的;代數(shù)的;整體的25.正確答案:C26.正確答案:錯誤27.正確答案:以分析為主28.正確答案:(1)模式識別:這主要是實體識別問題; (2)冗余:一個屬性是冗余的,即它能由另一個表導(dǎo)出,如果屬性或維的命名不一致,也可能導(dǎo)致冗余,可以用相關(guān)分析來檢測; (3)數(shù)據(jù)值沖突的檢測與處理:有些屬性因表示比例或編碼不同,會導(dǎo)致屬性不同。29.正確答案:D30.正確答案:錯誤31.正確答案:指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。32.正確答案:從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。33.正確答案:數(shù)據(jù)清洗,數(shù)據(jù)集成(考慮數(shù)據(jù)一致性和冗余),數(shù)據(jù)選擇,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)挖掘,模式評估,知識表示。34.正確答案:D35.正確答案:B36.正確答案:分類決策37.正確答案:A38.正確答案:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘都是決策支持新技術(shù)。但它們有著完全不同的輔助決策方式。在數(shù)據(jù)倉庫系統(tǒng)的前端的分析工具中,數(shù)據(jù)挖掘是其中重要工具之一。它可以幫助決策用戶挖掘數(shù)據(jù)倉庫的數(shù)據(jù)中隱含的規(guī)律性。39.正確答案:統(tǒng)計學(xué);數(shù)據(jù)路技術(shù);機器學(xué)習(xí)40.正確答案:錯誤41.正確答案:A42.正確答案:一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)43.正確答案:錯誤44.正確答案: 1,忽略元組。當類標號缺少是通常這么做,當每個屬性缺省值的百分比變化很大時,他的效果非常差。 2,人工填寫空缺值。這種方法工作量大,可行性低。 3,使用一個全局變量填充空缺值。 4,使用屬性的平均值填充空缺值。 5,使用與給定元組屬同一類的所有樣本的平均值。 6,使用最可能的值填充空缺值。45.正確答案:記錄數(shù)據(jù),基于圖形的數(shù)據(jù)和有序的數(shù)據(jù)集46.正確答案:SQL命令(如Insert或Update) 由DW供應(yīng)商或第三方提供專門的加載工具 由DW管理員編寫自定義程序47.正確答案:正確48.正確答案: E.TL用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。 E.TL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。49.正確答案:時間50.正確答案:51.正確答案: 1,數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng)主要保存當前數(shù)據(jù),而數(shù)據(jù)倉庫從歷史的角度提供信息。 2,數(shù)據(jù)倉庫中的每一個關(guān)鍵結(jié)構(gòu)都隱式或顯式的包含時間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包含時間元素。52.正確答案:(1)保持方法:以無放回抽樣方式把數(shù)據(jù)集分為兩個相互獨立的子集,訓(xùn)練集(2/3)和測試集(1/3); (2)隨機子抽樣:保持方法的多次迭代; (3)k-折交叉驗證。53.正確答案: 統(tǒng)計學(xué)主要是對數(shù)量數(shù)據(jù)(數(shù)值)或連續(xù)值數(shù)據(jù)(如年齡、工資等),進行數(shù)值計算(如初等運算)的定量分析,得到數(shù)量信息。 數(shù)據(jù)挖掘主要對離散數(shù)據(jù)(如職稱、病癥等)進行定性分析(覆蓋、歸納等),得到規(guī)則知識。 統(tǒng)計學(xué)與數(shù)據(jù)挖掘是有區(qū)別的。但是,它們之間是相互補充的。54.正確答案: 元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維護,如關(guān)于數(shù)據(jù)項存儲方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問數(shù)據(jù)。具體來說,在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機制主要支持以下五類系統(tǒng)管理功能: (1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中; (2)定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù); (3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排; (4)記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況; (5)衡量數(shù)據(jù)質(zhì)量。55.正確答案:D56.正確答案:提高57.正確答案:58.正確答案:C59.正確答案:在線分析處理60.正確答案:包含項集的事務(wù)數(shù)61.正確答案: 可以使用一下幾個思路來提升Apriori算法:減少對數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項集;改進對候選項集的支持度計算方法。 常見方法包括: 1,基于hash表的項集計數(shù); 2,事務(wù)壓縮; 3,劃分; 4,選樣; 5,動態(tài)項集計數(shù)。62.正確答案:正確63.正確答案:面對高維,復(fù)雜,異構(gòu)的海量數(shù)據(jù),如何集中獲取有用的信息和知識。64.正確答案:因為對于多個異種信息源的集成慢查詢驅(qū)動方法需要負責的信息過濾盒集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源,是一種低效的方法,并且對于頻繁的查詢,特別是需要聚集操作的查詢,開銷很大,而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中,進行查詢的同時并不影響局部數(shù)據(jù)源上進行的處理。此外,數(shù)據(jù)倉庫存儲并集成歷史信息,支持復(fù)雜的多維查詢。65.正確答案:指滿足最小支持度的項集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。66.正確答案: 數(shù)據(jù)的ETL過程就是負責將操作型數(shù)據(jù)轉(zhuǎn)換成調(diào)和數(shù)據(jù)的過程。數(shù)據(jù)調(diào)和是構(gòu)建一個數(shù)據(jù)倉庫中最難的和最具技術(shù)挑戰(zhàn)性的部分。在為企業(yè)級數(shù)據(jù)倉庫填充數(shù)據(jù)的過程中,數(shù)據(jù)調(diào)和可分為兩個階段:一是企業(yè)級數(shù)據(jù)倉庫(EDW)首次創(chuàng)建時的原始加載;二是接下來的定期修改,以保持EDW的當前有效性和擴展性。 整個過程由四個步驟組成:抽取、清洗、轉(zhuǎn)換、加載和索引。事實上,這些步驟可以進行不同的組合,如,可以將數(shù)據(jù)抽取與清洗組合為一個過程,或者將清洗和轉(zhuǎn)換組合在一起。67.正確答案:A,C,D68.正確答案:連接;剪枝69.正確答案:(a)已知數(shù)據(jù)元組中age的值如下(按遞增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度為3,劃分為(等頻)箱: (b)對于數(shù)據(jù)平滑,其它方法有: (1)回歸:可以用一個函數(shù)(如回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù); (2)聚類:可以通過聚類檢測離群點,將類似的值組織成群或簇。直觀地,落在簇集合之外的值視為離群點。70.正確答案:B71.正確答案:1)可伸縮性 2)處理不同類型屬性的能力 3)發(fā)現(xiàn)任意形狀的聚類 4)用于決定輸入?yún)?shù)的領(lǐng)域知識最小化 5)處理噪聲數(shù)據(jù)的能力 6)對輸入記錄的順序不敏感 7)高維度 8)基于約束的聚類 9)可解釋性和可用性72.正確答案:布爾關(guān)聯(lián)規(guī)則;量化關(guān)聯(lián)規(guī)則73.正確答案: 基于劃分的聚類方法:給頂一個n個對象或元組的數(shù)據(jù)庫,一個劃分方法構(gòu)建數(shù)據(jù)的k個劃分,每個劃分表示一個簇,丙炔k《=n。劃分方法要求每個組至少包含一個對象并且每個對象屬于且僅數(shù)以一個組。聚類目標可以是最優(yōu)化某種量度,比如最小化數(shù)據(jù)點與類中心的距離平方和等。 劃分準則是同一個聚類中的對象盡可能的接近或相關(guān),不同聚類中的對象盡可能的遠離或不同。74.正確答案:A,B75.正確答案:分箱、直方圖分析,聚類分析,基于熵的離散化和通過自然劃分分段。76.正確答案:自上向下視圖;數(shù)據(jù)源視圖;數(shù)據(jù)倉庫視圖;商務(wù)查詢視圖77.正確答案:(a)已知最大值為70,最小值為13,則可將35規(guī)范化為: (b)已知均值為30,標準差為12.94,則可將35規(guī)范化為: (c)使用小數(shù)定標規(guī)范化可將35規(guī)范化為:35/100=0.3578.正確答案:A79.正確答案:C80.正確答案: 粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。 粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細節(jié)程度。 按粒度組織數(shù)據(jù)的方式主要有: ①簡單堆積結(jié)構(gòu) ②輪轉(zhuǎn)綜合結(jié)構(gòu) ③簡單直接結(jié)構(gòu) ④連續(xù)結(jié)構(gòu)81.正確答案:事務(wù)事實82.正確答案:企業(yè)級83.正確答案: MOLAP是事先生成多維立方體,供以后查詢分析用,而ROLAP是通過動態(tài)的生成Sql,去做查詢關(guān)系型數(shù)據(jù)庫,如果沒有做性能優(yōu)化,數(shù)據(jù)量很大的時候,性能問題就會顯得比較突出了。 84.正確答案:數(shù)據(jù)清理;數(shù)據(jù)集成;數(shù)據(jù)變換;數(shù)據(jù)規(guī)約85.正

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論