2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試近5年真題集錦(頻考類試題)帶答案_第1頁
2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試近5年真題集錦(頻考類試題)帶答案_第2頁
2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試近5年真題集錦(頻考類試題)帶答案_第3頁
2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試近5年真題集錦(頻考類試題)帶答案_第4頁
2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試近5年真題集錦(頻考類試題)帶答案_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

(圖片大小可自由調整)2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試近5年真題集錦(頻考類試題)帶答案第I卷一.參考題庫(共100題)1.在聚類分析當中,簇內的相似性越大,簇間的差別越大,聚類的效果就越差。2.下面屬于維歸約常用的線性代數(shù)技術的有()。A、主成分分析B、特征提取C、奇異值分解D、特征加權E、離散化3.一個數(shù)據(jù)庫有5個事務,如表所示。設min_sup=60%,min_conf=80%。 (a)分別用Apriori算法和FP-growth算法找出所有頻繁項集。比較兩種挖掘方法的效率。 (b)比較窮舉法和Apriori算法生成的候選項集的數(shù)量。 (c)利用(1)所找出的頻繁項集,生成所有的強關聯(lián)規(guī)則和對應的支持度和置信度。4.列舉離群點挖掘的常見應用。5.簡述缺失值的處理方法。6.數(shù)據(jù)倉庫在技術上的工作過程是()。A、數(shù)據(jù)的抽取B、存儲和管理C、數(shù)據(jù)的表現(xiàn)D、數(shù)據(jù)倉庫設計7.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。8.數(shù)據(jù)倉庫發(fā)展演變的5個階段是什么?9.以下屬于可伸縮聚類算法的是()。A、CUREB、DENCLUEC、CLIQUED、OPOSSUM10.簡述數(shù)據(jù)的定義及類型。11.簡述K-中心點算法的輸入、輸出及聚類過程(流程)。12.離群點可以是合法的數(shù)據(jù)對象或者值。13.圖挖掘技術在社會網(wǎng)絡分析中扮演了重要的角色。14.簡述基于劃分的聚類方法。劃分的準則是什么?15.數(shù)據(jù)倉庫的數(shù)據(jù)量通常較大,且數(shù)據(jù)一般很少更新,可以通過設計和優(yōu)化()結構來提高數(shù)據(jù)存取性能。16.以下哪種聚類方法可以發(fā)現(xiàn)任意形狀的聚類?()A、劃分的方法B、基于模型的方法C、基于密度的方法D、層次的方法17.數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是()A、數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內容B、捕捉到的新數(shù)據(jù)會覆蓋原來的快照C、數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內容D、數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合18.關于OLAP的特性,下面正確的是:()。 (1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)19.為什么要進行維歸約?20.數(shù)據(jù)挖掘處理的對象有哪些?請從實際生活中舉出至少三種。21.數(shù)據(jù)離散度的常用度量包括()22.數(shù)據(jù)挖掘的目標不在于數(shù)據(jù)采集策略,而在于對于已經(jīng)存在的數(shù)據(jù)進行模式的發(fā)掘。23.從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。24.下面的數(shù)據(jù)操作中,哪些操作不是多維數(shù)據(jù)模型上的OLAP操作?()A、上卷(roll-up)B、選擇(select)C、切片(slice)D、轉軸(pivot)25.幫助市場分析人員從客戶的基本信息庫中發(fā)現(xiàn)不同的客戶群,通常所使用的數(shù)據(jù)挖掘功能是()。A、關聯(lián)分析B、分類和預測C、聚類分析D、孤立點分析E、演變分析26.當維表中的主鍵在事實表中沒有與外鍵關聯(lián)時,這樣的維稱為()。它于事實表并無關系,但有時在查詢限制條件中需要用到。27.關于數(shù)據(jù)倉庫的設計,四種不同的視圖必須考慮,分別是:()、()、()、()28.什么是分類?分類的應用領域有哪些?29.分類器設計階段包含三個過程:劃分數(shù)據(jù)集、分類器構造和()30.以下哪個指標不是表示對象間的相似度和相異度?()A、Euclidean距離B、Manhattan距離C、Eula距離D、Minkowski距離31.根據(jù)特征選擇過程與后續(xù)數(shù)據(jù)挖掘任務的關聯(lián)可分為三種方法:()。根據(jù)是否用到類信息的指導,分為(),()和()特征選擇,32.將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?()A、頻繁模式挖掘B、分類和預測C、數(shù)據(jù)預處理D、數(shù)據(jù)流挖掘33.什么是基于像素的可視化技術?它有什么缺點?34.為什么時間總是數(shù)據(jù)倉庫或數(shù)據(jù)集市的維?35.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于()的離群點檢測。A、統(tǒng)計方法B、鄰近度C、密度D、聚類技術36.簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對產(chǎn)生數(shù)據(jù)的目標要求。37.確定了數(shù)據(jù)倉庫的粒度模型以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)擁護需求設計()38.數(shù)據(jù)集如下表所示: (a)把每一個事務作為一個購物籃,計算項集{e},{b,d}和{b,d,e}的支持度。 (b)利用(a)中結果計算關聯(lián)規(guī)則{b,d}→{e}和{e}→{b,d}的置信度。置信度是一個對稱的度量嗎? (c)把每一個用戶購買的所有商品作為一個購物籃,計算項集{e},{b,d}和{b,d,e}的支持度。 (d)利用(b)中結果計算關聯(lián)規(guī)則{b,d}→{e}和?{e}→{b,d}的置信度。置信度是一個對稱的度量嗎?39.哪種OLAP操作可以讓用戶在更高的抽象層,更概化的審視數(shù)據(jù)?()A、上卷B、下鉆C、切塊D、轉軸40.怎樣從歷史數(shù)據(jù)中訓練出結點之間的條件概率或聯(lián)合條件概率?41.某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?()A、關聯(lián)規(guī)則發(fā)現(xiàn)B、聚類C、分類D、自然語言處理42.數(shù)據(jù)挖掘應用和一些常見的數(shù)據(jù)統(tǒng)計分析系統(tǒng)的最主要區(qū)別在于()。A、所涉及的算法的復雜性B、所涉及的數(shù)據(jù)量C、計算結果的表現(xiàn)形式D、是否使用了人工智能技術43.業(yè)務元數(shù)據(jù)主要包含的內容是什么?44.當前的數(shù)據(jù)挖掘研究中,最主要的三個研究方向是:()、()和()45.數(shù)據(jù)倉庫的()通常采用星型圖法來進行設計,要求將星型的各類邏輯實體完整地描述出來。46.下列關于分類和聚類哪個描述是正確的?()A、分類和聚類都是有指導的學習B、分類和聚類都是無指導的學習C、分類是有指導的學習,聚類是無指導的學習D、分類是無指導的學習,聚類是有指導的學習47.假設描述學生的信息包含屬性:性別,籍貫,年齡。有兩條記錄p、q及兩個簇C1、C2的信息如下,分別求出記錄和簇彼此之間的距離。(k-means算法的拓展) p={男,廣州,18},q={女,深圳,20} C1={男:25,女:5;廣州:20,深圳:6,韶關:4;19} C2={男:3,女:12;汕頭:12,深圳:1,湛江:2;24}48.下面哪種分類方法是屬于神經(jīng)網(wǎng)絡學習算法?()A、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理49.什么是聚類?簡單描述如下的聚類方法:劃分方法,層次方法,基于密度的方法,基于模型的方法。為每類方法給出例子。50.簡述決策樹的構建。51.粒度是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個衡量。粒度越小,細節(jié)程度越高,綜合程度越低,回答查詢的種類()52.通過數(shù)據(jù)挖掘過程所推倒出的關系和摘要經(jīng)常被稱為:()。A、模型B、模式C、模范D、模具53.下列()不是將主觀信息加入到模式發(fā)現(xiàn)任務中的方法。A、與同一時期其他數(shù)據(jù)對比B、可視化C、基于模板的方法D、主觀興趣度量54.在判定樹歸納中,為什么樹剪枝是有用的?55.分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。56.下面哪些問題是我們進行數(shù)據(jù)預處理的原因?()A、數(shù)據(jù)中的空缺值B、噪聲數(shù)據(jù)C、數(shù)據(jù)中的不一致性D、數(shù)據(jù)中的概念分層57.數(shù)據(jù)倉庫中存在不同綜合級別的數(shù)據(jù)。一般把數(shù)據(jù)分成4個級別:()、當前細節(jié)級、輕度綜合級和高度綜合級。58.()這些數(shù)據(jù)特性都是對聚類分析具有很強影響的。A、高維性B、規(guī)模C、稀疏性D、噪聲和離群點59.如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應類的一次投票,然后計票確定測試記錄的類標號,稱為()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則60.設X={1,2,3}是頻繁項集,則可由X產(chǎn)生()個關聯(lián)規(guī)則。A、4B、5C、6D、761.數(shù)據(jù)倉庫系統(tǒng)的體系結構根據(jù)應用需求的不同,可以分為以下4種類型:()、獨立型數(shù)據(jù)集合、以來型數(shù)據(jù)結合和操作型數(shù)據(jù)存儲和邏輯型數(shù)據(jù)集中和實時數(shù)據(jù)倉庫。62.下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術:()。A、等高線圖B、餅圖C、曲面圖D、矢量場圖63.非頻繁模式()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關模式D、對異常數(shù)據(jù)項敏感64.大型數(shù)據(jù)庫中的關聯(lián)規(guī)則挖掘包含兩個過程()和()65.簡述處理空缺值的方法。66.從應用的角度看,數(shù)據(jù)倉庫的發(fā)展演變可以歸納為5個階段:以報表為主、()、以預測模型為主、以運營導向為主和以實時數(shù)據(jù)倉庫和自動決策為主。67.聚類分析中常見的數(shù)據(jù)類型有哪些?68.樸素貝葉斯分類是基于()假設。69.()通過將屬性域劃分為區(qū)間,從而減少給定連續(xù)值的個數(shù)。A、概念分層B、離散化C、分箱D、直方圖70.ROLAP是基于()的OLAP實現(xiàn),而MOLAP是基于多維數(shù)據(jù)結構組織的OLAP實現(xiàn)。71.Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預測另一個屬性,它在驗證用戶提出的假設過程中提取信息。72.什么是關聯(lián)規(guī)則?關聯(lián)規(guī)則的應用有哪些?73.考慮值集{12,24,33,2,4,55,68,26},其四分位數(shù)極差是:()。A、31B、24C、55D、374.K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。75.簡述數(shù)據(jù)倉庫的組成。76.以下哪個聚類算法不屬于基于網(wǎng)格的聚類算法()。A、STINGB、WaveClusterC、MAFIAD、BIRCH77.關于OLAP的特性,下面正確的是() (1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)78.什么是聚類分析?聚類分析的應用領域有哪些?79.層次聚類方法包括哪些?80.簡述數(shù)據(jù)挖掘的任務。81.簡述k-means算法,層次聚類算法的優(yōu)缺點。82.置信度(confidence)是衡量興趣度度量()的指標。A、簡潔性B、確定性C、實用性D、新穎性83.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用合并策略,由候選產(chǎn)生過程得到4-項集不包含()。A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,584.在基本K均值算法里,當鄰近度函數(shù)采用()的時候,合適的質心是簇中各點的中位數(shù)。A、曼哈頓距離B、平方歐幾里德距離C、余弦距離D、Bregman散度85.數(shù)據(jù)的預處理方法有哪些?86.以下哪些原因可能引起空缺值?()A、設備異常B、命名規(guī)則的不一致C、與其他已有數(shù)據(jù)不一致而被刪除D、在輸入時,有些數(shù)據(jù)因為得不到重視而沒有被輸入87.從結構的角度看,數(shù)據(jù)倉庫模型包括以下幾類?()A、企業(yè)倉庫B、數(shù)據(jù)集市C、虛擬倉庫D、信息倉庫88.對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對分類結果沒有影響。89.給定由兩次運行K均值產(chǎn)生的兩個不同的簇集,誤差的平方和最大的那個應該被視為較優(yōu)。90.在聚類分析當中,()等技術可以處理任意形狀的簇。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Chameleon91.一個對象的離群點得分是該對象周圍密度的逆。這是基于()的離群點定義。A、概率B、鄰近度C、密度D、聚類92.以下屬于分類器評價或比較尺度的有()。A、預測準確度B、召回率C、模型描述的簡潔度D、計算復雜度93.從信息處理角度看,神經(jīng)元具有哪些基本特征?寫出描述神經(jīng)元狀態(tài)的M-P方程并說明其含義。94.什么是技術元數(shù)據(jù)?主要包含的內容是什么?95.以下哪個范圍是數(shù)據(jù)倉庫的數(shù)據(jù)庫規(guī)模的一個合理范圍?()A、1-100MB、100M-10GC、10-1000GD、100GB-數(shù)TB96.考慮下表數(shù)據(jù)集,請完成以下問題: (1)估計條件概率。 (2)根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預測測試樣本(A=0,B=1,C=0)的類標號; (3)使用Laplace估計方法,其中p=1/2,l=4,估計條件概率。 (4)同(2),使用(3)中的條件概率。 (5)比較估計概率的兩種方法,哪一種更好,為什么?97.如果葉貝斯網(wǎng)絡的各個結點都沒有任何證據(jù),從歷史數(shù)據(jù)中如何用兩種不同的方法得到各個結點的發(fā)生概率?98.著名的數(shù)據(jù)倉庫系統(tǒng)設計師W.H.Inmon認為,數(shù)據(jù)倉庫與其他數(shù)據(jù)存儲系統(tǒng)的區(qū)別的四個特征是:()、()、()和()99.依據(jù)類信息可利用的程度,離群點挖掘可分為哪三種基本方法?100.模式為對數(shù)據(jù)集的全局性總結,它對整個測量空間的每一點做出描述;模型則對變量變化空間的一個有限區(qū)域做出描述。第I卷參考答案一.參考題庫1.參考答案:錯誤2.參考答案:A,C3.參考答案:(a)頻繁1-項集:M,O,K,E,Y 頻繁2-項集:{M,K},{O,K},{O,E},{K,Y},{K,E} 頻繁3-項集:{O,K,E} (b)窮舉法:M=2k-1=211-1=2047 Apriori算法:23 (c){O,K}—>{E},支持度0.6,置信度1 {O,E}—>{k},支持度0.6,置信度14.參考答案: 1,欺詐檢測; 2,網(wǎng)絡入侵; 3,故障診斷; 4,可疑金融交易監(jiān)控5.參考答案:(分析時)忽略元組,(分析時)忽略屬性列,(估計缺失值)人工填寫缺失數(shù)據(jù),(估計缺失值)自動填充缺失數(shù)據(jù)。6.參考答案:A,B,C,D7.參考答案:8.參考答案:以報表為主; 以分析為主; 以預測模型為主; 以運行向導為主以實時數(shù)據(jù)倉庫; 自動決策應用為主。9.參考答案:A10.參考答案:數(shù)據(jù)及數(shù)據(jù)類型:數(shù)據(jù)是數(shù)據(jù)庫存儲的基本對象,數(shù)據(jù)類型:標稱屬性,序數(shù)屬性,區(qū)間屬性,比率屬性。11.參考答案:12.參考答案:正確13.參考答案:正確14.參考答案: 基于劃分的聚類方法:給頂一個n個對象或元組的數(shù)據(jù)庫,一個劃分方法構建數(shù)據(jù)的k個劃分,每個劃分表示一個簇,丙炔k《=n。劃分方法要求每個組至少包含一個對象并且每個對象屬于且僅數(shù)以一個組。聚類目標可以是最優(yōu)化某種量度,比如最小化數(shù)據(jù)點與類中心的距離平方和等。 劃分準則是同一個聚類中的對象盡可能的接近或相關,不同聚類中的對象盡可能的遠離或不同。15.參考答案:索引16.參考答案:C17.參考答案:C18.參考答案:D19.參考答案:維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率。20.參考答案:數(shù)據(jù)挖掘處理的對象是某一專業(yè)領域中積累的數(shù)據(jù),對象既可以來自社會科學,又可以來自自然科學產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測得到的數(shù)據(jù)。數(shù)據(jù)形式和結構也各不相同,可以是傳統(tǒng)的關系數(shù)據(jù)庫,可以是面向對象的高級數(shù)據(jù)庫系統(tǒng),也可以是面向特殊應用的數(shù)據(jù)庫,如空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等,還可以是Web數(shù)據(jù)信息。 實際生活的例子: ①電信行業(yè)中利用數(shù)據(jù)挖掘技術進行客戶行為分析,包含客戶通話記錄、通話時間、所開通的服務等,據(jù)此進行客戶群體劃分以及客戶流失性分析。 ②天文領域中利用決策樹等數(shù)據(jù)挖掘方法對上百萬天體數(shù)據(jù)進行分類與分析,幫助天文學家發(fā)現(xiàn)其他未知星體。 ③制造業(yè)中應用數(shù)據(jù)挖掘技術進行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。 ④市場業(yè)中應用數(shù)據(jù)挖掘技術進行市場定位、消費者分析、輔助制定市場營銷策略等。21.參考答案:極差、分位數(shù)、四分位數(shù)、百分位數(shù)、四分位數(shù)極差和標準差22.參考答案:正確23.參考答案:錯誤24.參考答案:B25.參考答案:C26.參考答案:退化維27.參考答案:自上向下視圖;數(shù)據(jù)源視圖;數(shù)據(jù)倉庫視圖;商務查詢視圖28.參考答案: 分類是指把數(shù)據(jù)樣本映射到一個事先定義的類中的學習過程,即給定一組輸入的屬性向量及其對應的類,用基于歸納的學習算法得出分類。 分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學、文本挖掘、因特網(wǎng)篩選等領域都有廣泛應用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進行分類,從而采取有效措施減小銀行的損失;在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細胞和癌變細胞進行分類,從而及時制定救治方案,挽救病人的生命。29.參考答案:分類器測試30.參考答案:C31.參考答案:過濾,封裝和嵌入;監(jiān)督式;無監(jiān)督式;半監(jiān)督式32.參考答案:C33.參考答案:對于一個M維數(shù)據(jù)集,基于像素的可視化技術在屏幕上創(chuàng)建m個窗口,每維一個。記錄的m個維值映射到這些窗口對應位置上的m個像素。像素的顏色反映對應的值?;谙袼氐目梢暬夹g的缺點;難以呈現(xiàn)對維空間的數(shù)據(jù)分布,不顯示數(shù)據(jù)子空間是否存在稠密區(qū)域。34.參考答案:因為數(shù)據(jù)倉庫或數(shù)據(jù)集市的數(shù)據(jù)總是歷史的數(shù)據(jù),需要時間維來區(qū)別。35.參考答案:A36.參考答案:ETL軟件的主要功能: 數(shù)據(jù)的抽取,數(shù)據(jù)的轉換,數(shù)據(jù)的加載; 對產(chǎn)生數(shù)據(jù)的目標要求: 詳細的、歷史的、規(guī)范化的、可理解的、即時的、質量可控制的。37.參考答案:聚合模型38.參考答案: (c)如果把每一個用戶購買所有的所有商品作為一個購物籃,則 (d)利用c中結果計算關聯(lián)規(guī)則{b,d}→{e}和{e}→{b,d}的置信度,則 置信度不是一個對稱的度量39.參考答案:A40.參考答案:要訓練條件概率P(B|A),可以在歷史數(shù)據(jù)中統(tǒng)計A發(fā)生的次數(shù)T(A),然后統(tǒng)計在A發(fā)生的數(shù)據(jù)中B發(fā)生的次數(shù)T(A,B),條件概率P(B|A)=T(B)/T(A)。要訓練聯(lián)合條件概率P(C|A,B),可以在歷史數(shù)據(jù)中統(tǒng)計A、B共同發(fā)生的次數(shù)T(A,B),然后在A、B共同發(fā)生的數(shù)據(jù)中統(tǒng)計C發(fā)生的次數(shù)T(A,B,C),聯(lián)合條件概率P(C|A,B)=T(A,B,C)/T(A,B)。以上的符號A、B、C可以表示某個事件,也可以表示該事件的相反事件。41.參考答案:A42.參考答案:B43.參考答案:業(yè)務元數(shù)據(jù):從業(yè)務角度描述了DW中的數(shù)據(jù),提供了介于使用者和實際系統(tǒng)之間的語義層,主要包括: 1.使用者的業(yè)務屬于所表達的數(shù)據(jù)模型、對象名和屬性名。 2.訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源。 3.系統(tǒng)提供的分析方法及公式和報表的信息。44.參考答案:統(tǒng)計學;數(shù)據(jù)路技術;機器學習45.參考答案:邏輯模型46.參考答案:C47.參考答案:取x=1,得到的各距離如下: d(p,q)=1+1+20-18=4 d(p,C1)=(1-25/30)+(1-20/30)+(19-18)=1.5 d(p,C2)=(1-3/15)+(1-0/15)+(24-18)=7.8 d(q,C1)=(1-5/30)+(1-6/30)+(20-19)=79/30 d(q,C2)=(1-12/15)+(1-1/15)+(24-20)=77/15 d(C1,C2)=[1-(25*3+5*12)/(30*15)]+[1-(6*1)/(30*15)]+(24-19)=1003/15048.參考答案:C49.參考答案:聚類是將數(shù)據(jù)劃分為相似對象組的過程,使得同一組中對象相似度最大而不同組中對象相似度最小。主要有以下幾種類型方法: (1)劃分方法 給定一個有N個元組或者記錄的數(shù)據(jù)集,分裂法將構造K個分組,每一個分組就代表一個聚類,K50.參考答案:1)屬性的選擇(很重要,一般要最大限度地增大樣本集純度) 2)獲得大小適合的決策樹 3)使用ID3等經(jīng)典算法構建決策樹51.參考答案:越多52.參考答案:A,B53.參考答案:A54.參考答案:決策樹建立時,血多分析反映的是訓練數(shù)據(jù)中的噪聲和離群點點,樹剪枝可以識別并剪去這種分枝,以提高對未知數(shù)據(jù)分類的準確性。55.參考答案:正確56.參考答案:A,B,C57.參考答案:早期細節(jié)級58.參考答案:A,B,C,D59.參考答案:A60.參考答案:C61.參考答案:兩層架構62.參考答案:B63.參考答案:A,D64.參考答案:找出所有頻繁項集;由頻繁項集產(chǎn)生強關聯(lián)規(guī)則65.參考答案: ①忽略該記錄; ②去掉屬性; ③手工填寫空缺值; ④使用默認值; ⑤使用屬性平均值; ⑥使用同類樣本平均值。66.參考答案:以分析為主67.參考答案:常見數(shù)據(jù)類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數(shù)型以及混合類型等。68.參考答案:類條件獨立69.參考答案:B70.參考答案:關系數(shù)據(jù)庫71.參考答案:錯誤72.參考答案: 關聯(lián)規(guī)則挖掘是用來發(fā)現(xiàn)超級市場中用戶購買的商品之間的隱含關聯(lián)關系,并用規(guī)則的形式表示出來,稱為關聯(lián)規(guī)則(AssociationRule)。 關聯(lián)規(guī)則的應用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡故障分析等。73.參考答案:A74.參考答案:錯誤75.參考答案:數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布系統(tǒng)。76.參考答案:D77.參考答案:D78.參考答案: 聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個類別的過程,聚類之后的每個類別中任意兩個數(shù)據(jù)樣本之間具有較高的相似度,不同類別的數(shù)據(jù)樣本之間具有較低的相似度。 聚類分析在科學數(shù)據(jù)分析、商業(yè)、生物學、醫(yī)療診斷、文本挖掘、Web數(shù)據(jù)挖掘等域都有廣泛應用。在商業(yè)領域,聚類可以幫助市場分析人員對客戶的基本數(shù)據(jù)進行分析,發(fā)現(xiàn)購買模式不同的客戶群,從而協(xié)助市場調整銷售計劃;在文本挖掘和Web數(shù)據(jù)挖掘領域中,聚類可以將網(wǎng)站數(shù)據(jù)按照讀者的興趣度進行劃分,有助于網(wǎng)站內容的改進。79.參考答案:層次聚類方法包括凝聚型和分解型兩中層次聚類方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論