




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》復(fù)習(xí)大綱考試時(shí)間與地點(diǎn):課程名稱任課教師數(shù)周幾第幾節(jié)考試地點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘吳靜12信技1-25421153-4L1208考試題型:一、單項(xiàng)選擇題(10×2分=20分二、推斷題(10×2分=20分三、簡(jiǎn)答題(5×6分=30分四、分析計(jì)算題(3×10分=30分考試范圍:考點(diǎn):1、數(shù)據(jù)挖掘、學(xué)問(wèn)覺(jué)察(KDD根本概念;2、數(shù)據(jù)挖掘的過(guò)程;復(fù)習(xí)參考題:一、填空題(KDD包括以下七個(gè)步驟:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和學(xué)問(wèn)表示。(2數(shù)據(jù)挖掘的性能問(wèn)題主要包括:算法的效率、可擴(kuò)展性和并行處理。,最主要的三個(gè)爭(zhēng)論方向是:統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí)。(4在萬(wàn)維網(wǎng)(WWW上應(yīng)用的數(shù)據(jù)挖掘技術(shù)常被稱為:WEB挖掘。二、單項(xiàng)選擇題(1數(shù)據(jù)挖掘應(yīng)用和一些常見(jiàn)的數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)的最主要區(qū)分在于:B;B、所涉及的數(shù)據(jù)量;C、計(jì)算結(jié)果的表現(xiàn)形式;D、是否使用了人工智能技術(shù)(2孤立點(diǎn)挖掘適用于以下哪種場(chǎng)合?DB、購(gòu)物籃分析C、模式識(shí)別D、信用卡欺詐檢測(cè)(3以下幾種數(shù)據(jù)挖掘功能中,(D被廣泛的應(yīng)用于股票價(jià)格走勢(shì)分析。A.關(guān)聯(lián)分析C.聚類分析D.演化分析B將打算所使用的數(shù)據(jù)挖掘功能。A、選擇任務(wù)相關(guān)的數(shù)據(jù)C、模式的興趣度度量、模式的可視化表示,(A被廣泛的用于購(gòu)物籃分析。A、關(guān)聯(lián)分析C、聚類分析D、演化分析,推測(cè)他們?cè)谟?jì)算機(jī)設(shè)備上的花費(fèi),所使用的相應(yīng)數(shù)據(jù)挖掘功能是B。A.關(guān)聯(lián)分析C.演化分析D.概念描述,通常所使用的數(shù)據(jù)挖掘功能是C。A.關(guān)聯(lián)分析C.聚類分析D.孤立點(diǎn)分析E.演化分析,通常所使用的數(shù)據(jù)挖掘功能是(EA.關(guān)聯(lián)分析孤立點(diǎn)分析演化分析概念描述三、簡(jiǎn)答題1、何謂數(shù)據(jù)挖掘?它有哪些方面的功能?答:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的名稱有學(xué)問(wèn)覺(jué)察、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。:概念描述、關(guān)聯(lián)分析、分類與推測(cè)、聚類分析、趨勢(shì)分析、孤立點(diǎn)分析以及偏差分析等。2、一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)包括哪些組成局部?答:一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)包括以下局部:;(2數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)效勞器;(3學(xué)問(wèn)庫(kù);(4數(shù)據(jù)挖掘引擎;(5模式評(píng)估模塊;3、請(qǐng)列舉數(shù)據(jù)挖掘應(yīng)用常見(jiàn)的數(shù)據(jù)源。(或者說(shuō),我們都在什么樣的數(shù)據(jù)上進(jìn)展數(shù)據(jù)挖掘答:常見(jiàn)的數(shù)據(jù)源包括關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)和高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)。其中高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)包括:空間數(shù)據(jù)庫(kù)、時(shí)間數(shù)據(jù)庫(kù)和-關(guān)系數(shù)據(jù)庫(kù)、異種數(shù)據(jù)庫(kù)和遺產(chǎn)(legacy數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)(WWW等。4、在哪些狀況下,我們認(rèn)為所挖掘出來(lái)的模式是好玩的?答:一個(gè)模式是好玩的,假設(shè)(1它易于被人理解;(2在某種程度上,對(duì)于的或測(cè)試數(shù)據(jù)是有效的;(3具有潛在效用;(4穎的;(5符合用戶確信的某種假設(shè)。5、依據(jù)挖掘的學(xué)問(wèn)類型,我們可以將數(shù)據(jù)挖掘系統(tǒng)分為哪些類別?答:依據(jù)挖掘的學(xué)問(wèn)類型,數(shù)據(jù)挖掘系統(tǒng)可以分為特征分析,區(qū)分,關(guān)聯(lián)分析,分類聚類,孤立點(diǎn)分析/演化分析,偏差分析,多種方法的集成和多層級(jí)挖掘等類型??键c(diǎn):1、什么是數(shù)據(jù)預(yù)處理,為什么要對(duì)數(shù)據(jù)進(jìn)展預(yù)處理?2、數(shù)據(jù)預(yù)處理的方法有哪些?3、在數(shù)據(jù)預(yù)處理過(guò)程中度量中心趨勢(shì)里中位數(shù)、眾數(shù)等如何求取的?4、度量數(shù)據(jù)離散度時(shí)如何求取極差、五數(shù)概括(基于四分位數(shù)、中間四分位數(shù)極差和標(biāo)準(zhǔn)差?5、在消退數(shù)據(jù)的噪聲時(shí),承受的分箱技術(shù)中如何對(duì)數(shù)據(jù)進(jìn)展等頻(等深劃分,如何進(jìn)展等寬劃分?6、什么是數(shù)據(jù)變換?如何使用“最小-最大標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化”方法、“z-score標(biāo)準(zhǔn)化”方法以及“小數(shù)定標(biāo)標(biāo)準(zhǔn)化”這三種方法將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間里。復(fù)習(xí)參考題:一、填空題(1進(jìn)展數(shù)據(jù)預(yù)處理時(shí)所使用的主要方法包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。:分箱、聚類、計(jì)算機(jī)和人工檢查結(jié)合、回歸。:整合不同數(shù)據(jù)源中的元數(shù)據(jù),實(shí)體識(shí)別問(wèn)題。(4數(shù)據(jù)概化是指:沿概念分層向上概化。(5數(shù)據(jù)壓縮可分為:有損壓縮和無(wú)損壓縮兩種類型。:線性回歸方法,多元回歸和對(duì)數(shù)線性模型。二、單項(xiàng)選擇題(1數(shù)據(jù)歸約的目的是(C。A、填補(bǔ)數(shù)據(jù)種的空缺值D、標(biāo)準(zhǔn)化數(shù)據(jù),消退數(shù)據(jù)噪聲?A.數(shù)據(jù)清理B.數(shù)據(jù)集成C.數(shù)據(jù)變換A。A.去掉數(shù)據(jù)中的噪聲B.對(duì)數(shù)據(jù)進(jìn)展匯總和聚攏,用高層次概念替換低層次“原始”數(shù)據(jù)D.將屬性按比例縮放,使之落入一個(gè)小的特定區(qū)間(4數(shù)據(jù)的噪聲是指(D。B、空缺值D、數(shù)據(jù)變換引起的錯(cuò)誤(5C。B、聚攏D、標(biāo)準(zhǔn)化(6(C通過(guò)將屬性域劃分為區(qū)間,從而削減給定連續(xù)值的個(gè)數(shù)。A.概念分層C.分箱D.直方圖三、分析計(jì)算題118個(gè)成年人年齡和身體脂肪數(shù)據(jù),得到如下結(jié)果:(b繪制年齡和脂肪百分比的盒圖答:2age.age值(以遞增序是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(amin-maxage35變換到[0.0,1.0]區(qū)間。(bz-scoreage35,age12.94歲。(cage35。(d對(duì)于給定的數(shù)據(jù),你情愿使用哪種方法?陳述你的理由。答:3、假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將其劃分成三個(gè)箱。(a等頻(等深劃分。(c聚類。答:技術(shù)考點(diǎn):12、在數(shù)據(jù)倉(cāng)庫(kù)中供給的是聯(lián)機(jī)分析處理(OLAPOLTP有什么區(qū)分?3、傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)分?4、什么是粒度?它對(duì)數(shù)據(jù)倉(cāng)庫(kù)有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?5、什么是數(shù)據(jù)立方體?什么是維?6、OLAP的根本操作有哪些?復(fù)習(xí)參考題:一、填空題(1數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)模型可以有三種不同的形式,分別是:星形模式、雪花模式和事實(shí)星座模式。(2給定根本方體,方體的物化有三種選擇:不物化、局部物化和全物化。(3W.H.Inmon認(rèn)為,數(shù)據(jù)倉(cāng)庫(kù)與其他數(shù)據(jù)存儲(chǔ)系統(tǒng)的區(qū)分的四個(gè)特征是:面對(duì)主題、數(shù)據(jù)集成、隨時(shí)間而變化和數(shù)據(jù)不易喪失。,而日常應(yīng)用數(shù)據(jù)庫(kù)則以只讀查詢?yōu)橹鳌?分別是:分布的、代數(shù)的和整體的。,四種不同的視圖必需考慮,分別是:自頂向下視圖、數(shù)據(jù)源視圖、數(shù)據(jù)倉(cāng)庫(kù)視圖、商務(wù)查詢視圖。(7OLAP效勞器的類型主要包括:OLAP效勞器(ROLAPOLAP效勞器(MOLAPOLAP效勞器(HOLAP。(8sum(是一個(gè)分布的的函數(shù)。二、單項(xiàng)選擇題(1下面的數(shù)據(jù)操作中,OLAP操作(B。B、選擇(selectC、切片(slice(D。A、1~100MC、10~1000GD、100GB~TB:CA、頂點(diǎn)方體D、維操作可以讓用戶在更高的抽象層,更概化的打量數(shù)據(jù)?AA、上卷B、下鉆C、切塊?BA、分布的B、代數(shù)的C、整體的D、混合的(1OLAPOLTP系統(tǒng)的主要區(qū)分包括(ABD。系統(tǒng)主要用于治理當(dāng)前數(shù)據(jù),OLAP系統(tǒng)主要存放的是歷史數(shù)據(jù);B、在數(shù)據(jù)的存取上,OLTPOLAP系統(tǒng)有著更多的寫操作;COLTPOLAP系統(tǒng)的數(shù)據(jù)訪問(wèn)量要大得多;,OLTP系統(tǒng)中往往存放具體的數(shù)據(jù)。:ABCA、企業(yè)倉(cāng)庫(kù)B、數(shù)據(jù)集市C、虛擬倉(cāng)庫(kù)?BCDA、數(shù)據(jù)源C、OLAP效勞器、前端工具A、信息處理C、分析處理D、數(shù)據(jù)挖掘四、分析與計(jì)算題1、何謂數(shù)據(jù)倉(cāng)庫(kù)?為什么要建立數(shù)據(jù)倉(cāng)庫(kù)?答:數(shù)據(jù)倉(cāng)庫(kù)是一種的數(shù)據(jù)處理體系構(gòu)造,是面對(duì)主題的、集成的、不行更(不同時(shí)間的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)供給所需的3個(gè):,數(shù)據(jù)倉(cāng)庫(kù)能供給比傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)更快的大規(guī)模決策分析的響應(yīng)速度。成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)不能直接供給的。般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對(duì)分析結(jié)果還要以商業(yè)智能的方式進(jìn)展表現(xiàn),這是事務(wù)數(shù)據(jù)庫(kù)不能供給的。2、何謂粒度?它對(duì)數(shù)據(jù)倉(cāng)庫(kù)有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒度影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能答復(fù)查詢問(wèn)題的細(xì)節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有:②輪轉(zhuǎn)綜合構(gòu)造③簡(jiǎn)潔直接構(gòu)造④連續(xù)構(gòu)造3BigUniversity4個(gè)維:student(student_name,area_id,major,status,universitycourse(course_name,departmentsemester(semester,yearinstructor(dept,rank2個(gè)度量:countavg_grade。存放學(xué)生的實(shí)際課程成績(jī)。在較高概念層,avg_grade存放給定組合的平均成績(jī)。(a為數(shù)據(jù)倉(cāng)庫(kù)畫出雪花模式圖。[student,course,semester,instructor]開頭,Big_University每個(gè)學(xué)CS課程的平均成績(jī),OLAP操作(如,由學(xué)期上卷到學(xué)年。(c5層(all,studentmajorstatusuniversityall,該數(shù)據(jù)方包含多少方體(包含根本方體和頂點(diǎn)方體答:(a(b這些特別的聯(lián)機(jī)分析處理(OLAP操作有:course_id“上卷”department。沿學(xué)生(studentstudent_id“上卷”university。department=“CS”university=“BigUniversity”,沿課程(course維和學(xué)生(student維切塊。universitystudent_name。(c54=625個(gè)方體。4個(gè)維:date(day,month,quarter,yearspectator(spectator_name,status,phone,addresslocation(location_name,phone#,street,city,province,countrygame(game_name,description,description,producer2個(gè)度量:countcharge?;蚶先?每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。(a畫出該數(shù)據(jù)倉(cāng)庫(kù)的星形模式圖。(b由根本方體date,spectator,location,game]開頭,2023年學(xué)生觀眾在GM-Place的總代價(jià),OLAP操作?考點(diǎn):1、什么是關(guān)聯(lián)規(guī)章?如何覺(jué)察關(guān)聯(lián)規(guī)章?2、什么的支持度、可信度?Appriori中是如何找到事務(wù)中的項(xiàng)集、K-項(xiàng)集、頻繁項(xiàng)集并最終確定關(guān)聯(lián)規(guī)章的?復(fù)習(xí)參考題:一、填空題:支持度和置信度。(2Aprior算法包括連接和剪枝兩個(gè)根本步驟。(3項(xiàng)集的頻率是指包含項(xiàng)集的事務(wù)數(shù)。:找出全部頻繁項(xiàng)集、由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)章。,關(guān)聯(lián)規(guī)章可分為:布爾關(guān)聯(lián)規(guī)章、量化關(guān)聯(lián)規(guī)章。(6Apriori性質(zhì)是指:頻繁項(xiàng)集的全部非空子集也必需是頻繁的。:量化屬性的靜態(tài)離散化、量化關(guān)聯(lián)規(guī)章、基于距離的關(guān)聯(lián)規(guī)章。,在挖掘過(guò)程中使用的約束包括以下五種類型:反單調(diào)的、單調(diào)的、簡(jiǎn)潔的、可轉(zhuǎn)變的、不行轉(zhuǎn)變的。,而是頻繁謂詞集。二、單項(xiàng)選擇題(1以下幾種數(shù)據(jù)挖掘功能中,(A被廣泛的用于購(gòu)物籃分析。A、關(guān)聯(lián)分析C、聚類分析D、演化分析(2支持度(support是衡量興趣度度量A的指標(biāo)。A、有用性BC.D、穎性(3置信度(confidence是衡量興趣度度量(B的指標(biāo)。A、簡(jiǎn)潔性BC.D、穎性,可以將關(guān)聯(lián)規(guī)章分類為:(CA、布爾關(guān)聯(lián)規(guī)章和量化關(guān)聯(lián)規(guī)章B、單維關(guān)聯(lián)規(guī)章和多維關(guān)聯(lián)規(guī)章C、單層關(guān)聯(lián)規(guī)章和多層關(guān)聯(lián)規(guī)章(5規(guī)章:age(X,”19-25”∧buys(X,“popcornbuys(X,“coke”是一個(gè)CA、單維關(guān)聯(lián)規(guī)章C、混合維關(guān)聯(lián)規(guī)章三、問(wèn)答及分析計(jì)算1、請(qǐng)解釋一下在數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)章中什么是支持度和可信度,以及關(guān)聯(lián)規(guī)章。答:支持度:A→BAB同地發(fā)生的的概率,即P(A∪B,AB同時(shí)發(fā)生的次數(shù)與大事總次數(shù)之比。支持度是對(duì)關(guān)聯(lián)規(guī)章重要性的衡量。可信度:A→BAB項(xiàng)集的條件概P(B|A,ABA發(fā)生的全部次數(shù)之比??尚哦仁菍?duì)關(guān)聯(lián)規(guī)章的準(zhǔn)確度的衡量。:同時(shí)滿足最小支持度閾值和最小可信度閾值的規(guī)章稱之為關(guān)聯(lián)規(guī)章。24筆交易,minsup=60%,minconf=80%。Apriori算法找出全部頻繁項(xiàng)集,列出全部關(guān)聯(lián)規(guī)章。(參考課本以及課堂教學(xué)例子考點(diǎn)1、什么是分類?解決分類問(wèn)題的一般方法?2、在常用的分類方法中決策樹技術(shù)覺(jué)察規(guī)章的核心是?什么是決策樹?如何用決策樹進(jìn)展分類?等方法,ID3算法的根本思想及其主算法的根本步驟。4、什么是屬性的信息增益,熵?5、分類模型的誤差有哪些?6、什么是過(guò)度擬合?解決的方法?復(fù)習(xí)參考題:一、填空題,可以提高分類和推測(cè)過(guò)程的準(zhǔn)確性、有效性和可伸縮性。:先剪枝、后剪枝。二、單項(xiàng)選擇題(1下面哪種分類方法是屬于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法?(CB、貝葉斯分類C、后向傳播分類D、基于案例的推理?(BA、判定樹歸納C、后向傳播分類D、基于案例的推理(3以下哪個(gè)描述是正確的?(CAC、分類是有指導(dǎo)的學(xué)習(xí),聚類是無(wú)指導(dǎo)的學(xué)習(xí)BD、分類是無(wú)指導(dǎo)的學(xué)習(xí),聚類是有指導(dǎo)的學(xué)習(xí)三、問(wèn)答題1、分類學(xué)問(wèn)的覺(jué)察方法主要有哪些?分類過(guò)程通常包括哪兩個(gè)步驟?答:分類規(guī)章的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類的過(guò)程包括2步:首先在訓(xùn)練數(shù)據(jù)集上,依據(jù)屬性特征,為每一種類別找到一個(gè)合理的描述或模型,即分類規(guī)章;然后依據(jù)規(guī)章對(duì)數(shù)據(jù)進(jìn)展分類。2、什么是決策樹?如何用決策樹進(jìn)展分類?答:決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹構(gòu)造。它是利中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。決策樹用于對(duì)樣本的分類,即通過(guò)決策樹對(duì)樣本屬性值的測(cè)試,從樹的根結(jié)點(diǎn)開頭,依據(jù)樣本屬性的取值,漸漸沿著決策樹向下,直到樹的葉結(jié)點(diǎn),該葉結(jié)點(diǎn)表示的類別就是樣本的類別。決策樹方法是數(shù)據(jù)挖掘中格外有效的分類方法。3、在判定樹歸納中,為什么樹剪枝是有用的?答:當(dāng)判定樹創(chuàng)立時(shí),由于數(shù)據(jù)中的噪聲和孤立點(diǎn),很多分枝反響的是訓(xùn)練數(shù)據(jù)中的特別。剪枝方法處理這種過(guò)分適應(yīng)數(shù)據(jù)的問(wèn)題。通常,這種方法使用統(tǒng)計(jì)度量,剪去最不行靠的分枝,這將導(dǎo)致較快的分類,提高樹獨(dú)立于測(cè)試數(shù)據(jù)正確分類的牢靠性。四、分析題1、依據(jù)以下訓(xùn)練樣本,計(jì)算年齡屬性的信息增益值I(16,4=-((4/16*log2(4/16+(12/16*log2(12/16=0.8113Gain(年齡=I(16,4-E(年齡=0.0167考點(diǎn):1、什么的聚類?它和分類的區(qū)分在哪?K-平均算法(k-means的輸入、輸出及聚類過(guò)程是如何實(shí)現(xiàn)的?:一、填空題:劃分方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。(2聚類分析常作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布的狀況。,具有兩個(gè)特征:高類內(nèi)相像度、低類間相像度。陣。(5基于網(wǎng)格的聚類方法的優(yōu)點(diǎn)是:處理數(shù)度快。(6孤立點(diǎn)產(chǎn)生的主要緣由包括:度量或執(zhí)行錯(cuò)誤、數(shù)據(jù)變異的結(jié)果。,常用于不全都性檢驗(yàn)的參數(shù)包括:數(shù)據(jù)分布、分布參數(shù)、預(yù)期的孤立點(diǎn)數(shù)。二、單項(xiàng)選擇題(1下面那種數(shù)據(jù)挖掘方法可以用來(lái)檢測(cè)孤立點(diǎn)?C。A.概念描述C.聚類分析D.演化分析(2C。A、Euclidean距離C、Eula距離D、Minkowski距離?CA、劃分的方法D、層次的方法三、問(wèn)答題1、何謂聚類?它與分類有什么異同?(cluster的過(guò)程,使得在同一個(gè)簇中的對(duì)象之間具有較高的相像度,而不同簇中的對(duì)象差異較大。聚類與分類不同,聚類要?jiǎng)澐值念愂俏粗?分類則可按規(guī)章進(jìn)展;聚類是一種無(wú)指導(dǎo)學(xué)習(xí),它不依靠預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練實(shí)例,屬于觀看式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是例如式學(xué)習(xí)。2、簡(jiǎn)述ID3算法的根本思想及其主算法的根本步驟。首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個(gè)子集,每個(gè)子集又選擇最有判別力的因素進(jìn)一步劃分,始終進(jìn)展到全部子集僅包含同一類型的數(shù)據(jù)為止。最終得到一棵決策樹,可以用它來(lái)對(duì)的樣例進(jìn)展分類。主算法包括如下幾步:①?gòu)挠?xùn)練集中隨機(jī)選擇一個(gè)既含正例又含反例的子集(稱為窗口;②用“建樹算法”對(duì)當(dāng)前窗口形成一棵決策樹;③對(duì)訓(xùn)練集(窗口除外中例子用所得決策樹進(jìn)展類別判定,找出錯(cuò)判的例子;,把它們插入窗口,重復(fù)步驟②,否則完畢。四、分析計(jì)算1、給定兩個(gè)向量對(duì)象,p1(22,1,42,10,p2(20,0,36,8:(a計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離;(b計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離;(c計(jì)算兩個(gè)對(duì)象之間的切比雪夫距離;(d計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,x=3。答:(a計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離:(b計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離:(d計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,r=3:〔用(x,y代表位置〕聚類為三個(gè)A1(2,10,A2(2,5,A3(8,4,B1(5,8,B2(7,5,B3(6,4,C1(1,2,C2(4,9距離函數(shù)是Euclidean〔歐幾里得〕A1,B1,C1k-means〔K-平均算法〕〔a〕〔b〕K〔1〕K個(gè)點(diǎn)作為初始質(zhì)〔2〕repeat〔3〕K〔4〕〔5〕untilA1,B1,C作為初始質(zhì)點(diǎn),距離函數(shù)是EuclideanA1-A2:dist=(2-22+(5-102=25;A1-A3:di
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 防水修繕合同范本
- 借款融資居間服務(wù)合同范本
- 加梯安裝合同范例
- 醫(yī)生技術(shù)股協(xié)議合同范本
- 單位燈具購(gòu)買合同范本
- 修車合同范本模板
- 農(nóng)村建房買房合同范本
- 農(nóng)村豬場(chǎng)合同范本
- 人事專員勞務(wù)合同范本
- 勞務(wù)供銷合同范例
- 小學(xué)生學(xué)會(huì)公平與公正的行為主題班會(huì)
- 2025年湖南交通職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 江蘇省南通市2025屆高三第一次調(diào)研測(cè)試數(shù)學(xué)試題(南通一模)(含解析)
- 《大學(xué)物理矢量》課件
- 梅大高速塌方災(zāi)害調(diào)查評(píng)估報(bào)告及安全警示學(xué)習(xí)教育
- 福建省部分地市2025屆高中畢業(yè)班第一次質(zhì)量檢測(cè) 生物試卷(含答案)
- 新疆所有煤礦基本信息
- 2024-2025學(xué)年上學(xué)期上海初中英語(yǔ)七年級(jí)期末模擬試卷2
- 神經(jīng)外科患者臥位管理
- 部編人教版三年級(jí)下冊(cè)語(yǔ)文教案(表格版)
- 民航服務(wù)心理學(xué)教案
評(píng)論
0/150
提交評(píng)論