版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、一、填空題1 . Web挖掘可分為、和 3大類。2 .數(shù)據(jù)倉庫需要統(tǒng)一數(shù)據(jù)源,包括統(tǒng)一、統(tǒng)、統(tǒng)和統(tǒng)一數(shù)據(jù)特征 4個方面。3 .數(shù)據(jù)分割通常按時間、以及組合方法進行。4 .噪聲數(shù)據(jù)處理的方法主要有、和o5 .數(shù)值歸約的常用方法有、和對數(shù)模型等。6 .評價關(guān)聯(lián)規(guī)則的2個主要指標是和o7 .多維數(shù)據(jù)集通常采用或雪花型架構(gòu),以表為中心,連接多個表。8 .決策樹是用作為結(jié)點,用作為分支的樹結(jié)構(gòu)。9 .關(guān)聯(lián)可分為簡單關(guān)聯(lián)、和o10 .BP神經(jīng)網(wǎng)絡(luò)的作用函數(shù)通常為一區(qū)間的o11 .數(shù)據(jù)挖掘的過程主要包括確定業(yè)務(wù)對象、及知識同化等幾個步 驟。12 .數(shù)據(jù)挖掘技術(shù)主要涉及、和3個技術(shù)領(lǐng)域。13 .數(shù)據(jù)挖掘的主要
2、功能包括、趨勢分析、孤立點分析和偏 差分析7個方面。14 .人工神經(jīng)網(wǎng)絡(luò)具有和等特點,其結(jié)構(gòu)模型包括、和自組織網(wǎng)絡(luò) 3種。15 .數(shù)據(jù)倉庫數(shù)據(jù)的4個基本特征是、非易失、隨時間變化。16 .數(shù)據(jù)倉庫的數(shù)據(jù)通常劃分為、一和等幾個級別。17 .數(shù)據(jù)預(yù)處理的主要容(方法)包括、和數(shù)據(jù)歸約等。18 .平滑分箱數(shù)據(jù)的方法主要有、和o19 .數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型主要有廣義知識、和偏差型知識五種。20.0LAP的數(shù)據(jù)組織方式主要有和兩種。21 .常見的OLAP多維數(shù)據(jù)分析包括一、和旋轉(zhuǎn)等操作。22 .傳統(tǒng)的決策支持系統(tǒng)是以和驅(qū)動,而新決策支持系統(tǒng)則是以、建 立在和技術(shù)之上。23.OLAP的數(shù)據(jù)組織方式主要有
3、 和 2種。23 .SQL Server2000 的 OLAP 組件叫, OLAP 操作窗口 叫。24 .BP神經(jīng)網(wǎng)絡(luò)由、以及一或多個一結(jié)點組成。26 .遺傳算法包括、3個基本算子。27 .聚類分析的數(shù)據(jù)通??煞譃閰^(qū)間標度變量、序數(shù)型以及混合 類型等。28 .聚類分析中最常用的距離計算公式有、等。29 .基于劃分的聚類算法有和o30 .Clementine的工作流通常由、 和 等節(jié)點連接而成。31 .簡單地說,數(shù)據(jù)挖掘就是從中挖掘的過程。32 .數(shù)據(jù)挖掘相關(guān)的名稱還有、 等。、判斷題)1.數(shù)據(jù)倉庫的數(shù)據(jù)量越大,其應(yīng)用價值也越大。)2.啤酒與尿布的故事是聚類分析的典型實例。)3.等深分箱法使每個
4、箱子的記錄個數(shù)相同。)4.數(shù)據(jù)倉庫“粒度”越細,記錄數(shù)越少。)5.數(shù)據(jù)立方體由3維構(gòu)成,Z軸表示事實數(shù)據(jù)。)6.決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。)7. ID3算法是決策樹方法的早期代表。)8. C4. 5是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。)9.回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則。)10.人工神經(jīng)網(wǎng)絡(luò)特別適合解決多參數(shù)大復(fù)雜度問題。)11.概念關(guān)系分析是文本挖掘所獨有的。)12.可信度是對關(guān)聯(lián)規(guī)則的準確度的衡量。)13.孤立點在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而丟棄。)14. SQL Server 2000不提供關(guān)聯(lián)規(guī)則挖掘算法。)15. Clementine是IBM公司的專業(yè)級數(shù)據(jù)挖掘軟件。)16.決
5、策樹方法特別適合于處理數(shù)值型數(shù)據(jù)。)17.數(shù)據(jù)倉庫的數(shù)據(jù)為歷史數(shù)據(jù),從來不需要更新。)18.等寬分箱法使每個箱子的取值區(qū)間相同。)19.數(shù)據(jù)立方體是廣義知識發(fā)現(xiàn)的方法和技術(shù)之一。)20.數(shù)據(jù)立方體的其中一維用于記錄事實數(shù)據(jù)。)21.決策樹通常用于分類與預(yù)測。)22. Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。)23.支持度是衡量關(guān)聯(lián)規(guī)則重要性的一個指標。)24. SQL Server 2000集成了 OLAP,但不具有數(shù)據(jù)挖掘功能。)25.人工神經(jīng)網(wǎng)絡(luò)常用于分類與預(yù)測。、名詞解釋1 .數(shù)據(jù)倉庫:是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新 的(穩(wěn)定性)、隨時間不斷變化(不同
6、時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提 供所需的集成信息。2 .孤立點:指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。3 . OLAP: OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的,以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處 理,是共享多維信息的快速分析,是被專門設(shè)計用于支持復(fù)雜的分析操作,側(cè)重對分析人員和高層管理人員的決策支持。4 .粒度:指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。粒度影響存 放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細節(jié) 程度。5 .數(shù)據(jù)規(guī)化:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如 0-1)以提高數(shù)據(jù)挖掘效率的方法。規(guī)化的
7、常用方法有:最大一最小規(guī)化、零 一均值規(guī)化、小數(shù)定標規(guī)化。6 .關(guān)聯(lián)知識:是反映一個事件和其他事件之間依賴或相互關(guān)聯(lián)的知識。如果兩項 或多項屬性之間存在關(guān)聯(lián),那么其中一項的屬性值就可以依據(jù)其他屬性值進行 預(yù)測。7 .數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱 含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。8 . OLTP: OLTP為聯(lián)機事務(wù)處理的縮寫,OLAP是聯(lián)機分析處理的縮寫。前者是以數(shù) 據(jù)庫為基礎(chǔ)的,面對的是操作人員和低層管理人員,對基本數(shù)據(jù)進行查詢和增、 刪、改等處理。9 . ROLAP:是基于關(guān)系數(shù)據(jù)庫存儲方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被
8、映像成二維 關(guān)系表,通常采用星型或雪花型架構(gòu),由一個事實表和多個維度表構(gòu)成。10 . MOLAP:是基于類似于“超立方”塊的OLAP存儲結(jié)構(gòu),由許多經(jīng)壓縮的、類似 于多維數(shù)組的對象構(gòu)成,并帶有高度壓縮的索引及指針結(jié)構(gòu),通過直接偏移計 算進行存取。11 .數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠 得到和原始數(shù)據(jù)相同的分析結(jié)果。12 .廣義知識:通過對大量數(shù)據(jù)的歸納、概括和抽象,提煉出帶有普遍性的、概括 性的描述統(tǒng)計的知識。13 .預(yù)測型知識:是根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù) 據(jù),也可以認為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。14 .偏差型知識:是對差
9、異和極端特例的描述,用于揭示事物偏離常規(guī)的異?,F(xiàn)象, 如標準類外的特例,數(shù)據(jù)聚類外的離群值等。15 .遺傳算法:是一種優(yōu)化搜索算法,它首先產(chǎn)生一個初始可行解群體,然后對這 個群體通過模擬生物進化的選擇、交叉、變異等遺傳操作遺傳到下一代群體, 并最終達到全局最優(yōu)。16 .聚類:是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得 在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。17 .決策樹:是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是分 類規(guī)則挖掘的典型方法,可用于對新樣本進行分類。18 .相異度矩陣:是聚類分析中用于表示各對象之間相異度的一
10、種矩陣,n個對象 的相異度矩陣是一個rm維的單模矩陣,其對角線元素均為0,對角線兩側(cè)元素的值相同。19 .頻繁項集:指滿足最小支持度的項集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。20 .支持度:規(guī)則A-B的支持度指的是所有事件中A與B同地發(fā)生的的概率,即 P(AUB),是AB同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關(guān)聯(lián)規(guī)則重要 性的衡量。21 .可信度:規(guī)則A-B的可信度指的是包含A項集的同時也包含B項集的條件概率 P(B|A),是AB同時發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比。可信度是對關(guān)聯(lián)規(guī)則 的準確度的衡量。22 .關(guān)聯(lián)規(guī)則:同時滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之為關(guān)聯(lián)規(guī)則。四、綜合題1
11、.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中 的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相 關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢 分析、孤立點分析以及偏差分析等。2 .何謂數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫?數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新 的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供 所需的集成信息。建立數(shù)據(jù)倉庫的目的有3個:一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)
12、據(jù)倉庫能提供比傳統(tǒng)事務(wù) 數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集 成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一 般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進行表 現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。3.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。操作型數(shù)據(jù)分析型數(shù)據(jù)當(dāng)前的、細節(jié)的歷史的、綜合的面向應(yīng)用、事務(wù)驅(qū)動面向分析、分析驅(qū)動頻繁增、刪、改幾乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松
13、一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常事務(wù)操作支持管理決策需求4 .何謂OLTP和OLAP?它們的主要異同有哪些?OLTP即聯(lián)機事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層管理 人員、對基本數(shù)據(jù)進行查詢和增、刪、改等的日常事務(wù)處理。OLAP即聯(lián)機分析 處理,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、面向高層管理人員 和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。OLTP和OLAP的主要區(qū)別如下表:OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)細節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新不更新,但周期性刷新一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應(yīng)時間要求高響應(yīng)時間合理用戶數(shù)量大用戶數(shù)據(jù)
14、相對較少面向操作人員,支持日常操作面向決策人員,支持管理需要面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動5 .何謂粒度?它對數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。粒度影響 存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細節(jié) 程度。按粒度組織數(shù)據(jù)的方式主要有:簡單堆積結(jié)構(gòu)輪轉(zhuǎn)綜合結(jié)構(gòu)簡單直接結(jié)構(gòu)連續(xù)結(jié)構(gòu)6 .簡述數(shù)據(jù)倉庫設(shè)計的三級模型及其基本容。概念模型設(shè)計是在較高的抽象層次上的設(shè)計,其主要容包括:界定系統(tǒng)邊界 和確定主要的主題域。邏輯模型設(shè)計的主要容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分 割策略、定義關(guān)系模
15、式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設(shè)計的主要容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、 確定存儲分配以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計時主要考慮的因素有: I/O存取時間、空間利用率和維護代價等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入 冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。7 .在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進行預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同 的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存 在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高 效率和得到清晰的結(jié)果,必須進行數(shù)據(jù)的預(yù)
16、處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準確、有針對性的數(shù)據(jù),減少算法的計算 量,提高挖掘效率和準確程度。8 .簡述數(shù)據(jù)預(yù)處理方法和容。數(shù)據(jù)清洗:包括填充空缺值,識別孤立點,去掉噪聲和無關(guān)數(shù)據(jù)。數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。 需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、 聚集、概化、規(guī)化,還可能需要進行屬性的重構(gòu)。數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能 夠得到和原始數(shù)據(jù)相同的分析結(jié)果。9 .簡述數(shù)據(jù)清理的基本容。盡可能賦予屬性名和屬性值明確的含義;統(tǒng)一多
17、數(shù)據(jù)源的屬性值編碼; 去除無用的惟一屬性或鍵值(如自動增長的id); 去除重復(fù)屬性(在某些分析中,年齡和出生日期可能就是重復(fù)的屬性,但在某 些時候它們可能又是同時需要的)去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的,如果不去除可 能造成錯誤的數(shù)據(jù)挖掘結(jié)果)合理選擇關(guān)聯(lián)字段(對于多個關(guān)聯(lián)性較強的屬性,重復(fù)無益,只需選擇其中的 部分用于數(shù)據(jù)挖掘即可,如價格、數(shù)據(jù)、金額)去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。10.簡述處理空缺值的方法。忽略該記錄;去掉屬性;手工填寫空缺值;使用默認值;使用屬性平均值;使用同類樣本平均值;預(yù)測最可能的值。11.常見的分箱方法有哪些?數(shù)據(jù)平滑處理
18、的方法有哪些?分箱的方法主要有:統(tǒng)一權(quán)重法(又稱等深分箱法) 統(tǒng)一區(qū)間法(又稱等寬分箱法)最小炳法自定義區(qū)間法數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法。12 .何謂數(shù)據(jù)規(guī)化?規(guī)化的方法有哪些?寫出對應(yīng)的變換公式。將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0.01.0),稱為規(guī)化。規(guī)化的常用方法有:(1)最大一最小規(guī)化:(2)零一均值規(guī)化:max - min.:-mui0) + nun (max0 - min0)(3)小數(shù)定標規(guī)化:13 .數(shù)據(jù)歸約的方法有哪些?為什么要進行維歸約?數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值壓縮離散化和概念分層維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立
19、方體的維數(shù),從而減少數(shù)據(jù)挖掘 處理的數(shù)據(jù)量,提高挖掘效率。14 .何謂聚類?它與分類有什么異同?聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使 得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進行; 聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標號的訓(xùn)練實例,屬于 觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。15 .舉例說明聚類分析的典型應(yīng)用。商業(yè):幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不同的 購買模式描述不同客戶群的特征。生物學(xué):推導(dǎo)植物或動物的分類,對基于進行
20、分類,獲得對種群中固有結(jié)構(gòu) 的認識。WEB文檔分類其他:如地球觀測數(shù)據(jù)庫中相似地區(qū)的確定;各類保險投保人的分組;一個城市中不同類型、價值、地理位置房子的分組等。聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理:即先進行聚類,然后再進行 分類等其他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)簡化技術(shù),它把基于相似數(shù)據(jù) 特征的變量或個案組合在一起。16 .聚類分析中常見的數(shù)據(jù)類型有哪些?何謂相異度矩陣?它有什么特點?常見數(shù)據(jù)類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數(shù) 型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣,為 一個rm維的單模矩陣。其特點是d(i, j)=d(j, i), d
21、(i, i)=0, d(j, j)=0o如下 所示:0d(2,l)0d(3,l)d(3,2)0 d(n,l) d(n,2) 0 17 .分類知識的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個步驟?分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗 糙集法和遺傳算法。分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬 性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī) 則對新數(shù)據(jù)進行分類。18 .什么是決策樹?如何用決策樹進行分類?決策樹是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是 利用信息論原理對大量樣本的屬性進行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點
22、是所有樣本息量最大的屬性。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣 本子集息量最大的屬性。決策樹的葉結(jié)點是樣本的類別值。決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹 的根結(jié)點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點, 該葉結(jié)點表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的 分類方法。19 .簡述ID3算法的基本思想及其主算法的基本步驟。首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇 最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數(shù)據(jù)為 止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。主算法包括如下幾
23、步:從訓(xùn)練集中隨機選擇一個既含正例又含反例的子集(稱為窗口);用“建樹算法”對當(dāng)前窗口形成一棵決策樹;對訓(xùn)練集(窗口除外)中例子用所得決策樹進行類別判定,找出錯判的例 子;若存在錯判的例子,把它們插入窗口,重復(fù)步驟,否則結(jié)束。20 .簡述ID3算法的基本思想及其建樹算法的基本步驟。首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇 最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數(shù)據(jù)為 止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。建樹算法的具體步驟如下:對當(dāng)前例子集合,計算各特征的互信息;選擇互信息最大的特征Ak;把在凡處取值相同的例子歸于同一子集,Ak取
24、幾個值就得幾個子集;對既含正例又含反例的子集,遞歸調(diào)用建樹算法;若子集僅含正例或反例,對應(yīng)分枝標上P或N,返回調(diào)用處。21 .設(shè)某事務(wù)項集構(gòu)成如下表,填空完成其中支持度和置信度的計算。事務(wù)ID項集L2支持度先規(guī)則置信度%T1A, DA, B33.3AB50T2D, EA, C33.3C-A60T3A, C, EA, D44.4A-D66.7T4A, B, D, EB. D33.3B-D75T5A, B, CC, D33.3C-*D60T6A, B, DD. E33.3DE43T7A, C. D T8C, D, ET9B. C, D22 .從信息處理角度看,神經(jīng)元具有哪些基本特征?寫出描述神經(jīng)元
25、狀態(tài)的M-P方 程并說明其含義?;咎卣鳎憾噍斎?、單輸出;突觸兼有興奮和抑制兩種性能;可時間加 權(quán)和空間加權(quán);可產(chǎn)生脈沖;脈沖可進行傳遞;非線性,有 閾值。M-P方程:$=/(2嗎盧/一4),跖是神經(jīng)元之間的連接強度,可是閾值, jf(x)是階梯函數(shù)。 3.遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機搜索,搜索效率高;遺傳算法處理的對象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運算速 度快,適應(yīng)性好;遺傳算法具有隱含并行性,具有更高的運行效率。 4.寫出非對稱二元變量相異度計算公式(即jaccard系數(shù)),并計算下表中各對象 間的相異度。試項目 對test-1test-2test-3test-4test-5test-60BJ1YNPNNN0BJ2YNPNPNOBJ3NYNYNN 5.簡述K-平均算法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版設(shè)備砂石料購銷與設(shè)備性能優(yōu)化協(xié)議3篇
- 二零二五年度人事部人才與專家工作辦公室員工福利保障合同3篇
- 二零二五年度圖書館圖書修復(fù)與保護工程合同
- 個體物流配送員勞動協(xié)議格式(2024年版)一
- 二零二五版木材進口關(guān)稅減免申請服務(wù)合同4篇
- 二零二五年度土地利用現(xiàn)狀變更測量合同
- 二零二五年度城市公共充電樁運營管理合同4篇
- 二零二五版大數(shù)據(jù)中心項目合作協(xié)議4篇
- 2025年度美容院連鎖加盟區(qū)域代理權(quán)及市場獨占協(xié)議
- 2025年度企業(yè)培訓(xùn)項目財務(wù)結(jié)算合同范本4篇
- 2024生態(tài)環(huán)境相關(guān)法律法規(guī)考試試題
- 有砟軌道施工工藝課件
- 兩辦意見八硬措施煤礦安全生產(chǎn)條例宣貫學(xué)習(xí)課件
- 40篇短文搞定高中英語3500單詞
- 人教版高中數(shù)學(xué)必修二《第九章 統(tǒng)計》同步練習(xí)及答案解析
- 兒科護理安全警示教育課件
- 三年級下冊口算天天100題
- 國家中英文名稱及代碼縮寫(三位)
- 人員密集場所消防安全培訓(xùn)
- 液晶高壓芯片去保護方法
- 拜太歲科儀文檔
評論
0/150
提交評論