數(shù)據(jù)挖掘考試題庫(kù)完整_第1頁(yè)
數(shù)據(jù)挖掘考試題庫(kù)完整_第2頁(yè)
數(shù)據(jù)挖掘考試題庫(kù)完整_第3頁(yè)
數(shù)據(jù)挖掘考試題庫(kù)完整_第4頁(yè)
數(shù)據(jù)挖掘考試題庫(kù)完整_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、,、名詞解釋1 .數(shù)據(jù)倉(cāng)庫(kù):是一種新的數(shù)據(jù)處理體系結(jié)構(gòu).是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合.為企業(yè)決策支持系統(tǒng)提供所需的集成信息。2 .孤立點(diǎn):指數(shù)據(jù)庫(kù)中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。3 .OLAPOLAPt在OLTP勺基礎(chǔ)上發(fā)展起來(lái)的.以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的數(shù)據(jù)分析處理.是共享多維信息的快速分析.是被專(zhuān)門(mén)設(shè)計(jì)用于支持復(fù)雜的分析操作.側(cè)重對(duì)分析人員和高層管理人員的決策支持。4 .粒度:指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒度影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小.同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答查詢(xún)問(wèn)題的細(xì)節(jié)程度。5 .數(shù)據(jù)規(guī)范

2、化:指將數(shù)據(jù)按比例縮放(如更換大單位).使之落入一個(gè)特定的區(qū)域(如0-1)以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有:最大-最小規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。6 .關(guān)聯(lián)知識(shí):是反映一個(gè)事件和其他事件之間依賴(lài)或相互關(guān)聯(lián)的知識(shí)。如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián).那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。7 .數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中.提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。8 .OLTPOLTP*聯(lián)機(jī)事務(wù)處理的縮寫(xiě).OLAP是聯(lián)機(jī)分析處理的縮寫(xiě)。前者是以數(shù)據(jù)庫(kù)為基礎(chǔ)的.面對(duì)的是操作人員和低層管理人員.對(duì)基本數(shù)據(jù)進(jìn)行

3、查詢(xún)和增、刪、改等處理。9 .ROLAP是基于關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)方式的.在這種結(jié)構(gòu)中.多維數(shù)據(jù)被映像成二維關(guān)系表.通常采用星型或雪花型架構(gòu).由一個(gè)事實(shí)表和多個(gè)維度表構(gòu)成。10 .MOLAP是基于類(lèi)似于“超立方”塊的OLAP#儲(chǔ)結(jié)構(gòu).由許多經(jīng)壓縮的、類(lèi)似于多維數(shù)組的對(duì)象構(gòu)成.并帶有高度壓縮的索引及指針結(jié)構(gòu).通過(guò)直接偏移計(jì)算進(jìn)行存取。11 .數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍.使其更適合于數(shù)據(jù)挖掘算法的需要.并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。12 .廣義知識(shí):通過(guò)對(duì)大量數(shù)據(jù)的歸納、概括和抽象.提煉出帶有普遍性的、概括性的描述統(tǒng)計(jì)的知識(shí)。13 .預(yù)測(cè)型知識(shí):是根據(jù)時(shí)間序列型數(shù)據(jù).由歷史的和當(dāng)前的數(shù)據(jù)去推測(cè)

4、未來(lái)的數(shù)據(jù)也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。14 .偏差型知識(shí):是對(duì)差異和極端特例的描述.用于揭示事物偏離常規(guī)的異?,F(xiàn)象.如標(biāo)準(zhǔn)類(lèi)外的特例.數(shù)據(jù)聚類(lèi)外的離群值等。15 .遺傳算法:是一種優(yōu)化搜索算法.它首先產(chǎn)生一個(gè)初始可行解群體.然后對(duì)這個(gè)群體通過(guò)模擬生物進(jìn)化的選擇、交叉、變異等遺傳操作遺傳到下一代群體.并最終達(dá)到全局最優(yōu)。16 .聚類(lèi):是將物理或抽象對(duì)象的集合分組成為多個(gè)類(lèi)或簇(cluster)的過(guò)程.使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度.而不同簇中的對(duì)象差別較大。17 .決策樹(shù):是用樣本的屬性作為結(jié)點(diǎn).用屬性的取值作為分支的樹(shù)結(jié)構(gòu)。它是分類(lèi)規(guī)則挖掘的典型方法.可用于對(duì)新樣本進(jìn)行

5、分類(lèi)。18 .相異度矩陣:是聚類(lèi)分析中用于表示各對(duì)象之間相異度的一種矩陣.n個(gè)對(duì)象的相異度矩陣是一個(gè)nn維的單模矩陣.其對(duì)角線元素均為0.對(duì)角線兩側(cè)元素的值相同。19 .頻繁項(xiàng)集:指滿(mǎn)足最小支持度的項(xiàng)集.是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。20 .支持度:規(guī)則A-B的支持度指的是所有事件中A與B同地發(fā)生的的概率.即P(AUB).是AB同時(shí)發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量。21 .可信度:規(guī)則A-B的可信度指的是包含A項(xiàng)集的同時(shí)也包含B項(xiàng)集的條件概率P(B|A).是AB同時(shí)發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比。可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。22 .關(guān)聯(lián)規(guī)則:同時(shí)滿(mǎn)足最小支持度

6、閾值和最小可信度閾值的規(guī)則稱(chēng)之為關(guān)聯(lián)規(guī)則。.、綜合題1 .何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中.提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程稱(chēng)為數(shù)據(jù)挖掘。相關(guān)的名稱(chēng)有知識(shí)發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類(lèi)與預(yù)測(cè)、聚類(lèi)分析、趨勢(shì)分析、孤立點(diǎn)分析以及偏差分析等。2 .何謂數(shù)據(jù)倉(cāng)庫(kù)?為什么要建立數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)是一種新的數(shù)據(jù)處理體系結(jié)構(gòu).是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合.為企業(yè)決策支持系統(tǒng)提供所需的集成信息。建立數(shù)據(jù)倉(cāng)庫(kù)的目的有3個(gè)

7、:一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問(wèn)題.數(shù)據(jù)倉(cāng)庫(kù)能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)更快的大規(guī)模決策分析的響應(yīng)速度。二是解決決策分析對(duì)數(shù)據(jù)的特殊需求問(wèn)題。決策分析需要全面的、正確的集成數(shù)據(jù).這是傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)不能直接提供的。三是解決決策分析對(duì)數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶(hù)而非一般業(yè)務(wù)員.需要使用專(zhuān)業(yè)的分析工具.對(duì)分析結(jié)果還要以商業(yè)智能的方式進(jìn)行表現(xiàn).這是事務(wù)數(shù)據(jù)庫(kù)不能提供的。3 .列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。操作型數(shù)據(jù)分析型數(shù)據(jù)當(dāng)前的、細(xì)節(jié)的歷史的、綜合的向向應(yīng)用、事務(wù)驅(qū)動(dòng)面向分析、分析驅(qū)動(dòng)頻繁增、刪、一改一幾乎/、更新.定期追加麋作需求事先知道分析需求事先不知道生命周期符合SDL

8、C完全不同的生命周期對(duì)性能要求局對(duì)性能要求寬松一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常事務(wù)操作支持管理決策需求4 .何謂OLT所口OLAP它們的主要異同有哪些?OLTP即聯(lián)機(jī)事務(wù)處理.是以傳統(tǒng)數(shù)據(jù)庫(kù)為基礎(chǔ)、面向操作人員和低層管理人員、對(duì)基本數(shù)據(jù)進(jìn)行查詢(xún)和增、刪、改等的日常事務(wù)處理。OLAPW聯(lián)機(jī)分析處理.是在OLTP®礎(chǔ)上發(fā)展起來(lái)的、以數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的、面向高層管理人員和專(zhuān)業(yè)分析人員、為企業(yè)決策支持服務(wù)。OLT所口OLAP勺主要區(qū)別如下表:OLTPOLAP數(shù)據(jù)庫(kù)數(shù)據(jù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新小更新.但周期性刷新一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量

9、大對(duì)響應(yīng)時(shí)間要求高響應(yīng)時(shí)間合理用戶(hù)數(shù)量大用戶(hù)數(shù)據(jù)相對(duì)較少面向操作人員.支持日常操作面向決策人員.支持管理需要面向應(yīng)用.事務(wù)驅(qū)動(dòng)面向分析.分析驅(qū)動(dòng)5 .何謂粒度?它對(duì)數(shù)據(jù)倉(cāng)庫(kù)有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒度影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小.同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答查詢(xún)問(wèn)題的細(xì)節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有:簡(jiǎn)單堆積結(jié)構(gòu)輪轉(zhuǎn)綜合結(jié)構(gòu)簡(jiǎn)單直接結(jié)構(gòu)連續(xù)結(jié)構(gòu)6 .簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)模型及其基本內(nèi)容。概念模型設(shè)計(jì)是在較高的抽象層次上的設(shè)計(jì).其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。邏輯模型設(shè)計(jì)的主要內(nèi)容包括:分析主題域、

10、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設(shè)計(jì)的主要內(nèi)容包括:確定數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲(chǔ)分配以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計(jì)時(shí)主要考慮的因素有:I/O存取時(shí)間、空間利用率和維護(hù)代價(jià)等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。7 .在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù).它們的結(jié)構(gòu)和規(guī)則可能是不同的這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用.即使在同一個(gè)數(shù)據(jù)庫(kù)中.也可能存在重復(fù)的和不完整的數(shù)據(jù)信息.為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求.提高效率

11、和得到清晰的結(jié)果.必須進(jìn)行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù).減少算法的計(jì)算量.提高挖掘效率和準(zhǔn)確程度。8 .簡(jiǎn)述數(shù)據(jù)預(yù)處理方法和內(nèi)容。 數(shù)據(jù)清洗:包括填充空缺值.識(shí)別孤立點(diǎn).去掉噪聲和無(wú)關(guān)數(shù)據(jù)。 數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問(wèn)題、數(shù)值沖突問(wèn)題和冗余問(wèn)題等。 數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對(duì)數(shù)據(jù)的匯總、聚集、概化、規(guī)范化.還可能需要進(jìn)行屬性的重構(gòu)。數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍.使其更適合于數(shù)據(jù)挖掘算法的需要.并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。9 .簡(jiǎn)述數(shù)據(jù)清理的基本內(nèi)容。盡

12、可能賦予屬性名和屬性值明確的含義;統(tǒng)一多數(shù)據(jù)源的屬性值編碼; 去除無(wú)用的惟一屬性或鍵值(如自動(dòng)增長(zhǎng)的id); 去除重復(fù)屬性(在某些分析中.年齡和出生日期可能就是重復(fù)的屬性.但在某些時(shí)候它們可能又是同時(shí)需要的)去除可忽略字段(大部分為空值的屬性一般是沒(méi)有什么價(jià)值的.如果不去除可能造成錯(cuò)誤的數(shù)據(jù)挖掘結(jié)果) 合理選擇關(guān)聯(lián)字段(對(duì)于多個(gè)關(guān)聯(lián)性較強(qiáng)的屬性.重復(fù)無(wú)益.只需選擇其中的部分用于數(shù)據(jù)挖掘即可.如價(jià)格、數(shù)據(jù)、金額) 去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。10 .簡(jiǎn)述處理空缺值的方法。忽略該記錄;去掉屬性;手工填寫(xiě)空缺值;使用默認(rèn)值;使用屬性平均值;使用同類(lèi)樣本平均值;預(yù)測(cè)最可能的值。

13、11 .常見(jiàn)的分箱方法有哪些?數(shù)據(jù)平滑處理的方法有哪些?分箱的方法主要有:統(tǒng)一權(quán)重法(又稱(chēng)等深分箱法)統(tǒng)一區(qū)間法(又稱(chēng)等寬分箱法)最小嫡法自定義區(qū)間法數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法。12 .何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有哪些?寫(xiě)出對(duì)應(yīng)的變換公式。將數(shù)據(jù)按比例縮放(如更換大單位).使之落入一個(gè)特定的區(qū)域(如0.01.0).稱(chēng)為規(guī)范化。規(guī)范化的常用方法有:(1)最大一最小規(guī)范化:maxmin,.、x(x0min0)min(max0min0)(2)零一均值規(guī)范化:x0xx-X(3)小數(shù)定標(biāo)規(guī)范化:x=xo/10"13 .數(shù)據(jù)歸約的方法有哪些?為什么要進(jìn)行維歸約?數(shù)據(jù)立方體

14、聚集維歸約數(shù)據(jù)壓縮數(shù)值壓縮離散化和概念分層維歸約可以去掉不重要的屬性.減少數(shù)據(jù)立方體的維數(shù).從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量.提高挖掘效率。14 .何謂聚類(lèi)?它與分類(lèi)有什么異同?聚類(lèi)是將物理或抽象對(duì)象的集合分組成為多個(gè)類(lèi)或簇(cluster)的過(guò)程.使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度.而不同簇中的對(duì)象差別較大。聚類(lèi)與分類(lèi)不同.聚類(lèi)要?jiǎng)澐值念?lèi)是未知的.分類(lèi)則可按已知規(guī)則進(jìn)行;聚類(lèi)是一種無(wú)指導(dǎo)學(xué)習(xí).它不依賴(lài)預(yù)先定義的類(lèi)和帶類(lèi)標(biāo)號(hào)的訓(xùn)練實(shí)例.屬于觀察式學(xué)習(xí).分類(lèi)則屬于有指導(dǎo)的學(xué)習(xí).是示例式學(xué)習(xí)。15 .舉例說(shuō)明聚類(lèi)分析的典型應(yīng)用。商業(yè):幫助市場(chǎng)分析人員從客戶(hù)基本庫(kù)中發(fā)現(xiàn)不同的客戶(hù)群.并且用不同的

15、購(gòu)買(mǎi)模式描述不同客戶(hù)群的特征。生物學(xué):推導(dǎo)植物或動(dòng)物的分類(lèi).對(duì)基于進(jìn)行分類(lèi).獲得對(duì)種群中固有結(jié)構(gòu)的認(rèn)識(shí)。WEBC檔分類(lèi)其他:如地球觀測(cè)數(shù)據(jù)庫(kù)中相似地區(qū)的確定;各類(lèi)保險(xiǎn)投保人的分組;一個(gè)城市中不同類(lèi)型、價(jià)值、地理位置房子的分組等。聚類(lèi)分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理:即先進(jìn)行聚類(lèi).然后再進(jìn)行分類(lèi)等其他的數(shù)據(jù)挖掘。聚類(lèi)分析是一種數(shù)據(jù)簡(jiǎn)化技術(shù).它把基于相似數(shù)據(jù)特征的變量或個(gè)案組合在一起。16 .聚類(lèi)分析中常見(jiàn)的數(shù)據(jù)類(lèi)型有哪些?何謂相異度矩陣?它有什么特點(diǎn)?常見(jiàn)數(shù)據(jù)類(lèi)型有區(qū)間標(biāo)度變量、比例標(biāo)度型變量、二元變量、標(biāo)稱(chēng)型、序數(shù)型以及混合類(lèi)型等。相異度矩陣是用于存儲(chǔ)所有對(duì)象兩兩之間相異度的矩陣.為一個(gè)n

16、n維的單模矩陣。其特點(diǎn)是d(i,j)=d(j,i).d(i,i)=0.d(j,j)=0。如下所示:0d(2,1)0d(3,1)d(3,2)0Id(n,1)d(n,2)017 .分類(lèi)知識(shí)的發(fā)現(xiàn)方法主要有哪些?分類(lèi)過(guò)程通常包括哪兩個(gè)步驟?分類(lèi)規(guī)則的挖掘方法通常有:決策樹(shù)法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類(lèi)的過(guò)程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上.根據(jù)屬性特征.為每一種類(lèi)別找到一個(gè)合理的描述或模型.即分類(lèi)規(guī)則;然后根據(jù)規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)。18 .什么是決策樹(shù)?如何用決策樹(shù)進(jìn)行分類(lèi)?決策樹(shù)是用樣本的屬性作為結(jié)點(diǎn).用屬性的取值作為分支的樹(shù)結(jié)構(gòu)。它是利用信息論原理對(duì)大量樣本的屬性進(jìn)行分析

17、和歸納而產(chǎn)生的。決策樹(shù)的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹(shù)的中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹(shù)所包含的樣本子集中信息量最大的屬性。決策樹(shù)的葉結(jié)點(diǎn)是樣本的類(lèi)別值。決策樹(shù)用于對(duì)新樣本的分類(lèi).即通過(guò)決策樹(shù)對(duì)新樣本屬性值的測(cè)試.從樹(shù)的根結(jié)點(diǎn)開(kāi)始.按照樣本屬性的取值.逐漸沿著決策樹(shù)向下.直到樹(shù)的葉結(jié)點(diǎn).該葉結(jié)點(diǎn)表示的類(lèi)別就是新樣本的類(lèi)別。決策樹(shù)方法是數(shù)據(jù)挖掘中非常有效的分類(lèi)方法。19 .簡(jiǎn)述ID3算法的基本思想及其主算法的基本步驟。首先找出最有判別力的因素.然后把數(shù)據(jù)分成多個(gè)子集.每個(gè)子集又選擇最有判別力的因素進(jìn)一步劃分.一直進(jìn)行到所有子集僅包含同一類(lèi)型的數(shù)據(jù)為止。最后得到一棵決策樹(shù).可以用它來(lái)對(duì)新的樣例

18、進(jìn)行分類(lèi)。主算法包括如下幾步:從訓(xùn)練集中隨機(jī)選擇一個(gè)既含正例又含反例的子集(稱(chēng)為窗口);用“建樹(shù)算法”對(duì)當(dāng)前窗口形成一棵決策樹(shù);對(duì)訓(xùn)練集(窗口除外)中例子用所得決策樹(shù)進(jìn)行類(lèi)別判定.找出錯(cuò)判的例若存在錯(cuò)判的例子.把它們插入窗口.重復(fù)步驟.否則結(jié)束。20 .簡(jiǎn)述ID3算法的基本思想及其建樹(shù)算法的基本步驟。首先找出最有判別力的因素.然后把數(shù)據(jù)分成多個(gè)子集.每個(gè)子集又選擇最有判別力的因素進(jìn)一步劃分.一直進(jìn)行到所有子集僅包含同一類(lèi)型的數(shù)據(jù)為止。最后得到一棵決策樹(shù).可以用它來(lái)對(duì)新的樣例進(jìn)行分類(lèi)。建樹(shù)算法的具體步驟如下:對(duì)當(dāng)前例子集合.計(jì)算各特征的互信息;選擇互信息最大的特征A把在A處取值相同的例子歸于同一

19、子集.Ak取幾個(gè)值就得幾個(gè)子集;對(duì)既含正例又含反例的子集.遞歸調(diào)用建樹(shù)算法;若子集僅含正例或反例.對(duì)應(yīng)分枝標(biāo)上P或N.返回調(diào)用處。21 .設(shè)某事務(wù)項(xiàng)集構(gòu)成如下表.填空完成其中支持度和置信度的計(jì)算。事務(wù)ID項(xiàng)集L2支持度規(guī)則置信度T1A,DA,B33.3501T2D,EA,C33.38A60T3A,C,EA,D44.4PAfD66.71T4A,B,D,EB,D33.3BfD75T5A,B,CC,D33.3CfD60T6A,B,DD,E33.3AE43T7A,C,DT8C,D,ET9B,C,D22 .從信息處理角度看.神經(jīng)元具有哪些基本特征?寫(xiě)出描述神經(jīng)元狀態(tài)的M-P方程并說(shuō)明其含義?;咎卣鳎憾?/p>

20、輸入、單輸出;突觸兼有興奮和抑制兩種性能;可時(shí)間加權(quán)和空間加權(quán);可產(chǎn)生脈沖;脈沖可進(jìn)行傳遞;非線性.有閾值。M-P方程:Sif(WijSjj).W是神經(jīng)元之間的連接強(qiáng)度.j是閾值.f(x)是階梯函數(shù)。23 .遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點(diǎn)?遺傳算法為群體搜索.有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機(jī)搜索.搜索效率高;遺傳算法處理的對(duì)象是個(gè)體而不是參變量.具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評(píng)估個(gè)體.不需要導(dǎo)數(shù)或其他輔助信息.運(yùn)算速度快,適應(yīng)性好;遺傳算法具有隱含并行性.具有更高的運(yùn)行效率。24 .寫(xiě)出非對(duì)稱(chēng)二元變量相異度計(jì)算公式(即jaccard系數(shù)).并計(jì)算下表中各對(duì)

21、象間的相異度。測(cè)試項(xiàng)目對(duì)象ff"test-1test-2test-3test-4test-5test-6OBJ1YNPNNNOBJ2YNPNPNOBJ3NYNYNN25 .簡(jiǎn)述K-平均算法的輸入、輸出及聚類(lèi)過(guò)程(流程)。輸入:簇的數(shù)目k和包含n個(gè)對(duì)象的數(shù)據(jù)集。輸出:k個(gè)簇.使平方誤差準(zhǔn)則最小。步驟: 任意選擇k個(gè)對(duì)象作為初始的簇中心; 計(jì)算其它對(duì)象與這k個(gè)中心的距離.然后把每個(gè)對(duì)象歸入離它“最近”的簇;計(jì)算各簇中對(duì)象的平均值.然后重新選擇簇中心(離平均值“最近”的對(duì)象值); 重復(fù)第2第3步直到簇中心不再變化為止。26 .簡(jiǎn)述K-中心點(diǎn)算法的輸入、輸出及聚類(lèi)過(guò)程(流程)。輸入:結(jié)果簇的

22、數(shù)目k.包含n個(gè)對(duì)象的數(shù)據(jù)集輸出:k個(gè)簇.使得所有對(duì)象與其最近中心點(diǎn)的相異度總和最小。流程:隨機(jī)選擇k個(gè)對(duì)象作為初始中心點(diǎn);計(jì)算其它對(duì)象與這k個(gè)中心的距離.然后把每個(gè)對(duì)象歸入離它“最近”的簇;隨機(jī)地選擇一個(gè)非中心點(diǎn)對(duì)象Orandom并計(jì)算用Orandom(弋替Oj的總代價(jià)S;如果S<0,則用Orandom代替Oj.形成新的k個(gè)中心點(diǎn)集合;重復(fù)迭代第3、4步.直到中心點(diǎn)不變?yōu)橹埂?7 .何謂文本挖掘?它與信息檢索有什么關(guān)系(異同)。文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識(shí)的過(guò)程。它與信息檢索之間有以下幾方面的區(qū)別: 方法論不同:信息檢索是目標(biāo)驅(qū)動(dòng)的.用戶(hù)需要明確提出查詢(xún)要求;而文本挖掘結(jié)果獨(dú)立于用戶(hù)的信息需求.是用戶(hù)無(wú)法預(yù)知的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論