版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
參考答案of數(shù)據(jù)挖掘參考答案of數(shù)據(jù)挖掘參考答案of數(shù)據(jù)挖掘資料僅供參考文件編號(hào):2022年4月參考答案of數(shù)據(jù)挖掘版本號(hào):A修改號(hào):1頁(yè)次:1.0審核:批準(zhǔn):發(fā)布日期:第一章下列屬于數(shù)據(jù)挖掘任務(wù)的是(
)根據(jù)性別劃分公司的顧客計(jì)算公司的總銷售額預(yù)測(cè)一對(duì)骰子的結(jié)果利用歷史記錄預(yù)測(cè)公司的未來股價(jià)可以在不同維度合并數(shù)據(jù),從而形成數(shù)據(jù)立方體的是(
)數(shù)據(jù)庫(kù)數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)系統(tǒng)目的是縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果的是(
)數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約下述四種方法哪一種不是常見的分類方法(
)決策樹支持向量K-Means(聚類)樸素貝葉斯分類下列任務(wù)中,屬于數(shù)據(jù)挖掘技術(shù)在商務(wù)智能方面應(yīng)用的是(
)欺詐檢測(cè)垃圾郵件識(shí)別根據(jù)因特網(wǎng)的搜索引擎查找特定的Web頁(yè)面定向營(yíng)銷異常檢測(cè)的應(yīng)用包括(
)網(wǎng)絡(luò)攻擊預(yù)測(cè)某股票的未來價(jià)格計(jì)算公司的總銷售額根據(jù)性別劃分公司顧客將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是哪個(gè)步驟的任務(wù)(
)頻繁模式挖掘分類和預(yù)測(cè)數(shù)據(jù)預(yù)處理數(shù)據(jù)流挖掘KDD是(
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
)下列有關(guān)離群點(diǎn)的分析錯(cuò)誤的是(
)一般情況下離群點(diǎn)會(huì)被當(dāng)作噪聲而丟棄離群點(diǎn)即是噪聲數(shù)據(jù)在某些特殊應(yīng)用中離群點(diǎn)有特殊的意義信用卡在不常消費(fèi)地區(qū)突然消費(fèi)大量金額的現(xiàn)象屬于離群點(diǎn)分析范疇下列關(guān)于模式識(shí)別的相關(guān)說法中錯(cuò)誤的是(
)模式識(shí)別的本質(zhì)是抽象出不同事物中的模式并由此對(duì)事物進(jìn)行分類醫(yī)療診斷屬于模式識(shí)別的研究?jī)?nèi)容之一手機(jī)的指紋解鎖技術(shù)不屬于模式識(shí)別的應(yīng)用自然語言理解也包含模式識(shí)別問題
(
)不屬于數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域。商務(wù)智能信息識(shí)別搜索引擎醫(yī)療診斷目前數(shù)據(jù)分析和數(shù)據(jù)挖掘面臨的挑戰(zhàn)性問題不包括(
)數(shù)據(jù)類型的多樣化高維度數(shù)據(jù)離群點(diǎn)數(shù)據(jù)分析與挖掘結(jié)果可視化常見的機(jī)器學(xué)習(xí)方法有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)數(shù)據(jù)挖掘是從大規(guī)模的數(shù)據(jù)中抽取或挖掘出感興趣的知識(shí)或模式的過程或方法。頻繁模式是指數(shù)據(jù)集中頻繁出現(xiàn)的模式離群點(diǎn)是指全局或者局部范圍內(nèi)偏離一般水平的觀測(cè)對(duì)象聯(lián)機(jī)分析處理是數(shù)據(jù)倉(cāng)庫(kù)的主要應(yīng)用分類是指通過建立模型預(yù)測(cè)離散標(biāo)簽,回歸是通過建立連續(xù)值模型推斷新的數(shù)據(jù)的某個(gè)數(shù)值型屬性。數(shù)據(jù)庫(kù)是面向事務(wù),數(shù)據(jù)倉(cāng)庫(kù)是面向主題數(shù)據(jù)挖掘主要側(cè)重解決的四類問題:分類、聚類、關(guān)聯(lián)、預(yù)測(cè)數(shù)據(jù)分析是指采用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集到的數(shù)據(jù)進(jìn)行分析、概括和總結(jié)。特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。無監(jiān)督學(xué)習(xí)可以在沒有標(biāo)記的數(shù)據(jù)集上進(jìn)行學(xué)習(xí)。對(duì)聚類就是把一些對(duì)象劃分為多個(gè)組或者聚簇,從而使同組內(nèi)對(duì)象間比較相似而不同組對(duì)象間差異較大。對(duì)事務(wù)數(shù)據(jù)庫(kù)的每個(gè)記錄代表一個(gè)事務(wù)。對(duì)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)其實(shí)是相同的,都是數(shù)據(jù)或信息的存儲(chǔ)系統(tǒng)。錯(cuò)區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性進(jìn)行比較。對(duì)離群點(diǎn)因偏離一般水平而不需要考慮和研究。錯(cuò)聚類過程的輸入對(duì)象有與之關(guān)聯(lián)的目標(biāo)信息。錯(cuò)數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。對(duì)數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。對(duì)數(shù)據(jù)倉(cāng)庫(kù)一般存儲(chǔ)在線交易數(shù)據(jù),數(shù)據(jù)庫(kù)存儲(chǔ)的一般是歷史數(shù)據(jù)。錯(cuò)數(shù)據(jù)分析是指采用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集到的數(shù)據(jù)進(jìn)行分析、概括和總結(jié),對(duì)數(shù)據(jù)進(jìn)行恰當(dāng)?shù)拿枋觯⑻崛〕鲇杏玫男畔⒌倪^程。對(duì)數(shù)據(jù)分析的定義:數(shù)據(jù)分析就是對(duì)數(shù)據(jù)進(jìn)行分析。專業(yè)的說法,數(shù)據(jù)分析是指根據(jù)分析目的,用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法及工具,對(duì)收集來的數(shù)據(jù)進(jìn)行處理與分析,提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用。對(duì)數(shù)據(jù)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。錯(cuò)(說的是數(shù)據(jù)倉(cāng)庫(kù))第二章下面哪個(gè)不屬于數(shù)據(jù)的屬性類型(
)標(biāo)稱序數(shù)區(qū)間相異屬于定量的屬性類型是(
)標(biāo)稱序數(shù)區(qū)間相異一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是(
)一年級(jí)二年級(jí)三年級(jí)四年級(jí)假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn)化為(
)考慮數(shù)據(jù)集{12243324556826},其四分位數(shù)極差是(
)3124553光年所屬的屬性類型為(
)標(biāo)稱屬性序數(shù)屬性區(qū)間標(biāo)度屬性比率標(biāo)度屬性某班數(shù)學(xué)期末考成績(jī)分組數(shù)據(jù)如下,則數(shù)據(jù)的中位數(shù)區(qū)間是(
)60至69分70至79分80至89分90至100分軍銜所屬的屬性類型為(
)標(biāo)稱屬性序數(shù)屬性二元屬性數(shù)值屬性計(jì)算p1(2,1,4,10)和p2(3,0,3,8)兩個(gè)對(duì)象之間的曼哈頓距離(
)4253用AM和PM表示的時(shí)間的屬性類型是(
)標(biāo)稱序數(shù)二元區(qū)間屬性可分為標(biāo)稱、序數(shù)、二元和數(shù)值四類中心趨勢(shì)度量包括眾數(shù)、均值、中位數(shù)和中列數(shù)假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對(duì)應(yīng)的頻率如下。則數(shù)據(jù)的近似分組中位數(shù)是____。某部門的月薪情況如下(單位:千元),30,33,48,50,53,53,57,60,64,68,70,70,90,則該部門員工的月薪的均值為____。數(shù)據(jù)集{5,10,11,13,15,15,35,50,55,72,92,204,215}的中位數(shù)為____,眾數(shù)為____。3515假設(shè)小明某一學(xué)期的考試成績(jī)及每門課的學(xué)分如下表所示,則小明本學(xué)期的加權(quán)平均成績(jī)?yōu)椤=o定兩個(gè)對(duì)象的元組x=(4,3,5,1)與y=(1,6,7,3),它們之間的余弦相似度為____。小明參加數(shù)學(xué)競(jìng)賽選拔賽,他十次測(cè)試成績(jī)?yōu)椋?6,84,90,86,81,87,86,82,85,83。則小明同學(xué)十次測(cè)試成績(jī)的方差是____。已知點(diǎn)A的空間坐標(biāo)為(6,30,9),點(diǎn)B的空間坐標(biāo)為(10,35,2),則A與B之間的切比雪夫距離為____。7只有非零值才重要的二元屬性被稱作____。非對(duì)稱二元屬性某組同學(xué)的成績(jī)?cè)u(píng)定結(jié)果如下,則A與B,A與C,B與C之間的相異性是____、____和____。給定兩個(gè)詞向量元祖A(6,2,5,8)和B(4,5,2,6),則這兩個(gè)對(duì)象之間的閔可夫斯基距離(其中h=4)是____。假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,45,52,70。則該組數(shù)據(jù)的中列數(shù)是。人的血型屬于標(biāo)稱屬性。對(duì)酒店的星級(jí)屬于數(shù)值屬性。錯(cuò)(序列)某品種玉米苗中抽取10株,測(cè)得它們的株高為:21,42,39,14,19,22,37,41,40,25(單位:cm),則玉米苗株高的標(biāo)準(zhǔn)差為。對(duì)離散屬性總是具有有限個(gè)值。錯(cuò)標(biāo)稱屬性的值提供了足夠的信息用于區(qū)分對(duì)象。對(duì)數(shù)值屬性的值提供足夠的信息確定對(duì)象的順序。錯(cuò)歐幾里得距離、曼哈頓距離、閔可夫斯基距離和切比雪夫距離均滿足非負(fù)性、同一性和三角不等式。對(duì)余弦相似性利用向量空間中兩個(gè)向量夾角的余弦值來衡量?jī)蓚€(gè)個(gè)體間的差異。余弦值越接近0,夾角越大,向量之間匹配越大(小)。余弦值越接近1,夾角越小,向量之間匹配越小。錯(cuò)二元屬性的相異性有兩種,一種是對(duì)稱的二元相異性,另一種是非對(duì)稱的二元相異性。對(duì)已知點(diǎn)X的空間坐標(biāo)為(3,4,2),點(diǎn)Y的空間坐標(biāo)為(1,6,1),則X與Y的歐幾里得距離為3。對(duì)計(jì)算由不對(duì)稱的二元變量描述的對(duì)象間的相異度可以使用Jaccard系數(shù);計(jì)算用分類變量描述的對(duì)象間的相異度可以采用屬性值匹配的方法(屬性值匹配,相似度為1,否則為0);對(duì)第三章下面屬于維歸約常用的線性代數(shù)技術(shù)的有()主成分分析特征提取特征加權(quán)離散化將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)()頻繁模式挖掘分類和預(yù)測(cè)數(shù)據(jù)預(yù)處理數(shù)據(jù)流挖掘假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第幾個(gè)箱子內(nèi)()第一個(gè)第二個(gè)第三個(gè)第四個(gè)數(shù)據(jù)清理不包括以下哪些處理(
)缺失值的處理噪聲的處理重復(fù)數(shù)據(jù)的處理不一致數(shù)據(jù)的處理數(shù)據(jù)規(guī)范化方法包括(
)數(shù)據(jù)歸約數(shù)據(jù)泛化數(shù)據(jù)集成最小最大規(guī)范化給定一組二維樣本S,S={S1,S2,S3,S4,S5}={(1,2),(3,0),(4,3),(5,7),(1,6)},在距離閾值d大于等于4、非鄰點(diǎn)樣本的閾值部分p大于等于3時(shí)的噪聲數(shù)據(jù)為(
)歐幾里得距離S4,S5S1,S4S2,S5S1,S5兩組向量x={6,4,7,10,8},y={5,6,1,4,12}的協(xié)方差為(
)cov(x,y)=Exy-ExEy=E[(x-Ex)(y-Ey)]假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元祖中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。對(duì)age值35進(jìn)行小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換,轉(zhuǎn)換后的值為(
)已知某工廠車間工人的年終獎(jiǎng),其均值為34349元,標(biāo)準(zhǔn)差為16928元,對(duì)于觀測(cè)值為57000元,使用z-score方法對(duì)其進(jìn)行規(guī)范化為(
)假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元祖中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。使用min-max規(guī)范化,將age值35轉(zhuǎn)換d到[,]區(qū)間的值為(
)下列數(shù)據(jù)變換類型及方法正確的是(
)數(shù)據(jù)平滑:去噪,將連續(xù)數(shù)據(jù)離散化,增加粒度數(shù)據(jù)聚集:對(duì)數(shù)值屬性進(jìn)行監(jiān)督或無監(jiān)督離散化特征構(gòu)造:構(gòu)造出新的屬性數(shù)據(jù)規(guī)范化:使數(shù)據(jù)按照比例縮放,落入特定區(qū)域數(shù)據(jù)變換的類型包括(
)數(shù)據(jù)預(yù)處理數(shù)據(jù)泛華數(shù)據(jù)離散化特征構(gòu)造數(shù)據(jù)規(guī)約的技術(shù)包括維規(guī)約、數(shù)量規(guī)約、數(shù)據(jù)壓縮下面哪些屬于數(shù)據(jù)預(yù)處理的方法(
)變量代換離散化聚集估計(jì)遺漏值在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各方法正確的有(
)忽略元組從數(shù)據(jù)中挑選一個(gè)數(shù)據(jù)填寫使用屬性的平均值填寫空缺值使用與給定元組屬同一類的所有樣本的平均值數(shù)據(jù)清理的原則包括(
)相異性原則連續(xù)性原則唯一性原則空值原則高質(zhì)量數(shù)據(jù)的要求有準(zhǔn)確性、完整性、一致性數(shù)據(jù)預(yù)處理的技術(shù)手段包括數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元祖中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。已知age的標(biāo)準(zhǔn)偏差為年,使用z-score規(guī)范化對(duì)age值35進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換后得到的值為____。在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上的缺失值是常有的。處理該問題的常用方法有刪除數(shù)據(jù)對(duì)象或?qū)傩?、估?jì)遺漏值、忽略遺漏值對(duì)數(shù)據(jù)進(jìn)行偏差檢測(cè)的3個(gè)原則分別是唯一性原則、連續(xù)性原則、空值原則數(shù)據(jù)歸約技術(shù)包括維歸約、數(shù)量歸約、數(shù)據(jù)壓縮在使用分箱法實(shí)現(xiàn)特征離散化時(shí),可以用每個(gè)箱中的_____中值____或___平均值____替換箱中所有的值。某工廠車間工人的年終獎(jiǎng)金結(jié)果如下(已按照遞增排序):15750,20000,25000,36000,48000,50000,52000,56000,57000,68000,10000,135000(元)。使用最小-最大值規(guī)范化將獎(jiǎng)金57000轉(zhuǎn)換到[,]區(qū)間為
;使用小數(shù)定標(biāo)規(guī)范化將獎(jiǎng)金57000轉(zhuǎn)換到[-1,1]區(qū)間為
數(shù)據(jù)清理一般需要對(duì)
__缺失值__
和_噪聲_
進(jìn)行處理。我們要進(jìn)行數(shù)據(jù)預(yù)處理,是因?yàn)樵紨?shù)據(jù)大多都是“
臟數(shù)據(jù)
”。四種處理缺失數(shù)據(jù)的方法是____、____、____、____。人工填寫、使用全局常量填充缺失值、直接刪除缺失屬性的記錄、使用屬性的中心趨勢(shì)度量值填充缺失值數(shù)據(jù)平滑的方法包括
____
、____
和
____
。分箱、回歸、聚類噪聲是指被測(cè)量的變量產(chǎn)生的錯(cuò)誤或誤差。錯(cuò)數(shù)據(jù)規(guī)約技術(shù)可以得到數(shù)據(jù)集的規(guī)約表示,雖然小,但仍大致保持原數(shù)據(jù)的完整性。對(duì)數(shù)據(jù)變換是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對(duì)數(shù)據(jù)預(yù)處理的任務(wù)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)泛化。錯(cuò)唯一性原則是指一個(gè)屬性的每個(gè)值都是唯一的,不能和這個(gè)屬性的其他值相同。對(duì)數(shù)據(jù)變換策略主要包括光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造和離散化。對(duì)每個(gè)屬性的最大值和最小值之間沒有缺失值既滿足連續(xù)性原則。錯(cuò)數(shù)據(jù)挖掘所處理的數(shù)據(jù)必須具有準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和可解釋性。錯(cuò)數(shù)據(jù)規(guī)約就是指對(duì)數(shù)據(jù)集進(jìn)行簡(jiǎn)化表示。對(duì)數(shù)據(jù)集成有助于減少結(jié)果數(shù)據(jù)集的冗余和不一致,可以提高集成之后的挖掘過程的準(zhǔn)確性和速度。對(duì)在確定數(shù)據(jù)中的離群點(diǎn)時(shí),一般不必檢查整個(gè)數(shù)據(jù)集。對(duì)第四章數(shù)據(jù)倉(cāng)庫(kù)是隨著時(shí)間變化的,下面的描述不正確的是(
)捕捉到的新數(shù)據(jù)會(huì)覆蓋原來的快照數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)隨著事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)中的綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指(
)基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息基本元數(shù)據(jù)包括數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù)和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息下面關(guān)于數(shù)據(jù)粒度的描述不正確的是(
)數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越高粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)別也就越高粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量以及查詢質(zhì)量有關(guān)數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)特點(diǎn),不正確的描述是(
)數(shù)據(jù)倉(cāng)庫(kù)開發(fā)要從數(shù)據(jù)出發(fā)數(shù)據(jù)倉(cāng)庫(kù)使用的需求在開發(fā)時(shí)就要明確數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)是一個(gè)不斷循環(huán)的過程,是啟發(fā)式的開發(fā)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式在有關(guān)數(shù)據(jù)倉(cāng)庫(kù)測(cè)試,下列說法不正確的是(
)在完成數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過程中,需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行各種測(cè)試在數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行測(cè)試之前一般不必要制定非常詳細(xì)的測(cè)試計(jì)劃系統(tǒng)測(cè)試需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)的組件進(jìn)行大量的功能測(cè)試和回歸測(cè)試當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的每個(gè)單獨(dú)組件完成后,就需要對(duì)他們進(jìn)行單元測(cè)試OLAP技術(shù)的核心是(
)多維分析關(guān)于OLAP和OLTP的說法,下列不正確的是(
)OLAP管理大量歷史數(shù)據(jù),OLTP僅管理當(dāng)前數(shù)據(jù)OLAP主要用于事務(wù)和查詢處理,而OLTP用于數(shù)據(jù)分析OLAP中綜合提煉的數(shù)據(jù)主要來自O(shè)LTP所依賴的底層數(shù)據(jù)庫(kù)OLAP數(shù)據(jù)較之OLTP數(shù)據(jù)要進(jìn)行更多的數(shù)據(jù)維護(hù)或預(yù)處理的操作數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型不包含(
)概念模型邏輯模型關(guān)系模型物理模型改變數(shù)據(jù)立方體維次序的操作是(
)旋轉(zhuǎn)在給定的數(shù)據(jù)立方體的一個(gè)維度上進(jìn)行的選擇操作為(
)切片下列選項(xiàng)中關(guān)于粒度描述錯(cuò)誤的是:粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別;粒度影不響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小粒度影響數(shù)據(jù)倉(cāng)庫(kù)所能回答查詢問題的細(xì)節(jié)程度;粒度組織數(shù)據(jù)的方式有:①簡(jiǎn)單堆積結(jié)構(gòu);②輪轉(zhuǎn)綜合結(jié)構(gòu);③簡(jiǎn)單直接結(jié)構(gòu);④連續(xù)結(jié)構(gòu)。簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)模型及其基本內(nèi)容,不正確的是概念模型設(shè)計(jì):對(duì)問題域內(nèi)事務(wù)進(jìn)行描述,是在較高的抽象層次上的設(shè)計(jì),其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域;邏輯模型設(shè)計(jì):對(duì)概念模型細(xì)化,定義實(shí)體屬性及其關(guān)系,主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng);物理數(shù)據(jù)模型設(shè)計(jì):在數(shù)據(jù)庫(kù)中建立表及索引,主要內(nèi)容包括確定數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲(chǔ)分配以及確定索引策略等。三種模型設(shè)計(jì)時(shí)主要考慮的因素有I/O存取時(shí)間、空間利用率和維護(hù)代價(jià)等。關(guān)于OLAP的特性,下面正確的是(
)集成性快速性多維性可分析性數(shù)據(jù)模型是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的基礎(chǔ),一個(gè)完整、靈活、穩(wěn)定的數(shù)據(jù)模型對(duì)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的成功起到的重要作用有(
)利于數(shù)據(jù)的整合消除數(shù)據(jù)倉(cāng)庫(kù)的冗余數(shù)據(jù)排除數(shù)據(jù)描述的不一致性為整個(gè)系統(tǒng)建設(shè)提供導(dǎo)航圖根據(jù)使用情況的不同,元數(shù)據(jù)可以分為(
)技術(shù)元數(shù)據(jù);業(yè)務(wù)元數(shù)據(jù)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型,正確的說法有(
)是數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中的核心基礎(chǔ)對(duì)概念數(shù)據(jù)模型的分解和細(xì)化對(duì)物理模型設(shè)計(jì)和實(shí)現(xiàn)具有指導(dǎo)作用為全局服務(wù),集成全方位數(shù)據(jù)形成統(tǒng)一藍(lán)圖關(guān)于OLAP和OLTP的區(qū)別描述,正確的是(
)OLAP是信息處理,OLTP是操作處理OLAP面向底層管理人員,OLTP面向高層決策人員OLAP管理大量歷史數(shù)據(jù),OLTP主要關(guān)注當(dāng)前數(shù)據(jù)OLAP數(shù)據(jù)是細(xì)節(jié)性數(shù)據(jù),OLTP數(shù)據(jù)則是綜合性數(shù)據(jù)OLAP按照數(shù)據(jù)存儲(chǔ)格式劃分,實(shí)現(xiàn)方式有
__MOLAP__、__ROLAP__和HOLAP三種根據(jù)使用情況的不同,元數(shù)據(jù)可以分為_技術(shù)元數(shù)據(jù)___和業(yè)務(wù)元數(shù)據(jù);根據(jù)數(shù)據(jù)狀態(tài)的區(qū)別又可分為__靜態(tài)元數(shù)據(jù)__和動(dòng)態(tài)元數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)按照設(shè)計(jì)順序,依次分為_概念模型設(shè)計(jì)___、_邏輯模型設(shè)計(jì)___
和_物理模型設(shè)計(jì)__三個(gè)設(shè)計(jì)步驟OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫(kù)技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。錯(cuò)數(shù)據(jù)倉(cāng)庫(kù)中間層OLAP服務(wù)器只能采用關(guān)系型OLAP。錯(cuò)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成部分包括數(shù)據(jù)倉(cāng)庫(kù),倉(cāng)庫(kù)管理,數(shù)據(jù)抽取,分析工具等四個(gè)部分。錯(cuò)數(shù)據(jù)倉(cāng)庫(kù)測(cè)試工作中主要包括單元測(cè)試和系統(tǒng)測(cè)試。對(duì)改變數(shù)據(jù)立方體維度的操作稱為下鉆。錯(cuò)數(shù)據(jù)倉(cāng)庫(kù)實(shí)際的三級(jí)模型中的概念模型不是對(duì)軟件實(shí)際的描述。對(duì)數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)面向什么的數(shù)據(jù)集合主體、集成、非易失、時(shí)變數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)通常采用一種三層體系結(jié)構(gòu),底層、中間層、頂層分別通常為什么OLAP服務(wù)器、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、前端工具第五章回歸分析中使用的距離是點(diǎn)到直線的垂直坐標(biāo)距離,最小二乘準(zhǔn)則是指(
)。使各(Yt-Yt平均值)之和最小回歸分析的步驟為(
)。③確定變量②建立預(yù)測(cè)模型
①進(jìn)行相關(guān)分析
⑤計(jì)算預(yù)測(cè)誤④確定預(yù)測(cè)值
下列變量之間的關(guān)系是函數(shù)關(guān)系的是(
)已知二次函數(shù)y=ax2+bx+c,其中a,c是已知常數(shù),取b為自變量,因變量是這個(gè)函數(shù)的判別式Δ=b2-4ac。光照時(shí)間和果樹畝產(chǎn)量降雪量和交通事故發(fā)生率每畝施用肥料量和糧食產(chǎn)量對(duì)于回歸分析,下列說法錯(cuò)誤的是(
)在回歸分析中,變量間的關(guān)系若是非確定性關(guān)系,那么因變量不能由自變量唯一確定線性相關(guān)系數(shù)可以是正的,也可以是負(fù)的回歸分析中,如果r2=1,說明x與y之間完全相關(guān)樣本相關(guān)系數(shù)r∈(-1,1)某地區(qū)調(diào)查了2~9歲兒童的身高,由此建立的身高y(cm)與年齡x(歲)的回歸模型為y?=+,下列敘述正確的是(
)。該地區(qū)一個(gè)兒童的身高為該地區(qū)2~9歲的兒童每年的身高約增加該地區(qū)9歲兒童的平均身高是利用這個(gè)模型可以準(zhǔn)確地預(yù)測(cè)該地區(qū)每個(gè)2~9歲兒童的身高已知對(duì)一組觀察值做出散點(diǎn)圖后確定具有線性相關(guān)關(guān)系,若對(duì)于y=bx+a,求得b=,-x?=",-y?=,則線性回歸方程為(
)。
y=+
下表是x和y之間的一組數(shù)據(jù),則y關(guān)于x的回歸方程必過(
)。點(diǎn),4)平均值反映由模型中解釋變量所解釋的那部分離差大小的是(
)。總離差平方和回歸平方和殘差平方和可決系數(shù)總離差平方和TSS、殘差平方和RSS與回歸平方和ESS三者的關(guān)系是(
)。TSS=RSS+ESS決定系數(shù)R2的取值范圍是(
)。0<R2<1回歸分析中定義的(
)。解釋變量和被解釋變量都是隨機(jī)變量解釋變量為非隨機(jī)變量,被解釋變量為隨機(jī)變量解釋變量和被解釋變量都為非隨機(jī)變量?解釋變量為隨機(jī)變量,被解釋變量為非隨機(jī)變量最大或然準(zhǔn)則是按從模型中得到既得的n組樣本觀測(cè)值的什么最大的準(zhǔn)則確定樣本回歸方程(
)。概率下表為日本的匯率與汽車出口數(shù)量數(shù)據(jù),其中X為平均匯率(日元/美元),Y為汽車出口數(shù)量(萬輛),那么,X與Y的相關(guān)系數(shù)為(
)。已知某農(nóng)場(chǎng)通過試驗(yàn)取得早稻收獲量與春季降雨量和春季溫度的數(shù)據(jù)如下,則早稻收獲量對(duì)春季降雨量和春季溫度的二元線性回歸方程為(
)。y=++為研究某市家庭收入與月平均生活支出的關(guān)系,該市統(tǒng)計(jì)部門隨機(jī)調(diào)查了10個(gè)家庭,得數(shù)據(jù)如下,則回歸直線方程為()。y=+在回歸分析中,檢驗(yàn)線性相關(guān)顯著性常用的三種檢驗(yàn)方法,包含(
)。相關(guān)系數(shù)顯著性檢驗(yàn)法;t檢驗(yàn)法;F檢驗(yàn)法回歸方程y=
,則下列說法不正確的有(
)
y=-1515是回歸系數(shù)a是回歸系數(shù)ax=10時(shí),y=0下列關(guān)系中具有相關(guān)關(guān)系的是(
)。人的年齡與他擁有的財(cái)富之間的關(guān)系曲線上的點(diǎn)與該點(diǎn)的坐標(biāo)之間的關(guān)系蘋果的產(chǎn)量與氣候之間的關(guān)系森林中的同一種樹木,其斷面直徑與高度之間的關(guān)系下列變量中,屬于正相關(guān)的是(
)。收入增加,儲(chǔ)蓄額增加產(chǎn)量增加,生產(chǎn)費(fèi)用增加收入增加,支出增加價(jià)格下降,消費(fèi)增加回歸分析按照涉及變量的多少,分為:一元回歸分析,多元回歸分析若線性回歸方程中的回歸系數(shù)b=0,則相關(guān)系數(shù)r為:0某化工廠為預(yù)測(cè)產(chǎn)品的回收率y,需要研究它和原料有效成分含量x之間的相關(guān)關(guān)系,現(xiàn)取8對(duì)觀測(cè)值,計(jì)算得
,則其線性回歸方程為(系數(shù)保留兩位小數(shù))____y=+已知關(guān)于某設(shè)備的使用年限x與所支出的維修費(fèi)用y(萬元),有如下統(tǒng)計(jì)資料。若y對(duì)x呈線性相關(guān)關(guān)系,則回歸直線方程
,表示的直線一定過定點(diǎn):____平均值使用F檢驗(yàn)對(duì)多元線性回歸方程進(jìn)行線性關(guān)系的顯著性檢驗(yàn),所求F值越大,說明線性關(guān)系越:____顯著在使用決定系數(shù)R2對(duì)回歸方程進(jìn)行擬合優(yōu)度檢驗(yàn)時(shí),R2越大表示回歸方程的擬合程度越
____,R2越小表示回歸方程的擬合程度越____。好差回歸分析____是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。F檢驗(yàn)運(yùn)用服從F分布的統(tǒng)計(jì)量或方差比作為統(tǒng)計(jì)檢驗(yàn),通過____度量回歸方程的線性關(guān)系是否顯著顯著性水平檢驗(yàn)準(zhǔn)確率____是指分類器/回歸器正確地預(yù)測(cè)新的或先前未見過的數(shù)據(jù)的屬性值/類標(biāo)號(hào)的能力當(dāng)一些變量的值確定以后,另一些變量的值也隨之完全確定的關(guān)系,這些變量間的關(guān)系完全是已知的,變量間的關(guān)系可以用函數(shù)關(guān)系表示,我們稱之為____確定性關(guān)系變量之間有一定的依賴關(guān)系,變量之間雖然互相影響和制約,但由于受到無法估計(jì)和控制的因素的影響,使變量間的關(guān)系呈現(xiàn)不確定性,當(dāng)一些變量的值確定以后,另一些變量值雖然隨之變化,卻不能完全確定,這時(shí),變量間的關(guān)系就可以精確地用函數(shù)表示,即不能由一個(gè)或若干變量的值精確地確定另一個(gè)變量的值,我們稱這樣的關(guān)系為____非確定性關(guān)系在回歸分析中:被解釋變量y是____因變量、解釋變量x是____自變量?;貧w分析通常用于挖掘關(guān)聯(lián)規(guī)則錯(cuò)某塊農(nóng)田糧食的產(chǎn)量與施肥量之間的關(guān)系為不確定性關(guān)系對(duì)多元線性回歸是研究處理兩個(gè)變量之間關(guān)系的最簡(jiǎn)單模型錯(cuò)回歸分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法對(duì)時(shí)序預(yù)測(cè)與回歸預(yù)測(cè)一樣,也是用已知的數(shù)據(jù)預(yù)測(cè)未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處的時(shí)間不同錯(cuò)回歸分析按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析對(duì)一元線性回歸模型包含一個(gè)解釋變量和兩個(gè)被解釋變量錯(cuò)用總平方和表示因變量的n個(gè)觀察值與其均值的誤差的總和對(duì)一元k次多項(xiàng)式回歸方程為y=a1+b1x+b2x2+...+bkxk對(duì)應(yīng)用回歸預(yù)測(cè)法時(shí),即使變量之間不存在相關(guān)關(guān)系,也可以對(duì)這些變量應(yīng)用回歸預(yù)測(cè)法錯(cuò)多元線性回歸模型表示的是多個(gè)自變量與一個(gè)因變量之間的關(guān)系對(duì)SVM通過什么實(shí)現(xiàn)線性不可分割問題核函數(shù)第六章下列幾種數(shù)據(jù)挖掘功能中被廣泛的用于購(gòu)物籃分析的是()關(guān)聯(lián)分析某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題()關(guān)聯(lián)規(guī)則發(fā)現(xiàn)設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生多少個(gè)關(guān)聯(lián)規(guī)則()6置信度(confidence)是衡量哪種興趣度度量的指標(biāo)()確定度關(guān)聯(lián)規(guī)則的支持度公式為()support(A=>B)=P(B|A)下列指標(biāo)中,能夠度量一個(gè)規(guī)則的強(qiáng)度,同時(shí)衡量?jī)蓚€(gè)集合之間的獨(dú)立性的是()確定度規(guī)則?→A和A→?的置信度是()100%令C1,C2和C3分別是規(guī)則{p}→{q},{p}→{q,r},{p,r}→{q}的置信度。如果假定C1,C2和C3有不同的值,置信度最低的規(guī)則是()C2購(gòu)買HDTV和購(gòu)買健身器的情況如下表所示,設(shè)最小支持度閾值為,最小置信度閾值為,則{買HDTV}→{買健身器}的支持度為()上一題所給的數(shù)據(jù)中,{買HDTV}→{買健身器}的置信度為()如果X∈Y,且Y中至少有一項(xiàng)不在X中,那么Y是X的()真超項(xiàng)集下列關(guān)于Apriori算法的分析中,錯(cuò)誤的是()Apriori算法基于支持度的剪枝技術(shù),用來控制候選項(xiàng)集的指數(shù)增長(zhǎng)Apriori算法包括候選集生成和向下封閉檢測(cè)兩個(gè)階段Apriori算法會(huì)掃描數(shù)據(jù)庫(kù)2次;Apriori算法使用逐層搜索的迭代方法下表所示的購(gòu)物籃事務(wù)數(shù)據(jù)集中能夠提取的3-項(xiàng)集的最大數(shù)量是()6下列不屬于Apriori算法的缺點(diǎn)的是()Apriori算法分為兩個(gè)階段挖掘頻繁項(xiàng)集Apriori算法產(chǎn)生候選項(xiàng)目集時(shí)沒有排除無用的候選項(xiàng)集Apriori算法在每一步產(chǎn)生候選項(xiàng)目集時(shí)循環(huán)產(chǎn)生的組合過多在掃描大型數(shù)據(jù)庫(kù)時(shí),Apriori算法會(huì)大大增加計(jì)算機(jī)系統(tǒng)I/O開銷;考慮如下的頻繁3-項(xiàng)集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。選出根據(jù)Apriori算法利用上述頻繁3-項(xiàng)集生成的候選4-項(xiàng)集(){1,2,3,4}{1,2,3,5}{1,2,4,5}{2,3,4,5}下表是一個(gè)購(gòu)物籃,假定支持度閾值為40%,其中哪幾個(gè)是頻繁閉項(xiàng)集()abc;de一個(gè)數(shù)據(jù)庫(kù)有5個(gè)事務(wù),如下表所示。設(shè)min_sup=60%,min_conf=80%。從下列選項(xiàng)中選出頻繁2-項(xiàng)集(){M,K}{O,K}{K,E}以下關(guān)于非頻繁模式說法,正確的是()其支持度小于閾值都是不讓人感興趣的其支持度大于閾值對(duì)異常數(shù)據(jù)項(xiàng)敏感下列關(guān)于FP-growth算法優(yōu)缺點(diǎn)的表述中,正確的有()相比于Apriori算法,F(xiàn)P-growth算法運(yùn)行速度要快一個(gè)數(shù)量級(jí)FP-growth算法在建立FP-tree時(shí)占用空間較小FP-growth算法無須多次掃描數(shù)據(jù)庫(kù),節(jié)省了運(yùn)行時(shí)間FP-growth算法處理產(chǎn)生的條件樹時(shí)會(huì)占用很多資源Aprior算法包括__連接__和_剪枝___兩個(gè)基本步驟關(guān)聯(lián)規(guī)則的經(jīng)典算法包括__Apriori__和_FP-growth___,其中__FP-growth__的效率更高。如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},則連接產(chǎn)生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}關(guān)聯(lián)規(guī)則的置信度公式為confidence(A=>B)=P(B|A)同時(shí)滿足__最小支持度閾值__和__最小置信度閾值__的規(guī)則稱之為強(qiáng)關(guān)聯(lián)規(guī)則如果一個(gè)項(xiàng)集的直接超集都不具有和它相同的支持度計(jì)數(shù),則稱其為:閉項(xiàng)集在挖掘閉模式算法中,直接搜索閉頻繁項(xiàng)集,并對(duì)結(jié)果進(jìn)行剪枝是最常用的方法,其中剪枝的策略包括___項(xiàng)合并_和__子項(xiàng)集剪枝__。不包含任何考察項(xiàng)集的事務(wù)稱為:零事務(wù)頻繁出現(xiàn)在數(shù)據(jù)集中的模式稱為:頻繁模式關(guān)聯(lián)規(guī)則挖掘任務(wù)主要分為__頻繁項(xiàng)集的產(chǎn)生__和__關(guān)聯(lián)規(guī)則的產(chǎn)生__兩個(gè)子任務(wù)。大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則挖掘包含找出所有__頻繁項(xiàng)集__和由_頻繁項(xiàng)集___產(chǎn)生__強(qiáng)關(guān)聯(lián)規(guī)則__兩個(gè)過程。FP-growth算法的基本思想是用FP-growth
__遞歸增長(zhǎng)__
形成頻繁集。某個(gè)食品連鎖店每周的事務(wù)記錄如下表所示,每個(gè)事務(wù)表示在一項(xiàng)收款機(jī)業(yè)務(wù)中賣出的商品項(xiàng)集,假定min_sup=40%,min_conf=40%,使用Apriori算法生成的強(qiáng)關(guān)聯(lián)規(guī)則有
____和____兩項(xiàng)。{面包}->{花生醬}{花生醬}->{面包}事物t={牛奶,面包,啤酒}是__3__項(xiàng)集FP-growth算法在一次運(yùn)行中掃描__2__次數(shù)據(jù)庫(kù)。計(jì)算關(guān)聯(lián)規(guī)則{牛奶}=>{咖啡}的支持度和置信度:________(答案保留小數(shù)點(diǎn)后兩位)從上題的數(shù)據(jù)中計(jì)算牛奶與咖啡之間的提升度和杠桿度:________(答案保留小數(shù)點(diǎn)后一位)一個(gè)數(shù)據(jù)庫(kù)有5個(gè)事務(wù),如下表所示。設(shè)min_sup=60%,min_conf=80%。用Apriori算法找出所有3頻繁項(xiàng)集(答案中不要有空格,標(biāo)點(diǎn)符號(hào)用半角):____{O,K,E}計(jì)算{面包(A)=>啤酒(E)}的支持度:____(保留小數(shù)點(diǎn)后一位)從上題的數(shù)據(jù)中計(jì)算規(guī)則{面包(A)}=>{甜醬(B)}的置信度:____(答案保留小數(shù)點(diǎn)后兩位)關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。錯(cuò)利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)。對(duì)先驗(yàn)原理可以表述為:如果一個(gè)項(xiàng)集是頻繁的,那包含它的所有項(xiàng)集也是頻繁的。錯(cuò)先驗(yàn)原理可以表述為:如果一個(gè)項(xiàng)集是頻繁的,那包含它的所有非空子集也是頻繁的。對(duì)具有較高的支持度的項(xiàng)集具有較高的置信度。錯(cuò)如果兩個(gè)項(xiàng)集的提升度的值小于1,則說明兩個(gè)項(xiàng)集正相關(guān)。錯(cuò)兩個(gè)項(xiàng)集的全置信度越大,說明兩個(gè)項(xiàng)集的關(guān)系越緊密,反之則關(guān)系越疏遠(yuǎn)。對(duì)極大頻繁項(xiàng)集的直接超集都不是頻繁的。對(duì)可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。對(duì)Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。對(duì)關(guān)聯(lián)規(guī)則是形如X=>Y的蘊(yùn)含式,X和Y滿足:X和Y是I的真子集,并且X和Y的交集為空集。對(duì)設(shè)最小支持度閾值為30%,最小置信度閾值為70%,如果一個(gè)項(xiàng)集的支持度為50%,則該項(xiàng)集是頻繁項(xiàng)集。對(duì)第七章某蘋果數(shù)據(jù)集如下所示,K近鄰分類法(K取3)對(duì)(色度=,高度=,寬度=)的蘋果進(jìn)行分類的結(jié)果為()布瑞本下列是有關(guān)于是否投保的數(shù)據(jù)集,第二列至第四列為特征,表中最后一列類別代表是否投保,按照“年薪”進(jìn)行劃分的信息增益率為()考慮下表中的數(shù)據(jù)集,使用貝葉斯分類預(yù)測(cè)記錄X=(有房=否,婚姻狀況=已婚,年收入=120k)的類標(biāo)號(hào)()No考慮下表中的一維數(shù)據(jù)集,根據(jù)1-最近鄰、3-最近鄰、5-最近鄰、9-最近鄰,對(duì)數(shù)據(jù)點(diǎn)x=分類,使用多數(shù)表決()+、-、+、-下表給出了一個(gè)關(guān)于動(dòng)物類別的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)集包含5個(gè)屬性:warm_blooded、feathers、fur、swims、lays_eggs。若樣本按warm_blooded劃分,對(duì)應(yīng)的熵為()下面的例子被分為3類:{Short,Tall,Medium},Height屬性被劃分為(0,),(,),(,),(,),(,),(,∞),根據(jù)下表,對(duì)于t=<Adam,M,>用貝葉斯分類方法進(jìn)行分類,則最終結(jié)果為()Tall下列是有關(guān)于是否購(gòu)買電腦的數(shù)據(jù)集,其中學(xué)歷,是否結(jié)婚,收入為特征,表中最后一列類別代表是否購(gòu)買電腦,則數(shù)據(jù)集的信息熵為()下面的數(shù)據(jù)集包含兩個(gè)屬性X和Y,兩個(gè)類標(biāo)號(hào)"+"和"-"。每個(gè)屬性取三個(gè)不同的值:0,1或2。"+"類的概念是Y=1,"-"類的概念是X=0或X=2。則由表構(gòu)建的決策樹的F1值(對(duì)"+"類定義)是(
)。決策樹分類的主要包括()對(duì)數(shù)據(jù)源進(jìn)行OLAP,得到訓(xùn)練集和測(cè)試集對(duì)訓(xùn)練集進(jìn)行訓(xùn)練;對(duì)初始決策樹進(jìn)行樹剪枝由所得到的決策樹提取分類規(guī)則使用測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè),評(píng)估決策樹模型下列哪些是分類與預(yù)測(cè)的不同之處()分類的作用是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型;分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽預(yù)測(cè)是建立一個(gè)模型去預(yù)測(cè)缺失的或無效的并且通常是數(shù)字的數(shù)據(jù)值預(yù)測(cè)典型的應(yīng)用是預(yù)測(cè)缺失的數(shù)字型數(shù)據(jù)的值下列哪些是樸素貝葉斯分類的優(yōu)缺點(diǎn)()樸素貝葉斯分類做了類條件獨(dú)立假設(shè),大幅降低了計(jì)算開銷需要大量訓(xùn)練數(shù)據(jù)以覆蓋類條件概率空間,引入了很大開銷;容易實(shí)現(xiàn)并在大多數(shù)情況下可以取得較好的結(jié)果類條件獨(dú)立在實(shí)際應(yīng)用中缺乏準(zhǔn)確性,因?yàn)樽兞恐g經(jīng)常存在依賴關(guān)系,這種依賴關(guān)系影響了樸素貝葉斯分類器的準(zhǔn)確性支持向量機(jī)模型包括()線性可支持向量機(jī);線性支持向量機(jī)貝葉斯信念網(wǎng)絡(luò)(BBN)有哪些特點(diǎn)()構(gòu)造網(wǎng)絡(luò)費(fèi)時(shí)費(fèi)力對(duì)模型的過分問題非常魯棒有效地避免過擬合;最小化計(jì)算開銷;當(dāng)一個(gè)數(shù)據(jù)對(duì)象同時(shí)屬于多個(gè)類時(shí),很難評(píng)估分類的準(zhǔn)確率。通常在這種情況下,我們選擇的分類器一般趨向于含有這樣的特征:最小化計(jì)算開銷,即使給予噪聲數(shù)據(jù)或不完整數(shù)據(jù)也能準(zhǔn)確預(yù)測(cè),在大規(guī)模數(shù)據(jù)下仍然有效工作,提供簡(jiǎn)明易懂的結(jié)果。對(duì)KNN的主要思想是計(jì)算每個(gè)訓(xùn)練數(shù)據(jù)(每個(gè)訓(xùn)練數(shù)據(jù)都有一個(gè)唯一的類別標(biāo)識(shí))到待分類元祖的距離,取和待分類元祖距離最近的k個(gè)訓(xùn)練數(shù)據(jù)集,k個(gè)數(shù)據(jù)中哪個(gè)類別的訓(xùn)練數(shù)據(jù)占多數(shù),則待分類元祖就屬于那個(gè)類別。對(duì)給定決策樹,選項(xiàng)有:(1)將決策樹轉(zhuǎn)換成規(guī)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 兼職維修工設(shè)備檢修合同
- 勞動(dòng)糾紛解除勞動(dòng)合同范本
- 液化氣運(yùn)輸新司機(jī)勞動(dòng)合同
- 文化藝術(shù)租賃經(jīng)營(yíng)合同
- 塑料制品樁基工程承包協(xié)議
- 建筑檢測(cè)班組施工合同
- 市政工程塔吊施工協(xié)議
- 智能停車場(chǎng)布線工程合同
- 橋梁維修維護(hù)鉆探服務(wù)協(xié)議
- 保安設(shè)備銷售合同評(píng)審手冊(cè)
- 小學(xué)數(shù)學(xué)六年級(jí)“24點(diǎn)”試題及答案
- Tekla建??旖萱I
- 大航海時(shí)代四特產(chǎn)分布
- 鉆孔灌注樁驗(yàn)孔記錄表
- 法語書信格式(正式版)
- 偏差管理控制程序
- 客戶信息登記表
- 二手車復(fù)習(xí)題終極版本
- 畢業(yè)設(shè)計(jì)說明書螺旋精確稱重給料機(jī)設(shè)計(jì)
- 十大危險(xiǎn)作業(yè)
- 組織文化研究文獻(xiàn)綜述
評(píng)論
0/150
提交評(píng)論