數(shù)據(jù)分析方法與技術(shù)作業(yè)及答案_第1頁
數(shù)據(jù)分析方法與技術(shù)作業(yè)及答案_第2頁
數(shù)據(jù)分析方法與技術(shù)作業(yè)及答案_第3頁
數(shù)據(jù)分析方法與技術(shù)作業(yè)及答案_第4頁
數(shù)據(jù)分析方法與技術(shù)作業(yè)及答案_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、一、填寫題(抄題,寫答案)1. 數(shù)據(jù)分析“六步曲”按順序依次是: 明確分析目的和內(nèi)容 、 數(shù)據(jù)收集 、 數(shù)據(jù)處理 、 數(shù)據(jù)分析 、 數(shù)據(jù)展現(xiàn) 、 報(bào)告撰寫 。2. 定量數(shù)據(jù)一般可分為 計(jì)量的 、 計(jì)數(shù)的 、二種類型。定性數(shù)據(jù)一般可分為 有序的 、 名義的 、二種類型。3. 數(shù)據(jù)收集方法總的可分為 一手?jǐn)?shù)據(jù) 、二手?jǐn)?shù)據(jù) 、兩大類。前一類方法常用的具體方法有 調(diào)查法 、 觀察法 、 實(shí)驗(yàn)法 ;后一類方法常用的具體方法有 機(jī)構(gòu)查詢 、 書刊查詢 、 網(wǎng)絡(luò)查詢 。4. SPSS中有三種主要的工作窗口,它們是: 數(shù)據(jù)編輯窗口 、 結(jié)果瀏覽窗口 、 程序編輯窗口 ;在進(jìn)行數(shù)據(jù)表編輯時(shí),有二種主要視圖,它們

2、是: 數(shù)據(jù)視圖 、 變量視圖 。5. SPSS中對變量屬性進(jìn)行定義時(shí),對變量的命名在 Name 欄中設(shè)置,定義變量值標(biāo)簽在 Values 欄中設(shè)置。6. 根據(jù)數(shù)據(jù)的計(jì)量性質(zhì),可以將數(shù)據(jù)分為 定量的 數(shù)據(jù)和 定性的 數(shù)據(jù);根據(jù)數(shù)據(jù)獲得的直接性,可以將數(shù)據(jù)分為 一手 數(shù)據(jù)和 二手 數(shù)據(jù)。7. 統(tǒng)計(jì)檢驗(yàn)的一種思路是:設(shè)定原假設(shè) H0,構(gòu)造相應(yīng)的統(tǒng)計(jì)判斷量,當(dāng)根據(jù)實(shí)驗(yàn)數(shù)據(jù)或樣本數(shù)據(jù)計(jì)算出的統(tǒng)計(jì)判斷量 落在拒絕區(qū)域 ,則拒絕原假設(shè);反之,則 落在接受區(qū)域,接受原假設(shè) 。在SPSS軟件的統(tǒng)計(jì)操作中,通過計(jì)算樣本數(shù)據(jù)的實(shí)際顯著性概率Sig.,并將其與給定的顯著性概率水平 比較,當(dāng) Sig. < 時(shí)(填

3、 “>” 或 “<” ),則拒絕原假設(shè)。8. 方差分析主要用來判斷樣本數(shù)據(jù)之間的差異是由 不可控的隨機(jī)因素 造成的還是由 研究中施加的對結(jié)果形成影響的可控因素 造成的。9. 因子分析法是 多元統(tǒng)計(jì)分析中處理降維 的一種,其最主要的工作是 降維 ,即 將具有錯(cuò)綜復(fù)雜關(guān)系的變量或者樣品綜合為數(shù)量較少的幾個(gè)因子,以再現(xiàn)原始變量與因子之間的相互關(guān)系 。10. 下圖所示因子分析結(jié)果中,數(shù)值6.845的含義是 第一主成分特征根 ,數(shù)值84.421的含義是 前三個(gè)主成分的累計(jì)貢獻(xiàn)率;在Extraction Sums塊中,有三行數(shù)據(jù),其含義是 根據(jù)提取因子條件-特征值大于1,共選出了三個(gè)公共因子

4、。11. 下圖所示橢圓圈中信息的含義 11變量,200樣例 。 12. 強(qiáng)規(guī)則是指: 同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則 。13. Statistica中實(shí)現(xiàn)聚類分析的過程是:Statistics/ Multivariate Exploratory Techniques/ Cluster Analysis 。14. 在對二值變量定類數(shù)據(jù)的距離進(jìn)行計(jì)算時(shí),若認(rèn)為所取兩個(gè)值的地位不對等,則可以用 雅克比匹配系數(shù) 對距離進(jìn)行度量。15. 熵可以作為訓(xùn)練集的 不純度 度量,熵越大, 不純度 就越 高 (高或低)。決策樹的分枝原則就是使劃分后的樣本的子集越 純 越好,即它們的熵越 小 越好。1

5、6. C&RT算法的全稱是 Classification and Regression Trees ,它所構(gòu)成的決策樹是 二叉樹 ,該算法用 gini指標(biāo) 指標(biāo)作為選擇分枝方案的依據(jù),在選擇分枝方案時(shí),需經(jīng)兩步完成,第一步, 在每個(gè)節(jié)點(diǎn)處評估所有屬性的每個(gè)標(biāo)準(zhǔn)問題的 gini 指標(biāo) ,第二步, 選擇gini 指標(biāo)最大的標(biāo)準(zhǔn)問題作為分枝方案 。17. 已知某數(shù)據(jù)集中某屬性的不同取值為,2.6,1, 2.9, 2,5,4.2,2.3,3 ,則該屬性的標(biāo)準(zhǔn)問題集為 Is A1.5,Is A2.15,Is A2.45,Is A2.75,Is A2.95,Is A3.6,Is A4.6 。18.

6、 已知某數(shù)據(jù)集中某屬性的不同取值為,優(yōu),良,中,差,則該屬性的標(biāo)準(zhǔn)問題集為 Is A優(yōu),Is A良,Is A中,Is A優(yōu),良,Is A良,中,Is A優(yōu),中,Is A優(yōu),良,中。二、單項(xiàng)選擇題(抄題干及你認(rèn)為正確的選項(xiàng),圖可以不畫)1. Excel中,當(dāng)把F7單元格復(fù)制到G8單元格時(shí)出現(xiàn)了如下信息提示,關(guān)于這一現(xiàn)象,以下描述正確的是( C )。(A) G8單元格的數(shù)據(jù)應(yīng)該是17,可能格式設(shè)置為小數(shù)點(diǎn)后5位,超過了單元格顯示區(qū)域,出現(xiàn)此提示(B) C8或D8單元格的數(shù)據(jù)有問題 (C) D8和E8不能相加(D) F8為空值,無法加總得到結(jié)果2. 在Excel中,要實(shí)現(xiàn)如下圖所示的匯率換算,可以在

7、D5單元格中輸入(B ),之后將它復(fù)制到下面的單元格,就可以實(shí)現(xiàn)不同幣值的換算。(A) $C$2*C5 (B) =C$2*C5 (C) =6.912*786 (D) =C2*C53. 以下關(guān)于SPSS中定義變量值標(biāo)簽的描述中,錯(cuò)誤的是(C)(A) 定義值標(biāo)簽可簡化數(shù)據(jù)錄入 (B) 在顯示數(shù)據(jù)表時(shí),通過點(diǎn)擊工具欄中的Value Labels按鈕,可以在標(biāo)簽和值之間切換顯示 (C) 通過定義值標(biāo)簽可以為不同范圍的數(shù)據(jù)定義不同的標(biāo)簽顯示(D) 值標(biāo)簽的定義可以實(shí)現(xiàn)只輸入標(biāo)簽就可以輸入實(shí)際的數(shù)據(jù)4. SPSS19版本中數(shù)據(jù)文件的擴(kuò)展名是(A)(A) .sav (B) .sps (C) .dat (D)

8、 .xls5. 如果將數(shù)據(jù)分析方法論比喻成服裝設(shè)計(jì)圖,則服裝制作中的平面、立體剪裁、合縫、包縫等相當(dāng)于數(shù)據(jù)分析中的(C)(A) 分析工具 (B) 分析技術(shù) (C) 分析思路 (D) 補(bǔ)充分析 6. 以下統(tǒng)計(jì)量中,反映集中趨勢的量有(B,C,E )(A) 標(biāo)準(zhǔn)誤 (B) 平均值 (C) 眾數(shù) (D)方差 (E)四分位數(shù)7. 以下關(guān)于SPSS中定義變量值標(biāo)簽的描述中,錯(cuò)誤的是(C )(A) 定義值標(biāo)簽可簡化數(shù)據(jù)錄入 (B) 在顯示數(shù)據(jù)表時(shí),通過點(diǎn)擊工具欄中的Value Labels按鈕,可以在標(biāo)簽和值之間切換顯示 (C) 通過定義值標(biāo)簽可以為不同范圍的數(shù)據(jù)定義不同的標(biāo)簽顯示(D) 值標(biāo)簽的定義可以

9、實(shí)現(xiàn)只輸入標(biāo)簽就可以輸入實(shí)際的數(shù)據(jù)8. SPSS中實(shí)現(xiàn)二變量相關(guān)分析的過程是( A )。(A) 【Analyze】/【Correlate】/【Bivariate】 (B) 【Analyze】/【Compare Means】/【Bivariate】(C) 【Analyze】/【Correlate】/【Partial】 (D) 【Analyze】/【Factor Analysis】9. 因子分析中KMO檢驗(yàn)的作用是(C )。(A) 檢驗(yàn)各因子的齊次性 (B) 說明各原始變量與因子的相關(guān)性(C) 檢驗(yàn)因子分析的可行性 (D) 其作用與LSB檢驗(yàn)效果相同10. EM聚類主要基于( C )進(jìn)行聚類。(A

10、) 樣本點(diǎn)之間的距離 (B) 樣本點(diǎn)之間的相似度 (C) 數(shù)理統(tǒng)計(jì)模型(D) 熵函數(shù)的計(jì)算11. 以下關(guān)于信度的描述中,錯(cuò)誤的是(D ):(A) 信度是反映測量的穩(wěn)定性與一致性的一個(gè)指標(biāo)(B) 大部分信度指標(biāo)都是以相關(guān)系數(shù)表示的(C) 如果一個(gè)問卷在測試中不受調(diào)查環(huán)境各種因素的影響,就說該問卷的信度系數(shù)等于1(D) 問卷信度的高低,取決于我們對系統(tǒng)誤差的控制程度12. 以下關(guān)于信度的描述中,正確的是(B ):(A) 信度高,則效度一定高(B) 效度高,則信度一定高(C) 0.6 << 0.7 量表設(shè)計(jì)存在問題,但有參考價(jià)值(D) 折半信度系數(shù)是從問卷中取出一半來計(jì)算其克朗巴哈系數(shù)1

11、3. 對數(shù)據(jù)挖掘這一概念的理解,以下描述錯(cuò)誤的是(A )。(A) 發(fā)現(xiàn)的知識要可接受、可理解,且要有普遍的指導(dǎo)意義(B) 一般數(shù)據(jù)源是歷史數(shù)據(jù),具有相對的穩(wěn)定性(C) 發(fā)現(xiàn)的是用戶感興趣的知識(D) 數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的14. 關(guān)于下圖所反映的關(guān)聯(lián)規(guī)則分析結(jié)果,以下描述中錯(cuò)誤的是(D)。(A) 這里的關(guān)聯(lián)規(guī)則可以描述為 IF Body THEN Head的形式(B) IF (Gender=Male) Then (Pizza) 的置信度是70.12195%(C) 在此題中,IF (Gender=Male) Then (Pizza) 與IF (Pizza) Then(Gender=

12、Male)的支持度均相同,這是正確的 (D) 在此題中57.5%的支持度表示的是Head supp。15. 關(guān)于下圖的描述中,錯(cuò)誤的是(C )。(A) 上圖反映了質(zhì)心之間的距離(B) 上圖反映了兩個(gè)類之間的距離(C) 這是K-means聚類分析的結(jié)果,即基于分類的成批修改法(D) 類之間距離的計(jì)算方法有最長距離法、最短距離法等三、簡答題(抄題干及分析,不用畫圖)1. 區(qū)分如下四個(gè)概念:類型抽樣、等距抽樣、整群抽樣、多階段抽樣。類型抽樣類型抽樣也稱分層抽樣,是將總體中的各單位按照某種特征或某種規(guī)則劃分成若干個(gè)不同的類型組,然后從各類型組中獨(dú)立、隨機(jī)地抽取樣本,再將各類型組的樣本結(jié)合起來,對總體的

13、目標(biāo)量進(jìn)行估計(jì)。等距抽樣等距抽樣又稱系統(tǒng)抽樣,是將總體中各單位按照某一標(biāo)志順序排列,在規(guī)定的范圍內(nèi)隨機(jī)確定起點(diǎn),然后按照一定的間隔抽取其他樣本單位的抽樣組織形式。整群抽樣整群抽樣是將總體各單位劃分為若干群,然后以群為單位從中隨機(jī)抽取一些群,對抽中群的所有單位都進(jìn)行調(diào)查的抽樣組織形式。多階段抽樣多階段抽樣也稱多級抽樣或階段抽樣,是將對總體單位的整個(gè)抽樣過程分為兩個(gè)或更多個(gè)階段進(jìn)行,先從總體中抽選若干個(gè)大的樣本群,稱為第一階段單位,然后從被抽中的若干個(gè)大的單位群中,抽選較小的樣本單位,以此類推。2. 為什么要進(jìn)行數(shù)據(jù)清洗?1. 重復(fù)數(shù)據(jù)處理 2. 處理缺失數(shù)據(jù)3. 檢查數(shù)據(jù)邏輯錯(cuò)誤數(shù)據(jù)倉庫中的數(shù)據(jù)

14、是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。3. 數(shù)據(jù)分析方法論與具體的數(shù)據(jù)分析方法有何區(qū)別?數(shù)據(jù)分析方法論與數(shù)據(jù)分析法的區(qū)別 數(shù)據(jù)分析方法論主要用來指導(dǎo)數(shù)據(jù)分析師進(jìn)行一個(gè)完整的數(shù)據(jù)分析,它更多的是指導(dǎo)數(shù)據(jù)分析思路,比如,主要從哪幾個(gè)方面開展數(shù)據(jù)分析?各方面包含什么內(nèi)容或指標(biāo)?數(shù)據(jù)分析方法論從宏觀角度指導(dǎo)如何進(jìn)行數(shù)據(jù)分析,它就像是一個(gè)數(shù)據(jù)分析的前期規(guī)劃,指導(dǎo)著后期數(shù)據(jù)分析工作的

15、開展。而數(shù)據(jù)分析法則是指各種具體的方法,主要從微觀層面指導(dǎo)如何進(jìn)行數(shù)據(jù)分析。4. 簡述類型抽樣與整群抽樣的區(qū)別。5. 在數(shù)據(jù)分析方法的層次上,5W2H屬于方法論還是具體的方法,簡述其主要內(nèi)容。方法論,具體內(nèi)容:why(何因)what(何事) who(何人)when(何時(shí))where(何地) how(如何做) how much(何價(jià))。(1) WHAT-是什么?目的是什么?做什么工作?(2) HOW -怎么做?如何提高效率?如何實(shí)施?方法怎樣?(3) WHY-為什么?為什么要這么做?理由何在?原因是什么?造成這樣的結(jié)果為什么?(4)WHEN-何時(shí)?什么時(shí)間完成?什么時(shí)機(jī)最適宜?(5) WHERE

16、-何處?在哪里做?從哪里入手?(6) WHO-誰?由誰來承擔(dān)?誰來完成?誰負(fù)責(zé)?(7) HOW MUCH-多少?做到什么程度?數(shù)量如何?質(zhì)量水平如何?費(fèi)用產(chǎn)出如何?6. 假設(shè)檢驗(yàn)的總體思路是怎樣的,簡述之。(PPT 95)總思路是:1)根據(jù)問題的需要對所研究的總體作某種假設(shè),記作 H0;2)選取合適的統(tǒng)計(jì)量,這個(gè)統(tǒng)計(jì)量的選取要使得在假設(shè) H0 成立時(shí),其分布為已知;3)由實(shí)測的樣本,計(jì)算出統(tǒng)計(jì)量的值,并根據(jù)預(yù)先給定的顯著性水平進(jìn)行檢驗(yàn),作出拒絕或接受假設(shè) H0 的判斷。7. 以下為SPSS中相關(guān)分析的結(jié)果圖,試對其進(jìn)行分析。從上圖可知,皮爾森相關(guān)系數(shù)是為-0.449,Sig.=0.013,樣本

17、量為30,Sig.<0.05,拒絕原假設(shè),接收備選假設(shè),即。即文盲率與人均GDP存在相關(guān)性,文盲率與人均GDP負(fù)相關(guān),但是-0.5<-0.449<0,所以相關(guān)性較小。8. 以下為SPSS中方差分析的結(jié)果圖,試對其進(jìn)行分析。從上圖可知組間離差平方和為,組內(nèi)離差平方和為,總離差平方和為,自由度為分別為:,組間均方和為組內(nèi)均方和為,Sig.<0.05,拒絕原假設(shè),接收備選假設(shè),即平均畝產(chǎn)各不相同,且Between Groups>Within Groups的值,即品種對平均畝產(chǎn)有較大的影響。9. 根據(jù)下圖說明此數(shù)據(jù)挖掘算法是什么,并說明圖中各主要參數(shù)項(xiàng)的含義。 自下而上的

18、聚合型層次聚類,采用最短距離法,amalgamation(融合,混合)計(jì)算歐式距離,對原始數(shù)據(jù)中變量1,3-4,6-8進(jìn)行聚類,Casewise 對樣本的智能處理,默認(rèn)是在統(tǒng)計(jì)時(shí)不取該行數(shù)據(jù)。10. 聚類算法和分類算法有哪些區(qū)別?各自的目標(biāo)是什么? “聚類分析”往往預(yù)先不知道各分類集合的目標(biāo)屬性,只有通過其它已知屬性按聚類算法得到分類之后,才去分析各分類的特征,歸納出目標(biāo)屬性。其方向是通過 “聚”來得到分類。例如對銀行客戶的劃分。 “分類分析”對于目標(biāo)屬性及其取值是已知的,其目標(biāo)是在已知的數(shù)據(jù)集中去發(fā)現(xiàn)其它屬性與目標(biāo)屬性的某種規(guī)則模型,這一模型要能對未知對象的目標(biāo)屬性進(jìn)行準(zhǔn)確預(yù)測。其方向是通過

19、“分”來找到規(guī)則。但二者又是有關(guān)聯(lián)的,例如,可以在聚類識別了新的目標(biāo)屬性的基礎(chǔ)上,在原數(shù)據(jù)集上增加新的目標(biāo)屬性;針對這一新的數(shù)據(jù)集,再用分類算法去找到基于已有發(fā)生推導(dǎo)出目標(biāo)屬性歸屬的分類規(guī)則,并用來對未知數(shù)據(jù)分類。11. 什么是K-means方法,請描述其用途及基本思想。 K-means算法以歐式距離作為相似度測度,它是求對應(yīng)某一初始聚類中心向量V最優(yōu)分類,使得評價(jià)指標(biāo)J最小。算法采用誤差平方和準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù)。其步驟為:1) 在 n 個(gè)數(shù)據(jù)中選取 k 個(gè)作為凝聚點(diǎn), 并且定義點(diǎn)與點(diǎn) 之間的距離;2) 其余 n-k 個(gè)點(diǎn)逐個(gè)進(jìn)入, 每個(gè)點(diǎn)進(jìn)入時(shí)歸入與相應(yīng)凝聚點(diǎn)距離最近的類中,每個(gè)點(diǎn)進(jìn)入

20、之后重新計(jì)算每一類的重心作為該類新的凝聚點(diǎn);3) 重復(fù)2)直至所有類的凝聚點(diǎn)均不再變化為止12. 寫出在決策樹算法中熵和增益的計(jì)算定義式,并說明式中各變量的含義。 S 的熵(entropy)或者期望信息為:,式中,表示類的概率。 根據(jù)A劃分的子集的熵或期望信息由下式給出:,式中,Si 表示根據(jù)屬性 A 劃分的 S 的第i個(gè)子集,|S|和|Si|分別表示S和Si中的樣本數(shù)目。信息增益用來衡量熵的期望減少值,因此,使用屬性 A對S進(jìn)行劃分獲得的信息增益為:。gain(S,A)是指因?yàn)橹缹傩訟的值后導(dǎo)致的熵的期望壓縮。四、分析題(抄題干及分析,不用畫圖)1. 下圖是Excel中得到的某市衣著類消費(fèi)

21、指數(shù)與消費(fèi)總指數(shù)的回歸分析結(jié)果圖,請對此圖所反映的回歸模型、擬合優(yōu)度等信息進(jìn)行分析。2. 已知數(shù)據(jù)庫D中有9個(gè)事務(wù)(如下表示),設(shè)最小支持度為2,求出所有的頻繁項(xiàng)集。另,設(shè)置信度為70%,列出三個(gè)強(qiáng)規(guī)則。TID項(xiàng)目集1I1, I2, I52I2, I43I2, I34I1, I2, I45I1, I36I2, I37I1, I38I1, I2, I3, I59I1, I2, I333由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則 confidence(A Þ B)=P(B|A)=基于找出的頻繁項(xiàng)集I=I1,I2,I5可以產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則:I2,I1 Þ I5, confidence=2/4=50

22、%I1,I5 Þ I2, confidence=2/2=100%I2,I5 Þ I1, confidence=2/2=100%I1 Þ I2,I5, confidence=2/6=100%I2 Þ I1,I5, confidence=2/7=29%I5 Þ I1,I2, confidence=2/2=100%最小置信度閾值為70%,則只有2,3和最后一個(gè)規(guī)則可以輸出,這些就是產(chǎn)生的強(qiáng)規(guī)則。3. 已知如下數(shù)據(jù)集,目標(biāo)分類屬性為 buys_computer,運(yùn)用ID3算法求出該訓(xùn)練集在根節(jié)點(diǎn)的最佳分類。 IDageincomestudentCred

23、it_ratingClass: buys_computer1youthhighnofairno2youthhighnoexcellentno3middle_agedhighnofairyes4seniormediumnofairyes5seniorlowyesfairyes6seniorlowyesexcellentno7middle_agedlowyesexcellentyes8youthmediumnofairno9youthlowyesfairyes10seniormediumyesfairyes11youthmediumyesexcellentyes12middle_agedmediu

24、mnoexcellentyes13middle_agedhighyesfairyes14seniormediumnoexcellentno 首先計(jì)算該訓(xùn)練集的熵,根據(jù)熵公式,需知道各分類的概率, buys_computer= yes 的記錄有9條,其概率為9/14, 記該集合為 C1 buys_computer= no 的記錄有5條,其概率為5/14, 記該集合為 C2 首先考察 age 這一分類屬性,需要知道按 age 分類后的各子集的目標(biāo)屬性集的概率, age的 youth 類有5個(gè)樣本,其中有 2 個(gè)屬于 C1 類,即buys_computer= yes,3個(gè)屬于C2類,即 buys_c

25、omputer= no age的 middle_aged 類有4個(gè)樣本,4 個(gè)屬于 C1 類,0個(gè)屬于C2類 age的 senior 類有5個(gè)樣本,3 個(gè)屬于 C1 類,2個(gè)屬于C2類 于是,有:因此,屬性 age 的增益為:gain(S, age) = entropy(S)entropy(S, age) = 0.9400.694=0.246位同理,可計(jì)算得:gain(S, income) = 0.029位 gain(S, student) = 0.151位 gain(S, credit_rating) = 0.048位可見,按屬性 age 分類具有最高的增益,因此選擇其為分枝屬性。其分枝結(jié)果

26、如下圖示。3. 已知三個(gè)病人五種參考癥狀的數(shù)據(jù)情況,計(jì)算各樣本點(diǎn)之間的雅克比匹配系數(shù);說明該參量的使用特點(diǎn)及其用途。病 人癥 狀A(yù)BCDE甲11010乙01101丙11101 使用雅克比系數(shù),則兩兩之間的距離為二值變量之間的距離可以用匹配系數(shù)來描述。假定 xi 和 xj 取值情況如表3-1所示。q 表示兩個(gè)個(gè)體共有q 個(gè)性質(zhì)同時(shí)取1, r 表示取 1,取 0的性質(zhì)共有 r 個(gè), 其他依此類推雅克比匹配系數(shù):雅克比匹配系數(shù)適合于這樣的情況: 認(rèn)為二值變量所取的兩個(gè)值的地位不是完全對等的,人們往往只對其中一種取值感興趣。總要求總體要求:1)對數(shù)據(jù)集分析目的及過程進(jìn)行簡要描述2)列出主要輸入?yún)?shù)設(shè)置

27、畫面截圖3)列出主要輸出結(jié)果,并進(jìn)行必要的分析4)11月9日前以電子文檔形式發(fā)到教師郵箱tpgao-work, 郵件及作業(yè)文檔標(biāo)題為“2015DA作業(yè)2+學(xué)號+姓名”5)將方差分析、相關(guān)分析的四個(gè)題目都放在一個(gè)文檔中§1.1 方差分析部分要求(含兩道題)* 基于數(shù)據(jù)集“district and sale”方差分析,以了解廣告形式對銷售額的影響 要求: 參照課程講授示例輸出所有分析結(jié)果* 基于文檔“教改成績”進(jìn)行方差分析,要求分析教材、教法對成績的影響一、 基于數(shù)據(jù)集“district and sale”方差分析* 基于數(shù)據(jù)集“district and sale”方差分析,以了解廣告形

28、式對銷售額的影響 要求: 參照課程講授示例輸出所有分析結(jié)果最后的數(shù)據(jù)分析結(jié)果如下:Test of Homogeneity of Variances銷售額Levene Statisticdf1df2Sig.7653140.515方差齊次性檢驗(yàn)的結(jié)果,顯著性概率值>0.05,因此不能拒絕方差齊次的原假設(shè),方差分析的前提成立。ANOVA銷售額Sum of SquaresdfMean SquareFSig.Between Groups5866.08331955.36113.483.000Within Groups20303.222140145.023Total26169.306143這是方差分析

29、的最主要結(jié)果。各參量的含義參照教材、課件。根據(jù)樣本所計(jì)算出的Sig.值為0.000,該值小于0.01的顯著性水平,所以樣本所反映出的因素影響的差異性是高度顯著的。即,結(jié)合問題的背景,廣告形式的不同對銷售額有顯著影響,這種差異是由廣告形式的本質(zhì)差別所導(dǎo)致的,而不是由于采樣的隨機(jī)誤差所產(chǎn)生的。§1.2 相關(guān)分析部分要求(含兩道題)一、 “體重與血壓”相關(guān)分析* 基于“體重與血壓”數(shù)據(jù)進(jìn)行相關(guān)分析,計(jì)算Person相關(guān)系數(shù)并進(jìn)行統(tǒng)計(jì)檢驗(yàn)。直接選擇Weight 和 Pressure 作為分析變量進(jìn)行兩變量相關(guān)分析。可以輸出基本的描述統(tǒng)計(jì)量。Descriptive StatisticsMeanStd. DeviationNweight63.833310.1429212pressure118.333324.7398612這是描述性統(tǒng)計(jì)結(jié)果的各變量均值及標(biāo)準(zhǔn)差。CorrelationsweightpressureweightPearson Correlation1-.112Si

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論