高中信息技術(shù) 必修1 數(shù)據(jù)的分析(課件)_第1頁
高中信息技術(shù) 必修1 數(shù)據(jù)的分析(課件)_第2頁
高中信息技術(shù) 必修1 數(shù)據(jù)的分析(課件)_第3頁
高中信息技術(shù) 必修1 數(shù)據(jù)的分析(課件)_第4頁
高中信息技術(shù) 必修1 數(shù)據(jù)的分析(課件)_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、5.3 數(shù)據(jù)的分析必修一 數(shù)據(jù)與計算李春鳳深圳市西鄉(xiāng)中學(xué)5.3 數(shù)據(jù)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析什么是數(shù)據(jù)分析? 數(shù)據(jù)分析是在一大批雜亂無章的數(shù)據(jù)中,運用數(shù)字化工具和技術(shù),探索數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和規(guī)律,構(gòu)建數(shù)學(xué)模型,并進行可視化表達,通過驗證將模型轉(zhuǎn)化為知識,為診斷過去、預(yù)測未來發(fā)揮作用。高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析什么是數(shù)據(jù)分析?李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析水資源分布現(xiàn)狀過去旅游業(yè)的發(fā)展情況了解事物的現(xiàn)狀診斷過去的發(fā)展歷程預(yù)測房價走向預(yù)測未來的走向數(shù)據(jù)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析特征探索關(guān)聯(lián)分析聚類分析

2、數(shù)據(jù)分類5.3.1 特征探索 數(shù)據(jù)特征探索的主要任務(wù)是對數(shù)據(jù)進行預(yù)處理,發(fā)現(xiàn)和處理缺失值,異常數(shù)據(jù),繪制直方圖,觀察分析數(shù)據(jù)的分布特征,求最大值、最小值、極差等描述性統(tǒng)計量。 高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析5.3.1 特征探索高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析數(shù)據(jù)質(zhì)量探索、數(shù)據(jù)特征分析143813020086295077305.3.1 特征探索高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析姓名語文 數(shù)學(xué)英語小明 93 77小王8989085小陳597875缺失值異常值數(shù)據(jù)清洗5.3.1 特征探索數(shù)據(jù)特征探索程序李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的

3、分析5.3.1 特征探索探究活動一(暫停課程視頻5分鐘): 打開并運行配套學(xué)習(xí)資源包“第五章課本素材程序5-3數(shù)據(jù)預(yù)處理”,觀察數(shù)據(jù)預(yù)處理結(jié)果。高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析5.3.2 關(guān)聯(lián)分析 高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析 關(guān)聯(lián)分析就是分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描述一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。5.3.2 關(guān)聯(lián)分析 高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析購物籃分析一一了解顧客購買習(xí)慣一一給商家提供銷售策略5.3.2 關(guān)聯(lián)分析 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析67%5.3.2 關(guān)聯(lián)分析 高中

4、信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析序號商品1可樂,雞蛋,火腿2可樂,尿布,啤酒3可樂,尿布,啤酒,火腿4尿布,啤酒計算機如何對數(shù)據(jù)進行關(guān)聯(lián)分析?5.3.2 關(guān)聯(lián)分析 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析購物籃分析步驟一:掃描數(shù)據(jù),建立項集序號商品1可樂,雞蛋,火腿2可樂,尿布,啤酒3可樂,尿布,啤酒,火腿4尿布,啤酒 c1項集:可樂雞蛋火腿尿布啤酒5.3.2 關(guān)聯(lián)分析 高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析購物籃分析步驟二:計算各個集合的支持度,即數(shù)據(jù)出現(xiàn)頻率次數(shù)/總數(shù)序號商品1可樂,料蛋,火腿2可樂,尿布,啤酒3可樂,尿布,啤酒,火腿4尿布,啤酒C1項集

5、支持度可樂3/4=0.75雞蛋1/4=0.25火腿2/4=0.50尿布3/4=0.75啤酒3/4=0.755.3.2 關(guān)聯(lián)分析 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析購物籃分析步驟三:設(shè)置最小支持度=0.4 序號商品1可樂,雞蛋,火腿2可樂,尿布,啤酒3可樂,尿布,啤酒,火腿4尿布,啤酒 c1項集:可樂雞蛋火腿尿布啤酒5.3.2 關(guān)聯(lián)分析李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析步驟三:設(shè)置最小支持度=0.4C1項集 支持度可樂 3/4=0.75雞蛋 1/4=0.25火腿 2/4=0.50尿布 3/4=0.75啤酒 3/4=0.75頻繁項集L1可樂 火腿尿布啤酒購物

6、籃分析5.3.2 關(guān)聯(lián)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析C1項集 支持度可樂 3/4=0.75雞蛋 1/4=0.25火腿 2/4=0.50尿布 3/4=0.75啤酒 3/4=0.75頻繁項集L1可樂 火腿尿布啤酒C2項集 支持度可樂,火腿 2/4=0.50可樂,尿布 2/4=0.50可樂,啤酒 2/4=0.50火腿,尿布 1/4=0.25火腿,啤酒 1/4=0.25尿布,啤酒 3/4=0.75頻繁項集L2可樂,火腿 可樂,尿布可樂,啤酒尿布,啤酒步驟四:將L1中的數(shù)據(jù)兩兩拼接5.3.2 關(guān)聯(lián)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析C1項集 支持度可樂 3/4=0.

7、75雞蛋 1/4=0.25火腿 2/4=0.50尿布 3/4=0.75啤酒 3/4=0.75頻繁項集L1可樂 火腿尿布啤酒C2項集 支持度可樂,火腿 2/4=0.50可樂,尿布 2/4=0.50可樂,啤酒 2/4=0.50火腿,尿布 1/4=0.25火腿,啤酒 1/4=0.25尿布,啤酒 3/4=0.75頻繁項集L2可樂,火腿 可樂,尿布可樂,啤酒尿布,啤酒C3項集 支持度可樂,火腿,尿布 2/4=0.50可樂,火腿,啤酒 2/4=0.50可樂,尿布,啤酒 2/4=0.50頻繁項集L3.Lk步驟五:將L2中的數(shù)據(jù)兩兩拼接,得到C35.3.2 關(guān)聯(lián)分析 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3

8、 數(shù)據(jù)的分析探究活動二(暫停課程視頻5分鐘): 理解關(guān)聯(lián)分析的過程,根據(jù)下表,按步驟計算商品的關(guān)聯(lián)性。序號商品1可樂,雞蛋,火腿2可樂,尿布,啤酒3可樂,尿布,啤酒,火腿5.3.3 聚類分析 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析 聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。5.3.3 聚類分析 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析聚類分析K-平均算法 K-平均算法的基本思想就是在空間N個點中,初始選擇K個點作為中心聚類點,然后將N個點分別與K個點計算距離,選擇自己最近的點作為自己的中心

9、點,再不斷更新中心聚集點,以達到“物以類聚,人以群分”的效果。5.3.3 聚類分析 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析聚類分析的基本算法:(1)從數(shù)據(jù)點集合中隨機選擇K個點作為初始的聚集中心,每個中心點代表著每個聚集中心的平均值。(2)對其余的每個數(shù)據(jù)點,依次判斷其與K個中心點的距離,距離最近的表明它屬于這項聚類。(3)重新計算新的聚簇集合的平均值即中心點。整個過程不斷迭代計算,直到達到預(yù)先設(shè)定的迭代次數(shù)或中心點不再頻繁波動。5.3.3 聚類分析 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析5.3.4 數(shù)據(jù)分類 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分

10、析 數(shù)據(jù)分類是數(shù)據(jù)分析處理中最基本的方法。數(shù)據(jù)分類通常的做法是,基于樣本數(shù)據(jù)先訓(xùn)練構(gòu)建分類函數(shù)或者分類模型(也稱為分類器),該分類器具有將待分類數(shù)據(jù)項映射到某一特點類別的功能。數(shù)據(jù)分類和回歸分析都可用于預(yù)測,預(yù)測是指從基于樣本數(shù)據(jù)記錄,根據(jù)分類準(zhǔn)則自動給出對未知數(shù)據(jù)的推廣描述,從而實現(xiàn)對未知數(shù)據(jù)進行預(yù)測。5.3.4 數(shù)據(jù)分類高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析采集數(shù)據(jù)建立分類的模型對新數(shù)據(jù)進行 分類5.3.4 數(shù)據(jù)分類 李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析 貝葉斯分類技術(shù)在眾多分類技術(shù)中占有重要地位,也屬于統(tǒng)計學(xué)分類的范疇,是一種非規(guī)則的分類方法。貝葉斯分類技術(shù)通

11、過對已分類的樣本子集進行訓(xùn)練,學(xué)習(xí)歸納出分類函數(shù)(對離散變量的預(yù)測稱作分類,對連續(xù)變量的分類稱為回歸),利用訓(xùn)練得到的分類器實現(xiàn)對未分類數(shù)據(jù)的分類。5.3.4 數(shù)據(jù)分類李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析如表所示是某網(wǎng)絡(luò)商城客戶購物行為特征的一組統(tǒng)計資料。已知某客戶購物行為特征A為數(shù)值182.8,特征B為數(shù)值58.9,特征C為數(shù)值26,請問這人是重要客戶還是普通客戶?客戶特征A 特征B 特征C重要客戶182.881.630重要客戶180.486.129重要客戶170.077.130重要客戶180.474.828普通客戶152.445.324普通客戶167.668.026普通客戶165.258.925普通客戶175.268.0275.3.4 數(shù)據(jù)分類高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析5.3.4 數(shù)據(jù)分類李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析importnumpyasnpX=np.array(182.8,81.6,30,180.4,86.1,29,170.0,77.1,30,180.4,74.8,28,152.4,45.3,24,167.6,68.0,26,165.2,58.9,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論