版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 R語言學(xué)習(xí)與應(yīng)用010203目錄u R R語言開發(fā)環(huán)境及語言開發(fā)環(huán)境及RStudioRStudio安裝安裝u 關(guān)聯(lián)規(guī)則實驗分析關(guān)聯(lián)規(guī)則實驗分析u 決策樹算法實驗分析決策樹算法實驗分析01R語言開發(fā)環(huán)境及RStudio安裝ONE R是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境。R是免費的、源代碼開放的軟件,它是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具。 RStudio是一個用于R的集成環(huán)境開發(fā)工具,它包括控制臺、語法高亮編輯器、繪圖、工作區(qū)管理工具等。是一款R的輔助UI軟件。 登陸官網(wǎng):/登陸官網(wǎng):https:/ R語言介紹語言介紹3. R編輯工具編輯工具R
2、Studio2. R語言開發(fā)環(huán)境安裝語言開發(fā)環(huán)境安裝4. Rstudio安裝安裝R語言開發(fā)環(huán)境及RStudio安裝RGUI (自帶)(自帶)R語言開發(fā)環(huán)境及RStudio安裝 R是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境。R是免費的、源代碼開放的軟件,它是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具。RStudio (集成多窗口、多功能集成多窗口、多功能)R語言開發(fā)環(huán)境及RStudio安裝02關(guān)聯(lián)規(guī)則實驗分析TWOl 關(guān)聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個事物就能夠通過其他事物預(yù)測到。l 典型的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)問題是對超市中的購物籃數(shù)據(jù)
3、進(jìn)行分析。通過發(fā)現(xiàn)顧客放入購物籃中的不同商品之間的關(guān)系來分析顧客的購買習(xí)慣。 關(guān)聯(lián)規(guī)則例如:這是一條關(guān)聯(lián)規(guī)則:A,B - DA, B和D都是項集其中A,B為LHS,D為RHS,并且LHS和RHS不能有交集l k項集:項集中包含k個項目。l 項集的支持度:項集在事務(wù)數(shù)據(jù)庫中出現(xiàn) 的次數(shù)占D中總事務(wù)的百分比。l 頻繁項集:項集的支持度超過用戶給定的最小支持度閾值 如何挖掘關(guān)聯(lián)規(guī)則呢?置信度置信度 Confidence :分析:分析:規(guī)則規(guī)則X-Y 很容易從很容易從X和和XUY的支持度計數(shù)推出,并且可以很的支持度計數(shù)推出,并且可以很直白的驗證它們是否符合強規(guī)則,所以挖掘關(guān)聯(lián)規(guī)則的問直白的驗證它們是否
4、符合強規(guī)則,所以挖掘關(guān)聯(lián)規(guī)則的問題可以歸結(jié)為挖掘頻繁項集題可以歸結(jié)為挖掘頻繁項集。關(guān)聯(lián)規(guī)則的挖掘可以分為兩關(guān)聯(lián)規(guī)則的挖掘可以分為兩個過程個過程(1)找出所有頻繁項集)找出所有頻繁項集 (2)由頻繁項集產(chǎn)生強關(guān))由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則聯(lián)規(guī)則Apriori算法(使用逐層迭代方法基于候選產(chǎn)生找出頻繁項集)例子例子- -支持計數(shù)支持計數(shù)=2=211例子例子由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則12l根據(jù)公式產(chǎn)生關(guān)聯(lián)規(guī)則根據(jù)公式產(chǎn)生關(guān)聯(lián)規(guī)則l對于每個頻繁項集對于每個頻繁項集l,產(chǎn)生所有的非空子集,產(chǎn)生所有的非空子集l對于對于l的每個非空子集的每個非空子集s,如果,如果則輸出規(guī)則則輸出規(guī)則”s(l-s)”關(guān)聯(lián)規(guī)則結(jié)果數(shù)
5、據(jù)準(zhǔn)備一個1萬條購買記錄的數(shù)據(jù)集,一行代表一個用戶,列分別是:用戶id、商品名稱pname(P1-P20)、付費金額amount、購買時間time(unix標(biāo)準(zhǔn))讀取后數(shù)據(jù)樣式讀取后數(shù)據(jù)樣式:l 1.讀取實驗數(shù)據(jù)讀取實驗數(shù)據(jù)集:集:l 2.處理并獲取數(shù)據(jù)集:處理并獲取數(shù)據(jù)集:讀取處理后數(shù)據(jù)集讀取處理后數(shù)據(jù)集:l 3.處理并獲取數(shù)據(jù)集:處理并獲取數(shù)據(jù)集:l 將購買記錄轉(zhuǎn)換為0-1矩陣數(shù)據(jù)準(zhǔn)備l 將0-1矩陣轉(zhuǎn)換成“transcations”形式使用Apriori算法得到關(guān)聯(lián)規(guī)則l 使用R語言apriori函數(shù)Lift :提升度當(dāng)右項集(當(dāng)右項集(consequent)的支持度已經(jīng)很顯著時,即時規(guī)
6、則的)的支持度已經(jīng)很顯著時,即時規(guī)則的Confidence較高,這條規(guī)則也是無效的。較高,這條規(guī)則也是無效的。例如:例如:在所分析的在所分析的10000個事務(wù)中,個事務(wù)中,6000個事務(wù)包含商品個事務(wù)包含商品A,7500個包含商品個包含商品B,4000個事務(wù)同時包含兩者。個事務(wù)同時包含兩者。關(guān)聯(lián)規(guī)則(關(guān)聯(lián)規(guī)則(A - B) 支持度為支持度為0.4,看似很高,但其實這個關(guān)聯(lián)規(guī)則是一個誤導(dǎo)。,看似很高,但其實這個關(guān)聯(lián)規(guī)則是一個誤導(dǎo)。在用戶購買了商品在用戶購買了商品A后有后有 (40006000)0.667 的概率的去購買商品的概率的去購買商品B,而在沒有任何前提條件時,用戶反而有,而在沒有任何前提
7、條件時,用戶反而有(750010000)0.75的概率去購買商品的概率去購買商品B,也就是說設(shè)置了購買商品,也就是說設(shè)置了購買商品A這樣的條件反而會降低用戶去購買商品這樣的條件反而會降低用戶去購買商品B的概率,所的概率,所以商品以商品A和商品和商品B是相斥的。是相斥的。規(guī)則的提升度的意義在于度量項集規(guī)則的提升度的意義在于度量項集X和項集和項集Y的獨立性的獨立性如果如果lift=1,說明兩個條件沒有任何關(guān)聯(lián)說明兩個條件沒有任何關(guān)聯(lián),如果如果lift1,說明說明A條件條件(或者說或者說A事件的發(fā)生事件的發(fā)生)與與B事件是相斥的事件是相斥的使用Apriori算法得到關(guān)聯(lián)規(guī)則l 刪除冗余規(guī)則刪除冗余規(guī)
8、則冗余規(guī)則的定義是:如果冗余規(guī)則的定義是:如果rules2的的lhs和和rhs是包含于是包含于rules1的,而且的,而且rules2的的lift小于或者等于小于或者等于rules1,則,則稱稱rules2是是rules1的冗余規(guī)則。的冗余規(guī)則。#生成一個所有規(guī)則的子集矩陣,行和列分別是每條rules,其中的值是TRUE和FALSE,當(dāng)rules2是rules1的子集時,rules2在rules1的值為TRUEsubset.matrix - is.subset(rules,rules)subset.matrixlower.tri(subset.matrix,diag = T)#將矩陣對角線以下
9、的元素置為空,只保留上三角subset.matrixlower.tri(subset.matrix,diag = T) - NA#R會將矩陣中的TRUE當(dāng)做1,統(tǒng)計每列的和(忽略缺失值),如果該列的和大于等于1,也就是表示該列(規(guī)則)是別的規(guī)則的子集,應(yīng)該刪除。redundant=1#去掉冗余的規(guī)則rules.pruned-rules!redundant關(guān)聯(lián)規(guī)則可視化03決策樹算法實驗分析Three決策樹決策樹?決策樹?決策樹是附加概率結(jié)果的一個樹狀的決策圖,是直觀的運用統(tǒng)計概率分析的圖法。機(jī)器學(xué)習(xí)中決策樹是一個預(yù)測模型,它表示對象屬性和對象值之間的一種映射,樹中的每一個節(jié)點表示對象屬性的判斷
10、條件,其分支表示符合節(jié)點條件的對象。樹的葉子節(jié)點表示對象所屬的預(yù)測結(jié)果。如何構(gòu)造決策樹?如何構(gòu)造決策樹?一般來說,決策樹的構(gòu)造主要由兩個階段組成:第一階段(生成樹階段)選取部分受訓(xùn)數(shù)據(jù)建立決策樹,決策樹是按廣度優(yōu)先建立直到每個葉節(jié)點包括相同的類標(biāo)記為止。第二階段(決策樹修剪階段)用剩余數(shù)據(jù)檢驗決策樹,如果所建立的決策樹不能正確回答所研究的問題,我們要對決策樹進(jìn)行修剪直到建立一棵正確的決策樹。這樣在決策樹每個內(nèi)部節(jié)點處進(jìn)行屬性值的比較,在葉節(jié)點得到結(jié)論。從根節(jié)點到葉節(jié)點的一條路徑就對應(yīng)著一條規(guī)則,整棵決策樹就對應(yīng)著一組表達(dá)式規(guī)則。 問題:我們?nèi)绾未_定起決定作用的劃分變量(屬性選擇度量)。決策樹算
11、法ID3算法算法思想描述:1.對當(dāng)前例子集合,計算屬性的信息增益;2.選擇信息增益最大的屬性Ai3.把在Ai處取值相同的例子歸于同于子集,Ai取幾個值就得幾個子集4.對依次對每種取值情況下的子集,遞歸調(diào)用建樹算法,即返回1,5.若子集只含有單個屬性,則分支為葉子節(jié)點,判斷其屬性值并標(biāo)上相應(yīng)的符號,然后返回調(diào)用處。C4.5算法算法用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;在樹構(gòu)造過程中進(jìn)行剪枝;能夠完成對連續(xù)屬性的離散化處理;能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。 熵:熵: 設(shè)X是一個取有限個值(n)的離散隨機(jī)變量,其概率分布為P(X=xi)=Pi,i=1,2,.,nP(X=xi)=Pi,i=1,2,.,n 則隨機(jī)變量X的熵定義為 使用包party里面的函數(shù)ctree()為數(shù)據(jù)集iris建立一個決策樹。屬性Sepal.Length(萼片長度)、Sepal.Width(萼片寬度)、Petal.Lengt
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中醫(yī)養(yǎng)生基礎(chǔ)知識
- (2024)文化旅游區(qū)建設(shè)項目可行性研究報告申請報告(一)
- 2022-2023學(xué)年天津市培杰中學(xué)高三(上)期末語文試卷
- 《社會工作的訪談法》課件
- 2023年水分保持劑項目籌資方案
- 2023年鎘、鉍相關(guān)常用有色金屬項目籌資方案
- 【CPA金投賞】2025播客營銷白皮書
- 工業(yè)機(jī)器人技術(shù)與應(yīng)用模擬練習(xí)題含答案
- 養(yǎng)老院老人生活娛樂活動組織服務(wù)質(zhì)量管理制度
- 22 偉大的悲劇 教案初中語文課件
- 楊亮高考英語詞匯
- 羽毛球比賽對陣表秩序冊
- 北極求生團(tuán)隊游戲課件
- GB∕T 22459.5-2022 耐火泥漿 第5部分:粒度分布(篩分析)試驗方法
- 高二地理(人教版)《自然環(huán)境的地域差異性(第一課時)》【教案匹配版】 課件
- DB37-T 4253-2020 地?zé)豳Y源勘查技術(shù)規(guī)程
- 《李憑箜篌引》優(yōu)質(zhì)課件
- 諸暨中學(xué)提前招生選拔考試數(shù)學(xué)試卷含答案
- 我的家鄉(xiāng)作品臨沂課件
- 1二年級上冊小學(xué)生經(jīng)典誦讀校本課程教材
- 某公司-手機(jī)品質(zhì)管理方法
評論
0/150
提交評論