




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘感想通過學(xué)習(xí)一個學(xué)期的數(shù)據(jù)挖掘課對數(shù)據(jù)挖掘有了一定的理解, 也掌握 了,理解了一些數(shù)據(jù)挖掘中用到的重要的算法。 在這個數(shù)據(jù)膨脹的大 數(shù)據(jù)時代我們需要篩選,查詢數(shù)據(jù),處理數(shù)據(jù)。我們看到的聽到的都 是數(shù)據(jù),在這互聯(lián)網(wǎng)時代數(shù)據(jù)更多,信息很多。但是有些網(wǎng)站比如百 度,谷歌,雅虎等為我們的學(xué)習(xí)生活帶來了很多便利。 我們?yōu)榱烁?確更有效的利用和處理數(shù)據(jù)必須要利用數(shù)據(jù)挖掘技術(shù), 因為有了這技 術(shù)我們以后的數(shù)字化生活變得更方便, 不會因為數(shù)據(jù)多,信息多而感 到反感。所以我真正的體會到了數(shù)據(jù)挖掘的優(yōu)越性。 同時我學(xué)習(xí)一些 算法過后也感覺到了其復(fù)雜性,因為數(shù)據(jù)挖掘算法眾多,掌握起來比 較困難。我們主要學(xué)
2、習(xí)了貝葉斯分類算法, 決策樹分類算法等算法,這些是比 較簡單并且利用比較廣泛的算法。 也學(xué)習(xí)了數(shù)據(jù)的概念,數(shù)據(jù)理解包 括收集原始數(shù)據(jù)、數(shù)據(jù)描述、數(shù)據(jù)探索分析和數(shù)據(jù)質(zhì)量描述。我們首 先收集大量的數(shù)據(jù)然后對此進行數(shù)據(jù)描述分類數(shù)據(jù),然后優(yōu)化凈化數(shù) 據(jù),并對此進行分類整理,保存查詢,搜索數(shù)據(jù)等。貝葉斯算法:貝葉斯分類基于貝葉斯定理,貝葉斯定理是由 1 18 8世紀概率論和決策論的早起研究者 ThomasThomas BayeBaye 鍛明的,故用其 名字命名為貝葉斯定理。分類算法的比較研究發(fā)現(xiàn),一種稱為樸素貝 葉斯分類法的簡單貝葉斯分類法可以與決策樹和經(jīng)過挑選的神經(jīng)網(wǎng) 絡(luò)分類器相媲美。用于大型數(shù)據(jù)庫,
3、貝葉斯分類法也已表現(xiàn)出高準確率和高速度。目前研究較多的貝葉斯分類器主要有四種,分別是:NaiveNaive BayesBayes TANTAN BANBAN 和 GBMGBM樸素貝葉斯分類是一種十分簡單的分類算法, 思想基礎(chǔ)是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn) 的概率,哪個最大,就認為此待分類項屬于哪個類。貝葉斯定理(Bayestheorem)Bayestheorem)是概率論中的一個結(jié)果,它 跟隨機變量的條件概率以及邊緣概率分布 有關(guān)。在有些關(guān)于概率的解 說中,貝葉斯定理能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。通常,事件 A A 在事件 B B (發(fā)生)的條件下
4、的概率,與事件 B B 在事件 A A 的條件下的概率是不一樣的;然而,這兩者是有確定的關(guān)系,貝葉斯定理就是這種關(guān)系的陳述貝葉斯公式提供了從先驗概率 P(AP(A P(BWP(BW P(B|A)P(B|A)計算后驗概率 P(A|B)P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B)P(A|B)=P(B|A)*P(A)/P(B) , , P(A|B)P(A|B)隨著 P(AP(A 訴日P(B|AP(B|A)的增長而增長,隨著 P(BNP(BN 勺增長而減少,即如果 B B 獨立于 A A 時 被觀察到的可能性越大,那么 B B 對 A A 的支持度越小。舉例:一個天氣估計問題?兩
5、個假設(shè) H:H: h1=h1=青天、h2=h2=非晴天 ?可觀察到的數(shù)據(jù):溫度高+和溫度低- ?先驗知識 p(h)p(h)P(AfB) =P(B|A)心P(B)?北京晴天的概率 0.99:0.99: P(h1)=0.99P(h1)=0.99?非晴天 0.01:0.01: P P(h2h2)=0.01=0.01?觀察到的概率 P P(D|hD|h): :?P P(溫度高| |晴天)=0.85=0.85?P P(溫度低| |非晴天)=0.93=0.93?問題:現(xiàn)在觀察到溫度低,判斷是否非晴天?極大似然計算P P(非晴天| |溫度低)X X P P(溫度低|非晴天)=0.93=0.93P P(晴天|
6、 |溫度低)工工P P(溫度低| |晴天)=0.15=0.15答案:非晴天決策樹:決策樹:訓(xùn)練集:數(shù)據(jù)的集合,用于生成樹(模型)測試集:用于測試樹(模型)的性能決策樹作用:主要就是訓(xùn)練數(shù)據(jù)除去臟數(shù)據(jù)通過訓(xùn)練集算法指導(dǎo)下生成決策樹 新數(shù)據(jù)進行劃分否則是三拍”決策N個分割屬性的訓(xùn)練集(pn = n!)種決策樹方案-一怎么生成好的?哪個好?數(shù)據(jù)大量產(chǎn)生,技術(shù)的成熟提供基礎(chǔ)數(shù)據(jù)大量產(chǎn)生這一點就不用說了,看看我們每個人一天的生活里 會有多大的比例泡在網(wǎng)上,再加上未來各種可穿戴設(shè)備,物聯(lián)網(wǎng)的普 及,數(shù)據(jù)量之大難以想象。我主要想談?wù)劶夹g(shù),也許技術(shù)這個詞不夠 專業(yè),白己在編程,數(shù)據(jù)存儲方面也不是特別了解,這里
7、就說說算法 這一部分。記得原先在數(shù)據(jù)結(jié)構(gòu)和算法一開篇就提到關(guān)于等差數(shù) 列求和的計算機求和計算,我們從小就知道等差數(shù)列的求和可利用算 法公式,該算法利用了首尾兩個數(shù)據(jù)和是一樣的數(shù)據(jù)結(jié)構(gòu)特征從而更 簡潔。告訴計算機進行求和命令可以是兩種方法1.一項項的加,2.直接利用算法,利用第一個方式可能在數(shù)據(jù)量少的時候計算速度與第二種相比不會有太大的差異,但如果數(shù)據(jù)量很大,后者的優(yōu)越性將很 明顯。后來在接觸到Apriori算法時候里用看到算法會用到一些剪枝 手段減少計算機運算量的時候忍不住拍案叫絕。另外,各式各樣的統(tǒng)計軟件的背后都有著大量的contributors將白己的算法程序包分享到網(wǎng)上,供后來人更便捷的
8、調(diào)用使用?;ヂ?lián) 網(wǎng)的這種集體智慧的共享創(chuàng)造方式讓后來人站在前人的肩膀上,走的更遠。但是在調(diào)用這些算法的過程中還是要對算法本身有一些原理上 的理解,算法和數(shù)據(jù)結(jié)構(gòu)是鑰匙和鎖,我們在實際操作的過程中還需 要根據(jù)具體的情況靈活和適當(dāng)?shù)氖褂?,會在后面的分享里細說。信息也是產(chǎn)品許多公司所擁有的客戶信息不僅僅對白己有價值, 同時對他人也同樣具有價值。如今很多的淘寶店鋪之間也有了很多的消費者數(shù)據(jù)的 共享?;ヂ?lián)網(wǎng)也改變了品牌和品牌之間的關(guān)系,一個擁有很多青少年兒童數(shù)據(jù)的公司完全可以將白己的數(shù)據(jù)分享給做兒童食品的公司,或者更進一步,分享彼此所擁有的平臺。2.數(shù)據(jù)挖掘for “actionable ” insig
9、htsdiscovery數(shù)據(jù)挖掘有很多不同的名稱,例如KDD(knowledgediscovery indatabase), 或者BI(businessintelligence),預(yù)測 建模(predictivemodel)等,但針對我們業(yè)務(wù)感受,我更愿意把數(shù)據(jù)挖掘定義為發(fā)現(xiàn)能夠讓品牌商產(chǎn)生真正落地行為的洞察或發(fā)現(xiàn) 下舉兩個在項目中的小例子:在電商的數(shù)據(jù)挖掘中,我們通過對消費者的表達研究了解消費者 購買產(chǎn)品的關(guān)注重點是什么,影響產(chǎn)品滿意度的重要因素是什么, 其 次我們會對消費者的線上購買行為數(shù)據(jù)進行研究,去看消費者購買除 了買白己品牌的商品同時還會購買哪些競品品牌。 結(jié)合這表達和行為 的洞察,再深入探究競品的商品展示,宣傳,品牌形象,等等各方面 和本品之間的差異點。這樣品牌商在電商運營中更能有方向性的去改 進產(chǎn)品和消費者之間的溝通方式。所以,數(shù)據(jù)挖掘是在一項探測大量數(shù)據(jù)以發(fā)現(xiàn)有意義的模式和規(guī) 則的業(yè)務(wù)流程,我們關(guān)注的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度購房補充協(xié)議:智能家居與社區(qū)物業(yè)聯(lián)動服務(wù)合同
- 2025年度法律服務(wù)機構(gòu)員工借調(diào)與法律服務(wù)合同
- 二零二五年度刑法與合同法協(xié)同的特許經(jīng)營合同
- 二零二五年度安全環(huán)保風(fēng)險評估與咨詢服務(wù)協(xié)議
- 二零二五年度高管勞動合同及職業(yè)培訓(xùn)協(xié)議
- 2025陜西通力專用汽車有限責(zé)任公司招聘(59人)筆試參考題庫附帶答案詳解
- 2025環(huán)北部灣廣西水資源配置有限公司招聘23人筆試參考題庫附帶答案詳解
- 2025年收獲機械項目建議書
- 2025年國網(wǎng)電力公司招聘(第二批)筆試參考題庫附帶答案詳解
- 藥品裝業(yè)知識培訓(xùn)課件
- 實現(xiàn)偉大復(fù)興的中國夢說課稿
- 第2課-多民族的交往與中華文化的浸潤課件
- 列車調(diào)度指揮高職PPT完整全套教學(xué)課件
- 健康主題班會課件 正確使用手機
- 行人過街調(diào)查表
- 弟子規(guī)全文及解釋精簡打印版
- 《畜牧獸醫(yī)行政法規(guī)》教案
- 《祖父的園子》PPT課件【精美版】
- 新概念英語第一冊期末測試試卷附答案
- FZ/T 74001-2020紡織品針織運動護具
- 強制執(zhí)行申請書表格
評論
0/150
提交評論