數(shù)據(jù)挖掘感想?yún)⒖寄0錩第1頁
數(shù)據(jù)挖掘感想?yún)⒖寄0錩第2頁
數(shù)據(jù)挖掘感想?yún)⒖寄0錩第3頁
數(shù)據(jù)挖掘感想?yún)⒖寄0錩第4頁
數(shù)據(jù)挖掘感想?yún)⒖寄0錩第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘感想通過學(xué)習(xí)一個(gè)學(xué)期的數(shù)據(jù)挖掘課對數(shù)據(jù)挖掘有了一定的理解,也掌握了,理解了一些數(shù)據(jù)挖掘中用到的重要的算法。在這個(gè)數(shù)據(jù)膨脹的大數(shù)據(jù)時(shí)代我們需要篩選,查詢數(shù)據(jù),處理數(shù)據(jù)。我們看到的聽到的都是數(shù)據(jù),在這互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)更多,信息很多。但是有些網(wǎng)站比如百度,谷歌,雅虎等為我們的學(xué)習(xí)生活帶來了很多便利。我們?yōu)榱烁_更有效的利用和處理數(shù)據(jù)必須要利用數(shù)據(jù)挖掘技術(shù),因?yàn)橛辛诉@技術(shù)我們以后的數(shù)字化生活變得更方便,不會(huì)因?yàn)閿?shù)據(jù)多,信息多而感到反感。所以我真正的體會(huì)到了數(shù)據(jù)挖掘的優(yōu)越性。同時(shí)我學(xué)習(xí)一些算法過后也感覺到了其復(fù)雜性,因?yàn)閿?shù)據(jù)挖掘算法眾多,掌握起來比較困難。我們主要學(xué)習(xí)了貝葉斯分類算法,決策樹分類

2、算法等算法,這些是比較簡單并且利用比較廣泛的算法。也學(xué)習(xí)了數(shù)據(jù)的概念,數(shù)據(jù)理解包括收集原始數(shù)據(jù)、數(shù)據(jù)描述、數(shù)據(jù)探索分析和數(shù)據(jù)質(zhì)量描述。我們首先收集大量的數(shù)據(jù)然后對此進(jìn)行數(shù)據(jù)描述分類數(shù)據(jù),然后優(yōu)化凈化數(shù)據(jù),并對此進(jìn)行分類整理,保存查詢,搜索數(shù)據(jù)等。貝葉斯算法:貝葉斯分類基于貝葉斯定理,貝葉斯定理是由18世紀(jì)概率論和決策論的早起研究者Thomas Bayes發(fā)明的,故用其名字命名為貝葉斯定理。分類算法的比較研究發(fā)現(xiàn),一種稱為樸素貝葉斯分類法的簡單貝葉斯分類法可以與決策樹和經(jīng)過挑選的神經(jīng)網(wǎng)絡(luò)分類器相媲美。用于大型數(shù)據(jù)庫,貝葉斯分類法也已表現(xiàn)出高準(zhǔn)確率和高速度。2 / 9 目前研究較多的貝葉斯分類器主

3、要有四種,分別是:Naive Bayes、TAN、BAN和GBN。樸素貝葉斯分類是一種十分簡單的分類算法,思想基礎(chǔ)是這樣的:對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類。貝葉斯定理(Bayes theorem)是概率論中的一個(gè)結(jié)果,它跟隨機(jī)變量的條件概率以及邊緣概率分布有關(guān)。在有些關(guān)于概率的解說中,貝葉斯定理能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。 通常,事件A在事件B(發(fā)生)的條件下的概率,與事件B在事件A的條件下的概率是不一樣的;然而,這兩者是有確定的關(guān)系,貝葉斯定理就是這種關(guān)系的陳述。 貝葉斯公式提供了從先驗(yàn)概率P(A)、P(B)和

4、P(B|A)計(jì)算后驗(yàn)概率P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B) ,P(A|B)隨著P(A)和P(B|A)的增長而增長,隨著P(B)的增長而減少,即如果B獨(dú)立于A時(shí)被觀察到的可能性越大,那么B對A的支持度越小。 舉例:一個(gè)天氣估計(jì)問題 兩個(gè)假設(shè)H: h1=晴天、h2=非晴天 可觀察到的數(shù)據(jù):溫度高+和溫度低- 先驗(yàn)知識(shí)p(h) 北京晴天的概率0.99: P(h1)=0.99 非晴天0.01: P(h2)=0.01 觀察到的概率P(D|h): P(溫度高 | 晴天) = 0.85 P(溫度低 | 非晴天) = 0.93 問題:現(xiàn)在觀察到溫度低,判斷是否非晴天? 極大似然

5、計(jì)算l P(非晴天 | 溫度低) P(溫度低|非晴天) = 0.93l P(晴天 | 溫度低) P(溫度低|晴天) = 0.15l 答案:非晴天決策樹:決策樹:訓(xùn)練集:數(shù)據(jù)的集合,用于生成樹(模型)測試集:用于測試樹(模型)的性能決策樹作用:主要就是訓(xùn)練數(shù)據(jù)除去臟數(shù)據(jù)l 通過訓(xùn)練集l 算法指導(dǎo)下l 生成決策樹l 新數(shù)據(jù)進(jìn)行劃分l 否則是“三拍”決策N個(gè)分割屬性的訓(xùn)練集l 種決策樹方案哪個(gè)好?怎么生成好的?數(shù)據(jù)大量產(chǎn)生,技術(shù)的成熟提供基礎(chǔ)數(shù)據(jù)大量產(chǎn)生這一點(diǎn)就不用說了,看看我們每個(gè)人一天的生活里會(huì)有多大的比例泡在網(wǎng)上,再加上未來各種可穿戴設(shè)備,物聯(lián)網(wǎng)的普及,數(shù)據(jù)量之大難以想象。我主要想談?wù)劶夹g(shù),也

6、許技術(shù)這個(gè)詞不夠?qū)I(yè),自己在編程,數(shù)據(jù)存儲(chǔ)方面也不是特別了解,這里就說說算法這一部分。記得原先在數(shù)據(jù)結(jié)構(gòu)和算法一開篇就提到關(guān)于等差數(shù)列求和的計(jì)算機(jī)求和計(jì)算,我們從小就知道等差數(shù)列的求和可利用算法公式,該算法利用了首尾兩個(gè)數(shù)據(jù)和是一樣的數(shù)據(jù)結(jié)構(gòu)特征從而更簡潔。告訴計(jì)算機(jī)進(jìn)行求和命令可以是兩種方法 1.一項(xiàng)項(xiàng)的加,2.直接利用算法,利用第一個(gè)方式可能在數(shù)據(jù)量少的時(shí)候計(jì)算速度與第二種相比不會(huì)有太大的差異,但如果數(shù)據(jù)量很大,后者的優(yōu)越性將很明顯。后來在接觸到Apriori算法時(shí)候里用看到算法會(huì)用到一些剪枝手段減少計(jì)算機(jī)運(yùn)算量的時(shí)候忍不住拍案叫絕。另外,各式各樣的統(tǒng)計(jì)軟件的背后都有著大量的contrib

7、utors將自己的算法程序包分享到網(wǎng)上,供后來人更便捷的調(diào)用使用。互聯(lián)網(wǎng)的這種集體智慧的共享創(chuàng)造方式讓后來人站在前人的肩膀上,走的更遠(yuǎn)。但是在調(diào)用這些算法的過程中還是要對算法本身有一些原理上的理解,算法和數(shù)據(jù)結(jié)構(gòu)是鑰匙和鎖,我們在實(shí)際操作的過程中還需要根據(jù)具體的情況靈活和適當(dāng)?shù)氖褂?,?huì)在后面的分享里細(xì)說。信息也是產(chǎn)品許多公司所擁有的客戶信息不僅僅對自己有價(jià)值,同時(shí)對他人也同樣具有價(jià)值。如今很多的淘寶店鋪之間也有了很多的消費(fèi)者數(shù)據(jù)的共享?;ヂ?lián)網(wǎng)也改變了品牌和品牌之間的關(guān)系,一個(gè)擁有很多青少年兒童數(shù)據(jù)的公司完全可以將自己的數(shù)據(jù)分享給做兒童食品的公司,或者更進(jìn)一步,分享彼此所擁有的平臺(tái)。2.數(shù)據(jù)挖掘

8、 for “actionable”insightsdiscovery數(shù)據(jù)挖掘有很多不同的名稱,例如KDD(knowledge discovery in database),或者BI(businessintelligence),預(yù)測建模(predictive model)等,但針對我們業(yè)務(wù)感受,我更愿意把數(shù)據(jù)挖掘定義為發(fā)現(xiàn)能夠讓品牌商產(chǎn)生真正落地行為的洞察或發(fā)現(xiàn)。以下舉兩個(gè)在項(xiàng)目中的小例子:在電商的數(shù)據(jù)挖掘中,我們通過對消費(fèi)者的表達(dá)研究了解消費(fèi)者購買產(chǎn)品的關(guān)注重點(diǎn)是什么,影響產(chǎn)品滿意度的重要因素是什么,其次我們會(huì)對消費(fèi)者的線上購買行為數(shù)據(jù)進(jìn)行研究,去看消費(fèi)者購買除了買自己品牌的商品同時(shí)還會(huì)購買哪些競品品牌。結(jié)合這表達(dá)和行為的洞察,再深入探究競品的商品展示,宣傳,品牌形象,等等各方面和本品之間的差異點(diǎn)。這樣品牌商在電商運(yùn)營中更能有方向性的去改進(jìn)產(chǎn)品和消費(fèi)者之間的溝通方式。所以,數(shù)據(jù)挖掘是在一項(xiàng)探測大量數(shù)據(jù)以發(fā)現(xiàn)有意義的模式和規(guī)則的業(yè)務(wù)流程,我們關(guān)注的重點(diǎn)在于發(fā)現(xiàn)的知識(shí)是否有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論