




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、決策樹在購房中的應用作者:張科摘要:決策樹是一種廣泛用于數據分類的方法,也是數據挖掘中常用的方法。而 C4.5 是決策樹算法中最為經典的算法,它與經典的 ID3 算法相比,將 ID3 的信息增益改為信息增益比,增加了對連續(xù)屬性的處理。本文將深入的研究此算法,將此算法應用于購房中的數據挖掘,對收集來的購房數據進行挖掘,得到購房的決策樹,實現科學、直觀購房的決策。論文以 PH 可口 MySQ 盅現此數據挖掘。關鍵詞:決策樹;數據挖掘;購房TheDecisionTreeapplicationinthepurchasehouseAuthor:KeZhangAbstract:DecisionTreeis
2、widelyusedinthemethodofdataclassification,andiscommonlyusedinthemethodofDataMining.however,C4.5DecisionTreealgorithmisthemostclassicalalgorithm,comparingitwithclassicID3algorithm,willmodifiestheinformationgainastheinformationgainratio,andincreasestheprocessingofthecontinuousattributes.Thisarticlewil
3、lin-depthresearchesthisalgorithm,willapplythisalgorithmtotheDataMiningofthepurchase,minesthecollectedpurchasedatas,getsthedecisiontreeofthepurchase,realizesscience,accomplishesthedecisionofthepurchase.ThisarticlerealizestheDataMiningwithPHPandMySQL.Keywords:DecisionTree;DataMining;purchasehouse.1問題描
4、述1.1課題背景及研究意義近些年來, 房地產市場不斷升溫, 房價也是節(jié)節(jié)攀升。 據統(tǒng)計, 海南海口住房 2006年均價2500元每平方米,2007年上升到3500元每平方米,2008達到平均4300元每平方米,2009 年升至 5500 元每平方米,2010 年更是攀升至 6700 元每每平米的高價。對于普通家庭來說購買一套合適的住房可能是一生中最大的投資, 倉促的做出購房決策可能會影響到家庭將來的生活質量與幸福。因此,對于很多家庭來說購房不得不慎重的考慮購房問題, 再加上現在房地產市場也在不斷地推出很多新的樓盤,房屋價格、環(huán)境、面積、戶型等各有不同各有各的優(yōu)缺點。對于購房家庭或者本人來說,房
5、屋經濟又舒適是非常不錯的,但是購房者對住房的價格,環(huán)境的優(yōu)越性, 小區(qū)的服務質量, 戶型上的合理性等等諸如此類的問題難免會遇到選擇上的困惑。這些都使得購房者做出購房決策難上加難。針對這一狀況,創(chuàng)建一個從眾多購房經驗中挖掘出能為購房者提供客觀、科學的購房決策十分有意義。1.2國內外研究現狀目前,針對于這一情況,國內外的研究主要采用以下幾個方法來實現購房決策的:1.%2.使用層次分析法實現購房決策:美國運籌學家 T.L.Saaty 教授在上世紀 70 年代初期提出了層次分析法,它是對某一個提出的問題進行一定量的分析,它使用起了非常的方便、靈活, 它也是十分的有用并以多方面為準則的一種方法。 此方法
6、的優(yōu)點是把不同的問題中的不同因素分類成有聯系的有次序的層次,使問題變得清楚,明晰,根據一定的規(guī)則把分析者的意見和專家的意見有機的聯系起來,它是一種比較復雜的連接, 它是把同一層次中的所有元素仔仔細細的比較以后, 用科學的方法找出可以體現出同一層元素中相對至關重要的權值,最后把所有的層次之間進行從小到大的排序并通過這排序找出全部元素的相對權重1。2.%2.使用嫡值法與 TOPSIS 法實現購房決策:嫡值法,在信息論中,嫡是對某一個問題的不確定性的一種衡量。信息量越多,不確定性就非常的小,嫡值它也跟著就?。环粗?,就會變得比較大。根據嫡的這種特殊的性質,我們可以大概的判斷某些問題的隨機性有多大, 同
7、樣可以用來計算某個問題的離散度到底有多大, 離散度越大,對最后結果影響也就越深。TOPSIS(TechniqueforOrderPreferencebySimilaritytoanIdealSolution)1法,TOPSIS法是C.L.Hwang和K.Yoon于1981年首次提出1,TOPSIS法根據有限個評價對象與理想化目標的接近程度進行排序的方法,是在現有的對象中進行相對優(yōu)劣的評價2運用嫡值法與 tops1s 的購房決策的主要步驟是:a.定性屬性量化。b.確定權重。c.決策方案的選擇。3.%2.房地產行業(yè)中的數據挖掘技術:商業(yè)中數據挖掘技術的使用是十分的廣泛, 房地產行業(yè)能使用這個技術找
8、出有用的商業(yè)價值, 使他們發(fā)現有價值的商機并且制定開發(fā)計劃和一些銷售的策略30總結:第 1、2 種方法有如下優(yōu)缺點 a.優(yōu)點:系統(tǒng)的分析法;使用的數據信息很少;很簡潔和實用的決策方法。b.缺點:數據量少,定性成分較多,不容易讓人信服;需要專家等的不少意見,含有較大部分的主觀因素;指標太多時數據信息統(tǒng)計量非常大,并且權重很難定下來;特征值和特征向量的精確求法復雜,難以實現。第 3 種方法大多基于商業(yè)目的, 沒有站在購房者的角度做出合適購房者的決策方法。 而決策樹的出現正解決了以上的問題,它需要大量的數據,客觀性較強,不需要或者很少需要專家的意見,可以說決策樹在這方面的應用前景非常好。2決策樹的研
9、究1數據挖掘與分類算法概述戀 戀 愀 攙昀戀戀.數據挖掘相關理論什么是數據挖掘?其實它指的就是從眾多的、不完整的、有噪聲的(數據不準確,不現實)、隨機的并且在實際應用的數據中,挖掘出有用的,能給人啟發(fā)的,有意義的數據的過程40人們根據數據挖掘方式的不同,可以將數據挖掘的方法分為統(tǒng)計方法、機器學習法、數據庫法和神經網絡法等 4 種方法。其中機器學習法包括了歸納和總結學習、案例分析學習、遺傳算法等;神經網絡法包括前向神經網絡、自組織神經網絡等方法;數據庫法通?;诙嗑S數據的分析,也有面向屬性的歸納法,但是很少用;而統(tǒng)計方法則包括回歸分析、聚類分析、探索性分析等50數據挖掘發(fā)現的知識種類4:(1)廣
10、義型知識(Generalization),它是對數據的總結,對數據提煉,對數據的抽象化。(2)特征型知識(Characteristic),體現出事物各方面的特征知識。(3)差異型知識(Clustering),體現出一個事物和其它事物不同的知識。(4)關聯型知識(Association),能體現出事物與事物之間存在的某種關系, 這種關系可以是依賴,也可以是關聯。(5)預測型知識(Prediction),從過去的歷史數據和現在數據進行分析,來預測將來的某些數據的知識。(6)偏離型知識(Deviation),體現出數據不同于平常的時的一些異常的現象。知識的種類很多,不管是微觀還是宏觀方面都有它的蹤影
11、,不管是從概念上還是從實質上這些知識都可以被發(fā)現,它可以滿足很多用戶的需要。數據挖掘過程一般由三個階段組成:a.數據的準備,b.數據的挖掘,c.結果表達和解釋。數據挖掘可以同用戶或知識庫進行交互。數據挖掘在國內外應用非常廣泛,特別在金融行業(yè)中,使用關聯規(guī)則,可以比較成功的預測銀行客戶的需求。企業(yè)得到這些信息后,就可以改善自己的經營方式,提高自身企業(yè)在同行中的競爭力。戀 戀 愀 攙昀戀戀.分類算法相關理論分類是一個學習過程,它是把數據樣本映射到一個我們以前定義的類中的學習過程, 用基于歸納的學習算法把一組給定輸入的屬性向量及其對應的類的數據得出它的類別,。分類可以通過這樣簡單的描述:數據的輸入(
12、稱為訓練集 TrainingSet)是由很多的數據組成的。每個記錄包括很多條屬性,組成了一個特征向量,輸入數據中還有一個特別的類標,類標是系統(tǒng)的輸入,通常來講是一些具有經驗性的數據6o分類一般是通過訓練集里面的數據自身含有的一些特性達到的,而分類的目的就是要分析這些數據, 為每個類分析出準確的模型與描述。 用測試數據來對這個模型或描述進行檢測,也可以說用這個模型來對測試數據進行分類。對這些數據進行類標的預測。但是這只是個預測罷了,不可以說這是準確的分類。但是我們能從預測的分類中對每個類有很好的理解,因而可以說我得到了對這個數據的相應的知識。數據分類的比較尺度或分類器評價通常有三種,如下所述:(
13、1)準確度的預測:用的最多是比較尺度,很多情況都用于預測型的分類任務,目前來說大家公認的預測方法是分層交叉的驗證方法。(2)計算復雜度:復雜度的計算大多數與環(huán)境有關,環(huán)境包括軟環(huán)境和硬環(huán)境,同時對于信息化的今天來說, 每天都會產生海量的數據, 而數據挖掘就是對這些數據進行挖掘,因此時間和空間的復雜度是一個不得不注意的問題。(3)模型的簡潔度:對于分類任務中是描述的模型描述是越簡單越好。分類算法在國內外的應用中主要應用于信用卡系統(tǒng)中的市場調查,信用的分級,尋找店址或者療效診斷等等。歸納學習決策樹的學習算法以歸納學習算法為基礎的,因而這里簡單的介紹一下歸納學習。歸納學習是從一些看似沒有任何規(guī)律的沒
14、有什么規(guī)則的具體的事例中,分析找出其中蘊涵的規(guī)律, 這些具體事例通常是關于屬性理論的, 由某些特定的屬性值分析出某個問題的一個結論,比如說,我們給一些關于一種概念它的一些實例,這些實例有正的,也有違背它的反例,而它的功能就從這些實例中分析出一種較新的概念或者,從中建立一些新的規(guī)則新的理論等。決策樹算法的產生和發(fā)展為海量數據創(chuàng)建一個模型的這個過程對于數據挖掘來說是非常重要的,而這個模型的構造方法又和數據挖掘的方法緊密相連,挖掘方法的不同,構造的方式也有所差異, 在對海量數據進行挖掘的時候我們可以采用許許多多不同的挖掘辦法, 如決策樹、 神經網絡、 可視化等使用廣泛的的技術。 而且, 每個方法同時
15、又有許多子方法。其中決策樹算法是數據挖掘中很常用的一種技術。然而它一直都是默默無聞的,直到 1984 年分類和回歸樹這本書的發(fā)行,決策樹才被許多學者所接受, 并且其推廣的速度和應用速度也是非常快的。 決策樹算法中最為經典的算法要數ID3 算法了,ID3 算法是基于信息嫡的算法,然而,這個算法不是很完美,近些年來,很多學者對其進行了修改,使此算法得到了很大的改進70目前像 C4.5,ID3,CART,CHAID?這些算法很完善、應用很廣了。C4.5 是 ID3 算法的改進版本,是由 Quinlan 本人提出的。決策樹學習算法決策樹學習算法是一種通過歸納學習的算法常用算法,通常以實例為基礎,并用來
16、形成預測模型與分類器,可以對新數據進行分類和預測、數據的處理、數據挖掘等方面。決策樹學習算法一般包以下幾個部分,第一是樹的生產,第二是樹的減枝。決策樹描述所謂的決策樹,它就是一棵樹,一棵倒置的樹,它有根,有葉,也有內部分枝,內部分枝即內部節(jié)點,它代表的是屬性或者很多屬性(屬性集),葉(葉節(jié)點)代表的是要劃分的具體的類。對于一棵決策樹,我們可以從上到下,通過屬性值的取值來得到一個未知類的類標, 因而達到了分類的目的。 對于一個新的未知類的數據分類一般是先從根開始,根據對應的屬性值選擇分枝,一步一步的深入,當到達某個葉節(jié)點的時候,分類結束,葉節(jié)點的值就是我們分類的結果決策樹 C4.5 的構造算法的
17、數學模型ID3 與 C4.5 算法的主要思想是通過選擇決策樹中的各級節(jié)點的屬性,用信息增益(ID3)和信息增益比(C4.5)用作描述屬性的選擇準則與標準,從而使每個非葉節(jié)點在進行測試的時候, 就能獲得被測信息的最大類別信息, 同時使用這個屬性可以使數據集劃分子集過后, 得到的系統(tǒng)的嫡值最小。 而非葉節(jié)點到達后代的葉節(jié)點的深度即路徑比其它情況要淺些,提高了準確度和分類的速度9oC4.5 算法操作步驟如下4:輸入:給出數據集 Xrain,這當中個個數據的描述屬性都是有具體的取值的,而且個個數據都有具體的類標取值;這些描述屬性的組合可以作為決策樹的根節(jié)點和內部節(jié)點。輸出:決策樹。(1)將 Xrain
18、中的每一個樣本都是同一個類別的把這根節(jié)點設置為葉節(jié)點,不是就進行第(2)。(2)假如沒有描述屬性了,就將根節(jié)點標記成為葉節(jié)點,類標號是 Xtrain中類別號為同一值的數量最多的類別號,不然則第(3)步。(3)計算出所有描述屬性的信息增益比,選擇最大的信息增益比的描述屬性作為該根節(jié)點的分支屬性, 如果描述屬性是連續(xù)型屬性的時候, 對連續(xù)屬性要進行離散化處理,選擇信息增益比最大的分割點作為分支屬性。然后進行第步。(4)通過分支屬性的不同取值把 Xtrain分成對應的數據樣本子集,如果是連續(xù)性屬性則根據最大分割點把數據集劃分為兩個樣本子集,之后進行第(5)步(5)后面的各個內部節(jié)點,可以通過遞歸調用
19、重復步驟(1)-(4),從而選擇最佳的分支屬性作為內部節(jié)點,當把所有的樣本歸于某個葉節(jié)點的時候停止此算法。在內部節(jié)點進行上面的操作時候用的數據是該節(jié)點所對應的樣本子集。而且,下面的節(jié)點不會用到上面也出現的描述屬性10oC4.5 算法的描述:假設給定的數據集為 X=(xi,yi)|i=1,2,total,表示為Xi=(xi1,Xi2,Xid),Xi1,Xi2,Xid是描述屬性為AI,A2,Ad的對應取值;yi(i=1,2,total)用來表示樣本Xi的類標號,設想有 m 個類別,則yi亡C1,C2,cm0假如nj是數據集 X 中類別為Cj是的樣本的數量,則P(cp=nj/tot,a=1,2,m
20、為各類標的先驗概率。則 X 分類所需的期望信息為(1)所示。mI(ni,r)2,,nm尸PC)10g2(P(Cj)(1)jA設屬性Af(f=1,2,有q個不同的取值 aif,a2f,aqf ,用A,將X劃分為q個子集 Xi,X2,XS ,其中XS(s=1,2,q)為樣本在Af上具有相同的取值asfo用ns表示子集Xs中的樣本數量,njs表示子集Xs中屬于類別 5 的樣本數量。則有描述屬性Af劃分數據集 X 所得的嫡為qn1s一-nmsE(Af)=X-mI(nis,nms)satotal其中mI(nis,,nms)=Pjslog2(Pjs)(3)j=20。價格(price)是每平方米的單價有5中
21、類型:(a)2000-3000(b)3001-4000(c)4001-5000(d)5001-6000(e)=6001。面積(area)從60至Q140共有6種類型:(a)140。環(huán)境(environment)是指對小區(qū)物業(yè)管理的滿意度評價,從 0.1,0.2,1.0 共有 10 個等級。數據收集與數據預處理數據收集工作在數據挖掘中占了很大一部分工作,此論文的數據收集主要采用 WebR 頁調查(見圖 1)共得到了 114 份數據, 其中購買度(buyingreadiness)為 0.7 的有 29 條,為 0.6 的 22 條,為 0.8 的有 17 條,為 0.5 的有 16 條,購買度從
22、0.5 到 0.8區(qū)間內總共有數據 84 條,占總數據量的 73.7%。詳見下圖 5:圖 5 各類標的數據量由于采用 Web 網頁調查方式,數據預處理工作變很容易,空值,不真實的值是不能夠插入到統(tǒng)計表 information 表里面的,見圖 6購房滿意度調查aJflM-jQQOSeSWi4OTQ7tO4Q01-M0Q7EOSOOl-tiQOOTCOMO 吭底_L距商工地距國 i;、:L 公里:610 公里 1.1120一:1。公里圖 6 購房滿意度調查頁面使用決策樹C4.5算法對數據分類此論文用 PHPS 言實現 C4.5 算法對數據的分類。其中主要的功能函數如下:/計算信息增益比時所用的分母
23、functionplansplit($abc)$row=count($abc);,/計算信息期望functionecpectanceInformation($buyDegree)for($i=0;$icount($buyDegree,1);$i+)/計算嫡functionentropy($descriptiveAttributes)$row=count($descriptiveAttributes);價畤每平方j)/計算信息增益比functiongain($buyDegree2,$descriptiveAttributes2)if(plansplit($descriptiveAttribute
24、s2)=0),)/C4.5 算法主體部分functionMaxgain($shuxi,$biaoming)global$db;,)/對未知類別的新數據進行分類functionshixianshuchu($labe,$temp)global$maxgen;,)其中對連續(xù)屬性的離散化處理函數包含在主體部分中。利用以上程序對采集來的購房數據進行分類后得到決策樹(部分)如圖 73950modeidpriceBML85-workdistancesalary應用算法解決購房問題對于前言中提出的如何在眾多的房屋信息中,如何做出很好的決策呢,此論文用C4.5 算法實現的了此決策,只要用戶給相關的數據,決策樹算
25、法就能把此新數據進行分類,即做出決策,圖 8 是用戶填寫相關信息的界面。歡迎使用購房指導造填弓如下內容,以一斤if能力艙出廣曲的律徒圖 8 購房指導頁面4總結與展望論文在以下幾個方面做了較深入的研究(1)介紹了數據挖掘、分類算法、歸納學習等相關知識(2)詳細的闡述了決策樹 C4.5 算法的數學模型,研究了 C4.5 算法生成決策樹的過程(3)比較了 ID3 與 C4.5 的優(yōu)缺點。(4)介紹了 ApacheMySQLPH 對軟件的相關知識。(5)創(chuàng)建了一個適合于 C4.5 分類的相關數據表。(6)設計和創(chuàng)建了關于購房應用的相關網頁。(7)通過 WetB 頁的調查,收集了 114 份數據。(8)用 PHPi言實現了 C4.5 的應用。今后所需要做的工作。通過此論文的相關研究,初步完成了決策樹在購房中的應用。但是仍然有很多問題必須進行更深入的研究和完善:(1)在使用決策樹 C4.5 算法的時候,只研究了決策樹的生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 食品銷售合作協議
- 農村地區(qū)農業(yè)信息服務平臺建設協議
- 2025版彩鋼活動房租賃及租賃期滿后場地恢復及拆除管理合同
- 2025年度車輛融資租賃購車合同模板(含車輛使用權轉移)
- 二零二五年度辦公設備租賃與品牌合作合同
- 2025年度環(huán)保設備采購計劃編制及目標達成合同
- 二零二五年度智能家電安裝與售后服務合同范本匯編
- 二零二五年度生態(tài)補償機制與綠色金融合作協議匯編
- 2025版企業(yè)財務風險管理與內部控制優(yōu)化合作協議
- 二零二五年度餐廳客戶關系管理外包服務承包合同
- 體育設備采購項目方案投標文件(技術方案)
- 烘焙技巧培訓課程行業(yè)深度調研及發(fā)展戰(zhàn)略咨詢報告
- 軟件質量標準與檢驗指南
- 經前期綜合征課件
- DB35T 2192-2024河湖智慧監(jiān)管體系構建導則
- 2024年秋新魯科版三年級上冊英語 Unit 1 lesson 1 教學課件
- 車間洗手消毒管理制度
- 頂管工程監(jiān)理實施細則
- 音樂劇排練流程
- 智慧樹知到《中國歷史地理(北京大學)》2025章節(jié)測試附答案
- 2025年統(tǒng)編版一年級上冊語文識字表字帖
評論
0/150
提交評論