《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第1頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第2頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第3頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第4頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財會)》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第6章聚類分析及應(yīng)用CONTENTS目錄6.1聚類概念6.2聚類方法6.3聚類應(yīng)用016.1聚類概念聚類分析(ClusterAnalysis)簡稱聚類(clustering),是把一個數(shù)據(jù)對象劃分子集的過程。每個子集是一個簇,使得同一簇內(nèi)的對象具有盡可能高的同質(zhì)性(homogeneity),而與其他簇中的對象之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。由聚類分析產(chǎn)生的簇的集合稱作一個聚類。6.1聚類概念聚類分析處理的數(shù)據(jù)對象集是無類別標(biāo)記的,算法需要對原始數(shù)據(jù)的特征進(jìn)行探索,進(jìn)而挖掘出一些數(shù)據(jù)對象之間的共性特點。6.1聚類概念與分類不同,聚類分析是在沒有給定劃分類別的情況下,根據(jù)數(shù)據(jù)相似度進(jìn)行樣本分組的一種方法。與分類模型需要使用有類標(biāo)記樣本構(gòu)成的訓(xùn)練數(shù)據(jù)不同,聚類模型可以建立在無類標(biāo)記的數(shù)據(jù)上,是一種非監(jiān)督的學(xué)習(xí)算法。6.1聚類概念(1)數(shù)據(jù)準(zhǔn)備:包括對數(shù)據(jù)特征進(jìn)行標(biāo)準(zhǔn)化、屬性降維、噪音處理;(2)特征選擇:從最初的特征集中選擇最有代表性的特征或特征組合,并將其存儲于向量中;(3)特征提取:通過對所選擇的特征進(jìn)行轉(zhuǎn)換進(jìn)而形成新的特征;(4)聚類:選擇適合特征類型的某種距離函數(shù)進(jìn)行接近度或相似度的測量,而后根據(jù)距離進(jìn)行聚類或分組;(5)結(jié)果評估:對聚類結(jié)果進(jìn)行評估,評估主要有3種:外部有效性評估、內(nèi)部有效性評估和相關(guān)性測試評估。聚類通常包括如下階段:026.2聚類方法聚類是將研究對象分為相對同質(zhì)的群組或簇技術(shù),現(xiàn)有研究和文獻(xiàn)中有大量關(guān)于聚類的算法和技術(shù)。聚類的主要基礎(chǔ)算法,包括如下幾類:劃分方法(partitioningmethod)、層次方法(hierarchicalmethod)、基于密度方法(density-basedmethod)和基于網(wǎng)格方法(grid-basedmethod)。6.2聚類方法6.2.1劃分方法聚類分析中最簡單、最基本的方法是劃分。給定一個具有n個對象的數(shù)據(jù)集,劃分方法(PartitionMethods)構(gòu)建數(shù)據(jù)的k個分區(qū),其中每個分區(qū)代表一個簇,并且k≤n。也就是說,劃分方法把數(shù)據(jù)劃分為K個組,使得每個組至少包含一個對象,且每個對象只能屬于一個組。目前常用的劃分方法有如下兩種:K-means算法與K-medoids算法。6.2.1劃分方法K-means算法是典型的基于距離的非層次聚類算法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K,采用距離作為相似性的評價指標(biāo),即認(rèn)為兩個對象的距離越近,其相似度就越大。K-means聚類算法中,一般需要度量樣本之間的距離、樣本與簇之間的距離以及簇與簇之間的距離。度量樣本之間的相似性最常用的是歐幾里得距離、曼哈頓距離和閔可夫斯距離;樣本與簇之間的距離可以用樣本到簇中心的距離;簇與簇之間的距離可以用簇中心的距離。6.2.1劃分方法K-means算法:給定一個數(shù)據(jù)集和需要劃分的簇的數(shù)目k后,該算法根據(jù)某個距離函數(shù)反復(fù)把數(shù)據(jù)劃分到k個簇中,直至收斂,算法步驟如下:算法:K-means輸入:包含n個對象的數(shù)據(jù)庫,簇的數(shù)目k輸出:k個簇,使平方誤差最小步驟:(1) 任選k個對象作為初始的簇中心;(2) repeat(3) 根據(jù)與每個中心的距離,將每一對象賦給“最近”的簇(4) 重新計算每個簇的平均值(5) Until不再發(fā)生變化6.2.1劃分方法算法首先在數(shù)據(jù)集中隨機抽取的k個對象,每個對象代表一個簇的初始均值或簇中心,然后計算每個數(shù)據(jù)點到每個簇中心的距離,并把每個數(shù)據(jù)點分配到離它最近的簇中心;一旦所有的數(shù)據(jù)點都被分配完成,每個聚類的簇中心按照本聚類的現(xiàn)有數(shù)據(jù)點重新計算;該過程不斷重復(fù),直至收斂,即滿足某個終止條件為止,最常見的終止條件是誤差平方和局部最小。6.2.1劃分方法

6.2.1劃分方法K-medoids算法:又叫K中心點算法,K-Medoids算法是用簇中最靠近中心點的一個真實數(shù)據(jù)對象來代表該簇,而K-means算法是用計算出來的簇中對象的平均值來代表該簇,算法步驟如下:算法:K-medoids輸入:包含n個數(shù)據(jù)對象的集合,簇的數(shù)目k輸出:k個簇步驟:(1)任意選取k個初始中心點(medoids);(2)repeat(3)按照與medoids最近的原則,將剩余點分配到當(dāng)前最佳的medoids所代表的類或簇中(4)在每一類或簇中,計算每個樣本點與其他點的距離之和,選取距離之和最小的點作為新的medoids(5)Until重復(fù)(3)(4)的過程,直到所有的中心點(medoids)不再發(fā)生變化,或已達(dá)到設(shè)定的最大迭代次數(shù)

6.2.1劃分方法新聞文本聚類首先,新聞文本聚類可以發(fā)現(xiàn)與某文檔相似的一批文檔,幫助知識工作者發(fā)現(xiàn)相關(guān)知識;其次,文檔聚類可以將一類文檔聚類成若干個類,提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以對文檔進(jìn)行分類。聚類分析以相似性為基礎(chǔ),在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。6.2.2層次方法層次聚類是一種很直觀的算法,通俗理解就是要一層一層地進(jìn)行聚類,可以從下而上地把小的簇合并聚集,也可以從上而下地將大的簇進(jìn)行分裂,即包括凝聚型和分裂型層次聚類算法(agglomerative和divisive)。(1)凝聚層次聚類:又叫自底向上方法,其策略是首先將每個對象作為一個簇,然后合并相鄰近的簇為越來越大的簇,直到所有的對象都在一個簇中,或者某個終結(jié)條件被達(dá)到要求。(2)分裂層次聚類:又叫自頂向下方法,其策略與凝聚的層次聚類有些不一樣,它首先將所有對象放在一個簇中,然后慢慢地細(xì)分為越來越小的簇,直到每個對象自行形成一簇,或者直達(dá)滿足其他的一個終結(jié)條件,例如滿足了某個期望的簇數(shù)目,又或者兩個最近的簇之間的距離達(dá)到了某一個閾值。6.2.2層次方法凝聚型層次聚類步驟(1)將每個對象看作一個類,計算兩兩之間的最小距離;(2)repeat(3)將距離最小的兩個類合并成一個新類(4)重新計算新類與所有類之間的距離(5)Until重復(fù)(3)(4)的過程,重復(fù)(2)、(3),直到所有類最后合并成一類

6.2.2層次方法凝聚型層次聚類6.2.2層次方法如何判斷兩個簇(cluster)之間的距離呢?1.最小距離,單鏈接SingleLinkage兩個簇的最近樣本決定。2.最大距離,全鏈接CompleteLinkage兩個簇的最遠(yuǎn)樣本決定。3.平均距離,均鏈接AverageLinkage兩個簇所有樣本共同決定。方法1和2都容易受極端值的影響,而方法3計算量比較大。6.2.3密度方法層次聚類算法和劃分式聚類算只能發(fā)現(xiàn)凸形的聚類簇,為了彌補這一缺陷,發(fā)現(xiàn)各種任意形狀的聚類簇,開發(fā)出基于密度的聚類算法(Density-BasedMethods)。這類算法認(rèn)為,在整個樣本空間點中,各目標(biāo)類簇是由一群的稠密樣本點組成的,而這些稠密樣本點被低密度區(qū)域(噪聲)分割,而算法的目的就是要過濾低密度區(qū)域,發(fā)現(xiàn)稠密樣本點。6.2.3密度方法算法原理:只要鄰近區(qū)域里的密度(對象的數(shù)量)超過了某個閾值,就繼續(xù)聚類。也即,給定某個簇中的每個數(shù)據(jù)點(數(shù)據(jù)對象),在一定范圍內(nèi)必須包含一定數(shù)量的其他對象。該算法從數(shù)據(jù)對象的分布密度出發(fā),把密度足夠大的區(qū)域連接在一起,因此可以發(fā)現(xiàn)任意形狀的類?;诿芏鹊姆椒ㄖ腥N代表性的算法包括:DBSCANOPTICSDENCLUE6.2.4網(wǎng)格方法STING(StatisticalInformationGrid)算法針對空間數(shù)據(jù)挖掘的算法,采用多分辨率的方式進(jìn)行聚類,聚類的質(zhì)量取決于最底層的粒度。WaveCluster是一個多分辨率的聚類方法,通過小波變換來轉(zhuǎn)換原始的特征空間。其主要思想是,首先量化特征空間,把數(shù)據(jù)映射到一個多維網(wǎng)格中,然后對網(wǎng)格單元進(jìn)行小波變換,通過搜索連通分支得到聚類?;诰W(wǎng)格的聚類(grid-basedclustering)將對象空間量化為有限數(shù)目的單元,形成網(wǎng)格結(jié)構(gòu),每個單元中存儲對象的統(tǒng)計參數(shù),然后在這個量化空間(網(wǎng)格結(jié)構(gòu))上進(jìn)行所有的聚類操作?;诰W(wǎng)格方法的典型算法有STING算法、WaveCluster算法:6.2.5聚類評估聚類評估就是對在數(shù)據(jù)集上進(jìn)行聚類的可行性和聚類結(jié)果的質(zhì)量的評價,主要包括如下任務(wù):估計聚類趨勢。確定數(shù)據(jù)集的簇數(shù)。評估聚類分析結(jié)果的質(zhì)量。036.3聚類應(yīng)用6.3聚類應(yīng)用背景:長期以來,中國的軟件業(yè)的核心技術(shù)依賴國際巨頭,隨著國際環(huán)境的變化,越來越多的企業(yè)基于供應(yīng)鏈安全的需求,開始使用國產(chǎn)軟件,由此帶來了國產(chǎn)軟件行業(yè)的快速發(fā)展。隨著我國經(jīng)濟(jì)社會發(fā)展到新的階段,軟件對經(jīng)濟(jì)高質(zhì)量發(fā)展、推動數(shù)字經(jīng)濟(jì)發(fā)展、促進(jìn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級日益發(fā)揮重要作用,因此對我國軟件行業(yè)上市公司的績效進(jìn)行評價十分必要。6.3.1財務(wù)質(zhì)量分析將按照上市公司軟件財務(wù)實際運行過程,從四個方面對企業(yè)財務(wù)質(zhì)量進(jìn)行分析,具體如下圖所示:企業(yè)財務(wù)質(zhì)量評價1.償債能力2.營運能力3.盈利能力4.成長能力圖4-5企業(yè)財務(wù)質(zhì)量評價框架6.3.2數(shù)據(jù)處理1.數(shù)據(jù)選取根據(jù)樣本數(shù)據(jù)的可操作性、全面性、可比性、客觀性原則,本文選取了A股上市公司中軟件和信息技術(shù)服務(wù)業(yè)的15家公司作為研究對象,基于成長能力、營運能力、償債能力和盈利能力四個方面,共選取17個反映企業(yè)財務(wù)綜合狀況的指標(biāo)進(jìn)行分析。6.3.2數(shù)據(jù)處理1.數(shù)據(jù)選取根據(jù)樣本數(shù)據(jù)的可操作性、全面性、可比性、客觀性原則,本文選取了A股上市公司中軟件和信息技術(shù)服務(wù)業(yè)的15家公司作為研究對象,基于成長能力、營運能力、償債能力和盈利能力四個方面,共選取17個反映企業(yè)財務(wù)綜合狀況的指標(biāo)進(jìn)行分析。6.3.2數(shù)據(jù)處理2.數(shù)據(jù)預(yù)處理針對本研究所選的數(shù)據(jù)特點,主要處理空缺值。對于空缺值,使用數(shù)據(jù)屬性的均值填充的方法,將同屬性數(shù)據(jù)的平均值填補空缺值。6.3.2數(shù)據(jù)處理3.數(shù)據(jù)轉(zhuǎn)換

6.3.3聚類分析對已經(jīng)標(biāo)準(zhǔn)化的數(shù)據(jù),我們采用K-Means聚類算法,對所有指標(biāo),設(shè)定聚類個數(shù)K為2,最大迭代次數(shù)為100次,分類輸出結(jié)果如下圖所示

:6.3.3聚類分析上述分析所用Python聚類核心代碼如下:fornuminrange(2,9):#迭代2到9之間的數(shù)字

#調(diào)用KMeans方法,聚類數(shù)為num個,fit()之后開始聚類kmeans=KMeans(n_clusters=num).fit(all_points)pred=kmeans.fit_predict(all_points)#計算calinski_harabasz_score值

print(num,",",metrics.calinski_harabasz_score(all_points,pred))

print("cluster".join(str(i)foriinkmeans.labels_))

forjlcenginrange(2,9):#調(diào)用AgglomerativeClustering層次聚類方法,聚類數(shù)為jlceng個clst=cluster.AgglomerativeClustering(jlceng)pred1=clst.fit_predict(all_points)#計算calinski_harabasz_score值

print(jlceng,",",metrics.calinski_harabasz_score(all_points,pred1))print(",".join(str(i)foriinclst.labels_))6.3.3聚類分析在進(jìn)行聚類時,我們用Python的calinski_harabaz_score方法評價聚類效果的好壞,該指標(biāo)表示類間距除以類內(nèi)距,因此這個值越大越好。我們采用計算不同聚類個數(shù)k值下的calinski_harabaz_score統(tǒng)計值來確定最優(yōu)的K,如下圖,我們可以明顯的看到選擇K=2是最合理的,所以在接下來的聚類中我們選擇K=2聚為兩類。6.3.3聚類分析

簇1簇2樣本個數(shù)312占比(%)2080公司樣本交大思諾,頂點軟件,博睿數(shù)據(jù)

海量數(shù)據(jù),信雅達(dá),超圖軟件,科大訊飛,博彥科技,信雅達(dá),海量數(shù)據(jù),漢得信息,超圖軟件,博彥科技,中科軟,拓爾思,東軟集團(tuán),格爾軟件,寶信軟件,浪潮軟件聚類結(jié)果如下:6.3.3聚類分析聚類均值結(jié)果如下:

指標(biāo)

聚類-1(均值)聚類-2(均值)成長能力主營業(yè)務(wù)收入增長率(%)

11.714.6凈利潤增長率(%)

12.65.1凈資產(chǎn)增長率(%)

18.313.7總資產(chǎn)增長率(%)

16.812.4營運能力應(yīng)收賬款周轉(zhuǎn)率(次)

6.53.9總資產(chǎn)周轉(zhuǎn)率(次)

0.40.7流動資產(chǎn)周轉(zhuǎn)率(次)

0.60.9股東權(quán)益周轉(zhuǎn)率(次)

0.61.0償債能力流動比率(%)

5.92.2資產(chǎn)負(fù)債率(%)

15.635.6負(fù)債與所有者權(quán)益比率(%)

18.661.06.3.3聚類分析聚類均值結(jié)果如下:盈利能力總資產(chǎn)利潤率(%)

17.85.0主營業(yè)務(wù)利潤率(%)

75.139.2銷售凈利率(%)

36.48.4凈資產(chǎn)收益率

21.18.2每股收益(元)

1.60.4每股資本公積金(元)

2.11.66.3.3聚類分析聚類-1包括3個樣本,占比,交大思諾,頂點軟件,博睿數(shù)據(jù)。聚類-2包括12個樣本,信雅達(dá),海量數(shù)據(jù),漢得信息,超圖軟件,博彥科技,中科軟,拓爾思,東軟集團(tuán)格爾軟件,寶信軟件,浪潮軟件,科大訊飛。從上表顯示的聚類指標(biāo)均值來看,在成長能力方面,如凈利潤增長率(%)、凈資產(chǎn)增長率、總資產(chǎn)增長率等方面,聚類-1比聚類-2好,聚類-1凈利潤增長率均值在12.6%明顯高于聚類-2的均值5.1%,聚類-1的凈資產(chǎn)增長率和總資產(chǎn)增長率也比聚類-2分別高近4.6和4.4個百分點;在營運能力方面,聚類-1和聚類-2基本接近;在盈利能力,如總資產(chǎn)利潤率,主營業(yè)務(wù)利潤率,銷售凈利率,凈資產(chǎn)收益率、每股收益,聚類-1比聚類-2好。在償債能力方面,聚類-2負(fù)債與所有者權(quán)益比率(61%)比聚類-1(18.6)明顯高,聚類-2資產(chǎn)負(fù)債率35.6%也比聚類-1的資產(chǎn)負(fù)債率15.6%高20個百分點,說明聚類-2在負(fù)債方面的風(fēng)險要明顯高于聚類-1,企業(yè)平均的償債能力比聚類-1低。因此,綜合看,聚類-1代表企業(yè)的財務(wù)質(zhì)量能力較好,聚類-2代表企業(yè)的財務(wù)質(zhì)量“一般”。6.3.3聚類分析我們繼續(xù)對指標(biāo)進(jìn)行細(xì)分聚類有如下發(fā)現(xiàn):(1)基于成長能力指標(biāo)進(jìn)行聚類,從聚類的結(jié)果看,當(dāng)K等于2時,calinski_harabaz_score值為7.17最大,聚類1包括信雅達(dá)、海量數(shù)據(jù)、漢得信息、浪潮軟件、東軟集團(tuán)、頂點軟件;聚類2包括超圖軟件、博彥科技、中科軟、拓爾思、交大思諾、格爾軟件、博睿數(shù)據(jù)、寶信軟件、科大訊飛;(2)基于營運能力指標(biāo)進(jìn)行聚類,從聚類的結(jié)果看,當(dāng)K等于3時,calinski_harabaz_score值為8.4最大,聚類1包括信雅達(dá)、頂點軟件;聚類2包括博彥科技、中科軟;聚類3包括超圖軟件、拓爾思、交大思諾、格爾軟件、博睿數(shù)據(jù)、寶信軟件、科大訊飛;6.3.3聚類分析我們繼續(xù)對指標(biāo)進(jìn)行細(xì)分聚類有如下發(fā)現(xiàn):(3)基于償債能力指標(biāo)進(jìn)行聚類從聚類的結(jié)果看,當(dāng)K等于3時,calinski_harabaz_score值為34最大,聚類1包括海量數(shù)據(jù)、中科軟;聚類2包括博睿數(shù)據(jù)、頂點軟件、交大思諾;聚類3包括漢得信息、超圖軟件、博彥科技、拓爾思、東軟集團(tuán)、格爾軟件、寶信軟件、浪潮軟件、科大訊飛;(4)基于盈利能力指標(biāo)進(jìn)行聚類從聚類的結(jié)果看,當(dāng)K等于2時,calinski_harabaz_score值為14.9最大,聚類1包括交大思諾、頂點軟件、博睿數(shù)據(jù);聚類2包括信雅達(dá)、海量數(shù)據(jù)、漢得信息、超圖軟件、博彥科技、中科軟、拓爾思、東軟集團(tuán)、格爾軟件、寶信軟件、浪潮軟件、科大訊飛;在聚類2中,超圖軟件,科大訊飛,博彥科技,中科軟,拓爾思,寶信軟件等公司基本都是業(yè)內(nèi)盈利能力強,長期經(jīng)營并有一定核心技術(shù)競爭力的企業(yè),如超圖、科大訊飛、拓爾思都有科研高校背景,產(chǎn)學(xué)研研發(fā)基礎(chǔ)比較強。感謝觀看第7章回歸分析及應(yīng)用CONTENTS目錄7.1回歸7.2線性回歸7.3多項式回歸7.4多元線性回歸7.5邏輯回歸017.1回歸什么是回歸回歸最早是由英國生物統(tǒng)計學(xué)家高爾頓和他的學(xué)生皮爾遜在研究父母和子女的身高遺傳特性時提出的用一個或多個自變量來預(yù)測因變量的數(shù)學(xué)方法預(yù)測的變量叫作因變量,比如產(chǎn)品質(zhì)量;選取用來解釋因變址變化的變量叫作自變量,比如用戶滿意度?;貧w的目的就是建立一個回歸方程來預(yù)測目標(biāo)值,整個回歸的求解過程就是求這個回歸方程的回歸系數(shù)回歸最簡單的定義就是:給出一個點集,構(gòu)造一個函數(shù)來擬合這個點集,并且盡可能地讓該點集與擬合函數(shù)間的誤差最小7.1回歸回歸舉例7.1回歸年份/年成本/元利潤/元年份/年成本/元利潤/元20054008020135581992006450892014590203200748692201561024720085001022016640250200951012120176802592010525160201875028920115401802019900356201254918920201200?現(xiàn)建立模型,x表示企業(yè)成本,y表示企業(yè)利潤,f表示將輸人變量映射到輸出變量y的函數(shù)。f(x)=kx+b 7.1回歸現(xiàn)建立模型,x表示企業(yè)成本,y表示企業(yè)利潤,f表示將輸人變量映射到輸出變量y的函數(shù)。f(x)=kx+b 7.1回歸027.2線性回歸線性回歸是數(shù)據(jù)挖掘中的基礎(chǔ)算法之一,其核心思想是求解一組因變量和自變之間的方程,得到回歸函數(shù),同時誤差項通常使用最小二乘法進(jìn)行計算在本書用的SKlearn機器學(xué)習(xí)庫中將調(diào)用Linear_model子類的LinearRegression類進(jìn)行線性回歸模型計算7.2線性回歸某企業(yè)2005-2019年的成本和利潤數(shù)據(jù)集如表所示,利用線性回歸模型模擬該企業(yè)成本與利潤的線性關(guān)系,并利用模型預(yù)測2020年成本為1200元的利潤值7.2線性回歸預(yù)測2020年企業(yè)成本為1200元時利潤為575.1元,得到的線性回歸函數(shù)為y=0.624x-173.7,預(yù)測結(jié)果評分為0.9118037.3多項式回歸

7.3多項式回歸某企業(yè)2005-2019年的成本和利潤數(shù)據(jù)集如表所示,利用多項式回歸模擬成本與利潤的關(guān)系,預(yù)測2020年利潤,并與線性回歸結(jié)果進(jìn)行對比7.3多項式回歸一元線性回歸的R2值為0.9118,多項式回歸的R2值為0.9407,多項式回歸的擬合效果更好047.4多元線性回歸

7.4多元線性回歸某銷售公司為了查找某產(chǎn)品的銷售額與電視廣告投入、收音機廣告投入、報紙廣告投入之間的關(guān)系,提供了過往歷史數(shù)據(jù)請求進(jìn)行分析7.4多元線性回歸TVradionewspapersales230.137.869.222.144.539.345.110.417.245.969.39.3151.541.358.518.5180.810.858.412.9對數(shù)據(jù)進(jìn)行描述性統(tǒng)計,以及尋找缺失值(缺失值對模型的影響較大,如發(fā)現(xiàn)缺失值應(yīng)替換或刪除),且利用箱型圖來從可視化方面來查看數(shù)據(jù)集7.4多元線性回歸TV特征和銷量是有比較強的線性關(guān)系的,而Radio和Sales線性關(guān)系弱一些,Newspaper和Sales線性關(guān)系更弱7.4多元線性回歸多元線性回歸模型的函數(shù)為:y=2.90+0.0449*TV+0.185*Radio+0.008*Newspaper7.4多元線性回歸在TV廣告上每多投入1個單位,對應(yīng)銷量將增加0.0449個單位;在Radio廣告上每多投入1個單位,對應(yīng)銷量將增加0.187個單位057.5邏輯回歸線性回歸或多項式回歸模型通常是處理因變量為連續(xù)變量的問題,如果因變量是定性變量,則線性回歸模型就不再適用,此時需采用邏輯回歸模型來解決。邏輯回歸(LogisticRegression)用于處理因變量為分類變量的回歸問題,常見的是二分類或二項分布問題,也可以處理多分類問題。

7.5邏輯回歸1.Logistic函數(shù)7.5邏輯回歸Logistic回歸模型中的因變量只有0和1(如“是”和“否”、“發(fā)生”和“不發(fā)生”)兩種取值。假設(shè)在p個獨立變量x_1,x_2,?,x_p的作用下,記y取1的概率是p=P(y=1|X),取0的概率是1-p,取1和取0的概率之比為p/(1-p),成為時間的優(yōu)勢比(odds),odds取自然對數(shù)即Logistic變換Logit(p)=ln?(p/(1-p))。令Logit(p)=ln?(p/(1-p))=z,則p=1/(1+e^(-z))即為Logistic函數(shù),概率p與自變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論