微博美妝博主影響力的多元回歸分析_第1頁
微博美妝博主影響力的多元回歸分析_第2頁
微博美妝博主影響力的多元回歸分析_第3頁
微博美妝博主影響力的多元回歸分析_第4頁
微博美妝博主影響力的多元回歸分析_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、微博美妝博主影響力的多元回歸分析摘要:本文介紹多元線性回歸分析方法以及逐步回歸法,然后結(jié)合實際,以微博美妝視頻po主月互動數(shù)為因變量,選取了5個可能的影響因素,選用逐步回歸法對各影響因素進行了篩選分析,最終確定了其“最優(yōu)”回歸方程。關(guān)鍵字:多元線性回歸逐步回歸法微博影響力SPSS1引言自然界中任何事物都是普遍聯(lián)系的,客觀事物之間往往都存在著某種程度的關(guān)聯(lián)關(guān)系。為了研究變量之間的相關(guān)關(guān)系,人們常用回歸分析的方法,而回歸分析是數(shù)理統(tǒng)計中一種常用方法。數(shù)理統(tǒng)計作為一種實用有效的工具,廣泛應用于國民經(jīng)濟的各個方面,在解決實際問題中發(fā)揮了巨大的作用,是一種理論聯(lián)系實踐、指導實踐的科學方法。發(fā)現(xiàn)一個很有趣

2、的現(xiàn)象,微博上有許多視頻博主,都經(jīng)營著不同的類別,經(jīng)常會有抽獎的活動,本人對微博視頻博主的影響力究竟由什么因素決定十分好奇,因此本文選取微博美妝視頻博主為對象進行分析,其中選取因變量為影響力,即月互動數(shù),其中月互動數(shù)為微博評論與轉(zhuǎn)發(fā)數(shù)總和。每個視頻博主的月互動數(shù)都直接影響著視頻博主的影響力以及之后的各方面收益,因此,研究什么與每月互動數(shù)有顯著相關(guān)的影響至關(guān)重要。本文將以回歸分析為方法,運用數(shù)理統(tǒng)計工具探求月互動數(shù)與各種統(tǒng)計指標之間的關(guān)系,總結(jié)主要影響因素,并對其作用、前景進行分析和展望。2多元線性回歸2.1多元線性回歸簡介在實際問題中,某一因素的變化往往受到許多因素的影響,多元回歸分析的任務就

3、是要找出這些因素之間的某種聯(lián)系。由于許多非線性的情形都可以通過變換轉(zhuǎn)化為線性回歸來處理,因此,一般的實際問題都是基于多元線性回歸問題進行處理的。對多元線性回歸模型簡要介紹如下:如果隨機變量y與m個普通變量“口勺/有關(guān),且滿足關(guān)系式:7=A+Axi+自七+凡心十£(2.1)左二0n£)f=b3其中,島.鳥,鳥寓nd是與勺,可無關(guān)的未知參數(shù),甘是不可觀測的隨機變量,"M。為)。式(2.1)為m元理論線性回歸模型,其中屈/,自一凡為回歸系數(shù),、吃/為回歸因子或設(shè)計因子。1Ao=1"一砌實際上反映了因子號&=12對觀測值y的作用,因此也稱自('=

4、12為因子號&=12,掰)的效應。通過對回歸系數(shù)用(1=12一,網(wǎng))進行最小二乘估計后,可以得到m元經(jīng)驗回歸方程為:2風加1+兀馬+凡/(2.2)AdhA六也稱式(2.2)為m元線性回歸方程。第為回歸常數(shù),也稱回歸系數(shù),緣片忠稱為回歸系數(shù)。2.2逐步回歸法在多元線性回歸分析中,由于有多個自變量,回歸自變量的選擇成為建立回歸模型的重要問題。通常,一方面,為獲取全面信息總希望模型中包括的自變量盡可能多;另一方面,考慮到獲取很多自變量的觀測值的費用和實際困難,則希望模型中包含盡可能少而且重要的變量。因此,人們常根據(jù)某種規(guī)則對自變量進行篩選。本次選用的方法是逐步回歸法。1)回歸效果的顯著性檢驗

5、y與變量'/線性相關(guān)的密切程度可以用回歸平方和U在總平方和用R=仔中所占的比例來衡量。稱為y關(guān)于5的樣本復相關(guān)系數(shù),R-入盟為樣本決定系數(shù)。在多元線性回歸的實際應用中,用復相關(guān)系數(shù)來表示回歸方程對原有數(shù)據(jù)擬合程度的好壞。顯然-1,其越接近1,回歸方程擬合程度越高。2)偏F檢驗檢驗某個自變量對y的影響是否顯著的正規(guī)方法是偏F檢驗設(shè)原回歸方程(全模型)為:八An1rt6戶I.rty=A+后再+耳心+-+自一1西_】+#內(nèi)+后儀1+瓦小去掉變量入后的新回歸方程(減模型)為:j)三科十01占+百工二十一一.-*必+通+1,+*&Xjm全模型的復相關(guān)系數(shù)的平方為產(chǎn),減模型的復相關(guān)系數(shù)的平

6、方為罵定義濯二史-"。若的幾乎為零,則說明x對y沒有顯著影響,反之則表示x又ty有其它變量不可替代的顯著影響。檢驗假設(shè):卜喪;=0;耳:A母*0當出口為真時,檢驗統(tǒng)計量為月=京盛=-4-斤(L龍一牌一1)對于給定顯著性水平支,由樣本計算出網(wǎng)的值,若月之居-式m-1)則拒絕月。,說明x對y有顯著影響,應在減模型中引入自變量x;反之則應剔除x,使之成為減模型。3微博美妝視頻博主影響力回歸分析實例本次作業(yè)利用spssb件和逐步回歸法,對原始數(shù)據(jù)進行了回歸分析,并最終獲得了最優(yōu)”回歸方程,解決這個問題。3.1數(shù)據(jù)收集及處理首先進行參考數(shù)據(jù)的選擇,將直接實時從微博上收集數(shù)據(jù),參考以往相關(guān)研究的

7、論文,歸納出可能影響微博博主的一些主要因素,其中,由于選擇的是美妝視頻博主,因此專業(yè)視頻數(shù)量以及最熱門視頻播放數(shù)(萬)也是一個很重要的指標,其中專業(yè)微博比=專業(yè)微博數(shù)微博數(shù)最后本文從中選取了粉絲數(shù)(人),金VS動數(shù)(人),抽獎數(shù)(個),專業(yè)微博比(%,最熱門視頻播放量(萬)5個因素作為本次考查的重點,并對其與月互動數(shù)的相關(guān)關(guān)系進行分析。表3,1所示為所選取的隨機抽取的美妝視頻博主于2018年9月9日至2018年10月9日1月間月互動數(shù)與選取變量的數(shù)據(jù)匯總。表3.1微博美妝博主月互動數(shù)與相關(guān)變量數(shù)據(jù)表序號影響力(月互動數(shù))粉絲數(shù)金V互動數(shù)抽獎數(shù)專業(yè)微博比最熱視頻播放量(萬)1266.002413

8、340120.00%6.721295.001090350020.00%68.131541.0070583008.82%15.941951.001615810018.18%11352346.00176862107.69%38.666751.0011433220015.00%22979969.007748740145.41%131810934.0013399531214.29%807913090.0010343520855.56%23111031046.0010726426234.48008000000733.33%16081234750.0013710805250.00

9、%23161335440.0021784798022.39002462826008.57%83811544680.0055050410511.67%5571652010.0026351270542.11%8801763803.0021600004236.00%19601873629.0017794294546.1500507950201135.71%26442093550.0016176352721.21%22802195734.00318112202728.13%315422100305.00313755501423.08%53623107

10、480.00146893827107.64%60924124539.0026489833968.75%245625129455.00248594921024.14%26793.2建立回歸模型過程為了研究月互動數(shù)與各種影響因素的關(guān)系,必須要建立二者之間的數(shù)學模型。數(shù)學模型可以有多種形式,比如線性模型,二次模型,指數(shù)模型,對數(shù)模型等等。而實際生活中,影響月互動數(shù)的因素很多,并且這些因素的影響不能簡單的用某一種模型來描述,所以要建立財政收入的數(shù)學模型往往是很難的。但是為了便于研究,我們可以建立財政收入與各影響因素的線性回歸模型,模型如下:Y=aiXi+02X2+a3X3+%X4+osX5其中,y是因

11、變量,用是自變量,風是各個自變量的系數(shù)。各變量符號的定義見表3.2表3.2各變量符號定義表YXiX2X3X4X5影響力(月互動數(shù))粉絲數(shù)金V互動數(shù)抽獎數(shù)專業(yè)微博比最熱視頻播放量(萬)3.3線性回歸的結(jié)果及分析利用統(tǒng)計數(shù)據(jù)建立回歸模型,用SPS球件的線性回歸分析功能,得到以下數(shù)據(jù)。首先在打開的線性回歸”對話框中(圖3.1),先從變量列表中選擇因變量(影響力),以及自變量(粉絲數(shù)、金v互動數(shù)、抽獎數(shù)、專業(yè)微博比、最熱視頻播放量),再選擇方法進入”。按下“ok后,就可得到分析結(jié)果,如表3.3所示。圖3.1線性回歸”對話框表3.3回歸分析的SPSS俞出理敏已,的入已移除之悴顰.11馬設(shè)伽施放(萬).金

12、V互前依,抽矍,守山戰(zhàn)目比.-b-Entra.廊曼殿:景炯力(月可印?。?,已翰人所有要求的建墩。皆紅也摘駛;根型RR平方累整徑R平方他率斜度能qP1.652a,726,65424911.40522二忸淵徜;常轂),最第視頻播放重萬).金v互劫鼓,抽斐.爭業(yè)放博比,粉螳數(shù)暨甄敷分析口df平均值平方F13.123EM05624640707910.065OQOb殛走1.179E+101952057611074.302E+1Q24鼻屋贊般:影峋力(月耳詡*人自滯俏:(常tn,鼠都視新捕貳量(萬:金卡耳動敬r抽餐,專業(yè)薇博比,檢群教wa程甥非棚型匕俵教摞阜化伊朝T3悻節(jié)前步seta1*113273311

13、1130121.01C323粉蠟數(shù).016.D0J69i2.72.013金V4動覲2666.641&9B.M口,3642.990,003抽獎2119726B527B0.32。2.225,030專業(yè)微博比4061.552332,201.15&1.22423S內(nèi)?1.6143430,067,470,643a.整建初影胸力1月互動鼓J我們得到的第一個重要結(jié)果是五個自變量的回歸系數(shù)a以及常數(shù)。于是,初步估計的回歸函數(shù)為:影響力(月互動數(shù))=-11327.331+0.16粉絲數(shù)+2686.641金V互動數(shù)+2119.726抽獎數(shù)+406.552專業(yè)微博比+1.614最熱視頻播放量3.3.

14、1 整體評價指標在此模型中,決定系數(shù)為R2=0.726,侑R=0.852是多維相關(guān)系數(shù)。修正后R刻0.654,殘差的標準誤差為24911.405=R2勺值說明72.6%的影響力波動由這五個自變量解釋,對此次模型研究有相對較高額比例。其中F值為10.065,顯著性為0.000,因而不存在接受零假設(shè)的問題。3.3.2 回歸系數(shù)檢驗我們已得到回歸系數(shù),且“系數(shù)”表格中第二列給出了回歸系數(shù)的標準誤差,該標準誤差用于計算t值和系數(shù)的置信區(qū)間如表3.4所示:表3.4置信區(qū)間95%和共線性統(tǒng)計量攝型口的竹行司.而共需性蜿舒資料F限上眼尤差V1F1(常的)457373412019.122黔皖的.004,029

15、487工。5m金V#動敢0057654567.516,9701C30構(gòu)架125.51541139396961.436專業(yè)檄向比-288.9221102.01258511.175最逑規(guī)頓捕政早(月-5.556亂7g3,715L392表3.4顯示了三個回歸系數(shù)及常熟的置信區(qū)間(95%置信區(qū)間)。可以看出,五個回歸系數(shù)中,變量金v互動數(shù)的系數(shù)具有最大的置信區(qū)間,因此它的估計是最不精確的。不過,常數(shù)的估計更不精確。其中,系數(shù)表中第五列為顯著性檢驗。我們發(fā)現(xiàn),前三個自變量都比通常要求的顯著水平0.05低,因此,可以認為這三個自變量的影響都是顯著的。而專業(yè)微博比與最熱視頻播放量的顯著性較大。3.3.3 共

16、線性檢驗為了查明共線性,第一步應檢驗相關(guān)矩陣中回歸自變量間可辨認的相關(guān)性(表3.5)。表3.5相關(guān)矩陣重日i-I-iIM戴,劉里展"胡利用立U1萬111OQCmD1I31021,022,B427193OD口wn000.0434722.000033no3D437232960901Q510243351445307w4336122009612t577329M0527,5423U.旬紇蟻吊訥八敢由表中看,自變量中不存在顯著的相關(guān)性,但是專業(yè)微博比與最熱視頻播放量的相關(guān)系數(shù)都大于0.5,接近于1。此時再檢查容許度和方差膨脹因子(VIF)。根據(jù)現(xiàn)有的數(shù)值,未發(fā)現(xiàn)顯著的共線性。根據(jù)上述步驟,因此不

17、考慮剔除自變量,最后進行殘差分析。3.3.5殘差分析檢驗設(shè)計隨機誤差項分布的線性回歸模型前提時,我們要用到殘差,因為隨機誤差項是不可觀察的,表3.6中列出了殘差相關(guān)統(tǒng)計資料。表3.6殘差統(tǒng)計資料最小值最大值平均數(shù)檄隼偏差N?|測值-5644.4976116722.453147662.800035994.6312325殘差-33713.1210960249.76953.0000022293.7734525襟型?|測值-1.4811.919.0001.00025探戳i差-1.3802.467.000.91325a殘差統(tǒng)言十資料a.鷹燮數(shù):影響力(月互動數(shù))直方圈旭嗣榴隼化箱差=-3.47E-ia;

18、.=D.813圖3.2標準化殘差直方圖限叫的Cumprdb翱案的CumProb施1血;理率化慢差的常物P-P留圖3.3標準P-P圖標準化殘差的P-P圖通過比較樣本殘差分布與假設(shè)的正態(tài)分布是否相同來檢驗殘差是否符合正態(tài)分布,所有殘差點都分布在對角的直線附近,說明殘差的正態(tài)性假設(shè)基本成立。感漫理影啊力月里動故)圖3.4標準化預測值圖從圖3.4的的影響力與其標準化殘差散點圖中可以看到,所有觀測量隨機地落在垂直圍繞±2的范圍內(nèi),預測值與標準化殘差值之間沒有明顯的關(guān)系,所以回歸方程應該滿足線性關(guān)系與方差齊性的假設(shè)且擬和效果較好。3.5最優(yōu)方程由以上多元回歸分析可得各個分量的影響關(guān)系,從而得出最優(yōu)”方程為:Y=-11327.331+0.16X1+2686.641X2+2119.726X3+406.552X4+1.614X5其中R2=0.726,F=10.065X1代表粉絲數(shù),X2代表金V互動數(shù),X3代表抽獎數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論