用大數據文本挖掘來洞察“共享單車”的行業(yè)現狀及走勢_第1頁
用大數據文本挖掘來洞察“共享單車”的行業(yè)現狀及走勢_第2頁
用大數據文本挖掘來洞察“共享單車”的行業(yè)現狀及走勢_第3頁
用大數據文本挖掘來洞察“共享單車”的行業(yè)現狀及走勢_第4頁
用大數據文本挖掘來洞察“共享單車”的行業(yè)現狀及走勢_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

用大數據文本挖掘來洞察“共享單車〞的行業(yè)現狀及走勢2021年底以來,國內共享單車毫無征兆的就火爆了起來,彼時一張截屏躥紅網絡---在這張截圖上,24個共享單車應用的圖標霸滿了整個屏幕,昭示著共享單車市場搶奪大戰(zhàn)的劇烈和殘酷。再看看一組來自易觀千帆的數據:共享單車領域兩大巨頭---摩拜單車和ofo近一年的客戶端用戶增長數據,二者的用戶增長曲線別無二致,都是一路高歌猛進,共享單車領域的火爆勢頭在短時間內不會遏止。同時,在全國各大城市,在街頭巷尾,在居民小區(qū)和創(chuàng)業(yè)園區(qū),排滿了各種顏色的共享單車,仿佛一夜之間,共享單車如“千樹萬樹〞的梨花一般,盛開到了泛濫成災的地步了。與此同時,各種亂象也是接踵而至,觸目驚心:人為肆意毀壞單車、車身亂貼小廣告、街上隨意停放…對于當下共享單車在互聯網界的熾熱狀況,筆者想從大數據文本挖掘的角度來做一番分析,主要是從海量的文本數據中找到有價值的訊息和觀察視角,透過文本挖掘了解共享單車相關的熱門話題和潛在趨勢。同時,筆者也希望把一些常用的文本挖掘方法介紹給大家,以便大家在做產品和運營的過程中能派上用場。對于文本挖掘的相關知識在這里就不贅述了,可以參考筆者之前寫的兩篇文章:?數據運營|數據分析中,文本分析遠比數值型分析重要!〔上〕?、?在運營中,為什么文本分析遠比數值型分析重要?一個實際案例,五點分析〔下〕?。以下是本文的行文路線圖和所涉及的文本挖掘方法。1數據采集和預處理在數據采集局部,筆者想采集跟共享單車關聯性強的文本數據,筆者沒有去寫爬蟲去爬取數據,而是用到了新浪微輿情“信息監(jiān)測〞中的“數據導出〞功能,根據設置的關鍵詞檢索邏輯,將所有涉及到共享單車的各類媒體文章的標題、發(fā)布時間、媒體名稱、正文及正文分詞等數據下載下來,省去文本數據的清洗和預處理過程,直接進行文本挖掘局部。在這里,筆者選取了市場上主流的26個共享單車品牌,再加上關鍵字“共享單車〞,形成如下的關鍵詞檢索邏輯:共享單車+(永安行|ofo|小鳴單車|小藍單車|智享單車|北京公共自行車|騎點|奇奇出行|CCbike|7號電單車|黑鳥單車|hellobike|酷騎單車|1步單車|由你單車|踏踏|Funbike單車|悠悠單車|騎唄|熊貓單車|云單車|優(yōu)拜單車|電電Go單車|小鹿單車|小白單車|快兔出行|摩拜單車|綠游GreenBike)筆者選取2021-3-1~2021-6-30之間的數據,經由上面的檢索關鍵詞,可以得到我們想要的數據,為節(jié)省時間,筆者僅選取“新聞〞這一信息來源的文本數據作為分析對象,因為這局部的數據比擬符合要求,包含的噪音較小。結果顯示如下:導出數據之后,結果如下:上面圈紅的字段是比擬重要的分析維度,注意,導出的文章正文數據已經經過系統(tǒng)分詞和去停用詞處理,直接省去了文本預處理所要消耗的時間。筆者再對其中的數據進行去重處理---去掉“標題/微博內容〞和“正文切詞〞相同的局部,再從“發(fā)布日期〞中提取出“月份〞字段〔用于后面的按月份分類文本〕,最終得到如下結果:由此,原先的數據量從30W+的數據量減少到88,291條數據。2常規(guī)描述性數據統(tǒng)計在正式的文本分析之前,筆者再對上述預處理后的數據進行描述性分析,先從表層獲得這些數據的直觀印象。首先是這4個月有關共享單車的文章數量的分布情況,如以下圖所示:可以看到,中間兩個月的發(fā)布文章數量最多,3月份的數量最少。經統(tǒng)計,共有4,056個媒體發(fā)布了跟共享單車有關的文章,在Excel中使用“數據分析-描述統(tǒng)計〞對這些媒體發(fā)文數據進行描述統(tǒng)計,得出如下結果:由此可見,在文章總數88,291篇、發(fā)文媒體4,056個的情況下,平均每個媒體的發(fā)文數約為22篇〔21.66〕,其中的中位數為3篇,眾數為1篇,最大發(fā)文數為4,815篇。結合下面的直方圖,數量分布呈現明顯的左偏態(tài),主要集中在“0-300篇〞這個區(qū)間內〔其中絕大局部為1篇〕。再來展示發(fā)文數量TOP30媒體的情況。排名榜首的是突襲網,它是一個信息資訊“大雜燴〞〔上面有各類轉載過來的信息和琳瑯滿目的廣告,而且經常不標明信息來源。。。〕,其次是騰訊新聞、搜狐媒體平臺、新浪和網易這樣的綜合信息門戶網站。有點意外的是,漢豐網()的關于共享單車的發(fā)文量竟然排在第四位,它原名“開縣新聞網〞,原本是一個地方性質的媒體,于2021年成立,為把網站建設為報紙、電視、電臺“三網合一〞的網絡媒體,漢豐網全面整合開縣主流媒體資源,單從發(fā)文信息量這點來說,該網站開展著實迅猛。對于接下來的文本數據挖掘,筆者用到的是Python,以及常用的分析包,如jieba、sklearn、gensim、snownlp等。3關鍵詞提取在這局部,筆者除了對上述經分詞處理的正文文本進行詞頻統(tǒng)計的同時,還用到了信息檢索領域里的TF-IDF〔TermFrequency–InverseDocumentFrequency〕關鍵詞統(tǒng)計方法:它用以評估一字/詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。由此可見,在提取某段文本的關鍵信息時,關鍵詞提取較詞頻統(tǒng)計更為可取,能提取出對某段文本具有重要意義的關鍵詞。根據上面的闡述,權重值大小與詞頻數不呈正比。對這88,291篇文章的關鍵詞提取和詞頻統(tǒng)計如下。從上表可以看出,提取出的關鍵詞跟共享單車的關聯性很明顯,大致上有如下幾類:共享單車的品牌及其創(chuàng)始人:“小黃車〞(ofo)、“摩拜單車〞、“永安行〞、“小鳴〔單車〕〞、“胡瑋煒〞、“戴威〞等。投融資、資本運作:“資本〞、“投資〞、“融資〞、“戰(zhàn)略〞、“資金〞、“金融〞、“商業(yè)〞、“投資人〞、“合伙人〞等。政府對共享單車行業(yè)的監(jiān)管:"政府"、"標準"、"監(jiān)管"、"車管"、'城管“、‘機動車"、"車道〞、“秩序"、"政策"等。共享單車運營相關〔包括其中出現的問題〕:"投放"、"運營"、"停車"、"支付"、""、"擁堵"、"街頭"、"開鎖"、"地鐵站"、"環(huán)境"等。然后根據這些詞的詞頻大小制作出共享單車形狀的個性化詞云,顯示如下:關鍵詞的提取只是獲取這些文本訊息的“初の印象〞,好戲還在后頭!4LDA主題模型如果小伙伴們覺得上面筆者用關鍵詞劃分主題的做法有點扯淡,表示不服,那么筆者將拿出LDA主題模型來“回擊〞你,操作之前,先來簡單科普下LDA主題模型到底啥玩意。由于LDA屬于概率主題模型的子類,那就先從“概率主題模型〞說起:概率主題模型〔StatisticalTopicModels〕是一類從文本文檔中提取潛在語義信息的有效方法,近年來在文本挖掘領域得到了非常廣泛的應用,在文本分類、信息檢索等相關領域取得了非常好的應用效果。概率主題模型的根本原理認為文檔是假設干主題的混合概率分布,而每個主題又是一個關于單詞的混合概率分布,可以看作是文檔的一種生成模型。在概率主題的各項方法當中,潛在狄利克雷分配模型〔LDAmodel〕是最為有效的模型之一。LDA是一種典型的無監(jiān)督〔也就是每段文本沒有標簽,我們事先不知道里面說的是啥〕、基于統(tǒng)計學習的詞袋模型,即它認為一篇文檔是由一組詞構成的一個集合,詞與詞之間沒有順序以及先后的關系。一篇文檔可以包含多個主題,文檔中每一個詞都由其中的一個主題生成。主題模型通過分析文本中的詞來發(fā)現文檔中的主題、主題之間的聯系方式和主題的開展,通過主題模型可以使我們組織和總結無法人工標注的海量電子文檔。類似Kmeans聚類,LDA模型的主題數也需要人工來確定,筆者在嘗試了多個主題數之后,確定了最終的主題數,從下面的LDA可視化圖形可以看出,主題數為6時,很多主題所涵蓋的關鍵詞出現嚴重的重疊,而分成10個主題后,情況得到好轉,話題區(qū)分度尚能接受。以下圖“打印〞出這10個主題及其下轄的20個關鍵詞,以“權重值*詞匯〞的累加形式呈現,各個權重值其實是該詞匯在指定主題下出現的概率大小,也可以理解為該詞對該主題的“奉獻〞程度,比方TOP0中的“孩子〞前的權重系數為0.008,說明在TOP0的話題下,“孩子〞被“抽中〞的概率為0.008。依次類推,各個詞語w在主題T下出現的概率分布稱之為詞分布,這個詞分布也是一個多項分布。對于上圖中的主題詞列表〔表示與各個潛在主題最為相關的一些詞語〕,筆者還進行了可以點擊交互的可視化展示,可以看到每個主題下的關鍵詞在該話題下及總的文本中的占比情況,從中可以看出某個詞對于該主題的重要程度如何。如以下圖中TOP1下的關鍵詞“摩拜〞,在該主題中出現的概率最大,重要性最高,紅色條柱代表它在TOP1下的比重,而藍色條柱的是它在整個文本〔88,291篇文章〕中的比重。某個詞對該主題重要性最顯著的情況是:藍色條柱更短、紅色條柱越長,這類詞更能對主題進行區(qū)隔。將上述TOP及其下轄的主題詞進行整理,排除主題中的“噪音〞〔明顯跟主題不相關的詞匯異常點〕,根據其中的詞匯構成〔不僅僅是以下展示的20個關鍵詞,還包含后續(xù)的假設干主題關鍵詞〕及相關媒體報道,得出這10個主題的大致“內涵〞:主題對應的具體內容如下表所示:

5文檔聚類接下來采用的是基于譜聯合聚類算法〔SpectralCo-clusteringalgorithm〕的文檔聚類,這局部的原理涉及到艱深的數學和算法知識,可能會引起小伙伴們的閱讀不適感,如果是這樣,請快速跳過,直接看后面的操作和結果。先將待分析的文本經TF-IDF向量化構成了詞頻矩陣,然后使用Dhillon的譜聯合聚類算法〔SpectralCo-clusteringalgorithm〕進行雙重聚類〔Biclusters〕。所得到的“文檔-詞匯〞雙聚類〔Biclusters〕會把某些文檔子集中的常用詞會聚集在一起,由假設干個關鍵詞構成某個主題。在正式分析前,現將先前Excel中的正文分詞文本按月份進行分類,將其單獨放進所屬的月份文件夾下,操作如以下圖所示。最終的結果是,系統(tǒng)自動形成的幾個文檔簇群,以及每個簇群下面最重要的TOP30關鍵詞。結果如以下圖所示:翻譯一下,說人話就是:上面的每一個Bicluster類別都可以看做是一個話題,這里還可以量化的看到每個話題在總文本中的成分占比〔通過文檔數量或關鍵詞數量來判定〕,也可以了解該話題在這4個月上的成分分布情況。從上圖中可以看到,3-6月這四個月間的假設干文本在Biclusters下分為4個話題??梢钥吹?,基于Biclusters聚類的話題區(qū)分度明顯要好于上述的LDA主題模型,而且很神奇的是,類別相近的詞匯會自動聚集在一個話題下,橫跨這8W+個文檔!上面四個話題可以很容易的得出:Biclusters類別0:共享單車相關的創(chuàng)投、資本和競爭相關,行業(yè)的視角Biclusters類別1:共享單車相關的行政監(jiān)管、整治,政府的視角Biclusters類別2:共享單車運營中出現的各種社會問題,社會的視角Biclusters類別3:共享單車方面的負面信息,很多已經上升到違法違規(guī),甚至觸犯刑法的層面了,法律的視角由上面的數據,還可以得到這4個話題在總文本中的占比情況。從上圖可以看出,Biclusters類別1的比重最大,也就是4個月間關于共享單車行政監(jiān)管方面的文章較多,共享單車在市場運營過程中的各類問題已然引起社會和有關部門的高度重視,各種行業(yè)亂象亟待整治和肅清。將話題和月份進行交叉分析,可以看到每個月份下關于共享單車報道的話題構成情況。比方,4月份有關共享單車的各種社會問題的媒體報道較多,而6月份對共享單車行業(yè)方面的報道居多。剩下的局部請小伙伴們看表說話,自行腦補,我就不廢話咯。6情感分析筆者在新浪微輿情“信息監(jiān)測〞上觀察到,3~6月間關于共享單車的負面信息的走勢情況,顯然,這段時間內的負面信息一直處于一個較高的水平,平均每天好幾W的負面新聞報道量。緊接著,筆者使用機器學習的方法,對這8W多條文章的標題進行本地的情感分析,以便獲得媒體對共享單車報道的“情感傾向〞的總體情況。這里的“情感傾向〞是以一個介于0~1之間的“情感極性值〞來表征---如果某條評論的情感極性值越接近于0,說明它的負面情感傾向越明顯,越接近于1,說明它的正面情感傾向越明顯,而取值在0.5左右徘徊,這說明這種情感傾向不明顯,是為“中性〞。筆者將情感傾向值的取值區(qū)間0~1細分為3個子區(qū)間,分別對應不同的情感傾向。詳細操作請參考?用數據全方位解讀<歡樂頌2>?的2.1局部。經整理,將其制作成直方圖的形式呈現:從上面的直方圖可以看出,情感極性值絕大局部在0.2上的分布最多,而這個分值處在負面情感度的左端,很低的水平。根據上圖顯示,如果要給這段時間內共享單車的總體情感傾向評級〔5個級別,“極其負面〞、“比擬負面〞、“中性〞、“比擬正面〞、“極其正面〞〕的話,那么這個評級接近于“極其負面〞。以下是關于共享單車“三元〞情感傾向的占比情況。由此,再次印證了這段時間內關于共享單車的各類負面報道不斷。不過,話又說回來,這些都是來自媒體的聲音,而媒體有喜好報道負面訊息的傳統(tǒng),缺少了廣闊網民發(fā)聲,對共享單車的輿情分析難免會存在信息失真。對此,筆者選擇了社會化媒體中具有重大影響力的新浪微博作為分析對象,對上面的網民情緒進行總覽。關于社會化媒體方面的大數據分析,小伙伴們可以參看?如何利用SocialListening從社會化媒體中“提煉〞有價值的信息??下面幾張圖來自新浪微輿情的“情緒地圖〞局部,數據來源為新浪微博,為保持時效性,時間區(qū)間為近三日。整體上看,與媒體的報道不同,絕大局部網民對于共享單車的“泛濫成災〞是持“喜悅〞情緒的,由上面的LDA主題模型可以了解到,“便利出行〞是形成這種贊許態(tài)度的原因之一。7LSI文本相似度索引在上面的主題分析和文本聚類分析中,“融資〞這個關鍵詞出現了假設干次,它成功的攫取了筆者的眼球。為此,筆者想通過“融資〞這個關鍵詞去找尋與其最相關的TOP20新聞標題。在這里,筆者不采用直接通過關鍵詞查找的方法去尋找這些相關標題,而是通過語義上的關聯性去尋找,也就是說,即使這些語句不包含“融資〞二字,只要表達這個含義就是我要尋找的目標。鑒于此,筆者采用了基于LSI〔LatentSemanticIndex,潛在語義索引〕的方法去查找文本相似度最高的20個語句,大致上比擬文本向量化后的余弦夾角值〔介于0-1之間〕,值越大,就代表相似度越高。詳細原理,小伙伴們可以自行Google腦補。經過分析,找到了跟“融資〞語義最相關的20條新聞??梢钥吹?,里面很多沒有包含“融資〞二字,但意義上都有表達資本運作,比方“共享單車又掀起新一輪‘互掐’〞這條新聞,里面有這樣的論述:“公開資料顯示,截至2021年4月,兩家公司共計融資總額超過10億美元,其中ofo剛剛完成D3輪融資,估值超過16億美元〞,第二個“…ofo共享單車獲4.5億美元〞,也是講的融資方面的新聞,剩下的相似語句以此類推。從這些新聞標題來看,共享單車領域的競爭不僅出現在用戶獲取和地盤爭奪上,在資本領域也是刀光劍影,

撕得不可開交。由此可以看到,計算機通過LSI算法變得“聰明〞了不少,在某種程度上,能“理解〞自然語言了!8Word2vec最后進行的是基于WordEmbedding的Word2vec詞向量分析,將正文分詞文本直接進行詞向量模型訓練,然后用來進行關聯詞分析。Word2vec是WordEmbedding(詞嵌入)中的一種,是將文本進行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量〔WordVector〕,以使這些詞匯在便于被計算機識別和分析的同時,還具有語義上的關聯性,而不僅僅是基于詞匯之間的共現關系。類似的例子可以參看筆者之前的文章?用數據全方位解讀<歡樂頌2>?、?以<大秦帝國之崛起>為例,來談大數據輿情分析和文本挖掘?。首先,筆者對共享單車的2大巨頭---摩拜單車、ofo〔小黃車〕及其各自CEO的相關詞匯感興趣,分析結果如下:從上圖可以看出,跟“胡瑋煒〞、“摩拜〞最相關的詞匯是“陳偉鴻〞,是中央電視臺的主持人、記者、編輯、制片人,而胡瑋煒畢業(yè)于浙江大學城市學院新聞系,在?每日經濟新聞?、?新京報?、?商業(yè)價值?等媒體做過記者和報道,也就是說,他們有著類似的從業(yè)經歷,而且在6月25日的央視?對話?節(jié)目中,作為主持人的陳偉鴻與作為嘉賓的胡瑋煒有了交集。排在第二位的是她的對手ofo的CEO戴威。值得注意的是,出現在關聯詞列表中的“〔王〕曉峰〞,曾任職Uber上海城市總經理,是摩拜單車大股東李斌“邀請〞來擔任摩拜CEO一職的,理由是媒體出身的胡瑋煒在經營層面缺乏經驗,由此業(yè)界傳聞“王曉峰是資本派來的管家〞不脛而走?!皶苑濞暫竺婢o隨“昆侖決〞,根據語境來講,這里的“昆侖決〞應該不是實指青海衛(wèi)視的那項世界職業(yè)搏擊賽事,而是用以隱喻共享單車行業(yè)競爭劇烈的現狀,而且這種具有畫面感的語義聯想在媒體的報道中比擬頻繁。而ofo及其創(chuàng)始人最相關的詞依次是摩拜單車、胡瑋煒、〔王〕曉峰、CEO、小藍單車、悟空〔單車〕這些詞,多是對手。也涉及了其海外擴張戰(zhàn)略的相關詞匯,如“全球〞“海外〞“投放〞等。而跟“摩拜〞和“ofo〞相關的詞多是反映這個行業(yè)現階段的特征,如“〔圈地〕投放〞“〔爭搶〕用戶〞、“入駐〔城市、小區(qū)和國外等〕〞、“公司〞、“數量〞、“市場〞和“大戰(zhàn)〞等,還有它們的對手“小藍單車〞“小鳴〔單車〕〞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論