版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)分析和數(shù)據(jù)挖掘在影視頻藝人評估分析中的應(yīng)用研究引言藝人作為娛樂化時代的核心參與者,他們的一舉一動往往都會對整個社會產(chǎn)生巨大的影響,在專業(yè)領(lǐng)域,制作方需要不斷挖掘能力出眾的藝人參與作品,在商業(yè)領(lǐng)域,對藝人市場號召力的需求更是源源不斷,從商家代言到慈善活動,都離不開明星的影響力。另外,藝人的粉絲也構(gòu)成了其社會影響力的一個主要部分。所以一個客觀、公正、全面的藝人社會形象和對其粉絲特征的深入分析就顯得尤為重要。在分析藝人形象時實驗采用了對微博的文本分析方法,與傳統(tǒng)篇章結(jié)構(gòu)的長文本相比,微博短文本受到字數(shù)的限制,呈現(xiàn)特征稀疏、內(nèi)容短小、表述直接等特點,這使得以往有效的情感分析方法,面向微博短文本,其
2、效果難以保證【1】。近年來,多種統(tǒng)計理論和機器學(xué)習(xí)方法被用來進行文本的情感自動分類,掀起了文本情感分類研究和應(yīng)用的熱潮。情感分析又稱為意見挖掘或者觀點挖掘,是指從主觀性文本中識別、抽取相關(guān)的傾向性信息的過程,屬于文本分類的范疇。情感分析相關(guān)的研究方法主要可以分為三類:基于情感詞典和規(guī)則的方法;基于機器學(xué)習(xí)的方法;基于語義分析的方法。文本分析方法可應(yīng)用于各行各業(yè)。如在分析網(wǎng)絡(luò)輿情信息中,可用文本分析技術(shù)對網(wǎng)絡(luò)輿情進行描述,并對其關(guān)聯(lián)性進行分析。還可以對網(wǎng)絡(luò)輿情的產(chǎn)生原因進行分析,預(yù)測和推論輿情變化趨勢和走向。另外,文本分析技術(shù)在專利信息的分析中也有重要應(yīng)用。通過對專利說明書、專利公報中的專利信息
3、進行分類、加工、整合可以使這些信息轉(zhuǎn)化為具有總攬全局及預(yù)測功能的競爭情報。在心理學(xué)研究當(dāng)中,文本分析也成為了重要手段之一。Web 2.0 時代的到來,使互聯(lián)網(wǎng)成為大眾普遍交流觀點、抒發(fā)情感的平臺,同時也積累下了關(guān)于人類心理和行為的海量文本信息。通過文本分析技術(shù),拓寬了包括心理學(xué)在內(nèi)的社會科學(xué)研究范疇,突破以往傳統(tǒng)社會科學(xué)研究在分析民眾心理時采用的隨機取樣進行問卷或電話調(diào)查的方法,可以得到更為精確的結(jié)果。本文重點將數(shù)據(jù)挖掘理論和文本分析應(yīng)用到建立藝人形象詞云和粉絲興趣特征分析中來,以單個藝人為單位,通過對微博、貼吧的數(shù)據(jù)進行分析,最后以詞云和圖表的方式來客觀展現(xiàn)中國藝人的整體形象和其粉絲興趣的整
4、體情況。1. 影視頻藝人評估分析方案實驗中藝人形象評價體系的建立主要依賴于網(wǎng)民的評論,原始數(shù)據(jù)的來源主要來自于藝人的微博評論、百度百科、豆瓣和貼吧。而貼吧中粉絲的個人信息比微博要更好獲取,所以實驗最終選擇了在貼吧上抓取粉絲的興趣標簽。在抓取到數(shù)據(jù)后,數(shù)據(jù)經(jīng)過了分詞和詞頻統(tǒng)計等數(shù)據(jù)挖掘工序,最終生成了較為直觀的可視化效果。為了全面地評估藝人形象,實驗將藝人形象主要分為兩個方面:私生活和專業(yè)領(lǐng)域。通過抓取私生活和專業(yè)領(lǐng)域兩方面關(guān)于某藝人形象的相關(guān)語料,做分詞和詞頻統(tǒng)計,最后用加權(quán)的方式得到一個完整的藝人形象詞頻信息,從而畫出詞云圖。在粉絲興趣特征及地域分析這塊,為了更好地把握各明星粉絲的群體特征,
5、實驗利用從豆瓣小組和百度貼吧提取的粉絲信息進行了分析。貼吧粉絲的數(shù)據(jù)來源是貼吧成員關(guān)注的所有貼吧名稱,而從豆瓣抓取的則是豆瓣興趣小組的粉絲地區(qū)名稱。對粉絲的分析分成兩個部分,其中一個部分是對明星粉絲地區(qū)分布的展示,這一部分以柱狀圖的形式展現(xiàn),另外一個部分則是對貼吧粉絲的興趣進行了分類,并依據(jù)分類興趣的頻次進行了可視化處理,最終依據(jù)人數(shù)的多少生成氣泡圖。整個方案流程圖如圖1。2. 中國藝人形象詞云分析2.1 形象詞云分析方法首先,私生活是藝人在專業(yè)領(lǐng)域之外的一個真實;的展示,包括媒介展示出來的明星的業(yè)余才藝、日常生活、身世、性格,關(guān)于社會公共事件的觀點和行動等。雖然我們并不能將藝人通過社交媒體展
6、示出來的真實;等同于個人真實,但是這種媒介真實;仍然有研究價值,在這方面,實驗借助一些網(wǎng)絡(luò)平臺作為數(shù)據(jù)來源,盡可能多地采集關(guān)于藝人形象的詞語。私生活這個部分主要基于微博平臺,因為微博上的數(shù)據(jù)量足夠大,且這是一個藝人們發(fā)送自己私生活的主要途徑之一。微博數(shù)據(jù)分為三部分:微博個人信息標簽、微博內(nèi)容和粉絲評論。從微博的個人信息標簽?zāi)塬@取到藝人本身對于自身形象的一個概括,搜集到的詞語大多都與該藝人形象十分貼切,所以將個人信息標簽詞的詞頻均乘以10。微博內(nèi)容是抓取近一年某藝人關(guān)于自己日常生活的微博內(nèi)容,并做分詞和統(tǒng)計詞頻。因為微博內(nèi)容中關(guān)于形象的詞語較少,所以由此統(tǒng)計出來的詞頻均乘以0.5。最后一塊是粉絲
7、評論,抓取的是之前所找的微博內(nèi)容下的粉絲評論,每條微博抓500 條粉絲評論,使得評論盡可能避免談及作品或一些通告活動。最后將統(tǒng)計出的詞頻乘以0.8。專業(yè)是指該藝人所從事專業(yè)里所展現(xiàn)出來的形象。如演員就包括他的平面媒體形象、影視作品角色形象和一些與作品相關(guān)的宣傳活動中所呈現(xiàn)出的造型等。歌手就包括其演唱歌曲風(fēng)格和演唱時的形象等。描述一個藝人專業(yè)形象的詞語主要通過粉絲以及一些專業(yè)人士對其作品的評價來獲得。本文選取的三個來源是百度百科、微博和豆瓣。百度百科上一般會有對一個藝人的整體專業(yè)形象的介紹,該介紹來自于各大媒體雜志,具有較高的可信度和權(quán)威度,但又由于篇幅較短,所以由百度百科得到的詞頻均乘以5。有
8、關(guān)藝人作品的數(shù)據(jù)抓取,本文以評論數(shù)較多、最新、作品種類作為標準篩選出三個作品進行抓取。微博作品相關(guān)評價是抽取每個作品200 條評論作為語料來源,由于評論人群的不確定,所以權(quán)威性和真實性也有所下降,所以該詞頻均乘以0.8。最后一項是豆瓣作品評價,豆瓣作為國內(nèi)大型社區(qū)網(wǎng)站之一,里面對于電影電視劇等影視作品的評價更加公正、客觀,更能搜集到關(guān)于藝人專業(yè)形象的相關(guān)語料。從之前選好的三部作品的短評區(qū)各抓取200 條評論,最終得到的詞頻乘以1.5。將這六個詞頻矩陣放到一起重新排序即得到該藝人的形象詞頻,從而畫出詞云圖。2.2 形象詞云案例分析楊冪的藝人形象詞頻中前20個詞為: 演技;演員;第一;電視劇;時代
9、;進步;好看;電影;美女;時尚; 女孩;北京;表演;影視;獨特;豪氣;兢兢業(yè)業(yè);可愛;靈氣;美貌;。最終為了更好地讓人一目了然該明星的形象詞云,實驗選取了富有藝人特征的頭像圖作為詞云形狀。通過以上詞云圖我們可以清晰看到楊冪日常形象多以美女、可愛、氣質(zhì)為主,在專業(yè)度方面,她作為一個演員,主要在電視熒幕上出現(xiàn),并具有普遍認可和接受的演技和被大家稱贊的認真態(tài)度等。趙麗穎的高頻詞和楊冪的差別不大,這應(yīng)該可以看作是女演員形象的共性,如可愛;偶像;公主;等。3. 中國藝人粉絲特征分析3.1 粉絲特征分析方法抓取數(shù)據(jù)使用的是樂思數(shù)據(jù)采集軟件,抓取了百度貼吧粉絲關(guān)注的貼吧名,大約10000 條數(shù)據(jù),經(jīng)過計算詞
10、頻及去重后剩余大約3000 條數(shù)據(jù)。將所得詞頻數(shù)據(jù)通過在線可視化網(wǎng)站直接生成詞云,同時將數(shù)據(jù)輸入興趣匹配的程序,得到各個興趣分類的數(shù)量。興趣匹配的程序使用python 語言寫成,利用的是基于詞典的匹配,而詞典是利用樂思從貼吧中抓取相應(yīng)分類數(shù)據(jù)而生成的。對采集到的數(shù)據(jù)進行預(yù)處理時,由于通過爬蟲程序抓取的各類貼吧名的數(shù)量有限,從而生成的分類詞典內(nèi)容不夠豐富,某些貼吧名未能涵蓋進去。故對原始數(shù)據(jù)進行一個預(yù)處理是有必要的,本實驗對原始數(shù)據(jù)進行同類詞語匹配,從而簡化合并了一些重復(fù)的數(shù)據(jù),使得分類更精確。同類詞的構(gòu)詞法有一個重要的特征,即意義相同或相近的語詞大多包含有相同的字,如微微一笑很傾城;和微微一笑
11、很傾城電視劇;。為了計算詞語的相似度,實驗設(shè)計了一個基于單字在詞語中出現(xiàn)頻率的算法。令詞語A 中單字的個數(shù)為a,詞語B中的單字個數(shù)為b,利用python 檢測得A 與B 中相同字的個數(shù)為n,兩詞的相似度為P(a,b),相似度計算公式如下:規(guī)定P(a,b)60% 時兩個詞語為同類詞語,并將長度大的詞語替換為兩者中長度小的詞語。在對數(shù)據(jù)進行了去重處理后,便可用語言進行詞頻的計算,并刪除詞頻小于等于3 的詞語,最后利用python 和已有的詞典對詞語進行分類。3.2 粉絲特征案例分析3.2.1 粉絲地區(qū)分布明星粉絲的地區(qū)來源于豆瓣,實驗抓取了800 個粉絲的地區(qū)信息,并去重,將最后得到的數(shù)據(jù)利用ex
12、cel 圖表的形式呈現(xiàn)出來,以楊洋和趙麗穎的粉絲地區(qū)分布為例,圖表如下??梢钥闯霰本┦?、廣東省、江蘇省等地區(qū)的粉絲數(shù)量眾多,究其根源,與發(fā)達地區(qū)人口數(shù)量眾多也有非常大的關(guān)系。3.2.2 粉絲興趣特征這次實驗首先利用了從百度貼吧中爬取的3000 個粉絲興趣標簽計算詞頻并生成興趣詞云如下:隨后實驗將已有的興趣標簽去掉出現(xiàn)頻次為1 或2 的部分后利用Python 進行分類,分類結(jié)果如下:由上面的數(shù)據(jù)可以看出關(guān)注明星的粉絲對于明星和電視劇相關(guān)的內(nèi)容最為感興趣,這也是較為符合人們對于粉絲群體的直觀印象的,說明收集的數(shù)據(jù)很好地反映了粉絲群體的實際情況。4. 總結(jié)藝人的商業(yè)價值主要體現(xiàn)在其關(guān)注熱度以及其個人
13、的形象塑造,積極的形象往往比負面的形象更能吸引粉絲的追捧。而粉絲購買相關(guān)明星產(chǎn)品,觀看明星出演的影視劇均創(chuàng)造了大量的消費。研究粉絲的群體特征,例如興趣愛好、地區(qū)分布方便企業(yè)制定有客戶群體針對性的項目,這樣便可以使利潤最大化。而在尋求明星代言時,明星的個人形象關(guān)乎到公司產(chǎn)品給消費者的形象,于是藝人的商業(yè)價值很大一部分都依賴于其平時所樹立的公眾形象。此次試驗結(jié)果取得了較為精確的結(jié)果,給人以多方面直觀的印象,但如何增加分析的角度,提高分析方法的精度是我們下一步要做的。參考文獻【1】 林江豪. 一種基于樸素貝葉斯的微博情感分類. 計算機工程與科學(xué),2012,34(9):160-165.【2】 Kamp
14、s J, Marx M, Mokken R J. Using WordNet to measure semantic orientations of adjectives. Proceedings of the 4th International Conference on Language Resources and Evaluation. 2004, IV: 1115- 1118.【3】 朱嫣嵐,閔錦,周雅倩. 基于HowNet 的詞匯語義傾向計算. 中文信息學(xué)報,2006,20(1):14-20.【4】 盧玲,王越,楊武. 一種基于樸素貝葉斯的中文評論情感分類方法研究. 山東大學(xué)學(xué)報(
15、工學(xué)版),2013,43(6):7-11【5】 孫麗華,張積東,李靜梅一種改進的KNN 方法及其在文本分類中的應(yīng)用應(yīng)用科技,2002,29(2):25-27【6】VALENTINI G, DIETTERICH T G. Bias-variance analysis of support vector machines for the development of SVMbased ensemble methods. The Journal of Machine Learning Research, 2004, 5: 725-775.【7】 Kim S M, Hovy E. Extracting
16、 opinions, opinion holders, and topics expressed in online news media text.Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text, 2006:1-8. 徐軍,丁宇新,王曉龍. 使用機器學(xué)習(xí)方法進行新聞的情感自動分類. 中文信息學(xué)報,2007,21(6):95-100. Perter D, Turney, Michael L. Unsupervised learning of semantic oriental on from a hundred-billion-word corpus.National Research Council of Canada. 2002 : 359-364. Mullen T, Collier N. Sentiment analysis using support vector machines with dive
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微縮攝影行業(yè)市場調(diào)研分析報告
- 辦公室的布局設(shè)計行業(yè)相關(guān)項目經(jīng)營管理報告
- 人工日光浴曬黑服務(wù)行業(yè)營銷策略方案
- 腳踏車輛用馱籃項目營銷計劃書
- 螺旋輸送機產(chǎn)品供應(yīng)鏈分析
- 出牙咬環(huán)產(chǎn)品供應(yīng)鏈分析
- 乘機旅行手提包產(chǎn)業(yè)鏈招商引資的調(diào)研報告
- 臨床診斷服務(wù)行業(yè)經(jīng)營分析報告
- 古玩估價行業(yè)市場調(diào)研分析報告
- 化學(xué)品檢測行業(yè)營銷策略方案
- GB 21258-2024燃煤發(fā)電機組單位產(chǎn)品能源消耗限額
- 1.1公有制為主體多種所有制經(jīng)濟共同發(fā)展課件-高中政治統(tǒng)編版必修二經(jīng)濟與社會
- 研發(fā)投入核算管理制度
- 新疆哈密地區(qū)(2024年-2025年小學(xué)四年級語文)人教版期中考試(上學(xué)期)試卷及答案
- 2024-2030年中國SUV行業(yè)市場深度調(diào)研及發(fā)展前景與投資前景研究報告
- 2023年廣州市教育系統(tǒng)招聘優(yōu)才計劃筆試真題
- 24.1.2 垂直于弦的直徑(1) 人教版數(shù)學(xué)九年級上冊課件
- 新教材適用高中物理第一章動量守恒定律測評新人教版選擇性必修第一冊
- 中國銀行河北省分行2022年度高端客戶活動方案
- 統(tǒng)編版(2024新版)道德與法治七年級上冊5.1《走近老師》教案
- 智能化技術(shù)安全交底記錄模板
評論
0/150
提交評論