




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
新編21世紀新聞傳播學系列教材輿論學教程(第2版)第十一章
互聯(lián)網(wǎng)時代輿論測量新方法李彪
著
中國人民大學出版社本章要點1.熟練掌握和區(qū)分不同的網(wǎng)絡(luò)抽樣方法并能制定抽樣方案。2.熟練使用社會網(wǎng)絡(luò)分析法并能對某一微信社群進行互動關(guān)系測量。3.掌握詞頻分析法并能對某一輿情文本進行社會語義網(wǎng)測量。目錄CONTENTS02社會網(wǎng)絡(luò)分析法網(wǎng)絡(luò)問卷調(diào)查法01詞頻與社會語義網(wǎng)0304輿論測量方法未來發(fā)展趨勢網(wǎng)絡(luò)問卷調(diào)查法李彪
著
中國人民大學出版社PART01網(wǎng)絡(luò)問卷調(diào)查法隨著網(wǎng)絡(luò)成為社會生活的一部分,人們逐步向虛擬空間轉(zhuǎn)移。在網(wǎng)絡(luò)當中,有來自全世界不同地區(qū)擁有不同文化背景、不同信仰、不同年齡、不同愛好、不同學歷等的人,這些人中往往有現(xiàn)實社會的主導者與決策者,所以網(wǎng)絡(luò)調(diào)查公司就花費一定的費用聘請網(wǎng)民來發(fā)表意見。網(wǎng)絡(luò)問卷調(diào)查則是最直接有效的一種網(wǎng)絡(luò)調(diào)查方式。網(wǎng)絡(luò)問卷調(diào)查是網(wǎng)絡(luò)邀請參與者回答問卷以獲取研究信息的一種調(diào)查方式,屬于在線調(diào)查的一種。該方法可以采用比較長的問卷形式,也適用于一定時間內(nèi)的連續(xù)調(diào)查,但單純的網(wǎng)絡(luò)調(diào)查不能保證樣本抽取的隨機性,樣本的信度相對不高。一?概率抽樣與非概率抽樣“你不必吃完整頭牛,才知道肉是老的?”網(wǎng)絡(luò)問卷調(diào)查方式一直存在抽樣上的問題,即調(diào)查對象多是根據(jù)調(diào)查者的朋友圈進行的滾雪球抽樣,而不是嚴格意義上的概率抽樣?因此,首先需要區(qū)分哪些是概率抽樣哪些是非概率抽樣,兩者的區(qū)別如圖所示?二?概率抽樣的類別簡單隨機抽樣又稱純隨機抽樣,是概率抽樣的最基本形式?它是按照等概率原則,直接從含有N個元素的總體中抽取n個元素組成樣本?抽樣時不進行任何分組排列,使總體中的任何個體都有同等被抽中的機會?常用的辦法是抽簽,對于總體元素很多的情形,采用隨機數(shù)表來抽樣?簡單隨機抽樣是概率抽樣的理想類型,沒有偏見,簡單易行,且從隨機樣本的抽樣到對總體進行推斷,有一套健全的規(guī)則?但是,當總體所含個體數(shù)目太多時,采用這種抽樣方式不僅費時?工作繁雜,費用也太高?此外,這種抽樣方法,在構(gòu)成總體的個體差異不大時,用之比較有效,而在個體異質(zhì)性較高時,誤差較大?(一)簡單隨機抽樣二?概率抽樣的類別系統(tǒng)抽樣又稱等距抽樣或機械抽樣?它是把總體的單位進行編號排序后,再計算出某種間隔,然后按這一固定的間隔抽取個體的號碼來組成樣本的方法?系統(tǒng)抽樣的具體步驟如下:第一步,給總體中的每個個體按順序編號,即制定出抽樣框?第二步,計算出抽樣間距?計算方法是用總體的規(guī)模除以樣本的規(guī)模,假設(shè)總體規(guī)模為N,樣本規(guī)模為n,那么抽樣間距K就由下列公式導出:K=N÷n?第三步,在最前面的K個個體中,采用簡單隨機抽樣的方法抽取一個個體,記下這個個體的編號A,稱為隨機起點?第四步,在抽樣框中,自A開始,每隔K個個體抽取一個個體,即所抽取個體編號分別為A,A+K,A+2K…A+(n-1)K?第五步,將這n個個體合起來,就構(gòu)成了該總體的一個樣本?例如在由1000個單位組成的總體中抽取100個樣本?先將1000個總體標上1-1000的序號,再在前10個中隨機地抽取一個號,如2,再依次抽取12,22…92,組成樣本?(二)系統(tǒng)抽樣二?概率抽樣的類別分層抽樣又稱類型抽樣,它是先將總體中的所有單位按某種特征或標志(如性別?年齡?職業(yè)或地域等)劃分成若干類型或?qū)哟?,然后再在各個類型或?qū)哟沃胁捎煤唵坞S機抽樣或系統(tǒng)抽樣的方法抽取一個子樣本,最后將這些樣本合起來構(gòu)成總體的樣本?分層抽樣的優(yōu)點在于在不增加樣本規(guī)模的前提下可降低抽樣誤差,提高樣本的代表性,增強抽樣的精度,同時也非常便于調(diào)查者了解總體內(nèi)不同層次的情況?運用分層抽樣時,要注意以下分層標準:一是以所要分析和研究的主要變量或相關(guān)變量作為分層的標準;二是以保證各層內(nèi)部同質(zhì)性強?各層之間異質(zhì)性強,突出總體內(nèi)在結(jié)構(gòu)的變量作為分層變量;三是以那些已有明顯層次區(qū)分的變量作為分層變量?另外,需要注意的是,分層抽樣適用于總體由差異明顯的幾部分組成的情況?每一部分稱為層,在每一層中實行簡單隨機抽樣;分層抽樣中分多少層,要視具體情況而定?總的原則是:層內(nèi)樣本的差異要小,而層與層之間的差異要盡可能大,否則將失去分層的意義?(三)分層抽樣二?概率抽樣的類別整群抽樣是從總體中隨機抽取一些小的群體,然后由所抽中的若干個小群體內(nèi)的所有元素構(gòu)成調(diào)查的樣本?即只要該群被選中,該群中的所用成員都進入隨后的子樣本?如從某大學3000名學生中抽取300個為樣本,可以從該校的100個班級中隨機抽取10個班級,抽中的10個班級的全部300名學生就組成樣本?整群抽樣的抽樣單位是成群個體,如居民家庭?班級?居委會?村莊?企業(yè)等,整群抽樣中對小群體的抽取可采用簡單隨機抽樣?系統(tǒng)抽樣或分層抽樣的方法?整群抽樣的優(yōu)點是簡便易行?節(jié)省費用,缺點是樣本的分布面不廣,樣本對總體的代表性相對較差?(四)整群抽樣二?概率抽樣的類別二?概率抽樣的類別多段抽樣又稱多級抽樣或分段抽樣,它是把抽樣過程分成幾個階段來進行?抽樣步驟如下:先從總體中隨機抽取若干大群(組),然后再從這幾個大群(組)內(nèi)抽取幾個小群(組),這樣一層層抽下來,直至抽到最基本的抽樣元素為止?如對某鄉(xiāng)20000人進行抽樣,抽樣順序如下:縣20個鄉(xiāng)—從中抽出8個鄉(xiāng)—從中抽出15個村—從中抽出500人?需要注意的是,運用多段抽樣方法時要注意在類別和個體之間保持合適的比例?多段抽樣適用于范圍大?總體對象多的社會調(diào)查,其缺點是誤差比較大?(五)多段抽樣三?非概率抽樣非概率抽樣不是按照概率均等的原則,而是根據(jù)人們的主觀經(jīng)驗或其他條件來選取樣本,因而樣本的代表性較差,誤差有時相當大。這種方法一般只在探索性研究中采用。該方法通常用于以下情況:樣本量規(guī)模很小時,在探索性研究或研究的初始階段,總體成員很少或很難尋找時。從類型上說,非概率抽樣主要包括以下類型:偶遇抽樣、判斷抽樣、定額抽樣、滾雪球抽樣。三?非概率抽樣偶遇抽樣又稱方便抽樣或自然抽樣,是指研究者根據(jù)現(xiàn)實情況,以自己方便的形式抽取偶然遇到的人作為調(diào)查對象,或者僅僅選擇離得最近的?最容易找到的人作為調(diào)查對象?街頭攔人是最常見的偶遇抽樣?偶遇抽樣的優(yōu)點是方便省力,缺點是不能保證總體中每一個成員都有同等的被抽中的概率,樣本的代表性差,有很大的偶然性?(一)偶遇抽樣三?非概率抽樣判斷抽樣又稱主觀抽樣?立意抽樣,它是調(diào)查者根據(jù)研究目標和自己主觀的分析來選擇和確定調(diào)查對象的方法?該抽樣方法具有兩個鮮明特點,一是主觀判斷,二是有目的地選擇樣本?判斷抽樣的優(yōu)點是可以充分發(fā)揮研究人員的主觀能動作用,缺點也很明顯,樣本的代表性難以判斷?該方法多用于總體規(guī)模小?涉及范圍窄或時間?人力等條件有限而難以進行大規(guī)模抽樣的情況?有的研究者專找那些偏離總體平均水平者作為調(diào)查對象,探尋有意義的變量和范圍,研究是什么使他們發(fā)生偏離?(二)判斷抽樣三?非概率抽樣定額抽樣又叫配額抽樣,與分層抽樣中的按比例抽樣相似,也是按調(diào)查對象的某種屬性或特征將總體中所有個體分成若干類或?qū)?,然后在各層中抽樣,樣本中各?類)所占的比例與他們在總體中所占的比例一樣?但不同的是,分層抽樣中各層樣本是隨機抽取的,而定額抽樣中各層樣本是非隨機抽取的?定額抽樣是以代表總體為目的的,因此必須對總體的性質(zhì)有充分的了解,如不同性別?年齡?教育水平的人在總體中各占多大比例等等,然后按此比例分配應抽定額?定額抽樣具體的操作步驟主要包括以下兩個階段:第一個階段,指定不同類型的定額,如按性別?年齡?職業(yè)?收入等指標,確定每類中的被調(diào)查者定額;第二個階段,按方便抽樣或判斷抽樣選取調(diào)查對象?(三)定額抽樣三?非概率抽樣滾雪球抽樣是現(xiàn)在很多網(wǎng)上調(diào)查采用的主要抽樣手段,直接發(fā)布到朋友圈就可以“姜太公釣魚愿者上鉤”了?但這種抽樣根本不具備任何的代表性?因為所謂滾雪球,就是根據(jù)既有研究對象的建議找出其他研究對象的累積過程?由于這種方法產(chǎn)生的代表性可疑,因此常用于探索性研究,尤其在當我們無法了解總體情況時?如想要了解一個社區(qū)長期以來招募人手的方式,可以先訪問新近招募來的人員,詢問他們是由誰介紹進這個組織的,然后再訪問被提到的人,詢問他們是由誰介紹加入的;又如要研究一個組織松散的社會團體時,可以向一位組織成員詢問,看其認為誰是這一組織中最有影響力的人,然后再對這些人進行訪問,詢問他們誰最有影響力;再如要研究退休老人的生活,只需要找到一個退休老人,通過他(她)再尋找其他的退休老人?還有研究同性戀群體?小偷群體甚至奢侈品群體等相對比較封閉的窄化群體,也可以運用這種方法?(四)滾雪球抽樣四?抽樣的樣本規(guī)模問題在實際的操作中,經(jīng)常有一些疑問:到底抽取多少樣本才具有代表性?一般來說,調(diào)查的規(guī)模決定抽樣的規(guī)模?比較常見的樣本規(guī)模,一是小型調(diào)查,即非正式的或要求不高的?總體規(guī)模較小的調(diào)查,樣本規(guī)模在100~300個之間;二是中型調(diào)查,一般用于正式的調(diào)查研究,樣本規(guī)模普遍在300~1000個之間;三是大型調(diào)查,全國性的調(diào)查研究樣本規(guī)模在1000~3000個之間?根據(jù)總體規(guī)模,一般所需要抽取的樣本總數(shù)如表所示?社會網(wǎng)絡(luò)分析法李彪
著
中國人民大學出版社PART02一?社會網(wǎng)絡(luò)分析法的崛起隨著網(wǎng)絡(luò)社會的崛起,金字塔型社會結(jié)構(gòu)被一定程度地消解,網(wǎng)狀的扁平結(jié)構(gòu)出現(xiàn),這種社會結(jié)構(gòu)不再關(guān)注社會行動者個體的先賦屬性——性別?年齡?職業(yè)?學歷等社會統(tǒng)計學意義的特征,關(guān)注更多的是關(guān)系屬性,即社會行動者個體之間的關(guān)系?從這個意義上說,社會網(wǎng)絡(luò)分析是未來研究網(wǎng)絡(luò)社會的主要方法之一?另外,調(diào)查方法是對社會現(xiàn)象的橫剖面進行的瞬時性研究,本節(jié)研究的是傳播結(jié)構(gòu),是歷時性的整體研究,兩者在研究的時間范式上存在著不同的訴求,社會網(wǎng)絡(luò)分析本身屬于一種“能動化”的結(jié)構(gòu)思想,因此對研究傳播結(jié)構(gòu)具有先天性的優(yōu)勢?(一)網(wǎng)絡(luò)社會崛起,調(diào)查方法的局限性進一步顯性化一?社會網(wǎng)絡(luò)分析法的崛起經(jīng)驗學派方法論觀點更多地從微觀層面強調(diào)傳播個體的行動及其意義性,主張對傳播現(xiàn)象的研究應建立在對受眾個體的行為研究的基礎(chǔ)上?在這一點上,經(jīng)驗學派的觀點源于社會學研究中的個體主義方法論,個體主義方法論也是只強調(diào)個體行為及其意義?與之相反,批判學派更多地從宏觀層面強調(diào)對傳播結(jié)構(gòu)尤其是社會層面的傳播整體結(jié)構(gòu)的研究?批判學派這一觀點源于社會學研究中的整體主義方法論。兩個學派各執(zhí)一端,互不妥協(xié),存在著尖銳的不可調(diào)和的對立,嚴重限制了傳播學科的發(fā)展?從某種意義上講,其實兩者都忽略了其中的“中介”本身——勾連傳播個體的關(guān)系?社會網(wǎng)絡(luò)分析試圖整合個體主義和整體主義方法論,把宏觀研究和微觀研究整合起來,這也是困擾傳播學研究五六十年的問題所在?(二)消弭傳播學經(jīng)驗學派和批判學派研究范式的鴻溝一?社會網(wǎng)絡(luò)分析法的崛起社會網(wǎng)絡(luò)分析更符合信息傳播的本質(zhì)屬性———信息像“液體”一樣,在不同傳播行動者之間的固有社會網(wǎng)絡(luò)這一渠道管線系統(tǒng)中正向或逆向流動。社會網(wǎng)絡(luò)關(guān)注的不是信息本身的內(nèi)容和形式,而是傳播個體勾連起來的社會網(wǎng)絡(luò)和社會結(jié)構(gòu)本身。社會網(wǎng)絡(luò)分析摒除了研究視角“微觀宏觀”的預設(shè),可以把個體間關(guān)系、“微觀”網(wǎng)絡(luò)和大規(guī)模社會系統(tǒng)的“宏觀”結(jié)構(gòu)結(jié)合起來,為“微觀-宏觀”的結(jié)合提供了一條有效的途徑,從而為傳播學的發(fā)展破除藩籬,提供了全新的視角和解釋。但需要說明的是,社會網(wǎng)絡(luò)分析法雖然已在很多學科被廣泛應用,甚至引起了個別學科研究范式的變革,但目前在傳播學研究領(lǐng)域還比較鮮見,仍處于探索引入階段,主要集中于個案研究。社會網(wǎng)絡(luò)分析法在傳播學研究領(lǐng)域的學科規(guī)范和“馴化”還沒有統(tǒng)一的標準。(二)消弭傳播學經(jīng)驗學派和批判學派研究范式的鴻溝二?社會網(wǎng)絡(luò)分析方法社會網(wǎng)絡(luò)概念的出現(xiàn)最早可以追溯到20世紀30年代的心理學和人類學研究?社會網(wǎng)絡(luò)分析是包括測量與調(diào)查社會系統(tǒng)中各部分,即“點(node)”的特征與相互之間的關(guān)系,也就是“連接(tie)”,將其用網(wǎng)絡(luò)的形式表示出來,然后分析其關(guān)系的模式與特征這一全過程的一套理論?方法和技術(shù)?該方法用于描述和測量行動者之間的關(guān)系,或通過這些關(guān)系流動的各種有形或無形的東西,如信息?資源等?常用的分析方法主要有圖論(graphtheory)?社會計量學和代數(shù)方法?圖論適用于描述小型傳播群體的核心關(guān)系和團聚力等特征,社會計量學適用于研究結(jié)構(gòu)等價性和“塊模型”關(guān)系,代數(shù)方法適用于對角色和位置關(guān)系的分析?根據(jù)分析的著眼點不同,社會網(wǎng)絡(luò)分析可以分為兩種:微觀層次的自我中心社會網(wǎng)絡(luò)和宏觀層次的整體社會網(wǎng)絡(luò)?自我中心社會網(wǎng)絡(luò)以個體為中心,探討其對外的關(guān)系聯(lián)結(jié)所建立起來的社會網(wǎng)絡(luò);整體社會網(wǎng)絡(luò)則關(guān)注所有點之間的關(guān)系,關(guān)注整個網(wǎng)絡(luò)的結(jié)構(gòu)?二?社會網(wǎng)絡(luò)分析方法社會網(wǎng)絡(luò)分析又被稱為結(jié)構(gòu)分析,不僅是對關(guān)系或結(jié)構(gòu)加以分析的一套技術(shù),還是一種理論方法——結(jié)構(gòu)分析的觀點,社會網(wǎng)絡(luò)分析學者認為社會學的研究對象應該是社會關(guān)系,而非具體的社會個體,因為作為個體的人是多樣的,而唯有其關(guān)系是相對穩(wěn)定的?社會網(wǎng)絡(luò)分析在研究視角上可以大致分為兩種:一種是關(guān)系取向(relationalapproach),一種是位置取向(positionalapproach)?所謂關(guān)系取向主要研究的是社會行動者的社會聯(lián)結(jié)——密度?中介性?強度?對稱性?規(guī)模等?位置取向主要關(guān)注的是社會行動者之間社會關(guān)系的模式化(patterning),不同行為個體在結(jié)構(gòu)地位上是否一致,強調(diào)用“結(jié)構(gòu)等效”(structuralequivalence)來理解人類行為?社會網(wǎng)絡(luò)分析有兩個特征:一是從行動者關(guān)系的角度進行的解釋優(yōu)于從行動者個人屬性的角度進行的解釋;二是行動者及其行動是相互依賴的,行動者之間的關(guān)系是資源傳遞或者流動的“渠道”?三?社會網(wǎng)絡(luò)的分析單元社會網(wǎng)絡(luò)中的點或行動者既可以是個體,也可以是其他社會單位或者社會實體,如公司、學校、社區(qū)、國家等。(一)點/行動者(node)關(guān)系被認為是一種雙向?qū)傩?,而主流社會科學所關(guān)注的是單一屬性?關(guān)系是節(jié)點之間的連接,有三個特征:內(nèi)容?方向和強度?內(nèi)容就是指行動者間關(guān)系產(chǎn)生的原因與關(guān)系建構(gòu)的基礎(chǔ);關(guān)系可分成有方向性和無方向性的,多數(shù)情況下,行動者之間的關(guān)系是有明確方向的;關(guān)系有強弱之分,強度即發(fā)生關(guān)系的次數(shù)?(二)關(guān)系(tie)四?社會網(wǎng)絡(luò)分析的指標從右圖可以看出,社會網(wǎng)絡(luò)分析的內(nèi)容包括以下三部分:社會網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)?凝聚子群?網(wǎng)絡(luò)位置和網(wǎng)絡(luò)角色?四?社會網(wǎng)絡(luò)分析的指標從數(shù)學角度上講,有兩種方法可以表達社會行動者之間的關(guān)系,即圖論和矩陣,如不同信息節(jié)點之間的信息流入流出關(guān)系,就可以使用圖論或者信息矩陣進行表示。(一)社會網(wǎng)絡(luò)的數(shù)學表達形式中心度是關(guān)于行動者在社會網(wǎng)絡(luò)中的中心性位置的測量概念,反映的是行動者在社會網(wǎng)絡(luò)結(jié)構(gòu)中的等級和優(yōu)勢等方面的差異,主要包括結(jié)點中心度?緊密中心度和間距中心度等幾個指標?(二)中心度分析四?社會網(wǎng)絡(luò)分析的指標在社會網(wǎng)絡(luò)分析中,某些關(guān)系密切的子群也是社會網(wǎng)絡(luò)分析學者關(guān)心的興趣點?因為構(gòu)成社會網(wǎng)絡(luò)的基本元素是行動者及其群體,社會中存在著這樣那樣的子群,它們互相結(jié)合形成了復雜的社會結(jié)構(gòu)?對子群的研究主要包括成分分析和團伙分析等?(三)子群分析在社會網(wǎng)絡(luò)分析中,位置(position)指的是同等地處于關(guān)系網(wǎng)絡(luò)中的個體所形成的集合體,而角色是指兩個行動者或兩個位置之間存在的關(guān)系模式?社會網(wǎng)絡(luò)中的位置和角色分析主要是以結(jié)構(gòu)等價性?自同構(gòu)等價性和正則等價性等指標作為衡量指標?(四)位置和角色分析五?社會網(wǎng)絡(luò)分析流程社會網(wǎng)絡(luò)分析主要有以下幾個基本步驟,如圖所示。六?社會網(wǎng)絡(luò)分析法的爭議社會網(wǎng)絡(luò)分析無論是作為一種結(jié)構(gòu)思想,還是作為一套行之有效的分析社會結(jié)構(gòu)的方法,自誕生之日起就像“學術(shù)寵兒”一樣受到了學界一致推崇,目前被廣泛應用于社會學?經(jīng)濟學?情報學和傳播學等領(lǐng)域,甚至為一些學科的研究帶來了革命性的范式轉(zhuǎn)變?但不容否認,任何一種研究方法都像硬幣的兩面,有優(yōu)點同時也有局限?一是社會網(wǎng)絡(luò)分析方法片面強調(diào)了關(guān)系對行動者行為的影響,抹平了所有行動者之間主觀屬性的差異,忽視了對行動者自身主觀心理譜系的分析?二是社會網(wǎng)絡(luò)分析方法對網(wǎng)絡(luò)的動態(tài)變化重視不夠?三是社會網(wǎng)絡(luò)分析方法回避或者忽視了社會網(wǎng)絡(luò)的文化內(nèi)涵?一方面,文化的產(chǎn)生與特定的網(wǎng)絡(luò)結(jié)構(gòu)有關(guān),但另一方面,網(wǎng)絡(luò)建構(gòu)又是文化脈絡(luò)下的一種實踐活動,文化可能充當網(wǎng)絡(luò)建構(gòu)的腳本?七、社會網(wǎng)絡(luò)分析軟件:UCINET和GephiUCINET(UniversityofCaliforniaatIrvineNETwork)是一種功能強大的社會網(wǎng)絡(luò)分析軟件,處理的數(shù)據(jù)均用矩陣形式來存儲?展示和描述,該軟件目前可處理最多高達32767個點的網(wǎng)絡(luò)數(shù)據(jù)?另外,該軟件還包含一維與二維數(shù)據(jù)可視化分析的Net-Draw插件,還有正在發(fā)展應用的三維數(shù)據(jù)可視化分析插件Mage?右圖是UCINET軟件的操作界面?(一)UCINET七、社會網(wǎng)絡(luò)分析軟件:UCINET和GephiGephi是一款開源免費跨平臺的?基于JVM的復雜網(wǎng)絡(luò)分析軟件,主要用于各種網(wǎng)絡(luò)和復雜系統(tǒng),是一種動態(tài)和分層圖的交互可視化與探測開源工具?Gephi是在Netbeans平臺上開發(fā)的,語言是JAVA,使OpenGL(OpengraphicsLibrary,開放圖形庫,一種跨平臺的圖形應用程序編程接口)作為它的可視化引擎?依賴于它的應用程序接口(APIs),開發(fā)者可以編寫自己感興趣的插件,創(chuàng)建新的功能?通過內(nèi)建的OpenGL引擎,Gephi可以適應大型網(wǎng)絡(luò)要求,可視化網(wǎng)絡(luò)可達到上百萬個元素?所有操作(比如布局?過濾?拖拽)都可以實時完成,上手簡單快速?Gephi的UI以可視化為中心,類似圖片處理工具Photoshop?Gephi還可以通過插件擴展,圖形架構(gòu)是基于Netbeans平臺構(gòu)建的,可以通過APIs擴展和重用?下圖是Gephi軟件的操作界面。(二)Gephi軟件七、社會網(wǎng)絡(luò)分析軟件:UCINET和Gephi(二)Gephi軟件詞頻與社會語義網(wǎng)李彪
著
中國人民大學出版社PART03一?詞頻分析中文分詞是文本挖掘的基礎(chǔ),對輸入的一段中文成功地進行中文分詞,可以達到電腦自動識別語句含義的效果?詞頻分析是對輿情文本中重要詞匯出現(xiàn)的次數(shù)進行統(tǒng)計與分析,是輿情文本語義挖掘的重要手段,也是文獻計量學中傳統(tǒng)的和具有代表性的一種內(nèi)容分析方法?其基本原理是通過詞出現(xiàn)頻次的變化來確定輿情關(guān)注的熱點及其變化趨勢,至少在認知層面上,某關(guān)鍵詞被提及的次數(shù)越多,表示表達者的訴求越集中越迫切?一?詞頻分析案例:在我國古典文學名著《紅樓夢》的研究中一直存在著一個史學公案,即《紅樓夢》前80回和后40回是否為同一人所作?以往的研究多是從史學考證、主觀判斷的角度來考察,得出的結(jié)論有時候大相徑庭。而隨著文獻計量方法的完善,有學者對其進行了詞頻分析,得出的結(jié)論雖不一定正確,但提供了完全不同的研究思路與方法。1980年,首屆國際《紅樓夢》研討會在美國召開,美國威斯康星大學講師陳炳藻宣讀了《從詞匯上的統(tǒng)計論〈紅樓夢〉的作者》這篇論文,他從前80回里隨機抽取了5回,從后40回里隨機抽取了3回,比較5個文言虛詞的出現(xiàn)頻率,發(fā)現(xiàn)它們的正相關(guān)程度達到78.57%,由此認為前后作者基本是一個人,即曹雪芹,對“后40回作者系高鶚”這一流行看法提出異議。隨后,我國學者陳大康也采用了大致相同的方法,不過他普查了全部120回,統(tǒng)計了8個文言虛詞和24個常用動詞出現(xiàn)的頻率,發(fā)現(xiàn)前80回里這些詞出現(xiàn)的頻率明顯高于后40回,因此認為這的確是兩個人的作品。他的觀點符合“紅學”研究的主流。出現(xiàn)這兩種截然相反結(jié)論的原因在于兩位研究者所選擇的字(自變量)不同,即非概率抽樣手段造成了誤差。一?詞頻分析隨著植物學家的介入,紅學研究越來越有趣。臺灣植物學家潘富俊在其《紅樓夢植物圖鑒》中斷然否定了曹雪芹寫后40回一說,認為答案就在植物里——從書中所提及的200多種植物來看,他認為幾乎可以肯定后40回并非出自曹雪芹之手。他的方法是,先將這部120回的小說等分為3個部分,前面40回平均每回出現(xiàn)11.2種植物,中間40回平均每回出現(xiàn)10.7種,最后40回平均每回只出現(xiàn)3.8種。潘富俊說,后40回的作者的植物知識遠遜于前80回的作者。后40回中只有6回提到茶,且僅有一種茶,即龍井茶;前80回逾92%提到茶,且有9種茶。這個結(jié)果證明作者肯定不是同一人。案例2:再如有網(wǎng)友統(tǒng)計過歌手汪峰的117首歌曲中最常用的詞語,形容詞排名前五的分別是孤獨、自由、迷惘、堅強和絕望,名詞排名前五的是生命、路、夜、天空和孩子(同一首歌里出現(xiàn)多次的詞語只算一次),用這些詞語只要隨意組合一下,一首汪峰風格的歌詞就誕生了,如“迷惘,生命,碎,堅強”,潤色一下就是“不再迷惘的生命,被燃碎千萬次,也依然堅強”,就此分析其作品風格為“在憂郁中呼喚希望”。一?詞頻分析詞頻分析可以用于微博與微博聊天分析、新聞文本分析、分詞、詞頻統(tǒng)計、英文詞頻統(tǒng)計、流量分析、聚類分析等一系列文本分析。詞頻分析的基本步驟是:首先對文本進行分詞,中文文本不同于英文文本,中文詞是由一個個字所構(gòu)成的,很容易分詞出錯,因此分詞的基本前提是必須有一個相對比較完備的“字典”,字典的詞容量越大,分詞的精準度也就越高;分詞后計算關(guān)鍵詞的數(shù)量,即為詞頻?詞頻分析的工具目前越來越多,尤其是一些線上的工具,比較出名的有圖悅?紐扣詞云?騰訊文智?新榜詞云詞頻分析?Excel詞頻分析工具?易詞云等,國外比較出名的在線工具是Tagxedo?WordArt?Wordle等?近年來,隨著各種編程語言的出現(xiàn),利用Python語言進行詞頻計算的研究越來越多,一般使用Python中jieba包的中文分詞工具(/project/jieba/)對對象文本進行分詞與詞頻計算?二?社會語義網(wǎng)社會語義網(wǎng)只是一種說法,主要是將各個高頻詞之間通過社會網(wǎng)絡(luò)分析工具連接起來,形成一個高頻詞關(guān)系網(wǎng),進而推測話語文本的主要表達邏輯及關(guān)注熱點?右圖是筆者對《唐詩三百首》中的311首詩歌進行的詞頻分析?選取詞頻最高的40個實詞進行分析,將每兩個高頻詞在同一首詩中出現(xiàn)視為一次共現(xiàn),即兩者存在一次關(guān)聯(lián),做出40個高頻詞的社會關(guān)系網(wǎng)絡(luò)?可以看出,唐詩中出現(xiàn)頻度最高的詞是何處?春風?楊柳?芳草?白云?明月?青山等,這些詞寄托了唐朝詩人的心情與所指,尤其是“何處”出現(xiàn)得最多,說明唐朝詩人的迷茫?二?社會語義網(wǎng)社會語義網(wǎng)具體來說有以下幾種不同的分析方法與手段。共詞分析最早是一種文獻計量學方法,屬于內(nèi)容分析方法的一種,該方法的基本理論假設(shè)是詞與詞之間的聯(lián)系決定著語義生產(chǎn)?共詞分析的基本原理是通過對一組詞項在一篇文本中共同出現(xiàn)的次數(shù)進行統(tǒng)計,并以此對這些詞進行聚類,從而反映出這些詞項之間的關(guān)聯(lián)強弱,進而分析這些詞項所反映的文本的主題結(jié)構(gòu)?一般來說,詞項對在同一篇文本中出現(xiàn)的次數(shù)越多,則表明該詞項對的關(guān)系越緊密;詞項對在大量文檔中出現(xiàn)次數(shù)越多,則說明該詞項對與文本之間的關(guān)聯(lián)性越強?共詞分析采用一套結(jié)構(gòu)圖可以有效地展示詞項之間的關(guān)聯(lián):節(jié)點的大小代表詞頻,節(jié)點越大詞頻越高,連線的粗細代表兩詞共現(xiàn)的次數(shù),共現(xiàn)次數(shù)越多連線越粗,一般是將整個圖按照節(jié)點的中心性進行呈現(xiàn);一般先將高頻詞通過人工或數(shù)據(jù)導出的方式形成共詞矩陣,再將共詞矩陣導入Gephi軟件中,繪制出高頻關(guān)鍵詞的關(guān)系圖譜,對高頻關(guān)鍵詞之間的共現(xiàn)關(guān)系進行分析?(一)共詞分析二?社會語義網(wǎng)聚類分析(clusteranalysis)的基本思想是將變量按相似程度歸于同一群組,“物以類聚”,是共詞分析中比較常用的統(tǒng)計方法?根據(jù)一些能夠測量多個變量指標之間相似程度的統(tǒng)計量,以此為劃分依據(jù),可以將各種不同相似度的變量聚合成不同的類別,再將它們的親疏關(guān)系用譜系圖的方式表現(xiàn)出來?在聚合的不同類別中,同一類別之內(nèi)的變量彼此的相似度愈高愈好,而不同類別之間變量彼此的相似度愈低愈好?高頻關(guān)鍵詞聚類分析是對文本中高頻關(guān)鍵詞親疏關(guān)系的分析,體現(xiàn)出高頻關(guān)鍵詞相似性和相異性的分析圖譜,通過圖譜可以進一步挖掘作者意圖和社會語義等深層次信息?聚類分析一般使用UCINET,將共詞矩陣導入到UCINET中,處理路徑為“Network→Roles&Positions→Structural→CONCOR”,進行高頻關(guān)鍵詞的凝聚子群分析,然后測算各子群的密度?塊模型?(二)聚類分析二?社會語義網(wǎng)多維尺度分析(multi-dimensionanalysis,MDS)是共詞分析中的主要分析方法之一,主要通過測量對象之間的距離來展現(xiàn)數(shù)據(jù)結(jié)構(gòu),運用低維空間(通常是二維或者三維空間)中對象所處在的特定位置,通過觀察這些對象之間的平面距離,可以了解到它們之間的相似性?通過多維尺度分析,可以幫助研究者挖掘數(shù)據(jù)中的深層結(jié)構(gòu),通過軟件繪制的平面圖,能夠清晰地揭示出數(shù)據(jù)中的隱藏聯(lián)系?(三)多維尺度分析輿論測量方法未來發(fā)展趨勢李彪
著
中國人民大學出版社PART04輿論測量方法未來發(fā)展趨勢隨著社會進入社群化與后真相時代,輿論測量的手段也發(fā)生著變化,越來越呈現(xiàn)出大數(shù)據(jù)和關(guān)系化的趨勢與特征,而不再僅僅局限于簡單的數(shù)量級層面的測算。本節(jié)對未來的輿論測量手段進行展望與預測,主要集中在以下方面的轉(zhuǎn)向:關(guān)系、情緒、地理位置等。一?“文本+關(guān)系+情緒”的多元耦合分析與傳統(tǒng)的輿情監(jiān)測不同,社交平臺文本通常采用短文本形式,并且用戶發(fā)文具有隨意性,其語言的規(guī)范性非常低,不論用詞還是語法都常常有悖于標準的語言規(guī)范,由此帶來文本表示的高維?稀疏?噪音等特性,使得傳統(tǒng)的文本分析方法難
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中介留學合同范本
- 個人創(chuàng)業(yè)合同范本
- 勞務合同范例文件
- 廚房排煙整改合同范本
- 原料加工合同范本
- 單位車輛出售合同范本
- 合伙創(chuàng)業(yè)交租合同范本
- 合資房協(xié)議合同范本
- 衛(wèi)浴工地供貨合同范例
- 合作合同范本代加工
- 2024年汽車駕駛員(高級)證考試題庫附答案
- 《兔的飼養(yǎng)管理》課件
- 2025年事業(yè)單位考試(綜合管理類A類)綜合應用能力試題及解答參考
- “互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽計劃書一等獎
- 烹飪(西餐)第三屆全省職業(yè)技能大賽烹飪(西餐)項目技術(shù)文件
- 四川政采評審專家入庫考試基礎(chǔ)題練習試題附答案
- 《血管活性藥物靜脈輸注護理》團體標準解讀
- 2024年商丘職業(yè)技術(shù)學院單招職業(yè)技能測試題庫附答案
- 公路建設(shè)期全生命周期碳排放量化研究
- 防雷應急演練
- 學校機考考場改造方案
評論
0/150
提交評論