社會(huì)調(diào)查教程第11章課件_第1頁
社會(huì)調(diào)查教程第11章課件_第2頁
社會(huì)調(diào)查教程第11章課件_第3頁
社會(huì)調(diào)查教程第11章課件_第4頁
社會(huì)調(diào)查教程第11章課件_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、社會(huì)調(diào)查教程精編本(第二版)江立華 水延凱 主編 國家級(jí)精品課程教材 新編21世紀(jì)社會(huì)學(xué)系列教材 第十一章 網(wǎng)絡(luò)調(diào)查法第十一章 網(wǎng)絡(luò)調(diào)查法第一節(jié) 網(wǎng)絡(luò)調(diào)查法概述第二節(jié) 網(wǎng)絡(luò)調(diào)查的方法與步驟第三節(jié) 大數(shù)據(jù):概念、特點(diǎn)與類型第四節(jié) 大數(shù)據(jù):獲取與分析第一節(jié) 網(wǎng)絡(luò)調(diào)查法概述網(wǎng)絡(luò)調(diào)查法概述網(wǎng)絡(luò)調(diào)查,又稱為網(wǎng)上調(diào)查、在線調(diào)查,是指通過互聯(lián)網(wǎng)及其調(diào)查系統(tǒng)把傳 統(tǒng)的調(diào)查、分析方法在線化、智能化,簡言之就是借助互聯(lián)網(wǎng)進(jìn)行的問卷調(diào)查。 其構(gòu)成包括三個(gè)部分:用戶、調(diào)查系統(tǒng)、參與人群網(wǎng)絡(luò)調(diào)查法的特點(diǎn):及時(shí)性和廣泛性交互性和共享性超時(shí)空性和客觀性低費(fèi)用和便捷性目前,網(wǎng)絡(luò)調(diào)查在市場(chǎng)調(diào)查中應(yīng)用廣泛,社情民意調(diào)查也是網(wǎng)絡(luò)調(diào)

2、查的主要 應(yīng)用,專業(yè)的社會(huì)調(diào)查團(tuán)隊(duì)也逐漸使用網(wǎng)絡(luò)問卷代替紙質(zhì)問卷開展社會(huì)調(diào)查。一第二節(jié) 網(wǎng)絡(luò)調(diào)查的方法與步驟第一節(jié) 調(diào)查報(bào)告的特點(diǎn)和類型一、網(wǎng)絡(luò)調(diào)查的方法二、網(wǎng)絡(luò)調(diào)查(主要指問卷式網(wǎng)絡(luò)調(diào)查)的步驟三、網(wǎng)絡(luò)調(diào)查應(yīng)該注意的問題網(wǎng)絡(luò)調(diào)查的方法目前常用的網(wǎng)絡(luò)調(diào)查方法有網(wǎng)上問卷調(diào)查法、網(wǎng)上討論法、網(wǎng)上測(cè)驗(yàn)法和網(wǎng)上觀察法等。網(wǎng)上問卷調(diào)查法網(wǎng)上問卷調(diào)查法就是調(diào)查者在網(wǎng)上發(fā)布問卷,調(diào)查對(duì)象在網(wǎng)上填答、提交 問卷,調(diào)查者對(duì)調(diào)查信息進(jìn)行分析研究后得出結(jié)論,并在網(wǎng)上公布調(diào)查結(jié)果的方法。根據(jù)采用技術(shù)的不同,網(wǎng)上問卷調(diào)查有兩種具體做法: 網(wǎng)站法,即將問卷放置在網(wǎng)絡(luò)站點(diǎn)或手機(jī) 上,由受訪者自愿填寫。 目前,、微信、微博等

3、社交媒體的分享和推送,大大提高了問卷分發(fā)的范圍 和效率。 電子郵件法,即通過電子郵件發(fā)送問卷,受訪者填答問卷后,再通過電 子郵件向指定郵箱提交問卷。 一網(wǎng)絡(luò)調(diào)查的方法網(wǎng)上討論法網(wǎng)上討論法,就是調(diào)查者在網(wǎng)上提出問題,組織參與者在網(wǎng)上討論,通過網(wǎng) 上討論收集信息和數(shù)據(jù),經(jīng)分析、研究后,在網(wǎng)上發(fā)布討論結(jié)果的方法。網(wǎng)上討 論法是集體訪談法在網(wǎng)絡(luò)上的應(yīng)用。目前,網(wǎng)上討論法一般通過BBS、News-group、ICQ、IRC、Netmeeting等交互平臺(tái)實(shí)施。 網(wǎng)上測(cè)驗(yàn)法網(wǎng)上測(cè)驗(yàn)法,就是調(diào)查者通過網(wǎng)絡(luò)發(fā)出含有測(cè)驗(yàn)內(nèi)容的問卷或信件,請(qǐng)受測(cè) 者回答問卷或信件,然后,調(diào)查者對(duì)測(cè)驗(yàn)信息進(jìn)行分析、研究,并做出測(cè)驗(yàn)

4、結(jié)論 的方法。測(cè)驗(yàn)內(nèi)容非常廣泛,可以是產(chǎn)品試銷,可以是網(wǎng)絡(luò)購物,可以是各種社 會(huì)熱點(diǎn)問題,也可以是受測(cè)者的主觀素質(zhì)、態(tài)度等方面的問題。一網(wǎng)絡(luò)調(diào)查的方法網(wǎng)上觀察法網(wǎng)上觀察法,是調(diào)查者進(jìn)入網(wǎng)絡(luò)聊天室觀察參與者的網(wǎng)絡(luò)聊天情況,并按事先設(shè)計(jì)的觀察項(xiàng)目和要求做記錄,然后進(jìn)行定量分析和對(duì)比研究,最后得出觀察結(jié)論的方法。 網(wǎng)上觀察法可分為網(wǎng)上直接觀察法和網(wǎng)上間接觀察法。 網(wǎng)上直接觀察法又可分為網(wǎng)上參與觀察和網(wǎng)上非參與觀察。網(wǎng)上參與觀察, 是指觀察者作為被觀察者的一員參與聊天活動(dòng),在聊天過程中實(shí)施觀察;網(wǎng)上非參與觀察,是指觀察者不參與被觀察者的聊天活動(dòng),只作為旁觀者進(jìn)行觀察和記錄。網(wǎng)上間接觀察法,就是利用網(wǎng)絡(luò)

5、技術(shù)對(duì)網(wǎng)站訪問情況或網(wǎng)民在網(wǎng)上的行為進(jìn)行監(jiān)測(cè)和觀察。一網(wǎng)絡(luò)調(diào)查(主要指問卷式網(wǎng)絡(luò)調(diào)查)的步驟制訂調(diào)查計(jì)劃調(diào)查目標(biāo)。查內(nèi)容。調(diào)查方法。調(diào)查載體。調(diào)查對(duì)象。調(diào)查時(shí)間。二網(wǎng)絡(luò)調(diào)查(主要指問卷式網(wǎng)絡(luò)調(diào)查)的步驟設(shè)計(jì)調(diào)查問卷調(diào)查問卷的設(shè)計(jì),對(duì)網(wǎng)絡(luò)調(diào)查的成敗往往具有決定性作用,必須高度重視。 一般來說,網(wǎng)絡(luò)調(diào)查問卷大體有三種方式:簡單方式組合方式完整方式調(diào)查結(jié)果呈現(xiàn)方式:簡單方式多采用頁面直接呈現(xiàn)的方式公布,各答項(xiàng)人數(shù)和百 分比一目了然。其優(yōu)點(diǎn)是,回答者可即時(shí)看到調(diào)查結(jié)果,有利于吸引更多網(wǎng)民參與調(diào)查組合方式、完整方式的調(diào)查結(jié)果,要經(jīng)過整理資料、統(tǒng)計(jì)分析等程序才 能形成,因而一般要經(jīng)過一段時(shí)間才能以調(diào)查報(bào)告

6、、研究論文、統(tǒng)計(jì)公報(bào)等形式呈現(xiàn)。 二網(wǎng)絡(luò)調(diào)查(主要指問卷式網(wǎng)絡(luò)調(diào)查)的步驟設(shè)計(jì)數(shù)據(jù)庫和網(wǎng)頁設(shè)計(jì)數(shù)據(jù)庫,就是設(shè)計(jì)計(jì)算機(jī)存儲(chǔ)、管理數(shù)據(jù)的軟件系統(tǒng)。常用的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)軟件有 MSAccess、MSSQL、系列、Sybase、Oracal、My SQL等。設(shè)計(jì)數(shù)據(jù)庫的主要工作是問卷編碼,問題結(jié)構(gòu)及其答案設(shè)計(jì),數(shù)據(jù)規(guī)則設(shè)計(jì),數(shù)據(jù)視圖、過程、觸發(fā)器設(shè)計(jì),數(shù)據(jù)接口設(shè)計(jì),等等。設(shè)計(jì)網(wǎng)頁,是指設(shè)計(jì)問卷在網(wǎng)頁中以何種頁面形式顯示出來的計(jì)算機(jī)程序。 它包括兩個(gè)部分:客戶端界面設(shè)計(jì)后臺(tái)處理程序設(shè)計(jì)二網(wǎng)絡(luò)調(diào)查(主要指問卷式網(wǎng)絡(luò)調(diào)查)的步驟測(cè)試和試調(diào)查測(cè)試,是指對(duì)網(wǎng)頁設(shè)計(jì)的客戶端界面程序和后臺(tái)處理程序進(jìn)行檢測(cè)、試

7、驗(yàn)及修改、完善的過程,其目的是測(cè)試設(shè)計(jì)的功能是否完善,是否具有實(shí)用性和可操作性。試調(diào)查,是指對(duì)經(jīng)過測(cè)試后的客戶端界面程序和后臺(tái)處理程序進(jìn)行試驗(yàn)性調(diào)查。二網(wǎng)絡(luò)調(diào)查(主要指問卷式網(wǎng)絡(luò)調(diào)查)的步驟問卷的網(wǎng)絡(luò)發(fā)布和開始調(diào)查問卷的網(wǎng)絡(luò)發(fā)布,是指將設(shè)計(jì)的調(diào)查問卷程序系統(tǒng)放置到網(wǎng)絡(luò)服務(wù)器上,以便網(wǎng)民參與調(diào)查。它一般包括三個(gè)步驟:程序安裝程序測(cè)試告知網(wǎng)民參與調(diào)查在發(fā)布公告后,應(yīng)在規(guī)定時(shí)間開始網(wǎng)絡(luò)調(diào)查。調(diào)查前,要測(cè)試數(shù)據(jù)清空操 作,并做好緊急情況處理預(yù)案。在從調(diào)查開始到調(diào)查截止的時(shí)期內(nèi),要安排專人 對(duì)網(wǎng)絡(luò)運(yùn)行狀況進(jìn)行監(jiān)測(cè),以保證網(wǎng)絡(luò)暢通,及時(shí)處理緊急情況,同時(shí)做好網(wǎng)絡(luò)服務(wù)器的定時(shí)備份工作。 二網(wǎng)絡(luò)調(diào)查(主要指問

8、卷式網(wǎng)絡(luò)調(diào)查)的步驟數(shù)據(jù)收集和統(tǒng)計(jì)分析調(diào)查結(jié)束后,經(jīng)后臺(tái)處理程序錄入、編碼的調(diào)查數(shù)據(jù),已被存儲(chǔ)在數(shù)據(jù)庫服務(wù)器上。然后根據(jù)研究需要對(duì)調(diào)查數(shù)據(jù)做統(tǒng)計(jì)分析:一般數(shù)據(jù)庫系統(tǒng)都有基本的統(tǒng)計(jì)分析功能,只要進(jìn)行相應(yīng)操作,就可完成簡單的統(tǒng)計(jì)分析工作。如果要進(jìn)行較復(fù)雜的統(tǒng)計(jì)分析,就必須使用數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)導(dǎo)出功能將所需數(shù)據(jù)導(dǎo)出,然后運(yùn)用專業(yè)統(tǒng)計(jì)分析軟件 (如等)進(jìn)行統(tǒng)計(jì)分析。應(yīng)注意的問題是:及時(shí)對(duì)調(diào)查的原始數(shù)據(jù)庫進(jìn)行完整備份,數(shù)據(jù)提取應(yīng)多用數(shù)據(jù)視圖和不改變數(shù)據(jù)原貌的查詢操作,不得改動(dòng)調(diào)查的原始數(shù)據(jù)。 二網(wǎng)絡(luò)調(diào)查(主要指問卷式網(wǎng)絡(luò)調(diào)查)的步驟撰寫并提交調(diào)查報(bào)告:撰寫調(diào)查報(bào)告是網(wǎng)絡(luò)調(diào)查的最后一步。撰寫調(diào)查報(bào)告:在分

9、析調(diào)查數(shù)據(jù)的基礎(chǔ)上對(duì)調(diào)查結(jié)果所做的系統(tǒng)論述或說明。提交調(diào)查報(bào)告:根據(jù)調(diào)查的目標(biāo)和任務(wù),實(shí)事求是地把調(diào)查結(jié)果報(bào)告出來,反饋給網(wǎng)絡(luò)調(diào)查的參與者、委托者或廣大網(wǎng)民。如果僅反饋給網(wǎng)絡(luò)調(diào)查的參與者,那么只需給網(wǎng)絡(luò)調(diào)查參與者密碼就行了。二網(wǎng)絡(luò)調(diào)查應(yīng)該注意的問題(主要是網(wǎng)絡(luò)問卷調(diào)查)主題選擇從理論上說,凡是適用傳統(tǒng)調(diào)查方法的主題,都適用網(wǎng)絡(luò)調(diào)查法從實(shí)踐上看,確定網(wǎng)絡(luò)調(diào)查主題應(yīng)該注意兩個(gè)問題:應(yīng)該以網(wǎng)民的看法、態(tài)度、感受、愿望等主觀狀況為主,而不宜以客觀事實(shí)為主,因?yàn)橥ㄟ^網(wǎng)絡(luò)調(diào)查所獲得的有關(guān)客觀事實(shí)的回答無法查證和核實(shí),無法對(duì)其做出準(zhǔn)確評(píng)價(jià)應(yīng)該與網(wǎng)民的社會(huì)結(jié)構(gòu)相適應(yīng)。 三網(wǎng)絡(luò)調(diào)查應(yīng)該注意的問題(主要是網(wǎng)絡(luò)問卷

10、調(diào)查)問卷設(shè)計(jì)網(wǎng)絡(luò)調(diào)查的問卷設(shè)計(jì)與一般調(diào)查的問卷設(shè)計(jì)基本相同,但應(yīng)注意以下幾個(gè)問題: 盡可能簡短。簡明、易懂。明示起止時(shí)間。盡可能立即顯示調(diào)查結(jié)果。三網(wǎng)絡(luò)調(diào)查應(yīng)該注意的問題(主要是網(wǎng)絡(luò)問卷調(diào)查)程序控制這是網(wǎng)絡(luò)問卷調(diào)查不同于一般問卷調(diào)查所特有的問題,應(yīng)著重解決以下幾個(gè)問題:重復(fù)填答問題。應(yīng)通過程序設(shè)計(jì)控制一址(IP)多票、重復(fù)填答現(xiàn)象,避免大量灌水票,以增強(qiáng)調(diào)查的真實(shí)性。 程序控制問題。要設(shè)計(jì)必要的程序,對(duì)相關(guān)問題的轉(zhuǎn)接,以及填 答不完整的問卷、回答中有邏輯錯(cuò)誤的問卷等,實(shí)施系統(tǒng)的檢驗(yàn)和控制。多網(wǎng)站調(diào)查問題。為了擴(kuò)大調(diào)查的覆蓋面,同一調(diào)查問卷可以在多個(gè)網(wǎng)站同時(shí)進(jìn)行調(diào)查。三網(wǎng)絡(luò)調(diào)查應(yīng)該注意的問題

11、(主要是網(wǎng)絡(luò)問卷調(diào)查)問卷發(fā)布這是網(wǎng)絡(luò)問卷調(diào)查所特有的問題。調(diào)查問卷的發(fā)布有幾種做法:利用自己的站點(diǎn)發(fā)布調(diào)查問卷借助別人的站點(diǎn)發(fā)布調(diào)查問卷慎重選擇發(fā)布網(wǎng)站。網(wǎng)絡(luò)調(diào)查問卷發(fā)布在不同網(wǎng)站,參與填答的人數(shù)往 往有很大差異??茖W(xué)選擇發(fā)布版面。網(wǎng)絡(luò)調(diào)查問卷發(fā)布在不同版面,參與填答的人數(shù)也 會(huì)有較大差異。通過電子郵件發(fā)送問卷三第二節(jié) 大數(shù)據(jù):概念、特點(diǎn)與類型大數(shù)據(jù)的概念一二第二節(jié) 大數(shù)據(jù):概念、特點(diǎn)與類型大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)的類型三大數(shù)據(jù)的概念大數(shù)據(jù)(big data或mega data),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時(shí)間內(nèi)達(dá)到截取、管理、處理并整理成為人

12、類所能解讀的形式的信息。與傳統(tǒng)數(shù)據(jù)不同,大數(shù)據(jù)不是通過抽樣調(diào)查所獲取的樣本數(shù)據(jù),而是人類活動(dòng)的實(shí)時(shí)記錄,并大都可以通過互聯(lián)網(wǎng)存儲(chǔ)、獲取、交換和分析,可以克服抽樣調(diào)查帶來的許多隨機(jī)和非隨機(jī)誤差。要確保抽樣調(diào)查的隨機(jī)性,需要建立總體的抽樣框,然而在現(xiàn)實(shí)社會(huì)中絕大多數(shù)情況下很難建立抽樣框,而大數(shù)據(jù)對(duì)于特定的群體所收集的數(shù)據(jù)一般就是該群體的總體數(shù)據(jù)。 一大數(shù)據(jù)的特點(diǎn)數(shù)據(jù)體量巨大(volume)傳統(tǒng)數(shù)據(jù)處理的是以MB為基本單位的數(shù)據(jù)量,大數(shù)據(jù)則常常以GB,甚至是TB、PB為基本處理單位。數(shù)據(jù)種類繁多(variety)傳統(tǒng)數(shù)據(jù)種類單一,且以結(jié)構(gòu)化的數(shù)據(jù)為主,如問卷調(diào)查數(shù)據(jù);而像人口普查這樣的數(shù)據(jù)雖然數(shù)據(jù)量

13、大,但可用變量少。大數(shù)據(jù)種類數(shù)以千計(jì),這些數(shù)據(jù)又包括結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)。二大數(shù)據(jù)的特點(diǎn)流動(dòng)速度快 (velocity)流動(dòng)速度:數(shù)據(jù)的獲取、存儲(chǔ)以及挖掘有效信息的速度,現(xiàn)在處理的數(shù)據(jù)以級(jí)代替了T級(jí),考慮到 “超大規(guī)模數(shù)據(jù)”和 “海量數(shù)據(jù)”也有規(guī)模大的特點(diǎn),強(qiáng)調(diào)數(shù)據(jù)是快速動(dòng)態(tài)變化的,形成流式數(shù)據(jù)是大數(shù)據(jù) 的重要特征,數(shù)據(jù)流動(dòng)的速度快到難以用傳統(tǒng)的系統(tǒng)去處理。價(jià)值密度低 (value)在數(shù)據(jù)量呈指數(shù)增長的同時(shí),隱藏在海量數(shù)據(jù)中的有用信息卻沒有以相應(yīng)比例增長,反而使我們獲取有用信息的難度加大此外,對(duì)于大數(shù)據(jù)的分析將更加復(fù)雜、更追求速度、更注重實(shí)效。二大數(shù)據(jù)的類型按數(shù)據(jù)來源分類交易數(shù)據(jù)

14、。大數(shù)據(jù)平臺(tái)能夠獲取時(shí)間跨度更大、更海量的結(jié)構(gòu)化交易數(shù)據(jù),這樣就可以對(duì)更廣泛的交易數(shù)據(jù)類型進(jìn)行分析,不僅包括POS或電子商務(wù)購物數(shù)據(jù),還包括行為交易數(shù)據(jù)。人為數(shù)據(jù)。非結(jié)構(gòu)數(shù)據(jù)廣泛存在于電子郵件、文檔、圖片、音頻、視頻,以及通過博客、維基,尤其是社交媒體產(chǎn)生的數(shù)據(jù)流中。移動(dòng)數(shù)據(jù)。移動(dòng)數(shù)據(jù)庫是能夠支持移動(dòng)式計(jì)算環(huán)境的數(shù)據(jù)庫。機(jī)器和傳感器數(shù)據(jù)。機(jī)器和傳感器數(shù)據(jù)包括功能設(shè)備創(chuàng)建或生成的數(shù)據(jù),如智能電表、智能溫 度控制器、工廠機(jī)器和連接互聯(lián)網(wǎng)的家用電器。三大數(shù)據(jù)的類型按數(shù)據(jù)形式分類結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),通常是指用關(guān)系數(shù)據(jù)庫方式記錄的數(shù)據(jù),數(shù)據(jù)按表和字段進(jìn)行存儲(chǔ),字段之間相互獨(dú)立。半結(jié)構(gòu)化數(shù)據(jù),是指以自描

15、述的文本方式記錄的數(shù)據(jù),由于自描述數(shù)據(jù)無須滿足關(guān)系數(shù)據(jù)庫中那種非常嚴(yán)格的結(jié)構(gòu)和關(guān)系,在使用過程中非常方便。非結(jié)構(gòu)化數(shù)據(jù),通常指語音、圖片、視頻等格式的數(shù)據(jù)。三第四節(jié) 大數(shù)據(jù):獲取與分析 大數(shù)據(jù)獲取一二第四節(jié) 大數(shù)據(jù):獲取與分析大數(shù)據(jù)分析在大數(shù)據(jù)時(shí)代,數(shù)據(jù)處理流程一般采用多處理階段模型,具體包括:原始數(shù)據(jù) (數(shù)據(jù)選擇 任務(wù)數(shù)據(jù) (數(shù)據(jù)處理) 凈化數(shù)據(jù)(數(shù)據(jù)轉(zhuǎn)換) 事務(wù)數(shù)據(jù) (挖掘提?。?模式(分析評(píng)估) 知識(shí)。三數(shù)據(jù)挖掘和社會(huì)計(jì)算大數(shù)據(jù)獲取數(shù)據(jù)交易2015年4月15日,全國首家大數(shù)據(jù)交易所貴陽大數(shù)據(jù)交易所正式掛牌運(yùn)營并完成首批大數(shù)據(jù)交易。在數(shù)據(jù)交易的模式方面,API接口是目前數(shù)據(jù)交易的一個(gè)常見手

16、段,接口商 (即交易平臺(tái))通過各種方法(購買、合作、抓取等)拿到上游數(shù)據(jù)生產(chǎn)單位的 數(shù)據(jù)資源進(jìn)行融合、清洗(增值),然后形成數(shù)據(jù)接口提供給下游需求用戶。另一種是數(shù)據(jù)包交易,數(shù)據(jù)主要以數(shù)據(jù)包的形態(tài)進(jìn)行交易,就是對(duì)數(shù)據(jù)進(jìn)行清洗、脫敏,最后像實(shí)體商品一樣出售。 數(shù)據(jù)采集目前常用的數(shù)據(jù)抓 取軟件包括Python、R語言(這兩個(gè)軟件均是開源、免費(fèi)的編程語言)。缺乏數(shù)據(jù)抓取技術(shù)的人,可以使用八爪魚、集搜客、火車采集器等網(wǎng)頁數(shù)據(jù) 抓取工具,這些數(shù)據(jù)抓取工具通過簡單的操作就可以采集網(wǎng)絡(luò)文本數(shù)據(jù)。 一大數(shù)據(jù)獲取數(shù)據(jù)開放數(shù)據(jù)開放意味著數(shù)據(jù)可以被任何人自由免費(fèi)地訪問、獲取、利用和分享。2013年,在北愛爾蘭召開的G

17、8會(huì)議簽署了開放數(shù)據(jù)憲章,該憲章將開放數(shù) 據(jù)定義為具備必要的技術(shù)和法律特性,從而能被任何人在任何時(shí)間和任何地點(diǎn)進(jìn)行自由利用、再利用和分發(fā)的電子數(shù)據(jù)。它要求發(fā)布的數(shù)據(jù)不是一般的數(shù)據(jù),而是高價(jià)值的數(shù)據(jù),不僅要有加工過的數(shù)據(jù),還要有源數(shù)據(jù)。開放數(shù)據(jù)需要技術(shù)框架支持,包括開放數(shù)據(jù)管理、開放數(shù)據(jù)技術(shù)和開放數(shù)據(jù)門戶。一大數(shù)據(jù)分析大數(shù)據(jù)分析是根據(jù)相關(guān)業(yè)務(wù)知識(shí),應(yīng)用相應(yīng)技術(shù),如統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘的方法,分析出數(shù)據(jù)中的信息。大數(shù)據(jù)分析有五個(gè)基本方面。 可視化分析對(duì)于數(shù)據(jù)分析專家和普通用戶,數(shù)據(jù)可視化都是對(duì)數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^地展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。數(shù)據(jù)挖掘大數(shù)據(jù)分析的理論核

18、心就是數(shù)據(jù)挖掘算法。各種數(shù)據(jù)挖掘算法基于不同的數(shù)據(jù)類型和格式,才能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn),挖掘出公認(rèn)的價(jià) 值。通常的算法包括集群、分割、孤立點(diǎn)分析等。二大數(shù)據(jù)分析語義引擎語義引擎是利用自然語言處理技術(shù),讓計(jì)算機(jī)具備文字閱讀能力,去分析提煉海量數(shù)據(jù)的工具系統(tǒng)。它能幫助人們從數(shù)據(jù)中智能地提取信息。 數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是指依賴于標(biāo)準(zhǔn)化的流程和有效的工具對(duì)數(shù)據(jù)進(jìn)行處理。 大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。無論是在學(xué)術(shù)研究領(lǐng)域還是在商業(yè)應(yīng)用領(lǐng)域,只有高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,才能保證分析結(jié)果真實(shí)和有價(jià)值。二數(shù)據(jù)挖掘和社會(huì)計(jì)算基于內(nèi)容信息的數(shù)據(jù)挖掘和基于結(jié)構(gòu)信息的社會(huì)計(jì)

19、算,是目前網(wǎng)絡(luò)大數(shù)據(jù) 挖掘和社會(huì)計(jì)算領(lǐng)域的研究熱點(diǎn)。 基于內(nèi)容信息的數(shù)據(jù)挖掘網(wǎng)絡(luò)搜索技術(shù)與實(shí)體關(guān)聯(lián)分析等主要研究內(nèi)容。研究的熱點(diǎn)從傳統(tǒng)的海量數(shù)據(jù)抓取、索引結(jié)構(gòu)優(yōu)化和用戶查詢分析等轉(zhuǎn)移到了排序?qū)W習(xí)算法,專注于提高檢索質(zhì)量。此外,社會(huì)媒體需要關(guān)注數(shù)據(jù)的短文本特征,對(duì)簡短關(guān)鍵詞表達(dá)進(jìn)行深入理解和分析,掌握用戶真實(shí)的查詢意圖。 三數(shù)據(jù)挖掘和社會(huì)計(jì)算基于結(jié)構(gòu)信息的社會(huì)計(jì)算社會(huì)網(wǎng)絡(luò)是以社會(huì)媒體中的用戶為節(jié)點(diǎn)、用戶間的關(guān)系為連邊而構(gòu)建的網(wǎng)絡(luò)。社會(huì)網(wǎng)絡(luò)具有關(guān)系的異質(zhì)性、結(jié)構(gòu)的多尺度性以及網(wǎng)絡(luò)的動(dòng)態(tài)演化性三方面特性。在社會(huì)網(wǎng)絡(luò)中,個(gè)體因血緣關(guān)系或興趣愛好等因素而形成了連接緊密的圈子,這種內(nèi)部關(guān)系緊密而對(duì)外關(guān)系相對(duì)稀疏的結(jié)構(gòu)被稱為社區(qū)。社區(qū)結(jié)構(gòu)的存在對(duì)于網(wǎng)絡(luò)的高效搜索、網(wǎng)絡(luò)演化、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論