第11章 大數(shù)據(jù)調(diào)查法_第1頁
第11章 大數(shù)據(jù)調(diào)查法_第2頁
第11章 大數(shù)據(jù)調(diào)查法_第3頁
第11章 大數(shù)據(jù)調(diào)查法_第4頁
第11章 大數(shù)據(jù)調(diào)查法_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第十一章大數(shù)據(jù)調(diào)查法

第一節(jié)

大數(shù)據(jù)調(diào)查概述

一、大數(shù)據(jù)的概念

大數(shù)據(jù)(Bigdata或Megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。

大數(shù)據(jù)的特征

4V—

體量巨大(Volume);—

種類繁多(Variety);—

流動速度快(Velocity);—

價值密度低(Value)。浩如煙海的大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的比較大數(shù)據(jù)不是通過抽樣調(diào)查所獲取的樣本數(shù)據(jù),通過互聯(lián)網(wǎng)存儲、獲取、交換和分析,克服抽樣調(diào)查數(shù)據(jù)帶來的許多隨機和非隨機誤差。要確保抽樣調(diào)查的隨機性,需要建立總體的抽樣框;大數(shù)據(jù)對于特定的群體所收集的數(shù)據(jù)一般就是該群體的總體數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)的產(chǎn)生過程是“搜集”,設(shè)計問卷后進行調(diào)查,問卷的針對性強,但應(yīng)用范圍受到限制;大數(shù)據(jù)分析重在“挖掘”,客觀數(shù)據(jù)并不為任何一個課題而產(chǎn)生,而是對真實世界的自然記錄,有利于研究者充分發(fā)揮想象力,可供研究的領(lǐng)域沒有邊界。

二、大數(shù)據(jù)的種類

人為數(shù)據(jù)移動數(shù)據(jù)機器和傳感器數(shù)據(jù)交易數(shù)據(jù)大數(shù)據(jù)平臺能夠獲取時間跨度更大、更海量的結(jié)構(gòu)化交易數(shù)據(jù),這樣就可以對更廣泛的交易數(shù)據(jù)類型進行分析,包括POS或電子商務(wù)購物數(shù)據(jù)和行為交易數(shù)據(jù),例如Web服務(wù)器記錄的互聯(lián)網(wǎng)點擊流數(shù)據(jù)日志。非結(jié)構(gòu)數(shù)據(jù)廣泛存在于電子郵件、文檔、圖片、音頻、視頻,以及通過博客、維基,尤其是社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)為使用文本分析功能進行分析提供了豐富的數(shù)據(jù)源泉。移動數(shù)據(jù)庫是能夠支持移動式計算環(huán)境的數(shù)據(jù)庫。隨著能夠上網(wǎng)的智能手機和平板越來越普及,這些移動設(shè)備上的App都能夠追蹤和溝通無數(shù)事件,從App內(nèi)的交易數(shù)據(jù)到個人信息資料或狀態(tài)報告。機器和傳感器數(shù)據(jù)包括功能設(shè)備創(chuàng)建或生成的數(shù)據(jù),例如智能電表、智能溫度控制器、工廠機器和連接互聯(lián)網(wǎng)的家用電器。從數(shù)據(jù)來源和數(shù)據(jù)形式兩個角度看:a.按數(shù)據(jù)來源分類b.按數(shù)據(jù)形式分類結(jié)構(gòu)化數(shù)據(jù),通常是指用關(guān)系數(shù)據(jù)庫方式記錄的數(shù)據(jù),數(shù)據(jù)按表和字段進行存儲,字段之間相互獨立。比如企業(yè)ERP、財務(wù)系統(tǒng),教育一卡通,政府行政審批等。結(jié)構(gòu)化數(shù)據(jù)01半結(jié)構(gòu)化數(shù)據(jù)02半結(jié)構(gòu)化數(shù)據(jù),是指以自描述的文本方式記錄的數(shù)據(jù),自描述數(shù)據(jù)無需滿足關(guān)系數(shù)據(jù)庫上那種非常嚴格的結(jié)構(gòu)和關(guān)系。很多網(wǎng)站和應(yīng)用訪問日志都采用這種格式,網(wǎng)頁本身也是這種格式。非結(jié)構(gòu)化數(shù)據(jù)03非結(jié)構(gòu)化數(shù)據(jù),通常是指語音、圖片、視頻等格式的數(shù)據(jù)。這類數(shù)據(jù)一般按照特定應(yīng)用格式進行編碼,數(shù)據(jù)量非常大,且不能簡單地轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。三、大數(shù)據(jù)調(diào)查法概念及特點

大數(shù)據(jù)調(diào)查法是指調(diào)查者有目的、有計劃地運用計算機和網(wǎng)絡(luò)技術(shù)采集、處理、存儲和分析實時記錄社會現(xiàn)象及其活動而形成的海量數(shù)據(jù)的調(diào)查方法。

大數(shù)據(jù)調(diào)查法的特點:(1)從“大型數(shù)據(jù)”到“大數(shù)據(jù)”。大型數(shù)據(jù)可以拆分成為一系列小型數(shù)據(jù)集合用傳統(tǒng)方法處理。大數(shù)據(jù)則不同,傳統(tǒng)調(diào)查統(tǒng)計方法無法處理,必須使用新的模型、算法及新的計算機集成技術(shù)才能進行有效的采集與處理。大數(shù)據(jù)調(diào)查需要應(yīng)對數(shù)據(jù)的異構(gòu)性和質(zhì)量的不一致性問題。(2)從“隨機抽樣”到“觀察總體”。其他調(diào)查方法往往運用隨機抽樣調(diào)查方法,通過樣本調(diào)查的統(tǒng)計量去推斷總體的參數(shù)值。大數(shù)據(jù)調(diào)查法采集、處理的數(shù)據(jù),一般都不是個別的、局部的,也不是抽樣的,而是對總體信息進行海量的抓取,通過海量數(shù)據(jù)直接觀察總體,所以調(diào)查結(jié)果能更加貼近調(diào)查對象的總體特征,規(guī)避了抽樣調(diào)查推斷總體時經(jīng)常出現(xiàn)的抽樣誤差等問題。(3)從“精確測量”到“總體真實”。其他調(diào)查方法一般要求測量精確,強調(diào)“寧缺勿爛”,因為傳統(tǒng)小數(shù)據(jù)分析的數(shù)據(jù)量本身并不大,任何一個錯誤數(shù)據(jù)都有可能對結(jié)果產(chǎn)生相對較大的負面影響,對錯誤數(shù)據(jù)必須花大精力去清除。大數(shù)據(jù)時代的原則變成了“要效率不要精確”,大數(shù)據(jù)的規(guī)模龐大,數(shù)據(jù)的精確性沒有那么重要。因為海量數(shù)據(jù)可以更好地反映總體的真實,從而大大降低了錯誤信息造成的誤差。(4)從“因果關(guān)系”到“相關(guān)關(guān)系”。其他調(diào)查方法通常把揭示、驗證社會現(xiàn)象之間的“因果關(guān)系”作為目標。大數(shù)據(jù)調(diào)查法通過海量數(shù)據(jù)揭示社會現(xiàn)象之間的相關(guān)關(guān)系,并據(jù)此成功做出預(yù)測。大數(shù)據(jù)調(diào)查法與網(wǎng)絡(luò)調(diào)查法的區(qū)別網(wǎng)絡(luò)調(diào)查雖通過網(wǎng)絡(luò)收集數(shù)據(jù),但其數(shù)據(jù)處理依然沿用傳統(tǒng)方法。而大數(shù)據(jù)調(diào)查法,由于數(shù)據(jù)海量,傳統(tǒng)技術(shù)和方法不可能采集和處理,因而在數(shù)據(jù)采集層面要依賴更高級的網(wǎng)絡(luò)技術(shù),在數(shù)據(jù)處理層面要依賴人們創(chuàng)造出的新算法及更高性能的計算機。大數(shù)據(jù)調(diào)查法是比網(wǎng)絡(luò)調(diào)查法更高一個層次的計算機調(diào)查方法。

第二節(jié)大數(shù)據(jù)調(diào)查的步驟大數(shù)據(jù)調(diào)查法的一般步驟是:甄別與分類數(shù)據(jù);采集與提取數(shù)據(jù);審讀和清理數(shù)據(jù);分析和挖掘數(shù)據(jù);從數(shù)據(jù)到結(jié)論。

一、甄別與分類數(shù)據(jù)(一)數(shù)據(jù)的甄別數(shù)據(jù)的甄別,就是對大數(shù)據(jù)進行研究鑒別,明確調(diào)查課題需要什么樣的大數(shù)據(jù),如何獲得、如何分析這些大數(shù)據(jù)。數(shù)據(jù)的甄別,主要包括以下內(nèi)容:一是,研究鑒別調(diào)查課題與數(shù)據(jù)類型、數(shù)據(jù)規(guī)模的關(guān)系。二是,研究鑒別數(shù)據(jù)的來源和搜集數(shù)據(jù)中可能存在的問題。三是,研究鑒別數(shù)據(jù)存儲、處理和分析中可能存在的問題。(二)數(shù)據(jù)的分類根據(jù)人們活動的類別,可以將目前常用的大數(shù)據(jù)分為以下四類:一是,關(guān)于日常生活的數(shù)據(jù)。二是,關(guān)于主觀態(tài)度的數(shù)據(jù)。三是,關(guān)于交通出行的數(shù)據(jù)。四是,關(guān)于空間分布的數(shù)據(jù)。二、采集與提取數(shù)據(jù)(一)探針采集法探針采集法是一種采集數(shù)據(jù)的物理方法。探針是一種從路由器、交換機上把數(shù)據(jù)采集過來的專有設(shè)備。根據(jù)探針放置的位置不同,可分為內(nèi)置探針和外置探針。此外,還需要Tap/分光器。(二)網(wǎng)頁采集法網(wǎng)頁采集是指從網(wǎng)頁中獲取數(shù)據(jù)。采集互聯(lián)網(wǎng)上的數(shù)據(jù),需要網(wǎng)頁爬蟲技術(shù)(利用編程語言編寫腳本,模擬人的瀏覽行為,自動獲取網(wǎng)頁上的數(shù)據(jù),形成一個網(wǎng)頁備份,作為采集數(shù)據(jù)的載體)。爬蟲系統(tǒng)采集,抓取策略的設(shè)計(如抓取URL隊列設(shè)計,即先抓取哪個頁面,后抓取哪個頁面,等)和硬件設(shè)備水平,往往決定著抓取數(shù)據(jù)的最終質(zhì)量。(三)日志收集法任何一個計算機系統(tǒng),在運行過程中都會產(chǎn)生大量日志文件,其中蘊含著豐富的有價值的信息。大數(shù)據(jù)技術(shù)可以將這些日志文件收集起來加以研究。(四)應(yīng)用程序接口法通常情況下,不同軟件之間都會預(yù)先設(shè)定一個接口(如函數(shù)或HTTP接口),讓使用者可在無需訪問源碼、無需理解內(nèi)部工作機制的情況下,調(diào)用他人可共享的功能或資源。這種設(shè)定,對于獲取數(shù)據(jù)的研究者來說是非常方便的。調(diào)查者通過應(yīng)用程序接口,就能非常方便地采集、提取大量所需的數(shù)據(jù)。(五)數(shù)據(jù)采集軟件收集法在大數(shù)據(jù)調(diào)查過程中,數(shù)據(jù)量會從TB級上升至FB級,甚至EB量級,這是傳統(tǒng)數(shù)據(jù)采集、存儲方式無法完成的。目前,市場上有許多數(shù)據(jù)采集軟件平臺和公司,能夠為社會科學(xué)不同領(lǐng)域的調(diào)查研究者,提供各種個性化的數(shù)據(jù)采集服務(wù)。

三、審讀和清理數(shù)據(jù)(一)判斷數(shù)據(jù)結(jié)構(gòu)審讀數(shù)據(jù),首先要判斷數(shù)據(jù)的結(jié)構(gòu)。按照結(jié)構(gòu)化程度,數(shù)據(jù)可分為三類:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(1)結(jié)構(gòu)化數(shù)據(jù),是指按表格、問卷方式記錄的數(shù)據(jù)。它的每個字段都有固定語義和長度規(guī)范,并通過關(guān)系型數(shù)據(jù)庫存儲和管理。例如,企業(yè)管理系統(tǒng)、醫(yī)療信息系統(tǒng)、教育一卡通、行政審批數(shù)據(jù)庫里的數(shù)據(jù)。(2)半結(jié)構(gòu)化數(shù)據(jù),是指有一定結(jié)構(gòu),但結(jié)構(gòu)不固定、不容易模式化的數(shù)據(jù)。例如,訪談記錄、日志文件、XML(制作網(wǎng)頁等用的文本結(jié)構(gòu)標記系統(tǒng))等。其內(nèi)容大都用文字記錄,沒有嚴格的結(jié)構(gòu)和關(guān)系,無法直接錄入數(shù)據(jù)庫。(3)非結(jié)構(gòu)化數(shù)據(jù),是指結(jié)構(gòu)不規(guī)則、不完整,不能用規(guī)范格式記錄的數(shù)據(jù)。例如,語音、圖片、視頻等格式的數(shù)據(jù)。這類數(shù)據(jù)一般按照特定應(yīng)用格式編碼,數(shù)據(jù)量非常大,而且不能簡單轉(zhuǎn)換成為結(jié)構(gòu)化數(shù)據(jù)。(二)數(shù)據(jù)結(jié)構(gòu)化過程在分析和挖掘數(shù)據(jù)之前,必須對采集、提取的數(shù)據(jù)進行審讀和清理,即將半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為成結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)化過程,主要有三個環(huán)節(jié):(1)數(shù)據(jù)集成,就是對不同來源、不同結(jié)構(gòu)的數(shù)據(jù),通過審讀、調(diào)整、翻譯和創(chuàng)建等方法,融合、集成為統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)。對結(jié)構(gòu)化過程前后的數(shù)據(jù),應(yīng)建立一定的對應(yīng)關(guān)系,以便在后續(xù)程序中訪問和操作,使結(jié)構(gòu)化過程成為可追溯的過程。此外,數(shù)據(jù)集成還應(yīng)處理隱私問題,努力避免在集成數(shù)據(jù)中泄露某些隱私信息。(2)數(shù)據(jù)準備,就是將融合、集成為統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù),轉(zhuǎn)換成為符合分析和挖掘技術(shù)所要求的格式數(shù)據(jù),為計算機讀取和操作做好準備。例如,使用自然語義處理技術(shù),進行文本分類、情感分析和意圖識別,挖掘出許多有定性價值的材料;或通過圖像識別技術(shù),處理各種圖片、視頻數(shù)據(jù)。(3)數(shù)據(jù)檢驗,就是通過清理形成一份“干凈整齊”的數(shù)據(jù)后,通常還應(yīng)做一些探索性檢驗。通過檢驗,進一步發(fā)現(xiàn)數(shù)據(jù)中可能的重復(fù)值、缺損值,甚至奇異值。這些數(shù)據(jù),通常沒有記錄,或被錯誤記錄。如果出現(xiàn)這種情況,就得回過頭去,采集更多數(shù)據(jù),或花更多時間清理數(shù)據(jù)。這就是說,審讀和清理數(shù)據(jù)并非是一次完成的,清理辦法并非是一次確定的,往往需要不斷檢查、不斷改變清理策略,才能逐步完成。四、分析和挖掘數(shù)據(jù)(一)“分類”分類,就是根據(jù)某些規(guī)則或?qū)傩詫⒂^察結(jié)果劃分為預(yù)定義組的方法。其中,決策樹、支持向量機和樸素貝葉斯分類器都是相對成熟的分類算法。(二)“聚類”聚類,是一種將相似或相關(guān)數(shù)據(jù)聚集在一起、實現(xiàn)“組內(nèi)相似,組間不同”的分析方法?;诖髷?shù)據(jù)的聚類方法,主要用于獲取不同類別的數(shù)據(jù),而不特別關(guān)注所獲取類別數(shù)據(jù)的意義。聚類技術(shù)用于區(qū)分“無標簽”數(shù)據(jù)比較有優(yōu)勢。(三)“回歸”回歸,是一種確定兩個或兩個以上變量之間相互關(guān)系的分析方法。其中,線性回歸和邏輯回歸是使用最廣泛的兩種算法?;貧w分析法,主要用于事物之間因果關(guān)系的分析和預(yù)測,具有降維、信息提取、估計和預(yù)測等功能。(四)“關(guān)聯(lián)規(guī)則分析”關(guān)聯(lián)規(guī)則分析,是一種用于發(fā)現(xiàn)事物間相關(guān)性或相互依賴性的方法。其中,“Apriori”和“灰色關(guān)聯(lián)”是兩種廣泛使用的算法。關(guān)聯(lián)規(guī)則分析法,可基于某些事件的發(fā)生推測其他事件的出現(xiàn),并確定事物之間的影響程度,發(fā)現(xiàn)有價值的數(shù)據(jù)項之間的相關(guān)性,也可以用于分析遙感數(shù)據(jù)、社交媒體數(shù)據(jù),研究城市擴張與城市活力之間的關(guān)系,等等。(五)“社交網(wǎng)絡(luò)分析”社交網(wǎng)絡(luò)分析,是一種用來查看節(jié)點、連接邊之間社會關(guān)系的一種分析方法。節(jié)點是社交網(wǎng)絡(luò)里的每個參與者,連接邊則表示參與者之間的關(guān)系。節(jié)點之間可以有很多種連接。社交網(wǎng)絡(luò)是一張地圖,可以標示出所有與節(jié)點間相關(guān)的連接邊。五、從數(shù)據(jù)到結(jié)論數(shù)據(jù)不可能自動形成結(jié)論。調(diào)查者只有在分析和挖掘數(shù)據(jù)的基礎(chǔ)上,以唯物史觀基本原理為指導(dǎo),進行去粗取精、去偽存真、由此及彼、由表及里的思維加工,才能做出結(jié)論。這就是說,大數(shù)據(jù)調(diào)查法的實施,既要重視各種數(shù)據(jù)采集、分析技術(shù)和算法的應(yīng)用,又要重視唯物史觀基本原理的指導(dǎo),并努力把二者有機結(jié)合起來。只有如此,才能科學(xué)驗證現(xiàn)有理論,或提出新的科學(xué)理論。第三節(jié)

大數(shù)據(jù)調(diào)查的技術(shù)和工具

一、數(shù)據(jù)挖掘和機器學(xué)習(xí)(一)數(shù)據(jù)挖掘大數(shù)據(jù)方法或者說大數(shù)據(jù)分析技術(shù)的核心是“數(shù)據(jù)挖掘”(datemining)。數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中,提取能揭示有意義的潛在規(guī)律和人們感興趣的知識的處理過程。因此,數(shù)據(jù)挖掘又被稱為“爬梳”或KDD(KnowledgeDiscoverinDatabase)。1.基于內(nèi)容信息的數(shù)據(jù)挖掘語言是社會媒體最重要的表現(xiàn)形式,文本是社會媒體中用戶表達信息的最重要的方式?;趦?nèi)容信息的數(shù)據(jù)挖掘包括網(wǎng)絡(luò)搜索技術(shù)與實體關(guān)聯(lián)分析等主要研究內(nèi)容。社會媒體的出現(xiàn)為互聯(lián)網(wǎng)信息搜索提出了新的挑戰(zhàn),研究的熱點從傳統(tǒng)的海量數(shù)據(jù)抓取、索引結(jié)構(gòu)優(yōu)化和用戶查詢分析等轉(zhuǎn)移到了排序?qū)W習(xí)算法,專注于提高檢索質(zhì)量。此外,社會媒體需要關(guān)注數(shù)據(jù)的短文本特征、對簡短關(guān)鍵詞表達的深入理解和分析,掌握用戶真實的查詢意圖。2.基于結(jié)構(gòu)信息的社會計算社會網(wǎng)絡(luò)是以社會媒體中的用戶為節(jié)點、用戶間的關(guān)系為連邊而構(gòu)建的網(wǎng)絡(luò)。它既是用戶間社會關(guān)系的反映,也是用戶間進行信息交互的載體。社會網(wǎng)絡(luò)具有關(guān)系的異質(zhì)性、結(jié)構(gòu)的多尺度性以及網(wǎng)絡(luò)的動態(tài)演化性三方面特性。在社會網(wǎng)絡(luò)中,個體因血緣關(guān)系或興趣愛好等因素而形成了連接緊密的圈子,這種內(nèi)部關(guān)系緊密而對外關(guān)系相對稀疏的結(jié)構(gòu)被稱為社區(qū)。社區(qū)結(jié)構(gòu)是社會網(wǎng)絡(luò)所普遍具有的結(jié)構(gòu)特征,社區(qū)結(jié)構(gòu)的存在對于網(wǎng)絡(luò)的高效搜索、網(wǎng)絡(luò)演化、信息擴散等具有重要意義。針對社區(qū)結(jié)構(gòu)的研究可分為社區(qū)發(fā)現(xiàn)、社區(qū)結(jié)構(gòu)演化等方面。(二)機器學(xué)習(xí)機器學(xué)習(xí),是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。簡單地說,機器學(xué)習(xí)就是讓計算機根據(jù)歷史數(shù)據(jù)自己去學(xué)習(xí),以適應(yīng)新的環(huán)境,模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計算機具有智能的根本途徑。目前,熱門的“神經(jīng)網(wǎng)絡(luò)”和“深度學(xué)習(xí)”,都屬于“機器學(xué)習(xí)”范疇。

二、大數(shù)據(jù)調(diào)查的常用工具(一)入門級工具(1)Excel。它是許多學(xué)者比較熟悉的數(shù)據(jù)處理軟件,一般辦公系統(tǒng)中都備有這款軟件。它容易上手,資源豐富,可以完成一些簡單的建模、可視化、圖表等工作,可做一些簡單的方差分析和回歸分析。(2)R軟件。這是統(tǒng)計分析和大數(shù)據(jù)分析中使用較多的一款軟件,功能上能滿足相當部分大數(shù)據(jù)調(diào)查需求。(3)Python。這是一款需要編程的數(shù)據(jù)分析工具。與R軟件一樣,它也是免費開源的。有一些常用的庫,如BeautifulSoup、Scrapy等,可以幫助用戶更快速、高效地采集網(wǎng)頁數(shù)據(jù)。不同的是,R是專門用于數(shù)據(jù)分析的軟件,而Python除數(shù)據(jù)分析外,還可用于計算機領(lǐng)域,比如web頁面開發(fā)、系統(tǒng)后端開發(fā)等。它在大數(shù)據(jù)管理中可以起非常重要的作用。(二)高級工具(1)Hadoop。這是一套公認的大數(shù)據(jù)標準開源軟件。Hadoop框架最核心的設(shè)計是:HDFS和MapReduce,能夠處理PB級數(shù)據(jù),從而為Hadoop提供了海量數(shù)據(jù)的存儲和計算功能,而且對硬件的要求不高。與只作為一種編程語言存在的Python不同,Hadoop是真正意義上的大數(shù)據(jù)處理軟件。(2)RapidMiner。這是主要用于數(shù)據(jù)挖掘的工具。它的最大好處是無需編程,從而避免了大量的編程工作。調(diào)研者可用RapidMiner連接其中算子形成數(shù)據(jù)處理流程,實現(xiàn)對大數(shù)據(jù)文件的挖掘,并獲得對挖掘流程的理解。(3)Storm。這是一個免費開源、分布式、高容錯的實時計算系統(tǒng),它是基于hadoop研發(fā)的。可以使持續(xù)不斷的計算變得容易,彌補了Hadoop不擅長實時計算的缺陷。所以,在大數(shù)據(jù)處理中,Storm經(jīng)常被用于實時分析、在線機器學(xué)習(xí)、持續(xù)計算、分布式遠程調(diào)用等領(lǐng)域。第四節(jié)

大數(shù)據(jù)調(diào)查的關(guān)鍵問題

一、技術(shù)依賴性問題大數(shù)據(jù)調(diào)查法從甄別、獲取、采集、提取、清理、分析、挖掘,直至得出調(diào)查結(jié)論,都高度依賴于軟件和計算機技術(shù)。采集、處理的數(shù)據(jù)盡管是具有很大客觀性、真實性、可靠性的自在數(shù)據(jù),但卻是非實體性的存在。研究者依賴的是計算機和軟件,缺乏實際的調(diào)查體驗,如同文獻調(diào)查、遺存調(diào)查、網(wǎng)絡(luò)調(diào)查等間接調(diào)查方法一樣。這一特征雖然可以有效避免“價值有涉”的問題,但也會降低調(diào)查者對社會現(xiàn)象和社會問題的認知程度。自然語言的細微和豐富可以提供有價值的深度。然而,機器分析算法期望同構(gòu)數(shù)據(jù),并且不能理解細微差別。因此,數(shù)據(jù)分析時必須在數(shù)據(jù)分析之前(或在分析的第一步)仔細地將數(shù)據(jù)結(jié)構(gòu)化。即使在數(shù)據(jù)清理和糾錯之后,數(shù)據(jù)中的一些不完整性和一些錯誤也可能保留下來。數(shù)據(jù)分析期間必須管理這些不完整性和這些錯誤。同時,依賴技術(shù)獲取的大數(shù)據(jù),往往難以分清與目標總體間的差異。從理論上看,作為“全體數(shù)據(jù)”的大數(shù)據(jù)可以徹底消除隨機性抽樣誤差,如果綜合考慮系統(tǒng)性抽樣偏差,特別是覆蓋偏差,那么大數(shù)據(jù)在代表性上可能存疑,誤差問題比傳統(tǒng)抽樣調(diào)查更復(fù)雜,也更隱蔽。大數(shù)據(jù)的數(shù)據(jù)量極大,這使得研究者可以使用大數(shù)據(jù)進行非常精細的事后分層并基于事后分層對原始計算結(jié)果進行統(tǒng)計調(diào)整。二、大數(shù)據(jù)調(diào)查的多學(xué)科配合問題大數(shù)據(jù)調(diào)查一般都要涉及到廣闊的調(diào)查空間,眾多的調(diào)查對象,海量的調(diào)查數(shù)據(jù),多方面的調(diào)研資料,要使用多學(xué)科的調(diào)研方法和技術(shù),其工作量往往十分巨大,并有一定的時間要求,單靠個別調(diào)研人員是很難完成的。一般地說,大數(shù)據(jù)調(diào)查課題,都應(yīng)該組建一個多學(xué)科合作的、有一定規(guī)模的團隊來承擔。一個理想的大數(shù)據(jù)調(diào)查團隊,至少應(yīng)該由四類學(xué)科的學(xué)者和一個核心組成。四類學(xué)科的學(xué)者是,社會學(xué)學(xué)者、計算機學(xué)學(xué)者、統(tǒng)計學(xué)學(xué)者和社會調(diào)查學(xué)學(xué)者;團隊的核心應(yīng)該是一個具有跨學(xué)科知識背景的人才,不僅需要熟悉馬克思主義哲學(xué)和社會學(xué)理論,還應(yīng)當了解計算機軟件工程和統(tǒng)計學(xué)知識,且具有豐富社會調(diào)查學(xué)知識和實踐經(jīng)驗,并善于組織協(xié)調(diào)的具有綜合素質(zhì)的研究者。此外,若希望能夠更好的完成大數(shù)據(jù)調(diào)查,團隊最好與具有物理學(xué)、電子信息專業(yè)背景的電子數(shù)據(jù)取證分析師進行合作,即從事電子數(shù)據(jù)的收集提取、數(shù)據(jù)恢復(fù)及取證分析的人員,其任務(wù)是:(1)針對各類電子數(shù)據(jù)的現(xiàn)場及在線提取固定;(2)分析基于物理修復(fù)或數(shù)據(jù)特征等的電子數(shù)據(jù)恢復(fù)技術(shù);(3)提取分析不同介質(zhì)和智能終端電子數(shù)據(jù);(4)提取分析服務(wù)器、數(shù)據(jù)庫及公有云電子數(shù)據(jù);(5)提取分析物聯(lián)網(wǎng)、工程控制系統(tǒng)電子數(shù)據(jù);(6)設(shè)計建立電子數(shù)據(jù)取證可視化分析模型;(7)分析計算機及其他智能終端應(yīng)用程序功能。三、隱私與信息安全問題互聯(lián)網(wǎng)的發(fā)展使數(shù)據(jù)更加容易產(chǎn)生和傳播,數(shù)據(jù)隱私問題越來越嚴重。一是隱性的數(shù)據(jù)暴露?;ヂ?lián)網(wǎng),尤其是社交網(wǎng)絡(luò)的出現(xiàn),使得人們在不同的地點產(chǎn)生越來越多的數(shù)據(jù)足跡。如果有辦法將某個人的很多行為從不同的獨立地點聚集在一起,他的隱私就很可能會暴露。二是數(shù)據(jù)公開與隱私保護的矛盾。如果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論