社會調(diào)查教程(第八版) 知識點、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第1頁
社會調(diào)查教程(第八版) 知識點、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第2頁
社會調(diào)查教程(第八版) 知識點、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第3頁
社會調(diào)查教程(第八版) 知識點、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第4頁
社會調(diào)查教程(第八版) 知識點、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第十一章大數(shù)據(jù)調(diào)查法一、知識點與關(guān)鍵詞解釋1.大數(shù)據(jù)大數(shù)據(jù)(bigdata或megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。西方學(xué)界一般從五個維度來描述大數(shù)據(jù)的特征:“體量”(Volume),“速度”(Velocity),“多樣性”(Variety),“準(zhǔn)確性”(Veracity)和“價值”(Value),統(tǒng)稱為5V。2.大數(shù)據(jù)調(diào)查法大數(shù)據(jù)調(diào)查法是指調(diào)查者有目的、有計劃地運用計算機和網(wǎng)絡(luò)技術(shù)采集、處理、存儲和分析實時記錄社會現(xiàn)象及其活動而形成的海量數(shù)據(jù)的調(diào)查方法。3.?dāng)?shù)據(jù)挖掘大數(shù)據(jù)方法或者說大數(shù)據(jù)分析技術(shù)的核心是“數(shù)據(jù)挖掘”(datemining)。數(shù)據(jù)挖掘,又稱為“爬梳”或KDD(KnowledgeDiscoverinDatabase),就是從海量數(shù)據(jù)中,提取能揭示有意義的潛在規(guī)律和人們感興趣的知識的處理過程。數(shù)據(jù)挖掘要實現(xiàn)自行采集大數(shù)據(jù),通常需要掌握專業(yè)數(shù)據(jù)抓取技術(shù)。大數(shù)據(jù)挖掘主要分為基于內(nèi)容信息的數(shù)據(jù)挖掘和基于結(jié)構(gòu)信息的社會計算。4.機器學(xué)習(xí)機器學(xué)習(xí),是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"逼近論、\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"凸分析、\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"算法復(fù)雜度理論等多門學(xué)科。簡單地說,機器學(xué)習(xí)就是讓計算機根據(jù)歷史數(shù)據(jù)自己去學(xué)習(xí),以適應(yīng)新的環(huán)境,模擬或?qū)崿F(xiàn)人類的\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"人工智能的核心,是使計算機具有智能的根本途徑。5.結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),通常是指用關(guān)系數(shù)據(jù)庫方式記錄的數(shù)據(jù),數(shù)據(jù)按表和字段進(jìn)行存儲,字段之間相互獨立。比如企業(yè)ERP、財務(wù)系統(tǒng),醫(yī)療HIS數(shù)據(jù)庫,教育一卡通,政府行政審批,其他核心數(shù)據(jù)庫,等等。6.半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù),是指以自描述的文本方式記錄的數(shù)據(jù),由于自描述數(shù)據(jù)無須滿足關(guān)系數(shù)據(jù)庫中那種非常嚴(yán)格的結(jié)構(gòu)和關(guān)系,在使用過程中非常方便。很多網(wǎng)站和應(yīng)用訪問日志采用了這種格式,網(wǎng)頁本身也是這種格式。課后習(xí)題詳解1.什么是大數(shù)據(jù),它有何特點?大數(shù)據(jù)(bigdata或megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。西方學(xué)界一般從五個維度來描述大數(shù)據(jù)的特征:“體量”(Volume),“速度”(Velocity),“多樣性”(Variety),“準(zhǔn)確性”(Veracity)和“價值”(Value),統(tǒng)稱為5V。與傳統(tǒng)數(shù)據(jù)不同,大數(shù)據(jù)不是通過抽樣調(diào)查所獲取的樣本數(shù)據(jù),而是人類活動的實時記錄,并大都可以通過互聯(lián)網(wǎng)存儲、獲取、交換和分析,這些數(shù)據(jù)可以克服抽樣調(diào)查數(shù)據(jù)帶來的許多隨機和非隨機誤差。2.簡述大數(shù)據(jù)調(diào)查法及其特點。大數(shù)據(jù)調(diào)查法是指調(diào)查者有目的、有計劃地運用計算機和網(wǎng)絡(luò)技術(shù)采集、處理、存儲和分析實時記錄社會現(xiàn)象及其活動而形成的海量數(shù)據(jù)的調(diào)查方法。與其他調(diào)查方法相比較,大數(shù)據(jù)調(diào)查法的特點是:(1)從“大型數(shù)據(jù)”到“大數(shù)據(jù)”。大數(shù)據(jù)則必須使用新的模型、算法及新的計算機集成技術(shù)才能進(jìn)行有效的采集與處理。大數(shù)據(jù)調(diào)查需要應(yīng)對數(shù)據(jù)的異構(gòu)性和質(zhì)量的不一致性問題。數(shù)據(jù)的異構(gòu)性主要表現(xiàn)為:一是數(shù)據(jù)類型從以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三者的融合;二是數(shù)據(jù)產(chǎn)生方式的多樣性帶來了數(shù)據(jù)源變化,移動終端數(shù)據(jù)帶有明顯的時空特性;三是數(shù)據(jù)存儲方式的變化,要求在集成的過程中進(jìn)行數(shù)據(jù)轉(zhuǎn)換,而這種轉(zhuǎn)換的過程是非常復(fù)雜和難以管理的。質(zhì)量的不一致性,是指數(shù)據(jù)量大不等同信息量增大或者數(shù)據(jù)價值提高,相反很多時候意味著信息垃圾的泛濫,使得數(shù)據(jù)清洗過程更加復(fù)雜。(2)從“隨機抽樣”到“觀察總體”。大數(shù)據(jù)調(diào)查法采集、處理的數(shù)據(jù),一般都不是個別的、局部的,也不是抽樣的,而是對總體信息進(jìn)行海量的抓取,通過海量數(shù)據(jù)直接觀察總體,所以調(diào)查結(jié)果能更加貼近調(diào)查對象的總體特征,規(guī)避了抽樣調(diào)查推斷總體時經(jīng)常出現(xiàn)的抽樣誤差等問題。(3)從“精確測量”到“總體真實”。大數(shù)據(jù)時代的原則變成了“要效率不要精確”,并不是說精確不好,而是因為在大數(shù)據(jù)時代就單個數(shù)據(jù)來說很難做到精確。以調(diào)查媒體用戶信息為例,調(diào)查獲取數(shù)據(jù)的類型繁多,有各種網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等,但很難獲取一個用戶的完整信息,其中還可能有用戶有意無意填寫的錯誤信息。如果繼續(xù)把排除錯誤數(shù)據(jù)作為重要工作,大數(shù)據(jù)分析就無法進(jìn)行。況且大數(shù)據(jù)的規(guī)模龐大,數(shù)據(jù)的精確性沒有那么重要。因為海量數(shù)據(jù)可以更好地反映總體的真實,從而大大降低了錯誤信息造成的誤差。(4)從“因果關(guān)系”到“相關(guān)關(guān)系”。大數(shù)據(jù)調(diào)查法無法揭示或驗證“因果關(guān)系”,但卻可以通過海量數(shù)據(jù)揭示社會現(xiàn)象之間的相關(guān)關(guān)系,并據(jù)此成功做出預(yù)測。3.大數(shù)據(jù)調(diào)查法的一般步驟和方法是什么?大數(shù)據(jù)調(diào)查法的一般步驟是:甄別與分類數(shù)據(jù);采集與提取數(shù)據(jù);審讀和清理數(shù)據(jù);分析和挖掘數(shù)據(jù);從數(shù)據(jù)到結(jié)論。一是甄別與分類數(shù)據(jù)。大數(shù)據(jù)調(diào)查要從甄別與提取數(shù)據(jù)開始。數(shù)據(jù)的甄別,就是對大數(shù)據(jù)進(jìn)行研究鑒別,明確調(diào)查課題需要什么樣的大數(shù)據(jù),如何獲得、如何分析這些大數(shù)據(jù)。數(shù)據(jù)的甄別。數(shù)據(jù)的分類,是根據(jù)人們活動的類別,將目前常用的大數(shù)據(jù)分為四類:關(guān)于日常生活的數(shù)據(jù)、關(guān)于主觀態(tài)度的數(shù)據(jù)、關(guān)于交通出行的數(shù)據(jù)和關(guān)于空間分布的數(shù)據(jù)。二是采集與提取數(shù)據(jù)。常用的采集與提取技術(shù)主要有:(1)探針采集法。探針采集法是一種采集數(shù)據(jù)的物理方法。人們?nèi)粘4螂娫?、手機上網(wǎng)時的數(shù)據(jù)交換,是由路由器、交換機等設(shè)備承載的。探針是一種從路由器、交換機上把數(shù)據(jù)采集過來的專有設(shè)備。(2)網(wǎng)頁采集法。網(wǎng)頁采集是指從網(wǎng)頁中獲取數(shù)據(jù)?;ヂ?lián)網(wǎng)上有大量散落的數(shù)據(jù)。采集互聯(lián)網(wǎng)上的數(shù)據(jù),必須把數(shù)據(jù)從網(wǎng)絡(luò)中截取下來,這就需要網(wǎng)頁爬蟲技術(shù)。爬蟲技術(shù),就是利用編程語言編寫腳本,模擬人的瀏覽行為,自動獲取網(wǎng)頁上的數(shù)據(jù),形成一個網(wǎng)頁備份,作為采集數(shù)據(jù)的載體。(3)日志收集法。任何一個計算機系統(tǒng),在運行過程中都會產(chǎn)生大量日志文件,其中蘊含著非常豐富的有價值的信息。如果不加以利用,這些日志文件經(jīng)過一段時間就會被清理、消失。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和成熟,大數(shù)據(jù)技術(shù)可以將這些日志文件收集起來加以研究。(4)應(yīng)用程序接口法。通常情況下,不同軟件之間都會預(yù)先設(shè)定一個接口(如函數(shù)或HTTP接口),讓使用者可在無需訪問源碼、無需理解內(nèi)部工作機制的情況下,調(diào)用他人可共享的功能或資源。調(diào)查者通過這些應(yīng)用程序接口,就能非常方便地采集、提取大量所需的數(shù)據(jù)。(5)數(shù)據(jù)采集軟件收集法。市場上有許多數(shù)據(jù)采集軟件平臺和公司,能夠為社會科學(xué)不同領(lǐng)域的調(diào)查研究者,提供各種個性化的數(shù)據(jù)采集服務(wù)。三是審讀和清理數(shù)據(jù)。(1)判斷數(shù)據(jù)結(jié)構(gòu)。審讀數(shù)據(jù),首先要判斷數(shù)據(jù)的結(jié)構(gòu)。按照結(jié)構(gòu)化程度,數(shù)據(jù)可分為三類:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(2)數(shù)據(jù)結(jié)構(gòu)化過程。分析和挖掘數(shù)據(jù),必須按照結(jié)構(gòu)化數(shù)據(jù)實施。因此,在分析和挖掘數(shù)據(jù)之前,必須對采集、提取的數(shù)據(jù)進(jìn)行審讀和清理,即將半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為成結(jié)構(gòu)化數(shù)據(jù)。這就是說,審讀和清理數(shù)據(jù)的過程,就是數(shù)據(jù)的結(jié)構(gòu)化過程。四是分析和挖掘數(shù)據(jù)。大數(shù)據(jù)分析和挖掘主要有五種方法:分類,聚類,回歸,關(guān)聯(lián)規(guī)則分析和社交網(wǎng)絡(luò)分析。(1)“分類”,就是根據(jù)某些規(guī)則或?qū)傩詫⒂^察結(jié)果劃分為預(yù)定義組的方法。(2)“聚類”,是一種將相似或相關(guān)數(shù)據(jù)聚集在一起、實現(xiàn)“組內(nèi)相似,組間不同”的分析方法。(3)“回歸”,是一種確定兩個或兩個以上變量之間相互關(guān)系的分析方法。(4)“關(guān)聯(lián)規(guī)則分析”,是一種用于發(fā)現(xiàn)事物間相關(guān)性或相互依賴性的方法。(5)“社交網(wǎng)絡(luò)分析”,是一種用來查看節(jié)點、連接邊之間社會關(guān)系的一種分析方法。五是從數(shù)據(jù)到結(jié)論。大數(shù)據(jù)調(diào)查法的實施,既要重視各種數(shù)據(jù)采集、分析技術(shù)和算法的應(yīng)用,又要重視唯物史觀基本原理的指導(dǎo),并努力把二者有機結(jié)合起來。只有如此,才能科學(xué)驗證現(xiàn)有理論,或提出新的科學(xué)理論。4.簡述大數(shù)據(jù)采集與提取的主要技術(shù)。大數(shù)據(jù)分析和挖掘主要有五種方法:分類,聚類,回歸,關(guān)聯(lián)規(guī)則分析和社交網(wǎng)絡(luò)分析。(1)“分類”,就是根據(jù)某些規(guī)則或?qū)傩詫⒂^察結(jié)果劃分為預(yù)定義組的方法。其中,決策樹、支持向量機和樸素貝葉斯分類器都是相對成熟的分類算法。以城市研究為例,通過分析城市基礎(chǔ)設(shè)施和文本數(shù)據(jù),量化城市基礎(chǔ)設(shè)施模式、提取不同類型城市的土地利用率,就可有效預(yù)測城市的發(fā)展?fàn)顟B(tài)和趨勢。(2)“聚類”,是一種將相似或相關(guān)數(shù)據(jù)聚集在一起、實現(xiàn)“組內(nèi)相似,組間不同”的分析方法?;诖髷?shù)據(jù)的聚類方法,主要用于獲取不同類別的數(shù)據(jù),而不特別關(guān)注所獲取類別數(shù)據(jù)的意義。聚類技術(shù)用于區(qū)分“無標(biāo)簽”數(shù)據(jù)比較有優(yōu)勢。例如,在分析蜂窩網(wǎng)絡(luò)數(shù)據(jù)和車輛GPS數(shù)據(jù)時,可以使用聚類分析法,以此發(fā)現(xiàn)不同時間的人口分布模式和乘客出行模式,為制定公共交通網(wǎng)絡(luò)規(guī)劃提供基礎(chǔ)。(3)“回歸”,是一種確定兩個或兩個以上變量之間相互關(guān)系的分析方法。其中,線性回歸和邏輯回歸是使用最廣泛的兩種算法。回歸分析法,主要用于事物之間因果關(guān)系的分析和預(yù)測,具有降維、信息提取、估計和預(yù)測等功能。例如,運用回歸分析方法,可以根據(jù)居住環(huán)境與居民健康的數(shù)據(jù),確定居民疾病與環(huán)境的關(guān)系;可以根據(jù)居住環(huán)境與房地產(chǎn)的數(shù)據(jù),弄清居住環(huán)境與房價的關(guān)系,等等。(4)“關(guān)聯(lián)規(guī)則分析”,關(guān)聯(lián)規(guī)則分析,是一種用于發(fā)現(xiàn)事物間相關(guān)性或相互依賴性的方法。其中,“Apriori”和“灰色關(guān)聯(lián)”是兩種廣泛使用的算法。關(guān)聯(lián)規(guī)則分析法,可基于某些事件的發(fā)生推測其他事件的出現(xiàn),并確定事物之間的影響程度,發(fā)現(xiàn)有價值的數(shù)據(jù)項之間的相關(guān)性,也可以用于分析遙感數(shù)據(jù)、社交媒體數(shù)據(jù),研究城市擴張與城市活力之間的關(guān)系,等等。(5)“社交網(wǎng)絡(luò)分析”,是一種用來查看節(jié)點、連接邊之間社會關(guān)系的一種分析方法。節(jié)點是社交網(wǎng)絡(luò)里的每個參與者,連接邊則表示參與者之間的關(guān)系。節(jié)點之間可以有很多種連接。社交網(wǎng)絡(luò)是一張地圖,可以標(biāo)示出所有與節(jié)點間相關(guān)的連接邊。隨著社交媒體的發(fā)展,該方法已成為一種相當(dāng)流行、新穎的大數(shù)據(jù)分析方法,已廣泛應(yīng)用于分析人與人之間、人與物之間、物與物之間的關(guān)系。比如,分析人口流動和物資流動的方向、強度等關(guān)系。5.大數(shù)據(jù)分析和挖掘有哪些方法?大數(shù)據(jù)方法或者說大數(shù)據(jù)分析技術(shù)的核心是“數(shù)據(jù)挖掘”(datemining)。數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中,提取能揭示有意義的潛在規(guī)律和人們感興趣的知識的處理過程。因此,數(shù)據(jù)挖掘又被稱為“爬梳”或KDD(KnowledgeDiscoverinDatabase)。要實現(xiàn)自行采集大數(shù)據(jù),通常需要掌握專業(yè)數(shù)據(jù)抓取技術(shù)。大數(shù)據(jù)挖掘主要分為基于內(nèi)容信息的數(shù)據(jù)挖掘和基于結(jié)構(gòu)信息的社會計算。(1)基于內(nèi)容信息的數(shù)據(jù)挖掘。語言是社會媒體最重要的表現(xiàn)形式,文本是社會媒體中用戶表達(dá)信息的最重要的方式?;趦?nèi)容信息的數(shù)據(jù)挖掘包括網(wǎng)絡(luò)搜索技術(shù)與實體關(guān)聯(lián)分析等主要研究內(nèi)容。社會媒體的出現(xiàn)為互聯(lián)網(wǎng)信息搜索提出了新的挑戰(zhàn),研究的熱點從傳統(tǒng)的海量數(shù)據(jù)抓取、索引結(jié)構(gòu)優(yōu)化和用戶查詢分析等轉(zhuǎn)移到了排序?qū)W習(xí)算法,專注于提高檢索質(zhì)量。此外,社會媒體需要關(guān)注數(shù)據(jù)的短文本特征、對簡短關(guān)鍵詞表達(dá)的深入理解和分析,掌握用戶真實的查詢意圖。(2)基于結(jié)構(gòu)信息的社會計算。社會網(wǎng)絡(luò)是以社會媒體中的用戶為節(jié)點、用戶間的關(guān)系為連邊而構(gòu)建的網(wǎng)絡(luò)。它既是用戶間社會關(guān)系的反映,也是用戶間進(jìn)行信息交互的載體。社會網(wǎng)絡(luò)具有關(guān)系的異質(zhì)性、結(jié)構(gòu)的多尺度性以及網(wǎng)絡(luò)的動態(tài)演化性三方面特性。在社會網(wǎng)絡(luò)中,個體因血緣關(guān)系或興趣愛好等因素而形成了連接緊密的圈子,這種內(nèi)部關(guān)系緊密而對外關(guān)系相對稀疏的結(jié)構(gòu)被稱為社區(qū)。社區(qū)結(jié)構(gòu)是社會網(wǎng)絡(luò)所普遍具有的結(jié)構(gòu)特征,社區(qū)結(jié)構(gòu)的存在對于網(wǎng)絡(luò)的高效搜索、網(wǎng)絡(luò)演化、信息擴散等具有重要意義。針對社區(qū)結(jié)構(gòu)的研究可分為社區(qū)發(fā)現(xiàn)、社區(qū)結(jié)構(gòu)演化等方面。父母社會經(jīng)濟(jì)地位對子代地位獲得的影響是社會學(xué)研究領(lǐng)域的一個經(jīng)典議題。很多研究人員通過對比父子兩代的社會經(jīng)濟(jì)地位來分析社會流動,其基本研究結(jié)論是:父母社會經(jīng)濟(jì)地位越高,子代的社會經(jīng)濟(jì)地位也越高。但是,代際之間在社會經(jīng)濟(jì)地位上的關(guān)聯(lián)程度在不同時期和不同社會也存在非常明顯的差異。6.實施大數(shù)據(jù)調(diào)查應(yīng)當(dāng)注意哪些問題?一是技術(shù)依賴性問題。大數(shù)據(jù)調(diào)查法從甄別、獲取、采集、提取、清理、分析、挖掘,直至得出調(diào)查結(jié)論,都高度依賴于軟件和計算機技術(shù)。采集、處理的數(shù)據(jù)盡管是具有很大客觀性、真實性、可靠性的自在數(shù)據(jù),但卻是非實體性的存在。機器分析算法期望同構(gòu)數(shù)據(jù),并且不能理解細(xì)微差別。同時,依賴技術(shù)獲取的大數(shù)據(jù),往往難以分清與目標(biāo)總體間的差異。二是大數(shù)據(jù)調(diào)查的多學(xué)科配合問題。大數(shù)據(jù)調(diào)查一般都要涉及到廣闊的調(diào)查空間,眾多的調(diào)查對象,海量的調(diào)查數(shù)據(jù),多方面的調(diào)研資料,要使用多學(xué)科的調(diào)研方法和技術(shù),其工作量往往十分巨大,并有一定的時間要求,單靠個別調(diào)研人員是很難完成的。一般地說,大數(shù)據(jù)調(diào)查課題,都應(yīng)該組建一個多學(xué)科合作的、有一定規(guī)模的團(tuán)隊來承擔(dān)。三是隱私與信息安全問題?;ヂ?lián)網(wǎng)的發(fā)展使數(shù)據(jù)更加容易產(chǎn)生和傳播,數(shù)據(jù)隱私問題越來越嚴(yán)重。一是隱性的數(shù)據(jù)暴露?;ヂ?lián)網(wǎng),尤其是社交網(wǎng)絡(luò)的出現(xiàn),使得人們在不同的地點產(chǎn)生越來越多的數(shù)據(jù)足跡。如果有辦法將某個人的很多行為從不同的獨立地點聚集在一起,他的隱私就很可能會暴露。二是數(shù)據(jù)公開與隱私保護(hù)的矛盾。如果僅僅為了保護(hù)隱私就將所有的數(shù)據(jù)都加以隱藏,那么數(shù)據(jù)的價值根本無法體現(xiàn)。大數(shù)據(jù)時代的隱私性主要體現(xiàn)為在不暴露用戶敏感信息的前提下進(jìn)行有效的數(shù)據(jù)挖掘,這有別于傳統(tǒng)的信息安全領(lǐng)域更加關(guān)注文件的私密性等安全屬性。四是大數(shù)據(jù)管理的易用性問題。從數(shù)據(jù)集成到數(shù)據(jù)分析,直到最后的數(shù)據(jù)解釋,易用性應(yīng)當(dāng)貫穿整個大數(shù)據(jù)的流程。易用性的挑戰(zhàn)突出體現(xiàn)在兩個方面:一方面,大數(shù)據(jù)時代的數(shù)據(jù)量大,分析更復(fù)雜,得到的結(jié)果形式更加多樣化。其復(fù)雜程度已經(jīng)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的關(guān)系數(shù)據(jù)庫。對于數(shù)據(jù)管理領(lǐng)域,需要借助AI發(fā)揮作用。另一方面,大數(shù)據(jù)已經(jīng)廣泛滲透到人們生活的各個方面,很多行業(yè)開始有大數(shù)據(jù)分析的需求。要想達(dá)到易用性,需要關(guān)注以下三個基本原則:可視化、匹配和反饋。三、擴展閱讀(一)什么是大數(shù)據(jù)分析?大數(shù)據(jù)分析是指用于從不同的大量、高速數(shù)據(jù)集中收集、處理和得出見解的方法、工具和應(yīng)用程序。這些數(shù)據(jù)集可能來自各種來源,例如Web、移動應(yīng)用、電子郵件、社交媒體和聯(lián)網(wǎng)智能設(shè)備。它們通常表示以高速生成、形式各樣的數(shù)據(jù),從結(jié)構(gòu)化(數(shù)據(jù)庫表、Excel表)到半結(jié)構(gòu)化(XML文件、網(wǎng)頁),再到非結(jié)構(gòu)化(圖像、音頻文件)應(yīng)有盡有。傳統(tǒng)形式的數(shù)據(jù)分析軟件無法支持這種程度的復(fù)雜度和規(guī)模,而這就是專為大數(shù)據(jù)分析設(shè)計的系統(tǒng)、工具和應(yīng)用程序發(fā)揮作用的地方。(二)大數(shù)據(jù)分析為什么很重要?現(xiàn)在,你知道了什么是大數(shù)據(jù)分析。但是,它為什么很重要呢?最重要的是,理解和使用大數(shù)據(jù)可如何幫助我們?數(shù)據(jù)與我們的日常生活息息相關(guān)。隨著與物聯(lián)網(wǎng)(IoT)關(guān)聯(lián)的移動應(yīng)用、社交媒體和智能技術(shù)的興起,我們現(xiàn)在傳輸?shù)臄?shù)據(jù)比以往任何時候都多,而且傳輸速度超快。得益于大數(shù)據(jù)分析,組織現(xiàn)在能夠使用此信息來快速改善他們工作、思考的方式,并為他們的客戶提供價值。在工具和應(yīng)用程序的協(xié)助下,大數(shù)據(jù)可幫助你獲得見解、優(yōu)化運營和預(yù)測未來成果。大數(shù)據(jù)之所以重要,就是因為它能夠提供見解來幫助做出更好的決策。通過這種方式,零售商可打磨他們的定向廣告活動,批發(fā)商可解決供應(yīng)鏈中的瓶頸。也是通過這種方式,醫(yī)療保健提供商可根據(jù)患者數(shù)據(jù)趨勢發(fā)現(xiàn)臨床護(hù)理的新方法。大數(shù)據(jù)分析為決策制定提供一個更全面的數(shù)據(jù)驅(qū)動的方法,進(jìn)而促進(jìn)增長、效率和創(chuàng)新?,F(xiàn)在你知道了大數(shù)據(jù)的重要性,也知道了數(shù)據(jù)分析的重要性,接下來讓我們探索大數(shù)據(jù)分析是如何工作的。(三)大數(shù)據(jù)分析的工作原理分析解決方案通過分析數(shù)據(jù)集來收集見解和預(yù)測結(jié)果。不過,為了成功分析數(shù)據(jù),必須先按照一個集成的分步準(zhǔn)備流程用一系列應(yīng)用程序存儲、組織和清理這些數(shù)據(jù):收集。數(shù)據(jù)有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的形式,它是跨Web、移動和云從多個來源收集的。收集后,數(shù)據(jù)存儲在存儲庫中(數(shù)據(jù)湖或數(shù)據(jù)倉庫),為處理做好準(zhǔn)備。處理。在處理階段,會對存儲的數(shù)據(jù)進(jìn)行驗證、排序和篩選,這為將來的使用做好準(zhǔn)備并提高了查詢的性能。

清理。處理后,會對數(shù)據(jù)進(jìn)行清理。

數(shù)據(jù)集中的沖突、冗余、無效/不完整的字段和格式錯誤將得到糾正和清除。分析?,F(xiàn)在可以對數(shù)據(jù)進(jìn)行分析了。

大數(shù)據(jù)分析是通過數(shù)據(jù)挖掘、AI、預(yù)測分析、機器學(xué)習(xí)和統(tǒng)計分析等工具和技術(shù)來完成的,它們有助于定義和預(yù)測數(shù)據(jù)中的模式和形式。(四)大數(shù)據(jù)分析的使用和示例如今,很多主要行業(yè)使用不同類型的數(shù)據(jù)分析,圍繞產(chǎn)品策略、運營、銷售、營銷和客戶服務(wù)做出更明智的決策。通過大數(shù)據(jù)分析,處理大量數(shù)據(jù)的組織都能從這些數(shù)據(jù)中獲得有意義的見解。大數(shù)據(jù)分析有很多實際應(yīng)用,下面僅列舉一些:產(chǎn)品開發(fā)。大數(shù)據(jù)分析通過大量業(yè)務(wù)分析數(shù)據(jù)挖掘客戶的需求、指導(dǎo)功能開發(fā)和路線圖策略,幫助組織定義他們的客戶想要什么。

個性化定制。流式處理平臺和在線零售商分析用戶參與情況,以推薦、定向廣告、追加銷售和忠誠度計劃的形式創(chuàng)建更加個性化的體驗。

供應(yīng)鏈管理。預(yù)測分析可定義和預(yù)測供應(yīng)鏈的各個方面,包括倉儲、采購、交付和退貨。

醫(yī)療保健。大數(shù)據(jù)分析可用于從患者數(shù)據(jù)中收集關(guān)鍵見解,這有助于提供商發(fā)現(xiàn)新的診斷和治療方法。

定價??煞治鲣N售和交易數(shù)據(jù)來創(chuàng)建更優(yōu)定價模型,幫助公司做出能實現(xiàn)收入最大化的定價決策。

預(yù)防詐騙。金融機構(gòu)使用數(shù)據(jù)挖掘和機器學(xué)習(xí)來檢測和預(yù)測欺詐活動的模式,從而降低風(fēng)險。

運營。分析財務(wù)數(shù)據(jù)可幫助組織檢測和降低隱藏的運營成本,進(jìn)而節(jié)省資金和提高生產(chǎn)力。

贏得和留住客戶。在線零售商使用訂單歷史記錄、搜索數(shù)據(jù)、在線評論和其他數(shù)據(jù)源來預(yù)測客戶行為-他們可能使用預(yù)測結(jié)果來更好地留住客戶。

(五)大數(shù)據(jù)分析的優(yōu)勢和挑戰(zhàn)正如眾多用例展示的那樣,大數(shù)據(jù)有利于眾多行業(yè)中、各種背景情況下的組織。不過,鑒于大數(shù)據(jù)基礎(chǔ)結(jié)構(gòu)的復(fù)雜性,大數(shù)據(jù)也帶來一些需要考慮的問題。下面是一些需要注意的大數(shù)據(jù)挑戰(zhàn):保持?jǐn)?shù)據(jù)井然有序且易于訪問。與大數(shù)據(jù)相關(guān)的最大挑戰(zhàn)是,弄清楚如何管理傳入的海量信息,使其在你的應(yīng)用程序中正確傳輸。

避免數(shù)據(jù)孤島、保持?jǐn)?shù)據(jù)集成,并圍繞有效的管理策略規(guī)劃基礎(chǔ)結(jié)構(gòu),這些都至關(guān)重要。質(zhì)量控制。保持?jǐn)?shù)據(jù)的準(zhǔn)確性和質(zhì)量可能很困難也很耗時,尤其是當(dāng)快速傳入非常大量的數(shù)據(jù)時。

在執(zhí)行任何分析之前,你將需要確保你的數(shù)據(jù)收集、處理和清理流程是集成的、標(biāo)準(zhǔn)化的且經(jīng)過了優(yōu)化。保持?jǐn)?shù)據(jù)安全。

隨著數(shù)據(jù)泄露的增多,保護(hù)數(shù)據(jù)比以往任何時候都更重要。隨著分析系統(tǒng)的發(fā)展,出現(xiàn)虛假數(shù)據(jù)、泄露、合規(guī)問題和軟件漏洞等形式的數(shù)據(jù)挑戰(zhàn)的可能性也增加了。加密數(shù)據(jù)、跟進(jìn)安全審核和進(jìn)行盡職調(diào)查可幫助減輕其中一些擔(dān)憂。選擇正確的工具??捎玫墓ぞ吆图夹g(shù)太多了,可能讓人無從選擇。

正因如此,讓自己獲得信息、保持消息靈通,可能的話在需要時聘請或咨詢專家非常重要。雖然高效建立和管理系統(tǒng)可能需要大量工作,但使用大數(shù)據(jù)分析帶來的好處值得付出這一努力。對于尋求一種數(shù)據(jù)驅(qū)動的更明智的方法來改進(jìn)其組織運營方式的任何人來說,大數(shù)據(jù)的長期優(yōu)勢都是無價的。下面是幾個例子:更快獲得見解。憑借無與倫比的速度和效率,大數(shù)據(jù)分析可幫助組織更快地將信息轉(zhuǎn)化為見解。

這些見解隨后被用來圍繞產(chǎn)品、運營、營銷和其他業(yè)務(wù)計劃做出明智的決策。成本效率。海量數(shù)據(jù)需要存儲,維護(hù)起來可能很昂貴。

但隨著更具伸縮性的存儲系統(tǒng)的出現(xiàn),組織現(xiàn)在可在降低成本的同時,最大程度提高運營效率。這意味著更高的利潤率和更高效的系統(tǒng)。用戶滿意度。大數(shù)據(jù)的高級商業(yè)智能功能不僅能分析客戶趨勢,還能通過預(yù)測分析來預(yù)測客戶的行為。

通過更多地了解用戶的需求,組織可創(chuàng)建能滿足這些需求的個性化產(chǎn)品。四、教學(xué)案例案例1:大數(shù)據(jù)分析工具隨著大數(shù)據(jù)時代的到來,越來越多的企業(yè)和組織開始探索如何利用海量數(shù)據(jù)來提高決策效率和質(zhì)量。這就需要一些專門的大數(shù)據(jù)分析工具,用于處理、分析、可視化和挖掘數(shù)據(jù)中蘊含的價值。下面是10個常見的大數(shù)據(jù)分析工具:1.HadoopHadoop是Apache基金會的一個開源項目,是大數(shù)據(jù)處理中最為常用的分布式計算框架之一。它可以幫助用戶快速處理大數(shù)據(jù)集,并支持?jǐn)?shù)據(jù)存儲、處理、分析和可視化等功能。Hadoop使用HDFS(Hadoop分布式文件系統(tǒng))來存儲數(shù)據(jù),使用MapReduce來分析和處理數(shù)據(jù)。常用的Hadoop發(fā)行版有Cloudera、Hortonworks、MapR等。2.SparkSpark是一個快速、通用、可擴展的分布式計算系統(tǒng),也是Apache基金會的一個開源項目。它可以在Hadoop集群上運行,并支持批處理、交互式查詢和流處理等多種計算模式。Spark具有內(nèi)存計算和快速調(diào)度等優(yōu)點,能夠大大提高計算速度和效率。3.HiveHive是一種基于Hadoop的數(shù)據(jù)倉庫系統(tǒng),支持使用SQL-like查詢語言來訪問和處理大規(guī)模數(shù)據(jù)。它將結(jié)構(gòu)化數(shù)據(jù)映射到Hadoop的HDFS上,并使用HadoopMapReduce進(jìn)行查詢和分析。Hive還支持自定義函數(shù)和UDF(用戶定義函數(shù)),可以方便地實現(xiàn)復(fù)雜的數(shù)據(jù)分析操作。4.TableauTableau是一種數(shù)據(jù)可視化工具,可以幫助用戶輕松地創(chuàng)建交互式和美觀的圖表和儀表盤。它支持多種數(shù)據(jù)源和文件格式,并提供自定義計算、過濾和聚合等功能。Tableau適用于各種行業(yè)和領(lǐng)域,例如營銷、金融、醫(yī)療等。5.PythonPython是一種通用的編程語言,也可以用于數(shù)據(jù)分析和機器學(xué)習(xí)。它支持多種數(shù)據(jù)分析和機器學(xué)習(xí)庫,例如NumPy、Pandas、Scikit-learn等,并提供數(shù)據(jù)可視化和交互式計算等功能。Python廣泛應(yīng)用于數(shù)據(jù)科學(xué)、機器學(xué)習(xí)、自然語言處理等領(lǐng)域。6.阿里云大數(shù)據(jù)阿里云大數(shù)據(jù)是阿里巴巴旗下的云計算平臺,提供包括MaxCompute、DataWorks、QuickBI等多種大數(shù)據(jù)分析工具。其中,MaxCompute是一種分布式云計算服務(wù),可以用于大規(guī)模數(shù)據(jù)存儲和分析,例如阿里巴巴的電商數(shù)據(jù)分析;DataWorks是一種數(shù)據(jù)協(xié)作平臺,可以幫助企業(yè)實現(xiàn)數(shù)據(jù)整合和共享;QuickBI是一種智能化BI工具,可以進(jìn)行數(shù)據(jù)可視化和探索性分析。7.騰訊云大數(shù)據(jù)騰訊云大數(shù)據(jù)是騰訊公司旗下的云計算平臺,提供包括CDH、TDH、DAS等多種大數(shù)據(jù)分析工具。其中,CDH是一種Hadoop生態(tài)圈的分布式計算框架,可以用于大數(shù)據(jù)存儲和分析;TDH是一種Hadoop生態(tài)圈的大數(shù)據(jù)處理平臺,可以用于海量數(shù)據(jù)處理和分析;DAS是一種基于Spark的大數(shù)據(jù)分析服務(wù),可以實現(xiàn)實時數(shù)據(jù)處理和分析。8.百度大數(shù)據(jù)百度大數(shù)據(jù)是百度公司推出的一種大數(shù)據(jù)分析平臺,提供包括BSP、BMR等多種大數(shù)據(jù)分析工具。其中,BSP是一種分布式計算框架,可以用于海量數(shù)據(jù)處理和分析;BMR是一種批量MapReduce計算引擎,可以用于大規(guī)模數(shù)據(jù)處理和分析。9.華為云大數(shù)據(jù)華為云大數(shù)據(jù)是華為公司旗下的云計算平臺,提供包括FusionInsight、ModelArts等多種大數(shù)據(jù)分析工具。其中,F(xiàn)usionInsight是一種Hadoop生態(tài)圈的大數(shù)據(jù)處理平臺,可以用于大規(guī)模數(shù)據(jù)存儲和分析;ModelArts是一種基于人工智能技術(shù)的平臺,可以用于大數(shù)據(jù)分析和預(yù)測,例如人臉識別和語音識別。10.科大訊飛科大訊飛是一家語音和人工智能技術(shù)公司,提供包括智能客服、語音識別、自然語言處理等多種服務(wù),可以幫助企業(yè)進(jìn)行大數(shù)據(jù)分析和預(yù)測,例如金融、電商等領(lǐng)域的智能客服和語音識別。案例2:大數(shù)據(jù)分析,到底在分析什么?“大數(shù)據(jù)”仨字已經(jīng)被喊爛了,“大數(shù)據(jù)分析”也經(jīng)常被人提起??傻降渍ν耆恰按髷?shù)據(jù)分析”?為啥大家喊得很多,平時工作中很少感受得到?今天系統(tǒng)講解一下。一、普通人理解的“大數(shù)據(jù)”普通人理解的大數(shù)據(jù)可謂千奇百怪,比如:一個excel文件200M,多大的數(shù)據(jù)呀!我國人口14億,這個數(shù)據(jù)好大呀!臥槽,我剛看了車,就有4S店推廣電話,肯定收集了我的大數(shù)據(jù)?!@些千奇百怪的理解,都是來自對“數(shù)據(jù)”本身不夠了解導(dǎo)致的。想整明白“大數(shù)據(jù)”真正的含義,得從數(shù)據(jù)是從哪里來的講起。二、先理解“小數(shù)據(jù)”,再談“大數(shù)據(jù)”最原始的數(shù)據(jù)采集方式就是:問卷。由專門的調(diào)查人員,借助一張張調(diào)查問卷,通過現(xiàn)場詢問、測量等方式獲得數(shù)據(jù)。這種方法已經(jīng)沿用了400多年,經(jīng)典的統(tǒng)計學(xué)、管理學(xué)理論都是建立在此之上的(如下圖)。小數(shù)據(jù)有沒用?有用!非常有用!能采集到某個地區(qū)的數(shù)據(jù),代表著政府對這個地區(qū)有統(tǒng)治力。能采集到越多的數(shù)據(jù),中央就能掌握地方情況,從而加強管理。數(shù)據(jù)是如此重要,以至于歷史上很長一段時間,統(tǒng)計任務(wù)歸屬于政府、軍隊、情報機關(guān)。我國的第一家調(diào)查公司還是在90年代初,在寶潔強烈要求下成立的。但是,調(diào)研做法有三個明顯的問題:非常耗費人力。訪問員、督導(dǎo)、審核、錄入、數(shù)據(jù)處理……都是人。非常耗費時間。設(shè)計問卷、填寫、回收、都是時間。準(zhǔn)確度低。現(xiàn)場測量的數(shù)據(jù)會相對準(zhǔn),但口頭問回來的大部分都不準(zhǔn)。這些問題,導(dǎo)致了問卷時代的數(shù)據(jù)采集,只能有抽樣式的,不能是全量采集。也因此衍生出了專門的抽樣理論和方法。但無論數(shù)據(jù)方法怎么改進(jìn),在業(yè)務(wù)上,抽樣,始終是一個難以逾越的梗阻。決策者總會覺得:是不是樣本量太少;是不是代表性不夠;沒有覆蓋的樣本是不是真的一致。只要是抽樣數(shù)據(jù),就一定會被質(zhì)疑,就總是充滿懷疑。這也是最初“小數(shù)據(jù)”的說法來源,后續(xù)所有“大數(shù)據(jù)”其實都是圍繞“小數(shù)據(jù)”問題而來。1.數(shù)據(jù)變大第一步:系統(tǒng)采集數(shù)據(jù)從小變大的第一步,從系統(tǒng)采集開始。比如企業(yè)擴大規(guī)模,要在各地建連鎖店,第一步做得就是裝POS機,把交易數(shù)據(jù)采集進(jìn)來,替代紙質(zhì)訂貨單/出貨單。此時想了解銷售數(shù)據(jù),是可以基于POS機收集的數(shù)據(jù)全量查看的(如下圖)。從抽樣數(shù)據(jù)到全量數(shù)據(jù),是一個質(zhì)的變化。基于全量數(shù)據(jù),可以直接管理到各個終端門店,直接基于數(shù)據(jù)作出經(jīng)營決策。因此大部分企業(yè)的銷售分析、經(jīng)營分析、業(yè)務(wù)分析體系,都是在此基礎(chǔ)之上建立起來的(如下圖)。但是這個階段的局限也是很明顯的:POS機只能記錄交易結(jié)果,對過程一概不知。誰在買,買了多少,為啥買,通通不清楚。這個階段的分析,是典型的知其然,不知其所以然的分析,大部分分析只能通過成交結(jié)果去猜。如果只有這個階段的數(shù)據(jù),想做深入分析,還是得依靠調(diào)研。比如傳統(tǒng)企業(yè)想了解門店成交流程,會做門店調(diào)查,研究消費者在門店的動線,詢問消費者體驗。2.數(shù)據(jù)變大第二步:主動采集有了系統(tǒng)采集以后,大家自然地會想:除了交易數(shù)據(jù),其他數(shù)據(jù)也能通過系統(tǒng)化采集。比如最簡單的形式:讓用戶自己交身份證,通過圖像識別錄入。這樣既能采集到用戶數(shù)據(jù),又能避免手動填寫的錯誤。但是問題來了:憑啥要交身份證給你呀!于是傳統(tǒng)采集,只有銀行、航空、通訊等有國家背景+法律規(guī)范要求的地方,才能相對準(zhǔn)確地采集這些真實數(shù)據(jù)。不過這些困難并沒有阻擋住企業(yè)采集信息的熱情。常見的手段,比如:勾引用戶辦會員卡,給生日禮遇讓用戶填寫生日。用戶完成信息給積分獎勵之類。更激進(jìn)的,甚至有常識在門店裝人臉識別、裝眼動儀跟蹤設(shè)備來采集數(shù)據(jù)(當(dāng)然,成本很高)。為什么企業(yè)會孜孜不倦追求這些數(shù)據(jù),因為這些數(shù)據(jù)真的有用。至少能把數(shù)據(jù)具體到一個人的身上,能識別出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論