大數(shù)據(jù)-公共通識課件1第1章大數(shù)據(jù)時代_第1頁
大數(shù)據(jù)-公共通識課件1第1章大數(shù)據(jù)時代_第2頁
大數(shù)據(jù)-公共通識課件1第1章大數(shù)據(jù)時代_第3頁
大數(shù)據(jù)-公共通識課件1第1章大數(shù)據(jù)時代_第4頁
大數(shù)據(jù)-公共通識課件1第1章大數(shù)據(jù)時代_第5頁
已閱讀5頁,還剩101頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第1章大數(shù)據(jù)時代

學習任務(wù)數(shù)據(jù)時代

大數(shù)據(jù)

大數(shù)據(jù)技術(shù)基礎(chǔ)

Clicktoaddtitleinhere123大數(shù)據(jù)的社會價值

大數(shù)據(jù)的商業(yè)應(yīng)用45學習任務(wù)案例之一:男女嘉賓《非誠勿擾》牽手數(shù)據(jù)分析61.1數(shù)據(jù)時代1.1.1大數(shù)據(jù)時代的到來2012年以來,大數(shù)據(jù)(bigdata)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。“大數(shù)據(jù)”在物理學、生物學、環(huán)境生態(tài)學等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。1.1數(shù)據(jù)時代統(tǒng)計數(shù)據(jù)顯示,2015年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模已達2800億元。截止至2017年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增長至4700億,同比增長是30.6%。初步測算2018年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模達到5400億元左右,同比增長15%。預(yù)測在2020年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將突破萬億元。

1.1數(shù)據(jù)時代1.1.2數(shù)據(jù)、信息與知識的演進1.數(shù)據(jù)應(yīng)用的四個步驟

數(shù)據(jù)里面包含一個很重要的東西,就是“信息(Information)”。信息會包含很多規(guī)律,我們需要從信息中將規(guī)律總結(jié)出來,稱為知識(Knowledge),而知識能改變命運。信息是很多的,但有人看到了信息相當于白看,但有人就從信息中看到了電商的未來,有人看到了直播的未來,所以人家就牛了。如果你沒有從信息中提取出知識,天天看朋友圈也只能在互聯(lián)網(wǎng)滾滾大潮中做個看客。1.1數(shù)據(jù)時代數(shù)據(jù)的應(yīng)用分這四個步驟:數(shù)據(jù)、信息、知識、智慧。1.1數(shù)據(jù)時代2.數(shù)據(jù)如何升華為智慧數(shù)據(jù)的處理分幾個步驟,完成了才最后會有智慧。1.1數(shù)據(jù)時代(1)第一個步驟第一個步驟叫數(shù)據(jù)的收集,有兩種方式:

①第一個方式是拿,專業(yè)點的說法叫抓取或者爬取。例如搜索引擎就是這么做的:它把網(wǎng)上的所有的信息都下載到它的數(shù)據(jù)中心,然后你搜索相關(guān)內(nèi)容才能搜索出來。②第二個方式是推送,有很多終端可以幫我收集數(shù)據(jù)。比如說小米手環(huán),可以將你每天跑步的數(shù)據(jù),心跳的數(shù)據(jù),睡眠的數(shù)據(jù)都上傳到數(shù)據(jù)中心里面。1.1數(shù)據(jù)時代(2)第二個步驟第二個步驟是數(shù)據(jù)的傳輸。一般會通過隊列方式進行,因為數(shù)據(jù)量實在是太大了,數(shù)據(jù)必須經(jīng)過處理才會有用??上到y(tǒng)處理不過來,只好排好隊,慢慢處理。(3)第三個步驟第三個步驟是數(shù)據(jù)的存儲。淘寶、京東、亞馬遜的網(wǎng)站怎么知道你想買什么?就是因為它有你過去的交易的數(shù)據(jù),這個信息可不能給別人,十分寶貴,所以需要存儲下來。1.1數(shù)據(jù)時代(4)第四個步驟第四個步驟是數(shù)據(jù)的處理和分析。原始數(shù)據(jù)大多是雜亂無章的,有很多垃圾數(shù)據(jù)在里面,因而需要清洗和過濾,得到一些高質(zhì)量的數(shù)據(jù)。對于高質(zhì)量的數(shù)據(jù),就可以進行分析,從而對數(shù)據(jù)進行分類,發(fā)現(xiàn)數(shù)據(jù)之間的相互關(guān)系,得到知識。比如盛傳的沃爾瑪超市的啤酒和尿布的故事,就是通過對人們的購買數(shù)據(jù)進行分析,發(fā)現(xiàn)了男人一般買尿布的時候,會同時購買啤酒,將啤酒和尿布的柜臺弄的很近,以便促銷相關(guān)商品。1.1數(shù)據(jù)時代(5)第五個步驟第五個步驟是對于數(shù)據(jù)的檢索和挖掘。檢索就是搜索,就象古書三國演義里描述的,現(xiàn)代社會是是所謂“外事不決問Google,內(nèi)事不決問百度”。內(nèi)外兩大搜索引擎都是將分析后的數(shù)據(jù)放入搜索引擎,因此人們想尋找信息的時候,搜一搜就有了。另外就是挖掘,僅僅搜索出來已經(jīng)不能滿足人們的要求了,還需要從信息中挖掘出相互的關(guān)系。

1.1數(shù)據(jù)時代通過各種算法挖掘數(shù)據(jù)中的關(guān)系,形成知識庫,十分重要。整體來看,知識的演進層次,可以雙向演進。從噪音中分揀出來數(shù)據(jù),轉(zhuǎn)化為信息,升級為知識,升華為智慧。這樣一個過程,是信息的管理和分類過程,讓信息從龐大無序到分類有序,各取所需。這就是一個知識管理的過程。反過來,隨著信息生產(chǎn)與傳播手段的極大豐富,知識生產(chǎn)的過程其實也是一個不斷衰退的過程,從智慧傳播為知識,從知識普及為信息,從信息變?yōu)橛涗浀臄?shù)據(jù)。1.1數(shù)據(jù)時代知識、信息與數(shù)據(jù)的雙向演進1.1數(shù)據(jù)時代

需要明確的是,大數(shù)據(jù)分析處理的最終目標,是從復(fù)雜的數(shù)據(jù)集合中發(fā)現(xiàn)新的關(guān)聯(lián)規(guī)則,繼而進行深度挖掘,得到有效用的新信息。我們最終目的是從數(shù)據(jù)到知識,從知識到智慧型的決策,如何從數(shù)據(jù)中形成智慧是我們今天的目標,見下圖所示。1.1數(shù)據(jù)時代1.1.3數(shù)據(jù)時代1.數(shù)據(jù)的單位一個二進制位稱為一個比特,一般用小寫b表示;而8個二進制位稱一個字節(jié),用大寫B(tài)表示。簡言之:1B=8b。計算數(shù)據(jù)量或數(shù)據(jù)所需存儲空間大小時,習慣用字節(jié)為單位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB約等于10億GB,而1ZB約等于1萬億GB。1.1數(shù)據(jù)時代假設(shè)有一首長為3分鐘的歌曲錄制成MP3文件(44K/320kbps音質(zhì)),大小約為8MB,那么1ZB的數(shù)據(jù)存儲空間可存儲MP3格式的140萬億首歌曲,如果全部聽一遍,需要8億多年。計算網(wǎng)絡(luò)傳輸速率時習慣上用比特每秒為單位(用b/s表示)。1Pb/S和1Gb/S分別代表1秒鐘傳輸?shù)臄?shù)據(jù)是1P(1000萬億)比特和1G(10億)比特。網(wǎng)絡(luò)速率1Gb/S(此處是小寫b)的情況下,下載一個2GB(此處是大寫B(tài))的電影,需要16秒;而網(wǎng)絡(luò)速率1Pb/S的情況下,僅需要0.016毫秒。1.1數(shù)據(jù)時代2.數(shù)據(jù)類型整體上我們將數(shù)據(jù)類型分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。(1)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,如數(shù)字、文字、符號。結(jié)構(gòu)化數(shù)據(jù)嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,可以是由二維表(有行有列,就像工資表、課程表)結(jié)構(gòu)來邏輯表達和實現(xiàn)。主要通過關(guān)系型數(shù)據(jù)庫進行存儲和管理。1.1數(shù)據(jù)時代

比如我們做一個職工工資系統(tǒng),要保存員工基本信息:工號、姓名、應(yīng)付薪酬、代扣項目等等;我們就會建立一個對應(yīng)的工資表。1.1數(shù)據(jù)時代(2)半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)(如傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù),網(wǎng)頁中使用的文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。比如存儲員工的簡歷。有的員工的簡歷很簡單,比如只包括教育情況;有的員工的簡歷卻很復(fù)雜,比如包括工作情況、婚姻情況、出入境情況、戶口遷移情況、黨籍情況、技術(shù)技能等等。還有可能有一些我們沒有預(yù)料的信息。1.1數(shù)據(jù)時代(3)非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括圖像和音頻/視頻信息等等。地圖、圖片、音頻和視頻數(shù)據(jù)就屬于非結(jié)構(gòu)化數(shù)據(jù)。在很多知識庫系統(tǒng)中,為了查詢大量積累下來的文檔,需要從PDF、Word、Rtf、Excel和PowerPoint等格式的文檔中提取可以描述文檔的文字,這些描述性的信息包括文檔標題、作者、主要內(nèi)容等等。這樣一個過程就是非結(jié)構(gòu)化數(shù)據(jù)的采集過程。1.1數(shù)據(jù)時代

非結(jié)構(gòu)化數(shù)據(jù)有如下幾個特點:①有大量的數(shù)據(jù)需要處理非結(jié)構(gòu)化數(shù)據(jù)在任何地方都可以得到。這些數(shù)據(jù)可以在你公司內(nèi)部的郵件信息、聊天記錄以及搜集到的調(diào)查結(jié)果中得到,也可以是你對個人網(wǎng)站上的評論、對客戶關(guān)系管理系統(tǒng)中的評論或者是從你使用的個人應(yīng)用程序中得到的文本字段。而且也可以在公司外部的社會媒體、你監(jiān)控的論壇以及來自于一些你很感興趣的話題的評論。1.1數(shù)據(jù)時代②蘊藏著大量的價值有些企業(yè)現(xiàn)在正投資幾十億美金分析結(jié)構(gòu)化數(shù)據(jù),卻對非結(jié)構(gòu)化數(shù)據(jù)置之不理,在非結(jié)構(gòu)化數(shù)據(jù)中蘊藏著有用的信息寶庫,利用數(shù)據(jù)可視化工具分析非結(jié)構(gòu)化數(shù)據(jù)能夠幫助企業(yè)快速地了解現(xiàn)狀、顯示趨勢并且識別新出現(xiàn)的問題。1.1數(shù)據(jù)時代③不需要依靠數(shù)據(jù)科學家團隊分析數(shù)據(jù)不需要一個專業(yè)性很強的數(shù)學家或數(shù)據(jù)科學團隊,公司也不需要專門聘請IT精英去做。真正的分析發(fā)生在用戶決策階段,即管理一個特殊產(chǎn)品細分市場的部門經(jīng)理,可能是負責尋找最優(yōu)活動方案的市場營銷者,也可能是負責預(yù)測客戶群體需求的總經(jīng)理。終端用戶有能力、也有權(quán)利和動機去改善商業(yè)實踐,并且視覺文本分析工具可以幫助他們快速識別最相關(guān)的問題,及時采取行動,而這都不需要依靠數(shù)據(jù)科學家。1.1數(shù)據(jù)時代④終端用戶授權(quán)正確的分析需要機器計算和人類解釋相結(jié)合。機器進行大量的信息處理,而終端客戶利用他們的商業(yè)頭腦,在已發(fā)生的事實基礎(chǔ)上決策出最好的實施方案。終端客戶必須清楚的知道哪一個數(shù)據(jù)集是有價值的,他們應(yīng)該如何采集并將他們獲取的信息更好地應(yīng)用到他們的商業(yè)領(lǐng)域。此外,一個公司的工作就是使終端用戶盡可能地收集到更多相關(guān)的數(shù)據(jù)并盡可能地根據(jù)這些數(shù)據(jù)中的信息做出最好的決策。1.2大數(shù)據(jù)1.2.1什么是大數(shù)據(jù)大數(shù)據(jù)(bigdata)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新的處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)一般認可的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。1.2大數(shù)據(jù)

大數(shù)據(jù)具有4V特征:大量(Volume)、多樣(Variety)、高速(Velocity)、價值(Value)。Volume(數(shù)據(jù)體量巨大):大量交互數(shù)據(jù)被記錄和保存,數(shù)據(jù)規(guī)模從TB到PB數(shù)量級。Velocity(數(shù)據(jù)類型繁多):結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。Variety(流動速度快):數(shù)據(jù)自身的狀態(tài)與價值隨著時空變化而不斷發(fā)生演變。Value(價值巨大但密度低):數(shù)據(jù)的價值沒有隨數(shù)據(jù)量的指數(shù)增長呈現(xiàn)出同比例上升。1.2大數(shù)據(jù)大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越成為數(shù)據(jù)的主要部分。據(jù)調(diào)查報告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%。

大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,在以“云計算”為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。1.2大數(shù)據(jù)

想要系統(tǒng)的認知大數(shù)據(jù),必須要全面而細致的分解它,需要著手從三個層面來展開,見圖1.5所示:第一層面是理論,從大數(shù)據(jù)的特征定義來理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在;從大數(shù)據(jù)的現(xiàn)在和未來洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私的視角審視人和數(shù)據(jù)之間的長久博弈。1.2大數(shù)據(jù)第二層面是技術(shù),分別從云計算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個過程。第三層面是實踐,分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個人的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實現(xiàn)的藍圖。1.2大數(shù)據(jù)大數(shù)據(jù)的三個層面

1.2大數(shù)據(jù)1.2.2大數(shù)據(jù)發(fā)展歷史與現(xiàn)狀在大數(shù)據(jù)整個發(fā)展過程當中,我們按照進程將它分為4個階段,分別是大數(shù)據(jù)的萌芽階段、突破階段、成熟階段、應(yīng)用階段。1.大數(shù)據(jù)萌芽階段(1980--2008年)1980年[美]著名未來學家阿爾文·托夫勒著的《第三次浪潮》書中將“大數(shù)據(jù)”稱為“第三次浪潮的華彩樂章”;上世紀末,是大數(shù)據(jù)的萌芽期,處于數(shù)據(jù)挖掘技術(shù)階段。隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的成熟,一些商業(yè)智能工具和知識管理技術(shù)開始被應(yīng)用。2008年9月英國《自然-Nature》雜志推出了名為“大數(shù)據(jù)”的封面專欄。1.2大數(shù)據(jù)2.大數(shù)據(jù)突破階段(2009--2011年)2009-2010年“大數(shù)據(jù)”成為互聯(lián)網(wǎng)技術(shù)行業(yè)中的熱門詞匯。2011年6月世界級領(lǐng)先的全球管理咨詢公司麥肯錫發(fā)布了關(guān)于“大數(shù)據(jù)”的報告,正式定義了大數(shù)據(jù)的概念,后逐漸受到了各行各業(yè)關(guān)注;這個階段非結(jié)構(gòu)化的數(shù)據(jù)大量出現(xiàn),傳統(tǒng)的數(shù)據(jù)庫處理難以應(yīng)對,也稱非結(jié)構(gòu)化數(shù)據(jù)階段。1.2大數(shù)據(jù)3.大數(shù)據(jù)成熟階段(2012--2016年)隨著2012年《大數(shù)據(jù)時代》一書出版,“大數(shù)據(jù)”這一概念乘著互聯(lián)網(wǎng)的浪潮在各行各業(yè)中扮演了舉足輕重的角色。2013年大數(shù)據(jù)技術(shù)開始向商業(yè)、科技、醫(yī)療、政府、教育、經(jīng)濟、交通、物流及社會的各個領(lǐng)域滲透,因此2013年也被稱為大數(shù)據(jù)元年,大數(shù)據(jù)時代悄然開啟。1.2大數(shù)據(jù)4.大數(shù)據(jù)應(yīng)用階段(2017--2022年)從2017年開始,大數(shù)據(jù)已經(jīng)滲透到人們生活的方方面面,在政策、法規(guī)、技術(shù)、應(yīng)用等多重因素的推動下,大數(shù)據(jù)行業(yè)迎來了發(fā)展的爆發(fā)期。全國至少有已有13個省成立了21家大數(shù)據(jù)管理機構(gòu),同時大數(shù)據(jù)也成為高校的熱門專業(yè),申報數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)本科專業(yè)的學校達到293所。近年來,數(shù)據(jù)規(guī)模呈幾何級數(shù)高速成長。據(jù)國際信息技術(shù)咨詢企業(yè)國際數(shù)據(jù)公司(IDC)的報告,2020年全球數(shù)據(jù)存儲量將達到44ZB,到2030年將達到2500ZB。1.2大數(shù)據(jù)

作為人口大國和制造大國,我國數(shù)據(jù)產(chǎn)生能力巨大,大數(shù)據(jù)資源極為豐富。預(yù)計到2020年,我國數(shù)據(jù)總量有望達到8000EB,占全球數(shù)據(jù)總量的21%,將成為名列前茅的數(shù)據(jù)資源大國和全球數(shù)據(jù)中心。據(jù)有關(guān)統(tǒng)計,截至2019年上半年,我國已有82個省級、副省級和地級政府上線了數(shù)據(jù)開放平臺,涉及41.93%的省級行政區(qū)、66.67%的副省級城市和18.55%的地級城市。1.2大數(shù)據(jù)1.2.3大數(shù)據(jù)能做和不能做的事1.大數(shù)據(jù)可以做到的事情(1)診斷分析

:我們每天都在做這個事情,機器更擅長做這個。當一個事件發(fā)生的時候,我們發(fā)現(xiàn)對尋找起因感興趣。比如,設(shè)想在沙漠A掛起了沙暴,我們有沙漠A地區(qū)的各種參數(shù):溫度,氣壓,駱駝,道路,汽車等等。如果我們能將這些參數(shù)跟該地區(qū)的沙暴聯(lián)系起來,如果我們知道一些因果關(guān)系,我們可能就會避免沙暴。1.2大數(shù)據(jù)(2)預(yù)測分析:

我們經(jīng)常做這個事情,預(yù)測分析是根植在我們的基因DNA里的。比如,我們在全球有一個酒店連鎖,現(xiàn)在我們需要找出那些酒店是沒有達到銷售目標的。如果我們查出來的話,我們就可以將盡力對它們進行整改。這成為了預(yù)測分析的經(jīng)典問題。(3)在未知元素間尋找關(guān)聯(lián):進行分析,在未知元素間尋找關(guān)聯(lián)。比方說銷售雇員的數(shù)量跟銷售額真的沒有關(guān)系嗎。你可能會減少一些雇員來看看是否真的對銷售額沒有損失。1.2大數(shù)據(jù)(4)規(guī)范的分析

:這是分析學的未來。比如說我們嘗試著預(yù)測一個以大眾為目標的恐怖襲擊,然后安全的將人們轉(zhuǎn)移的策略。做出這個預(yù)測,你需要做出在那個時候那個地點的游客人數(shù),可能會被爆炸所影響到的地區(qū)等各種預(yù)測。(5)監(jiān)控發(fā)生的事件

:行業(yè)中的大部分人都在做監(jiān)控事件的工作。比如,你需要檢測一個活動的反饋找到強烈和不強烈的部分。這些分析成為運營一個企業(yè)的關(guān)鍵。1.2大數(shù)據(jù)2.大數(shù)據(jù)做不到的事情(1)預(yù)測一個確定的未來

:使用機器學習的工具我們可以達到90%的精度。但是我們無法達到100%的準確。如果我們可以做到的話,我可以確切的告訴你誰才是目標以及每一次100%的響應(yīng)率。但可惜的是這絕不會發(fā)生。(2)無法擺脫無聊的數(shù)據(jù)分析

:在任何分析上,數(shù)據(jù)處理耗費了大部分時間。相信這就是你的創(chuàng)造力和商業(yè)理解的來源??赡艿氖牵銦o法擺脫在你的分析中最無聊的部分。1.2大數(shù)據(jù)(3)找到一個商業(yè)問題的創(chuàng)新的解決方案

:創(chuàng)造力是人類永遠的專利。沒有機器可以找到問題的創(chuàng)新的解決方法。這是因為即使是人工智能也是由人們?nèi)ゾ幋a的產(chǎn)物,創(chuàng)造力是不會從算法自己學習而來的。(4)找到定義不是很明確的問題的解決方法

:分析學最大的挑戰(zhàn)就是從業(yè)務(wù)問題中形成一個分析問題模型。如果你能做得很好,你正在成為一個分析明星。這種角色是機器無法取代你的。1.2大數(shù)據(jù)(5)數(shù)據(jù)管理/簡化新數(shù)據(jù)源的數(shù)據(jù)

:隨著數(shù)據(jù)量的增長,數(shù)據(jù)的管理正在成為一個難題。我們正在處理各種不同結(jié)構(gòu)化的數(shù)據(jù)。比如,圖表數(shù)據(jù)可能更適合網(wǎng)絡(luò)分析但是對活動數(shù)據(jù)是沒用的。這部分信息也是機器無法分析的。1.2大數(shù)據(jù)1.2.4大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是現(xiàn)代新型服務(wù)業(yè)的一種,其主要內(nèi)容主要分為三部分:1.數(shù)據(jù)軟、硬件制造業(yè)大數(shù)據(jù)產(chǎn)業(yè)可以認為是信息產(chǎn)業(yè),其主要內(nèi)容包括一些硬件制造、軟件開發(fā)、軟硬件相結(jié)合的相關(guān)數(shù)據(jù)服務(wù)業(yè),涉及范圍為數(shù)據(jù)相關(guān)軟件制造到數(shù)據(jù)服務(wù)等一系列相關(guān)業(yè)務(wù)。1.2大數(shù)據(jù)2.數(shù)據(jù)服務(wù)業(yè)通常是指用專業(yè)知識和技能給客戶提供解決方案的服務(wù)業(yè)。3.數(shù)據(jù)內(nèi)容業(yè)數(shù)據(jù)內(nèi)容業(yè)主要指以信息為主,涉及到市場的各個領(lǐng)域,通常這些領(lǐng)域主要從事數(shù)據(jù)的整理、采集、加工、傳播等數(shù)據(jù)服務(wù)產(chǎn)業(yè)群。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念1.3.1傳統(tǒng)的大數(shù)據(jù)處理流程具體的大數(shù)據(jù)處理方法其實有很多,但是根據(jù)長時間的實踐,總結(jié)了一個基本的大數(shù)據(jù)處理流程,并且這個流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個處理流程可以概括為四步,分別是采集、導入和預(yù)處理、統(tǒng)計和分析,以及數(shù)據(jù)挖掘。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念1.采集大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,MongoDB這樣的NoSQL非傳統(tǒng)數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作。比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端進行部署大量數(shù)據(jù)庫才能支撐。并且要在如何在這些數(shù)據(jù)庫之間進行負載均衡和分片需要深入的思考和設(shè)計。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念2.統(tǒng)計/分析統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到Oracle數(shù)據(jù)庫系統(tǒng),以及基于MySQL的列式存儲等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念3.導入/預(yù)處理雖然采集端的本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導入時使用來自推特(Twitter)的信息來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務(wù)的實時計算需求。導入與預(yù)處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量通常會達到百兆,甚至千兆級別。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念4.數(shù)據(jù)挖掘與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預(yù)測的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線程為主。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念1.3.2大數(shù)據(jù)核心技術(shù)

今天我們常說的大數(shù)據(jù)技術(shù),其實起源于Google在2004年前后發(fā)表的三篇論文,也就是我們經(jīng)常聽到的“三駕馬車”,分別是分布式文件系統(tǒng)GFS、大數(shù)據(jù)分布式計算框架MapReduce和NoSQL數(shù)據(jù)庫系統(tǒng)BigTable,見下圖1.6。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念大數(shù)據(jù)平臺1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念上圖中的所有這些框架、平臺以及相關(guān)的算法共同構(gòu)成了大數(shù)據(jù)的技術(shù)體系,形成大數(shù)據(jù)技術(shù)原理和應(yīng)用算法構(gòu)建的完整的知識體系。“三駕馬車”其實就是一個文件系統(tǒng)、一個計算框架、一個數(shù)據(jù)庫系統(tǒng)。Google的思路是部署一個大規(guī)模的服務(wù)器集群,通過分布式的方式將海量數(shù)據(jù)存儲在這個集群上,然后利用集群上的所有機器進行數(shù)據(jù)計算。這樣,Google其實不需要買很多很貴的服務(wù)器,它只要把這些普通的機器組織到一起,就非常厲害了。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念當時的天才程序員們啟動了一個獨立的項目專門開發(fā)維護大數(shù)據(jù)技術(shù),這就是后來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計算引擎MapReduce。2012年,美國加州大學伯克利分校開發(fā)的Spark開始嶄露頭角,Spark一經(jīng)推出,立即受到業(yè)界的追捧,并逐步替代MapReduce在企業(yè)應(yīng)用中的地位。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念一般說來,像MapReduce、Spark這類計算框架處理的業(yè)務(wù)場景都被稱作批處理計算,因為它們通常針對以“天”為單位產(chǎn)生的數(shù)據(jù)進行一次計算,然后得到需要的結(jié)果,這中間計算需要花費的時間大概是幾十分鐘甚至更長的時間。因為計算的數(shù)據(jù)是非在線得到的實時數(shù)據(jù),而是歷史數(shù)據(jù),所以這類計算也被稱為大數(shù)據(jù)離線計算。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念而在大數(shù)據(jù)領(lǐng)域,還有另外一類應(yīng)用場景,它們需要對實時產(chǎn)生的大量數(shù)據(jù)進行即時計算,比如對于遍布城市的監(jiān)控攝像頭進行人臉識別和嫌犯追蹤。這類計算稱為大數(shù)據(jù)流計算。流式計算要處理的數(shù)據(jù)是實時在線產(chǎn)生的數(shù)據(jù),所以這類計算也被稱為大數(shù)據(jù)實時計算。在典型的大數(shù)據(jù)的業(yè)務(wù)場景下,數(shù)據(jù)業(yè)務(wù)最通用的做法是,采用批處理的技術(shù)處理歷史全量數(shù)據(jù),采用流式計算處理實時新增數(shù)據(jù)。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念除了大數(shù)據(jù)批處理和流處理,NoSQL系統(tǒng)處理的主要也是大規(guī)模海量數(shù)據(jù)的存儲與訪問,所以也被歸為大數(shù)據(jù)技術(shù)。2011年前后,NoSQL非?;鸨?,各種NoSQL數(shù)據(jù)庫也是層出不群。上面講的這些基本上都可以歸類為大數(shù)據(jù)引擎或者大數(shù)據(jù)框架。而大數(shù)據(jù)處理的主要應(yīng)用場景包括數(shù)據(jù)分析、數(shù)據(jù)挖掘與機器學習。此外,大數(shù)據(jù)要存入分布式文件系統(tǒng)(HDFS),要有序調(diào)度MapReduce和Spark作業(yè)執(zhí)行,并能把執(zhí)行結(jié)果寫入到各個應(yīng)用系統(tǒng)的數(shù)據(jù)庫,還需要有一個大數(shù)據(jù)平臺整合所有這些大數(shù)據(jù)組件和企業(yè)應(yīng)用系統(tǒng)。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念3.3大數(shù)據(jù)技術(shù)分類我們把大數(shù)據(jù)技術(shù)歸納為五大類,如表1.2中所示。(1)基礎(chǔ)架構(gòu)支持主要包括為支撐大數(shù)據(jù)處理的基礎(chǔ)架構(gòu)級數(shù)據(jù)中心管理、云計算平臺、云存儲設(shè)備及技術(shù)、網(wǎng)絡(luò)技術(shù)、資源監(jiān)控等技術(shù)。大數(shù)據(jù)處理需要擁有大規(guī)模物理資源的云數(shù)據(jù)中心和具備高效的調(diào)度管理功能的云計算平臺的支撐。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念(2)數(shù)據(jù)采集技術(shù)數(shù)據(jù)采集技術(shù)是數(shù)據(jù)處理的必備條件,首先需要有數(shù)據(jù)采集的手段,把信息收集上來,才能應(yīng)用上層的數(shù)據(jù)處理技術(shù)。數(shù)據(jù)采集除了各類傳感設(shè)備等硬件軟件設(shè)施之外,主要涉及到的是數(shù)據(jù)的ETL(采集、轉(zhuǎn)換、加載)過程,能對數(shù)據(jù)進行清洗、過濾、校驗、轉(zhuǎn)換等各種預(yù)處理,將有效的數(shù)據(jù)轉(zhuǎn)換成適合的格式和類型。同時,為了支持多源異構(gòu)的數(shù)據(jù)采集和存儲訪問,還需設(shè)計企業(yè)的數(shù)據(jù)總線,方便企業(yè)各個應(yīng)用和服務(wù)之間數(shù)據(jù)的交換和共享。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念(3)數(shù)據(jù)存儲技術(shù)數(shù)據(jù)經(jīng)過采集和轉(zhuǎn)換之后,需要存儲歸檔.針對海量的大數(shù)據(jù),一般可以采用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫的存儲方式,把數(shù)據(jù)分布到多個存儲節(jié)點上,同時還需提供備份、安全、訪問接口及協(xié)議等機制。(4)數(shù)據(jù)計算

我們把與數(shù)據(jù)查詢、統(tǒng)計、分析、預(yù)測、挖掘、圖譜處理、BI商業(yè)智能等各項相關(guān)的技術(shù)統(tǒng)稱為數(shù)據(jù)計算技術(shù).數(shù)據(jù)計算技術(shù)涵蓋數(shù)據(jù)處理的方方面面,也是大數(shù)據(jù)技術(shù)的核心。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念(5)數(shù)據(jù)展現(xiàn)與交互

數(shù)據(jù)展現(xiàn)與交互在大數(shù)據(jù)技術(shù)中也至關(guān)重要,因為數(shù)據(jù)最終需要為人們所使用,為生產(chǎn)、運營、規(guī)劃提供決策支持。選擇恰當?shù)?、生動直觀的展示方式能夠幫助我們更好地理解數(shù)據(jù)及其內(nèi)涵和關(guān)聯(lián)關(guān)系,也能夠更有效地解釋和運用數(shù)據(jù),發(fā)揮其價值。在展現(xiàn)方式上,除了傳統(tǒng)的報表、圖形之外,我們還可以結(jié)合現(xiàn)代化的可視化工具及人機交互手段,甚至是基于最新的如Google眼鏡等增強現(xiàn)實手段,來實現(xiàn)數(shù)據(jù)與現(xiàn)實的無縫接口。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念1.3.4大數(shù)據(jù)分析的方法理論越來越多的應(yīng)用涉及到大數(shù)據(jù),這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以,大數(shù)據(jù)的分析方法是決定最終信息是否有價值的決定性因素?;诖耍髷?shù)據(jù)分析的方法理論有五個基本方面:1.預(yù)測性分析能力(PredictiveAnalyticCapabilities)數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念2.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理(DataQualityandDataManagement)

數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數(shù)據(jù)進行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。3.可視化分析(AnalyticVisualizations)

不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。1.3大數(shù)據(jù)技術(shù)基礎(chǔ)概念4.語義引擎(SemanticEngines)

我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息。5.數(shù)據(jù)挖掘算法(DataMiningAlgorithms)

可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。1.4大數(shù)據(jù)的社會價值2015年9月,國務(wù)院發(fā)布《促進大數(shù)據(jù)發(fā)展行動綱要》,其中重要任務(wù)之一就是“加快政府數(shù)據(jù)開放共享,推動資源整合,提升治理能力”,并明確了時間節(jié)點:2017年跨部門數(shù)據(jù)資源共享共用格局基本形成;2018年建成政府主導的數(shù)據(jù)共享開放平臺,打通政府部門、企事業(yè)單位間的數(shù)據(jù)壁壘,并在部分領(lǐng)域開展應(yīng)用試點;2020年實現(xiàn)政府數(shù)據(jù)集的普遍開放,見圖1.7所示。1.4大數(shù)據(jù)的社會價值1.4大數(shù)據(jù)的社會價值大數(shù)據(jù)技術(shù)的出現(xiàn)實現(xiàn)了巨大的社會價值,主要表現(xiàn)在如下幾個方面:1、能夠推動實現(xiàn)巨大經(jīng)濟效益大數(shù)據(jù)技術(shù)的出現(xiàn)能夠推動社會實現(xiàn)巨大經(jīng)濟效益,比如對中國零售業(yè)凈利潤增長的貢獻,降低制造業(yè)產(chǎn)品開發(fā)、組裝成本等。在2013年全球大數(shù)據(jù)直接和間接拉動信息技術(shù)支出達1200億美元。1.4大數(shù)據(jù)的社會價值2、能夠推動增強社會管理水平大數(shù)據(jù)在公共服務(wù)領(lǐng)域的應(yīng)用,可有效推動相關(guān)工作開展,提高相關(guān)部門的決策水平、服務(wù)效率和社會管理水平,產(chǎn)生巨大社會價值。歐洲多個城市通過分析實時采集的交通流量數(shù)據(jù),指導駕車出行者選擇最佳路徑,從而改善城市交通狀況。1.4大數(shù)據(jù)的社會價值3、如果沒有高性能的分析工具,大數(shù)據(jù)的價值就得不到釋放(1)由于各種原因,所分析處理的數(shù)據(jù)對象中不可避免地會包括各種錯誤數(shù)據(jù)、無用數(shù)據(jù),加之作為大數(shù)據(jù)技術(shù)核心的數(shù)據(jù)分析、人工智能等技術(shù)尚未完全成熟,所以對計算機完成的大數(shù)據(jù)分析處理的結(jié)果,無法要求其完全準確。例如,谷歌通過分析億萬用戶搜索內(nèi)容能夠比專業(yè)機構(gòu)更快地預(yù)測流感暴發(fā),但由于微博上無用信息的干擾,這種預(yù)測也曾多次出現(xiàn)不準確的情況。1.4大數(shù)據(jù)的社會價值(2)必須清楚定位的是,大數(shù)據(jù)作用與價值的重點在于能夠引導和啟發(fā)大數(shù)據(jù)應(yīng)用者的創(chuàng)新思維,輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數(shù)據(jù)能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問題的思路拓展了三倍。1.5大數(shù)據(jù)的商業(yè)應(yīng)用1.5.1商業(yè)大數(shù)據(jù)的類型和價值挖掘方法1、商業(yè)大數(shù)據(jù)的類型(1)傳統(tǒng)企業(yè)數(shù)據(jù):包括CRMsystems的消費者數(shù)據(jù),傳統(tǒng)的ERP數(shù)據(jù),庫存數(shù)據(jù)以及賬目數(shù)據(jù)等。(2)機器和傳感器數(shù)據(jù):包括呼叫記錄,智能儀表,工業(yè)設(shè)備傳感器,物聯(lián)網(wǎng)傳感設(shè)備,設(shè)備日志,交易數(shù)據(jù)等。(3)社交數(shù)據(jù)(Socialdata):包括用戶行為記錄,反饋數(shù)據(jù)等。如推特(Twitter),臉書(Facebook)這樣的社交媒體平臺。1.4大數(shù)據(jù)的社會價值2、大數(shù)據(jù)挖掘商業(yè)價值的方法大數(shù)據(jù)挖掘商業(yè)價值的方法主要分為四種:(1)客戶群體細分,為每個群體量定制特別的服務(wù)。(2)模擬現(xiàn)實環(huán)境,發(fā)掘新的需求同時提高投資的回報率。(3)加強部門聯(lián)系,提高整條管理鏈條和產(chǎn)業(yè)鏈條的效率。(4)降低服務(wù)成本,發(fā)現(xiàn)隱藏線索進行產(chǎn)品和服務(wù)的創(chuàng)新。1.4大數(shù)據(jù)的社會價值3.傳統(tǒng)商業(yè)智能技術(shù)與大數(shù)據(jù)應(yīng)用的比較傳統(tǒng)的傳統(tǒng)商業(yè)智能技術(shù),包括數(shù)據(jù)挖掘,主要任務(wù)是建立比較復(fù)雜的數(shù)據(jù)倉庫模型、數(shù)據(jù)挖掘模型,來進行分析和處理不太多的數(shù)據(jù)。由于云計算模式、分布式技術(shù)和云數(shù)據(jù)庫技術(shù)的應(yīng)用,我們不需要這么復(fù)雜的模型,不用考慮復(fù)雜的計算算法,就能夠處理大數(shù)據(jù),對于不斷增長的業(yè)務(wù)數(shù)據(jù),用戶也可以通過添加低成本服務(wù)器甚至是PC機也可以處理海量數(shù)據(jù)記錄的掃描、統(tǒng)計、分析、預(yù)測。1.4大數(shù)據(jù)的社會價值如果商業(yè)模式變化了,需要一分為二,那么新商業(yè)智能系統(tǒng)也可以很快地、相應(yīng)地一分為二,繼續(xù)強力支撐商業(yè)智能的需求。大數(shù)據(jù)蘊含的商機見下圖。

1.4大數(shù)據(jù)的社會價值1.5.2大數(shù)據(jù)給中國帶來的十大商業(yè)應(yīng)用場景在未來的幾十年里,大數(shù)據(jù)影響著每一個人。大數(shù)據(jù)沖擊著許多主要行業(yè),包括零售業(yè)、金融行業(yè)、醫(yī)療行業(yè)等,大數(shù)據(jù)也在徹底地改變著我們的生活。1、智慧城市如今,世界超過一半的人口生活在城市里,到2050年這一數(shù)字會增長到75%。政府需要利用一些技術(shù)手段來管理好城市,使城市里的資源得到良好配置。大數(shù)據(jù)作為其中的一項技術(shù)可以有效幫助政府實現(xiàn)資源科學配置,精細化運營城市,打造智慧城市。1.4大數(shù)據(jù)的社會價值2、金融行業(yè)大數(shù)據(jù)在金融行業(yè)應(yīng)用范圍較廣,很多金融行業(yè)建立了大數(shù)據(jù)平臺,對金融行業(yè)的交易數(shù)據(jù)進行采集和處理。大數(shù)據(jù)在金融行業(yè)的應(yīng)用主要應(yīng)用于精準營銷、風險管控、決策支持、效率提升、金融產(chǎn)品設(shè)計等五個方面。3、醫(yī)療行業(yè)醫(yī)療行業(yè)擁有大量病例、病理報告、醫(yī)療方案、藥物報告等。如果這些數(shù)據(jù)進行整理和分析,將會極大地幫助醫(yī)生和病人。在未來,借助于大數(shù)據(jù)平臺我們可以收集疾病的基本特征、病例和治療方案,建立針對疾病的數(shù)據(jù)庫,幫助醫(yī)生進行疾病診斷。1.4大數(shù)據(jù)的社會價值4、農(nóng)牧業(yè)農(nóng)產(chǎn)品不容易保存,合理種植和養(yǎng)殖農(nóng)產(chǎn)品對農(nóng)民非常重要。借助于大數(shù)據(jù)提供的消費能力和趨勢報告,政府將為農(nóng)牧業(yè)生產(chǎn)進行合理引導,依據(jù)需求進行生產(chǎn),避免產(chǎn)能過剩,造成不必要的資源和社會財富浪費。大數(shù)據(jù)技術(shù)可以幫助政府實現(xiàn)農(nóng)業(yè)的精細化管理,實現(xiàn)科學決策。在數(shù)據(jù)驅(qū)動下,結(jié)合無人機技術(shù),農(nóng)民可以采集農(nóng)產(chǎn)品生長信息,病蟲害信息。1.4大數(shù)據(jù)的社會價值5、零售行業(yè)零售行業(yè)可以通過客戶購買記錄,了解客戶關(guān)聯(lián)產(chǎn)品購買喜好,將相關(guān)的產(chǎn)品放到一起增加產(chǎn)品銷售額。零售行業(yè)還可以記錄客戶購買習慣,對于必備生活用品,在客戶即將用完之前,通過精準廣告的方式提醒客戶進行購買。或者定期通過網(wǎng)上商城進行送貨,既幫助客戶解決了問題,又提高了客戶體驗。利用大數(shù)據(jù)的技術(shù),零售行業(yè)將至少會提高30%左右的銷售額,并提高客戶購買體驗。1.4大數(shù)據(jù)的社會價值6、大數(shù)據(jù)技術(shù)產(chǎn)業(yè)進入移動互聯(lián)網(wǎng)之后,非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)方式增長?,F(xiàn)在人類社會每兩年產(chǎn)生的數(shù)據(jù)將超過人類歷史過去所有數(shù)據(jù)的總量。這些大數(shù)據(jù)為大數(shù)據(jù)技術(shù)產(chǎn)業(yè)提供了巨大的商業(yè)機會。據(jù)估計全世界在大數(shù)據(jù)采集、存儲、處理、清晰、分析所產(chǎn)生的商業(yè)機會將會超過2000億美金,包括政府和企業(yè)在大數(shù)據(jù)計算和存儲,數(shù)據(jù)挖掘和處理等方面等投資。未來中國的大數(shù)據(jù)產(chǎn)業(yè)將會呈幾何級數(shù)增長,在5年之內(nèi),中國的大數(shù)據(jù)產(chǎn)業(yè)將會形成萬億規(guī)模的市場。1.4大數(shù)據(jù)的社會價值7、物流行業(yè)物流行業(yè)借助于大數(shù)據(jù),可以建立全國物流網(wǎng)絡(luò),了解各個節(jié)點的運貨需求和運力,合理配置資源,降低貨車的返程空載率,降低超載率,減少重復(fù)路線運輸,降低小規(guī)模運輸比例。通過大數(shù)據(jù)技術(shù),及時了解各個路線貨物運送需求,同時建立基于地理位置和產(chǎn)業(yè)鏈的物流港口,實現(xiàn)貨物和運力的實時配比,提高物流行業(yè)的運輸效率。借助于大數(shù)據(jù)技術(shù)對物流行業(yè)進行的優(yōu)化資源配置,至少可以增加物流行業(yè)10%左右的收入,其市場價值將在5000億左右。1.4大數(shù)據(jù)的社會價值8、房地產(chǎn)業(yè)借助于大數(shù)據(jù),房地產(chǎn)業(yè)可以了解開發(fā)土地所在范圍常駐人口數(shù)量、流動人口數(shù)量、消費能力、消費特點、年齡階段、人口特征等重要信息。這些信息將會幫助房地商在商業(yè)地產(chǎn)開發(fā)、商戶招商、房屋類型、小區(qū)規(guī)模進行科學規(guī)劃。利用大數(shù)據(jù)技術(shù),房地產(chǎn)行業(yè)將會降低房地產(chǎn)開發(fā)前的規(guī)劃風險,合理制定房價,合理制定開發(fā)規(guī)模,合理進行商業(yè)規(guī)劃。已經(jīng)有房地產(chǎn)公司將大數(shù)據(jù)技術(shù)應(yīng)用于用戶畫像、土地規(guī)劃、商業(yè)地產(chǎn)開發(fā)等領(lǐng)域,并取得了良好的效果。1.4大數(shù)據(jù)的社會價值9、制造業(yè)制造業(yè)過去面臨生產(chǎn)過剩的壓力,很多產(chǎn)品包括家電、紡織產(chǎn)品、鋼材、水泥、電解鋁等都沒有按照市場實際需要生產(chǎn),造成了資源的極大浪費。利用電商數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)、零售數(shù)據(jù),我們可以了解未來產(chǎn)品市場都需求,合理規(guī)劃產(chǎn)品生產(chǎn),避免生產(chǎn)過剩。大數(shù)據(jù)技術(shù)還可以根據(jù)社交數(shù)據(jù)和購買數(shù)據(jù)來了解客戶需求,幫助廠商進行產(chǎn)品開發(fā),設(shè)計和生產(chǎn)出滿足客戶需要的產(chǎn)品。1.4大數(shù)據(jù)的社會價值10、互聯(lián)網(wǎng)廣告業(yè)大數(shù)據(jù)技術(shù)可以將客戶在互聯(lián)網(wǎng)上的行為記錄下來,對客戶的行為進行分析,打上標簽并進行用戶畫像。利用移動互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)進行的精準營銷將會提高十倍以上的客戶轉(zhuǎn)化率,廣告行業(yè)的程序化購買正在逐步替代廣播式廣告投放。大數(shù)據(jù)技術(shù)將幫助廣告主和廣告公司直接將廣告投放給目標用戶,其將會降低廣告投入,提高廣告的轉(zhuǎn)化率。1.4大數(shù)據(jù)的社會價值1.5.3.成為“大數(shù)據(jù)企業(yè)”基于以上分析,企業(yè)內(nèi)部大數(shù)據(jù)的焦點,在于業(yè)務(wù)流程信息與知識及溝通信息的融合;企業(yè)外部大數(shù)據(jù)的焦點,在于供應(yīng)鏈信息與市場及社會環(huán)境信息的融合。進而,大數(shù)據(jù)時代企業(yè)組織的基本內(nèi)涵,在于內(nèi)部大數(shù)據(jù)與外部大數(shù)據(jù)的全方位融合。如下圖所示,大數(shù)據(jù)企業(yè)立足于內(nèi)外部業(yè)務(wù)與社交媒體數(shù)據(jù)的集成交匯。1.4大數(shù)據(jù)的社會價值大數(shù)據(jù)企業(yè)的內(nèi)外融合

1.4大數(shù)據(jù)的社會價值在這四大類型的數(shù)據(jù)之間,致力于大數(shù)據(jù)管理的企業(yè)可以有兩種不同的發(fā)展策略。第一種策略是以社交媒體與業(yè)務(wù)數(shù)據(jù)的融合為主導,以期快速發(fā)現(xiàn)并應(yīng)對內(nèi)外部環(huán)境中的變化和機遇。在這種策略下,面向高速數(shù)據(jù)流的實時數(shù)據(jù)采集和分析方法,將成為大數(shù)據(jù)管理的主要支撐手段。1.4大數(shù)據(jù)的社會價值第二種策略是以內(nèi)外部數(shù)據(jù)融合為主導,以期通過全面匯集內(nèi)外部信息,對中長期發(fā)展趨勢做出準確的預(yù)判,從而實現(xiàn)高度優(yōu)化的業(yè)務(wù)決策,并通過對信息環(huán)境的掌控,獲取企業(yè)網(wǎng)絡(luò)生態(tài)系統(tǒng)中的領(lǐng)導地位。在這種策略下,大規(guī)模多源異構(gòu)數(shù)據(jù)的采集、清洗和整合方法,將成為大數(shù)據(jù)管理的核心支撐。1.6大數(shù)據(jù)應(yīng)用案例之一:

1.6大數(shù)據(jù)應(yīng)用案例之一:男女嘉賓《非誠勿擾》牽手數(shù)據(jù)分析《非誠勿擾》是由中國大陸江蘇衛(wèi)視制作的一檔以婚戀交友為核心的社會生活服務(wù)真人秀節(jié)目,于2010年1月15日開播,由江蘇電視臺的新聞節(jié)目主持人孟非主持。1.6大數(shù)據(jù)應(yīng)用案例之一:

截止到2015年Q3為止,一共做了539期節(jié)目,至少1508名女嘉賓和2382名男嘉賓參與節(jié)目,成功促成了其中419對牽手男女嘉賓

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論