大數(shù)據(jù)的介紹及案例分享_第1頁
大數(shù)據(jù)的介紹及案例分享_第2頁
大數(shù)據(jù)的介紹及案例分享_第3頁
大數(shù)據(jù)的介紹及案例分享_第4頁
大數(shù)據(jù)的介紹及案例分享_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)的介紹及案例分享1目錄 大數(shù)據(jù)的概念 大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別? 大數(shù)據(jù)的典型特征(3V) 廣義的大數(shù)據(jù) 大數(shù)據(jù)應用案例2大數(shù)據(jù)的概念 大數(shù)據(jù)(Big Data)是指無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合 簡單一點的說,就是用現(xiàn)有一般技術難以管理的數(shù)據(jù)。3大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別? 小明去了一百次書店 傳統(tǒng)數(shù)據(jù):要回答的問題是他第一百零一次買不買書,即業(yè)績和經(jīng)營指標的問題; 大數(shù)據(jù):要回答的是他第一百零一次買什么書,需要將什么樣的內(nèi)容推薦給他。 群體和個體的區(qū)別 傳統(tǒng)定義上,更多關注的是一類人群,用同一類規(guī)則制訂套餐給他們; 互聯(lián)網(wǎng)時代,要把每個人都精

2、準刻畫出來,進行精準匹配。4大數(shù)據(jù)的典型特征(3V) Volume(容量) 現(xiàn)在基本上是指從幾十TB到幾PB這樣的數(shù)量級,未來,可能只有幾EB數(shù)量級的數(shù)據(jù)量才能稱得上是大數(shù)據(jù)了。 Variety(多樣性) 結構化和非結構化數(shù)據(jù) Velocity(速度) 數(shù)據(jù)產(chǎn)生和更新的頻率5廣義的大數(shù)據(jù) 所謂大數(shù)據(jù),是一個綜合性概念,它包括:(1)因具備3V特征而難以進行管理的數(shù)據(jù)(2)對這些數(shù)據(jù)進行存儲、處理、分析的技術(3)以及能夠通過分析這些數(shù)據(jù)獲得實用意義和觀點的人才和組織6大數(shù)據(jù)的應用案例7穿孔卡片與美國人口普查 美國在1880年進行的人口普查,耗時8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過

3、時的。 1890年進行的人口普查,預計要花費13年的時間來匯總數(shù)據(jù)。 后來,美國人口普查局通過用赫爾曼-霍爾瑞斯發(fā)明的穿孔卡片制表機來進行1890年的人口普查,耗時一年。8麻省理工與通貨緊縮預測軟件 美國勞工統(tǒng)計局的人員每個月都要公布消費物價指數(shù)(CPI),這是用來測試通貨膨脹率的。 政府通過人工采集價格信息數(shù)據(jù)每年大概需要花費兩億五千萬美元。這些數(shù)據(jù)是精確的也是有序的,但是數(shù)據(jù)往往會有幾周的滯后。 麻省理工學院(MIT)的兩位經(jīng)濟學家,通過一個軟件在互聯(lián)網(wǎng)上每天可以收集到50萬種商品的價格,他們能比官方數(shù)據(jù)提前發(fā)現(xiàn)通貨緊縮趨勢。9沃爾瑪,請把蛋撻與颶風用品擺在一起 通過對歷史交易記錄這個龐大

4、數(shù)據(jù)庫進行觀察,沃爾瑪注意到,每當季節(jié)性颶風來臨之前,不僅手電筒銷量增加,而且美式早餐含糖零食蛋撻銷量也增加了。 因此每當季節(jié)性颶風來臨時,沃爾瑪就會把蛋撻與颶風用品擺放在一起,從而增加銷量。10沃爾瑪:東海岸中海岸西海岸 在美國,東海岸、中海岸、西海岸之間有兩小時時差。 東海岸的沃爾瑪營業(yè)兩小時后之后,中海岸才開始營業(yè),沃爾瑪就會把東海岸當天這兩小時的營業(yè)情況、相關數(shù)據(jù)傳給中海岸。 中海岸就會根據(jù)這個數(shù)據(jù)知道了這天人們的購物喜好,決定貨品怎么擺放,哪些貨物擺放在一起會比較好。 這種方式給沃爾瑪帶來了很大的利潤。11美國折扣零售商塔吉特與懷孕預測 塔吉特公司能在不被清楚告知的情況下預測出一個女

5、性的懷孕情況 該公司找出了大概20多種與懷孕的關聯(lián)物,給顧客進行“懷孕趨勢”評分 這些數(shù)據(jù)甚至使得零售商能夠比較準確地預測預產(chǎn)期,這樣就能夠在孕期的每個階段給客戶寄送相應的優(yōu)惠券12Hitwise,通過流量判斷消費者喜好 數(shù)據(jù)創(chuàng)新再利用的一個典型例子是搜索關鍵詞。 消費者和搜索引擎之間的瞬時交互形成了一個網(wǎng)站和廣告的列表,實現(xiàn)了那一刻的特定功能。這些信息除了實現(xiàn)基本用途之外,它還可以變得非常有價值。 如數(shù)據(jù)代理益百利旗下的網(wǎng)頁流量測量公司Hitwise,讓客戶采集搜索流量來揭示消費者的喜好。13物聯(lián)網(wǎng) 物聯(lián)網(wǎng)(Internet of Things,縮寫IOT)是一個基于互聯(lián)網(wǎng)、傳統(tǒng)電信網(wǎng)等信息

6、承載體,讓所有能夠被獨立尋址的普通物理對象實現(xiàn)互聯(lián)互通的網(wǎng)絡。 在物聯(lián)網(wǎng)上,每個人都可以應用電子標簽將真實的物體上網(wǎng)聯(lián)結,在物聯(lián)網(wǎng)上都可以查找出它們的具體位置。 通過物聯(lián)網(wǎng)可以用中心計算機對機器、設備、人員進行集中管理、控制,也可以對家庭設備、汽車進行遙控,以及搜尋位置、防止物品被盜等各種應用。14RFID技術 RFID是Radio Frequency Identification的縮寫,即射頻識別,俗稱電子標簽。 RFID是一種簡單的無線系統(tǒng),由一個詢問器(或閱讀器)和很多應答器(或標簽)組成。該系統(tǒng)用于控制、檢測和跟蹤物體。 RFID技術在超市和圖書館中的應用15車聯(lián)網(wǎng) 未來車聯(lián)網(wǎng)技術將重

7、新定義汽車DNA。借助無線通訊,城市內(nèi)車與車之間,車與建筑之間,車與人之間都將建立更加智能緊密的互聯(lián)。 通過裝載在車輛上的電子標簽利用無線射頻等識別技術,實現(xiàn)在信息網(wǎng)絡平臺上對所有車輛的屬性信息和靜、動態(tài)信息進行提取和有效利用,并根據(jù)不同的功能需求對所有車輛的運行狀態(tài)進行有效的監(jiān)管和提供綜合服務。16無人駕駛 無人駕駛被人認為是車聯(lián)網(wǎng)的終極目標 無人駕駛車依賴的技術很多,比如導航、雷達、龐大數(shù)據(jù)計算等,要實現(xiàn)這些技術需要和物聯(lián)網(wǎng)緊密結合起來。 無人駕駛是通過車載傳感系統(tǒng)感知道路環(huán)境,自動規(guī)劃行車路線并控制車輛到達預定目標的智能汽車。17自動泊車系統(tǒng) 自動泊車系統(tǒng),顧名思義駕駛者雙手可以離開方向

8、盤,在車輛停好之前要做的只是等待。 自動泊車系統(tǒng)主要由兩部分組成:控制單元和位于前后保險杠以及兩側(cè)的超聲波雷達探頭。 按動自動泊車輔助系統(tǒng)激活按鈕之后,雷達探頭可在車輛行駛時對車輛兩側(cè)進行掃描。 控制單元對雷達反饋的信息進行分析,從而估算出車位是否足以容納車輛停放。 自動泊車系統(tǒng)隨后將通過助力轉(zhuǎn)向系統(tǒng)對車輛行駛方向進行干預,并以控制單元規(guī)劃好的路徑將車輛停入車位。18日本先進工業(yè)技術研究院的坐姿研究與汽車防盜系統(tǒng) 該研究所教授把每個駕車者的坐姿量化為精確的數(shù)據(jù),使其對司機識別的正確率高達98%。 這項技術作為汽車防盜系統(tǒng),一旦識別駕車者不是車主,就會自動熄火。 這一技術還可匯集事故發(fā)生前駕車者

9、的姿勢變化數(shù)據(jù),分析坐姿與行駛安全的關系,在司機疲勞駕駛時發(fā)出警示或自動剎車。19UPS快遞大數(shù)據(jù)技術下的最佳行車路徑 UPS快遞多效地利用了地理定位數(shù)據(jù)。為了使總部能在車輛出現(xiàn)晚點的時候跟蹤到車輛的位置和預防引擎故障,它的貨車上裝有傳感器、無線適配器和GPS。同時,這些設備也方便了公司監(jiān)督管理員工并優(yōu)化行車線路。 UPS為貨車定制的最佳行車路徑是根據(jù)過去的行車經(jīng)驗總結而來的。2011年,UPS的駕駛員少跑了近4828萬公里的路程,節(jié)省了300萬加侖的燃料并且減少了3萬公噸的二氧化碳排放量。20UPS與汽車修理預測 UPS國際快遞公司從2000年就開始使用預測性分析來監(jiān)測自己全美60000輛車

10、規(guī)模的車隊,這樣就能及時地進行防御性的修理。 通過監(jiān)測車輛的各個部位,UPS只需要更換需要更換的零件,從而節(jié)省了好幾百萬美元。21谷歌與甲型H1N1流感 2009年出現(xiàn)的甲型H1N1流感,當時還沒有研發(fā)出對抗這種新型流感病毒的疫苗,公共衛(wèi)生專家能做的只是減慢它傳播的速度。但要做到這一點,他們必須先知道這種流感出現(xiàn)在哪里。 疾控中心得到流感方面的信息往往會有一兩周的滯后,這種滯后導致公共衛(wèi)生機構在疫情爆發(fā)的關鍵時期反而無所適從。 谷歌通過觀察人們在網(wǎng)上的搜索記錄來預測流感的傳播,得到的信息是非常準確和及時的。22“量化自我” 通過一種非干預的手段,把一些所謂的醫(yī)療傳感器放到我們的身邊,比如我們戴

11、一個腕表、一枚戒指、一個耳塞、一副眼鏡等,通過這些設備我們可以了解自己的心跳、血壓情況,甚至包括我們體表的健康狀況,從而對一些大?。ㄈ绨d癇等)進行早期預測。 美國Fitbit公司近期就推出了一款免費的蘋果手機應用,用戶可用于記錄食物和液體攝入量,從而跟蹤其活動水平和營養(yǎng)攝入情況,通過分析這些數(shù)據(jù)可以很好的控制體重。23小兒床墊 通過床墊上的壓力與濕度傳感器分析,來判斷小孩子有沒有比較嚴重的打鼾或者睡姿不正確等問題。24在線教育 如著名的在線教育公司Coursera,已經(jīng)和普林斯頓、伯克利、賓夕法尼亞大學等30多所大學合作,在互聯(lián)網(wǎng)上免費開放大學課程 分布在世界各地的學習者不僅可以在同一時間實時

12、聽取同一位老師的授課,還和在校生一樣,做同樣的作業(yè)、接受同樣的評分和考試。 在線教育是一個“行為評價和誘導”的智能平臺25在線教育服務Knewton 在線教育服務Knewton是大數(shù)據(jù)應用于教育行業(yè)的典型,通過數(shù)據(jù)分析區(qū)分出每個學生的優(yōu)缺點,從而給學生有效的指導。 美國最大的公立大學亞利桑那州公立大學曾運用這一系統(tǒng)來提高學生的數(shù)學水平,全校2000名學生使用該系統(tǒng)兩學期之后,該大學的輟學率下降了56%,畢業(yè)率從64%升高到75%。26購買飛機票 同一架飛機上的座位,票價卻千差萬別,個中原因,只有航空公司知道。 奧倫-埃齊奧尼開發(fā)了一個系統(tǒng),用來推測當前網(wǎng)頁上的機票價格是否合理,預測當前的機票價

13、格在未來一段時間內(nèi)會上漲還是下降,從而幫助乘客明智購票。 這個預測系統(tǒng)建立在41天內(nèi)價格波動產(chǎn)生的12000個價格樣本基礎之上。27航班延誤之候機經(jīng)濟學 美國建立了一個統(tǒng)一的數(shù)據(jù)開放門戶網(wǎng)站Data.Gov。 Data.Gov上線以后,美國交通部開放了全美航班起飛、到達、延誤的數(shù)據(jù)。 航班延誤時間的分析系統(tǒng)(Flyontime.us):幫助消費者找到表現(xiàn)最佳,最符合自己需要的航班。 該系統(tǒng)向全社會免費開放,任何人都可以通過它查詢分析全國各次航班的延誤率及機場等候時間。28The-N與電影票房預測 The-N在好萊塢電影上映之前,就能利用海量數(shù)據(jù)和特定算法預測出一部電影的票房。 該公司擁有一個包

14、括了過去幾十年美國所有商業(yè)電影大約3000萬條記錄的數(shù)據(jù)庫;數(shù)據(jù)庫里有所有關于預算、電影流派、拍攝、陣容、獲得獎項和收入等數(shù)據(jù)。29VISAMasterCard與商戶推薦 像VISA和MasterCard這樣的信用卡發(fā)行商,它們能夠從自己的服務網(wǎng)獲取更多的交易信息和顧客的消費信息 它們的商業(yè)模式從單純的處理支付行為轉(zhuǎn)變成了收集數(shù)據(jù) 一個稱為MasterCard Advisors的部門收集和分析了來自210個國家的15億信用卡用戶的650億條交易記錄,用來預測商業(yè)發(fā)展和客戶的消費趨勢。然后,它把這些分析結果賣給其他公司30FICO,“我們知道你明天會做什么” 2011年,F(xiàn)ICO提出了“遵從醫(yī)囑

15、評分”它分析一系列的變量來確定這個人是否會按時吃藥,包括一些看起來有點怪異的變量。 比方說,一個人在某地居住了多久,這個人結婚了沒有,他多久換一個工作以及他是否有私家車。 這個評分會幫助醫(yī)療機構節(jié)省開支,因為它們會知道哪些人需要得到它們的用藥提醒。有私家車和使用抗生素并沒有因果關系,這只是一種相關關系。31中英人壽保險有限公司(Aviva) 中英人壽保險有限公司(Aviva)是一家大型保險公司,他們想利用信用報告和顧客市場分析數(shù)據(jù)來作為部分申請人的血液和尿液分析的關聯(lián)物。 這些分析結果被用來找出更有可能患高血壓、糖尿病和抑郁癥的人。其中用來分析的數(shù)據(jù)包括好幾百種生活方式的數(shù)據(jù),比如愛好、常瀏覽

16、的網(wǎng)站、常看的節(jié)目、收入估計等。 通過利用相關關系,保險公司可以在每人身上節(jié)省125美元,然而這個純數(shù)據(jù)分析法只需要花費5美元。32Xoom與跨境匯款異常交易報警 Xoom是一個專門從事跨境匯款業(yè)務的公司,它會分析一筆交易的所有相關數(shù)據(jù),一旦發(fā)現(xiàn)用“發(fā)現(xiàn)卡”從新澤西州匯款的交易比平常多的話,系統(tǒng)就會報警。33無所不包的谷歌翻譯系統(tǒng) 2006年,谷歌公司開始涉足機器翻譯。這被當作實現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個目標的一個步驟。 谷歌翻譯利用一個更大更繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng)。 谷歌翻譯系統(tǒng)為了訓練計算機,會吸收它能找到的所有翻譯。它增加了很多各種各樣的數(shù)據(jù),還接受了有錯誤的數(shù)據(jù)。 谷歌語料庫的內(nèi)容來自于未經(jīng)過濾的網(wǎng)頁內(nèi)容,所以會包含各種錯誤。但谷歌語料庫是其他語料庫的好幾百萬倍大,這樣的優(yōu)勢完全壓倒了缺點34谷歌,從大的“噪音”數(shù)據(jù)中受益 谷歌知道人們在搜索時點擊的是第1頁的第8個鏈接還是第8頁的第1個鏈接,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論