




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
認識大數(shù)據(jù)第五章
數(shù)據(jù)處理和可視化表達12場景一:當我們打開淘寶、拼多多等購物軟件時,首頁會顯示出推薦的商品。為什么購物軟件推薦的商品總是很合我們心意?場景二:當我們打開抖音、嗶哩嗶哩等視頻軟件時,首頁會顯示出推薦的視頻。為什么打開視頻軟件就刷到停不下來了?用戶網(wǎng)絡購物行為分析大數(shù)據(jù)分析播放時長點贊視頻類型評論教育程度性別年齡地域職業(yè)搜索記錄用戶觀看視頻行為分析身邊的大數(shù)據(jù)3數(shù)據(jù)大數(shù)據(jù)大范圍、長時間、多對象4
大數(shù)據(jù)的產生:大范圍:地球各個角落長時間:每時每刻都在產生多對象:物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、手機、電腦、傳感器大數(shù)據(jù)的概念:
大數(shù)據(jù):是指無法在可承受的時間范圍內用常規(guī)軟件工具
進行高校捕捉,管理和處理的數(shù)據(jù)集合一、大數(shù)據(jù)5大數(shù)據(jù)的產生和意義大數(shù)據(jù)的產生是與人類日益普及的網(wǎng)絡行為所伴生的。互聯(lián)網(wǎng)生成的數(shù)據(jù)量,不僅遠超此前一切人類所生成的數(shù)據(jù)量的總和,而且在以大爆發(fā)性的速度不斷增長。在天氣預報、大氣監(jiān)測、地球物理探礦和天體運動觀測等科學實驗和科學觀察等活動中,各種各樣的傳感器每時每刻都在產生大量的數(shù)據(jù)。大數(shù)據(jù)已成為人們提取信息、做出決策的重要依據(jù),是推動信息社會發(fā)展的重要資源。交通大數(shù)據(jù)購物大數(shù)據(jù)新冠肺炎大數(shù)據(jù)氣象大數(shù)據(jù)6二、大數(shù)據(jù)的特征7二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度)大量(volume)多樣(variety)價值密度低(value)高速(velocity)8①大量(volume):數(shù)據(jù)體量巨大。大數(shù)據(jù)到底有多大?表情包:35.3KB一首音樂:2.7MB手機內存128GB256GB512GB硬盤1TB2TB4TB1KB1024B1MB1024KB1GB1024MB1TB1024GB8b(位)1B(字節(jié))二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度)9大數(shù)據(jù)級別的單位:PBEB1PB=1024TB(PB-petabyte)1EB=1024PB(EB-exabyte)二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度)10有多大?存儲2億張照片2億首MP3音樂
1PB2個服務器1PB約相當于1024*200個王者榮耀5GB二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度)111EB2000個服務器果并排放這些服務器,可以連綿1.2公里那么長。如果擺放在機房里,需要21個標準籃球場那么大的機房阿里、騰訊、百度阿里數(shù)據(jù)中心的內景
EB級別21個二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度)121ZB1ZB=1024EB服務器需要用42個鳥巢才能容納二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度)13②多樣(variety):網(wǎng)絡日志、音頻、視頻、圖片、地理位置….網(wǎng)絡日志
音頻
視頻
圖片
地理位置二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度)14③價值密度低(value):在大量的監(jiān)控視頻里找犯罪分子,只有幾秒鐘有用二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度)15④高速(velocity):數(shù)據(jù)來自世界各地,每時每刻都在變化大數(shù)據(jù)剛剛過去的一分鐘數(shù)據(jù)世界里發(fā)生了什么?Twitter:98000條推送被發(fā)出Facebook:69.5萬條狀態(tài)被更新12306:5000+車票被賣出Google:200萬次搜索請求被提交email:Email:2.04億封被發(fā)出二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度)16①
樣本漸趨于總體:在大數(shù)據(jù)時代強調數(shù)據(jù)要全量而不是抽樣,即強調數(shù)據(jù)規(guī)模全量,而不是強調數(shù)量巨大。大數(shù)據(jù)時代有了更好的數(shù)據(jù)采集手段,讓獲取全量數(shù)據(jù)成為可能。二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)思維角度來看)案例:搜索引擎公司通過跟蹤網(wǎng)民對“感冒癥狀”以及“治療”等關鍵詞的搜索,發(fā)現(xiàn)某個時段在某個區(qū)域內搜索數(shù)量急劇增長,從而成功預測了甲型H1N1流感的暴發(fā)時間、地域。電子問卷、面向所有人、各種聯(lián)網(wǎng)信息系統(tǒng)數(shù)據(jù)全面,省時省力現(xiàn)在采集數(shù)據(jù)紙質問卷、抽取樣本、人工整理和分析數(shù)據(jù)數(shù)據(jù)不全,耗時耗力以前采集數(shù)據(jù)17②
精確讓位于模糊:在大數(shù)據(jù)時代,只要掌握了大體的發(fā)展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力。二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)思維角度來看)案例:搜索引擎公司通過跟蹤網(wǎng)民對“感冒癥狀”以及“治療”等關鍵詞的搜索,發(fā)現(xiàn)某個時段在某個區(qū)域內搜索數(shù)量急劇增長,從而成功預測了甲型H1N1流感的暴發(fā)時間、地域。18②
相關性重于因果:在大數(shù)據(jù)時代,無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能準確地告訴我們某件事情為何會發(fā)生,但是會提醒我們這件事情正在發(fā)生。二、大數(shù)據(jù)的特征(從互聯(lián)網(wǎng)思維角度來看)案例:搜索引擎公司通過跟蹤網(wǎng)民對“感冒癥狀”以及“治療”等關鍵詞的搜索,發(fā)現(xiàn)某個時段在某個區(qū)域內搜索數(shù)量急劇增長,從而成功預測了甲型H1N1流感的暴發(fā)時間、地域。甲型H1N1流感的爆發(fā)時間、地域某個時段在某個區(qū)域內搜索數(shù)量結果數(shù)據(jù)數(shù)據(jù)與結果之間直接存在相關關系,但不存在因果關系相關關系是指A變時B也變,A與B之間存在一定的聯(lián)系,但A變并不是導致B變的原因。因果關系是指A變時B也變,并且A變是導致B變的原因。二、大數(shù)據(jù)的特征(從大數(shù)據(jù)存儲與計算的角度看)案例:目前,某基于大數(shù)據(jù)的網(wǎng)約車平臺已覆蓋全國400多個城市,涵蓋出租車、快車、順風車、代駕、專車、試駕以及租車等多項業(yè)務,為人們的出行帶來極大的便利。我們只需在網(wǎng)約車APP上輸入或者說出目的地,強大的智能系統(tǒng)就立刻分配訂單,即時通知附近司機;借助定時定位系統(tǒng),我們可以看到司機的大致位置以及預計到達時間。分布式處理:將不同地點的,或具有不同功能的,或擁有不同數(shù)據(jù)的多臺計算機,通過網(wǎng)絡連接起來,在控制系統(tǒng)的統(tǒng)一管理控制下,協(xié)調地完成大規(guī)模信息處理任務的計算機系統(tǒng)。包括分布式存儲(云存儲)和分布式并行計算(云計算)。20傳統(tǒng)數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)量小數(shù)據(jù)體量巨大數(shù)據(jù)類型少數(shù)據(jù)類型繁多價值密度高價值密度低更新速度慢更新速度快追求數(shù)據(jù)精確性追求數(shù)據(jù)模糊性本地存儲分布式存儲三、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別21
大數(shù)據(jù)使人們日常生活更加便捷四、大數(shù)據(jù)對日常生活的影響1、方便支付。中國是全球最大的移動支付市場。醫(yī)院、餐廳、菜市場、加油站,甚至路邊攤,都在使用移動支付。中國人今天的生活,已經(jīng)越來越有科技含量。2、方便出行。應用交通系統(tǒng)的大數(shù)據(jù),網(wǎng)絡約車出行,智能導航行車避免堵車,無人駕駛,智能地圖方便尋路,等等。22
大數(shù)據(jù)使人們日常生活更加便捷四、大數(shù)據(jù)對日常生活的影響3、方便購物與產品推介。網(wǎng)絡購物不但節(jié)省人們出行購物的時間,而且?guī)椭髽I(yè)有效判斷用戶的信息需求和消費需求,對客戶進行產品推介,方便人們選購產品。4、方便看病與診病。應用網(wǎng)絡預約掛號,減輕與節(jié)省患者排隊掛號看病的辛勞與時間;同時,又方便醫(yī)生提前分析患者的病史數(shù)據(jù),以便更科學診病?!詫毝兑綦娚唐炊喽嗑〇|23國內1.微博5.38億用戶數(shù)據(jù)在暗網(wǎng)出售2.青島市膠州中心醫(yī)院6千余人個人信息被泄露3.B站知名UP主“黨妹”數(shù)百G視頻素材丟失損失慘重4.浙江一家銀行泄露客戶信息被罰30萬5.江蘇南通5000多萬條個人信息在“暗網(wǎng)”倒賣6.建設銀行員工販賣5萬多條客戶信息國外1.近50萬臺服務器、路由器和IoT設備密碼被泄露2.萬豪,美高梅酒店1580萬客人信息泄露3.化妝品巨頭雅思蘭黛因不安全服務器泄露4.4億用戶敏感信息4.以色列640萬選民數(shù)據(jù)遭泄露5.2.67億個Facebook帳戶信息在暗網(wǎng)出售6.泰國最大的移動運營商泄露83億條用戶數(shù)據(jù)記錄7.易捷航空遭遇網(wǎng)絡攻擊,900萬客戶數(shù)據(jù)被泄露8.成人網(wǎng)站泄露超百億條用戶敏感記錄9.多所美國大學遭到勒索軟件攻擊10.谷歌瀏覽器造成大規(guī)模用戶安全信息泄露人臉識別第一案個人信息成為“商品”被販賣快遞運單號泄露個人信息“臉書facebook”泄露用戶信息1.個人信息泄露四、大數(shù)據(jù)對日常生活的影響
大數(shù)據(jù)對人們日常產生的負面影響242.信息詐騙。在大數(shù)據(jù)時代,我們的網(wǎng)絡信息隨時都可能被不法分子竊取,并對我們及身邊的親人造成傷害。四、大數(shù)據(jù)對日常生活的影響
大數(shù)據(jù)對人們日常產生的負面影響25課堂練習1.從互聯(lián)網(wǎng)產生大數(shù)據(jù)的角度來看,大數(shù)據(jù)具有的特征是()。A.‘4V”特征:大量(Volume)、多樣(Variety)、低價值密度(Value)、高速(Velocity)B.樣本漸趨于總體,精確讓位于模糊,相關性重于因果C.分布式存儲,分布式并行計算D.沒有特征2.下列關于大數(shù)據(jù)的特征,說法正確的是()。A.數(shù)據(jù)價值密度高 B.數(shù)據(jù)類型少C.數(shù)據(jù)基本無變化 D.數(shù)據(jù)體量巨大AD26課堂練習3.電子警察采用拍照的方式來約束車輛的行為,其拍照的過程屬于()A.數(shù)據(jù)分析B.數(shù)據(jù)采集C.數(shù)據(jù)分類D.數(shù)據(jù)可視化表達B4.(
)是指無法在可承受的時間范圍內用常規(guī)軟件工具進行高校捕捉,管理和處理的數(shù)據(jù)集合5.1GB=()MB大數(shù)據(jù)102427課堂練習1.大數(shù)據(jù)的特點是數(shù)據(jù)量超大,起始計量單位至少是PB(1024個T)、EB(220T)或ZB(230T)。(_____)2.微信支付、支付寶支付、滴滴打車等都包含著大數(shù)據(jù)在生活中的應用。(______)3.疫情期間,國家有關部門可以通過大數(shù)據(jù)篩選、查找到和感染者有過密切接觸的人,大數(shù)據(jù)一方面方便人們看病問診,另一方面也存在個人信息泄露的風險。
(______)√√√28課堂練習4.高德地圖根據(jù)用戶實時上報的交通信息,通過大數(shù)據(jù)平臺整合各種信息,給出相應的路線。
(_____)5.大數(shù)據(jù)是指無法在可承受時間范圍內用常規(guī)軟件工具進行高效捕捉、管理和處理的數(shù)據(jù)集合。
(_____)√√29場景一:當我們打開淘寶、拼多多等購物軟件時,首頁會顯示出推薦的商品。為什么購物軟件推薦的商品總是很合我們心意?場景二:當我們打開抖音、嗶哩嗶哩等視頻軟件時,首頁會顯示出推薦的視頻。為什么打開視頻軟件就刷到停不下來了?用戶網(wǎng)絡購物行為分析大數(shù)據(jù)分析播放時長點贊視
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 修建電動車車棚合同標準文本
- 鄉(xiāng)鎮(zhèn)醫(yī)生簽約合同范例
- 產品買賣糾紛合同標準文本
- 個人買賣狗狗合同標準文本
- 保護定值合同范例
- 產權酒店購房合同標準文本
- 如何提升圖書館的公眾形象計劃
- 倫理道德教育實施方案計劃
- 2025辦公室裝修合同全文
- 公建民營合同標準文本
- 廣州數(shù)控GSK980TA1-TA2-TB1-TB2-GSK98T使用手冊
- 2023年四川綿陽中考滿分作文《照亮》
- 麥肯錫和波士頓解決問題方法和創(chuàng)造價值技巧
- 慢性肺源性心臟病的護理(內科護理學第七版)
- 二 《“友邦驚詫”論》(同步練習)解析版
- 2023年婚檢培訓試題
- 病例匯報課件(完整版)
- SMT-外觀檢驗標準
- 2024年陜西省中考英語試題卷(含答案)
- NY∕T 2537-2014 農村土地承包經(jīng)營權調查規(guī)程
- 計算機三級《Linux應用與開發(fā)技術》考試題庫大全(含真題、典型題等)
評論
0/150
提交評論