商務(wù)智能理論與應(yīng)用2-大數(shù)據(jù)_第1頁
商務(wù)智能理論與應(yīng)用2-大數(shù)據(jù)_第2頁
商務(wù)智能理論與應(yīng)用2-大數(shù)據(jù)_第3頁
商務(wù)智能理論與應(yīng)用2-大數(shù)據(jù)_第4頁
商務(wù)智能理論與應(yīng)用2-大數(shù)據(jù)_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)與數(shù)據(jù)挖掘第二部分大數(shù)據(jù)大數(shù)據(jù)概念大數(shù)據(jù)行業(yè)應(yīng)用數(shù)據(jù)分析與挖掘大數(shù)據(jù)技術(shù)大數(shù)據(jù)體系數(shù)據(jù)的大小物理屬性的數(shù)據(jù)公斤、公里、升等信息屬性的數(shù)據(jù)位(Bit)是量度信息的基本單位,只有0、1兩種二進(jìn)制狀態(tài)。8位(bit)組成一個(gè)字節(jié)(1Byte,8bit),能夠容納一個(gè)英文字符,而一個(gè)漢字需要兩個(gè)字節(jié)(2Byte,16bit)的存儲(chǔ)空間。一頁書籍:10KB一張低分辨率照片:100KB一次胸透視:10MB一張CD光盤:500MB一部高質(zhì)量電影:1GB大數(shù)據(jù)何為大?—數(shù)據(jù)度量1Byte=8bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes練習(xí)題3PB=(?)GB假設(shè)《紅樓夢》含標(biāo)點(diǎn)87萬字(不含標(biāo)點(diǎn)853509字),1GB約等于(?)部紅樓夢?1TB約等于(?)部?美國國會(huì)圖書館藏書(151,785,778冊)(2011年4月:收錄數(shù)據(jù)235TB),1EB=(?)倍美國國會(huì)圖書館存儲(chǔ)的信息量大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)練習(xí)題促進(jìn)大數(shù)據(jù)技術(shù)到來的主要因素有那些?大數(shù)據(jù)時(shí)代的到來主要是由于網(wǎng)上的數(shù)據(jù)量大規(guī)模增加()大數(shù)據(jù)不僅是網(wǎng)絡(luò)業(yè)的未來,而且是整個(gè)社會(huì)和經(jīng)濟(jì)發(fā)展的未來。早期的大規(guī)模數(shù)據(jù)應(yīng)用文本資料的數(shù)字化將文本資料轉(zhuǎn)化成數(shù)字信息存儲(chǔ),可進(jìn)行搜索,傳播。亞馬遜數(shù)字圖書館文本資料的數(shù)字化亞馬遜的數(shù)字圖書館地理方位的數(shù)字化對地理位置的數(shù)據(jù)化需要滿足一些前提條件:需要能精確地測量相關(guān)區(qū)域內(nèi)的每一塊地方;需要一套標(biāo)準(zhǔn)的標(biāo)記體系;需要收集和記錄數(shù)據(jù)的工具。簡而言之,就是地理范圍、標(biāo)準(zhǔn)、工具或者說量化、標(biāo)準(zhǔn)化、收集。只有具備了這些,才能把位置信息當(dāng)成數(shù)據(jù)來存儲(chǔ)和分析。莫里斯航海圖表

UPS的快速定位系統(tǒng)UPS快遞多效地利用了地理定位數(shù)據(jù)。為了使總部能及時(shí)了在車輛的位置和預(yù)防引擎故障,它的貨車上裝有傳感器、無線適配器和GPS。這些設(shè)備方便了公司監(jiān)督管理員工并優(yōu)化行車線路。UPS為貨車定制的最佳行車路徑是根據(jù)過去的行車經(jīng)驗(yàn)總結(jié)而來的。設(shè)計(jì)了盡量少左轉(zhuǎn)的路線,因?yàn)樽筠D(zhuǎn)要求貨車在交叉路口穿過去,所以更容易出事故。而且,貨車往往需要等待一會(huì)兒才能左轉(zhuǎn),也會(huì)更耗油,因此,減少左轉(zhuǎn)使得行車的安全性和效率都得到了大幅提升。社交網(wǎng)絡(luò)的發(fā)展簡單地說,社交網(wǎng)絡(luò)是在互聯(lián)網(wǎng)上與其他人相聯(lián)系的一個(gè)平臺(tái)。社交網(wǎng)絡(luò)站點(diǎn)通常圍繞用戶的基本信息而運(yùn)作,用戶基本信息是指有關(guān)用戶喜歡的事、不喜歡的事、興趣、愛好、學(xué)校、職業(yè)或任何其他共同點(diǎn)的集合。通常,這些站點(diǎn)提供不同級別的隱私控制。社交網(wǎng)絡(luò)的目標(biāo)是,通過一個(gè)或多個(gè)共同點(diǎn)將一些人相互聯(lián)系起來而建立一個(gè)群組。國外:Facebook,twitterFacebook2012年擁有大約6.29億用戶,他們通過上千億的朋友關(guān)系網(wǎng)相互連接。這個(gè)巨大的社交網(wǎng)絡(luò)覆蓋了大約10%的全球總?cè)丝?。國?nèi):新浪微博,微信,人人網(wǎng)社交網(wǎng)絡(luò)的理論基礎(chǔ)1967年,哈佛大學(xué)的心理學(xué)教授米爾格倫(1934~1984)創(chuàng)立了六度分割理論,簡單地說:“你和任何一個(gè)陌生人之間所間隔的人不會(huì)超過六個(gè),也就是說,最多通過六個(gè)人你就能夠認(rèn)識(shí)任何一個(gè)陌生人。”按照六度分隔理論,每個(gè)個(gè)體的

社交圈都不斷放大,最后成為一個(gè)大型網(wǎng)絡(luò)。這是社會(huì)性網(wǎng)絡(luò)(Social

Networking)的早期理解。我國社交網(wǎng)絡(luò)的發(fā)展E-mail點(diǎn)對點(diǎn)人與人之間可以通過電子郵件交流BBS點(diǎn)對面BBS將點(diǎn)對點(diǎn)形式演變?yōu)辄c(diǎn)對面,降低交流成本。實(shí)現(xiàn)了個(gè)人的分散信息向可共享的聚合信息的進(jìn)步。天涯、貓撲、西祠胡同等產(chǎn)品都是BBS時(shí)代的典型企業(yè)。2006年年以前,資本主要關(guān)注BBS及博客形態(tài)的社交網(wǎng)絡(luò)產(chǎn)品,但是后期來看,這類企業(yè)的發(fā)展多不盡人意。娛樂化社交網(wǎng)絡(luò)2002年,LinkedIn成立;2003年,運(yùn)用豐富的多媒體個(gè)性化空間吸引注意力的Myspace成立;2004年,復(fù)制線下真實(shí)人際關(guān)系來到線上低成本管理的Facebook成立中國社交網(wǎng)絡(luò)產(chǎn)品相也繼出現(xiàn),如2005年成立的人人網(wǎng)、2008年成立的開心網(wǎng)。微信息社交網(wǎng)絡(luò)時(shí)代

2009年8月,新浪推出微博產(chǎn)品,用戶

通過推介及自行搜索等方式構(gòu)建自己的朋友圈,這種產(chǎn)品迅速聚合了海量的用戶群,當(dāng)然也吸引了眾多業(yè)者(如騰訊、網(wǎng)易、盛大)的追隨。這種模式也再次將廣義社交網(wǎng)絡(luò)推向投資人視野。

隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,微信息社交產(chǎn)品逐漸與位置服務(wù)等移動(dòng)特性相結(jié)合,相繼出現(xiàn)微信等移動(dòng)客戶端產(chǎn)品。垂直社交網(wǎng)絡(luò)應(yīng)用時(shí)代

垂直社交網(wǎng)絡(luò)主要是與游戲、電子商務(wù)等相結(jié)合,是社交網(wǎng)絡(luò)探究商業(yè)模式的有利嘗試。清科研究中心預(yù)計(jì),垂直社交將成為社交網(wǎng)絡(luò)未來發(fā)展的主要方向。根據(jù)“社交網(wǎng)絡(luò)分析之父”貝爾納多·哈柏曼(BernardoHuberman)的分析,社交網(wǎng)絡(luò)中單一主題出現(xiàn)的頻率可以用來預(yù)測很多事情,比如好萊塢的票房收入。他和一位在惠普實(shí)驗(yàn)室工作的同事開發(fā)了一個(gè)程序,可以用來監(jiān)聽微博的發(fā)布頻率,基于此,他們就能預(yù)測一部電影的成敗,這往往比其他傳統(tǒng)評估預(yù)測方法還要準(zhǔn)確。網(wǎng)絡(luò)搜索技術(shù)的發(fā)展Google大數(shù)據(jù)的產(chǎn)生供應(yīng)鏈原始材料供應(yīng)商11級批發(fā)零售商1

半成品/成品供應(yīng)商1核心企業(yè)2級批發(fā)零售商1原始材料供應(yīng)商21級批發(fā)零售商1

半成品/成品供應(yīng)商22級批發(fā)零售商2…………原始采用供應(yīng)商n1級批發(fā)零售商n

半成品/成品供應(yīng)商n2級批發(fā)零售商n政府部門電信、稅務(wù)、銀行、工商、房產(chǎn)、電力、自來水等多個(gè)部門數(shù)據(jù)的集成綜合電商供應(yīng)商、客戶、商戶、物流叫車出租車、客戶商旅/票務(wù)客戶、航空公司、旅店、飯店等哪些屬于大數(shù)據(jù)的研究范疇大數(shù)據(jù)熱反映出人們在猜測追尋下一個(gè)大創(chuàng)新交通數(shù)據(jù)?社交數(shù)據(jù)?電子商務(wù)數(shù)據(jù)?供應(yīng)鏈數(shù)據(jù)?企業(yè)經(jīng)營管理數(shù)據(jù)?數(shù)據(jù)大不等于大數(shù)據(jù)現(xiàn)有設(shè)備,技術(shù),方法所能處理的不是大數(shù)據(jù)數(shù)據(jù)挖掘,精細(xì)化運(yùn)營,精準(zhǔn)廣告和個(gè)性化服務(wù)推廣不是未來大數(shù)據(jù)服務(wù)商業(yè)模式的主要部分大數(shù)據(jù)的特征多樣性(Variety)數(shù)量巨大(Volume)速度快(Velocity)價(jià)值密度低(Value)大數(shù)據(jù)的描述性定義多樣性數(shù)據(jù)來源多樣性—超出一種服務(wù),一個(gè)公司,一個(gè)地區(qū)數(shù)據(jù)種類多樣性—文字,語音,圖表,圖片,視頻數(shù)據(jù)對象多樣性—個(gè)人,商業(yè),社會(huì),自然界大數(shù)據(jù)的多樣性越高,潛在價(jià)值就越大大數(shù)據(jù)的操作定義數(shù)量以TB為基本計(jì)量單位數(shù)據(jù)間關(guān)系眾多,結(jié)構(gòu)復(fù)雜,變化多端大數(shù)據(jù)的體量越大,潛在價(jià)值就越大大數(shù)據(jù)的操作定義傳輸速度快處理的數(shù)據(jù)是TB級代替了GB級,“超大規(guī)模數(shù)據(jù)”和“海量數(shù)據(jù)”也有規(guī)模大的特點(diǎn),但大數(shù)據(jù)更強(qiáng)調(diào)數(shù)據(jù)的快速動(dòng)態(tài)變化,形成流式數(shù)據(jù),數(shù)據(jù)流動(dòng)的速度快到難以用傳統(tǒng)的系統(tǒng)去處理。價(jià)值密度低數(shù)據(jù)量呈指數(shù)增長的同時(shí),隱藏在海量數(shù)據(jù)的有用信息卻沒有相應(yīng)比例增長,反而使我們獲取有用信息的難度加大。以視頻為例,連續(xù)的監(jiān)控過程,可能有用的數(shù)據(jù)僅有一兩秒傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別傳統(tǒng)數(shù)據(jù)硬件條件IBM

System

x3100通過4個(gè)DIMM

插槽,實(shí)現(xiàn)512MB或1

GB/8

GB

DDR

II

667

MHz的內(nèi)存容量可掛6個(gè)500G外部存儲(chǔ)建立服務(wù)器矩陣后容量可增加需求:騰訊qq郵箱,騰訊宣稱有7億多注冊賬號(hào),有3億多活躍賬號(hào),平均每人100G空間

傳統(tǒng)數(shù)據(jù)傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲(chǔ)、管理和分析數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。傳統(tǒng)的數(shù)據(jù)處理方法是以處理器為中心,而大數(shù)據(jù)環(huán)境下,需要采取以數(shù)據(jù)為中心的模式,減少數(shù)據(jù)移動(dòng)帶來的開銷。因此,傳統(tǒng)的數(shù)據(jù)處理方法,已經(jīng)不能適應(yīng)大數(shù)據(jù)的需求!傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別傳統(tǒng)數(shù)據(jù)處理結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),簡單來說就是數(shù)據(jù)庫。結(jié)合到典型場景中更容易理解,比如企業(yè)ERP、財(cái)務(wù)系統(tǒng);醫(yī)療HIS數(shù)據(jù)庫;教育一卡通;政府行政審批;其他核心數(shù)據(jù)庫等。傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別世界上跟多的是半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化是指數(shù)據(jù)的字段數(shù)量不固定,大小可變化的數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù),包括視頻、音頻、圖片、圖像、文檔、文本等形式。具體到典型案例中,像是醫(yī)療影像系統(tǒng)、教育

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論