商務(wù)智能理論與應(yīng)用大數(shù)據(jù)_第1頁
商務(wù)智能理論與應(yīng)用大數(shù)據(jù)_第2頁
商務(wù)智能理論與應(yīng)用大數(shù)據(jù)_第3頁
商務(wù)智能理論與應(yīng)用大數(shù)據(jù)_第4頁
商務(wù)智能理論與應(yīng)用大數(shù)據(jù)_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)與數(shù)據(jù)挖掘第二部分大數(shù)據(jù)大數(shù)據(jù)概念大數(shù)據(jù)行業(yè)應(yīng)用數(shù)據(jù)分析與挖掘大數(shù)據(jù)技術(shù)大數(shù)據(jù)體系數(shù)據(jù)的大小物理屬性的數(shù)據(jù)公斤、公里、升等信息屬性的數(shù)據(jù)位(Bit)是量度信息的基本單位,只有0、1兩種二進(jìn)制狀態(tài)。8位(bit)組成一個(gè)字節(jié)(1Byte,8bit),能夠容納一個(gè)英文字符,而一個(gè)漢字需要兩個(gè)字節(jié)(2Byte,16bit)的存儲(chǔ)空間。一頁書籍:10KB一張低分辨率照片:100KB一次胸透視:10MB一張CD光盤:500MB一部高質(zhì)量電影:1GB大數(shù)據(jù)何為大?—數(shù)據(jù)度量1Byte=8bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes練習(xí)題3PB=(?)GB假設(shè)《紅樓夢(mèng)》含標(biāo)點(diǎn)87萬字(不含標(biāo)點(diǎn)853509字),1GB約等于(?)部紅樓夢(mèng)?1TB約等于(?)部?美國國會(huì)圖書館藏書(151,785,778冊(cè))(2011年4月:收錄數(shù)據(jù)235TB),1EB=(?)倍美國國會(huì)圖書館存儲(chǔ)的信息量大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代代的到來主主要有以下下一些原因因硬件成本的的降低網(wǎng)絡(luò)帶寬的的提升云計(jì)算的興興起網(wǎng)絡(luò)技術(shù)的的發(fā)展智能終端的的普及電子商務(wù)、、社交網(wǎng)絡(luò)絡(luò)、電子地圖圖等的全面面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代代的到來主主要有以下下一些原因因硬件成本的的降低網(wǎng)絡(luò)帶寬的的提升云計(jì)算的興興起網(wǎng)絡(luò)技術(shù)的的發(fā)展智能終端的的普及電子商務(wù)、、社交網(wǎng)絡(luò)絡(luò)、電子地圖等等的全面應(yīng)應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代代的到來主主要有以下下一些原因因硬件成本的的降低網(wǎng)絡(luò)帶寬的的提升云計(jì)算的興興起網(wǎng)絡(luò)技術(shù)的的發(fā)展智能終端的的普及電子商務(wù)、、社交網(wǎng)絡(luò)絡(luò)、電子地地圖等的全全面應(yīng)用物聯(lián)網(wǎng)練習(xí)題促進(jìn)大數(shù)據(jù)據(jù)技術(shù)到來來的主要因因素有那些些?大數(shù)據(jù)時(shí)代代的到來主主要是由于于網(wǎng)上的數(shù)數(shù)據(jù)量大規(guī)規(guī)模增加(()大數(shù)據(jù)不僅僅是網(wǎng)絡(luò)業(yè)業(yè)的未來,,而且是整整個(gè)社會(huì)和和經(jīng)濟(jì)發(fā)展展的未來。。早期的大規(guī)規(guī)模數(shù)據(jù)應(yīng)應(yīng)用文本資料的的數(shù)字化將文本資料料轉(zhuǎn)化成數(shù)數(shù)字信息存存儲(chǔ),可進(jìn)進(jìn)行搜索,,傳播。亞馬遜數(shù)字字圖書館文本資料的的數(shù)字化亞馬遜的數(shù)數(shù)字圖書館館地理方位的的數(shù)字化對(duì)地理位置置的數(shù)據(jù)化化需要滿足足一些前提提條件:需需要能精確確地測量相相關(guān)區(qū)域內(nèi)內(nèi)的每一塊塊地方;需需要一套標(biāo)標(biāo)準(zhǔn)的標(biāo)記記體系;需需要收集和和記錄數(shù)據(jù)據(jù)的工具。。簡而言之之,就是地地理范圍、、標(biāo)準(zhǔn)、工工具或者說說量化、標(biāo)標(biāo)準(zhǔn)化、收收集。只有有具備了這這些,才能能把位置信信息當(dāng)成數(shù)數(shù)據(jù)來存儲(chǔ)儲(chǔ)和分析。。莫里斯航海海圖表UPS的快速定位位系統(tǒng)UPS快遞多效地地利用了地地理定位數(shù)數(shù)據(jù)。為了了使總部能能及時(shí)了在在車輛的位位置和預(yù)防防引擎故障障,它的貨貨車上裝有有傳感器、、無線適配配器和GPS。這些設(shè)備備方便了公公司監(jiān)督管管理員工并并優(yōu)化行車車線路。UPS為貨車定制制的最佳行行車路徑是是根據(jù)過去去的行車經(jīng)經(jīng)驗(yàn)總結(jié)而而來的。設(shè)設(shè)計(jì)了盡量量少左轉(zhuǎn)的的路線,因因?yàn)樽筠D(zhuǎn)要要求貨車在在交叉路口口穿過去,,所以更容容易出事故故。而且,,貨車往往往需要等待待一會(huì)兒才才能左轉(zhuǎn),,也會(huì)更耗耗油,因此此,減少左左轉(zhuǎn)使得行行車的安全全性和效率率都得到了了大幅提升升。社交網(wǎng)絡(luò)的發(fā)發(fā)展簡單地說,社社交網(wǎng)絡(luò)是在在互聯(lián)網(wǎng)上與與其他人相聯(lián)聯(lián)系的一個(gè)平平臺(tái)。社交交網(wǎng)絡(luò)站點(diǎn)通通常圍繞用戶戶的基本信息息而運(yùn)作,用用戶基本信息息是指有關(guān)用用戶喜歡的事事、不喜歡的的事、興趣、、愛好、學(xué)校校、職業(yè)或任任何其他共同同點(diǎn)的集合。。通常,這些些站點(diǎn)提供不不同級(jí)別的隱隱私控制。社社交網(wǎng)絡(luò)的目目標(biāo)是,通過過一個(gè)或多個(gè)個(gè)共同點(diǎn)將一一些人相互聯(lián)聯(lián)系起來而建建立一個(gè)群組組。國外:Facebook,twitterFacebook2012年擁有大約6.29億用戶,他們們通過上千億億的朋友關(guān)系系網(wǎng)相互連接接。這個(gè)巨大大的社交網(wǎng)絡(luò)絡(luò)覆蓋了大約約10%的全球總?cè)丝诳?。國?nèi):新浪微微博,微信,,人人網(wǎng)社交網(wǎng)絡(luò)的理理論基礎(chǔ)1967年,哈佛大學(xué)學(xué)的心理學(xué)教教授米爾格倫倫(1934~1984)創(chuàng)立了六度分分割理論,簡簡單地說:““你和任何一一個(gè)陌生人之之間所間隔的的人不會(huì)超過過六個(gè),也就就是說,最多多通過六個(gè)人人你就能夠認(rèn)認(rèn)識(shí)任何一個(gè)個(gè)陌生人?!薄卑凑樟确址指衾碚摚棵總€(gè)個(gè)體的社社交圈圈都不斷放大大,最后成為為一個(gè)大型網(wǎng)網(wǎng)絡(luò)。這是社社會(huì)性網(wǎng)絡(luò)((Social

Networking)的早期理解解。我國社交網(wǎng)絡(luò)絡(luò)的發(fā)展E-mail點(diǎn)對(duì)點(diǎn)人與人之間可可以通過電子子郵件交流BBS點(diǎn)對(duì)面BBS將點(diǎn)對(duì)點(diǎn)形式式演變?yōu)辄c(diǎn)對(duì)對(duì)面,降低交交流成本。實(shí)實(shí)現(xiàn)了個(gè)人的的分散信息向向可共享的聚聚合信息的進(jìn)進(jìn)步。天涯、、貓撲、西祠祠胡同等產(chǎn)品品都是BBS時(shí)代的典型企企業(yè)。2006年年以前,資資本主要關(guān)注注BBS及博客形態(tài)的的社交網(wǎng)絡(luò)產(chǎn)產(chǎn)品,但是后后期來看,這這類企業(yè)的發(fā)發(fā)展多不盡人人意。娛樂化社交網(wǎng)網(wǎng)絡(luò)2002年,LinkedIn成立;2003年,運(yùn)用豐富富的多媒體個(gè)個(gè)性化空間吸吸引注意力的的Myspace成立;2004年,復(fù)制線下下真實(shí)人際關(guān)關(guān)系來到線上上低成本管理理的Facebook成立中國社交交網(wǎng)絡(luò)產(chǎn)品相相也繼出現(xiàn),,如2005年成立的人人人網(wǎng)、2008年成立的開心心網(wǎng)。微信息社交網(wǎng)網(wǎng)絡(luò)時(shí)代2009年8月,新浪推出出微博產(chǎn)品,,用戶

通過過推介及自行行搜索等方式式構(gòu)建自己的的朋友圈,這這種產(chǎn)品迅速速聚合了海量量的用戶群,,當(dāng)然也吸引引了眾多業(yè)者者(如騰訊、網(wǎng)易易、盛大)的追隨。這種種模式也再次次將廣義社交交網(wǎng)絡(luò)推向投投資人視野。。隨著移動(dòng)互聯(lián)聯(lián)網(wǎng)的發(fā)展,,微信息社交交產(chǎn)品逐漸與與位置服務(wù)等等移動(dòng)特性相相結(jié)合,相繼繼出現(xiàn)微信等等移動(dòng)客戶端端產(chǎn)品。垂直社交網(wǎng)絡(luò)絡(luò)應(yīng)用時(shí)代垂直社交網(wǎng)絡(luò)絡(luò)主要是與游游戲、電子商商務(wù)等相結(jié)合合,是社交網(wǎng)網(wǎng)絡(luò)探究商業(yè)業(yè)模式的有利利嘗試。清科科研究中心預(yù)預(yù)計(jì),垂直社社交將成為社社交網(wǎng)絡(luò)未來來發(fā)展的主要要方向。根據(jù)“社交網(wǎng)網(wǎng)絡(luò)分析之父父”貝爾納多多·哈柏曼(BernardoHuberman)的分析,社社交網(wǎng)絡(luò)中單單一主題出現(xiàn)現(xiàn)的頻率可以以用來預(yù)測很很多事情,比比如好萊塢的的票房收入。。他和一位在在惠普實(shí)驗(yàn)室室工作的同事事開發(fā)了一個(gè)個(gè)程序,可以以用來監(jiān)聽微微博的發(fā)布頻頻率,基于此此,他們就能能預(yù)測一部電電影的成敗,,這往往比其其他傳統(tǒng)評(píng)估估預(yù)測方法還還要準(zhǔn)確。網(wǎng)絡(luò)搜索技術(shù)術(shù)的發(fā)展Google大數(shù)據(jù)的產(chǎn)生生供應(yīng)鏈原始材料供應(yīng)應(yīng)商11級(jí)批發(fā)零售商商1半成品/成品供應(yīng)商1核心企業(yè)2級(jí)批發(fā)零售商商1原始材料供應(yīng)應(yīng)商21級(jí)批發(fā)零售商商1半成品/成品供應(yīng)商22級(jí)批發(fā)零售商商2……………原始采用供應(yīng)應(yīng)商n1級(jí)批發(fā)零售商商n半成品/成品供應(yīng)商n2級(jí)批發(fā)零售商商n政府部門電信、稅務(wù)、、銀行、工商商、房產(chǎn)、電電力、自來水水等多個(gè)部門門數(shù)據(jù)的集成成綜合電商供應(yīng)商、客戶戶、商戶、物物流叫車出租車、客戶戶商旅/票務(wù)客戶、航空公公司、旅店、、飯店等哪些屬于大數(shù)數(shù)據(jù)的研究范范疇大數(shù)據(jù)熱反映映出人們?cè)诓虏聹y追尋下一一個(gè)大創(chuàng)新交通數(shù)據(jù)?社交數(shù)據(jù)?電子商務(wù)數(shù)據(jù)據(jù)?供應(yīng)鏈數(shù)據(jù)??企業(yè)經(jīng)營管理理數(shù)據(jù)?數(shù)據(jù)大不等于于大數(shù)據(jù)現(xiàn)有設(shè)備,技技術(shù),方法所所能處理的不不是大數(shù)據(jù)數(shù)據(jù)挖掘,精精細(xì)化運(yùn)營,,精準(zhǔn)廣告和和個(gè)性化服務(wù)務(wù)推廣不是未未來大數(shù)據(jù)服服務(wù)商業(yè)模式式的主要部分分大數(shù)據(jù)的特征征多樣性(Variety)數(shù)量巨大(Volume)速度快(Velocity)價(jià)值密度低(Value)大數(shù)據(jù)的描述述性定義多樣性數(shù)據(jù)來源多樣樣性—超出一種服務(wù)務(wù),一個(gè)公司司,一個(gè)地區(qū)區(qū)數(shù)據(jù)種類多樣樣性—文字,語音,,圖表,圖片片,視頻數(shù)據(jù)對(duì)象多樣樣性—個(gè)人,商業(yè),,社會(huì),自然然界大數(shù)據(jù)的多樣樣性越高,潛潛在價(jià)值就越越大大數(shù)據(jù)的操作作定義數(shù)量以TB為基本計(jì)量單單位數(shù)據(jù)間關(guān)系眾眾多,結(jié)構(gòu)復(fù)復(fù)雜,變化多多端大數(shù)據(jù)的體量量越大,潛在在價(jià)值就越大大大數(shù)據(jù)的操作作定義傳輸速度快處理的數(shù)據(jù)是是TB級(jí)代替了GB級(jí),“超大大規(guī)模數(shù)據(jù)””和“海量數(shù)數(shù)據(jù)”也有規(guī)規(guī)模大的特點(diǎn)點(diǎn),但大數(shù)據(jù)據(jù)更強(qiáng)調(diào)數(shù)據(jù)據(jù)的快速動(dòng)態(tài)態(tài)變化,形成成流式數(shù)據(jù),,數(shù)據(jù)流動(dòng)的的速度快到難難以用傳統(tǒng)的的系統(tǒng)去處理理。價(jià)值密度低數(shù)據(jù)量呈指數(shù)數(shù)增長的同時(shí)時(shí),隱藏在海海量數(shù)據(jù)的有有用信息卻沒沒有相應(yīng)比例例增長,反而而使我們獲取取有用信息的的難度加大。。以視頻為例例,連續(xù)的監(jiān)監(jiān)控過程,可可能有用的數(shù)數(shù)據(jù)僅有一兩兩秒傳統(tǒng)數(shù)據(jù)與大大數(shù)據(jù)的區(qū)別別傳統(tǒng)數(shù)據(jù)硬件條件IBM

Systemx3100通過4個(gè)DIMM插槽,實(shí)現(xiàn)512MB或1

GB/8

GBDDR

II

667MHz的內(nèi)存容量可掛6個(gè)500G外部存儲(chǔ)建立服務(wù)器矩矩陣后容量可可增加需求:騰訊qq郵箱,騰訊宣宣稱有7億多注冊(cè)賬號(hào)號(hào),有3億多活躍賬號(hào)號(hào),平均每人人100G空間傳統(tǒng)數(shù)據(jù)傳統(tǒng)的數(shù)據(jù)采采集來源單一一,且存儲(chǔ)、、管理和分析析數(shù)據(jù)量也相相對(duì)較小,大大多采用關(guān)系系型數(shù)據(jù)庫和和并行數(shù)據(jù)倉倉庫即可處理理。傳統(tǒng)的數(shù)據(jù)處處理方法是以以處理器為中中心,而大數(shù)數(shù)據(jù)環(huán)境下,,需要采取以以數(shù)據(jù)為中心心的模式,減減少數(shù)據(jù)移動(dòng)動(dòng)帶來的開銷銷。因此,傳傳統(tǒng)的數(shù)據(jù)處處理方法,已已經(jīng)不能適應(yīng)應(yīng)大數(shù)據(jù)的需需求!傳統(tǒng)數(shù)據(jù)與大大數(shù)據(jù)的區(qū)別別傳統(tǒng)數(shù)據(jù)與大大數(shù)據(jù)的區(qū)別別傳統(tǒng)數(shù)據(jù)處理結(jié)構(gòu)化數(shù)數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),,簡單來說就就是數(shù)據(jù)庫。。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論