云計(jì)算大數(shù)據(jù)培訓(xùn)技術(shù)_第1頁
云計(jì)算大數(shù)據(jù)培訓(xùn)技術(shù)_第2頁
云計(jì)算大數(shù)據(jù)培訓(xùn)技術(shù)_第3頁
云計(jì)算大數(shù)據(jù)培訓(xùn)技術(shù)_第4頁
云計(jì)算大數(shù)據(jù)培訓(xùn)技術(shù)_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

云計(jì)算大數(shù)據(jù)培訓(xùn)技術(shù)第一頁,共58頁。4321引領(lǐng)2021大數(shù)據(jù)虛擬現(xiàn)實(shí)體感互動(dòng)云計(jì)算第二頁,共58頁。云計(jì)算到來的必然性和趨勢(shì)性云計(jì)算的一些術(shù)語、概念云計(jì)算在中小型企業(yè)中的實(shí)際應(yīng)用第三頁,共58頁。你使用過云計(jì)算嗎?如果你使用過GoogleSearchEngine、Gmail、Gtalk、

GoogleDoc、百度云,那么你就是一名云計(jì)算的使用者!第四頁,共58頁。云計(jì)算到來的必然性和趨勢(shì)性第五頁,共58頁。云計(jì)算的提出2006年底Google推出了“Google101方案〞,并正式提出“云〞的概念和理念。云計(jì)算是2007年末才興起的一個(gè)新名詞,在Google,IBM等公司的大力推動(dòng)下逐漸進(jìn)入人們的視野。據(jù)Gartner公司——全球最具權(quán)威的IT研究與參謀咨詢公司分析師稱:2021-2021年期間,多核處理器、云計(jì)算、用戶界面、社會(huì)化網(wǎng)絡(luò)/社會(huì)化軟件和網(wǎng)絡(luò)混搭占據(jù)了改變IT前景的10大革命性技術(shù)前五名。第六頁,共58頁。云計(jì)算是計(jì)算能力的需求的增長云計(jì)算是隨著處理器技術(shù)、虛擬化技術(shù)、分布式存儲(chǔ)技術(shù)、寬帶互聯(lián)網(wǎng)技術(shù)和自動(dòng)化管理技術(shù)的開展而產(chǎn)生的.這種大規(guī)模的計(jì)算能力通常是由分布式的大規(guī)模集群和效勞器虛擬化軟件搭建。解決大型并行計(jì)算的問題

基于網(wǎng)絡(luò)訂購應(yīng)用和軟件的使用用類似電表計(jì)費(fèi)的模式提供IT效勞在任何時(shí)間、任何地點(diǎn)可以訪問能動(dòng)態(tài)提供的以效勞為形式的IT資源軟件即效勞SoftwareasaService用電模式計(jì)算UtilityComputing云計(jì)算CloudComputing網(wǎng)格計(jì)算GridComputing19902021第七頁,共58頁。從集中到分散再到集中全世界只需要5臺(tái)電腦就足夠了——托馬斯·沃森個(gè)人用戶的內(nèi)存只需640K足矣——比爾·蓋茨計(jì)算時(shí)代網(wǎng)絡(luò)時(shí)代云時(shí)代第八頁,共58頁。云計(jì)算本質(zhì)云計(jì)算是眾多新技術(shù)開展的必然趨勢(shì)是社會(huì)需求的推動(dòng)〔資源,本錢,能源〕是由需求引導(dǎo)的網(wǎng)絡(luò)環(huán)境下的各要素構(gòu)成的有機(jī)體提供了一種新的以按需租用資源的業(yè)務(wù)模式云計(jì)算SOA分布式計(jì)算效用計(jì)算網(wǎng)格計(jì)算業(yè)務(wù)模式創(chuàng)新虛擬化第九頁,共58頁。什么是云計(jì)算?云計(jì)算云計(jì)算是一種模式,它實(shí)現(xiàn)了對(duì)共享可配置計(jì)算資源〔網(wǎng)絡(luò)、效勞器、存儲(chǔ)、應(yīng)用和效勞等〕的方便、按需訪問;這些資源可以通過極小的管理代價(jià)或者與效勞提供者的交互被快速地準(zhǔn)備和釋放。第十頁,共58頁。對(duì)于專業(yè)人員:云計(jì)算:是分布式處理、并行處理、和網(wǎng)格計(jì)算的開展,或者說是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。即把存儲(chǔ)于個(gè)人電腦、移動(dòng)和其他設(shè)備上的大量信息和處理器資源集中在一起,協(xié)同工作。在極大規(guī)模上可擴(kuò)展的信息技術(shù)能力向外部客戶作為效勞來提供的一種計(jì)算方式。第十一頁,共58頁。對(duì)于用戶而言:云計(jì)算:是一種全新網(wǎng)絡(luò)效勞方式,將傳統(tǒng)的以桌面為核心的任務(wù)處理轉(zhuǎn)變?yōu)橐跃W(wǎng)絡(luò)為核心的任務(wù)處理,利用互聯(lián)網(wǎng)實(shí)現(xiàn)自己想要完成的一切處理任務(wù),使網(wǎng)絡(luò)成為傳遞效勞、計(jì)算力和信息的綜合媒介,真正實(shí)現(xiàn)按需計(jì)算、多人協(xié)作。第十二頁,共58頁。云計(jì)算特點(diǎn)高可靠性前所未有的計(jì)算能力數(shù)據(jù)多副本,計(jì)算節(jié)點(diǎn)同構(gòu)可互換等措施動(dòng)態(tài)伸縮,滿足規(guī)模增長需要超大規(guī)模高可擴(kuò)展性極其廉價(jià)任意獲取相應(yīng)效勞虛擬化通用性千變?nèi)f化,不針對(duì)特定應(yīng)用按需效勞龐大的資源池,按需購置CloudFeatures第十三頁,共58頁。云計(jì)算特點(diǎn)數(shù)據(jù)在云端:不怕喪失,不必備份,可以任意點(diǎn)的恢復(fù);軟件在云端:不必下載自動(dòng)升級(jí);無所不在的計(jì)算:在任何時(shí)間,任意地點(diǎn),任何設(shè)備登錄后就可以進(jìn)展計(jì)算效勞;無限強(qiáng)大的計(jì)算:具有無限空間的,無限速度。PCC/S云計(jì)算以硬件為中心以軟件為中心以效勞為中心第十四頁,共58頁。云計(jì)算的好處買設(shè)備開發(fā)系統(tǒng)互聯(lián)網(wǎng)/局域網(wǎng)支付設(shè)備和勞動(dòng)力費(fèi)用用戶單一買外部效勞可擴(kuò)展,有彈性,動(dòng)態(tài),多用戶所用即所付通過Internet使用IFaPs(IP,HTML,HTTP)傳統(tǒng)IT模式云計(jì)算實(shí)現(xiàn)模式人機(jī)界面商業(yè)模式技術(shù)模式第十五頁,共58頁。云計(jì)算的好處

任何一臺(tái)可以上網(wǎng)的通訊設(shè)備包括手機(jī)、PDA、上網(wǎng)本均可

降低成本全球購置計(jì)算機(jī)中,只有30%的計(jì)算能力被利用,甚至更低提高資源利用率

云端由成千上萬臺(tái)甚至更多效勞器組成的集群為存儲(chǔ)和管理數(shù)據(jù)提供了幾乎無限大的空間和資源用戶可以根據(jù)自己的需要或喜好定制相應(yīng)的效勞、應(yīng)用及資源靈活定制動(dòng)態(tài)遷移保證應(yīng)用和計(jì)算的正常進(jìn)展;在云計(jì)算效勞器端提供了最可靠、最平安的數(shù)據(jù)存儲(chǔ)中心彈性計(jì)算和存儲(chǔ)能力高可靠性和安全性第十六頁,共58頁。云計(jì)算的分類按效勞類型分類第十七頁,共58頁。云計(jì)算的分類按效勞類型分類根底設(shè)施云(InfrastructureCloud)為用戶提供底層的、接近于直接操作硬件資源的效勞接口。平臺(tái)云(PlatformCloud)為用戶提供一個(gè)托管平臺(tái),用戶可以將他們所開發(fā)和運(yùn)營的應(yīng)用托管到云平臺(tái)中。應(yīng)用云(ApplicationCloud)為用戶提供可以直接為其所用的應(yīng)用,這些應(yīng)用一般是基于瀏覽器的,針對(duì)某一特定功能。第十八頁,共58頁。根底設(shè)施即效勞IaaS——InfrastructureasaService位于云計(jì)算3層效勞的最底端,把IT根底設(shè)施像水、電一樣以效勞的形式提供給用戶,以效勞形式提供基于效勞器和存儲(chǔ)等硬件資源的可高度擴(kuò)展和按需變化的IT能力。通常按照所消耗資源的本錢進(jìn)展收費(fèi)。該層提供的是根本的計(jì)算和存儲(chǔ)能力,以計(jì)算能力的提供為例,其提供的根本單元就是效勞器,包含CPU、內(nèi)存、存儲(chǔ)、操作系統(tǒng)及一些軟件。

第十九頁,共58頁。平臺(tái)即效勞PaaS——PlatformasaServicePaaS位于云計(jì)算3層效勞的最中間。通常也稱為"云計(jì)算操作系統(tǒng)"。它提供給終端用戶基于互聯(lián)網(wǎng)的應(yīng)用開發(fā)環(huán)境,包括應(yīng)用編程接口和運(yùn)行平臺(tái)等,并且支持應(yīng)用從創(chuàng)立到運(yùn)行整個(gè)生命周期所需的各種軟硬件資源和工具。通常按照用戶或登錄情況計(jì)費(fèi)。在PaaS層面,效勞提供商提供的是經(jīng)過封裝的IT能力,或者說是一些邏輯的資源,比方數(shù)據(jù)庫、文件系統(tǒng)和應(yīng)用運(yùn)行環(huán)境等。第二十頁,共58頁。平臺(tái)即效勞SaaS——SoftwareasaService這是最常見的云計(jì)算效勞,位于云計(jì)算3層效勞的頂端。用戶通過標(biāo)準(zhǔn)的Web瀏覽器來使用Internet上的軟件。效勞供給商負(fù)責(zé)維護(hù)和管理軟硬件設(shè)施,并以免費(fèi)〔提供商可以從網(wǎng)絡(luò)廣告之類的工程中生成收入〕或按需租用方式向最終用戶提供效勞。這類效勞既有面向普通用戶的,諸如GoogleCalendar和Gmail;也有直接面向企業(yè)團(tuán)體的,用以幫助處理工資單流程、人力資源管理、協(xié)作、客戶關(guān)系管理和業(yè)務(wù)合作伙伴關(guān)系管理等。這些SaaS提供的應(yīng)用程序減少了客戶安裝和維護(hù)軟件的時(shí)間和技能等代價(jià),并且可以通過按使用付費(fèi)的方式來減少軟件許可證費(fèi)用的支出。第二十一頁,共58頁。云計(jì)算的一些術(shù)語、概念第二十二頁,共58頁。NO.1公有云、私有云簡單來說,云效勞可以將企業(yè)所需的軟硬件、資料都放到網(wǎng)絡(luò)上,在任何時(shí)間、地點(diǎn),使用不同的IT設(shè)備互相連接,實(shí)現(xiàn)數(shù)據(jù)存取、運(yùn)算等目的。當(dāng)前,常見的云效勞有公共云(PublicCloud)與私有云(PrivateCloud)兩種。與公有云相比,私有云的特點(diǎn)平安;私有云的效勞對(duì)象被限制在企業(yè)內(nèi)部,因此私有云的建立、運(yùn)營和使用都是在企業(yè)內(nèi)部完成,對(duì)外不提供公開接口,因此會(huì)相對(duì)平安。本錢固定;云環(huán)境中通常是根據(jù)每單元存儲(chǔ)收費(fèi)的。用戶只需根據(jù)效勞水平協(xié)議對(duì)實(shí)際使用的局部付費(fèi),而不是根據(jù)分配的空間或者某一個(gè)標(biāo)準(zhǔn)??捎眯?;在用戶需要的時(shí)候,空間需要能夠被及時(shí)分配,并且要求能在使用完后及時(shí)的收回。效勞質(zhì)量;需要有詳細(xì)的效勞水平描述并嚴(yán)格參照?qǐng)?zhí)行??珊饬康臉?biāo)準(zhǔn)可以用于定義用戶能得到怎樣的響應(yīng)時(shí)間、恢復(fù)時(shí)間以及活動(dòng)時(shí)間的支持。第二十三頁,共58頁。NO.2云平安云平安(CloudSecurity)是一個(gè)從“云計(jì)算〞演變而來的新名詞。云平安的策略設(shè)想是:使用者越多,每個(gè)使用者就越平安,因?yàn)槿绱她嫶蟮挠脩羧海阋愿采w互聯(lián)網(wǎng)的每個(gè)角落,只要某個(gè)網(wǎng)站被掛馬或某個(gè)新木馬病毒出現(xiàn),就會(huì)立刻被截獲。“云平安〞通過網(wǎng)狀的大量客戶端對(duì)網(wǎng)絡(luò)中軟件行為的異常監(jiān)測(cè),獲取互聯(lián)網(wǎng)中木馬、惡意程序的最新信息,推送到Server端進(jìn)展自動(dòng)分析和處理,再把病毒和木馬的解決方案分發(fā)到每一個(gè)客戶端。第二十四頁,共58頁。NO.3云存儲(chǔ)云存儲(chǔ)是在云計(jì)算(cloudcomputing)概念上延伸和開展出來的一個(gè)新的概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的一個(gè)系統(tǒng)。當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)和管理時(shí),云計(jì)算系統(tǒng)中就需要配置大量的存儲(chǔ)設(shè)備,那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個(gè)云存儲(chǔ)系統(tǒng),所以云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)。目前做云存儲(chǔ)的國內(nèi)有聯(lián)想網(wǎng)盤、百度云盤、360云盤、微云盤等。第二十五頁,共58頁。NO.4OpenStack和CloudStack比照常見的IaaS開源平臺(tái)有OpenStack、CloudStack、Eucalyptus和OpenNebula,公開的現(xiàn)狀報(bào)告和社區(qū)分析顯示,OpenStack和CloudStack的在企業(yè)承受度和社區(qū)的開展情況已經(jīng)遠(yuǎn)遠(yuǎn)超越另外兩者。第二十六頁,共58頁。OpenStack由NASA和Rackspace公司在2021年聯(lián)合發(fā)布,兩者分別奉獻(xiàn)計(jì)算代碼〔Nova〕和存儲(chǔ)代碼〔Swift〕,以Apache許可協(xié)議進(jìn)展授權(quán)。OpenStack的目標(biāo)是提供一個(gè)既可以用來建立公有云也能建立私有云的通用的開源云計(jì)算平臺(tái),而且做到云平臺(tái)的搭建盡量的簡單方便,同時(shí)能夠快速的橫向擴(kuò)展。OpenStack獨(dú)立于任何企業(yè),遵循開源、開放設(shè)計(jì)、開放開發(fā)流程和開放社區(qū)的理念,完全由社區(qū)主導(dǎo)和維護(hù)。OpenStack的發(fā)布周期是半年,到目前為止已經(jīng)發(fā)布9個(gè)正式版本,最新的版本是OpenStackIcehouse〔2021年4月17日〕,在每個(gè)版本發(fā)布之后社區(qū)都會(huì)舉行一次峰會(huì),來自世界各地的公司和開發(fā)者一起討論下一個(gè)版本的設(shè)計(jì),同時(shí)進(jìn)展OpenStack相關(guān)的技術(shù)分享。第二十七頁,共58頁。CloudStack最初由Cloud公司開發(fā),分為商業(yè)和開源兩個(gè)版本,開源版本通過GPLv3〔GNUGeneralPublicLicense,version3〕許可協(xié)議進(jìn)展授權(quán),Citrix(思杰)公司在2021年收購Cloud后,將全部代碼開源,并在2021年將CloudStack奉獻(xiàn)給Apache軟件基金會(huì),成為Apache的孵化工程,同時(shí)將授權(quán)協(xié)議改為更加寬松開放和商業(yè)友好的Apache許可協(xié)議,CloudStack在2021年3月份升級(jí)為Apache的正式工程。CloudStack的目標(biāo)是提供高度可用的、高度可擴(kuò)展的能夠進(jìn)展大規(guī)模虛擬機(jī)部署和管理的開放云平臺(tái)。CloudStack的發(fā)布周期并不固定,目前最新的版本是5.0,社區(qū)每年會(huì)舉行一次全球協(xié)作會(huì)議〔CloudStackCollaborationConference〕進(jìn)展技術(shù)分享和交流。第二十八頁,共58頁。

OpenStackCloudStack授權(quán)協(xié)議Apache2.0,可以免費(fèi)商用Apache2.0,可以免費(fèi)商用虛擬化技術(shù)XenServer/XCP,KVM,QEMU,

LXC,VMwareESXi/vCenter,Hyper-VBaremetal,Docker,Xen/LibvirtXenServer,KVM,QEMU,

VMwarevCenter,LXC網(wǎng)絡(luò)服務(wù)VLAN,Flat,FlatDHCP

Quantum虛擬化網(wǎng)絡(luò)VLAN,Flat,OpenFlow存儲(chǔ)支持iSCSI,Ceph,NFS,LVM,Swift,SheepdogNFS,LVM,Ceph,Swift調(diào)度策略模型全面,易擴(kuò)展模型簡單,可擴(kuò)展用戶界面功能完善,界面簡單功能完善,界面友好數(shù)據(jù)庫PostgreSQL,MySQL,SQLiteMySQL虛擬機(jī)模板支持支持組件Nova,Glance,Keystone,

Horizon,Swift,Cinder,

Quantum,Heat,CeilometerConsoleProxyVM,

SecondStorageVM,

VirtualRouterVM,

HostAgent,ManagementServer開發(fā)主導(dǎo)開源社區(qū)Citrix公司開發(fā)語言PythonJava官方文檔非常詳細(xì)詳細(xì)版本問題存在版本兼容性問題不存在版本兼容性問題用戶群160家左右,包括NASA、

RedHat、Rackspace、HP、

網(wǎng)易、UnitedStack等不到60家,包括諾基亞、

日本電話電報(bào)公司Zynga、

阿爾卡特、迪斯尼等第二十九頁,共58頁。大唐移動(dòng)云計(jì)算平臺(tái)架構(gòu)第三十頁,共58頁。云計(jì)算在中小型企業(yè)中的實(shí)際應(yīng)用第三十一頁,共58頁。隨著企業(yè)的開展和競爭逐漸加劇,傳統(tǒng)的IT管理模式在時(shí)效性和靈活性上已不能滿足日新月異的市場需求,客觀上需要一種靈活、動(dòng)態(tài)的,能夠?yàn)槠髽I(yè)提供實(shí)時(shí)支持的IT管理模式。多數(shù)企業(yè)特別是中小型企業(yè)在信息化過程中面臨一下幾點(diǎn)問題:昂貴的根底設(shè)施建立持續(xù)不斷的維護(hù)本錢平臺(tái)運(yùn)行過程中的各種問題第三十二頁,共58頁。問題1——昂貴的根底設(shè)施建立昂貴的根底設(shè)施建立,使企業(yè)無法承擔(dān)由此帶來的風(fēng)險(xiǎn),使得企業(yè)信息化建立可望而不可及需要搭建企業(yè)內(nèi)部的網(wǎng)絡(luò),如果是跨區(qū)域的公司,還需要搭建獨(dú)立的外網(wǎng)系統(tǒng)購置符合公司個(gè)性化的信息管理軟件1、購置效勞器硬件2、購置操作系統(tǒng)及數(shù)據(jù)庫效勞系統(tǒng)第三十三頁,共58頁。問題2——持續(xù)不斷的維護(hù)本錢1、效勞器硬件定期檢修2、操作系統(tǒng)及數(shù)據(jù)庫效勞系統(tǒng)定期檢修3、效勞器性能監(jiān)控4、效勞器故障排查 1、效勞器網(wǎng)絡(luò)流量監(jiān)測(cè)2、效勞器網(wǎng)絡(luò)平安檢測(cè)3、效勞器網(wǎng)絡(luò)故障排查及修復(fù) 1、軟件升級(jí)2、軟件功能完善3、軟件BUG修復(fù)

信息化平臺(tái)的維護(hù)不但需要維持不斷變化的本錢,也需要有IT技術(shù)專業(yè)人員的投入,這往往是中小企業(yè)不具備的第三十四頁,共58頁。問題3——平臺(tái)運(yùn)維中的各種問題突然斷電、效勞器過熱、效勞器故障、網(wǎng)絡(luò)狀態(tài)等都會(huì)影響到信息平臺(tái)的穩(wěn)定性信息平臺(tái)的不穩(wěn)定直接關(guān)系到其可用性,如可用性受到影響,那么企業(yè)日常業(yè)務(wù)將會(huì)受到嚴(yán)重影響包括數(shù)據(jù)平安性與網(wǎng)絡(luò)平安性;由于缺乏有效的平安維護(hù)方案及措施,使得企業(yè)數(shù)據(jù)都裸露在外,企業(yè)信息毫無平安性可言隨著企業(yè)不斷開展,而差擴(kuò)展性的信息化平臺(tái),再加上維護(hù)跟不上,使得企業(yè)當(dāng)前的信息平臺(tái)將會(huì)成為企業(yè)開展的絆腳石不穩(wěn)定、不可用、不平安及差擴(kuò)展,這些問題最終使得企業(yè)信息化平臺(tái)“天折〞第三十五頁,共58頁。問題3——平臺(tái)運(yùn)維中的各種問題突然斷電、效勞器過熱、效勞器故障、網(wǎng)絡(luò)狀態(tài)等都會(huì)影響到信息平臺(tái)的穩(wěn)定性信息平臺(tái)的不穩(wěn)定直接關(guān)系到其可用性,如可用性受到影響,那么企業(yè)日常業(yè)務(wù)將會(huì)受到嚴(yán)重影響包括數(shù)據(jù)平安性與網(wǎng)絡(luò)平安性;由于缺乏有效的平安維護(hù)方案及措施,使得企業(yè)數(shù)據(jù)都裸露在外,企業(yè)信息毫無平安性可言隨著企業(yè)不斷開展,而差擴(kuò)展性的信息化平臺(tái),再加上維護(hù)跟不上,使得企業(yè)當(dāng)前的信息平臺(tái)將會(huì)成為企業(yè)開展的絆腳石不穩(wěn)定、不可用、不平安及差擴(kuò)展,這些問題最終使得企業(yè)信息化平臺(tái)“天折〞第三十六頁,共58頁。實(shí)際案例—西湖云計(jì)算效勞平臺(tái)根據(jù)文件精神和對(duì)西湖區(qū)電子商務(wù)產(chǎn)業(yè)開展現(xiàn)狀的分析,為促進(jìn)西湖區(qū)電子商務(wù)產(chǎn)業(yè)安康持續(xù)快速開展,打造全國電子商務(wù)中心的核心區(qū),2021年9月文三路電子信息街區(qū)管委會(huì)與浙江工商大學(xué)、東華大學(xué)、上海聯(lián)合電子商務(wù)研究所、IBM中國開發(fā)中心開場共同推進(jìn)電子商務(wù)行業(yè)云計(jì)算公共效勞平臺(tái)建立。第三十七頁,共58頁。第三十八頁,共58頁。大數(shù)據(jù)根底知識(shí)介紹第三十九頁,共58頁。數(shù)據(jù)的前世今生4step2step1step紙質(zhì)數(shù)據(jù)文件系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘大數(shù)據(jù)時(shí)代3step5step第四十頁,共58頁。數(shù)據(jù)庫管理系統(tǒng)常見的數(shù)據(jù)庫管理系統(tǒng)MySQL、ORACLE、ACCESS、VisualFoxpro、MSSQLServerInformix、PostgreSQL、SYBASE、DB2第四十一頁,共58頁。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘數(shù)據(jù)庫數(shù)據(jù)倉庫不可知的價(jià)值提取數(shù)據(jù)數(shù)據(jù)挖掘

例如:“尿布與啤酒〞的故事第四十二頁,共58頁??偛课挥诿绹⒖仙莸氖澜缰虡I(yè)零售連鎖企業(yè)沃爾瑪〔Wal

Mart〕擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng)。為了能夠準(zhǔn)確了解顧客在其門店的購置習(xí)慣,沃爾瑪利對(duì)其顧客的購物行為進(jìn)展購物籃分析,想知道顧客經(jīng)常一起購置的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的根底上,沃爾瑪利用NCR數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)展分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:“跟尿布一起購置最多的商品竟是啤酒!〞

這是數(shù)據(jù)挖掘技術(shù)對(duì)歷史數(shù)據(jù)進(jìn)展分析的結(jié)果,反映數(shù)據(jù)內(nèi)在的規(guī)律。那么這個(gè)結(jié)果符合現(xiàn)實(shí)情況嗎?是否是一個(gè)有用的知識(shí)?是否有利用價(jià)值?

第四十三頁,共58頁。

于是,沃爾瑪派出市場調(diào)查人員和分析師對(duì)這一數(shù)據(jù)挖掘結(jié)果進(jìn)展調(diào)查分析。經(jīng)過大量實(shí)際調(diào)查和分析,提醒了一個(gè)隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%

~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。

既然尿布與啤酒一起被購置的時(shí)機(jī)很多,于是沃爾瑪就在其一個(gè)個(gè)門店將尿布與啤酒并排擺放在一起,結(jié)果是尿布與啤酒的銷售量雙雙增長。

按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,假設(shè)不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)展挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。

第四十四頁,共58頁。大數(shù)據(jù)的特征數(shù)據(jù)量大〔Volume〕大數(shù)據(jù)的起始計(jì)量單位至少是P〔1000個(gè)T〕、E〔100萬個(gè)T〕或Z〔10億個(gè)T〕。類型繁多〔Variety〕包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。價(jià)值密度低〔Value〕速度快時(shí)效高〔Velocity〕處理速度快,時(shí)效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。第四十五頁,共58頁。密不可分的大數(shù)據(jù)與云計(jì)算商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身也是大數(shù)據(jù)的一種業(yè)務(wù)模式大數(shù)據(jù)是落地的云云計(jì)算的模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲(chǔ)、訪問和計(jì)算。當(dāng)前云計(jì)算更偏重海量存儲(chǔ)和計(jì)算,以及提供的云效勞,運(yùn)行云應(yīng)用,但是缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價(jià)值性信息和預(yù)測(cè)性分析,為國家、企業(yè)、個(gè)人提供決策和效勞,是大數(shù)據(jù)核心議題,也是云計(jì)算的最終方向。第四十六頁,共58頁。一些相關(guān)技術(shù)分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)那么分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫;NoSQL;SQL等根底架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等存儲(chǔ)構(gòu)造化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低非構(gòu)造化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲(chǔ)不利于檢索、查詢和存儲(chǔ)半構(gòu)造化數(shù)據(jù)轉(zhuǎn)換為構(gòu)造化存儲(chǔ)按照

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論