項目8 大數(shù)據(jù)在云端_第1頁
項目8 大數(shù)據(jù)在云端_第2頁
項目8 大數(shù)據(jù)在云端_第3頁
項目8 大數(shù)據(jù)在云端_第4頁
項目8 大數(shù)據(jù)在云端_第5頁
已閱讀5頁,還剩116頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《大數(shù)據(jù)導論》大數(shù)據(jù)在云端【導讀案例】亞馬遜,數(shù)據(jù)在云端亞馬遜Web服務(AWS)【任務描述】(1)了解大數(shù)據(jù)基礎(chǔ)設施的基本概念;(2)了解虛擬化的重要思想,了解計算虛擬化、存儲虛擬化和網(wǎng)絡虛擬化的具體內(nèi)容;(3)了解云計算的基本思想和主要內(nèi)容,了解云計算與大數(shù)據(jù)的關(guān)系?!局R準備】

基礎(chǔ)設施是指在IT環(huán)境中,為具體應用提供計算、存儲、互聯(lián)、管理等基礎(chǔ)功能的軟硬件系統(tǒng)。

在信息技術(shù)發(fā)展的早期,IT基礎(chǔ)設施往往由一系列昂貴的,經(jīng)過特殊設計的軟硬件設備組成,存儲容量非常有限,系統(tǒng)之間也沒有高效的數(shù)據(jù)交換通道,應用軟件直接運行在硬件平臺上。

云端大數(shù)據(jù)云端大數(shù)據(jù)基于大規(guī)模數(shù)據(jù)的系列應用正在悄然推動著IT基礎(chǔ)設施的發(fā)展,尤其是大數(shù)據(jù)對海量、高速存儲的需求。為了對大規(guī)模數(shù)據(jù)進行有效的計算,必須最大限度地利用計算和網(wǎng)絡資源。計算虛擬化和網(wǎng)絡虛擬化要對分布式、異構(gòu)的計算、存儲、網(wǎng)絡資源進行有效的管理。云端大數(shù)據(jù)1.云計算:所謂“云計算”(CloudComputing),是一種基于互聯(lián)網(wǎng)的計算方式,通過這種方式共享的軟硬件資源和信息可以按需求提供給計算機和其他設備。云計算云計算是分布式計算(DistributedComputing)、并行計算(ParallelComputing)、效用計算(UtilityComputing)、網(wǎng)絡存儲(NetworkStorageTechnologies)、虛擬化(Virtualization)、負載均衡(LoadBalance)等傳統(tǒng)計算機和網(wǎng)絡技術(shù)發(fā)展融合的產(chǎn)物。云端大數(shù)據(jù)云端大數(shù)據(jù)2.云計算的服務形式

云計算按照服務的組織、交付方式的不同,有公有云、私有云、混合云之分。

(1)公有云向所有人提供服務,典型的公有云提供商是亞馬遜。(2)私有云只針對特定客戶群提供服務,比如一個企業(yè)內(nèi)部IT可以在自己的數(shù)據(jù)中心搭建私有云,并向企業(yè)內(nèi)部提供服務。(3)目前,有部分企業(yè)整合了內(nèi)部私有云和公有云,統(tǒng)一交付云服務,這就是混合云。云計算的服務方式云端大數(shù)據(jù)云計算包括以下幾個層次的服務:基礎(chǔ)設施服務(IaaS),平臺即服務(PaaS)和軟件即服務(SaaS)。分層體系架構(gòu)意義上的“層次”IaaS、PaaS和SaaS分別在基礎(chǔ)設施層、軟件開放運行平臺層和應用軟件層實現(xiàn)。云計算提供的服務層次云端大數(shù)據(jù)3.云計算與大數(shù)據(jù)云計算與大數(shù)據(jù)云端大數(shù)據(jù)4.云基礎(chǔ)設施大數(shù)據(jù)解決方案的構(gòu)架離不開云計算的支撐。支撐大數(shù)據(jù)及云計算的底層原則是一樣的,即規(guī)?;?、自動化、資源配置、自愈性。大數(shù)據(jù)是構(gòu)建在云計算基礎(chǔ)架構(gòu)之上的應用形式,因此它很難獨立于云計算架構(gòu)而存在。

虛擬化(Virtualization)是云計算所有要素中最基本,也是最核心的組成部分。虛擬化技術(shù)的發(fā)展其實已經(jīng)走過了半個多世紀(1956)。在虛擬化技術(shù)的發(fā)展初期,IBM是主力軍,它把虛擬化技術(shù)用在了大型機領(lǐng)域。云端大數(shù)據(jù)1964年,IBM設計了名為CP-40的新型操作系統(tǒng),實現(xiàn)了虛擬內(nèi)存和虛擬機。1965年,IBM推出了System/360Model67和TSS分時共享系統(tǒng)(TimeSharingSystem),允許很多遠程用戶共享同一高性能計算設備的使用時間。1972年,IBM發(fā)布了用于創(chuàng)建靈活大型主機的虛擬機技術(shù),實現(xiàn)了根據(jù)動態(tài)需求快速而有效地使用各種資源的效果。IBMSystem/360感謝觀看!《大數(shù)據(jù)導論》大數(shù)據(jù)在云端計算虛擬化計算虛擬化計算虛擬化,又稱平臺虛擬化或服務器虛擬化,它的核心思想是使在一個物理計算機上同時運行多個操作系統(tǒng)成為可能。在虛擬化世界中,我們通常把提供虛擬化能力的物理計算機稱為宿主機(Hostmachine),而把在虛擬化環(huán)境中運行的計算機稱為客戶機(Guestmachine)。

計算虛擬化是大數(shù)據(jù)處理不可缺少的支撐技術(shù),其作用體現(xiàn)在提高設備利用率、提高系統(tǒng)可靠性、解決計算單元管理問題等方面。計算虛擬化虛擬機的快照(Snapshot)操作虛擬機存儲的動態(tài)遷移虛擬機(VirtualMachine,VM)是對物理計算機功能的一種軟件模擬(部分或完全的),其中的虛擬設備在硬件細節(jié)上可以獨立于物理設備。計算虛擬化計算虛擬化虛擬機管理器(虛擬機管理程序,VirtualMachineMonitor,VMM),通常又稱為Hypervisor,是在宿主機上提供虛擬機創(chuàng)建和運行管理的軟件系統(tǒng)或固件。Hypervisor可以歸納為兩個類型:原生的Hypervisor和托管的Hypervisor。感謝觀看!《大數(shù)據(jù)導論》大數(shù)據(jù)在云端存儲虛擬化存儲虛擬化關(guān)于大數(shù)據(jù),最容易想到的便是其數(shù)據(jù)量之龐大,如何高效地保存和管理這些海量數(shù)據(jù)是存儲面臨的首要問題。存儲虛擬化存儲虛擬化最通俗的理解就是對一個或者多個存儲硬件資源進行抽象,提供統(tǒng)一的、更有效率的全面存儲服務。虛擬化存儲原理圖存儲虛擬化有兩大分類:塊虛擬化(Blockvirtualizatlon)和文件虛擬化(Filevirtualization)。塊虛擬化就是將不同結(jié)構(gòu)的物理存儲抽象成統(tǒng)一的邏輯存儲。文件虛擬化則是幫助用戶,使其在一個多節(jié)點的分布式存儲環(huán)境中,再也不用關(guān)心文件的具體物理存儲位置了。存儲虛擬化存儲虛擬化1.傳統(tǒng)存儲系統(tǒng)時代世界上第一塊硬盤存儲虛擬化目前傳統(tǒng)存儲系統(tǒng)主要的三種架構(gòu),包括DASNAS和SAN。(1)DAS(Direct-AttachedStorage,直連式存儲)。(2)NAS(Network-AttachedStorage,網(wǎng)絡存儲系統(tǒng))。(3)SAN(StorageAreaNetwork,存儲區(qū)域網(wǎng)絡)。DAS、SAN和NAS三種存儲方式存儲虛擬化2.大數(shù)據(jù)時代的新挑戰(zhàn)相對于傳統(tǒng)的存儲系統(tǒng),大數(shù)據(jù)存儲一般與上層的應用系統(tǒng)結(jié)合得更緊密。不同的應用場景,其底層大數(shù)據(jù)存儲的特點也不盡相同。存儲系統(tǒng)存儲虛擬化結(jié)合當前主流的大數(shù)據(jù)存儲系統(tǒng),可以總結(jié)出如下一些基本特點:(1)大容量及高可擴展性。(2)高可用性。(3)高性能。(4)安全性。(5)自管理和自修復。(6)成本。(7)訪問接口的多樣化。存儲虛擬化3.云存儲云存儲是由第三方運營商提供的在線存儲系統(tǒng),比如面向個人用戶的在線網(wǎng)盤和而向企業(yè)的文件、塊或?qū)ο蟠鎯ο到y(tǒng)等。云存儲存儲虛擬化云存儲通過運營商來集中、統(tǒng)一地部署和管理存儲系統(tǒng),降低了數(shù)據(jù)存儲的成本,從而也降低了大數(shù)據(jù)行業(yè)的準入門檻,為中小型企業(yè)進軍大數(shù)據(jù)行業(yè)提供了可能性。在線文件存儲服務提供商Dropbox存儲虛擬化云存儲背后使用的存儲系統(tǒng)其實多是采用分布式架構(gòu),而云存儲因其更多新的應用場景,在設計上也遇到了新的問題和需求。(1)云存儲在管理系統(tǒng)和訪問接口上大都需要解決如何支持多租戶的訪問方式。(2)云存儲和云計算一樣,都需要解決的一個共同難題就是關(guān)于信任(Trust)問題。存儲虛擬化將存儲作為服務的形式提供給用戶,云存儲在訪問接口上一般都會秉承簡潔易用的特性。亞馬遜的S3存儲存儲虛擬化存儲虛擬化是云存儲的一個重要的技術(shù)基礎(chǔ),是通過抽象和封裝底層存儲系統(tǒng)的物理特性,將多個互相隔離的存儲系統(tǒng)統(tǒng)一化為一個抽象的資源池的技術(shù)。存儲虛擬化存儲虛擬化4.大數(shù)據(jù)存儲的其他需求:(1)去重(Deduplication)數(shù)據(jù)去重大概可以分為基于文件級別的去重和基于數(shù)據(jù)塊級別的去重。(2)分層存儲(TieredStorage)比如,計算機系統(tǒng)上通過從外部存儲(比如硬盤等)到內(nèi)存、緩存等一系列存儲介質(zhì)組成的存儲金字塔,很好地解決了CPU的數(shù)據(jù)訪問瓶頸問題感謝觀看!《大數(shù)據(jù)導論》大數(shù)據(jù)在云端網(wǎng)絡虛擬化網(wǎng)絡虛擬化網(wǎng)絡虛擬化,簡單來講是指把邏輯網(wǎng)絡從底層的物理網(wǎng)絡分離開來,包括網(wǎng)卡的虛擬化、網(wǎng)絡的虛擬接入技術(shù)、覆蓋網(wǎng)絡交換,以及軟件定義的網(wǎng)絡等。網(wǎng)絡虛擬化1.網(wǎng)卡虛擬化

多個虛擬機共享服務器中的物理網(wǎng)卡,需要一種機制既能保證I/O的效率,又能保證多個虛擬機對用物理網(wǎng)卡共享使用。I/O虛擬化的出現(xiàn)就是為了解決這類問題。

最新的解決方案是物理設備(如網(wǎng)卡)直接對上層操作系統(tǒng)或Hypervisor提供虛擬化的功能,一個以太網(wǎng)卡可以對上層軟件提供多個獨立的虛擬的PCIe設備并提供虛擬通道來實現(xiàn)并發(fā)訪問。這種方法也是業(yè)界主流的做法和發(fā)展方向,目前已經(jīng)形成了標準。網(wǎng)絡虛擬化2.虛擬交換機在虛擬化的早期階段,由于物理網(wǎng)卡并不具備為多個虛擬機服務的能力,為了將同一物理機上的多臺虛擬機接入網(wǎng)絡,引入了一個虛擬交換機(VirtualSwitch)的概念。通常也稱為軟件交換機,以區(qū)別于硬件實現(xiàn)的網(wǎng)絡交換機。VMwarevSwitch結(jié)構(gòu)圖網(wǎng)絡虛擬化3.接入層的虛擬化虛擬接入要解決的問題是要把虛擬機的網(wǎng)絡流量納入傳統(tǒng)網(wǎng)絡交換設備的管理之中,需要對虛擬機的流量做標識。網(wǎng)絡虛擬化4.覆蓋網(wǎng)絡虛擬化虛擬網(wǎng)絡并不是全新的概念,事實上我們熟知的VLAN就是一種已有的方案。VLAN的作用是在一個大的物理二層網(wǎng)絡里劃分出多個互相隔離的虛擬三層網(wǎng)絡,這個方案在傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡中得到了廣泛的應用。覆蓋網(wǎng)絡虛擬化,它可以更好地滿足云計算和下一代數(shù)據(jù)中心的需求,它為用戶虛擬化應用帶來了許多好處(特別是對大規(guī)模的、分布式的數(shù)據(jù)處理),包括:①虛擬網(wǎng)絡的動態(tài)創(chuàng)建與分配;②虛擬機的動態(tài)遷移(跨子網(wǎng)、跨數(shù)據(jù)中心);③一個虛擬網(wǎng)絡可以跨多個數(shù)據(jù)中心;④將物理網(wǎng)絡與虛擬網(wǎng)絡的管理分離;⑤安全(邏輯抽象與完全隔離)。網(wǎng)絡虛擬化5.軟件定義的網(wǎng)絡(SDN)OpenFlow和SDN盡管不是專門為網(wǎng)絡虛擬化而生,但是它們帶來的標準化和靈活性卻給網(wǎng)絡虛擬化的發(fā)展帶來無限可能?;贠penFlow的網(wǎng)絡交換設備網(wǎng)絡虛擬化OpenFlow可能的應用場景包括:①校園網(wǎng)絡中對實驗性通信協(xié)議的支持;②網(wǎng)絡管理和訪問控制;③網(wǎng)絡隔離和VLAN;④基于WiFi的移動網(wǎng)絡;⑤非IP網(wǎng)絡;⑥基于網(wǎng)絡包的處理。網(wǎng)絡虛擬化6.對大數(shù)據(jù)處理的意義覆蓋網(wǎng)絡的虛擬化,一方面使得大數(shù)據(jù)應用能夠得到有效的網(wǎng)絡隔離,更好地保證了數(shù)據(jù)通信的安全;另一力面也使得應用的動態(tài)遷移更加便捷,保證了應用的性能和可靠性。網(wǎng)絡虛擬化技術(shù)通過對性能、可靠性和資源優(yōu)化利用的貢獻,間接提高了大數(shù)據(jù)系統(tǒng)的可靠性和運行效率感謝觀看!《大數(shù)據(jù)導論》大數(shù)據(jù)在云端數(shù)據(jù)即服務數(shù)據(jù)即服務數(shù)據(jù)即服務(DataasaService,DaaS)是一個跨越大數(shù)據(jù)基礎(chǔ)設施和應用的領(lǐng)域。例如鄧白氏公司為金融、地址以及其他形式的數(shù)據(jù)提供網(wǎng)絡編程接口,費埃哲公司(FICO)提供財務信息,推特為其推文提供訪問權(quán)限等等。數(shù)據(jù)即服務1.數(shù)據(jù)應用這樣的數(shù)據(jù)源允許他人在其基礎(chǔ)上建立有趣的應用程序,而這些應用程序可以用于準確預測總統(tǒng)選舉結(jié)果,或了解消費者對品牌的感覺。

例如在線數(shù)據(jù)拍賣平臺BlueKai公司提供與消費者資料相關(guān)的數(shù)據(jù),交通駕駛服務系統(tǒng)供應商Inrix公司提供交通數(shù)據(jù),律商聯(lián)訊公司提供法律數(shù)據(jù)等。數(shù)據(jù)即服務2.數(shù)據(jù)清理數(shù)據(jù)清理涉及的任務包括刪除重復記錄和使地址字段正?;?。展望未來,數(shù)據(jù)清理很可能成為一項基于云計算的服務。數(shù)據(jù)即服務3.數(shù)據(jù)保密隨著我們將更多的數(shù)據(jù)轉(zhuǎn)移到云中,并將自己的信息更多地公布到網(wǎng)上,人們對于數(shù)據(jù)保密的關(guān)注也與日俱增。

在未來,可能出現(xiàn)這樣的大數(shù)據(jù)應用程序:不僅讓我們自己決定分享何種數(shù)據(jù),也幫助我們了解分享個人信息背后的隱藏含義——無論那些信息對我們是否進行了個人識別。感謝觀看!《大數(shù)據(jù)導論》大數(shù)據(jù)在云端云的挑戰(zhàn)云的挑戰(zhàn)過去,這項服務一直存在著三個潛在問題:(1)企業(yè)覺得這項服務不安全。內(nèi)部基礎(chǔ)設施被認為更有保障。(2)許多大供應商根本不提供軟件的互聯(lián)網(wǎng)/云版本。公司必須購買硬件,自行運行軟件或者雇用第三方做這件事。(3)難以將大量數(shù)據(jù)從內(nèi)部系統(tǒng)中提取出來,存入云中。云的挑戰(zhàn)云計算在數(shù)據(jù)安全方面引入的新問題,譬如在云計算基礎(chǔ)架構(gòu)服務層(IaaS,主要有:①新的安全問題,諸如信任問題(特指租客和云服務商之間),多租客之間的資源隔離問題;②對已有的安全攻擊,IaaS是否更容易被攻擊?或者存在新的技術(shù)方法去避免這些攻擊。云的挑戰(zhàn)亞馬遜的EC2服務云的挑戰(zhàn)隱私保護、數(shù)據(jù)備份、災難恢復、病毒防范、多點服務、數(shù)據(jù)加密、虛擬機隔離等等,這些都是云安全的研究課題。感謝聆聽!《大數(shù)據(jù)導論》大數(shù)據(jù)在云端【導讀案例】智能大數(shù)據(jù)分析成熱點我國大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模(單位:億元)【導讀案例】智能大數(shù)據(jù)分析成熱點2015年中國大數(shù)據(jù)細分市場規(guī)模占比2014年全球大數(shù)據(jù)細分市場【導讀案例】智能大數(shù)據(jù)分析成熱點大數(shù)據(jù)未來發(fā)展方向【任務描述】(1)了解新興學科——數(shù)據(jù)科學的基礎(chǔ)知識和主要內(nèi)容。(2)熟悉數(shù)據(jù)工作者的技能要求、素質(zhì)要求、知識結(jié)構(gòu)和培養(yǎng)途徑。(3)認識“數(shù)據(jù)開放”的重要意義,重視隱私保護和信息安全。(4)認識投身大數(shù)據(jù)時代的積極意義,做大數(shù)據(jù)的先行者?!局R準備】每當提及“數(shù)據(jù)科學”(datascience),人們總會聯(lián)想到另一個含義相近的名詞一一“商務智能”(BI)。而測量尺度和關(guān)鍵績效指標(KPI)通常是在聯(lián)機分析處理模式(OLAP)中定義,使得商務智能報表的內(nèi)容能夠基于已定義的衡量標準。商務智能的典型技術(shù)和數(shù)據(jù)類型包括:·標準和滿足特定需求的報表、信息面板、警報、查詢及細節(jié);·結(jié)構(gòu)化數(shù)據(jù)、傳統(tǒng)數(shù)據(jù)源、易操作的數(shù)據(jù)集。數(shù)據(jù)科學的典型技術(shù)和數(shù)據(jù)類型包括:·優(yōu)化模型、預測模型、預報、統(tǒng)計分析;·結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)、多種類型數(shù)據(jù)源、超大數(shù)據(jù)集?!局R準備】數(shù)據(jù)科學通常,數(shù)據(jù)科學的實踐需要三個一般領(lǐng)域的技能,即:商業(yè)洞察、計算機技術(shù)/編程和統(tǒng)計學/數(shù)學。而另一方面,不同的工作對象,他的具體技能集合會有所不同。數(shù)據(jù)科學技能領(lǐng)域技能詳情商業(yè)1.產(chǎn)品設計和開發(fā)2.項目管理3.商業(yè)開發(fā)4.預算5.管理和兼容性(例如:安全性)技術(shù)6.處理非結(jié)構(gòu)化數(shù)據(jù)(例如:NoSQL)7.管理結(jié)構(gòu)化數(shù)據(jù)(例如:SQL、JSON、XML)8.自然語言處理(NLP)和文本挖掘9.機器學習(例如:決策樹、神經(jīng)網(wǎng)絡、支持向量機、聚類)10.大數(shù)據(jù)和分布式數(shù)據(jù)(例如:Hadoop、Map/Reduce、Spark)數(shù)學&建模11.最優(yōu)化(例如:線性、整數(shù)、凸優(yōu)化、全局)12.數(shù)學(例如:線性代數(shù)、實變分析、微積分)13.圖模型(例如:社會網(wǎng)絡)14.算法(例如:計算復雜性、計算科學理論)和仿真(例如:離散、基于agent、連續(xù))15.貝葉斯統(tǒng)計(例如:馬爾科夫鏈蒙特卡羅方法)編程16.系統(tǒng)管理(例如:UNIX)和設計17.數(shù)據(jù)庫管理(例如:MySQL、NoSQL)18.云管理19.后端編程(例如:Java/Rails/ObjectiveC)20.前端編程(例如:JavaScript,HTML,CSS)統(tǒng)計21.數(shù)據(jù)管理(例如:重編碼、去重復項、整合單個數(shù)據(jù)源、網(wǎng)絡抓取)22.數(shù)據(jù)挖掘(例如:R,Python,SPSS,SAS)和可視化(例如:圖形、地圖、基于Web的數(shù)據(jù)可視化)工具23.統(tǒng)計學和統(tǒng)計建模(例如:一般線性模型、ANOVA、MANOVA、時空數(shù)據(jù)分析、地理信息系統(tǒng))24.科學/科學方法(例如:實驗設計、研究設計)25.溝通(例如:分享結(jié)果、寫作/發(fā)表、展示、博客)數(shù)據(jù)科學中25項技能數(shù)據(jù)科學1.數(shù)據(jù)科學技能和熟練程度在上表中列出的這25項技能,反映了通常與數(shù)據(jù)科學家相關(guān)的技能集合。在進行針對數(shù)據(jù)科學家的調(diào)查中,調(diào)查者要求數(shù)據(jù)專業(yè)人員指出他們在25項不同數(shù)據(jù)科學技能上的熟練程度。這項研究數(shù)據(jù)基于620名被訪的數(shù)據(jù)專業(yè)人士,具備某種技能的百分比反映了指出他在該技能上至少中等熟練程度的被訪問者比例職位角色,即:商業(yè)經(jīng)理=250;開發(fā)人員=222;創(chuàng)意人員=221;研究人員=353。數(shù)據(jù)科學2.重要數(shù)據(jù)科學技能分析表明,所有數(shù)據(jù)專業(yè)人員中最常見的數(shù)據(jù)科學十大技能是:統(tǒng)計–溝通(87%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(75%)數(shù)學&建模–數(shù)學(71%)商業(yè)–項目管理(71%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(71%)統(tǒng)計–科學/科學方法(65%)統(tǒng)計–數(shù)據(jù)管理(65%)商業(yè)–產(chǎn)品設計和開發(fā)(59%)統(tǒng)計–統(tǒng)計學和統(tǒng)計建模(59%)商業(yè)–商業(yè)開發(fā)(53%)數(shù)據(jù)科學3.因職業(yè)角色而異的十大技能(1)商業(yè)經(jīng)理:統(tǒng)計–溝通(91%)商業(yè)–項目管理(86%)商業(yè)–商業(yè)開發(fā)(77%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(74%)商業(yè)–預算(71%)商業(yè)–產(chǎn)品設計和開發(fā)(70%)數(shù)學&建模–數(shù)學(65%)統(tǒng)計–數(shù)據(jù)管理(64%)統(tǒng)計--數(shù)據(jù)挖掘和可視化工具(64%)商業(yè)–管理和兼容性(61%)(2)開發(fā)人員:技術(shù)–管理結(jié)構(gòu)化數(shù)據(jù)(91%)統(tǒng)計–溝通(85%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(76%)商業(yè)–產(chǎn)品設計(75%)數(shù)學&建模–數(shù)學(75%)統(tǒng)計–數(shù)據(jù)管理(75%)商業(yè)–項目管理(74%)編程–數(shù)據(jù)庫管理(73%)編程–后端編程(70%)編程–系統(tǒng)管理(65%)數(shù)據(jù)科學數(shù)據(jù)科學(3)創(chuàng)意人員:統(tǒng)計–溝通(87%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(79%)商業(yè)–項目管理(77%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(77%)數(shù)學&建模–數(shù)學(75%)商業(yè)–產(chǎn)品設計和開發(fā)(68%)統(tǒng)計–科學/科學方法(68%)統(tǒng)計–數(shù)據(jù)管理(67%)統(tǒng)計–統(tǒng)計學和統(tǒng)計建模(63%)商業(yè)–商業(yè)開發(fā)(58%)數(shù)據(jù)科學(4)研究人員:統(tǒng)計–溝通(90%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(81%)數(shù)學&建模–數(shù)學(80%)統(tǒng)計–科學/科學方法(78%)統(tǒng)計–統(tǒng)計學和統(tǒng)計建模(75%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(73%)統(tǒng)計–數(shù)據(jù)管理(69%)商業(yè)–項目管理(68%)技術(shù)–機器學習(58%)數(shù)學–最優(yōu)化(56%)數(shù)據(jù)科學4.按職業(yè)角色的重要技能

上述研究所列舉的重要數(shù)據(jù)科學技能取決于你正在考慮成為哪種類型的數(shù)據(jù)專業(yè)人員。雖然一些技能看起來在不同專業(yè)人士間通用(尤其是溝通、處理結(jié)構(gòu)化數(shù)據(jù)、數(shù)學、項目管理、數(shù)據(jù)挖掘和可視化工具、數(shù)據(jù)管理,以及產(chǎn)品設計和開發(fā)),但是其他數(shù)據(jù)科學技能對特定領(lǐng)域也有獨特之處。感謝觀看!《大數(shù)據(jù)導論》大數(shù)據(jù)在云端數(shù)據(jù)科學家與數(shù)據(jù)工作者數(shù)據(jù)科學家與數(shù)據(jù)工作者

數(shù)據(jù)科學家很可能是如今最熱門的頭銜之一,他們是數(shù)據(jù)科學行業(yè)的高層人才。數(shù)據(jù)科學家會利用最新的科技手段處理原始數(shù)據(jù),進行必要的分析,并以一種信息化的方式將獲得的知識展示給他的同事。數(shù)據(jù)科學家(圖片源自百度)數(shù)據(jù)科學家與數(shù)據(jù)工作者1.大數(shù)據(jù)生態(tài)系統(tǒng)中的關(guān)鍵角色大數(shù)據(jù)的出現(xiàn),催生了新的數(shù)據(jù)生態(tài)系統(tǒng)。為了提供有效的數(shù)據(jù)服務,它需要3種典型角色。角

色描

述專業(yè)人員舉例深度分析人才通過定量學科(例如數(shù)學、統(tǒng)計學和機器學習)高等訓練的人員:精通技術(shù),具有非常強的分析技能和處理原始數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的綜合能力,熟悉大規(guī)模復雜分析技術(shù)數(shù)據(jù)科學家、統(tǒng)計學家、經(jīng)濟學家,數(shù)學家數(shù)據(jù)理解專業(yè)人員具有統(tǒng)計學和/或機器學習基本知識的人員:知道如何定義使用先進分析方法可以解決的關(guān)鍵問題金融分析師、市場研究分析師、生命科學家、運營經(jīng)理、業(yè)務和職能經(jīng)理技術(shù)和數(shù)據(jù)的使能者提供專業(yè)技術(shù)用于支持分析型項目的人員:技能包括計算機程序設計和數(shù)據(jù)庫管理計算機程序員、數(shù)據(jù)庫管理員、計算機系統(tǒng)分析師新數(shù)據(jù)生態(tài)系統(tǒng)中的三個關(guān)鍵角色數(shù)據(jù)科學家與數(shù)據(jù)工作者《數(shù)據(jù)之美》(TobySegaran、JeffHammerbacher編著)哈爾·范里安(1948-)谷歌首席經(jīng)濟學家、加州大學伯克利分校教授數(shù)據(jù)科學家的關(guān)鍵活動包括:·將商業(yè)挑戰(zhàn)構(gòu)建成數(shù)據(jù)分析問題;·在大數(shù)據(jù)上設計、實現(xiàn)和部署統(tǒng)計模型和數(shù)據(jù)挖掘方法;·獲取有助于引領(lǐng)可操作建議的洞察力。數(shù)據(jù)科學家與數(shù)據(jù)工作者數(shù)據(jù)科學家與數(shù)據(jù)工作者2.數(shù)據(jù)科學家所需的技能數(shù)據(jù)科學家所需的技能如下:(l)計算機科學。(2)數(shù)學、統(tǒng)計、數(shù)據(jù)挖掘等。(3)數(shù)據(jù)可視化。信息圖的示例數(shù)據(jù)科學家與數(shù)據(jù)工作者3.數(shù)據(jù)科學家所需的素質(zhì)(l)溝通能力;(2)創(chuàng)業(yè)精神;(3)好奇心。

對于新的數(shù)據(jù)科學家供給來源,有三分之一的人期待“計算機科學專業(yè)的學生”,排名第一,而另一方面,期待現(xiàn)有商務智能專家的卻只有12%,這一結(jié)果比較出人意料。數(shù)據(jù)科學家與數(shù)據(jù)工作者數(shù)據(jù)科學家人才新的供給來源數(shù)據(jù)科學家與數(shù)據(jù)工作者

數(shù)據(jù)科學家與商務智能專家之間的區(qū)別在于,從包括公司外部數(shù)據(jù)在內(nèi)的數(shù)據(jù)獲取階段,一直到基于數(shù)據(jù)最終產(chǎn)生業(yè)務上的決策,數(shù)據(jù)科學家大多會深入數(shù)據(jù)的整個生命周期。數(shù)據(jù)科學家參與了數(shù)據(jù)的整個生命周期

關(guān)于數(shù)據(jù)科學家與商務智能專家的專業(yè)背景,有一些重要的調(diào)查結(jié)果。數(shù)據(jù)科學家大多學習計算機科學、工程學、自然科學等專業(yè),而商務智能專家則大多學習商業(yè)專業(yè)。數(shù)據(jù)科學家與數(shù)據(jù)工作者商務智能專家與數(shù)據(jù)科學家在學位上的對比商務智能專家與數(shù)據(jù)科學家在大學專業(yè)上的對比感謝觀看!《大數(shù)據(jù)導論》大數(shù)據(jù)在云端隱私權(quán)與安全性解決這些隱私問題需要對數(shù)據(jù)積累的本質(zhì)和數(shù)據(jù)隱私管理有深刻的理解,同時也要使用一些數(shù)據(jù)標記化和匿名化技術(shù)。隱私權(quán)與安全性例如,在一定周期內(nèi)收集的類似于汽車GPS(全球定位系統(tǒng))日志或者智能儀表的數(shù)據(jù)等遙測數(shù)據(jù)能夠透露個人位置和日常習慣。2012年2月23日,“消費者隱私權(quán)法案”正式頒布。這項法案中,對消費者的權(quán)利進行了如下具體的規(guī)定。隱私權(quán)與安全性(l)個人控制:對于企業(yè)可收集哪些個人數(shù)據(jù),并如何使用這些數(shù)據(jù),消費者擁有控制權(quán)。(2)透明度:對于隱私權(quán)及安全機制的相關(guān)信息,消費者擁有知情、訪問的權(quán)利。(3)尊重背景:消費者有權(quán)期望企業(yè)按照與自己提供數(shù)據(jù)時的背景相符的形式對個人信息進行收集、使用和披露。(4)安全:消費者有權(quán)要求個人數(shù)據(jù)得到安全保障且負責任地被使用。隱私權(quán)與安全性(5)訪問與準確性:當出于數(shù)據(jù)敏感性的因素,或者當數(shù)據(jù)的不準確可能對消費者帶來不良影響的風險時,消費者有權(quán)以適當?shù)姆绞綄?shù)據(jù)進行訪問,以及提出修正、刪除、限制使用等要求。(6)限定范圍收集:對于企業(yè)所收集和持有的個人數(shù)據(jù),消費者有權(quán)設置合理限制。(7)說明責任:消費者有權(quán)將個人數(shù)據(jù)交給為遵守“消費者隱私權(quán)法案”具備適當保障措施的企業(yè)。感謝聆聽!《大數(shù)據(jù)導論》大數(shù)據(jù)在云端連接開放數(shù)據(jù)連接開放數(shù)據(jù)“WWW之父”的英國計算機科學家蒂姆·伯納斯-李(TimBerners-Lee,1955-)爵士連接開放數(shù)據(jù)1.LOD運動LOD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論