版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
-6-大數(shù)據(jù)擁抱云計(jì)算對(duì)于數(shù)據(jù)的檢索和挖掘。檢索就是搜尋,俗話說外事不決問谷歌,內(nèi)事不決問百度。兩大搜尋引擎都是將分析歸納后的數(shù)據(jù)放入搜尋引擎,從而便利人們找到想要的信息。還有一個(gè)就是挖掘,搜尋出來的信息還需要從中挖掘出相互的關(guān)系。數(shù)據(jù)怎么樣才能對(duì)人有用?人們成天都在爭(zhēng)論大數(shù)據(jù),其實(shí)數(shù)據(jù)本身并不是有用的,必需要經(jīng)過肯定的處理。數(shù)據(jù)本身并沒有什么作用,但是數(shù)據(jù)里面包含一些很重要的東西,叫做信息(Information),數(shù)據(jù)雜亂無章,只有經(jīng)過了梳理和清洗,才能夠稱為信息。
1.數(shù)據(jù)如何升華為才智
數(shù)據(jù)的處理分五個(gè)步驟,全部完成了才最終才會(huì)升華才智。
第一:數(shù)據(jù)的收集。首先得有數(shù)據(jù),數(shù)據(jù)的收集有兩個(gè)方式,第一個(gè)方式是拿(Pull),專業(yè)點(diǎn)的叫爬取或者抓取,常見的搜尋引擎就是這么干的,它把網(wǎng)上的信息都下載到它的數(shù)據(jù)中心,然后被你搜尋出來。比如你去搜尋的時(shí)候,返回的是一個(gè)列表,這個(gè)列表為什么會(huì)在搜尋引擎的公司里面呢,就是由于他把這個(gè)數(shù)據(jù)都爬下來了,但是你一點(diǎn)鏈接,點(diǎn)出來這個(gè)網(wǎng)站就不在搜尋引擎它們公司了。比如說搜狐有個(gè)新聞,你拿百度搜出來,你不點(diǎn)的時(shí)候,那一頁在百度數(shù)據(jù)中心,一點(diǎn)出來的網(wǎng)頁就跳轉(zhuǎn)到搜狐的數(shù)據(jù)中心了。另外一個(gè)方式就是推送,有許多終端可以幫我收集數(shù)據(jù),比如說智能手環(huán),可以將你每天跑步的數(shù)據(jù),血壓的數(shù)據(jù),心跳的數(shù)據(jù)都上傳到數(shù)據(jù)中心里面。
其次:數(shù)據(jù)的傳輸。常見的會(huì)通過隊(duì)列方式進(jìn)行,數(shù)據(jù)量實(shí)在是太大了,數(shù)據(jù)必需經(jīng)過處理才會(huì)有用,但是系統(tǒng)處理不過來,只好排排隊(duì),一條條地處理。
第三:數(shù)據(jù)的存儲(chǔ)。現(xiàn)在數(shù)據(jù)就是Money,把握了數(shù)據(jù)就相當(dāng)于把握了金錢。要不然你看購物網(wǎng)站怎么知道你想買什么呢?就是由于它有你歷史的交易信息,然后通過這個(gè)信息分析出你的購物習(xí)慣。
第四:數(shù)據(jù)的處理和分析。上面存儲(chǔ)的數(shù)據(jù)是原始數(shù)據(jù),原始數(shù)據(jù)多是雜亂的,還有許多垃圾數(shù)據(jù),因而需要清洗和過濾。對(duì)于整理過的數(shù)據(jù),就可以進(jìn)行分析,從而對(duì)數(shù)據(jù)進(jìn)行歸類,或者發(fā)覺數(shù)據(jù)之間的相互關(guān)系。比如聞名的啤酒和紙尿布的故事,就是通過對(duì)人們的購買數(shù)據(jù)進(jìn)行比對(duì)分析,發(fā)覺了男人在買尿布的時(shí)候,會(huì)同時(shí)想要購買啤酒,這樣就發(fā)覺了啤酒和尿布之間的對(duì)應(yīng)關(guān)系,把握了規(guī)律,然后應(yīng)用到實(shí)踐中,將啤酒和尿布的柜臺(tái)放到一起,這就是一種才智。
第五:對(duì)于數(shù)據(jù)的檢索和挖掘。檢索就是搜尋,俗話說外事不決問谷歌,內(nèi)事不決問百度。兩大搜尋引擎都是將分析歸納后的數(shù)據(jù)放入搜尋引擎,從而便利人們找到想要的信息。還有一個(gè)就是挖掘,搜尋出來的信息還需要從中挖掘出相互的關(guān)系。例如財(cái)經(jīng)檢索,當(dāng)搜尋某個(gè)公司股票的時(shí)候,該公司的管理層是不是也應(yīng)當(dāng)被挖掘出來?假如僅僅搜尋出這個(gè)公司的股票漲的特殊好,你就去買了,結(jié)果其次天就跌了,這不坑人么?所以通過各種算法挖掘數(shù)據(jù)中的關(guān)系,形成學(xué)問數(shù)據(jù)庫,非常重要
2.大數(shù)據(jù)擁抱云計(jì)算
數(shù)據(jù)分析是一項(xiàng)很有意思的技術(shù),其功能就是幫我們梳理數(shù)據(jù),存儲(chǔ)信息,并從信息中總結(jié)規(guī)律。當(dāng)數(shù)據(jù)量很小的時(shí)候,幾臺(tái)機(jī)器就能分析并解決問題。但是,漸漸的當(dāng)數(shù)據(jù)量越來越大,大到最強(qiáng)的超級(jí)計(jì)算機(jī)都解決不了問題的時(shí)候,該怎么辦呢?這時(shí)就要聚合多臺(tái)機(jī)器的力氣,也就是使用云計(jì)算的力氣。
對(duì)于數(shù)據(jù)的收集,以物聯(lián)網(wǎng)為例,外面部署這成千上億的檢測(cè)設(shè)備,將大量的溫度,濕度,PH值,PM2.5等等數(shù)據(jù)統(tǒng)統(tǒng)收集上來,對(duì)于網(wǎng)頁的搜尋引擎來講,需要將整個(gè)互聯(lián)網(wǎng)全部的網(wǎng)頁都下載下來,這明顯一臺(tái)服務(wù)器做不到,需要多臺(tái)服務(wù)器組成分布式系統(tǒng),每臺(tái)機(jī)器下載一部分,同時(shí)工作,才能在有限的時(shí)間內(nèi),將海量的網(wǎng)頁下載完畢。
對(duì)于數(shù)據(jù)的傳輸,一個(gè)內(nèi)存里面的隊(duì)列確定會(huì)被大量的數(shù)據(jù)擠爆,于是就產(chǎn)生了基于存儲(chǔ)系統(tǒng)的分布式隊(duì)列,這樣的隊(duì)列可以多臺(tái)服務(wù)器同時(shí)傳輸,隨你數(shù)據(jù)量多大,只要我的隊(duì)伍足夠多,隊(duì)列足夠粗,就能夠撐得住。
對(duì)于數(shù)據(jù)的存儲(chǔ)也是一樣,一臺(tái)服務(wù)器的文件系統(tǒng)確定是放不下了,那我們就做一個(gè)很大的分布式文件系統(tǒng)來做這件事情,把多臺(tái)機(jī)器的硬盤打成一塊大的文件系統(tǒng)。
再比如數(shù)據(jù)的分析,可能需要對(duì)大量的數(shù)據(jù)做分類,統(tǒng)計(jì),聚合,一臺(tái)服務(wù)器確定搞不定,處理幾百年也分析不完,于是就有了分布式計(jì)算的方法,將大量的數(shù)據(jù)分成小份,每臺(tái)服務(wù)器處理一小份,多臺(tái)服務(wù)器并行處理,很快就能算完。例如聞名的Terasort對(duì)1個(gè)TB的數(shù)據(jù)排序,相當(dāng)于1024G,假如單機(jī)處理,怎么也要幾個(gè)小時(shí),但是并行處理只需要幾十秒就完成了。
所以說大數(shù)據(jù)平臺(tái),什么叫做大數(shù)據(jù),說白了就是一臺(tái)機(jī)器干不完,大家一起干。隨著數(shù)據(jù)量越來越大,許多公司都需要處理相當(dāng)多的數(shù)據(jù),沒有這么多機(jī)器可怎么辦呢?
說到這里,就想起云計(jì)算的好處了吧,真的是想什么時(shí)候要,就什么時(shí)候要,想要多少就要多少。例如大數(shù)據(jù)分析企業(yè)的財(cái)務(wù)狀況,可能一個(gè)月分析一次,假如要把這一百臺(tái)服務(wù)器或者一千臺(tái)服務(wù)器都在那擺著,一個(gè)月用一次吧,特別鋪張。那能不能需要計(jì)算的時(shí)候,把這一千臺(tái)服務(wù)器拿出來用,然后不用的時(shí)候,這一千臺(tái)機(jī)器可以去干別的事情。誰能做這個(gè)事兒呢?只有云計(jì)算服務(wù)商(比如文中提到的易邁云),能夠?yàn)榇髷?shù)據(jù)的運(yùn)算供應(yīng)資源層面的敏捷性。而云計(jì)算服務(wù)商也會(huì)部署大數(shù)據(jù)放到它的PaaS平臺(tái)上,作為一個(gè)特別重要的通用應(yīng)用。由于大數(shù)據(jù)平臺(tái)能夠使得多臺(tái)機(jī)器一起干一個(gè)事兒,這個(gè)東西不是一般人或團(tuán)隊(duì)能開發(fā)出來的,怎么也得雇個(gè)幾十上百號(hào)專業(yè)人才能把這個(gè)玩起來,所以說就像數(shù)據(jù)庫一樣,其實(shí)還是需要有一幫專業(yè)的人來玩這個(gè)東西。
現(xiàn)在公有云服務(wù)商(像易邁云)就提出了相應(yīng)的大數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年液壓液行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2024-2030年海鮮水產(chǎn)產(chǎn)業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資研究報(bào)告
- 2024-2030年海上電站工程行業(yè)市場(chǎng)深度分析及發(fā)展策略研究報(bào)告
- 2024-2030年河南省中醫(yī)藥大數(shù)據(jù)產(chǎn)業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2024-2030年汽車輪轂行業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資管理策略研究報(bào)告
- 2024-2030年正畸托槽市場(chǎng)競(jìng)爭(zhēng)戰(zhàn)略預(yù)測(cè)及投資風(fēng)險(xiǎn)預(yù)警研究報(bào)告
- 2024-2030年棉籽油行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2024-2030年樣品制備系統(tǒng)行業(yè)市場(chǎng)現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評(píng)估規(guī)劃分析研究報(bào)告
- 2024-2030年果聚糖行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2024-2030年服裝加工產(chǎn)業(yè)發(fā)展分析及專項(xiàng)規(guī)劃研究報(bào)告
- 江蘇省南京市2025屆高三上學(xué)期第一次學(xué)情調(diào)研語文試題及答案
- 2023-2024學(xué)年九年級(jí)上學(xué)期數(shù)學(xué)(北師大版)第一次月考試卷附詳細(xì)答案
- 2024年湖南邵陽市財(cái)政局所屬事業(yè)單位招聘歷年高頻考題難、易錯(cuò)點(diǎn)模擬試題(共500題)附帶答案詳解
- (完整版)新員工進(jìn)場(chǎng)三級(jí)安全教育考核-試卷及答案
- 福建龍巖連城縣水利局下屬事業(yè)單位遴選(高頻重點(diǎn)復(fù)習(xí)提升訓(xùn)練)共500題附帶答案詳解
- 大數(shù)據(jù)模擬考試題庫500題(含答案)
- 人教版四年級(jí)上冊(cè)音樂《唱歌 守株待兔的老農(nóng)夫》說課稿
- 人無信不立-初中語文 八上第二單元綜合性學(xué)習(xí) 公開課一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)
- 高中學(xué)生一日常規(guī)管理細(xì)則
- 2024年交管12123學(xué)法減分考試題庫和答案
- 深基坑開挖與支護(hù)施工監(jiān)理實(shí)施細(xì)則
評(píng)論
0/150
提交評(píng)論