![盤點(diǎn):關(guān)于大數(shù)據(jù)的十大謬見_第1頁(yè)](http://file4.renrendoc.com/view/a3d8d2a822070b8efc513d529de30573/a3d8d2a822070b8efc513d529de305731.gif)
![盤點(diǎn):關(guān)于大數(shù)據(jù)的十大謬見_第2頁(yè)](http://file4.renrendoc.com/view/a3d8d2a822070b8efc513d529de30573/a3d8d2a822070b8efc513d529de305732.gif)
![盤點(diǎn):關(guān)于大數(shù)據(jù)的十大謬見_第3頁(yè)](http://file4.renrendoc.com/view/a3d8d2a822070b8efc513d529de30573/a3d8d2a822070b8efc513d529de305733.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
盤點(diǎn):關(guān)于大數(shù)據(jù)的十大謬見
但是,業(yè)界定義的大數(shù)據(jù)是指迅速收集的、各種各樣的、大量的數(shù)據(jù)集合,而不是能夠處理一切問題的萬能解決方案。在現(xiàn)實(shí)中,如果一些企業(yè)偏信這些與大數(shù)據(jù)相關(guān)的謬見,那么這些企業(yè)很可能會(huì)偏離正軌,走向錯(cuò)誤的發(fā)展方向,浪費(fèi)大量的時(shí)間和金錢,喪失其在市場(chǎng)上有利的競(jìng)爭(zhēng)地位,還可能損害企業(yè)的聲譽(yù)。此篇文章就講述了業(yè)界常出現(xiàn)的有關(guān)大數(shù)據(jù)十大謬見。1.只有數(shù)據(jù)科學(xué)家才能處理大數(shù)據(jù)事實(shí)上,在處理大數(shù)據(jù)時(shí),光靠數(shù)據(jù)科學(xué)家是遠(yuǎn)遠(yuǎn)不夠的。“如果你不能首先確定到底需要什么樣的信息的話,那么單憑數(shù)據(jù)科學(xué)家自己是不可能成功地從大數(shù)據(jù)中提取有用信息的”,賓夕法尼亞大學(xué)醫(yī)院(PennMedicine)數(shù)據(jù)分析部門高級(jí)主管PatFarrell說:“你還需要熟悉業(yè)界動(dòng)態(tài)、掌握相關(guān)領(lǐng)域知識(shí)的人才,他們知道問題的所在,也了解什么樣的解決方案對(duì)于你所從事的領(lǐng)域最有價(jià)值?!崩纾谫e夕法尼亞大學(xué)醫(yī)院有兩個(gè)系統(tǒng),一個(gè)是醫(yī)療系統(tǒng),一個(gè)是醫(yī)學(xué)院系統(tǒng)。長(zhǎng)期以來,醫(yī)療系統(tǒng)通常從一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中收集臨床醫(yī)療數(shù)據(jù)。與此同時(shí),在醫(yī)學(xué)院系統(tǒng)中,出現(xiàn)了一個(gè)新的技術(shù),可以實(shí)現(xiàn)對(duì)人類基金組的排序,并產(chǎn)生了大量的數(shù)據(jù)。Farrell說:“我們知道這些數(shù)據(jù)一定存在著某些價(jià)值,而我們最終也有了能夠獲取這些價(jià)值的計(jì)算能力。我們將專業(yè)的醫(yī)療知識(shí)與數(shù)據(jù)分析技術(shù)相結(jié)合,為預(yù)測(cè)醫(yī)療開拓了一片新的、更廣闊的領(lǐng)域?!?.數(shù)據(jù)越大,價(jià)值越大收集數(shù)據(jù),并把它儲(chǔ)存起來再登記入冊(cè),這會(huì)花費(fèi)許多時(shí)間、占用很多資源。如果企業(yè)或機(jī)構(gòu)在收集數(shù)據(jù)時(shí)不加選擇、任意地收集大量數(shù)據(jù),那么很可能會(huì)造成大量的資源浪費(fèi),而這些資源完全可以用到更有價(jià)值的項(xiàng)目上去。Farrell建議企業(yè)在收集數(shù)據(jù)之前一定要有一個(gè)具體的目標(biāo),或關(guān)鍵性能指標(biāo),要明確自己需要什么樣的數(shù)據(jù),再去有目的地收集數(shù)據(jù)。Farrell說:“你需要從你收集的數(shù)據(jù)中提取有價(jià)值的信息,但這并不代表你收集的數(shù)據(jù)越多,你所獲得的價(jià)值越大?!?.大數(shù)據(jù)用于大企業(yè)大企業(yè)或許會(huì)有更多的內(nèi)部數(shù)據(jù)來源,他們可以利用這些數(shù)據(jù)獲取對(duì)自身企業(yè)發(fā)展有價(jià)值的東西。但這并不代表大數(shù)據(jù)只用于大企業(yè),小企業(yè)也能夠收集來自社交媒體平臺(tái)、政府機(jī)構(gòu)和數(shù)據(jù)供應(yīng)商的數(shù)據(jù),并從這些數(shù)據(jù)中提取有利信息。戴爾軟件信息管理解決方案部門的產(chǎn)品管理高級(jí)總監(jiān)DarinBartik說:“對(duì)于企業(yè)來說,不管它的規(guī)模有多大,利用數(shù)據(jù)分析制定的決策總比單純依靠直覺或第六感制定的決策要好得多,且更加可靠?!毙∑髽I(yè)雖然不像大企業(yè)那樣經(jīng)常利用數(shù)據(jù)分析來制定決策,但是當(dāng)這些小企業(yè)真正這樣做的時(shí)候,它們會(huì)使公司走向快速、正確的發(fā)展軌道。DarinBartik說:“小企業(yè)可以利用其最佳實(shí)踐,進(jìn)一步推動(dòng)數(shù)據(jù)分析決策在企業(yè)中的發(fā)展,以此趕超或者勝過那些強(qiáng)大的競(jìng)爭(zhēng)對(duì)手?!?.收集數(shù)據(jù)后不及時(shí)整理分類位于美國(guó)舊金山的云計(jì)算商業(yè)智能供應(yīng)商Birst的首席執(zhí)行官BradPeters表示,雖然數(shù)據(jù)存儲(chǔ)的成本越來越低,但它并不是免費(fèi)的。然而,對(duì)于許多大公司來說,它們對(duì)于數(shù)據(jù)欲望的增長(zhǎng)速度要比數(shù)據(jù)存儲(chǔ)成本降低的速度快得多。許多企業(yè)往往在收集完數(shù)據(jù)之后,并不迅速處理這些數(shù)據(jù),造成數(shù)據(jù)存儲(chǔ)成本增加。BradPeters說:“我發(fā)現(xiàn)很多大的企業(yè)或機(jī)構(gòu)收集了一大堆數(shù)據(jù)之后卻不及時(shí)處理這些數(shù)據(jù),導(dǎo)致他們?cè)谶@些數(shù)據(jù)上的開支逐漸增大,而他們也并沒有從這些數(shù)據(jù)中獲取任何價(jià)值。”事實(shí)上,企業(yè)中的一些數(shù)據(jù)集已經(jīng)開始造成了企業(yè)的收益遞減。這種現(xiàn)象就像通過分析選民數(shù)據(jù)信息來預(yù)測(cè)選舉結(jié)果一樣,在預(yù)測(cè)過程中,你需要一定數(shù)量的選民作為樣本,但是如果樣本數(shù)量超過一個(gè)臨界點(diǎn)之后,無論增加多少選民,對(duì)于預(yù)測(cè)結(jié)果不會(huì)有任何太大的影響。也就是說,樣本數(shù)量過多,所花費(fèi)的成本也就越多,但對(duì)于目標(biāo)沒有任何實(shí)質(zhì)性的價(jià)值?!皵?shù)據(jù)冗余的話,企業(yè)支出的不僅僅是存儲(chǔ)成本,還會(huì)面臨許多其他的問題”,Recommind公司信息治理和大數(shù)據(jù)管理全球主管DeanGonsowski說。比如,如果數(shù)據(jù)泄露的話,那么公司也會(huì)承擔(dān)相應(yīng)的損失。Recommind是一家位于美國(guó)舊金山的專注于非結(jié)構(gòu)化數(shù)據(jù)分析的公司。最終,數(shù)據(jù)越多,那么分類整理數(shù)據(jù)所需要的時(shí)間也就越多。DeanGonsowski說:“當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模達(dá)到數(shù)十億條記錄時(shí),那么光是檢索數(shù)據(jù)就需要花上幾個(gè)小時(shí),甚至是幾個(gè)星期。這時(shí)候,這些信息非但不會(huì)給企業(yè)帶來商業(yè)價(jià)值,反而會(huì)阻礙企業(yè)系統(tǒng)的運(yùn)轉(zhuǎn),因?yàn)檫@些系統(tǒng)根本不能處理這么大信息量?!?.所有數(shù)據(jù)都是一樣的美國(guó)佛吉尼亞州曾收集過在過去20年里學(xué)生的注冊(cè)信息、獎(jiǎng)學(xué)金,以及學(xué)位授予情況的數(shù)據(jù),但這并不意味著20年前收集的與之存儲(chǔ)在同一個(gè)數(shù)據(jù)域里的數(shù)據(jù)就一定是相同的數(shù)據(jù)。佛吉尼亞州高等教育委員會(huì)的政策研究和數(shù)據(jù)倉(cāng)庫(kù)部門的主管TodMassa說:“由于數(shù)據(jù)都存儲(chǔ)在一個(gè)數(shù)據(jù)倉(cāng)庫(kù)里,這導(dǎo)致研究人員認(rèn)為這些數(shù)據(jù)都是等同的,而這正是我需要處理的一個(gè)最大的問題。我們收集的ACT(AmericanCollegeTest,美國(guó)大學(xué)入學(xué)考試)和SAT(ScholasticAssessmentTest,學(xué)術(shù)能力評(píng)估測(cè)試)的學(xué)生成績(jī),最初我們收集的只是整個(gè)佛吉尼亞州的學(xué)生成績(jī),但這導(dǎo)致我們的調(diào)查研究出現(xiàn)一個(gè)缺口,所以后來我們不僅收集了佛吉尼亞州的數(shù)據(jù),還收集了其他州學(xué)生的數(shù)據(jù)。而且,不同種族在K-12級(jí)和高等教育的數(shù)據(jù)也不同?!笔聦?shí)上,任何特定的數(shù)據(jù),如果由不同的組織機(jī)構(gòu),或在不同的時(shí)間內(nèi),或由不同的人發(fā)布的話,也有所不同。TodMassa說:“假如收集數(shù)據(jù)的這家公司或機(jī)構(gòu)是完全孤立或與世隔絕的,那么情況可能會(huì)不一樣。但我認(rèn)為,隨著時(shí)間的推移,它們收集的數(shù)據(jù)也會(huì)有所變化。”因此,數(shù)據(jù)分析人員不僅要有數(shù)據(jù)統(tǒng)計(jì)的技能,還要掌握一定的數(shù)據(jù)知識(shí),并清楚地了解相關(guān)行業(yè)內(nèi)的動(dòng)向和整體發(fā)展趨勢(shì)。這一點(diǎn)也同樣適用于從外部數(shù)據(jù)源收集的數(shù)據(jù),過去的那種數(shù)據(jù)收集和分析的方式已經(jīng)完全改變了。能夠了解不同的數(shù)據(jù)文化背景和數(shù)據(jù)環(huán)境,對(duì)于充分利用這些數(shù)據(jù)是非常必要的。6.數(shù)據(jù)預(yù)測(cè)越具體越好我們通常認(rèn)為,如果一件事情越具體,那么它就會(huì)越精確,比如,“下午三點(diǎn)十二分”就比“下午某個(gè)時(shí)候”更加精確;氣象學(xué)家預(yù)測(cè)“周日早上會(huì)有降雨”就比“這周末50%會(huì)下雨”的預(yù)測(cè)要精確得多。但是事實(shí)上,結(jié)果正好相反。大多數(shù)情況下,預(yù)測(cè)得越具體其準(zhǔn)確率反而并不高。例如,一個(gè)顧客買了一臺(tái)具有特殊配置的電腦,而另一個(gè)購(gòu)買了同樣一款電腦的顧客又購(gòu)買了一雙亮粉色的高跟鞋?!霸谶@一數(shù)據(jù)信息中,購(gòu)買亮粉色高跟鞋的信息顯得有些太過具體甚至有些多余,這可能會(huì)影響數(shù)據(jù)分析的過程,給數(shù)據(jù)分析結(jié)果造成一定的誤差”,美國(guó)加利福尼亞圣塔莫尼卡的營(yíng)銷公司RetentionScience的首席執(zhí)行官JerryJao說。JerryJao表示,這通常是業(yè)務(wù)和營(yíng)銷經(jīng)理常會(huì)出現(xiàn)的問題。7.大數(shù)據(jù)等同于HadoopHadoop是業(yè)界比較流行的非結(jié)構(gòu)化數(shù)據(jù)的開源架構(gòu),近來也引起了不少業(yè)界的關(guān)注。但是Hadoop并不是大數(shù)據(jù)的唯一解決方案,企業(yè)還有許多其他的選擇。SAP大數(shù)據(jù)總經(jīng)理和資深副總裁IrfanKhan指出企業(yè)還可以選擇NoSQL、MongoDB、Cassandra或其他相關(guān)技術(shù)來處理大數(shù)據(jù)。這些技術(shù)中的某些技術(shù)對(duì)于處理一些特殊的大數(shù)據(jù)問題非常有效。尤其是Hadoop,它可以把數(shù)據(jù)分成若干個(gè)數(shù)據(jù)組,并能同時(shí)處理多個(gè)數(shù)據(jù)組。Hadoop解決方案可以用來處理許多大數(shù)據(jù)相關(guān)的問題,但并不是所有大數(shù)據(jù)的問題它都能處理。位于美國(guó)加州雷德伍德城的大數(shù)據(jù)咨詢公司LucidWorks的首席技術(shù)官GrantIngersoll說:“YARN(Hadoop新版中的資源控制框架)和Hadoop2可以處理大數(shù)據(jù)的一些問題,但在大數(shù)據(jù)的其他問題上,Hadoop或許并不是最佳的解決方案。在處理大數(shù)據(jù)之前,企業(yè)應(yīng)該認(rèn)真分析問題,并根據(jù)自身的實(shí)際情況選出一個(gè)最佳的、最合適的解決方案,而不是盲目跟風(fēng),選擇那些使用率較高的解決方案。8.最終用戶不需要直接訪問大數(shù)據(jù)隨著企業(yè)從各種各樣的來源快速收集大量的數(shù)據(jù)信息,對(duì)于企業(yè)的普通員工而言,這些數(shù)據(jù)處理器起來非常復(fù)雜,但事實(shí)并非如此。例如,在重癥病房中,醫(yī)療設(shè)備上會(huì)產(chǎn)生大量的數(shù)據(jù),如心跳速度、呼吸數(shù)據(jù)和心電圖讀數(shù)等,但大多情況下,醫(yī)生和護(hù)士只能看到病人當(dāng)前的數(shù)據(jù),卻看不到歷史數(shù)據(jù)。飛利浦醫(yī)療保健(PhilipsHealthcare)病患護(hù)理和臨床信息(PCCI)系統(tǒng)的首席營(yíng)銷官AnthonyJones:“我根本看不到10分鐘之前醫(yī)療器械上顯示的病人的數(shù)據(jù),更不可能畫出這些數(shù)據(jù)在一個(gè)小時(shí)內(nèi)的趨勢(shì)曲線圖。”但是,對(duì)于醫(yī)生來說,病人的歷史數(shù)據(jù)是非常有價(jià)值的,他們可以根據(jù)這一數(shù)據(jù)制定更好的護(hù)理方案。AnthonyJones表示,如今,我們需要讓所有能夠生成數(shù)據(jù)的醫(yī)療設(shè)備進(jìn)行交互(盡管這些設(shè)備最初并沒有這樣的性能),并使用不同的平臺(tái)、操作系統(tǒng)和程序語(yǔ)言。一旦我們這樣做了,那么醫(yī)護(hù)人員就能夠獲得他們所需要的有用的數(shù)據(jù)。9.大數(shù)據(jù)用來解決大問題一家大型銀行的首席信息官近期發(fā)表其對(duì)大數(shù)據(jù)的看法,同時(shí)也談到了終端用戶自主服務(wù)的問題。據(jù)Birst公司首席執(zhí)行官Peters回憶說,這位銀行的首席信息官并不支持最終用戶自助服務(wù)。Peters表示,許多企業(yè)的主管們認(rèn)為大數(shù)據(jù)只能解決一些特殊類型的大問題。他說:“一些人使用大數(shù)據(jù)的目的是利用一個(gè)核心的數(shù)據(jù)科學(xué)家團(tuán)隊(duì)幫助他們解決少數(shù)且高價(jià)值的問題。他們從沒有考慮過讓普通人接觸這些數(shù)據(jù)信息,因?yàn)樗麄冇X得這些人根本不需要這些數(shù)據(jù)。”對(duì)此,Peters并不贊同這種想法,但這種想法在很多行業(yè)里非常普遍。Peters說:“一些大的保險(xiǎn)公司普遍陷入一個(gè)誤區(qū),它們認(rèn)為他們的最終客戶不具備處理自助服務(wù)的能力?!?0.大數(shù)據(jù)的泡沫最終會(huì)破裂媒體上對(duì)大數(shù)據(jù)的宣傳和炒作反反復(fù)復(fù)、起伏跌宕,但就大數(shù)據(jù)技術(shù)本身來講,它最終會(huì)面臨變革。大數(shù)據(jù)的泡沫或許并不代表大數(shù)據(jù)的終結(jié),就像互聯(lián)網(wǎng)泡沫不代表互聯(lián)網(wǎng)的終結(jié)一樣。即使有關(guān)大數(shù)據(jù)的炒作平息了下來,企業(yè)也仍然會(huì)有大數(shù)據(jù)需要處理。由于未來大數(shù)據(jù)將成指數(shù)級(jí)增長(zhǎng),企業(yè)要處理的大數(shù)據(jù)比他們想象的還要多。據(jù)市場(chǎng)調(diào)查公司IDC預(yù)測(cè),到2020年企業(yè)所收集的數(shù)據(jù)總量每?jī)赡陼?huì)翻一倍。而且,未來企業(yè)收集的數(shù)據(jù)并不只是在數(shù)量上簡(jiǎn)單的增長(zhǎng),同時(shí)他們還將收集到許多新類型的數(shù)據(jù)信息,而這需
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湘教版地理七年級(jí)上冊(cè)《第三節(jié) 影響氣候的主要因素》聽課評(píng)課記錄2
- 蘇科版數(shù)學(xué)七年級(jí)上冊(cè)《有理數(shù)的減法法則》聽評(píng)課記錄2
- 現(xiàn)場(chǎng)管理承包協(xié)議書
- 生活指南版權(quán)使用合同(2篇)
- 魯人版道德與法治九年級(jí)上冊(cè)2.2 做大蛋糕 分好蛋糕 聽課評(píng)課記錄
- 聽評(píng)課一年級(jí)記錄怎么寫
- 吉林省八年級(jí)數(shù)學(xué)下冊(cè)17函數(shù)及其圖象17.4反比例函數(shù)17.4.1反比例函數(shù)聽評(píng)課記錄新版華東師大版
- 蘇科版九年級(jí)數(shù)學(xué)聽評(píng)課記錄:第52講 用待定系數(shù)法求二次函數(shù)的解析式
- 五年級(jí)數(shù)學(xué)上冊(cè)聽評(píng)課記錄
- 滬科版數(shù)學(xué)七年級(jí)下冊(cè)10.2《平行線的判定》聽評(píng)課記錄3
- 小學(xué)六年級(jí)數(shù)學(xué)上冊(cè)《簡(jiǎn)便計(jì)算》練習(xí)題(310題-附答案)
- 2024年河南省《輔警招聘考試必刷500題》考試題庫(kù)及答案【全優(yōu)】
- -情景交際-中考英語(yǔ)復(fù)習(xí)考點(diǎn)
- 安全隱患報(bào)告和舉報(bào)獎(jiǎng)勵(lì)制度
- 地理標(biāo)志培訓(xùn)課件
- 2023行政主管年終工作報(bào)告五篇
- 2024年中國(guó)養(yǎng)老產(chǎn)業(yè)商學(xué)研究報(bào)告-銀發(fā)經(jīng)濟(jì)專題
- 公園衛(wèi)生保潔考核表
- 培訓(xùn)如何上好一堂課
- 高教版2023年中職教科書《語(yǔ)文》(基礎(chǔ)模塊)下冊(cè)教案全冊(cè)
- 人教版英語(yǔ)七年級(jí)上冊(cè)閱讀理解專項(xiàng)訓(xùn)練16篇(含答案)
評(píng)論
0/150
提交評(píng)論